CN103984749B - 一种基于链接分析的聚焦爬虫方法 - Google Patents

一种基于链接分析的聚焦爬虫方法 Download PDF

Info

Publication number
CN103984749B
CN103984749B CN201410227771.4A CN201410227771A CN103984749B CN 103984749 B CN103984749 B CN 103984749B CN 201410227771 A CN201410227771 A CN 201410227771A CN 103984749 B CN103984749 B CN 103984749B
Authority
CN
China
Prior art keywords
link
tree
mrow
webpage
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410227771.4A
Other languages
English (en)
Other versions
CN103984749A (zh
Inventor
屈鸿
周安林
张马路
孙明
邵领
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410227771.4A priority Critical patent/CN103984749B/zh
Publication of CN103984749A publication Critical patent/CN103984749A/zh
Application granted granted Critical
Publication of CN103984749B publication Critical patent/CN103984749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于链接分析的聚焦爬虫方法,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤:抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。本发明的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。

Description

一种基于链接分析的聚焦爬虫方法
技术领域
一种基于链接分析的聚焦爬虫方法,用于导航爬虫准确地抓取网页,涉及互联网信息检索、搜索引擎等领域,具体涉及基于网页链接分析——建立链接模版树。
背景技术
海量的Web数据给信息检索(InformationRetrieval)带来了前所未有的挑战,通用搜索引擎技术是Web信息检索的主要解决方案。如Google、百度、Bing等通用搜索引擎,网民已经很方便地通过这些搜索引擎,输入关键字,获取所需要的Web信息。
爬虫技术是搜索引擎中不可分割的部分,互联网向人们提供了海量的知识和信息,爬虫技术就是用来从海量Web资源中自动下载Web内容,其基本原理是:实现提供一些入口URL,也被称为种子链接,然后以这些种子链接为起点,按照广度优先或者深度优先的策略不断地爬取和下载页面。爬虫技术解决了互联网中海量信息如何获取的问题。
聚焦爬虫技术与传统爬虫技术的区别就是聚焦爬虫只爬取预先设定的特定领域或者主题的网页。目前聚焦爬虫技术多基于网页内容分析,通过下载网页后,分析网页内容,去除不符合要求的网页,该过程造成了网络带宽和系统处理资源的浪费,分析网页内容时,也浪费大量时间。而目前基于链接的聚焦爬虫,主要判断链接周围文本和主题的相关程度,但是其中包含的信息量较少,因此基于该方法的聚焦爬虫的准确率不高。
发明内容
本发明针对现有技术的不足之处提供了一种基于链接分析的聚焦爬虫方法,用以解决现有聚焦爬虫抓取网页准确率和效率较低的问题。
为实现上述目的,本发明采用的技术方案为:
一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤:
(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;
(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;
(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。
作为优选,步骤(1)中,所述建立目标网页链接树的具体步骤如下:
(11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构;
(12)初始化链接树,即将链接树设置为一棵空树;
(13)初始化链接队列,将网站的入口链接加入到链接队列尾部;
(14)从链接队列头部取出链接,广度优先地抓取网页;
(15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为叶子节点,否则记录路径;
(16)分析抓取的目标网页,提取目标网页中的链接,添加到链接队列尾部;
(17)抓取的网页依层数递增,如果没有达到阈值,继续循环地按层次广度优先抓取网页,否则目标网页链接树建立过程结束。
作为优选,步骤(15)中,所述抓取的网页和目标样本网页进行比较的步骤如下:
(151)将目标样本网页和抓取的网页转换成DOM树(DocumentObjectModel,文档对象化模型),就是将网页解析成HTML标签树——DOM树的结构;
(152)使用层次遍历的方法比较两个DOM树的结构是否相同;
(153)使用数据结构中的队列作为辅助结构,比较DOM树中每一层的HTML标签,如果标签相同,继续比较,直到遍历结束,返回true,反之,如果对应的标签不一样,则返回false。
作为优选,步骤(2)中,所述链接模版树的形成包括以下步骤:
(21)将链接树中每一层相似的链接聚合,从相似链接集合中抽取出正则表达式,比较链接之间的相似程度,其中比较链接i和链接j之间的相似程度公式如下:
pre(i,j)表示URLi和URLj相同的前缀字符个数,len(i)表示URLi的字符个数,len(j)表示URLj的字符个数,tail(i,j)表示URLi和URLj相同的后缀字符个数,α、β、γ和δ是归一化因子,0≤α≤1,0≤β≤1,0≤γ≤1,0≤δ≤1且α+β+γ+δ=1,使得NUS(i,j)在0到1之间,值越大表示链接相似度越高。
(22)判断链接树中每一层节点的相似度,将每一层相似的链接聚合成一类,对于每一类中的链接使用正则表达式来归纳,并用正则表达式表示的链接替代链接树中的链接。
作为优选,步骤(22)中,所述聚合的每一类链接,使用正则表达式归纳的步骤如下:
(221)将链接分为host和path两个部分,并将host和path分别处理;
(222)将host中相同部分保留原样,写入正则表达式,不同部分用*代替写入正则表达式;
(223)将path部分按照路径长度再次划分为路径段,依次比较路径,只要有不相同的部分,则结束比较,未比较的路径段使用*代替,相同的部分原样写入正则表达式,直到比较结束;
(224)最后将host和path的正则表达式合并,形成一个以正则表达式表示的链接。
作为优选,步骤(3)中,所述爬虫使用链接模版树作为导航的具体步骤为:
(31)初始化链接队列,将网页入口地址加入到链接队列尾端;
(32)从链接队列头部取出链接,下载链接对应的网页,分析网页内容并提取出网页中的链接;
(33)将网页中提取出的链接和链接模版树中对应层的链接模版进行比较,如果匹配,则加入到链接队列尾端,否则舍弃;
(34)判断爬虫抓取是否达到阈值,是则停止爬虫,否则重复(32)和(33),直到爬虫达到设定的抓取层数。
与现有技术相比,本发明的优点在于:
一、由于动态网页的结构都是基于同一模版的,本发明提出了链接模版树的概念,通过链接模版树的导航作用,过滤无用链接,不需要先下载然后再过滤网页,节省了网络带宽和系统处理资源,而且由于链接模版树地导航作用,爬虫下载目标网页的准确率也大大提升;
二、本发明在建立链接模版树的过程中,只需要一个样本目标网页,用于比较网页的结构,需要的训练数据较少,处理过程简易,效率较高,而且形成的链接模版树准确性也较高;
三、本发明中使用正则表达式来归纳链接,能够准确地识别目标网页所在的路径以及目标网页,因此能够提高爬虫下载目标网页的准确率;
四、本发明中在聚类链接时,提出的链接相似度公式,考虑到链接前后的相同的字符,能够很好地判断链接的相似程度,提高了链接聚类的效率和准确性。
附图说明
图1为本发明中通过链接模版树导航的爬虫的流程图;
图2为本发明建立目标网页链接树流程图;
图3为本发明某个网站的链接树举例;
图4为本发明使用正则表达式归纳链接树的流程图;
图5为本发明中归纳的链接模版树举例。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
一种基于链接分析的聚焦爬虫方法,包括如下步骤:
(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树。
所述建立目标网页链接树的具体步骤如下:
(11)选择一个目标网页作为目标样本网页,用于比较将下载的网页结构;
(12)初始化链接树,即将链接树设置为一棵空树;
(13)初始化链接队列,将网站的入口链接加入到链接队列尾部,链接队列是存储结构,用来存储网页中提取的链接,必须要有第一个链接放进去,才能不断的下载网页,提取网页中的链接;
(14)从链接队列头部取出链接,广度优先地抓取网页;
(15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为叶子节点,否则记录路径;
所述抓取的网页和目标样本网页进行比较的步骤如下:
(151)将目标样本网页和抓取的网页转换成DOM树(DocumentObjectModel,文档对象化模型),就是将网页解析成HTML标签树——DOM树的结构;
(152)使用层次遍历的方法比较两个DOM树的结构是否相同;
(153)使用数据结构中的队列作为辅助结构,比较DOM树中每一层的HTML标签,如果标签相同,继续比较,直到遍历结束,返回true,反之,如果对应的标签不一样,则返回false。
(16)分析抓取的目标网页,提取目标网页中的链接,添加到链接队列尾部,即从下载的网页中提取出链接,再加入到队列中;
(17)抓取的网页依层数递增,如果没有达到阈值,继续循环地按层次广度优先抓取网页,否则目标网页链接树建立过程结束。
如图2,使用普通爬虫技术从目标网站入口网站开始,抓取网页,提取出网页中的链接,并将网页和目标样本网页的结构进行比较,如果结构相同则将该网页从入口链接开始的路径加入到链接树中,链接树如图3所示。如果网页结构不同,则记录网页的路径。按网页的层次,逐层的抓取网页,进行比较和记录,直到达到预先设定的抓取层数。
如图3为某个网站的链接树,通过对该网站进行普通抓取建立的链接树形式。
(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树。
所述链接模版树的形成包括以下步骤:
(21)将链接树中相似的链接聚合,从相似链接集合中抽取出正则表达式,比较链接之间的相似程度,其中比较链接i和链接j之间的相似程度公式如下:
pre(i,j)表示URLi和URLj相同的前缀字符个数,len(i)表示URLi的字符个数,len(j)表示URLj的字符个数,tail(i,j)表示URLi和URLj相同的后缀字符个数,α、β、γ和δ是归一化因子,0≤α≤1,0≤β≤1,0≤γ≤1,0≤δ≤1且α+β+γ+δ=1,使得NUS(i,j)在0到1之间,值越大表示网页链接符合同一链接的标准。
(22)判断链接树中每一层节点的相似度,将每一层相似的链接聚合成一类,对于每一类中的链接使用正则表达式来归纳,使用正则表达式替代链接树中的链接。
所述聚合的每一类链接,使用正则表达式归纳的步骤如下:
(221)将链接分为host和path两个部分,如http://item.jd.com/11362746.html,域名为item.jd.com,路径名为/11362746.html,将host和path分别处理;
(222)将host中相同部分保留原样,写入正则表达式,不同部分用*代替写入正则表达式;
(223)将path部分按照路径长度再次划分为路径段,依次比较路径,只要有不相同的部分,则结束比较,未比较的路径段使用*代替,相同的部分原样写入正则表达式,直到比较结束;
(224)最后将host和path的正则表达式合并,形成一个以正则表达式表示的链接。
如图4为将链接树归纳为链接模版树的过程,将链接可以分为host和path两个部分,host和path分别处理;host中相同部分保留原样,写入正则表达式,不同部分用*代替写入正则表达式;path部分按照路径长度再次划分为路径段,依次比较路径,只要有不相同的部分,则结束比较,未比较的路径段使用*代替,相同的部分原样写入正则表达式,直到比较结束;最后将host和path的正则表达式合并,形成一个以正则表达式表示的链接。
如图5为图3所示的链接树,通过链接模版树的归纳过程建立的链接模版树。
(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。
所述爬虫使用链接模版树作为导航的具体步骤为:
(31)初始化链接队列,将网页入口地址加入到链接队列尾端,链接队列是存储结构,用来存储网页中提取的链接,必须要有第一个链接放进去,才能不断的下载网页,提取网页中的链接;
(32)从链接队列头部取出链接,下载链接对应的网页,分析网页内容并提取出网页中的链接;
(33)将网页中提取出的链接和链接模版树中对应层的链接模版比较,如果匹配,则加入到链接队列尾端,即从下载的网页中提取出链接,再加入到队列中,否则舍弃;
(34)判断爬虫抓取是否达到阈值,是则停止爬虫,否则重复(32)和(33),直到爬虫达到设定的抓取层数。
如图1,一种基于链接分析的聚焦爬虫技术,首先从网站入口链接开始,抽取页面中的链接,将链接与链接模版树相对比,如果匹配则将链接加入到链接队列中,否则丢弃该链接。然后判断爬虫是否满足停止条件,不满足则从链接队列中选取链接继续抓取网页,满足则停止爬虫的抓取过程。爬虫的抓取过程是一个循环过程,按照层次不断的比较每一层的链接,去除无用链接,下载需要的链接。
具体而言,首先需要训练出链接模版树,训练链接模版树的过程如图2所示。首先选取需要下载的一个目标网页,作为目标样本网页,然后将样本网页转换为DOM树结构,有利于将网页结构的比较。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims (4)

1.一种基于链接分析的聚焦爬虫方法,其特征在于,包括如下步骤:
(1)抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;所述建立目标网页链接树的具体步骤如下:
(11)选择一个网页作为目标样本网页,用于比较将下载的网页结构;
(12)初始化链接树,即将链接树设置为一棵空树;
(13)初始化链接队列,将网站的入口链接加入到链接队列尾部;
(14)从链接队列头部取出链接,广度优先地抓取网页;
(15)将抓取的网页和目标样本网页进行比较,如果结构相同,则将该目标网页的路径添加到链接树中,将目标网页的链接作为叶子节点,否则记录路径;
(16)分析抓取的目标网页,提取目标网页中的链接,添加到链接队列尾部;
(17)抓取的网页依层数递增,如果没有达到阈值,继续循环地按层次广度优先抓取网页,否则目标网页链接树建立过程结束;
(2)分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;所述链接模版树的形成包括以下步骤:
(21)将链接树中每一层相似的链接聚合,从相似链接集合中抽取出正则表达式,比较链接之间的相似程度,其中比较链接i和链接j之间的相似程度公式如下:
<mrow> <mi>N</mi> <mi>U</mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;alpha;</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&amp;beta;</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&amp;gamma;</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>t</mi> <mi>a</mi> <mi>i</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>&amp;delta;</mi> <mo>&amp;times;</mo> <mfrac> <mrow> <mi>t</mi> <mi>a</mi> <mi>i</mi> <mi>l</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>l</mi> <mi>e</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
pre(i,j)表示URLi和URLj相同的前缀字符个数,len(i)表示URLi的字符个数,len(j)表示URLj的字符个数,tail(i,j)表示URLi和URLj相同的后缀字符个数,α、β、γ和δ是归一化因子,0≤δ≤1,0≤β≤1,0≤γ≤1,0≤δ≤1且α+β+γ+δ=1,使得NUS(i,j)在0到1之间,值越大表示链接相似度越高;
(22)判断链接树中每一层节点的相似度,将每一层相似的链接聚合成一类,对于每一类中的链接使用正则表达式来归纳,并用正则表达式表示的链接替代链接树中的链接;
(3)爬虫使用链接模版树作为导航,抓取与链接模版树相匹配的网页链接,直到整个抓取循环过程结束,最终抓取完所有目标网页。
2.根据权利要求1所述的一种基于链接分析的聚焦爬虫方法,其特征在于,步骤(15)中,所述抓取的网页和目标样本网页进行比较的步骤如下:
(151)将目标样本网页和抓取的网页转换成DOM树,就是将网页解析成HTML标签树——DOM树的结构;
(152)使用层次遍历的方法比较两个DOM树的结构是否相同;
(153)使用数据结构中的队列作为辅助结构,比较DOM树中每一层的HTML标签,如果标签相同,继续比较,直到遍历结束,返回true,反之,如果对应的标签不一样,则返回false。
3.根据权利要求2所述的一种基于链接分析的聚焦爬虫方法,其特征在于,步骤(22)中,将每一层相似的链接聚合成一类,对于每一类中的链接使用正则表达式来归纳的步骤如下:
(221)将链接分为host和path两个部分,并将host和path分别处理;
(222)将host中相同部分保留原样,写入正则表达式,不同部分用*代替写入正则表达式;
(223)将path部分按照路径长度再次划分为路径段,依次比较路径,只要有不相同的部分,则结束比较,未比较的路径段使用*代替,相同的部分原样写入正则表达式,直到比较结束;
(224)最后将host和path的正则表达式合并,形成一个以正则表达式表示的链接。
4.根据权利要求1所述的一种基于链接分析的聚焦爬虫方法,其特征在于,步骤(3)中,所述爬虫使用链接模版树作为导航的具体步骤为:
(31)初始化链接队列,将网页入口地址加入到链接队列尾端;
(32)从链接队列头部取出链接,下载链接对应的网页,分析网页内容并提取出网页中的链接;
(33)将网页中提取出的链接和链接模版树中对应层的链接模版进行比较,如果匹配,则加入到链接队列尾端,否则舍弃;
(34)判断爬虫抓取是否达到阈值,是则停止爬虫,否则重复步骤(32)和步骤(33),直到爬虫达到设定的抓取层数。
CN201410227771.4A 2014-05-27 2014-05-27 一种基于链接分析的聚焦爬虫方法 Active CN103984749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410227771.4A CN103984749B (zh) 2014-05-27 2014-05-27 一种基于链接分析的聚焦爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410227771.4A CN103984749B (zh) 2014-05-27 2014-05-27 一种基于链接分析的聚焦爬虫方法

Publications (2)

Publication Number Publication Date
CN103984749A CN103984749A (zh) 2014-08-13
CN103984749B true CN103984749B (zh) 2017-10-20

Family

ID=51276722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410227771.4A Active CN103984749B (zh) 2014-05-27 2014-05-27 一种基于链接分析的聚焦爬虫方法

Country Status (1)

Country Link
CN (1) CN103984749B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117501B (zh) * 2015-10-09 2017-07-11 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN105912547A (zh) * 2015-12-15 2016-08-31 乐视网信息技术(北京)股份有限公司 一种基于网络爬虫实现数据快速处理的方法和装置
CN105630673B (zh) * 2015-12-17 2018-12-25 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
CN105577684B (zh) * 2016-01-25 2018-09-28 北京京东尚科信息技术有限公司 防爬虫抓取的方法、服务端、客户端和系统
CN105824965A (zh) * 2016-04-01 2016-08-03 无锡中科富农物联科技有限公司 基于动态爬虫技术的数据源发现方法
CN105912613A (zh) * 2016-04-06 2016-08-31 江苏中威科技软件系统有限公司 一种网站模板快速迁移的方法
CN106547824B (zh) * 2016-09-29 2019-11-15 北京奇艺世纪科技有限公司 一种爬取路径规划方法及装置
CN108733663A (zh) * 2017-04-13 2018-11-02 富士通株式会社 网页抓取方法及设备
CN107798101A (zh) * 2017-10-30 2018-03-13 广州市勤思网络科技有限公司 用户自由点选配置的网页数据采集方法及系统
CN110851746B (zh) * 2018-07-27 2022-08-12 北京国双科技有限公司 爬虫种子生成方法及装置
CN116911926B (zh) * 2023-06-26 2024-08-27 杭州火奴数据科技有限公司 基于数据分析的广告营销推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101601A (zh) * 2007-07-10 2008-01-09 北京大学 网络搜索中的基于链接层次分类的主题爬取方法
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于URL 模式路径的通用主题爬虫;柳明海等;《中国科技论文在线》;20121231;第1-11页 *
基于链接结构和内容相似度的聚焦爬虫系统;倪贤贵等;《计算机工程与设计》;20080430;第29卷(第7期);第1709-1710,1763页 *

Also Published As

Publication number Publication date
CN103984749A (zh) 2014-08-13

Similar Documents

Publication Publication Date Title
CN103984749B (zh) 一种基于链接分析的聚焦爬虫方法
CN105843965B (zh) 一种基于url主题分类的深层网络爬虫表单填充方法和装置
US10764353B2 (en) Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
TWI695277B (zh) 自動化網站資料蒐集方法
CN103530429B (zh) 一种网页正文抽取的方法
US20050251536A1 (en) Extracting information from Web pages
Peters et al. Content extraction using diverse feature sets
CN106599022A (zh) 基于用户访问数据的用户画像形成方法
CN103064984B (zh) 垃圾网页的识别方法及系统
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN102779169A (zh) 一种基于html标签的网页正文提取方法及装置
CN110457579A (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN103699567B (zh) 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
CN105302876A (zh) 基于正则表达式的url过滤方法
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN108874870A (zh) 一种数据抽取方法、设备及计算机可存储介质
US10042827B2 (en) System and method for recognizing non-body text in webpage
CN106528726A (zh) 基于关键词优化实现搜索引擎优化技术
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
CN106528509A (zh) 网页信息提取方法及装置
Alarifi et al. Web spam: A study of the page language effect on the spam detection features

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant