CN104182412B - 一种网页爬取方法及系统 - Google Patents

一种网页爬取方法及系统 Download PDF

Info

Publication number
CN104182412B
CN104182412B CN201310198598.5A CN201310198598A CN104182412B CN 104182412 B CN104182412 B CN 104182412B CN 201310198598 A CN201310198598 A CN 201310198598A CN 104182412 B CN104182412 B CN 104182412B
Authority
CN
China
Prior art keywords
web page
data
node
url
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310198598.5A
Other languages
English (en)
Other versions
CN104182412A (zh
Inventor
赵黎
万鹏
周崎
王韬
何晓军
于光杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTEsoft Technology Co Ltd
China Mobile Group Anhui Co Ltd
Original Assignee
ZTEsoft Technology Co Ltd
China Mobile Group Anhui Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTEsoft Technology Co Ltd, China Mobile Group Anhui Co Ltd filed Critical ZTEsoft Technology Co Ltd
Priority to CN201310198598.5A priority Critical patent/CN104182412B/zh
Publication of CN104182412A publication Critical patent/CN104182412A/zh
Application granted granted Critical
Publication of CN104182412B publication Critical patent/CN104182412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页爬取方法及系统。其中方法包括:对样本网页进行训练得到数据提取条件;爬取web网页;将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。本发明基于网页分析训练方法生成数据提取条件,在将web页面解析后生成dom树结构,根据数据提取条件来对web页面进行分析,当条件完全匹配成功后,精确提取所需的网页链接和数据内容,从而保证了数据的准确性,而且因为不需要分析整个网页所以匹配效率高,另外只提取所需网页链接进行网页爬取,可以保证数据的时效性,节省网络资源,并减少存储空间。

Description

一种网页爬取方法及系统
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种网页爬取方法及系统。
背景技术
现有网络爬虫主要代表有通用网络爬虫和聚焦网络爬虫。
通用网络爬虫又称全网爬虫,其结构大致分为页面爬行模块、页面分析模块、链接过来模块、页面数据库、URL队列、初始URL集合几个部分,其常用的爬行策略有两种:
1、深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。爬虫在完成一个爬行分支后返回到上一链接节点进行搜索其他链接,当所有链接遍历完后,爬行任务结束。
2、广度优先策略:其按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。
聚焦网络爬虫又称主题网络爬虫,是指选择性地搜索出预先定义好的与主题相关页面的爬虫。
现有聚焦网络爬虫主要是通过一定算法来计算页面内容的和连接的重要性,据此调整链接的访问顺序。相应的算法策略主要有以下几种:
1、基于内容评价的爬行策略:以用户输入的查询词作为主题,包含查询词的页面被视为主题相关,其改进算法有利用空间向量模型计算页面与主题的相关度大小。
2、基于连接结构评价的爬行策略:其思想是利于web页面的结构信息来评价连接重要性。其代表有HITS方法,通过技术每个已访问页面的Authority权重和Hub权重,来决定链接的访问顺序。
3、基于增强学习的爬行策略:利用贝叶斯分类器,根据整个网页文本和连接文本对超链接进行分类,为每个链接计算出重要性,从而决定链接的访问顺序。
4、基于语境图的爬行策略:通过建立语境图学习网页之间的相关度,训练一个机器学习系统,通过该系统可计算当前页面到相关web页面的距离,距离越近的页面中的链接优先访问。
现有网络爬虫技术存在如下缺陷:
1、搜索范围广,搜索到的数据准确率低。
2、大量的无关数据会造成网络资源的极大消耗。
3、搜索到有效数据的时效性大大降低。
4、无效数据会占用大量的存储空间。
发明内容
为了解决现有技术中网页爬取数据准确率较低的技术问题,本发明提出一种网页爬取方法及系统。
本发明的一个方面,提供一种网页爬取方法,包括:对样本网页进行训练得到数据提取条件;爬取web网页;将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。
本发明的另一个方面,提供一种网页爬取系统,包括:网页训练装置,用于对样本网页进行训练得到数据提取条件;网页爬取装置,用于从互联网上爬取web网页;网页分析装置,用于将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。
本发明的网页爬取方法及系统,基于网页分析训练方法生成数据提取条件,在将web页面解析后生成dom树结构,根据数据提取条件来对web页面进行分析,当条件完全匹配成功后,精确提取所需的网页链接和数据内容,从而保证了数据的准确性,而且因为不需要分析整个网页所以匹配效率高,另外只提取所需网页链接进行网页爬取,可以保证数据的时效性,节省网络资源,并减少存储空间。
附图说明
图1是本发明网页爬取系统实施例的结构图;
图2是本发明网页训练装置实施例的结构图;
图3是本发明网页爬取系统的工作流程示意图;
图4是本发明本发明网页爬取方法实施例的流程图;
图5是本发明网页爬取方法另一实施例的流程图。
具体实施方式
以下结合附图对本发明进行详细说明。
如图1所示,本发明网页爬取系统实施例包括:网页训练装置11、网页爬取装置12、网页分析装置13、URL队列管理装置14及数据存储装置15。
其中,网页训练装置对样本网页进行训练得到数据提取条件。
网页爬取装置根据URL地址通过http协议从互联网上爬取web网页。其中URL地址从URL队列管理装置中获取,爬取的网页数据交给网页分析装置进行数据分析。
URL队列管理装置遍历URL队列,从URL队列中提取待爬取的URL。网页爬取装置根据所述待爬取的URL从互联网上爬取web网页。
网页分析装置将爬取到的web网页解析成文档对象模型(Document ObjectModel,dom)树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。具体地,网页分析装置从所述web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息(节点名称,节点属性,节点层次关系)对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;当提取到的数据为新URL地址时,将所述URL地址发送到URL队列管理装置;当提取到的数据为内容数据时,将所述内容数据发送到所述数据存储装置。
URL队列管理装置检查所述新URL地址是否已爬取或是否需要重新爬取。URL队列包括待访问URL队列和已访问URL队列。当所述新URL地址不存在于所述已访问队列中时,将所述新URL地址加入到待访问URL队列和已访问URL队列;否则忽略该新URL地址。对于非定时刷新的URL地址,下载完毕后需要从待访问URL地址队列中移除。
数据存储装置存储所述内容数据。本实施例中,数据存储装置采用json格式存储所述内容数据。
如图2所示,网页训练装置具体包括:获取模块21、解析装置22及条件生成装置23。
其中,获取模块获取样本网页及所要提取的数据。解析装置将所述样本网页解析为dom树结构,得到样本网页dom树。当所要提取的数据为内容数据时,条件生成装置遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息(节点名称,节点属性,节点间层次关系)以及内容数据在节点中的位置(归属于节点的内容或者某个属性)记录为数据提取条件;当所要提取的数据为URL地址时,条件生成装置遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
数据提取条件在生成时会进行归并处理。从dom树根节点开始对于具有相同节点信息的条件进行归并。
如图3所示,对网页爬取系统的工作流程进行详细阐述如下:
步骤302,使用样本网页进行分析训练,生成供网页分析使用的数据提取条件;当要爬取某类特定网页数据时,首先使用一个样本网页进行网页分析训练,提供数据内容供网页分析训练装置来生成数据提取条件。
步骤304,根据配置加载初始网页URL地址到搜索地址队列中;
步骤306,加载分析网页的数据提取条件,根据数据提取条件可以抽取网页中的指定URL和搜索存储的内容;
步骤308,遍历搜索地址,如果遍历完毕则转步骤328,否则转步骤310;
步骤310,检查网页地址是否到达处理时间(对于网页可以设置定时循环获取)。未到达则转步骤308取下一个地址,否则转步骤306继续处理;
步骤312,根据搜索地址下载html,并进行网页解析;
步骤314,查找对应的数据提取条件开始对网页内容进行分析处理;
步骤316,遍历找到的每组提取条件,如果遍历完毕则转步骤326,否则转步骤318进行处理;
步骤318,使用数据提取条件中的dom节点信息(节点名称,节点属性,节点层次关系)来分析网页内容,若未找到该节点说明条件不满足,应转步骤316取下一组数据提取条件进行处理,否则转步骤320;
步骤320,对于找到的数据类型内容,以json格式保存到文件;
步骤322,对于找到的URL地址类型内容,检查地址是否存在于搜索地址队列中,如果已经存在则转步骤326处理;否则转步骤324处理;
步骤324,将新的URL地址添加到搜索地址队列中,并转步骤312进行递归处理;
步骤326,检查匹配的规则是否处理完毕,如果没有完成则转步骤316继续处理,否则转步骤328;
步骤328,检查是否接到退出命令或者搜索地址遍历完成且没有定时URL地址需要循环处理,如果完成则转步骤332运行结束;否则转步骤330;
步骤330,进行智能延时处理(防止被网站判定为恶意爬虫,而被拒绝服务),转步骤4继续进行网页搜索。
步骤332,处理完成,工作流程至此结束。
如图4所示,本发明网页爬取方法实施例包括:
步骤402,对样本网页进行训练得到数据提取条件;
步骤404,从互联网上爬取web网页;
步骤406,将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据。
其中,步骤402具体包括:
获取样本网页及所要提取的数据;将所述样本网页解析为dom树结构,得到样本网页dom树;当所要提取的数据为内容数据时,遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及内容数据在节点中的位置记录为数据提取条件;当所要提取的数据为URL地址时,遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
步骤404具体包括:遍历URL队列,从URL队列中提取待爬取的URL;根据所述待爬取的URL从互联网上爬取web网页。
步骤406中,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据包括:
从web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;当提取到的数据为新URL地址时,检查所述新URL地址是否已爬取或是否需要重新爬取;当提取到的数据为内容数据时,存储所述内容数据。
如图5所示,以爬取某类特定网页为例,网页爬取方法具体流程如下:
步骤502,用户提供样本网页和要提取的数据内容,发起网页分析训练请求;
步骤504,网页分析训练装置接收到训练请求,解析样本网页为dom树结构,并根据要提取的内容生成数据提取条件,然后将数据提取条件提交给网页分析装置使用;
步骤506,网页分析训练完成,反馈给用户结果;
步骤508,用户训练完成后,可发起数据爬取请求,对该类网页进行爬取;
步骤510,网页爬取装置接收到网页爬取请求后,开始发起遍历URL队列请求;
步骤512,URL队列管理装置接收到遍历URL队列请求,从队列中依次取出待爬取的URL地址返回给网页爬取装置;
步骤514,网页爬取装置根据URL地址爬取到web网页,并向网页分析装置发起网页分析请求;
步骤516,网页分析装置接收到网页分析请求,将网页解析为dom树结构,然后根据数据提取条件来精确查找到新的URL地址,并发起新增URL请求给URL队列管理装置;
步骤518,URL队列管理装置接收到新增URL请求,检查新增URL地址是否已经爬取过或是否需要重新爬取,并将处理结果反馈给网页分析装置;
步骤520,网页分析装置根据数据提取条件精确查找到数据内容,并发起新增数据请求给数据存储装置;
步骤522,数据存储装置接收到新增数据请求,将数据以json格式保存到文件中,并返回处理结果;
步骤524,网页分析装置根据数据提取条件对网页分析完成后,返回网页处理完成给网页爬取装置;
步骤526,网页爬取装置继续获取URL地址循环上述操作,直到所有的URL地址都爬取完毕,然后向用户反馈数据爬取处理完成。
至此针对某类特定网页的数据爬取结束。
本发明基于网页分析训练方法生成数据提取条件,在将web页面解析后生成dom树结构,根据数据提取条件来对web页面进行分析,当条件完全匹配成功后,精确提取所需的网页链接和数据内容,从而保证了数据的准确性,而且因为不需要分析整个网页所以匹配效率高,另外只提取所需网页链接进行网页爬取,能够极大的减少冗余数据,降低网络开销,从而保证数据的时效性。同时可以大幅度减少空间浪费,节省网络资源,并减少存储空间。另外网页训练可以方便的进行数据提取条件的生成,维护方便。
应说明的是:以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。

Claims (8)

1.一种网页爬取方法,其特征在于,包括:
对样本网页进行训练得到数据提取条件;
爬取web网页;
将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据;
所述对样本网页进行训练得到数据提取条件包括:
获取样本网页及所要提取的数据;
将所述样本网页解析为dom树结构,得到样本网页dom树;
当所要提取的数据为内容数据时,遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及内容数据在节点中的位置记录为数据提取条件;
当所要提取的数据为URL地址时,遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
2.根据权利要求1所述的方法,其特征在于,所述爬取web网页包括:
遍历URL队列,从URL队列中提取待爬取的URL;
根据所述待爬取的URL从互联网上爬取web网页。
3.根据权利要求1所述的方法,其特征在于,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据包括:
从所述web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;
当提取到的数据为新URL地址时,检查所述新URL地址是否已爬取或是否需要重新爬取;
当提取到的数据为内容数据时,存储所述内容数据。
4.一种网页爬取系统,其特征在于,包括:
网页训练装置,用于对样本网页进行训练得到数据提取条件;
网页爬取装置,用于从互联网上爬取web网页;
网页分析装置,用于将爬取到的web网页解析成dom树结构,得到web网页dom树,根据所述数据提取条件对所述web网页dom树进行分析,提取所需数据;
所述网页训练装置包括:
获取模块,用于获取样本网页及所要提取的数据;
解析装置,用于将所述样本网页解析为dom树结构,得到样本网页dom树;
条件生成装置,用于当所要提取的数据为内容数据时,遍历样本网页dom树的节点,分别将内容数据与节点属性值及节点内容进行比较,找到内容数据在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及内容数据在节点中的位置记录为数据提取条件;当所要提取的数据为URL地址时,遍历样本网页dom树的节点,将URL地址与节点内容进行比较,找到URL地址在样本网页dom树中的节点,然后从该节点回溯到样本网页dom树的根节点,将回溯中经历的各节点信息以及节点URL地址属性记录为数据提取条件。
5.根据权利要求4所述的系统,其特征在于,还包括:URL队列管理装置,用于遍历URL队列,从URL队列中提取待爬取的URL;
所述网页爬取装置,用于根据所述待爬取的URL从互联网上爬取web网页。
6.根据权利要求5所述的系统,其特征在于,还包括:数据存储装置,
所述网页分析装置,用于从所述web网页dom树的根节点开始,顺序使用数据提取条件中记录的各节点信息对所述web网页dom树中的节点进行比较匹配定位到所需数据的位置,提取所需数据;当提取到的数据为新URL地址时,将所述URL地址发送到URL队列管理装置;当提取到的数据为内容数据时,将所述内容数据发送到所述数据存储装置;
所述URL队列管理装置,用于检查所述新URL地址是否已爬取或是否需要重新爬取;
所述数据存储装置,用于存储所述内容数据。
7.根据权利要求6所述的系统,其特征在于,所述URL队列包括待访问URL队列和已访问URL队列;
所述URL队列管理装置,用于当所述新URL地址不存在于所述已访问队列中时,将所述新URL地址加入到待访问URL队列和已访问URL队列;否则忽略该新URL地址。
8.根据权利要求6所述的系统,其特征在于,所述数据存储装置,用于以json格式存储所述内容数据。
CN201310198598.5A 2013-05-24 2013-05-24 一种网页爬取方法及系统 Active CN104182412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310198598.5A CN104182412B (zh) 2013-05-24 2013-05-24 一种网页爬取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310198598.5A CN104182412B (zh) 2013-05-24 2013-05-24 一种网页爬取方法及系统

Publications (2)

Publication Number Publication Date
CN104182412A CN104182412A (zh) 2014-12-03
CN104182412B true CN104182412B (zh) 2017-08-04

Family

ID=51963463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310198598.5A Active CN104182412B (zh) 2013-05-24 2013-05-24 一种网页爬取方法及系统

Country Status (1)

Country Link
CN (1) CN104182412B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106371987A (zh) * 2015-07-24 2017-02-01 北京奇虎科技有限公司 测试方法和装置
CN106407219B (zh) * 2015-07-31 2019-12-10 北京国双科技有限公司 网页链接的爬取方法及装置
CN105938496A (zh) * 2016-05-27 2016-09-14 深圳市永兴元科技有限公司 网页内容提取方法及装置
CN106055722A (zh) * 2016-07-26 2016-10-26 重庆兆光科技股份有限公司 网页爬虫抓取方法及系统
CN108536691A (zh) * 2017-03-01 2018-09-14 中兴通讯股份有限公司 网页爬取方法和装置
CN107491496A (zh) * 2017-07-25 2017-12-19 哈尔滨工业大学 利用视觉认知过程触发的网页浏览控制方法
CN110309386B (zh) * 2018-02-28 2023-02-07 腾讯科技(深圳)有限公司 一种网页爬取的方法和装置
CN109471966B (zh) * 2018-10-30 2022-07-15 中译语通科技股份有限公司 一种自动获取目标数据源的方法及系统
CN109815388A (zh) * 2019-01-25 2019-05-28 东华大学 一种基于遗传算法的智能聚焦爬虫系统
CN109902182A (zh) * 2019-01-30 2019-06-18 北京百度网讯科技有限公司 知识数据处理方法、装置、设备及存储介质
CN111581478A (zh) * 2020-05-07 2020-08-25 成都信息工程大学 一种特定主体的跨网站通用新闻采集方法
CN111767482B (zh) * 2020-05-21 2023-06-06 中国地质大学(武汉) 一种聚焦网络爬虫自适应爬取方法
CN111708967B (zh) * 2020-06-11 2023-05-16 浙江浙大网新国际软件技术服务有限公司 一种基于网站地图的指纹识别方法
CN112784194B (zh) * 2021-01-28 2022-06-21 济南大学 一种Android应用页面自动化遍历方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060190561A1 (en) * 2002-06-19 2006-08-24 Watchfire Corporation Method and system for obtaining script related information for website crawling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089856A (zh) * 2007-07-20 2007-12-19 李沫南 一种提取网页数据的方法和Web爬虫系统
CN102073730A (zh) * 2011-01-14 2011-05-25 哈尔滨工程大学 一种主题网络爬虫系统的构建方法
CN102360368A (zh) * 2011-10-09 2012-02-22 山东大学 基于抽取模板可视化定制的Web数据抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于自动生成模板的Web信息抽取技术;张彦超 等;《北京交通大学学报》;20091031;第33卷(第5期);第40-45页 *

Also Published As

Publication number Publication date
CN104182412A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN104182412B (zh) 一种网页爬取方法及系统
CN103823824B (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN103020123B (zh) 一种搜索不良视频网站的方法
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN102567407B (zh) 一种论坛回帖增量采集方法及系统
CN107590219A (zh) 网页人物主题相关信息提取方法
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN103310013A (zh) 一种面向主题的网页采集系统
CN103714140A (zh) 一种基于主题网络爬虫的搜索方法及装置
CN107590236B (zh) 一种面向建筑施工企业的大数据采集方法和系统
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN106844640A (zh) 一种网页数据分析处理方法
CN103399872B (zh) 对网页抓取进行优化的方法和装置
CN110555154B (zh) 一种面向主题的信息检索方法
CN103984749A (zh) 一种基于链接分析的聚焦爬虫方法
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法
CN103914538B (zh) 基于锚文本上下文和链接分析的主题抓取方法
CN106547803A (zh) 爬取网站增量资源的方法和装置
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN106095674B (zh) 一种网站自动化测试方法和装置
CN105740370A (zh) 一种在线Web新闻内容抽取系统
CN106980677A (zh) 面向行业的主题搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant