CN103310026A - 一种基于搜索引擎的轻量级通用网页主题爬虫方法 - Google Patents

一种基于搜索引擎的轻量级通用网页主题爬虫方法 Download PDF

Info

Publication number
CN103310026A
CN103310026A CN2013102850006A CN201310285000A CN103310026A CN 103310026 A CN103310026 A CN 103310026A CN 2013102850006 A CN2013102850006 A CN 2013102850006A CN 201310285000 A CN201310285000 A CN 201310285000A CN 103310026 A CN103310026 A CN 103310026A
Authority
CN
China
Prior art keywords
website
websites
search engine
seed
getting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102850006A
Other languages
English (en)
Other versions
CN103310026B (zh
Inventor
姚瑞波
周凤波
翁强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201310285000.6A priority Critical patent/CN103310026B/zh
Publication of CN103310026A publication Critical patent/CN103310026A/zh
Application granted granted Critical
Publication of CN103310026B publication Critical patent/CN103310026B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明基于搜索引擎的轻量级通用网页主题爬虫方法,包括,初始种子:给定的少量描述特定主题相关种子,根据一定规则,对种子进行扩充至一系列种子;发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站;下载网站:将相关的网站下载到本地并存入数据库;网页解析:从下载的网站进行分析,获取其中的链接信息;种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。

Description

一种基于搜索引擎的轻量级通用网页主题爬虫方法
技术领域
本发明涉及信息检索领域,特别是涉及信息检索中的网页主题爬虫。
背景技术
万维网上的海量信息不断地快速增长和更新,对这个海量信息库进行及时的收集一直是信息检索研究和应用的基础问题,Web爬虫正是解决该问题的经典技术。在很多时候,人们仅仅需要搜索特定领域或主题的Web网站,完成这项任务的爬虫技术即称为主题爬虫。不同领域都有大量的网站,对这些领域网站的自动爬取,是建立该领域的垂直搜索引擎以及特定领域数据挖掘和分析等应用的基础。
虽然特定领域网站之间存在一定的链接关系,但是这也取决于网站的维护程度。如何全面、快速和精确地找到特定领域网站成了主题爬虫系统需要解决的主要问题。另外由于网站更名和合并等因素,使得领域网站的识别有了一定难度。爬虫系统需要从一些已给定的初始网站出发,尽可能多的通过链接寻找到新的网站,并且实现网站爬取的更新。
目前的主题爬虫研究主要包括主题爬行算法和主题相似度计算算法。在主题爬行算法领域,不同于传统爬虫的宽度优先和深度优先搜索策略,主题爬虫为了效率,在此基础上发展出了多种多样的算法。主要分为三类,基于文字内容启发式方法,基于Web超链图方法,基于分类器的方法。基于文字内容的启发策略主要应用的是网页中的文本信息,主要有标题,正文,链接,锚文本等。基于Web图的启发策略的基本思想来自于文献计量学的引文分析理论,这种理论能有效的应用于Web环境。基于Web超链图的方法可克服基于文字内容难以精确描述主题以及分析效率问题。在主题相似度计算算法上,有研究者提出了基于概念主题相似度计算策略,一个关键字在不同的场合往往含有不同的含义,这对中文尤其明显。采用概念的关键字集合能更加细致的对主题进行描述。还有工作者提出了基于本体的自主学习的主题爬虫策略,采用基于概念和关系的方法,收集现实真实生活中的数据作为本体来与网页中提取的本体信息计算网页的相似度。
现有的网页主题爬虫方法存在两方面的问题。一方面是发现特定领域网页的爬取代价问题,为了发现特定领域中的网页,需要对海量的网页进行过滤,这种爬取方式是建立在通用爬取的基础上,实现代价太高。另一方面是发现和特定主题相关的网页的爬取精度问题,即对爬取的网页,需要能较精确地判定是否是特定主题的网页。本发明旨在提出一种解决现有方法这两方面不足的新型通用网页爬虫技术。
发明内容
本发明主要解决的技术问题是提供一种基于搜索引擎的轻量级通用网页主题爬虫技术,该方法有低代价、易实现、高效、准确等优点。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于搜索引擎的轻量级通用网页主题爬虫方法,包括步骤为:
(1)初始种子:给定的少量描述特定主题相关种子,如商品简称和全称等,然后根据一定规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;
(2)发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;
(3)下载网站:将相关的网站下载到本地并存入数据库;
(4)网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;
(5)种子更新:在下载和爬取线程开始一段时间之后,或无法爬取到新网页时,启动种子更新线程,通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;
(6)爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。
在本发明一个较佳实施例中,步骤(1)中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行。
在本发明一个较佳实施例中,步骤(2)中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计。
在本发明一个较佳实施例中,步骤(4)中所述网页解析包括两方面的重要目的,一方面是发现爬取到的网站中的外链,由此发现更多的主题相关网站,另一方面通过分析网页文本来自动构造新的种子,是实现种子更新的基础。
在本发明一个较佳实施例中,步骤(6)中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致,即爬虫能根据实际网页发生变化的过程,智能地调整自身重新对网站进行爬取的周期。
本发明的有益效果是:本发明的基于搜索引擎的轻量级通用网页主题爬虫方法,该方法相对于现有方法拥有低代价、易实现、高效、准确等特点,提出了一个基于搜索引擎的通用网页主题爬虫系统实现具体框架,提出了一种基于向量空间模型的相关网站三层主题过滤方法,设计并实现主题爬虫的更新策略,还提出一种补种策略,弥补特定主题下的网站缺乏密集链接的局限性。
附图说明
图1是本发明基于搜索引擎的轻量级通用网页主题爬虫一较佳实施例的流程图;
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明提供一种新型基于搜索引擎的轻量级网页主题爬虫方法,包括步骤为:
(1)给定少量描述特定主题相关的词汇作为种子,如某商品的简称和全称等,并构造该领域内种子扩充规则,如一个商品的种子可以通过品牌规则扩充为一系列种子,一个学术会议的种子可以通过年份扩充为一系列种子;
(2)根据扩充后的种子,将种子转换为查询词,通过搜索引擎Google,Yahoo或Bing等提供的搜索查询接口(该接口通常为JSON格式)得到与查询词相关的若干个候选网站。采用三层相关性过滤算法从候选网站中寻找和查询词对应的网站;
(3)将相关的网站下载到本地,具体包括把网站URL等信息存入爬取数据库,并把网站结构信息和网页存入本地硬盘,不同网站的网页采用文件夹进行组织;
(4)分析已爬取到的网站,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;
(5)在分析已爬取网站的同时,从网页文本中提取新的主题相关词,并以此根据规则构造新种子,保证爬取过程持续进行。在下载和爬取线程开始一段时间之后,以及无法爬取到新网页时,启动种子更新线程;
(6)在定期重爬取已爬取网站的同时,收集网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。
本发明中的新型基于搜索引擎的轻量级网页主题爬虫易于实现。首先,根据给定的种子,利用搜索引擎获得初始网站集合;然后,通过网站间的链接关系发现更多的主题相关网站,其中采用基于向量空间模型的相关度过滤以及正则表达式匹配过滤错误的网站;最后,通过搜索引擎逐年对网站进行补全,同时从新发现的网站中的链接构造更多的种子。
本发明中的主题相关过滤是一种新型的基于向量空间模型的相关网站三层主题过滤方法。首先,根据网站URL链接字符串、简称和全称进行初步的主题过滤;其次,进一步利用搜集的领域典型网站的URL构成的向量进一步进行过滤;最后,提取网站主页的关键词,并与领域背景知识进行向量相关度计算,判断网站是否是属于特定主题。通过以上三层主题过滤,能有效过滤掉偏离主题的网站,减少需要爬取和分析的网页数量。
本发明中的主题爬虫更新是一种新型的爬虫更新策略。首先,根据网页更新符合泊松分布的特点,计算各网站内网页的更新周期,取其平均值作为站点更新周期;然后,以该周期作为爬虫重新爬取网站的间隔周期初始值,利用自适应的方法,根据网站动态变化情况调整更新周期,从而达到有效利用带宽、合理重复爬取和保证网站实时性的目的。
本发明中的爬虫种子补充是一种新型的补种策略。领域网站之间往往缺乏密集的相互链接,这为主题爬虫的效率造成较大的局限性。为了尽可能多地收集主题相关网站,系统定期从一些具有Hub链接特征的领域列表网站出发,采用了Best First Search的方法对URL进行爬取,作为新的种子添加到种子集中,并分别利用Berkeley DB和Bloom Filter实现未访问和已访问URL队列。
本发明提出了轻量级网页主题爬虫的概念,用以克服传统主题爬虫在发现相关网站方面的效率问题,即将发现相关网站的过程转换为一个简单的搜索引擎查询过程,避免了费事耗力的爬取大量无关网站的过程。该轻量级网页主题爬虫概念的提出能极大地降低传统主题爬虫的实现难度。
本发明的所有环节均进行了大量的实验验证,包括搜索引擎访问规律探查、网站解析策略比较、种子质量对性能影响分析、网站链接特征和搜索引擎返回记录数对比、搜索策略和关键参数进行优化选择等。我们的实验结果表明,采用本发明的主题爬虫系统在62小时内的自动运行中顺利爬取到3109个计算机科学相关学术会议网站,基本包含了该领域的现有网站,说明了本发明具有较好的可行性和效率。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,包括步骤为:
步骤1、初始种子:给定的少量描述特定主题相关种子,然后根据主题扩充规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;
步骤2、发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;
步骤3、下载网站:将相关的网站下载到本地并存入数据库;
步骤4、网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;
步骤5、种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;
步骤6、爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。
2.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤1中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行。
3.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤2中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计。
4.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤4中所述网页解析包括两方面的内容,一方面是发现爬取到的网站中的外链,由此发现更多的主题相关网站,另一方面通过分析网页文本来自动构造新的种子,是实现种子更新的基础。
5.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤6中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致,即爬虫能根据实际网页发生变化的过程,智能地调整自身重新对网站进行爬取的周期。
CN201310285000.6A 2013-07-08 2013-07-08 一种基于搜索引擎的轻量级通用网页主题爬虫方法 Expired - Fee Related CN103310026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310285000.6A CN103310026B (zh) 2013-07-08 2013-07-08 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310285000.6A CN103310026B (zh) 2013-07-08 2013-07-08 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Publications (2)

Publication Number Publication Date
CN103310026A true CN103310026A (zh) 2013-09-18
CN103310026B CN103310026B (zh) 2016-11-23

Family

ID=49135244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310285000.6A Expired - Fee Related CN103310026B (zh) 2013-07-08 2013-07-08 一种基于搜索引擎的轻量级通用网页主题爬虫方法

Country Status (1)

Country Link
CN (1) CN103310026B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530350A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种互联网视听、文本及图像的全媒体搜索方法及装置
CN104408198A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页页面内容的获取方法和装置
CN104462457A (zh) * 2014-12-16 2015-03-25 云起思源(天津)科技有限公司 一种面向内部搜索引擎的信息更新检测方法
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN104992113A (zh) * 2015-05-29 2015-10-21 北京奇虎科技有限公司 检测网站隐私内容是否暴露的方法、装置和云监控系统
CN105354258A (zh) * 2015-10-22 2016-02-24 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN106528646A (zh) * 2016-10-13 2017-03-22 中国农业大学 一种农药数据获取方法及服务器
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN107169020A (zh) * 2017-04-07 2017-09-15 南京邮电大学 一种基于关键字的定向网页采集方法
CN107193828A (zh) * 2016-03-14 2017-09-22 百度在线网络技术(北京)有限公司 小说网页抓取方法和装置
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107798091A (zh) * 2017-10-23 2018-03-13 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108804620A (zh) * 2018-05-31 2018-11-13 广东蔚海数问大数据科技有限公司 互联网数据采集方法、系统及计算机终端
CN110489627A (zh) * 2019-08-12 2019-11-22 南京烽火天地通信科技有限公司 一种互联网爬虫路由方法
CN115858902A (zh) * 2023-02-23 2023-03-28 巢湖学院 一种页面爬虫规则更新方法、系统、介质及设备
CN115982442A (zh) * 2023-02-27 2023-04-18 毛茸茸(西安)智能科技有限公司 大数据分析的网络信息数据采集方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN102662954A (zh) * 2012-03-02 2012-09-12 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN102968510A (zh) * 2012-12-21 2013-03-13 厦门市美亚柏科信息股份有限公司 互联网人物信息的搜索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘兵,等。: "基于多链接分析的主题爬虫设计实现", 《计算机技术与应用进展》, 31 December 2009 (2009-12-31), pages 404 - 408 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530350A (zh) * 2013-10-09 2014-01-22 北京中科模识科技有限公司 一种互联网视听、文本及图像的全媒体搜索方法及装置
CN103530350B (zh) * 2013-10-09 2017-02-08 北京中科模识科技有限公司 一种互联网视听、文本及图像的全媒体搜索方法及装置
CN104408198A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页页面内容的获取方法和装置
CN104408198B (zh) * 2014-12-15 2018-07-17 北京国双科技有限公司 网页页面内容的获取方法和装置
CN104462457A (zh) * 2014-12-16 2015-03-25 云起思源(天津)科技有限公司 一种面向内部搜索引擎的信息更新检测方法
CN104992113A (zh) * 2015-05-29 2015-10-21 北京奇虎科技有限公司 检测网站隐私内容是否暴露的方法、装置和云监控系统
CN104951539B (zh) * 2015-06-19 2017-12-22 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN104951539A (zh) * 2015-06-19 2015-09-30 成都艾尔普科技有限责任公司 互联网数据中心有害信息监测系统
CN104978408A (zh) * 2015-08-05 2015-10-14 许昌学院 基于Berkeley DB数据库的主题爬虫系统
CN105354258A (zh) * 2015-10-22 2016-02-24 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN105354258B (zh) * 2015-10-22 2019-11-15 努比亚技术有限公司 一种更新网站数据缓存的装置及方法
CN106611005A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN106611005B (zh) * 2015-10-26 2020-04-03 北京国双科技有限公司 一种设置爬虫爬取时间间隔的方法及装置
CN107193828A (zh) * 2016-03-14 2017-09-22 百度在线网络技术(北京)有限公司 小说网页抓取方法和装置
CN106528646A (zh) * 2016-10-13 2017-03-22 中国农业大学 一种农药数据获取方法及服务器
CN107169020A (zh) * 2017-04-07 2017-09-15 南京邮电大学 一种基于关键字的定向网页采集方法
CN107577788B (zh) * 2017-09-15 2021-12-31 广东技术师范大学 一种自动结构化数据的电商网站主题爬虫方法
CN107577788A (zh) * 2017-09-15 2018-01-12 广东技术师范学院 一种自动结构化数据的电商网站主题爬虫方法
CN107798091A (zh) * 2017-10-23 2018-03-13 金蝶软件(中国)有限公司 一种数据爬取的方法及其相关设备
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108681571B (zh) * 2018-05-05 2024-02-27 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN108804620A (zh) * 2018-05-31 2018-11-13 广东蔚海数问大数据科技有限公司 互联网数据采集方法、系统及计算机终端
CN108804620B (zh) * 2018-05-31 2021-12-07 广东蔚海数问大数据科技有限公司 互联网数据采集方法、系统及计算机终端
CN110489627A (zh) * 2019-08-12 2019-11-22 南京烽火天地通信科技有限公司 一种互联网爬虫路由方法
CN110489627B (zh) * 2019-08-12 2023-01-24 南京烽火天地通信科技有限公司 一种互联网爬虫路由方法
CN115858902A (zh) * 2023-02-23 2023-03-28 巢湖学院 一种页面爬虫规则更新方法、系统、介质及设备
CN115982442A (zh) * 2023-02-27 2023-04-18 毛茸茸(西安)智能科技有限公司 大数据分析的网络信息数据采集方法

Also Published As

Publication number Publication date
CN103310026B (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN103310026A (zh) 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN102103636B (zh) 一种面向深层网页的增量信息获取方法
Jiang Ranking spaces for predicting human movement in an urban environment
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN104463730A (zh) 基于旅游目标地域来挖掘旅游路线的方法和设备
CN102799677B (zh) 一种基于语义的水利领域信息检索系统及方法
CN101520798A (zh) 基于垂直搜索和聚焦爬虫的网页分类技术
CN101901247A (zh) 一种领域本体约束的垂直搜索引擎方法及系统
CN105740460B (zh) 网页搜集推荐方法和装置
Yang OntoCrawler: A focused crawler with ontology-supported website models for information agents
CN103176985A (zh) 一种及时高效的互联网信息爬取方法
CN102306183B (zh) 一种对事务数据流进行闭合加权频繁模式挖掘的方法
CN102662954A (zh) 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN102591992A (zh) 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法
CN107463591A (zh) 响应于搜索查询对待与内容匹配的图像动态排序的方法和系统
CN101630330A (zh) 一种网页分类方法
CN100354865C (zh) 仿人工细粒度网页信息采集方法
CN102446225A (zh) 一种实时搜索的方法、装置和系统
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN103823824A (zh) 一种借助互联网自动构建文本分类语料库的方法及系统
CN107679226B (zh) 基于主题的旅游本体构建方法
CN103823879A (zh) 面向在线百科的知识库自动更新方法及系统
CN103530429B (zh) 一种网页正文抽取的方法
CN104182412A (zh) 一种网页爬取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161123

CF01 Termination of patent right due to non-payment of annual fee