CN101694658A - 基于新闻去重的网页爬虫的构建方法 - Google Patents

基于新闻去重的网页爬虫的构建方法 Download PDF

Info

Publication number
CN101694658A
CN101694658A CN200910153588A CN200910153588A CN101694658A CN 101694658 A CN101694658 A CN 101694658A CN 200910153588 A CN200910153588 A CN 200910153588A CN 200910153588 A CN200910153588 A CN 200910153588A CN 101694658 A CN101694658 A CN 101694658A
Authority
CN
China
Prior art keywords
news
url
web page
webpage
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910153588A
Other languages
English (en)
Other versions
CN101694658B (zh
Inventor
卜佳俊
李辉
陈伟
陈纯
梁雄君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN2009101535883A priority Critical patent/CN101694658B/zh
Publication of CN101694658A publication Critical patent/CN101694658A/zh
Application granted granted Critical
Publication of CN101694658B publication Critical patent/CN101694658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

基于新闻去重的网页爬虫的构建方法,包括以下步骤:构造解析器解析新闻网页;构建新闻集;设定网页之间的相似度的阈值;将当前抓取的新闻网页与新闻集进行比对,判断相似度是否高于阈值;若低于阈值,则将当前网页加入新闻集中;若高于阈值,则舍弃该新闻,抓取下一个网页;抓取当前网页的URL,判断此URL是否指向新闻网页,若是,判断此URL是否被访问过;若否,则舍弃;若此URL已被访问过,则舍弃此URL;若此URL未被访问过,则存入待访问队列;从待访问队列中依次提取URL进行访问;重复执行上述步骤。本发明的优点是:算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便。

Description

基于新闻去重的网页爬虫的构建方法
技术领域
本发明涉及一种网页爬虫的构建方法,特别是一种基于新闻去重的网页爬虫的构件方法。
背景技术
在这个信息爆炸的时代,网络媒体以其快速的新闻发布,广泛的新闻传播而逐渐取代电视,报纸等传统媒体成为现在主流的新闻传播方式。
当前的几大新闻门户网站:“新浪网”、“新华网”、“网易”都拥有自己强大的新闻采访、编辑和发布团队,每天的新闻发布数量达到数千条。新闻网站一般涵盖了各个类别的新闻:国内新闻、国际新闻、社会新闻、娱乐新闻、军事新闻、体育新闻、财经新闻、科技新闻等。同时每个新闻门户也都有各自的特色,比如“新华网”的时政新闻,“新浪网”的体育新闻,“网易”的社会新闻。因此,整合多个新闻门户网站的新闻可以让用户得到更全面,更丰富,更具有特色的新闻资讯。
如何有效地提取网络中的信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但通用性搜索引擎存在以下的局限性:
1、通用搜索引擎的目标是获得尽可能大的网络覆盖率,这就进一步加深了有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾。
2、网络数据的形式丰富、网络技术不断发展,图片、数据库、音频/视频等不同形式的数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好的发现和获取。
3、通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
4、不同领域、不同北京的用户具有不同的检索目的、需求,通用搜索引擎返回的结果包含大量的用户不关心的信息。
为解决上述缺点,一种定向抓取相关网页资源的网页爬虫应运而生。网络爬虫是一个自动提取网页的程序,它可以自动地从网络中抓取网页,是搜索引擎的重要组成。其工作原理是:网页爬虫从初始设定的一个或者多个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前网页上抽取新的URL,然后根据网页分析算法过滤掉与主题无关的连接,保留有用的连接并将其放入等待访问的URL队列中,直到满足一定的停止条件。采用网页爬虫可以对多个数据源同时进行抓取。
以新闻信息为例,说明网络爬虫存在的缺点:1、由于每个新闻网站的对新闻的发布是,可能是相同的文章的复制,也可能是关于同一件事不同的网站发布了不同的文章,网页爬虫在抓取数据时,很可能将这些重复的信息也抓取进来,不仅浪费网络资源,存储资源,而且对今后的数据维护造成极大的麻烦。2、网页中有大量的URL都是指向与新闻无关的无效信息,如广告、博客、导航网页等,若爬虫将这些URL也抓取进来,也会造成网络资源、存储资源的浪费,以后后续维护的困难。3、现有的网页爬虫是先将网页抓取、下载后再进行有效性分析,大量的无关网页将被下载,浪费有限的存储资源。4、随着网页抓取量的增多,无关网页被下载再进行分析过滤,造成算法的效率低下。
发明内容
为克服现有技术的算法效率低下,容易抓取重复内容的网页,资源浪费大,数据维护困难的缺点,本发明提供了一种算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便的基于新闻去重的网页爬虫的构建方法。
基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页;
2)、构建新闻网页的集合形成新闻集;设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值,所述的相似度以内容的重复程度来表征;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,判断它们之间的相似度是否高于所述的阈值;
4)、若相似度低于所述的阈值,则将当前网页加入新闻集中,若相似度高于所述的阈值,则舍弃该新闻,抓取下一个网页;
5)、抓取当前网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过;
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1-9。
进一步,所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。
进一步,所述的步骤(3)由以下步骤组成:
(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)根据经验,选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,w1),(t2,w2),(t3,w3),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度的阈值,所述的相似度由两集合中具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述的阈值;若高于所述的阈值,则认为C为重复新闻;若低于所述的阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中。
进一步,若经(3.4)判断集合C为非重复新闻,则将新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。
进一步,所述的步骤(5)中的判断URL是否指向新闻网页包括以下步骤:
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(5.3)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃。
本发明的技术构思是:在网络爬虫抓取网页之前进行重复数据过滤,避免重复数据的下载,减少了爬虫需要抓取的数据量,节约了存储资源;爬虫在抓取URL时,先判断URL是否指向有效信息,将无关网页的URL过滤,保证了爬取数据的纯净度与准确性,即下载下来的均为有效网页,算法的效率高,网络资源的消耗有效降低,存储资源的浪费少;由于只需存储有效信息即可,数据的存储量降低,后续的数据维护的困难度降低。
本发明的优点是:算法效率高,避免抓取重复内容的网页,资源浪费小,数据维护方便。
附图说明
图1为本发明的总的流程图
图2为当前抓取的新闻与新闻集中各新闻比对的流程图
图3为另一种当前抓取的新闻与新闻集中各新闻比对的流程图
图4为判断URL是否被访问过的流程图
具体实施方式
实施例一
参照附图1、2、4
基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1、基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页;
2)、构建新闻网页的集合形成新闻集;设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值,所述的相似度以内容的重复程度来表征;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,判断它们之间的相似度是否高于所述的阈值;
(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)根据经验,选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,wi),(t2,w2),(t3,w3),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度的阈值,所述的相似度由两集合中具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述的阈值;若高于所述的阈值,则认为C为重复新闻;若低于所述的阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中。
4)、若相似度低于所述的阈值,则将当前网页加入新闻集中,若相似度高于所述的阈值,则舍弃该新闻,抓取下一个网页;
5)、抓取当前网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过;
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(53)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃。
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1-9。
所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。
实施例二
参照附图1、3、4
本实施例与实施例一的区别之处在于:若经(3.4)判断集合C为非重复新闻,则将新闻正文文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。其余相同。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (5)

1.基于新闻去重的网页爬虫的构建方法,包括以下步骤:
1)、构造能将网页中的新闻的标题和内容抽取出来的解析器,用所述的解析器解析新闻网页;
2)、构建新闻网页的集合形成新闻集;设定当前抓取的网页与新闻集中的新闻网页之间的相似度的阈值,所述的相似度以内容的重复程度来表征;
3)、将当前抓取的新闻网页与所述的新闻集进行比对,判断它们之间的相似度是否高于所述的阈值;
4)、若相似度低于所述的阈值,则将当前网页加入新闻集中,若相似度高于所述的阈值,则舍弃该新闻,抓取下一个网页;
5)、抓取当前网页的URL,判断此URL是否指向新闻网页,若URL不指向新闻网页,则舍弃此URL;若是指向新闻网页,则与存储有已访问过的URL的已访问队列进行比对,判断此URL是否被访问过;
6)、若此URL存在于所述的已访问队列中,则舍弃此URL;若此URL不存在于所述的已访问队列中,则将此URL存入一待访问队列中;
7)、从待访问队列中依次提取URL进行访问;
8)、重复执行步骤1-9。
2.如权利要求1所述的基于新闻去重的网页爬虫的构建方法,其特征在于:所述的解析器是通过学习多个新闻网站的HTML源代码框架后构造而成,所述的解析器解析网页得到的是新闻网页中的实际的新闻标题和新闻内容。
3.如权利要求1所述的基于新闻去重的网页爬虫的构建方法,其特征在于:所述的步骤(3)由以下步骤组成:
(3.1)将新闻标题的文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重;
(3.2)根据经验,选取该文本中N个权重最高的关键词构成(关键词,权重)的集合C={(t1,w1),(t2,w2),(t3,w3),……(tN,wN)},
其中:ti:第i个关键词;wi:第i个关键词的权重;
(3.3)将集合C中的元素根据权重wi进行从大到小的排序;将新闻集中的每个子集Ci中的元素根据其关键词的权重进行从大到小的排序;设定C与Ci之间的相似度的阈值,所述的相似度由两集合的具有相同排序位置的关键词个数来表征;
(3.4)将集合C与新闻集中的每个Ci进行比对,判断它们的相似度是否高于所述的阈值;若高于所述的阈值,则认为C为重复新闻;若低于所述的阈值,则认为C为非重复新闻;
(3.5)将非重复新闻加入新闻集中。
4.如权利要求3所述的基于新闻去重的网页爬虫的构建方法,其特征在于:若经(3.4)判断集合C为非重复新闻,则将新闻内容文本利用中文分词技术提取出文本中的关键词以及每个关键词的权重,再一次顺序执行(3.2)到(3.4);若此次判断仍然为非重复新闻,再将此新闻加入新闻集中。
5.如权利要求3或4所述的基于新闻去重的网页爬虫的构建方法,其特征在于:所述的步骤(5)中的判断URL是否指向新闻网页包括以下步骤:
(5.1)从作为数据源的各大网站批量抓取新闻网页的URL作为训练集,采用划分聚类算法对这些URL进行聚类,将具有相同URL格式的聚成一类;
(5.2)构造能根据URL的格式特征得出其正则表达式的URL解析器,用所述的URL解析器对每个类别的URL的格式特征进行学习,获得每个类别的正则表达式;
(5.3)用所述的URL解析器解析当前抓取网页的URL,判断该网页是否具有新闻网页的URL的格式特征;若是,则认为此URL为指向新闻网页的URL;若否,则认为此URL指向新闻以外的其它网页,将此URL舍弃。
CN2009101535883A 2009-10-20 2009-10-20 基于新闻去重的网页爬虫的构建方法 Active CN101694658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101535883A CN101694658B (zh) 2009-10-20 2009-10-20 基于新闻去重的网页爬虫的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101535883A CN101694658B (zh) 2009-10-20 2009-10-20 基于新闻去重的网页爬虫的构建方法

Publications (2)

Publication Number Publication Date
CN101694658A true CN101694658A (zh) 2010-04-14
CN101694658B CN101694658B (zh) 2012-07-04

Family

ID=42093630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101535883A Active CN101694658B (zh) 2009-10-20 2009-10-20 基于新闻去重的网页爬虫的构建方法

Country Status (1)

Country Link
CN (1) CN101694658B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894071A (zh) * 2010-06-30 2010-11-24 中山大学 一种机顶盒嵌入式浏览器集成测试方法及系统
CN102163226A (zh) * 2011-04-12 2011-08-24 浙江大学 基于映射-化简和分词及邻接排序去重方法
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN102567313A (zh) * 2010-12-07 2012-07-11 盛乐信息技术(上海)有限公司 递进式网页库去重系统及其实现方法
CN102622454A (zh) * 2012-04-23 2012-08-01 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN102760162A (zh) * 2012-06-11 2012-10-31 北京搜狗信息服务有限公司 展现和获取下载链接的方法及装置
CN103399933A (zh) * 2013-08-08 2013-11-20 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN103699687A (zh) * 2014-01-03 2014-04-02 复旦大学 一种基于枚举的网络实体爬取方法
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN104202348A (zh) * 2014-02-24 2014-12-10 无锡天脉聚源传媒科技有限公司 一种推送信息的方法、装置及系统
CN104951448A (zh) * 2014-03-26 2015-09-30 北京雪球信息科技有限公司 一种为用户推送订阅类别的消息的方法和服务器
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及系统
CN106569989A (zh) * 2016-10-20 2017-04-19 北京智能管家科技有限公司 一种用于短文本的去重方法及装置
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN106649810A (zh) * 2016-12-29 2017-05-10 山东舜网传媒股份有限公司 基于Ajax的新闻网页动态数据的抓取方法及系统
CN106789990A (zh) * 2016-12-09 2017-05-31 天脉聚源(北京)传媒科技有限公司 一种新闻推送方法及装置
CN106933944A (zh) * 2017-01-20 2017-07-07 深圳前海勇艺达机器人有限公司 能自动抓取和播报新闻的方法及其机器人装置
CN107045529A (zh) * 2017-01-16 2017-08-15 广州爱九游信息技术有限公司 网络内容获取方法、装置及服务终端
CN107291916A (zh) * 2017-06-28 2017-10-24 上海尚工机器人技术有限公司 网络信息整合引擎
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统
CN108038124A (zh) * 2017-11-06 2018-05-15 广东广业开元科技有限公司 一种基于大数据的pdf文档采集处理方法、系统及装置
CN108614811A (zh) * 2016-12-09 2018-10-02 腾讯科技(深圳)有限公司 一种数据分析方法及装置
CN109104478A (zh) * 2018-07-31 2018-12-28 上海爱优威软件开发有限公司 一种图片下载方法及系统
CN109471966A (zh) * 2018-10-30 2019-03-15 中译语通科技股份有限公司 一种自动获取目标数据源的方法及系统
US10698876B2 (en) 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content
CN113486279A (zh) * 2021-06-29 2021-10-08 平安信托有限责任公司 新闻自动生成方法、装置、设备及存储介质
CN113779377A (zh) * 2021-07-27 2021-12-10 浙江大学 基于无障碍检测结果去重的爬虫搜索方法
CN114519163A (zh) * 2022-02-21 2022-05-20 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894071A (zh) * 2010-06-30 2010-11-24 中山大学 一种机顶盒嵌入式浏览器集成测试方法及系统
CN102567313A (zh) * 2010-12-07 2012-07-11 盛乐信息技术(上海)有限公司 递进式网页库去重系统及其实现方法
CN102622365B (zh) * 2011-01-28 2015-04-29 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102163226B (zh) * 2011-04-12 2013-03-13 浙江大学 基于映射-化简和分词及邻接排序去重方法
CN102163226A (zh) * 2011-04-12 2011-08-24 浙江大学 基于映射-化简和分词及邻接排序去重方法
CN102254038A (zh) * 2011-08-11 2011-11-23 武汉安问科技发展有限责任公司 一种分析网络评论相关度的系统及其分析方法
CN102682085A (zh) * 2012-04-18 2012-09-19 北京十分科技有限公司 一种网页去重的方法
CN102622454A (zh) * 2012-04-23 2012-08-01 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102622454B (zh) * 2012-04-23 2014-05-28 杭州电子科技大学 一种基于文本分析的面向视频网站的互联网视频搜索方法
CN102760162A (zh) * 2012-06-11 2012-10-31 北京搜狗信息服务有限公司 展现和获取下载链接的方法及装置
CN103631806A (zh) * 2012-08-24 2014-03-12 华为技术有限公司 一种网络信息抓取方法和装置
CN103399933A (zh) * 2013-08-08 2013-11-20 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN103399933B (zh) * 2013-08-08 2017-01-18 人民搜索网络股份公司 一种抓取网络平面媒体的网页内容的方法及系统
CN103699687A (zh) * 2014-01-03 2014-04-02 复旦大学 一种基于枚举的网络实体爬取方法
CN104202348A (zh) * 2014-02-24 2014-12-10 无锡天脉聚源传媒科技有限公司 一种推送信息的方法、装置及系统
CN104951448B (zh) * 2014-03-26 2019-04-12 雪球(北京)技术开发有限公司 一种为用户推送订阅类别的消息的方法和服务器
CN104951448A (zh) * 2014-03-26 2015-09-30 北京雪球信息科技有限公司 一种为用户推送订阅类别的消息的方法和服务器
CN104090976A (zh) * 2014-07-21 2014-10-08 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN104090976B (zh) * 2014-07-21 2017-06-23 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN105956070A (zh) * 2016-04-28 2016-09-21 优品财富管理有限公司 一种整合重复记录的方法及系统
CN106354846A (zh) * 2016-08-31 2017-01-25 成都广电视讯文化传播有限公司 基于大数据的新闻智能选稿方法及系统
CN106569989A (zh) * 2016-10-20 2017-04-19 北京智能管家科技有限公司 一种用于短文本的去重方法及装置
CN106570171A (zh) * 2016-11-03 2017-04-19 中国电子科技集团公司第二十八研究所 一种基于语义的科技情报处理方法及系统
CN108614811A (zh) * 2016-12-09 2018-10-02 腾讯科技(深圳)有限公司 一种数据分析方法及装置
CN106789990A (zh) * 2016-12-09 2017-05-31 天脉聚源(北京)传媒科技有限公司 一种新闻推送方法及装置
CN108614811B (zh) * 2016-12-09 2021-11-05 腾讯科技(深圳)有限公司 一种数据分析方法及装置
CN106649810A (zh) * 2016-12-29 2017-05-10 山东舜网传媒股份有限公司 基于Ajax的新闻网页动态数据的抓取方法及系统
CN106649810B (zh) * 2016-12-29 2019-05-28 山东舜网传媒股份有限公司 基于Ajax的新闻网页动态数据的抓取方法及系统
CN107045529A (zh) * 2017-01-16 2017-08-15 广州爱九游信息技术有限公司 网络内容获取方法、装置及服务终端
CN107045529B (zh) * 2017-01-16 2021-01-22 阿里巴巴(中国)有限公司 网络内容获取方法、装置及服务终端
CN106933944A (zh) * 2017-01-20 2017-07-07 深圳前海勇艺达机器人有限公司 能自动抓取和播报新闻的方法及其机器人装置
CN107291916A (zh) * 2017-06-28 2017-10-24 上海尚工机器人技术有限公司 网络信息整合引擎
US10698876B2 (en) 2017-08-11 2020-06-30 Micro Focus Llc Distinguish phrases in displayed content
CN107908698A (zh) * 2017-11-03 2018-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统
CN107908698B (zh) * 2017-11-03 2021-04-13 广州索答信息科技有限公司 一种主题网络爬虫方法、电子设备、存储介质、系统
CN108038124A (zh) * 2017-11-06 2018-05-15 广东广业开元科技有限公司 一种基于大数据的pdf文档采集处理方法、系统及装置
CN109104478A (zh) * 2018-07-31 2018-12-28 上海爱优威软件开发有限公司 一种图片下载方法及系统
CN109471966A (zh) * 2018-10-30 2019-03-15 中译语通科技股份有限公司 一种自动获取目标数据源的方法及系统
CN109471966B (zh) * 2018-10-30 2022-07-15 中译语通科技股份有限公司 一种自动获取目标数据源的方法及系统
CN113486279A (zh) * 2021-06-29 2021-10-08 平安信托有限责任公司 新闻自动生成方法、装置、设备及存储介质
CN113779377A (zh) * 2021-07-27 2021-12-10 浙江大学 基于无障碍检测结果去重的爬虫搜索方法
CN113779377B (zh) * 2021-07-27 2024-03-22 浙江大学 基于无障碍检测结果去重的爬虫搜索方法
CN114519163A (zh) * 2022-02-21 2022-05-20 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法
CN114519163B (zh) * 2022-02-21 2024-05-03 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法

Also Published As

Publication number Publication date
CN101694658B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN101694658B (zh) 基于新闻去重的网页爬虫的构建方法
Zubiaga Enhancing navigation on wikipedia with social tags
EP2321745B1 (en) Providing posts to discussion threads in response to a search query
CN104679778B (zh) 一种搜索结果的生成方法及装置
CN104077377A (zh) 基于网络文章属性的网络舆情热点发现方法和装置
CN106844640B (zh) 一种网页数据分析处理方法
CN101963965B (zh) 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN101814083A (zh) 网页自动分类方法和系统
CN103023714A (zh) 基于网络话题的活跃度与集群结构分析系统及方法
CN105740460B (zh) 网页搜集推荐方法和装置
CN102426610A (zh) 微博搜索排名方法及微博搜索引擎
CN102999625A (zh) 一种检索请求语义扩展方法
CN103678412A (zh) 一种文档检索的方法及装置
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
CN104598561A (zh) 一种基于文本的农业视频智能分类方法及装置
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN106326236A (zh) 一种网页内容识别方法和系统
CN105574004B (zh) 一种网页去重方法和设备
CN104572720A (zh) 一种网页信息排重的方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant