CN102831135B - 一种新型的中文新闻页面增量采集的方法及装置 - Google Patents

一种新型的中文新闻页面增量采集的方法及装置 Download PDF

Info

Publication number
CN102831135B
CN102831135B CN201110425165.XA CN201110425165A CN102831135B CN 102831135 B CN102831135 B CN 102831135B CN 201110425165 A CN201110425165 A CN 201110425165A CN 102831135 B CN102831135 B CN 102831135B
Authority
CN
China
Prior art keywords
page
pages
news
news pages
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110425165.XA
Other languages
English (en)
Other versions
CN102831135A (zh
Inventor
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Original Assignee
INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA filed Critical INSTITUTE OF SCIENCE AND TECHNOLOGY INFORMATION OF CHINA
Priority to CN201110425165.XA priority Critical patent/CN102831135B/zh
Publication of CN102831135A publication Critical patent/CN102831135A/zh
Application granted granted Critical
Publication of CN102831135B publication Critical patent/CN102831135B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种新型的中文新闻页面增量采集的方法及装置,其中,一种新型的中文新闻页面增量采集的方法,包括:对稳定页面进行识别,获得识别后的稳定页面;对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;对新增页面进行采集,获得采集后的新增页面;对新闻页面进行识别,获得识别后的新闻页面;该方法能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。

Description

一种新型的中文新闻页面增量采集的方法及装置
技术领域
本发明涉及信息检索和数据集成领域,特别是涉及一种新型的中文新闻页面增量采集的方法及装置。
背景技术
Web自上世纪90年代初诞生以来便以惊人的速度发展,到目前Web已经成为了世界上最大的信息仓库,覆盖了现实世界的各个领域,成为了人类工作生活获取信息主要途径。Web信息的发布主要是以网页的形式实现,据最新的估计,Web中网页的数量已经超过了550个billion(1个billion等于10亿)。显然手工方式的访问已经无法满足人们信息获取的需要,为了让人们更有效地访问和利用Web中海量的信息,自上世纪90年代中期开始研究者们便开始了Web信息搜索和集成领域的研究,同时产业界也出现了各种Web信息搜索和集成相关的应用,比如垂直搜索引擎、舆情分析等。这些应用实现的一个必要步骤就是先获取所需信息所在的页面然后将所需的信息从结构化程度很差的网页中准确地抽取出来。
Web中的新闻是指新闻网站(如新华网)或门户网站(如网易)以及其它拥有新闻发布和转载权限的网站以网页形式发布的新闻,是目前人们在互联网上非常重要的信息获取来源。新闻信息在Web信息中占有较大的比例。基于新闻信息产生了许多重要的应用和研究课题,主要包括以下两个方面:
(1)新闻搜索引擎:面向新闻的垂直搜索引擎,从数量众多的具有新闻发布权限的网站中获取并集成新闻,可以为人们提供即时全面的对特定新闻事件的搜索。为了保证新闻信息的及时性和全面性,必然要能够对大量的新闻页面的及时处理,处理的前提当然得先获取新闻页面。
(2)舆情分析:是近十年自然语言处理和信息检索领域的热点研究课题。其目标是从连续的报道中识别出系统未知的话题以及与该话题相关的报道。其主要信息来源之一就是Web中发布的新闻信息。
由上面对应用的介绍可以看出,新闻信息是它们非常重要的数据来源之一,获得新闻信息的前提是采集到新闻页面。但由于Web中新闻网站数量众多,而且新闻网站中每天会出现大量新的新闻页面,如果每次将一个新闻网站中的所有新闻页面都采集一遍,必然会造成大量重复页面的采集,严重影响对信息处理的效率和检索的质量。
因而,目前需要本领域技术人员迫切解决的一个技术问题就是:如何找到一种新型的中文新闻页面采集方法,能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
发明内容
本发明所要解决的一个技术问题是提供一种新型的中文新闻页面增量采集的方法及装置,能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
为了解决上述问题,本发明公开了一种新型的中文新闻页面增量采集的方法,包括:
对稳定页面进行识别,获得识别后的稳定页面;
对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;
对新增页面进行采集,获得采集后的新增页面;
对新闻页面进行识别,获得识别后的新闻页面。
优选的,所述对稳定页面进行识别,获得识别后的稳定页面的步骤,包括:
接收识别命令,开始对稳定页面进行识别;
指定新闻网站首页的网址;
选取时间点间隔相同的连续10个时间点,获得时间间隔相同的连续10个时间点;其中,所述连续10个时间点的时间间隔能够由用户指定;
在所述连续10个时间点的每个时间点,对所述指定新闻网站的所有页面进行爬取,获得相应的连续10个时间点的每个时间点的页面集合;
依据所述每个时间点的页面集合之间的链接关系,针对所述每个时间点的页面集合,构建所述每个时间点的页面集合的有向图,获得连续10个时间点的每个时间点的页面集合的有向图;
对所述连续10个时间点的每个时间点的页面集合进行页面集合的交集操作,获得相应的交集集合;
对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面。
优选的,所述对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面的步骤,包括:
接收判断及识别命令,开始对所述获得的相应的交集集合中的每个页面进行判断及识别;
通过判断所述新闻网站首页到所述页面集合中的页面的最短途径是否相同,来获得相应的判断及识别结果;若所述新闻网站首页到所述页面集合中的页面的最短途径是相同的,则所述页面集合中的该页面为稳定页面,获得识别后的稳定页面;若所述新闻网站首页到所述页面集合中的页面的最短途径是不相同的,则所述页面集合中的该页面不是稳定页面,继续在所述页面集合中寻找相应的页面,至到所述新闻网站首页到所述页面集合中的页面的最短途径是相同的,该页面为稳定页面,停止寻找过程,该页面为稳定页面,获得识别后的稳定页面。
优选的,所述对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器的步骤,包括:
指定新闻网站首页的网址;
从所述新闻网站中选取相同数量的新闻页面及非新闻页面,获得相应的相同数量的新闻页面及相同数量的非新闻页面;其中,所述新闻页面的数量及所述非新闻页面的数量由用户指定;
采用ISUC算法进行相应的计算,获得生成的新闻页面分类器。
优选的,所述对新增页面进行采集,获得采集后的新增页面的步骤,包括:
接收页面采集命令,开始对新增页面进行采集;
对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接;
将所述获得的当前页面链接加入到原始页面链接集合中,获得更新后的页面链接集合;其中,若原始页面链接集合不存在,则更新后的页面链接集合为当前页面链接;
依据所述更新后的页面链接集合中的每个链接,获得所述每个链接相应的指向页面,获得所述每个链接相应的指向页面;
将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面;
每隔相同的时间间隔执行从对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接到将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面的操作的整个过程;其中,所述每个时间由客户指定;
当执行完所有的上述循环操作后,将每个循环过程中所获得的采集后的新增页面进行汇总,获得采集后的新增页面。
优选的,所述对新闻页面进行识别,获得识别后的新闻页面的步骤,包括:
使用所述新闻页面分类器,对新页面集合中的每个页面中的新闻页面及非新闻页面进行识别,获得相应的页面中的新闻页面及相应的页面的非新闻页面;
将上述新闻页面放入上述原始新增新闻页面集合中,获得更新后的新闻页面集合;
建立所述更新后的新闻页面集合与新闻页面的一一对应的关系;
依据所述更新后的新闻页面集合与新闻页面的一一对应的关系,由所述更新后的新闻页面集合,获得识别后的新闻页面。
本发明还公开了一种新型的中文新闻页面增量采集的装置,包括:
稳定页面获取装置,用于获得一个时间段内不同时间点的新闻网站的页面链接结构;
新闻页面分类器生成装置,用于通过人工标注的页面生成相应的新闻页面识别器;
新增页面采集装置,用于从新闻网站中采集新增的页面;
新闻页面识别装置,用于通过新闻页面识别器在新增页面中对新闻页面进行识别;
新闻页面存储装置,用于存储采集到的新增页面。
优选的,所述稳定页面获取装置,包括:
获取新闻网站的页面链接结构装置,用于在多个特定时间点获取新闻网站的页面链接结构;
获取稳定页面装置,用于通过比较不同时间点的新闻网站的页面链接结构,获得稳定页面。
优选的,所述新闻页面分类器生成装置,包括:
新闻页面采集装置,用于随机在所要采集的新闻网站中选取足够的页面;
标注新闻页面装置,用于人工标注所选取的页面是否为新闻页面;
获取新闻页面分类器装置,用于将标注的页面作为训练集,通过机器学习的方法,获得新闻页面分类器。
优选的,所述新增页面采集装置,包括:
页面采集装置,用于对新增的页面进行采集;
获取稳定页面的新增页面装置,用于获取稳定页面指向的新增页面;
重复页面清除装置,用于将重复采集的页面进行清除。
与现有技术相比,本发明具有以下优点:
本发明能够避免大量中文新闻页面的重复采集,大大地提高了信息处理的效率和检索的质量。
总之,本发明提供了一种新型的中文新闻页面增量采集的方法及装置,能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
附图说明
图1是本发明一种新型的中文新闻页面增量采集的方法实施例1的流程示意图;
图2是本发明一种新型的中文新闻页面增量采集的方法实施例2的流程示意图;
图3是本发明中新闻页面增量采集整体框架的结构示意图;
图4是本发明中的步骤301即稳定页面的识别的流程示意图;
图5是本发明中的步骤301中子步骤J3到子步骤J7的流程示意图;
图6是本发明中的步骤302即新闻页面分类器的生成的流程示意图;
图7是本发明中的步骤303即新闻页面分类器的生成的流程示意图;
图8是本发明中的步骤304即新闻页面的识别的流程示意图;
图9是本发明一种新型的中文新闻页面增量采集的方法实施例3的t时刻新华网链接结构示意图;
图10是本发明一种新型的中文新闻页面增量采集的装置的结构示意图;
图11是本发明一种新型的中文新闻页面增量采集的模块的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心思想之一是提供了一种新型的中文新闻页面增量采集的方法,包括:对稳定页面进行识别,获得识别后的稳定页面;对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;对新增页面进行采集,获得采集后的新增页面;对新闻页面进行识别,获得识别后的新闻页面;该方法能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
参照图1,示出了本发明一种新型的中文新闻页面增量采集的方法实施例1的流程示意图,具体可以包括:
步骤101、对稳定页面进行识别,获得识别后的稳定页面。
其中,所述步骤101,具体可以包括:
子步骤A1、接收识别命令,开始对稳定页面进行识别。
子步骤A2、指定新闻网站首页的网址。
子步骤A3、选取时间点间隔相同的连续10个时间点,获得时间间隔相同的连续10个时间点;其中,所述连续10个时间点的时间间隔能够由用户指定。
子步骤A4、在所述连续10个时间点的每个时间点,对所述指定新闻网站的所有页面进行爬取,获得相应的连续10个时间点的每个时间点的页面集合。
子步骤A5、依据所述每个时间点的页面集合之间的链接关系,针对所述每个时间点的页面集合,构建所述每个时间点的页面集合的有向图,获得连续10个时间点的每个时间点的页面集合的有向图。
子步骤A6、对所述连续10个时间点的每个时间点的页面集合进行页面集合的交集操作,获得相应的交集集合。
子步骤A7、对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面。
其中,子步骤A7,具体可以包括:
子步骤B1、接收判断及识别命令,开始对所述获得的相应的交集集合中的每个页面进行判断及识别。
子步骤B2、通过判断所述新闻网站首页到所述页面集合中的页面的最短途径是否相同,来获得相应的判断及识别结果;若所述新闻网站首页到所述页面集合中的页面的最短途径是相同的,则所述页面集合中的该页面为稳定页面,获得识别后的稳定页面;若所述新闻网站首页到所述页面集合中的页面的最短途径是不相同的,则所述页面集合中的该页面不是稳定页面,继续在所述页面集合中寻找相应的页面,至到所述新闻网站首页到所述页面集合中的页面的最短途径是相同的,该页面为稳定页面,停止寻找过程,该页面为稳定页面,获得识别后的稳定页面。
步骤102、对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器。
其中,所述步骤102,具体可以包括:
子步骤C1、指定新闻网站首页的网址。
子步骤C2、从所述新闻网站中选取相同数量的新闻页面及非新闻页面,获得相应的相同数量的新闻页面及相同数量的非新闻页面;其中,所述新闻页面的数量及所述非新闻页面的数量由用户指定。
子步骤C3、采用ISUC算法进行相应的计算,获得生成的新闻页面分类器。
为了使本领域的普通技术人员更好地理解本发明,下面详细介绍采用ISUC算法进行相应的计算,获得生成的新闻页面分类器,具体如下所述:
训练获得新闻页面分类器:
1)随机选取n个新闻页面和n个非新闻页面,n的大小由用户指定。
2)对n个新闻页面{x1,x2,...,xn}执行步骤2)步骤8)。
3)设集合C1={x1},集合数量num=1,集合Z={x2,x3,...,xn}。
4)如果Z为空,转到步骤16)。
5)从Z中取出一个页面xi。
6)分别计算xi与C1,C2,...,Cnum的相似度,计算公式为:
是集合Cj中所有文档的词的并集,j顺序取1到num之间的值;
7)根据步骤6),选择与xi最相似的集合Cj。
8)如果相似度大于0.25,将yi加入Cj,否则增加一个集合Cnum+1,num=num+1。
9)对n个非新闻页面{y1,y2,...,yn}执行步骤10)到步骤15)。
10)设集合D1={y1},集合数量num=1,集合Z={y2,y3,...,yn}。
11)如果Z为空,转到步骤16)。
12)从Z中取出一个页面yi。
13)分别计算yi与D1,D2,...,Dnum的相似度,计算公式为:
是集合Dj中所有文档的词的并集,j顺序取1到num之间的值。
14)根据步骤6),选择与yi最相似的集合Dj。
15)如果相似度大于0.25,将yi加入Dj,否则增加一个集合Dnum+1,num=num+1。
16)输出集合C1,C2,...,Cnum,输出集合D1,D2,...,Dnum
为了使本领域普通技术人员更好地理解本发明中的对新闻页面进行识别的过程,即:使用页面分类器,识别新闻页面的全过程,具体如下所述:
1)对于任意一个页面x,分别计算与集合C1,C2,...,Cnum,D1,D2,...,Dnum的相似度。
2)如果与x最相似的集合是C1,C2,...,Cnum中的一个,则x是新闻页面。
3)如果与x最相似的集合是D1,D2,...,Dnum中的一个,则x是非新闻页面。
步骤103、对新增页面进行采集,获得采集后的新增页面。
其中所述步骤103,具体可以包括:
子步骤D1、接收页面采集命令,开始对新增页面进行采集。
子步骤D2、对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接。
子步骤D3、将所述获得的当前页面链接加入到原始页面链接集合中,获得更新后的页面链接集合;其中,若原始页面链接集合不存在,则更新后的页面链接集合为当前页面链接。当前链接集合减去旧页面链接集合,得到新链接集合。
子步骤D4、依据所述更新后的页面链接集合中的每个链接,获得所述每个链接相应的指向页面,获得所述每个链接相应的指向页面。
子步骤D5、将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面。
子步骤D6、每隔相同的时间间隔执行从对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接到将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面的操作的整个过程;其中,所述每个时间由客户指定。
子步骤D7、当执行完所有的上述循环操作后,将每个循环过程中所获得的采集后的新增页面进行汇总,获得采集后的新增页面。
步骤104、对新闻页面进行识别,获得识别后的新闻页面。
其中所述步骤104,具体可以包括:
子步骤E1、使用所述新闻页面分类器,对新页面集合中的每个页面中的新闻页面及非新闻页面进行识别,获得相应的页面中的新闻页面及相应的页面的非新闻页面。
子步骤E2、将上述新闻页面放入上述原始新增新闻页面集合中,获得更新后的新闻页面集合。
子步骤E3、建立所述更新后的新闻页面集合与新闻页面的一一对应的关系。
子步骤E4、依据所述更新后的新闻页面集合与新闻页面的一一对应的关系,由所述更新后的新闻页面集合,获得识别后的新闻页面。
参照图2,示出了本发明一种新型的中文新闻页面增量采集的方法实施例2的流程示意图,具体可以包括:
步骤201、对稳定页面进行识别,获得识别后的稳定页面。
为了使本领域的技术人员更好地理解本发明,在本发明的一个优选实施例中,所述步骤201,具体可以包括:
子步骤F1、指定新闻网站首页的网址。
子步骤F2、设定10个间隔为72小时的时间点t1,t2,t3,t4,t5,t6,t7,t8,t9,t10,在每个时间点执行子步骤F3至子步骤F7的循环操作,获得10个有向图G1(V1,E1),G2(V2,E2),G3(V3,E3),G4(V4,E4),G5(V5,E5),G6(V6,E6),G7(V7,E7),G8(V8,E8),G9(V9,E9),G10(V10,E10);执行完10个间隔为72小时的时间点的子步骤F3至子F7的循环操作后,再执行子步骤F8。
子步骤F3、初始化页面节点集合V和页面链接集合E,获得初始化的页面节点集合V和页面链接集合E;
其中,所述页面节点集合V中的每个元素对应相应的一个页面,所述页面节点集合V中的每个元素表示为三元组<URL,level,flag>,所述URL表示页面的网址,所述level表示为到首页的最短距离,所述flag表示为是否被使用过,若所述flag为0,则表示未被使用,若所述flag为1,则表示被使用过,所述页面链接集合E中的每个元素对应相应的两个页面之间的有向链接,所述页面链接集合E中的每个元素对应相应的两个页面之间的有向链接表示为<vi,vj>。
子步骤F4、根据新闻网站首页的网址生成节点v0,并将生成的节点v0添加至所述页面节点集合V。其中,所述节点v0表示为<URL,0,0>。
子步骤F5、将所述页面节点集合V中所述flag为0的节点按照所述level的增序排列,获得队列P,取出队列P中的第一个节点vi,若第一个节点vi的的level大于depth,则输出所述页面节点集合V和所述页面链接集合E,并转至子步骤F2;若第一个节点vi的的level小于depth,则设节点vi的所述flag为1,获取节点vi的网址对应的Html文本并从Html文本中提取所有网址链接地址,设节点vi的level为l-1,生成节点集合S。
子步骤F6、对子步骤F5中获取到的集合S中每一个节点v,判断是否所述页面节点集合V中存在节点的网址与v的网址相同并执行相应的操作;若所述页面节点集合V中不存在节点的网址与v的网址相同,则执行添加该节点v至所述页面节点集合V。
子步骤F7、对子步骤F5中获取到的集合S中每一个节点vj与子步骤F5中获取到的有向边e,判断是否所述页面节点集合V中存在节点的网址与vj及有向边e的网址相同并执行相应的操作;若所述页面节点集合V中不存在节点的网址与vj及有向边e的网址,则执行添加该节点v至所述页面节点集合V中,并执行子步骤F5。
子步骤F8、依据获得的10个有向图G1,G2,G3,G4,G5,G6,G7,G8,G9及G10,求解并获得V1,V2,V3,V4,V5,V6,V7,V8,V9及V10,并将上述获得的V1,V2,V3,V4,V5,V6,V7,V8,V9及V10进行交集,获得集合Vhub,完成对稳定页面进行识别的全过程,获得识别后的稳定页面。
步骤202、对新闻页面分类器执行相关操作,获得生成的新闻页面分类器。
为了使本领域的技术人员更好地理解本发明,在本发明的另一个优选实施例中,所述步骤202,具体可以包括:
子步骤G1、将从指定的新闻网站中随机选取指定个数的新闻页面和指定个数的非新闻页面作为训练集,获得作为训练集的新闻页面和非新闻页面。
子步骤G2、采用ISUC算法进行计算,获得生成的新闻页面分类器。
步骤203、对新增页面进行采集,获得采集后的新增页面。
为了使本领域的技术人员更好地理解本发明,在本发明的另一个优选实施例中,所述步骤203,具体可以包括:
子步骤H1、执行步骤201中的子步骤F3到子步骤F7,获得Gn
子步骤H2、针对集合Vhub中的每个节点v,在Gp中获取以v为起始点的边集合E’及E’中所有边的终点集合V’,获得相应的以v为起始点的边集合E’及E’中所有边的终点集合V’。
子步骤H3、针对集合Vhub中的每个节点v,在Gn中获取以v为起始点的边集合E”及E”中所有边的终点集合V”,获得以v为起始点的边集合E”及E”中所有边的终点集合V”。
子步骤H4、执行集合减操作V”-V’,获得集合Vp
子步骤H5、读取中每个节点的网址,并将对应的页面下载到本地,获得页面集合P。
步骤204、对新闻页面进行识别,获得识别后的新闻页面。
为了使本领域的技术人员更好地理解本发明,在本发明的另一个优选实施例中,所述步骤204,具体可以包括:
子步骤I1、针对所述页面集合P中的每个页面,使用所述新闻页面识别器对新闻页面进行识别,获得相应的新闻页面。
子步骤I2、将采集到的新增新闻页面进行存储,获得存储到新闻页面库中的新增新闻页面。
参照图3,示出了本发明中新闻页面增量采集整体框架的结构示意图。
从图3中可以看出:本发明中新闻页面增量采集的全过程,具体可以包括:
步骤301、稳定页面识别。
步骤302、新增页面识别器生成。
步骤303、新增页面爬取。
步骤304、新闻页面识别。
其中,新闻页面存储库中存储有相关的新闻页面。
参考图4,示出了本发明中的步骤301即稳定页面的识别的流程示意图,所述步骤301即稳定页面的识别,具体可以包括:
子步骤J1、指定新闻网站首页的URL。
子步骤J2、设定10个间隔为24小时的时间点t1,t2,...,t10,在每个时间点执行J3到J7,得到10个有向图G1(V1,E1),G2(V2,E2),......,G10(V10,E10),然后转J8。
子步骤J3、初始化页面节点集合V和页面链接集合E,集合V中的每个元素对应一个页面,表示为三元组<URL,level,flag>,其中URL指页面的URL,level指到首页的最短距离,flag指是否被使用过(0:未使用,1:使用过),集合E中的每个元素对应两个页面之间的有向链接,表示为<vi,vj>。
子步骤J4、根据新闻网站首页的URL生成节点v0<URL,0,0>,将v0添加至集合V。
子步骤J5、将集合V中flag为0的节点按照level的增序排列得到队列P,取出队列第一个节点vi,如果节点vi的level大于depth,则输出集合V和集合E并转至步骤J2,否则设节点vi的flag为1,获取节点vi的URL对应的Html文本并从Html文本中提取所有URL链接地址URL1,URL2,...,设节点vi的level为l-1,生成节点集合S{vi1,vi2,...},其中vi1为<URL1,l,0>,vi2为<URL2,l,0>。
子步骤J6、对J5中获取到的集合S中每一个节点v,判断是否集合V中存在某个节点的URL与v的URL相同,如果不存在,添加v至集合V。
子步骤J7、对J5中获取到的集合S中每一个节点vj,与J5中的vi得到一条有向边e<vi,vj>,如果e不在集合E中,添加该节点至集合V转J5。
子步骤J8、在10个有向图G1,G2,......,G10中,求V1,V2,......,V10的交集得到集合Vhub,设Gp=G10
从图4中,可以看出:本发明中的步骤301即稳定页面的识别的全过程,即步骤301网站的页面链接结构获取过程。
参考图5,示出了本发明中的步骤301中子步骤J3到子步骤J7的流程示意图,所述步骤201中子步骤E3到子步骤E7,具体可以包括:
子步骤K1、初始化页面节点集合V和页面链接集合E,集合V中的每个元素对应一个页面,表示为三元组<URL,level,flag>,其中URL指页面的URL,level指到首页的最短距离,flag指是否被使用过(0:未使用,1:使用过),集合E中的每个元素对应两个页面之间的有向链接,表示为<vi,vj>。
子步骤K2、根据新闻网站首页的URL生成节点v0<URL,0,0>,将v0添加至集合V。
子步骤K3、将集合V中flag为0的节点按照level的增序排列得到队列P,取出队列第一个节点vi,如果节点vi的level大于depth,则输出集合V和集合E并转至子步骤K2,否则设节点vi的flag为1,获取节点vi的URL对应的Html文本并从Html文本中提取所有URL链接地址URL1,URL2,...,设节点vi的level为l-1,生成节点集合S{vi1,vi2,...},其中vi1为<URL1,l,0>,vi2为<URL2,l,0>。
子步骤K4、对子步骤J5中获取到的集合S中每一个节点v,判断是否集合V中存在某个节点的URL与v的URL相同,如果不存在,添加v至集合V。
子步骤K5、对子步骤J5中获取到的集合S中每一个节点vj,与子步骤J5中的vi得到一条有向边e<vi,vj>,如果e不在集合E中,添加该节点至集合V转子步骤J5。
参考图6,示出了本发明中的步骤302即新闻页面分类器的生成的流程示意图,所述步骤步骤302即新闻页面分类器的生成,具体可以包括:
子步骤M1、从指定的新闻网站中随机选取100个新闻页面和100个非新闻页面作为训练集。
子步骤M2、采用ISUC算法生成新闻页面识别器。
参考图7,示出了本发明中的步骤303即新闻页面分类器的生成的流程示意图,所述步骤303即新增页面爬取,具体可以包括:
子步骤N1、执行步骤301中子步骤J3到子步骤J7,得到Gn
子步骤N2、对集合Vhub中的每个节点v,在Gp中获取以v为起始点的边集合E’,进一步获取E’中所有边的终点集合V’。
子步骤N3、对集合Vhub中的每个节点v,在Gn中获取以v为起始点的边集合E”,进一步获取E”中所有边的终点集合V”。
子步骤N4、执行集合减操作V”-V’,得到集合Vp
子步骤N5、读取中每个节点的URL,将对应的页面下载到本地,得到页面集合P。
参考图8,示出了本发明中的步骤304即新闻页面的识别的流程示意图,所述步骤304即新增页面的识别,具体可以包括:
子步骤O1、对集合P中的每个页面,使用步骤302得到的新闻页面识别器将新闻页面识别出来。
子步骤O2、得到本次采集到的新增新闻页面,存储到新闻页面库中。
参考图9,示出了本发明一种新型的中文新闻页面增量采集的方法实施例3的t时刻新华网链接结构示意图。
以新华网(http://www.xinhuanet.com/)为例:一种新型的中文新闻页面增量采集方法,该方法按实现顺序所示包括4个步骤:稳定页面识别;新闻页面识别器生成;新增页面采集;新闻页面识别。
稳定页面识别具体步骤包括:
子步骤P1、给定新华网的首页URL:http://www.news.cn/。
子步骤P2、设定10个时间点,间隔8小时,如表1所示。
表1.
从表1中可以看出:设置10个时间点,时间间隔为8小时。
子步骤P3、在每个时间点上,获取新华网的的页面链接结构。
  节点   URL
  V0   http://www.news.cn/
  V1   http://www.xinhuanet.com/newscenter/index.htm
  V2   http://www.news.cn/politics/
  V3   http://www.xinhuanet.com/mil
  V4   http://www.news.cn/fortune
  V5   http://www.wqnwby.com/
  V6   http://news.xinhuanet.com/2011-03/21/c_121230324.htm
  V7   http://news.xinhuanet.com/world/2011-03/21/c_121228784.htm
  V8   http://news.xinhuanet.com/fortune/2011-03/21/c_121229105.htm
  V9   http://www.ftms.com.cn/active/corolla_jhyl/
  V10   http://www.cnuac.com.cn/motai/motai.htm
表2.
从表2中可以看出:t1时刻新华网链接结构中节点的URL;
从图9可以看出t1时刻的网站链接结构,其中,由于页面链接结构非常复杂,只给出部分结构作为示意。
子步骤P4、比较10个时间点的页面链接结构,获得相应的页面链接结构。
子步骤P5、特征值大于阈值Limit,输出当前页面为新闻评论页面。
参考图10,示出了本发明一种新型的中文新闻页面增量采集的装置的结构示意图,具体可以包括:
稳定页面获取装置1001,用于获得一个时间段内不同时间点的新闻网站的页面链接结构。其中,所述稳定页面获取装置1001,具体可以包括:
获取新闻网站的页面链接结构装置10011,用于在多个特定时间点获取新闻网站的页面链接结构。
获取稳定页面装置10012,用于通过比较不同时间点的新闻网站的页面链接结构,获得稳定页面。
新闻页面分类器生成装置1002,用于通过人工标注的页面生成相应的新闻页面识别器。其中,所述新闻页面分类器生成装置1002,具体可以包括:
新闻页面采集装置10021,用于随机在所要采集的新闻网站中选取足够的页面。
标注新闻页面装置10022,用于人工标注所选取的页面是否为新闻页面。
获取新闻页面分类器装置10023,用于将标注的页面作为训练集,通过机器学习的方法,获得新闻页面分类器。
新增页面采集装置1003,用于从新闻网站中采集新增的页面。其中,所述新增页面采集装置1003,具体可以包括:
页面采集装置10031,用于对新增的页面进行采集。
获取稳定页面的新增页面装置10032,用于获取稳定页面指向的新增页面。
重复页面清除装置10033,用于将重复采集的页面进行清除。
新闻页面识别装置1004,用于通过新闻页面识别器在新增页面中对新闻页面进行识别。其中,所述新闻页面识别装置1004,具体可以包括:
识别新闻页面分类器装置10041,用于通过新闻页面分类器,将新闻页面与非新闻页面进行区分。
新闻页面存储装置1005,用于存储采集到的新增页面。
参考图11,示出了本发明一种新型的中文新闻页面增量采集的模块的结构示意图,具体可以包括:
新闻网站稳定页面识别模块1101,用于通过对网站的页面链接结构进行对比,获得页面节点,并将所述页面节点作为稳定页面。
新闻页面识别器的生成模块1102,用于通过机器学习的方式,获得判断页面是否是新闻页面的分类器。
新增页面采集模块1103,用于采集新闻网站中新出现的页面。
新闻页面识别模块1104,用于从采集的页面中识别出新闻页面。
总之,本发明提供了一种新型的中文新闻页面增量采集的方法及装置,能够有效的解决目前中文新闻页面采集方法中存在的因为重复采集新闻页面而带来的信息处理的效率低的缺陷。
以上对本发明所提供的一种新型的中文新闻页面增量采集的方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (2)

1.一种中文新闻页面增量采集的方法,其特征在于,包括:
对稳定页面进行识别,获得识别后的稳定页面;
对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器;
对新增页面进行采集,获得采集后的新增页面;
对新闻页面进行识别,获得识别后的新闻页面;
所述对稳定页面进行识别,获得识别后的稳定页面的步骤,包括:
接收识别命令,开始对稳定页面进行识别;
指定新闻网站首页的网址;
选取时间点间隔相同的连续10个时间点,获得时间间隔相同的连续10个时间点;其中,所述连续10个时间点的时间间隔能够由用户指定;
在所述连续10个时间点的每个时间点,对所述指定新闻网站的所有页面进行爬取,获得相应的连续10个时间点的每个时间点的页面集合;
对所述连续10个时间点的每个时间点的页面集合进行页面集合的交集操作,获得相应的交集集合;
对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面;
所述对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面的步骤,包括:
接收判断及识别命令,开始对所述获得的相应的交集集合中的每个页面进行判断及识别;
通过判断所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是否相同,来获得交集集合中的页面的判断及识别结果;若所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是相同的,则所述交集集合中的该页面为稳定页面,获得识别后的稳定页面;若所述新闻网站首页到所述交集集合中的页面在10个时间点上的最短途径是不相同的,则所述交集集合中的该页面不是稳定页面;
所述对新闻页面分类器进行相应的操作,获得生成的新闻页面分类器的步骤,包括:
指定新闻网站首页的网址;
从所述新闻网站中选取相同数量的新闻页面及非新闻页面,获得相应的相同数量的新闻页面及相同数量的非新闻页面;其中,所述新闻页面的数量及所述非新闻页面的数量由用户指定;
采用ISUC算法进行相应的计算,获得生成的新闻页面分类器;
所述对新增页面进行采集,获得采集后的新增页面的步骤,包括:
接收页面采集命令,开始对新增页面进行采集;
对每一个稳定页面的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接;
将所述获得的当前页面链接加入到原始页面链接集合中,获得更新后的页面链接集合;其中,若原始页面链接集合不存在,则更新后的页面链接集合为当前页面链接集合;
依据所述更新后的页面链接集合中的每个链接,获得所述每个链接相应的指向页面;
将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面;
每隔相同的时间间隔执行从对每一个稳定页面进行相应的页面链接进行获取,获得针对所述每一个稳定页面的相应的当前页面链接到将获得的所述每个链接相应的指向页面放入原始页面集合中,获得采集后的新增页面的操作的整个过程;其中,所述每个时间由客户指定;
循环上述操作,循环操作结束后,将所获得的采集后的新增页面进行汇总,获得采集后的新增页面集合;
所述对新闻页面进行识别,获得识别后的新闻页面的步骤,包括:
使用所述新闻页面分类器,对新增页面集合中的每个页面中的新闻页面及非新闻页面进行识别,获得相应的页面中的新闻页面及相应的页面的非新闻页面;
将上述新闻页面放入新增新闻页面集合中,获得更新后的新增新闻页面集合;
建立所述更新后的新增新闻页面集合与新闻页面的一一对应的关系;
依据所述更新后的新增新闻页面集合与新闻页面的一一对应的关系,由所述更新后的新增新闻页面集合,获得识别后的新闻页面。
2.一种用于实现权利要求1的中文新闻页面增量采集的装置,其特征在于,包括:
稳定页面获取装置,包括:
获取新闻网站的页面链接结构装置,用于在多个特定时间点获取新闻网站的页面链接结构;
获取稳定页面装置,用于比较不同时间点的新闻网站的页面链接结构;对每个时间点的页面集合进行页面集合的交集操作,获得相应的交集集合;并对所述获得的相应的交集集合中的每个页面进行判断及识别,获得识别后的稳定页面;
新闻页面分类器生成装置,用于通过人工标注的页面生成相应的新闻页面识别器;
新增页面采集装置,用于从新闻网站中采集新增的页面;
新闻页面识别装置,用于通过新闻页面识别器在新增页面中对新闻页面进行识别;
新闻页面存储装置,用于存储采集到的新增页面;
所述新闻页面分类器生成装置,包括:
新闻页面采集装置,用于随机在所要采集的新闻网站中选取足够的页面;
标注新闻页面装置,用于人工标注所选取的页面是否为新闻页面;
获取新闻页面分类器装置,用于将标注的页面作为训练集,通过机器学习的方法,获得新闻页面分类器;
所述新增页面采集装置,包括:
页面采集装置,用于对新增的页面进行采集;
获取稳定页面的新增页面装置,用于获取稳定页面指向的新增页面;
重复页面清除装置,用于将重复采集的页面进行清除。
CN201110425165.XA 2011-12-16 2011-12-16 一种新型的中文新闻页面增量采集的方法及装置 Expired - Fee Related CN102831135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110425165.XA CN102831135B (zh) 2011-12-16 2011-12-16 一种新型的中文新闻页面增量采集的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110425165.XA CN102831135B (zh) 2011-12-16 2011-12-16 一种新型的中文新闻页面增量采集的方法及装置

Publications (2)

Publication Number Publication Date
CN102831135A CN102831135A (zh) 2012-12-19
CN102831135B true CN102831135B (zh) 2015-10-28

Family

ID=47334277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110425165.XA Expired - Fee Related CN102831135B (zh) 2011-12-16 2011-12-16 一种新型的中文新闻页面增量采集的方法及装置

Country Status (1)

Country Link
CN (1) CN102831135B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138701B (zh) * 2015-09-29 2018-12-11 北京奇虎科技有限公司 索引页内容提取方法和装置、搜索引擎
CN105260443A (zh) * 2015-10-08 2016-01-20 北京奇虎科技有限公司 索引页主体链接记录方法和装置
CN113486279A (zh) * 2021-06-29 2021-10-08 平安信托有限责任公司 新闻自动生成方法、装置、设备及存储介质
CN114519163B (zh) * 2022-02-21 2024-05-03 江西数易科技有限公司 基于正则匹配和Bloom filter的增量新闻URL提取方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565350B2 (en) * 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"A Sample-Guided Approach to Incremental Structured Web Database Crawling";Wei Liu, Jianguo Xiao, Jianwu Yang;《Proceedings of the 2010 IEEE International Conference on Information and Automation 》;20100623;890-895 *
"Efficient Web Page Main Text Extraction towards Online News Analysis";Baoyao Zhou, Yuhong Xiong and Wei Liu;《2009 IEEE International Conference on e-Business Engineering》;20091231;37-41 *
"基于支持向量机与无监督聚类相结合的中文网页分类器";李晓黎,刘继敏,史忠植;《计算机学报》;20010131;第24卷(第1期);62-68 *

Also Published As

Publication number Publication date
CN102831135A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN102708096B (zh) 一种基于语义的网络智能舆情监测系统及其工作方法
CN102693304B (zh) 一种搜索引擎的反馈信息处理方法及搜索引擎
CN102591612B (zh) 一种基于标点连续性的通用网页正文提取方法及其系统
CN102567494B (zh) 网站分类方法及装置
CN101493819B (zh) 一种搜索引擎作弊检测的优化方法
CN104699766A (zh) 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法
CN108920434A (zh) 一种通用的网页主题内容提取方法和系统
CN102521248A (zh) 一种网络用户分类方法及其装置
CN107180045A (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN103955529A (zh) 一种互联网信息搜索聚合呈现方法
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN101231661A (zh) 对象级知识挖掘的方法和系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN102831135B (zh) 一种新型的中文新闻页面增量采集的方法及装置
CN103870001A (zh) 一种生成输入法候选项的方法及电子装置
CN104217038A (zh) 一种针对财经新闻的知识网络构建方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
Liu et al. A novel focused crawler based on cell-like membrane computing optimization algorithm
CN103294820B (zh) 基于语义扩展的web页面归类方法和系统
Nikhil et al. A survey on text mining and sentiment analysis for unstructured web data
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN109857952A (zh) 一种具有分类显示的搜索引擎及快速检索方法
CN107908757A (zh) 网站分类方法及系统
CN108595466B (zh) 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151028

Termination date: 20161216