CN101470728B - 一种中文新闻网页正文的自动抽取方法及装置 - Google Patents
一种中文新闻网页正文的自动抽取方法及装置 Download PDFInfo
- Publication number
- CN101470728B CN101470728B CN2007103041465A CN200710304146A CN101470728B CN 101470728 B CN101470728 B CN 101470728B CN 2007103041465 A CN2007103041465 A CN 2007103041465A CN 200710304146 A CN200710304146 A CN 200710304146A CN 101470728 B CN101470728 B CN 101470728B
- Authority
- CN
- China
- Prior art keywords
- plain text
- tabulation
- weights
- page data
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000010276 construction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 238000012549 training Methods 0.000 abstract description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012407 engineering method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000272183 Geococcyx californianus Species 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种中文新闻网页正文的自动抽取方法,该方法包括:根据网页生成得到页面数据列表,并对得到的页面数据列表进行细化筛选,然后将经过细化筛选得到的纯文本列表中的每项按照针对新闻正文的特征参数赋权值,计算每项纯文本数据的最终权重,并比较最终权重大小得出新闻正文。本发明同时还公开了一种中文新闻网页正文的自动抽取装置,该装置包括:页面数据列表抽取模块、细化筛选模块、赋权值模块及新闻正文抽取模块,整个装置用于完成中文新闻正文抽取功能。利用本发明,既能简化训练过程的复杂度,也能同时提高对中文新闻网页正文抽取的准确性,且实现简单、方便。
Description
技术领域
本发明涉及网页信息抽取技术,尤其是指一种中文新闻网页正文的自动抽取方法及装置。
背景技术
伴随网络信息爆炸式的增长,人们对海量的Web信息的特殊化需求也越来越高,利用大规模搜索引擎以及专有领域的采集技术,可以获取Web上的海量信息,但是Web上提供的数据基本上由非结构化的静态的超文本链接标示语言(HTML,Hypertext Markup Language)代码构成,并不能被信息分析系统直接使用,因此要通过不同的信息抽取系统进行抽取,抽取所需要的有价值的结构化文本数据,才能由信息分析系统进行后续的信息处理。由此可见,信息抽取是信息处理非常关键的一步,如何高效准确地抽取出结构化文本数据也是一直以来研究的热点。
新闻作为一类重要的实时性网络信息数据,其巨大的应用前景,引发了人们对新闻内容的自动分类聚类、信息抽取、自动摘要、热点分析与追踪等一系列技术的研究,然而仅仅简单的利用搜索引擎技术很难获取所需要的所有特定的新闻信息资源,而新闻Web页面自动抽取技术的提出,有效地解决了如何准确获取Web页面中的结构化的新闻信息资源的难题。
目前,信息抽取系统主要有两种设计方法:知识工程方法和机器学习方法。
知识工程方法需要知识工程师通过仔细研究信息抽取领域的特点,设计出一套用于抽取所需信息的规则来实现信息抽取。一般情况下,开发高效的信息抽取系统需要这样一个过程:分析数据、写规则、运行系统、测试结果、检查结果、改进规则、继续迭代等。在规则的书写上,知识工程师必需认真分析样 本数据,还要依据自身平常所积累的经验及对本领域的特殊领悟。知识工程方法除需要对本领域知识有深入的了解之外,还需要大量的工作时间。
目前的知识工程方法的典型应用主要是包装器wrapper技术,包装器是将HTML的内容,利用定制好的规则抽取出来,即将非结构化的HTML代码转换成结构化的文本数据,供信息分析系统进行后续的信息处理。抽取规则是以特定的一类网页为基础的,抽取规则的描述和处理是包装器的核心部分。
现有技术中抽取规则的获取主要有三种方法:人工书写抽取规则、半自动化获取抽取规则及完全自动化的获取抽取规则,相应地,目前应用比较多的包装器有人工书写抽取规则的TSIMMIS工具包装器、半自动化生成抽取规则的XWRAP系统工具包装器及完全自动化的生成抽取规则的RoadRunner工具包装器。包装器所产生的抽取规则对页面的结构、内容依赖性强,当页面结构发生变化时,包装器需要重新生成抽取规则;包装器的可重用性不强,往往对不同类型的Web网页需要编写不同的包装器,因此利用包装器将非结构化的HTML代码转换成结构化的文本数据的方法代价很大。
机器学习方法则不需要知识工程师人工书写抽取规则,只需要有大量人工标注过的训练数据,依靠机器学习算法,将训练数据给程序进行学习,来得到相应的知识库,即得到结构化的文本数据。
文献“Title Extraction from Bodies of HTML Documents and Its Application toWeb Page Retrieva1”[ACM-SIGIR′05]提出了基于特征向量提取和非对称感知器权值训练算法的面向任意网页的标题自动抽取算法。标题一般仅涉及一个段落,而正文则往往包含好多个段落而抽取难度比较大,因此,该算法不太适用于对正文的抽取。另外,该算法针对的是任意网页,而针对新闻网页,也很不适用。
可见,无论是知识工程方法还是机器学习方法均有其缺点:知识工程方法的缺点在于开发过程需要烦琐的迭代工作;而机器学习方法则因需要经过大量人工标注的训练数据,过程复杂,不太适合对新闻网页的自动抽取。
发明内容
有鉴于此,本发明的主要目的在于提供一种中文新闻网页正文的自动抽取方法及装置,既能简化训练过程的复杂度,也能同时提高对中文新闻网页正文抽取的准确性,且实现简单、方便。
为达到上述目的,本发明的技术方案是这样实现的:
一种中文新闻网页正文的自动抽取方法,该方法包括以下步骤:
A、从网页中采集超文本链接标示语言HTML源文件;
将源文件中所有的标签TAG进行匹配,将TAG以外其它地方出现的同样的特殊标记进行替换,将所有的标记修改为正确嵌套;将所有的HTML代码字符表示形式统一;
构建HTML文档树;
从构建的文档树中抽取每个包含页面数据的节点范围内的文本数据;
根据HTML文档生成页面数据列表;
对生成的页面数据列表进行细化筛选,得到纯文本列表;
B、将经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋权值;
C、根据所赋的权值计算纯文本列表中每项纯文本数据的最终权重,并比较权重大小得出新闻正文。
进一步地,步骤A中所述细化筛选为:
A1、删除页面数据列表中所有多余的HTML标记;
A2、丢弃页面数据列表中除用户有特殊需要以外的超链接;
A3、根据页面数据中的节点信息过滤掉页面数据列表中多余的文本部分。
较佳地,步骤B中所述针对新闻正文的特征参数为:新闻文本长度、排除 关键字、距离发布时间的远近及距离新闻标题的远近。
进一步地,步骤B所述赋权值为:
B1、分别为纯文本列表中每项纯文本数据赋一个与文本长度成正比的正的权值WEIGHT1;
B2、若排除关键字出现在纯文本数据开头,给所述纯文本数据赋一个负的权值WEIGHT2;
B3、得到新闻的标题,计算所得到的新闻标题与每项纯文本数据的距离,根据每项纯文本数据与新闻标题的距离,为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT3;
B4、根据步骤B3得到的新闻标题获得发布时间,根据每项纯文本数据距离发布时间的距离远近,为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT4。
较佳地,步骤B3中所述新闻标题的获得方法为:通过点击文字超链接进入新闻页面的父页面的超链接文字得到,或通过新闻页面文字的样式和新闻标题本身的特点得到,或通过HTML源码中节点范围中的内容得到。
进一步地,所述发布时间的获得方法为:
B41、扫描整个HTML源文件的所有时间格式,保存扫描到的所有时间格式,并记录扫描到的所有时间在该HTML源文件中的位置;
B42、根据获得的新闻标题,在HTML源文件中定位新闻标题的位置;
B43、计算所有时间与新闻标题的距离,距离最小者为新闻发布时间。
较佳地,所述步骤C为:将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加,得到每项纯文本数据的最终权重。
较佳地,得到每项纯文本数据的最终权重后,该方法进一步包括:比较最终权重的大小,所有纯文本数据的最终权重均不相等时,或有纯文本数据的最终权重相等,但有比该相等权重更大的权重时,取最终权重最大的纯文本数据为新闻正文;有纯文本数据的最终权重相等,且没有比相等权重更大的权重时,比较最终权重相等的纯文本数据针对距离新闻标题的权值,针对距离新闻标题 的权值最大的纯文本数据为新闻正文。
一种中文新闻网页正文的自动抽取装置,该装置包括:页面数据列表抽取模块、细化筛选模块、赋权值模块、新闻正文抽取模块,其中,
页面数据列表抽取模块,用于根据网页生成页面数据列表,并将该页面数据列表发送给细化筛选模块;
细化筛选模块,用于对页面数据列表抽取模块发送来的页面数据列表进行细化筛选,得到纯文本列表,并将经过细化筛选得到的纯文本列表发送给赋权值模块;
赋权值模块,用于将细化筛选模块发送来的经过细化筛选得到的纯文本列表中的每项按照特征参数赋权值,并将每项纯文本数据及其得到的权值发送给新闻正文抽取模块;
新闻正文抽取模块,用于计算每项纯文本数据的最终权重,并比较权重大小得出新闻正文。
进一步地,所述页面数据列表抽取模块进一步包括:采集单元、预处理单元、文档树构建单元及页面数据列表抽取单元,其中,
采集单元,用于采集HTML源文件,并将采集到的HTML源文件发送给预处理单元;
预处理单元,用于对采集单元发送过来的HTML源文件进行预处理,并将经过预处理单元预处理得到的标准规范的HTML代码发送给文档树构建单元;
文档树构建单元,用于将预处理单元发送来的标准规范的HTML代码构建成文档树,并将构建成的文档树发送给页面数据列表抽取单元;
页面数据列表抽取单元、用于从文档树构建单元发送来的文档树中抽取每个包含页面数据的节点范围内的页面数据,并将得到的页面数据按照得到的先后顺序组织成页面数据列表,并将该页面数据列表发送给细化筛选模块。
本发明所提供的中文新闻网页正文的自动抽取方法及装置,根据规范的中文新闻网页结构和内容的共同特点,根据网页数据生成页面数据列表,并对生成的页面数据列表进行细化筛选,得到纯文本列表,然后将纯文本列表中每项 纯文本数据对应新闻正文的多种特征参数赋权值,根据最终权重值得出新闻正文。这样,对于较为规范的新闻类网页,其正文抽取的准确率可以达到90%。在具体产品的实际使用中,抽取100个网站的新闻网页,抽样统计的准确率在80%以上,由此可见,本发明充分利用了中文新闻网页的特点,进行多层细化筛选,且按照多项针对正文的特征参数进行加权,提高了对中文新闻网页正文抽取的准确性,且实现简单、方便;既克服了机器学习需要大量经过人工标注的训练数据,过程复杂的问题,也避免了对包装器大量繁杂抽取规则的书写过程。
附图说明
图1为本发明中文新闻网页正文的自动抽取方法流程示意图;
图2为本发明实施例中HTML文档树结构示意图;
图3为本发明实施例中纯文本列表示意图;
图4为本发明中具体对纯文本列表中每一项文本数据进行加权的流程示意图;
图5为本发明中新闻发布时间的抽取流程示意图;
图6为本发明中文新闻网页正文的自动抽取装置结构示意图;
图7为本发明中纯文本列表抽取模块的结构示意图。
具体实施方式
本发明基于规范中文新闻网页结构和内容的共同特点,抽象出一套统一的中文新闻网页正文抽取方案,本发明的基本思想是:根据网页数据生成页面数据列表,并对生成的页面数据列表进行细化筛选,得到纯文本列表,然后应用多项特征加权的方法,将纯文本列表中每项纯文本数据按照新闻正文的多种特征参数赋权值;最后计算纯文本列表中每项纯文本数据的最终权重,并通过比较权重大小得出新闻正文。
目前,规范的中文新闻网页普遍存在以下几点共同特性:
1、风格类似:新闻正文内容部分占据网页的中心位置,并且内容都在一对<TABLE></TABLE>或<DIV></DIV>内。新闻正文一般是一篇文档中片幅最长的文字,文字由比较大段的统一格式组成,正文的不同段落往往依次排列;
2、结构类似:新闻正文通常按照“标题+发布时间+来源”的固定段落层次排列,且新闻正文一般紧邻发布时间的下方,距离标题较近;
3、内容类似:新闻正文段落开始一般不会包含“版权声明:”等字样,正文段落内有大量的超链接,例如相关新闻页面,推荐页面,广告页面等,排除超链接文字,正文为最主要的文字区域。
基于中文新闻网页正文的上述共性,本发明采用表格自动抽取的方法,配合正文长度、排除关键字、距离发布时间的远近、距离新闻标题的远近等多项决策加权的技术方案,进行中文新闻网页正文的自动抽取。
下面结合附图对本发明的具体实施作进一步详细的说明。
图1为本发明中文新闻网页正文的自动抽取方法流程图,如图1所示,该方法包括以下步骤:
步骤101、采集获得新闻页面的HTML源文件;
此处,一般是用采集器进行采集。
步骤102、对HTML源文件进行预处理,得到标准规范的HTML代码;
因为Web网页的数据多样性和网页结构的复杂性,需要对HTML源文件中的HTML代码进行统一的网页规范化处理,即进行预处理。具体的预处理方法包括:
首先,将源文件中所有的标签(TAG)进行匹配,将源文件中不成对出现的TAG进行修改,保证所有开始和结束TAG的匹配,因为HTML中的TAG标记必须成对出现;
其次,将除TAG标记以外其它地方出现的“<”和“>”分别替换为“<;”和“&rt;”,因为在HTML代码中页面显示的内容如果出现“<”和“>”,会与TAG标记中包含的“<”和“>”混淆;这里,“<”和“>”属于TAG中的特殊标记,除了TAG中的特殊标记,对其它地方出现同样的特殊标记需要进 行替换,以避免标记重复,替换后的标记只要与TAG标记的特殊标记不重复且可以识别即可;
之后,将所有的标记修改为正确嵌套,所谓正确实际就是保证配对,嵌套的标记符合配对的规则,能保证嵌套可以正常解析;
最后,将所有的HTML代码字符的形式进行统一,这里,所谓统一是指将所有HTML代码字符全部转化成大写或全部转化成小写,以方便整个抽取过程中对模式匹配的要求。
步骤103、构建HTML文档树;
步骤102中的预处理过程是构造HTML文档树的前提,本步骤根据步骤102所得到的标准规范的HTML代码,利用HTML代码的标记构建HTML文档树,将文档树中的每个节点包含一对标记间的所有字符,且节点的名字设置为对应标记的名字。由于HTML代码具有开始和结束TAG成对出现的特征,在起始标记和结束标记之间包括网页描述属性和网页内容两部分信息,所以构造Web文档结构树的时候采用标记匹配和回溯相结合的方法,并忽略对TAG标记的属性描述信息。
目前,一般HTML的标记大都是由<TAG>和</TAG>成对组成,所以需要标记匹配,从第一个<TAG>开始,到下一个与之匹配的</TAG>结束标记之间的内容是这个TAG的实际内容;采用回溯的方法,是因为标记可以嵌套,在一个<TABLE></TABLE>之内可能还有子<TABLE></TABLE>,所以要找出所有的配对的<TABLE>标记,直到最后一个匹配</TABLE>标记,才能准确找出每一个<TABLE>对。
由于本发明主要是对新闻页面范围内内容的抽取,所以需要考虑的HTML标记主要有:<HTML></HTML><BODY>、</BODY>、<TABLE>、</TABLE>、<DIV>、</DIV>、<TR>、</TR>、<TD>、</TD>,在构建HTML文档树时,可将其它的HTML标记视为无用HTML标记直接舍弃。
以下具体以一段经过预处理的文档树的构建为例来说明:
<h3>张三的博客
<spa n class=“class 1”>
<img src=“http://www.sina.com/img/star.gif’alt=“会员”id=“star1”>
</s pan>
<spa n class=“stat”>
您的博客已经有
<span class=“count”id=“vcount”>
8888
</span>
人浏览
</s pan>
</h3>
利用上述经过预处理的数据所构建的文档树如图2所示,文档树中每个节点包含一对标记间的所有字符,且节点的名字为对应标记的名字。
步骤104、根据步骤103中构建的HTML文档树生成页面数据列表;
根据步骤103中构建的HTML文档树取出每个包含页面数据的节点范围内的数据,并将得到的数据按照得到的先后顺序组织成页面数据列表,待下一步细化处理。
通常,包含页面数据的节点为<TABLE>和<DIV>,这里,一般是根据<TABLE>和<DIV>的位置,得到每一个<TABLE></TABLE>,<DIV></DIV>范围中的数据,将得到的每一个<TABLE></TABLE>,<DIV></DIV>范围中的数据,按照得到的先后顺序组织成页面数据列表,待下一步细化处理;
上述步骤102~104的目的是从HTML源文件中更加直观地生成页面数据列表,在实际操作中,也可以直接从HTML源文件中生成页面数据列表。
步骤105、对页面数据列表中的数据进行细化筛选,得到纯文本列表;
因为TABLE结构的范围很大,包含的内容也很多,所以必须对上一步得到的页面数据列表中的数据进行细化筛选,具体做法如下:
先删除所有多余的HTML标记,如<P></P>,<li></li>,<span></span>等; 再处理超链接,这里包括图片链接和文字链接。其中,文字链接由<a href></a>标记确定,主要是一些相关新闻,新闻评论,站内链接,以及大量的广告信息,所以采取全部舍弃的策略;对于图片超链接,用户没有特殊要求的,将所有超链接的标记,即,将包含<img>的标记和内容统统舍弃,如果用户要求保存的新闻图片,按照<img>的位置记录图片在正文中的位置,将图片的保存路径作为特殊文本保留在内容中,当读取正文时,即可加载图片信息。
然后,根据页面数据中的节点信息过滤掉多余的文本内容。这里,一般过滤掉<FORM></FORM>,<SELLECT></SELLECT>,<STYLE></STYLE>,<SCRIPT></SCRIPT>中的文本内容,因为<FORM></FORM>是需要和服务器交互的表单项,<SELLECT></SELLECT>为下拉列表内容项,<SCRIPT></SCRIPT>为一些动态网页的脚本语言,<STYLE></STYLE>为一些网页的样式,所以这些内容不是用户所需要的正文内容,但是经常会以大篇幅的文字形式出现,成为正文选择的干扰项,所以此处需要进行过滤舍弃。
页面数据列表经过细化筛选后得到的文本列表如图3所示,将经过细化筛选后的纯文本数据组织在******之间,方便查看结果,也易于理解。图3中,第一段文字为新闻的标题,第二段为新闻发布时间、新闻正文、来源、作者等,第三段为版权声明,其他的多余信息已经过细化筛选舍弃掉。
步骤106、将经过细化筛选后得到的纯文本列表中的每项纯文本数据按照多种特征进行加权;
由于得到的文本列表包含了页面内所有的纯文本数据,很难按照一个标准去判定哪一个是正文,所以按照中文新闻的四个共性,进行加权。因为中文新闻的四个共性分别为:1)正文一般都是一篇文档中篇幅最长的文字;2)正文紧临发布时间的下方;3)正文的段落开始一般不会包含“版权声明:”等字样;4)正文距离标题较近。所以,通常选取文本的长度、文本是否包含关键字、文本距离发布时间的远近、及文本距离新闻标题的远近这四项作为针对新闻正文的特征参数,基于针对新闻正文的特征参数为每一段文本赋权值,即进行加权处理,具体加权过程如图4所示,包括以下步骤:
步骤106a:为每项纯文本数据按照长度赋权值;
分别为列表中每项纯文本数据赋一个正的权值WEIGHT1,权值WEIGHT1与文本长度成正比,但是权值的具体大小可以随实际情况进行调节。
此处,可以根据以下公式计算:WEIGHT1=N*OneTableLength/500,其中,OneTableLength为每一项表格文本列表内容的字符长度,以500个字符作为基准,N为调整因子。但在实际操作中,可以根据具体需要采用相应的权重计算公式,只要保证权值WEIGHT1与文本长度成正比即可。
步骤106b:为每项纯文本数据按照排除关键字赋权值;
根据大量50个新闻站点的试验,95%的大篇幅的干扰文本内容多出现在版权声明和网站信息中,需要提取其中的主要关键字,作为排除特征,比如:“版权声明”,“免责声明”,“版权说明”,“①凡本网”等。若这些排除关键字出现在纯文本数据开头,则给这些纯文本数据赋一个负的权值WEIGHT2。这里,判断关键字出现在纯文本数据开头的标准一般为:排除关键字的位置在纯文本数据开始的前8个字符内。当然,也可能出现包含N个字的排除关键字,则排除关键字的位置在纯文本数据开始的前N×2个字符内,认为排除关键字出现在纯文本数据的开头。
步骤106c:为每项纯文本数据按照距离新闻标题的远近赋权值;
这里,新闻标题可以通过点击文字超链接进入新闻页面的那一级页面,通常称为列表页或父页面的超链接文字得到,也可以通过页面文字的样式和标题本身的特点,如字数,字号,加粗等,还可以通过页面特定节点<TITLE></TITLE>中的内容得到,得到新闻标题以后,计算新闻标题与每项纯文本数据的距离,根据每项纯文本数据距离新闻标题的距离远近,为每项纯文本数据赋一个正的权值WEIGHT3,距离越近,权值越大,距离越远,权值越小,即权值WEIGHT3与距离成反比。
步骤106d:为每项纯文本数据按照距离发布时间的远近赋权值;
一般的网页都会按照版面的排列顺序来布局表格,虽然有时由于嵌套,可能顺序稍有改变,但基本不影响新闻发布时间与正文距离的判断。这种加权的 方法依赖于发布时间的精确取得,具体抽取发布时间的算法,如图5所示:
步骤d1:扫描整个HTML源文件的所有时间格式,存储于时间列表,并记录在HTML源文件里扫描到的所有时间在该HTML源文件中的位置;
步骤d2:在HTML源文件中定位标题的位置,根据步骤106c得到的新闻标题,确定新闻标题相应的位置;
步骤d3:计算所有时间与标题的距离,距离最小者为新闻发布时间。由于标题下方往往紧接着发布时间,所以以标题作为参照物,是一个很好的评估标准。根据每项纯文本数据距离发布时间的距离远近,为每项纯文本数据赋一个正的权值WEIGHT4,距离越近,权值越大,距离越远,权值越小,即权值WEIGHT4与距离成反比。
这里,在按照各种决策赋权值的顺序可任意变化,在赋权值时,可以综合情况来对所赋权值进行适当的调节:如果新闻标题和发布时间的获取比较准确时,可以适当地减小按照长度赋的权值WEIGHT1,而适当地增大WEIGHT3、WEIGHT4的权值;如果新闻标题和发布时间的获取不够准确,可以适当调大按照长度赋的权值WEIGHT1,而适当地减小按照距离新闻标题的距离赋的权值WEIGHT3、按照距离发布时间的距离赋的权值WEIGHT4;当正文内容很短时,版权声明干扰信息的影响会很大,此时需要将负的权值WEIGHT2的绝对值适当调大。
步骤107、计算文本列表中的每项纯文本数据的最终权重并比较权重大小,得出正文内容;
将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加,即:将每项纯文本数据各自的WEIGHT1、WEIGHT3、WEIGHT4、WEIGHT2中的两项、三项或全部相加,得到每项纯文本数据的最终权重,只是每项纯文本数据得到最终权重的项和项数必须相同,这样才有可比性。
得到纯文本列表中每项纯文本数据的最终权重后,最终权重全部不相等的,或最终权重有相等的,但是有比该相等权重更大的权重时,取最终权重最大的纯文本数据即为新闻正文;最终权重有相等的,且没有比该相等权重更大的权 重时,可以比较最终权重相等的纯文本数据按照距离新闻标题的远近得到的权值,按照距离发布时间的远近得到的权值最大的纯文本数据为新闻正文。
在实际信息的抽取过程中,得到权值相等的情况很少,另外,选取按照距离新闻标题的远近得到的权值作为判断的标准,是因为规范的新闻正文肯定有标题,按照这点得到新闻正文的准确性更强。
为实现本发明,采用图6所示装置,该装置包括以下模块:页面数据列表抽取模块61、细化筛选模块62、赋权值模块63、新闻正文抽取模块64,其中,
页面数据列表抽取模块61,用于根据网页生成页面数据列表,并将该页面数据列表发送给细化筛选模块62;
细化筛选模块62,用于对页面数据列表抽取模块61发送来的页面数据列表进行细化筛选,得到纯文本列表,并将经过细化筛选得到的纯文本列表发送给赋权值模块63;
赋权值模块63,用于将细化筛选模块62发送来的经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋予权值,并将每项纯文本数据及其按照针对新闻正文的特征参数得到的权值发送给新闻正文抽取模块64;
新闻正文抽取模块64,用于计算每项纯文本数据的最终权重,并比较权重大小得出新闻正文内容。
其中,页面数据列表抽取模块61进一步包括采集单元611、预处理单元612、文档树构建单元613、页面数据列表抽取单元614,如图7所示,其中,
采集单元611,用于采集HTML源文件,并将采集到的HTML源文件发送给预处理单元612;
预处理单元612,用于对采集单元611发送过来的HTML源文件进行预处理,并将经过预处理单元612预处理得到的标准规范化的HTML代码发送给文档树构建单元613;
文档树构建单元613,用于将预处理单元612发送过来的标准规范化的HTML代码构建成文档树,并将构建成的文档树发送给页面数据列表抽取单元 614;
页面数据列表抽取单元614、用于从文档树构建单元613发送来的文档树中抽取包含页面数据的节点范围中的页面数据,并将得到的页面数据按照得到的先后顺序组织成页面数据列表,并将该页面数据列表发送给细化筛选模块62;
本发明应用多种特征值加权决策的新闻正文的方法及装置,充分利用了中文新闻的结构特征,利用统一的模版程序,无需人工干预就能自动获取中文新闻正文的内容,并且保持了较高的准确性、实用性和通用性。如果网页是比较规范的新闻类网页,其正文抽取的准确率可以达到90%。在具体产品的实际使用中,抽取100个网站的新闻网页,抽样统计的准确率在80%以上。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (9)
1.一种中文新闻网页正文的自动抽取方法,其特征在于,该方法包括以下步骤:
A、从网页中采集超文本链接标示语言HTML源文件;
将源文件中所有的标签TAG进行匹配,将TAG以外其它地方出现的同样的特殊标记进行替换,将所有的标记修改为正确嵌套;将所有的HTML代码字符表示形式统一;
构建HTML文档树;
从构建的文档树中抽取每个包含页面数据的节点范围内的文本数据;
根据HTML文档生成页面数据列表;
对生成的页面数据列表进行细化筛选,得到纯文本列表;
B、将经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋权值;
C、根据所赋的权值计算纯文本列表中每项纯文本数据的最终权重,并比较权重大小得出新闻正文。
2.根据权利要求1所述的方法,其特征在于,步骤A中所述细化筛选为:
A1、删除页面数据列表中所有多余的HTML标记;
A2、丢弃页面数据列表中除用户有特殊需要以外的超链接;
A3、根据页面数据中的节点信息过滤掉页面数据列表中多余的文本部分。
3.根据权利要求2所述的方法,其特征在于,步骤B中所述针对新闻正文的特征参数为:新闻文本长度、排除关键字、距离发布时间的远近及距离新闻标题的远近。
4.根据权利要求3所述的方法,其特征在于,步骤B所述赋权值为:
B1、分别为纯文本列表中每项纯文本数据赋一个与文本长度成正比的正的权值WEIGHT1;
B2、若排除关键字出现在纯文本数据开头,给所述纯文本数据赋一个负的 权值WEIGHT2;
B3、得到新闻的标题,计算所得到的新闻标题与每项纯文本数据的距离,根据每项纯文本数据与新闻标题的距离,为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT3;
B4、根据步骤B3得到的新闻标题获得发布时间,根据每项纯文本数据距离发布时间的距离远近,为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT4。
5.根据权利要求4所述的方法,其特征在于,步骤B3中所述新闻标题的获得方法为:通过点击文字超链接进入新闻页面的父页面的超链接文字得到,或通过新闻页面文字的样式和新闻标题本身的特点得到,或通过HTML源码中节点范围中的内容得到。
6.根据权利要求5所述的方法,其特征在于,所述发布时间的获得方法为:
B41、扫描整个HTML源文件的所有时间格式,保存扫描到的所有时间格式,并记录扫描到的所有时间在该HTML源文件中的位置;
B42、根据获得的新闻标题,在HTML源文件中定位新闻标题的位置;
B43、计算所有时间与新闻标题的距离,距离最小者为新闻发布时间。
7.根据权利要求6所述的方法,其特征在于,所述步骤C为:将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加,得到每项纯文本数据的最终权重。
8.根据权利要求7所述的方法,其特征在于,得到每项纯文本数据的最终权重后,该方法进一步包括:比较最终权重的大小,所有纯文本数据的最终权重均不相等时,或有纯文本数据的最终权重相等,但有比该相等权重更大的权重时,取最终权重最大的纯文本数据为新闻正文;有纯文本数据的最终权重相等,且没有比相等权重更大的权重时,比较最终权重相等的纯文本数据针对距离新闻标题的权值,针对距离新闻标题的权值最大的纯文本数据为新闻正文。
9.一种中文新闻网页正文的自动抽取装置,其特征在于,该装置包括:页面数据列表抽取模块、细化筛选模块、赋权值模块、新闻正文抽取模块,其中,
页面数据列表抽取模块,用于根据网页生成页面数据列表,并将该页面数据列表发送给细化筛选模块;
细化筛选模块,用于对页面数据列表抽取模块发送来的页面数据列表进行细化筛选,得到纯文本列表,并将经过细化筛选得到的纯文本列表发送给赋权值模块;
赋权值模块,用于将细化筛选模块发送来的经过细化筛选得到的纯文本列表中的每项按照特征参数赋权值,并将每项纯文本数据及其得到的权值发送给新闻正文抽取模块;
新闻正文抽取模块,用于计算每项纯文本数据的最终权重,并比较权重大小得出新闻正文;
其中,所述页面数据列表抽取模块进一步包括:采集单元、预处理单元、文档树构建单元及页面数据列表抽取单元,
采集单元,用于采集HTML源文件,并将采集到的HTML源文件发送给预处理单元;
预处理单元,用于对采集单元发送过来的HTML源文件进行预处理,并将经过预处理单元预处理得到的标准规范的HTML代码发送给文档树构建单元;
文档树构建单元,用于将预处理单元发送来的标准规范的HTML代码构建成文档树,并将构建成的文档树发送给页面数据列表抽取单元;
页面数据列表抽取单元,用于从文档树构建单元发送来的文档树中抽取每个包含页面数据的节点范围内的页面数据,并将得到的页面数据按照得到的先后顺序组织成页面数据列表,并将该页面数据列表发送给细化筛选模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103041465A CN101470728B (zh) | 2007-12-25 | 2007-12-25 | 一种中文新闻网页正文的自动抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103041465A CN101470728B (zh) | 2007-12-25 | 2007-12-25 | 一种中文新闻网页正文的自动抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101470728A CN101470728A (zh) | 2009-07-01 |
CN101470728B true CN101470728B (zh) | 2011-06-08 |
Family
ID=40828204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007103041465A Expired - Fee Related CN101470728B (zh) | 2007-12-25 | 2007-12-25 | 一种中文新闻网页正文的自动抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101470728B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101702160B (zh) * | 2009-10-28 | 2013-04-17 | 深圳市龙视传媒有限公司 | 一种互联网主题信息采集方法及装置 |
CN102457817B (zh) * | 2010-10-15 | 2014-11-05 | 北大方正集团有限公司 | 一种手机报中新闻内容的抽取方法及系统 |
CN102012894B (zh) * | 2010-11-19 | 2012-10-10 | 百度在线网络技术(北京)有限公司 | 一种终端文档显示方法及系统 |
CN103136312B (zh) * | 2011-12-27 | 2016-08-31 | 北京麦克斯泰科技有限公司 | 一种新闻网页内容的抽取方法 |
CN102591612B (zh) * | 2011-12-27 | 2014-12-03 | 厦门市美亚柏科信息股份有限公司 | 一种基于标点连续性的通用网页正文提取方法及其系统 |
CN103116592A (zh) * | 2012-01-13 | 2013-05-22 | 昆山麦克斯泰科技有限公司 | 一种网页内容的格式化输出方法 |
CN102750390B (zh) * | 2012-07-05 | 2014-07-23 | 翁时锋 | 新闻网页要素自动提取方法 |
CN103593360A (zh) * | 2012-08-16 | 2014-02-19 | 江苏金鸽网络科技有限公司 | 基于页面分析的互联网信息发表时间提取方法 |
CN103150632B (zh) * | 2013-03-13 | 2016-03-16 | 河海大学 | 基于水利云平台的防汛防旱简报生成系统的构建方法 |
CN103678602B (zh) * | 2013-12-16 | 2017-02-01 | 昆明理工大学 | 一种含敏感度计算的网页过滤方法 |
CN104915837A (zh) * | 2014-03-11 | 2015-09-16 | 携程计算机技术(上海)有限公司 | 产品的展示数据计算应用方法及设备 |
CN103838880B (zh) * | 2014-03-28 | 2017-05-24 | 北京猎豹网络科技有限公司 | 一种网页广告过滤方法及装置 |
CN104951302A (zh) * | 2015-06-11 | 2015-09-30 | 广州神马移动信息科技有限公司 | 网页渲染方法及装置 |
CN104899319B (zh) * | 2015-06-18 | 2018-07-24 | 深圳市茁壮网络股份有限公司 | 一种网页图标加载方法及装置 |
CN106897287B (zh) * | 2015-12-18 | 2020-06-16 | 中国电信股份有限公司 | 网页发布时间抽取方法和用于网页发布时间抽取的装置 |
CN107203527B (zh) * | 2016-03-16 | 2019-06-28 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN106776561A (zh) * | 2016-12-20 | 2017-05-31 | 四川长虹电器股份有限公司 | 车联网系统新闻正文提取方法 |
CN108268431B (zh) * | 2016-12-30 | 2019-12-03 | 北京国双科技有限公司 | 段落向量化的方法和装置 |
CN107145591B (zh) * | 2017-05-17 | 2020-10-16 | 广州瞬速信息科技有限公司 | 一种基于标题的网页有效元数据内容提取方法 |
CN107391675B (zh) * | 2017-07-21 | 2021-03-09 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN108388614B (zh) * | 2018-02-08 | 2020-08-18 | 金蝶软件(中国)有限公司 | 新闻数据爬取处理方法、装置、计算机设备和存储介质 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN109271598B (zh) * | 2018-08-01 | 2021-03-12 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
CN110297885B (zh) * | 2019-05-27 | 2021-08-17 | 中国科学院深圳先进技术研究院 | 实时事件摘要的生成方法、装置、设备及存储介质 |
CN111897777B (zh) * | 2020-06-22 | 2024-06-21 | 百望股份有限公司 | 电子发票版式文件的处理方法、装置、设备及存储介质 |
CN112287273B (zh) * | 2020-10-27 | 2022-09-30 | 中国科学院计算技术研究所 | 一种网站列表页面的分类方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1410918A (zh) * | 2002-05-31 | 2003-04-16 | 浙江大学 | 基于信息抽取技术的搜索引擎 |
US6678684B1 (en) * | 1999-12-30 | 2004-01-13 | Makio Koga | Worldwide early warning network and method of use |
-
2007
- 2007-12-25 CN CN2007103041465A patent/CN101470728B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6678684B1 (en) * | 1999-12-30 | 2004-01-13 | Makio Koga | Worldwide early warning network and method of use |
CN1410918A (zh) * | 2002-05-31 | 2003-04-16 | 浙江大学 | 基于信息抽取技术的搜索引擎 |
Also Published As
Publication number | Publication date |
---|---|
CN101470728A (zh) | 2009-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101470728B (zh) | 一种中文新闻网页正文的自动抽取方法及装置 | |
US8869023B2 (en) | Conversion of a collection of data to a structured, printable and navigable format | |
US8321396B2 (en) | Automatically extracting by-line information | |
CN101061478B (zh) | 用于识别web文档的方法和系统 | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN101984434B (zh) | 基于可扩展标记语言查询的网页数据抽取方法 | |
US20100083095A1 (en) | Method for Extracting Data from Web Pages | |
CN101515272B (zh) | 提取网页内容的方法和装置 | |
CN100552673C (zh) | 开放式文档同构引擎系统 | |
CN103810251B (zh) | 一种文本提取方法及装置 | |
CN109857956A (zh) | 基于标签和分块特征的新闻网页关键信息自动抽取方法 | |
CN105653522A (zh) | 一种针对植物领域的非分类关系识别方法 | |
CN108733813A (zh) | 面向bbs论坛网页内容的信息提取方法、系统及介质 | |
CN110134844A (zh) | 细分领域舆情监控方法、装置、计算机设备及存储介质 | |
CN112287272A (zh) | 一种网站列表页面的分类方法、系统及存储介质 | |
CN115344666A (zh) | 政策匹配方法、装置、设备与计算机可读存储介质 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN112199960B (zh) | 一种标准知识元粒度解析系统 | |
CN102457569B (zh) | 一种面向物联网应用的Web服务的冗余检测方法及系统 | |
US9195661B2 (en) | Method and system for click-thru capability in electronic media | |
CN100357942C (zh) | 一种移动互联网智能信息搜索引擎的搜索方法 | |
CN112632421B (zh) | 一种自适应结构化的文档抽取方法 | |
Gu et al. | Extracting web table information in cooperative learning activities based on abstract semantic model | |
Xie et al. | Design and Implementation of Web Information Extraction System Based on Crawler | |
KR20020061443A (ko) | 컴퓨터 통신망을 이용한 정보의 수집, 가공 및 표시방법과 그 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110608 |
|
CF01 | Termination of patent right due to non-payment of annual fee |