CN101470728B

CN101470728B - 一种中文新闻网页正文的自动抽取方法及装置

Info

Publication number: CN101470728B
Application number: CN2007103041465A
Authority: CN
Inventors: 和斌; 康凯; 吴於茜; 杨建武
Original assignee: Peking University Founder E-Government Technology Co Ltd; Peking University; Peking University Founder Group Co Ltd
Current assignee: Peking University Founder E-Government Technology Co Ltd; Peking University; Peking University Founder Group Co Ltd
Priority date: 2007-12-25
Filing date: 2007-12-25
Publication date: 2011-06-08
Anticipated expiration: 2027-12-25
Also published as: CN101470728A

Abstract

本发明公开了一种中文新闻网页正文的自动抽取方法，该方法包括：根据网页生成得到页面数据列表，并对得到的页面数据列表进行细化筛选，然后将经过细化筛选得到的纯文本列表中的每项按照针对新闻正文的特征参数赋权值，计算每项纯文本数据的最终权重，并比较最终权重大小得出新闻正文。本发明同时还公开了一种中文新闻网页正文的自动抽取装置，该装置包括：页面数据列表抽取模块、细化筛选模块、赋权值模块及新闻正文抽取模块，整个装置用于完成中文新闻正文抽取功能。利用本发明，既能简化训练过程的复杂度，也能同时提高对中文新闻网页正文抽取的准确性，且实现简单、方便。

Description

一种中文新闻网页正文的自动抽取方法及装置

技术领域

本发明涉及网页信息抽取技术，尤其是指一种中文新闻网页正文的自动抽取方法及装置。

背景技术

伴随网络信息爆炸式的增长，人们对海量的Web信息的特殊化需求也越来越高，利用大规模搜索引擎以及专有领域的采集技术，可以获取Web上的海量信息，但是Web上提供的数据基本上由非结构化的静态的超文本链接标示语言(HTML，Hypertext Markup Language)代码构成，并不能被信息分析系统直接使用，因此要通过不同的信息抽取系统进行抽取，抽取所需要的有价值的结构化文本数据，才能由信息分析系统进行后续的信息处理。由此可见，信息抽取是信息处理非常关键的一步，如何高效准确地抽取出结构化文本数据也是一直以来研究的热点。

新闻作为一类重要的实时性网络信息数据，其巨大的应用前景，引发了人们对新闻内容的自动分类聚类、信息抽取、自动摘要、热点分析与追踪等一系列技术的研究，然而仅仅简单的利用搜索引擎技术很难获取所需要的所有特定的新闻信息资源，而新闻Web页面自动抽取技术的提出，有效地解决了如何准确获取Web页面中的结构化的新闻信息资源的难题。

目前，信息抽取系统主要有两种设计方法：知识工程方法和机器学习方法。

知识工程方法需要知识工程师通过仔细研究信息抽取领域的特点，设计出一套用于抽取所需信息的规则来实现信息抽取。一般情况下，开发高效的信息抽取系统需要这样一个过程：分析数据、写规则、运行系统、测试结果、检查结果、改进规则、继续迭代等。在规则的书写上，知识工程师必需认真分析样本数据，还要依据自身平常所积累的经验及对本领域的特殊领悟。知识工程方法除需要对本领域知识有深入的了解之外，还需要大量的工作时间。

目前的知识工程方法的典型应用主要是包装器wrapper技术，包装器是将HTML的内容，利用定制好的规则抽取出来，即将非结构化的HTML代码转换成结构化的文本数据，供信息分析系统进行后续的信息处理。抽取规则是以特定的一类网页为基础的，抽取规则的描述和处理是包装器的核心部分。

现有技术中抽取规则的获取主要有三种方法：人工书写抽取规则、半自动化获取抽取规则及完全自动化的获取抽取规则，相应地，目前应用比较多的包装器有人工书写抽取规则的TSIMMIS工具包装器、半自动化生成抽取规则的XWRAP系统工具包装器及完全自动化的生成抽取规则的RoadRunner工具包装器。包装器所产生的抽取规则对页面的结构、内容依赖性强，当页面结构发生变化时，包装器需要重新生成抽取规则；包装器的可重用性不强，往往对不同类型的Web网页需要编写不同的包装器，因此利用包装器将非结构化的HTML代码转换成结构化的文本数据的方法代价很大。

机器学习方法则不需要知识工程师人工书写抽取规则，只需要有大量人工标注过的训练数据，依靠机器学习算法，将训练数据给程序进行学习，来得到相应的知识库，即得到结构化的文本数据。

文献“Title Extraction from Bodies of HTML Documents and Its Application toWeb Page Retrieva1”[ACM-SIGIR′05]提出了基于特征向量提取和非对称感知器权值训练算法的面向任意网页的标题自动抽取算法。标题一般仅涉及一个段落，而正文则往往包含好多个段落而抽取难度比较大，因此，该算法不太适用于对正文的抽取。另外，该算法针对的是任意网页，而针对新闻网页，也很不适用。

可见，无论是知识工程方法还是机器学习方法均有其缺点：知识工程方法的缺点在于开发过程需要烦琐的迭代工作；而机器学习方法则因需要经过大量人工标注的训练数据，过程复杂，不太适合对新闻网页的自动抽取。

发明内容

有鉴于此，本发明的主要目的在于提供一种中文新闻网页正文的自动抽取方法及装置，既能简化训练过程的复杂度，也能同时提高对中文新闻网页正文抽取的准确性，且实现简单、方便。

为达到上述目的，本发明的技术方案是这样实现的：

一种中文新闻网页正文的自动抽取方法，该方法包括以下步骤：

A、从网页中采集超文本链接标示语言HTML源文件；

将源文件中所有的标签TAG进行匹配，将TAG以外其它地方出现的同样的特殊标记进行替换，将所有的标记修改为正确嵌套；将所有的HTML代码字符表示形式统一；

构建HTML文档树；

从构建的文档树中抽取每个包含页面数据的节点范围内的文本数据；

根据HTML文档生成页面数据列表；

对生成的页面数据列表进行细化筛选，得到纯文本列表；

B、将经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋权值；

C、根据所赋的权值计算纯文本列表中每项纯文本数据的最终权重，并比较权重大小得出新闻正文。

进一步地，步骤A中所述细化筛选为：

A1、删除页面数据列表中所有多余的HTML标记；

A2、丢弃页面数据列表中除用户有特殊需要以外的超链接；

A3、根据页面数据中的节点信息过滤掉页面数据列表中多余的文本部分。

较佳地，步骤B中所述针对新闻正文的特征参数为：新闻文本长度、排除关键字、距离发布时间的远近及距离新闻标题的远近。

进一步地，步骤B所述赋权值为：

B1、分别为纯文本列表中每项纯文本数据赋一个与文本长度成正比的正的权值WEIGHT1；

B2、若排除关键字出现在纯文本数据开头，给所述纯文本数据赋一个负的权值WEIGHT2；

B3、得到新闻的标题，计算所得到的新闻标题与每项纯文本数据的距离，根据每项纯文本数据与新闻标题的距离，为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT3；

B4、根据步骤B3得到的新闻标题获得发布时间，根据每项纯文本数据距离发布时间的距离远近，为每项纯文本数据赋一个与距离成反比的正的权值WEIGHT4。

较佳地，步骤B3中所述新闻标题的获得方法为：通过点击文字超链接进入新闻页面的父页面的超链接文字得到，或通过新闻页面文字的样式和新闻标题本身的特点得到，或通过HTML源码中节点范围中的内容得到。

进一步地，所述发布时间的获得方法为：

B41、扫描整个HTML源文件的所有时间格式，保存扫描到的所有时间格式，并记录扫描到的所有时间在该HTML源文件中的位置；

B42、根据获得的新闻标题，在HTML源文件中定位新闻标题的位置；

B43、计算所有时间与新闻标题的距离，距离最小者为新闻发布时间。

较佳地，所述步骤C为：将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加，得到每项纯文本数据的最终权重。

较佳地，得到每项纯文本数据的最终权重后，该方法进一步包括：比较最终权重的大小，所有纯文本数据的最终权重均不相等时，或有纯文本数据的最终权重相等，但有比该相等权重更大的权重时，取最终权重最大的纯文本数据为新闻正文；有纯文本数据的最终权重相等，且没有比相等权重更大的权重时，比较最终权重相等的纯文本数据针对距离新闻标题的权值，针对距离新闻标题的权值最大的纯文本数据为新闻正文。

一种中文新闻网页正文的自动抽取装置，该装置包括：页面数据列表抽取模块、细化筛选模块、赋权值模块、新闻正文抽取模块，其中，

页面数据列表抽取模块，用于根据网页生成页面数据列表，并将该页面数据列表发送给细化筛选模块；

细化筛选模块，用于对页面数据列表抽取模块发送来的页面数据列表进行细化筛选，得到纯文本列表，并将经过细化筛选得到的纯文本列表发送给赋权值模块；

赋权值模块，用于将细化筛选模块发送来的经过细化筛选得到的纯文本列表中的每项按照特征参数赋权值，并将每项纯文本数据及其得到的权值发送给新闻正文抽取模块；

新闻正文抽取模块，用于计算每项纯文本数据的最终权重，并比较权重大小得出新闻正文。

进一步地，所述页面数据列表抽取模块进一步包括：采集单元、预处理单元、文档树构建单元及页面数据列表抽取单元，其中，

采集单元，用于采集HTML源文件，并将采集到的HTML源文件发送给预处理单元；

预处理单元，用于对采集单元发送过来的HTML源文件进行预处理，并将经过预处理单元预处理得到的标准规范的HTML代码发送给文档树构建单元；

文档树构建单元，用于将预处理单元发送来的标准规范的HTML代码构建成文档树，并将构建成的文档树发送给页面数据列表抽取单元；

页面数据列表抽取单元、用于从文档树构建单元发送来的文档树中抽取每个包含页面数据的节点范围内的页面数据，并将得到的页面数据按照得到的先后顺序组织成页面数据列表，并将该页面数据列表发送给细化筛选模块。

本发明所提供的中文新闻网页正文的自动抽取方法及装置，根据规范的中文新闻网页结构和内容的共同特点，根据网页数据生成页面数据列表，并对生成的页面数据列表进行细化筛选，得到纯文本列表，然后将纯文本列表中每项纯文本数据对应新闻正文的多种特征参数赋权值，根据最终权重值得出新闻正文。这样，对于较为规范的新闻类网页，其正文抽取的准确率可以达到90％。在具体产品的实际使用中，抽取100个网站的新闻网页，抽样统计的准确率在80％以上，由此可见，本发明充分利用了中文新闻网页的特点，进行多层细化筛选，且按照多项针对正文的特征参数进行加权，提高了对中文新闻网页正文抽取的准确性，且实现简单、方便；既克服了机器学习需要大量经过人工标注的训练数据，过程复杂的问题，也避免了对包装器大量繁杂抽取规则的书写过程。

附图说明

图1为本发明中文新闻网页正文的自动抽取方法流程示意图；

图2为本发明实施例中HTML文档树结构示意图；

图3为本发明实施例中纯文本列表示意图；

图4为本发明中具体对纯文本列表中每一项文本数据进行加权的流程示意图；

图5为本发明中新闻发布时间的抽取流程示意图；

图6为本发明中文新闻网页正文的自动抽取装置结构示意图；

图7为本发明中纯文本列表抽取模块的结构示意图。

具体实施方式

本发明基于规范中文新闻网页结构和内容的共同特点，抽象出一套统一的中文新闻网页正文抽取方案，本发明的基本思想是：根据网页数据生成页面数据列表，并对生成的页面数据列表进行细化筛选，得到纯文本列表，然后应用多项特征加权的方法，将纯文本列表中每项纯文本数据按照新闻正文的多种特征参数赋权值；最后计算纯文本列表中每项纯文本数据的最终权重，并通过比较权重大小得出新闻正文。

目前，规范的中文新闻网页普遍存在以下几点共同特性：

1、风格类似：新闻正文内容部分占据网页的中心位置，并且内容都在一对<TABLE></TABLE>或<DIV></DIV>内。新闻正文一般是一篇文档中片幅最长的文字，文字由比较大段的统一格式组成，正文的不同段落往往依次排列；

2、结构类似：新闻正文通常按照“标题+发布时间+来源”的固定段落层次排列，且新闻正文一般紧邻发布时间的下方，距离标题较近；

基于中文新闻网页正文的上述共性，本发明采用表格自动抽取的方法，配合正文长度、排除关键字、距离发布时间的远近、距离新闻标题的远近等多项决策加权的技术方案，进行中文新闻网页正文的自动抽取。

下面结合附图对本发明的具体实施作进一步详细的说明。

图1为本发明中文新闻网页正文的自动抽取方法流程图，如图1所示，该方法包括以下步骤：

步骤101、采集获得新闻页面的HTML源文件；

此处，一般是用采集器进行采集。

步骤102、对HTML源文件进行预处理，得到标准规范的HTML代码；

因为Web网页的数据多样性和网页结构的复杂性，需要对HTML源文件中的HTML代码进行统一的网页规范化处理，即进行预处理。具体的预处理方法包括：

首先，将源文件中所有的标签(TAG)进行匹配，将源文件中不成对出现的TAG进行修改，保证所有开始和结束TAG的匹配，因为HTML中的TAG标记必须成对出现；

其次，将除TAG标记以外其它地方出现的“<”和“>”分别替换为“&lt；”和“&rt；”，因为在HTML代码中页面显示的内容如果出现“<”和“>”，会与TAG标记中包含的“<”和“>”混淆；这里，“<”和“>”属于TAG中的特殊标记，除了TAG中的特殊标记，对其它地方出现同样的特殊标记需要进行替换，以避免标记重复，替换后的标记只要与TAG标记的特殊标记不重复且可以识别即可；

之后，将所有的标记修改为正确嵌套，所谓正确实际就是保证配对，嵌套的标记符合配对的规则，能保证嵌套可以正常解析；

最后，将所有的HTML代码字符的形式进行统一，这里，所谓统一是指将所有HTML代码字符全部转化成大写或全部转化成小写，以方便整个抽取过程中对模式匹配的要求。

步骤103、构建HTML文档树；

步骤102中的预处理过程是构造HTML文档树的前提，本步骤根据步骤102所得到的标准规范的HTML代码，利用HTML代码的标记构建HTML文档树，将文档树中的每个节点包含一对标记间的所有字符，且节点的名字设置为对应标记的名字。由于HTML代码具有开始和结束TAG成对出现的特征，在起始标记和结束标记之间包括网页描述属性和网页内容两部分信息，所以构造Web文档结构树的时候采用标记匹配和回溯相结合的方法，并忽略对TAG标记的属性描述信息。

目前，一般HTML的标记大都是由<TAG>和</TAG>成对组成，所以需要标记匹配，从第一个<TAG>开始，到下一个与之匹配的</TAG>结束标记之间的内容是这个TAG的实际内容；采用回溯的方法，是因为标记可以嵌套，在一个<TABLE></TABLE>之内可能还有子<TABLE></TABLE>，所以要找出所有的配对的<TABLE>标记，直到最后一个匹配</TABLE>标记，才能准确找出每一个<TABLE>对。

由于本发明主要是对新闻页面范围内内容的抽取，所以需要考虑的HTML标记主要有：<HTML></HTML><BODY>、</BODY>、<TABLE>、</TABLE>、<DIV>、</DIV>、<TR>、</TR>、<TD>、</TD>，在构建HTML文档树时，可将其它的HTML标记视为无用HTML标记直接舍弃。

以下具体以一段经过预处理的文档树的构建为例来说明：

<h3>张三的博客

</s pan>

您的博客已经有

8888

</span>

人浏览

</s pan>

</h3>

利用上述经过预处理的数据所构建的文档树如图2所示，文档树中每个节点包含一对标记间的所有字符，且节点的名字为对应标记的名字。

步骤104、根据步骤103中构建的HTML文档树生成页面数据列表；

根据步骤103中构建的HTML文档树取出每个包含页面数据的节点范围内的数据，并将得到的数据按照得到的先后顺序组织成页面数据列表，待下一步细化处理。

通常，包含页面数据的节点为<TABLE>和<DIV>，这里，一般是根据<TABLE>和<DIV>的位置，得到每一个<TABLE></TABLE>，<DIV></DIV>范围中的数据，将得到的每一个<TABLE></TABLE>，<DIV></DIV>范围中的数据，按照得到的先后顺序组织成页面数据列表，待下一步细化处理；

上述步骤102～104的目的是从HTML源文件中更加直观地生成页面数据列表，在实际操作中，也可以直接从HTML源文件中生成页面数据列表。

步骤105、对页面数据列表中的数据进行细化筛选，得到纯文本列表；

因为TABLE结构的范围很大，包含的内容也很多，所以必须对上一步得到的页面数据列表中的数据进行细化筛选，具体做法如下：

先删除所有多余的HTML标记，如<P></P>，<li></li>，<span></span>等；再处理超链接，这里包括图片链接和文字链接。其中，文字链接由<a href></a>标记确定，主要是一些相关新闻，新闻评论，站内链接，以及大量的广告信息，所以采取全部舍弃的策略；对于图片超链接，用户没有特殊要求的，将所有超链接的标记，即，将包含<img>的标记和内容统统舍弃，如果用户要求保存的新闻图片，按照<img>的位置记录图片在正文中的位置，将图片的保存路径作为特殊文本保留在内容中，当读取正文时，即可加载图片信息。

然后，根据页面数据中的节点信息过滤掉多余的文本内容。这里，一般过滤掉<FORM></FORM>，<SELLECT></SELLECT>，<STYLE></STYLE>，<SCRIPT></SCRIPT>中的文本内容，因为<FORM></FORM>是需要和服务器交互的表单项，<SELLECT></SELLECT>为下拉列表内容项，<SCRIPT></SCRIPT>为一些动态网页的脚本语言，<STYLE></STYLE>为一些网页的样式，所以这些内容不是用户所需要的正文内容，但是经常会以大篇幅的文字形式出现，成为正文选择的干扰项，所以此处需要进行过滤舍弃。

步骤106、将经过细化筛选后得到的纯文本列表中的每项纯文本数据按照多种特征进行加权；

由于得到的文本列表包含了页面内所有的纯文本数据，很难按照一个标准去判定哪一个是正文，所以按照中文新闻的四个共性，进行加权。因为中文新闻的四个共性分别为：1)正文一般都是一篇文档中篇幅最长的文字；2)正文紧临发布时间的下方；3)正文的段落开始一般不会包含“版权声明：”等字样；4)正文距离标题较近。所以，通常选取文本的长度、文本是否包含关键字、文本距离发布时间的远近、及文本距离新闻标题的远近这四项作为针对新闻正文的特征参数，基于针对新闻正文的特征参数为每一段文本赋权值，即进行加权处理，具体加权过程如图4所示，包括以下步骤：

步骤106a：为每项纯文本数据按照长度赋权值；

分别为列表中每项纯文本数据赋一个正的权值WEIGHT1，权值WEIGHT1与文本长度成正比，但是权值的具体大小可以随实际情况进行调节。

此处，可以根据以下公式计算：WEIGHT1＝N*OneTableLength/500，其中，OneTableLength为每一项表格文本列表内容的字符长度，以500个字符作为基准，N为调整因子。但在实际操作中，可以根据具体需要采用相应的权重计算公式，只要保证权值WEIGHT1与文本长度成正比即可。

步骤106b：为每项纯文本数据按照排除关键字赋权值；

根据大量50个新闻站点的试验，95％的大篇幅的干扰文本内容多出现在版权声明和网站信息中，需要提取其中的主要关键字，作为排除特征，比如：“版权声明”，“免责声明”，“版权说明”，“①凡本网”等。若这些排除关键字出现在纯文本数据开头，则给这些纯文本数据赋一个负的权值WEIGHT2。这里，判断关键字出现在纯文本数据开头的标准一般为：排除关键字的位置在纯文本数据开始的前8个字符内。当然，也可能出现包含N个字的排除关键字，则排除关键字的位置在纯文本数据开始的前N×2个字符内，认为排除关键字出现在纯文本数据的开头。

步骤106c：为每项纯文本数据按照距离新闻标题的远近赋权值；

这里，新闻标题可以通过点击文字超链接进入新闻页面的那一级页面，通常称为列表页或父页面的超链接文字得到，也可以通过页面文字的样式和标题本身的特点，如字数，字号，加粗等，还可以通过页面特定节点<TITLE></TITLE>中的内容得到，得到新闻标题以后，计算新闻标题与每项纯文本数据的距离，根据每项纯文本数据距离新闻标题的距离远近，为每项纯文本数据赋一个正的权值WEIGHT3，距离越近，权值越大，距离越远，权值越小，即权值WEIGHT3与距离成反比。

步骤106d：为每项纯文本数据按照距离发布时间的远近赋权值；

一般的网页都会按照版面的排列顺序来布局表格，虽然有时由于嵌套，可能顺序稍有改变，但基本不影响新闻发布时间与正文距离的判断。这种加权的方法依赖于发布时间的精确取得，具体抽取发布时间的算法，如图5所示：

步骤d1：扫描整个HTML源文件的所有时间格式，存储于时间列表，并记录在HTML源文件里扫描到的所有时间在该HTML源文件中的位置；

步骤d2：在HTML源文件中定位标题的位置，根据步骤106c得到的新闻标题，确定新闻标题相应的位置；

步骤d3：计算所有时间与标题的距离，距离最小者为新闻发布时间。由于标题下方往往紧接着发布时间，所以以标题作为参照物，是一个很好的评估标准。根据每项纯文本数据距离发布时间的距离远近，为每项纯文本数据赋一个正的权值WEIGHT4，距离越近，权值越大，距离越远，权值越小，即权值WEIGHT4与距离成反比。

这里，在按照各种决策赋权值的顺序可任意变化，在赋权值时，可以综合情况来对所赋权值进行适当的调节：如果新闻标题和发布时间的获取比较准确时，可以适当地减小按照长度赋的权值WEIGHT1，而适当地增大WEIGHT3、WEIGHT4的权值；如果新闻标题和发布时间的获取不够准确，可以适当调大按照长度赋的权值WEIGHT1，而适当地减小按照距离新闻标题的距离赋的权值WEIGHT3、按照距离发布时间的距离赋的权值WEIGHT4；当正文内容很短时，版权声明干扰信息的影响会很大，此时需要将负的权值WEIGHT2的绝对值适当调大。

步骤107、计算文本列表中的每项纯文本数据的最终权重并比较权重大小，得出正文内容；

将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加，即：将每项纯文本数据各自的WEIGHT1、WEIGHT3、WEIGHT4、WEIGHT2中的两项、三项或全部相加，得到每项纯文本数据的最终权重，只是每项纯文本数据得到最终权重的项和项数必须相同，这样才有可比性。

得到纯文本列表中每项纯文本数据的最终权重后，最终权重全部不相等的，或最终权重有相等的，但是有比该相等权重更大的权重时，取最终权重最大的纯文本数据即为新闻正文；最终权重有相等的，且没有比该相等权重更大的权重时，可以比较最终权重相等的纯文本数据按照距离新闻标题的远近得到的权值，按照距离发布时间的远近得到的权值最大的纯文本数据为新闻正文。

在实际信息的抽取过程中，得到权值相等的情况很少，另外，选取按照距离新闻标题的远近得到的权值作为判断的标准，是因为规范的新闻正文肯定有标题，按照这点得到新闻正文的准确性更强。

为实现本发明，采用图6所示装置，该装置包括以下模块：页面数据列表抽取模块61、细化筛选模块62、赋权值模块63、新闻正文抽取模块64，其中，

页面数据列表抽取模块61，用于根据网页生成页面数据列表，并将该页面数据列表发送给细化筛选模块62；

细化筛选模块62，用于对页面数据列表抽取模块61发送来的页面数据列表进行细化筛选，得到纯文本列表，并将经过细化筛选得到的纯文本列表发送给赋权值模块63；

赋权值模块63，用于将细化筛选模块62发送来的经过细化筛选得到的纯文本列表中的每项纯文本数据按照针对新闻正文的特征参数赋予权值，并将每项纯文本数据及其按照针对新闻正文的特征参数得到的权值发送给新闻正文抽取模块64；

新闻正文抽取模块64，用于计算每项纯文本数据的最终权重，并比较权重大小得出新闻正文内容。

其中，页面数据列表抽取模块61进一步包括采集单元611、预处理单元612、文档树构建单元613、页面数据列表抽取单元614，如图7所示，其中，

采集单元611，用于采集HTML源文件，并将采集到的HTML源文件发送给预处理单元612；

预处理单元612，用于对采集单元611发送过来的HTML源文件进行预处理，并将经过预处理单元612预处理得到的标准规范化的HTML代码发送给文档树构建单元613；

文档树构建单元613，用于将预处理单元612发送过来的标准规范化的HTML代码构建成文档树，并将构建成的文档树发送给页面数据列表抽取单元 614；

页面数据列表抽取单元614、用于从文档树构建单元613发送来的文档树中抽取包含页面数据的节点范围中的页面数据，并将得到的页面数据按照得到的先后顺序组织成页面数据列表，并将该页面数据列表发送给细化筛选模块62；

本发明应用多种特征值加权决策的新闻正文的方法及装置，充分利用了中文新闻的结构特征，利用统一的模版程序，无需人工干预就能自动获取中文新闻正文的内容，并且保持了较高的准确性、实用性和通用性。如果网页是比较规范的新闻类网页，其正文抽取的准确率可以达到90％。在具体产品的实际使用中，抽取100个网站的新闻网页，抽样统计的准确率在80％以上。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种中文新闻网页正文的自动抽取方法，其特征在于，该方法包括以下步骤：

A、从网页中采集超文本链接标示语言HTML源文件；

构建HTML文档树；

根据HTML文档生成页面数据列表；

对生成的页面数据列表进行细化筛选，得到纯文本列表；

2.根据权利要求1所述的方法，其特征在于，步骤A中所述细化筛选为：

A1、删除页面数据列表中所有多余的HTML标记；

A2、丢弃页面数据列表中除用户有特殊需要以外的超链接；

3.根据权利要求2所述的方法，其特征在于，步骤B中所述针对新闻正文的特征参数为：新闻文本长度、排除关键字、距离发布时间的远近及距离新闻标题的远近。

4.根据权利要求3所述的方法，其特征在于，步骤B所述赋权值为：

5.根据权利要求4所述的方法，其特征在于，步骤B3中所述新闻标题的获得方法为：通过点击文字超链接进入新闻页面的父页面的超链接文字得到，或通过新闻页面文字的样式和新闻标题本身的特点得到，或通过HTML源码中节点范围中的内容得到。

6.根据权利要求5所述的方法，其特征在于，所述发布时间的获得方法为：

7.根据权利要求6所述的方法，其特征在于，所述步骤C为：将纯文本列表中的每项纯文本数据按照新闻正文特征参数得到的权值全部或部分相加，得到每项纯文本数据的最终权重。

8.根据权利要求7所述的方法，其特征在于，得到每项纯文本数据的最终权重后，该方法进一步包括：比较最终权重的大小，所有纯文本数据的最终权重均不相等时，或有纯文本数据的最终权重相等，但有比该相等权重更大的权重时，取最终权重最大的纯文本数据为新闻正文；有纯文本数据的最终权重相等，且没有比相等权重更大的权重时，比较最终权重相等的纯文本数据针对距离新闻标题的权值，针对距离新闻标题的权值最大的纯文本数据为新闻正文。

9.一种中文新闻网页正文的自动抽取装置，其特征在于，该装置包括：页面数据列表抽取模块、细化筛选模块、赋权值模块、新闻正文抽取模块，其中，

新闻正文抽取模块，用于计算每项纯文本数据的最终权重，并比较权重大小得出新闻正文；

其中，所述页面数据列表抽取模块进一步包括：采集单元、预处理单元、文档树构建单元及页面数据列表抽取单元，

页面数据列表抽取单元,用于从文档树构建单元发送来的文档树中抽取每个包含页面数据的节点范围内的页面数据，并将得到的页面数据按照得到的先后顺序组织成页面数据列表，并将该页面数据列表发送给细化筛选模块。