CN106021392A

CN106021392A - 一种新闻关键信息的提取方法及系统

Info

Publication number: CN106021392A
Application number: CN201610313098.5A
Authority: CN
Inventors: 李晓东; 向菁菁; 耿光刚
Original assignee: China Internet Network Information Center
Current assignee: China Internet Network Information Center
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2016-10-12

Abstract

本发明公开了一种新闻关键信息的提取方法及系统，该系统首先通过预处理将网页转换成行号和文本的集合，然后根据字数最长的一句话出现在新闻正文的概率极高的特点，从正文中间开始向两端寻找正文的起点和终点提取新闻正文；根据最长公共子串算法提取标题，构造正则表达式并以行号辅助判断提取时间，根据来源的格式特点并辅以行号提取来源，最后可根据已获得新闻的标题、时间、来源和正文，将获得的内容以换行符为分隔符，以此为顺序写入本地文件中。具有较高的准确率，且不依赖特定的网页模板，具有较强的实用性和鲁棒性；同时，本发明方法复杂度低，提取的结果更为精确，消耗的资源更少。

Description

一种新闻关键信息的提取方法及系统

技术领域

本发明涉及自然语言处理技术领域，涉及一种新闻关键信息提取方法及系统。

背景技术

新闻作为人们获取信息的一大来源，从过去单一的纸媒发展到现在已是以网媒为主的多媒体共存的局面。由于互联网中的信息交换具有不受空间限制、更新速度快、信息交换成本低等特点，目前它已成为新闻传播最有力的工具。

然而，现在的新闻网页中存在不少于内容不相关的广告、或一些链接(统称为噪声)，干扰用户的阅读与体验，如图1所示。

其次，由于目前几家大的新闻门户网站通过自己的App或旗下的PC应用推送新闻消息外，用户获取新闻信息的更多渠道还是通过搜索引擎。但搜索引擎对结果中的信息整合还做的不够好，用户很容易就淹没在信息的海洋里，却仍无法获取足够多的需要的信息。而新闻网页的关键信息提取是搜索引擎优化、信息聚类的基础。

信息抽取的概念最早是在1996年由Jim Cowie和Yorick Wilks提出的，他们称信息抽取就是任何能够选择性的将显式或隐式的文本进行组织和结合的方法，该概念的提出是为了解决互联网中信息量大且过于繁杂的问题。

针对不同的信息抽取需求，不同的学者提出的方法也不尽相同。

比如，识别网页中的实体(如：人名、地名、事件名、时间等)，识别生物期刊摘要中的人体蛋白质名称；根据抽取规则生成方式的不同，又可以分为自动生成和半自动生成两类。

对于网页正文的提取，国内外也已有许多方法，简单归类如下：

基于网页标签。这类方法依赖HTML语言中的闭合标签对(如：<table></table>)或起分割作用标签(如：<p>、<br>)进行提取。但HTML语言本身对使用者来说不具有标准的格式，再加上CSS盛行之后，为了显示的美观而添加的各类元素使得页面内容变得更为复杂，因此，该方法并不具备鲁棒性。

基于模板。该方法通过给定的模板将需要的网页信息输出，优点在于准确率较其他方法高；缺点是如果为每个待提取的网页都设计模板，计算和时间开销大，缺乏通用性。

基于DOM树结构。HTML网页可以解析成DOM树的结构，然后根据DOM树的结构特性提取正文。比如可以首先确定部分正文内容，然后依据路径相似度寻找其他正文，最终合并为网页正文。

基于布局相似性。网页所属网站的网页具有布局相似的特点，在同一个网站多个网页中频繁出现的内容具有极大概率为噪音。该方法不具备实时性，在对于某一网页进行提取时，必须先获取与其布局类似的其他网页。

基于视觉热区。这种方法则是依据人们在浏览网页时视觉频繁停留的区域去判断正文的位置进行提取。该方法的理论支撑不足，同时也缺乏大量的视觉数据支持该研究。

此外，还有不同方法的结合以及融合了机器学习的方法。

综上所述，以上提及的方法或过时，或效率低，又或者简单问题复杂化，不具备通用性、实时性；而且，没有现成的能够完全满足我们提取需求的方法。

发明内容

为了解决上述问题，本发明提出了一种新闻关键信息的提取方法及系统，该系统首先通过预处理将网页转换成行号和文本的集合，然后根据字数最长的一句话出现在新闻正文的概率极高的特点，从正文中间开始向两端寻找正文的起点和终点提取新闻正文；根据最长公共子串算法提取标题，构造正则表达式并以行号辅助判断提取时间，根据来源的格式特点并辅以行号提取来源。

为了实现上述目的，本发明采用以下技术方案：

一种新闻关键信息的提取方法，包括以下步骤：

1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本；

2)从所述文本中获取<title></title>标签对中的内容，逐行匹配获得新闻标题；

3)采用常规的时间模板，并以对应的顺序为优先级，匹配每一行所包含的时间，将得出的时间timeString和所在行的行号linenumber加入候选集；对候选集进行过滤后按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间；

4)以中文字符长度最长的一行文本为起点，分别向上和向下寻找正文的边界，以确定新闻的正文；

5)根据已获得的新闻标题，发布时间和正文第一行的行号对新闻来源进行提取。

进一步地，上述方法还包括根据提取得到的新闻标题、发布时间、来源和正文，中间添加换行符为分隔符，依次存入本地文件。

进一步地，步骤1)包括如下步骤：

1-1)删除不包含正文内容的标签对；

1-2)将HTML实体名称和编号替换为英文空格；

1-3)将<a>和</a>标签分别替换为文本linktext和textlink；

1-4)将强调文字的标签<strong>和调整格式的标签<span>替换为空，只留下标签中的文本。

进一步地，步骤2)的具体步骤如下：

2‐1)获取网页中<title></title>标签对中的文本内容，记为DemoTitle；

2‐2)从网页内容中将<title></title>标签对及内容删除；

2‐3)逐行扫描剩下网页的文本内容，找出每一行的内容与DemoTitle的最长公共字串，将长度不为零的公共子串的行号linenumber和内容titleString存入候选集中；

2‐4)按titleString的长度对候选集进行降序排列，选择titleString的长度最长的元素作为新闻标题。

进一步地，步骤3)中常规的时间模板及对应的顺序如下：

3‐1)YY年MM月DD日hh:mm:ss

3‐2)YY/MM/DD hh:mm:ss

3‐3)YY-MM-DD hh:mm

3‐4)YY-MM-DD，其中，YY、MM、DD分别表示年、月、日，hh、mm、ss分别表示小时、分钟、秒。

进一步地，步骤3)中，所述过滤是指在获得最长文本的行号后，对候选集里的时间进行过滤，删除行号大于最长文本行号的项。

进一步地，步骤4)具体包括：

4‐1)将通过文本过滤器且文本长度大于K的文本加入候选集C，从候选集C中选出长度最长的文本，返回行号Nlongest，所述文本过滤器过滤的文本包括“免责声明”，“Copyright”，“相关新闻”；

4‐2)从第Nlongest行开始，分别向上和向下去寻找正文部分的起点和终点，得到正文候选集resultSet；

4‐3)对resultSet中行号小于时间行的数据进行删除，保留resultSet中剩余的内容作为新闻的正文。

进一步地，步骤4-2)中边界的确定由行距和行的HTML标签共同决定，判定条件有以下两种：

a)只比较行距，若距离大于设定的距离阈值Distance1，则认为到达边界；

b)比较行距的同时考虑HTML的标签，在标签与已确定为正文的最后一行文本的标签相同的情况下，若距离大于设定的距离阈值Distance2，则认为到达边界。

进一步地，步骤5)中，通过匹配“来源”关键字或在时间行的前后对新闻来源进行提取。

一种新闻关键信息的提取系统，包括：

预处理模块，用于对新闻网页进行预处理，将原HTML网页转换成由行号和HTML标签组成的文本；

标题提取模块，用于从预处理后的文本中获取<title></title>标签对中的内容，然后根据求两个字符串最长公共子串的方法，逐行匹配获得新闻标题；

时间提取模块，用于采用常规时间模板，并以对应的顺序为优先级，匹配每一行所包含的时间，将得出的时间timeString和所在行的行号linenumber加入候选集；对候选集里的时间进行过滤后按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间；

正文提取模块，用于以中文字符最多的一行为起点，分别向上和向下寻找正文的边界，提取新闻正文；

来源提取模块，用于根据已获得的新闻标题，发布时间和正文第一行的行号对新闻来源进行提取。

进一步地，上述系统还包括整合模块，用于将提取得到的新闻标题、发布时间、来源和正文中间添加换行符为分隔符，依次存入本地文件。

本发明的有益效果如下：

本发明实现了对新闻网页关键信息(包括：标题、时间、来源和正文)的提取；具有较高的准确率，且不依赖特定的网页模板，具有较强的实用性和鲁棒性；同时，本发明方法复杂度低，提取的结果更为精确，消耗的资源更少。

附图说明

图1新闻网页中噪声展示。

图2百度新闻搜索结果示意图。

图3本发明新闻关键信息的提取方法的整体流程图。

图4为新闻来源示意图，其中：(a)为新闻来源的一种呈现方式；(b)为新闻来源的另一种呈现方式。

图5本发明具体实施过程的示意图，其中：(a)表示网页源码；(b)表示行号和文本的集合；(c)表示整合后写入文件的结果。

具体实施方式

本发明提出一种新闻关键信息的提取方法，名称为newsExtractor；该方法可以包含提取新闻网页中的标题、时间、来源和正文四个模块，整体流程如图3所示。

1.预处理

预处理主要是去除一些明显不是正文内容的噪音和特殊的HTML符号实体，简化HTML的标签，以减少后期处理的工作量。在预处理过程中本文将借用第三方的开源工具Jsoup(Jsoup[Z].http://jsoup.org/)进行辅助处理，本文的预处理过程包括以下几个方面：

1)删除无用的标签对。网页源码信息十分混杂，包含着很多脚本语言标签对<script></script>，用户交互标签对，如<input></input>,<option></option>等。我们首先将这些明显不包含正文内容的标签对进行删除。我们选择要删除的标签有：<script>,<input>,<textarea>,<button>,<select>,<optgroup>,<option>,<label>,<fieldset>,<datalist>,<keygen>,<output>，<img>,<map>,<area>,<canvas>,<audio>,<video>。

2)删除HTML符号实体。在HTML语言中，空格，制表符等一些特殊符号需要通过使用实体名称或实体编号才能通过浏览器显示，如空格的实体名称为”&nsbp；”，实体编号为””。这些实体符号只能通过浏览器的解析才能显示，存为本地文本时统一显示为“？”且无法通过替换英文问号的方式被替换，因此在预处理过程，我们统一将这些实体名称和编号替换为英文空格。

3)替换<a></a>标签对。这一步骤与以下的白名单过滤息息相关。由于<a></a>标签对中包含超链接文本，而超链接文本又多为广告链接或相关新闻链接，因此我们的白名单设置中不包含<a></a>标签对，但我们又不能保证<a></a>标签对中不包含我们所需的信息。例如，新闻的来源常使用超链接文本；又如，在有些新闻的正文内容中，也会使用超链接修饰某些关键字。

为了避免在白名单过滤过程中，遗失这些超链接文本，我们将<a>和</a>标签分别替换为文本linktext和textlink。以下是一个例子。

替换前：<a class＝'LinkPath'href＝'http://beauty.yxlady.com'>美容</a>

替换后：linktext美容textlink

4)简化HTML的文本标签。在后续提取正文的部分，正文行的标签对判断该行是否为正文有一定的辅助作用。因此我们借用Jsoup的白名单功能过滤出特定标签的文本内容。我们设定的白名单标签为<div>,<span>,<p>,<li>,<tr>。为了尽量让正文行的标签一致，我们将强调文字的标签<strong>和调整格式的标签<span>替换为空，只留下标签中的文本。

经过预处理之后，原HTML网页就转换成了由行号和HTML标签组成的文本。

2.提取新闻标题

新闻标题一般都会用<h1></h1>或<h2></h2>修饰，但并不绝对，若网页中存在多个以上标签对，就会无从判断。

我们采取的做法如下：由于每个网页的<head></head>中都包含一个<title></title>代表该网页的页面主题，通常新闻网页的<title></title>内容由新闻标题和新闻网站名等其他信息组成，如下例所示。

<title>“互联网+”打造创新驱动新引擎_联盟中国_中国网</title>

新闻标题：“互联网+”打造创新驱动新引擎

<title>“莫须有”的巨额存款失踪该怪谁|巨额存款消失|董希淼|吴建平_新浪财经_新浪网</title>

新闻标题：“莫须有”的巨额存款失踪该怪谁

因此，我们可以通过获取<title></title>标签对中的内容，然后根据求两个字符串最长公共子串的方法，逐行匹配去获得新闻的标题。具体步骤如下：

a)获取网页中<title></title>标签对中的文本内容，记为DemoTitle；

b)从网页内容中将<title></title>标签对及内容删除；

c)逐行扫描剩下网页的文本内容，找出每一行的内容与DemoTitle的最长公共字串，将长度不为零的公共子串的行号和内容(linenumber,titleString)存入候选集中；

d)按titleString的长度对候选集进行降序排列，选择titleString的长度最长的元素作为新闻标题。

3.提取发布时间

网页新闻中发布时间的格式五花八门，有精确到秒的标准时间格式，有精确到分、日的时间格式(如下例所示)。如果使用通用的正则表达式去匹配网页全文，那么为了能够匹配出所有格式的时间，写出的正则表达式语句往往会在一篇网页正文匹配出多个时间，届时我们无法确定究竟哪一个才是正确的新闻发布时间。

1)2015年01月17日19:23:34

2)2015/05/25 19:24:00

3)2014-12-25 19:23

4)2015-06-04

为了避免以上遇到的问题，我们采取的做法如下：

a)采用上述四个模板，以上述顺序为优先级，匹配每一行所包含的时间，将得出的时间和所在行的行号(linenumber,timeString)加入候选集。

b)过滤操作。在提取正文的过程会获得最长文本的行号，对候选集里的时间进行过滤，删除行号大于最长文本行号的项。(过滤操作会在获取最长文本行号之后进行)。

c)对过滤后的候选集，按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间。

4.提取新闻正文

一般来说，正文部分包含的中文字符数最多，正文文本行距较近。对新闻网页来说，新闻多以文字为主，在经过预处理过后的行文本中，包含中文字数最多的行是正文的概率极大。基于这个假设，我们设计的算法过程如下：

Step1:构建一个简单的过滤器，将通过过滤器且文本长度大于K的文本加入候选集C，从候选集C中选出长度最长的文本，返回行号Nlongest。过滤器为一个简单的文本过滤器，包含的文本为“免责声明”，“Copyright”，“相关新闻”这一类具有极高的可能性不为新闻正文内容的文本。

Step2:此时已寻找到包含中文字数最多的文本行Nlongest，从第Nlongest行开始，分别向上和向下去寻找正文部分的起点和终点，得到正文候选集resultSet。边界的确定由行距和行的HTML标签共同决定，即认为距离大于一定的阈值则认为到达边界。判定条件有以下两种：

1)只比较行距，若距离大于Distance1，则认为到达边界；

2)比较行距的同时考虑HTML的标签，在标签与已确定为正文的最后一行文本的标签相同的情况下，若距离大于Distance2，则认为到达边界。

由于向上和向下寻找的过程类似，下面以向下为例进行说明。

参数定义：

寻找过程中已确定为正文的最后一行的行号：Nlast

当前行的行号：Npresent

候选集C中最后一行文本：Clast

正文候选集：resultSet

行距：Distance1,Distance2

Step3:对resultSet进行去噪。在提取时间的部分中，我们已经得知时间行的行号，根据经验，正文部分不会出现在时间行之前，因此我们对resultSet中行号小于时间行的数据进行删除，删除之后的resultSet中的内容作为新闻的正文。

5.提取新闻来源

新闻的来源在浏览器呈现给我们的网页上，视觉上位于新闻标题的下方，发布时间的左右，一般的呈现形式有以下两种：“来源：XXX”或者”XXX”，如图4(a)和(b)所示。

在之前的提取过程中，我们已获得了标题，时间和正文第一行的行号，根据网页新闻的特点，我们可以在此区间中通过匹配“来源”关键字或在时间行的前后对新闻来源进行提取。

6.整合

经过四个模块的提取，我们已获得新闻的标题、时间、来源和正文，将获得的内容以换行符为分隔符，以此为顺序写入本地文件中。

采用本发明对图1所示的新闻网页中的关键信息进行提取的过程如图5所示，其中，网页源码如图5(a)所示，经过预处理后得到的行号和文本的集合如图5(b)所示，然后，根据已获得新闻的标题、时间、来源和正文，以换行符为分隔符，依次写入本地文件中，如图5(c)所示。

Claims

1.一种新闻关键信息的提取方法，包括以下步骤：

2.如权利要求1所述的新闻关键信息的提取方法，其特征在于，还包括根据提取得到的新闻标题、发布时间、来源和正文，中间添加换行符为分隔符，依次存入本地文件。

3.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤1)包括如下步骤：

1-1)删除不包含正文内容的标签对；

1-2)将HTML实体名称和编号替换为英文空格；

1-3)将<a>和</a>标签分别替换为文本linktext和textlink；

4.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤2)的具体步骤如下：

2‐2)从网页内容中将<title></title>标签对及内容删除；

5.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤3)中常规的时间模板及对应的顺序如下：

3‐1)YY年MM月DD日hh:mm:ss

3‐2)YY/MM/DD hh:mm:ss

3‐3)YY-MM-DD hh:mm

3‐4)YY-MM-DD；

其中，YY、MM、DD分别表示年、月、日，hh、mm、ss分别表示小时、分钟、秒。

6.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤3)中，所述过滤是指在获得最长文本的行号后，对候选集里的时间进行过滤，删除行号大于最长文本行号的项。

7.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤4)具体包括：

8.如权利要求7所述的新闻关键信息的提取方法，其特征在于，步骤4-2)中边界的确定由行距和行的HTML标签共同决定，判定条件有以下两种：

9.一种新闻关键信息的提取系统，包括：

标题提取模块，用于从预处理后的文本中获取<title></title>标签对中的内容，然后逐行匹配获得新闻标题；

10.如权利要求1所述的新闻关键信息的提取系统，其特征在于，还包括整合模块，用于将提取得到的新闻标题、发布时间、来源和正文按照此顺序，中间添加换行符为格式存入本地文件。