CN1955952A

CN1955952A - 用于自动提取副标题信息的系统和方法

Info

Publication number: CN1955952A
Application number: CNA2006101357007A
Authority: CN
Inventors: 马德胡卡尔·R·考鲁波鲁; 斯蒂芬·迪尔; 安德鲁·S.·托姆金斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-10-25
Filing date: 2006-10-24
Publication date: 2007-05-02
Anticipated expiration: 2026-10-24
Also published as: US8321396B2; CN100514323C; US20080306941A1; US20070094232A1; US7464078B2

Abstract

副标题提取系统从文档的题目元标签中检测潜在标题的集合，从潜在标题的集合中选择候选标题，利用选择的候选标题的位置，从文档中提取副标题信息。系统根据题目元标签构成潜在标题的集合。系统按照潜在标题的长度的顺序对潜在标题的集合进行评估。系统通过利用选择的候选标题的位置，提取位于距潜在标题的位置的最短距离以内的、代表日期、名字或来源的字符串，从文档中提取副标题信息。

Description

用于自动提取副标题信息的系统和方法

技术领域

本发明总体上涉及对电子文档的文本分析。更具体地说，本发明涉及对电子文档中的副标题(by-line)进行识别和指定，从而能够根据副标题信息来定位文章。

背景技术

作为例如在线新闻文章的信息的大型资料库，万维网正在不断发展。在线新闻文章是世界范围内的信息和事件的有用资源。在提供在线新闻文章的网站的数量方面以及在每个网站提供的文章的数量方面，可从web上获得的在线新闻文章的数量正在迅速增加。估计在线新闻资源如web上的杂志和报纸超过10000。在世界范围内，在线新闻资源包括本地新闻资源、地区新闻资源以及国家新闻资源。这些新闻资源迎合不同的话题，如国际新闻、国家新闻、本地新闻、经济新闻、科技新闻、及体育新闻等。

新闻资源包括也在线出现的印刷媒体。这些新闻资源每日、每月发表新闻文章，有时使较早的文章可用于存档访问。新闻资源也包括只通过web提供新闻文章的非印刷媒体站点。

在每天出现这样大量新闻文章的情况下，拥有能够从这些新闻文章中提取有意义的信息并且使提取的信息可以为用户所用的自动化的技术和系统正变得日益有用。这种被提取的信息可以简化导航和搜索任务。这些自动系统(例如搜索引擎)通常在web上定期爬行(crawl)、抽取网页、并且对网页的内容进行分析。

对于任何这样的系统而言，一种有用的任务是能够对每篇新闻文章提取副标题。副标题是出现在文章或报道的开始之处的行，通常包括作者、日期、来源、位置等。副标题信息对于在新闻文章中进行基本搜索和导航都是有用的。在对文章的内容进行趋向分析方面，副标题也是有用的。

以下形式的查询：

显示由作者X写的新闻文章，

显示由作者X写的关于关键字Y的新闻文章，

显示由作者X在日期D写的新闻文章，或者

显示在日期D的关于关键字Y的新闻文章

包括对大型新闻文章资料库进行搜索和导航的基本方法。对副标题信息的查询需要知道在被爬行的网页上的文章的日期和作者。另外，对一个话题的任何类型的时间趋向分析都需要知道关于该话题的每篇新闻文章的创作日期。

在常规的印刷的报纸中，或者当被人阅览时，在文章标题之下或之上出现的小行字中很容易看到副标题信息。这些小行字将文章的作者与日期并可能将来源或地点一起列出。但是，从网页的html源中自动发现副标题信息是困难的，这是由于不知道副标题的位置。副标题不被明确地提及或标出。另外，被爬行的网页具有围绕核心文章的其它项目和模板。在副标题之前和之后，可能有其它日期和人名。基于位置选择任何日期或名字通常不能为所考虑的文章提供期望的副标题信息。另外，不同网站使用不同的呈现副标题信息的模式，并且，这些模式会随时间变化。

一种传统的方法使用由某些网站在http标题中提供的、表示该页被最后修改的日期的“最后修改日期”。但是，网页经常包括动态内容，如广告或其它模板。因此，最后修改日期对应于广告或其它模板，而不是核心文章的原始日期。因此，对多数站点，“最后修改日期”不可靠。

另一种传统方法使用馈送(feed)，例如丰富站点摘要(rich sitesummary，RSS)馈送或者资源描述框架(resource descriptionframework，RDF)馈送。馈送通常包括希望的副标题信息。但是，不是所有新闻站点都提供馈送；在馈送中提供的信息取决于内容提供者的意愿，并且，某些提供者不提供副标题信息。即使提供时，馈送也不是免费的，或者不能被网页分析系统进行商业上的使用。另外，馈送可能只能用于当前的文章而不能用于较早的、已经存档的文章。因此，在分析中，希望对网页的爬行包括较早的文章。

另一种传统方法寻找关键字模式，如“By：*”或者“Composedby：*”，以识别作者。关键字模式，如“Published On：*”或者“SubmittedOn：*”被用于识别日期。这种方法对某些站点很好用，但是该方法是受到限制的，因为每个站点的关键词模式是不同的。对许多站点来说，在作者/日期之前没有关键字。例如，副标题可能仅包括“Jhon Crameron Apr 4，2005”。

因此，需要一种用于自动提取副标题信息的系统、计算机程序产品以及相关方法。对这样的方案的需求至今还未被满足。

发明内容

本发明满足了这种需求，并且提出了用于自动提取副标题的系统、计算机程序产品和相关方法(以下集中起来称为“系统”或“本系统”)。本系统从被爬行的文档的题目元标签中检测潜在标题的集合，从潜在标题的集合中选择候选标题，并且通过利用选择的候选标题的位置，从文档中提取副标题信息。

本系统通过根据题目元标签(title meta-tag)构成潜在标题的集合，检测候选标题的集合。构成潜在标题的集合的操作包括在题目元标签中，按照标点符号将题目元标签分开，由此产生题目元标签的子字符串的集合。本系统可选地将子字符串的二元语法模型(bi-gram)和子字符串的n元语法模型(n-gram)加到潜在标题的集合。

本系统通过按照潜在标题的长度的顺序对潜在标题的集合进行评估，从潜在标题的集合中选择候选标题。评估包括在被爬行的文档的去标签(de-tagged)版本中，识别正在被评估的所选择的候选标题的位置。评估还包括检验所选择的候选标题在去标签内容中的被识别位置包括完整的行。评估还包括检验所选择的候选标题的长度超过去标题内容中的最小长度。评估还包括确保所选择的候选标题包括文档的去标签版本中的规则文本。

本系统通过利用被选择的候选标题的位置，提取位于距潜在标题的位置的最短距离内的、代表日期的字符串，从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表名字的字符串，从文档中提取副标题信息。本系统还通过提取位于距潜在标题的位置的最短距离内的、代表文档来源的字符串，从文档中提取副标题信息。

附图说明

以下将参照详细说明、权利要求和附图，对本发明的各种特性以及实现它们的方法进行详细描述，其中，在适当的地方，重复使用附图标记，以表示被引用的项目之间的对应性，其中：

图1为可以使用本发明的副标题提取系统的典型操作环境的示意图；

图2为图1的副标题提取系统的高层结构的框图；

图3为说明图1和2的副标题提取系统的操作方法的处理流程图；

图4代表说明图1和2的副标题提取系统的标题检测模块的操作方法的处理流程图；并且

图5包括图5A和5B，并且代表说明图1和2的副标题提取系统的标题评估模块的操作方法的处理流程图。

具体实施方式

以下的定义和解释提供了有关本发明的技术领域的背景信息，并且，其意图在于帮助理解本发明而不对其范围进行限制：

HTML(Hypertext Markup Language，超文本标示语言)：一种标准语言，用于将表示和链接属性附加到文档中的信息性内容。在文档创作阶段，HTML“标签”被嵌入文档的信息性内容中。当web服务器向web浏览器发送web文档(或“HTML文档”)时，由浏览器对标签进行解释，并且，标签被用于分析和显示文档。除了规定web浏览器如何显示文档以外，HTML标签还可以用于建立与其它web文档的超级链接。

Internet：通过一套标准协议、借助路由器链接在一起的互连的公共和私用计算机网络的集合，以便形成全球的、分布式网络。

World Wide Web(WWW，也称Web)：一种因特网客户机-服务器超文本分布式信息检索系统。

图1描绘了可以使用按照本发明的、用于自动提取副标题信息的系统、计算机程序产品以及相关方法(“副标题提取系统10”或“系统10”)的示例性总体环境。文本分析系统15包括系统10和搜索引擎20。例如，文本分析引擎15对从信源如WWW获得的文档进行分析，用于数据分析、趋势发现等。文本分析引擎包括由搜索引擎20提供的搜索功能。文本分析系统15被安装在计算机、如主机服务器25上。

系统10包括一般被嵌入或者被安装在主服务器25上的软件编程代码或计算机程序产品。或者，系统10被保存在合适的存储介质如软盘、CD、硬盘等装置上。数据库30(dB 30)包括来自信源例如WWW的文档。尽管以下将结合WWW对系统10进行描述，但是，系统10可以与从WWW或其它信源得到的内容的独立的dB 30一起使用。

用户，例如远程因特网用户，由各种计算机例如计算机35、40、45代表，并且可以通过网络50访问主机服务器25。计算机35、40、45中的每一个包括允许使用户与主机服务器25安全地进行接口的软件。主机服务器25通过通信链路55如电话、电缆或卫星链路连接到网络50。计算机35、40、45可以分别通过通信链路60、65、70连接到网络50。尽管按照网络50对系统10进行描述，但是，计算机35、40、45也可以在本地而不是远程访问系统10。计算机35、40、45可以人工或利用应用软件自动访问系统10。用户通过网络50和搜索引擎20在dB 30上查询数据。

图2示出了系统10的高层结构。系统10包括标题检测模块205、标题评估模块210和副标题提取模块215。每个包括新闻文章的网页一般包括一个标题。系统10通过对文档中的标题进行识别并且定位靠近被识别的标题的副标题，对副标题信息进行定位和提取。

输入220包括从信源例如WWW获得的被爬行的文档。输入220还包括已经去除了html标签的、被爬行的文档(称为去标签文档)。利用标准的去标签方法将HTML标签去除。输出225包括被识别的副标题信息。

图3示出了系统10的操作方法300。对于一个选择的文档，标题检测模块205从该选择的文档的题目元标签(title meta-tag)中，选择潜在标题的集合。每个选择的文档包括一个题目元标签(图4的步骤400，方法400)。示例性的题目元标签包括：

<title>Guardian Unlimited|Special reports|No more nearmisses，says new air traffic chief</title>

<title>CNN.com-jury’s still out on e-voting-Nov 5，2004</title>

<title>Nov.2 the biggest test yet for touch-screen voting|csmonitor.com</title>

标题评估模块210通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估，从潜在标题的集合H中选择候选标题(步骤500，图5的方法500)。

副标题提取模块210提取代表副标题信息的字符串(步骤305)。提取的字符串位于候选标题的预定最短距离以内。提取的字符串可以是名字、来源、日期、位置或者副标题信息的任何其它项目。预定最短距离包括约50个字符到约100个字符。预定最短距离是可配置的；预定距离的典型值为约100个字符。

图4示出了在对潜在标题的集合H进行检测过程中，标题检测模块205的方法400。标题检测模块205从输入220中选择文档(步骤405)。选择的文档包括被爬行的版本和去标签版本。标题检测模块205通过在被爬行的版本的<title>..</title>元标签中选择字符串，从选择的文档的被爬行版本中获得题目字符串T(步骤410)。标题检测模块205将题目字符串T加到潜在标题的集合H(步骤415)。

标题检测模块205在某些或所有标点符号处，将题目字符串T分开，生成子字符串(步骤420)。标题检测模块205将生成的子字符串加到潜在标题的集合H(步骤425)。标题检测模块205可选地将生成的子字符串的二元语法模型加到潜在标题的集合H(步骤430)。标题检测模块205可选地将生成的子字符串的n元语法模型加到潜在标题的集合H(步骤435)。

图5(图5A，5B)示出了在通过在选择的文档的去标签版本中对选择的候选标题进行定位并且对候选标题进行评估，从潜在标题的集合H中，为选择的文档选择候选标题的过程中，标题评估模块210采用的方法500。标题评估模块210在选择的文档中，选择潜在标题的集合H中的最长的潜在标题(步骤505)。按照标点符号将题目字符串分开之后的最长子字符串是标题的高概率候选者。其它组合可能概率较低。通常，最长的潜在标题是题目字符串T被按照标点符号分开时建立的题目字符串T中的最长子字符串。否则，最长的潜在候选者可能是整个题目字符串T。

标题评估模块210在选择的文档的去标签版本中定位选择的潜在标题(步骤510)。如果潜在标题不位于该文档中(判断步骤515)，则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520)，并且进行到步骤555。

在判定步骤555，系统10询问是否已经考虑了所有潜在标题。如果还没有，则系统10进行到步骤510。但是，如果已经考虑了所有潜在标题，没有在选择的文档上发现可接受的标题，则系统10退出对选择的文档的处理(步骤540)。

如果潜在标题位于该文档中(判定步骤515)，则标题评估模块210判断被定位的标题是否包括独立的行，被定位的标题包括独立行的全部内容(判定步骤525)。如果不是，则被定位的标题不是可用标题选项。如前面所述，标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520)，并且进行到判定框555。

否则，标题评估模块210对被定位的标题是否出现在html链接进行判断(判定步骤530)，以确保被定位的标题只包括文本。如果是，则被定位的标题不是可用标题选项。如前面所述，标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520)，并且进行到判定框555。

否则，标题评估模块210对被定位的标题是否小于预定最小长度进行判断(判定步骤535)。如果是，则在选择的文档上没有发现可接受的标题，并且系统10退出对选择的文档的处理(步骤540)。

否则，标题评估模块210判断在被定位的标题附近是否发现可接受的日期(判定步骤545)。可接受的日期出现在被定位的标题附近，在日期与被定位的标题之间没有html链接或超文本引用。如果没有发现可接受的日期，则被定位的标题不是可用标题选项。标题评估模块210在潜在标题的集合H中选择下一个最长的潜在标题(步骤520)，并且返回到步骤510。

如果发现了可接受的日期，则标题评估模块210将定位的标题输出为选择的标题(步骤550)。

系统10为文档识别潜在标题，在该文档的去标签版本中对潜在标题进行定位，并且根据围绕该位置的文本确认候选标题。即使题目字符串T不是准确的标题，但是，html信源中的题目字符串T通常含有关于文章标题的有价值线索。

系统10包括用于从被爬行的网页或者包括新闻文章的文档中发现副标题信息的一般自动化技术。系统10不要求每个站点定制并且具有很高的准确性，并且，当副标题信息可用时，可以进行再调用。

应该理解，已经描述的本发明的特定实施例只是对本发明的原理的某些应用进行了说明。在不脱离本发明的精神和范围的情况下，可以对这里描述的用于自动提取副标题信息的系统和方法进行许多修改。

Claims

1.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的方法，包括如下步骤：

从文档的题目元标签中检测文档的潜在标题的集合；

从所述潜在标题的集合中选择候选标题；

利用选择的候选标题的位置，从文档中提取副标题信息。

2.如权利要求1所述的方法，其中，检测步骤包括根据所述题目元标签构成所述潜在标题的集合。

3.如权利要求2所述的方法，其中，构成步骤包括按照所述题目元标签中的所有标点符号将所述题目元标签分开，产生所述题目元标签的子字符串的集合。

4.如权利要求3所述的方法，还包括将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合。

5.如权利要求1所述的方法，其中，选择步骤包括按照所述潜在标题的长度的顺序对潜在标题进行评估，其中，评估步骤包括如下步骤：

在文档的去标签版本中，识别正在被评估的选择的候选标题的位置；

检验选择的候选标题在去标签内容中的被识别的位置包括完整的行；

检验选择的候选标题的长度超过去标签内容中的最小长度；并且

确保选择的候选标题包括文档中的规则文本。

6.如权利要求1所述的方法，其中，提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。

7.如权利要求1所述的方法，其中，提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。

8.如权利要求1所述的方法，其中，提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。

9.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的系统，包括：

标题检测模块，用于从文档的题目元标签中检测文档的潜在标题的集合；

标题评估模块，用于从所述潜在标题的集合中选择候选标题；以及

副标题提取模块，用于利用选择的候选标题的位置，从文档中提取副标题信息。

10.如权利要求9所述的系统，其中，所述标题检测模块根据题目元标签构成所述潜在标题的集合。

11.如权利要求10所述的系统，其中，所述标题检测模块通过按照所述题目元标签中的所有标点符号将所述题目元标签分开，产生所述题目元标签的子字符串集合，来构成所述潜在标题的集合。

12.如权利要求11所述的系统，其中，所述标题检测模块还将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合。

13.如权利要求9所述的系统，其中，所述标题评估模块通过如下步骤、按照所述潜在标题的长度的顺序对所述潜在标题进行评估：

确保选择的候选标题包括文档中的规则文本。

14.如权利要求9所述的系统，其中，所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。

15.如权利要求9所述的系统，其中，所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表名字的字符串。

16.如权利要求9所述的系统，其中，所述副标题提取模块提取位于距所述潜在标题的位置的最短距离以内的、代表文档来源的字符串。

17.一种计算机程序产品，具有存储在计算机可用介质上的程序代码，用于在被爬行的文档中自动提取副标题信息，该计算机程序产品包括用于执行权利要求1-8中的任何一项的方法中的步骤的程序代码。

18.一种在被爬行的文档中自动提取副标题信息的、由处理器实现的服务，包括如下步骤：

接收文档；

调用自主硬件配置实用程序，其中，通过以下步骤使文档可用于自主硬件配置实用程序以便在文档中自动提取副标题信息：

从文档的题目元标签中检测文档的潜在标题的集合；

从所述潜在标题的集合中选择候选标题；以及

利用选择的候选标题的位置，从文档中提取副标题信息。

19.如权利要求18所述的服务，其中，检测步骤包括根据所述题目元标签构成所述潜在标题的集合。

20.如权利要求19所述的服务，其中，构成步骤包括按照所述题目元标签中的所有标点符号将所述题目元标签分开，产生所述题目元标签的子字符串的集合。

21.如权利要求20所述的服务，还包括将所述子字符串的多个二元语法模型和所述子字符串的多个n元语法模型中的任何一个加到所述潜在标题的集合。

22.如权利要求18所述的服务，其中，选择步骤包括按照所述潜在标题的长度的顺序对潜在标题进行评估，其中，评估步骤包括如下步骤：

在文档的去标签版本中识别正在被评估的选择的候选标题的位置；

确保选择的候选标题包括文档中的规则文本。

23.如权利要求18所述的服务，其中，提取步骤包括提取位于距所述潜在标题的位置的最短距离以内的、代表日期的字符串。