CN1991836A

CN1991836A - 用于从文本储存库里提取仿真陈述的系统和方法

Info

Publication number: CN1991836A
Application number: CNA2006101629923A
Authority: CN
Inventors: S·乔希; R·克瑞施那普姆; S·内吉; N·库马尔; G·罗摩克里希纳; K·梅赫塔; S·霍尔梅斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-12-29
Filing date: 2006-11-30
Publication date: 2007-07-04
Anticipated expiration: 2026-11-30
Also published as: US8706730B2; CN100524310C; US20070162447A1

Abstract

公开了一种用于从文本储存库里提取仿真陈述的方法(400)，所述仿真陈述与给定仿真陈述类别相关联。所述方法(400)通过训练分类器(230)识别与所述给定仿真陈述类别有关的仿真陈述而开始。接下来从文本储存库中收集(410)与所述给定仿真陈述类别有关的文档或文档摘要。从所述文档或所述文档摘要中提取(420)与所述给定仿真陈述类别有预定关系的句子。在干扰环境中，通过用所述分类器(230)提取包含与所述给定仿真陈述类别有关的短语的片断来分类(440)所述句子。所述被提取的片断是与所述给定仿真陈述类别相关联的仿真陈述。

Description

用于从文本储存库里提取仿真陈述的系统和方法

技术领域

本发明总体涉及从数据库提取信息，且具体而言涉及从文本储存库里提取仿真陈述，本发明的特定实施例为万维网。

背景技术

信息提取可以被描述为从有关给定实体的文档中识别事实的任务。另一方面，信息检索返回与给定查询有关的文档的子集。存在许多这样的情况，其中想要从类似于文档集合的数据库中提取信息的关键片断。例如，在转录声音邮件消息中，留下的呼叫人的姓名和任何回复号码都对概述该呼叫很重要。还有，当简历和求职信一起被提交到公司时，想要提取申请人的工作意向和薪金要求，从而确定是否存在合适的匹配。

信息提取很难，因为有很多表达同样事实的方式存在。例如，下面三个句子以不同形式包含了相同信息：

-BNC Holdings公司任命G Torretta女士作为其新主席。

-Gina Torretta继任Nicholas Andrews成为BNC Holdings公司的主席。

-Gina Torretta女士掌管BNC Holdings公司。

当要被提取的信息出现在单个句子中时，该信息可以被称作“局部信息”。和局部信息相反的是分布于多个句子中的信息。例如：

-经过会议室里的长时间争论，Andrews先生辞去BNC Holdings公司主席。他的继任者是Torretta女士。

跨几个句子的信息分布为信息提取任务增加了更大难度。

迄今为止已经提出了用模板从文档里提取事实的方法。这些方法围绕手选“样本”收集上下文线索(包括句法的和语义的)，然后归纳那些样本。这些经归纳的样本通常用正则表达式结构来表示。大量的手工努力和时间必须要花在构建新模板和在任意文本中标记样本，结果这些方法非常耗时。而且，这些方法不能容易地重复用于提取新型事实。

在很多情况下，识别一个或一组包含所需信息片断的句子就相当好。例如，当要识别关于“公司中管理变化”的信息时，识别出描述新任命的句子就相当好。一个或一组句子可以被称作“片断(snippet)”。包含某种事实的片断被称作“仿真陈述(factoid)”。

仿真陈述可以根据它们所传达的信息来分类。例如，描述公司中的新任命的仿真陈述可以被一起分组再“管理变化”类别下。因此，“管理变化”是仿真陈述类别的例子。

已提出用于识别被用户视为在信息内容方面有关或重要的文档中的数据的若干部分的不同方法。美国专利号6,842,796的标题为“Informationextraction from documents with regular expression matching”中公开的方法提供了下述技术，其用于利用语言的易识别结构来明确识别用户寻求进行识别的文档中的数据的若干部分，诸如相关或重要信息。“正则表达式”用于识别文档中携带信息的部分。但是，这种方法要求大量手工努力来生成这些表达式。

因此，需要对仿真陈述的识别和提取的改良方法。

发明内容

本发明的目的是基本上解决或至少改进现有装置的一个或多个缺陷。

根据本发明的一个方面，提供了一种用于从文本储存库里提取仿真陈述的方法，所述仿真陈述与给定仿真陈述类别相关联。所述方法通过训练分类器识别与所述给定仿真陈述类别有关的仿真陈述而开始。接下来从文本储存库中收集与所述给定仿真陈述类别有关的文档或文档摘要。从所述文档或所述文档摘要中提取与所述给定仿真陈述类别有预定关系的句子。在干扰环境中，通过用所述分类器提取包含与所述给定仿真陈述类别有关的短语的片断来分类所述句子。所述被提取的片断是与所述给定仿真陈述类别相关联的仿真陈述。

根据本发明的另一个方面，提供一种包括计算机可读媒体的计算机程序产品，所述计算机可读媒体在其上记录了用于实现上述方法的计算机程序。

本发明的其它方面也被公开。

附图说明

现将参考附图来描述本发明的一个或多个实施例，在附图中：

图1显示了用于从自动来源于Web的内容中提取销售激励触发事件的系统的示意框图；

图2显示了与特定销售激励相关联的分类器被训练的训练阶段的示意流程图；

图3图示了片断的分布和它们的分类；

图4显示了用在图2所示的训练阶段中进行训练的分类器来提取触发事件的部署阶段的示意流程图；以及

图5A到5C显示了示例性Web研究结果中的第一列表所引用的示例性网页的若干部分。

具体实施方式

如上文背景技术部分所述，仿真陈述是一个或一组包含某种事实的句子。并且，传递相似信息的仿真陈述属于相同仿真陈述类别。“收入增长”、“管理变化”、“新产品投放”和“兼并和购入”是仿真陈述类别的例子。“x公司报告了第四季度10％的收入增长”是仿真陈述类别“收入增长”的仿真陈述的例子。

万维网(Web)在近几年间从几千页猛增至几十亿页。Web已经成为对许多产业来说最重要的信息源。多家报纸、贸易周刊、商业杂志和其它相关源被“联机”发布。Web也被用作发布新闻稿的媒体。除了Web之外，还有诸如电子邮件、留言板等等的大型文档储存库。这些信息源对识别与特定仿真陈述类别相关联的仿真陈述很有价值。然而，由于这种信息储存库的绝对大小，为了使仿真陈述有价值，仿真陈述的识别和提取必须是自动化的。

因此，提出了一种用于从自动源于这种文档储存库的内容中提取仿真陈述的系统和方法。在此公开中，通过文档，我们参考整个文档及其摘要(通常由搜索引擎提供)。所提出的系统和方法通过有限的人为干涉来提取任何新仿真陈述类别的仿真陈述。

图1显示了从自动来源于Web的内容中提取销售激励仿真陈述的系统100的示意框图。系统100由计算机模块101、诸如键盘102和鼠标103的输入设备和包括显示器设备114的输出设备形成。调制解调器(Modem)收发器设备116被计算机模块101用于向和从包括因特网的通信网络120进行通信。

计算机模块101典型地包括至少一个处理器单元105和存储器单元106。模块101还包括多个输入/输出(I/O)接口，该接口包括耦合于视频显示器114的视频接口107、用于键盘102和鼠标103的I/O接口113和用于调制解调器116的接口108。调制解调器116典型地被引入计算机模块101中，例如被引入接口108中。存储设备109被提供且典型地包括至少一个硬盘驱动器。CD-ROM驱动器112典型地被提供为非易失性数据源。计算机模块101的组件105至113典型地通过互连总线104且以导致计算机系统100的传统操作模式的方式来通信。

所提出的方法包括两个阶段，即训练阶段和部署阶段，训练阶段中用于每个给定仿真陈述类别的分类器被训练，部署阶段中经训练的分类器用于从诸如Web的文本储存库中识别与那些仿真陈述类别相关联的仿真陈述。所提出的方法在系统100中通过诸如应用程序的在系统100中执行的软件来实现。所述软件可以被存储在计算机可读媒体中，然后从计算机可读媒体被加载到计算机模块101中，之后由处理器105执行。具有这种在其上记录的计算机程序或软件的计算机可读媒体是计算机程序产品。此处使用的“计算机可读媒体”这一术语指任何参与向计算机系统100提供指令和/或数据用于执行和/或处理的存储装置或传输媒体。

图2显示了所述方法的训练阶段200的示意流程图，其中与特定仿真陈述类别相关联的分类器2 30用片断来训练。片断可以被定义为文档中和单一主题有关的句子集合。典型地，每个片断中句子的数量不超过3或4。

传统上，分类器需要一组正面和一组负面的例子用来训练。然而，要获得这些组需要对例子进行手动标记，这既昂贵又耗时。

为了训练分类器230，训练阶段200使用以背景片断集合204和具有干扰片断集合202的形式的训练数据。如术语所示，具有干扰片断集合202还包含不属于考虑中的仿真陈述类别的正面类的片断。

背景片断集合204通过从文本储存库中收集内容的随机集合而形成。集合204中背景片断的数量优选地为几十万个。

具有干扰片断集合202优选地使用搜索引擎从文本储存库中且以下文中更详细描述的方式来收集。在本公开中讨论的此过程的一个具体实施例是使用诸如Google(www.google.com)的搜索引擎的来自Web的文档集合。

训练阶段200还包括一组注释器220，它们通过标记片断中包含的有用实体来注释来自具有干扰片断集合202和背景片断集合204的片断。所述标记及被那些标记注释的片断中的表达式基于仿真陈述类别的性质被手动确定。注释期间使用的标记示例有：

人名；

公司/组织名称；

产品名称；

地点名称；

计数标记；和

货币标记。

由所述一组注释器220执行的注释服务于两个目的，即，模型大小的归纳和优化。归纳包括把具体片断转化为概括片断。例如，片断“IBM在1996年盈利2500亿美元”被归纳为“ORGANIZATION在TIME_PERIOD内盈利CURRENCY”。归纳将使得分类器230学会识别所有这些概括事件。

需要模型大小的优化是因为，诸如分类的基于机器学习的技术一旦有太多模型参数就会受训练数据过度拟合问题的困扰。在没有注释的情况下，由于每个片断中包含的单独表达式使得每个片断都将是唯一的。通过文档中的数百万的人名、公司名称、地点名称、日期、货币和时间表达式，所需的模型参数的数量将会给系统100中的存储器和时间资源造成很大负担。注释通过以相关联的标记替换单独表达式来避免过度拟合。下面的表1提供了与标记相关联的示例性单独表达式。

为了训练分类器230识别仿真陈述的所有变体，用于训练分类器230的具有干扰片断202应该包括尽可能多的变体，其中特定仿真陈述类别的仿真陈述可以尽可能被表达。因此干扰片断集合202中片断的数量必须很大。

标记	单独表达式
标记	单独表达式	NAME	Bernard MenzesMilind SohoniDan Klien
PLACE	南明尼苏达北卡罗莱纳伦敦	NAME	Bernard MenzesMilind SohoniDan Klien
PLACE	南明尼苏达北卡罗莱纳伦敦	TIME_PERIOD	1月24日，2004年10-11-1999周二，3月15日，2003年
CURRENCY	一千五百万美元450亿英镑85分	TIME_PERIOD	1月24日，2004年10-11-1999周二，3月15日，2003年
CURRENCY	一千五百万美元450亿英镑85分	ORGANIZATION	世界卫生组织Sun MicrosystemsMax纽约人寿保险

表1

训练阶段200收集大型的具有干扰片断集合202的方式现在被更详细描述。在优选实现中，通过考虑中的与仿真陈述类别相关的用户指定查询，用搜索引擎通过执行用户指定查询来从Web收集大型的具有干扰片断集合202。例如，对于仿真陈述类别“管理变化”，用户指定查询可以是短语“新任CEO”。在此实例中，短语“新任CEO”被认为和仿真陈述类别“管理变化”有很强联系。

响应于这种查询得到的大多数结果都将与关于某个公司中新任首席执行官(CEO)的任命的事件有关。然而，结果也可能包括与管理变化事件无关的某些结果。因此，用户指定查询的结果所引用的文档集合形成了对于仿真陈述类别“管理变化”的具有干扰文档的集合。

通过使用若干试探法而从具有干扰文档的集合中收集具有干扰片断集合202。试探法对考虑中的仿真陈述类别来说是特定的，且它们由用户选择。

在最简单的例子中，在文档中包含用于收集具有干扰文档集合的查询短语或词语的所有句子都被用作具有干扰片断。备选地，可以在每个文档中的查询短语或词语的位置周围形成窗口，且所有在窗口中出现的词语都被看成是考虑中的仿真陈述类别的具有干扰片断。

在另一备选实现中，包括给定标记集合的具有干扰文档中包含的所有句子都被用作考虑中的仿真陈述类别的具有干扰片断。例如，来自具有干扰文档的句子中对人名和指定标记的包括可以被用于将该句子包括在具有干扰片断集合202中。

参考示例进一步描述试探法的操作。在示例中将用于训练分类器230的仿真陈述类别是：仿真陈述类别“领导层变化”。如上所述，所用的背景片断集合204是来自Web的内容的随机样本。为了提取具有干扰文档的集合，搜索短语“新任Ceo”被输入Web搜索引擎。典型地这种概括搜索短语会产生大量搜索结果。

图5A示出了搜索结果中的第一列表所引用的示例性网页。所述网页包括由InfoWorld发表的有关西门子已任命新任首席执行官的声明的文章502。然而，如从图5B中清楚看到的，该网页中并非所有句子都是与仿真陈述类别“领导层变化”有关的仿真陈述，在图5B中示出上述文章502的另一部分505。

图5C显示了示例性网页上的文章502的再一部分。使用用于识别网页中包括人名和指定标记的句子的试探法将把片断510识别为与仿真陈述类别“管理层变化”相关联的片断。然而，该句子实际是干扰，因为该句子与领导层变化无关。

图3图示了片断的分布和它们的分类。存在大量背景片断310。存在小得多的具有干扰片断集合320。具有干扰片断集合320包括形成主要群集的实际正面信息330，和分布在具有干扰片断集合320中作为小群集的干扰340。

再次参考图2，在对具有干扰片断集合202和背景片断集合204的收集和注释之后，使用本领域已知的任何已知分类器训练方法(诸如 Bayes分类器)来训练分类器230。

由于用于训练的正面示例中包括干扰，因此转换分类的下述步骤被用来：

1.假设正面片断的真实实例形成了图3所示的主要群集；

2.从被注释的背景片断集合204和具有干扰片断集合202中训练分类器230；

3.用下列两个子步骤反复地改进分类器230：

3.1向被分类器230识别的所有仿真陈述实例分配标记；以及

3.2用实例和它们在步骤3.1中分配的标记来训练分类器。

在描述了从自动源于Web的内容中提取给定仿真陈述类别的仿真陈述的方法的训练阶段200后，接着参考图4描述部署阶段，在图4中示出了部署阶段400的示意流程图。部署阶段400从步骤410开始，在步骤410中与给定实体集合相关的文档被从Web收集并放入实体库。通过搜索引擎执行Web搜索而识别文档，所述搜索引擎中使用了与实体有关的查询集合。因此，由于集合中至少一个实体在此出现这一事实，每个被收集的文档都和给定实体集合有关。在一实现中，此步骤用IBM的WebFountain^TM库和分度器来完成。WebFountain^TM是从海量的无结构或半结构的文本中提取趋势、样本和关系的Web范围的开采和发现平台。

然后，在步骤420中，从实体库中建立片断库。具体而言，实体库中每个文档的内容被处理用来从包含集合中至少一个实体的句子(片断)集合中提取到实体库。参考训练阶段所做的描述，备选方法可用来从文档中提取片断。

在接下来的步骤430中，训练阶段200期间开发的注释集合220(图2)被用来通过以上述参考训练阶段200所述的方式来标记片断库中包含的实体来注释来自片断库的片断。被标记(注释)的片断接着被返回到片断库。

在训练阶段200期间被训练的给定仿真陈述类别的分类器230(图2)然后在步骤440中被用于检测来自在步骤420中建立和在步骤430中注释的片断库的相关片断。具体而言，在片断库中被注释的片断被单独传送到分类器230。被经训练的分类器230对于给定仿真陈述类别分类为正面的片断被指定为该仿真陈述类别的仿真陈述。还将信用分值给予被分类器识别的每个仿真陈述，其中信用分值的范围是(0；1)。

典型地，可以从步骤440中产生用于给定实体集合中的每个实体和用于给定仿真陈述类别的若干仿真陈述，其中每个仿真陈述具有相关联的信用分值。若干分类器230可被训练用于与考虑中的公司集合的产业相关的不同的仿真陈述类别，在这种情况下与每个仿真陈述类别相关联的仿真陈述可以被识别。

接下来的步骤450把评分功能应用到与每个实体相关联的仿真陈述中，从而获得在考虑中的实体集合中每个实体的总分。每个实体的总分指示该实体对考虑中的仿真陈述类别的相关性。在备选实现中，评分功能被用于与实体相关联的仿真陈述，从而得到与每个实体相关联的每个仿真陈述类别的单独分数。

为实现步骤450，涉及相同实际事件的所有仿真陈述都被分组。分组可以通过仿真陈述的精确匹配来完成。仿真陈述的分组还可以通过提取与特定仿真陈述类别有关的字段来完成，诸如用于仿真陈述类别“收入增长”的公司名称和收入增长数字，并然后把所提取的字段与不同仿真陈述交叉匹配。在涉及对于公司的相同实际事件的仿真陈述的分组后，使用仿真陈述的多种分组来计算公司的总分。评分功能的示例包括：

·总分是为特定仿真陈述类别的实体所提取的仿真陈述的数量的函数。

·总分是特定仿真陈述类别的实体的、用自身的信用分值加权的每个仿真陈述的实例的数量的函数。

·总分是特定仿真陈述类别的实体的、仿真陈述中所使用语言的函数。

对于某些仿真陈述类别来说，开发专用于该仿真陈述类别的评分系统可能是合适的。

因此，部署阶段从Web上的内容中自动识别仿真陈述，并且通过使用总分，根据它们与考虑中仿真陈述类别的相关性来给实体排序。

用于从自动源于Web的内容中提取仿真陈述的系统和方法的一个应用是自动识别销售激励。大多数公司是在竞争性市场中运营的销售激励的组织。在这种环境中对市场的速度很重要。越快将潜在客户吸引到做出获得产品或服务的过程的决定，把那个潜在客户转变为实际客户的机会就越大。若干公司实施了用于识别与这些公司提供的产品或服务相关的销售激励的调查和研究。特定公司的销售激励的存在指示出从该公司进行新购买的趋势很强。

销售激励因此可以被定义为仿真陈述类别，它的出现指示出购买的良好趋势。销售激励的示例有：“收入增长”、“管理变化”、“新产品投放”和“兼并和购入”。

因为公司在不同的产业运营，所以销售激励典型地不同。例如，销售激励“公司首席信息官(CIO)的变化”可以是信息技术(IT)产业中的公司的销售激励，而相同的声明可能在钢铁产业中就不是销售激励。因此，任何产业的销售激励典型地根据该产业中的专家意见而确定。

为了识别目标为销售的公司集合，公司需要基于该产业给定销售激励来识别具有与公司相关联的某些触发事件的其它公司。触发事件是在公司情境(或其环境)中发生、且描述了销售激励发生的事件，因此它是该公司购买附加商品和/或服务的趋势的指示器。例如，“公司X任命Y先生为其CIO”是销售激励(仿真陈述类别)“公司CIO变化”的示例性触发事件(仿真陈述)。由于以上已将这样的销售激励指示为IT产业的销售激励，因此发生这个触发事件的消息对IT产业中的任何公司来说都是有价值的。其它示例性触发事件是“X公司报告了在第四季度10％的收入增长”和“Y公司从Z公司获得n十亿美元”。

迄今为止，触发事件的识别和提取完全是手动的。对于公司集合来说，必须建立基于给定销售激励是否发生触发事件典型地是已知的，但这通常包括数十万个事件。经常对私人产业公司和政府组织的首席信息官(CIO)、首席执行官(CEO)和首席财务官(CFO)实施采访，从而识别有价值的触发事件。由于集合中的公司数量众多，因此从每个公司或组织中召集代表来找出所需信息的代价太高。

此处描述的方法和系统可以被用在公司集合上作为实体集合，以识别和一个或多个与感兴趣产业相关联的销售激励(仿真陈述类别)相关的触发事件(仿真陈述)。

前边所描述的只是本发明的某些实施例，可以对所述实施例做出修改和/或改变而不背离本发明范围和精神，所述实施例是示例性的而非限制性的。

Claims

1.一种从文本储存库中提取与给定仿真陈述类别相关联的仿真陈述的方法，所述方法包括以下步骤：

训练分类器识别与所述给定仿真陈述类别有关的仿真陈述；

从文本储存库中收集与所述给定仿真陈述类别有关的文档或文档摘要；

从所述文档或所述文档摘要中提取与所述给定仿真陈述类别有预定关系的句子；以及

在干扰环境中，通过用所述分类器提取包含与所述给定仿真陈述类别有关的短语的片断来分类所述句子，所述被提取的片断是与所述给定仿真陈述类别相关联的所述仿真陈述。

2.根据权利要求1所述的方法，其中所述收集步骤包括执行对文本储存库的搜索，其中所述文档被所述搜索的结果引用。

3.根据权利要求2所述的方法，其中使用搜索引擎对文本储存库执行所述搜索。

4.根据权利要求1所述的方法，包括在所述分类步骤执行前根据所述给定仿真陈述类别来注释所述句子中的实体的另外的步骤。

5.根据权利要求1所述的方法，包括对与所述给定仿真陈述类别相关联的所述仿真陈述进行排序的另外的步骤。

6.根据权利要求1所述的方法，其中所述训练步骤包括通过查询所述文本储存库来生成与所述给定仿真陈述类别大致相关的文档集合。

7.根据权利要求2所述的方法，其中给定仿真陈述类别的示例性实例被视为对所述文本储存库进行的所述搜索的输入查询。

8.根据权利要求7所述的方法，其中强烈相关的示例性实例被视为对所述文本储存库进行的所述搜索的输入查询。

9.根据权利要求6所述的方法，其中所述训练步骤还包括对与所述给定仿真陈述类别大致相关的所述文档集合追加与所述给定仿真陈述类别强烈相关的手动生成文档的集合。

10.根据权利要求4所述的方法，其中所述实体在所述句子中被相关联的注释类型所代替。

11.根据权利要求4所述的方法，包括：在所述注释步骤后且在所述分类步骤前，通过选择包含具有预定顺序的所述实体的预定实体组合的句子来过滤所述句子的另外的步骤。

12.根据权利要求4所述的方法，其中所述收集步骤包括使用搜索短语执行对所述文本储存库的搜索，其中所述文档被所述搜索的结果所引用，并且所述方法包括：在所述注释步骤后且在所述分类步骤前，通过仅选择包含所述搜索短语的所述句子来过滤所述句子的另外的步骤。

13.根据权利要求5所述的方法，包括基于被应用于与每个仿真陈述相关联的片断的评分功能对所述仿真陈述排序的另外的步骤。

14.根据权利要求13所述的方法，其中基于被分配给每个仿真陈述的分数来完成所述排序，其中所述分数是当分类所述句子时应用的信用分值的函数。

15.根据权利要求13所述的方法，包括在在所述分类步骤执行前，根据所述给定仿真陈述类别来注释所述句子中实体的另外的步骤，且在所述排序步骤期间，与各个实体相关的所有仿真陈述被分组，从而把总分分配给各个实体，其中所述总分为所述评分功能的基础。

16.如权利要求15所述的方法，其中分配给各个实体的所述总分是与各个实体相关的仿真陈述的数量的函数。

17.如权利要求15所述的方法，其中分配给各个实体的所述总分是由与仿真陈述相关联的信用分值进行加权的每个相关仿真陈述的实例的数量的函数。

18.根据权利要求15所述的方法，其中分配给各个实体的所述总分是在每个相关仿真陈述中使用的语言的函数。

19.一种用于从文本储存库中提取与给定仿真陈述类别相关联的仿真陈述的装置，所述装置包括：

用于训练分类器识别与所述给定仿真陈述类别有关的仿真陈述的装置；

用于从文本储存库中收集与所述给定仿真陈述类别有关的文档或文档摘要的装置；

用于从所述文档或所述文档摘要中提取与所述给定仿真陈述类别有预定关系的句子的装置；以及

用于在干扰环境中通过用所述分类器提取包含与所述给定仿真陈述类别有关的短语的片断来分类所述句子的装置，所述被提取的片断是与所述给定仿真陈述类别相关联的所述仿真陈述。