CN101470699A

CN101470699A - 信息提取模型训练装置、信息提取装置和信息提取系统及其方法

Info

Publication number: CN101470699A
Application number: CNA2007103066227A
Authority: CN
Inventors: 吴根清; 靳简明
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd
Priority date: 2007-12-28
Filing date: 2007-12-28
Publication date: 2009-07-01
Anticipated expiration: 2027-12-28
Also published as: CN101470699B

Abstract

本发明提供一种信息提取模型训练装置，包括：IES模型训练单元，用于利用语料来生成IES模型训练集和MRE规则训练集，并根据IES模型训练集和MRE规则训练集生成训练后的IES模型；以及MRE规则训练单元，用于利用语料和MRE规则训练集生成训练后的MRE规则库。此外，本发明提供了一种用于从文本段中提取实例集的信息提取装置，一种信息提取模型训练方法和信息提取方法，以及包括该信息提取模型训练装置和信息提取装置的系统和方法。通过本发明，可以精确、快速地从大量信息中查找出所需信息。

Description

信息提取模型训练装置、信息提取装置和信息提取系统及其方法

技术领域

本发明涉及自然语言处理的技术领域，更具体地，涉及一种信息提取模型训练装置及其方法、一种信息提取装置及其方法、一种包括信息提取模型训练装置和信息提取装置的信息提取系统及其方法。

背景技术

信息提取是一种信息检索方式，目的在于从非结构的机器可读文件中提取结构化或半结构化的信息。信息提取的重要性取决于非结构形式的可利用信息的增长量，例如，因特网上的成千上万的网页决定了信息提取技术的重要性。然而，从海量的语料中手工提取信息即费时又不实际可行。

例如，由于商业原因，一个商务管理者想从新闻中收集其公司的竞争者的所有供货商。以手工方式实现的信息提取步骤如下：首先，创建竞争者列表；第二，下载由搜索引擎搜索到的与列表中的公司有关的新闻；第三，认真的读取每一条新闻，以找到是否涉及任意一个竞争者的供货商。上述的每一步骤都是非常耗费人力和耗费时间的，因此，能够从非结构化文件中提取预定信息的方法将是非常有用的。

通常，信息提取的结构可以划分为两种方法，手工结构和基于机器学习的结构。

手工的结构化信息提取系统通常由专家来构造。该结构化系统的精确率和效率较好。但是，所采用的规则必须由特定领域的专家构造，以及针对该特定领域构造的结构处理并不一定适用于其它领域。

基于机器学习的系统是由各种机器学习技术构造的，例如，符号学习，归纳逻辑规划，分装器归纳，统计方法以及语法归纳。从带标签的数据中学习该系统的规则或模型。对于所有的信息提取系统来说，该学习过程相同，但是学习的数据通常是由不同的人出于不同的目的来标记的。

申请US2006161531提供了一种从以半结构化或非结构化格式写入的数据集(例如，自然语言文本)中提取与预定上下文有关的信息的方法和系统。与预定上下文有关的该信息按照预定的结构设置存储在信息存储器中。此外，将提取的信息中的各个数据值依据其与预定上下文的属性的相关性分配权重。向结构化信息分配权重的操作提供了用于比较多个结构化设置的信息与预定的上下文的属性的相关性的方法。

申请JP2006244262提出了一种系统，用于以高精确率检索对问句的示例应答句子。会话单元候选生成装置执行形态学分析以及问句的文法分析以生成会话单元中的候选实例。会话单元提取装置将存储在存储装置中的会话单元提取规则应用于会话单元中的候选实例，并从问句中提取会话单元。示例数据寄存器装置将从问句示例中提取的多个会话单元以及问句和应答句子寄存在存储装置中。示例问题应答句子数据检索装置为每一个新的问句的每一个特定会话单元检索具有与来自存储装置的特定会话单元相同的会话类型的特定会话单元的示例问题应答句子。相互问句比较装置根据句子之间的相似度来确定检索的示例问题应答句子的问句和新的问句是否是与类似内容有关的问句。

发明内容

为了解决现有技术中存在的上述问题，提出了本发明。从而能够精确地训练信息提取模型，以及可以以很高的效率和较高的精确度从海量语料中提取预定信息。

根据本发明第一方面，提出了一种信息提取模型训练装置，包括：

IES模型训练单元，用于利用语料来生成IES模型训练集和MRE规则训练集，并根据IES模型训练集和MRE规则训练集生成训练后的IES模型；以及

MRE规则训练单元，用于利用语料和MRE规则训练集生成训练后的MRE规则库。

根据本发明第二方面，提出了一种信息提取模型训练装置，包括：

MRE规则训练单元，用于利用语料来生成第一IEA模型训练集；以及

IEA模型训练单元，用于利用语料来生成第二IEA模型训练集以及第一MRE规则训练集，并根据第一和第二IEA模型训练集以及第一MRE训练集生成训练后的IEA模型；

其中，MRE规则训练单元根据第一MRE规则训练集生成训练后的MRE模型。

根据本发明的第三方面，提出了一种信息提取模型训练装置，包括：

IES模型训练单元，用于利用语料来生成IES模型训练集和第一MRE规则训练集；以及

MRE规则训练单元，用于利用语料和MRE规则训练集生成第一IEA模型训练集；

IEA模型训练单元，用于利用语料来生成第二IEA模型训练集以及第二MRE规则训练集；

其中MRE规则训练单元根据第一MRE规则训练集和第二MRE规则训练集生成训练后的MRE规则库，IES模型训练单元用于根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型；IEA模型训练单元用于根据IEA模型训练集以及第一和第二MRE规则训练集生成训练后的IEA模型。

根据本发明第四方面，提出了一种信息提取模型训练方法，包括：

IES模型训练步骤，利用语料来生成IES模型训练集和MRE规则训练集，并根据IES模型训练集和MRE规则训练集生成训练后的IES模型；以及

MRE规则训练步骤，利用语料和MRE规则训练集生成训练后的MRE规则库。

根据本发明第五方面，提出了一种信息提取模型训练方法，包括：

MRE规则训练步骤，利用语料来生成第一IEA模型训练集库；以及

IEA模型训练步骤，利用语料来生成第二IEA模型训练集以及第一MRE规则训练集，并根据第一和第二IEA模型训练集以及第一MRE训练集生成训练后的IEA模型；

其中，MRE规则训练步骤根据第一MRE规则训练集生成训练后的MRE模型。

根据本发明第六方面，提出了一种信息提取模型训练方法，包括：

IES模型训练步骤，利用语料来生成IES模型训练集和第一MRE规则训练集；以及

MRE规则训练步骤，利用语料和MRE规则训练集生成第一IEA模型训练集；

IEA模型训练步骤，利用语料来生成第二IEA模型训练集以及第二MRE规则训练集；

其中MRE规则训练步骤根据第一MRE规则训练集和第二MRE规则训练集生成训练后的MRE规则库，IES模型训练步骤根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型；IEA模型训练步骤是用于根据IEA模型训练集以及第一和第二MRE规则训练集生成训练后的IEA模型。

根据本发明第七方面，提出了一种用于从文本段中提取实例集的信息提取装置，包括

IES，用于基于IES模型从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例并提供给MRE；

MRE，用于基于MRE规则库将候选实例分别与预定的第1至第N级规则进行匹配，并将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应的实例集中；

其中，MRE通过向IES提供调整参数来动态地调整IES精确率和IES召回率至少之一。

根据本发明第八方面，提出了一种用于从文本段中提取实例集的信息提取装置，包括：

MRE，用于基于MRE规则库将语料中经过分段的文本段分别与预定的第1至第N级规则进行匹配，并将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应实例集中，以及将与不确定级规则匹配的候选实例作为不确定实例提供给IEA；以及

IEA，用于基于IEA模型从不确定实例中选出表述了预定信息的实例并添加到第N+1个实例集中；

其中，MRE通过向IEA提供调整参数来动态地调整IEA精确率以及IEA召回率中的至少之一。

根据本发明第九方面，提出了一种用于从文本段中提取实例集的信息提取装置，包括

IES，用于基于IES模型从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例；

MRE，用于基于MRE规则库将来自IES的候选实例分别与预定的第1至第N级规则进行匹配，并将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应实例集中，其中将与不确定级规则匹配的候选实例作为不确定实例提供给IEA；以及

其中，MRE通过向IES和IEA中的至少之一提供调整参数来动态地调整IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。

根据本发明第十方面，提出了一种用于从文本段中提取实例集的信息提取方法，包括

利用IES模型IES从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例并提供给MRE；

基于MRE规则库MRE将候选实例分别与预定的第1至第N级规则进行匹配；并将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应的实例集中；以及

MRE向IES提供调整参数来动态地调整IES精确率和IES召回率至少之一。

根据本发明第十一方面，提出了一种用于从文本段中提取实例集的信息提取方法，包括：

利用MRE规则库MRE将语料中经过分段的文本段分别与预定的第1至第N级规则进行匹配，并将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应实例集，以及将与不确定级规则匹配的候选实例作为不确定实例提供给IEA；

基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并添加到第N+1个实例集中；以及

MRE通过向IEA提供调整参数来动态地调整IEA精确率以及IEA召回率中的至少之一。

根据本发明第十二方面，提出了一种用于从文本段中提取实例集的信息提取方法，包括

基于IES模型IES从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例；

利用MRE规则库MRE将来自IES的候选实例分别与预定的第1至第N级规则进行匹配，将与相应级规则匹配的候选实例分别添加到第1至第N个实例集的相应实例集中，其中将与不确定级规则匹配的候选实例作为不确定实例提供给IEA；

基于IEA模型IEA从不确定实例中选出表述了预定信息的实例并添加到第N+1个实例集中；

MRE通过向IES和IEA中的至少之一提供调整参数来动态地调整IES精确率、IES召回率、IEA精确率以及IEA召回率中的至少之一。

以及本发明提出一种包括信息提取模型训练装置和信息提取装置的信息提取系统和信息提取方法。

附图说明

图1是示出了根据本发明的用于训练信息提取模型和提取信息的系统的硬件示意图；

图2是示出了根据本发明的信息提取模型训练装置和信息提取装置之间的交互关系的示意图；

图3a是示出了根据本发明第一实施例的信息提取模型训练装置的示意图；

图3b是示出了根据本发明第二实施例的信息提取模型训练装置的示意图；

图3c是示出了根据本发明第三实施例的信息提取模型训练装置的示意图；

图4a—4c是分别示出了根据本发明第一实施例的信息提取模型训练装置的各个部件执行信息提取模型训练的流程图；

图5a是示出了根据本发明第一实施例的信息提取装置的示意图；

图5b是示出了根据本发明第二实施例的信息提取装置的示意图；

图5c是示出了根据本发明第三实施例的信息提取装置的示意图；

图6是示出了已知的信息提取分类器的示意图；

图7a是示出了根据本发明的MRE的示意结构图；

图7b是示出了多级规则的示例表。

图8是示出了根据本发明第一实施例的信息提取方法的流程图；

图9示出了应用本发明的系统的一个示意结构图。

具体实施方式

下面，将参考附图描述本发明的优选实施例。在附图中，相同的元件将由相同的参考符号或数字表示。此外，在本发明的下列描述中，将省略对已知功能和配置的具体描述，以避免使本发明的主题不清楚。

图1是示出了根据本发明的用于训练信息提取模型和提取信息的系统的硬件结构图。其中08指示了该系统的关键部件。所述系统包括CPU 01，用于对应用程序提供计算功能；内部总线05，所述系统通过内部总线05在内存06和永久存储器07(可以是硬盘和闪存)之间交换数据；输入装置03，例如可以是用于按键输入的键盘或用于语音输入的麦克风等等；输出装置04和辅助组件02。存储器07存储有操作系统文件071，信息提取装置文件073，信息提取模型训练装置文件074，提取的信息实例911，训练语料902，信息提取模型913以及辅助系统工作的其它文件072。所述内存06包括操作系统061，信息提取装置063，信息提取模型训练装置064以及其它的应用程序062。

图2示出了图1所示的信息提取模型训练装置和信息提取装置之间的交互关系。信息提取模型训练装置064用于根据训练语料902训练信息提取模型913，并将训练后的信息提取模型913提供给信息提取装置063使用。信息提取装置063通过使用信息提取模型913从输入的语料901中提取出所需的信息实例911。

虽然图1示出了该系统的硬件结构图中包括信息提取装置063和信息提取模型训练装置064，该系统可以仅包括利用信息提取模型来进行信息提取的信息提取装置063，或者只包括用于生成信息提取模型的信息提取模型训练装置064。下面将结合附图分别对信息提取装置063和信息提取模型训练装置064进行描述。

参考图3a，根据本发明第一实施例的信息提取模型训练装置包括：用于训练IES模型的IES(Information Extraction Sifter，信息提取筛选器)模型训练单元220，用于训练MRE规则数据库的MRE(Multi-levelrule based extractor，基于多级规则的提取器)规则训练单元330以及用于训练IEA模型的IEA(Information Extraction Arbiter，信息提取仲裁器)模型训练单元440。首先，IES模型训练单元220，MRE规则训练单元330以及IEA模型训练单元440可以利用训练集-I9021、训练集-II9022和训练集-III 9023对IES模型、MRE规则和IEA模型进行训练，得到初始IES模型9131，MRE规则9132和IEA模型9133。但是，也可以使用训练好的初始IES模型，MRE规则和IEA模型。训练集-II 9022和训练集-III 9023初始可以为空集合。可以利用训练集-I 9021训练初始的IES模型，MRE规则和IEA模型。之后，由IES模型训练单元220，MRE规则训练单元330以及IEA模型训练单元440对上述训练集进行训练，从而分别生成所需的IES模型，MRE规则和IEA模型。

图4a—4c是分别示出了根据本发明第一实施例的信息提取模型训练装置的各个部件如何执行信息提取模型训练的流程图。

图4a示出了IES模型训练单元220如何生成训练集-I 9021，训练集-II 9022的流程图。参考图4a，首先，在S401，IES模型训练单元220利用初始的IES模型从语料9024中选择所有可能的表述了预定信息的文本段作为IES接受的样本。该初始的IES模型可以利用IES模型训练样本和IES模型训练参数在IES模型的训练过程中产生。在本实施例中，IES可以是一个分类器IEC(Information Extraction Classifier)。

在S402，将IES模型训练单元220在S401中选出的所有样本进行手工标记：将表述了预定信息的样本标记为正类的样本，而将没有表述预定信息的样本标记为负类的样本。

在S403，将手工标记后的所有样本添加到训练集-II 9022，用于提高IES的召回率和精确率。其中IES精确率的定义为：IES正确分为正类的文本的数目/IES分类正类的文本的数目*100％。IES的召回率定义为：IES正确分为正类的文本的数目/正类文本的数目*100％。

在S404，为了优化MRE规则训练单元330的训练集-I9021，使得训练集-I9021能够识别出MRE规则训练单元330选出的全部样本，IES模型训练单元220将MRE规则训练单元标记的样本与手工标记的样本不一致的样本作为错误识别的样本添加到训练集-I 9021，用于提高MRE的精确率。

图4b示出了MRE规则训练单元330如何生成训练集-II 9022的流程图。参考图4b，首先，在S421，由MRE规则训练单元330利用初始的MRE规则数据库9132从语料9024中选择所有可能的未表述预定信息的文本段，作为MRE接受的样本。该初始的MRE规则数据库可以利用MRE规则训练样本在MRE规则训练过程中产生。

在S422，将MRE在S421选出的所有样本进行手工标记：将表述预定信息的文本段标识为正类，而将没有表述预定信息的文本段标记为负类。之后，在S423，将MRE规则训练单元330接受的样本与手工标记的样本不一致的样本作为错误识别的样本添加到训练集-III 9023，以改进IEA的精确率。

图4c示出了IEA模型训练单元440如何生成训练集-I 9021，训练集-II 9022和训练集-III 9023的流程图。参考图4c，首先，在S431，IEA模型训练单元440利用初始的IEA模型从语料9024中选择所有可能的表述了预定信息的文本段作为IEA接受的样本。该初始的IEA模型可以利用IEA模型训练样本和IEA模型训练参数在IEA的训练过程中产生。IEA可以是一个信息提取分类器IEC。

在S432，将IEA模型训练单元440在S431中选出的所有样本进行手工标记：将表述了预定信息的样本标记为正类的样本，而将没有表述预定信息的样本标记为负类的样本。

在S433，将手工标记后的所有样本添加到训练集-III 9023，用于提高IEA的召回率和精确率。其中，IEA的精确率的定义为：IEA正确分为正类的文本的数目/IEA分类正类的文本的数目*100％。IEA召回率的定义为：IEA正确分为正类的文本的数目/正类文本的数目*100％

在S434，为了优化MRE规则训练单元330的训练集-I，使得训练集-I 9021能够识别出MRE规则训练单元330选出的全部样本，IEA模型训练单元440将MRE规则训练单元标记的样本与手工标记的样本不一致的样本作为错误识别的样本添加到训练集-I 9021，用于提高MRE的精确率。

最后，在获得了最终的训练集-I 9021，训练集-II 9022和训练集-III9023之后，IES模型训练单元220根据训练集-I 9021和训练集-II 9022生成IES模型9131，MRE规则训练单元330根据训练集-I 9021生成MRE规则库9132，IEA模型训练单元440根据训练集-III 9023和训练集-I 9021生成IEA模型9133。

图3b示出了根据本发明第二实施例的信息提取模型训练装置。图3b和3a的区别在于信息提取模型训练装置仅包括IES模型训练单元220和MRE规则训练单元330。IES模型训练单元220执行的步骤与图4a所示的类似，这里仅简单描述。IES模型训练单元220将MRE错误识别的样本添加到训练集-I 9021，以提高MRE的精确率，并将手工标记后的全部样本添加到训练集-II 9022，以提高IES的召回率和精确率。MRE规则训练单元330利用初始的MRE规则数据库9132从语料9024中选择所有可能的未表述预定信息的文本段，作为MRE接受的样本。该初始的MRE规则数据库可以利用MRE规则训练样本在MRE规则训练过程中产生。之后，MRE对选出的所有样本进行手工标记：将表述预定信息的文本段标识为正类，而将没有表述预定信息的文本段标记为负类。MRE规则训练单元330将接受的样本与手工标记的样本不一致的样本作为错误识别的样本添加到训练集-I 9021。最后，IES模型训练单元220基于训练集-II 9022和训练集-I 9021生成IES模型，而MRE规则训练单元330基于训练集-I 9021生成MRE规则数据库。

图3c示出了根据本发明第三实施例的信息提取模型训练装置。图3c和3a的区别在于信息提取模型训练装置仅包括MRE规则训练单元330和IEA模型训练单元440。MRE规则训练单元330和IEA模型训练单元440执行的步骤与图4b和4c所示的类似，这里仅简单描述。MRE规则训练单元330将其错误识别的所有样本添加到训练集-III 9023，以提高IEA的精确率。IEA模型训练单元440将MRE错误识别的样本添加到训练集-I 9021，以提高MRE的精确率，并将手工标记后的全部样本添加到训练集-III 9023，以提高IEA的召回率和精确率。最后，IEA模型训练单元440基于训练集-III 9023和训练集-I 9021生成IEA模型，而MRE规则训练单元330基于训练集-I9021生成MRE规则数据库。

在得到例如图4a训练获得的IES模型，MRE规则库以及IEA模型之后，信息提取模型训练装置可以利用上述训练模型来提取信息。由于这些模型经过训练而被优化，所以能够更准确地提取出所需的信息。虽然本发明采用了手工标记的方式对样本进行标记，也可以采用其它的标记方式，或者采用已经标记好的样本等，只要是能够获得正确标记的样本。

图5a示出了根据本发明第一实施例的信息提取装置。该信息提取装置包括信息提取模型913，所述的信息提取模型913包括IES模型9131，MRE规则库9132以及IEA模型9133；文本段数据库912，包括：IES拒绝的文本段9121，MRE拒绝的文本段9122以及IEA拒绝的文本段9123；用于对输入的语料进行分段的语料分段器1；利用IES模型用于从文本段提取信息的IES 2；利用MRE规则库中的多级规则对信息进行提取的MRE 3；以及利用IEA模型进行信息提取的IEA4，其中MRE3通过向IES 2和IEA 4分别提供调整数据981和982来动态调整IES 2和IEA 4的性能。

在本实施例中，IES2可以是一个信息提取分类器IEC。IES2应该具有较高的召回率以及可接受的精确率，从而可以从输入语料中挑选出候选实例，其中对于IEC，精确率的定义＝IEC正确分为正类的文本的数目/IEC分类为正类的文本的数目*100％，召回率的定义＝IEC正确分为正类的文本的数目/正类文本的数目*100％。可以通过向IES 2提供不同的参数来分别改变IES 2的精确率和召回率(要定义)。例如，使用风险参数来调整IES 2的精确率和召回率。IEA 4也可以是一个信息提取分类器，IEA 4具有较高的精确率以及可接受的召回率，从而IEA 4可以确保提取的信息实际上是预定义的信息实例。可以通过向IEA 4提供不同的参数来分别改变IEA4的精确率和召回率。例如，使用风险参数来调整IEA 4的精确率和召回率。IEA 2和IEA 4的结构可以相同，但是各自的训练参数和训练数据不同。

图6示出了已知的信息提取分类器IEC 5的一个示例。IEC是一个两类文本信息分类器，根据文本分类模型把输入的文本分成正、负两类，正类表示输入文本包含预定义的信息，负类表示输入文本不包含预定义的信息。IEC的输入包括：一系列的文本段591，文本分类模型592，外部文本分类参数593。IEC的输出包括：IEC分类为-1的文本段作为拒绝的文本段581，IEC分类为+1的文本段作为接受的文本段582。

文本分类模型592例如包括文本分类特征和内部文本分类参数。在输入了外部文本分类参数593之后，IEC5修改文本分类模型592中的内部分类参数。之后，每次在IEC5读入一条文本时，利用文本分类模型592对读取的文本进行分类。例如，如果预定义的信息是：A和B公司之间的竞争关系，那么IEC5就会对表述了公司之间的竞争关系的文本标记为正类，否则标记为负类。

一个具体的IEC可以用一个两类支撑向量机SVM(Support VectorMachine)分类器来实现。SVM分类器可以使用SVMLIGHT训练生成，特征采用TF-IDF特征，文本分类模型中所包含的文本分类特征可以包括支撑向量，松弛变量等内容，内部文本分类参数可以是SVM的训练参数，比如风险参数等。

图7a示出了MRE 3的一个示意图。MRE3包括：1级规则匹配单元21，2级规则匹配单元22直到n级规则匹配单元23n，以及未确定级规则匹配单元24。MRE 3还可以包括多级规则数据库9132，该多级规则数据库包括1级规则91321，2级规则91322直到n级规则91323，以及不确定级规则91324。MRE3将候选实例(也可以是文本段)分别与1级规则匹配单元21，2级规则匹配单元22直到n级规则匹配单元23n，以及不确定级规则匹配单元24匹配，并将匹配成功的候选实例分别作为实例集19111，实例集29112，...实例集n9113以及不确定实例集923中的相应的实例集。

图7b示出了用于识别一句话是否表述了两个公司之间是竞争者的多级规则数据库的一个实例。标签<SUB1>表示第一个公司的名称，而标签<SUB2>表示第二个公司的名称。标签<MODIFIER_1>表示0～1个任意词(包括数字等)，标签<MODIFIER_10>表示0～10个任意词，以及标签<COMPETE>表示具有竞争含义的任意词。图7b的示例表示出了三级规则：1级规则，2级规则，以及不确定级规则。MRE3可以利用规则匹配单元将图7b的规则与输入的文本进行匹配，从而获得所需的信息。

下面将参考图5a和图8具体描述根据本发明第一实施例的信息提取方法。在S801，输入语料。在S802，由语料分段器1将语料分段为文本段，分段后的文本段可以是一个短语，一个句子，或一个段落。在S803，由IES2根据IES模型9131对所有的输入文本段进行过滤。IES2将没有表述预定信息的文本段放入拒绝的文本段数据库9121中，将表述了预定信息的所有文本段作为候选实例提供给MRE3。在S804，MRE3将候选实例与MRE数据库9132中的规则进行匹配。MRE规则库9132中已有的多级规则已经分类为不同的级别，具有更低等级的规则具有更高的优先级和可信度。MRE首先将候选实例与较低等级的规则进行匹配。与1级规则匹配的候选实例被添加到实例集9111，与2级规则匹配的候选实例被添加到实例集9112，而与n级规则匹配的候选实例被添加到实例集N9133，MRE将这些可以匹配的候选实例作为接受的实例，而将与不确定级规则匹配的候选实例作为不确定实例集923输出。在S805，MRE确定是否需要对IES和IEA进行调整，如果需要，则进行相应的调整。具体地，当MRE的拒绝率(拒绝的实例数目与输入的候选实例数目之间的比率)大于第一预定值时，MRE将利用一个用于增加精确率的调整参数981来通知IES2增加精确率。如果MRE的接受率(接受的实例数目与输入的候选实例数目之间的比率)大于第二预定值时，MRE3将利用一个用于增加召回率的调整参数981来通知IES2增加召回率。当MRE3的不确定率(不确定实例的数目与接受的实例数目之间的比率)大于第三预定值时，MRE3将利用一个用于增加召回率的调整参数982通知IEA4增加召回率。如果MRE3的不确定实例接受率(接受的实例数目与不确定的实例数目之间的比值)大于第四预定值时，MRE3将利用一个用于增加精确率的调整参数982来通知IEA4增加精确率。上述的调整参数可以是风险参数。本领域的技术人员可以根据算法的不同采用不同的调整参数以及可以根据需要对第一至第四预定值进行设置。可以使用SVMLIGHT中的—j参数来调整风险参数，以获得上述调整参数981和982。

之后，在S806，由IEA4根据IEA模型9133判断每个不确定的候选实例是否表述了预定信息。如果没有，则IEA4将拒绝该不确定的候选实例，将其放入拒绝的文本段9123。如果是，则将接受该不确定的候选实例并添加到实例集9114中。此后，如果还有未处理的文本，则重复执行S803—S806，从而获得了多个实例集。

由于在运行阶段，由MRE3向IES2和IEA4动态地提供调整数据，以调整IES2和IEA4的精确率和召回率中的至少一个，从而能够增加对输入的文本的分析的精确度和准确率。

图5b是根据本发明第二实施例的信息提取装置。参考图5b，其与图5a的区别在于该信息提取装置仅包括语料分段器1，IES2以及MRE3，而不包括IEA4。MRE3将从IES2输出的候选实例与多级规则数据库匹配，并生成相应的实例集。此外，MRE3动态地向IES2提供用于调整IES2的精确率和召回率的调整参数。其提取信息的方法与图8所示的流程图中对应的部分类似。

图5c是根据本发明第三实施例的信息提取装置。参考图5c，其与图5a的区别在于该信息提取装置仅包括语料分段器1，MRE 3，以及IEA 4而不包括IES 2。MRE3将输入的候选实例与多级规则数据库匹配，并生成相应的实例集。此外，MRE3动态地向IEA4提供用于调整IEA4的精确率和召回率的调整参数。其提取信息的方法与图8所示的流程图中对应的部分类似。

图9示出了应用本发明的信息提取模型训练装置和信息提取装置的系统的一个示例。该系统用于从因特网新闻中提取公司之间的商业关系(例如，竞争，合作，等)。

在训练阶段，由信息提取模型训练装置根据训练语料来训练商业关系提取模型。在提取信息阶段，使用浏览器从因特网下载新闻，作为语料，信息提取装置根据训练的信息提取模型从下载的新闻(语料)提取商业关系实例。之后，向用户呈现提取的信息实例。

尽管已经参照具体实施例，对本发明进行了描述，但本发明不应当由这些实施例来限定，而应当仅由所附权利要求来限定。应当清楚，在不偏离本发明的范围和精神的前提下，本领域普通技术人员可以对实施例进行改变或修改。

Claims

1.一种信息提取模型训练装置，包括：

2.如权利要求1所述的信息提取模型训练装置，其中

IES模型训练单元基于初始的IES模型，将语料中表述了预定信息的文本作为IES模型训练单元接受的样本，并对其进行标记作为IES模型训练样本放入IES模型训练集中；以及将MRE规则训练单元对所述IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入MRE规则训练集中。

3.如权利要求1所述的信息提取模型训练装置，其中：

MRE规则训练单元基于初始的MRE规则库，将语料中未表述预定信息的文本作为MRE规则训练单元接受的样本，并对其进行标记，之后将MRE错误识别的样本放入MRE规则训练集中。

4.一种信息提取模型训练装置，包括：

5.如权利要求4所述的信息提取模型训练装置，还包括：

IES模型训练单元，用于利用语料来生成IES模型训练集和第二MRE规则训练集，并根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型，其中MRE规则训练单元根据第一MRE规则训练集和第二MRE规则训练集生成训练后的MRE模型。

6.如权利要求4所述的信息提取模型训练装置，其中：

MRE规则训练单元基于初始的MRE规则库，将语料中未表述预定信息的文本作为MRE规则训练单元接受的样本，并对其进行标记后将MRE规则训练单元错误识别的样本为IEA模型训练样本放入第一IEA模型训练集中。

7.如权利要求4所述的信息提取模型训练装置，其中

IEA模型训练单元基于初始的IEA模型训练模型，将语料中表述了预定信息的文本作为IEA模型训练单元接受的样本，并对其进行标记作为IEA模型训练样本放入第二IEA模型训练集中；以及将MRE规则训练单元对所述IEA模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入第一MRE规则训练集中。

8.如权利要求5所述的信息提取模型训练装置，其中

IES模型训练单元基于初始的IES模型，将语料中表述了预定信息的文本作为IES模型训练单元接受的样本，并对其进行标记作为IES模型训练样本放入IES模型训练集中；以及将MRE规则训练单元对所述IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入第二MRE规则训练集中。

9.一种信息提取模型训练装置，包括：

10.一种信息提取模型训练方法，包括：

11.如权利要求10所述的信息提取模型训练方法，其中IES模型训练步骤还包括步骤：

基于初始的IES模型，将语料中表述了预定信息的文本作为IES模型训练步骤接受的样本，并对其进行标记作为IES模型训练样本放入IES模型训练集中；以及将MRE规则训练步骤对所述IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入MRE规则训练集中。

12.如权利要求10所述的信息提取模型训练方法，其中

MRE规则训练步骤还包括步骤：

基于初始的MRE规则库，将语料中未表述预定信息的文本作为MRE规则训练步骤接受的样本，并对其进行标记，之后将MRE规则训练步骤错误识别的样本放入MRE规则训练集中。

13.一种信息提取模型训练方法，包括：

14.如权利要求13所述的信息提取模型训练方法，还包括：

IES模型训练步骤，IES模型训练步骤利用语料来生成IES模型训练集和第二MRE规则训练集，并根据IES模型训练集以及第一和第二MRE规则训练集生成训练后的IES模型，其中MRE规则训练步骤根据第一MRE规则训练集和第二MRE规则训练集生成训练后的MRE模型。

15.如权利要求13所述的信息提取模型训练方法，其中

MRE规则训练步骤还包括步骤：

基于初始的MRE规则库，将语料中未表述预定信息的文本作为MRE规则训练步骤接受的样本，并对其进行标记后将MRE规则训练步骤错误识别的样本为IEA模型训练样本放入第一IEA模型训练集中。

16.如权利要求13所述的信息提取模型训练方法，其中

IEA模型训练步骤还包括步骤：

基于初始的IEA模型训练模型，IEA模型训练步骤将语料中表述了预定信息的文本作为IEA模型训练步骤接受的样本，并进行标记作为IEA模型训练样本放入第二IEA模型训练集中；以及将MRE规则训练步骤对所述IEA模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入第一MRE规则训练集中。

17.如权利要求14所述的信息提取模型训练方法，其中

IES模型训练步骤还包括步骤：

IES模型训练步骤基于初始的IES模型，将语料中表述了预定信息的文本作为IES模型训练步骤接受的样本，并对其进行标记作为IES模型训练样本放入IES模型训练集中；以及将MRE规则训练步骤对所述IES模型训练样本进行识别所获得的错误识别样本作为MRE规则训练样本放入第二MRE规则训练集中。

18.一种信息提取模型训练方法，包括：

19.一种用于从文本段中提取实例集的信息提取装置，包括

20.如权利要求19所述的信息提取装置，其中

IES是一个信息提取分类器IEC。

21.如权利要求19所述的信息提取装置，其中

MRE包括N级规则匹配器。

22.如权利要求19所述的信息提取装置，其中

MRE在候选实例拒绝率大于第一预定值时，利用第一调整参数向IES通知增加IES精确率；以及

MRE在候选实例接受率大于第二预定值时，利用第二调整参数向IES通知增加IES召回率。

23.一种用于从文本段中提取实例集的信息提取装置，包括：

24.如权利要求23所述的信息提取装置，其中

MRE包括第1至第N级规则匹配器；以及

不确定级规则匹配器。

25.如权利要求23所述的信息提取装置，其中

IEA是一个信息提取分类器IEC。

26.如权利要求23所述的信息提取装置，其中

MRE在不确定实例拒绝率大于第三预定值时，利用第三调整参数向IEA通知增加IEA精确率；以及

MRE在不确定实例接受率大于第四预定值时，利用第四调整参数向IEA通知增加IEA召回率。

27.一种用于从文本段中提取实例集的信息提取装置，包括

28.如权利要求27所述的信息提取装置，其中

IES和IEA分别是一个信息提取分类器IEC。

29.如权利要求27所述的信息提取装置，其中

MRE包括N级规则匹配器；以及

不确定级规则匹配器。

30.如权利要求27所述的信息提取装置，其中

MRE在候选实例拒绝率大于第一预定值时，利用第一调整参数向IES通知增加IES精确率；

MRE在候选实例接受率大于第二预定值时，利用第二调整参数向IES通知增加IES召回率；

31.一种用于从文本段中提取实例集的信息提取方法，包括

基于IES模型IES从语料中经过分段的文本段中选出表述了预定信息的文本段作为候选实例并提供给MRE；

32.如权利要求31所述的信息提取方法，其中MRE提供调整参数来执行动态调整的步骤包括：

在候选实例拒绝率大于第一预定值时，MRE利用第一调整参数向IES通知增加IES精确率；以及

在候选实例接受率大于第二预定值时，MRE利用第二调整参数向IES通知增加IES召回率。

33.一种用于从文本段中提取实例集的信息提取方法，包括：

34.如权利要求33所述的信息提取方法，其中MRE提供调整参数来执行动态调整的步骤包括：

在不确定实例拒绝率大于第三预定值时，MRE利用第三调整参数向IEA通知增加IEA精确率；以及

在不确定实例接受率大于第四预定值时，MRE利用第四调整参数向IEA通知增加IEA召回率。

35.一种用于从文本段中提取实例集的信息提取方法，包括

36.如权利要求35所述的信息提取方法，MRE提供调整参数来执行动态调整的步骤包括：

在候选实例拒绝率大于第一预定值时，MRE利用第一调整参数向IES通知增加IES精确率；

在候选实例接受率大于第二预定值时，MRE利用第二调整参数向IES通知增加IES召回率；

37.一种信息提取系统，包括

根据权利要求1或4或9所述的信息提取模型训练装置；以及

根据权利要求19，23和27之一所述的信息提取装置。

38.一种信息提取方法，包括

根据权利要求10或13或18所述的信息提取模型训练方法；以及

根据权利要求31或33或35所述的信息提取方法。