CN106844413B

CN106844413B - 实体关系抽取的方法及装置

Info

Publication number: CN106844413B
Application number: CN201610997671.9A
Authority: CN
Inventors: 吴刚
Original assignee: Nanjing Keji Data Technology Co ltd
Current assignee: Nanjing Keji Data Technology Co ltd
Priority date: 2016-11-11
Filing date: 2016-11-11
Publication date: 2020-12-08
Anticipated expiration: 2036-11-11
Also published as: CN106844413A

Abstract

本发明实施例公开了一种实体关系抽取的方法，包括：确定给定文本的目标实体关系词，给定文本包括与预定实体相关的信息；识别给定文本中的除预定实体之外的实体，并存储形成实体库；基于预定特征根据给定文本所包含的实体库中的实体所在的句子来构建句子中的实体的特征向量；从特征向量中筛选出目标特征向量，目标特征向量指示了目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系；抽取与目标特征向量对应的实体。本发明实施例公开了一种实体关系抽取的方法及装置，能够避免泛化出错误的模式及引入错误的实体关系，能提高抽取实体关系的准确率和工作效率。

Description

实体关系抽取的方法及装置

技术领域

本发明涉及文本处理领域，尤其涉及一种实体关系抽取的方法及装置。

背景技术

随着互联网的迅猛发展，越来越多的信息以电子文本的形式用于人们的生活中，如何帮助人们在电子文本信息源中迅速找到真正需要的信息成为要解决的主要问题，由此产生了信息抽取的方法。信息抽取的主要功能是从文本中抽取出特定的事实信息，称之为实体。在一些信息抽取的应用场景中，尤其是金融领域，为了满足人们的需求，不仅要识别文本中的实体，还要确定这些实体之间的关系，即实体关系抽取，实体关系抽取对信息抽取技术的研究与应用都有重要的意义。当前实体关系抽取通常采用基于机器学习的方法，例如Bootstrapping，它首先构造实体关系的模式，例如A和B模式，A、B为两个实体，并从文本中抽取符合构造的模式的实体，然后根据新抽取的实体来对原构造的模式进行泛化，再使用泛化后的模式对文本进行新一轮抽取，如此循环操作，直到抽取的关系满足要求为止。现有技术的方法中，在对原构造的模式进行泛化时，很容易泛化出错误的模式，例如，原构造的模式为A和B，泛化出的模式为C与D、E或F，而E或F属于泛化出的错误模式，根据这些错误的模式进行实体关系抽取，就会引入错误的实体关系，循环操作可能使错误的模式延续和扩大化，从而降低抽取实体关系的准确率，降低工作效率。

发明内容

本发明实施例提供一种实体关系抽取的方法及装置，能够提高抽取实体关系的准确率，提高工作效率。

第一方面，本发明实施例提供一种实体关系抽取的方法，包括：

确定给定文本的目标实体关系词，给定文本包括与预定实体相关的信息，目标实体关系词表示除预定实体之外的实体与预定实体之间为目标实体关系的词；

识别给定文本中的除预定实体之外的实体，并存储形成实体库；

基于预定特征根据给定文本所包含的实体库中的实体所在的句子来构建句子中的实体的特征向量，预定特征包括如下特征中的至少一者：各个实体所在句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征；

从特征向量中筛选出目标特征向量，目标特征向量指示了目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系；

抽取与目标特征向量对应的实体。

第二方面，本发明实施例提供一种实体关系抽取的装置，包括：

确定单元，用于确定给定文本的目标实体关系词，给定文本包括与预定实体相关的信息，目标实体关系词表示除预定实体之外的实体与预定实体之间为目标实体关系的词；

识别单元，用于识别给定文本中的除预定实体之外的实体，并存储形成实体库；

构建单元，用于基于预定特征根据给定文本所包含的实体库中的实体所在的句子来构建句子中的实体的特征向量，预定特征包括如下特征中的至少一者：实体所在句子的特征、实体与实体所在句子中的各词之间的关系特征和各个实体的特征；

筛选单元，用于从特征向量中筛选出目标特征向量，目标特征向量指示了目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系；

实体抽取单元，用于抽取与目标特征向量对应的实体。

本发明实施例提供的实体关系抽取的方法及装置，本发明实施例中首先确定表示除预定实体之外的实体与预定实体之间为目标实体关系的目标实体关系词，保证抽取的实体满足要抽取的实体关系；对给定文本中除预定实体之外的实体进行识别，并形成实体库，以保证抽取实体的全面性；然后基于预定特征根据给定文本所包含的实体库中的实体所在的句子来构建句子中的实体的特征向量，由于预定特征包括各个实体句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征等，所以各实体对应特征向量能够准确的反映出实体所在句子表达的含义，进而可以从特征向量中筛选出对应的实体所在句子记录了对应实体与预设实体之间存在目标实体关系的目标特征向量，即目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系，从而可以得出目标特征向量对应的实体即为要抽取的实体，如此本发明可以快速、准确的通过特征向量确定出与预定实体为目标实体国信的实体，而不需要对实体关系进行模式泛化处理，可以有效的避免在实体关系抽取过程中出现错误，提高实体关系抽取的准确率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明，其中：

通过阅读以下参照附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显，其中，相同或相似的附图标记表示相同或相似的特征。

图1是根据本发明一实施例提供的实体关系抽取的方法的示意性流程图；

图2是根据图1实体关系抽取的方法中依存句法分析结果的示意图；

图3是根据本发明又一实施例提供的实体关系抽取的方法的示意性流程图；

图4是根据本发明再一实施例提供的实体关系抽取的方法的示意性流程图；

图5是根据本发明另一实施例提供的实体关系抽取的方法的示意性流程图；

图6是根据本发明一实施例提供的实体关系抽取的装置的示意性框图；

图7是根据本发明又一个或多个实施例提供的实体关系抽取的装置的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

本发明实施例适用于在给定文本中抽取与预设实体为目标实体关系的实体的场景，即在给定文本中抽取与预设实体存在某种关系的实体的场景。给定文本包括与预定实体相关的信息，即给定文本中的内容与预定实体相关，包括：预设实体发布的与其相关的文本，或者预设实体发布的只与其相关的文本。预设实体为抽取实体关系前预先设定的实体，包括组织机构、公司名称等等。例如，金融领域中对于上市公司A发布的与其相关的文本有：招股说明书、年度报告、半年度报告、季度报告、公司股份变更报告、发行证券申请、发行证券募集说明书、权益变动报告、上市公司收购报告、要约收购报告等等，本发明实施例可以以上述文本为给定文本，以A为预设实体，在上述文本中抽取与A存在合作关系、竞争关系、客户关系、供应商关系等等关系的实体。本发明实施例中所涉及的实体关系抽取表示对与发布文本的预设实体满足要抽取的目标实体关系的实体进行抽取，即抽取的为实体。

图1是根据本发明一实施例提供的实体关系抽取的方法100的示意性流程图。方法100可以用于具有计算功能的设备，例如计算机，如图1所示，所述方法100包括：步骤101、确定给定文本的目标实体关系词；步骤102、识别所述给定文本中的除所述预定实体之外的实体，并存储形成实体库；步骤103、基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量；步骤104，从所述特征向量中筛选出目标特征向量；步骤105、抽取与所述目标特征向量对应的实体。

在步骤101中，给定文本包括与预定实体相关的信息，目标实体关系词表示除预定实体之外的实体与预定实体之间为目标实体关系的词。本步骤中需要确定出本次实体关系抽取的关系词，即目标实体关系的词，确定方式不做限定。本步骤中实体关系词包括确定要抽取给定文本中实体关系的词，例如，本发明实施例要从A公司发布的招股说明书中抽取与A公司存在合作关系的公司，则实体关系词可以包括合作。

在步骤102中，本发明实施例是要抽取给定文本中与预设实体满足目标实体关系的实体，所以可以先把给定文本中存在的除预定实体之外实体识别出来。识别出的实体存储形成实体库，以便于在后续步骤中通过识别出来的实体库来确定文本中哪些词为实体。

具体的，给定文本可以为A公司发布的招股说明书，本发明实施例要抽取与A公司存在合作关系的公司，即预设实体为A，目标实体关系词为合作，则本步骤中需要识别的实体为除A之外的公司名称，即对A公司发布的招股说明书中除A之外的公司名称作为实体进行识别。

需要说明的是，本步骤中可以对识别出的实体进行标注，以便后续操作，本步骤具体识别实体的方法不做限定，例如采用CRF方法。采用CRF方法进行实体识别首先要对CRF进行训练，以包含实体的文本作为训练的样本，将其中的实体标注出来，然后对CRF进行训练，使CRF能够识别出在一个句子中什么样的词是实体。

在步骤103中，基于预定特征、对于给定文本中所包含实体库中实体的每个句子来构建每个句子中各个实体的特征向量，即对每个句子中的各个实体都会构建与各个实体对应的特征向量。如果某个实体在多个句子中出现，则应该分别构建出此实体所在每个句子的特征向量。特征向量为基于预定特征构建的，预定特征包括如下特征中的至少一者：各个实体句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征，即预定特征可以包括实体库中实体的特征、实体库中实体所在句子的特征、实体库中实体与实体库中实体所在句子中各词之间的关系特征等等。其中，实体库中实体所在语句的特征可以包括句子中是否包含预设实体(包括可以含义指代预设实体的代词)、句子中是否包含目标关系词、句子中其他词的特征、句子结构、句子的句法分析等等，实体库中实体与实体库中实体所在句子中各词之间的特征可以包括实体库中实体与其所在句子中其他词(例如，预设实体、目标实体关系词等)的位置关系、距离、目标实体关系词或实体库中实体在句子中的位置、实体在句子中与动词、介词、副词、连词等词组合的规律等等，实体库中实体的特征可以包括实体的词性、实体字符串长度等等。其中，预设实体指代词表示在句子中含义指代预设实体的词。

具体的，本发明实施例中，给定文本可以为A公司发布的招股说明书，要抽取与A公司存在合作关系的公司，即目标实体关系为合作关系，需要抽取的实体为在招股书中与A公司存在合作关系的公司名称。此时，预定特征可以包括：公司名称前面一个词(枚举型)、公司名称后面一个词(枚举型)、公司名称前面一个词的词性(枚举型)、公司名称后面一个词的词性(枚举型)、公司名称前面一个介词(枚举型)、公司名称后面一个介词(枚举型)、公司名称所在语句中距离公司名称实体最近的目标实体关系词(枚举型)、公司名称是否位于目标实体关系词的前面(布尔类型：是为1、否为0)、公司名称所在语句中是否存在A公司代词(布尔类型：是为1、否为0)、公司名称是否位于A公司代词的前面(布尔类型：是为1、否为0)、公司名称与距离其最近的目标实体关系词的距离(整型)、公司名称与预设实体指代词之间的依存分析路径(枚举型)、公司名称与预设实体指代词之间的所有词的词性序列(枚举型)、公司名称字符串的长度(整型)。上述构建特征向量的预定特征中，每一项对应特征向量中的一个元素，公司名称即为识别出的实体，括号中内容为说明此项元素的类型。例如，给定文本中包括“发行人与B建立了良好的合作伙伴关系”语句(B为公司名称)，该语句中包括了目标实体关系词(合作)、实体(B)、预设实体指代词(发行人)。通过上述预定特征可以构建出上述语句对应的特征向量为{与、建立、p、v、与、null、合作、1、1、0、4、SBVADVPOB、p、4}，其中，p表示词性为连词，v表示词性为动词，null表示空、SBVADVPOB表示依存句法关系中公司名称与预设实体指代词之间的依存分析路径依次为SBV(subject-verb，主谓关系)、ADV(adverbial，状中结构)、POB(preposition-object，介宾关系)。

需要说明的是，图2是根据图1实体关系抽取的方法中依存句法分析结果的示意图。如图2所示为通过依存句法分析“发行人与B建立了良好的合作伙伴关系”语句后得出的结果，由此可以确定公司名称与预设实体指代词(发行人)之间的依存分析路径依。

需要说明的是，本发明实施例在构建特征向量可以选取多个特征，然后计算各特征的信息增益，由于信息增益大的预定特征其对后续步骤104中通过特征向量筛选目标特征向量的准确性影响越大，所以在计算各特征的信息增益后，根据各预定特征信息增益的大小进行筛选，选择信息增益大的预定特征来构建特征向量。

步骤104中，目标特征向量指示了目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系。即如果某个句子中记录了某个实体与预设实体之间存在目标实体关系，则这个实体基于其所在的这个句子构建的特征向量为目标特征向量。

本实施例对利用特征向量筛选目标特征向量的方法不做特殊的限定，例如，可以采用机器学习中的监督学习来筛选，即通过机器学习机制对已经标记过是否为目标特征向量的特征向量作为样本进行学习，然后对特征向量进行识别和筛选。

步骤105中，在确定目标特征向量后，抽取目标特征向量对应的实体，即可得出给定文本中与预设实体满足目标实体关系的实体。

需要说明的是，本发明实施例还可以用于预设实体发布的只与其相关的文本中进行实体关系抽取的场景，例如，上市公司发布的只与上市公司相关的文本。

本发明实施例中通过目标实体关系词以及目标实体关系词的近义词和/或同义词确定触发词词库，可以保证抽取的实体满足要抽取的实体关系；由于特征向量是基于预定特征构建的，预定特征包括实体所在句子的特征、实体与各个实体所在句子中各词之间的关系特征和实体的特征中的任意一个或多个，则特征向量能够反映出实体以及实体所在句子的特征，然后通过预设规则进行筛选，可以快速、准确的筛选出目标特征向量，进而确定待抽取文本，由于预设规则包括特征向量对应实体所在的句子记录了与组织结构之间存在目标实体关系的实体，所以待抽取文本中为记录了与组织结构之间存在目标实体关系的实体的句子，从待抽取文本中抽取的实体即为与组织结构之间存在目标实体关系的实体，如此，本发明实施例中不需要对实体关系进行模式泛化处理，可以有效的避免在实体关系抽取过程中出现错误，提高实体关系抽取的准确率。

图3是根据本发明又一实施例提供的实体关系抽取的方法100的示意性流程图。图3所示的方法100与图1所示的方法100相比，步骤101至步骤105与中步骤101至步骤105基本相同，不同之处在于，图3所示的方法100中，在步骤103之前还包括：步骤106，基于目标实体关系词生成触发词词库。

其中，触发词词库包括目标实体关系词以及目标实体关系词的近义词和/或同义词。由于在文本中，通常目标实体关系词的近义词和/或同义词也能够表达目标实体关系词所要表达的含义，所以，本发明实施例中基于目标实体关系词生成触发词词库，然后通过触发词词库中的词进行实体关系抽取，这样可以保证将给定文本中通过目标实体关系词的近义词和/或同义词来记录与预设实体之间存在目标实体关系的实体抽取出来，保证抽取实体的准确性和全面性。

触发词词库中的词可以称为触发词，即目标实体关系词为触发词词库中的一个触发词，触发词还可为目标实体关系词的近义词或同义词。例如，目标实体关系词为合作，则根据目标实体关系词确定触发词可以为合作、协作、结成、互信、互惠或共建等，这些词中包括了目标实体关系词“合作”、与目标实体关系词“合作”含义相同或相近的词，所以触发词词库可以包括合作，以及协作、结成、互信、互惠及共建等词的一个或多个。优选的是全部包括，有些目标实体关系词没有什么特别相近的同义词或近义词的时候只能单独将目标实体关系词作为触发词单独的放在触发词词库内。

需要说明的是，步骤106中可以通过word2vec和词汇网络wordnet生成触发词词库。word2vec是一个将单词转换成向量形式的工具，它生成触发词的方法为：首先将给定文本中词向量化，即每个词映射出一个向量，向量化的方法可以采用神经网络算法等方法实现，给定文本中各词的向量构成向量空间，每个向量可以视为向量空间中的一个点；然后根据空间中向量之间的距离可以确定词之间含义的相近程度，即相近系数，距离越近则相近程度与高，进而通过相近系数确定出目标实体关系词的近义词和同义词。例如，通过word2vec可以确定和“合作”相关的触发词，如：协作(相近系数：0.542097270489)、结成(相近系数：0.486339062452)互信(相近系数：0.475144118071)、互惠(相近系数：0.423253238201)。Wordnet可以将词按照其意义组成一个单词的网络，即名词，动词，形容词和副词等各自被组织成一个同义词的网络，每个同义词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连接，本发明实施例中可以直接从Wordnet构成的网络中确定出“合作”的同义词。

可以理解的是，在预定特征中，各个实体与各个实体所在句子中的各词之间的关系特征还可以包括：各个实体与各个实体所在句子中包括的触发词之间的关系特征等；各个实体所在句子的特征还可以包括：各个实体所在句子是否包括触发词等。

作为另一实施例，在步骤106生成触发词列表后，在步骤103之前，方法100还可以包括：利用实体库及所述触发词词库过滤所述给定文本，形成包含触发词词库中的触发词和实体库中的实体的句子构成的候选文本。

其中，由于不包括触发词和实体的文本，不会从中抽取出与预设实体满足实体关系的实体，所以在确定实体库和触发词词库后，对给定文本进行筛选，筛选出包含触发词和实体的候选文本，在后续步骤中针对候选文本进行处理，可以降低操作的复杂度。在步骤102中对实体进行识别并形成实体库时，可以对识别出的实体在给定文本中进行标注，例如，通过CRF对给定文本中的公司名称进行识别后，将识别出的实体标注为company，所以本步骤中可以根据文本中的语句是否进行了实体标注来确定包含实体的文本。

需要说明的是，在本发明实施例中，筛选出包含触发词和实体的候选文本，在后续步骤中可以针对候选文本进行处理，例如，在步骤103中可以具体为：基于预定特征根据候选文本中的句子来构建候选文本中的句子中的实体的特征向量，可以降低操作的复杂度。

图4是根据本发明再一实施例提供的实体关系抽取的方法100的示意性流程图。图4所示的方法100与图3所示的方法100相比，步骤101至步骤106与中步骤101至步骤106基本相同，不同之处在于，图4所示的方法100中，在步骤105之前还包括：步骤107，在目标特征向量对应的实体所在句子中对目标特征向量对应的实体进行标记；步骤108，从给定文本中抽取包括标记的句子，构成待抽取文本；步骤105具体执行为步骤1051，抽取待抽取文本中被标记的实体。

在步骤107中，在目标特征向量对应的实体所在句子中对目标特征向量对应的实体进行标记，用于表示此实体对应的特征向量为目标特征向量，由于目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系，所以这些标记的实体即为本发明实施例要抽取的实体。

在步骤108中，在给定文本中抽取被标记的实体，可以先将包括标记的实体的句子抽取出来构成待抽取文本，然后再通过步骤109抽取待抽取文本中被标记的实体。

图5是根据本发明另一实施例提供的实体关系抽取的方法100的示意性流程图。图5所示的方法100与图4所示的方法100相比，步骤101至步骤108与中步骤101至步骤108基本相同，不同之处在于，图5所示的方法100中，在步骤105之前还包括：步骤109，提取待抽取文本中每个句子对应的目标文本模式；步骤110，将待抽取文本中每个句子的文本模式与规则库中预设文本模式进行匹配；步骤105具体执行为步骤1052，当目标文本模式中存在与预设文本模式匹配的文本模式时，抽取目标文本模式中与预设文本模式匹配的文本模式对应的句子中被标记的实体。

在步骤109中，目标文本模式包括待抽取文本中每个句子中包括的触发词词库中的词、每个句子中被标记的实体以及每个句子中被标记的实体与每个句子中的预定实体之间的连接词在每个句子中的排列顺序形成的文本模式。待抽取文本中每个句子中均有被标记的实体，对每个标记的实体均可以提取一个目标文本模式，目标文本模式为被标记的实体所在的句子中触发词词库中的词、被标记的实体以及被标记的实体与句子中的预定实体之间的连接词在句子中的排列顺序。例如，抽取文本中包括“发行人与B建立了良好的合作伙伴关系”语句(B为公司名称)，该语句中被标记的实体为B，还包括了触发词词库中的词(合作)、预设实体指代词(发行人)，该句中对被标记的实体均提取的目标文本模式为：发行人*与*实体*触发词*(*表示任意词)。

在步骤110中，规则库中包括一个或多个预设文本模式，预设文本模式包括触发词词库中的词、实体库中实体以及实体库中实体与预定实体指代词之间的连接词以预定语序排列形成的文本模式。实体以及预设实体指代词之间的连接词包括连词、介词、表示连接关系的符号等等。

本步骤中将步骤109提取出的目标文本模式与预设文本模式进行匹配，如果目标文本模式与规则库中的某个预设文本模式一致，则说明目标文本模式与预设文本模式匹配；如果目标文本模式不与规则库中的预设文本模式一致，则说明目标文本模式与预设文本模式不匹配。

例如，在步骤109的举例中，通过步骤109提取的一个目标文本模式为：发行人*与*实体*触发词*，如果规则库中的一个预设文本模式也为：发行人*与*实体*触发词*，则可以确定目标文本模式与规则库中预设文本模式是匹配的。

在步骤1052中，当目标文本模式中存在与预设文本模式匹配的文本模式时，抽取目标文本模式中与预设文本模式匹配的文本模式对应的句子中被标记的实体。

需要说明的是，在执行完步骤110后，还可以在待抽取文本中存在不与规则库匹配的句子时，将不与规则库匹配的句子从待抽取文本中删除，这样待抽取文本中剩余的即为与规则库匹配的句子，此时，步骤1052可以直接抽取删除不与规则库匹配的句子后待抽取文本中的实体。

本发明实施例在通过特征向量筛选出待抽取文本后，通过规则库进一步确定出能够与规则库匹配的文本，然后抽取实体，如此，本发明实施例中依次进行的两步判断进行实体关系抽取，可以进一步保证抽取的正确率。

作为另一实施例，在图5所示方法的基础上，该方法100中，在步骤1052之前还包括：步骤111，当目标文本模式中存在不与预设文本模式匹配的文本模式时，判断目标文本模式与预设文本模式的匹配度是否达到预设值；步骤112，当匹配度未达到预设值时，根据预设条件判断是否需要提取目标文本模式中不与预设文本模式匹配的文本模式；步骤113，当需要提取目标文本模式中不与预设文本模式匹配的文本模式时，提取目标文本模式中不与预设文本模式匹配的至少一个文本模式，作为新文本模式；步骤114，将新文本模式添加至规则库中形成新规则库；步骤115，将目标文本模式与新规则库中文本模式进行匹配；步骤116，判断目标文本模式与新规则库中文本模式的匹配度是否达到预设值；步骤1052具体执行为：当匹配度达到预设值时，抽取目标文本模式中与新规则库中文本模式匹配的文本模式对应的句子中被标记的实体。

其中，匹配度即为待抽取文本中抽取的目标文本模式与规则库中预设文本模式的匹配程度，可以根据与规则库中预设文本模式匹配的目标文本模式数量占总目标文本模式数量的比例来计算，比例越高则匹配度越高，预设值可以根据不同场景设定不同的值，例如，设置预设值为95％。预设条件包括不与规则库匹配的目标文本模式对应的句子中被标记的实体与预设实体之间是否存在目标实体关系，如果不与规则库匹配的目标文本模式对应的句子中被标记的实体与预设实体之间存在目标实体关系，则判定需要提取目标文本模式中不与预设文本模式匹配的文本模式；如果不与规则库匹配的目标文本模式对应的句子中被标记的实体与预设实体之间不存在目标实体关系，则判定不需要提取目标文本模式中不与预设文本模式匹配的文本模式。另外，还可以通过人工判断的方式来判断是否需要提取目标文本模式中不与预设文本模式匹配的文本模式，此时，如果判断需要提取目标文本模式中不与预设文本模式匹配的文本模式，则可以发送需要进行文本模式提取的用户指令，设备通过接收到用户指令确定需要对不匹配规则库的句子进行文本模式的提取，执行后续步骤。步骤113中，当需要提取目标文本模式中不与预设文本模式匹配的文本模式时，可以提取目标文本模式中不与预设文本模式匹配的全部文本模式，也可以提取目标文本模式中不与预设文本模式匹配的一部分文本模式；当需要提取目标文本模式中不与预设文本模式匹配的一部分文本模式时，可以通过用户指令或其他方式指定需要对哪些目标文本模式中不与预设文本模式匹配的文本模式进行提取，则在步骤113中提取指定的目标文本模式中不与预设文本模式匹配的文本模式。

需要说明的是，执行完步骤114后，将目标文本模式与新规则库中文本模式进行匹配；并判断目标文本模式与新规则库中文本模式的匹配度是否达到预设值，当匹配度达到预设值时，再抽取目标文本模式中与新规则库中文本模式匹配的文本模式对应的句子中被标记的实体，来保证待抽取文本与规则库的匹配度达到预设值。

本实施例中，在步骤116中判断目标文本模式与新规则库中文本模式的匹配度是否达到预设值后，判定目标文本模式与新规则库中文本模式的匹配度没有达到预设值，则可以继续执行步骤112、113、114、115和116，直到匹配度达到预设值，再执行1052：当匹配度达到预设值时，抽取目标文本模式中与新规则库中文本模式匹配的文本模式对应的句子中被标记的实体，如此能够保证对实体抽取的全面性，避免抽取的实体出现遗漏，从而保证实体关系抽取的覆盖率和全面性。

作为一个可选实施例，步骤104可以包括以下步骤：步骤1051，通过分类器从特征向量中筛选出目标特征向量，分类器为在对特征向量中的一部分特征向量进行标注后、通过学习标注后的特征向量得到的，标注表示特征向量是否为目标特征向量。

其中，标注可以为人工判断后完成，则分类器为通过经人工标注的部分特征向量学习训练后得到的，即为用户在全部特征向量中选定一部分作为训练样本，并对训练样本进行标注，标注出哪些特征向量为目标特征向量，以及标注出哪些特征向量不为目标特征向量，这样分类器通过训练样本训练后，就可以将所有的特征向量识别，并筛选出目标特征向量。本实施例通过机器学习中的分类器筛选目标特征向量，可以快速准确的得出目标特征向量，进而保证实体关系抽取的准确性。用户可以通过对样本中每个特征向量对应实体所在句子表达的含义来判定特征向量是否为目标向量。

作为一个可选实施例，在步骤101可以包括以下步骤：步骤117，预处理所述给定文本。

其中，预处理给定文本可以包括浏览给定文本的摘要或某一部分，从浏览的内容中确定给定文本记录了哪些与预设实体相关的实体关系，例如，给定文本中记录了与预设实体的合作关系、竞争关系、供应商关系、客户关系等等。在确定了给定文本记录了哪些与预设实体相关的实体关系后，即可以确定出本次要抽取的目标实体关系，进而确定出目标实体关系词。

需要说明的是，在步骤101之前，如果已经了解给定文本的内容、或者了解给定文本中记录内容的规律，则可以不去浏览给定文本的具体内容，而直接确定出目标实体关系词。

本步骤中，预处理给定文本还可以包括对给定文本进行分词，即将给定文本中的句子划分为单词或词组，从而方便后续步骤，例如步骤102等对给定文本进行处理。对给定文本进行分词时还可以预先自定义词库，自定义词库中包括给定文本中涉及的实体，在进行分词时按照自定义的词库进行分词，来保证分词的准确性。分词可以采用ANSJ的方法来实现，本发明实施例中应用ANSJ分词时还可以加入自定义的词库，自定义词库需要包括给定文本中涉及的实体，例如，本发明实施例需要在给定文本中抽取公司名称，则自定义词库中需要包括各公司名称，这样在通过ANSJ进行分词的时候才能够准确的对给定文本进行分词，保证分词的准确度。

图6是根据本发明一实施例提供的实体关系抽取的装置的示意性框图。如图6所示，所述装置20包括：

确定单元201，用于确定给定文本的目标实体关系词，所述给定文本包括与预定实体相关的信息，所述目标实体关系词表示除所述预定实体之外的实体与所述预定实体之间为目标实体关系的词；

识别单元202，用于识别所述给定文本中的除所述预定实体之外的实体，并存储形成实体库；

构建单元203，用于基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量，所述预定特征包括如下特征中的至少一者：所述实体所在句子的特征、所述实体与所述实体所在句子中的各词之间的关系特征和所述各个实体的特征；

筛选单元204，用于从所述特征向量中筛选出目标特征向量，所述目标特征向量指示了所述目标特征向量对应的实体所在的句子记录了所述目标特征向量对应的实体与所述预设实体之间存在所述目标实体关系；

实体抽取单元205，用于抽取与所述目标特征向量对应的实体。

本发明实施例中首先确定表示除预定实体之外的实体与预定实体之间为目标实体关系的目标实体关系词，保证抽取的实体满足要抽取的实体关系；对给定文本中除预定实体之外的实体进行识别，并形成实体库，以保证抽取实体的全面性；然后基于预定特征根据给定文本所包含的实体库中的实体所在的句子来构建句子中的实体的特征向量，由于预定特征包括各个实体句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征等，所以各实体对应特征向量能够准确的反映出实体所在句子表达的含义，进而可以从特征向量中筛选出对应的实体所在句子记录了对应实体与预设实体之间存在目标实体关系的目标特征向量，即目标特征向量对应的实体所在的句子记录了目标特征向量对应的实体与预设实体之间存在目标实体关系，从而可以得出目标特征向量对应的实体即为要抽取的实体，如此本发明可以快速、准确的通过特征向量确定出与预定实体为目标实体国信的实体，而不需要对实体关系进行模式泛化处理，可以有效的避免在实体关系抽取过程中出现错误，提高实体关系抽取的准确率。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

生成单元206，用于基于所述目标实体关系词生成触发词词库，所述触发词词库包括所述目标实体关系词以及所述目标实体关系词的近义词和/或同义词。

其中，所述各个实体与各个实体所在句子中的各词之间的关系特征包括：所述各个实体与所述各个实体所在句子中包括的触发词之间的关系特征，所述触发词为所述触发词词库中的词。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

过滤单元207，用于利用所述实体库及所述触发词词库过滤所述给定文本，形成包含所述触发词词库中的触发词和所述实体库中的实体的句子构成的候选文本；

所述构建单元203具体用于基于所述预定特征根据所述候选文本中的句子来构建所述候选文本中的句子中的实体的特征向量。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

标记单元208，用于在所述目标特征向量对应的实体所在句子中对所述目标特征向量对应的实体进行标记；

文本抽取单元209，用于从所述给定文本中抽取包括所述标记的句子，构成待抽取文本；

所述实体抽取单元205具体用于抽取所述待抽取文本中被标记的实体。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

文本模式提取单元210，用于提取所述待抽取文本中每个句子对应的目标文本模式，所述目标文本模式包括所述每个句子中包括的所述触发词词库中的词、所述每个句子中被标记的实体以及所述每个句子中被标记的实体与所述每个句子中的预定实体指代词之间的连接词在所述每个句子中的排列顺序，所述预设实体指代词表示在句子中含义指代所述预设实体的词；

匹配单元211，用于将所述待抽取文本中每个句子的文本模式与规则库中预设文本模式进行匹配，所述预设文本模式包括所述触发词词库中的词、所述实体库中实体以及所述实体库中实体与所述预定实体指代词之间的连接词以预定语序排列形成的文本模式；

所述实体抽取单元205具体用于当所述目标文本模式中存在与所述预设文本模式匹配的文本模式时，抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

匹配度判断单元212，用于当所述目标文本模式中存在不与所述预设文本模式匹配的文本模式时，判断所述目标文本模式与所述预设文本模式的匹配度是否达到预设值；

文本模式提取判断单元213，用于当所述匹配度未达到所述预设值时，根据预设条件判断是否需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式；

文本模式提取单元210，还用于当需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式时，提取所述目标文本模式中不与所述预设文本模式匹配的至少一个文本模式，作为新文本模式；

添加单元214，用于将所述新文本模式添加至所述规则库中形成新规则库；

所述匹配单元211，还用于将所述目标文本模式与所述新规则库中文本模式进行匹配；

所述匹配度判断单元212还用于判断所述目标文本模式与所述新规则库中文本模式的匹配度是否达到所述预设值；

所述实体抽取单元205具体用于当所述匹配度达到所述预设值时，抽取所述目标文本模式中与所述新规则库中文本模式匹配的文本模式对应的句子中被标记的实体。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

所述筛选单元204具体用于通过分类器从所述特征向量中筛选出所述目标特征向量，所述分类器为在对所述特征向量中的一部分特征向量进行标注后、通过学习标注后的特征向量得到的，所述标注表示所述特征向量是否为所述目标特征向量。

作为一个可选实施例，如图7所示，所述装置20还可以包括：

预处理单元215，用于预处理所述给定文本。

需要说明的是，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

Claims

1.一种实体关系抽取的方法，包括：

确定给定文本的目标实体关系词，所述给定文本包括与预定实体相关的信息，所述目标实体关系词表示除所述预定实体之外的实体与所述预定实体之间为目标实体关系的词；

识别所述给定文本中的除所述预定实体之外的实体，并存储形成实体库；

基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量，所述预定特征包括如下特征中的至少一者：各个实体所在句子的特征、各个实体与各个实体所在句子中的各词之间的关系特征和各个实体的特征；

所述各个实体与各个实体所在句子中的各词之间的关系特征包括如下特征中的至少一者：各个实体与各个实体所在句子中其他词的位置关系、所述目标实体关系词在句子中的位置、各个实体在句子中的位置；

从所述特征向量中筛选出目标特征向量，所述目标特征向量指示了所述目标特征向量对应的实体所在的句子记录了所述目标特征向量对应的实体与预设实体之间存在所述目标实体关系；

抽取与所述目标特征向量对应的实体；

在所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量之前，还包括：

基于所述目标实体关系词生成触发词词库，所述触发词词库包括所述目标实体关系词以及所述目标实体关系词的近义词和/或同义词；

其中，所述抽取与所述目标特征向量对应的实体，包括：

在所述目标特征向量对应的实体所在句子中对所述目标特征向量对应的实体进行标记；

从所述给定文本中抽取包括所述标记的句子，构成待抽取文本；

抽取所述待抽取文本中被标记的实体；

所述抽取所述待抽取文本中被标记的实体，包括：

提取所述待抽取文本中每个句子对应的目标文本模式，所述目标文本模式包括所述每个句子中包括的所述触发词词库中的词、所述每个句子中被标记的实体以及所述每个句子中被标记的实体与所述每个句子中的预定实体指代词之间的连接词在所述每个句子中的排列顺序形成的文本模式，所述预设实体指代词表示在句子中含义指代所述预设实体的词；

将所述待抽取文本中每个句子的文本模式与规则库中预设文本模式进行匹配，所述预设文本模式包括所述触发词词库中的词、所述实体库中实体以及所述实体库中实体与所述预定实体指代词之间的连接词以预定语序排列形成的文本模式；

当所述目标文本模式中存在与所述预设文本模式匹配的文本模式时，抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体；

在所述抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体之前，还包括：

当所述目标文本模式中存在不与所述预设文本模式匹配的文本模式时，判断所述目标文本模式与所述预设文本模式的匹配度是否达到预设值；

当所述匹配度未达到所述预设值时，根据预设条件判断是否需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式；

当需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式时，提取所述目标文本模式中不与所述预设文本模式匹配的至少一个文本模式，作为新文本模式；

将所述新文本模式添加至所述规则库中形成新规则库；

将所述目标文本模式与所述新规则库中文本模式进行匹配；

当所述目标文本模式与所述新规则库中文本模式的匹配度达到所述预设值时，抽取所述目标文本模式中与所述新规则库中文本模式匹配的文本模式对应的句子中被标记的实体。

2.根据权利要求1所述的方法，所述各个实体与各个实体所在句子中的各词之间的关系特征包括：所述各个实体与所述各个实体所在句子中包括的触发词之间的关系特征，所述触发词为所述触发词词库中的词。

3.根据权利要求1所述的方法，所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量之前，还包括：

利用所述实体库及所述触发词词库过滤所述给定文本，形成包含所述触发词词库中的触发词和所述实体库中的实体的句子构成的候选文本；

所述基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量包括：

基于所述预定特征根据所述候选文本中的句子来构建所述候选文本中的句子中的实体的特征向量。

4.根据权利要求1所述的方法，所述从所述特征向量中筛选出目标特征向量包括：

通过分类器从所述特征向量中筛选出所述目标特征向量，所述分类器为在对所述特征向量中的一部分特征向量进行标注后、通过学习标注后的特征向量得到的，所述标注表示所述特征向量是否为所述目标特征向量。

5.根据权利要求1所述的方法，在所述确定给定文本的目标实体关系词之前，还包括：

预处理所述给定文本。

6.一种实体关系抽取的装置，其特征在于，所述装置包括：确定单元、识别单元、生成单元、构建单元、筛选单元、实体抽取单元、标记单元、文本抽取单元、文本模式提取单元、匹配单元、匹配度判断单元、文本模式提取判断单元、添加单元；

确定单元，用于确定给定文本的目标实体关系词，所述给定文本包括与预定实体相关的信息，所述目标实体关系词表示除所述预定实体之外的实体与所述预定实体之间为目标实体关系的词；

识别单元，用于识别所述给定文本中的除所述预定实体之外的实体，并存储形成实体库；

构建单元，用于基于预定特征根据所述给定文本所包含的所述实体库中的实体所在的句子来构建所述句子中的实体的特征向量，所述预定特征包括如下特征中的至少一者：所述实体所在句子的特征、所述实体与所述实体所在句子中的各词之间的关系特征和各个实体的特征；

所述实体与所述实体所在句子中的各词之间的关系特征包括如下特征中的至少一者：

所述实体与所述实体所在句子中其他词的位置关系、所述目标实体关系词在句子中的位置、所述实体在句子中的位置；

筛选单元，用于从所述特征向量中筛选出目标特征向量，所述目标特征向量指示了所述目标特征向量对应的实体所在的句子记录了所述目标特征向量对应的实体与预设实体之间存在所述目标实体关系；

实体抽取单元，用于抽取与所述目标特征向量对应的实体；

生成单元，用于基于所述目标实体关系词生成触发词词库，所述触发词词库包括所述目标实体关系词以及所述目标实体关系词的近义词和/或同义词；

标记单元，用于在所述目标特征向量对应的实体所在句子中对所述目标特征向量对应的实体进行标记；

文本抽取单元，用于从所述给定文本中抽取包括所述标记的句子，构成待抽取文本；

所述实体抽取单元，还用于抽取所述待抽取文本中被标记的实体

文本模式提取单元，用于提取所述待抽取文本中每个句子对应的目标文本模式，所述目标文本模式包括所述每个句子中包括的所述触发词词库中的词、所述每个句子中被标记的实体以及所述每个句子中被标记的实体与所述每个句子中的预定实体指代词之间的连接词在所述每个句子中的排列顺序，所述预设实体指代词表示在句子中含义指代所述预设实体的词；

匹配单元，用于将所述待抽取文本中每个句子的文本模式与规则库中预设文本模式进行匹配，所述预设文本模式包括所述触发词词库中的词、所述实体库中实体以及所述实体库中实体与所述预定实体指代词之间的连接词以预定语序排列形成的文本模式；

所述实体抽取单元，还用于当所述目标文本模式中存在与所述预设文本模式匹配的文本模式时，抽取所述目标文本模式中与所述预设文本模式匹配的文本模式对应的句子中被标记的实体；

匹配度判断单元，用于当所述目标文本模式中存在不与所述预设文本模式匹配的文本模式时，判断所述目标文本模式与所述预设文本模式的匹配度是否达到预设值；

文本模式提取判断单元，用于当所述匹配度未达到所述预设值时，根据预设条件判断是否需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式；

所述文本模式提取单元，还用于当需要提取所述目标文本模式中不与所述预设文本模式匹配的文本模式时，提取所述目标文本模式中不与所述预设文本模式匹配的至少一个文本模式，作为新文本模式；

添加单元，用于将所述新文本模式添加至所述规则库中形成新规则库；

所述匹配单元，还用于将所述目标文本模式与所述新规则库中文本模式进行匹配；

所述实体抽取单元，还用于当所述目标文本模式与所述新规则库中文本模式的匹配度达到所述预设值时，抽取所述目标文本模式中与所述新规则库中文本模式匹配的文本模式对应的句子中被标记的实体。

7.根据权利要求6所述的装置，所述各个实体与各个实体所在句子中的各词之间的关系特征包括：所述各个实体与所述各个实体所在句子中包括的触发词之间的关系特征，所述触发词为所述触发词词库中的词。

8.根据权利要求6所述的装置，还包括：

过滤单元，用于利用所述实体库及所述触发词词库过滤所述给定文本，形成包含所述触发词词库中的触发词和所述实体库中的实体的句子构成的候选文本；

所述构建单元具体用于基于所述预定特征根据所述候选文本中的句子来构建所述候选文本中的句子中的实体的特征向量。

9.根据权利要求6所述的装置，其中，所述筛选单元具体用于通过分类器从所述特征向量中筛选出所述目标特征向量，所述分类器为在对所述特征向量中的一部分特征向量进行标注后、通过学习标注后的特征向量得到的，所述标注表示所述特征向量是否为所述目标特征向量。

10.根据权利要求6所述的装置，还包括：

预处理单元，用于预处理所述给定文本。