CN115238092A

CN115238092A - 一种实体关系抽取方法、装置、设备及存储介质

Info

Publication number: CN115238092A
Application number: CN202210863390.XA
Authority: CN
Inventors: 刘思良; 崔恒; 沈泽希
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-25

Abstract

本申请公开了一种实体关系抽取方法、装置、设备及存储介质，其中，所述方法包括：识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

Description

一种实体关系抽取方法、装置、设备及存储介质

技术领域

本申请实施例涉及自然语言处理领域，涉及但不限于一种实体关系抽取方法、装置、设备及存储介质。

背景技术

在现有的知识表示方式中，知识图谱(Knowledge Graph，KG)作为一种语义网络拥有极强的表达能力和建模灵活性，受到了广泛的关注。但受困于人工构建成本高，自动化构建准确率低等问题，知识图谱一直难以得到广泛的应用。如何降低KG的构建成本，提高自动化构建知识图谱的准确性一直是近些年研究的热点。

发明内容

有鉴于此，本申请实施例提供一种实体关系抽取方法、装置、设备及存储介质。

本申请实施例的技术方案是这样实现的：

第一方面，本申请实施例提供一种实体关系抽取方法，所述方法包括：识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

第二方面，本申请实施例提供一种实体关系抽取装置，所述装置包括：识别模块，用于识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；第一获得模块，用于根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；融合模块，用于对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

第三方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

第四方面，本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现上述方法。

本申请实施例中，首先识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；然后根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；最后对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。这样，引入实体关系转移矩阵作为实体关系分类的先验知识，有效地缓解了数据本身部分实体关系样本稀疏问题，避免模型因数据问题导致部分实体关系的预测表现较差。提高了模型整体预测的准确性，增强实体关系的预测鲁棒性。

附图说明

图1为本申请实施例提供的一种实体关系抽取方法的实现流程示意图；

图2A为本申请实施例提供的一种关系抽取示意图；

图2B为本申请实施例提供的一种确定目标关系分类结果的示意图

图2C为本申请实施例提供的一种确定目标关系分类结果的示意图；

图3A为本申请实施例提供的一种获得实体关系转移矩阵方法的实现流程示意图；

图3B为本申请实施例提供的一种实体关系转移矩阵的示意图；

图4A为本申请实施例提供的训练实体关系分类模型方法的实现流程示意图；

图4B为本申请实施例提供的构建目标正样本和目标负样本的示意图；

图5为本申请实施例提供的一种实体关系抽取装置的组成结构示意图；

图6为本申请实施例提供的电子设备的一种硬件实体示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对申请实施例的具体技术方案做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

知识图谱(Knowledge Graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。可以通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

本申请实施例提供一种实体关系抽取方法，如图1所示，该方法包括：

步骤S110、识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；

这里，待识别文本可以是非结构文本，需要先从该非结构文本中识别出至少两个实体，再基于该实体对应的名称识别出两个实体所属的类型。

在一些实施例中，可以基于依存句法分析的关系抽取，根据句子中包含的句法信息建立句法树，从中抽取出主谓宾关系，其中主语和宾语代表两个实体。

在一些实施例中，可以利用命名实体识别模型从待识别文本中抽取出实体。

举例来说，图2A为本申请实施例提供的一种关系抽取示意图，如图2A所示的一句非结构文本，可以先识别出该非结构文本中的实体：张某、M公司、K系列、Z和王某，再确定张某的类型为人物、M公司的类型为机构、K系列的类型为品牌、Z的类型为产品、王某的类型为人物。

步骤S120、根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；

这里，实体关系转移矩阵是待识别文本对应的本体图的一种矩阵形式，利用该实体关系转移矩阵，可以基于至少两个实体中两个实体的类型查询该两个实体之间的关系。

步骤S130、对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

在实施过程中，可以将待识别文本输入实体关系分类模型，得到第二关系分类结果。这样，可以对第一关系分类结果和第二关系分类结果进行融合处理，得到两个实体的目标关系分类结果。

在实施过程中，对得到第一关系分类结果和得到第二关系分类结果的顺序不做要求，即，可以先后获取第一关系分类结果和第二关系分类结果，也可以同时获取第一关系分类结果和第二关系分类结果。

举例来说，图2B为本申请实施例提供的一种确定目标关系分类结果的示意图，如图2B所示，该示意图包括待识别文本21、实体关系转移矩阵22、实体关系分类模型23、第一关系分类结果24、第二关系分类结果25和分类结果26，其中，

在确定分类结果26的情况下，可以先从待识别文本21中确定出上下文、人物、机构，这里，人物和机构是实体的类型，确定出的可以是具体的实体。

然后将确定出的实体(包括人物和机构类型的实体)输入实体关系转移矩阵22，得到第一关系分类结果(实体关系分布)24。

在利用实体关系转移矩阵22确定第一关系分类结果24的同时，可以将该非结构文本输入实体关系分类模型23中，得到第二关系分类结果(预测实体关系分布)25。

对第一关系分类结果24和第二关系分类结果23进行融合处理，得到两个实体的目标关系分类结果26。

在一些实施例中，以上步骤S130中“对所述第一关系分类结果和第二关系分类结果进行融合处理”包括以下至少一种：

A、基于所述第一关系分类结果，对所述第二关系分类结果进行修正处理；

这里，修正可以是先比对第一关系分类结果和第二关系分类结果，然后基于比对结果，修正第二分类结果。举例来说，在第二分类结果中关系为“投资”的概率是56％，关系为“任职于”的概率为44％，第一分类结果中确定关系为“任职于”的概率为80％，那么可以基于第一关系分类结果，修正第二关系分类结果为关系确定为“任职于”。

B、对所述第一关系分类结果和所述第二关系分类结果进行加权求和处理。

在实施过程中，可以基于实际情况设置第一关系分类结果对应的第一加权值，第二关系分类结果对应的第二加权值，这样，可以将第一关系分类结果与第一加权值相乘，再加上第二关系分类结果与第二加权值相乘，以确定最终的分类结果。

举例来说，图2C为本申请实施例提供的一种确定目标关系分类结果的示意图，如图2C所示，该示意图包括待识别文本21、实体关系转移矩阵22、实体关系分类模型23、第一关系分类结果24、第二关系分类结果25和分类结果26，其中，

然后将确定出的实体(包括人物和机构类型的实体)输入实体关系转移矩阵22，得到第一关系分类结果24，即该两个实现之间的关系：任职于0.5、投资0.5、属于0、拥有0、生产0和买入0。

在利用实体关系转移矩阵22确定第一关系分类结果24的同时，可以将该非结构文本输入实体关系分类模型23中，得到第二关系分类结果25，即该两个实现之间的关系：任职于0.4、投资0.3、属于0、拥有0.1、生产0.1和买入0.1。

在一些实施例中，可以设置实体关系转移矩阵和实体关系分类模型的加权参数都为1，这样，可以得到分类结果为：任职于0.9、投资0.8、属于0、拥有0.1、生产0.1和买入0.1。那么就可以确定该待识别文本中两个实体类型分别为人物和机构的实体之间的关系为任职于。

这样，通过先验实体关系分布加权，一方面能够降低实体关系分类模型预测出本体定义之外的实体关系，另一方面对于样本稀疏的实体关系类别提供一个较好的先验知识。从而整体提高实体关系分类模型的预测精度。

本申请实施例中，对第一关系分类结果和第二关系分类结果进行融合处理包括以下至少一种：基于所述第一关系分类结果，对所述第二关系分类结果进行修正处理；对所述第一关系分类结果和所述第二关系分类结果进行加权求和处理。这样，可以将第一关系分类结果作为先验条件，对第二分类结果进行修正或加权求和，以得到更为准确的分类结果。

本申请实施例提供一种获得实体关系转移矩阵的方法，如图3A所示，包括以下步骤：

步骤S310、确定所述待识别文本的领域；

这里，待识别文本的领域可以包括以下至少之一：金融、教学、公司、历史人物、娱乐圈等。

在实施过程中，可以基于待识别文本的文本内容和/或待生成的知识图谱确定该待识别文本的领域。

步骤S320、基于所述待识别文本的领域确定所述待识别文本对应的本体图；

这里，本体图可以用于描述不同类型的实体与实体之间的关系。

在实施过程中，由于每一领域对应一个基础本体图，所以可以基于待识别文本的领域确定该待识别文本对应的本体图。

步骤S330、根据所述本体图确定所述实体关系转移矩阵。

这里，实体关系转移矩阵是本体图的一种矩阵表达方式，可以基于本体图确定对应的实体关系转移矩阵。

本申请实施例中，首先确定所述待识别文本的领域；然后基于所述待识别文本的领域确定所述待识别文本对应的本体图；最后根据所述本体图确定所述实体关系转移矩阵。这样，可以基于待识别文本的领域，有效确定该待识别文本对应的实体关系转移矩阵。

在一些实施例中，以上步骤S320“基于所述待识别文本的领域确定所述待识别文本对应的本体图”可以通过以下步骤实现：

步骤321、确定所述待识别文本的领域中的N种实体类型和M种实体类型关系，其中，N为大于等于2的整数，M为大于等于1的整数；

在实施过程中，可以先根据实体关系识别需求确定该领域中的N种实体类型和M种实体类型关系。

步骤322、基于所述的N种实体类型和M种实体类型关系定义所述本体图。

这里，本体图可以使用以下公式(1)表达本体图：

K＝<T，R> (1)；

其中，

T＝{t₁，t₂，…，t_N}，每个元素表示本体图中的一种实体类型，总共有N种实体类型；

R＝{r₁，r₂，…，r_M}，每个元素表示本体图中两个实体类别之间的关系，总共有M种实体关系。

本申请实施例中，首先确定所述待识别文本的领域中的N种实体类型和M种实体类型关系，然后基于所述的N种实体类型和M种实体类型关系可以有效定义一个本体图。

在一些实施例中，以上步骤S330“根据所述本体图确定所述实体关系转移矩阵”可以通过以下步骤实现：

步骤331、定义所述N种实体类型中每两种实体类型存在的关系概率分布P_ti,tj，其中，P_ti,tj包括M个概率分布数据，每一所述概率分布数据对应一种实体类型关系概率，i和j均为小于等于N的整数；

在实施过程中，可以使用以下公式(2)定义N种实体类型中每两种实体类型存在的关系概率分布集合：

P＝{P_t1，t1，P_t1，t2，…P_ti，tj，…P_tN，tN} (i，j<＝N) (2)；

其中，P_ti，tj包括M个的概率分布数据，代表是以实体类型ti作为起始实体类别，将tj作为结尾实体类别，二者之间在M种的实体关系多对应的概率分布。

步骤332、基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj定义所述实体关系转移矩阵。

本申请实施例中，首先定义所述N种实体类型中每两种实体类型存在的关系概率分布P_ti,tj，然后基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj可以有效定义实体关系转移矩阵。

图3B为本申请实施例提供的一种实体关系转移矩阵的示意图，如图3B所示，该示意图包括：实体关系转移矩阵A、实体关系分布P，其中，

实体关系转移矩阵A的三条边中的两条边代表N种实体类型，另外一条边代表M种实体类型关系。

将实体关系转移矩阵A中的一种两两实体之间的关系表达取出，可以得到两两实体关系分配P，每个实体关系分布P都包括M个的概率分布数据，代表该两两实体M个关系中每一种实体关系对应的每一种概率。

在实施过程中，实体关系转移矩阵中初始化的概率参数可以与实体关系抽取模型共同训练，通过梯度下降，逐步拟合概率参数的实际分布，并存储在实体关系转移矩阵中。在模型预测阶段，实体关系转移矩阵通过参与实体关系判别，达到提升实体关系抽取模型抽取准确性的作用。

在一些实施例中，以上步骤332“基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj定义所述实体关系转移矩阵”中定义实体关系转移矩阵包括以下至少一种：

A、在确定实体类别ti和实体类别tj不存在实体关系的情况下，将所述关系概率分布P_ti,tj中所有值设置为-X，X为正整数；

举例来说，可以将X的取值设置为1，那么在确定实体类别ti和实体类别tj不存在实体关系的情况下，将所述关系概率分布P_ti,tj中所有M个概率值设置为-1，即代表以上两个实体之间不存在任何实体关系。

在实施过程中，可以基于实际情况调整X的大小。

B、在确定实体类别ti和实体类别tj存在一种实体关系的情况下，将存在一种实体关系的概率分布值设置为X，其余关系概率分布值设置为0；

举例来说，可以将X的取值设置为1，确定实体类别ti和实体类别tj存在一种实体关系的情况下，将存在一种实体关系的概率分布值设置为1，其余关系概率分布值设置为0，即代表M个概率数值中，存在实体关系的为1，其余不存在关系的M减1个概率数值为0。

C、在确定实体类别ti和实体类别tj存在K种实体关系的情况下，将所述K种实体关系中的每一种实体关系对应的关系概率分布值设置为1/K，其余关系概率分布值设置为0。

本申请实施例中，提供了三种设置实体关系转移矩阵中实体关系分布P的方法，以实现有效基于两两实体间的关系和关系概率定义实体关系转移矩阵。

本申请实施例提供一种训练实体关系分类模型的方法，如图4A所示，包括以下步骤：

步骤S410、获得用于训练所述实体关系分类模型的非结构文本；

这里，非结构文本可以是从该待识别文本领域对应的样本库中获取的，用于训练实体关系分类模型。

步骤S420、基于命名实体识别模型从所述非结构文本中抽取出训练样本集合；

在实体关系抽取任务中，需要先识别出非结构文本中的实体，再由实体关系抽取模块判别两两实体之间的关系。在实施过程中，可以利用命名实体识别模型从该非结构文本中抽取出实体与实体之间的关系。将实体与实体之间的关系组成训练样本集合，该训练样本集合中包括用于训练实体关系抽取模型的正样本和负样本。

步骤S430、基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本；

在实施过程中，可以利用本体或者实体关系转移矩阵从训练样本中确定出用于训练该实体关系分类模型的目标负样本和目标正样本。

步骤S440、基于所述目标负样本和所述目标正样本训练所述实体关系分类模型。

在一些实施例中，在训练该实体关系分类模型的过程中，可以利用实体关系转移矩阵对分类结果进行融合处理，以得到更为准确的分类结果，提升该实体关系分类模型的训练效率和训练效果。

本申请实施例中，首先获得用于训练所述实体关系分类模型的非结构文本；然后基于命名实体识别模型从所述非结构文本中抽取出训练样本集合；基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本；最后基于所述目标负样本和所述目标正样本训练所述实体关系分类模型。这样，训练样本构建阶段，实现了一种基于本体的样本构建增强策略。将本体(实体关系转移矩阵)作为先验知识，提出构建目标负样本和目标正样本的构建策略，在有效缓解样本数据本身不均衡和冗余的同时，降低了模型的训练时间。

图4B为本申请实施例提供的构建目标正样本和目标负样本的示意图，如图4B所示，该示意图包括从非结构文本中提取出的具有关系1的头实体1和尾实体2，其中，头实体1属于实体类型1，尾实体1属于实体类型2；具有关系2的头实体2和尾实体2，其中，头实体2属于实体类型3，尾实体2属于实体类型4。

在实施过程中，将头实体1和尾实体1对应关系1确定为正样本。可以组合头实体1和非实体类型2实体、非实体类型1实体和尾实体1、头实体2和尾实体2作为头实体1和尾实体1对应关系1的难负样本。组合头实体2与其他实体作为关系1的一般负样本。

这里，现有技术确定训练样本集的方法是：在原有的实体关系抽取方案中，当某个句子中存在n个实体时，会将所有实体两两组合，组成

条训练数据(关系具有方向性)，具有严重的不均衡和冗余。

这里，负样本指的是两个预测实体之间不存在实体关系或存在非目标实体关系以外的关系，其中，困难负样本指的是在构建某种实体关系的训练数据集时，筛选出负样本中与正样本相似但不存在目标实体关系的样本。例如仅保留正样本的头实体或尾实体的样本，或满足其他实体关系类别正样本条件的样本。其余类型的负样本为一般负样本。

本申请实施例提供的样本筛选策略从本体出发，在穷举所有样本的基础上，如图4B所示将所有的负样本分为两类，困难负样本和一般负样本。

基于本体的样本构建策略，针对实体关系分类模型的训练，由困难负样本与一般负样本构成负样本，与正样本按照一定的比例混合作为训练数据集。这样，模型在训练过程中接触过一般负样本，当模型在预测过程中遇到一般负样本时，模型更容易判别，增强模型的鲁棒性。

在一些实施例中，以上步骤S430“基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本”可以通过以下步骤实现：

步骤431、确定目标关系，其中，所述目标关系为正样本头实体与正样本尾实体之间的关系；

如图4B所示，将关系1确定为目标关系，即目标关系为头实体1与尾实体1之间的关系。

步骤432、利用所述实体关系转移矩阵，基于所述目标关系从所述训练样本集合中确定所述目标正样本；

在实施过程中，可以利用实体关系转移矩阵，基于关系1，从训练样集合中确定头实体1与尾实体1对应关系1。

步骤433、利用所述实体关系转移矩阵，基于所述正样本头实体和所述正样本尾实体确定困难负样本和一般负样本；

步骤434、按比例选取所述困难负样本和所述一般负样本，得到目标负样本。

本申请实施例中，本方案提出的基于实体关系转移矩阵的样本构建增强策略解决了正负样本不均衡和数据冗余的问题，同时避免模型在一般负样本耗费过多训练时间，减少了模型的训练时间。

在一些实施例中，以上步骤433“利用所述实体关系转移矩阵，基于所述正样本头实体和所述正样本尾实体确定困难负样本和一般负样本”可以通过以下步骤实现：

步骤4331、基于所述实体关系转移矩阵，确定所述非结构文本中除了所述正样本头实体之外的头实体为负样本头实体，确定所述非结构文本中除了所述正样本尾实体之外的尾实体为负样本尾实体；

这里，如图4B所示，可以基于实体关系转移矩阵，确定除了头实体1之外的头实体类型的实体为负样本头实体，确定除了尾实体1之外的尾实体类型的实体为负样本尾实体。

步骤4332、所述正样本头实体与所述负样本尾实体组合，得到第一困难负样本；所述负样本头实体与所述正样本尾实体组合，得到第二困难负样本；存在其他关系的所述负样本头实体与所述负样本尾实体组合，得到第三困难负样本；

在实施过程中，将正样本头实体与负样本尾实体组合，得到第一困难负样本，如图4B所示，头实体1与非实体类型2实体组合得到第一困难负样本。

将负样本头实体与正样本尾实体组合，得到第二困难负样本，如图4B所示，非实体类型1实体与尾实体1组合得到第二困难负样本。

将存在其他关系的负样本头实体与负样本尾实体组合，得到第三困难负样本，如图4B所示，头实体2与尾实体2组合得到第三困难负样本。

步骤4333、基于所述第一困难负样本、所述第二困难负样本和所述第三困难负样本确定所述困难负样本；

如图4B所示，将头实体1与非实体类型2实体组合得到第一困难负样本、非实体类型1实体与尾实体1组合得到第二困难负样本和头实体2与尾实体2组合得到第三困难负样本确定为困难负样本。

步骤4334、组合不存在关系的所述负样本头实体与所述负样本尾实体，得到所述一般负样本。

如图4B所示，组合头实体2与其他实体，得到一般负样本。

本申请实施例中，基于实体关系转移矩阵作为先验知识，提出三种构建困难负样本的构建策略，在有效缓解数据本身不均衡和冗余的同时，降低了模型的训练时间。

知识图谱采用三元组的形式结构化的存储知识，三元组包括两个实体和一个关系。自动化构建知识图谱的过程需要先构建本体文件，再根据本体文件从文本中自动地抽取实体和实体关系。在抽取过程中，实体一般都会显式的出现在文本中，而实体关系一般较为抽象，需要靠依存句法或深度学习模型判断实体关系。如何提升关系抽取的准确性，成为了制约自动化构建的知识图谱的重要因素之一。

现有的两种解决方法：

方法一、基于依存句法分析的关系抽取，根据句子中包含的句法信息建立句法树，从中抽取出主谓宾关系，其中主语和宾语代表两个实体，谓语代表两个实体之间的关系。

方法二、基于深度学习模型的关系抽取。

A)联合抽取模型：采用多任务学习框架，同时抽取出文本中的实体和关系。两种任务共享参数，互相促进，联合抽取。

B)基于管线pipeline的关系抽取模型：将抽取实体和抽取关系视为两种不同的任务。先用命名实体识别模型从文本中抽取出实体，再将抽取结果作为关系模型的输入，抽取实体间的关系。

现有的两种解决方法存在三个问题：

问题一、采用依存句法分析的关系抽取方法，具有局限性，无法解决句式复杂或者两个实体距离较远的情况。

问题二、两种基于深度学习的解决方案都是针对模型本身结构做改进，从而忽略了数据本身对模型性能的影响。在这类解决方法中，构造数据的方法是穷举句子中所有的实体关系，而真正属于本体定义的实体关系(正样本)只占其中一小部分，存在数据冗余和正负样本不均衡等问题，导致模型训练时间过长。

问题三、两种基于深度学习的解决方案都采取先随机初始化模型参数，学习数据的特征分布，判别实体关系。此类方法存在的问题是并非本体中所有的关系都出现在训练样本中，对于部分出现次数较少甚至未在训练数据中出现的实体关系类型，模型难以判别，导致模型整体的准确率降低。

本申请实施例在关系抽取的场景中提出了一种基于本体知识的实体关系抽取增强方法，从构建训练样本增强，到实体关系模型预测加强两个方面减少关系抽取模型的训练时间，提升模型的准确率。

在训练样本构建阶段，提出了一种基于本体的样本构建增强策略。将本体文件作为先验知识，提出三种构建困难负样本的构建策略，在有效缓解数据本身不均衡和冗余的同时，降低了模型的训练时间。

在实体关系预测阶段，提出了一种基于本体的实体关系分类增强策略。引入本体信息作为实体关系分类的先验知识，有效地缓解了数据本身部分实体关系样本稀疏问题，避免模型因数据问题导致部分实体关系的预测表现较差。提高了模型整体预测的准确性。

本申请实施例提出的基于本体知识的实体关系抽取增强方法，包含基于本体的样本构建增强策略和实体关系分类增强策略。该方案不仅能够解决数据本身数据冗余和不均衡问题，也能与以往的解决方案灵活结合，应用于各类基于深度学习的实体关系预测模型中因此该方案具备良好的实用性和有效性。

基于前述的实施例，本申请实施例提供一种实体关系抽取装置，该装置包括所包括的各模块，各模块包括各子模块，各子模块包括单元，可以通过电子设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital Signal Process，DSP)或现场可编程门阵列(Field Programmable GateArray，FPGA)等。

图5为本申请实施例提供的实体关系抽取装置的组成结构示意图，如图5所示，所述装置500包括：

识别模块510，用于识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；

第一获得模块520，用于根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；

融合模块530，用于对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

在一些实施例中，所示融合模块530包括修正子模块和加权求和子模块，其中，所述修正子模块，用于基于所述第一关系分类结果，对所述第二关系分类结果进行修正处理；所述加权求和子模块，用于对所述第一关系分类结果和所述第二关系分类结果进行加权求和处理。

在一些实施例中，所述装置还包括第一确定模块、第二确定模块、第三确定模块，其中，所述第一确定模块，用于确定所述待识别文本的领域；第二确定模块，用于基于所述待识别文本的领域确定所述待识别文本对应的本体图；第三确定模块，用于根据所述本体图确定所述实体关系转移矩阵。

在一些实施例中，所述第二确定模块包括第一确定子模块和第一定义子模块，其中，所述第一确定子模块，用于确定所述待识别文本的领域中的N种实体类型和M种实体类型关系，其中，N为大于等于2的整数，M为大于等于1的整数；所述第一定义子模块，用于基于所述的N种实体类型和M种实体类型关系定义所述本体图。

在一些实施例中，所述第三确定模块包括第二定义子模块和第三定义子模块，其中，所述第二定义子模块，用于定义所述N种实体类型中每两种实体类型存在的关系概率分布P_ti,tj，其中，P_ti,tj包括M个概率分布数据，每一所述概率分布数据对应一种实体类型关系概率，i和j均为小于等于N的整数；所述第三定义子模块，用于基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj定义所述实体关系转移矩阵。

在一些实施例中，所述第三定义子模块包括第一设置单元、第二设置单元和第三设置单元，其中，所述第一设置单元，用于在确定实体类别ti和实体类别tj不存在实体关系的情况下，将所述关系概率分布P_ti,tj中所有值设置为-X，X为正整数；所述第二设置单元，用于在确定实体类别ti和实体类别tj存在一种实体关系的情况下，将存在一种实体关系的概率分布值设置为X，其余关系概率分布值设置为0；所述第三设置单元，用于在确定实体类别ti和实体类别tj存在K种实体关系的情况下，将所述K种实体关系中的每一种实体关系对应的关系概率分布值设置为1/k，其余关系概率分布值设置为0。

在一些实施例中，所述装置还包括第二获得模块、抽取模块、第四确定模块和训练模块，其中，所述第二获得模块，用于获得用于训练所述实体关系分类模型的非结构文本；抽取模块，用于基于命名实体识别模型从所述非结构文本中抽取出训练样本集合；第四确定模块，用于基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本；训练模块，用于基于所述目标负样本和所述目标正样本训练所述实体关系分类模型。

在一些实施例中，所述第四确定模块包括第二确定子模块、第三确定子模块，第四确定子模块和比例选取子模块，其中，所述第二确定子模块，用于确定目标关系，其中，所述目标关系为正样本头实体与正样本尾实体之间的关系；所述第三确定子模块，用于利用所述实体关系转移矩阵，基于所述目标关系从所述训练样本集合中确定所述目标正样本；所述第四确定子模块，用于利用所述实体关系转移矩阵，基于所述正样本头实体和所述正样本尾实体确定困难负样本和一般负样本；比例选取子模块，用于按比例选取所述困难负样本和所述一般负样本，得到目标负样本。

在一些实施例中，所述第四确定子模块包括第一确定单元、第二确定单元和组合单元，其中，所述第一确定单元，用于基于所述实体关系转移矩阵，确定所述非结构文本中除了所述正样本头实体之外的头实体为负样本头实体，确定所述非结构文本中除了所述正样本尾实体之外的尾实体为负样本尾实体；

其中，所述正样本头实体与所述负样本尾实体组合，得到第一困难负样本；所述负样本头实体与所述正样本尾实体组合，得到第二困难负样本；存在其他关系的所述负样本头实体与所述负样本尾实体组合，得到第三困难负样本；所述第二确定单元，用于基于所述第一困难负样本、所述第二困难负样本和所述第三困难负样本确定所述困难负样本；所述组合单元，用于组合不存在关系的所述负样本头实体与所述负样本尾实体，得到所述一般负样本。

以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

对应地，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的实体关系抽取方法中的步骤。

对应地，本申请实施例提供一种电子设备，图6为本申请实施例提供的电子设备的一种硬件实体示意图，如图6所示，该设备600的硬件实体包括：包括存储器601和处理器602，所述存储器601存储有可在处理器602上运行的计算机程序，所述处理器602执行所述程序时实现上述实施例中提供的实体关系抽取方法中的步骤。

存储器601配置为存储由处理器602可执行的指令和应用，还可以缓存待处理器602以及电子设备600中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。

这里需要指出的是：以上存储介质和设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得电子设备(可以是手机、平板电脑、笔记本电脑、台式计算机等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种实体关系抽取方法，其特征在于，所述方法包括：

识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；

根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；

对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。

2.如权利要求1所述的方法，所述对所述第一关系分类结果和第二关系分类结果进行融合处理包括以下至少一种：

基于所述第一关系分类结果，对所述第二关系分类结果进行修正处理；

对所述第一关系分类结果和所述第二关系分类结果进行加权求和处理。

3.如权利要求1所述的方法，所述方法还包括：

确定所述待识别文本的领域；

基于所述待识别文本的领域确定所述待识别文本对应的本体图；

根据所述本体图确定所述实体关系转移矩阵。

4.如权利要求3所述的方法，所述基于所述待识别文本的领域确定所述待识别文本对应的本体图，包括：

确定所述待识别文本的领域中的N种实体类型和M种实体类型关系，其中，N为大于等于2的整数，M为大于等于1的整数；

基于所述的N种实体类型和M种实体类型关系定义所述本体图。

5.如权利要求4所述的方法，所述根据所述本体图确定所述实体关系转移矩阵，包括：

定义所述N种实体类型中每两种实体类型存在的关系概率分布P_ti,tj，其中，P_ti,tj包括M个概率分布数据，每一所述概率分布数据对应一种实体类型关系概率，i和j均为小于等于N的整数；

基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj定义所述实体关系转移矩阵。

6.如权利要求5所述的方法，所述基于所述N种实体类型、所述M种实体类型关系和所述关系概率分布P_ti,tj定义所述实体关系转移矩阵，包括以下至少一种：

在确定实体类别ti和实体类别tj不存在实体关系的情况下，将所述关系概率分布P_ti,tj中所有值设置为-X，X为正整数；

在确定实体类别ti和实体类别tj存在一种实体关系的情况下，将存在一种实体关系的概率分布值设置为X，其余关系概率分布值设置为0；

在确定实体类别ti和实体类别tj存在K种实体关系的情况下，将所述K种实体关系中的每一种实体关系对应的关系概率分布值设置为1/k，其余关系概率分布值设置为0。

7.如权利要求1所述的方法，所述方法还包括：

获得用于训练所述实体关系分类模型的非结构文本；

基于命名实体识别模型从所述非结构文本中抽取出训练样本集合；

基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本；

基于所述目标负样本和所述目标正样本训练所述实体关系分类模型。

8.如权利要求7所述的方法，所述基于所述实体关系转移矩阵从所述训练样本集合中确定目标负样本和目标正样本，包括：

确定目标关系，其中，所述目标关系为正样本头实体与正样本尾实体之间的关系；

利用所述实体关系转移矩阵，基于所述目标关系从所述训练样本集合中确定所述目标正样本；

利用所述实体关系转移矩阵，基于所述正样本头实体和所述正样本尾实体确定困难负样本和一般负样本；

按比例选取所述困难负样本和所述一般负样本，得到目标负样本。

9.如权利要求8所述的方法，所述利用所述实体转关系移矩阵，基于所述正样本头实体和所述正样本尾实体确定困难负样本和一般负样本，包括：

基于所述实体关系转移矩阵，确定所述非结构文本中除了所述正样本头实体之外的头实体为负样本头实体，确定所述非结构文本中除了所述正样本尾实体之外的尾实体为负样本尾实体；

其中，所述正样本头实体与所述负样本尾实体组合，得到第一困难负样本；所述负样本头实体与所述正样本尾实体组合，得到第二困难负样本；存在其他关系的所述负样本头实体与所述负样本尾实体组合，得到第三困难负样本；

基于所述第一困难负样本、所述第二困难负样本和所述第三困难负样本确定所述困难负样本；

组合不存在关系的所述负样本头实体与所述负样本尾实体，得到所述一般负样本。

10.一种实体关系抽取装置，其特征在于，所述装置包括：

识别模块，用于识别待识别文本，得到所述待识别文本中至少两个实体和所述两个实体所属的类型；

第一获得模块，用于根据所述待识别文本对应的本体图获得用于预测实体之间关系的实体关系转移矩阵，基于所述两个实体所属的类型查询所述实体关系转移矩阵，得到所述两个实体的第一关系分类结果；

融合模块，用于对所述第一关系分类结果和第二关系分类结果进行融合处理，得到所述两个实体的目标关系分类结果，其中，所述第二关系分类结果是通过实体关系分类模型识别所述待识别文本得到的。