CN110968702B

CN110968702B - 一种事理关系提取方法及装置

Info

Publication number: CN110968702B
Application number: CN201911197603.4A
Authority: CN
Inventors: 袁杰; 张�杰; 高古明; 罗华刚; 李犇; 陈秀坤
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-05-09
Anticipated expiration: 2039-11-29
Also published as: CN110968702A

Abstract

本申请提供了一种事理关系提取方法及装置，包括：获取待识别语料；将所述待识别语料输入至预先训练好的特征提取模型中，得到所述待识别语料中关键词的词向量；基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，并将所述目标关键词集合对应的事理关系确定为所述待识别语料的事理关系。通过这种方法，可以提高事理图谱中事理关系提取的精度。

Description

一种事理关系提取方法及装置

技术领域

本申请涉及互联网技术领域，尤其是涉及一种事理关系提取方法及装置。

背景技术

随着深度学习的兴起，人工智能迎来了新的发展高潮，许多人工智能的应用依赖于对事理逻辑知识的深刻理解。目前人工智能中应用较多的为知识图谱，然而知识图谱大多聚焦于实体和实体之间的关系，缺乏对事理逻辑知识的挖掘，于是又提出了事理图谱的概念。

事理图谱描述了事件之间的演化规律和模式，事理图谱为一个有向有环图，节点代表了事件，有向边代表了事件之间的事理关系，事件之间的事理关系的精度将会影响神经网络的精度，因此需要一种提取事理关系的方法。

发明内容

有鉴于此，本申请的目的在于提供一种事理关系提取方法及装置，以提高事理图谱中事理关系提取的精度。

第一方面，本申请实施例提供了一种事理关系提取方法，包括：

获取待识别语料；

将所述待识别语料输入至预先训练好的特征提取模型中，得到所述待识别语料中关键词的词向量；

基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，并将所述目标关键词集合对应的事理关系确定为所述待识别语料的事理关系。

一种可能的实施方式中，所述关键词为所述待识别语料中的承接词。

一种可能的实施方式中，所述特征提取模型包括关键词提取模型和特征提取子模型；

所述将所述待识别语料输入至预先训练好的特征提取模型中，得到所述待识别语料中关键词的词向量，包括：

将所述待识别语料输入至所述关键词提取模型，得到所述待识别语料对应的预测文本标注；

基于所述预测文本标注确定所述待识别语料的关键词；

将所述待识别语料输入至所述特征提取子模型，得到所述待识别语料的每一个字的词向量，并基于所述待识别语料的关键字，确定所述关键字的词向量。

一种可能的实施方式中，按照以下方法确定所述至少一个关键词集合：

获取多个样本关键词，以及每个样本关键词对应的词向量；

分别计算每两个样本关键词的词向量之间的第一特征相似度，当所述第一特征相似度满足第一预设条件时，将所述两个样本关键词划分至同一关键词集合。

一种可能的实施方式中，按照以下方法确定每个关键词集合对应的事理关系：

确定关键词集合中所包含的样本关键词的词向量的均值词向量；

计算所述关键词集合中每一个样本关键词的词向量与所述均值词向量之间的第二特征相似度；

将所述第二特征相似度满足第二预设条件的样本关键词确定为所述关键词集合对应的事理关系。

一种可能的实施方式中，所述基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，包括：

计算所述关键词的词向量与每一个所述关键词集合的均值词向量之间的第三特征相似度；

将所述第三特征相似度最高的关键词集合确定为所述关键词所属的目标关键词集合。

一种可能的实施方式中，按照以下方法训练得到所述特征提取模型：

获取带有文本标注的样本语料，以及确定所述样本语料中的每一个字对应的第一词向量，其中所述文本标注表示所述样本语料中的每一个字对应的文本类型；

将所述样本语料输入至待训练的关键词提取模型中，确定所述样本语料中每一个字对应的预测文本标注；以及，将所述样本语料输入至待训练的特征提取子模型中，确定所述样本语料中每一个字对应的第二词向量；

基于所述样本语料中每一个字对应的预测文本标注、以及所述样本语料的文本标注，训练所述关键词提取模型；以及，基于所述样本语料中每一个字对应的第二词向量、以及所述样本语料中每一个字对应的第一词向量训练所述特征提取子模型。

第二方面，本申请实施例还提供一种事理关系提取装置，包括：

获取模块，用于获取待识别语料；

词向量提取模块，用于将所述待识别语料输入至预先训练好的特征提取模型中，得到所述待识别语料中关键词的词向量；

确定模块，用于基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，并将所述目标关键词集合对应的事理关系确定为所述待识别语料的事理关系。

所述词向量提取模块，在将所述待识别语料输入至预先训练好的特征提取模型中，得到所述待识别语料中关键词的词向量时，用于：

基于所述预测文本标注确定所述待识别语料的关键词；

一种可能的实施方式中，所述确定模块，还用于按照以下方法确定所述至少一个关键词集合：

获取多个样本关键词，以及每个样本关键词对应的词向量；

一种可能的实施方式中，所述确定模块，还用于按照以下方法确定每个关键词集合对应的事理关系：

一种可能的实施方式中，所述确定模块，在基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合时，用于：

一种可能的实施方式中，所述装置，还包括：训练模块，所述训练模块，用于按照以下方法训练得到所述特征提取模型：

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面的任一种可能的实施方式中的步骤。

本申请实施例提供的事理关系提取方法及装置，可以通过预先训练好的特征提取模型，确定待识别语料中的关键词的词向量，然后基于关键词的词向量、以及预先训练好的至少一个关键词集合，并确定关键词所属的目标关键词集合，然后将目标关键词集合对应的事理关系，确定为待识别语料的事理关系，通过这种方法可以提高事理图谱中事理关系确定的精度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种事理关系提取方法的流程示意图；

图2示出了本申请实施例所提供的一种关键词集合确定方法的流程示意图；

图3示出了本申请实施例所提供的一种关键词集合对应的事理关系确定方法示意图；

图4示出了本申请实施例所提供的一种特征提取模型训练方法流程示意图；

图5示出了本申请实施例所提供的一种事理关系提取装置的架构示意图；

图6示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种事理关系提取方法进行详细介绍。

参见图1所示，为本申请实施例所提供的一种事理关系提取方法的流程示意图，包括以下几个步骤：

步骤101、获取待识别语料。

步骤102、将待识别语料输入至预先训练好的特征提取模型中，得到待识别语料中关键词的词向量。

在一种可能的实施方式中，待识别语料中的关键词为待识别语料中的承接词，承接词例如可以为因果关系承接词(如导致、因此、所以等)、顺承关系承接词(则、以、且等)、上下位关系承接词(包括、涵盖等)等。

特征提取模型可以包括关键词提取模型和特征提取子模型，其中，关键词提取模型用于确定待识别语料中的关键词，特征提取子模型用于提取待识别语料中的关键词的词向量。

具体的，在将待识别语料输入至关键词提取模型中之后，可以先基于关键词提取模型得到待识别语料对应的预测文本标注，然后基于预测文本表述确定待识别语料中的关键词，同时，将待识别语料输入特征提取子模型中，得到待识别语料的每一个字的词向量，然后基于待识别语料的关键字，确定关键字的词向量。其中，关键词提取模型的训练方法将在下边详细说明，在此暂不展开介绍。

示例性的，待识别语料对应的预测文本标注可以为BIO标注，例如若待识别语料为“通货膨胀等因素导致猪肉价格上涨”，则其对应的BIO标注为“O O O O O O O B I O O OO O O”，B表示识别出的关键字的第一个字，I表示识别出的关键字中除第一个字之外的其他的字，O表示非关键字。基于预测文本标注，可以确定待识别语料的关键字为“B”和“I”对应位置的字。

在将待识别语料输入至特征提取子模型中之后，可以确定待识别语料中的每一个字对应的词向量，其中，特征提取子模型例如可以为word2vec模型。具体的，特征提取子模型的训练方法将在下边详细说明，在此暂不展开介绍。

步骤103、基于关键词的词向量、以及预先分类好的至少一个关键词集合，确定关键词所属的目标关键词集合，并将目标关键词集合对应的事理关系确定为待识别语料的事理关系。

在一种可能的实施方式中，可以通过如图2所示的方法，确定至少一个关键词集合，包括以下几个步骤：

步骤201、获取多个样本关键词，以及每个样本关键词对应的词向量。

其中，样本关键词可以是来源于样本关键词数据库，在确定每个样本关键词对应的词向量时，可以是将每个样本关键词所对应的样本语料输入至预先训练好的特征提取模型中，确定每个样本关键词的词向量。

步骤202、分别计算每两个样本关键词的词向量之间的第一特征相似度，当所述第一特征相似度满足第一预设条件时，将所述两个样本关键词划分至同一关键词集合。

在一种可能的实施方式中，可以计算每两个样本关键词的词向量之间的欧氏距离、或余弦距离，然后将计算出的欧氏距离或余弦距离确定为两个样本关键词的词向量之间的第一特征相似度。

当第一特征相似度满足第一预设条件时，可以是当第一特征相似度大于预设相似度阈值时，将两个样本关键词划分至同一关键词集合。

具体实施中，若样本关键词包括关键词A、关键词B、关键词C、以及关键词D，则可以分别计算A、B之间的第一特征相似度，若A、B之间的第一特征相似度满足第一预设条件，则将A和B划分至同一关键词集合，然后计算C与A或C与B之间的第一特征相似度，若满足第一预设条件，则将C和A、B划分至同一关键词集合，若不满足第一预设条件，则将C单独作为一个关键词集合，以此类推，直至同一个关键词集合中的任意两个关键词之间的词向量的第一特征相似度满足第一预设条件。

在一种可能的实施方式中，在确定每个关键词集合对应的事理关系时，可以参照如图3所示的方法，包括以下几个步骤：

步骤301、确定关键词集合中所包含的样本关键词的词向量的均值词向量。

具体的，在确定关键词集合中所包含的样本关键词的词向量的均值词向量时，可以计算每个位置对应的元素的均值，并将均值确定为均值词向量在该位置对应的元素值。

示例性的，若关键词集合中的样本关键词的词向量分别为[a₁，b₁，c₁]，[a₂，b₂，c₂]，[a₃，b₃，c₃]，则对应的均值词向量为：

步骤302、计算所述关键词集合中每一个样本关键词的词向量与所述均值词向量之间的第二特征相似度。

其中，在计算关键词集合中的每一个样本关键词的词向量与均值词向量之间的第二特征相似度时，可以是计算关键词集合中的每一个样本关键词的词向量与均值词向量之间的欧氏距离或余弦距离。

步骤303、将所述第二特征相似度满足第二预设条件的样本关键词确定为所述关键词集合对应的事理关系。

具体的，将第二特征相似度满足第二预设条件的样本关键词确定为关键词集合对应的事理关系，可以是将第二特征相似度大于预设相似度的样本关键词确定为关键词集合对应的事理关系，也可以将同一关键词结合中所有样本关键词对应的第二特征相似度按照从大到小的顺序进行排序，将第二特征相似度最大的确定为关键词集合对应的事理关系。

在基于关键词的词向量、以及预先分类好的至少一个关键词集合，确定关键词所属的目标关键词集合时，可以先计算待预测语料的关键词的词向量与每一个关键词集合的均值词向量之间的第三特征相似度，然后将第三特征相似度最高的关键词集合确定为待预测语料的关键词所属的目标关键词集合。

其中，在计算待预测语料的关键词的词向量与每一个关键词集合的均值词向量之间的第三特征相似度时，可以计算待预测语料的关键词的词向量与每一个关键词集合的均值词向量之间的欧氏距离或余弦距离等。

下面，将对上述特征提取模型的训练方法展开介绍。

在对特征提取模型进行训练时，可以参照如图4所示的特征提取模型训练方法流程示意图，包括以下几个步骤：

步骤401、获取带有文本标注的样本语料，以及确定所述样本语料中的每一个字对应的第一词向量，其中所述文本标注表示所述样本语料中的每一个字对应的文本类型。

其中，在确定样本语料中的每一个字对应的第一词向量时，可以是对样本语料中的每一个字都进行独热Onehot编码，然后将其Onehot编码确定为该样本语料中每一个字对应的第一词向量。

样本语料的文本标注可以采用BIO标注方法，其中，“B”表示样本语料中关键词的第一个字，“I”表示样本语料中关键词除第一个字之外的其他字，“O”表示样本语料中的非关键字。

步骤402、将所述样本语料输入至待训练的关键词提取模型中，确定所述样本语料中每一个字对应的预测文本标注；以及，将所述样本语料输入至待训练的特征提取子模型中，确定所述样本语料中每一个字对应的第二词向量。

在将样本语料输入至待训练的特征提取子模型之后，在确定待预测字的第二词向量时，可以基于与待预测字向量的字的第一词向量，确定待预测字的第二词向量。

示例性的，若样本语料为“通货膨胀等因素导致猪肉价格上涨”，待预测字为“导”，则可以根据“因”、“素”、“致”、“猪”的第一词向量，预测“导”的第二词向量。

步骤403、基于所述样本语料中每一个字对应的预测文本标注、以及所述样本语料的文本标注，训练所述关键词提取模型；以及，基于所述样本语料中每一个字对应的第二词向量、以及所述样本语料中每一个字对应的第一词向量训练所述特征提取子模型。

具体实施中，可以将样本语料中每一个字对应的预测文本标注，确定预测出的样本语料的关键字，然后基于样本语料的文本标注，确定标注的样本语料的关键字，基于预测出的样本语料的关键字和标注的样本语料的关键字，确定本次训练过程中关键词提取模型的交叉熵损失，在交叉熵损失不满足预设条件时，调整关键词提取模型的模型参数。

在另外一种可能的实施方式中，还可以基于样本语料中的每一个字的预测文本标注和样本语料的文本标注，确定训练过程中的交叉熵损失。

本申请实施例提供的事理关系提取方法，可以通过预先训练好的特征提取模型，确定待识别语料中的关键词的词向量，然后基于关键词的词向量、以及预先训练好的至少一个关键词集合，并确定关键词所属的目标关键词集合，然后将目标关键词集合对应的事理关系，确定为待识别语料的事理关系，通过这种方法可以提高事理图谱中事理关系确定的精度。

基于相同的构思，本申请实施例还提供了一种事理关系提取装置，参见图5所示，为本申请实施例所提供的一种事理关系提取装置的架构示意图，包括获取模块501、词向量提取模块502、确定模块503、以及训练模块504，具体的：

获取模块，用于获取待识别语料；

基于所述预测文本标注确定所述待识别语料的关键词；

获取多个样本关键词，以及每个样本关键词对应的词向量；

基于同一技术构思，本申请实施例还提供了一种电子设备。参照图6所示，为本申请实施例提供的电子设备的结构示意图，包括处理器601、存储器602、和总线603。其中，存储器602用于存储执行指令，包括内存6021和外部存储器6022；这里的内存6021也称内存储器，用于暂时存放处理器601中的运算数据，以及与硬盘等外部存储器6022交换的数据，处理器601通过内存6021与外部存储器6022进行数据交换，当电子设备600运行时，处理器601与存储器602之间通过总线603通信，使得处理器601在执行以下指令：

获取待识别语料；

一种可能的实施方式中，处理器601执行的指令中，所述关键词为所述待识别语料中的承接词。

一种可能的实施方式中，处理器601执行的指令中，所述特征提取模型包括关键词提取模型和特征提取子模型；

基于所述预测文本标注确定所述待识别语料的关键词；

一种可能的实施方式中，处理器601执行的指令中，按照以下方法确定所述至少一个关键词集合：

获取多个样本关键词，以及每个样本关键词对应的词向量；

一种可能的实施方式中，处理器601执行的指令中，按照以下方法确定每个关键词集合对应的事理关系：

一种可能的实施方式中，处理器601执行的指令中，所述基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，包括：

一种可能的实施方式中，处理器601执行的指令中，按照以下方法训练得到所述特征提取模型：

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述任一实施例中所述的事理关系提取方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述事理关系提取方法的步骤。

本申请实施例所提供的进行事理关系提取方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种事理关系提取方法，其特征在于，包括：

获取待识别语料；

基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，并将所述目标关键词集合对应的事理关系确定为所述待识别语料的事理关系；

按照以下方法确定所述至少一个关键词集合：

获取多个样本关键词，以及每个样本关键词对应的词向量；

分别计算每两个样本关键词的词向量之间的第一特征相似度，当所述第一特征相似度满足第一预设条件时，将所述两个样本关键词划分至同一关键词集合；

按照以下方法确定每个关键词集合对应的事理关系：

确定所述关键词集合中所包含的样本关键词的词向量的均值词向量；

将所述第二特征相似度满足第二预设条件的样本关键词确定为所述关键词集合对应的事理关系；

所述基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，包括：

2.根据权利要求1所述的方法，其特征在于，所述关键词为所述待识别语料中的承接词。

3.根据权利要求1所述的方法，其特征在于，所述特征提取模型包括关键词提取模型和特征提取子模型；

基于所述预测文本标注确定所述待识别语料的关键词；

将所述待识别语料输入至所述特征提取子模型，得到所述待识别语料的每一个字的词向量，并基于所述待识别语料的关键词，确定所述关键词的词向量。

4.根据权利要求1所述的方法，其特征在于，按照以下方法训练得到所述特征提取模型：

5.一种事理关系提取装置，其特征在于，包括：

获取模块，用于获取待识别语料；

确定模块，用于基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合，并将所述目标关键词集合对应的事理关系确定为所述待识别语料的事理关系；

所述确定模块，还用于按照以下方法确定所述至少一个关键词集合：

获取多个样本关键词，以及每个样本关键词对应的词向量；

所述确定模块，还用于按照以下方法确定每个关键词集合对应的事理关系：

所述确定模块，在基于所述关键词的词向量、以及预先分类好的至少一个关键词集合，确定所述关键词所属的目标关键词集合时，用于：

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至4任一所述的事理关系提取方法的步骤。

7.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至4任一所述的事理关系提取方法的步骤。