CN111476035A

CN111476035A - 中文开放关系预测方法、装置、计算机设备和存储介质

Info

Publication number: CN111476035A
Application number: CN202010373305.2A
Authority: CN
Inventors: 谭真; 张翀; 何春辉; 葛斌; 封孝生; 肖卫东; 陈洪辉; 易侃; 黄四牛; 王菁; 黄莉华
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-07-31
Anticipated expiration: 2040-05-06
Also published as: CN111476035B

Abstract

本申请涉及一种中文开放关系预测方法、装置、计算机设备和存储介质。所述方法包括：获取待预测句子中的命名实体，根据命名实体和待预测句子内容，构建实体对，实体对包括：头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容，当头实体类型和尾实体类型与预设的类型模式匹配，则将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。采用本方法能够提高开放关系预测的准确性。

Description

中文开放关系预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及语义分析技术领域，特别是涉及一种中文开放关系预测方法、装置、计算机设备和存储介质。

背景技术

为了及时地扩展新知识，从海量非结构化数据中获取新的结构化知识已成为一个热点研究问题。以实体关系抽取为代表的知识抽取技术已经取得了一些成果，特别是近年来监督学习模型极大地推动了特定关系抽取的发展。但是，与实际场景的开放关系抽取的复杂挑战需求相比，现有技术仍有一些局限性。我们亟需从实际需求出发，解决开放关系建模问题，提出有效的开放关系抽取方法。

传统的关系抽取工作一般有预先定义好的特定关系集合，再将任务转换为关系分类问题已取得了较好的效果。然而，在开放的关系抽取场景中，文本中包含大量开放的实体关系，且种类繁多，远超过预先定义的关系种类数量。在这种情况下，传统关系分类模型无法直接有效获取文本中蕴含的实体间新型关系。如何利用模型自动发现实体间的新型关系，实现开放关系抽取，属于当前阶段的一个难点问题。

为了实现开放关系的抽取，有学者提出了开放关系抽取(ORE)任务，致力于从非结构化文本中抽取实体间的关系事实。最近，Ruidong Wu提出了一种有监督的开放关系抽取框架，可以通过Relation Siamese Network(RSN)实现有监督和弱监督模式的自由切换，从而能够同时利用预定义关系的有监督数据和非结构化文本中新关系的无监督数据，来共同学习不同关系事实的语义相似度。具体来说，RSN采用孪生网络结构，从预定义关系的标注数据中学习关系样本的深度语义特征和相互间的语义相似度，可用于计算包含开放关系文本的语义相似度。然而，Tianyu Gao提出对于开放的新型关系，只需要提供少量精确的实例作为种子，就可以利用预训练的关系孪生网络方法训练出适用于新型关系的抽取模型。但是目前的关系预测需要对模型进行针对性的训练，对于开放关系预测的结果精确度不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决开放关系预测不准确问题的中文开放关系预测方法、装置、计算机设备和存储介质。

一种中文开放关系预测方法，所述方法包括：

获取待预测句子中的命名实体，根据命名实体和所述待预测句子内容，构建实体对；所述实体对包括：头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容；

当所述头实体类型和所述尾实体类型与预设的类型模式匹配，则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

在其中一个实施例中，还包括：将待预测句子输入五级BIOSE标记系统，得到待预测句子的标记结果序列；根据所述标记结果序列，确定待预测句子中的命名实体。

在其中一个实施例中，还包括：根据所述标记结果序列，确定所述标记结果序列中排序靠前的命名实体为头实体，排序靠后的命名实体为尾实体；根据所述头实体的头实体类型和所述尾实体的尾实体类型，确定所述头实体和所述尾实体是否关联；若是，则保存为实体对，若否，则从预先设置的实体对列表中删除。

在其中一个实施例中，所述关系预测模型为基于BERT的Att-Bi-GRU模型。

在其中一个实施例中，还包括：将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型，对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理；将分词处理得到的单词进行BERT嵌入，得到每个单词对应的词向量；将所述词向量分别输入对应的Att-Bi-GRU网络，得到每个词向量的隐层状态；对所述隐层状态进行组合，并通过输出层输出所述实体对对应的关系类型。

在其中一个实施例中，还包括：确定单词t的特征向量为：

其中，h_T表示特征向量，h_i表示单词i对应的隐层状态，k表示总单词数；

α_i＝Aw_i+B

其中，set[head entity，tail entity]指的是位于头实体和位置之间的单词集合，A，B是网络的参数；根据所述特征向量，确定单词t的权重。

在其中一个实施例中，还包括：若所述关系预测模型无法预测所述实体对的关系类型，或者所述关系类型的概率对应的置信度小于预设值，则对待预测句子进行句子语义依存分析，得到实体对的关系类型。

一种中文开放关系预测装置，所述装置包括：

实体提取模块，用于获取待预测句子中的命名实体，根据命名实体和所述待预测句子内容，构建实体对；所述实体对包括：头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容；

关系预测模块，用于当所述头实体类型和所述尾实体类型与预设的类型模式匹配，则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述中文开放关系预测方法、装置、计算机设备和存储介质，通过提取待预测句子中的命名实体，然后构建实体对，实体对中包含了头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容，因此在进行关系预测时，可以针对特定的类型模式进行匹配，提高预测的准确性，针对特定类型模式，将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

附图说明

图1为一个实施例中中文开放关系预测方法的流程示意图；

图2为一个实施例中命名实体提取步骤的流程示意图；

图3为一个实施例中关系类型预测步骤的流程示意图；

图4为一个实施例中句子语义依存分析的示意图；

图5为一个实施例中中文开放关系预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种中文开放关系预测方法，包括以下步骤：

步骤102，获取待预测句子中的命名实体，根据命名实体和待预测句子内容，构建实体对。

实体对包括：头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容。

具体的，可以采用实体识别模型确定待预测句子中包含的命名实体，例如CRF，支持向量机等方式。

在进行命名实体识别时，还可以确定命名实体类型的确定，根据头实体类型和尾实体类型，可以确定是否与预设的类型模式匹配。

步骤104，当头实体类型和尾实体类型与预设的类型模式匹配，则将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

类型模式指的是预先设置头实体类型和尾实体类型，然后在实体对中进行匹配，匹配得到合适的实体对进行关系类型预测。

上述中文开放关系预测方法中，通过提取待预测句子中的命名实体，然后构建实体对，实体对中包含了头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容，因此在进行关系预测时，可以针对特定的类型模式进行匹配，提高预测的准确性，针对特定类型模式，将实体对中头实体、尾实体以及待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

对于步骤102，在其中一个实施例中，将待预测句子输入五级BIOSE标记系统，得到待预测句子的标记结果序列，根据标记结果序列，确定待预测句子中的命名实体。

具体的，如图2所示，可以基于BERT的Bi-LSTM-CRF模型来识别命名实体，在此模型中，采用五级BIOSE标记系统来完成所有语料库的标记任务，该模型的嵌入层通过Chinese-BERT-Base实现字符向量的转换。然后是Bi-LSTM网络层，隐藏层和CRF层。最后，输出标记结果序列。根据实体列表的结果，可以快速获取所有实体对。首先，根据这些命名实体在原始句子中首次出现的位置对其进行排序。然后，从头到尾将它们组合起来以一对一地建立实体对。出现在前面的实体被确定为头实体，后面出现的为尾实体。例如，我们输入原始句子“奥巴马毕业于哈佛大学”。命名实体识别模型将输出的实体列表为[Obama-PER，哈佛大学-ORG]，我们可以将实体对建立为(Obama，PER，哈佛大学，ORG，奥巴马毕业于哈佛大学)。

在另一个实施例中，根据标记结果序列，确定标记结果序列中排序靠前的命名实体为头实体，排序靠后的命名实体为尾实体；根据头实体的头实体类型和尾实体的尾实体类型，确定头实体和尾实体是否关联；若是，则保存为实体对，若否，则从预先设置的实体对列表中删除。

具体的，根据实体对类型的过滤规则选择所有合理的实体对。例如，如果头实体和尾实体的类型为DATE-to-DATE，则两个实体之间可能不存在有意义的关系，因此应将其从实体对列表中删除。但是，如果实体对的类型是PER-to-ORG，它将被保留。以此类推，我们可以获得所有潜在的实体对。

在其中一个实施例中，关系预测模型为基于BERT的Att-Bi-GRU模型，BERT是2018年google提出来的预训练的语言模型，它打破很多NLP领域的任务记录，其提出在nlp的领域具有重要意义。Att-Bi-GRU模型指的是其中包含Bi-GRU网络以及引入Attention机制。具体的，Att-Bi-GRU模型包含8层结构，分别为：输入层、分词层、BERT嵌入层、Bi-GRU层、Attention层、Concat层归一化层以及输出层。

在另一个实施例中，将头实体、尾实体以及待预测句子内容输入Att-Bi-GRU模型，对头实体、尾实体以及待预测句子内容进行分词处理；将分词处理得到的单词进行BERT嵌入，得到每个单词对应的词向量；将词向量分别输入对应的Att-Bi-GRU网络，得到每个词向量的隐层状态；对隐层状态进行组合，并通过输出层输出实体对对应的关系类型。

具体的，如图3所示，可以采用标注语料库来完成Att-Bi-GRU模型的训练，输入样本包括头实体，尾实体，原始句子和关系，对于分词层，我们使用pyhanlp模块来执行它，需要注意的是，为了提高分词的准确性，在分割阶段将命名实体识别结果中的所有实体添加到用户自定义的词典中。基于预训练的中文-BERT-wwm-ext词向量嵌入模型的BERT嵌入层来获得所有词的向量变换结果[x₁,x₂,…,x_k]，其余层使用Tensorflow提供的功能实现。Bi-GRU层和注意力层的计算公式如下。对于每个单词t，GRU神经单元使用输入x_t和先前状态h_t-1计算h_t，公式如下所示：

r_t＝σ(W_rx_t+U_rh_t-1)

u_t＝σ(W_ux_t+U_uh_t-1)

其中，h_t是隐藏状态，r_t是复位门，而u_t是更新门。W_r、W_u、W_c和U_r、U_u、U是GRU的参数。σ是sigmoid函数。对于单词t，我们使用隐藏状态

表示前向GRU和后向GRU的编码结果。然后，我们将拼接结果

作为单词t的Bi-GRU层的输出。其中，箭头方向指的是计算的方向。

在其中一个实施例中，还包括：确定单词t的特征向量为：

α_i＝Aw_i+B

其中，set[head entity，tail entity]指的是位于头实体和位置之间的单词集合，A，B是网络的参数；根据所述特征向量，确定单词t的权重。本实施例中，可以发现头实体和尾实体之间的隐藏特征，因此得到上述的位置检测注意力机制。

在另一个实施例中，若所述关系预测模型无法预测所述实体对的关系类型，或者所述关系类型的概率对应的置信度小于预设值，则对待预测句子进行句子语义依存分析，得到实体对的关系类型。

具体的，句子语义依存分析主要用于在非特定类型模式下的匹配工作，为了提高句法依存分析的准确性，我们还在分词阶段将命名实体识别结果中的所有实体动态的添加到了用户自定义的词典中。图4显示了上述案例句子依存分析的结果。从图4可以很容易地发现，实体对(奥巴马,哈佛大学)的关系是(毕业于)。因为(毕业于)的句法依存分析结果是Root->(HED+CMP)。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种中文开放关系预测装置，包括：实体提取模块502和关系预测模块504，其中：

实体提取模块502，用于获取待预测句子中的命名实体，根据命名实体和所述待预测句子内容，构建实体对；所述实体对包括：头实体、头实体类型、尾实体、尾实体类型以及待预测句子内容；

关系预测模块504，用于当所述头实体类型和所述尾实体类型与预设的类型模式匹配，则将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型。

在其中一个实施例中，实体提取模块502还用于将待预测句子输入五级BIOSE标记系统，得到待预测句子的标记结果序列；根据所述标记结果序列，确定待预测句子中的命名实体。

在其中一个实施例中，实体提取模块502还用于根据所述标记结果序列，确定所述标记结果序列中排序靠前的命名实体为头实体，排序靠后的命名实体为尾实体；根据所述头实体的头实体类型和所述尾实体的尾实体类型，确定所述头实体和所述尾实体是否关联；若是，则保存为实体对，若否，则从预先设置的实体对列表中删除。

在其中一个实施例中，关系预测模块504还用于将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型，对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理；将分词处理得到的单词进行BERT嵌入，得到每个单词对应的词向量；将所述词向量分别输入对应的Att-Bi-GRU网络，得到每个词向量的隐层状态；对所述隐层状态进行组合，并通过输出层输出所述实体对对应的关系类型。

在其中一个实施例中，关系预测模块504还用于确定单词t的特征向量为：

α_i＝Aw_i+B

在其中一个实施例中，还包括：开放关系预测模块，用于若所述关系预测模型无法预测所述实体对的关系类型，或者所述关系类型的概率对应的置信度小于预设值，则对待预测句子进行句子语义依存分析，得到实体对的关系类型。

关于中文开放关系预测装置的具体限定可以参见上文中对于中文开放关系预测方法的限定，在此不再赘述。上述中文开放关系预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文开放关系预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种中文开放关系预测方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待预测句子中的命名实体，包括：

将待预测句子输入五级BIOSE标记系统，得到待预测句子的标记结果序列；

根据所述标记结果序列，确定待预测句子中的命名实体。

3.根据权利要求2所述的方法，其特征在于，根据命名实体和所述待预测句子内容，构建实体对，包括：

根据所述标记结果序列，确定所述标记结果序列中排序靠前的命名实体为头实体，排序靠后的命名实体为尾实体；

根据所述头实体的头实体类型和所述尾实体的尾实体类型，确定所述头实体和所述尾实体是否关联；

若是，则保存为实体对，若否，则从预先设置的实体对列表中删除。

4.根据权利要求1所述的方法，其特征在于，所述关系预测模型为基于BERT的Att-Bi-GRU模型。

5.根据权利要求4所述的方法，其特征在于，所述将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型，包括：

将所述头实体、所述尾实体以及所述待预测句子内容输入所述Att-Bi-GRU模型，对所述头实体、所述尾实体以及所述待预测句子内容进行分词处理；

将分词处理得到的单词进行BERT嵌入，得到每个单词对应的词向量；

将所述词向量分别输入对应的Att-Bi-GRU网络，得到每个词向量的隐层状态；

对所述隐层状态进行组合，并通过输出层输出所述实体对对应的关系类型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

确定单词t的特征向量为：

α_i＝Aw_i+B

其中，set[head entity，tail entity]指的是位于头实体和位置之间的单词集合，A，B是网络的参数；

根据所述特征向量，确定单词t的权重。

7.根据权利要求1至6任一项所述的方法，其特征在于，在将所述实体对中所述头实体、所述尾实体以及所述待预测句子内容输入关系预测模型，得到待预测句子中头实体与尾实体的关系类型之后，所述方法还包括：

若所述关系预测模型无法预测所述实体对的关系类型，或者所述关系类型的概率对应的置信度小于预设值，则对待预测句子进行句子语义依存分析，得到实体对的关系类型。

8.一种中文开放关系预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。