CN112417871B

CN112417871B - 一种基于神经网络模型的文本实体间关系预测方法

Info

Publication number: CN112417871B
Application number: CN202011506008.7A
Authority: CN
Inventors: 苏华权; 周昉昉; 廖鹏; 蔡雄; 易仕敏; 彭泽武; 杨秋勇
Original assignee: Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2024-03-15
Anticipated expiration: 2040-12-18
Also published as: CN112417871A

Abstract

本发明公开的基于神经网络模型的文本实体间关系预测方法，涉及文本处理技术领域，通过将文本输入双向长短期记忆BI‑LSTM模型，得到文本中的多个实体，将多个实体分别输入卷积神经网络CNN模型，得到各个实体对应的特征向量，将处于两个实体左边的词及右边的词分别输入BI‑LSTM模型，得到处于两个实体左边词的特征向量f_left和处于两个实体右边词的特征向量f_right，将处于两个实体之间的词输入CNN模型，得到两个实体之间词的特征向量f_mid，将f_e1、f_e2、f_mid、f_left、f_right、f_dist拼接为一个向量输入前馈神经网络模型，将概率值最大的标签作为文本中两个实体之间的关系，提高了文本实体间关系预测的准确性及适用性。

Description

一种基于神经网络模型的文本实体间关系预测方法

技术领域

本发明涉及文本处理技术领域，具体涉及一种基于神经网络模型的文本实体间关系预测方法。

背景技术

在中文的自然语言处理中，实体关系抽取是指针对一段随机的文本，识别出文本中的实体并抽取出命名实体之间的关系。所谓实体，就是指文本中出现的时间，地点等；所谓关系就是指实体之间存在的语义联系。

目前的实体关系预测方法大部分都是采用流水线的方式进行，如输入一个句子，先进行实体识别，然后将实体两两组合，再进行关系抽取。这种方法存在以下缺点：

(1)实体识别模块的错误选择会影响到关系抽取的性能，导致错误率较高；

(2)不能提取两个子任务之间的关系，如针对文本“任正非受雇于华为”，任正非和华为存在雇佣关系，可以知道一个实体属于组织类型，后一个实体属于人物类型，但流水线无法利用这种信息，适用性不强；

(3)会产生冗余信息，对实体识别出来的实体两两配对，再进行关系抽取，没有关系的实体对会带来多余的信息，错误率较高。

发明内容

为解决现有技术的不足，本发明实施例提供了一种基于神经网络模型的文本实体间关系预测方法，该方法包括以下步骤：

将文本输入双向长短期记忆BI-LSTM模型，得到所述文本中的多个实体；

将所述多个实体分别输入卷积神经网络CNN模型，得到各个实体对应的特征向量；

将处于两个实体左边的词及右边的词分别输入BI-LSTM模型，得到处于所述两个实体左边词的特征向量f_left和处于所述两个实体右边词的特征向量f_right，以独热编码one-hot特征向量f_dist表示两个实体间的距离信息；

将处于所述两个实体之间的词输入CNN模型，得到两个实体之间词的特征向量f_mid；

将f_e1、f_e2、f_mid、f_left、f_right、f_dist拼接为一个向量输入前馈神经网络模型，得到所述两个实体之间关系的多个标签及各个标签对应的概率值，其中，f_e1、f_e2分别为所述两个实体对应的特征向量；

将概率值最大的标签作为文本中两个实体之间的关系。

优选地，将文本输入双向长短期记忆BI-LSTM模型，得到所述文本中的多个实体包括：

将所述文本中的各个词输入Bi-LSTM模型的隐含层，得到的向量与所述向量的标签对应的独热编码one-hot特征向量拼接起来，得到所述文本中的多个实体。

优选地，所述方法还包括：

使用dropout算法对BI-LSTM模型进行正则化并利用Adadelta优化器，优化BI-LSTM模型的损失函数。

优选地，所述方法还包括：

使用dropout算法对前馈神经网络模型进行正则化并利用Adadelta算法，优化前馈神经网络模型的损失函数。

优选地，所述前馈神经网络模型为多层感知机。

本发明实施例提供的基于神经网络模型的文本实体间关系预测方法，具有以下有益效果：

利用长短期记忆BI-LSTM模型及卷积神经网络CNN模型，分别获取各个实体及各个实体对应的特征向量，利用向量输入前馈神经网络模型预测实体之间的关系，提高了文本实体间关系预测的准确性及适用性。

具体实施方式

以下结合具体实施例对本发明作具体的介绍。

本发明提供的实施例提供的基于神经网络模型的文本实体间关系预测方法，包括以下步骤：

S101，将文本输入双向长短期记忆BI-LSTM模型，得到文本中的多个实体。

作为本发明一个具体的实施例，文本“青年报的记者李明在北京工作”中，“李明”是一个人名实体，“青年报”是一个组织实体，它们之间存在着工作关系。

其中，BI-LSTM模型由两个长短期记忆网络组成，一个前向记忆网络和一个后向记忆网络，前者用于学习前向的序列信息，后者用于学习后向的序列信息，得到每个隐层的表示。在句子的每个位置，前向的记忆网络会收集从句子开始到当前位置的信息，得到向量表示后向的记忆网络收集从句子末尾到当前位置的信息。

S102，将多个实体分别输入卷积神经网络CNN模型，得到各个实体对应的特征向量。

作为本发明一个具体的实施例，为表示句子中的实体，我们采用BILUO标签为每个词分配一个标签，其中B，I和L表示实体的开始，内部和结尾，U表示单个词实体，O表示不是实体。例如:对于实体“歼-20战机”，将标签(B,AIRCRAFT)分给“歼”，将标签(I,AIRCRAFT)分配给“-”,“20”，将标签(L,AIRCRAFT)分配给战机。给定一个句子，实体的识别模型会通过标注好的实体序列来学习预测的标签。

S103，将处于两个实体左边的词及右边的词分别输入BI-LSTM模型，得到处于两个实体左边词的特征向量f_left和处于两个实体右边词的特征向量f_right，以独热编码one-hot特征向量f_dist表示两个实体间的距离信息。

S104，将处于两个实体之间的词输入CNN模型，得到两个实体之间词的特征向量f_mid。

S105，将f_e1、f_e2、f_mid、f_left、f_right、f_dist拼接为一个向量输入前馈神经网络模型，得到两个实体之间关系的多个标签及各个标签对应的概率值，其中，f_e1、f_e2分别为两个实体对应的特征向量。

作为本发明一个具体的实施例，利用向量输入前馈神经网络模型得到的关系模型标签的后验分布函数为：

其中，是关系模型的参数，ReLU是线性整流函数，W₁、W₂是词向量。

S106，将概率值最大的标签作为文本中两个实体之间的关系。

可选地，将文本输入双向长短期记忆BI-LSTM模型，得到文本中的多个实体包括：

将文本中的各个词输入Bi-LSTM模型的隐含层，得到的向量与向量的标签对应的独热编码one-hot特征向量拼接起来，得到文本中的多个实体。

可选地，该方法还包括：

可选地，前馈神经网络模型为多层感知机。

本发明实施例提供的基于神经网络模型的文本实体间关系预测方法，通过将文本输入双向长短期记忆BI-LSTM模型，得到文本中的多个实体，将多个实体分别输入卷积神经网络CNN模型，得到各个实体对应的特征向量，将处于两个实体左边的词及右边的词分别输入BI-LSTM模型，得到处于两个实体左边词的特征向量f_left和处于两个实体右边词的特征向量f_right，以独热编码one-hot特征向量f_dist表示两个实体间的距离信息，将处于两个实体之间的词输入CNN模型，得到两个实体之间词的特征向量f_mid，将f_e1、f_e2、f_mid、f_left、f_right、f_dist拼接为一个向量输入前馈神经网络模型，得到两个实体之间关系的多个标签及各个标签对应的概率值，将概率值最大的标签作为文本中两个实体之间的关系，提高了文本实体间关系预测的准确性及适用性。

本发明实施例提供的在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于神经网络模型的文本实体间关系预测方法，其特征在于，包括：

将所述文本中的各个词输入Bi-LSTM模型的隐含层，得到的向量与所述向量的标签对应的独热编码one-hot特征向量拼接起来，得到所述文本中的多个实体；

将概率值最大的标签作为文本中两个实体之间的关系。

2.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的基于神经网络模型的文本实体间关系预测方法，其特征在于，所述前馈神经网络模型为多层感知机。