CN110298044A

CN110298044A - 一种实体关系识别方法

Info

Publication number: CN110298044A
Application number: CN201910615210.4A
Authority: CN
Inventors: 程良伦; 曾广荣; 曾广宇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-01
Anticipated expiration: 2039-07-09
Also published as: CN110298044B

Abstract

本申请公开了一种实体关系识别方法包括：根据词性样本库对待处理文本进行词性筛选，得到预处理文本；对预处理文本进行词嵌入处理，得到待处理特征向量；采用已训练的双向LSTM网络对待处理特征向量进行识别，得到实体关系识别结果。通过词形样本库对待处理文本进行词性筛选得到预处理文本，后再对文本进行实体关系识别处理，而不是将获取到的待处理文本直接进行实体关系识别处理，避免了对大量无用的词语进行识别，提高了对长度较长的文本进行识别处理的效率。

Description

一种实体关系识别方法

技术领域

本申请涉及数据处理技术领域，特别涉及一种实体关系识别方法。

背景技术

在自然语言处理中，信息抽取能够快速、准确地从大型语料库中发现有价值的信息，提高自然语言处理的效率。

信息抽取包括概念抽取与关系抽取两方面，关系抽取的目标是自动识别相关三元组，该三元组由一对概念及其之间的关系构成。传统关系抽取方法通常采用基于手工标注语料的模式匹配方法，该方法在提取句子特征时依赖于命名实体识别的NLP系统，容易导致计算成本和额外传播错误增加；另外，手工标记特征非常耗时，而且由于不同训练数据集的覆盖率较低，因而导致通用性较差。

经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督四类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。有监督方法需要手工标注大量的训练数据，浪费时间精力。因此基于半监督、弱监督和无监督的关系抽取方法来解决人工标注语料问题。从文本中抽取结构化数据、建立生物学知识库的过程中采用了弱监督机器学习思想。

但是，基于深度学习的有监督实体关系抽取方法当处理长度较长的文本，由于数据量较多，无关内容参杂，进行实体关系识别的效果不佳，且处理的效率较低，降低了硬件系统的性能利用率。

因此，如何提高对长度较长的文本进行实体关系识别时的效率和性能利用率，是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种实体关系识别方法，通过先将待处理的文本进行词性筛选，筛除不需要的词语降低减少文本中无关词语的数量，降低进行实体关系识别时的数据量提高数据处理的效率，以及利用率。

本申请提供一种实体关系识别方法，包括：

根据词性样本库对待处理文本进行词性筛选，得到预处理文本；

对所述预处理文本进行词嵌入处理，得到待处理特征向量；

采用已训练的双向LSTM网络对所述待处理特征向量进行识别，得到实体关系识别结果。

可选的，根据词性样本库对待处理文本进行词性筛选，得到预处理文本，包括：

根据所述词性样本库对所述待处理文本中的词语进行词性标注，得到多个已标注词语；

对所述多个已标注词语进行实体筛选，得到所述预处理文本。

可选的，根据所述词性样本库对所述待处理文本中的词语进行词性标注，得到多个已标注词语，包括：

判断所述待处理文本中的词语是否存在于所述词性样本库中；

若是，则根据所述词性样本库对该词语进行词性标注，得到已标注词语；

若否，则采用隐马尔可夫模型对该词语进行词性标注，得到已标注词语。

可选的，采用已训练的双向LSTM网络对所述待处理特征向量进行识别，得到实体关系识别结果，包括：

采用所述双向LSTM网络中的双向LSTM层对所述待处理特征向量进行处理，得到状态信息序列；

采用所述双向LSTM网络中的注意力层对所述状态信息序列进行加权变换，得到特征信息；

采用所述双向LSTM网络中的Softmax层对所述特征信息进行分类操作，得到所述实体关系识别结果。

本申请所提供的一种实体关系识别方法，包括：根据词性样本库对待处理文本进行词性筛选，得到预处理文本；对所述预处理文本进行词嵌入处理，得到待处理特征向量；采用已训练的双向LSTM网络对所述待处理特征向量进行识别，得到实体关系识别结果。

通过词形样本库对待处理文本进行词性筛选得到预处理文本，后再对文本进行实体关系识别处理，而不是将获取到的待处理文本直接进行实体关系识别处理，避免了对大量无用的词语进行识别，提高了对长度较长的文本进行识别处理的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的第一种实体关系识别方法的流程图；

图2为本申请实施例所提供的第二种实体关系识别方法的流程图。

具体实施方式

本申请的核心是提供一种实体关系识别方法，通过先将待处理的文本进行词性筛选，筛除不需要的词语降低减少文本中无关词语的数量，降低进行实体关系识别时的数据量提高数据处理的效率，以及利用率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术中经典的实体关系抽取方法主要分为有监督、半监督、弱监督和无监督四类。有监督的实体关系抽取主要分为基于特征和基于核函数的方法。有监督方法需要手工标注大量的训练数据，浪费时间精力。因此基于半监督、弱监督和无监督的关系抽取方法来解决人工标注语料问题。从文本中抽取结构化数据、建立生物学知识库的过程中采用了弱监督机器学习思想。但是，基于深度学习的有监督实体关系抽取方法当处理长度较长的文本，由于数据量较多，无关内容参杂，进行实体关系识别的效果不佳，且处理的效率较低，降低了硬件系统的性能利用率。

因此，本申请提供一种实体关系识别方法，通过词形样本库对待处理文本进行词性筛选得到预处理文本，后再对文本进行实体关系识别处理，而不是将获取到的待处理文本直接进行实体关系识别处理，避免了对大量无用的词语进行识别，提高了对长度较长的文本进行识别处理的效率。

请参考图1，图1为本申请实施例所提供的第一种实体关系识别方法的流程图。

本实施例中，该方法可以包括：

S101，根据词性样本库对待处理文本进行词性筛选，得到预处理文本；

本步骤旨在根据词性样本库对待处理文本进行文本筛选，得到预处理文本。一般由于过长的文本中存在有与实体关系识别无关的词语，使得文本中的语句过长。不仅增加了实体关系识别过程中的数据处理量降低数据处理效率，由于无关词语的引入还降低了实体关系识别过程中的精度和准确性。

并且，一般与实体关系识别无关的词语大部分都是没有实际意义的，承担功能性的词汇。通过词性的差异就可以将文本中的无关词语进行筛选，因此，本步骤中根据词性样本库对待处理文本进行词性筛选，得到预处理文本，去除了无关词语的文本数据。

具体的，可以是先根据词性样本库对待处理文本中的词语进行词性标注，然后根据标注结果删除不用的词语。例如删除词性为形容词、副词、叹词、助词、连词、拟声词。最后得到的文本词语个数减少，利于进行实体关系识别处理，提高了性能利用率。

可以想到是的，本步骤中为了对待处理文本进行词性筛选，还需要先将该待处理文本进行分词处理。其中，进行的分词处理可以采用现有技术提供的任意一种分词处理方法，在此不做具体限定。

可选的，本步骤可以包括：

步骤一，根据词性样本库对待处理文本中的词语进行词性标注，得到多个已标注词语；

步骤二，对多个已标注词语进行实体筛选，得到预处理文本。

可见，本可选方案中，对待处理文本进行的词性筛选首先对待处理文本中的词语进行词性标注，当对每个词语进行词性标注后，根据每个词语对应的词性对该词语进行筛选判断。也就是判断该词语的词性是否符合需要保留的词性；若是，则处理下一个词语；若否，则删除该词语并继续处理下一个词语。

可选的，上一可选方案中的步骤一可以包括：

判断待处理文本中的词语是否存在于词性样本库中；

若是，则根据词性样本库对该词语进行词性标注，得到已标注词语；

可见，本可选方案主要是对上一可选方案中的词语标注方式做进一步说明。具体的，本可选方案中首先是判断该词语是否存在于词性样本库中，也就是说存在部分词语不在词性样本库中。当词语在词性样本库中时，即可通过词性样本库对该词语进行词性标注。当该词语不在词性样本库中时，则需要采用隐马尔可夫模型对该词语进行词性标注，也就是采用隐马尔可夫模型对该词语的词性进行识别，将识别结果对该词语进行标注，得到已标注词语。

其中，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程，其难点是从可观察的参数中确定该过程的隐含参数，然后利用这些参数作进一步的分析，例如模式识别。

S102，对预处理文本进行词嵌入处理，得到待处理特征向量；

在S101的基础上，本步骤旨在对预处理文本进行特征向量处理，得到对应的待处理特征向量。本步骤中为了保持特征向量提取的有效程度，采用用了词嵌入处理，对预处理文本进行处理。即对预处理文本进行词嵌入处理，得到待处理特征向量。

其中，词嵌入处理是自然语言处理中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。词嵌入的方法包括人工神经网络、对词语同现矩阵降维、概率模型以及单词所在上下文的显式表示等。在底层输入中，使用词嵌入来表示词组的方法极大提升了自然语言处理中语法分析器和文本情感分析等的效果。

具体的，本步骤中进行词嵌入处理的方式可以采用现有技术提供的任意一种词嵌入处理的方式，在此不做具体限定。

S103，采用已训练的双向LSTM网络对待处理特征向量进行识别，得到实体关系识别结果。

在S102的基础上，本步骤旨在采用已经训练好的双向LSTM网络对待处理特征向量进行识别处理，得到实体关系识别结果。特别的，本步骤中为了考虑到实体关系识别中的上下文信息，在双向LSTM网络中加入了注意力层。也就是，本步骤采用了基于注意力机制的双向LSTM网络进行识别处理。具体的，本步骤中的双向LSTM网络包括双向LSTM层、注意力层以及Softmax层。

其中，对双向LSTM网络添加的注意力层主要是对其中双向LSTM层提取的状态信息序列进行加权变换处理，突出其中的重要状态信息的贡献，有效提高模型演化关系抽取准确性。由于S101中已经将文本中的无关词语进行删除，解决了无关词语的词性对注意力层的干扰，使得注意力层更加关注存在实体关系的词语。可见，S101中不仅减少了无关词语对识别过程的性能影响，还使双向LSTM网络对实体关系的识别更加关注，提高了实体关系识别的精度和准确率。

进一步，可选的，本步骤可以包括：

步骤一，采用双向LSTM网络中的双向LSTM层对待处理特征向量进行处理，得到状态信息序列；

步骤二，采用双向LSTM网络中的注意力层对状态信息序列进行加权变换，得到特征信息；

步骤三，采用双向LSTM网络中的Softmax层对特征信息进行分类操作，得到实体关系识别结果。

可见，本可选方案中主要是对通过包含注意力层的网络进行说明。可以按照该可选方案所示的执行步骤对本可选方案提供的方法进行执行，在此不作赘述。

综上，本实施例通过词形样本库对待处理文本进行词性筛选得到预处理文本，后再对文本进行实体关系识别处理，而不是将获取到的待处理文本直接进行实体关系识别处理，避免了对大量无用的词语进行识别，提高了对长度较长的文本进行识别处理的效率。

以下通过另一实施例，对本申请提供的一种实体关系识别方法做进一步说明。

请参考图2，图2为本申请实施例所提供的第二种实体关系识别方法的流程图。

本实施例中，以对中文实体进行识别为例，该方法可以包括：

S201，词性标注筛选；

其中，词性标注的目的是对给定的句子，然后得出句子中每个词语的词性。为此，本文采用jieba(中文分词组件)工具对句子进行分词和初步词性标注，对于未登录的词，本文使用HMM(Hidden Markov Model)隐马尔可夫模型进行处理。

本步骤将句子词语个数为M的句子S_M进行分词，得到词语的集合S_M＝{W₁,W₂,W₃,...,W_M}，然后对词语W₁，W₂，W₃，……，W_M进行词性标注，并从句子中剔除一些与实体关系抽取任务无关的词语，如形容词、副词、叹词、助词、连词、拟声词，使句子中词语的个数减少为N，得到词语的集合S_N＝{W₁,W₂,W₃,...,W_N}，使得在长文本中实体关系抽取的准确率得到提高。

S202，词嵌入；

其中，词嵌入是词语的分布式表示，可以将文本中的每个单词都映射到一个k维的向量。该步骤可以很好地捕捉关于词语的语义和句法信息。训练神经网络的一种常用方法是随机初始化所有参数，然后使用优化算法对其进行优化。而当使用词嵌入初始化神经网络时，它们可以收敛到更好的局部极小值。词嵌入同时也是在完全无监督的方式下进行学习的。

具体的，本步骤是将缩短后的句子S_N使用词嵌入的方法，使每个词语映射到一个k维的向量以作为神经网络的输入。

S203，基于注意力机制的双向LSTM网络；

为了充分考虑上下文信息，本步骤使用双向LSTM网络，该网络分为双向LSTM层、注意力层、Softmax层。

S2031，双向LSTM层；

本步骤以词嵌入后的k维向量的每一个特征都传入双向LSTM网络进行特征分析。LSTM模型在处理时序性问题时，可以充分利用整个文本序列的信息，包括各个词的相互关系，并将该种信息用于对每个词的处理。

双向LSTM网络包含多个LSTM单元，每个LSTM单元包含3种门结构：遗忘门(forgetgates)，输入门(input gates)和输出门(output gates)以此来保持和更新状态信息并进行传递。

首先，通过遗忘门计算上一个前向单元传递的记忆信息与丢弃的信息概率值f_t，遗忘门的表达式如下：

其中，是上一个前向LSTM单元的输出状态信息，x_t是当前单元的输入，W_f和b_f是网络训练得到的遗忘门的权重和偏置。

LSTM的输入门决定让多少新的信息加入到该单元状态中来。该操作包括两个步骤：首先，sigmoid层决定哪些信息需要更新，也就是需要提取的新的特征；其次，tanh层生成一个向量，也就是备选的用来更新的内容。然后通过结合这两部分信息，更新单元的状态。输入门的操作如下：

其中，i_t表示输入的需要更新的信息，是用来更新的候选内容，C_t是更新之后的单元状态，W_i，W_c，b_i，b_c是输入门中的权重和偏置。当前的前向单元传递的记忆信息是由上一个前向单元传递的记忆信息与丢弃的信息概率值f_t相乘，再加上新的候选值如下式：

最后，LSTM的输出门确定要输出的信息。首先，运行一个sigmoid层来确定单元状态的哪个部分将输出出去。接着，将前向单元传递的记忆信息通过tanh进行处理，得到一个在-1到1之间的值，并将该值和sigmoid门的输出相乘，得到了第N个词的前向传播特征信息输出门的过程如下：

后向传播计算过程与前向传播相同，不同之处在于序列信息为从句子后部向前传播，这样得到后向传播信息融合前向传播特征信息与后向传播特征信息获得第N个词完整特征信息h_t，公式表达如下:

S2032，注意力层；

注意力层对双向LSTM提取的状态信息序列进行加权变换，突出重要状态信息的贡献，有效提高模型演化关系抽取准确性。

注意力层的计算流程如下所示：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T

H^*＝tanh(r)

其中，H＝{h₁,h₂,h₃…h_n}表示一条句子所有词语状态信息集合，w为训练学习的参数向量；w^T表示向量转置。

首先对状态信息集合H进行tanh操作并与w^T相乘，再通过Softmax得到加权概率a为0-1，然后状态信息H与概率相乘完成状态信息的加权变换，最后将加权后的状态信息通过tanh操作得到的值在-1与1之间用于演化关系分类的句子特征H^*。

S2033，Softmax层；

网络结构的最后使用Softmax对注意力层中得到的句子表征H*进行分类操作。每一个句子表征经过Softmax生成四种类别概率，取有最大类别概率的类别为模型预测类别，该过程表示如下：

p(y|H^*)＝softmax(W·H^*+b)

其中，p(y|H^*)表示句子表征H^*属于四种关系类别的概率；为概率值最大的类别，此类别作为模型预测的演化关系类别。模型使用交叉熵损失作为分类问题目标函数，采用自适应学习率的随机梯度下降算法进行模型训练优化。

可见，本实施例提供了实体关系识别方法，可以通过词形样本库对待处理文本进行词性筛选得到预处理文本，后再对文本进行实体关系识别处理，而不是将获取到的待处理文本直接进行实体关系识别处理，避免了对大量无用的词语进行识别，提高了对长度较长的文本进行识别处理的效率。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种实体关系识别方法进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种实体关系识别方法，其特征在于，包括：

对所述预处理文本进行词嵌入处理，得到待处理特征向量；

2.根据权利要求1所述的实体关系识别方法，其特征在于，根据词性样本库对待处理文本进行词性筛选，得到预处理文本，包括：

3.根据权利要求2所述的实体关系识别方法，其特征在于，根据所述词性样本库对所述待处理文本中的词语进行词性标注，得到多个已标注词语，包括：

4.根据权利要求1至3任一项所述的实体关系识别方法，其特征在于，采用已训练的双向LSTM网络对所述待处理特征向量进行识别，得到实体关系识别结果，包括：