CN111177383A

CN111177383A - 一种融合文本语法结构和语义信息的文本实体关系自动分类方法

Info

Publication number: CN111177383A
Application number: CN201911345630.1A
Authority: CN
Inventors: 陈雪; 陈光勇; 骆祥峰; 黄敬; 王鹏
Original assignee: Beijing Transpacific Technology Development Ltd; Alibaba Group Holding Ltd
Current assignee: Beijing Transpacific Technology Development Ltd; Alibaba Group Holding Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2020-05-19
Anticipated expiration: 2039-12-24
Also published as: CN111177383B

Abstract

本发明公开了一种融合文本语法结构和语义信息的文本实体关系自动分类方法。该方法的具体实施步骤如下：（1）、对文本集预处理得到句子初始向量；（2）、提取句中词语与实体及关系的相关度，更新句子向量；（3）、将（2）的句子向量输入双向门循环单元神经网络，得到融合语义信息的句子向量；（4）、将（2）的句子向量输入图注意力神经网络，得到融合语法结构信息的句子向量；（5）、将（3）的输出和（4）的输出进行拼接，更新句子向量；（6）、将（5）的句子向量输入全连接神经网络层，得到句子的特征向量，经softmax变换输出实体关系分类向量。本方法能够有效缓解实体关系分类中语义特征、语法特征难以表示及人工特征选择误差大的问题。

Description

一种融合文本语法结构和语义信息的文本实体关系自动分类方法

技术领域

本发明涉及文本挖掘和深度学习领域，更具体的说，涉及一种融合文本语法结构和语义信息的文本实体关系自动分类方法。

背景技术

传统的利用机器学习的实体关系分类方法，如支持向量机，需要构造大量的词汇、句法和语义特征，并且这些特征无法很好的进行跨领域的复用，极大的限制了方法的使用范围。传统利用神经网络进行实体关系分类的方法，如双向循环记忆神经网络和卷积神经网络，仅简单使用地文本中词汇与向量之间的直接映射，忽略了实体及关系本身对于句子中词汇的影响，造成实体及关系的有效信息无法被充分地利用，因而分类准确性不高；一些利用句子语法结构的实体关系分类的神经网络方法，如基于最短依存路径的神经网络方法，忽略句子中其他成分对实体关系本身的影响情况，造成实体之外的词汇信息丢失，无法有效地获取除实体外的环境词对实体关系的正向影响。

发明内容

针对现有技术存在的缺陷，本发明的目的是提供一种融合文本语法结构和语义信息的文本实体关系自动分类方法。利用文本实体特征、关系(谓语动词)特征、句子上下文语义特征及语法结构特征，并向量化将其融合拼接进行文本中实体关系自动分类，有效地缓解实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。该方法可以应用于构建知识图谱、开发自动问答系统及信息检索等领域。

为了达到上述目的，本发明的构思如下：

利用注意力神经网络提取句中词语与实体及关系的相关度信息，降低相关度小的噪音词对关系分类的影响；利用双向门循环单元神经网络提取文本上下文语义信息；利用图注意力神经网络提取文本语法特征信息。通过文本的词汇相关度特征、上下文语义特征及语法特征互补的方式，完成对文本中实体关系的自动分类。

根据上述的发明思想，本发明采用下述技术方案：

一种融合文本语法结构和语义信息的文本实体关系自动分类方法，具体步骤如下：

(1)获取互联网公开的文本集信息并进行预处理，得到句子的初始向量；

(2)从步骤(1)得到的句子初始向量中，提取句中词语与实体及关系的相关度，更新句子向量；

(3)将步骤(2)得到的句子向量输入到双向门循环单元神经网络，得到融合语义信息的句子向量；

(4)将步骤(2)得到的句子向量输入到图注意力神经网络，得到融合语法结构信息的句子向量；

(5)对每个句子，将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接，更新句子向量；

(6)将步骤(5)得到的句子向量输入到全连接神经网络层，得到句子的特征向量；该特征向量经过softmax变换输出实体关系分类向量，其每一维表示句中实体关系属于对应类别的概率。

所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理，得到句子的初始向量，其过程如下：

对词语缩写形式还原；使用StandfordCoreNLP工具对数据文本进行切分词，词性标注、去除文本中的副词，形容词；构建句子词汇间的邻接矩阵和依存语法分析树；利用glove词向量映射出句子中每个词语的向量表示，得到句子的初始向量S₀＝{w₁，w₂，...，w_n}，其中n为句子的最大长度，w_i为句中每个词的向量，维度为300维。

所述步骤(2)中从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度，其过程如下：

(2-1)依照步骤(1)输出的句子向量分S₀＝{w₁，w₂，...，w_n}，输入句中词语与两个实体的所构建的相对位置矩阵E1_pos和E2_pos，E1_pos为句中词语与实体l的相对位置，E1_pos＝{pos₁，pos₂，...，pos_n}，实体1在句中的位置e₁，则pos_i＝i-e₁，把pos_i重新映射到预设维度为20的张量上，其中张量采用均匀分布随机初始化生成；同理计算实体2相对位置矩阵E2_pos，将S₀、E1_pos和E2_pos进行拼接，得到更新后的S₀，其维度为340；

(2-2)从(2-1)更新后的S₀中抽取出代表实体1、实体2和关系的向量化表示分别为W_e1、W_e2与w_r；计算A_e1＝f(S₀，w_e1)，其中f为矩阵的内积运算，A_e1为句子中每个词语与实体1所计算出的相关度，A_e1＝{a₁，a₂，...，a_n}，a_i为句中第i词语与实体1的相关度表示；同理构造A_e2和A_r，三者的维度均为句子的长度n；对A_e1、A_e2和A_r三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A₁，A₂和A₃：

把A₁，A₂和A₃三个向量各个对应分量求和取平均得到句子的词语与实体及关系的相关度

句子向量更新计算公式为S₀＝A×S₀。

所述步骤(3)中将步骤(2)得到的句子向量输入到双向门循环单元神经网络，得到融合语义信息的句子向量，其过程如下：

将(2-2)更新后的句子表示S₀＝{w₁，w₂，...，w_n}输入双向门循环单元神经网络，得到语义有效信息为H＝{h₁，h₂，...，h_n}，h_i为GRU各个隐藏层的最终输出；双向门循环单元神经网络的参数包括：隐层数为2，输出空间维度为units＝128，故总的输出空间维度为n*256；学习率为0.0001，丢弃率为0.3。

所述步骤(4)中将步骤(2)得到的句子向量输入到图注意力神经网络，得到融合语法结构信息的句子向量，其过程如下：

对于步骤(2)中所得到的邻接矩阵adj的具体表示如下：

其中n为文本句子中的单词个数，令a_e1，i＝1和a_e2，i＝1；将(2-2)更新后的句子表示S₀＝{w₁，w₂，...，w_n}和邻接矩阵adj输入于图注意力神经网络，相关设置包括Attentionhead＝32，每个head学习不同表示空间中的特征并输出8维的特征向量，即总输出是对每个head进行拼接后得到8*32维度的向量；丢弃率为0.4；激活函数使用relu函数，初始化器使用的使Glorot均匀分布初始化器，得到的最终结果使用拼接的方式进行输出，最后输出得到每个句子的语法结构信息G＝{g₁，g₂，...，g_n}，G的维度为n*256。

所述步骤(5)中对每个句子，将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接，其过程如下：

(5-1)利用注意力神经网络提取步骤(3)的输出H＝{h₁，h₂，...，h_n}中对关系影响最大的特征成分，即att＝Attention(q，H)，q为当前分类任务所需要匹配的特征向量，att的维度为256；

(5-2)将步骤(4)输出的语法结构信息G进行全局最大池化，保留语法结构中最显著的特征信息，输出为g＝GlobalMaxPooling1D(G)，得到全局语法特征的最大值，g的维度大小为256；

(5-3)对句中的语义信息att与语法信息g进行拼接处理；对att与g在最后一个维度上进行拼接，得到融合语法和语义关系的句子向量c＝concat(att，g)。

所述步骤(6)中将步骤(5)得到的句子向量输入到全连接神经网络层，得到句子的特征向量；该特征向量经过softmax变换输出实体关系分类向量，其每一维表示句中实体关系属于对应类别的概率，其过程如下：

将(5-3)输出的句子向量c表示输入到神经网络全连接神经层，全连接层包含两层，其维度分别是300与m，m为预定分类类别的数量，输出为一个m维的张量result；经过result＝softmax(result)，得到的result在每一维对应的概率值均在0到1之间，为该实体对属于对应类别的概率。

与现有技术相比，本发明具有如下的优点：

本发明方法将文本实体特征、关系特征、句子上下文语义特征及语法结构特征相融合并向量化，有效地缓解实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。

附图说明

图1是融合文本语法结构和语义信息的神经网络实体文本关系自动分类的流程图。

具体实施方式

以下结合附图对本发明的实施方法进一步的详细描述。

如图1所示，一种融合文本语法结构和语义信息的文本实体关系自动分类方法，具体步骤如下：

步骤(1)：获取互联网公开的文本训练集信息并进行预处理，得到句子的初始向量。

获取互联网公开ACL数据集SemEval2010_task8数据集特征为：包含19类关系，其中主要关系分为{Message-Topic(e1,e2)，Product-Producer(e1,e2),Instrument-Agency(e1,e2)，Entity-Destination(e1,e2)，Cause-Effect(e1,e2)，Component-Whole(e1,e2)，Entity-Origin(e1,e2)，Member-Collection(e1,e2)，Content-Container(e1,e2)}这9类关系，其中e1与e2存在顺序关系，外加一个other类关系，即实体间的关系并不再上述9*2种范围内。具体的统计结果请参考表1。

句子样例：“<e1>People</e1>have been moving back into<e2>downtown</e2>.”关系：Entity-Destination(e1,e2)。

对获取的互联网文本数据集信息进行预处理。对词语之间的缩写形式还原；使用StanfordCoreNLP工具对数据文本进行切分词，词性标注及构建依存语法分析树；去除文本中的副词，形容词；构建句子词汇间的邻接矩阵；构建句子中词汇与句中实体的相对位置矩阵；构建实体与谓语动词在句子中的位置标识矩阵。

使用Glove预训练好的词向量对数据集的文本数据进行向量化转换，其中用于调整方法中参数的训练集为8000条句子，测试集为2717条句子。具体请参考表1。

表1互联网公开ACL数据集SemEval2010_task8数据集统计结果

每个词向量w表示形式类似如下一串数字，其维度为300：

0.04269 -0.4018 0.014288 0.41628 0.017165 0.071732 0.0069246 0.18107

-0.15412 0.14933 -0.030493 0.29918 0.029479 -0.036147 -0.0644250.083918

-0.12398 -0.10077 -0.0054142 0.3371 -0.25612 0.44388

提取句子中实体及实体对之间的词汇集合，包含词语的个数为n，通过对句中每个词对词向量的映射得到n×m的向量，即句子向量表示为S₀＝{w₁,w₂,…,w_n}。

步骤(2)：从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度，更新句子向量。

提取句子中词汇与句中实体的相对位置矩阵，具体E1_pos＝{pos₁,pos₂,…,pos_n}，pos_i＝i-e₁，其中若句子的原本长度<n，则用数值n+1补齐，然后通过位置向量映射层，其中位置向量使用Glorot均匀分布初始化器的方式进行矩阵初始化(它从[-limit，limit]中的均匀分布中抽取样本，其中limit是sqrt(6/(fan_in+fan_out))，fan_in是权值张量中的输入单位的数量，fan_out是权值张量中的输出单位的数量)。把长度为n的E1_pos映射为形状为n*20的位置向量矩阵。同理构建E2_pos。

将S₀、E1_pos和E2_pos进行拼接，得到更新后的S₀＝[S₀，E1_pos，E2_pos]，S₀维度为n*340。

训练实体关系分类方法，用于对进行预处理后的数据文本信息抽取部分文本根据融合文本语法结构和语义信息的文本实体关系自动分类方法进行训练，得到实体关系分类方法。

从S₀中抽取出代表实体1、实体2和关系(谓语动词)的向量化表示分别为w_e1、w_e2与w_r。

使用词向量的乘积来衡量句中词语之间的相关度信息。A_e1＝f(S₀，w_e1)，其中f为矩阵的内积运算，A_e1为句子中每个词语与实体1所计算出的相关度构成，其具体表示为A_e1＝{a₁，a₂，...，a_n}，其中a_i为句中第i词语与实体1的相关度表示，同理构造A_e2和A_r。三者的维度均为句子的长度n。对A_e1、A_e2和A_r三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A₁，A₂和A₃：

句子向量更新计算公式为S₀＝A×S₀。

步骤(3)：将步骤(2)得到的句子向量输入到双向门循环单元神经网络，得到融合语义信息的句子向量。

利用双向门循环单元神经网络(双向GRU)对文本信息进行语义信息提取，具体如下：输入信息为上一步得到的最终输出的句子表示S₀＝{w₁，w₂，...，w_n}。得到语义有效信息为H＝{h₁，h₂，...，h_n}，h_i为GRU各个隐藏层的最终输出。双向门循环单元神经网络的参数包括：隐层数为2，输出空间维度为units＝128，故总的输出空间维度为n*256；学习率为0.0001，丢弃率为0.3。

步骤(4)：将步骤(2)得到的句子向量输入到图注意力神经网络，得到融合语法结构信息的句子向量。

利用图注意力神经网络对文本进行语法特征信息的提取。输入为S₀＝{w₁，w₂，...，w_n}与邻接矩阵adj，其中adj的表示如下：

其中n为文本句子中的单词个数，令a_e1，i＝1和a_e2，i＝1。将步骤(3)更新后的句子表示S₀＝{w₁，w₂，...，w_n}和邻接矩阵adj输入于图注意力神经网络，相关设置包括Attentionhead＝32(每个head学习不同表示空间中的特征)，每个head的输出为8维的特征向量，即总输出是对每个head进行拼接后得到8*32维度的向量；丢弃率为0.4；激活函数使用relu函数，初始化器使用的使Glorot均匀分布初始化器，得到的最终结果使用拼接的方式进行输出，最后输出得到每个句子的语法结构信息G＝{g₁，g₂，...，g_n}，其中G的维度为n*256。

步骤(5)：对每个句子，将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接，更新句子向量。

利用注意力神经网络提取步骤(3)的输出片＝{h₁，h₂，...，h_n}中对关系影响最大的特征成分，即att＝Attention(q，H)，q为当前分类任务所需要匹配的特征向量，att的维度为256。

将步骤(4)输出的语法结构信息G进行全局最大池化，最大化保留语法结构特征信息，输出为g＝GlobalMaxPooling1D(G)，得到全局语法特征的最大值，g的维度大小为256。

对句中的语义信息att与语法信息g进行拼接处理。对att与g在最后一个维度上进行拼接。最后得到用于关系分类的语法与语义的融合表示c＝concat(att，g)。

步骤(6)：将步骤(5)得到的句子向量输入到全连接神经网络层，得到句子的特征向量。该特征向量经过softmax变换输出实体关系分类向量，其每一维表示句中实体关系属于对应类别的概率。

把步骤(5)得到的c输入到全连接层，进一步提取相应的特征，其中全连接层包含两层，其维度分别是300与19。最终隐藏层输出的结果是一个19维(与所需分类类别一致)的张量result。经过result＝softmax(result)，得到的result在每一维度上的概率即为对应分到19类的概率值。

对于测试用例，具体如下：

将数据集中的测试集文本句向量输入到融合文本语法结构和语义信息的文本实体关系自动分类方法中。

输入为S＝{w₁，w₂，...，w_n}，S为句子向量，相对位置矩阵E1_pos和E2_pos，邻接矩阵adj。

输出为文本句子实体关系分类的结果。以互联网公开ACL数据集SemEval2010_task8数据集为例，它包含19类关系。对于每个文本句子，输出为该句子的实体对及关系分类向量，该向量为19维，每一维表示关于属于对应类别的概率。

请参考表2，本发明使用的方法在ACL数据集SemEval2010_task8数据集上的取得F1值为83.1％，高于SVM(支持向量机)、MV-RNN(矩阵-向量递归神经网络)、FCM(模糊聚类算法)、CNN(卷积神经网络)以及BILSTM(双向长短时记忆循环神经网络)。

表2本发明的方法与其他方法在测试集上统计F1值的对比结果

方法	F1值
		SVM	82.2％
MVRNN	82.4％
		FCM	83.0％
CNN	82.7％
		BILSTM	82.7％
方法	83.1％

本发明将句子语法结构与语义信息相融合进行文本中实体关系自动分类，有效的解决实体关系分类中语义特征提取难、语法特征难以表示及人工特征选择误差大的问题。

Claims

1.一种融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(1)中获取互联网公开的文本训练集信息并进行预处理，得到句子的初始向量，其过程如下：

对词语缩写形式还原；使用StandfordCoreNLP工具对数据文本进行切分词，词性标注、去除文本中的副词，形容词；构建句子词汇间的邻接矩阵和依存语法分析树；利用glove词向量映射出句子中每个词语的向量表示，得到句子的初始向量S₀＝{w₁,w₂,…,w_n}，其中n为句子的最大长度，w_i为句中每个词的向量，维度为300维。

3.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(2)中从步骤(1)得到的句子初始向量中提取句中词语与实体及关系的相关度，其过程如下：

(2-1)依照步骤(1)输出的句子向量分S₀＝{w₁,w₂,…,w_n}，输入句中词语与两个实体的所构建的相对位置矩阵E1_pos和E2_pos，E1_pos为句中词语与实体1的相对位置，E1_pos＝{pos₁,pos₂,…,pos_n}，实体1在句中的位置e₁，则pos_i＝i-e₁，把pos_i重新映射到预设维度为20的张量上，其中张量采用均匀分布随机初始化生成；同理计算实体2相对位置矩阵E2_pos，将S₀、E1_pos和E2_pos进行拼接，得到更新后的S₀，其维度为340；

(2-2)从(2-1)更新后的S₀中抽取出代表实体1、实体2和关系的向量化表示分别为w_e1、w_e2与w_r；计算A_e1＝f(S₀,w_e1)，其中f为矩阵的内积运算，A_e1为句子中每个词语与实体1所计算出的相关度，A_e1＝{a₁,a₂,…,a_n}，a_i为句中第i词语与实体1的相关度表示；同理构造A_e2和A_r，三者的维度均为句子的长度n；对A_e1、A_e2和A_r三个向量的各个分量分别使用如下softmax进行归一化处理后得到三个新的向量A₁，A₂和A₃：

句子向量更新计算公式为S₀＝A×S₀。

4.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(3)中将步骤(2)得到的句子向量输入到双向门循环单元神经网络，得到融合语义信息的句子向量，其过程如下：

将(2-2)更新后的句子表示S₀＝{w₁,w₂,…,w_n}输入双向门循环单元神经网络，得到语义有效信息为H＝{h₁,h₂,…,h_n}，h_i为GRU各个隐藏层的最终输出；双向门循环单元神经网络的参数包括：隐层数为2，输出空间维度为units＝128，故总的输出空间维度为n*256；学习率为0.0001，丢弃率为0.3。

5.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(4)中将步骤(2)得到的句子向量输入到图注意力神经网络，得到融合语法结构信息的句子向量，其过程如下：

对于步骤(2)中所得到的邻接矩阵adj的具体表示如下：

其中n为文本句子中的单词个数，令a_e1,i＝1和a_e2,i＝1；将(2-2)更新后的句子表示S₀＝{w₁,w₂,…,w_n}和邻接矩阵adj输入于图注意力神经网络，相关设置包括Attention head＝32，每个head学习不同表示空间中的特征并输出8维的特征向量，即总输出是对每个head进行拼接后得到8*32维度的向量；丢弃率为0.4；激活函数使用relu函数，初始化器使用的使Glorot均匀分布初始化器，得到的最终结果使用拼接的方式进行输出，最后输出得到每个句子的语法结构信息G＝{g₁,g₂,…,g_n}，G的维度为n*256。

6.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(5)中对每个句子，将步骤(3)得到的融合语义信息的句子向量和步骤(4)得到的融合语法结构信息的句子向量进行拼接，其过程如下：

(5-1)利用注意力神经网络提取步骤(3)的输出H＝{h₁,h₂,…,h_n}中对关系影响最大的特征成分，即att＝Attention(q,H)，q为当前分类任务所需要匹配的特征向量，att的维度为256；

(5-3)对句中的语义信息att与语法信息g进行拼接处理；对att与g在最后一个维度上进行拼接，得到融合语法和语义关系的句子向量c＝concat(att,g)。

7.根据权利要求1所述的融合文本语法结构和语义信息的文本实体关系自动分类方法，其特征在于，所述步骤(6)中将步骤(5)得到的句子向量输入到全连接神经网络层，得到句子的特征向量；该特征向量经过softmax变换输出实体关系分类向量，其每一维表示句中实体关系属于对应类别的概率，其过程如下：