CN111666752B

CN111666752B - 一种基于关键词注意力机制的电路教材实体关系抽取方法

Info

Publication number: CN111666752B
Application number: CN202010313861.0A
Authority: CN
Inventors: 黄晓; 林嘉良; 滕蔚; 保延翔
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-05-09
Anticipated expiration: 2040-04-20
Also published as: CN111666752A

Abstract

本发明提供一种基于关键词注意力机制的电路教材实体关系抽取方法，该方法该方法摒弃复杂度较高的时序序列神经网络或多层卷积神经网络，转而使用一种轻量级的卷积神经网络进行文本特征抽取，从而避免了因为数据集样本量少产生过拟合的问题；同时，根据电路教材数据集专有词汇较多，句式结构特点鲜明的特征，本发明提出关键词注意力机制，使得模型能关注句子中对实体关系预测影响最大的关键词，实现良好的实体关系预测能力。

Description

一种基于关键词注意力机制的电路教材实体关系抽取方法

技术领域

本发明涉及中文电子电路教材的实体关系抽取领域，更具体地，涉及一种基于关键词注意力机制的电路教材实体关系抽取方法。

背景技术

实体关系抽取是知识图谱，问答系统，检索系统等自然语言处理任务的一个关键子任务。当前英文实体关系抽取的研究取得了很多相当不错的成果，但是在中文特定领域实体关系抽取任务还处于发展阶段。在电路教材的中文实体关系抽取领域，其一般的任务形式如下：给定一个句子，如“独立结点与参考结点之间的<e1>电压</e1>称为<e2>结点电压</e2>。”。其中用<e1>、</e1>、<e2>和</e2>标记了两个实体“电压”和“结点电压”，需要预测出实体之间的关系“定义”。

由于电路教材的中文实体关系抽取数据集有样本数据量小，专有词汇多，句法结构特点鲜明等特征，这与当前英文领域数据量大，词汇丰富，句法复杂的公开数据集相比具有较大差别。因此，如果直接套用当前现存的一些英文实体关系抽取预测模型，进行电路教材上的中文实体关系抽取任务时，将很容易出现模型过拟合问题，最终取得不理想的效果。

发明内容

本发明提供一种基于关键词注意力机制的电路教材实体关系抽取方法，该方法解决了自然语言工具包带来的误差传播问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于关键词注意力机制的电路教材实体关系抽取方法，包括以下步骤：

S1：嵌入层将输入句子中的每个单词转化为一个词向量和相对位置向量；

S2：根据手工标记的关键词，使用注意力机制让模型关注对关系预测起重要作用的关键词；

S3：在卷积层使用多种卷积核捕捉句子的特征信息，并对卷积层的输出作最大池化操作；

S4：用一个全连接层结合soft-max层来计算每一个关系的条件概率，并做出预测判决；

S5：采用对数极大似然损失作为损失函数，并使用Adam优化算法解决最大化问题。

进一步地，所述步骤S1的具体过程是：

将文本中的每个词映射成编码的语义向量序列，其中每个词的语义向量序列是由该词的词嵌入表示向量以及两个相对位置向量拼接而成的，给定一个长度为k的句子s，让s＝[v₁,v₂,...,v_e1,...,v_e2,...,v_k],v_i代表句子中第i个单词，v_e1和v_e2是句子s中的两个标记实体；

预训练好的词嵌入表示集E，这个词嵌入表示集包含文本内容中所有单词的词嵌入表示向量，通过查询词嵌入表示集E，把句子s中的每个词都转化为一个m_v维的词嵌入表示向量形式，把第i个单词v_i对应的词嵌入表示向量记为

分别计算单词v_i到两个命名实体之间的相对距离p′_i和p″_i；随机预定义好一个位置信息嵌入表示集，然后根据这个位置信息嵌入表示集将p′_i和p″_i映射成两个m_d维的相对位置向量，记为

对于第i个单词，将词嵌入表示向量

以及两个相对位置向量

拼接成该词最终的语义向量f_i，记为

其中f_i的维度为(m_v+2m_d)，得到整个句子的词嵌入表示矩阵记为S＝[f₁,f₂,...,f_k]。

进一步地，所述步骤S2的具体过程是：

假设这句子中的每个词对关系分类预测结果的重要程度是不同的，并且句子中手工标注的关键词K对关系分类起着最重要的作用，基于以上假设，那么如果句子中的某词与关键词K的关系越密切，则该词对于关系的预测作用也应该更强，在嵌入层得到了句子的整个词嵌入表示矩阵S＝[f₁,f₂,...,f_k]，因此，把关键词K的词嵌入表示记为d^key,则使用以下双线性函数来描述每个词对关系预测的重要性得分：

其中，M是在训练过程中需要学习的权重矩阵，b是一个偏置项，然后，通过softmax函数将上述重要性得分进行处理，得到第i个词标准化后的权重项a_i,即：

计算所有的项后，得到一个对角注意力矩阵A，记为：

A＝dig(a₁,a₂,a₃,...,a_k) (3)

将句子词嵌入表示矩阵S和对角注意力矩阵A相乘得到卷积池化层的输入矩阵Q：

Q＝SA＝(q₁,q₂,...,q_k) (4)

进一步地，所述步骤S3的具体过程是：

将矩阵Q作为卷积层的输入，在卷积层引入了多个不同初始化权重的卷积核提取句子的特征，假设共有N_f个的卷积核，用W_i来表示第i个卷积核，利用卷积核W_i对输入矩阵Q进行特征提取，得到高阶语义特征o_i，o_i的计算如下：

o_i＝σ(W_i·Q) (5)

其中σ是一个激活函数，依据公式(5)，得到卷积核提取出来的高阶语义特征为

使用最大池化方法对高阶语义特征O进行更一步筛选，得到卷积核提取的池化特征p，即：

进一步地，所述步骤S4的具体过程是：

将上一层获得的句子池化特征p，输入一个全连接层来计算一个得分score，并用softmax层得到各个关系的条件概率p(y_i|S)，最终，通过取最大条件概率的关系作为预测值y^*，具体公式如下：

score＝C_x r^* (7)

p(y_i|S)＝softmax(score) (8)

y^*＝arg max p(y_i|S) (9)。

进一步地，所述步骤S5的具体过程是：

采用的对数极大似然损失作为目标函数，为了抑制模型的过拟合，本发明添加了L2正则化项，其公式表示为：

其中β表示L2正则化参数，使用Adam优化算法解决公式(10)的最大化问题，并在全连接层采用dropout方法减少过拟合。

与现有技术相比，本发明技术方案的有益效果是：

本发明针对电路教材上的中文实体关系数据集数据量小，专有词汇多，句法结构特点鲜明等特征，提出了基于关键词注意力机制的卷积神经网络进行电路教材实体关系抽取的方法。一方面，该方法摒弃复杂度较高的时序序列神经网络或多层卷积神经网络，转而使用一种轻量级的卷积神经网络进行文本特征抽取，从而避免了因为数据集样本量少产生过拟合的问题。另一方面，根据电路教材数据集专有词汇较多，句式结构特点鲜明的特征，本发明提出关键词注意力机制，使得模型能关注句子中对实体关系预测影响最大的关键词，实现良好的实体关系预测能力。与传统方法相比，由于人工标记了对关系预测及其重要的关键词，因此整个方法实现了人工先验知识的介入和神经网络自动提取特征有效结合，同时解决了自然语言工具包带来的误差传播问题，具有较大创新性。

附图说明

图1总体架构框图；

图2电路教材实体关系数据集实例图；

图3部分电路教材专有名词词表

图4分词实例图；

图5数据预处理流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

本发明提出基于关键词注意力的卷积神经网络在电子教材语料上进行实体关系抽取的方法，其整体的网络结构主要分为嵌入层，关键词注意力层，卷积池化层、全连接层以及模型学习五个部分。首先，嵌入层将输入句子中的每个单词转化为一个词向量和相对位置向量。接着，根据手工标记的关键词，使用注意力机制让模型关注对关系预测起重要作用的关键词。然后，在卷积层使用多种卷积核捕捉句子的特征信息，并对卷积层的输出作最大池化操作。在这之后，用一个全连接层结合soft-max层来计算每一个关系的条件概率，并做出预测判决。最后，在模型学习阶段，本发明采用对数极大似然损失作为损失函数，并使用Adam优化算法解决最大化问题。

1.输入嵌入层

该层主要将文本中的每个词映射成编码的语义向量序列。其中每个词的语义向量序列是由该词的词嵌入表示向量以及两个相对位置向量拼接而成的。假设给定一个长度为k的句子s，让s＝[v₁,v₂,...,v_e1,...,v_e2,...,v_k],v_i代表句子中第i个单词，v_e1和v_e2是句子s中的两个标记实体。

首先,预训练好的词嵌入表示集E，这个词嵌入表示集包含文本内容中所有单词的词嵌入表示向量。这样，通过查询词嵌入表示集E，把句子s中的每个词都转化为一个m_v维的词嵌入表示向量形式。把第i个单词v_i对应的词嵌入表示向量记为

接着，分别计算单词v_i到两个命名实体之间的相对距离p′_i和p″_i。例如，用“并联电路的<e1>等效电容</e1>其值<key>等于</key>各<e2>并联电容</e2>值之和。”这个句子为例，句子中<e1>和</e1>，<e2>和</e2>标记了两个实体“等效电容”和“并联电容”。而单词“并联电路”到两个实体“等效电容”和“并联电容”的相对距离分别为-2和-6，因此得到了p′₃＝-2和p″₃＝-6。之后随机预定义好一个位置信息嵌入表示集，然后根据这个位置信息嵌入表示集将p′_i和p″_i映射成两个m_d维的相对位置向量，记为

最后，对于第i个单词，将词嵌入表示向量

以及两个相对位置向量

拼接成该词最终的语义向量f_i。记为

其中f_i的维度为(m_v+2m_d)。类似地，得到整个句子的词嵌入表示矩阵记为S＝[f₁,f₂,...,f_k]。

2.关键词注意力层

关键词注意力层是本发明的核心创新点。假设这句子中的每个词对关系分类预测结果的重要程度是不同的，并且句子中手工标注的关键词K对关系分类起着最重要的作用。基于以上假设，那么如果句子中的某词与关键词K的关系越密切，则该词对于关系的预测作用也应该更强。在嵌入层得到了句子的整个词嵌入表示矩阵S＝[f₁,f₂,...,f_k]，因此，把关键词K的词嵌入表示记为d^key,则使用以下双线性函数来描述每个词对关系预测的重要性得分：

其中，M是在训练过程中需要学习的权重矩阵，b是一个偏置项。然后，通过softmax函数将上述重要性得分进行处理，得到第i个词标准化后的权重项a_i,即

计算所有的项后，得到一个对角注意力矩阵A，记为：

A＝dig(a₁,a₂,a₃,...,a_k) (3)

最后，将句子词嵌入表示矩阵S和对角注意力矩阵A相乘得到卷积池化层的输入矩阵Q：

Q＝SA＝(q₁,q₂,...,q_k) (4)

3.卷积池化层

经过注意力层，得到一个输入矩阵Q,将矩阵Q作为卷积层的输入。然后，本发明在卷积层引入了多个不同初始化权重的卷积核提取句子的特征。假设共有N_f个的卷积核，用W_i来表示第i个卷积核，利用卷积核W_i对输入矩阵Q进行特征提取，得到高阶语义特征o_i，O_i的计算如下：

o_i＝σ(W_i·Q) (5)

其中σ是一个激活函数。依据公式(5)，得到卷积核提取出来的高阶语义特征为

4.全连接层

在全连接层部分，本发明将上一层获得的句子池化特征p，输入一个全连接层来计算一个得分score，并用softmax层得到各个关系的条件概率p(y_i|S)。最终，通过取最大条件概率的关系作为预测值y^*。具体公式如下：

score＝C_x r^* (7)

p(y_i|S)＝softmax(score) (8)

y^*＝arg max p(y_i|S) (9)

5.模型学习

在模型学习阶段，本发明采用的对数极大似然损失作为目标函数，为了抑制模型的过拟合，本发明添加了L2正则化项，其公式表示为：

其中β表示L2正则化参数。本发明使用Adam优化算法解决公式(10)的最大化问题，并在全连接层采用dropout方法减少过拟合问题。

图1是电路教材实体关系数据集实例图。源数据集用<e1>、</e1>标记实体1，用<e2>、</e2>标记实体2，</key>和<key>标记关键词，并给出源标签。其中实体1和实体2是数据集本身带有的标记实体，而关键词采用句子依存理论进行人工标注的方法，标注句子中对关系预测起重要作用的词语(一般为句中的支配词)。比如图1中“<e1>三角形电阻</e1>的阻值<key>等于</key>Y型电阻两两乘积之和除以<e2>Y型不相邻电阻</e2>”,根据句子依存理论，句子中的动词“等于”为支配词，其他词都为从属词，因此将“等于”标记为关键词。

图2是从本发明电路教材专有名词词表中摘选的部分电路专有词汇，该词表主要来源于当前主流中文电路电子教材中的电路名词附录及其文本中标记的黑体实词。

图3是中文分词效果实例图。本发明采用加载中电路教材专有词汇表的方法(词表如图2所示)，提升了分词的准确率。从图3看出，加载专有词汇表后，诸如“各向同性”、“自感磁通链”和“施感电流”等电路专有名词在句子中准确分词。

图4是数据预处理流程图。首先将电路电子教材中常用的专有名词进行抽取，制成用于分词的用户词典，如图2所示。然后使用结巴分词加载构建好的电路教材专用词典，并进行分词，得到如图3的分词结果。最后，将关键词以及句子映射成词向量的形式，作为本发明神经网络的输入。

图5是基于关键词注意力机制的卷积神经网络的总体框图。图中以句子“并联电路的等效电容其值等于并联电容值之和”为例子，句中标记了两个实体“等效电容”和“并联电容”，以及关键词“等于”。下面将结合例图，对这一样本的预测过程加以描述。

1.在词嵌入层，将句子中的每个单词映射成词向量和相对位置向量的形式，并把词向量和位置向量拼接，最终整个句子形成一个词嵌入矩阵S；同时，把关键词映射成词向量，用d^key表示。

2.在关键词注意力层，假设这句子中的每个词对关系分类预测结果的重要程度是不同的，并且句子中手工标注的关键词K对关系分类起着最重要的作用。基于以上假设，那么如果句子中的某词与关键词K的关系越密切，则该词对于关系的预测作用也应该更强。因此，利用在嵌入层得到的整个句子的词嵌入表示S＝[f₁,f₂,...,f_k]，以及关键词K的词嵌入表示d^key,代入到公式(1)，计算出第i个词的重要性得分I_i。接着，通过公式(2)中softmax函数对重要性得分I_i的处理，得到标准化后的第i个词的权重项a_i,计算句子中所有词后得到一个对角注意力矩阵A。最后，利用公式(4)，将句子词嵌入表示矩阵S和对角注意力矩阵A相乘得到卷积池化层的输入矩阵Q。

3.经过注意力层，得到一个输入矩阵Q,并在卷积层引入了多个不同初始化权重的卷积核来对Q特征提取，由公式(5)，得到第i个卷积核的高阶语义特征o_i，而整个句子的经过卷积层后用高阶语义特征表示为

通过使用最大池化方法对高阶语义特征O进行更一步筛选，最后得到池化后的特征p，如公式(6)所示。

4.在关系推断部分，本发明将上一层获得的池化特征p，输入全连接层来计算得分score，并用softmax层得到各个关系的条件概率p(y_i|S)。最终，通过取最大条件概率的关系作为预测值y^*，如公式(7)、(8)、(9)所示。

最后，模型采用加L2正则项的对数极大似然损失作为目标函数，并使用Adam优化算法进行训练。如公式(10)所示。

本发明针对样本数据量小，专有词汇多，句法结构特点鲜明的中文电子教材实体关系抽取数据集，采用基于关键词注意力机制的卷积神经网络的方法，使得模型拥有较低的复杂度，并且有效地关注句子中对关系分类最重要的关键词信息。与现有的关系抽取网络相比，本发明提高了模型预测的准确度，提升了运行速度，加强了模型泛化的能力；

本发明提出基于关键词注意力机制，为其他自然语言处理任务提供了一种新的思路，增加了本发明与其他网络结合的可能性；本发明提出的引入电路实体名词列表作为中文分词的用户词典，提升了分词的准确率，对最后关系分类的结果也有重要的积极意义；本发明提出基于关键词注意力的卷积神经网络，与传统方法相比，由于人工标记了对关系预测其重要重用的关键词，因此整个方法实现了人工先验知识的介入和神经网络自动提取特征有效结合，同时解决了自然语言工具包带来的误差传播问题。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于关键词注意力机制的电路教材实体关系抽取方法，其特征在于，包括以下步骤：

所述步骤S2的具体过程是：

假设这句子中的每个词对关系分类预测结果的重要程度是不同的，并且句子中手工标注的关键词K对关系分类起着最重要的作用，基于以上假设，那么如果句子中的某词与关键词K的关系越密切，则该词对于关系的预测作用也更强，在嵌入层得到了句子的整个词嵌入表示矩阵S＝[f₁,f₂,…,f_k]，因此，把关键词K的词嵌入表示记为d^key,则使用以下双线性函数来描述每个词对关系预测的重要性得分I_i：

其中，f_i表示基于第i个单词的词嵌入表示向量以及两个相对位置向量拼接成的语义向量，i＝1，2，…，k；M是在训练过程中需要学习的权重矩阵，b是一个偏置项，然后，通过softmax函数将上述重要性得分进行处理，得到第i个单词标准化后的权重项a_i,即：

计算所有的项后，得到一个对角注意力矩阵A，记为：

A＝dig(a₁,a₂,a₃,…,a_k) (3)

Q＝SA＝(q₁,q₂,…,q_k) (4)；

所述步骤S3的具体过程是：

o_i＝σ(W_i·Q) (5)

其中σ是一个激活函数，依据公式(5)，得到卷积核提取出来的高阶语义特征为使用最大池化方法对高阶语义特征O进行更一步筛选，得到卷积核提取的池化特征p，即：

2.根据权利要求1所述的基于关键词注意力机制的电路教材实体关系抽取方法，其特征在于，所述步骤S1的具体过程是：

将文本中的每个词映射成编码的语义向量序列，其中每个词的语义向量序列是由该词的词嵌入表示向量以及两个相对位置向量拼接而成的，给定一个长度为k的句子s，让s＝[v₁,v₂,…,v_e1,…,v_e2,…,v_k],v_i代表句子中第i个单词，v_e1和v_e2是句子s中的两个标记实体；

对于第i个单词，将词嵌入表示向量以及两个相对位置向量拼接成该词最终的语义向量f_i，记为其中f_i的维度为(m_v+2m_d)，得到整个句子的词嵌入表示矩阵记为S＝[f₁,f₂,…,f_k]。

3.根据权利要求2所述的基于关键词注意力机制的电路教材实体关系抽取方法，其特征在于，所述步骤S4的具体过程是：

score＝C_xr^* (7)

p(y_i|S)＝softmax(score) (8)

y^*＝argmax p(y_i|S) (9)。

4.根据权利要求3所述的基于关键词注意力机制的电路教材实体关系抽取方法，其特征在于，所述步骤S5的具体过程是：