CN116629264B

CN116629264B - 一种基于多个词嵌入和多头自注意力机制的关系抽取方法

Info

Publication number: CN116629264B
Application number: CN202310594598.0A
Authority: CN
Inventors: 秦智; 刘恩洋; 杜自豪; 张仕斌; 昌燕; 胡贵强
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2024-01-23
Anticipated expiration: 2043-05-24
Also published as: CN116629264A

Abstract

本发明公开了一种基于多个词嵌入和多头自注意力机制的关系抽取方法，包括以下步骤：S1、获取第一句子向量，将第一句子向量依次输入双向长短记忆网络层和注意力层，得到第一特征向量；S2、获取第二句子向量，将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层，得到第二特征向量；S3、将第一特征向量和第二特征向量均输入门控特征融合层，得到融合结果；S4、将融合结果输入Softmax层，得到关系预测结果，完成关系抽取。本发明使用字符嵌入的方式，不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义，并且避免分词错误带来的影响、缓解一词多义难题。

Description

一种基于多个词嵌入和多头自注意力机制的关系抽取方法

技术领域

本发明属于信息提取技术领域，具体涉及一种基于多个词嵌入和多头自注意力机制的关系抽取方法。

背景技术

在文旅领域中进行关系抽取任务有助于评判旅游消费趋势，评估行业发展现状等。但当前文旅领域数据集缺乏，关系抽取研究很少，因此迫切需要建立高效的文旅关系抽取模型。根据输入粒度可以将关系抽取任务分为两种。一种是基于字符输入，将句子用字符嵌入来表示，缺点就是不能充分利用词级信息；另一种是基于词输入，该方法往往会因为分词错误问题，使得抽取任务精度受到影响。一词多义问题也是中文关系抽取中普遍存在的问题之一。现有的方法大都基于字符输入，然后使用外部知识库将词信息集成到使用字符输入的模型中，但构建外部知识库耗费大量的人力和时间，且效率比较低。因此，如何避免分词错误带来的影响，缓解一词多义难题以及高效充分利用句子的语义信息是当前中文关系抽取的研究热点。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法解决了现有的关系抽取方法通过构建外部知识库耗费大量的人力和时间，且效率比较低的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于多个词嵌入和多头自注意力机制的关系抽取方法，包括以下步骤：

S1、获取第一句子向量，将第一句子向量依次输入双向长短记忆网络层和注意力层，得到第一特征向量；

S2、获取第二句子向量，将第二句子向量依次输入多窗口卷积层、多头自注意力层和最大池化层，得到第二特征向量；

S3、将第一特征向量和第二特征向量均输入门控特征融合层，得到融合结果；

S4、将融合结果输入Softmax层，得到关系预测结果，完成关系抽取。

进一步地：所述S1中，第一句子向量包括若干个字符嵌入，每个字符嵌入均由字符向量和位置向量组成；

其中，字符向量从文旅领域语料下训练好的FastText获得，位置向量用于表示字符和两个实体间相对距离。

上述进一步方案的有益效果为：本发明使用字符嵌入的序列作为句子向量表示句子，避免了分词错误。

进一步地：所述S1中，第一特征向量用于表示字符特征，得到第一特征向量的方法具体为：

通过双向长短记忆网络层和注意力层计算第一句子向量中的每个字符嵌入，根据字符嵌入的计算结果生成第一特征向量，其中，第i个字符嵌入的计算结果y_i的表达式具体为：

ρ_i＝softmax(W^Ttanh(bls_i))

式中，W^bls为线性映射矩阵，W^T为随机向量W的转置，bls_i为lsm的单元数，ρ_i为bls_i的注意力概率值，为ρ_i的转置，softmax(·)为归一化指数函数，tanh(·)为双曲正切函数，v_i为第i个字符嵌入，且i＝1,...,，l为句子的长度，/>为lstm的前向传播方法，为lstm的反向传播方法，/>为前向传播方法下的前一个隐藏状态向量，/>为lstm的反向传播方法下的前一个隐藏状态向量，/>为拼接操作。

进一步地：所述S2包括以下分步骤：

S21、获取第二句子向量，所述第二句子向量由文旅领域语料下训练好的Glove和FastText获得；

S22、将第二句子向量输入至多窗口卷积层，得到词向量序列；

S23、将词向量序列转换为输入序列，并将其输入至多头自注意力层，得到句子向量空间表示；

S24、将句子向量空间表示输入至最大池化层，得到第二特征向量。

上述进一步方案的有益效果为：本发明使用多个训练嵌入模型来增强字的含义和字之间的关系，考虑到卷积神经网络擅长提取局部特征的特点，选择使用多个不同卷积核大小的多窗口卷积层来获得不同的词组级信息，进而增强词的含义和词之间的关系，缓解一词多义难题。

进一步地：所述S22中，多窗口卷积层包括t个不同大小的卷积核，所述词向量序列其中，/>为第t_i个卷积核生成的词向量，其表达式具体为：

式中，S_m:n为第二句子向量中m到n的向量序列，第t_i个卷积核的大小为n-m+1，为第t_i个卷积核的参数矩阵，/>为第t_i个卷积核的偏置项，p为卷积核的padding值，f_G为Glove对应的激活函数，f_F为FastText对应的激活函数。

进一步地：所述S23中，得到句子向量空间表示A的表达式具体为：

式中，X为输入序列，和/>均为线性变换矩阵，/>为查询矩阵，为值矩阵，/>为键矩阵，/>和/>的维度均为R^l×(2t/h)，R为维度空间，t为滤波器数量，i_h为head的序数，d为键矩阵/>的维度，l为固定语句序列长度。

上述进一步方案的有益效果为：多头自注意力机制能够在考虑上下文的情况下捕捉词的含义，因此进一步缓解了一词多义难题。

进一步地：所述S24具体为：

将句子向量空间表示输入至最大池化层，通过最大池化层选择最显著的特征组成特征表示，得到第二特征向量，所述第二特征向量用于表示词组特征。

进一步地：所述S3包括以下分步骤：

S31、将第一特征向量和第二特征向量均输入门控特征融合层，得到门控张量；

S32、将门控张量与第一特征向量和第二特征向量相乘，得到融合结果。

进一步地：所述S31中，门控张量O_gate的表达式具体为：

O_gate＝(W_gate[Y；U]+_gate)

式中，W_gate为学习参数，b_gate为可学习张量，Y为第一特征向量，U为第二特征向量；

所述S32中，融合结果O的表达式具体为：

O＝O_gate⊙Y+(1-_gate)⊙U

式中，⊙为逐元素乘法符号。

上述进一步方案的有益效果为：使用门控机制将字符特征和词组特征进行融合，进而充分地表达句子语义信息。

进一步地：所述S4具体为：

将融合结果输入至Softmax层进行关系预测，得到关系预测结果，完成关系抽取。

本发明的有益效果为：

(1)本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法使用字符嵌入的方式，借助卷积神经网络擅长提取局部特征的特点，使用多个不同卷积核大小的多窗口卷积层生成词组向量，不需要借助分词工具，不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义，并且避免分词错误带来的影响、缓解一词多义难题。

(2)本发明使用多个在文旅领域训练过的嵌入模型来共同表示字符向量，增强了字的含义和字之间的关系，进而增强了词的含义和词之间的关系，不需要借助外部知识库来充当扩展的词信息，缓解了一词多义问题，提高了关系抽取的精度。

(3)本发明采用的多头自注意力机制可以在考虑上下文的情况下捕捉词的含义，进一步缓解了一词多义问题，并且分别获得字符特征和词组特征，使用门控机制来进行特征融合，充分地利用了句子语义信息。

附图说明

图1为本发明一种基于多个词嵌入和多头自注意力机制的关系抽取方法的流程图。

图2为本发明基于多个词嵌入和多头注意力机制的关系抽取方法的框架图。

图3为本发明双向长短记忆网络层和注意力层组成网络模型的框架图。

图4为本发明多窗口卷积层得到词向量序列的示意图。

图5为本发明多头自注意力层和最大池化层组成网络模型的框架图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种基于多个词嵌入和多头自注意力机制的关系抽取方法，包括以下步骤：

基于多个词嵌入和多头注意力机制的关系抽取方法的框架如图2所示。

所述S1中，第一句子向量包括若干个字符嵌入，每个字符嵌入均由字符向量和位置向量组成；

在本实施例中，使用文旅领域语料来训练Glove和FastTest，生成对应的字符嵌入矩阵；将文旅领域关系抽取数据集中每一条语句处理为以字为单位的序列，对每个字进行编号，重复出现的字忽略；固定语句序列长度为l，不足l的用数字0填充，对句子中每个字使用编号代替，记为N＝{n₁,n₁,…,n_l}。

句子向量S＝{v₁,v₂,…,v_l}∈R^l×j(j＝j₁+j₂)(l为句子的长度，j₁为字符向量维度，j₂为位置向量维度)，v_i是由字符向量和位置向量组成的字符嵌入，字符和两个实体间相对距离记为其中，/>表示第b个字符与实体e1间的相对距离，/>表示第b个字符与实体e2间的相对距离，/>的计算公式具体为：

式中，s^e1和d^e1分别表示实体e1的起始和结束位置，的计算方式和/>类似，第i个字符嵌入v_i可以表示为/>句子向量则表示为S＝{v₁,v₂,…,v_l}∈R^l×a。

所述S1中，得到第一特征向量的方法具体为：

ρ_i＝softmax(W^Ttanh(bls_i))

如图3所示。在本实施例中，双向长短记忆网络层可以保证提取特征的全局性和完整性，注意力层的注意力机制可以给予不同的字不同的权重，因此两者地组合可以增强语义信息，从而获得一个质量较高的第一特征向量Y∈d_out，d_out为关系种类数，第一特征向量用于表示字符特征。

所述S2包括以下分步骤：

如图4所示，在本实施例中，使用多个不同卷积核大小的卷积神经网络来提取局部特征，卷积多窗口卷积层的输出包括了多个字符信息，因此可以将提取的局部特征看作是一个词组向量。由于不同的词嵌入训练细节不同，为了缓解一词多义的问题，提出了使用多个训练过的字符嵌入来增强字的含义和字之间的关系，然后使用卷积多窗口卷积层提取局部特征，进而增强词的含义和词之间的关系。

所述S22中，多窗口卷积层包括t个不同大小的卷积核，所述词向量序列其中，/>为第t_i个卷积核生成的词向量，其表达式具体为：

所述S23中，得到句子向量空间表示A的表达式具体为：

式中，Softmax(·)为归一化指数函数，X为输入序列，和/>均为线性变换矩阵，/>为查询矩阵，/>为值矩阵，/>为键矩阵，/>和/>的维度均为R^l ^×(2t/h)，R为维度空间，t为滤波器数量，i_h为head的序数，h为head数量，d为键矩阵/>的维度，l为固定语句序列长度。

在本实施例中，为了进一步缓解一词多义问题，在多个词嵌入的基础上提出了使用多头自注意力机制，计算得到具有权重的句子向量空间表示，它可以在考虑上下文的情况下捕捉不同词的含义，计算句子向量空间表示的原理具体为：

将词向量序列转换为多头自注意力层所需要的词向量序列形状X＝{x₁,x₂,…,x_l}∈R^l×2t，并将其作为输入序列输入到由多头自注意力层和最大池化层组成的网络模型中，该网络模型结构如图5所示，将输入序列X通过线性变换矩阵/>转换为维度均为R^l×(2t/h)的查询矩阵/>键矩阵/>和值矩阵/>然后使用Softmax函数得到注意力分布，最后将多个注意力分布拼接在一起，通过线性变换矩阵/>得到具有权重的句子向量空间表示/>

所述S24具体为：

将句子向量空间表示输入至最大池化层，通过最大池化层选择最显著的特征组成特征表示，得到第二特征向量。

在本实施例中，将带有权重的句子表示输入到最大池化层选择最显著的特征组成特征表示/>用于表示词组特征。

所述S3包括以下分步骤：

在本实施例中，使用门控机制将第一特征向量和第二特征向量进行特征融合，它可以在训练过程中自适应地调整各个模型输出的权重，使不同类型的模型协同工作，相互弥补各自不同的不足，使得融合后的特征向量更加适合任务需求，从而提高整体的性能。

得到融合结果的方法步骤如下：使用Sigmoid函数作为门控函数，将第一特征向量和第二特征向量拼接后作为输入，得到门控张量O_gate，它可以看作是由学习参数b_gate构成的可学习张量。然后将门控张量与两个特征相乘，最终得到融合后的特征向量O∈d_out，并将其作为融合结果。

所述S31中，门控张量O_gate的表达式具体为：

O_gate＝(W_gate[Y；U]+_gate)

所述S32中，融合结果O的表达式具体为：

O＝O_gate⊙Y+(1-_gate)⊙U

式中，⊙为逐元素乘法符号。

所述S4具体为：

本发明的有益效果为：本发明提供的一种基于多个词嵌入和多头自注意力机制的关系抽取方法使用字符嵌入的方式，借助卷积神经网络擅长提取局部特征的特点，使用多个不同卷积核大小的多窗口卷积层生成词组向量，不需要借助分词工具，不构建外部知识库也能有效地从字符层面和词组层面挖掘句子信息来充分表达句子语义，并且避免分词错误带来的影响、缓解一词多义难题。

本发明使用多个在文旅领域训练过的嵌入模型来共同表示字符向量，增强了字的含义和字之间的关系，进而增强了词的含义和词之间的关系，不需要借助外部知识库来充当扩展的词信息，缓解了一词多义问题，提高了关系抽取的精度。

本发明采用的多头自注意力机制可以在考虑上下文的情况下捕捉词的含义，进一步缓解了一词多义问题，并且分别获得字符特征和词组特征，使用门控机制来进行特征融合，充分地利用了句子语义信息。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.一种基于多个词嵌入和多头自注意力机制的关系抽取方法，其特征在于，包括以下步骤：

S4、将融合结果输入Softmax层，得到关系预测结果，完成关系抽取；

其中，字符向量从文旅领域语料下训练好的FastText获得，位置向量用于表示字符和两个实体间相对距离；

所述S1中，第一特征向量用于表示字符特征，得到第一特征向量的方法具体为：

ρ_i＝softmax(W^Ttanh(bls_i))

式中，W^bls为线性映射矩阵，w^T为随机向量W的转置，bls_i为lstm的单元数，ρ_i为bls_i的注意力概率值，为ρ_i的转置，softmax(·)为归一化指数函数，tanh(·)为双曲正切函数，v_i为第i个字符嵌入，且i＝1,...,l，l为句子的长度，/>为lstm的前向传播方法，/>为lstm的反向传播方法，/>为前向传播方法下的前一个隐藏状态向量，/>为lstm的反向传播方法下的前一个隐藏状态向量，/>为拼接操作；

所述S2包括以下分步骤：

S24、将句子向量空间表示输入至最大池化层，得到第二特征向量；

所述S3包括以下分步骤：

2.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法，其特征在于，所述S22中，多窗口卷积层包括t个不同大小的卷积核，所述词向量序列其中，/>为第t_i个卷积核生成的词向量，其表达式具体为：

3.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法，其特征在于，所述S23中，得到句子向量空间表示A的表达式具体为：

式中，X为输入序列，和/>均为线性变换矩阵，/>为查询矩阵，/>为值矩阵，/>为键矩阵，/>和/>的维度均为R^l×(2t/h)，R为维度空间，t为滤波器数量，i_h为head的序数，d为键矩阵/>的维度，l为固定语句序列长度。

4.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法，其特征在于，所述S24具体为：

5.根据权利要求1所述的基于多个词嵌入和多头自注意力机制的关系抽取方法，其特征在于，所述S31中，门控张量O_gate的表达式具体为：

O_gate＝σ(w_gate[Y；U]+b_gate)

所述S32中，融合结果O的表达式具体为：

O＝O_gate⊙Y+(1-O_gate)⊙U

式中，⊙为逐元素乘法符号。