CN110633467B

CN110633467B - 一种基于改进特征融合的语义关系抽取方法

Info

Publication number: CN110633467B
Application number: CN201910811049.8A
Authority: CN
Inventors: 庞宁; 谭真; 赵翔; 张啸宇; 殷风景; 唐九阳; 葛斌; 肖卫东
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2023-04-07
Anticipated expiration: 2039-08-29
Also published as: CN110633467A

Abstract

本发明公开了一种基于改进特征融合的语义关系抽取方法，包括以下步骤：建立训练样本集；构建语义关系抽取模型；训练语义关系抽取模型；建立待抽取语义的数据集；利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明设计了一种保留谓词的依存路径，所述的依存路径包含两个子路径，子路径分别为根节点分别到两个实体的最短路径，与原本的分词序列同时作为输入，用于实体对之间语义关系的抽取，从而达到更准确的关系预测；加入多实例学习方法，用于在样本稀疏条件下的噪声抑制，与注意力机制相比，该机制不存在欠拟合问题，更适合稀疏样本下的中文文本语义关系抽取问题。

Description

一种基于改进特征融合的语义关系抽取方法

技术领域

本发明属于中文文本语义关系抽取领域，具体涉及一种基于改进特征融合的在稀疏中文文本中进行实体语义关系抽取的方法。

背景技术

近年来，知识图谱在一系列知识驱动的应用中发挥极其重要的作用，例如，机器翻译、推荐系统和问答系统等，而关系抽取技术是知识图谱自动构建的关键一环，具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息，获得标注实体对的语义关系的过程。当前，主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。

传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响，为了避免这一问题，神经网络开始广泛用于文本的嵌入表示，自动提取文本语义特征。监督方法需要明确的人工注释文本，标注过程耗时耗力。为了解决这一问题，提出了一种替代范式，即远程监督。该范式利用现有知识图谱Freebase提供监督，启发式地将文本与Freebase对齐，来生成大量弱注释数据。很明显，这种启发式对齐方法会带来噪声数据，这会严重影响关系抽取器的性能。

为了解决错误的注释问题，多实例学习方法被提出可以用来缓解远程监督下的错误标注问题，另外，选择性注意机制具有可训练的参数，通过学习，拟合在噪声上的概率分布，并动态地去削弱噪声实例影响。然而，在数据稀疏情况下，传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布，使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外，现有的关系抽取方法在英文语料上发展较为先进，而在中文语料的关系抽取研究相对落后。

发明内容

有鉴于此，本发明的目的在于提出一种基于改进特征融合的语义关系抽取方法，用于从非结构的语料中抽取结构化的知识，特别是从含噪稀疏的中文文本中进行语义关系抽取。

基于上述目的，本发明提供的一种基于改进特征融合的语义关系抽取方法，包括以下步骤：

步骤1，建立中文文本训练样本集；

步骤2，构建语义关系抽取模型；

步骤3，训练语义关系抽取模型；

步骤4，建立待抽取语义的数据集；

步骤5，利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。

所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据，每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签；

所述的依存路径为保留谓词的依存路径，所述的依存路径包含两个子路径，子路径分别为根节点分别到两个实体的最短路径。

进一步地，所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层，上述各层先后依次连接，所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口；所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间；所述卷积层为两个独立的卷积网络，分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征；所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合；所述全连接层将实例映射至已定义的关系集合上，获得实体对之间的语义关系。

进一步地，所述的语义关系抽取模型还包括多实例学习机制模块，从全连接层中获取数据，将学习的结果反馈到卷积层，指导卷积层的计算操作；所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例，丢弃其他实例，抑制噪声实例影响。

具体地，步骤3中，训练语义关系抽取模型的过程为：初始化后，以交叉熵作为损失函数，通过多实例学习方法，采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数，每迭代一次检验一次梯度，以寻求各网络层权重和偏置的最优解，迭代多次后得到本次训练的最优语义关系抽取模型。

由此，在步骤5中，利用训练好的语义关系抽取模型，对含有噪声的中文文本进行语义关系抽取，从非结构文本数据中获得结构化知识。

与现有技术相比，本发明以下优点和有益效果：

(1)本发明提出的依存路径为根节点到实体对最短路径，定义为：该路径包含两个子路径，子路径分别为根节点分别到两个实体的最短路径，优点在于这样的路径设计可以最大可能地保留谓词，谓词在实体对之间的语义关系确定过程中十分关键。

(2)本发明充分利用关系实例的两种信息表示，即分词序列和依存路径，通过特征融合层将二者有效结合，为准确预测目标实体对的语义关系提供更全面的信息。

(3)本发明在模型基础上，加入多实例学习方法，用于在中文样本稀疏条件下的噪声抑制，与注意力机制相比，该机制不存在欠拟合问题，更适合稀疏样本下的语义关系抽取问题。

附图说明

图1为本发明实施例的整体流程示意图；

图2为本发明设计保留谓词的依存路径优势示意图；

图3为本发明的语义关系抽取模型的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

如图1所示，一种基于改进特征融合的语义关系抽取方法，包括以下步骤：

步骤1，建立中文文本训练样本集；

步骤2，构建语义关系抽取模型；

步骤3，训练语义关系抽取模型；

步骤4，建立待抽取语义的数据集；

所述的训练样本集是利用知识图谱远程监督维基百科上的语料自动生成弱标注的数据，每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签。对于每一条中文文本，预先确定其中包含的实体对，通过分词工具得到原文本的分词序列，通过句法分析工具得到句法分析树，并从中提取出依存路径。将相同实体对的实例放在一起，成为一个实例包，为后续的多实例学习机制的去噪做数据准备。

现有技术中的依存路径是最短依存路径，定义为：在句法分析依存树中实体对之间的最短路径。本发明提出的依存路径为根节点到实体对最短路径，定义为：该路径包含两个子路径，子路径分别为根节点分别到两个实体的最短路径。保留谓词的依存路径实际上是从根词到两实体的两条最短路径的拼接。好处在于这样的路径设计可以最大可能地保留谓词，谓词在实体对之间的语义关系确定过程中十分关键。

如图2所示，在现有技术中的最短依存路径中，导致了谓词丢失，而在本发明中所设计的结构，谓词“结婚”被保留下来，这对于预测冯光荣与马维欣的“夫妻”关系十分关键。

如图3所示，所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层，上述各层先后依次连接，所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口；所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间；所述卷积层为两个独立的卷积网络，分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征；所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合；所述全连接层将实例映射至已定义的关系集合上，获得实体对之间的语义关系。

所述的语义关系抽取模型还包括多实例学习机制模块，从全连接层中获取数据，将学习的结果反馈到卷积层，指导卷积层的计算操作；所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例，丢弃其他实例，抑制噪声实例影响。

具体地，所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口，在本实施例下，输入接口数量为2，分别对应分词序列和依存路径，每一条实例的输入定义如下：

其中，x代表输入的分词序列，

代表分词序列中的第i个分词，s代表输入的依存路径，

代表依存路径上的第i个分词，在该实施例下m和n设为固定值100和40。

具体地，所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间，该层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示，在本实施例中，每个分词的向量表示包含词向量、位置向量和词性标注向量三部分，其中词向量通过Word2Vec算法预先训练得到，包含分词的语义信息，维度为50，位置向量通过随机初始化得到，包含分词在分词序列或依存路径中的位置信息，维度为10，词性标注向量表示为单位向量，包含分词的词性信息，维度为15。因此，在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示：w_i＝[v_word:v_position:v_tag]，其中，v_word，v_position和v_tag分别表示分词的词向量，位置向量和词性标注向量，w_i的维度为k，在本实施例中k为75。

将每一个分词向量表示按照分词序列和依存路径中的顺序先后水平连接，得到分词序列和依存路径的向量表示，表示为：

其中，X代表分词序列经过嵌入层之后的向量表示，W_i ^x代表分词序列中第i个分词的向量表示，S代表依存路径经过嵌入层之后的向量表示，W_i ^s代表依存路径中第i个分词的向量表示。

所述卷积层为两个独立的卷积网络，分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征。因为两个卷积网络具有相同的运算机制，再此仅以分词序列为例说明在该实施例下该层的定义和运算。为从数据中获得更多有用信息，每一个卷积网络设置多个卷积滤子，表示为

在本实施例中，卷积滤子数量d设置为230，窗口大小设w为3，卷积操作定义为：

而

其中，1＜i＜d，1≤j≤m-w+1，

为第i个卷积滤子，s_i:j为第i个分词到第j个分词向量表示的水平串联，

表示矩阵的点积运算，最终每一个卷积滤子生成一个中间特征向量

因此，全部卷积滤子生成的中间特征向量序列为C＝{c₁,c₂,…,c_d}。在卷积运算后，最大池化用来提取每一个维度中最显著的特征，定义为：

c_ij为C中对应位置的元素。最终生成每一条分词序列的特征向量

类似地，对于每条依存路径可以生成特征向量

所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合，本质上，是对来自分词序列和对应依存路径两方面的特征向量的加权求和，定义为：p＝αp^x+(1-α)p^s，其中，α为权重稀疏，在本实施例中取值为0.5。p^s为每条依存路径的特征向量，p^x为每条分词序列的特征向量。

所述全连接层将实例映射至已定义的关系集合上，获得实体对之间的语义关系，其定义为：o＝Up+v，其中，

为系数矩阵，

为偏置，

为对应于所有关系类型的置信分数，其中n_r是所有关系的数量，本实施例中设为5，置信分数最高的关系被认为是该实体对之间的语义关系。

所述多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例，丢弃其他实例，抑制噪声实例影响。训练数据有一系列实例包，表示为B＝{B₁,B₂,…,B_N}。任一个实例包B_i中包含|B_i|个实例，在该机制下，损失函数定义为：

其中，

为实例包B_i中的一个实例，o_kr为实例

对应关系j的置信分数，θ为模型中的全部参数。θ更新的原则为：

其中，η为学习率。

故步骤3中，训练语义关系抽取模型的过程为：初始化后，以交叉熵作为损失函数，通过多实例学习方法，采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数，每迭代一次检验一次梯度，以寻求各网络层权重和偏置的最优解，迭代多次后得到本次训练的最优语义关系抽取模型。

由于在不同的初始化条件下用随机梯度下降法训练模型，所以每一次预测结果都不一样，可以将不同初始条件训练得到的模型的预测做统计平均后作为整个系统的输出，最终得到语义关系的预测系统。

具体地，训练语义关系抽取模型的具体步骤如下：

步骤301，将训练样本数据集中的实例包写入到数据文件中，数据文件的数据格式与语义关系抽取模型的读入数据接口相符；

步骤302，设定训练参数：包括读入文件路径，迭代次数，学习率，设定每一网络层的所用维度和尺寸，初始训练权重和训练偏置；

步骤303，加载训练文件：加载语义关系抽取模型定义文件、网络层参数定义文件和训练数据数据组成的训练集；

步骤304，通过多实例学习方法，采用随机梯度下降法对语义关系抽取模型进行迭代更新模型参数，每迭代一次检验一次梯度，以寻求各网络层权重和偏置的最优解，迭代多次后得到本次训练的最优语义关系抽取模型；

步骤305，将样本集中后30％的数据作为测试样本集，将测试样本集采取训练样本集相同预处理方式，利用得到的语义关系预测系统对测试样本集中的数据进行测试。

现有的关系抽取方法在英文语料上发展较为先进，而在中文语料的关系抽取研究相对落后，因此，利用远程监督所构造的训练数据相对较少，不足以使注意力机制充分拟合，针对注意力机制欠拟合的问题，本发明采用多实例学习方法，该机制无需学习参数，更适用于样本稀疏的中文文本情况。此外，当前的关系抽取方法采用单一输入，词序列或者依存路径，而实际上，二者存在互补关系，词序列为依存路径提供补充信息，依存路径去除词序列中的噪声分词，受到这一观察的启发，本发明设计了一种保留谓词的依存路径，叫做根节点到实体对最短依存路径(以下简称为依存路径)，与原本的分词序列同时作为输入，用于实体对之间语义关系的抽取，从而达到更准确的关系预测。

上述实施例为本发明方法是基于改进特征融合的在含噪稀疏中文文本中的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于改进特征融合的语义关系抽取方法，其特征在于，包括以下步骤：

步骤1，建立中文文本训练样本集；

步骤2，构建语义关系抽取模型；

步骤3，训练语义关系抽取模型；

步骤4，建立待抽取语义的数据集；

步骤5，利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系；

所述的依存路径为保留谓词的依存路径，所述的依存路径包含两个子路径，子路径分别为根节点分别到两个实体的最短路径；

所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层，上述各层先后依次连接，所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口；所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间；所述卷积层为两个独立的卷积网络，分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征；所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合；所述全连接层将实例映射至已定义的关系集合上，获得实体对之间的语义关系。

2.根据权利要求1所述的语义关系抽取方法，其特征在于，所述的语义关系抽取模型还包括多实例学习机制模块，从全连接层中获取数据，将学习的结果反馈到卷积层，指导卷积层的计算操作；所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例，丢弃其他实例，抑制噪声实例影响。

3.根据权利要求2所述的语义关系抽取方法，其特征在于，训练语义关系抽取模型的过程为：初始化后，以交叉熵作为损失函数，通过多实例学习方法，采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数，每迭代一次检验一次梯度，以寻求各网络层权重和偏置的最优解，迭代多次后得到本次训练的最优语义关系抽取模型。

4.根据权利要求2所述的语义关系抽取方法，其特征在于，所述输入层的输入接口数量为2，分别对应分词序列和依存路径，每一条实例的输入定义如下：

其中，x代表输入的分词序列，

代表分词序列中的第i个分词，s代表输入的依存路径，

代表依存路径上的第i个分词；

所述的嵌入层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示，每个分词的向量表示包含词向量、位置向量和词性标注向量三部分，其中词向量通过Word2Vec算法预先训练得到，包含分词的语义信息，位置向量通过随机初始化得到，包含分词在分词序列或依存路径中的位置信息，词性标注向量表示为单位向量，包含分词的词性信息；在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示：w_i＝[v_word:v_position:v_tag]，其中，v_word，v_position和v_tag分别表示分词的词向量，位置向量和词性标注向量，w_i的维度为k；