CN111737497B

CN111737497B - 基于多源语义表示融合的弱监督关系抽取方法

Info

Publication number: CN111737497B
Application number: CN202010607265.3A
Authority: CN
Inventors: 刘宇; 倪骏; 单世民; 赵哲焕; 徐秀娟; 刘日升; 王恺
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-07-20
Anticipated expiration: 2040-06-30
Also published as: CN111737497A

Abstract

本发明提供一种基于多源语义表示融合的弱监督关系抽取方法。首先，采用分布式词向量初始化文本语句的上下文语义特征，运用自然语言处理工具解析出描述文本特性的海量离散化符号特性，并设计关系抽取任务中语句实例与特性间通用的一阶逻辑规则。之后，将逻辑规则与因子图相结合以建立文本特性与语句实例间的联系，并通过联合统计推理从人类感知的角度建模，学习描述文本特性的低维关系语义向量；并使用双向门控循环单元编码语句内容本身的语义信息作为上下文内容语义向量。最后，在神经网络中微调文本特性语义向量，融合两种不同特征源的向量表示得到更具鲁棒性的文本语义特征表示，与实体对嵌入表征一同指导弱监督关系抽取工作。

Description

基于多源语义表示融合的弱监督关系抽取方法

技术领域

本发明属于信息抽取技术领域，适用于通用领域的关系抽取，特别涉及在弱监督对应的训练样本不准确、不均衡条件下语句中“实体-关系-实体”三元组关系的抽取，具体为基于多源语义表示融合的弱监督关系抽取方法。

背景技术

在现实生活中，非结构化的文本信息如同暗物质一般，埋藏在海量的网络数据中，因缺乏结构而难以处理。深入研究实体关系抽取技术是希望借助计算机高效处理文本的能力，从海量的、无结构的网络文本中提取出格式统一的关系事实表述。通过挖掘目标实体在文本语句中的语义信息，预测实体间存在的特定的关系表达，而后运用得到的众多关系事实构建并完善现实中用于检索与决策的知识体系。关系抽取将大量无结构的文本语句转化为结构化的“实体-关系-实体”三元组列表存储，构建多关系的知识体系，帮助人们快速有效地检索所需信息，发现事物间的联系，并且挖掘出实体间的三元组关系，能够为构建知识图谱、实现信息检索以及问答系统等诸多任务提供了坚实的数据基础，但与此同时，关系抽取的建模却面临着缺乏大量真实训练数据这一巨大的挑战。

弱监督关系抽取是关系抽取任务中比较贴合实际应用需求的一个研究分支，它能够在人工成本较低的情况下构建关系抽取方法。但为了节约人工成本，弱监督信号往往因监督不足，使得关系抽取方法在训练过程中面临错误标记、样本分布不均等难题。现有基于弱监督学习的关系抽取算法大都关注原始语料内容嵌入信息以缓解监督资源不足的影响，缺乏对不同层面的语义信息整合与充分利用，语义特征的表现形式比较单一，容易导致抽取结果严重偏向训练样本较多的关系类型。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种融合多源语义表示的弱监督关系抽取方法，将传统自然语言处理工具解析出的文法依赖树、词性等包含人类感知的文本特性与文本内容的嵌入词向量语义表示相结合，定义通用一阶逻辑，提供更加灵活的手段整合离散文本特性，使得离散的文本特性知识能够在简单的图结构中被整合为低维语义表示。通过不同语义特征源，不同的表示方法在神经网络反馈机制下的微调，帮助分析更为复杂的语法结构，提高关系类型抽取的精确性与多样性。本发明从不同角度出发，在句子级别上进行语义信息表示融合以增强关系抽取方法对弱监督信号的约束能力，在保证抽取精确性表现优异的同时，能够发现更多训练样本稀少的关系类型实例。

为了实现上述目的，本发明采用的技术方案是：

基于多源语义表示融合的弱监督关系抽取方法，具体步骤如下：

(1)数据预处理：提取词语的向量初始化表示作为文本内容特征并选取自然语言工具解析出的句法、词法等离散特征作为文本特性，设计关系抽取任务中语句实例和离散特征间关联的通用一阶逻辑规则；本发明将每个语句实例中的符号化自然语言文本特性以及符号化表示的目标实体识别类型设置为通用一阶逻辑规则，辅助弱监督关系抽取工作，并支持灵活编写其他逻辑规则。

(2)特征编码表示：定义基于逻辑约束的弱监督语义表示模块进行统计推理，以整合数据预处理得到的离散符号化文本特性生成语句的文本特性低维语义表示向量，作为关系抽取工作的监督特征源；该模块既能学习包含人类感知的离散文本特性权重，又能推理出语句实例全局一致的低维关系语义表示，有利于采纳更多离散弱监督知识的语义信息。同时，预处理的文本内容的词向量表示通过双向门控循环单元编码作为关系抽取的另一监督特征源。

(3)多源语义表示融合：在多源语义融合网络架构下考虑包含人类感知的离散特性缺乏反馈机制利用神经网络微调统计推理结果，微调离散文本特性语义表示，对文本内容嵌入与文本特性语义表示两种不同的初始化语义特征表示相结合，之后引入嵌入实体对表征和权衡机制，削弱人类感知特性信息传递错误的影响，在保证弱监督关系抽取精确性的同时，使得挖掘出更多更为多样化的关系类型实例。

本发明的有益效果：与现有技术相比，本发明能够使关系抽取算法适应关系类型训练样本稀少且包含较为复杂语法结构的情境，以实现弱监督条件下灵活有效的关系抽取任务，可以应用于生物医疗、军事、社交等各个领域。

附图说明

图1为本发明基于多源语义表示融合的弱监督关系抽取方法整体架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

表1为本实施例定义的通用关系抽取一阶逻辑约束集，如表1所示，本实施例以斯坦福大学提供的逻辑约束声明语法为基础定义文本特性与样本实例的关联进行符号化表示，并选取了一些词法与句法特征作为关系抽取的监督源。举例来说，可以选用两实体间由词块、方向、依存关系组成的文法依赖树作为句法特征。两实体对应的命名实体识别标记、实体之间或两侧的词序列与词性标记作为词法特征。

图1给出本发明的关系抽取方法架构设计，本发明以学习文本语句的语义为主，辅以嵌入实体对向量表征。针对文本本身的上下文语义特征可以采用带有词注意力机制的双向门控循环单元进行学习，针对离散化的文本特性，使用逻辑约束与因子图构成的逻辑网进行统计推理，得到文本特性语义表示结果后在网络中微调与上下文内容嵌入表示拼接得到文本语句语义表示f_r。

之后采用权衡机制，将文本语句语义表示f_r与实体对表示e_r相结合。实体对表示采用词向量的点积操作实现，由于实体对本身具备的词性、命名实体识别标记等性质均作为词法特征可在文本特性语义向量中灵活引入，无需再将这些离散特征添加到实体对表示中。权衡机制具体计算过程如公式所示：

f’_r＝p_be_r+(1-p_b)f_r

其中，p_b为权衡概率，向量w_s,w_e以及标量b_ptr均为可学习参数，σ(·)在这里表示使用sigmoid作为激活函数，f’_r为权衡机制更新后的文本语句语义表示。

考虑到相同实体对在不同语境下面临着不等价且难以取舍的棘手问题，因此本发明引入语句示例级注意力机制帮助关系抽取方法关注那些反映关系事实的语句示例，削弱错误标注的示例对抽取性能的影响，以提取高质量的关系表示特征F_r，具体计算如下：

其中，r表示与关系类别相关联的随机初始化查询向量，A是随机初始化的加权对角矩阵。由于以远程监督为主体的弱监督关系抽取的本质是实现对关系事实的多分类判断，所以该方法在末端引入一个Softmax分类器来预测关系事实，并以交叉熵作为损失函数，计算公式如下：

其中，W是一个关系表示矩阵，b为偏移量，k代表所有给定关系类别的数目。θ代表方法全部参数的集合，r为对应的关系标签，S表示文本语句的集合。

本发明的文本特性语义表示统计推理采用最大条件对数似然估计定义优化目标，在Dimmwitted引擎下进行Gibbs采样，主要过程如下：

引入因子图构建语句实例与文本特性间的逻辑网，统一离散化非文本监督信息的训练结构，以减少弱监督带来的不确定性。基于逻辑约束的弱监督语义表示模块将语句实例的关系语义表示作为变量，文本特性视为因子函数，逻辑约束充当图结构的边，学习不同实例依逻辑约束关联的因子权重，进一步推理出未知实例的低维关系语义向量。因子图将每个变量视为一个可能世界。根据关系抽取任务的实际需求，可能世界对应的向量维度由预先定义的关系类型数目决定。在权重学习阶段，将远程监督训练集实例中的关系标签转化为独热编码，弱监督关系标签会作为一组已知的可能世界集合输入到因子图中，并使用马尔可夫逻辑网试图最大限度满足推理出的可能世界向量表示与已知的独热编码相近，即计算得到概率最大的维度与独热编码为1的维度一致。整个过程依靠现有训练样本标签来学习离散的因子特征在可能世界集中未知的权重值。其目标函数采用最大条件对数似然估计定义如下：f(w)＝logP(Y＝y|X＝x)。

其中，P(·)为条件概率，Y对应于整个可能世界集，X代表作为证据的因子函数集。f(w)为目标函数，表示给定因子权重w计算出的关系表示结果。

之后，通过梯度下降法不断迭代学习因子函数集的权重分布，求解最优目标函数。梯度学习的具体计算过程如下：

其中，E_w[n_i(x,y)]代表语义表示模块计算得到的符合证据因子x表述的可能世界y的期望值，n_i(x,y)表示第i个特征因子实际对多少个可能世界的实现具有积极作用；因子权重w的学习过程如下：

w_j+1＝w_j*(1.0/(1.0+0.01*s_j))-s_j*g_j

s_j+1＝s_j*d

这里采用梯度下降法对因子权重w进行更新，对步长进行衰减逼近极值。其中，j为当前迭代轮数，s为步长，d为衰减率，g为每步计算的梯度；

推理过程与权重学习本质都是采用最大后验推断来处理，但目标恰好相反。推理过程需要依据给定的证据因子及其权重预测出未知的可能世界状态。每个可能世界真实状态的概率值的计算如公式所示：

指数形式的因子加权求和使得每个可能世界y都能够采用非负的实值函数来表示可能世界的状态。Z为归一化函数，反映了在整个可能世界集中所有因子加权求和计算出的结果。

然而，随着实例语句与特征因子函数的增加，庞大的图结构使得由实例语句组成的可能世界集的精确推理变得十分棘手。因此，运用Gibbs采样技术将上述的精确运算转变为近似推断，以便文本特性表示学习在大规模数据形成庞大的图结构下运算更为迅速高效。本发明利用Gibbs采样的方式随机从一个可能世界y开始采样，依据条件概率P_r(y|mb(y))更新可能世界y的状态值。其中，mb(y)表示被检索的与可能世界y相关联的因子函数集，该集合能够反映与y相邻的可能世界是否成立。当相邻可能世界的状态均成立的情况下，计算可能世界y不同状态的概率分布并选取最大概率值更新y的状态。待y的状态更新后，扫描所有变量，选取不满足整个可能世界集的部分，重复Gibbs采样过程，最大限度保证全部可能世界满足因子函数的约束。待推理迭代轮数结束后，统计每个可能世界的状态值分布情况，并拼接得到关系语义表示向量。

但是词法特征、句法特征等文本特性描述依据逻辑约束语义表示模块得到的低维向量d_r还不足以用于判别关系事实。因为同传统基于特征工程的算法一样，统计推理的过程缺乏反馈机制，容易导致包含人类感知的弱监督知识错误传播影响抽取方法性能。所以有必要将d_r输入到神经网络中进一步微调处理，微调过程采用具有Dropout机制的多层前馈神经网络结构，依据最终优化的目标利用反向传播过程对离散特征整合得到的向量表示d_r进行修正。为确保微调后的结果与双向门控循环单元编码得到的文本嵌入语义特征向量维度相同且每个维度的取值范围保持一致，在前馈神经网络的最后一层进行了维度变换，并且使用双曲正切充当激活函数。至此，文本语句可学习的两种语义表示通过向量拼接共同作为文本实例的语义特征，文本实例语义特征f_r的具体计算如公式所示：f_r＝[tanh(Wd_r+b)；h_r]。

其中，W为可学习的微调权重矩阵，b为偏移量，h_r是带有词注意力机制双向门控循环单元编码得到的文本内容语义向量，d_r为逻辑约束语义表示模块推理出的文本特性语义向量。此时的文本实例语义特征f_r包含人类感知信息与机器理解的上下文内容关联，能够更好地从不同层面挖掘文本语义信息，增强对弱监督信号的约束力。

以上虽然描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

表1本发明定义的通用关系抽取一阶逻辑约束集

Claims

1.基于多源语义表示融合的弱监督关系抽取方法，其特征在于，具体步骤如下：

(1)数据预处理：提取词语的向量初始化表示作为文本内容特征并选取自然语言工具解析出的离散特征作为文本特性，离散特征包括词法和句法，设计关系抽取任务中语句实例和离散文本特性间通用的一阶逻辑规则；

(2)特征编码表示：定义基于逻辑约束的弱监督语义表示模块进行统计推理，以整合数据预处理得到的离散符号化文本特性生成语句的文本特性低维语义表示向量，作为关系抽取工作的监督特征源；同时，预处理的文本内容词向量表示通过双向门控循环单元编码作为关系抽取的另一监督特征源；

所述基于逻辑约束的弱监督语义表示模块，其执行包括如下步骤：

首先，将语句实例的关系语义表示作为变量，文本特性视为因子函数，逻辑约束充当图结构的边，学习不同实例依逻辑约束关联的因子权重；可能世界对应的向量维度由预先定义的关系类型数目决定；权重学习阶段将远程监督训练集实例中的关系标签转化为独热编码作为一组已知的可能世界集合输入到因子图中，依靠现有训练样本分布学习离散的因子特征在可能世界集中未知的权重值；其目标函数采用最大条件对数似然估计定义如下：f(w)＝logP(Y＝y|X＝x)；

其中，P(·)为条件概率，Y对应于整个可能世界集，X代表作为证据的因子函数集；f(w)为目标函数，表示给定因子权重w计算出的关系表示结果；

之后，通过梯度下降法不断迭代学习因子函数集的权重分布，求解最优目标函数；梯度计算公式如下：

w_j+1＝w_j*(1.0/(1.0+0.01*s_j))-s_j*g_j

s_j+1＝s_j*d

这里采用梯度下降法对因子权重w进行更新，对步长进行衰减逼近极值；其中，j为当前迭代轮数，s为步长，d为衰减率，g为每步计算的梯度；

然后，依据给定的证据因子及其权重推理未知的可能世界状态；每个可能世界真实状态的概率值的计算如公式所示：

其中，指数形式的因子加权求和使得每个可能世界y都能够采用非负的实值函数来表示可能世界的状态；Z为归一化函数，反映在整个可能世界集中所有因子加权求和计算出的结果；

最后，利用Gibbs采样的方式随机从一个可能世界y开始采样，依据条件概率P_r(y|mb(y))更新可能世界y的状态值；其中，mb(y)表示被检索的与可能世界y相关联的因子函数集；当相邻可能世界的状态均成立的情况下，计算可能世界y不同状态的概率分布并选取最大概率值更新y的状态；待y的状态更新后，扫描所有变量，选取不满足整个可能世界集的部分，重复Gibbs采样过程，待推理迭代轮数结束后，统计每个可能世界的状态值分布情况，并拼接得到关系语义表示向量；

(3)多源语义表示融合：设计多源语义融合网络架构，将文本内容嵌入与文本特性语义表示两种不同的语义特征表示相结合，并引入嵌入实体对表征和权衡机制，削弱人类感知特性信息传递错误的影响，在保证弱监督关系抽取精确性的同时，使得挖掘出更为多样化的关系类型实例；所述的权衡机制具体计算过程如公式所示：

f_r'＝p_be_r+(1-p_b)f_r

其中，p_b为权衡概率，向量w_s,w_e以及标量b_ptr均为可学习参数，σ(·)表示使用sigmoid作为激活函数，f_r'为权衡机制更新后的文本语句语义表示；f_r为文本语句语义表示，e_r为实体对表示。

2.根据权利要求1所述的基于多源语义表示融合的弱监督关系抽取方法，其特征在于，所述关系抽取任务中语句实例和离散文本特性间通用的一阶逻辑规则，是将每个语句实例中的符号化自然语言文本特性以及符号化表示的目标实体识别类型设置为通用一阶逻辑规则。

3.根据权利要求1所述的基于多源语义表示融合的弱监督关系抽取方法，其特征在于，所述多源语义融合网络架构，是将语句中词向量表示的文本内容输入到双向门控循环单元中计算上下文内容语义嵌入表示。

4.根据权利要求1所述的基于多源语义表示融合的弱监督关系抽取方法，其特征在于，统计推理得到的关系语义表示向量在神经网络中微调作为文本特性语义表示，以缓解包含人类感知的语义信息错误传播对抽取性能的影响。

5.根据权利要求4所述的基于多源语义表示融合的弱监督关系抽取方法，其特征在于，微调过程采用具有Dropout机制的多层前馈神经网络结构，依据最终优化的目标利用反向传播过程对离散特征整合得到的向量表示d_r进行修正；具体为：统一文本语义特性与上下文内容语义嵌入表示的维度与取值范围进行拼接作为文本语义表征f_r，即f_r＝[tanh(Wd_r+b)；h_r]，其中，W为可学习的微调权重矩阵，b为偏移量，h_r是带有词注意力机制双向门控循环单元编码得到的文本内容语义向量，d_r为逻辑约束语义表示模块推理出的文本特性语义向量。