CN113392216B

CN113392216B - 基于一致性文本增强的远程监督关系抽取方法及装置

Info

Publication number: CN113392216B
Application number: CN202110699269.3A
Authority: CN
Inventors: 彭敏; 罗娟; 胡刚; 廖庆文
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-06-17
Anticipated expiration: 2041-06-23
Also published as: CN113392216A

Abstract

本发明提供一种基于一致性文本增强的远程监督关系抽取方法及装置，该方法包括：按实体对和关系标签对多个句子实例进行划分，得到多个句子包；对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；确定噪声样例，并通过无关系句子实例以及噪声样例的强增强样本和弱增强样本对关系预测模型进行训练，得到训练好的关系预测模型；利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。通过本发明，通过一致性文本增强，能够增加数据集规模，增强模型的泛化学习能力，让“NA”类别和噪音样例约束模型学习更多的监督信息。

Description

基于一致性文本增强的远程监督关系抽取方法及装置

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于一致性文本增强的远程监督关系抽取方法及装置。

背景技术

互联网上的海量信息，通过信息抽取的相关技术，可以提取出大量有价值的知识和信息。作为信息抽取中的一个重要环节，关系抽取(Relation Extraction，RE)旨在从文本中提取实体间的关系，为其他自然语言应用如构建知识图谱、搜索引擎、对话生成、自然问答、信息检索等提供了重要的支持。

关系抽取模型的训练需要大量的标注样本提供监督信息。然而，同一种关系类型可能有不同的文本表达，同时，不同类型的关系也可以用同一个词来描述。这种关系和文本之间的模糊性使得人工标注代价较高。

为了减少人工标注，远程监督被提出，通过将文本和知识库对齐来自动标注句子和关系之间的映射关系。它假设如果知识库中存在一个三元组(即头实体、关系、尾实体)，那么所有包含该头实体和尾实体的句子都可以表达这种关系。然而，许多噪音来自于这个假设的失败——有些句子包含相同的实体对，但表达另一个关系。其次，如果知识库中不存在实例中的三元组，将会把该实例划分到无关系(NA，NotAny)类别。“NA”类别在训练集中占比很大，为73.9％。“NA”不是一种具体的关系，而是所有未知关系的集合，所以它分布较为稀疏，多数模型难以利用这些实例自身具有的监督信息。

为了突出有效实例，减少噪音的影响，主流方法通常采用多实例学习(Multi-Instance Learning)，将所有包含同一个实体对、表达同一关系的句子视为一个包，并提出了“至少有一个(at-least-one)”假设。现有不少研究通过后验信息，或挑选包内置信度最高的实例，或引入了注意机制来为各实例分配权重，或通过强化学习、对抗生成训练过滤噪音实例。尽管这些方法能够减少噪音的影响，但也使得模型能够利用的实例信息减少了许多。或者使用软标签(soft label)方法动态地纠正远程监督方法标注的错误标签，可以增加模型能利用的实例信息，然而其并未注意到“NA”类别，利用率仍然较低。

本申请发明人发现现有技术的方法，至少存在如下技术问题：

1)占训练集约70％左右的“NA”类别通常没有被有效利用，然而部分“NA”样例是因为知识库不全而被误分到“NA”类别，它们可以通过模型的学习，为模型提供监督信息；

2)许多研究方法将训练集中的噪音样例，降低权重或者直接滤除，使得这些噪音样例含有的有效信息通常不能得到充分利用；

3)对抗生成等方法增加的扰动，尽管能够增加模型的抗干扰能力，但其通常不能提供符合实际情况的扰动，不太稳定，容易使模型训练的方向出现偏差。

发明内容

本发明的主要目的在于提供一种基于一致性文本增强的远程监督关系抽取方法及装置，旨在解决上述至少一个技术问题。

第一方面，本发明提供一种基于一致性文本增强的远程监督关系抽取方法，所述基于一致性文本增强的远程监督关系抽取方法包括：

获取多个句子实例，基于远程监督的假设，将每个句子实例对齐到知识库，确定每个句子实例对应的关系标签，将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包；

对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；

针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失；

通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息；

对第一交叉熵损失以及一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，得到训练好的关系预测模型；

利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。

可选的，所述对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本的步骤包括：

对于每个句子包中的每个句子实例，使用SpaCy和StanfordNLP工具，找到每个句子实例中头实体和尾实体的最短依存树，作为该每个句子实例的强增强样本；

对于每个句子包中的每个句子实例，使用词典，用近义词替换除头尾实体外的一个或几个词语，作为该每个句子实例的弱增强样本。

可选的，所述针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失的步骤包括：

使用分段卷积神经网络，将每个句子包中每个句子实例的相对位置表征、词向量、实体类型拼接起来作为PCNN模型的输入，使每个句子包中每个句子实例通过PCNN模型表征后形成一个向量，通过注意力机制对每个句子包内的句子实例进行加权求和，形成每个句子包的表示向量；

使用包级别的注意力机制，将若干个包作为大包，学习各个包的注意力权重，加权求和得到大包的表示向量；

将注意力权重低于阈值的句子包内的句子实例或整个包视为噪音样例；

针对每个句子包，基于其对应的包级特征和关系标签，利用交叉熵损失函数训练模型，计算得到第一交叉熵损失，公式表示如下为：

式中：θ为关系预测模型的关系预测模型参数，p(r_i∣q_i,θ)为关系预测模型在关系预测模型参数θ和包级特征q_i下预测得到关系标签为r_i的概率值，r_i为第i个关系标签，|B|为多个句子实例对应的关系标签的总数。

可选的，所述通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息的步骤包括：

基于关系标签将无关系句子实例和噪音样例的强增强样本划分到若干强增强包，每个强增强包内对象的关系标签相同；

基于关系标签将无关系句子实例和噪音样例的弱增强样本划分到若干弱增强包，每个弱增强包内对象的关系标签相同；

通过关系预测模型对和强增强包和弱增强包作出预测，得到预测结果p(r∣q_s,θ)和p(r∣q_w,θ)；

若一弱增强包的预测结果p(r∣q_w,θ)大于设定的阈值，则将视为伪标签r_wi，计算得到增强包的第二交叉熵损失：

式中|X_w|代表弱增强包概率大于阈值的所有增强包，θ为关系预测模型的关系预测模型参数，p(r_wi∣q_s,θ)为关系预测模型在关系预测模型参数θ和强增强包级特征q_s下预测得到伪关系标签为r_wi的概率值；

约束关系预测模型学习：

其中，X_noisy表示所有的的噪音样例和无关系句子实例，式子为计算关系预测模型对所有噪音样例做出的p(r∣q_s,θ)和p(r∣q_w,θ)预测之间的KL散度，衡量弱增强样本和强增强样本输出的条件概率之间的差异程度。

可选的，所述关系预测模型的综合损失计算公式为：

其中，λ₁和λ₂均为权重系数，

为未被视为噪音的每个包的交叉熵损失，

为增强包的交叉熵损失，

为关系预测模型对弱增强样本和强增强样本预测的条件概率的KL散度。

第二方面，本发明还提供一种基于一致性文本增强的远程监督关系抽取装置，所述基于一致性文本增强的远程监督关系抽取装置包括：

划分模块，用于获取多个句子实例，基于远程监督的假设，将每个句子实例对齐到知识库，确定每个句子实例对应的关系标签，将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包；

增强模块，用于对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；

训练模块，用于针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失；通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息；对第一交叉熵损失以及一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，得到训练好的关系预测模型；

预测模块，用于利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。

可选的，增强模块，用于：

可选的，训练模块，用于：

可选的，训练模块，用于：

约束关系预测模型学习：

可选的，所述关系预测模型的综合损失计算公式为：

其中，λ₁和λ₂均为权重系数，

为未被视为噪音的每个包的交叉熵损失，

为增强包的交叉熵损失，

本发明中，获取多个句子实例，基于远程监督的假设，将每个句子实例对齐到知识库，确定每个句子实例对应的关系标签，将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包；对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失；通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息；对第一交叉熵损失以及一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，得到训练好的关系预测模型；利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。通过本发明，通过一致性文本增强，能够增加数据集规模，增强模型的泛化学习能力，让“NA”类别和噪音样例约束模型学习更多的监督信息。

附图说明

图1为本发明基于一致性文本增强的远程监督关系抽取方法一实施例的流程示意图；

图2为本发明基于一致性文本增强的远程监督关系抽取装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

第一方面，本发明实施例提供了一种基于一致性文本增强的远程监督关系抽取方法。

一实施例中，参照图1，图1为本发明基于一致性文本增强的远程监督关系抽取方法一实施例的流程示意图。如图1所示，基于一致性文本增强的远程监督关系抽取方法包括：

步骤S10，获取多个句子实例，基于远程监督的假设，将每个句子实例对齐到知识库，确定每个句子实例对应的关系标签，将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包；

本实施例中，获取以句子为划分单位的训练数据，基于远程监督的假设，将训练数据对齐到知识库，含有相同实体对的句子实例具有相同的关系标签，从而将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包。训练数据的选择可根据实际需要确定，在此不做限制。

步骤S20，对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；

本实施例中，对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本。其中，强增强样本，即变化较大的样本；弱增强样本，即变化较小的样本。

进一步地，一实施例中，步骤S20包括：

对于每个句子包中的每个句子实例，使用SpaCy和StanfordNLP工具，找到每个句子实例中头实体和尾实体的最短依存树，作为该每个句子实例的强增强样本；对于每个句子包中的每个句子实例，使用词典，用近义词替换除头尾实体外的一个或几个词语，作为该每个句子实例的弱增强样本。

本实施例中，使用头尾实体的最短依存树作为强增强的方式，能够保证变化较大，而不丢失针对关系抽取的信息，使用近义词替换作为弱增强的方式，能够增加随机的扰动，这些扰动更加符合实际应用场景的扰动，具有极大的可控性。

步骤S30，针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失；

本实施例中，针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，从而确定噪声样例，并通过包级别的特征，得到第一交叉熵损失。

进一步地，一实施例中，步骤S30包括：

步骤S40，通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息；

本实施例中，针对无关系样例(即无关系句子实例)和S30中确定的噪声样例，让关系预测模型对这些样例的强增强样本和弱增强样本作预测，使用弱增强样本的预测作为伪标签，计算强增强样本和伪标签的交叉熵损失，并使用KL散度计算这两个预测结果的差异程度，通过最小化该差异得到一致性损失，约束模型充分学习这些样本本身具有的信息。

进一步地，一实施例中，步骤S40包括：

约束关系预测模型学习：

步骤S50，对第一交叉熵损失以及一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，得到训练好的关系预测模型；

本实施例中，对步骤S30得到的第一交叉熵损失以及步骤S40得到的一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，从而得到训练好的关系预测模型。

进一步地，一实施例中，所述关系预测模型的综合损失计算公式为：

其中，λ₁和λ₂均为权重系数，

为未被视为噪音的每个包的交叉熵损失，

为增强包的交叉熵损失，

步骤S60，利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。

本实施例中，利用训练好的关系预测模型计算待预测的句子包的包级特征q^*，并选择条件概率最大的关系标签作为输出的关系标签预测值：

第二方面，本发明实施例还提供一种基于一致性文本增强的远程监督关系抽取装置。

一实施例中，参照图2，图2为本发明基于一致性文本增强的远程监督关系抽取装置一实施例的功能模块示意图。如图2所示，一实施例中，基于一致性文本增强的远程监督关系抽取装置包括：

划分模块10，用于获取多个句子实例，基于远程监督的假设，将每个句子实例对齐到知识库，确定每个句子实例对应的关系标签，将实体对和关系标签相同的句子实例划分到一个句子包，得到多个句子包；

增强模块20，用于对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本；

训练模块30，用于针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失；通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息；对第一交叉熵损失以及一致性损失进行加权求和，综合约束关系预测模型学习，利用随机梯度下降对关系预测模型进行优化直至收敛，得到训练好的关系预测模型；

预测模块40，用于利用训练好的关系预测模型对待预测的句子包进行预测，获得与其对应的关系标签。

进一步地，一实施例中，增强模块20，用于：

进一步地，一实施例中，训练模块30，用于：

进一步地，一实施例中，训练模块30，用于：

约束关系预测模型学习：

其中，λ₁和λ₂均为权重系数，

为未被视为噪音的每个包的交叉熵损失，

为增强包的交叉熵损失，

其中，上述基于一致性文本增强的远程监督关系抽取装置中各个模块的功能实现与上述基于一致性文本增强的远程监督关系抽取方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于一致性文本增强的远程监督关系抽取方法，其特征在于，所述基于一致性文本增强的远程监督关系抽取方法包括：

2.如权利要求1所述的基于一致性文本增强的远程监督关系抽取方法，其特征在于，所述对每个句子包中的每个句子实例采用不同的文本增强方法，得到每个句子包中的每个句子实例对应的强增强样本以及弱增强样本的步骤包括：

3.如权利要求1所述的基于一致性文本增强的远程监督关系抽取方法，其特征在于，所述针对每个句子包，通过分段卷积神经网络，获得每个句子包中每个句子实例和句子包的权重，确定噪声样例，并通过包级别的特征，得到第一交叉熵损失的步骤包括：

4.如权利要求1所述的基于一致性文本增强的远程监督关系抽取方法，其特征在于，所述通过关系预测模型对无关系句子实例以及噪声样例的强增强样本和弱增强样本进行预测，以弱增强样本对应的预测结果为伪标签，计算强增强样本和伪标签的第二交叉熵损失，并使用KL散度计算弱增强样本对应的预测结果与强增强样本对应的预测结果的差异，通过最小化所述差异得到一致性损失，约束关系预测模型充分学习无关系句子实例以及噪声样例本身具有的信息的步骤包括：