CN114036303A

CN114036303A - 一种基于双粒度注意力和对抗训练的远程监督关系抽取方法

Info

Publication number: CN114036303A
Application number: CN202111391244.3A
Authority: CN
Inventors: 高瑞卿; 董启文; 王晔
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-11

Abstract

本发明公开了一种基于双粒度注意力和对抗训练的远程监督关系抽取方法，采用包内句子级注意力机制和组内包级别注意力机制将训练注意力逐渐集中到高质量的样本数据上，减少了远程监督标注带来的噪声数据的影响，并通过对抗训练来提高数据利用率。具体包括：数据预处理、句子编码、双粒度注意力的多示例学习、实例级对抗训练、模型迭代训练等步骤。本发明与现有技术相比有效地降低了噪声句子和噪声包的影响，同时解决了训练不充分、数据利用率低的问题，增加了模型的鲁棒性，提升了关系抽取的效果，具有一定的实用价值。

Description

一种基于双粒度注意力和对抗训练的远程监督关系抽取方法

技术领域

本发明属于知识图谱的自然语言处理与关系抽取技术领域，涉及一种针对远程监督标注生成数据集的基于双粒度注意力和对抗训练的方法。

背景技术

事物、概念之间的关系是人类知识中非常重要的一个部分，但它们通常隐藏在海量的非结构化文本中。关系抽取(Relation Extraction,RE)旨在识别特定上下文中实体之间的关系，并为许多下游任务提供必要的支持。在关系抽取过程中，多数方法默认给定实体信息，因此关系抽取可以看作是分类问题。

为了从文本中抽取这些关系事实，大量的研究在20多年前就已经展开，早期的特征工程、核方法、图模型，取得了一些阶段性的成果。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。随着互联网飞速发展，人类的信息量也爆炸式增长，高效地从非结构化数据中提取结构化知识，已成为知识图谱构建的必要过程。

关系抽取从实现的算法来看，主要分为四种：手写规则、监督学习算法、弱监督学习算法、无监督算法。手写规则法依赖人工手写模板，尽管查准率高，但查全率低；监督学习算法，需要给出每一个样本的标注，标注成本高，且要对实体和文本构建特征工程需用到大量自然语言处理(Natural Language Processing，NLP)工具，人工构造特征不精准，NLP工具带来的误差会累积传播；无监督算法在没有关系标签的条件下，根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语，效果不佳。

弱监督学习算法，以Bootstrapping和Distant Supervision(远程监督)最具代表性，较好地解决了前述算法中存在的依赖人工标注的问题，且代价很低，更加适合大规模多领域的网络文本，近年来，它在信息抽取领域得到较广泛的应用。远程监督算法基于一个核心假设，如果两个实体间存在一种关系，那么提到这两个实体的所有句子都表示这种关系。因此，远程监督利用KB(Knowledge Base)对齐朴素文本进行标注，之后进行有监督训练，虽然从一定程度上减少了模型对人工标注数据的依赖，但该方法存在明显的缺点。

1.噪声问题：假设过于肯定，引入许多错误标注的数据，因此需要考虑如何准确地识别出噪声，或间接地降低噪声对分类的影响。

2.数据构造过程依赖于命名实体识别等NLP工具，中间过程出错会造成错误传播问题。

对于上述问题，目前的解决方法主要是通过多示例学习(Multi InstanceLearning,MIL)，认为远程监督关系抽取是一个多示例学习问题，它从一组句子(Bag，包)中抽取关系，而不是单个句子。对于每个包，MIL减小低质量实例的影响以消除标签噪声，并细化高质量实例作为模型训练的包级表示，以有效地消除标签噪声和指导关系抽取。基于MIL的关系抽取方法大致可以分为三类：

第一类方法试图通过直接从句子包中去除嘈杂的句子，进行硬选择。比如Zeng等人(EMNLP，2015)从每个包中选择一个最正确的句子，忽略其他句子。Feng等人(AAAI，2018)使用强化学习来训练实例选择器，并从包中移除错误的句子样本。Qin等(ACL，2018)也使用强化学习来处理嘈杂的句子，不同于之前的工作，他们将嘈杂的句子重新分配到负样本中。

第二类方法倾向于给句子或包分配软权重。通过选择性注意，它允许模型更多地关注更高质量的句子，并减少嘈杂句子的影响，而不是直接去掉嘈杂句子。比如Lin等人(ACL，2016)采用注意机制，通过为每个句子分配不同的权重来捕捉包表示。Yuan等(AAAI，2019)使用句子的非独立同分布相关性嵌入来获得每个句子的权重。Yuan等(AAAI，2019)利用交叉关系交叉包选择性注意来减少嘈杂句子的影响。Ye和Ling(ACL，2019)同时考虑了包内注意和包间注意，以处理句子级和包级的噪声数据。另外也有工作(AAAI，2020)设计了门控机制，代替选择性注意力作为聚合方式，解决了包中只出现一个句子时的最终关系分类生成包级表示的问题，保证了所有训练示例的一致性。

第三类方法在处理噪声句子时，不通过注意力的方式。例如，Takamatsu等人(ACL，2012)使用句法模式来识别潜在有噪声的句子，并在预处理阶段将其移除。Wang等(EMNLP，2018)针对目前关系抽取的远程监督方法对知识库的信息利用不够充分的问题，引入知识图谱中实体类别的信息来辅助监督，并采用知识图谱嵌入的方法生成训练目标。Wu等人(AAAI，2019)提出了一个线性层来获得真实标签和噪声标签之间的联系。然后，仅根据真实标签进行最终预测。Shang等人(AAAI，2020)检测出噪声句子，然后利用非监督的深度聚类算法为噪声数据生成可靠的标签。Fenia(NAACL，2021)通过与关系分类器联合训练的变分自动编码器(Variational Autoencoder，VAE)来偏置句子的潜在空间，拉近包含相同知识库对的句子的表示以促进远程监督关系提取。

虽然远程监督的标注产生了大量的训练数据，但是关于多示例学习的研究集中在改进处理标签噪声的策略上，放弃了大部分的训练实例以提供更干净的训练数据，无法释放训练数据的全部潜力。

发明内容

为了解决现有技术存在的不足，本发明的目的是提出了一种基于双粒度注意力和对抗训练的远程监督关系抽取方法，采用多示例学习框架，结合了Word2vec预训练词向量和句子级别和包级别的注意力机制。本发明与现有技术相比有效地降低了噪声数据的影响，特别是噪声包；解决了训练不充分，数据利用率低的问题，利用了数据可能存在的其他关系；充分释放训练数据的潜力，增加了模型的鲁棒性，提升了关系抽取的效果，具有实用价值。为充分释放训练数据的潜力，本发明还增加了对抗训练，在远程监督启发式标注的数据集上进行关系抽取，达到较好效果。

本发明通过Word2vec工具进行词向量的预训练，将单词映射到低维度连续的向量空间，将先验知识引入到模型中；引入记录实体在句子中的相对位置的位置表征向量，并使用PCNN模型处理，获得句子的向量表征；应用句子级别注意力形成包表征；引入“组”概念，令g＝{b¹,b²,…,bⁿ}表示远程监督标注的关系抽取样本中一组具有相同关系标签的包(Bag)，本发明将其称为组(Group)，通过包级别注意力降低噪声包注意力形成组表征；在输入的词向量上增加扰动，使用PGD对抗训练的方法提升模型泛化能力；最后使用前馈网络完成关系分类，并采用SGD算法进行迭代训练。有效解决了噪声、充分训练了数据，具有实用价值。

本发明的目的是这样实现的：一种基于双粒度注意力和对抗训练的远程监督关系抽取方法，包括如下步骤：

步骤1，数据预处理：选取通过远程监督启发式标注的大规模数据集，对每个句子进行分词，在大规模数据集上进行Word2vec预训练得到词向量。将训练集中包含相同两个实体且远程监督的关系标签相同的所有句子样本都置于一个“包”中。然后将有相同关系标签的每n个“包”捆绑成一个“组”。在本发明的方法中，一个“组”就是一个训练样本。

步骤2，句子编码：远程监督语料中大多数句子为长文本，为了能够有效地处理长文本，并能够体现句子中实体的相对位置，使用分段卷积神经网络(PCNN模型)，将实体相对位置表征与词向量的映射向量拼接起来作为当前词的词表征，一个句子中所有词表征拼接成矩阵作为PCNN模型的输入。每个句子的矩阵表示通过PCNN模型表征后将会形成句子的向量表示。

步骤3，双粒度注意力的多示例学习：本发明方法在包内句子级和组内包级两个粒度上计算了注意力。句子级注意，即实例级注意力，给定包bⁱ内所有句子的向量表示和关系嵌入矩阵R，为每个句子表示的所有关系计算注意权重向量形成包表征，此处的包表征为一个矩阵Bⁱ。组内包粒度注意力，计算包与包关于某关系向量的注意力，再将当前包对所有关系的注意力相加，得到一个包表示向量，其维度为关系数目；由于一个组中含有n个包，因此经过上述处理，一个组的表征为一个二维矩阵g_k。

步骤4，实例级对抗训练：在包内注意力上，将注意力得分高的实例集称为X_trust(即，关系标签可靠的示例集)，将注意力分数低的实例集称为X_uncertain(即，可能为噪声的示例集)。由于MIL主要关注X_trust，并在训练期间逐渐放弃X_uncertain，因此，为了提高MIL的数据利用率，避免神经网络由于其线性特点易受到线性扰动的攻击，引入了实例级的对抗训练来增加模型的鲁棒性，扩展利用其中的实体对和上下文信息，使高质量训练实例释放全部潜能。

步骤5，迭代步骤：定义交叉熵损失和对抗训练的局部分布平滑损失的加权和作为优化目标，使用预训练和随机梯度下降(SGD)作为优化方法，迭代训练整个模型，最终用于关系抽取。

所述数据预处理步骤中，对于远程监督启发式标注的数据集的获取，可以通过常用的公开数据集New York Times(NYT)以及自建数据集；对每个数据集，首先进行分词，可以使用jieba、HanLP等分词工具。分词过程中可能出现待关系分类的实体被分词工具切分的状况，为了避免句子样本中的头实体、尾实体被分词工具切分，需将所有实体加入分词工具的自定义词典后再进行分词。自定义词典可由领域权威词典、输入法词典领域词库或用户自有词典等构成。然后使用Word2vec工具进行预训练，得到每个词的预训练词向量。在预训练时，选择n-gram模型的CBOW方法，无监督训练得到50维词向量。

所述句子编码步骤中，对于句子中的位置信息，使用当前词与头尾两个实体e₁和e₂之间的相对距离d₁、d₂进行表示，在加入输入句子向量时，将通过查找位置嵌入表获得两个位置向量。该位置嵌入表随机初始化，随训练过程迭代更新。将步骤1中词向量和步骤2中两个位置表征直接拼接起来，得到词表征。一个句子中各个词表征拼接成向量表示矩阵的形式，作为PCNN的输入，PCNN的输出则是该句子的表示向量。所述PCNN包含两步，第一步，向量表示矩阵通过卷积进行处理得到与设置的通道大小相同数量的向量；第二步，将上一步得到的各个向量按照头尾实体位置截成三段，分别进行最大池化后拼接形成一个向量，该向量即为句子表示向量。通过PCNN可以有效缓解长文本任务上的梯度消失问题，且由于卷积神经网络可并行的优点，进一步降低时间消耗。

所述双粒度注意力的MIL步骤中，在句子粒度注意力计算过程中，使用关系嵌入矩阵R中所有关系向量与包中各个句子进行注意力计算，得到一个包的可能关系类型。关系嵌入矩阵R随神经网络参数一起随机初始化，并在训练过程迭代更新。在组内包关系注意力计算过程中，一个组中各个包表征矩阵通过向量点乘计算关于不同关系的注意力权重。假设一个组中包的数量为n，通过注意力计算，将得到一个组关于关系k的n*n的注意力方阵。将每一种关系的注意力得分相加并使用softmax函数计算概率，得到一个组关于不同关系的注意力得分。最终组表征通过计算包表征和组内包关系注意力的乘积获得。

所述实例级对抗训练步骤中，只在输入句子的Word2vec向量上增加对抗性扰动d_at，对位置嵌入不加干扰。关于对抗性扰动的理想方向选择应该是使模型输出改变最大化的方向，计算时，线性逼近，在L₂范数下估计对抗性扰动，并通过映射梯度下降PGD(Projected Gradient Descent)的多步累积梯度更新参数。

所述迭代步骤中，将通过PCNN结构和线性变换的语义表征用softmax分类器进行预测。为了能够寻找最优解，定义

作为目标函数，利用SGD进行参数更新。所述公式中J(θ)为组分类的交叉熵损失函数；LDS_X(θ)为对抗扰动的局部分布平滑损失函数；μ>0，是权重系数，通过权重系数的变化对两个损失函数的权重比例进行调整。

本发明还提供了一种实现上述方法的系统，所述系统包括储存器和处理器；所述储存器存储有计算机程序，当所述计算机程序被所述处理器执行时，实现上述的方法。

本发明与现有技术相比具有下述有益技术效果和显著进步：

1)较好解决了现阶段基于传统有监督学习存在的语料不足、人工标注带来的成本问题，通过远程监督可以获得大规模监督语料。在缓解噪声的问题上，采用多示例学习和句子实例粒度注意力和组内包粒度注意力的方法，可以直接降低错误关系的实体对和噪声包的影响，而标注正确关系的实体对和包则后续进入关系预测模型训练中，该方法可以避免大量错误标签对分类的影响。

2)使用PCNN模型架构，考虑了训练数据的实体位置信息，使用分段卷积神经网络的方式，有效地捕获两个实体间的结构信息，能够从句子的不同部分中找出表征最强的一部分，且由于卷积神经网络可并行的优点，进一步降低时间消耗。

3)将对抗训练引入到关系抽取任务中，通过对抗性训练，进一步释放了高质量训练样本的全部潜力，弥补了由于缓解噪声数据而损失大量训练实例的缺陷。对抗性训练方法作为一种正则化手段，增加了模型的鲁棒性和泛化能力。

4)降低噪声对分类的影响，提高真实句子对分类的贡献，方法简便，有效解决了噪声、训练不充分的问题。

附图说明

图1是本发明的方法流程图。

图2是本发明的实现框架示意图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容，所述其他知识均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明基于双粒度注意力和对抗训练的远程监督关系抽取方法，对远程监督启发式标注的数据集进行关系分类。将通过Word2vec模型得到的词向量和初始化的位置表征向量进行拼接，使用流行的PCNN模型处理关系抽取的长文本的句子表征，并应用句子粒度的注意力形成包表征，接着应用包粒度注意力形成组表征；训练过程中，在输入的词向量上增加扰动，使用PGD对抗训练的方法提升模型泛化能力；最后使用softmax进行分类，并采用SGD算法进行迭代训练，实施流程参阅附图1。

以下结合具体实施例对本发明作进一步的详细描述。

实施例1

参阅附图2，图2描绘了一条训练样本从数据处理到模型预测的过程。本发明基于双粒度注意力和对抗训练的远程监督关系抽取方法框架，采用分包、分组的预处理方式，使用两层注意力的方法过滤噪声句子和噪声包，在词嵌入的语义信息上加入对抗扰动，增加模型鲁棒性。关系抽取的具体步骤如下。

步骤1：数据预处理

选取通过远程监督启发式标注的大规模数据集，对每个句子进行分词，在大规模数据集上进行Word2vec词向量预训练得到含有语义信息的词表示。将训练集中包含相同两个实体且远程监督的关系标签相同的句子样本置于同一“包”中。自定义设置组规模大小，然后将有相同关系标签的每n个“包”捆绑成一个“组”。在本实验的方法中，一个“组”就是一个训练样本。具体操作如下。

1-1：分词

对全部句子样本进行分词，可借助Python的jieba模块，或自主选用其他分词工具。分词过程中可能出现待进行关系抽取的句子中命名实体被分词工具错误切分的状况，为了避免句子样本中的头实体、尾实体被分词工具切分，在使用jieba分词工具前，应将所有实体加入自定义词表并加载到jieba的词典中。

1-2：Word2vec词向量

对于句子s中的每个词t_i，本实施例使用Word2vec在大规模语料上预训练得到的d_w维向量表示，

为词t_i的嵌入表示，能够捕获其语义信息。

1-3：包划分

一组具有相同两个实体且实体关系相同的句子组成包(Bag)。令

表示包bⁱ中所有的句子，一个句子即为一个x，m_i表示包bⁱ中所有的句子数目。定义

其中

表示在包bⁱ中的第j个样本句子，w表示含有语义信息的词的向量表示，l_ij为句子长度。每个包都有一个关系类别标签，而包中的句子示例没有关系类别标签，尽管每一个句子示例隐含一个标签；实验假设包中会至少存在一个隐含该关系类别标签的句子示例。

1-4：组划分

为了在包的粒度上设计基于注意力模块来动态降低噪声包的权重的方法，在此定义一个新的概念“组”(group)，g＝{b¹,b²,…,bⁿ}表示远程监督标注的关系抽取数据集中一组具有相同关系标签的包，一般要设置组的大小，以限制一个组包含多少个包，组大小以超参数的方式指定。

步骤2：句子编码

远程监督语料中大多数句子为长文本，为了能够有效地处理长文本，并能够体现关系抽取语料库中的句子中实体的相对位置，使用分段卷积神经网络(PCNN)模型，并将实体相对位置表征与词向量的映射向量拼接起来作为PCNN模型的输入。每个句子通过PCNN模型表征后将会形成一个向量表示。具体操作如下。

2-1：位置信息嵌入

两个实体在句子中的位置信息至关重要，为了使每个词能捕捉到将被预测的两实体的位置，增加相对位置嵌入用来表示句子中的位置信息。单词t_i和两个实体e₁和e₂之间的相对距离为d_i1、d_i2，在加入输入句子向量时，将通过查找位置嵌入表获得两个位置向量

这个位置嵌入表是随机初始化的，在训练过程中迭代更新，

表示位置嵌入表。

2-2：输入向量

将语义信息w_i和位置信息p_i1,p_i2两种嵌入连接起来，每个单词t_i可以获得其表示m_k＝[w_i；p_i1；p_i2]∈R^d，对应附图2输入部分的每一个包中的句向量。因此，句子向量表示可以被构造为X＝[m₁；m₂；…；m_l]∈R^l×d，其中d＝d_w+2·d_p，d_w表示Word2vec词向量的维度，d_p表示位置向量的维度，d表示句子向量的维度，l是超参数设定的句子的最大长度。原始句子向量，即附图2的输入部分的X经过包、组划分后得到模型输入。

2-3：PCNN编码句向量

PCNN神经网络用滑动窗口捕捉句子语义。在卷积层，嵌入窗口X_t:t+u＝[m_t；m_t+1…；m_t+u-1]∈R^u×d；与P个卷积核{W₁,…,W_p}∈R^u×d提取句子级特征，其中u为卷积核的宽度，t为卷积核的长度，d为上文词嵌入的维度。紧接着是最大池化层，分段的卷积神经网络将max-pooling操作分别应用于一个句子的三个不同的片段，以更好地捕捉两个实体之间的结构化信息，每段将保留卷积输出的最大值，而不是仅使用一个统一的池化层。最终的PCNN输出的隐层特征向量

其中d_c为PCNN操作中滤波器的个数，是通过汇集三个片段的结果获得的。

步骤3：双粒度注意力的多示例学习：

本发明方法在句子和包两个粒度上设置了注意力。实例级注意，即句子级注意力，给定包bⁱ内所有句子的向量表示和关系嵌入矩阵R，为句子的所有关系计算注意力权重向量得到包的表示。包注意，通过注意力机制的方式，进一步为组中所有包关于所有关系计算权重矩阵，之后通过所有关系注意力相加的方式，获得每个组的表征。具体操作如下。

3-1：包内句子粒度注意力

设m_i为超参数设定的包中含有句子数，定义

表示包bⁱ内所有句子的表示。

表示关系嵌入矩阵，其中h为关系数量，即关系抽取任务的分类数。不同于常规方法只使用包的关系对应的关系向量与包中各个句子进行注意力计算，本发明将全部h种关系参与到与包中各个句子的注意力计算中，得到包表征矩阵Bⁱ，Bⁱ的维度为

矩阵的每一行为

是关系索引，

是包bⁱ中第k个关系和第j个句子之间的注意力权重，

表示包bⁱ内第j个句子的表示，在关系为k时，将包中每一个句子样本的嵌入式表示与注意力权重数乘后相加得到该包关于关系k的表示。

的计算方式为

其中

是包bⁱ中第k个关系查询和第j个句子之间的匹配度，使用了softmax函数进行归一化得到注意力权重。

其中

在具体的实现中，采用向量之间的简单的点积来计算匹配度，定义为

其中r_k是关系嵌入矩阵R的第k个关系。

如前所述，最终，包bⁱ的表示由未使用所有关系注意力加权之前的矩阵

转换为

其中每行对应于该包的可能关系类型。

3-2：组内包粒度注意力

在远程监督的标注数据中，普遍存在一个包中的所有句子都被错误地标记的状况，为了处理这样的噪声包问题，本实施例在包的粒度上设计了一个基于注意力模块来动态降低噪声包的权重的方法。

如果两个包

和

都被标记为关系k，则它们关于关系k的包表示

和

应该彼此接近。给定一组具有相同关系标签的包，默认组中大部分包的标注是正确的，因此给予该组中相近的包分配更高的权重，即，有更多相似性的包为更干净的数据，这些包的权重更高；一个全部句子标注错误的包往往与组中大部分包表征不同，其将被分配到很小的权重，在这样的假设下，模型将自动忽略掉噪声包信息，在相对于包内句子级注意力的更大粒度上，过滤噪声数据，保证参与训练的数据更加干净。一个组g的表示可以被公式化为

其中g_k是图2中矩阵

的第k行。k为关系索引，β_ik构成注意力权重矩阵β∈R^n×h。每个β_ik定义为

同样使用了softmax进行了归一化，其中γ_ik代表了包bⁱ为第k个关系的权重。

该步骤方法使用注意力机制，将向量本身来作为注意力计算的query，key，value。对于关系k，一个组中各个包表征矩阵通过向量点乘计算注意力权重，假设一个组中包的数量为n，通过注意力计算，将得到n*n的方阵。将每个包对所有关系的注意力得分相加，得到一个包的最终注意力得分。在数学上，γ_ik定义为

具体实现中，

和

的相似性，选用简单的点积计算，在神经网络中矩阵运算效率高，因此

此外，需要补充的是，由于各个包存在句子样本数量不一致的状况，为了防止样本数量对包的维度产生影响，在进入包粒度注意力计算之前，将包的长度统一为

即限制包中句子的数量，超过该数量将再拆分出一个包。然后，通过g_k和关系嵌入r_k相乘，计算组g分类为关系k的得分o_k，得分函数定义为

其中d_k是一个偏置项。最后，使用多分类常用的softmax函数来获得包组g被分类为第k关系的概率，

3-3：交叉熵损失函数

训练环节中是一种参数估计和优化的过程，训练前对所有参数进行随机初始化，然后采用最大似然估计的原则最大化对数似然函数，其对应的最小化交叉信息熵由公式

计算。J(θ)中，T是所有的训练样本，θ是模型所有的参数，包括词嵌入矩阵、CNN权重矩阵和关系嵌入矩阵等。本实施例通过随机梯度下降算法最小化J(θ)。

步骤4：实例级对抗训练

在句子实例注意力上，将注意力得分高的实例集称为X_trust(即，关系标签可靠的示例集)和注意力分数低的实例集作为X_uncertain(即，可能为噪声的示例集)。由于MIL主要关注X_trust，并在训练期间逐渐放弃X_uncertain，因此，为了提高MIL的数据利用率，避免神经网络由于其线性特点易受到线性扰动的攻击，引入了实例级的对抗训练来增加模型的鲁棒性，扩展利用其中的实体对和上下文信息，使高质量训练实例释放全部潜能。具体操作如下。

4-1：选定高质量样本

由于本文的注意力分为句子粒度和包粒度注意力，对于包bⁱ中的实例

本发明在计算标准化的每个包中句子在不同关系下的注意力

的得分时，使用一个超参数T_α来定义MIL中高质量的在实例样本，高质量样本的定义为

4-2：增加对抗扰动

对于x∈X_trust，假定它的新表示在∥d∥≤∈_x时为x+d。关于对抗性扰动d_at，它的理想方向选择应该是使模型输出改变最大化的方向，即

其中l_at(d,x,θ):＝-log p(y∣x+d,θ)，y为训练时的关系标签，θ为模型参数。d_at无法直接算出，因此使用一个简单有效的方式，利用线性逼近，在L₂范数下估计d_at，

其中

在神经网络中，可以通过反向传播迭代计算，p(r∣x,θ)用上一步的

代替。

最终，增加了一个扰动d在

的Word2vec词嵌入部分，对位置嵌入不加干扰，形成对包bⁱ的新表示包Bⁱ。

4-3：PGD优化

采用Projected Gradient Descent(PGD)的方法，以小步多走的策略进行对抗。具体来说，就是多次进行前后向传播，多次根据梯度计算扰动r，多次地将新的扰动r累加到嵌入层的梯度上，若超出扰动半径为ε的空间，则再映射回给定范围内。最终，将最后一步计算得到的梯度累加到原始梯度上，即用累加过K步扰动的梯度对应的梯度和对原梯度进行更新。设置PGD的扰动积累步数为K步，计算过程为

其中

为梯度，

为扰动的约束空间，α为小步的步长。经过PGD训练过的模型，对于所有的一阶对抗都能得到一个低且集中的损失值。

4-4：局部分布平滑损失函数

在x的词嵌入层加入d_at后，该部分的目标函数为称为局部分布平滑(localdistributional smoothness，LDS)，应最小化LDS_X(θ)，其对应的最小化LDS由公式

计算。

步骤5，迭代步骤：定义交叉熵损失和对抗训练的局部分布平滑损失的加权和作为优化目标，使用随机梯度下降(SGD)作为优化方法，迭代训练整个模型。具体操作如下。

5-1：目标函数

在原始的MIL的框架上增加了实例层面的正则化项，本研究方法的整体目标是最小化

损失函数，公式中μ>0，是权重系数，在本实施例中，μ的值与超参数T_α设置相同，对于组大小n，增加组大小n可能会增强包间注意的效果，但会导致训练样本减少，在训练中进行网络搜索N_p∈{3,4,5,6,7,8}。其中，J(θ)和LDS_X(θ)分别为步骤3-3和步骤4-4的公式。

5-2：优化方法

本发明采用随机梯度下降法(SGD)对5-1的目标函数进行优化，在本发明实施过程中，采用了预训练策略。首先只训练包内注意力模型，训练至收敛。然后在此基础上接着训练包间注意力模型，并进一步更新模型参数，直到模型损失不再下降。

本发明的参数设置上采用了初始学习率为0.1的小批量随机梯度下降法，学习率每10万步就下降到之前学习率的十分之一，用于训练具有包间注意的模型的初始学习率被设置为0.001。其他超参数设置，PCNN滤波器数量为230，位置表征向量维度设置为10。

本发明结合了多示例学习和对抗训练技术，所述关系抽取任务主要目标是对给定长文本及文本中的头尾实体对，判断它们之间的关系，属于一个多分类任务。在对包表征时，统一采用基于多示例的句子级别注意力机制方法和包级别注意力机制方法，可以直接降低错误关系的实体对和噪声包的影响。

在具体的实验中，本发明采用Word2vec中的CBOW方法进行训练，即在n-gram内，根据中心词来预测周围的词，在诸多任务中，其相比Skip gram方法要好。对比现有方法，在NYT数据集上的实验结果表明本发明效果更优，本发明方法与现有方法的不同测试结果如表1所示，在P@100，P@200，P@300指标上，分别提升1.3％，2.3％，0.13％，平均提升了1.28％。通过对抗性训练，进一步释放了高质量训练样本的全部潜力，弥补了由于缓解噪声数据而损失大量训练实例的缺陷。

表1不同方法的实验结果对比

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于双粒度注意力和对抗训练的远程监督关系抽取方法，其特征在于，所述方法采用多示例学习框架和多示例的句子级别和包级别的注意力机制方法，增加对抗训练释放训练数据的潜力，在远程监督启发式标注的数据集上进行关系抽取，包括如下步骤：

步骤1：数据预处理：对通过远程监督启发式标注的数据集中的每个句子进行分词，并预训练得到包含语义信息的词向量，将所有句子样本打包为“包”和“组”；

步骤2：句子编码：使用分段卷积神经网络模型PCNN将实体相对位置表征和词向量的映射向量拼接作为所述模型的输入，每个句子输出为一个向量；

步骤3：双粒度注意力的多示例学习：在包内句子实例层面和组内包层面两个粒度上分别计算注意力；

步骤4：实例级对抗训练：引入实例级对抗训练增加模型的鲁棒性；

步骤5：迭代步骤：定义交叉熵损失和对抗训练的局部分布平滑损失的加权和作为优化目标，使用预训练和随机梯度下降作为优化方法，迭代训练整个模型，最终用于关系抽取。

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述远程监督启发式标注数据集包括公开数据集NewYorkTimes以及自建数据集；对每个数据集，使用分词工具进行分词，所述分词工具包括jieba、HanLP；针对分词过程中面临的待关系分类的实体被分词工具切分的问题，为了避免句子样本中的头实体、尾实体被分词工具切分，需在分词前将所有实体加入自定义词典中，所述自定义词典包括领域权威词典、输入法词典领域词库或用户自有词典。

3.根据权利要求1所述的方法，其特征在于，步骤1中，使用Word2vec工具进行预训练，得到每个词的预训练词向量；在预训练时，选择n-gram模型的CBOW方法，无监督训练得到50维词向量。

4.根据权利要求1所述的方法，其特征在于，步骤1中，所述打包方法为将训练集中包含相同两个实体且远程监督的关系标签相同的所有句子样本置于同一个“包”中，将有相同关系标签的每n个“包”捆绑为一个“组”，一个“组”即为一个训练样本。

5.根据权利要求1所述的方法，其特征在于，步骤2中，对于句子中的位置信息，使用当前词与头尾两个实体e₁和e₂之间的相对距离d₁、d₂进行表示，在加入输入句子向量时，通过查找位置嵌入表获得两个位置向量；所述位置嵌入表随机初始化，随训练过程迭代更新；将词向量和两个位置表征直接拼接起来，得到词表征，一个句子中各个词表征拼接成向量表示矩阵的形式，作为PCNN的输入，PCNN的输出则是该句子的表示向量。

6.根据权利要求1所述的方法，其特征在于，步骤3中，在句子粒度注意力计算过程中，使用关系嵌入矩阵R中所有关系向量与“包”bⁱ中各个句子进行注意力计算，得到一个“包”的可能关系类型；在包粒度关系注意力计算过程中，对于关系k，一个“组”中各个包表征矩阵通过注意力计算，然后将得到的方阵每一种关系的注意力得分相加并使用softmax函数计算概率，得到一个组关于不同关系的注意力得分；最终组表征通过计算包表征和组内包关系注意力的乘积获得。

7.根据权利要求1所述的方法，其特征在于，步骤4中，在包内注意力上，将注意力得分高的实例集称为关系标签可靠的示例集X_trust，将注意力分数低的实例集称为可能为噪声的示例集X_uncertain；由于多示例学习MIL主要关注X_trust，并在训练期间逐渐放弃X_uncertain，因此，为了提高MIL的数据利用率，避免神经网络由于其线性特点易受到线性扰动的攻击，引入了实例级的对抗训练来增加模型的鲁棒性，即在输入句子的Word2vec向量上增加对抗性扰动d_at，对位置嵌入不加干扰；关于对抗性扰动的理想方向选择是使模型输出改变最大化的方向，计算时使用线性逼近，在L₂范数下估计对抗性扰动，并通过映射梯度下降PGD的多步累积梯度更新梯度。

8.根据权利要求1所述的方法，其特征在于，步骤5中，迭代步骤中，将通过PCNN结构和线性变换的语义表征用softmax分类器进行预测；综合组分类的信息交叉熵和句子实例对抗扰动作为目标函数

利用随机梯度下降SGD进行参数更新，寻找最优解；其中，所述公式中J(θ)为组分类的交叉熵损失函数；LDS_X(θ)为对抗扰动的局部分布平滑损失函数；μ>0，是权重系数，通过权重系数的变化对两个损失函数的权重比例进行调整。

9.一种实现如权利要求1-8之任一项所述方法的系统，其特征在于，所述系统包括储存器和处理器；所述储存器存储有计算机程序，当所述计算机程序被所述处理器执行时，实现如权利要求1-8之任一项所述的方法。