CN111488733B

CN111488733B - 基于Mask机制与孪生网络的汉语零指代消解方法及系统

Info

Publication number: CN111488733B
Application number: CN202010265414.2A
Authority: CN
Inventors: 孔芳; 葛海柱; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-12-19
Anticipated expiration: 2040-04-07
Also published as: CN111488733A

Abstract

本发明涉及一种基于Mask机制与孪生网络的汉语零指代消解方法及系统,包括在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理；将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词；将注意力机制融入至所述BERT模型中，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词，结合预选的手工特征，分别通过各自线性函数处理得到第二零代词；计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词。本发明避免了信息的冗余及噪声。

Description

基于Mask机制与孪生网络的汉语零指代消解方法及系统

技术领域

本发明涉及信息处理的技术领域，尤其是指一种基于Mask机制与孪生网络的汉语零指代消解方法及系统。

背景技术

指代是指篇章中用一个指代词回指某个以前说过的语言单位。在语言学中，指代词称为照应语，所指的对象或内容称为先行语。回指是修辞学的一种术语，是指在一段话或语篇中一次又一次的提及同一个词，同一个人或同一个事物的现象。指代消解就是确定照应语和先行语之间相互关系的过程，是自然语言处理的关键问题之一。如例1：小明非常喜欢他的书包。第一步检测到“他”是一个回指语，第二步，确定先行语为实体“小明”，即“他”所指代的对象为“小明”。在自然语言中，读者能够根据上下文的关系推断出来的部分经常会被省略，被省略的部分在句子中承担句子的句法成分，并且回指前文中说过的语言单位，这个现象称为零指代。零指代即指在本身应该出现回指词的地方用零代词代替。如例2：小明吃了一个苹果，很甜。根据文本的内容推断出句子中的零代词/>所指向的先行词为“苹果”，但是对计算机而言，由于零代词没有具体的表达，在回指位置的检测难度上，明显高于其余两种类型的回指，因此，零代词消解是回指消解任务中的难点与重点。

汉语零代词消解任务的研究刚刚起步，目前主要存在如下一些问题：由于指代消解属于篇章层面的任务，而之前的研究将任务定义在句子级上，将零代词所在的句子和候选先行词所在的句子分别表征，因此没有考虑到零代词与候选先行词之间的联系；在表示零代词时，由于零代词形式上不存在，传统方法使用整个句子的表征来表征零代词，从而可能会导致信息冗余，引入噪声。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中信息冗余，且存在噪声的问题，从而提供一种避免信息冗余及噪声的基于Mask机制与孪生网络的汉语零指代消解方法及系统。

为解决上述技术问题，本发明的一种基于Mask机制与孪生网络的汉语零指代消解方法，包括：在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理；将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词；将注意力机制融入至所述BERT模型中，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词；计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词。

在本发明的一个实施例中，所述第一先行词采用手工制定的规则进行抽取。

在本发明的一个实施例中，所述注意力机制采用门控函数。

在本发明的一个实施例中，所述门控函数的计算方式为：s_t＝tanh(W^(att)·[e_np；e_zp]+b^(att))，其中，W^(att)和b^(att)是模型学习的参数，m是候选先行词的单词数量，所述e_np是第一先行词，所述e_npi是所述第一先行词中的第i个字,所述e_zp是第一零代词。

在本发明的一个实施例中，所述手工特征在预选时，根据经验设置。

在本发明的一个实施例中，所述第二零代词是根据所述第一零代词结合预选的手工特征分别通过所述第二线性函数处理后相加得出。

在本发明的一个实施例中，计算所述第二先行词和第二零代词的相似度的方法为：采用孪生网络结构计算相似度。

在本发明的一个实施例中，所述相似度的计算采用余弦计算所述第二先行词和第二零代词的相似度，当余弦相似度的计算数值范围在[-1,1]之间时，若数值越趋近于1，代表所述第二先行词与第二零代词的方向越接近；若数值越趋近于-1时，代表所述第二先行词与第二零代词的方向越相反。

在本发明的一个实施例中，当余弦相似度的计算数值输出后，利用损失函数反向传播至所述孪生网络中，处理所述孪生网络的配对数据的关系。

本发明还提供了一种基于Mask机制与孪生网络的汉语零指代消解系统，包括：

Mask标记模块，用于在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理；

输入模块，用于将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词；

处理模块，用于将注意力机制融入至所述BERT模型中，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词；

计算模块，用于计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于Mask机制与孪生网络的汉语零指代消解方法，在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，从而充分考虑了零代词和先行词之间的相关性；将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词，从而有利于后续的计算；将注意力机制融入至所述BERT模型中，从而有利于将第一先行词中包含更多信息的部分与第一零代词对齐，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词，从而有利于更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系；计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词，由于本发明充分考虑了零代词与先行词之间的联系，同时在一定程度上利用了篇章信息；同时，不使用整个句子的信息来表示零代词，而是用[MASK]对应位置的向量来表示零代词，因此避免了信息的冗余及噪声。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于Mask机制与孪生网络的汉语零指代消解方法流程图；

图2是本发明孪生网络结构的示意图；

图3是本发明BERT模型基本框架；

图4是本发明BERT模型Embedding层；

图5是本发明基于Mask机制与孪生网络的汉语零指代消解模型

图6是OntoNotes 5.0语料库；

图7是本发明与yin的方法进行的比对表；

图8是前馈与Siamese的试验结果。

具体实施方式

实施例一

如图1所示，本实施例提供一种基于Mask机制与孪生网络的汉语零指代消解方法，包括：步骤S1：在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理；步骤S2：将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词；步骤S3：将注意力机制融入至所述BERT模型中，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词；步骤S4：计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词。

本实施例所述基于Mask机制与孪生网络的汉语零指代消解方法，所述步骤S1中，在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理，从而充分考虑了零代词和先行词之间的相关性；所述步骤S2中，将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词，从而有利于后续的计算；所述步骤S3中，将注意力机制融入至所述BERT模型中，从而有利于将第一先行词中包含更多信息的部分与第一零代词对齐，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词，从而有利于更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系；所述步骤S4中，计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词，由于本发明充分考虑了零代词与先行词之间的联系，同时在一定程度上利用了篇章信息；同时，不使用整个句子的信息来表示零代词，而是用[MASK]对应位置的向量来表示零代词，因此避免了信息的冗余及噪声。

本实施例中，所述孪生网络的结构如图2所示，其中所述孪生网络有两个结构相同，且权值共享的子结构Network_1和Network_2，用于分别接收两个输入X1与X2，将其转换为向量Gw(X1)与Gw(X2)，最后通过某种距离度量的方式计算两个输出向量的距离Ew。

所述BERT模型的全称是Bidirectional Encoder Representation fromTransformers，即双向变压器(Transformer)的编码器(Encoder)，因为解码器(decoder)是不能获得预测的信息。因此所述BERT模型的主要创新点都在预训练(pre-train)方法上，即用了已标记(Masked)的语言模型和下一句预测(Next Sentence Prediction)两种方法分别捕捉词语和句子级别的陈述(representation)，如图3所示。

所述BERT模型的Embedding层由三种嵌入(Embedding)求和而成，如图4所示，其中，令牌嵌入(Token Embeddings)是词向量，第一个单词是CLS标志，可以用于之后的分类任务；段落嵌入(Segment Embeddings)用来区别两种句子，因为预训练不仅做语言模型还要做以两个句子为输入的分类任务；位置嵌入(Position Embeddings)是学习得出。

本实施例中，为了更好的将第一先行词中包含更多信息的部分与第一零代词对齐，将注意力机制融入至所述BERT模型中。所述注意力机制采用门控函数。

所述门控函数的计算方式为：s_t＝tanh(W^(att)·[e_np；e_zp]+b^(att))，其中，W^(att)和b^(att)是模型学习的参数，m是候选先行词的单词数量，所述e_np是第一先行词，所述e_npi是所述第一先行词中的第i个字，所述e_zp是第一零代词。

为了更好的捕捉第一零代词及第一先行词之间的语法、位置和其它关系，本申请手工抽取了一部分特征，如图5中e_feature所示。所述手工特征在预选时，根据经验设置，具体地，这些特征来自于之前研究者的工作，这里就不再重复论述。

所述第二零代词E_zp是根据所述第一零代词e_zp经过第二线性函数处理，结合预选的手工特征e_feature经过第三线性函数相加后得到。具体地，将所述第一零代词e_zp通过第二个线性函数处理后，再与预选的手工特征e_feature通过第二个线性函数处理后相加得到第二零代词E_zp。

计算所述第二先行词和第二零代词的相似度的方法为：采用孪生网络结构计算相似度。

所述相似度的计算采用余弦(Cosine)计算所述第二先行词E_np和第二零代词E_zp的相似度E_w(np,zp)，其中：np、zp表示第二先行词和第二零代词的语义向量，当余弦相似度的计算数值范围在[-1,1]之间时，若数值越趋近于1，代表所述第二先行词与第二零代词的方向越接近；若数值越趋近于-1时，代表所述第二先行词与第二零代词的方向越相反。

当余弦相似度的计算数值输出后，利用损失函数反向传播至所述孪生网络中，处理所述孪生网络的配对数据的关系。具体地，本申请利用对比损失(Contrastive loss)作为损失函数，采用这种损失函数可以有效的处理孪生网络中的配对数据(paired data)的关系，其表达式如下：

其中，np、zp表示第二先行词和第二零代词的语义向量，y⁽ⁱ⁾为np是否为zp的先行词，m为设定的阈值，N为样本个数。

下面以句子“建筑公司进区，有关部门先送上这些法规性文件，然后有专门队伍进行监督检查。”为例对上述过程中的关键步骤进行说明：

首先在零代词所在的位置上加“[MASK]”标记，得到补全后的零代词所在的句子：“建筑公司进区，有关部门先送上这些法规性文件，[MASK]然后有专门队伍进行监督检查。”，然后以候选先行词“有关部门”为例，由于先行词和[MASK]在同一句中，因此这里不需要进行拼接(如果先行词和[MASK]不在同一句，将先行词所在的句子和补全后零代词所在的句子进行拼接)，如图5中的输入令牌(Input Tokens)；将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词e_np，和第一零代词e_zp，有了第一零代词的表示e_zp后，为了更好的将第一先行词e_np中包含更多信息的部分与第一零代词e_zp对齐，本申请将注意力(Attention)机制融入到BERT模型中，具体地，使用了一个门控函数作为注意力机制，对于第一先行词e_np，通过第一线性函数处理得到第二先行词，例如，所述第一先行词e_np是图5中的“有关部门”；对于第一零代词e_zp通过第二线性函数后，再结合预选的手工特征e_feature通过第三线性函数处理后得到第二零代词；通过余弦相似度计算所述第二先行词和第二零代词的相似度，从所述第二先行词集合中输出相似度最高的先行词。

本申请中，实验选用的语料为CoNLL-2012评测任务提供的OntoNotes5.0语料库，该语料是到目前为止承认度最高也是最知名的语料库。如图6对零指代的基本数量进行了统计，其中ZP指全部的零指代，AZP是可消解的指代，指能找到其先行语的零指代。该语料的划分方法与yin的论文中语料划分一致，因此本文后续实验是具有对比性的。其中yin的论文为Yin等提出了一个深度记忆网络，通过将零元素的上下文信息向量化来自动学习相关语义信息帮助零指代消解。

本申请中，将实验结果与yin(2018)的方法(SoA)进行了对比，具体结果如图7所示。特征Gold zero表示实验中默认零代词的位置已知。

通过实验结果的对比可以发现，基于Mask机制与孪生网络的汉语零指代消解方法要比yin的方法的性能高，F1值提升了5.7％。本模型的优势在于：(1)充分考虑了零代词与先行词之间的联系，同时在一定程度上考虑了篇章信息；(2)采用Siamese Network代替前馈神经网络进行预测，该方法更符合人类进行消解的思维。

同时，为了说明Siamese Network方法的有效性，本文进行了图8所示实验，其中BERT表示使用前馈神经网络进行先行词的判断，BERT-Siamese表示使用Siamese进行先行词的判断。由上述实验对比结果可以看到，Siamese Network的效果更好。

实施例二

基于同一发明构思，本实施例提供一种基于Mask机制与孪生网络的汉语零指代消解系统，其解决问题的原理与所述基于Mask机制与孪生网络的汉语零指代消解方法相同，重复之处不再赘述。

本实施例所述基于Mask机制与孪生网络的汉语零指代消解系统包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于，包括如下步骤：

步骤S1：在零代词所在的位置加“[MASK]”标记，得到补全后的零代词所在的句子，其中若先行词和[MASK]在同一句中，则不进行拼接处理，若所述先行词和[MASK]不在同一句中，将先行词所在的句子和补全后零代词所在的句子进行拼接处理；

步骤S2：将上述预处理后的句子输入至预训练的BERT模型提取出第一先行词和第一零代词；

步骤S3：将注意力机制融入至所述BERT模型中，对于第一先行词，通过第一线性函数处理得到第二先行词；对于第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数处理后得到第二零代词；

步骤S4：计算所述第二先行词和第二零代词的相似度，输出相似度最高的先行词。

2.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述第一先行词采用手工制定的规则进行抽取。

3.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述注意力机制采用门控函数。

4.根据权利要求3所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述门控函数的计算方式为：其中，W^(att)和b^(att)是模型学习的参数，m是候选先行词的单词数量，所述e_np是第一先行词，所述e_npi是所述第一先行词中的第i个字，所述e_zp是第一零代词。

5.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述手工特征在预选时，根据经验设置。

6.根据权利要求1或5所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述第二零代词是根据所述第一零代词经过第二线性函数处理，结合预选的手工特征经过第三线性函数相加后得到。

7.根据权利要求1所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：计算所述第二先行词和第二零代词的相似度的方法为：采用孪生网络结构计算相似度。

8.根据权利要求7所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：所述相似度的计算采用余弦计算所述第二先行词和第二零代词的相似度，当余弦相似度的计算数值范围在[-1,1]之间时，若数值越趋近于1，代表所述第二先行词与第二零代词的方向越接近；若数值越趋近于-1时，代表所述第二先行词与第二零代词的方向越相反。

9.根据权利要求8所述的基于Mask机制与孪生网络的汉语零指代消解方法，其特征在于：当余弦相似度的计算数值输出后，利用损失函数反向传播至所述孪生网络中，处理所述孪生网络的配对数据的关系。

10.一种基于Mask机制与孪生网络的汉语零指代消解系统，其特征在于：