CN113392629B

CN113392629B - 基于预训练模型的人称代词消解方法

Info

Publication number: CN113392629B
Application number: CN202110733081.6A
Authority: CN
Inventors: 张伟男; 张家乐; 赵正宇; 刘挺
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-10-28
Anticipated expiration: 2041-06-29
Also published as: CN113392629A

Abstract

基于预训练模型的人称代词消解方法，涉及人工智能技术领域，针对现有技术中代词消解的准确率低问题，本申请模型使用基于排序的代词消解框架，对于一个待消解的代词，存在一个候选先行词的集合，对于每一个候选先行词进行消解打分，打分最高的候选先行词作为消解对象进行消解。本申请引入预训练模型，利用预训练模型使用大量无标注文本进行训练的特点，能够更好的捕捉上下文信息，有效提高代词消解的指标，从而更好的帮助下游任务，提高代词消解的准确率，并提高了代词消解的效率。

Description

基于预训练模型的人称代词消解方法

技术领域

本发明涉及人工智能技术领域，具体为基于预训练模型的人称代词消解方法。

背景技术

人称代词消解，就是指在文本中确定人称代词指向哪个实体的问题，代词称为指示语或照应语(Anaphor)，其所指向的实体一般被称为先行词(Antecedent)，根据二者之间的先后位置，可分为回指(Anaphora)与预指(Cataphora)，其中：如果先行语出现在指示语之前，则称为回指，反之则称为预指。

基于规则的代词消解方法大多依赖句法树，通过给定的规则对代词进行消解。Hobbs等人(1978)(Hobbs,J.R.(1978).Resolving pronoun references.Lingua,44(4),311-338.)提出了Hobbs算法，它利用完整的句法分析树和语义知识进行代词消解。Grosz等人(1995)(Grosz,B.J.,Weinstein,S.,&Joshi,A.K.(1995).Centering:A framework formodeling the local coherence of discourse.Computational linguistics,21(2),203-225.)提出中心理论(Centenring Theory)，利用上下文等分析文本结构中的焦点转移、表达形式和话语一致性等问题进行代词消解。

基于机器学习方法的代词消解方法主要将代词消解问题转换为分类或者排序问题。分类方法判断代词与每一个候选先行词是否共指，并使用启发式方法在所有共指的候选先行语中选择一个作为消解对象。排序方法则对代词和每一个候选先行词打分，选择打分最高的候选先行词作为消解对象。

Mccarthy等人(McCarthy JF,Lehnert WG.Using Decision Trees forCoreference Resolution.1995.http://arxiv.org/abs/cmp-lg/9505043.)提出表述对模型，将代词消解任务视为二分类问题，根据经验抽取一个候选先行词的语义特征，根据共指指标训练分类器模型。

Soon等人(Soon WM,Lim DCY,Ng HT.Amachine learning approach tocoreference resolution of noun phrases.Comput Linguist.2001；27(4):521-544.doi:10.1162/089120101753342653)对Mccarthy的表述对模型进行改进，提出为每个待消解代词选择最近的共指候选先行词，并进一步拓展特征。

Shane等人(Bergsma S,Lin D.Bootstrapping path-based pronounresolution.In:COLING/ACL 2006-21st International Conference on ComputationalLinguistics and 44th Annual Meeting of the Association for ComputationalLinguistics,Proceedings of the Conference.；2006.doi:10.3115/1220175.1220180.)提出一种基于句法路径的代词消解方法，通过一个简单的自举过程，根据两个实体在句法分析树中的路径来学习代词和候选先行词共指的可能性。

Chen等人(Chen C,Ng V.Chinese overt pronoun resolution:A bilingualapproach.In:Proceedings of the National Conference on ArtificialIntelligence.；2014)提出一种双语的中文代词消解方法，通过利用公开的英语词典和共指标签来提高中文代词消解的效果，且其效果明显超越单语的效果。

共指消解任务与人称代词消解任务类似，且目前研究较多。Lee等人(Lee,Kenton,He,Luheng,Lewis,Mike,&Zettlemoyer,Luke.(2017).End-to-end neural coreferenceresolution.)提出一种基于深度学习的端到端共指消解模型，并取得了当时的SOTA结果。Lee等人(Kenton Lee,Luheng He,&Luke Zettlemoyer.(2018).Higher-OrderCoreference Resolution with Coarse-to-Fine Inference.Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.)在之前的基础上，提出高阶和Coarse-to-fine方法，进一步提升了共指消解效果。Joshi等人(Joshi,M.,Levy,O.,Weld,D.S.,&Zettlemoyer,L.(2019).Bert for coreference resolution:Baselines and analysis.arXiv preprint arXiv:1908.09091.)在共指消解任务中引入预训练模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.)，并进行分析，证明了预训练模型对共指消解效果的提升。Kantor等人(Kantor,B.,&Globerson,A.(2019,July).Coreference resolution with entity equalization.In Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics(pp.673-677).)提出一种Entity Equalization的方法，同样使用BERT预训练模型初始化，使结果进一步提升。Joshi等人(Joshi,Mandar,Chen,Danqi,Liu,Yinhan,Weld,Daniel S,Zettlemoyer,Luke,&Levy,Omer.(2019).Spanbert:improving pre-training by representing andpredicting spans.)提出一种新的预训练模型SpanBERT，并进行了共指消解的实验，实验结果的提升也表明预训练模型对于共指消解的影响。

国内对于代词消解的研究起步较晚，且存在一定的差距。对于中文人称代词的研究也比较少，一个重要的问题是标注语料的缺失，不同的研究方法大多在自行构建的小规模语料中实现并测试，难以做到横向对比，限制了进一步发展。

王厚峰等人(2001)(王厚峰,&何婷婷.(2001).汉语中人称代词的消解研究.计算机学报,24(02),000136-143.)提出一种中文人称代词的消解方法，结合句类基本知识，根据人称代词所在的语义块中的语义角色和人称代词对应的先行语可能的语义角色，提出消解人称代词的基本规则。

李国臣等人(2004)(李国臣,&罗云飞.(2005).采用优先选择策略的中文人称代词的指代消解.中文信息学报,19(4),25-31.)使用机器学习方法(决策树算法)，并结合了频次和距离属性，对候补互指对进行优先选择，来消解人称代词的指代问题。

董国志等人(2011)(董国志,朱玉全,&程显毅.(2011).Research on personalpronoun anaphora resolution in chinese％中文人称代词指代消解的研究.计算机应用研究,028(005),1774-1776,1779.)提出一种结合统计和规则的方法，平衡准确率和召回率，采用一种新的基于语料库、运用规则预处理和最大熵模型相结合的方法。

在自然语言文本中，存在大量的指代现象，指代现象大大增加了机器理解文本内容的难度，影响后续任务的最终效果。因此，在自然语言处理任务中，代词消解是实现文本理解不可或缺的内容，也是自然语言处理应用领域的一个关键问题。代词消解在机器翻译、信息抽取、自动文摘以及自动问答等领域中都有重要应用，能够有效帮助下游任务更好的理解文本，取得更好的效果。但现有技术针对代词消解的准确率低。

发明内容

本发明的目的是：针对现有技术中代词消解的准确率低问题，提出基于预训练模型的人称代词消解方法。

本发明为了解决上述技术问题采取的技术方案是：

基于预训练模型的人称代词消解方法，包括以下步骤：

步骤一：利用预训练模型对待消解文本上下文进行建模，得到上下文相关的字向量；

步骤二：对于存在代词的句子，将该句子以及该句子之前内容中的人名和最大名词片段进行识别，并将识别结果作为候选先行词，所述最大名词片段为连续名词的拼接；

步骤三：将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量，然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量；

步骤四：根据上下文相关的字向量得到候选先行词的字向量，然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量，最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后，通过前馈神经网络进行消解打分；

步骤五：取消解打分最高的候选先行词作为消解对象进行消解。

进一步的，所述消解打分表示为：

score_i＝FFNN([m_p,m_i,m_p*m_i,m_exp])

其中，m_p表示代词的编码，m_i表示第i个先行词的编码,m_exp表示期望先行词表示，*表示向量的元素乘，FFNN表示前馈神经网络。

进一步的，所述m_i表示为：

其中，θ_i表示长度特征。

进一步的，所述预训练模型为BERT或SpanBert。

进一步的，所述上下文表示为：

Context＝(w₁,w₂,w₃,…,w_n)

其中，w表示文字，n表示序号。

进一步的，所述上下文相关的字向量表示为：

(x₁,x₂,x₃..,x_p…,x_n)＝PretrainModel(w₁,w₂,w₃..,w_p…,w_n)

其中，x_p表示字向量。

进一步的，所述步骤三中将代词或候选先行词进行编码的方法为：

首先，根据预训练模型得到实体片段上的编码START(i),…,END(i)，然后在开始位置添加一个可训练的向量表示x_pr，使用一层或多层Transformer对实体片段进行编码，选择最后一层的x_pr的隐状态作为实体文本片段的编码表示；

对于x_pr的值，首先进行随机初始化，之后在训练过程中通过反向传播进行学习，具体表示为：

Transformer(x_pr,START(i),…,END(i))。

使用注意力机制实现编码：

α_t＝ω_α·FFNN_α(x_t)

其中

表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和，FFNN表示前馈神经网络，α_i,t表示归一化之后权重，START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置，ω_α是需要训练的参数，x_t表示字向量，α_t表示权重因子，α_k表示候选先行词的权重。

进一步的，所述预训练模型的损失为：

表示代词对应的所有候选先行词。

本发明的有益效果是：

本申请引入预训练模型，利用预训练模型使用大量无标注文本进行训练的特点，能够更好的捕捉上下文信息，有效提高代词消解的指标，从而更好的帮助下游任务，提高代词消解的准确率，并提高了代词消解的效率。

附图说明

图1为本申请的整体流程图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于预训练模型的人称代词消解方法，包括以下步骤：

传统的人称代词消解大多仍使用非深度学习方法，使用传统的机器学习方法或规则来进行消解，也没有很好的利用大量的无监督文本来获取信息。

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述消解打分表示为：

score_i＝FFNN([m_p,m_i,m_p*m_i,m_exp])

具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与具体实施方式二的区别是所述m_i表示为：

其中，θ_i表示长度特征。

具体实施方式四：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述预训练模型为BERT或SpanBert。

需要注意的是本申请包括但不限于Bert和Spanbert，即也可以使用其它预训练模型。

具体实施方式五：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述上下文表示为：

Context＝(w₁,w₂,w₃,…,w_n)

其中，w表示文字，n表示序号。

具体实施方式六：本实施方式是对具体实施方式五的进一步说明，本实施方式与具体实施方式五的区别是所述上下文相关的字向量表示为：

(x₁,x₂,x₃..,x_p…,x_n)＝PretrainModel(w₁,w₂,w₃..,w_p…,w_n)

其中，x_p表示字向量。

具体实施方式七：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为：

Transformer(x_pr,START(i),…,END(i))。

具体实施方式八：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为：

使用注意力机制实现编码：

α_t＝ω_α·FFNN_α(x_t)

其中

具体实施方式九：本实施方式是对具体实施方式四的进一步说明，本实施方式与具体实施方式四的区别是所述预训练模型的损失为：

表示代词对应的所有候选先行词。

本申请模型使用基于排序的代词消解框架，对于一个待消解的代词(照应词)，存在一个候选先行词的集合，对于每一个候选先行词进行消解打分，打分最高的候选先行词作为消解对象进行消解。特殊的，考虑到可能会有不可消解的情况，设置一个额外的候选先行词

表示该代词没有可消解的正确先行词，固定其得分为0，当其他所有候选先行词消解打分小于0时，表示该代词不可消解。本申请模型框架见图1。

本申请与现有技术相比具有如下区别：

1.已有的人称代词消解方法大多数仍使用非深度学习方法，研究较少，本申请首次从一个全新的角度建模人称代词消解问题，创新性地提出一种基于预训练语言模型的人称代词消解技术框架；

2.提出了一种新的候选先行词集合的构造方法。

3.提出了一种新的照应词和候选先行词的建模方法，为照应词和候选先行词构建一个可训练的初始化表示；在进行消解打分时，使用期望先行词，使其进行独立打分时，也能观察到全局的信息。

4.与已有的人称代词消解方法相比，本申请方法在不需要额外的知识库的前提下，取得了较大的效果提升，本申请方法也可用于共指消解和名词短语消解。

预训练语言模型：引入预训练语言模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.)，对上下文进行建模。BERT模型是一种使用Transformer的双向编码器表示，与其他已有的语言表示模型不同，BERT在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的BERT表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改，同时能够利用大规模的预训练语料中的知识，能够更好的捕捉上下文信息，适用于代词消解。

候选先行词构建：在已有的方法中，候选先行词的构建主要基于句法树或命名实体识别，但句法树识别和命名实体识别的过程本身精度较低，容易导致级联的错误，影响最终的结果。本申请模型在构建候选先行词的过程中，使用人名+最大名词片段的方法，具体来说，对于存在代词的句子，在其之前的若干句(包括该代词所在的句子中，该代词之前的部分)中，使用识别的人名以及词性标注识别出的最大名词片段作为该代词的候选先行词集合。最大名词片段指对于连续的名词，将所有连续的名词拼接加入候选先行词的集合，例如：“篮球球队队长”，其中“篮球”“球队”“队长”均标注为名词，此时“篮球球队队长”加入候选先行词的集合。

上下文表示：Context＝(w₁,w₂,w3,…,w_n)

上下文建模：本申请模型使用预训练模型BERT对上下文进行建模，从而获取上下文的动态表示，获取上下文相关的词向量。编码后的表示为：

(x₁,x₂,x₃..,x_p…,x_n)＝PretrainModel(w₁,w₂,w₃..,w_p…,w_n)

候选先行词和照应词(代词)建模：候选先行词和照应词(以下统称为实体)的编码由两部分组成：1.得到上下文的表示之后，对文本片段进行编码表示；2.手动设计的特征(实体的长度)的编码表示。两部分拼接作为最终的实体表示：

1.文本片段的编码表示：

首先，根据预训练模型得到实体片段上的编码START(i),…,END(i)，然后在开始位置添加一个可训练的向量表示x_pr，使用一层或多层Transformer对实体片段进行编码，选择最后一层的x_pr的隐状态作为实体文本片段的编码表示；对于x_pr的值，首先进行随机初始化，之后在训练过程中通过反向传播进行学习由于候选先行词和代词的分布是不同的，两者的x_pr也是独立训练的。

Transformer(x_pr,START(i),…,END(i))

另外一种实现方式：也可以使用注意力机制[16]实现编码：

α_t＝ω_α·FFNN_α(x_t)

其中

表示在候选先行词和代词的片段上使用注意力机制后得到的向量表示的加权和，作为候选先行词和代词的文本编码，FFNN表示前馈神经网络，α_i,t表示归一化之后权重，START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置，ω_α是需要训练的参数。

2.补充特征：目前只包括长度这一特征，可以拓展增加其它特征(如句法成分等)：

θ_i

期望先行词表示：Lee等人[8]使用期望先行词对实体的表示进行高阶迭代学习，词级别高阶的迭代也会影响性能。本申请模型借助期望先行词的概念，构建字级别的期望先行词表示，使其对每个候选先行词进行独立的消解打分时，也能观察到全局的信息，从而更好进行共指判断。

α_t＝ω_α·FFNN_α(x_t,m_p)

其中，m_exp表示期望先行词的表示，m_p表示照应词的表示，

表示该代词所有的候选先行词，START(i)和END(i)表示第i个候选先行词的开始位置和终止位置。

消解打分：计算代词和每一个候选先行词的消解打分：

score_i＝FFNN([m_p,m_i,m_p*m_i,m_exp])

其中，m_p表示代词的编码，m_i表示第i个先行词的编码,m_exp表示期望先行词表示，*表示向量的元素乘，对三部分向量进行连接构成最后消解对的表示，FFNN表示前馈神经网络，用来获取最终的消解打分。

取消解打分最高的候选先行词作为消解对象进行消解。

训练：预训练模型的训练阶段包括两部分：预训练和微调。

预训练阶段需要大量的文本以及算力，可以使用开源的BERT中文预训练模型。

进行微调时，为每一个照应词的所有候选先行词计算消解得分score，训练时的损失定义为：

其中，score_i表示该代词正确候选先行词的的消解得分，

表示该代词所有候选先行词。需要注意的是，每一个候选先行词的集合包括特殊的先行词

来表示不可消解，打分为0。

推理：推理时，按照上述模型，分别计算每一个候选先行词的消解得分(不可消解得分为0)，取得分最高的候选先行词作为消解结果。

实施例：

评价指标：召回率(Recall)和准确率(Precision)，计算公式如下：

其中#Res Hit表示代词消解到正确的先行词的数量；#Pron in Key表示标注语料中消解的代词的数量，即可消解的代词数量；#Pron in Predictions表示模型消解的代词的数量。

表1：训练集和测试集数据统计表

表2:Ontonotes 5.0中文数据集上的结果，Chen(Chen C,Ng V.Chinese overtpronoun resolution:A bilingual approach.In:Proceedings of the NationalConference on Artificial Intelligence.；2014)为baseline结果，Bert为申请申请的方法使用Bert中文预训练模型得到的结果

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于预训练模型的人称代词消解方法，其特征在于包括以下步骤：

步骤四：根据上下文相关的字向量得到候选先行词的字向量，然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量，最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后，通过前馈神经网络进行消解打分，其中，期望先行词的表示具体为：

α_t＝ω_α·FFNN_α(x_t，m_p)

m_exp表示期望先行词的表示，m_p表示照应词的表示，

表示该代词所有的候选先行词，START(i)和END(i)表示第i个候选先行词的开始位置和终止位置，α_i，t表示归一化之后权重，α_t表示权重因子，ω_α是需要训练的参数，α_k表示候选先行词的权重，x_t表示字向量，消解打分具体为：

score_i＝FFNN([m_p，m_i，m_p*m_i，m_exp])

m_p表示代词的编码，m_i表示第i个先行词的编码，m_exp表示期望先行词表示，*表示向量的元素乘，对三部分向量进行连接构成最后消解对的表示，FFNN表示前馈神经网络，用来获取最终的消解打分；

2.根据权利要求1所述的基于预训练模型的人称代词消解方法，其特征在于所述预训练模型为BERT或SpanBert。

3.根据权利要求1所述的基于预训练模型的人称代词消解方法，其特征在于所述上下文表示为：

Context＝(w₁，w₂，w₃，...，w_n)

其中，w表示文字，n表示序号。

4.根据权利要求3所述的基于预训练模型的人称代词消解方法，其特征在于所述上下文相关的字向量表示为：

(x₁，x₂，x₃..，x_p...，x_n)＝PretrainModel(w₁，w₂，w₃..，w_p...，w_n)

其中，x_p表示字向量。

5.根据权利要求4所述的基于预训练模型的人称代词消解方法，其特征在于所述步骤三中将代词或候选先行词进行编码的方法为：

首先，根据预训练模型得到实体片段上的编码START(i)，...，END(i)，然后在开始位置添加一个可训练的向量表示x_pr，使用一层或多层Transformer对实体片段进行编码，选择最后一层的x_pr的隐状态作为实体文本片段的编码表示；

Transformer(x_pr，START(i)，...，END(i))。

6.根据权利要求4所述的基于预训练模型的人称代词消解方法，其特征在于所述步骤三中将代词或候选先行词进行编码的方法为：

使用注意力机制实现编码：

α_t＝ω_α·FFNN_α(x_t)

其中

表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和，FFNN表示前馈神经网络，α_i，t表示归一化之后权重，START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置，ω_α是需要训练的参数，x_t表示字向量，α_t表示权重因子，α_k表示候选先行词的权重。

7.根据权利要求1所述的基于预训练模型的人称代词消解方法，其特征在于所述m_i表示为：

其中，θ_i表示长度特征，

表示在候选先行词和代词的片段上使用注意力机制后得到的向量表示的加权和。

8.根据权利要求3所述的基于预训练模型的人称代词消解方法，其特征在于所述预训练模型的损失为：

表示代词对应的所有候选先行词。