CN113392629B - 基于预训练模型的人称代词消解方法 - Google Patents

基于预训练模型的人称代词消解方法 Download PDF

Info

Publication number
CN113392629B
CN113392629B CN202110733081.6A CN202110733081A CN113392629B CN 113392629 B CN113392629 B CN 113392629B CN 202110733081 A CN202110733081 A CN 202110733081A CN 113392629 B CN113392629 B CN 113392629B
Authority
CN
China
Prior art keywords
candidate
pronouns
antecedent
pronoun
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110733081.6A
Other languages
English (en)
Other versions
CN113392629A (zh
Inventor
张伟男
张家乐
赵正宇
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110733081.6A priority Critical patent/CN113392629B/zh
Publication of CN113392629A publication Critical patent/CN113392629A/zh
Application granted granted Critical
Publication of CN113392629B publication Critical patent/CN113392629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

基于预训练模型的人称代词消解方法,涉及人工智能技术领域,针对现有技术中代词消解的准确率低问题,本申请模型使用基于排序的代词消解框架,对于一个待消解的代词,存在一个候选先行词的集合,对于每一个候选先行词进行消解打分,打分最高的候选先行词作为消解对象进行消解。本申请引入预训练模型,利用预训练模型使用大量无标注文本进行训练的特点,能够更好的捕捉上下文信息,有效提高代词消解的指标,从而更好的帮助下游任务,提高代词消解的准确率,并提高了代词消解的效率。

Description

基于预训练模型的人称代词消解方法
技术领域
本发明涉及人工智能技术领域,具体为基于预训练模型的人称代词消解方法。
背景技术
人称代词消解,就是指在文本中确定人称代词指向哪个实体的问题,代词称为指示语或照应语(Anaphor),其所指向的实体一般被称为先行词(Antecedent),根据二者之间的先后位置,可分为回指(Anaphora)与预指(Cataphora),其中:如果先行语出现在指示语之前,则称为回指,反之则称为预指。
基于规则的代词消解方法大多依赖句法树,通过给定的规则对代词进行消解。Hobbs等人(1978)(Hobbs,J.R.(1978).Resolving pronoun references.Lingua,44(4),311-338.)提出了Hobbs算法,它利用完整的句法分析树和语义知识进行代词消解。Grosz等人(1995)(Grosz,B.J.,Weinstein,S.,&Joshi,A.K.(1995).Centering:A framework formodeling the local coherence of discourse.Computational linguistics,21(2),203-225.)提出中心理论(Centenring Theory),利用上下文等分析文本结构中的焦点转移、表达形式和话语一致性等问题进行代词消解。
基于机器学习方法的代词消解方法主要将代词消解问题转换为分类或者排序问题。分类方法判断代词与每一个候选先行词是否共指,并使用启发式方法在所有共指的候选先行语中选择一个作为消解对象。排序方法则对代词和每一个候选先行词打分,选择打分最高的候选先行词作为消解对象。
Mccarthy等人(McCarthy JF,Lehnert WG.Using Decision Trees forCoreference Resolution.1995.http://arxiv.org/abs/cmp-lg/9505043.)提出表述对模型,将代词消解任务视为二分类问题,根据经验抽取一个候选先行词的语义特征,根据共指指标训练分类器模型。
Soon等人(Soon WM,Lim DCY,Ng HT.Amachine learning approach tocoreference resolution of noun phrases.Comput Linguist.2001;27(4):521-544.doi:10.1162/089120101753342653)对Mccarthy的表述对模型进行改进,提出为每个待消解代词选择最近的共指候选先行词,并进一步拓展特征。
Shane等人(Bergsma S,Lin D.Bootstrapping path-based pronounresolution.In:COLING/ACL 2006-21st International Conference on ComputationalLinguistics and 44th Annual Meeting of the Association for ComputationalLinguistics,Proceedings of the Conference.;2006.doi:10.3115/1220175.1220180.)提出一种基于句法路径的代词消解方法,通过一个简单的自举过程,根据两个实体在句法分析树中的路径来学习代词和候选先行词共指的可能性。
Chen等人(Chen C,Ng V.Chinese overt pronoun resolution:A bilingualapproach.In:Proceedings of the National Conference on ArtificialIntelligence.;2014)提出一种双语的中文代词消解方法,通过利用公开的英语词典和共指标签来提高中文代词消解的效果,且其效果明显超越单语的效果。
共指消解任务与人称代词消解任务类似,且目前研究较多。Lee等人(Lee,Kenton,He,Luheng,Lewis,Mike,&Zettlemoyer,Luke.(2017).End-to-end neural coreferenceresolution.)提出一种基于深度学习的端到端共指消解模型,并取得了当时的SOTA结果。Lee等人(Kenton Lee,Luheng He,&Luke Zettlemoyer.(2018).Higher-OrderCoreference Resolution with Coarse-to-Fine Inference.Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.)在之前的基础上,提出高阶和Coarse-to-fine方法,进一步提升了共指消解效果。Joshi等人(Joshi,M.,Levy,O.,Weld,D.S.,&Zettlemoyer,L.(2019).Bert for coreference resolution:Baselines and analysis.arXiv preprint arXiv:1908.09091.)在共指消解任务中引入预训练模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.),并进行分析,证明了预训练模型对共指消解效果的提升。Kantor等人(Kantor,B.,&Globerson,A.(2019,July).Coreference resolution with entity equalization.In Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics(pp.673-677).)提出一种Entity Equalization的方法,同样使用BERT预训练模型初始化,使结果进一步提升。Joshi等人(Joshi,Mandar,Chen,Danqi,Liu,Yinhan,Weld,Daniel S,Zettlemoyer,Luke,&Levy,Omer.(2019).Spanbert:improving pre-training by representing andpredicting spans.)提出一种新的预训练模型SpanBERT,并进行了共指消解的实验,实验结果的提升也表明预训练模型对于共指消解的影响。
国内对于代词消解的研究起步较晚,且存在一定的差距。对于中文人称代词的研究也比较少,一个重要的问题是标注语料的缺失,不同的研究方法大多在自行构建的小规模语料中实现并测试,难以做到横向对比,限制了进一步发展。
王厚峰等人(2001)(王厚峰,&何婷婷.(2001).汉语中人称代词的消解研究.计算机学报,24(02),000136-143.)提出一种中文人称代词的消解方法,结合句类基本知识,根据人称代词所在的语义块中的语义角色和人称代词对应的先行语可能的语义角色,提出消解人称代词的基本规则。
李国臣等人(2004)(李国臣,&罗云飞.(2005).采用优先选择策略的中文人称代词的指代消解.中文信息学报,19(4),25-31.)使用机器学习方法(决策树算法),并结合了频次和距离属性,对候补互指对进行优先选择,来消解人称代词的指代问题。
董国志等人(2011)(董国志,朱玉全,&程显毅.(2011).Research on personalpronoun anaphora resolution in chinese%中文人称代词指代消解的研究.计算机应用研究,028(005),1774-1776,1779.)提出一种结合统计和规则的方法,平衡准确率和召回率,采用一种新的基于语料库、运用规则预处理和最大熵模型相结合的方法。
在自然语言文本中,存在大量的指代现象,指代现象大大增加了机器理解文本内容的难度,影响后续任务的最终效果。因此,在自然语言处理任务中,代词消解是实现文本理解不可或缺的内容,也是自然语言处理应用领域的一个关键问题。代词消解在机器翻译、信息抽取、自动文摘以及自动问答等领域中都有重要应用,能够有效帮助下游任务更好的理解文本,取得更好的效果。但现有技术针对代词消解的准确率低。
发明内容
本发明的目的是:针对现有技术中代词消解的准确率低问题,提出基于预训练模型的人称代词消解方法。
本发明为了解决上述技术问题采取的技术方案是:
基于预训练模型的人称代词消解方法,包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
进一步的,所述消解打分表示为:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,FFNN表示前馈神经网络。
进一步的,所述mi表示为:
Figure BDA0003139676840000041
其中,θi表示长度特征。
进一步的,所述预训练模型为BERT或SpanBert。
进一步的,所述上下文表示为:
Context=(w1,w2,w3,…,wn)
其中,w表示文字,n表示序号。
进一步的,所述上下文相关的字向量表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
其中,xp表示字向量。
进一步的,所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),…,END(i))。
进一步的,所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000042
Figure BDA0003139676840000043
其中
Figure BDA0003139676840000044
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
进一步的,所述预训练模型的损失为:
Figure BDA0003139676840000051
Figure BDA0003139676840000052
表示代词对应的所有候选先行词。
本发明的有益效果是:
本申请引入预训练模型,利用预训练模型使用大量无标注文本进行训练的特点,能够更好的捕捉上下文信息,有效提高代词消解的指标,从而更好的帮助下游任务,提高代词消解的准确率,并提高了代词消解的效率。
附图说明
图1为本申请的整体流程图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于预训练模型的人称代词消解方法,包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
传统的人称代词消解大多仍使用非深度学习方法,使用传统的机器学习方法或规则来进行消解,也没有很好的利用大量的无监督文本来获取信息。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述消解打分表示为:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,FFNN表示前馈神经网络。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述mi表示为:
Figure BDA0003139676840000061
其中,θi表示长度特征。
具体实施方式四:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述预训练模型为BERT或SpanBert。
需要注意的是本申请包括但不限于Bert和Spanbert,即也可以使用其它预训练模型。
具体实施方式五:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述上下文表示为:
Context=(w1,w2,w3,…,wn)
其中,w表示文字,n表示序号。
具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述上下文相关的字向量表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
其中,xp表示字向量。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),…,END(i))。
具体实施方式八:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000071
Figure BDA0003139676840000072
其中
Figure BDA0003139676840000073
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
具体实施方式九:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述预训练模型的损失为:
Figure BDA0003139676840000074
Figure BDA0003139676840000075
表示代词对应的所有候选先行词。
本申请模型使用基于排序的代词消解框架,对于一个待消解的代词(照应词),存在一个候选先行词的集合,对于每一个候选先行词进行消解打分,打分最高的候选先行词作为消解对象进行消解。特殊的,考虑到可能会有不可消解的情况,设置一个额外的候选先行词
Figure BDA0003139676840000076
表示该代词没有可消解的正确先行词,固定其得分为0,当其他所有候选先行词消解打分小于0时,表示该代词不可消解。本申请模型框架见图1。
本申请与现有技术相比具有如下区别:
1.已有的人称代词消解方法大多数仍使用非深度学习方法,研究较少,本申请首次从一个全新的角度建模人称代词消解问题,创新性地提出一种基于预训练语言模型的人称代词消解技术框架;
2.提出了一种新的候选先行词集合的构造方法。
3.提出了一种新的照应词和候选先行词的建模方法,为照应词和候选先行词构建一个可训练的初始化表示;在进行消解打分时,使用期望先行词,使其进行独立打分时,也能观察到全局的信息。
4.与已有的人称代词消解方法相比,本申请方法在不需要额外的知识库的前提下,取得了较大的效果提升,本申请方法也可用于共指消解和名词短语消解。
预训练语言模型:引入预训练语言模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.),对上下文进行建模。BERT模型是一种使用Transformer的双向编码器表示,与其他已有的语言表示模型不同,BERT在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改,同时能够利用大规模的预训练语料中的知识,能够更好的捕捉上下文信息,适用于代词消解。
候选先行词构建:在已有的方法中,候选先行词的构建主要基于句法树或命名实体识别,但句法树识别和命名实体识别的过程本身精度较低,容易导致级联的错误,影响最终的结果。本申请模型在构建候选先行词的过程中,使用人名+最大名词片段的方法,具体来说,对于存在代词的句子,在其之前的若干句(包括该代词所在的句子中,该代词之前的部分)中,使用识别的人名以及词性标注识别出的最大名词片段作为该代词的候选先行词集合。最大名词片段指对于连续的名词,将所有连续的名词拼接加入候选先行词的集合,例如:“篮球球队队长”,其中“篮球”“球队”“队长”均标注为名词,此时“篮球球队队长”加入候选先行词的集合。
上下文表示:Context=(w1,w2,w3,…,wn)
上下文建模:本申请模型使用预训练模型BERT对上下文进行建模,从而获取上下文的动态表示,获取上下文相关的词向量。编码后的表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
候选先行词和照应词(代词)建模:候选先行词和照应词(以下统称为实体)的编码由两部分组成:1.得到上下文的表示之后,对文本片段进行编码表示;2.手动设计的特征(实体的长度)的编码表示。两部分拼接作为最终的实体表示:
Figure BDA0003139676840000081
1.文本片段的编码表示:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习由于候选先行词和代词的分布是不同的,两者的xpr也是独立训练的。
Transformer(xpr,START(i),…,END(i))
另外一种实现方式:也可以使用注意力机制[16]实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000091
Figure BDA0003139676840000092
其中
Figure BDA0003139676840000093
表示在候选先行词和代词的片段上使用注意力机制后得到的向量表示的加权和,作为候选先行词和代词的文本编码,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数。
2.补充特征:目前只包括长度这一特征,可以拓展增加其它特征(如句法成分等):
θi
期望先行词表示:Lee等人[8]使用期望先行词对实体的表示进行高阶迭代学习,词级别高阶的迭代也会影响性能。本申请模型借助期望先行词的概念,构建字级别的期望先行词表示,使其对每个候选先行词进行独立的消解打分时,也能观察到全局的信息,从而更好进行共指判断。
αt=ωα·FFNNα(xt,mp)
Figure BDA0003139676840000094
Figure BDA0003139676840000095
其中,mexp表示期望先行词的表示,mp表示照应词的表示,
Figure BDA0003139676840000096
表示该代词所有的候选先行词,START(i)和END(i)表示第i个候选先行词的开始位置和终止位置。
消解打分:计算代词和每一个候选先行词的消解打分:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,对三部分向量进行连接构成最后消解对的表示,FFNN表示前馈神经网络,用来获取最终的消解打分。
取消解打分最高的候选先行词作为消解对象进行消解。
训练:预训练模型的训练阶段包括两部分:预训练和微调。
预训练阶段需要大量的文本以及算力,可以使用开源的BERT中文预训练模型。
进行微调时,为每一个照应词的所有候选先行词计算消解得分score,训练时的损失定义为:
Figure BDA0003139676840000101
其中,scorei表示该代词正确候选先行词的的消解得分,
Figure BDA0003139676840000102
表示该代词所有候选先行词。需要注意的是,每一个候选先行词的集合包括特殊的先行词
Figure BDA0003139676840000103
来表示不可消解,打分为0。
推理:推理时,按照上述模型,分别计算每一个候选先行词的消解得分(不可消解得分为0),取得分最高的候选先行词作为消解结果。
实施例:
评价指标:召回率(Recall)和准确率(Precision),计算公式如下:
Figure BDA0003139676840000104
Figure BDA0003139676840000105
其中#Res Hit表示代词消解到正确的先行词的数量;#Pron in Key表示标注语料中消解的代词的数量,即可消解的代词数量;#Pron in Predictions表示模型消解的代词的数量。
Figure BDA0003139676840000106
表1:训练集和测试集数据统计表
Figure BDA0003139676840000107
表2:Ontonotes 5.0中文数据集上的结果,Chen(Chen C,Ng V.Chinese overtpronoun resolution:A bilingual approach.In:Proceedings of the NationalConference on Artificial Intelligence.;2014)为baseline结果,Bert为申请申请的方法使用Bert中文预训练模型得到的结果
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (8)

1.基于预训练模型的人称代词消解方法,其特征在于包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分,其中,期望先行词的表示具体为:
αt=ωα·FFNNα(xt,mp)
Figure FDA0003599044960000011
Figure FDA0003599044960000012
mexp表示期望先行词的表示,mp表示照应词的表示,
Figure FDA0003599044960000013
表示该代词所有的候选先行词,START(i)和END(i)表示第i个候选先行词的开始位置和终止位置,αi,t表示归一化之后权重,αt表示权重因子,ωα是需要训练的参数,αk表示候选先行词的权重,xt表示字向量,消解打分具体为:
scorei=FFNN([mp,mi,mp*mi,mexp])
mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,对三部分向量进行连接构成最后消解对的表示,FFNN表示前馈神经网络,用来获取最终的消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
2.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述预训练模型为BERT或SpanBert。
3.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述上下文表示为:
Context=(w1,w2,w3,...,wn)
其中,w表示文字,n表示序号。
4.根据权利要求3所述的基于预训练模型的人称代词消解方法,其特征在于所述上下文相关的字向量表示为:
(x1,x2,x3..,xp...,xn)=PretrainModel(w1,w2,w3..,wp...,wn)
其中,xp表示字向量。
5.根据权利要求4所述的基于预训练模型的人称代词消解方法,其特征在于所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),...,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),...,END(i))。
6.根据权利要求4所述的基于预训练模型的人称代词消解方法,其特征在于所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure FDA0003599044960000021
Figure FDA0003599044960000022
其中
Figure FDA0003599044960000025
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
7.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述mi表示为:
Figure FDA0003599044960000023
其中,θi表示长度特征,
Figure FDA0003599044960000024
表示在候选先行词和代词的片段上使用注意力机制后得到的向量表示的加权和。
8.根据权利要求3所述的基于预训练模型的人称代词消解方法,其特征在于所述预训练模型的损失为:
Figure FDA0003599044960000031
Figure FDA0003599044960000032
表示代词对应的所有候选先行词。
CN202110733081.6A 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法 Active CN113392629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733081.6A CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733081.6A CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Publications (2)

Publication Number Publication Date
CN113392629A CN113392629A (zh) 2021-09-14
CN113392629B true CN113392629B (zh) 2022-10-28

Family

ID=77624524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733081.6A Active CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Country Status (1)

Country Link
CN (1) CN113392629B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579706B (zh) * 2022-03-07 2023-09-29 桂林旅游学院 一种基于bert神经网络和多任务学习的主观题自动评阅方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813916B2 (en) * 2003-11-18 2010-10-12 University Of Utah Acquisition and application of contextual role knowledge for coreference resolution
CN105955956B (zh) * 2016-05-05 2019-01-22 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN109783801B (zh) * 2018-12-14 2023-08-25 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质
CN109960803B (zh) * 2019-03-20 2023-04-18 苏州大学 基于成分句法压缩树的指代消解方法
CN109885841B (zh) * 2019-03-20 2023-07-11 苏州大学 基于结点表示法的指代消解方法
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110162785A (zh) * 2019-04-19 2019-08-23 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
WO2021012263A1 (en) * 2019-07-25 2021-01-28 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for end-to-end deep reinforcement learning based coreference resolution
US11354506B2 (en) * 2019-07-30 2022-06-07 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
US11373120B2 (en) * 2019-11-25 2022-06-28 Sap Se Attention mechanism for natural language processing
CN111414758B (zh) * 2020-02-21 2023-10-20 平安科技(深圳)有限公司 零指代位置检测方法、装置、设备及计算机可读存储介质
CN111488733B (zh) * 2020-04-07 2023-12-19 苏州大学 基于Mask机制与孪生网络的汉语零指代消解方法及系统
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
CN112347785A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种基于多任务学习的嵌套实体识别系统
CN112765994A (zh) * 2021-01-26 2021-05-07 武汉大学 一种基于深度学习的信息要素联合抽取方法及系统
CN112765958B (zh) * 2021-03-17 2023-07-04 中国平安人寿保险股份有限公司 代词消解方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法

Also Published As

Publication number Publication date
CN113392629A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
Jiang et al. Natural language processing and its applications in machine translation: A diachronic review
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
Gibadullin et al. Speech recognition and machine translation using neural networks
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN116150621A (zh) 文本模型的训练方法、装置、及设备
CN111626042A (zh) 指代消解方法及装置
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
Sun Analysis of Chinese machine translation training based on deep learning technology
Xue et al. A method of chinese tourism named entity recognition based on bblc model
Li et al. Cross-lingual transferring of pre-trained contextualized language models
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
Akhtar et al. A machine learning approach for Urdu text sentiment analysis
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Chanda et al. Is Meta Embedding better than pre-trained word embedding to perform Sentiment Analysis for Dravidian Languages in Code-Mixed Text?
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
Alharahseheh et al. A survey on textual entailment: Benchmarks, approaches and applications
Satpathy et al. Analysis of Learning Approaches for Machine Translation Systems
Sathyanarayanan et al. Kannada named entity recognition and classification using bidirectional long short-term memory networks
Ilukkumbura et al. Sinhala active voice into passive voice converter using rule based approach with grammar error correction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant