CN113392629A - 基于预训练模型的人称代词消解方法 - Google Patents

基于预训练模型的人称代词消解方法 Download PDF

Info

Publication number
CN113392629A
CN113392629A CN202110733081.6A CN202110733081A CN113392629A CN 113392629 A CN113392629 A CN 113392629A CN 202110733081 A CN202110733081 A CN 202110733081A CN 113392629 A CN113392629 A CN 113392629A
Authority
CN
China
Prior art keywords
pronouns
candidate
pronoun
antecedent
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110733081.6A
Other languages
English (en)
Other versions
CN113392629B (zh
Inventor
张伟男
张家乐
赵正宇
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110733081.6A priority Critical patent/CN113392629B/zh
Publication of CN113392629A publication Critical patent/CN113392629A/zh
Application granted granted Critical
Publication of CN113392629B publication Critical patent/CN113392629B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

基于预训练模型的人称代词消解方法,涉及人工智能技术领域,针对现有技术中代词消解的准确率低问题,本申请模型使用基于排序的代词消解框架,对于一个待消解的代词,存在一个候选先行词的集合,对于每一个候选先行词进行消解打分,打分最高的候选先行词作为消解对象进行消解。本申请引入预训练模型,利用预训练模型使用大量无标注文本进行训练的特点,能够更好的捕捉上下文信息,有效提高代词消解的指标,从而更好的帮助下游任务,提高代词消解的准确率,并提高了代词消解的效率。

Description

基于预训练模型的人称代词消解方法
技术领域
本发明涉及人工智能技术领域,具体为基于预训练模型的人称代词消解方法。
背景技术
人称代词消解,就是指在文本中确定人称代词指向哪个实体的问题,代词称为指示语或照应语(Anaphor),其所指向的实体一般被称为先行词(Antecedent),根据二者之间的先后位置,可分为回指(Anaphora)与预指(Cataphora),其中:如果先行语出现在指示语之前,则称为回指,反之则称为预指。
基于规则的代词消解方法大多依赖句法树,通过给定的规则对代词进行消解。Hobbs等人(1978)(Hobbs,J.R.(1978).Resolving pronoun references.Lingua,44(4),311-338.)提出了Hobbs算法,它利用完整的句法分析树和语义知识进行代词消解。Grosz等人(1995)(Grosz,B.J.,Weinstein,S.,&Joshi,A.K.(1995).Centering:A framework formodeling the local coherence of discourse.Computational linguistics,21(2),203-225.)提出中心理论(Centenring Theory),利用上下文等分析文本结构中的焦点转移、表达形式和话语一致性等问题进行代词消解。
基于机器学习方法的代词消解方法主要将代词消解问题转换为分类或者排序问题。分类方法判断代词与每一个候选先行词是否共指,并使用启发式方法在所有共指的候选先行语中选择一个作为消解对象。排序方法则对代词和每一个候选先行词打分,选择打分最高的候选先行词作为消解对象。
Mccarthy等人(McCarthy JF,Lehnert WG.Using Decision Trees forCoreference Resolution.1995.http://arxiv.org/abs/cmp-lg/9505043.)提出表述对模型,将代词消解任务视为二分类问题,根据经验抽取一个候选先行词的语义特征,根据共指指标训练分类器模型。
Soon等人(Soon WM,Lim DCY,Ng HT.Amachine learning approach tocoreference resolution of noun phrases.Comput Linguist.2001;27(4):521-544.doi:10.1162/089120101753342653)对Mccarthy的表述对模型进行改进,提出为每个待消解代词选择最近的共指候选先行词,并进一步拓展特征。
Shane等人(Bergsma S,Lin D.Bootstrapping path-based pronounresolution.In:COLING/ACL 2006-21st International Conference on ComputationalLinguistics and 44th Annual Meeting of the Association for ComputationalLinguistics,Proceedings of the Conference.;2006.doi:10.3115/1220175.1220180.)提出一种基于句法路径的代词消解方法,通过一个简单的自举过程,根据两个实体在句法分析树中的路径来学习代词和候选先行词共指的可能性。
Chen等人(Chen C,Ng V.Chinese overt pronoun resolution:A bilingualapproach.In:Proceedings of the National Conference on ArtificialIntelligence.;2014)提出一种双语的中文代词消解方法,通过利用公开的英语词典和共指标签来提高中文代词消解的效果,且其效果明显超越单语的效果。
共指消解任务与人称代词消解任务类似,且目前研究较多。Lee等人(Lee,Kenton,He,Luheng,Lewis,Mike,&Zettlemoyer,Luke.(2017).End-to-end neural coreferenceresolution.)提出一种基于深度学习的端到端共指消解模型,并取得了当时的SOTA结果。Lee等人(Kenton Lee,Luheng He,&Luke Zettlemoyer.(2018).Higher-OrderCoreference Resolution with Coarse-to-Fine Inference.Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies.)在之前的基础上,提出高阶和Coarse-to-fine方法,进一步提升了共指消解效果。Joshi等人(Joshi,M.,Levy,O.,Weld,D.S.,&Zettlemoyer,L.(2019).Bert for coreference resolution:Baselines and analysis.arXiv preprint arXiv:1908.09091.)在共指消解任务中引入预训练模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.),并进行分析,证明了预训练模型对共指消解效果的提升。Kantor等人(Kantor,B.,&Globerson,A.(2019,July).Coreference resolution with entity equalization.In Proceedings of the 57thAnnual Meeting of the Association for Computational Linguistics(pp.673-677).)提出一种Entity Equalization的方法,同样使用BERT预训练模型初始化,使结果进一步提升。Joshi等人(Joshi,Mandar,Chen,Danqi,Liu,Yinhan,Weld,Daniel S,Zettlemoyer,Luke,&Levy,Omer.(2019).Spanbert:improving pre-training by representing andpredicting spans.)提出一种新的预训练模型SpanBERT,并进行了共指消解的实验,实验结果的提升也表明预训练模型对于共指消解的影响。
国内对于代词消解的研究起步较晚,且存在一定的差距。对于中文人称代词的研究也比较少,一个重要的问题是标注语料的缺失,不同的研究方法大多在自行构建的小规模语料中实现并测试,难以做到横向对比,限制了进一步发展。
王厚峰等人(2001)(王厚峰,&何婷婷.(2001).汉语中人称代词的消解研究.计算机学报,24(02),000136-143.)提出一种中文人称代词的消解方法,结合句类基本知识,根据人称代词所在的语义块中的语义角色和人称代词对应的先行语可能的语义角色,提出消解人称代词的基本规则。
李国臣等人(2004)(李国臣,&罗云飞.(2005).采用优先选择策略的中文人称代词的指代消解.中文信息学报,19(4),25-31.)使用机器学习方法(决策树算法),并结合了频次和距离属性,对候补互指对进行优先选择,来消解人称代词的指代问题。
董国志等人(2011)(董国志,朱玉全,&程显毅.(2011).Research on personalpronoun anaphora resolution in chinese%中文人称代词指代消解的研究.计算机应用研究,028(005),1774-1776,1779.)提出一种结合统计和规则的方法,平衡准确率和召回率,采用一种新的基于语料库、运用规则预处理和最大熵模型相结合的方法。
在自然语言文本中,存在大量的指代现象,指代现象大大增加了机器理解文本内容的难度,影响后续任务的最终效果。因此,在自然语言处理任务中,代词消解是实现文本理解不可或缺的内容,也是自然语言处理应用领域的一个关键问题。代词消解在机器翻译、信息抽取、自动文摘以及自动问答等领域中都有重要应用,能够有效帮助下游任务更好的理解文本,取得更好的效果。但现有技术针对代词消解的准确率低。
发明内容
本发明的目的是:针对现有技术中代词消解的准确率低问题,提出基于预训练模型的人称代词消解方法。
本发明为了解决上述技术问题采取的技术方案是:
基于预训练模型的人称代词消解方法,包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
进一步的,所述消解打分表示为:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,FFNN表示前馈神经网络。
进一步的,所述mi表示为:
Figure BDA0003139676840000041
其中,θi表示长度特征。
进一步的,所述预训练模型为BERT或SpanBert。
进一步的,所述上下文表示为:
Context=(w1,w2,w3,…,wn)
其中,w表示文字,n表示序号。
进一步的,所述上下文相关的字向量表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
其中,xp表示字向量。
进一步的,所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),…,END(i))。
进一步的,所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000042
Figure BDA0003139676840000043
其中
Figure BDA0003139676840000044
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
进一步的,所述预训练模型的损失为:
Figure BDA0003139676840000051
Figure BDA0003139676840000052
表示代词对应的所有候选先行词。
本发明的有益效果是:
本申请引入预训练模型,利用预训练模型使用大量无标注文本进行训练的特点,能够更好的捕捉上下文信息,有效提高代词消解的指标,从而更好的帮助下游任务,提高代词消解的准确率,并提高了代词消解的效率。
附图说明
图1为本申请的整体流程图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于预训练模型的人称代词消解方法,包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
传统的人称代词消解大多仍使用非深度学习方法,使用传统的机器学习方法或规则来进行消解,也没有很好的利用大量的无监督文本来获取信息。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述消解打分表示为:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,FFNN表示前馈神经网络。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述mi表示为:
Figure BDA0003139676840000061
其中,θi表示长度特征。
具体实施方式四:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述预训练模型为BERT或SpanBert。
需要注意的是本申请包括但不限于Bert和Spanbert,即也可以使用其它预训练模型。
具体实施方式五:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述上下文表示为:
Context=(w1,w2,w3,…,wn)
其中,w表示文字,n表示序号。
具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述上下文相关的字向量表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
其中,xp表示字向量。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),…,END(i))。
具体实施方式八:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000071
Figure BDA0003139676840000072
其中
Figure BDA0003139676840000073
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
具体实施方式九:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述预训练模型的损失为:
Figure BDA0003139676840000074
Figure BDA0003139676840000075
表示代词对应的所有候选先行词。
本申请模型使用基于排序的代词消解框架,对于一个待消解的代词(照应词),存在一个候选先行词的集合,对于每一个候选先行词进行消解打分,打分最高的候选先行词作为消解对象进行消解。特殊的,考虑到可能会有不可消解的情况,设置一个额外的候选先行词
Figure BDA0003139676840000076
表示该代词没有可消解的正确先行词,固定其得分为0,当其他所有候选先行词消解打分小于0时,表示该代词不可消解。本申请模型框架见图1。
本申请与现有技术相比具有如下区别:
1.已有的人称代词消解方法大多数仍使用非深度学习方法,研究较少,本申请首次从一个全新的角度建模人称代词消解问题,创新性地提出一种基于预训练语言模型的人称代词消解技术框架;
2.提出了一种新的候选先行词集合的构造方法。
3.提出了一种新的照应词和候选先行词的建模方法,为照应词和候选先行词构建一个可训练的初始化表示;在进行消解打分时,使用期望先行词,使其进行独立打分时,也能观察到全局的信息。
4.与已有的人称代词消解方法相比,本申请方法在不需要额外的知识库的前提下,取得了较大的效果提升,本申请方法也可用于共指消解和名词短语消解。
预训练语言模型:引入预训练语言模型BERT(Devlin,J.,Chang,M.W.,Lee,K.,&Toutanova,K.(2018).Bert:Pre-training of deep bidirectional transformers forlanguage understanding.arXiv preprint arXiv:1810.04805.),对上下文进行建模。BERT模型是一种使用Transformer的双向编码器表示,与其他已有的语言表示模型不同,BERT在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改,同时能够利用大规模的预训练语料中的知识,能够更好的捕捉上下文信息,适用于代词消解。
候选先行词构建:在已有的方法中,候选先行词的构建主要基于句法树或命名实体识别,但句法树识别和命名实体识别的过程本身精度较低,容易导致级联的错误,影响最终的结果。本申请模型在构建候选先行词的过程中,使用人名+最大名词片段的方法,具体来说,对于存在代词的句子,在其之前的若干句(包括该代词所在的句子中,该代词之前的部分)中,使用识别的人名以及词性标注识别出的最大名词片段作为该代词的候选先行词集合。最大名词片段指对于连续的名词,将所有连续的名词拼接加入候选先行词的集合,例如:“篮球球队队长”,其中“篮球”“球队”“队长”均标注为名词,此时“篮球球队队长”加入候选先行词的集合。
上下文表示:Context=(w1,w2,w3,…,wn)
上下文建模:本申请模型使用预训练模型BERT对上下文进行建模,从而获取上下文的动态表示,获取上下文相关的词向量。编码后的表示为:
(x1,x2,x3..,xp…,xn)=PretrainModel(w1,w2,w3..,wp…,wn)
候选先行词和照应词(代词)建模:候选先行词和照应词(以下统称为实体)的编码由两部分组成:1.得到上下文的表示之后,对文本片段进行编码表示;2.手动设计的特征(实体的长度)的编码表示。两部分拼接作为最终的实体表示:
Figure BDA0003139676840000081
1.文本片段的编码表示:
首先,根据预训练模型得到实体片段上的编码START(i),…,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习由于候选先行词和代词的分布是不同的,两者的xpr也是独立训练的。
Transformer(xpr,START(i),…,END(i))
另外一种实现方式:也可以使用注意力机制[16]实现编码:
αt=ωα·FFNNα(xt)
Figure BDA0003139676840000091
Figure BDA0003139676840000092
其中
Figure BDA0003139676840000093
表示在候选先行词和代词的片段上使用注意力机制后得到的向量表示的加权和,作为候选先行词和代词的文本编码,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数。
2.补充特征:目前只包括长度这一特征,可以拓展增加其它特征(如句法成分等):
θi
期望先行词表示:Lee等人[8]使用期望先行词对实体的表示进行高阶迭代学习,词级别高阶的迭代也会影响性能。本申请模型借助期望先行词的概念,构建字级别的期望先行词表示,使其对每个候选先行词进行独立的消解打分时,也能观察到全局的信息,从而更好进行共指判断。
αt=ωα·FFNNα(xt,mp)
Figure BDA0003139676840000094
Figure BDA0003139676840000095
其中,mexp表示期望先行词的表示,mp表示照应词的表示,
Figure BDA0003139676840000096
表示该代词所有的候选先行词,START(i)和END(i)表示第i个候选先行词的开始位置和终止位置。
消解打分:计算代词和每一个候选先行词的消解打分:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,对三部分向量进行连接构成最后消解对的表示,FFNN表示前馈神经网络,用来获取最终的消解打分。
取消解打分最高的候选先行词作为消解对象进行消解。
训练:预训练模型的训练阶段包括两部分:预训练和微调。
预训练阶段需要大量的文本以及算力,可以使用开源的BERT中文预训练模型。
进行微调时,为每一个照应词的所有候选先行词计算消解得分score,训练时的损失定义为:
Figure BDA0003139676840000101
其中,scorei表示该代词正确候选先行词的的消解得分,
Figure BDA0003139676840000102
表示该代词所有候选先行词。需要注意的是,每一个候选先行词的集合包括特殊的先行词
Figure BDA0003139676840000103
来表示不可消解,打分为0。
推理:推理时,按照上述模型,分别计算每一个候选先行词的消解得分(不可消解得分为0),取得分最高的候选先行词作为消解结果。
实施例:
评价指标:召回率(Recall)和准确率(Precision),计算公式如下:
Figure BDA0003139676840000104
Figure BDA0003139676840000105
其中#Res Hit表示代词消解到正确的先行词的数量;#Pron in Key表示标注语料中消解的代词的数量,即可消解的代词数量;#Pron in Predictions表示模型消解的代词的数量。
Figure BDA0003139676840000106
表1:训练集和测试集数据统计表
Figure BDA0003139676840000107
表2:Ontonotes 5.0中文数据集上的结果,Chen(Chen C,Ng V.Chinese overtpronoun resolution:A bilingual approach.In:Proceedings of the NationalConference on Artificial Intelligence.;2014)为baseline结果,Bert为申请申请的方法使用Bert中文预训练模型得到的结果
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。

Claims (9)

1.基于预训练模型的人称代词消解方法,其特征在于包括以下步骤:
步骤一:利用预训练模型对待消解文本上下文进行建模,得到上下文相关的字向量;
步骤二:对于存在代词的句子,将该句子以及该句子之前内容中的人名和最大名词片段进行识别,并将识别结果作为候选先行词,所述最大名词片段为连续名词的拼接;
步骤三:将代词和候选先行词进行编码得到代词的文本片段向量和候选先行词的文本片段向量,然后将代词的文本片段向量和候选先行词的文本片段向量分别与设定的长度特征拼接得到代词的向量及候选先行词的向量;
步骤四:根据上下文相关的字向量得到候选先行词的字向量,然后利用候选先行词的字向量以及代词的文本片段表示得到期望先行词的向量,最后将期望先行词的向量、代词的向量以及候选先行词的向量拼接后,通过前馈神经网络进行消解打分;
步骤五:取消解打分最高的候选先行词作为消解对象进行消解。
2.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述消解打分表示为:
scorei=FFNN([mp,mi,mp*mi,mexp])
其中,mp表示代词的编码,mi表示第i个先行词的编码,mexp表示期望先行词表示,*表示向量的元素乘,FFNN表示前馈神经网络。
3.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述预训练模型为BERT或SpanBert。
4.根据权利要求1所述的基于预训练模型的人称代词消解方法,其特征在于所述上下文表示为:
Context=(w1,w2,w3,...,wn)
其中,w表示文字,n表示序号。
5.根据权利要求4所述的基于预训练模型的人称代词消解方法,其特征在于所述上下文相关的字向量表示为:
(x1,x2,x3..,xp...,xn)=PretrainModel(w1,w2,w3..,wp...,wn)
其中,xp表示字向量。
6.根据权利要求5所述的基于预训练模型的人称代词消解方法,其特征在于所述步骤三中将代词或候选先行词进行编码的方法为:
首先,根据预训练模型得到实体片段上的编码START(i),...,END(i),然后在开始位置添加一个可训练的向量表示xpr,使用一层或多层Transformer对实体片段进行编码,选择最后一层的xpr的隐状态作为实体文本片段的编码表示;
对于xpr的值,首先进行随机初始化,之后在训练过程中通过反向传播进行学习,具体表示为:
Transformer(xpr,START(i),...,END(i))。
7.根据权利要求5所述的基于预训练模型的人称代词消解方法,其特征在于所述步骤三中将代词或候选先行词进行编码的方法为:
使用注意力机制实现编码:
αt=ωα·FFNNα(xt)
Figure FDA0003139676830000021
Figure FDA0003139676830000022
其中
Figure FDA0003139676830000023
表示在候选先行词和代词的文本片段上使用注意力机制后得到的向量表示的加权和,FFNN表示前馈神经网络,αi,t表示归一化之后权重,START(i)和END(i)表示第i个候选先行词或照应词的开始位置和终止位置,ωα是需要训练的参数,xt表示字向量,αt表示权重因子,αk表示候选先行词的权重。
8.根据权利要求7所述的基于预训练模型的人称代词消解方法,其特征在于所述mi表示为:
Figure FDA0003139676830000024
其中,θi表示长度特征,
Figure FDA0003139676830000025
表示表示在候选先行词和代词的R段上使用注意力机制后得到的向量表示的加权和。
9.根据权利要求4所述的基于预训练模型的人称代词消解方法,其特征在于所述预训练模型的损失为:
Figure FDA0003139676830000026
Figure FDA0003139676830000027
表示代词对应的所有候选先行词。
CN202110733081.6A 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法 Active CN113392629B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733081.6A CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733081.6A CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Publications (2)

Publication Number Publication Date
CN113392629A true CN113392629A (zh) 2021-09-14
CN113392629B CN113392629B (zh) 2022-10-28

Family

ID=77624524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733081.6A Active CN113392629B (zh) 2021-06-29 2021-06-29 基于预训练模型的人称代词消解方法

Country Status (1)

Country Link
CN (1) CN113392629B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579706A (zh) * 2022-03-07 2022-06-03 桂林旅游学院 一种基于bert神经网络和多任务学习的主观题自动评阅方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326919A1 (en) * 2003-11-18 2009-12-31 Bean David L Acquisition and application of contextual role knowledge for coreference resolution
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN109783801A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质
CN109885841A (zh) * 2019-03-20 2019-06-14 苏州大学 基于结点表示法的指代消解方法
CN109960803A (zh) * 2019-03-20 2019-07-02 苏州大学 基于成分句法压缩树的指代消解方法
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110162785A (zh) * 2019-04-19 2019-08-23 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
CN111414758A (zh) * 2020-02-21 2020-07-14 平安科技(深圳)有限公司 零指代位置检测方法、装置、设备及计算机可读存储介质
CN111488733A (zh) * 2020-04-07 2020-08-04 苏州大学 基于Mask机制与孪生网络的汉语零指代消解方法及系统
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
WO2021012263A1 (en) * 2019-07-25 2021-01-28 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for end-to-end deep reinforcement learning based coreference resolution
US20210034701A1 (en) * 2019-07-30 2021-02-04 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
CN112347785A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种基于多任务学习的嵌套实体识别系统
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN112765994A (zh) * 2021-01-26 2021-05-07 武汉大学 一种基于深度学习的信息要素联合抽取方法及系统
CN112765958A (zh) * 2021-03-17 2021-05-07 中国平安人寿保险股份有限公司 代词消解方法、装置、电子设备及存储介质
US20210158206A1 (en) * 2019-11-25 2021-05-27 Sap Se Attention mechanism for natural language processing

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326919A1 (en) * 2003-11-18 2009-12-31 Bean David L Acquisition and application of contextual role knowledge for coreference resolution
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
CN105955956A (zh) * 2016-05-05 2016-09-21 中国科学院自动化研究所 一种汉语隐式篇章关系识别方法
CN109783801A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质
CN109885841A (zh) * 2019-03-20 2019-06-14 苏州大学 基于结点表示法的指代消解方法
CN109960803A (zh) * 2019-03-20 2019-07-02 苏州大学 基于成分句法压缩树的指代消解方法
CN110134944A (zh) * 2019-04-08 2019-08-16 国家计算机网络与信息安全管理中心 一种基于强化学习的指代消解方法
CN110162785A (zh) * 2019-04-19 2019-08-23 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
WO2021012263A1 (en) * 2019-07-25 2021-01-28 Baidu.Com Times Technology (Beijing) Co., Ltd. Systems and methods for end-to-end deep reinforcement learning based coreference resolution
US20210034701A1 (en) * 2019-07-30 2021-02-04 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
US20210158206A1 (en) * 2019-11-25 2021-05-27 Sap Se Attention mechanism for natural language processing
CN111414758A (zh) * 2020-02-21 2020-07-14 平安科技(深圳)有限公司 零指代位置检测方法、装置、设备及计算机可读存储介质
CN111488733A (zh) * 2020-04-07 2020-08-04 苏州大学 基于Mask机制与孪生网络的汉语零指代消解方法及系统
CN112084780A (zh) * 2020-09-09 2020-12-15 广州云从洪荒智能科技有限公司 自然语言处理中共指消解方法、装置、设备及介质
CN112256868A (zh) * 2020-09-30 2021-01-22 华为技术有限公司 零指代消解方法、训练零指代消解模型的方法及电子设备
CN112347785A (zh) * 2020-11-18 2021-02-09 湖南国发控股有限公司 一种基于多任务学习的嵌套实体识别系统
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN112765994A (zh) * 2021-01-26 2021-05-07 武汉大学 一种基于深度学习的信息要素联合抽取方法及系统
CN112765958A (zh) * 2021-03-17 2021-05-07 中国平安人寿保险股份有限公司 代词消解方法、装置、电子设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
KENTON LEE等: "End-to-end Neural Coreference Resolution", 《互联网ARXIV.ORG/PDF/1707.07045.PDF》 *
KENTON LEE等: "LEARNING RECURRENT SPAN REPRESENTATIONS FOR EXTRACTIVE QUESTION ANSWERING", 《互联网ARXIV.ORG/PDF/1611.01436.PDF》 *
付健: "融入结构信息的指代消解", 《计算机科学》 *
张文艳等: "结合规则与语义的中文人称代词指代消解", 《数据采集与处理》 *
申资卓: "基于预训练语言模型的中文零指代消解", 《信息通信》 *
葛海柱: "面向文本理解汉语指代关键问题研究", 《中国优秀博硕学位论文全文数据库(硕士)哲学与人文科学学辑》 *
邓思艺等: "基于动态语义注意力的指代消解方法", 《数据分析与知识发现》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579706A (zh) * 2022-03-07 2022-06-03 桂林旅游学院 一种基于bert神经网络和多任务学习的主观题自动评阅方法
CN114579706B (zh) * 2022-03-07 2023-09-29 桂林旅游学院 一种基于bert神经网络和多任务学习的主观题自动评阅方法

Also Published As

Publication number Publication date
CN113392629B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN110390103A (zh) 基于双编码器的短文本自动摘要方法及系统
Jiang et al. Natural language processing and its applications in machine translation: A diachronic review
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN109597988B (zh) 跨语言的词汇义原预测方法、装置与电子设备
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN111243699A (zh) 基于字词信息融合的中文电子病历实体抽取方法
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN111626042A (zh) 指代消解方法及装置
Zhang et al. Design and implementation of Chinese Common Braille translation system integrating Braille word segmentation and concatenation rules
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN112287119B (zh) 一种在线资源相关信息抽取的知识图谱生成方法
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
Wang et al. Classification-based RNN machine translation using GRUs
Xiang et al. A cross-guidance cross-lingual model on generated parallel corpus for classical Chinese machine reading comprehension
Li et al. Cross-lingual transferring of pre-trained contextualized language models
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
Akhtar et al. A machine learning approach for Urdu text sentiment analysis
Chanda et al. Is Meta Embedding better than pre-trained word embedding to perform Sentiment Analysis for Dravidian Languages in Code-Mixed Text?
Maruyama et al. Extremely low-resource text simplification with pre-trained transformer language model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant