CN109885841B - 基于结点表示法的指代消解方法 - Google Patents

基于结点表示法的指代消解方法 Download PDF

Info

Publication number
CN109885841B
CN109885841B CN201910212569.7A CN201910212569A CN109885841B CN 109885841 B CN109885841 B CN 109885841B CN 201910212569 A CN201910212569 A CN 201910212569A CN 109885841 B CN109885841 B CN 109885841B
Authority
CN
China
Prior art keywords
node
representation
sequence
nodes
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910212569.7A
Other languages
English (en)
Other versions
CN109885841A (zh
Inventor
孔芳
付建
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910212569.7A priority Critical patent/CN109885841B/zh
Publication of CN109885841A publication Critical patent/CN109885841A/zh
Application granted granted Critical
Publication of CN109885841B publication Critical patent/CN109885841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于结点表示法的指代消解方法,包括:结点表示法:给定成分句法树,通过后序遍历得到其对应的结点序列,然后通过“字词嵌入替换法”获得其初始表示,通过双向长短时记忆网络获得其上下文表示;特征补充法:从成分句法树上提出每个结点的特征集加入初始表示中,丰富节点的表示;结点更新法:结合注意力机制与门控机制,利用孩子节点序列更新双亲结点的表示;结点枚举策略。本发明的有益效果:通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。

Description

基于结点表示法的指代消解方法
技术领域
本发明涉及机器语言处理领域,具体涉及一种基于结点表示法的指代消解方法。
背景技术
指代是一种常见的语言现象,大量出现在篇章或者对话中。它保持了语言的简练,减少了冗余。比如句子“玛丽居里开创了放射性理论,发明了放射性同位素的技术。在她的指导下,人们第一次将放射性同位素用于治疗肿瘤”中,“她”指代“玛丽居里”。在语言学中,用于指向的语言单位成为照应语,如例中的“她”;所指向的对象或者内容成为先行词,如例中的“玛丽居里”。
一般情况下,指代分为两种:回指和共指。回指是指当前的照应语与上文出现的词、短语或句子存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性与非传递性;共指是指两个名词或者名词短语指向真实世界中的同一参照体,这种指代脱离上下文依然存在。目前的指代消解研究偏重于共指消解,本文亦然。
指代消解的研究历史悠久。早期的研究主要通过专家构建领域知识,形成消解规则进行指代消解。近年来,得益于自然语言处理会议的召开和其公布的标注良好的指代消解语料,指代消解的研究转向了数据驱动的方法。特别是随着深度学习技术的兴起和发展,越来越多的学者开始应用深度学习方法于指代消解研究。
目前深度学习技术在指代消解任务上应用最为广泛。其中典型的工作是Lee等人[1]于2017年提出的基于神经网络的端到端指代消解框架,该框架构成如图1所示。
对于输入文本
Figure SMS_1
ND为文本D所包含的单词数,从中抽取出短语集合S={s1,s2,...,sn},其中/>
Figure SMS_2
bi与ei分别表示短语si的开始位置与结束位置的单词的下标,故1≤bi≤ei≤ND,si的宽度为ei-bi+1。
该模型的主要思想是利用嵌入层、上下文表示层与注意力机制对短语进行表示,然后通过前馈神经网络对短语进行打分,并根据得分进行修剪,保留置信度较高的短语成为待消解项;对于每一个待消解项,与之前的所有候选先行词分别配对,并使用前馈神经网络计算其间存在指代关系的置信度,取置信度最高的候选先行词作为最终的消解结果。下面对图中的每一层进行简要阐述:
嵌入层:对于
Figure SMS_3
通过字、词嵌入,得到单词对应的嵌入表示
Figure SMS_4
其中wi与ci分别表示单词wi的词嵌入向量与字嵌入向量。
上下文表示层:给定
Figure SMS_5
使用双向LSTM作为表示层来获得xi对应的上下文表示/>
Figure SMS_6
短语表示层与修剪层:给定短语
Figure SMS_7
设定该短语的向量表示为:
Figure SMS_8
其中fi表示额外的特征向量(此处编码短语的宽度特征),
Figure SMS_9
通过以下注意力机制计算得出:
Figure SMS_10
Figure SMS_11
Figure SMS_12
得到所有短语的向量表示后,使用前馈神经网络对其进行打分:
scorem(i)=FFNNm(si) (0.17)
然后取得分最高的前k个短语作为待消解项集合A,参与后续的消解操作。
消解层:给定待消解项si与其候选先行词sj,其中si∈A,sj∈{ε}∪{sk|1≤k≤i-1},0≤j<i≤k。当j=0时,sj=ε,表示si不存在任何候选先行词。类似地,使用前馈神经网络来获得si与sj之间的先行词得分:
scorea(i,j)=FFNNa([si,sj,si⊙sj,fi,j]) (0.18)
其中,fi,j编码si与sj之间的讲述者、篇章类型与距离特征。
进一步地,可以得到si与sj之间的指代得分:
Figure SMS_13
最终,取si的候选先行词集合中与si指代得分最高的sj*=argmaxjscore(i,j)作为si的最终消解结果。
传统技术存在以下技术问题:
大量的研究表明结构信息对于指代消解任务来说至关重要。同时语料中存在的大量的表述间嵌套情况也侧面反映了结构信息的普遍性与研究意义。但是基准平台只编码了文本的线性结构,忽略了文本内部潜在的树形结构信息。
参考文献:
[1]Lee K,He L,Lewis M,et al.End-to-end Neural Coreference Resolution[C]//Proceedings of the 2017Conference on Empirical Methods in NaturalLanguage Processing.2017:188-197.
发明内容
本发明要解决的技术问题是提供一种基于结点表示法的指代消解方法,将成分句法树“扁平化”为节点序列,通过结合双向LSTM、特征工程、门控与注意力机制对节点序列进行编码与表示,并最终加入神经指代消解模型中,增强模型中结构信息的表达。为了解决上述技术问题,本发明提供了一种基于结点表示法的指代消解方法,包括:
节点表示法:
给定句法树t,通过后序遍历得到结点序列
Figure SMS_14
其中nt表示t中结点的总数(不包括“单词结点”);
然后利用“字词嵌入替换法”初始化节点序列的表示:
首先使用零向量对其进行初始化,
Figure SMS_15
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:
Figure SMS_16
使用特征集进一步丰富序列中结点的表征:
特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:
Figure SMS_17
使用“结点更新法”进一步增强结构信息的表示:
具体地,对于结点序列中的任意结点
Figure SMS_18
将其孩子结点序列记为/>
Figure SMS_19
并利用以下公式计算孩子结点序列的固定维度的向量表示:
Figure SMS_20
这里,使用注意力机制实现Γ函数,公式如下:
Figure SMS_21
Figure SMS_22
Figure SMS_23
然后结合门控机制,更新结点
Figure SMS_24
的表示:
Figure SMS_25
Figure SMS_26
显然,当
Figure SMS_27
时,
Figure SMS_28
最终再利用新的上下文表示层对h′i (t)进行重新编码,得到新的上下文表示,这里仍将其结果记为
Figure SMS_29
得到新的H(t)
由于后续的操作(即短语的表示)只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点(即单词)序列的上下文表示L(t)
Figure SMS_30
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
Figure SMS_31
其中,
Figure SMS_32
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。
附图说明
图1是背景技术中的基于神经网络的端到端指代消解框架的示意图。
图2是本发明基于结点表示法的指代消解方法中的结点的表示与更新示意图。
图3是本发明基于结点表示法的指代消解方法中的成分句法树示例。
图4是本发明基于结点表示法的指代消解方法中的后序遍历后的成分句法树示例。
图5是本发明基于结点表示法的指代消解方法中的注意力机制示例。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
给定句法树t,通过后序遍历得到结点序列
Figure SMS_33
其中nt表示t中结点的总数(不包括“单词结点”)。
为了得到O(t)的向量表示,首先使用零向量对其进行初始化,
Figure SMS_34
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示(以下简称“字词嵌入替换法”):
Figure SMS_35
使用特征集进一步丰富序列中结点的表征。特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟。由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束。
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构。得到对应O(t)的上下文表示:
Figure SMS_36
然后使用“结点更新法”进一步增强结构信息的表示,如图2所示。
具体地,对于结点序列中的任意结点
Figure SMS_37
将其孩子结点序列记为/>
Figure SMS_38
并利用以下公式计算孩子结点序列的固定维度的向量表示:
Figure SMS_39
这里,使用注意力机制实现Γ函数,公式如下:
Figure SMS_40
Figure SMS_41
Figure SMS_42
然后结合门控机制,更新结点
Figure SMS_43
的表示:
Figure SMS_44
Figure SMS_45
Figure SMS_46
显然,当
Figure SMS_47
时,
Figure SMS_48
最终再利用新的上下文表示层对h′i (t)进行重新编码,得到新的上下文表示,这里仍将其结果记为
Figure SMS_49
得到新的H(t)
由于后续的操作(即短语的表示)只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点(即单词)序列的上下文表示L(t)
Figure SMS_50
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
Figure SMS_51
其中,
Figure SMS_52
另一方面,针对暴力枚举的短语抽取策略所存在的问题,提出一种“结点枚举”策略:将句法树的结点作为短语,取所有结点对应的短语构成候选短语集合。
利用基准框架在CoNLL 2012指代消解评测语料上进行了实验。实验结果如下表1所示。表中的S*分别代表不同的实验配置:
S1:使用后序遍历的结点表示法
S2:使用“左右兄弟数”、“标签”与“路径”构建结点的特征集;
S3:使用注意力机制进行结点的更新,其中自动标注数据使用bilinear注意力,人工标注数据使用tanh注意力;
S4:使用结点枚举的短语抽取策略。
表1各个实验配置在开发集上的结果(CoNLL F1值)
Figure SMS_53
综合上述方法与策略,在CoNLL 2012的中英文测试集上进行了最终的实验,实验结果如表2所示。
表2系统在测试集上的结果(CoNLL F1值)
Figure SMS_54
以句子“NGO/是/一/个/很/好/的/切入点/。”为例对上述过程中的关键步骤进行说明,该句子对应的成分句法树如图3所示。
句法树对应的叶子结点序列为[NN,VC,CD,CLP,AD,VA,DEC,NN,PU],序列长度为9。后序遍历后得到树的结点序列为[NN,NP,VC,CD,M,CLP,QP,AD,ADVP,VA,VP,VP,IP,DEC,CP,CP,NN,NP,NP,VP,PU,IP,TOP],序列长度为23,如图4所示。
按照上文所述,使用字词嵌入替换法得到序列的初始表示
Figure SMS_55
O(t)=[x1,0,x2,x3,x4,0,0,x5,0,x6,0,0,0,x7,0,0,x8,0,0,0,x9,0,0] (0.45)
然后抽取每个结点的特征集,加入O(t)中,以图4中的结点“NP-19”为例,其特征集如表3所示。
表3
Figure SMS_56
初始表示经由上下文表示层编码得到对应的上下文表示
Figure SMS_57
结合注意力机制,得到新的上下文表示。同样以“NP-19”为例,其求孩子结点序列的表示a19如图5所示。
最终,从新的表示H(t)中提取出单词序列的上下文表示:
Figure SMS_58
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (4)

1.一种基于结点表示法的指代消解方法,其特征在于,包括:
节点表示法:
给定句法树t,通过后序遍历得到结点序列
Figure FDA0004199950360000011
其中nt表示t中结点的总数且不包括“单词结点”;
然后利用“字词嵌入替换法”初始化节点序列的表示:
首先使用零向量对其进行初始化,
Figure FDA0004199950360000012
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:
Figure FDA0004199950360000013
使用特征集进一步丰富序列中结点的表征:
特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧或x左侧之前兄弟的数目,x左右或x左右之后兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:
Figure FDA0004199950360000014
使用“结点更新法”进一步增强结构信息的表示:
具体地,对于结点序列中的任意结点
Figure FDA0004199950360000021
将其孩子结点序列记为/>
Figure FDA0004199950360000022
并利用以下公式计算孩子结点序列的固定维度的向量表示:
Figure FDA0004199950360000023
这里,使用注意力机制实现Γ函数,公式如下:
Figure FDA0004199950360000024
Figure FDA0004199950360000025
Figure FDA0004199950360000026
然后结合门控机制,更新结点
Figure FDA0004199950360000027
的表示:
Figure FDA0004199950360000028
Figure FDA0004199950360000029
显然,当
Figure FDA00041999503600000210
时,
Figure FDA00041999503600000211
最终再利用新的上下文表示层对
Figure FDA00041999503600000212
进行重新编码,得到新的上下文表示,这里仍将其结果记为/>
Figure FDA00041999503600000213
得到新的H(t)
由于后续的操作即短语的表示只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点序列即单词序列的上下文表示L(t)
Figure FDA00041999503600000214
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
Figure FDA00041999503600000215
其中,
Figure FDA0004199950360000031
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
4.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
CN201910212569.7A 2019-03-20 2019-03-20 基于结点表示法的指代消解方法 Active CN109885841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212569.7A CN109885841B (zh) 2019-03-20 2019-03-20 基于结点表示法的指代消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212569.7A CN109885841B (zh) 2019-03-20 2019-03-20 基于结点表示法的指代消解方法

Publications (2)

Publication Number Publication Date
CN109885841A CN109885841A (zh) 2019-06-14
CN109885841B true CN109885841B (zh) 2023-07-11

Family

ID=66933192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212569.7A Active CN109885841B (zh) 2019-03-20 2019-03-20 基于结点表示法的指代消解方法

Country Status (1)

Country Link
CN (1) CN109885841B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378486B (zh) * 2019-07-15 2021-12-03 出门问问信息科技有限公司 网络嵌入方法、装置、电子设备和存储介质
CN113297843B (zh) * 2020-02-24 2023-01-13 华为技术有限公司 指代消解的方法、装置及电子设备
CN113392629B (zh) * 2021-06-29 2022-10-28 哈尔滨工业大学 基于预训练模型的人称代词消解方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN106484676A (zh) * 2016-09-30 2017-03-08 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446943A (zh) * 2008-12-10 2009-06-03 苏州大学 一种中文处理中基于语义角色信息的指代消解方法
CN106294322A (zh) * 2016-08-04 2017-01-04 哈尔滨工业大学 一种基于lstm的汉语零指代消解方法
CN106484676A (zh) * 2016-09-30 2017-03-08 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于关系词搭配的汉语复句依存关系的层次体系的自动构建;郑印;《中国优秀硕士学位论文全文数据库》;20170216;全文 *

Also Published As

Publication number Publication date
CN109885841A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109885841B (zh) 基于结点表示法的指代消解方法
CN111680488B (zh) 基于知识图谱多视角信息的跨语言实体对齐方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
WO2016125031A1 (en) Modifying a tokenizer based on pseudo data for natural language processing
Riemenschneider et al. Exploring large language models for classical philology
Zhu et al. Machine Learning‐Based Grammar Error Detection Method in English Composition
CN116186216A (zh) 基于知识增强和双图交互的问题生成方法及系统
Mathur et al. A scaled‐down neural conversational model for chatbots
Kang Spoken language to sign language translation system based on HamNoSys
Alam et al. Roman-urdu-parl: Roman-urdu and urdu parallel corpus for urdu language understanding
CN109960803B (zh) 基于成分句法压缩树的指代消解方法
Tang et al. A cross-attention augmented model for event-triggered context-aware story generation
Čibej et al. Normalisation, tokenisation and sentence segmentation of Slovene tweets
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
CN111274826A (zh) 一种基于语义信息融合的低频词翻译方法
Bonham English to ASL gloss machine translation
Ahkouk et al. Seq2seq Vs sketch filling structure for natural language to Sql translation
CN114169345A (zh) 利用同源词的日中机器翻译方法和系统
Lovenia et al. Automatic question-answer pairs generation from text
Mridha et al. Development of morphological rules for bangla words for universal networking language
Agrawal et al. Experiments on different recurrent neural networks for English-Hindi machine translation
Yan Research on English Chinese Translation System for Tourism Based on Globish
Alqaisi Dependency-based bilingual word embeddings and neural machine translation
Swaminathan Token-level identification of multiword expressions using pre-trained multilingual language models
Ma et al. Tibetan-Chinese cross-lingual word embeddings based on MUSE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant