CN109885841B - 基于结点表示法的指代消解方法 - Google Patents
基于结点表示法的指代消解方法 Download PDFInfo
- Publication number
- CN109885841B CN109885841B CN201910212569.7A CN201910212569A CN109885841B CN 109885841 B CN109885841 B CN 109885841B CN 201910212569 A CN201910212569 A CN 201910212569A CN 109885841 B CN109885841 B CN 109885841B
- Authority
- CN
- China
- Prior art keywords
- node
- representation
- sequence
- nodes
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000029087 digestion Effects 0.000 title claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000006467 substitution reaction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 239000013256 coordination polymer Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于结点表示法的指代消解方法,包括:结点表示法:给定成分句法树,通过后序遍历得到其对应的结点序列,然后通过“字词嵌入替换法”获得其初始表示,通过双向长短时记忆网络获得其上下文表示;特征补充法:从成分句法树上提出每个结点的特征集加入初始表示中,丰富节点的表示;结点更新法:结合注意力机制与门控机制,利用孩子节点序列更新双亲结点的表示;结点枚举策略。本发明的有益效果:通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。
Description
技术领域
本发明涉及机器语言处理领域,具体涉及一种基于结点表示法的指代消解方法。
背景技术
指代是一种常见的语言现象,大量出现在篇章或者对话中。它保持了语言的简练,减少了冗余。比如句子“玛丽居里开创了放射性理论,发明了放射性同位素的技术。在她的指导下,人们第一次将放射性同位素用于治疗肿瘤”中,“她”指代“玛丽居里”。在语言学中,用于指向的语言单位成为照应语,如例中的“她”;所指向的对象或者内容成为先行词,如例中的“玛丽居里”。
一般情况下,指代分为两种:回指和共指。回指是指当前的照应语与上文出现的词、短语或句子存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体,具有非对称性与非传递性;共指是指两个名词或者名词短语指向真实世界中的同一参照体,这种指代脱离上下文依然存在。目前的指代消解研究偏重于共指消解,本文亦然。
指代消解的研究历史悠久。早期的研究主要通过专家构建领域知识,形成消解规则进行指代消解。近年来,得益于自然语言处理会议的召开和其公布的标注良好的指代消解语料,指代消解的研究转向了数据驱动的方法。特别是随着深度学习技术的兴起和发展,越来越多的学者开始应用深度学习方法于指代消解研究。
目前深度学习技术在指代消解任务上应用最为广泛。其中典型的工作是Lee等人[1]于2017年提出的基于神经网络的端到端指代消解框架,该框架构成如图1所示。
对于输入文本ND为文本D所包含的单词数,从中抽取出短语集合S={s1,s2,...,sn},其中/>bi与ei分别表示短语si的开始位置与结束位置的单词的下标,故1≤bi≤ei≤ND,si的宽度为ei-bi+1。
该模型的主要思想是利用嵌入层、上下文表示层与注意力机制对短语进行表示,然后通过前馈神经网络对短语进行打分,并根据得分进行修剪,保留置信度较高的短语成为待消解项;对于每一个待消解项,与之前的所有候选先行词分别配对,并使用前馈神经网络计算其间存在指代关系的置信度,取置信度最高的候选先行词作为最终的消解结果。下面对图中的每一层进行简要阐述:
得到所有短语的向量表示后,使用前馈神经网络对其进行打分:
scorem(i)=FFNNm(si) (0.17)
然后取得分最高的前k个短语作为待消解项集合A,参与后续的消解操作。
消解层:给定待消解项si与其候选先行词sj,其中si∈A,sj∈{ε}∪{sk|1≤k≤i-1},0≤j<i≤k。当j=0时,sj=ε,表示si不存在任何候选先行词。类似地,使用前馈神经网络来获得si与sj之间的先行词得分:
scorea(i,j)=FFNNa([si,sj,si⊙sj,fi,j]) (0.18)
其中,fi,j编码si与sj之间的讲述者、篇章类型与距离特征。
进一步地,可以得到si与sj之间的指代得分:
最终,取si的候选先行词集合中与si指代得分最高的sj*=argmaxjscore(i,j)作为si的最终消解结果。
传统技术存在以下技术问题:
大量的研究表明结构信息对于指代消解任务来说至关重要。同时语料中存在的大量的表述间嵌套情况也侧面反映了结构信息的普遍性与研究意义。但是基准平台只编码了文本的线性结构,忽略了文本内部潜在的树形结构信息。
参考文献:
[1]Lee K,He L,Lewis M,et al.End-to-end Neural Coreference Resolution[C]//Proceedings of the 2017Conference on Empirical Methods in NaturalLanguage Processing.2017:188-197.
发明内容
本发明要解决的技术问题是提供一种基于结点表示法的指代消解方法,将成分句法树“扁平化”为节点序列,通过结合双向LSTM、特征工程、门控与注意力机制对节点序列进行编码与表示,并最终加入神经指代消解模型中,增强模型中结构信息的表达。为了解决上述技术问题,本发明提供了一种基于结点表示法的指代消解方法,包括:
节点表示法:
然后利用“字词嵌入替换法”初始化节点序列的表示:
首先使用零向量对其进行初始化,
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:
使用特征集进一步丰富序列中结点的表征:
特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:
使用“结点更新法”进一步增强结构信息的表示:
这里,使用注意力机制实现Γ函数,公式如下:
由于后续的操作(即短语的表示)只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点(即单词)序列的上下文表示L(t):
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略,将整棵成分句法树的信息编码加入模型中,弥补了传统模型忽略结构信息与句法信息的不足,增强了句法结构信息在指代消解系统中的表达。
附图说明
图1是背景技术中的基于神经网络的端到端指代消解框架的示意图。
图2是本发明基于结点表示法的指代消解方法中的结点的表示与更新示意图。
图3是本发明基于结点表示法的指代消解方法中的成分句法树示例。
图4是本发明基于结点表示法的指代消解方法中的后序遍历后的成分句法树示例。
图5是本发明基于结点表示法的指代消解方法中的注意力机制示例。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
为了得到O(t)的向量表示,首先使用零向量对其进行初始化,
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示(以下简称“字词嵌入替换法”):
使用特征集进一步丰富序列中结点的表征。特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟。由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧(或之前)兄弟的数目,x左右(或之后)兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束。
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构。得到对应O(t)的上下文表示:
然后使用“结点更新法”进一步增强结构信息的表示,如图2所示。
这里,使用注意力机制实现Γ函数,公式如下:
由于后续的操作(即短语的表示)只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点(即单词)序列的上下文表示L(t):
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
另一方面,针对暴力枚举的短语抽取策略所存在的问题,提出一种“结点枚举”策略:将句法树的结点作为短语,取所有结点对应的短语构成候选短语集合。
利用基准框架在CoNLL 2012指代消解评测语料上进行了实验。实验结果如下表1所示。表中的S*分别代表不同的实验配置:
S1:使用后序遍历的结点表示法
S2:使用“左右兄弟数”、“标签”与“路径”构建结点的特征集;
S3:使用注意力机制进行结点的更新,其中自动标注数据使用bilinear注意力,人工标注数据使用tanh注意力;
S4:使用结点枚举的短语抽取策略。
表1各个实验配置在开发集上的结果(CoNLL F1值)
综合上述方法与策略,在CoNLL 2012的中英文测试集上进行了最终的实验,实验结果如表2所示。
表2系统在测试集上的结果(CoNLL F1值)
以句子“NGO/是/一/个/很/好/的/切入点/。”为例对上述过程中的关键步骤进行说明,该句子对应的成分句法树如图3所示。
句法树对应的叶子结点序列为[NN,VC,CD,CLP,AD,VA,DEC,NN,PU],序列长度为9。后序遍历后得到树的结点序列为[NN,NP,VC,CD,M,CLP,QP,AD,ADVP,VA,VP,VP,IP,DEC,CP,CP,NN,NP,NP,VP,PU,IP,TOP],序列长度为23,如图4所示。
O(t)=[x1,0,x2,x3,x4,0,0,x5,0,x6,0,0,0,x7,0,0,x8,0,0,0,x9,0,0] (0.45)
然后抽取每个结点的特征集,加入O(t)中,以图4中的结点“NP-19”为例,其特征集如表3所示。
表3
最终,从新的表示H(t)中提取出单词序列的上下文表示:
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (4)
1.一种基于结点表示法的指代消解方法,其特征在于,包括:
节点表示法:
然后利用“字词嵌入替换法”初始化节点序列的表示:
首先使用零向量对其进行初始化,
然后,对序列中与“单词结点”连接结点对应位置的向量表示,替换为对应单词的字词嵌入表示:
使用特征集进一步丰富序列中结点的表征:
特征集包括左右兄弟数、标签与路径特征,其定义如下:
结点x的左右兄弟数:如果两个结点拥有相同的双亲,则称它们为兄弟;由于成分句法树是有序数,定义结点x的左右兄弟数为:[x左侧或x左侧之前兄弟的数目,x左右或x左右之后兄弟的数目];
结点x的标签:即结点x在成分句法树中的标签;
结点x的路径:从结点x到根结点的简单路径所经过结点的标签序列,标签序列以x的标签开始,以根结点的标签结束;
将加入特征集的O(t)作为上下文表示层的输入,使得上下文表示层能够学习到序列潜在的层次结构表示,而不仅仅是简单的线性结构;得到对应O(t)的上下文表示:
使用“结点更新法”进一步增强结构信息的表示:
这里,使用注意力机制实现Γ函数,公式如下:
由于后续的操作即短语的表示只需要单词序列的上下文表示,因此需要再从H(t)中提取出叶子结点序列即单词序列的上下文表示L(t):
对文档D中的每一个成分句法树应用相同的操作,然后按照句子的顺序将其拼接起来,得到文档D的新的上下文表示:
2.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
3.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
4.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910212569.7A CN109885841B (zh) | 2019-03-20 | 2019-03-20 | 基于结点表示法的指代消解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910212569.7A CN109885841B (zh) | 2019-03-20 | 2019-03-20 | 基于结点表示法的指代消解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885841A CN109885841A (zh) | 2019-06-14 |
CN109885841B true CN109885841B (zh) | 2023-07-11 |
Family
ID=66933192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910212569.7A Active CN109885841B (zh) | 2019-03-20 | 2019-03-20 | 基于结点表示法的指代消解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885841B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378486B (zh) * | 2019-07-15 | 2021-12-03 | 出门问问信息科技有限公司 | 网络嵌入方法、装置、电子设备和存储介质 |
CN113297843B (zh) * | 2020-02-24 | 2023-01-13 | 华为技术有限公司 | 指代消解的方法、装置及电子设备 |
CN113392629B (zh) * | 2021-06-29 | 2022-10-28 | 哈尔滨工业大学 | 基于预训练模型的人称代词消解方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
-
2019
- 2019-03-20 CN CN201910212569.7A patent/CN109885841B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446943A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种中文处理中基于语义角色信息的指代消解方法 |
CN106294322A (zh) * | 2016-08-04 | 2017-01-04 | 哈尔滨工业大学 | 一种基于lstm的汉语零指代消解方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
Non-Patent Citations (1)
Title |
---|
基于关系词搭配的汉语复句依存关系的层次体系的自动构建;郑印;《中国优秀硕士学位论文全文数据库》;20170216;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109885841A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885841B (zh) | 基于结点表示法的指代消解方法 | |
CN111680488B (zh) | 基于知识图谱多视角信息的跨语言实体对齐方法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
WO2016125031A1 (en) | Modifying a tokenizer based on pseudo data for natural language processing | |
Riemenschneider et al. | Exploring large language models for classical philology | |
Zhu et al. | Machine Learning‐Based Grammar Error Detection Method in English Composition | |
CN116186216A (zh) | 基于知识增强和双图交互的问题生成方法及系统 | |
Mathur et al. | A scaled‐down neural conversational model for chatbots | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Alam et al. | Roman-urdu-parl: Roman-urdu and urdu parallel corpus for urdu language understanding | |
CN109960803B (zh) | 基于成分句法压缩树的指代消解方法 | |
Tang et al. | A cross-attention augmented model for event-triggered context-aware story generation | |
Čibej et al. | Normalisation, tokenisation and sentence segmentation of Slovene tweets | |
Seifossadat et al. | Stochastic Data-to-Text Generation Using Syntactic Dependency Information | |
CN111274826A (zh) | 一种基于语义信息融合的低频词翻译方法 | |
Bonham | English to ASL gloss machine translation | |
Ahkouk et al. | Seq2seq Vs sketch filling structure for natural language to Sql translation | |
CN114169345A (zh) | 利用同源词的日中机器翻译方法和系统 | |
Lovenia et al. | Automatic question-answer pairs generation from text | |
Mridha et al. | Development of morphological rules for bangla words for universal networking language | |
Agrawal et al. | Experiments on different recurrent neural networks for English-Hindi machine translation | |
Yan | Research on English Chinese Translation System for Tourism Based on Globish | |
Alqaisi | Dependency-based bilingual word embeddings and neural machine translation | |
Swaminathan | Token-level identification of multiword expressions using pre-trained multilingual language models | |
Ma et al. | Tibetan-Chinese cross-lingual word embeddings based on MUSE |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |