CN112287699B - 一种基于句法树遍历的信息融合翻译方法 - Google Patents

一种基于句法树遍历的信息融合翻译方法 Download PDF

Info

Publication number
CN112287699B
CN112287699B CN202011593143.XA CN202011593143A CN112287699B CN 112287699 B CN112287699 B CN 112287699B CN 202011593143 A CN202011593143 A CN 202011593143A CN 112287699 B CN112287699 B CN 112287699B
Authority
CN
China
Prior art keywords
word
time
vector
source language
hidden state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011593143.XA
Other languages
English (en)
Other versions
CN112287699A (zh
Inventor
张学强
董晓飞
张丹
曹峰
石霖
孙明俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Original Assignee
Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing New Generation Artificial Intelligence Research Institute Co ltd filed Critical Nanjing New Generation Artificial Intelligence Research Institute Co ltd
Priority to CN202011593143.XA priority Critical patent/CN112287699B/zh
Publication of CN112287699A publication Critical patent/CN112287699A/zh
Application granted granted Critical
Publication of CN112287699B publication Critical patent/CN112287699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于句法树遍历的信息融合翻译方法,涉及自然语言处理中的机器翻译和句法分析领域,在机器翻译编码过程中,利用神经网络对句法树进行遍历的方式,提取句法结构以融合更多有效源语言句子结构信息,从而提升机器翻译的效果;主要包括步骤1:句法分析:利用哈工大语言技术分析平台LTP,对源语言句子进行成分句法分析或依存句法分析,得到句法树;步骤2:编码融合:采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历,得到两个独立的编码向量,然后对编码向量进行拼接;步骤3:译文解码:对上述拼接后的编码向量进行解码。

Description

一种基于句法树遍历的信息融合翻译方法
技术领域
本发明涉及自然语言处理中的机器翻译和句法分析领域,在机器翻译编码过程中,利用神经网络对句法树进行遍历的方式,提取句法结构以融合更多有效源语言句子信息,从而提升机器翻译的效果。
背景技术
随着全球化趋势的进一步发展,机器翻译成为不同语言种族群体相互交流通信面临的一个重要研究课题。句法信息融合的成败,直接影响到机器翻译技术和应用能否顺利走向实用化、产业化。
近年来,端到端神经机器翻译因其简洁的设计理念、新颖的系统架构和良好的翻译性能而备受关注。尽管较之传统方法,端到端神经机器翻译能获得相媲美甚至更高质量的译文,但这种将句子直接简化为时序序列的方式,并不完全符合传统思想对语句构成的主流认知。
在自然语言处理中,句法分析主要存在两种形式:短语结构分析和依存分析。无论哪种分析方法,都将句子视为可递归的树型结构,因此分析结果都会对应生成一棵包含所有句法信息的句法树。因此,为了克服端到端神经机器翻译方法过于简化双语转换过程、缺乏知识支撑的问题,现阶段诸多研究人员致力于向神经网络翻译模型中融入先验知识。
发明内容
本发明为了解决以上问题,提出了一种基于句法树遍历的信息融合翻译方法,在机器翻译编码过程中,利用神经网络对句法树进行遍历的方式,提取句法结构以融合更多有效源语言句子信息,从而提升机器翻译的效果。
为了实现上述目的,本发明所采用的技术方案是:一种基于句法树遍历的信息融合翻译方法,包括以下步骤:
步骤1:句法分析:利用哈工大语言技术分析平台LTP,对源语言句子进行成分句法分析或依存句法分析,得到句法树;
步骤2:编码融合:采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历,分别得到两个独立的特征向量,然后对特征向量进行拼接;
步骤3:译文解码:对上述拼接后的特征向量进行解码。
所述的成分句法分析和依存句法分析只是从两种不同的角度分析句法,因此都能形成句法树;
进一步的,所述步骤2的编码融合具体为:
步骤2.1:采用BiLSTM神经网络从正向和反向同时对源语言句子序列进行编码,保证捕获每个词的上下文语境信息,计算公式如下:
Figure 554952DEST_PATH_IMAGE001
Figure 465709DEST_PATH_IMAGE002
Figure 333171DEST_PATH_IMAGE003
其中,
Figure 120998DEST_PATH_IMAGE004
t时刻下源语言句子文本中词
Figure 367303DEST_PATH_IMAGE005
的词向量,
Figure 661012DEST_PATH_IMAGE006
是正向编码上一时刻的隐状态,
Figure 15770DEST_PATH_IMAGE007
是反向编码下一时刻的隐状态,
Figure 420338DEST_PATH_IMAGE008
表示t时刻正向编码的向量,
Figure 987061DEST_PATH_IMAGE009
表示t时刻反向编码的向量,
Figure 373043DEST_PATH_IMAGE010
表示t时刻正向句子文本的编码向量,
Figure 480676DEST_PATH_IMAGE011
表示t时刻反向句子文本的编码向量,
Figure 485672DEST_PATH_IMAGE011
则是双向编码的t时刻的词向量;
步骤2.2:采用BiLSTM神经网络从正向和反向同时对源语言句子句法分析树进行编码,保证捕获每个词的上下文语境信息,计算公式如下;
Figure 644252DEST_PATH_IMAGE012
Figure 607660DEST_PATH_IMAGE013
Figure 549727DEST_PATH_IMAGE014
其中,
Figure 561677DEST_PATH_IMAGE004
t时刻下源语言句子文本中词
Figure 699397DEST_PATH_IMAGE005
的词向量,
Figure 755077DEST_PATH_IMAGE015
Figure 322456DEST_PATH_IMAGE016
分别表示词
Figure 121785DEST_PATH_IMAGE005
的左孩子节点词向量和右孩子节点词向量,
Figure 254957DEST_PATH_IMAGE017
是正向编码t时刻的隐状态,
Figure 481539DEST_PATH_IMAGE018
是反向编码t时刻的隐状态,
Figure 2126DEST_PATH_IMAGE019
则是双向编码的t时刻的词向量。
步骤2.3:对上述两个编码向量进行拼接:
Figure 136304DEST_PATH_IMAGE020
]
其中,
Figure 327245DEST_PATH_IMAGE021
Figure 193570DEST_PATH_IMAGE019
已在上文描述,
Figure 532278DEST_PATH_IMAGE022
表示t时刻的隐状态,所述隐状态是指编码过程中形成的临时词向量。
进一步的,所述步骤3的解码过程具体如下:
步骤1,依据上一时刻解码器的隐状态
Figure 220880DEST_PATH_IMAGE023
和解码器隐状态
Figure 781174DEST_PATH_IMAGE024
计算出源语言句子中所有词的注意力权重
Figure 21663DEST_PATH_IMAGE025
步骤2,依据注意力权重
Figure 65578DEST_PATH_IMAGE025
和解码器隐状态
Figure 10400DEST_PATH_IMAGE024
计算注意力向量
Figure 910354DEST_PATH_IMAGE026
步骤3,计算解码器当前时刻隐状态
Figure 915219DEST_PATH_IMAGE027
步骤4:计算当前时刻生成目标词表中的每个词的概率P(yi)。
计算公式如下:
Figure 166203DEST_PATH_IMAGE028
Figure 445875DEST_PATH_IMAGE029
Figure 528232DEST_PATH_IMAGE030
Figure 844943DEST_PATH_IMAGE031
其中,
Figure 377031DEST_PATH_IMAGE023
表示第上一时刻解码器的隐状态,
Figure 398077DEST_PATH_IMAGE032
是上一时刻解码得到的词,
Figure 459574DEST_PATH_IMAGE026
是注意力向量,
Figure 556974DEST_PATH_IMAGE025
是注意力权重,
Figure 766239DEST_PATH_IMAGE033
是源语言句子中第j个词,
Figure 404024DEST_PATH_IMAGE034
是源语言句子中第k个词,
Figure 398656DEST_PATH_IMAGE027
表示第i时刻解码器的隐状态,
Figure 712963DEST_PATH_IMAGE035
是i时刻解码得到的词。si表示第i时刻解码器的隐状态,yi是i时刻解码得到的词,Vk表示词表V中的第k个词,bk表示隐状态si的置信度。exp是以自然常数e为底的指数函数,P(yi)表示当前生成目标词yi的概率。
与现有技术相比,本发明具有以下优点:
(1)本发明通过遍历句法树的形式将句法信息和句法结构同时编码到特征向量中,保证句法信息的提取;
(2)本发明句法特征向量与文本特征向量进行融合,以保证对源语言句子的多种语义和结构信息进行充分利用;
(3)本发明将句法分析置于前位,及句法分析模型和算法完全独立于本发明,因此具备更好的灵活性和迁移性;
(4)本发明是基于当前流行的Encoder-Decoder神经机器翻译框架,除此之外,本发明的方法亦可迁移到其他主流机器方法框架中。
附图说明
图1是本实施例中从成分句法角度对源语言句子进行分析后形成的句法树。
图2是本实施例中从依存句法角度对源语言句子进行分析后形成的句法树。
图3是本实施例中实现对源语言句子序列和句法树向量进行融合的神经网络。
图4是本实施例中句法树的由下而上的编码方法。
图5是本实施例中机器翻译“编码器-注意力-解码器”结构的神经网络框架。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步解释说明。
本发明提出了一种基于句法树遍历的信息融合翻译方法,在机器翻译编码过程中,利用神经网络对句法树进行遍历的方式,提取句法结构以融合更多有效源语言句子信息,从而提升机器翻译的效果。本发明处理过程主要分为句法分析、编码融合、译文解码三个部分,其中本发明优势在于,句法分析过程与翻译过程相互独立,可事先选择效果较好的句法分析算法对输入文本进行处理,避免拖慢机器翻译的效率,并保证向机器翻译中引入准确率较高的句法信息。
步骤1:句法分析:
(1)利用哈工大语言技术分析平台LTP,对源语言句子进行成分句法分析或依存句法分析,得到句法树;
(2)成分句法分析和依存句法分析只是从两种不同的角度分析句法,因此都能形成句法树:
(3)如图1和图2所示,对于“我们即将以昂扬的斗志迎来新的一年。”和“学习计算机编程是一个很有意义的事情。”都可以形成句法树。
步骤2:编码融合:
(1)该步骤是本发明的优化策略,如图3所示,采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历,以得到特征向量;
(2)采用BiLSTM对源语言句子序列进行编码,采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子进行编码,保证捕获每个词的上下文语境信息,计算形式如下:
Figure 428765DEST_PATH_IMAGE001
Figure 791613DEST_PATH_IMAGE002
Figure 906331DEST_PATH_IMAGE003
其中,
Figure 329222DEST_PATH_IMAGE004
t时刻下源语言句子文本中词
Figure 794969DEST_PATH_IMAGE005
的词向量,
Figure 508979DEST_PATH_IMAGE006
是正向编码上一时刻的隐状态,
Figure 727470DEST_PATH_IMAGE007
是反向编码下一时刻的隐状态,
Figure 993367DEST_PATH_IMAGE008
表示t时刻正向编码的向量,
Figure 209060DEST_PATH_IMAGE009
表示t时刻反向编码的向量,
Figure 360381DEST_PATH_IMAGE010
表示t时刻正向句子文本的编码向量
Figure 698959DEST_PATH_IMAGE011
表示t时刻反向句子文本的编码向量,
Figure 479964DEST_PATH_IMAGE011
则是双向编码的t时刻的词向量。
(3)如图4所示,采用BiLSTM对源语言句子句法分析树进行编码,采用BiLSTM神经网络的优势是能够从正向、反向同时对源语言句子的句法树进行编码,保证捕获每个词的上下文语境信息;
Figure 107254DEST_PATH_IMAGE012
Figure 363399DEST_PATH_IMAGE013
Figure 290904DEST_PATH_IMAGE014
其中,
Figure 101865DEST_PATH_IMAGE004
t时刻下源语言句子文本中词
Figure 498342DEST_PATH_IMAGE005
的词向量,
Figure 810375DEST_PATH_IMAGE015
Figure 343118DEST_PATH_IMAGE016
分别表示词
Figure 715194DEST_PATH_IMAGE005
的左孩子节点词向量和右孩子节点词向量,
Figure 601897DEST_PATH_IMAGE017
是正向编码t时刻的隐状态,
Figure 717621DEST_PATH_IMAGE018
是反向编码t时刻的隐状态,
Figure 291821DEST_PATH_IMAGE036
则是双向编码的t时刻的词向量。
(4)对两个编码向量进行频接,以达到特征融合的目的:
Figure 585531DEST_PATH_IMAGE037
]
其中,
Figure 471447DEST_PATH_IMAGE038
Figure 876015DEST_PATH_IMAGE039
已在上文描述,表示t时刻的隐状态。隐状态是指编码过程中形成的临时词向量。
步骤3:译文解码:
(1)如图5所示,利用步骤2得到的特征向量,进行解码:
Figure 632618DEST_PATH_IMAGE040
Figure 97229DEST_PATH_IMAGE029
Figure 470441DEST_PATH_IMAGE030
Figure 675770DEST_PATH_IMAGE031
其中,
Figure 286880DEST_PATH_IMAGE023
表示第上一时刻解码器的隐状态,
Figure 922392DEST_PATH_IMAGE032
是上一时刻解码得到的词,
Figure 251742DEST_PATH_IMAGE026
是注意力向量,
Figure 919484DEST_PATH_IMAGE025
是注意力权重,
Figure 401412DEST_PATH_IMAGE041
是源语言句子中第j个词,
Figure 457092DEST_PATH_IMAGE034
是源语言句子中第k个词,
Figure 758892DEST_PATH_IMAGE027
表示第i时刻解码器的隐状态,
Figure 354958DEST_PATH_IMAGE035
是i时刻解码得到的词。si表示第i时刻解码器的隐状态,yi是i时刻解码得到的词,Vk表示词表V中的第k个词,bk表示隐状态si的置信度。exp是以自然常数e为底的指数函数,P(yi)表示当前生成目标词yi的概率。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (2)

1.一种基于句法树遍历的信息融合翻译方法,其特征在于:包括以下步骤:
步骤1:句法分析:利用哈工大语言技术分析平台LTP,对源语言句子进行成分句法分析或依存句法分析,得到句法树;
步骤2:编码融合:采用深度神经网络分别对源语言句子文本、源语言句子句法树进行遍历,分别得到两个独立的特征向量,然后对特征向量进行拼接;
步骤3:译文解码:对上述拼接后的特征向量进行解码;
所述步骤2的编码融合具体为:
步骤2.1:采用BiLSTM神经网络从正向和反向同时对源语言句子序列进行编码,保证捕获每个词的上下文语境信息,计算公式如下:
Figure FDA0002935810970000011
Figure FDA0002935810970000012
Figure FDA0002935810970000013
其中,vt表示t时刻下源语言句子文本中词xt的词向量,
Figure FDA0002935810970000014
是正向编码上一时刻的隐状态,
Figure FDA0002935810970000015
是反向编码下一时刻的隐状态,
Figure FDA0002935810970000016
表示t时刻正向编码的向量,
Figure FDA0002935810970000017
表示t时刻反向编码的向量,
Figure FDA0002935810970000018
表示t时刻正向句子文本的编码向量,
Figure FDA0002935810970000019
表示t时刻反向句子文本的编码向量,htsentence是双向编码的t时刻的编码向量;
步骤2.2:采用BiLSTM神经网络从正向和反向同时对源语言句子句法分析树进行编码,保证捕获每个词的上下文语境信息,计算公式如下:
Figure FDA00029358109700000110
Figure FDA00029358109700000111
Figure FDA00029358109700000112
其中,vt表示t时刻下源语言句子文本中词xt的词向量,
Figure FDA00029358109700000113
Figure FDA00029358109700000114
分别表示词xt的左孩子节点词向量和右孩子节点词向量,
Figure FDA00029358109700000115
是正向编码t时刻的隐状态,
Figure FDA00029358109700000116
是反向编码t时刻的隐状态,httree则是双向编码的t时刻的词向量;
步骤2.3:对上述两个编码向量进行拼接:
ht=[htsentence:httree]
其中,htsentence和httree已在上文描述,ht表示t时刻的隐状态,所述隐状态是指编码过程中形成的临时词向量。
2.根据权利要求1所述的基于句法树遍历的信息融合翻译方法,其特征在于:所述步骤3解码过程具体如下:
步骤3.1,依据上一时刻解码器的隐状态Si-1和解码器隐状态hj计算出源语言句子中所有词的注意力权重aij
步骤3.2,依据注意力权重aij和解码器隐状态hj计算注意力向量ci
步骤3.3,计算解码器第i时刻隐状态si
步骤3.4:计算当前时刻生成目标词表中的每个词的概率P(yi);
计算公式如下:
si=f(si-1,yi-1,ci)
Figure FDA0002935810970000021
Figure FDA0002935810970000022
Figure FDA0002935810970000023
其中,si-1表示第上一时刻解码器的隐状态,yi-1是上一时刻解码得到的词,ci是注意力向量,aij是注意力权重,hk是源语言句子中第k个词,si表示第i时刻解码器的隐状态,yi是i时刻解码得到的词,yi是i时刻解码得到的词,Vk表示词表V中的第k个词,bk表示隐状态si的置信度,exp是以自然常数e为底的指数函数,P(yi)表示当前生成目标词yi的概率。
CN202011593143.XA 2020-12-29 2020-12-29 一种基于句法树遍历的信息融合翻译方法 Active CN112287699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011593143.XA CN112287699B (zh) 2020-12-29 2020-12-29 一种基于句法树遍历的信息融合翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011593143.XA CN112287699B (zh) 2020-12-29 2020-12-29 一种基于句法树遍历的信息融合翻译方法

Publications (2)

Publication Number Publication Date
CN112287699A CN112287699A (zh) 2021-01-29
CN112287699B true CN112287699B (zh) 2021-03-26

Family

ID=74426644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011593143.XA Active CN112287699B (zh) 2020-12-29 2020-12-29 一种基于句法树遍历的信息融合翻译方法

Country Status (1)

Country Link
CN (1) CN112287699B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287820B (zh) * 2018-01-12 2021-06-11 鼎富智能科技有限公司 一种文本表示的生成方法及装置
CN110377918B (zh) * 2019-07-15 2020-08-28 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN111783461A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于句法依存关系的命名实体识别方法
CN112035661A (zh) * 2020-08-24 2020-12-04 北京大学深圳研究生院 基于图卷积网络的文本情感分析方法、系统和电子装置

Also Published As

Publication number Publication date
CN112287699A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
US11194972B1 (en) Semantic sentiment analysis method fusing in-depth features and time sequence models
CN107729326B (zh) 基于Multi-BiRNN编码的神经机器翻译方法
Gao et al. RNN-transducer based Chinese sign language recognition
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN113516968B (zh) 一种端到端长时语音识别方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
Ma et al. Forest-based neural machine translation
Li et al. Text compression-aided transformer encoding
CN113901847A (zh) 基于源语言句法增强解码的神经机器翻译方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN105573994B (zh) 基于句法骨架的统计机器翻译系统
CN109741751A (zh) 面向智能语音控制的意图识别方法及装置
CN112507733A (zh) 基于依存图网络的汉越神经机器翻译方法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
Jin et al. Hierarchical context tagging for utterance rewriting
CN109933773A (zh) 一种多重语义语句解析系统及方法
CN113535896B (zh) 搜索方法、装置、电子设备及存储介质
CN112287699B (zh) 一种基于句法树遍历的信息融合翻译方法
Schwartz et al. Hidden understanding models for statistical sentence understanding
CN108984538B (zh) 基于语法规约指导的神经机器翻译方法
WO2023115770A1 (zh) 一种翻译方法及其相关设备
CN115826988A (zh) 一种基于数据流分析和注意力机制的Java方法注释即时自动更新方法
Tiedemann et al. A discriminative approach to tree alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant