CN112613326B - 一种融合句法结构的藏汉语言神经机器翻译方法 - Google Patents
一种融合句法结构的藏汉语言神经机器翻译方法 Download PDFInfo
- Publication number
- CN112613326B CN112613326B CN202011500300.8A CN202011500300A CN112613326B CN 112613326 B CN112613326 B CN 112613326B CN 202011500300 A CN202011500300 A CN 202011500300A CN 112613326 B CN112613326 B CN 112613326B
- Authority
- CN
- China
- Prior art keywords
- word
- tibetan
- dependency
- relationship
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语‑汉语神经机器翻译质量的目的。本方法能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,减少了低资源神经机器翻译的误翻译、漏翻译的发生。
Description
技术领域
本发明涉及一种融合句法结构的藏汉语言神经机器翻译方法,尤其涉及一种基于依存句法结构的相对位置编码的自注意力藏汉语言神经机器翻译方法,属于机器翻译及特征融合应用技术领域。
背景技术
近年来,神经机器翻译在多个翻译任务上均取得最佳表现,在大规模语料上训练获得的翻译模型,可以与人工翻译相媲美。神经机器翻译与传统的统计机器翻译不同,它不再使用基于规则的方法,而是采用深度学习的方法。具体而言,在基于端到端的“编码器-解码器”框架计算双语语料中,分词后每个组块间的对应关系。这种学习方式依赖于海量可用的双语平行语料。换言之,神经机器翻译依赖于丰富的语言资源,从而得到最优的翻译模型。
句法知识对语言处理领域的各个研究方向均有很大意义。例如,分词、文本的情感分析等。为了提高自然语言信息处理任务结果的准确性,适应现代网络的发展,对句法知识的研究与分析刻不容缓。并且,句法知识对提升神经机器翻译,尤其是低资源神经机器翻译的翻译质量有重大意义。低资源机器翻译由于可用的语料规模小,且整理语料困难,耗费大量人力标注,其翻译表现往往不佳。句法知识的引入可以丰富语义知识,帮助神经网络更好的学习两种语言间的联系,从在句法知识的层面对神经机器翻译进行优化。
现有的神经机器翻译方法面临很多问题和挑战。例如,目前最热门的神经机器翻译模型transformer,不再使用神经网络作为编码器-解码器,而是采用多头自注意力机制,其在多个翻译任务上均取得了最优的表现。该模型基于多头自注意力机制,在获取输入序列的词嵌入时,采用绝对位置编码。但是,该方法在计算注意力权重时,仅关注每个token在当前组的绝对位置信息,不同的词可能有相同的位置编码,这一情况可能会造成上下文信息的丢失。其次,训练一个翻译模型用到的两种语言对间存在语法差异。例如汉语-日语语言对,汉语是主谓宾结构,而日语是主宾谓的结构,在训练过程中,会增加模型的训练时间,延长模型收敛的时间。传统的循环神经网络模型在预测下一时间步的目标词语时,不能利用语言本身的词性和句法信息。
上述已有的基于注意力的神经机器翻译方法,虽然在大多数翻译任务中取得了最佳表现,但在针对藏语-汉语等低资源任务上取得的效果不佳。
发明内容
本发明的目的是针对现有技术存在的问题和不足,在面对藏语-汉语神经机器翻译时,由于语言本身句法结构差异导致训练困难等问题,提出一种新的融合句法结构的藏汉语言神经机器翻译方法。
本方法旨在在神经机器翻译的框架中,引入更多语言本身的句法结构,从而帮助提升机器翻译质量,通过优化transformer的位置编码技术问题,提出相对位置编码的方法,进行句法结构信息的融入。本方法通过提取基于依存关系的结构位置编码方法优化transformer,最终达到提升藏语-汉语神经机器翻译质量的目的。
本发明的创新点在于:利用相对位置编码优化基于自注意力机制的低资源藏汉神经机器翻译性能。根据藏语汉语的句法结构特点,以及tranformer的绝对位置编码的不足,首先,在原始词嵌入中加入依存树的位置信息,并设计一个结构编码方法融入到自注意力机制中。然后,使用优化过的注意力机制学习融入相对句法结构的词向量,对包含语义结构的输入进行建模,通过参数训练,获得最终翻译模型。
由于transformer采用绝对位置信息,会造成的上下文信息丢失。因此,本发明获取双语语料依存句法树的知识,计算藏语token的相对位置编码,将词嵌入与相对位置编码进行拼接,作为编码器的输入,在计算注意力权重的时候,每个组块增加一个记忆单元,用于缓存前n个组块的状态,在每一层网络中,在计算注意力权重的时候都运用句法知识的位置编码信息,使得解码器在推断过程中最大程度利用上下文信息。
为实现上述目的,本发明采用以下技术方案:
一种融合句法结构的藏汉语言神经机器翻译方法,包括以下步骤:
首先,定义相关概念。
定义1:编码器。在神经机器翻译的编码器-解码器架构中,编码器将源语言句子转换成向量。通常是一个神经网络,如:RNN(循环神经网络)、LSTM(长短期记忆网络)或者GRU(门控循环单元)。
定义2:解码器。在神经机器翻译的编码器-解码器架构中,将编码器的向量输出作为输入,并转换成对应文本。通常是一个神经网络,与定义1中的解码器使用的神经网络类型相同。
定义3:位置编码。Transformer模型在处理句子时,将所有单词并行处理,位置编码为模型提供每个词的位置信息。位置编码方式包括两种,一种是定义嵌入子层,让整个网络学习到序列的位置编码信息,另一种是对每一个位置的单词,通过固定的函数得到单词的位置编码信息。在transformer中,采用绝对位置编码,具体过程如下:
式中,2i、2i+1代表维度,pos代表位置,dmodel代表词向量维度。如上式所示,分词后的平行语料,每一个词或者短语称为一个token;绝对位置编码就是给每个token添加一个索引;绝对位置编码对每个token的位置索引pos进行一个sin/cos函数变换,为其制定一个唯一位置编码,该位置编码与每个token的词嵌入求和之后作为transformer的输入,使得模型更容易的捕获相对位置。对于相对位置k,PEpos+k为PEpos的线性变换。
定义4:bleu值。作为机器翻译领域通用的翻译质量评价指标,bleu值越大代表翻译效果越好,bleu值基于n-gram匹配机制进行计算。
定义5:藏语依存树。包含藏语不同词或短语之间的依存关系的树结构的语料,包括词、词性、依存弧和对于依存关系类型。
定义6:藏语短语树。包含每个短语的类型、词性和在句中的成分类型。
定义7:藏汉平行语料。指藏语-汉语对照的双语文档。对于汉语语料中的每一个汉语语句,在藏语语料中都有语义相同的一个语句与之对应。本发明使用平行语料来源于ccmt翻译评测比赛提供的数据。
定义8:注意力机制。注意力是编码器和解码器之间的接口,通过注意力机制,模型能够有选择地侧重输入序列的有用部分,学习之间的对齐信息,有助于模型处理长句。在transformer中,采用多头自注意力机制,公式如下:
式中,h表示将参数W分成的并行网络个数,多头自注意力机制通过h个不同的线性变换对Q、K、V向量进行投影,然后将不同的attention结果拼接起来;WQ,WK,WV分别是一个学习出来的权重矩阵,是注意力网络的输入映射,Wo是输出的线性映射参数。
定义9:PPL。模型困惑度,是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。其根据每个词来估计一句话出现的概率,并用句子长度作标准。一个词语序列的困惑度公式如下:
其中,k表示句子长度,P(Wi)表示第i个词的概率,P(Wi|W1...i-1)表示基于前i-1个词得出第i个词的概率。拥有最低困惑度的模型接近于产生数据的真实模型。
定义10:词嵌入。表示用于编码器的词输入。作为一种分布式的表征,其中每个词都被映射成一个连续值构成的固定大小的向量。其优势在于,具有相似含义的不同词将会具有相似的表征。
定义11:分词。分词是自然语言处理任务的一项十分重要的预处理过程,英文使用tokenize工具,中文有相关的分词工具有jieba、stanfordnlp等。
定义12:前馈神经网络。transformer的数据经过一个前馈神经网络,该前馈神经网络采用了两个线性变换,激活函数为Relu。
定义13:残差连接和层正则化。transformer在训练过程中,使用参数正则化手段,公式如下:
Z=LayerNorm(X+Z) (6)
其中,X表示输入到编码器的词向量,Z表示自注意力的输出向量。
步骤1:利用藏语依存树语料,训练依存分析模型。
其中,使用的依存分析模型可以是MSTParse。
具体地:
步骤1.1:使用藏语短语树作为原始语料,该语料来源于人工标注。设计基于规则的方法,进行短语树到依存树的转换。
其中,具体转换方法为:分析藏语短语树的短语成分,以及不同短语成分间对应的依存关系,并制定相应的短语表PhraseTable以及依存表dependencyTable。然后,根据不同短语成分间依存关系的优先级,制定优先级表prioritytable。基于上述规则,进行两种树结构的自动转换。
所述短语表PhraseTable包括:
标签名:NP,含义:Noun phrase
标签名:VP,含义:Verb
标签名:ADJP,含义:Adjective
标签名:QP,含义:Quantifier
标签名:SBJ,含义:Subject
标签名:ROOT,含义:Head
标签名:I,含义:Tense
标签名:PL,含义:Plural
标签名:NEG,含义:Negative
标签名:KP,含义:Grid mark
标签名:ADVP,含义:Adverb
标签名:MP,含义:Numeral
标签名:OBJ,含义:object
标签名:ADV,含义:Adverbial
标签名:G,含义:Genitive
标签名:H,含义:Nominalization
标签名:AUX,含义:Auxiliary verb
依存表dependencyTable包括:
·主谓关系,subject-verb,标记为SBV,指主语(名词)和谓语(动作)之间的关系。
·宾谓关系。包括直宾关系,direct-object,标记为DOB,指直接宾语(名词)与谓语(动作)之间的关系;间宾关系,indirect-object,标记为IOB,指间接宾语(名词)与谓语(动作)之间的关系。
·动宾关系,verb-object,标记为VOB,“动”指非谓语动词,动宾关系指非谓语动词(动作)和宾语之间的关系。
·定中关系,attribute,标记为ATT,即定语和中心词之间的关系。定中关系的修饰语是定语。
定语从领属、范围、质料、形式、性质、数量、用途、时间、处所等方面描写或限制中心语。
·状中关系,adverbial,ADV,状语和中心词之间的关系。
从情况、时间、处所、方式、条件、对象、肯定、否定、范围和程度等方面对谓语中心词进行修饰、限制,这里的中心词一般是动词或者形容词。
·同位关系,appositive,APP,指相同、句法功能也相同的两个并列的词或词组。
·数量关系,quantity,QUN,指量词或名词同前面的数词之间的关系。该关系中,数词作修饰成分,依存于量词或名词。
·并列关系,coordinate,COO,指两个相同类型的词并列在一起,如:名-名,动-动。
·处所关系,locative,LOC。地点(处所)状语与其修饰的中心动词之间的关系。
·时间关系,temporal,TMP。时间状语与其修饰的中心动词之间的关系。
·表述关系,expression,EXP。语气助词“·”接在句子开头的名词、代词、名词性短语后面起提示说明主题,加强语气。
·比拟关系,similarity,SIM。用于表达比喻的一种修辞结构。
·属格结构,即组合式定中关系(NP-G-NP的前面修饰后面),genitive,GEN。
属格助词在名词、代词、动词、名词性短语、动词性短语之后构成属格助词结构,这种结构放在另一个名词之前作定语。名词或动词修饰名词时一般要用属格助词来关联,相当于汉语的结构助词“的”。在藏语中,名词修饰名词,动词修饰名词与形容词、数词、形容词性短语修饰名词不同,名词、动词修饰名词需要格助词辅助(前置定语),但形容词等修饰名词一般在名词后边,不需要格助词等的辅助(后置定语)。名词性的前置定语与中心词之间的关系:领属关系、修饰关系、复指关系、总别关系、依存关系。
·作格结构,regative,EGR。作格助词用在名词、代词和名词性短语之后构成作格助词结构,提示动作的施事者(主语)。
作格助词用在名词、代词和名词性短语之后构成作格助词结构,在句子中还可以做修饰谓语动词的各种状语。当谓语动词是自主(及物)动词时,多表示动作所使用的工具、方式,原料等状语,当谓语动词是不自主(不及物)动词时,表示行为动作的状态、方式,原因和条件等。在做状语时,类似汉语的介词“”用“,以”以及结构助词“地”字结构等状语修饰动词。
·于位格结构,dative-locative。包括业格(受动格)、为格(目的格)、于格(处所格),根据与其后不同性能的谓语动词直接的关系,分别在句子中做宾语、状语、补语甚至主语。
·从格结构,congative,COG。从格助词有两个形式,用在名词,名词性短语之后组成从格结构。在句子中表示事物产生的源由,出处和来自方向等意义的状语。相当于汉语的从,自,由等介词。藏语比较类型分为两类,同类比较和非同类比较,如表示同类比较表示非同类比较。
·呼格结构,vocative,VOC。表示对别人打招呼的一种独立成分叫“呼格”,与指人的名词一起用在句首做呼语。
·系词结构,copula,COP。系动词一般是连接系动词的补语和系动词之间关系。
·存在结构,existential,EXT。表示存在的动词和补语之间的关系。
·兼语结构,concurrent,COR。兼语式两动词之间的关系。
·限定关系,determiner,DET。名词或名词性短语的词头语其限定词之间的关系。
·状动关系,adverbial-verb,ADV。用来修饰动词。状语和动词之间的关系,如形容词性状语、名词性状语、代词性状语、各种状语从句。
·否定关系NEG,negative,NEG。藏语中的否定词包括两种形式,分别是表示否定语气的副词(前置否定)以及表示否定语气的动词(后置否定)(古藏语中常使用否定关系是指否定词语他所修饰的词之间的关系。
·疑问关系,Interrogative,ITG。疑问词用疑问的形式指代未知的人或事物。
·核心关系,head,HED。整个句子的核心。在依存句法中,认为动词是一个句子的核心,其他成分和动词直接或间接地产生联系。
·感叹结构,interjection,ITJ。表示感叹的词语核心词之间的依存关系。
·时体态,TAM,时体态语核心词之间的依存关系。在藏语中,时体态标记位于句末。
·标点符号,WordPress,WP。标点依存于其前面句子的核心词上。
依存关系优先级为:
标签:S,优先级:VP
标签:VP,优先级:NP,ADJP,ADVP,ADZP,AUX,H,NEG
标签:NP,优先级:NP,RP,ADJP,G,KP,MP,QP,PL
标签:RP,优先级:K,Z,G
标签:ADJP,优先级:ADJP,ADVP
其中,优先级从左往右优先级降低,大于标签。
然后,自底向上遍历短语树。在遍历过程中,结合上述表,为每个节点生成对应依存关系,直至遍历到短语树根结点。
步骤1.2:使用藏语依存树语料,通过MSTParse,训练获得藏语依存分析器。该分析器用来对平行语料进行依存树构建。
步骤2:利用依存分析模型,生成藏语平行语料的依存树。
其中,使用的原始平行语料为定义6中的集合P;获得的藏语依存树语料为定义5中的集合U;
步骤2.1:对集合p中的每一句藏语语句,使用步骤一中训练获得的模型进行词性,依存弧,以及依存关系生成,从而获得对应的依存树。
其中,对于语句的第i个词,计为Wi,下标i的取值为[1,n],n为句长。
其中,获得的依存树的成分有词s,词在句子里的序号num,依存关系对应词的序号dos,依存关系d;
步骤2.2:使用获得的依存树语料,对依存树中的依存关系的dos作为后续位置编码中,使用相对位置编码的序号。
步骤3:使用基于句法的相对位置编码,优化transformer中的绝对位置编码,融入到注意力权重的计算。
给定一个输入序列x=[x1,x2,...xk],其中,k属于[1,sentenceX],sentenceX为序列x的长度。
其中,相对位置编码公式如下:
PE(abs)=f(abs/100002i/d) (7)
abs(xi)=fabs(PE(absse),PE(absrel)) (8)
相对位置编码,是将依存树中的位置与句子的绝对位置编码的线性拼接。fabs为一个非线性函数,其中,绝对位置编码为公式中的absse为定义3中所述,依存树的位置编码为公式中的absrel,即步骤2.1的dos,以及依存树中每个节点与其有依存关系节点的距离,相对位置编码的定义如下:
absrel(xi)=tree(xi,ROOT) (9)
其中,absrel由依存树中每个token与中心节点间的距离表示。
步骤4:对平行语料进行预处理。平行语料来源于ccmt翻译比赛提供的藏汉平行语料。
步骤4.1:对语料中过长语句进行过滤删除。过滤规则包括:句长超过60的语句,以及藏语与对应汉语语句长度之差超过20的语句。
步骤4.2:数据去重。由于重复率较高的句子在训练语料中意义不大,而且还会增加了模型的负担,影响翻译效果,因此,需要进行重复数据删除的操作。方法为,计算每行数据的SimHash值,以此表示数据,并通过计算行与行之间SimHash值的余弦距离,判断数据是否相似。当差异小于0.1时认为重复,给予删除。
步骤5:对平行语料进行分词。
步骤5.1:汉语是使用jieba工具进行分词后获得的短语组成的字符串。TIP-LAS作为藏语分词工具,并使用了字节对编码技术,缓解未登录词的问题,获得分词后的藏语句子。
步骤5.2:使用步骤4.1中分词后获得的语料,联合训练藏汉双语词典,并对语料进行进一步的清洗,删除包含词典中出现的频率小于3的词的句子。
步骤6:对于分词后的语料,获得词向量,与相对位置编码获得的向量进行拼接;
步骤6.1:创建输入的词嵌入,如下列公式所示:
W=finput(we+re) (10)
其中,We是分词后的词嵌入,为一个q维的向量,可以设置为512;finput是一个非线性函数;re是步骤3.1中获取的相对位置编码的向量,将该部分向量进行拼接作为模型训练的输入。
步骤7:将步骤6中获得的词向量W作为输入,输送到transformer中,完成藏语-汉语神经机器翻译模型的训练。
对获得的翻译模型进行测试,并对翻译译文进行评价。
步骤7.1:将训练语料的词嵌入输入到编码器中。
将步骤6中获得的语料的嵌入输入到融合相对位置编码的自注意力中。计算每个词向量之间的注意力权重,计算注意力权重,如下列公式所示:
其中,Q,K,V=(Wq,WK,WV),W为步骤6.1中获得的输入向量,dk表示Q,K,V向量的维度,T表示向量转置。在计算过程中,由于相对位置编码的引入,将计算注意力权重的公式拆开,进一步表示为如下公式:
其中,Exi是相对位置为i,对应token为xi的藏语词向量,Ri-j是句法结构中位置为i与位置为j的token经过相对位置编码获得的向量。区别于原基线系统中,位置信息仅在第一层网络中用于计算,使用的句法相对位置信息在每一层的注意力权重计算中都使用到,这一方式的引入可以帮助模型更好的学习。在生成每一个隐状态向量时,每个token对应的向量xi都与记忆单元memory中缓存的之前的token向量进行计算,使得每一层网络中都能使用到相对位置编码信息。
其中,编码器有N层完全相同的神经网络层结构组成,每层包含两个子层,一个多头自注意力机制和一个前馈神经网络,每两个子层间添加了残差连接和层规范化。
多头自注意力机制如定义8中所示。
步骤7.2:将多头注意力层的输出经过残差连接的层规范化后送入一个全连接前馈神经网络,获得编码器的输出Z;
其中,前馈神经网络由定义12所示,残差连接和层规范化由定义13所示。
步骤7.3:编码器的输出Z作为解码器输入的一部分;
其中,解码器端与编码器相比,增加了一层编码器解码器自注意力层。将步骤7.2中获得的编码器输出Z作为解码器端的Q、K向量,解码器的输入作为V向量。
步骤7.4:解码器在每个时间步,根据注意力权重的大小,从词表中依次解码生成最有可能的目标token。
步骤7.5:使用翻译模型对测试样本进行测试,获得模型的bleu和PPL。
有益效果
本发明方法,对比现有技术,具有如下优点:
1.本方法针对藏语的句法结构特点,提取藏语依存树的相对位置编码,能有效提高自注意力神经网络在学习两种语言之间的关联的效率,缓解两种语言由于句法结构不同带来的问题,降低算法的时间复杂度,降低语言模型的PPL值。
2.本方法中,基于获取的依存句法结构信息,提出新的基于相对位置编码的策略,解决了传统模型采用绝对位置编码造成的上下文信息丢失问题,从而提高了藏汉神经机器翻译的bleu值,减少了低资源神经机器翻译的误翻译,漏翻译的发生。
附图说明
图1为本方法及实施例的流程示意图。
图2为本发明实施例2中藏语短语树示例图。
具体实施方式
下面结合附图与实施例对本发明方法做进一步详细说明。
实施例1
如图1所示,一种融合句法结构的藏汉语言神经机器翻译方法,包括如下步骤:
步骤1:进行藏语短语树-藏语依存树转换。
具体包括:藏语短语树的标注,设计藏语短语表,依存关系表,以及制定依存关系优先级,基于规则自动完成藏语短语树到依存树的转换。其中,转换过程与步骤1.1相同。
步骤2:相对位置编码。
具体包括:依存分析模型的训练,以及生成藏语语料对应的藏语依存树,从而获得藏语语料的以及依存关系的位置表示,其中,生成藏语语料对应的藏语依存树与步骤二相同,获取相对位置的编码过程与步骤3.1以及步骤6相同。
步骤3:翻译模型训练。
具体包括数据的预处理、分词以及模型的训练。本实施例中,多头自注意力机制的h为8,编码器、解码器的N=6,Q,K,V向量的维度为512维。
步骤D:获得译文。
实施例2
本实施例将以具体实例对本发明所述的一种融合句法结构的藏汉神经机器翻译方法的具体操作步骤进行详细说明。
一种融合句法结构的藏汉神经机器翻译方法的处理流程如图1所示。从图1可以看出,一种融合句法结构的藏汉神经机器翻译方法,包括以下步骤:
步骤1:对藏语短语树-依存树进行转换。如图2所示。对应的中文译文为“农民们在北京时见到了很多汉民”。每个token从左往右依次对应的中文及标签为农民们【施事格】北京【与位格】坐时候汉民很多看见【时体态】【时体态】【标点符号】。
遍历该二叉短语树的过程中,根据每个词包含的短语类型以及句子所代表的成分,依次生成依存树。步骤2:将步骤1中获得的数据,通过MSTparser工具训练出依存分析器,使用该分析器,对大规模的藏语语料生成相应的依存树。
具体到本实施例中,例如在“农民们在北京时见到了很多汉民”这一句子对应的依存树中,获取的基于依存关系的位置编码为absrel=[r1,r2,...rn],其中n为13,也就是代表该句的句长。其中rn=tree(xn,x10),中心词为x10,具体到本实施例中,r12=2,r9=-2。通过该计算,我们可以获得相对位置的序列,该相对位置编码的计算与步骤3.1相同,每个词对应的词向量为absse=[e1,e2,...en],最终的输入为W=[r1+e1,r2+e2,...,rn+en]。该获得的最终的输入的计算与步骤6.1相同。
步骤3:将获得的向量输送到transformer模型中,多头自注意力机制的h为8,编码器、解码器的N=6,Q,K,V向量的维度为512维。对于输入W=[W1,W2,...,Wn],对每一个Wi,分别与三个权重矩阵相乘得到Q、K、V向量。注意力机制的具体计算与步骤7相同。
在编码器训练阶段,先经过一个自注意力层,对于Q=[Q1,Q2,...,Qn],每一个Qi,与K=[K1,K2,...,Kn]中的向量依次点乘,得到n个权重值,将n个权重值除以根号dk,然后进行归一化之后,与V=[V1,V2,...,Vn]中的向量进行相乘。经过全连接层和残差连接以及层归一化,得到输出向量Z=[Z1,Z2,...,Zn]。
在解码器阶段,编码阶段获得的Z作为Q、K向量,依次与三个权重矩阵相乘,目标训练语料的向量作为V,逐字翻译目标语言,例如,在预测第2个词时,解码器的输出O=[0,0.1,....0.87,0],说明此刻0.87对应的词表的词具有最大的概率成为当前位置的目标词。解码器基于这一方法,生成目标词汇。针对transformer的位置编码进行优化,并利用藏语的依存句法结构,使其融入到神经机器翻译的训练中,其余模型的详细训练过程与原transformer保持一致。
步骤4:使用获得的翻译模型,对测试集进行测试并打分,获得bleu值。
Claims (5)
1.一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,包括以下步骤:
首先,定义相关概念:
定义1:编码器
在神经机器翻译的编码器-解码器架构中,编码器将源语言句子转换成向量;
定义2:解码器
在神经机器翻译的编码器-解码器架构中,将编码器的向量输出作为输入,并转换成对应文本;
定义3:位置编码
Transformer模型在处理句子时,将所有单词并行处理,位置编码为模型提供每个词的位置信息;
位置编码方式包括两种,一种是定义嵌入子层,让整个网络学习到序列的位置编码信息,另一种是对每一个位置的单词,通过固定的函数得到单词的位置编码信息;在transformer中,采用绝对位置编码,具体过程如下:
式中,2i、2i+1代表维度,pos代表位置,dmodel代表词向量维度;如上式所示,分词后的平行语料,每一个词或者短语称为一个token;绝对位置编码就是给每个token添加一个索引;绝对位置编码对每个token的位置索引pos进行一个sin/cos函数变换,为其制定一个唯一位置编码,该位置编码与每个token的词嵌入求和之后作为transformer的输入,使得模型更容易的捕获相对位置;对于相对位置k,PEpos+k为PEpos的线性变换;
定义4:bleu值
作为机器翻译领域通用的翻译质量评价指标,bleu值越大代表翻译效果越好,bleu值基于n-gram匹配机制进行计算;
定义5:藏语依存树
包含藏语不同词或短语之间的依存关系的树结构的语料,包括词、词性、依存弧和依存关系类型;
定义6:藏语短语树
包含每个短语的类型、词性和在句中的成分类型;
定义7:藏汉平行语料
指藏语-汉语对照的双语文档,对于汉语语料中的每一个汉语语句,在藏语语料中都有语义相同的一个语句与之对应;
定义8:注意力机制
注意力是编码器和解码器之间的接口;在transformer中,采用多头自注意力机制,公式如下:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO (3)
headi=Attention(QWi Q,KWi K,VWi V) (4)式中,h表示将参数W分成的并行网络个数,多头自注意力机制通过h个不同的线性变换对Q、K、V向量进行投影,然后将不同的attention结果拼接起来;WQ,WK,WV均为模型通过学习更新而来的权重矩阵,是注意力网络的输入映射,Wo是输出的线性映射参数;i=1,…,h;;
定义9:PPL
模型困惑度,是用在自然语言处理领域中,衡量语言模型好坏的指标,其根据每个词来估计一句话出现的概率,并用句子长度作标准;一个词语序列的困惑度公式如下:
其中,k表示句子长度,P(Wi)表示第i个词的概率,P(Wi|W1...i-1)表示基于前i-1个词得出第i个词的概率;拥有最低困惑度的模型接近于产生数据的真实模型;
定义10:词嵌入
表示用于编码器的词输入;作为一种分布式的表征,其中每个词都被映射成一个连续值构成的固定大小的向量;
定义11:分词
是自然语言处理任务的一项十分重要的预处理过程;
定义12:前馈神经网络
transformer的数据经过一个前馈神经网络,该前馈神经网络采用两个线性变换,激活函数为Relu;
定义13:残差连接和层正则化
transformer在训练过程中,使用参数正则化手段,公式如下:
Z′=LayerNorm(X+Z) (6)
其中,X、Z表示输入到编码器的词向量,Z′表示自注意力的输出向量;
步骤1:利用藏语依存树语料,训练依存分析模型,具体如下:
步骤1.1:使用藏语短语树作为原始语料,该语料来源于人工标注;设计基于规则的方法,进行短语树到依存树的转换;
然后,自底向上遍历短语树;在遍历过程中,为每个节点生成对应依存关系,直至遍历到短语树根结点;
步骤1.2:使用藏语依存树语料,通过MSTParse训练获得藏语依存分析器;该分析器用来对平行语料进行依存树构建;
步骤2:利用依存分析模型,生成藏语平行语料的依存树;
其中,使用的原始平行语料为定义6中的藏语短语树,获得的藏语依存树语料为定义5中的藏语依存树;
步骤2.1:对藏语短语树中的每一句藏语语句,使用步骤1中训练获得的模型以及藏语短语树,进行词性、依存弧以及依存关系生成,从而获得对应的依存树;
其中,对于语句的第i个词,计为Wi,下标i的取值为[1,n],n为句长;
其中,获得的依存树的成分有词s,词在句子里的序号num,词在依存树中的序号dos,依存关系d;
步骤2.2:使用获得的依存树语料,将序号dos作为后续使用相对位置编码的序号;
步骤3:使用基于句法的相对位置编码,优化transformer中的绝对位置编码,融入到注意力权重的计算;
给定一个输入序列x=[x1,x2,...xk],其中,k属于[1,sentenceX],sentenceX为序列x的长度;
其中,相对位置编码公式如下:
PE(abs)=f(abs/100002i/d) (7)
abs(xi)=fabs(PE(absse),PE(absrel)) (8)
相对位置编码,是将依存树中相对位置编码absrel与句子绝对位置编码进行线性拼接;fabs为一个非线性函数,其中,绝对位置编码absse的计算方法如定义3所述,依存树的相对位置编码absrel,定义如下:
absrel(xi)=tree(xi,ROOT) (9)
其中,absrel为依存树中每个token与中心节点间的距离表示;
步骤4:对平行语料进行预处理;平行语料来源于ccmt翻译比赛提供的藏汉平行语料;
步骤5:对平行语料进行分词;
步骤6:对于分词后的语料,获得词向量,与相对位置编码获得的向量进行拼接;
创建输入的词嵌入,如下列公式所示:
W=finput(we+re) (10)
其中,We是分词后的词嵌入,为一个q维的向量;finput是一个非线性函数;re是步骤3.1中获取的相对位置编码的向量,将该向量进行拼接作为模型训练的输入;
步骤7:将步骤6中获得的词向量W作为输入,输送到transformer中,完成藏语-汉语神经机器翻译模型的训练;
对获得的翻译模型进行测试,并对翻译译文进行评价。
2.如权利要求1所述的一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,步骤1所述基于规则方法进行短语树到依存树的转换方法,具体如下:
分析藏语短语树的短语成分,以及不同短语成分间对应的依存关系,并制定相应的短语表PhraseTable以及依存表dependencyTable;
然后,根据不同短语成分间依存关系的优先级,制定优先级表prioritytable;基于上述规则,进行两种树结构的自动转换;
所述短语表PhraseTable包括:
标签名:NP,含义:Noun phrase
标签名:VP,含义:Verb
标签名:ADJP,含义:Adjective
标签名:QP,含义:Quantifier
标签名:SBJ,含义:Subject
标签名:ROOT,含义:Head
标签名:I,含义:Tense
标签名:PL,含义:Plural
标签名:NEG,含义:Negative
标签名:KP,含义:Grid mark
标签名:ADVP,含义:Adverb
标签名:MP,含义:Numeral
标签名:OBJ,含义:object
标签名:ADV,含义:Adverbial
标签名:G,含义:Genitive
标签名:H,含义:Nominalization
标签名:AUX,含义:Auxiliary verb
其中,依存表dependencyTable包括:
·主谓关系,subject-verb,标记为SBV,指主语和谓语之间的关系;
·宾谓关系;包括直宾关系,direct-object,标记为DOB,指直接宾语与谓语之间的关系;间宾关系,indirect-object,标记为IOB,指间接宾语与谓语之间的关系;
·动宾关系,verb-object,标记为VOB,“动”指非谓语动词,动宾关系指非谓语动词和宾语之间的关系;
·定中关系,attribute,标记为ATT,即定语和中心词之间的关系;定中关系的修饰语是定语;
·状中关系,adverbial,ADV,状语和中心词之间的关系;
·数量关系,quantity,QUN,指量词或名词同前面的数词之间的关系;该关系中,数词作修饰成分,依存于量词或名词;
·并列关系,coordinate,COO,指两个相同类型的词并列在一起;
·处所关系,locative,LOC;地点状语与其修饰的中心动词之间的关系;
·时间关系,temporal,TMP;时间状语与其修饰的中心动词之间的关系;
·比拟关系,similarity,SIM;用于表达比喻的一种修辞结构;
·属格结构,即组合式定中关系,genitive,GEN;
属格助词在名词、代词、动词、名词性短语、动词性短语之后构成属格助词结构,这种结构放在另一个名词之前作定语;
·作格结构,regative,EGR;作格助词用在名词、代词和名词性短语之后构成作格助词结构,提示动作的施事者;
·于位格结构,dative-locative;包括业格、为格、于格,根据与其后不同性能的谓语动词直接的关系,分别在句子中做宾语、状语、补语甚至主语;
·呼格结构,vocative,VOC;表示对别人打招呼的一种独立成分叫“呼格”,与指人的名词一起用在句首做呼语;
·存在结构,existential,EXT;表示存在的动词和补语之间的关系;
·状动关系,adverbial-verb,ADV;状语和动词之间的关系,用来修饰动词;
·指代关系RP,reference,REF;藏语中的指示代词,表示句子中人或事物之间的关系;
·疑问关系,Interrogative,ITG;疑问词用疑问的形式指代未知的人或事物;
·核心关系,head,HED;整个句子的核心;在依存句法中,认为动词是一个句子的核心词,其他成分和动词直接或间接地产生联系;
·感叹结构,interjection,ITJ;感叹词与核心词之间的依存关系;
·时体态关系,TAM,时体态与核心词之间的依存关系;在藏语中,时体态标记位于句末;
·标点符号,WordPress,WP;标点依存于其前面句子的核心词上。
3.如权利要求1所述的一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,步骤4的具体实现方法如下:
步骤4.1:对语料中过长语句进行过滤删除;过滤规则包括:句长超过60的语句,以及藏语与对应汉语语句长度之差超过20的语句;
步骤4.2:数据去重;方法为,计算每行数据的SimHash值,以此表示数据,并通过计算行与行之间SimHash值的余弦距离,判断数据是否相似;当差异小于0.1时认为重复,给予删除。
4.如权利要求1所述的一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,步骤5的具体实现方法为:
步骤5.1:汉语是使用jieba工具进行分词后获得的短语组成的字符串;TIP-LAS作为藏语分词工具,并使用了字节对编码技术,缓解未登录词的问题,获得分词后的藏语句子;
步骤5.2:使用步骤4中分词后获得的语料,联合训练藏汉双语词典,并对语料进行进一步的清洗,删除包含词典中出现的频率小于3的词的句子。
5.如权利要求1所述的一种融合句法结构的藏汉语言神经机器翻译方法,其特征在于,步骤7的具体实现方法为:
步骤7.1:将训练语料的词嵌入输入到编码器中;
将步骤6中获得的语料的嵌入输入到融合相对位置编码的自注意力中;计算每个词向量之间的注意力权重,计算注意力权重,如下列公式所示:
其中,Q,K,V为输入向量,即训练语料的词嵌入向量,dk表示Q,K,V向量的维度,T表示向量转置;在计算过程中,由于相对位置编码的引入,将计算注意力权重的公式拆开,进一步表示为如下公式:
其中,Exi是相对位置为i,对应token为xi的藏语词向量,Ri-j是句法结构中位置为i与位置为j的token经过相对位置编码获得的向量,位置信息仅在第一层网络中用于计算,使用的句法相对位置信息在每一层的注意力权重计算中都使用到;在生成每一个隐状态向量时,每个token对应的向量xi都与记忆单元memory中缓存的之前的token向量进行计算,使得每一层网络中都能使用到相对位置编码信息;
其中,编码器由N层完全相同的神经网络层结构组成,每层包含两个子层,一个多头自注意力机制和一个前馈神经网络,每两个子层间添加了残差连接和层规范化;
多头自注意力机制如定义8中所示;
步骤7.2:将多头注意力层的输出经过残差连接的层规范化后送入一个全连接前馈神经网络,获得编码器的输出Z;
其中,前馈神经网络由定义12所示,残差连接和层规范化由定义13所示;
步骤7.3:编码器的输出Z作为解码器输入的一部分;
其中,解码器端与编码器相比,增加了一层编码器解码器自注意力层;将步骤7.2中获得的编码器输出Z作为解码器的输入,传入解码器;
步骤7.4:解码器在每个时间步,根据注意力权重的大小,从词表中依次解码生成最有可能的目标token;
步骤7.5:使用翻译模型对测试样本进行测试,获得模型的bleu和PPL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500300.8A CN112613326B (zh) | 2020-12-18 | 2020-12-18 | 一种融合句法结构的藏汉语言神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011500300.8A CN112613326B (zh) | 2020-12-18 | 2020-12-18 | 一种融合句法结构的藏汉语言神经机器翻译方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112613326A CN112613326A (zh) | 2021-04-06 |
CN112613326B true CN112613326B (zh) | 2022-11-08 |
Family
ID=75240444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011500300.8A Active CN112613326B (zh) | 2020-12-18 | 2020-12-18 | 一种融合句法结构的藏汉语言神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112613326B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220277142A1 (en) * | 2021-02-27 | 2022-09-01 | Walmart Apollo, Llc | Methods and apparatus for natural language understanding in conversational systems using machine learning processes |
US11960842B2 (en) | 2021-02-27 | 2024-04-16 | Walmart Apollo, Llc | Methods and apparatus for natural language understanding in conversational systems using machine learning processes |
CN113515960B (zh) * | 2021-07-14 | 2024-04-02 | 厦门大学 | 一种融合句法信息的翻译质量自动评估方法 |
CN114328856B (zh) * | 2021-09-07 | 2024-08-27 | 北京理工大学 | 一种面向文本翻译人员的关键词提示方法 |
CN114595700A (zh) * | 2021-12-20 | 2022-06-07 | 昆明理工大学 | 融合零代词与篇章信息的汉越神经机器翻译方法 |
CN116227506B (zh) * | 2023-05-08 | 2023-07-21 | 湘江实验室 | 一种具有高效非线性注意力结构的机器翻译方法 |
CN116629237B (zh) * | 2023-07-25 | 2023-10-10 | 江西财经大学 | 基于逐步集成多层注意力的事件表示学习方法及系统 |
CN117494732A (zh) * | 2023-11-17 | 2024-02-02 | 北京网智天元大数据科技有限公司 | 融合藏文构件元素特征的藏汉神经机器翻译方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013120407A (ja) * | 2011-12-06 | 2013-06-17 | Nec Corp | 機械翻訳システム、機械翻訳方法および機械翻訳プログラム |
CN112084794A (zh) * | 2020-09-18 | 2020-12-15 | 西藏大学 | 一种藏汉翻译方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103314369B (zh) * | 2010-12-17 | 2015-08-12 | 北京交通大学 | 机器翻译装置和方法 |
CN110134971B (zh) * | 2018-02-08 | 2022-12-16 | 腾讯科技(深圳)有限公司 | 一种机器翻译的方法、设备以及计算机可读存储介质 |
CN110598221B (zh) * | 2019-08-29 | 2020-07-07 | 内蒙古工业大学 | 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法 |
-
2020
- 2020-12-18 CN CN202011500300.8A patent/CN112613326B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013120407A (ja) * | 2011-12-06 | 2013-06-17 | Nec Corp | 機械翻訳システム、機械翻訳方法および機械翻訳プログラム |
CN112084794A (zh) * | 2020-09-18 | 2020-12-15 | 西藏大学 | 一种藏汉翻译方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112613326A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112613326B (zh) | 一种融合句法结构的藏汉语言神经机器翻译方法 | |
CN108519890B (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN112765345A (zh) | 一种融合预训练模型的文本摘要自动生成方法及系统 | |
CN109815476B (zh) | 一种基于中文语素和拼音联合统计的词向量表示方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN112347796B (zh) | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
CA3135717A1 (en) | System and method for transferable natural language interface | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN111651589A (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN113255295B (zh) | 一种自然语言到pptl形式化规约自动生成方法及系统 | |
CN112507733B (zh) | 基于依存图网络的汉越神经机器翻译方法 | |
CN113657123A (zh) | 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 | |
Zhang et al. | Design and implementation of Chinese Common Braille translation system integrating Braille word segmentation and concatenation rules | |
CN114595700A (zh) | 融合零代词与篇章信息的汉越神经机器翻译方法 | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
CN113408307B (zh) | 一种基于翻译模板的神经机器翻译方法 | |
Acharjee et al. | Sequence-to-sequence learning-based conversion of pseudo-code to source code using neural translation approach | |
Zhao | Design of Intelligent Proofreading System Based on Artificial Intelligence | |
Wei | Automatic error calibration system for English semantic translation based on machine learning | |
Radovanovic | Introducing Natural Language Interface to Databases for Data-Driven Small and Medium Enterprises: This paper summarizes major challenges and current approaches in the context of constructing Natural Language Interfaces to Databases for data-driven small and medium enterprises. | |
CN116881448A (zh) | 结合语义依存和词性嵌入的电网调度领域关系抽取方法 | |
Zuo et al. | A Hierarchical Neural Network for Sequence-to-Sequences Learning | |
Zhang et al. | Research Article Design and Implementation of Chinese Common Braille Translation System Integrating Braille Word Segmentation and Concatenation Rules | |
Ju-Xiao et al. | Design and Implementation of Chinese Common Braille Translation System Integrating Braille Word Segmentation and Concatenation Rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |