CN112989845B - 一种基于路由算法的篇章级神经机器翻译方法及系统 - Google Patents

一种基于路由算法的篇章级神经机器翻译方法及系统 Download PDF

Info

Publication number
CN112989845B
CN112989845B CN202110230732.XA CN202110230732A CN112989845B CN 112989845 B CN112989845 B CN 112989845B CN 202110230732 A CN202110230732 A CN 202110230732A CN 112989845 B CN112989845 B CN 112989845B
Authority
CN
China
Prior art keywords
module
sentence
information
context
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110230732.XA
Other languages
English (en)
Other versions
CN112989845A (zh
Inventor
鉴萍
费伟伦
朱晓光
林翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110230732.XA priority Critical patent/CN112989845B/zh
Publication of CN112989845A publication Critical patent/CN112989845A/zh
Application granted granted Critical
Publication of CN112989845B publication Critical patent/CN112989845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于路由算法的篇章级神经机器翻译方法及系统,属于自然语言处理应用技术领域。本方法利用路由算法对输入模型系统的上下文信息进行筛选,由待翻译的句子主动地选择一些对其有用的单词构成所需要的篇章级信息,模型通过引入路由算法对上述信息进行建模,从而提升篇章级神经机器翻译的效果。系统包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。本发明对比现有技术,同时使用前、后文作为所需要的篇章级信息,并利用路由算法让待翻译句子自行选择上下文中的词作为所需信息的一部分,构建一个篇章级神经翻译模型,有效利用上下文信息,提升了篇章级机器翻译的质量。

Description

一种基于路由算法的篇章级神经机器翻译方法及系统
技术领域
本发明涉及一种神经机器翻译方法及系统,具体涉及一种基于路由算法的篇章级神经机器翻译方法和系统,属于自然语言处理应用技术领域。
背景技术
得益于深度学习的发展,神经机器翻译在大多数的语言对上已经取得了长足的进步。现有的标准神经机器翻译方法多是针对句子级的翻译,利用端到端的学习方法,构建编码器-解码器结构的模型,将源语言句子及其目标语言句子作为模型输入用于训练模型并学习对应的关系。但是,将句子级机器翻译运用于篇章级机器翻译时,会导致指代不明确、前后翻译不一致、翻译缺乏连贯性等篇章级问题。为解决这些问题,研究人员提出了篇章级机器翻译方法,利用当前句子以外的上下文信息,提升翻译结果的衔接性和连贯性。
目前,现有的篇章级机器翻译方法大多通过扩展句子编码的范围以整合更多的文本信息,这些方法通常使用门机制或注意力机制对含有上下文信息的句子级表示与当前需要翻译的句子共同进行编码。这类方法尽管很直接,但是很难从上下文编码所带来的噪声中辨识出有用的信息。同时,由于编码长度的增加,致使模型很难对句子间的关系进行建模。此外,在阅读时,人类尚且需要通过后文以加深对当前内容的理解,更不用说没有丝毫先验知识和常识的神经网络。因此,首先需要有目的地从上下文信息中筛选得到有用的内容,降低因信息冗余而带来的噪声的影响;其次,无需将上下文的内容限制在前文,可以充分使用后文的信息作为上下文中的一部分。
发明内容
本发明的目的是为了克服现有篇章级机器翻译方法存在的缺陷,创造性地提出一种基于路由算法的篇章级神经机器翻译方法及系统。本方法,利用路由算法对输入模型系统的上下文信息进行筛选,由待翻译的句子主动地选择一些对其有用的单词构成所需要的篇章级信息,模型通过引入路由算法对上述信息进行建模,从而提升篇章级神经机器翻译的效果。
本发明的创新点在于:首先,在编码器-解码器神经机器翻译模型中,分别对源语言句子的前一句和后一句进行编码,分别生成各自的编码信息。尽管可以利用拼接、叠加等方法将前后句子编码得到的信息进行融合,但是拼接的方法会导致编码长度过长,而叠加等方法又会引入噪声。针对该情况,引入路由算法,利用源语言句子计算得到一个门,该门由源语言句子通过自注意力层和线性层计算得到。利用该门对编码生成的上下文信息进行词级别的筛选,筛选完毕后再做叠加生成篇章级信息。利用多头注意力机制与源语言句子再做融合,并最终生成目标语言句子。
一种基于路由算法的篇章级神经机器翻译方法,包括以下步骤:
步骤1:输入上下文句子,编码生成编码信息。
具体如下:
步骤1.1:通过嵌入层,将上下文句子转换为其词向量表示序列。具体可以采用以下方法实现:
步骤1.1.1:将每个源语言句子相邻的上一句和下一句作为上下文句子;
步骤1.1.2:构建源语言词表,并对步骤1.1.1中的句子分词;
步骤1.1.3:将步骤1.1.2分词后的句子,通过嵌入层逐词映射为此向量序列。
步骤1.2:利用编码器对上下文句子编码,输出前句与后句各自的编码表示。
具体地,可以将上下文句子的向量表示序列,通过编码器的自注意力层和线性层编码。
步骤2:输入源语言句子,通过路由算法层与上下文编码信息进行融合,生成篇章级信息。
具体如下:
步骤2.1:通过嵌入层,将源语言句子转换为其词向量表示序列。具体可以采用以下方法实现:
步骤2.1.1:选择上下文句子对应的源语言句子;
步骤2.1.2:根据步骤1.1.2建立的源语言词表,对步骤2.1.1中的句子分词;
步骤2.1.3:将步骤2.1.2中分词后的句子,通过嵌入层逐词映射为词向量序列。
步骤2.2:将步骤2.1得到的词向量表示序列,通过自注意力层得到中间表示;
步骤2.3:利用步骤2.2得到的中间表示和步骤1.2得到的编码表示,计算得到篇章级信息。具体可以采用以下方法实现:
步骤2.3.1:利用线性层和中间表示计算得到门;
步骤2.3.2:利用计算得到的门,在上下文编码信息中选择需要的词信息作为篇章级信息的内容。
步骤3:将步骤2.2得到的中间表示与步骤2.3得到的篇章级信息进行融合、编码,得到编码器的输出。
具体地,可以利用多头注意力层,把步骤2.2输出的中间表示和步骤2.3输出的篇章级融合在一起,并通过线性层得到编码器输出。
步骤4:利用编码器输出和解码器输入,输出目标语言句子。
具体如下:
步骤4.1:利用嵌入层,将目标语言句子转换为其此向量表示序列。具体可以采用以下方法实现:
步骤4.1.1:选取步骤2.1.1中的源语言句子对应的目标语言句子;
步骤4.1.2:构建目标语言词表,并对步骤4.1.1中的句子分词;
步骤4.1.3:将步骤4.1.2中分词后的句子通过嵌入层逐词映射为词向量序列。
步骤4.2:通过解码器对目标语言句子信息解码,在解码过程中利用多头注意力层,融合步骤3.1得到的编码器输出。具体可以采用以下方法实现:
步骤4.2.1:将目标语言句子的词向量表示序列通过解码器的自注意力层;
步骤4.2.2:利用多头注意力层,把将步骤3.1的编码器输出和步骤4.2的自注意力层输出融合;
步骤4.2.3:通过线性层,对步骤4.2.2中的编码信息映射。
步骤4.3:通过生成器生成对目标语言句子下一个词的预测。
重复上述步骤,直至结束目标语言句子生成,或者到达最大长度限制时中断生成。
本发明的另一方面,基于上述方法,提出了一种基于路由算法的篇章级神经机器翻译系统,包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。
其中,数据处理模块负责抽取需要翻译的数据,并转换为对应的词向量序列;
路由算法模块根据源语言和上下文信息计算得到篇章级信息;
上下文编码器模块用于对上下文信息进行编码,得到上下文的编码信息;
源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合,并送入解码器模块中;
解码器模块根据获得的编码信息,进行解码生成解码信息;
生成器模块负责将解码信息映射到目标端的词表当中生成翻译,并将结果呈现给用户。
进一步的,数据处理模块包括样本获取单元、预处理单元和嵌入层单元。其中:
样本获取单元用于获取语料库中的语言对样本;
预处理单元用于从语料中获取所需要的数据,包括源语言句子、目标语言句子及其对应的源语言上下文信息,并负责构建词表和句子的分词;
嵌入层单元用于将处理后的文本信息转换为对应的词向量序列。
上下文编码器模块、路由算法模块、源语言编码器模块和解码器模块,各包括一个注意力单元和一个线性单元。每个注意力单元的作用相同,均为负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;每个线性单元作用也相同,均为负责对输入的编码信息做线性映射。其中,上下文编码器模块包括第一注意力单元和第一线性单元,路由算法模块包括第二注意力单元和第二线性单元,源语言编码器模块包括第三注意力单元和第三线性单元,解码器模块包括第四注意力单元和第四线性单元。
上述模块的连接关系为:
上下文编码器模块的输入端与数据处理模块的输出端相连;
源语言编码器模块的输入端与数据处理模块的输出端相连;
解码器模块的输入端与数据处理模块的输出端相连;
路由算法模块的输入端与上下文编码器模块的输出端相连;
源语言编码器模块的输入端与路由算法模块的输出端相连;
解码器模块的输入端与源语言编码器模块的输出端相连;
生成器模块的输入端与解码器模块的输出端相连。
上述模块中各单元的连接关系为:
在数据处理模块中,预处理单元的输入端与样本获取单元的输出端相连,嵌入层单元的输入端与预处理单元的输出端相连。
在路由算法模块、上下文编码器模块、源语言编码器模块和解码器模块中,每个线性单元的输入端与所在模块的注意力单元输出端相连。
有益效果
本发明对比现有技术,同时使用前、后文作为所需要的篇章级信息,并利用路由算法让待翻译句子自行选择上下文中的词作为所需信息的一部分,构建一个篇章级神经翻译模型,有效利用上下文信息,提升了篇章级机器翻译的质量。通过在汉英翻译语料集IWSLT15上的实验,证明了后文内容及路由算法的引入可以有效提升篇章级神经机器翻译的效果,且基于路由算法的篇章级神经翻译系统优于基于Transformer模型系统。
附图说明
图1为根据本发明一个实施例的方法流程图;
图2为根据本发明一个实施例的系统架构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步说明。
如图1所示,一种基于路由算法的篇章级神经机器翻译方法,包括以下步骤:
步骤1:输入上下文句子,编码生成编码信息。具体地:
步骤1.1:通过嵌入层,将上下文句子转换为其词向量表示序列;
步骤1.2:通过编码器对上下文句子编码,输出前句与后句各自的编码表示。
步骤2:输入源语言句子,并通过路由算法层,与上下文编码信息进行融合生成篇章级信息。具体地:
步骤2.1:通过嵌入层,将源语言句子转换为其词向量表示序列;
步骤2.2:将步骤2.1得到的词向量表示序列,通过自注意力层得到中间表示;
步骤2.3:利用步骤2.2.得到的中间表示和步骤1.2得到的编码表示,计算得到篇章级信息。
步骤3:将步骤2.2得到的中间表示与步骤2.3得到的篇章级信息进行融合、编码,得到编码器的输出。
步骤4:利用编码器输出和解码器输入,输出目标语言句子。
在步骤1.1和步骤2.1中,获取带上下文的双语平行句对语料,对样本进行预处理。例如,分别选用IWSLT 15汉语和英语作为源语言和目标语言。从IWSLT15语料中抽取了质量较高的20万对包含上下文的平行句对作为训练语料。每个样本E包括一个前文句子、一个后文句子、一个源语言句子和一个目标语言句子。例如:
前文句子:其实地球上最长的山脉都在海洋里。
后文句子:大多数地震和火山喷发也都发生在海洋里在海洋的最底部。
源语言句子:大部分的动物也都生活在海洋里。
目标语言句子:Most of the animals are in the oceans.
在一个实施例中,首先分别对源语言语料和语言语料进行分词,并构建词表。可以采用中文分词工具结巴分词(https://github.com/fxsjy/jieba)对汉语分词;英语由于有天然空格,不需要分词。然后使用BPE进行编码得到词表。接着,针对每个样本E,根据BPE编码得到的词表将句子拆分。最后通过嵌入层映射,将句子转换为词向量表示序列。
在步骤1.2中,在得到词向量表示序列后,将样本E中的上下文句子送入编码器编码,分别获取前句与后句各自的编码表示。
首先,将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q,键值K和值V:
Q=WQ·e (1)
K=WK·e (2)
V=WV·e (3)
其中,WQ、WK、WV分别表示查询值Q、键值K和值V的映射参数;e表示输入的词向量。
然后,对于每一个词,通过自注意力机制,计算其对于其他所有词的注意力分值s:
Figure BDA0002957780790000071
其中,dk为K的维度,KT表示K的转置。
然后,用注意力分值作为权重,用对应的注意力分值与V相乘并求和,得到对应的隐藏层状态表示向量:
Figure BDA0002957780790000072
由于Transformer编码器端采用的是多头注意力机制,此处需要再将每个注意力头产生的表示进行拼接:
Figure BDA0002957780790000073
其中,h′表示每个注意力头产生的表示拼接后的结果,
Figure BDA0002957780790000074
为第n个头产生的表示。
最后,通过两层由ReLU作激活函数的线性层,以前文句子作为输入为例:
Figure BDA0002957780790000075
其中,
Figure BDA0002957780790000076
表示前文句子经过上下文编码器后的表示,FFN(·)表示线性单元,W1、W2表示可训练的权重,b1、b2分别表示W1、W2对应的偏置项。
Figure BDA0002957780790000077
的计算过程与上述相同。由此得到上下文句子的编码序列。
在步骤2.2中,通过自注意力层对源语言句子编码,计算得到中间表示
Figure BDA0002957780790000078
方法同步骤1.2中注意力单元的过程一致。
为通过路由算法得到篇章级信息,在步骤2.3中,用步骤2.2的中间表示计算门g:
Figure BDA0002957780790000079
Figure BDA00029577807900000710
其中,G表示
Figure BDA00029577807900000711
经线性变换后的结果,W3、W4表示可训练的权重,σ表示sigmoid激活函数,
Figure BDA00029577807900000712
是步骤2.2计算得到的中间表示,b3表示W3对应的偏置项。
在测试时,令
Figure BDA0002957780790000081
其中,δ(·)表示狄拉克函数。
之后,通过g将经过步骤1.2的前文与后文的编码信息融合,得到篇章级信息
Figure BDA0002957780790000082
Figure BDA0002957780790000083
Figure BDA0002957780790000084
其中,
Figure BDA0002957780790000085
分别表示
Figure BDA0002957780790000086
线性变换后的表示,
Figure BDA0002957780790000087
表示可训练的权重。
Figure BDA0002957780790000088
分别前后文句子经过上下文编码器后的表示。
在步骤3.1中,通过多头注意力层融合中间表示
Figure BDA0002957780790000089
和篇章级信息
Figure BDA00029577807900000810
原理同自注意力层编码机制,Q、K由篇章级信息
Figure BDA00029577807900000811
映射得到,V由中间表示
Figure BDA00029577807900000812
映射得到。之后的过程与步骤1.2的相同,通过两层由ReLU作激活函数的线性层得到编码器的输出。
在步骤4中,如图1所示,对目标语言句子解码的步骤包括:
步骤4.1:利用通过嵌入层将已生成的目标语言句子转换为其词向量表示序列;
步骤4.2:通过解码器对目标语言句子信息解码,在解码过程中通过多头注意力机制融合编码器输出的编码信息;
步骤4.3:通过生成器生成对目标语言句子下一个词的预测。
步骤4.1与步骤1.1的处理方式相同,可以得到目标语言句子的词向量表示序列。
在步骤4.2中,首先通过自注意力层对目标语言句子的向量表示序列编码,与步骤1.2中的自注意力层编码方式相同。
然后,通过多头注意力机制,融合上下文句子的编码信息。原理同自注意力层编码机制,Q、K由步骤3.1得到的编码信息的映射得出,V由目标语言句子中的词映射得到。
最后,与步骤1.2相似,通过两层由ReLU作激活函数的线性层得到目标语言解码序列。将目标语言解码序列的最后一个向量输入到生成器,通过Softmax函数映射到词表,得到对于下一个词的预测。重复上述步骤,直至解码生成句子结束标识<eos>,或句子长度达到最大长度限制时,终止生成。
模型采用Adam梯度更新算法更新模型中的参数,收敛后将模型存储下来后用于后续的测试翻译过程。交叉熵损失函数与训练方法均为现有技术,不做赘述。
根据本发明的另一方面,提出一种基于路由算法的篇章级神经机器翻译系统,如图2所示,包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块。其中,数据处理模块负责抽取需要翻译的数据,并转换为对应的词向量序列;路由算法模块根据源语言和上下文信息计算得到篇章级信息;上下文编码器模块用于对上下文信息进行编码,得到上下文的编码信息;源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合,送入解码器中;解码器根据获得的编码信息进行解码生成解码信息;生成器模块负责将解码信息映射到目标端的词表当中,生成翻译,并将结果呈现给用户。
进一步的,数据处理模块包括:样本获取单元、预处理单元、嵌入层单元,其中:
样本获取单元,用于获取语料库中的语言对样本;
预处理单元,用于从语料中获取所需要的数据,包括源语言句子、目标语言句子及其对应的源语言上下文信息,并负责构建词表和句子的分词;
嵌入层单元,用于将处理后的文本信息转换为对应的词向量序列。
路由算法模块、上下文编码器模块、源语言编码器模块和解码器模块各包括一个注意力单元和一个线性单元,注意力单元负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;线性单元负责对输入的编码信息做线性映射。其中,上下文编码器模块包括第一注意力单元和第一线性单元,路由算法模块包括第二注意力单元和第二线性单元,源语言编码器模块包括第三注意力单元和第三线性单元,解码器模块包括第四注意力单元和第四线性单元。
在样本获取单元中,可以选择IWSLT 15的汉语和英语分别作为源语言和目标语言。
在预处理单元中,分别对源语言语料和语言语料进行分词,并构建词表。然后使用BPE进行编码得到词表,根据BPE编码得到的词表将句子拆分。具体方法如上文所述。
在嵌入层单元中,可通过映射,将句子转换为词向量表示序列。具体方法如上文所述。
在每个注意力单元中,自注意力机制用于计算同句子中词之间的关联度,多头注意力机制用于融合上下文信息。具体方法如上文所述。
在每个线性单元中,序列信息经此得到对应的编码和解码序列。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (5)

1.一种基于路由算法的篇章级神经机器翻译方法,其特征在于,包括以下步骤:
步骤1:输入上下文句子,编码生成编码信息,具体如下:
步骤1.1:通过嵌入层,将上下文句子转换为其词向量表示序列:
步骤1.1.1:将每个源语言句子相邻的上一句和下一句作为上下文句子;
步骤1.1.2:构建源语言词表,并对步骤1.1.1中的句子分词;
步骤1.1.3:将步骤1.1.2分词后的句子,通过嵌入层逐词映射为此向量序列;
步骤1.2:利用编码器对上下文句子编码,输出前句与后句各自的编码表示;
步骤2:输入源语言句子,通过路由算法层与上下文编码信息进行融合,生成篇章级信息,具体如下:
步骤2.1:通过嵌入层,将源语言句子转换为其词向量表示序列:
步骤2.1.1:选择上下文句子对应的源语言句子;
步骤2.1.2:根据步骤1.1.2建立的源语言词表,对步骤2.1.1中的句子分词;
步骤2.1.3:将步骤2.1.2中分词后的句子,通过嵌入层逐词映射为词向量序列;
步骤2.2:将步骤2.1得到的词向量表示序列,通过自注意力层得到中间表示;
步骤2.3:利用步骤2.2得到的中间表示和步骤1.2得到的编码表示,计算得到篇章级信息:
步骤2.3.1:利用线性层和中间表示计算得到门;
步骤2.3.2:利用计算得到的门,在上下文编码信息中选择需要的词信息作为篇章级信息的内容;
用步骤2.2的中间表示计算门g:
Figure FDA0003841263220000011
Figure FDA0003841263220000012
其中,G表示
Figure FDA0003841263220000013
经线性变换后的结果,W3、W4表示可训练的权重,σ表示sigmoid激活函数,
Figure FDA0003841263220000014
是步骤2.2计算得到的中间表示,b3表示W3对应的偏置项;
在测试时,令
Figure FDA0003841263220000021
其中,δ(·)表示狄拉克函数;
之后,通过g将经过步骤1.2的前文与后文的编码信息融合,得到篇章级信息
Figure FDA0003841263220000022
Figure FDA0003841263220000023
Figure FDA0003841263220000024
其中,
Figure FDA0003841263220000025
分别表示
Figure FDA0003841263220000026
线性变换后的表示,
Figure FDA0003841263220000027
表示可训练的权重;
Figure FDA0003841263220000028
分别前后文句子经过上下文编码器后的表示;
步骤3:将步骤2.2得到的中间表示与步骤2.3得到的篇章级信息进行融合、编码,得到编码器的输出;
步骤4:利用编码器输出和解码器输入,输出目标语言句子,具体如下:
步骤4.1:利用嵌入层,将目标语言句子转换为其此向量表示序列:
步骤4.1.1:选取步骤2.1.1中的源语言句子对应的目标语言句子;
步骤4.1.2:构建目标语言词表,并对步骤4.1.1中的句子分词;
步骤4.1.3:将步骤4.1.2中分词后的句子通过嵌入层逐词映射为词向量序列;
步骤4.2:通过解码器对目标语言句子信息解码,在解码过程中利用多头注意力层,融合步骤3.1得到的编码器输出:
步骤4.2.1:将目标语言句子的词向量表示序列通过解码器的自注意力层;
步骤4.2.2:利用多头注意力层,把将步骤3.1的编码器输出和步骤4.2的自注意力层输出融合;
步骤4.2.3:通过线性层,对步骤4.2.2中的编码信息映射;
步骤4.3:通过生成器生成对目标语言句子下一个词的预测;
重复上述步骤,直至结束目标语言句子生成,或到达最大长度限制时中断生成。
2.如权利要求1所述的一种基于路由算法的篇章级神经机器翻译方法,其特征在于,在步骤1.2中,在得到词向量表示序列后,将样本中的上下文句子送入编码器编码,分别获取前句与后句各自的编码表示。
首先,将上下文句子的向量表示序列的每一个词向量通过矩阵映射为查询值Q,键值K和值V:
Q=WQ·e (1)
K=WK·e (2)
V=WV·e (3)
其中,WQ、WK、WV分别表示查询值Q、键值K和值V的映射参数;e表示输入的词向量;
然后,对于每一个词,通过自注意力机制,计算其对于其他所有词的注意力分值s:
Figure FDA0003841263220000031
其中,dk为K的维度,KT表示K的转置;
然后,用注意力分值作为权重,用对应的注意力分值与V相乘并求和,得到对应的隐藏层状态表示向量:
Figure FDA0003841263220000032
再将每个注意力头产生的表示进行拼接:
Figure FDA0003841263220000033
其中,h′表示每个注意力头产生的表示拼接后的结果,
Figure FDA0003841263220000034
为第n个头产生的表示;
最后,通过两层由ReLU作激活函数的线性层:
Figure FDA0003841263220000035
其中,
Figure FDA0003841263220000036
表示前文句子经过上下文编码器后的表示,FFN(·)表示线性单元,W1、W2表示可训练的权重,b1、b2分别表示W1、W2对应的偏置项;
Figure FDA0003841263220000037
的计算过程与
Figure FDA0003841263220000038
相同;由此得到上下文句子的编码序列。
3.如权利要求1所述的一种基于路由算法的篇章级神经机器翻译方法,其特征在于,步骤2.2中,通过自注意力层对源语言句子编码,计算得到中间表示表示
Figure FDA0003841263220000041
4.一种实现权利要求1所述基于路由算法的篇章级神经机器翻译方法的系统,其特征在于,包括数据处理模块、路由算法模块、上下文编码器模块、源语言编码器模块、解码器模块和生成器模块;
其中,数据处理模块负责抽取需要翻译的数据,并转换为对应的词向量序列;
路由算法模块根据源语言和上下文信息计算得到篇章级信息;
上下文编码器模块用于对上下文信息进行编码,得到上下文的编码信息;
源语言编码器模块用于将篇章级信息和源语言句子的编码信息融合,并送入解码器模块中;
解码器模块根据获得的编码信息,进行解码生成解码信息;
生成器模块负责将解码信息映射到目标端的词表当中生成翻译,并将结果呈现给用户;
数据处理模块包括样本获取单元、预处理单元和嵌入层单元,其中:
样本获取单元用于获取语料库中的语言对样本;
预处理单元用于从语料中获取所需要的数据,包括源语言句子、目标语言句子及其对应的源语言上下文信息,并负责构建词表和句子的分词;
嵌入层单元用于将处理后的文本信息转换为对应的词向量序列;
上述模块的连接关系为:
上下文编码器模块的输入端与数据处理模块的输出端相连;
源语言编码器模块的输入端与数据处理模块的输出端相连;
解码器模块的输入端与数据处理模块的输出端相连;
路由算法模块的输入端与上下文编码器模块的输出端相连;
源语言编码器模块的输入端与路由算法模块的输出端相连;
解码器模块的输入端与源语言编码器模块的输出端相连;
生成器模块的输入端与解码器模块的输出端相连;
在数据处理模块中,预处理单元的输入端与样本获取单元的输出端相连,嵌入层单元的输入端与预处理单元的输出端相连。
5.如权利要求4所述的一种实现基于路由算法的篇章级神经机器翻译方法的系统,其特征在于,上下文编码器模块、路由算法模块、源语言编码器模块和解码器模块,各包括一个注意力单元和一个线性单元;每个注意力单元的作用相同,均为负责对输入的词向量或是语义向量做信息融合,生成对应的语义信息;每个线性单元作用也相同,均为负责对输入的编码信息做线性映射;
其中,上下文编码器模块包括第一注意力单元和第一线性单元,路由算法模块包括第二注意力单元和第二线性单元,源语言编码器模块包括第三注意力单元和第三线性单元,解码器模块包括第四注意力单元和第四线性单元;
在路由算法模块、上下文编码器模块、源语言编码器模块和解码器模块中,每个线性单元的输入端与所在模块的注意力单元输出端相连。
CN202110230732.XA 2021-03-02 2021-03-02 一种基于路由算法的篇章级神经机器翻译方法及系统 Active CN112989845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110230732.XA CN112989845B (zh) 2021-03-02 2021-03-02 一种基于路由算法的篇章级神经机器翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110230732.XA CN112989845B (zh) 2021-03-02 2021-03-02 一种基于路由算法的篇章级神经机器翻译方法及系统

Publications (2)

Publication Number Publication Date
CN112989845A CN112989845A (zh) 2021-06-18
CN112989845B true CN112989845B (zh) 2023-01-10

Family

ID=76351979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110230732.XA Active CN112989845B (zh) 2021-03-02 2021-03-02 一种基于路由算法的篇章级神经机器翻译方法及系统

Country Status (1)

Country Link
CN (1) CN112989845B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580439B (zh) * 2022-02-22 2023-04-18 北京百度网讯科技有限公司 翻译模型训练方法、翻译方法、装置、设备以及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235362B1 (en) * 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
CN111279362B (zh) * 2017-10-27 2024-03-08 谷歌有限责任公司 胶囊神经网络
WO2020261234A1 (en) * 2019-06-28 2020-12-30 Tata Consultancy Services Limited System and method for sequence labeling using hierarchical capsule based neural network
CN110598221B (zh) * 2019-08-29 2020-07-07 内蒙古工业大学 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN111310485B (zh) * 2020-03-12 2022-06-21 南京大学 机器翻译方法、装置及存储介质
CN112069804B (zh) * 2020-09-08 2023-12-19 天津大学 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

Also Published As

Publication number Publication date
CN112989845A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN110598221B (zh) 利用生成对抗网络构造蒙汉平行语料提高蒙汉翻译质量的方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111160050A (zh) 一种基于上下文记忆网络的篇章级神经机器翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN110688861B (zh) 一种多特征融合的句子级译文质量估计方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN113569562B (zh) 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及系统
CN112347796A (zh) 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115759042A (zh) 一种基于句法感知提示学习的句子级问题生成方法
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN112989845B (zh) 一种基于路由算法的篇章级神经机器翻译方法及系统
CN113657125B (zh) 一种基于知识图谱的蒙汉非自回归机器翻译方法
CN113435216B (zh) 神经网络机器翻译模型训练方法、机器翻译方法和装置
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN113887251A (zh) 一种结合Meta-KD框架和细粒度压缩的蒙汉机器翻译方法
CN112668346A (zh) 翻译方法、装置、设备及存储介质
CN116595407A (zh) 基于标签序列一致性建模的事件论元检测方法及系统
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant