CN111523329A - 基于编码器-转换器-解码器框架的神经网络机器翻译方法 - Google Patents
基于编码器-转换器-解码器框架的神经网络机器翻译方法 Download PDFInfo
- Publication number
- CN111523329A CN111523329A CN202010277181.8A CN202010277181A CN111523329A CN 111523329 A CN111523329 A CN 111523329A CN 202010277181 A CN202010277181 A CN 202010277181A CN 111523329 A CN111523329 A CN 111523329A
- Authority
- CN
- China
- Prior art keywords
- converter
- encoder
- hidden
- neural network
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 12
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于编码器‑转换器‑解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。本发明利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。本发明基于编码器‑转换器‑解码器框架的翻译模型结构简单,易于实现。
Description
技术领域
本发明涉及基于编码器-转换器-解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。
背景技术
常规神经网络机器翻译模型由编码器与解码器组成,编码器负责对源语言句子编码,解码器负责解码。在循环神经网络的情形下,编码后的句子信息以神经网络中隐含状态的形式存在,将这种隐含状态直接赋值给解码器,便完成了两者之间的信息传递。编码器或解码器结构信息主要有层数与隐含单元的个数,赋值实际上就是按照对应的层与单元进行逐一赋值。
Transformer在序列到序列的学习任务中(尤其是机器翻译任务)表现十分出色,展现了十分强大的序列至序列的对齐能力,因此本发明选择Transformer中的编码器作为转换器,提供一种基于编码器-转换器-解码器框架的神经网络机器翻译方法。
发明内容
本发明提供了基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译时,对编码器最后时刻的隐含状态进行转换,将转换后的状态信息赋值给解码器。
本发明的技术方案是:基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。
进一步地,所述转换器采用Transformer中的编码器TransformerEncoder。
进一步地,所述转换器转换编码器最后时刻的隐含状态的步骤如下:
步骤1:编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;
步骤2:将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
步骤3:按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
本发明的有益效果是:
(1)、本发明选择Transformer中的编码器作为转换器,该编码器主要由多层注意力机制与前馈神经网络组成,其中还包含了残差连接与层正规化等操作。该编码器的输出形状与输入形状相同,主要作用是对其输入做更深层次的抽象。在本发明中,它的目标是学习两种语言的隐含空间的对应关系。其输入为编码器最后时刻的隐含状态,其输出结果则对解码器的初始隐含状态进行赋值;
(2)、基于编码器-转换器-解码器框架的翻译模型结构简单,易于实现。该发明的转换器结构可以在无监督神经网络翻译模型中发挥作用,把两种共用的语言空间分解为两种语言各自的语言空间,然后用转换器将两者关联起来。该转换器结构可用于神经网络翻译模型的参数微调阶段,在编码器与解码器已经完成预训练的情况下,将转换器放置两者中间,再使用较少量的平行语料训练整个模型,从而减小对大规模平行语料的依赖。
附图说明
图1为本发明中信息在编码器-转换器-解码器中的转换步骤。
具体实施方式
实施例1:如图1所示,基于编码器-转换器-解码器框架的神经网络机器翻译方法,具体步骤为:
步骤1:配置实验所需的深度学习开发平台pytorch,安装开源工具fairseq与mosesdecoder;
步骤2:使用中科院自动化研究所收集的casia2015作为训练、验证与测试语料,总共有一百零五万条平行句对,将其中的一百万条句对作为训练语料,其余的五万条语料分作两份,分别作为验证集与测试集使用;
步骤3:因为casia2015中的汉语句子是按照每条句子开头的字的拼音顺序排列的,所以对整个语料进行了随机打乱的操作,同样的英语语料同样地按照相同方式进行打乱;
步骤4:使用斯坦福大学分词工具将中文分词;使用开源工具mosesdecoder将英文语料中的标点符号正规化并分词;
步骤5:使用开源工具fairseq中的fairseq-preprocess命令生成汉语词表与英语词表,在这过程中指定词表大小或词表中单词出现的最低频率;将语料转换为二进制或其它存储形式;
步骤6:使用开源工具fairseq中的fairseq-train命令训练基于编码器-转换器-解码器框架的翻译模型,其中主要的参数包括:预处理过后语料的位置、学习率、批处理大小、模型结构、模型存储路径、编码器层数、解码器层数与用户自定义功能等参数。
步骤7:使用开源工具fairseq中的fairseq-generate生成语句并计算BLEU值,其中的主要参数包括:测试语料的位置、束搜索的大小、用户自定义功能等参数。
其中,本发明的基于编码器-转换器-解码器框架的翻译模型为:在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。该转换器结构可用于神经网络翻译模型的参数微调阶段,在编码器与解码器已经完成预训练的情况下,将转换器放置两者中间,再使用较少量的平行语料训练整个模型,从而减小对大规模平行语料的依赖。
进一步地,所述转换器采用Transformer中的编码器TransformerEncoder。
进一步地,所述转换器转换编码器最后时刻的隐含状态的步骤如下:
1):编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;转换器的头部大小Head设置可以为4,FF设置为1024,转换器的层数L设置为1;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;图1中,SrcLen表示源语言句子的长度,TgtLen表示目标语言句子的长度,Emb表示源语言或目标语言词嵌入的维度;
2):将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
3):按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。
2.根据权利要求1所述的基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:所述转换器采用Transformer中的编码器TransformerEncoder。
3.根据权利要求2所述的基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:所述转换器转换编码器最后时刻的隐含状态的步骤如下:
步骤1:编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;
步骤2:将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
步骤3:按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277181.8A CN111523329A (zh) | 2020-04-10 | 2020-04-10 | 基于编码器-转换器-解码器框架的神经网络机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277181.8A CN111523329A (zh) | 2020-04-10 | 2020-04-10 | 基于编码器-转换器-解码器框架的神经网络机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111523329A true CN111523329A (zh) | 2020-08-11 |
Family
ID=71902627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010277181.8A Pending CN111523329A (zh) | 2020-04-10 | 2020-04-10 | 基于编码器-转换器-解码器框架的神经网络机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523329A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257469A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 用于小型移动设备的深层神经机器翻译模型的压缩方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870902A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 神经机器翻译系统 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN110472727A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于重读和反馈机制的神经机器翻译方法 |
-
2020
- 2020-04-10 CN CN202010277181.8A patent/CN111523329A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107870902A (zh) * | 2016-09-26 | 2018-04-03 | 谷歌公司 | 神经机器翻译系统 |
CN110334361A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向小语种语言的神经机器翻译方法 |
CN110472727A (zh) * | 2019-07-25 | 2019-11-19 | 昆明理工大学 | 基于重读和反馈机制的神经机器翻译方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257469A (zh) * | 2020-11-03 | 2021-01-22 | 沈阳雅译网络技术有限公司 | 用于小型移动设备的深层神经机器翻译模型的压缩方法 |
CN112257469B (zh) * | 2020-11-03 | 2023-08-15 | 沈阳雅译网络技术有限公司 | 用于小型移动设备的深层神经机器翻译模型的压缩方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902171B (zh) | 基于分层知识图谱注意力模型的文本关系抽取方法及系统 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN107239446B (zh) | 一种基于神经网络与注意力机制的情报关系提取方法 | |
CN112988785B (zh) | 基于语言模型编码和多任务解码的sql转换方法及系统 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN114926150B (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN111241279A (zh) | 一种基于多任务学习机制的自然语言关系抽取方法 | |
CN110688394A (zh) | 面向新型供电城轨列车大数据运维的nl生成sql方法 | |
CN113971394B (zh) | 文本复述改写系统 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN116166688A (zh) | 基于自然语言交互的业务数据检索方法、系统及处理设备 | |
CN108595427A (zh) | 一种主观题评分方法、装置、可读存储介质以及电子设备 | |
CN110825381A (zh) | 一种结合源代码语义与语法特征的基于CNN的bug定位方法 | |
CN114548053A (zh) | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 | |
CN111523329A (zh) | 基于编码器-转换器-解码器框架的神经网络机器翻译方法 | |
CN117933258A (zh) | 一种命名实体识别方法和系统 | |
CN112948588A (zh) | 一种用于情报快速整编的中文文本分类方法 | |
CN116842968A (zh) | 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法 | |
CN115034236B (zh) | 一种基于知识蒸馏的中英机器翻译方法 | |
CN116681037A (zh) | 一种基于预训练模型的汉语到盲文的自动转换方法及系统 | |
CN113590745B (zh) | 一种可解释的文本推断方法 | |
CN102945231B (zh) | 一种面向增量式翻译的结构化语言模型构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200811 |