CN111523329A - 基于编码器-转换器-解码器框架的神经网络机器翻译方法 - Google Patents

基于编码器-转换器-解码器框架的神经网络机器翻译方法 Download PDF

Info

Publication number
CN111523329A
CN111523329A CN202010277181.8A CN202010277181A CN111523329A CN 111523329 A CN111523329 A CN 111523329A CN 202010277181 A CN202010277181 A CN 202010277181A CN 111523329 A CN111523329 A CN 111523329A
Authority
CN
China
Prior art keywords
converter
encoder
hidden
neural network
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010277181.8A
Other languages
English (en)
Inventor
李磊
吴霖
刘科材
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010277181.8A priority Critical patent/CN111523329A/zh
Publication of CN111523329A publication Critical patent/CN111523329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于编码器‑转换器‑解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。本发明利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。本发明基于编码器‑转换器‑解码器框架的翻译模型结构简单,易于实现。

Description

基于编码器-转换器-解码器框架的神经网络机器翻译方法
技术领域
本发明涉及基于编码器-转换器-解码器框架的神经网络机器翻译方法,属于自然语言处理技术领域。
背景技术
常规神经网络机器翻译模型由编码器与解码器组成,编码器负责对源语言句子编码,解码器负责解码。在循环神经网络的情形下,编码后的句子信息以神经网络中隐含状态的形式存在,将这种隐含状态直接赋值给解码器,便完成了两者之间的信息传递。编码器或解码器结构信息主要有层数与隐含单元的个数,赋值实际上就是按照对应的层与单元进行逐一赋值。
Transformer在序列到序列的学习任务中(尤其是机器翻译任务)表现十分出色,展现了十分强大的序列至序列的对齐能力,因此本发明选择Transformer中的编码器作为转换器,提供一种基于编码器-转换器-解码器框架的神经网络机器翻译方法。
发明内容
本发明提供了基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译时,对编码器最后时刻的隐含状态进行转换,将转换后的状态信息赋值给解码器。
本发明的技术方案是:基于编码器-转换器-解码器框架的神经网络机器翻译方法,利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。
进一步地,所述转换器采用Transformer中的编码器TransformerEncoder。
进一步地,所述转换器转换编码器最后时刻的隐含状态的步骤如下:
步骤1:编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;
步骤2:将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
步骤3:按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
本发明的有益效果是:
(1)、本发明选择Transformer中的编码器作为转换器,该编码器主要由多层注意力机制与前馈神经网络组成,其中还包含了残差连接与层正规化等操作。该编码器的输出形状与输入形状相同,主要作用是对其输入做更深层次的抽象。在本发明中,它的目标是学习两种语言的隐含空间的对应关系。其输入为编码器最后时刻的隐含状态,其输出结果则对解码器的初始隐含状态进行赋值;
(2)、基于编码器-转换器-解码器框架的翻译模型结构简单,易于实现。该发明的转换器结构可以在无监督神经网络翻译模型中发挥作用,把两种共用的语言空间分解为两种语言各自的语言空间,然后用转换器将两者关联起来。该转换器结构可用于神经网络翻译模型的参数微调阶段,在编码器与解码器已经完成预训练的情况下,将转换器放置两者中间,再使用较少量的平行语料训练整个模型,从而减小对大规模平行语料的依赖。
附图说明
图1为本发明中信息在编码器-转换器-解码器中的转换步骤。
具体实施方式
实施例1:如图1所示,基于编码器-转换器-解码器框架的神经网络机器翻译方法,具体步骤为:
步骤1:配置实验所需的深度学习开发平台pytorch,安装开源工具fairseq与mosesdecoder;
步骤2:使用中科院自动化研究所收集的casia2015作为训练、验证与测试语料,总共有一百零五万条平行句对,将其中的一百万条句对作为训练语料,其余的五万条语料分作两份,分别作为验证集与测试集使用;
步骤3:因为casia2015中的汉语句子是按照每条句子开头的字的拼音顺序排列的,所以对整个语料进行了随机打乱的操作,同样的英语语料同样地按照相同方式进行打乱;
步骤4:使用斯坦福大学分词工具将中文分词;使用开源工具mosesdecoder将英文语料中的标点符号正规化并分词;
步骤5:使用开源工具fairseq中的fairseq-preprocess命令生成汉语词表与英语词表,在这过程中指定词表大小或词表中单词出现的最低频率;将语料转换为二进制或其它存储形式;
步骤6:使用开源工具fairseq中的fairseq-train命令训练基于编码器-转换器-解码器框架的翻译模型,其中主要的参数包括:预处理过后语料的位置、学习率、批处理大小、模型结构、模型存储路径、编码器层数、解码器层数与用户自定义功能等参数。
步骤7:使用开源工具fairseq中的fairseq-generate生成语句并计算BLEU值,其中的主要参数包括:测试语料的位置、束搜索的大小、用户自定义功能等参数。
其中,本发明的基于编码器-转换器-解码器框架的翻译模型为:在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。该转换器结构可用于神经网络翻译模型的参数微调阶段,在编码器与解码器已经完成预训练的情况下,将转换器放置两者中间,再使用较少量的平行语料训练整个模型,从而减小对大规模平行语料的依赖。
进一步地,所述转换器采用Transformer中的编码器TransformerEncoder。
进一步地,所述转换器转换编码器最后时刻的隐含状态的步骤如下:
1):编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;转换器的头部大小Head设置可以为4,FF设置为1024,转换器的层数L设置为1;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;图1中,SrcLen表示源语言句子的长度,TgtLen表示目标语言句子的长度,Emb表示源语言或目标语言词嵌入的维度;
2):将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
3):按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:利用神经网络机器翻译模型进行机器翻译,其中,在神经网络机器翻译模型编码器与解码器的中间位置添加了一个转换器,此转换器用于转换编码器最后时刻的隐含状态从而来学习出两种语言空间之间的映射关系,然后将转换器的输出作为解码器的初始状态。
2.根据权利要求1所述的基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:所述转换器采用Transformer中的编码器TransformerEncoder。
3.根据权利要求2所述的基于编码器-转换器-解码器框架的神经网络机器翻译方法,其特征在于:所述转换器转换编码器最后时刻的隐含状态的步骤如下:
步骤1:编码器最后时刻隐含状态hidden与cell的形状同为(Layer,Batch,Hidden),将转换器所接收的特征维度Embed设置为编码器的隐层单元大小Hidden;设置转换器的其它参数,包括转换器的头部大小Head、前馈神经网络的维度FF与层数L;其中,Layer表示编码器的层数,Batch表示批处理的大小,Hidden表示编码器隐层单元的大小;
步骤2:将编码器最后时刻隐含状态hidden与cell分别作为转换器的输入,转换器对应输出记作hidden2与cell2,形状同为(Layer,Batch,Embed)大小的张量Tensor,其中Embed与Hidden的值相同,所以hidden2与cell2的形状同样表示为(Layer,Batch,Hidden);
步骤3:按照层数将hidden2与cell2从第0维分开,将分开后的两个元组依次赋值给解码器的各层网络。
CN202010277181.8A 2020-04-10 2020-04-10 基于编码器-转换器-解码器框架的神经网络机器翻译方法 Pending CN111523329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277181.8A CN111523329A (zh) 2020-04-10 2020-04-10 基于编码器-转换器-解码器框架的神经网络机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277181.8A CN111523329A (zh) 2020-04-10 2020-04-10 基于编码器-转换器-解码器框架的神经网络机器翻译方法

Publications (1)

Publication Number Publication Date
CN111523329A true CN111523329A (zh) 2020-08-11

Family

ID=71902627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277181.8A Pending CN111523329A (zh) 2020-04-10 2020-04-10 基于编码器-转换器-解码器框架的神经网络机器翻译方法

Country Status (1)

Country Link
CN (1) CN111523329A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257469A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 用于小型移动设备的深层神经机器翻译模型的压缩方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870902A (zh) * 2016-09-26 2018-04-03 谷歌公司 神经机器翻译系统
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法
CN110472727A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于重读和反馈机制的神经机器翻译方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107870902A (zh) * 2016-09-26 2018-04-03 谷歌公司 神经机器翻译系统
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法
CN110472727A (zh) * 2019-07-25 2019-11-19 昆明理工大学 基于重读和反馈机制的神经机器翻译方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257469A (zh) * 2020-11-03 2021-01-22 沈阳雅译网络技术有限公司 用于小型移动设备的深层神经机器翻译模型的压缩方法
CN112257469B (zh) * 2020-11-03 2023-08-15 沈阳雅译网络技术有限公司 用于小型移动设备的深层神经机器翻译模型的压缩方法

Similar Documents

Publication Publication Date Title
CN109902171B (zh) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
CN112988785B (zh) 基于语言模型编码和多任务解码的sql转换方法及系统
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
CN109635124A (zh) 一种结合背景知识的远程监督关系抽取方法
CN114926150B (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN111241279A (zh) 一种基于多任务学习机制的自然语言关系抽取方法
CN110688394A (zh) 面向新型供电城轨列车大数据运维的nl生成sql方法
CN113971394B (zh) 文本复述改写系统
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN116663578A (zh) 一种基于策略梯度方法改进的神经机器翻译方法
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
CN108595427A (zh) 一种主观题评分方法、装置、可读存储介质以及电子设备
CN110825381A (zh) 一种结合源代码语义与语法特征的基于CNN的bug定位方法
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置
CN111523329A (zh) 基于编码器-转换器-解码器框架的神经网络机器翻译方法
CN117933258A (zh) 一种命名实体识别方法和系统
CN112948588A (zh) 一种用于情报快速整编的中文文本分类方法
CN116842968A (zh) 一种模块化神经网络机器翻译模型及人在闭环交互式人工智能辅助翻译系统、方法
CN115034236B (zh) 一种基于知识蒸馏的中英机器翻译方法
CN116681037A (zh) 一种基于预训练模型的汉语到盲文的自动转换方法及系统
CN113590745B (zh) 一种可解释的文本推断方法
CN102945231B (zh) 一种面向增量式翻译的结构化语言模型构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811