CN112597780A - 一种多语种混合的异构神经网络机器学习翻译方法 - Google Patents
一种多语种混合的异构神经网络机器学习翻译方法 Download PDFInfo
- Publication number
- CN112597780A CN112597780A CN202011576955.3A CN202011576955A CN112597780A CN 112597780 A CN112597780 A CN 112597780A CN 202011576955 A CN202011576955 A CN 202011576955A CN 112597780 A CN112597780 A CN 112597780A
- Authority
- CN
- China
- Prior art keywords
- translation
- bpe
- heterogeneous
- text
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 78
- 238000010801 machine learning Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims description 16
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000014616 translation Effects 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 26
- 239000003550 marker Substances 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000012805 post-processing Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多语种混合的异构神经机器翻译系统,只需要训练和部署一个模型就可以解决多个语种以及任意翻译方向的翻译任务,并且利用不同的网络结构适应相应的编解码任务,配合不同的硬件结构获得最大的服务性能;针对工业级机器学习翻译应用,可以通过一个模型解决多个语种和不同翻译方向的神经网络机器学习翻译系统,指定任意待翻译的原语种文本以及任意目标语种,输出目标语种对应的文本,并且综合LSTM和Transformer两种不同的模型结构优势,极大地减少了模型部署成本,同时提升编码与解码效率,提供高性能实时翻译服务。
Description
技术领域
本发明涉及机器翻译领域,特别是涉及一种多语种混合的异构神经网络机器学习翻译方法。
背景技术
语言翻译任务是将一种语言翻译成另一种语言,由于语言表达的多样性,这对于机器学习而言是极具挑战的任务,但是由于巨大的市场需求,使用机器学习提供高性能的翻译服务具有非常大的商业价值。神经网络机器学习翻译是以神经网络作为核心提供机器学习翻译的一种智能化技术,特别是深度神经网络强大的语义建模能力,能克服传统机器学习翻译系统灵活性差、翻译结果生硬的缺陷,将成为未来最主流的机器学习翻译解决方案。
目前的神经机器学习翻译方案大多以seq2seq为网络模型,用两种语言的平行语料作为数据来训练模型,比如输入英文句子、输出中文句子来训练一个英中翻译模型,又或者反过来训练一个中英翻译模型,也就是说一个模型只能训练一种翻译方向,如果要实现一个多种语言多个翻译方向的神经网络机器学习翻译系统,需要训练和部署多个模型。
另一方面,seq2seq是典型的编码器-解码器架构,主流的模型结构以LSTM和Transformer为主,即使用LSTM作为编码器与解码器,或者以Transformer作为编码器和解码器。然而LSTM是一种串行结构,非常适配于机器学习翻译的解码过程,但是编码器无法并行,所以编码和训练阶段速度慢;Transformer是一种并行结构,编码和训练速度快,但是串行解码速度慢,实时翻译性能较差。
因此,需要一种可以混合多语种并且加速翻译的方法。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种高性能、易于部署的多语种混合的异构神经网络机器学习翻译方法。
为解决上述技术问题,本发明提供一种多语种混合的异构神经网络机器学习翻译方法,只用一个模型解决多个语种不同翻译方向的任务,并且编码器、解码器使用不同的模型结构来充分利用不同结构的优势,其特征在于,具体包括如下步骤:
步骤1:平行语料的预处理;将所有的平行语料混合以做统一的预处理,构建BPE分词器和数据集,所述数据集包含平行序列;
步骤2:构造异构seq2seq模型;以双向Transformer作为编码器,单向LSTM作为解码器,以Transformer编码器的输出作为上下文状态,用注意力机制连接编码器与解码器得到异构模型,用步骤1得到的数据集训练异构模型,用Adam优化器优化异构模型的参数;
步骤3:部署异构模型;异构部署训练好的异构模型,用以提供在线翻译服务;
步骤4:对请求文本进行翻译得到翻译文本;对在线的实时翻译请求的语料文本做与步骤1相同的预处理,传入异构模型进行编码和解码,将解码后的序列进行后处理,得到目标语言的翻译文本。
所述步骤1中,所述预处理具体包括如下步骤:
步骤1-1:标点分割;使用空格符将平行语料中所有的标点符号与连接文本断开,设置标点连接符;
步骤1-2:分词;以空格符为分割符,将步骤1-1处理后的文本分割为token序列;
步骤1-3:子词分割;对步骤1-2得到的所有token序列使用subword-nmt工具包,学习BPE分词器,所述BPE分词器由算法模块和一个BPE词典构成,所述算法模块由subword-nmt提供,所述BPE词典由学习得到,用所述BPE分词器对token序列进一步分割,得到BPE序列,设置BPE前缀连接符;
步骤1-4:对步骤1-3得到的BPE序列添加上对应的开始符和结束符,所述开始符为语种类型标记符,所述结束符是统一的结束符。
所述步骤2中,所述数据集中的平行序列可以交换平行对方向用于训练不同方向的翻译,所述平行序列中的语种类型标记符为提示变量,用于为异构模型提供翻译方向的信息,令输入序列为x=[x1,x2,…,xn],输出序列为y=[y1,y2,…,ym],其中,n为输入序列长度,m为输出序列长度,将x输入Transformer得到上下文状态H=[h1,h2,…,hn],其中,hi∈Rd表示输入序列第i个元素的状态向量,d表示状态向量的维度大小,则解码器LSTM输出为:
si=f(si-1,yi-1,ci)
=g(W[si-1;ci],yi-1)
其中,g(.)为标准的LSTM时间步函数,si表示解码器第i个时刻的隐状态向量,[si-1;ci]表示将上一个时刻的历史隐状态与当前时刻上下文状态向量ci拼接起来,W表示变换矩阵将拼接后的向量变换成与si相同的维度,将变换后的向量作为新的历史隐状态向量,ci的计算定义为:
eij=<si-1,hj>
其中,eij表示输出序列第i个符号对输入序列第j个符号的注意力权重分数,由si-1与hj的内积得到,αij表示归一化后的注意力分数。
所述步骤3中,所述异构部署具体为:所述异构模型的编码器部署在GPU上,所述异构模型的解码器部署在CPU;
所述步骤4中,对于在线的实时翻译请求,具体包括以下处理步骤:
步骤4-1:用空格符将请求文本中的标点符号与连接处断开,并添加标点连接符,与步骤1-1相同;
步骤4-2:以空格符作为分隔符将步骤4-1得到的文本分割为token序列,与步骤1-2相同;
步骤4-3:利用步骤1-3得到的BPE词典对步骤4-2得到的token序列进一步分割,得到BPE序列;
步骤4-4:根据翻译请求的翻译方向,对步骤4-3得到的BPE序列,在开头添加原语种标记符,在结尾添加结束标记符,得到输入序列,将输入序列输入编码器得到上下文状态,将上下文状态与目标语种标记符一起输入解码器逐步解码,直到解码输出为结束标记符为止;
步骤4-5:文本还原,根据标点连接符和BPE前缀连接符的指示,去除标点连接符、BPE前缀连接符以及分割处的空格符,将token序列还原成完整的一段文本。
本发明所达到的有益效果:针对工业级机器学习翻译应用,可以通过一个模型解决多个语种和不同翻译方向的神经网络机器学习翻译系统,指定任意待翻译的原语种文本以及任意目标语种,输出目标语种对应的文本,并且综合LSTM和Transformer两种不同的模型结构优势,极大地减少了模型部署成本,同时提升编码与解码效率,提供高性能实时翻译服务。
附图说明
图1为本发明的示例性实施例的方法流程简图;
图2为本发明的示例性实施例中的系统结构示意图;
图3为本发明的示例性实施例中的异构seq2seq网络结构示意图。
具体实施方式
下面结合附图和示例性实施例对本发明作进一步的说明:
如图1所示的一种多语种混合异构神经网络机器学习翻译方法,包含如下步骤:
步骤1:平行语料预处理;将所有的平行语料混合以做统一的预处理,构建BPE分词器和数据集;所述数据集包含平行序列;
所述预处理具体包括如下步骤:
步骤1-1:标点分割;使用空格符将平行语料中所有的标点符号与连接文本断开,并添加标点连接符“##”,例如“I’m working hard.”处理后变为“I##’##m workinghard##.”;
步骤1-2:分词;以空格符为分割符,将步骤1-1处理后的文本分割为token序列,按照上述例子得到:[I,##’##,m,working,hard,##.];
步骤1-3:子词分割;对步骤1-2得到的所有token序列使用subword-nmt工具包,学习BPE分词器,所述BPE分词器由算法模块和一个BPE词典构成,所述算法模块由subword-nmt提供,所述BPE词典由学习得到,用所述BPE分词器对token序列进一步分割,得到BPE序列:[I,##’##,m,work@@,ing,hard,##.],使用“@@”为BPE前缀连接符;
步骤1-4:对步骤1-3得到的BPE序列添加上对应的开始符和结束符,所述开始符为语种类型标记符,所述结束符是统一的结束符,例如:[<en_sos>,I,##’##,m,work@@,ing,hard,##.,<eos>]。
步骤2:异构seq2seq模型的构建与训练;以双向Transformer作为编码器,单向LSTM作为解码器,以Transformer编码器的输出作为上下文状态,用注意力机制连接编码器与解码器得到异构模型,用步骤1得到的数据集训练异构模型,用Adam优化器优化异构模型的参数;具体为:
用步骤1得到的平行序列训练模型,所述平行序列可以交换平行对方向来训练不同方向的翻译,一个作为输入序列,另一个作为输出序列,例如英语和法语对应的序列为:[<en_sos>,I,##’##,m,work@@,ing,hard,##.,<eos>]和[<fr_sos>,Je,trava@@,ille,dur,##.,<eos>],可以将第一个作为输入、第二个作为输出训练英法翻译方向,也可以交换顺序训练法英翻译,所述平行序列中的语种类型标记符为提示变量,用于为异构模型提供翻译方向的信息,令输入序列为x=[x1,x2,…,xn],输出序列为y=[y1,y2,…,ym],其中,n为输入序列长度,m为输出序列长度,输入输出长度不一定相等。将x输入Transformer得到上下文状态H=[h1,h2,...,hn],其中,hi∈Rd表示输入序列第i个元素的状态向量,d表示状态向量的维度大小,则解码器LSTM输出为:
si=f(si-1,yi-1,ci)
=g(W[si-1;ci],yi-1)
其中,g(.)为标准的LSTM时间步函数,si表示解码器第i个时刻的隐状态向量,[si-1;ci]表示将上一个时刻的历史隐状态与当前时刻上下文状态向量ci拼接起来,W表示变换矩阵将拼接后的向量变换成与si相同的维度,将变换后的向量作为新的历史隐状态向量,ci的计算定义为:
eij=<si-1,hj>
其中,eij表示输出序列第i个符号对输入序列第j个符号的注意力权重分数,由si-1与hj的内积得到,αij表示归一化后的注意力分数。
步骤3:异构seq2seq模型部署;异构部署训练好的异构模型,用以提供在线翻译服务;具体为:所述异构模型的编码器部署在GPU上获得最大的并行性能,所述异构模型的解码器部署在CPU上提升解码速度;
步骤4:在线翻译服务;对在线的实时翻译请求的语料文本做与步骤1相同的预处理,传入异构模型进行编码和解码;
所述步骤4中,对于在线的实时翻译请求,具体包括以下处理步骤:
步骤4-1:用空格符将请求文本中的标点符号与连接处断开,并添加标点连接符,与步骤1-1相同;
步骤4-2:以空格符作为分隔符将步骤4-1得到的文本分割为token序列,与步骤1-2相同;
步骤4-3:利用步骤1-3得到的BPE词典对步骤4-2得到的token序列进一步分割,得到BPE序列;
步骤4-4:根据翻译请求的翻译方向,对步骤4-3得到的BPE序列,在开头添加原语种标记符,在结尾添加结束标记符,得到输入序列,将输入序列输入编码器得到上下文状态,将上下文状态与目标语种标记符一起输入解码器逐步解码,直到解码输出为结束标记符为止;
步骤5:文本还原;对解码后的序列进行后处理,将目标序列经过文本还原后处理得到目标语种的翻译文本;具体为根据标点连接符和BPE前缀连接符的指示,去除标点连接符、BPE前缀连接符以及分割处的空格符,将token序列还原成完整的一段文本。
本发明公开一种多语种混合神经翻译方案的实施例,包括统一的前处理和后处理流程,具体为:
步骤1):将输入的原语种文本按照标点符号添加空格分隔符,并添加连接符“##”,例如“I’m working hard.”处理为“I##’##m working hard##.”;
步骤2):进一步将处理后的文本以空格为分隔符分割成token序列,即[I,##’##,m,working,hard,##.];
步骤3):再使用BPE进行子词分割,将上一步序列处理为[I,##’##,m,work@@,ing,hard,##.];
步骤4):对上一步得到的序列添加标记符,具体为在开始位置添加语种标记符,在结束位置添加结束符,这一步得到输入序列[<en_sos>,I,##’##,m,work@@,ing,hard,##.,<eos>];
步骤5):将输入序列输入异构seq2seq网络模型,由编码器得到上下文状态H=[h1,h2,…,hn],指定目标语言类型,例如法语,则解码器输入初始符号y0=“<fr_sos>”,由初始状态向量s0(初始向量设置为全0向量)得到上下文状态的注意力表示向量c0,将(y0,s0,c0)共同输入解码器得到新的状态向量s1和第一个符号y1=“Je”,然后重复这个过程直到输出符号为“<eos>”为止,这样就得到解码后的目标序列[<fr_sos>,Je,trava@@,ille,dur,##.,<eos>];
步骤6):将目标序列经过文本还原后处理得到目标语种的文本,即“Je travailledur.”。
多语种混合神经机器翻译,通过多级分词与添加标记符的方式,将任意语种的文本转化为与语种类型无关的序列表示,并且任何一对平行序列都是方向可逆的,模型只负责序列到序列的转换,不需要考虑语种和翻译方向。
如图2所示的一种多语种混合的异构神经网络机器学习翻译系统,包括:平行语料预处理模块,异构seq2seq网络模块。
所述平行语料预处理模块,用于将多个语种不同的翻译方向做统一的处理,将任意原语种文本统一处理成输入序列。
所述异构seq2seq网络模块,用于将输入原语种序列转换成输出语种序列,即翻译的核心功能,并且提供性能优化,让神经机器翻译技术可以提供实时翻译服务的能力。
如图3所示,本发明公开一种异构seq2seq网络模型,具体包含双向Transformer编码器与单向LSTM解码器。
所述双向Transformer编码器,是由多层注意力模型堆叠而成的深度神经网络,用于将输入序列x=[x1,x2,…,xn]编码成具有上下文信息的状态向量的序列表示H=[h1,h2,…,hn],其中每一个hi都是一个向量。并且由于Transformer是并行结构,可以使用GPU获得最高的编码性能。
所述单向LSTM解码器,用于将编码器得到的上下文状态解码成目标语言的符号序列y=[y1,y2,…,ym]。由于seq2seq架构本身在解码器端就是一个迭代的过程,即每次解码一个符号,再利用这个符号去解码下一个符号,这样的架构适配于LSTM这样的循环神经网络,再配合CPU处理循环控制流的能力可以获得最大的解码性能。
该异构seq2seq网络架构兼容了不同网络结构的特性,可以获得最大的在线翻译性能。
本发明主要用于提供一种多语种混合的异构神经机器翻译系统,只需要训练和部署一个模型就可以解决多个语种以及任意翻译方向的翻译任务,并且利用不同的网络结构适应相应的编解码任务,配合不同的硬件结构获得最大的服务性能。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式做出的其它改进与应用,都属于本发明的保护范围。
Claims (4)
1.一种多语种混合的异构神经网络机器学习翻译方法,其特征在于,包括如下步骤:
步骤1:平行语料的预处理;将所有的平行语料混合以做统一的预处理,构建BPE分词器和数据集,所述数据集包含平行序列;
步骤2:构造异构seq2seq模型;以双向Transformer作为编码器,单向LSTM作为解码器,以Transformer编码器的输出作为上下文状态,用注意力机制连接编码器与解码器得到异构模型,用步骤1得到的数据集训练异构模型,用Adam优化器优化异构模型的参数;
步骤3:部署异构模型;异构部署训练好的异构模型,用以提供在线翻译服务;
步骤4:对请求文本进行翻译得到翻译文本;对在线的实时翻译请求的语料文本做与步骤1相同的预处理,传入异构模型进行编码和解码,将解码后的序列进行后处理,得到目标语言的翻译文本。
2.如权利要求1所述的一种多语种混合的异构神经网络机器学习翻译方法,其特征在于:所述步骤1中,所述预处理具体包括如下步骤:
步骤1-1:标点分割;使用空格符将平行语料中所有的标点符号与连接文本断开,设置标点连接符;
步骤1-2:分词;以空格符为分割符,将步骤1-1处理后的文本分割为token序列;
步骤1-3:子词分割;对步骤1-2得到的所有token序列使用subword-nmt工具包,学习BPE分词器,所述BPE分词器由算法模块和一个BPE词典构成,所述算法模块由subword-nmt提供,所述BPE词典由学习得到,用所述BPE分词器对token序列进一步分割,得到BPE序列,设置BPE前缀连接符;
步骤1-4:对步骤1-3得到的BPE序列添加上对应的开始符和结束符,所述开始符为语种类型标记符,所述结束符是统一的结束符。
3.如权利要求2所述的一种多语种混合异构神经网络机器学习翻译方法,其特征在于:所述步骤2中,所述数据集中的平行序列可以交换平行对方向用于训练不同方向的翻译,所述平行序列中的语种类型标记符为提示变量,用于为异构模型提供翻译方向的信息,令输入序列为x=[x1,x2,…,xn],输出序列为y=[y1,y2,…,ym],其中,n为输入序列长度,m为输出序列长度,将x输入Transformer得到上下文状态H=[h1,h2,…,hn],其中,hi∈Rd表示输入序列第i个元素的状态向量,d表示状态向量的维度大小,则解码器LSTM输出为:
si=f(si-1,yi-1,ci)
=g(W[si-1;ci],yi-1)
其中,g(.)为标准的LSTM时间步函数,si表示解码器第i个时刻的隐状态向量,[si-1;ci]表示将上一个时刻的历史隐状态与当前时刻上下文状态向量ci拼接起来,W表示变换矩阵将拼接后的向量变换成与si相同的维度,将变换后的向量作为新的历史隐状态向量,ci的计算定义为:
eij=<si-1,hj>
其中,eij表示输出序列第i个符号对输入序列第j个符号的注意力权重分数,由si-1与hj的内积得到,αij表示归一化后的注意力分数。
4.如权利要求3所述的一种多语种混合的异构神经网络机器学习翻译方法,其特征在于:所述步骤3中,所述异构部署具体为:所述异构模型的编码器部署在GPU上,所述异构模型的解码器部署在CPU;
所述步骤4中,对于在线的实时翻译请求,具体包括以下处理步骤:
步骤4-1:用空格符将请求文本中的标点符号与连接处断开,并添加标点连接符,与步骤1-1相同;
步骤4-2:以空格符作为分隔符将步骤4-1得到的文本分割为token序列,与步骤1-2相同;
步骤4-3:利用步骤1-3得到的BPE词典对步骤4-2得到的token序列进一步分割,得到BPE序列;
步骤4-4:根据翻译请求的翻译方向,对步骤4-3得到的BPE序列,在开头添加原语种标记符,在结尾添加结束标记符,得到输入序列,将输入序列输入编码器得到上下文状态,将上下文状态与目标语种标记符一起输入解码器逐步解码,直到解码输出为结束标记符为止;
步骤4-5:文本还原,根据标点连接符和BPE前缀连接符的指示,去除标点连接符、BPE前缀连接符以及分割处的空格符,将token序列还原成完整的一段文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576955.3A CN112597780A (zh) | 2020-12-28 | 2020-12-28 | 一种多语种混合的异构神经网络机器学习翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011576955.3A CN112597780A (zh) | 2020-12-28 | 2020-12-28 | 一种多语种混合的异构神经网络机器学习翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597780A true CN112597780A (zh) | 2021-04-02 |
Family
ID=75202605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011576955.3A Pending CN112597780A (zh) | 2020-12-28 | 2020-12-28 | 一种多语种混合的异构神经网络机器学习翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597780A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
CN110738062A (zh) * | 2019-09-30 | 2020-01-31 | 内蒙古工业大学 | 一种gru神经网络蒙汉机器翻译方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
WO2020146873A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
US20200342182A1 (en) * | 2018-08-30 | 2020-10-29 | Google Llc | Cross-lingual classification using multilingual neural machine translation |
-
2020
- 2020-12-28 CN CN202011576955.3A patent/CN112597780A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107357789A (zh) * | 2017-07-14 | 2017-11-17 | 哈尔滨工业大学 | 融合多语编码信息的神经机器翻译方法 |
CN108563640A (zh) * | 2018-04-24 | 2018-09-21 | 中译语通科技股份有限公司 | 一种多语言对的神经网络机器翻译方法及系统 |
US20200342182A1 (en) * | 2018-08-30 | 2020-10-29 | Google Llc | Cross-lingual classification using multilingual neural machine translation |
WO2020146873A1 (en) * | 2019-01-11 | 2020-07-16 | Applications Technology (Apptek), Llc | System and method for direct speech translation system |
CN110674646A (zh) * | 2019-09-06 | 2020-01-10 | 内蒙古工业大学 | 一种基于字节对编码技术的蒙汉机器翻译系统 |
CN110738062A (zh) * | 2019-09-30 | 2020-01-31 | 内蒙古工业大学 | 一种gru神经网络蒙汉机器翻译方法 |
CN111382580A (zh) * | 2020-01-21 | 2020-07-07 | 沈阳雅译网络技术有限公司 | 一种面向神经机器翻译的编码器-解码器框架预训练方法 |
Non-Patent Citations (2)
Title |
---|
卡皮卡丘皮: ""多语言多领域机器翻译系统的搭建"", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/weixin_42288510/article/details/106496734> * |
微笑SUN: ""seq2seq模型详解及对比(CNN,RNN,Transformer)"", pages 1, Retrieved from the Internet <URL:https://www.cnblogs.com/jiangxinyang/p/11114993.html> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241074A (zh) * | 2021-04-28 | 2021-08-10 | 平安科技(深圳)有限公司 | 多语言转译模型的训练方法、装置、设备及可读存储介质 |
CN113688822A (zh) * | 2021-09-07 | 2021-11-23 | 河南工业大学 | 一种时序注意力机制场景图像识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240169166A1 (en) | Translation method, target information determining method, related apparatus, and storage medium | |
JP7366984B2 (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
CN110377918B (zh) | 融合句法解析树的汉-越神经机器翻译方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
Jiang et al. | Natural language processing and its applications in machine translation: A diachronic review | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN109933801A (zh) | 基于预测位置注意力的双向lstm命名实体识别方法 | |
Kaur et al. | Review of machine transliteration techniques | |
CN112597780A (zh) | 一种多语种混合的异构神经网络机器学习翻译方法 | |
CN111401079A (zh) | 神经网络机器翻译模型的训练方法、装置及存储介质 | |
WO2023051148A1 (zh) | 用于多语言处理的方法和装置 | |
CN111553157A (zh) | 一种基于实体替换的对话意图识别方法 | |
CN108647254B (zh) | 基于模式嵌入的自动树库转化方法及系统 | |
Gangar et al. | Hindi to english: Transformer-based neural machine translation | |
CN117292146A (zh) | 一种面向工业场景的构建多模态大语言模型的方法、系统和应用方法 | |
CN112287694A (zh) | 基于共享编码器的汉越无监督神经机器翻译方法 | |
CN117218503A (zh) | 一种融合图像信息的越汉跨语言新闻文本摘要方法 | |
CN111368532A (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
Ma et al. | Joint pre-trained Chinese named entity recognition based on bi-directional language model | |
Cho | Introduction to neural machine translation with GPUs (part 3) | |
CN113486160B (zh) | 基于跨语言知识的对话方法及系统 | |
CN112257460B (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
CN114065780A (zh) | 机器翻译方法 | |
Laitonjam et al. | A Hybrid Machine Transliteration Model Based on Multi-source Encoder–Decoder Framework: English to Manipuri | |
CN111680523A (zh) | 基于上下文语义比对的人机协同翻译系统与方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |