CN112287694A - 基于共享编码器的汉越无监督神经机器翻译方法 - Google Patents
基于共享编码器的汉越无监督神经机器翻译方法 Download PDFInfo
- Publication number
- CN112287694A CN112287694A CN202010985908.8A CN202010985908A CN112287694A CN 112287694 A CN112287694 A CN 112287694A CN 202010985908 A CN202010985908 A CN 202010985908A CN 112287694 A CN112287694 A CN 112287694A
- Authority
- CN
- China
- Prior art keywords
- chinese
- word
- model
- vietnamese
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013519 translation Methods 0.000 title claims abstract description 77
- 230000001537 neural effect Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 102100040677 Glycine N-methyltransferase Human genes 0.000 abstract description 6
- 101001039280 Homo sapiens Glycine N-methyltransferase Proteins 0.000 abstract description 6
- 230000014616 translation Effects 0.000 description 59
- 238000002474 experimental method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于共享编码器的汉越无监督神经机器翻译方法。本发明只使用汉语和越南语的单语语料,用无监督的方式进行训练。首先使用数字对齐作为种子词典训练汉越双语词嵌入。然后再将该双语词嵌入应用到共享编码器模型中,将汉语和越南语映射到同一语义空间,然后再分别使用解码器对越南语和汉语分别解码,实现基于共享编码器的汉越无监督神经机器翻译。本发明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势,并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。
Description
技术领域
本发明涉及基于共享编码器的汉越无监督神经机器翻译方法,属于自然语言处理技术领域。
背景技术
在越南语自然语言处理领域中,对于汉越机器翻译而言,由于汉语和越南语的语言差异性相对较大,不存在同源词,并且双语平行语料稀缺而单语语料充足,缺少大规模、高质量平行语料库是一个实际问题。汉语到越南语的翻译是典型的低资源机器翻译情况。目前有人利用枢轴语言和半监督的方法解决低资源问题,但是这些方法仍然需要大量的跨语言信息。因此对只利用单语语料的无监督汉越机器翻译方法进行了研究,并对基于共享编码器的汉越无监督的神经机器翻译方法进行了实现。
发明内容
本发明提供了基于共享编码器的汉越无监督神经机器翻译方法,用于解决和提升在双语语言差异性大且双语平行语料稀缺,缺少大规模、高质量平行语料库的情况下的低资源神经机器翻译的性能和效果。
本发明的技术方案是:基于共享编码器的汉越无监督神经机器翻译方法,所述方法包括如下:
Step1、分别训练汉语和越南语的单语词嵌入,找到最佳的映射矩阵,使得映射后的源语言(汉语)与目标语言在同一语义空间下距离最近;
Step2、将汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中后,把距离最近的源语言与目标语言词对添加到词典中,进行词典自学习;
Step3、构建基于共享编码器的汉越无监督神经机器翻译模型,同时实现从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y,Xi*为第i个源语言词嵌入,Yj*为第j个目标语言词嵌入;
Step1.2、将种子词典以二进制矩阵D的形式表示,当源语言中的第i个词和目标语言中的第j个词相互对齐时,Dij=1,利用公式找到最佳的映射矩阵W*,该最佳映射矩阵可以使映射后的Xi*和Yj*的欧几里得距离最短。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、首先将训练的汉语(源语言)与越南语(目标语言)的词嵌入映射到同一空间之中,再通过邻近检索的方式,对每一个源语言的单词匹配一个意思最相近的目标语言单词,最后将这种对齐的源语言与目标语言词对添加到词典中,重新进行距离的计算,不断扩展词典,以此进行反复迭代,直到最终收敛为止。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、构建的模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成,两个解码器分别为汉语解码器和越南语解码器,编码器为双层的双向循环神经网络BiGRU,解码器为双层的单向循环神经网络UniGRU;对于汉语(L1)中的每个句子,系统交替训练,用L1解码器重建它,并进行动态反向翻译,它是以推理模式翻译句子(用共享编码器对其进行编码并用越南语(L2)解码器解码)然后用共享编码器优化编码该翻译语句的概率,并用L1解码器恢复原始句子,训练在L1和L2中的句子之间交替进行;
Step3.2、在输入汉语(L1)句中引入随机噪声;
利用相同的自动编码器去噪原理,系统经过训练能重建损坏的输入句子的原始版本,通过在连续单词之间进行随机交换来改变输入句子的单词顺序,对于N个元素的序列,进行这种N/2个随机交换来学习该语言的内部结构以恢复正确的词序,同时,也能阻止系统过分依赖输入序列的词序;
Step3.3、基于回译方法,提出对偶结构形式的翻译模型体系;
与使用独立模型一次反向翻译整个语料库的标准反向翻译相反,使用正在训练的模型即时反向翻译每个小批量句子,这样,随着训练的进行和模型的改进,它将通过反向翻译产生更好的合成句子对,这将有助于在随后的迭代中进一步改进模型。
本发明的有益效果是:本发明提出的基于共享编码器的汉越无监督神经机器翻译方法,证明了在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势,并且在该无监督模型基础上加入少量平行语料后训练的半监督的翻译模型超过了直接使用相同量的平行语料训练的有监督翻译模型。为低资源神经机器翻译等工作提供了强有力的支撑。
附图说明
图1为本发明中的总的模型结构图;
图2为本发明中的使用数字对齐进行词映射示意图;
具体实施方式
如图1-2所示,基于共享编码器的汉越无监督神经机器翻译方法,所述基于共享编码器的汉越无监督神经机器翻译方法的具体步骤如下:
Step1、首先分别获取汉语和越南语的单语语料。分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y,Xi*为第i个源语言词嵌入,Yj*为第j个目标语言词嵌入。将词典以二进制矩阵D的形式表示,当源语言中的第i个词和目标语言中的第j个词相互对齐时Dij=1。其中学习词映射的目标是找到最佳的映射矩阵W*,这个最佳映射矩阵可以使映射后的Xi*和Yj*的欧几里得距离最短,公式如下:
对词嵌入矩阵X和Y进行长度归一化和中心化,并将W约束为正交矩阵。在这种正交性约束下,最小化欧几里德距离就等于最大化点积。即:
其中,Tr表示矩阵的迹(主对角线中所有元素的总和)。通过求解可以得到最优结果为W*=UVT(U、V表示两个正交矩阵),对其进行奇异值分解后得到公式:XTDY=U∑VT,同时由于D具有一定的稀疏性,可以在线性时间内得到最终的解;
Step2、进行词典自学习,如图2中所示,最先开始给定的数字对齐词典中的词为(1-a,2-b),然后训练双语词嵌入,将源语言映射到目标语言的空间。使得映射后的“1”与“a”以及“2”与“b"之间在向量空间中的的距离最近。再使用最近邻检索的方法寻找最近距离的对应词,如图2中“3”与“c”的距离较近,把它再加入词典中得到新的词典(1-a,2-b,3-c)作为新的种子词典,重新进行距离的计算,不断扩展词典。对训练完后的词典用集束搜索(Beam Search)进行翻译;
Step3、构建基于共享编码器的汉越无监督神经机器翻译模型,该模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成,两个解码器分别为汉语解码器和越南语解码器,编码器为双层的双向循环神经网络(BiGRU),解码器为双层的单向循环神经网络(UniGRU)。对于汉语(L1)中的每个句子,在输入汉语(L1)句中引入随机噪声。系统交替训练,用L1解码器重建它,并进行动态反向翻译每个小批量句子,然后用共享编码器优化编码该翻译语句的概率,之后再用L1解码器恢复原始句子。训练在L1和越南语(L2)中的句子之间交替进行。该模型结构为对偶结构形式,同时实现了从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。
上述架构主要使用以下两种策略以无监督的方式进行训练:
一.去噪:在输入源语言句子中引入随机噪声。这个想法是利用相同的自动编码器去噪原理,系统经过训练可以重建损坏的输入句子的原始版本。为此,通过在连续单词之间进行随机交换来改变输入句子的单词顺序。对于N个元素的序列,进行这种N/2个随机交换。这样,该模型需要学习该语言的内部结构以恢复正确的词序。同时,通过阻止系统过分依赖输入序列的词序,可以更好地解释跨语言的实际词序差异。
二.回译:与使用独立模型一次反向翻译整个语料库的标准反向翻译相反,本模型所提出的体系结构是对偶结构,使用正在训练的模型即时反向翻译每个小批量句子。这样,随着训练的进行和模型的改进,它将通过反向翻译产生更好的合成句子对,这将有助于在随后的迭代中进一步改进模型。在训练过程中,我们将这些不同的培训目标从小批量交替到小批量。给定两种语言L1和L2,每次迭代将对L1进行一次小批量去噪,对L2进行另一次去噪,从L1到L2进行一次小批量的即时反向转换,另一次从L2到L1。此外,通过进一步假设我们可以访问小的平行语料库,系统也可以通过组合这些步骤以直接预测该平行语料库中的翻译而以半监督方式训练,就像在标准NMT中一样。
实验语料是从互联网上爬取的,爬取单语语料清洗后,获得汉语5800万句,越南语单语语料3100万句,汉越平行语料10万句对。对于语料预处理,首先对越南语使用underthesea越南语nlp分词工具对越南语进行分词,使用jieba分词工具对中文进行分词,使用word2vec训练单语数据的词嵌入。
汉语、越南语和英语分别都训练300维的词嵌入。300维的词嵌入是使用skip-gram模型训练的。用于加入词典之后训练双语词嵌入。之后分别将汉语和越南语单语词嵌入映射到共享空间训练汉越双语词嵌入。模型使用Adam作为优化器,学习率为A=0:0002。在训练期间,使用丢失正则化,dropout为0.3,迭代300,000步,实验中测试集为在爬取的10万个汉越平行句对中随机抽取的2000个平行句对,实验使用multi-bleu.perl脚本计算BLEU值作为评价指标。
实验主要分为以下三个部分:汉越无监督神经机器翻译翻译、无监督机器翻译模型基础上再分别加入1万和10万平行语料的半监督汉越神经机器翻译、直接使用1万和10万的平行语料在GNMT和Transformer上的有监督汉越机器翻译模型训练。
汉越无监督神经机器翻译模型训练:仅使用汉语和越南语单语语料训练翻译系统。半监督汉越神经机器翻译模型训练:大多数情况下,研究的语种常常会有少量的平行语料,可以使用这些平行语料来提升本模型的性能,但它的语料规模不足以直接训练完整的传统NMT系统。所以除了单语语料库之外,本章还加入了少量的平行语料训练半监督神经机器翻译模型汉越。在本文提出的方法基础上又使用1万和10万个平行句对进行实验。对于有监督的汉越神经机器翻译模型训练:用上述半监督实验中加入的1万和10万个平行句对训练传统的有监督神经机器翻译模型,用来与半监督的实验进行对比,不同方式的实验结果的对比如表1所示。
表1不同方法汉越机器翻译实验BLUEU值对比结果
从实验结果第1行可以看出,实现了只是用汉语和越南语单语的汉越神经机器无监督模型,汉语到越南语翻译BLEU值为5.86、越南语到汉语的翻译BLEU值为9.56,说明汉越无监督神经机器翻译是可行的;第2行和第3行分别是在无监督翻译模型基础上分别加入1万和10万汉越平行句对实验结果,第4-7行是只是用平行句对训练的汉越神经机器翻译模型;对比第2、4、6行不难看出在汉越无监督神经机器翻译基础上加入一万汉越平行句对的半监督模型的性能高于只是用1万平行句对训练的有监督的神经机器翻译,也说明在极低资源下汉越无监督神经机器翻译模型相较于GNMT和Transformer有很大的优势;对比第3、5、7行可以看出相较于GNMT模型对比,无监督的汉越神经机器翻译模型加入10万平行句对时在汉语到越南语翻译方向上有2.47个BLEU的提、在越南语到汉语翻译方向上有3.05个BLEU的提升,但是略低于Transformer模型的翻译性能原因是因为本章使用的模型是在GNMT模型上修改而来,未能达到Transformer模型性能,也侧面反映出模型没能成分利用平行语料,半监督的翻译还有待改进。
针对汉越语言差异性较大没有同源词,模型选用从数字对齐关系出发的无监督的学习汉越双语词嵌入在共享编码器编码模型上实现汉越无监督神经机器翻译,实验结果看模型在汉越无监督机器翻译上的性能虽然还不够理想,但是在无监督模型基础上加入平行语料训练半监督的翻译模型性能超过了直接使用平行语料训练的有监督翻译模型的性能,因此本模型对于低资源下的神经机器翻译研究有重要的参考意义。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述方法包括如下:
Step1、分别训练汉语和越南语的单语词嵌入,找到最佳的映射矩阵,使得映射后的源语言与目标语言在同一语义空间下距离最近;
Step2、将源语言与目标语言的词嵌入映射到同一空间之中后,把距离最近的源语言与目标语言词对添加到词典中,进行词典自学习;
Step3、构建基于共享编码器的汉越无监督神经机器翻译模型,同时实现从汉语到越南语和从越南语到汉语的两个翻译方向的翻译功能。
2.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、分别利用汉语和越南语的单语语料训练单语词嵌入矩阵X和Y,Xi*为第i个源语言词嵌入,Yj*为第j个目标语言词嵌入;
Step1.2、将种子词典以二进制矩阵D的形式表示,当源语言中的第i个词和目标语言中的第j个词相互对齐时,Dij=1;利用公式找到最佳的映射矩阵W*,该最佳映射矩阵可以使映射后的Xi*和Yj*的欧几里得距离最短。
3.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、首先将训练的源语言与目标语言的词嵌入映射到同一空间之中,再通过邻近检索的方式,对每一个源语言的单词匹配一个意思最相近的目标语言单词,最后将这种对齐的源语言与目标语言词对添加到词典中,重新进行距离的计算,不断扩展词典,以此进行反复迭代,直到最终收敛为止。
4.根据权利要求1所述的基于共享编码器的汉越无监督神经机器翻译方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、构建的模型是由一个含有汉越双语词嵌入的共享编码器以及两个解码器组合而成,两个解码器分别为汉语解码器和越南语解码器,编码器为双层的双向循环神经网络BiGRU,解码器为双层的单向循环神经网络UniGRU;对于汉语L1中的每个句子,系统交替训练,用L1解码器重建它,并进行动态反向翻译,它是以推理模式翻译句子然后用共享编码器优化编码该翻译语句的概率,并用L1解码器恢复原始句子,训练在L1和L2中的句子之间交替进行;
Step3.2、在输入汉语L1句中引入随机噪声;
利用相同的自动编码器去噪原理,系统经过训练能重建损坏的输入句子的原始版本,通过在连续单词之间进行随机交换来改变输入句子的单词顺序,对于N个元素的序列,进行这种N/2个随机交换来学习该语言的内部结构以恢复正确的词序,同时,也能阻止系统过分依赖输入序列的词序;
Step3.3、基于回译方法,提出对偶结构形式的翻译模型体系;
与使用独立模型一次反向翻译整个语料库的标准反向翻译相反,使用正在训练的模型即时反向翻译每个小批量句子,这样,随着训练的进行和模型的改进,它将通过反向翻译产生更好的合成句子对,这将有助于在随后的迭代中进一步改进模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985908.8A CN112287694A (zh) | 2020-09-18 | 2020-09-18 | 基于共享编码器的汉越无监督神经机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985908.8A CN112287694A (zh) | 2020-09-18 | 2020-09-18 | 基于共享编码器的汉越无监督神经机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287694A true CN112287694A (zh) | 2021-01-29 |
Family
ID=74419992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010985908.8A Pending CN112287694A (zh) | 2020-09-18 | 2020-09-18 | 基于共享编码器的汉越无监督神经机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287694A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN114757203A (zh) * | 2022-04-27 | 2022-07-15 | 北京智谱华章科技有限公司 | 基于对比学习的中文句子精简方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110472252A (zh) * | 2019-08-15 | 2019-11-19 | 昆明理工大学 | 基于迁移学习的汉越神经机器翻译的方法 |
CN110956045A (zh) * | 2018-09-26 | 2020-04-03 | 北京三星通信技术研究有限公司 | 机器翻译方法、训练方法、相应的装置及电子设备 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN111639197A (zh) * | 2020-05-28 | 2020-09-08 | 山东大学 | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
-
2020
- 2020-09-18 CN CN202010985908.8A patent/CN112287694A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956045A (zh) * | 2018-09-26 | 2020-04-03 | 北京三星通信技术研究有限公司 | 机器翻译方法、训练方法、相应的装置及电子设备 |
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110472252A (zh) * | 2019-08-15 | 2019-11-19 | 昆明理工大学 | 基于迁移学习的汉越神经机器翻译的方法 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN111460838A (zh) * | 2020-04-23 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 智能翻译模型的预训练方法、装置和存储介质 |
CN111639197A (zh) * | 2020-05-28 | 2020-09-08 | 山东大学 | 标签嵌入在线哈希的跨模态多媒体数据检索方法及系统 |
Non-Patent Citations (3)
Title |
---|
YUHUANG HU等: "Character-level Chinese-English Translation through ASCII Encoding", 《PROCEEDING OF THE THIRD CONFERENCE ON MACHINE TRANSLATION(WMT)》 * |
余正涛等: "融入分类词典的汉越混合网络神经机器翻译集外词处理方法", 《中文信息学报》 * |
余正涛等: "融合词汇翻译概率的汉越神经机器翻译方法", 《昆明理工大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113076398A (zh) * | 2021-03-30 | 2021-07-06 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
CN113076398B (zh) * | 2021-03-30 | 2022-07-29 | 昆明理工大学 | 基于双语词典映射指导的跨语言信息检索方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN114757203A (zh) * | 2022-04-27 | 2022-07-15 | 北京智谱华章科技有限公司 | 基于对比学习的中文句子精简方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920473B (zh) | 一种基于同类词与同义词替换的数据增强机器翻译方法 | |
Zhu et al. | NCLS: Neural cross-lingual summarization | |
CN111753557B (zh) | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 | |
CN112287694A (zh) | 基于共享编码器的汉越无监督神经机器翻译方法 | |
CN111382582A (zh) | 一种基于非自回归的神经机器翻译解码加速方法 | |
CN112559702B (zh) | 基于Transformer的土木建筑信息领域自然语言问题生成方法 | |
CN111723547A (zh) | 一种基于预训练语言模型的文本自动摘要方法 | |
CN110543640A (zh) | 一种基于注意力机制神经机器翻译推断加速方法 | |
CN112257465B (zh) | 一种基于图像描述生成的多模态机器翻译数据增强方法 | |
Zhang et al. | Named entity recognition method in health preserving field based on BERT | |
CN112257460B (zh) | 基于枢轴的汉越联合训练神经机器翻译方法 | |
CN112580373A (zh) | 一种高质量蒙汉无监督神经机器翻译方法 | |
CN116663578A (zh) | 一种基于策略梯度方法改进的神经机器翻译方法 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN110489762A (zh) | 基于神经网络机器翻译的术语翻译方法、存储介质和装置 | |
CN112287641B (zh) | 一种同义句生成方法、系统、终端及存储介质 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN113392656A (zh) | 一种融合推敲网络和字符编码的神经机器翻译方法 | |
CN112926344A (zh) | 基于词向量替换数据增强的机器翻译模型训练方法、装置、电子设备及存储介质 | |
CN110321568B (zh) | 基于融合词性和位置信息的汉-越卷积神经机器翻译方法 | |
CN115860015B (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
Zhang et al. | RS-TTS: A novel joint entity and relation extraction model | |
CN114548090B (zh) | 基于卷积神经网络和改进级联标注的快速关系抽取方法 | |
Yang et al. | Unsupervised domain adaptation for neural machine translation | |
CN114781356B (zh) | 一种基于输入共享的文本摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210129 |
|
RJ01 | Rejection of invention patent application after publication |