CN113657122A - 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 - Google Patents

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 Download PDF

Info

Publication number
CN113657122A
CN113657122A CN202111044287.4A CN202111044287A CN113657122A CN 113657122 A CN113657122 A CN 113657122A CN 202111044287 A CN202111044287 A CN 202111044287A CN 113657122 A CN113657122 A CN 113657122A
Authority
CN
China
Prior art keywords
chinese
machine translation
mongolian
parallel corpus
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111044287.4A
Other languages
English (en)
Other versions
CN113657122B (zh
Inventor
苏依拉
司赟
朱苏东
杨蕾
仁庆道尔吉
吉亚图
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN202111044287.4A priority Critical patent/CN113657122B/zh
Publication of CN113657122A publication Critical patent/CN113657122A/zh
Application granted granted Critical
Publication of CN113657122B publication Critical patent/CN113657122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型;对蒙古语进行预处理后构建蒙汉神经机器翻译模型;将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中;将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练,用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪,形成一个伪平行语料库D1;将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D;用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型,得到最终的蒙汉神经机器翻译模型;利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。

Description

一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法。
背景技术
机器翻译又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间词句和全文的翻译。
近些年来机器翻译迅速发展,但是想要训练出高效准确的翻译模型就必须依赖大规模的平行语料库。而蒙汉翻译平行语料库规模较小,训练出来的模型不够理想。那么选择恰当的方法增加平行语料库的规模就成了提高蒙汉机器翻译的一个亟待解决的问题。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,采用迁移学习,回译,加噪等方式构造伪平行语料库,再基于伪平行语料库进行训练得到翻译模型。
为了实现上述目的,本发明采用的技术方案是:
一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,包括如下步骤:
步骤1,使用双注意力机制使得模型对语料库有更好的特征提取,通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型;对蒙古语进行预处理后构建蒙汉神经机器翻译模型;
步骤2,将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中;
步骤3,将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练,用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪,形成一个伪平行语料库D1;
步骤4,将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D;
步骤5,用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型,得到最终的蒙汉神经机器翻译模型;
步骤6,利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。
优选地,所述步骤1中构建英汉神经机器翻译模型时,对数据进行如下预处理操作:
1)用中文分词工具对中文语料进行分词操作;
2)用英文预处理工具对英文语料进行词性标注和分词操作。
优选地,所述步骤1中构建英汉神经机器翻译模型时,对于登录词,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),根据动态规划查找最大概率路径,找出基于此的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法,将中文词汇按照BEMS四个状态来标记,B是开始位置,E是结束位置,M是中间位置,S是单独成词位置。
所述步骤1中,分别从词级别和特征级别两种视角提取出评论文本中的重要信息。词注意力机制通过融合词的上下文信息,衡量单词的重要性,过滤出相对于全局重要的单词,同时增加推荐的可解释性。特征突显机制通过抑制相似通道,捕捉特征通道中独立性较强的通道。从而提高模型对评论文本中的重要信息的关注,使其具有更好的特征提取能力。
优选地,所述步骤2中,利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重,对蒙汉神经机器翻译模型进行参数初始化,取代随机初始化,将模型参数权重迁移到蒙汉神经机器翻译模型。
优选地,所述步骤3中,利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时,将蒙汉神经机器翻译模型的词典,词向量,隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。
优选地,所述加噪的方式包括:
1)同义词替换
不考虑停止词,在现有的汉语单语语料的句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换;
2)随机插入
不考虑停止词,从现有的汉语单语语料的句子中随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置,该过程重复n2次;
3)随机交换
从现有的汉语单语语料的句子中,随机选择两个词,位置交换,该过程重复n3次;
4)随机删除
在从现有的汉语单语语料的句子中的每个词,以概率p随机删除。
优选地,所述步骤4中,将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D,利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。
优选地,英汉神经机器翻译模型中,用BLEU值作为评估机器翻译译文质量的工具,N-gram表示n个单词长度的词组集合,每个N-gram的计算公式为:
Figure BDA0003250588680000031
其中sj是标准翻译的人工译文,j∈M,M表示共有M个参考答案,ci表示机器翻译译文,i∈F,F表示共有F个翻译,hk(ci)表示第k个词组在ci中出现的次数,hk(sj)表示第k个词组在sj中出现的次数,k∈K,K表示词组数,minj∈Mhk(sj)指第k个词组在sj中的最小次数,即寻找最相似候选句子;
BLEU的公式为:
Figure BDA0003250588680000041
其中BP代表译文较短惩罚因子,Pn代表n元语法准确率,wn代表加权,
Figure BDA0003250588680000042
M是机器翻译译文和人工标准参考译文的组成词语的数量,上限取值为4,即最多只统计4-gram的精度。
与现有技术相比,本发明在模型训练方式上进行了改进,为了在低资源神经机器翻译任务上可以有较好的性能提升,用迁移学习得到的参数来替代蒙汉神经机器翻译模型的初始化参数权重,并通过该模型用回译,加噪等方式构建伪平行语料库。本发明可以在蒙汉神经机器翻译方面展示出较好的功能和优点,训练出的模型显著提高了翻译质量。
附图说明
图1是本发明整体框架图。
图2是英文预处理过程。
图3是迁移学习过程。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
如图1所示,一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,包括如下步骤:
步骤1,首先构造特征提取网络进行文本特征提取,将CNN作为特征提取的基础,相较于传统的机器学习方法,CNN具有提取复杂特征的优势,可以自动提取评论文本中的语义特征,不依赖于人工,从而有效地避免了人工提取特征的不足,学习到更鲁棒的特征表示.为了使模型有更好的特征提取能力,提出词级别的WAM以及特征级别的FHM.如使用双注意力机制实现对特征的提取,学习到更鲁棒性的特征表示。然后通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型。对蒙古语进行预处理后构建蒙汉神经机器翻译模型。
具体地,如图2所示,构建英汉神经机器翻译模型时,需对数据进行如下预处理操作:
1)用中文分词工具Hanlp,Jieba等对中文语料进行分词操作;
2)用英文预处理工具geniatagger等对英文语料进行词性标注和分词操作。
对于中文分词,将一个中文句子以独立的词为单位分开。例如,我想吃米饭。分词成“我想吃米饭”。对于登录词,基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据动态规划查找最大概率路径,找出基于此的最大切分组合。对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法,将中文词汇按照BEMS四个状态来标记,B是开始位置,E是结束位置,M是中间位置,S是单独成词位置。比如:
输入:好客山东欢迎您,这里是孔子的故乡。
输出:SSBESSS,SSSBESSS.
根据中英文的特点,对中英文分别进行预处理工作,对中文数据进行分字以及字粒度切分。构建包含编码器和解码器的RNN循环神经机器翻译模型架构。利用英汉的大规模平行语料进行英汉神经机器翻译模型的训练。训练过程中利用SGD对参数进行优化。
英汉神经机器翻译模型公式为:
Figure BDA0003250588680000051
其中,β是模型参数,ψ是非线性函数,yn是当前目标语言词,x是源语言句子,Vyn是已经生成的目标语言句子,y是词汇表中现在所处的位置,Vy是目标语言词向量,E是目标语言词汇表,Zs是源语言上下文向量,Zt是目标语言上下文向量。
英汉神经机器翻译模型中,用BLEU值作为评估机器翻译译文质量的工具,N-gram表示n个单词长度的词组集合,每个N-gram的计算公式为:
Figure BDA0003250588680000061
其中sj是标准翻译的人工译文,j∈M,M表示共有M个参考答案,ci表示机器翻译译文,i∈F,F表示共有F个翻译,hk(ci)表示第k个词组在ci中出现的次数,hk(sj)表示第k个词组在sj中出现的次数,k∈K,K表示词组数,minj∈Mhk(sj)指第k个词组在sj中的最小次数,即寻找最相似候选句子;
BLEU的公式为:
Figure BDA0003250588680000062
其中BP代表译文较短惩罚因子,Pn代表n元语法准确率,wn代表加权,
Figure BDA0003250588680000063
M是机器翻译译文和人工标准参考译文的组成词语的数量,上限取值为4,即最多只统计4-gram的精度。
在对蒙古语进行预处理时,主要是对其切分。蒙古语属于黏着语,一个蒙古语词由一个词干与多个词缀构成。蒙古语切分用BPE为工具。
步骤2,将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中。
具体地,如图3所示,利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重,对蒙汉神经机器翻译模型进行参数初始化,取代随机初始化,如图2所示,实现将训练学到的模型参数权重迁移到蒙汉神经机器翻译模型。
步骤3,将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练,用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪,形成一个伪平行语料库D1。
利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时,将蒙汉神经机器翻译模型的词典,词向量,隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。
回译加噪等方式常作为现有NLP传统文本数据增强的思路。加噪的方式包括:
1)同义词替换
不考虑停止词,在现有的汉语单语语料的句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换;
2)随机插入
不考虑停止词,从现有的汉语单语语料的句子中随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置,该过程重复n2次;
3)随机交换
从现有的汉语单语语料的句子中,随机选择两个词,位置交换,该过程重复n3次;
4)随机删除
在从现有的汉语单语语料的句子中的每个词,以概率p随机删除。
步骤4,将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D。
将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D,利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。
步骤5,用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型,得到最终的蒙汉神经机器翻译模型。
步骤6,利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。
本发明提供了一个具体的翻译实例:以翻译“今天是晴天”为例。将源语言句子切分成“-,今天,是,晴天”。对应的将平行语料库(标准译文)“It's sunny today”切分成“It’s,sunny,today”。将训练好的英汉神经机器翻译模型的参数对蒙汉神经机器翻译模型进行参数初始化。然后对应的将蒙汉平行语料库
Figure BDA0003250588680000081
切分成
Figure BDA0003250588680000082
Figure BDA0003250588680000083
训练好的蒙汉神经机器翻译模型再对现有的汉语单语语料进行回译、加噪得到新的伪平行语料库D1,最后将现有的精确蒙汉平行语料库混合形成伪平行语料库D,最后用伪平行语料库D对蒙汉神经机器翻译模型进行进一步的完善,则本发明的目的达成。

Claims (8)

1.一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,包括如下步骤:
步骤1,使用双注意力机制来进行特征提取,然后通过大规模的英汉平行语料库训练一个英汉神经机器翻译模型;对蒙古语进行预处理后构建蒙汉神经机器翻译模型;
步骤2,将训练好的英汉神经机器翻译模型的模型参数权重迁移到蒙汉神经机器翻译模型中;
步骤3,将现有的蒙汉平行语料库对蒙汉神经机器翻译模型进行完善训练,用完善好的蒙汉神经机器翻译模型对现有的蒙汉平行语料库中的汉语单语语料进行回译、加噪,形成一个伪平行语料库D1;
步骤4,将伪平行语料库D1和现有的蒙汉平行语料库融合形成伪平行语料库D;
步骤5,用伪平行语料库D重新训练完善好的蒙汉神经机器翻译模型,得到最终的蒙汉神经机器翻译模型;
步骤6,利用所述最终的蒙汉神经机器翻译模型进行蒙汉翻译。
2.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤1中构建英汉神经机器翻译模型时,对数据进行如下预处理操作:
1)用中文分词工具对中文语料进行分词操作;
2)用英文预处理工具对英文语料进行词性标注和分词操作。
3.根据权利要求1或2所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤1中构建英汉神经机器翻译模型时,对于登录词,基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG),根据动态规划查找最大概率路径,找出基于此的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型,使用Viterbi算法,将中文词汇按照BEMS四个状态来标记,B是开始位置,E是结束位置,M是中间位置,S是单独成词位置。
4.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤2中,利用英汉平行语料训练英汉神经机器翻译模型学到的模型参数权重,对蒙汉神经机器翻译模型进行参数初始化,取代随机初始化,将模型参数权重迁移到蒙汉神经机器翻译模型。
5.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤3中,利用现有的蒙汉平行语料库训练蒙汉神经机器翻译模型时,将蒙汉神经机器翻译模型的词典,词向量,隐藏层等参数设置成训练好的英汉神经机器翻译模型的参数。
6.根据权利要求1或5所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述加噪的方式包括:
1)同义词替换
不考虑停止词,在现有的汉语单语语料的句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换;
2)随机插入
不考虑停止词,从现有的汉语单语语料的句子中随机抽取一个词,然后在该词的同义词集合中随机选择一个,插入原句子中的随机位置,该过程重复n2次;
3)随机交换
从现有的汉语单语语料的句子中,随机选择两个词,位置交换,该过程重复n3次;
4)随机删除
在从现有的汉语单语语料的句子中的每个词,以概率p随机删除。
7.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,所述步骤4中,将伪平行语料库D1和现有的蒙汉平行语料库混合形成伪平行语料库D,利用软上下文数据增强方法对伪平行语料库D中的蒙语句子中某个词或多个词的词义表示进行最后增强。
8.根据权利要求1所述融合迁移学习的伪平行语料库的蒙汉机器翻译方法,其特征在于,英汉神经机器翻译模型中,用BLEU值作为评估机器翻译译文质量的工具,N-gram表示n个单词长度的词组集合,每个N-gram的计算公式为:
Figure FDA0003250588670000031
其中sj是标准翻译的人工译文,j∈M,M表示共有M个参考答案,ci表示机器翻译译文,i∈F,F表示共有F个翻译,hk(ci)表示第k个词组在ci中出现的次数,hk(sj)表示第k个词组在sj中出现的次数,k∈K,K表示词组数,minj∈Mhk(sj)指第k个词组在sj中的最小次数,即寻找最相似候选句子;
BLEU的公式为:
Figure FDA0003250588670000032
其中BP代表译文较短惩罚因子,Pn代表n元语法准确率,wn代表加权,
Figure FDA0003250588670000033
M是机器翻译译文和人工标准参考译文的组成词语的数量,上限取值为4,即最多只统计4-gram的精度。
CN202111044287.4A 2021-09-07 2021-09-07 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法 Active CN113657122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111044287.4A CN113657122B (zh) 2021-09-07 2021-09-07 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111044287.4A CN113657122B (zh) 2021-09-07 2021-09-07 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

Publications (2)

Publication Number Publication Date
CN113657122A true CN113657122A (zh) 2021-11-16
CN113657122B CN113657122B (zh) 2023-12-15

Family

ID=78493582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111044287.4A Active CN113657122B (zh) 2021-09-07 2021-09-07 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法

Country Status (1)

Country Link
CN (1) CN113657122B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757212A (zh) * 2022-03-30 2022-07-15 北京金山数字娱乐科技有限公司 翻译模型训练方法、装置、电子设备和介质
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
CN110245364A (zh) * 2019-06-24 2019-09-17 中国科学技术大学 零平行语料多模态神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110619127A (zh) * 2019-08-29 2019-12-27 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
US20210027026A1 (en) * 2018-03-02 2021-01-28 National Institute Of Information And Communications Technology Pseudo parallel translation data generation apparatus, machine translation processing apparatus, and pseudo parallel translation data generation method
CN112287692A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
JP2021039501A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN112507732A (zh) * 2020-11-05 2021-03-16 昆明理工大学 融入双语词典的无监督汉-越神经机器翻译方法
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113095550A (zh) * 2021-03-26 2021-07-09 北京工业大学 基于变分递归网络和自注意力机制的空气质量预测方法
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
CN107590169A (zh) * 2017-04-14 2018-01-16 南方科技大学 一种运营商网关数据的预处理方法及系统
US20210027026A1 (en) * 2018-03-02 2021-01-28 National Institute Of Information And Communications Technology Pseudo parallel translation data generation apparatus, machine translation processing apparatus, and pseudo parallel translation data generation method
CN110245364A (zh) * 2019-06-24 2019-09-17 中国科学技术大学 零平行语料多模态神经机器翻译方法
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110619127A (zh) * 2019-08-29 2019-12-27 内蒙古工业大学 一种基于神经网络图灵机的蒙汉机器翻译方法
CN110688862A (zh) * 2019-08-29 2020-01-14 内蒙古工业大学 一种基于迁移学习的蒙汉互译方法
JP2021039501A (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112287692A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN112507732A (zh) * 2020-11-05 2021-03-16 昆明理工大学 融入双语词典的无监督汉-越神经机器翻译方法
CN112612892A (zh) * 2020-12-29 2021-04-06 达而观数据(成都)有限公司 一种专有领域语料模型构建方法、计算机设备及存储介质
CN113095550A (zh) * 2021-03-26 2021-07-09 北京工业大学 基于变分递归网络和自注意力机制的空气质量预测方法
CN113204978A (zh) * 2021-05-13 2021-08-03 中国科学技术大学 一种机器翻译增强训练方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WANG YIJUN 等: "Dual transfer learning for neural machine translation with marginal distribution regularization", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》, vol. 32, no. 1, pages 5553 - 5560 *
吴一琦: "融合句法分析的无监督神经机器翻译", 《中国优秀硕士学位论文全文数据库哲学与人文科学辑》, no. 06, pages 084 - 32 *
周孝青: "神经机器翻译系统网络优化若干方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 2949 *
范婷婷: "基于微调的无监督域适应蒙汉神经机器翻译的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 01, pages 138 - 3777 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757212A (zh) * 2022-03-30 2022-07-15 北京金山数字娱乐科技有限公司 翻译模型训练方法、装置、电子设备和介质
CN114818666A (zh) * 2022-04-26 2022-07-29 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113657122B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN108416058B (zh) 一种基于Bi-LSTM输入信息增强的关系抽取方法
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110826331A (zh) 基于交互式与迭代式学习的地名标注语料库智能构建方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
US20090150139A1 (en) Method and apparatus for translating a speech
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN110070855B (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN101667177B (zh) 双语文本的对齐方法及装置
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
CN105068997B (zh) 平行语料的构建方法及装置
CN1387650A (zh) 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111709242A (zh) 一种基于命名实体识别的中文标点符号添加方法
CN113657122B (zh) 一种融合迁移学习的伪平行语料库的蒙汉机器翻译方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN114996467A (zh) 基于语义相似度的知识图谱实体属性对齐算法
CN112395891A (zh) 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN116244445A (zh) 航空文本数据标注方法及其标注系统
Lefever et al. Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN115952284A (zh) 一种融合密度聚类与ernie的医疗文本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant