CN111414771A - 基于短语的神经机器翻译的方法及系统 - Google Patents

基于短语的神经机器翻译的方法及系统 Download PDF

Info

Publication number
CN111414771A
CN111414771A CN202010145476.XA CN202010145476A CN111414771A CN 111414771 A CN111414771 A CN 111414771A CN 202010145476 A CN202010145476 A CN 202010145476A CN 111414771 A CN111414771 A CN 111414771A
Authority
CN
China
Prior art keywords
dictionary
phrase
phrases
module
bpe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010145476.XA
Other languages
English (en)
Other versions
CN111414771B (zh
Inventor
陈巍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010145476.XA priority Critical patent/CN111414771B/zh
Publication of CN111414771A publication Critical patent/CN111414771A/zh
Application granted granted Critical
Publication of CN111414771B publication Critical patent/CN111414771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的基于短语的神经机器翻译的方法及系统,通过:由单语的源语料生成包含子词、词以及短语的源词典;由单语的目标语料生成包含子词、词以及短语的目标词典;源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;对S2步骤得到的词向量进行神经网络训练,从而得到最终的翻译模型。本发明提供的基于短语的神经机器翻译方法及系统,通过在训练中引入了短语的信息,将句子中常见的短语作为一个整体来进行翻译,能保证在翻译的过程中不会被切分的很碎,导致错翻或者漏翻的情况出现。

Description

基于短语的神经机器翻译的方法及系统
技术领域
本发明涉及机器翻译技术领域,特别涉及一种基于短语的神经机器翻译的方法及系统。
背景技术
现有的主流机器翻译方法是基于端到端的神经机器翻译方法,利用大规模双语平行语料,通过Encoder-Decoder神经网络框架进行模型训练。在训练的时候使用BPE分词来生成双语词典,训练语料通过生成的双语词典转化成相应的词向量来进行网络训练。
但是BPE分词会将训练语料颗粒度切分的很小,一个句子基本上由词或者子词组成,虽然在一定程度上能解决UNK(未知词)的问题,但会将很多有意义的短语切分开来,导致最后翻译的时候会出现句子中短语翻译不正确的情况,比如像命名实体、通用俗语的翻译。
发明内容
为了克服上述问题,本发明提供了基于短语的神经机器翻译方法及系统,可以通过在训练双语语料中引入“短语”颗粒来切分训练双语,有效的解决句子中短语翻译错误的问题。
基于短语的神经机器翻译方法具体包括:
S1:由单语的源语料生成包含子词、词以及短语的源词典;
S2:由单语的目标语料生成包含子词、词以及短语的目标词典;
S3:源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
S4:对S2步骤得到的词向量进行神经网络训练,从而得到最终的翻译模型。
进一步的,S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤:
D1:由语料选出短语;
D2:由语料生成包括子词、词的BPE词典;
D3:将D1步骤得到的短语与D2步骤得到的BPE词典相结合生成词典;
所述语料包括源语料、目标语料;
所述词典包括源词典、目标词典;
由源语料经上述D1-D3步骤生成的词典为源词典;
由目标语料经上述D1-D3步骤生成的词典为目标词典。
进一步的,所述D1步骤具体包括:
D11:利用语料训练语言模型;
D12:利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树;
D13:通过句法分析树得到句子的嵌套结构,将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
D14:利用D11步骤中训练好的语言模型对D13步骤得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较,保留短语评分符合分数阈值的短语。
进一步的,所述D2步骤具体为:
使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
进一步的,所述语言模型为N-gram语言模型;所述句法分析树算法为PCFG算法。
基于短语的神经机器翻译系统,具体包括:
词典生成模块,其用于将单语的源语料生成包含子词、词以及短语的源词典,将单语的目标语料生成包含子词、词以及短语的目标词典;
词向量转化模块,其用于将源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
神经网络训练模块,其用于对词向量进行神经网络训练,从而得到最终的翻译模型。
进一步的,所述词典生成模块包括:
短语模块,用于由语料选出短语;
BPE词典生成模块,用于由语料生成包括子词、词的BPE词典;
词典合成模块:将短语选出模块得到的短语与BPE词典生成模块得到的BPE词典相结合生成词典。
进一步的,所述短语模块包括:
训练语言模型模块,用于利用语料训练语言模型;
句法分析树模块,用于利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树;
备选短语组模块,用于通过句法分析树得到句子的嵌套结构,并将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
短语选出模块,用于利用训练语言模型模块中训练好的语言模型对备选短语组模块得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较,保留短语评分符合分数阈值的短语。
进一步的,所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
进一步的,所述语言模型为N-gram语言模型;所述句法分析树算法为PCFG算法。
本发明提供的基于短语的神经机器翻译方法及系统,通过在训练中引入了短语的信息,将句子中常见的短语作为一个整体来进行翻译,能保证在翻译的过程中不会被切分的很碎,导致错翻或者漏翻的情况出现。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1:一种基于短语的神经机器翻译方法示意图;
图2:生成词典方法示意图;
图3:D1步骤示意图;
图4:一种基于短语的神经机器翻译系统示意图;
图5:词典生成模块示意图;
图6:短语模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本实施例提供了一种基于短语的神经机器翻译方法,如图1所示,包括:
S1:由单语的源语料生成包含子词、词以及短语的源词典;
S2:由单语的目标语料生成包含子词、词以及短语的目标词典;
S3:源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
S4:对S2步骤得到的词向量进行神经网络训练,从而得到最终的翻译模型。
本实施例技术方案的工作原理为:直接将源词典、目标词典中加入短语,则相应的词向量中也会包含短语,使得短语与子词、词一样,一起加入神经训练过程,从而使得最终的翻译模型可以让短语直接参与翻译过程。
需要指出的,本实施例中,S3、S4步骤均是成熟的现有技术相同,不同点仅仅是在源词典、目标词典不仅包含子词、词,同时包含短语。因此,关于S3、S4步骤的具体情况不再详述。
本实施例技术方案的有益效果为:本实施例提供的基于短语的神经机器翻译方法,通过在训练中引入了短语的信息,将句子中常见的短语作为一个整体来进行翻译,能保证在翻译的过程中不会被切分的很碎,导致错翻或者漏翻的情况出现。
在一个实施例中,如图2所示,S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤:
D1:由语料选出短语;
D2:由语料生成包括子词、词的BPE词典;
D3:将D1步骤得到的短语与D2步骤得到的BPE词典相结合生成词典;
所述语料包括源语料、目标语料;
所述词典包括源词典、目标词典;
由源语料经上述D1-D3步骤生成的词典为源词典;
由目标语料经上述D1-D3步骤生成的词典为目标词典。
本实施例技术方案的工作原理为:本实施例给出了具体的词典的生成方法,分别由语料选出短语、生成包括子词、词的BPE词典,再将二者组合。则生成的词典既包含了现有词典中包含的子词、词,同时又包含短语。源语料、目标语料均经过这个步骤,则分别生成了源词典、目标词典。
本实施例技术方案的有益效果为:BPE词典极其相关的翻译技术相对成熟,直接将选出的短语加入组合成新的词典,技术更可靠。
在一个实施例中,如图3所示,所述D1步骤具体包括:
D11:利用语料训练语言模型,本实施例中语言模型为N-gram语言模型;
D12:利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树;此处所述的句法分析树算法为根据句法分析编写的算法,已经为本领域的现有的技术,本专利中不再详述,本实施例中为根据PCFG(概率上下文无关文法)编写算法。
D13:通过句法分析树得到句子的嵌套结构,将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
D14:利用D11步骤中训练好的语言模型对D13步骤得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较,保留短语评分符合分数阈值的短语。
本实施例技术方案的工作原理为:
语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。N-gram语言模型可以很好得给出一段文本序列在某种语言下出现的概率。
句法分析(Parsing)就是指对句子中的词语语法功能进行分析,本实施例通过句法分析(Parsing)对应的算法,可以很好地得知句子结构。
通过对语料进行句法分析获取句法分析树,从而得到句子的嵌套结构,从而选出备选短语组;由语言模型对备选短语组进行选择,从而得到短语。源语料、目标语料分别经过以上方法,则可以分别得到相应的短语。
本实施例技术方案的有益效果为:本实施例给出了一种具体的挑选出短语的方法。通过句法分析与语言模型技术相结合,可以准确、高效选出短语。
在一个实施例中,所述D2步骤具体为:使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
本实施例技术方案的工作原理为:如背景技术中所说的,由BPE分词技术生成BPE词典已经为现有的技术,在此处不再详述。源语料、目标语料分别经过以上步骤,从而分别获得相应的BPE词典。
本实施例技术方案的有益效果为:本实施例给出了一种具体的生成BPE词典的方法,可以很好得到BPE词典,从而可以得到相应的词、子词。
本实施例提供了一种基于短语的神经机器翻译系统,如图4所示,包括:
词典生成模块,其用于将单语的源语料生成包含子词、词以及短语的源词典,将单语的目标语料生成包含子词、词以及短语的目标词典;
词向量转化模块,其用于将源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
神经网络训练模块,其用于对词向量进行神经网络训练,从而得到最终的翻译模型。
本实施例技术方案的工作原理为:通过词典生成模块生成包含子词、词以及短语的源词典及目标词典,则相应的词向量中也会包含短语,使得短语与子词、词一样,一起加入神经训练过程,从而使得最终的翻译模型可以让短语直接参与翻译过程。
需要指出的,本实施例中,词向量转化模块、神经网络训练模块是成熟的现有技术相同,不同点仅仅是在源词典、目标词典不仅包含子词、词,同时包含短语。因此,关于词向量转化模块、神经网络训练模块的具体情况不再详述。
本实施例技术方案的有益效果为:本实施例提供一种基于短语的神经机器翻译系统,通过在训练中引入了短语的信息,将句子中常见的短语作为一个整体来进行翻译,能保证在翻译的过程中不会被切分的很碎,导致错翻或者漏翻的情况出现。
在一个实施例中,如图5所示,所述词典生成模块包括:
短语模块,用于由语料选出短语;
BPE词典生成模块,用于由语料生成包括子词、词的BPE词典;
词典合成模块:将短语选出模块得到的短语与BPE词典生成模块得到的BPE词典相结合生成词典。
本实施例技术方案的工作原理为:本实施例给出了具体的词典生成模块,分别由短语模块选出短语的短语模块、生成包括子词、词BPE词典的BPE词典生成模块,再通过词典合成模块将短语与子词、词组合。则生成的词典既包含了现有词典中包含的子词、词,同时又包含短语。源语料、目标语料均以上三个模块,则分别生成了源词典、目标词典。
本实施例技术方案的有益效果为:BPE词典极其相关的翻译技术相对成熟,直接将选出的短语加入组合成新的词典,技术更可靠。
在一个实施例中,如图6所示,所述短语模块包括:
训练语言模型模块,用于利用语料训练语言模型,本实施例中语言模型为N-gram语言模型;
句法分析树模块,用于利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树,此处所述的句法分析树算法为根据句法分析编写的算法,已经为本领域的现有的技术,本专利中不再详述,本实施例中为根据PCFG(概率上下文无关文法)编写算法。
备选短语组模块,用于通过句法分析树得到句子的嵌套结构,并将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
短语选出模块,用于利用训练语言模型模块中训练好的语言模型对备选短语组模块得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较,保留短语评分符合分数阈值的短语。
本实施例技术方案的工作原理为:
语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。N-gram语言模型可以很好得给出一段文本序列在某种语言下出现的概率。
句法分析(Parsing)就是指对句子中的词语语法功能进行分析,本实施例通过句法分析(Parsing)对应的算法,可以很好地得知句子结构。
语料通过句法分析树模块获取句法分析树,从而得到句子的嵌套结构,备选短语组模块选出备选短语组;由短语选出模块对备选短语组进行选择,从而得到短语。源语料、目标语料分别经过以上模块,则可以分别得到相应的短语。
本实施例技术方案的有益效果为:本实施例给出了一种具体的挑选出短语的系统。通过句法分析与语言模型技术相结合,可以准确、高效选出短语。
在一个实施例中,所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
本实施例技术方案的工作原理为:如背景技术中所说的,由BPE分词技术生成BPE词典已经为现有的技术,在此处不再详述。源语料、目标语料分别经过以上模块,从而分别获得相应的BPE词典。
本实施例技术方案的有益效果为:本实施例给出了一种具体的生成BPE词典的系统,可以很好得到BPE词典,从而可以得到相应的词、子词。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于短语的神经机器翻译方法,其特征在于,包括:
S1:由单语的源语料生成包含子词、词以及短语的源词典;
S2:由单语的目标语料生成包含子词、词以及短语的目标词典;
S3:源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
S4:对S2步骤得到的词向量进行神经网络训练,从而得到最终的翻译模型。
2.如权利要求1所述的一种基于短语的神经机器翻译方法,其特征在于,
S1步骤中生成源词典、S2步骤中生成目标词典均包括以下步骤:
D1:由语料选出短语;
D2:由语料生成包括子词、词的BPE词典;
D3:将D1步骤得到的短语与D2步骤得到的BPE词典相结合生成词典;
所述语料包括源语料、目标语料;
所述词典包括源词典、目标词典;
由源语料经上述D1-D3步骤生成的词典为源词典;
由目标语料经上述D1-D3步骤生成的词典为目标词典。
3.如权利要求2所述的一种基于短语的神经机器翻译方法,其特征在于,
所述D1步骤具体包括:
D11:利用语料训练语言模型;
D12:利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树;
D13:通过句法分析树得到句子的嵌套结构,将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
D14:利用D11步骤中训练好的语言模型对D13步骤得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较保留短语评分符合分数阈值的短语。
4.如权利要求2所述的一种基于短语的神经机器翻译方法,其特征在于,
所述D2步骤具体为:
使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
5.如权利要求3所述的一种基于短语的神经机器翻译方法,其特征在于,
所述语言模型为N-gram语言模型;
所述句法分析树算法为PCFG的算法。
6.一种基于短语的神经机器翻译系统,其特征在于,包括:
词典生成模块,其用于将单语的源语料生成包含子词、词以及短语的源词典,将单语的目标语料生成包含子词、词以及短语的目标词典;
词向量转化模块,其用于将源语料通过源词典、目标语料通过目标词典分别转化成相应的词向量;
神经网络训练模块,其用于对词向量进行神经网络训练,从而得到最终的翻译模型。
7.如权利要求6所述的一种基于短语的神经机器翻译系统,其特征在于,
所述词典生成模块包括:
短语模块,用于由语料选出短语;
BPE词典生成模块,用于由语料生成包括子词、词的BPE词典;
词典合成模块:将短语选出模块得到的短语与BPE词典生成模块得到的BPE词典相结合生成词典。
8.如权利要求7所述的一种基于短语的神经机器翻译系统,其特征在于,
所述短语模块包括:
训练语言模型模块,用于利用语料训练语言模型;
句法分析树模块,用于利用句法分析树算法对语料进行句法分析,得到每个语料的句法分析树;
备选短语组模块,用于通过句法分析树得到句子的嵌套结构,并将嵌套的词组作为备选短语组,对备选短语组进行去重,保证每个短语只保留一份,从而得到备选短语组;
短语选出模块,用于利用训练语言模型模块中训练好的语言模型对备选短语组模块得到的备选短语组进行打分,从而得到短语评分,将短语评分与预先设置的分数阈值比较,保留短语评分符合分数阈值的短语。
9.如权利要求7所述的一种基于短语的神经机器翻译系统,其特征在于,
所述BPE词典生成模块为使用BPE分词技术对单语的语料进行BPE分词,得到对应的BPE词典。
10.如权利要求8所述的一种基于短语的神经机器翻译系统,其特征在于,
所述语言模型为N-gram语言模型;
所述句法分析树算法为PCFG的算法。
CN202010145476.XA 2020-03-03 2020-03-03 基于短语的神经机器翻译的方法及系统 Active CN111414771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010145476.XA CN111414771B (zh) 2020-03-03 2020-03-03 基于短语的神经机器翻译的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010145476.XA CN111414771B (zh) 2020-03-03 2020-03-03 基于短语的神经机器翻译的方法及系统

Publications (2)

Publication Number Publication Date
CN111414771A true CN111414771A (zh) 2020-07-14
CN111414771B CN111414771B (zh) 2023-10-20

Family

ID=71492826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010145476.XA Active CN111414771B (zh) 2020-03-03 2020-03-03 基于短语的神经机器翻译的方法及系统

Country Status (1)

Country Link
CN (1) CN111414771B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN112989848A (zh) * 2021-03-29 2021-06-18 华南理工大学 一种领域适应医学文献神经机器翻译模型的训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239423A1 (en) * 2006-04-07 2007-10-11 Scott Miller Method and system of machine translation
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN110245361A (zh) * 2019-06-14 2019-09-17 科大讯飞股份有限公司 短语对提取方法、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070239423A1 (en) * 2006-04-07 2007-10-11 Scott Miller Method and system of machine translation
CN103631772A (zh) * 2012-08-29 2014-03-12 阿里巴巴集团控股有限公司 机器翻译方法及装置
US20170060854A1 (en) * 2015-08-25 2017-03-02 Alibaba Group Holding Limited Statistics-based machine translation method, apparatus and electronic device
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN109840331A (zh) * 2019-01-31 2019-06-04 沈阳雅译网络技术有限公司 一种基于用户词典的神经机器翻译方法
CN110245361A (zh) * 2019-06-14 2019-09-17 科大讯飞股份有限公司 短语对提取方法、装置、电子设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
朱顺乐;: "融合深度学习特征的汉维短语表过滤研究" *
臧景才;陈建新;李永虎;: "基于短语统计模型的藏汉在线翻译系统实现" *
陈雷;李淼;张健;曾伟辉;: "有限语料汉蒙统计机器翻译调序方法研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861516A (zh) * 2021-01-21 2021-05-28 昆明理工大学 验证共有子词对xlm翻译模型效果影响的实验方法
CN112989848A (zh) * 2021-03-29 2021-06-18 华南理工大学 一种领域适应医学文献神经机器翻译模型的训练方法
CN112989848B (zh) * 2021-03-29 2022-12-16 华南理工大学 一种领域适应医学文献神经机器翻译模型的训练方法

Also Published As

Publication number Publication date
CN111414771B (zh) 2023-10-20

Similar Documents

Publication Publication Date Title
Qun et al. Machine translation: general
US8249856B2 (en) Machine translation
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
CN104462072A (zh) 面向计算机辅助翻译的输入方法与装置
Zakraoui et al. Evaluation of Arabic to English machine translation systems
Groves et al. Hybrid example-based SMT: the best of both worlds?
CN111414771B (zh) 基于短语的神经机器翻译的方法及系统
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Tezcan et al. A neural network architecture for detecting grammatical errors in statistical machine translation
Niehues Continuous learning in neural machine translation using bilingual dictionaries
CN106156013A (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Rahman et al. A corpus based n-gram hybrid approach of bengali to english machine translation
Tien et al. Long sentence preprocessing in neural machine translation
Yousif Hidden Markov Model tagger for applications based Arabic text: A review
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
Ni et al. Masked siamese prompt tuning for few-shot natural language understanding
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
Meyer et al. Subword segmental machine translation: Unifying segmentation and target sentence generation
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Liu et al. Machine Translation: General
Hasan et al. Reranking translation hypotheses using structural properties
Cherry et al. Discriminative substring decoding for transliteration
Sridhar et al. Enriching spoken language translation with dialog acts
Zohrabi et al. Borderless azerbaijani processing: Linguistic resources and a transformer-based approach for azerbaijani transliteration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant