CN106383818A - 一种机器翻译方法及装置 - Google Patents

一种机器翻译方法及装置 Download PDF

Info

Publication number
CN106383818A
CN106383818A CN201510461455.8A CN201510461455A CN106383818A CN 106383818 A CN106383818 A CN 106383818A CN 201510461455 A CN201510461455 A CN 201510461455A CN 106383818 A CN106383818 A CN 106383818A
Authority
CN
China
Prior art keywords
result
translation
language end
marking
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510461455.8A
Other languages
English (en)
Inventor
宋楷
骆卫华
林锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510461455.8A priority Critical patent/CN106383818A/zh
Priority to US15/223,950 priority patent/US10108607B2/en
Priority to PCT/IB2016/001201 priority patent/WO2017017527A1/en
Priority to EP16829915.4A priority patent/EP3329385A4/en
Publication of CN106383818A publication Critical patent/CN106383818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

本发明公开了一种机器翻译方法及装置,用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,实现多语种的源语端文本到目标语端文本的翻译,无需识别源语端文本的语种,提高了翻译的准确性,避免了在处理未知语种到目标语种的翻译过程中,语种识别阶段引入的错误,并且支持多语种混合句子的翻译,无需按语种将句子拆分后再翻译再组合,无需开发每一语种到目标语种的机器翻译引擎,节省了开发成本以及服务器资源。该方法包括:确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;根据候选结果,确定待输出的目标语端文本。

Description

一种机器翻译方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种机器翻译方法及装置。
背景技术
所谓机器翻译是一种利用计算机程序实现语言的自动翻译过程。现有的机器翻译技术是一种利用计算机程序,实现从一种语言到另一种语言的翻译。最早的机器翻译程序中,大量的使用人工定义的翻译规则,将这些规则形式化成计算机程序,实现翻译功能,基于翻译规则的机器翻译系统具有译文质量高、实现成本高、规则覆盖度小、容易产生歧义等特点。随着计算机处理能力的不断提高,在大规模双语语料上训练翻译子模型(包括翻译规则表、语言模型、调序模型和其他判别式或生成式模型等),再利用翻译子模型的打分从众多翻译候选中筛选出最合理的目标语译文,这种机器翻译也可以称为统计机器翻译。即统计机器翻译具体是机器翻译的一种,也是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。统计机器翻译模型包括基于词的翻译模型、基于短语的翻译模型以及基于句法的翻译模型,目前业界使用最广泛的是基于短语(或层次短语)的翻译模型。
现有的所有统计机器翻译流程,其设计原理和实现的前提都是基于给定源语言和目标语言语种之上的,这是目前所有统计机器翻译流程的基础。即每个统计机器翻译引擎只能处理一个语种对之间的翻译任务,例如法语到英语的翻译、或者中文到英语的翻译等。
由于很多英语场景涉及大量语言对之间的翻译任务,例如某网站包含几十个多语言站和国家分站,对于用户在搜索框输入的查询(Query),首先要进行语种识别,然后再将其翻译成英文,以英文进行检索,这就需要针对几十种语言到英语的翻译任务,分别开发几十个不同的机器翻译引擎,既耗费较多的开发成本,又耗费较多的服务器资源。
另外,语种识别的准确性也直接影响了用户的搜索意图是否能真正体现在搜索结果里,而基于现有的翻译引擎,语种识别这一步是必不可少的,即在整个搜索流程里,引入了可能导致最终出现错误的环节。
发明内容
本申请实施例提供了一种机器翻译方法及装置,用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,实现多语种的源语端文本到目标语端文本的翻译,无需识别源语端文本的语种,提高了翻译的准确性,避免了在处理未知语种到目标语种的翻译过程中,语种识别阶段引入的错误,并且支持多语种混合句子的翻译,无需按语种将句子拆分后再翻译再组合,无需开发每一语种到目标语种的机器翻译引擎,节省了开发成本以及服务器资源。
本申请实施例提供的一种机器翻译方法,包括:
确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
根据所述候选结果,确定待输出的目标语端文本。
该方法利用包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,实现了多语种的源语端文本到目标语端文本的翻译,无需识别源语端文本的语种,提高了翻译的准确性,避免了在处理未知语种到目标语种的翻译过程中,语种识别阶段引入的错误,并且支持多语种混合句子的翻译,无需按语种将句子拆分后再翻译再组合,无需开发每一语种到目标语种的机器翻译引擎,节省了开发成本以及服务器资源。
可选地,利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果,包括:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
也就是说,当待翻译的源语端文本包括多个语种的短语时,无需调序模型打分,没有对应的调序模型的查询结果,因此视为正序输出,不考虑逆序的情况。
可选地,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
与上述本发明实施例提供的方法相对应地,本发明实施例提供的一种机器翻译装置,包括:
第一单元,用于确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
第二单元,用于根据所述候选结果,确定待输出的目标语端文本。
可选地,所述第一单元利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果时,具体用于:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
附图说明
图1为本发明实施例提供的机器翻译训练阶段的整体流程示意图;
图2为本发明实施例提供的词对齐训练的结果示意图;
图3为本发明实施例提供的自底向上的拼接结果的翻译流程示意图;
图4为本发明实施例提供的一种机器翻译方法的流程示意图;
图5为本发明实施例提供的一种机器翻译装置的结构示意图;
图6为本发明实施例提供的另一种机器翻译装置的结构示意图。
具体实施方式
本发明实施例提供了一种机器翻译方法及装置,用以通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,实现多语种的源语端文本到目标语端文本的翻译,无需识别源语端文本的语种,提高了翻译的准确性,避免了在处理未知语种到目标语种的翻译过程中,语种识别阶段引入的错误,并且支持多语种混合句子的翻译,无需按语种将句子拆分后再翻译再组合,无需开发每一语种到目标语种的机器翻译引擎,节省了开发成本以及服务器资源。其中,所述的源语端,即翻译过程中的原文,一般指句子,也可以是短语或单词。所述的目标语端,即翻译过程中的译文,一般指句子,也可以是短语或单词。
以下本发明实施例中所述的翻译模型,包括:包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表(即多语种短语表)、语言模型、和调序模型。其中,每一所述模型预先设置有各自的权重值,该权重值可以是预先训练得到的。
现有技术方案局限于固定源语端的语种,即现有技术针对每一种不同的源语端和目标语端的语言对,开发一个相应的翻译引擎,在语种非常丰富的应用场景中,这种做法既耗费开发成本(需要为每一个语言对独立开发一套机器翻译系统),又耗费服务器资源(需要为每一个语种对的翻译引擎独立部署服务器)。另外,在源语端语种未知的场景下,需要首先进行语种识别,才能使用传统的统计机器翻译引擎进行翻译任务,语种识别阶段会引入错误,导致翻译结果不符合预期。最后,某些场景下,待翻译的文本不仅局限于由某种语言书写,而是由多个语种混合而成,这种情况下,传统的统计机器翻译引擎无法处理。
针对上述缺点,本发明实施例对现有技术进行改进,对源语言的语种不敏感,即可以实现多个源语言语种到一种目标语语种的翻译,因此可以解决开发成本高、服务器耗费大的问题,且避免了在很多应用场景中,语种识别准确率较低导致的翻译错误的问题,并且支持翻译由多个语种混合组成的文本。同时,相比于传统的一对一的统计机器翻译系统,在翻译质量和性能上并无损失。
本发明实施例提供的整体流程包括训练和解码两个阶段。参见图1,其中训练阶段包括语料准备、语料预处理、词对齐训练、短语表抽取、调序模型训练以及语言模型训练。下面分别给出详细说明。
一、训练阶段:
关于训练语料准备:
传统的统计机器翻译系统,每个语言对之间都需要相应的双语平行语料,例如“英法”翻译系统,需要的是英语和法语的双语平行语料,本发明实施例提供的方案中,分别获取各个语种对的双语平行语料,以将葡(葡萄牙语)、西(西班牙语)、法(法语)三种语言翻译成英(英语)为例,需要分别获取“英—葡”、“英—法”、“英—西”这三个语种对的双语平行语料。其中,英语端的语料不要求一致,即各语种对中的英文端的语料不要求必须相同,可以是不同的英文句子,只要各自和相应的目标语端构成平行语料即可。各个语种对双语平行语料的规模(即双语平行语料的句子个数)大致相同,即每个语种对包含的句子个数大致相同即可。
关于双语语料预处理:
所述的双语平行语料,即句子层面对齐的机器翻译训练语料,语料中每一行的两个句子互为翻译。例如:给定两个名为“中文.txt”和“英文.txt”的文本文件,每个文件均包含100个句子,这两个文件同一行的句子互为译文。即“中文.txt”中的第i句和“英文.txt”中的中的第i句互为中英翻译。
双语语料预处理阶段主要包括分词、切标点以及对不可枚举类型字串的识别、翻译和泛化。这里的翻译过程主要是利用规则进行翻译,不涉及统计学的知识,预处理阶段的主要目的是缓解词对齐过程的数据稀疏问题。
具体地,本发明实施例中,需要对双语语料进行预处理,将一些不可枚举的字符串泛化成相应的标签,以减少后续模型训练过程中的数据稀疏问题。另外,还需要将句子中的标点符号和文字切开。其中,所述的字符串是指由字符组成的连续的词或短语,甚至是句子。所述的标签是指代表这一字符串所属类别的标记,例如:字符串“2012年5月2日”的标签是“日期”。所述的泛化是指通过计算机程序自动识别的方式,将一些不可枚举的字符串,识别出其相应的类别,并用其类别标签代替字符串本身。例如,将文本中所有形如“2012年5月2日”的字符串,都替换成“$date”,这一过程即为泛化。
关于词对齐训练:
词对齐训练的最终目的是得到双语句对中词和词的位置对应关系。训练过程完全基于双语句对,不涉及句法结构,例如,得到的词对齐结果如图2所示。
词对齐训练在各个语种对上分别进行,每个语种对上的词对齐训练过程和传统的统计机器翻译流程中的词对齐训练方法相同,最终分别得到每个语种对内词和词的对应关系。
关于多语种短语表的确定,即通过翻译规则的抽取,形成翻译规则表:
短语表抽取,是指从双语句对和词对齐结果的基础上,按照传统的一致性规则,抽取互译的短语对,以及给出短语对之间相应的翻译概率。
基于词对齐训练的结果,可以在训练语料上抽取翻译规则,并针对每条翻译规则,给出多种翻译概率(包括正向翻译概率、反向翻译概率、正向词汇化概率、反向词汇化概率等)。基于短语的翻译模型产生的翻译规则表,是在大规模双语平行语料上学习得到的翻译规则的集合,是机器翻译过程的基本转化单元。
具体地,在分别得到各个语种对的词对齐结果后,需要将各个语种对的源语端、目标语端、词对齐结果进行合并。例如,首先将葡、西、法三个源语端的句子合并,再将相应的目标语端的英文进行合并,最后,将词对齐结果合并。
例如,文件级别的合并即可,假设有“葡语-英语”句对300句,“西语-英语”句子300句,“法语-英语”句子400句,那么,合并后的句子个数为300+300+400=1000句。即合并后的源语端句子为1000句,目标语端句子为1000句,词对齐结果也是1000句。
当得到合并后的源语、目标语和词对齐结果后,就可以进行短语表抽取,得到所述的多语种短语表,其中包括源语端短语到目标语端短语的翻译规则,以及相应的翻译概率。
例如,最终得到的多语种短语表中,源语端的片段既可以是葡语,也可以是西语或者法语,目标语端的短语片段是英语。所述片段是只由单个词或多个词构成的短语,可以是不具有实际语义的短语。
关于调序模型训练:
调序模型用于对翻译候选结果进行打分,调序模型的打分决定生成的目标语端的翻译候选的前后顺序。
具体的,分别在合并后得到的源语和目标语语料中,抽取各自的调序模型的训练样本,这些训练样本不仅限于一种语言对,利用最大熵分类模型,可以训练得到一个分类器,给定一个样本,该分类器可以判断该样本的类别为正序或是逆序,即是否进行调序。
调序模型本质上是一个有监督的机器学习模型,有监督的机器学习的过程即是在训练样本上提取特征,通过迭代式的训练,最终得到目标函数(调序模型)中的所有未知参数的值的过程。当对新的样本进行判别时,通过特征抽取,以及利用训练得到的参数的值,可以得到调序模型(目标函数)的打分,这个打分既可以直接用作判断样本所属类别,又可以作为一个子模型的打分用在其他系统里面。
调序模型的训练样本是从双语句对和词对齐的结果中获取到的,这些训练样本会作为最大熵分类模型的训练数据,从这些训练样本中,可以提取出用于最大熵分类模型训练的特征(主要是一些调序特征:例如边界词等信息),基于这些训练样本,可以训练出一个最大熵调序模型。在机器翻译解码阶段,利用这个最大熵调序模型,可以对每一组待拼接的翻译候选(例如每一短语对应的翻译结果),在其拼接成为更长的片段(新的翻译候选或者称为候选结果)的过程中,给出其“正序”和“逆序”的模型打分。调序模型的打分作为整个机器翻译解码过程中一个子模型的打分,可以干预最终产生的结果。
关于语言模型训练:
所述语言模型,即在目标语端文本上利用统计学知识和机器学习算法学习到的模型,用来评价目标语片段的流利度。
语言模型训练在目标语端,例如英语端进行,主要是为了训练得到一个统计模型,该模型用来评价译文的流利度。
语言模型是基于目标语端的文本做的,目的是统计n元目标语端短语片段在目标语端训练语料所代表的目标语语系和应用场景下出现的可能性,可以体现译文片段的流利度。
关于参数调优:
机器翻译的解码过程,需要很多模块的共同指导,以帮助解码器从众多翻译候选中找出最优翻译,常用的包括翻译规则模块、语言模型模块、调序模型模块等等,这些模块的决策能力(既权重)的大小各不相同,可以最小错误率训练(Minimum Error Rate Training,MERT)算法或在线学习算法(MarginInfused Relaxed Algorithm,MIRA)等算法来训练得到这些子模型的权重,这个过程即为参数调优。
关于解码阶段:
解码过程采用最大熵浅层句法解码算法(Maximal Entropy BracketTransduction Grammar,MEBTG)解码,即给定一个源语言的句子,将其切割成片段,从短语翻译表中找到每个片段的多个翻译候选,不断的将这些片段的翻译候选进行组合,组合的过程中依据短语表打分、语言模型打分、调序模型打分来进行过滤和筛选,最终得到一个完整的目标语端的句子。
本发明实施例中的解码阶段可以针对混合语种组成的文本,在将两个源语端短语片段的翻译候选进行拼接时,若查询调序模型的特征打分时,查询不到结果,则表明这两个源语端的短语片段属于不同的语种,则目标语端的翻译候选为正向拼接,即不进行逆序操作。
例如,在对“[esto es][um livro]”进行翻译时,西班牙语[esto es]可以翻译成英文[this is],葡萄牙语[um livro]可以翻译成[a book],再分别得到“[esto es]->[this is]”和“[um livro]->[a book]”这两个翻译候选后,在得到“[esto es][umlivro]”的整体翻译时,可以考虑将上述的两个翻译候选拼接起来组成整体译文的方法,在将两个译文片段进行拼接时,需要考虑“正序”拼接和“逆序”拼接两种情况,这时,需要考虑这两种情况调序模型的打分,即通过分别从“正序”拼接和“逆序”拼接这两种组合方式中提取特征,得到最大熵调序模型的打分。当源语端的两个片段属于同一个语种时,可以得到最大熵模型的打分,当源语端的两个片段分别属于不同的语种时,由于在训练最大熵调序模型时,缺少相应的训练样本,因此无法通过查询获得调序模型的打分,则只考虑正序输出的情况。
解码阶段详细描述如下:
首先,以排列组合的方式,将输入的句子以词为边界,切割成不同大小(即词的个数不同)的短语,以最大短语长度为7为例,则输入片段被切割成最大长度为7个词的短语,最小长度即1个词。
假设源语端的句子是“我们都是中国人”,那么切割后的短语包括:“我们”,“都是”,“中国”,“人”,“我们都是”,“都是中国”,“中国人”,“我们都是中国”,“都是中国人”,“我们都是中国人”。
针对每种切割方式,自左向右,自底向上的拼接每个短语的目标语端翻译候选,每个短语的翻译候选从上述短语表中可以查询得到。当某一个短语片段包含多个语种时,短语表查询结果为空,即该短语为不合法的短语,自动跳过这种组合方式。
其中,自底向上的拼接过程,如图3所示。在上述切割方式下,对切割的单元分别获取译文,再将译文拼接,如果更长的源语端片段,本身在短语表中也有相应的翻译规则,那么其本身作为整体从短语表中得到的译文,和通过拼接得到的译文,共同作为这个较长片段的翻译候选。
当考虑某种拼接方式下,两个源语端短语片段的翻译候选时,还要根据语言模型打分、翻译概率打分、调序模型打分,来综合判断这种拼接方式是否会成为最佳的翻译子结果。较佳地,首先利用调序模型进行判断,即当以某两个源语端的短语片段以及其相应的目标语翻译候选作为输入,在调序模型中查询不到相应的结果时,则视为正序输出,不考虑逆序的情况,即只计算正序拼接目标语翻译候选的综合打分,该打分可以决定该翻译子结果是否出现在最终结果中。其中,正序拼接形成一种翻译候选,查询得到调序模型打分;逆序拼接形成另一种翻译候选,查询得到其调序模型打分。某一个较长的源语端片段的翻译结果,即为将两个较短的目标语端片段的译文按“正序”或“逆序”拼接的结果,或直接由短语表中查询得到该较长源语端片段的候选译文。
翻译候选的综合打分等于各个模型的打分乘以该模型相应的权重再累和,得到每一翻译候选的综合分值。所有翻译候选中,综合分值最高的一个或多个候选,会成为最终的翻译结果。在所有不同切割方式下,目标语所有翻译候选片段的正序和逆序拼接方式的综合打分全部被计算出来后,即可得到最终的翻译结果。
综上,解码的过程即是自左向右、自底向上的不断拼接相邻的源语端短语片段的目标语端翻译候选的过程,拼接的过程中考虑正序和逆序拼接,并利用之前训练得到的各个模型的打分结果得到一个综合打分,由该综合打分来决定哪种拼接方式下的哪个翻译候选作为最终结果。不同模型的权重不同,可以用多种方法获取各个模型的权重,即上述参数调优的过程,每个模型的权重决定了每个子模型的打分的重要程度,不同模型的打分乘以相应的权重,再线性相加,可以得到最终的综合打分。
上述的各个模型的打分,包括:翻译规则表打分(即翻译概率打分),语言模型打分,和调序模型打分。其中的翻译规则表打分是通过从双语句对和词对齐的信息中,统计互译短语出现的频率等信息,最终得到的某一个短语,翻译成目标语端相应的译文的概率,由于同一个源语端的短语,可以产生多个目标语端的翻译候选,因此,不同的翻译候选会有不同的概率,这个概率即为打分。
解码过程举例如下:
输入为源语端句子为S,由J个词构成,以及模型u和权重λ,输出为1个最优的翻译候选。
首先,对源语端句子进行切割,得到长度不同的连续的源语端片段,这些源语端片段互相可以有交叠。每一个片段对应一个单元(cell),cell中存储该片段的目标语端翻译候选,这些翻译候选最初由短语表查询得到。
自底向上的将小的源语端片段,拼接成较大的片段,拼接的过程中会使用compose函数,通过不断拼接,最终可以得到整句的翻译候选。
compose函数的作用是将两个待拼接的较小片段所对应的cell中的所有翻译候选,分别按正序和逆序进行拼接,并将拼接结果放到较长的片段对应的cell中,然后根据模型打分对这个cell中的翻译候选进行筛选,最终只保留有限个数的翻译候选。
需要注意的是:较长片段的部分翻译候选不一定由拼接得到,也可以直接通过查询上述短语表获得。即较长的片段可以由不同的较短的片段拼接得到,拼接的结果会放在同一个cell中。
由此可见,本发明实施例提供的一种机器翻译方法,参见图4,包括:
S101、确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
S102、根据所述候选结果,确定待输出的目标语端文本。
该方法通过包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表的多语种短语表,实现多语种的源语端文本到目标语端文本的翻译,无需识别源语端文本的语种,提高了翻译的准确性,避免了在处理未知语种到目标语种的翻译过程中,语种识别阶段引入的错误,并且支持多语种混合句子的翻译,无需按语种将句子拆分后再翻译再组合,无需开发每一语种到目标语种的机器翻译引擎,节省了开发成本以及服务器资源。
可选地,利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果,包括:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
也就是说,当待翻译的源语端文本包括多个语种的短语时,无需调序模型打分,没有对应的调序模型的查询结果,因此视为正序输出,不考虑逆序的情况。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
与上述本发明实施例提供的方法相对应地,参见图5,本发明实施例提供的一种机器翻译装置,包括:
第一单元11,用于确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
第二单元12,用于根据所述候选结果,确定待输出的目标语端文本。
可选地,所述第一单元利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果时,具体用于:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
以上本发明实施例中所述的第一单元和第二单元,均可以由具体的处理器的实体设备实现。例如:
参见图6,本发明实施例提供的另一种机器翻译装置,包括:
处理器21,该处理器被配置为执行具备下列功能的计算机程序:
确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
根据所述候选结果,确定待输出的目标语端文本。
存储器22,该存储器被配置为保存上述计算机程序的代码。
可选地,处理器利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果时,具体用于:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,处理器对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括单一语种的短语时,处理器根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,处理器对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
可选地,当所述待翻译的源语端文本包括多个语种的短语时,处理器根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
综上所述,由于短语规则表(即多语种短语表,简称短语表)中的源语端包含多种语言,因此无需特殊指定待翻译句子所属的语种,对于翻译规则表来说,给定一个源语端的短语片段,即可返回相应的目标语,以及翻译规则的打分,因此在一定程度上,做到了对源语端的语种不敏感。另外,在解码阶段,利用调序模型的限制,实现了对混合语种组成的待翻译文本的支持。无需指定源语言的语种,可以实现任意引擎可处理的源语端语种到指定目标语端语种的翻译。
本发明实施例提供的方法同样适用于基于句法的翻译模型,包括层次短语模型、树到串模型、串到树模型、树到树模型。基于句法的模型中,不论是层次短语模型、树到树模型、树到串模型还是串到树模型,都不可避免的要使用短语表作为基本的翻译单元,只是短语表中翻译规则的结构有所不同。因此,通过将双语平行语料和词对齐结果合并,再抽取翻译规则表的方式,可以适应于任何一种上述的统计机器翻译流程。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种机器翻译方法,其特征在于,该方法包括:
确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
根据所述候选结果,确定待输出的目标语端文本。
2.根据权利要求1所述的方法,其特征在于,利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果,包括:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
3.根据权利要求2所述的方法,其特征在于,当所述待翻译的源语端文本包括单一语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
4.根据权利要求3所述的方法,其特征在于,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
5.根据权利要求2所述的方法,其特征在于,当所述待翻译的源语端文本包括多个语种的短语时,根据所述候选结果,确定待输出的目标语端文本,包括:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
6.根据权利要求5所述的方法,其特征在于,根据打分结果选择至少一个候选结果作为待输出的目标语端文本,包括:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
7.一种机器翻译装置,其特征在于,该装置包括:
第一单元,用于确定待翻译的源语端文本,并利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果;
第二单元,用于根据所述候选结果,确定待输出的目标语端文本。
8.根据权利要求7所述的装置,其特征在于,所述第一单元利用预先训练得到的包括多个语种的源语端文本与目标语端文本的翻译规则的翻译规则表,确定目标语端文本的候选结果时,具体用于:
将待翻译的源语端文本以短语为单位,进行划分,得到至少一个短语,通过查找预先训练得到的多个语种的源语端文本与目标语端文本的翻译规则,确定每一短语对应的翻译结果;
将所述每一短语对应的翻译结果进行拼接,或者将多个所述短语进行拼接并通过查找多个语种的源语端文本与目标语端文本的翻译规则,得到目标语端文本的至少一个候选结果。
9.根据权利要求8所述的装置,其特征在于,当所述待翻译的源语端文本包括单一语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分、翻译规则表打分、和调序模型打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
10.根据权利要求9所述的装置,其特征在于,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重、以及将调序模型打分乘以该模型的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
11.根据权利要求7所述的装置,其特征在于,当所述待翻译的源语端文本包括多个语种的短语时,所述第二单元具体用于:
对每一所述候选结果分别进行语言模型打分和翻译规则表打分,并根据打分结果选择至少一个候选结果作为待输出的目标语端文本。
12.根据权利要求11所述的装置,其特征在于,所述第二单元根据打分结果选择至少一个候选结果作为待输出的目标语端文本时,具体用于:
针对每一候选结果,将语言模型打分的打分结果乘以该模型的权重、将翻译规则表打分的打分结果乘以该翻译规则表的权重,并将每一乘积相加,得到该候选结果对应的和值;
选择和值最大的一个或多个候选结果作为待输出的目标语端文本。
CN201510461455.8A 2015-07-30 2015-07-30 一种机器翻译方法及装置 Pending CN106383818A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510461455.8A CN106383818A (zh) 2015-07-30 2015-07-30 一种机器翻译方法及装置
US15/223,950 US10108607B2 (en) 2015-07-30 2016-07-29 Method and device for machine translation
PCT/IB2016/001201 WO2017017527A1 (en) 2015-07-30 2016-07-29 Method and device for machine translation
EP16829915.4A EP3329385A4 (en) 2015-07-30 2016-07-29 AUTOMATIC TRANSLATION METHOD AND DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510461455.8A CN106383818A (zh) 2015-07-30 2015-07-30 一种机器翻译方法及装置

Publications (1)

Publication Number Publication Date
CN106383818A true CN106383818A (zh) 2017-02-08

Family

ID=57883447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510461455.8A Pending CN106383818A (zh) 2015-07-30 2015-07-30 一种机器翻译方法及装置

Country Status (4)

Country Link
US (1) US10108607B2 (zh)
EP (1) EP3329385A4 (zh)
CN (1) CN106383818A (zh)
WO (1) WO2017017527A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN109426667A (zh) * 2017-08-21 2019-03-05 阿里巴巴集团控股有限公司 机票类目cat规则的翻译方法和装置
CN109492233A (zh) * 2018-11-14 2019-03-19 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN109902090A (zh) * 2019-02-19 2019-06-18 北京明略软件系统有限公司 字段名称获取方法和装置
CN110633456A (zh) * 2019-09-19 2019-12-31 腾讯科技(深圳)有限公司 语种识别方法、装置、服务器及存储介质
CN110929530A (zh) * 2018-09-17 2020-03-27 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN111160046A (zh) * 2018-11-07 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111178098A (zh) * 2019-12-31 2020-05-19 苏州大学 一种文本翻译方法、装置、设备及计算机可读存储介质
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN111742364A (zh) * 2018-12-14 2020-10-02 谷歌有限责任公司 用于联网系统的基于语音的接口
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN112487791A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种多语言混合智能翻译方法
CN112528129A (zh) * 2019-08-28 2021-03-19 搜狗(杭州)智能科技有限公司 多语种翻译系统语种搜索方法及装置
CN113299276A (zh) * 2021-05-25 2021-08-24 北京捷通华声科技股份有限公司 多人多语种识别和翻译方法与装置

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10185713B1 (en) * 2015-09-28 2019-01-22 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10268684B1 (en) 2015-09-28 2019-04-23 Amazon Technologies, Inc. Optimized statistical machine translation system with rapid adaptation capability
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
KR102565274B1 (ko) * 2016-07-07 2023-08-09 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US10713593B2 (en) * 2016-11-04 2020-07-14 Google Llc Implicit bridging of machine learning tasks
CN108304368B (zh) * 2017-04-20 2022-02-08 腾讯科技(深圳)有限公司 文本信息的类型识别方法和装置及存储介质和处理器
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
US11900072B1 (en) * 2017-07-18 2024-02-13 Amazon Technologies, Inc. Quick lookup for speech translation
US11475004B2 (en) * 2017-09-12 2022-10-18 Sap Se Optimizing database queries
RU2692049C1 (ru) * 2017-12-29 2019-06-19 Общество С Ограниченной Ответственностью "Яндекс" Способ и система перевода исходного предложения на первом языке целевым предложением на втором языке
CN108388549B (zh) * 2018-02-26 2021-02-19 腾讯科技(深圳)有限公司 信息转换方法、装置、存储介质和电子装置
JP7170984B2 (ja) * 2018-03-02 2022-11-15 国立研究開発法人情報通信研究機構 疑似対訳データ生成装置、機械翻訳処理装置、および疑似対訳データ生成方法
US10929617B2 (en) * 2018-07-20 2021-02-23 International Business Machines Corporation Text analysis in unsupported languages using backtranslation
CN109815390B (zh) * 2018-11-08 2023-08-08 平安科技(深圳)有限公司 多语言信息的检索方法、装置、计算机设备及计算机存储介质
CN110162801B (zh) * 2019-05-29 2023-05-30 科大讯飞股份有限公司 文本处理方法、装置、设备及可读存储介质
CN110245361B (zh) * 2019-06-14 2023-04-18 科大讯飞股份有限公司 短语对提取方法、装置、电子设备及可读存储介质
CN110705317B (zh) * 2019-08-28 2023-04-07 科大讯飞股份有限公司 翻译方法及相关装置
CN111178091B (zh) * 2019-12-20 2023-05-09 沈阳雅译网络技术有限公司 一种多维度的中英双语数据清洗方法
CN111611811B (zh) 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN111950302B (zh) * 2020-08-20 2023-11-10 上海携旅信息技术有限公司 基于知识蒸馏的机器翻译模型训练方法、装置、设备及介质
WO2022169521A1 (en) * 2021-02-04 2022-08-11 Google Llc Systems and methods for progressive learning for machine-learned models to optimize training speed
CN113435188A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于语义相似的过敏文本样本生成方法、装置及相关设备
CN114154092B (zh) * 2021-11-18 2023-04-18 网易有道信息技术(江苏)有限公司 用于对网页进行翻译的方法及其相关产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN102270196A (zh) * 2010-06-04 2011-12-07 中国科学院软件研究所 一种机器翻译方法
US20120016657A1 (en) * 2010-07-13 2012-01-19 Dublin City University Method of and a system for translation
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统
US20130117010A1 (en) * 2010-07-13 2013-05-09 Sk Planet Co., Ltd. Method and device for filtering a translation rule and generating a target word in hierarchical-phase-based statistical machine translation
CN103189860A (zh) * 2010-11-05 2013-07-03 Sk普兰尼特有限公司 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN104239290A (zh) * 2014-08-08 2014-12-24 中国科学院计算技术研究所 基于依存树的统计机器翻译方法及系统
CN105144149A (zh) * 2013-05-29 2015-12-09 国立研究开发法人情报通信研究机构 翻译词序信息输出装置、翻译词序信息输出方法及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140673A (ja) * 1984-07-31 1986-02-26 Hitachi Ltd 外国語作文用翻訳方法、および翻訳機
JPS63223962A (ja) 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
US5005127A (en) 1987-10-26 1991-04-02 Sharp Kabushiki Kaisha System including means to translate only selected portions of an input sentence and means to translate selected portions according to distinct rules
JPH08101837A (ja) 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
US6233546B1 (en) 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US7072826B1 (en) * 1998-06-04 2006-07-04 Matsushita Electric Industrial Co., Ltd. Language conversion rule preparing device, language conversion device and program recording medium
US6092034A (en) 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
JP2000132550A (ja) 1998-10-26 2000-05-12 Matsushita Electric Ind Co Ltd 機械翻訳のための中国語生成装置
US20080306727A1 (en) * 2005-03-07 2008-12-11 Linguatec Sprachtechnologien Gmbh Hybrid Machine Translation System
US8504353B2 (en) * 2009-07-27 2013-08-06 Xerox Corporation Phrase-based statistical machine translation as a generalized traveling salesman problem
US8478581B2 (en) 2010-01-25 2013-07-02 Chung-ching Chen Interlingua, interlingua engine, and interlingua machine translation system
US8818790B2 (en) * 2010-04-06 2014-08-26 Samsung Electronics Co., Ltd. Syntactic analysis and hierarchical phrase model based machine translation system and method
KR101732634B1 (ko) * 2010-08-23 2017-05-08 에스케이플래닛 주식회사 의존관계 포레스트를 이용한 통계적 기계 번역 방법
US9235567B2 (en) * 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
US9836457B2 (en) * 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106484681B (zh) * 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN102270196A (zh) * 2010-06-04 2011-12-07 中国科学院软件研究所 一种机器翻译方法
US20120016657A1 (en) * 2010-07-13 2012-01-19 Dublin City University Method of and a system for translation
US20130117010A1 (en) * 2010-07-13 2013-05-09 Sk Planet Co., Ltd. Method and device for filtering a translation rule and generating a target word in hierarchical-phase-based statistical machine translation
CN103189860A (zh) * 2010-11-05 2013-07-03 Sk普兰尼特有限公司 组合句法转换模型与词汇转换模型的机器翻译装置和机器翻译方法
CN102968411A (zh) * 2012-10-24 2013-03-13 橙译中科信息技术(北京)有限公司 多语机器翻译智能辅助处理方法和系统
CN103235775A (zh) * 2013-04-25 2013-08-07 中国科学院自动化研究所 一种融合翻译记忆和短语翻译模型的统计机器翻译方法
CN105144149A (zh) * 2013-05-29 2015-12-09 国立研究开发法人情报通信研究机构 翻译词序信息输出装置、翻译词序信息输出方法及存储介质
CN104239290A (zh) * 2014-08-08 2014-12-24 中国科学院计算技术研究所 基于依存树的统计机器翻译方法及系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255129A (zh) * 2017-07-14 2019-01-22 松下电器(美国)知识产权公司 翻译方法、翻译装置以及翻译程序
CN109255129B (zh) * 2017-07-14 2023-11-07 松下电器(美国)知识产权公司 翻译方法、翻译装置以及记录介质
CN109426667A (zh) * 2017-08-21 2019-03-05 阿里巴巴集团控股有限公司 机票类目cat规则的翻译方法和装置
CN108874790A (zh) * 2018-06-29 2018-11-23 中译语通科技股份有限公司 一种基于语言模型和翻译模型的清洗平行语料方法及系统
CN110929530A (zh) * 2018-09-17 2020-03-27 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN110929530B (zh) * 2018-09-17 2023-04-25 阿里巴巴集团控股有限公司 一种多语言垃圾文本的识别方法、装置和计算设备
CN111160046A (zh) * 2018-11-07 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109492233B (zh) * 2018-11-14 2023-10-17 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
CN109492233A (zh) * 2018-11-14 2019-03-19 北京捷通华声科技股份有限公司 一种机器翻译方法和装置
US11934796B2 (en) 2018-12-14 2024-03-19 Google Llc Voice-based interface for translating utterances between users
CN111742364A (zh) * 2018-12-14 2020-10-02 谷歌有限责任公司 用于联网系统的基于语音的接口
CN109858029B (zh) * 2019-01-31 2023-02-10 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN109902090A (zh) * 2019-02-19 2019-06-18 北京明略软件系统有限公司 字段名称获取方法和装置
CN109902090B (zh) * 2019-02-19 2022-06-07 北京明略软件系统有限公司 字段名称获取方法和装置
CN112528129B (zh) * 2019-08-28 2024-03-22 北京搜狗科技发展有限公司 多语种翻译系统语种搜索方法及装置
CN112528129A (zh) * 2019-08-28 2021-03-19 搜狗(杭州)智能科技有限公司 多语种翻译系统语种搜索方法及装置
CN110633456B (zh) * 2019-09-19 2023-04-07 腾讯科技(深圳)有限公司 语种识别方法、装置、服务器及存储介质
CN110633456A (zh) * 2019-09-19 2019-12-31 腾讯科技(深圳)有限公司 语种识别方法、装置、服务器及存储介质
CN111178098B (zh) * 2019-12-31 2023-09-12 苏州大学 一种文本翻译方法、装置、设备及计算机可读存储介质
CN111178098A (zh) * 2019-12-31 2020-05-19 苏州大学 一种文本翻译方法、装置、设备及计算机可读存储介质
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN112487791A (zh) * 2020-11-27 2021-03-12 江苏省舜禹信息技术有限公司 一种多语言混合智能翻译方法
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN113299276A (zh) * 2021-05-25 2021-08-24 北京捷通华声科技股份有限公司 多人多语种识别和翻译方法与装置
CN113299276B (zh) * 2021-05-25 2023-08-29 北京捷通华声科技股份有限公司 多人多语种识别和翻译方法与装置

Also Published As

Publication number Publication date
WO2017017527A1 (en) 2017-02-02
EP3329385A1 (en) 2018-06-06
EP3329385A4 (en) 2019-03-13
US20170031901A1 (en) 2017-02-02
US10108607B2 (en) 2018-10-23

Similar Documents

Publication Publication Date Title
CN106383818A (zh) 一种机器翻译方法及装置
Harrat et al. Machine translation for Arabic dialects (survey)
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
CN103631772A (zh) 机器翻译方法及装置
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Aswani et al. A hybrid approach to align sentences and words in English-Hindi parallel corpora
Mahata et al. Simplification of English and Bengali sentences for improving quality of machine translation
Lyons A review of Thai–English machine translation
Tien et al. Long sentence preprocessing in neural machine translation
Liu et al. Chinese-Portuguese machine translation: a study on building parallel corpora from comparable texts
Samardžić et al. Automatic interlinear glossing as two-level sequence classification
CN102135957A (zh) 一种翻译短句的方法及装置
Misu et al. A bootstrapping approach for SLU portability to a new language by inducting unannotated user queries
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Dasgupta et al. Resource creation and development of an English-Bangla back transliteration system
MILAD Comparative evaluation of translation memory (TM) and machine translation (MT) systems in translation between Arabic and English
Sankaravelayuthan et al. English to tamil machine translation system using parallel corpus
Liu The technical analyses of named entity translation
KR101589948B1 (ko) 자동 번역 방법 및 장치
CN110287496A (zh) 一种基于神经网络的英译汉词义消歧方法
Elsaid et al. Abstractive Arabic Text Summarization Based on MT5 and AraBart Transformers
Lhakpadondrub et al. The Study on the Disambiguation Method of Tibetan Same Shape Different Pronunciation Words

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170208