CN100527125C - 一种统计机器翻译中的在线翻译模型选择方法和系统 - Google Patents

一种统计机器翻译中的在线翻译模型选择方法和系统 Download PDF

Info

Publication number
CN100527125C
CN100527125C CNB2007100997246A CN200710099724A CN100527125C CN 100527125 C CN100527125 C CN 100527125C CN B2007100997246 A CNB2007100997246 A CN B2007100997246A CN 200710099724 A CN200710099724 A CN 200710099724A CN 100527125 C CN100527125 C CN 100527125C
Authority
CN
China
Prior art keywords
corpus
translation
sub
candidate
translation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007100997246A
Other languages
English (en)
Other versions
CN101079028A (zh
Inventor
吕雅娟
刘群
黄瑾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNB2007100997246A priority Critical patent/CN100527125C/zh
Publication of CN101079028A publication Critical patent/CN101079028A/zh
Application granted granted Critical
Publication of CN100527125C publication Critical patent/CN100527125C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,训练阶段包括:收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中;为子语料库训练候选翻译模型;为子语料库建立索引,得到语料库索引文件;翻译阶段包括:输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子;根据检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;根据最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量。

Description

一种统计机器翻译中的在线翻译模型选择方法和系统
技术领域
本发明涉及统计机器翻译技术领域,特别涉及统计机器翻译系统的在线翻译模型选择方法。
背景技术
随着信息时代的到来以及互联网的迅猛发展,各国间的交流日益广泛,人们对于机器翻译的需求也越来越迫切。近年来,机器翻译研究取得了很大的发展,尤其是以统计机器翻译技术为代表的机器翻译新技术取得了一定程度的突破,成为目前机器翻译研究的主流。
机器翻译方法可分为基于规则的机器翻译方法(即规则机器翻译方法)和基于统计的机器翻译方法(统计机器翻译方法)。在传统的基于规则的机器翻译方法中,翻译知识主要体现为词典和规则,而词典和规则主要依靠人类专家来编写。这种方法存在的主要问题有:人类专家编写语言知识需要耗费大量的人力物力和时间;人类专家编写的知识很难全面覆盖真实翻译环境中面临的各种问题;人类专家编写的语言知识在面临冲突时没有好的解决办法;人类专家编写的语言知识不方便移植到不同的语种和领域。而在统计机器翻译中,所有的翻译知识全部来源于真实的双语平行语料库(parallel corpus),通过统计建模,自动学习双语平行语料库中的翻译知识,因此克服了人类专家编写知识所面临的主要问题,而且容易移植到新的领域和语种上。由于具有严格的统计模型为依据,在克服知识的冲突上有比较合理的解决办法,总体上可以到达较好的翻译结果。这是目前基于统计的机器翻译方法的翻译质量可以超过基于规则的机器翻译方法的主要原因。
统计机器翻译系统的建立通常包括两个主要过程:训练和解码。所谓训练就是根据一定的算法从语料库资源中自动估计出统计翻译模型的参数;所谓解码就是根据训练过程得到的模型参数对输入文本进行翻译的过程,因此解码通常也直接称为翻译。在参考文献1“Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,andPobert L.Mercer.1993,The Mathem atics of Statistical Machine Translation:ParameterEstimation,Computational Linguistics[J],vol.19,no.2,pages263-311”;参考文献2“Philipp Koehn,Franz Joseph Och,and Daniel Marcu.2003.Statistical phrase-basedtranslation.In Proceedings of Human Language Technology Conference/North Americanchapter of the Association for Computational Linguistics annual meeting 2003,pages127-133”;参考文献3“Franz J.Och and Hermann Ney.2002.Discriminative trainingand maximum entropy models for statistical machine translation.In Proceedings of the40th Annual Meeting of Association for Computational Linguistics 2002,pages295-302.”中都有对现有技术中训练和解码过程的说明。
统计机器翻译的训练过程中的一个重要的资源就是双语平行语料库,即包含两种语言对照翻译的文本的集合。由于统计机器翻译系统中的翻译知识全部来源于双语平行语料库,因此双语平行语料库的规模和质量直接影响到翻译系统的翻译质量。一般来说,用于训练翻译模型的双语平行语料库规模越大,训练得到的模型参数越稳定,越接近于真实情况,翻译质量越高。因此很多研究者提出了自动搜集双语语料库的方法,如从Web上自动获取双语平行语料库或从可比文本中获取双语平行语料库等。但是,目前搜集的双语平行语料库往往具有很强的领域性,如目前在汉英统计机器翻译训练中常用的几个规模比较大的双语平行语料库分别来自于香港议会会议录、香港法律、新华社新闻等相差很远的若干领域。简单地将这些领域相差很远的语料库合并进行训练并不能明显提高翻译质量。利用某一领域的语料库训练得到的翻译模型在该领域可以得到很好的翻译结果,而将该模型应用于其它领域翻译时翻译质量就会下降很多,即统计机器翻译系统对于训练语料和翻译文本的领域非常敏感。在实际应用中,大多情况下系统无法预知用户输入的待翻译文本的领域,如果用一个统一的模型来翻译不同领域的文本,势必会影响系统的翻译质量。因此,如何提高统计机器翻译系统对不同翻译文本的领域适应能力,改善统计机器翻译系统的翻译质量、推进统计机器翻译系统的实用性是人们迫切需要解决的问题。
发明内容
本发明的目的在于克服现有的统计机器翻译系统不能同时适应不同领域翻译文本的缺陷,提供一种根据所要翻译的文本选择翻译模型的方法,从而对于不同领域的翻译输入都能取得较好翻译结果。
为了实现上述目的,本发明提供了一种统计机器翻译中候选翻译模型生成方法,包括以下步骤:
步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
步骤102)、根据步骤101)得到的子语料库,训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
步骤103)、为步骤101)得到的子语料库建立索引,得到语料库索引文件。
上述技术方案中,所述的分类或聚类方法包括k均值聚类法或k近邻分类法或最大熵分类法。
上述技术方案中,在所述的步骤103)中,为双语平行语料库中每个翻译句对的源语言句子建立索引,所述索引包括翻译句对的源语言句子所在子语料库的信息。
上述技术方案中,采用Lemur信息检索工具建立索引。
本发明还提供了一种统计机器翻译中利用候选翻译模型进行翻译的方法,包括以下步骤:
步骤200)、采用所述的统计机器翻译中候选翻译模型生成方法生成候选翻译模型以及各个子语料库的语料库索引文件;
步骤201)、输入待翻译文本,从所述语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
步骤202)、根据步骤201)的检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
步骤203)、根据步骤202)所确定的最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
上述技术方案中,在所述的步骤201)中,采用相似度检索模型计算所述的待翻译文本与语料索引文件中所有索引文档之间的相似度,然后根据相似度大小为所有的计算结果按从大到小依次排序,选择相似度最高的至少一个句子,所选择的句子包括该句子所在子语料库的信息。
上述技术方案中,采用向量空间模型及TF-IDF相似度计算方法实现相似句子的检索。
上述技术方案中,在所述的步骤202)中,设定选择策略,根据选择策略从所有的候选翻译模型中选择一个候选翻译模型或几个候选翻译模型的组合作为所述的最终翻译模型。
所述的选择策略包括根据同一子语料库中所包含相似句子的个数确定候选翻译模型,或结合相似度的数值来确定候选翻译模型。
本发明又提供了一种统计机器翻译的在线翻译模型选择方法,包括训练和翻译两个阶段,其特征在于,所述的训练阶段包括以下步骤:
步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
步骤102)、根据步骤101)得到的子语料库,训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
步骤103)、为步骤101)得到的子语料库建立索引,得到语料库索引文件;
所述的翻译阶段包括以下步骤:
步骤201)、输入待翻译文本,从步骤103)得到的语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
步骤202)、根据步骤201)的检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
步骤203)、根据步骤202)所确定的最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
本发明又提供了一种统计机器翻译中的在线翻译模型选择系统,包括训练模块和翻译模块,所述的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元,所述的翻译模块包括检索单元、候选翻译模型选择单元和翻译单元;其中:
所述的语料库收集单元用于收集双语平行语料库,并根据所收集双语平行语料库的类型,构建子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
所述的候选翻译模型训练单元用于为所述的子语料库训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
所述的索引建立单元为所述的子语料库建立索引,得到语料库索引文件;
所述的检索单元用于根据输入的待翻译文本,从所述的语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
所述的候选翻译模型选择单元用于根据检索结果,得到与相似句子所在子语料库对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
所述的翻译单元根据所选择的最终翻译模型对待翻译文件进行翻译。
本发明的优点在于:
1.本发明提供的这种在线翻译模型选择方法,使得统计机器翻译系统可以根据输入的待翻译文本,在线选择适合的翻译模型进行翻译,很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题,能够有效地提高统计机器翻译系统的翻译质量,为统计机器翻译系统的实用化提供了可行的方案。
2.本发明提供的在线翻译模型选择方法,与具体的统计机器翻译方法的建模、训练和解码过程是独立的,可以适用于各种统计机器翻译方法,如基于词汇的统计机器翻译方法、基于短语的统计机器翻译方法,基于句法的统计机器翻译方法等。因此该发明具有适应性好,实施简单等优点。
附图说明
图1为本发明的统计机器翻译的在线翻译模型选择方法中模型训练部分的示意图;
图2为统计机器翻译的在线翻译模型选择方法中在线翻译部分的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
本发明的统计机器翻译的在线翻译模型选择方法包括模型训练和在线翻译两大部分,下面分别进行详细说明。
如图1所示,本发明的模型训练过程具体包括以下步骤:
步骤101、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库。在本步骤中,所收集的双语平行语料库一般是句子对齐的双语语料库,该语料库中包含句子的对照翻译。在把双语平行语料库划分到不同类型的子语料库中时,应当使得同一个子语料库中的数据尽可能具有相似的领域、主题和用词等,不同的子语料库之间的数据的领域、主题及用词等的差距尽可能大。在将双语平行语料库划分到不同类型的子语料库中时,可采用分类或聚类的方法,现有的分类或聚类方法都可应用于本发明,如常用的k均值聚类、k近邻分类、最大熵分类等方法。此外,在收集双语语料库时,往往可以知道语料库的来源和领域,这时可以按照语料库的来源和领域直接将语料库分成几个领域不同的子语料库。
通过上述操作,所收集的双语平行语料库被划分成几个子语料库。所划分的子语料库个数不宜过多,要保证每个子语料库包含一定规模的语料(即翻译句对),以避免子语料库规模过小而对翻译质量造成的影响。另外,在子语料库划分过程中,原有语料库中的一个翻译句对也可能同时分在不同的子语料库中,也就是说划分完的子语料库中允许包含相同的翻译句对。
步骤102、根据步骤101得到的子语料库,训练候选翻译模型。在训练候选翻译模型时,对划分好的每个子语料库进行翻译模型的训练,得到对应的子翻译模型。同时,利用所有的双语平行语料库进行训练,得到一个通用的翻译模型。
在本步骤中,翻译模型的训练是成熟的现有技术,可以采用常用的翻译模型训练方法,例如,在本实施例中可采用参考文献1中所披露的EM训练法;在参考文献2中所披露的最大似然训练法;和在参考文献3中所披露的判别训练方法等。
通过本步骤得到的翻译模型就是在后续的翻译阶段所要用到的候选翻译模型。
步骤103、为子语料库建立索引,得到语料库索引文件。对子语料库中的每个翻译句对的源语言句子建立索引,在所建立的索引中包括翻译句对的源语言句子所在子语料库的信息。建立索引的目的是使得在后续翻译过程中可以方便、快速地检索查找到与给定文本最相似的N个句子,同时可以知道这些句子来源于哪一个或哪几个子语料库。为子语料库建立索引的工作采用成熟的现有技术即可,在本实施例中可使用Lemur信息检索工具建立索引。在建立索引的过程中把每个翻译句对的源语言句子看作一个文档,同时在文档的路径信息中记录了该文档所属的子语料库信息。
通过上述的操作,完成了对翻译模型的训练过程,下面对在线翻译的过程进行具体的说明。
如图2所示,本发明的统计机器翻译的在线翻译模型选择方法中的在线翻译方法包括以下步骤:
步骤201、输入待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的训练句子。
对待翻译文件检索相似句子时,可利用相似度检索方法从训练语料库的索引中检索出最相似的N个句子,每个句子同时包含其对应的子语料库信息,即该句子属于哪一个子语料库。
其中,上述的相似度检索方法具有多种实现方式,如Dice系数法、编辑距离法、余弦函数法等。在本实施例中可采用信息检索中常用的向量空间模型及TF-IDF相似度计算方法来实现相似句子的检索,具体说明如下:
在向量空间模型检索过程中,将用户输入的查询和系统中的文档都使用向量表示,假设共有n个单词,则每篇文档(或查询)Di都可视为一个n维向量(wi1,wi2,...,win),其中的wij表示文档Di中的第j维的权值,对该权值的计算可按如下的TF-IDF方法进行:
wij=tfij×log(idfj)
其中,tfij是指单词j在文档Di中出现的频次,tfij的值越大,表示单词j对于文档Di越重要;而idfj称为逆文本频率指数,为包含有单词j的文档数目的倒数,计算时一般使用文档总数除以含有单词j的文档数。idfj越小,包含单词j的文档数目越多,表示单词j在衡量文档相似性方面的作用越低。
当用户输入待翻译文本时,检索系统首先计算待翻译文本与所有索引文档向量之间的相似度,然后根据相似度大小为所有的计算结果从大到小依次排序。在计算相似度时,常采用向量之间的夹角余弦或者内积来表示相似度大小。
在步骤103中提到可以采用Lemur信息检索工具建立索引,在本步骤中,同样可利用Lemur信息检索工具实现基于向量空间模型及TF-IDF相似度的相似句子检索。通过检索,可获得前N个与待翻译文本最相似的训练句子,同时可以获得每个句子的所属训练子语料库信息。
步骤202、根据步骤201中检索的结果选择翻译模型。在步骤201得到所检索到的相似句子后,还得到了相似句子所属子语料库的信息。根据步骤102中的相关描述信息,一个子语料库对应有一个候选翻译模型,而在步骤201所得到的多个相似句子可能从属于不同的子语料库,因此也会对应不同的候选翻译模型,在本步骤中就是要根据一定的选择策略选择其中的一个候选模型或几个候选模型的组合作为最后的翻译模型。所述的选择策略可以根据实际需要确定,如既可以根据子语料库相似句子的个数,也可以结合相似度的数值来确定选择策略。假设对一个待翻译的句子,它有5个相似句子,其中3个相似句子属于子语料库1,1个相似句子属于子语料库2,1个相似句子属于子语料库3,则根据子语料库相似句子个数的选择策略,将子语料库1对应的候选翻译模型作为最终的翻译模型。又假设对一个待翻译的句子,它有5个相似句子,它们的相似度分别为0.9、0.7、0.5、0.3、0.1,其中,第1和第2个相似句子属于子语料库1,第3、4、5个相似句子属于子语料库2,则根据相似度数值的选择策略,由于子语料库1的相似度总值为1.6(0.9+0.7),而子语料库2的相似度总值为0.9(0.5+0.3+0.1),因此,尽管子语料库2包含的相似句子更多,但仍然选择子语类库1所对应的候选翻译模型作为最终的翻译模型。
下面采用一个简单的模型选择策略对本步骤的具体实现过程进行说明:
if Proportion(max_model)>0.5
    δ0=0;δi=max_model=1;δi≠max_model=0;
else
    δ0=1;δi=0;
其中,δ0表示通用翻译模型的权重,δi表示第i个子翻译模型的权重,i=(1...M)。Max_model是占有最大比例的那个模型。函数Proportion(Max_model)表示检索到的相似句子中,属于Max_model所对应的子语料库的句子所占的比例。
在确定模型的权重δ0和δi后,最终的翻译模型为这些候选模型的对数线性插值:
e ^ = arg max e ( δ 0 log ( p 0 ( e | c ) ) + Σ i = 1 M δ i log ( p i ( e | c ) ) )
其中,c表示待翻译的汉语句子,e表示候选翻译结果,
Figure C200710099724D00132
表示概率最大的翻译结果。p0是利用通用翻译模型得到的翻译概率,pi是利用第i个翻译模型得到的翻译概率。
根据该公式及上面的模型选择策略,当最大比例的模型Max_model所占的比例大于0.5时,使用Max_model作为最后的翻译模型,否则,使用通用模型作为最后的翻译模型。当然,也可以定义更复杂的模型选择策略,如下面的策略是根据检索到的相似句子中每个子语料库所占的比例来决定各个子模型的权重:
If Proportion(max_model)>0.5
    δ0=0;
    δi=proportion(modeli);
else
    δ0=0.5;
    δi=0.5×proportion(modeli);
步骤203、根据步骤202所确定的翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
本步骤与现有的统计机器翻译系统中的翻译实现过程相类似,因此,在本发明中不再做详细说明。
上面是对本发明的统计机器翻译中的在线翻译模型选择方法实现过程的具体说明,与现有技术相比,本发明为收集到的双语平行语料库按照类别进行了划分,并为每个子语料库建立了相应的翻译模型,为所有的双语平行语料库建立了通用模型,并为源语言句子建立了相应的索引文件。当输入待翻译文本后,首先搜索相似句子,根据相似句子选择翻译模型,避免了现有技术采用单一的翻译模型所造成的翻译精确度不高,对不同领域翻译文本适应能力弱的缺陷。
根据本发明提出的统计机器翻译中的在线模型选择方法,本发明还提出了与之相适应的在线翻译模型选择系统,该系统包括训练模块和翻译模块,其中的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元,翻译模块包括检索单元、候选翻译模型选择单元和翻译单元。
语料库收集单元用于收集双语平行语料库,并根据所收集双语平行语料库的类型,构建子语料库。
候选翻译模型训练单元用于为子语料库训练候选翻译模型。
索引建立单元为子语料库建立索引,得到语料库索引文件。
检索单元用于根据输入的待翻译文本,从语料库索引文件中检索与待翻译文本中的句子相似的句子。
候选翻译模型选择单元用于根据检索结果,得到与相似句子所在子语料库对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型。
翻译单元根据所选择的最终翻译模型对待翻译文件进行翻译。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1、一种统计机器翻译中候选翻译模型生成方法,包括以下步骤:
步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
步骤102)、根据所述子语料库,训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
步骤103)、为所述子语料库建立索引,得到语料库索引文件。
2、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法,其特征在于,所述的分类或聚类方法为k均值聚类法或k近邻分类法或最大熵分类法。
3、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法,其特征在于,在所述的步骤103)中,所述子语料库建立索引,是指:
子语料库中每个翻译句对的源语言句子建立索引,所述索引包括翻译句对的源语言句子所在子语料库的信息。
4、根据权利要求3所述的统计机器翻译中候选翻译模型生成方法,其特征在于,采用Lemur信息检索工具建立索引。
5、一种统计机器翻译中利用候选翻译模型进行翻译的方法,包括以下步骤:
步骤200)、采用权利要求1-4之一的统计机器翻译中候选翻译模型生成方法生成候选翻译模型以及各个子语料库的语料库索引文件;
步骤201)、输入待翻译文本,从所述语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
步骤202)、根据所述检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
步骤203)、根据所述最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
6、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,在所述的步骤201)中,所述从语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,是指:
采用相似度检索方法计算所述的待翻译文本与语料索引文件中所有索引文档之间的相似度,然后根据相似度大小为所有的计算结果按从大到小依次排序,选择相似度最高的至少一个句子,所选择的句子包括该句子所在子语料库的信息。
7、根据权利要求6所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,所述相似度检索方法为向量空间模型及TF-IDF相似度计算方法。
8、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,在所述的步骤202)中,所述从所有的候选翻译模型中选择最终翻译模型,是指:
设定选择策略,根据选择策略从所有的候选翻译模型中选择一个候选翻译模型或几个候选翻译模型的组合作为所述的最终翻译模型。
9、根据权利要求8所述的统计机器翻译中利用候选翻译模型进行翻译的方法,其特征在于,所述的选择策略为根据同一子语料库中所包含相似句子的个数确定候选翻译模型,或结合相似度的数值来确定候选翻译模型。
10、一种统计机器翻译中的在线翻译模型选择方法,包括训练和翻译两个阶段,其特征在于,所述的训练阶段包括以下步骤:
步骤101)、收集双语平行语料库,根据类型,将双语平行语料库划分到不同的子语料库中,从而构建不同类型的子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
步骤102)、根据所述子语料库,训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
步骤103)、为所述子语料库建立索引,得到语料库索引文件;
所述的翻译阶段包括以下步骤:
步骤201)、输入待翻译文本,从所述语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
步骤202)、根据所述检索结果,得到与相似句子所在子语料库所对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
步骤203)、根据所述最终翻译模型对输入的待翻译文本进行翻译,得到最后的翻译结果。
11、一种统计机器翻译中的在线翻译模型选择系统,包括训练模块和翻译模块,其特征在于,所述的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元,所述的翻译模块包括检索单元、候选翻译模型选择单元和翻译单元;其中:
所述的语料库收集单元用于收集双语平行语料库,并根据所收集双语平行语料库的类型,构建子语料库;其中,所述的将双语平行语料库划分到不同的子语料库中包括:划分双语平行语料库时,根据双语平行语料库中数据的所属领域、主题和用词,采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中;
所述的候选翻译模型训练单元用于为所述的子语料库训练候选翻译模型;其中,对每个子语料库进行翻译模型的训练,得到对应的子翻译模型;对所有的子语料库合并进行翻译模型的训练,得到一个通用的翻译模型;所有的子翻译模型和通用翻译模型统称为候选翻译模型;
所述的索引建立单元为所述的子语料库建立索引,得到语料库索引文件;
所述的检索单元用于根据输入的待翻译文本,从所述的语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子,得到检索结果;其中,所述检索结果中的句子称为相似句子;
所述的候选翻译模型选择单元用于根据检索结果,得到与相似句子所在子语料库对应的候选翻译模型,从所有的候选翻译模型中选择最终翻译模型;
所述的翻译单元根据所选择的最终翻译模型对待翻译文件进行翻译。
CNB2007100997246A 2007-05-29 2007-05-29 一种统计机器翻译中的在线翻译模型选择方法和系统 Active CN100527125C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100997246A CN100527125C (zh) 2007-05-29 2007-05-29 一种统计机器翻译中的在线翻译模型选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100997246A CN100527125C (zh) 2007-05-29 2007-05-29 一种统计机器翻译中的在线翻译模型选择方法和系统

Publications (2)

Publication Number Publication Date
CN101079028A CN101079028A (zh) 2007-11-28
CN100527125C true CN100527125C (zh) 2009-08-12

Family

ID=38906508

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100997246A Active CN100527125C (zh) 2007-05-29 2007-05-29 一种统计机器翻译中的在线翻译模型选择方法和系统

Country Status (1)

Country Link
CN (1) CN100527125C (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101714136B (zh) * 2008-10-06 2012-04-11 株式会社东芝 将基于语料库的机器翻译系统适应到新领域的方法和装置
JP5204244B2 (ja) 2008-11-27 2013-06-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 誤訳の検出を支援する装置及び方法
CN102193912B (zh) * 2010-03-12 2013-11-06 富士通株式会社 短语划分模型建立方法、统计机器翻译方法以及解码器
CN102270196A (zh) * 2010-06-04 2011-12-07 中国科学院软件研究所 一种机器翻译方法
CN102591857B (zh) * 2011-01-10 2015-06-24 富士通株式会社 一种平行语料资源获取方法及系统
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN102955819A (zh) * 2011-08-31 2013-03-06 镇江诺尼基智能技术有限公司 一种从Web网页中获取汉语简称的方法
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN102591858B (zh) * 2011-11-11 2016-06-22 张生麟 一种机器翻译的方法和装置
CN102662935A (zh) * 2012-04-08 2012-09-12 北京语智云帆科技有限公司 一种交互式的机器翻译方法和机器翻译系统
CN103631773A (zh) * 2013-12-16 2014-03-12 哈尔滨工业大学 基于领域相似性度量方法的统计机器翻译方法
CN103729350B (zh) * 2013-12-30 2017-01-04 语联网(武汉)信息技术有限公司 多维度待译文档的预处理方法
CN104750676B (zh) * 2013-12-31 2017-10-24 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置
CN104933038A (zh) * 2014-03-20 2015-09-23 株式会社东芝 机器翻译方法和机器翻译装置
CN105095192A (zh) * 2014-05-05 2015-11-25 武汉传神信息技术有限公司 一种双模式翻译设备
CN104166644A (zh) * 2014-07-09 2014-11-26 苏州市职业大学 一种基于云计算的术语译文挖掘方法
CN104391838B (zh) * 2014-08-18 2017-08-29 武汉传神信息技术有限公司 一种提高法律文件翻译准确性的方法
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN105808529B (zh) * 2016-03-10 2018-06-08 语联网(武汉)信息技术有限公司 一种语料划分领域的方法和装置
CN108763226A (zh) * 2016-06-28 2018-11-06 大连民族大学 商品评论要素的抽取方法
CN106503153B (zh) * 2016-10-21 2019-05-10 江苏理工学院 一种计算机文本分类体系
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及系统
CN106844358A (zh) * 2017-01-19 2017-06-13 中译语通科技(北京)有限公司 系统级芯片中海量数据模型的自然语言统计机器翻译方法
CN108628841A (zh) * 2017-03-22 2018-10-09 湖南本来文化发展有限公司 基于birch聚类算法翻译粤语口音和英语的app
CN108628847A (zh) * 2017-03-22 2018-10-09 湖南本来文化发展有限公司 一种采用birch聚类算法翻译普通话和英语的同传箱
CN108628848A (zh) * 2017-03-22 2018-10-09 湖南本来文化发展有限公司 用birch聚类算法对四川口音和英语进行翻译的方法
CN107545036B (zh) * 2017-07-28 2021-01-19 深圳前海微众银行股份有限公司 客服机器人知识库建设方法、客服机器人及可读存储介质
CN107644085B (zh) * 2017-09-22 2020-12-11 百度在线网络技术(北京)有限公司 体育赛事新闻的生成方法和装置
CN108228576B (zh) * 2017-12-29 2021-07-02 科大讯飞股份有限公司 文本翻译方法及装置
CN108920473B (zh) * 2018-07-04 2022-08-09 中译语通科技股份有限公司 一种基于同类词与同义词替换的数据增强机器翻译方法
CN109543194B (zh) * 2018-11-21 2023-06-13 传神语联网网络科技股份有限公司 基于icat与trados的融合翻译方法与系统
CN109829550B (zh) * 2019-02-01 2022-03-04 北京金山数字娱乐科技有限公司 模型评价方法和装置、模型评价系统及其训练方法和装置
CN109977207A (zh) * 2019-03-21 2019-07-05 网易(杭州)网络有限公司 对话生成方法、对话生成装置、电子设备及存储介质
CN110705320A (zh) * 2019-10-08 2020-01-17 中国船舶工业综合技术经济研究院 一种面向细分领域的国防军工领域机器翻译方法及系统
CN111177412B (zh) * 2019-12-30 2023-03-31 成都信息工程大学 公共标识语双语平行语料库系统
CN111368563A (zh) * 2020-03-03 2020-07-03 新疆大学 一种融合聚类算法的维汉机器翻译系统
CN113204977B (zh) * 2021-04-29 2023-09-26 北京有竹居网络技术有限公司 信息翻译方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
CN1643512A (zh) * 2002-03-27 2005-07-20 南加利福尼亚大学 统计机译中短语化联合概率模型的短语
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
CN1643512A (zh) * 2002-03-27 2005-07-20 南加利福尼亚大学 统计机译中短语化联合概率模型的短语
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
CN1928862A (zh) * 2005-09-08 2007-03-14 富士通株式会社 基于数据挖掘获取词或词组单元译文信息的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Discriminative Training and Maximum Entropy Models ForStatistical Machine Translation. Franz Josef Och, Hermann Ney.Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Philadelphia. 2002 *
基于双语语料库的翻译等价对自动抽取. 吕雅娟,李生,赵铁军,杨沐昀.高技术通讯. 2003 *

Also Published As

Publication number Publication date
CN101079028A (zh) 2007-11-28

Similar Documents

Publication Publication Date Title
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
CN104199965B (zh) 一种语义信息检索方法
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN109145260A (zh) 一种文本信息自动提取方法
CN102567409A (zh) 一种提供检索关联词的方法及装置
Sen et al. Neural machine translation of low-resource languages using SMT phrase pair injection
Khan et al. RNN-LSTM-GRU based language transformation
KR20110027361A (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
EP3278245A1 (en) Automatic query pattern generation
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
CN110874536A (zh) 语料质量评估模型生成方法和双语句对互译质量评估方法
CN113821593A (zh) 一种语料处理的方法、相关装置及设备
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Tien et al. Long sentence preprocessing in neural machine translation
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN103064847A (zh) 索引装置、索引方法、检索装置、检索方法和检索系统
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Gogineni et al. An effective neural machine translation for english to hindi language
Zhang Research on English machine translation system based on the internet
Agrawal et al. Comparative analysis of NLP models for Google Meet Transcript summarization
JP2017142758A (ja) 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム
Deng Design of intelligent recognition english translation model based on improved machine translation algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HUAWEI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: INSTITUTE OF COMPUTING TECHNOLOGY, CHINESE ACADEMY OF SCIENCES

Effective date: 20130528

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100080 HAIDIAN, BEIJING TO: 518129 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20130528

Address after: 518129 Bantian HUAWEI headquarters office building, Longgang District, Shenzhen

Patentee after: Huawei Technologies Co., Ltd.

Address before: 100080 Haidian District, Zhongguancun Academy of Sciences, South Road, No. 6, No.

Patentee before: Institute of Computing Technology, Chinese Academy of Sciences