CN102789451A - 一种个性化的机器翻译系统、方法及训练翻译模型的方法 - Google Patents
一种个性化的机器翻译系统、方法及训练翻译模型的方法 Download PDFInfo
- Publication number
- CN102789451A CN102789451A CN201110126415XA CN201110126415A CN102789451A CN 102789451 A CN102789451 A CN 102789451A CN 201110126415X A CN201110126415X A CN 201110126415XA CN 201110126415 A CN201110126415 A CN 201110126415A CN 102789451 A CN102789451 A CN 102789451A
- Authority
- CN
- China
- Prior art keywords
- translation
- user
- phrase
- translation model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种个性化的机器翻译系统、方法及训练翻译模型的方法,所述系统包括:第一输入模块;第一训练模块;通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;第二输入模块;第二训练模块;用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;用户识别模块;第三输入模块;翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。上述机器翻译系统,可以很好地针对不同用户输入的相同信息,给出符合用户翻译偏好的翻译结果。
Description
【技术领域】
本发明涉及机器翻译领域,特别涉及一种个性化的机器翻译系统、方法及训练翻译模型的方法。
【背景技术】
机器翻译系统可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。前者由人工整理的词典和规则库构成知识源,后者由语料库构成知识源,既不需要词典也不需要规则,以统计规律为主。
在基于语料库的机器翻译中,又主要分为基于实例的机器翻译与基于统计的机器翻译,其中基于统计的机器翻译以其优异的性能已经成为机器翻译领域的研究热点。
基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任务就是找到概率最大的句子。具体方法是将翻译看作对原文通过模型转换为译文的解码过程。因此统计机器翻译又可以分为以下几个问题:模型问题、训练问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子到目标语言句子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子,去查找概率最大的译文。
但是现有的基于统计的机器翻译系统,均不考虑用户的个人需求,也就是说,无论任何人使用这个系统,只要输入的句子相同,就会得到相同的翻译结果。请参见图1,图1为在现有技术的机器翻译系统下,不同用户进行翻译时的示意图。从图1可以看出,对相同的待翻译信息,系统针对不同用户的翻译结果都是相同的,这是因为现有技术的机器翻译系统中使用的翻译模型是相同的,模型的训练过程中使用的语料,不能体现出不同用户的不同偏好,因此训练好的翻译模型,也就不能反映用户的个人需求,从而导致整个机器翻译系统不能实现针对不同的用户输入的句子,生成符合该用户偏好的翻译结果这样的功能。以下面的句子为例:“nearly 500people dead infloods”,假如有的用户希望得到比较口语化的翻译结果:“将近500人被洪水淹死了”,而另外一些用户希望得到比较书面化的翻译结果:“洪水造成近500人丧生”,在现有的翻译系统下,是无法实现的。
【发明内容】
本发明所要解决的技术问题是提供一种个性化的机器翻译系统,以解决现有机器翻译系统不能针对不同用户输入的相同待翻译信息,给出符合用户翻译偏好的翻译结果的缺陷。
本发明为解决技术问题而采用的技术方案是提供一种个性化的机器翻译系统,包括:第一输入模块,用于从所述系统外部获取第一双语语料,其中所述第一双语语料为大规模双语语料,所述双语语料包括由具有互译关系的源语言句子和目标语言句子组成的双语句对;第一训练模块,用于根据所述第一双语语料,训练通用翻译模型;所述通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;第二输入模块,用于从所述系统外部获取第二双语语料,所述第二双语语料为用户提交的双语语料;第二训练模块,用于根据所述第二双语语料,训练用户翻译模型;所述用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;用户识别模块,用于获取当前用户信息,并根据所述当前用户信息获取所述当前用户和所述用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型;第三输入模块,用于从所述系统外部获取所述当前用户输入的待翻译信息;翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。
根据本发明之一优选实施例,所述第一训练模块进一步包括:第一短语抽取单元,用于从所述第一双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;第一计算单元,用于计算所述短语对的特征值;第一添加单元,用于将所述短语对及所述短语对的特征值添加进所述通用翻译模型。
根据本发明之一优选实施例,如果所述第一双语语料中的双语句对没有词对齐信息,所述第一短语抽取单元进一步包括第一词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。
根据本发明之一优选实施例,所述第一计算单元进一步包括统计单元,用于统计所述短语对的相关频次,所述相关频次包括所述源语言短语与所述目标语言短语在所述第一双语语料中分别出现的次数及互译出现的次数。
根据本发明之一优选实施例,所述第二训练模块进一步包括:第二短语抽取单元,用于从所述第二双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;第二计算单元,用于计算所述短语对的相关频次及特征值,所述相关频次包括所述源语言短语与所述目标语言短语在所述第二双语语料中分别出现的次数及互译出现的次数;第二添加单元,用于将所述短语对及所述短语对的相关频次及所述短语对的特征值添加进所述用户翻译模型。
根据本发明之一优选实施例,如果所述第二双语语料中的双语句对没有词对齐信息,所述第二短语抽取单元进一步包括第二词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。
根据本发明之一优选实施例,所述用户识别模块进一步包括:注册单元,用于获取用户提交的注册信息并在所述系统中保存为用户信息;登录单元,用于获取当前用户提交的登录信息,并将所述登录信息与所述系统中保存的用户信息进行匹配验证,以得到当前用户信息;选择单元,用于根据所述当前用户信息确定所述当前用户和所述用户翻译模型之间的关联关系,并根据所述关联关系选择与所述当前用户匹配的用户翻译模型。
根据本发明之一优选实施例,所述翻译模块进一步包括:预处理单元,用于从所述待翻译信息中抽取出可以作为独立翻译单元的源语言短语;查找单元,用于根据预置策略,在所述通用翻译模型和所述匹配的用户翻译模型中查找与所述源语言短语匹配的多个翻译候选;译文生成单元,用于根据所述翻译候选的特征值计算译文的得分,并选择得分最高的译文为所述待翻译信息的翻译结果。
根据本发明之一优选实施例,所述预置策略至少包括以下一种:A.首先从所述通用翻译模型查找所述翻译候选,如果没有找到再从所述匹配的用户翻译模型查找所述翻译候选;B.首先从所述匹配的用户翻译模型查找所述翻译候选,如果没有找到再从所述通用翻译模型查找所述翻译候选;C.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值;D.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后把包含相同短语对的翻译候选在所述两个翻译模型中的特征值都作为单独的特征值。
根据本发明之一优选实施例,如果所述通用翻译模型与所述匹配的用户翻译模型中都保留了源语言短语及目标语言短语的频次信息,所述预置策略进一步包括同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后将包含相同短语对的翻译候选在所述两个翻译模型中的频次累加后计算特征值。
根据本发明之一优选实施例,所述系统进一步包括:用户配置模块,用于获取所述当前用户对系统配置的选择,并根据所述选择建立所述当前用户与所述用户翻译模型之间的关联关系。
根据本发明之一优选实施例,所述系统进一步包括:用户反馈模块,用于获取所述当前用户对所述翻译结果的修改,并根据所述修改对所述匹配的用户翻译模型进行调整。
根据本发明之一优选实施例,所述系统进一步包括:用户翻译模型评价模块,用于对所述用户翻译模型中的双语资源进行评价,以得到高质量的双语资源,并通过所述高质量的双语资源影响所述通用翻译模型。
根据本发明之一优选实施例,所述影响的方式包括将只在所述用户翻译模型中出现的所述高质量的双语资源添加到所述通用翻译模型或根据所述用户翻译模型中出现的所述高质量的双语资源,调整所述通用翻译模型中双语资源的特征值。
本发明还提供了一种个性化的机器翻译方法,包括:a.获取当前用户信息,并根据所述当前用户信息获取所述当前用户和用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型,所述用户翻译模型通过用户提交的双语语料训练得来,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;b.获取所述当前用户输入的待翻译信息;c.使用通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果,所述通用翻译模型通过大规模双语语料训练得来,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率。
根据本发明之一优选实施例,所述步骤c进一步包括:c1.从所述待翻译信息中抽取出可以作为独立翻译单元的源语言短语;c2.根据预置策略,在所述通用翻译模型和所述匹配的用户翻译模型中查找与源语言短语匹配的多个翻译候选;c3.根据所述翻译候选的特征值计算译文的得分,并选择得分最高的译文为所述待翻译信息的翻译结果。
根据本发明之一优选实施例,所述预置策略至少包括以下一种:A.首先从所述通用翻译模型查找所述翻译候选,如果没有找到再从所述匹配的用户翻译模型查找所述翻译候选;B.首先从所述匹配的用户翻译模型查找所述翻译候选,如果没有找到再从所述通用翻译模型查找所述翻译候选;C.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值;D.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后把包含相同短语对的翻译候选在所述两个翻译模型中的特征值都作为单独的特征值。
根据本发明之一优选实施例,如果所述通用翻译模型与所述匹配的用户翻译模型中都保留了源语言短语及目标语言短语的频次信息,所述预置策略进一步包括同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后将包含相同短语对的翻译候选在所述两个翻译模型中的频次累加后计算特征值。
根据本发明之一优选实施例,所述方法进一步包括:d.接收所述当前用户对所述翻译结果的修改,并根据所述修改对所述匹配的用户翻译模型进行调整。
本发明还提供了一种训练翻译模型的方法,包括:a.从双语语料的双语句对中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;b.统计所述短语对的相关频次,所述相关频次包括源语言短语及目标语言短语在双语语料中分别出现的次数、互译出现的次数;c.将所述短语对与所述短语对的相关频次添加进所述翻译模型。
根据本发明之一优选实施例,如果所述双语语料中的双语句对没有词对齐信息,所述方法在所述步骤a前进一步包括对所述双语语料中的双语句对进行词对齐。
根据本发明之一优选实施例,所述方法进一步包括:d.在多个所述翻译模型中,利用第一翻译模型影响第二翻译模型。
根据本发明之一优选实施例,所述影响的方式包括将只在所述第一翻译模型中出现的双语资源添加到所述第二翻译模型或根据所述第一翻译模型中的双语资源,调整所述第二翻译模型中双语资源的特征值。
由以上技术方案可以看出,通过将通用翻译模型与用户翻译模型结合后对用户的输入信息进行翻译,可以很好地达到翻译系统针对不同用户输入的相同信息,给出符合用户翻译偏好的翻译结果的技术效果,请参考图2,图2为在本发明的个性化的机器翻译系统下,不同用户进行翻译时的示意图。同时,由于机器翻译系统提供了一个与用户进行交互的窗口,通过用户提供的训练语料不断对机器翻译系统进行训练,可以不断改善机器翻译系统的翻译质量。
【附图说明】
图1为在现有技术的机器翻译系统下,不同用户进行翻译时的示意图;
图2为在本发明的个性化的机器翻译系统下,不同用户进行翻译时的示意图;
图3为本发明实施例中个性化的机器翻译系统的实施例一的结构示意框图;
图4为本发明实施例中第一训练模块的实施例的结构示意框图;
图5为本发明实施例中词对齐后的双语句对示意图;
图6为本发明实施例中第二训练模块的实施例一的结构示意框图;
图7为本发明实施例中第二训练模块的优选实施例的结构示意框图;
图8为本发明实施例中为用户翻译模型建立索引的方法的实施例的流程示意图;
图9为本发明实施例中用户识别模块的实施例的结构示意框图;
图10为本发明实施例中翻译模块的实施例的结构示意框图;
图11为本发明实施例中个性化的机器翻译系统的实施例二的结构示意框图;
图12为本发明实施例中个性化的机器翻译方法的实施例一的流程示意图;
图13为本发明实施例中使用通用翻译模型和与当前用户匹配的用户翻译模型对待翻译信息进行翻译的实施例的流程示意图;
图14为本发明实施例中个性化的机器翻译方法的实施例二的流程示意图;
图15为本发明实施例中训练翻译模型的方法实施例的流程示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
目前主要的统计机器翻译方法大致可分为以下三种:基于词的统计翻译方法、基于短语的统计翻译方法和基于句法的统计翻译方法,为了方便起见,以下说明的实施例均以基于短语的统计翻译方法为例,但是本发明的思想也同样适用于其他统计翻译方法,下面不再重复说明。
请参考图3,图3为本发明实施例中个性化的机器翻译系统的实施例一的结构示意框图。所谓的个性化的机器翻译系统指的是针对用户输入的待翻译信息,会给出符合用户翻译偏好的翻译结果的系统。
如图3所示,个性化的机器翻译系统包括第一输入模块101,第一训练模块102,通用翻译模型103,第二输入模块104,第二训练模块105,用户翻译模型106,用户识别模块107,第三输入模块108,翻译模块109。其中用户翻译模型106可有多个。
第一输入模块101,用于从系统外部获取大规模双语语料,作为系统进一步处理的基础。双语语料,指的是由源语言句子f和目标语言句子e组合而成的双语句对(f,e),其中f和e互为翻译,比如:(你必须用日元支付,You must pay in Japanese yen)。
第一训练模块102,用于根据大规模双语语料,训练通用翻译模型103。
通用翻译模型103,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率。根据参考文献:Franz Josef Och,Hermann Ney,TheAlignment Template Approach to Statistical Machine Translation,ComputationalLinguistics,Volume 30,Number 4(下文称为参考文献1),源语言句子到目标语言句子的翻译概率可由最大熵模型来描述,即:
其中用来表示最佳的翻译结果。从式(1)可以看出,句子之间的翻译概率P(e|f)被分解为多个特征h(e,f)和特征的权重λ,根据参考文献:PhilippKoehn,Franz Josef Och,Daniel Marcu,Statistical Phrase-Based Translation,Proceedings of HLT-NAACL 2003Main Papers,pp.48-54(下文称为参考文献2),常用的特征包括:
1、短语双向翻译模型:描述短语互相翻译的概率;
2、词的双向翻译模型:描述短语内词互相翻译的概率。
因此,训练好的通用翻译模型103中包含源语言短语、目标语言短语及各个特征值。
请参考图4,图4为本发明实施例中第一训练模块的实施例的结构示意框图。如图4所示,第一训练模块102进一步包含短语抽取单元1021、计算单元1022、添加单元1023。
短语抽取单元1021,用于从双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语。在本发明中,对短语抽取的方法不做限定,可以采用本领域技术人员公知的任何短语抽取方法获取短语对,具体方法可见参考文献:Philipp Koehn,2004,Training manual of Pharaoh,Technical report,MIT CSAIL(下文称为参考文献3)。
如果双语语料中的双语句对没有词对齐信息,短语抽取单元1021进一步还包括词对齐单元10211,用于在抽取短语对前对双语句对进行词对齐。所谓的词对齐,指的是将双语句对中可以互译的词进行配对。请参考图5,图5为词对齐后的双语句对示意图。同样的,在本发明中,对词对齐的方法不做限定,可以采用本领域技术人员公知的任何词对齐方法获取词与词的对齐关系,例如通过大规模双语语料中的部分语料训练一个词对齐模型,再利用这个词对齐模型进行词对齐,具体方法可见参考文献:Peter F.Brown,Stephen A.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer,1993,Themathematics of statistical machine translation:Parameter estimation,Computational Linguistics,19(2):263-311(下文称为参考文献4)。
以图5所示的双语句对为例,可以抽取出下面的短语对:(人们将来的,people’s future)、(人们将来,people’s future)、(将来的发展,future development)等等。
计算单元1022,用于计算短语对的特征值。在本实施例中,所述特征值包括短语互相翻译概率与短语内词互相翻译概率。
计算单元1022进一步还包括统计单元10221,用于统计短语对的相关频次,包括源语言短语与目标语言短语在双语语料中分别出现的次数、互译出现的次数。
例如,“您要”在双语语料中作为源语言短语出现了70次,“you want”在双语语料中作为目标语言短语出现了90次,“您要”与“you want”作为互译短语出现了20次,则将“您要”翻译为“you want”的短语翻译概率Prob(you want|您要)=20/70,将“you want”反向翻译为“您要”的短语翻译概率Prob(您要|you want)=20/90。
“您”在双语语料中作为源语言词语出现了100次,“you”在双语语料中作为目标语言词语出现了120次,“您”与“you”互译时出现了50次,“要”在双语语料中作为源语言词语出现了90次,“want”在双语语料中作为目标语言词语出现了150次,“要”和“want”互译时出现了30次,则将“您要”翻译为“youwant”的短语内词翻译概率Lex(you want|您要)=Prob(you|您)*Prob(want|要)=(50/100)*(30/90),将“you want”反向翻译为“您要”的短语内词翻译概率Lex(您要|you want)=Prob(您|you)*Prob(要|want)=(50/120)*(30/150)。
添加单元1023,用于将短语对及短语对的特征值添加进通用翻译模型103。
将双语语料中的短语对及短语对的特征值添加进通用翻译模型103的过程中需要建立索引,索引的形式可以描述为(key,value)的键值对,其中key为短语,value为与短语相关的值。在通用翻译模型103中只建立源语言索引,因此key为源语言短语,value为与源语言短语对应的目标语言短语及相应的各个特征值(本实施例中为短语互相翻译概率、短语内词互相翻译概率)。此外,由于通用翻译模型103一旦训练好后就可以稳定地使用,所以建立的索引可以为静态索引结构,即索引建立之后,如果不再用新的大规模双语语料重新对通用翻译模型103进行训练,则索引的(key,value)对就不会再增加。
第二输入模块104,用于从系统外部获取用户提交的双语语料。用户提交的双语语料与第一输入模块101中的大规模双语语料类似,也包括源语言与目标语言的双语句对,它可能是用户自己的历史翻译记录,或者是符合用户翻译偏好的翻译资源,除此之外,用户提交的双语语料还可以包括符合用户翻译偏好的双语词典。
第二训练模块105,用于根据用户提交的双语语料,训练用户翻译模型106。
用户翻译模型106,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率,该翻译概率同样可以采用式(1)的方式来描述。与通用翻译模型103不同的是,用户翻译模型106的更新频率要远远大于通用翻译模型103,系统在每一次接收到用户提交的训练语料后,都需要对用户翻译模型106进行更新。
训练用户翻译模型106的过程与训练通用翻译模型103的过程类似,因此在下面的说明中,适当地省略了与训练通用翻译模型103相同的部分。
请参考图6,图6为本发明实施例中第二训练模块的实施例一的结构示意框图。如图6所示,第二训练模块105包括合并单元1051、短语抽取单元1052、计算单元1053和添加单元1054。其中的合并单元1051,用于将用户当次提交的训练语料与历史提交的训练语料合并,而短语抽取单元1052、计算单元1053和添加单元1054的处理过程均与第一训练模块102中的短语抽取单元1021、计算单元1022和添加单元1023类似。
值得注意的是,在短语抽取单元1052中进行词对齐时,由于用户提交的双语语料资源有限,会造成训练语料的数据比较稀疏,如果仅采用用户提交的语料来训练词对齐模型,会影响模型的置信度,因此,在短语抽取单元1052中进行词对齐时,仍然使用与第一训练模块102中相同的大规模双语语料训练得到的词对齐模型。
而计算单元1053与计算单元1022一样,用于计算短语对的特征值,在本实施例中将分别计算短语互相翻译概率与短语内词互相翻译概率。但是考虑到用户提交的双语语料资源较少,在计算单元1053中计算短语内词互相翻译概率时,词出现的次数指的并不是在用户提交的双语语料中出现的次数,而是用了与计算单元1022中相同的大规模双语语料中的统计次数。例如计算用户的双语语料中出现的“您要”翻译为“you want”的短语内词翻译概率:Lex(you want|您要)=Prob(you|您)*Prob(want|要)=(“您”与“you”在大规模双语语料中互译出现的次数/“您”在大规模双语语料中出现的次数)*(“要”与“want”在大规模双语语料中互译出现的次数/“要”在大规模双语语料中出现的次数)。
添加单元1054,用于将短语对及短语对的特征值添加进用户翻译模型106,其技术手段与添加单元1023类似,在此不再赘述。
与第二训练模块105的实施例一对应的用户翻译模型106包含源语言短语、目标语言短语及各个特征值。
在上述第二训练模块105的实施例一中存在一个问题,即当用户历史训练语料较多,而当次提交的训练语料很少时,系统仍然需要进行全部语料的训练过程,这样非常浪费时间和系统资源,因此在下面将介绍第二训练模块105的一个优选实施例。请参考图7,图7为本发明实施例中第二训练模块的优选实施例的结构示意框图。如图7所示,第二训练模块105包括短语抽取单元105a、计算单元105b和添加单元105c。其中短语抽取单元105a与上述第二训练模块105的实施例一中的相应单元类似,不同之处是处理的对象仅为用户当次提交的训练语料。
在本实施例中,计算单元105b中统计短语对的相关频次,包括源语言短语与目标语言短语在双语语料中分别出现的次数、互译出现的次数,并计算短语的词互相翻译概率,计算方法与第二训练模块105的实施例一中相同,在此不再赘述。
添加单元105c,用于将短语对及其相关频次与短语对的特征值添加进用户翻译模型,所述相关频次包括源语言短语与目标语言短语在双语语料中分别出现的次数、互译出现的次数。
在这种方式下,短语互相翻译概率不以一个具体的概率值体现,而是以计算该概率值的统计频次体现(源语言短语与目标语言短语分别出现的次数、互译出现的次数)。
在添加单元105c中建立索引的过程也与添加单元1054不同,因为源语言短语及目标语言短语在用户翻译模型106中的统计频次是随着每次训练改变的,所以在添加单元105c中建立的索引为动态索引结构,即索引结构建立后,可以通过插入新的(key,value),增加索引里面的键值对。索引的结构方式可以有很多种,只要能支持动态加入新键值即可,比如,二分,哈希,Trie树,红黑树,B+树等等。此外,与添加单元1054只需要建立源语言短语索引不同,在本实施例中,由于目标语言短语的频次也会更新,所以除了需要对源语言短语建立索引,还需要对目标语言短语建立索引。假设索引A为源语言短语索引,则A的一种实现方式是key为源语言短语,value为对应的目标语言短语及源语言短语出现次数、短语对互译出现次数、短语对的特征值;假设索引B为目标语言短语,则B的一种实现方式是key为目标语言短语,value为目标语言短语出现次数。
请参考图8,图8为本发明实施例中为用户翻译模型建立索引的方法的实施例的流程示意图。如图8所示,A、B分别为源语言短语和目标语言短语的索引,(S,T)为从用户提交的训练语料中抽取出来的双语短语对,其中S表示的是源语言短语,T表示的是目标语言短语。在建立索引时,首先从源语言短语索引A中查找S是否已经存在于A中,如果没有则将S与T分别加入到索引A中,否则查找T是否存在于A中,如果没有则将T加入到索引A中,否则分别更新S与T在索引A中的相关频次(S出现的次数、S与T互译出现的次数),然后再从目标语言短语索引B中查找T是否已经存在于B,如果没有则将T加入到B中,否则更新T在索引B中的相关频次(T出现的次数)。
在第二训练模块105的优选实施方式下,系统每次接收到用户提交的新的训练语料后,第二训练模块105只需要针对新的训练语料进行增量式训练,并将从新的训练语料中得到的源语言短语与目标语言短语的相关统计频次信息,更新至用户翻译模型106,而短语互相翻译概率可以在每次翻译时实时进行计算,这样就可以很好地避免第二训练模块105在每次接收到用户提交的新的训练语料时,对历史语料也需要重复训练的问题。
与第二训练模块105的优选实施例对应的用户翻译模型106包含源语言短语、目标语言短语及短语对的相关频次和特征值。
用户识别模块107,用于获取当前用户信息,并根据当前用户信息获取当前用户和用户翻译模型之间的关联关系,并通过所述关联关系选择与当前用户匹配的用户翻译模型。
请参考图9,图9为用户识别模块的实施例的结构示意框图。如图9所示,用户识别模块107进一步包括注册单元1071、登录单元1072、选择单元1073。
其中注册单元1071,用于获取用户提交的注册信息并在系统中保存为用户信息。通过用户注册界面即可接收用户提交的注册信息,这与现有技术中的其他任何系统类似,在此不再赘述。
登录单元1072,用于获取当前用户提交的登录信息,并将登录信息与系统中保存的用户信息进行匹配验证,以得到当前用户信息,这也与现有技术中其他任何系统类似,在此不再赘述。
选择单元1073,用于根据当前用户信息确定当前用户和用户翻译模型之间的关联关系,并根据所述关联关系选择与当前用户匹配的用户翻译模型。
假如当前用户是首次登录,选择单元1073确定当前用户与用户翻译模型间没有关联关系,因此将为该用户选择一个新的用户翻译模型,按照预置策略,这个新的用户翻译模型包括系统默认的通用翻译模型或其他已有的用户翻译模型,如果当前用户不提供训练语料对这个新的用户翻译模型进行训练,则会直接在当前用户和这个新的用户翻译模型之间建立关联关系;如果当前用户提供训练语料对这个新的用户翻译模型进行训练,则会生成一个与用户提交的训练语料相关的用户翻译模型并在这个用户翻译模型与当前用户之间建立关联关系。假如当前用户非首次登录,选择单元1073确定当前用户与用户翻译模型之间有关联关系,因此将根据当前用户与用户翻译模型之间的关联关系为当前用户选择与其匹配的用户翻译模型。
第三输入模块108,用于从系统外部获取当前用户输入的待翻译信息。待翻译信息包括源语言词语或短语或句子或短文。
翻译模块109,用于使用通用翻译模型103和与当前用户匹配的用户翻译模型106对待翻译信息进行翻译,以得到翻译结果。
请参考图10,图10为本发明实施例中翻译模块实施例的结构示意框图。如图10所示,翻译模块109进一步包括预处理单元1091、查找单元1092、译文生成单元1093。
其中预处理单元1091,用于从待翻译信息中抽取出可以作为独立翻译单元的源语言短语。如果待翻译信息是词语或短语,则不需要再进行抽取,如果待翻译信息是短文,则先将短文划分为句子,再采用穷举策略从源语言句子中穷举所有的子短语,具体内容可参见参考文献:Philipp Koehn,2004,Pharaoh:a Beam Search Decoder for Phrase-based Statistical MachineTranslation Models(下文称为参考文献5)。
查找单元1092,用于根据预置策略,在通用翻译模型103和与当前用户匹配的用户翻译模型106中查找与源语言短语匹配的多个翻译候选。所述的预置策略至少包括以下一种:
1、首先从通用翻译模型103查找翻译候选,如果没有找到再从与当前用户匹配的用户翻译模型106查找翻译候选。在这种策略下,最终的翻译结果中用户的翻译偏好体现较少。
以源语言短语“您要”为例,先去通用翻译模型103里查找翻译候选,如果找到翻译候选,例如“you want 0.7/0.9/0.6/0.2”(数字代表特征值),则按照这些翻译候选进行翻译,如果没有找到,则去与当前用户匹配的用户翻译模型106里面尝试查找,以在与当前用户匹配的用户翻译模型106里找到的翻译候选进行翻译。
2、首先从与当前用户匹配的用户翻译模型106查找翻译候选,如果没有找到再从通用翻译模型103查找翻译候选。在这种策略下,最终的翻译结果中用户的翻译偏好体现较多。该策略与策略1类似,只是顺序不同。
3、同时在通用翻译模型103和与当前用户匹配的用户翻译模型106中查找翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值。
仍以源语言短语“您要”为例,先在通用翻译模型103中查找,找到翻译候选t1:“you want 0.7/0.9/0.6/0.2”,然后在与当前用户匹配的用户翻译模型106中查找,找到另一个翻译候选t2:“you want 0.8/0.6/0.7/0.2”。根据t1和t2的特征值,以一定的权重结合,例如按照0.5∶0.5的比例插值,得到t3:“you want 0.75/0.75/0.65/0.2”。
4、同时在通用翻译模型103和与当前用户匹配的用户翻译模型106中查找翻译候选,然后把包含相同短语对的翻译候选在两个翻译模型中的特征值都作为单独的特征值。
仍以源语言短语“您要”为例,先在通用翻译模型103中查找,找到翻译候选t1:“you want 0.7/0.9/0.6/0.2”,然后在与当前用户匹配的用户翻译模型106找到另一个翻译候选t2:“you want 0.8/0.6/0.7/0.2”。将t1和t2的特征值都作为单独的特征值,得到t3:“you want 0.7/0.9/0.6/0.2/0.8/0.6/0.7/0.2”。
值得注意的是,如果通用翻译模型103中保存的是特征值,而与当前用户匹配的用户翻译模型106中保存的是源语言短语及目标语言短语的频次信息,则还需要按照计算单元1022中介绍的方法,将与当前用户匹配的用户翻译模型106中的频次信息转化为相应的特征值,再使用上述的预置策略得到翻译候选。
在另一个实施例中,第一训练模块102也可以采用与第二训练模块105的优选实施例类似的方法训练通用翻译模型103,此时通用翻译模型103中也将保留源语言短语及目标语言短语的频次信息,在这种情况下,预置策略还包括:同时在通用翻译模型103和与当前用户匹配的用户翻译模型106中查找翻译候选,然后将包含相同短语对的翻译候选在两个翻译模型中的频次累加后计算特征值。
仍以源语言短语“您要”为例,先在通用翻译模型中103查找,找到翻译候选t1:“you want 50/100/20”(数字代表源语言短语出现次数、目标语言短语出现次数、源语言短语与目标语言短语互译出现次数),然后去与当前用户匹配的用户翻译模型106找到另一个翻译候选t2:“you want 30/60/20”。将相应的频次累加得到t3:“you want 80/160/40”,再根据t3中的频次信息采用计算单元1022中介绍的方法计算相应特征值。
译文生成单元1093,用于根据翻译候选的特征值计算译文的得分,并选择得分最高的译文为待翻译信息的翻译结果。译文的得分根据式(1)进行计算,具体的计算过程可参见参考文献5。
请参考图11,图11为本发明实施例中个性化的机器翻译系统的实施例二的结构示意框图。如图11所示,在本实施例中,个性化的机器翻译系统在实施例一的基础上进一步包括用户配置模块110或用户反馈模块111或用户翻译模型评价模块112或以上三个模块的任意组合。
其中,用户配置模块110用于获取当前用户对系统配置的选择,并根据所述选择建立当前用户与用户翻译模型之间的关联关系。
本发明中,除了可以为每个用户单独提供一个专有的用户翻译模型,还可以以组为单位,为用户提供共享的用户翻译模型。在用户配置模块中,系统可以提供各种翻译小组供用户选择,例如:基于经济类的、基于政治类的、基于英语水平Level X级以上的等等,每个翻译小组的成员将共享同一个用户翻译模型。当用户配置模块110获取到用户对系统配置的选择后,就会在该用户与其选择的用户翻译模型之间建立关联关系。此时,同一个翻译小组的成员提供的训练语料将对同一个用户翻译模型产生影响,并且同一个翻译小组的成员在翻译时,会得到相同的翻译结果。
用户反馈模块111,用于获取当前用户对翻译结果的修改,并根据所述修改对与当前用户匹配的用户翻译模型进行调整。
当前用户通过翻译模块109得到翻译结果后,有可能对翻译结果感到不满意,例如给定一个源语言句子:我想要一个建议。系统给出的翻译结果为:I want a suggestion.当前用户对翻译结果不够满意,将翻译结果修改为:Iwant a piece of advice.这样用户反馈模块111将获取当前用户对翻译结果做出的修改,并根据这种修改对与当前用户匹配的用户翻译模型进行调整,这种调整包括增加源语言-目标语言短语对或调整已有短语对的特征值或调整已有短语对的频次。
用户翻译模型评价模块112,用于对用户翻译模型106中的双语资源进行评价,以得到高质量的双语资源,并通过高质量的双语资源影响通用翻译模型103。
机器翻译的效果很大程度上取决于用于训练机器翻译的双语资源的质量,通过本发明,机器翻译在现有技术的基础上提供了一个与用户进行交互的窗口,即可以通过用户提交的双语资源实现用户对机器翻译质量的影响。利用用户不断提交的双语资源,机器翻译系统的质量也可以不断改进。但是用户提交的双语资源也有可能是低质量的资源,或者是由于某些特别的原因(如人为破坏等)导致的错误资源,因此,用户翻译模型评价模块112可通过以下策略对用户翻译模型106中高质量的双语资源进行判断:
1、如果用户提交的是词条资源,则通过提交该资源的用户数目来判断该资源的优劣,即提交该词条资源的用户数目越多,说明该词条资源的质量越好。
2、如果用户提交的是句对资源,则可以通过通用翻译模型103进行翻译概率的计算,当该句对的互译概率大于某个阈值时,说明该句对资源的质量较好。
此外还可以采用机器加人工的方式对用户翻译模型中的双语资源进行评价,即先由机器挑选出一些通过通用翻译模型103计算得到的互译概率不高的双语资源,再由一些具有高级翻译技能的人员对这些双语资源进行评估和筛选。
用户翻译模型中的高质量的双语资源可进一步地影响通用翻译模型103,具体方式包括将只在用户翻译模型106中出现的资源添加到通用翻译模型,或根据用户翻译模型106中出现的资源,调整通用翻译模型中双语资源的特征值。
请参考图12,图12为本发明实施例中个性化的机器翻译方法的实施例一的流程示意图。如图12所示,个性化的机器翻译方法包括:
步骤201:获取当前用户信息,并根据所述当前用户信息获取所述当前用户和用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型。所述用户翻译模型通过用户提交的双语语料训练得来,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率。
当前用户信息通过用户身份的匹配验证得到,通过当前用户信息可以知道当前用户与用户翻译模型之间的关联关系,从而可以根据所述的关联关系选择与用户匹配的用户翻译模型。
如果当前用户是首次登录,当前用户与用户翻译模型间没有关联关系,因此将为该用户选择一个新的用户翻译模型,按照预置策略,这个新的用户翻译模型包括系统默认的通用翻译模型或其他已有的用户翻译模型,如果当前用户不提供训练语料对这个新的用户翻译模型进行训练,则会直接在当前用户和这个新的用户翻译模型之间建立关联关系;如果当前用户提供训练语料对这个新的用户翻译模型进行训练,则会生成一个与用户提交的训练语料相关的用户翻译模型并在这个用户翻译模型与当前用户之间建立关联关系。如果当前用户非首次登录,当前用户与用户翻译模型间有关联关系,因此将根据当前用户与用户翻译模型之间的关联关系为当前用户选择与其匹配的用户翻译模型。
此外,在本发明中,除了可以为每个用户单独提供一个专有的用户翻译模型,还可以以组为单位,为用户提供共享的用户翻译模型。属于一个组的用户,将与同一个用户翻译模型建立关联关系。
步骤202:获取当前用户输入的待翻译信息。待翻译信息包括源语言词语或短语或句子或短文。
步骤203:使用通用翻译模型和与当前用户匹配的用户翻译模型对待翻译信息进行翻译,以得到翻译结果,所述通用翻译模型通过大规模双语语料训练得来,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率。
请参考图13,图13为本发明实施例中使用通用翻译模型和与当前用户匹配的用户翻译模型对待翻译信息进行翻译的实施例的流程示意图。如图13所示,步骤203进一步包括步骤2031:从待翻译信息中抽取出可以作为独立翻译单元的源语言短语。如果待翻译信息是词语或短语,则不需要再进行抽取,如果待翻译信息是短文,则先将短文划分为句子,再采用穷举策略从源语言句子中穷举所有的子短语,具体内容可参见参考文献5。
步骤2032:根据预置策略,在通用翻译模型和与当前用户匹配的用户翻译模型中查找与源语言短语匹配的多个翻译候选。所述的预置策略包括:
1、首先从通用翻译模型查找翻译候选,如果没有找到再从与当前用户匹配的用户翻译模型查找翻译候选。在这种策略下,最终的翻译结果中用户的翻译偏好体现较少。
以源语言短语“您要”为例,先去通用翻译模型里查找翻译候选,如果找到翻译候选,例如“you want 0.7/0.9/0.6/0.2”(数字代表特征值),则按照这些翻译候选进行翻译,如果没有找到,则去与当前用户匹配的用户翻译模型里面尝试查找,以在与当前用户匹配的用户翻译模型里找到的翻译候选进行翻译。
2、首先从与当前用户匹配的用户翻译模型查找翻译候选,如果没有找到再从通用翻译模型查找翻译候选。在这种策略下,最终的翻译结果中用户的翻译偏好体现较多。该策略与策略1类似,只是顺序不同。
3、同时在通用翻译模型和与当前用户匹配的用户翻译模型中查找翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值。
仍以源语言短语“您要”为例,先在通用翻译模型中查找,找到翻译候选t1:“you want 0.7/0.9/0.6/0.2”,然后在与当前用户匹配的用户翻译模型中查找,找到另一个翻译候选t2:“you want 0.8/0.6/0.7/0.2”。根据t1和t2的特征值,以一定的权重结合,例如按照0.5∶0.5的比例插值,得到t3:“you want0.75/0.75/0.65/0.2”。
4、同时在通用翻译模型和与当前用户匹配的用户翻译模型中查找翻译候选,然后把包含相同短语对的翻译候选在两个模型中的特征值都作为单独的特征值。
仍以源语言短语“您要”为例,先在通用翻译模型中查找,找到翻译候选t1:“you want 0.7/0.9/0.6/0.2”,然后在与当前用户匹配的用户翻译模型找到另一个翻译候选t2:“you want 0.8/0.6/0.7/0.2”。将t1和t2的特征值都作为单独的特征值,得到t3:“you want 0.7/0.9/0.6/0.2/0.8/0.6/0.7/0.2”。
如果通用翻译模型和与当前用户匹配的用户翻译模型中均保留源语言短语及目标语言短语的频次信息,则预置策略还包括:同时在通用翻译模型和与当前用户匹配的用户翻译模型中查找翻译候选,然后将包含相同短语对的翻译候选在两个翻译模型中的频次累加后计算特征值。
仍以源语言短语“您要”为例,先在通用翻译模型中查找,找到翻译候选t1:“you want 50/100/20”(数字代表源语言短语出现次数、目标语言短语出现次数、源语言短语与目标语言短语互译出现次数),然后去与当前用户匹配的用户翻译模型找到另一个翻译候选t2:“you want 30/60/20”。将相应的频次累加得到t3:“you want 80/160/40”,再根据t3中的频次信息计算相应特征值。
步骤2033:根据翻译候选的特征值计算译文的得分,并选择得分最高的译文为待翻译信息的翻译结果。译文的得分根据式(1)进行计算,具体的计算过程可参见参考文献5。
请参考图14,图14为本发明实施例中个性化的机器翻译方法的实施例二的流程示意图。如图14所示,在本实施例中,个性化的机器翻译方法在实施例一的基础上进一步包括步骤204:接收当前用户对翻译结果的修改,并根据所述修改对与当前用户匹配的用户翻译模型进行调整。
当前用户得到翻译结果后,有可能对翻译结果感到不满意,例如给定一个源语言句子:我想要一个建议。所述方法给出的翻译结果为:I want asuggestion.当前用户对翻译结果不够满意,将翻译结果修改为:I want a pieceof advice.这时所述方法进一步包括接收当前用户做出的这种修改,并根据这种修改对与当前用户匹配的用户翻译模型进行调整,这种调整包括增加源语言-目标语言短语对或调整已有短语对的特征值或调整已有短语对的频次。
请参考图15,图15为本发明实施例中训练翻译模型的方法实施例的流程示意图。如图15所示,训练翻译模型的方法包括步骤301:从双语语料的双语句对中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语。
在本发明中,对短语抽取的方法不做限定,可以采用本领域技术人员公知的任何短语抽取方法获取短语对,具体方法可见参考文献3。
如果双语语料中的双语句对没有词对齐信息,则步骤301进一步还包括在抽取短语对前对双语句对进行词对齐。在本发明中,对词对齐的方法不做限定,可以采用本领域技术人员公知的任何词对齐方法获取词与词的对齐关系,例如通过大规模双语语料中的部分语料训练一个词对齐模型,再利用这个词对齐模型进行词对齐,具体方法可见参考文献4。
步骤302:计算短语对的相关频次,所述相关频次包括源语言短语及目标语言短语在双语语料中分别出现的次数、互译出现的次数。
例如,“您要”在双语语料中作为源语言短语出现了70次,“you want”在双语语料中作为目标语言短语出现了90次,“您要”与“you want”作为互译短语出现了20次,等等。
步骤303:将短语对与短语对的相关频次添加进翻译模型。
步骤303中需要为翻译模型建立索引,其具体的方法请参考图8,图8为本发明实施例中为用户翻译模型建立索引的方法的实施例的流程示意图。
如图8所示,A、B分别为源语言短语和目标语言短语的索引,(S,T)为从用户提交的训练语料中抽取出来的双语短语对,其中S表示的是源语言短语,T表示的是目标语言短语。在建立索引时,首先从源语言短语索引A中查找S是否已经存在于A中,如果没有则将S与T分别加入到索引A中,否则查找T是否存在于A中,如果没有则将T加入到索引A中,否则分别更新S与T在索引A中的相关频次(S出现的次数、S与T互译出现的次数),然后再从目标语言短语索引B中查找T是否已经存在于B,如果没有则将T加入到B中,否则更新T在索引B中的相关频次(T出现的次数)。
在训练翻译模型的方法的另一个实施例中,所述方法进一步包括:在多个翻译模型中,利用其中的第一翻译模型影响第二翻译模型,影响的方式包括将只在第一翻译模型中出现的双语资源添加到第二翻译模型中或根据第一翻译模型中的双语资源,调整第二翻译模型中双语资源的特征值。优选地,在本发明之一实施例中,第一翻译模型为用户翻译模型,第二翻译模型为通用翻译模型。
需要特别说明的是,本发明的所有实施例都是根据本发明实施例中选取的特征(短语互相翻译概率、短语内词互相翻译概率)进行说明的,但是由于特征的选取不是唯一的,由于选取不同特征而导致实施方式的不同,例如由于选取了短语调序概率作为特征而导致特征值的计算方式有所不同或相关频次的计算有所不同,都不超过本发明的思想范围。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (23)
1.一种个性化的机器翻译系统,其特征在于,所述系统包括:
第一输入模块,用于从所述系统外部获取第一双语语料,其中所述第一双语语料为大规模双语语料,所述双语语料包括由具有互译关系的源语言句子和目标语言句子组成的双语句对;
第一训练模块,用于根据所述第一双语语料,训练通用翻译模型;
所述通用翻译模型,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率;
第二输入模块,用于从所述系统外部获取第二双语语料,所述第二双语语料为用户提交的双语语料;
第二训练模块,用于根据所述第二双语语料,训练用户翻译模型;
所述用户翻译模型,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;
用户识别模块,用于获取当前用户信息,并根据所述当前用户信息获取所述当前用户和所述用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型;
第三输入模块,用于从所述系统外部获取所述当前用户输入的待翻译信息;
翻译模块,用于使用所述通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果。
2.根据权利要求1所述的系统,其特征在于,所述第一训练模块进一步包括:
第一短语抽取单元,用于从所述第一双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;
第一计算单元,用于计算所述短语对的特征值;
第一添加单元,用于将所述短语对及所述短语对的特征值添加进所述通用翻译模型。
3.根据权利要求2所述的系统,其特征在于,如果所述第一双语语料中的双语句对没有词对齐信息,所述第一短语抽取单元进一步包括第一词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。
4.根据权利要求2所述的系统,其特征在于,所述第一计算单元进一步包括统计单元,用于统计所述短语对的相关频次,所述相关频次包括所述源语言短语与所述目标语言短语在所述第一双语语料中分别出现的次数及互译出现的次数。
5.根据权利要求1所述的系统,其特征在于,所述第二训练模块进一步包括:
第二短语抽取单元,用于从所述第二双语语料中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;
第二计算单元,用于计算所述短语对的相关频次及特征值,所述相关频次包括所述源语言短语与所述目标语言短语在所述第二双语语料中分别出现的次数及互译出现的次数;
第二添加单元,用于将所述短语对及所述短语对的相关频次及所述短语对的特征值添加进所述用户翻译模型。
6.根据权利要求5所述的系统,其特征在于,如果所述第二双语语料中的双语句对没有词对齐信息,所述第二短语抽取单元进一步包括第二词对齐单元,用于在抽取所述短语对前对所述双语句对进行词对齐。
7.根据权利要求1所述的系统,其特征在于,所述用户识别模块进一步包括:
注册单元,用于获取用户提交的注册信息并在所述系统中保存为用户信息;
登录单元,用于获取当前用户提交的登录信息,并将所述登录信息与所述系统中保存的用户信息进行匹配验证,以得到当前用户信息;
选择单元,用于根据所述当前用户信息确定所述当前用户和所述用户翻译模型之间的关联关系,并根据所述关联关系选择与所述当前用户匹配的用户翻译模型。
8.根据权利要求1所述的系统,其特征在于,所述翻译模块进一步包括:
预处理单元,用于从所述待翻译信息中抽取出可以作为独立翻译单元的源语言短语;
查找单元,用于根据预置策略,在所述通用翻译模型和所述匹配的用户翻译模型中查找与所述源语言短语匹配的多个翻译候选;
译文生成单元,用于根据所述翻译候选的特征值计算译文的得分,并选择得分最高的译文为所述待翻译信息的翻译结果。
9.根据权利要求8所述的系统,其特征在于,所述预置策略至少包括以下一种:
A.首先从所述通用翻译模型查找所述翻译候选,如果没有找到再从所述匹配的用户翻译模型查找所述翻译候选;
B.首先从所述匹配的用户翻译模型查找所述翻译候选,如果没有找到再从所述通用翻译模型查找所述翻译候选;
C.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值;
D.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后把包含相同短语对的翻译候选在所述两个翻译模型中的特征值都作为单独的特征值。
10.根据权利要求8所述的系统,其特征在于,如果所述通用翻译模型与所述匹配的用户翻译模型中都保留了源语言短语及目标语言短语的频次信息,所述预置策略进一步包括同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后将包含相同短语对的翻译候选在所述两个翻译模型中的频次累加后计算特征值。
11.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:
用户配置模块,用于获取所述当前用户对系统配置的选择,并根据所述选择建立所述当前用户与所述用户翻译模型之间的关联关系。
12.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:
用户反馈模块,用于获取所述当前用户对所述翻译结果的修改,并根据所述修改对所述匹配的用户翻译模型进行调整。
13.根据权利要求1所述的系统,其特征在于,所述系统进一步包括:
用户翻译模型评价模块,用于对所述用户翻译模型中的双语资源进行评价,以得到高质量的双语资源,并通过所述高质量的双语资源影响所述通用翻译模型。
14.根据权利要求13所述的系统,其特征在于,所述影响的方式包括将只在所述用户翻译模型中出现的所述高质量的双语资源添加到所述通用翻译模型或根据所述用户翻译模型中出现的所述高质量的双语资源,调整所述通用翻译模型中双语资源的特征值。
15.一种个性化的机器翻译方法,其特征在于,所述方法包括:
a.获取当前用户信息,并根据所述当前用户信息获取所述当前用户和用户翻译模型之间的关联关系,并通过所述关联关系选择与所述当前用户匹配的用户翻译模型,所述用户翻译模型通过用户提交的双语语料训练得来,用于描述有用户翻译偏好的源语言句子到目标语言句子的翻译概率;
b.获取所述当前用户输入的待翻译信息;
c.使用通用翻译模型和所述匹配的用户翻译模型对所述待翻译信息进行翻译,以得到翻译结果,所述通用翻译模型通过大规模双语语料训练得来,用于描述无用户翻译偏好的源语言句子到目标语言句子的翻译概率。
16.根据权利要求15所述的方法,其特征在于,所述步骤c进一步包括:
c1.从所述待翻译信息中抽取出可以作为独立翻译单元的源语言短语;
c2.根据预置策略,在所述通用翻译模型和所述匹配的用户翻译模型中查找与源语言短语匹配的多个翻译候选;
c3.根据所述翻译候选的特征值计算译文的得分,并选择得分最高的译文为所述待翻译信息的翻译结果。
17.根据权利要求16所述的方法,其特征在于,所述预置策略至少包括以下一种:
A.首先从所述通用翻译模型查找所述翻译候选,如果没有找到再从所述匹配的用户翻译模型查找所述翻译候选;
B.首先从所述匹配的用户翻译模型查找所述翻译候选,如果没有找到再从所述通用翻译模型查找所述翻译候选;
C.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后再以预置的权重调整包含相同短语对的翻译候选的特征值;
D.同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后把包含相同短语对的翻译候选在所述两个翻译模型中的特征值都作为单独的特征值。
18.根据权利要求16所述的方法,其特征在于,如果所述通用翻译模型与所述匹配的用户翻译模型中都保留了源语言短语及目标语言短语的频次信息,所述预置策略进一步包括同时在所述通用翻译模型和所述匹配的用户翻译模型中查找所述翻译候选,然后将包含相同短语对的翻译候选在所述两个翻译模型中的频次累加后计算特征值。
19.根据权利要求17所述的方法,其特征在于,所述方法进一步包括:
d.接收所述当前用户对所述翻译结果的修改,并根据所述修改对所述匹配的用户翻译模型进行调整。
20.一种训练翻译模型的方法,其特征在于,所述方法包括:
a.从双语语料的双语句对中抽取具有互译关系的短语对,所述短语对包括源语言短语及目标语言短语;
b.统计所述短语对的相关频次,所述相关频次包括源语言短语及目标语言短语在双语语料中分别出现的次数、互译出现的次数;
c.将所述短语对与所述短语对的相关频次添加进所述翻译模型。
21.根据权利要求20所述的方法,其特征在于,如果所述双语语料中的双语句对没有词对齐信息,所述方法在所述步骤a前进一步包括对所述双语语料中的双语句对进行词对齐。
22.根据权利要求20所述的方法,其特征在于,所述方法进一步包括:d.在多个所述翻译模型中,利用第一翻译模型影响第二翻译模型。
23.根据权利要求22所述的方法,其特征在于,所述影响的方式包括将只在所述第一翻译模型中出现的双语资源添加到所述第二翻译模型或根据所述第一翻译模型中的双语资源,调整所述第二翻译模型中双语资源的特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110126415.XA CN102789451B (zh) | 2011-05-16 | 2011-05-16 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110126415.XA CN102789451B (zh) | 2011-05-16 | 2011-05-16 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102789451A true CN102789451A (zh) | 2012-11-21 |
CN102789451B CN102789451B (zh) | 2015-06-03 |
Family
ID=47154855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110126415.XA Active CN102789451B (zh) | 2011-05-16 | 2011-05-16 | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102789451B (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714054A (zh) * | 2013-12-30 | 2014-04-09 | 北京百度网讯科技有限公司 | 翻译方法和翻译装置 |
CN103955454A (zh) * | 2014-03-19 | 2014-07-30 | 北京百度网讯科技有限公司 | 一种在白话文与文言文之间进行文体转换的方法和设备 |
CN104572820A (zh) * | 2014-12-03 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 模型的生成方法及装置、重要度获取方法及装置 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
WO2015096529A1 (zh) * | 2013-12-24 | 2015-07-02 | 哈尔滨工业大学 | 面向通用机译引擎的个性化翻译方法及装置 |
CN104978310A (zh) * | 2014-04-08 | 2015-10-14 | 纳宝株式会社 | 基于各种意思类别的翻译结果的提供方法及系统 |
CN105190608A (zh) * | 2013-03-19 | 2015-12-23 | 国际商业机器公司 | 可定制、低延迟交互式计算机辅助翻译 |
CN106372053A (zh) * | 2015-07-22 | 2017-02-01 | 华为技术有限公司 | 句法分析的方法和装置 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN106844358A (zh) * | 2017-01-19 | 2017-06-13 | 中译语通科技(北京)有限公司 | 系统级芯片中海量数据模型的自然语言统计机器翻译方法 |
CN107798386A (zh) * | 2016-09-01 | 2018-03-13 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN107924483A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 通用假设排列模型的生成与应用 |
WO2018214956A1 (zh) * | 2017-05-26 | 2018-11-29 | 华为技术有限公司 | 机器翻译方法、装置及存储介质 |
CN109062908A (zh) * | 2018-07-20 | 2018-12-21 | 北京雅信诚医学信息科技有限公司 | 一种专用翻译器 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN109815459A (zh) * | 2017-11-17 | 2019-05-28 | 奥多比公司 | 生成被调整到目标受众词汇的文本内容的目标概要 |
CN109829550A (zh) * | 2019-02-01 | 2019-05-31 | 北京金山数字娱乐科技有限公司 | 模型评价方法和装置、模型评价系统及其训练方法和装置 |
CN110866395A (zh) * | 2019-10-30 | 2020-03-06 | 语联网(武汉)信息技术有限公司 | 基于译员编辑行为的词向量生成方法及装置 |
CN110866404A (zh) * | 2019-10-30 | 2020-03-06 | 语联网(武汉)信息技术有限公司 | 基于lstm神经网络的词向量生成方法及装置 |
CN111178090A (zh) * | 2019-12-05 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 一种用于企业名称翻译的方法及系统 |
WO2020124674A1 (zh) * | 2018-12-21 | 2020-06-25 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN111445902A (zh) * | 2020-03-27 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN111507113A (zh) * | 2020-03-18 | 2020-08-07 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
CN112016604A (zh) * | 2020-08-19 | 2020-12-01 | 华东师范大学 | 一种运用视觉信息的零资源机器翻译方法 |
CN112052776A (zh) * | 2020-09-01 | 2020-12-08 | 中国人民解放军国防科技大学 | 无人车自主驾驶行为优化方法、装置和计算机设备 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN114564933A (zh) * | 2022-01-12 | 2022-05-31 | 甲骨易(北京)语言科技股份有限公司 | 一种个性化机器翻译训练方法和系统 |
CN117540755A (zh) * | 2023-11-13 | 2024-02-09 | 北京云上曲率科技有限公司 | 一种神经机器翻译模型进行数据增强的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1788266A (zh) * | 2002-08-30 | 2006-06-14 | 思比驰盖尔公司 | 翻译系统 |
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
CN101479724A (zh) * | 2006-06-28 | 2009-07-08 | 微软公司 | 从双语词语对齐高效提取短语对 |
US20090281789A1 (en) * | 2008-04-15 | 2009-11-12 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
CN101657810A (zh) * | 2007-02-14 | 2010-02-24 | 谷歌公司 | 机器翻译反馈 |
CN101763344A (zh) * | 2008-12-25 | 2010-06-30 | 株式会社东芝 | 训练基于短语的翻译模型的方法、机器翻译方法及其装置 |
CN102007493A (zh) * | 2008-02-19 | 2011-04-06 | 谷歌公司 | 通用语言输入 |
-
2011
- 2011-05-16 CN CN201110126415.XA patent/CN102789451B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1788266A (zh) * | 2002-08-30 | 2006-06-14 | 思比驰盖尔公司 | 翻译系统 |
CN101479724A (zh) * | 2006-06-28 | 2009-07-08 | 微软公司 | 从双语词语对齐高效提取短语对 |
CN101657810A (zh) * | 2007-02-14 | 2010-02-24 | 谷歌公司 | 机器翻译反馈 |
CN101079028A (zh) * | 2007-05-29 | 2007-11-28 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法 |
CN102007493A (zh) * | 2008-02-19 | 2011-04-06 | 谷歌公司 | 通用语言输入 |
US20090281789A1 (en) * | 2008-04-15 | 2009-11-12 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
CN101763344A (zh) * | 2008-12-25 | 2010-06-30 | 株式会社东芝 | 训练基于短语的翻译模型的方法、机器翻译方法及其装置 |
Non-Patent Citations (1)
Title |
---|
杨攀: "汉蒙统计机器翻译中的形态学方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105190608A (zh) * | 2013-03-19 | 2015-12-23 | 国际商业机器公司 | 可定制、低延迟交互式计算机辅助翻译 |
WO2015096529A1 (zh) * | 2013-12-24 | 2015-07-02 | 哈尔滨工业大学 | 面向通用机译引擎的个性化翻译方法及装置 |
CN103714054B (zh) * | 2013-12-30 | 2017-03-15 | 北京百度网讯科技有限公司 | 翻译方法和翻译装置 |
CN103714054A (zh) * | 2013-12-30 | 2014-04-09 | 北京百度网讯科技有限公司 | 翻译方法和翻译装置 |
CN104750676A (zh) * | 2013-12-31 | 2015-07-01 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN104750676B (zh) * | 2013-12-31 | 2017-10-24 | 橙译中科信息技术(北京)有限公司 | 机器翻译处理方法及装置 |
CN103955454A (zh) * | 2014-03-19 | 2014-07-30 | 北京百度网讯科技有限公司 | 一种在白话文与文言文之间进行文体转换的方法和设备 |
CN104978310B (zh) * | 2014-04-08 | 2018-05-18 | 纳宝株式会社 | 基于各种意思类别的翻译结果的提供方法及系统 |
CN104978310A (zh) * | 2014-04-08 | 2015-10-14 | 纳宝株式会社 | 基于各种意思类别的翻译结果的提供方法及系统 |
US9760569B2 (en) | 2014-04-08 | 2017-09-12 | Naver Corporation | Method and system for providing translated result |
US9971769B2 (en) | 2014-04-08 | 2018-05-15 | Naver Corporation | Method and system for providing translated result |
CN104572820A (zh) * | 2014-12-03 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 模型的生成方法及装置、重要度获取方法及装置 |
CN104572820B (zh) * | 2014-12-03 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 模型的生成方法及装置、重要度获取方法及装置 |
CN106372053A (zh) * | 2015-07-22 | 2017-02-01 | 华为技术有限公司 | 句法分析的方法和装置 |
US10909315B2 (en) | 2015-07-22 | 2021-02-02 | Huawei Technologies Co., Ltd. | Syntax analysis method and apparatus |
CN107924483B (zh) * | 2015-08-31 | 2022-04-01 | 微软技术许可有限责任公司 | 通用假设排序模型的生成与应用 |
CN107924483A (zh) * | 2015-08-31 | 2018-04-17 | 微软技术许可有限责任公司 | 通用假设排列模型的生成与应用 |
CN107798386B (zh) * | 2016-09-01 | 2022-02-15 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN107798386A (zh) * | 2016-09-01 | 2018-03-13 | 微软技术许可有限责任公司 | 基于未标注数据的多过程协同训练 |
CN106598959A (zh) * | 2016-12-23 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种确定双语语句对互译关系方法及系统 |
CN106844358A (zh) * | 2017-01-19 | 2017-06-13 | 中译语通科技(北京)有限公司 | 系统级芯片中海量数据模型的自然语言统计机器翻译方法 |
WO2018214956A1 (zh) * | 2017-05-26 | 2018-11-29 | 华为技术有限公司 | 机器翻译方法、装置及存储介质 |
CN109815459A (zh) * | 2017-11-17 | 2019-05-28 | 奥多比公司 | 生成被调整到目标受众词汇的文本内容的目标概要 |
CN109062908A (zh) * | 2018-07-20 | 2018-12-21 | 北京雅信诚医学信息科技有限公司 | 一种专用翻译器 |
CN109062908B (zh) * | 2018-07-20 | 2023-07-14 | 北京雅信诚医学信息科技有限公司 | 一种专用翻译器 |
WO2020124674A1 (zh) * | 2018-12-21 | 2020-06-25 | 语联网(武汉)信息技术有限公司 | 向量化译员的翻译个性特征的方法及装置 |
CN109670190A (zh) * | 2018-12-25 | 2019-04-23 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN109670190B (zh) * | 2018-12-25 | 2023-05-16 | 北京百度网讯科技有限公司 | 翻译模型构建方法和装置 |
CN109829550A (zh) * | 2019-02-01 | 2019-05-31 | 北京金山数字娱乐科技有限公司 | 模型评价方法和装置、模型评价系统及其训练方法和装置 |
CN109829550B (zh) * | 2019-02-01 | 2022-03-04 | 北京金山数字娱乐科技有限公司 | 模型评价方法和装置、模型评价系统及其训练方法和装置 |
CN110866404A (zh) * | 2019-10-30 | 2020-03-06 | 语联网(武汉)信息技术有限公司 | 基于lstm神经网络的词向量生成方法及装置 |
CN110866395A (zh) * | 2019-10-30 | 2020-03-06 | 语联网(武汉)信息技术有限公司 | 基于译员编辑行为的词向量生成方法及装置 |
CN110866404B (zh) * | 2019-10-30 | 2023-05-05 | 语联网(武汉)信息技术有限公司 | 基于lstm神经网络的词向量生成方法及装置 |
CN110866395B (zh) * | 2019-10-30 | 2023-05-05 | 语联网(武汉)信息技术有限公司 | 基于译员编辑行为的词向量生成方法及装置 |
CN111178090A (zh) * | 2019-12-05 | 2020-05-19 | 语联网(武汉)信息技术有限公司 | 一种用于企业名称翻译的方法及系统 |
CN111507113A (zh) * | 2020-03-18 | 2020-08-07 | 北京捷通华声科技股份有限公司 | 一种机器辅助人工翻译的方法和装置 |
CN111445902A (zh) * | 2020-03-27 | 2020-07-24 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN111445902B (zh) * | 2020-03-27 | 2023-05-30 | 北京字节跳动网络技术有限公司 | 数据收集方法、装置、存储介质及电子设备 |
CN112016604B (zh) * | 2020-08-19 | 2021-03-26 | 华东师范大学 | 一种运用视觉信息的零资源机器翻译方法 |
CN112016604A (zh) * | 2020-08-19 | 2020-12-01 | 华东师范大学 | 一种运用视觉信息的零资源机器翻译方法 |
CN112052776A (zh) * | 2020-09-01 | 2020-12-08 | 中国人民解放军国防科技大学 | 无人车自主驾驶行为优化方法、装置和计算机设备 |
CN114333830A (zh) * | 2020-09-30 | 2022-04-12 | 中兴通讯股份有限公司 | 同声传译模型的训练方法、同声传译方法、设备和存储介质 |
CN114139560A (zh) * | 2021-12-03 | 2022-03-04 | 山东诗语翻译有限公司 | 基于人工智能翻译系统 |
CN114564933A (zh) * | 2022-01-12 | 2022-05-31 | 甲骨易(北京)语言科技股份有限公司 | 一种个性化机器翻译训练方法和系统 |
CN117540755A (zh) * | 2023-11-13 | 2024-02-09 | 北京云上曲率科技有限公司 | 一种神经机器翻译模型进行数据增强的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102789451B (zh) | 2015-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102789451B (zh) | 一种个性化的机器翻译系统、方法及训练翻译模型的方法 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
US8229728B2 (en) | Methods for using manual phrase alignment data to generate translation models for statistical machine translation | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN105068998A (zh) | 基于神经网络模型的翻译方法及装置 | |
Sen et al. | Neural machine translation of low-resource languages using SMT phrase pair injection | |
Khan et al. | RNN-LSTM-GRU based language transformation | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
Palmero Aprosio et al. | Neural text simplification in low-resource conditions using weak supervision | |
CN105593845A (zh) | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 | |
CN104731774A (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
Kumar et al. | Incomplete follow-up question resolution using retrieval based sequence to sequence learning | |
Tran et al. | A Character Level Based and Word Level Based Approach for Chinese‐Vietnamese Machine Translation | |
Liu et al. | Chinese-Portuguese machine translation: a study on building parallel corpora from comparable texts | |
Hussein et al. | Textual data augmentation for arabic-english code-switching speech recognition | |
CN112836525A (zh) | 一种基于人机交互机器翻译系统及其自动优化方法 | |
CN114936567B (zh) | 一种基于知识蒸馏的无监督机器翻译质量预估方法和装置 | |
CN108984538B (zh) | 基于语法规约指导的神经机器翻译方法 | |
Li | A Study on Chinese‐English Machine Translation Based on Transfer Learning and Neural Networks | |
Arora et al. | Pre-processing of English-Hindi corpus for statistical machine translation | |
Laitonjam et al. | A hybrid machine transliteration model based on multi-source encoder–decoder framework: English to manipuri | |
Costa-Jussa et al. | Automatic normalization of short texts by combining statistical and rule-based techniques | |
Ning et al. | Design and Testing of Automatic Machine Translation System Based on Chinese‐English Phrase Translation | |
Mahata et al. | Jucbnmt at wmt2018 news translation task: Character based neural machine translation of finnish to english | |
Acharya et al. | A Comparative Study of SMT and NMT: Case Study of English-Nepali Language Pair. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |