CN102968411A - 多语机器翻译智能辅助处理方法和系统 - Google Patents
多语机器翻译智能辅助处理方法和系统 Download PDFInfo
- Publication number
- CN102968411A CN102968411A CN2012104105304A CN201210410530A CN102968411A CN 102968411 A CN102968411 A CN 102968411A CN 2012104105304 A CN2012104105304 A CN 2012104105304A CN 201210410530 A CN201210410530 A CN 201210410530A CN 102968411 A CN102968411 A CN 102968411A
- Authority
- CN
- China
- Prior art keywords
- prompting
- language
- candidate
- input
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开的一种多语机器翻译智能辅助处理方法和系统。其方法包括如下步骤:根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集;结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。其加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。
Description
技术领域
本发明涉及自然语言计算机处理技术领域,尤其是涉及机器翻译技术领域,特别是涉及一种多语机器翻译智能辅助处理方法和系统。
背景技术
在文本翻译的过程中,翻译人员通常需要将一种语言(源语言)翻译成另外一种语言(目标语言)。
近年来,基于机器翻译和翻译记忆的计算机辅助翻译解决了人工翻译中的一些问题,但是计算机辅助翻译通常有三个问题。第一,基于词的辅助翻译提示的粒度太小,部分词语的在句子中的翻译往往不是词语直接对应的目标语言候选。第二,基于移动调序的机器翻译后编辑形式的辅助翻译,很费时费力,翻译人员操作很不方便。第三,基于机器翻译的以短语为粒度的候选提示,首先将所有的短语翻译候选列出,然后让操作人员通过选择候选的方式的进行后编辑,这种方式一定程度地解决了词粒度的候选提示问题。但是,这种方式的短语候选翻译列表不能根据翻译人员输入而动态改变。翻译人员在翻译的过程中,要进行目标语言的输入。现有的目标语言输入方法通常是一种语言的音字转换过程,从翻译文本录入过程的角度来看,现有方法主要有四个不足。第一,现有的方法通常直接针对目标语言而设计,没有利用源语言的信息;第二,现有的方法,没有把人工翻译和机器翻译交互式地结合起来;第三,现有的方法很少有支持翻译的功能,翻译的粒度不够。第四,现有的方法无法结合已输入的目标语言上下文和翻译人员翻译习惯的进行智能翻译。
发明内容
本发明提供了一种多语机器翻译智能辅助处理方法和系统,其克服现有技术中存在的不足,加快多语翻译的速度,用户体验好,智能化程度高,提高了翻译准确度。
为实现本发明目的而提供了一种多语机器翻译智能辅助处理方法,包括如下步骤:
步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S300之后还包括如下步骤:
步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤S100重新进行未翻译源语言翻译,直至翻译完成。
较优地,作为一可实施例,所述步骤S100包括如下步骤:
步骤S110,设已翻译目标语言集E=e1...em(m>=1),则确定一个E的划分S:{(a,b)|1=<a<=b<=m},对于任意的一个元素(a,b)属于S,计算确定一个源语言集对应的区间(a',b')的集合T,得到已翻译源语言区间集合;
步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。
较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤:
步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于0的整数;
步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。
较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤:
步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后n个词previous_n_word,n为整数,n与所用的语言模型相对应;
步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213’,根据n个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};
步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中:
对于action为"选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为"插入",将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3;
步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;
其中,K’为大于等于1的整数。
较优地,作为一可实施例,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,包括如下步骤:
步骤S211”,根据所获得的目标语言的语料,训练一个N-Gram语言模型;
步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213”,对于短语翻译候选集合S中的一个串s,枚举s的所有前缀,构成一个S的前缀集S_Prefix;
步骤S214”,根据用户已输入的字符串,从后往前,分别取1-gram,2-gram,...,n-gram的字符串,得到一个字符串集合T;
步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中;
步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Prefix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度;
步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于1的整数;
步骤S218”,对K”个候选的结果的概率做归一化;
步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。
较优地,作为一可实施例,所述步骤S300包括如下步骤:
步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合A_history;
步骤S320,检索语言模型提示集,K-best提示集;若语言模型提示集,K-best提示集中的提示在集合A_delete中存在,则将该提示删除;否则保留;
步骤S330,对于集合A_history,语言模型提示集,K-best提示集中的剩下的每个目标语言候选提示,将该每个目标语言候选提示对应的概率分别乘以相应的权重Wa,Wb,Wc,得到最后的概率值,并按最后的概率值大小排序,取前Nobj个结果,作为目标语言候选集;
其中,Nobj为大于等于1的整数。
较优地,作为一可实施例,所述的多语机器翻译智能辅助处理方法,所述步骤S400在得到目标语言后,返回步骤S100前,还包括如下步骤:
步骤S400’,记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
为实现本发明目的还提供一种多语机器翻译智能辅助处理系统,包括扩展模块,提示集生成模块和候选集生成模块,其中:
所述扩展模块,用于根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
所述提示集生成模块,用于根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
所述候选集生成模块,用于结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
较优地,作为一可实施例,所述的多语机器翻译智能辅助处理系统,还包括显示处理模块,用于显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回重新进行未翻译源语言翻译,直至翻译完成。
较优地,作为一可实施例,所述的多语机器翻译智能辅助处理系统,还包括记录模块,用于记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
本发明的有益效果包括:本发明提供的一种多语机器翻译智能辅助处理方法和系统,将用户输入和机器翻译结合起来,融入到机器翻译的语言模型和翻译解码过程中,为用户提供更好的翻译输入体验,可以在用户无输入,输入部分字母或者单词以及选择候选之后分别给出针对性的智能提示,加快了翻译的速度,又给出了更好的翻译建议,其加快了多语翻译的速度,用户体验非常好,并且学习翻译智能化程度高,从而进一步提高翻译准确度。
附图说明
以下,结合附图详细说明本发明的实施例,其中:
图1为本发明的多语机器翻译智能辅助处理方法一实施例的流程图;
图2为本发明实施例的多语机器翻译智能辅助处理系统结构示意图。
具体实施方式
下面结合说明书附图,对本发明多语机器翻译智能辅助处理方法和系统的具体实施方式进行说明。
本发明实施例中,以汉-英或者英-汉机器翻译为例,对本发明实施例的多语机器翻译智能辅助处理方法和系统进行详细说明,但应当理解的是,本发明同样适用于多种语言之间的机器翻译,本发明请求保护的范围以权利要求书所请求保护的范围为准,并不限于汉-英或者英-汉两种语言的机器翻译,亦不限于两种语言之间的机器翻译。
本发明实施例的多语机器翻译智能辅助处理方法,通过支持翻译的英汉、汉英双语输入法智能辅助处理,解决计算机机器辅助翻译过程中所存在的问题和不足。
本发明实施例的多语机器翻译智能辅助处理方法,如图1所示,包括如下步骤:
步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
作为一种可实施方式,在步骤S100包括如下步骤:
步骤S110,设已翻译目标语言集E=e1...em(m>=1),则确定一个E的划分S:{(a,b)|1=<a<=b<=m},对于任意的一个元素(a,b)属于S,计算确定一个源语言集对应的区间(a',b')的集合T,得到已翻译源语言区间集合。
本发明实施例中,通过枚举E的所有可能的划分,即可以得所有合理的T的集合。
本发明实施例多语机器翻译智能辅助处理过程中,需要确定目标语言的某一个区间是由源语言的哪一个区间翻译过去的,并在确定了源语言已翻译的区间后进行之后的翻译扩展,得到源语言未翻译的区间。
由于已翻译得到的目标语言,可能是用户输入翻译的;或者可能是用户从目标语言候选集中选择的;或者可能是用户先从目标语言候选集中进行选择,再进行翻译调整得到。因此,它们对应的源语言区间也不是确定的。而且用户输入的行为又多变,翻译的顺序也不一定是从第一个短语开始翻译,因此,为了保持翻译提示的过程的一致性,本发明实施例中,需要确定源语言已翻译区间。
较佳地,作为一种可实施方式,步骤S110,根据源语言和已翻译目标语言获取源语言已翻译的区间,包括如下步骤:
步骤S111,设源语言的词序列为c1...cn;目标语言已翻译的词序列为e1...em,其中,n、m为整数;
步骤S112,枚举区间[1,m]的所有可能划分,得到集合S;
步骤S113,根据已翻译源语言从语言模型集中检索获取所有可能的候选目标翻译语言短语集合P;
其中,所述语言模型集(也称为短语模型集)是根据大规模的训练语料训练得到的多语机器翻译的语言模型集。
所述大规模的训练语料可以通过购买和网络挖掘得到,例如互译的汉英句对等。
作为一种可实施方式,所述语言模型集可以由统计机器翻译工具包Moses训练出语言模型而得到。训练语言模型是统计机器翻译模型中最为成熟的模型之一,语言模型以双语短语为基本的建模单元。
从语言模型集中检索获取所有可能的候选目标翻译语言短语是一种现有技术,因此,在本发明实施例中,不再一一详细描述。
本发明实施例中,较佳地,作为一种可实施方式,所述训练语言模型集采用判别式模型进行训练,可以融合自定义的特征,使得语言模型可以更方便的扩展,大大提高了模型的适应性。
步骤S114,对于集合S中的每一个可能划分s,设置一个临时的集合D,对于划分s中的任意一个元素[a,b],1=<a<=b<=m;
步骤S115,对于P中的任意一个原始元素p,查找与ea...eb最相似的类似元素p*;
如果目标语言(a,b)区间对应的串ea...eb,与源语言区间(a',b')的对应的候选目标语言翻译短语集中某一个最相似,即认为这两个区间对应;
作为一种可实施方式,所述相似度计算的方法为最小编辑距离计算方法。
步骤S116,根据类似元素p*,查找到类似元素p*对应的源语言的区间d,将d加入到D中;
步骤S117,判断D是否有重叠元素,如无,则将D加入到已翻译源语言区间集合T中,直至S中所有元素的划分完成。
步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。
所述语言模型解码方法采用短语特征进行扩展是一种现有技术,因此,在本发明实施例中,不再一一详细描述。
作为一种可实施方式,本发明的语言模型解码方法进行扩展采用的特征包括但不限于:正向短语翻译概率,正向短语词汇化翻译概率,逆向短语翻译概率,逆向短语词汇化翻译概率,短语长度,词长度,调序的距离,双向单调、交换、不连续(MSD)调序,语言模型,用户历史命中次数及其组合等特征。
本发明实施例中,通过采用语言模型集,使用了跟用户输入历史有关的特征等进行扩展,增加了机器翻译的智能性,使得机器翻译时的扩展更具有针对性。
步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
较佳地,作为一种可实施方式,所述输入历史提示集、语言模型提示集、以及K-best提示集的字段格式相同,均为:{提示的字符串;该字符串对应的概率;提示的类型}。
其中,类型0表示输入历史提示;类型1表示语言模型提示;类型2表示K-best提示;类型3表示输出历史中的动作类型为删除词的提示。
较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤:
步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果(K-best),其中,K为大于等于0的整数;
步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。
较佳地,所述K-best集合合并采用的是最长公共前缀分组合并的方法,分组后的最长公共前缀概率作为K-best提示集中的每一字符串对应的概率,该分组后的最长公共前缀概率采用了组内平均的方式进行计算。
即前K个最好的结果(K-best)采用最长公共前缀的方式进行分组,不同的前缀集合即为合并结果,计算得到合并后的概率,作为所有相同前缀的串的概率平均。
较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成输入历史提示集,是根据源语言未翻译的区间,利用用户输入历史集,生成输入历史提示集。
用户输入历史集,是利用在多语翻译过程中,对从源语言到目标语言的翻译过程中,用户输入或者选择动作的特征,生成的用户输入历史记录集合。其跟不同用户的输入和翻译风格有关。
其中,作为一种可实施方式,所述用户输入历史记录的字段为{编号;已输入的目标语言的后n个词(previous_n_word);n为整数,与所用的语言模型相对应;已输入的目标语言的后n个词(previous_n_word)所对应的源语言片段集{correlation_source_word};用户输入的动作(action);用户输入的动作所对应的词(action_word);累计出现的次数}
其中:
用户输入的动作(action)集合为:{选择提示;不选择提示,直接输入;插入词;删除词};
用户输入的动作(action)所对应的词(action_word)为{“选择提示”的action_word为选择提示的内容;“不选择提示,直接输入”的action_word为新输入的词;“插入词”的action_word为当前插入的内容;“删除词”为删除的内容}
累计出现的次数是当“已输入的目标语言的后n个词(previous_n_word)”;“已输入的目标语言的后n个词(previous_n_word)所对应的源语言片段集{correlation_source_word}”;“用户输入的动作(action)”;“用户输入的动作所对应的词(action_word)”字段相同的时候,不重复插入,而是计数加1。
较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤:
步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后n个词previous_n_word,n为整数,n与所用的语言模型相对应;
步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213’,根据n个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};
步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中:
对于action为"选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为"插入",将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3;
步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;
其中,K’为大于等于1的整数。
较佳地,作为一种可实施方式,对于用户输入历史集生成的输入历史提示集而言,所述K’个输入历史提示集中的提示的字符串对应的概率为:
较佳地,作为一种可实施方式,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,是根据源语言未翻译的区间,利用N-Gram语言模型获取相应的语言模型提示集,包括如下步骤:
步骤S211”,根据所获得的目标语言的语料,训练一个N-Gram语言模型。
语言模型是一种用来计算句子概率的概率模型,第n个词出现的概率只与前n-1词相关的n-1阶马尔科夫近似称为n-gram语言模型。,对中文而言,称之为汉语语言模型(CLM,Chinese Language Model)。
根据语料训练出N-Gram语言模型是一种现有技术,因此,在本发明实施例中,不再一一详细描述。
步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213”,对于短语翻译候选集合S中的一个串s,枚举s的所有前缀,构成一个S的前缀集S_Prefix;
步骤S214”,根据用户已输入的字符串,从后往前,分别取1-gram,2-gram,...,n-gram的字符串,得到一个字符串集合T;
步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中;
步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Prefix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度;
步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于1的整数;
步骤S218”,对K”个候选的结果的概率做归一化;
步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。
步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
作为一种可实施方式,步骤S300中,结合输入历史提示集、语言模型提示集,以及K-best提示集的结果生成最后的候选集,即最后的候选集通过结合基于用户输入历史的输入历史提示集、基于语言模型的语言模型提示集,以及K-best提示集得到。
目标语言提示集有三种来源:输入历史提示集、语言模型提示集、以及K-best提示集。
提示集的形式均为{提示的字符串,该字符串对应的概率,提示的类型}。
较佳地,作为一种可实施方式,所述步骤S300中,根据输入历史提示集、语言模型提示集、以及K-best提示集生成目标语言候选集的过程,包括如下步骤:
步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合A_history;
步骤S320,检索语言模型提示集,K-best提示集;若语言模型提示集,K-best提示集中的提示在集合A_delete中存在,则将该提示删除;否则保留;
步骤S330,对于集合A_history,语言模型提示集,K-best提示集中的剩下的每个目标语言候选提示,将该每个目标语言候选提示对应的概率分别乘以相应的权重Wa,Wb,Wc,得到最后的概率值,并按最后的概率值大小排序,取前Nobj个结果,作为目标语言候选集;
其中,Nobj为大于等于1的整数。
在本发明实施例中,三个提示集分别对应一个权重系数Wa,Wb,Wc,其中,Wa,Wb,Wc的初始值为预设权重系数,Wa+Wb+Wc=1;
作为一种可实施方式,所述Wa,Wb,Wc三个的初值分别为0.1,0.6,0.3。
较佳地,作为一种可实施方式,所述步骤S330之后,还包括如下步骤:
步骤S340,根据目标语言候选集中对输入历史提示集,语言模型提示集,K-best提示集的中的相应字符串的选择次数,对权重系数Wa,Wb,Wc这三个系数进行动态调整。
根据用户的使用,统计目标语言候选集选择不同类型提示集中的字符串的总次数,动态调整权重的大小。
更佳地,作为一种可实施方式,所述步骤S340包括如下步骤:
步骤S341,设目标语言候选集选择输入历史提示集中的字符串的总次数NA,目标语言候选集选择语言模型提示集中的字符串的总次数是NB,目标语言候选集选择K-best提示集中的字符串的总次数是NC,则对应的新的权重为:
其中,Wanew、Wbnew、Wcnew为新一轮的权重,Waold、Wbold、Wcold为上一轮的权重;
步骤S342,将Wanew、Wbnew、Wcnew作为新的Wa,Wb,Wc,用于进行下一轮的目标语言提示集筛选的权重值。
较佳地,本发明实施例的多语机器翻译智能辅助处理方法,还包括如下步骤:
步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤S100重新进行未翻译源语言翻译,直至翻译完成。
作为一种可实施方式,可以将目标语言的候选集,在计算机系统的显示器(如液晶显示器等)、或者通过手机、PAD等手持终端的显示器显示给用户,并在系统或者终端的输入输出系统中等待并捕捉用户输入或者选择的动作,得到对应于未翻译源语言经翻译对应的目标语言。
作为一种可实施方式,用户在系统或者终端上可以选择给出的候选,也可以不选择候选,直接输入进行翻译。
比如源语言的文本为“澳洲是少数与北韩有邦交的国家”,在翻译这句话的过程中已经输入的是“a”,那么提示的是“1,Australia 2,Australia is 3,afew 4,a few countries”。
较佳地,作为一种可实施方式,所述步骤S400在得到目标语言后,返回步骤S100前,还包括如下步骤:
步骤S400’,记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
较佳地,作为一种可实施方式,所述步骤S400’中,记录用户的输入或者选择动作包括但不限于:用户使用键盘直接输入的字母、确定(回车键)等的输入,以及选择提示的翻译候选目标语言和删除已翻译的文本等动作。
不管用户是选择翻译的候选,还是直接输入,都将用户的动作,以及跟动作有关的内容记录到用户的输入历史集中,然后再返回到步骤S100直至翻译过程结束。
基于同一发明构思,本发明实施例还提供了一种多语机器翻译智能辅助处理系统,由于此系统解决问题的原理与前述一种多语机器翻译智能辅助处理方法相类似,因此,此系统的实施可以通过前述方法具体实现重复之处不再赘述。
本发明实施例的一种多语机器翻译智能辅助处理系统,如图2所示,包括扩展模块10,提示集生成模块20和候选集生成模块30,其中:
所述扩展模块10,用于根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
所述提示集生成模块20,用于根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
所述候选集生成模块30,用于结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
较佳地,作为一种可实施方式,本发明实施例的多语机器翻译智能辅助处理系统,还包括显示处理模块40,用于显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回重新进行未翻译源语言翻译,直至翻译完成。
更佳地,作为一种可实施方式,本发明实施例的多语机器翻译智能辅助处理系统,还包括记录模块50,用于记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
本发明实施例的一种多语机器翻译智能辅助处理方法和系统,将用户输入和机器翻译结合起来,融入到机器翻译的语言模型和翻译解码过程中,为用户提供更好的翻译输入体验,可以在用户无输入,输入部分字母或者单词以及选择候选之后分别给出针对性的智能提示,加快了翻译的速度,又给出了更好的翻译建议,其加快了多语翻译的速度,用户体验非常好,并且学习翻译智能化程度高,从而进一步提高翻译准确度。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (14)
1.一种多语机器翻译智能辅助处理方法,其特征在于,包括如下步骤:
步骤S100,根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
步骤S200,根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译目标语言生成输入历史提示集和语言模型提示集;
步骤S300,结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
2.根据权利要求1所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S300之后还包括如下步骤:
步骤S400,显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回到步骤S100重新进行未翻译源语言翻译,直至翻译完成。
3.根据权利要求1或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S100包括如下步骤:
步骤S110,设已翻译目标语言集E=e1...em(m>=1),则确定一个E的划分S:{(a,b)|1=<a<=b<=m},对于任意的一个元素(a,b)属于S,计算确定一个源语言集对应的区间(a',b')的集合T,得到已翻译源语言区间集合;
步骤S120,将集合T的每一个区间序列作为一个实例采用语言模型解码方法采用不同的短语特征对对应的源语言未翻译的区间进行扩展。
4.根据权利要求3所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S110包括如下步骤:
步骤S111,设源语言的词序列为c1...cn;目标语言已翻译的词序列为e1...em,其中,n、m为整数;
步骤S112,枚举区间[1,m]的所有可能划分,得到集合S;
步骤S113,根据已翻译源语言从语言模型集中检索获取所有可能的候选目标翻译语言短语集合P;
步骤S114,对于集合S中的每一个可能划分s,设置一个临时的集合D,对于划分s中的任意一个元素[a,b],1=<a<=b<=m;
步骤S115,对于P中的任意一个原始元素p,查找与ea...eb最相似的类似元素p*;
步骤S116,根据类似元素p*,查找到类似元素p*对应的源语言的区间d,将d加入到D中;
步骤S 117,判断D是否有重叠元素,如无,则将D加入到已翻译源语言区间集合T中,直至S中所有元素的划分完成。
5.根据权利要求1或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间扩展,生成K-best提示集,包括如下步骤:
步骤S210,根据未翻译的区间扩展,获取源语言未翻译的区间对应的翻译结果中前K个最好的结果,其中,K为大于等于0的整数;
步骤S220,将前K个最好的结果作为K-best提示集中的提示的字符串,并计算所述K个K-best提示集中的提示的字符串对应的概率,将提示的类型设置为2,生成K-best提示集。
6.根据权利要求1或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,利用用户输入历史集,生成输入历史提示集,包括如下步骤:
步骤S211’,初始化候选的输入历史提示集为空,根据源语言未翻译的区间,获得源语言未翻译的区间中已输入的字符串的后n个词previous_n_word,n为整数,n与所用的语言模型相对应;
步骤S212’,将源语言未翻译的区间全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213’,根据n个词previous_n_word和所述源语言片段对应的候选短语集,通过最小编辑距离算法,计算相似度,相似度大于等于阈值KT的词作为候选的源语言集合{source_word};
步骤S214’,根据previous_n_word和{source_word}查询用户输入历史集,并将查询结果加入候选的输入历史提示集,其中:
对于action为"选择提示",直接将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为"插入",将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为”不选择提示”,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为0;
对于action为“删除”的,将对应的action_word和出现的次数加入到候选的输入历史提示集中,其对应的提示类型为3;
步骤S215’,根据出现次数的多少,将候选的输入历史提示集中的前K’个作为结果作为输入历史提示集中的提示的字符串,并计算所述K’个输入历史提示集中的提示的字符串对应的概率,以及对应的提示的类型,生成输入历史提示集;
其中,K’为大于等于1的整数。
7.根据权利要求1或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S200中,根据源语言未翻译的区间和已翻译目标语言,生成语言模型提示集,包括如下步骤:
步骤S211”,根据所获得的目标语言的语料,训练一个N-Gram语言模型;
步骤S212”,将源语言未翻译的区间扩展全切分,得到不同的源语言片段,并根据源语言片段从语言模型集中检索获取对应的所有可能的候选目标翻译语言的短语作为源语言片段对应的候选短语集S;
步骤S213”,对于短语翻译候选集合S中的一个串s,枚举s的所有前缀,构成一个S的前缀集S_Prefix;
步骤S214”,根据用户已输入的字符串,从后往前,分别取1-gram,2-gram,...,n-gram的字符串,得到一个字符串集合T;
步骤S215”,对于T中的每一个串t,在N-Gram语言模型中搜索所有以s为前缀的串,并记录该串对应的概率,并将搜索到的集合添加到候选提示集T_candidate中;
步骤S216”,对候选提示集T_candidate中的每一个串t_c,计算与前缀集S_Prefix的距离;其中,所述距离为串t_c与前前缀集S_prefix中的任意一个串的最大相似度;
步骤S217”,根据相似度排序,取前K”个作为候选的结果;其中,K”为大于等于1的整数;
步骤S218”,对K”个候选的结果的概率做归一化;
步骤S219”,将前K”个候选的结果作为语言模型提示集中的提示的字符串,将相对应的归一化后的概率作为相应的字符串对应的概率,将提示的类型设置为1,生成语言模型提示集。
8.根据权利要求1或2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S300包括如下步骤:
步骤S310,获得输入历史提示集中提示类型为3的所有提示的集合A_delete,剩余的为集合A_history;
步骤S320,检索语言模型提示集,K-best提示集;若语言模型提示集,K-best提示集中的提示在集合A_delete中存在,则将该提示删除;否则保留;
步骤S330,对于集合A_history,语言模型提示集,K-best提示集中的剩下的每个目标语言候选提示,将该每个目标语言候选提示对应的概率分别乘以相应的权重Wa,Wb,Wc,得到最后的概率值,并按最后的概率值大小排序,取前Nobj个结果,作为目标语言候选集;
其中,Nobj为大于等于1的整数。
9.根据权利要求8所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S330之后,还包括如下步骤:
步骤S340,根据目标语言候选集中对输入历史提示集,语言模型提示集,K-best提示集的中的相应字符串的选择次数,对权重系数Wa,Wb,Wc这三个系数进行动态调整。
10.根据权利要求9所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S340包括如下步骤:
步骤S341,设目标语言候选集选择输入历史提示集中的字符串的总次数NA,目标语言候选集选择语言模型提示集中的字符串的总次数是NB,目标语言候选集选择K-best提示集中的字符串的总次数是NC,则对应的新的权重为:
其中,Wanew、Wbnew、Wcnew为新一轮的权重,Waold、Wbold、Wcold为上一轮的权重;
步骤S342,将Wanew、Wbnew、Wcnew作为新的Wa,Wb,Wc,用于进行下一轮的目标语言提示集筛选的权重值。
11.根据权利要求2所述的多语机器翻译智能辅助处理方法,其特征在于,所述步骤S400在得到目标语言后,返回步骤S100前,还包括如下步骤:
步骤S400’,记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
12.一种多语机器翻译智能辅助处理系统,其特征在于,包括扩展模块,提示集生成模块和候选集生成模块,其中:
所述扩展模块,用于根据源语言和已翻译目标语言获取源语言已翻译的区间,对源语言未翻译的区间进行扩展;
所述提示集生成模块,用于根据源语言未翻译的区间扩展,生成K-best提示集;并根据源语言未翻译的区间和已翻译的目标语言生成输入历史提示集和语言模型提示集;
所述候选集生成模块,用于结合输入历史提示集、语言模型提示集、以及K-best提示集,生成所述源语言未翻译源区间对应的目标语言的候选集。
13.根据权利要求12所述的多语机器翻译智能辅助处理系统,其特征在于,还包括显示处理模块,用于显示所述目标语言的候选集,等待用户输入或者选择,并在捕捉到用户输入或者选择动作后,得到未翻译源语言翻译对应的目标语言,返回重新进行未翻译源语言翻译,直至翻译完成。
14.根据权利要求13所述的多语机器翻译智能辅助处理系统,其特征在于,还包括记录模块,用于记录用户的输入或者选择动作,将用户的输入记录到用户的输入历史集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210410530.4A CN102968411B (zh) | 2012-10-24 | 2012-10-24 | 多语机器翻译智能辅助处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210410530.4A CN102968411B (zh) | 2012-10-24 | 2012-10-24 | 多语机器翻译智能辅助处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102968411A true CN102968411A (zh) | 2013-03-13 |
CN102968411B CN102968411B (zh) | 2015-12-16 |
Family
ID=47798559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210410530.4A Expired - Fee Related CN102968411B (zh) | 2012-10-24 | 2012-10-24 | 多语机器翻译智能辅助处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102968411B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391885A (zh) * | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
CN104714943A (zh) * | 2015-03-26 | 2015-06-17 | 百度在线网络技术(北京)有限公司 | 翻译方法及系统 |
CN105094358A (zh) * | 2014-05-20 | 2015-11-25 | 富士通株式会社 | 信息处理装置和通过外码输入目标语言文字的方法 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN106649288A (zh) * | 2016-12-12 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
CN106815215A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 生成标注库的方法和装置 |
CN108009161A (zh) * | 2017-12-27 | 2018-05-08 | 王全志 | 信息输出方法、装置 |
CN109033091A (zh) * | 2017-06-08 | 2018-12-18 | 松下知识产权经营株式会社 | 翻译信息提供方法、程序以及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090240487A1 (en) * | 2008-03-20 | 2009-09-24 | Libin Shen | Machine translation |
CN102193914A (zh) * | 2011-05-26 | 2011-09-21 | 中国科学院计算技术研究所 | 计算机辅助翻译的方法及系统 |
-
2012
- 2012-10-24 CN CN201210410530.4A patent/CN102968411B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090240487A1 (en) * | 2008-03-20 | 2009-09-24 | Libin Shen | Machine translation |
CN102193914A (zh) * | 2011-05-26 | 2011-09-21 | 中国科学院计算技术研究所 | 计算机辅助翻译的方法及系统 |
Non-Patent Citations (3)
Title |
---|
ZHAOPENG TU等: "Dependency Forest for Statistical Machine Translation", 《PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 * |
刘群: "基于句法的统计机器翻译模型与方法", 《中文信息学报》 * |
骆卫华灯: "面向大规模语料的语言模型研究新进展", 《计算机研究与发展》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105094358A (zh) * | 2014-05-20 | 2015-11-25 | 富士通株式会社 | 信息处理装置和通过外码输入目标语言文字的方法 |
CN104391885A (zh) * | 2014-11-07 | 2015-03-04 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
CN104391885B (zh) * | 2014-11-07 | 2017-07-28 | 哈尔滨工业大学 | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 |
CN104714943A (zh) * | 2015-03-26 | 2015-06-17 | 百度在线网络技术(北京)有限公司 | 翻译方法及系统 |
CN106383818A (zh) * | 2015-07-30 | 2017-02-08 | 阿里巴巴集团控股有限公司 | 一种机器翻译方法及装置 |
CN106815215A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 生成标注库的方法和装置 |
CN106815215B (zh) * | 2015-11-30 | 2019-11-26 | 华为技术有限公司 | 生成标注库的方法和装置 |
CN105701089A (zh) * | 2015-12-31 | 2016-06-22 | 成都数联铭品科技有限公司 | 一种机器翻译错词修正的后编辑处理方法 |
CN105740218A (zh) * | 2015-12-31 | 2016-07-06 | 成都数联铭品科技有限公司 | 一种机器翻译后编辑处理方法 |
CN106649288A (zh) * | 2016-12-12 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于人工智能的翻译方法和装置 |
CN109033091A (zh) * | 2017-06-08 | 2018-12-18 | 松下知识产权经营株式会社 | 翻译信息提供方法、程序以及装置 |
CN108009161A (zh) * | 2017-12-27 | 2018-05-08 | 王全志 | 信息输出方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102968411B (zh) | 2015-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102968411B (zh) | 多语机器翻译智能辅助处理方法和系统 | |
CN109213995B (zh) | 一种基于双语词嵌入的跨语言文本相似度评估技术 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
Tellez et al. | A simple approach to multilingual polarity classification in Twitter | |
CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
CN100527125C (zh) | 一种统计机器翻译中的在线翻译模型选择方法和系统 | |
CN100595760C (zh) | 一种获取口语词条的方法、装置以及一种输入法系统 | |
CN104050255B (zh) | 基于联合图模型的纠错方法及系统 | |
CN102214166B (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
CN102053974B (zh) | 一种汉字输入方法和装置 | |
CN105022733B (zh) | Dinfo‑oec文本分析挖掘方法与设备 | |
CN109635297A (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索系统及其观点检索方法 | |
CN103116578A (zh) | 一种融合句法树和统计机器翻译技术的翻译方法与装置 | |
CN109446505A (zh) | 一种范文生成方法及系统 | |
CN101820475A (zh) | 基于智能语义理解的手机彩信生成方法 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN101556596A (zh) | 一种输入法系统及智能组词的方法 | |
CN108363688A (zh) | 一种融合先验信息的命名实体链接方法 | |
CN104881399A (zh) | 基于概率软逻辑psl的事件识别方法和系统 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN107688621B (zh) | 一种文案的优化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20151216 Termination date: 20191024 |
|
CF01 | Termination of patent right due to non-payment of annual fee |