CN104391839A

CN104391839A - 机器翻译方法和装置

Info

Publication number: CN104391839A
Application number: CN201410641792.0A
Authority: CN
Inventors: 吴先超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-13
Filing date: 2014-11-13
Publication date: 2015-03-04

Abstract

本发明提出一种机器翻译方法和装置，该机器翻译方法包括获取待翻译的文本；获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的；采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。该方法能够提高翻译结果的准确度。

Description

机器翻译方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种机器翻译方法和装置。

背景技术

当需要进行翻译时，翻译设备可以采用机器翻译模型，对词汇进行翻译，得到翻译结果。传统的机器翻译模型，从人工构建的双语训练数据出发，使用统计的方法来计算出翻译概率和目标语言的语言模型概率。

但是，采用传统的机器翻译模型难以确定准确的翻译结果，例如，对于英文句子“giveme a shot”，存在多种合理的翻译结果，例如，“给我照相”，“给我打一枪”，“向我击球进攻”等。而单独看这个输入的句子“give me a shot”，采用目前的传统的机器翻译模型是无法确定哪个翻译结果是最优的。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种机器翻译方法，该方法可以提高翻译结果的准确度。

本发明的另一个目的在于提出一种机器翻译装置。

为达到上述目的，本发明第一方面实施例提出的机器翻译方法，包括：获取待翻译的文本；获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的；采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

本发明第一方面实施例提出的机器翻译方法，通过采用基于外部世界场景信息确定的机器翻译模型进行翻译，可以在翻译时考虑外部世界场景信息因素，得到更符合外部世界场景的翻译结合，提高翻译结果的准确度。

为达到上述目的，本发明第二方面实施例提出的机器翻译装置，包括：第一获取模块，用于获取待翻译的文本；第二获取模块，用于获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的；翻译模块，用于采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

本发明第二方面实施例提出的机器翻译装置，通过采用基于外部世界场景信息确定的机器翻译模型进行翻译，可以在翻译时考虑外部世界场景信息因素，得到更符合外部世界场景的翻译结合，提高翻译结果的准确度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的机器翻译方法的流程示意图；

图2是本发明实施例中建立机器翻译模型的流程示意图；

图3是本发明实施例中翻译结果的示意图；

图4是本发明另一实施例提出的机器翻译方法的流程示意图；

图5是本发明实施例中采用一种用户设备时的机器翻译方法的流程示意图；

图6是本发明实施例中采用另一种用户设备时的机器翻译方法的流程示意图；

图7是本发明实施例中一种应用场景示意图；

图8是本发明另一实施例提出的机器翻译方法的流程示意图；

图9是本发明另一实施例提出的机器翻译装置的结构示意图；

图10是本发明另一实施例提出的机器翻译装置的结构示意图；

图11是本发明另一实施例提出的机器翻译装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的机器翻译方法的流程示意图，该方法包括：

S11：获取待翻译的文本。

可选的，所述获取待翻译的文本，包括：

接收文本信息，将所述文本确定为待翻译的文本；或者，

接收语音信息，对所述语音信息进行语音识别，将语音识别结果确定为待翻译的文本；或者，

接收图片信息，对该图片信息进行光学字符识别(Optical Character Recognition，OCR)识别，将OCR识别结果确定为待翻译的文本。

待翻译的文本可以包括至少一个字符，例如，待翻译的文本是字，词或者句子。

S12：获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的。

可选的，S11之前还可以包括：建立机器翻译模型。

参见图2，所述建立机器翻译模型可以包括：

S21：获取外部世界场景信息。

其中，可以采用用户使用的设备，对所述用户所在外部世界场景进行识别，得到所述外部世界场景信息，所述用户使用的设备包括：可穿戴设备，或者，移动设备。移动设备例如智能手机，平板电脑等。

例如，采用用户使用的设备上的摄像头，对外部世界场景进行拍摄，得到图片，之后对图片进行识别，可以得到外部世界场景信息，外部世界场景信息例如为外部世界场景中包含的事物的分类信息，例如，外部世界场景中包括人脸，相机等信息时，可以确定分类信息是摄影；或者，外部世界场景中包括枪械，军服等信息时，可以确定分类信息是军事；或者，外部世界场景中包括球拍，球棒等信息时，可以确定分类信息是体育运动。

S22：建立语言模型以及建立短语翻译模型，其中，所述语言模型和/或所述短语翻译模型是根据所述外部世界场景信息建立的。

其中，语音模型可以是对传统的n元(n-gram)语言模型进行处理后得到的。为了更好的理解本发明，首先对现有技术中的传统n元语言模型进行说明。

n-gram语言模型(n元语言模型)中当前词出现的概率仅和其左边的n-1个词有关系。当n取1、2、3时，n-gram模型分别称为unigram(一元语言模型)、bigram(二元语言模型)和trigram语言模型(三元语言模型)。n越大，语言模型越准确，计算也越复杂，计算量也越大。最常用的是bigram，其次是unigram和trigram，n取大于等于4的情况较少。当n-gram语言模型用到中文网页的时候，得到汉语n元语言模型；当n-gram语言模型用到英文网页的时候，得到英语n元语言模型。例如当n取值为2的时候，当前词的出现的概率仅和其前一个词有关系。例如对于句子：

S＝张三董事长发表了四个优先重要指示的讲话。

在2元语言模型下，该句子的概率(衡量该句子的正确性的度量)为：

这里<s>和</s>，是两个人工构造的词，分别代表了句子的开始和结尾。其目的是判断“张三”作为句子开头词的概率，和“。”句号作为句子接尾词的概率。

如果是在3元语言模型下，该句子的概率是：

这里，2元模型中一个概率的计算方法为：

P(董事长|张三)＝count(张三董事长)/count(张三)

分子是，“张三董事长”在训练语料(例如大规模网络语料)中出现的频次；分母是“张三”在训练语料中出现的频次。

相应地，3元模型中一个概率的计算公式为：

P(发表|张三,董事长)＝count(张三董事长发表)/count(张三董事长)

这里的分子是“张三董事长发表”在训练语料中出现的频次，而分母是“张三董事长”在训练语料中出现的频次。

上面是对传统的n元语言模型的描述。

本实施例中，可以采用外部世界场景信息确定语言模型，可以称为基于外部世界场景信息的n元语言模型，本实施例的机器翻译模型中最终采用的语言模型可以是用基于外部世界场景信息的n元语言模型替代传统的n元语言模型，或者，可以根据基于外部世界场景信息的n元语言模型和传统的n元语言模型得到处理后的语言模型，将该处理后的语言模型确定为机器翻译模型中最终采用的语言模型。

本实施例中，基于外部世界场景信息的n元语言模型的数学建模公式可以是：

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t)

其中，e表示目标语言句子，例如“给我进攻击球/向我进攻击球”；t表示的是根据外部应用场景的图形图像信息所识别出来的具体的场景分类，例如“摄影”，“军事”，“运动/体育”这样的标签。P(e,t)代表的是e和t的联合概率；P(e|t)表示的是在“外部场景分类标签”t给定的前提下，一个具体的翻译e的概率，其中，概率越大，越有可能作为最佳候选返回给用户；P(t)表示的是，“外部场景分类标签”t在给定外部图形图像(例如，球拍，球棒，圆球等，摄像头获取并让图形识别模块所识别出来的具体的物体的标签)给出的情况下，外部世界属于一个具体的标签t(例如，体育/运动)的概率。

通过这个概率模型，我们认为可以把外部图形图像信息很好地融入到机器翻译模型中去，如下是传统的机器翻译模型：

P(e|f)＝arg max_e P(f|e)P(e)

其中，e表示目标语言的句子，例如“给我进攻击球/向我进攻击球”，f表示源语言的句子，例如“give me a shot”；arg max_e表示在空间“P(f|e)P(e)”中寻找最匹配的那个目标语言的句子e。

该公式中的P(e)，将从传统的n元语言模型，修改为：

简单拿“基于外部世界场景标签的n元语言模型”来替换掉传统的n元语言模型特征；或者，

让“基于外部世界场景标签的n元语言模型”和传统的n元语言模型特征共存。

基于外部世界场景标签的n元语言模型的公式是：

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t)

下面给出为计算出P(e)，所需要的两种概率P(e|t)和P(t)在大规模训练数据中的估计方法：

P (e | t) = P (w_{1} | t) \cdot P (w_{2} | w_{1}, t) . . . P (w_{i} | w_{i - n - 1}^{i}, t)

其中，w₁,w₂…是出现在句子e中的单词，例如“向我进攻击球”这个句子可以被切分成“向我进攻击球”这几个词；表示的是n个词的序列，即从w_i-n+1到w_i。这里采用极大似然估计来估算每个即：

P_{MLE} (w_{i} | w_{i - n + 1}^{i - 1}, t_{e}) = \frac{Count (w_{i - n + 1}^{i}, t_{e})}{Count (w_{i - n + 1}^{i - 1}, t_{e})}

其中，MLE表示最大似然估计(maximum likelihood estimation)，Count表示和t_e共同在训练数据集合中出现的次数，t_e表示对于给定句子e，其具体的分类标签t。例如，“进攻击球”和“体育/运动”共同在训练数据集合中出现的次数。

这种训练数据，例如，可以在体育网站的网页上，通过网页的分类标签，例如“体育/运动”和网页中出现的“进攻”，“击球”，“进攻击球”等词语的频次来统计得到。其他的各种分类标签所对应的训练语料数据，通过类似的方法获取。

需要强调的一点是，本发明所涉及的是可以online(在线)更新的。即旧有的模型，可以简单加入新的训练语料数据，实现动态的时效性更新。例如，对于一个概率：P(董事长|张三)＝count(张三董事长)/count(张三)。随着新的训练语料的收集，“张三”和“张三董事长”的出现次数会分别增加，这样，就可以根据旧有的数据来更新如下：

P(董事长|张三)＝(count(张三董事长)+x)/(count(张三)+y)

如上公式中，x表示“张三董事长”新出现的次数；y表示“张三”新出现的次数。合起来，该概率是衡量“张三”后边接“董事长”的概率。

在得到上述的基于外部世界场景信息的n元语言模型后，可以对该模型替代传统n元语言模型，或者，与传统n元语言模型进行集成，具体可以通过线性对数(log-linear)模型集成在一起共为机器翻译模型所用。线性对数模型的表示方法为：

P_{r} (e | f) = p_{λ_{1}^{M}} (e | f) = \frac{\exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)]}{Σ_{e_{1}^{' I}} \exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e_{1}^{' I}, f)]}

这里的f表示输入语言的句子，e表示输出语言的句子；h_m(e,f)函数表示加在两个句子e和f上的特征函数，例如，e的语言模型概率；f和e的短语翻译概率；e和f中词的个数等。因为该模型不限制特征函数的数目和类型，并且通过权重λ_m来控制各个特征函数在最终翻译的过程中的贡献权重。

上述描述了机器翻译模型中的语言模型，机器翻译模型中的另一模型是短语翻译模型P(f|e)。

本实施例中，短语翻译模型也可以基于外部世界场景信息确定。本实施例的基于外部世界场景信息的短语翻译模型P(f|e)的表达式可以是：

P(f|e)＝∑_t(P(f|e,t))＝∑_t,we,wf(P(wf|we,t))

该公式中，e表示目标语言句子，f表示输入的源语言句子，t表示外部世界场景标签；we表示e中的单词或者短语的序列，wf表示f句子中的单词或者短语的序列。这里可以看到，在具体估计P(wf|we,t)的时候，可以分门别类地对不同分类(例如，“摄影”，“军事”，“体育运动”等)下的双语训练数据进行分类并本别训练本领域下的短语翻译模型。

S23：根据所述语言模型和所述短语翻译模型，建立所述机器翻译模型。

机器翻译模型P(e|f)＝arg max_e P(f|e)P(e)，

其中，用如下的模型替换传统模型：

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t),

或者与传统n元语言模型集成；

P(f|e)＝∑_t(P(f|e,t))＝∑_t,we,wf(P(wf|we,t))。

S13：采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

在得到基于外部场景信息的语言翻译模型后，可以基于外部场景信息得到对应的翻译结果。

例如，参见图3，当待翻译的文本31是give me a shot时，摄像头获取的外部图像信息32是：人脸，相机等，或者，枪械，军服等，或者，球拍，球棒等，根据摄像头得到的信息确定的分类信息33对应是：摄像，军事，体育运动，因此，结合相应的分类信息，得到翻译结果34分别是：照相，射击，或者，进球。

本实施例通过采用基于外部世界场景信息确定的机器翻译模型进行翻译，可以在翻译时考虑外部世界场景信息因素，得到更符合外部世界场景的翻译结合，提高翻译结果的准确度。

图4是本发明另一实施例提出的机器翻译方法的流程示意图，该方法以语音输入为例，该方法包括：

S41：用户设备获取源语言声音信号，以及获取外部世界图像信息。

例如，用户设备上设置麦克风，用户可以通过麦克风接收源语言声音信号，以及，用户设备上可以设置摄像头，通过摄像头拍摄获取外部世界图像信息。

S42：云端进行语音识别，得到语音识别结果，以及，图像标志系统得到分类信息。

例如，用户设备将语音和外部世界图像信息发送给云端，云端得到语音识别结果，例如为give a shot，以及获取外部世界图像信息的分类信息，例如，当前的外部世界场景属于摄影，军事或者体育运动。

S43：云端预先进行训练，得到机器翻译模型。

具体的训练过程以及得到的作为机器翻译模型的训练模型，会考虑外部世界场景信息，具体参见上述实施例，不再赘述。

S44：云端根据预先建立的机器翻译模型以及当前的语音识别结果，进行解码，得到翻译结果。

其中，云端结合外部场景信息得到目标语言语句。

例如，源语言是英文，目标语言是中文，语音识别结果是give a shot，当前的外部世界场景信息是摄影，则得到翻译结果是照相。

S45：将翻译结果生成输出语音。

例如，采用声音生成系统，将文本照相转换为语音。

S46：用户设备播放输出语音。

例如，用户设备是可穿戴设备或者移动设备，采用用户设备的扬声器进行输出语音的播放。

参见图5以及图6，分别以用户设备是可头戴式显示设备和可携带的智能计算设备，说明了语音输入以及翻译以及输出语音的流程。

参见图5，该方法包括：

S51：用户开启“可头戴式显示设备”上的机器翻译系统，指定输入语言以及输出语言。

S52：用户通过“可头戴式显示设备”的麦克输入待翻译的句子。

S53：“可头戴式显示设备”的语音识别软件识别出该句子的文字形式，具体从语音符号到文字符号；其中，语音识别可在云端执行。并且，“可头戴式显示设备通过摄像头捕捉外部世界的图像信息，外部世界的标签信息传递给一起翻译模型。

S54：云端机器翻译模型返回翻译结果，该结果是文字形式。

S55：“可头戴式显示设备”的语音生成软件把文字转换成语音信号返回给用户；其中，语音生成可在云端执行。

参见图6，该方法包括：

S61：用户开启“可携带的智能计算设备”上的机器翻译系统，指定输入语言以及输出语言。

S62：用户通过“可携带的智能计算设备”的麦克输入待翻译的句子。

S63：“可携带的智能计算设备”的语音识别软件识别出该句子的文字形式，具体从语音符号到文字符号；其中，语音识别可在云端执行。并且，“可携带的智能计算设备通过摄像头捕捉外部世界的图像信息，外部世界的标签信息传递给一起翻译模型。

S64：云端机器翻译模型返回翻译结果，该结果是文字形式。

S65：“可携带的智能计算设备”的语音生成软件把文字转换成语音信号返回给用户；其中，语音生成可在云端执行。

参见图7，给出了本发明实施例的一个适用场景。

一个美国人和一个中国人在打乒乓球。美国人只会说英文，中国人只会说中文。本实施例以用户设备是可头戴式显示设备为例。他们都佩戴有本发明实施例所涉及的“可头戴式显示设备”。之后可以执行如下流程：

设定可头戴式显示设备的使用者的一方是，英文为母语；另外的一方是中文为母语。

当美国人说“give me a shot”的时候，其真实的意图是“给我杀一板过来/请进攻”这样的意思。而直接识别该英文语音，并且翻译为中文的时候，遇到问题在于，shot有多个意思，例如，“照相”，“射击”，和“进球”等。则，“give me a shot”可以分别翻译成“给我照相”，“给我打一枪”，和“给我进攻击球”等意思。如果翻译系统本身不借助外力，单靠自身的训练模型的话，只能按照训练数据集合中哪个最常用，来返回翻译结果。很显然，这种翻译需要和具体的“外部世界的场景”想匹配。扩展开来，所有的基于口语的，即基于语音识别的翻译，都需要把“外部世界的场景”引入进来，作为最佳翻译答案选择的一个重要的前提条件。例如：

当可头戴式显示设备的外部摄像头读入并识别图像，当识别出“人脸，相机”等图像物体的时候，则最佳翻译应该是“给我照相”；或者，

当识别出“枪械，军服”等图像物体的时候，则最佳翻译应该是“给我打一枪”；或者，

当识别出“球拍，球棒，球桌，圆球/椭圆球”等图像物体的时候，则最佳翻译应该是“给我进攻击球/向我进攻击球”。

更进一步，需要强调的是，这种依靠外部图形图像信息来对机器翻译模型的革新，不仅仅适用于可头戴式显示设备。其他任何同时具有摄像头探测外部世界，和语音输入(例如麦克)输出(例如扬声器，耳机接口)等的移动计算设备上，都可以运行本发明所涉及的翻译系统。

这里，需要强调的一点是，如果由于光线等问题，外部世界无法观察，则本发明实施例所涉及的翻译模型，将直接退化成传统的翻译模型，即外部图像信息失效。

本实施例通过采用基于外部世界场景信息确定的机器翻译模型进行翻译，可以在翻译时考虑外部世界场景信息因素，得到更符合外部世界场景的翻译结合，提高翻译结果的准确度。本实施例的用户设备可以是多种形式，并且可以与语音识别相结合。

图8是本发明另一实施例提出的机器翻译方法的流程示意图，该方法包括：

S81：获取待翻译的文本。

待翻译的文本可以是非用户语音的文本，例如，日语文本。

可头戴式显示设备可以获取外部的图像图形信息，并使用OCR识别出文字信息，得到日语文本。

S82：采用机器翻译模型，将待翻译的文本进行翻译，得到翻译结果。

机器翻译模型可以如上实施例描述建立，根据该模型可以得到翻译结果，例如，例如如果看到一个商店，其店名为“パソコン”，则直接翻译该日语，得到的是“电脑”这个词。

S83：获取用户的输入语音，并对输入语音进行语音识别，得到语音识别结果，以及，根据语音识别结果和翻译结合，对机器翻译模型进行修正。

用户的输入语音是用户语言，例如中文语音，通过语音识别模块，得到语音识别结果，例如，获取语音识别结果“买计算机，购物”等关键词。

在获取语音识别结果后，可以进行修正，例如，修正翻译结果“电脑”为“计算机”，并且亮化翻译结果提示给用户。

需要说明的是，语音识别结果不限于当前语音识别结果，还可以包括历史语音识别结果，例如，不限于用户“开口说话”的时候才能进行修正。

本实施例通过根据语音识别结果和翻译结果对机器翻译模型进行修改，可以进一步提高机器翻译模型的准确度，从而提高翻译准确度。

图9是本发明另一实施例提出的机器翻译装置的结构示意图，该装置90包括第一获取模块91、第二获取模块92和翻译模块93。

第一获取模块91用于获取待翻译的文本；

所述第一获取模块具体用于：

接收文本信息，将所述文本确定为待翻译的文本；或者，

接收图片信息，对所述图片信息进行OCR识别，将OCR识别结果确定为待翻译的文本。

第二获取模块92用于获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的。

可选的，参见图10，该装置还包括：

用于建立所述机器翻译模型的建立模块94，所述建立模块94包括：

第一单元941，用于获取外部世界场景信息；

第二单元942，用于建立语言模型以及建立短语翻译模型，其中，所述语言模型和/或所述短语翻译模型是根据所述外部世界场景信息建立的；

第三单元943，用于根据所述语言模型和所述短语翻译模型，建立所述机器翻译模型。

可选的，所述第一单元941具体用于：

采用所述用户使用的设备，对所述用户所在外部世界场景进行识别，得到所述外部世界场景信息，所述用户使用的设备包括：可穿戴设备，或者，移动设备。

可选的，当所述语言模型是根据所述外部世界场景信息建立时，所述第二单元842具体用于：

根据所述外部世界场景信息建立基于外部世界场景信息的语言模型，并将所述基于外部世界场景信息的语言模型确定为用于建立机器翻译模型的语言模型；或者，

根据所述外部世界场景信息建立基于外部世界场景信息的语言模型，以及，获取传统的语言模型，根据所述基于外部世界场景信息的语言模型和所述传统的语言模型，确定用于建立机器翻译模型的语言模型。

可选的，所述第二单元942进一步具体用于：

对所述基于外部世界场景信息的语言模型和所述传统的语言模型进行线性对数处理，将线性对数处理后的模型确定为用于建立机器翻译模型的语言模型。

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t)

P(e|f)＝arg max_e P(f|e)P(e)

该公式中的P(e)，将从传统的n元语言模型，修改为：

基于外部世界场景标签的n元语言模型的公式是：

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t)

P (e | t) = P (w_{1} | t) \cdot P (w_{2} | w_{1}, t) . . . P (w_{i} | w_{i - n - 1}^{i}, t)

P_{MLE} (w_{i} | w_{i - n + 1}^{i - 1}, t_{e}) = \frac{Count (w_{i - n + 1}^{i}, t_{e})}{Count (w_{i - n + 1}^{i - 1}, t_{e})}

P(董事长|张三)＝(count(张三董事长)+x)/(count(张三)+y)

P_{r} (e | f) = p_{λ_{1}^{M}} (e | f) = \frac{\exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e, f)]}{Σ_{e_{1}^{' I}} \exp [Σ_{m = 1}^{M} λ_{m} h_{m} (e_{1}^{' I}, f)]}

P(f|e)＝∑_t(P(f|e,t))＝∑_t,we,wf(P(wf|we,t))

第三单元943建立的机器翻译模型的表达式是：

P(e|f)＝arg max_eP(f|e)P(e)，

其中，用如下的模型替换传统模型：

P (e) = \underset{t}{Σ} P (e, t) = \underset{t}{Σ} P (e | t) \cdot P (t),

或者与传统n元语言模型集成；

P(f|e)＝∑_t(P(f|e,t))＝∑_t,we,wf(P(wf|we,t))。

翻译模块83用于采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

例如，参见图2，当待翻译的文本是give me a shot时，摄像头获取的外部图像信息是：人脸，相机等，或者，枪械，军服等，或者，球拍，球棒等，根据摄像头得到的信息确定的分类信息对应是：摄像，军事，体育运动，因此，结合相应的分类信息，得到翻译结果分别是：照相，射击，或者，进球。

可选的，所述待翻译的文本是非用户语言，翻译结果是用户语言，参见图11，该装置90还包括：

修正模块95，用于获取用户输入的用户语言的输入语音，所述输入语音包括：当前输入的输入语音，和/或，历史输入的输入语音；对所述用户语言的输入语音进行语音识别，得到语音识别结果；根据所述语音识别结果和所述翻译结果，对所述机器翻译模型进行修正。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器翻译方法，其特征在于，包括：

获取待翻译的文本；

获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的；

采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

2.根据权利要求1所述的方法，其特征在于，还包括：建立所述机器翻译模型，所述建立所述机器翻译模型，包括：

获取外部世界场景信息；

建立语言模型以及建立短语翻译模型，其中，所述语言模型和/或所述短语翻译模型是根据所述外部世界场景信息建立的；

根据所述语言模型和所述短语翻译模型，建立所述机器翻译模型。

3.根据权利要求2所述的方法，其特征在于，当所述语言模型是根据所述外部世界场景信息建立时，所述建立语言模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述基于外部世界场景信息的语言模型和所述传统的语言模型，确定用于建立机器翻译模型的语言模型，包括：

5.根据权利要求2所述的方法，其特征在于，所述获取外部世界场景信息，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述获取待翻译的文本，包括：

接收文本信息，将所述文本确定为待翻译的文本；或者，

7.根据权利要求6所述的方法，其特征在于，所述待翻译的文本是非用户语言，翻译结果是用户语言，所述方法还包括：

获取用户输入的用户语言的输入语音，所述输入语音包括：当前输入的输入语音，和/或，历史输入的输入语音；

对所述用户语言的输入语音进行语音识别，得到语音识别结果；

根据所述语音识别结果和所述翻译结果，对所述机器翻译模型进行修正。

8.一种机器翻译装置，其特征在于，包括：

第一获取模块，用于获取待翻译的文本；

第二获取模块，用于获取预先建立的机器翻译模型，其中，所述机器翻译模型是根据外部世界场景信息建立的；

翻译模块，用于采用所述机器翻译模型，对所述待翻译的文本进行翻译，得到翻译结果。

9.根据权利要求8所述的装置，其特征在于，还包括：用于建立所述机器翻译模型的建立模块，所述建立模块包括：

第一单元，用于获取外部世界场景信息；

第二单元，用于建立语言模型以及建立短语翻译模型，其中，所述语言模型和/或所述短语翻译模型是根据所述外部世界场景信息建立的；

第三单元，用于根据所述语言模型和所述短语翻译模型，建立所述机器翻译模型。

10.根据权利要求9所述的装置，其特征在于，当所述语言模型是根据所述外部世界场景信息建立时，所述第二单元具体用于：

11.根据权利要求10所述的装置，其特征在于，所述第二单元进一步具体用于：

12.根据权利要求9所述的装置，其特征在于，所述第一单元具体用于：

13.根据权利要求8-12任一项所述的装置，其特征在于，所述第一获取模块具体用于：

接收文本信息，将所述文本确定为待翻译的文本；或者，

14.根据权利要求13所述的装置，其特征在于，所述待翻译的文本是非用户语言，翻译结果是用户语言，所述装置还包括：

修正模块，用于获取用户输入的用户语言的输入语音，所述输入语音包括：当前输入的输入语音，和/或，历史输入的输入语音；对所述用户语言的输入语音进行语音识别，得到语音识别结果；根据所述语音识别结果和所述翻译结果，对所述机器翻译模型进行修正。