CN107798386A

CN107798386A - 基于未标注数据的多过程协同训练

Info

Publication number: CN107798386A
Application number: CN201610837511.8A
Authority: CN
Inventors: 贺笛; 刘铁岩; 秦涛
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-09-01
Filing date: 2016-09-01
Publication date: 2018-03-13
Anticipated expiration: 2036-09-01
Also published as: CN107798386B

Abstract

本公开的实施例涉及基于未标注数据的多过程协同训练。在利用一个转换过程将一种类型的信息转换为另一种不同类型的信息之后，确定利用逆向的转换过程将该信息转换回原始信息的可能性，继而至少部分地基于该可能性来更新互逆的转换过程中的至少一个。此种方式仅使用两种类型信息的未标注数据来训练，而无需两种类型信息的对齐的平行数据，从而既提高了训练效率，又显著降低了学习成本。

Description

基于未标注数据的多过程协同训练

背景技术

机器翻译(Machine Translation，简称MT)允许在无需用户介入的情况下利用计算机将一种语言的文本翻译成另一种语言的文本。当前的机器翻译系统通常使用如下两种翻译方式：一种是传统的基于短语的统计翻译方式，另一种是当前新兴的基于神经网络的翻译方式。这两种翻译方式都使用对齐的双语平行语料库，对两种语言之间的翻译模型进行单独训练。以中英文翻译系统为例，通常基于经过标注的中英文词句配对，分别对中文到英文的翻译模型以及英文到中文的翻译模型进行训练。

为了优化翻译的性能，例如得到较高的翻译准确性，往往需要大规模的训练数据。特别是在利用深度学习技术来训练翻译模型时，模型往往很复杂，需要的参数很多，因而所需的训练数据也相当多。然而，获得对齐的双语平行语料库的成本是很高的。同样的问题也广泛存在于需要利用对齐的、经过标注的数据样本来完成训练的其他模型或者过程中。

发明内容

发明人注意到，网络(例如Web)之类的信息源能够提供大量未标注数据，这些数据是很容易收集的。因此，不同于基于对齐标注样本库的传统机器学习方法，本公开的实施例所采用的是未标注数据。具体而言，在此提出了一种全新的基于多过程(或称多模型)循环反馈的训练机制。借助于这种循环反馈，两个或者更多互逆的转换过程可以在训练中被逐步优化。这在工作原理和机制上都显著不同于任何已知方案。

在一些实施例中，一个转换过程(或模型)被用来将第一类型的信息转换为不同的第二类型的信息。继而，获得的信息被输入逆向的转换过程，其可以将第二类型的信息转换回第一类型的信息。此时，可以确定逆向转换过程获得初始信息的可能性，这种可能性反应了这两个转换过程中至少一个的准确性。由此，可以至少部分地基于该可能性来更新互逆的转换过程中的一个或二者。此种方式，可以借助于未标注的数据来完成过程或模型的训练，而且对样本数据进行额外的对齐。这既提高了训练效率，又显著降低了学习成本。

提供发明内容部分是为了简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了根据本公开的某些实施例的示例训练过程；

图2示出了根据本公开的某些其他实施例的示例训练过程；

图3示出了根据本公开的某些实施例的方法的流程图；以及

图4示出了其中可以实施本公开的一个或多个实施例的计算系统/服务器的框图。

在所有附图中，相同或相似参考数字表示相同或相似元素。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在此使用的术语“对齐的数据”是指具有已标注的配对关系的不同类型的数据。已标注了配对关系的数据可用于相关类型的数据之间的转换，并且该配对关系可以用转换概率来指示。例如，在翻译系统的学习过程中，可以使用已标注了翻译概率的源语言词句和目标语言词句来训练翻译系统。

在此使用的术语“未标注数据”是指未与其他类型的数据建立配对关系的数据。未标注数据广泛存在于网络(例如Web)中，因而通常很容易搜集，而且数量很大。

在此使用的术语“某种类型的信息”或者“某种类型的数据”是指具有某种性质的信息或者数据。信息或数据的类型的示例包括而不限于，语种、语音、视频、图片、文本、或者文档、等等。

在此使用的术语“转换过程”是指在任意两种类型的信息或数据之间转换的过程。转换的示例包括而不限于，两种语言之间的翻译、语音与文本之间的转换、文本与图片之间的转换、或者文档与文本摘要之间的转换、等等。在本公开的上下文中，为讨论描述方便之目的，主要以不同语种之间的翻译过程作为转换过程的示例。通常，转换过程可以借助于相应的转换模型来实现。因此，在下文描述中有时将使用术语“模型”来指代相应的转换过程。

在此使用的术语“训练过程”或“学习过程”是指利用经验或者数据优化系统性能的过程。例如，机器翻译系统可以通过训练或学习过程，逐渐优化翻译性能，例如提高翻译准确性。在本公开的上下文中，为讨论方便之目的，术语“训练”或者“学习”可以互换使用。

在此使用的术语“语言模型”是指依据与特定语种的句法、语法、词法等等相关联的先验知识建立的模型，可以用于在翻译过程中对该语种的翻译结果进行验证。在此使用的术语“翻译模型”是指用于将一种语言翻译成另一种语言的模型。可以理解，语言模型和翻译模型是用来实现翻译过程这一特定类型的转换过程。

在此使用的术语“双语语料库”是指包含对齐的双语句对或者词对的语言材料的数据集，可以在翻译系统学习时用作训练数据。在此使用的术语“单语语料库”是指包含单语的语言材料的数据。

在此使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

如上所述，传统的机器翻译系统通常基于双语平行语料库来针对个体翻译模型单独训练。为了获得比较高的翻译准确性，整个训练过程需要大规模的训练数据。然而，双语平行语料库的生成成本很高。以中英文翻译为例，往往需要通晓中英文的专业翻译人员来制作中英双语的平行语料库。这耗费了很多人力和物力成本。另外，对于某些语种之间的翻译，可能因为专业翻译人员很少，而很难获得相关的双语数据。

然而，通过互联网(例如在Web中)可以找到很多未标注的单语数据。因而，可以很容易搜集到大量尚未配对的各语种的词句。如果能够利用单语数据来训练机器翻译系统，则不仅数据搜集成本会大大降低，而且可以获得很好的学习效果。

一种传统方法是使用单语语料库来训练语言模型，继而在通过双语平行语料库训练机器翻译模型时，利用语言模型来提高翻译质量。然而，此种方法仅使用单语数据来训练语言模型。对于翻译模型而言，还是使用双语平行数据来进行训练，因而没有从根本上解决双语平行数据短缺的问题。

另一种已知的方法是利用单语语料库生成伪双语句对。继而，在使用对准的平行语料库训练翻译模型时，可以使用这些伪双语句对来扩展平行语料库。这种方法虽然能够利用单语数据扩展双语平行数据，但是对于所生成的伪双语句对的质量缺乏保障和/或控制。

为至少部分地解决上述问题以及其它潜在问题，本公开的实施例提出了一种使用未标准数据来协同训练多个转换过程的方案。总体上，首先利用一个转换过程(称为“第一转换过程”)将一种类型(称为“第一类型”)的信息(称为“第一信息”)转换为另一种不同类型(称为“第二类型”)的信息(称为“第二信息”)。继而，确定利用另一转换过程(称为“第二转换过程”)将第二信息转换回第一信息的可能性。该第二转换过程与第一转换过程互逆。第一转换过程和/或第二转换过程可以至少部分地基于所确定的可能性而被更新。

考虑语言翻译的例子，根据本公开的实施例，可以将给定语言(例如，中文)的字词或句子输入第一转换过程(例如，中文到英文的第一翻译过程)，并且产生第二语言(例如，英文)的字词或句子。接下来，将得到的英文字词或句子输入第二转换过程。该第二转换过程与第一转换过程相反，例如是英文到中文的第二翻译过程。这样，可以确定借助于第二转换过程将英文字词或者句子转换回原始中文字词或者句子的可能性。如果这个可能性足够高，则说明两个转换过程的准确性均较高；反之，则说明这两个转换过程中至少有一个需要改进。为了进一步提高，在可选的实施例中，还可以将其他影响因素纳入考虑，这将在下文详述。

根据本公开的实施例，可以在不需要两种类型信息的对齐的平行数据的情况下，使用两种类型信息的未标注数据来更新(或训练)两种类型信息之间的转换过程。此种训练方式一方面提高了训练效率，另一方面大大降低了学习成本。

下面参考图1至图2来说明本公开的实施例的基本原理和若干示例实现。在下文描述中，某些实施例将参考语言翻译过程来讨论。但是应当理解，这仅仅是为了使本领域普通技术人员更好地理解本公开实施例的原理和思想，而无意以任何方式限制本公开的范围。

首先参考图1，其示出了根据本公开的某些实施例的示例训练过程100。如图所示，第一类型的第一信息102被输入到利用第一转换过程110，转换为与第一类型不同的第二类型的第二信息104。如上所述，第一转换过程110可以是翻译过程，第一信息102例如是源语言的词语或句子s_A，而第二信息104是目标语言的词语或句子s_mid。

可以通过任何适当的方式来实现第一转换过程110。作为示例，对于翻译过程而言，可以首先使用双语平行语料库训练得到的热启动翻译模型，继而利用热启动翻译模型来执行从源语言到目标语言的第一转换过程。基于双语平行语料库训练翻译模型的方法在本领域中是已知的，故在此不再赘述。

备选地，在某些其他实施例中，可以不使用热启动翻译模型，而使用冷启动翻译模型。例如，可以不使用双语平行语料库，而借助单语预料库随机地将源语言的词语或句子s_A翻译成目标语言的词语或句子s_mid。

特别地，在本公开的某些实施例中，可以利用第一转换过程110将源语言的词语或句子s_A翻译成目标语言的词语或句子s_mid的多个候选s_mid，1，...，s_mid，n(总称为s_mid)，其中n为任意适当自然数，表示候选的数目。例如，在将一个中文字词或句子作为第一信息102输入第一转换过程110的情况下，可能产生不止一个可能的英文翻译作为第二信息104。当得到多个候选时(n＞1)，可以基于这些候选来训练翻译过程，这方面的实施例将在后文描述。

获得的第二信息104被输入第二转换过程120，从而确定将第二信息104转换回第一信息102的可能性(记为“P”)。在第二转换过程120是翻译过程的实施例中，类似于第一转换过程110，也可以基于热启动或者冷启动翻译模型来执行。

可以使用任意适当方式来确定可能性P。在某些实施例中，可以直接计算第二转换过程120将第二信息104转换回第一信息102的概率。仍然考虑翻译过程作为示例，目标语言的词语或句子s_mid被翻译回源语言的词语或句子s_A的概率P(s_A|s_mid)可被计算以指示可能性P。

备选地，在其他实施例中，可以通过第二转换过程120将第二信息104显式地转换回第一类型的第三信息106。例如，目标语言的词语或句子s_mid可被翻译回源语言的词语或句子s_A’。而后，可以通过比较第一信息102与第三信息106来间接地表示概率P。上述方面的示例实施例都将在后文描述。

在确定可能性P之后，根据本公开的实施例，至少部分地基于该可能性P来更新第一转换过程110和/或第二转换过程120。以此方式，不需要对齐的双语语料库之类的样本数据。相反，根据本公开的实施例，仅利用未标注的样本数据就能实现对转换过程的优化，因而效率更高，应用范围更广。

可以理解，上述更新实质上是一个优化的过程，优化目标就是使可能性P尽可能最大化。在实现中，可以基于可能性P与转换过程之间的任意适当关联来实现对转换过程的更新。任何目前已知或者将来开发的优化方法均可在此使用。例如，在直接计算概率的那些实施例中，可以采用使概率P(s_A|s_mid，θ_BA)最大化的方式来实现更新，其中θ_BA是第二转换过程的优化参数。

特别地，在某些实施例中，第一转换过程110与第二转换过程120可以被一起更新。例如，在利用第一转换过程110将源语言的词语或句子s_A翻译成目标语言的词语或句子s_mid的多个候选s_mid，1，...，s_mid，n(n＞1)的实施例中，可以确定这些候选s_mid，1，...，s_mid，n出现的可能性。这些可能性可以表示为相应的概率P(s_mid，k|s_A，θ_AB)(k＝1，...，n，并且θ_AB是第一转换过程的优化参数)。继而，可以将概率P(s_mid，k|s_A，θ_AB)和P(s_A|s_mid，θ_BA)的组合最大化作为优化目标，从而同时更新第一和第二转换过程。这方面的具体示例将在后文描述。当然，应当理解，第一和第二转换过程110和120并非一定要同时更新。在其他实施例中，只更新二者之一是完全可行的。

根据本公开的实施例，除了上述可能性P之外，还可以考虑其他因素来更新第一转换过程110和/或第二转换过程120。例如，在一些实施例中，可以验证从第一信息102(例如，源语言的词语或句子s_A)转换而来的第二信息104(例如，目标语言的词语或句子s_mid)是否满足与相对应的信息类型相关联的先验知识。例如，在语言转换的例子中，可以验证得到的翻译词语或句子S_mid是否符合目标语言的语法、句法、或者词法等先验知识。继而，基于验证结果以及所确定的可能性P二者，来更新第一转换过程110和/或第二转换过程120。

举例而言，在利用第一转换过程110将源语言的词语或句子s_A翻译成目标语言的词语或句子的n个候选s_mid，1，...，s_mid，n之后，可以利用基于目标语言的语法、句法、词法等来构建的语言模型来验证这n个候选，并且得到相应的验证结果LM_B(s_mid，k)(k＝1，...，n)。此时，可以将P(s_mid，k|s_A，θ_AB)、P(s_A|s_mid，θ_BA)和LM_B(s_mid，k)的组合最优作为优化目标，来更新第一和第二转换过程110和120。

下面结合基于神经网络的机器翻译系统的学习过程，来讨论一个具体的示例。在此类机器翻译系统的学习过程中，通常需要学习确定从源语言的词语或句子s_A到目标语言的词语或句子s_mid的概率。举例而言，并且其中x_i(i＝1，...，T_x)表示源语言的词语或句子s_A中的第i个项(例如，短语)，并且y_t(t＝1，...，T_y)表示目标语言的词语或句子s_mid中的第t个项。传统上，针对目标语言的词语或句子s_mid中的每个项y_t，计算在该项y_t之前的项y_＜t给定的情况下的条件概率P(y_t|y＜_t.x)。该条件概率表明在y_＜t出现的情况下随后出现y_t的可能性。

在基于神经网络的机器翻译系统的传统优化过程中，作为翻译系统的优化目标的参数θ的优化算法如下：

其中D表示包含双语句对的训练数据集，(x，y)表示其中的训练数据样本，θ^*是参数θ的最优值，并且log表示对数运算。

根据本公开的实施例，使用两个独立的单语数据集D_A和D_B代替传统方式中的双语数据集D来训练机器翻译系统。作为示例，D_A包含A语言的句子，D_B包含B语言的句子，这两个单语数据集D_A和D_B彼此之间可以不具有任何关联。下面说明具体的训练算法。

在此算法中，用P(.|s：θ_AB)和P(.|s：θ_BA)分别表示从A到B以及从B到A的翻译模型，其中θ_AB表示A到B的翻译模型的优化参数，而θ_AB表示B到A的翻译模型的优化参数。除了两个翻译模型，在此示例中，还使用A和B两种语言的语言模型LM_A(.)和LM_B(.)，这两个语言模型可以分别使用相应的单语语料库(例如，D_A和D_B)，通过训练得到。这两个语言模型可以对相应语言的句子进行验证。例如，当向A语言模型LM_A(.)输入A语言的词语或句子时，可以输出一个实值，用来指示这个句子是否满足A语言的语法、句法、词法等先验知识。

在一个实施例中，优化过程的算法流程如下：

1.从A语言语料库D_A获取A语言的词语或句子s_A。

2.设置s＝s_A。

3.使用第一翻译模型P(.|s；θ_AB)将A语言的词语或句子s_A翻译成K个概率最高的B语言的词语或句子s_mid，1，...，s_mid，K。

4.使用B语言模型LM_B(.)对这K个句子分别进行验证，并且得到验证结果，即r_1，k＝LM_B(s_mid，k)，k＝1，...，K。

5.确定K个B语言的词语或句子s_mid，1，...，s_mid，K分别通过第二翻译模型P(.|s；θ_BA)翻译回A语言的可能性，即r_2，k＝log P(s|s_mid，k；θ_BA)。

6.第k个B语言的词语或句子的优化目标为r_k＝αr_1，k+(1-α)r_2，k，α表示超参数。

7.计算优化目标的期望E[r]针对参数θ_AB和θ_BA的随机梯度：

8.更新模型，其中γt表示学习速率：

在此示例中，P(.|s；θ_AB)和P(.|s：θ_BA)满足指数分布。相应地，如上所示，在优化过程中使用对数概率，例如log P(s|s_mid，k：θ_BA)和log P(s_mid，k|s：θ_AB)，来指示相关联的可能性。另外，在此示例中，以可能性和验证结果的线性组合作为优化目标，例如r_k＝αr_1，k+(1-α)r_2，k，作为优化目标。应当理解，这些仅仅示例而非限制。其他概率形式以及优化形式也是可行的。

在某些实施例中，上述优化过程中涉及的步骤1至8可以重复进行，直到得到收敛的优化结果为止。而且，还可以从B语言的词语或句子s_B开始执行优化。例如，首先使用第二翻译模型P(.|s；θ_BA)将s_B翻译成L个A语言的词语或句子，再基于这L个A语言的词语或句子确定优化目标，继而更新两个翻译模型的优化参数θ_AB和θ_BA。具体过程与上述步骤1至8类似，故不再赘述。

与机器翻译系统的传统学习方式相比，根据本公开的实施例的翻译系统的学习方式既节约了成本，又获得了很高的翻译准确性，从而提高了翻译系统的优化效率。下面的表1示出了采用上述算法训练翻译模型的方法(称为“CMT”)与两种基于双语语料库的传统方法的性能对比。一种传统方法(称为“NMT”)是基于神经网络的机器翻译模型的标准学习方式，而另一种传统方法(称为“NMT-pseudo”)是在该标准学习方式NMT的基础上利用通过单语语料库生成的伪双语句对来对翻译模型进行辅助训练。

表1

表1示出了使用上述三种方法对英文和法文之间的翻译模型进行训练得到的双语评估替代(Bilingual Evaluation Understudy，BLEU)得分。根据本公开的上述算法所涉及的各参数被设置如下：

●使用第一翻译模型P(.|s：θ_AB)得到两个概率最高B语言的词语或句子s_mid，1和s_mid，2

●超参数α＝0.01

●学习速率γt＝0.02

表1的前两列提供了三种方法使用双语平行数据集中100％的已标注句对训练的得分，而后两列提供了使用该数据集中5％的已标注句对训练的得分。在使用数据集中100％的已标注句对训练时，根据本公开的实施例的CMT方法，首先使用这些已标注句对训练得到的初始翻译模型，继而根据未标注单语数据集来优化两个翻译模型。与传统的NMT和NMT-pseudo方法相比，分别提高了1.6和1.3个点。

在使用数据集中5％的已标注句对训练时，根据本公开的实施例的CMT方法，在使用5％的已标注句对训练得到初始翻译模型之后，继续基于未标注单语数据集优化两个翻译模型。与传统方法相比，获得了显著的性能改善。特别地，此时CMT方法的BLEU得分与使用100％已标注句对训练的传统的NMT和NMT-pseudo方法相当，但是却节省了95％的双语数据量。

除了基于神经网络的翻译系统，本公开的实施例也可以应用于基于短语之类的项的统计翻译系统。这种系统通常使用两种语言的短语(例如，源语言的项x_i和目标语言的项y_t)之间的翻译概率作为翻译模型的参数。例如，针对源语言的词语或句子确定其中的每个项x_i翻译到目标语言的项y_t的概率为θ_it。继而，可以例如以使目标语言的短语组合翻译回源语言的词语或句子s_A的概率最大的方式来更新各个源语言项x_i到目标语言项y_t的翻译概率θ_it。同样，可以结合相应语言模型来实现该更新。下面描述一个具体示例。

在此示例中，源语言的词语或句子s_A包括两个短语x₁x₂，每个短语可以按照如下概率翻译为目标语言的两个项：

●x₁→y₁：θ₁₁

●x₁→y₂：θ₁₂

●x₂→y₃：θ₂₃

●x₂→y₄：θ₂₄

则词语或句子x₁x₂翻译成由目标语言的四个项y₁、y₂、y₃、y₄组成的四个候选的词语或句子y₁y₃、y₁y₄、y₂y₃、y₂y₄的概率如下：

可以基于目标语言到源语言的翻译模型和目标语言的语言模型确定四个候选句子y₁y₃、y₁y₄、y₂y₃、y₂y₄的得分。在此示例中，y₁y₃的得分最高。相应地，将θ₁₁和θ₂₃被增加，而将θ₁₂和θ₂₄降低。以此方式，经过多轮的学习，可以逐步优化翻译模型。

在上面的示例中，可以理解，在确定概率P的过程中，第二转换过程120并不需要实际输出转换结果。也就是说，参考图1，第二转换过程120没有输出甚至产生第三信息106。作为示例，第二语言的词语或句子S_mid未被实际翻译为第一语言的词语或句子输出。与此不同，在另一些实施例中，可以利用第二转换过程120将第二信息104转换成第一类型的第三信息106。例如，目标语言的词语或句子s_mid翻译回源语言的词语或句子(记为s_A’)。继而，将s_A’与s_A进行比较，以便借助二者的一致性来指示可能性P。换言之，此时，可能性P由第一信息102与第三信息106之间的一致性隐式地表示，而不是由概率直接体现。

为讨论目的，仍然假设第一转换过程将源语言的词语或句子s_A翻译成目标语言的词语或句子的多个候选s_mid，1，...，s_mid，n(n＞1)。此时，可以利用第二转换过程120将这n个候选s_mid，1，...，s_mid，n翻译成相应的源语言的词语或句子s_A，1’，...，s_A，n’。继而，可以比较s_A，1’，...，s_A，n’与s_A的一致性。一致性的比较例如可以借助于字符串的比较来实现，也即，相似度越高的两个字符串具有越高的一致性。词法分析、句法分析、语义分析等任何适当的技术均可在此应用。一致性最高的s_A，p’(p＝1，...，n)所对应的s_mid，p即具有最高可能性。继而，可以相应地更新转换过程。此时，优化的目标是尽可能提升第一信息102与第三信息106之间的一致性。具体的更新过程与上面描述的类似，在此不再赘述。

此外，应当理解的是，虽然图1示出了两个转换过程110和120，然而这仅仅是示例而非限制。本公开的实施例可以涉及任意数目的转换过程。图2示出了第二转换过程包括多个转换子过程的示例。在此示例中，第二转换子过程120包括两个转换子过程，即第一转换子过程210和第二转换子过程220。作为示例，如上所述，第一转换过程110可以是源语言(例如A语言)到目标语言(例如B语言)的翻译过程，第一转换子过程210可以是B语言到C语言的翻译过程，并且第二转换子过程220是C语言到A语言的翻译过程。

在利用第一转换过程110将第一信息102(例如，A语言的词语或句子s_A)转换成第二信息104(例如，B语言的词语或句子s_mid)之后，第一转换子过程210将第二信息104转换为第四信息202，其类型不同于第一信息102和第二信息104。例如，B语言的词语或句子s_mid被翻译成C语言的句子s_mid’。

接下来，确定利用第二转换子过程220将第四信息202转换回第一信息102的可能性，并且基于该可能性更新第一转换过程110、第一转换子过程210和第二转换子过程220中的至少一个。可能性的确定过程以及更新过程与上面参考图1描述的类似，在此不再赘述。应当注意，可以包括任何适当数目的子过程，本公开的范围不限于此。

图3示出了根据本公开的某些实施例的计算机实施的方法300的流程图。如图所示，在305，利用第一转换过程110将第一类型的第一信息102转换为第二类型的第二信息104。第一类型不同于所述第二类型。在310，确定利用第二转换过程120将第二信息104转换回第一信息102的可能性。在315，至少部分地基于可能性，更新第一转换过程110和第二转换过程120中的至少一个。注意，上文结合图1和图2所描述的特征均适用于方法300，在此不再赘述。

图4示出了其中可以实施本文所描述主题的一个或多个实施例的示例计算系统/服务器400的框图。图1和图2所示的过程100和200以及图3所示的方法300可以由计算系统/服务器400实现。图4示出的计算系统/服务器400仅是示例，其不应当构成对本文所描述的实现的使用的功能和范围的限制。

如图4所示，计算系统/服务器400是通用计算设备的形式。计算系统/服务器400的组件可以包括但不限于一个或多个处理器或处理单元400，存储器420，一个或多个输入设备430，一个或多个输出设备440，存储装置450，和一个或多个通信单元460。处理单元400可以是实际或虚拟处理器并且能够根据存储器420中存储的持续来执行各种处理。在多处理系统中，多处理单元执行计算机可执行指令，以增加处理能力。

计算系统/服务器400通常包括多个计算机介质。这样的介质可以是计算系统/服务器400可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器420可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储装置450可以是可拆卸或不可拆卸，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息并且可以在计算系统/服务器400内被访问。

计算系统/服务器400可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性计算机系统存储介质。尽管未在图4中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线18。存储器420可以包括至少一个程序产品，具有(例如至少一个)程序模块集合，这些程序模块被配置为执行本文所描述的各种实施例的功能。

具有一个或多个训练模块424的集合的程序/实用程序工具422可以被存储在例如存储器420中。训练模块424可以包括但不限于操作系统、一个或多个应用程序、其他程序模块和操作数据。这些示例中的每个示例或特定组合可以包括联网环境的实现。训练模块424通常执行本文所描述的主题的实施例的功能和/或方法，例如方法200。

输入单元430可以是一个或多个各种输入设备。例如，输入单元439可以包括用户设备、诸如鼠标、键盘、追踪球等。通信单元460实现在通信介质上向另外的计算实体进行通信。附加地，计算系统/服务器400的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接来通信。因此，计算系统/服务器400可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。例如但不限于，通信介质包括有线或无线联网技术。

计算系统/服务器400还可以根据需要与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等等，与一个或多个使得用户与计算系统/服务器400交互的设备进行通信，或者与使得计算系统/服务器400与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的硬件逻辑组件的示意性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

用于实施本文所描述的主题的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开内容的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本文所描述的主题的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

以下列出了本公开的一些示例实现。

在某些实施例中，提供了一种计算机实现的方法。该方法包括：利用第一转换过程将第一类型的第一信息转换为第二类型的第二信息，第一类型不同于第二类型；确定利用第二转换过程将第二信息转换回第一信息的可能性；以及至少部分地基于可能性，更新第一转换过程和第二转换过程中的至少一个。

在某些实施例中，第一转换过程包括从第一语言到第二语言的第一转换过程，并且第二转换过程包括从第二语言到第一语言的第二转换过程。

在某些实施例中，更新包括：验证第二信息是否满足与第二类型相关联的先验知识；以及基于可能性和验证的结果来更新第一转换过程和第二转换过程中的至少一个。

在某些实施例中，转换包括：基于第一转换过程，将第一信息转换为第二信息的多个候选。

在某些实施例中，确定包括：确定利用第二转换过程将第二信息的多个候选转换回第一信息的第一组多个可能性。

在某些实施例中，更新包括：至少部分地基于第一组多个可能性来更新第一转换过程和第二转换过程中的至少一个。

在某些实施例中，更新包括：确定第一信息转换为第二信息的多个候选的第二组多个可能性；以及至少部分地基于第一组多个可能性和第二组多个可能性来更新第一转换过程和第二转换过程二者。

在某些实施例中，确定包括：利用第二转换过程将第二信息转换为第一类型的第三信息；以及确定第三信息与第一信息的一致性以指示所述可能性。

在某些实施例中，第二转换过程包括第一转换子过程和第二转换子过程，确定包括：利用第一转换子过程将第二信息转换为第三类型的第四信息，第三类型不同于第一类型和第二类型；以及确定利用第二转换子过程将第四信息转换回第一信息的可能性。

在某些实施例中，提供了一种设备。该设备包括：处理单元；存储器，耦合至处理单元并且存储有指令，指令在由处理单元执行时执行以下动作：利用第一转换过程将第一类型的第一信息转换为第二类型的第二信息，第一类型不同于第二类型；确定利用第二转换过程将第二信息转换回第一信息的可能性；以及至少部分地基于可能性，更新第一转换过程和第二转换过程中的至少一个。

在某些实施例中，第一转换过程包括从第一语言到第二语言的第一翻译过程，并且第二转换过程包括从第二语言到第一语言的第二翻译过程。

在某些实施例中，确定包括：利用第二转换过程将第二信息转换为第一类型的第三信息；以及确定第三信息与第一信息的一致性以指示可能性。

在某些实施例中，提供了一种计算机程序产品。该计算机程序产品存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在设备中运行时，使得设备：利用第一转换过程将第一类型的第一信息转换为第二类型的第二信息，第一类型不同于第二类型；确定利用第二转换过程将第二信息转换回第一信息的可能性；以及至少部分地基于可能性，更新第一转换过程和第二转换过程中的至少一个。

在某些实施例中，确定：利用第二转换过程将第二信息转换为第一类型的第三信息；以及确定第三信息与第一信息的一致性以指示可能性。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种计算机实施的方法，包括：

利用第一转换过程将第一类型的第一信息转换为第二类型的第二信息，所述第一类型不同于所述第二类型；

确定利用第二转换过程将所述第二信息转换回所述第一信息的可能性；以及

至少部分地基于所述可能性，更新所述第一转换过程和所述第二转换过程中的至少一个。

2.根据权利要求1所述的方法，其中所述第一转换过程包括从第一语言到第二语言的第一翻译过程，并且所述第二转换过程包括从所述第二语言到所述第一语言的第二翻译过程。

3.根据权利要求1所述的方法，其中所述更新包括：

验证所述第二信息是否满足与所述第二类型相关联的先验知识；以及

基于所述可能性和所述验证的结果来更新所述第一转换过程和所述第二转换过程中的至少一个。

4.根据权利要求1所述的方法，其中所述转换包括：

基于所述第一转换过程，将所述第一信息转换为所述第二信息的多个候选。

5.根据权利要求4所述的方法，其中所述确定包括：

确定利用所述第二转换过程将所述第二信息的所述多个候选转换回所述第一信息的第一组多个可能性。

6.根据权利要求5所述的方法，其中所述更新包括：

至少部分地基于所述第一组多个可能性来更新所述第一转换过程和所述第二转换过程中的至少一个。

7.根据权利要求5所述的方法，其中所述更新包括：

确定所述第一信息转换为所述第二信息的所述多个候选的第二组多个可能性；以及

至少部分地基于所述第一组多个可能性和所述第二组多个可能性来更新所述第一转换过程和所述第二转换过程。

8.根据权利要求1所述的方法，其中所述确定包括：

利用所述第二转换过程将所述第二信息转换为所述第一类型的的第三信息；以及

确定所述第三信息与所述第一信息的一致性以指示所述可能性。

9.根据权利要求1所述的方法，其中所述第二转换过程包括第一转换子过程和第二转换子过程，并且所述确定包括：

利用所述第一转换子过程将所述第二信息转换为第三类型的第四信息，所述第三类型不同于所述第一类型和所述第二类型；以及

确定利用所述第二转换子过程将所述第四信息转换回所述第一信息的可能性。

10.一种电子设备，包括：

处理单元；

存储器，耦合至所述处理单元并且存储有指令，所述指令在由所述处理单元执行时执行以下动作：

11.根据权利要求10所述的设备，其中所述第一转换过程包括从第一语言到第二语言的第一翻译过程，并且所述第二转换过程包括从所述第二语言到所述第一语言的第二翻译过程。

12.根据权利要求10所述的设备，其中所述更新包括：

13.根据权利要求10所述的设备，其中所述转换包括：

14.根据权利要求13所述的设备，其中所述确定包括：

15.根据权利要求14所述的设备，其中所述更新包括：

16.根据权利要求14所述的设备，其中所述更新包括：

17.根据权利要求10所述的设备，其中所述确定：

利用所述第二转换过程将所述第二信息转换为所述第一类型的第三信息；以及

18.根据权利要求10所述的设备，其中所述第二转换过程包括第一转换子过程和第二转换子过程，并且所述确定包括：

19.一种计算机程序产品，存储在非瞬态计算机存储介质中并且包括机器可执行指令，所述机器可执行指令在设备中运行时，使得所述设备：

20.根据权利要求19所述的计算机程序产品，其中所述更新包括：