CN104572629B

CN104572629B - 生成单语解析模型的方法和装置以及语言转换装置

Info

Publication number: CN104572629B
Application number: CN201310491909.7A
Authority: CN
Inventors: 付亦雯; 郑仲光; 葛乃晟; 孟遥; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-18
Filing date: 2013-10-18
Publication date: 2017-05-24
Anticipated expiration: 2033-10-18
Also published as: CN104572629A

Abstract

本发明涉及一种生成单语解析模型的方法和装置以及语言转换装置。生成单语解析模型的方法包括：按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序；按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在目标语句中存在该助词而在源语句中没有与该助词对应的助词；根据目标语言和源语言的双语平行语料，利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示；根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示；以及对所选择的结构表示进行建模以生成单语解析模型。

Description

生成单语解析模型的方法和装置以及语言转换装置

技术领域

本发明涉及文字处理领域，具体涉及在不同语言转换过程中生成单语解析模型的方法和装置以及语言转换装置。

背景技术

在不同语言转换过程中，例如，在统计机器翻译领域中，不同语言的语序有很大差别。调序模型可以是基于位置的，也就是描述两种语言中每个句子不同位置的短语的调序概率。调序模型也可以是基于短语本身的，例如，基于短语本身来描述在给定当前短语对条件下，其前后短语对是否互换位置。由于实际的调序模型远非“互换位置”这么简单，而是涉及句法知识，因而调序的效果仍然不佳。目前重定位问题还是机器翻译中亟待解决的问题。

根据句法分析的程度，已有的预调序可以分为三种：基于词形的预调序、基于词块的预调序、以及基于深层句法分析的预调序。此外，根据获取预调序知识的方式，已有的预调序可以分为两种：基于统计的知识获取的预调序、以及基于专家规则的预调序。在基于统计的知识获取的预调序中，通过预先对双语平行语料进行统计分析，然后自动获得调序规则。

目前基于句法分析的预调序多是分别训练句法分析模型和调序模型，并且，句法分析模型的训练语料在大多数情况下与训练调序模型的不一致，造成预调序过程中句法分析误差，并导致调序准确率下降。然而，构建统一调序与句法分析训练语料是耗时费力的。

因此，需要一种能够解决上述问题的技术。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种生成单语解析模型的方法和装置以及语言转换装置和方法。

根据本发明的一个方面，提供了一种生成单语解析模型的方法，包括：按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序；按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在目标语句中存在该助词而在源语句中没有与该助词对应的助词；根据目标语言和源语言的双语平行语料，利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示，其中，预定策略包括：以第一预定概率在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记，以及以第二预定概率在所述候选结构表示的节点处标记表示要插入助词的标记；根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示；以及对所选择的结构表示进行建模以生成单语解析模型。

根据本发明的另一个方面，提供了一种语言转换方法，包括：利用上述的生成单语解析模型的方法所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示；对结构表示进行解析以生成经解析的待转换源语句；以及将经解析的待转换源语句转换成目标语句。

根据本发明的再一个方面，提供了一种生成单语解析模型的装置，包括：语序调整部，用于按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序；中间语句生成部，用于按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在目标语句中存在该助词而在源语句中没有与该助词对应的助词；候选结构表示生成部，用于根据目标语言和源语言的双语平行语料，利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示，其中，预定策略包括：以第一预定概率在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记，以及以第二预定概率（PI）在所述候选结构表示的节点处标记表示要插入助词的标记；结构表示选择部，用于根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示；以及单语解析模型生成部，用于对所选择的结构表示进行建模以生成单语解析模型。

根据本发明的又一个方面，提供了一种语言转换装置，包括：生成部，用于利用上述用于生成单语解析模型的装置所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示；解析部，用于对结构表示进行解析以生成解析待转换源语句；以及转换部，用于将解析待转换源语句转换成目标语句。

另外，根据本发明的又一个方面，发明的实施例还提供了用于实现上述方法的计算机程序。

此外，根据本发明的又一个方面，本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述方法的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1A是示出根据本发明的实施例的生成单语解析模型的方法的流程图；

图1B是示出生成作为参考的中间语句的过程的示意图；

图1C示出了作为示例的一个候选结构表示的图；

图2是示出根据本发明的另一个实施例的生成单语解析模型的方法的流程图；

图3是示出选择用于生成单语解析模型的结构表示的步骤的流程图；

图4是示出生成候选结构表示的步骤的流程图；

图5是示出根据本发明的实施例的语言转换方法的流程图；

图6是示出生成用于调整待转换源语句的语序的结构表示的步骤的流程图；

图7是示出根据本发明的实施例的生成单语解析模型的装置的框图；

图8是示出根据本发明的另一个实施例的生成单语解析模型的装置的框图；

图9是示出图7和图8中的结构表示选择部的配置的框图；

图10是示出图7和图8中的候选结构表示生成部的配置的框图；

图11是示出图7和图8中的单语解析模型生成部的配置的框图；

图12是示出根据本发明的实施例的语言转换装置的框图；

图13是示出图12中的生成部的配置的框图；以及

图14是示出可以用于实施本发明的生成单语解析模型的方法和装置以及语言转换装置和方法的计算设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1A是示出根据本发明的实施例的生成单语解析模型的方法100的流程图。

如图1A所示，在步骤S102中，按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序。

假设以中文撰写的中文语句作为源语句，并以日文撰写的日文语句作为目标语句。在这种情况下，例如，可以针对中日平行语料运行对齐工具（例如，Giza++），获取中文语句与日文语句之间的词对齐信息，如图1B中的（a）和（b）之间的连线所示。在图1B的源语句（a）和目标语句（b）之间，用连线的方式示出了中文语句与日文语句之间的词对齐信息。根据词对齐信息来调整作为源语句的中文语句的语序，以使得调整后的语序与作为目标语句的日文语句的语序一致。作为源语句的中文语句被调整语序后的结果如图1B中的（c）所示。

在步骤S104中，按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句（如图1B中的（c）所示）中以得到作为参考的中间语句（如图1B中的（d）所示），其中，在目标语句中存在该助词而在源语句中没有与该助词对应的助词。图1B中的带阴影的方框中的词即表示在目标语句中存在而在源语句中没有对应助词的助词。

例如，可以记录各个助词在目标语句中的位置（例如，序号）。根据每个助词在目标语句中的位置的平均值，来确定要在调整了语序的源语句（如图1B中的（c）所示）中插入的位置。然后，根据确定结果，将各助词插入调整了语序的源语句中，从而得到了作为参考的中间语句（如图1B中的（d）所示）。图1B中的（d）中带下划线的词表示所插入的助词。这样所得到的作为参考的中间语句与目标语句的语序一致，在对应位置处有相应的助词。

在步骤S106中，根据目标语言和源语言的双语平行语料，利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示。预定策略包括：以预定概率P_R在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记R；以及以预定概率P_I在所述候选结构表示的节点处标记表示要插入助词的标记I。其中，可以根据经验设置预定概率P_R和P_I。

优选地，结构表示可以是二叉树。可以通过各种适当的方法来生成二叉树。优选地，可以通过蒙特卡洛算法来生成二叉树。

但应当理解到，二叉树只是结构表示的一个示例。只要该结构表示能够表达语序的调整和助词的插入就可以，而不限于具体表达形式。例如，可以使用除了二叉树之外的其他能够表达语序调整和助词插入的句法树。

以预定概率P_R在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记R，是为了在所生成的候选结构表示中实现对源语句进行调序。其中，非端部节点是指不是位于候选结构表示的末端的节点，即，非端部节点之上还有其他端点。

以预定概率P_I在非端部节点处标记表示要插入助词的标记I，是为了在所生成的候选结构表示中标记要插入助词的位置。

此外，预定策略还可以包括：以预定概率S初始化候选结构表示的一个子结构表示；以预定概率P将与目标语句连续对齐的短语添加到候选结构表示的节点；以及以预定概率P_D将不连续的两个词作为一组添加到候选结构表示的节点。例如，可以根据经验来设置预定概率S。

上述三个策略可以作为蒙特卡洛算法的基本策略。这三个规则可以保证蒙特卡洛算法具有生成候选结构表示的能力，并且不对其生成过程造成人为的影响。可以由各个策略的概率决定整个过程，可以由生成的候选结构表示的质量决定各个策略的概率。

其中，子结构表示指的是候选结构表示中的一部分。在结构表示为二叉树的情况下，子结构表示为一个子树。“与目标语句连续对齐的短语”想表达的是，源语句中的一个短语与目标语句中的相应短语连续对齐，而中间没有出现在源语句中存在而在目标语句中没有对应助词的助词，也没有出现在目标语句中存在而在源语句中没有对应助词的助词。参照图1B所示的示例，其中，“在这里，”和“省略了。”是与目标语句连续对齐的短语。在所生成的结构表示中，“在这里，”和“省略了。”分别被整体添加作为节点。“不连续的两个词”想表达的是源语句中的不是连续出现的两个词，即这两个词之间还存在其他的词。

预定概率P可以表示为P(m,n|source)，

P(m,n|source)=（短语Souce_m,n在双语平行训练语料中为连续对齐短语的次数）/（短语source_m,n在双语平行训练语料中源语言端出现的总次数）

其中，短语Source_m,n表示源语句的从第m个词到第n个词的短语。

预定概率P_D可以表示为P_D(i,j|source)，

P_D(i,j|source)=（词source_i与词source_j共同出现在源语言端并且在目标语端对应相邻或相同词的次数）/（词source_i与词source_j共同出现在源语言端的次数）。

其中，词source_i表示源语句中的第i个词，source_j表示源语句中的第j个词。

此外，预定策略还可以包括：以预定概率P_w将一个词添加到候选结构表示的节点。例如，可以根据经验来设置预定概率P_w。

此外，预定策略还可以包括：除非将源语句的所有词或短语都添加到候选结构表示的节点，否则不停止候选结构表示的生成。该策略可以保证所生成的候选结构中包含源语句的所有词或短语。

可选地，预定策略还可以包括：只将以下词或短语添加到节点，该词或短语与目标语句中的相应词或短语连续对齐。这个策略可以使得运算速度提高。

通过步骤S106，将生成多个候选结构表示。

在步骤S108中，根据作为参考的中间语句（如图1B中的（d）所示）从所生成的候选结构表示中选择用于生成单语解析模型的结构表示（如图1C所示）。稍后将参照图3来详细描述步骤S108的过程。

在步骤S110中，对所选择的结构表示进行建模以生成单语解析模型。

通过针对双语平行语料中的各个源语句构建结构表示，能够得到相应的用于生成单语解析模型的结构表示。

例如，将所选的结构表示作为训练数据，应用句法分析来训练针对源语言的单语解析模型。训练得到的单语解析模型即具有源语句调序和助词插入的功能，甚至具有助词删除的功能。目前存在多种句法分析模型可供选择，例如，概率上下文无关文法、构成上下文模型（constituent context model）等等。

例如，可以以所有所选择的结构表示作为训练数据，计算以下概率：双语平行语料中的源语言中的每个字符串成为端部节点的概率，双语平行语料中的源语言中的每个字符串被标记表示该节点是要删除的助词的标记M的概率，两个端部节点形成一个非端部节点的概率，非端部节点被标记表示要插入助词的标记I的概率，以及非端部节点被标记表示要调换两个相邻分枝的顺序标记R的概率。其中，两个端部节点形成一个非端部节点的概率是指，分别针对所有端部节点中的每两个端部节点统计它们形成一个非端部节点的概率。

以上述所有概率中的至少一个为特征，根据以下公式（1）和（2）来计算并优化权重，从而生成单语解析模型。

weight=argmax_weightp(T|S) (1)

其中，feature_i表示第i个特征，weight_i表示第i个特征的权重，i=1,2,……特征总数，S表示特定源语句，T表示与特定源语句对应的结构表示，P(T|S)表示在已知特定源语句S的情况下得到对应的结构表示T的概率，exp表示自然指数。

图2是示出根据本发明的另一个实施例的生成单语解析模型的方法200的流程图。

图2所示的步骤S202、S204、S208至S212分别与图1所示的步骤S102至S110类似，因此省略其描述。

在步骤S206中，从调整了语序的源语句中删除以下助词，在源语句中存在该助词而在目标语句中没有与该助词对应的助词。换句话说，除了将在目标语句中存在而在源语句中没有对应助词的助词插入调整了语序的源语句中，还从调整了语序的源语句中删除在源语句中存在而在目标语句中没有对应助词的助词，从而得到作为参考的中间语句。这样，在生成作为参考的中间语句时，同时考虑了目标语句和源语句之间相互不对应的助词。在图1B所示的示例中，在源语句（a）中没有这样的助词，即在源语句中存在而在目标语句中没有对应助词的助词，因此，在图1B所示的图中没有这样的过程。但是可以理解到，在有些源语句中可能存在这样的助词，即在源语句中存在而在目标语句中没有对应助词的助词，在这种情况下，则可以从调整了语序的源语句中删除这样的助词。

在步骤S208中，以预定策略生成用于调整源语句的语序的候选结构表示时，除了之前步骤S106中的那些预定策略之外，还可以使用以下预定策略：以预定概率P_M在候选结构表示的端部节点处标记表示该节点是要删除的助词的标记M。这样，在所生成的候选结构表示中反映了在源语句中存在而在目标语句中没有对应助词的助词。例如，可以根据经验来设置预定概率P_M。

图3是示出选择用于生成单语解析模型的结构表示的步骤S108的流程图。

如图3所示，在步骤S108-2中，对步骤S106中所生成的候选结构表示进行解析以生成解析源语句s-new。

图1C示出了所生成的多个候选结构表示中的一个候选结构表示，当然根据后续的描述可以看出图1C所示的特定候选结构表示也是最终选择的用于生成单语解析模型的那个结构表示。但是，也容易理解到，对于其他候选结构表示而言，解析的过程是类似的，因此，针对图1C的结构表示所进行的解析过程也类似地适用于其他候选结构表示。

以下描述如何对候选结构表示进行解析以生成解析源语句s-new。首先，从如图1C所示的作为候选结构表示的二叉树的根节点开始选择节点，其中，优先选择左枝上的节点对候选结构进行遍历直到达到端部节点。由于在如图1C所示的结构表示的左枝上只有一个端部节点“在这里，”，因而直接输出该端部节点上的内容“在这里，”。

在遍历的过程中：如果所选节点为无标记的非端部节点，则不进行处理，否则输出所选节点内的词或短语。例如，与根节点最近的右侧的节点为无标记的非端部节点，对该节点将不进行任何处理。

当所选节点标记有要调换两个相邻分枝的顺序的标记R，则将优先选择所选节点的左枝改为优先选择所选节点的右枝。例如，对于图1C中标记有R的节点，则将优先选择该节点的左枝上的节点改为优先选择该节点的右枝上的节点“机器人”和“发展”。

当所选节点标记有表示要插入助词的标记I时，输出该标记。例如，对于图1C中标记有I的节点，输出该标记。

可选地，当所选节点标记有表示要删除的助词的标记M时，不输出该节点的内容。在图1C所示的结构表示中没有标记有M的节点。

通过上述解析过程，将生成一个解析源语句s-new。

在步骤S108-4中，确定该解析源语句s-new与作为参考的中间语句之间的相似性。例如，可以使用编辑距离来评价解析源语句与中间语句之间的相似性。可以理解到，也可以使用其他适当方法来评价相似性。

在确定解析源语句与作为参考的中间语句之间的相似性之前，可以将作为参考的中间语句中的助词替换为标记I，以使得解析源语句与作为参考的中间语句从形式上更加一致。或者，可以将解析源语句中的标记I替换为相应的助词，以使得解析源语句与作为参考的中间语句从形式上更加一致。

在步骤S108-6中，根据解析源语句与中间语句之间的相似性来选择用于生成单语解析模型的结构表示。例如，可以选择相似性最高的候选结构表示作为用于生成单语解析模型的结构表示。这样，源语言和目标语言的双语平行语料中的每个源语句都将具有相应的用于生成单语解析模型的结构表示。

图4是示出生成候选结构表示的步骤S106的流程图。

在步骤S106-2中，对步骤S104中生成的候选结构表示中的一个根节点进行初始化。

在步骤S106-4中，从预定策略中选择一个策略以添加节点。

在步骤S106-6中，判断是否源语句中的所有词或短语都被添加到候选结构表示中。如果是，则结束处理。否则，返回到步骤S404中，然后从预定策略中再选择一个策略以添加节点。

以下将以通过蒙特卡洛算法来生成作为候选结构表示的二叉树为例来进行描述。

蒙特卡洛算法分为三个步骤，对这三个步骤进行循环以生成结果。三个步骤分别为：1.假设选择；2.模拟测试；以及3.最终决策。

假设一个蒙特卡洛算法具有N种可以选择的策略(a₁,a₂,……a_N)进行生成结果。在下述的算法中，在生成树之后，还使用公式Lev(Result,Reference)来评价生成结果，其中，Result表示生成结果，Reference表示作为参考的中间语句，Lev表示生成结果和作为参考的中间语句之间的相似性。其中，假设选择过程最大时间消耗为T。Lev越大表示生成结果与中间语句越相似。

具体的算法如下：

其中，策略(a₁,a₂,……a_N)可以是以下策略中的全部策略或一部分策略：以预定概率P_R在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记R；以预定概率P_I在候选结构表示的节点处标记表示要插入助词的标记I；以预定概率P_M在候选结构表示的端部节点处标记表示该节点是要删除的助词的标记；以预定概率S初始化候选结构表示的一个子结构表示；以预定概率P将与目标语句连续对齐的短语添加到候选结构表示的节点；以预定概率P_D将不连续的两个词作为一组添加到候选结构表示的节点；以预定概率P_w将一个词添加到候选结构表示的节点；只将以下词或短语添加到节点，该词或短语与目标语句中的相应词或短语连续对齐。

“随机(a₁,a₂,……a_N)直到完成整棵树(使用策略本身概率值进行随机)”相当于以下策略：除非将源语句的所有词或短语都添加到候选结构表示的节点，否则不停止候选结构表示的生成。该策略可以保证所生成的候选结构中包含源语句的所有词或短语。

图5是示出根据本发明的实施例的语言转换方法500的流程图。

如图5所示，在步骤S502中，利用参照图1至图4描述的方法所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示。如前所述，利用参照图1至图4描述的方法所得到的单语解析模型具有源语句调序和助词插入的功能，甚至具有助词删除的功能，因此利用该单语解析模型针对待转换源语句所生成的结构表示将标记有调序标记和助词插入标记，甚至标记有助词删除标记。此处的“转换”是指将以一种语言撰写的源语句翻译为以另一个语言撰写的目标语句。

在步骤S504中，对步骤S502中生成的结构表示进行解析以生成经解析的待转换源语句。此处的解析方法应当与参照图3描述的对候选结构表示进行解析（步骤S108-2）所使用的解析方法相同。经解析的待转换源语句的语句更倾向于与目标语句的语序相同，并且在相应位置处可能助词插入标记，甚至标记有助词删除标记，从而更易于被转换成准确的目标语句。

在步骤S506中，将经解析的待转换源语句转换成目标语句。此处，可以使用任何适当的语言转换方法来完成该转换。

图6是示出生成用于调整待转换源语句的语序的结构表示的步骤S502的流程图。

如图6所示，在步骤S502-2中，利用参照图1至图4描述的方法所生成的单语解析模型，来生成多个候选结构表示。

在步骤S502-4中，针对每个候选结构表示计算概率P(T|S)。如之前所描述的那样，P(T|S)表示在已知特定源语句S的情况下得到对应的结构表示T的概率。概率P(T|S)越高则表示相应的候选结构越适于作为用于调整待转换源语句的语序的结构表示。P(T|S)的计算过程可以参照公式（1）和（2）进行，在此不再赘述。

在步骤S502-6中，选择概率P(T|S)最高的候选结构表示作为用于调整待转换源语句的语序的结构表示。

以下参照图7至图11来描述根据本发明的实施例的生成单语解析模型的装置。由于已经参照图1-4详细描述了生成单语解析模型的方法，因而为了简洁起见，以下将不再重复描述具体过程。

图7是示出根据本发明的实施例的生成单语解析模型的装置700的框图。

如图7所示，生成单语解析模型的装置700包括语序调整部702、中间语句生成部704、候选结构表示生成部706、结构表示选择部708和单语解析模型生成部710。

语序调整部702按照双语平行语料中的以目标语言撰写的目标语句的语序来调整双语平行语料中的以源语言撰写的源语句的语序。

中间语句生成部704按照以下助词在目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在目标语句中存在该助词而在源语句中没有与该助词对应的助词。

候选结构表示生成部706根据目标语言和源语言的双语平行语料，利用源语句与目标语句之间的空对齐信息以预定策略生成用于调整源语句的语序的候选结构表示。预定策略包括：以预定概率P_R在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记R，以及以预定概率P_I在候选结构表示的节点处标记表示要插入助词的标记I。

结构表示选择部708根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示。

单语解析模型生成部710对所选择的结构表示进行建模以生成单语解析模型。

图8是示出根据本发明的另一个实施例的生成单语解析模型的装置700’的框图。图8所示的装置700’与图7所示的装置700的区别在于，生成单语解析模型的装置700’还包括助词删除部712。

助词删除部712调整了语序的源语句中删除以下助词，在源语句中存在该助词而在目标语句中没有与该助词对应的助词。在这种情况下，预定策略还可以包括：以预定概率P_M在候选结构表示的端部节点处标记表示该节点是要删除的助词的标记M。

图9是示出图7和图8中的结构表示选择部708的配置的框图。

如图9所示，结构表示选择部708包括解析源语句生成单元708-2、相似性确定单元708-4和结构表示选择单元708-6。

解析源语句生成单元708-2对候选结构表示生成部706所生成的候选结构表示进行解析以生成解析源语句s-new。

解析源语句生成单元708-2从作为候选结构表示的二叉树的根节点开始选择节点，其中，优先选择左枝上的节点对候选结构进行遍历直到达到端部节点。其中，在遍历的过程中：如果所选节点为无标记的非端部节点，则不进行处理，否则输出所选节点内的词或短语；当所选节点标记有要调换两个相邻分枝的顺序的标记R，则将优先选择所选节点的左枝改为优先选择所选节点的右枝；当所选节点标记有表示要插入助词的标记I时，输出该标记。

解析源语句生成单元708-2还被配置为当所选节点标记有表示要删除的助词的标记M时，不输出该节点的内容。

相似性确定单元708-4确定该解析源语句与作为参考的中间语句之间的相似性。

结构表示选择单元708-6根据相似性来选择用于生成单语解析模型的结构表示。

图10是示出图7和图8中的候选结构表示生成部706的配置的框图。

如图10所示，候选结构表示生成部706包括初始化单元706-2、策略选择单元706-4和控制单元706-6。

初始化单元706-2初始化候选结构表示的一个根节点。

策略选择单元706-4从预定策略中选择一个策略以添加节点。预测策略可以是以下策略中的全部策略或一部分策略：以预定概率P_R在候选结构表示的非端部节点处标记表示要调换候选结构表示的两个相邻分枝的顺序的标记R；以预定概率P_I在候选结构表示的节点处标记表示要插入助词的标记I；以预定概率P_M在候选结构表示的端部节点处标记表示该节点是要删除的助词的标记；以预定概率S初始化候选结构表示的一个子结构表示；以预定概率P将与目标语句连续对齐的短语添加到候选结构表示的节点；以预定概率P_D将不连续的两个词作为一组添加到候选结构表示的节点；以预定概率P_w将一个词添加到候选结构表示的节点；只将以下词或短语添加到节点，该词或短语与目标语句中的相应词或短语连续对齐

控制单元706-6控制策略选择单元706-4进行操作，直到源语句中的所有词或短语都被添加到候选结构表示中为止。

图11是示出图7和图8中的单语解析模型生成部的710的配置的框图。

如图11所示，单语解析模型生成部710包括概率计算单元710-2和单语解析模型生成单元710-4。

概率计算单元710-2以所有所选择的结构表示作为训练数据，计算以下概率：双语平行语料中的源语言中的每个字符串成为端部节点的概率，双语平行语料中的源语言中的每个字符串被标记表示该节点是要删除的助词的标记M的概率，两个端部节点形成一个非端部节点的概率，非端部节点被标记表示要插入助词的标记I的概率，以及非端部节点被标记表示要调换两个相邻分枝的顺序标记R的概率。

单语解析模型生成单元710-4根据公式（1）和（2），以上述所有概率中的至少一个为特征来计算权重，从而生成单语解析模型。

以下参照图12至图13来描述根据本发明的实施例的语言转换装置。由于已经参照图5至图6详细描述了语言转换方法，因而为了简洁起见，以下将不再重复描述具体过程。

图12是示出根据本发明的实施例的语言转换装置1200的框图。

如图12所示，语言转换装置1200包括生成部1202、解析部1204和转换部1206。

生成部1202利用参照图7至图11所描述的用于生成单语解析模型的装置所生成的单语解析模型，来生成用于调整待转换源语句的语序的结构表示。

解析部1204对结构表示进行解析以生成经解析的待转换源语句。

转换部1206将经解析的待转换源语句转换成目标语句。

图13是示出图12中的生成部1202的配置的框图。

如图13所示，生成部1202包括生成单元1202-2、计算单元1202-4和选择单元1202-6。

生成单元1202-2于利用参照图7至图11所描述的用于生成单语解析模型的装置所生成的单语解析模型，来生成多个候选结构表示。

计算单元1202-4针对每个候选结构表示计算概率P(T|S)。

选择单元1202-6选择概率P(T|S)最高的候选结构表示作为用于调整待转换源语句的语序的结构表示。

根据本发明的基于句法分析的调序模型，避免了使用具有差异的语料构建模型。由于在结构表示中引入了新的标签来记录调序信息，因而该模型相比于现有无监督句法分析模型具有优势。

如上文所述，通过预调序，即通过利用对齐语句中的空对齐信息按照目标语句的语序调整源语句的语序并在调整了语序的源语句的相应位置处添加助词，能够缩小两种语言之间的差异性。此外，还实现了冗余助词移除，从而能够进一步缩小两种语言之间的差异性。助词补充与冗余助词移除信息同样使用新标签而被存储在结构表示（例如，句法树）中，在无监督训练过程中自动学习。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图14所示的通用计算机1400安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图14中，中央处理单元(CPU)1401根据只读存储器(ROM)1402中存储的程序或从存储部分1408加载到随机存取存储器(RAM)1403的程序执行各种处理。在RAM 1403中，也根据需要存储当CPU 1401执行各种处理等等时所需的数据。CPU 1401、ROM 1402和RAM 1403经由总线1404彼此链路。输入/输出接口1405也链路到总线1404。

下述部件链路到输入/输出接口1405：输入部分1406（包括键盘、鼠标等等）、输出部分1407（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分1408（包括硬盘等）、通信部分1409（包括网络接口卡比如LAN卡、调制解调器等）。通信部分1409经由网络比如因特网执行通信处理。根据需要，驱动器1410也可链路到输入/输出接口1405。可拆卸介质1411比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1410上，使得从中读出的计算机程序根据需要被安装到存储部分1408中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1411安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图14所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1411。可拆卸介质1411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1402、存储部分1408中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个示例，上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个示例，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图14所示的通用计算机1400）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。

基于以上的说明，可知本发明至少公开了以下技术方案：

附记1.一种生成单语解析模型的方法，包括：

按照双语平行语料中的以目标语言撰写的目标语句的语序来调整所述双语平行语料中的以源语言撰写的源语句的语序；

按照以下助词在所述目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在所述目标语句中存在该助词而在所述源语句中没有与该助词对应的助词；

根据目标语言和源语言的双语平行语料，利用所述源语句与所述目标语句之间的空对齐信息以预定策略生成用于调整所述源语句的语序的候选结构表示，其中，所述预定策略包括：以第一预定概率（P_R）在所述候选结构表示的非端部节点处标记表示要调换所述候选结构表示的两个相邻分枝的顺序的标记（R），以及以第二预定概率（P_I）在所述候选结构表示的节点处标记表示要插入助词的标记（I）；

根据所述作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示；以及

对所选择的结构表示进行建模以生成所述单语解析模型。

附记2.根据附记1所述的方法，其中，在生成所述作为参考的中间语句时，还从调整了语序的源语句中删除以下助词，在所述源语句中存在该助词而在所述目标语句中没有与该助词对应的助词，

其中，所述预定策略还包括：以第三预定概率（P_M）在所述候选结构表示的端部节点处标记表示该节点是要删除的助词的标记（M）。

附记3.根据附记1所述的方法，其中，所述预定策略还包括：

以第四预定概率（S）初始化所述候选结构表示的一个子结构表示；

以第五预定概率（P）将与所述目标语句连续对齐的短语添加到所述候选结构表示的节点；以及

以第六预定概率（P_D）将不连续的两个词作为一组添加到所述候选结构表示的节点。

附记4.根据附记1所述的方法，其中，所述预定策略还包括：

以第七预定概率（P_w）将一个词添加到所述候选结构表示的节点。

附记5.根据附记1所述的方法，其中，所述预定策略还包括：

除非将所述源语句的所有词或短语都添加到所述候选结构表示的节点，否则不停止所述候选结构表示的生成；以及

只将以下词或短语添加到节点，该词或短语与所述目标语句中的相应词或短语连续对齐。

附记6.根据附记1所述的方法，其中，所述根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示的步骤包括：

对所述候选结构表示进行解析以生成解析源语句（s-new）；

确定该解析源语句与作为参考的中间语句之间的相似性；以及

根据所述相似性来选择用于生成所述单语解析模型的结构表示。

附记7.根据附记1所述的方法，其中，所述候选结构表示为二叉树。

附记8.根据附记7所述的方法，其中，生成所述候选结构表示的步骤包括：通过蒙特卡洛算法来生成所述候选结构表示。

附记9.根据附记8所述的方法，生成所述候选结构表示的步骤包括：

第一步骤，初始化所述候选结构表示的一个根节点；

第二步骤，从所述预定策略中选择一个策略以添加节点；以及

重复第二步骤，直到所述源语句中的所有词或短语都被添加到所述候选结构表示中为止。

附记10.根据附记7所述的方法，其中，所述对所述候选结构表示进行解析以生成解析源语句（s-new）的步骤包括：

从作为候选结构表示的二叉树的根节点开始选择节点，其中，优先选择左枝上的节点对所述候选结构进行遍历直到达到端部节点；

其中，在遍历的过程中：

如果所选节点为无标记的非端部节点，则不进行处理，否则输出所选节点内的词或短语；

当所选节点标记有要调换两个相邻分枝的顺序的标记（R），则将优先选择所选节点的左枝改为优先选择所选节点的右枝；

当所选节点标记有表示要插入所述助词的标记（I）时，输出该标记。

附记11.根据附记10所述的方法，其中，所述对所述候选结构表示进行解析以生成解析源语句（s-new）的步骤还包括：

当所选节点标记有表示要删除的助词的标记（M）时，不输出该节点的内容。

附记12.根据附记2所述的方法，其中，所述对所选择的结构表示进行建模以生成所述单语解析模型的步骤包括：

以所有所选择的结构表示作为训练数据，计算以下概率：所述双语平行语料中的源语言中的每个字符串成为端部节点的概率，所述双语平行语料中的源语言中的每个字符串被标记表示该节点是要删除的助词的标记（M）的概率，两个端部节点形成一个非端部节点的概率，非端部节点被标记表示要插入助词的标记（I）的概率，以及非端部节点被标记表示要调换两个相邻分枝的顺序标记（R）的概率；

根据以下公式，以上述所有概率中的至少一个为特征来计算权重，从而生成所述单语解析模型，其中，

weight=argmax_weightP(T|S)，以及

其中，feature_i表示第i个特征，weight_i表示第i个特征的权重，i=1,2,3……特征总数，S表示特定源语句，T表示与特定源语句对应的结构表示，P(T|S)表示在已知特定源语句S的情况下得到对应的结构表示T的概率。

附记13.一种语言转换方法，包括：

利用根据附记12所述的方法所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示；

对所述结构表示进行解析以生成经解析的待转换源语句；以及

将所述经解析的待转换源语句转换成目标语句。

附记14.根据附记13所述的语言转换方法，其中，所述生成用于调整待转换源语句的语序的结构表示的步骤包括：

利用根据附记12所述的方法所生成的单语解析模型生成多个候选结构表示；

针对每个候选结构表示计算概率P(T|S)；以及

选择概率P(T|S)最高的候选结构表示作为用于调整待转换源语句的语序的结构表示。

附记15.一种生成单语解析模型的装置，包括：

语序调整部，用于按照双语平行语料中的以目标语言撰写的目标语句的语序来调整所述双语平行语料中的以源语言撰写的源语句的语序；

中间语句生成部，用于按照以下助词在所述目标语句中的位置将该助词插入调整了语序的源语句中以得到作为参考的中间语句，其中，在所述目标语句中存在该助词而在所述源语句中没有与该助词对应的助词；

候选结构表示生成部，用于根据目标语言和源语言的双语平行语料，利用所述源语句与所述目标语句之间的空对齐信息以预定策略生成用于调整所述源语句的语序的候选结构表示，其中，所述预定策略包括：以第一预定概率（P_R）在所述候选结构表示的非端部节点处标记表示要调换所述候选结构表示的两个相邻分枝的顺序的标记（R），以及以第二预定概率（P_I）在所述候选结构表示的节点处标记表示要插入助词的标记（I）；

结构表示选择部，用于根据所述作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示；以及

单语解析模型生成部，用于对所选择的结构表示进行建模以生成所述单语解析模型。

附记16.根据附记15所述的装置，还包括：

助词删除部，用于调整了语序的源语句中删除以下助词，在所述源语句中存在该助词而在所述目标语句中没有与该助词对应的助词，

附记17.根据附记15所述的装置，其中，所述预定策略还包括：

附记18.根据附记15所述的装置，其中，所述预定策略还包括：

附记19.根据附记15所述的装置，其中，所述预定策略还包括：

附记20.一种语言转换装置，包括：

生成部，用于利用根据附记15所述的装置所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示；

解析部，用于对所述结构表示进行解析以生成经解析的待转换源语句；以及

转换部，用于将所述经解析的待转换源语句转换成目标语句。

Claims

1.一种生成单语解析模型的方法，包括：

根据目标语言和源语言的双语平行语料，利用所述源语句与所述目标语句之间的空对齐信息以预定策略生成用于调整所述源语句的语序的候选结构表示，其中，所述预定策略包括：以第一预定概率在所述候选结构表示的非端部节点处标记表示要调换所述候选结构表示的两个相邻分枝的顺序的标记，以及以第二预定概率在所述候选结构表示的节点处标记表示要插入助词的标记；

对所选择的结构表示进行建模以生成所述单语解析模型，

其中，所述根据作为参考的中间语句从所生成的候选结构表示中选择用于生成单语解析模型的结构表示的步骤包括：

对所述候选结构表示进行解析以生成解析源语句；

2.根据权利要求1所述的方法，其中，在生成所述作为参考的中间语句时，还从调整了语序的源语句中删除以下助词，在所述源语句中存在该助词而在所述目标语句中没有与该助词对应的助词，

其中，所述预定策略还包括：以第三预定概率在所述候选结构表示的端部节点处标记表示该节点是要删除的助词的标记。

3.根据权利要求1所述的方法，其中，所述预定策略还包括：

以第四预定概率初始化所述候选结构表示的一个子结构表示；

以第五预定概率将与所述目标语句连续对齐的短语添加到所述候选结构表示的节点；以及

以第六预定概率将不连续的两个词作为一组添加到所述候选结构表示的节点。

4.根据权利要求1所述的方法，其中，所述预定策略还包括：

以第七预定概率将一个词添加到所述候选结构表示的节点。

5.根据权利要求1所述的方法，其中，所述预定策略还包括：

6.根据权利要求1所述的方法，其中，所述候选结构表示为二叉树。

7.根据权利要求6所述的方法，其中，生成所述候选结构表示的步骤包括：通过蒙特卡洛算法来生成所述候选结构表示。

8.一种语言转换方法，包括：

利用根据权利要求1所述的方法所生成的单语解析模型来生成用于调整待转换源语句的语序的结构表示；

将所述经解析的待转换源语句转换成目标语句。

9.一种生成单语解析模型的装置，包括：

候选结构表示生成部，用于根据目标语言和源语言的双语平行语料，利用所述源语句与所述目标语句之间的空对齐信息以预定策略生成用于调整所述源语句的语序的候选结构表示，其中，所述预定策略包括：以第一预定概率在所述候选结构表示的非端部节点处标记表示要调换所述候选结构表示的两个相邻分枝的顺序的标记，以及以第二预定概率在所述候选结构表示的节点处标记表示要插入助词的标记；

单语解析模型生成部，用于对所选择的结构表示进行建模以生成所述单语解析模型，

其中，所述结构表示选择部被配置为：

对所述候选结构表示进行解析以生成解析源语句；