CN107526727A

CN107526727A - 基于统计机器翻译的语言生成方法

Info

Publication number: CN107526727A
Application number: CN201710637423.8A
Authority: CN
Inventors: 李军辉; 柴强; 孔芳; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-29
Anticipated expiration: 2037-07-31
Also published as: CN107526727B

Abstract

本发明公开了一种基于统计机器翻译的语言生成方法，将源端树形结构语义表达式转化为自然语言；将预处理后的语料作为基于层次短语的统计机器翻译的源端语言；利用基于层次短语的统计机器翻译解码器生成n‑best翻译结果；再对上一步生成的n‑best翻译结果进行过滤，得到与源端输入句子答案类型相同的翻译结果；在评测阶段，将中文和英文的参照语句从原来一个增加到了三个，使评测值更能反映真实地翻译效果，具有良好的应用前景。

Description

基于统计机器翻译的语言生成方法

技术领域

本发明语言生成技术领域，具体涉及一种基于统计机器翻译的语言生成方法。

背景技术

语言生成的任务就是通过对语义表达式的分析，然后将它转化为自然语言。许多语言生成的早期方法都是基于规则的，该方法一般只关注表面实现，即调整次序和转变词语，接着开始出现许多基于语料概率的方法，其中，很多方法需要语义表达式是特殊的形式，比如树形结构表达式。

许多早期的语言生成不使用概率性的方法。早期的有使用人工标注规则将扩展谓词逻辑表达式生成自然语言的方法，接着出现了语义驱动的方法，该方法是基于逻辑编程语言写的规则，进而发展到从有歧义的逻辑表达式中生成有多种释义自然语言的系统。然后概率模型被提了出来，该模型是从充满树形结构的语义表达式中生成自然语言。

目前，语言生成被看作是一个统计机器翻译的任务，即将语义表达式看作是机器翻译的源语言，自然语言看作是目标语言。

统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型，并在此统计模型基础上，定义要估计的模型参数，并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型，采用最大似然准则进行无监督训练，而近年来常用的基于短语的统计机器翻译则采用区分性训练方法，一般来说需要参考语料进行有监督训练。

层次短语翻译模型属于统计机器翻译的一种，是具有代表性的统计机器翻译模型，它属于形式句法模型，使用同步上下文无关语法进行译文的生成，既能兼容短语模型中的所有短语翻译，同时也如语言学句法模型一样具有较好的泛化能力和长距离调序能力。因此，层次短语成为了统计机器翻译研究中最受关注的模型之一。

将语言生成看作是一个统计机器翻译的任务的过程中，语义表达式并不是一门真正的自然语言，它跟自然语言有着不同的属性。因此，使用统计机器翻译来进行语言生成跟传统的统计机器翻译任务存在以下区别，包括：

1.语义表达式是面向计算机的一门语言，它有着严格的函数和参数结构，而它的语义表示就存在这些结构当中；

2.由于语义表达式中每一个单词都承载着特殊的语义而自然语言中并不存在这种情况，这两种语言在本质上是不对称的。

3.由于自然语言在词汇选择和词序调整上的多样性，自然语言的表达方式就更灵活，但其语义表达式是唯一的。比如这两个句子“富士山在哪里”，“说出富士山的地址”，这两个句子表现形式不一样，但它们有着共同的语义表达式。

在统计机器翻译中，词对齐对于规则抽取是一个必不可少的环节。比如，如果要把中文“我喜欢”很准确地翻译为英文“I like”，就需要在“我”和“I” 之间、“喜欢”和“like”之间建立一个对应关系。尽管相关研究已表明词对齐应用于机器翻译任务，但它同样也适用于语言生成吗？利用词对齐来进行语言生成跟用来进行统计机器翻译在某些重要的方面有些区别，至少包括：

1.本质上是不对称的：语义表达式更精练，相对而言，自然语言通常是比语义表达式要长，自然语言通常含有在对应的语义表达式中找不到对应的单词。

2.语言生成的语料规模较小：统计机器翻译对齐模型通常是以无监督的形式学习获取，从大量句子对文本中得到词对齐。

因此，适用于机器翻译的词对齐方式可能并不一定适用于语言生成任务。受到以上描述的启发，由于并没有考虑到语义表达式的特点，传统标准的统计机器翻译系统并不是一个理想的语言生成方法。针对语言生成，需要提出更有效的基于层次短语统计机器翻译系统及方法，是十分必要的。

发明内容

本发明的目的是克服现有的传统标准的统计机器翻译系统不是理想的语言生成方法的问题。本发明的基于统计机器翻译的语言生成方法，将源端树形结构语义表达式转化为自然语言的语义表达式；将预处理后的语料作为基于层次短语的统计机器翻译的源端语言；利用基于层次短语的统计机器翻译解码器生成n-best翻译结果；再对上一步生成的n-best翻译结果进行过滤，得到与源端输入句子答案类型相同的翻译结果；在评测阶段，将中文和英文的参照语句从原来一个增加到了三个，使评测值更能反映真实地翻译效果，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种基于统计机器翻译的语言生成方法，其特征在于：包括以下步骤，

步骤(A)，语料预处理，将源端树形结构的语义表达式转化为自然语言的语义表达式；

步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据；

步骤(C)，对训练数据进行短语抽取和短语特征提取；

步骤(D)，调节特征权重，得到最优的特征权重；

步骤(E)，根据最优的特征权重，采用基于层次短语的统计机器翻译解码器，得到训练数据的n-best翻译结果；

步骤(F)，对n-best翻译结果进行过滤，得到过滤后的翻译结果；

步骤(G)，对过滤后的翻译结果进行多参照评测、人工评测，完成语言生成。

前述的基于统计机器翻译的语言生成方法，其特征在于：步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据，包括以下步骤，

(B1)，在预处理的语料不变的情况下，分别使用源端到目标端对齐、目标端到源端对齐和对使用源端到目标端对齐、目标端到源端对齐的对齐结果进行对称处理后的对齐进行实验，记录使用上述三种不同对齐方式各自相应的评测值；

(B2)，将预处理的语料扩展为三倍，同时将三种不同对齐方式组合起来，让每个扩展为三倍的预处理语料有三个对齐结果，记录使用各对齐方式的相应评测值，形成训练数据。

前述的基于统计机器翻译的语言生成方法，其特征在于：步骤(F)，对n-best 翻译结果进行过滤，得到过滤后的翻译结果，包括以下步骤，

(F1)，获取源端对应的答案类型，并获取目标端所对应的答案类型；

(F2)，根据源端与目标端的答案类型是否匹配进行过滤，按照解码分数由高到低的顺序遍历n-best翻译结果列表，直到找到与源端的答案类型一致的目标端对应的翻译结果；若没有找到，n-best翻译结果作为过滤后的翻译结果输出。

前述的基于统计机器翻译的语言生成方法，其特征在于：步骤(G)，所述多参照评测，包括三个中英文参照语句。

本发明的有益效果是：本发明的基于统计机器翻译的语言生成方法，将源端树形结构语义表达式转化为自然语言的语义表达式；将预处理后的语料作为基于层次短语的统计机器翻译的源端语言；利用基于层次短语的统计机器翻译解码器生成n-best翻译结果；再对上一步生成的n-best翻译结果进行过滤，得到与源端输入句子答案类型相同的翻译结果；在评测阶段，将中文和英文的参照语句从原来一个增加到了三个，使评测值更能反映真实地翻译效果，并具有以下优点：

(1)由于并没有考虑到语义表达式的特点，传统标准的统计机器翻译系统并不是一个理想的语言生成方法，本发明使用一个更有效的统计机器翻译系统，即基于层次短语的统计机器翻译系统；

(2)适用于统计机器翻译的词对齐方式可能并不一定适用于语言生成任务，本发明需要探索几种不同对齐方式，分析并归纳出适合语言生成的对齐方式；

(3)传统统计机器翻译语言生成的效果并不理想，本发明试着分析语义表达式和自然语言的答案类型，过滤出提高语言生成性能的方法；

(4)由于自然语言表达的多样性，使用单一的参照的机器翻译评测指标往往不能真实地反映翻译的性能，因此需要为翻译结果提供合适的参照，从而更真实反映语言生成的效果。

附图说明

图1是本发明的基于统计机器翻译的语言生成方法的流程图；

图2是本发明的语料预处理中一实施例语义表达树的示意图；

图3是本发明的图2中语义表达树的转换过程的示意图；

图4是本发明的一实施例的源端到目标端的词对齐的示意图；

图5是本发明的一实施例的目标端到源端的词对齐的示意图；

图6是本发明的一实施例的使用gdfa策略后的词对齐的示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的基于统计机器翻译的语言生成方法，包括以下步骤，

步骤(A)，语料预处理，将源端树形结构的语义表达式转化为自然语言的语义表达式，源端树形结构的语义表达式是函数-参数形式(也称为树形结构表达式)，比如，源端语义表达式为“answer(len(river(riverid(‘colorado’)))”，目标端各自然语言的语义表达式，中文：科罗拉多河有多长；英文：how long is the colorado river；树形结构表达式如图2所示；在源端将这些语义表达式转化为自然语言的一连串字符串，预处理后的语义表达式的例子“answer@1 len@1 river@1 riverid@1 colorado@s”，表达式中每个标记都是A@B形式，其中A是一个符号； B的表示有字符串和数字两种情况：字符串代表A所表示的符号是一个字符串，数字代表A所表示的符号的数量。此外，将图2所示的树形结构语义表达转换成更流行的WSJ样式树结构，转换过程，如图3所示，对于树形结构中的每一个语义单位，从左到右创建它们各自的子树，对于其中相连的两个语义单位，将其对应的子树形成一个新的树，最后，把所有创建的子树合并为一个树，如图4所示，给出了转换后的语义表达树的输出；

步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据，包括以下步骤，

(B2)，将预处理的语料扩展为三倍，同时将三种不同对齐方式组合起来，让每个扩展为三倍的预处理语料有三个对齐结果，记录使用各对齐方式的相应评测值，形成训练数据，这里对比将将预处理的语料扩展为两倍的翻译效果，不如预处理的语料扩展为三倍，优选将预处理的语料扩展为三倍，在不影响翻译速度的情况下，保证翻译效果；

如图4所示，给出了一个源端到目标端基于层次短语的统计机器翻译系统对齐结果的例子，从这个例子中可以看出每一个源端的单词都都对应着目标端的一个单词，即源端词与目标端词有着多对一的关系，然而源端单词与目标端单词之间的多到多的情况在统计机器翻译中是很普遍的，一个解决的办法就是从两个方向运行IBM 模型(IBM模型是统计机器翻译中的经典翻译模型，也是基于词的统计机器翻译系统的基础。IBM翻译模型共有5个复杂度依次递增

表1：各种对吝方式实验结果

步骤(C)，对训练数据进行短语抽取和短语特征提取；

步骤(D)，调节特征权重，得到最优的特征权重；

步骤(F)，对n-best翻译结果进行过滤，得到过滤后的翻译结果，包括以下步骤，

(F2)，根据源端与目标端的答案类型是否匹配进行过滤，按照解码分数由高到低的顺序遍历n-best翻译结果列表，直到找到与源端的答案类型一致的目标端对应的翻译结果；若没有找到，n-best翻译结果作为过滤后的翻译结果输出；

例如，图4的答案类型是NUM，这表明输入句子的答案类型是一个数字，在前面使用了统计机器翻译的字符串到字符串翻译方法，翻译结果即是通过解码得到的n-best翻译列表中得分最高的句子，然而，这忽略了一个事实，翻译结果蕴含的答案与源端表达式的答案在类型上不一致，而且一旦类型上不一致，那说明翻译结果与源端表达式存在着语义上的差异，因此，一种可行的方法是要求翻译结果不仅有较高的解码分数，也还要对应有着与源端一致的答案类型，原则上，这可以通过重写在解码中使用的柱状搜索算法来完成，鼓励翻译得到与源端一致的答案类型，为方便起见采用本发明的过滤方法，表2比较了使用和没有使用n-best翻译结果过滤语言生成性能，系统all+filtering表示把多种对齐方式和过滤的方法结合起来。结果表明，n-best翻译结果过滤的方法在BLEU 值和(1-TER)值上平均分别获得了1.0和1.2的提高，

表2：过滤和不过滤翻译结果的实验性能对比

步骤(G)，对过滤后的翻译结果进行多参照评测、人工评测，完成语言生成，其中，多参照评测，包括三个中英文参照语句，例如语义表达式“answer@1 elevation_1@1placeid@1mount_mckinley@s”，该表达式的参照句子是“how high is mount mckinley”，但如果该语义表达式翻译成英文的最终结果是“what is the height of mountmckinley”，显而易见的是，该句的表达意思跟前单个参照的句子的表达意思完全一致，但表达形式上有很大的区别，因此，本发明在原有的单个参照的基础上又增加了三个参照，在测试集的原有句子对后面增加了三个参照句子，使得最终的翻译结果有更多的参照，从而更加真实地反映翻译效果，考虑到语言表达的多样性，基于单参照的评测并不能真实反映语言生成的性能，表3给出了系统在中英文语言使用单个参照和多个参照的前后对比。从表中可以看出，增加了三个参照之后，BLEU值和1-TER值都有较大幅度的升，。同时，本发明提出的方法(包括使用多对齐和n-best翻译结果过滤方法)，在多参照的评测下都能提高语言生成的性能，

表3：单参照与多参照实验结果之间的对比表

其中，系统all比系统gdfa在单参照(多参照)性能提高显著(p＜0.01)；系统all+filtering比系统all在单参照(多参照)性能提高显著(p＜0.01)

综上所述，本发明的基于统计机器翻译的语言生成方法，将源端树形结构语义表达式转化为自然语言的语义表达式；将预处理后的语料作为基于层次短语的统计机器翻译的源端语言；利用基于层次短语的统计机器翻译解码器生成 n-best翻译结果；再对上一步生成的n-best翻译结果进行过滤，得到与源端输入句子答案类型相同的翻译结果；在评测阶段，将中文和英文的参照语句从原来一个增加到了三个，使评测值更能反映真实地翻译效果，并具有以下优点：

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于统计机器翻译的语言生成方法，其特征在于：包括以下步骤，

步骤(A)，语料预处理，将源端树形结构的语义表达式转化为自然语言；

步骤(C)，对训练数据进行短语抽取和短语特征提取；

步骤(D)，调节特征权重，得到最优的特征权重；

2.根据权利要求1所述的基于统计机器翻译的语言生成方法，其特征在于：步骤(B)，预处理的语料进行词对齐，使用多种对齐方式，形成训练数据，包括以下步骤，

(B2)，将预处理的语料扩展为三倍，同时将三种不同对齐方式组合起来，让每个扩展为三倍的预处理语料有三个对齐结果，记录使用该对齐方式的相应评测值。

3.根据权利要求1所述的基于统计机器翻译的语言生成方法，其特征在于：步骤(F)，对n-best翻译结果进行过滤，得到过滤后的翻译结果，包括以下步骤，

4.根据权利要求1所述的基于统计机器翻译的语言生成方法，其特征在于：步骤(G)，所述多参照评测，包括三个中英文参照语句。