CN113283250A

CN113283250A - 一种基于句法成分分析的自动化机器翻译测试方法

Info

Publication number: CN113283250A
Application number: CN202110581487.7A
Authority: CN
Inventors: 冯洋; 吉品; 李玉莹; 赵志宏; 刘嘉; 陈振宇
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-08-20
Anticipated expiration: 2041-05-26
Also published as: CN113283250B

Abstract

一种基于句法成分分析的机器翻译自动化测试方法，其特征是使用句法成分分析获取句子的选区结构，并构建蜕变关系，无需参考文本即可评估机器翻译模型的性能。主要解决当前测试机器翻译的存在的依赖参考文本。准确性较低、内部参数不可理解、和测试预言难以构建的问题。选区反映了句子与其组成部分之间的整体关系，它通常用于描述句子的句法结构的特征。由于修饰词不能对句子的结构产生强烈的影响，给定句子的选区结构通常保留在其添加修饰语之后的句子的选区结构中，即选区不变性。本方法的步骤包括使用句子压缩模型生成文本扩增模板，使用BERT模型生成选区变体，使用选区解析树模型来表达句子结构，并基于选区不变性检测翻译错误。

Description

一种基于句法成分分析的自动化机器翻译测试方法

技术领域

本发明属于软件测试领域，特别是涉及到及机器翻译测试和自动化测试方法。句法成分分析技术对机器翻译模型进行自动化测试是一种新的尝试。与以往的机器翻译测试不同，本方法运用自然语言处理领域中的句法成分分析、软件测试领域的模糊测试理念和蜕变测试方法，解决机器翻译测试依赖参考文本、准确性较低、内部参数不可理解、测试预言难以构建的问题。

背景技术

机器翻译是指使用软件将文本从源语言转换为目标语言，这是自然语言处理(NLP)的重要子领域。机器翻译主要有三种方法：基于规则，基于统计和基于神经网络。随着机器学习方法(例如深度学习)的成熟，基于神经网络的机器翻译(NMT)已成为主流，并且表现出色。与前两种方法相比，NMT已经可以与人类翻译水平相当，如Bing翻译、谷歌翻译、有道翻译等。对于许多人来说，机器翻译软件在日常生活中必不可少，据统计，全世界有超过5亿人在各项应用场景中使用Google翻译。

但是，NMT系统也可能会有软件缺陷并导致翻译错误。这些错误的翻译可能会引起误解，营销失误，对人身安全的威胁，甚至是政治危机。例如，汇丰银行在2009年将其品牌口号“Assume Nothing”翻译到多种语言。不幸的是，在许多国家被翻译成“不做任何事”。这家著名的国际银行不得不花费超过1000万美元，才能消除这种严重的翻译错误带来的负面影响。因此，NMT的鲁棒性已经广泛地引起关注。NMT模型在很大程度上取决于训练数据输入到隐藏层的数量和质量，导致在低资源条件下性能急剧下降，但在高资源条件下性能良好。尽管翻译器表现出了良好的性能，但开发人员仍在不断准备更全面的测试数据并识别翻译错误，以衡量稀缺的训练资源给模型带来的影响。通过分析这些错误，开发人员可以获得有关NMT模型的优缺点信息，以提出改进措施。收集错误翻译、源句及其正确的翻译，并补充训练集以进行微调或重训练是提高NMT模型性能的有效方法。因此，几乎所有翻译服务提供商都具有反馈渠道，并要求用户提交不正确的翻译或相应的正确翻译，以帮助他们提高产品性能。百度在用户服务中心设置了翻译结果反馈页面，并将处理结果及时地通知用户。微软已与第三方服务UserVoice合作，以使用户更方便快捷报告错误的翻译。谷歌翻译甚至建立了翻译社区，并设立了奖项以激励贡献者提供更有价值的反馈。

为了更好地度量和改进NMT模型的性能，已有的研究者将重点放在如何更高效率地检测翻译错误。然而，深度神经网络给此带来了很多挑战。与传统软件系统依赖手工构建业务逻辑不同，神经网络采用数据驱动的编程范式，用数百万个参数构建内部逻辑。这一特性不仅使NMT的行为难以解释和分析，而且也阻碍了许多传统测试方法的应用。另一个挑战在于构造测试预言，它描述给定输入的正确输出。NMT软件的输出空间往往很大，这使得定义一个严格的测试预言变得困难。到目前为止，一种常用的方法是利用候选文本和参考文本之间的差异来估计基于某些客观评价指标的翻译质量分数，例如BLEU和ROUGE。BLEU方法是分别计算所得翻译和参考文本的N-grams模型，然后统计其匹配的个数。显然，这种比较方法是与语序和句子结构无关。ROUGE是一种基于召回率的相似性度量方法，和BLEU类似，无F-mean评价功能，主要考察翻译的充分性和忠实性，无法评价译文的流畅度，其计算的是N-grams在参考译文和待评测译文的共现概率。该类指标的计算过程通常都需要测试预言来描述正确的翻译结果，并且不考虑句子的语序和结构。这些缺陷导致该类客观评价指标并不能与人类评价显著相关。为了更好地度量翻译的可读性和可理解性，一些针对机器翻译的自动化测试技术方法也被提出。这些技术通常采用替换或删除一个单词的策略，并通过比较字符串或测量文本距离来识别翻译错误。它们一个明显的局限性是只能检测具有预定义结构的句子的错误。此外，这些技术的性能高度依赖于控制错误识别的阈值，这限制了它们方法的性能，并且可能产生许多误报。

基于上述背景和相关工作的分析，本专利提出基于句法成分分析的自动化机器翻译测试方法，以解决当前测试机器翻译的存在的依赖参考文本。准确性较低、内部参数不可理解、测试预言难以构建的问题。本发明提出了一种新的概念，选区不变性。在语言学中，选区反映了句子与其组成部分之一之间的整体关系，它通常用于描述句子的句法结构的特征。并且，根据语言学的定义，修饰词不能对句子的结构产生强烈的影响，此特征表明给定句子的选区结构通常保留在其添加修饰语之后的句子的选区结构中。我们将此特征定义为选区不变性，并将其用于构造蜕变关系，以解决机器翻译自动测试中的预言问题。

发明内容

本发明要解决的问题是：与传统软件系统依赖手工构建业务逻辑不同，神经网络采用数据驱动的编程范式，用数百万个参数构建内部逻辑。这一特性不仅使得基于神经网络的机器翻译的行为难以解释和分析，而且也阻碍了许多传统测试方法的应用。另一方面，机器翻译模型的测试预言难以构建。机器翻译软件的输出空间往往很大，这使得定义一个严格的测试预言变得困难，而现有的一些翻译质量评价指标又完全依赖于测试预言，并且不考虑句子的语序和结构。因此，本发明主要解决当前测试机器翻译的存在的依赖参考文本、准确性较低、内部参数不可理解、测试预言难以构建的问题。

本发明的技术方案为：一种基于句法成分分析的机器翻译自动化测试方法，其特征是使用句法成分分析获取句子的选区结构，基于选区不变性构建蜕变关系，无需参考文本即可评估机器翻译模型的性能。本方法的输入是一组未标记的单语言句子，输出为疑似错误报告列表。如图1所示，每个错误报告包含三个部分：1)句子s和它的翻译

2)句子s的变体s’和其翻译

3)导致选区不变性被破坏的单词或词组。

该方法包含以下四个模块/步骤：

1)生成用于文本扩增的模板：如图1中的(1)～(2)步骤所示，本方法使用句子压缩模型将每个输入句子压缩为包含基本结构部分(主谓宾或主谓补)的种子句子S₀，再基于S₀与原句S之间的差异，确认可插入修饰语的槽。为了减少插入修饰语对句子结构性的影响，本方法会将过长的槽进行细化，以提高方法的准确性。该步骤同时获取了在原句S中与每个槽位置对应的修饰语。

2)生成选区变体：选区变体是指基于句子S₀衍生出的新句子，衍生方式为在原句上插入不影响句子主体结构的修饰语。如图1中的(3)～(4)步骤所示，本方法使用适当的变异算子σ去派生S₀的多代句子S₁，S₂，...，S_n。每个句子的代数与插入的修饰语的数量相等，每一代句子只比上一代句子多一个修饰语。修饰语插入的位置基于上一步生成的模板所确定。由于机器翻译测试所要求的输入空间是非常巨大的，因此为了测试的完备性，本方法使用BERT模型基于原句S中被删除的修饰语，去生成一组与原修饰语仅有一个单词差异的新修饰语。新的修饰语与原修饰语可插入模板的同一槽位置。

3)获取机器翻译结果和选区解析树：如图1中(5)～(6)步骤所示，本方法使用各个翻译平台所提供的API获取翻译，如谷歌翻译、有道云翻译、百度翻译、必应翻译等。在本方法中，源语言为英文，模板语言为中文。在请求url中填入语言设置和待翻译的文本内容，即可获得包含翻译结果的返回值。本方法使用选区解析树去表示句子的句法结构。在语言学中，依存结构和选区结构常被用来描述句子结构的特征。选区反映了句子与其直接成分之一之间的整体关系，而依存关系则表示了成对单词之间的局部关系。图2给出了一个具体示例，说明了选区结构和依存结构之间的区别。依存关系结构是一对一的对应关系，并专注于单词语法(例如，“Bill”是“sees”的对象)。与依存结构不同，选区结构是一对一或多个对应关系，并且侧重于短语结构语法(例如，动词短语“sees Bill”由动词“sees”和专有名词“Bill组成”)。根据语言学的定义，修饰词不能对句子的结构产生强烈的影响。如图2所示，此特征表明给定句子的选区解析树通常保留在其添加修饰语之后的句子的选区解析树中，本方法定义此特征为选区不变性。

4)检测翻译错误：如图1中的(7)～(8)步骤所示中，本方法基于选区不变性去检测错误的翻译。如图3所示，本方法实现了选区解析树路径的匹配算法，按照从左到右的顺序，依次遍历

的解析树中的每一条路径p_i。定义

的选区解析树为

的选区解析树为

如图3所示，检查

中是否存在路径

满足p_i中的节点按序出现。假设p₁，p₂，...，p_i在

中匹配的路径为

则需满足j₁＜j₂＜...＜j_i。其中，j_i为路径

在

中从左到右的顺序。匹配算法的详细设计如图4所示。若匹配算法输出的未匹配路径数量大于0，则认为选区不变性被违背，存在翻译错误，输出疑似错误报告。

本发明的特点在于：

1.提出一个新的概念，选区不变性，该概念可用于检测翻译错误。

2.基于句子压缩模型和BERT模型，提出新的文本扩增方法。

3.运用选区不变性和文本扩增，实现基于句法成分分析的自动化机器翻译测试方法CIT。

附图说明

图1为本发明实施总流程图。

图2为关键步骤3中的选区解析树和依存解析树示例图。

图3为关键步骤4的说明图。

图4为关键步骤4的路径匹配算法。

具体实施方式

本方法基于句法成分分析来实现机器翻译的自动化测试，主要采用了句子压缩技术、词语预测技术、中文分词技术、句法结构解析技术等。

1.生成模板

本发明中，需要生成指导选区变体生成的模板。模板由种子句子和可插入修饰词的槽构成。种子句子必须包含原句的基本结构部分，该部分是指每个完整句子的主语、谓语和宾语或补语。这些部分不可以被删除，否则会产生语法错误。因此，本方法将选区解析树中对应这些基础结构部分的路径，定义为主干，其他部分则为分支，可被删减。为了获取正确的种子句子，本方法使用句子压缩模型。

句子压缩通过去除多余的信息，从而保留了原始句子的语法和重要内容，并产生一个较短的句子。在基于序列到序列(Seq2Seq)的模型中，解码器单向决定保留还是删除字。因此，它通常不能显式地捕获将在将来的时间步长中解码的单词和看不见的单词之间的关系。为了避免产生不合语法的句子，解码器有时会在压缩句子时丢弃重要的单词。综上所述，本方法选用了一种新颖的Seq2Seq模型，即语法前瞻注意网络(SLAHAN)，该模型可以通过在解码过程中显式跟踪依赖项的父词和子词并捕获将来将要解码的重要词来生成信息摘要，并在Google数据集中展现了绝佳的性能。经过SLAHAN的处理，可获得种子句子和被删除的修饰语成分。基于种子句子和原句的差异，可确定待插入修饰语的槽的位置。

2.生成选区变体

该节主要介绍变异算子σ的具体设计与实施方法。为了简化说明，将填充在第i个槽的修饰语定义为a_i。本方法基于模糊测试的思想，在原始修饰语a_i的基础上，生成新的修饰语a_i1，a_i2，...，a_ik。具体为替换a_i中的一个词语，来派生新的修饰语。替换的范围被定义为名词，动词，副词，形容词，所有格代词，并且不包括停用词(常用词，例如，had，was)，以避免奇怪的语法错误。本方法使用遮蔽语言模型(MLM)去确保生成的修饰语符合原句的上下文。输入一个被[MASK]遮蔽一个单词的句子，MLM可以预测哪些词语属于被遮蔽的位置。MLM建立在语言表达模型的基础上，如BERT、OpenAI GPT，ELMo等。Bert属于Transformers的双向编码器表示形式，并使用掩码语言模型来启用预定向双向表示。因此，BERT是本方法的最佳选择。本方法将第i-1代中的句子与第ith个槽相对应的带[MASK]的修饰语拼接起来，然后将其输入BERT。BERT可以返回一个单词列表，该单词列表按处于被屏蔽位置的概率排序。当生成第i代变体的时候，将一个a_i1，a_i2，...，a_ik中的一个修饰语，插入到第i-1代变体中，插入的位置对应模板中第i个槽的位置。

3.比较选区结构

本方法通过比较选区解析树

和

来检查

和

之间的选区不变性。自然语言处理(NLP)领域的研究人员经常采用选区解析树来表示句法句子结构。选区解析树将一个句子分解为多个子短语。树中的非终结符是短语的类型(词性)，叶子节点是句子中的单词，并且边缘未标记。树的路径是从开始节点到叶子节点的一系列节点，通常用于表示叶子节点与句子之间的句法关系。与依赖结构相比，选区结构层次清晰，节点有序。选区结构的特征使其更好地表达了句子的逻辑。因此，本方法选择选区解析树来表示句子的句法结构。选区不变性可公式化为：

p_i表示为

中的从左往右的第i个路径，p′_j表示为

中的从左往右的第j个路径，函数τ(p_i，p′_j)被设计用来度量p_i和p′_j相似度。选区不变性在原语言句子对中成立，那么在翻译中也应该成立。因此，推出如下公式：

本方法选择了shift-reduce解析器，它是在Stanford CoreNLP库中实现的。选区解析的算法有很多种，但shift-reduce解析器是目前最先进的模型，每秒可解析50个以上的句子。在使用该解析器之前，需要先使用中文分词工具对翻译结果进行分词。本方法使用的是jieba分词，该工具在中文分词领域有着极佳的性能。本方法将

中的路径输入到图4中的路径匹配算法，以获得fail_paths。算法1展示了τ(p_i，p′_j)的详细设计。在匹配过程中，本方法忽略叶子节点，即句中的词语，更关注词/短语的类型。本方法从左到右遍历

中的每一个路径p_i，检查

中是否存在路径

满足p_i中的节点按序出现。假设i和j_i为在各自选取解析树中从左到右的序列号，则它们需要同时增加。如果算法返回的fail_paths长度不为0，则认为存在翻译错误，输出错误报告。

在本方法中，模板生成部分我们采用了公开可用的性能最佳的句子压缩模型以识别包含句子基本结构的种子句子；选区变体生成时使用BERT模型去生成更多可被插入模板中的修饰语，以提高测试的完备性；检测翻译错误是基于新提出的概念选区不变性，并且使用同义词过滤、命名实体识别等多项技术减少误报概率。机器翻译系统的开发人员只需将待测句子输入，无需准备参考翻译，即可获得疑似的翻译错误报告。

Claims

1.一种基于句法成分分析的机器翻译自动化测试方法，其特征是使用句法成分分析获取句子的选区结构，并构建蜕变关系，无需参考文本即可评估机器翻译模型的性能；本方法对一组未标记的单语言语句进行句法成分分析，输出意思错误列表，主要解决当前测试机器翻译的存在的依赖参考文本准确性较低、内部参数不可理解和测试预言难以构建的问题。

2.根据权利要求1所描述的一种基于句法成分分析的机器翻译自动化测试方法，其特征是生成用于文本扩增的模板；使用句子压缩模型将每个输入句子压缩为包含基本结构部分的种子句子S₀，再基于S₀，与原句S之间的差异，确认可插入修饰语的槽；为了减少插入修饰语对句子结构性的影响，将过长的槽进行细化，以提高方法的准确性，同时获取了在原句S中与每个槽位置对应的修饰语。

3.根据权利要求1所描述的一种基于句法成分分析的机器翻译自动化测试方法，其特征是生成选区变体：选区变体是指基于句子S₀衍生出的新句子，衍生方式为在原句上插入不影响句子主体结构的修饰语。本方法使用适当的变异算子σ去派生S₀的多代句子S₁，S₂，...，S_n。每个句子的代数与插入的修饰语的数量相等，每一代句子只比上一代句子多一个修饰语，修饰语插入的位置基于上一步生成的模板所确定；由于机器翻译测试所要求的输入空间是非常巨大的，因此为了测试的完备性，本方法使用BERT模型基于原句S中被删除的修饰语，去生成一组与原修饰语仅有一个单词差异的新修饰语，新的修饰语与原修饰语可插入模板的同一槽位置。

4.根据权利要求1所描述的一种基于句法成分分析的机器翻译自动化测试方法，其特征是获取机器翻译结果和选区解析树；使用各个翻译平台所提供的API获取翻译，如谷歌翻译、有道云翻译、百度翻译、必应翻译等；在本方法中，源语言为英文，模板语言为中文；在请求url中填入语言设置和待翻译的文本内容，即可获得包含翻译结果的返回值；本方法使用选区解析树去表示句子的句法结构；依存结构和选区结构常被用来描述句子结构的特征，选区反映了句子与其直接成分之一之间的整体关系，而依存关系则表示了成对单词之间的局部关系；给定句子的选区解析树通常保留在其添加修饰语之后的句子的选区解析树中，本方法定义此特征为选区不变性。

5.根据权利要求1所描述的一种基于句法成分分析的机器翻译自动化测试方法，其特征是基于选区不变性去检测错误的翻译；本方法实现了选区解析树路径的匹配算法，按照从左到右的顺序，依次遍历P(s)的解析树中的每一条路径p_i；定义P(s)的选区解析树为C(P(s))，P(s′)的选区解析树为C(P(s′))。检查C(P(s′))中是否存在路径

满足p_i中的节点按序出现。假设p₁，p₂，...，p_i在C(P(s′))中匹配的路径为

则需满足j₁＜j₂＜...＜j_i。其中，j_i为路径

在C(P(s′))中从左到右的顺序。若匹配算法输出的未匹配路径数量大于0，则认为选区不变性被违背，存在翻译错误，输出疑似错误报告。

6.根据权利要求1所描述的一种基于句法成分分析的机器翻译自动化测试方法，其特征是采用了句子压缩技术、词语预测技术、中文分词技术、句法结构解析等技术来实现该方法。