CN115130480A

CN115130480A - 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

Info

Publication number: CN115130480A
Application number: CN202210405606.8A
Authority: CN
Inventors: 陈翔; 郑炜; 王通; 陈雪骄; 林浩; 周彦琳; 缪芸; 苏展
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-09-30

Abstract

本发明属于机器翻译质量检测技术领域，公开了一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法。针对需要测试的一系列英文源句，首先借助辅助翻译软件，通过计算主英中机器翻译软件和辅助英中机器翻译软件的翻译结果间的余弦相似度，识别出错误候选句子。随后对英文源句进行双粒度替换，以生成替换后的英文源句。并基于成分句法分析和依存句法分析，通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征来进一步识别出错误候选句子。最后通过分析被归为错误候选句子的英文源句，尝试定位并修复英中翻译软件测试方法的实现代码，以提高英中翻译软件的翻译质量。

Description

基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

技术领域

本发明涉及机器翻译质量检测技术领域，提出了一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法。

背景技术

目前，人们在生活和学习中依赖基于神经翻译模型的机器翻译软件，如国内的百度翻译、腾讯翻译和国外的Google Translator和Bing Microsoft Translator。然而研究发现，神经翻译模型对于干净样本输入会给出正确的输出，携带噪音的输入会出现非法输出，这些不正确的输出所带来的问题可大可小，如误解、尴尬行为，严重的话可造成医疗误诊、经济损失，甚至威胁人身安全。因此在机器翻译软件普遍使用情况下对翻译质量的研究是很具有意义和价值的，也是一种对使用者的负责行为。

机器翻译质量估计技术，是在没有参考译文的情况下自动地评价机器译文的质量。在翻译质量估计过程中，只使用源语言句子和机器译文。由于不需要标准人工参考译文作为参照，其在工业界特别是在大规模的机器翻译质量评估场景中，它有着非常广泛的应用需求，可以大大节省人力和财力。

蜕变测试思想广泛应用于机器测试领域。蜕变测试是一种检查多个执行结果之间的关系来测试程序质量的方法，也是测试用例输入生成方法之一。蜕变检测的特性适用于内部结构繁杂的神经网络，因此适用于检测神经机器翻译模型翻译的质量，寻找合适的蜕变关系来判定机器翻译的正确性是一种比较好的方式，但是如何定义蜕变关系是关键所在。

然而现有的基于蜕变关系的机器翻译模型质量评估方法仍存在问题，如：使用单一蜕变关系来进行蜕变测试、替换规则过简单等。导致实验缺少多维度度量，不能有效全面测试机器翻译的质量，因此寻求更优的蜕变测试方法已成为当务之急。

发明内容

本发明的目的是针对现有的机器翻译质量估计方法存在的蜕变关系单一、替换规则简单等问题，提出一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法，可以从需要测试的一系列英文源句中，有效识别出错误候选句子，从而可以定位并修复英中翻译软件测试方法的实现代码，以提高英中翻译软件的翻译质量。

为解决上述技术问题，本发明所采用的技术方案是：

(1)将被测英中机器翻译软件视为主英中机器翻译软件，其他三个英中机器翻译软件视为辅助英中机器翻译软件。针对需要测试的一系列英文源句，依次分析每个英文源句。具体来说：给定英文源句，将主英中机器翻译软件的翻译结果，即中文目标句A，与辅助英中机器翻译软件的翻译结果进行对比，在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度。将三个辅助英中机器翻译软件生成的中文目标句定义为A₁、A₂、A₃。首先将相似度阈值设置为0.85，计算A₁、A₂、A₃两两之间的余弦相似度，若两句间的余弦相似度超过阈值0.85，则认为这两个句子相似。根据上述结果，可以将A₁、A₂和A₃归到不同的集合中，使得处在同一集合内的中文目标句两两相似。根据集合划分的结果，可能出现两种情况：

情况1：A₁、A₂、A₃被归到不同集合内，这意味着辅助英中机器翻译软件难以对翻译结果达成共识，因此需要将该英文源句视为错误候选句子，人工分析错误类型，并进行归类。常见的翻译错误类型包括：翻译不足、翻译过度、单词误译(包括一词多义的歧义性和翻译错误)、逻辑不清、数量词错误。

情况2：有集合包含的中文目标句不少于2个，这意味着至少有2个辅助英中机器翻译软件针对该英文源句的翻译结果达成共识，因此可以认为该集合内包含的中文目标句是英文源句的正确翻译。随后我们将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值，若均值低于相似度阈值0.85，则将该英文源句视为错误候选句子，人工分析错误类型。

针对剩余未被归为错误候选句子的英文源句，则进入步骤(2)。

(2)针对步骤(1)中剩余未被归为错误候选句子的英文源句，依次分析每个英文源句，具体来说：对需要分析的英文源句进行双粒度替换，以生成替换后的英文源句。随后基于成分句法分析和依存句法分析，通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征，以判断是否存在翻译错误，并随后人工分析错误类型，并进行归类。

具体包括如下步骤：

2-1)选择英文源句中需要替换的单词或者短语。

2-2)基于BERT遮蔽语言模型，完成单词粒度的替换或者短语粒度的替换，以生成替换后的英文源句。其中，单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词，以完成单词粒度的替换。主要考虑三个成分(分别是名词、形容词和动词)。短语粒度的替换是在单词粒度的基础上，组合出主谓短语和动宾短语进行替换。具体来说，将需要替换的单词和短语用MASK进行标记，随后将标记过的英文源句输入BERT遮蔽语言模型，该模型可以根据句子的上下文预测被遮蔽位置的单词或短语，最后用预测出的单词或短语替换英文源句中对应位置的单词或短语，以得到基于单词粒度或短语粒度的替换句。

BERT模型的超参与超参取值设置如下：

所述BERT模型的一次训练所抓取的数据样本数量设置为16；

所述BERT模型的学习率设置为0.00002；

所述BERT模型的dropout设置为0.1；

所述BERT模型的训练轮次设置为3轮；

所述BERT模型的每个样本的最大长度，即最大单词数设置为128。

具体而言，单词粒度替换的替换过程为：

①找出待替换词；

②将遮蔽后的句子输入模型进行预测得到预测出的对应单词，每一个待替换词都用预测出现概率前三大的单词进行分别替换，最终每一个待替换单词都会得到三个对应的英文替换句。

具体而言，短语粒度替换的替换过程为：

①找出待替换短语；

②依次遮蔽组成该短语的除最后一个以外的所有单词，将使用MASK标记遮蔽该单词后的句子输入模型进行预测，得到该单词位置上预测出现概率第一大的单词，并依次替换该单词；

③在第二步替换结果的基础上，使用MASK标记替换组成该短语的最后一个单词，每次仅替换一个，并将替换后的句子输入模型，预测该替换位置的单词，并仅用出现概率最大的预测结果替换该单词；

④最终针对每一个待替换短语，都会得到三个对应的英文替换句。除了短语的第一个单词以外，这三个英文替换句其他部分全都相同。

2-3)基于成分句法分析和依存句法分析，依次分析英文源句和生成的替换句。假设原始英文源句为s，基于主英中机器翻译软件得到的中文目标句为t，替换后的英文源句为s’，基于主英中机器翻译软件得到的中文目标句为t’。首先通过成分句法分析得到中文目标句t和中文目标句t’的结构表征。由于结构表征以集合的方式给出，因此通过集合差的方式，可以计算出中文目标句t的结构表征与中文目标句t’ 的结构表征的差值，并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1。随后通过依存句法分析得到中文目标句t和中文目标句t’的结构表征。同样这些结构表征也是以集合的方式给出，因此通过集合差的方式，可以计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值，并将该差值包含的元素数作为基于依存句法分析得到的差异值diff2。将差异值diff1和差异值diff2相加，最终可以得到针对原始英文源句s和英文源句s’的最终差值。若该差值超过阈值6，则将英文源句s和英文源句s’视为错误候选句子，人工分析错误类型，并进行归类。

(3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句，尝试定位并修复英中翻译软件测试方法的实现代码，以提高英中翻译软件的翻译质量。

其中，错误类型具体而言有以下种类：

具体而言，翻译错误类型一共可归类为五大类六小类：

1)翻译不足。如果有些单词被错误地未翻译(即没有出现在译文中)，就会被定义为翻译不足的错误。表1中呈现了包含翻译不足错误的句子对。在这个例子中，“remaining”被错误地未翻译，导致语义不同。

表1翻译不足

2)翻译过度。如果有些单词被不必要地翻译了多次，或者目标句中有一些无法从源句中找到任何对应单词的翻译结果，就可以被认为是过度翻译错误。在表2中，目标句中的“解答”不是从源句中的任何单词翻译而来的，因此是一个翻译过度错误。

表2翻译过度示例1

Source	Office 365Management Activity API frequently asked questions.
		Target	Office 365管理活动API常见问题解答。
Target meaning	Office 365Management Activity API frequently answer for asked questions.

另外，如表3所示，“Approved by”的正确翻译是“由……批准”，而Bing翻译为了弥补句子的流畅度，追加了“现场”一词,造成了一个翻译过度错误。

表3翻译过度示例2

Source	In the Approved by field,enter or select a value.
		Target	在经现场批准的字段中，输入或选择一个值。(Bing翻译)
Target meaning	In the Approved by site field,enter or select a value.

3)单词误译。如果一些单词或短语在目标句子中被错误地翻译，就是一个单词/短语误译错误。然而，单词翻译是由两种原因造成的，一种是单词直接被翻译错误；另一种是单词没有翻译错误，但是单词是多义词，而翻译结果中对应的多义词词义不合语境。

A.一词多义的歧义性。每个单词或者短语可以有多个正确的翻译。然后，通常在特定的语义上下文中，一个单词或者短语只有一个正确的翻译。目前机器翻译软件在一词多义上表现不佳。在表4这个例子中，谷歌翻译认为源句中的“inventory”是指“清单”，但是在这条句子的语境中应该被翻译为“库存”, 这就导致了一个一词多义误译错误。

表4一词多义

B.翻译错误。一个单词或者短语也可能被错误地翻译成另一个语义上不相关的意思。例如，在表5 中，像“MCDEventSubscriptions”这种专有术语如果词库中不存在对应的语料就应该选择不翻译或者音译，但百度翻译器却错误地将“MCDEventSubscriptions”与语料库中的“我”对应，这就导致了单词误译错误。此外，Bing翻译软件中这种错误也很常见。

表5单词误译

Source	Listen to <u>MCDEventSubscriptions</u>.
		Target	听我说。(百度翻译)
Target meaning	Listen to <u>me</u>.

4)逻辑不清。如果所有的单词或者短语都翻译正确，但句子逻辑不正确，那就是逻辑不清错误。在表6中，Bing翻译正确地翻译了所有的单词，但是在判断介词“after”出现的位置时发生了错误，Bing 翻译软件错误的将“after”修饰了“Azure displays the appsecret”。NMT模型给出的译文中普遍存在逻辑不清的错误，这在一定程度上是模型是否真正理解某些语义的标志。

表6逻辑不清

5)数量词错误。原文语句中的数量词没有被翻译或者翻译有误。表7数量词“a”没有被腾讯翻译器翻译出来，虽然并不影响整体的句意，但使得翻译前后句子并不对应。

表7数量词错误

Source	This interface uses a simple event model.
		Target	此接口使用简单的事件模型。(腾讯翻译)
Target meaning	<u>This interface uses simple evet model.</u>

本发明与现有技术相比具有以下优点和效果：

1、本方法实验的数据集选取构建软件工程领域经常出现的软件说明文档语句，旨在评估特殊领域神经机器翻译软件的健壮性。

2、本方法借用差分测试思想对比被测机器翻译软件和辅助测试机器翻译软件的翻译结果，将错误的翻译结果剔除，防止错误的翻译结果在蜕变测试出现假阴性的结果，弥补蜕变关系的不足。并且通过对比被测机器翻译软件和辅助测试机器翻译软件的翻译结果，实现了无监督测试，提供了克服对照句子短缺、无高质量译文的有效方法。

3、本方法本文选择在句子结构上进行蜕变测试，蜕变关系是“相似”源句的翻译结果呈现出相似的句子“结构”。分别在单词粒度和短语粒度上进行替换，能够同时给出单词级别和短语级别两种粒度上的预测结果，并综合两种粒度结果，有效全面测试机器翻译的质量。

附图说明

图1为本发明一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法的流程图

图2为本发明一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法中遮蔽词原理及流程子图

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明提供的基于辅助翻译软件和双粒度替换的英中翻译软件测试方法及其制备方法进行详细说明，本发明的保护范围不受以下实施例的限制。

如图1所示，本发明提供的一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法，具体包括以下步骤：

(1)将被测英中机器翻译软件视为主英中机器翻译软件，其他三个英中机器翻译软件视为辅助英中机器翻译软件。给定英文源句，将主英中机器翻译软件的翻译结果，即中文目标句A，与辅助英中机器翻译软件的翻译结果进行对比，在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度。将三个辅助英中机器翻译软件生成的中文目标句定义为A₁、A₂、A₃。首先将相似度阈值设置为0.85，计算A₁、A₂、 A₃两两之间的余弦相似度，若两句间的余弦相似度超过阈值0.85，则认为这两个句子相似。根据上述结果，可以将A₁、A₂和A₃归到不同的集合中，使得处在同一集合内的中文目标句两两相似。根据集合划分的结果，可能出现两种情况：

情况1：A₁、A₂、A₃被归到不同集合内，这意味着辅助英中机器翻译软件难以对翻译结果达成共识，因此需要将该英文源句视为错误候选句子，人工分析错误类型，并进行归类。常见的翻译错误类型包括：翻译不足、翻译过度、逻辑不清、单词误译、单词歧义、错误修饰。

情况2：有集合包含的中文目标句不少于2个，这意味着至少有2个辅助英中机器翻译软件针对该英文源句的翻译结果达成共识，因此可以认为该集合内包含的中文目标句是英文源句的正确翻译。随后我们将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值，若均值低于相似度阈值0.85，则将该英文源句视为错误候选句子，人工分析错误类型。若相似，则进入步骤(2)。

英文源句及中文目标句A、A₁、A₂、A₃的翻译结果可见于表8：

表8英文源句及中文目标句A、A₁、A₂、A₃的翻译结果

余弦相似度计算与集合划分结果可分别见于表9和表10，由于A与A₂、A₃的相似度均值为0.88，大于阈值0.85，对应情况2：

表9余弦相似度计算结果

句子对	余弦相似度
		A与A<sub>1</sub>	0.7
A与A<sub>2</sub>	0.89
		A与A<sub>3</sub>	0.87
A<sub>1</sub>与A<sub>2</sub>	0.72
		A<sub>1</sub>与A<sub>3</sub>	0.7
A<sub>2</sub>与A<sub>3</sub>	0.9

表10集合划分结果

组别	包含句子
		集合1	A<sub>1</sub>
集合2	A、A<sub>2</sub>、A<sub>3</sub>

(2)对英文源句进行双粒度替换，以生成替换后的英文源句。随后基于成分句法分析和依存句法分析，通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征，以判断是否存在翻译错误，并随后人工分析错误类型，并进行归类。

具体包括如下步骤：

2-1)选择英文源句中需要替换的单词或者短语。选择出的单词和短语如表11所示：

表11待替换单词与短语

待替换单词	待替换短语
		article	article gives
gives	gives…overview
		overview
Straight
		remaining
method
		depreciation

2-2)基于BERT遮蔽语言模型，完成单词粒度的替换或者短语粒度的替换，以生成替换后的英文源句。其中，单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词，以完成单词粒度的替换。主要考虑三个成分(分别是名词、形容词和动词)。短语粒度的替换是在单词粒度的基础上，组合出主谓短语和动宾短语进行替换。

具体如图2所示，将需要替换的单词和短语用MASK进行标记，随后将标记过的英文源句输入BERT遮蔽语言模型，该模型可以根据句子的上下文预测被遮蔽位置的单词或短语，最后用预测出的单词或短语替换英文源句中对应位置的单词或短语，以得到基于单词粒度或短语粒度的替换句。

BERT模型的超参与超参取值设置如下：

所述BERT模型的一次训练所抓取的数据样本数量设置为16；

所述BERT模型的学习率设置为0.00002；

所述BERT模型的dropout设置为0.1；

所述BERT模型的训练轮次设置为3轮；

具体而言，单词粒度替换的替换过程为：

①找出待替换词；

以待替换单词“article”为例进行说明单词粒度替换过程，如表12所示：

表12单词粒度替换过程示意表

具体而言，短语粒度替换的替换过程为：

①找出待替换短语；

②依次遮蔽组成该短语除最后一个以外的所有单词，并将遮蔽后的句子输入模型进行预测，得到该单词位置上预测出现概率第一大的单词，并依次替换该单词；

④最终针对每一个待替换短语，都会得到三个对应的英文替换句。除了短语的最后一个单词以外，这三个英文替换句其他部分全都相同。

以待替换短语“gives…overview”为例说明短语粒度替换过程，如表13所示：

表13短语粒度替换过程示意表

2-3)基于成分句法分析和依存句法分析，依次分析英文源句和生成的替换句。假设原始英文源句为s，基于主英中机器翻译软件得到的中文目标句为t，替换后的英文源句为s’，基于主英中机器翻译软件得到的中文目标句为t’。首先通过成分句法分析得到中文目标句t和中文目标句t’的结构表征。由于结构表征以集合的方式给出，因此通过集合差的方式，可以计算出中文目标句t的结构表征与中文目标句t’ 的结构表征的差值，并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1。随后通过依存句法分析得到中文目标句t和中文目标句t’的结构表征。同样这些结构表征也是以集合的方式给出，因此通过集合差的方式，可以计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值，并将该差值包含的元素数作为基于依存句法分析得到的差异值diff2。若diff1或diff2的任意一个值超过阈值 6，则将英文源句s和英文源句s’视为错误候选句子，人工分析错误类型，并进行归类。

具体而言，中文目标句t和中文目标句t’使用成分句法分析方法，得到结构表征集合，并以集合差的方式计算差异值diff1的过程示例如表14所示：

表14计算差异值diff1的过程示例

运用成分句法分析与依存句法分析方法，表12与表13中所示样例所得到的diff1、diff2结果如表 15所示，可知4号替换句被视为错误候选，其余均通过：

表15diff1和diff2

进一步分析4号英文替换句，人工分析并判定其为数量词错误类型，由于存在错误候选，该被测英中机器翻译软件将被视为未通过测试，存在缺陷。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点，对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法，其特征在于，包括如下步骤：

(1)将被测英中机器翻译软件视为主英中机器翻译软件，其他三个英中机器翻译软件视为辅助英中机器翻译软件，针对需要测试的一系列英文源句，依次分析每个英文源句；

所述分析每个英文源句具体为：给定一个英文源句，将主英中机器翻译软件的翻译结果，即中文目标句A，与辅助英中机器翻译软件的翻译结果进行对比，在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度，将三个辅助英中机器翻译软件生成的中文目标句定义为A₁、A₂、A₃。首先将相似度阈值设置为0.85，计算A₁、A₂、A₃两两之间的余弦相似度，若两句间的余弦相似度超过阈值0.85，则认为这两个句子相似，根据上述结果，可以将A₁、A₂和A₃归到不同的集合中，使得处在同一集合内的中文目标句两两相似；

根据集合划分的结果，存在两种情况：

情况1：A₁、A₂、A₃被归到不同集合内，将该英文源句视为错误候选句子，人工分析错误类型，并进行归类错误类型包括：翻译不足、翻译过度、逻辑不清、单词误译、单词歧义、错误修饰；

情况2：有集合包含的中文目标句不少于2个，将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值，若均值低于相似度阈值0.85，则将该英文源句视为错误候选句子，人工分析错误类型。

针对剩余未被归为错误候选句子的英文源句，则进入步骤(2)；

(2)针对步骤(1)中剩余未被归为错误候选句子的英文源句，依次分析每个英文源句，具体来说：对需要分析的英文源句进行双粒度替换，以生成替换后的英文源句。随后基于成分句法分析和依存句法分析，通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征，以判断是否存在翻译错误，并随后人工分析错误类型，并进行归类；

具体包括如下步骤：

2-1)选择英文源句中需要替换的单词或者短语；

2-2)基于BERT遮蔽语言模型，完成单词粒度的替换或者短语粒度的替换，以生成替换后的英文源句；其中，单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词，以完成单词粒度的替换，主要考虑名词、形容词和动词三个成分)；短语粒度的替换是在单词粒度的基础上，组合出主谓短语和动宾短语进行替换；

具体包括以下步骤：

将需要替换的单词和短语用MASK进行标记，随后将标记过的英文源句输入BERT遮蔽语言模型，该模型可以根据句子的上下文预测被遮蔽位置的单词或短语，最后用预测出的单词或短语替换英文源句中对应位置的单词或短语，以得到基于单词粒度或短语粒度的替换句；

BERT模型的超参与超参取值设置如下：

所述BERT模型的一次训练所抓取的数据样本数量设置为16；

所述BERT模型的学习率设置为0.00002；

所述BERT模型的dropout设置为0.1；

所述BERT模型的训练轮次设置为3轮；

所述BERT模型的每个样本的最大长度，即最大单词数设置为128；

2-3)基于成分句法分析和依存句法分析，依次分析英文源句和生成的替换句；

具体包括以下步骤：

假设原始英文源句为s，基于主英中机器翻译软件得到的中文目标句为t，替换后的英文源句为s’，基于主英中机器翻译软件得到的中文目标句为t’；

通过成分句法分析得到中文目标句t和中文目标句t’的结构表征；

通过集合差的方式，计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值，并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1；

通过依存句法分析得到中文目标句t和中文目标句t’的结构表征，通过集合差的方式，计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值，并将该差值包含的元素数作为基于依存句法分析得到的差异值diff2；

将差异值diff1和差异值diff2相加，最终可以得到针对原始英文源句s和英文源句s’的最终差值；若该差值超过阈值6，则将英文源句s和英文源句s’视为错误候选句子，人工分析错误类型，并进行归类。