CN115130480A - 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 - Google Patents

基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 Download PDF

Info

Publication number
CN115130480A
CN115130480A CN202210405606.8A CN202210405606A CN115130480A CN 115130480 A CN115130480 A CN 115130480A CN 202210405606 A CN202210405606 A CN 202210405606A CN 115130480 A CN115130480 A CN 115130480A
Authority
CN
China
Prior art keywords
english
sentence
translation
chinese
translation software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210405606.8A
Other languages
English (en)
Inventor
陈翔
郑炜
王通
陈雪骄
林浩
周彦琳
缪芸
苏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202210405606.8A priority Critical patent/CN115130480A/zh
Publication of CN115130480A publication Critical patent/CN115130480A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于机器翻译质量检测技术领域,公开了一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法。针对需要测试的一系列英文源句,首先借助辅助翻译软件,通过计算主英中机器翻译软件和辅助英中机器翻译软件的翻译结果间的余弦相似度,识别出错误候选句子。随后对英文源句进行双粒度替换,以生成替换后的英文源句。并基于成分句法分析和依存句法分析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征来进一步识别出错误候选句子。最后通过分析被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的翻译质量。

Description

基于辅助翻译软件和双粒度替换的英中翻译软件测试方法
技术领域
本发明涉及机器翻译质量检测技术领域,提出了一种基于辅助翻译软件和双粒度替换的英中翻译软件 测试方法。
背景技术
目前,人们在生活和学习中依赖基于神经翻译模型的机器翻译软件,如国内的百度翻译、腾讯翻译和 国外的Google Translator和Bing Microsoft Translator。然而研究发现,神经翻译模型对于干净样本输入会 给出正确的输出,携带噪音的输入会出现非法输出,这些不正确的输出所带来的问题可大可小,如误解、 尴尬行为,严重的话可造成医疗误诊、经济损失,甚至威胁人身安全。因此在机器翻译软件普遍使用情况 下对翻译质量的研究是很具有意义和价值的,也是一种对使用者的负责行为。
机器翻译质量估计技术,是在没有参考译文的情况下自动地评价机器译文的质量。在翻译质量估计过 程中,只使用源语言句子和机器译文。由于不需要标准人工参考译文作为参照,其在工业界特别是在大规 模的机器翻译质量评估场景中,它有着非常广泛的应用需求,可以大大节省人力和财力。
蜕变测试思想广泛应用于机器测试领域。蜕变测试是一种检查多个执行结果之间的关系来测试程序质 量的方法,也是测试用例输入生成方法之一。蜕变检测的特性适用于内部结构繁杂的神经网络,因此适用 于检测神经机器翻译模型翻译的质量,寻找合适的蜕变关系来判定机器翻译的正确性是一种比较好的方 式,但是如何定义蜕变关系是关键所在。
然而现有的基于蜕变关系的机器翻译模型质量评估方法仍存在问题,如:使用单一蜕变关系来进行蜕 变测试、替换规则过简单等。导致实验缺少多维度度量,不能有效全面测试机器翻译的质量,因此寻求更 优的蜕变测试方法已成为当务之急。
发明内容
本发明的目的是针对现有的机器翻译质量估计方法存在的蜕变关系单一、替换规则简单等问题,提出 一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法,可以从需要测试的一系列英文源句中,有 效识别出错误候选句子,从而可以定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的 翻译质量。
为解决上述技术问题,本发明所采用的技术方案是:
(1)将被测英中机器翻译软件视为主英中机器翻译软件,其他三个英中机器翻译软件视为辅助英中 机器翻译软件。针对需要测试的一系列英文源句,依次分析每个英文源句。具体来说:给定英文源句,将 主英中机器翻译软件的翻译结果,即中文目标句A,与辅助英中机器翻译软件的翻译结果进行对比,在对 比的时候主要基于余弦相似度来计算翻译结果之间的相似度。将三个辅助英中机器翻译软件生成的中文目 标句定义为A1、A2、A3。首先将相似度阈值设置为0.85,计算A1、A2、A3两两之间的余弦相似度,若两句 间的余弦相似度超过阈值0.85,则认为这两个句子相似。根据上述结果,可以将A1、A2和A3归到不同的集合中,使得处在同一集合内的中文目标句两两相似。根据集合划分的结果,可能出现两种情况:
情况1:A1、A2、A3被归到不同集合内,这意味着辅助英中机器翻译软件难以对翻译结果达成共识,因 此需要将该英文源句视为错误候选句子,人工分析错误类型,并进行归类。常见的翻译错误类型包括:翻 译不足、翻译过度、单词误译(包括一词多义的歧义性和翻译错误)、逻辑不清、数量词错误。
情况2:有集合包含的中文目标句不少于2个,这意味着至少有2个辅助英中机器翻译软件针对该英 文源句的翻译结果达成共识,因此可以认为该集合内包含的中文目标句是英文源句的正确翻译。随后我们 将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值,若均值低于相似度阈值0.85,则 将该英文源句视为错误候选句子,人工分析错误类型。
针对剩余未被归为错误候选句子的英文源句,则进入步骤(2)。
(2)针对步骤(1)中剩余未被归为错误候选句子的英文源句,依次分析每个英文源句,具体来说: 对需要分析的英文源句进行双粒度替换,以生成替换后的英文源句。随后基于成分句法分析和依存句法分 析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征,以判断是 否存在翻译错误,并随后人工分析错误类型,并进行归类。
具体包括如下步骤:
2-1)选择英文源句中需要替换的单词或者短语。
2-2)基于BERT遮蔽语言模型,完成单词粒度的替换或者短语粒度的替换,以生成替换后的英文源句。 其中,单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词,以完成单词 粒度的替换。主要考虑三个成分(分别是名词、形容词和动词)。短语粒度的替换是在单词粒度的基础上, 组合出主谓短语和动宾短语进行替换。具体来说,将需要替换的单词和短语用MASK进行标记,随后将标 记过的英文源句输入BERT遮蔽语言模型,该模型可以根据句子的上下文预测被遮蔽位置的单词或短语, 最后用预测出的单词或短语替换英文源句中对应位置的单词或短语,以得到基于单词粒度或短语粒度的替 换句。
BERT模型的超参与超参取值设置如下:
所述BERT模型的一次训练所抓取的数据样本数量设置为16;
所述BERT模型的学习率设置为0.00002;
所述BERT模型的dropout设置为0.1;
所述BERT模型的训练轮次设置为3轮;
所述BERT模型的每个样本的最大长度,即最大单词数设置为128。
具体而言,单词粒度替换的替换过程为:
①找出待替换词;
②将遮蔽后的句子输入模型进行预测得到预测出的对应单词,每一个待替换词都用预测出现概率前 三大的单词进行分别替换,最终每一个待替换单词都会得到三个对应的英文替换句。
具体而言,短语粒度替换的替换过程为:
①找出待替换短语;
②依次遮蔽组成该短语的除最后一个以外的所有单词,将使用MASK标记遮蔽该单词后的句子输入模 型进行预测,得到该单词位置上预测出现概率第一大的单词,并依次替换该单词;
③在第二步替换结果的基础上,使用MASK标记替换组成该短语的最后一个单词,每次仅替换一个, 并将替换后的句子输入模型,预测该替换位置的单词,并仅用出现概率最大的预测结果替换该单词;
④最终针对每一个待替换短语,都会得到三个对应的英文替换句。除了短语的第一个单词以外,这 三个英文替换句其他部分全都相同。
2-3)基于成分句法分析和依存句法分析,依次分析英文源句和生成的替换句。假设原始英文源句为s, 基于主英中机器翻译软件得到的中文目标句为t,替换后的英文源句为s’,基于主英中机器翻译软件得 到的中文目标句为t’。首先通过成分句法分析得到中文目标句t和中文目标句t’的结构表征。由于结 构表征以集合的方式给出,因此通过集合差的方式,可以计算出中文目标句t的结构表征与中文目标句t’ 的结构表征的差值,并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1。随后通过依存 句法分析得到中文目标句t和中文目标句t’的结构表征。同样这些结构表征也是以集合的方式给出,因此通过集合差的方式,可以计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该 差值包含的元素数作为基于依存句法分析得到的差异值diff2。将差异值diff1和差异值diff2相加,最 终可以得到针对原始英文源句s和英文源句s’的最终差值。若该差值超过阈值6,则将英文源句s和英 文源句s’视为错误候选句子,人工分析错误类型,并进行归类。
(3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件 测试方法的实现代码,以提高英中翻译软件的翻译质量。
其中,错误类型具体而言有以下种类:
具体而言,翻译错误类型一共可归类为五大类六小类:
1)翻译不足。如果有些单词被错误地未翻译(即没有出现在译文中),就会被定义为翻译不足的错误。 表1中呈现了包含翻译不足错误的句子对。在这个例子中,“remaining”被错误地未翻译,导致语义不 同。
表1翻译不足
Figure BDA0003601728600000021
Figure BDA0003601728600000031
2)翻译过度。如果有些单词被不必要地翻译了多次,或者目标句中有一些无法从源句中找到任何对 应单词的翻译结果,就可以被认为是过度翻译错误。在表2中,目标句中的“解答”不是从源句中的任何 单词翻译而来的,因此是一个翻译过度错误。
表2翻译过度示例1
Source Office 365Management Activity API frequently asked questions.
Target Office 365管理活动API常见问题解答。
Target meaning Office 365Management Activity API frequently answer for asked questions.
另外,如表3所示,“Approved by”的正确翻译是“由……批准”,而Bing翻译为了弥补句子的流 畅度,追加了“现场”一词,造成了一个翻译过度错误。
表3翻译过度示例2
Source In the Approved by field,enter or select a value.
Target 在经现场批准的字段中,输入或选择一个值。(Bing翻译)
Target meaning In the Approved by site field,enter or select a value.
3)单词误译。如果一些单词或短语在目标句子中被错误地翻译,就是一个单词/短语误译错误。然而, 单词翻译是由两种原因造成的,一种是单词直接被翻译错误;另一种是单词没有翻译错误,但是单词是多 义词,而翻译结果中对应的多义词词义不合语境。
A.一词多义的歧义性。每个单词或者短语可以有多个正确的翻译。然后,通常在特定的语义上下文 中,一个单词或者短语只有一个正确的翻译。目前机器翻译软件在一词多义上表现不佳。在表4这个例子 中,谷歌翻译认为源句中的“inventory”是指“清单”,但是在这条句子的语境中应该被翻译为“库存”, 这就导致了一个一词多义误译错误。
表4一词多义
Figure BDA0003601728600000032
B.翻译错误。一个单词或者短语也可能被错误地翻译成另一个语义上不相关的意思。例如,在表5 中,像“MCDEventSubscriptions”这种专有术语如果词库中不存在对应的语料就应该选择不翻译或者音 译,但百度翻译器却错误地将“MCDEventSubscriptions”与语料库中的“我”对应,这就导致了单词误 译错误。此外,Bing翻译软件中这种错误也很常见。
表5单词误译
Source Listen to <u>MCDEventSubscriptions</u>.
Target 听我说。(百度翻译)
Target meaning Listen to <u>me</u>.
4)逻辑不清。如果所有的单词或者短语都翻译正确,但句子逻辑不正确,那就是逻辑不清错误。在 表6中,Bing翻译正确地翻译了所有的单词,但是在判断介词“after”出现的位置时发生了错误,Bing 翻译软件错误的将“after”修饰了“Azure displays the appsecret”。NMT模型给出的译文中普遍存在 逻辑不清的错误,这在一定程度上是模型是否真正理解某些语义的标志。
表6逻辑不清
Figure BDA0003601728600000033
Figure BDA0003601728600000041
5)数量词错误。原文语句中的数量词没有被翻译或者翻译有误。表7数量词“a”没有被腾讯翻译器 翻译出来,虽然并不影响整体的句意,但使得翻译前后句子并不对应。
表7数量词错误
Source This interface uses a simple event model.
Target 此接口使用简单的事件模型。(腾讯翻译)
Target meaning <u>This interface uses simple evet model.</u>
本发明与现有技术相比具有以下优点和效果:
1、本方法实验的数据集选取构建软件工程领域经常出现的软件说明文档语句,旨在评估特殊领域神 经机器翻译软件的健壮性。
2、本方法借用差分测试思想对比被测机器翻译软件和辅助测试机器翻译软件的翻译结果,将错误的 翻译结果剔除,防止错误的翻译结果在蜕变测试出现假阴性的结果,弥补蜕变关系的不足。并且通过对比 被测机器翻译软件和辅助测试机器翻译软件的翻译结果,实现了无监督测试,提供了克服对照句子短缺、 无高质量译文的有效方法。
3、本方法本文选择在句子结构上进行蜕变测试,蜕变关系是“相似”源句的翻译结果呈现出相似的 句子“结构”。分别在单词粒度和短语粒度上进行替换,能够同时给出单词级别和短语级别两种粒度上的 预测结果,并综合两种粒度结果,有效全面测试机器翻译的质量。
附图说明
图1为本发明一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法的流程图
图2为本发明一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法中遮蔽词原理及流程子 图
具体实施方式
为了进一步理解本发明,下面结合实施例对本发明提供的基于辅助翻译软件和双粒度替换的英中翻译 软件测试方法及其制备方法进行详细说明,本发明的保护范围不受以下实施例的限制。
如图1所示,本发明提供的一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法,具体包括 以下步骤:
(1)将被测英中机器翻译软件视为主英中机器翻译软件,其他三个英中机器翻译软件视为辅助英中 机器翻译软件。给定英文源句,将主英中机器翻译软件的翻译结果,即中文目标句A,与辅助英中机器翻 译软件的翻译结果进行对比,在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度。将三个辅 助英中机器翻译软件生成的中文目标句定义为A1、A2、A3。首先将相似度阈值设置为0.85,计算A1、A2、 A3两两之间的余弦相似度,若两句间的余弦相似度超过阈值0.85,则认为这两个句子相似。根据上述结果, 可以将A1、A2和A3归到不同的集合中,使得处在同一集合内的中文目标句两两相似。根据集合划分的结果, 可能出现两种情况:
情况1:A1、A2、A3被归到不同集合内,这意味着辅助英中机器翻译软件难以对翻译结果达成共识,因 此需要将该英文源句视为错误候选句子,人工分析错误类型,并进行归类。常见的翻译错误类型包括:翻 译不足、翻译过度、逻辑不清、单词误译、单词歧义、错误修饰。
情况2:有集合包含的中文目标句不少于2个,这意味着至少有2个辅助英中机器翻译软件针对该英 文源句的翻译结果达成共识,因此可以认为该集合内包含的中文目标句是英文源句的正确翻译。随后我们 将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值,若均值低于相似度阈值0.85,则 将该英文源句视为错误候选句子,人工分析错误类型。若相似,则进入步骤(2)。
英文源句及中文目标句A、A1、A2、A3的翻译结果可见于表8:
表8英文源句及中文目标句A、A1、A2、A3的翻译结果
Figure BDA0003601728600000042
Figure BDA0003601728600000051
余弦相似度计算与集合划分结果可分别见于表9和表10,由于A与A2、A3的相似度均值为0.88,大 于阈值0.85,对应情况2:
表9余弦相似度计算结果
句子对 余弦相似度
A与A<sub>1</sub> 0.7
A与A<sub>2</sub> 0.89
A与A<sub>3</sub> 0.87
A<sub>1</sub>与A<sub>2</sub> 0.72
A<sub>1</sub>与A<sub>3</sub> 0.7
A<sub>2</sub>与A<sub>3</sub> 0.9
表10集合划分结果
组别 包含句子
集合1 A<sub>1</sub>
集合2 A、A<sub>2</sub>、A<sub>3</sub>
(2)对英文源句进行双粒度替换,以生成替换后的英文源句。随后基于成分句法分析和依存句法分 析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征,以判断是 否存在翻译错误,并随后人工分析错误类型,并进行归类。
具体包括如下步骤:
2-1)选择英文源句中需要替换的单词或者短语。选择出的单词和短语如表11所示:
表11待替换单词与短语
待替换单词 待替换短语
article article gives
gives gives…overview
overview
Straight
remaining
method
depreciation
2-2)基于BERT遮蔽语言模型,完成单词粒度的替换或者短语粒度的替换,以生成替换后的英文源句。 其中,单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词,以完成单词 粒度的替换。主要考虑三个成分(分别是名词、形容词和动词)。短语粒度的替换是在单词粒度的基础上, 组合出主谓短语和动宾短语进行替换。
具体如图2所示,将需要替换的单词和短语用MASK进行标记,随后将标记过的英文源句输入BERT遮 蔽语言模型,该模型可以根据句子的上下文预测被遮蔽位置的单词或短语,最后用预测出的单词或短语替 换英文源句中对应位置的单词或短语,以得到基于单词粒度或短语粒度的替换句。
BERT模型的超参与超参取值设置如下:
所述BERT模型的一次训练所抓取的数据样本数量设置为16;
所述BERT模型的学习率设置为0.00002;
所述BERT模型的dropout设置为0.1;
所述BERT模型的训练轮次设置为3轮;
所述BERT模型的每个样本的最大长度,即最大单词数设置为128。
具体而言,单词粒度替换的替换过程为:
①找出待替换词;
②将遮蔽后的句子输入模型进行预测得到预测出的对应单词,每一个待替换词都用预测出现概率前 三大的单词进行分别替换,最终每一个待替换单词都会得到三个对应的英文替换句。
以待替换单词“article”为例进行说明单词粒度替换过程,如表12所示:
表12单词粒度替换过程示意表
Figure BDA0003601728600000061
具体而言,短语粒度替换的替换过程为:
①找出待替换短语;
②依次遮蔽组成该短语除最后一个以外的所有单词,并将遮蔽后的句子输入模型进行预测,得到该 单词位置上预测出现概率第一大的单词,并依次替换该单词;
③在第二步替换结果的基础上,使用MASK标记替换组成该短语的最后一个单词,每次仅替换一个, 并将替换后的句子输入模型,预测该替换位置的单词,并仅用出现概率最大的预测结果替换该单词;
④最终针对每一个待替换短语,都会得到三个对应的英文替换句。除了短语的最后一个单词以外, 这三个英文替换句其他部分全都相同。
以待替换短语“gives…overview”为例说明短语粒度替换过程,如表13所示:
表13短语粒度替换过程示意表
Figure BDA0003601728600000062
2-3)基于成分句法分析和依存句法分析,依次分析英文源句和生成的替换句。假设原始英文源句为s, 基于主英中机器翻译软件得到的中文目标句为t,替换后的英文源句为s’,基于主英中机器翻译软件得 到的中文目标句为t’。首先通过成分句法分析得到中文目标句t和中文目标句t’的结构表征。由于结 构表征以集合的方式给出,因此通过集合差的方式,可以计算出中文目标句t的结构表征与中文目标句t’ 的结构表征的差值,并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1。随后通过依存 句法分析得到中文目标句t和中文目标句t’的结构表征。同样这些结构表征也是以集合的方式给出,因此通过集合差的方式,可以计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该 差值包含的元素数作为基于依存句法分析得到的差异值diff2。若diff1或diff2的任意一个值超过阈值 6,则将英文源句s和英文源句s’视为错误候选句子,人工分析错误类型,并进行归类。
具体而言,中文目标句t和中文目标句t’使用成分句法分析方法,得到结构表征集合,并以集合差 的方式计算差异值diff1的过程示例如表14所示:
表14计算差异值diff1的过程示例
Figure BDA0003601728600000071
运用成分句法分析与依存句法分析方法,表12与表13中所示样例所得到的diff1、diff2结果如表 15所示,可知4号替换句被视为错误候选,其余均通过:
表15diff1和diff2
Figure BDA0003601728600000072
进一步分析4号英文替换句,人工分析并判定其为数量词错误类型,由于存在错误候选,该被测英中 机器翻译软件将被视为未通过测试,存在缺陷。
(3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件 测试方法的实现代码,以提高英中翻译软件的翻译质量。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本 发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具 体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发 明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所 有变化囊括在本发明内。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明 的范围由所附权利要求及其等同物限定。

Claims (1)

1.一种基于辅助翻译软件和双粒度替换的英中翻译软件测试方法,其特征在于,包括如下步骤:
(1)将被测英中机器翻译软件视为主英中机器翻译软件,其他三个英中机器翻译软件视为辅助英中机器翻译软件,针对需要测试的一系列英文源句,依次分析每个英文源句;
所述分析每个英文源句具体为:给定一个英文源句,将主英中机器翻译软件的翻译结果,即中文目标句A,与辅助英中机器翻译软件的翻译结果进行对比,在对比的时候主要基于余弦相似度来计算翻译结果之间的相似度,将三个辅助英中机器翻译软件生成的中文目标句定义为A1、A2、A3。首先将相似度阈值设置为0.85,计算A1、A2、A3两两之间的余弦相似度,若两句间的余弦相似度超过阈值0.85,则认为这两个句子相似,根据上述结果,可以将A1、A2和A3归到不同的集合中,使得处在同一集合内的中文目标句两两相似;
根据集合划分的结果,存在两种情况:
情况1:A1、A2、A3被归到不同集合内,将该英文源句视为错误候选句子,人工分析错误类型,并进行归类错误类型包括:翻译不足、翻译过度、逻辑不清、单词误译、单词歧义、错误修饰;
情况2:有集合包含的中文目标句不少于2个,将中文目标句A与该集合内的中文目标句进行余弦相似度计算并取均值,若均值低于相似度阈值0.85,则将该英文源句视为错误候选句子,人工分析错误类型。
针对剩余未被归为错误候选句子的英文源句,则进入步骤(2);
(2)针对步骤(1)中剩余未被归为错误候选句子的英文源句,依次分析每个英文源句,具体来说:对需要分析的英文源句进行双粒度替换,以生成替换后的英文源句。随后基于成分句法分析和依存句法分析,通过对比原始英文源句和替换后的英文源句在主英中机器翻译软件的翻译结果的结构表征,以判断是否存在翻译错误,并随后人工分析错误类型,并进行归类;
具体包括如下步骤:
2-1)选择英文源句中需要替换的单词或者短语;
2-2)基于BERT遮蔽语言模型,完成单词粒度的替换或者短语粒度的替换,以生成替换后的英文源句;其中,单词粒度的替换是通过用语义相似并且词性相同的单词来替换英文源句中的一个单词,以完成单词粒度的替换,主要考虑名词、形容词和动词三个成分);短语粒度的替换是在单词粒度的基础上,组合出主谓短语和动宾短语进行替换;
具体包括以下步骤:
将需要替换的单词和短语用MASK进行标记,随后将标记过的英文源句输入BERT遮蔽语言模型,该模型可以根据句子的上下文预测被遮蔽位置的单词或短语,最后用预测出的单词或短语替换英文源句中对应位置的单词或短语,以得到基于单词粒度或短语粒度的替换句;
BERT模型的超参与超参取值设置如下:
所述BERT模型的一次训练所抓取的数据样本数量设置为16;
所述BERT模型的学习率设置为0.00002;
所述BERT模型的dropout设置为0.1;
所述BERT模型的训练轮次设置为3轮;
所述BERT模型的每个样本的最大长度,即最大单词数设置为128;
2-3)基于成分句法分析和依存句法分析,依次分析英文源句和生成的替换句;
具体包括以下步骤:
假设原始英文源句为s,基于主英中机器翻译软件得到的中文目标句为t,替换后的英文源句为s’,基于主英中机器翻译软件得到的中文目标句为t’;
通过成分句法分析得到中文目标句t和中文目标句t’的结构表征;
通过集合差的方式,计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该差值包含的元素数作为基于成分句法分析得到的差异值diff1;
通过依存句法分析得到中文目标句t和中文目标句t’的结构表征,通过集合差的方式,计算出中文目标句t的结构表征与中文目标句t’的结构表征的差值,并将该差值包含的元素数作为基于依存句法分析得到的差异值diff2;
将差异值diff1和差异值diff2相加,最终可以得到针对原始英文源句s和英文源句s’的最终差值;若该差值超过阈值6,则将英文源句s和英文源句s’视为错误候选句子,人工分析错误类型,并进行归类。
(3)针对步骤(1)和步骤(2)中被归为错误候选句子的英文源句,尝试定位并修复英中翻译软件测试方法的实现代码,以提高英中翻译软件的翻译质量。
CN202210405606.8A 2022-04-18 2022-04-18 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法 Withdrawn CN115130480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210405606.8A CN115130480A (zh) 2022-04-18 2022-04-18 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210405606.8A CN115130480A (zh) 2022-04-18 2022-04-18 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

Publications (1)

Publication Number Publication Date
CN115130480A true CN115130480A (zh) 2022-09-30

Family

ID=83376540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210405606.8A Withdrawn CN115130480A (zh) 2022-04-18 2022-04-18 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法

Country Status (1)

Country Link
CN (1) CN115130480A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283250A (zh) * 2021-05-26 2021-08-20 南京大学 一种基于句法成分分析的自动化机器翻译测试方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283250A (zh) * 2021-05-26 2021-08-20 南京大学 一种基于句法成分分析的自动化机器翻译测试方法

Similar Documents

Publication Publication Date Title
Kim et al. Natural language to SQL: Where are we today?
US20210350080A1 (en) Systems and methods for deviation detection, information extraction and obligation deviation detection
KR102348845B1 (ko) 실시간 오류 후보 생성을 이용한 문맥의존 철자오류 교정 장치 및 방법
CN109783631B (zh) 社区问答数据的校验方法、装置、计算机设备和存储介质
CN113672931B (zh) 一种基于预训练的软件漏洞自动检测方法及装置
CN109858029A (zh) 一种提高语料整体质量的数据预处理方法
CN111626042B (zh) 指代消解方法及装置
De Felice et al. Automatically acquiring models of preposition use
Liu et al. Qatest: A uniform fuzzing framework for question answering systems
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
Katinskaia et al. Assessing grammatical correctness in language learning
CN115130480A (zh) 基于辅助翻译软件和双粒度替换的英中翻译软件测试方法
CN115757695A (zh) 一种日志语言模型训练方法及系统
Stewart et al. COMET-Deploying a New State-of-the-art MT Evaluation Metric in Production.
Mu et al. NERO: A text-based tool for content annotation and detection of smells in feature requests
CN113204488A (zh) 一种针对递归神经网络驱动的对话系统的自动化测试方法
CN111144134B (zh) 基于OpenKiWi的翻译引擎自动化评测系统
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
Gao et al. Metamorphic testing of machine translation models using back translation
Wu et al. An intelligent duplicate bug report detection method based on technical term extraction
CN113987141A (zh) 一种基于递归询问的问答系统回答可靠性即时检查方法
He et al. [Retracted] Application of Grammar Error Detection Method for English Composition Based on Machine Learning
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN112861545A (zh) 语义分析模型评价方法
CN113283250B (zh) 一种基于句法成分分析的自动化机器翻译测试方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220930