CN107885730A

CN107885730A - 多译员模式下翻译知识有效性判别方法

Info

Publication number: CN107885730A
Application number: CN201710877029.1A
Authority: CN
Inventors: 叶娜
Original assignee: Shenyang Aerospace University
Current assignee: Shenyang Aerospace University
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2018-04-06

Abstract

本发明涉及一种多译员模式下翻译知识有效性判别方法，包括以下步骤：实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据；从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征；考察上述各类特征与翻译知识有效性之间的关联情况，筛选出具有最高关联度的m个特征；对译员的翻译知识有效性进行打分。本发明有助于解决来自不同译员反馈的翻译知识存在冲突的问题，实现不同译员翻译知识的有效融合，改善翻译引擎的优化效果，降低人机交互代价，提高翻译效率。

Description

多译员模式下翻译知识有效性判别方法

技术领域

本发明涉及一种翻译知识有效性判别技术，具体为一种多译员模式下翻译知识有效性判别方法。

背景技术

随着信息技术的进步和全球一体化步伐的加快，跨语种交流的语言障碍问题日益突出，对高效翻译方法的需求愈加紧迫。为了解决这一问题，人们开展了机器翻译的研究，旨在使计算机能够代替人类进行全自动翻译。

经过数十年的探索，尽管机器翻译技术取得了长足进展，目前的机器翻译系统所产生的译文仍然无法达到直接可用的程度。在这样的背景下，一些研究人员开始寻求翻译思想的改变，由全自动翻译转向人机交互翻译。在该模式下，机器翻译引擎产生的译文作为辅助译文提供给人类译员，译员通过各种交互行为，对系统进行反馈指导，直至产生正确译文。

在交互式机器翻译系统中，根据译员对辅助译文的反馈，自动学习翻译知识，来优化机器翻译引擎，是一种普遍采用的技术。近年来，随着翻译规模的扩大，译员数量不断增加。不同译员面对相同的源语句可能做出不同的反馈和指导，导致机器翻译引擎学习到相互冲突的翻译知识。现有方法通过基于频度的概率估计来解决这一问题，对出现频度较高的翻译知识赋予更高的概率值，隐性假设不同译员的翻译知识具有相同的有效性。

实际上，译员的翻译水平和经验存在很大差别，他们所提供指导的有效性也应有所区别。而现有方法无法判别来自不同译员的翻译知识的有效性，使机器翻译引擎的优化效果受到限制。

发明内容

针对现有技术中交互式机器翻译系统存在的多译员翻译决策冲突导致机器翻译引擎的优化效果受到限制等不足，本发明要解决的问题是提供一种可实现不同译员翻译知识的有效融合、改善翻译引擎的优化效果的多译员模式下翻译知识有效性判别方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种多译员模式下翻译知识有效性判别方法，包括以下步骤：

1)数据采集，实时采集译员翻译过程中的任务接受时间、任务提交时间、翻译行为、翻译实例以及质检结果基础数据；

2)统计分析，从基础数据中统计出译员翻译过程中的平均翻译速度、翻译速度波动系数、平均翻译质量、翻译质量波动系数、翻译总量、常用句式、常用词汇/短语、常用工具、常用行为、检索记录和错误类别特征；

3)特征选择，考察上述各类特征与翻译知识有效性之间的关联情况，筛选出具有最高关联度的m个特征；

4)翻译知识有效性评估，对译员的翻译知识有效性进行打分。

步骤3)中，特征选择包括以下步骤：

31)从步骤2)中统计出的特征里提取影响译员翻译知识有效性的特征集合F；

32)以翻译质量Q为评价指标，计算特征集合F中各因素与Q之间的关联度；

33)从特征集合F中筛选出具有最高关联度的m个特征。

计算特征集合F中各因素与Q之间的关联度为：采用点式互信息、DICE系数、卡方统计值或对数可能性分值度量方法。

采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数，评价公式为：

其中，m为影响翻译知识有效性的特征数量，D_j(u,t)为t时刻译员u的特征值，λ为特征的权重，通过最小化错误率训练得到。

最小化错误率训练为：

401)构建训练数据集，提取译员在某一时刻t的各项特征值，组成特征向量V_t，人工标注译员当时的翻译有效性分数S_t，构成一个训练实例<V_t,S_t>，多个训练实例构成训练数据集；

402)在该训练数据集上进行参数训练，确定每个特征的最优权重

403)根据译员的特征向量及其对应的最优权重，对译员的翻译知识有效性进行打分。

本发明具有以下有益效果及优点：

1.本发明为多译员模式下翻译知识的有效性判别提供了方法，通过分析译员的翻译状态，来评价系统从译员反馈中学到的翻译知识的有效性，有助于解决来自不同译员反馈的翻译知识存在冲突的问题，实现不同译员翻译知识的有效融合，改善翻译引擎的优化效果，降低人机交互代价，提高翻译效率。

附图说明

图1为本发明翻译知识有效性判别及应用过程图示。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

如图1所示，本发明提出一种多译员模式下翻译知识有效性判别方法，通过分析译员的翻译状态，来评价系统从译员反馈中学到的翻译知识的有效性，包括以下步骤：

3)特征选择，考察上述各类特征与翻译知识有效性之间的关联情况，筛选出具有最高关联度的m个关联度的特征；

步骤2)中统计分析得到的各类特征数据，体现了译员的翻译状态。例如，平均翻译速度、平均翻译质量和翻译总量等，反映了译员的翻译能力和水平；翻译速度波动系数和翻译质量波动系数等反映了译员翻译的稳定性；常用句式、常用词汇/短语、常用工具、常用行为等反映了译员的翻译习惯；检索记录和错误类别等反映了译员对翻译知识的需求。

统计分析得到的各类特征数据是通过任务接收时间和任务提交时间，算出完成任务的总时间，用任务总字数除以任务总时间就可以算出平均翻译速度等。

为了识别哪些特征数据能够显著影响翻译知识有效性，需要考察各类特征与翻译知识有效性之间的关联情况，具体为：

31)从各类中提取影响译员翻译知识有效性的特征集合F；

32)以翻译质量Q为评价指标，计算特征集合F中各因素与Q之间的关联度(可采用点式互信息、DICE系数、卡方统计值或对数可能性分值等度量方法)；

33)从特征集合F中筛选出具有最高关联度的m个特征。

本发明采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数：

其中m为影响翻译知识有效性的特征数量，D_j(u,t)为t时刻译员u的特征值，j为第j个特征，λ为特征的权重，可通过最小化错误率训练得到。具体步骤如下：

403)根据译员的特征向量及其对应的最优权重，对译员的翻译知识有效性通过公式(1)进行打分。

如图1所示，给出了系统从译员对辅助译文的反馈中学习翻译知识，并在翻译知识出现冲突的情况下利用本方法更有效地判别翻译知识，改善机器翻译引擎的过程。

例如，在统计机器翻译系统中，通过以下公式来估计n-gram语言模型概率：

其中，

式中，D_n为固定的折扣值，n为n元语言模型，为e中第i-n+1个词语到第i-1个词语组成的字符串，i为e中第i个词语，为后面出现的不同词语的数量，c(·)表示频率。

n元语言模型(n-gram model)根据一个词语的前n-1个词语，来计算这个词语的概率，即一个词的概率由前面n-1个词决定。

当交互式机器翻译系统得到k个新的反馈实例时，传统在线学习算法通过以下公式来更新n-gram中各运算单元的值：

而基于本发明提出的翻译知识有效性判别方法，在k个反馈实例存在冲突时，通过以下公式来更新n-gram中各运算单元的值：

其中l为第l个实例，u_l为第l个实例对应的译员，t_l为第l个实例对应的时刻。

可见，本发明方法与传统方法相比，由于采用了翻译知识有效性判别方法，使不同译员反馈的翻译实例对语言模型优化时贡献的权重有所不同，能够使语言模型的概率估计更准确。

Claims

1.一种多译员模式下翻译知识有效性判别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的多译员模式下翻译知识有效性判别方法，其特征在于步骤3)中，特征选择包括以下步骤：

33)从特征集合F中筛选出具有最高关联度的m个特征。

3.根据权利要求2所述的多译员模式下翻译知识有效性判别方法，其特征在于：计算特征集合F中各因素与Q之间的关联度为：采用点式互信息、DICE系数、卡方统计值或对数可能性分值度量方法。

4.根据权利要求2所述的多译员模式下翻译知识有效性判别方法，其特征在于：采用加权求和的方法评价译员u在时刻t的翻译知识有效性分数，评价公式为：

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>&lambda;</mi> <mi>j</mi> </msub> <msub> <mi>D</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow>

5.根据权利要求4所述的多译员模式下翻译知识有效性判别方法，其特征在于最小化错误率训练为：