CN103077630A

CN103077630A - 译员专业翻译能力的量化方法

Info

Publication number: CN103077630A
Application number: CN 201210591760
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2012-12-31
Filing date: 2012-12-31
Publication date: 2013-05-01

Abstract

本发明提供了一种译员专业翻译能力的量化方法，包括：根据译员的测试要求，系统选择相应的多件测试稿件提供给译员进行翻译测试；将每件译后稿件与相应的标准译稿进行相似性分析，得到相似度数值；提取每篇测试稿件的关键词，与术语语料库进行匹配，确定每篇稿件的术语数量，作为计算稿件权重的基值，再结合稿件的翻译难度和译员的翻译速度通过一定的计算模型得出每件测试稿件所占的权重；通过所得权重和相似度值最终计算出该译员在该专业的翻译能力分值。本发明的方法，通过客观的译后稿件与标准译稿进行相似性分析，得到相似度，再结合译稿的权重，计算出译员专业翻译能力的量化值。得到了相对客观的结果，提高了译员翻译能力测试的效率。

Description

译员专业翻译能力的量化方法

技术领域

本发明涉及计算机领域，具体而言，涉及一种译员专业翻译能力的量化方法。

背景技术

目前的译员的能力量化方式，主要是通过完整的语篇翻译。这是翻译测试中最常用的测试方法，主要用于测试译者的跨文化交际能力以及双语转换能力，这是最能测验译者翻译水平的一种测验方式，具有很高的效度，但最大的缺点在于评分标准难以控制，对同一个翻译，不同阅卷人，或者同一阅卷人在不同时候，给出的成绩都可能会有很大的出入。

在翻译后，统计每个译员的得分，目前采用的技术是人工判分后，统计每个人的得分，这样处理，效率低，且存在主观性强，得分不够客观，不能实现客观的量化译员的翻译能力。

发明内容

本发明旨在提供一种译员专业翻译能力的量化方法，以解决的上述译员评分过程，不够客观的量化译员的翻译能力问题。

在本发明的实施例中，提供了一种译员专业翻译能力的量化方法，包括：

根据译员的专业测试要求，选择相应的多件测试稿件提供给译员进行翻译测试；

将每件译后稿件与相应的标准译稿进行相似性分析，得到其相似度数值；其中，所述相似度值介于0～1之间；

提取每篇测试稿件内的关键词，与术语语料库进行匹配，确定每篇稿件的术语数量，作为计算稿件权重的基值；

通过所述基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重；将每篇测试稿件的权重与该测试稿件的标准译稿同译后稿件的相似度值对应相乘，将所有乘积相加，所得数值乘以100得到一个0～100之间的数值，将该数值作为该译员在该专业的翻译能力分值。

本发明的方法，通过客观的译后稿件与标准译稿进行相似性分析，得到相似度，并将术语的数量、测试稿件的难度系数以及译员的翻译速度作为权重计算项，通过相似度和权重二者结合得到译员专业翻译能力的量化值。得到了客观的结果，提高了量化的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图；

图2示出了实施例中量化过程的流程图；

图3示出了实施例中树形结构图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。参见图1，包括以下步骤：

S11：根据译员的专业测试要求，选择相应的多件测试稿件提供给译员进行翻译测试；

S12：将每件译后稿件与相应的标准译稿进行相似性分析，得到其相似度数值；其中，所述相似度值介于0～1之间；

S13：提取每篇测试稿件内的关键词，与术语语料库进行匹配，确定每篇稿件的术语数量，作为计算稿件权重的基值；

S14：通过所述基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重；

S15：将每篇测试稿件的权重与该测试稿件的标准译稿同译后稿件的相似度值对应相乘，将所有乘积相加，所得数值乘以100得到一个0～100之间的数值，将该数值作为该译员在该专业的翻译能力分值。

参见图2所示的量化过程流程图，该方法的流程过程如下：

提取测试稿件

一篇中到英的有关汽车发动机制造的测试稿件，其语种信息、行业信息和学科领域信息为：

语种信息：中→英

行业信息：37交通运输设备制造业

372汽车制造

3721汽车整车制造

学科领域信息：470动力与电气工程

470.30动力机械工程

470.3020内燃机工程(包括汽油机、柴油机、气体燃料发动机等)

对译员能力进行判断，如果已经经过判定，则进入译员能力选择/比较模块，如果没有经过判定，则进行翻译能力测试系统登陆模块。

译员登录平台申请领取测试稿件。系统读取测试稿件的语种、行业、学科、领域等属性信息，若译员具备该属性能力，则进入译员能力比较/选择模块；否则分配测试许可号给该译员进行该专业属性能力的翻译测试；

申领译员凭测试许可号登录翻译能力测试系统，进行该语种、行业、学科、领域的翻译能力测试；

系统根据测试许可号，从标准测试文档库中提取7篇相关测试文档给待测译员，包括语种类文档1篇，行业类文档3篇（37、372、 3721），学科领域类文档3篇（470、470.30、470.3020），其难度系数分别为：9、6、8、8、7、8、7，排列顺序为语种、行业-交通运输设备制造业（37）、行业-交通运输设备制造业-汽车制造（372）、行业-交通运输设备制造业-汽车制造-汽车整车制造（3721）、学科领域信息-动力与电气工程（470）、学科领域信息-动力与电气工程-动力机械工程（470.30）、学科领域信息-动力与电气工程-动力机械工程-内燃机工程（470.3020），后面的数字顺序与此相同；

译员翻译完成后，根据翻译时间得到7篇译文的翻译速度档位值分别为：6、8、7、6、6、7、7，然后调用相似性比较模块计算译员的译文和标准译文的相似度，得到7篇译文和标准译文的相似度值，分别为：0.6、0.65、0.79、0.83、0.77、0.82、0.85；

优选地，稿件相似性比较模块进行分析的过程包括：

S21：提取每篇译后稿件和与其对应的标准译稿所归属的属于一个专业的多篇标准译稿的全部关键词，得到关键词集合C={k₁，k₂，…，k_m}；

S22：计算C中每个关键词k在稿件集合中出现的概率，即出现关键词k的稿件数和稿件总数之比，记为p（k）。

将关键词按p（k）进行降序排序，并将每一个关键词作为一个集合，这样得到初始的m个待合并集合，记为{k₁}，{k₂}，…，{k_m}；

在这m个关键词中，计算在关键词k_i出现的稿件中，关键词k_j也出现的概率，记为p（k_j|k_i），共计

个条件概率，（1≤i，j≤m；i≠j）；

p（k_j|k_i）的计算方法：p（k_j|k_i）=p（k_jk_i）/p（k_i），p（k_jk_i）为k_j、k_i同时出现在同一篇稿件中的概率。

S23：合并集合，当集合I和J同时满足以下两个条件时合并：

满足p（k_i）>P1，p（k_j|k_i）>P2；

满足|{k_i∈IUJ|p（k_j|k_i）>P2}|>（|I|+|J|）/2。（|X|表示集合X中元素的个数）

当任两个集合都不符合这两个条件的时合并结束，同时得到第一层聚类关键词集合C={C1，C2，…，Cq}。

对C={C1，C2，…，Cq}，取阈值P3<P2，用上述方法再次进行聚类，生成上一层概念集合。重复此过程，直到聚类集合无法再聚类为止，这些无法再聚类的概念集合为根节点C的子节点，这样就生成如图3所示的关键词的概念树。

S24：根据概率形成的树形结构，计算两篇文档的相似度。

相似度

Sim (A, B) = \frac{A * B}{\sqrt{A * B} \sqrt{A * B}} .

A={a₁，a₂，…，a_n}，B={b₁，b₂，…，b_n}，A、B分别为每个稿件内对应的关键词的集合，a₁为A稿件的第一个关键词，b₁为B稿件的第一个关键词。A和B中的一个为待译稿件，另一个为相应的标准译稿；

根据概念树中，每个关键词的概率在概念树的节点位置，确定译后稿件和标准译稿的任意两个关键词的乘积的总和C；其中

C = A * B = Σ_{i = 1}^{n} Σ_{j = 1}^{n} (a_{i} \times b_{j});

a_i×b_j为两个关键词的乘积，该关键词的乘积为：根据任意两个叶子节点与其距离最近的父节点的路径长度，与树的深度路径长度的比值，作为这两个叶子节点的乘积；a_i×b_j=depth（com（a_i，b_j））/H，其中，H为树的路径深度。

上述过程中，翻译能力测试模块从标准测试文档库中调取标准译稿，与译后稿件一同发送至稿件相似性比较模块进行比较分析。

翻译能力计算模块还通过术语语料库计算每篇稿件的权值，计算过程如下：

7篇译文的权重计算：根据术语语料库计算6篇行业类和学科领域类文档的相关专业术语的数量，得到6篇文档的专业术语的数量分别为7、23、28、20、33、31，将这6个数值作为计算权重的基值，因为语种类文档基本没有专业术语，可以取这6个数的算术平均值23.7作为语种类的权重基值，这样得到计算7篇译文权重的基值集合{23.7，7，23，28，20，33，31}；

将该权重集合的值对应乘以这7篇文档的难度系数{9，6，8，8，7，8，7}和翻译速度档位值{6，8，7，6，6，7，7}，得到集合{1279.7，336，1288，1344，840，1848，1519}，对该集合做归一化处理即得到这7篇文章的权重值集合{0.15136，0.03974，0.15234，0.15896，0.09935，0.21858，0.17966}。

译员专业翻译能力分值计算：以相似度值集合{0.6，0.65，0.79，0.83，0.77，0.82，0.85}与权重集合{0.15136，0.03974，0.15234， 0.15896，0.09935，0.21858，0.17966}对应相乘，得到集合{0.09082，0.02583，0.12035，0.13194，0.0765，0.17924，0.15271}，将该集合的值相加再乘以100就得到译员在该语种、行业、学科、领域属性的翻译能力分值77.739分。

进入译员能力比较/选择模块，选择分值最大的译员作为该测试稿件的翻译译员，分值次大的两位译员作为备用翻译译员。

通过上述过程，快速准确的实现了量化过程。特别是相似性分析过程，由于采用了概率模型的聚类树，确定了各个关键词之间的联系程度，相似度的计算过程也不同于以往的现有技术的数学模型，能够避免现有技术中采用VSM模型计算相似度过程中出现的相似度为零，无法比较分析的缺陷。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种译员专业翻译能力的量化方法，其特征在于，包括：

通过所述基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重；

将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个0～100之间的数值，将该数值作为该译员在该专业的翻译能力分值。

2.根据权利要求1所述的方法，其特征在于，所述相似性分析的过程包括：

提取每篇译后稿件和与其对应的测试文档库中的标准译稿集合的关键词；该关键词的集合为C={k₁，k₂，…，k_m}；

计算C中每个关键词k在稿件中出现的概率，即出现关键词k的稿件数和稿件总数之比，记为p（k）；

将C中关键词按p（k）进行降序排序，并将每一个关键词作为一个集合，这样得到初始的m个待合并集合，记为{k₁}，{k₂}，…，{k_m}；

在这m个关键词中，计算在关键词k_i出现的稿件中关键词k_j出现的概率，记为p（k_j|k_i），共计

个条件概率，（1≤i，j≤m；i≠j）；p（k_j|k_i）=p（k_jk_i）/p（k_i），p（k_jk_i）为k_j和k_i同时出现在同一篇稿件中的概率；

合并待合并集合，生成以关键词集合C为根节点的关键词概念树。

3.根据权利要求2所述的方法，其特征在于，所述合并过程包括：

对于待合并的两个关键词集合C1和C2，合并条件为：存在k_i属于C1，k_j属于C2，且p（k_i）>阀值P1，p（k_j|k_i）>阀值P2，当p（k_i）和p（k_j|k_i）大于所述设定阀值时，关键词k_i和k_j表达相同概念，满足其所在的集合的合并条件之一；

在合并后的集合中任给一个关键词k_i，其与集合中一半以上关键词都满足条件p（k_j|k_i）>阀值P2。

4.根据权利要求3所述的方法，定义H为生成的概念树的高度，定义depth（k）为节点k在树中的深度，即为从根节点到该节点所经历的边数；

定义com（k_i，k_j）为离节点k_i和k_j最近的共同父节点；

任两个关键词的积的计算公式：k_i×k_j=depth（com（k_i，k_j））/H；

设向量A={a₁，a₂，…，a_n}，B={b₁，b₂，…，b_n}，定义向量计算：

所述A和B中的一个为待译稿件，另一个为相应的标准译稿；

相似度计算公式为：

Sim (A, B) = \frac{A * B}{\sqrt{A * B} \sqrt{A * B}} .