CN103744834A

CN103744834A - 一种翻译任务准确分配的方法

Info

Publication number: CN103744834A
Application number: CN201310713989.6A
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Language network (Wuhan) Information Technology Co., Ltd.
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2014-04-23
Anticipated expiration: 2033-12-23
Also published as: CN103744834B

Abstract

本发明公开了一种翻译任务准确分配的方法，包括：确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值；根据每个所述待译文档的所述文本大小和翻译难度数值进行计算，得到每个所述待译文档的翻译量；根据每个所述待译文档的翻译量，将多个所述待译文档分割成多个翻译任务；所述分割的翻译任务的数量与待分配任务的译员的数量相等；将每个所述翻译任务分配给一个所述译员。本发明通过根据翻译难度和文本大小计算得到文档的翻译量，实现了翻译项目精确分割，解决的翻译任务平均分配的问题。

Description

一种翻译任务准确分配的方法

技术领域

本发明涉及翻译技术领域，具体而言，涉及一种翻译任务准确分配的方法。

背景技术

一个大的翻译项目往往是由一个翻译团队协作来完成，对于团队协作完成的项目，项目进度和时间的管控是一个非常重要的环节，如何将一个翻译项目中的翻译任务合理分配给团队中的每一个成员，使得翻译项目能够在相同的时间内统一、并行完成，是翻译过程中需要解决的问题。要将翻译任务合理分配给译员翻译，需要明确每个翻译任务的翻译量，翻译任务翻译量的确定是由文档的翻译难度和文档的大小决定，文档的大小即文档的字数，这是一项易于统计的比较清楚的指标，所以对于翻译任务进行准确分配最需要解决的问题就是对文档翻译难度的判别。

对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断，由于人的阅读和理解限制，这种方法速度较慢同时要耗费非常大的的人力成本，并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别，判别结果无法做到统一标准，客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断，目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断，这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄，有较大的片面性，得到的判别结果往往与实际情况差别很大，无法保证判别结果的准确性。目前对文档翻译难度的判别，还缺乏一个既高效又相对准确的判别方法。

发明内容

本发明旨在提供一种翻译任务准确分配的方法，解决了如何将翻译任务合理分配给合适的译员的问题。

本发明公开了一种翻译任务准分配的方法，包括：

确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值；

根据每个所述待译文档的所述文本大小和翻译难度数值进行计算，得到每个所述待译文档的翻译量；

根据每个所述待译文档的翻译量，将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务；

将每个所述翻译任务分配给一个所述译员。

优选地，所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积，其中待译文档的文本大小为待译文档的字数。

优选地，确定每个所述待译文档的所述翻译难度数值的过程包括：

扫描待译文档，确定所述待译文档中的所有词汇和所有语句；

根据确定的所述词汇和语句分别进行复杂度计算，得到文档的词汇复杂度和语句复杂度；

按照翻译难度计算公式计算得到所述文档的翻译难度数值；所述翻译难度计算公式如下：

diff_doc＝K₁·diff_word+K₂·diff_sentence；

其中，K₁和K₂为通过样本计算得到翻译难度调节系数，diff_doc为翻译难度数值，diff_word为所述词汇复杂度，diff_sentence为所述语句复杂度。

优选地，计算所述词汇复杂度的过程包括：

计算出文档的词汇等级、类符形符比和实义词词义密度；

按照词汇复杂度计算公式计算，得到所述文档的所述词汇复杂度，所述词汇复杂度计算公式如下：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

其中，grade_word为所述文档的词汇等级，STTR为所述文档的类符形符比，density_notional为所述文档的实义词词义密度，K₁₁、K₁₂和K₁₃为通过样本计算得到词汇复杂度调节系数。

优选地，在计算所述文档的词汇等级之前，还包括：

对所述文档进行分词处理，得到所有词汇，并统计得到总词汇数；

将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

计算所述文档的词汇等级的过程包括：

按照词汇等级计算公式计算出所述文档的词汇等级，所述词汇等级计算公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

其中，word_X为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为通过样本计算得到词汇等级调节系数，word为总词汇数。

优选地，计算所述文档的类符形符比的过程包括；

根据得到的所有所述词汇，统计其中的类符数和形符数，计算所述类符数与所述形符数之比，得到所述文档的类符形符比；或

将得到的所有所述词汇按照标准数量划分为多个子文档，及1个不足标准数量词汇的子文档，按照类符形符比计算公式计算，得到所述文档的类符形符比；所述类符形符比计算公式如下：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

其中，token为所述不足标准数量词汇的子文档的形符数，type为不足标准数量词汇的子文档的类符数，type_i为第i个含标准数量个词汇的子文档的类符数，n为所述含标准数量个词汇的子文档数量，ST为所述标准数量个词汇划分单位。

优选地，在计算所述文档的所述实义词词义密度之前，还包括：

对得到的所有所述词汇进行词性标注，得到其中的实义词；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具得到每个所述实义词的义项数meanings_i，其中i为所述实义词的序号；并统计所述实义词的义项总数；

计算所述文档的所述实义词词义密度的过程包括：

按照实义词词义密度计算公式计算，得到所述文档的实义词词义密度；所述实义词词义密度计算公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，meanings_i为第i个实义词的的义项数，count_notional为所述实义词的数量。

优选地，在计算所述文档的所述语句复杂度之前，还包括：

通过确定所述文档中的整句数计算出整句的平均长度；

通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度；

通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度；

通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度；

计算所述文档的所述语句复杂度的过程包括：

按照语句复杂度计算公式计算得出所述文档的所述语句复杂度；所述语句复杂度计算公式如下：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

其中，MLS为所述整句的平均长度，MLC为所述第一类子句的平均长度，MLL为所述长句的平均长度，MLCL为所述第二类子句的平均长度，K₂₁、K₂₂、K₂₃和K₂₄为通过样本计算得到语句复杂度调节系数。

优选地，计算平均长度的过程包括：

将所述总词汇数除以所述整句数，得到所述整句的平均长度；

将所述总词汇数除以所述第一子句的数量，得到所述第一子句的平均长度；

统计每个所述长句的长度word_long_i，1≤i≤count_long；其中，i为长句的序号；

按照长句的平均长度计算公式计算得到所述长句的平均长度；所述长句的平均计算公式如下：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_long为所述长句数；

按照第二类子句的平均长度计算公式计算得到所述第二类子句的平均长度；所述第二类子句的平均长度计算公式如下：

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_clause_long为所述第二类子句的数量。

本发明中的分割方法，具有以下优点：

1、统一客观的计算出文档的翻译难度，提高了计算出的翻译难度的准确性；

2、将翻译任务按翻译量合理分配给合适译员，以保证翻译项目能够在一定的时间内统一、并行完成。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

本发明公开了一种翻译项目准确分割的方法，包括：

S11、确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值；

S12、根据每个所述待译文档的所述文本大小和翻译难度数值进行计算，得到每个所述待译文档的翻译量；

S13、根据每个所述待译文档的翻译量，将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务；

S14、将每个所述翻译任务分配给一个所述译员。

基于上述方法，以下提供一个优选地实施例：

确定翻译项目中的若干个待译文档，即文档；以及每篇待译文档的文本大小和翻译难度数值；

其中，待译文档不应仅理解为一篇完整文档，还应理解为完整文档的碎片；

对每篇待译文档的文本大小和翻译难度数值的乘积，结果作为该待译文档的翻译量；

根据待译文档的翻译量，将翻译项目中的若干待译文档分割成多个翻译任务；

其中，可以按照项目组中的译员数量进行分割；

总翻译量为翻译任务中的待译文档的翻译量之和；

计算待译文档的翻译难度数值的过程包括：

1、计算该文档的词汇复杂度，过程如下：

对该文档进行分词处理，得到该文档中的所有词汇，其中术语“词汇”不应仅理解为英文单词，还应理解为具有字形结构的字，例如汉字、日文、韩文等；和/或具有字母形结构的单词，例如法文、俄文等；并且所有词汇应理解为包含有重复的词汇；

1）、计算文档的词汇等级：

将得到的每个词汇在词汇分级表中进行匹配，获得每个词汇所匹配的级别，该级别为一级、二级、三级或四级；其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级；

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

统计级别为一级的词汇数量为word₁，统计级别为二级的词汇数量为word₂，统计级别为三级的词汇数量为word₃，统计级别为四级的词汇数量为word₄；

统计文档中的所有词汇的数量，作为总词汇数word；

计算二级及以上的词汇在文档中所占的比率，如下：

级别为二级的词汇所占比率为

级别为三级的词汇所占比率为

和级别为四级的词汇所占比率为

按照词汇等级计算公式进行计算得到文档的词汇等级；公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

其中，grade_word为词汇等级，K₁₁₁、K₁₁₂和K₁₁₃为给定样本所计算出的词汇等级调节系数，属于第三级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下：

令：Y＝grade_word，

X_{1} = \frac{{word}_{2}}{word}, X_{2} = \frac{{word}_{3}}{word}, X_{3} = \frac{{word}_{4}}{word},

对于采集到的n组样本数据：

\begin{matrix} {X_{11}, X_{12}, X_{13}}; \\ {X_{21}, X_{22}, X_{23}}; \\ . \\ .; \\ . \\ {X_{n 1}, X_{n 2}, X_{n 3}}; \end{matrix}

对应给出专家评定出的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ . \\ . \\ . \\ Y_{n} \end{matrix}\};

由此可以获得以下线性方程组：

\begin{matrix} Y_{1} = K_{111} \cdot X_{11} + K_{112} \cdot X_{12} + K_{113} \cdot X_{13}; \\ Y_{2} = K_{111} \cdot X_{21} + K_{112} \cdot X_{22} + K_{113} \cdot X_{23}; \\ . \\ .; \\ . \\ Y_{n} = K_{111} \cdot X_{n 1} + K_{112} \cdot X_{n 2} + K_{113} \cdot X_{23}; \end{matrix}

得到：

[\begin{matrix} K_{111} \\ K_{112} \\ K_{113} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y;

其中，

X = [\begin{matrix} X_{11} & X_{12} & X_{13} \\ X_{21} & X_{22} & X_{23} \\ . \\ . \\ . \\ X_{n 1} & X_{n 2} & X_{n 3} \end{matrix}], Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ . \\ . \\ . \\ Y_{n} \end{matrix}],

X′为X的转置矩阵。

2）、计算文档的标准类符形符比：

统计文档中的形符，即文档中出现的总词汇数；

统计文档中的类符，即文档中出现的不相同的词汇数；

类符形符比（TTR）代表了词汇变化率，和文档汇总词汇的丰富程度。TTR的比率越高，说明该文本所使用的不同词汇越多，其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的，所以当文档越大，类符形符比就会越小，统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST（比如ST取值1000）个词汇为单位进行TTR计算，最后将所有TTR的均值作为最终取值，即标准类符形符比（STTR，StandardTTR）。不足标准数量的文档，直接进行TTR计算。具体如下：

将文档的所有词汇按照标准数量ST划分为n个第一子文档，每个第一子文档中具有类符的数量为type_i；其中i为第一子文档的序号；

或还包括一个词汇数量不足ST的第二子文档；第二子文档中的类符为type个和形符为token个

按照标准类符形符比计算公式计算得到文档的标准类符形符比；公式如下：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

3）、计算文档的实义词词义密度：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

统计文档中实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具，统计每个实义词的义项数meanings_i（1≤i≤count_notional）；其中，i为实义词的序号；

统计所有实义词的义项，将所有实义词的义项数相加得到所有实义词的总义项数。

按照实义词词义密度计算公式计算得到文档的实义词词义密度；公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

其中，density_notional为实义词词义密度，为实义词的总义项数；

其中，计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序，可以分别计算，也可以同时计算。

4）根据文档的词汇等级、标准类符形符比和实义词词义密度，计算出文档的词汇复杂度：

按照词汇复杂度计算公式计算出文档的词汇复杂度；公式如下：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

其中，diff_word为词汇复杂度，grade_word为词汇等级，STTR为标准类符形符比，density_notional为实义词词义密度；K₁₁、K₁₂和K₁₃为给定样本所计算出的词汇复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

2、计算文档的语句复杂度，具体如下：

术语“整句”应该理解为表达了完整的意思的词汇集合，例如：文档首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合；

术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合；

术语“长句”应该理解为词汇数量大于预定阈值的整句；

本文中的第一类和第二类只用于区分。

方案具体如下：

扫描文档，确定文档中的所有整句，并统计整句的总数，记作count_sentence；

将词汇数量大于预定阈值的整句作为长句，并统计长句的总数，记作count_long和每个长句中的词汇数量，记作word_long_i，1≤i≤count_long；i为长句的序号；

整句中的子句为第一类子句，统计第一类子句的总数，记作count_clause；

长句中的子句为第二类子句，统计第二类子句的总数，记作count_clause_long；

分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度；如下：

整句的平均长度（MLS，mean length of sentence）,计算方法为：MLS=word/count_sentence；

第一类子句的平均长度（MLC，mean length of clause），计算方法为：MLC=word/count_clause；

长句的平均长度（MLL，mean length of long sentence），计算方法为：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

第二类子句的平均长度（MLCL，mean length of clause of longsentence），计算方法为：

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

按照语句复杂度计算公式计算得到语句复杂度；语句复杂度计算公式如下：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

K₂₁、K₂₂、K₂₃、K₂₄为通过所采集样本计算出的语句难度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

3、计算文档的翻译难度数值；

根据获取的文档的词汇复杂度和语句复杂度，按照翻译难度计算公式计算得到文档的翻译难度数值；公式如下：

diff_doc＝K₁·diff_word+K₂·diff_sentence；

K₁、K₂为通过所采集样本计算出的翻译难度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种翻译任务准确分配的方法，其特征在于，包括：

将每个所述翻译任务分配给一个所述译员。

2.根据权利要求1所述的方法，其特征在于，所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积，其中待译文档的文本大小为待译文档的字数。

3.根据权利要求1所述的方法，其特征在于，确定每个所述待译文档的所述翻译难度数值的过程包括：

diff_doc＝K₁·diff_word+K₂·diff_sentence；

4.根据权利要求3所述的方法，其特征在于，计算所述词汇复杂度的过程包括：

计算出文档的词汇等级、类符形符比和实义词词义密度；

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

5.根据权利要求4所述的方法，其特征在于，在计算所述文档的词汇等级之前，还包括：

计算所述文档的词汇等级的过程包括：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

6.根据权利要求5所述的方法，其特征在于，计算所述文档的类符形符比的过程包括；

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

7.根据权利要求4所述的方法，其特征在于，在计算所述文档的所述实义词词义密度之前，还包括：

对得到的所有所述词汇进行词性标注，得到其中的实义词；

将得到的所有所述实义词按照一定顺序进行排列；

计算所述文档的所述实义词词义密度的过程包括：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

8.根据权利要求3的方法，其特征在于，在计算所述文档的所述语句复杂度之前，还包括：

通过确定所述文档中的整句数计算出整句的平均长度；

计算所述文档的所述语句复杂度的过程包括：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

9.根据权利要求8所述的方法，其特征在于，计算平均长度的过程包括：

将所述总词汇数除以所述整句数，得到所述整句的平均长度MLS；

将所述总词汇数除以所述第一类子句的数量，得到所述第一类子句的平均长度MLC；

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_long为所述长句数；

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_clause_long为所述第二类子句的数量。