CN103729421A

CN103729421A - 一种译员文档精确匹配的方法

Info

Publication number: CN103729421A
Application number: CN201310712040.4A
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2014-04-16
Anticipated expiration: 2033-12-23
Also published as: CN103729421B

Abstract

本发明公开了一种译员文档精确匹配的方法，包括：扫描待译文档，确定所述待译文档中的所有词汇和所有语句；根据确定的所述词汇和语句分别进行复杂度计算，得到文档的词汇复杂度和语句复杂度；根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值；根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配，匹配出与所述待译文档的翻译难度数值对应的译员。本发明通过提供一种文档的翻译难度的计算方法，准确的计算出待译文档的翻译难度，分配给合适的译员，合理的实现资源配置。

Description

一种译员文档精确匹配的方法

技术领域

本发明涉及翻译技术领域，具体而言，涉及一种译员文档精确匹配的方法。

背景技术

在翻译流程中，为待译文档选择合适的译员是其中最重要的一个环节。为保证译文的翻译质量，首先要求译员的翻译能力足以胜任的待译文档的翻译难度，其次从性价比的角度考虑，也要求译员的翻译能力不要过于超出待译文档的翻译难度，以使得翻译质量和翻译代价之比最优。译员的翻译能力是一个动态的能力值，对于翻译企业来说，译员的翻译能力值是通过译员在不断的翻译生产过程中所得到的一个加权评分值，相对来说是个固定的可获取的能力值，但待译文档的翻译难度的判定则需要根据每篇文档的具体情况而定。对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断，由于人的阅读和理解限制，这种方法速度较慢同时要耗费非常大的的人力成本，并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别，判别结果无法做到统一标准，客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断，目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断，这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄，有较大的片面性，得到的判别结果往往与实际情况差别很大，无法保证判别结果的准确性。目前对文档翻译难度的判别，还缺乏一个既高效又相对准确的判别方法，从而保证译员文档能够进行快速准确的匹配。

发明内容

本发明旨在提供一种译员文档精确匹配的方法，解决了如何将文档分配给合适的译员的问题。

本发明公开了一种译员文档精确匹配的方法，包括：

扫描待译文档，确定所述待译文档中的所有词汇和所有语句；

根据确定的所述词汇和语句分别进行复杂度计算，得到文档的词汇复杂度和语句复杂度；

根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值；

根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配，匹配出与所述待译文档的翻译难度数值对应的译员。

优选地，计算所述文档的词汇复杂度的过程包括：

计算出文档的词汇等级、类符形符比和实义词词义密度；

按照词汇复杂度计算公式计算，得到所述文档的所述词汇复杂度，所述词汇复杂度计算公式如下：

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

其中，diff_word为所述文档词汇复杂度，grade_word为所述文档的词汇等级，STTR为所述文档的类符形符比，density_notional为所述文档的实义词词义密度，K₁₁、K₁₂和K₁₃为通过样本计算得到词汇复杂度调节系数。

优选地，在计算所述文档的词汇等级之前，还包括：

对所述文档进行分词处理，得到所有词汇，并统计得到总词汇数；

将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

计算所述文档的词汇等级的过程包括：

按照词汇等级计算公式计算出所述文档的词汇等级，所述词汇等级计算公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

其中，word_x为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为通过样本计算得到词汇等级调节系数，word为总词汇数。

优选地，在计算所述文档的类符形符比的过程包括；

根据得到的所有所述词汇，统计其中的类符数和形符数，计算所述类符数与所述形符数之比，得到所述文档的类符形符比；或

将得到的所有所述词汇按照标准数量划分为多个子文档，及1个不足标准数量词汇的子文档，按照类符形符比计算公式计算，得到所述文档的类符形符比；所述类符形符比计算公式如下：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

其中，token为所述不足标准数量词汇的子文档的形符数，type为不足标准数量词汇的子文档的类符数，type_i为第i个含标准数量个词汇的子文档的类符数，n为所述含标准数量个词汇的子文档数量，ST为所述标准数量个词汇划分单位。

优选地，在计算所述文档的所述实义词词义密度之前，还包括：

对得到的所有所述词汇进行词性标注，得到其中的实义词；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具得到每个所述实义词的义项数meanings_i，其中i为所述实义词的序号；并统计所述实义词的义项总数；

按照实义词词义密度计算公式计算，得到所述文档的实义词词义密度；所述实义词词义密度计算公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，

为所述实义词的义项总数，count_notional为所述实义词的数量。

优选地，所述实义词至少包括以下之一的词性：名词、代名词、动词、形容词、副词和感叹词。

优选地，在计算所述文档的所述语句复杂度之前，还包括：

通过确定所述文档中的整句数计算出整句的平均长度；

通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度；

通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度；

通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度；

计算所述文档的所述语句复杂度的过程包括：

按照语句复杂度计算公式计算得出所述文档的所述语句复杂度；所述语句复杂度计算公式如下：

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

其中，MLS为所述整句的平均长度，MLC为所述第一类子句的平均长度，MLL为所述长句的平均长度，MLCL为所述第二类子句的平均长度，K₂₁、K₂₂、K₂₃和K₂₄为通过样本计算得到语句复杂度调节系数。

优选地，计算所述整句和所述第一类子句的平均长度的过程包括：

将所述总词汇数除以所述整句数，得到所述整句的平均长度；

将所述总词汇数除以所述第一类子句的数量，得到所述第一类子句的平均长度。

优选地，计算所述长句和所述第二类子句的平均长度的过程包括：

统计每个所述长句的长度word_long_i，1≤i≤count_long；其中，i为长句的序号；

按照长句的平均长度计算公式计算得到所述长句的平均长度；所述长句的平均长度计算公式如下：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_long为所述长句数；

按照第二类子句的平均长度计算公式计算得到所述第二子句的平均长度；所述第二类子句的平均长度计算公式如下：

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_clause_long为所述第二类子句的数量。

优选地，所述文档的翻译难度数值的计算过程包括：

按照翻译难度计算公式计算得到所述文档的翻译难度数值；所述翻译难度计算公式如下：

diff_doc=K₁·diff_word+K₂·diff_sentence；

其中，K₁和K₂为通过样本计算得到翻译难度调节系数。

本发明中的文档翻译难度的计算方法，具有以下优点：

1、统一客观的计算出文档的翻译难度，提高了计算出的翻译难度的准确性；

2、可用于向译员分配翻译任务，合理是实现资源的优化配置。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

本技术方案从2个方面来进行待译文档翻译难度的计算：词汇复杂度和语句复杂度，根据待译文档的词汇复杂度和语句复杂度来确定待译文档的翻译难度，具体包括

S11、分别计算出文档的词汇复杂度和语句复杂度；

S12、根据计算出的所述文档的所述词汇复杂度和所述语句复杂度进行难度计算，得到所述文档的翻译难度。

基于上述方法，以下提供一个优选地实施例：

确定待译文档，即文档；

1、计算该文档的词汇复杂度，过程如下：

对该文档进行分词处理，得到该文档中的所有词汇，其中术语“词汇”不应仅理解为英文单词，还应理解为具有字形结构的字，例如汉字、日文、韩文等；和/或具有字母形结构的单词，例如法文、俄文等；并且所有词汇应理解为包含有重复的词汇；

1）、计算文档的词汇等级：

将得到的每个词汇在词汇分级表中进行匹配，获得每个词汇所匹配的级别，该级别为一级、二级、三级或四级；其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级；

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

统计级别为一级的词汇数量为word₁，统计级别为二级的词汇数量为word₂，统计级别为三级的词汇数量为word₃，统计级别为四级的词汇数量为word₄；

统计文档中的所有词汇的数量，作为总词汇数word；

计算二级及以上的词汇在文档中所占的比率，如下：

级别为二级的词汇所占比率为

级别为三级的词汇所占比率为和级别为四级的词汇所占比率为

按照词汇等级计算公式进行计算得到文档的词汇等级；公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

其中，grade_word为词汇等级，K₁₁₁、K₁₁₂和K₁₁₃为给定样本所计算出的词汇等级调节系数，属于第三级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下：

令：Y=grade_word，

X_{1} = \frac{{word}_{2}}{word}, X_{2} = \frac{{word}_{3}}{word}, X_{3} = \frac{{word}_{4}}{word};

对于采集到的n组样本数据：

{X₁₁,X₁₂,X₁₃}；

{X₂₁,X₂₂,X₂₃}；

{X_n1,X_n2,X_n3}；

对应给出专家评定出的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}\};

由此可以获得以下线性方程组：

Y₁=K₁₁₁·X₁₁+K₁₁₂·X₁₂+K₁₁₃·X₁₃；

Y₂=K₁₁₁·X₂₁+K₁₁₂·X₂₂+K₁₁₃·X₂₃；

Y_n=K₁₁₁·X_n1+K₁₁₂·X_n2+K₁₁₃·X_n3；

得到：

[\begin{matrix} K_{111} \\ K_{112} \\ K_{113} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y;

其中，

X = [\begin{matrix} X_{11} & X_{12} & X_{13} \\ X_{21} & X_{22} & X_{23} \\ \cdot \\ \cdot \\ \cdot \\ X_{n 1} & X_{n 2} & X_{n 3} \end{matrix}], Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}],

X′为X的转置矩阵。

2）、计算文档的标准类符形符比：

统计文档中的形符，即文档中出现的总词汇数；

统计文档中的类符，即文档中出现的不相同的词汇数；

类符形符比（TTR）代表了词汇变化率，和文档汇总词汇的丰富程度。TTR的比率越高，说明该文本所使用的不同词汇越多，其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的，所以当文档越大，类符形符比就会越小，统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST（比如ST取值1000）个词汇为单位进行TTR计算，最后将所有TTR的均值作为最终取值，即标准类符形符比（STTR，StandardTTR）。不足标准数量的文档，直接进行TTR计算。具体如下：

将文档的所有词汇按照标准数量ST划分为n个第一子文档，每个第一子文档中具有类符的数量为type_i；其中i为第一子文档的序号；

或还包括一个词汇数量不足ST的第二子文档；第二子文档中的类符为type个和形符为token个

按照标准类符形符比计算公式计算得到文档的标准类符形符比；公式如下：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

3）、计算文档的实义词词义密度：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

统计文档中实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具，统计每个实义词的义项数meanings_i（1≤i≤count_notional）；其中，i为实义词的序号；

统计所有实义词的义项，将所有实义词的义项数相加得到所有实义词的总义项数。

按照实义词词义密度计算公式计算得到文档的实义词词义密度；公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

其中，density_notional为实义词词义密度，

为实义词的总义项数；

其中，计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序，可以分别计算，也可以同时计算。

4）根据文档的词汇等级、标准类符形符比和实义词词义密度，计算出文档的词汇复杂度：

按照词汇复杂度计算公式计算出文档的词汇复杂度；公式如下：

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

其中，diff_word为词汇复杂度，grade_word为词汇等级，STTR为标准类符形符比，density_notional为实义词词义密度；K₁₁、K₁₂和K₁₃为给定样本所计算出的词汇复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

2、计算文档的语句复杂度，具体如下：

术语“整句”应该理解为表达了完整的意思的词汇集合，例如：文档首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合；

术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合；

术语“长句”应该理解为词汇数量大于预定阈值的整句；

并且本文中的第一类和第二类只用于区分。

方案具体如下：

扫描文档，确定文档中的所有整句，并统计整句的总数，记作count_sentence；

将词汇数量大于预定阈值的整句作为长句，并统计长句的总数，记作count_long和每个长句中的词汇数量，记作word_long_i，1≤i≤count_long；i为长句的序号；

整句中的子句为第一类子句，统计第一类子句的总数，记作count_clause；

长句中的子句为第二类子句，统计第二类子句的总数，记作count_clause_long；

分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度；如下：

整句的平均长度（MLS，mean length of sentence）,计算方法为：MLS=word/count_sentence；

第一类子句的平均长度（MLC，mean length of clause），计算方法为：MLC=word/count_clause；

长句的平均长度（MLL，mean length of long sentence），计算方法为：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

第二类子句的平均长度（MLCL，mean length of clause of longsentence），计算方法为：

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

按照语句复杂度计算公式计算得到语句复杂度；语句复杂度计算公式如下：

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

K₂₁、K₂₂、K₂₃、K₂₄为通过所采集样本计算出的语句难度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

3、计算文档的翻译难度数值；

根据获取的文档的词汇复杂度和语句复杂度，按照翻译难度计算公式计算得到文档的翻译难度数值；公式如下：

diff_doc=K₁·diff_word+K₂·diff_sentence；

K₁、K₂为通过所采集样本计算出的翻译难度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

4、文档译员匹配；

根据文档的翻译难度数值与数据库中的译员的翻译能力等级进行匹配，将待译文档分配给与其匹配成功的译员进行翻译。

数据库中包含有大量的译员信息，其中译员信息中包含有该译员的翻译能力等级；

该翻译能力等级根据译员的翻译特长、翻译质量和翻译速度通过进行学习或训练运算得到。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种译员文档精确匹配的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，计算所述文档的词汇复杂度的过程包括：

计算出文档的词汇等级、类符形符比和实义词词义密度；

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

3.根据权利要求2所述的方法，其特征在于，在计算所述文档的词汇等级之前，还包括：

计算所述文档的词汇等级的过程包括：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

4.根据权利要求3所述的方法，其特征在于，在计算所述文档的类符形符比的过程包括；

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

5.根据权利要求3所述的方法，其特征在于，在计算所述文档的所述实义词词义密度之前，还包括：

对得到的所有所述词汇进行词性标注，得到其中的实义词；

将得到的所有所述实义词按照一定顺序进行排列；

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，meanings_i为第i个实义词的义项数，count_notional为所述实义词的数量。

6.根据权利要求5所述的方法，其特征在于，所述实义词至少包括以下之一的词性：名词、代名词、动词、形容词、副词和感叹词。

7.根据权利要求2所述的方法，其特征在于，在计算所述文档的所述语句复杂度之前，还包括：

通过确定所述文档中的整句数计算出整句的平均长度；

计算所述文档的所述语句复杂度的过程包括：

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

8.根据权利要求7所述的方法，其特征在于，计算所述整句和所述第一子句的平均长度的过程包括：

将所述总词汇数除以所述整句数，得到所述整句的平均长度MLS；

将所述总词汇数除以所述第一类子句的数量，得到所述第一类子句的平均长度MLC。

9.根据权利要求7所述的方法，其特征在于，计算所述长句和所述第二类子句的平均长度的过程包括：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_long为所述长句数；

按照第二类子句的平均长度计算公式计算得到所述第二类子句的平均长度；所述第二类子句的平均长度计算公式如下：

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_clause_long为所述第二类子句的数量。

10.根据权利要求1所述的方法，其特征在于，所述文档的翻译难度数值的计算过程包括：

diff_doc=K₁·diff_word+K₂·diff_sentence；

其中，K₁和K₂为通过样本计算得到翻译难度调节系数，diff_doc为翻译难度数值。