CN103699675B

CN103699675B - 一种译员分级索引的方法

Info

Publication number: CN103699675B
Application number: CN201310749990.4A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2017-07-04
Anticipated expiration: 2033-12-30
Also published as: CN103699675A

Abstract

本发明公开了一种译员分级索引的方法，包括：确定归属同一用户ID的多篇译后文档；确定每篇所述译后文档的语句参数和词汇参数，根据所述参数计算出相对应的归一系数；根据所述归一系数在等级标识数据库中匹配相应的级别；建立所述级别与所述用户ID的关联关系；根据所述关联关系，以所述级别作为索引词建立所述用户ID的索引关系。本发明基于统一标准，准确的找到译员翻译能力的级别，提高了评定的准确性、一致性以及评定的效率，解决了快速、准确的检索出合适译员的问题。

Description

一种译员分级索引的方法

技术领域

本发明涉及翻译技术领域，具体而言，涉及一种译员分级索引的方法。

背景技术

为将待翻译的文档分配给合适的译员，一个需考虑的重要因素是文档的翻译难度和译员翻译能力的匹配问题，所以对于翻译行业或翻译公司来说，确定译员的翻译能力和翻译等级是一件非常重要的工作。一般对于译员的翻译能力进行判断，是通过标准测试+专家评分的机制进行，即提供标准的测试文档给待测译员进行翻译，然后通过专家对译员的翻译文档进行评分，根据多篇测试文档的评分值，从而得到译员的翻译能力分值，根据译员的能力分值给定相应的翻译等级，这种评测相对比较主观，并没有客观的考虑译员翻译过的稿件中的字符参数。同时这种测试方法由于无法做到实时性，给出的译员的翻译等级相对译员的翻译能力也会有一定滞后。

不同的译员翻译的词汇和语句不同，目前在为每个译员分配任务时，采用的是主观的分配，并没有客观的考虑待译稿件的字符的参数与译员翻译过的稿件中的字符参数是否匹配，这种匹配也是影响稿件的翻译质量的因素之一。

发明内容

本发明旨在提供一种译员分级索引的方法，解决了由于没有客观的根据译员的译后稿件中的字符参数确定译员翻译等级，影响译员分级检索的问题。

本发明公开了一种译员分级索引的方法，包括：

确定归属同一用户ID的多篇译后文档；

确定每篇所述译后文档的语句参数和词汇参数，根据所述参数计算出相对应的归一系数；

根据所述归一系数在等级标识数据库中匹配相应的级别；

建立所述级别与所述用户ID的关联关系；

根据所述关联关系，以所述级别作为索引词建立所述用户ID的索引关系。

优选地，在建立了所述级别与所述用户ID的关联关系后，还包括：

在一定的时间阀值范围内，重新确定所述用户ID的多篇译后文档；

重新建立所述级别与所述用户ID的关联关系，以用于实时更新所述用户ID的索引关系。

优选地，所述语句参数为语句复杂度；

计算所述语句复杂度的过程包括：

分析出所述译后文档的整句的平均长度、所述整句中的第一类子句的平均长度、长句的平均长度和所述长句中的第二类子句的平均长度；

按照语句复杂度计算公式计算，得到所述译后文档的所述语句复杂度；所述语句复杂度计算公式如下：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

其中，diff_sentence为语句复杂度，MLS为所述整句的平均长度，MLC为所述第一类子句的平均长度，MLL为所述长句的平均长度，MLCL为所述第二类子句的平均长度，K₂₁、K₂₂、K₂₃和K₂₄为通过样本计算得到语句复杂度调节系数。

优选地，所述词汇参数为词汇复杂度；

计算所述词汇复杂度的过程包括：

分析出所述译后文档中的词汇等级、类符形符比和实义词词义密度；

按照词汇复杂度计算公式计算，得到所述译后文档的词汇复杂度；所述词汇复杂度计算公式如下：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional

其中，diff_word为所述文档词汇复杂度，grade_word为所述文档的词汇等级，STTR为所述文档的类符形符比，density_notional为所述文档的实义词词义密度，K₁₁、K₁₂和K₁₃为通过样本计算得到词汇复杂度调节系数。

优选地，分析所述译后文档的词汇等级的过程包括：

对所述译后文档进行分词处理，得到所述译后文档中的所有词汇，并统计词汇总数；

将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

计算所述文档的词汇等级的过程包括：

按照词汇等级计算公式计算出所述文档的词汇等级，所述词汇等级计算公式如下：

其中，word_x为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为通过样本计算得到词汇等级调节系数，word为总词汇数。

优选地，分析所述译后文档的所述类符形符比的过程包括：

确定所述译后文档中的所有词汇，统计其中的类符数和形符数，计算所述类符数与所述形符数之比，得到所述文档的类符形符比；或

将得到的所有所述词汇按照标准数量划分为多个子文档，及1个不足标准数量词汇的子文档，按照类符形符比计算公式计算，得到所述文档的类符形符比；所述类符形符比计算公式如下：

其中，token为所述不足标准数量词汇的子文档的形符数，type为不足标准数量词汇的子文档的类符数，type_i为第i个含标准数量个词汇的子文档的类符数，n为所述含标准数量个词汇的子文档数量，ST为所述标准数量个词汇划分单位。

优选地，分析所述译后文档的实义词词义密度的过程包括：

确定所述译后文档中的所有词汇，对每个词汇进行词性标注，得到其中的实义词；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具得到每个所述实义词的义项数meanings_i，其中i为所述实义词的序号；并统计所述实义词的义项总数；

按照实义词词义密度计算公式计算，得到所述文档的实义词词义密度；所述实义词词义密度计算公式如下：

其中，meanings_i为第i个实义词的义项数，count_notional为所述实义词的数量。

优选地，所述归一系数为翻译能力分值；

计算所述翻译能力分值的过程包括：

根据每个所述译后文档的语句复杂度和词汇复杂度进行计算，得到所述译后文档的翻译难度值；

求出所有所述译后文档的所述翻译难度值的平均值作为所述翻译能力分值。

优选地，所述翻译难度值的计算过程包括：

按照翻译难度计算公式计算得到所述译后文档的翻译难度值；所述翻译难度计算公式如下：

diff_doc＝K₁·diff_word+K₂·diff_sentence

其中，K₁和K₂为通过样本计算得到翻译难度调节系数，diff_doc为翻译难度值。

本发明中的译员专业翻译能力的分析方法，具有以下优点：

1、统一客观找到译员专业翻译能力的级别；

2、根据译员的翻译能力分级索引可以快速、准确的检索出合适译员；

3、与传统通过译员测试并建立索引关系相比，提高了的效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

本发明提出一种译员的分级索引的方法，即通过对译员既往已翻译合格的文档进行难度分析，从而得到译员翻译能力的分值，根据得到的能力分值实时更新译员翻译等级索引关系，从而解决了快速、准确的检索出合适译员的问题，包括：

S11、确定归属同一用户ID的多篇译后文档；

S12、确定每篇所述译后文档的语句参数和词汇参数，根据所述参数计算出相对应的归一系数；

S13、根据所述归一系数在等级标识数据库中匹配相应的级别；

S14、建立所述级别与所述用户ID的关联关系；

S15、根据所述关联关系，以所述级别作为索引词建立所述用户ID的索引关系

基于上述方法，以下提供一个优选地实施例：

1、提取归属同一用户ID的多篇译后文档；该多篇译后文档为译员在一定时间段内（例如前X月，前Y日）所有通过审校的稿件；

2、计算每篇译后文档的翻译难度值，具体如下处理：

确定译后文档，即下文中出现的文档；

2.1、计算该文档的词汇复杂度，过程如下：

对该文档进行分词处理，得到该文档中的所有词汇，其中术语“词汇”不应仅理解为英文单词，还应理解为具有字形结构的字，例如汉字、日文、韩文等；和/或具有字母形结构的单词，例如法文、俄文等；并且所有词汇应理解为包含有重复的词汇；

1）、计算文档的词汇等级：

将得到的每个词汇在词汇分级表中进行匹配，获得每个词汇所匹配的级别，该级别为一级、二级、三级或四级；其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级；

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

统计级别为一级的词汇数量为word₁，统计级别为二级的词汇数量为word₂，统计级别为三级的词汇数量为word₃，统计级别为四级的词汇数量为word₄；

统计文档中的所有词汇的数量，作为总词汇数word；

计算二级及以上的词汇在文档中所占的比率，如下：

级别为二级的词汇所占比率为级别为三级的词汇所占比率为和级别为四级的词汇所占比率为

按照词汇等级计算公式进行计算得到文档的词汇等级；公式如下：

其中，grade_word为词汇等级，K₁₁₁、K₁₁₂和K₁₁₃为给定样本所计算出的词汇等级调节系数，属于第三级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下：

令：

对于采集到的n组样本数据：

{X₁₁,X₁₂,X₁₃}；

{X₂₁,X₂₂,X₂₃}；

.；

{X_n1,X_n2,X_n3}；

对应给出通过样本数据经过运算得到的词汇等级：

由此可以获得以下线性方程组：

Y₁＝K₁₁₁·X₁₁+K₁₁₂·X₁₂+K₁₁₃·X₁₃；

Y₂＝K₁₁₁·X₂₁+K₁₁₂·X₂₂+K₁₁₃·X₂₃；

.；

Y_n＝K₁₁₁·X_n1+K₁₁₂·X_n2+K₁₁₃·X_n3；

得到：

其中， X′为X的转置矩阵。

得到的调节系数通过大量样本数据进行计算，得到的可忽略人为因素的客观数据，得到的调节系数之间同时具有关联性。

2）、计算文档的标准类符形符比：

统计文档中的形符，即文档中出现的总词汇数；

统计文档中的类符，即文档中出现的不相同的词汇数；

类符形符比（TTR）代表了词汇变化率，和文档汇总词汇的丰富程度。TTR的比率越高，说明该文本所使用的不同词汇越多，其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的，所以当文档越大，类符形符比就会越小，统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST（比如ST取值1000）个词汇为单位进行TTR计算，最后将所有TTR的均值作为最终取值，即标准类符形符比（STTR，Standard TTR）。不足标准数量的文档，直接进行TTR计算。具体如下：

将文档的所有词汇按照标准数量ST划分为n个第一子文档，每个第一子文档中具有类符的数量为type_i；其中i为第一子文档的序号；

还包括一个词汇数量不足ST的第二子文档；第二子文档中的类符为type个和形符为token个

按照标准类符形符比计算公式计算得到文档的标准类符形符比；公式如下：

3）、计算文档的实义词词义密度：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

统计文档中实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具，统计每个实义词的义项数meanings_i（1≤i≤count_notional）；其中，i为实义词的序号；

统计所有实义词的义项，将所有实义词的义项数相加得到所有实义词的总义项数。

按照实义词词义密度计算公式计算得到文档的实义词词义密度；公式如下：

其中，density_notional为实义词词义密度，meanings_i为实义词的总义项数；

其中，计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序，可以分别计算，也可以同时计算。

4）根据文档的词汇等级、标准类符形符比和实义词词义密度，计算出文档的词汇复杂度（即词汇参数）：

按照词汇复杂度计算公式计算出文档的词汇复杂度；公式如下：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional；

其中，diff_word为词汇复杂度，grade_word为词汇等级，STTR为标准类符形符比，density_notional为实义词词义密度；K₁₁、K₁₂和K₁₃为给定样本所计算出的词汇复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

2.2、计算文档的语句复杂度（即语句参数），具体如下：

术语“整句”应该理解为表达了完整的意思的词汇集合，例如：文档首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合；

术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合；

术语“长句”应该理解为词汇数量大于预定阈值的整句；

本文所使用的第一类和第二类只用于区分。

方案具体如下：

扫描文档，确定文档中的所有整句，并统计整句的总数，记作count_sentence；

将词汇数量大于预定阈值的整句作为长句，并统计长句的总数，记作count_long和每个长句中的词汇数量，记作word_long_i，1≤i≤count_long；i为长句的序号；

整句中的子句为第一类子句，统计第一类子句的总数，记作count_clause；

长句中的子句为第二类子句，统计第二类子句的总数，记作count_clause_long；

分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度；如下：

整句的平均长度（MLS，mean length of sentence）,计算方法为：MLS=word/count_sentence；

第一类子句的平均长度（MLC，mean length of clause），计算方法为：MLC=word/count_clause；

长句的平均长度（MLL，mean length of long sentence），计算方法为：

第二类子句的平均长度（MLCL，mean length of clause of long sentence），计算方法为：

按照语句复杂度计算公式计算得到语句复杂度；语句复杂度计算公式如下：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

K₂₁、K₂₂、K₂₃、K₂₄为通过所采集样本计算出的语句难度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

2.3、计算文档的翻译难度值；

根据获取的文档的词汇复杂度和语句复杂度，按照翻译难度计算公式计算得到文档的翻译难度值；公式如下：

diff_doc＝K₁·diff_word+K₂·diff_sentence；

K₁、K₂为通过所采集样本计算出的翻译难度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

3、确定译员专业翻译能力的分值（即归一系数）；

对多篇已翻译文档的翻译难度值求和，并算出翻译难度值的平均值，作为译员专业翻译能力的分值。

4、确定级别、建立索引；

将译员专业翻译能力的分值在等级标识数据库中进行匹配，得到与所述分值匹配的级别；

对所述用户ID与匹配得到的级别建立关联关系。

并根据所述关联关系，以所述级别作为索引词建立用户ID与级别的索引关系；其中，该索引关系可以表示为索引表、数据链路等。

例如：用户数据库中包含有10个用户ID，分别为01、02、03、04、05、06、07、08、09和10；

其中，01、03和04的级别为一级，02、05和08的级别为二级，06、07、09和10的级别为三级；

通过以“三级”为索引词进行检索，可以找到级别为三级的用户ID包括：06、07、09和10；

5、更新索引；

确定了关联关系后，在一定的时间阀值范围内，重新确定所述用户ID的多篇译后文档；例如：每间隔时间t后，重新在选取在设定的时间段内的译后稿件。

根据上述方法，重新建立所述级别与所述用户ID的关联关系，以用于实时更新所述用户ID的索引关系。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种译员分级索引的方法，其特征在于，包括：

确定归属同一用户ID的多篇译后文档；

根据所述归一系数在等级标识数据库中匹配相应的级别；

建立所述级别与所述用户ID的关联关系；

根据所述关联关系，以所述级别作为索引词建立所述用户ID的索引关系；

其中，所述语句参数为语句复杂度，所述词汇参数为词汇复杂度。

2.根据权利要求1所述的方法，其特征在于，在建立了所述级别与所述用户ID的关联关系后，还包括：

3.根据权利要求1所述的方法，其特征在于，确定的所述多篇译后文档为所述用户ID对应的译员在一定的时间范围内通过审校后的稿件。

4.根据权利要求1所述的方法，其特征在于，

计算所述语句复杂度的过程包括：

diff_sentence＝K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL；

5.根据权利要求4所述的方法，其特征在于，

计算所述词汇复杂度的过程包括：

diff_word＝K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional

其中，diff_word为所述文档词汇复杂度，grade_word为所述文档的词汇等级，STTR为所述文档的类符形符比，density_notional为所述文档的实义词词义密度，K₁₁、K₁₂和K₁₃为通过样本计算得到词汇复杂度调节系数；

其中，分析所述译后文档的实义词词义密度的过程包括：

将得到的所有所述实义词按照一定顺序进行排列；

d e n s i t y_n o t i o n a l = \frac{Σ_{i = 1}^{c o u n t_n o t i o n a l} {meanings}_{i}}{Σ_{i = 1}^{c o u n t_n o t i o n a l} {meanings}_{i} + (w o r d - c o u n t_n o t i o n a l)};

6.根据权利要求5所述的方法，其特征在于，分析所述译后文档的词汇等级的过程包括：

计算所述文档的词汇等级的过程包括：

g r a d e_w o r d = K_{111} \cdot \frac{{word}_{2}}{w o r d} + K_{112} \cdot \frac{{word}_{3}}{w o r d} + K_{113} \cdot \frac{{word}_{4}}{w o r d};

7.根据权利要求5所述的方法，其特征在于，分析所述译后文档的所述类符形符比的过程包括：

S T T R = \{\begin{matrix} \frac{1}{(n + 1) \cdot S T \cdot t o k e n} \cdot (t y p e \cdot S T + t o k e n \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{t y p e}{t o k e n}, & (n = 0) \end{matrix}

8.根据权利要求5所述的方法，其特征在于，所述归一系数为翻译能力分值；

计算所述翻译能力分值的过程包括：

9.根据权利要求8所述的方法，其特征在于，所述翻译难度值的计算过程包括：

diff_doc＝K₁·diff_word+K₂·diff_sentence