CN105279147A

CN105279147A - 一种译员稿件快速匹配方法

Info

Publication number: CN105279147A
Application number: CN201510631426.1A
Authority: CN
Inventors: 江潮; 张芃; 蔺伟; 陈钰清
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2015-09-29
Filing date: 2015-09-29
Publication date: 2016-01-27
Anticipated expiration: 2035-09-29
Also published as: CN105279147B

Abstract

本发明提供了一种译员稿件快速匹配方法，涉及互联网翻译行业项目智能处理技术领域，包括：拆分待翻译稿件，通过术语提取方法从待翻译稿件中提取术语组成稿件特征库；提取译员专业属性特征，通过术语提取方法从译员稿件库中提取术语组成译员专业特征库；通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配，获得最接近的译员特征库。解决了现有技术为待翻译稿件筛选合适的译员的匹配过程较繁琐，不能快速筛选出合适译员的技术问题。

Description

一种译员稿件快速匹配方法

技术领域

本发明涉及互联网翻译行业项目智能处理技术领域，特别是涉及一种译员稿件快速匹配方法。

背景技术

随着互联网的兴起，翻译服务业正向着大规模产业化的方向发展，平台化处理翻译项目成为主流处理方式。但平台处理必须考虑的问题是如何给译员推荐一个比较合适的项目。通知我们会根据译员的语种，行业，稿件类型三大维度来匹配译员。其中行业和稿件类型只能通过人为的方式凭主观打分，并且由于行业和稿件类型有上千多种，通常不能很客观的评价译员的真实能力。本算法是从译员历史上翻译的稿件出发，通过词汇库的相似性来替代“行业”+“稿件类型”的评估。

发明内容

本发明所要解决的是现有技术在为待翻译稿件筛选合适的译员的匹配过程较繁琐，不能快速筛选出合适译员的技术问题。

为了解决上述问题，本发明公开了一种译员稿件快速匹配方法，包括：

拆分待翻译稿件，通过术语提取方法从待翻译稿件中提取术语组成稿件特征库；

提取译员专业属性特征，通过术语提取方法从译员稿件库中提取术语组成译员专业特征库；

通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配，获得最接近的译员特征库。

进一步，所述术语提取方法包括构建一个词语信息表，步骤如下：

步骤1：确定待翻译稿件或译员历史翻译稿件确定的稿件集合，定义所述稿件集合为：R_doc；

步骤2：对所述稿件集合R_doc中的稿件进行编号，每篇稿件对应一个编号，将所述编号记为：docID；

步骤3：对所述稿件集合R_doc中的稿件进行分词处理，经过过滤处理除去其中无意义词语以及不再做匹配使用的词语，得到所述稿件集合R_doc中所有词语的集合，所述词语的集合记为：R_word，对词语的集合R_word中的每个词语进行编号，记为wordID；

步骤4：计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数，记为词频tf；

步骤5：计算R_word中每个词语在稿件集合R_doc稿件集合中的每篇文档中的位置信息，即所述词语是所述文档的第几个词语，所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。

从而对于稿件集合R_doc中的所有词语，得到了包含稿件文档编号、词频信息、词语位置信息的词语信息表。

进一步，所述方法采用反向匹配的思路进行匹配，即以稿件中的所有词语作为关键词，在术语库中进行匹配，所述匹配过程中采用二分法进行匹配。

进一步，所述匹配过程包括如下步骤：

步骤a：当待翻译稿件与术语库中的某一术语的第一个词语匹配成功，则计算所述术语的词长，将所述词长设为len；

当len＝1时，所述词语即为术语，返回所述术语的行业、学科、领域属性信息给所述词语所属的文档；

步骤b：否则根据所述词语在文档中的位置信息，将所述词语的位置后面的len-1个词语相应与所述术语的后len-1个词语进行顺序匹配，若某个词语不匹配则放弃；否则继续，直到len-1个词语都匹配完，并返回所述术语的行业、学科领域信息给所述词语所属的文档。

进一步，所述相似性分析包括：

步骤A：根据得到的待匹配文档的术语词频，计算术语的权重，计算方法如下：

设待翻译稿件共有n个术语，词频为：f1，f2，…，fn，则每个术语的权重为Wi，各术语权重向量为：{w₁，w₂，…，w_n}；

每个术语的权重Wi通过如下公式计算得到：

w_{i} = \frac{f_{i}}{Σ_{i = 1}^{n} f_{i}}, (i = 1, 2, ..., n);

步骤B：计算所述待翻译稿件的n个术语在译员的专业特征库中的的数量，分别记为k_i，i＝1，2，......n，

得到用于表示n个术语的数量的向量{k₁，k₂，…，k_n}；

分别计算所述待翻译稿件的n个术语在译员的专业特征库中的数量，假定共有m个译员作为待筛选的译员；

得到m个用于表示每个译员的专业特征库中n个术语的数量的向量：{k₁₁，k₁₂，…，k_1n}、{k₂₁，k₂₂，…，k_2n}……、{k_m1，k_m2，…，k_mn}；

步骤C：进行相似度计算，相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到，即分别计算向量{w₁，w₂，…，w_n}与向量{k₁₁，k₁₂，…，k_1n}、{k₂₁，k₂₂，…，k_2n}、……、{k_m1，k_m2，…，k_mn}的点积后得到。

进一步，在执行完所述步骤B后，执行所述步骤C之前，还包括：对用于表示n个术语的数量的向量{k₁，k₂，…，k_n}的规范化处理；

在所述步骤C中，相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量规范化处理后的数据的乘积并加权后得到。

进一步，所述规范化处理包括：引入用于评价译员对每个术语的掌握度k′_i，i＝1，2，……，n；

以及用于计算所述掌握度k′_i的临界值v；

当译员翻译某术语的次数k_i不大于所述临界值v的一半时候，所述术语的掌握度k′_i随着翻译所述术语的次数k_i增加而增大；

当译员翻译某术语的次数k_i大于所述临界值v的一半时候，所述术语的掌握度k′_i不再随着对所述术语的翻译次数k_i的增加而大幅增大。

进一步，所述掌握度k′_i通过如下公式计算得到：

当译员翻译某术语的次数k_i不大于所述临界值v的一半时候，

即当时，k′_i＝k_i；

当译员翻译某术语的次数k_i大于所述临界值v的一半时候，

即当

k_{i} > [\frac{V}{2}]

时，

k_{i}^{'} = v / 1 + e^{- α (k_{i} - [\frac{v}{2}])};

式中：表示对向下取整；

α为缩小系数，

进一步，在执行完步骤C后，得到相似度Sim，之后通过计算得到匹配度，匹配度＝Sim/v。

与现有技术相比，本发明具有以下优点：

本发明提供了一种翻译稿件的匹配的方法，可以依据此方法建立风险项目推荐译员平台，能够方便快捷对接中大型翻译公司在线交付平台，为其风险项目推荐合适译员，极大提高其风险项目处理能力。

附图说明

图1是本发明的优选实施例1的匹配方法的流程示意图；

图2是本发明的优选实施例1中的步骤1的子流程示意图；

图3是本发明的优选实施例1中的步骤3的子流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和实施例作进一步详细的说明。

如图1所示，在本发明的优选实施例中，提供了一种译员稿件快速匹配方法，包括：

S1：拆分待翻译稿件，通过术语提取方法从待翻译稿件中提取术语组成稿件特征库；

S2：提取译员专业属性特征，通过术语提取方法从译员稿件库中提取术语组成译员专业特征库；

S3：通过对稿件特征库及译员专业特征库进行相似性分析来进行匹配，获得最接近的译员特征库。

在优选的实施例1中，步骤S1中包括构建一个词语信息表的过程，步骤如图2所示：

S1.1：确定待翻译稿件或译员历史翻译稿件确定的稿件集合，定义所述稿件集合为：R_doc；

S1.2：对所述稿件集合R_doc中的稿件进行编号，每篇稿件对应一个编号，将所述编号记为：docID；

S1.3：对所述稿件集合R_doc中的稿件进行分词处理，经过过滤处理除去其中无意义词语以及不再做匹配使用的词语，得到所述稿件集合R_doc中所有词语的集合，所述词语的集合记为：R_word，对词语的集合R_word中的每个词语进行编号，记为wordID；

S1.4：计算所述词语的集合R_word中的每个词语在所述稿件集合R_doc中每篇稿件中的出现次数，记为词频tf；

S1.5：计算R_word中每个词语在稿件集合R_doc稿件集合中的每篇文档中的位置信息，即所述词语是所述文档的第几个词语，所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。位置信息记为pos。

对于R_word中的每个词语就得到了一个如下表所示的词语信息表结构：

所述方法采用反向匹配的思路进行匹配，即以稿件中的所有词语作为关键词，由于术语库为严格按字典顺序排列的词语集合，在术语库中进行匹配，所述匹配过程与正向匹配方法(将术语库中的术语在稿件中进行匹配)只能采用顺序匹配不同，可以采用二分法进行匹配。所述匹配过程包括如下步骤：

以下逻辑代码表示所述匹配过程的大致流程：

Begin

count＝|R_word|；

while(count≠0){

取R_doc中第count个词语在术语库中进行模式匹配；

if(与某术语的第一个词语匹配成功){

计算所述术语的词长len；

if(len＝1){

返回所述术语的行业领域等类别信息；

根据所述词语在其词语信息表中的词频信息进行术语数量统计；

}

else{

count2＝len-1；

for(i＝1，i≠count2，i++){

根据词语信息表，将所述词语在各个文本各个位置后的第i个词语与术语后第i个词语与进行匹配；

if(不匹配)break；

}

对于len-1个词语都匹配成功的，返回所述术语的行业类别信息；

对于len-1个词语都匹配成功的，进行术语数量统计；

}

count--；

}

End

如图3所示，在优选的实施例1中，所述相似性分析包括：

S3.1：根据得到的待匹配文档的术语词频，计算术语的权重，计算方法如下：

每个术语的权重Wi通过如下公式计算得到：

w_{i} = \frac{f_{i}}{Σ_{i = 1}^{n} f_{i}}, (i = 1, 2, ..., n);

S3.2：计算所述待翻译稿件的n个术语在译员的专业特征库中的的数量，分别记为k_i，i＝1，2，......n，

得到用于表示n个术语的数量的向量{k₁，k₂，…，k_n}；

S3.3：进行相似度计算，相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量的乘积并加权后得到，即分别计算向量{w₁，w₂，…，w_n}与向量{k₁₁，k₁₂，…，k_1n}、{k₂₁，k₂₂，…，k_2n}、……、{k_m1，k_m2，…，k_mn}的点积后得到。

在优选的实施例2中，在执行完S3.2后，执行S3.3之前，还包括：对用于表示n个术语的数量的向量{k₁，k₂，…，k_n}的规范化处理的过程。

在S3.3中，相似度Sim是通过计算各术语权重以及各术语在专业特征库的数量规范化处理后的数据的乘积并加权后得到。

所述规范化处理包括：引入用于评价译员对每个术语的掌握度k′_i，i＝1，2，……，n；

以及用于计算所述掌握度k′_i的临界值v；

临界值v表达的含义为：译员对术语掌握程度的临界值，当译员翻译某术语的次数小于所述值的时候，译员对所述术语的掌握度随着翻译所述术语的次数增加而增大，当达到并超过所述值得时候，表明所述译员对所述术语达到基本掌握的程度，译员对所述术语的掌握程度不再随着对所述术语的翻译次数的增加而大幅增大。

通过引入掌握度和临界值来进行相似性匹配，能够更综合全面的评价译员对于某一术语的熟悉程度，更能综合体现译员对于不同术语的掌握程度，通过临界值的引入，综合考虑了当译员翻译某一术语达到一定次数后就足够熟悉所述术语，后续的继续翻译工作对与翻译所述术语的翻译水平提升并不像刚接触所述术语那样有明显效果，因而对于译员的翻译能力的评价更为准确，同时也能获得更为准确的匹配结果。

所述掌握度k′_i通过如下公式计算得到：

当译员翻译某术语的次数k_i不大于所述临界值v的一半时候，

即当时，k′_i＝k_i；

当译员翻译某术语的次数k_i大于所述临界值v的一半时候，

即当

k_{i} > [\frac{v}{2}]

时，

k_{i}^{'} = v / 1 + e^{- α (k_{i} - [\frac{v}{2}])};

式中：表示对向下取整；

α为缩小系数，v越大，α越小，一般取

在执行完步骤C后，得到相似度Sim，之后通过计算得到匹配度，匹配度＝Sim/v。

采用优选的实施例1的匹配方法进行的一次匹配过程如下所示：

下表为稿件的术语表，及两个译员的术语库中对这些术语的词频

术语	稿件术语数	译员1术语数	译员2术语数
				Term1	f1＝6	k₁₁＝8	k₂₁＝5
Term2	f2＝2	k₁₂＝2	k₂₂＝0
				Term3	f3＝10	k₁₃＝4	k₂₃＝8
Term4	f4＝5	k₁₄＝13	k₂₄＝6

得到：

w_{1} = \frac{6}{6 + 2 + 10 + 5} = 0.26

w_{2} = \frac{2}{6 + 2 + 10 + 5} = 0.09

w_{3} = \frac{10}{6 + 2 + 10 + 5} = 0.43

w_{4} = \frac{5}{6 + 2 + 10 + 5} = 0.22

译员1和所述稿件的相似度为：

Sim1＝w₁k₁₁+w₁k₁₂+w₁k₁₃+w₁k₁₄＝7.14

译员2和所述稿件的相似度为：

Sim2＝w₁k₂₁+w₁k₂₂+w₁k₂₃+w₁k₂₄＝6.06

采用优选的实施例2的匹配方法进行的一次匹配过程如下所示：

v取值为10，α取值为0.5；

得到：

w_{1} = \frac{6}{6 + 2 + 10 + 5} = 0.26

w_{2} = \frac{2}{6 + 2 + 10 + 5} = 0.09

w_{3} = \frac{10}{6 + 2 + 10 + 5} = 0.43

w_{4} = \frac{5}{6 + 2 + 10 + 5} = 0.22

k_{11}^{'} = \frac{10}{1 + e^{- 0.5 (8 - 5)}} = 8.18

k′₁₂＝2

k′₁₃＝4

k_{14}^{'} = \frac{10}{1 + e^{- 0.5 (13 - 5)}} = 9.82

k′₂₁＝5

k′₂₂＝0

k_{23}^{'} = \frac{10}{1 + e^{- 0.5 (8 - 5)}} = 8.18

k_{24}^{'} = \frac{10}{1 + e^{- 0.5 (6 - 5)}} = 6.22

译员1和所述稿件的相似度为：

Sim1＝w₁k′₁₁+w₁k′₁₂+w₁k′₁₃+w₁k′₁₄＝6.2

译员2和所述稿件的相似度为：

Sim2＝w₁k′₂₁+w₁k′₂₂+w₁k′₂₃+w₁k′₂₄＝6.19

译员1和待翻译稿件的匹配度为：

(w₁k′₁₁+w₁k′₁₂+w₁k′₁₃+w₁k′₁₄)/v＝0.62

译员2和待翻译稿件的匹配度为：

(w₁k′₂₁+w₁k′₂₂+w₁k′₂₃+w₁k′₂₄)/v＝0.619

通过上述技术方案的运用，本发明提供了一种译员稿件快速匹配方法，可以依据此方法建立风险项目推荐译员平台，能够方便快捷对接中大型翻译公司在线交付平台，为其风险项目推荐合适译员，极大提高其风险项目处理能力。能够快速高效的完成一篇待翻译稿件的译员的推荐，为每篇待翻译稿件选取合适的译员进行稿件翻译工作。

以上对本发明实施例所提供的一种译员稿件快速匹配方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明实施例的限制。

Claims

1.一种译员稿件快速匹配方法，其特征在于，包括：

2.根据权利要求1中所述的方法，其特征在于，所述术语提取方法包括构建一个词语信息表的过程，步骤如下：

步骤5：计算R_word中每个词语在所述稿件集合R_doc稿件集合中的每篇文档中的位置信息，即所述词语是所述稿件集合R_doc的第几个词语，所述词语的词频tf为所述词语在稿件集合R_doc的每篇稿件的词频数之和。

3.根据权利要求2中所述的方法，其特征在于，采用反向匹配的思路进行匹配，即以稿件中的所有词语R_word作为关键词，在术语库中进行匹配，所述匹配过程采用二分法进行匹配。

4.根据权利要求3中所述的方法，其特征在于，所述匹配过程包括如下步骤：

5.根据权利要求4中所述的方法，其特征在于，所述相似性分析包括：

每个术语的权重Wi通过如下公式计算得到：

w_{i} = \frac{f_{i}}{Σ_{i = 1}^{n} f_{i}}, (i = 1, 2, ..., n);

得到用于表示n个术语的数量的向量{k₁，k₂，…，k_n}；

6.根据权利要求5中所述的方法，其特征在于，在执行完所述步骤B后，执行所述步骤C之前，还包括：对用于表示n个术语的数量的向量{k₁，k₂，…，k_n}的规范化处理的过程；

7.根据权利要求6中所述的方法，其特征在于，所述规范化处理包括：引入用于评价译员对每个术语的掌握度k′_i，i＝1，2，……，n；

以及用于计算所述掌握度k′_i的临界值v；

8.根据权利要求7中所述的方法，其特征在于，所述掌握度k′_i通过如下公式计算得到：

当译员翻译某术语的次数k_i不大于所述临界值v的一半时候，

即当时，k′_i＝k_i；

当译员翻译某术语的次数k_i大于所述临界值v的一半时候，

即当

k_{i} > [\frac{V}{2}]

时，

k_{i}^{'} = v / 1 + e^{- α (k_{i} - [\frac{V}{2}])};

式中：表示对向下取整；

α为缩小系数，通常取

9.根据权利要求8中所述的方法，其特征在于，在执行完步骤C后，得到相似度Sim，之后通过计算得到匹配度，匹配度＝Sim/v。