CN104966103A

CN104966103A - 一种翻译平台的稿件分析方法

Info

Publication number: CN104966103A
Application number: CN201510375027.3A
Authority: CN
Inventors: 江潮; 张芃; 陈钰清
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Expressive language, networking, Polytron Technologies Inc
Priority date: 2015-07-01
Filing date: 2015-07-01
Publication date: 2015-10-07
Anticipated expiration: 2035-07-01
Also published as: CN104966103B

Abstract

一种翻译平台的稿件分析方法，包括：分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，确定所述待分配稿件的稿件数据与每个所述译员的译员数据之间的第一匹配程度；根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度；筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件。本发明通过提出的筛选方法，可以尽快的确定风险稿件，从而对风险稿件进行人工或其它操作处理，保证稿件翻译的顺利进行。

Description

一种翻译平台的稿件分析方法

技术领域

本发明属于翻译技术领域，尤其是涉及一种翻译平台的稿件分析方法。

背景技术

随着国际交互的日益频繁，翻译行业得到的快速发展。在大规模云翻译平台上，平台会根据稿件的语种、难度、行业领域等属性将稿件推送给相应的译员进行翻译，这些符合翻译某稿件的译员成为该稿件的目标译员池。是否领取该稿件进行翻译，对于每个译员来说由其领取概率由其自身当时的各种影响因子决定。对于整个平台而言，该稿件的领取风险由该稿件目标译员池的所有译员的领取概率决定。

目前，翻译平台在接收到待译稿件后，会根据稿件和译员的专业领域进行匹配，自动推送该稿件；但由于平台上的译员的情况变动或者主观影响，会使稿件无法按时完成，给翻译平台和客户都造成损失。

发明内容

本发明的目的之一是提供一种翻译平台的稿件分析方法，以解决现有技术中稿件无法正常翻译完成的问题。

在一些说明性实施例中，所述翻译平台的稿件分析方法，包括：分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，确定所述待分配稿件的稿件数据与每个所述译员的译员数据之间的第一匹配程度；根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度；筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件。

优选地，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：对所述疑难稿件进行碎片化处理，将所述疑难稿件分割为至少两部分的任务片段；其中，每个任务片段内的字符数不高于预设字符数；将所述任务片段分配给所述译员池中不同的译员进行处理。

优选地，所述分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，包括：确定所述待分配稿件的发布时段，以及所述匹配模型的影响因子；根据所述影响因子，建立所述译员在所述发布时段内和所述待分配稿件进行匹配的所述匹配模型。

优选地，还包括：计算出所述译员在以往多个该时段内匹配模型的影响因子，并建立所述影响因子的概率分布；根据所述影响因子的概率分布，模拟出所述译员在该时段的多个转换系数，将所述多个转化系数的均值作为第一转化系数；将译员池中的多个译员的第一转化系数的中位值或均值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度。

优选地，所述将译员池中的多个译员的第一转化系数的中位值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度，具体包括：

P I = \frac{2}{π} \cdot \arctan (\frac{K}{K_{m e d}})

其中，PI为所述译员对所述待分配稿件的第一匹配程度，K为第一转换系数，k_med为第二转换系数。

优选地，所述根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度，具体包括：

P D = 1 - Π_{i = 1}^{n} (1 - {PI}_{i})

其中，PD为所述待分配稿件对所有译员数据的第二匹配程度，PI_i为第i个译员对所述待分配稿件的第一匹配程度，n为译员池的译员个数。

优选地，所述匹配模型的影响因子包括：领取频度、活跃频度、行为因子、负载因子、能力因子；根据所述领取频度、活跃频度、行为因子、负载因子、能力因子，建立所述匹配模型。

优选地，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：根据所述疑难稿件的字符数和/或任务发布时间，确定出该疑难稿件的风险系数；若所述风险系数大于最大系数值，则将所述待分配稿件推送至人工处理。

与现有技术相比，本发明的说明性实施例包括以下优点：

本发明通过提出的筛选方法，可以尽快的确定风险稿件，从而对风险稿件进行人工或其它操作处理，保证稿件翻译的顺利进行。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是按照本发明的说明性实施例的流程图。

具体实施方式

在以下详细描述中，提出大量特定细节，以便于提供对本发明的透彻理解。但是，本领域的技术人员会理解，即使没有这些特定细节也可实施本发明。在其它情况下，没有详细描述众所周知的方法、过程、组件和电路，以免影响对本发明的理解。

如图1所示，公开了一种翻译平台的稿件分析方法，包括：

S11、分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，确定所述待分配稿件的稿件数据与每个所述译员的译员数据之间的第一匹配程度；

S12、根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度；

S13、筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件。

在一些说明性实施例中，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：对所述疑难稿件进行碎片化处理，将所述疑难稿件分割为至少两部分的任务片段；其中，每个任务片段内的字符数不高于预设字符数；将所述任务片段分配给所述译员池中不同的译员进行处理。

在一些说明性实施例中，所述分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，包括：确定所述待分配稿件的发布时段，以及所述匹配模型的影响因子；根据所述影响因子，建立所述译员在所述发布时段内和所述待分配稿件进行匹配的所述匹配模型。

在一些说明性实施例中，还包括：计算出所述译员在以往多个该时段内匹配模型的影响因子，并建立所述影响因子的概率分布；根据所述影响因子的概率分布，模拟出所述译员在该时段的多个转换系数，将所述多个转化系数的均值作为第一转化系数；将译员池中的多个译员的第一转化系数的中位值或均值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度。

在一些说明性实施例中，所述将译员池中的多个译员的第一转化系数的中位值或均值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度，具体包括：

P I = \frac{2}{π} \cdot \arctan (\frac{K}{K_{m e d}})

在一些说明性实施例中，所述根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度，具体包括：

P D = 1 - Π_{i = 1}^{n} (1 - {PI}_{i})

在一些说明性实施例中，所述匹配模型的影响因子包括：领取频度、活跃频度、行为因子、负载因子、能力因子；根据所述领取频度、活跃频度、行为因子、负载因子、能力因子，建立所述匹配模型。

在一些说明性实施例中，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：根据所述疑难稿件的字符数和/或任务发布时间，确定出该疑难稿件的风险系数；若所述风险系数大于最大系数值，则将所述待分配稿件推送至人工处理。

为了可以更快的理解本发明，在此提供一个优选的实施例：

一、数据采集，采集平台上译员的统计数据和每个译员行为数据，包括：

(1)可用译员数(目标译员池)；

(2)译员能力级别、译员专业级别；

(3)稿件能力要求级别、稿件专业要求级别；

(4)上线次数、上线时段、上线时长；

(5)通知次数、通知时间；

(6)响应次数、响应时间；

(7)领取次数、领取时间；

(8)当前时段领取任务字数、当前时段未完成任务数、未完成任务截止时间、当前时段未完成字数

二、时段划分

在翻译平台上工作的译员，有专职也有兼职，有人休假也有人加班，工作时间无法做到整齐统一。但根据一般经验和统计分析，译员的作息规律一般在每周的同一时段表现出较大的一致性，即每个译员在每周的同一时段在翻译平台上的行为有统计上的规律。根据这个规律，对译员的行为数据进行统计分析，可以得到其在该时段领取推送任务的概率。

将每天划分为T个时段，这样一周就划分为7*T时段。典型的，可以按北京时间将一天划分为8～12，12～18，18～22和其他时段这4个时段，这样将一周共划分为如下表所示的28个时段。

表一：时段划分表

三、统计/计算

相关的统计计算数据包括，领取频度、活跃频度、行为因子、负载因子能力因子，其中领取频度、活跃频度、行为因子随着统计时段的不同而不同、负载因子随着当前时段的改变而变化；能力因子则是随着稿件的不同而变化。

领取频度：译员在该时段领取任务的次数；活跃频度：译员在该时段点击浏览任务的次数；行为因子：包括在线率、响应度；负载因子：译员在当前时段的任务负载程度；能力因子：包括能力符合度、专业符合度。具体如下

(1)、领取频度GT

GT＝领取任务的次数

(2)活跃频度AT

AT＝点击浏览任务次数

(3)行为因子BF

BF＝在线率*响应度

在线率＝在线时长/时段时长

响应度＝通知发出半小时内上线次数/通知次数

(4)负载因子LF

LF＝(当前时段未完成字数/(任务要求完成时间-当前时间))/译员翻译速度

(5)能力因子AF

AF＝能力符合度*专业符合度

能力符合度＝1-(|译员能力级别-稿件能力要求级别|/稿件能力要求级别)

专业符合度＝1-(|译员专业级别-稿件专业要求级别|/稿件专业要求级别)

四、领取频度转化K计算公式

根据行为因子(BF)、负载因子(LF)和能力因子(AF)，结合译员的领取频度(GT)和活跃频度(AT)，建立该译员对于该稿件在该时段的转化系数K的计算公式。

建立公式如下：

GT＝AT×BF×(1-LF)×AF×K 公式1

得到转化系数K的计算公式：

K＝GT/AT×BF×(1-LF)×AF 公式2

五、蒙特卡洛模拟

计算过往的n周译员在某个时段的领取频度{GT₁，GT₂，…，GT_n}、活跃频度{AT₁，AT，…，AT_n}和行为因子(BF₁，BF₂，…，BF_n}，得到其概率分布；

根据领取频度、活跃频度、行为因子的概率分布，设计随机数生成器，以每次生成的领取频度、活跃频度、行为因子数据，结合当前时段的负载因子和能力因子，得到一个译员当前时段的转化系数K值；

按照上述方法进行m次模拟，得到当前时段的m个K值，取这m个K值得平均数为最终该译员在该译员当前时段的转化系数K；

六、译员领取概率

统计每个译员在当前时段的K值，计算其中位数K_med；

将K值转化成领取概率(即第一匹配程度)，转化公式为：

P I = \frac{2}{π} \cdot \arctan (\frac{K}{K_{m e d}})

七、风险度分析

设定当前时段对于该稿件的目标译员池为n个译员，每个译员的领取概率为PI_i，则该时段的稿件整体领取概率((即第二匹配程度))PD为：

P D = 1 - Π_{i = 1}^{n} (1 - {PI}_{i})

八、稿件筛选

将领取概率低于阈值的待分配稿件标记为风险稿件，将该稿件推送至人工处理，或者，将稿件分割为若干个稿件片段再进行系统推送译员。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种翻译平台的稿件分析方法，其特征在于，包括：

分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，确定所述待分配稿件的稿件数据与每个所述译员的译员数据之间的第一匹配程度；

根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度；

筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件。

2.根据权利要求1所述的稿件分析方法，其特征在于，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：

对所述疑难稿件进行碎片化处理，将所述疑难稿件分割为至少两部分的任务片段；其中，每个任务片段内的字符数不高于预设字符数；

将所述任务片段分配给所述译员池中不同的译员进行处理。

3.根据权利要求1所述的稿件分析方法，其特征在于，所述分别建立待分配稿件的稿件数据与当前译员池中的每个译员的译员数据的匹配模型，包括：

确定所述待分配稿件的发布时段，以及所述匹配模型的影响因子；

根据所述影响因子，建立所述译员在所述发布时段内和所述待分配稿件进行匹配的所述匹配模型。

4.根据权利要求3所述的稿件分析方法，其特征在于，还包括：

计算出所述译员在以往多个该时段内匹配模型的影响因子，并建立所述影响因子的概率分布；

根据所述影响因子的概率分布，模拟出所述译员在该时段的多个转换系数，将所述多个转化系数的均值作为第一转化系数；

将译员池中的多个译员的第一转化系数的中位值或均值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度。

5.根据权利要求4所述的稿件分析方法，其特征在于，所述将译员池中的多个译员的第一转化系数的中位值或均值作为第二转化系数，并根据所述第二转化系数确定出所述第一匹配程度，具体包括：

P I = \frac{2}{π} \cdot a r c t a n (\frac{K}{K_{m e d}})

6.根据权利要求4所述的稿件筛选方法，其特征在于，所述根据所述第一匹配程度计算出所述待分配稿件的稿件数据与所述译员池中所有译员的译员数据的第二匹配程度，具体包括：

P D = 1 - Π_{i = 1}^{n} (1 - {PI}_{i})

7.根据权利要求3所述的稿件筛选方法，其特征在于，所述匹配模型的影响因子包括：领取频度、活跃频度、行为因子、负载因子、能力因子；

根据所述领取频度、活跃频度、行为因子、负载因子、能力因子，建立所述匹配模型。

8.根据权利要求1所述的稿件分析方法，其特征在于，所述筛选出所述第二匹配程度低于阈值的待分配稿件作为当前时刻的疑难稿件之后，还包括：

根据所述疑难稿件的字符数和/或任务发布时间，确定出该疑难稿件的风险系数；

若所述风险系数大于最大系数值，则将所述待分配稿件推送至人工处理。