CN104572854A

CN104572854A - 一种基于决策树的译员分类方法

Info

Publication number: CN104572854A
Application number: CN201410784892.9A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Wuhan Transn Information Technology Co., Ltd.
Priority date: 2014-12-17
Filing date: 2014-12-17
Publication date: 2015-04-29

Abstract

一种基于决策树的译员分类方法，包括：获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；根据判定结果，确定所述待分类对象归属的类别。通过从基本信息和历史信息中提取客观的数据及信息，利用决策树的对上述数据及信息进行判定，可靠性得到了大大的提升，并且避免了对译员进行人工测试，节省了人力物力成本，使翻译效率可以得到显著的提升。

Description

一种基于决策树的译员分类方法

技术领域

本发明属于数据分类技术领域，尤其是一种基于决策树的译员分类方法。

背景技术

目前，翻译服务业正向着大规模产业化的方向发展。翻译服务业实现产业化的一个重要前提是实现翻译服务信息化，即利用计算机、辅助翻译软件、互联网、数字技术等信息时代的高科技手段实现翻译工作的信息化。在云翻译平台上，确定译员的专业类别属性，可以将稿件和译员进行更好的匹配。

以往对于译员的专业类别属性的确定，只是分析译员所翻译的过往文档的类别属性，得到分类结果粗糙不准确，而通过人工测试的方法来确定，则需要花费大量的人力物力成本，从而导致翻译效率低的问题。

发明内容

本发明的目的之一是提供一种基于决策树的译员分类方法，以解决现有技术中对于翻译平台上的分类的翻译效率低的问题。

在一些说明性实施例中，所述基于决策树的译员分类方法，包括：获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；根据判定结果，确定所述待分类对象归属的类别。

与现有技术相比，本发明的说明性实施例包括以下优点：

通过从基本信息和历史信息中提取客观的数据及信息，，利用决策树的对上述数据及信息进行判定，可靠性得到了大大的提升，并且避免了对译员进行人工测试，节省了人力物力成本，使翻译效率可以得到显著的提升。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是按照本发明的说明性实施例的流程图；

图2是按照本发明的说明性实施例的流程图；

图3是按照本发明的正态分布的曲线示意图。

具体实施方式

在以下详细描述中，提出大量特定细节，以便于提供对本发明的透彻理解。但是，本领域的技术人员会理解，即使没有这些特定细节也可实施本发明。在其它情况下，没有详细描述众所周知的方法、过程、组件和电路，以免影响对本发明的理解。

为了便于更快的理解本方案，对本下述采用的术语进行简单说明：

信息熵，设X是一个取有限个值的离散随机变量，其概率分布为P(X＝x_i)＝p_i,i＝1,2,...,n，则随机变量X的信息熵定义为：

H (p) = - Σ_{i = 1}^{n} p_{i} \log p_{i}

熵越大表明随机变量不确定性越大，从定义可知0≤H(p)≤logn，且令0log0＝0。

条件熵，设随机变量(X,Y)，其联合概率分布为P(X＝x_i，Y＝y_i)＝p_ij，i＝1，2，...，n；j＝1，2，...，m，在随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为：

H (Y | X) = Σ_{i = 1}^{n} p_{i} H (Y | X = x_{i})

其中，p_i＝P(X＝x_i)，令0log0＝0，条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。

信息增益，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)和条件熵H(D|A)之差，即

g(D，A)＝H(D)-H(D|A)

一般的，信息熵H(Y)与条件熵H(Y|X)称为互信息，决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

信息增益比，特征A对训练数据集D的信息增益比g_r(D，A)，定义为其信息增益g(D，A)与训练数据集D的信息熵H(D)之比，即

g_{r} (D, A) = \frac{g (D, A)}{H (D)}

下面参照上述论述对本方案进行说说明：

如图1所示，公开了一种基于决策树的译员分类方法，包括：

S11、获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；

S12、以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；；

S13、根据判定结果，确定所述待分类对象归属的类别。

在一些说明性实施例中，还包括：在所述获取待分类对象的基本信息和/或历史信息之前，还包括：从记录有若干对象属性的数据库中确定具有影响分类类别的所述至少一个特征。

其中，数据库存储了以往大量的译员资料及译员属性，译员数据中具有译员的各种属性，例如年龄、工作经验、历史翻译稿件等等，这些属性中的具有一些与判定译员类别的无关的属性，也有一些与判定译员类别相关的属性；哪些属性是和判定译员类别相关，这也是本发明的一个重点。

经过分析，确定所述至少一个特征包括：译员的专业和目标行业是否相关的判定、译员的工作经历和目标行业是否相关的判定、译员是否翻译过目标行业文章的判定、译员翻译目标行业文章的数量级、译员翻译目标行业文章的优良率、翻译目标行业术语数量、术语翻译准确率、译员存储的术语与目标行业术语库的符合程度、译员存储的语料与目标行业语料库的符合程度中的一个或任意组合。

其中，上述特征可以是以译员若干属性通过构建概率矩阵获得，从该矩阵中获取概率大于阈值的特征。

在一些说明性实施例中，在所述获取待分类对象的基本信息和/或历史信息之前，还包括：

从数据库中随机抽取一定数量的对象，构建训练数据集；其中，所述训练数据集中的每个对象具有确定的所述至少一个特征；并且，上述每个特征具有至少两个取值范围或判定结果。

另外，待分类对象(待分类译员)及随机选取的对象(数据库中的译员信息)的每个特征分别具有对应的一个实际值或判定结果

根据所述训练数据集中的每个对象的各个特征的信息增益或信息增益比，确定每个类别对应的决策树的生成顺序，并根据该顺序构建该类别对应的决策树。

其中，构建决策树可以采用ID3算法利用信息增益进行构建，本领域技术人员应该理解的是构建决策树的方法可以为多种，不仅仅可以利用某一种算法进行构建，还可以采用C4.5算法利用信息增益比进行构建。

以下对利用C4.5算法构建决策树的过程，进行具体说明：

S21、确定训练数据集D中的对象数量，以及划分的类别的数量k；

S22、按照每个特征的选取范围的个数n，构建对应该特征的n子集，并根据训练数据集中的对象的实际值或判定结果，将训练数据集中的对象划分至相应的子集D_i i∈{1,2,...,n}中。

S23、确定归属于类别C_j,j＝{1,2,...,k}的子集D_ij,i∈{1,2,...,n},j∈{1,2,...,k}，以及不同类别下的训练数据集中的信息熵和该类别C_j下的每个特征的条件熵；

S24、根据所述信息熵和条件熵，确定该类别C_j下的每个特征的信息增益，再根据确定的信息增益确定每个特征的信息特征比；

S25、按照信息增益比的大小，确定该类别C_j对应的决策树的生成顺序，即将每个特征按照信息增益比的大小，逐层作为决策树的判定。

待分类对象必须从决策树的根节点按决策树的生成顺序进行判定，若全部判定都符合，则该待分类译员具有该类别C_j的类别属性。

其中，在一些说明性实施例中，所述计算出不同类别下的训练数据集的信息熵，以及该类别下的每个特征的条件熵，具体包括：

按照如下公式计算出类别C_j下的训练数据集的信息熵H(D)：

H (D) = - Σ_{j = 1}^{k} \frac{| C_{j} |}{| D |} \log_{2} \frac{| C_{j} |}{| D |};

其中，0<j<k,|D|为训练数据集中的对象的数量，|C_j|为类别C_j中的对象数量；

按照如下公式计算出类别C_j下的每个特征A的条件熵H(D|A)；

H (D | A) = - Σ_{i = 1}^{n} \frac{| D_{i} |}{| D |} H (D_{i}) = - Σ_{i = 1}^{n} \frac{| D_{i} |}{| D |} - Σ_{i = 1}^{n} \frac{| D_{ij} |}{| D_{i} |} \log_{2} \frac{| D_{ij} |}{| D_{i} |};

其中，0<i<n,|D_i|为子集D_i的对象数量，|D_ij|为子集D_i中归属于类别C_j的子集的对象数量。

在一些说明性实施例中，所述根据所述信息熵和条件熵确定在该类别该特征的信息增益比，具体包括：

g(D,A)＝H(D)-H(D|A)；

g_{r} (D, A) = \frac{g (D, A)}{H (D)};

按照如下公式计算出信息增益g(D,A)，以及所述信息增益比g_r(D,A)。

基于上述方法，提供一种对译员进行分类的方法，包括：

一、特征选择和数据处理

判断译员是否可以分类到某目标行业或学科领域，成为该类别的译员，其包含的判别特征项如下：

特征A1

名称：译员的专业和目标行业是否相关；

取值：是、否。

特征A2

名称：译员的工作经历和目标行业是否相关；

取值：是、否。

特征A3

名称：译员是否翻译过目标行业文章；

取值：是、否。

特征A4

名称：译员翻译目标行业文章的数量级；

取值：L1、L2、L3、L4、L5、L6、L7。

计算方法：

将译员翻译某目标行业的文章数作为随机变量Χ1，通过大量数据统计，该随机变量Χ服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

L1：若译员翻译该行业的文章数落在区间[1,μ-2.58σ]

L2：若译员翻译该行业的文章数落在区间(μ-2.58σ,μ-1.96σ]

L3：若译员翻译该行业的文章数落在区间(μ-1.96σ,μ-σ]

L4：若译员翻译该行业的文章数落在区间(μ-σ,μ+σ)

L5：若译员翻译该行业的文章数落在区间[μ+σ,μ+1.96σ)

L6：若译员翻译该行业的文章数落在区间[μ+1.96σ,μ+2.58σ)

L7：若译员翻译该行业的文章数落在区间[μ+2.58σ,+∞)

特征A5

名称：译员翻译目标行业文章的优良率；

取值：G1、G2、G3、G4、G5、G6、G7。

计算方法：

将译员翻译目标行业文章的优良率作为随机变量Χ2，通过大量数据统计，该随机变量Χ2服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

G1：若译员翻译目标行业文章的优良率落在区间[0,μ-2.58σ]

G2：若译员翻译目标行业文章的优良率落在区间(μ-2.58σ,μ-1.96σ]

G3：若译员翻译目标行业文章的优良率落在区间(μ-1.96σ,μ-σ]

G4：若译员翻译目标行业文章的优良率落在区间(μ-σ,μ+σ)

G5：若译员翻译目标行业文章的优良率落在区间[μ+σ,μ+1.96σ)

G6：若译员翻译目标行业文章的优良率落在区间[μ+1.96σ,μ+2.58σ)

G7：若译员翻译目标行业文章的优良率落在区间[μ+2.58σ,+∞)

特征A6

名称：翻译目标行业术语数量；

取值：T1、T2、T3、T4、T5、T6、T7。

计算方法：

将译员翻译目标行业术语数作为随机变量Χ3，通过大量数据统计，该随机变量Χ3服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

T1：若译员翻译目标行业术语数量落在区间[0,μ-2.58σ]

T2：若译员翻译目标行业术语数量落在区间(μ-2.58σ,μ-1.96σ]

T3：若译员翻译目标行业术语数量落在区间(μ-1.96σ,μ-σ]

T4：若译员翻译目标行业术语数量落在区间(μ-σ,μ+σ)

T5：若译员翻译目标行业术语数量落在区间[μ+σ,μ+1.96σ)

T6：若译员翻译目标行业术语数量落在区间[μ+1.96σ,μ+2.58σ)

T7：若译员翻译目标行业术语数量落在区间[μ+2.58σ,+∞)

特征A7

名称：术语翻译准确率；

取值：P1、P2、P3、P4、P5、P6、P7。

计算方法：

将译员术语翻译准确率作为随机变量Χ4，通过大量数据统计，该随机变量Χ4服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

P1：若译员术语翻译准确率落在区间[0,μ-2.58σ]

P2：若译员术语翻译准确率落在区间(μ-2.58σ,μ-1.96σ]

P3：若译员术语翻译准确率落在区间(μ-1.96σ,μ-σ]

P4：若译员术语翻译准确率落在区间(μ-σ,μ+σ)

P5：若译员术语翻译准确率落在区间[μ+σ,μ+1.96σ)

P6：若译员术语翻译准确率落在区间[μ+1.96σ,μ+2.58σ)

P7：若译员术语翻译准确率落在区间[μ+2.58σ,+∞)

特征A8

名称：术语存储度，该译员存储的术语与目标行业术语库的符合程度；

取值：TS1、TS2、TS3、TS4、TS5、TS6、TS7。

计算方法：

将译员术语存储度作为随机变量Χ5，通过大量数据统计，该随机变量Χ5服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

TS 1：若译员术语存储度落在区间[0,μ-2.58σ]

TS 2：若译员术语存储度落在区间(μ-2.58σ,μ-1.96σ]

TS 3：若译员术语存储度落在区间(μ-1.96σ,μ-σ]

TS 4：若译员术语存储度落在区间(μ-σ,μ+σ)

TS 5：若译员术语存储度落在区间[μ+σ,μ+1.96σ)

TS 6：若译员术语存储度落在区间[μ+1.96σ,μ+2.58σ)

TS 7：若译员术语存储度落在区间[μ+2.58σ,+∞)

特征A9

名称：语料存储度，该译员存储的语料与目标行业语料库的符合程度；

取值：CS1、CS2、CS3、CS4、CS5、CS6、CS7、

计算方法：

将译员语料存储度作为随机变量Χ6，通过大量数据统计，该随机变量Χ6服从正态分布。

计算该随机变量的均值μ，计算该随机变量的标准差σ。

CS 1：若译员语料存储度落在区间[0,μ-2.58σ]

CS 2：若译员语料存储度落在区间(μ-2.58σ,μ-1.96σ]

CS 3：若译员语料存储度落在区间(μ-1.96σ,μ-σ]

CS 4：若译员语料存储度落在区间(μ-σ,μ+σ)

CS 5：若译员语料存储度落在区间[μ+σ,μ+1.96σ)

CS 6：若译员语料存储度落在区间[μ+1.96σ,μ+2.58σ)

CS 7：若译员语料存储度落在区间[μ+2.58σ,+∞)

上述每个特征的均值μ和标准差σ是将不同的特征作为随机变量计算获得的，并且其取值范围符合正态分布曲线，如图2所示。

二、构建决策树

信息增益和信息增益比计算方法

根据信息增益的特征选择方法是：对训练数据集D，计算其每个特征的信息增益，并比较它们的大小，选择信息增益比最大的特征。

设训练数据集为D，|D|表示其样本个数。设有k个类C_j,j∈{1,2,...,k}，|C_j|为属于类C_j的样本个数，且

设特征A有n个不同的取值{a₁,a₂,...,a_n}，根据A的取值将D划分为n个子集D₁,D₂,...,D_n，|D_i|,i∈{1,2,...,n}为子集D_i的样本个数，记子集D_i中属于类C_j的样本集合为D_ij，即D_ij＝D_i∩C_j，|D_ij|为D_ij的样本个数。信息增益算法如下：

数据集D的信息熵H(D)

H (D) = - Σ_{j = 1}^{k} \frac{| C_{j} |}{| D |} \log_{2} \frac{| C_{j} |}{| D |}

特征A对数据集D的条件熵H(D|A)

H (D | A) = - Σ_{i = 1}^{n} \frac{| D_{i} |}{| D |} H (D_{i}) = - Σ_{i = 1}^{n} \frac{| D_{i} |}{| D |} Σ_{j = 1}^{k} \frac{| D_{ij} |}{| D_{i} |} \log_{2} \frac{| D_{ij} |}{{| D}_{i} |}

信息增益g(D,A)

g(D,A)＝H(D)-H(D|A)

信息增益比

g_{r} (D, A) = \frac{g (D, A)}{H (D)}

采用c4.5算法生成决策树

输入：训练集D：训练样本的译员数

分类：{C1＝是，C2＝否}

特征集A＝{A1,A2,A3,A4,A5,A6,A7,A8,A9}

阀值th

输出：决策树T

算法流程：

若D中所有的译员都属于同一类C_i，将决策树T置为单结点树，以C_i作为该结点的类别，返回决策树T；

如果将决策树T置为单结点树，并将D中译员数最大的类C_i作为该结点的类别，返回决策树T；

否则按1所述计算A1～A9各个特征对D的信息增益比，，选择信息增益比最大的特征A_j；

如果A_j的信息增益比小于阀值th，将T置为单结点数，并将D中译员数最大的类C_i最为该结点的分类，返回决策树T；

否则，对特征A_j的每个可能的取值，将D划分为多个非空子集D_k，将D_k中译员数最大的类作为标记，构建子结点，由结点及其子结点构成决策树T，返回决策树T；

对结点k，以D_k为训练集，以A-{A_j}为特征集，递归调用步骤1)～5)，得到子树T_i，返回T_i。

三、对待分类译员的分类处理

对于待分类译员，将其特征的取值，按照各个分类决策树的生成顺序进行分类判断，得到的结果即为该译员的所属的类别。

例如：通过在A、B、C三个行业的分类决策树上进行判断，译员甲属于行业A和C，不属于行业B。本领域技术人员应该可以理解的是，上述示例是列举的实施例，根据实际情况，行业可以划分的更多更细。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于决策树的译员分类方法，其特征在于，包括：

获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；

以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；

根据判定结果，确定所述待分类对象归属的类别。

2.根据权利要求1所述的分类方法，其特征在于，在所述获取待分类对象的基本信息和/或历史信息之前，还包括：

从记录有若干对象属性的数据库中确定具有影响分类类别的所述至少一个特征。

3.根据权利要求2所述的分类方法，其特征在于，所述至少一个特征包括：译员的专业和目标行业是否相关的判定、译员的工作经历和目标行业是否相关的判定、译员是否翻译过目标行业文章的判定、译员翻译目标行业文章的数量级、译员翻译目标行业文章的优良率、翻译目标行业术语数量、术语翻译准确率、译员存储的术语与目标行业术语库的符合程度、译员存储的语料与目标行业语料库的符合程度中的一个或任意组合。

4.根据权利要求2所述的分类方法，其特征在于，在所述获取待分类对象的基本信息和/或历史信息之前，还包括：

从数据库中随机抽取一定数量的对象，构建训练数据集；其中，所述训练数据集中的每个对象具有确定的所述至少一个特征；

5.根据权利要求4所述的分类方法，其特征在于，根据每个分类决策树的特征的信息增益或信息增益比，利用ID3算法或C4.5算法构建所述决策树。

6.根据权利要求4所述的分类方法，其特征在于，每个所述特征分别对应有至少两个取值范围/两种判定结果；每个对象的每个所述特征对应有一个实际值或实际结果；

所述确定每个类别对应的决策树的生成顺序，具体包括：

确定所述训练数据集中的对象的数量，以及划分的类别的数量；

按照每个所述特征的选取范围的个数n，构建对应该特征的n个子集，并根据每个所述训练数据集中的对象对应该特征的实际值或实际结果，将所述对象划分到相应的所述子集中；

计算出不同类别下的训练数据集的信息熵，以及该类别下的每个特征的条件熵，并根据所述信息熵和条件熵确定在该类别该特征的信息增益和信息增益比；

根据不同类别下的每个特征的信息增益和信息增益比的大小关系，确定该类别对应的决策树的从根节点到叶子节点的所述生成顺序。

7.根据权利要求4所述的分类方法，其特征在于，通过正态分布曲线确定每个所述特征的至少两个取值范围。

8.根据权利要求4所述的分类方法，其特征在于，所述根据判定结果，确定所述待分类对象归属的类别，具体包括：

根据待分类对象的每个特征的实际值或实际结果，在不同类别的决策树上进行判定；

根据决策树的生成顺序逐层判定，直到所述待分类对象的满足该决策树的叶子结点，即得到该待分类对象的一个分类属性。