发明内容
本发明旨在提供一种翻译能力数据的关联规则的挖掘方法,需要长时间对译员的某种能力进行评估测试,才能发现译员潜在能力的问题。
本发明公开了一种翻译能力数据的关联规则的挖掘方法,包括:
提取多篇已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档,并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量分值;
将所述文档信息集中的所有记录按照所述译员编号进行整合处理,并根据所述文档类别和所述文档翻译质量计算,得到译员的能力项及其能力项分值,建立基础事务数据库;
对所述基础事务数据库进行去噪处理,对数据离散性较大,符合噪音标准的记录进行剔除处理,得到事务数据库;
根据所述事务数据库中的记录,递推出所有频繁项集,并根据递推出的频繁项集中译员能力项分值,计算各个能力项之间的关联程度,结果满足置信度阈值要求,输出所述各个能力项之间的关联规则。
优选地,所述文档类别作为译员的一种能力项;
文档的翻译质量分为不同等级的若干个标准,每个标准对应有一评分数值,即文档翻译质量分值;
在所述整合的过程中,计算译员的所述能力项分值的过程包括:
按照能力项分值计算公式计算得到译员的所述能力项分值,所述公式如下:
其中,category_num为该译员翻译的该类文档的数量,tan-1(tan1·category_numm为调节系数, M为该译员翻译的所有该类文档的评分数值之和,K(X)为该译员的译员该能力项分值,X为译员的一种能力项;
将该译员的每个能力项按上述方法计算,得到译员所有能力项对应的能力项分值。
优选地,根据数据离散性,所述去噪处理的过程,包括:
根据所述基础事务数据库中的每条记录的所述译员能力项,按照均值和标准差计算公式计算出其均值μ和标准差σ,若
大于噪音阈值,将该记录作为噪音处理;
所述均值计算公式为
所述标准差计算公式为
其中,n为能力项的数量,K(i)为能力项中的第i个能力项分值;i为能力项序号。
优选地,所述递推出频繁项集的过程包括:
扫描事务数据库,根据事务数据库中的记录,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阈值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阈值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阈值的所述1项集,得到所述频繁1项集。
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阈值的所述k+1项集,得到所述频繁k+1项集。
优选地,所述无重复合并的过程包括:在得到所述候选频繁k+1项集后,判断得到所述候选频繁k+1项集为之前未曾出现,则将该k+1项集标记为“已合并”,并在之后的合并过程中,与之相同的频繁项集,放弃合并处理。
优选地,所述根据译员的能力项分值,计算能力项之间的关联程度的过程包括:
根据事务数据库中译员能力项分值,计算所有得到的频繁项集的支持数;
根据频繁项集的支持数,输出大于最小置信度阈值的关联规则。
优选地,所述频繁项集支持数的计算过程包括:
步骤1、在所述事务数据库中统计包含有频繁项集的所有记录;
步骤2、计算每个包含该频繁项集的记录中的译员与频繁项集对应的译员能力项分值的均值;
步骤3、将计算得到的所有所述均值相加,得到该频繁项集的支持数;
步骤4、若按上述计算得到的所述频繁项集的支持数大于该频繁项集任一子集的支持数;将所述频繁项集的支持数作为该频繁项集子集的支持数。
优选地,所述文档类别按照语种、行业、学科领域进行分类。
本发明中的翻译能力之间的关联规则的挖掘方法,具有以下优点:
1、可用作于挖掘译员的翻译潜能的基础;
2、根据通过对一合并后的频繁项集进行标记,减少了不必要的数据处理量;
3、通过使用布尔数组进行相应的逻辑运算,大大降低了计算机在整个数据处理过程中的处理量,提高了处理效率。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明公开一种翻译能力数据的关联规则的挖掘方法,包括:
S11、建立文档信息集,具体如下:
提取多篇已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档,并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量;
其中,每一个译员具有一个编号,该编号为译员ID或在文档信息集中的序号;
文档翻译质量分为不同等级的若干个标准,每个标准对应有一个评分数值,该评分数值通过对所有已翻译文档的翻译速度和错误数量进行学习或训练运算确定。
所述文档类别按照语种、行业、学科领域进行分类,译员的每一类文档作为译员的一种能力项。
S12、建立基础事务数据库,具体如下:
将所述文档信息集中的所有记录按照所述译员编号进行整合处理,并根据所述文档类别和所述文档翻译质量计算,得到译员的能力项及能力项分值,建立基础事务数据库;
在所述整合的过程中,计算译员的所述能力项分值的过程包括:
按照能力项分值计算公式计算得到译员的所述能力项分值,所述公式如下:
其中,category_num为该译员翻译的该类文档的数量,tan-1(tan1·category_numm为调节系数,该调节系数保证了K(X)随着译员翻译的该类文档的数量category_num增大而增大,同时也保证了K(X)不会随着category_num增大而无限增大,且该随着category_num增大到一定量之后,该调节系数的增大逐渐钝化,最大值不超过M为该译员翻译的所有该类文档的评分数值之和,K(X)为该译员的译员该能力项分值,X为译员的一种能力项;
将该译员的每个能力项按上述方法计算,得到译员所有能力项对应的能力项分值。
S13、进行去噪处理,得到事务数据库,具体如下:
根据数据离散性,所述去噪处理的过程,包括:
根据所述基础事务数据库中的每条记录的所述译员能力项,按照均值和标准差计算公式计算出其均值μ和标准差σ,若
大于噪音阈值,将该记录作为噪音处理;
所述均值计算公式为
所述标准差计算公式为
其中,n为能力项的数量,K(i)为能力项中的第i个能力项分值;i为能力项序号。
S14、根据事物数据库,递推出所有频繁项集,具体如下:
扫描事务数据库,根据事务数据库中的记录,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阈值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阈值的频繁k+1项集。
其中,每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阈值的所述1项集,得到所述频繁1项集。
布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阈值的所述k+1项集,得到所述频繁k+1项集。
所述无重复合并的过程包括:在得到所述候选频繁k+1项集后,判断得到所述候选频繁k+1项集为之前未曾出现,则将该k+1项集标记为“已合并”,并在之后的合并过程中,与之相同的频繁项集,放弃合并处理。
在所述无重复合并的过程中,
判断得到所述频繁k+1项集为空集的情况下,结束挖掘流程。
S15、计算频繁项集与其子集的关联程度,满足最小置信度阈值,输出关联规则,具体如下:
根据事务数据库中译员能力项分值,计算所有得到的频繁项集的支持数;
将得到频繁项集的支持数除以该频繁项集的子集的支持数,结果大于最小置信度阈值,输出频繁项集该子集与频繁项集的关联规则。
所述频繁项集支持数的计算过程包括:
步骤1、在所述事务数据库中统计包含有频繁项集的所有记录;
步骤2、计算每个包含该频繁项集的记录中的译员与频繁项集对应的译员能力项分值的均值;
步骤3、将计算得到的所有所述均值相加,得到该频繁项集的支持数;
步骤4、若按上述计算得到的所述频繁项集的支持数大于该频繁项集任一子集的支持数;将所述频繁项集的支持数作为该频繁项集子集的支持数。
进一步的,本发明还提供了一个优选地实施例:
以云翻译平台的中的已翻译文档为基础,建立文档信息表,如表1;
表1如下:
文档信息表中的每条记录都包括有如下特征:文档序号、文档类别、译员ID、翻译质量、译员能力项;
其中,文档类别作为译员的一个能力,译员能力项为该译员的所有翻译文档的类别集合;
翻译质量是根据“优”、“良”、“中”、“一般”、“差”分别给予1.2、1.1、1、0.8、0.5的评分,对应翻译质量。
如表1中的第一条记录,A类文档,编号为T0001,由译员IP001翻译,翻译质量为1.2,该译员具有A、B、E三类文档的翻译能力。
通过对每个译员的每个能力按照翻译质量分值计算公式计算,结果作为每个译员的每个能力分值;
翻译质量分值计算公式如下:
其中,所述K(X)为译员的一个单个能力的分值,category_num为该译员的该类文档的数量,M为该译员所有的该类文档的翻译质量之和;
如表1中的前四条记录,可以得出
并将表1中的记录按照译员ID进行合并,得到基础事务数据库,如表2;
表2如下:
基础事务数据库中的每个记录中包含有如下特征:译员ID、译员能力项和译员能力项分值;
其中,译员能力项分值根据单个的翻译质量分值整合得到;
对基础事务数据库中的记录进行去噪处理;
对于基础事务数据库中的每条记录进行正态分布符合性统计,若该条记录的译员能力项分值的标准差系数
大于1/3,则认为该记录的能力项分值噪音过大,将该条记录剔除出基础事务数据库,统计完基础事务数据库的所有记录后得到最终的事务数据库。
均值计算公式如下:
标准差计算公式如下:
其中,n为译员的能力项的数量,K(i)为译员的译员能力项中的第i个能力的所述分值;i为译员能力项中的能力序号;
剔除标准差系数大于1/3的基础事务数据库中的记录,得到最终事务数据库,如表3;
表3如下:
以最终事务数据库为基础,建立能力项表,如表4:
表4如下:
序号 |
能力项名称 |
布尔数组 |
1 |
A |
100110111 |
2 |
B |
111101011 |
3 |
C |
001011111 |
4 |
D |
010100000 |
5 |
E |
100000010 |
该能力项表中的每条记录是以单个能力划分的,每条记录中的布尔数组的相应数位以最终事务数据库中的记录顺序一一对应;布尔数组数位上的逻辑值标记为1或0;
其中,在布尔数组每个逻辑值是通过与其对应的最终事务数据库是否包含该能力来标记;在包含的情况下,将该布尔数组的相应数位上的逻辑值标记为1;否则标记为0;
如表4中的第一条记录,序号1,能力项为A,在看表3中包含有A能力的记录包括:其中的第一条记录、第四条记录、第五条记录、第七条记录、第八条记录和第九条记录,则在该布尔数组上的第一、四、五、七、八和九数位上的逻辑值标记为1,其他则为0;
以能力项表为基础,建立频繁1项集表,如表5;
项的集合称为项集。包含k个项的项集称为k项集。集合{1,2}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
定理1:频繁项集的所有非空子集一定也是频繁的,或者反之,如果某项集的非空子集不是频繁项集,则该项集也不是频繁项集。
定理2:非频繁项集的超集一定不是频繁项集。
表5如下:
序号 |
能力名称 |
布尔数组 |
支持度 |
1 |
A |
100110111 |
6/9 |
2 |
B |
111101011 |
7/9 |
3 |
C |
001011111 |
6/9 |
4 |
D |
010100000 |
2/9 |
5 |
E |
100000010 |
2/9 |
频繁1项集在能力项表的基础上,在每条记录上加入了特征:支持度,通过布尔数组中1个数量与布尔数组的长度之比作为该支持度。
通过频繁k项集与频繁1项集进行合并处理,得到频繁k+1项集,其中,能力项名称项合并,并且在每次合并的同时进行标记处理,防止后续合并中,能力项的重复合并及布尔与计算,布尔数组相同数位上的逻辑值之间通过逻辑与运算,如布尔数组100110111和布尔数组111101011,得到新的布尔数组100100011。
并且在合并处理的过程中,对支持度小于最小支持度阈值的频繁项集进行剔除,在本实施例中最小支持度阈值设定为2/9;
若从k+1项集和1项集无法合并得到k+2项集或得到的每个频繁k+2项集的支持度均小于最小支持度阈值,标志合并结束,以频繁k+1项集作为最终项集。
频繁1项集表中的每个频繁1项集与频繁1项集表中的每个频繁1项集进行无重复合并,得到频繁2项集表,如表6;
表6如下:
通过频繁2项集表中的每个频繁2项集与频繁1项集表中的每个频繁1项集进行合并,得到频繁3项集,如表7;
表7如下:
序号 |
能力项名称 |
布尔数组 |
支持度 |
1 |
A、B、C |
000000011 |
2/9 |
2 |
A、B、E |
100000010 |
2/9 |
其中,以频繁3项集表中的每个频繁3项集与频繁1项集表中的每个频繁1项集合并,得到频繁4项集,但所有的频繁4项集的支持度均小于最小支持度阈值,将频繁3项集作为最终频繁项集;
以表10中的第一个频繁3项集{A、B、C}为例进行关联度计算,以得到能力项之间的关联规则:
频繁3项集{A、B、C}包括除空集外的6个真子集A、B、C、AB、BC、AC;
计算该频繁3项集及其6个真子集的支持数:
support_count(ABC)=(1.1+1+1.1)/3+(1.1+1+1)/3=2.1
support_count(AB)=(1.449+1.1)/2+(1.1+1)/2+(1.1+1)/2+(1.1+1)/2=4.4245
support_count(AC)=(0.8+1)/2+(1.1+1.1)/2+(1.1+1.1)/2+(1.1+1)/2=4.15
support_count(BC)=(1.1+1.1)/2+(1+1.1)/2+(1+1.1)/2+(1+1)/2=4.2
support_count(A)=1.449+1.1+0.8+1.1+1.1+1.1=6.649
support_count(B)=1.1+0.8+1.1+1+1+1+1=7
support_count(C)=1.1+1+1.1+1.1+1.1+1=6.4
计算其所有可能的关联规则的置信度:
A→BC置信度为:
p(BC A)=p(ABC)/p(A)=support_count(ABC)/support_count(A)=2.1/6.449=0.326
B→AC置信度为:p(AC B)=2.1/7=0.3
C→AB置信度为:p(AB C)=2.1/6.4=0.328
BC→A置信度为:p(A BC)=2.1/4.2=0.5
AC→B置信度为:p(B AC)=2.1/4.15=0.506
AB→C置信度为:p(C AB)=2.1/4.4245=0.475
若设定关联规则的置信度最小阈值为0.5,则得到关联规则:BC→A和AC→B;
BC→A表示具备B和C翻译能力项的译员,其同时具备A翻译能力项的可能性也很大,对该类译员进行针对性测试,最终可能挖掘出这些译员的新的翻译能力。对AC→B也同理处理。
根据这些关联规则,对各个译员分配相匹配的翻译文档。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。