CN103678541A - 一种翻译能力数据的关联规则的挖掘方法 - Google Patents

一种翻译能力数据的关联规则的挖掘方法 Download PDF

Info

Publication number
CN103678541A
CN103678541A CN201310638848.2A CN201310638848A CN103678541A CN 103678541 A CN103678541 A CN 103678541A CN 201310638848 A CN201310638848 A CN 201310638848A CN 103678541 A CN103678541 A CN 103678541A
Authority
CN
China
Prior art keywords
item
frequent
collection
interpreter
ability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310638848.2A
Other languages
English (en)
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310638848.2A priority Critical patent/CN103678541A/zh
Publication of CN103678541A publication Critical patent/CN103678541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries

Abstract

本发明公开了一种翻译能力数据的关联规则的挖掘方法,包括:提取多篇已翻译文档,建立文档信息集,将文档信息集中的所有记录进行整合处理,并相关数据计算,得到译员的能力项及其能力项分值,建立基础事务数据库;对基础事务数据库进行去噪处理,得到事务数据库;根据事务数据库中的记录,递推出所有频繁项集,并根据递推出的频繁项集中译员能力项分值,计算各个能力项之间的关联程度,结果满足置信度阈值要求,输出各个能力项之间的关联规则。本发明通过根据将一些翻译能力相关的数据进行处理计算,得到各个能力项之间的关联规则,将该关联规则用作挖掘译员的潜能,具有很高的准确性,计算机的数据处理量也得到有效的降低。

Description

一种翻译能力数据的关联规则的挖掘方法
技术领域
本发明涉及一种翻译技术领域,具体而言,涉及一种翻译能力数据的关联规则的挖掘方法。
背景技术
目前,在翻译行业中,译员是翻译平台最重要的资源,每个译员的翻译能力的增加,是整个翻译平台翻译资源增长的基础和出发点。在翻译平台上,译员只有具备某项翻译能力才能申领某类翻译任务,所以当译员具备的翻译能力项越多,翻译平台的翻译资源相对就越大,整个翻译平台的翻译产能也越大。对于每个译员个体,尽可能挖掘出其具备的更多的翻译能力,对于提高整个翻译平台的翻译产能及整个翻译平台的建设有着非常重要的意义。
翻译平台对于译员的翻译能力按语种、行业、学科领域进行划分,对于不同的语种、行业、学科领域,每个译员有不同的翻译能力,翻译平台通常根据每个译员的过往翻译历史结合翻译能力测试对译员的翻译能力进行评估和判定。这种方法往往需要很长时间多次的翻译合作才能对一个译员的某种能力进行评估测试,如果对译员的翻译能力可以进行即时的发现和即时的评估,则能够大为减少发现译员翻译能力的时间和增加发现译员翻译能力的概率。
发明内容
本发明旨在提供一种翻译能力数据的关联规则的挖掘方法,需要长时间对译员的某种能力进行评估测试,才能发现译员潜在能力的问题。
本发明公开了一种翻译能力数据的关联规则的挖掘方法,包括:
提取多篇已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档,并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量分值;
将所述文档信息集中的所有记录按照所述译员编号进行整合处理,并根据所述文档类别和所述文档翻译质量计算,得到译员的能力项及其能力项分值,建立基础事务数据库;
对所述基础事务数据库进行去噪处理,对数据离散性较大,符合噪音标准的记录进行剔除处理,得到事务数据库;
根据所述事务数据库中的记录,递推出所有频繁项集,并根据递推出的频繁项集中译员能力项分值,计算各个能力项之间的关联程度,结果满足置信度阈值要求,输出所述各个能力项之间的关联规则。
优选地,所述文档类别作为译员的一种能力项;
文档的翻译质量分为不同等级的若干个标准,每个标准对应有一评分数值,即文档翻译质量分值;
在所述整合的过程中,计算译员的所述能力项分值的过程包括:
按照能力项分值计算公式计算得到译员的所述能力项分值,所述公式如下:
K ( X ) = tan - 1 ( tan 1 · category _ num ) · M category _ num
其中,category_num为该译员翻译的该类文档的数量,tan-1(tan1·category_numm为调节系数, 0 < tan - 1 ( tan 1 &CenterDot; category _ num ) < &pi; 2 ; M为该译员翻译的所有该类文档的评分数值之和,K(X)为该译员的译员该能力项分值,X为译员的一种能力项;
将该译员的每个能力项按上述方法计算,得到译员所有能力项对应的能力项分值。
优选地,根据数据离散性,所述去噪处理的过程,包括:
根据所述基础事务数据库中的每条记录的所述译员能力项,按照均值和标准差计算公式计算出其均值μ和标准差σ,若
Figure BDA0000427057390000031
大于噪音阈值,将该记录作为噪音处理;
所述均值计算公式为 &mu; = 1 n &Sigma; i = 1 n K ( i ) ;
所述标准差计算公式为 &sigma; = 1 n &Sigma; i = 1 n ( K ( i ) - &mu; ) 2 ;
其中,n为能力项的数量,K(i)为能力项中的第i个能力项分值;i为能力项序号。
优选地,所述递推出频繁项集的过程包括:
扫描事务数据库,根据事务数据库中的记录,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阈值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阈值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阈值的所述1项集,得到所述频繁1项集。
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阈值的所述k+1项集,得到所述频繁k+1项集。
优选地,所述无重复合并的过程包括:在得到所述候选频繁k+1项集后,判断得到所述候选频繁k+1项集为之前未曾出现,则将该k+1项集标记为“已合并”,并在之后的合并过程中,与之相同的频繁项集,放弃合并处理。
优选地,所述根据译员的能力项分值,计算能力项之间的关联程度的过程包括:
根据事务数据库中译员能力项分值,计算所有得到的频繁项集的支持数;
根据频繁项集的支持数,输出大于最小置信度阈值的关联规则。
优选地,所述频繁项集支持数的计算过程包括:
步骤1、在所述事务数据库中统计包含有频繁项集的所有记录;
步骤2、计算每个包含该频繁项集的记录中的译员与频繁项集对应的译员能力项分值的均值;
步骤3、将计算得到的所有所述均值相加,得到该频繁项集的支持数;
步骤4、若按上述计算得到的所述频繁项集的支持数大于该频繁项集任一子集的支持数;将所述频繁项集的支持数作为该频繁项集子集的支持数。
优选地,所述文档类别按照语种、行业、学科领域进行分类。
本发明中的翻译能力之间的关联规则的挖掘方法,具有以下优点:
1、可用作于挖掘译员的翻译潜能的基础;
2、根据通过对一合并后的频繁项集进行标记,减少了不必要的数据处理量;
3、通过使用布尔数组进行相应的逻辑运算,大大降低了计算机在整个数据处理过程中的处理量,提高了处理效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明公开一种翻译能力数据的关联规则的挖掘方法,包括:
S11、建立文档信息集,具体如下:
提取多篇已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档,并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量;
其中,每一个译员具有一个编号,该编号为译员ID或在文档信息集中的序号;
文档翻译质量分为不同等级的若干个标准,每个标准对应有一个评分数值,该评分数值通过对所有已翻译文档的翻译速度和错误数量进行学习或训练运算确定。
所述文档类别按照语种、行业、学科领域进行分类,译员的每一类文档作为译员的一种能力项。
S12、建立基础事务数据库,具体如下:
将所述文档信息集中的所有记录按照所述译员编号进行整合处理,并根据所述文档类别和所述文档翻译质量计算,得到译员的能力项及能力项分值,建立基础事务数据库;
在所述整合的过程中,计算译员的所述能力项分值的过程包括:
按照能力项分值计算公式计算得到译员的所述能力项分值,所述公式如下:
K ( X ) = tan - 1 ( tan 1 &CenterDot; category _ num ) &CenterDot; M category _ num
其中,category_num为该译员翻译的该类文档的数量,tan-1(tan1·category_numm为调节系数,该调节系数保证了K(X)随着译员翻译的该类文档的数量category_num增大而增大,同时也保证了K(X)不会随着category_num增大而无限增大,且该随着category_num增大到一定量之后,该调节系数的增大逐渐钝化,最大值不超过M为该译员翻译的所有该类文档的评分数值之和,K(X)为该译员的译员该能力项分值,X为译员的一种能力项;
将该译员的每个能力项按上述方法计算,得到译员所有能力项对应的能力项分值。
S13、进行去噪处理,得到事务数据库,具体如下:
根据数据离散性,所述去噪处理的过程,包括:
根据所述基础事务数据库中的每条记录的所述译员能力项,按照均值和标准差计算公式计算出其均值μ和标准差σ,若
Figure BDA0000427057390000063
大于噪音阈值,将该记录作为噪音处理;
所述均值计算公式为 &mu; = 1 n &Sigma; i = 1 n K ( i ) ;
所述标准差计算公式为 &sigma; = 1 n &Sigma; i = 1 n ( K ( i ) - &mu; ) 2 ;
其中,n为能力项的数量,K(i)为能力项中的第i个能力项分值;i为能力项序号。
S14、根据事物数据库,递推出所有频繁项集,具体如下:
扫描事务数据库,根据事务数据库中的记录,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阈值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阈值的频繁k+1项集。
其中,每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阈值的所述1项集,得到所述频繁1项集。
布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阈值的所述k+1项集,得到所述频繁k+1项集。
所述无重复合并的过程包括:在得到所述候选频繁k+1项集后,判断得到所述候选频繁k+1项集为之前未曾出现,则将该k+1项集标记为“已合并”,并在之后的合并过程中,与之相同的频繁项集,放弃合并处理。
在所述无重复合并的过程中,
判断得到所述频繁k+1项集为空集的情况下,结束挖掘流程。
S15、计算频繁项集与其子集的关联程度,满足最小置信度阈值,输出关联规则,具体如下:
根据事务数据库中译员能力项分值,计算所有得到的频繁项集的支持数;
将得到频繁项集的支持数除以该频繁项集的子集的支持数,结果大于最小置信度阈值,输出频繁项集该子集与频繁项集的关联规则。
所述频繁项集支持数的计算过程包括:
步骤1、在所述事务数据库中统计包含有频繁项集的所有记录;
步骤2、计算每个包含该频繁项集的记录中的译员与频繁项集对应的译员能力项分值的均值;
步骤3、将计算得到的所有所述均值相加,得到该频繁项集的支持数;
步骤4、若按上述计算得到的所述频繁项集的支持数大于该频繁项集任一子集的支持数;将所述频繁项集的支持数作为该频繁项集子集的支持数。
进一步的,本发明还提供了一个优选地实施例:
以云翻译平台的中的已翻译文档为基础,建立文档信息表,如表1;
表1如下:
Figure BDA0000427057390000091
文档信息表中的每条记录都包括有如下特征:文档序号、文档类别、译员ID、翻译质量、译员能力项;
其中,文档类别作为译员的一个能力,译员能力项为该译员的所有翻译文档的类别集合;
翻译质量是根据“优”、“良”、“中”、“一般”、“差”分别给予1.2、1.1、1、0.8、0.5的评分,对应翻译质量。
如表1中的第一条记录,A类文档,编号为T0001,由译员IP001翻译,翻译质量为1.2,该译员具有A、B、E三类文档的翻译能力。
通过对每个译员的每个能力按照翻译质量分值计算公式计算,结果作为每个译员的每个能力分值;
翻译质量分值计算公式如下:
K ( X ) = tan - 1 ( tan 1 &CenterDot; category _ num ) &CenterDot; M category _ num ;
其中,所述K(X)为译员的一个单个能力的分值,category_num为该译员的该类文档的数量,M为该译员所有的该类文档的翻译质量之和;
如表1中的前四条记录,可以得出 K ( A ) = tan - 1 ( tan 1 &times; 2 ) &times; 1.2 + 1.1 2 = 1.449 ; K ( B ) = 1.1 , K ( E ) = 1 ;
并将表1中的记录按照译员ID进行合并,得到基础事务数据库,如表2;
表2如下:
Figure BDA0000427057390000105
基础事务数据库中的每个记录中包含有如下特征:译员ID、译员能力项和译员能力项分值;
其中,译员能力项分值根据单个的翻译质量分值整合得到;
对基础事务数据库中的记录进行去噪处理;
对于基础事务数据库中的每条记录进行正态分布符合性统计,若该条记录的译员能力项分值的标准差系数
Figure BDA0000427057390000112
大于1/3,则认为该记录的能力项分值噪音过大,将该条记录剔除出基础事务数据库,统计完基础事务数据库的所有记录后得到最终的事务数据库。
均值计算公式如下: &mu; = 1 n &Sigma; i = 1 n K ( i ) ;
标准差计算公式如下: &sigma; = 1 n &Sigma; i = 1 n ( K ( i ) - &mu; ) 2 ;
其中,n为译员的能力项的数量,K(i)为译员的译员能力项中的第i个能力的所述分值;i为译员能力项中的能力序号;
剔除标准差系数大于1/3的基础事务数据库中的记录,得到最终事务数据库,如表3;
表3如下:
Figure BDA0000427057390000115
以最终事务数据库为基础,建立能力项表,如表4:
表4如下:
序号 能力项名称 布尔数组
1 A 100110111
2 111101011
3 001011111
4 010100000
5 100000010
该能力项表中的每条记录是以单个能力划分的,每条记录中的布尔数组的相应数位以最终事务数据库中的记录顺序一一对应;布尔数组数位上的逻辑值标记为1或0;
其中,在布尔数组每个逻辑值是通过与其对应的最终事务数据库是否包含该能力来标记;在包含的情况下,将该布尔数组的相应数位上的逻辑值标记为1;否则标记为0;
如表4中的第一条记录,序号1,能力项为A,在看表3中包含有A能力的记录包括:其中的第一条记录、第四条记录、第五条记录、第七条记录、第八条记录和第九条记录,则在该布尔数组上的第一、四、五、七、八和九数位上的逻辑值标记为1,其他则为0;
以能力项表为基础,建立频繁1项集表,如表5;
项的集合称为项集。包含k个项的项集称为k项集。集合{1,2}是一个二项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率,支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
定理1:频繁项集的所有非空子集一定也是频繁的,或者反之,如果某项集的非空子集不是频繁项集,则该项集也不是频繁项集。
定理2:非频繁项集的超集一定不是频繁项集。
表5如下:
序号 能力名称 布尔数组 支持度
1 A 100110111 6/9
2 111101011 7/9
3 001011111 6/9
4 010100000 2/9
5 100000010 2/9
频繁1项集在能力项表的基础上,在每条记录上加入了特征:支持度,通过布尔数组中1个数量与布尔数组的长度之比作为该支持度。
通过频繁k项集与频繁1项集进行合并处理,得到频繁k+1项集,其中,能力项名称项合并,并且在每次合并的同时进行标记处理,防止后续合并中,能力项的重复合并及布尔与计算,布尔数组相同数位上的逻辑值之间通过逻辑与运算,如布尔数组100110111和布尔数组111101011,得到新的布尔数组100100011。
并且在合并处理的过程中,对支持度小于最小支持度阈值的频繁项集进行剔除,在本实施例中最小支持度阈值设定为2/9;
若从k+1项集和1项集无法合并得到k+2项集或得到的每个频繁k+2项集的支持度均小于最小支持度阈值,标志合并结束,以频繁k+1项集作为最终项集。
频繁1项集表中的每个频繁1项集与频繁1项集表中的每个频繁1项集进行无重复合并,得到频繁2项集表,如表6;
表6如下:
通过频繁2项集表中的每个频繁2项集与频繁1项集表中的每个频繁1项集进行合并,得到频繁3项集,如表7;
表7如下:
序号 能力项名称 布尔数组 支持度
1 A、B、C 000000011 2/9
2 A、B、E 100000010 2/9
其中,以频繁3项集表中的每个频繁3项集与频繁1项集表中的每个频繁1项集合并,得到频繁4项集,但所有的频繁4项集的支持度均小于最小支持度阈值,将频繁3项集作为最终频繁项集;
以表10中的第一个频繁3项集{A、B、C}为例进行关联度计算,以得到能力项之间的关联规则:
频繁3项集{A、B、C}包括除空集外的6个真子集A、B、C、AB、BC、AC;
计算该频繁3项集及其6个真子集的支持数:
support_count(ABC)=(1.1+1+1.1)/3+(1.1+1+1)/3=2.1
support_count(AB)=(1.449+1.1)/2+(1.1+1)/2+(1.1+1)/2+(1.1+1)/2=4.4245
support_count(AC)=(0.8+1)/2+(1.1+1.1)/2+(1.1+1.1)/2+(1.1+1)/2=4.15
support_count(BC)=(1.1+1.1)/2+(1+1.1)/2+(1+1.1)/2+(1+1)/2=4.2
support_count(A)=1.449+1.1+0.8+1.1+1.1+1.1=6.649
support_count(B)=1.1+0.8+1.1+1+1+1+1=7
support_count(C)=1.1+1+1.1+1.1+1.1+1=6.4
计算其所有可能的关联规则的置信度:
A→BC置信度为:
p(BC A)=p(ABC)/p(A)=support_count(ABC)/support_count(A)=2.1/6.449=0.326
B→AC置信度为:p(AC  B)=2.1/7=0.3
C→AB置信度为:p(AB  C)=2.1/6.4=0.328
BC→A置信度为:p(A  BC)=2.1/4.2=0.5
AC→B置信度为:p(B  AC)=2.1/4.15=0.506
AB→C置信度为:p(C  AB)=2.1/4.4245=0.475
若设定关联规则的置信度最小阈值为0.5,则得到关联规则:BC→A和AC→B;
BC→A表示具备B和C翻译能力项的译员,其同时具备A翻译能力项的可能性也很大,对该类译员进行针对性测试,最终可能挖掘出这些译员的新的翻译能力。对AC→B也同理处理。
根据这些关联规则,对各个译员分配相匹配的翻译文档。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种翻译能力数据的关联规则的挖掘方法,其特征在于,包括:
提取多篇已翻译文档,根据所述已翻译文档中的翻译信息,建立文档信息集,所述文档信息集中的每条记录对应一篇所述已翻译文档,并且每个所述记录中包含有如下特征项:译员编号、文档类别和文档翻译质量分值;
将所述文档信息集中的所有记录按照所述译员编号进行整合处理,并根据所述文档类别和所述文档翻译质量计算,得到译员的能力项及其能力项分值,建立基础事务数据库;
对所述基础事务数据库进行去噪处理,对数据离散性较大,符合噪音标准的记录进行剔除处理,得到事务数据库;
根据所述事务数据库中的记录,递推出所有频繁项集,并根据递推出的频繁项集中译员能力项分值,计算各个能力项之间的关联程度,结果满足置信度阈值要求,输出所述各个能力项之间的关联规则。
2.根据权利要求1所述的方法,其特征在于,所述文档类别作为译员的一种能力项;
文档的翻译质量分为不同等级的若干个标准,每个标准对应有一评分数值,即文档翻译质量分值;
在所述整合的过程中,计算译员的所述能力项分值的过程包括:
按照能力项分值计算公式计算得到译员的所述能力项分值,所述公式如下:
K ( X ) = tan - 1 ( tan 1 &CenterDot; category _ num ) &CenterDot; M category _ num
其中,category_num为该译员翻译的该类文档的数量,tan-1(tan1·category_numm为调节系数, 0 < tan - 1 ( tan 1 &CenterDot; category _ num ) < &pi; 2 ; M为该译员翻译的所有该类文档的评分数值之和,K(X)为该译员的译员该能力项分值,X为译员的一种能力项;
将该译员的每个能力项按上述方法计算,得到译员所有能力项对应的能力项分值。
3.根据权利要求2所述的方法,其特征在于,根据数据离散性,所述去噪处理的过程,包括:
根据所述基础事务数据库中的每条记录的所述译员能力项,按照均值和标准差计算公式计算出其均值μ和标准差σ,若
Figure FDA0000427057380000023
大于噪音阈值,将该记录作为噪音处理;
所述均值计算公式为 &mu; = 1 n &Sigma; i = 1 n K ( i ) ;
所述标准差计算公式为 &sigma; = 1 n &Sigma; i = 1 n ( K ( i ) - &mu; ) 2 ;
其中,n为能力项的数量,K(i)为能力项中的第i个能力项分值;i为能力项序号。
4.根据权利要求1所述的方法,其特征在于,所述递推出频繁项集的过程包括:
扫描事务数据库,根据事务数据库中的记录,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阈值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阈值的频繁k+1项集。
5.根据权利要求4所述的方法,其特征在于,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阈值的所述1项集,得到所述频繁1项集。
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
6.根据权利要求5所述的方法,其特征在于,还包括:所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阈值的所述k+1项集,得到所述频繁k+1项集。
7.根据权利要求6所述的方法,其特征在于,所述无重复合并的过程包括:在得到所述候选频繁k+1项集后,判断得到所述候选频繁k+1项集为之前未曾出现,则将该k+1项集标记为“已合并”,并在之后的合并过程中,与之相同的频繁项集,放弃合并处理。
8.根据权利要求2所述的方法,其特征在于,所述根据译员的能力项分值,计算能力项之间的关联程度的过程包括:
根据事务数据库中译员能力项分值,计算所有得到的频繁项集的支持数;
根据频繁项集的支持数,输出大于最小置信度阈值的关联规则。
9.根据权利要求8,其特征在于,所述频繁项集支持数的计算过程包括:
步骤1、在所述事务数据库中统计包含有频繁项集的所有记录;
步骤2、计算每个包含该频繁项集的记录中的译员与频繁项集对应的译员能力项分值的均值;
步骤3、将计算得到的所有所述均值相加,得到该频繁项集的支持数;
步骤4、若按上述计算得到的所述频繁项集的支持数大于该频繁项集任一子集的支持数;将所述频繁项集的支持数作为该频繁项集子集的支持数。
10.根据权利要求1所述的方法,其特征在于,所述文档类别按照语种、行业、学科领域进行分类。
CN201310638848.2A 2013-11-30 2013-11-30 一种翻译能力数据的关联规则的挖掘方法 Pending CN103678541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310638848.2A CN103678541A (zh) 2013-11-30 2013-11-30 一种翻译能力数据的关联规则的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310638848.2A CN103678541A (zh) 2013-11-30 2013-11-30 一种翻译能力数据的关联规则的挖掘方法

Publications (1)

Publication Number Publication Date
CN103678541A true CN103678541A (zh) 2014-03-26

Family

ID=50316086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310638848.2A Pending CN103678541A (zh) 2013-11-30 2013-11-30 一种翻译能力数据的关联规则的挖掘方法

Country Status (1)

Country Link
CN (1) CN103678541A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN108876406A (zh) * 2018-06-28 2018-11-23 中国建设银行股份有限公司 客服行为分析方法、装置、服务器及可读存储介质
CN109255660A (zh) * 2018-09-25 2019-01-22 科达集团股份有限公司技术分公司 一种利用高度不均衡数据的广告账户优化方法
CN109447402A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 稿件基因的选取方法、装置与电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259643A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd テキスト検索装置
CN101248432A (zh) * 2005-08-25 2008-08-20 慕迪灵公司 翻译质量量化设备和方法
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259643A (ja) * 1999-03-05 2000-09-22 Fuji Xerox Co Ltd テキスト検索装置
CN101248432A (zh) * 2005-08-25 2008-08-20 慕迪灵公司 翻译质量量化设备和方法
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方炜炜: "基于布尔矩阵的关联规则算法研究", 《计算机应用研究》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126577A (zh) * 2016-06-17 2016-11-16 北京理工大学 一种基于数据源划分矩阵的加权关联规则挖掘方法
CN108876406A (zh) * 2018-06-28 2018-11-23 中国建设银行股份有限公司 客服行为分析方法、装置、服务器及可读存储介质
CN109447402A (zh) * 2018-09-19 2019-03-08 语联网(武汉)信息技术有限公司 稿件基因的选取方法、装置与电子设备
CN109447402B (zh) * 2018-09-19 2022-02-22 语联网(武汉)信息技术有限公司 稿件基因的选取方法、装置与电子设备
CN109255660A (zh) * 2018-09-25 2019-01-22 科达集团股份有限公司技术分公司 一种利用高度不均衡数据的广告账户优化方法
CN109255660B (zh) * 2018-09-25 2021-09-21 浙文互联集团股份有限公司技术分公司 一种利用高度不均衡数据的广告账户优化方法

Similar Documents

Publication Publication Date Title
CN109783639B (zh) 一种基于特征提取的调解案件智能分派方法及系统
US8738486B2 (en) Methods and apparatus for implementing an ensemble merchant prediction system
CN102841946B (zh) 商品数据检索排序及商品推荐方法和系统
CN106599155A (zh) 一种网页分类方法及系统
CN104077407B (zh) 一种智能数据搜索系统及方法
US20090171955A1 (en) Methods and systems for implementing approximate string matching within a database
CN106021329A (zh) 基于用户相似度的稀疏数据协同过滤推荐方法
CN107545422A (zh) 一种套现检测方法及装置
CN103678541A (zh) 一种翻译能力数据的关联规则的挖掘方法
CN106909946A (zh) 一种多模态融合的商品分类系统
CN104537067A (zh) 一种基于k-means聚类的分箱方法
CN107870956B (zh) 一种高效用项集挖掘方法、装置及数据处理设备
CN107193883B (zh) 一种数据处理方法和系统
Kruger et al. The power of one: Benford's law
CN104463601A (zh) 一种在线社会媒体系统中检测恶意评分用户的方法
CN106354787A (zh) 一种基于相似度的实体共指消解方法
CN105279147A (zh) 一种译员稿件快速匹配方法
CN108595562B (zh) 基于准确性判定的用户评价数据分析方法
CN103425711B (zh) 基于多对象实例的对象值对齐方法
CN104615789A (zh) 一种数据分类方法及装置
CN103729349A (zh) 一种对翻译质量影响因素的分析方法
CN108268478A (zh) 一种基于ur-CAIM算法的不平衡数据集特征选择方法及装置
CN110428337B (zh) 车险欺诈团伙的识别方法及装置
CN113435713A (zh) 基于gis技术和两模型融合的风险地图编制方法及系统
CN112784040B (zh) 基于语料库的垂直行业文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326

RJ01 Rejection of invention patent application after publication