发明内容
本发明旨在提供一种对翻译质量影响因素的分析方法,解决了如何提高翻译质量关联的影响因素的准确性的问题。
本发明公开了一种对翻译质量影响因素的分析方法,包括:
将每篇已翻译文档的翻译质量信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
根据所述事务数据库中的每条记录,进行关联计算,得到所述翻译质量信息数据与所述影响因素的关联规则。
优选地,所述翻译质量信息数据通过所述已翻译文档的翻译质量、翻译速度及客户反馈组合得到。
优选地,一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数、审校级别和译文反馈次数。
优选地,所述合并处理包括:
将同一个所述译员ID的数据项进行归集,得到所述数据集。
优选地,所述关联计算包括:
根据所述事务数据库中的记录,递推出频繁k+1项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
优选地,所述递推出频繁k+1项集的过程包括:
扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阀值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阀值的所述1项集,得到所述频繁1项集;
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阀值的所述k+1项集,得到所述频繁k+1项集。
本发明中的翻译错误的数据分析方法,具有以下优点:
1、通过对错误数据和影响因素进行关联计算,提高了翻译质量数据关联的准确性;
2、本发明对频繁项集搜索和检出的方法,只需在生成1项集表时扫描1次事务数据库D,相比大部分其他关联规则算法的多次读取事务数据库而言,大为减少了由于读取事务数据库而产生的IO开销;生成频繁项集时不用先产生候选项,频繁k项集由频繁1项集和频繁k-1项集直接生成,相较于同样只需一次扫描事务数据库但需将事务数据库压缩到频繁模式树的FP-growth方法而言,有更少的内存消耗;
3、本方法中通过采用布尔数组来进行频繁项集的挖掘,最大的计算消耗为“逻辑与”运算,符合计算机的最底层的计算处理模式,由此设计出的软件不但运算速度快,对于cpu和内存的消耗也最为节省。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本实施例中提供了一种对翻译质量影响因素的分析方法,包括:
将每篇已翻译文档的翻译质量信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
根据所述事务数据库中的每条记录,进行关联计算,得到所述翻译质量信息数据与所述影响因素的关联规则。
实施例中的翻译质量信息数据是通过将已翻译文档的的翻译质量、翻译速度和客户反馈组合得到;
翻译质量按“优”、“良”、“中”、“一般”、“差”分为5档,分别为grd1、grd2、grd3、grd4、grd5。
客户反馈按“优”、“良”、“中”、“一般”、“差”分为5档,分别为cgrd1、cgrd2、cgrd3、cgrd4、cgrd5。
翻译速度分5档,从快到慢分别为,spd1,spd2,spd3,spd4,spd5。
一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的难度、使用的辅助翻译工具、审校次数和审校级别。
影响因素的表示,例如如下:
译员ID:IP(n),n为译员序号;
译员性别:男:male;女:female;
专业:译员所学的专业,以pro(n)表示;n为专业的序号。
翻译能力:译员具备的语种和行业学科领域的专业能力,这是个多项集,每个译员可能有多项能力,以集合形式表示{cap1、cap2…}。
是否签约:表示该译员是否是签约译员,签约为sign,未签约为not_sign。
所属供应商:该译员所属的翻译公司,以sup(n)表示,n为翻译公司序号。
供应商规模:按供应商的规模大小,50个译员以上为大;50~20为中;20以下为小。分别对应scale1、scale2、scale3。
译员合作次数:以col(n)表示,n为合作次数。
译文类别:译文类别为该译文所属的行业或学科领域类别,与译员的能力项相对应,表示形式为icap(n),n为译员类别序号。
译文方向:表示译文为哪个翻译方向,即其源语种和目标翻译语种,如中到英表示为CN-EN,其他的类同。
译文难度:表示该译文翻译的难易程度,分为5档,从难到易为lev1、lev2、lev3、lev4、lev5。
使用何种辅助翻译工具:CAT(n)表示,n为辅助翻译工具的序号,其中n为0表示没有使用辅助翻译工具。
审校次数:以chk(n)表示,n表示该译文审校的次数;
审校级别:以rev(n)表示,n表示审校的级别。
译文反馈次数:以FB(n),n表示译文在项目经理与译员之间的反馈次数。
优选地,所述合并处理包括:
将同一个所述译员ID的数据项进行归集,得到所述数据集。
优选地,所述关联计算包括:
根据所述事务数据库中的记录,递推出频繁k+1项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
优选地,所述递推出频繁k+1项集的过程包括:
扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阀值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阀值的所述1项集,得到所述频繁1项集;
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阀值的所述k+1项集,得到所述频繁k+1项集。
进一步的,还本方案还提供一个优选的实施例:
数据采集:
本方法采集以下潜在的与翻译质量有关因素的数据信息。包括翻译结果信息、译员基本信息、译文基本信息、翻译过程信息。其中翻译结果信息包括:翻译速度、翻译质量、客户反馈;译员基本信息包括:性别、专业、翻译能力、是否签约、所属供应商、译员合作次数;译文基本信息包括:译文方向、译文类别、译文难度、翻译价格;翻译过程信息包括:使用何种辅助翻译工具、译文审校次数、审校级别、译文在客户项目经理及译员之间的反馈次数。
数据预处理:
将错误数据和影响因素进行表述,例如实施例1中的表示;
得到若干数据项;
将得到的数据项按照译员ID进行合并,得到数据集;
建立事务数据库:
通过对产生翻译错误潜在因素的数据信息进行上述处理后,得到如下形式的事务数据库记录,如表1:
表1如下:
建立频繁项集:
1)、建立1项集表:
设定事务数据库表名为D,表长度为n,D中“项”的总数为m。
该项为所述数据集中的一个数据项;
扫描事事物数据库D,以D中所有的“项”为基础建立一个1项集表。该表长度为m,该表包含3列,第一列为项序号;第二列为项名称;第3列为一个布尔数组,该数组按如下方法建立:数组长度为n,该布尔数组中每个元素的取值方法为——若其对应的“项”存在于事务数据库D的第i(1≤i≤n)个记录中,则将该数组的第i个元素赋值为真值1,否则为0。
2)、检索频繁1项集:
计算该1项集表第一个记录中的布尔数组的真值个数,将该值除以事务数据库D的长度n,得到该“1项集”的支持度;
若所述支持度大于给定的最小支持度阀值,将该1项集标注为频繁项集;
对1项集表中所有的记录进行上述过程,得到频繁1项集表。
3)、递推频繁2项集:
将频繁1项集表中的第i个记录和第j个记录(1≤i,j≤m且i≠j)中的布尔数组的对应元素进行“与”运算,得到新的布尔数组;
计算该布尔数组中的真值个数,将该值除以事务数据库D的长度n,得到该2项集的支持度;
若所述支持度大于给定的最小支持度阀值,将由该频繁1项集表中的第i个记录和第j个记录中的两项所构成的2项集标注为频繁项集;
完成对i和j的循环后,得到所有频繁2项集表。
4)、递推频繁k+1项集:
一般的,对于已知频繁1项集和频繁k项集的情况下可以通过以下方法生成频繁k项集(k≤2):
判断频繁k项集表中的第i个记录的项和频繁1项集中的第j个记录中的项合后的情况(1≤i,j≤m且i≠j):
若合并后为k+1项集,且该k+1项集未曾合并过,则将该k+1项集标识为“已合并”;将该频繁k项集表中的第i个记录和频繁1项集中的第j个记录的布尔数组进行逻辑“与”运算,得到新的布尔数组;
计算该布尔数组中的真值个数,将该值除以事务数据库D的长度n,得到该k+1项集的支持度;
若所述支持度大于给定的最小支持度阀值,则将该k+1项集标注为频繁项集;
完成对i和j的循环后,得到所有频繁k项集表。
当生成频繁k项集,得到频繁k+1项集的个数为0时,该递推生成过程终止。
建立关联规则:
通过上述方法得所有的频繁项集后,对这些频繁项集进行关联规则挖掘。
对于每个得到的频繁项集L,产生其所有非空真子集S;
对于L的每个非空真子集S,如果support(L)/support(S)≥min_conf,则输出关联规则。其中min_conf是最小置信度阀值,support(L)是项集L的支持度,support(S)是项集S的支持度。
对于输出的关联规则
,进行合适性分析,对于其中与翻译质量高低无关规则予以剔除。
根据得到的关联规则对最小支持度和最小置信度进行调整,以得到最佳的翻译质量相关的关联规则。
对翻译质量的影响因素进行调整、控制,便于提高翻译的质量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。