发明内容
本发明旨在提供一种翻译错误的数据分析方法,解决了如何提高翻译错误关联的因素的准确性的问题。
本发明公开了一种翻译错误的数据分析方法,包括:
将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
根据所述事务数据库中的每条记录,进行关联计算,得到所述错误信息数据与所述影响因素的关联规则。
优选地,所述数据通过所述已翻译文档的错误等级和错误类型组合得到。
优选地,一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数和审校级别。
优选地,所述合并处理包括:
将同一个所述译员ID的数据项进行归集,得到所述数据集。
优选地,所述关联计算包括:
根据所述事务数据库中的记录,递推出频繁k+1项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
优选地,所述递推出频繁k+1项集的过程包括:
扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阀值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阀值的所述1项集,得到所述频繁1项集;
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阀值的所述k+1项集,得到所述频繁k+1项集。
本发明中的翻译错误的数据分析方法,具有以下优点:
1、通过对错误信息数据和影响因素进行关联计算,提高了错误信息数据关联的准确性;
2、本发明对频繁项集搜索和检出的方法,只需在生成1项集表时扫描1次事务数据库D,相比大部分其他关联规则算法的多次读取事务数据库而言,大为减少了由于读取事务数据库而产生的IO开销;生成频繁项集时不用先产生候选项,频繁k项集由频繁1项集和频繁k-1项集直接生成,相较于同样只需一次扫描事务数据库但需将事务数据库压缩到频繁模式树的FP-growth方法而言,有更少的内存消耗;
3、本方法中通过采用布尔数组来进行频繁项集的挖掘,最大的计算消耗为“逻辑与”运算,符合计算机的最底层的计算处理模式,由此设计出的软件不但运算速度快,对于cpu和内存的消耗也最为节省。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本实施例中提供了一种翻译错误的数据分析方法,包括:
将每篇已翻译文档的错误信息数据及若干影响因素组合,得到数据项,将所有所述数据项进行合并处理,得到多个数据集,建立事务数据库;所述事务数据库中的每一条记录对应一个所述数据集;
根据所述事务数据库中的每条记录,进行关联计算,得到所述数据项与所述影响因素的关联规则。
实施例中的错误信息数据是通过将翻译的错误等级和错误类型组合得到;
错误等级根据翻译错误的严重程度,从低到高分为5档,分别为err1、err2、err3、err4、err5。
错误类型包括:排版错误(prn)、逻辑错误(log)、语法错误(gra)、
句法错误(syn)、单词或术语错误(ter)、直译错误(lit)、知识性错误(inf)、专业错误(pro)和责任错误(1ib);
错误信息数据的表示,例如错误等级为5档,错误类型为排版错误,则错误信息数据为err5.prn;
一个所述影响因素为以下之一:译员ID、译员性别、译员专业、译员翻译能力、译员是否签约、译员所属供应商、译员所属供应商规模、译员合作次数、已翻译文档的类型、已翻译文档的翻译方向、已翻译文档的翻译难度、使用的辅助翻译工具、审校次数和审校级别。
影响因素的表示,例如如下:
译员ID:IP(n),n为译员序号;
译员性别:男:male;女:female;
专业:译员所学的专业,以pro(n)表示;n为专业的序号。
翻译能力:译员具备的语种和行业学科领域的专业能力,这是个多项集,每个译员可能有多项能力,以集合形式表示{cap1、cap2…}。
是否签约:表示该译员是否是签约译员,签约为sign,未签约为not_sign。
所属供应商:该译员所属的翻译公司,以sup(n)表示,n为翻译公司序号。
供应商规模:按供应商的规模大小,50个译员以上为大;50~20为中;20以下为小。分别对应scale1、scale2、scale3。
译员合作次数:以col(n)表示,n为合作次数。
译文类别:译文类别为该译文所属的行业或学科领域类别,与译员的能力项相对应,表示形式为icap(n),n为译员类别序号。
译文方向:表示译文为哪个翻译方向,即其源语种和目标翻译语种,如中到英表示为CN-EN,其他的类同。
译文难度:表示该译文翻译的难易程度,分为5档,从难到易为lev1、lev2、lev3、lev4、lev5。
使用何种辅助翻译工具:CAT(n)表示,n为辅助翻译工具的序号,其中n为0表示没有使用辅助翻译工具。
审校次数:以chk(n)表示,n表示该译文审校的次数;
审校级别:以rev(n)表示,n表示审校的级别。
优选地,所述合并处理包括:
将同一个所述译员ID的数据项进行归集,得到所述数据集。
优选地,所述关联计算包括:
根据所述事务数据库中的记录,递推出频繁k+1项集,并计算所有得到的频繁项集中的任一真子集与其补集的关联程度,结果满足置信度阀值要求,输出所述关联规则。
优选地,所述递推出频繁k+1项集的过程包括:
扫描事务数据库,根据事务数据库中的记录中所述数据项,得到所述事务数据库中所有的1项集;
计算每个所述1项集的支持度,得到支持度不小于最小支持度阀值的频繁1项集;
通过频繁k项集与频繁1项集进行无重复合并,生成支持度不小于最小支持度阀值的频繁k+1项集。
优选地,还包括:
每个所述1项集对应着有一布尔数组,该布尔数组长度为事务数据库的记录总数,所述布尔数组的各个数位按照所述事务数据库中的记录的顺序一一与所述事务数据库的记录对应;
若事务数据库中的某条记录包含该1项集中的项,则将与该记录对应的数位上的逻辑值记为1;否则,记为0;
计算所述所有1项集的支持度,剔除支持度小于最小支持度阀值的所述1项集,得到所述频繁1项集;
其中,布尔数组中“1”的个数与布尔数组的数位长度之比作为所述支持度。
优选地,还包括:
所述k+1项集及其对应的布尔数组由频繁K项集及其布尔数组和频繁1项集及其布尔数组进行无重复合并得到;
在所述无重复合并的过程中,频繁k项集的布尔数组与频繁1项集的布尔数组上的相同数位上的逻辑值进行逻辑与运算,得到候选频繁k+1项集的布尔数组;
计算所述所有候选频繁k+1项集的支持度;剔除支持度小于最小支持度阀值的所述k+1项集,得到所述频繁k+1项集。
进一步的,还本方案还提供一个优选的实施例:
数据采集:
在翻译生产过程中,会产生各种形式的错误,本方法采集潜在的与产生翻译错误有关因素的数据信息。包括错误的等级、错误的类型,具体包括:错误级别、排版错误、单词或术语错误、语法错误、直译错误、知识性错误、逻辑错误、专业错误、人为粗心错误、责任错误、不可抗错误(原文错误);影响翻译错误产生的因素包括:译员、译文、翻译过程等,具体包括:译员等级、译员所属公司、译员翻译数量、是否平台签约译员、译员性别、译文长度、译文难度、错误所在段落特征、错误所在句子特征、译文翻译速度、审校等级、审校所属公司等。
数据预处理:
将错误信息数据和影响因素进行表述,例如实施例1中的表示;
得到若干数据项;
将得到的数据项按照译员ID进行合并,得到数据集;
建立事务数据库:
通过对产生翻译错误潜在因素的数据信息进行上述处理后,得到如下形式的事务数据库记录,如表1:
表1如下:
建立频繁项集:
1)、建立1项集表:
设定事务数据库表名为D,表长度为n,D中“项”的总数为m。
该项为所述数据集中的一个数据项;
扫描事事物数据库D,以D中所有的“项”为基础建立一个1项集表。该表长度为m,该表包含3列,第一列为项序号;第二列为项名称;第3列为一个布尔数组,该数组按如下方法建立:数组长度为n,该布尔数组中每个元素的取值方法为——若其对应的“项”存在于事务数据库D的第i(1≤i≤n)个记录中,则将该数组的第i个元素赋值为真值1,否则为0。
2)、检索频繁1项集:
计算该1项集表第一个记录中的布尔数组的真值个数,将该值除以事务数据库D的长度n,得到该“1项集”的支持度;
若所述支持度大于给定的最小支持度阀值,将该1项集标注为频繁项集;
对1项集表中所有的记录进行上述过程,得到频繁1项集表。
3)、递推频繁2项集:
将频繁1项集表中的第i个记录和第j个记录(1≤i,j≤m且i≠j)中的布尔数组的对应元素进行“与”运算,得到新的布尔数组;
计算该布尔数组中的真值个数,将该值除以事务数据库D的长度n,得到该2项集的支持度;
若所述支持度大于给定的最小支持度阀值,将由该频繁1项集表中的第i个记录和第j个记录中的两项所构成的2项集标注为频繁项集;
完成对i和j的循环后,得到所有频繁2项集表。
4)、递推频繁k+1项集:
一般的,对于已知频繁1项集和频繁k项集的情况下可以通过以下方法生成频繁k项集(k≤2):
判断频繁k项集表中的第i个记录的项和频繁1项集中的第j个记录中的项合后的情况(1≤i,j≤m且i≠j):
若合并后为k+1项集,且该k+1项集未曾合并过,则将该k+1项集标识为“已合并”;将该频繁k项集表中的第i个记录和频繁1项集中的第j个记录的布尔数组进行逻辑“与”运算,得到新的布尔数组;
计算该布尔数组中的真值个数,将该值除以事务数据库D的长度n,得到该k+1项集的支持度;
若所述支持度大于给定的最小支持度阀值,则将该k+1项集标注为频繁项集;
完成对i和j的循环后,得到所有频繁k项集表。
当生成频繁k项集,得到频繁k+1项集的个数为0时,该递推生成过程终止。
建立关联规则:
通过上述方法得所有的频繁项集后,对这些频繁项集进行关联规则挖掘。
对于每个得到的频繁项集L,产生其所有非空真子集S;
对于L的每个非空真子集S,如果support(L)/support(S)≥min_conf,则输出关联规则
。其中min_conf是最小置信度阀值,support(L)是项集L的支持度,support(S)是项集S的支持度。
对于输出的关联规则
,进行合适性分析,对于其中与翻译质量高低无关规则予以剔除。
根据得到的关联规则对最小支持度和最小置信度进行调整,以得到最佳的翻译错误相关的关联规则。
对翻译错误的影响因素进行调整、控制,避免翻译错误的发生。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。