CN103064970B - 优化译员的检索方法 - Google Patents

优化译员的检索方法 Download PDF

Info

Publication number
CN103064970B
CN103064970B CN201210594784.6A CN201210594784A CN103064970B CN 103064970 B CN103064970 B CN 103064970B CN 201210594784 A CN201210594784 A CN 201210594784A CN 103064970 B CN103064970 B CN 103064970B
Authority
CN
China
Prior art keywords
interpreter
translation
contribution
attribute
manuscript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210594784.6A
Other languages
English (en)
Other versions
CN103064970A (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201210594784.6A priority Critical patent/CN103064970B/zh
Publication of CN103064970A publication Critical patent/CN103064970A/zh
Application granted granted Critical
Publication of CN103064970B publication Critical patent/CN103064970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种优化译员的检索方法,拆分待译稿件,对拆分的后的每个稿件碎片分类;根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。由于译员基因属性包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某类(个)客户的熟悉度等其他因素,而稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等,将这些基因带入到基因匹配模型中匹配,得出哪些译员适合翻译并有适合度的排序。对于解决翻译效率、质量等问题具有非常现实的作用,为翻译行业的大规模产业化生产也具有重要意义。

Description

优化译员的检索方法
技术领域
本发明涉及计算机领域,具体而言,涉及一种优化译员的检索方法。
背景技术
信息时代和网络化使翻译工作方式发生了很大的变化。利用翻译流程管理平台,根据不同对象储存人才资料。有翻译任务时,可以根据翻译项目的语种、文章类型、专业领域以及客户对翻译质量和时限的要求,调用最合适的翻译和审校人员,组成项目组进行翻译,从而提高翻译效率、节省翻译费用、确保译文质量、优化项目管理。
目前的辅助翻译及管理平台对译员和译稿的匹配,一般还是通过人工或半人工的方式来完成,往往需通过更高级别的译员(比如审校)来判别译员的翻译能力和对译稿的合适度。这样不但主观性强,且采用人工选择译员,效率低下。
发明内容
本发明旨在提供一种优化译员的检索方法,以解决上述采用人工选择译员,效率低下的问题。
在本发明的实施例中,提供了一种优化译员的检索方法,包括:
拆分待译稿件,对拆分的后的每个稿件碎片分类;
根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。
实施例的步骤,通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图;
图2示出了实施例的方法采用的系统框架结构图;
图3示出了实施例中进行相似度分析的模块架构;
图4示出了实施例中关键词的树形结构图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。实施例的步骤包括:
S1:拆分待译稿件,对拆分的后的每个稿件碎片分类;
S2:根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员。
实施例的步骤,通过对译稿进行碎片化,将碎片后的片段的属性,找到相匹配的译员,提高了译员的查找效率,减少了主观性。
上述步骤S1,通过以下子步骤实现,包括:
S11:提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;
S12:将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个段所归属的行业类别属性;
S13:根据所述对应关系,确定每个段包含相同的最多的行业类别属性;
S14:将最多的行业类别属性对该段分类。
由于待译文稿的词语数要远小于术语语料库的词语数,经过分词处理后的词语数量还要大为减少;而且术语语料库具备按字母顺序查找的功能,在其中进行关键词匹配不需要采用模式匹配算法,可以极大的减少查询时间。缩短对译稿分类的时间,提高分类效率。
优选地,参见图2,由系统中的分词处理模块提取关键词,包括:
对译稿进行分词处理,去除停用词和不表示具体概念的词语,得到分词后的关键词集合。
优选地,在实施例中,计算每个词语在文稿中的出现次数即词频,记录每个词语的段落属性,即其所属的段落号;
建立待译文档的关键词列表,列表项包括:词语、词频、词语在段落属性、列表如表1所示:
表1
优选地,记录的词频,可用于在确定每个段落的包含相同的最多的行业类别属性的过程中,通过该段落的关键词的词频做乘积运算即可,例如,A段落的关键词B所匹配的术语属于C行业;关键词B在A段落中的词频是5,则A段落包括的C行业类别属性为5个。
参见图2,采用关键词匹配模块,以关键词列表中的词语作为匹配项在术语语料库中进行查询,若匹配则该词语为待译文稿的术语,记录该术语在术语语料库中对应的行业和学科领域信息,所有词语匹配完成后,得到该文稿中的术语列表,如表2所示:
表2
优选地,译稿内的有些段的词数较少,可将多个段作为一段,具体步骤如下:
S21:判断所述译稿内的每段的词数;
S22:如果所述词数小于阈值,则与相邻的下一段合并作为新的一段;
S23:直到所述新的一段的词数大于阈值。
阈值可根据实际情况设置,例如,设置为100词或200词等。通过上述步骤,可将少于阈值的多个段归类为一段。这样,由于段数缩减,可减少对段的操作,提高分类效率。
优选地,为便于后续对每个段进行处理,可为每个段落建立ID;同时建立属于同一个行业类别属性的多个段落的ID的集合,得到多个集合。
经过上述过程,将稿件实现了碎片化,分成各个段落,每个段落对应一个行业类别的属性,根据该属性可找到相应行业类别属性的译员的集合,通过译稿的整体属性,可在译员库中找到合适的译员,图1中的S2的步骤如下:
S31:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;
S32:读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;
S33:确定每个译员设定的合适度值;
S34:将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
优选地,实施例中,每个译员对应该译员基因属性,包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某种稿件类型的熟悉度、对某类(个)客户的熟悉度等其他因素;而待译稿件的稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等。通过将这些基因属性量化并带入到一个合适的匹配模型中进行匹配,从而得出某个稿件碎片适合哪些译员翻译并且给出适合度的排序。
可按照三层匹配模型找到译员,第一层为过滤项,该层首先确定一些基本的开关项,不符合这些项的译员被滤掉,符合的译员进入下一层匹配;
第二层为翻译能力项,该层通过译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个0~100的数值;
第三层合适度计算项,系统根据译员的基因属性及属性的权重计算出译员翻译该译稿的合适度。
第一层的匹配过程包括:读取待译稿件的各个属性,筛选出满足全部属性要求的译员;
确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性;属性至少包括之一:包括翻译价格、是否接任务、退稿率、是否翻译需求方、专项稿件能力。
至少执行以下之一的属性筛选:
如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的上下限阀值之间,则认为符合属性要求;
如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求;
如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求;
如果所述译员的专项稿件属性能力符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。
例如:判别该译员翻译价格是否超过给定译稿的翻译价格阀值,不超过为1,否则为0该译员被过滤掉。
是否接任务:判断若该译员是否处于暂不接任务状态,接任务为1,不接任务为0该译员被过滤掉。
退稿率:若译员退稿率不大于50%,按其值的大小归入到合适度项目计算,否则其值为0直接过滤掉。
是否翻译需求方:若翻译甲方有指定的翻译要求,按其要求判断译员是否符合要求,符合为1,否则为0该译员被过滤掉。
专项稿件能力:若待译稿件为某类专门稿件,如简历、公证书、法律文书或其他有专门格式和体裁文书,则要求译员具备相关的文书翻译能力,具备为1,否则为0该译员被过滤掉。
在第一层匹配之后,通过第二层的译稿的基因属性来计算译员相应语种、行业、学科、领域的翻译能力,其值为一个0~100的数值。按照图3所示的模块结构量化,该方法的流程过程如下:
提取测试稿件
一篇中到英的有关汽车发动机制造的测试稿件,其语种信息、行业信息和学科领域信息为:
语种信息:中→英
行业信息:37交通运输设备制造业
372汽车制造
3721汽车整车制造
学科领域信息:470动力与电气工程
470.30动力机械工程
470.3020内燃机工程(包括汽油机、柴油机、气体燃料发动机等)
对译员能力进行判断,如果已经经过判定,则进入译员能力选择/比较模块,如果没有经过判定,则进行翻译能力测试系统登陆模块。
译员登录平台申请领取测试稿件。系统读取测试稿件的语种、行业、学科、领域等属性信息,若译员具备该属性能力,则进入译员能力比较/选择模块;否则分配测试许可号给该译员进行该专业属性能力的翻译测试;
申领译员凭测试许可号登录翻译能力测试系统,进行该语种、行业、学科、领域的翻译能力测试;
系统根据测试许可号,从标准测试文档库中提取7篇相关测试文档给待测译员,包括语种类文档1篇,行业类文档3篇(37、372、3721),学科领域类文档3篇(470、470.30、470.3020),其难度系数分别为:9、6、8、8、7、8、7,排列顺序为语种、行业-交通运输设备制造业(37)、行业-交通运输设备制造业-汽车制造(372)、行业-交通运输设备制造业-汽车制造-汽车整车制造(3721)、学科领域信息-动力与电气工程(470)、学科领域信息-动力与电气工程-动力机械工程(470.30)、学科领域信息-动力与电气工程-动力机械工程-内燃机工程(470.3020),后面的数字顺序与此相同;
译员翻译完成后,根据翻译时间得到7篇译文的翻译速度档位值分别为:6、8、7、6、6、7、7,然后调用相似性比较模块计算译员的译文和标准译文的相似度,得到7篇译文和标准译文的相似度值,分别为:0.6、0.65、0.79、0.83、0.77、0.82、0.85;
优选地,稿件相似性比较模块进行分析的过程包括:
S41:提取每篇译后稿件和与其对应的标准译稿所归属的属于一个专业的多篇标准译稿的全部关键词,得到关键词集合C={k1,k2,…,km};
S42:计算C中每个关键词k在稿件集合中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为p(k)。
将关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1},{k2},…,{km};
在这m个关键词中,计算在关键词ki出现的稿件中,关键词kj也出现的概率,记为p(kj|ki),共计个条件概率,(1≤i,j≤m;i≠j);
p(kj|ki)的计算方法:p(kj|ki)=p(kjki)/p(ki),p(kjki)为kj、ki同时出现在同一篇稿件中的概率。
S43:合并集合,当集合I和J同时满足以下两个条件时合并:
(ki∈I,kj∈J,ki≠kj)满足p(ki)>P1,p(kj|ki)>P2;
(ki∈I∪J)满足|{ki∈I∪J|p(kj|ki)>P2}|>(|I|+|J|)/2。(|X|表示集合X中元素的个数)
当任两个集合都不符合这两个条件的时合并结束,同时得到第一层聚类关键词集合C={C1,C2,…,Cq}。
对C={C1,C2,…,Cq},取阈值P3<P2,用上述方法再次进行聚类,生成上一层概念集合。重复此过程,直到聚类集合无法再聚类为止,这些无法再聚类的概念集合为根节点C的子节点,这样就生成如图4所示的关键词的概念树。
S44:根据概率形成的树形结构,计算两篇文档的相似度。
相似度 Sim ( A , B ) = A * B A * B A * B .
A={a1,a2,…,an},B={b1,b2,…,bn},A、B分别为每个稿件内对应的关键词的集合,a1为A稿件的第一个关键词,b1为B稿件的第一个关键词。
根据概念树中,每个关键词的概率在概念树的节点位置,确定译后稿件和标准译稿的任意两个关键词的乘积的总和C;其中
C = A * B = &Sigma; i = 1 n &Sigma; j = 1 n ( a i &times; b j ) ;
ai×bj为两个关键词的乘积,该关键词的乘积为:根据任意两个叶子节点与其距离最近的父节点的路径长度,与树的深度路径长度的比值,作为这两个叶子节点的乘积;ai×bj=depth(com(ai,bj))/H,其中,H为树的路径深度。
得到相似度的值之后,提取每篇测试稿件内的关键词,与术语语料库进行匹配,确定每篇稿件的术语数量,作为计算稿件权重的基值;
通过所述基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重;
将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个0~100之间的数值,将该数值作为该译员在该专业的翻译能力分值。为该译员的翻译能力量化值。
例如:
7篇译文的权重计算:根据术语语料库计算6篇行业类和学科领域类文档的相关专业术语的数量,得到6篇文档的专业术语的数量分别为7、23、28、20、33、31,将这6个数值作为计算权重的基值,因为语种类文档基本没有专业术语,可以取这6个数的算术平均值23.7作为语种类的权重基值,这样得到计算7篇译文权重的基值集合{23.7,7,23,28,20,33,31};
将该权重集合的值对应乘以这7篇文档的难度系数{9,6,8,8,7,8,7}和翻译速度档位值{6,8,7,6,6,7,7},得到集合{1279.7,336,1288,1344,840,1848,1519},对该集合做归一化处理即得到这7篇文章的权重值集合{0.15136,0.03974,0.15234,0.15896,0.09935,0.21858,0.17966}。
译员专业翻译能力分值计算:以相似度值集合{0.6,0.65,0.79,0.83,0.77,0.82,0.85}与权重集合{0.15136,0.03974,0.15234,0.15896,0.09935,0.21858,0.17966}对应相乘,得到集合{0.09082,0.02583,0.12035,0.13194,0.0765,0.17924,0.15271},将该集合的值相加再乘以100就得到译员在该语种、行业、学科、领域属性的翻译能力分值77.739分。
通过第三层合适度计算项,系统根据译员的基因属性及属性的权重计算出译员翻译该译稿的合适度的值。
合适度计算项包括:退稿率、及时交稿率、稿件可用率、翻译性价比、合作次数、低级错误、是否签约。
其中每个项都一个介于0~100之间的数值,具体计算方法见一下的详述,其中各项所占权重如下表:
表3
合适度计算项 权重
退稿率 0.15
及时交稿率 0.15
稿件可用率 0.30
翻译性价比 0.106 -->
合作次数 0.15
低级失误 0.15
是否签约
退稿率:当退稿率不大于50%时,进入合适度计算项,(1-退稿率)×100作为其计算分值。
及时交稿率:及时交稿率×100作为其计算分值。
稿件可用率:稿件可用率×100作为其计算分值。
翻译性价比:该译稿的标准翻译价格/译员的翻译价格,根据其值的大小转换成0~100之间的数值作为其计算分值,转换表如下:
表4
性价比 不大于0.5 0.5~2 不小于2
档位分值 0 0.5~2之间每隔0.015,档位值加1 100
合作次数:按译员和公司的成功合作次数计算档位分值表如下:
表5
合作次数 0次 1~3次 4~10次 11~20 大于20
档位分值 30 60 80 90 100
低级错误:低级错误在一定程度上反映了译员翻译的责任心和翻译态度,根据译员的低级错误次数设定相应的档位分值表如下:
表6
低级错误次数 0次 1~5次 5~10次 11~20 20~40 大于40次
档位分值 100 80 60 40 20 0
是否签约:签约译员合适度分值加10分。
将每个合适度计算项与其对应的权重相乘,将所述多个合适度计算项的乘积的和作为所述和适度值。
最后,将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
下面通过具体的一篇待译文稿详细说明。
该待译文稿的属性信息如下:翻译价格为标准翻译价格、翻译需求无特殊要求、非专项稿件。其语种属性为中到英,所属行业为汽车行业,学科领域信息为机械——发动机。各个译员的属性信息与译稿的属性信息匹配程度如表7所示:
表7
经过滤项过滤和计算译员的翻译能力分值后得到下表8所示:
表8
计算后:TR001、TR002、TR003、TR006的合适度得分分别为以下表9所示:84.3,87.3,85.8,76.8。
表9
译员ID 合适度得分 翻译能力得分 总得分
TR001 84.3+10 80 174.3
TR002 87.3+10 75 172.3
TR003 85.8+10 85 180.8
TR006 76.8 70 146.8
根据总得分选择TR003作为译稿的翻译译员,TR001为译稿的备选翻译译员。
通过上述步骤,找到最适合翻译稿件或稿件片段的译员,本发明由于译员基因属性包含了语种、行业、学科、领域等的翻译能力,以及信用度、完成任务及时度、质量波动情况、对某种稿件类型的熟悉度、对某类(个)客户的熟悉度等其他因素,而稿件碎片的基因属性则包括语种、行业、学科、难度、翻译要求等,将这些基因属性量化并带入到基因匹配模型中进行匹配,从而得出某个稿件碎片哪些译员适合翻译并有适合度的排序。基因匹配模型是翻译能力匹配、合适度匹配和相似度匹配等多个模型的综合,这个模型的建立对于翻译行业解决翻译效率、质量等问题具有非常现实的作用,为翻译行业的大规模产业化生产的建立也具有重要意义。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种优化译员的检索方法,其特征在于,包括:
拆分待译稿件,对拆分的后的每个稿件碎片分类;
根据每个所述稿件碎片的属性,从符合相应分类的译员库中选择相应的译员;
为所述分类后的碎片选择译员的过程包括:
读取分类后碎片的稿件的各个属性,筛选出满足全部属性要求的译员;
读取所述筛选出的译员ID,对每个译员的译后稿件与标准译稿进行相似性分析,确定每个译员的翻译能力的量化值;
确定为每个译员设定的合适度值;
将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员;
所述相似性分析的过程包括:
提取每篇译后稿件和与其对应的测试文档库中的标准译稿集合的关键词;该关键词的集合为C={k1,k2,…,km};
计算C中每个关键词k在稿件中出现的概率,即出现关键词k的稿件数和稿件总数之比,记为p(k);
将C中关键词按p(k)进行降序排序,并将每一个关键词作为一个集合,这样得到初始的m个待合并集合,记为{k1},{k2},…,{km};
在这m个关键词中,计算在关键词ki出现的稿件中关键词kj出现的概率,记为p(kj|ki),共计个条件概率,(1≤i,j≤m;i≠j);p(kj|ki)=p(kjki)/p(ki),p(kjki)为kj和ki同时出现在同一篇稿件中的概率;
合并待合并集合,生成以关键词集合C为根节点的关键词概念树。
2.根据权利要求1所述的方法,其特征在于,包括:所述拆分、所述分类的过程包括:
提取译稿每段的各个关键词,建立每个段落与其包含的各个关键词的对应关系;
将所述译稿的各个关键词逐个在术语语料库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词所对应的每个段所归属的行业类别属性;
根据所述对应关系,确定每个段包含相同的最多的行业类别属性;
将最多的行业类别属性对该段分类。
3.根据权利要求2所述的方法,其特征在于,判断所述译稿内的每段的词数;
如果所述词数小于阈值,则与相邻的下一段合并作为新的一段;
直到所述新的一段的词数大于阈值。
4.根据权利要求1所述的方法,其特征在于,所述待译稿件的各个属性至少包括之一:
翻译价格、退稿率、翻译需求、专项稿件;
所述筛选的过程包括:
确定该译员的状态为接案状态后,读取该译员的与所述待译稿件相同的属性;
至少执行以下之一的属性筛选:
如果所述译员的翻译价格属性的值在所述待译稿件的翻译价格属性的上下限阀值之间,则认为符合属性要求;
如果所述译员的退稿率属性的值小于所述待译稿件的退稿率属性的值,则认为符合属性要求;
如果所述译员的翻译需求属性的内容包含所述待译稿件的翻译需求属性的内容,则认为符合属性要求;
如果所述译员的专项稿件的能力属性符合所述待译稿件的专项稿件属性的内容,则认为符合属性要求。
5.根据权利要求1所述的方法,其特征在于,所述合适度的计算项至少包括以下之一:
退稿率、及时交稿率、稿件可用率、翻译性价比、合作次数、低级失误;其中,每一项对应一个介于0~100之间的数值;
所述确定合适度值的过程包括:
设定多个合适度计算项的权重;
将每个合适度计算项与其对应的权重相乘,将所述多个合适度计算项的乘积的和作为所述合适度值;
将每个译员的量化值、合适度值的和进行排序,选择出分值最高的译员。
6.根据权利要求1所述的方法,其特征在于,所述合并过程包括:
对于待合并的两个关键词集合C1和C2,合并条件为:存在ki属于C1,kj属于C2,且p(ki)>阀值P1,p(kj|ki)>阀值P2,当p(ki)和p(kj|ki)大于所述设定阀值时,关键词ki和kj表达相同概念,满足其所在的集合的合并条件之一;
在合并后的集合中任给一个关键词ki,其与集合中一半以上关键词都满足条件p(kj|ki)>阀值P2。
7.根据权利要求6所述的方法,定义H为生成的概念树的高度,定义depth(k)为节点k在树中的深度,即为从根节点到该节点所经历的边数;
定义com(ki,kj)为离节点ki和kj最近的共同父节点;
任两个关键词的积的计算公式:ki×kj=depth(com(ki,kj))/H;
设向量A={a1,a2,…,an},B={b1,b2,…,bn},定义向量计算:所述A和B中的一个为待译译稿,另一个为相应的标准译稿;
相似度计算公式为: S i m ( A , B ) = A * B A * B A * B .
8.根据权利要求7所述的方法,其特征在于,确定所述量化值的过程包括:
根据每篇测试稿件的专业术语的数量,确定该每篇测试稿件的权重基值;其中,所述测试稿件经过翻译后得到所述译后稿件;
通过所述权重基值、所述测试稿件的翻译难度系数、和译员的翻译速度系数确定出每件测试稿件所占的权重;
将上述所得的权重值结合译后稿件与标准译稿的相似度值得到一个0~100之间的数值,将该数值作为所述量化值。
CN201210594784.6A 2012-12-31 2012-12-31 优化译员的检索方法 Active CN103064970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210594784.6A CN103064970B (zh) 2012-12-31 2012-12-31 优化译员的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210594784.6A CN103064970B (zh) 2012-12-31 2012-12-31 优化译员的检索方法

Publications (2)

Publication Number Publication Date
CN103064970A CN103064970A (zh) 2013-04-24
CN103064970B true CN103064970B (zh) 2016-04-20

Family

ID=48107600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210594784.6A Active CN103064970B (zh) 2012-12-31 2012-12-31 优化译员的检索方法

Country Status (1)

Country Link
CN (1) CN103064970B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514156B (zh) * 2013-09-09 2016-08-17 武汉传神信息技术有限公司 一种网络通信文本在传输过程中翻译的方法
CN103729348B (zh) * 2013-12-23 2016-08-17 武汉传神信息技术有限公司 一种语句翻译复杂度的分析方法
CN103729350B (zh) * 2013-12-30 2017-01-04 语联网(武汉)信息技术有限公司 多维度待译文档的预处理方法
CN103678280A (zh) * 2013-12-30 2014-03-26 武汉传神信息技术有限公司 翻译任务碎片化的方法
CN103761226B (zh) * 2013-12-30 2017-09-05 语联网(武汉)信息技术有限公司 按文档的字符属性碎片化的方法
CN105138521B (zh) * 2015-08-27 2017-12-22 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105279147B (zh) * 2015-09-29 2018-02-23 语联网(武汉)信息技术有限公司 一种译员稿件快速匹配方法
CN105243118A (zh) * 2015-09-29 2016-01-13 武汉传神信息技术有限公司 一种稿件数据分类的方法
CN107958317B (zh) * 2016-10-17 2021-12-14 腾讯科技(深圳)有限公司 一种众包项目中选取众包参与人的方法和装置
CN109299737B (zh) * 2018-09-19 2021-10-26 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109344409B (zh) * 2018-09-19 2023-10-27 传神语联网网络科技股份有限公司 翻译机器人选择方法
CN109448792B (zh) * 2018-09-19 2021-11-05 语联网(武汉)信息技术有限公司 译员基因的选取方法、装置与电子设备
CN109543194B (zh) * 2018-11-21 2023-06-13 传神语联网网络科技股份有限公司 基于icat与trados的融合翻译方法与系统
CN109558602B (zh) * 2018-11-21 2023-06-09 传神语联网网络科技股份有限公司 翻译工具的分布式选择与融合
CN109636199B (zh) * 2018-12-14 2020-10-30 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN109858745A (zh) * 2018-12-26 2019-06-07 语联网(武汉)信息技术有限公司 翻译平台匹配方法及装置
CN111831937B (zh) * 2019-04-23 2023-06-06 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机存储介质
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675642A (zh) * 2002-08-20 2005-09-28 皇家飞利浦电子股份有限公司 发送工作的方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1675642A (zh) * 2002-08-20 2005-09-28 皇家飞利浦电子股份有限公司 发送工作的方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《中文科技期刊数据库文献分类与检索》;吕月娥;《临沂师范学院学报》;20081231;第30卷(第6期);全文 *

Also Published As

Publication number Publication date
CN103064970A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
CN103064970B (zh) 优化译员的检索方法
CN103092827B (zh) 多策略译员稿件自动匹配的方法
CN107992633B (zh) 基于关键词特征的电子文档自动分类方法及系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN102193936B (zh) 一种数据分类的方法及装置
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN105893350B (zh) 一种电子商务中文本评论质量的评价方法与系统
CN103984714B (zh) 一种基于本体语义的云制造服务供需智能匹配方法
CN103744928B (zh) 一种基于历史访问记录的网络视频分类方法
Cao et al. Data mining for business applications
CN103309886A (zh) 一种基于交易平台的结构化信息搜索方法和装置
CN103049569A (zh) 基于向量空间模型的文本相似性匹配方法
CN104077407B (zh) 一种智能数据搜索系统及方法
US10387805B2 (en) System and method for ranking news feeds
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN104615779A (zh) 一种Web文本个性化推荐方法
CN109033294B (zh) 一种融入内容信息的混合推荐方法
CN106933883B (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN103106245A (zh) 基于大规模术语语料库对译稿自动碎片化分类的方法
CN116843162B (zh) 一种矛盾调解方案推荐与评分系统及方法
CN104951843A (zh) 销量预测系统及方法
CN115794798A (zh) 一种市场监管信息化标准管理与动态维护系统及方法
KR101179613B1 (ko) 빈발항목과 연관규칙을 이용한 특허문서 자동분류 방법
CN112215629B (zh) 基于构造对抗样本的多目标广告生成系统及其方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor after: Wang Jie

Inventor before: Jiang Chao

COR Change of bibliographic data
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee before: Wuhan Transn Information Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Search method for optimizing translators

Effective date of registration: 20181115

Granted publication date: 20160420

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20160420

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061