CN103744834A - 一种翻译任务准确分配的方法 - Google Patents

一种翻译任务准确分配的方法 Download PDF

Info

Publication number
CN103744834A
CN103744834A CN201310713989.6A CN201310713989A CN103744834A CN 103744834 A CN103744834 A CN 103744834A CN 201310713989 A CN201310713989 A CN 201310713989A CN 103744834 A CN103744834 A CN 103744834A
Authority
CN
China
Prior art keywords
vocabulary
word
document
notional
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310713989.6A
Other languages
English (en)
Other versions
CN103744834B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310713989.6A priority Critical patent/CN103744834B/zh
Publication of CN103744834A publication Critical patent/CN103744834A/zh
Application granted granted Critical
Publication of CN103744834B publication Critical patent/CN103744834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种翻译任务准确分配的方法,包括:确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;根据每个所述待译文档的翻译量,将多个所述待译文档分割成多个翻译任务;所述分割的翻译任务的数量与待分配任务的译员的数量相等;将每个所述翻译任务分配给一个所述译员。本发明通过根据翻译难度和文本大小计算得到文档的翻译量,实现了翻译项目精确分割,解决的翻译任务平均分配的问题。

Description

一种翻译任务准确分配的方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种翻译任务准确分配的方法。
背景技术
一个大的翻译项目往往是由一个翻译团队协作来完成,对于团队协作完成的项目,项目进度和时间的管控是一个非常重要的环节,如何将一个翻译项目中的翻译任务合理分配给团队中的每一个成员,使得翻译项目能够在相同的时间内统一、并行完成,是翻译过程中需要解决的问题。要将翻译任务合理分配给译员翻译,需要明确每个翻译任务的翻译量,翻译任务翻译量的确定是由文档的翻译难度和文档的大小决定,文档的大小即文档的字数,这是一项易于统计的比较清楚的指标,所以对于翻译任务进行准确分配最需要解决的问题就是对文档翻译难度的判别。
对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断,目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对文档翻译难度的判别,还缺乏一个既高效又相对准确的判别方法。
发明内容
本发明旨在提供一种翻译任务准确分配的方法,解决了如何将翻译任务合理分配给合适的译员的问题。
本发明公开了一种翻译任务准分配的方法,包括:
确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;
根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;
根据每个所述待译文档的翻译量,将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务;
将每个所述翻译任务分配给一个所述译员。
优选地,所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积,其中待译文档的文本大小为待译文档的字数。
优选地,确定每个所述待译文档的所述翻译难度数值的过程包括:
扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;
按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度。
优选地,计算所述词汇复杂度的过程包括:
计算出文档的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
优选地,在计算所述文档的词汇等级之前,还包括:
对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordX为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
优选地,计算所述文档的类符形符比的过程包括;
根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
优选地,在计算所述文档的所述实义词词义密度之前,还包括:
对得到的所有所述词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
计算所述文档的所述实义词词义密度的过程包括:
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量。
优选地,在计算所述文档的所述语句复杂度之前,还包括:
通过确定所述文档中的整句数计算出整句的平均长度;
通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度;
通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度;
通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度;
计算所述文档的所述语句复杂度的过程包括:
按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
优选地,计算平均长度的过程包括:
将所述总词汇数除以所述整句数,得到所述整句的平均长度;
将所述总词汇数除以所述第一子句的数量,得到所述第一子句的平均长度;
统计每个所述长句的长度word_longi,1≤i≤count_long;其中,i为长句的序号;
按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均计算公式如下:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
其中,count_long为所述长句数;
按照第二类子句的平均长度计算公式计算得到所述第二类子句的平均长度;所述第二类子句的平均长度计算公式如下:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_clause_long为所述第二类子句的数量。
本发明中的分割方法,具有以下优点:
1、统一客观的计算出文档的翻译难度,提高了计算出的翻译难度的准确性;
2、将翻译任务按翻译量合理分配给合适译员,以保证翻译项目能够在一定的时间内统一、并行完成。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明公开了一种翻译项目准确分割的方法,包括:
S11、确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;
S12、根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;
S13、根据每个所述待译文档的翻译量,将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务;
S14、将每个所述翻译任务分配给一个所述译员。
基于上述方法,以下提供一个优选地实施例:
确定翻译项目中的若干个待译文档,即文档;以及每篇待译文档的文本大小和翻译难度数值;
其中,待译文档不应仅理解为一篇完整文档,还应理解为完整文档的碎片;
对每篇待译文档的文本大小和翻译难度数值的乘积,结果作为该待译文档的翻译量;
根据待译文档的翻译量,将翻译项目中的若干待译文档分割成多个翻译任务;
其中,可以按照项目组中的译员数量进行分割;
总翻译量为翻译任务中的待译文档的翻译量之和;
计算待译文档的翻译难度数值的过程包括:
1、计算该文档的词汇复杂度,过程如下:
对该文档进行分词处理,得到该文档中的所有词汇,其中术语“词汇”不应仅理解为英文单词,还应理解为具有字形结构的字,例如汉字、日文、韩文等;和/或具有字母形结构的单词,例如法文、俄文等;并且所有词汇应理解为包含有重复的词汇;
1)、计算文档的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计文档中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在文档中所占的比率,如下:
级别为二级的词汇所占比率为
Figure BDA0000443960080000081
级别为三级的词汇所占比率为
Figure BDA0000443960080000082
和级别为四级的词汇所占比率为
Figure BDA0000443960080000083
按照词汇等级计算公式进行计算得到文档的词汇等级;公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,grade_word为词汇等级,K111、K112和K113为给定样本所计算出的词汇等级调节系数,属于第三级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令:Y=grade_word, X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word ,
对于采集到的n组样本数据:
{ X 11 , X 12 , X 13 } ; { X 21 , X 22 , X 23 } ; . . ; . { X n 1 , X n 2 , X n 3 } ;
对应给出专家评定出的词汇等级: Y 1 Y 2 . . . Y n ;
由此可以获得以下线性方程组:
Y 1 = K 111 · X 11 + K 112 · X 12 + K 113 · X 13 ; Y 2 = K 111 · X 21 + K 112 · X 22 + K 113 · X 23 ; . . ; . Y n = K 111 · X n 1 + K 112 · X n 2 + K 113 · X 23 ;
得到:
K 111 K 112 K 113 = ( X ′ X ) - 1 X ′ Y ;
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 . . . X n 1 X n 2 X n 3 , Y = Y 1 Y 2 . . . Y n , X′为X的转置矩阵。
2)、计算文档的标准类符形符比:
统计文档中的形符,即文档中出现的总词汇数;
统计文档中的类符,即文档中出现的不相同的词汇数;
类符形符比(TTR)代表了词汇变化率,和文档汇总词汇的丰富程度。TTR的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST(比如ST取值1000)个词汇为单位进行TTR计算,最后将所有TTR的均值作为最终取值,即标准类符形符比(STTR,StandardTTR)。不足标准数量的文档,直接进行TTR计算。具体如下:
将文档的所有词汇按照标准数量ST划分为n个第一子文档,每个第一子文档中具有类符的数量为typei;其中i为第一子文档的序号;
或还包括一个词汇数量不足ST的第二子文档;第二子文档中的类符为type个和形符为token个
按照标准类符形符比计算公式计算得到文档的标准类符形符比;公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
3)、计算文档的实义词词义密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
统计文档中实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到文档的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,density_notional为实义词词义密度,为实义词的总义项数;
其中,计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序,可以分别计算,也可以同时计算。
4)根据文档的词汇等级、标准类符形符比和实义词词义密度,计算出文档的词汇复杂度:
按照词汇复杂度计算公式计算出文档的词汇复杂度;公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word为词汇复杂度,grade_word为词汇等级,STTR为标准类符形符比,density_notional为实义词词义密度;K11、K12和K13为给定样本所计算出的词汇复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
2、计算文档的语句复杂度,具体如下:
术语“整句”应该理解为表达了完整的意思的词汇集合,例如:文档首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
术语“长句”应该理解为词汇数量大于预定阈值的整句;
本文中的第一类和第二类只用于区分。
方案具体如下:
扫描文档,确定文档中的所有整句,并统计整句的总数,记作count_sentence;
将词汇数量大于预定阈值的整句作为长句,并统计长句的总数,记作count_long和每个长句中的词汇数量,记作word_longi,1≤i≤count_long;i为长句的序号;
整句中的子句为第一类子句,统计第一类子句的总数,记作count_clause;
长句中的子句为第二类子句,统计第二类子句的总数,记作count_clause_long;
分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度;如下:
整句的平均长度(MLS,mean length of sentence),计算方法为:MLS=word/count_sentence;
第一类子句的平均长度(MLC,mean length of clause),计算方法为:MLC=word/count_clause;
长句的平均长度(MLL,mean length of long sentence),计算方法为:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
第二类子句的平均长度(MLCL,mean length of clause of longsentence),计算方法为:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
按照语句复杂度计算公式计算得到语句复杂度;语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
K21、K22、K23、K24为通过所采集样本计算出的语句难度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
3、计算文档的翻译难度数值;
根据获取的文档的词汇复杂度和语句复杂度,按照翻译难度计算公式计算得到文档的翻译难度数值;公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
K1、K2为通过所采集样本计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种翻译任务准确分配的方法,其特征在于,包括:
确定多个待译文档中的每个所述待译文档的文本大小和翻译难度数值;
根据每个所述待译文档的所述文本大小和翻译难度数值进行计算,得到每个所述待译文档的翻译量;
根据每个所述待译文档的翻译量,将多个所述待译文档按照待分配任务的译员的数量分割成多个翻译任务;
将每个所述翻译任务分配给一个所述译员。
2.根据权利要求1所述的方法,其特征在于,所述待译文档的翻译量为该待译文档的文本大小与翻译难度数值的乘积,其中待译文档的文本大小为待译文档的字数。
3.根据权利要求1所述的方法,其特征在于,确定每个所述待译文档的所述翻译难度数值的过程包括:
扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;
按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度。
4.根据权利要求3所述的方法,其特征在于,计算所述词汇复杂度的过程包括:
计算出文档的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
5.根据权利要求4所述的方法,其特征在于,在计算所述文档的词汇等级之前,还包括:
对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordX为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
6.根据权利要求5所述的方法,其特征在于,计算所述文档的类符形符比的过程包括;
根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
7.根据权利要求4所述的方法,其特征在于,在计算所述文档的所述实义词词义密度之前,还包括:
对得到的所有所述词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
计算所述文档的所述实义词词义密度的过程包括:
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量。
8.根据权利要求3的方法,其特征在于,在计算所述文档的所述语句复杂度之前,还包括:
通过确定所述文档中的整句数计算出整句的平均长度;
通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度;
通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度;
通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度;
计算所述文档的所述语句复杂度的过程包括:
按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
9.根据权利要求8所述的方法,其特征在于,计算平均长度的过程包括:
将所述总词汇数除以所述整句数,得到所述整句的平均长度MLS;
将所述总词汇数除以所述第一类子句的数量,得到所述第一类子句的平均长度MLC;
统计每个所述长句的长度word_longi,1≤i≤count_long;其中,i为长句的序号;
按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均计算公式如下:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
其中,count_long为所述长句数;
按照第二类子句的平均长度计算公式计算得到所述第二类子句的平均长度;所述第二类子句的平均长度计算公式如下:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_clause_long为所述第二类子句的数量。
CN201310713989.6A 2013-12-23 2013-12-23 一种翻译任务准确分配的方法 Active CN103744834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310713989.6A CN103744834B (zh) 2013-12-23 2013-12-23 一种翻译任务准确分配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310713989.6A CN103744834B (zh) 2013-12-23 2013-12-23 一种翻译任务准确分配的方法

Publications (2)

Publication Number Publication Date
CN103744834A true CN103744834A (zh) 2014-04-23
CN103744834B CN103744834B (zh) 2016-08-17

Family

ID=50501852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310713989.6A Active CN103744834B (zh) 2013-12-23 2013-12-23 一种翻译任务准确分配的方法

Country Status (1)

Country Link
CN (1) CN103744834B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537009A (zh) * 2014-12-17 2015-04-22 语联网(武汉)信息技术有限公司 译员推荐方法及装置
CN104699670A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文件拆分的方法及装置
CN104699669A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文本字数统计的方法及装置
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN106302579A (zh) * 2015-05-20 2017-01-04 无锡天脉聚源传媒科技有限公司 一种任务的分发方法及服务器
CN106339802A (zh) * 2016-08-24 2017-01-18 深圳市讯方技术股份有限公司 任务分配的方法和装置、电子设备
CN104008094B (zh) * 2014-05-22 2017-08-11 武汉传神信息技术有限公司 一种获得文档翻译难度的方法
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1441402A (zh) * 2003-04-03 2003-09-10 上海交通大学 跨语种语音信息交流方法
JP2004310411A (ja) * 2003-04-07 2004-11-04 Internatl Business Mach Corp <Ibm> 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
CN103257958A (zh) * 2012-02-16 2013-08-21 中兴通讯股份有限公司 一种基于云存储的翻译方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1441402A (zh) * 2003-04-03 2003-09-10 上海交通大学 跨语种语音信息交流方法
JP2004310411A (ja) * 2003-04-07 2004-11-04 Internatl Business Mach Corp <Ibm> 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
CN103257958A (zh) * 2012-02-16 2013-08-21 中兴通讯股份有限公司 一种基于云存储的翻译方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐彬 等: "计算机辅助下的翻译协作", 《山东外语教学》, 15 August 2008 (2008-08-15) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008094B (zh) * 2014-05-22 2017-08-11 武汉传神信息技术有限公司 一种获得文档翻译难度的方法
CN104537009A (zh) * 2014-12-17 2015-04-22 语联网(武汉)信息技术有限公司 译员推荐方法及装置
CN104537009B (zh) * 2014-12-17 2017-09-29 武汉传神信息技术有限公司 译员推荐方法及装置
CN104699670A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文件拆分的方法及装置
CN104699669A (zh) * 2015-03-31 2015-06-10 中译语通科技(北京)有限公司 一种文本字数统计的方法及装置
CN106302579A (zh) * 2015-05-20 2017-01-04 无锡天脉聚源传媒科技有限公司 一种任务的分发方法及服务器
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN105224524B (zh) * 2015-09-02 2022-01-25 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN106339802A (zh) * 2016-08-24 2017-01-18 深圳市讯方技术股份有限公司 任务分配的方法和装置、电子设备
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN111488743A (zh) * 2020-04-10 2020-08-04 苏州七星天专利运营管理有限责任公司 一种文本辅助处理方法和系统
CN112784613A (zh) * 2021-01-29 2021-05-11 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质
WO2022160819A1 (zh) * 2021-01-29 2022-08-04 语联网(武汉)信息技术有限公司 文档批量翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103744834B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN103744834A (zh) 一种翻译任务准确分配的方法
US8356025B2 (en) Systems and methods for detecting sentiment-based topics
Tratz et al. A taxonomy, dataset, and classifier for automatic noun compound interpretation
Fournier Evaluating text segmentation using boundary edit distance
CN103729421A (zh) 一种译员文档精确匹配的方法
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN101393545A (zh) 一种利用关联模型实现自动摘要的方法
CN109062895B (zh) 一种智能语义处理方法
CN106779455A (zh) 一种翻译项目的风险评估方法及系统
CN108073571A (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108399165A (zh) 一种基于位置加权的关键词抽取方法
CN103744840A (zh) 一种文档翻译难度的分析方法
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
CN103729348B (zh) 一种语句翻译复杂度的分析方法
Glaser et al. Sentence Boundary Detection in German Legal Documents.
CN109241276A (zh) 文本中词语分类方法、言语创造性评价方法和系统
CN103699675A (zh) 一种译员分级索引的方法
KR100583174B1 (ko) 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템
CN113743085B (zh) 一种文本质量评价系统及方法
CN103714051A (zh) 一种待译文档的预处理方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
Nisioi et al. A clustering approach for translationese identification
CN106681982B (zh) 英文长篇小说摘要生成方法
CN106528550A (zh) 一种译员翻译能力的评价方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee before: Wuhan Transn Information Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method for accurately distributing translation tasks

Effective date of registration: 20181115

Granted publication date: 20160817

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20160817

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061