CN103729421A - 一种译员文档精确匹配的方法 - Google Patents

一种译员文档精确匹配的方法 Download PDF

Info

Publication number
CN103729421A
CN103729421A CN201310712040.4A CN201310712040A CN103729421A CN 103729421 A CN103729421 A CN 103729421A CN 201310712040 A CN201310712040 A CN 201310712040A CN 103729421 A CN103729421 A CN 103729421A
Authority
CN
China
Prior art keywords
vocabulary
word
document
notional
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310712040.4A
Other languages
English (en)
Other versions
CN103729421B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310712040.4A priority Critical patent/CN103729421B/zh
Publication of CN103729421A publication Critical patent/CN103729421A/zh
Application granted granted Critical
Publication of CN103729421B publication Critical patent/CN103729421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种译员文档精确匹配的方法,包括:扫描待译文档,确定所述待译文档中的所有词汇和所有语句;根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值;根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。本发明通过提供一种文档的翻译难度的计算方法,准确的计算出待译文档的翻译难度,分配给合适的译员,合理的实现资源配置。

Description

一种译员文档精确匹配的方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种译员文档精确匹配的方法。
背景技术
在翻译流程中,为待译文档选择合适的译员是其中最重要的一个环节。为保证译文的翻译质量,首先要求译员的翻译能力足以胜任的待译文档的翻译难度,其次从性价比的角度考虑,也要求译员的翻译能力不要过于超出待译文档的翻译难度,以使得翻译质量和翻译代价之比最优。译员的翻译能力是一个动态的能力值,对于翻译企业来说,译员的翻译能力值是通过译员在不断的翻译生产过程中所得到的一个加权评分值,相对来说是个固定的可获取的能力值,但待译文档的翻译难度的判定则需要根据每篇文档的具体情况而定。对于文档翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待翻译文档进行标注和判断,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对文档难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对文档进行翻译难度判断,目前最常用的方法是通过对文档中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对文档翻译难度的判别,还缺乏一个既高效又相对准确的判别方法,从而保证译员文档能够进行快速准确的匹配。
发明内容
本发明旨在提供一种译员文档精确匹配的方法,解决了如何将文档分配给合适的译员的问题。
本发明公开了一种译员文档精确匹配的方法,包括:
扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;
根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值;
根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。
优选地,计算所述文档的词汇复杂度的过程包括:
计算出文档的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
优选地,在计算所述文档的词汇等级之前,还包括:
对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
优选地,在计算所述文档的类符形符比的过程包括;
根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
优选地,在计算所述文档的所述实义词词义密度之前,还包括:
对得到的所有所述词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,
Figure BDA0000443898040000042
为所述实义词的义项总数,count_notional为所述实义词的数量。
优选地,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词。
优选地,在计算所述文档的所述语句复杂度之前,还包括:
通过确定所述文档中的整句数计算出整句的平均长度;
通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度;
通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度;
通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度;
计算所述文档的所述语句复杂度的过程包括:
按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
优选地,计算所述整句和所述第一类子句的平均长度的过程包括:
将所述总词汇数除以所述整句数,得到所述整句的平均长度;
将所述总词汇数除以所述第一类子句的数量,得到所述第一类子句的平均长度。
优选地,计算所述长句和所述第二类子句的平均长度的过程包括:
统计每个所述长句的长度word_longi,1≤i≤count_long;其中,i为长句的序号;
按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均长度计算公式如下:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
其中,count_long为所述长句数;
按照第二类子句的平均长度计算公式计算得到所述第二子句的平均长度;所述第二类子句的平均长度计算公式如下:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_clause_long为所述第二类子句的数量。
优选地,所述文档的翻译难度数值的计算过程包括:
按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,K1和K2为通过样本计算得到翻译难度调节系数。
本发明中的文档翻译难度的计算方法,具有以下优点:
1、统一客观的计算出文档的翻译难度,提高了计算出的翻译难度的准确性;
2、可用于向译员分配翻译任务,合理是实现资源的优化配置。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本技术方案从2个方面来进行待译文档翻译难度的计算:词汇复杂度和语句复杂度,根据待译文档的词汇复杂度和语句复杂度来确定待译文档的翻译难度,具体包括
S11、分别计算出文档的词汇复杂度和语句复杂度;
S12、根据计算出的所述文档的所述词汇复杂度和所述语句复杂度进行难度计算,得到所述文档的翻译难度。
基于上述方法,以下提供一个优选地实施例:
确定待译文档,即文档;
1、计算该文档的词汇复杂度,过程如下:
对该文档进行分词处理,得到该文档中的所有词汇,其中术语“词汇”不应仅理解为英文单词,还应理解为具有字形结构的字,例如汉字、日文、韩文等;和/或具有字母形结构的单词,例如法文、俄文等;并且所有词汇应理解为包含有重复的词汇;
1)、计算文档的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计文档中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在文档中所占的比率,如下:
级别为二级的词汇所占比率为
Figure BDA0000443898040000071
级别为三级的词汇所占比率为和级别为四级的词汇所占比率为
Figure BDA0000443898040000073
按照词汇等级计算公式进行计算得到文档的词汇等级;公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,grade_word为词汇等级,K111、K112和K113为给定样本所计算出的词汇等级调节系数,属于第三级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令:Y=grade_word, X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word ;
对于采集到的n组样本数据:
{X11,X12,X13};
{X21,X22,X23};
Figure BDA0000443898040000077
{Xn1,Xn2,Xn3};
对应给出专家评定出的词汇等级: Y 1 Y 2 · · · Y n ;
由此可以获得以下线性方程组:
Y1=K111·X11+K112·X12+K113·X13
Y2=K111·X21+K112·X22+K113·X23
Figure BDA0000443898040000083
Yn=K111·Xn1+K112·Xn2+K113·Xn3
得到:
K 111 K 112 K 113 = ( X ′ X ) - 1 X ′ Y ;
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 · · · X n 1 X n 2 X n 3 , Y = Y 1 Y 2 · · · Y n , X′为X的转置矩阵。
2)、计算文档的标准类符形符比:
统计文档中的形符,即文档中出现的总词汇数;
统计文档中的类符,即文档中出现的不相同的词汇数;
类符形符比(TTR)代表了词汇变化率,和文档汇总词汇的丰富程度。TTR的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST(比如ST取值1000)个词汇为单位进行TTR计算,最后将所有TTR的均值作为最终取值,即标准类符形符比(STTR,StandardTTR)。不足标准数量的文档,直接进行TTR计算。具体如下:
将文档的所有词汇按照标准数量ST划分为n个第一子文档,每个第一子文档中具有类符的数量为typei;其中i为第一子文档的序号;
或还包括一个词汇数量不足ST的第二子文档;第二子文档中的类符为type个和形符为token个
按照标准类符形符比计算公式计算得到文档的标准类符形符比;公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
3)、计算文档的实义词词义密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
统计文档中实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到文档的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,density_notional为实义词词义密度,
Figure BDA0000443898040000093
为实义词的总义项数;
其中,计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序,可以分别计算,也可以同时计算。
4)根据文档的词汇等级、标准类符形符比和实义词词义密度,计算出文档的词汇复杂度:
按照词汇复杂度计算公式计算出文档的词汇复杂度;公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word为词汇复杂度,grade_word为词汇等级,STTR为标准类符形符比,density_notional为实义词词义密度;K11、K12和K13为给定样本所计算出的词汇复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
2、计算文档的语句复杂度,具体如下:
术语“整句”应该理解为表达了完整的意思的词汇集合,例如:文档首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
术语“长句”应该理解为词汇数量大于预定阈值的整句;
并且本文中的第一类和第二类只用于区分。
方案具体如下:
扫描文档,确定文档中的所有整句,并统计整句的总数,记作count_sentence;
将词汇数量大于预定阈值的整句作为长句,并统计长句的总数,记作count_long和每个长句中的词汇数量,记作word_longi,1≤i≤count_long;i为长句的序号;
整句中的子句为第一类子句,统计第一类子句的总数,记作count_clause;
长句中的子句为第二类子句,统计第二类子句的总数,记作count_clause_long;
分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度;如下:
整句的平均长度(MLS,mean length of sentence),计算方法为:MLS=word/count_sentence;
第一类子句的平均长度(MLC,mean length of clause),计算方法为:MLC=word/count_clause;
长句的平均长度(MLL,mean length of long sentence),计算方法为:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
第二类子句的平均长度(MLCL,mean length of clause of longsentence),计算方法为:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
按照语句复杂度计算公式计算得到语句复杂度;语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
K21、K22、K23、K24为通过所采集样本计算出的语句难度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
3、计算文档的翻译难度数值;
根据获取的文档的词汇复杂度和语句复杂度,按照翻译难度计算公式计算得到文档的翻译难度数值;公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
K1、K2为通过所采集样本计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
4、文档译员匹配;
根据文档的翻译难度数值与数据库中的译员的翻译能力等级进行匹配,将待译文档分配给与其匹配成功的译员进行翻译。
数据库中包含有大量的译员信息,其中译员信息中包含有该译员的翻译能力等级;
该翻译能力等级根据译员的翻译特长、翻译质量和翻译速度通过进行学习或训练运算得到。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种译员文档精确匹配的方法,其特征在于,包括:
扫描待译文档,确定所述待译文档中的所有词汇和所有语句;
根据确定的所述词汇和语句分别进行复杂度计算,得到文档的词汇复杂度和语句复杂度;
根据所述文档的所述词汇复杂度和所述文档复杂度计算得到所述文档的翻译难度数值;
根据所述待译文档的所述翻译难度数值在数据库中与译员具有的翻译能力等级进行匹配,匹配出与所述待译文档的翻译难度数值对应的译员。
2.根据权利要求1所述的方法,其特征在于,计算所述文档的词汇复杂度的过程包括:
计算出文档的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述文档的所述词汇复杂度,所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
3.根据权利要求2所述的方法,其特征在于,在计算所述文档的词汇等级之前,还包括:
对所述文档进行分词处理,得到所有词汇,并统计得到总词汇数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
4.根据权利要求3所述的方法,其特征在于,在计算所述文档的类符形符比的过程包括;
根据得到的所有所述词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
5.根据权利要求3所述的方法,其特征在于,在计算所述文档的所述实义词词义密度之前,还包括:
对得到的所有所述词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的义项数,count_notional为所述实义词的数量。
6.根据权利要求5所述的方法,其特征在于,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词。
7.根据权利要求2所述的方法,其特征在于,在计算所述文档的所述语句复杂度之前,还包括:
通过确定所述文档中的整句数计算出整句的平均长度;
通过确定所述文档中的所有所述整句中的第一类子句的数量计算出整句中的第一类子句的平均长度;
通过确定所述文档中的长句数及每个长句的长度计算出长句的平均长度;
通过确定所述文档中的所有所述长句中的第二类子句的数量计算出长句中的第二类子句的平均长度;
计算所述文档的所述语句复杂度的过程包括:
按照语句复杂度计算公式计算得出所述文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
8.根据权利要求7所述的方法,其特征在于,计算所述整句和所述第一子句的平均长度的过程包括:
将所述总词汇数除以所述整句数,得到所述整句的平均长度MLS;
将所述总词汇数除以所述第一类子句的数量,得到所述第一类子句的平均长度MLC。
9.根据权利要求7所述的方法,其特征在于,计算所述长句和所述第二类子句的平均长度的过程包括:
统计每个所述长句的长度word_longi,1≤i≤count_long;其中,i为长句的序号;
按照长句的平均长度计算公式计算得到所述长句的平均长度;所述长句的平均长度计算公式如下:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
其中,count_long为所述长句数;
按照第二类子句的平均长度计算公式计算得到所述第二类子句的平均长度;所述第二类子句的平均长度计算公式如下:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_clause_long为所述第二类子句的数量。
10.根据权利要求1所述的方法,其特征在于,所述文档的翻译难度数值的计算过程包括:
按照翻译难度计算公式计算得到所述文档的翻译难度数值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度数值。
CN201310712040.4A 2013-12-23 2013-12-23 一种译员文档精确匹配的方法 Active CN103729421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310712040.4A CN103729421B (zh) 2013-12-23 2013-12-23 一种译员文档精确匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310712040.4A CN103729421B (zh) 2013-12-23 2013-12-23 一种译员文档精确匹配的方法

Publications (2)

Publication Number Publication Date
CN103729421A true CN103729421A (zh) 2014-04-16
CN103729421B CN103729421B (zh) 2018-03-16

Family

ID=50453495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310712040.4A Active CN103729421B (zh) 2013-12-23 2013-12-23 一种译员文档精确匹配的方法

Country Status (1)

Country Link
CN (1) CN103729421B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105083761A (zh) * 2014-11-21 2015-11-25 上海艾尔贝包装科技发展有限公司 空气包装装置的自动售卖装置及其方法
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105160025A (zh) * 2015-09-30 2015-12-16 武汉传神信息技术有限公司 一种稿件推送方法
CN104008094B (zh) * 2014-05-22 2017-08-11 武汉传神信息技术有限公司 一种获得文档翻译难度的方法
CN109740435A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种图片类文件复杂度判定方法及平台
CN109740434A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种文档类文件复杂度判定方法及平台
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王家义: "译文分析的语料库途径", 《外语学刊》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008094B (zh) * 2014-05-22 2017-08-11 武汉传神信息技术有限公司 一种获得文档翻译难度的方法
CN105083761A (zh) * 2014-11-21 2015-11-25 上海艾尔贝包装科技发展有限公司 空气包装装置的自动售卖装置及其方法
CN105138521A (zh) * 2015-08-27 2015-12-09 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105138521B (zh) * 2015-08-27 2017-12-22 武汉传神信息技术有限公司 一种翻译行业风险项目通用推荐译员方法
CN105160025A (zh) * 2015-09-30 2015-12-16 武汉传神信息技术有限公司 一种稿件推送方法
CN109740435A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种图片类文件复杂度判定方法及平台
CN109740434A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种文档类文件复杂度判定方法及平台
CN112598231A (zh) * 2020-12-11 2021-04-02 四川语言桥信息技术有限公司 稿件分配方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN103729421B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN103744834B (zh) 一种翻译任务准确分配的方法
CN103729421A (zh) 一种译员文档精确匹配的方法
CN111104789B (zh) 文本评分方法、装置和系统
CN105843897A (zh) 一种面向垂直领域的智能问答系统
JP2008282366A (ja) 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体
CN108073571A (zh) 一种多语言文本质量评估方法及系统、智能文本处理系统
CN106779455A (zh) 一种翻译项目的风险评估方法及系统
Walker 20 Variation analysis
Kiyomarsi et al. Optimizing persian text summarization based on fuzzy logic approach
CN103744840B (zh) 一种文档翻译难度的分析方法
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN103699675B (zh) 一种译员分级索引的方法
Pickard Comparing word2vec and GloVe for automatic measurement of MWE compositionality
CN115859962B (zh) 一种文本可读性评估方法和系统
Abe Frequency change patterns across proficiency levels in Japanese EFL learner speech
CN111027314A (zh) 一种基于语篇的人物属性抽取方法
CN103714051B (zh) 一种待译文档的预处理方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN103761226A (zh) 按文档的字符属性碎片化的方法
BAZRFKAN et al. Using machine learning methods to summarize persian texts
Søyland et al. Party polarization and parliamentary speech
CN103729350B (zh) 多维度待译文档的预处理方法
Ratna et al. K-means clustering for answer categorization on latent semantic analysis automatic Japanese short essay grading system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

COR Change of bibliographic data
CB02 Change of applicant information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Translator precision document matching method

Effective date of registration: 20181115

Granted publication date: 20180316

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20180316

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061