CN103699675A - 一种译员分级索引的方法 - Google Patents

一种译员分级索引的方法 Download PDF

Info

Publication number
CN103699675A
CN103699675A CN201310749990.4A CN201310749990A CN103699675A CN 103699675 A CN103699675 A CN 103699675A CN 201310749990 A CN201310749990 A CN 201310749990A CN 103699675 A CN103699675 A CN 103699675A
Authority
CN
China
Prior art keywords
mrow
word
vocabulary
level
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310749990.4A
Other languages
English (en)
Other versions
CN103699675B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310749990.4A priority Critical patent/CN103699675B/zh
Publication of CN103699675A publication Critical patent/CN103699675A/zh
Application granted granted Critical
Publication of CN103699675B publication Critical patent/CN103699675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种译员分级索引的方法,包括:确定归属同一用户ID的多篇译后文档;确定每篇所述译后文档的语句参数和词汇参数,根据所述参数计算出相对应的归一系数;根据所述归一系数在等级标识数据库中匹配相应的级别;建立所述级别与所述用户ID的关联关系;根据所述关联关系,以所述级别作为索引词建立所述用户ID的索引关系。本发明基于统一标准,准确的找到译员翻译能力的级别,提高了评定的准确性、一致性以及评定的效率,解决了快速、准确的检索出合适译员的问题。

Description

一种译员分级索引的方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种译员分级索引的方法。
背景技术
为将待翻译的文档分配给合适的译员,一个需考虑的重要因素是文档的翻译难度和译员翻译能力的匹配问题,所以对于翻译行业或翻译公司来说,确定译员的翻译能力和翻译等级是一件非常重要的工作。一般对于译员的翻译能力进行判断,是通过标准测试+专家评分的机制进行,即提供标准的测试文档给待测译员进行翻译,然后通过专家对译员的翻译文档进行评分,根据多篇测试文档的评分值,从而得到译员的翻译能力分值,根据译员的能力分值给定相应的翻译等级,这种评测相对比较主观,并没有客观的考虑译员翻译过的稿件中的字符参数。同时这种测试方法由于无法做到实时性,给出的译员的翻译等级相对译员的翻译能力也会有一定滞后。
不同的译员翻译的词汇和语句不同,目前在为每个译员分配任务时,采用的是主观的分配,并没有客观的考虑待译稿件的字符的参数与译员翻译过的稿件中的字符参数是否匹配,这种匹配也是影响稿件的翻译质量的因素之一。
发明内容
本发明旨在提供一种译员分级索引的方法,解决了由于没有客观的根据译员的译后稿件中的字符参数确定译员翻译等级,影响译员分级检索的问题。
本发明公开了一种译员分级索引的方法,包括:
确定归属同一用户ID的多篇译后文档;
确定每篇所述译后文档的语句参数和词汇参数,根据所述参数计算出相对应的归一系数;
根据所述归一系数在等级标识数据库中匹配相应的级别;
建立所述级别与所述用户ID的关联关系;
根据所述关联关系,以所述级别作为索引词建立所述用户ID的索引关系。
优选地,在建立了所述级别与所述用户ID的关联关系后,还包括:
在一定的时间阀值范围内,重新确定所述用户ID的多篇译后文档;
重新建立所述级别与所述用户ID的关联关系,以用于实时更新所述用户ID的索引关系。
优选地,所述语句参数为语句复杂度;
计算所述语句复杂度的过程包括:
分析出所述译后文档的整句的平均长度、所述整句中的第一类子句的平均长度、长句的平均长度和所述长句中的第二类子句的平均长度;
按照语句复杂度计算公式计算,得到所述译后文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,diff_sentence为语句复杂度,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
优选地,所述词汇参数为词汇复杂度;
计算所述词汇复杂度的过程包括:
分析出所述译后文档中的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述译后文档的词汇复杂度;所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional
其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
优选地,分析所述译后文档的词汇等级的过程包括:
对所述译后文档进行分词处理,得到所述译后文档中的所有词汇,并统计词汇总数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
优选地,分析所述译后文档的所述类符形符比的过程包括:
确定所述译后文档中的所有词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
优选地,分析所述译后文档的实义词词义密度的过程包括:
确定所述译后文档中的所有词汇,对每个词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meaning s i Σ i = 1 count _ notional meaning s i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的义项数,count_notional为所述实义词的数量。
优选地,所述归一系数为翻译能力分值;
计算所述翻译能力分值的过程包括:
根据每个所述译后文档的语句复杂度和词汇复杂度进行计算,得到所述译后文档的翻译难度值;
求出所有所述译后文档的所述翻译难度值的平均值作为所述翻译能力分值。
优选地,所述翻译难度值的计算过程包括:
按照翻译难度计算公式计算得到所述译后文档的翻译难度值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence
其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度值。
本发明中的译员专业翻译能力的分析方法,具有以下优点:
1、统一客观找到译员专业翻译能力的级别;
2、根据译员的翻译能力分级索引可以快速、准确的检索出合适译员;
3、与传统通过译员测试并建立索引关系相比,提高了的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本发明提出一种译员的分级索引的方法,即通过对译员既往已翻译合格的文档进行难度分析,从而得到译员翻译能力的分值,根据得到的能力分值实时更新译员翻译等级索引关系,从而解决了快速、准确的检索出合适译员的问题,包括:
S11、确定归属同一用户ID的多篇译后文档;
S12、确定每篇所述译后文档的语句参数和词汇参数,根据所述参数计算出相对应的归一系数;
S13、根据所述归一系数在等级标识数据库中匹配相应的级别;
S14、建立所述级别与所述用户ID的关联关系;
S15、根据所述关联关系,以所述级别作为索引词建立所述用户ID的索引关系
基于上述方法,以下提供一个优选地实施例:
1、提取归属同一用户ID的多篇译后文档;该多篇译后文档为译员在一定时间段内(例如前X月,前Y日)所有通过审校的稿件;
2、计算每篇译后文档的翻译难度值,具体如下处理:
确定译后文档,即下文中出现的文档;
2.1、计算该文档的词汇复杂度,过程如下:
对该文档进行分词处理,得到该文档中的所有词汇,其中术语“词汇”不应仅理解为英文单词,还应理解为具有字形结构的字,例如汉字、日文、韩文等;和/或具有字母形结构的单词,例如法文、俄文等;并且所有词汇应理解为包含有重复的词汇;
1)、计算文档的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计文档中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在文档中所占的比率,如下:
级别为二级的词汇所占比率为
Figure BDA0000449978400000071
级别为三级的词汇所占比率为
Figure BDA0000449978400000072
和级别为四级的词汇所占比率为
按照词汇等级计算公式进行计算得到文档的词汇等级;公式如下:
grad e _ word - K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,grade_word为词汇等级,K111、K112和K113为给定样本所计算出的词汇等级调节系数,属于第三级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令: Y = grad e _ word , X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word ;
对于采集到的n组样本数据:
{X11,X12,X13};
{X21,X22,X23};
       .
       .;
       .
{Xn1,Xn2,Xn3};
对应给出通过样本数据经过运算得到的词汇等级: Y 1 Y 2 . . . Y n ;
由此可以获得以下线性方程组:
Y1=K111·X11+K112·X12+K113·X13
Y2=K111·X21+K112·X22+K113·X23
              .
              .;
              .
Yn=K111·Xn1+K112·Xn2+K113·Xn3
得到:
K 111 K 112 K 113 = ( X ′ X ) - 1 X ′ Y ;
其中, X = X 11 X 12 X 13 X 21 X 22 X 223 . . . X n 1 X n 2 X n 3 , Y = Y 1 Y 2 . . . Y n , X′为X的转置矩阵。
得到的调节系数通过大量样本数据进行计算,得到的可忽略人为因素的客观数据,得到的调节系数之间同时具有关联性。
2)、计算文档的标准类符形符比:
统计文档中的形符,即文档中出现的总词汇数;
统计文档中的类符,即文档中出现的不相同的词汇数;
类符形符比(TTR)代表了词汇变化率,和文档汇总词汇的丰富程度。TTR的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真。因此实际处理可以按每标准数量ST(比如ST取值1000)个词汇为单位进行TTR计算,最后将所有TTR的均值作为最终取值,即标准类符形符比(STTR,StandardTTR)。不足标准数量的文档,直接进行TTR计算。具体如下:
将文档的所有词汇按照标准数量ST划分为n个第一子文档,每个第一子文档中具有类符的数量为typei;其中i为第一子文档的序号;
还包括一个词汇数量不足ST的第二子文档;第二子文档中的类符为type个和形符为token个
按照标准类符形符比计算公式计算得到文档的标准类符形符比;公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
3)、计算文档的实义词词义密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
统计文档中实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到文档的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meaning s i Σ i = 1 count _ notional meaning s i + ( word - count _ notional ) ;
其中,density_notional为实义词词义密度,meaningsi为实义词的总义项数;
其中,计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序,可以分别计算,也可以同时计算。
4)根据文档的词汇等级、标准类符形符比和实义词词义密度,计算出文档的词汇复杂度(即词汇参数):
按照词汇复杂度计算公式计算出文档的词汇复杂度;公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional;
其中,diff_word为词汇复杂度,grade_word为词汇等级,STTR为标准类符形符比,density_notional为实义词词义密度;K11、K12和K13为给定样本所计算出的词汇复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
2.2、计算文档的语句复杂度(即语句参数),具体如下:
术语“整句”应该理解为表达了完整的意思的词汇集合,例如:文档首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
术语“长句”应该理解为词汇数量大于预定阈值的整句;
本文所使用的第一类和第二类只用于区分。
方案具体如下:
扫描文档,确定文档中的所有整句,并统计整句的总数,记作count_sentence;
将词汇数量大于预定阈值的整句作为长句,并统计长句的总数,记作count_long和每个长句中的词汇数量,记作word_longi,1≤i≤count_long;i为长句的序号;
整句中的子句为第一类子句,统计第一类子句的总数,记作count_clause;
长句中的子句为第二类子句,统计第二类子句的总数,记作count_clause_long;
分别计算整句的平均长度、长句的平均长度、第一类子句的平均长度和第二类子句的平均长度;如下:
整句的平均长度(MLS,mean length of sentence),计算方法为:MLS=word/count_sentence;
第一类子句的平均长度(MLC,mean length of clause),计算方法为:MLC=word/count_clause;
长句的平均长度(MLL,mean length of long sentence),计算方法为:
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i ;
第二类子句的平均长度(MLCL,mean length of clause of longsentence),计算方法为:
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ lo ng i ;
按照语句复杂度计算公式计算得到语句复杂度;语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
K21、K22、K23、K24为通过所采集样本计算出的语句难度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
2.3、计算文档的翻译难度值;
根据获取的文档的词汇复杂度和语句复杂度,按照翻译难度计算公式计算得到文档的翻译难度值;公式如下:
diff_doc=K1·diff_word+K2·diff_sentence;
K1、K2为通过所采集样本计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。
3、确定译员专业翻译能力的分值(即归一系数);
对多篇已翻译文档的翻译难度值求和,并算出翻译难度值的平均值,作为译员专业翻译能力的分值。
4、确定级别、建立索引;
将译员专业翻译能力的分值在等级标识数据库中进行匹配,得到与所述分值匹配的级别;
对所述用户ID与匹配得到的级别建立关联关系。
并根据所述关联关系,以所述级别作为索引词建立用户ID与级别的索引关系;其中,该索引关系可以表示为索引表、数据链路等。
例如:用户数据库中包含有10个用户ID,分别为01、02、03、04、05、06、07、08、09和10;
其中,01、03和04的级别为一级,02、05和08的级别为二级,06、07、09和10的级别为三级;
通过以“三级”为索引词进行检索,可以找到级别为三级的用户ID包括:06、07、09和10;
5、更新索引;
确定了关联关系后,在一定的时间阀值范围内,重新确定所述用户ID的多篇译后文档;例如:每间隔时间t后,重新在选取在设定的时间段内的译后稿件。
根据上述方法,重新建立所述级别与所述用户ID的关联关系,以用于实时更新所述用户ID的索引关系。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种译员分级索引的方法,其特征在于,包括:
确定归属同一用户ID的多篇译后文档;
确定每篇所述译后文档的语句参数和词汇参数,根据所述参数计算出相对应的归一系数;
根据所述归一系数在等级标识数据库中匹配相应的级别;
建立所述级别与所述用户ID的关联关系;
根据所述关联关系,以所述级别作为索引词建立所述用户ID的索引关系。
2.根据权利要求1所述的方法,其特征在于,在建立了所述级别与所述用户ID的关联关系后,还包括:
在一定的时间阀值范围内,重新确定所述用户ID的多篇译后文档;
重新建立所述级别与所述用户ID的关联关系,以用于实时更新所述用户ID的索引关系。
3.根据权利要求1所述的方法,其特征在于,确定的所述多篇译后文档为所述用户ID对应的译员在一定的时间范围内通过审校后的稿件。
4.根据权利要求1所述的方法,其特征在于,所述语句参数为语句复杂度;
计算所述语句复杂度的过程包括:
分析出所述译后文档的整句的平均长度、所述整句中的第一类子句的平均长度、长句的平均长度和所述长句中的第二类子句的平均长度;
按照语句复杂度计算公式计算,得到所述译后文档的所述语句复杂度;所述语句复杂度计算公式如下:
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL;
其中,diff_sentence为语句复杂度,MLS为所述整句的平均长度,MLC为所述第一类子句的平均长度,MLL为所述长句的平均长度,MLCL为所述第二类子句的平均长度,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数。
5.根据权利要求4所述的方法,其特征在于,所述词汇参数为词汇复杂度;
计算所述词汇复杂度的过程包括:
分析出所述译后文档中的词汇等级、类符形符比和实义词词义密度;
按照词汇复杂度计算公式计算,得到所述译后文档的词汇复杂度;所述词汇复杂度计算公式如下:
diff_word=K11·grade_word+K12·STTR+K13·density_notional
其中,diff_word为所述文档词汇复杂度,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12和K13为通过样本计算得到词汇复杂度调节系数。
6.根据权利要求5所述的方法,其特征在于,分析所述译后文档的词汇等级的过程包括:
对所述译后文档进行分词处理,得到所述译后文档中的所有词汇,并统计词汇总数;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
计算所述文档的词汇等级的过程包括:
按照词汇等级计算公式计算出所述文档的词汇等级,所述词汇等级计算公式如下:
grad e _ word - K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本计算得到词汇等级调节系数,word为总词汇数。
7.根据权利要求5所述的方法,其特征在于,分析所述译后文档的所述类符形符比的过程包括:
确定所述译后文档中的所有词汇,统计其中的类符数和形符数,计算所述类符数与所述形符数之比,得到所述文档的类符形符比;或
将得到的所有所述词汇按照标准数量划分为多个子文档,及1个不足标准数量词汇的子文档,按照类符形符比计算公式计算,得到所述文档的类符形符比;所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量词汇的子文档的形符数,type为不足标准数量词汇的子文档的类符数,typei为第i个含标准数量个词汇的子文档的类符数,n为所述含标准数量个词汇的子文档数量,ST为所述标准数量个词汇划分单位。
8.根据权利要求5所述的方法,其特征在于,分析所述译后文档的实义词词义密度的过程包括:
确定所述译后文档中的所有词汇,对每个词汇进行词性标注,得到其中的实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述文档的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notioanl = Σ i = 1 count _ notional meaning s i Σ i = 1 count _ notional meaning s i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的义项数,count_notional为所述实义词的数量。
9.根据权利要求5所述的方法,其特征在于,所述归一系数为翻译能力分值;
计算所述翻译能力分值的过程包括:
根据每个所述译后文档的语句复杂度和词汇复杂度进行计算,得到所述译后文档的翻译难度值;
求出所有所述译后文档的所述翻译难度值的平均值作为所述翻译能力分值。
10.根据权利要求9所述的方法,其特征在于,所述翻译难度值的计算过程包括:
按照翻译难度计算公式计算得到所述译后文档的翻译难度值;所述翻译难度计算公式如下:
diff_doc=K1·diff_word+K2·diff_sentence
其中,K1和K2为通过样本计算得到翻译难度调节系数,diff_doc为翻译难度值。
CN201310749990.4A 2013-12-30 2013-12-30 一种译员分级索引的方法 Active CN103699675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310749990.4A CN103699675B (zh) 2013-12-30 2013-12-30 一种译员分级索引的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310749990.4A CN103699675B (zh) 2013-12-30 2013-12-30 一种译员分级索引的方法

Publications (2)

Publication Number Publication Date
CN103699675A true CN103699675A (zh) 2014-04-02
CN103699675B CN103699675B (zh) 2017-07-04

Family

ID=50361203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310749990.4A Active CN103699675B (zh) 2013-12-30 2013-12-30 一种译员分级索引的方法

Country Status (1)

Country Link
CN (1) CN103699675B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160025A (zh) * 2015-09-30 2015-12-16 武汉传神信息技术有限公司 一种稿件推送方法
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1589011A (zh) * 2004-06-30 2005-03-02 大唐电信科技股份有限公司光通信分公司 点播请求信息分级装置及方法和点播信息分级系统及方法
US20050165780A1 (en) * 2004-01-20 2005-07-28 Xerox Corporation Scheme for creating a ranked subject matter expert index
EP1485830B1 (en) * 2002-02-01 2006-03-29 International Business Machines Corporation Retrieving matching documents by queries in any national language
CN202404591U (zh) * 2011-10-24 2012-08-29 广州市家庭医生在线信息有限公司 一种医疗信息查询装置
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法
CN103136226A (zh) * 2011-11-25 2013-06-05 深圳市腾讯计算机系统有限公司 一种搜索用户的方法与装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1485830B1 (en) * 2002-02-01 2006-03-29 International Business Machines Corporation Retrieving matching documents by queries in any national language
US20050165780A1 (en) * 2004-01-20 2005-07-28 Xerox Corporation Scheme for creating a ranked subject matter expert index
CN1589011A (zh) * 2004-06-30 2005-03-02 大唐电信科技股份有限公司光通信分公司 点播请求信息分级装置及方法和点播信息分级系统及方法
CN202404591U (zh) * 2011-10-24 2012-08-29 广州市家庭医生在线信息有限公司 一种医疗信息查询装置
CN103136226A (zh) * 2011-11-25 2013-06-05 深圳市腾讯计算机系统有限公司 一种搜索用户的方法与装置
CN103077630A (zh) * 2012-12-31 2013-05-01 武汉传神信息技术有限公司 译员专业翻译能力的量化方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224524A (zh) * 2015-09-02 2016-01-06 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN105224524B (zh) * 2015-09-02 2022-01-25 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN105160025A (zh) * 2015-09-30 2015-12-16 武汉传神信息技术有限公司 一种稿件推送方法
CN109636199A (zh) * 2018-12-14 2019-04-16 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统
CN109636199B (zh) * 2018-12-14 2020-10-30 语联网(武汉)信息技术有限公司 一种为待译稿件匹配译员的方法及系统

Also Published As

Publication number Publication date
CN103699675B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN103744834B (zh) 一种翻译任务准确分配的方法
CN103729421B (zh) 一种译员文档精确匹配的方法
Lewis Representation and learning in information retrieval
US20070112553A1 (en) System, method, and program for identifying the corresponding translation
CN106651696B (zh) 一种近似题推送方法及系统
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN109062895A (zh) 一种智能语义处理方法
CN103744840B (zh) 一种文档翻译难度的分析方法
CN103699675B (zh) 一种译员分级索引的方法
Glaser et al. Sentence Boundary Detection in German Legal Documents.
CN113934814B (zh) 古诗文主观题自动评分方法
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN109241276B (zh) 文本中词语分类方法、言语创造性评价方法和系统
CN113032550B (zh) 一种基于预训练语言模型的观点摘要评价系统
Hathout Acquisition of morphological families and derivational series from a machine readable dictionary
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
Olensky Data accuracy in bibliometric data sources and its impact on citation matching
Alexa et al. Commonalities, differences and limitations of text analysis software: the results of a review
CN110765107A (zh) 基于数字化编码的题型识别方法及其系统
CN103714051B (zh) 一种待译文档的预处理方法
Xu et al. Historical changes in semantic weights of sub-word units
CN103761226B (zh) 按文档的字符属性碎片化的方法
CN115619443A (zh) 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统
CN103729344B (zh) 一种文档稿件中语句标注的方法
CN103729350B (zh) 多维度待译文档的预处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

COR Change of bibliographic data
CB02 Change of applicant information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Hierarchical translator indexing method

Effective date of registration: 20181115

Granted publication date: 20170704

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20170704

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right