CN103729350A - 多维度待译文档的预处理方法 - Google Patents

多维度待译文档的预处理方法 Download PDF

Info

Publication number
CN103729350A
CN103729350A CN201310752261.4A CN201310752261A CN103729350A CN 103729350 A CN103729350 A CN 103729350A CN 201310752261 A CN201310752261 A CN 201310752261A CN 103729350 A CN103729350 A CN 103729350A
Authority
CN
China
Prior art keywords
translated
document
mrow
paragraph
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310752261.4A
Other languages
English (en)
Other versions
CN103729350B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310752261.4A priority Critical patent/CN103729350B/zh
Publication of CN103729350A publication Critical patent/CN103729350A/zh
Application granted granted Critical
Publication of CN103729350B publication Critical patent/CN103729350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本发明通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。

Description

多维度待译文档的预处理方法
技术领域
本发明涉及翻译技术领域,具体地说,涉及一种多维度待译文档的预处理方法。
背景技术
在全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性增长,各语种信息之间的转换需求也呈快速增长的态势。
面对海量的多语信息转换和翻译任务,目前自翻译和小规模工作间式的翻译模式已完全无法适应。翻译作为一个产业,其规模越来越大,其作用也越来越重要,现有翻译方式仅将待译文档按照学科等粗略分类就分配个译员翻译,使的有些译员并不适合翻译该待译文档,从而使得翻译速度较慢。
发明内容
本发明所要解决的技术问题是现有的翻译模式对待译文档的预处理不合理,使得后续的翻译速度较慢。
本发明的技术方案如下:
一种多维度待译文档的预处理方法,包括:统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
进一步:如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
进一步,统计所述待译文档包括的行业类别属性的数量的过程包括:去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;统计匹配到的行业类别属性的数量。
进一步,统计所述待译文档的类符形符比的过程包括:根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , n ≥ 1 type token , n = 0 ; 其中,token为不足文档标准数量词汇的子文档的形符数,type为不足标准文档数量词汇的子文档的类符数,typei为第i个含文档标准数量个词汇的子文档的类符数,n为含文档标准数量个词汇的子文档数量,ST为文档标准数量个词汇划分单位。
进一步,所述将所述待译文档按照所述行业类别属性拆分的过程包括:获取所述待译文档的每个段落的所述特征词,建立所述每个段落与其包含的各个所述特征词的对应关系;将所述待译文档的各个所述特征词逐个在术语语料库中匹配,将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性,作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性;根据所述对应关系,确定所述每个段落包含相同的最多的行业类别属性;按照所述最多的行业类别属性对每个所述段落分类;合并同类的所述段落,得到按照行业类别属性拆分后的待译文档。
进一步,所述将所述待译文档按照所述翻译难度系数拆分的过程包括:按照所述待译文档的每个段落的词汇等级grade_word、类符形符比STTRP和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度diff_word=K11·grade_word+K12·STTR+K13·density_notional,其中,K11、K12和K13为词汇复杂度调节系数;计算所述待译文档的每个段落的语句复杂度diff_sentence;根据所述词汇复杂度和所述语句复杂度按照diff_doc=K1·diff_word+K2·diff_sentence得到所述待译文档的每个段落的翻译难度系数diff_doc,其中,K1和K2为翻译难度调节系数;合并具有相同所述翻译难度系数的段落,得到按照所述翻译难度系数拆分后的待译文档。
进一步,所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括:统计所述待译文档的每个段落的总词汇数word;将得到的每个词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别,所述词汇级别为一级、二级、三级或四级;分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;按照 grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word 得到所述待译文档的每个段落的词汇等级grade_word,其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为词汇等级调节系数。
进一步,所述按照所述待译文档的每个段落的类符形符比STTRP计算的过程包括:根据所述待译文档的每个段落的所有词汇,统计每个段落的类符数和形符数,通过所述每个段落的类符数与形符数之比得到所述待译文档的每个段落类符形符比;或者,将所述待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落,得到所述待译文档的每个段落的类符形符比 STTRP = 1 ( m + 1 ) · STP · tokenP · ( typeP · STP · tokenP · Σ j = 1 m typeP j ) , m ≥ 1 typeP tokenP m = 0 ; 其中,tokenP为不足段落标准数量词汇的子段落的形符数,typeP为不足段落标准数量词汇的子段落的类符数,typePj为第j个含段落标准数量个词汇的子段落的类符数,m为含段落标准数量个词汇的子段落数量,STP为段落标准数量个词汇划分单位。
进一步,所述按照所述待译文档的每个段落的实义词密度density_notional计算的过程包括:对所有所述词汇进行词性标注,得到其中的实义词,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词;根据同义词本体工具得到所述待译文档的每个段落的第t个实义词的义项数meaningst;统计所述待译文档的每个段落的所述实义词的义项总数;按照
density _ notional = Σ t = 1 count _ notional menaings t Σ t = 1 count _ notional menaings t + ( word - count _ notional ) 得到所述待译文档的每个段落的实义词的词义密度density_notional;其中,count_notional为所述待译文档的每个段落的所述实义词的数量,1≤t≤count_notional。
进一步,所述计算所述待译文档的每个段落的语句复杂度diff_sentence包括:将每个段落的所述总词汇数除以每个段落的整句数,得到每个段落的所述整句的平均长度MLS;将每个段落的所述总词汇数除以每个段落的第一类子句的数量,得到每个段落的所述第一类子句的平均长度MLC;统计每个段落的第e个所述长句的长度word_longe,其中,1≤e≤count_long;按照 NLL = 1 count _ long · Σ e = 1 count _ long word _ long e 得到每个段落的所述长句的平均长度MLL,其中,count_long为每个段落的长句数;按照 MLCL = 1 count _ clause _ long · Σ e = 1 count _ long word _ long e 得到每个段落的第二类子句的平均长度MLCL;其中,count_clause_long为每个段落的所述第二类子句的数量;按照
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL得到所述待译文档的每个段落的所述语句复杂度diff_sentence;其中,K21、K22、K23和K24为语句复杂度调节系数。
本发明的技术效果如下:
本发明通过对待译文档进行合理的预处理,将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式,以使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的多维度待译文档的预处理方法的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
如图1所示,为本发明的多维度待译文档的预处理方法的流程图。该方法的具体步骤如下:
步骤S1:统计待译文档包括的行业类别属性的数量和待译文档的类符形符比。
步骤S2:分别判断待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、待译文档的类符形符比相对于类符形符比设定阈值的大小,根据待译文档的类符形符比相对于类符形符比设定阈值的大小匹配待译文档的翻译难度系数。
步骤S3:根据这两种判断结果选择将待译文档按行业类别属性或者翻译难度系数拆分。
通过本发明的方法,可以在将待译文档分配给译员翻译之前选择最合适的拆分方式,以使待译文档能够匹配到最适合的译员,加快翻译待译文档的速度。
基于上述方法,以下提供一个优选地实施例:
1、统计待译文档包括的行业类别属性的数量,其过程包括:
1)去除待译文档中的停用词和没有具体意义的词语,得到待译文档的所有词语,即特征词,对每个特征词进行编号,记为wordID。
2)将待译文档的各个特征词逐个在术语语料库中匹配,记录每个特征词或者由多个特征词构成的特征词串匹配的术语的行业类别属性。
确定每个特征词在待译文档出现的多个位置信息。其中,位置信息的数量等于该特征词在待译文档中的词频。通过该位置信息,可记录特征词在待译文档中出现的位置,当术语的词长L超过特征词时,可根据该位置后的特征词,与术语进行匹配,以确定该特征词在待译文档中所归属的行业类别属性。
计算每个特征词在待译文档中出现的次数,即词频n1。
计算每个特征词在待译文档中出现的位置信息,即该特征词是待译文档中的第几个词语。这样对于每个特征词就得到了一个如下表1所示的特征词表结构。
表1特征词表结构
Figure BDA0000450186960000061
在表1中,建立了特征词出现的位置信息及词频。
因为术语语料库已按字符顺序索引,可以用简单的二分法进行匹配,所需的匹配次数不大于1+log2n(n为术语语料库中的术语数)。具体匹配过程如下:
如果与某术语的第一个词语匹配成功,则计算该术语的词长,设为L,如果L=1则该词语即为术语,匹配成功,返回该术语的行业类别属性信息给该待译文档。如果匹配到术语的词长L>1,则逐个遍历当前特征词在待译文档中的位置信息。例如:当前的特征词为“数据库”,匹配到的术语为“数据库软件”;匹配到术语的第一个词“数据库”匹配成功。术语“数据库软件”的词长L=2>1,则遍历特征词在待译文档中的位置信息10,100。
在遍历到待译文档的各个位置信息后,依次在该待译文档中提取每个位置信息后的L-1个特征词;将每次提取的L-1个特征词,与匹配到的词长L大于1的术语进行匹配。在位置10之后,找到下一个特征词“软件”。将关键词“软件”与术语“数据库软件”中的第二个词“软件”进行匹配。
如果提取的L-1个特征词,与匹配到的词长L大于1的术语进行匹配成功,则将该术语的行业类别属性作为当前特征词在文档所归属的行业类别属性。
匹配成功后,将术语“数据库软件”的行业类别属性作为关键词“数据库”在待译文档中的行业类别属性。
3)统计匹配到的行业类别属性的数量。
2、统计待译文档的类符形符比,其过程包括:
统计文档中的形符,即文档中出现的总词汇数。
统计文档中的类符,即文档中出现的不相同的词汇数。
类符形符比代表了词汇变化率,和文档汇总词汇的丰富程度。类符形符比的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真。因此实际处理可以按每文档标准数量ST(比如ST取值1000)个词汇为单位进行类符形符比计算,最后将所有类符形符比的均值作为最终取值,即标准类符形符比。不足文档标准数量的文档,直接进行类符形符比计算。
根据待译文档的所有词汇,统计其中的类符数和形符数,通过类符数与形符数之比得到待译文档的类符形符比;或者,将待译文档的所有词汇按照文档标准数量划分为多个子文档,及一个不足文档标准数量词汇的子文档,得到待译文档的类符形符比
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , n ≥ 1 type token , n = 0 ;
其中,token为不足文档标准数量词汇的子文档的形符数,type为不足文档标准数量词汇的子文档的类符数,typei为第i个含文档标准数量个词汇的子文档的类符数,n为含文档标准数量个词汇的子文档数量,ST为文档标准数量个词汇划分单位。
3、将待译文档的行业类别属性的数量与行业类别属性设定阈值比较大小。
4、将待译文档的类符形符比与类符形符比设定阈值比较大小。每种语言的类符形符比设定阈值不同,以中文或者英文语种为例,类符形符比设定阈值一般为38。
5、根据上述两种比较结果选择将待译文档按行业类别属性或者翻译难度系数拆分。
其选择依据的准则为:
1)如果待译文档的行业类别属性不小于行业类别属性设定阈值,则将待译文档按照行业类别拆分。
2)如果待译文档的行业类别属性小于行业类别属性设定阈值,且待译文档的类符形符比不小于类符形符比设定阈值,则将待译文档按照翻译难度系数拆分。
3)如果待译文档的行业类别属性小于行业类别属性设定阈值,且待译文档的类符形符比小于类符形符比设定阈值,则将待译文档按照行业类别拆分。
例如,待译文档为中文文档,行业类别属性设定阈值为5个行业,类符形符比设定阈值为38。统计的待译文档的行业类别属性的数量为4,待译文档的类符形符比为40,则待译文档的行业类别属性的数量小于行业类别属性设定阈值,待译文档的类符形符比大于类符形符比设定阈值,此时,将待译文档按照翻译难度系数拆分。
优选的,将待译文档按照行业类别属性进行拆分的过程包括:
1)去除待译文档中的停用词和没有具体意义的词语,得到待译文档的特征词。
2)获取待译文档的每个段落的特征词,建立每个段落与其包含的各个特征词的对应关系。
3)将待译文档的各个特征词逐个在术语语料库中匹配,将每个特征词或者由多个特征词构成的特征词串匹配的术语的行业类别属性,作为特征词或者由多个特征词构成的特征词串所对应的每个段落所归属的行业类别属性。具体如下:
计算各个特征词在每个段落中的出现次数即词频,记录该段落属性,即其各个特征词所属的段落号。
优选的,在一些实施例中,如果待译文档内的有些段的词数较少,可将多个段作为一段。此时,判断待译文档内的每段的词数。如果词数小于阈值,则与相邻的下一段合并作为新的一段,直到新的一段的词数大于阈值。阈值可根据实际情况设置,例如,设置为100词或200词等。通过上述步骤,可将少于阈值的多个段归类为一段。这样,由于段数缩减,可减少对段的操作,提高分类效率。
确定各个特征词在其所对应的每个段落出现的多个位置信息;其中,该位置信息的数量等于该特征词在其所对应的每个段落的词频。
建立待译文档的每个段落的特征词列表,列表项包括:特征词、词频、特征词在段落属性和特征词在段落中的位置。列表如表2所示:
表2待译文档的每个段落的特征词列表
特征词 特征词的词频 特征词的段落属性 特征词在段落中的位置
keyword1 tf1 SegNum1 Loc1-1、Loc1-2、…
Keyword2 tf2 SegNum1 Loc2-1、Loc2-2、…
通过特征词在段落中的位置,可记录特征词在每个段落中出现的位置,当术语的词长M超过特征词时,可根据该位置后的特征词,与术语进行匹配,以确定该特征词在当前文档中所归属的行业类别属性。因为术语语料库已按字符顺序索引,可以用简单的二分法进行匹配,所需的匹配次数不大于1+log2d(d为术语语料库中的术语数)。
如果特征词与某术语的第一个词语匹配成功,则计算该术语的词长,设为M,若M=1则该词语即为术语,匹配成功,返回该术语的行业属性信息给该词语所属的段落,记录的该特征词的术语的词频,此时,该特征词的术语的词频即为特征词的词频。
如果与某术语的第一个词语匹配成功,则计算该术语的词长;如果匹配到术语的词长M>1,则逐个遍历当前特征词对应的段落中的位置信息。
在遍历到当前段落的各个位置信息后,依次在该段落中提取每个位置信息后的M-1个特征词。
将每次提取的M-1个特征词,与匹配到的词长M大于1的术语进行匹配。
如果提取的M-1个特征词,与匹配到的词长M大于1的术语进行匹配成功,则将该术语的行业类别属性作为当前特征词在其对应的当前段落所归属的行业类别属性。
例如:当前的特征词为“数据库”,匹配到的术语为“数据库软件”;匹配到术语的第一个词“数据库”匹配成功。术语“数据库软件”的词长M=2>1,则遍历“数据库”所在段落中的位置信息Loc1-1、Loc1-2、…。在位置Loc1-1之后,找到下一个特征词“软件”。将特征词“软件”与术语“数据库软件”中的第二个词“软件”进行匹配。匹配成功后,将术语“数据库软件”的行业类别信息作为特征词“数据库”在段落SegNum1中的行业类别信息。以此类推,遍历完所有位置信息后,得到匹配成功的数量记为该特征词的术语的词频,此时,该特征词的术语的词频不大于特征词的词频。因此可能在其他位置信息处,“数据库”后面的特征词不是“软件”,则此时匹配不成功。
记录的该特征词或者由多个特征词构成的特征词串的术语的词频,可用于在确定每个段落的包含相同的最多的行业类别属性的过程中,通过统计该段落的特征词或者由多个特征词构成的特征词串的术语的词频,将具有同类的术语的词频之和的最大值对应的行业类别属性即为该段落的类别属性。
4)根据对应关系,确定每个段落包含相同的最多的行业类别属性。
5)按照最多的行业类别属性对每个段落分类。
例如,若A段落所匹配到的术语数属于B行业的有8个,属于C行业的有1个,则将A段落标记为B行业类别属性。
6)合并同类的段落,得到按照行业拆分后的待译文档。
优选的,将待译文档按照翻译难度系数进行拆分的过程包括:
1)按照待译文档的每个段落的词汇等级grade_word、类符形符比STTRP和实义词密度density_notional计算待译文档的每个段落的词汇复杂度。同样可以按照将待译文档按照行业类别属性进行拆分的过程中的分段方法对待译文档的段落重新划分。
①按照待译文档的每个段落的词汇等级grade_word计算的过程包括:
统计待译文档的每个段落的总词汇数word。其中术语“词汇”不应仅理解为英文单词,还应理解为具有字形结构的字,例如汉字、日文、韩文等;和/或具有字母形结构的单词,例如法文、俄文等;并且所有词汇应理解为包含有重复的词汇。
将得到的每个词汇在词汇分级表中进行匹配,得到每个词汇的词汇级别,词汇级别为一级、二级、三级或四级。其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级。
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
分别统计词汇级别为二级或二级以上的级别的词汇的数量。
按照 grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word 得到待译文档的每个段落的词汇等级grade_word,其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为通过样本得到的词汇等级调节系数,属于第三级调节系数,词汇等级调节系数为多元线性回归系数,通过最小二乘法得到。通过样本数据得到K111、K112和K113的具体计算方法如下:
令: Y = grad e _ word , X 1 word 2 word , X 2 word 3 word , X 3 = word 4 word ;
对于采集到的n组样本数据:
{X11,X12,X13};
{X21,X22,X23}
……;
{Xn1,Xn2,Xn3};
对应给出用户设定的词汇等级: Y 1 Y 2 M Y n , 该词汇等级可以任意设定,优选便于计算的数据,一般为1~10。由于采用的样本数据的数量很大,人为的因素影响可以忽略不计。
由此可以获得以下线性方程组:
Y1=K111·X11+K112·X12+K113·X13;
Y2=K111·X21+K112·X22+K113·X23;
……;
Yn=K111·Xn1+K112·Xn2+K113·Xn3
得到:
K 111 K 112 K 113 = ( X ′ X ) - 1 X ′ Y ;
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 M X n 1 X n 2 X n 3 , Y = Y 1 Y 2 M Y n , X'为X的转置矩阵。
②按照待译文档的每个段落的类符形符比STTRP计算的过程包括:
该过程与统计待译文档的类符形符比的方法一致,区别在于此处以每个段落为统计的基础。
具体计算方法为以下两种:
A、根据待译文档的每个段落的所有词汇,统计待译文档的每个段落的类符数和形符数,计算类符数与形符数之比,得到待译文档的每个段落的类符形符比;或者,
B、将待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落,及一个不足段落标准数量词汇的子段落,得到待译文档的每个段落的类符形符比
STTRP = 1 ( m + 1 ) · STP · tokenP · ( typeP · STP · tokenP · Σ j = 1 m typeP j ) , m ≥ 1 typeP tokenP m = 0 ;
其中,tokenP为不足段落标准数量词汇的子段落的形符数,typeP为不足段落标准数量词汇的子段落的类符数,typePj为第j个含段落标准数量个词汇的子段落的类符数,m为含段落标准数量个词汇的子段落数量,STP为段落标准数量个词汇划分单位。
③按照待译文档的每个段落的实义词密度density_notional计算的过程包括:
词汇密度是指实义词占总词数的比例。通常词汇密度越高,实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
对所有词汇进行词性标注,得到其中的实义词,实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词。
根据同义词本体工具得到待译文档的每个段落的第t个实义词的义项数meaningst
统计待译文档的每个段落的实义词的义项总数;
按照
density _ notional = Σ t = 1 count _ notional menaings t Σ t = 1 count _ notional menaings t + ( word - count _ notional )
得到待译文档的每个段落的实义词的词义密度density_notional;其中,count_notional为待译文档的每个段落的所述实义词的数量,1≤t≤count_notional。
计算词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序,可以分别计算,也可以同时计算。
④得到待译文档的每个段落的词汇复杂度diff_word。
diff_word=K11·grade_word+K12·STTRP+K13·density_notional,其中,K11、K12和K13为通过样本得到的词汇复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。采集样本数据的diff_word、grade_word、STTRP、density_notional,通过与词汇等级调节系数相同的计算方法构建线性方程组得到K11、K12和K13
2)计算待译文档的每个段落的语句复杂度diff_sentence。
术语“整句”应该理解为表达了完整的意思的词汇集合,例如:文档首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合。
术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合。
术语“长句”应该理解为词汇数量大于预定阈值的整句。
本文中的第一类和第二类只用于区分。
①确定待译文档的每个段落的所有整句,并统计整句的总数,记作count_sentence。将词汇数量大于预定阈值的整句作为长句。
②将每个段落的总词汇数除以每个段落的整句数,得到每个段落的整句的平均长度MLS。
③将每个段落的总词汇数除以每个段落的第一类子句的数量,得到每个段落的第一类子句的平均长度MLC。
④统计每个段落的第e个长句的长度word_longe,其中,1≤e≤count_longi
⑤按照 NLL = 1 count _ long · Σ e = 1 count _ long word _ long e 得到每个段落的长句的平均长度MLL,其中,count_long为每个段落的长句数。
⑥按照 MLCL = 1 count _ clause _ long · Σ e = 1 count _ long word _ long e 得到每个段落的第二类子句的平均长度MLCL;其中,count_clause_long为每个段落的第二类子句的数量。
⑦按照diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL得到待译文档的每个段落的语句复杂度diff_sentence;其中,K21、K22、K23和K24为通过样本计算得到语句复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。采集样本数据的MLS、MLC、MLL、MLCL、diff_sentence,通过与词汇等级调节系数相同的计算方法构建线性方程组得到K21、K22、K23和K24
3)根据词汇复杂度和语句复杂度按照
diff_doc=K1·diff_word+K2·diff_sentence得到待译文档的每个段落的翻译难度系数diff_doc,其中,K1和K2为通过样本计算得到翻译难度调节系数,属于第一级调节系数,翻译难度调节系数为多元线性回归系数,通过最小二乘法得到。采集样本数据的diff_doc、diff_word、diff_sentence,通过与词汇等级调节系数相同的计算方法构建线性方程组得到K1和K2
4)合并具有相同翻译难度系数的段落,得到按照所述翻译难度系数拆分后的待译文档。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种多维度待译文档的预处理方法,其特征在于,包括:
统计所述待译文档包括的行业类别属性的数量和所述待译文档的类符形符比;
分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的类符形符比相对于类符形符比设定阈值的大小,根据所述待译文档的类符形符比相对于类符形符比设定阈值的大小匹配所述待译文档的翻译难度系数;
根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。
2.如权利要求1所述的多维度待译文档的预处理方法,其特征在于:
如果所述待译文档的行业类别属性不小于行业类别属性设定阈值,则将所述待译文档按照所述行业类别拆分;
如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比不小于类符形符比设定阈值,则将所述待译文档按照所述待译文档的翻译难度系数拆分;
如果所述待译文档的行业类别属性小于行业类别属性设定阈值,且所述待译文档的类符形符比小于类符形符比设定阈值,则将所述待译文档按照所述行业类别拆分。
3.如权利要求1或2所述的待译文档的预处理的方法,其特征在于,统计所述待译文档包括的行业类别属性的数量的过程包括:
去除所述待译文档中的停用词和没有具体意义的词语,得到所述待译文档的特征词;
将所述待译文档的各个所述特征词逐个在术语语料库中匹配,记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性;
统计匹配到的行业类别属性的数量。
4.如权利要求1或2所述的待译文档的预处理的方法,其特征在于:统计所述待译文档的类符形符比的过程包括:
根据所述待译文档的所有词汇,统计其中的类符数和形符数,通过所述类符数与所述形符数之比得到所述待译文档的类符形符比;或者,
将所述待译文档的所有词汇按照文档标准数量划分为多个子文档得到所述待译文档的类符形符比
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , n ≥ 1 type token , n = 0 ;
其中,token为不足文档标准数量词汇的子文档的形符数,type为不足文档标准数量词汇的子文档的类符数,typei为第i个含文档标准数量个词汇的子文档的类符数,n为含文档标准数量个词汇的子文档数量,ST为文档标准数量个词汇划分单位。
5.如权利要求3所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述行业类别属性拆分的过程包括:
获取所述待译文档的每个段落的所述特征词,建立所述每个段落与其包含的各个所述特征词的对应关系;
将所述待译文档的各个所述特征词逐个在术语语料库中匹配,将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性,作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性;
根据所述对应关系,确定所述每个段落包含相同的最多的行业类别属性;
按照所述最多的行业类别属性对每个所述段落分类;
合并同类的所述段落,得到按照行业类别属性拆分后的待译文档。
6.如权利要求4所述的待译文档的预处理的方法,其特征在于:所述将所述待译文档按照所述翻译难度系数拆分的过程包括:
按照所述待译文档的每个段落的词汇等级grade_word、类符形符比STTRP和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度diff_word=K11·grade_word+K12·STTR+K13·density_notional,其中,K11、K12和K13为词汇复杂度调节系数;
计算所述待译文档的每个段落的语句复杂度diff_sentence;
根据所述词汇复杂度和所述语句复杂度按照diff_doc=K1·diff_word+K2·diff_sentence得到所述待译文档的每个段落的翻译难度系数diff_doc,其中,K1和K2为翻译难度调节系数;
合并具有相同所述翻译难度系数的段落,得到按照所述翻译难度系数拆分后的待译文档。
7.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括:
统计所述待译文档的每个段落的总词汇数word;
将得到的每个词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别,所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照 grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word 得到所述待译文档的每个段落的词汇等级grade_word,其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为词汇等级调节系数。
8.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的类符形符比STTRP计算的过程包括:
根据所述待译文档的每个段落的所有词汇,统计每个段落的类符数和形符数,通过所述每个段落的类符数与形符数之比得到所述待译文档的每个段落类符形符比;或者,
将所述待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落,得到所述待译文档的每个段落的类符形符比
STTRP = 1 ( m + 1 ) · STP · tokenP · ( typeP · STP · tokenP · Σ j = 1 m typeP j ) , m ≥ 1 typeP tokenP m = 0 ;
其中,tokenP为不足段落标准数量词汇的子段落的形符数,typeP为不足段落标准数量词汇的子段落的类符数,typePj为第j个含段落标准数量个词汇的子段落的类符数,m为含段落标准数量个词汇的子段落数量,STP为段落标准数量个词汇划分单位。
9.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述按照所述待译文档的每个段落的实义词密度density_notional计算的过程包括:
对所有所述词汇进行词性标注,得到其中的实义词,所述实义词至少包括以下之一的词性:名词、代名词、动词、形容词、副词和感叹词;
根据同义词本体工具得到所述待译文档的每个段落的第t个实义词的义项数meaningst
统计所述待译文档的每个段落的所述实义词的义项总数;
按照
density _ notional = Σ t = 1 count _ notional menaings t Σ t = 1 count _ notional menaings t + ( word - count _ notional )
得到所述待译文档的每个段落的实义词的词义密度density_notional;其中,count_notional为所述待译文档的每个段落的所述实义词的数量,1≤t≤count_notional。
10.如权利要求6所述的待译文档的预处理的方法,其特征在于,所述计算所述待译文档的每个段落的语句复杂度diff_sentence包括:
将每个段落的所述总词汇数除以每个段落的整句数,得到每个段落的所述整句的平均长度MLS;
将每个段落的所述总词汇数除以每个段落的第一类子句的数量,得到每个段落的所述第一类子句的平均长度MLC;
统计每个段落的第e个所述长句的长度word_longe,其中,1≤e≤count_long;
按照 NLL = 1 count _ long · Σ e = 1 count _ long word _ long e 得到每个段落的所述长句的平均长度MLL,其中,count_long为每个段落的长句数;
按照 MLCL = 1 count _ clause _ long · Σ e = 1 count _ long word _ long e 得到每个段落的第二类子句的平均长度MLCL;其中,count_clause_long为每个段落的所述第二类子句的数量;
按照diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL得到所述待译文档的每个段落的所述语句复杂度diff_sentence;其中,K21、K22、K23和K24为语句复杂度调节系数。
CN201310752261.4A 2013-12-30 2013-12-30 多维度待译文档的预处理方法 Active CN103729350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310752261.4A CN103729350B (zh) 2013-12-30 2013-12-30 多维度待译文档的预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310752261.4A CN103729350B (zh) 2013-12-30 2013-12-30 多维度待译文档的预处理方法

Publications (2)

Publication Number Publication Date
CN103729350A true CN103729350A (zh) 2014-04-16
CN103729350B CN103729350B (zh) 2017-01-04

Family

ID=50453428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310752261.4A Active CN103729350B (zh) 2013-12-30 2013-12-30 多维度待译文档的预处理方法

Country Status (1)

Country Link
CN (1) CN103729350B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484323A (zh) * 2014-12-26 2015-04-01 武汉传神信息技术有限公司 一种基于文档片段的翻译处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAKER MONA: "Corpora in translation studies: an overview and some suggestions for future research", 《TARGET》, 31 December 1995 (1995-12-31) *
钱之莹: "汉英/英汉平行翻译语料库的设计及其在翻译中的应用", 《中国优秀博硕士学位论文全文数据库 哲学与人文科学辑 》, no. 5, 15 September 2005 (2005-09-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484323A (zh) * 2014-12-26 2015-04-01 武汉传神信息技术有限公司 一种基于文档片段的翻译处理方法

Also Published As

Publication number Publication date
CN103729350B (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN103744834B (zh) 一种翻译任务准确分配的方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN109446423B (zh) 一种新闻以及文本的情感判断系统及方法
CN106651696B (zh) 一种近似题推送方法及系统
CN103729421B (zh) 一种译员文档精确匹配的方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
Noaman et al. Naive Bayes classifier based Arabic document categorization
Kumar et al. Legal document summarization using latent dirichlet allocation
CN107526841A (zh) 一种基于Web的藏文文本自动摘要生成方法
CN112667806B (zh) 一种使用lda的文本分类筛选方法
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
CN111695358A (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN109062895A (zh) 一种智能语义处理方法
CN110929022A (zh) 一种文本摘要生成方法及系统
CN103744840B (zh) 一种文档翻译难度的分析方法
Glaser et al. Sentence Boundary Detection in German Legal Documents.
CN109815328B (zh) 一种摘要生成方法及装置
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN103714051B (zh) 一种待译文档的预处理方法
Saini et al. Intrinsic plagiarism detection system using stylometric features and DBSCAN

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Multi-dimension preprocessing method for files to be translated

Effective date of registration: 20181115

Granted publication date: 20170104

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20170104

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right