CN103714051A

CN103714051A - 一种待译文档的预处理方法

Info

Publication number: CN103714051A
Application number: CN201310745397.2A
Authority: CN
Inventors: 江潮
Original assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-04-09
Anticipated expiration: 2033-12-30
Also published as: CN103714051B

Abstract

本发明公开了一种待译文档的预处理方法，包括：统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度；分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小，根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数；根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。本发明通过对待译文档进行合理的预处理，将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式，使待译文档能够匹配到最适合的译员，加快翻译待译文档的速度。

Description

一种待译文档的预处理方法

技术领域

本发明涉及翻译技术领域，具体地说，涉及一种待译文档的预处理方法。

背景技术

在全球化、国际化的今天，世界政治、经济、文化的交流越来越频繁，各国人员的往来也越来越密集，使得对翻译的需求也越来越大；同时随着互联网的兴起，各语种的信息量爆发性增长，各语种信息之间的转换需求也呈快速增长的态势。

面对海量的多语信息转换和翻译任务，目前自翻译和小规模工作间式的翻译模式已完全无法适应。翻译作为一个产业，其规模越来越大，其作用也越来越重要，现有翻译方式仅将待译文档按照学科等粗略分类就分配个译员翻译，使的有些译员并不适合翻译该待译文档，从而使得翻译速度较慢。

发明内容

本发明所要解决的技术问题是现有的翻译模式对待译文档的预处理不合理，使得后续的翻译速度较慢。

本发明的技术方案如下：

一种待译文档的预处理方法，包括：统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度；分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小，根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数；根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。

进一步：如果所述待译文档的行业类别属性不小于行业类别属性设定阈值，则将所述待译文档按照所述行业类别拆分；如果所述待译文档的行业类别属性小于行业类别属性设定阈值，且所述待译文档的实义词密度不小于实义词密度设定阈值，则将所述待译文档按照所述待译文档的翻译难度系数拆分；如果所述待译文档的行业类别属性小于行业类别属性设定阈值，且所述待译文档的实义词密度小于实义词密度设定阈值，则将所述待译文档按照所述行业类别拆分。

进一步，统计所述待译文档包括的行业类别属性的数量的过程包括：去除所述待译文档中的停用词和没有具体意义的词语，得到所述待译文档的特征词；将所述待译文档的各个所述特征词逐个在术语语料库中匹配，记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性；统计匹配到的行业类别属性的数量。

进一步，统计所述待译文档的实义词密度的过程包括：统计所述待译文档的总词汇数wordD;对所述待译文档的所有所述词汇进行词性标注，得到其中的实义词，所述实义词至少包括以下之一的词性：名词、代名词、动词、形容词、副词和感叹词；根据同义词本体工具得到所述待译文档的第i个实义词的义项数meanings_i；统计所述待译文档的所述实义词的义项总数；按照

density_notionalD = \frac{Σ_{i = 1}^{count_notionalD} {menaings}_{i}}{Σ_{i = 1}^{count_notionalD} {menaings}_{i} + (wordD - count_notionalD)}

得到所述待译文档的实义词密度density_notionalD；其中，count_notionalD为所述待译文档的所述实义词的数量，1≤i≤count_notionalD。

进一步，所述将所述待译文档按照所述行业类别属性拆分的过程包括：获取所述待译文档的每个段落的所述特征词，建立所述每个段落与其包含的各个所述特征词的对应关系；将所述待译文档的各个所述特征词逐个在术语语料库中匹配，将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性，作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性；根据所述对应关系，确定所述每个段落包含相同的最多的行业类别属性；按照所述最多的行业类别属性对每个所述段落分类；合并同类的所述段落，得到按照行业类别属性拆分后的待译文档。

进一步，所述将所述待译文档按照所述翻译难度系数拆分的过程包括：按照所述待译文档的每个段落的词汇等级grade_word、类符形符比STTR和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度;diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional，其中，K₁₁、K₁₂和K₁₃为词汇复杂度调节系数；计算所述待译文档的每个段落的语句复杂度diff_sentence；根据所述词汇复杂度和所述语句复杂度按照diff_doc=K₁·diff_word+K₂·diff_sentence得到所述待译文档的每个段落的翻译难度系数diff_doc，其中，K₁和K₂为翻译难度调节系数；合并具有相同所述翻译难度系数的段落，得到按照所述翻译难度系数拆分后的待译文档。

进一步，所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括：统计所述待译文档的每个段落的总词汇数word；将得到的每个词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别，所述词汇级别为一级、二级、三级或四级；分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；按照

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

得到所述待译文档的每个段落的词汇等级grade_word，其中，word_x为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为词汇等级调节系数。

进一步，所述按照所述待译文档的每个段落的类符形符比STTR计算的过程包括：根据所述待译文档的每个段落的所有词汇，统计每个段落的类符数和形符数，通过所述每个段落的类符数与形符数之比得到所述待译文档的每个段落类符形符比；或者，将所述待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落，得到所述待译文档的每个段落的类符形符比

STTR = \{\begin{matrix} \frac{1}{(m + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{j = 1}^{m} {type}_{j}), & m &GreaterEqual; 1 \\ \frac{type}{token}, & m = 0 \end{matrix};

其中，token为不足段落标准数量词汇的子段落的形符数，type为不足段落标准数量词汇的子段落的类符数，type_j为第j个含段落标准数量个词汇的子段落的类符数，m为含段落标准数量个词汇的子段落数量，ST为段落标准数量个词汇划分单位。

进一步，所述按照所述待译文档的每个段落的实义词密度density_notional计算的过程包括：根据同义词本体工具得到所述待译文档的每个段落的第t个实义词的义项数meanings_t；统计所述待译文档的每个段落的所述实义词的义项总数；按照

density_notional = \frac{Σ_{t = 1}^{count_notional} {menaings}_{t}}{Σ_{t = 1}^{count_notional} {menaings}_{t} + (word - count_notional)}

得到所述待译文档的每个段落的实义词密度density_notional；其中，count_notional为所述待译文档的每个段落的所述实义词的数量，1≤t≤count_notional。

进一步，所述计算所述待译文档的每个段落的语句复杂度diff_sentence包括：将每个段落的所述总词汇数除以每个段落的整句数，得到每个段落的所述整句的平均长度MLS；将每个段落的所述总词汇数除以每个段落的第一类子句的数量，得到每个段落的所述第一类子句的平均长度MLC；统计每个段落的第e个所述长句的长度word_longe，其中，1≤e≤count_long；按照

MLL = \frac{1}{count_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的所述长句的平均长度MLL，其中，count_long为每个段落的长句数；按照

MLCL = \frac{1}{count_clause_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的第二类子句的平均长度MLCL；其中，count_clause_long为每个段落的所述第二类子句的数量；按照

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL得到所述待译文档的每个段落的所述语句复杂度diff_sentence；其中，K₂₁、K₂₂、K₂₃和K₂₄为语句复杂度调节系数。

本发明的技术效果如下：

本发明通过对待译文档进行合理的预处理，将待译文档分配给译员翻译之前进行判断选择最合适的拆分方式，以使待译文档能够匹配到最适合的译员，加快翻译待译文档的速度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的待译文档的预处理方法的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

如图1所示，为本发明的待译文档的预处理方法的流程图。该方法的具体步骤如下：

步骤S1：统计待译文档包括的行业类别属性的数量和待译文档的实义词密度。

步骤S2：分别判断待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、待译文档的实义词密度相对于实义词密度设定阈值的大小，根据待译文档的实义词密度相对于实义词密度设定阈值的大小匹配待译文档的翻译难度系数。

步骤S3：根据这两种判断结果选择将待译文档按行业类别属性或者翻译难度系数拆分。

通过本发明的方法，可以在将待译文档分配给译员翻译之前选择最合适的拆分方式，以使待译文档能够匹配到最适合的译员，加快翻译待译文档的速度。

基于上述方法，以下提供一个优选的实施例：

1、统计待译文档包括的行业类别属性的数量，其过程包括：

1）去除待译文档中的停用词和没有具体意义的词语，得到待译文档的所有词语，即特征词，对每个特征词进行编号，记为wordID。

2）将待译文档的各个特征词逐个在术语语料库中匹配，记录每个特征词或者由多个特征词构成的特征词串匹配的术语的行业类别属性。

确定每个特征词在待译文档出现的多个位置信息。其中，位置信息的数量等于该特征词在待译文档中的词频。通过该位置信息，可记录特征词在待译文档中出现的位置，当术语的词长L超过特征词时，可根据该位置后的特征词，与术语进行匹配，以确定该特征词在待译文档中所归属的行业类别属性。

计算每个特征词在待译文档中出现的次数，即词频n1。

计算每个特征词在待译文档中出现的位置信息，即该特征词是待译文档中的第几个词语。这样对于每个特征词就得到了一个如下表1所示的特征词表结构。

表1特征词表结构

在表1中，建立了特征词出现的位置信息及词频。

因为术语语料库已按字符顺序索引，可以用简单的二分法进行匹配，所需的匹配次数不大于1+log2n（n为术语语料库中的术语数）。具体匹配过程如下：

如果与某术语的第一个词语匹配成功，则计算该术语的词长，设为L，如果L=1则该词语即为术语，匹配成功，返回该术语的行业类别属性信息给该待译文档。如果匹配到术语的词长L＞1，则逐个遍历当前特征词在待译文档中的位置信息。例如：当前的特征词为“数据库”，匹配到的术语为“数据库软件”；匹配到术语的第一个词“数据库”匹配成功。术语“数据库软件”的词长L=2＞1，则遍历特征词在待译文档中的位置信息10，100。

在遍历到待译文档的各个位置信息后，依次在该待译文档中提取每个位置信息后的L-1个特征词；将每次提取的L-1个特征词，与匹配到的词长L大于1的术语进行匹配。在位置10之后，找到下一个特征词“软件”。将关键词“软件”与术语“数据库软件”中的第二个词“软件”进行匹配。

如果提取的L-1个特征词，与匹配到的词长L大于1的术语进行匹配成功，则将该术语的行业类别属性作为当前特征词在文档所归属的行业类别属性。

匹配成功后，将术语“数据库软件”的行业类别属性作为关键词“数据库”在待译文档中的行业类别属性。

3）统计匹配到的行业类别属性的数量。

2、统计待译文档的实义词密度，其过程包括：

词汇密度是指实义词占总词数的比例。通常词汇密度越高，实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

统计待译文档的总词汇数wordD。

对待译文档的所有词汇进行词性标注，得到其中的实义词，实义词至少包括以下之一的词性：名词、代名词、动词、形容词、副词和感叹词。

根据同义词本体工具得到待译文档的第i个实义词的义项数meanings_i。

统计待译文档的实义词的义项总数。

按照

density_notionalD = \frac{Σ_{i = 1}^{count_notionalD} {menaings}_{i}}{Σ_{i = 1}^{count_notionalD} {menaings}_{i} + (wordD - count_notionalD)}

得到待译文档的实义词密度density_notionalD；其中，count_notionalD为待译文档的实义词的数量，1≤i≤count_notionalD。

3、将待译文档的行业类别属性的数量与行业类别属性设定阈值比较大小。

4、将待译文档的实义词密度与实义词密度设定阈值比较大小。每种语言的实义词密度设定阈值不同，以中文语种为例，实义词密度设定阈值一般为50%。

5、根据上述两种比较结果选择将待译文档按行业类别属性或者翻译难度系数拆分。

其选择依据的准则为：

1）如果待译文档的行业类别属性不小于行业类别属性设定阈值，则将待译文档按照行业类别拆分。

2）如果待译文档的行业类别属性小于行业类别属性设定阈值，且待译文档的实义词密度不小于实义词密度设定阈值，则将待译文档按照翻译难度系数拆分。

3）如果待译文档的行业类别属性小于行业类别属性设定阈值，且待译文档的实义词密度小于实义词密度设定阈值，则将待译文档按照行业类别拆分。

例如，待译文档为中文文档，行业类别属性设定阈值为5个行业，实义词密度设定阈值为50%。统计的待译文档的行业类别属性的数量为4，待译文档的实义词密度为60%，则待译文档的行业类别属性的数量小于行业类别属性设定阈值，待译文档的实义词密度大于实义词密度设定阈值，此时，将待译文档按照翻译难度系数拆分。

优选的，将待译文档按照行业类别属性进行拆分的过程包括：

1）去除待译文档中的停用词和没有具体意义的词语，得到待译文档的特征词。

2）获取待译文档的每个段落的特征词，建立每个段落与其包含的各个特征词的对应关系。

3）将待译文档的各个特征词逐个在术语语料库中匹配，将每个特征词或者由多个特征词构成的特征词串匹配的术语的行业类别属性，作为特征词或者由多个特征词构成的特征词串所对应的每个段落所归属的行业类别属性。具体如下：

计算各个特征词在每个段落中的出现次数即词频，记录该段落属性，即其各个特征词所属的段落号。

优选的，在一些实施例中，如果待译文档内的有些段的词数较少，可将多个段作为一段。此时，判断待译文档内的每段的词数。如果词数小于阈值，则与相邻的下一段合并作为新的一段，直到新的一段的词数大于阈值。阈值可根据实际情况设置，例如，设置为100词或200词等。通过上述步骤，可将少于阈值的多个段归类为一段。这样，由于段数缩减，可减少对段的操作，提高分类效率。

确定各个特征词在其所对应的每个段落出现的多个位置信息；其中，该位置信息的数量等于该特征词在其所对应的每个段落的词频。

建立待译文档的每个段落的特征词列表，列表项包括：特征词、词频、特征词在段落属性和特征词在段落中的位置。列表如表2所示：

表2待译文档的每个段落的特征词列表

特征词	特征词的词频	特征词的段落属性	特征词在段落中的位置
				keyword1	tf1	SegNum1	Loc1-1、Loc1-2、…
Keyword2	tf2	SegNum1	Loc2-1、Loc2-2、…
				…	…	…	…

通过特征词在段落中的位置，可记录特征词在每个段落中出现的位置，当术语的词长M超过特征词时，可根据该位置后的特征词，与术语进行匹配，以确定该特征词在当前文档中所归属的行业类别属性。因为术语语料库已按字符顺序索引，可以用简单的二分法进行匹配，所需的匹配次数不大于1+log2d（d为术语语料库中的术语数）。

如果特征词与某术语的第一个词语匹配成功，则计算该术语的词长，设为M，若M=1则该词语即为术语，匹配成功，返回该术语的行业属性信息给该词语所属的段落，记录的该特征词的术语的词频，此时，该特征词的术语的词频即为特征词的词频。

如果与某术语的第一个词语匹配成功，则计算该术语的词长；如果匹配到术语的词长M＞1，则逐个遍历当前特征词对应的段落中的位置信息。

在遍历到当前段落的各个位置信息后，依次在该段落中提取每个位置信息后的M-1个特征词。

将每次提取的M-1个特征词，与匹配到的词长M大于1的术语进行匹配。

如果提取的M-1个特征词，与匹配到的词长M大于1的术语进行匹配成功，则将该术语的行业类别属性作为当前特征词在其对应的当前段落所归属的行业类别属性。

例如：当前的特征词为“数据库”，匹配到的术语为“数据库软件”；匹配到术语的第一个词“数据库”匹配成功。术语“数据库软件”的词长M=2＞1，则遍历“数据库”所在段落中的位置信息Loc1-1、Loc1-2、…。在位置Loc1-1之后，找到下一个特征词“软件”。将特征词“软件”与术语“数据库软件”中的第二个词“软件”进行匹配。匹配成功后，将术语“数据库软件”的行业类别信息作为特征词“数据库”在段落SegNum1中的行业类别信息。以此类推，遍历完所有位置信息后，得到匹配成功的数量记为该特征词的术语的词频，此时，该特征词的术语的词频不大于特征词的词频。因此可能在其他位置信息处，“数据库”后面的特征词不是“软件”，则此时匹配不成功。

记录的该特征词或者由多个特征词构成的特征词串的术语的词频，可用于在确定每个段落的包含相同的最多的行业类别属性的过程中，通过统计该段落的特征词或者由多个特征词构成的特征词串的术语的词频，将具有同类的术语的词频之和的最大值对应的行业类别属性即为该段落的类别属性。

4）根据对应关系，确定每个段落包含相同的最多的行业类别属性。

5）按照最多的行业类别属性对每个段落分类。

例如，若A段落所匹配到的术语数属于B行业的有8个，属于C行业的有1个，则将A段落标记为B行业类别属性。

6）合并同类的段落，得到按照行业拆分后的待译文档。

优选的，将待译文档按照翻译难度系数进行拆分的过程包括：

1）按照待译文档的每个段落的词汇等级grade_word、类符形符比STTR和实义词密度density_notional计算待译文档的每个段落的词汇复杂度。同样可以按照将待译文档按照行业类别属性进行拆分的过程中的分段方法对待译文档的段落重新划分。

①按照待译文档的每个段落的词汇等级grade_word计算的过程包括：

统计待译文档的每个段落的总词汇数word。其中术语“词汇”不应仅理解为英文单词，还应理解为具有字形结构的字，例如汉字、日文、韩文等；和/或具有字母形结构的单词，例如法文、俄文等；并且所有词汇应理解为包含有重复的词汇。

将得到的每个词汇在词汇分级表中进行匹配，得到每个词汇的词汇级别，词汇级别为一级、二级、三级或四级。其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级。

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

分别统计词汇级别为二级或二级以上的级别的词汇的数量。

按照

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

得到待译文档的每个段落的词汇等级grade_word，其中，word_x为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为通过样本得到的词汇等级调节系数，属于第三级调节系数，词汇等级调节系数为多元线性回归系数，通过最小二乘法得到。通过样本数据得到K₁₁₁、K₁₁₂和K₁₁₃的具体计算方法如下：

令：Y=grade_word，

X_{1} = \frac{{word}_{2}}{word},

X_{2} = \frac{{word}_{3}}{word},

X_{3} = \frac{{word}_{4}}{word};

对于采集到的n组样本数据：

{X₁₁，X₁₂，X₁₃}；

{X₂₁，X₂₂，X₂₃}

……；

{X_n1，X_n2，X_n3}；

对应给出用户设定的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ M \\ Y_{n} \end{matrix}\},

该词汇等级可以任意设定，优选便于计算的数据，一般为1～10。由于采用的样本数据的数量很大，人为的因素影响可以忽略不计。

由此可以获得以下线性方程组：

Y₁=K₁₁₁·X₁₁+K₁₁₂·X₁₂+K₁₁₃·X₁₃;

Y₂=K₁₁₁·X₂₁+K₁₁₂·X₂₂+K₁₁₃·X₂₃;

……；

Y_n=K₁₁₁·X_n1+K₁₁₂·X_n2+K₁₁₃·X_n3；

得到：

[\begin{matrix} K_{111} \\ K_{112} \\ K_{113} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y;

其中，

X = [\begin{matrix} X_{11} & X_{12} & X_{13} \\ X_{21} & X_{22} & X_{23} \\ M \\ X_{n 1} & X_{n 2} & X_{n 3} \end{matrix}],

Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ M \\ Y_{n} \end{matrix}],

X'为X的转置矩阵。

②按照待译文档的每个段落的类符形符比STTR计算的过程包括：

统计文档中的形符，即文档中出现的总词汇数。

统计文档中的类符，即文档中出现的不相同的词汇数。

类符形符比代表了词汇变化率，和文档汇总词汇的丰富程度。类符形符比的比率越高，说明该文本所使用的不同词汇越多，其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的，所以当文档越大，类符形符比就会越小，统计出的类符形符比就会失真。因此实际处理可以按每文档标准数量ST（比如ST取值1000）个词汇为单位进行类符形符比计算，最后将所有类符形符比的均值作为最终取值，即标准类符形符比。不足文档标准数量的文档，直接进行类符形符比计算。

具体计算方法为以下两种：

A、根据待译文档的每个段落的所有词汇，统计待译文档的每个段落的类符数和形符数，计算类符数与形符数之比，得到待译文档的每个段落的类符形符比；或者，

B、将待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落，及一个不足段落标准数量词汇的子段落，得到待译文档的每个段落的类符形符比

STTR = \{\begin{matrix} \frac{1}{(m + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{j = 1}^{m} {type}_{j}), & m &GreaterEqual; 1 \\ \frac{type}{token}, & m = 0 \end{matrix};

③按照待译文档的每个段落的实义词密度density_notional计算的过程包括：

统计待译文档的实义词密度的过程已经对所有词汇进行了词性标注。

根据同义词本体工具得到待译文档的每个段落的第t个实义词的义项数meanings_t；

统计待译文档的每个段落的实义词的义项总数；

按照

density_notional = \frac{Σ_{t = 1}^{count_notional} {menaings}_{t}}{Σ_{t = 1}^{count_notional} {menaings}_{t} + (word - count_notional)}

得到待译文档的每个段落的实义词密度density_notional；其中，count_notional为待译文档的每个段落的所述实义词的数量，1≤t≤count_notional。

计算词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序，可以分别计算，也可以同时计算。

④得到待译文档的每个段落的词汇复杂度diff_word。

diff_word=K₁₁·grade_word+K₁₂·STTRP+K₁₃·density_notional，其中，K₁₁、K₁₂和K₁₃为通过样本得到的词汇复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。采集样本数据的diff_word、grade_word、STTR、density_notional，通过与词汇等级调节系数相同的计算方法构建线性方程组得到K₁₁、K₁₂和K₁₃。

2）计算待译文档的每个段落的语句复杂度diff_sentence。

术语“整句”应该理解为表达了完整的意思的词汇集合，例如：文档首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合。

术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合。

术语“长句”应该理解为词汇数量大于预定阈值的整句。

本文中的第一类和第二类只用于区分。

①确定待译文档的每个段落的所有整句，并统计整句的总数，记作count_sentence。将词汇数量大于预定阈值的整句作为长句。

②将每个段落的总词汇数除以每个段落的整句数，得到每个段落的整句的平均长度MLS。

③将每个段落的总词汇数除以每个段落的第一类子句的数量，得到每个段落的第一类子句的平均长度MLC。

④统计每个段落的第e个长句的长度word_long_e，其中，1≤e≤count_long_i。

⑤按照

MLL = \frac{1}{count_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的长句的平均长度MLL，其中，count_long为每个段落的长句数。

⑥按照

MLCL = \frac{1}{count_clause_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的第二类子句的平均长度MLCL；其中，count_clause_long为每个段落的第二类子句的数量。

⑦按照diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL得到待译文档的每个段落的语句复杂度diff_sentence；其中，K₂₁、K₂₂、K₂₃和K₂₄为通过样本计算得到语句复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。采集样本数据的MLS、MLC、MLCL、diff_sentence，通过与词汇等级调节系数相同的计算方法构建线性方程组得到K₂₁、K₂₂、K₂₃和K₂₄。

3）根据词汇复杂度和语句复杂度按照

diff_doc=K₁·diff_word+K₂·diff_sentence得到待译文档的每个段落的翻译难度系数diff_doc，其中，K₁和K₂为通过样本计算得到翻译难度调节系数，所述翻译难度调节系数为多元线性回归系数，通过最小二乘法得到。采集样本数据的diff_doc、diff_word、diff_sentence，通过与词汇等级调节系数相同的计算方法构建线性方程组得到K₁和K₂。

4）合并具有相同翻译难度系数的段落，得到按照所述翻译难度系数拆分后的待译文档。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种待译文档的预处理方法，其特征在于，包括：

统计所述待译文档包括的行业类别属性的数量和所述待译文档的实义词密度；

分别判断所述待译文档包括的行业类别属性的数量相对于行业类别属性设定阈值的大小、所述待译文档的实义词密度相对于实义词密度设定阈值的大小，根据所述待译文档的实义词密度相对于实义词密度设定阈值的大小匹配所述待译文档的翻译难度系数；

根据这两种判断结果选择将所述待译文档按所述行业类别属性或者所述待译文档的翻译难度系数拆分。

2.如权利要求1所述的待译文档的预处理方法，其特征在于：

如果所述待译文档的行业类别属性不小于行业类别属性设定阈值，则将所述待译文档按照所述行业类别拆分；

如果所述待译文档的行业类别属性小于行业类别属性设定阈值，且所述待译文档的实义词密度不小于实义词密度设定阈值，则将所述待译文档按照所述待译文档的翻译难度系数拆分；

如果所述待译文档的行业类别属性小于行业类别属性设定阈值，且所述待译文档的实义词密度小于实义词密度设定阈值，则将所述待译文档按照所述行业类别拆分。

3.如权利要求1或2所述的待译文档的预处理的方法，其特征在于，统计所述待译文档包括的行业类别属性的数量的过程包括：

去除所述待译文档中的停用词和没有具体意义的词语，得到所述待译文档的特征词；

将所述待译文档的各个所述特征词逐个在术语语料库中匹配，记录每个所述特征词或者由多个所述特征词构成的特征词串匹配的术语的行业类别属性；

统计匹配到的行业类别属性的数量。

4.如权利要求1或2所述的待译文档的预处理的方法，其特征在于：统计所述待译文档的实义词密度的过程包括：

统计所述待译文档的总词汇数wordD;

对所述待译文档的所有所述词汇进行词性标注，得到其中的实义词，所述实义词至少包括以下之一的词性：名词、代名词、动词、形容词、副词和感叹词；

根据同义词本体工具得到所述待译文档的第i个实义词的义项数meanings_i；

统计所述待译文档的所述实义词的义项总数；

按照

density_notionalD = \frac{Σ_{i = 1}^{count_notionalD} {menaings}_{i}}{Σ_{i = 1}^{count_notionalD} {menaings}_{i} + (wordD - count_notionalD)}

5.如权利要求3所述的待译文档的预处理的方法，其特征在于：所述将所述待译文档按照所述行业类别属性拆分的过程包括：

获取所述待译文档的每个段落的所述特征词，建立所述每个段落与其包含的各个所述特征词的对应关系；

将所述待译文档的各个所述特征词逐个在术语语料库中匹配，将每个所述特征词或者由多个所述特征词构成的所述特征词串匹配的术语的行业类别属性，作为所述特征词或者由多个所述特征词构成的所述特征词串所对应的所述每个段落所归属的行业类别属性；

根据所述对应关系，确定所述每个段落包含相同的最多的行业类别属性；

按照所述最多的行业类别属性对每个所述段落分类；

合并同类的所述段落，得到按照行业类别属性拆分后的待译文档。

6.如权利要求4所述的待译文档的预处理的方法，其特征在于：所述将所述待译文档按照所述翻译难度系数拆分的过程包括：

按照所述待译文档的每个段落的词汇等级grade_word、类符形符比STTR和实义词密度density_notional计算所述待译文档的每个段落的词汇复杂度;

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional，其中，K₁₁、K₁₂和K₁₃为词汇复杂度调节系数；

计算所述待译文档的每个段落的语句复杂度diff_sentence；

根据所述词汇复杂度和所述语句复杂度按照diff_doc=K₁·diff_word+K₂·diff_sentence得到所述待译文档的每个段落的翻译难度系数diff_doc，其中，K₁和K₂为翻译难度调节系数；

合并具有相同所述翻译难度系数的段落，得到按照所述翻译难度系数拆分后的待译文档。

7.如权利要求6所述的待译文档的预处理的方法，其特征在于，所述按照所述待译文档的每个段落的词汇等级grade_word计算的过程包括：

统计所述待译文档的每个段落的总词汇数word；

将得到的每个词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别，所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

按照

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

8.如权利要求6所述的待译文档的预处理的方法，其特征在于，所述按照所述待译文档的每个段落的类符形符比STTR计算的过程包括：

根据所述待译文档的每个段落的所有词汇，统计每个段落的类符数和形符数，通过所述每个段落的类符数与形符数之比得到所述待译文档的每个段落类符形符比；或者，

将所述待译文档的每个段落的所有词汇按照段落标准数量划分为多个子段落，得到所述待译文档的每个段落的类符形符比

STTR = \{\begin{matrix} \frac{1}{(m + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{j = 1}^{m} {type}_{j}), & m &GreaterEqual; 1 \\ \frac{type}{token}, & m = 0 \end{matrix};

9.如权利要求6所述的待译文档的预处理的方法，其特征在于，所述按照所述待译文档的每个段落的实义词密度density_notional计算的过程包括：

根据同义词本体工具得到所述待译文档的每个段落的第t个实义词的义项数meanings_t；

统计所述待译文档的每个段落的所述实义词的义项总数；

按照

density_notional = \frac{Σ_{t = 1}^{count_notional} {menaings}_{t}}{Σ_{t = 1}^{count_notional} {menaings}_{t} + (word - count_notional)}

10.如权利要求6所述的待译文档的预处理的方法，其特征在于，所述计算所述待译文档的每个段落的语句复杂度diff_sentence包括：

将每个段落的所述总词汇数除以每个段落的整句数，得到每个段落的所述整句的平均长度MLS；

将每个段落的所述总词汇数除以每个段落的第一类子句的数量，得到每个段落的所述第一类子句的平均长度MLC；

统计每个段落的第e个所述长句的长度word_long_e，其中，1≤e≤count_long；

按照

MLL = \frac{1}{count_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的所述长句的平均长度MLL，其中，count_long为每个段落的长句数；

按照

MLCL = \frac{1}{count_clause_long} \cdot Σ_{e = 1}^{count_long} {word_long}_{e}

得到每个段落的第二类子句的平均长度MLCL；其中，count_clause_long为每个段落的所述第二类子句的数量；

按照diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL得到所述待译文档的每个段落的所述语句复杂度diff_sentence；其中，K₂₁、K₂₂、K₂₃和K₂₄为语句复杂度调节系数。