CN103761226A

CN103761226A - 按文档的字符属性碎片化的方法

Info

Publication number: CN103761226A
Application number: CN201310750311.5A
Authority: CN
Inventors: 江潮
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-04-30
Anticipated expiration: 2033-12-30
Also published as: CN103761226B

Abstract

本发明公开了一种按文档的字符属性碎片化的方法，包括：确定分词处理后的各个文档的所有词汇和所有语句的字符属性；根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配；根据匹配后的级别标识赋予相应的所述文档；合并级别标识相同的文档。本发明通过提供一种按文档的字符属性碎片化的方法，将不同难度级别的翻译碎片，分配给合适的译员，能够最有效的促进分工，极大的提高单位翻译产能。

Description

按文档的字符属性碎片化的方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种按文档的字符属性碎片化的方法。

背景技术

在这个全球化、国际化的今天，世界政治、经济、文化的交流越来越频繁，各国人员的往来也越来越密集，使得对翻译的需求也越来越大；同时随着互联网的兴起，各语种的信息量爆发性的增长，各语种信息之间的转换需求也呈快速爆发性增长的态势。

目前最常用的碎片化方法，是按固定字数或按自然段落进行碎片化，这种方法快速易行，不需花费很多的计算资源，即可完成，在一些对语种和分类要求不是很强烈的应用场景不失为一种很好的碎片化方法；按语种进行碎片化的方法，该方法应用于对翻译方向要求很明确的场合，对于给定的翻译文档，判断出其中每一种文字，最大化的截取并组合之；按任务标题进行碎片化的方法，是通过对任务标题进行分词，并判断其所属的类别，从而对任务所属类别进行判断，这是一种简单的按类别进行碎片化的方法。面对海量的多语信息转换和翻译任务，目前自翻译的模式或小规模工作间式的翻译模式已完全无法适应，采用普通的任务平均分配和流水作业的方法，不能将合适的翻译任务分配给合适的译员，以致效率很低而且无法利用信息化平台进行自动化的高效处理。

发明内容

有鉴于此，本发明的目的是提出一种按文档的字符属性碎片化的方法,以解决如何将最合适的翻译任务分配给最合适的译员的问题和能够在大规模并行分布处理的云翻译平台上对所输入的多语信息标准化和可度量化的要求。

本发明公开了一种译稿按难度等级碎片化的方法，包括：

确定分词处理后的各个文档的所有词汇和所有语句的字符属性；

根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配；

根据匹配后的级别标识赋予相应的所述文档；

合并级别标识相同的文档。

在一些可选的实施例中，所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括：

确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional，得到所述词汇的字符属性，记为词汇复杂度diff_word，

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional

其中，K₁₁、K₁₂、K₁₃为通过给定样本所计算出的词汇复杂度调节系数。

在一些可选的实施例中，确定所述词汇等级difdiff_word的过程包括：

将所述所有词汇与其所属语种的词汇分级表中进行匹配，得到所述所有词汇的等级，分别为一级、二级和三级，未出现在这3个级别中的词汇为四级；统计二级和二级以上的词汇数量和所述文档的总词汇数；计算得到如下词汇等级difdiff_word，

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

其中，word₂、word₃和word₄分别为二级、三级和四级的词汇数量，word为所述文档的总词汇数量，K₁₁₁、K₁₁₂、K₁₁₃为通过给定样本所计算出的词汇等级调节系数。

在一些可选的实施例中，确定所述类符形符比的过程包括：

统计所述文档的形符和类符，所述形符为所述文档的总词汇数量，所述类符为所述文档的不相同的词汇数量，若所述形符不足标准数量，则计算类符与形符之比，得到所述类符形符比；

若所述形符大于等于标准数量，则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档；

按照类符形符比计算公式，计算得到所述类符形符比，所述类符形符比计算公式如下：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

其中，token为所述不足标准数量的的子文档的形符数，type为所述不足标准数量子文档的类符数，n为所述含标准数量个词汇的子文档的数量，type_i为n子文档中第i个子文档的类符数，ST为所述标准数量的表示值。

在一些可选的实施例中，确定所述实义词词义密度的过程包括：

对所有词汇进行词汇标注，得到所述文档的实义词，所述实义词至少包括以下词性之一：名词、代名词、动词、形容词、副词和感叹词；

统计所述文档中的所述所有词汇中的实义词的数量；统计每个实义词的义项数；根据所述每个实义词的义项数，将每个实义词的义项数相加得到所有实义词的实义总数；

根据实义词实义密度计算公式，计算得到实义词词义密度，所述实义词实义密度计算公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

其中，count_notional为所述实义词的数量，meanings_i（1≤i≤count_notional）为第i个实义词的义项数。

在一些可选的实施例中，所述确定分词处理后的各个文档的所有语句的字符属性的过程包括：

统计所述文档中的整句数，计算得到平均整句长度MLS；

统计所述文档中的子句数，确定平均子句长度MLC；

统计所述文档中的长句数以及每个长句的长度即该长句的词汇数，确定平均长句长度MLL；

统计所述文档中的每个长句的子句数，确定长句中平均子句长度MLCL；

根据所述的平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句中平均子句长度MLCL，得到所述语句的字符属性，记为语句复杂度 diff_sentence，

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL

其中，K₂₁、K₂₂、K₂₃、K₂₄为通过给定样本所计算出的语句复杂度调节系数。

在一些可选的实施例中，所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、和长句中平均子句长度MLCL分别通过如下方式得到，

MLS=word/count_sentence；MLC=word/count_clause；

MLL= \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

其中，count_sentence为所述文档中的整句数，count_clause为所述文档中的子句数，count_long为所述文档中的长句数，count_clause_long为所述文档中的长句的所有子句数，word为总词汇数，word_long_i为每个所述长句的长度，i为所述长句的序号。

在一些可选的实施例中，所述根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程包括：

根据所述的词汇的字符属性和语句的字符属性，确定文档的翻译难度系数diff_doc按照diff_doc=K₁·diff_word+K₂·diff_sentence得到；其中，K₁、K₂为通过给定样本计算出的翻译难度调节系数。

在一些可选的实施例中，根据所述翻译难度的系数，将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档，统计并合并所述级别标识相同的文档，得到划分好的碎片。

本发明通过计算词汇复杂度和语句复杂度，最终计算得到文档翻译难度，将相同翻译难度等级的文档碎片，分配给最合适的译员，提高了翻译的准确性和翻译的效率，能够最有效的促进分工，极大的提高了单位翻译产能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出一些说明性实施例中的流程图。

具体实施方式

以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图1所示，为本发明的按文档的字符属性碎片化方法的流程图。该方法的具体步骤如下：

S11、确定分词处理后的各个文档的所有词汇和所有语句的字符属性；

S12、根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配；

S13、根据匹配后的级别标识赋予相应的所述文档；

S14、合并级别标识相同的文档。

基于上述方法，以上提供一个优选的实施例：

1、确定分词处理后的各个文档的所有词汇和所有语句的字符属性，过程包括：

（1）确定分词处理后的各个文档的所有词汇的字符属性。

确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional，得到所述词汇的字符属性，记为词汇复杂度diff_word。

1）计算文档的词汇等级，具体如下：

将所述所有词汇与其所属语种的词汇分级表进行匹配，得到所述所有词汇的等级，分别为一级、二级和三级，未出现在这3个级别中的词汇为四级。

每个语种都会根据其字或词汇在实际使用中出现的频率，对字或词汇进行分级处理。本技术方案根据各个语种对字或词汇的各种权威分级规范，建立各个语种的字或词汇分级表，将每个语种的字或词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

根据各语种的字或词汇分级表，统计翻译任务中所出现的各个级别的字或词汇数，分别为word1、word2、word3、word4，其中word1至word3 对应1至3级字或词汇数，word4为未出现在这3个级别中的字或词汇数；

统计二级以上的词汇数量和所述文档的总词汇数；

计算二级及以上的字或词汇所占的比率，等级为二级的词汇所占的比率为

等级为三级的词汇所占的比率为

等级为四级的词汇所占的比率为

根据词汇等级计算公式，计算得到所述词汇等级，所述词汇等级的计算公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

其中，K₁₁₁、K₁₁₂、K₁₁₃为通过给定样本所计算出的词汇等级调节系数，属于第三级调节系数，该调节系数为多元线性回归系数，通过最小二乘法计算得到。具体计算方法如下：

令：Y=grade_word，

X_{1} = \frac{{word}_{2}}{word},

X_{2} = \frac{{word}_{3}}{word},

X_{3} = \frac{{word}_{4}}{word}

对于采集到的n组样本数据：

{X₁₁，X₁₂，X₁₃｝

｛X₂₁，X₂₂，X₂₃｝

·

{X_n1，X_n2，X_n3}

根据用户设置的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}\}

由此可以获得以下线性方程组：

Y₁=K₁₁₁·X₁₁+K₁₁₂·X₁₂+K₁₁₃·X₁₃

Y₂=K₁₁₁·X₂₁+K₁₁₂·X₂₂+K₁₁₃·X₂₃

Y_n=K₁₁₁·X_n1+K1₁2·X_n2+K₁₁₃·X_n3

则：

[\begin{matrix} K_{111} \\ K_{112} \\ K_{113} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y

其中，

X = [\begin{matrix} X_{11} X_{12} X_{13} \\ X_{21} X_{22} X_{23} \\ \cdot \\ \cdot \\ \cdot \\ X_{n 1} X_{n 2} X_{n 3} \end{matrix}],

Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}],

X′为X的转置矩阵

2）计算标准类符形符比，具体如下：

类符形符比（TTR）代表了词汇变化率，和文档汇总词汇的丰富程度。TTR的比率越高，说明该文本所使用的不同词汇越多，其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的，所以当文档越大，类符形符比就会越小，统计出的类符形符比就会失真。所以实际处理可以按每标准数量ST（比如ST取值1000）个词汇为单位进行TTR计算，最后将所有TTR的均值作为最终取值，即标准类符形符比（STTR，Standard TTR）。不足标准数量的文档，直接进行TTR计算。

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

3）计算实义词词义密度，具体如下：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

对所有词汇进行词汇标注，得到所述文档的实义词，所述实义词至少包括以下词性之一：名词、代名词、动词、形容词、副词和感叹词。

统计文档中实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

根据wordnet、知网、同义词词林等同义词本体工具，统计每个实义词的义项数，meanings_i（1≤i≤count_notional）为第i个实义词的义项数。

计算实义词词义总数：统计所有实义词的义项，将所有实义词的义项数相加即为所有实义词的词义总数。

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

其中，计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序，可以分别计算，也可以同时计算。

根据词汇等级、类符形符比和实义词词义密度，计算词汇复杂度；

根据词汇复杂度计算公式，计算得到所述文档的所述词汇复杂度，所述词汇复杂度的计算公式如下：

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional

其中，grade_word为所述文档的词汇等级，STTR为所述文档的类符形符比，density_notional为所述文档的实义词词义密度，K₁₁、K₁₂、K₁₃为通过给定样本所计算出的词汇复杂度调节系数属于第二级调节系数，该调节系数为多元线性回归系数，通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

（2）确定分词处理后的各个文档的所有语句的字符属性。

所述语句包括3个方面：整句、子句和长句，其中，所述整句应当理解为表达了完整的意思的字或词汇集合，以句号、感叹号、问好、省略号为结束符号；所述子句应当理解为是构成整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇的集合；所述长句应当理解为所含字或词汇数大于固定阀值的整句，所述阀值根据需要设定。

统计所述文档中的整句数，记为count_sentence；统计所述文档中的子句数，记为count_clause；统计所述文档中的长句数，记为count_long；统计所述文档中的每个长句的子句数，记为count_clause_long；统计每个长句的长度，即该长句的词汇数word_long_i，1≤i≤count_long；

计算平均整句长度（MLS，mean length of sentence）,计算方法为：

MLS=word/count_sentence；

计算平均子句长度（MLC，mean length of clause）,计算方法为：

MLC=word/count_clause；

计算平均长句长度（MLL，mean length of long sentence），计算方法为：

MLL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i}

长句中平均子句长度（MLCL，mean length of clause of long sentence），计算方法为：

MLCL = \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i}

根据所述的平均整句长度MLS、平均子句长度MLC、长度平均长句长度MLL、长句中平均子句长度MLCL，得到所述语句的字符属性，记为语句复杂度diff_sentence，

根据语句复杂度计算公式，计算得到所述文档的所述语句复杂度，所述语句复杂度计算公式如下：

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL

其中，K₂₁、K₂₂、K₂₃、K₂₄为通过给定样本所计算出的语句复杂度调节系数，属于第二级调节系数，该调节系数为多元线性回归系数，通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

2、根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程如下：

根据所述的词汇的字符属性和语句的字符属性，确定文档的翻译难度系数，根据翻译难度系数的计算公式，计算所述文档的翻译难度系数，所述翻译难度计算公式如下：

diff_doc=K₁·diff_word+K₂·diff_sentence

其中，diff_word为所述词汇复杂度，diff_sentence为所述语句复杂度，K₁、K₂为通过给定样本计算出的翻译难度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数，通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。

3、根据匹配后的级别标识赋予相应的所述文档。

根据所述翻译难度的系数，将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档。统计并合并所述级别标识相同的文档，得到划分好的碎片

4、合并级别标识相同的文档。

统计并合并所述级别标识相同的文档，得到划分好的碎片。

以上技术方案，合理的将最合适的翻译任务分配给最合适的译员，提高了翻译的准确性和翻译的效率，能够最有效的促进分工，极大的提高了单位翻译产能。

以上参照附图说明了本发明的优选实施例，并非此次局限本发明的权利范围，凡在运用本发明的技术构思之内所作的任何修改和等同替换，均应在本发明的权利范围之内。

Claims

1.一种按文档的字符属性碎片化的方法，其特征在于包括：

根据匹配后的级别标识赋予相应的所述文档；

合并级别标识相同的文档。

2.根据权利要求1所述的方法，其特征在于，所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括：

diff_word=K₁₁·grade_word+K₁₂·STTR+K₁₃·density_notional

3.根据权利要求2所述的方法，其特征在于，确定所述词汇等级diff_word的过程包括：

将所述所有词汇与其所属语种的词汇分级表中进行匹配，得到所述所有词汇的等级，分别为一级、二级和三级，未出现在这3个级别中的词汇为四级；统计二级和二级以上的词汇数量和所述文档的总词汇数；计算得到如下词汇等级grade_word，

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word}

4.根据权利要求2所述的方法，其特征在于，确定所述类符形符比的过程包括：

STTR = \begin{matrix} \frac{1}{(n + 1) \cdot ST \cdot token} \cdot (type \cdot ST + token \cdot Σ_{i = 1}^{n} {type}_{i}), & (n &GreaterEqual; 1) \\ \frac{type}{token}, & (n = 0) \end{matrix}

其中，token为所述不足标准数量的子文档的形符数，type为所述不足标准数量子文档的类符数，n为所述含标准数量个词汇的子文档的数量，type_i为n子文档中第i个子文档的类符数，ST为所述标准数量的表示值。

5.根据权利要求2所述的方法，其特征在于，确定所述实义词词义密度的过程包括：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

6.根据权利要求1所述的方法，其特征在于，所述确定分词处理后的各个文档的所有语句的字符属性的过程包括：

统计所述文档中的整句数，计算得到平均整句长度MLS；

统计所述文档中的子句数，确定平均子句长度MLC；

统计所述文档中的长句数以及每个长句的长度即长句的词汇数，确定平均长句长度MLL；

根据所述的平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句中平均子句长度MLCL，得到所述语句的字符属性，记为语句复杂度diff_sentence，

diff_sentence=K₂₁·MLS+K₂₂·MLC+K₂₃·MLL+K₂₄·MLCL

7.根据权利要求6所述的方法，其特征在于，所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句中平均子句长度MLCL分别通过如下方式得到:

MLS=word/count_sentence；

MLC=word/count_clause；

MLL= \frac{1}{count_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

MLCL = \frac{1}{count_clause_long} \cdot Σ_{i = 1}^{count_long} word_{long}_{i};

8.根据权利要求1所述的方法，其特征在于，所述根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程包括：

9.根据权利要求8所述的方法，其特征在于，根据所述翻译难度的系数，将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档，统计并合并所述级别标识相同的文档，得到划分好的碎片。