CN103729344A

CN103729344A - 一种文档稿件中语句标注的方法

Info

Publication number: CN103729344A
Application number: CN201310746427.1A
Authority: CN
Inventors: 江潮
Original assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2013-12-30
Filing date: 2013-12-30
Publication date: 2014-04-16
Anticipated expiration: 2033-12-30
Also published as: CN103729344B

Abstract

本发明公开了一种文档稿件中语句标注的方法，包括：确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。本发明解决了无法对文档中的翻译难点进行统一标注的问题，并且提高了对语句标注的准确性，同时节省了所需要的大量人力资源。

Description

一种文档稿件中语句标注的方法

技术领域

本发明涉及翻译技术领域，具体而言，涉及一种文档稿件中语句标注的方法。

背景技术

对译稿进行审校是翻译流程中非常重要的环节，为保证翻译质量，一个完整的翻译流程对翻译稿件一般会有1-2次的审校过程。一般情况下，通过校对人员找到并标注翻译过程中出现的问题，然后由审校人员进行审阅并解决，这些翻译过程中出现的问题主要包括：翻译难点、专业术语的一致性、源语言句子错误、源语言上下文不一致等。对翻译难点的判定和标注是其中最常见也是最重要的问题，普通对于翻译难点判断和标注是通过校正人员人工发现并标注的方法来实现，这种方法由于不同校对人员对于翻译难度的理解不一致，相对比较主观，无法做到准确、一致，同时这个过程也需要耗费大量的人力。

发明内容

本发明旨在提供一种文档稿件中语句标注的方法，解决了无法对翻译难点进行准确、一致的标记的问题。

本发明公开了一种文档稿件中语句标注的方法，包括：

确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；

根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；

将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。

优选地，所述词汇参数至少包括：

词汇等级、习语数和实义词密度。

优选地，分析所述词汇等级的过程包括：

扫描出所述语句中的所有词汇；

将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

按照词汇等级计算公式计算出所述语句的词汇等级，所述词汇等级计算公式如下：

grad e_word = K_{11} \cdot \frac{{word}_{2}}{word} + K_{12} \cdot \frac{{word}_{3}}{word} + K_{13} \cdot \frac{{word}_{4}}{word};

其中，word_x为词汇级别为X级的词汇的数量，K₁₁、K₁₂和K₁₃为词汇等级调节系数，word为所述语句中的词汇的总数。

优选地，分析语句中的实义词密度的过程包括：

确定所述语句中的所有词汇，并对每个词汇进行词性标注，筛选出所述词汇中的所有实义词；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具得到每个所述实义词的义项数meanings_i，并统计所述实义词的义项总数；其中i为所述实义词的序号；

按照实义词词义密度计算公式计算，得到所述语句的实义词词义密度；所述实义词词义密度计算公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，meanings_i为第i个实义词的的义项数，count_notional为所述实义词的数量，density_notional为所述语句的实义词密度。

优选地，分析所述语句中的习语数的过程包括：

通过习语本体工具找到所述语句中的所有习语，并统计所述习语的数量。

优选地，所述语句参数至少包括：

语句长度、语句中的子句数和所述子句的平均长度。

优选地，所述语句中的词汇数量作为所述语句长度。

优选地，分析所述语句的子句平均长度的过程包括：

统计所述语句中的子句数量；

将所述语句中的词汇总数除以所述子句数量，结果作为所述子句的平均长度。

优选地，所述语句的属性参数为翻译难度值；

计算所述翻译难度值的过程包括：

根据翻译难度计算公式计算，得到语句的翻译难度值；所述翻译难度计算公式如下：

diff_sentence=K₁·word+K₂·grade_word+K₃·density_notional+K₄·count_clause+K₅·MLC+K₆·count_idiom；

其中，diff_sentence为所述语句的翻译难度值，word为所述语句的句长，grade_word为所述语句的词汇等级，density_notional为所述语句的实义词密度，count_clause为所述语句的子句数，MLC为语句中的子句的平均长度，count_idiom为所述语句的习语数，K₁、K₂、K₃、K₄、K₅和K₆为语句翻译难度调节系数。

本发明中的文档稿件中语句标注的方法，具有以下优点：

1、在文档中准确、一致的找到并标记文档中的翻译难点；

2、节省了所需的大量人力资源。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合，例如：语句首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合；

本文所使用的术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合；

本文所使用的术语“习语”即习惯用语，应理解为词语集合的一种约定俗成的表示。

本发明公开了一种文档稿件中语句标注的方法，包括：

S11、确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；

S12、根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；

S13、将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。

基于上述方法，以下提供一个优选地实施例，用于对翻译难度进行标注，具体如下：

确定源文档及与源文档具有映射关系的译稿；

扫描出源文档中的所有语句；

对每个语句进行如下处理：

扫描语句，对语句进行分词处理，得到语句中的所有词汇，并统计出词汇总数；

1）、统计语句的句长：

语句的词汇总数，即为语句的句长word；

2）、统计语句的子句数：

统计语句的子句数量，作为子句数count_clause；

3）、计算语句的子句的平均长度：

对于语句来说，子句的越长对与理解得难度越大。

计算子句平均长度，MLC=word/count_clause，MLC为子句的平均长度。

4）、计算语句的词汇等级：

将得到的每个词汇在词汇分级表中进行匹配，获得每个词汇所匹配的级别，该级别为一级、二级、三级或四级；其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级；

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

统计级别为一级的词汇数量为word₁，统计级别为二级的词汇数量为word₂，统计级别为三级的词汇数量为word₃，统计级别为四级的词汇数量为word₄；

统计语句中的所有词汇的数量，作为总词汇数word；

计算二级及以上的词汇在语句中所占的比率，如下：

级别为二级的词汇所占比率为

级别为三级的词汇所占比率为

和级别为四级的词汇所占比率为

按照词汇等级计算公式进行计算得到语句的词汇等级；公式如下：

grad e_word = K_{11} \cdot \frac{{word}_{2}}{word} + K_{12} \cdot \frac{{word}_{3}}{word} + K_{13} \cdot \frac{{word}_{4}}{word};

其中，grade_word为词汇等级，K₁₁、K₁₂和K₁₃为给定样本所计算出的词汇等级调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下：

令：

Y = grad e_word, X_{1} = \frac{{word}_{2}}{word}, X_{2} = \frac{{word}_{3}}{word}, X_{3} = \frac{{word}_{4}}{word}

对于采集到的n组样本数据：

{X₁₁，X₁₂，X₁₃}

{X₂₁，X₂₂，X₂₃}

.

{X_nl，X_n2，X_n3}

对应给出经过对样本数据计算得到的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}\}

由此可以获得以下线性方程组：

Y₁=K₁₁.X₁₁+K₁₂.X₁₂+K₁₃.X₁₃

Y₂＝K₁₁·X₂₁+K₁₂·X₂₂+K₁₃·X₂₃

.

Y_n=K₁₁.X_n1+K₁₂.X_n2+K₁₃.X_n3

通过最小二乘法可以得到多元线性回归系数：

[\begin{matrix} K_{11} \\ K_{12} \\ K_{13} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y

其中,

X = [\begin{matrix} X_{11} X_{12} X_{13} \\ X_{21} X_{22} X_{23} \\ \cdot \\ \cdot \\ \cdot \\ X_{n 1} X_{n 2} X_{n 3} \end{matrix}], Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ \cdot \\ \cdot \\ \cdot \\ Y_{n} \end{matrix}],

X′为X的转置矩阵。

得到的调节系数通过大量样本数据进行计算，得到的可忽略人为因素的客观数据，得到的调节系数之间同时具有关联性。

5）、计算语句的实义词密度：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

对每个词汇进行词性标注，统计语句中词汇的实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

将得到的所有所述实义词按照一定顺序进行排列；其中，实义词的顺序可以通过以实义词的大小顺序或扫描出的先后顺序，或其他顺序进行排列。

根据同义词本体工具，统计每个实义词的义项数meanings_i（1≤i≤count_notional）；其中，i为实义词的序号；

统计所有实义词的义项，将所有实义词的义项数相加得到所有实义词的总义项数。

按照实义词词义密度计算公式计算得到语句的实义词词义密度；公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)}

其中，density_notional为实义词词义密度，meanings_i为第i个实义词的义项数。

6）、统计语句中的习语数；

通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom；

7）、计算语句的翻译难度值：

按照翻译难度计算公式计算得到语句的翻译难度值，公式如下：

diff_sentence

=K₁·word+K₂·grade_word+K₃·density_notional+K₄·count_clause+K₅·MLC+K₆·count_idiom

其中，diff_sentence为所述语句的翻译难度值，word为所述语句的句长，grade_word为所述语句的词汇等级，density_notional为所述语句的实义词密度，count_clause为所述语句的子句数，MLC为语句中的子句的平均长度，count_idiom为所述语句的习语数，K₁、K₂、K₃、K₄、K₅和K₆为给定样本所计算出的翻译难度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。

8）、标注：

将翻译难度值大于预定阈值的语句在其所在的源文档及与源文档映射关系的译稿中进行标注，将标注后的源文档及译稿发送给审校员进行审校。

优选地，也可以通过对源文档进行分句处理，剔除未标注的语句，将剩余的语句发送给审校员进行审校，以减少审校员的审校工作量。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文档稿件中语句标注的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述词汇参数至少包括：

词汇等级、习语数和实义词密度。

3.根据权利要求2所述的方法，其特征在于，分析所述词汇等级的过程包括：

扫描出所述语句中的所有词汇；

grad e_word = K_{11} \cdot \frac{{word}_{2}}{word} + K_{12} \cdot \frac{{word}_{3}}{word} + K_{13} \cdot \frac{{word}_{4}}{word};

4.根据权利要求2所述的方法，其特征在于，分析语句中的实义词密度的过程包括：

将得到的所有所述实义词按照一定顺序进行排列；

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

5.根据权利要求2的方法，其特征在于，分析所述语句中的习语数的过程包括：

6.根据权利要求2所述的方法，其特征在于，所述语句参数至少包括:

语句长度、语句中的子句数和所述子句的平均长度。

7.根据权利要求6所述的方法，其特征在于，所述语句中的词汇数量作为所述语句长度。

8.根据权利要求6所述的方法，其特征在于，分析所述语句的子句平均长度的过程包括:

统计所述语句中的子句数量;

9.根据权利要求6所述的方法，其特征在于，所述语句的属性参数为翻译难度值;

计算所述翻译难度值的过程包括:

根据翻译难度计算公式计算，得到语句的翻译难度值;所述翻译难度计算公式如下:

diff_sentence＝K₁·word+K₂·grade_word+K₃·density_notional+K₄·count-Clause+K₅·MLC+K₆·countidiom；