CN103729348B

CN103729348B - 一种语句翻译复杂度的分析方法

Info

Publication number: CN103729348B
Application number: CN201310712248.6A
Authority: CN
Inventors: 江潮; 张芃
Original assignee: WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Current assignee: Language network (Wuhan) Information Technology Co., Ltd.
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2016-08-17
Anticipated expiration: 2033-12-23
Also published as: CN103729348A

Abstract

本发明公开了一种语句翻译复杂度的分析方法，包括：扫描待译语句，对待译语句进行分词处理，得到待译语句中的所有词汇，并统计出词汇总数；根据得到的待译语句中的所有词汇，并统计出词汇总数，确定待译语句中的句长、待译语句中的子句的数量、子句的平均长度、待译语句中的词汇等级、待译语句中的实义词密度和待译语句中的习语数；根据待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型，通过样本数据得到回归系数，从而得到所述语句的翻译复杂度。本发明通过对影响语句翻译复杂度的因素进行分析，得到语句翻译复杂度的多元线性回归模型，提高了所得到的语句翻译复杂度的准确性。

Description

一种语句翻译复杂度的分析方法

技术领域

本发明涉及翻译技术领域，具体而言，涉及一种语句翻译复杂度的分析方法。

背景技术

译前处理是翻译过程中非常重要的一个环节，对于一个翻译任务，如何为其确定翻译资源，如何为其安排翻译生产是译前处理的主要工作，这些工作的一个基础就是确定翻译量。翻译任务的翻译量由翻译文档的大小和难度所决定，翻译文档的大小可以通过字数统计得到，相对简单准确，而翻译文档的难度的判定则复杂得多，其中判断文档翻译难度最重要的一个因素是判断文档中语句的翻译难度。

对于语句翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待语句进行标注和判别，由于人的阅读和理解限制，这种方法速度较慢同时要耗费非常大的的人力成本，并且由于判别人能力的参差以及每人对语句语义难度的理解不同而产生很大的判别差别，判别结果无法做到统一标准，客观性很差。机器判别是通过计算机结合一定的方法对语句进行翻译难度判断，目前最常用的方法是通过对语句中生僻字词的统计来进行难度判断，这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄，有较大的片面性，得到的判别结果往往与实际情况差别很大，无法保证判别结果的准确性。目前对语句翻译难度的判别，还缺乏一个既高效又相对准确的判别方法。

发明内容

本发明旨在提供一种语句翻译复杂度的分析方法，解决了如何对语句的翻译复杂度进行既高效又相对准确的判别的问题。

本发明公开了一种语句翻译复杂度的分析方法，包括：

扫描待译语句，对所述待译语句进行分词处理，得到所述待译语句中的所有词汇，并统计出词汇总数；

根据得到的所述待译语句中的所有词汇，并统计出词汇总数，确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数；

根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型，通过样本数据得到回归系数，从而得到所述语句的翻译复杂度。

优选地，所述待译语句中的句长为所述待译语句所述词汇总数。

优选地，确定所述待译语句中的子句的平均长度的过程包括：

将所述待译语句中的所述词汇总数除以所述子句数量，结果作为所述子句的平均长度。

优选地，确定所述待译语句的词汇等级的过程包括：

将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；

分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；

按照词汇等级计算公式计算出所述语句的词汇等级，所述词汇等级计算公式如下：

grad e_word = K_{111} \cdot \frac{{word}_{2}}{word} + K_{112} \cdot \frac{{word}_{3}}{word} + K_{113} \cdot \frac{{word}_{4}}{word};

其中，word_x为词汇级别为X级的词汇的数量，K₁₁₁、K₁₁₂和K₁₁₃为词汇等级调节系数，word为总词汇数。

优选地，所述词汇等级调节系数为所述多元线性回归模型的回归系数，采用最小二乘法对样本数据进行计算得到。

优选地，确定所述待译语句的实义词密度的过程包括：

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具得到每个所述实义词的义项数meanings_i，其中i为所述实义词的序号；并统计所述实义词的义项总数；

按照实义词词义密度计算公式计算，得到所述语句的实义词词义密度；所述实义词词义密度计算公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，meanings_i为第i个实义词的的义项数，count_notional为所述实义词的数量，density_notional为所述待译语句的实义词密度。

优选地，确定所述待译语句的习语数的过程包括：

通过习语本体工具统计所述待译语句中的习语数。

优选地，计算所述待译语句的语句复杂度的过程包括：

按照语句复杂度计算公式计算得到所述待译语句的语句复杂度，所述语句复杂度计算公式如下：

diff_setence＝K₁·worddK₂·grade_worddK₃·density_notionallK₄·count_clause+K₅·MLC+K₆·count_idiom；

其中，diff_setence为所述待译语句的语句复杂度，word为所述待译语句的句长，grade_word为所述待译语句的词汇等级，density_notional为所述待译语句的实义词密度，count_clause为所述待译语句的子句数，MLC为待译语句中的子句的平均长度，count_idiom为所述待译语句的习语数，K₁、K₂、K₃、K₄、K₅和K₆为语句复杂度调节系数。

本发明中的语句翻译复杂度的分析方法，具有以下优点：

1、提高了语句复杂度的分析效率；

2、提高了所得到的语句翻译复杂度的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了实施例的流程图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合，例如：语句首字到结束符合之间的词汇集合；结束符号为句号、感叹号、问号、省略号之一；或第一结束符号后的首字到第二结束符号之间的词汇集合；

本文所使用的术语“子句”应该理解为整句的一部分，以逗号、顿号、分号等符号间隔开来的字或词汇集合；

本文所使用的术语“习语”即习惯用语，应理解为词语集合的一种约定俗成的表示。

本发明公开了一种语句翻译复杂度的分析方法，包括：

S11、扫描待译语句，对所述待译语句进行分词处理，得到所述待译语句中的所有词汇，并统计出词汇总数；

S12、根据得到的所述待译语句中的所有词汇，并统计出词汇总数，确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数；

S13、根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型，通过样本数据得到回归系数，从而得到所述语句的翻译复杂度。

基于上述方法，以下提供一个优选地实施例，具体如下：

1）、统计待译语句的句长：

待译语句的词汇总数，即为待译语句的句长word；

2）、统计待译语句的子句数：

统计待译语句的子句数量，作为子句数count_clause；

3）、计算待译语句的子句的平均长度：

对于语句来说，子句的越长对与理解得难度越大。

计算子句平均长度，MLC=word/count_clause，MLC为子句的平均长度。

4）、计算待译语句的词汇等级：

将得到的每个词汇在词汇分级表中进行匹配，获得每个词汇所匹配的级别，该级别为一级、二级、三级或四级；其中，一级、二级和三级通过查表匹配得到，将在词汇分级表中匹配不成功的词汇作为四级；

每个语种都会根据其词汇在实际使用中出现的频率，对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范，建立各个语种的词汇分级表，将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考，将汉字按常用、次常用和生僻分别对应一级、二级和三级。

统计级别为一级的词汇数量为word₁，统计级别为二级的词汇数量为word₂，统计级别为三级的词汇数量为word₃，统计级别为四级的词汇数量为word₄；

统计语句中的所有词汇的数量，作为总词汇数word；

计算二级及以上的词汇在语句中所占的比率，如下：

级别为二级的词汇所占比率为级别为三级的词汇所占比率为和级别为四级的词汇所占比率为

按照词汇等级计算公式进行计算得到语句的词汇等级；公式如下：

grad e_word = K_{11} \cdot \frac{{word}_{2}}{word} + K_{12} \cdot \frac{{word}_{3}}{word} + K_{13} \cdot \frac{{word}_{4}}{word};

其中，grade_word为词汇等级，K₁₁、K₁₂和K₁₃为给定样本所计算出的词汇等级调节系数，属于第二级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下：

令：

Y = grad e_word, X_{1} = \frac{{word}_{2}}{word}, X_{2} = \frac{{word}_{3}}{word}, X_{3} = \frac{{word}_{4}}{word}

对于采集到的n组样本数据：

\begin{matrix} {X_{11}, X_{12}, X_{13}} \\ {X_{21}, X_{22}, X_{23}} \\ . \\ . \\ . \\ {X_{n 1}, X_{n 2}, X_{n 3}} \end{matrix}

对应给出专家评定出的词汇等级：

\{\begin{matrix} Y_{1} \\ Y_{2} \\ . \\ . \\ . \\ Y_{n} \end{matrix}\}

由此可以获得以下线性方程组：

\begin{matrix} Y_{1} = K_{11} \cdot X_{11} + K_{12} \cdot X_{12} + K_{13} \cdot X_{13} \\ Y_{2} = K_{11} \cdot X_{21} + K_{12} \cdot X_{22} + K_{13} \cdot X_{23} \end{matrix}

\begin{matrix} . \\ . \\ . \\ Y_{n} = K_{11} \cdot X_{n 1} + K_{12} \cdot X_{n 2} + K_{13} \cdot X_{n 3} \end{matrix}

通过最小二乘法可以得到多元线性回归系数：

[\begin{matrix} K_{11} \\ K_{12} \\ K_{13} \end{matrix}] = {(X^{'} X)}^{- 1} X^{'} Y

其中,

X = [\begin{matrix} X_{11} & X_{12} & X_{13} \\ X_{21} & X_{22} & X_{23} \\ . \\ . \\ . \\ X_{n 1} & X_{n 2} & X_{n 3} \end{matrix}], Y = [\begin{matrix} Y_{1} \\ Y_{2} \\ . \\ . \\ . \\ Y_{n} \end{matrix}],

X′为X的转置矩阵

；；；；。5）、计算待译语句的实义词密度：

词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高，文本的实义词比例越大，信息量也越大，阅读及翻译难度也随之增大。

对每个词汇进行词性标注，统计待译语句中词汇的实义词的数量count_notional，即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量；

将得到的所有所述实义词按照一定顺序进行排列；

根据同义词本体工具，统计每个实义词的义项数meanings_i（1≤i≤count_notional）；其中，i为实义词的序号；

统计所有实义词的义项，将所有实义词的义项数相加得到所有实义词的总义项数。

按照实义词词义密度计算公式计算得到语句的实义词词义密度；公式如下：

density_notional = \frac{Σ_{i = 1}^{count_notional} {meanings}_{i}}{Σ_{i = 1}^{count_notional} {meanings}_{i} + (word - count_notional)};

其中，density_notional为实义词词义密度，meanings_i为第i个实义词的义项数。

6）、统计待译语句中的习语数；

通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom；

7）、计算待译语句的语句复杂度：

按照语句复杂度计算公式计算得到待译语句的语句复杂度，公式如下：diff_setence＝K₁·word+K₂·grade_worddK₃·density_notionallK₄

·count_clause+K₅·MLC+K₆·count_idiom

其中，diff_setence为所述待译语句的语句复杂度，word为所述待译语句的句长，grade_word为所述待译语句的词汇等级，density_notional为所述待译语句的实义词密度，count_clause为所述待译语句的子句数，MLC为待译语句中的子句的平均长度，count_idiom为所述待译语句的习语数，K₁、K₂、K₃、K₄、K₅和K₆为给定样本所计算出的语句复杂度调节系数，属于第一级调节系数，该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语句复杂度分析方法，其特征在于，包括：

根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型，通过样本数据得到回归系数，从而得到所述语句的翻译复杂度；

确定所述待译语句的词汇等级的过程包括：

g r a d e_w o r d = K_{111} \cdot \frac{{word}_{2}}{w o r d} + K_{112} \cdot \frac{{word}_{3}}{w o r d} + K_{113} \cdot \frac{{word}_{4}}{w o r d};

2.根据权利要求1所述的方法，其特征在于，所述待译语句中的句长为所述待译语句所述词汇总数。

3.根据权利要求2所述的方法，其特征在于，确定所述待译语句中的子句的平均长度的过程包括：

4.根据权利要求1所述的方法，其特征在于，所述词汇等级调节系数为所述多元线性回归模型的回归系数，采用最小二乘法对样本数据进行计算得到。

5.根据权利要求1所述的方法，其特征在于，确定所述待译语句的实义词密度的过程包括：

将得到的所有所述实义词按照一定顺序进行排列；

d e n s i t y_n o t i o n a l = \frac{Σ_{i = 1}^{c o u n t_n o t i o n a l} {meanings}_{i}}{Σ_{i = 1}^{c o u n t_n o t i o n a l} {meanings}_{i} + (w o r d - c o u n t_n o t i o n a l)};

其中，word为总词汇数；meanings_i为第i个实义词的义项数，count_notional为所述实义词的数量，density_notional为所述待译语句的实义词密度。

6.根据权利要求1所述的方法，其特征在于，确定所述待译语句的习语数的过程包括：

通过习语本体工具统计所述待译语句中的习语数。

7.根据权利要求1所述的方法，其特征在于，计算所述待译语句的语句复杂度的过程包括：

diff_setence＝K₁·word+K₂·grade_word+K₃·density_notional+K₄·count_clause+K₅·MLC+K₆·count_idiom；