CN103729348B - 一种语句翻译复杂度的分析方法 - Google Patents

一种语句翻译复杂度的分析方法 Download PDF

Info

Publication number
CN103729348B
CN103729348B CN201310712248.6A CN201310712248A CN103729348B CN 103729348 B CN103729348 B CN 103729348B CN 201310712248 A CN201310712248 A CN 201310712248A CN 103729348 B CN103729348 B CN 103729348B
Authority
CN
China
Prior art keywords
statement
translated
vocabulary
word
notional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310712248.6A
Other languages
English (en)
Other versions
CN103729348A (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Language network (Wuhan) Information Technology Co., Ltd.
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310712248.6A priority Critical patent/CN103729348B/zh
Publication of CN103729348A publication Critical patent/CN103729348A/zh
Application granted granted Critical
Publication of CN103729348B publication Critical patent/CN103729348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种语句翻译复杂度的分析方法,包括:扫描待译语句,对待译语句进行分词处理,得到待译语句中的所有词汇,并统计出词汇总数;根据得到的待译语句中的所有词汇,并统计出词汇总数,确定待译语句中的句长、待译语句中的子句的数量、子句的平均长度、待译语句中的词汇等级、待译语句中的实义词密度和待译语句中的习语数;根据待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。本发明通过对影响语句翻译复杂度的因素进行分析,得到语句翻译复杂度的多元线性回归模型,提高了所得到的语句翻译复杂度的准确性。

Description

一种语句翻译复杂度的分析方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种语句翻译复杂度的分析方法。
背景技术
译前处理是翻译过程中非常重要的一个环节,对于一个翻译任务,如何为其确定翻译资源,如何为其安排翻译生产是译前处理的主要工作,这些工作的一个基础就是确定翻译量。翻译任务的翻译量由翻译文档的大小和难度所决定,翻译文档的大小可以通过字数统计得到,相对简单准确,而翻译文档的难度的判定则复杂得多,其中判断文档翻译难度最重要的一个因素是判断文档中语句的翻译难度。
对于语句翻译难度的判别可以分为人工判别和机器判别。人工判别是通过语言专家或翻译专家对待语句进行标注和判别,由于人的阅读和理解限制,这种方法速度较慢同时要耗费非常大的的人力成本,并且由于判别人能力的参差以及每人对语句语义难度的理解不同而产生很大的判别差别,判别结果无法做到统一标准,客观性很差。机器判别是通过计算机结合一定的方法对语句进行翻译难度判断,目前最常用的方法是通过对语句中生僻字词的统计来进行难度判断,这种单一维度的判断方法其用来作为判别因素的可靠性比较单薄,有较大的片面性,得到的判别结果往往与实际情况差别很大,无法保证判别结果的准确性。目前对语句翻译难度的判别,还缺乏一个既高效又相对准确的判别方法。
发明内容
本发明旨在提供一种语句翻译复杂度的分析方法,解决了如何对语句的翻译复杂度进行既高效又相对准确的判别的问题。
本发明公开了一种语句翻译复杂度的分析方法,包括:
扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;
根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;
根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。
优选地,所述待译语句中的句长为所述待译语句所述词汇总数。
优选地,确定所述待译语句中的子句的平均长度的过程包括:
将所述待译语句中的所述词汇总数除以所述子句数量,结果作为所述子句的平均长度。
优选地,确定所述待译语句的词汇等级的过程包括:
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为词汇等级调节系数,word为总词汇数。
优选地,所述词汇等级调节系数为所述多元线性回归模型的回归系数,采用最小二乘法对样本数据进行计算得到。
优选地,确定所述待译语句的实义词密度的过程包括:
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述待译语句的实义词密度。
优选地,确定所述待译语句的习语数的过程包括:
通过习语本体工具统计所述待译语句中的习语数。
优选地,计算所述待译语句的语句复杂度的过程包括:
按照语句复杂度计算公式计算得到所述待译语句的语句复杂度,所述语句复杂度计算公式如下:
diff_setence=K1·worddK2·grade_worddK3·density_notionallK4·count_clause+K5·MLC+K6·count_idiom;
其中,diff_setence为所述待译语句的语句复杂度,word为所述待译语句的句长,grade_word为所述待译语句的词汇等级,density_notional为所述待译语句的实义词密度,count_clause为所述待译语句的子句数,MLC为待译语句中的子句的平均长度,count_idiom为所述待译语句的习语数,K1、K2、K3、K4、K5和K6为语句复杂度调节系数。
本发明中的语句翻译复杂度的分析方法,具有以下优点:
1、提高了语句复杂度的分析效率;
2、提高了所得到的语句翻译复杂度的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合,例如:语句首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
本文所使用的术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
本文所使用的术语“习语”即习惯用语,应理解为词语集合的一种约定俗成的表示。
本发明公开了一种语句翻译复杂度的分析方法,包括:
S11、扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;
S12、根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;
S13、根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度。
基于上述方法,以下提供一个优选地实施例,具体如下:
扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;
1)、统计待译语句的句长:
待译语句的词汇总数,即为待译语句的句长word;
2)、统计待译语句的子句数:
统计待译语句的子句数量,作为子句数count_clause;
3)、计算待译语句的子句的平均长度:
对于语句来说,子句的越长对与理解得难度越大。
计算子句平均长度,MLC=word/count_clause,MLC为子句的平均长度。
4)、计算待译语句的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计语句中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在语句中所占的比率,如下:
级别为二级的词汇所占比率为级别为三级的词汇所占比率为和级别为四级的词汇所占比率为
按照词汇等级计算公式进行计算得到语句的词汇等级;公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,grade_word为词汇等级,K11、K12和K13为给定样本所计算出的词汇等级调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令: Y = grad e _ word , X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word
对于采集到的n组样本数据:
{ X 11 , X 12 , X 13 } { X 21 , X 22 , X 23 } . . . { X n 1 , X n 2 , X n 3 }
对应给出专家评定出的词汇等级: Y 1 Y 2 . . . Y n
由此可以获得以下线性方程组:
Y 1 = K 11 · X 11 + K 12 · X 12 + K 13 · X 13 Y 2 = K 11 · X 21 + K 12 · X 22 + K 13 · X 23
. . . Y n = K 11 · X n 1 + K 12 · X n 2 + K 13 · X n 3
通过最小二乘法可以得到多元线性回归系数:
K 11 K 12 K 13 = ( X ′ X ) - 1 X ′ Y
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 . . . X n 1 X n 2 X n 3 , Y = Y 1 Y 2 . . . Y n , X′为X的转置矩阵
;;;;。5)、计算待译语句的实义词密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
对每个词汇进行词性标注,统计待译语句中词汇的实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到语句的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,density_notional为实义词词义密度,meaningsi为第i个实义词的义项数。
6)、统计待译语句中的习语数;
通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom;
7)、计算待译语句的语句复杂度:
按照语句复杂度计算公式计算得到待译语句的语句复杂度,公式如下:diff_setence=K1·word+K2·grade_worddK3·density_notionallK4
·count_clause+K5·MLC+K6·count_idiom
其中,diff_setence为所述待译语句的语句复杂度,word为所述待译语句的句长,grade_word为所述待译语句的词汇等级,density_notional为所述待译语句的实义词密度,count_clause为所述待译语句的子句数,MLC为待译语句中的子句的平均长度,count_idiom为所述待译语句的习语数,K1、K2、K3、K4、K5和K6为给定样本所计算出的语句复杂度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种语句复杂度分析方法,其特征在于,包括:
扫描待译语句,对所述待译语句进行分词处理,得到所述待译语句中的所有词汇,并统计出词汇总数;
根据得到的所述待译语句中的所有词汇,并统计出词汇总数,确定所述待译语句中的的句长、所述待译语句中的子句的数量、子句的平均长度、所述待译语句中的词汇等级、所述待译语句中的实义词密度和所述待译语句中的习语数;
根据所述待译语句的句长、子句的平均长度、词汇等级、实义词密度和习语数建立计算翻译复杂度的多元线性回归模型,通过样本数据得到回归系数,从而得到所述语句的翻译复杂度;
确定所述待译语句的词汇等级的过程包括:
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
g r a d e _ w o r d = K 111 · word 2 w o r d + K 112 · word 3 w o r d + K 113 · word 4 w o r d ;
其中,wordx为词汇级别为X级的词汇的数量,K111、K112和K113为词汇等级调节系数,word为总词汇数。
2.根据权利要求1所述的方法,其特征在于,所述待译语句中的句长为所述待译语句所述词汇总数。
3.根据权利要求2所述的方法,其特征在于,确定所述待译语句中的子句的平均长度的过程包括:
将所述待译语句中的所述词汇总数除以所述子句数量,结果作为所述子句的平均长度。
4.根据权利要求1所述的方法,其特征在于,所述词汇等级调节系数为所述多元线性回归模型的回归系数,采用最小二乘法对样本数据进行计算得到。
5.根据权利要求1所述的方法,其特征在于,确定所述待译语句的实义词密度的过程包括:
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,其中i为所述实义词的序号;并统计所述实义词的义项总数;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
d e n s i t y _ n o t i o n a l = Σ i = 1 c o u n t _ n o t i o n a l meanings i Σ i = 1 c o u n t _ n o t i o n a l meanings i + ( w o r d - c o u n t _ n o t i o n a l ) ;
其中,word为总词汇数;meaningsi为第i个实义词的义项数,count_notional为所述实义词的数量,density_notional为所述待译语句的实义词密度。
6.根据权利要求1所述的方法,其特征在于,确定所述待译语句的习语数的过程包括:
通过习语本体工具统计所述待译语句中的习语数。
7.根据权利要求1所述的方法,其特征在于,计算所述待译语句的语句复杂度的过程包括:
按照语句复杂度计算公式计算得到所述待译语句的语句复杂度,所述语句复杂度计算公式如下:
diff_setence=K1·word+K2·grade_word+K3·density_notional+K4·count_clause+K5·MLC+K6·count_idiom;
其中,diff_setence为所述待译语句的语句复杂度,word为所述待译语句的句长,grade_word为所述待译语句的词汇等级,density_notional为所述待译语句的实义词密度,count_clause为所述待译语句的子句数,MLC为待译语句中的子句的平均长度,count_idiom为所述待译语句的习语数,K1、K2、K3、K4、K5和K6为语句复杂度调节系数。
CN201310712248.6A 2013-12-23 2013-12-23 一种语句翻译复杂度的分析方法 Active CN103729348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310712248.6A CN103729348B (zh) 2013-12-23 2013-12-23 一种语句翻译复杂度的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310712248.6A CN103729348B (zh) 2013-12-23 2013-12-23 一种语句翻译复杂度的分析方法

Publications (2)

Publication Number Publication Date
CN103729348A CN103729348A (zh) 2014-04-16
CN103729348B true CN103729348B (zh) 2016-08-17

Family

ID=50453426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310712248.6A Active CN103729348B (zh) 2013-12-23 2013-12-23 一种语句翻译复杂度的分析方法

Country Status (1)

Country Link
CN (1) CN103729348B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008094B (zh) * 2014-05-22 2017-08-11 武汉传神信息技术有限公司 一种获得文档翻译难度的方法
CN105224524B (zh) * 2015-09-02 2022-01-25 网易有道信息技术(北京)有限公司 文档翻译难度评价方法和装置
CN109086363B (zh) * 2018-07-19 2021-03-16 百度在线网络技术(北京)有限公司 文件信息维护度确定方法、装置及设备
CN112232060A (zh) * 2020-09-27 2021-01-15 淄博职业学院 一种智能面向国际汉语教学的句子难度等级在线测定系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050288919A1 (en) * 2004-06-28 2005-12-29 Wang Jian C Method and system for model-parameter machine translation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N元组和翻译单位对英译汉自动评分作用的比较研究;江进林等;《现代外语》;20100531;第33卷(第2期);第178-184页 *
英译汉语言质量自动量化研究;江进林;《现代外语》;20130228;第36卷(第1期);第85-91页第2.1节,第4节,表1,2 *

Also Published As

Publication number Publication date
CN103729348A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
CN103744834B (zh) 一种翻译任务准确分配的方法
Li et al. Building Chinese discourse corpus with connective-driven dependency tree structure
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
CN105975458B (zh) 一种基于细粒度依存关系的中文长句相似度计算方法
CN103729421B (zh) 一种译员文档精确匹配的方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN104298663B (zh) 翻译一致性的方法和装置及统计机器翻译方法和系统
Pilán et al. Investigating the importance of linguistic complexity features across different datasets related to language learning
CN106779455A (zh) 一种翻译项目的风险评估方法及系统
CN103744840B (zh) 一种文档翻译难度的分析方法
Kiyomarsi et al. Optimizing persian text summarization based on fuzzy logic approach
Hirao et al. Automatic pyramid evaluation exploiting EDU-based extractive reference summaries
Kim et al. An autonomous assessment system based on combined latent semantic kernels
CN103699675B (zh) 一种译员分级索引的方法
CN115859962B (zh) 一种文本可读性评估方法和系统
Tian et al. Measuring the similarity of short texts by word similarity and tree kernels
Zhang et al. Feature-based assessment of text readability
Qiu et al. Research on Translation Style in Machine Learning Based on Linguistic Quantitative Characteristics Perception.
Leng et al. Analysis and research on lexical errors in machine translation in Chinese and Korean translation
CN103729344B (zh) 一种文档稿件中语句标注的方法
CN106528550A (zh) 一种译员翻译能力的评价方法及系统
De Melo et al. On the utility of automatically generated wordnets
Tang et al. Improving statistical machine translation with selectional preferences
Peng et al. Readability assessment for Chinese L2 sentences: an extended knowledge base and comprehensive evaluation model-based method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Patentee before: Wuhan Transn Information Technology Co., Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Sentence translation complexity analyzing method

Effective date of registration: 20181115

Granted publication date: 20160817

Pledgee: Bank of Communications Co., Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: Language network (Wuhan) Information Technology Co., Ltd.

Registration number: 2018420000061

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20200617

Granted publication date: 20160817

Pledgee: Bank of Communications Co.,Ltd. Wuhan Branch of Hubei Free Trade Experimental Zone

Pledgor: IOL (WUHAN) INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: 2018420000061

PC01 Cancellation of the registration of the contract for pledge of patent right