CN103729344A - 一种文档稿件中语句标注的方法 - Google Patents

一种文档稿件中语句标注的方法 Download PDF

Info

Publication number
CN103729344A
CN103729344A CN201310746427.1A CN201310746427A CN103729344A CN 103729344 A CN103729344 A CN 103729344A CN 201310746427 A CN201310746427 A CN 201310746427A CN 103729344 A CN103729344 A CN 103729344A
Authority
CN
China
Prior art keywords
statement
word
vocabulary
notional
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310746427.1A
Other languages
English (en)
Other versions
CN103729344B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Original Assignee
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd filed Critical TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310746427.1A priority Critical patent/CN103729344B/zh
Publication of CN103729344A publication Critical patent/CN103729344A/zh
Application granted granted Critical
Publication of CN103729344B publication Critical patent/CN103729344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文档稿件中语句标注的方法,包括:确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。本发明解决了无法对文档中的翻译难点进行统一标注的问题,并且提高了对语句标注的准确性,同时节省了所需要的大量人力资源。

Description

一种文档稿件中语句标注的方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种文档稿件中语句标注的方法。
背景技术
对译稿进行审校是翻译流程中非常重要的环节,为保证翻译质量,一个完整的翻译流程对翻译稿件一般会有1-2次的审校过程。一般情况下,通过校对人员找到并标注翻译过程中出现的问题,然后由审校人员进行审阅并解决,这些翻译过程中出现的问题主要包括:翻译难点、专业术语的一致性、源语言句子错误、源语言上下文不一致等。对翻译难点的判定和标注是其中最常见也是最重要的问题,普通对于翻译难点判断和标注是通过校正人员人工发现并标注的方法来实现,这种方法由于不同校对人员对于翻译难度的理解不一致,相对比较主观,无法做到准确、一致,同时这个过程也需要耗费大量的人力。
发明内容
本发明旨在提供一种文档稿件中语句标注的方法,解决了无法对翻译难点进行准确、一致的标记的问题。
本发明公开了一种文档稿件中语句标注的方法,包括:
确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
优选地,所述词汇参数至少包括:
词汇等级、习语数和实义词密度。
优选地,分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
优选地,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
优选地,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
优选地,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
优选地,所述语句中的词汇数量作为所述语句长度。
优选地,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
优选地,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diffsentence=K1·word+K2·gradeword+K3·densitynotional+K4·count_clause+K5·MLC+K6·count_idiom;
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
本发明中的文档稿件中语句标注的方法,具有以下优点:
1、在文档中准确、一致的找到并标记文档中的翻译难点;
2、节省了所需的大量人力资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合,例如:语句首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
本文所使用的术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
本文所使用的术语“习语”即习惯用语,应理解为词语集合的一种约定俗成的表示。
本发明公开了一种文档稿件中语句标注的方法,包括:
S11、确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
S12、根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
S13、将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
基于上述方法,以下提供一个优选地实施例,用于对翻译难度进行标注,具体如下:
确定源文档及与源文档具有映射关系的译稿;
扫描出源文档中的所有语句;
对每个语句进行如下处理:
扫描语句,对语句进行分词处理,得到语句中的所有词汇,并统计出词汇总数;
1)、统计语句的句长:
语句的词汇总数,即为语句的句长word;
2)、统计语句的子句数:
统计语句的子句数量,作为子句数count_clause;
3)、计算语句的子句的平均长度:
对于语句来说,子句的越长对与理解得难度越大。
计算子句平均长度,MLC=word/count_clause,MLC为子句的平均长度。
4)、计算语句的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计语句中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在语句中所占的比率,如下:
级别为二级的词汇所占比率为
Figure BDA0000449995170000061
级别为三级的词汇所占比率为
Figure BDA0000449995170000062
和级别为四级的词汇所占比率为
Figure BDA0000449995170000063
按照词汇等级计算公式进行计算得到语句的词汇等级;公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,grade_word为词汇等级,K11、K12和K13为给定样本所计算出的词汇等级调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令: Y = grad e _ word , X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word
对于采集到的n组样本数据:
{X11,X12,X13}
{X21,X22,X23}
.
.
.
{Xnl,Xn2,Xn3}
对应给出经过对样本数据计算得到的词汇等级: Y 1 Y 2 · · · Y n
由此可以获得以下线性方程组:
Y1=K11.X11+K12.X12+K13.X13
Y2=K11·X21+K12·X22+K13·X23
.
.
.
Yn=K11.Xn1+K12.Xn2+K13.Xn3
通过最小二乘法可以得到多元线性回归系数:
K 11 K 12 K 13 = ( X ′ X ) - 1 X ′ Y
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 · · · X n 1 X n 2 X n 3 , Y = Y 1 Y 2 · · · Y n , X′为X的转置矩阵。
得到的调节系数通过大量样本数据进行计算,得到的可忽略人为因素的客观数据,得到的调节系数之间同时具有关联性。
5)、计算语句的实义词密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
对每个词汇进行词性标注,统计语句中词汇的实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;其中,实义词的顺序可以通过以实义词的大小顺序或扫描出的先后顺序,或其他顺序进行排列。
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到语句的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,density_notional为实义词词义密度,meaningsi为第i个实义词的义项数。
6)、统计语句中的习语数;
通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom;
7)、计算语句的翻译难度值:
按照翻译难度计算公式计算得到语句的翻译难度值,公式如下:
diff_sentence
=K1·word+K2·grade_word+K3·density_notional+K4·count_clause+K5·MLC+K6·count_idiom
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为给定样本所计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。
8)、标注:
将翻译难度值大于预定阈值的语句在其所在的源文档及与源文档映射关系的译稿中进行标注,将标注后的源文档及译稿发送给审校员进行审校。
优选地,也可以通过对源文档进行分句处理,剔除未标注的语句,将剩余的语句发送给审校员进行审校,以减少审校员的审校工作量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文档稿件中语句标注的方法,其特征在于,包括:
确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
2.根据权利要求1所述的方法,其特征在于,所述词汇参数至少包括:
词汇等级、习语数和实义词密度。
3.根据权利要求2所述的方法,其特征在于,分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
4.根据权利要求2所述的方法,其特征在于,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
5.根据权利要求2的方法,其特征在于,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
6.根据权利要求2所述的方法,其特征在于,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
7.根据权利要求6所述的方法,其特征在于,所述语句中的词汇数量作为所述语句长度。
8.根据权利要求6所述的方法,其特征在于,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
9.根据权利要求6所述的方法,其特征在于,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diffsentence=K1·word+K2·gradeword+K3·densitynotional+K4·count-Clause+K5·MLC+K6·countidiom;
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
CN201310746427.1A 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法 Active CN103729344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310746427.1A CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310746427.1A CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Publications (2)

Publication Number Publication Date
CN103729344A true CN103729344A (zh) 2014-04-16
CN103729344B CN103729344B (zh) 2016-08-31

Family

ID=50453423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310746427.1A Active CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Country Status (1)

Country Link
CN (1) CN103729344B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050288919A1 (en) * 2004-06-28 2005-12-29 Wang Jian C Method and system for model-parameter machine translation
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101980184A (zh) * 2010-10-28 2011-02-23 传神联合(北京)信息技术有限公司 对文档内容进行批注的方法和系统
CN101986308A (zh) * 2010-11-16 2011-03-16 传神联合(北京)信息技术有限公司 一种术语快速标注方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050288919A1 (en) * 2004-06-28 2005-12-29 Wang Jian C Method and system for model-parameter machine translation
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101980184A (zh) * 2010-10-28 2011-02-23 传神联合(北京)信息技术有限公司 对文档内容进行批注的方法和系统
CN101986308A (zh) * 2010-11-16 2011-03-16 传神联合(北京)信息技术有限公司 一种术语快速标注方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江进林: "英译汉语言质量自动量化研究", 《现代外语》, vol. 36, no. 1, 28 February 2013 (2013-02-28), pages 85 - 91 *
马芳: "机器翻译系统中英语从句的识别研究", 《中国优秀硕士学位论文全文数据库》, no. 6, 15 June 2007 (2007-06-15), pages 084 - 32 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766325A (zh) * 2017-09-27 2018-03-06 百度在线网络技术(北京)有限公司 文本拼接方法及其装置

Also Published As

Publication number Publication date
CN103729344B (zh) 2016-08-31

Similar Documents

Publication Publication Date Title
US20160196258A1 (en) Semantic Similarity Evaluation Method, Apparatus, and System
CN103744834A (zh) 一种翻译任务准确分配的方法
CN103729421B (zh) 一种译员文档精确匹配的方法
CN105045778A (zh) 一种汉语同音词错误自动校对方法
CN104298663B (zh) 翻译一致性的方法和装置及统计机器翻译方法和系统
CN106528524A (zh) 一种基于MMseg算法与逐点互信息算法的分词方法
CN106779455A (zh) 一种翻译项目的风险评估方法及系统
CN101201819B (zh) 一种树库转化方法及树库转化系统
CN103729348A (zh) 一种语句翻译复杂度的分析方法
CN103744840A (zh) 一种文档翻译难度的分析方法
CN103699675A (zh) 一种译员分级索引的方法
CN104375986B (zh) 一种汉语叠词的自动获取方法
Munk et al. Detecting errors in machine translation using residuals and metrics of automatic evaluation
CN103729344A (zh) 一种文档稿件中语句标注的方法
CN112528011A (zh) 多数据源驱动的开放式数学作业批改方法、系统及设备
Schottmüller et al. Issues in translating verb-particle constructions from german to english
Rossi et al. Applicability and application of machine translation quality metrics in the patent field
CN106874262A (zh) 一种实现领域自适应的统计机器翻译方法
Cromico et al. Translation Quality of English-Indonesian by Using Google Translate
CN104239293B (zh) 一种基于机器翻译的专名翻译方法
CN108573025B (zh) 基于混合模板抽取句子分类特征的方法及装置
CN114595661A (zh) 用于评审投标文件的方法、设备和介质
CN103714051B (zh) 一种待译文档的预处理方法
Ljubešić et al. Statistical Machine Translation of Croatian Weather Forecasts: How Much Data Do We Need?
Nisioi et al. A clustering approach for translationese identification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant