CN103729344B - 一种文档稿件中语句标注的方法 - Google Patents

一种文档稿件中语句标注的方法 Download PDF

Info

Publication number
CN103729344B
CN103729344B CN201310746427.1A CN201310746427A CN103729344B CN 103729344 B CN103729344 B CN 103729344B CN 201310746427 A CN201310746427 A CN 201310746427A CN 103729344 B CN103729344 B CN 103729344B
Authority
CN
China
Prior art keywords
statement
vocabulary
word
notional
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310746427.1A
Other languages
English (en)
Other versions
CN103729344A (zh
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Original Assignee
TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd filed Critical TRANSN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310746427.1A priority Critical patent/CN103729344B/zh
Publication of CN103729344A publication Critical patent/CN103729344A/zh
Application granted granted Critical
Publication of CN103729344B publication Critical patent/CN103729344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种文档稿件中语句标注的方法,包括:确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。本发明解决了无法对文档中的翻译难点进行统一标注的问题,并且提高了对语句标注的准确性,同时节省了所需要的大量人力资源。

Description

一种文档稿件中语句标注的方法
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种文档稿件中语句标注的方法。
背景技术
对译稿进行审校是翻译流程中非常重要的环节,为保证翻译质量,一个完整的翻译流程对翻译稿件一般会有1-2次的审校过程。一般情况下,通过校对人员找到并标注翻译过程中出现的问题,然后由审校人员进行审阅并解决,这些翻译过程中出现的问题主要包括:翻译难点、专业术语的一致性、源语言句子错误、源语言上下文不一致等。对翻译难点的判定和标注是其中最常见也是最重要的问题,普通对于翻译难点判断和标注是通过校正人员人工发现并标注的方法来实现,这种方法由于不同校对人员对于翻译难度的理解不一致,相对比较主观,无法做到准确、一致,同时这个过程也需要耗费大量的人力。
发明内容
本发明旨在提供一种文档稿件中语句标注的方法,解决了无法对翻译难点进行准确、一致的标记的问题。
本发明公开了一种文档稿件中语句标注的方法,包括:
确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
优选地,所述词汇参数至少包括:
词汇等级、习语数和实义词密度。
优选地,分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
优选地,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
优选地,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
优选地,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
优选地,所述语句中的词汇数量作为所述语句长度。
优选地,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
优选地,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diffsentence=K1·word+K2·gradeword+K3·densitynotional+K4·count_clause+K5·MLC+K6·count_idiom;
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
本发明中的文档稿件中语句标注的方法,具有以下优点:
1、在文档中准确、一致的找到并标记文档中的翻译难点;
2、节省了所需的大量人力资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合,例如:语句首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
本文所使用的术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
本文所使用的术语“习语”即习惯用语,应理解为词语集合的一种约定俗成的表示。
本发明公开了一种文档稿件中语句标注的方法,包括:
S11、确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
S12、根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
S13、将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
基于上述方法,以下提供一个优选地实施例,用于对翻译难度进行标注,具体如下:
确定源文档及与源文档具有映射关系的译稿;
扫描出源文档中的所有语句;
对每个语句进行如下处理:
扫描语句,对语句进行分词处理,得到语句中的所有词汇,并统计出词汇总数;
1)、统计语句的句长:
语句的词汇总数,即为语句的句长word;
2)、统计语句的子句数:
统计语句的子句数量,作为子句数count_clause;
3)、计算语句的子句的平均长度:
对于语句来说,子句的越长对与理解得难度越大。
计算子句平均长度,MLC=word/count_clause,MLC为子句的平均长度。
4)、计算语句的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4
统计语句中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在语句中所占的比率,如下:
级别为二级的词汇所占比率为级别为三级的词汇所占比率为和级别为四级的词汇所占比率为
按照词汇等级计算公式进行计算得到语句的词汇等级;公式如下:
grad e _ word = K 11 · word 2 word + K 12 · word 3 word + K 13 · word 4 word ;
其中,grade_word为词汇等级,K11、K12和K13为给定样本所计算出的词汇等级调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令: Y = grad e _ word , X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word
对于采集到的n组样本数据:
{X11,X12,X13}
{X21,X22,X23}
{Xnl,Xn2,Xn3}
对应给出经过对样本数据计算得到的词汇等级: Y 1 Y 2 · · · Y n
由此可以获得以下线性方程组:
Y1=K11.X11+K12.X12+K13.X13
Y2=K11·X21+K12·X22+K13·X23
Yn=K11.Xn1+K12.Xn2+K13.Xn3
通过最小二乘法可以得到多元线性回归系数:
K 11 K 12 K 13 = ( X ′ X ) - 1 X ′ Y
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 · · · X n 1 X n 2 X n 3 , Y = Y 1 Y 2 · · · Y n , X′为X的转置矩阵。
得到的调节系数通过大量样本数据进行计算,得到的可忽略人为因素的客观数据,得到的调节系数之间同时具有关联性。
5)、计算语句的实义词密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
对每个词汇进行词性标注,统计语句中词汇的实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;其中,实义词的顺序可以通过以实义词的大小顺序或扫描出的先后顺序,或其他顺序进行排列。
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到语句的实义词词义密度;公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,density_notional为实义词词义密度,meaningsi为第i个实义词的义项数。
6)、统计语句中的习语数;
通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom;
7)、计算语句的翻译难度值:
按照翻译难度计算公式计算得到语句的翻译难度值,公式如下:
diff_sentence
=K1·word+K2·grade_word+K3·density_notional+K4·count_clause+K5·MLC+K6·count_idiom
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为给定样本所计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。
8)、标注:
将翻译难度值大于预定阈值的语句在其所在的源文档及与源文档映射关系的译稿中进行标注,将标注后的源文档及译稿发送给审校员进行审校。
优选地,也可以通过对源文档进行分句处理,剔除未标注的语句,将剩余的语句发送给审校员进行审校,以减少审校员的审校工作量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种文档稿件中语句标注的方法,包括:确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注;所述词汇参数至少包括:词汇等级、习语数和实义词密度;其特征在于,所述分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
g r a d e _ w o r d = K 11 · word 2 w o r d + K 12 · word 3 w o r d + K 13 · word 4 w o r d ;
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
2.根据权利要求1所述的方法,其特征在于,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
d e n s i t y _ n o t i o n a l = Σ i = 1 c o u n t _ n o t i o n a l meanings i Σ i = 1 c o u n t _ n o t i o n a l meanings i + ( w o r d - c o u n t _ n o t i o n a l ) ;
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
3.根据权利要求1的方法,其特征在于,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
4.根据权利要求1所述的方法,其特征在于,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
5.根据权利要求4所述的方法,其特征在于,所述语句中的词汇数量作为所述语句长度。
6.根据权利要求4所述的方法,其特征在于,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
7.根据权利要求4所述的方法,其特征在于,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diff_sentence
=K1·word+K2·grade_word+K3·density_notional+K4
·count_clause+K5·MLC+K6·count_idiom
其中,diff_sentence为所述语句的翻译难度值,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
CN201310746427.1A 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法 Active CN103729344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310746427.1A CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310746427.1A CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Publications (2)

Publication Number Publication Date
CN103729344A CN103729344A (zh) 2014-04-16
CN103729344B true CN103729344B (zh) 2016-08-31

Family

ID=50453423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310746427.1A Active CN103729344B (zh) 2013-12-30 2013-12-30 一种文档稿件中语句标注的方法

Country Status (1)

Country Link
CN (1) CN103729344B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766325B (zh) * 2017-09-27 2021-05-28 百度在线网络技术(北京)有限公司 文本拼接方法及其装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101980184A (zh) * 2010-10-28 2011-02-23 传神联合(北京)信息技术有限公司 对文档内容进行批注的方法和系统
CN101986308A (zh) * 2010-11-16 2011-03-16 传神联合(北京)信息技术有限公司 一种术语快速标注方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050288919A1 (en) * 2004-06-28 2005-12-29 Wang Jian C Method and system for model-parameter machine translation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101980184A (zh) * 2010-10-28 2011-02-23 传神联合(北京)信息技术有限公司 对文档内容进行批注的方法和系统
CN101986308A (zh) * 2010-11-16 2011-03-16 传神联合(北京)信息技术有限公司 一种术语快速标注方法
CN103049568A (zh) * 2012-12-31 2013-04-17 武汉传神信息技术有限公司 对海量文档库的文档分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
机器翻译系统中英语从句的识别研究;马芳;《中国优秀硕士学位论文全文数据库》;20070615(第6期);第F084-32页第4.2.1节,图3 *
英译汉语言质量自动量化研究;江进林;《现代外语》;20130228;第36卷(第1期);第85-91页 *

Also Published As

Publication number Publication date
CN103729344A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
Roberts Text analysis for the social sciences: methods for drawing statistical inferences from texts and transcripts
Beattie et al. A methodology for analysing and evaluating narratives in annual reports: a comprehensive descriptive profile and metrics for disclosure quality attributes
CN103744834B (zh) 一种翻译任务准确分配的方法
Forsberg et al. From construction candidates to constructicon entries: An experiment using semi-automatic methods for identifying constructions in corpora
CN103678287B (zh) 一种关键词翻译统一的方法
CN106779455A (zh) 一种翻译项目的风险评估方法及系统
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN112686025B (zh) 一种基于自由文本的中文选择题干扰项生成方法
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN103729344B (zh) 一种文档稿件中语句标注的方法
CN103699675B (zh) 一种译员分级索引的方法
Maji et al. An interpretable deep learning system for automatically scoring request for proposals
Ferguson et al. An empirical study on the relationship between defective requirements and test failures
Ismail et al. Transparency of public private partnership (PPP): the extent of mandatory information disclosure
Reeder et al. The naming of things and the confusion of tongues: An MT metric
CN106776724A (zh) 一种题目分类方法及系统
Lankford et al. Human evaluation of English–Irish transformer-based NMT
Macketanz et al. TQ-AUTOTEST: Novel analytical quality measure confirms that DeepL is better than Google Translate
Bowden et al. Invariance of the measurement model underlying the Wechsler Adult Intelligence Scale—III in the United States and Canada
Yu et al. Chinese FOG Index: the readability of information disclosure in chinese listed companies
Tian et al. Efficient Evaluation of Bias in Large Language Models through Prompt Tuning
CN103714051A (zh) 一种待译文档的预处理方法
CN111061864B (zh) 基于特征提取的开源社区Fork摘要自动生成方法、系统及介质
CN117540727B (zh) 基于albert模型与rpa技术的主观题评分方法及系统
Cheng et al. Education Quality Profile: The Case of Hong Kong Secondary Schools.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Chao

Inventor after: Zhang Pi

Inventor before: Jiang Chao

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant