CN103729344B - 一种文档稿件中语句标注的方法 - Google Patents
一种文档稿件中语句标注的方法 Download PDFInfo
- Publication number
- CN103729344B CN103729344B CN201310746427.1A CN201310746427A CN103729344B CN 103729344 B CN103729344 B CN 103729344B CN 201310746427 A CN201310746427 A CN 201310746427A CN 103729344 B CN103729344 B CN 103729344B
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- vocabulary
- words
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 2
- LKACJLUUJRMGFK-UHFFFAOYSA-N methylsulfonal Chemical compound CCS(=O)(=O)C(C)(CC)S(=O)(=O)CC LKACJLUUJRMGFK-UHFFFAOYSA-N 0.000 claims 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文档稿件中语句标注的方法,包括:确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。本发明解决了无法对文档中的翻译难点进行统一标注的问题,并且提高了对语句标注的准确性,同时节省了所需要的大量人力资源。
Description
技术领域
本发明涉及翻译技术领域,具体而言,涉及一种文档稿件中语句标注的方法。
背景技术
对译稿进行审校是翻译流程中非常重要的环节,为保证翻译质量,一个完整的翻译流程对翻译稿件一般会有1-2次的审校过程。一般情况下,通过校对人员找到并标注翻译过程中出现的问题,然后由审校人员进行审阅并解决,这些翻译过程中出现的问题主要包括:翻译难点、专业术语的一致性、源语言句子错误、源语言上下文不一致等。对翻译难点的判定和标注是其中最常见也是最重要的问题,普通对于翻译难点判断和标注是通过校正人员人工发现并标注的方法来实现,这种方法由于不同校对人员对于翻译难度的理解不一致,相对比较主观,无法做到准确、一致,同时这个过程也需要耗费大量的人力。
发明内容
本发明旨在提供一种文档稿件中语句标注的方法,解决了无法对翻译难点进行准确、一致的标记的问题。
本发明公开了一种文档稿件中语句标注的方法,包括:
确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
优选地,所述词汇参数至少包括:
词汇等级、习语数和实义词密度。
优选地,分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
优选地,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
优选地,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
优选地,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
优选地,所述语句中的词汇数量作为所述语句长度。
优选地,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
优选地,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diffsentence=K1·word+K2·gradeword+K3·densitynotional+K4·count_clause+K5·MLC+K6·count_idiom;
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
本发明中的文档稿件中语句标注的方法,具有以下优点:
1、在文档中准确、一致的找到并标记文档中的翻译难点;
2、节省了所需的大量人力资源。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
本文所使用的术语“整句”应该理解为表达了完整的意思的词汇集合,例如:语句首字到结束符合之间的词汇集合;结束符号为句号、感叹号、问号、省略号之一;或第一结束符号后的首字到第二结束符号之间的词汇集合;
本文所使用的术语“子句”应该理解为整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇集合;
本文所使用的术语“习语”即习惯用语,应理解为词语集合的一种约定俗成的表示。
本发明公开了一种文档稿件中语句标注的方法,包括:
S11、确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;
S12、根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;
S13、将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
基于上述方法,以下提供一个优选地实施例,用于对翻译难度进行标注,具体如下:
确定源文档及与源文档具有映射关系的译稿;
扫描出源文档中的所有语句;
对每个语句进行如下处理:
扫描语句,对语句进行分词处理,得到语句中的所有词汇,并统计出词汇总数;
1)、统计语句的句长:
语句的词汇总数,即为语句的句长word;
2)、统计语句的子句数:
统计语句的子句数量,作为子句数count_clause;
3)、计算语句的子句的平均长度:
对于语句来说,子句的越长对与理解得难度越大。
计算子句平均长度,MLC=word/count_clause,MLC为子句的平均长度。
4)、计算语句的词汇等级:
将得到的每个词汇在词汇分级表中进行匹配,获得每个词汇所匹配的级别,该级别为一级、二级、三级或四级;其中,一级、二级和三级通过查表匹配得到,将在词汇分级表中匹配不成功的词汇作为四级;
每个语种都会根据其词汇在实际使用中出现的频率,对词汇进行分级处理。本技术方案根据各个语种对词汇的各种权威分级规范,建立各个语种的词汇分级表,将每个语种的词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。
统计级别为一级的词汇数量为word1,统计级别为二级的词汇数量为word2,统计级别为三级的词汇数量为word3,统计级别为四级的词汇数量为word4;
统计语句中的所有词汇的数量,作为总词汇数word;
计算二级及以上的词汇在语句中所占的比率,如下:
级别为二级的词汇所占比率为级别为三级的词汇所占比率为和级别为四级的词汇所占比率为
按照词汇等级计算公式进行计算得到语句的词汇等级;公式如下:
其中,grade_word为词汇等级,K11、K12和K13为给定样本所计算出的词汇等级调节系数,属于第二级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法如下:
令:
对于采集到的n组样本数据:
{X11,X12,X13}
{X21,X22,X23}
{Xnl,Xn2,Xn3}
对应给出经过对样本数据计算得到的词汇等级:
由此可以获得以下线性方程组:
Y1=K11.X11+K12.X12+K13.X13
Y2=K11·X21+K12·X22+K13·X23
Yn=K11.Xn1+K12.Xn2+K13.Xn3
通过最小二乘法可以得到多元线性回归系数:
其中, X′为X的转置矩阵。
得到的调节系数通过大量样本数据进行计算,得到的可忽略人为因素的客观数据,得到的调节系数之间同时具有关联性。
5)、计算语句的实义词密度:
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。
对每个词汇进行词性标注,统计语句中词汇的实义词的数量count_notional,即统计包括名词、代名词、动词、形容词、副词、感叹词等的数量;
将得到的所有所述实义词按照一定顺序进行排列;其中,实义词的顺序可以通过以实义词的大小顺序或扫描出的先后顺序,或其他顺序进行排列。
根据同义词本体工具,统计每个实义词的义项数meaningsi(1≤i≤count_notional);其中,i为实义词的序号;
统计所有实义词的义项,将所有实义词的义项数相加得到所有实义词的总义项数。
按照实义词词义密度计算公式计算得到语句的实义词词义密度;公式如下:
其中,density_notional为实义词词义密度,meaningsi为第i个实义词的义项数。
6)、统计语句中的习语数;
通过习语词典、成语词典等习语本体工具统计语句中的习语数count_idiom;
7)、计算语句的翻译难度值:
按照翻译难度计算公式计算得到语句的翻译难度值,公式如下:
diff_sentence
=K1·word+K2·grade_word+K3·density_notional+K4·count_clause+K5·MLC+K6·count_idiom
其中,diff_sentence为所述语句的翻译难度值,word为所述语句的句长,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为给定样本所计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数可以通过最小二乘法计算得到。具体计算方法与词汇等级调节系数相同。
8)、标注:
将翻译难度值大于预定阈值的语句在其所在的源文档及与源文档映射关系的译稿中进行标注,将标注后的源文档及译稿发送给审校员进行审校。
优选地,也可以通过对源文档进行分句处理,剔除未标注的语句,将剩余的语句发送给审校员进行审校,以减少审校员的审校工作量。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种文档稿件中语句标注的方法,包括:确定源文档及与所述源文档具有映射关系的译稿,扫描出所述源文档中出现的所有语句;根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数;将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注;所述词汇参数至少包括:词汇等级、习语数和实义词密度;其特征在于,所述分析所述词汇等级的过程包括:
扫描出所述语句中的所有词汇;
将得到的每个所述词汇在词汇分级表中进行匹配,得到每个所述词汇的词汇级别;所述词汇级别为一级、二级、三级或四级;
分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量;
按照词汇等级计算公式计算出所述语句的词汇等级,所述词汇等级计算公式如下:
其中,wordx为词汇级别为X级的词汇的数量,K11、K12和K13为词汇等级调节系数,word为所述语句中的词汇的总数。
2.根据权利要求1所述的方法,其特征在于,分析语句中的实义词密度的过程包括:
确定所述语句中的所有词汇,并对每个词汇进行词性标注,筛选出所述词汇中的所有实义词;
将得到的所有所述实义词按照一定顺序进行排列;
根据同义词本体工具得到每个所述实义词的义项数meaningsi,并统计所述实义词的义项总数;其中i为所述实义词的序号;
按照实义词词义密度计算公式计算,得到所述语句的实义词词义密度;所述实义词词义密度计算公式如下:
其中,meaningsi为第i个实义词的的义项数,count_notional为所述实义词的数量,density_notional为所述语句的实义词密度。
3.根据权利要求1的方法,其特征在于,分析所述语句中的习语数的过程包括:
通过习语本体工具找到所述语句中的所有习语,并统计所述习语的数量。
4.根据权利要求1所述的方法,其特征在于,所述语句参数至少包括:
语句长度、语句中的子句数和所述子句的平均长度。
5.根据权利要求4所述的方法,其特征在于,所述语句中的词汇数量作为所述语句长度。
6.根据权利要求4所述的方法,其特征在于,分析所述语句的子句平均长度的过程包括:
统计所述语句中的子句数量;
将所述语句中的词汇总数除以所述子句数量,结果作为所述子句的平均长度。
7.根据权利要求4所述的方法,其特征在于,所述语句的属性参数为翻译难度值;
计算所述翻译难度值的过程包括:
根据翻译难度计算公式计算,得到语句的翻译难度值;所述翻译难度计算公式如下:
diff_sentence
=K1·word+K2·grade_word+K3·density_notional+K4
·count_clause+K5·MLC+K6·count_idiom
其中,diff_sentence为所述语句的翻译难度值,grade_word为所述语句的词汇等级,density_notional为所述语句的实义词密度,count_clause为所述语句的子句数,MLC为语句中的子句的平均长度,count_idiom为所述语句的习语数,K1、K2、K3、K4、K5和K6为语句翻译难度调节系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310746427.1A CN103729344B (zh) | 2013-12-30 | 2013-12-30 | 一种文档稿件中语句标注的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310746427.1A CN103729344B (zh) | 2013-12-30 | 2013-12-30 | 一种文档稿件中语句标注的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103729344A CN103729344A (zh) | 2014-04-16 |
CN103729344B true CN103729344B (zh) | 2016-08-31 |
Family
ID=50453423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310746427.1A Active CN103729344B (zh) | 2013-12-30 | 2013-12-30 | 一种文档稿件中语句标注的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103729344B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766325B (zh) * | 2017-09-27 | 2021-05-28 | 百度在线网络技术(北京)有限公司 | 文本拼接方法及其装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101980184A (zh) * | 2010-10-28 | 2011-02-23 | 传神联合(北京)信息技术有限公司 | 对文档内容进行批注的方法和系统 |
CN101986308A (zh) * | 2010-11-16 | 2011-03-16 | 传神联合(北京)信息技术有限公司 | 一种术语快速标注方法 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288919A1 (en) * | 2004-06-28 | 2005-12-29 | Wang Jian C | Method and system for model-parameter machine translation |
-
2013
- 2013-12-30 CN CN201310746427.1A patent/CN103729344B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593200A (zh) * | 2009-06-19 | 2009-12-02 | 淮海工学院 | 基于关键词频度分析的中文网页分类方法 |
CN101980184A (zh) * | 2010-10-28 | 2011-02-23 | 传神联合(北京)信息技术有限公司 | 对文档内容进行批注的方法和系统 |
CN101986308A (zh) * | 2010-11-16 | 2011-03-16 | 传神联合(北京)信息技术有限公司 | 一种术语快速标注方法 |
CN103049568A (zh) * | 2012-12-31 | 2013-04-17 | 武汉传神信息技术有限公司 | 对海量文档库的文档分类的方法 |
Non-Patent Citations (2)
Title |
---|
机器翻译系统中英语从句的识别研究;马芳;《中国优秀硕士学位论文全文数据库》;20070615(第6期);第F084-32页第4.2.1节,图3 * |
英译汉语言质量自动量化研究;江进林;《现代外语》;20130228;第36卷(第1期);第85-91页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103729344A (zh) | 2014-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alexa et al. | Text analysis software: Commonalities, differences and limitations: The results of a review | |
CN103729421B (zh) | 一种译员文档精确匹配的方法 | |
CN111209412A (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN103744834A (zh) | 一种翻译任务准确分配的方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
CN104346326A (zh) | 一种情绪文本的情绪特征确定方法及装置 | |
CN103729348B (zh) | 一种语句翻译复杂度的分析方法 | |
CN109062895A (zh) | 一种智能语义处理方法 | |
CN103744840B (zh) | 一种文档翻译难度的分析方法 | |
CN113011154B (zh) | 一种基于深度学习的作业查重方法 | |
CN103699675B (zh) | 一种译员分级索引的方法 | |
CN103729344B (zh) | 一种文档稿件中语句标注的方法 | |
Femmer et al. | Which requirements artifact quality defects are automatically detectable? A case study | |
Cromico et al. | Translation Quality of English-Indonesian by Using Google Translate | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN109241521B (zh) | 一种基于引用关系的科技文献高关注度句子提取方法 | |
CN112488593B (zh) | 一种用于招标的辅助评标系统及方法 | |
CN103714051B (zh) | 一种待译文档的预处理方法 | |
CN103761226B (zh) | 按文档的字符属性碎片化的方法 | |
Darģis et al. | The use of text alignment in semi-automatic error analysis: use case in the development of the corpus of the Latvian language learners | |
Ljubešić et al. | Statistical Machine Translation of Croatian Weather Forecasts: How Much Data Do We Need? | |
Round et al. | Automated parsing of interlinear glossed text from page images of grammatical descriptions | |
Rodrigues et al. | Detecting structural irregularity in electronic dictionaries using language modeling | |
CN103729350B (zh) | 多维度待译文档的预处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Jiang Chao Inventor after: Zhang Pi Inventor before: Jiang Chao |
|
COR | Change of bibliographic data | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |