CN103793375A - 一种在自动化翻译处理中精准替换术语及短语的方法 - Google Patents

一种在自动化翻译处理中精准替换术语及短语的方法 Download PDF

Info

Publication number
CN103793375A
CN103793375A CN201210424472.0A CN201210424472A CN103793375A CN 103793375 A CN103793375 A CN 103793375A CN 201210424472 A CN201210424472 A CN 201210424472A CN 103793375 A CN103793375 A CN 103793375A
Authority
CN
China
Prior art keywords
translation
term
phrase
word segmentation
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210424472.0A
Other languages
English (en)
Inventor
杜金林
朱懿
杜勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Translated by Mdt InfoTech Ltd, Shanghai
Original Assignee
SHANGHAI YONGJINYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YONGJINYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YONGJINYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201210424472.0A priority Critical patent/CN103793375A/zh
Publication of CN103793375A publication Critical patent/CN103793375A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明为一种在自动化翻译处理中精准替换术语及短语的方法,包括:将原文输入分词模块,进行分词,获得以空格分隔的分词结果。将术语/短语表输入分词模块,获得分词后的术语/短语表。将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。用户使用时,除可以精确替换指定的术语及短语,还可指定不翻译的术语及短语,实现定制化。可大幅减少在译后编辑(PE)中工作量,聚焦语言,减少对术语的关注度,提升效率,加快产品上市时间。自动将术语及固定短语精准地替换到译文中,避免PE过程中人为造成表达不一致、术语不准确等情况,有效提升翻译质量,减少后续质量保证成本。

Description

一种在自动化翻译处理中精准替换术语及短语的方法
技术领域
本发明涉及一种在自动化翻译处理中精准替换术语及短语的方法,用于CAT软件或者多语言翻译系统中的开发和应用,属多语言机器翻译技术领域。 
背景技术
机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。 
发展道路 
机器翻译的研究历史可以追溯到 20 世纪三四十年代。20世纪30年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。1933年,苏联发明家П.П.特罗扬斯基设计了把一种语言翻译成另一种语言的机器,并在同年9月5日登记了他的发明;但是,由于30年代技术水平还很低,他的翻译机没有制成。1946 年,第一台现代电子计算机 ENIAC 诞生,随后不久,信息论的先驱、美国科学家 W. Weaver 和英国工程师A. D. Booth 在讨论电子计算机的应用范围时,于1947年提出了利用计算机进行语言自动翻译的想法。1949年,W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思想。走过六十年的风风雨雨,机器翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:
1.开创期(1947-1964)
1954 年,美国乔治敦大学(Georgetown University) 在 IBM 公司协同下, 用 IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣期。
2.受挫期(1964-1975) 
1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为《语言与机器》的报告(简称ALPAC报告) ,该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了近乎停滞的僵局。机器翻译步入萧条期。
3.恢复期(1975-1989) 
进入 70 年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,国与国之间的语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来从事翻译工作。 同时, 计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻译项目又开始发展起来,各种实用的以及实验的系统被先后推出。中国的“784”工程给予了机器翻译研究足够的重视,80 年代中期以后,我国的机器翻译研究发展进一步加快,首先研制成功了 KY-1 和MT/EC863 两个英汉机译系统,表明我国在机器翻译技术方面取得了长足的进步。
4.新时期(1990~现在) 
随着 Internet 的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁,传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开,中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了市场,来到了用户面前。
5. 机器翻译的过程 
整个机器翻译的过程可以分为原文分析、原文译文转换和译文生成3个阶段。在具体的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中,原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来,把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把原文分析、原文译文转换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。
6.中国机器翻译简史 
中国机器翻译研究起步于1957年,是世界上第4个开始搞机器翻译的国家,60年代中期以后一度中断,70年代中期以来有了进一步的发展。现在,中国社会科学院语言研究所、中国科学技术情报研究所、中国科学院计算技术研究所、黑龙江大学、哈尔滨工业大学等单位都在进行机器翻译的研究;上机进行过实验的机器翻译系统已有十多个,翻译的语种和类型有英汉、俄汉、法汉、日汉、德汉等一对一的系统,也有汉译英、法、日、俄、德的一对多系统(FAJRA系统)。此外,还建立了一个汉语语料库和一个科技英语语料库。中国机器翻译系统的规模正在不断地扩大,内容正在不断地完善。
机器翻译的质量问题误差难免 
很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的。 
对于“小而专”的技术领域,术语的准确使用尤为重要。准确地使用术语能够大幅提升译文的质量,大大减少翻译人员后编辑(PE)过程中的负担。然而,如何获取应对各个行业、精准地道的术语表,避免术语使用的歧义,存在巨大挑战。 
现有技术的缺点:常规的遍历术语/短语列表并替换的方法很可能因句子中用词形似歧义导致术语/短语被错误地替换的问题。 
发明内容
为解决上述问题,本发明旨在提供一种在自动化翻译处理中精准替换术语及短语的方法。本发明的技术方案如下: 
一种在自动化翻译处理中精准替换术语及短语的方法,包括以下步骤: 
1)将原文输入分词模块,进行分词,获得以空格分隔的分词结果。
2)同时,将术语/短语表输入分词模块,获得分词后的术语/短语表。 
3)将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。 
4)将匹配得到的结果,根据术语/短语表中对应语言的词条进行替换,最终获得术语/短语前处理后的译文。 
以上所述的在自动化翻译处理中精准替换术语及短语的方法,作为优选方案:还包括: 
分词模块:提供将源语言文本、术语/短语表条目按照近似真实语义进行划分的功能。
前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能。 
术语表:提供保存术语/短语在不同语言间的对应信息的功能。 
本发明的在自动化翻译处理中精准替换术语及短语的方法,其有益效果是: 减少后编辑时间,提升工作效率,确保翻译术语的统一性,有效节约成本。 
自动化翻译处理中精准替换术语及短语的方法,可带来以下有益效果: 
1) 大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升后编辑效率,减少翻译相关产品的Time-To-Market时间。
2) 自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。 
附图说明
图1. 在自动化翻译处理中精准替换术语及短语的方法的系统框图。 
具体实施方案
缩略语和关键术语定义: 
词段数 分词后得到词段的数量
AT/MT Automatic Translation/Machine Translation  自动化翻译,又称机器翻译
PE Post-Editing 译后编辑,指对自动化翻译后的译文进行的人工编辑,以确保翻译质量满足要求
QA  Quality assurance 质量保证,指对译后编辑的进行再审校,以确保翻译质量的过程。
具体实施例如下: 
在自动化翻译处理中精准替换术语及短语的方法,包括以下步骤:
1)将原文输入分词模块,进行分词,获得以空格分隔的分词结果。
2)同时,将术语/短语表输入分词模块,获得分词后的术语/短语表。 
3)将原文的分词结果输入前处理模块,对照每个词段遍历分词后的术语/短语表,尽可能匹配分词结果中的多个词段,由多至少逐个匹配。 
4)将匹配得到的结果,根据术语/短语表中对应语言的词条进行替换,最终获得术语/短语前处理后的译文。 
在自动化翻译处理中精准替换术语及短语的方法,具体还包括: 
1)分词模块:提供将源语言文本、术语/短语表条目 按照近似真实语义进行划分的功能。
2)前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能。 
3)术语表:提供保存术语/短语在不同语言间的对应信息的功能。 
通过应用本发明技术,可带来以下有益效果: 
1)  大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升译后编辑(PE)效率,减少翻译相关产品的Time-To-Market时间。
2)  自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。 
每个厂商都希望用户在翻译过程中,确保对准确使用专业术语,而真实的翻译场景是由多个翻译人员或者翻译小组来完成某个产品项目,所以,即使厂商提供了专业的术语,也未必能够使每个译员或者每个翻译小组都能够保持术语的一致性,这样将浪费较多的人力、物力和财力。从用户的角度考虑,一种在自动化翻译处理中精准替换术语及短语的方法,在保证术语一致性的同时,将提升翻译的效率,节约成本,减少后期质量检查的时间,将是相当可贵。采用本发明的技术方案,可得到有益结果除了1)   大幅减少翻译人员在译后编辑(PE)过程中的工作量,使翻译人员将注意力聚焦于语言上,减少对术语及固定短语的关注度,从而提升PE效率,减少翻译相关产品的Time-To-Market时间,同时,自动将术语及固定短语精准地替换到译文中,避免翻译人员在译后编辑(PE)过程中人为翻译术语和固定短语时造成的表达不一致、术语不准确等情况,有效提供翻译质量,大大减少后续质量保证(QA)成本。 
以上所述,仅为本发明的较佳实施例而已,本技术领域的技术人员围绕该精神所做的任何非创造性改进,皆属于本发明的保护范围。 

Claims (2)

1.在自动化翻译处理中精准替换术语及短语的方法,其特征在于: 
1) 将原文及术语/短语条目进行分词后匹配的方法;2) 按照分词后的词段数,由多到少匹配的方法。
2.根据权利要求1所述的在自动化翻译处理中精准替换术语及短语的方法,其特征在于:分词模块:提供将源语言文本、术语/短语表条目按照近似真实语义进行划分的功能;前处理模块:提供按照分词结果由长到短遍历术语/短语并替换源语言中相应术语/短语的功能;术语表:提供保存术语/短语在不同语言间的对应信息的功能。
CN201210424472.0A 2012-10-31 2012-10-31 一种在自动化翻译处理中精准替换术语及短语的方法 Pending CN103793375A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210424472.0A CN103793375A (zh) 2012-10-31 2012-10-31 一种在自动化翻译处理中精准替换术语及短语的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210424472.0A CN103793375A (zh) 2012-10-31 2012-10-31 一种在自动化翻译处理中精准替换术语及短语的方法

Publications (1)

Publication Number Publication Date
CN103793375A true CN103793375A (zh) 2014-05-14

Family

ID=50669060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210424472.0A Pending CN103793375A (zh) 2012-10-31 2012-10-31 一种在自动化翻译处理中精准替换术语及短语的方法

Country Status (1)

Country Link
CN (1) CN103793375A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126498A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种基于动态规划的批量双语术语识别方法
CN106529774A (zh) * 2016-10-31 2017-03-22 用友网络科技股份有限公司 一种按模块分发软件ui词条的翻译方法
CN104239293B (zh) * 2014-08-18 2017-07-04 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
CN108984540A (zh) * 2018-07-23 2018-12-11 传神语联网网络科技股份有限公司 一种辅助翻译的方法及辅助翻译系统
CN110489762A (zh) * 2019-06-26 2019-11-22 中译语通科技股份有限公司 基于神经网络机器翻译的术语翻译方法、存储介质和装置
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101539910A (zh) * 2009-01-15 2009-09-23 传神联合(北京)信息技术有限公司 一种用于计算机辅助翻译的取句方法及其系统
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1652106A (zh) * 2004-02-04 2005-08-10 北京赛迪翻译技术有限公司 基于语言知识库的机器翻译方法与装置
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN101034395A (zh) * 2007-03-30 2007-09-12 传神联合(北京)信息技术有限公司 一种待译文件处理系统及使用这种系统的文件处理方法
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
CN101539910A (zh) * 2009-01-15 2009-09-23 传神联合(北京)信息技术有限公司 一种用于计算机辅助翻译的取句方法及其系统
CN102270242A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助语料提取方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239293B (zh) * 2014-08-18 2017-07-04 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
CN106126498A (zh) * 2016-06-22 2016-11-16 上海者信息科技有限公司 一种基于动态规划的批量双语术语识别方法
CN106126498B (zh) * 2016-06-22 2019-06-14 上海一者信息科技有限公司 一种基于动态规划的批量双语术语识别方法
CN106529774A (zh) * 2016-10-31 2017-03-22 用友网络科技股份有限公司 一种按模块分发软件ui词条的翻译方法
CN108984540A (zh) * 2018-07-23 2018-12-11 传神语联网网络科技股份有限公司 一种辅助翻译的方法及辅助翻译系统
CN110489762A (zh) * 2019-06-26 2019-11-22 中译语通科技股份有限公司 基于神经网络机器翻译的术语翻译方法、存储介质和装置
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置
CN111652006B (zh) * 2020-06-09 2021-02-09 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置

Similar Documents

Publication Publication Date Title
Qun et al. Machine translation: general
Hutchins Machine translation: A concise history
Hutchins Machine translation over fifty years
CN100483399C (zh) 训练音译模型、切分统计模型的方法和装置
CN103793375A (zh) 一种在自动化翻译处理中精准替换术语及短语的方法
Nair et al. Machine translation systems for Indian languages
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
Dhariya et al. A hybrid approach for Hindi-English machine translation
Way et al. On the Role of Translations in State‐of‐the‐Art Statistical Machine Translation
JP2010061645A (ja) フレーズベースの統計的機械翻訳方法及びシステム
Li A survey of machine translation methods
Xiao et al. BiTIIMT: A bilingual text-infilling method for interactive machine translation
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
Lavie Stat-XFER: A general search-based syntax-driven framework for machine translation
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
Lavie et al. Rapid prototyping of a transfer-based Hebrew-to-English machine translation system
JP2004220266A (ja) 機械翻訳装置および機械翻訳方法
Tran et al. Linguistic-relationships-based approach for improving word alignment
Alabau et al. Multimodal interactive machine translation
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
Chen et al. A structure-based model for Chinese organization name translation
Babych et al. Design of a hybrid high quality machine translation system
Liu et al. Machine Translation: General
Rahul et al. Rule based reordering and morphological processing for English-Malayalam statistical machine translation
Cavalli-Sforza et al. Using morphology to improve Example-Based Machine Translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: SHANGHAI YOUYI INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: SHANGHAI YONGJINYI INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20141106

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20141106

Address after: 306, room 200439, Gao Jing International Building, 101 Yin Gao Xi Road, Shanghai, Baoshan District

Applicant after: Translated by Mdt InfoTech Ltd, Shanghai

Address before: 306, room 200439, Gao Jing International Building, 101 Yin Gao Xi Road, Shanghai, Baoshan District

Applicant before: SHANGHAI YONGJINYI INFORMATION TECHNOLOGY CO., LTD.

ASS Succession or assignment of patent right

Owner name: DU JINLIN

Free format text: FORMER OWNER: SHANGHAI YOUYI INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150326

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 200439 BAOSHAN, SHANGHAI TO: 200441 BAOSHAN, SHANGHAI

TA01 Transfer of patent application right

Effective date of registration: 20150326

Address after: 200441 Shanghai Yixian Road, No. 2816 Wordsworth Pentium building B building 20 floor

Applicant after: Du Jinlin

Address before: 306, room 200439, Gao Jing International Building, 101 Yin Gao Xi Road, Shanghai, Baoshan District

Applicant before: Translated by Mdt InfoTech Ltd, Shanghai

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160205

Address after: 200441 Shanghai Yixian Road, No. 2816 Wordsworth Pentium building B building 20 floor

Applicant after: Translated by Mdt InfoTech Ltd, Shanghai

Address before: 200441 Shanghai Yixian Road, No. 2816 Wordsworth Pentium building B building 20 floor

Applicant before: Du Jinlin

RJ01 Rejection of invention patent application after publication

Application publication date: 20140514

RJ01 Rejection of invention patent application after publication