CN111680525B - 基于逆向差异识别的人机共译方法与系统 - Google Patents

基于逆向差异识别的人机共译方法与系统 Download PDF

Info

Publication number
CN111680525B
CN111680525B CN202010508277.0A CN202010508277A CN111680525B CN 111680525 B CN111680525 B CN 111680525B CN 202010508277 A CN202010508277 A CN 202010508277A CN 111680525 B CN111680525 B CN 111680525B
Authority
CN
China
Prior art keywords
translation
machine
engine
machine translation
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010508277.0A
Other languages
English (en)
Other versions
CN111680525A (zh
Inventor
何征宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iol Wuhan Information Technology Co ltd
Original Assignee
Iol Wuhan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iol Wuhan Information Technology Co ltd filed Critical Iol Wuhan Information Technology Co ltd
Priority to CN202010508277.0A priority Critical patent/CN111680525B/zh
Publication of CN111680525A publication Critical patent/CN111680525A/zh
Application granted granted Critical
Publication of CN111680525B publication Critical patent/CN111680525B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出基于逆向差异识别的人机共译方法、用于识别机器翻译差异的人机共译系统以及实现该方法的计算机可读存储介质,所述人机共译系统包括语义段落识别引擎、语义上下文识别引擎以及组合机器翻译引擎以及选择的逆向翻译引擎。本发明的技术方案首次引入逆向翻译结果比对,并且在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。

Description

基于逆向差异识别的人机共译方法与系统
技术领域
本发明属于人机协同技术领域,尤其涉及一种基于逆向差异识别的人机共译方法、用于识别机器翻译差异的人机共译系统以及实现该方法的计算机可读存储介质。
背景技术
随着全球化和信息化的不断推进,海量的翻译需求给语言服务行业带来了前所未有的机遇和挑战。将计算机辅助翻译、机器翻译集成为译员打造新的翻译工作环境已经是目前主流发展趋势。
计算机辅助翻译(Computer aided translation,CAT)类似于CAD(计算机辅助设计),能够帮助翻译者优质、高效、轻松地完成翻译工作。它不同于以往的机器翻译软件,不依赖于计算机的自动翻译,而是在人的参与下完成整个翻译过程。与人工翻译相比,质量相同或更好,翻译效率可提高一倍以上。CAT使得繁重的手工翻译流程自动化,并大幅度提高了翻译效率和翻译质量。
在翻译过程中,存在着大量重复或相似的句子和片段。采用人工笔译哪怕是最简单的句子,也需要书写一遍。CAT技术具有自动记忆和搜索机制,可以自动存储用户翻译的内容。当用户翻译某个句子时,系统自动搜索用户已经翻译过的句子,如果当前翻译的句子用户曾经翻译过,会自动给出以前的翻译结果;对于相似的句子,也会给出翻译参考和建议。实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力。从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求。
然而,机器翻译虽然快速,但是其准确度依然不能完全满足实际需要。尤其是对于一些重大的涉及敏感问题的待译文档,单纯的仅仅依靠机器翻译的结果是无法满足客户要求的。不管机器翻译或者计算机辅助翻译的方案如何改进,人工编辑校对甚至翻译都不可缺少。然而,如何平衡人工编辑翻译和机器翻译的工作时间、人工翻译何时接介入、以何种方式介入并且在保证准确度的同时能够满足大规模语义翻译的需要,现有技术并未给出有效的解决方案。
发明内容
为解决上述技术问题,本发明提出基于逆向差异识别的人机共译方法、用于识别机器翻译差异的人机共译系统以及实现该方法的计算机可读存储介质,所述人机共译系统包括语义段落识别引擎、语义上下文识别引擎以及组合机器翻译引擎以及选择的逆向翻译引擎。本发明的技术方案首次引入逆向翻译结果比对,并且在翻译过程中的多个阶段充分利用上下文概念以及机器翻译引擎的相互对比结果,从而提供人工翻译介入的准确时机,使得针对大规模语料翻译以及准确度要求较高的翻译场合既能保证翻译效率,同时确保翻译的准确性。
具体来说,在本发明的第一个方面,提供一种基于逆向差异识别的人机共译方法,所述方法用于将待译源文通过机器翻译引擎翻译成目标译文后,基于逆向翻译识别出需要人工介入的差异部分。
在此基础上,本发明的技术方案的核心技术手段包括:
S100:对输入的待译源文E进行语义预处理,所述语义预处理包括分段识别和上下文识别,从而得到组成待译源文E的各个段落Gi以及Gi的上下文段落{Gi-1,Gi+1};
S200:对于每一个段落Gi,执行如下计算机处理过程:
G001:将段落Gi输入至第一机器翻译引擎,将段落Gi-1输入至第二机器翻译引擎,将段落Gi+1输入至第三机器翻译引擎,得出第一机器翻译结果Yi、第二机器翻译结果Yi-1以及第三机器翻译结果Yi+1;
G002:将所述三个机器翻译结果组合成一个整体段落{Yi-1、Yi、Yi+1},作为第一机器翻译引擎的输入,将所述整体段落{Yi-1、Yi、Yi+1}进行逆向翻译,得到逆向翻译结果Ne;
G003:识别出所述逆向翻译结果Ne与待译源文E的差异部分,将所述差异部分所在的句子作为输入,分别输入至所述第一至第三机器翻译引擎,并在人机交互界面上显示所述第一至第三机器翻译引擎对于所述差异部分的翻译结果;
其中,所述逆向翻译是指将整体段落{Yi-1、Yi、Yi+1}翻译成待译源文E所属的语种。
作为进一步的优选,所述第一机器翻译引擎为Lingoes;所述第二机器翻译引擎为ICAT;所述第一机器翻译引擎为TRADOS。
作为体现人机交互的关键技术手段,在所述步骤G003之后,还包括:
在人机交互界面上高亮显示所述待译源文E与所述逆向翻译结果Ne的差异部分;并且并排显示所述三个机器翻译引擎对于所述差异部分的翻译结果。并且,在所述人机交互界面上提供编辑工具,所述编辑工具用于对所述差异部分的翻译结果进行编辑。
本发明的上述方法可以通过计算机指令形式的程序代码实现,因此,本发明还提供计算机可读存储介质,其上存储有计算机可执行指令,通过包含存储器和处理器的通信终端,执行所述可执行指令,用于实现前述所述的基于逆向差异识别的人机共译方法。
在另一个方面,本发明还提供一种用于识别机器翻译差异的人机共译系统,所述系统包括人机交互界面,
具体而言,作为体现技术方案创造性的关键技术手段,所述系统还包括语义段落识别引擎、语义上下文识别引擎以及组合机器翻译引擎;
所述语义段落识别引擎用于对待译源文进行语义识别后,输出段落识别结果;
所述语义上下文识别引擎用于对每一个当前识别出的段落,得出其上下文段落;
将所述当前识别出的段落机器上下文段落输入至所述机器翻译引擎,得出多个机器翻译结果;
进一步的,所述系统还包括逆向翻译引擎与差异识别引擎,
所述逆向翻译引擎用于将所述多个机器翻译结果组合后,进行逆向翻译;
所述差异识别引擎将所述逆向翻译的结果与所述待译源文进行比对后,识别出其中的差异部分,在所述人机交互界面上高亮显示
作为实现本发明上述方法的关键组成部分,所述的人机共译系统,还包括评测组件,所述评测组件对所述多个机器翻译引擎的翻译结果进行评测。
基于所述评测组件的评测得分,选择所述组合机器翻译引擎中多个机器翻译引擎之一作为所述逆向翻译引擎执行所述逆向翻译。
本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的人机共译方法的流程图
图2是图1所述方法的进一步实现细节流程图
图3是实现图1-2所述方法的系统架构图
具体实施方式
下面,结合附图以及具体实施方式,对发明做出进一步的描述。
参照图1,本发明一个实施例的一种基于逆向差异识别的人机共译方法的整体流程图。所述方法主要包括步骤S100-S200两个阶段,各个阶段执行如下:
S100:对输入的待译源文E进行语义预处理,所述语义预处理包括分段识别和上下文识别,从而得到组成待译源文E的各个段落Gi以及Gi的上下文段落{Gi-1,Gi+1};
S200:对于每一个段落Gi,执行对应的计算机处理过程。
具体的,所述计算机处理过程参见图2,主要包括G001-G003的计算机循环处理过程:
G001:将段落Gi输入至第一机器翻译引擎,将段落Gi-1输入至第二机器翻译引擎,将段落Gi+1输入至第三机器翻译引擎,得出第一机器翻译结果Yi、第二机器翻译结果Yi-1以及第三机器翻译结果Yi+1;
G002:将所述三个机器翻译结果组合成一个整体段落{Yi-1、Yi、Yi+1},作为第一机器翻译引擎的输入,将所述整体段落{Yi-1、Yi、Yi+1}进行逆向翻译,得到逆向翻译结果Ne;
G003:识别出所述逆向翻译结果Ne与待译源文E的差异部分,将所述差异部分所在的句子作为输入,分别输入至所述第一至第三机器翻译引擎,并在人机交互界面上显示所述第一至第三机器翻译引擎对于所述差异部分的翻译结果;
其中,所述逆向翻译是指将整体段落{Yi-1、Yi、Yi+1}翻译成待译源文E所属的语种。
作为发明人经过长期比较优选的机器翻译引擎,在图1-2的实施例中,所述第一机器翻译引擎为Lingoes;所述第二机器翻译引擎为ICAT;所述第一机器翻译引擎为TRADOS。
进一步参见图3,是实现图1-2所述方法的系统架构图
图3示出了一种用于识别机器翻译差异的人机共译系统,所述系统包括人机交互界面。
具体参见图3,所述系统还包括语义段落识别引擎、语义上下文识别引擎以及组合机器翻译引擎;
所述语义段落识别引擎用于对待译源文进行语义识别后,输出段落识别结果;
所述语义上下文识别引擎用于对每一个当前识别出的段落,得出其上下文段落;
将所述当前识别出的段落机器上下文段落输入至所述机器翻译引擎,得出多个机器翻译结果;
进一步的,所述系统还包括逆向翻译引擎与差异识别引擎,
所述逆向翻译引擎用于将所述多个机器翻译结果组合后,进行逆向翻译;
所述差异识别引擎将所述逆向翻译的结果与所述待译源文进行比对后,识别出其中的差异部分,在所述人机交互界面上高亮显示。
图3所述的人机共译系统,还包括评测组件,所述评测组件对所述多个机器翻译引擎的翻译结果进行评测,从而基于所述评测组件的评测得分,选择所述组合机器翻译引擎中多个机器翻译引擎之一作为所述逆向翻译引擎执行所述逆向翻译。
更值得注意的是,在图1-3所述的技术方案中,在人机交互界面上高亮显示所述待译源文E与所述逆向翻译结果Ne的差异部分;并且并排显示所述三个机器翻译引擎对于所述差异部分的翻译结果。
在所述人机交互界面上提供编辑工具,所述编辑工具用于对所述差异部分的翻译结果进行编辑。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种基于逆向差异识别的人机共译方法,所述方法对输入的待译源文E进行分段识别和上下文识别,得到组成待译源文E的各个段落Gi以及Gi的上下文段落{Gi-1,Gi+1}之后,继续执行如下步骤:
对于每一个段落Gi,执行如下计算机处理过程:
G001:将段落Gi输入至第一机器翻译引擎Lingoes,将段落Gi-1输入至第二机器翻译引擎ICAT,将段落Gi+1输入至第三机器翻译引擎,得出第一机器翻译结果Yi、第二机器翻译结果Yi-1以及第三机器翻译结果Yi+1;
G002:对第一机器翻译结果Yi、第二机器翻译结果Yi-1以及第三机器翻译结果Yi+1进行评测,基于评测得分,选择第一机器翻译引擎、第二机器翻译引擎、第三机器翻译引擎之一作为逆向翻译引擎;
将第一机器翻译结果Yi、第二机器翻译结果Yi-1以及第三机器翻译结果Yi+1组合成一个整体段落{Yi-1、Yi、Yi+1},作为第一机器翻译引擎的输入,将所述整体段落{Yi-1、Yi、Yi+1}进行逆向翻译,得到逆向翻译结果Ne;
G003:识别出所述逆向翻译结果Ne与待译源文E的差异部分,将所述差异部分所在的句子作为输入,分别输入至第一机器翻译引擎、第二机器翻译引擎、第三机器翻译引擎,在人机交互界面上高亮显示所述待译源文E与所述逆向翻译结果Ne的差异部分;并且并排显示第一机器翻译引擎、第二机器翻译引擎、第三机器翻译引擎对于所述差异部分的翻译结果;
其中,所述逆向翻译是指将整体段落{Yi-1、Yi、Yi+1}翻译成待译源文E所属的语种;
并且,基于逆向翻译识别出需要人工介入的差异部分之后,在所述人机交互界面上提供编辑工具,所述编辑工具用于对所述差异部分的翻译结果进行编辑。
2.一种用于识别机器翻译差异的人机共译系统,所述系统包括人机交互界面,用于实现权利要求1所述的一种基于逆向差异识别的人机共译方法;
其特征在于,所述系统还包括语义段落识别引擎、语义上下文识别引擎以及组合机器翻译引擎;
所述语义段落识别引擎用于对待译源文进行语义识别后,输出段落识别结果;所述语义上下文识别引擎用于对每一个当前识别出的段落,得出其上下文段落;将所述当前识别出的段落机器上下文段落输入至所述机器翻译引擎,得出多个机器翻译结果;进一步的,所述系统还包括逆向翻译引擎与差异识别引擎,
所述逆向翻译引擎用于将所述多个机器翻译结果组合后,进行逆向翻译;
所述差异识别引擎将所述逆向翻译的结果与所述待译源文进行比对后,识别出其中的差异部分,在所述人机交互界面上高亮显示。
3.如权利要求2所述的人机共译系统,还包括评测组件,所述评测组件对所述多个机器翻译引擎的翻译结果进行评测。
4.如权利要求3所述的人机共译系统,其特征在于,基于所述评测组件的评测得分,选择所述组合机器翻译引擎中多个机器翻译引擎之一作为所述逆向翻译引擎执行所述逆向翻译。
5.一种计算机可读存储介质,其上存储有计算机可执行指令,通过权利要求2-4任一项所述的人机共译系统执行所述可执行指令,用于实现权利要求1所述的人机共译方法。
CN202010508277.0A 2020-06-09 2020-06-09 基于逆向差异识别的人机共译方法与系统 Active CN111680525B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010508277.0A CN111680525B (zh) 2020-06-09 2020-06-09 基于逆向差异识别的人机共译方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010508277.0A CN111680525B (zh) 2020-06-09 2020-06-09 基于逆向差异识别的人机共译方法与系统

Publications (2)

Publication Number Publication Date
CN111680525A CN111680525A (zh) 2020-09-18
CN111680525B true CN111680525B (zh) 2024-03-26

Family

ID=72454325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010508277.0A Active CN111680525B (zh) 2020-06-09 2020-06-09 基于逆向差异识别的人机共译方法与系统

Country Status (1)

Country Link
CN (1) CN111680525B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818707B (zh) * 2021-01-19 2024-02-27 传神语联网网络科技股份有限公司 基于逆向文本共识的多翻引擎协作语音翻译系统与方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222529A (ja) * 2000-02-09 2001-08-17 Nec Corp 機械翻訳システム及びプログラムを記録した機械読み取り可能な記録媒体
KR20020020406A (ko) * 2000-09-08 2002-03-15 정규석 문서분할에 의한 병렬처리가 가능한 기계번역장치
JP2004220616A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 3つ以上の対訳画面を同時に表示し編集可能にする機械翻訳装置
JP2005078318A (ja) * 2003-08-29 2005-03-24 Advanced Telecommunication Research Institute International 機械翻訳文の評価方法、および機械翻訳文の評価装置
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103631770A (zh) * 2013-12-06 2014-03-12 刘建勇 语言实体关系分析方法和一种机器翻译装置和方法
CN106202059A (zh) * 2015-05-25 2016-12-07 松下电器(美国)知识产权公司 机器翻译方法以及机器翻译装置
CN107066451A (zh) * 2016-12-16 2017-08-18 中国科学院自动化研究所 人机交互翻译模型的更新方法及更新系统
CN107491443A (zh) * 2017-08-08 2017-12-19 传神语联网网络科技股份有限公司 一种包含非常规词汇的中文句子翻译方法及系统
CN110705318A (zh) * 2019-09-04 2020-01-17 南京题麦壳斯信息科技有限公司 一种机器翻译引擎测评优选方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
FI125823B (en) * 2011-11-03 2016-02-29 Rex Partners Oy A measure of the quality of machine translation
US10846471B2 (en) * 2018-07-03 2020-11-24 FinancialForce.com, Inc. Artificial intelligence and crowdsourced translation platform
US11036940B2 (en) * 2018-08-30 2021-06-15 Mmt Srl Translation system and method

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001222529A (ja) * 2000-02-09 2001-08-17 Nec Corp 機械翻訳システム及びプログラムを記録した機械読み取り可能な記録媒体
KR20020020406A (ko) * 2000-09-08 2002-03-15 정규석 문서분할에 의한 병렬처리가 가능한 기계번역장치
JP2004220616A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 3つ以上の対訳画面を同時に表示し編集可能にする機械翻訳装置
JP2005078318A (ja) * 2003-08-29 2005-03-24 Advanced Telecommunication Research Institute International 機械翻訳文の評価方法、および機械翻訳文の評価装置
JP2009122989A (ja) * 2007-11-15 2009-06-04 Junichi Shibuya 翻訳装置
CN102662934A (zh) * 2012-04-01 2012-09-12 百度在线网络技术(北京)有限公司 一种在跨语言交流中对译文进行验证的方法和装置
CN103631770A (zh) * 2013-12-06 2014-03-12 刘建勇 语言实体关系分析方法和一种机器翻译装置和方法
CN106202059A (zh) * 2015-05-25 2016-12-07 松下电器(美国)知识产权公司 机器翻译方法以及机器翻译装置
CN107066451A (zh) * 2016-12-16 2017-08-18 中国科学院自动化研究所 人机交互翻译模型的更新方法及更新系统
CN107491443A (zh) * 2017-08-08 2017-12-19 传神语联网网络科技股份有限公司 一种包含非常规词汇的中文句子翻译方法及系统
CN110705318A (zh) * 2019-09-04 2020-01-17 南京题麦壳斯信息科技有限公司 一种机器翻译引擎测评优选方法及系统

Also Published As

Publication number Publication date
CN111680525A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
Liu et al. Machine translation: general
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
US6418403B2 (en) Translating apparatus, dictionary search apparatus, and translating method
CN111680526B (zh) 基于逆向翻译结果比对的人机交互翻译系统与方法
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
Kesidis et al. A word spotting framework for historical machine-printed documents
CN111680524B (zh) 基于逆向矩阵分析的人机反馈翻译方法与系统
CN105095665A (zh) 一种中文疾病诊断信息的自然语言处理方法及系统
CN101271451A (zh) 计算机辅助翻译的方法和装置
CN111680527B (zh) 基于专属机翻引擎训练的人机共译系统与方法
CN111680525B (zh) 基于逆向差异识别的人机共译方法与系统
JP4113235B2 (ja) 翻訳支援装置
CN116468009A (zh) 文章生成方法、装置、电子设备和存储介质
CN109815503B (zh) 一种人机交互翻译方法
Nayak et al. Catalog: New approaches to tm and post editing interfaces
CN111680523B (zh) 基于上下文语义比对的人机协同翻译系统与方法
CN107491443B (zh) 一种包含非常规词汇的中文句子翻译方法及系统
JPWO2018150453A1 (ja) データ分析装置およびデータ分析方法
CN107967303B (zh) 语料显示的方法及装置
JP4643183B2 (ja) 翻訳装置および翻訳プログラム
JP2838984B2 (ja) 汎用参照装置
CN113919371B (zh) 一种翻译语料库的匹配方法
WO2009144890A1 (ja) 翻訳前換言規則生成システム
CN107870905A (zh) 一种特定词汇的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant