CN105069001A - 计算机辅助翻译方法 - Google Patents

计算机辅助翻译方法 Download PDF

Info

Publication number
CN105069001A
CN105069001A CN201510627948.4A CN201510627948A CN105069001A CN 105069001 A CN105069001 A CN 105069001A CN 201510627948 A CN201510627948 A CN 201510627948A CN 105069001 A CN105069001 A CN 105069001A
Authority
CN
China
Prior art keywords
translation
language
tagged element
pretranslation
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510627948.4A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510627948.4A priority Critical patent/CN105069001A/zh
Publication of CN105069001A publication Critical patent/CN105069001A/zh
Priority to PCT/CN2016/086628 priority patent/WO2016206582A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种计算机辅助翻译方法,其由计算机执行,其中,所述计算机辅助翻译方法包含如下处理:预翻译处理,将第一语言的语句中的各个翻译子单元处理为第二语言的翻译子单元,并对语序进行调整;标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的翻译子单元相应的位置显示标记元素;以及标记元素清除处理,响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。由此,可使用户便于识别第一语言和第二语言的对应关系。

Description

计算机辅助翻译方法
技术领域
本发明涉及计算机辅助翻译(computeraidedtranslation,CAT)方法。
背景技术
目前,基于计算机实现的机器翻译(MT)技术有可分为基于规则的机器翻译(RBMT)、基于统计的机器翻译(SMT)、基于实例的机器翻译(EBMT)、基于模板的机器翻译(TBMT)的机器翻译技术等。另外,还存在以翻译记忆(translationmemory,TM)技术为代表的计算机辅助翻译技术。
无论是机器翻译还是计算机辅助翻译,都是将待翻译语言(以下,有时记作第一语言)的语句翻译成目标语言(以下,有时记作第二语言)的语句。但在目前的计算机翻译(包括计算机机器翻译和计算机辅助翻译)产品中,在第一语言和第二语言之间的对应关系的显示方面存在许多问题。
例如,如图1所示,第一语言位于左侧,作为翻译结果的第二语言位于右侧。它们分别由多个翻译子单元(以下有时简称做子单元)构成。所谓翻译子单元是指句子的各个组成部分,它们可大体分类为具有实际含义的词汇以及仅表示语法信息的元素(例如,日语等中的提示主语的“は”)等。例如,也可以将eated分为作为表示实际含义的子单元部分“eat”和表示时态语法的子单元部分“ed”。
如图1所示,在现有的翻译产品中,例如,如果将鼠标放置在第二语言的语句的某个翻译子单元上,则在第一语言的语句中以阴影的方法显示对应的翻译子单元。这种显示方法存在如下问题,首先,必须通过鼠标等切换到显示对应关系的模式,例如,在图1所示例子中,需要将鼠标放置在某个子单元上,切换到显示对应关系的模型,才显示对应关系。如果鼠标不指示某个子单元,则不显示两种语言的子元素之间的对应关系。
此外,例如如图1所示的例子那样,只能一个一个地显示对应关系。此外,不能显示语序的变化,例如,英语是典型的主谓宾(SVO)语序,而日语是SOV语序,图1所示的产品不能在第二语言中显示出子单位原来的语序位置,必须参考左侧的显示才能掌握原来的语序位置。此外,不能在第二语言中显示出已被隐藏的第一语言的语法元素等。例如,诸如bananas中的“s”表示复数,而中文、日语等往往不使用复数,因此,仅参照第二语言中的“バナナ”,则无法知晓バナナ对应的是“bananas”还是“apple”。
发明内容
针对上述问题,本发明提供一种计算机辅助翻译方法,其由计算机执行,其中,
所述计算机辅助翻译方法包含如下处理:
预翻译处理,将第一语言的语句中的各个翻译子单元处理为第二语言的翻译子单元,并对语序进行调整;
标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的翻译子单元相应的位置显示标记元素;以及
标记元素清除处理,响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。
此外,可以是,在所述预翻译处理中,使用基于模板的机器翻译、基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译、基于词典的简单替代中的至少一种方式进行所述预翻译。
此外,可以是,所述相应的位置包括调整语序之前的位置和调整语序之后的位置。
此外,可以是,所述标记元素为字符或图片。
通过以上方式,可以在作为第二语言的翻译结果中,直观地表现出第二语言的子单元与第一语言的子单元之间的对应关系。
附图说明
图1示出了用于说明现有的翻译产品中显示对应关系的例子。
图2示出了辅助翻译程序P的组成结构。
图3示出了翻译模板的例子。
图4示出了与翻译模板对应的标记模板的例子。
图5示出了显示有标记元素的翻译结果的例子。
图6示出了与辞典对应的标记模板的例子。
具体实施方式
本发明的计算机辅助翻译方法例如可由作为个人计算机的PC1执行辅助翻译程序P来实现。PC1可以是通常的个人计算机,其具有处理器、存储器、显示器和鼠标键盘等,可执行辅助翻译程序P,进行翻译处理。辅助翻译程序P构成为包括预翻译模块P1、标记元素显示模块P2和标记元素清除模块P3。
例如,用户通过键盘或鼠标指示辅助翻译程序P进行翻译处理。响应于该指示,在预翻译模块P1中,针对待翻译的第一语言的语句,基于现有的翻译方法进行预翻译。在预翻译中,将第一语言的语句中的各个翻译子单元处理为第二语言的翻译子单元,并对对语序进行调整。
例如,可以采用基于模板的机器翻译(TBMT)技术来进行预翻译。在基于模板的机器翻译中,例如,如图3所示,在翻译模板库中存在诸如“Ilike[A]→私は[A]が好きです”这样的翻译模板,其表示将“Ilike[A]”翻译为“私は[A]が好きです”。例如,针对“Ilikeapple”、“Ilikeorange”这样的待翻译语句,在预翻译模块P1中,针对模板中[A]的部分,通过查找辞典等方法,将[A]处的第一语言的子单元置换为第二语言的子单元,即,将“apple”置换为“リンゴ”,将“orange”置换为“オレンジ”,并与模板中的其他部分相结合,从而将“Ilikeapple”、“Ilikeorange”翻译为“私はリンゴが好きです”、“私はオレンジが好きです”。
以上,使用了TBMT技术来进行预翻译,但不限于此,也可以通过其他方法来进行预翻译。例如,可以采用基于规则的机器翻译技术来进行预翻译。类似地,与存储翻译规则的库中的各个翻译规则对应地建立标记模板,针对基于规则的预翻译结果显示标记元素。
在标记元素显示模块P2中,针对预翻译的结果,显示标记元素。例如,可以利用助标记元素库来显示标记元素。标记元素库例如可由文本文件实现,在标记元素库中,存在“Ilike[A]→私は<like>[A]が好きです<like>”这样的标记模板。该标记模板分为三部分:左侧为模板的名称,其可作为键来唯一标识模板;中间部分用于显示标记元素;右侧用于在后述处理中清除标记元素,在要清除的标记元素存在多个的情况下,例如可以使用“|”等分隔符分隔各个标记元素。
例如,可以通过左侧的名称进行检索。例如,根据“Ilike[A]”检索与“Ilike[A]”对应的标记元素的模板,得到“私は<like>[A]が好きです”。其中,“私は<like>[A]が<好きです>”中的“<>”表示在该位置显示标记元素。
这样,如图5所示,通过标记元素显示模块P2显示标记元素,“Ilikeapple”的翻译结果为“私はlikeリンゴが好きです”。由此,在作为第二语言的翻译结果中,分别在翻译子单元被调整语序之前的位置和被调整语序之后的位置显示标记元素,使得用户可以直观地在翻译结果中掌握发生语序变换的字段与翻译之前的字段元之间的对应关系和相对位置。类似地,对于which之类的带有从句的复杂长句,在翻译时通常根据情况拆分成容易理解的短句。例如,通过在作为第二语言的翻译结果中的原来的which的位置嵌入式地显示标记元素,可以使得用户容易理解原有的句子结构而方便地进行修改。
在该例子中,使用了与其它部分不同的粗斜体来显示标记元素,但在实际应用中,可以用颜色、下划线、字体大小等其他方式来标记元素,只要使得用户通过显示方式而容易分辨出标记元素以及容易判断出子单元之间的对应关系即可。
此外,在标记元素显示模块P2中,可以将关于需要清除的标记元素的信息(例如文本内容、字体、是否为图片显示方式等信息)临时记录在例如内存中,以便于在后续处理中清除标记元素直接访问内存,即可得到关于待清除的标记元素的信息,从而根据这些信息将标记元素与翻译结果区分开,来清除标记元素,保留翻译结果。
也可以采用同样的方法来显示其他语言信息。例如,英语等印欧语系的语言往往具有单复数形式,而中文、日文通常不使用复数。为了便于在作为翻译结果的第二语言的语句中直观地显示第一语言的单复数等语言信息。例如,针对在图3所示的“Ilike[A]→私は[A]が好きです”这样的翻译模板中的使用辞典来进行处理的[A]的部分,定义图6所示“applesリンゴ<s><s>”、“bananasバナナ<s><s>”这样的显示标记元素的模板。与以上说明类似地,该标记模板分为三部分:左侧为模板的键;中间部分用于显示标记元素;右侧用于在后述处理中清除标记元素。
由此,通过标记元素显示模块P2显示这样的标记元素,例如,将“bananas”处理为“バナナs”,这使得用户可以在作为翻译结果的第二语言的语句中,直观地看到在以往的翻译产品中无法看到的对应关系,以及已经被隐藏或清除的语法元素(例如,单复数、时态、阴性阳性等),从而使得用户可以基于这些元素方便地对翻译结果进行修正。
如果用户对翻译结果满意,可通过键盘或鼠标等指示辅助翻译程序P清除标记元素。例如,可以对“清除标记元素”的操作分配快捷键F8。在用户按下F8时,响应于用户作出的指示,在标记元素清除模块P3中,针对上述标记模板中的需要清除的标记元素的部分,例如基于在标记元素显示模块P2中记录在内存中的与待清除的标记元素的内容或显示方式等相关的信息,将翻译结果中的标记元素清除。
例如,在图5所示的例子中,“like”和“好きです”通过粗斜体的显示方式来发挥标记元素的作用,在标记元素清除处理中,“like”部分为单纯的标记元素,因而被直接删除。作为翻译结果的“好きです”通过粗斜体的显示方式兼有标记元素的作用,因而在清除“粗斜体的显示方式”后被作为翻译结果保留。由此,最终得到清除了标记元素的翻译结果。
此外,还可以在标记模板文件中,增加用于规定如何显示标记元素的一列,例如,可以规定显示的字体的颜色、大小等,由此,用户可以通过编辑标记模板,改变为自己喜欢的显示方式。
此外,标记元素是通过调整文本的显示方式(字体颜色等)来实现的,但也可以采用图片的方式进行显示,例如,将“eat”转换为显示有“eat”的图片。在该情况下,在清除标记元素时,针对图5所示的“好きです”这样的兼用作标记元素的部分,需要将其图片内容转换为文本,以在最后结果中保留其文本内容。
此外,在建立标记模板时,针对诸如发生语序变换这样的成对的标记元素,除了字体、颜色等方式以外,优选在标记元素中体现出语义的对应关系。例如,在与“好き”对应的标记元素中,优选采用“like”这样的表现方式来对应语义的显示方式。
此外,以上说明了通过显示方式等来使用户容易借助标记元素来识别第二语言和第一语言的关系,但这不是必须的,例如也采用类似于上述采用“like”这样的表现方式来对应语义的显示方式。例如,在根据“bananasバナナ<s><s>”这样的模板将bananas通过替代等方式处理为“バナナs”,由于用户可容易地区分“バナナs”中的“s”起到的标记复数的作用,因此,也可以不改变其字体、颜色等显示方式。
以上翻译模板库和标记模板库仅为示例,模板的各个部分的排列顺序、“<>”等符号仅为示例,在实现时可以采用其它形式。例如,可以将“bananasバナナ<s><s>”拆分成“bananasバナナ<s>”和“bananas<s>”等。例如,可以采用“[]”,从而成为“bananasバナナ[s][s]”。或者,在模板中去掉用其它符号来提替代“<>”或者直接省略。例如,可以将“bananasバナナ<s><s>”拆分成“bananasバナナs”和“bananass”等。例如在将模板拆分为两个的情况下,在使用时可以将两个模板以“bananas”为键结合起来,基于结合后的模板的处理方式与以上说明的方法相同,在此省略说明。
通过以上方式,与现有的同时显示第一语言的带翻译语句和第二语言的翻译结果的现有方式相比,可以在作为第二语言的翻译结果中,直观地表现出第二语言的子单元与第一语言的子单元之间的对应关系。
变形例1
此外,在以上说明中,在预翻译模块P1中,基于模板的机器翻译技术来进行预翻译,但也可以使用基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译、基于词典的简单替代等进行预翻译,或者组合它们中的一种以上的方式来进行预翻译。
关于基于模板的机器翻译技术、基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译,由于为现有技术,在此不再进行详细说明。所谓基于词典的简单替代,例如可通过如下方式进行:在词典中查找与第一语言对应的第二英语的词汇,将第一语言的词汇替代为第二语言的词汇。例如,在将“Ilikeyou”翻译成汉语时,通过查找词典,分别查找词典,将各个词汇替代为汉语“我喜欢你”。
变形例2
此外,上面以个人计算机来进行了说明,但也可以使该计算机可以与网络连接,例如通过云计算的方式对所述辅助翻译程序进行分散部署。
以上通过实施方式和变形例对本发明进行了说明,但是不言而喻,在不脱离本发明的技术范围内,可增加其他技术方案。
产业应用
本发明可以应用于计算机辅助翻译方法等。

Claims (4)

1.一种计算机辅助翻译方法,其由计算机执行,其中,
所述计算机辅助翻译方法包含如下处理:
预翻译处理,将第一语言的待翻译语句中的各个翻译子单元处理为第二语言的翻译子单元,并对语序进行调整;
标记元素显示处理,在通过所述预翻译处理得到的作为第二语言的预翻译结果中,在与所述第一语言的翻译子单元相应的位置显示标记元素;以及
标记元素清除处理,响应于用户做出的用于清除标记元素的指示,将所述标记元素清除。
2.根据权利要求1所述的计算机辅助翻译方法,其中,
所述相应的位置包括调整语序之前的位置和调整语序之后的位置。
3.根据权利要求1所述的计算机辅助翻译方法,其中,
在所述预翻译处理中,使用基于模板的机器翻译、基于规则的机器翻译、基于统计的机器翻译、基于实例的机器翻译、基于词典的简单替代中的至少一种方式进行所述预翻译。
4.根据权利要求1或2所述的计算机辅助翻译方法,其中,
所述标记元素为字符或图片。
CN201510627948.4A 2015-06-22 2015-09-28 计算机辅助翻译方法 Pending CN105069001A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510627948.4A CN105069001A (zh) 2015-06-22 2015-09-28 计算机辅助翻译方法
PCT/CN2016/086628 WO2016206582A1 (zh) 2015-06-22 2016-06-21 计算机辅助翻译方法及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510357332 2015-06-22
CN201510627948.4A CN105069001A (zh) 2015-06-22 2015-09-28 计算机辅助翻译方法

Publications (1)

Publication Number Publication Date
CN105069001A true CN105069001A (zh) 2015-11-18

Family

ID=54498375

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201510627948.4A Pending CN105069001A (zh) 2015-06-22 2015-09-28 计算机辅助翻译方法
CN201610455156.8A Pending CN106257442A (zh) 2015-06-22 2016-06-21 计算机辅助翻译方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201610455156.8A Pending CN106257442A (zh) 2015-06-22 2016-06-21 计算机辅助翻译方法

Country Status (2)

Country Link
CN (2) CN105069001A (zh)
WO (1) WO2016206582A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016206582A1 (zh) * 2015-06-22 2016-12-29 张云鹏 计算机辅助翻译方法及程序
CN108491400A (zh) * 2018-04-09 2018-09-04 江苏省舜禹信息技术有限公司 一种辅助翻译智能系统及方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210224489A1 (en) * 2018-01-19 2021-07-22 Gurunavi, Inc. Control method of server, server, and control program of server
CN108664545A (zh) * 2018-03-26 2018-10-16 商洛学院 一种英语翻译学习用数据处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708097A (zh) * 2012-04-27 2012-10-03 曾立人 一种计算机在线翻译方法及其翻译系统
CN104679735A (zh) * 2013-11-30 2015-06-03 赵会军 语用机器翻译方法
CN105069001A (zh) * 2015-06-22 2015-11-18 张云鹏 计算机辅助翻译方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016206582A1 (zh) * 2015-06-22 2016-12-29 张云鹏 计算机辅助翻译方法及程序
CN108491400A (zh) * 2018-04-09 2018-09-04 江苏省舜禹信息技术有限公司 一种辅助翻译智能系统及方法

Also Published As

Publication number Publication date
CN106257442A (zh) 2016-12-28
WO2016206582A1 (zh) 2016-12-29

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
CN105069001A (zh) 计算机辅助翻译方法
US9817887B2 (en) Universal text representation with import/export support for various document formats
CN112766000B (zh) 基于预训练模型的机器翻译方法及系统
CN102262621A (zh) 译文检查装置及译文检查方法
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
Sharma et al. English-hindi transliteration using statistical machine translation in different notation
JP7040227B2 (ja) 情報処理プログラム、情報処理方法、および情報処理装置
JP2004220266A (ja) 機械翻訳装置および機械翻訳方法
JP2022055305A (ja) テキスト要約を生成するテキスト処理方法、装置、デバイス及び記憶媒体
CN105426355A (zh) 一种音节粒度的藏语句法组块识别方法及装置
CN110083845B (zh) 网页翻译方法及系统
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JPS59165179A (ja) 辞書引方式
CN104063366A (zh) 一种文本格式设置的方法与装置
CN102723067A (zh) 一种字符显示方法和装置
CN115688774A (zh) 语言数据的处理方法、装置、存储介质及电子设备
JP5453779B2 (ja) 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP2008129662A (ja) 情報抽出装置、情報抽出方法、情報抽出プログラム
Molina et al. In a lacuna: Building a Syntactically annotated corpus for a dead cuneiform language (on the basis of Hittite)
JP2019087233A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN104424185B (zh) 同步提取中英文目录的方法及系统
JP2013077084A (ja) 文例辞書生成プログラム及び文例辞書生成装置
KR20120035244A (ko) 다양한 문체 제공이 가능한 자동 번역 장치 및 방법
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151118

WD01 Invention patent application deemed withdrawn after publication