CN112036191A - 一种数据处理方法及装置、可读存储介质 - Google Patents

一种数据处理方法及装置、可读存储介质 Download PDF

Info

Publication number
CN112036191A
CN112036191A CN202010902466.6A CN202010902466A CN112036191A CN 112036191 A CN112036191 A CN 112036191A CN 202010902466 A CN202010902466 A CN 202010902466A CN 112036191 A CN112036191 A CN 112036191A
Authority
CN
China
Prior art keywords
translation
reverse
unit
warehoused
translation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010902466.6A
Other languages
English (en)
Other versions
CN112036191B (zh
Inventor
林怀谦
郭云辉
钱开源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wensihai Huizhike Technology Co ltd
Original Assignee
Wensihai Huizhike Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wensihai Huizhike Technology Co ltd filed Critical Wensihai Huizhike Technology Co ltd
Priority to CN202010902466.6A priority Critical patent/CN112036191B/zh
Publication of CN112036191A publication Critical patent/CN112036191A/zh
Application granted granted Critical
Publication of CN112036191B publication Critical patent/CN112036191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种数据处理方法及装置、可读存储介质。数据处理方法,包括:接收用户发起的入库请求;所述入库请求中包括待入库的翻译单元,所述待入库的翻译单元包括源文和译文;获取预设的翻译记忆库组;所述预设的翻译记忆库组中包括与所述待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与所述待入库的翻译单元的语言翻译方向相反的反向翻译记忆库;将所述待入库的翻译单元加入到所述正向翻译记忆库中;将所述待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元;将所述待入库的反向翻译单元加入到所述反向翻译记忆库中。该方法用以实现对向语言方向的翻译记忆库的有效且便捷地利用,提高翻译效率。

Description

一种数据处理方法及装置、可读存储介质
技术领域
本申请涉及在线翻译技术领域,具体而言,涉及一种数据处理方法及装置、可读存储介质。
背景技术
TM(Translation Memory,翻译记忆库)可以辅助翻译工作,现有技术中,对于同一个语言方向使用一个TM处理。在对话(的翻译)场景下往往涉及两个相反的语言方向,因而需要使用两个TM来辅助对话场景下的文本翻译任务。传统技术下,采用两个对向(相反)语言方向的TM分开进行设置的方式,在对TM进行应用时,不能实现直接跨语言方向共用数据,需要先导出TU(Translation Unit,翻译单元)数据,反转TU的source(源,即源文)和target(目标,即译文),再导入到对向语言方向的TM。
综上,现有技术无法充分有效且便捷地利用对向语言方向的TM,翻译效率无法进一步提高。
发明内容
本申请实施例的目的在于提供一种数据处理方法及装置、可读存储介质,用以实现对向语言方向的翻译记忆库的有效且便捷地利用,提高翻译效率。
第一方面,本申请实施例提供一种数据处理方法,包括:接收用户发起的入库请求;所述入库请求中包括待入库的翻译单元,所述待入库的翻译单元包括源文和译文;获取预设的翻译记忆库组;所述预设的翻译记忆库组中包括与所述待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与所述待入库的翻译单元的语言翻译方向相反的反向翻译记忆库;将所述待入库的翻译单元加入到所述正向翻译记忆库中;将所述待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元;将所述待入库的反向翻译单元加入到所述反向翻译记忆库中。
在本申请实施例中,与现有技术相比,预设有翻译记忆库组,该翻译记忆库组中包括语言翻译方向相反的正向翻译记忆库和反向翻译记忆库,在用户发起入库请求时,先将待入库的翻译单元加入到与其语言翻译方向一致的正向翻译记忆库中,然后再将其源文和译文进行互换,生成待入库的反向翻译单元,将其加入到反向翻译记忆库中。一方面,将两个语言翻译方向相反的翻译记忆库组成翻译记忆库组,实现跨语言方向的数据共享;在利用时,如果有对话场景的翻译任务,直接基于该翻译记忆库组便能实现双向语言的翻译任务,不需要再单独对翻译单元进行处理,进而能够提高翻译效率。另一方面,采用翻译记忆库组的方式,在对翻译单元进行入库时,能够直接实现两个语言翻译方向的翻译单元的自动入库,提高数据的利用率。
作为一种可能的实现方式,在获取预设的翻译记忆库组之前,所述方法还包括:获取第一翻译记忆库,所述第一翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向一致;获取第二翻译记忆库,所述第二翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向相反;将所述第一翻译记忆库和所述第二翻译记忆库进行封装,得到所述翻译记忆库组。
在本申请实施例中,在创建翻译记忆库组时,基于语言翻译方向相反的两个单向翻译记忆库进行封装,能够便利地实现创建翻译记忆库组。
作为一种可能的实现方式,所述方法还包括:将所述第一翻译记忆库中的预存的第一翻译单元的源文和译文进行互换后加入到所述第二翻译记忆库中,以及将所述第二翻译记忆库中的预存的第二翻译单元的源文和译文进行互换后加入到所述第一翻译记忆库中。
在本申请实施例中,在创建翻译记忆库时,还可以利用翻译方向相反的两个单向翻译记忆库中预存的翻译单元对另一个翻译记忆库中的翻译单元进行数据扩充,提高数据的共享性。
作为一种可能的实现方式,所述将所述待入库的翻译单元加入到所述正向翻译记忆库中,包括:在确定所述正向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第一匹配源文时,将所述待入库的翻译单元加入所述正向翻译记忆库中。
在本申请实施例中,在进行待入库的翻译单元的正向入库操作时,如果正向翻译库中没有对应的匹配源文,直接将待入库的翻译单元加入到正向翻译库中,实现快速且准确地入库操作。
作为一种可能的实现方式,所述方法还包括:在确定所述正向翻译记忆库中有与所述待入库的翻译单元的源文相同的第一匹配源文时,比较所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文是否相同;若所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文不同,将所述第一匹配译文更新为所述待入库的翻译单元的译文,以实现所述待入库的翻译单元的入库。
在本申请实施例中,在进行待入库的翻译单元的正向入库操作时,如果正向翻译库中有对应的匹配源文,且匹配源文对应的译文也不同,将译文更新为当前待入库的翻译单元的译文,实现翻译记忆库中的翻译单元的更新。
作为一种可能的实现方式,所述将所述第一匹配译文更新为所述待入库的翻译单元的译文,包括:判断所述第一匹配译文对应的翻译单元是否具有反向来源标识,所述反向来源标识用于表征对应的翻译单元来源于对所述反向翻译记忆库中已有翻译单元的原文和译文的互换;若具有反向来源标识,则将所述反向来源标识删除。
在本申请实施例中,在对翻译记忆库中的译文进行更新时,先判断其对应的翻译单元是否具有用于表征翻译单元来源于对反向翻译记忆库中已有翻译单元的原文和译文的互换的反向来源标识,若有,当更新后,将该反向来源标识删除,实现数据来源的更新。
作为一种可能的实现方式,所述将所述待入库的反向翻译单元加入到所述反向翻译记忆库中,包括:在确定所述反向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第二匹配源文时,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
在本申请实施例中,在进行待入库的反向翻译单元的反向入库操作时,如果反向翻译库中没有对应的匹配源文,直接将待入库的反向翻译单元加入到反向翻译库中,并为其加上反向来源标识,实现快速且准确地入库操作,以及数据来源的标记。
作为一种可能的实现方式,所述方法还包括:在确定所述反向翻译记忆库中有与所述待入库的翻译单元的源文相同的第二匹配源文时,比较所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文是否相同;若所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文不同,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
在本申请实施例中,在进行待入库的反向翻译单元的反向入库操作时,如果反向翻译库中有对应的匹配源文,且匹配源文对应的译文也不同,将待入库的反向翻译单元加入反向翻译记忆库中,并为待入库的反向翻译单元添加反向来源标识,实现快速且准确地入库操作,以及数据来源的标记。
第二方面,本申请实施例提供一种数据处理装置,包括:用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的方法的功能模块。
第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如第一方面以及第一方面的任意一种可能的实现方式中所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理方法的流程图;
图2为本申请实施例提供的数据处理装置的功能模块框图。
图标:200-数据处理装置;201-接收模块;202-获取模块;203-第一入库模块;204-生成模块;205-第二入库模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
翻译记忆(亦称翻译内存、翻译记忆库,translation memory,缩写为TM)是应用程序/软件的数据库,用来辅助人工翻译。本申请实施例提供的数据处理方法应用于翻译记忆库的创建以及后续的数据入库(更新),因而,该数据处理方法可以应用于翻译记忆库处理系统(或者利用翻译记忆库的在线翻译系统),对于翻译记忆库处理系统或者在线翻译系统来说,通常包括前端(如电脑、手机等电子设备)和后端(服务器),前端用于实现用户与系统的交互,后端用于实现数据的存储及处理,对于该数据处理方法来说,是后端在进行数据处理时的相关流程,因此,该数据处理方法可以应用于翻译记忆库处理系统或者在线翻译系统的后端。
接下来请参照图1,为本申请实施例提供的数据处理方法的流程图,该数据处理方法可以应用于后端(服务器),包括:
步骤101:接收用户发起的入库请求;入库请求中包括待入库的翻译单元,待入库的翻译单元包括源文和译文。
步骤102:获取预设的翻译记忆库组;预设的翻译记忆库组中包括与待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与待入库的翻译单元的语言翻译方向相反的反向翻译记忆库。
步骤103:将待入库的翻译单元加入到正向翻译记忆库中。
步骤104:将待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元。
步骤105:将待入库的反向翻译单元加入到反向翻译记忆库中。
在本申请实施例中,与现有技术相比,预设有翻译记忆库组,该翻译记忆库组中包括语言翻译方向相反的正向翻译记忆库和反向翻译记忆库,在用户发起入库请求时,先将待入库的翻译单元加入到与其语言翻译方向一致的正向翻译记忆库中,然后再将其源文和译文进行互换,生成待入库的反向翻译单元,将其加入到反向翻译记忆库中。一方面,将两个语言翻译方向相反的翻译记忆库组成翻译记忆库组,实现跨语言方向的数据共享;在利用时,如果有对话场景的翻译任务,直接基于该翻译记忆库组便能实现双向语言的翻译任务,不需要再单独对翻译单元进行处理,进而能够提高翻译效率。另一方面,采用翻译记忆库组的方式,在对翻译单元进行入库时,能够直接实现两个语言翻译方向的翻译单元的自动入库,提高数据的利用率。
接下来对步骤101-步骤105以及该数据处理方法的实施方式进行详细介绍。
在步骤101中,用户可以是译员,也可以是翻译记忆库组的维护人员(负责翻译记忆库组的定时检查或者更新等)。译员或者维护人员可以在对应的前端上发起入库请求,并输入需要进行入库的数据,然后前端将需要进行入库的数据发送给后端。因此,步骤101可以包括:接收前端发送的用户发起的入库请求。
进一步地,在入库请求中,包括待入库的翻译单元,待入库的翻译单元包括源文和译文。对于翻译单元,可以理解为翻译数据,其中的源文和译文可以是一个单词,也可以是一个句段,还可以是包含多个句段的段落或者文章。并且,该翻译单元具有其对应的语音翻译方向,对于语言翻译方向,能够代表源文和译文各自的语言,比如翻译单元的源文是A,为中文;翻译单元的译文是B,为英文;那么该翻译单元的语言翻译方向为:中文→英文。对应的,中文→英文的相反语言翻译方向为:英文→中文。需要注意的是,一个翻译单元的语言翻译方向,在该翻译单元存在时,便具有该信息,因此,当获取到翻译单元时,其对应的语言翻译方向也是已知的。
进一步地,在步骤101中接收到入库请求后,执行步骤102,获取预设的翻译记忆库组。对于该翻译记忆库组,其中包括:与待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与待入库的翻译单元的语言翻译方向相反的反向翻译记忆库。例如:假设待入库的翻译单元的语言翻译方向为:中文→英文,那么正向翻译记忆库中的所有翻译单元的语言翻译方向均为:中文→英文,即正向翻译记忆库中的所有的源文都为中文,所有的译文都为英文。反向翻译记忆库中的所有翻译单元的语言翻译方向均为:英文→中文,即反向翻译记忆库中的所有的源文都为英文,所有的译文均为中文。
为了便于后续方案的理解,在介绍后续步骤的实施方式之前,先对该翻译记忆库组的创建方式进行介绍。作为一种可选的实施方式,翻译记忆库组的创建方法包括:获取第一翻译记忆库,第一翻译记忆库的语言翻译方向与待入库的翻译单元的语言翻译方向一致;获取第二翻译记忆库,第二翻译记忆库的语言翻译方向与待入库的翻译单元的语言翻译方向相反;将第一翻译记忆库和第二翻译记忆库进行封装,得到翻译记忆库组。
其中,第一翻译记忆库和第二翻译库可以是已存储有翻译单元的单向翻译记忆库,并且这两个单向翻译记忆库的语言翻译翻译方向相反。例如:第一翻译记忆库中的各个翻译单元的源文都是中文,译文都是英文,则第一翻译记忆库的语言翻译方向为:中文→英文。第二翻译记忆库中的各个翻译单元的源文都是英文,译文都是中文,则第二翻译记忆库的语言翻译方向为:英文→中文。
进一步地,在对两个翻译记忆库进行封装时,将两个翻译记忆库组成双向的记忆库组即可。例如:后端设置有用于存储翻译记忆库组的数据单元(或者数据库),该数据单元(或者数据库)中设置两个分区,一个分区用于存储第一翻译记忆库中的全部数据,另一个分区用于存储第二翻译记忆库中的全部数据,该数据单元中的全部数据即为翻译记忆库组中的全部数据。采用这种实施方式所得到的翻译记忆库组,可以直接利用已有的翻译记忆库的文件或者数据结构,以及随时可以单独使用其中的单向翻译记忆库。
除了将两个翻译记忆库组的数据分开的这种封装方式,还可以采用直接将两个翻译记忆库的数据构成翻译记忆库组的封装方式,但是可能需要作额外的数据处理,以保证翻译记忆库中的数据结构统一。作为举例,这种实施方式下的翻译记忆库组的数据库结构可以为:字串表:1-car;2-汽车;3-小汽车。TM数据表:英→中:1→2;1→3。中→英:2→1;3→1。在该举例中,先将两个翻译记忆库的字串表进行合并,然后再将两个翻译记忆库各自的数据存储在数据库中,即可构成翻译记忆库组。
在获取第一翻译记忆库和第二翻译记忆库时,可以先选定其中一个翻译记忆库的语言翻译方向,比如常见的中文→英文,中文→日文等,此时另一个翻译记忆库的语言方向也对应确定,比如英文→中文,日文→中文。当选定两个翻译记忆库的翻译方向后,直接在现有的翻译记忆库中进行搜索,以获取到两个翻译方向匹配的翻译记忆库。可以理解,假设要设置多个翻译记忆库组,就分别按照设置一个翻译记忆库组的方式,选择不同的语言翻译方向,搜索对应的语言翻译方向的翻译记忆库,然后封装成翻译记忆库组即可。因此,对于后端来说,实际上可以存储对应不同的语言翻译方向的翻译记忆库组,当有入库请求时,基于待入库的翻译单元的语言翻译方向便能进行对应的入库。
在本申请实施例中,在创建翻译记忆库组时,基于语言翻译方向相反的两个单向翻译记忆库进行封装,能够便利地实现创建翻译记忆库组。
进一步地,在封装第一翻译记忆库和第二翻译记忆库之前或者之后,还可以将第一翻译记忆库和第二翻译记忆库的数据进行共享,以实现数据的扩充。因此,该方法还包括:将第一翻译记忆库中预存的第一翻译单元的源文和译文进行互换后加入到第二翻译记忆库中,以及将第二翻译记忆库中预存的第二翻译单元的源文和译文进行互换后加入到第一翻译记忆库中。
在这种实施方式中,可以理解,由于第一翻译记忆库中和第二翻译记忆库中的翻译单元的语言翻译方向相反,若将其中一个翻译记忆库中的翻译单元的语言翻译方向进行反向处理,便能得到多一个翻译单元,这多一个翻译单元的语言翻译方向恰好符合另一个翻译记忆库中的翻译单元的语言翻译方向的要求,因此,采用这种方式便能够快速地实现数据的共享。对于语言翻译方向的反向,假设原翻译单元的语言翻译方向是中文→英文,代表其源文为中文,译文为英文,将其源文和译文交换后,得到的翻译单元的源文即为英文,译文即为中文,便可以实现语言翻译方向的反向。例如:原翻译单元:源文:我是中国人;译文:I am Chinese。加入到另一个翻译记忆库中的翻译单元为:源文:I am Chinese;译文:我是中国人。
在本申请实施例中,在创建翻译记忆库时,还可以利用翻译方向相反的两个单向翻译记忆库中预存的翻译单元对另一个翻译记忆库中的翻译单元进行数据扩充,提高数据的共享性。
进一步地,由于语言之间的差异,通过反向语言翻译方向得到新的翻译单元的这种方式,得到的翻译单元的源文和译文可能准确性稍微欠缺,因此,为了保证后续在利用数据时的使用效果,当通过反向语言翻译方向得到新的翻译单元加入到另一个翻译记忆库中后,可以为该新的翻译单元加上反向来源标识。那么在后续使用数据时,比如在查询数据时,可以选择优先采用没有反向来源标识的翻译单元作为反馈数据,当不能查询到对应的不具有反向来源标识的翻译单元时,才将具有反向来源标识的翻译单元作为反馈数据,并通过此反向来源标识提醒译员注意检查译文准确性。
基于上述对翻译记忆库组的创建方法的介绍,接下来继续对步骤102以后的步骤的实施方式进行介绍。
在步骤102后,可以执行步骤103,将待入库的翻译单元加入到正向翻译记忆库中。作为一种可选的实施方式,步骤103包括:在确定正向翻译记忆库中没有与待入库的翻译单元的源文相同的第一匹配源文时,将待入库的翻译单元加入正向翻译记忆库中。
在这种实施方式中,正向翻译记忆库中包括多个翻译单元,依次将多个翻译单元的源文与待入库的翻译单元的源文进行匹配,在进行匹配时,作为一种可选的匹配方式,匹配方式为:先确定待入库的翻译单元的源文的字符数,然后从多个翻译单元的源文中筛选出与该字符数匹配的源文,然后再将待入库的翻译单元的源文与字符数匹配的源文进行依次的匹配。通过这种方式,能够加快匹配和查找的速度。
进一步地,在匹配时,在判断两个源文是否相同时,可以针对两个源文中的字符按照顺序进行依次的比对,当全部字符都相同的情况下,说明两个源文为匹配的相同源文。例如:假设待入库的翻译单元的源文为:我是中国人;当前待判断的源文为:你是中国人;在比对时,比对第一个字符:“我”和“你”,不相同,在第一个字符不同的情况下,后面的字符不用继续比对,直接判断两个源文不相同。
进一步地,若在比对的过程中,查找到第一匹配源文,则不用继续查找;若当全部源文都比对完成后,仍未查找到第一匹配源文,说明正向翻译记忆库中没有第一匹配源文。当正向翻译记忆库中没有第一匹配源文时,说明当前待入库的翻译单元可以直接作为新的翻译单元存储到正向翻译记忆库中。
在本申请实施例中,在进行待入库的翻译单元的正向入库操作时,如果正向翻译库中没有对应的匹配源文,直接将待入库的翻译单元加入到正向翻译库中,实现快速且准确地入库操作。
进一步地,在确定正向翻译记忆库中有与待入库的翻译单元的源文相同的第一匹配源文时,此时可执行的操作为:比较待入库的翻译单元的译文和第一匹配源文对应的第一匹配译文是否相同;若待入库的翻译单元的译文和第一匹配源文对应的第一匹配译文不同,将第一匹配译文更新为待入库的翻译单元的译文,以实现待入库的翻译单元的入库。
其中,在比较待入库的翻译单元的译文和第一匹配源文对应的第一匹配译文是否相同时,与查找是否有与第一匹配源文的过程中将两个源文进行匹配的实施方式相同。进一步地,由于正向翻译记忆库中已经存在与待入库的翻译单元的源文相同的源文,那么在对待入库的翻译单元进行入库时,不需要将整个翻译单元进行入库,只需要将其译文替换已有的翻译单元的译文即可。
当然,在实际应用时,也可以采用同时保留两个译文的方式,在后续反馈数据时,将两个译文(代表两种翻译方式)同时进行反馈,以供用户进行选择。
在本申请实施例中,在进行待入库的翻译单元的正向入库操作时,如果正向翻译库中有对应的匹配源文,且匹配源文对应的译文也不同,将译文更新为当前待入库的翻译单元的译文,实现翻译记忆库中的翻译单元的更新。
进一步地,在前述实施例中介绍过反向来源标识,用于代表一个翻译单元是通过反向语言翻译方向后得到的翻译单元,基于该反向来源标识,该方法还包括:判断第一匹配译文对应的翻译单元是否具有反向来源标识,反向来源标识用于表征对应的翻译单元来源于对反向翻译记忆库中已有翻译单元的原文和译文的互换;若具有反向来源标识,则将反向来源标识删除。
在这种实施方式中,在对翻译记忆库中的译文进行更新时,先判断其对应的翻译单元是否具有用于表征翻译单元来源于对反向翻译记忆库中已有翻译单元的原文和译文的互换的反向来源标识,若有,当更新后,将该反向来源标识删除,实现数据来源的更新。若没有,则不作处理。
进一步地,在步骤103中完成正向翻译记忆库的入库后,执行步骤104,将待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元。例如:待入库的翻译单元:源文:我是中国人;译文:I am chinese。互换后生成的待入库的反向翻译单元为:源文:Iam chinese;译文:我是中国人。
进一步地,在步骤104中生成待入库的反向翻译单元后,执行步骤105,将待入库的反向翻译单元加入到反向翻译记忆库中。作为一种可选的实施方式,步骤105包括:在确定反向翻译记忆库中没有与待入库的翻译单元的源文相同的第二匹配源文时,将待入库的反向翻译单元加入反向翻译记忆库中,并为待入库的反向翻译单元添加反向来源标识。
在这种实施方式中,查找第二匹配源文的实施方式与查找第一匹配源文的实施方向相同,在此不再重复介绍。与正向翻译记忆库的入库操作所不同的是,在反向翻译记忆库的入库操作时,当没有第二匹配源文时,除了将待入库的反向翻译单元加入反向翻译数据记忆库中,还需要为待入库的反向翻译单元添加反向来源标识,以标记该翻译单元是通过反向处理得到的翻译单元。
在本申请实施例中,在进行待入库的反向翻译单元的入库操作时,如果反向翻译库中没有对应的匹配源文,直接将待入库的反向翻译单元加入到反向翻译库中,并为其加上反向来源标识,实现快速且准确地入库操作,以及数据来源的标记。
进一步地,若反向翻译记忆库中有第二匹配源文,此时的操作可以为:比较待入库的反向翻译单元的译文和第二匹配源文对应的第二匹配译文是否相同;若待入库的反向翻译单元的译文和第二匹配源文对应的第二匹配译文不同,将待入库的反向翻译单元加入反向翻译记忆库中,并为待入库的反向翻译单元添加反向来源标识。
在该操作过程中,在比较待入库的反向翻译单元的译文和第二匹配源文对应的第二匹配译文是否相同时,与查找是否有第二匹配源文的过程中比较源文是否相同的实施方式相同。进一步地,如果待入库的反向翻译单元的译文和第二匹配译文不相同,此时将待入库的反向翻译单元加入反向记忆库中,并添加反向来源标识,实现反向翻译记忆库的数据扩充。相当于在反向翻译记忆库中,对于源文相同的两个翻译单元,其译文可以包括两个,一个是具有反向来源标识的译文,一个是不具有反向来源标识的译文。那么在后续反馈数据时,可以同时将这两个译文都进行反馈,也可以仅反馈不具有反向来源标识的译文(在对译文的准确性要求较高的应用场景下)。
在本申请实施例中,在进行待入库的反向翻译单元的反向入库操作时,如果反向翻译库中有对应的匹配源文,且匹配源文对应的译文也不同,将待入库的反向翻译单元加入反向翻译记忆库中,并为待入库的反向翻译单元添加反向来源标识,实现快速且准确地入库操作,以及数据来源的标记。
当步骤105执行完毕后,便完成了待入库的翻译单元的入库操作,可以看出,通过采用翻译记忆库组的方式,在入库时,除了当前的翻译单元的入库,还能实现当前的翻译单元对应的反向翻译单元的自动反向入库,大大提高了数据的共享性,进而使翻译记忆库组在应用时,提高用户的翻译效率。
基于同一发明构思,请参照图2,本申请实施例中还提供一种数据处理装置200,包括:接收模块201、获取模块202、第一入库模块203、生成模块204以及第二入库模块205。
接收模块201,用于接收用户发起的入库请求;所述入库请求中包括待入库的翻译单元,所述待入库的翻译单元包括源文和译文。获取模块202,用于获取预设的翻译记忆库组;所述预设的翻译记忆库组中包括与所述待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与所述待入库的翻译单元的语言翻译方向相反的反向翻译记忆库。第一入库模块203,用于将所述待入库的翻译单元加入到所述正向翻译记忆库中。生成模块204,用于将所述待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元。第二入库模块205,用于将所述待入库的反向翻译单元加入到所述反向翻译记忆库中。
可选的,数据处理装置200还包括:创建模块,用于:获取第一翻译记忆库,所述第一翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向一致;获取第二翻译记忆库,所述第二翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向相反;将所述第一翻译记忆库和所述第二翻译记忆库进行封装,得到所述翻译记忆库组。
可选的,创建模块还用于:将所述第一翻译记忆库中的预存的第一翻译单元的源文和译文进行互换后加入到所述第二翻译记忆库中,以及将所述第二翻译记忆库中的预存的第二翻译单元的源文和译文进行互换后加入到所述第一翻译记忆库中。
可选的,第一入库模块203具体用于:在确定所述正向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第一匹配源文时,将所述待入库的翻译单元加入所述正向翻译记忆库中。
可选的,第一入库模块203具体还用于:在确定所述正向翻译记忆库中有与所述待入库的翻译单元的源文相同的第一匹配源文时,比较所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文是否相同;若所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文不同,将所述第一匹配译文更新为所述待入库的翻译单元的译文,以实现所述待入库的翻译单元的入库。
可选的,第一入库模块203具体还用于:判断所述第一匹配译文对应的翻译单元是否具有反向来源标识,所述反向来源标识用于表征对应的翻译单元来源于对所述反向翻译记忆库已有翻译单元的原文和译文的互换;若具有反向来源标识,则将所述反向来源标识删除。
可选的,第二入库模块205具体用于:在确定所述反向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第二匹配源文时,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
可选的,第二入库模块205具体还用于:在确定所述反向翻译记忆库中有与所述待入库的翻译单元的源文相同的第二匹配源文时,比较所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文是否相同;若所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文不同,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
前述实施例中的数据处理方法中的各实施方式和具体实例同样适用于图2的装置,通过前述对数据处理方法的详细描述,本领域技术人员可以清楚地知道图2中的数据处理装置200的实施方法,所以为了说明书的简洁,在此不再详述。
基于同一发明构思,本申请实施例还提供一种可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被计算机运行时执行上述任一实施方式的数据处理方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收用户发起的入库请求;所述入库请求中包括待入库的翻译单元,所述待入库的翻译单元包括源文和译文;
获取预设的翻译记忆库组;所述预设的翻译记忆库组中包括与所述待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与所述待入库的翻译单元的语言翻译方向相反的反向翻译记忆库;
将所述待入库的翻译单元加入到所述正向翻译记忆库中;
将所述待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元;
将所述待入库的反向翻译单元加入到所述反向翻译记忆库中。
2.根据权利要求1所述的方法,其特征在于,在获取预设的翻译记忆库组之前,所述方法还包括:
获取第一翻译记忆库,所述第一翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向一致;
获取第二翻译记忆库,所述第二翻译记忆库的语言翻译方向与所述待入库的翻译单元的语言翻译方向相反;
将所述第一翻译记忆库和所述第二翻译记忆库进行封装,得到所述翻译记忆库组。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述第一翻译记忆库中的预存的第一翻译单元的源文和译文进行互换后加入到所述第二翻译记忆库中,以及将所述第二翻译记忆库中的预存的第二翻译单元的源文和译文进行互换后加入到所述第一翻译记忆库中。
4.根据权利要求1所述的方法,其特征在于,所述将所述待入库的翻译单元加入到所述正向翻译记忆库中,包括:
在确定所述正向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第一匹配源文时,将所述待入库的翻译单元加入所述正向翻译记忆库中。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在确定所述正向翻译记忆库中有与所述待入库的翻译单元的源文相同的第一匹配源文时,比较所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文是否相同;
若所述待入库的翻译单元的译文和所述第一匹配源文对应的第一匹配译文不同,将所述第一匹配译文更新为所述待入库的翻译单元的译文,以实现所述待入库的翻译单元的入库。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一匹配译文更新为所述待入库的翻译单元的译文,包括:
判断所述第一匹配译文对应的翻译单元是否具有反向来源标识,所述反向来源标识用于表征对应的翻译单元来源于对所述反向翻译记忆库中已有翻译单元的原文和译文的互换;
若具有反向来源标识,则将所述反向来源标识删除。
7.根据权利要求1所述的方法,其特征在于,所述将所述待入库的反向翻译单元加入到所述反向翻译记忆库中,包括:
在确定所述反向翻译记忆库中没有与所述待入库的翻译单元的源文相同的第二匹配源文时,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在确定所述反向翻译记忆库中有与所述待入库的翻译单元的源文相同的第二匹配源文时,比较所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文是否相同;
若所述待入库的反向翻译单元的译文和所述第二匹配源文对应的第二匹配译文不同,将所述待入库的反向翻译单元加入所述反向翻译记忆库中,并为所述待入库的反向翻译单元添加反向来源标识。
9.一种数据处理装置,其特征在于,包括:
接收模块,用于接收用户发起的入库请求;所述入库请求中包括待入库的翻译单元,所述待入库的翻译单元包括源文和译文;
获取模块,用于获取预设的翻译记忆库组;所述预设的翻译记忆库组中包括与所述待入库的翻译单元的语言翻译方向一致的正向翻译记忆库,以及与所述待入库的翻译单元的语言翻译方向相反的反向翻译记忆库;
第一入库模块,用于将所述待入库的翻译单元加入到所述正向翻译记忆库中;
生成模块,用于将所述待入库的翻译单元的源文和译文进行互换,生成待入库的反向翻译单元;
第二入库模块,用于将所述待入库的反向翻译单元加入到所述反向翻译记忆库中。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-8任一项所述的方法。
CN202010902466.6A 2020-08-31 2020-08-31 一种数据处理方法及装置、可读存储介质 Active CN112036191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010902466.6A CN112036191B (zh) 2020-08-31 2020-08-31 一种数据处理方法及装置、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010902466.6A CN112036191B (zh) 2020-08-31 2020-08-31 一种数据处理方法及装置、可读存储介质

Publications (2)

Publication Number Publication Date
CN112036191A true CN112036191A (zh) 2020-12-04
CN112036191B CN112036191B (zh) 2023-11-28

Family

ID=73586945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010902466.6A Active CN112036191B (zh) 2020-08-31 2020-08-31 一种数据处理方法及装置、可读存储介质

Country Status (1)

Country Link
CN (1) CN112036191B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1452093A (zh) * 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用单一词库进行双向词汇翻译的方法
CN1452101A (zh) * 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用一个词库实现双向词汇翻译和单词分组记忆的方法
KR20050034687A (ko) * 2005-03-22 2005-04-14 장용석 번역율 검증을 통한 기계 번역 방법 및 그에 따른 시스템
CN1617135A (zh) * 2003-11-10 2005-05-18 摩托罗拉公司 提供双向双语词典的方法和系统
KR20060067116A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 번역 메모리 확장 방법 및 이를 이용한 기계번역 시스템
US20110040552A1 (en) * 2009-08-17 2011-02-17 Abraxas Corporation Structured data translation apparatus, system and method
CN102591856A (zh) * 2011-01-04 2012-07-18 杨东佐 一种翻译系统及翻译方法
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
JP2016218995A (ja) * 2015-05-25 2016-12-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機械翻訳方法、機械翻訳装置及びプログラム
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN108519979A (zh) * 2018-02-28 2018-09-11 成都优译信息技术股份有限公司 一种cat系统中翻译记忆库和mt结合的方法及系统
TWI644223B (zh) * 2017-10-18 2018-12-11 統一數位翻譯股份有限公司 翻譯記憶庫強化系統
JP2018206356A (ja) * 2017-06-08 2018-12-27 パナソニックIpマネジメント株式会社 翻訳情報提供方法、翻訳情報提供プログラム、及び翻訳情報提供装置
CN110175336A (zh) * 2019-05-22 2019-08-27 北京百度网讯科技有限公司 翻译方法、装置和电子设备

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1452093A (zh) * 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用单一词库进行双向词汇翻译的方法
CN1452101A (zh) * 2003-04-21 2003-10-29 北京嘉盛联侨信息工程技术有限公司 用一个词库实现双向词汇翻译和单词分组记忆的方法
CN1617135A (zh) * 2003-11-10 2005-05-18 摩托罗拉公司 提供双向双语词典的方法和系统
KR20060067116A (ko) * 2004-12-14 2006-06-19 한국전자통신연구원 번역 메모리 확장 방법 및 이를 이용한 기계번역 시스템
KR20050034687A (ko) * 2005-03-22 2005-04-14 장용석 번역율 검증을 통한 기계 번역 방법 및 그에 따른 시스템
US20110040552A1 (en) * 2009-08-17 2011-02-17 Abraxas Corporation Structured data translation apparatus, system and method
CN102591856A (zh) * 2011-01-04 2012-07-18 杨东佐 一种翻译系统及翻译方法
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
JP2016218995A (ja) * 2015-05-25 2016-12-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機械翻訳方法、機械翻訳装置及びプログラム
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
JP2018206356A (ja) * 2017-06-08 2018-12-27 パナソニックIpマネジメント株式会社 翻訳情報提供方法、翻訳情報提供プログラム、及び翻訳情報提供装置
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
TWI644223B (zh) * 2017-10-18 2018-12-11 統一數位翻譯股份有限公司 翻譯記憶庫強化系統
CN108519979A (zh) * 2018-02-28 2018-09-11 成都优译信息技术股份有限公司 一种cat系统中翻译记忆库和mt结合的方法及系统
CN110175336A (zh) * 2019-05-22 2019-08-27 北京百度网讯科技有限公司 翻译方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEVIN MCTAIT 等: "A building blocks approach to translation memory", PROCEEDINGS OF TRANSLATING AND THE COMPUTER 21, pages 1 - 15 *
NANDITA SRIVASTAVA 等: "An approach to integrate translation memory in MT system for English to Indian language", 2015 INTERNATIONAL CONFERENCE ON COGNITIVE COMPUTING AND INFORMATION PROCESSING, vol. 4, no. 2, pages 147 - 152 *
熊维 等: "基于短语串实例的汉藏辅助翻译", 中文信息学报, vol. 27, no. 3, pages 84 - 90 *

Also Published As

Publication number Publication date
CN112036191B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
CN109299110B (zh) 数据查询方法、装置、存储介质和电子设备
JP6998928B2 (ja) データを記憶およびクエリするための方法、装置、設備、および媒体
US7769804B2 (en) Server side search with multi-word word wheeling and wildcard expansion
US9959340B2 (en) Semantic lexicon-based input method editor
US20070164782A1 (en) Multi-word word wheeling
CN103902535A (zh) 获取联想词的方法、装置及系统
CN109800346A (zh) 文本匹配方法、装置、计算机设备和存储介质
JP2011204225A (ja) 属性抽出装置および方法
CN111708800A (zh) 查询方法、装置及电子设备
CN101425086A (zh) 一种基于网络的词典查询方法及词典查询系统
CN111984745A (zh) 数据库字段动态扩展方法、装置、设备及存储介质
CN106156262A (zh) 一种搜索信息处理方法及系统
CN109213775B (zh) 搜索方法、装置、计算机设备和存储介质
US20210200964A1 (en) Method, apparatus, device and storage medium for outputting information
CN101452459B (zh) 利用索引查找相似翻译结果的系统及其方法
CN112036191B (zh) 一种数据处理方法及装置、可读存储介质
CN112597748A (zh) 语料生成方法、装置、设备及计算机可读存储介质
CN112433753A (zh) 基于参数信息的接口文档生成方法、装置、设备和介质
KR20010016679A (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
WO2019237949A1 (zh) 搜索方法及装置
CN112836021B (zh) 一种图书馆智能化搜索系统
CN112148739B (zh) 独立于加密数据库的密文索引方法及系统
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN105589803B (zh) 一种测试工具的生成方法和终端设备
JP2018194978A (ja) 情報出力プログラム、情報出力方法および情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant