CN109710952A - 基于人工智能的翻译历史检索方法、装置、设备和介质 - Google Patents

基于人工智能的翻译历史检索方法、装置、设备和介质 Download PDF

Info

Publication number
CN109710952A
CN109710952A CN201811615689.3A CN201811615689A CN109710952A CN 109710952 A CN109710952 A CN 109710952A CN 201811615689 A CN201811615689 A CN 201811615689A CN 109710952 A CN109710952 A CN 109710952A
Authority
CN
China
Prior art keywords
history
translation
original text
candidate
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811615689.3A
Other languages
English (en)
Other versions
CN109710952B (zh
Inventor
王一鸣
张睿卿
何中军
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811615689.3A priority Critical patent/CN109710952B/zh
Publication of CN109710952A publication Critical patent/CN109710952A/zh
Application granted granted Critical
Publication of CN109710952B publication Critical patent/CN109710952B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于人工智能的翻译历史检索方法、装置、设备和介质。该方法包括:接收待翻译原文的翻译历史检索请求;在历史原文与历史译文组成的历史翻译对中,根据待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;根据待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;根据待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;从第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对中选择与待翻译原文匹配的目标历史翻译对。利用上述技术方案能够将与原文含义相同,但表达不同的历史翻译结果展现给译员,避免将字面相似但含义相差很远的历史翻译结果展现给译员。

Description

基于人工智能的翻译历史检索方法、装置、设备和介质
技术领域
本发明实施例涉及计算机辅助翻译领域,尤其涉及一种基于人工智能的翻译历史检索方法、装置、设备和介质。
背景技术
计算机辅助翻译是一种利用机器翻译技术帮助专业译员进行文献翻译的系统,同时提供对译员历史翻译数据进行存储和管理的功能。
对译员来说,最核心的数据是历史翻译数据,高质量译文是译员通过长期的积累得到的,当遇到相似的句子时,历史翻译信息可以带给译员很多参考信息。同时,因为找到两句完全一样的原文句子的情况很少,所以一般在检索的时候会采用模糊搜索的形式,即会找到一些相似的句子提供给译员用来参考。
这里的模糊搜索一般采用字面匹配的形式,即会找到若干个“长得”比较像的句子。但是原文字面相似和译文相似并不完全等价,比如“今天天气是很好的”和“明天天气会很好吗”两句话从字面上相似度很高,但是英文的译文却很不一样。同时,一些原文完全不同的句子,译文却可能很相似,比如“你好”和“嗨”的英文译文都可以用“hello”。而这两种情况,通过字面匹配都无法很好的解决。
发明内容
鉴于上述问题,在本发明实施例中提供了一种克服上述问题或者至少部分地解决上述问题的基于人工智能的翻译历史检索方法、装置、设备和介质,以通过查找含义相似的句子而不是字面相似的句子来进行检索,可以将和原文含义相同,但是表达不同的历史翻译结果展现给译员用于参考。
第一方面,本发明实施例中提供了一种基于人工智能的翻译历史检索方法,所述方法包括:
接收待翻译原文的翻译历史检索请求;
在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
第二方面,本发明实施例中还提供了一种基于人工智能的翻译历史检索装置,所述装置包括:
检索请求接收模块,用于接收待翻译原文的翻译历史检索请求;
第一候选翻译模块,用于在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
第二候选翻译模块,用于根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
第三候选翻译模块,用于根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
目标翻译确定模块,用于从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
第三方面,本发明实施例中还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例中任一所述的基于人工智能的翻译历史检索方法。
第四方面,本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例中任一所述的基于人工智能的翻译历史检索方法。
本发明实施例中提供了一种基于人工智能的翻译历史检索方法,包括:接收待翻译原文的翻译历史检索请求;在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;根据待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。采用本发明实施例中提供的上述技术方案,能够理解语句的含义,通过查找含义相似的句子而不是字面相似的句子来进行检索,可以将和原文含义相同,但是表达不同的历史翻译结果展现给译员用于参考,可以避免将字面相似但是含义相差很远的历史翻译结果展现给译员。并且,还通过译文相似的句子来进行检索,可以将原文不同但是译文相同的历史翻译结果展现给译员参考。
上述发明内容仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例中提供的一种基于人工智能的翻译历史检索方法的流程图;
图2是本发明实施例中提供的一种基于人工智能的翻译历史检索装置的结构示意图;
图3是本发明实施例中提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1是本发明实施例中提供的一种基于人工智能的翻译历史检索方法的流程图,本实施例可适用于采用计算机辅助翻译方式辅助译员检索翻译历史的情况,例如,辅助译员检索与待翻译原文含义相同的翻译历史,并根据检索的翻译历史辅助译员对待翻译原文进行原文翻译的场景。该方法可以由基于人工智能的翻译历史检索装置来执行,该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的设备上。该设备可以为终端设备或服务器,其中终端设备可以包括但不限于手机、平板电脑或者翻译器等。如图1所示,本发明实施例中的基于人工智能的翻译历史检索方法可以包括:
S101、接收待翻译原文的翻译历史检索请求。
在本实施例中,待翻译原文可以是指需要译员进行翻译的原文,译员需要将待翻译原文从当前语言类型翻译成其他的语言类型,比如将待翻译原文从英文翻译成中文。在对待翻译原文进行翻译处理过程中,历史翻译数据对于译员来说是非常重要的。当译员遇到与历史翻译数据相似的待翻译原文时,译员可以通过参考历史翻译数据对待翻译原文进行快速翻译。
在本实施例中,基于上述情形,本实施例中提供了一种基于人工智能的翻译历史检索方案,当译员需要对待翻译原文进行翻译处理时,可以向基于人工智能的翻译历史检索装置发送待翻译原文的翻译历史检索请求。基于人工智能的翻译历史检索装置可以接收译员发送的待翻译原文的翻译历史检索请求。
S102、在历史原文与历史译文组成的历史翻译对中,根据待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对。
在本实施例中,当基于人工智能的翻译历史检索装置接收到待翻译原文的翻译历史检索请求时,可以从预先创建的各个历史原文与历史译文组成的历史翻译对中,初步筛选与待翻译原文相匹配的历史翻译对,作为第一候选历史翻译对。可选的,在初步筛选与待翻译原文相匹配的历史翻译对的过程中,可以从基于历史原文预先创建的历史翻译数据所包括的各个历史翻译对中,初步筛选出与待翻译原文相匹配的历史翻译对,作为第一候选历史翻译对。其中,基于历史原文预先创建的历史翻译数据可以存储历史原文与历史原文的译文之间的映射关系,且每一个历史原文可以与至少一个历史译文组成映射关系。
在本实施例中,当基于人工智能的翻译历史检索装置接收到待翻译原文的翻译历史检索请求时,可以根据待翻译原文与历史原文的字符串相似度,从在历史原文与历史译文组成的历史翻译对中,选择与待翻译原文相匹配的历史翻译对作为第一候选历史翻译对。其中,字符串可以由汉字、英文字符串和数字中的至少一种组成。在一个可选示例中,在确定第一候选历史翻译对时,可以先获取待翻译原文的原文字符串,并确定待翻译原文的原文字符串与历史翻译对中的各个历史原文的历史原文字符串之间的字符串相似度;进而,可以依据字符串相似度,从各个历史原文中确定与待翻译原文相匹配的历史原文,从而可以依据确定的历史原文得到与待翻译原文相匹配的历史翻译对,作为第一候选历史翻译对。
在本实施例中,可选的,在确定待翻译原文的原文字符串与历史翻译对中的各个历史原文的历史原文字符串之间的字符串相似度时,可以计算待翻译原文的原文字符串与各历史原文的原文字符串之间的编辑距离,并依据待翻译原文的原文字符串与各历史原文的原文字符串之间的编辑距离,确定待翻译原文的原文字符串与各历史原文的原文字符串之间的字符串相似度。可选的,在采用待翻译原文的原文字符串与各历史原文的原文字符串之间的编辑距离确定字符串相似度时,具体可以通过计算两个字符串通过多少增删操作达到完全相同的状态,来衡量两个字符串之间的相似程度。其中,两个字符串达到完全相同的状态所进行的增删操作越少,表明两个字符串的相似程度越高;两个字符串达到完全相同的状态所进行的增删操作越多,表明两个字符串的相似程度越低。
在本实施例中,在初步筛选得到第一候选历史翻译对时,可以根据待翻译原文与历史原文的字符串相似度,从基于历史原文建立的历史翻译数据库所包括的各由历史原文与历史译文组成的历史翻译对中,选择与待翻译原文相匹配的历史翻译对,作为第一候选历史翻译对。具体地,本实施例中的根据待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对的内容与上述实施例的解释说明相同或相似,此处不再赘述。
在本实施例中,在确定待翻译原文的原文字符串与历史翻译对中的各个历史原文的历史原文字符串之间的字符串相似度时,除了参考编辑距离,还可以参考词频影响。例如,对于经常出现但表意不强的高频词可以设置比较低的权重,比如“的”等高频词;而对于不经常出现但表意强的低频词可以设置比较高的权重。这样做的好处在于,在总体效果上相比编辑距离参考了更多的表意信息,能更加准确的确定原文字符串之间的相似度。
S103、根据待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对。
在本实施例中,在实际的场景中,可能存在待翻译原文与历史原文的字面意思相似,但是待翻译原文与历史原文之间的本质含义却存在一定的差异。基于上述情况,当基于人工智能的翻译历史检索装置接收到待翻译原文的翻译历史检索请求时,还可以根据待翻译原文与历史原文的语义相似度,从历史原文与历史译文组成的历史翻译对中,得到第二候选历史翻译对。采用上述方式的技术方案,不仅可以将和原文含义相同,但是表达不同的历史翻译对展现给译员,而且还可以避免将字面相似但是含义相差很远的历史翻译对展现给译员。
在本实施例的一种可选方式中,根据待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对,可以包括:
确定待翻译原文的语义向量,以及历史原文的语义向量;
根据待翻译原文的语义向量,与历史原文的语义向量之间的语义相似度,得到第二候选历史翻译对。
在本实施方式中,在通过基于人工智能的翻译历史检索装置获取待翻译原文后,可以将待翻译原文输入至预先构建的语义理解模型中,通过预先构建的语义理解模型输出待翻译原文的语义向量。可选的,在确定待翻译原文的语义向量后,可以计算待翻译原文的语义向量与历史原文的语义向量之间的语义相似度。进而,可以依据待翻译原文的语义向量与历史原文的语义向量之间的语义相似度,从历史原文与历史译文组成的历史翻译对中,选择与待翻译原文的语义向量相匹配的历史原文的语义向量,从而可以将历史原文对应的历史翻译对作为第二候选历史翻译对。
在本实施方式中,基于历史原文预先创建的历史翻译数据可以存储历史原文与历史原文的译文之间的映射关系,且每一个历史原文可以与至少一个历史译文组成映射关系。可选的,在基于历史原文预先创建的历史翻译数据中,各历史原文可以关联有预先设置的历史原文对应的语义向量。根据关联信息可以从基于历史原文预先创建的历史翻译数据得到各历史原文的语义向量。在一个可选示例中,在确定待翻译原文的语义向量后,基于人工智能的翻译历史检索装置可以根据待翻译原文的语义向量,在基于历史原文预先创建的历史翻译数据中查找与待翻译原文的语义向量距离较近的历史原文的语义向量,并将该距离较近的历史原文的语义向量所关联的历史翻译对,作为第二候选历史翻译对。
在本实施方式中,采用本实施方式的方案能够理解待翻译原文的语句实质含义,通过查找含义相似的句子而不是字面相似的句子来进行检索,并将与待翻译原文含义相同,但是表达不同的候选历史翻译对提供给译员参考,从而避免将字面相似但是含义相差很远的候选历史翻译对提供给译员参考展现给译员,以免造成后续译员在对待翻译原文进行翻译出现偏差。
S104、根据待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对。
在本实施例中,由于语言习惯和上下文不同,相似的原文之间的译文可能存在比较大的差异,比如,“下小雨”和“下大雨”,虽然“下小雨”和“下大雨”是两个相似的原文,但是“下小雨”的译文“sprinkle”与“下大雨”的译文“raincats and dogs”之间存在较大的差异,这时单纯基于原文字符串相似度选择得到的历史翻译对对译员来说其参考价值并不大。鉴于上述情况,当基于人工智能的翻译历史检索装置接收到待翻译原文的翻译历史检索请求时,还可以根据待翻译原文的译文与历史译文的字符串相似度,从历史原文与历史译文组成的历史翻译对中,选择与待翻译原文匹配的候选历史翻译对,作为第三候选历史翻译对。采用上述方式,可以参考相似原文的实质含义,避免只将历史原文的字面意思与待翻译原文的相似,但译文差异比较大的没有参考价值的历史翻译对提供给译员进行参考。
在本实施例的一种可选方式中,根据待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对,可以包括:
确定待翻译原文的待匹配译文,以及历史原文的历史译文;
根据待翻译原文的待匹配译文,与历史原文的历史译文之间的字符串相似度,得到第三候选历史翻译对。
在本实施方式中,在获取待翻译原文后,基于人工智能的翻译历史检索装置,可以采用预先建立的机器翻译模型对待翻译原文进行翻译,得到至少一个待匹配译文。可选的,在基于历史原文预先创建的历史翻译数据中,各历史原文可以关联有预先设置的历史原文对应的历史译文。根据关联信息可以从基于历史原文预先创建的历史翻译数据得到各历史原文的历史译文。在确定第三候选历史翻译对时,可以根据待翻译原文的待匹配译文,与历史原文的历史译文之间的字符串相似度,从历史原文与历史译文组成的历史翻译对中,选择与待翻译原文的待匹配译文相匹配的历史译文,从而可以将该历史译文对应的历史翻译对作为第三候选历史翻译对。这样做的好处在于,在翻译得到待翻译原文对应的至少一个待匹配译文后,可以从译文的角度进行相似度匹配,以便从各个历史翻译对中初步筛选出与待翻译原文相匹配的历史翻译对。
在本实施方式中,在一个可选示例中,基于人工智能的翻译历史检索装置可以确定至少一个待匹配译文的译文字符串,并确定待匹配译文的译文字符串与各历史翻译对中历史译文的译文字符串之间的字符串相似度;进而,可以依据待匹配译文与各历史译文之间的字符串相似度,从历史原文与历史译文组成的历史翻译对中选择与待匹配译文相匹配的历史译文,并将该历史译文对应的历史翻译对作为第三候选历史翻译对。
在本实施方式中,在确定待匹配译文的译文字符串与各历史译文的译文字符串之间的字符串相似度时,可以计算待匹配译文的译文字符串与各历史译文的译文字符串之间的编辑距离,并依据待匹配原文的译文字符串与各历史译文的译文字符串之间的编辑距离,确定待匹配译文的译文字符串与各历史译文的译文字符串的相似度。可选的,在采用编辑距离确定字符串相似度时,可以通过计算两个字符串通过多少增删操作达到完全相同的状态,来衡量两个字符串之间的相似程度。其中,两个字符串达到完全相同的状态所进行的增删操作越少,表明两个字符串的相似程度越高;两个字符串达到完全相同的状态所进行的增删操作越多,表明两个字符串的相似程度越低。
在本实施方式中,在确定待匹配译文的译文字符串与各历史译文的译文字符串之间的相似度时,除了参考编辑距离,还可以参考词频影响。例如,对于经常出现但表意不强的高频词可以设置比较低的权重,比如“的”等类似高频词;而对于不经常出现但表意强的低频词可以设置比较高的权重。这样做的好处在于,在总体效果上相比编辑距离参考了更多的表意信息,能更准确的确定译文字符串之间的相似度。
在本实施方式中,采用本实施例的技术方案,可以区分出与待翻译原文的字面意思相似而语义差异很大从而导致的译文完全不同的历史原文,从而可以从译文相似的角度得到与待翻译原文相匹配的历史翻译对,通过译文相似的句子来进行检索候选历史翻译对,可以将原文不同但是译文相同的历史翻译对展现给译员参考。
S105、从第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对中选择与待翻译原文匹配的目标历史翻译对。
在本实施例中,在得到第一候选历史翻译对、第二候选历史翻译对以及第三候选历史翻译对之后,可以从第一候选历史翻译对,以及第二候选历史翻译对和/或第三候选历史翻译对中,选择与待翻译原文匹配的候选历史翻译对作为目标历史翻译对。可以理解的是,上述第一候选历史翻译对、第二候选历史翻译对以及第三候选历史翻译对的获取过程可以是同步的,也可以按照先后顺序进行。由于采用每一种方式得到的候选历史翻译对作为最终检索的目标历史译文对均在一定的局限性,因此需要对上述从多个维度得到的候选历史翻译对进行综合评价,从中选出满足最佳匹配条件的候选历史翻译对,作为目标历史翻译对,供译员进行参考。采用上述方式,可以从多个维度的候选历史翻译对中选择最合适的候选历史翻译对提供给译员作为对待翻译原文进行翻译时的历史翻译数据,避免只将单一方式获取的候选历史翻译对作为最终的历史候选翻译对提供给译员造成一定的翻译局限性。
在本实施例的一种可选方式中,从第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对中选择与待翻译原文匹配的目标历史翻译对,可以包括:
对第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对进行排序;
根据排序结果,确定与待翻译原文匹配的目标历史翻译对。
在本实施方式中,在得到第一候选历史翻译对、第二候选历史翻译对以及第三候选历史翻译对之后,可以从上述多个维度的候选历史翻译对中选择至少两个候选历史翻译对,并对选择的第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对进行排序,得到排序结果。进而,根据对上述至少两个维度的候选历史翻译对的排序结果,从中选择与待翻译原文匹配的目标历史翻译对。
在本实施方式中,可选的,可以采用基于Re-rank(重排序)模型对与待翻译原文匹配的第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对进行排序,得到与待翻译原文匹配的目标历史翻译对。Re-rank模块可以接收至少两个维度的候选历史翻译对,并对各个候选翻译对进行重新排序,得到最终的目标历史翻译对。其中,Re-rank模型的总体策略是若候选历史原文翻译对和待翻译原文的相似点越多,则该候选历史翻译对的得分越高,越能作为最终的目标候选历史翻译对。
在本实施例的一种可选方式中,对第二候选历史翻译对和/或第三候选历史翻译对,以及第一候选历史翻译对进行排序,可以包括:
根据待翻译原文和各候选历史翻译对中各候选历史原文的主成分,片段匹配关系和相似度中的至少一种特征,对各候选历史翻译对进行排序。
在本实施方式中,在得到多个维度的候选历史翻译对后,可以依据待翻译原文和各候选历史翻译对中的历史原文的主成分,片段匹配关系和相似度中的至少一种特征对各个维度的候选翻译对中的候选历史原文进行评分,根据评分对各候选历史原文进行排序,保留综合得分较高的候选历史原文,删除综合得分较低的候选历史原文,并将综合得分较高的候选历史原文对应的候选历史翻译对,作为目标历史翻译对。
本发明实施例中提供了一种基于人工智能的翻译历史检索方法,采用本发明实施例中提供的上述技术方案,能够理解语句的含义,通过查找含义相似的句子而不是字面相似的句子来进行检索,可以将和原文含义相同,但是表达不同的历史翻译结果展现给译员用于参考,可以避免将字面相似但是含义相差很远的历史翻译结果展现给译员。并且,还通过译文相似的句子来进行检索,可以将原文不同但是译文相同的历史翻译结果展现给译员参考。
图2是本发明实施例中提供的一种基于人工智能的翻译历史检索装置的结构示意图,本实施例可适用于采用计算机辅助翻译方式辅助译员检索翻译历史的情况,例如,辅助译员检索与待翻译原文含义相同的翻译历史,并根据检索的翻译历史辅助译员对待翻译原文进行原文翻译的场景。该装置可以采用软件和/或硬件的方式实现,并集成在任何具有网络通信功能的设备上。该设备可以为终端设备或服务器,其中终端设备可以包括但不限于手机、平板电脑或者翻译器等。如图2所示,本发明实施例中的基于人工智能的翻译历史检索装置可以包括:检索请求接收模块201、第一候选翻译模块202、第二候选翻译模块203、第三候选翻译模块204和目标翻译确定模块205。其中:
检索请求接收模块201,用于接收待翻译原文的翻译历史检索请求;
第一候选翻译模块202,用于在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
第二候选翻译模块203,用于根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
第三候选翻译模块204,用于根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
目标翻译确定模块205,用于从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
在上述实施例的基础上,可选的,所述第二候选翻译模块203可以包括:
语义向量确定单元,用于确定所述待翻译原文的语义向量,以及历史原文的语义向量;
第二候选翻译单元,用于根据所述待翻译原文的语义向量,与所述历史原文的语义向量之间的语义相似度,得到第二候选历史翻译对。
在上述实施例的基础上,可选的,所述目标翻译确定模块205可以包括:
候选翻译排序单元,用于对所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对进行排序;
目标翻译确定单元,用于根据排序结果,确定与所述待翻译原文匹配的目标历史翻译对。
在上述实施例的基础上,可选的,所述候选翻译排序单元可以包括:
候选翻译排序子单元,用于根据所述待翻译原文和各候选历史翻译对中各候选历史原文的主成分,片段匹配关系和相似度中的至少一种特征,对各候选历史翻译对进行排序。
本发明实施例中所提供的基于人工智能的翻译历史检索装置可执行上述本发明任意实施例中所提供的基于人工智能的翻译历史检索方法,具备执行该基于人工智能的翻译历史检索方法相应的功能和有益效果。
图3是本发明实施例中提供的一种设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性设备312的框图。图3显示的设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,该设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同系统组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块342的程序/实用工具340,可以存储在例如存储装置328中,这样的程序模块342包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块342通常执行本发明所描述的实施例中的功能和/或方法。
该设备312也可以与一个或多个外部设备314(例如键盘、指向终端、显示器324等)通信,还可与一个或者多个使得用户能与该设备312交互的终端通信,和/或与使得该设备312能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器320通过总线318与设备312的其它模块通信。应当明白,尽管图中未示出,可以结合设备312使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如,实现本发明任意实施例中所提供的基于人工智能的翻译历史检索方法,该方法可以包括:
接收待翻译原文的翻译历史检索请求;
在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例中所提供的基于人工智能的翻译历史检索方法的技术方案。
本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例中所提供的基于人工智能的翻译历史检索方法,该方法可以包括:
接收待翻译原文的翻译历史检索请求;
在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
当然,本发明实施例中所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例中所提供的基于人工智能的翻译历史检索方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于人工智能的翻译历史检索方法,其特征在于,包括:
接收待翻译原文的翻译历史检索请求;
在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
2.根据权利要求1所述的方法,其特征在于,根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对,包括:
确定所述待翻译原文的语义向量,以及历史原文的语义向量;
根据所述待翻译原文的语义向量,与所述历史原文的语义向量之间的语义相似度,得到第二候选历史翻译对。
3.根据权利要求1所述的方法,其特征在于,从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对,包括:
对所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对进行排序;
根据排序结果,确定与所述待翻译原文匹配的目标历史翻译对。
4.根据权利要求3所述的方法,其特征在于,对所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对进行排序,包括:
根据所述待翻译原文和各候选历史翻译对中各候选历史原文的主成分,片段匹配关系和相似度中的至少一种特征,对各候选历史翻译对进行排序。
5.一种基于人工智能的翻译历史检索装置,其特征在于,包括:
检索请求接收模块,用于接收待翻译原文的翻译历史检索请求;
第一候选翻译模块,用于在历史原文与历史译文组成的历史翻译对中,根据所述待翻译原文与历史原文的字符串相似度,得到第一候选历史翻译对;
第二候选翻译模块,用于根据所述待翻译原文与历史原文的语义相似度,得到第二候选历史翻译对;
第三候选翻译模块,用于根据所述待翻译原文的译文与历史译文的字符串相似度,得到第三候选历史翻译对;
目标翻译确定模块,用于从所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对中选择与所述待翻译原文匹配的目标历史翻译对。
6.根据权利要求5所述的装置,其特征在于,所述第二候选翻译模块包括:
语义向量确定单元,用于确定所述待翻译原文的语义向量,以及历史原文的语义向量;
第二候选翻译单元,用于根据所述待翻译原文的语义向量,与所述历史原文的语义向量之间的语义相似度,得到第二候选历史翻译对。
7.根据权利要求5所述的装置,其特征在于,所述目标翻译确定模块包括:
候选翻译排序单元,用于对所述第二候选历史翻译对和/或所述第三候选历史翻译对,以及所述第一候选历史翻译对进行排序;
目标翻译确定单元,用于根据排序结果,确定与所述待翻译原文匹配的目标历史翻译对。
8.根据权利要求7所述的装置,其特征在于,所述候选翻译排序单元包括:
候选翻译排序子单元,用于根据所述待翻译原文和各候选历史翻译对中各候选历史原文的主成分,片段匹配关系和相似度中的至少一种特征,对各候选历史翻译对进行排序。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-4中任一所述的基于人工智能的翻译历史检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一所述的基于人工智能的翻译历史检索方法。
CN201811615689.3A 2018-12-27 2018-12-27 基于人工智能的翻译历史检索方法、装置、设备和介质 Active CN109710952B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811615689.3A CN109710952B (zh) 2018-12-27 2018-12-27 基于人工智能的翻译历史检索方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811615689.3A CN109710952B (zh) 2018-12-27 2018-12-27 基于人工智能的翻译历史检索方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN109710952A true CN109710952A (zh) 2019-05-03
CN109710952B CN109710952B (zh) 2023-06-16

Family

ID=66257915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811615689.3A Active CN109710952B (zh) 2018-12-27 2018-12-27 基于人工智能的翻译历史检索方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN109710952B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852041A (zh) * 2019-10-12 2020-02-28 重庆金融资产交易所有限责任公司 一种字段处理方法及相关设备
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN113191163A (zh) * 2021-05-21 2021-07-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
JP2005044020A (ja) * 2003-07-24 2005-02-17 Toshiba Corp 機械翻訳装置、プログラム及び機械翻訳方法
CN1869976A (zh) * 2005-05-25 2006-11-29 株式会社东芝 通过执行不同语言之间的翻译来支持交流的装置和方法
JP2007087056A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 翻訳装置及びプログラム
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106649282A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN107133223A (zh) * 2017-04-20 2017-09-05 南京大学 一种自动探索更多参考译文信息的机器翻译优化方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1465018A (zh) * 2000-05-11 2003-12-31 南加利福尼亚大学 机器翻译技术
JP2005044020A (ja) * 2003-07-24 2005-02-17 Toshiba Corp 機械翻訳装置、プログラム及び機械翻訳方法
CN1869976A (zh) * 2005-05-25 2006-11-29 株式会社东芝 通过执行不同语言之间的翻译来支持交流的装置和方法
JP2007087056A (ja) * 2005-09-21 2007-04-05 Fuji Xerox Co Ltd 翻訳装置及びプログラム
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102253930A (zh) * 2010-05-18 2011-11-23 腾讯科技(深圳)有限公司 一种文本翻译的方法及装置
CN103885939A (zh) * 2012-12-19 2014-06-25 新疆信息产业有限责任公司 维吾尔文-汉文双向翻译记忆系统的构造方法
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106649282A (zh) * 2015-10-30 2017-05-10 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN107133223A (zh) * 2017-04-20 2017-09-05 南京大学 一种自动探索更多参考译文信息的机器翻译优化方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN107885737A (zh) * 2017-12-27 2018-04-06 传神语联网网络科技股份有限公司 一种人机互动翻译方法及系统

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
CHAO-HONG LIU: "Sentence Decomplexification using holistic aspect-based clause detection for long sentence understanding", 《2010 7TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING》 *
HSUN-HUI HUANG: "A Fuzzy-Rough Set Based Semantic Similarity Measure Between Cross-Lingual Documents", 《2008 3RD INTERNATIONAL CONFERENCE ON INNOVATIVE COMPUTING INFORMATION AND CONTROL》 *
何中军: "基于短语相似度的统计机器翻译模型", 《高技术通讯》 *
刘鹏: "基于短语模糊匹配和句子扩展的统计翻译方法", 《中文信息学报》 *
叶焕倬: "基于改进编辑距离的相似重复记录清理算法", 《现代图书情报技术》 *
吴华: "面向互联网的信息处理", 《中国科学》 *
王海峰: "互联网机器翻译", 《中文信息学报》 *
王金铨: "翻译质量评价方法及其在计算机翻译评价系统中的应用", 《中国翻译》 *
罗延根: "基于词向量的维吾尔语词项归一化方法", 《计算机工程》 *
赵静: "高校图书馆搜索引擎中Web 挖掘的应用研究", 《甘肃科技》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852041A (zh) * 2019-10-12 2020-02-28 重庆金融资产交易所有限责任公司 一种字段处理方法及相关设备
CN112836529A (zh) * 2021-02-19 2021-05-25 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN112836529B (zh) * 2021-02-19 2024-04-12 北京沃东天骏信息技术有限公司 生成目标语料样本的方法和装置
CN113191163A (zh) * 2021-05-21 2021-07-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质

Also Published As

Publication number Publication date
CN109710952B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
US10402433B2 (en) Method and apparatus for recommending answer to question based on artificial intelligence
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
JP2021018797A (ja) 対話の交互方法、装置、コンピュータ可読記憶媒体、及びプログラム
US10565508B2 (en) Inferred facts discovered through knowledge graph derived contextual overlays
US7742922B2 (en) Speech interface for search engines
CN109710951A (zh) 基于翻译历史的辅助翻译方法、装置、设备及存储介质
JP6517352B2 (ja) 翻訳情報の提供方法及びシステム
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN110930980B (zh) 一种中英文混合语音的声学识别方法及系统
JP2015523659A (ja) 多言語混合検索方法およびシステム
US11551437B2 (en) Collaborative information extraction
CN109710952A (zh) 基于人工智能的翻译历史检索方法、装置、设备和介质
CN102193914A (zh) 计算机辅助翻译的方法及系统
CN109858045B (zh) 机器翻译方法和装置
US10838993B2 (en) Augment politeness in question answer systems
JP7093825B2 (ja) マンマシン対話方法、装置、及び機器
JP2021190073A (ja) リソースソート方法、ソートモデルをトレーニングする方法及び対応する装置
KR20090031687A (ko) 2개국어 단어 정렬들로부터의 효율적인 문구 쌍 추출 방법
EP4174714A1 (en) Text sequence generation method, apparatus and device, and medium
CN108932218A (zh) 一种实例扩展方法、装置、设备和介质
CN108920649A (zh) 一种信息推荐方法、装置、设备和介质
CN107861948A (zh) 一种标签提取方法、装置、设备和介质
CN110263218A (zh) 视频描述文本生成方法、装置、设备和介质
US20180067927A1 (en) Customized Translation Comprehension
US10714087B2 (en) Speech control for complex commands

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant