CN111414766A - 一种翻译方法及装置 - Google Patents

一种翻译方法及装置 Download PDF

Info

Publication number
CN111414766A
CN111414766A CN201811550852.2A CN201811550852A CN111414766A CN 111414766 A CN111414766 A CN 111414766A CN 201811550852 A CN201811550852 A CN 201811550852A CN 111414766 A CN111414766 A CN 111414766A
Authority
CN
China
Prior art keywords
entity
text
translated
custom
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811550852.2A
Other languages
English (en)
Other versions
CN111414766B (zh
Inventor
许静芳
翟飞飞
李质轩
戴磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811550852.2A priority Critical patent/CN111414766B/zh
Publication of CN111414766A publication Critical patent/CN111414766A/zh
Application granted granted Critical
Publication of CN111414766B publication Critical patent/CN111414766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种翻译方法及装置,具体为,首先获取用户输入的自定义实体信息;并根据该自定义实体信息,识别出待翻译文本中与该自定义实体信息对应的自定义实体,然后将待翻译文本中的自定义实体替换为实体标签。最后,对待翻译文本进行翻译,生成目标语言文本,且该目标语言文本中保留实体标签。当用户查看翻译后的目标语言文本时,可以根据目标语言文本中保留的实体标签,快速定位自定义实体所在的位置,提高修正译文的效率。

Description

一种翻译方法及装置
技术领域
本申请涉及互联网技术领域,具体涉及一种翻译方法及装置。
背景技术
对术语(Terminology)与命名实体(Named Entity)的翻译一直是目前机器翻译的重点与难点之一。术语一般指用以表达科学艺术、生产生活等各个专业领域中的概念的词或短语。命名实体一般指人名、地名、组织机构名等专有名词。由于术语和命名实体在训练语料中的稀缺性及其专业性等语言学特点,现有依靠翻译模型自行进行翻译无法达到令人满意的效果。对专业领域有翻译需求的用户,在使用目前的机器翻译进行自动翻译时,经常需要对译文进行检查,将查找到的没有正确翻译的部分进行修改校正,花费时间较长、效率较为低下。
发明内容
有鉴于此,本申请实施例提供一种翻译方法及装置,以解决现有技术中由于对实体的自动翻译不准确,造成修正译文花费时间较长的技术问题。
为解决上述问题,本申请实施例提供的技术方案如下:
一种翻译方法,所述方法包括:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
在一种可能的实现方式中,所述获取用户输入的自定义实体信息,包括:
获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
在一种可能的实现方式中,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述方法还包括:
从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
在一种可能的实现方式中,所述获取用户输入的自定义实体信息,包括:
获取用户在待翻译文本中标注的自定义实体。
在一种可能的实现方式中,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述方法还包括:
根据实体识别算法识别所述待翻译文本中的实体;
对识别到的所述待翻译文本中的实体进行突出显示。
在一种可能的实现方式中,所述方法还包括:
对所述目标语言文本中保留的所述实体标签对应的自定义实体进行翻译,生成所述待确认自定义实体译文。
在一种可能的实现方式中,所述方法还包括:
对所述待确认自定义实体译文进行标注。
一种翻译装置,所述装置包括:
第一获取单元,用于获取用户输入的自定义实体信息;
第一识别单元,用于根据所述自定义实体信息,识别待翻译文本中的自定义实体;
第一替换单元,用于将所述待翻译文本中的自定义实体替换为实体标签;
第一翻译单元,用于对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
在一种可能的实现方式中,所述第一获取单元,具体用于获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
在一种可能的实现方式中,所述第一识别单元,具体用于在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
第二替换单元,用于将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
在一种可能的实现方式中,所述第一获取单元,具体用于获取用户在待翻译文本中标注的自定义实体。
在一种可能的实现方式中,所述第一识别单元,具体用于在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述装置还包括:
第二识别单元,用于根据实体识别算法识别所述待翻译文本中的实体;
显示单元,用于对识别到的所述待翻译文本中的实体进行突出显示。
在一种可能的实现方式中,所述装置还包括:
第二翻译单元,用于对所述目标语言文本中保留的所述实体标签对应的自定义实体进行翻译,生成所述待确认自定义实体译文。
在一种可能的实现方式中,所述装置还包括:
标注单元,用于对所述待确认自定义实体译文进行标注。
一种翻译装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的翻译方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例中,首先获取用户输入的自定义实体信息;并根据该自定义实体信息,识别出待翻译文本中与该自定义实体信息对应的自定义实体,然后将待翻译文本中的自定义实体替换为实体标签。最后,对待翻译文本进行翻译,生成目标语言文本,且该目标语言文本中保留实体标签。当用户查看翻译后的目标语言文本时,可以根据目标语言文本中保留的实体标签,快速定位自定义实体所在的位置,提高修正译文的效率。
附图说明
图1为本申请实施例提供的示例性应用场景的框架示意图;
图2为本申请实施例提供的一种翻译方法的流程图;
图3为本申请实施例提供的另一种翻译方法的流程图;
图4为本申请实施例提供的又一种翻译方法的流程图;
图5为本申请实施例提供的一种翻译装置的结构图;
图6为本申请实施例提供的另一种翻译装置的结构图;
图7为本申请实施例提供的一种服务器设备结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请提供的技术方案,下面将先对本申请的背景技术进行说明。
发明人研究发现,传统的翻译系统对原文中的术语和命名实体识别是通过实体词典或者模型进行识别。然而,由于术语和命名实体具有很强的专业性,并且会随着时间不断增加新的术语和命名实体,使得实体词典或模型无法识别出新的术语和命名实体。另外,对专业领域有翻译需求的用户,当使用传统的翻译系统进行自动翻译后,经常需要用户自己对译文进行修正。当翻译内容较多时,需要花费很长的时间进行修正,使得修正效率较低,影响用户使用体验。
基于此,本申请提供了一种翻译方法及装置,在进行翻译时,首先获取用户输入的自定义实体信息。根据自定义实体信息,识别出待翻译文本中该自定义实体信息对应的自定义实体,并将待翻译文本中的自定义实体替换为实体标签,以标注该自定义实体。最后对待翻译文本进行翻译,生成目标语言文本,该目标语言文本中仍保留实体标签。当用户需要对目标语言文本中自定义实体进行修正时,可以通过目标语言文本中保留的实体标签快速定位自定义实体所在的位置,提高修正效率以及用户使用体验。
参见图1,该图为本申请实施例提供的示例性应用场景的框架示意图。其中,本申请实施例提供的翻译方法既可以应用于翻译客户端10、也可以应用服务器20中,下面以应用于客户端10为例进行说明。
实际应用时,客户端10获取用户输入的自定义实体信息以及待翻译文本,然后根据自定义实体信息对待翻译文本中的自定义实体进行识别,然后将识别出的自定实体替换为实体标签。最后,客户端10可以在本地对待翻译文本进行翻译生成目标语言文本,也可以将待翻译文本发送给服务器20,由服务器20进行在线翻译,生成目标语言文本,将该目标语言文本返回给客户端10。
客户端10可以将目标语言文本显示给用户,由于该目标语言文本保留实体标签,用户可以通过实体标签快速定位自定义实体所在的位置。
本领域技术人员可以理解,图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。
需要注意的是,客户端10可以承载于终端,终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是,本申请实施例中服务器20可以是现有的、正在研发的或将来研发的、能够向用户翻译应用服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。
需要说明的是,本申请中待翻译文本和目标语言文本的语种可以为现有语种种类的任意一种即可,但需要满足待翻译文本与目标语言文本的语种不同。为便于理解,本申请将以待翻译文本为中文,目标语言文本为英文为例进行说明。
为便于理解本申请实施例提供的翻译方法,下面将结合附图对该翻译方法的具体实现过程进行说明。
参见图2,该图为本申请实施例提供的一种翻译方法的流程图,如图3所示,该方法可以包括:
S201:获取用户输入的自定义实体信息。
本实施例中,客户端可以获取用户输入的自定义实体信息。在本申请实施例中,实体可以包括术语以及命名实体。用户输入的自定义实体信息可以包括自定义的术语和/或命名实体的相关信息。
需要说明的是,该自定义实体信息可以为用户根据实际需求对待翻译文本中专业实体或者很少出现的实体进行标注的信息,以使得客户端可以识别出该自定义实体信息对应的自定义实体。例如,待翻译文本为“沸腾山湖是一张非常昂贵的卡牌”,由于“沸腾山湖”为一个很少出现的词汇,现有的翻译系统无法对其进行识别,用户可以在待翻译文本中将“沸腾山湖”确定为自定义实体,并在待翻译文本中将“沸腾山湖”标注为自定义实体信息。
另外,自定义实体信息还可以为用户的自定义实体词典,该自定义实体词典包括自定义实体原文和对应的自定义实体译文。在实际应用中,自定义实体词典的具体形式可以为包括至少一条自定义实体词条,每条自定义实体词条包括一条自定义实体原文和对应的自定义实体译文。
当客户端获取到用户输入的自定义实体词典后,可以保存该自定义实体词典,以便在进行翻译时,可以根据自定义实体词典对自定义实体进行翻译。例如,自定义实体信息可以为自定义实体词典,包括至少一条自定义实体词条,其中某一条自定义实体词条的自定义实体原文为“沸腾山湖”以及对应的自定义实体译文“Scalding Tarn”。
所述的保存自定义实体词典可以为:直接保存该自定义实体词典,或者,也可以将该自定义实体词典中的自定义实体词条加入到已有的标准实体词典中。
其中,关于利用上述两种不同的自定义实体信息进行翻译的过程,将在后续实施例中进行说明。
S202:根据自定义实体信息,识别待翻译文本中的自定义实体。
本实施例中,当客户端获取自定义实体信息后,可以根据自定义实体信息对待翻译文本中的实体进行识别,以识别出该自定义实体信息对应的自定义实体。
S203:将所述待翻译文本中的自定义实体替换为实体标签。
本实施例中,当识别出待翻译文本中的自定义实体后,将该自定义实体替换为实体标签,以标记该实体为用户自定义的实体。
例如,识别出待翻译文本“沸腾山湖是一张非常昂贵的卡牌”中“沸腾山湖”为自定义实体,则将该自定义实体替换为实体标签<TERM>,则待翻译文本为“<TERM>是一张非常昂贵的卡牌”。其中,实体标签的具体表现形式可以根据实际情况进行设定,本实施例对实体标签的表现形式不进行限定。
S204:对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
本实施例中,当完成待翻译文本中自定义实体替换为实体标签后,对待翻译文本进行翻译,生成目标语言文本,即获得译文。其中,目标语言文本中保留实体标签,以便用户可以通过实体标签进行快速定位。
例如,替换实体标签后的待翻译文本为“<TERM>是一张非常昂贵的卡牌”,对应的目标语言文本为“<TERM>is a very expensive card”。当用户查看目标语言文本时,可以通过实体标签快速定位自定义实体的位置,以便用户可以对该位置的自定义实体对应的译文进行添加。
在本申请实施例一些可能的实现方式中,还可以进一步将实体标签自动替换为相应的译文,将实体标签替换为相应译文的方式也将在后续实施例中详细说明。
通过上述描述可知,本申请实施例中,首先获取用户输入的自定义实体信息;并根据该自定义实体信息,识别出待翻译文本中与该自定义实体信息对应的自定义实体,然后将待翻译文本中的自定义实体替换为实体标签。最后,对待翻译文本进行翻译,生成目标语言文本,且该目标语言文本中保留实体标签。当用户查看翻译后的目标语言文本时,可以根据目标语言文本中保留的实体标签,快速定位自定义实体,提高修正译文的效率。
通过上述实施例可知,用户输入的自定义实体信息可以为包含至少一条自定义实体词条的自定义实体词典,也可以为用户在待翻译文本中标注的自定义实体,下面将分别对利用这两种自定义实体信息进行翻译的方式进行说明。
参见图3,该图为本申请实施例提供的另一种翻译方法的流程图,如图3所示,该方法可以包括:
S301:获取用户输入的自定义实体词典。
本实施例中,客户端根据用户的输入,获取自定义实体词典,该自定义实体词典包括至少一条自定义实体词条,其中自定义实体词条包括自定义实体原文以及对应的自定义实体译文。
在实际应用时,用户可以根据实际需求将可能会使用到的自定义实体词典输入客户端中。客户端获取到自定义实体词典后进行保存,以便利用该自定义实体词典进行翻译。
例如,用户输入的自定义实体词典包括一条自定义实体词条:自定义实体原文“沸腾山湖”以及对应的自定义实体译文“Scalding Tarn”,客户端可以保存自定义实体原文“沸腾山湖”以及对应的自定义实体译文“Scalding Tarn”。
可以理解的是,在客户端中还可以保存有其他标准实体词典。标准实体词典包括标准实体原文以及标准实体译文。例如,标准实体词典包括的标准实体原文为“卡牌”和标准实体译文“Card”。
S302:在待翻译文本中查找自定义实体词典中包括的自定义实体原文,将待翻译文本中查找到的自定义实体原文确定为待翻译文本中的自定义实体。
本实施例中,客户端在对待翻译文本翻译之前,先在待翻译文本中查找自定义实体词典中包括的自定义实体原文,然后将待翻译文本中查找到的自定义实体原文确定为待翻译文本中的自定义实体。
例如,待翻译文本为“沸腾山湖是一张非常昂贵的卡牌”,而自定义实体词典中包括自定义实体原文“沸腾山湖”,则将待翻译文本中的“沸腾山湖”确定为自定义实体。
S303:将待翻译文本中的自定义实体替换为实体标签。
S304:对待翻译文本进行翻译,生成目标语言文本,目标语言文本中保留实体标签。
本实施例中,当确定出待翻译文本中的自定义实体后,将该自定义实体替换为实体标签,然后对待翻译文本进行翻译,生成目标语言文本,该目标语言文本保留实体标签,以使得用户可以根据实体标签快速定位自定义实体的位置,以便在该自定义实体的位置添加译文。
其中,S303-S304与S203-S204具有相同的实现方式,具体实现可以参见上述实施例,本实施例在此不再赘述。
S305:从自定义实体词典中获取目标自定义实体译文。
本实施例中,当客户端对待翻译文本翻译之后,还可以在自定义实体词典中获取待翻译文本中自定义实体对应的译文。其中,目标自定义实体译文为待翻译文本中的自定义实体对应的自定义实体译文。
例如,客户端在实体词典中获取待翻译文本中自定义实体“沸腾山湖”对应的译文“Scalding Tarn”。
S306:将目标语言文本中保留的实体标签替换为相应的目标自定义实体译文。
当获取待翻译文本中的自定义实体对应的自定义实体译文后,将目标语言文本中保留的实体标签替换为对应的自定义实体译文,从而完成翻译。
例如,目标语言文本为<TERM>is a very expensive card,则将实体标签替换为“Scalding Tarn”,从而获得待翻译文本的完整译文“Scalding Tarn is a veryexpensive card”。
对于待翻译文本中包括的标准实体的翻译过程与对自定义实体的翻译过程类似,包括将待翻译文本中的标准实体替换为实体标签;对待翻译文本进行翻译,生成目标语言文本,目标语言文本中保留实体标签;从实体词典中获取目标标准实体译文,目标标准实体译文为待翻译文本中的标准实体对应的标准实体译文;将目标语言文本中保留的实体标签替换为相应的目标标准实体译文。
另外,当待翻译文档中有多个实体时(可以包括自定义实体以及标准实体),在将实体替换为实体标签时,可以依次对实体标签进行编号,例如实体1对应于实体标签1,实体2对应于实体标签2。然后分别获得每个实体对应的译文,最后按照实体标签的顺序将各个不同的实体标签替换为相应的实体译文。
本实施例中,客户端可以获取用户输入的自定义实体词典,当需要对待翻译文本进行翻译时,可以根据自定义实体词典对待翻译文本中自定义实体进行翻译,从而提高对待翻译文本中术语和命名实体的翻译准确率。
参见图4,该图为本申请实施例提供的另一种翻译方法的流程图,如图4所示,该方法可以包括:
S401:获取用户在待翻译文本中标注的自定义实体。
本实施例中,为用户提供标注的功能,用户可以预先在待翻译文本中标注自定义实体,当用户将待翻译文本输入客户端时,可以获取用户在待翻译文本中标注的自定义实体。
例如,用户将待翻译文本“沸腾山湖是一张非常昂贵的卡牌”中的“沸腾山湖”进行标注,标注后的待翻译文本可以为“{沸腾山湖}是一张非常昂贵的卡牌”。
用户手动标注自定义实体时,当待翻译文本中自定义实体数量较多时,用户查找自定义实体较为费时,因此在一些可能的实现方式中,用户可以先将待翻译文本输入客户端,由客户端根据实体识别算法识别待翻译文本中的实体,并对识别到的待翻译文本中的实体进行突出显示。用户可以从突出显示的实体中手动标注需要定义的实体,然后用户再将标注后的待翻译文本输入客户端。
需要说明的是,用户标注自定义实体的表现方式可以根据实际需求进行设定,本实施例不对标注的形式进行限定。同时,待翻译文本中的实体进行突出显示的方式可以根据实际需求进行设定,本实施例对此不进行限定。
S402:在待翻译文本中查找与用户在待翻译文本中标注的自定义实体相同的文本,确定为待翻译文本中的自定义实体。
本实施例中,当客户端获取用户在待翻译文本中标注的自定义实体后,可以将待翻译文本中与用户标注的自定义实体相同的文本确定为待翻译文本中的自定义实体,以便将该自定义实体替换为实体标签。例如,待翻译文本中包括多个“沸腾山湖”,用户只需要标注其中一个,则客户端可以在待翻译文本中查找其他“沸腾山湖”这一文本,将查找到的与用户在待翻译文本中标注的自定义实体相同的文本,确定为待翻译文本中的自定义实体。
可以理解的是,在用户完成了待翻译文本中所有自定义实体的标注的情况下,该步骤可以省略。
S403:将待翻译文本中的自定义实体替换为实体标签。
S404:对待翻译文本进行翻译,生成目标语言文本,目标语言文本中保留所述实体标签。
本实施例中,对待翻译文本进行翻译,获得该待翻译文本对应的目标语言文本。同时,该目标语言文本中保留实体标签,从而使得用户可以通过实体标签快速定位自定义实体的位置,以便于用户在该位置添加自定实体对应的译文,提高修正目标语言文本的效率。需要说明的是,关于S403和S404的具体实现方式可以参见S203和S204的实现,本实施例在此不再赘述。
通过本实施例可知,可以接受用户预先在待翻译文本中标注自定义实体,当客户端获取到待翻译文本时,将待翻译文本中与标注的自定义实体相同的文本确定为待翻译文本中的自定义实体,并将该自定义实体替换为实体标签。当对待翻译文本进行翻译时,保留实体标签,从而使得用户在查看目标语言文本时,可以通过实体标签快速定位自定义实体的位置,以便在该位置对目标语言文本进行修正,提高修正效率。
另外,在一种可能的实现方式中,在客户端中没有自定义实体词典或者自定义实体词典中没有自定义实体对应的译文时,也可以先对待翻译文本中的自定义实体进行翻译,并将目标语言文本中保留的实体标签替换为翻译后的译文,同时将该自定义实体对应的译文进行标注,用户可以根据标注对译文进行修正。具体可以为,对目标语言文本中保留的实体标签对应的自定义实体进行翻译,生成待确认自定义实体译文。另外,还可以对待确认自定义实体译文进行标注。例如,客户端对待翻译文本中的“沸腾山湖”进行翻译,得到待确认自定义实体译文“Boiling Mountain Lake”,然后对该待确认自定义实体译文进行标注,比如,加下划线“Boiling Mountain Lake”或者高亮显示。
需要说明的是,本实施例对待确认自定义实体译文进行标注的形式可以有多种,本实施例在此不进行限定。
可以理解的是,客户端在对待翻译文本进行翻译时,可以连同识别出的自定义实体一起进行翻译,获得该自定义实体对应的待确认自定义实体译文。然后,将目标语言文本中保留的实体标签替换为待确认自定义实体译文,并对目标语言文本中的待确认自定义实体译文进行标注。当用户在查看目标语言文本时,可以通过标注快速定位到待确认自定义实体译文的位置。如果待确认自定实体译文为准确的译文,则用户直接确认即可;如果不准确,则直接进行修正,提高修正效率。
在对待翻译文本进行翻译时,也可以是对非实体标签部分进行翻译生成该部分对应的目标语言文本,之后对目标语言文本中保留的实体标签对应的自定义实体进行翻译,生成待确认自定义实体译文,并对目标语言文本中的待确认自定义实体译文进行标注。
基于上述实施例,本申请还提供了一种翻译装置,下面将结合附图对该装置进行说明。
参见图5,该图为本申请实施例提供的一种翻译装置的结构图,如图5所示,该装置可以包括:
第一获取单元501,用于获取用户输入的自定义实体信息;
第一识别单元502,用于根据所述自定义实体信息,识别待翻译文本中的自定义实体;
第一替换单元503,用于将所述待翻译文本中的自定义实体替换为实体标签;
第一翻译单元504,用于对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
在一种可能的实现方式中,所述第一获取单元,具体用于获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
在一种可能的实现方式中,所述第一识别单元,具体用于在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述装置还包括:
第二获取单元,用于从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
第二替换单元,用于将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
在一种可能的实现方式中,所述第一获取单元,具体用于获取用户在待翻译文本中标注的自定义实体。
在一种可能的实现方式中,所述第一识别单元,具体用于在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
在一种可能的实现方式中,所述装置还包括:
第二识别单元,用于根据实体识别算法识别所述待翻译文本中的实体;
显示单元,用于对识别到的所述待翻译文本中的实体进行突出显示。
在一种可能的实现方式中,所述装置还包括:
第二翻译单元,用于对所述目标语言文本中保留的所述实体标签对应的自定义实体进行翻译,生成所述待确认自定义实体译文。
在一种可能的实现方式中,所述装置还包括:
标注单元,用于对所述待确认自定义实体译文进行标注。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6示出了一种针对应用程序语音识别评测的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电源组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
可选的,所述获取用户输入的自定义实体信息,包括:
获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
可选的,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
可选的,所述方法还包括:
从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
可选的,所述获取用户输入的自定义实体信息,包括:
获取用户在待翻译文本中标注的自定义实体。
可选的,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
可选的,所述方法还包括:
根据实体识别算法识别所述待翻译文本中的实体;
对识别到的所述待翻译文本中的实体进行突出显示。
可选的,所述方法还包括:
对所述目标语言文本中保留的所述实体标签对应的自定义实体进行翻译,生成所述待确认自定义实体译文。
可选的,所述方法还包括:
对所述待确认自定义实体译文进行标注。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行翻译的方法,所述方法包括:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
可选的,所述获取用户输入的自定义实体信息,包括:
获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
可选的,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
可选的,所述方法还包括:
从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
可选的,所述获取用户输入的自定义实体信息,包括:
获取用户在待翻译文本中标注的自定义实体。
可选的,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
可选的,所述方法还包括:
根据实体识别算法识别所述待翻译文本中的实体;
对识别到的所述待翻译文本中的实体进行突出显示。
可选的,所述方法还包括:
对所述目标语言文本中保留的所述实体标签对应的自定义实体进行翻译,生成所述待确认自定义实体译文。
可选的,所述方法还包括:
对所述待确认自定义实体译文进行标注。
图7是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
终端700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种翻译方法,其特征在于,所述方法包括:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
2.根据权利要求1所述的方法,其特征在于,所述获取用户输入的自定义实体信息,包括:
获取用户输入的自定义实体词典,所述自定义实体词典包括自定义实体原文以及对应的自定义实体译文。
3.根据权利要求2所述的方法,其特征在于,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在待翻译文本中查找所述自定义实体词典中包括的自定义实体原文,将所述待翻译文本中查找到的自定义实体原文确定为所述待翻译文本中的自定义实体。
4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:
从所述自定义实体词典中获取目标自定义实体译文,所述目标自定义实体译文为所述待翻译文本中的自定义实体对应的自定义实体译文;
将所述目标语言文本中保留的所述实体标签替换为相应的所述目标自定义实体译文。
5.根据权利要求1所述的方法,其特征在于,所述获取用户输入的自定义实体信息,包括:
获取用户在待翻译文本中标注的自定义实体。
6.根据权利要求5所述的方法,其特征在于,所述根据所述自定义实体信息,识别待翻译文本中的自定义实体,包括:
在所述待翻译文本中查找与所述用户在待翻译文本中标注的自定义实体相同的文本,确定为所述待翻译文本中的自定义实体。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据实体识别算法识别所述待翻译文本中的实体;
对识别到的所述待翻译文本中的实体进行突出显示。
8.一种翻译装置,其特征在于,所述装置包括:
第一获取单元,用于获取用户输入的自定义实体信息;
第一识别单元,用于根据所述自定义实体信息,识别待翻译文本中的自定义实体;
第一替换单元,用于将所述待翻译文本中的自定义实体替换为实体标签;
第一翻译单元,用于对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
9.一种翻译装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取用户输入的自定义实体信息;
根据所述自定义实体信息,识别待翻译文本中的自定义实体;
将所述待翻译文本中的自定义实体替换为实体标签;
对所述待翻译文本进行翻译,生成目标语言文本,所述目标语言文本中保留所述实体标签。
10.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至7中一个或多个所述的翻译方法。
CN201811550852.2A 2018-12-18 2018-12-18 一种翻译方法及装置 Active CN111414766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811550852.2A CN111414766B (zh) 2018-12-18 2018-12-18 一种翻译方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811550852.2A CN111414766B (zh) 2018-12-18 2018-12-18 一种翻译方法及装置

Publications (2)

Publication Number Publication Date
CN111414766A true CN111414766A (zh) 2020-07-14
CN111414766B CN111414766B (zh) 2024-01-30

Family

ID=71492493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811550852.2A Active CN111414766B (zh) 2018-12-18 2018-12-18 一种翻译方法及装置

Country Status (1)

Country Link
CN (1) CN111414766B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112149432A (zh) * 2020-09-27 2020-12-29 北京小米松果电子有限公司 篇章机器翻译方法及装置、存储介质
CN115062631A (zh) * 2022-05-23 2022-09-16 北京爱奇艺科技有限公司 一种文本翻译方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075585A1 (fr) * 2001-03-21 2002-09-26 Fujitsu Limited Appareil de traduction automatique
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
US20120023307A1 (en) * 2010-07-23 2012-01-26 Robert Paul Morris Methods, systems, and computer program products for excluding an addressable entity from a translation of source code
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
US20150161113A1 (en) * 2012-07-23 2015-06-11 Google Inc. Document translation including pre-defined term translator and translation model
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002075585A1 (fr) * 2001-03-21 2002-09-26 Fujitsu Limited Appareil de traduction automatique
US20120023307A1 (en) * 2010-07-23 2012-01-26 Robert Paul Morris Methods, systems, and computer program products for excluding an addressable entity from a translation of source code
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN102193914A (zh) * 2011-05-26 2011-09-21 中国科学院计算技术研究所 计算机辅助翻译的方法及系统
US20150161113A1 (en) * 2012-07-23 2015-06-11 Google Inc. Document translation including pre-defined term translator and translation model
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YU WU ET AL.: "Translating on pairwise entity space for knowledge graph embedding", 《NEUROCOMPUTING》 *
丁亮;姚长青;何彦青;李辉;: "深度学习在统计机器翻译领域自适应中的应用研究", 情报工程, no. 03 *
胡亚楠;舒佳根;钱龙华;朱巧明;: "基于机器翻译的跨语言关系抽取", 中文信息学报, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738024A (zh) * 2020-07-29 2020-10-02 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
CN112149432A (zh) * 2020-09-27 2020-12-29 北京小米松果电子有限公司 篇章机器翻译方法及装置、存储介质
CN115062631A (zh) * 2022-05-23 2022-09-16 北京爱奇艺科技有限公司 一种文本翻译方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111414766B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
CN111368541B (zh) 命名实体识别方法及装置
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN109558599B (zh) 一种转换方法、装置和电子设备
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111414766B (zh) 一种翻译方法及装置
EP3734472A1 (en) Method and device for text processing
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN111324214B (zh) 一种语句纠错方法和装置
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN110780749B (zh) 一种字符串纠错方法和装置
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN109992121B (zh) 一种输入方法、装置和用于输入的装置
CN109726612B (zh) 一种识别方法、装置和用于识别的装置
CN109271094B (zh) 一种文本编辑的方法、装置及设备
CN107102747B (zh) 一种信息输入方法、装置和用于信息输入的装置
CN113807082B (zh) 一种目标用户确定方法、装置和用于确定目标用户的装置
CN111414731B (zh) 文本标注方法和装置
CN112612442A (zh) 一种输入方法、装置和电子设备
CN112068793A (zh) 一种语音输入方法及装置
CN112528129B (zh) 多语种翻译系统语种搜索方法及装置
CN112650398B (zh) 输入方法、装置和介质
CN112668340B (zh) 一种信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment