CN111898387A - 翻译方法及装置、存储介质、计算机设备 - Google Patents

翻译方法及装置、存储介质、计算机设备 Download PDF

Info

Publication number
CN111898387A
CN111898387A CN201910370896.5A CN201910370896A CN111898387A CN 111898387 A CN111898387 A CN 111898387A CN 201910370896 A CN201910370896 A CN 201910370896A CN 111898387 A CN111898387 A CN 111898387A
Authority
CN
China
Prior art keywords
target
translation
corpus
text
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910370896.5A
Other languages
English (en)
Other versions
CN111898387B (zh
Inventor
陆军
施杨斌
赵宇
骆卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910370896.5A priority Critical patent/CN111898387B/zh
Publication of CN111898387A publication Critical patent/CN111898387A/zh
Application granted granted Critical
Publication of CN111898387B publication Critical patent/CN111898387B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开了一种翻译方法及装置、存储介质、计算机设备。其中,该方法包括:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本,其中,文本采用的语种与关键词的译文所采用的语种是相同的;基于文本确定目标原文语料和目标译文语料,得到反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。本申请解决了相关技术中难以获取与领域相关的反向伪语料的技术问题。

Description

翻译方法及装置、存储介质、计算机设备
技术领域
本申请涉及机器翻译领域,具体而言,涉及一种翻译方法及装置、存储介质、计算机设备。
背景技术
在机器翻译系统构建过程中,反向伪语料通常对翻译效果有一定提升。此外,与领域相关的训练数据也会提升翻译质量。但在很多场景中,与领域相关的反向伪语料通常难以获得。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种翻译方法及装置、存储介质、计算机设备,以至少解决相关技术中难以获取与领域相关的反向伪语料的技术问题。
根据本申请实施例的一个方面,提供了一种翻译方法,包括:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;基于文本确定目标原文语料和目标译文语料,得到反向伪语料;至少基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
根据本申请实施例的另一方面,还提供了一种翻译方法,包括:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并至少基于目标原文语料和目标译文语料确定反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
根据本申请实施例的另一方面,还提供了一种翻译装置,包括:第一获取模块,用于获取目标领域的原文语料;提取模块,用于从原文语料中提取与目标领域对应的关键词;第二获取模块,用于获取包含关键词的译文的文本;确定模块,用于至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;翻译模块,用于基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
根据本申请实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以上任意一项的翻译方法。
根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译
在本申请实施例中,采用基于原文语料的关键词确定包含该关键词的文本,至少基于该文本确定反向伪语料的目标原文语料和目标译文语料,从而得到反向伪语料,并基于该反向伪语料训练得到翻译模型对待翻译对象进行翻译的方式,由于可以基于上述方案确定反向伪语料,从而实现了反向伪语料的自动获取,并且,由于原文语料和关键词均是与目标领域对应的,因此,可以得到比较准确的反向伪语料,进而解决了相关技术中难以获取与领域相关的反向伪语料的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了一种用于实现翻译方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本申请实施例的一种翻译方法的流程图;
图3是根据本申请实施例的另一种翻译方法的流程图;
图4是根据本申请实施例的一种翻译装置的结构图;
图5是根据本申请实施例的一种计算机设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
双语语料:一种互为翻译的文本语料,例如:“今天天气很好|It's a nice daytoday”。双语语料有文档、句子和短语单词级别,上述例子中是句子级别的(互译的文本为句子)。
伪语料:伪造的双语语料,这种双语语料的原文或译文是由机器翻译生成的,一般来说,伪语料只有一端(原文或译文端)是机器翻译生成的。
反向伪语料:语料的原文端是机器翻译生成(通常会有一些错误在里面),译文端是规范、正确的文本。
机器翻译:借由计算机程序将文字从一种自然语言翻译成另一种自然语言。机器翻译系统的构建极度依赖双语语料(训练集)。
爬虫:一种抓取互联网网站数据的工具。
实施例1
根据本申请实施例,还提供了一种翻译方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现翻译方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的翻译方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的漏洞检测方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的翻译方法。图2是根据本申请实施例的一种翻译方法的流程图,如图2所示,该方法包括以下步骤:
步骤S202,获取目标领域的原文语料;
使用伪预料训练机器翻译模型是一种业界通用的方法,但现有技术中,都没有考虑如何获得场景相关的伪预料。步骤S202中的目标领域也就是与伪预料相关的场景。
根据本申请的一个可选的实施例,执行步骤S202获取目标领域的原文语料即获取目标领域需要翻译的文本,通常可以在相关科技领域网站、公众号上抓取原文语料(这些原文语料都是中文文本)。
步骤S204,从原文语料中提取与目标领域对应的关键词;
在步骤S202抓取的原文语料上抽取关键词,这些关键词需要在目标领域上有较好的区分度和代表性。也就是说抽取的这些关键词是目标领域所特有的一些技术名词。比如,待翻译的文本属于深度学习领域,从原文预料中抽取的属于深度学习领域特有的技术名词包括“神经网络、权重、输入层、输出层、隐藏层、梯度下降、池化”等关键词。
步骤S206,获取包含关键词的译文的文本;
根据本申请的一个可选的实施例,上述文本采用的语种与关键词的译文所采用的语种是相同的。
在本申请的一些实施例中,在执行步骤S206之前,还可以将抽取的关键词人工翻译成英文,获得真实的关键词译文,这些译文词也是能代表目标领域的。这一步骤也可以通过词典翻译或者机器翻译引擎翻译。
然后使用关键词译文(英文)来爬取、挖掘目标语言的真实单语数据。这些单语数据基本也是与目标领域相关的。具体方法为:将这些译文词放到Google、Bing等搜索引擎中检索包含这些单词的文章、句子;然后下载相关文本并抽取出包含这些译文词的句子,需要说明的是,此时抽取的句子也是英文的。
步骤S208,至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;
正如上面所述,可以将上述关键词译文放到Google、Bing等搜索引擎中,以检索得到包含这些关键词译文的文章、句子。然后,将从网站中抓取的英文语句作为目标原文语料;将抓取的这些英文句子放到中文的Google、Bing或者其他翻译引擎中进行翻译,得到中文译文,将该中文译文作为目标译文语料;根据得到的目标原文语料和目标译文语料生成反向伪预料。
步骤S210,基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
通过上述步骤,采用基于原文语料的关键词确定包含该关键词的文本,基于该文本确定反向伪语料的目标原文语料和目标译文语料,从而得到反向伪语料,并基于该反向伪语料训练得到翻译模型对待翻译对象进行翻译的方式,由于可以基于上述方案确定反向伪语料,从而实现了反向伪语料的自动获取,并且,由于原文语料和关键词均是与目标领域对应的,因此,可以得到比较准确的反向伪语料。
在本申请的一些实施例中,为了得到反向伪预料,在本申请的一些实施例中还可以进行以下处理:从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并基于目标原文语料和目标译文语料确定反向伪语料。
具体地,使用关键词译文(英文)来爬取、挖掘目标语言的真实单语数据。这些单语数据基本也是与目标领域相关的。具体方法为:将这些译文词放到Google、Bing等搜索引擎中检索包含这些单词的文章、句子;然后下载相关文本并抽取出包含这些译文词的句子,需要说明的是,此时抽取的句子也是英文的,将抽取的英文语句作为目标原文语料。
将抽取的这些英文句子放到中文的Google、Bing或者其他翻译引擎中,得到中文译文,作为目标译文语料;根据得到的目标原文语料和目标译文语料生成反向伪预料。
在本申请的一些实施例中,可以通过以下方法确定反向伪语料:对目标译文进行过滤,得到过滤后的目标译文;基于过滤后的目标译文和与过滤后的目标译文对应的目标原文语料确定反向伪语料。检查反向伪语料在目标领域的相似度,进一步过滤掉不相似的伪语料,形成领域相关的伪语料。
例如,计算相似度时可以使用N-Gram匹配度。N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese LanguageModel)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换,汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
在本申请的一些实施例中,为了对目标译文进行过滤,还可以进行以下处理:确定目标译文与目标领域的原文语料中语句的相似度;比较相似度和第一阈值的大小;在相似度大于第一阈值时,保留目标译文,并将目标译文作为反向伪语料的目标译文语料;在相似度小于第一阈值时,丢弃目标译文,并确定目标译文不是反向伪语料的目标译文语料。
在对目标译文进行过滤时,计算目标译文与原文语料的相似度,在相似度高于一定的预设阈值时,才将目标译文作为反向伪语料的目标译文语料,通过上述步骤,可以提高反向伪语料的精准度,使得机器翻译模型的训练效果进一步提升。
在本申请的一些实施例中,步骤S204还可以通过以下方法实现:获取与目标领域对应的第一文本库中所有文本的关键词;对于所有文本的关键词中的任意一个关键词,统计任意一个关键词在文本库中的第一出现次数;基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词。
可选地,基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词,包括:确定任意一个关键词在第二文本库中的第二出现次数,其中,第二文本库为包含任意一个关键词的通用文本库;确定第一出现次数和第二出现次数的比值;比较比值和第二阈值的大小;在比值大于第二阈值时,确定任意一个关键词为与目标领域对应的关键词。
根据本申请的一个可选的实施例,第二阈值为大于1的取值。
比如,针对某一个技术领域,确定与该技术领域对应的第一文本库,以及一个通用文本库(即第二文本库),获取第一文本库中所有文本的关键词,统计所有文本的关键词中任意一个关键词在第一文本库中的出现次数n和该任意一个关键词在上述通用文本库中的出现次数m,然后计算n与m的比值n/m,如果比值n/m为大于1的一个取值,也就是说该关键词在与目标领域对应的文本库中出现的次数大于该关键词在通用文本库中出现的次数,说明将该任意一个关键词在目标领域具有代表性。n/m的值越高越好。
通过上述步骤,可以使从原文语料中提取与目标领域对应的关键词与目标领域的相关度更高,会提高后续翻译模型的训练效果。
基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词的方法有很多种,在本申请的一些可选的实施例中,还可以通过以下方法实现:比较第一出现次数和第三阈值的大小;在比较结果指示第一出现次数大于第三阈值时,确定任意一个关键词为与目标领域对应的关键词。
例如,针对某一个技术领域,确定与该技术领域对应的第一文本库,并获取第一文本库中所有文本的关键词,统计所有文本的关键词中任意一个关键词在第一文本库中的第一出现次数,在该第一出现次数达到一个预设阈值时,可以在一定程度上表明该关键词在本技术领域具有一定的代表性,将该任意一个关键词作为与目标领域对应的关键词。
通过上述方法,同样可以使从原文语料中提取与目标领域对应的关键词与目标领域的相关度更高,会提高后续翻译模型的训练效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的翻译方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
图3是根据本申请实施例的另一种翻译方法的流程图,如图3所示,该方法包括以下步骤:
步骤S302,获取目标领域的原文语料;使用伪预料训练机器翻译模型是一种业界通用的方法,但现有技术中,都没有考虑如何获得场景相关的伪预料。步骤S302中的目标领域也就是与伪预料相关的场景。
根据本申请的一个可选的实施例,获取目标领域的原文语料即获取目标领域需要翻译的文本,这部分比较容易,通常可以在相关科技领域网站、公众号上抓取原文语料(这些原文语料都是中文文本)。
步骤S304,从原文语料中提取与目标领域对应的关键词;在步骤S302抓取的原文语料上抽取关键词,这些关键词需要在目标领域上有较好的区分度和代表性。也就是说抽取的这些关键词是目标领域所特有的一些技术名词。
步骤S306,获取包含关键词的译文的文本;
在本申请的一些实施例中,在执行步骤S306之前,还需要将抽取的关键词人工翻译成英文,获得真实的关键词译文,这些译文词也是能代表目标领域的。这一步骤也可以通过词典翻译或者机器翻译引擎翻译。然后使用关键词译文(英文)来爬取、挖掘目标语言的真实单语数据。这些单语数据基本也是与目标领域相关的。具体方法为:将这些译文词放到Google、Bing等搜索引擎中检索包含这些单词的文章、句子;然后下载相关文本并抽取出包含这些译文词的句子,需要说明的是,此时抽取的句子也是英文的。
步骤S308,从文本中提取包含关键词的译文的语句;使用关键词译文(英文)来爬取、挖掘目标语言的真实单语数据。这些单语数据基本也是与目标领域相关的。具体方法为:将这些译文词放到Google、Bing等搜索引擎中检索包含这些单词的文章、句子;然后下载相关文本并抽取出包含这些译文词的句子,需要说明的是,此时抽取的句子也是英文的,将抽取的英文语句作为目标原文语料。
步骤S310,采用目标翻译工具对语句进行翻译,得到目标译文;将抽取的这些英文句子放到中文的Google、Bing或者其他翻译引擎中,得到中文译文,作为目标译文语料。
步骤S312,将语句作为目标原文语料,将目标译文作为目标译文语料,并至少基于目标原文语料和目标译文语料确定反向伪语料;根据得到的目标原文语料和目标译文语料生成反向伪预料。
步骤S314,基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
将生成的反向伪语料用于翻译模型的训练,并利用训练好的翻译模型对待翻译语句进行翻译。
通过上述步骤,采用基于原文语料的关键词确定包含该关键词的文本,基于该文本确定反向伪语料的目标原文语料和目标译文语料,从而得到反向伪语料,并基于该反向伪语料训练得到翻译模型对待翻译对象进行翻译的方式,由于可以基于上述方案确定反向伪语料,从而实现了反向伪语料的自动获取,并且,由于原文语料和关键词均是与目标领域对应的,因此,可以得到比较准确的反向伪语料。
需要说明的是,图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
实施例3
根据本申请实施例,还提供了一种用于实施上述实施例1中的翻译方法的翻译装置,图4是根据本申请实施例的一种翻译装置的结构图,如图4所示,该装置包括:
第一获取模块40,用于获取目标领域的原文语料。
提取模块42,用于从原文语料中提取与目标领域对应的关键词。
可选地,提取模块42还包括:获取单元,用于获取与目标领域对应的第一文本库中所有文本的关键词;统计单元,用于对于所有文本的关键词中的任意一个关键词,统计任意一个关键词在第一文本库中的第一出现次数;选择单元,用于基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词。
根据本申请的一个可选的实施例,上述选择单元还用于确定任意一个关键词在第二文本库中的第二出现次数;确定第一出现次数和第二出现次数的比值;比较比值和第二阈值的大小;在比值大于第二阈值时,确定任意一个关键词为与目标领域对应的关键词。
可选地,上述选择单元还用于比较第一出现次数和第三阈值的大小;在比较结果指示第一出现次数大于第三阈值时,确定任意一个关键词为与目标领域对应的关键词。
第二获取模块44,用于获取包含关键词的译文的文本,其中,文本采用的语种与关键词的译文所采用的语种是相同的。
确定模块46,用于至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料。
在本申请的一些实施例中,确定模块46还包括:提取单元,用于从文本中提取包含关键词的译文的语句;翻译单元,用于采用目标翻译工具对语句进行翻译,得到目标译文;第一确定单元,用于将语句作为目标原文语料,将目标译文作为目标译文语料,并基于目标原文语料和目标译文语料确定反向伪语料。
可选地,上述第一确定单元包括:过滤子单元,用于对目标译文进行过滤,得到过滤后的目标译文;确定子单元,用于基于过滤后的目标译文和与过滤后的目标译文对应的目标原文语料确定反向伪语料。
根据本申请的一个可选的实施例,上述过滤子单元还用于确定目标译文与目标领域的原文语料中语句的相似度;比较相似度和第一阈值的大小;在相似度大于第一阈值时,保留目标译文,并将目标译文作为反向伪语料的目标译文语料;在相似度小于第一阈值时,丢弃目标译文,并确定目标译文不是反向伪语料的目标译文语料。
翻译模块48,用于基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
此处需要说明的是,上述第一获取模块40、提取模块42、第二获取模块44、确定模块46和翻译模块48对应于实施例1中的步骤S202至步骤S210,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。
实施例4
本申请的实施例可以提供一种计算机设备,该计算机设备可以是计算机设备群中的任意一个计算机设备。可选地,在本实施例中,上述计算机设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机设备可以执行应用程序的翻译方法中以下步骤的程序代码:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
可选地,图5是根据本申请实施例的一种计算机设备的结构框图。如图5所示,该计算机设备A可以包括:一个或多个(图中仅示出一个)处理器500、存储器502、以及外设接口。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的翻译方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的翻译方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本,其中,文本采用的语种与关键词的译文所采用的语种是相同的;至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
可选的,上述处理器还可以执行如下步骤的程序代码:从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并基于目标原文语料和目标译文语料确定反向伪语料。
可选的,上述处理器还可以执行如下步骤的程序代码:对目标译文进行过滤,得到过滤后的目标译文;基于过滤后的目标译文和与过滤后的目标译文对应的目标原文语料确定反向伪语料。
可选的,上述处理器还可以执行如下步骤的程序代码:确定目标译文与目标领域的原文语料中语句的相似度;比较相似度和第一阈值的大小;在相似度大于第一阈值时,保留目标译文,并将目标译文作为反向伪语料的目标译文语料;在相似度小于第一阈值时,丢弃目标译文,并确定目标译文不是反向伪语料的目标译文语料。
可选的,上述处理器还可以执行如下步骤的程序代码:获取与目标领域对应的第一文本库中所有文本的关键词;对于所有文本的关键词中的任意一个关键词,统计任意一个关键词在文本库中的第一出现次数;基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词。
可选的,上述处理器还可以执行如下步骤的程序代码:确定任意一个关键词在第二文本库中的第二出现次数;确定第一出现次数和第二出现次数的比值;比较比值和第二阈值的大小;在比值大于第二阈值时,确定任意一个关键词为与目标领域对应的关键词。
可选的,上述处理器还可以执行如下步骤的程序代码:比较第一出现次数和第三阈值的大小;在比较结果指示第一出现次数大于第三阈值时,确定任意一个关键词为与目标领域对应的关键词。
在本申请中,处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并至少基于目标原文语料和目标译文语料确定反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
采用本申请实施例,提供了一种翻译方法。采用基于原文语料的关键词确定包含该关键词的文本,至少基于该文本确定反向伪语料的目标原文语料和目标译文语料,从而得到反向伪语料,并基于该反向伪语料训练得到翻译模型对待翻译对象进行翻译的方式,由于可以基于上述方案确定反向伪语料,从而实现了反向伪语料的自动获取,并且,由于原文语料和关键词均是与目标领域对应的,因此,可以得到比较准确的反向伪语料,进而解决了相关技术中难以获取与领域相关的反向伪语料的技术问题。
本领域普通技术人员可以理解,图5所示的结构仅为示意,计算机设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,计算机设备50还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例1所提供的翻译方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;至少基于文本确定目标原文语料和目标译文语料,得到反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并基于目标原文语料和目标译文语料确定反向伪语料。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:对目标译文进行过滤,得到过滤后的目标译文;基于过滤后的目标译文和与过滤后的目标译文对应的目标原文语料确定反向伪语料。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:确定目标译文与目标领域的原文语料中语句的相似度;比较相似度和第一阈值的大小;在相似度大于第一阈值时,保留目标译文,并将目标译文作为反向伪语料的目标译文语料;在相似度小于第一阈值时,丢弃目标译文,并确定目标译文不是反向伪语料的目标译文语料。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:获取与目标领域对应的第一文本库中所有文本的关键词;对于所有文本的关键词中的任意一个关键词,统计任意一个关键词在文本库中的第一出现次数;基于第一出现次数从所有文本的关键词中选择与目标领域对应的关键词。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:确定任意一个关键词在第二文本库中的第二出现次数;确定第一出现次数和第二出现次数的比值;比较比值和第二阈值的大小;在比值大于第二阈值时,确定任意一个关键词为与目标领域对应的关键词。
可选地,存储介质被设置为存储用于执行以下步骤的程序代码:比较第一出现次数和第三阈值的大小;在比较结果指示第一出现次数大于第三阈值时,确定任意一个关键词为与目标领域对应的关键词。
根据本申请的一个可选的实施例,存储介质还可以被设置为存储用于执行以下步骤的程序代码:获取目标领域的原文语料;从原文语料中提取与目标领域对应的关键词;获取包含关键词的译文的文本;从文本中提取包含关键词的译文的语句;采用目标翻译工具对语句进行翻译,得到目标译文;将语句作为目标原文语料,将目标译文作为目标译文语料,并至少基于目标原文语料和目标译文语料确定反向伪语料;基于反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种翻译方法,其特征在于,包括:
获取目标领域的原文语料;
从所述原文语料中提取与所述目标领域对应的关键词;
获取包含所述关键词的译文的文本;
至少基于所述文本确定目标原文语料和目标译文语料,得到反向伪语料;
基于所述反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
2.根据权利要求1所述的方法,其特征在于,至少基于所述文本确定目标原文语料和目标译文语料,得到反向伪语料,包括:
从所述文本中提取包含所述关键词的译文的语句;
采用目标翻译工具对所述语句进行翻译,得到目标译文;
将所述语句作为所述目标原文语料,将所述目标译文作为所述目标译文语料,并基于所述目标原文语料和所述目标译文语料确定所述反向伪语料。
3.根据权利要求2所述的方法,其特征在于,至少基于所述目标原文语料和所述目标译文语料确定所述反向伪语料,包括:
对所述目标译文进行过滤,得到过滤后的目标译文;
基于所述过滤后的目标译文和与所述过滤后的目标译文对应的目标原文语料确定所述反向伪语料。
4.根据权利要求3所述的方法,其特征在于,对所述目标译文进行过滤包括:
确定所述目标译文与所述目标领域的原文语料中语句的相似度;
比较所述相似度和第一阈值的大小;
在所述相似度大于所述第一阈值时,保留所述目标译文,并将所述目标译文作为所述反向伪语料的目标译文语料;在所述相似度小于所述第一阈值时,丢弃所述目标译文,并确定所述目标译文不是所述反向伪语料的目标译文语料。
5.根据权利要求1所述的方法,其特征在于,从所述原文语料中提取与所述目标领域对应的关键词,包括:
获取与所述目标领域对应的第一文本库中所有文本的关键词;
对于所有文本的关键词中的任意一个关键词,统计所述任意一个关键词在所述第一文本库中的第一出现次数;
基于所述第一出现次数从所述所有文本的关键词中选择与所述目标领域对应的关键词。
6.根据权利要求5所述的方法,其特征在于,基于所述第一出现次数从所述所有文本的关键词中选择与所述目标领域对应的关键词,包括:
确定所述任意一个关键词在第二文本库中的第二出现次数,其中,所述第二文本库为包含所述任意一个关键词的通用文本库;
确定所述第一出现次数和第二出现次数的比值;
比较所述比值和第二阈值的大小;
在所述比值大于所述第二阈值时,确定所述任意一个关键词为与所述目标领域对应的关键词。
7.根据权利要求6所述的方法,其特征在于,所述第二阈值为大于1的取值。
8.根据权利要求5所述的方法,其特征在于,基于所述第一出现次数从所述所有文本的关键词中选择与所述目标领域对应的关键词,包括:
比较所述第一出现次数和第三阈值的大小;
在比较结果指示所述第一出现次数大于所述第三阈值时,确定所述任意一个关键词为与所述目标领域对应的关键词。
9.根据权利要求1所述的方法,其特征在于,所述文本采用的语种与所述关键词的译文所采用的语种是相同的。
10.一种翻译方法,其特征在于,包括:
获取目标领域的原文语料;
从所述原文语料中提取与所述目标领域对应的关键词;
获取包含所述关键词的译文的文本;
从所述文本中提取包含所述关键词的译文的语句;
采用目标翻译工具对所述语句进行翻译,得到目标译文;
将所述语句作为目标原文语料,将所述目标译文作为目标译文语料,并至少基于所述目标原文语料和所述目标译文语料确定反向伪语料;
基于所述反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
11.一种翻译装置,其特征在于,包括:
第一获取模块,用于获取目标领域的原文语料;
提取模块,用于从所述原文语料中提取与所述目标领域对应的关键词;
第二获取模块,用于获取包含所述关键词的译文的文本;
确定模块,用于至少基于所述文本确定目标原文语料和目标译文语料,得到反向伪语料;
翻译模块,用于基于所述反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至10中任意一项所述的翻译方法。
13.一种计算机设备,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:获取目标领域的原文语料;从所述原文语料中提取与所述目标领域对应的关键词;获取包含所述关键词的译文的文本;至少基于所述文本确定目标原文语料和目标译文语料,得到反向伪语料;基于所述反向伪语料对翻译模型进行训练,并基于训练后的翻译模型对待翻译对象进行翻译。
CN201910370896.5A 2019-05-06 2019-05-06 翻译方法及装置、存储介质、计算机设备 Active CN111898387B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910370896.5A CN111898387B (zh) 2019-05-06 2019-05-06 翻译方法及装置、存储介质、计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910370896.5A CN111898387B (zh) 2019-05-06 2019-05-06 翻译方法及装置、存储介质、计算机设备

Publications (2)

Publication Number Publication Date
CN111898387A true CN111898387A (zh) 2020-11-06
CN111898387B CN111898387B (zh) 2024-05-31

Family

ID=73169380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910370896.5A Active CN111898387B (zh) 2019-05-06 2019-05-06 翻译方法及装置、存储介质、计算机设备

Country Status (1)

Country Link
CN (1) CN111898387B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015096529A1 (zh) * 2013-12-24 2015-07-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
CN108804428A (zh) * 2018-06-12 2018-11-13 苏州大学 一种译文中术语错译的纠正方法、系统及相关装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015096529A1 (zh) * 2013-12-24 2015-07-02 哈尔滨工业大学 面向通用机译引擎的个性化翻译方法及装置
CN108804428A (zh) * 2018-06-12 2018-11-13 苏州大学 一种译文中术语错译的纠正方法、系统及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAN-JUAN LIU: "Bilingual Corpus Research on Chinese English Machine Translation in Computer Centres of Chinese Universities", IEEE, 31 December 2012 (2012-12-31) *
姚亮;洪宇;刘昊;刘乐;姚建民;: "基于语义分布相似度的翻译模型领域自适应研究", 山东大学学报(理学版), no. 07, 31 May 2016 (2016-05-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784611A (zh) * 2021-01-21 2021-05-11 阿里巴巴集团控股有限公司 数据处理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN111898387B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN108287858B (zh) 自然语言的语义提取方法及装置
CN111259652B (zh) 双语语料句对齐方法、装置、可读存储介质和计算机设备
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN103019407B (zh) 输入法应用方法、自动问答处理方法及电子设备、服务器
CN111310440A (zh) 文本的纠错方法、装置和系统
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN111339787B (zh) 一种语种识别方法、装置、电子设备及存储介质
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN108804487A (zh) 一种提取目标字符的方法及装置
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN111274813B (zh) 语言序列标注方法、装置存储介质及计算机设备
CN111898387B (zh) 翻译方法及装置、存储介质、计算机设备
CN111353025A (zh) 平行语料处理方法、装置、存储介质及计算机设备
CN112749258A (zh) 数据搜索的方法和装置、电子设备和存储介质
CN111291561B (zh) 文本识别方法、装置和系统
CN110929519B (zh) 实体属性抽取方法及装置
CN110929508B (zh) 词向量的生成方法、装置和系统
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
CN111401083B (zh) 名称的识别方法及装置、存储介质和处理器
CN113342932A (zh) 目标词向量的确定方法、装置、存储介质和电子装置
CN113779297A (zh) 基于图片的信息搜索方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant