CN112380879A - 一种智能翻译方法、装置、计算机设备和存储介质 - Google Patents

一种智能翻译方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112380879A
CN112380879A CN202011282180.9A CN202011282180A CN112380879A CN 112380879 A CN112380879 A CN 112380879A CN 202011282180 A CN202011282180 A CN 202011282180A CN 112380879 A CN112380879 A CN 112380879A
Authority
CN
China
Prior art keywords
translation
preset
corrected
translated
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011282180.9A
Other languages
English (en)
Inventor
方思行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011282180.9A priority Critical patent/CN112380879A/zh
Publication of CN112380879A publication Critical patent/CN112380879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种智能翻译方法、装置和计算机设备。所述方法包括:获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。因此,采用本申请实施例,由于预设的翻译模型是通过不断迭代训练得到的,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,因此,有效地提高了智能翻译得到的译文的精准度。

Description

一种智能翻译方法、装置、计算机设备和存储介质
技术领域
本发明涉及机器翻译技术领域,特别涉及一种智能翻译方法、装置、计算机设备和存储介质。
背景技术
在贷款项目孵化的过程中,随着业务规模的步步扩张,贷款系统对接的合作方将不仅限于国内机构。在海外项目的实施过程中,不可避免的会出现使用者来自不同国家、讲不同语言的场景。传统的解决方案是在系统中初始化不同语言的文本,根据需要,用户自行在页面上选择语言,后台再根据用户的选择展示相应语言的文本。对于传统、不可变的大型项目来说,这种方式翻译的文本准确、可靠;但对于需要快速实施,且业务变更频繁的系统来说,这种方式需要投入的人力、时间成本过大,当中英文切换已经不能满足需求,需要加入其它语言例如法语、德语支持时,这种缺陷就更加明显。
因此,如何解决现有的智能翻译方法翻译得到的译文的精准度不够,是待解决的技术问题。
发明内容
基于此,有必要针对现有的智能翻译方法翻译得到的译文的精准度不够的问题,提供一种智能翻译方法、装置、计算机设备和存储介质。
第一方面,本申请实施例提供了一种智能翻译方法,所述方法包括:
获取样本数据和待翻译的文本,所述样本数据为至少包括用户指定的多个语种的多个样本子数据;
将所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;
根据所述预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
根据人工译文库的人工译文,对所述第一译文进行校正,得到校正后的第二译文。
在一种实施方式中,所述将所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型包括:
将多个语种的多个样本子数据中的原文和对应的译文均作为训练样本,输入所述预设的翻译模型中进行训练,输出预测结果,所述预测结果包括每一个语种下的原文数据、译文数据以及对应的标准参考译文数据;
根据每一个语种下的原文数据、译文数据以及对应的标准参考译文数据,计算所述预设的翻译模型的损失函数;
对多个语种的多个样本子数据进行迭代训练,得到所述预设的翻译模型,并输出包括所述预设的翻译模型的权重数据。
在一种实施方式中,所述方法还包括:
响应于用户的控制指令,将所述待翻译的文本翻译成与所述控制指令匹配的语种的译文,所述控制指令中携带有所述待翻译的文本的语种信息。
在一种实施方式中,所述方法还包括:
根据每一次的迭代训练结果,配置将所述样本数据输入至原始翻译模型中进行迭代训练的频次,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止。
在一种实施方式中,所述根据人工译文库的人工译文,对所述第一译文进行校正包括:
选取某一子文本作为待校正的子文本;
将所述待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
根据所述待校正单词,从所述人工译文库中搜索与其匹配的译文,并统计各个译文的使用频度,将使用频度最高的译文作为所述待校正单词的标准译文;
将所述待校正单词的当前译文与所述待校正单词的所述标准译文进行比对,得到比对结果;
根据所述比对结果判断是否要对所述待校正单词进行校正,在所述当前译文和所述标准译文不一致时,将所述当前译文替换为所述标准译文,否则,则忽略处理。
在一种实施方式中,所述根据人工译文库的人工译文,对所述第一译文进行校正还包括:
选取某一子文本作为待校正的子文本;
将所述待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
获取所述待校正单词的上下文信息;
判断所待校正单词的当前译文是否与所述上下文信息匹配,若所待校正单词的当前译文是否与所述上下文信息匹配,则忽略处理,否则,将当前译文替换成与所述上下文信息匹配的译文。
在一种实施方式中,在所述根据预设的翻译模型,对待翻译的文本进行翻译之前,所述方法还包括:
对所述预设的翻译模型进行优化,得到优化后的翻译模型。
第二方面,本申请实施例提供了一种智能翻译装置,所述装置包括:
获取单元,用于获取样本数据和待翻译的文本,所述样本数据为至少包括用户指定的多个语种的多个样本子数据;
训练单元,用于将所述获取单元获取的所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;
翻译单元,用于根据所述训练单元训练得到的所述预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
校正单元,用于根据人工译文库的人工译文,对所述翻译单元翻译得到的所述第一译文进行校正,得到校正后的第二译文。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述的方法步骤。
第四方面,本申请实施例提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。因此,采用本申请实施例,由于预设的翻译模型是通过不断迭代训练得到的,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,因此,有效地提高了智能翻译得到的译文的精准度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为一个实施例中提供的智能翻译方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3是本公开实施例提供的一种智能翻译方法的流程示意图;
图4是本公开实施例提供的一种智能翻译装置的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合附图详细说明本公开的可选实施例。
图1为一个实施例中提供的智能翻译方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。
计算机设备110为智能翻译设备,计算机设备110上安装有智能翻译工具。
需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种智能翻译方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种智能翻译方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,本公开实施例提供一种智能翻译方法,应用于服务器端,具体包括以下方法步骤:
S302:获取样本数据和待翻译的文本;
在本申请实施例中,样本数据为至少包括用户指定的多个语种的多个样本子数据。
在本申请实施例中,获取到的待翻译的文本可以为各种文本,例如,是中文,“小心地滑”,将其翻译成英文。
在实际应用中,为了适用更多的用户,可以将待翻译的文本设置成各种语种,这里,对待翻译的文本的语种并不做具体限制。同理,对待翻译的文本翻译成的译文,同样,也不做具体限制。
S304:将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;由于预设的翻译模型是通过不断迭代训练得到的,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,因此,有效地提高了智能翻译得到的译文的精准度。
此外,在本申请实施例中,预设的翻译模型是基于大数据统计的人工译文库中的人工译文作为训练样本进行训练所得到的模型。因此,根据预设的翻译模型得到的译文,可以借鉴大数据统计的人工译文库的翻译结果,能够进一步地提高译文的精准度。
在本申请实施例中,将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型包括以下步骤:
将多个语种的多个样本子数据中的原文和对应的译文均作为训练样本,输入预设的翻译模型中进行训练,输出预测结果,预测结果包括每一个语种下的原文数据、译文数据以及对应的标准参考译文数据;
根据每一个语种下的原文数据、译文数据以及对应的标准参考译文数据,计算预设的翻译模型的损失函数;
对多个语种的多个样本子数据进行迭代训练,得到预设的翻译模型,并输出包括预设的翻译模型的权重数据。
在一种可能的实现方式中,本公开实施例提供的一种智能翻译方法还包括以下步骤:
响应于用户的控制指令,将待翻译的文本翻译成与控制指令匹配的语种的译文,控制指令中携带有待翻译的文本的语种信息;这样,能够有效地提供便捷性,根据控制指令,将待翻译的文本自动翻译成用户想要翻译的任意一种语种,例如,英语、德语等。
在本申请实施例中,控制指令包括以下至少一项:语音控制指令、触控控制指令;这样,通过提供两种控制指令,实现了对翻译的智能控制,例如,语音。
在某些应用场景中,如果用户不方便使用触控操作,可以通过语音进行声控,这样,提高了用户的体验度。
在一种可能的实现方式中,本公开实施例提供的一种智能翻译方法还包括以下步骤:根据每一次的迭代训练结果,配置将样本数据输入至原始翻译模型中进行迭代训练的频次,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止。
在本申请实施例中,可以对进行迭代训练的频次进行配置,例如,每小时进行迭代训练的次数为3次,上述仅仅是示例,可以根据不同应用场景的需求,对上述进行迭代训练的频次进行配置,在此不再赘述。
S306:根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
在某一具体应用场景中,例如,将上述S302中的“小心地滑”翻译成英文。在此步骤中,预设的翻译模型,对人工译文库中的各种人工译文进行搜索,一共检索出30个与此相关的英文译文,其中,29个使用了“Caution Slippery”,1个使用了“Carefully slide”,因此,通过本公开实施例提供的预设的翻译模型,选取上述29个所采用的译文,因此,得到与“小心地滑”匹配的译文为“Caution Slippery”。这里以从翻译文本中提取出的某一个词组为例,展示对其翻译的翻译过程。而对文本的翻译过程跟上述翻译过程类似,区别在于,将待翻译的文本拆分为一个个具有完整含义的子文本,子文本可以是一个句子,再对每一个句子进行拆分,拆分成若干具有独立含义的词组或者单词,进一步地,对具有独立含义的词组或者单词采取上述类似翻译方法进行翻译,得到对应词组的译文或者单词的译文。在得到多个词组的译文或者单词的译文之后,再结合上下文语境,最终得到第一译文。
在一种可能的实现方式中,在根据预设的翻译模型,对待翻译的文本进行翻译之前,所述方法还包括以下步骤:
对预设的翻译模型进行优化,得到优化后的翻译模型。
在本申请实施例中,通过更新人工译文库的译文内容和丰富译文语种,丰富了翻译模型的训练样本数据。基于训练样本数据的不断丰富,这样,基于训练样本数据进行训练得到的翻译模型的精准度也得以提高,这样,得到优化后的翻译模型。
S308:根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。
在本申请实施例中,根据人工译文库的人工译文,对第一译文进行校正包括以下步骤:
选取某一子文本作为待校正的子文本;
将待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
根据待校正单词,从人工译文库中搜索与其匹配的译文,并统计各个译文的使用频度,将使用频度最高的译文作为待校正单词的标准译文;
将待校正单词的当前译文与待校正单词的标准译文进行比对,得到比对结果;
根据比对结果判断是否要对待校正单词进行校正,在当前译文和标准译文不一致时,将当前译文替换为标准译文,否则,则忽略处理;上述提供了一种对第一译文进行校正的方法步骤,这样,通过对第一译文进行校正,进一步提高了译文的精准度。
在本申请实施例中,根据人工译文库的人工译文,对第一译文进行校正还包括以下步骤:
选取某一子文本作为待校正的子文本;
将待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
获取待校正单词的上下文信息;
判断所待校正单词的当前译文是否与上下文信息匹配,若所待校正单词的当前译文是否与上下文信息匹配,则忽略处理,否则,将当前译文替换成与上下文信息匹配的译文;上述提供了另外一种对第一译文进行校正的方法步骤,这样,通过对第一译文进行校正,进一步提高了译文的精准度。
在某一应用场景中,当用户根据历史经验对译文的某些单词或者某些词组的翻译有疑问的时候,这时,即使采取上述借鉴人工译文库中的其它译文时,可能其它译文并不适用当前上下文语境。这时,可以结合上下文语境的上下文信息,对某些单词或者某些词组的翻译进行意译,可不仅仅是字对字的机械翻译。上述意译也是自动完成的,是基于不断优化的预设的翻译模型完成的。
在本公开实施例中,获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。因此,采用本申请实施例,由于预设的翻译模型是通过不断迭代训练得到的,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,因此,有效地提高了智能翻译得到的译文的精准度。
下述为本发明智能翻译装置实施例,可以用于执行本发明智能翻译方法实施例。对于本发明智能翻译装置实施例中未披露的细节,请参照本发明智能翻译方法实施例。
请参见图4,其示出了本发明一个示例性实施例提供的智能翻译装置的结构示意图。该智能翻译装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该智能翻译装置包括获取单元402、训练单元404、翻译单元406和校正单元408。
具体而言,获取单元402,用于获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;
训练单元404,用于将获取单元402获取的样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;
翻译单元406,用于根据训练单元404训练得到的预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
校正单元408,用于根据人工译文库的人工译文,对翻译单元406翻译得到的第一译文进行校正,得到校正后的第二译文。
可选的,训练单元404具体用于:
将多个语种的多个样本子数据中的原文和对应的译文均作为训练样本,输入预设的翻译模型中进行训练,输出预测结果,预测结果包括每一个语种下的原文数据、译文数据以及对应的标准参考译文数据;
根据每一个语种下的原文数据、译文数据以及对应的标准参考译文数据,计算预设的翻译模型的损失函数;
对多个语种的多个样本子数据进行迭代训练,得到预设的翻译模型,并输出包括预设的翻译模型的权重数据。
可选的,翻译单元406还用于:
响应于用户的控制指令,将待翻译的文本翻译成与控制指令匹配的语种的译文,控制指令中携带有待翻译的文本的语种信息。
可选的,所述装置还包括:
配置单元(在图4中未示出),用于根据每一次的迭代训练结果,配置将样本数据输入至原始翻译模型中进行迭代训练的频次,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止。
可选的,校正单元408具体用于:
选取某一子文本作为待校正的子文本;
将待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
根据待校正单词,从人工译文库中搜索与其匹配的译文,并统计各个译文的使用频度,将使用频度最高的译文作为待校正单词的标准译文;
将待校正单词的当前译文与待校正单词的标准译文进行比对,得到比对结果;
根据比对结果判断是否要对待校正单词进行校正,在当前译文和标准译文不一致时,将当前译文替换为标准译文,否则,则忽略处理。
可选的,校正单元408具体还用于:
选取某一子文本作为待校正的子文本;
将待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
获取待校正单词的上下文信息;
判断所待校正单词的当前译文是否与上下文信息匹配,若所待校正单词的当前译文是否与上下文信息匹配,则忽略处理,否则,将当前译文替换成与上下文信息匹配的译文。
可选的,所述装置还包括:
优化单元(在图4中未示出),用于在翻译单元406根据预设的翻译模型,对待翻译的文本进行翻译之前,对预设的翻译模型进行优化,得到优化后的翻译模型。
需要说明的是,上述实施例提供的智能翻译装置在执行智能翻译方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的智能翻译装置与智能翻译方法实施例属于同一构思,其体现实现过程详见智能翻译方法实施例,这里不再赘述。
在本公开实施例中,获取单元用于获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;训练单元用于将获取单元获取的样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;翻译单元根据训练单元训练得到的预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;以及校正单元根据人工译文库的人工译文,对翻译单元翻译得到的第一译文进行校正,得到校正后的第二译文。因此,采用本申请实施例,由于预设的翻译模型是通过不断迭代训练得到的,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,因此,有效地提高了智能翻译得到的译文的精准度。
在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:获取样本数据和待翻译的文本,样本数据为至少包括用户指定的多个语种的多个样本子数据;将样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;根据预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;根据人工译文库的人工译文,对第一译文进行校正,得到校正后的第二译文。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种智能翻译方法,其特征在于,所述方法包括:
获取样本数据和待翻译的文本,所述样本数据为至少包括用户指定的多个语种的多个样本子数据;
将所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;
根据所述预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
根据人工译文库的人工译文,对所述第一译文进行校正,得到校正后的第二译文。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型包括:
将多个语种的多个样本子数据中的原文和对应的译文均作为训练样本,输入所述预设的翻译模型中进行训练,输出预测结果,所述预测结果包括每一个语种下的原文数据、译文数据以及对应的标准参考译文数据;
根据每一个语种下的原文数据、译文数据以及对应的标准参考译文数据,计算所述预设的翻译模型的损失函数;
对多个语种的多个样本子数据进行迭代训练,得到所述预设的翻译模型,并输出包括所述预设的翻译模型的权重数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于用户的控制指令,将所述待翻译的文本翻译成与所述控制指令匹配的语种的译文,所述控制指令中携带有所述待翻译的文本的语种信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据每一次的迭代训练结果,配置将所述样本数据输入至原始翻译模型中进行迭代训练的频次,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止。
5.根据权利要求1所述的方法,其特征在于,所述根据人工译文库的人工译文,对所述第一译文进行校正包括:
选取某一子文本作为待校正的子文本;
将所述待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
根据所述待校正单词,从所述人工译文库中搜索与其匹配的译文,并统计各个译文的使用频度,将使用频度最高的译文作为所述待校正单词的标准译文;
将所述待校正单词的当前译文与所述待校正单词的所述标准译文进行比对,得到比对结果;
根据所述比对结果判断是否要对所述待校正单词进行校正,在所述当前译文和所述标准译文不一致时,将所述当前译文替换为所述标准译文,否则,则忽略处理。
6.根据权利要求1所述的方法,其特征在于,所述根据人工译文库的人工译文,对所述第一译文进行校正还包括:
选取某一子文本作为待校正的子文本;
将所述待校正的子文本切分成多个单词;
从多个单词中选取任意一个单词作为待校正单词;
获取所述待校正单词的上下文信息;
判断所待校正单词的当前译文是否与所述上下文信息匹配,若所待校正单词的当前译文是否与所述上下文信息匹配,则忽略处理,否则,将当前译文替换成与所述上下文信息匹配的译文。
7.根据权利要求1所述的方法,其特征在于,在所述根据预设的翻译模型,对待翻译的文本进行翻译之前,所述方法还包括:
对所述预设的翻译模型进行优化,得到优化后的翻译模型。
8.一种智能翻译装置,其特征在于,所述装置包括:
获取单元,用于获取样本数据和待翻译的文本,所述样本数据为至少包括用户指定的多个语种的多个样本子数据;
训练单元,用于将所述获取单元获取的所述样本数据输入至原始翻译模型中进行迭代训练,依次得到对应的迭代训练结果,直至训练结果与预设的标准译文的误差在预设误差阈值范围内为止,得到预设的翻译模型;
翻译单元,用于根据所述训练单元训练得到的所述预设的翻译模型,对待翻译的文本进行翻译,得到第一译文;
校正单元,用于根据人工译文库的人工译文,对所述翻译单元翻译得到的所述第一译文进行校正,得到校正后的第二译文。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述智能翻译方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述智能翻译方法的步骤。
CN202011282180.9A 2020-11-16 2020-11-16 一种智能翻译方法、装置、计算机设备和存储介质 Pending CN112380879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011282180.9A CN112380879A (zh) 2020-11-16 2020-11-16 一种智能翻译方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011282180.9A CN112380879A (zh) 2020-11-16 2020-11-16 一种智能翻译方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112380879A true CN112380879A (zh) 2021-02-19

Family

ID=74585585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011282180.9A Pending CN112380879A (zh) 2020-11-16 2020-11-16 一种智能翻译方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112380879A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN110532573A (zh) * 2018-12-29 2019-12-03 苏州七星天专利运营管理有限责任公司 一种翻译方法和系统
CN110765791A (zh) * 2019-11-01 2020-02-07 清华大学 机器翻译自动后编辑方法及装置
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN111368531A (zh) * 2020-03-09 2020-07-03 腾讯科技(深圳)有限公司 翻译文本处理方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162799A (zh) * 2018-11-28 2019-08-23 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN110532573A (zh) * 2018-12-29 2019-12-03 苏州七星天专利运营管理有限责任公司 一种翻译方法和系统
CN110765785A (zh) * 2019-09-19 2020-02-07 平安科技(深圳)有限公司 基于神经网络的中英翻译方法、及其相关设备
CN110765791A (zh) * 2019-11-01 2020-02-07 清华大学 机器翻译自动后编辑方法及装置
CN111368531A (zh) * 2020-03-09 2020-07-03 腾讯科技(深圳)有限公司 翻译文本处理方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘春华: "实用文体英汉互译教程", 31 March 2019, 武汉大学出版社, pages: 68 - 71 *

Similar Documents

Publication Publication Date Title
US11113234B2 (en) Semantic extraction method and apparatus for natural language, and computer storage medium
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
WO2020220539A1 (zh) 数据增量方法、装置、计算机设备及存储介质
US11409813B2 (en) Method and apparatus for mining general tag, server, and medium
US8990066B2 (en) Resolving out-of-vocabulary words during machine translation
CN111523306A (zh) 文本的纠错方法、装置和系统
CN111310440B (zh) 文本的纠错方法、装置和系统
US20140012567A1 (en) Text Auto-Correction via N-Grams
US20210141998A1 (en) Text sequence segmentation method, apparatus and device, and storage medium thereof
CN111143556B (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN112528681A (zh) 跨语言检索及模型训练方法、装置、设备和存储介质
CN116737908A (zh) 知识问答方法、装置、设备和存储介质
JP2023007369A (ja) 翻訳方法、分類モデルの訓練方法、装置、デバイス及び記憶媒体
CN110728156B (zh) 翻译方法、装置、电子设备及可读存储介质
US10073884B2 (en) Method and system for enhanced search term suggestion
RU2546064C1 (ru) Распределенная система и способ языкового перевода
US20200089774A1 (en) Machine Translation Method and Apparatus, and Storage Medium
CN102184195A (zh) 用于获取字符串间相似度的方法、装置和设备
CN112380879A (zh) 一种智能翻译方法、装置、计算机设备和存储介质
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN109727591B (zh) 一种语音搜索的方法及装置
CN112632212A (zh) 一种待翻译词条的更新方法、装置、设备和介质
JP2014013514A (ja) 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム
CN113688615A (zh) 一种字段注释生成、字符串理解方法、设备及存储介质
CN109829171B (zh) 一种专利文献翻译方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination