CN116956954A

CN116956954A - 文本翻译方法、装置、电子设备及存储介质

Info

Publication number: CN116956954A
Application number: CN202310733284.4A
Authority: CN
Inventors: 刘秋志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-10-27

Abstract

本公开关于文本翻译方法、装置、电子设备及存储介质，涉及人工智能技术领域，包括：获取待翻译文本信息；对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集；目标匹配短语集中存在未学习短语与待翻译文本信息相匹配；任一待选翻译记忆对对应的未学习短语集为任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合；基于至少一个目标匹配短语集对应的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，得到目标语言文本信息。利用本公开实施例可以提高翻译准确性的同时，减少运算成本的浪费。

Description

文本翻译方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种文本翻译方法、装置、电子设备及存储介质。

背景技术

翻译记忆检索可以是翻译源文过程中从翻译记忆库中查找用于参考的译文。目前，主要有两种翻译记忆检索方法，一种是基于关键词的翻译记忆检索，另一种是基于向量表示的翻译记忆检索。具体的，基于关键词的翻译记忆检索方法，是指从翻译源文中，根据词频、IDF(InverseDocumentFrequency，逆文本频率)值等信息抽取关键词，再从翻译记忆库中查找包含这些关键词的翻译记忆的方法；基于向量表示的翻译记忆检索，是指将翻译源文编码到向量空间，在翻译记忆库中使用向量检索技术查找翻译记忆源文向量表示最接近的翻译记忆的方法。但是，上述两种方法主要关注如何查找和翻译源文相似的翻译记忆，对翻译记忆检索结果的参考价值缺少关注，从而导致翻译效率低和翻译准确度低。

发明内容

有鉴于上述存在的技术问题，本公开提出了一种文本翻译方法、装置、电子设备及存储介质。

根据本公开实施例的一方面，提供一种文本翻译方法，包括：

获取待翻译文本信息；

对所述待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集；任一目标匹配短语集中存在未学习短语与所述待翻译文本信息相匹配；任一待选翻译记忆对对应的未学习短语集为所述任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合；

基于所述预设翻译记忆数据中所述至少一个目标匹配短语集对应的目标翻译记忆对和所述预设机器翻译模型，对所述待翻译文本信息进行翻译处理，得到目标语言文本信息。

根据本公开实施例的另一方面，提供一种文本翻译装置，包括：

信息获取模块，用于获取待翻译文本信息；

匹配处理模块，用于对所述待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集；任一目标匹配短语集中存在未学习短语与所述待翻译文本信息相匹配；任一待选翻译记忆对对应的未学习短语集为所述任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合；

翻译处理模块，用于基于所述预设翻译记忆数据中所述至少一个目标匹配短语集对应的目标翻译记忆对和所述预设机器翻译模型，对所述待翻译文本信息进行翻译处理，得到目标语言文本信息。

根据本公开实施例的另一方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述文本翻译方法。

根据本公开实施例的另一方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述文本翻译方法。

根据本公开实施例的另一方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述文本翻译方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取待翻译文本信息，对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集，其中，任一目标匹配短语集中存在未学习短语与待翻译文本信息相匹配，任一待选翻译记忆对对应的未学习短语集为任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合，可以通过未学习短语集实现具有参考价值的翻译记忆对的准确匹配，同时避免匹配到没有参考价值的翻译记忆对导致降低机器翻译成本，再结合预设翻译记忆数据中至少一个目标匹配短语集对应的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，得到目标语言文本信息，通过结合上述具有参考价值的目标翻译记忆对进行翻译处理，可以提高翻译效果，提高翻译准确性，同时，通过避免使用没有参考价值的翻译记忆对，从而减少运算成本的浪费，减少系统资源消耗，提升设备性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用系统的示意图；

图2是根据一示例性实施例示出的一种文本翻译方法的流程图；

图3是根据一示例性实施例示出的一种文本翻译方法的流程示意图；

图4是根据一示例性实施例示出的一种目标待选记忆对的未学习短语集的生成过程示意图；

图5是根据一示例性实施例示出的一种文本翻译装置的框图；

图6是根据一示例性实施例示出的一种用于翻译待翻译文本信息的电子设备的框图；

图7是根据一示例性实施例示出的另一种用于翻译待翻译文本信息的电子设备的框图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

近年来，随着人工智能技术研究和进步，人工智能技术在多个领域得到广泛应用，本申请实施例提供的方案涉及自然语言处理等技术，具体通过如下实施例进行说明：

请参阅图1，图1是根据一示例性实施例示出的一种应用系统的示意图。所述应用系统可以用于本申请的文本翻译方法。如图1所示，该应用系统至少可以包括服务器01和终端02。

本申请实施例中，服务器01可以用于基于目标翻译记忆对翻译得到目标语言文本信息。具体地，上述服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例中，终端02可以用于获取待翻译文本信息。上述终端02可以包括智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、车载终端、数字助理、增强现实(augmentedreality，AR)/虚拟现实(virtualreality，VR)设备、智能可穿戴设备等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本申请实施例中上述终端02上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的一种应用环境，在实际应用中，还可以包括其他应用环境，例如，上述基于目标翻译记忆对翻译得到目标语言文本信息的过程，也可以在终端02上实现。

本说明书实施例中，上述终端02以及服务器01可以通过有线或无线通信方式进行直接或间接地连接，本申请对此不作限定。

需要说明的是，以下图中示出的是一种可能的步骤顺序，实际上并不限定必须严格按照此顺序。有些步骤可以在互不依赖的情况下并行执行。

具体地，图2是根据一示例性实施例示出的一种文本翻译方法的流程图。如图2所示，该文本翻译方法可以用于终端或服务器等电子设备中，具体可以包括以下步骤：

S201：获取待翻译文本信息。

在一个具体的实施例中，待翻译文本信息可以是指需要翻译为目标语言的自然语言文本信息。待翻译文本信息可以包括多个文本单元。其中，文本单元可以是指组成文本信息的单元。示例性的，待翻译文本信息可以为“该角色的普通攻击可以造成100点伤害”。

在一个具体的实施例中，可以通过上述终端02生成待翻译文本信息。其中，上述终端02可以是翻译需求方的用户终端。具体的，目标对象可以基于上述用户终端进行文本信息的输入操作，以使上述用户终端生成上述待翻译文本信息。

S203：对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集。

在一个具体的实施例中，预设翻译记忆数据可以是指存储有翻译记忆的数据。预设翻译记忆数据可以包括多个待选翻译记忆对和每个待选翻译记忆对对应的未学习短语集。其中，任一待选翻译记忆对可以是指互为翻译原文和翻译译文的自然语言文本信息对。任一待选翻译记忆对可以包括翻译记忆原文信息和该翻译记忆原文信息对应的翻译记忆译文信息。其中，翻译记忆原文信息可以是指翻译记忆中的翻译原文的文本信息。翻译记忆原文信息对应的翻译记忆译文信息可以是指翻译记忆中上述翻译原文的译文文本信息。示例性的，假设当前待翻译的原语言是中文，目标语言是英文，翻译记忆原文信息可以是“今天是晴天”，翻译记忆译文信息可以是“It'ssunnytoday”。

在一个具体的实施例中，任一待选翻译记忆对对应的未学习短语集可以是指任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合。任一待选翻译记忆对对应的未学习短语集可以包括多个未学习短语。其中，任一待选翻译记忆对对应的未学习短语集中的任一未学习短语可以是指对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语。具体的，任一未学习短语对应的记忆翻译结果可以是指上述任一未学习短语所属的翻译记忆原文信息对应的翻译记忆译文信息中属于上述任一未学习短语的翻译结果。任一待选翻译记忆对对应的预设机器翻译模型的翻译结果可以是指将任一待选翻译记忆对中翻译记忆原文信息输入至上述预设机器翻译模型得到的翻译结果。预设机器翻译模型可以是预训练的翻译模型。

在一个具体的实施例中，任一目标匹配短语集可以是指存在未学习短语与待翻译文本信息相匹配的未学习短语集。任一目标匹配短语集可以包括多个未学习短语。

在一个具体的实施例中，上述方法还可以包括：

获取目标待选记忆对；

基于预设机器翻译模型，对翻译记忆原文信息进行翻译处理，得到目标译文信息；

对翻译记忆原文信息和目标译文信息进行翻译短语分析，得到第一翻译短语对集合；

对翻译记忆原文信息和翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合；

对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，得到目标待选记忆对对应的未学习短语集。

在一个具体的实施例中，目标待选记忆对可以是多个待选翻译记忆对中的任意一个。目标待选记忆对可以包括翻译记忆原文信息和翻译记忆原文信息对应的翻译记忆译文信息。

在一个具体的实施例中，翻译需求方可以通过上述用户终端上传待选翻译记忆对；或者还可以是，翻译服务提供方通过终端生成待选翻译记忆对。具体的，可以是从预先生成的多个待选翻译记忆对中获取目标待选记忆对；或者还可以是，在翻译需求方通过上述用户终端上传待选翻译记忆对后，可以将所接收到的待选翻译记忆对，作为目标待选记忆对。

在一个具体的实施例中，目标译文信息可以是指通过预设机器翻译模型对翻译记忆原文信息翻译得到的译文信息。示例性的，在待翻译文本信息为“该角色的一技能可以恢复生命值100点”，通过预设机器翻译模型可以翻译得到目标译文信息“1stSkillofthischaractercanrestorehealthby100”，上述待翻译文本信息对应的翻译记忆译文信息可以为“Skill1ofthischaractercanrestore100HP”。

在一个具体的实施例中，通过将翻译记忆原文信息输入至预设机器翻译模型进行翻译处理，可以得到目标译文信息。

在一个具体的实施例中，第一翻译短语对集合可以是指翻译记忆原文信息和目标译文信息中存在的互译短语对的集合。第一翻译短语对集合可以包括至少一个第一翻译短语对。任一第一翻译短语对可以包括任一第一原文短语和任一第一原文短语对应的第一译文短语。任一第一原文短语可以包括至少一个原文分词。任一第一译文短语可以包括至少一个目标译文分词。其中，任一第一翻译短语对中的第一原文短语和第一译文短语之间可以为互译关系。

在一个具体的实施例中，上述对翻译记忆原文信息和目标译文信息进行翻译短语分析，得到第一翻译短语对集合，可以包括：

对翻译记忆原文信息和目标译文信息进行互译分析，得到第一互译分布信息；

基于第一互译分布信息，对翻译记忆原文信息和目标译文信息进行互译文本抽取处理，得到第一翻译短语对集合。

在一个具体的实施例中，第一互译分布信息可以表征翻译记忆原文信息中的每个原文分词与目标译文信息中的每个目标译文分词之间互译概率。第一互译分布信息可以包括多个第一互译概率。其中，第一互译分布信息中任一第一互译概率可以是指任一原文分词与任一目标译文分词之间互译的概率。具体的，第一互译分布信息的表现形式可以包括矩阵等。

在一个具体的实施例中，可以通过将翻译记忆原文信息和目标译文信息输入至互译分析模型进行互译分析，得到第一互译分布信息。其中，互译分析模型可以包括预设对齐模型等。具体地，可以将翻译记忆原文信息和目标译文信息输入至预设对齐模型进行对齐处理，得到第一互译分布信息。

在一个具体的实施例中，上述基于第一互译分布信息，对翻译记忆原文信息和目标译文信息进行互译文本抽取处理，得到第一翻译短语对集合，可以包括：

遍历翻译记忆原文信息中的多个原文分词；

基于第一互译分布信息，从目标译文信息中，确定当前遍历到的原文分词对应的第一互译分词；

基于当前遍历到的原文分词和当前遍历到的原文分词对应的第一互译分词，生成当前遍历到的原文分词对应的第一翻译短语对；

基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合。

在一个具体的实施例中，翻译记忆原文信息可以包括多个原文分词。其中，原文分词可以是指属于翻译记忆原文信息的分词；原文分词可以包括至少一个文本单元。示例性地，假设翻译记忆原文信息为“今天是晴天”，上述翻译记忆原文信息可以包括原文分词“今天”、原文分词“是”和原文分词“晴天”。

在一个具体的实施例中，任一原文分词对应的第一互译分词可以是指与上述任一原文分词互为互译关系的目标译文分词。其中，目标译文分词可以是指属于目标译文信息的分词。

在一个具体的实施例中，可以先从第一互译分布信息中，获取当前遍历到的原文分词对应的多个第一互译概率。在上述当前遍历到的原文分词对应的多个第一互译概率均大于第一预设概率的情况下，可以将上述当前遍历到的原文分词对应的多个第一互译概率中最大的第一互译概率对应的目标译文分词，作为上述当前遍历到的原文分词对应的第一互译分词。在上述当前遍历到的原文分词对应的多个第一互译概率中存在第一互译概率小于等于第一预设概率的情况下，可以确定当前遍历到的原文分词对应的第一互译分词为空。可以理解的是，在上述当前遍历到的原文分词对应的多个第一互译概率中存在小于等于第一预设概率的第一互译概率的情况下，可以是上述互译分析模型无法从多个目标译文分词中确定与当前遍历到的原文分词互为互译的目标译文分词。具体的，第一预设概率可以根据实际应用需要进行设定，本公开不作限定；可选的，第一预设概率的取值范围可以是0.7～0.9；示例性的，第一预设概率可以是0.7。

在一个具体的实施例中，可以将当前遍历到的原文分词，作为当前遍历到的原文分词对应的第一原文短语，相应的，可以将上述当前遍历到的原文分词对应的第一互译分词，作为当前遍历到的原文分词对应的第一译文短语；接着，可以基于上述当前遍历到的原文分词对应的第一原文短语和上述当前遍历到的原文分词对应的第一译文短语，生成上述当前遍历到的原文分词对应的第一翻译短语对。

在一个具体的实施例中，可以是在遍历过程中，基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合；或者也可以是，在遍历结束时，基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合。

在一个具体的实施例中，上述第一翻译短语对集合还可以包括至少一个第三翻译短语对。任一第三翻译短语对可以包括任一第三原文短语和任一第三原文短语对应的第三译文短语。第三原文短语可以包括至少一个原文分词。第三译文短语可以包括至少一个目标译文分词。其中，任一第三翻译短语对中的第三原文短语和第三语文短语之间互为互译关系。具体的，第一翻译短语对集合可以包括至少一个第一翻译短语对；或者，第一翻译短语对集合可以包括至少一个第三翻译短语对；或者还可以是，第一翻译短语对集合可以包括至少一个第一翻译短语对和至少一个第三翻译短语对。

在一个具体的实施例中，上述基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合之前，上述方法还可以包括：

确定翻译记忆原文信息中当前遍历到的原文分词对应的第一关联分词；

基于第一互译分布信息，从目标译文信息中，确定第一关联分词对应的第二互译分词；

在第二互译分词为第一互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第一关联分词、当前遍历到的原文分词对应的第一互译分词以及当前遍历到的原文分词对应的第二互译分词，生成当前遍历到的原文分词对应的第三翻译短语对；

相应的，上述基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合，可以包括：

基于遍历过程中得到的每个原文分词对应的第一翻译短语对和遍历过程中得到的每个原文分词对应的第三翻译短语对，生成第一翻译短语对集合。

在一个具体的实施例中，当前遍历到的原文分词对应的第一关联分词可以是指翻译记忆原文信息中与当前遍历到的原文分词相邻的分词。

在一个具体的实施例中，可以先对翻译记忆原文信息进行分词处理，得到翻译记忆原文信息对应的原文分词序列；其中，原文分词序列可以包括多个原文分词。接着，可以将上述原文分词序列中，与上述当前遍历到的原文分词相邻的分词，作为上述当前遍历到的原文分词对应的第一关联分词。

在一个具体的实施例中，第一关联分词对应的第二互译分词可以是指与上述第一关联分词互为互译关系的目标译文分词。

在一个具体的实施例中，可以先从第一互译分布信息中，获取第一关联分词对应的多个第一互译概率。在上述第一关联分词对应的多个第一互译概率均大于第一预设概率的情况下，可以将上述第一关联分词对应的多个第一互译概率中最大的第一互译概率对应的目标译文分词，作为上述第一关联分词对应的第二互译分词。在上述第一关联分词对应的多个第一互译概率中存在第一互译概率小于等于第一预设概率的情况下，可以确定上述第一关联分词对应的第二互译分词为空。

在一个具体的实施例中，第一互译分词的相邻分词可以是指目标译文信息中与上述第一互译分词相邻的目标译文分词。示例性的，假设目标译文信息是“It'ssunnytoday”，上述目标译文信息可以包括目标译文分词“It's”、目标译文分词“sunny”和目标译文分词“today”，上述目标译文分词“today”的相邻分词可以为目标译文分词“sunny”。

在一个具体的实施例中，在第二互译分词为第一互译分词的相邻分词的情况下，可以基于上述当前遍历到的原文分词和上述当前遍历到的原文分词对应的第一关联分词，生成上述当前遍历到的原文分词对应的第三原文短语；相应的，可以基于上述当前遍历到的原文分词对应的第一互译分词和上述当前遍历到的原文分词对应的第二互译分词，生成上述当前遍历到的原文分词对应的第三译文短语；接着，可以基于上述上述当前遍历到的原文分词对应的第三原文短语，以及上述当前遍历到的原文分词对应的第三译文短语，生成上述当前遍历到的原文分词对应的第三翻译短语对。

在一个具体的实施例中，可以是在遍历过程中，基于遍历过程中得到的每个原文分词对应的第一翻译短语对和遍历过程中得到的每个原文分词对应的第三翻译短语对，生成第一翻译短语对集合；或者，可以是在遍历结束时，基于遍历过程中得到的每个原文分词对应的第一翻译短语对和遍历过程中得到的每个原文分词对应的第三翻译短语对，生成第一翻译短语对集合。

在上述实施例中，通过确定翻译记忆原文信息中当前遍历到的原文分词对应的第一关联分词，基于第一互译分布信息，从目标译文信息中，确定第一关联分词对应的第二互译分词，在第二互译分词为第一互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第一关联分词、当前遍历到的原文分词对应的第一互译分词以及当前遍历到的原文分词对应的第二互译分词，生成当前遍历到的原文分词对应的第三翻译短语对，可以实现较长的翻译短语对的识别，可以避免较长的翻译短语对以多个较短的分词的形式作为翻译短语对，从而可以提高目标翻译记忆对的匹配准确度，进而可以提高翻译准确度。

在一个具体的实施例中，第二翻译短语对集合可以是指翻译记忆原文信息和翻译记忆译文信息中存在的互译短语对的集合。第二翻译短语对集合可以包括至少一个第二翻译短语对。任一第二翻译短语对可以包括任一第二原文短语和任一第二原文短语对应的第二译文短语。其中，任一第二翻译短语对中的第二原文短语和第二译文短语之间可以为互译关系。第二原文短语可以包括至少一个原文分词。第二译文短语可以包括至少一个记忆译文分词。具体的，翻译记忆译文信息可以包括多个记忆译文分词；记忆译文分词可以是指属于翻译记忆译文信息的分词。

在一个具体的实施例中，上述对翻译记忆原文信息和翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合，可以包括：

对翻译记忆原文信息和翻译记忆译文信息进行互译分析，得到第二互译分布信息；

基于第二互译分布信息，对翻译记忆原文信息和翻译记忆译文信息进行互译文本抽取处理，得到第二翻译短语对集合。

在一个具体的实施例中，第二互译分布信息可以表征翻译记忆原文信息中每个原文分词与翻译记忆译文信息中的每个记忆译文分词之间的互译概率。第二互译分布信息可以包括多个第二互译概率。其中，第二互译分布信息中任一第二互译概率可以是指任一原文分词与任一记忆译文分词之间互译的概率。具体的，第二互译分布信息的表现形式可以包括矩阵等。

在一个具体的实施例中，可以通过将翻译记忆原文信息和翻译记忆译文信息输入至互译分析模型进行互译分析，得到第二互译分布信息。具体的，可以将翻译记忆原文信息和目标译文信息输入至预设对齐模型进行对齐处理，得到第二互译分布信息。

在一个具体的实施例中，上述基于第二互译分布信息，对翻译记忆原文信息和翻译记忆译文信息进行互译文本抽取处理，得到第二翻译短语对集合，可以包括：

遍历翻译记忆原文信息中的多个原文分词；

基于第二互译分布信息，从翻译记忆译文信息中，确定当前遍历到的原文分词对应的第三互译分词；

基于当前遍历到的原文分词和当前遍历到的原文分词对应的第三互译分词，生成当前遍历到的原文分词对应的第二翻译短语对；

基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合。

在一个具体的实施例中，任一原文分词对应的第三互译分词可以是指与上述任一原文分词互为互译关系的记忆译文分词。

在一个具体的实施例中，可以先从第二互译分布信息中，获取当前遍历到的原文分词对应的多个第二互译概率。在上述当前遍历到的原文分词对应的多个第二互译概率均大于第二预设概率的情况下，可以将上述当前遍历到的原文分词对应的多个第二互译概率中最大的第二互译概率对应的记忆译文分词，作为上述当前遍历到的原文分词对应的第三互译分词。在上述当前遍历到的原文分词对应的多个第二互译概率中存在第二互译概率小于等于第二预设概率的情况下，可以确定当前遍历到的原文分词对应的第三互译分词为空。具体的，第二预设概率可以是根据实际应用需要进行设定，本公开不作限定；可选的，第二预设概率的取值范围可以是0.7～0.9；示例性的，第二预设概率可以是0.8。可选的，第一预设概率与第二预设概率可以是相同的。

在一个具体的实施例中，可以将当前遍历到的原文分词，作为当前遍历到的原文分词对应的第二原文短语，相应的，可以将上述当前遍历到的原文分词对应的第三互译分词，作为当前遍历到的原文分词对应的第二译文短语；接着，可以基于上述当前遍历到的原文分词对应的第二原文短语和上述当前遍历到的原文分词对应的第二译文短语，生成上述当前遍历到的原文分词对应的第二翻译短语对。

在一个具体的实施例中，可以是在遍历过程中，基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合；或者也可以是，在遍历结束时，基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合。

在一个具体的实施例中，上述第二翻译短语对集合可以包括至少一个第四翻译短语对。任一第四翻译短语对可以包括任一第四原文短语和任一第四原文短语对应的第四译文短语。第四原文短语可以包括至少一个原文分词。第四语文短语可以包括至少一个记忆译文分词。其中，任一第四翻译短语对中的第四原文短语和第四译文短语之间互为互译关系。具体的，第二翻译短语对集合可以包括至少一个第二翻译短语对；或者，第二翻译短语对集合可以包括至少一个第四翻译短语对；或者还可以是，第二翻译短语对集合可以包括至少一个第二翻译短语对和至少一个第四翻译短语对。

在一个具体的实施例中，上述基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合之前，上述方法还可以包括：

确定翻译记忆原文信息中当前遍历到的原文分词对应的第二关联分词；

基于第二互译分布信息，从翻译记忆译文信息中，确定第二关联分词对应的第四互译分词；

在第四互译分词为第三互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第二关联分词、当前遍历到的原文分词对应的第三互译分词以及当前遍历到的原文分词对应的第四互译分词，生成当前遍历到的原文分词对应的第四翻译短语对；

相应的，上述基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合，可以包括：

基于遍历过程中得到的每个原文分词对应的第二翻译短语对和遍历过程中得到的每个原文分词对应的第四翻译短语对，生成第二翻译短语对集合。

在一个具体的实施例中，当前遍历到的原文分词对应的第二关联分词可以是指翻译记忆原文信息中与当前遍历到的原文分词相邻的分词。

在一个具体的实施例中，可以先对翻译记忆原文信息进行分词处理，得到翻译记忆原文信息对应的原文分词序列。接着，可以将上述原文分词序列中，与上述当前遍历到的原文分词相邻的分词，作为上述当前遍历到的原文分词对应的第二关联分词。

在一个具体的实施例中，第二关联分词对应的第四互译分词可以是指与上述第二关联分词互为互译关系的记忆译文分词。

在一个具体的实施例中，可以先从第二互译分布信息中，获取第二关联分词对应的多个第二互译概率。在上述第二关联分词对应的多个第二互译概率均大于第二预设概率的情况下，可以将上述第二关联分词对应的多个第二互译概率中最大的第二互译概率对应的记忆译文分词，作为上述第二关联分词对应的第四互译分词。在上述第二关联分词对应的多个第二互译概率中存在第二互译概率小于等于第二预设概率的情况下，可以确定上述第二关联分词对应的第四互译分词为空。

在一个具体的实施例中，第三互译分词的相邻分词可以是指翻译记忆译文信息中与上述第三互译分词相邻的记忆译文分词。

在一个具体的实施例中，在第四互译分词为第三互译分词的相邻分词的情况下，可以基于上述当前遍历到的原文分词和上述当前遍历到的原文分词对应的第二关联分词，生成上述当前遍历到的原文分词对应的第四原文短语；相应的，可以基于上述当前遍历到的原文分词对应的第三互译分词和上述当前遍历到的原文分词对应的第四互译分词，生成上述当前遍历到的原文分词对应的第四译文短语；接着，可以基于上述上述当前遍历到的原文分词对应的第四原文短语，以及上述当前遍历到的原文分词对应的第四译文短语，生成上述当前遍历到的原文分词对应的第四翻译短语对。

在一个具体的实施例中，可以是在遍历过程中，基于遍历过程中得到的每个原文分词对应的第二翻译短语对和遍历过程中得到的每个原文分词对应的第四翻译短语对，生成第二翻译短语对集合；或者还可以是，在遍历结束时，基于遍历过程中得到的每个原文分词对应的第二翻译短语对和遍历过程中得到的每个原文分词对应的第四翻译短语对，生成第二翻译短语对集合。

在上述实施例中，通过确定翻译记忆原文信息中当前遍历到的原文分词对应的第二关联分词，基于第二互译分布信息，从翻译记忆译文信息中，确定第二关联分词对应的第四互译分词，在第四互译分词为第三互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第二关联分词、当前遍历到的原文分词对应的第三互译分词以及当前遍历到的原文分词对应的第四互译分词，生成当前遍历到的原文分词对应的第四翻译短语对，可以实现较长的翻译短语对的识别，可以避免较长的翻译短语对以多个较短的分词的形式作为翻译短语对，从而可以提高目标翻译记忆对的匹配准确度，进而可以提高翻译准确度。

在一个具体的实施例中，上述对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，得到目标待选记忆对对应的未学习短语集，可以包括：

对第一翻译短语对集合中至少一个第一原文短语和第二翻译短语对集合中至少一个第二原文短语进行匹配处理，得到至少一个目标原文短语对；

基于每个目标原文短语对中第一原文短语对应的第一译文短语和每个目标原文短语对中第二原文短语对应的第二译文短语，生成至少一个目标译文短语对；

对每个目标译文短语对进行相似分析，得到每个目标译文短语对对应的目标相似数据；

基于至少一个目标译文短语对中对应的目标相似数据大于预设相似数据的目标译文短语对，生成目标待选记忆对对应的未学习短语集。

在一个具体的实施例中，任一目标原文短语对可以是指第一翻译短语对集合和第二翻译短语对集合中相匹配的原文短语对。任一目标原文短语对可以包括第一原文短语和与之相匹配的第二原文短语。可以理解的是，任一目标原文短语对中的第一原文短语和第二原文短语相匹配。

在一个具体的实施例中，将第一翻译短语对集合中的任一第一原文短语和第二翻译短语对集合中至少一个第二原文短语依次进行匹配处理，得到上述任一第一原文短语对应的多个短语匹配结果；其中，上述任一第一原文短语对应的任一短语匹配结果可以用于指示上述任一第一原文短语与任一第二原文短语之间是否相匹配。在存在任一短语匹配结果指示上述任一第一原文短语与任一第二原文短语之间相匹配的情况下，基于上述任一第一原文短语与任一第二原文短语，生成任一目标原文短语对。

在一个具体的实施例中，任一目标译文短语对可以是指目标原文短语对在第一翻译短语对集合和第二翻译短语对集合中各自对应的译文短语生成的短语对。任一目标译文短语对可以包括第一译文短语和第二译文短语。

在一个具体的实施例中，可以先确定任一目标原文短语对中第一原文短语对应的第一译文短语以及上述任一目标原文短语对中第二原文短语对应的第二译文短语；再基于上述任一目标原文短语对对应的第一译文短语和上述任一目标原文短语对对应的第二译文短语，生成上述任一目标原文短语对对应的目标译文短语对。示例性的，假设第一翻译短语对集合包括“(A1，B1)，(A2，B2)，(A3，B3)”，第二翻译短语对集合包括“(A4，B4)，(A5，B5)，(A6，B6)”，至少一个目标原文短语对包括“(A3，A5)和(A2，A6)”，则可以确定上述至少一个目标原文短语对对应的目标译文短语对可以包括“(B3，B5)和(B2，B6)”。

在一个具体的实施例中，任一目标译文短语对对应的目标相似数据可以表征任一目标译文短语对中的第一译文短语和第二译文短语之间的相似程度。

在一个具体的实施例中，对任一目标译文短语对中的第一译文短语和第二译文短语分别进行编码处理，可以得到任一目标译文短语对中第一译文短语对应的第一译文编码信息和第二译文短语对应的第二译文编码信息。再通过对上述第一译文编码信息和上述第二译文编码信息进行编码差异分析，可以得到上述任一目标译文短语对对应的目标相似数据。其中，任一目标译文短语对对应的第一译文编码信息可以是指任一目标译文短语对中第一译文短语的编码信息；任一目标译文短语对对应的第二译文编码信息可以是指任一目标译文短语对中第二译文短语的编码信息。

在一个具体的实施例中，可以先从至少一个目标译文短语对对应的目标相似数据中筛选出大于预设相似数据的目标相似数据；接着，可以将上述大于预设相似数据的目标相似数据所属的目标译文短语对对应的第一原文短语，作为上述目标待选记忆对对应的未学习短语集。具体的，预设相似数据可以是根据实际应用需要进行设定的，本公开不作限定。

在上述实施例中，通过获取目标待选记忆对，基于预设机器翻译模型，对翻译记忆原文信息进行翻译处理，得到目标译文信息，对翻译记忆原文信息和目标译文信息进行翻译短语分析，得到第一翻译短语对集合，对翻译记忆原文信息和翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合，对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，得到目标待选记忆对对应的未学习短语集，可以实现目标待选记忆对的未学习短语集的快速构建，进而便于通过未学习短语集实现具有参考价值的翻译记忆对的准确匹配，同时避免匹配到没有参考价值的翻译记忆对导致降低机器翻译成本。

在一个具体的实施例中，上述步骤S203可以包括：

对待翻译文本信息进行分词处理，得到多个待翻译分词；

对多个待翻译分词和任一待选翻译记忆对对应的未学习短语集进行匹配处理，得到任一待选翻译记忆对对应的目标匹配结果；

在任一待选翻译记忆对对应的目标匹配结果指示任一待选翻译记忆对对应的未学习短语集中包含至少一个待翻译分词的情况下，将任一待选翻译记忆对对应的未学习短语集，作为目标匹配短语集。

在一个具体的实施例中，任一待翻译分词可以是指上述待翻译文本信息中的分词。任一待翻译分词可以包括至少一个文本单元。

在一个具体的实施例中，可以基于预设分词粒度信息，对待翻译文本信息中至少一个文本单元和预设词典进行匹配处理，得到任一待翻译分词。

在一个具体的实施例中，任一待选翻译记忆对对应的目标匹配结果可以用于指示上述任一待选翻译记忆对对应的未学习短语集中是否包含至少一个待翻译分词。目标匹配结果可以包括第一匹配结果和第二匹配结果。其中，第一匹配结果可以用于指示对应的未学习短语集中包含至少一个待翻译分词；第二匹配结果可以用于指示对应的未学习短语集中不包含至少一个待翻译分词。

在一个具体的实施例中，在任一待选翻译记忆对对应的目标匹配结果为第一匹配结果的情况下，可以将上述任一待选翻译记忆对对应的未学习短语集，作为目标匹配短语集；相应的，可以得到上述至少一个目标匹配短语集。

在上述实施例中，通过对待翻译文本信息进行分词处理，得到多个待翻译分词，对多个待翻译分词和任一待选翻译记忆对对应的未学习短语集进行匹配处理，得到任一待选翻译记忆对对应的目标匹配结果，在任一待选翻译记忆对对应的目标匹配结果指示任一待选翻译记忆对对应的未学习短语集中包含至少一个待翻译分词的情况下，将任一待选翻译记忆对对应的未学习短语集，作为目标匹配短语集，可以通过未学习短语集实现具有参考价值的翻译记忆对的准确匹配，同时避免匹配到没有参考价值的翻译记忆对导致降低机器翻译成本。

S205：基于预设翻译记忆数据中至少一个目标匹配短语集对应的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，得到目标语言文本信息。

在一个具体的实施例中，目标翻译记忆对可以是指预设翻译记忆数据中至少一个目标匹配短语集对应的待选翻译记忆对。目标翻译记忆对可以包括至少一个待选翻译记忆对。

在一个具体的实施例中，目标语言文本信息可以是指翻译得到的待翻译文本信息在目标语言下的文本信息。目标语言文本信息可以包括基于目标语言描述的多个目标语言分词。示例性的，待翻译文本信息对应的源语言可以是中文，相应的，在需要将上述待翻译文本信息从中文转换至英文的情况下，目标语言文本信息对应的目标语言可以是英文。

在一个具体的实施例中，可以先从预设翻译记忆数据中，确定上述至少一个目标匹配短语集对应的目标翻译记忆对。接着，可以将上述目标翻译记忆对和上述待翻译文本信息输入至预设机器翻译模型中进行翻译处理，得到目标语言文本信息。具体的，在翻译过程中，预设机器翻译模型可以参考目标翻译记忆对中的部分翻译结果，翻译得到目标语言文本信息，从而提升翻译效果。

在一个具体的实施例中，在从预设翻译记忆数据中，确定上述至少一个目标匹配短语集对应的目标翻译记忆对后，可以通过用户终端对上述至少一个目标匹配短语集对应的目标翻译记忆对进行展示；用户可以通过上述用户终端对目标翻译记忆对对应的展示区域进行编辑操作，以对目标翻译记忆对进行修改，可以得到用户修改后的目标翻译记忆对。相应的，可以将上述修改后的目标翻译记忆对和待翻译文本信息输入至预设机器翻译模型中进行翻译处理，得到目标语言文本信息。

在一个具体的实施例中，预设翻译记忆数据中的待选翻译记忆对可以是用户通过用户终端上传的，具体的，上述用户上传的待选翻译记忆对可以包含用户偏好的翻译语言表述；相应的，在目标翻译记忆对包括上述用户上传的待选翻译记忆对的情况下，结合上述待选翻译记忆对，对待翻译文本信息进行翻译处理，可以使预设机器翻译模型参考上述待选翻译记忆对中用户偏好的翻译语言表述，进而可以使得预设机器翻译模型翻译得到的翻译结果更加贴近用户偏好的语言表述。

在上述实施例中，获取待翻译文本信息，对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集，其中，任一目标匹配短语集中存在未学习短语与待翻译文本信息相匹配，任一待选翻译记忆对对应的未学习短语集为任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合，可以通过未学习短语集实现具有参考价值的翻译记忆对的准确匹配，同时避免匹配到没有参考价值的翻译记忆对导致降低机器翻译成本，再结合预设翻译记忆数据中至少一个目标匹配短语集对应的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，得到目标语言文本信息，通过结合上述具有参考价值的目标翻译记忆对进行翻译处理，可以提高翻译效果，提高翻译准确性，同时，通过避免使用没有参考价值的翻译记忆对，从而减少运算成本的浪费，减少系统资源消耗，提升设备性能。可以理解的是，如果翻译记忆对中包含的翻译知识已经被预设机器翻译模型充分学习，那么这一翻译记忆对仍然没有参考价值，因为在不参考这一翻译记忆对的情况下，预设机器翻译模型已经可以给出恰当的翻译结果，额外参考这样的翻译记忆对反而会增加预设机器翻译模型的运算成本且对翻译效果没有提升。

示例性的，假设存在待选翻译记忆对1和待选翻译记忆对2；具体的，待选翻译记忆对1可以包括翻译记忆原文信息“该角色的一技能可以恢复生命值100点。”和翻译记忆译文信息“Skill1ofthischaracterrestores100HP.”；待选翻译记忆对2可以包括翻译记忆原文信息“该角色的普通攻击可以造成伤害100点。”和翻译记忆译文信息“Basicattackofthischaracterdodamage100points.”；进一步的，假设预设机器翻译模型对待选翻译记忆对1中翻译记忆原文信息翻译得到的目标译文信息为“Thischaracter’soneskillrestores100healthpoints.”，可以确定上述待选翻译记忆对1对应的未学习短语集包括“一技能”和“生命值”；假设预设机器翻译模型对待选翻译记忆对2中翻译记忆原文信息翻译得到的目标译文信息为“Thischaracter’sbasicattackdodamage100points.”，可以确定上述待选翻译记忆对1对应的未学习短语集为空。若待翻译文本信息为“该角色的一技能可以造成100点伤害”，由于上述待选翻译记忆对1和待选翻译记忆对2均与上述待翻译文本信息有较高的相似性，若基于相似度方法来确定需要参考的翻译记忆对，上述待选翻译记忆对1和待选翻译记忆对2均会被索引到。但是，从待选翻译记忆对2对应的目标译文信息中，可以确定预设机器翻译模型已经可以恰当的翻译出“造成100点伤害”、“该角色”等文本信息。若将上述待选翻译记忆对2作为目标翻译记忆对会存在以下损失：首先，参考待选翻译记忆对2造成了翻译模块的运算成本的浪费；其次，如果类似待选翻译记忆对2这样不能提供较高参考价值的翻译记忆对被较多索引到，在翻译模块能够参考的翻译记忆对有限的情况下，真正有价值的待选翻译记忆对1可能被挤出索引结果，会导致翻译效果的下降。因此，通过结合未学习短语集进行目标匹配短语集的匹配，可以实现具有参考价值的翻译记忆对的准确匹配，提高翻译效果，同时，可以避免匹配到没有参考价值的翻译记忆对导致降低机器翻译成本。

图3是根据一示例性实施例示出的一种文本翻译方法的流程示意图。图4是根据一示例性实施例示出的一种目标待选记忆对的未学习短语集的生成过程示意图。如图3所示，可以先获取目标待选记忆对；基于预设机器翻译模型，对目标待选记忆对中的翻译记忆原文信息进行翻译处理，可以得到目标译文信息；将目标待选记忆对和目标译文信息输入至比较器中进行比较分析，可以得到上述目标待选记忆对对应的未学习短语集。接着，可以将上述目标待选记忆对及上述目标待选记忆对对应的未学习短语集加入至预设翻译记忆数据中。在接收到携带待翻译文本信息的翻译请求的情况下，可以基于待翻译文本信息和每个待选翻译记忆对对应的未学习短语集，在预设翻译记忆数据中索引到目标翻译记忆对；具体的，可以对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集，再从预设翻译记忆数据中，确定至少一个目标匹配短语集对应的目标翻译记忆对。最后，基于索引到的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，可以得到目标语言文本信息。其中，比较器的比较分析过程可以包括：对上述翻译记忆原文信息和目标译文信息进行翻译短语分析，可以得到第一翻译短语对集合；对翻译记忆原文信息和翻译记忆译文信息进行翻译短语分析，可以得到第二翻译短语对集合；对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，可以得到目标待选记忆对对应的未学习短语集。

进一步的，如图4所示，对翻译记忆原文信息和目标译文信息进行互译分析，可以得到第一互译分布信息；相应的，对翻译记忆原文信息和翻译记忆译文信息进行互译分析，可以得到第二互译分布信息。接着，基于第一互译分布信息，对翻译记忆原文信息和目标译文信息进行互译文本抽取处理，可以得到第一翻译短语对集合；相应的，基于第二互译分布信息，对翻译记忆原文信息和翻译记忆译文信息进行互译文本抽取处理，可以得到第二翻译短语对集合。然后，对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，可以得到目标待选记忆对对应的未学习短语集。

图5是根据一示例性实施例示出的一种文本翻译装置的框图。如图5所示，该装置可以包括：

信息获取模块510，可以用于获取待翻译文本信息；

匹配处理模块520，可以用于对待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集；任一目标匹配短语集中存在未学习短语与待翻译文本信息相匹配；任一待选翻译记忆对对应的未学习短语集为任一待选翻译记忆对的翻译记忆原文信息中对应的记忆翻译结果与预设机器翻译模型的翻译结果存在差异的短语集合；

翻译处理模块530，可以用于基于预设翻译记忆数据中至少一个目标匹配短语集对应的目标翻译记忆对和预设机器翻译模型，对待翻译文本信息进行翻译处理，得到目标语言文本信息。

在一个具体的实施例中，上述装置还可以包括：

目标待选记忆对获取模块，可以用于获取目标待选记忆对，目标待选记忆对为多个待选翻译记忆对中的任意一个，目标待选记忆对包括翻译记忆原文信息和翻译记忆原文信息对应的翻译记忆译文信息；

目标翻译模块，可以用于基于预设机器翻译模型，对翻译记忆原文信息进行翻译处理，得到目标译文信息；

第一翻译短语分析模块，可以用于对翻译记忆原文信息和目标译文信息进行翻译短语分析，得到第一翻译短语对集合；第一翻译短语对集合包括至少一个第一翻译短语对，任一第一翻译短语对包括任一第一原文短语和任一第一原文短语对应的第一译文短语，任一第一翻译短语对中的第一原文短语和第一译文短语之间为互译关系；

第二翻译短语分析模块，可以用于对翻译记忆原文信息和翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合；第二翻译短语对集合包括至少一个第二翻译短语对，任一第二翻译短语对包括任一第二原文短语和任一第二原文短语对应的第二译文短语，任一第二翻译短语对中的第二原文短语和第二译文短语之间为互译关系；

翻译比较分析模块，可以用于对第一翻译短语对集合和第二翻译短语对集合进行翻译比较分析，得到目标待选记忆对对应的未学习短语集。

在一个具体的实施例中，上述翻译比较分析模块可以包括：

目标原文短语对确定模块，可以用于对第一翻译短语对集合中至少一个第一原文短语和第二翻译短语对集合中至少一个第二原文短语进行匹配处理，得到至少一个目标原文短语对；任一目标原文短语对中的第一原文短语和第二原文短语相匹配；

目标译文短语对生成模块，可以用于基于每个目标原文短语对中第一原文短语对应的第一译文短语和每个目标原文短语对中第二原文短语对应的第二译文短语，生成至少一个目标译文短语对；

相似分析模块，可以用于对每个目标译文短语对进行相似分析，得到每个目标译文短语对对应的目标相似数据，任一目标译文短语对对应的目标相似数据表征任一目标译文短语对中的第一译文短语和第二译文短语之间的相似程度；

未学习短语集生成模块，可以用于基于至少一个目标译文短语对中对应的目标相似数据大于预设相似数据的目标译文短语对，生成目标待选记忆对对应的未学习短语集。

在一个具体的实施例中，上述第一翻译短语分析模块可以包括：

第一互译分析模块，可以用于对翻译记忆原文信息和目标译文信息进行互译分析，得到第一互译分布信息，第一互译分布信息表征翻译记忆原文信息中的每个原文分词与目标译文信息中的每个目标译文分词之间互译概率；

第一互译文本抽取模块，可以用于基于第一互译分布信息，对翻译记忆原文信息和目标译文信息进行互译文本抽取处理，得到第一翻译短语对集合。

在一个具体的实施例中，上述第一互译文本抽取模块可以包括：

第一遍历模块，可以用于遍历翻译记忆原文信息中的多个原文分词；

第一互译分词获取模块，可以用于基于第一互译分布信息，从目标译文信息中，确定当前遍历到的原文分词对应的第一互译分词；

第一翻译短语对生成模块，可以用于基于当前遍历到的原文分词和当前遍历到的原文分词对应的第一互译分词，生成当前遍历到的原文分词对应的第一翻译短语对；

第一集合生成模块，可以用于基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成第一翻译短语对集合。

在一个具体的实施例中，上述第一互译文本抽取模块还可以包括：

第一关联分词确定模块，可以用于确定翻译记忆原文信息中当前遍历到的原文分词对应的第一关联分词；第一关联分词为翻译记忆原文信息中与当前遍历到的原文分词相邻的分词；

第二互译分词获取模块，可以用于基于第一互译分布信息，从目标译文信息中，确定第一关联分词对应的第二互译分词；

第三翻译短语对生成模块，可以用于在第二互译分词为第一互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第一关联分词、当前遍历到的原文分词对应的第一互译分词以及当前遍历到的原文分词对应的第二互译分词，生成当前遍历到的原文分词对应的第三翻译短语对；

相应的，上述第一集合生成模块可以包括：

第二集合生成模块，可以用于基于遍历过程中得到的每个原文分词对应的第一翻译短语对和遍历过程中得到的每个原文分词对应的第三翻译短语对，生成第一翻译短语对集合。

在一个具体的实施例中，上述第二翻译短语分析模块可以包括：

第二互译分析模块，可以用于对翻译记忆原文信息和翻译记忆译文信息进行互译分析，得到第二互译分布信息，第二互译分布信息表征翻译记忆原文信息中每个原文分词与翻译记忆译文信息中的每个记忆译文分词之间的互译概率；

第二互译文本抽取模块，可以用于基于第二互译分布信息，对翻译记忆原文信息和翻译记忆译文信息进行互译文本抽取处理，得到第二翻译短语对集合。

在一个具体的实施例中，上述第二互译文本抽取模块可以包括：

第二遍历模块，可以用于遍历翻译记忆原文信息中的多个原文分词；

第三互译分词获取模块，可以用于基于第二互译分布信息，从翻译记忆译文信息中，确定当前遍历到的原文分词对应的第三互译分词；

第二翻译短语对生成模块，可以用于基于当前遍历到的原文分词和当前遍历到的原文分词对应的第三互译分词，生成当前遍历到的原文分词对应的第二翻译短语对；

第三集合生成模块，可以用于基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成第二翻译短语对集合。

在一个具体的实施例中，上述第二互译文本抽取模块还可以包括：

第二关联分词确定模块，可以用于确定翻译记忆原文信息中当前遍历到的原文分词对应的第二关联分词；第二关联分词为翻译记忆原文信息中与当前遍历到的原文分词相邻的分词；

第四互译分词获取模块，可以用于基于第二互译分布信息，从翻译记忆译文信息中，确定第二关联分词对应的第四互译分词；

第四翻译短语对生成模块，可以用于在第四互译分词为第三互译分词的相邻分词的情况下，基于当前遍历到的原文分词、当前遍历到的原文分词对应的第二关联分词、当前遍历到的原文分词对应的第三互译分词以及当前遍历到的原文分词对应的第四互译分词，生成当前遍历到的原文分词对应的第四翻译短语对；

相应的，上述第三集合生成模块可以包括：

第四集合生成模块，可以用于基于遍历过程中得到的每个原文分词对应的第二翻译短语对和遍历过程中得到的每个原文分词对应的第四翻译短语对，生成第二翻译短语对集合。

在一个具体的实施例中，上述匹配处理模块520可以包括：

分词处理模块，可以用于对待翻译文本信息进行分词处理，得到多个待翻译分词；

目标匹配处理模块，可以用于对多个待翻译分词和任一待选翻译记忆对对应的未学习短语集进行匹配处理，得到任一待选翻译记忆对对应的目标匹配结果；

目标匹配短语集生成模块，可以用于在任一待选翻译记忆对对应的目标匹配结果指示任一待选翻译记忆对对应的未学习短语集中包含至少一个待翻译分词的情况下，将任一待选翻译记忆对对应的未学习短语集，作为目标匹配短语集。

关于上述实施例中的装置，其中各个模块和单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种用于翻译待翻译文本信息的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本翻译方法。

图7是根据一示例性实施例示出的另一种用于翻译待翻译文本信息的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本翻译方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6或图7中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的文本翻译方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的文本翻译方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的文本翻译方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

可以理解的是，在本申请的具体实施方式中，涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文本翻译方法，其特征在于，所述方法包括：

获取待翻译文本信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标待选记忆对，所述目标待选记忆对为多个待选翻译记忆对中的任意一个，所述目标待选记忆对包括翻译记忆原文信息和所述翻译记忆原文信息对应的翻译记忆译文信息；

基于所述预设机器翻译模型，对所述翻译记忆原文信息进行翻译处理，得到目标译文信息；

对所述翻译记忆原文信息和所述目标译文信息进行翻译短语分析，得到第一翻译短语对集合；所述第一翻译短语对集合包括至少一个第一翻译短语对，任一第一翻译短语对包括任一第一原文短语和所述任一第一原文短语对应的第一译文短语，所述任一第一翻译短语对中的第一原文短语和第一译文短语之间为互译关系；

对所述翻译记忆原文信息和所述翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合；所述第二翻译短语对集合包括至少一个第二翻译短语对，任一第二翻译短语对包括任一第二原文短语和所述任一第二原文短语对应的第二译文短语，所述任一第二翻译短语对中的第二原文短语和第二译文短语之间为互译关系；

对所述第一翻译短语对集合和所述第二翻译短语对集合进行翻译比较分析，得到所述目标待选记忆对对应的未学习短语集。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一翻译短语对集合和所述第二翻译短语对集合进行翻译比较分析，得到所述目标待选记忆对对应的未学习短语集，包括：

对所述第一翻译短语对集合中至少一个第一原文短语和所述第二翻译短语对集合中至少一个第二原文短语进行匹配处理，得到至少一个目标原文短语对；任一目标原文短语对中的第一原文短语和第二原文短语相匹配；

基于每个目标原文短语对中第一原文短语对应的第一译文短语和所述每个目标原文短语对中第二原文短语对应的第二译文短语，生成至少一个目标译文短语对；

对每个目标译文短语对进行相似分析，得到所述每个目标译文短语对对应的目标相似数据，任一目标译文短语对对应的目标相似数据表征所述任一目标译文短语对中的第一译文短语和第二译文短语之间的相似程度；

基于所述至少一个目标译文短语对中对应的目标相似数据大于预设相似数据的目标译文短语对，生成所述目标待选记忆对对应的未学习短语集。

4.根据权利要求2所述的方法，其特征在于，所述对所述翻译记忆原文信息和所述目标译文信息进行翻译短语分析，得到第一翻译短语对集合，包括：

对所述翻译记忆原文信息和所述目标译文信息进行互译分析，得到第一互译分布信息，所述第一互译分布信息表征所述翻译记忆原文信息中的每个原文分词与所述目标译文信息中的每个目标译文分词之间互译概率；

基于所述第一互译分布信息，对所述翻译记忆原文信息和所述目标译文信息进行互译文本抽取处理，得到所述第一翻译短语对集合。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一互译分布信息，对所述翻译记忆原文信息和所述目标译文信息进行互译文本抽取处理，得到所述第一翻译短语对集合，包括：

遍历所述翻译记忆原文信息中的多个原文分词；

基于所述第一互译分布信息，从所述目标译文信息中，确定当前遍历到的原文分词对应的第一互译分词；

基于所述当前遍历到的原文分词和所述当前遍历到的原文分词对应的第一互译分词，生成所述当前遍历到的原文分词对应的第一翻译短语对；

基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成所述第一翻译短语对集合。

6.根据权利要求5所述的方法，其特征在于，所述第一翻译短语对集合包括第三翻译短语对；所述基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成所述第一翻译短语对集合之前，所述方法还包括：

确定所述翻译记忆原文信息中所述当前遍历到的原文分词对应的第一关联分词；所述第一关联分词为所述翻译记忆原文信息中与所述当前遍历到的原文分词相邻的分词；

基于所述第一互译分布信息，从所述目标译文信息中，确定所述第一关联分词对应的第二互译分词；

在所述第二互译分词为所述第一互译分词的相邻分词的情况下，基于所述当前遍历到的原文分词、所述当前遍历到的原文分词对应的第一关联分词、所述当前遍历到的原文分词对应的第一互译分词以及所述当前遍历到的原文分词对应的第二互译分词，生成所述当前遍历到的原文分词对应的第三翻译短语对；

所述基于遍历过程中得到的每个原文分词对应的第一翻译短语对，生成所述第一翻译短语对集合，包括：

基于遍历过程中得到的每个原文分词对应的第一翻译短语对和遍历过程中得到的每个原文分词对应的第三翻译短语对，生成所述第一翻译短语对集合。

7.根据权利要求2所述的方法，其特征在于，所述对所述翻译记忆原文信息和所述翻译记忆译文信息进行翻译短语分析，得到第二翻译短语对集合，包括：

对所述翻译记忆原文信息和所述翻译记忆译文信息进行互译分析，得到第二互译分布信息，所述第二互译分布信息表征所述翻译记忆原文信息中每个原文分词与所述翻译记忆译文信息中的每个记忆译文分词之间的互译概率；

基于所述第二互译分布信息，对所述翻译记忆原文信息和所述翻译记忆译文信息进行互译文本抽取处理，得到所述第二翻译短语对集合。

8.根据权利要求7所述的方法，其特征在于，所述基于所述第二互译分布信息，对所述翻译记忆原文信息和所述翻译记忆译文信息进行互译文本抽取处理，得到所述第二翻译短语对集合，包括：

遍历所述翻译记忆原文信息中的多个原文分词；

基于所述第二互译分布信息，从所述翻译记忆译文信息中，确定当前遍历到的原文分词对应的第三互译分词；

基于所述当前遍历到的原文分词和所述当前遍历到的原文分词对应的第三互译分词，生成所述当前遍历到的原文分词对应的第二翻译短语对；

基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成所述第二翻译短语对集合。

9.根据权利要求8所述的方法，其特征在于，所述第二翻译短语对集合包括第四翻译短语对；所述基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成所述第二翻译短语对集合之前，所述方法还包括：

确定所述翻译记忆原文信息中所述当前遍历到的原文分词对应的第二关联分词；所述第二关联分词为所述翻译记忆原文信息中与所述当前遍历到的原文分词相邻的分词；

基于所述第二互译分布信息，从所述翻译记忆译文信息中，确定所述第二关联分词对应的第四互译分词；

在所述第四互译分词为所述第三互译分词的相邻分词的情况下，基于所述当前遍历到的原文分词、所述当前遍历到的原文分词对应的第二关联分词、所述当前遍历到的原文分词对应的第三互译分词以及所述当前遍历到的原文分词对应的第四互译分词，生成所述当前遍历到的原文分词对应的第四翻译短语对；

所述基于遍历过程中得到的每个原文分词对应的第二翻译短语对，生成所述第二翻译短语对集合，包括：

基于遍历过程中得到的每个原文分词对应的第二翻译短语对和遍历过程中得到的每个原文分词对应的第四翻译短语对，生成所述第二翻译短语对集合。

10.根据权利要求1-9任一所述的方法，其特征在于，所述对所述待翻译文本信息和预设翻译记忆数据中每个待选翻译记忆对对应的未学习短语集进行匹配处理，得到至少一个目标匹配短语集，包括：

对所述待翻译文本信息进行分词处理，得到多个待翻译分词；

对所述多个待翻译分词和所述任一待选翻译记忆对对应的未学习短语集进行匹配处理，得到所述任一待选翻译记忆对对应的目标匹配结果；

在所述任一待选翻译记忆对对应的目标匹配结果指示所述任一待选翻译记忆对对应的未学习短语集中包含至少一个待翻译分词的情况下，将所述任一待选翻译记忆对对应的未学习短语集，作为所述目标匹配短语集。

11.一种文本翻译装置，其特征在于，所述装置包括：

信息获取模块，用于获取待翻译文本信息；

12.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令以实现权利要求1至10中任意一项所述的文本翻译方法。

13.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至10中任意一项所述的文本翻译方法。