CN113792558B

CN113792558B - 基于机器翻译和译后编辑的自学习翻译方法及装置

Info

Publication number: CN113792558B
Application number: CN202111354284.0A
Authority: CN
Inventors: 万星; 赵静璇; 王梦雪; 何中军; 吴华; 李芝; 徐梓翔; 刘继强; 姚伟; 任云; 李朝锡; 李壮壮; 张涛; 魏文斌; 宋寒冰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-09-23
Anticipated expiration: 2041-11-16
Also published as: CN113792558A

Abstract

本公开提供了一种基于机器翻译和译后编辑的自学习翻译方法及装置，涉及大数据、深度学习与自然语言处理等人工智能技术领域。具体实现方案为：获取原文、原文对应的格式信息以及翻译信息；基于所述翻译信息，对所述原文进行翻译，得到译文；基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式。根据本公开的技术，能够有效地提高翻译的准确性。

Description

基于机器翻译和译后编辑的自学习翻译方法及装置

技术领域

本公开涉及计算机技术领域，具体涉及大数据、深度学习与自然语言处理等人工智能技术领域，尤其涉及一种基于机器学习和译后编辑的自学习翻译方法及装置。

背景技术

翻译是一项技术性和专业性非常强的工作，传统技术中依靠专业的翻译人员来完成翻译。为了提高翻译效率，诞生了计算机辅助翻译（Computer Aided Translation；CAT）工具来辅助翻译员完成高质量的翻译。

现有的CAT是一种将人工翻译流程化自动化的软件。近年来越来越多的厂商增加了机翻功能，演变成人在机翻基础上进行修改校正的工具。这种产品可以在保证翻译质量的前提下，较纯人工翻译提高数倍的效率。

发明内容

本公开提供了一种基于机器学习和译后编辑的自学习翻译方法及装置。

根据本公开的一方面，提供了一种翻译方法，包括：

获取原文、原文对应的格式信息以及翻译信息；

基于所述翻译信息，对所述原文进行翻译，得到译文；

基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式。

根据本公开的另一方面，提供了一种翻译装置，包括：

获取模块，用于获取原文、原文对应的格式信息以及翻译信息；

翻译模块，用于基于所述翻译信息，对所述原文进行翻译，得到译文；

处理模块，用于基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式。

根据本公开的再一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。

根据本公开的再另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。

根据本公开的技术，能够有效地提高翻译的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是本公开实施例提供的一种补全界面示意图；

图5是本公开实施例提供的另一种补全界面示意图；

图6是本公开实施提供的一种基于机器翻译和译后编辑的自学习翻译装置的功能示意图；

图7是根据本公开第四实施例的示意图；

图8是根据本公开第五实施例的示意图；

图9是用来实现本公开实施例的翻译方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

需要说明的是，本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理（Personal Digital Assistant，PDA）、无线手持设备、平板电脑（TabletComputer）等智能设备；显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1是根据本公开第一实施例的示意图；如图1所示，本实施例提供一种翻译方法，应用于智能翻译平台之类的翻译装置中，具体可以包括如下步骤：

S101、获取原文、原文对应的格式信息以及翻译信息；

S102、基于翻译信息，对原文进行翻译，得到译文；

S103、基于格式信息对译文进行格式处理，使得译文具有与对应的原文相同的格式。

本实施例中的原文即为待翻译文档的原文。在实际应用中，原文中不仅包括文字，还可以包括一些对原文中的文字进行限定的格式信息。

本实施例中的翻译信息可以用于限定翻译内容的信息。

在本公开的实施例中，还可以基于获取到的格式信息，对翻译得到的译文进行格式处理，将原文的格式信息回完美地填至译文中，使得译文具有与对应的原文相同的格式，最终得到的译文能够最大限度地还原原文的信息，是一种高保真的文档。

本实施例的翻译方法，通过采用上述方案，可以提供一种高保真的翻译方案，能够基于原文的格式信息对翻译得到的译文进行格式处理，实现将原文的格式信息完美地回填至译文中，使得译文具有与对应的原文相同的格式，能够得到一种准确性更高、更保真的译文。

图2是根据本公开第二实施例的示意图；如图2所示，本实施例在上述图1所示实施例的基础上，进一步更加详细地介绍本申请的技术方案，如图2所示，本实施例的翻译方法，具体可以包括如下步骤：

S201、获取原文、原文对应的显示格式、排版格式和链接信息、以及翻译信息；

本实施例中，以同时获取原文对应的显示格式、排版格式和链接信息为例，当然若原文中未包括其中一种格式信息，对应的格式信息为空即可。实际应用中，也可以根据限定仅获取其中一种格式信息。当然也可以获取更多的其他格式信息，在此不做限定。

其中，显示格式用于限定对原文中的文字显示的信息，例如可以包括字体、颜色、大小以及是否增加上、下划线、以及是否带有高亮标记等等用于限定显示格式的信息。排版格式用于限定原文的文字的排版样式，例如，首行缩进、标题居中、表格居中、图标居中等等排版格式，再例如，在合同类文件中，末尾的签名以及日期为了美观，也可以在展示上设置有特殊的格式。链接信息指的是原文中的一些文字还可以携带有一些链接信息，点击该链接信息，可以打开链接的另一个内容信息。该链接信息也可以看作是原文的格式信息。

本实施例的翻译信息，必须包括翻译的目标语言。另外，可选地还可以包括源语言和/或领域信息。

若翻译信息中不包括源语言时，此时可以采用预先训练的语言识别模型对原文进行语言识别，获取到原文对应的源语言。

本实施例中的翻译可以为任意两种不同语言之间的翻译。即源语言和目标语言可以为中文、英文、法文、德语、韩文以及日文等等多种语言中不相同的任意两种语言。

本实施例的领域信息可以便于翻译装置基于该领域对应的术语库实现对原文的翻译，能够进一步有效地提高翻译准确性和翻译效率。

若翻译信息中不包括领域信息时，可以采用预先训练的领域识别模型识别原文的领域信息。

具体地，由于文档的摘要中通常简要概括了文档的内容，基于文档的摘要可以识别出该文档的领域。可选地，可以将原文对应的文档的摘要、或者摘要加标题，输入至领域识别模型中，该领域识别模型可以基于输入的信息预测该原文的领域。进一步地，为了提高领域识别模型的准确性，也可以将原文所对应的整个文档都输入至领域识别模型中，来预测该原文的领域。相对于上一方式，由于输入的信息增加，延长了领域识别的时间，降低了领域识别的效率。

本实施例在对原文进行翻译处理时，可以以句子为粒度进行翻译，此时整篇文档中原文的源语言和领域信息仅识别一次即可。

采用预先训练的语言识别模型识别原文的源语言、以及采用预先训练的领域识别模型识别原文的领域信息，均能够有效地提高翻译处理中的信息识别的准确性，增强翻译处理的智能性。

S202、基于翻译信息，采用翻译模型对原文进行翻译，得到译文；

本实施例中，对原文的翻译可以采用翻译模型来实现。该翻译模型为一个神经网络模型，该神经网络模型在使用之前，需要经过预先训练。采用该翻译模型对原文进行翻译，能够有效地保证得到的译文的准确性，实现智能翻译的特性。

可选地，本公开的一个实施例中，翻译模型在翻译过程中，可以参考外部专业术语库、本地术语库以及记忆库中的至少一个对原文进行翻译，得到译文。

其中术语库可以包括源语言描述的术语以及采用目标语言对术语的翻译。本实施例中的术语，可以指的是词汇，具体可以理解为在翻译中有重复使用的必要的词汇。术语库即保存了很多的术语以及各术语对应的目标语言的翻译，以便于在专业翻译中，确保同一术语的翻译始终一致性。在每次翻译时，可以调用术语库获取到各术语的翻译。

需要说明的是，若用户在使用之前未上传本地术语库，此时，翻译装置可以通过获取到的翻译信息，调用外部的专业的术语库实现对原文的翻译。例如，通过获取到的源语言、目标语言以及领域信息，调用外部的专业的术语库实现对原文的翻译。

本实施例的外部的专业术语库可以理解为外部的专业信息平台，能够获取到各术语的专业的翻译，并将各术语及对应的翻译存储在专业术语库中。具体地，可以基于大数据获取到各术语的专业的翻译，或者也可以获取专业翻译人员对各术语的专业的翻译。该专业术语库可以为本实施例的翻译装置提供应用程序接口（Application programinterface；API）。本实施例的翻译装置在翻译时，对于需要翻译的术语，可以通过专业术语库的API调用该专业术语库，获取需要翻译的术语对应的翻译；进而在对原文进行翻译的过程中，将原文中的术语翻译为从专业术语库中获取到的翻译，进而实现对原文的翻译。

具体使用时，可以根据原文的源语言、领域信息、以及目标语言，可以准确定位到一个专业术语库。接下来，可以调用该专业术语库，获取原文中术语对应的目标语言的解释，即翻译。然后，在对原文进行翻译过程中，可以将术语的翻译替换为从专业术语库中获取的翻译，基于此，完成对原文的翻译，得到译文。

若同时存在外部专业术语库、本地术语库以及记忆库时，在对原文进行翻译时，可以先基于本地的记忆库，检测该原文是否有对应的翻译，若没有，再参考本地的术语库，检测术语库中是否存在该原文中对应术语的翻译，若存在，在该原文的翻译过程中，其中术语的翻译采用本地术语库中对应术语的翻译。若不存在，根据原文的源语言、领域、目标语言，可以准确定位到一个外部的专业术语库。接下来，可以从专业术语库中获取术语对应的目标语言的翻译。然后，在对原文进行翻译过程中，可以将术语的翻译替换为从专业术语库中获取的翻译，基于此，完成对原文的翻译，得到译文。也就是说，翻译过程中，记忆库的优先级最高，本地的术语库次之，专业术语库的优先级最低。其中，本地的术语库和本地的记忆库可以都是基于用户的历史翻译信息或者用户需求在本地存储的。而专业术语库可以理解为外部的较为专业和权威的专业术语库，不参考任何用户的历史翻译信息创建。所以为了实现用户的个性化翻译，在翻译时，专业术语库的优先级最低。

其中本地的术语库也可以采用现有技术的方式，由用户自行生成并上传至翻译装置。术语库中出现的术语可以为翻译中出现的任何词汇，若有重复使用的必要，用户可以将其作为术语进行保存，同时保存术语对应的翻译，保存的多个术语及对应翻译的集合则称为术语库。本实施例中生成的术语库是可以重复利用，不仅仅是在本次翻译，还可以在以后的项目或其他人的翻译工作中重复使用，用来提高效率，解决翻译一致性问题。当然可选地，本地术语库也可以不用用户预先生成，在使用外部专业术语库进行翻译的过程中通过沉淀积累的方式生成。

记忆库是根据用户的历史使用情况生成的。记忆库中存储的是翻译过程中，一些技术性较强、可能会重复使用的语句，以及语句的翻译，也是为了提高后续翻译效率，解决翻译一致性的问题。记忆库是通过沉淀积累的方式生成。在第一次使用时，记忆库可以为空。

例如，本地术语库的沉淀过程可以在步骤S202之后，在具体实现时，可以包括如下步骤：

（a1）提取原文中的术语以及对应译文中的术语翻译；

（b1）基于术语和术语翻译，沉淀本地术语库。

其中可以采用预先训练的术语提取模型从原文中提取术语，然后从译文中获取译文对应的术语翻译。若本地术语库为空时，直接执行步骤（a1）和（b1）即可。具体地，该沉淀本地术语库的操作，亦即更新本地术语库的操作，将提取的术语以及术语的解释，更新至本地术语库中即可。该过程可以对用户不感知，或者在沉淀本地术语库之后，可以弹出本地术语库沉淀提示界面，告知用户本次沉淀本地术语库的过程中，沉淀的术语的数量以及对应的各个术语以及各术语的翻译。

在本公开的一个实施例中，而若本地术语库不为空，此时可以检测并获取原文中、未包括在本地术语库中的术语；然后弹出一个术语更新提示界面，该术语更新提示界面中包括原文中、未包括在本地术语库中的术语以及对应的术语翻译，以提示用户是否需要更新至本地术语库中；若检测到用户确定更新，将原文中、未包括在本地术语库中的术语以及对应的术语翻译，更新至本地术语库中。

需要说明的是，同一个提示界面中可以包括多个术语，并且每个术语可以单独设置确定按钮和删除按钮，用户同意更新该术语至本地术语库，点击确定，若不容易，点击删除即可。所有术语操作完之后，点击界面的确定，便触发了更新操作。

若不用用户自行准备本地术语库，初次使用时，本地术语库为空。通过多次使用，按照上述方式可以不断地更新本地的术语库，实现对术语库的智能沉淀，使得本地术语库中可以沉淀非常多的术语及对应的解释，以有效地提高后续的翻译效率。

例如，记忆库的沉淀方式，在具体实现时，可以包括如下步骤：

（a2）识别原文中的技术性语句；

具体地，该识别过程可以采用预先训练的技术语句识别模型来识别。或者也可以采用其他预设的规则，如可以设置很多技术性语句的筛选模板，来识别技术性语句。

具体地，采用预先训练的技术语句识别模型来识别时，可以将原文的语句输入至技术语句识别模型中，该技术语句识别模型可以预测并输出该语句属于技术性语句的概率，若该概率大于预设概率阈值，则属于技术性语句，否则不属于技术性语句。

（b2）从译文中提取技术性语句的翻译；

（b3）基于技术性语句和译文中的技术性语句的翻译，沉淀本地记忆库。

同理，该沉淀本地记忆库的操作，亦即更新本地记忆库的操作，将提取的技术性语句以及对应的翻译，更新至本地记忆库中即可。该过程可以对用户不感知，或者在沉淀本地记忆库之后，可以弹出本地记忆库沉淀提示界面，告知用户本次沉淀本地记忆库的过程中，沉淀的技术性语句的数量以及对应的各个技术性语句以及对应的翻译。

在本公开的一个实施例中，该沉淀记忆库的过程也可以由用户参与。具体地，检测并获取原文中、未包括在本地记忆库中的技术性语句；然后弹出一个语句更新提示界面，该语句更新提示界面中包括原文中、未包括在本地记忆库中的技术性语句以及对应的翻译，以提示用户是否需要更新至本地记忆库中；若检测到用户确定更新，将原文中、未包括在本地记忆库中的技术性语句以及对应的翻译，更新至本地记忆库中。

该步骤即用于实现沉淀和积累记忆库，实现记忆库的智能沉淀，以便于在后续翻译中，可以借助于记忆库对技术性语句进行快速翻译，保证技术性语句翻译的一致性，且能够有效地提高翻译效率。

S203、基于原文对应的显示格式、排版格式和链接信息，对译文进行格式处理，使得译文具有与对应的原文相同的格式。

该步骤，用于将原文中的显示格式、排版格式以及连接信息，再完美地回填至译文中，使得译文具有与对应的原文相同的格式，最终得到的译文能够最大限度地还原原文的信息，是一种高保真的文档。

本实施例在对原文进行翻译处理时，可以以句子为粒度，也可以以段落为粒度，当然也可以以整篇文档为粒度，无论什么样的粒度进行翻译处理时，均需要将原文的格式信息，回填至译文中，以高保真地还原原文。优选地，以句子为粒度进行翻译处理，这样译文中的每个句子可以由用户单独编辑，提高用户编辑处理的便捷性。

本实施例的翻译方法，通过采用上述方案，可以提供一种高保真的翻译方案，能够基于原文的显示格式、排版格式和链接信息，对翻译模型翻译得到的译文进行格式处理，实现将原文的显示格式、排版格式和链接信息，完美地回填至译文中，使得译文具有与对应的原文相同的格式，能够得到一种准确性更高、更保真的译文。而且整个翻译过程中，用户无感知，智能性非常高。

而且，本实施例中，可以实现本地术语库以及本地记忆库的沉淀，进一步供后续翻译参考，能够有效地提高后续翻译的效率。

图3是根据本公开第三实施例的示意图；如图3所示，本实施例在上述图2所示实施例的基础上，进一步更加详细地介绍本申请的技术方案，如图3所示，本实施例的翻译方法，具体可以包括如下步骤：

S301、获取用户的译后编辑信息；

S302、基于原文和用户的译后编辑信息，对翻译模型进行训练；

本实施例的该步骤S301与步骤S302可以在上述图2所示实施例的步骤S203之后执行，实现翻译装置中的翻译模型的自学习。

根据上述图2所示实施例的方式，可以得到原文对应的译文。若用户在审核译文过程中，对译文中的某些术语的翻译进行了修改编辑。或者对译文进行了语法修改等译后编辑。此时，可以获取用户的译后编辑信息；将基于译后编辑信息得到编辑后的译文。然后将原文和编辑后的译文构成一条训练样本，对翻译模型进行训练，使得翻译模型可以及时学习到用户的个性化翻译风格，以便于后续可以实现用户的个性化翻译，实现智能自学习。

对于语料积累比较少的个人用户。用户每次在翻译的基础上人为修改后，都将进入翻译模型训练。通过多次这样的自学习过程，最终将生成符合用户自己翻译习惯和千人千面的翻译模型，实现翻译模型越用越准，用户的修改操作越来越少的效果。

对于具有大量语料积累的企业客户，采用上述自学习的自动训练后，可获得符合客户所在领域场景的翻译模型。从而大幅提高行业内容翻译质量，达到智能翻译效果。

上述的自学习过程可以在每次用户进行了译后编辑之后自动进行，在用户没有任何感知的情况下，便对翻译模型做了训练，不仅能够有效地提高翻译的准确性和智能性，还能有效地增强用户的无感体验度。

S303、对译文进行纠错处理；

例如，可以采用预先训练的纠错处理模型，对译文进行拼写、语法和/或格式进行纠错处理。

由于各种原因，上述图1或者图2所示实施例得到的译文可能存在拼写、语法或者格式错误，其中拼写可以指的是词语的拼写或者她他、的地之类错别字。格式可以指的是大小写、字体、颜色等之类的格式。使用格式，将译文输入至预先训练的纠错处理模型中，该纠错处理模型可以识别到译文中是否存在拼写、语法以及格式的错误，同时将错误进行纠正，输出错误的信息以及纠错后的信息。

可选地，纠错处理可以对用户无感知。或者也可以弹出对话框告知用户纠错的内容。或者为了提高准确性，纠错处理过程中，可以基于纠错处理结果，将纠错处理前的译文和纠错处理内容以弹框的形式弹出来，提示用户是否同意纠错。若用户点击同意，则进行纠错处理，保存纠错处理后的译文。若用户点击不同意，则不采用纠错处理的结果进行纠错处理。

采用该纠错处理，可以进一步提高得到的译文的准确性。

S304、对译文进行补全处理。

例如，具体可以采用预先训练的补全处理模型，对译文进行补全处理。同理，该步骤可以在上述图1或者图2所示实施例得到译文之后。具体地，将译文输入至补全处理模型中，该补全处理模型可以识别到译文中缺少的信息，并将缺少的信息进行补全。例如，缺少主语或者定语等信息。

另外，可选地，为了提高补全处理的准确性，本实施例中，还可以基于上下文信息对译文进行补全处理。具体地，若以句子为粒度进行翻译时，可以将该译文的上文信息和下文信息一起输入至补全处理模型中，以供补全处理模型基于译文的上文信息和下文信息，对译文进行更加准确地补全处理。其中上文信息指的是译文的至少一句最近邻的上文信息，下文信息指的是译文的至少一句最近邻的下文信息。

可选地，补全处理可以对用户无感知。或者也可以弹出对话框告知用户补全的内容，用户点击回车自动实现补全处理。或者为了提高准确性，补全处理过程中，可以基于补全处理结果，将补全处理前的译文和需要补全处理的文字以弹框的形式弹出来，提示用户是否同意补全。若用户点击同意，则进行补全处理，保存补全处理后的译文。若用户点击不同意，则不采用补全处理的结果进行补全处理。

例如，图4是本公开实施例提供的一种补全界面示意图。如图4所示，假设机器翻译的译文是“他们不认为如果有人发现了陶工的事，他们会受不了。句中误删了“陶工”。此时，补全处理模型可以识别到需要补全的位置以及需要补全的内容，并可以弹出对话框告知用户在译文中竖线标识的位置补全了“陶工”。

再例如，图5是本公开实施例提供的另一种补全界面示意图。如图5所示，假设机器翻译的译文是“他们不认为如果有人发现了波特的事，他们会受不了”。补全处理模型基于上下文，可以发现这里的波特应该是波特夫妇。此时弹出的补全处理界面如图5所示，此时用户点击回车可以自动补全该需要补全的词汇。

上述图4和图5仅为两种补全示例，实际应用中，还可以存在其他各种情况的补全，在此不再一一举例赘述。采用该补全处理，可以进一步提高得到的译文的准确性。

需要说明的是，本实施例的步骤S303的纠错处理和步骤S304的补全处理分别与上述步骤S301-S302的自学习步骤没有先后顺序关系，分别为翻译装置的智能自学习功能、智能纠错功能以及智能补全功能；其中智能纠错和智能补全可以作为译后编辑的功能。与上述图1和图2所示实施例的高保真翻译功能、以及智能沉淀术语库的功能并列，均作为该翻译装置的亮点功能，能够有效地提高翻译装置的翻译准确性、以及翻译效率，增强翻译的智能性。

本实施例的翻译方法，通过采用上述方案，与现有技术相比，不仅可以将现有的自动翻译和用户的手动译后编辑功能合并在一起，同时为翻译装置提供了自学习功能、自动纠错功能和自动补全功能，进一步丰富了翻译装置的智能性、准确性以及翻译效率。

图6是本公开实施提供的一种基于机器翻译和译后编辑的自学习翻译装置的功能示意图。基于以上所述，可以得知，在本公开的一个实施例中，本公开的翻译装置可以为一个基于机器翻译和译后编辑的自学习翻译装置。如图6所示，参考上述实施例的记载，可以得知，本实施例的基于机器翻译和译后编辑的自学习翻译装置具备高保真、智能翻译、智能沉淀术语库、智能沉淀记忆库、智能自学习、以及译后编辑等等特性。

图7是根据本公开第四实施例的示意图；如图7所示，本实施例提供一种翻译装置700，包括：

获取模块701，用于获取原文、原文对应的格式信息以及翻译信息；

翻译模块702，用于基于所述翻译信息，对所述原文进行翻译，得到译文；

处理模块703，用于基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式。

本实施例的翻译装置700，通过采用上述模块实现翻译处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述实施例的相关记载，在此不再赘述。

图8是根据本公开第五实施例的示意图；如图8所示，本实施例提供一种翻译装置800，在上述图7所示实施例的技术方案的基础上，进一步更加详细地描述本申请的技术方案。

如图8所示，本实施例的翻译装置800包括获取模块801、翻译模块802和处理模块803，分别与上述图7所示实施例的获取模块801、翻译模块802以及处理模块803的同名模块功能相同。

进一步可选地，在本公开的一个实施例中，获取模块801，用于：获取原文对应的显示格式、排版格式和/或链接信息；

进一步地，处理模块803，用于：

基于显示格式、排版格式和/或链接信息，对译文进行排版处理和/或链接处理，使得译文具有与对应的原文相同的显示格式、排版格式和/或链接。

进一步可选地，在本公开的一个实施例中，获取模块801，用于：

以句子为粒度，获取原文以及原文对应的格式信息。

进一步可选地，在本公开的一个实施例中，翻译模块802，用于：

基于翻译信息，采用翻译模型对原文进行翻译，得到译文。

进一步可选地，在本公开的一个实施例中，翻译装置800还包括训练模块804；

获取模块801，还用于获取用户的译后编辑信息；

训练模块804，用于基于原文和用户的译后编辑信息，对翻译模型进行训练。

进一步可选地，如图8所示，在本公开的一个实施例中，还包括：

术语提取模块805，用于提取原文中的术语以及对应译文中的术语翻译；

术语库沉淀模块806，用于基于术语和术语翻译，沉淀本地术语库。

进一步可选地，在本公开的一个实施例中，术语提取模块805，用于：

采用预先训练的术语提取模型从原文中提取术语；

并获取术语对应的术语翻译。

第一弹出模块807，用于弹出本地术语库沉淀提示界面，以告知沉淀的术语的数量、以及沉淀的术语以及对应的术语翻译。进一步可选地，在本公开的一个实施例中，术语库沉淀模块806，用于：

获取原文中、未包括在本地术语库中的术语；

弹出术语更新提示界面，该术语更新提示界面中包括原文中、未包括在本地术语库中的术语以及对应的术语翻译，以提示用户是否需要更新至本地术语库中；

若检测到所述用户确定更新，将所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译，更新至所述本地术语库中。

进一步可选地，如图8所示，在本公开的一个实施例中，翻译装置800还包括：

语句提取模块808，用于识别原文中的技术性语句；

语句提取模块808，还用于从译文中提取技术性语句的翻译；

记忆库沉淀模块809，用于基于技术性语句和技术性语句的翻译，沉淀本地记忆库。

进一步可选地，在本公开的一个实施例中，语句提取模块808，用于：

采用预先训练的技术语句识别模型从原文中提取技术性语句。

第二弹出模块810，用于：

弹出本地记忆库沉淀提示界面，以告知沉淀的技术性语句的数量、以及沉淀的技术性语句以及对应的翻译。

进一步可选地，在本公开的一个实施例中，记忆库沉淀模块809，用于：

获取原文中、未包括在本地记忆库中的技术性语句；

弹出语句更新提示界面，语句更新提示界面中包括原文中、未包括在本地记忆库中的技术性语句以及对应的翻译，以提示用户是否需要更新至本地记忆库中；

若检测到用户确定更新，将原文中、未包括在本地记忆库中的技术性语句以及对应的翻译，更新至本地记忆库中。

纠错模块811，用于对译文进行纠错处理。

进一步可选地，纠错模块811，用于：

采用预先训练的纠错处理模型，对译文进行拼写、语法和/或格式进行纠错处理。

进一步可选地，如图8所示，在本公开的一个实施例中，翻译装置800还包括：补全模块812，用于对译文进行补全处理。

进一步可选地，补全模块812，还用于

采用预先训练的补全处理模型，对译文进行补全处理。

本实施例的翻译装置800，通过采用上述模块实现翻译处理的实现原理以及技术效果，与上述相关方法实施例的实现相同，详细可以参考上述实施例的相关记载，在此不再赘述。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器（ROM）902中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）903中的计算机程序，来执行各种适当的动作和处理。在RAM8903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如翻译方法。例如，在一些实施例中，翻译方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的翻译方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行翻译方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种翻译方法，包括：

获取原文、原文对应的格式信息以及翻译信息；

基于所述翻译信息，对所述原文进行翻译，得到译文；

基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式；

获取原文对应的格式信息，包括：

获取所述原文对应的排版格式；所述排版格式包括首行缩进、标题居中、表格居中或者图标居中；

所述方法还包括：

采用预先训练的补全处理模型，对所述译文进行补全处理；

采用预先训练的补全处理模型，对所述译文进行补全处理，包括：

采用所述补全处理模型，识别所述译文中需要补全的位置和需要补全的内容；

将所述译文、所述需要补全的位置和所述需要补全的内容以弹框的形式展示，并提示用户是否同意补全；

在所述用户同意时，进行补全处理；

其中，基于所述翻译信息，对所述原文进行翻译，得到译文，包括：

基于所述翻译信息，采用翻译模型对所述原文进行翻译，得到所述译文；

所述方法还包括：

获取用户的译后编辑信息；

基于所述原文和所述用户的译后编辑信息，对所述翻译模型进行训练；

所述方法还包括：采用预先训练的技术语句识别模型识别原文中的技术性语句；

其中，采用预先训练的技术语句识别模型识别原文中的技术性语句，包括：

将所述原文的语句输入至所述技术语句识别模型中，获取所述技术语句识别模型预测并输出的所述语句属于技术性语句的概率；

若所述概率大于预设概率阈值，确定所述语句属于技术性语句；

所述方法还包括：

从所述译文中提取所述技术性语句的翻译；

基于所述技术性语句和所述技术性语句的翻译，沉淀本地记忆库。

2.根据权利要求1所述的方法，其中，获取原文对应的格式信息，还包括：

获取所述原文对应的显示格式和链接信息；所述显示格式包括文字的颜色、或者文字是否增加上、下划线；

基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式，包括：

基于所述显示格式、所述排版格式和/或所述链接信息，对所述译文进行排版处理和/或链接处理，使得所述译文具有与对应的所述原文相同的显示格式、排版格式和/或链接。

3.根据权利要求1所述的方法，其中，获取原文、原文对应的格式信息，包括：

以句子为粒度，获取所述原文以及所述原文对应的所述格式信息。

4.根据权利要求1所述的方法，其中，所述方法还包括：

提取所述原文中的术语以及对应所述译文中的术语翻译；

基于所述术语和所述术语翻译，沉淀本地术语库。

5.根据权利要求4所述的方法，其中，提取所述原文中的术语以及对应所述译文中的术语翻译，包括：

采用预先训练的术语提取模型从所述原文中提取所述术语；

并获取所述术语对应的术语翻译。

6.根据权利要求4所述的方法，其中，基于所述术语和所述术语翻译，沉淀本地术语库之后，包括：

弹出本地术语库沉淀提示界面，以告知沉淀的所述术语的数量、以及沉淀的所述术语以及对应的所述术语翻译。

7.根据权利要求4所述的方法，其中，基于所述术语和所述术语翻译，沉淀本地术语库，包括：

获取所述原文中、未包括在所述本地术语库中的术语；

弹出术语更新提示界面，所述术语更新提示界面中包括所述原文中、未包括在所述本地术语库中的所述术语以及对应的所述术语翻译，以提示用户是否需要更新至所述本地术语库中；

8.根据权利要求1所述的方法，其中，基于所述技术性语句和所述技术性语句的翻译，沉淀本地记忆库之后，包括：

弹出本地记忆库沉淀提示界面，以告知沉淀的所述技术性语句的数量、以及沉淀的所述技术性语句以及对应的翻译。

9.根据权利要求1所述的方法，其中，基于所述技术性语句和所述技术性语句的翻译，沉淀本地记忆库，包括：

获取所述原文中、未包括在所述本地记忆库中的技术性语句；

弹出语句更新提示界面，所述语句更新提示界面中包括所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译，以提示用户是否需要更新至所述本地记忆库中；

若检测到所述用户确定更新，将所述原文中、未包括在所述本地记忆库中的所述技术性语句以及对应的翻译，更新至所述本地记忆库中。

10.根据权利要求1-9任一所述的方法，其中，所述方法还包括：

对所述译文进行纠错处理。

11.根据权利要求10所述的方法，其中，对所述译文进行纠错处理，包括：

采用预先训练的纠错处理模型，对所述译文进行拼写、语法和/或格式进行纠错处理。

12.一种翻译装置，包括：

处理模块，用于基于所述格式信息对所述译文进行格式处理，使得所述译文具有与对应的所述原文相同的格式；

所述获取模块，用于获取所述原文对应的排版格式；所述排版格式包括首行缩进、标题居中、表格居中或者图标居中；

所述装置还包括：

补全模块，用于采用预先训练的补全处理模型，对所述译文进行补全处理；

所述补全模块，具体用于：

采用预先训练的补全处理模型，对所述译文进行补全处理；

在所述用户同意时，进行补全处理；

所述翻译模块，用于基于所述翻译信息，采用翻译模型对所述原文进行翻译，得到所述译文；

所述装置还包括训练模块；

所述获取模块，还用于获取用户的译后编辑信息；

所述训练模块，用于基于所述原文和所述用户的译后编辑信息，对所述翻译模型进行训练；

所述装置还包括：语句提取模块，用于采用预先训练的技术语句识别模型识别原文中的技术性语句；

所述语句提取模块，还用于：

所述装置还包括：

所述语句提取模块，还用于从所述译文中提取所述技术性语句的翻译；

记忆库沉淀模块，用于基于所述技术性语句和所述技术性语句的翻译，沉淀本地记忆库。

13.根据权利要求12所述的装置，其中，所述获取模块，还用于：

进一步地，所述处理模块，用于：

14.根据权利要求12所述的装置，其中，所述获取模块，用于：

15.根据权利要求12所述的装置，其中，所述装置还包括：

术语提取模块，用于提取所述原文中的术语以及对应所述译文中的术语翻译；

术语库沉淀模块，用于基于所述术语和所述术语翻译，沉淀本地术语库。

16.根据权利要求15所述的装置，其中，所述术语提取模块，用于：

采用预先训练的术语提取模型从所述原文中提取所述术语；

并获取所述术语对应的术语翻译。

17.根据权利要求15所述的装置，其中，包括：

第一弹出模块，用于弹出本地术语库沉淀提示界面，以告知沉淀的所述术语的数量、以及沉淀的所述术语以及对应的所述术语翻译。

18.根据权利要求15所述的装置，其中，所述术语库沉淀模块，用于：

获取所述原文中、未包括在所述本地术语库中的术语；

19.根据权利要求12所述的装置，其中，还包括：第二弹出模块，用于：

20.根据权利要求12所述的装置，其中，所述记忆库沉淀模块，用于：

21.根据权利要求12-20任一所述的装置，其中，所述装置还包括：

纠错模块，用于对所述译文进行纠错处理。

22.根据权利要求21所述的装置，其中，所述纠错模块，用于：

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11中任一项所述的方法。