CN113536811A

CN113536811A - 富文本文档的翻译方法及装置

Info

Publication number: CN113536811A
Application number: CN202110797431.5A
Authority: CN
Inventors: 李华顺
Original assignee: Hangzhou Longbu Technology Co ltd
Current assignee: Hangzhou Longbu Technology Co ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-22

Abstract

本申请公开了一种富文本文档的翻译方法及装置，所述翻译方法包括：获取待翻译的富文本文档；提取所述富文本文档中的第一语言的各个第一纯文本字符串；获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

Description

富文本文档的翻译方法及装置

技术领域

本申请涉及网页翻译技术领域，尤其涉及一种富文本文档的翻译方法及装置。

背景技术

在常见的超文本标记语言(Hyper Text Mark-up Language，HTML)格式的富文本文档中，其内容一般包括文字、图片、视频、超级链接、表格、有序/无序列表以及复杂的样式等多种信息。而翻译HTML格式的富文本文档只需要对文档中的文字进行处理即可。

在相关技术中，大多数服务只能解决纯文本格式的翻译，少量提供富文本格式支持的服务需要额外的费用，并且在翻译完成后可能会导致文档的排版发生变化。

发明内容

本申请公开一种富文本文档的翻译方法及装置，解决了在对富文本文档翻译完成后可能会导致文档的排版发生变化的问题。

为了解决上述问题，本申请采用下述技术方案：

第一方面，本申请实施例公开一种富文本文档的翻译方法，包括：获取待翻译的富文本文档；提取所述富文本文档中的第一语言的各个第一纯文本字符串；获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

第二方面，本申请实施例公开一种富文本文档的翻译装置，包括：第一获取模块，用于获取待翻译的富文本文档；提取模块，用于提取所述富文本文档中的第一语言的各个第一纯文本字符串；第二获取模块，用于获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；替换模块，用于使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

本申请采用的技术方案能够达到以下有益效果：

本申请实施例提供一种富文本文档的翻译方法，包括：获取待翻译的富文本文档；提取所述富文本文档中的第一语言的各个第一纯文本字符串；获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。本申请通过使用与从待翻译的富文本文档中提取的第一语言的各个第一纯文本字符串对应的第二语言的第二纯文本字符串替换富文本文档中的对应的第一纯文本字符串，有效解决了在对富文本文档翻译完成后可能会导致文档的排版发生变化的问题。

附图说明

图1为本申请实施例公开的一种富文本文档的翻译方法的流程示意图；

图2为本申请实施例公开的文档对象中文本节点的示意图；

图3为本申请实施例公开的提取出的第一纯文本字符串数组的示意图；

图4为本申请实施例公开的将各个第一纯文本字符串分别替换为占位符的示意图；

图5为本申请实施例公开的将各个第一纯文本字符串中的文本组合为第一字符串文本的示意图；

图6为本申请实施例公开的与第一字符串文本对应的第二字符串文本的示意图；

图7为本申请实施例公开的使用第二纯文本字符串替换富文本文档中的对应第一纯文本字符串的示意图；

图8为本申请实施例公开的翻译效果的示意图；

图9为本申请实施例公开的一种富文本文档的翻译装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请公开一种富文本文档的翻译方法，图1为本申请实施例公开的一种富文本文档的翻译方法的流程示意图。

S110、获取待翻译的富文本文档。

S120、提取所述富文本文档中的第一语言的各个第一纯文本字符串。

富文本文档中包括文本信息和非文本信息。在本申请中，将获取的待翻译的富文本文档中的第一语言的各个第一纯文本字符串提取出来，组成第一纯文本字符串数组，具体的，以非文本信息进行划分，提取富文本文档中的第一语言的各个第一纯文本字符串，例如，将富文本文档中的第一非文本信息之前的文本信息提取为第一纯文本字符串数组的第一个第一纯文本字符串，将富文本文档中的第一非文本信息之后，第二非文本信息之前的文本信息提取为第一纯文本字符串数组的第二个第一纯文本字符串，将富文本文档中的第二非文本信息之后，第三非文本信息之前的文本信息提取为第一纯文本字符串数组的第三个第一纯文本字符串，以此类推。

S130、获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串。

具体的，通过翻译获取各个第一纯文本字符串对应的第二语言的第二纯文本字符串。在本申请中，可以通过内部翻译获取各个第一纯文本字符串对应的第二语言的第二纯文本字符串，也可以通过调用第三方翻译服务获取各个第一纯文本字符串对应的第二语言的第二纯文本字符串。

S140、使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

在本申请中，直接通过使用各个第一纯文本字符串对应的第二语言的第二纯文本字符串替换富文本文档中的对应第一纯文本字符串，解决了在对富文本文档翻译完成后可能会导致文档的排版发生变化的问题。

在本申请实施例中，提取所述富文本文档中的第一语言的各个第一纯文本字符串，可以包括：将所述富文本文档解析为文档对象模型；提取所述文档对象模型中的第一语言的各个第一纯文本字符串。将富文本文档解析为文档对象模型，可以获得一个文档对象，有利于用户可以轻易的识别文档里面各种类型的数据，并有标准、简易的方法可以获得各类数据。将富文本文档解析为文档对象模型可以通过DomParser、Nokogiri、GoQuery等文档对象模型解析工具实现，在本申请中，可以通过采用Go语言里面的GoQuery库将富文本文档解析为文档对象模型。进一步的，在将富文本文档解析为文档对象模型之后，可以通过递归遍历整个文档对象的节点Node，找出所有如图2所示的节点Node类型为文本节点TextNode的节点Node，实现对文档对象模型中的第一语言的各个第一纯文本字符串的提取，组成如图3所示的第一纯文本字符串数组。

在进一步的技术方案中，为了便于将提取出的文档对象模型中的第一语言的各个第一纯文本字符串翻译完成后还原到正确的位置，因此，提取所述文档对象模型中的第一语言的各个第一纯文本字符串，可以包括：提取各个所述第一纯文本字符串，并将所述文档对象模型中的各个所述第一纯文本字符串分别替换为占位符。也就是说，在提取各个第一纯文本字符串的同时，将文档对象模型中的各个第一纯文本字符串分别替换为占位符，其中，占位符的格式为${TXT_数字序号}，替换结果如图4所示。

在更进一步的技术方案中，使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串，可以包括：使用所述第二纯文本字符串替换对应的所述占位符。具体的，在将各个第一纯文本字符串翻译为与之对应的第二语言的第二纯文本字符串之后，使用第二纯文本字符串替换对应的占位符，从而可以实现在对富文本文档的翻译完成后，保持文档的排版不变。

一种可能的实现方式中，在提取所述富文本文档中的第一语言的各个第一纯文本字符串之后，还可以包括：将提取的各个所述第一纯文本字符串中的文本组合为第一字符串文本。具体的，为了使得最终得到的翻译结果更加精准，在提取富文本文档中的第一语言的各个第一纯文本字符串之后，如图5所示，可以先将提取的各个第一纯文本字符串中的文本组合为第一字符串文本，然后对组合而成的第一字符串文本进行翻译，其中，为了便于后续将翻译结果按照原本的第一纯文本字符串进行拆分，在将文本组合为第一字符串文本时，各个第一纯文本字符串中的文本之间通过换行符隔开。此外，在各个第一纯文本字符串的文本中可能会存在换行符，为了避免各个第一纯文本字符串的文本中原本存在的换行符影响后续对翻译结果的拆分，对各个第一纯文本字符串的文本中原本存在的换行符进行删除。

在本申请实施例中，可以通过调用第三方翻译服务，将各个第一纯文本字符串翻译为对应的第二语言的第二纯文本字符串。在第三方翻译服务的单次调用有字数限制的情况下，可以将各个第一纯文本字符串中的文本组合为多个第一字符串文本，组合而成的每一个第一字符串文本的字数均小于或等于第三方翻译服务单次调用的字数限制，从而降低翻译成本。进一步的，多个第一字符串文本可以并行进行翻译，也可以按照顺序进行翻译，在翻译过程中，如果存在个别请求异常(如超时、网络异常等)，在内部实现重试，直到所有段落翻译完成。

在进一步的技术方案中，获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串，包括：获取所述第一字符串文本对应的所述第二语言的第二字符串文本，将所述第二字符串文本进行拆分，得到各个所述第一纯文本字符串对应的所述第二纯文本字符串。也就是说，可以先将第一字符串文本翻译为如图6所示的对应的第二语言的第二字符串文本，然后根据上述将各个第一纯文本字符串中的文本隔开的换行符，将第二字符串文本拆分为与各个第一纯文本字符串对应的第二纯文本字符串，再使用第二纯文本字符串替换富文本文档中的对应的第一纯文本字符串，替换结果如图7所示，最终得到的完整地翻译效果如图8所示。

通过上文所述的富文本文档的翻译方法对富文本文档进行翻译，在翻译精确的同时，能够保持富文本文档原本的内容结果和样式等细节。

图9为本申请实施例公开的一种富文本文档的翻译装置的结构示意图。如图9所示，富文本文档的翻译装置900包括第一获取模块910、提取模块920、第二获取模块930和替换模块940。

在本申请中，第一获取模块910，用于获取待翻译的富文本文档；提取模块920，用于提取所述富文本文档中的第一语言的各个第一纯文本字符串；第二获取模块930，用于获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；替换模块940，用于使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

在一种实现方式中，所述提取模块920提取所述富文本文档中的第一语言的各个第一纯文本字符串，包括：将所述富文本文档解析为文档对象模型；提取所述文档对象模型中的第一语言的各个第一纯文本字符串。

在一种实现方式中，所述提取模块920提取所述文档对象模型中的第一语言的各个第一纯文本字符串，包括：提取各个所述第一纯文本字符串，并将所述文档对象模型中的各个所述第一纯文本字符串分别替换为占位符。

在一种实现方式中，所述替换模块940使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串，包括：使用所述第二纯文本字符串替换对应的所述占位符。

在一种实现方式中，所述提取模块920还用于：在提取所述富文本文档中的第一语言的各个第一纯文本字符串之后，将提取的各个所述第一纯文本字符串中的文本组合为第一字符串文本。

在一种实现方式中，所述第二获取模块930获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串，包括：获取所述第一字符串文本对应的所述第二语言的第二字符串文本，将所述第二字符串文本进行拆分，得到各个所述第一纯文本字符串对应的所述第二纯文本字符串。

本申请实施例提供的该装置900，可执行前文方法实施例中所述的各方法，并实现前文方法实施例中所述的各方法的功能和有益效果，在此不再赘述。

本申请上文实施例中重点描述的是各个实施例之间的不同，各个实施例之间不同的优化特征只要不矛盾，均可以组合形成更优的实施例，考虑到行文简洁，在此则不再赘述。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种富文本文档的翻译方法，其特征在于，包括：

获取待翻译的富文本文档；

提取所述富文本文档中的第一语言的各个第一纯文本字符串；

获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；

使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

2.根据权利要求1所述的翻译方法，其特征在于，提取所述富文本文档中的第一语言的各个第一纯文本字符串，包括：

将所述富文本文档解析为文档对象模型；

提取所述文档对象模型中的第一语言的各个第一纯文本字符串。

3.根据权利要求2所述的翻译方法，其特征在于，提取所述文档对象模型中的第一语言的各个第一纯文本字符串，包括：提取各个所述第一纯文本字符串，并将所述文档对象模型中的各个所述第一纯文本字符串分别替换为占位符。

4.根据权利要求3所述的翻译方法，其特征在于，使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串，包括：使用所述第二纯文本字符串替换对应的所述占位符。

5.根据权利要求1所述的翻译方法，其特征在于，在提取所述富文本文档中的第一语言的各个第一纯文本字符串之后，还包括：将提取的各个所述第一纯文本字符串中的文本组合为第一字符串文本。

6.根据权利要求5所述的翻译方法，其特征在于，获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串，包括：获取所述第一字符串文本对应的所述第二语言的第二字符串文本，将所述第二字符串文本进行拆分，得到各个所述第一纯文本字符串对应的所述第二纯文本字符串。

7.一种富文本文档的翻译装置，其特征在于，包括：

第一获取模块，用于获取待翻译的富文本文档；

提取模块，用于提取所述富文本文档中的第一语言的各个第一纯文本字符串；

第二获取模块，用于获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串；

替换模块，用于使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串。

8.根据权利要求7所述的翻译装置，其特征在于，所述提取模块提取所述富文本文档中的第一语言的各个第一纯文本字符串，包括：

将所述富文本文档解析为文档对象模型；

9.根据权利要求8所述的翻译装置，其特征在于，所述提取模块提取所述文档对象模型中的第一语言的各个第一纯文本字符串，包括：提取各个所述第一纯文本字符串，并将所述文档对象模型中的各个所述第一纯文本字符串分别替换为占位符。

10.根据权利要求9所述的翻译装置，其特征在于，所述替换模块使用所述第二纯文本字符串替换所述富文本文档中的对应所述第一纯文本字符串，包括：使用所述第二纯文本字符串替换对应的所述占位符。

11.根据权利要求7所述的翻译装置，其特征在于，所述提取模块还用于：在提取所述富文本文档中的第一语言的各个第一纯文本字符串之后，将提取的各个所述第一纯文本字符串中的文本组合为第一字符串文本。

12.根据权利要求11所述的翻译装置，其特征在于，所述第二获取模块获取各个所述第一纯文本字符串对应的第二语言的第二纯文本字符串，包括：获取所述第一字符串文本对应的所述第二语言的第二字符串文本，将所述第二字符串文本进行拆分，得到各个所述第一纯文本字符串对应的所述第二纯文本字符串。