CN113297856A

CN113297856A - 文档翻译方法、装置及电子设备

Info

Publication number: CN113297856A
Application number: CN202010852470.6A
Authority: CN
Inventors: 聂一兵; 董双; 巩媛媛; 刘婕; 韩玉洁; 夏明泽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-08-24
Anticipated expiration: 2040-08-21
Also published as: CN113297856B

Abstract

本申请实施例公开了文档翻译方法、装置及电子设备，该方法包括：确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性信息；根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记；根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；以所述文本串为单位获取对应的译文；根据所述外部标记与所述文本串之间的位置关系将文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。通过本申请实施例，能够实现对DITA XML文档的有效翻译。

Description

文档翻译方法、装置及电子设备

技术领域

本申请涉及文档翻译技术领域，特别是涉及文档翻译方法、装置及电子设备。

背景技术

技术写作伴随着工业时代而产生，随着设备越来越复杂，机械设备的全球使用，设备搭载的软件越来越多，等等，提供各种技术资料的形式帮用户使用文档是非常常见的。例如，某产品可能既有硬件设备，同时又搭载各种软件，例如，手机等移动终端设备，等等。则厂商在向消费者用户售卖这种产品时，通常会提供一整套完整的用户手册，例如，包括技术文档手册，配置手册，安装手册，命令参考手册，等等。这种手册通常是由相关人员进行编写的，具体可以采用一些办公软件进行相关文档的写作。

但是，同一产品的不同类手册之间可能会具有一些重复的内容，同时，在同一产品的不同版本之间也往往存在一些重复的内容。此时，如果使用普通的办公软件进行这类技术文档的写作，则无法解决这种内容重用的问题，写作效率会很低。

为此，业界提出了DITA(Darwin Information Typing Architecture，达尔文信息类型化体系结构)，在该体系结构中，可以用标记(tag)来定义内容的样式等信息。如果某一段内容在很多地方都要用到，则可以打个标识，例如，ID等，在其他地方引用这个ID即可实现对这段内容的重用。这样，重用的内容只需要写一遍，而不需要在重用的地方重复写多次；如果需要修改这种内容，也只需要改源头，其他重用这部分内容的地方可以自动同步修改。通过这种方式，可以提高技术文档的写作效率。

由于技术文档通常还具有多渠道发布的需求，例如，包括PC端的网页，移动端的App(应用程序)，或者还可能需要发布为PDF(Portable Document Format)文档，等等。因此，具体在基于DITA理念进行技术文档写作时，通常可以采用XML等格式的文档来承载，这种文档也称DITA XML文档。在渲染过程中，可以根据出版需求，生成XML能够转换形成的各种目标出版格式，如PDF、RTF(Rich Text Format，富文本格式)或HTML(HyperText MarkupLanguage，超文本标记语言)等，由展示终端提供给用户阅读。

由于技术文档可能还需要面向多个国家的用户进行发布，因此，在使用一种语言完成文档的写作后，通常还需要翻译成其他语言。但是，由于DITA XML格式的文档中含有大量的标记，例如，topic、title等，并且通常与实际需要翻译的文本混合在一起，使得其翻译需求与传统的文本翻译不同。

因此，如何提供面向DITA XML文档的翻译方案，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了文档翻译方法、装置及电子设备，能够实现对DITA XML文档的有效翻译。

本申请提供了如下方案：

一种文档翻译方法，包括：

确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性信息；

根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记；

根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

以所述文本串为单位获取对应的译文；

根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种文档翻译方法，包括：

根据所述标记与所述文本内容相对的位置信息，将所述标记分类为内部标记以及外部标记；

将所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示；

在获得所述文本串对应的译文后，根据所述外部标记与所述文本串之间的位置关系将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种文档翻译方法，包括：

根据所述标记与所述文本内容相对的位置信息，从所述标记中确定外部标记，并将所述外部标记提取到模板文件中；

在翻译过程中，根据接收到的对文本串进行拆分或者合并的操作，对所述模板文件中的外部标记进行修改。

一种文档翻译方法，包括：

提供用于提交源文档的操作选项；

将接收到的源文档提交到服务端，所述服务端用于从所述源文档中确定出外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

对所述服务端提供的文本串信息进行展示；

获得所述文本串对应的译文后，提交到服务端，以便所述服务端根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种服务对象信息提供方法，包括：

在服务对象信息页面中提供用于对服务对象关联的描述文档进行查看的操作选项，所述描述文档为按照面向主题的体系结构编写，用于记录在使用所述服务对象过程中所需查考的资料类信息；

通过所述操作选项接收到查看请求后，获取所述描述文档的详情信息，其中，所述描述文档包括多个版本，分别对应不同的语言，所述多个版本的描述文档在源文档的基础上进行翻译获得；其中，在对所述源文档进行翻译时，根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中，以所述文本串为单位获取对应的译文后，根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档；

提供用于对所需的语言进行选择的操作选项，以便按照所选中的目标语言对所述描述文档的详情信息进行展示。

一种文档翻译装置，包括：

源文档确定单元，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性信息；

外部标记确定单元，用于根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记；

外部标记提取单元，用于根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

译文获取单元，用于以所述文本串为单位获取对应的译文；

回填单元，用于根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种文档翻译装置，包括：

源文档确定单元，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性；

标记分类单元，用于根据所述标记与所述文本内容相对的位置信息，将所述标记分类为内部标记以及外部标记；

外部标记提取单元，用于将所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

内部标记可视化展示单元，用于对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示；

回填单元，用于在获得所述文本串对应的译文后，根据所述外部标记与所述文本串之间的位置关系将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种文档翻译装置，包括：

源文档确定单元，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记用于对关联的文本内容的属性信息进行描述；

外部标记确定单元，用于根据所述标记与所述文本内容相对的位置信息，从所述标记中确定外部标记；

外部标记修改单元，用于在翻译过程中，根据接收到的对文本串进行拆分或者合并的操作，对所述模板文件中的外部标记进行修改。

一种文档翻译装置，包括：

操作选项提供单元，用于提供用于提交源文档的操作选项；

源文档提交单元，用于将接收到的源文档提交到服务端，所述服务端用于从所述源文档中确定出外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

文本串展示单元，用于对所述服务端提供的文本串信息进行展示；

译文提交单元，用于获得所述文本串对应的译文后，提交到服务端，以便所述服务端根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

一种服务对象信息提供装置，包括：

第一操作选项提供单元，用于在服务对象信息页面中提供用于对服务对象关联的描述文档进行查看的操作选项，所述描述文档为按照面向主题的体系结构编写，用于记录在使用所述服务对象过程中所需查考的资料类信息；

详情信息获取单元，用于通过所述操作选项接收到查看请求后，获取所述描述文档的详情信息，其中，所述描述文档包括多个版本，分别对应不同的语言，所述多个版本的描述文档在源文档的基础上进行翻译获得；其中，在对所述源文档进行翻译时，根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中，以所述文本串为单位获取对应的译文后，根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档；

第二操作选项提供单元，用于提供用于对所需的语言进行选择的操作选项，以便按照所选中的目标语言对所述描述文档的详情信息进行展示。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，对于DITAXML等源文档，可以识别出其中包含的外部标记，并据此将文本内容划分为多个文本串，还可以将外部标记剥离到模板文件中，以此实现对源文档中通过这种外部标记描述的属性信息的保留，避免在翻译过程中被删除或者被不当翻译。对于划分出的文本串，可以在编辑界面中进行展示，这样，可以以文本串为单位进行翻译，获得的译文内容可以根据与外部标记之间的位置关系信息，回填到模板文件中，以此生成翻译后的文档。通过这种方式，可以实现对DITA XML等格式的源文档的翻译，并且由于可以区分出外部标记，并将其剥离到模板文件中，因此，可以实现对源文档中样式等信息的保留，避免出现误删或者被不当翻译等情形。

另外，通过将外部标记剥离到模板文件中，还可以实现对源文件的创造式翻译，并且可以根据创造式翻译过程中的文本串拆分、合并等操作，实现对关联的外部标记的自动修改。这样，不仅可以在文本串层面上实现创造式翻译，还可以实现对外部标记的同步修改，因此，用户不必再自行修改模板文件中的外部标记，同时避免回填时出错。

再者，本申请实施例还可以根据映射文件，提供出版物的目录信息，这样，使得用户可以获得多个源文档之间的上下文关系信息，便于其依据上下文关系对翻译结果进行校对等工作。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-1是本申请实施例提供的应用场景示意图；

图1-2是本申请实施例提供的系统架构示意图；

图2是本申请实施例提供的第一方法的流程图；

图3是本申请实施例提供的第一应用界面示意图；

图4是本申请实施例提供的第二应用界面示意图；

图5是本申请实施例提供的第二方法的流程图；

图6是本申请实施例提供的第三方法的流程图；

图7是本申请实施例提供的第四方法的流程图；

图8是本申请实施例提供的第五方法的流程图；

图9是本申请实施例提供的第一装置的示意图；

图10是本申请实施例提供的第二装置的示意图；

图11是本申请实施例提供的第三装置的示意图；

图12是本申请实施例提供的第四装置的示意图；

图13是本申请实施例提供的第五装置的示意图；

图14是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解本申请实施例，下面首先对DITAXML文档进行简单的介绍。在DITA XML文档中，主要是通过面向主题的方式进行文本编辑，通过标记(tag)对文本的样式、参数类别等属性进行描述。在DITA主题的基础结构中，内部各要素之间按照一定逻辑关系进行组合。标题、摘要、内容主体、任务、引用等主题，可以对应描述不同结构的内容模块。此外，DITA主题还可以被定义在另外一个主题内部，形成子主题或嵌套主题，以便于同组或同类内容的管理、编辑和信息交换。构成DITA主题的结构体可以使用XML来描述，也即，一个XML文档可以对应文件的一个主题(TOPIC)，并可以经映射文件(DITA MAP)重组后形成交付出版物的各个章节部件。

这种方式为DITA带来了诸多设计和使用方面的优势。首先，XML将出版物的内容与形式分离，出版业界可以将同样的数字化内容在不同的展现终端中重复使用，所需做的仅是依据不同展现终端的格式要求对XML文档进行渲染与转换。其次，XML是可扩展标记语言，面向特定领域的出版编辑可以使用DTD(Document Type Definition，文档类型定义)，拓展XML模板，重新创建DITA主题中的元素、元素属性、排列方式、层级顺序等，将DITA主题中出现的标签专门化成为符合特定领域术语要求的标签。再次，D1TA借助XML这样具有普适性的格式，可以方便地与其他机构进行信息交换，而不必重新定制开发专用的创作工具或专有格式解析程序。

但是，DITA以XML格式作为内容载体，也存在一定的局限性。例如，XML在设计上实现了内容与格式的相对分离，但不能将标记、结构与内容完全分开，致使DITA主题中混淆了与内容无关的标记和显示结构。也正是由于这个原因，使得DITA XML文档的翻译工作面临一定的困难，尤其难以通过机器翻译的方式来实现，因为机器难以将标记与内容区分开，可能会将不需要翻译的内容进行了翻译，以至于翻译后的文档可能会丢失原有的样式等信息，或者译文可能会出现错误等情况。

为此，在本申请实施例中，提供了对DITA XML文档进行翻译时的辅助工具，该工具可以根据文档中的标记出现的位置等信息，对文档中包含的标记进行分类。例如，位于一个或多个完整的句子两端，用于描述句子或者段落样式的标记可以称为外部标记；相应的，位于句子内部，用于描述词或短语的样式或参数类型等属性的标记，可以称为内部标记。之后，可以根据这种外部标记将文档中的文本内容划分为多个文本串(可以是一个完整的句子，或者也可以是一个段落，等等，其中可能还包括内部标记)，并确定出外部标记与文本串之间的位置关系。之后，可以通过将外部标记提取到模板文件中，对这种外部标记描述的属性信息进行保留。也就是说，可以将外部标记从源文档中剥离出去，在辅助工具的编辑界面中可以以上述文本串为单位对待翻译的内容进行展示，以用于获得文本串的译文。这样，由于编辑界面中不包含外部标记，因此，可以避免将外部标记误删等情况。之后，在获得文本串对应的译文后，可以根据位置关系将译文回填到模板文件中，以此生成翻译后的文档。

在优选的实施方式中，还可以对内部标记进行可视化展示，这样，可以防止这种内部标记在翻译过程中被误删；另外，还可以基于这种可视化信息，还可以提供用于对内部标记关联的文本内容的展示类型进行选择的操作选项，进行展开或缩短展示的操作选项，以用于对所述内部标记关联的文本内容的完整内容进行展开展示，或者对所述内部标记关联的文本内容进行紧凑型展示。

另外，本申请实施例还可以支持创造式翻译，例如，在翻译的过程中，还可以支持用户对文本串进行拆分或者合并等操作，以用于调整或者优化源文档的结构。此时，本申请实施例还可以对应修改模板文件中的外部标记，并重新确定外部标记与文本串之间的位置关系。这样，使得不仅可以在前端执行具体的拆分或者合并等操作，还可以在后台同步修改外部标记，使得完成翻译之后生成的文档可以直接按照调整后的结构进行发布。

再者，由于一个源文档通常仅对应一个主题，而一个完整的文件等出版物等通常是由多个主题组成的，因此，可以包括多个源文档，这些源文档通过映射文件进行组织。因此，本申请实施例还可以获取到具体的映射文件，并且可以在编辑界面中提供目录展示区。这样，在对具体源文件中的待翻译内容按照文本串为单位进行展示的同时，还可以根据映射文件生成具体出版物的目录信息，并且可以在界面中的目录展示区域进行展示。这样，用户在翻译具体源文档的过程中，还可以直观的获得不同文档之间的上下文关系信息。

本申请实施例的应用场景可以如背景技术部分所述，例如，在一种场景下，如图1-1所示，文档(某产品的技术文档等)编写者用户可以通过其客户端编写源文档，该源文档可以是使用源语言编写的。在发布之前，可以通过本申请实施例提供的翻译辅助工具翻译成多种目标语言对应的目标文档。之后，可以对多种目标文档通过发布服务端进行发布，例如，可以分别发布为PDF、HTML、RTF等多种格式，用户则可以通过客户端，对符合自己语言需求的文档进行查看。

具体从系统架构角度而言，本申请实施例提供了上述翻译辅助工具，该工具主要可以为DITA XML等类型的文档翻译工作提供帮助。在翻译的过程中，如图1-2所示，可以将文档中的外部标记剥离到模板文件中，以使得文档中主要的样式信息等得以保留，避免被误删或者被不当的翻译。另外，在可选的实施方式中，还可以将内部标记进行可视化展示，再者，还可以根据映射文件提供文档目录，使得译员可以获得多个不同文档之间的上下文关系信息。其中，上述辅助工具可以以本地化应用程序等形式存在，供具体的译员等用户下载安装使用，或者，也可以提供服务平台，具体的用户可以通过浏览器等客户端将待翻译的文档提交到平台上，对具体的文档进行在线的翻译，等等。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一提供了一种文档辅助翻译方法，参见图2，该方法具体可以包括：

S210：确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性信息；

其中，源文档具体可以是DITA XML等格式的文档，其中可以包括文本内容以及标记，也即，标记与具体的文档内容混合在一起。具体的标记可以用于对关联的文本内容的属性信息进行描述，例如可以包括文本内容是否属于一级标题、二级标题、正文等等。

具体确定源文档的方式可以有多种，例如，一种方式下，可以由译员用户将具体待翻译的文档提交到翻译工具中，该待翻译的文档就属于源文档。具体的，由于一个出版物可能关联多个不同的主题对应的文档，因此，在具体实现时，还可以多个文档进行打包提交，另外还可以提交关联的映射文件。这样，翻译辅助工具可以根据映射文件生成目录，并在界面中对该目录进行展示，使得用户可以获知不同的文档之间的上下文关系，并且可以通过目录切换到其他文档进行翻译，等等。

S220：根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记；

在本申请实施例中，可以按照标记出现的位置的不同，将具体的标记分类为外部标记以及内部标记。例如，外部标记具体可以是指位于一个完整句子或多个完整句子组成的段落两端的标记，用于对该句子或段落的样式进行定义。例如，<topic>(话题)、<title>(标题)、<body>(正文)、<p>(段落)等等。而内部标记则是位于句子中间的标记，可以用于对句子中某个词语或者短语等的样式等属性进行描述。例如，某句子属于正文，需要对该句子中的某个短语进行加粗展示，则可以在该短语两端添加<b>标记。另外，内部标记通常还可以包括用于对关联的词语或短语的参数类型进行描述，例如，<varname>ECS<varname>表示ECS是一个变量名；<pamname>$apiname<pamname>表示$apiname是一个参数名；<option>describeinstances<option>表示describeinstances是一个选项，等等。再者，内部标记还可以包括表示引用信息的标记，例如，<reference>标记的是引用源信息，等等。

具体实现时，可以由工具自动识别文档中的外部标记或内部标记，或者，另一种方式下，还可以提供用于对标记类别进行自定义的选项，由译员用户进行手动分类，等等。例如，具体的，可以为用户提供对标记进行标注等操作的选项，用户可以在将具体的文档提交到工具中之后，对标记属于外部标记或内部标记进行手动分类。或者，还可以将自动分类与手动分类相结合，例如，首先由工具进行自动分类，然后，译员用户进行手动的调整。

S230：根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

在确定出外部标记之后，可以根据外部标记将所述文本内容划分为多个文本串，并确定出外部标记与文本串之间的位置关系。这里的文本串具体可以是一个句子，或者一个段落，等等。另外可以将外部标记剥离到一个模板文件中，可以按照各个外部标记在源文档中的顺序等进行保存。这种模板文件可以不必进行前台显示，也即，对于用户而言可以是不可见的，因此，可以避免在翻译的过程中丢失外部标记描述的属性信息。其中，具体的位置关系可以包括：外部标记位于哪个文本串的两端，等等，以便于完成翻译后，将翻译后的文本串回填到模板文件中。

S240：以所述文本串为单位获取对应的译文；

具体的翻译辅助工具可以带有显示界面，在将文本内容拆分成多个文本串之后，可以以所述文本串为单位对待翻译的内容进行展示。这样，可以以文本串为单位进行翻译。其中，具体的翻译过程可以包括机器翻译，或者也可以进行人工翻译，等等。

S250：根据所述外部标记与所述文本串之间的位置关系将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

在完成对文本串的翻译之后，可以根据之前保存的位置关系信息，将所述译文回填到模板文件中，以生成翻译后的文档。翻译后的文档仍然可以是XML格式，并且可以按照具体的需求发布为网页，或者，App中的页面，或者，pdf文件，等等。

在优选的实施方式中，由于具体在编辑界面中展示的文本串中还会包括内部标记，因此，还可以在所述编辑界面中对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示。例如，如图3所示，关于文本串中包含的<varname>、<pamname>、<option>等内部标记，可以进行高亮显示，等等。通过这种方式，可以使得内部标记更直观，避免用户在翻译过程中将其误删，或者进行不当的翻译，等等。另外，还可以提供用于对这种内部标记关联的文本内容以多种不同的形式进行展示的操作选项。例如，可以包括完整型展示，一般型展示，紧凑型展示，等等。例如，对应一些属于引用的内容，可能不需要翻译，但是引用的内容比较长，因此，在默认情况下可以将这些内容以紧凑型进行展示，以简化编辑界面，使得界面中更多的展示出真正需要翻译的内容。但同时可以提供用于对这部分内容进行展开的操作选项，用户可以通过该操作选项将内容展开，展示出引用的内容详情，使得用户可以知晓引用的源具体在哪里，等等。

在具体实现时，还可以允许用户对内部标记进行修改，例如，某短语在中文状态下可能采用加粗样式进行展示，在英文状态下则需要采用斜体样式进行展示，则可以在翻译过程中，修改该短语对应的内部标记。或者，还可以删除某些内部标记，或者增加新的内部标记，等等。当然，为了避免出现内部标记被误删的情况，如果在翻译过程中接收到对所述内部标记进行删除的操作，还可以提供用于对删除操作进行确认的提示信息。

另外，由于具体在划分文本串时，通常可以根据默认断句规则，按源文档中原有文档结构进行断句。但是在实际应用中，可能存在源文档写作不规范的情况，比如多行本应合并成一行，一行应该拆分成多行，等等。另外，用户在进行翻译的过程中，也可能会将原来一段描述的内容分为两段，或者，将原本多段描述的内容合并成一段，等等。在本申请实施例中，可以允许用户进行上述“创造式翻译”，并且，在接收到对所述文本串进行拆分或者合并的操作时，还可以根据所述拆分或者合并操作，修改所述模板文件中的外部标记，并重新确定外部标记与文本串之间的位置关系。也就是说，具体进行创造式翻译时，不仅可以在前端界面中执行合并拆分等操作，后台的模本文件中的外部标记也可以随之自动修改。这样，在完成文本串的翻译并回填到模板文件后，可以直接根据模板文件发布成修改后的样式。

再者，在DITA定义的出版流程中，内容组织的最细粒度单元是以XML等格式描述的结构化内容模块。这种内容模块在DITA标准中被称作主题(Topic)。主题是能够自我描述且按照单一逻辑范畴组织的内容信息。根据出版物的结构组织要求，描述相同对象的主题通过对象映射(Mapping)机制进行逻辑顺序组织，形成内容完整的统一体。组织完成的出版内容经样式渲染(Rendering)，形成交付终端展示的数字出版物。也就是说，一个源文档(例如，DITA XML文档)通常仅对应一个主题，而一个完整的文件等出版物等通常是由多个主题组成的，因此，可以包括多个源文档，这些源文档则可以通过映射文件进行组织，描述出多个源文档之间的上下文关系。

DITA映射能够将一个主题集合组织成为不同类型的出版物。如一本百科全书的主题集合对应各个词条的内容释义。如果将所有具备人名标签的词条抽取出来，可以借助DITA映射重组为一本人名志；而将所有具备地名标签的词条抽取出来，则又可映射重组为一本地名志。依此类推可以借助DITA映射重组为其他同类属性主题集合的出版物，即一个主题经由多种映射关系组织成不同出版物，不同映射也能够将相同的主题集合组织成不同类别的出版物。DITA映射为内容的重组和重用提供了途径。

在形式上，DITA映射文件同样可以以XML为载体，D1TA通过映射来连接上下文内容。映射文件在内部可以使用<topicref>标签组织一个或多个DITA主题，并赋予主题上下文的顺序和层级关系。其中，<topicref>标签引用主题的组装顺序可以表示内容上下文的先后关系，标签的主题嵌套层级可以表示内容上下文的包含关系。

而在本申请实施例中，在对源文档进行翻译时，由于其通常只是一个出版物的其中一个主题对应的文档，该出版物通常还关联有其他源文档，并且关联有映射文件，因此，还可以获取具体的映射文件，该映射文件用于描述源文档与其他关联文档之间的上下文关系。并且，可以根据所述映射文件生成目录信息，并在所述界面中的目录展示区域进行展示。例如，如图4中的41处所示，可以将某出版物的目录信息进行展示。在展示目录的过程中，接收到对所述目录中的指定文档的选择请求后，可以将所述界面切换到该指定文档对应的待翻译内容进行展示。

另外，如图3所示，在翻译的过程中，还可以提供翻译前后的文本串对照信息。在可选的方式下，还可以提供翻译前后的文本串的匹配度信息。例如，某文本串翻译前后的匹配度为90％，则用户可以根据该信息对译文重新进行调整，以提高匹配度，等等。再者，还可以对翻译前后的标记完整性和/或一致性进行检查，并提供检查结果。

此外，本申请实施例还可以提供对翻译后文档的发布样式进行预览的操作选项，通过该操作选项接收到查看请求后，可以通过对所述模板文件中的标记进行解析，提供翻译后文档的发布样式的预览结果。另外如图4所示，还可以提供翻译前后文档的发布样式预览结果的对照信息。

在具体实现时，具体对文本串进行翻译的工作可以是由具体的译员通过手动的方式完成，或者，为了提高翻译的效率，本申请实施例提供的工具中还可以提供机器翻译功能。具体的，可以通过客户端提供机器翻译的操作选项，从而实现以文本串为单位的机器翻译，从而省去人工手动翻译的过程，译员用户可以在机器翻译结果的基础上进行核对即可。另外，在具体实现时，同一篇技术文档的不同章节可能会需要翻译成不同的目标语言。也即，使得本申请实施例中生成的多个文本串可能会对应多种不同的目标语言，在这种情况下，在提供所述机器翻译操作选项时，还可以提供用于对所述多种不同的目标语言进行切换的操作选项，使得用户可以对具体的目标语言进行选择。当然，在具体实现时，如果只需要将文本串翻译成某指定的目标语言，则也可以通过预先对机器翻译模块的目标语言进行配置的方式来实现。

再者，在实际应用中，如果需要将同一源文档翻译成多种不同目标语言对应的不同版本，则还可以由多个用户协同的方式来完成具体的多版本翻译过程。此时，服务端还可以对具体的用户操作权限进行管理，例如，可以确定多个用户对同一源文档的不同翻译操作权限，以便多个用户在对应的翻译操作权限下将所述源文档翻译为多种不同目标语言对应的目标文档。

可见，通过本申请实施例，对于DITAXML等源文档，可以识别出其中包含的外部标记，并据此将文本内容划分为多个文本串，还可以将外部标记剥离到模板文件中，以此实现对源文档中通过这种外部标记描述的属性信息的保留，避免在翻译过程中被删除或者被不当翻译。对于划分出的文本串，可以在编辑界面中进行展示，这样，可以以文本串为单位进行翻译，获得的译文内容可以根据与外部标记之间的位置关系信息，回填到模板文件中，以此生成翻译后的文档。通过这种方式，可以实现对DITA XML等格式的源文档的翻译，并且由于可以区分出外部标记，并将其剥离到模板文件中，因此，可以实现对源文档中样式等信息的保留，避免出现误删或者被不当翻译等情形。

实施例二

该实施例二提供了另一种文档辅助翻译方法，参见图5，该方法具体可以包括：

S510：确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性；

S520：根据所述标记与所述文本内容相对的位置信息，将所述标记分类为内部标记以及外部标记；

S530：将所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

S540：对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示；

S550：在获得所述文本串对应的译文后，根据所述外部标记与所述文本串之间的位置关系将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

实施例三

该实施例三中，对创造式翻译的过程进行单独保护，具体的，该实施例三提供了一种文档辅助翻译方法，参见图6，该方法具体可以包括：

S610：确定源文档，所述源文档中包括文本内容以及标记，所述标记用于对关联的文本内容的属性信息进行描述；

S620：根据所述标记与所述文本内容相对的位置信息，从所述标记中确定外部标记，并将所述外部标记提取到模板文件中；

S630：在翻译过程中，根据接收到的对文本串进行拆分或者合并的操作，对所述模板文件中的外部标记进行修改。

实施例四

前述实施例一至实施例三中，在本地化翻译辅助工具的架构下，具体的执行主体就可以是该本地化的翻译辅助工具本身；或者，在“客户端-服务端”的架构下，具体的执行主体可以是服务端，此时，客户端可以提供用于与用户交互的前端界面，接收用户的具体请求，并可以对翻译结果进行展示，等等。具体的，该实施例四就是从该客户端的角度，提供了一种文档翻译方法，参见图7，该方法可以包括：

S710：提供用于提交源文档的操作选项；

S720：将接收到的源文档提交到服务端，所述服务端用于从所述源文档中确定出外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

S730：对所述服务端提供的文本串信息进行展示；

S740：获得所述文本串对应的译文后，提交到服务端，以便所述服务端根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

实施例五

该实施例五是针对本申请实施例提供的方案在服务对象信息系统中的应用，提供了一种服务对象信息提供方法。也即，在本申请实施例中，对于一些特殊类别的服务对象，例如，家电，电子设备等商品对象，或者虚拟产品，等等，可以直接通过服务对象信息系统向用户提供描述文档(例如，用户手册，包括技术文档手册，配置手册，等等)信息，使得用户在下单之前便可以对描述文档进行查看。具体的，参见图8，该方法可以包括：

S810：在服务对象信息页面中提供用于对服务对象关联的描述文档进行查看的操作选项，所述描述文档为按照面向主题的体系结构编写，用于记录在使用所述服务对象过程中所需查考的资料类信息；

S820：通过所述操作选项接收到查看请求后，获取所述描述文档的详情信息，其中，所述描述文档包括多个版本，分别对应不同的语言，所述多个版本的描述文档在源文档的基础上进行翻译获得；其中，在对所述源文档进行翻译时，根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中，以所述文本串为单位获取对应的译文后，根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档；

S830：提供用于对所需的语言进行选择的操作选项，以便按照所选中的目标语言对所述描述文档的详情信息进行展示。

关于实施例二至五中的未详述部分，可以参见实施例一中的记载，这里不再赘述。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与实施例一相对应，本申请实施例还提供了一种文档翻译装置，参见图9，该装置可以包括：

源文档确定单元910，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性信息；

外部标记确定单元920，用于根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记；

外部标记提取单元930，用于根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

译文获取单元940，用于以所述文本串为单位获取对应的译文；

回填单元950，用于根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

具体实现时，该装置还可以包括：

内部标记确定单元，用于将所述文本串中包含的标记确定为内部标记；

内部标记可视化展示单元，用于对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示。

第一操作选项提供单元，用于提供用于对所述内部标记关联的文本内容的展示类型进行选择的操作选项，进行展开或缩短展示的操作选项，以用于对所述内部标记关联的文本内容的完整内容进行展开展示，或者对所述内部标记关联的文本内容进行紧凑型展示。

提示单元，用于如果在翻译过程中接收到对所述内部标记进行删除的操作，则提供用于对删除操作进行确认的提示信息。

第二操作选项提供单元，用于提供用于对所述标记的分类进行自定义的操作选项，以用于对所述标记属于内部标记或外部标记进行自定义。

另外，还可以包括：

模板文件修改单元，用于接收到对所述文本串进行拆分或者合并的操作时，根据所述拆分或者合并操作，修改所述模板文件中的外部标记，并重新确定外部标记与文本串之间的位置关系。

映射文件获取单元，用于获取所述源文档相关的映射文件，所述映射文件用于描述所述源文档与其他关联文档之间的上下文关系；

目录信息生成单元，用于根据所述映射文件生成目录信息，并在所述界面中的目录展示区域进行展示。

切换单元，用于接收到对所述目录中的指定文档的选择请求后，切换到该指定文档对应的待翻译内容进行展示。

对照单元，用于提供翻译前后的文本串对照信息。

匹配度信息提供单元，用于提供翻译前后的文本串的匹配度信息。

检查单元，用于对翻译前后的标记完整性和/或一致性进行检查，并提供检查结果。

预览选项提供单元，用于提供对翻译后文档的发布样式进行预览的操作选项；

预览结果提供单元，用于通过该操作选项接收到查看请求后，通过对所述模板文件中的标记进行解析，提供翻译后文档的发布样式的预览结果。

预览结果对照单元，用于提供翻译前后文档的发布样式预览结果的对照信息。

其中，所述源文档为按照面向主题的体系结构编写的信息类文档。

所述源文档具体为按照达尔文信息类型化体系结构DITA编写的可扩展标记语言XML格式的文档。

所述外部标记描述的属性信息包括：关联的文本内容的样式属性。

与实施例二相对应，本申请实施例还提供了一种文档翻译装置，参见图10，该装置可以包括：

源文档确定单元1010，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记表征关联的文本内容的属性；

标记分类单元1020，用于根据所述标记与所述文本内容相对的位置信息，将所述标记分类为内部标记以及外部标记；

外部标记提取单元1030，用于将所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

内部标记可视化展示单元1040，用于对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示；

回填单元1050，用于在获得所述文本串对应的译文后，根据所述外部标记与所述文本串之间的位置关系将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

与实施例三相对应，本申请实施例还提供了一种文档翻译装置，参见图11，该装置可以包括：

源文档确定单元1110，用于确定源文档，所述源文档中包括文本内容以及标记，所述标记用于对关联的文本内容的属性信息进行描述；

外部标记确定单元1120，用于根据所述标记与所述文本内容相对的位置信息，从所述标记中确定外部标记；

外部标记修改单元1130，用于在翻译过程中，根据接收到的对文本串进行拆分或者合并的操作，对所述模板文件中的外部标记进行修改。

与实施例四相对应，本申请实施例还提供了一种文档翻译装置，参见图12，该装置可以包括：

操作选项提供单元1210，用于提供用于提交源文档的操作选项；

源文档提交单元1220，用于将接收到的源文档提交到服务端，所述服务端用于从所述源文档中确定出外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中；

文本串展示单元1230，用于对所述服务端提供的文本串信息进行展示；

译文提交单元1240，用于获得所述文本串对应的译文后，提交到服务端，以便所述服务端根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档。

与实施例五相对应，本申请实施例还提供了一种服务对象信息提供装置，参见图13，该装置可以包括：

第一操作选项提供单元1310，用于在服务对象信息页面中提供用于对服务对象关联的描述文档进行查看的操作选项，所述描述文档为按照面向主题的体系结构编写，用于记录在使用所述服务对象过程中所需查考的资料类信息；

详情信息获取单元1320，用于通过所述操作选项接收到查看请求后，获取所述描述文档的详情信息，其中，所述描述文档包括多个版本，分别对应不同的语言，所述多个版本的描述文档在源文档的基础上进行翻译获得；其中，在对所述源文档进行翻译时，根据所述标记与文本内容相对的位置信息，从所述标记中确定外部标记，根据所述外部标记将所述文本内容划分为多个文本串，并将所述外部标记提取到模板文件中，以所述文本串为单位获取对应的译文后，根据所述外部标记与所述文本串之间的位置关系，将所述文本串对应的译文回填到所述模板文件中，以生成翻译后的文档；

第二操作选项提供单元1330，用于提供用于对所需的语言进行选择的操作选项，以便按照所选中的目标语言对所述描述文档的详情信息进行展示。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现前述方法实施例中任一项所述方法的步骤。

以及一种电子设备，该系统可以包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述方法的步骤。

其中，图14示例性的展示出了电子设备的架构，具体可以包括处理器1410，视频显示适配器1411，磁盘驱动器1412，输入/输出接口1413，网络接口1414，以及存储器1420。上述处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，与存储器1420之间可以通过通信总线1430进行通信连接。

其中，处理器1410可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器1420可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1420可以存储用于控制电子设备1400运行的操作系统1421，用于控制电子设备1400的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器1423，数据存储管理系统1424，以及文档翻译处理系统1425等等。上述文档翻译处理系统1425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器1420中，并由处理器1410来调用执行。

输入/输出接口1413用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口1414用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1430包括一通路，在设备的各个组件(例如处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，与存储器1420)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1410、视频显示适配器1411、磁盘驱动器1412、输入/输出接口1413、网络接口1414，存储器1420，总线1430等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的文档翻译方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文档翻译方法，其特征在于，包括：

以所述文本串为单位获取对应的译文；

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述文本串中包含的标记确定为内部标记；

对所述文本串中包含的内部标记进行区别于普通文本内容的可视化展示。

3.根据权利要求2所述的方法，其特征在于，还包括：

提供用于对所述内部标记关联的文本内容的展示类型进行选择的操作选项，进行展开或缩短展示的操作选项，以用于对所述内部标记关联的文本内容的完整内容进行展开展示，或者对所述内部标记关联的文本内容进行紧凑型展示。

4.根据权利要求2所述的方法，其特征在于，还包括：

如果在翻译过程中接收到对所述内部标记进行删除的操作，则提供用于对删除操作进行确认的提示信息。

5.根据权利要求2所述的方法，其特征在于，还包括：

提供用于对所述标记的分类进行自定义的操作选项，以用于对所述标记属于内部标记或外部标记进行自定义。

6.根据权利要求1所述的方法，其特征在于，还包括：

接收到对所述文本串进行拆分或者合并的操作时，根据所述拆分或者合并操作，修改所述模板文件中的外部标记，并重新确定外部标记与文本串之间的位置关系。

7.根据权利要求1所述的方法，其特征在于，还包括：

获取所述源文档相关的映射文件，所述映射文件用于描述所述源文档与其他关联文档之间的上下文关系；

根据所述映射文件生成目录信息，并在所述界面中的目录展示区域进行展示。

8.根据权利要求7所述的方法，其特征在于，还包括：

接收到对所述目录中的指定文档的选择请求后，切换到该指定文档对应的待翻译内容进行展示。

9.根据权利要求1所述的方法，其特征在于，还包括：

提供翻译前后的文本串对照信息。

10.根据权利要求1所述的方法，其特征在于，还包括：

提供翻译前后的文本串的匹配度信息。

11.根据权利要求1所述的方法，其特征在于，还包括：

对翻译前后的标记完整性和/或一致性进行检查，并提供检查结果。

12.根据权利要求1所述的方法，其特征在于，还包括：

提供对翻译后文档的发布样式进行预览的操作选项；

通过该操作选项接收到查看请求后，通过对所述模板文件中的标记进行解析，提供翻译后文档的发布样式的预览结果。

13.根据权利要求12所述的方法，其特征在于，还包括：

提供翻译前后文档的发布样式预览结果的对照信息。

14.根据权利要求1至13任一项所述的方法，其特征在于，

所述源文档为按照面向主题的体系结构编写的信息类文档。

15.根据权利要求14所述的方法，其特征在于，

16.根据权利要求1至13任一项所述的方法，其特征在于，

17.根据权利要求1至13任一项所述的方法，其特征在于，还包括：

提供机器翻译操作选项，以用于对所述文本串进行机器翻译。

18.根据权利要求17所述的方法，其特征在于，

所述多个文本串对应多种不同的目标语言，所述方法还包括：

在提供所述机器翻译操作选项时，提供用于对所述多种不同的目标语言进行切换的操作选项。

19.根据权利要求1至13任一项所述的方法，其特征在于，还包括：

确定多个用户对同一源文档的不同翻译操作权限，以便多个用户在对应的翻译操作权限下将所述源文档翻译为多种不同目标语言对应的目标文档。

20.一种文档翻译方法，其特征在于，包括：

21.一种文档翻译方法，其特征在于，包括：

22.一种文档翻译方法，其特征在于，包括：

提供用于提交源文档的操作选项；

对所述服务端提供的文本串信息进行展示；

23.一种服务对象信息提供方法，其特征在于，包括：

24.一种文档翻译装置，其特征在于，包括：

译文获取单元，用于以所述文本串为单位获取对应的译文；

25.一种文档翻译装置，其特征在于，包括：

26.一种文档翻译装置，其特征在于，包括：

27.一种文档翻译装置，其特征在于，包括：

操作选项提供单元，用于提供用于提交源文档的操作选项；

28.一种服务对象信息提供装置，其特征在于，包括：

29.一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至23中任一项所述方法的步骤。

30.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至23中任一项所述方法的步骤。