CN108491492A

CN108491492A - 一种文档在线可视化拆分以及自动合并的方法、系统

Info

Publication number: CN108491492A
Application number: CN201810213267.7A
Authority: CN
Inventors: 罗伟峰
Original assignee: Expressive Language Networking Polytron Technologies Inc
Current assignee: Expressive Language Networking Polytron Technologies Inc
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-04

Abstract

本发明提供了一种文档在线可视化处理方法，所述方法整体上包括如下步骤：文档上传、文档解析、文档转换、格式文档处理以及文档拆分步骤；还包括文档还原步骤：根据所述至少一个拆分控制点将拆分后的文档进行合并。和现有技术不同，本申请的文档拆分和还原集合成一体，因此，还原过程，即合并将充分考虑拆分过程考虑的因素，例如标记/结构化元素等，从而保证原文档的结构不发生改变。本发明还提供文档在线可视化处理系统，包括正则化处理模块，所述正则化处理模块对所述文档转换器输出的文档进行正则化处理，通过所述正则化处理，以实现前述文档在线可视化处理方法。

Description

一种文档在线可视化拆分以及自动合并的方法、系统

技术领域

本发明属于文档处理技术领域，尤其涉及一种文档在线可视化拆分以及自动合并的方法、系统。

背景技术

在目前的翻译行业中，翻译人员接收到的翻译文档越来越大，翻译任务繁重。为了保证翻译任务按时完成，必须将一件翻译任务合理分配给多个翻译人员完成；另外，直接处理一份较大的翻译文档，计算机上会出现明显的迟滞现象，例如打开速度较慢、保存滞后等现象。因此，必须将一份文档通过合理的拆分方法进行拆分后再进行处理；由多个翻译人员分别完成后，再进行文档合并。

然而，现有技术缺乏有效的能够适用于翻译文档拆分和合并的技术。发明人经过检索，目前仅存在一些简单的一键式文档拆分方法和系统。使用这些系统，可以输入文档后只能得到某个简单粗糙的拆分结果，并且这种拆分通常是机械的按照字数拆分，很容易就破坏了原文档的结构；但是对于翻译人员来说，翻译过程通常需要结果文档的整体上下文来进行以保证翻译符合语境，因此上述简单的机械拆分工具不能应用于翻译文档；另外，现有的翻译技术对于用户来说是一个被动的“黑箱”操作过程，在整个过程中，用户无法看到原文档的拆分过程，更无法调整拆分结果，只能被动接受输出的拆分结果。这种拆分仅仅按照字数标准来，拆分过程不能由用户反馈和调整；一旦拆分结果不能满足要去，拆分过程就得重来一遍，极大的降低了工作效率；最后，上述拆分技术通常只考虑文字段落及其文本，而忽略了文档中可能存在的特殊结构，包括表格、图片、标记、签名、页眉、页脚、修改标记等；特别是文档中的表格，现有的处理技术由于只基于字数标准拆分文档，很有可能破坏表格的完整性，例如，将同一个表格拆分到不同的子文档中。

更重要的是，现有的所述拆分系统只能完成拆分，而忽视后续的合并步骤；如果要进行合并，则需要另外运行一个合并文档的工具；但是，现有的合并工具也只能类似于拆分工具那样，机械的合并多个子文档；并且，由于合并工具和拆分工具互不关联，合并工具不能利用到拆分过程用到的拆分标记，不能保持文档的整体架构在拆分-合并之后保持不变。

可见，现有的文档处理技术不能满足翻译行业文档拆分和合并的要求。往往在实际操作中翻译公司或者翻译团队不得不设置专门的一个岗位出来进行文档的拆分和合并工作。人工进行文档拆分速度慢，操作繁琐，要不断的重复的去框选文字内容从而去查看字数；而在合并稿件的时候更是会被诸如“自动排序”等排版问题困扰。一项简单的工作一个人可能要花费好几小时甚至一整天的时间来处理。

发明内容

本发明同时解决上述场景中的多个问题。首先，拆分过程是直接在浏览器中可视化的状态下进行，用户在浏览器上所看到的文档与用户在本地电脑上用Office软件打开的文档保有完全一致的文档样式。然后，本发明会根据用户输入一个参数，例如，“需要拆分的文档份数”，实现快速将文档进行平均分段。为满足翻译行业的需要，本发明自动拆分过程中会保障“段落”的完整性（除了段落之外，诸如“表格”等等特殊对象也都是保持完整性的）。接着，本发明会提供针对每一个拆分部分进行“微调”的操作模式，用户可以选中拆分出的某一个部分进行“增加一段”或者“减少一段”来对被选中的部分进行范围调整，调整过程中会随时显示出当前每一份文档的字数信息。最后，待用户对每个区域都调整到满意之后，点击按钮完成拆分操作。

具体来说，在第一个方面，本发明提供了一种文档在线可视化处理方法，所述方法整体上包括如下步骤：文档上传、文档解析、文档转换、格式文档处理以及文档拆分步骤。

下面一一对所述步骤具体采用的技术手段和技术效果进行介绍：

（1）文档上传步骤：用户上传需要处理的文档；

（2）文档解析步骤：对所述文档进行整体的通篇分析，标记出文档中的文字段落以及其他特殊结构；

所述其他特殊结构，是指除文字段落结构之外的其他结构，包括表格、图片、页眉、签名、标注。

（3）文档转换步骤：将所述文档转换成浏览器可直接在线显示的格式；

（4）格式文档处理步骤：对所述转换后的文档进行字符串处理；

进一步的，所述字符串处理，包括：整理所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息；

（5）文档拆分步骤：基于所述字符串处理的结果以及用户输入的拆分要求，对所述文档进行拆分操作；

所述文档拆分步骤，进一步包括，得到至少一个拆分控制点，并在原文档中标记出所述至少一个拆分控制点。

以所述待处理文档为word文档、所述文档转换步骤将其转换成HTML格式文件为例，本发明的技术方案具体实现如下：

文档转换步骤，将word文档转换成HTML格式文件。

使用正则表达式查找所述HTML文件中的尖括号，定位出成对尖括号限定的字符串。

优选的，定位出成对尖括号限定的字符串之后，进一步包括：对所述字符串逐一进行整理，依据断句逻辑重新编辑所述HTML文件中的相关元素标记；具体来说，是在HTML文件中新增一个元素标记，将同属一个句子的所有元素标记都包括其中，从而完成HTML的段落结构化。

对HTML文档进行拆分：根据所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息以及用户输入的拆分要求，对文档进行预拆分，然后，用户选中某个段落进行细微调整并确认最终拆分方案。

上述过程也可以采用如下流程概述：

1. 使用文档处理技术，首先对待拆分文档进行通篇分析，对每一个段落以及特殊结构（比如“表格”）打上特殊标记。

2. 使用文档处理技术，将原Word文档在完全保留文档各内容样式的前提下转换成普通的HTML文件，从而支持使用浏览器直接在线可视化操作。

3. 基于原始的HTML文件进行字符串处理，整理出每一个段落的字数信息并且标注到各个元素的属性中方便后续操作中提供字数统计信息的辅助。

4. 基于上述技术处理之后，使用简单的JS来控制“切割”操作并最终在原文中打上标记。记录最终的用户选择，从而完成文档拆分和还原的边界范围的设定。

5.步骤4的操作可以反复操作，用户可以任意反复修改自己的拆分方案。

进一步的，本申请的文档处理技术还包括文档还原步骤：根据所述至少一个拆分控制点将拆分后的文档进行合并。

和现有技术不同，本申请的文档拆分和还原集合成一体，因此，还原过程，即合并将充分考虑拆分过程考虑的因素，例如标记/结构化元素等，从而保证原文档的结构不发生改变。

在本发明的另一个方面，还提供一种文档在线可视化处理系统，所述系统包括文档输入组件、文档解析器、文档转换器、文档格式组件、文档拆分器，分别用于实现文档上传、文档解析、文档转换、格式文档处理以及文档拆分步骤。

本发明的文档在线可视化处理系统的核心模块在于，包括正则化处理模块，所述正则化处理模块对所述文档转换器输出的文档进行正则化处理，通过所述正则化处理，以实现前述文档在线可视化处理方法。

本发明还公开一种计算机可读存储介质，其上存储有计算机执行指令；通过处理器和存储器，在计算机上执行所述指令，用于实现前述文档在线可视化处理方法。

本发明的有益效果至少体现在如下几个方面：

1. 文档在线拆分工作本身就极大的提升了操作者的工作效率。线下拆分和合并的工作往往都是痛苦的，由于“自动编号”等等特别对象的存在，手工拆分和合稿的时候往往需要通篇的来调整这些细节。而在线的自动拆分与合并直接帮助用户自动完成该类型的工作。

2. 本发明在现有行业做法的基础上提升了用户体验，为稿件在线拆分提供了一个可视化的应用场景，让拆分工作更加的贴近用户当前线下拆分的模式。

3. 本发明破除了简单“按字数”，“按份数”粗暴拆分的行业现状。让稿件在线拆分工作更加的具有实用性和易用性。

4. 本发明的拆分和合并（还原）为一体操作，特别是还原操作要考虑拆分所使用的参数和调整节点，改变了现有技术机械拆分/机械合并、互不关联的现象，保证了翻译任务的完整性。

附图说明

图1（a）-（c）是本发明所述处理方法的流程图。

图2是本发明对word文档进行处理的流程图。

图3是本发明的在线可视化拆分界面效果图。

具体实施例

参照图1（a），发明所述方法整体上包括如下步骤：文档上传、文档解析、文档转换、格式文档处理以及文档拆分步骤；

作为一个优选，如图1(b)所述方法还包括文档还原步骤。和现有技术不同，本发明的还原步骤基于拆分过程中解析/转换、文档处理等过程输出或者用到的相关参数。图1（b）所示虚线箭头表征了这种思想。

在实际应用种，本发明所述的方法还可以采用多个模块或者组件单独或者组合实现。例如图1（c）所示，一种文档还原方法，用于还原被本发明所述方法拆分后的多个子文档，首先输入子文档，读取拆分子文档中保留的各个参数，例如拆分标记/用户参数等，然后依据所述参数进行合并，从而保证还原后的文档和原文档结构保持一致。

参照图2，其显示了本发明所述的方法用于处理word 文档时的各个细节，包括用户上传word文档、word文档解析模块、形成粗略的html文件、正则表达式查找、重新合并或者拆分HTML文件的相关元素标记、粗略拆分、用户微调/确认、合并、再次word解析以及得到终稿的整个过程。

需要注意的是，图2的步骤和本发明的图1的流程整体一致，只是在个别技术手段的具体实现上或者先后顺序上进行具体实现的调整，但是仍然在本发明的发明构思范围内。

图3显示了本发明所述方法具体实现的界面图。从图3可见，本发明的所述方法不同于现有的机械“黑盒”式拆分工具，相反，是一种在线可视化的工具，用户可以反馈并且调整，从而获得最好的拆分效果为稿件在线拆分提供了一个可视化的应用场景，让拆分工作更加的贴近用户当前线下拆分的模式。

Claims

1.一种文档在线可视化处理方法，所述方法包括如下步骤：

（1）文档上传步骤：用户上传需要处理的文档；

其特征在于：

所述步骤（4）中的所述字符串处理，包括：整理所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息；

所述步骤（5）中的所述文档拆分步骤，进一步包括，得到至少一个拆分控制点，并在原文档中标记出所述至少一个拆分控制点。

2.如权利要求1所述的方法，其中，所述步骤（2）中的所述其他特殊结构，是指除文字段落结构之外的其他结构，包括表格、图片、页眉、签名、标注。

3.如权利要求1所述的方法，其中，所述步骤（3）的文档转换步骤，进一步包括：将所述文档转换成HTML格式文件。

4.如权利要求3所述的方法，其中，所述字符串处理，具体包括：使用正则表达式查找所述HTML文件中的尖括号，定位出成对尖括号限定的字符串。

5.如权利要求4所述方法，其中，定位出成对尖括号限定的字符串之后，进一步包括：对所述字符串逐一进行整理，依据断句逻辑重新编辑所述HTML文件中的相关元素标记。

6.如权利要求5所述的方法，其中，依据断句逻辑重新编辑所述HTML文件中的相关元素标记，包括：在HTML文件中新增一个元素标记，将同属一个句子的所有元素标记都包括其中，从而完成HTML的段落结构化。

7.如权利要求1-6任一项所述的方法，其中，所述文档拆分步骤，进一步包括：根据所述转换后的文档的每一个文字段落的字数信息以及其他特殊结构的属性信息以及用户输入的拆分要求，对文档进行预拆分，然后，用户选中某个段落进行细微调整并确认最终拆分方案。

8.如权利要求7所述的方法，进一步包括，文档还原步骤：根据所述至少一个拆分控制点将拆分后的文档进行合并。

9.一种文档在线可视化处理系统，所述系统包括文档输入组件、文档解析器、文档转换器、文档格式组件、文档拆分器，分别用于实现权利要求1所述的步骤（1）-步骤（5），

其特征在于，所述处理系统包括正则化处理模块，所述正则化处理模块对所述文档转换器输出的文档进行正则化处理，通过所述正则化处理，以实现权利要求3-7所述的方法。

10.一种计算机可读存储介质，其上存储有计算机执行指令；通过处理器和存储器，在计算机上执行所述指令，用于实现权利要求1-8任一项所述的方法。