CN105718554A

CN105718554A - 文档的协同转换方法及系统

Info

Publication number: CN105718554A
Application number: CN201610035757.3A
Authority: CN
Inventors: 李政放; 常治国; 赵慧; 李跃
Original assignee: Shenzhen MPR Technology Co Ltd
Current assignee: Shenzhen MPR Technology Co Ltd
Priority date: 2016-01-19
Filing date: 2016-01-19
Publication date: 2016-06-29

Abstract

本发明公开了一种文档的协同转换方法，包括：多个客户端向服务端发送创建用户的请求，或客户端统一向服务端分别发送多个客户端创建用户的请求；服务端根据请求创建多个用户及为各用户分配对应的角色；服务端对接收客户端上传的文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别；各客户端从服务端获取经光学字符识别后的文档进行结构化标引，对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端；服务端在接收到各客户端上传所有已校对的拆分文档后进行合并。本发明还公开了一种文档的协同转换系统。本发明能够对文档转换任务进行拆分、分配及合并等，使各客户端协同完成文档的转换及校对，提高文档转换的效率及质量。

Description

文档的协同转换方法及系统

技术领域

本发明涉及文档转换技术领域，尤其涉及一种文档的协同转换方法及系统。

背景技术

目前，存在着巨量的纸质书籍尚未提供电子书版本，纸质书籍转化为统一的电子书格式，除了创造直接的商业价值外，也更便于文化的传播、交流和继承，并能有效防止由于纸张损坏而造成的遗失。另外，现存大量的PDF扫描版文档需要转为更易于阅读的其他电子书格式，电子书格式的统一是历史发展的必然趋势。如何将市面上巨量的现存纸质书籍以及PDF格式书籍，转为包括ePub、mobi、doc、DocBook在内的各种电子书格式则成为一个具有挑战意义和紧迫性的问题。

由于目前市场上待转为电子书的文档数量非常庞大，当前电子书转换系统基本都是单任务转换系统，面临的主要问题是：一方面待转换文档数量相当庞大且转换成本较高，采用的单任务转换系统转换效率及质量低；另一方面由于纠错、排版等问题，转换工作无法完全由系统自动实现，部分工作必须依靠人工实现，由单个人实现整个文档所有的校对工作，其工作效率低，需要人工付出更多的劳动。

发明内容

本发明的主要目的在于提供一种文档的协同转换方法及系统，旨在提高文档转换的效率及质量。

为实现上述目的，本发明提供了一种文档的协同转换方法，包括：

多个客户端分别向服务端发送创建用户的请求，或者同一客户端统一向服务端分别发送多个客户端创建用户的请求；

服务端根据所述请求创建多个用户及为各用户分配对应的角色；

服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别；

各客户端从服务端获取经光学字符识别后的文档进行结构化标引，并

根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端；

服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并。

可选地，所述服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并之后包括：

客户端从服务端获取合并后的文档，对合并后的文档进行完整性校对。

可选地，所述服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别包括：

所述服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档进行渲染，在对渲染后的文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，并将进行光学字符识别的文档中识别错误的文字进行存储，以在识别的过程中对所述识别错误的文字进行标识。

可选地，所述服务端与各客户端之间通过https协议进行通信，所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。

可选地，所述各客户端从服务端获取经光学字符识别后的文档进行结构化标引，并根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端之前包括：

客户端获取用户的身份验证信息，在所述身份验证信息通过验证后，从所述服务端获取经光学字符识别后的文档。

可选地，所述接收用户指令对进行结构化标引后的文档进行相应的校对包括：

在校对界面同时显示多个对照视图，接收用户指令对进行结构化标引后的文档进行相应的校对。

此外，为实现上述目的，本发明还提供了一种文档的协同转换系统，所述文档的协同转换系统包括服务端和多个客户端，其中，

客户端，用于向服务端发送创建用户的请求；

服务端，用于根据所述请求创建多个用户及为各用户分配对应的角色；

服务端，还用于接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别；

客户端，还用于从服务端获取经光学字符识别后的文档进行结构化标引；

客户端，还用于根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端；

服务端，还用于在接收到各客户端上传的所有完成校对的拆分文档后进行合并。

可选地，所述客户端还用于，从服务端获取合并后的文档，对合并后的文档进行完整性校对。

可选地，所述客户端还用于，获取用户的身份验证信息，在所述身份验证信息通过验证后，从所述服务端获取经光学字符识别后的文档。

本发明实施例服务端通过创建多个用户及为各用户分配对应的角色，并对接收到的文档进行拆分后依次进行渲染及光学字符识别。然后各客户端从服务端获取经光学字符识别后的文档进行结构化标引，各客户端协同工作根据对应的用户及角色接收用户指令对进行结构化标引后的文档进行相应的校对，并将完成校对的文档上传至服务端进行合并。实现了对文档转换任务进行拆分、分配及合并等，使各个客户端进行协同工作完成文档的转换及校对，提高了文档转换的效率及质量。

附图说明

图1为本发明文档的协同转换方法第一实施例的流程示意图；

图2为本发明文档的协同转换方法第二实施例的流程示意图；

图3为本发明文档的协同转换系统一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，示出了本发明一种文档的协同转换方法第一实施例。该实施例的文档的协同转换方法包括：

步骤S10、多个客户端分别向服务端发送创建多个用户的请求，或者同一客户端统一向服务端分别发送多个客户端创建用户的请求；

步骤S20、服务端根据所述请求创建多个用户及为各用户分配对应的角色；

本实施例提供的文档的协同转换方案中，实现分布式电子书协同转换，用户可将纸质书籍和PDF扫描版文档转为ePub、mobi、doc、DocBook等电子书格式。能够实现人机协同工作，并对转换任务进行拆分、分配、跟踪、以及合并等。主要的涉及的技术包括PDF解析、PDF渲染、光学字符识别(OpticalCharacterRecognition，OCR)、工作流管理、结构化标引、OCR校对、整书完整性校对等。以下将以对一本书的的PDF文档的转换为例进行详细说明。

本实施例中，客户端根据具体任务不同，可运行于个人PC或者是特殊提供的智能设备之上，服务端部署在互联网上。根据文档的协同转换的需要，首先创建用户、用户组和角色，该用户组由多个用户组成以便管理，每个用户组分配一个角色来执行对应的任务，多个用户可自主注册，也可是由管理员批量注册。即服务端根据客户端发送创建多个用户的请求创建多个用户、用户组及分配不同角色，或者是服务端根据同一客户端分别发送多个客户端创建用户的请求创建多个用户、用户组及分配不同角色。可以理解的是，各客户端所对应的不同用户的权限和角色可由管理员进行指定。该用户为在创建工作流时需要执行任务的用户，分配不同角色指由管理员给每个用户分别指派结构化标引、OCR校对、整书完整性校对等任务。例如，创建用户名yuyue对应的角色为结构化标引校对，创建用户名jenny对应的角色为结构化标引，创建用户名yixiaoting对应的角色为整书完整性校对。

步骤S30、服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别；

在完成用户创建后，创建工作流，由管理员所在的客户端上传所要转换的PDF文档至服务端，并设置工作流名。启动工作流后，服务端可通过任务拆分，将文档按照页码进行打散，以便分发给不同的客户端，避免一个用户拿到整册书籍并需要对整册书籍执行所有转换任务。服务端自动执行对PDF文档进行解析、渲染和OCR识别等。其中，PDF解析是指获取文档中各种信息以及提取文档中各种对象，并可对这些对象进行增加、修改、删除等操作，PDF文档中对象主要包括：路径、文字、图片、图表、底纹等。PDF渲染是指将文档页面转换为图片格式。OCR识别是指对图像文件进行分析处理，自动识别获取文字信息及版面信息，图像文件的来源可以是使用扫描仪或数码相机对文本资料进行扫描成图像文件，也可以是PDF文件通过PDF渲染后得到的图片文件。

步骤S40、各客户端从服务端获取经光学字符识别后的文档进行结构化标引，并根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端；

在登录执行结构化标引用户名的客户端从服务端获取已完成OCR识别的PDF文档，对该文档进行结构化标引，将区域标引为不同类型的区域，例如，表格、图片、正文、标题、注、CIP版权页、版芯、封面、参考文献、图题、表题等，同时，可对区域重新识别，提高OCR识别率。

由于PDF解析无法获取文档页面中的各种对象及区分PDF文档中的格式化信息、标引信息和内容信息等，只能将整个页面当做一个图片对象处理，同时OCR识别对文字的识别也会存在一定的误差。因此，无论是对文档进行解析、渲染，还是OCR识别，目前系统都无法做到完全实现自动化，在PDF文档转为电子文档过程中，某些环节必须依靠人工实现，本实施例支持人机协同工作模式。

使用不同用户名登录的客户端，根据用户名对应的角色，由操作人员产生的用户指令对分配得到的拆分文档进行相应的校对。例如，对于OCR校对角色的用户，可从服务端下载原PDF文档和OCR识别后的文档，以双层PDF校对、输入法视图校对、左右或上下视图对照、区域重新识别方式通过人工对文档中的文字进行校对，确认没有错误后可提交到服务端。使得通过使用以双层PDF校对、输入法视图校对、左右或上下视图对照、区域重新识别方式，提高校对效率和电子书的质量。对于结构化标引校对角色的用户，可从服务端下载原PDF文档和结构化标引后的文档，以人工标引的方式对文档中的版面、文字、图表等进行校对，对文档中文字的校对还包括设置文本样式、插入特殊符号、查找替换、还原内容顺序、OCR错字本。1)设置文本样式：对文字进行上标、下标、斜体、对齐方式、字号、段间距、加粗、着重符、有序列表、无序列表、环绕等样式处理；2)插入特殊符号：在OCR之后，对于版式文档中的特殊符号，不能准确的识别，系统支持多种特殊符号的输入；对于需要批量修改的文字，3)查找替换，系统支持查找和替换；4)还原内容顺序，包括接上页、上接第N页、下接第N页、上接页结束、批注等功能。对文档中图片的纠错包括插入、删除、替换PDF页，并重新渲染成图片，生成新的工作流任务，5)对OCR后的图片进行编辑，包括一键优化、设置亮度与对比度、色相和饱和度、旋转、去噪、色阶、去除扫描线、更换新图片等，6)OCR错字本，在当前页面的OCR结果上将识别错误的文字添加到OCR错字本，如果后续页面中出现OCR识别错误的文字时，系统自动标识出这样的文字，以便校对人员快速校对。确认后没有错误后可上传到服务端。实现了各客户端协同工作并将完成校对的文档上传至服务端。

步骤S50、服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并。

服务端将接收到各客户端上传的已完成校对的所有拆分文档，按照拆分之前页码的顺序进行合并。本实施例提供的文档的协同转换方案，是基于工作流的协同工作方式，能对转换任务进行拆分、分配、跟踪、以及合并等，对于使用关联编码嵌入软件加工后生成的网络电子书(PDF文件)，在经过本系统转换为ePub、mobi、doc、xml等格式的电子书后，已嵌入PDF文件中的MPR编码不丢失。同时，将OCR校对、结构化标引、等相结合，形成一个多任务分布式系统，将一本书的转换工作被拆分为了多个并行/串行子任务，包括结构化标引、OCR校对、转换、合并等，各子任务可以被分发给彼此无关的不同操作人员。各个子任务处理程序可以分别部署于不同的机器上，不同程序之间彼此独立，协同工作，并基于HTTPS网络相互通信。并通过内存使用优化、多线程并发执行、服务器自动负载均衡等措施来提高执行效率，及通过内容数据进行压缩，优化系统架构等来提高通讯效率，从而进一步提高对文档的转换效率。在转换过程过所收集的海量数据，为大数据分析和应用奠定了一个很好的基础，基于这些海量数据，可以提取出更多有价值的信息知识，更好的为社会服务。

可以理解的是，书籍内容分页后随机分发给不同地域的操作员操作，这样可以避免一个作业员拿到一本书的完整内容，还可以极大地降低文档的协同转换过程中所涉及的人工成本，同时极大地提高转换工作的整体进度，并且能针对不同转换书籍迅速找到合适的转换操作人员，将转换需求方和转换工作方迅速关联，既提高转换效率，又能保证转换质量。

本发明实施例服务端通过创建多个用户及为各用户分配对应的角色，并对接收到的文档进行拆分后依次进行解析、渲染及OCR识别。然后各客户端从服务端获取OCR识别后的文档进行结构化标引，各客户端协同工作根据其对应的用户及角色接收用户指令对进行结构化标引后的文档进行相应的校对，并将完成校对的文档上传至服务端进行合并。实现了对文档转换任务进行拆分、分配及合并等，使各个客户端进行协同工作完成文档的转换及校对，提高了文档转换的效率及质量。不仅完成了电子书的格式转工作，同时还兼顾了书籍版权、安全、质量、任务均衡等一系列关键问题。

进一步地，如图2所示，基于上述第一实施例，提出了本发明文档的协同转换方法第二实施例，该实施例中上述步骤S50之后可包括：

步骤S60、客户端从服务端获取合并后的文档，对合并后的文档进行完整性校对。

在登录执行整书完整性校对任务用户名的客户端，从服务端获取原始PDF文档和合并后的文档，由操作人员产生的用户指令对文档的目录结构、元数据和封面等进行校对。在完成对文档进行完整性校对后，可导出输出所需格式的电子书。本实施例实现了对文档进行完整性校对，提高了文档的转换质量。

需要说明的是，客户端根据接收的查看指令，在指定的工作流界面显示各个用户根据各自角色执行任务的进度。具体地，在登录具有管理权限用户名的客户端，可在指定的工作流界面查看各个用户根据各自角色执行任务的进度，使得通过各种操作环节的状态进度显示，能够根据各个用户的进度合理安排拆分及分配任务，以提高完成对文档转换的操作效率。

进一步地，基于上述第二实施例，提出了本发明文档的协同转换方法第三实施例，该实施例中上述步骤S30可包括：所述服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档进行渲染，在对渲染后的文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，并将进行光学字符识别的文档中识别错误的文字进行存储，以在识别的过程中对所述识别错误的文字进行标识。

本实施例中，上述服务端接收客户端上传的文档并文档进行拆分后，对拆分后的文档进行渲染，在对渲染后的文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，即上述提到的区域重识别。例如，当文档中出现的中文和英文这两种语言文字时，将中文和英文进行分别识别，可先对中文进行光学字符识别后对英文进行光学字符识别，或者是先对英文进行光学字符识别后对中文进行光学字符识别，若还出现日文、韩文、法文等其他语言文字时，也可以进行分开识别。同时，在文档进行光学字符识别的过程中，将进行光学字符识别的文档中识别错误的文字进行存储。例如，可存储在OCR错字本中，在当前页面的OCR结果上将识别错误的文字添加到OCR错字本，以在识别的过程中对所述识别错误的文字进行标识，即如果后续页面中出现OCR识别错误的文字时，系统自动标识出这样的文字，以便校对人员快速校对。

本实施例在对文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，大大提高了识别质量，同时将识别错误的文字进行存储，以在识别的过程中对识别错误的文字进行标识，方便校对人员快速校对，进一步提高了转换效率。

进一步地，基于上述第一实施例，提出了本发明文档的协同转换方法第四实施例，本实施例中，上述服务端与各客户端之间通过https协议进行通信，所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。

在上述完成电子书的格式转工作后，为了兼顾书籍版权、安全、质量、任务均衡等一系列关键问题，本系统采用了全方位的加密技术，在内容传输的各个环节均采用了相应的加密技术。系统中服务端与各客户端之间的通信使用https协议，客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，临时文件的加密秘钥存在服务器并通过https协议发送至客户端，以防止黑客通过网络截获书籍内容。在客户端程序的数据层，所有数据也采用了私有算法进行加密，防止黑客通过读取系统内存获取到书籍数据。对客户端而言，所有下载或上传的数据只存储在内存中，外部存储不保留任何数据痕迹，操作完成后本地不会保留任何痕迹，所有数据均保存在服务器端。

另外，客户端在进行文档的协同转换过程中，禁止屏幕拷贝、避免与其他软件同时运行、不在虚拟机中运行、拦截键盘的PrintScreen命令、禁止使用系统复制粘贴功能等等。本实施例提供一系列安全机制来保护书籍版权，实现了进行文档转换全流程数据的安全，进一步提高了对文档转换的安全性。

进一步地，基于上述第一实施例，提出了本发明文档的协同转换方法第五实施例，该实施例中上述步骤S40之前可包括：客户端获取用户的身份验证信息，在所述身份验证信息通过验证后，从服务端获取经光学字符识别后的文档。

本实施例中，为了进一步提高文档的协同转换的安全性，可设置对操作人员身份进行严格审核。身份验证信息包括用户可是用户的身份证号、指纹信息、人脸信息等。具体地，在一实施例中，当客户端对应的用户想进行文档的转换操作时，用户需要在指定的设置界面输入身份证号码，当身份证号码与注册时所提交的身份证号码一致时，该用户身份验证通过，可从服务器获取相应的文档。反之，当身份证号码与注册时所提交的身份证号码不一致时，该用户身份验证失败，没有获取文档的权限。在另一实施例中，客户端可在用户作业的过程中，通过前置摄像头定时或实时获取当前用户的面部图像，将面部图像与预先存储的人脸进行比对，若相似度达到预设值(该预设可根据实际需要进行设置)，则该用户身份验证通过，可从服务器获取相应的文档。反正，该用户没有获取文档的权限。当然，也可采用对用户的指纹识别等措施进行用户身份验证。

同时，客户端对应的用户在校对的过程中，用户可使用专业硬件设备，例如电脑棒，从硬件层面保护内容不被非法拷贝和流传。当然，防止文档被拷贝的方式也可根据具体情况而灵活设置，并不限定本发明。本实施例通过对用户进行用户身份验证，大大提高了文档的协转换的安全性。

进一步地，基于上述第一至第五实施例中的任一实施例，提出了本发明文档的协同转换方法第六实施例，该实施例中上述接收用户指令对进行结构化标引后的文档进行相应的校对的步骤可包括：在校对界面同时显示多个对照视图，接收用户指令对进行结构化标引后的文档进行相应的校对。

本实施例中，使用执行校对任务的用户名登录的客户端，在显示校对界面时，可选择同步显示多个对照视图，例如，可根据实际需要设置校对界面左右视图对照同步显示，可在左边视图显示原文档，在右边视图显示结构化标引后的文档，或者是设置上下视图对照等。当然，显示多个对照视图的方式可根据具体情况而灵活设置，并不限定本发明。从而可以方便进行校对的用户进行快速校对，提高工作效率。另外，在显示输入法窗口时，可将输入法窗口设置为适宜大小，以免输入法窗口过大而挡住文字内容过多，不方便用户阅览，即上述提到的输入法视图校对，从而提高文档的转换效率。

进一步地，基于上述第一实施例，本实施例中，上述步骤S50之前可包括：服务端根据接收到的撤回指令，将已校对的文档回退至相应的客户端。

本实施例在对文档进行校对后，若发现上传到服务端的文档还存在问题，则客户端可向服务端发送撤回指令，以使服务端返回已校对的文档。例如，提交到服务端进行结构化标引后的文档，若发现还存在错误，可将已提交页面撤回，重新进行结构化标引校对。进行OCR校对后的文档提交到服务端后，若发现错误，可将文档打回到结构化标引或撤回到OCR校对，重新执行人工标引或OCR校对操作。本实施例实现了对已上传的文档进行回退及纠错，极大地提高了文档的转换质量。

进一步地，基于上述第一实施例，本实施例中，服务端包括私有云平台和公众云平台。

本实施例服务端包括私有云平台和公众云平台，即可采用众包模式作为公众云平台部署，或者针对集团用户部署为私有云平台。在私有云平台上，文档的转换工作只能由企业内部人员使用，这样的好处是可以很好的保护书籍的版权，并且可以通过对操作人员的专业培训，提高对文档转换的效率和质量。考虑到待转换书籍的庞大数量，以及对于操作人员专业要求不高的特点，在公众云平台上，文档的转换工作可以分配给各种非专业人员，可以找到社会上各领域的大量兼职人员参与转换工作，利用互联网的高效通信、分布式工作等特点，能针对不同转换书籍迅速找到合适的转换操作人员，大大地降低文档的转换的人工成本，及极大地提高转换工作的整体进度，既能提高转换效率，又能保证转换质量。

本实施例系统还设置有后台服务监控，后台服务监控是指通过一个功能模块对服务器基本信息、网络传输信息、当前用户数、CPU占用率、内存使用情况、服务运行情况、磁盘使用情况进行监控，以便系统管理员了解系统的整体运行情况。

对应地，如图3所示，提出本发明一种文档的协同转换系统第一实施例。该实施例的文档的协同转换系统包括服务端100和多个客户端200，其中，服务端100包括用于提供系统运行的各种支撑库的系统支撑层，系统支撑层包括数据库、文件系统、RPC、HTTPS、互斥锁等。服务端100主要任务是进行任务管理、用户管理、资源管理、任务执行、系统管理等。其中，任务管理是指负责创建、删除、分派任务，分派任务时可根据任务不同阶段自动调用各任务执行模块，或者分派给不同操作人员；用户管理是指负责记录用户账户信息、角色管理、用户注册、注销、登录、登出等工作；资源管理是指负责PDF以及转换后电子文件的搜索、上传、下载、删除、元数据管理等工作；任务执行是指负责执行某一项特定任务，并将执行结果返回给任务管理模块，目前包括三个子任务模块：PDF解析和渲染、OCR识别、电子文档输出等；系统管理是指负责整个系统的参数设置，状态和统计数据的查询，运行日志的管理，系统维护等工作.

客户端200包括负责与服务端100可靠通信、XML数据解析，以及提供各种数据结构对象的中间层。客户端200主要任务是进行登录管理、工作流管理、结构化标引、OCR校对、整书完整性校对、系统管理等。其中，登录管理是指与服务端用户管理模块进行交互，负责用户的登录、登出；工作流管理是指与服务端任务管理模块进行交互，负责对任务列表进行创建、删除、指派等管理工作；结构化标引是指负责对页面内容进行标引，标引包括区域位置，类型(图片、文字、表格)和正文、标题、注、CIP版权页、版芯、封面、参考文献、图题、表题等，同时，可对区域重新识别，提高OCR识别率；OCR校对是指负责对页面文字进行校验和修改；整书完整性校对是指负责对书的目录、注(注包括脚注、尾注等)、元数据进行全面校对。系统管理是指与服务端用户管理模块和系统管理模块通信，负责用户、角色管理、用户组管理等工作。角色包括系统管理角色、工作流管理角色、结构化标引角色、校对角色、整书完整性校对角色、导出ePub角色，一个用户可以具有多个角色。

以下将对服务端100与客户端200进行文档的协同转换进行详细说明，其中，

客户端200，用于向服务端100发送创建用户的请求；

服务端100，用于根据所述请求创建多个用户及为各用户分配对应的角色；

本实施例中，客户端200根据具体任务不同，可运行于个人PC或者是特殊提供的智能设备之上，服务端100部署在互联网上。根据文档的协同转换的需要，首先创建用户、用户组和角色，该用户组由多个用户组成以便管理，每个用户组分配一个角色来执行对应的任务，多个用户可自主注册，也可是由管理员批量注册。即服务端100根据客户端200发送创建多个用户的请求创建多个用户、用户组及分配不同角色，或者是服务端100根据同一客户端200分别发送多个客户端200创建用户的请求创建多个用户、用户组及分配不同角色。可以理解的是，各客户端200所对应的不同用户的权限和角色可由管理员进行指定。。该用户为在创建工作流时需要执行任务的用户，分配不同角色指由管理员给每个用户分别指派结构化标引、OCR校对、整书完整性校对等任务。例如，创建用户名yuyue对应的角色为结构化标引校对，创建用户名jenny对应的角色为结构化标引，创建用户名yixiaoting对应的角色为整书完整性校对。

服务端100，还用于接收客户端200上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别；

在完成用户创建后，创建工作流，由管理员所在的客户端200上传所要转换的PDF文档至服务端100，并设置工作流名。启动工作流后，服务端100可通过任务拆分，将文档按照页码进行打散，以便分发给不同的客户端200，避免一个用户拿到整册书籍并需要对整册书籍执行所有转换任务。服务端100自动执行对PDF文档进行解析、渲染和OCR识别等。其中，PDF解析是指获取文档中各种信息以及提取文档中各种对象，并可对这些对象进行增加、修改、删除等操作，PDF文档中对象主要包括：路径、文字、图片、图表、底纹等。PDF渲染是指将文档页面转换为图片格式。OCR识别是指对图像文件进行分析处理，自动识别获取文字信息及版面信息，图像文件的来源可以是使用扫描仪或数码相机对文本资料进行扫描成图像文件，也可以是PDF文件通过PDF渲染后得到的图片文件。

客户端200，还用于从服务端100获取经光学字符识别后的文档进行结构化标引，并根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端100；

在登录执行结构化标引用户名的客户端200从服务端100获取已完成OCR识别的PDF文档，对该文档进行结构化标引，将区域标引为不同类型的区域，例如，表格、图片、正文、标题、注、CIP版权页、版芯、封面、参考文献、图题、表题等，同时，可对区域重新识别，提高OCR识别率，最后生成结构化的流式电子书。

使用不同用户名登录的客户端200，根据用户名对应的角色，由操作人员产生的用户指令对分配得到的拆分文档进行相应的校对。例如，对于OCR校对角色的用户，可从服务端100下载原PDF文档和OCR识别后的文档，以双层PDF校对、输入法视图校对、左右或上下视图对照、区域重新识别方式通过人工对文档中的文字进行校对，确认没有错误后可提交到服务端100。使得通过使用双层PDF校对、输入法视图校对、左右或上下视图对照、区域重新识别方式，提高校对效率和电子书的质量。对于结构化标引校对角色的用户，可从服务端100下载原PDF文档和结构化标引后的文档，以人工标引的方式对文档中的版面、文字、图表等进行校对，对文档中文字的校对还包括设置文本样式、插入特殊符号、查找替换、还原内容顺序、OCR错字本。1)设置文本样式：对文字进行上标、下标、斜体、对齐方式、字号、段间距、加粗、着重符、有序列表、无序列表、环绕等样式处理；2)插入特殊符号：在OCR之后，对于版式文档中的特殊符号，不能准确的识别，系统支持多种特殊符号的输入；对于需要批量修改的文字，3)查找替换，系统支持查找和替换；4)还原内容顺序，包括接上页、上接第N页、下接第N页、上接页结束、批注等功能。对文档中图片的纠错包括插入、删除、替换PDF页，并重新渲染成图片，生成新的工作流任务，5)对OCR后的图片进行编辑，包括一键优化、设置亮度与对比度、色相和饱和度、旋转、去噪、色阶、去除扫描线、更换新图片等；6)OCR错字本，在当前页面的OCR结果上将识别错误的文字添加到OCR错字本，如果后续页面中出现OCR识别错误的文字时，系统自动标识出这样的文字，以便校对人员快速校对。确认后没有错误后可上传到服务端100。实现了各客户端200协同工作并将完成校对的文档上传至服务端100。

服务端100，还用于在接收到各客户端200上传的所有完成校对的拆分文档后进行合并。

服务端100将接收到各客户端200上传的已完成校对的所有拆分文档，按照拆分之前页码的顺序进行合并。本实施例提供的文档的协同转换方案，是基于工作流的协同工作方式，能对转换任务进行拆分、分配、跟踪、以及合并等，对于使用关联编码嵌入软件加工后生成的网络电子书(PDF文件)，在经过本系统转换为ePub、mobi、doc、xml等格式的电子书后，已嵌入PDF文件中的MPR编码不丢失。同时，将OCR校对、结构化标引等相结合，形成一个多任务分布式系统，将一本书的转换工作被拆分为了多个并行/串行子任务，包括结构化标引、OCR校对、转换、合并等，各子任务可以被分发给彼此无关的不同操作人员。各个子任务处理程序可以分别部署于不同的机器上，不同程序之间彼此独立，协同工作，并基于HTTPS网络相互通信。并通过内存使用优化、多线程并发执行、服务器自动负载均衡等措施来提高执行效率，及通过内容数据进行压缩，优化系统架构等来提高通讯效率，从而进一步提高对文档的转换效率。在转换过程过所收集的海量数据，为大数据分析和应用奠定了一个很好的基础，基于这些海量数据，可以提取出更多有价值的信息知识，更好的为社会服务。

本发明实施例服务端100通过创建多个用户及为各用户分配对应的角色，并对接收到的文档进行拆分后依次进行解析、渲染及OCR识别。然后各客户端200从服务端100获取OCR识别后的文档进行结构化标引，各客户端200协同工作根据其对应的用户及角色接收用户指令对进行结构化标引后的文档进行相应的校对，并将完成校对的文档上传至服务端100进行合并，客户端200根据接收用户指令对合并后的文档进行完整性校对。实现了对文档转换任务进行拆分、分配及合并等，使各个客户端200进行协同工作完成文档的转换及校对，提高了文档转换的效率及质量。不仅完成了电子书的格式转工作，同时还兼顾了书籍版权、安全、质量、任务均衡等一系列关键问题。

进一步地，基于上述文档的协同转换系统第一实施例，提出了文档的协同转换系统第二实施例，该实施例中上述客户端200还用于，从服务端100获取合并后的文档，对合并后的文档进行完整性校对。

在登录执行整书完整性校对任务用户名的客户端200，从服务端100获取原始PDF文档和合并后的文档，由操作人员产生的用户指令对文档的目录结构、元数据和封面等进行校对。在完成对文档进行完整性校对后，可导出输出所需格式的电子书。本实施例实现了对文档进行完整性校对，提高了文档的转换质量。

需要说明的是，上述客户端200可用于，根据接收的查看指令，在指定的工作流界面显示各个用户根据各自角色执行任务的进度。具体地，在登录具有管理权限用户名的客户端200，可在指定的工作流界面查看各个用户根据各自角色执行任务的进度，使得通过各种操作环节的状态进度显示，能够根据各个用户的进度合理安排拆分及分配任务，以提高完成对文档转换的操作效率。

进一步地，基于上述文档的协同转换系统第二实施例，提出了文档的协同转换系统第三实施例，该实施例中上述服务端100还用于，接收客户端200上传的文档，对所述文档进行拆分，对拆分后的文档进行渲染，在对渲染后的文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，并将进行光学字符识别的文档中识别错误的文字进行存储，以在识别的过程中对所述识别错误的文字进行标识。

本实施例中，上述服务端100接收客户端200上传的文档并文档进行拆分后，对拆分后的文档进行渲染，在对渲染后的文档进行光学字符识别的过程中，将不同的语言文字进行分开识别，即上述提到的区域重识别。例如，当文档中出现的中文和英文这两种语言文字时，将中文和英文进行分别识别，可先对中文进行光学字符识别后对英文进行光学字符识别，或者是先对英文进行光学字符识别后对中文进行光学字符识别，若还出现日文、韩文、法文等其他语言文字时，也可以进行分开识别。同时，在文档进行光学字符识别的过程中，将进行光学字符识别的文档中识别错误的文字进行存储。例如，可存储在OCR错字本中，在当前页面的OCR结果上将识别错误的文字添加到OCR错字本，以在识别的过程中对所述识别错误的文字进行标识，即如果后续页面中出现OCR识别错误的文字时，系统自动标识出这样的文字，以便校对人员快速校对。

进一步地，基于上述文档的协同转换系统第一实施例，提出了本发明文档的协同转换系统第四实施例，本实施例中，上述服务端100与各客户端200之间通过https协议进行通信，所述客户端200所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。

在上述完成电子书的格式转工作后，为了兼顾书籍版权、安全、质量、任务均衡等一系列关键问题，本系统采用了全方位的加密技术，在内容传输的各个环节均采用了相应的加密技术。系统中服务端100与各客户端200之间的通信使用https协议，客户端200所有下载或上传的数据以加密的方式存储在内存和/或客户端200的临时文件中，临时文件的加密秘钥存在服务器100并通过https协议发送至客户端200，以防止黑客通过网络截获书籍内容。在客户端200程序的数据层，所有数据也采用了私有算法进行加密，防止黑客通过读取系统内存获取到书籍数据。对客户端而言，所有下载或上传的数据只存储在内存中，外部存储不保留任何数据痕迹，操作完成后本地不会保留任何痕迹，所有数据均保存在服务器端100。

另外，客户端200在进行文档的协同转换过程中，禁止屏幕拷贝、避免与其他软件同时运行、不在虚拟机中运行、拦截键盘的PrintScreen命令、禁止使用系统复制粘贴功能等等。本实施例提供一系列安全机制来保护书籍版权，实现了进行文档转换全流程数据的安全，进一步提高了对文档转换的安全性。

进一步地，基于上述文档的协同转换系统第一实施例，提出了本发明文档的协同转换系统第五实施例，该本实施例中上述客户端200还用于，获取用户的身份验证信息，在所述身份验证信息通过验证后，从服务端100获取经光学字符识别后的文档。

本实施例中，为了进一步提高文档的协同转换的安全性，可设置对操作人员身份进行严格审核。身份验证信息包括用户可是用户的身份证号、指纹信息、人脸信息等。具体地，在一实施例中，当客户端200对应的用户想进行文档的转换操作时，用户需要在指定的设置界面输入身份证号码，当身份证号码与注册时所提交的身份证号码一致时，该用户身份验证通过，可从服务器获取相应的文档。反之，当身份证号码与注册时所提交的身份证号码不一致时，该用户身份验证失败，没有获取文档的权限。在另一实施例中，客户端200可在用户作业的过程中，通过前置摄像头定时或实时获取当前用户的面部图像，将面部图像与预先存储的人脸进行比对，若相似度达到预设值(该预设可根据实际需要进行设置)，则该用户身份验证通过，可从服务器100获取相应的文档。反正，该用户没有获取文档的权限。当然，也可采用对用户的指纹识别等措施进行用户身份验证。

同时，客户端200对应的用户在校对的过程中，用户可使用专业硬件设备，例如电脑棒，从硬件层面保护内容不被非法拷贝和流传。当然，防止文档被拷贝的方式也可根据具体情况而灵活设置，并不限定本发明。本实施例通过对用户进行用户身份验证，大大提高了文档的协转换的安全性。

进一步地，基于上述文档的协同转换系统第一至第五实施例中的任一实施例，提出了本发明文档的协同转换系统第六实施例，该实施例中上述客户端200还用于，在校对界面同时显示多个对照视图，接收用户指令对进行结构化标引后的文档进行相应的校对。

本实施例中，使用执行校对任务的用户名登录的客户端200，在显示校对界面时，可选择同步显示多个对照视图，例如，可根据实际需要设置校对界面左右视图对照同步显示，可在左边视图显示原文档，在右边视图显示结构化标引后的文档，或者是设置上下视图对照等。当然，显示多个对照视图的方式可根据具体情况而灵活设置，并不限定本发明。从而可以方便进行校对的用户进行快速校对，提高工作效率。另外，在显示输入法窗口时，可将输入法窗口设置为适宜大小，以免输入法窗口过大而挡住文字内容过多，不方便用户阅览，即上述提到的输入法视图校对，从而提高文档的转换效率。

进一步地，基于上述文档的协同转换系统第一实施例，上述该实施例中上述服务端100还用于，根据接收到的撤回指令，将校对的文档回退至相应的客户端200。

本实施例在对文档进行校对后，若发现上传到服务端100的文档还存在问题，则客户端200可向服务端100发送撤回指令，以使服务端100返回已校对的文档。例如，提交到服务端100进行结构化标引后的文档，若发现还存在错误，可将已提交页面撤回，重新进行结构化标引校对。进行OCR校对后的文档提交到服务端100后，若发现错误，可将文档打回到结构化标引或撤回到OCR校对，重新执行人工标引或OCR校对操作。本实施例实现了对已上传的文档进行回退及纠错，极大地提高了文档的转换质量。

进一步地，基于上述文档的协同转换系统第一实施例，该实施例中上述服务端100包括私有云平台和公众云平台。

本实施例服务端100包括私有云平台和公众云平台，即可采用众包模式作为公众云平台部署，或者针对集团用户部署为私有云平台。在私有云平台上，文档的转换工作只能由企业内部人员使用，这样的好处是可以很好的保护书籍的版权，并且可以通过对操作人员的专业培训，提高对文档转换的效率和质量。考虑到待转换书籍的庞大数量，以及对于操作人员专业要求不高的特点，在公众云平台上，文档的转换工作可以分配给各种非专业人员，可以找到社会上各领域的大量兼职人员参与转换工作，利用互联网的高效通信、分布式工作等特点，能针对不同转换书籍迅速找到合适的转换操作人员，大大地降低文档的转换的人工成本，及极大地提高转换工作的整体进度，既能提高转换效率，又能保证转换质量。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文档的协同转换方法，其特征在于，所述文档的协同转换方法包括以下步骤：

各客户端从服务端获取经光学字符识别后的文档进行结构化标引，并根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端；

2.如权利要求1所述的文档的协同转换方法，其特征在于，所述服务端在接收到各客户端上传的所有完成校对的拆分文档后进行合并之后包括：

3.如权利要求2所述的文档的协同转换方法，其特征在于，所述服务端接收客户端上传的文档，对所述文档进行拆分，对拆分后的文档依次进行渲染及光学字符识别包括：

4.如权利要求1所述的文档的协同转换方法，其特征在于，所述服务端与各客户端之间通过https协议进行通信，所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。

5.如权利要求1所述的文档的协同转换方法，其特征在于，所述各客户端从服务端获取经光学字符识别后的文档进行结构化标引，并根据各自对应的用户及角色，接收用户指令对进行结构化标引后的文档进行相应的校对，将完成校对的文档上传至服务端之前包括：

6.如权利要求1-5中任一项所述的文档的协同转换方法，其特征在于，所述接收用户指令对进行结构化标引后的文档进行相应的校对包括：

7.一种文档的协同转换系统，其特征在于，所述文档的协同转换系统包括服务端和多个客户端，其中，

客户端，用于向服务端发送创建用户的请求；

8.如权利要求7所述的文档的协同转换系统，其特征在于，所述客户端还用于，从服务端获取合并后的文档，对合并后的文档进行完整性校对。

9.如权利要求7所述的文档的协同转换系统，其特征在于，所述服务端与各客户端之间通过https协议进行通信，所述客户端所有下载或上传的数据以加密的方式存储在内存和/或客户端的临时文件中，所述临时文件的加密秘钥存在所述服务器并通过https协议发送至所述客户端。

10.如权利要求7所述的文档的协同转换系统，其特征在于，所述客户端还用于，获取用户的身份验证信息，在所述身份验证信息通过验证后，从所述服务端获取经光学字符识别后的文档。