CN108984491A

CN108984491A - 一种文档格式转换的方法和装置

Info

Publication number: CN108984491A
Application number: CN201810789098.1A
Authority: CN
Inventors: 沈文策
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2018-12-11

Abstract

本发明实施例提供了一种文档格式转换的方法和装置，所述方法包括：获取待转换文档；在待转换文档中的易出错区域，确定第一标识符；对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。应用本发明实施例能够快速查找格式转换后的易出错区域。

Description

一种文档格式转换的方法和装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种文档格式转换的方法和装置。

背景技术

在日常的工作中，经常会需要对文档的格式进行转换，比如，将包含不可编辑的字符或文字的文档，转换为包含可编辑的字符或文字的文档，具体的，可以将PDF格式或包含字符或文字的图像格式的文档，转换为WORD或TXT格式的文档，以便能够对文档中的字符或文字进行编辑处理。而在实际应用中，经常会出现转换出错的问题，尤其在文档包括复杂的计算公式、特殊符号、以及相似的字符或文字等不易辨识的内容的情况下，转换后文档中这些不易辨识的内容对应的转换结果中所包含的错误，通常占全篇错误中的绝大多数；比如，当转换前文档中包括大写字母O或阿拉伯数字0时，易将大写字母O误转换为阿拉伯数字0，或将阿拉伯数字0误转换为大写字母O。为了方便说明，可以将文档中的不易辨识的内容所在的位置称为易出错区域。

为了保证转换后文档的正确性，需要由人工根据待转换文档中的易出错区域，在转换后文档中查找格式转换后的易出错区域，以便对格式转换后的易出错区域中的内容进行逐一校正。但由于段落、字体等设置不同等原因，造成转换后文档与待转换文档的排版差距较大，使得上述不易辨识区域在待转换文档与转换后文档中的分布情况差距较大，导致查找起来比较困难，且费时费力。

发明内容

本发明实施例的目的在于提供一种文档格式转换的方法和装置，以实现在转换后文档中，快速查找格式转换后的易出错区域。具体技术方案如下：

本发明实施例提供了一种文档格式转换的方法，所述方法包括：

获取待转换文档；

在待转换文档中的易出错区域，确定第一标识符；

对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。

可选的，所述第一标识符，用于使用彩色颜色填涂，来标识待转换文档中的易出错区域。

可选的，所述第二标识符，用于使用与第一标识符相同或不同的彩色颜色填涂，来标识转换后文档中的格式转换后的易出错区域。

可选的，所述第一标识符，用于当待转换文档的易出错区域包括字符或文字时，通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符，来标识待转换文档中的易出错区域，其中，第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前，第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。

可选的，所述第二标识符，用于通过转换后文档中的第二首标识符和第二尾标识符，查找转换后文档中的格式转换后的易出错区域，其中，第二首标识符是对第一首标识符进行格式转换后得到的标识符，第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。

本发明实施例再提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的文档格式转换的方法。

本发明实施例再提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的文档格式转换的方法。

本发明实施例再提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的文档格式转换的方法。

本发明实施例提供的一种文档格式转换的方法和装置，首先，获取待转换文档；然后，在待转换文档中的易出错区域，确定第一标识符；接下来，对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以使用户能够根据第二标识符，在转换后文档中查找格式转换后的易出错区域，进而对查找到的格式转换后的易出错区域进行校正，其中，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。

这样，可以根据转换后文档中的第二标识符，在转换后文档中，快速查找到格式转换后的易出错区域，以便对格式转换后的易出错区域进行逐一校正，不仅提高了工作效率，而且可以保证转换后文档的正确性。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的文档格式转换的方法的一种流程图；

图2为本发明实施例中第一标识符的一种示意图；

图3为本发明实施例中第二标识符的一种示意图；

图4为本发明实施例的文档格式转换的方法的又一种流程图；

图5为本发明实施例中第一标识符的又一种示意图；

图6为本发明实施例中第二标识符的又一种示意图；

图7为本发明实施例的文档格式转换的装置的一种示意图；

图8为本发明实施例的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在对文档的格式进行转换的过程中，经常会出现转换出错的问题，尤其在文档包括复杂的计算公式、特殊符号、以及相似的字符或文字等不易辨识的内容的情况下，转换后文档中这些不易辨识的内容对应的转换结果中所包含的错误，通常占全篇错误中的绝大多数。为了方便说明，可以将文档中的不易辨识的内容所在的位置称为不易辨识区域。

为了保证转换后文档的正确性，需要由人工根据待转换文档中的上述不易辨识区域，在转换后文档中查找格式转换后的不易辨识区域，以便对格式转换后的不易辨识区域中的内容进行逐一校正。但由于段落、字体等设置不同等原因，造成转换后文档与待转换文档的排版差距较大，使得上述不易辨识区域在待转换文档与转换后文档中的分布情况差距较大，导致查找起来比较困难，且费时费力。

为了解决上述问题，本发明实施例提供了一种文档格式转换的方法和装置，能够在转换后文档中，快速查找到格式转换后的易出错区域，以便对格式转换后的易出错区域进行逐一校正，不仅提高了工作效率，而且可以保证转换后文档的正确性。

本发明实施例提供了一种文档格式转换的方法。参见图1，图1为本发明实施例的文档格式转换的方法的一种流程图，包括如下步骤：

步骤101，获取待转换文档。

在本步骤中，可以获取待转换文档，以便对获取到的待转换文档进行格式转换处理，其中，待转换文档是指用于格式转换的文档，通常情况下，可以将文档格式为不可编辑的待转换文档，转换为文档格式为可编辑的文档，或者，文档格式为可编辑的待转换文档，转换为文档格式为不可编辑的文档。

比如，可以将pdf文档格式的待转换文档，转换为txt格式或者word格式的文档；或者，将doc，docx，txt，ppt，pptx，xls，xlsx等Office格式的待转换文档，转换为pdf格式的文档。

在实际应用中，本发明实施例提供的文档格式转换的方法可以通过离线单机上的软件实现，也可以通过在线网页来实现。对应的，获取待转换文档的方式包括将待转换文档加载至离线单机上的软件中，或者将待转换文档上传至在线网页中。具体的，在通过在线网页来实现的情况下，可以在网页上加载具有格式转换功能的插件，由具有格式转换功能的插件完成文档的格式转换处理，并将转换后的文档的预览显示在网页上。

比如，可以使用超文本预处理器(Hypertext Preprocessor，PHP)语言编写的小程序实现文档的格式转换功能，这样编写的小程序具有很好的扩展性，可以调用OpenOffice软件和Windows系统的内核，并有一个简单的基于Java描述语言(Javascript)的插件来实现完整的文档的格式转换功能。整套程序轻量化，不会有多余的负载，对于中小型文库类网站很有价值。此外，当网页服务器的操作系统为Windows时，需要安装OpenOffice软件。

步骤102，在待转换文档中的易出错区域，确定第一标识符。

在本步骤中，可以在获取到的待转换文档中，确定易出错区域，并在易出错区域确定第一标识符，以便根据第一标识符，在转换后文档中快速查找格式转换后的易出错区域。

其中，易出错区域是指在格式转换中容易出错的内容所在的位置，也即文档中的不易辨识的内容所在的位置；具体的，易出错区域可以由人工在待转换文档中确认，也可以通过其他工具来实现。易出错区域中的内容可以包括图片、公式、字符以及文字等。

在一种实现方式中，所述第一标识符，用于使用彩色颜色填涂，来标识待转换文档中的易出错区域。

具体的，可以使用第一标识符，通过彩色颜色填图，来标识出待转换文档中的易出错区域，操作简单且容易辨识。

比如，如图2所示，图2为本发明实施例中第一标识符的一种示意图，在图2中，待转换文档中被灰色填涂的公式为易出错区域。

步骤103，对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域。

其中，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。

在本步骤中，对已经确定第一标识符的待转换文档进行格式转换，得到包括第二标识符的转换后文档，其中，第二标识符为对第一标识符进行格式转换后的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域，以便根据第二标识符，在转换后文档中快速查找格式转换后的易出错区域，这样，就可以在上述格式转换后的易出错区域中进行校正，以保证转换后文档的正确性。

在一种实现方式中，所述第二标识符，用于使用与第一标识符相同或不同的彩色颜色填涂，来标识转换后文档中的格式转换后的易出错区域。

为了方便理解，在图2所示的例子的基础上进行说明，如图3所示，图3为本发明实施例中第二标识符的一种示意图，在图3中，转换后文档中被灰色填涂的公式为格式转换后的易出错区域。

可以看出，图2中，待转换文档中的易出错区域中的公式为L3＝(Lt-L2)/(N-1)，而图3中，格式转换后的易出错区域中的公式为L3＝(Lt-L2)/(N-I)，将数字1误转换为大写字母I。这样，通过第二标识符可以快速找到转换后文档中的易出错区域，并对转换后文档中易出错区域中的公式进行修改校正，以保证转换后文档的正确性。

可见，本发明实施例提供的文档格式转换的方法，能够使用第一标识符在待转换文档中标识出易出错区域，而转换后文档可以包括对第一标识符进行格式转换后的第二标识符，这样，能够根据第二标识符，在转换后文档中快速查找到格式转换后的易出错区域，以便对格式转换后的易出错区域进行逐一校正，不仅提高了工作效率，而且可以保证转换后文档的正确性。

在待转换文档的易出错区域包括字符或文字的场景下，本发明实施例又提供了一种文档格式转换的方法。参见图4，图4为本发明实施例的文档格式转换的方法的又一种流程图，包括如下步骤：

步骤401，获取待转换文档。

本步骤的详细过程和技术效果可以参考图1所示的文档格式转换的方法中的步骤101，在此不再赘述。

步骤402，当待转换文档的易出错区域包括字符或文字时，通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符，来标识待转换文档中的易出错区域。

其中，第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前，第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。

在本步骤中，在待转换文档中的易出错区域，确定第一标识符，其中，第一标识符，可以用于当待转换文档的易出错区域包括字符或文字时，通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符，来标识待转换文档中的易出错区域。具体的，第一标识符可以是区别于待转换文档中的字符或文字的特殊符号等。

比如，如图5所示，图5为本发明实施例中第一标识符的又一种示意图，在图5中，第一首标识符为待转换文档中的第一个竖杠，第一尾标识符为待转换文档中的第二个竖杠为，两个竖杠之间为待转换文档中的易出错区域。

步骤403，通过转换后文档中的第二首标识符和第二尾标识符，查找转换后文档中的格式转换后的易出错区域。

其中，第二首标识符是对第一首标识符进行格式转换后得到的标识符，第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。

在本步骤中，可以对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域，其中，第二标识符，可以用于通过转换后文档中的第二首标识符和第二尾标识符，查找转换后文档中的格式转换后的易出错区域，第二首标识符是对第一首标识符进行格式转换后得到的标识符，第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。

为了方便理解，在图5所示的例子的基础上进行说明，如图6所示，图6为本发明实施例中第二标识符的又一种示意图，在图6中，转换后文档中的第一个竖杠为第二首标识符，第二个竖杠为第二尾标识符，两个竖杠之间为格式转换后的易出错区域。

可以看出，图5中，待转换文档中的易出错区域中的公式为A＝Cp*Wp+Cl*Wl+Cs*Ws，而图6中，格式转换后的易出错区域中的公式为A＝Cp*Wp+CI*WI+Cs*W5，可见，在公式以及在对公式的说明部分，均将数字1误转换为大写字母I，且将小写字母s误转换为数字5。这样，根据第二首标识符和第二尾标识符，可以快速找到转换后文档中的易出错区域，并对转换后文档中易出错区域中的公式进行修改校正，以保证转换后文档的正确性。

可见，本发明实施例提供的文档格式转换的方法，能够在待转换文档的易出错区域包括字符或者文字的场景下，使用第一首标识符和第一尾标识符，在待转换文档中标识出易出错区域，而转换后文档可以包括对第一首标识符和第一尾标识符进行格式转换后的第二首标识符和第二尾标识符，这样，能够根据第二首标识符和第二尾标识符，在转换后文档中快速查找到格式转换后的易出错区域，以便对格式转换后的易出错区域进行逐一校正，不仅提高了工作效率，而且可以保证转换后文档的正确性。

本发明实施例另提供了一种文档格式转换的装置。参见图7，图7为本发明实施例的文档格式转换的装置的一种示意图，装置包括：

获取模块701，用于获取待转换文档；

确定模块702，用于在待转换文档中的易出错区域，确定第一标识符；

转换模块703，用于对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。

可见，本发明实施例提供的文档格式转换的装置，能够使用第一标识符在待转换文档中标识出易出错区域，而转换后文档可以包括对第一标识符进行格式转换后的第二标识符，这样，能够根据第二标识符，在转换后文档中快速查找到格式转换后的易出错区域，以便对格式转换后的易出错区域进行逐一校正，不仅提高了工作效率，而且可以保证转换后文档的正确性。

本发明实施例再提供了一种电子设备，参考图8，图8为本发明实施例的电子设备的一种结构示意图。如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

获取待转换文档；

在待转换文档中的易出错区域，确定第一标识符；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文档格式转换的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文档格式转换的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文档格式转换的方法，其特征在于，所述方法包括：

获取待转换文档；

在待转换文档中的易出错区域，确定第一标识符；

2.根据权利要求1所述的方法，其特征在于，

所述第一标识符，用于使用彩色颜色填涂，来标识待转换文档中的易出错区域。

3.根据权利要求2所述的方法，其特征在于，

所述第二标识符，用于使用与第一标识符相同或不同的彩色颜色填涂，来标识转换后文档中的格式转换后的易出错区域。

4.根据权利要求1所述的方法，其特征在于，

所述第一标识符，用于当待转换文档的易出错区域包括字符或文字时，通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符，来标识待转换文档中的易出错区域，其中，第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前，第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。

5.根据权利要求4所述的方法，其特征在于，

所述第二标识符，用于通过转换后文档中的第二首标识符和第二尾标识符，查找转换后文档中的格式转换后的易出错区域，其中，第二首标识符是对第一首标识符进行格式转换后得到的标识符，第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。

6.一种文档格式转换的装置，其特征在于，所述装置包括：

获取模块，用于获取待转换文档；

确定模块，用于在待转换文档中的易出错区域，确定第一标识符；

转换模块，用于对待转换文档进行格式转换，得到包括第二标识符的转换后文档，以根据第二标识符，在转换后文档中查找格式转换后的易出错区域，第二标识符是对第一标识符进行格式转换后得到的标识符，第二标识符用于在转换后文档中，标识格式转换后的易出错区域。

7.根据权利要求6所述的装置，其特征在于，

8.根据权利要求7所述的装置，其特征在于，

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。