CN112446373A

CN112446373A - 识别转换图像文件的方法、系统、计算机设备及存储介质

Info

Publication number: CN112446373A
Application number: CN202011478173.6A
Authority: CN
Inventors: 邓文活
Original assignee: Wanxing Technology Hunan Co ltd
Current assignee: Wanxing Technology Hunan Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-05
Anticipated expiration: 2040-12-15
Also published as: CN112446373B

Abstract

本发明实施例公开了识别转换图像文件的方法、系统、计算机设备及存储介质，方法包括：获取图像文件的图像页面，将所述图像页面推送至OCR队列中，利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别，获取所述图像页面中的文字信息；将获取到的所述图像页面中的文字信息转换为文本，利用所述文本生成OCR页面，并保存至缓存中；利用所述缓存中的OCR页面替换所述图像页面。本发明通过将图像页面进行OCR识别获取文字信息，将文字信息转换为文本，利用文本生成OCR页面并保存至缓存中，这样在需要替换图像页面时，应用程序可以直接从缓存中获取对应OCR页面，无需即时进行OCR识别的过程，提高了处理效率。

Description

识别转换图像文件的方法、系统、计算机设备及存储介质

技术领域

本发明实施例涉及文档转换技术领域，特别涉及一种识别转换图像文件的方法、系统、计算机设备及存储介质。

背景技术

图像文件包括有纯图像的图像文件以及图像与文字相结合的图像文件。在图像与文字相结合的图像文件中，因为图像文件中的文字不可直接进行编辑，往往需要先对图像文件中的文字进行处理，在现有技术多采用OCR识别技术。OCR(optical characterrecognition)光学字符识别，即对文本资料进行扫描得到图像，然后对图像文件进行分析处理，获取文字及版面信息的过程。在OCR的整个过程中，往往涉及有图像预处理、文字特征提取、比对识别，因此转换过程耗时很长，用户体验较差。

发明内容

本发明实施例提供了识别转换图像文件的方法、系统、计算机设备及存储介质，旨在解决OCR处理图像文件的过程耗时长的问题。

第一方面，本发明实施例提供了一种识别转换图像文件的方法，其包括：

获取图像文件的图像页面，将所述图像页面推送至OCR队列中，利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别，获取所述图像页面中的文字信息；

将获取到的所述图像页面中的文字信息转换为文本，利用所述文本生成OCR页面，并保存至缓存中；

利用所述缓存中的OCR页面替换所述图像页面。

第二方面，本发明实施例提供了一种识别转换图像文件的系统，其包括：

文字信息获取单元，用于获取图像文件的图像页面，将所述图像页面推送至OCR队列中，利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别，获取所述图像页面中的文字信息；

OCR页面生成单元，用于将获取到的所述图像页面中的文字信息转换为文本，利用所述文本生成OCR页面，并保存至缓存中；

图像页面替换单元，用于利用所述缓存中的OCR页面替换所述图像页面。第三方面，本发明实施例又提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的识别转换图像文件的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的识别转换图像文件的方法。

本发明实施例提供了识别转换图像文件的方法、系统、计算机设备及存储介质，其中，方法包括：获取图像文件的图像页面，将所述图像页面推送至OCR队列中，利用OCR线程取出所述OCR队列中的图像页面并进行OCR识别，获取所述图像页面中的文字信息；将获取到的所述图像页面中的文字信息转换为文本，利用所述文本生成OCR页面，并保存至缓存中；利用所述缓存中的OCR页面替换所述图像页面。本发明实施例通过将图像页面进行OCR识别获取文字信息，将文字信息转换为文本，利用文本生成OCR页面并保存至缓存中，这样在需要替换图像页面时，应用程序可以直接从缓存中获取对应OCR页面，无需即时进行OCR识别的过程，提高了处理效率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种识别转换图像文件的方法的流程示意图；

图2为本发明实施例所提供的一种识别转换图像文件的系统的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种识别转换图像文件的方法的流程示意图，该方法可以包括步骤S101～S103：

S101、获取图像文件的图像页面，将图像页面推送至OCR队列中，利用OCR线程取出OCR队列中的图像页面并进行OCR识别，获取图像页面中的文字信息；

在本步骤中，通过将图像文件的图像页面推送至OCR队列进行OCR识别，从而获取图像页面中的文字信息。当可以用于打开图像文件的应用程序接收到图像文件时，通过该应用程序中的处理模块对图像文件进行处理，获得图像页面；同时在应用后台创建一个用于独立进行OCR的OCR线程，将得到的图像页面推送至OCR队列中进行保存，OCR线程按顺序从OCR队列中按顺序提取图像页面进行OCR识别，获取图像页面中的文字信息。创建独立进行OCR的OCR线程，可以使应用程序在处理其他线程的同时，不会因为需要进行OCR而导致卡顿。

当获取了图像页面中的文字信息后，将所获取的文字信息保存在OCR线程中，这样，当需要提取这些文字时可以直接从OCR线程中获得，从而可以有效利用资源。图像文件中的图像页面可以是一个图像页面，也可以是多个图像页面。当图像文件中的图像页面具有多个时，按照图像页面在图像文件中的顺序依次推送至OCR队列中进行OCR识别，以确保对该图像文件的处理可以顺利进行。

S102、将获取到的图像页面中的文字信息转换为文本，利用文本生成OCR页面，并保存至缓存中；

在本步骤中，在获取到图像页面中的文字信息后，根据文字信息生成对应文字内容的可编辑的文本，在利用文本替换掉图像页面中的文字信息，然后生成OCR页面，并保存在缓存中。

在一具体实施例中，利用文本生成OCR页面，并保存至缓存中包括：

获取图像页面中的文字信息的位置，并使用底图对图像页面中的文字信息进行遮挡处理；

在对应位置上添加与文字信息对应的文本，将添加文本后的图像页面生成OCR页面，并保存至缓存的OCR数据集合中。

在本实施例中，利用图像页面中文字信息对应位置下的底图，将文字信息进行遮挡处理，然后将文本添加在对应位置上，以替换图像页面中的原文字信息，然后将文本和图像页面合并转换成OCR页面，并保存至缓存。这样所生成的OCR页面不仅包含了原图像页面中的图像部分，还将原图像页面中的文字信息用文本进行代替。这里所采用的缓存策略可以是前二后四，即保存当前页面的OCR文字结果的同时，也保存当前页面的前两张页面和后四张页面的OCR文字结果，这种缓存策略最多仅占用运行两个文档的内存，也就不至于出现卡顿现象。

S103、利用缓存中的OCR页面替换图像页面。

在本步骤中，在缓存中获取图像页面对应的OCR页面，在利用该OCR页面替换图像页面，以生成新的图像文件。替换的过程具体是将该图像页面删除，然后将对应的OCR页面插入。若进行了误删除操作，也可以通过撤销将被误删的图像页面进行恢复。相应的，在进行页面替换后，也可以通过撤销将原页面进行恢复。

在一具体实施例中，步骤S103包括：

当接收到替换指令时，获取需替换的图像页面，检索缓存，判断是否存在图像页面对应的OCR页面；

若存在对应的OCR页面，则提取OCR页面，并替换对应的图像页面；

若不存在对应的OCR页面，则将图像页面推送至OCR队列进行OCR识别。

在本实施例中，在进行替换时，需要先在缓存中获取对应的OCR页面，再对图像页面进行替换。因此，在接收到替换指令时，首先需要在缓存中进行检索，查看需要替换的图像页面对应的OCR页面是否已经保存在缓存中，若存在则直接提取并替换，若不存在，则先将图像页面推送至OCR队列进行OCR识别，获取OCR页面，再进行替换。

若不存在对应的OCR页面时，可以将图像页面推送至OCR队列首位进行OCR识别，优先处理该图像页面以尽快返回对应的OCR页面，进行替换。也可以将该图像页面推送至OCR队列后，先进行下一图像页面的替换，当该图像页面对应的OCR页面生成后，再将该图像页面从等待队列中提取出来，进行替换。

在一具体实施例中，若不存在对应的OCR页面，则将图像页面推送至OCR队列进行OCR识别包括：

对图像文件的同一图像页面进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块；

将包含有文字内容的图像页面块先推送至OCR队列中，将不包含文字内容的图像页面块后推送至OCR队列中。

在本实施例中，当获取到图像文件后，先对图像文件进行区域划分，然后将同一图像页面划分后的多个区域文件渲染为图像页面块，再将具有文字内容的图像页面块优先推送至OCR队列中，以便OCR线程可以及时进行处理，将其中的文字内容进行提取。在OCR线程处理OCR队列是按顺序进行处理的，因此，获取了具有文字内容的图像页面块时，此时OCR线程可能存在正在处理上一图像页面的情况，为了使OCR线程优先处理具有文字内容的图像页面块，因此将具有文字内容的图像页面块进行优先处理。若当前OCR线程处理的为上一图像页面中具有文字内容的图像页面块，则将当前图像页面中具有文字图像页面块推送至上一图像页面不具有文字内容的图像页面块之前。当前图像页面中不具有文字内容的图像页面块则按照顺序进行推送。

在一具体实施例中，对图像文件的同一图像页面进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块包括：

获取图像文件的同一图像页面的横向像素与纵向像素的颜色分布，并判断横向像素与纵向像素的颜色是否一致；

若横向像素与纵向像素的颜色一致，则根据横向像素与纵向像素的位置进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块。

在本实施例中，对图像文件的同一图像页面进行区域划分的具体规则可以是按照图像页面中的纵向像素和横向像素的颜色分布进行划分，若颜色一致则认为是可以拆分的。通过这种划分规则，可以有效区分具有文字内容的区域文件。

在一实施例中，还包括：

当接收到对图像页面的修改操作时，删除缓存中与图像页面对应的OCR页面，并将修改后的图像页面推送至OCR队列中。

在本实施例中，在对图像页面进行了修改操作时，此时图像页面中的内容进行了变更，已缓存好的OCR页面中的内容与现在的图像页面中的内容不对应，因此需要将缓存中的OCR页面进行删除，重新生成现在的图像页面对应的OCR页面。在本实施例中对OCR页面进行删除后，无法通过撤销恢复删除的OCR页面，只能将图像页面重新进行OCR识别，获取对应的OCR页面。

在一实施例中，图像文件为PDF文件。

在本实施例中，图像文件可以是PDF文件，该PDF文件的图像页面即PDF页面，PDF页面的数量可以是一张或多张，图像文件还可以是其他具有图像页面的文件，例如具有文字内容的JPEG格式图片、PNG格式图片、BMP格式图片等。

请参阅图2，图2为本发明实施例提供的一种识别转换图像文件的系统的示意性框图，该识别转换图像文件的系统200包括：

文字信息获取单元201，用于获取图像文件的图像页面，将图像页面推送至OCR队列中，利用OCR线程取出OCR队列中的图像页面并进行OCR识别，获取图像页面中的文字信息；

OCR页面生成单元202，用于将获取到的图像页面中的文字信息转换为文本，利用文本生成OCR页面，并保存至缓存中；

图像页面替换单元203，用于利用缓存中的OCR页面替换图像页面。

在一实施例中，OCR页面生成单元202包括：

底图处理单元，用于获取图像页面中的文字信息的位置，并使用底图对图像页面中的文字信息进行遮挡处理；

文本添加单元，用于在对应位置上添加与文字信息对应的文本，将添加文本后的图像页面生成OCR页面，并保存至缓存的OCR数据集合中。

在一实施例中，图像页面替换单元203包括：

OCR页面判断单元，用于当接收到替换指令时，获取需替换的图像页面，检索缓存，判断是否存在图像页面对应的OCR页面；

OCR页面替换单元，用于若存在对应的OCR页面，则提取OCR页面，并替换对应的图像页面；

图像页面推送单元，用于若不存在对应的OCR页面，则将图像页面推送至OCR队列进行OCR识别。

在一实施例中，图像页面推送单元包括：

区域划分单元，用于对图像文件的同一图像页面进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块；

OCR队列推送单元，用于将包含有文字内容的图像页面块先推送至OCR队列中，将不包含文字内容的图像页面块后推送至OCR队列中。

在一实施例中，区域划分单元包括：

像素颜色判断单元，用于获取图像文件的同一图像页面的横向像素与纵向像素的颜色分布，并判断横向像素与纵向像素的颜色是否一致；

像素位置划分单元，用于若横向像素与纵向像素的颜色一致，则根据横向像素与纵向像素的位置进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块。

在一实施例中，识别转换图像文件的系统200还包括：

修改操作单元，用于当接收到对图像页面的修改操作时，删除缓存中与图像页面对应的OCR页面，并将修改后的图像页面推送至OCR队列中。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的一种识别转换图像文件的方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的一种识别转换图像文件的方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种识别转换图像文件的方法，其特征在于，包括：

利用所述缓存中的OCR页面替换所述图像页面。

2.根据权利要求1所述的识别转换图像文件的方法，其特征在于，所述利用所述文本生成OCR页面，并保存至缓存中，包括：

获取所述文件页面中的文字信息的位置，并使用底图对所述文件页面中的文字信息进行遮挡处理；

在对应位置上添加与所述文字信息对应的文本，将添加文本后的文件页面生成OCR页面，并保存至缓存的OCR数据集合中。

3.根据权利要求1所述的识别转换图像文件的方法，其特征在于，所述利用所述缓存中的OCR页面替换所述图像页面，包括：

当接收到替换指令时，获取需替换的图像页面，检索所述缓存，判断是否存在所述图像页面对应的OCR页面；

若存在对应的OCR页面，则提取所述OCR页面，并替换对应的图像页面；

若不存在对应的OCR页面，则将所述图像页面推送至OCR队列进行OCR识别。

4.根据权利要求3所述的识别转换图像文件的方法，其特征在于，所述若不存在对应的OCR页面，则将所述图像页面推送至OCR队列进行OCR识别，包括：

对所述图像文件的同一图像页面进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块；

将包含有文字内容的图像页面块先推送至所述OCR队列中，将不包含文字内容的图像页面块后推送至所述OCR队列中。

5.根据权利要求4所述的识别转换图像文件的方法，其特征在于，所述对所述图像文件的同一图像页面进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块，包括：

获取所述图像文件的同一图像页面的横向像素与纵向像素的颜色分布，并判断所述横向像素与纵向像素的颜色是否一致；

若所述横向像素与纵向像素的颜色一致，则根据所述所述横向像素与纵向像素的位置进行区域划分，得到多个区域文件并渲染为对应的多个图像页面块。

6.根据权利要求1所述的识别转换图像文件的方法，其特征在于，还包括：

当接收到对所述图像页面的修改操作时，删除所述缓存中与所述图像页面对应的OCR页面，并将修改后的所述图像页面推送至所述OCR队列中。

7.根据权利要求1所述的识别转换图像文件的方法，其特征在于，所述图像文件为PDF文件。

8.一种识别转换图像文件的系统，其特征在于，包括：

图像页面替换单元，用于利用所述缓存中的OCR页面替换所述图像页面。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的识别转换图像文件的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的识别转换图像文件的方法。