CN115797935A

CN115797935A - 图片中文本的提取方法、装置、设备及可读存储介质

Info

Publication number: CN115797935A
Application number: CN202211572403.4A
Authority: CN
Inventors: 胡国彪; 洪响斌; 刘江; 昕宇; 胡运强; 李磊
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-03-14

Abstract

本申请公开了一种图片中文本的提取方法、装置、设备及可读存储介质。在获取待进行文本提取的图片之后，先将图片的存储格式转换为目标存储格式，目标存储格式中包括图片的字符串编码结果和图片的文本识别结果，图片的文本识别结果包括文本内容信息；再对预设存储格式进行解析，生成显示内容，显示内容包括图片以及处于可编辑状态的文本内容信息。该方案中，由于在显示图片的同时也可以显示处于可编辑状态的文本内容信息，因此，用户可以在浏览图片的同时对文本内容信息进行选择和复制操作，实现在浏览图片的同时对图片中文本进行直接提取。

Description

图片中文本的提取方法、装置、设备及可读存储介质

技术领域

本申请涉及图片处理技术领域，更具体的说，是涉及一种图片中文本的提取方法、装置、设备及可读存储介质。

背景技术

在一些场景(比如，政法行业中，司法机关办案人员在办理案件过程，将纸质卷宗转化为电子卷宗的时候)中，往往需要提取图片中的文本。

现有技术中，图片只能以文件或二进制流的形式进行存储，如果要提取图片中的文本，需要利用诸如OCR(Optical Character Recognition，光学字符识别)之类的图片文本识别方法对图片中的文本进行识别提取，无法在图片浏览的时候，通过直接对图片中文本进行选择和复制操作实现图片中文本的提取。

因此，如何提供一种能够在浏览图片的同时对图片中文本进行直接提取的图片中文本的提取方法，成为本领域技术人员亟待解决的问题。

发明内容

鉴于上述问题，本申请提出了一种图片中文本的提取方法、装置、设备及可读存储介质。具体方案如下：

一种图片中文本的提取方法，所述方法包括：

获取待进行文本提取的图片；

将所述图片的存储格式转换为目标存储格式，所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果，所述图片的文本识别结果包括文本内容信息；

对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述文本内容信息处于可编辑状态。

可选地，所述将所述图片的存储格式转换为目标存储格式，包括：

对所述图片进行字符串编码，得到所述图片的字符串编码结果；

对所述图片进行文本识别，得到所述图片的文本识别结果；

将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式。

可选地，所述对所述图片进行字符串编码，得到所述图片的字符串编码结果，包括：

采用Base64编码方式对所述图片进行字符串编码，得到所述图片的字符串编码结果。

可选地，所述对所述图片进行文本识别，得到所述图片的文本识别结果，包括：

采用光学字符识别OCR技术，对所述图片进行文本识别，得到所述图片的文本识别结果。

可选地，所述将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式，包括：

将所述图片的字符串编码结果和所述图片的文本识别结果进行加密，得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果；

对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装，得到所述图片的目标存储格式。

可选地，所述图片的文本识别结果还包括文本内容信息的位置信息，则所述对所述预设存储格式进行解析，生成显示内容，包括：

对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述显示内容中的文本内容信息是在所述图片中与所述文本内容信息的位置信息对应的位置处显示的，所述文本内容信息处于可编辑状态。

可选地，所述对所述目标存储格式进行解析，生成显示内容，包括：

调用预设的浏览器插件，对所述目标存储格式进行解析，生成显示内容；

或者，调用预设的桌面端工具，对所述目标存储格式进行解析，生成显示内容。

一种图片中文本的提取装置，所述装置包括：

获取单元，用于获取待进行文本提取的图片；

转换单元，用于将所述图片的存储格式转换为目标存储格式，所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果，所述图片的文本识别结果包括文本内容信息；

解析单元，用于对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述文本内容信息处于可编辑状态。

可选地，所述转换单元，包括：

字符串编码单元，用于对所述图片进行字符串编码，得到所述图片的字符串编码结果；

文本识别单元，用于对所述图片进行文本识别，得到所述图片的文本识别结果；

封装单元，用于将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式。

可选地，所述字符串编码单元，具体用于：

可选地，所述文本识别单元，具体用于：

可选地，所述封装单元，包括：

加密单元，用于将所述图片的字符串编码结果和所述图片的文本识别结果进行加密，得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果；

封装子单元，用于对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装，得到所述图片的目标存储格式。

可选地，所述图片的文本识别结果还包括文本内容信息的位置信息，则所述解析单元，具体用于：

可选地，所述解析单元，包括：

第一解析子单元，用于调用预设的浏览器插件，对所述目标存储格式进行解析，生成显示内容；

或者，第二解析子单元，用于调用预设的桌面端工具，对所述目标存储格式进行解析，生成显示内容。

一种图片中文本的提取设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的图片中文本的提取方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的图片中文本的提取方法的各个步骤。

借由上述技术方案，本申请公开了一种图片中文本的提取方法、装置、设备及可读存储介质。在获取待进行文本提取的图片之后，先将图片的存储格式转换为目标存储格式，目标存储格式中包括图片的字符串编码结果和图片的文本识别结果，图片的文本识别结果包括文本内容信息；再对预设存储格式进行解析，生成显示内容，显示内容包括图片以及处于可编辑状态的文本内容信息。该方案中，由于在显示图片的同时也可以显示处于可编辑状态的文本内容信息，因此，用户可以在浏览图片的同时对文本内容信息进行选择和复制操作，实现在浏览图片的同时对图片中文本进行直接提取。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的一种图片中文本的提取方法的流程示意图；

图2为本申请实施例公开的一种将图片的存储格式转换为目标存储格式的方法的流程示意图；

图3为本申请实施例公开的一种调用预设的浏览器插件对目标存储格式进行解析生成的显示内容的示意图；

图4为本申请实施例公开的一种调用预设的桌面端工具对目标存储格式进行解析生成的显示内容的示意图；

图5为本申请实施例公开的一种图片中文本的提取装置结构示意图；

图6为本申请实施例公开的一种图片中文本的提取设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，通过下述实施例对本申请提供的图片中文本的提取方法进行介绍。

参照图1，图1为本申请实施例公开的一种图片中文本的提取方法的流程示意图，该方法可以包括：

步骤S101：获取待进行文本提取的图片。

在本申请中，待进行文本提取的图片可以为任意场景的图片，比如政法行业中，司法机关办案人员在办理案件过程中涉及的纸质卷宗图片，对此，本申请不进行任何限定。待进行文本提取的图片可以为本地图片也可以为网络图片，对此，本申请也不进行任何限定。

步骤S102：将所述图片的存储格式转换为目标存储格式，所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果，所述图片的文本识别结果包括文本内容信息。

在本申请中，待进行文本提取的图片的存储格式一般为常规图片存储格式，比如PNG、JPG等，目标存储格式是一种区别于常规图片存储格式的新型存储格式，该存储格式中包括图片的字符串编码结果和图片的文本识别结果，作为一种可实施方式，该目标存储格式的后缀可以为.irg。将所述图片的存储格式转换为目标存储格式的具体实现方式将通过后面的实施例详细说明，此处不再展开描述。

需要说明的是，文本是指用来记录特定事物、简化图像而成的书写符号，包括但不限于阿拉伯数字、中文汉字、英文、希腊字母、标点符号等。

步骤S103：对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述文本内容信息处于可编辑状态。

在本申请中，可以预先开发一些具备对预设存储格式进行解析的工具，利用这些工具对所述预设存储格式进行解析，生成显示内容，具体将通过后面的实施例详细说明，此处不再展开描述。

本实施例公开了一种图片中文本的提取方法。在获取待进行文本提取的图片之后，先将图片的存储格式转换为目标存储格式，目标存储格式中包括图片的字符串编码结果和图片的文本识别结果，图片的文本识别结果包括文本内容信息；再对预设存储格式进行解析，生成显示内容，显示内容包括图片以及处于可编辑状态的文本内容信息。该方案中，由于在显示图片的同时也可以显示处于可编辑状态的文本内容信息，因此，用户可以在浏览图片的同时对文本内容信息进行选择和复制操作，实现在浏览图片的同时对图片中文本进行直接提取。

在本申请的另一个实施例中，对步骤S102将图片的存储格式转换为目标存储格式的具体实现方式进行了说明。

参照图2，图2为本申请实施例公开的一种将图片的存储格式转换为目标存储格式的方法的流程示意图，该方法可以包括：

步骤S201：对所述图片进行字符串编码，得到所述图片的字符串编码结果。

在本申请中，作为一种可实施方式，可以采用Base64编码方式对所述图片进行字符串编码，得到所述图片的字符串编码结果。

步骤S202：对所述图片进行文本识别，得到所述图片的文本识别结果。

在本申请中，作为一种可实施方式，可以采用光学字符识别OCR技术，对所述图片进行文本识别，得到所述图片的文本识别结果。

作为另一种可实施方式，也可以采用文本识别模型对所述图片进行文本识别，得到所述图片的文本识别结果。文本识别模型可以采用业界现有的一些模型结构，例如：基于注意力机制的Seq2Seq模型、Tensorflow模型等。在本申请中，文本识别模型可直接采用业界已训练好的模型结构，也可根据不同的应用需求，采用不同的训练数据集对文本识别模型进行训练，使文本识别模型在特定应用中识别准确率保持稳定且较高。

步骤S203：将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式。

在本申请中，可以直接将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式。

为了保证数据传输的安全，作为一种可实施方式，所述将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式，包括：将所述图片的字符串编码结果和所述图片的文本识别结果进行加密，得到加密后的图片的字符串编码结果和加密后的图片的文本识别结果；对所述加密后的图片的字符串编码结果和所述加密后的图片的文本识别结果进行封装，得到所述图片的目标存储格式。

需要说明的是，在本申请中，可以采用任意一项加密方式(如，AES对称加密等)将所述图片的字符串编码结果和所述图片的文本识别结果进行加密，对此，本申请不进行任何限定。

前述实施例中提到，在本申请中，可以预先开发一些具备对预设存储格式进行解析的工具，利用这些工具对所述预设存储格式进行解析，生成显示内容，基于此，在本申请中，可以预先开发一些具备对预设存储格式进行解析的浏览器插件或桌面端工具，其中，浏览器插件可以支持各种浏览器(比如chrome浏览器、edge浏览器等)，桌面端工具可以通过Qt桌面开发程序得到开发，桌面端工具可以支持各种操作系统(比如，windows操作系统，ios操作系统、安卓操作系统等)。

基于以上，所述对所述目标存储格式进行解析，生成显示内容的实现方式，可以包括：

需要说明的是，所述图片的文本识别结果还包括文本内容信息的位置信息，文本的位置信息用于表征文本在图片中的坐标。作为一种可实施方式，图片坐标系以图片左上角为原点，图片中实际像素相对于原点的向右偏移量为横坐标X，X最大值为图片宽度像素；图片中实际像素相对于原点的向下偏移量为纵坐标Y，最大为图片高度像素。基于此，可以以文本的像素在图片坐标系中的坐标确定文本的位置信息。

则所述对所述预设存储格式进行解析，生成显示内容，包括：对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述显示内容中的文本内容信息是在所述图片中与所述文本内容信息的位置信息对应的位置处显示的，所述文本内容信息处于可编辑状态。

为便于理解，参照图3，图3为本申请实施例公开的一种调用预设的浏览器插件对目标存储格式进行解析生成的显示内容的示意图，参照图4，图4为本申请实施例公开的一种调用预设的桌面端工具对目标存储格式进行解析生成的显示内容的示意图。如图3和图4所示，图片可以显示，并且文本内容信息是在图片中与所述文本内容信息的位置信息对应的位置处显示的，所述文本内容信息处于可编辑状态。

下面对本申请实施例公开的图片中文本的提取装置进行描述，下文描述的图片中文本的提取装置与上文描述的图片中文本的提取方法可相互对应参照。

参照图5，图5为本申请实施例公开的一种图片中文本的提取装置结构示意图。如图5所示，该图片中文本的提取装置可以包括：

获取单元11，用于获取待进行文本提取的图片；

转换单元12，用于将所述图片的存储格式转换为目标存储格式，所述目标存储格式中包括所述图片的字符串编码结果和所述图片的文本识别结果，所述图片的文本识别结果包括文本内容信息；

解析单元13，用于对所述预设存储格式进行解析，生成显示内容，所述显示内容包括所述图片以及所述文本内容信息，所述文本内容信息处于可编辑状态。

作为一种可实施方式，所述转换单元，包括：

作为一种可实施方式，所述字符串编码单元，具体用于：

作为一种可实施方式，所述文本识别单元，具体用于：

作为一种可实施方式，所述封装单元，包括：

作为一种可实施方式，所述图片的文本识别结果还包括文本内容信息的位置信息，则所述解析单元，具体用于：

作为一种可实施方式，所述解析单元，包括：

参照图6，图6为本申请实施例提供的一种图片中文本的提取设备的硬件结构框图，参照图6，图片中文本的提取设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待进行文本提取的图片；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待进行文本提取的图片；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图片中文本的提取方法，其特征在于，所述方法包括：

获取待进行文本提取的图片；

2.根据权利要求1所述的方法，其特征在于，所述将所述图片的存储格式转换为目标存储格式，包括：

对所述图片进行文本识别，得到所述图片的文本识别结果；

3.根据权利要求2所述的方法，其特征在于，所述对所述图片进行字符串编码，得到所述图片的字符串编码结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述对所述图片进行文本识别，得到所述图片的文本识别结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述图片的字符串编码结果和所述图片的文本识别结果进行封装，得到所述图片的目标存储格式，包括：

6.根据权利要求1所述的方法，其特征在于，所述图片的文本识别结果还包括文本内容信息的位置信息，则所述对所述预设存储格式进行解析，生成显示内容，包括：

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述对所述目标存储格式进行解析，生成显示内容，包括：

8.一种图片中文本的提取装置，其特征在于，所述装置包括：

获取单元，用于获取待进行文本提取的图片；

9.一种图片中文本的提取设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至7中任一项所述的图片中文本的提取方法的各个步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的图片中文本的提取方法的各个步骤。