CN113365071B

CN113365071B - 一种图像分层压缩方法及图像分层压缩装置

Info

Publication number: CN113365071B
Application number: CN202110636565.9A
Authority: CN
Inventors: 刘丹; 王少康; 张同社
Original assignee: Beijing Shuke Wangwei Technology Co ltd
Current assignee: Beijing Shuke Wangwei Technology Co ltd
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-01-17
Anticipated expiration: 2041-06-08
Also published as: CN113365071A

Abstract

本申请公开一种图像分层压缩方法及图像分层压缩装置。所述图像分层压缩方法包括：获取待处理文件；识别所述待处理文件，获取所述待处理文件的目标信息，所述目标信息包括至少两种不同的目标形式、以及每种目标形式的区域信息；根据每个所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象。本申请的图像分层压缩方法根据待处理文件的各个目标形式的不同选择不同的处理方法，从而可在保持原有图像分辨率，以及文本等重要信息视觉效果基础上，相对于现有技术能够更为有效的压缩图像文件体积，有利于文件的共享利用。

Description

一种图像分层压缩方法及图像分层压缩装置

技术领域

本申请涉及图像压缩技术领域，具体涉及一种图像分层压缩方法及图像分层压缩装置。

背景技术

随着信息技术的发展，历史遗存了大量的纸；同时电子公文作为一个严肃内容载体，其展现形态有其固定的格式，采用图像格式作为公文文档的载体进行信息公开及共享，在便利性及准确性方面可以取得较好的平衡。

现有基于图像的压缩方法大致可分为有损算法和无损算法两种：其中有损算法如jpeg、jpeg2000，优点是压缩比率较大，但压缩过程中，容易使得文档中诸如“文本”等关键信息变得模糊；而无损算法通常又难以压缩到一个令人满意的体积。

举例来说，以一份包含10页的文档计算，单页A4 240dpi扫描图片有损jpeg压缩大约500kb，整份文档约需要5mb存储空间。单页A4 240dpi扫描图片无损png压缩后大约2mb，整个文档约需要20mb存储空间。

不论是以上述的无损算法还是有损算法来进行压缩，扫描图片的大小都与期望的大小有所出入。而大量的扫描图片会使得文档体积臃肿，公文文档由于其特殊的应用场景，存在大量的信息冗余，有效的文档压缩方法更便于文件存储和共享。

因此，希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

发明内容

本发明的目的在于提供一种图像分层压缩方法来克服或至少减轻现有技术的至少一个上述缺陷。

本发明的一个方面，提供一种图像分层压缩方法，所述图像分层压缩方法包括：

获取待处理文件；

识别所述待处理文件，获取所述待处理文件的目标信息，所述目标信息包括至少两种不同的目标形式、以及每种目标形式的区域信息；

根据每个所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象。

可选地，所述图像分层压缩方法进一步包括：

根据各个所述OFD层对象生成OFD文件。

可选地，所述识别所述待压缩OFD文件包括：

通过卷积神经网络识别所述待压缩OFD文件。

可选地，所述目标形式包括文字形式、图形形式、图像形式、背景形式、红章形式和文字混合形式。

可选地，根据所述目标形式选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取压缩后的OFD文件包括：

判断所述目标形式是否能够采用二值化方式进行处理，若是，则采用二值化方式对所述目标形式的区域信息进行预处理从而获得经过二值化预处理后的区域信息；

对经过二值化预处理后的区域信息进行无损图像压缩，从而获得该目标形式对应的OFD层对象。

可选地，所述根据所述目标形式选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取压缩后的OFD文件包括：

判断所述目标形式是否能够采用二值化方式进行处理，若否，则采用非二值化方式对所述目标形式的区域信息进行预处理从而获得经过非二值化预处理后的区域信息；

对经过非二值化预处理后的区域信息进行有损图像压缩，从而获得该目标形式对应的OFD层对象。

可选地，所述根据各个所述OFD层对象生成OFD文件包括：

根据各个所述OFD层对象生成一个OFD页对象；

将OFD页对象写入OFD文档从而生成OFD文件。

本申请还提供了一种图像分层压缩装置，所述图像分层压缩装置包括：

待处理文件获取模块，所述待处理文件获取模块用于获取待处理文件；

识别模块，所述识别模块用于识别所述待处理文件，获取所述待处理文件的目标信息，所述目标信息包括至少两种不同的目标形式、以及每种目标形式的区域信息；

压缩模块，所述压缩模块用于根据每个所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的图像分层压缩方法。

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现如上所述的图像分层压缩方法。

有益效果

本申请的图像分层压缩方法根据待处理文件的各个目标形式的不同选择不同的处理方法，从而可在保持原有图像分辨率，以及文本等重要信息视觉效果基础上，相对于现有技术能够更为有效的压缩图像文件体积，有利于文件的共享利用。

附图说明

图1为本申请一实施例的图像分层压缩方法的流程示意图。

图2是能够实现根据本申请一个实施例提供的图像分层压缩方法的示例性结构图。

图3是图1所示的图像分层压缩方法的示意图。

图4是图1所示的图像分层压缩方法的效果示意图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本申请一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本申请的实施例进行详细说明。

需要说明的是，在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

图1为本申请一实施例的图像分层压缩方法的流程示意图。

如图1、图3以及图4所示的图像分层压缩方法包括：

步骤1：获取待处理文件；

步骤2：识别待处理文件，获取待处理文件的目标信息，目标信息包括至少两种不同的目标形式、以及每种目标形式的区域信息；

步骤3：根据每个目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象。

在本实施例中，图像分层压缩方法进一步包括：

步骤4：根据各个OFD层对象生成OFD文件。

在本实施例中，识别待压缩OFD文件包括：通过卷积神经网络识别待压缩OFD文件。

参见图3以及图4，在本实施例中，采用基于卷积神经网络的目标检测方法，识别待处理文件中的文字、图形、图像(文档中插入的图片、章等)、背景、红章和文字混合等，把页面分解为多个目标的形式，标记每个目标在页面的区域和位置信息。

在本实施例中，可以采用如下方式进行目标检测，例如，通过CTPN(ConnectionistText Proposal Network,连接主义的文本建议网络)和DBNET(DifferentiableBinarization Network，可微二值化网络)来进行文本区的检测。通过YOLO(You Only LookOnce)来进行红章、图形的检测。

在本实施例中，目标形式包括文字形式、图形形式、图像形式、背景形式、红章形式和文字混合形式。

在本实施例中，文字形式、图形形式、红章形式等目标形式使用二值化处理；图像形式、背景形式、红章形式和文字混合形式的目标形式使用非二值处理。但假如文字等区域中出现多种颜色，二值化处理会失败，此时把这些区域转为非二值处理。

在本实施例中，根据目标形式选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取压缩后的OFD文件包括：

判断目标形式是否能够采用二值化方式进行处理，若是，则采用二值化方式对目标形式的区域信息进行预处理从而获得经过二值化预处理后的区域信息；具体地，对于文本、线条和简单集合图形等区域，这些内容的特点是颜色简单，对视觉质量要求敏感，一般采用二值化处理。二值化的结果是这个区域调色板保留2个颜色(黑白灰或彩色等其中2个颜色索引值)，并把背景色填充到原来的对象区域，最后设置自身的背景色透明，经实验和测试这样处理的显示效果较为理想。如果二值化过程失败，把失败的区域归类到非二值化处理即可。

在本实施例中，二值化处理通常采用如下方式：

1图像转HSV模式，并把图像归类为彩色区域和黑白灰区域，两种像素区域单独做直方图，平滑，统计；

2选取数量最多的一个颜色作为背景色；

3把背景色从区域中过滤掉，剩下的像素重新做直方图，平滑，统计(这样做是因为背景占全部像素百分比巨大，有背景参与会导致其它颜色的直方图特征很不明显)；

4把上一步的像素直方图归类，超过阈值的极大值点就是一个前景色；

5如果计算后只有1个前景色，那么就可以做二值化。

对经过二值化预处理后的区域信息进行无损图像压缩，从而获得该目标形式对应的OFD层对象。具体地，为了减少零碎区域数量，首先分析所有二值区域，把前景色接近且位置上较为接近的二值区域合并为更大的区域，然后使用无损图像算法压缩。例如png、jbig2或gif等格式压缩，减少体积同时保证内容清晰。在本实施例中，根据目标形式选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取压缩后的OFD文件包括：

判断目标形式是否能够采用二值化方式进行处理，若否，则采用非二值化方式对所述目标形式的区域信息进行预处理从而获得经过非二值化预处理后的区域信息；具体地，对于背景或图表，这些内容特点是颜色较少，由于扫描过程产生了很多细微杂色，直接做有损压缩效果并不理想。我们的做法是先统计颜色分布，删减像素数量较少的颜色，并使用近似颜色填补这些替换掉的像素位置，减少调色板范围，然后再做有损压缩。这部分功能可选，可能有些对象并不适用，经实验扫描图片背景区使用这个方法效果非常好。

对经过非二值化预处理后的区域信息进行有损图像压缩，从而获得该目标形式对应的OFD层对象。具体地，在减少调色板范围后，我们使用Mask蒙版，把一个区域根据颜色分布分割为多个子区域，使每个子区域简单且索引颜色最少，然后使用索引色和有损压图像压缩算法，如jpeg、jpeg2000算法，在效果基本一致的情况下，尽量减小体积。

在本实施例中，非二值化预处理采用如下方法：

对每一个像素计算到颜色列表(上一步使用直方图检测的结果)的欧式距离，使每个像素聚类到颜色列表中某一项。处理后图片调色板只剩少量颜色值，然后在进行有损压缩。

具体而言，非二值化预处理采用如下方法：

1.对需要非二值化的区域做直方图统计，取像素数量最多的一项作为背景色。

2.扣掉背景色区域，重新统计直方图，此时选取直方图上所有的极值点，每个点作为一个前景色。

3.把获取到的背景色和前景色合并为一个颜色列表。

4.对所有像素计算到颜色列表的欧式距离(这一步通常会把像素和颜色分为2组，彩色组和黑白灰组，组间隔离，组内做距离计算)，使每个像素聚类到颜色列表中距离最近的一项，这一步之后像素的颜色数量大大减少。

5.最后选择标准的有损压缩算法对其压缩，因为大部分噪声颜色被使用接近颜色值替代，图像冗余减少，压缩效率高，并且背景干净。

在本实施例中，根据各个OFD层对象生成OFD文件包括：根据各个OFD层对象生成一个OFD页对象；将OFD页对象写入OFD文档从而生成OFD文件。

具体地，上述每个区域信息(可能存在重叠)生成一个OFD层对象，多个OFD层对象生成一个OFD页对象，写入OFD文档(参见图3)。经实验单页A4 240dpi的扫描图片使用以上方法处理后体积大约在100kb以下，并且文字显示效果较好。(参见图4)参考直接使用有损jpeg算法对单页压缩500kb，无损png压缩约2mb，故本申请的方法对文本文档产生的图像有较好应用价值。

举例来说，以一份包含10页的文档计算，以现有技术来说，单页A4240dpi扫描图片有损jpeg压缩大约500kb，整份文档约需要5mb存储空间。单页A4 240dpi扫描图片无损png压缩后大约2mb，整个文档约需要20mb存储空间。而采用本申请的方法后，在不改变分辨率前提下，单页扫描图片在使用本方法处理后体积约在100kb以下，整份文档约需要1mb存储空间，并且文字显示效果较好。

具体而言，单纯无损压缩是不考虑颜色分布做整体压缩。本申请考虑颜色分布，合理的分区分层会使压缩更高效。另外文档扫描图片会存在大量冗余的杂色噪声，这些信息不是必须的，而本申请通过上述的预处理会把这些冗余信息清理掉(例如，二值化预处理和非二值化预处理都会把噪声像素清理掉，并使用近似颜色填补)，使得文字锐利，背景干净。所以本申请更适合文档扫描件的压缩。

本申请的图像分层压缩方法适用于包含文字和图形内容的扫描图像文件。可在保持原有图像分辨率，以及文本等重要信息视觉效果基础上，有效压缩图像文件体积，有利于文件的共享利用。

本申请还提供了一种图像分层压缩装置，所述图像分层压缩装置包括待处理文件获取模块、识别模块以及压缩模块，待处理文件获取模块用于获取待处理文件；识别模块用于识别待处理文件，获取待处理文件的目标信息，目标信息包括至少两种不同的目标形式、以及每种目标形式的区域信息；压缩模块用于根据每个目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象。

需要说明的是，前述对方法实施例的解释说明也适用于本实施例的系统，此处不再赘述。

本申请还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的图像分层压缩方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时能够实现如上的图像分层压缩方法。

如图2所示，电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中，输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接，输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接，进而与电子设备的其他组件连接。具体地，输入设备504接收来自外部的输入信息，并通过输入接口502将输入信息传送到中央处理器503；中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器504中，然后通过输出接口505将输出信息传送到输出设备506；输出设备506将输出信息输出到电子设备的外部供用户使用。

也就是说，图2所示的电子设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及一个或多个处理器，该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的图像分层压缩方法。

在一个实施例中，图2所示的电子设备可以被实现为包括：存储器504，被配置为存储可执行程序代码；一个或多个处理器503，被配置为运行存储器504中存储的可执行程序代码，以执行上述实施例中的图像分层压缩方法。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动，媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

此外，显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称，而不标识任何特定的顺序。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地标识的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

在本实施例中所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施例中，装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。本申请虽然以较佳实施例公开如上，但其实并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此，本申请的保护范围应当以本申请权利要求所界定的范围为准。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种图像分层压缩方法，其特征在于，所述图像分层压缩方法包括：

获取待处理文件；

根据每种所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象；

所述图像分层压缩方法进一步包括：

根据各个所述OFD层对象生成OFD文件；其中，

所述识别所述待处理文件包括：

通过卷积神经网络识别所述待处理文件；

所述目标形式包括文字形式、图形形式、图像形式、背景形式、红章形式和文字混合形式；

所述根据每种所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象包括：

对经过二值化预处理后的区域信息进行无损图像压缩，从而获得该目标形式对应的OFD层对象；

所述根据每种所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象还包括：

对经过非二值化预处理后的区域信息进行有损图像压缩，从而获得该目标形式对应的OFD层对象；

所述通过卷积神经网络识别所述待处理文件包括：

采用基于卷积神经网络的目标检测方法，识别待处理文件中的文字、图形、图像、背景、红章和文字混合，把页面分解为多个目标的形式，标记每个目标在页面的区域和位置信息；

通过CTPN和 DBNET来进行文本区的检测；通过YOLO来进行红章、图形的检测；

其中，文字形式、图形形式、红章形式的目标形式使用二值化处理；图像形式、背景形式、红章形式和文字混合形式的目标形式使用非二值化处理；但若文字区域中出现多种颜色，二值化处理会失败，此时把这些区域转为非二值化处理；其中，

所述非二值化预处理采用如下方法：

对每一个像素计算到颜色列表的欧式距离，使每个像素聚类到颜色列表中某一项；处理后图片调色板只剩少量颜色值，然后在进行有损压缩；

其中，获取颜色列表采用如下方法：

对需要非二值化的区域做直方图统计，取像素数量最多的一项作为背景色；

扣掉背景色区域，重新统计直方图，此时选取直方图上所有的极值点，每个点作为一个前景色；

把获取到的背景色和前景色合并为一个颜色列表。

2.如权利要求1所述的图像分层压缩方法，其特征在于，所述根据各个所述OFD层对象生成OFD文件包括：

根据各个所述OFD层对象生成一个OFD页对象；

将OFD页对象写入OFD文档从而生成OFD文件。

3.一种图像分层压缩装置，其特征在于，所述图像分层压缩装置包括：

压缩模块，所述压缩模块用于根据每个所述目标形式的类型选择有损压缩或无损压缩中的一种压缩方式进行压缩从而获取该目标形式对应的OFD层对象；

所述图像分层压缩装置进一步用于：