CN117156160A

CN117156160A - 一种基于语义图像的图像压缩方法、装置、设备及介质

Info

Publication number: CN117156160A
Application number: CN202311210449.6A
Authority: CN
Inventors: 蔡拥华; 文华; 刘建平
Original assignee: Huada Tianyuan Beijing Technology Co ltd
Current assignee: Huada Tianyuan Beijing Technology Co ltd
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-01

Abstract

本申请适用于图像处理领域，提供了一种基于语义图像的图像压缩方法、装置、设备及介质。该图像压缩方法包括：获取目标图像中像素的语义信息，并根据语义信息将目标图像分割为多个图像区域；生成图像区域的坐标张量，并获取角点编码表示；将所有角点编码表示嵌入到坐标张量中，得到图像区域的提示嵌入；基于提示嵌入，获取图像区域的掩码预测；根据掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；将主体图像区域压缩图像和背景图像区域压缩图像进行整合，得到目标压缩图像。本申请的图像压缩方法能够解决压缩时无法单独提高主体图像区域的分辨率的问题。

Description

一种基于语义图像的图像压缩方法、装置、设备及介质

技术领域

本申请涉及图像压缩技术领域，特别涉及一种基于语义图像的图像压缩方法、装置、设备及介质。

背景技术

在诸如监控等领域中，随着设备的增加，数据量也不断增大，因此图像和视频大数据的存储成为一个突出的问题。为了显著降低图像和视频数据传输与存储的压力，有必要引入图像和视频压缩重建技术，并在设备上执行相应的压缩算法。通过确保图像和视频质量的前提下，可以实现高比例的数据压缩。

图像压缩重建是一种将图像进行压缩以减少存储空间或传输带宽，并在需要时重新恢复原始图像的过程。这种技术在图像传输、存储和处理等领域中非常常见。图像压缩基本原理是将图像用更少的数据表示，使其存储所需的数据总量减少，达到降低存储成本和数据传输成本的技术。近年来，深度学习技术在各个领域都得到了突破性进展，包括自然语言处理、计算机视觉以及图像视频压缩等其他领域。一个主流且高效的基于深度学习的图像压缩重建方法是基于Goodfellow等人提出的生成对抗网络(GAN)的图像压缩算法。生成对抗网络算法的核心是对抗与博弈，在对抗中不断发展。GAN是由生成器和判别器组成的对抗性模型。在图像压缩重建中，生成器负责将输入图像编码为低维表示，并生成重建图像，而判别器则评估生成的图像与原始图像之间的差异。通过训练生成对抗网络，可以使生成器能够生成质量较高的重建图像，同时实现图像的高效压缩。但是GAN或是传统的压缩方法只能支持图像全局同一个压缩比的压缩，而在图像中，往往包含着大量的背景信息及其他无关的区域，存在压缩时无法单独提高主体图像区域的分辨率的问题。

发明内容

本申请提供了一种基于语义图像的图像压缩方法、装置、设备及介质，可以解决压缩时无法单独提高主体图像区域的分辨率的问题。

第一方面，本申请实施例提出了一种基于语义图像的图像压缩方法，该图像压缩方法包括：

获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域；图像区域为主体图像区域或背景图像区域；

分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示；坐标张量包含图像区域的边框角点信息；

分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入；提示嵌入用于描述图像区域的边框的位置；

分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测；掩码预测用于描述图像区域的整体的信息；

根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；

根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；第二分辨率小于第一分辨率；

将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。

可选的，生成图像区域的坐标张量，包括：

通过公式：

调整目标图像i的第j个图像区域的边框位置；

其中，i表示目标图像在所有待压缩的目标图像中的序号，表示目标图像i的第j个图像区域的边框位置，/>表示调整后目标图像i的第j个图像区域的边框位置，j＝1,2,...,J，J表示目标图像i中图像区域的总数；

将调整边框位置后的目标图像i的第j个图像区域调整成形状为(i×j,T,2)的张量；

根据张量得到目标图像i的第j个图像区域的坐标张量

其中，表示目标图像i的第j个图像区域的坐标张量，K＝T*2，k表示目标图像i的第j个图像区域的坐标值数量，T表示目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示目标图像i中图像区域的总数。

可选的，获取图像区域的每个边框角点的角点编码表示，包括：

分别针对图像区域的每个边框角点，获取边框角点的位置编码向量，并计算边框角点的位置编码向量的权重，并基于位置编码向的权重得到边框角点的角点编码表示。

可选的，获取边框角点的位置编码向量，包括：

通过公式：

计算目标图像i的第j个图像区域的第t个边框角点在第r个维度的位置编码向量

其中，i表示目标图像在所有待压缩的目标图像中的序号，表示目标图像i的第j个图像区域的第t个边框角点，/>表示调整后目标图像i的第j个图像区域的第t个边框角点的横坐标值，/>表示调整后目标图像i的第j个图像区域的第t个边框角点的纵坐标值，f_r()表示第r个维度的映射函数，sin()表示正弦计算，cos()表示余弦计算，t＝1,2,...,T，T表示目标图像i的第j个图像区域的边框角点的总数，r＝1,2,...,d，d表示位置编码向量的维度总数。

可选的，计算边框角点的位置编码向量的权重，并基于位置编码向的权重得到边框角点的角点编码表示，包括：

通过公式：

计算目标图像i的第j个图像区域的第t个边框角点的位置编码向量的权值

其中，i表示目标图像在所有待压缩的目标图像中的序号，t＝1,2,...,T，g＝1,2,...,T，T表示目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示目标图像i中图像区域的总数，表示目标图像i的第j个图像区域的第t个边框角点与第j个图像区域的第g个边框角点之间的相似度，/>表示目标图像i的第j个图像区域的第t个边框角点与第j个图像区域的第k个边框角点之间的相似度：

其中，表示目标图像i的第j个图像区域的第t个边框角点的位置编码向量矩阵，/>表示目标图像i的第j个图像区域的第g个边框角点的位置编码向量矩阵，/>表示目标图像i的第j个图像区域的第k个边框角点的位置编码向量矩阵，T表示矩阵的转置运算，d表示位置编码向量的维度总数；

通过公式：

计算目标图像i的第j个图像区域的第t个边框角点的角点编码表示

其中，表示目标图像i的第j个图像区域的第t个边框角点的权值，/>表示目标图像i的第j个图像区域的第g个边框角点的位置编码向量矩阵，t＝1,2,...,T，g＝1,2,...,T，T表示目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示目标图像i中图像区域的总数。

可选的，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入，包括：

通过公式：

e″_i,j＝e′_i,j.reshape(i,j,d)

计算目标图像i的第j个图像区域的提示嵌入e″_i,j；

其中，i表示目标图像在所有待压缩的目标图像中的序号，j＝1,2,...,J，J表示目标图像i中图像区域的总数，d表示位置编码向量的维度总数，e'_i,j表示目标图像i的第j个图像区域的角点编码表示的集合：

其中，表示目标图像i的第j个图像区域的第1个边框角点的角点编码表示，/>表示目标图像i的第j个图像区域的第T个边框角点的角点编码表示，/>表示目标图像i的第j个图像区域的第T个边框角点的角点编码表示。

可选的，基于图像区域的提示嵌入获取图像区域的掩码预测，包括：

将图像区域映射到图像特征空间，获取图像区域的图像特征表示；

通过多层感知机和注意力操作，对图像区域的提示嵌入进行解码，得到图像区域的提示信息；提示信息中包含图像区域的边框信息；

将图像区域的提示信息整合到图像区域的图像特征表示中，得到图像区域的掩码预测。

第二方面，本申请实施例提供了一种基于语义图像的图像压缩装置，包括：

分割模块，用于获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域；图像区域为主体图像区域或背景图像区域；

生成模块，用于分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示；坐标张量包括图像区域的边框角点信息；

嵌入模块，用于分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入；提示嵌入用于描述图像区域的边框的位置；

获取模块，用于分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测；掩码预测用于描述图像区域的整体的信息；

第一压缩模块，根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；

第二压缩模块，根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；第二分辨率小于第一分辨率；

整合模块，将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，该处理器执行上述计算机程序时实现上述的基于语义图像的图像压缩方法。

第四方面，申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述的基于语义图像的图像压缩方法。

本申请的上述方案有如下的有益效果：

在本申请提供的基于语义图像的图像压缩方法，通过获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域，然后分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示，再分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入，然后分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测，再根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像，同时根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像，最后将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。其中，得到图像区域的提示嵌入，能够对图像区域的边框的信息进行描述，根据掩码预测对图像区域进行压缩，能够得到图像区域精确的信息，提高压缩质量，对主体图像区域进行第一分辨率压缩，对背景图像区域进行第二分辨率压缩，在提高主体图像区域的分辨率以及保证目标图像的完整性的同时，降低背景图像区域占用的存储空间，解决压缩时无法单独提高主体图像区域的分辨率的问题。

本申请的其它有益效果将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的基于语义图像的图像压缩方法的流程图；

图2为本申请一实施例提供的目标图像的分割的示意图；

图3为本申请一实施例提供的获取图像区域的掩码预测的流程框图；

图4为本申请一实施例提供的基于语义图像的图像压缩方法的流程框图；

图5为本申请一实施例提供的基于语义图像的图像压缩装置的结构示意图；

图6为本申请一实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

针对压缩时无法单独提高主体图像区域的分辨率的问题，本申请实施例提供了一种基于语义图像的图像压缩方法，该图像压缩方法通过获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域，然后分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示，再分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入，然后分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测，再根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像，同时根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像，最后将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。其中，得到图像区域的提示嵌入，能够对图像区域的边框的信息进行描述，根据掩码预测对图像区域进行压缩，能够得到图像区域精确的信息，提高压缩质量，对主体图像区域进行第一分辨率压缩，对背景图像区域进行第二分辨率压缩，在提高主体图像区域的分辨率以及保证目标图像的完整性的同时，降低背景图像区域占用的存储空间，解决压缩时无法单独提高主体图像区域的分辨率的问题。

接下来对本申请提供的基于语义图像的图像压缩方法做示例性说明。

如图1所示，本申请提供的基于语义图像的图像压缩方法包括如下步骤：

步骤11，获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域。

上述图像区域为主体图像区域或背景图像区域。主体图像区域为目标图像中需要被分析或用户感兴趣的区域，背景图像区域为目标图像中不需要被分析或用户不感兴趣的区域以及背景。

在本申请的一些实施例中，可采用卷积神经网络获取目标图像中每个像素的语义信息，相应的，可以利用细分任何模型(SAM，Segment Anything Model)模型等图像处理模型，根据每个像素的语义信息对目标图像进行分割，将目标图像分割为多个图像区域，并由人工选择出多个图像区域中的主体图像区域，主体图像区域以外的其他图像区域均为背景图像区域。

示例性的，目标图像可以为工业管道图像，像素的语义信息中包括像素的颜色、类别、位置等基础信息，根据每个像素的语义信息，对工业管道图像进行分割，且用户感兴趣的区域为管道，则将分割后的管道图像区域作为主体图像区域，其他区域均为背景图像区域。

值得一提的是，根据像素的语义信息对目标图像进行分割，能够提高分割的精确度，得到准确的图像区域，并将图像区域分为主体图像区域和背景图像区域，便于后续进行不同的处理方式。

下面结合一具体实例对上述步骤进行示例性解释。

如图2所示，a图为目标图像，斜线区域为图像区域201，横线区域为图像区域202，图b表示在目标图像中选中图像区域201作为主体图像区域203，虚线表示选中的图像区域的边框，得到c图所示的仅保存主体图像区域203的图像。

步骤12，分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示。

上述坐标张量包含图像区域的边框角点信息。

在本申请的一些实施例中，可根据图像区域的信息生成图像区域的坐标张量，分别针对图像区域的每个边框角点，获取边框角点的位置编码向量，并计算边框角点的位置编码向量的权重，并基于位置编码向的权重得到边框角点的角点编码表示。

需要说明的是，上述边框角点为图像区域的边框上的像素点。当同一时刻对多个目标图像进行处理时，坐标张量表示了单个图像区域，以及该图像区域所属的目标图像和该图像区域的角点信息。

值得一提的是，生成图像区域的坐标张量，能够将图像区域的信息转换为便于后续计算的形式，基于位置编码向量的权重得到边框角点的角点编码表示，能够加强或抑制边框角点的重要性，提高角点编码表示的准确性。

步骤13，分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入。

上述提示嵌入用于描述图像区域的边框的位置。

具体的，通过公式：

e″_i,j＝e′_i,j.reshape(i,j,d)

计算目标图像i的第j个图像区域的提示嵌入e″_i,j；

其中，表示目标图像i的第j个图像区域的第1个边框角点的角点编码表示，表示目标图像i的第j个图像区域的第t个边框角点的角点编码表示，/>表示目标图像i的第j个图像区域的第T个边框角点的角点编码表示。

需要说明的是，上述位置编码向量的维度用于表征位置编码向量的长度。

值得一提的是，将角点编码表示嵌入到图像区域的坐标张量中，能够将图像区域的基础信息和角点的信息进行结合，得到图像区域的提示嵌入，提示嵌入能够对图像区域的边框的位置进行描述。

步骤14，分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测。

上述掩码预测用于描述图像区域的整体的信息，该整体的信息包括图像区域的边框信息和图像区域中每个像素的语义信息。

具体的，将图像区域映射到图像特征空间，获取图像区域的图像特征表示，通过多层感知机和注意力操作，对图像区域的提示嵌入进行解码，得到图像区域的提示信息，将图像区域的提示信息整合到图像区域的图像特征表示中，得到图像区域的掩码预测。上述提示信息中包含图像区域的边框信息。

在本申请的一些实施例中，可以利用标准的视觉变压器(ViT，VisionTransformer)将目标图像映射到图像特征空间，获取图像区域的图像特征表示，通过多层感知机和注意力操作，学习提示嵌入中每个参数之间的关系并进行解码得到提示信息，上述整合的过程为通过逐元素操作将图像特征表示和提示信息相结合，生成图像区域的掩码预测。

值得一提的是，掩码预测中包含图像区域的边框信息和图像区域中每个像素的语义信息，在准确地描述图像区域的位置的同时，保留每个像素的语义信息。

下面结合一具体实例对上述掩码预测的获取流程进行解释。

如图3所示，输入图像(即上述目标图像)，经过图像编码模块(image encoder)将图像映射到图像特征空间，得到图像特征表示，再通过提示编码模块(prompt encoder)得到图像区域的角点编码表示，再通过掩码解码模块(mask decoder)将角点编码表示嵌入到图像特征表示中，得到多个图像区域以及图像区域对应的分割信息(即上述掩码预测)，分割信息包括图像区域的位置、面积等信息。

步骤15，根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像。

具体的，根据主体图像区域的掩码预测中像素的类别或重要性信息，确定第一分辨率，可以利用免费无损图片格式(FLIF，Free Lossless Image Format)编码器等现有的图像处理模型对主体图像区域进行压缩，得到分辨率为第一分辨率的主体图像区域压缩图像。

值得一提的是，根据掩码预测对主体图像区域进行压缩，能够提高主体图像区域压缩图像的压缩质量。

步骤16，根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像。

上述第二分辨率小于第一分辨率。

具体的，根据背景图像区域的掩码预测中像素的类别或重要性信息，确定第二分辨率，可以利用FLIF解码器等现有的图像处理模型对背景图像区域进行压缩，得到分辨率为第二分辨率的背景图像区域压缩图像。

值得一提的是，根据掩码预测对背景图像区域进行压缩，能够提高背景图像区域压缩图像的压缩质量。

步骤17，将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。

具体的，根据主体图像区域压缩图像的掩码预测，获取主体图像区域压缩图像在目标图像中的位置，根据背景图像区域压缩图像的掩码预测，获取背景图像区域压缩图像在目标图像中的位置，将所有背景图像区域压缩图像和主体图像区域压缩图像填充至对应的位置上，得到目标图像的目标压缩图像。

示例性的，主体图像区域的掩码预测描述该主体图像区域中像素的重要性相比于其他图像区域高，则取第一分辨率为高分辨率，如第一分辨率为720×480，第二分辨率取小于720×480的分辨率，如640×360，得到的主体图像区域压缩图像为720×480分辨率的图像，背景图像区域压缩图像为640×360分辨率的图像，整合后得到具有两种分辨率的目标压缩图像，由于背景图像区域压缩图像的分辨率小于主体图像区域压缩图像的分辨率，因此背景图像区域压缩图像占用的存储空间小于主体图像区域压缩图像，传输目标压缩图像时背景图像区域压缩图像占用的比特率小。

需要说明的是，在对目标压缩图像进行解压缩时，可以利用FLIF解码器等现有的图像处理模型分别对主体图像区域压缩图像和背景图像区域压缩图像进行不同比例的解压缩，并根据掩码预测所描述对应的图像区域的位置，将解压缩后的图像区域填充到对应的位置上，得到原始的目标图像。

值得一提的是，对主体图像区域进行第一分辨率压缩，对背景图像区域进行第二分辨率压缩，在提高主体图像区域的分辨率以及保证目标图像的完整性的同时，降低背景图像区域占用的存储空间。

下面结合具体实施例对上述步骤12的具体步骤进行示例性说明。

在本申请的一些实施例中，上述步骤12的具体实现过程包括如下步骤：

步骤12.1，根据图像区域的信息生成图像区域的坐标张量。

第一步，通过公式：

调整目标图像i的第j个图像区域的边框位置；

第二步，将调整边框位置后的目标图像i的第j个图像区域调整成形状为(i×j,T,2)的张量；

根据张量得到目标图像i的第j个图像区域的坐标张量

需要说明的是，将调整边框位置后的图像区域调整成形状为(i×j,T,2)的张量，该张量表示第i×j个图像区域有T个角点，每个角点有2个坐标值，分别为横坐标值和纵坐标值，i×j＝1,2,...,I×J，I×J表示所有目标图像分割后的图像区域总数，I表示待压缩的所有目标图像中最后一张目标图像的序号。调整成形状为(i×j,T,2)的张量是为了将图像区域转换为适应后续计算的形式，该张量中包含角点的坐标信息。在得到坐标张量的步骤后，为了进一步适应数据的处理方式，将所有坐标张量的位置进行重新排列，示例性的，将坐标张量调整到/>的位置，调整位置并不改变坐标张量的表现形式和所包含的信息，如输入共4张目标图像，目标图像2的第4个图像区域的坐标张量/>当前位于目标图像2的第4个图像区域的位置，将该坐标张量调整到(4，0，k)，目标图像4的第0个图像区域的位置，类似的，在表格中，将第2行第4列的数据调整到第4行第0列，位置发生改变但数据不变。

值得一提的是，图像区域中包含的信息的形式并不适用于后续计算，因此，生成图像区域的坐标张量，将图像区域的信息转换为便于后续计算的形式。

步骤12.2，获取边框角点的位置编码向量。

具体的，通过公式：

步骤12.3，计算边框角点的位置编码向量的权重，并基于位置编码向量的权重得到边框角点的角点编码表示。

第一步，通过公式：

其中，表示目标图像i的第j个图像区域的第t个边框角点的位置编码向量矩阵，/>表示目标图像i的第j个图像区域的第g个边框角点的位置编码向量矩阵，/>表示目标图像i的第j个图像区域的第k个边框角点的位置编码向量矩阵，T表示矩阵的转置运算，d表示位置编码向量的维度总数。

第二步，通过公式：

值得一提的是，基于位置编码向量的权重得到边框角点的角点编码表示，能够加强或抑制边框角点的重要性，提高角点编码表示的准确性。

下面结合一具体实例，对上述基于语义图像的图像压缩方法进行示例性说明。

如图4所示，输入图片(即上文中的目标图像)，图片通过Segment Anything Model模型以及后续计算得到掩码信息(即上文中的掩码预测)，并作用于图片的分割图像块(即上文中的图像区域)，经过FLIF编码器，得到图片的目标压缩图像，通过信道的传输到达需要该目标压缩图像的设备或终端，通过FLIF解码器对目标压缩图像进行解压缩，并对目标压缩图像图像的图像块(即上文中的图像区域)进行组合，得到解压图像。

下面对本申请提供的基于语义图像的图像压缩装置进行示例性说明。

如图5所示，本申请实施例提供了一种基于语义图像的图像压缩装置，该基于语义图像的图像压缩装置500包括：

分割模块501，用于获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域；图像区域为主体图像区域或背景图像区域；

生成模块502，用于分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示；坐标张量包含图像区域的边框角点信息；

嵌入模块503，用于分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入；提示嵌入用于描述图像区域的位置和边框信息；

获取模块504，用于分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测；掩码预测用于描述图像区域的整体的信息；

第一压缩模块505，根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；

第二压缩模块506，根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；第二分辨率小于第一分辨率；

整合模块507，将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图6所示，本申请的实施例提供了一种终端设备，该实施例的终端设备D10包括：至少一个处理器D100(图6中仅示出一个处理器)、存储器D101以及存储在所述存储器D101中并可在所述至少一个处理器D100上运行的计算机程序D102，所述处理器D100执行所述计算机程序D102时实现上述任意各个方法实施例中的步骤。

具体的，所述处理器D100执行所述计算机程序D102时，通过获取目标图像中每个像素的语义信息，并根据语义信息将目标图像分割为多个图像区域，然后分别针对多个图像区域中的每个图像区域，生成图像区域的坐标张量，并获取图像区域的每个边框角点的角点编码表示，再分别针对多个图像区域中的每个图像区域，将图像区域的所有边框角点的角点编码表示嵌入到图像区域的坐标张量中，得到图像区域的提示嵌入，然后分别针对多个图像区域中的每个图像区域，基于图像区域的提示嵌入获取图像区域的掩码预测，再根据主体图像区域的掩码预测，对主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像，同时根据背景图像区域的掩码预测，对背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像，最后将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到目标图像的目标压缩图像。其中，得到图像区域的提示嵌入，能够对图像区域的边框的信息进行描述，根据掩码预测对图像区域进行压缩，能够得到图像区域精确的信息，提高压缩质量，对主体图像区域进行第一分辨率压缩，对背景图像区域进行第二分辨率压缩，在提高主体图像区域的分辨率以及保证目标图像的完整性的同时，降低背景图像区域占用的存储空间，解决压缩时无法单独提高主体图像区域的分辨率的问题。

所称处理器D100可以是中央处理单元(CPU，Central Processing Unit)，该处理器D100还可以是其他通用处理器、数字信号处理器(DSP，Digital Signal Processor)、专用集成电路(ASIC，Application Specific Integrated Circuit)、现成可编程门阵列(FPGA，Field-Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器D101在一些实施例中可以是所述终端设备D10的内部存储单元，例如终端设备D10的硬盘或内存。所述存储器D101在另一些实施例中也可以是所述终端设备D10的外部存储设备，例如所述终端设备D10上配备的插接式硬盘，智能存储卡(SMC，SmartMedia Card)，安全数字(SD，Secure Digital)卡，闪存卡(Flash Card)等。进一步地，所述存储器D101还可以既包括所述终端设备D10的内部存储单元也包括外部存储设备。所述存储器D101用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器D101还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到基于语义图像的图像压缩方法装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于语义图像的图像压缩方法，其特征在于，包括：

获取目标图像中每个像素的语义信息，并根据所述语义信息将所述目标图像分割为多个图像区域；所述图像区域为主体图像区域或背景图像区域；

分别针对所述多个图像区域中的每个图像区域，生成所述图像区域的坐标张量，并获取所述图像区域的每个边框角点的角点编码表示；所述坐标张量包含所述图像区域的边框角点信息；

分别针对所述多个图像区域中的每个图像区域，将所述图像区域的所有边框角点的角点编码表示嵌入到所述图像区域的坐标张量中，得到所述图像区域的提示嵌入；所述提示嵌入用于描述所述图像区域的位置和边框信息；

分别针对所述多个图像区域中的每个图像区域，基于所述图像区域的提示嵌入获取所述图像区域的掩码预测；所述掩码预测用于描述所述图像区域的整体的信息；

根据所述主体图像区域的掩码预测，对所述主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；

根据所述背景图像区域的掩码预测，对所述背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；所述第二分辨率小于所述第一分辨率；

将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到所述目标图像的目标压缩图像。

2.根据权利要求1所述的图像压缩方法，其特征在于，所述生成所述图像区域的坐标张量，包括：

通过公式：

调整目标图像i的第j个图像区域的边框位置；

其中，i表示所述目标图像在所有待压缩的目标图像中的序号，表示所述目标图像i的第j个图像区域的边框位置，/>表示调整后所述目标图像i的第j个图像区域的边框位置，j＝1,2,...,J，J表示所述目标图像i中图像区域的总数；

根据所述张量得到所述目标图像i的第j个图像区域的坐标张量

其中，表示所述目标图像i的第j个图像区域的坐标张量，k＝T*2，k表示所述目标图像i的第j个图像区域的坐标值数量，T表示所述目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示所述目标图像i中图像区域的总数。

3.根据权利要求1所述的图像压缩方法，其特征在于，所述获取所述图像区域的每个边框角点的角点编码表示，包括：

分别针对所述图像区域的每个边框角点，获取所述边框角点的位置编码向量，并计算所述边框角点的位置编码向量的权重，并基于所述位置编码向的权重得到所述边框角点的角点编码表示。

4.根据权利要求3所述的图像压缩方法，其特征在于，所述获取所述边框角点的位置编码向量，包括：

通过公式：

其中，i表示所述目标图像在所有待压缩的目标图像中的序号，表示所述目标图像i的第j个图像区域的第t个边框角点，/>表示调整后所述目标图像i的第j个图像区域的第t个边框角点的横坐标值，/>表示调整后所述目标图像i的第j个图像区域的第t个边框角点的纵坐标值，f_r()表示第r个维度的映射函数，sin()表示正弦计算，cos()表示余弦计算，t＝1,2,...,T，T表示所述目标图像i的第j个图像区域的边框角点的总数，r＝1,2,...,d，d表示所述位置编码向量的维度总数。

5.根据权利要求3所述的图像压缩方法，其特征在于，所述计算所述边框角点的位置编码向量的权重，并基于所述位置编码向的权重得到所述边框角点的角点编码表示，包括：

通过公式：

计算所述目标图像i的第j个图像区域的第t个边框角点的位置编码向量的权值

其中，i表示所述目标图像在所有待压缩的目标图像中的序号，t＝1,2,...,T，g＝1,2,...,T，T表示所述目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示所述目标图像i中图像区域的总数，表示所述目标图像i的第j个图像区域的第t个边框角点与所述第j个图像区域的第g个边框角点之间的相似度，/>表示所述目标图像i的第j个图像区域的第t个边框角点与所述第j个图像区域的第k个边框角点之间的相似度：

其中，表示所述目标图像i的第j个图像区域的第t个边框角点的位置编码向量矩阵，表示所述目标图像i的第j个图像区域的第g个边框角点的位置编码向量矩阵，/>表示所述目标图像i的第j个图像区域的第k个边框角点的位置编码向量矩阵，T表示矩阵的转置运算，d表示所述位置编码向量的维度总数；

通过公式：

计算所述目标图像i的第j个图像区域的第t个边框角点的角点编码表示其中，/>表示所述目标图像i的第j个图像区域的第t个边框角点的权值，/>表示所述目标图像i的第j个图像区域的第g个边框角点的位置编码向量矩阵，t＝1,2,...,T，g＝1,2,...,T，T表示所述目标图像i的第j个图像区域的边框角点的总数，j＝1,2,...,J，J表示所述目标图像i中图像区域的总数。

6.根据权利要求1所述的图像压缩方法，其特征在于，所述将所述图像区域的所有边框角点的角点编码表示嵌入到所述图像区域的坐标张量中，得到所述图像区域的提示嵌入，包括：

通过公式：

e″_i,j＝e′_i,j.reshape(i,j,d)

计算目标图像i的第j个图像区域的提示嵌入e″_i,j；

其中，i表示所述目标图像在所有待压缩的目标图像中的序号，j＝1,2,...,J，J表示所述目标图像i中图像区域的总数，d表示位置编码向量的维度总数，e'_i,j表示所述目标图像i的第j个图像区域的角点编码表示的集合：

其中，表示所述目标图像i的第j个图像区域的第1个边框角点的角点编码表示，/>表示所述目标图像i的第j个图像区域的第t个边框角点的角点编码表示，/>表示所述目标图像i的第j个图像区域的第T个边框角点的角点编码表示。

7.根据权利要求1所述的图像压缩方法，其特征在于，所述基于所述图像区域的提示嵌入获取所述图像区域的掩码预测，包括：

将所述图像区域映射到图像特征空间，获取所述图像区域的图像特征表示；

通过多层感知机和注意力操作，对所述图像区域的提示嵌入进行解码，得到所述图像区域的提示信息；所述提示信息中包含所述图像区域的边框信息；

将所述图像区域的提示信息整合到所述图像区域的图像特征表示中，得到所述图像区域的掩码预测。

8.一种基于语义图像的图像压缩装置，其特征在于，包括：

分割模块，用于获取目标图像中每个像素的语义信息，并根据所述语义信息将所述目标图像分割为多个图像区域；所述图像区域为主体图像区域或背景图像区域；

生成模块，用于分别针对所述多个图像区域中的每个图像区域，生成所述图像区域的坐标张量，并获取所述图像区域的每个边框角点的角点编码表示；所述坐标张量包含所述图像区域的边框角点信息；

嵌入模块，用于分别针对所述多个图像区域中的每个图像区域，将所述图像区域的所有边框角点的角点编码表示嵌入到所述图像区域的坐标张量中，得到所述图像区域的提示嵌入；所述提示嵌入用于描述所述图像区域的位置和边框信息；

获取模块，用于分别针对所述多个图像区域中的每个图像区域，基于所述图像区域的提示嵌入获取所述图像区域的掩码预测；所述掩码预测用于描述所述图像区域的整体的信息；

第一压缩模块，根据所述主体图像区域的掩码预测，对所述主体图像区域进行第一分辨率压缩，得到主体图像区域压缩图像；

第二压缩模块，根据所述背景图像区域的掩码预测，对所述背景图像区域进行第二分辨率压缩，得到背景图像区域压缩图像；所述第二分辨率小于所述第一分辨率；

整合模块，将所有主体图像区域压缩图像和所有背景图像区域压缩图像进行整合，得到所述目标图像的目标压缩图像。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于语义图像的图像压缩方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于语义图像的图像压缩方法。