CN116847091A

CN116847091A - 图像编码方法、系统、设备及介质

Info

Publication number: CN116847091A
Application number: CN202310882709.8A
Authority: CN
Inventors: 王晓梅; 沈旭立; 虞钉钉; 曹培
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2023-10-03
Anticipated expiration: 2043-07-18
Also published as: CN116847091B

Abstract

本公开提供了一种图像编码方法、系统、设备及介质，所述方法包括：获取待处理的图像；将所述图像划分为多个区域块，并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布；确定所述图像的图像视觉信息及图像语义信息，所述图像视觉信息根据每个所述区域块的区域视觉信息生成，所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成；根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码。本公开能够使得图像编码更丰富、更准确，能够扩展于各种图像任务重，提升编码在下游的应用率；另外，通过区域块确定图像视觉信息和图像语义信息，能够提升图像编码的准确率。

Description

图像编码方法、系统、设备及介质

技术领域

本公开涉及图像处理领域，尤其涉及一种图像编码方法、系统、设备及介质。

背景技术

图像编码是一种在满足一定质量(信噪比的要求或主观评价得分等)的条件下，以较少比特数表示图像或图像中所包含信息的技术。随着深度学习的块速发展，图像编码从最初的采用卷积神经网络编码，到采用最近流行的基于Transformer(一种神经网络)结构的编码。

而现有技术中的图像编码技术都只能表达图像的视觉信息，而仅仅依赖视觉信息的图像编码对于图像信息的表达不准确，不利于下游任务对图像编码的应用。

公开内容

本公开要解决的技术问题是为了克服现有技术中图像编码对于图像信息的表达不准确的缺陷，提供一种图像编码方法、系统、设备及介质。

本公开是通过下述技术方案来解决上述技术问题：

第一方面，提供一种图像编码方法，所述方法包括：

获取待处理的图像；

将所述图像划分为多个区域块，并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布；

确定所述图像的图像视觉信息及图像语义信息，所述图像视觉信息根据每个所述区域块的区域视觉信息生成，所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成；

根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码。

较佳地，将所述图像划分为多个区域块，并输出所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布，包括：

通过预训练的划分模型将所述图像划分为多个区域块，所述划分模型还用于确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布。

较佳地，确定所述图像的图像视觉信息及图像语义信息，包括：

将每个所述区域块在语义标签上的概率分布输入至语义生成算法，得到每个区域块的区域语义信息；

对所述图像的每个区域块的区域语义信息进行组合，得到所述图像的图像语义信息。

对所述图像的每个区域块的区域视觉信息进行组合，得到所述图像的图像视觉信息。

较佳地，根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码，包括：

将所述图像语义信息及所述图像视觉信息输入至编码器进行编码，得到所述图像编码，所述图像视觉信息作为所述编码器的输入，所述图像语义信息作为所述编码器的query(查询)信息。

较佳地，所述编码器包括多个编码块，每个所述编码块的输出作为下一个编码块的输入。

较佳地，所述编码块至少包括一个子编码模块，所述子编码模块采用语义多头注意力机制，所述子编码模块用于通过所述图像语义信息指导所述图像视觉信息进行编码，以得到所述图像编码。

第二方面，提供一种图像编码装置，所述装置包括：

获取模块，用于获取待处理的图像；

划分模块，用于将所述图像划分为多个区域块，并确定所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布；

语义信息生成模块，用于确定所述图像的图像视觉信息及图像语义信息，所述图像视觉信息根据每个所述区域块的区域视觉信息生成，所述图像语义信息根据每个所述区域块在语义标签上的概率分布生成；

编码模块，用于根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本公开各较佳实施例。

本公开的积极进步效果在于：通过图像中的图像语义信息及图像视觉信息指导所述图像编码，在图像编码过程中引入其他模态的信息作为指导，例如图像语义信息，实现多模态信息的融合，能够使得图像编码更丰富、更准确，能够扩展于各种图像任务重，提升编码在下游的应用率；另外，通过区域块确定图像视觉信息和图像语义信息，能够提升图像编码的准确率。

附图说明

图1为本公开一示例性实施例提供的一种图像编码方法的流程图；

图2为本公开一示例性实施例提供的划分模型的结构示意图；

图3为本公开一示例性实施例提供的编码器的框架示意图；

图4为本公开一示例性实施例提供的编码块的结构示意图；

图5为本公开一示例性实施例提供的一种图像编码装置的模块图；

图6为本公开一示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

下面通过一示例性实施例的方式进一步说明本公开，但并不因此将本公开限制在的实施例范围之中。

本公开一示例性实施例提供一种图像编码方法，参见图1，方法包括：

S11、获取待处理的图像。

S12、将图像划分为多个区域块，并确定区域块的区域视觉信息及区域块在语义标签上的概率分布。

一般在图像识别过程中，将图像转化为更为方便获取其内容的某种表示形式，即称之为视觉信息，具体可以包括图像中每个像素点的明暗程度或者颜色等等。视觉信息的获取方法包括但不限于边缘检测、轮廓检测、SIFT(尺度不变特征变换)、HOG(方向梯度直方图)等等。现有技术中的图像编码一般都是通过视觉信息进行编码得到。

其中，区域视觉信息可以是图像中每个区域块的视觉信息。语义标签的数量可以包括多个，语义标签上的概率分布即每个区域块在每个语义标签上对应的概率值，每个区域块均有一个视觉信息及在语义标签上的概率分布相对应。例如，一个区域块中包含茶杯，其语义标签可以是“茶具”、“水杯”等，语义标签上的概率分布即指，该区域块在“茶具”上的概率值及该区域块在“水杯”上的概率值。

在一个实施例中，参见图2，步骤S20具体包括：

通过预训练的划分模型将图像划分为多个区域块，划分模型还用于确定区域块的区域视觉信息及区域块在语义标签上的概率分布。

其中，划分模型可以是采用Faster R-CNN(一种卷积神经网络)结构在VisualGenome(大规模图片语义理解数据集)数据集上训练得到的，划分模型可以提取图像中的重要信息/重要元素，并根据重要信息/重要元素将图像划分为多个区域块，同时划分模型的输出结果中包括每个区域块的区域视觉信息及区域块在语义标签上的概率分布。

将图像划分为多个区域块的目的在于，一方面区域块能够更好的表征图像中所包含的重要信息，另一方面通过区域块的形式能够提升图像表征结果的精度。

S13、确定图像的图像视觉信息及图像语义信息。

其中，图像视觉信息根据每个区域块的区域视觉信息生成，图像语义信息根据每个区域块在语义标签上的概率分布生成。图像的图像视觉信息和图像语义信息由图像所包含的区域块的区域视觉信息以及区域语义信息所组合而成。

在一个实施例中，步骤S13中确定图像的图像视觉信息，具体包括：

对图像的每个区域块的区域视觉信息进行组合，得到图像的图像视觉信息。

即图像视觉信息征V_I∈R^N×d，其中，V_I表示图像视觉信息，R表示区域视觉信息，N表示图像包含的区域块的数量，d表示每个区域块的维度。

在一个实施例中，步骤S13中确定图像的图像语义信息，包括：

将每个区域块在语义标签上的概率分布输入至语义生成算法，得到每个区域块的区域语义信息，对图像的每个区域块的区域语义信息进行组合，得到图像的图像语义信息。

其中，语义生成算法一般可以是语义生成器，将每个区域块的语义标签及对应的概率值输入至语义生成器中，即可得到区域语义信息。

由于每个区域块可能有多个语义标签及对应的概率值，通过语义生成算法生成区域语义信息的方式，能够综合考虑每个语义标签及其概率值，通过区域语义信息对于区域块中重要信息的表征更为准确，提升图像编码的准确度。

在一个实施例中，区域语义信息及图像语义信息可以通过向量矩阵的形式进行表征，步骤S13中可以采取将区域语义信息的向量矩阵写入图像语义信息的向量矩阵的对应位置的方式，将图像的每个区域块的区域语义信息进行组合以得到图像语义信息。

以下通过一种具体实施方式对图像语义信息的生成进行说明：

语义标签可以是经过如Glove(词表示的全局向量)或Bert(基于变形的双向编码器)等编码结构进行文本编码并进行线性映射后得到。

因此，语义标签的表现形式为V_L∈R^L×d，其中，L为语义标签的数量。第i个区域块在语义标签上的概率分布可表示为p_i∈R^1×L。

根据上述方式得到的语义标签及概率分布可以得到第i个区域块的语义信息为V_Si＝p_i*V_L，其中，*表示矩阵相乘，V_Si∈R^1×d。

在得到每个区域块的区域语义信息后，按照区域块在图像中的位置对区域语义信息进行组合，即可得到图像语义信息V_S＝{V_S1,V_S2,…,V_SN}∈R^N×d。

S14、根据图像语义信息及图像视觉信息对图像进行编码，得到图像编码。

其中，图像编码可以通过编码器对图像语义信息和图像视觉信息进行编码得到，编码器可以是transformer模型、霍夫曼编码算法、算数编码等实现，但不局限于此，具体可根据实际情况进行选择。

在一个实施例中，以transformer模型作为编码器为例，步骤S14具体包括：

将图像语义信息及图像视觉信息输入至编码器进行编码，得到图像编码。

其中，图像视觉信息作为编码器的输入，图像语义信息作为编码器的输入信息并作为query信息，query信息即可以理解为query向量，以图像语义信息作为query信息，图像语义信息能够图像编码进行指导，使得最终所得到的图像编码能够融合更有效的多模态信息，例如语义信息等，丰富图像编码的多样性和包容性。

在一可实施方式中，参见图3，编码器包括多个编码块，每个编码块的输出作为下一个编码块的输入，每个编码块均输入图像语义信息，这样在进行图像编码的过程中，可以得到图像语义信息的持续指导。

因此，每个编码块的输出如下所示：V_i＝f_i(V_i-1,V_S),i∈{1,2,…,M}，其中，V_i表示第i个编码块的输出。

另外，每个编码块至少包括一个子编码模块，子编码模块采用语义多头注意力机制，子编码模块用于通过图像语义信息指导图像视觉信息进行编码，以得到图像编码。

在一可实施方式中，编码块的具体结构参见图4，本实施方式中提供的编码块包括两个子编码模块。

第一个子编码模块采用语义多头注意力机制(Semantic Multi-head Attention，S-MHA)，即通过图像语义信息来指导图像视觉信息进行编码得到图像编码，语义多头注意力机制的表示形式如下所示：

f_S-MHA＝f_c(V_h1,V_h2,…,V_hH)W_o

V_hi＝f_s(V_SW_Q,V_i-1W_K,V_i-1W_V)

其中，f_c表示拼接操作，V_hi表示第i个头，i∈{1,2,…,H}，H表示头的个数，f_s表示自注意力(self-attention)机制，W_o,W_Q,W_K,W_V表示子编码模块要学习的参数。

第二个子编码模块采用的是标准的多头注意力机制(Multi-head Attention，MHA)。

第一个子编码模块和第二个子编码模块均对输入进行归一化、加和、多层感知机等操作。假设第i个编码块的第一个子编码模块输出的中间变量为V_mi，则编码块的结构可以表示为：

V′_mi＝f_norm(V_i-1+f_S-MHA(f_norm(V_i-1),V_S))

V_mi＝V′_mi+f_mlp(V′_mi)

V′_i＝f_norm(V_mi+f_S-MHA(f_norm(V_mi,V_mi)))

V_i＝V′_i+f_mlp(V′_i)

其中，f_norm表示归一化操作，f_mlp表示多层感知机制，V′_mi与V′_i分别是第一子编码模块和第二子编码模块中每一层的中间变量。

经过本实施例中所提供的编码器可以将图像通过维度为N×d且带有图像语义信息的图像编码进行表征，以实现图像编码的多模态融合，在各种图像下游任务的应用中，可以提升图像编码的准确性和应用率。

本公开一示例性实施例提供一种图像编码装置，参见图5，装置包括：

获取模块51，用于获取待处理的图像；

划分模块52，用于将图像划分为多个区域块，并确定区域块的区域视觉信息及区域块在语义标签上的概率分布；

语义信息生成模块53，用于确定图像的图像视觉信息及图像语义信息，图像视觉信息根据每个区域块的区域视觉信息生成，图像语义信息根据每个区域块在语义标签上的概率分布生成；

编码模块54，用于根据图像语义信息及图像视觉信息对图像进行编码，得到图像编码。

在一个实施例中，划分模块52还用于通过预训练的划分模型将图像划分为多个区域块，划分模型还用于确定区域块的区域视觉信息及区域块在语义标签上的概率分布。

在一个实施例中，语义信息生成模块53包括：

输入单元，用于将每个区域块在语义标签上的概率分布输入至语义生成算法，得到每个区域块的区域语义信息；

组合单元，用于对图像的每个区域块的区域语义信息进行组合，得到图像的图像语义信息。

在一个实施例中，语义信息生成模块53还用于对图像的每个区域块的区域视觉信息进行组合，得到图像的图像视觉信息。

在一个实施例中，编码模块54，还用于将图像语义信息及图像视觉信息输入至编码器进行编码，得到图像编码，图像视觉信息作为编码器的输入，图像语义信息作为编码器的query信息。

在一个实施例中，编码器包括多个编码块，每个编码块的输出作为下一个编码块的输入。

在一个实施例中，编码块至少包括一个子编码模块，子编码模块采用语义多头注意力机制，子编码模块用于通过图像语义信息指导图像视觉信息进行编码，以得到图像编码。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

图6为本公开一示例实施例提供的一种电子设备的结构图，图6显示的电子设备60仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备60可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备60的组件可以包括但不限于：上述至少一个处理器61、上述至少一个存储器62、连接不同系统组件(包括存储器62和处理器61)的总线63。

总线63包括数据总线、地址总线和控制总线。

存储器62可以包括易失性存储器，例如随机存取存储器(RAM)621和/或高速缓存存储器622，还可以进一步包括只读存储器(ROM)623。

存储器62还可以包括具有一组(至少一个)程序模块624的程序工具626(或实用工具)，这样的程序模块624包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器61通过运行存储在存储器62中的计算机程序，从而执行各种功能应用以及数据处理，例如上述任一实施例所提供的方法。

电子设备60也可以与一个或多个外部设备64通信。这种通信可以通过输入/输出(I/O)接口65进行。并且，模型生成的电子设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器66通过总线63与模型生成的电子设备60的其它模块通信。应当明白，尽管图中未示出，可以结合模型生成的电子设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现上述任一实施例所提供的方法。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本公开实施例还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现上述任一实施例的方法。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本公开的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本公开的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本公开的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本公开的保护范围。

Claims

1.一种图像编码方法，其特征在于，所述方法包括：

获取待处理的图像；

2.如权利要求1所述的图像编码方法，其特征在于，将所述图像划分为多个区域块，并输出所述区域块的区域视觉信息及所述区域块在语义标签上的概率分布，包括：

3.如权利要求1所述的图像编码方法，其特征在于，确定所述图像的图像视觉信息及图像语义信息，包括：

4.如权利要求1所述的图像编码方法，其特征在于，确定所述图像的图像视觉信息及图像语义信息，包括：

5.如权利要求1所述的图像编码方法，其特征在于，根据所述图像语义信息及所述图像视觉信息对图像进行编码，得到图像编码，包括：

将所述图像语义信息及所述图像视觉信息输入至编码器进行编码，得到所述图像编码，所述图像视觉信息作为所述编码器的输入，所述图像语义信息作为所述编码器的query信息。

6.如权利要求5所述的图像编码方法，其特征在于，所述编码器包括多个编码块，每个所述编码块的输出作为下一个编码块的输入。

7.如权利要求6所述的图像编码方法，其特征在于，所述编码块至少包括一个子编码模块，所述子编码模块采用语义多头注意力机制，所述子编码模块用于通过所述图像语义信息指导所述图像视觉信息进行编码，以得到所述图像编码。

8.一种图像编码装置，其特征在于，所述装置包括：

获取模块，用于获取待处理的图像；

9.一种电子设备，包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。