CN115661276A - 图像数据的编码方法、装置、设备、介质及程序 - Google Patents

图像数据的编码方法、装置、设备、介质及程序 Download PDF

Info

Publication number
CN115661276A
CN115661276A CN202211295569.6A CN202211295569A CN115661276A CN 115661276 A CN115661276 A CN 115661276A CN 202211295569 A CN202211295569 A CN 202211295569A CN 115661276 A CN115661276 A CN 115661276A
Authority
CN
China
Prior art keywords
block
blocks
encoded
obtaining
coded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211295569.6A
Other languages
English (en)
Inventor
韩韬
张园
李婧欣
邱溥业
王慧芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211295569.6A priority Critical patent/CN115661276A/zh
Publication of CN115661276A publication Critical patent/CN115661276A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开实施例提供了一种图像数据的编码、解码方法、装置、计算机设备、可读存储介质及程序,涉及计算机通信技术领域。该方法包括:获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流。本公开实施例提供的方法,能够实现图像数据的编码。

Description

图像数据的编码方法、装置、设备、介质及程序
技术领域
本公开涉及计算机通信技术领域,尤其涉及一种图像数据的编码方法、装置、计算机设备、可读存储介质及程序。
背景技术
传统的图像/视频编码面向人类视觉任务,大多用于娱乐用途,注重视频数据信号的保真、高帧率、清晰度等。随着5G、大数据以及人工智能的快速发展,在图像/视频大数据应用背景下,媒体内容如图像和视频等被广泛应用在目标检测、目标跟踪、图像分类、图像分割、行人重识别等智能视觉任务等领域,这些智能视觉任务又被称作面向机器视觉的智能任务。而目前已有的面向人类视觉的图像/视频编码算法,无法满足面向机器视觉智能分析任务对于高准确性、低延迟和抽象语义的应用需求。面向人类视觉任务和面向机器视觉任务的视频编码在信息处理、评估机制、应用场景上存在较大的不同。
发明内容
本公开实施例提供了一种图像数据的编码方法、装置、计算机设备、可读存储介质及程序,涉及计算机通信技术领域,可以实现图像数据的编码。
本公开实施例提供了一种图像数据的编码方法,包括:获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流。
在一个实施例中,获取N个分块中第一分块的所有特征点的梯度平均值包括:获取第一分块的第一特征点的两个方向的二维函数二阶微分;根据拉普拉斯算子四邻域公式和第一特征点的两个方向的二维函数二阶微分获取第一特征点的拉普拉斯算子二阶差分的梯度计算值;根据第一分块的所有特征点的拉普拉斯算子二阶差分的梯度计算值获取第一分块的所有特征点的梯度平均值。
在一个实施例中,根据S个分块编码以获取编码比特流包括:将S个分块的分块嵌入和位置嵌入输入至转换器Transformer的视觉转换器中以获取编码的S个视觉分块;将S个分块输入至转换器的编码器以获取N-S个遮盖符号的分块嵌入和位置嵌入;根据编码的S个视觉分块和N-S个遮盖符号的分块嵌入和位置嵌入获取编码比特流。
本公开实施例提供了一种图像数据的解码方法,包括:接收编码比特流;获取编码比特流中的第一编码分块的多头值;将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;将第一加和分块输入至多层感知机以获取第一解码分块;根据编码比特流的所有解码分块重新构建解码的第一特征图;其中,编码比特流是根据如上实施例中任一编码方法获得的编码比特流。
在一个实施例中,获取编码比特流中的第一编码分块的多头值包括:将第一编码分块的分块嵌入和位置嵌入输入至多头注意力以获取初始化的权重矩阵和每个头的注意力权重矩阵;将第一编码分块的向量与每个头的注意力权重矩阵相乘以获取对应的矩阵;根据对应的矩阵通过注意力函数和逻辑回归函数获取各注意力的头;根据各注意力的头通过连接Concatenate函数和参数矩阵获取多头值。
本公开实施例提供了一种图像数据的编码装置,包括:第一获取模块,用于获取第一特征图;划分模块,用于将第一特征图分为N个分块,其中,N是大于等于零的整数;第一获取模块,还用于获取N个分块中第一分块的所有特征点的梯度平均值;第一获取模块,还用于按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;第一获取模块,还用于根据S个分块编码以获取编码比特流。
本公开实施例提供了一种图像数据的解码装置,包括:接收模块,用于接收编码比特流;第二获取模块,用于获取编码比特流中的第一编码分块的多头值;第二获取模块,还用于将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;第二获取模块,还用于将第一加和分块输入至多层感知机以获取第一解码分块;构建模块,用于根据编码比特流的所有解码分块重新构建解码的第一特征图;其中,编码比特流是根据如上实施例中任一编码方法获得的编码比特流。
本公开实施例提供了一种计算机设备,包括处理器、存储器、输入输出接口;处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得计算机设备执行如上实施例中任一项的方法。
本公开实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行如上实施例中任一项的方法。
本公开实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上实施例中任一项的方法。
本申请的图像数据的编码方法,通过获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流,能够实现图像数据的编码。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为典型的面向人类视觉任务的图像/视频编码框架;
图2是相关技术中面向机器视觉任务的图像/视频特征编码系统主流框架;
图3是本公开实施例提供的一种图像数据的编码方法的流程图;
图4是本公开实施例提供的一种图像数据的解码方法的流程图;
图5是本公开实施例提供的一种图像数据的编码和解码的结构设计示意图;
图6是本公开实施例提供的一种基于Laplacian二阶差分计算的Transformer特征编码器模块结构图;
图7是本公开实施例提供的一种特征解码器模块结构图;
图8是本公开实施例提供的一种图像数据的编码装置的结构示意图;
图9是本公开实施例提供的一种图像数据的解码装置的结构示意图;
图10是本公开实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
在本公开实施例中,可以基于拉普拉斯算子Laplacian二阶差分计算和Transformer模块技术,获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流,从而实现图像数据的编码。
下面首先对本公开的一些背景技术进行说明:
将5G(5th Generation Mobile Communication Technology,第五代移动通信技术)、人工智能、深度学习、特征提取与视频分析等技术与现有视频处理、编码技术相结合。5G时代催生出面向机器的海量应用,如车联网、无人驾驶、工业互联网、智慧与平安城市、可穿戴、视频监控等机器视觉内容,相比日趋饱和的面向人类的视频,机器视觉应用场景更为广泛,面向机器视觉的视频编码将成为5G和后5G时代的主要增量流量来源之一。
图1为典型的面向人类视觉任务的图像/视频编码框架。
随着机器视觉智能任务的普及,比如图像分类、视频目标检测、目标跟踪、图像分割、行人重识别等的快速发展,目前已有的面向人类视觉的图像/视频编解码技术已经不能满足应用要求。
图2是相关技术中面向机器视觉任务的图像/视频特征编码系统主流框架。
参考图2,该系统主要包括:数据采集部分,用来采集图像/视频,并将其传输到特征提取模块部分;图像/视频提取特征;采用卷积神经网络模块作为编码器,将图像/视频的特征编码为比特流,将比特流传输到另一端的解码模块;在解码器模块,同样采用卷积神经网络模块作为解码器,将比特流重构为图像/视频的特征图;将重构后的图像/视频特征图作为机器视觉任务的输入;经过机器视觉智能任务计算,得到结果。
图2系统存在的技术问题:编码器和解码器对图像/视频特征的编码,均为对整张特征图所有区域进行统一编码,不能区分特征图本身的重点区域和非重点区域;对整张特征图所有区域进行统一编码后,特征图的重点区域压缩比较大,会丢失特征的重要信息;当前方法无法对特征各区域进行有选择的压缩。当前的特征编码/解码方法,在特征编码时候无法丢弃特征图中的非重要区域分块;当前这些基于深度卷积神经网络结构设计的编码器,其压缩比率控制不灵活。
图3是本公开实施例提供的一种图像数据的编码方法的流程图。本公开实施例提供的方法可以由任一具有计算处理能力的电子设备执行,本公开不以此为限。
如图3所示,本公开实施例提供的方法可以包括如下步骤。
在步骤S310中,获取第一特征图。
在该步骤中,获取第一特征图。其中,第一特征图可以是收集的图像的任一幅图像的特征图,或是收集的视频数据中任一帧图像的特征图,本公开不以此为限。其中,特征图例如通过卷积神经网络模块对收集的图像的任一幅图像或收集的视频数据中任一帧图像进行特征提取后获得的特征图。
在步骤S320中,将第一特征图分为N个分块,其中,N是大于等于零的整数。
在该步骤中,将第一特征图分为N个分块,其中,N是大于等于零的整数。
例如,将n×n像素的特征图按照非重叠区域均匀分块为m×m,每一个均匀分块的大小为
Figure BDA0003902897350000051
以28*28像素的特征图为例,将其按照非重叠区域均匀分块为4*4个分块,每个分块为7*7像素。
在步骤S330中,获取N个分块中第一分块的所有特征点的梯度平均值。
在该步骤中,获取N个分块中第一分块的所有特征点的梯度平均值,其中,第一分块是N个分块中任一个分块。在一个实施例中,获取第一分块的第一特征点的两个方向的二维函数二阶微分;根据拉普拉斯算子四邻域公式和第一特征点的两个方向的二维函数二阶微分获取第一特征点的拉普拉斯算子二阶差分的梯度计算值;根据第一分块的所有特征点的拉普拉斯算子二阶差分的梯度计算值获取第一分块的所有特征点的梯度平均值,其中第一特征点是第一分块的任一个特征点。
例如,对第一分块中第一特征点(x,y),分别计算其x方向和y方向的梯度。x方向的梯度计算如公式(1)所示:
Figure BDA0003902897350000052
y方向的梯度计算如公式(2)所示:
Figure BDA0003902897350000061
其中,f(x,y)是图像梯度函数。
第一分块中的第一特征点(x,y),其二维函数二阶微分的计算,在x方向如公式(3)所示:
Figure BDA0003902897350000062
在y方向的二维函数二阶微分的计算如公式(4)所示:
Figure BDA0003902897350000063
Laplacian二阶微分算子四邻域的计算为公式(5)所示:
Figure BDA0003902897350000064
根据Laplacian二阶微分算子四邻域的计算公式,第一分块中的第一特征点(x,y)基于Laplacian二阶差分的计算如公式(6)所示:
Figure BDA0003902897350000065
公式(6)中的gL(x,y)即为第一特征点(x,y)基于Laplacian二阶差分的梯度计算值。然后将第一分块区域内所有特征点基于Laplacian二阶差分的梯度计算值如公式(7)计算:
Figure BDA0003902897350000066
公式(7)中l(i,j)为第一分块内所有特征点基于Laplacian二阶差分计算的梯度平均值。i和j的取值范围均为0到m-1。
在步骤S340中,按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数。
在该步骤中,按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数。
例如,将所有N(m×m)个特征分块,按照公式(7)的l(i,j)的值,进行从大到小的排序,即{l(2,2),l(1,2),l(2,1),l(1,1),……}依次排序。将排序靠后的l(i,j)值较小的q个分块丢弃,剩余的分块数量为S=m×m-q,将这些剩余的分块S进行传输,所以压缩比α的计算公式如公式(8)所示:
Figure BDA0003902897350000067
所以,特征图的压缩比可以通过α来调节,具有灵活可控的优点。
在步骤S350中,根据S个分块编码以获取编码比特流。
在该步骤中,根据S个分块编码以获取编码比特流。其中,在一个实施例中,将S个分块的分块嵌入和位置嵌入输入至转换器Transformer的视觉转换器(VisionTransformer)中以获取编码的S个视觉分块(S Encoded Visible Patches);将S个分块输入至转换器的编码器Encoder以获取q(N-S)个遮盖符号Mask Tokens的分块嵌入PatchEmbeddings和位置嵌入Positional Embeddings;根据编码的S个视觉分块和N-S个遮盖符号Mask Tokens的分块嵌入和位置嵌入获取编码比特流。
例如,将没有被丢弃的S个特征分块以及它们在原特征图中的位置关系一起输入到Vision Transformer模块中。将特征图中没有被丢弃分块的Patch Embeddings和Positional Embeddings信息,输入到Transformer的Encoder模块中。经过Transformer的Encoder模块计算之后,会得到同样数量的q个分块信息和其位置信息,这时候再根据位置信息重新排列得到和原图尺寸相同数量的m×m个分块。这m×m个分块中,之前没有被丢弃的特征分块经过Vision Transformer计算之后得到,被称为Encoded Visible Patches。其余根据位置信息重新排列得到被称之为Mask Tokens。
图3的图像数据的编码方法,通过获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流,能够实现对图像数据的编码。
图4是本公开实施例提供的一种图像数据的解码方法的流程图。本公开实施例提供的方法可以由任一具有计算处理能力的电子设备执行,本公开不以此为限。
如图4所示,本公开实施例提供的方法可以包括如下步骤。
在步骤S410中,接收编码比特流。
在步骤中,接收编码比特流,其中,编码比特流是根据上述图像数据的编码方法中任一编码方法获得的编码比特流。
在步骤S420中,获取编码比特流中的第一编码分块的多头值。
在步骤中,获取编码比特流中的第一编码分块的多头值。其中,在一个实施例中,将第一编码分块的分块嵌入和位置嵌入输入至多头注意力以获取初始化的权重矩阵和每个头的注意力权重矩阵;将第一编码分块的向量与每个头的注意力权重矩阵相乘以获取对应的矩阵;根据对应的矩阵通过注意力函数和逻辑回归函数获取各注意力的头;根据各注意力的头通过连接Concatenate函数和参数矩阵获取多头值,其中,第一编码分块是编码比特流中的编码的S个视觉分块和N-S个遮盖符号的分块中的任一个分块。
例如,在得到基于Laplacian二阶差分计算的Transformer特征编码器模块的输出Encoded Visible Patches和Mask Tokens之后,将这两部分结合原特征图的位置信息Positional Embeddings,进行相加,并将相加后的结果,输入到以Transformer Block模块构建的特征解码器Decoder中。在解码器中,Transformer Block模块例如由归一化Normalize模块、多头注意力Multi-head Self Attention模块以及MLP(MultilayerPerceptron,多层感知机)模块构成。
在编码比特流中的第一编码分块t归一化后输入到Multi-head Self Attention之后,随机初始化Multi-head Self Attention中的权重矩阵Wt,以及每个头的注意力权重矩阵
Figure BDA0003902897350000081
接着第一编码分块向量(由多维转为一维),分别乘以每个头的注意力权重矩阵
Figure BDA0003902897350000082
以计算得到第一编码分块向量对应的三个矩阵Qt,Kt,Vt,计算公式如公式(9)下:
Figure BDA0003902897350000083
其中每个特征向量对应各头的注意力,计算如公式(10)所示:
Figure BDA0003902897350000084
Figure BDA0003902897350000085
在公式(10)中,st为第一编码分块t分别对应各个注意力的头head,
Figure BDA0003902897350000086
是矩阵Kt的维度,δ(■)是计算注意力的函数,τ(■)为Softmax逻辑回归函数,T表示转置。
在公式(11)中,
Figure BDA0003902897350000087
代表Concatenate函数,
Figure BDA0003902897350000088
为参数矩阵,计算结果r表示第一编码分块的多头值。
在步骤S430中,将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块。
在该步骤中,将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块。在一个实施例中,将第一编码分块的多头值与归一化后的第一编码分块相加以获取第一编码分块的第一加和分块。
在步骤S440中,将第一加和分块输入至多层感知机以获取第一解码分块。
在该步骤中,将第一加和分块输入至多层感知机以获取第一解码分块。在一个实施例中,将归一化后的第一加和分块输入至多层感知机以获取第一解码分块。
在步骤S450中,根据编码比特流的所有解码分块重新构建解码的第一特征图。
在该步骤中,根据编码比特流的所有解码分块重新构建解码的第一特征图。
图4的图像数据的解码方法,通过接收编码比特流;获取编码比特流中的第一编码分块的多头值;将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;将第一加和分块输入至多层感知机以获取第一解码分块;根据编码比特流的所有解码分块重新构建解码的第一特征图,可以实现图像数据的解码。
下面结合具体示例对本申请的编码和解码方法进行说明。
图5是本公开实施例提供的一种图像数据的编码和解码的结构设计示意图。
如图5所示,本申请在面向机器视觉智能分析任务的特征编码系统中重新设计了编码器和解码器模块。在特征编码器的设计中,提出了一种新的基于Laplacian二阶差分计算的Transformer特征编码器。在解码器设计中,提出了一种基于转换器块TransformerBlock的特征解码器。
图6是本公开实施例提供的一种基于Laplacian二阶差分计算的Transformer特征编码器模块结构图。
如图6所示,特征图经过非重叠分区为16个分块;经过Laplacian二阶差分计算,获取16个分块中每一个分块的所有特征点的梯度平均值,按照16个分块中每个分块的梯度平均值从大到小获取5个分块;将5个分块的分块嵌入和位置嵌入输入至转换器Transformer的视觉转换器(Vision Transformer)中以获取编码的5个视觉分块;将5个分块输入至转换器的编码器Encoder以获取11个遮盖符号Mask Tokens的分块嵌入Patch Embeddings和位置嵌入Positional Embeddings;然后根据编码的5个视觉分块和11个遮盖符号MaskTokens的分块嵌入和位置嵌入获取编码比特流。
图7是本公开实施例提供的一种特征解码器模块结构图。
如图7所示,在解码器中,转换器块(Transformer Block)模块例如由归一化Normalize模块、多头注意力Multi-head Self Attention模块以及MLP(MultilayerPerceptron,多层感知机)模块构成。编码比特流首先进行归一化,其中,编码比特流是例如是图6中获得的编码的5个视觉分块和11个遮盖符号Mask Tokens的分块嵌入和位置嵌入的编码比特流。编码比特流中的第一编码分块(任一编码分块)归一化后输入到Multi-headSelf Attention以计算获取第一编码分块的多头值。将第一编码分块的多头值与归一化后的第一编码分块相加以获取第一编码分块的第一加和分块;将归一化后的第一加和分块输入至多层感知机以获取第一解码分块;根据编码比特流的所有解码分块重新构建解码的第一特征图。
图8是本公开实施例提供的一种图像数据的编码装置的结构示意图。
如图8所示,本公开实施例提供的图像数据的编码装置800可以包括:
第一获取模块810,用于获取第一特征图;
划分模块820,用于将第一特征图分为N个分块,其中,N是大于等于零的整数;
第一获取模块810,还用于获取N个分块中第一分块的所有特征点的梯度平均值;
第一获取模块810,还用于按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;
第一获取模块810,还用于根据S个分块编码以获取编码比特流。
图8的图像数据的编码装置,通过第一获取模块获取第一特征图;划分模块将第一特征图分为N个分块,其中,N是大于等于零的整数;第一获取模块获取N个分块中第一分块的所有特征点的梯度平均值;第一获取模块按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;第一获取模块根据S个分块编码以获取编码比特流,能够实现图像数据的编码。
在一个实施例中,第一获取模块810,还用于获取第一分块的第一特征点的两个方向的二维函数二阶微分;根据拉普拉斯算子四邻域公式和第一特征点的两个方向的二维函数二阶微分获取第一特征点的拉普拉斯算子二阶差分的梯度计算值;根据第一分块的所有特征点的拉普拉斯算子二阶差分的梯度计算值获取第一分块的所有特征点的梯度平均值。
在一个实施例中,第一获取模块810,还用于将S个分块的分块嵌入和位置嵌入输入至转换器Transformer的视觉转换器中以获取编码的S个视觉分块;将S个分块输入至转换器的编码器以获取N-S个遮盖符号的分块嵌入和位置嵌入;根据编码的S个视觉分块和N-S个遮盖符号的分块嵌入和位置嵌入获取编码比特流。
图9是本公开实施例提供的一种图像数据的解码装置的结构示意图。
如图9所示,本公开实施例提供的图像数据的解码装置900可以包括:
接收模块910,用于接收编码比特流;
第二获取模块920,用于获取编码比特流中的第一编码分块的多头值;
第二获取模块920,还用于将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;
第二获取模块920,还用于将第一加和分块输入至多层感知机以获取第一解码分块;
构建模块930,用于根据编码比特流的所有解码分块重新构建解码的第一特征图;
其中,编码比特流是根据如上图像数据的编码方法实施例中任一编码方法获得的编码比特流。
图9的图像数据的解码装置,通过接收模块接收编码比特流;第二获取模块获取编码比特流中的第一编码分块的多头值;第二获取模块将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;第二获取模块将第一加和分块输入至多层感知机以获取第一解码分块;构建模块根据编码比特流的所有解码分块重新构建解码的第一特征图,能够实现图像数据的解码。
在一个实施例中,第二获取模块920,还用于将第一编码分块的分块嵌入和位置嵌入输入至多头注意力以获取初始化的权重矩阵和每个头的注意力权重矩阵;将第一编码分块的向量与每个头的注意力权重矩阵相乘以获取对应的矩阵;根据对应的矩阵通过注意力函数和逻辑回归函数获取各注意力的头;根据各注意力的头通过连接Concatenate函数和参数矩阵获取多头值。
参见图10,图10是本公开实施例提供的一种计算机设备1000的结构示意图。如图10所示,本公开实施例中的计算机设备可以包括:一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1003用于接收数据及输出数据,如用于宿主机与计算机设备之间进行数据交互,或者用于在宿主机中的各个虚拟机之间进行数据交互;处理器1001用于执行存储器1002存储的程序指令。
其中,该处理器1001可以执行如下操作:
获取第一特征图;将第一特征图分为N个分块,其中,N是大于等于零的整数;获取N个分块中第一分块的所有特征点的梯度平均值;按照N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;根据S个分块编码以获取编码比特流。
或执行如下操作:
获取编码比特流中的第一编码分块的多头值;将第一编码分块的多头值与第一编码分块相加以获取第一编码分块的第一加和分块;将第一加和分块输入至多层感知机以获取第一解码分块;根据编码比特流的所有解码分块重新构建解码的第一特征图;编码比特流是根据如上图像数据的编码方法实施例中任一编码方法获得的编码比特流。
在一些可行的实施方式中,该处理器1001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1002可以包括只读存储器和随机存取存储器,并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如,存储器1002还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如上述实施例中各个步骤所提供的实现方式,具体可参见上述实施例中各个步骤所提供的实现方式,在此不再赘述。
本公开实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行上述实施例中所示方法的各个步骤,进行传输操作。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行上述实施例中各个步骤所提供的方法,具体可参见上述实施例中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本公开所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本公开方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本公开实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的各种可选方式中所提供的方法。
本公开实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
本公开实施例提供的方法及相关装置是参照本公开实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程传输设备的处理器以产生一个机器,使得通过计算机或其他可编程传输设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程传输设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程传输设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本公开较佳实施例而已,当然不能以此来限定本公开之权利范围,因此依本公开权利要求所作的等同变化,仍属本公开所涵盖的范围。

Claims (10)

1.一种图像数据的编码方法,其特征在于,包括:
获取第一特征图;
将所述第一特征图分为N个分块,其中,N是大于等于零的整数;
获取所述N个分块中第一分块的所有特征点的梯度平均值;
按照所述N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;
根据所述S个分块编码以获取编码比特流。
2.根据权利要求1所述的方法,其特征在于,获取所述N个分块中第一分块的所有特征点的梯度平均值包括:
获取所述第一分块的第一特征点的两个方向的二维函数二阶微分;
根据拉普拉斯算子四邻域公式和所述第一特征点的两个方向的二维函数二阶微分获取所述第一特征点的拉普拉斯算子二阶差分的梯度计算值;
根据所述第一分块的所有特征点的拉普拉斯算子二阶差分的梯度计算值获取所述第一分块的所有特征点的梯度平均值。
3.根据权利要求1所述的方法,其特征在于,根据所述S个分块编码以获取编码比特流包括:
将所述S个分块的分块嵌入和位置嵌入输入至转换器Transformer的视觉转换器中以获取编码的S个视觉分块;
将所述S个分块输入至转换器的编码器以获取N-S个遮盖符号的分块嵌入和位置嵌入;
根据编码的S个视觉分块和N-S个遮盖符号的分块嵌入和位置嵌入获取编码比特流。
4.一种图像数据的解码方法,其特征在于,包括:
接收编码比特流;
获取所述编码比特流中的第一编码分块的多头值;
将所述第一编码分块的多头值与所述第一编码分块相加以获取所述第一编码分块的第一加和分块;
将所述第一加和分块输入至多层感知机以获取第一解码分块;
根据所述编码比特流的所有解码分块重新构建解码的第一特征图;
其中,所述编码比特流是根据权利要求中1至权利要求3中任一编码方法获得的编码比特流。
5.根据权利要求4所述的方法,其特征在于,获取所述编码比特流中的第一编码分块的多头值包括:
将所述第一编码分块的分块嵌入和位置嵌入输入至多头注意力以获取初始化的权重矩阵和每个头的注意力权重矩阵;
将所述第一编码分块的向量与每个头的注意力权重矩阵相乘以获取对应的矩阵;
根据对应的矩阵通过注意力函数和逻辑回归函数获取各注意力的头;
根据各注意力的头通过连接Concatenate函数和参数矩阵获取多头值。
6.一种图像数据的编码装置,其特征在于,包括:
第一获取模块,用于获取第一特征图;
划分模块,用于将所述第一特征图分为N个分块,其中,N是大于等于零的整数;
所述第一获取模块,还用于获取所述N个分块中第一分块的所有特征点的梯度平均值;
所述第一获取模块,还用于按照所述N个分块中每个分块的梯度平均值从大到小获取S个分块,其中,S是小于N的整数;
所述第一获取模块,还用于根据所述S个分块编码以获取编码比特流。
7.一种图像数据的解码装置,其特征在于,包括:
接收模块,用于接收编码比特流;
第二获取模块,用于获取所述编码比特流中的第一编码分块的多头值;
所述第二获取模块,还用于将所述第一编码分块的多头值与所述第一编码分块相加以获取所述第一编码分块的第一加和分块;
所述第二获取模块,还用于将所述第一加和分块输入至多层感知机以获取第一解码分块;
构建模块,用于根据所述编码比特流的所有解码分块重新构建解码的第一特征图;
其中,所述编码比特流是根据权利要求中1至权利要求3中任一编码方法获得的编码比特流。
8.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-3或权利要求4-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-3或权利要求4-5中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-3或权利要求4-5中任一项所述的方法。
CN202211295569.6A 2022-10-21 2022-10-21 图像数据的编码方法、装置、设备、介质及程序 Pending CN115661276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211295569.6A CN115661276A (zh) 2022-10-21 2022-10-21 图像数据的编码方法、装置、设备、介质及程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211295569.6A CN115661276A (zh) 2022-10-21 2022-10-21 图像数据的编码方法、装置、设备、介质及程序

Publications (1)

Publication Number Publication Date
CN115661276A true CN115661276A (zh) 2023-01-31

Family

ID=84989644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211295569.6A Pending CN115661276A (zh) 2022-10-21 2022-10-21 图像数据的编码方法、装置、设备、介质及程序

Country Status (1)

Country Link
CN (1) CN115661276A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037330A1 (zh) * 2022-08-19 2024-02-22 中国电信股份有限公司 图像特征处理方法和装置、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037330A1 (zh) * 2022-08-19 2024-02-22 中国电信股份有限公司 图像特征处理方法和装置、存储介质

Similar Documents

Publication Publication Date Title
CN109389078B (zh) 图像分割方法、相应的装置及电子设备
CN112001914A (zh) 深度图像补全的方法和装置
CN110310229A (zh) 图像处理方法、图像处理装置、终端设备及可读存储介质
WO2023174098A1 (zh) 一种实时手势检测方法及装置
CN113298728B (zh) 一种视频优化方法、装置、终端设备及存储介质
WO2024012574A9 (zh) 图像编码方法、解码方法、装置、可读介质及电子设备
CN111067522A (zh) 大脑成瘾结构图谱评估方法及装置
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114863539A (zh) 一种基于特征融合的人像关键点检测方法及系统
CN109949234A (zh) 基于深度网络的视频复原模型训练方法及视频复原方法
CN114626503A (zh) 模型的训练方法、目标检测方法、装置、电子设备及介质
CN115661276A (zh) 图像数据的编码方法、装置、设备、介质及程序
CN114821096A (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
CN111294614B (zh) 用于数字图像、音频或视频数据处理的方法和设备
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
CN108520532B (zh) 识别视频中物体运动方向的方法及装置
CN114758203B (zh) 用于高光谱图像分类的残差密集视觉转换方法和系统
CN115810152A (zh) 基于图卷积的遥感图像变化检测方法、装置和计算机设备
CN116095321A (zh) 显著性区域图像编解码方法、系统、设备及存储介质
CN114841870A (zh) 图像处理方法、相关装置和系统
CN113628338A (zh) 一种采样重建方法、装置、计算机设备及存储介质
CN114501031A (zh) 一种压缩编码、解压缩方法以及装置
CN115631115B (zh) 基于递归Transformer的动态图像复原方法
CN116668702B (zh) 一种视频编码方法、装置、终端设备及存储介质
CN115345931B (zh) 物体姿态关键点信息生成方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination