CN115514976A - 图像编码方法、解码方法、装置、可读介质及电子设备 - Google Patents

图像编码方法、解码方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN115514976A
CN115514976A CN202210837739.2A CN202210837739A CN115514976A CN 115514976 A CN115514976 A CN 115514976A CN 202210837739 A CN202210837739 A CN 202210837739A CN 115514976 A CN115514976 A CN 115514976A
Authority
CN
China
Prior art keywords
image
blocks
important region
decoding
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210837739.2A
Other languages
English (en)
Inventor
韩韬
张园
杨明川
王翰铭
王泽琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210837739.2A priority Critical patent/CN115514976A/zh
Publication of CN115514976A publication Critical patent/CN115514976A/zh
Priority to PCT/CN2023/107504 priority patent/WO2024012574A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/65Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience
    • H04N19/66Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using error resilience involving data partitioning, i.e. separation of data into packets or partitions according to importance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种图像编码方法、解码方法、装置、可读介质及电子设备。该方法包括获取原始图像,并进行分块处理;计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块;将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。这样,该方法针对被压缩图像的不同信息区域,进行有选择、可控制地压缩,对于图像中信息密集的重点区域尽可能多的保留,尽量少压缩;而对图像中信息稀疏的非重点区域,则尽可能的压缩,提高图像压缩效率,实现统一方案下灵活的码率控制。

Description

图像编码方法、解码方法、装置、可读介质及电子设备
技术领域
本申请属于人工智能技术领域,具体涉及一种图像编码方法、解码方法、装置、可读介质及电子设备。
背景技术
传统的图像/视频编码面向人类视觉任务,大多用于娱乐用途,注重视频数据信号的保真、高帧率、清晰度等。随着5G、大数据以及人工智能的快速发展,在图像/视频大数据应用背景下,媒体内容如图像和视频等被广泛应用在目标检测、目标跟踪、图像分类、图像分割、行人重识别等智能视觉任务等领域,这些智能视觉任务又被称作面向机器视觉的智能任务。
随着机器视觉智能任务的普及,比如图像分类、视频目标检测、目标跟踪、图像分割、行人重识别等的快速发展,若采用目前相关技术方案中基于卷积神经网络进行图像/视频编解码技术,由于该方法均为对整张图片所有区域进行统一编码,不利于图像编码/解码。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种图像编码方法、解码方法、装置、可读介质及电子设备,在一定程度上实现了提高图像压缩效率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种图像编码方法,所述图像编码方法包括:
获取原始图像,并进行分块处理;
计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块;
将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
根据本申请实施例的一个方面,提供一种图像编码装置,所述图像编码装置包括:
获取模块,用于获取原始图像,并进行分块处理;
计算模块,用于计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块;
编码模块,用于将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
在本申请的一些实施例中,基于以上技术方案,所述计算模块还用于,计算每个分块内像素的梯度值,根据所述像素的梯度值计算各个分块的梯度平均值;根据所述梯度平均值对各个分块进行排序,并将所述梯度平均值小于预设值的分块丢弃,剩余的分块为所述重要区域分块。
在本申请的一些实施例中,基于以上技术方案,所述编码模块还用于,将所述重要区域分块输入所述视觉转换模型,输出编码可见补丁和掩码令牌;根据所述编码可见补丁、所述掩码令牌以及在所述原始图像中的位置信息,生成图像令牌,并根据所述图像令牌生成所述比特流。
在本申请的一些实施例中,基于以上技术方案,图像的压缩比率α满足公式:
Figure BDA0003749364910000021
其中,n为原始图像的尺寸大小,p为丢弃的分块数量。
在本申请的一些实施例中,基于以上技术方案,所述获取模块还用于,获取n×n的原始图像;
将所述原始图像按照非重叠区域均匀分块为m×m,得到每个均匀分块的大小为
Figure BDA0003749364910000022
根据本申请实施例的一个方面,提供一种图像解码方法,对如上所述的图像编码方法所进行的编码进行解码,所述图像解码方法包括:
接收经过编码生成的比特率;
将所述比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
根据本申请实施例的一个方面,提供一种图像解码装置所述图像解码装置包括:
接收模块,用于接收经过编码生成的比特率;
解码模块,用于将所述比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的图像编码方法,或者图像解码方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的图像编码方法,或者图像解码方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的图像编码方法,或者图像解码方法。
在本申请实施例提供的技术方案中,先对原始图像进行分块,采用分块区域梯度计算和视觉转换模型相结合,这样,该方法针对被压缩图像的不同信息区域,进行有选择、可控制地压缩,对于图像/视频中信息密集的重点区域尽可能多的保留,尽量少压缩;而对图像中信息稀疏的非重点区域,则尽可能的压缩,提高图像压缩效率,实现统一方案下灵活的码率控制。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了示例性的图像编解码系统架构框图。
图2示意性地示出了应用本申请技术方案的示例性系统架构框图。
图3示意性地示出了本申请一实施例提供的图像编码方法步骤流程。
图4示意性地示出了应用本申请技术方案的图片分块示意图。
图5示意性地示出了应用本申请技术方案的每个分块的梯度平均值示意图。
图6示意性地示出了应用本申请技术方案的编码器模块示意图。
图7示意性地示出了应用本申请技术方案的解码器模块示意图。
图8示意性地示出了应用本申请技术方案的编解流程示意图。
图9示意性地示出了本申请实施例提供的图像编码装置的结构框图。
图10示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
参见图1,图1示意性地示出了示例性的图像编解码系统架构框图。
该系统包括数据采集模块101、编码器模块102、解码器模块103,其中数据采集模块101用来采集图像/视频,并将其传输到编码器模块;在编码器模块102采用卷积神经网络模块作为编码器,将图像/视频编码为比特流,将比特流传输到另一端的解码器模块103;在解码器模块103,同样采用卷积神经网络模块作为解码器,将比特流重构为图像/视频;接着将重构后的图像/视频作为人类视觉任务104的输入;最后,经过人类视觉任务计算,得到结果。
采用该方式存在如下技术问题,编码器和解码器对图像/视频的编码,均为对整张图片所有区域进行统一编码,不能区分图像本身的重点区域和非重点区域;对整张图片所有区域进行统一编码后,图像的重点区域压缩比较大,会丢失图像的重要信息;当前方法无法对图像各区域进行有选择的压缩。即当前的图像编码/解码方法,在图像编码时候无法丢弃图片中的非重要区域图片分块。所以,当前这些基于深度卷积神经网络结构设计的编码器,其压缩比率控制不灵活。另外,当前的编码/解码系统方法是面向人类视觉任务的,该系统在面向机器视觉任务时,不能很好的完成机器视觉智能分析任务。
为了解决上述问题,本申请在面向机器视觉智能分析任务的编码系统中重新设计了编码器和解码器模块。在编码器的设计中,提出了一种基于区域梯度信息的Transformer图像编码器。在解码器设计中,提出了一种基于Transformer Block的解码器。参见图2,图2示意性地示出了应用本申请技术方案的示例性系统架构框图。该系统架构包括数据收集模块201,用于收集图像/视频,以得到原始图像,接着,将原始图像输入编码器模块 202,原始图像依次经过分块处理、梯度计算、重要区域计算以及 visionTransformer进行编码输出比特流,将编码器模块202输出的比特流经过Transformer Block的解码器模块203将比特流重构为图像/视频,将重构后的图像/视频作为机器视觉任务204的输入;最后,经过机器视觉任务计算,得到结果。
为了实现对图像/视频不同区域进行有选择地压缩,本申请在对图像/视频数据进行编码时,所设计的编码器为区域梯度计算和Transformer模块相结合的方法,图像解码器的设计是仅为Transformer模块。在对图像编码时候,将图片做分块计算,然后对每个分块区域中的图像像素计算梯度值,并计算每个区域的梯度计算值的平均值,根据梯度计算值的平均值对各个分块进行排序,并丢弃排序靠后的分块。将排序靠前的分块输入到后续的Transformer模块中,而把其他分块区域的图片直接丢弃,以丢弃图片的比例实现灵活控制压缩率。
下面结合具体实施方式对本申请提供的图像编码方法、解码方法、装置、可读介质及电子设备做出详细说明。
参见图3,图3示意性地示出了本申请一实施例提供的图像编码方法步骤流程。该图像编码方法可以由控制器来执行,主要可以包括如下步骤 S301至步骤S303。
步骤S301,获取原始图像,并进行分块处理。
通过数据采集模块获取图像/视频得到原始图像,接着将原始图像进行分块处理。例如原始图像为n×n,将n×n的图像按照非重叠区域均匀分块为m×m,每一个均匀分块的大小为
Figure BDA0003749364910000061
参见图4,图4示意性地示出了应用本申请技术方案的图片分块示意图。以28*28的图像为例,将其按照非重叠区域均匀分块为4*4个分块,每个分块为7*7。这样,通过对原始图像进行分块处理,从而有利于后续确定重要区域分块。
步骤S302,计算每个分块内像素的梯度值,根据像素的梯度值筛选重要区域分块。
通过计算各个分块内像素的梯度值,从而有利于根据像素的梯度值筛选重要区域分块。这样,可以针对被压缩图像的不同信息区域,进行有选择、可控制地压缩,对于图像/视频中信息密集的重点区域尽可能多的保留,尽量少压缩;而对图像中信息稀疏的非重点区域,则尽可能的压缩,提高图像压缩效率,实现统一方案下灵活的码率控制。
步骤S303,将重要区域分块以及重要区域分块在原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
在本申请实施例提供的技术方案中,先对原始图像进行分块,采用分块区域梯度计算和视觉转换模型相结合,这样,该方法针对被压缩图像的不同信息区域,进行有选择、可控制地压缩,对于图像/视频中信息密集的重点区域尽可能多的保留,尽量少压缩;而对图像中信息稀疏的非重点区域,则尽可能的压缩,提高图像压缩效率,实现统一方案下灵活的码率控制。
在本申请的一个实施例中,计算每个分块内像素的梯度值,根据像素的梯度值筛选重要区域分块,包括:
计算每个分块内像素的梯度值,根据像素的梯度值计算各个分块的梯度平均值;
根据梯度平均值对各个分块进行排序,并将梯度平均值小于预设值的分块丢弃,剩余的分块为重要区域分块。
这样,根据梯度计算均值排序并筛选出信息聚焦的重要区域,进而可以丢弃图像中的非重要区域分块,实现图像的压缩。
具体地,在选择重要区域分块时,先对分块中的每个像素(x,y),分别计算其x方向和y方向的梯度。x方向的梯度计算如下面的公式所示:
Figure BDA0003749364910000071
y方向的梯度计算如下面公式所示:
Figure BDA0003749364910000072
将像素(x,y)在x方向的梯度值gx和y方向的梯度值gy的值如下面公式计算:
Figure BDA0003749364910000073
其中,g(x,y)即为(x,y)的梯度计算值。然后将该分块区域内所有像素的梯度计算值如下面公式计算:
Figure BDA0003749364910000074
其中d(i,j)为每个分块内所有像素的梯度平均值。i和j的取值范围均为 0到m-1。
参见图5,图5示意性地示出了应用本申请技术方案的每个分块的梯度平均值示意图。将所有分块,按照d(i,j)的值,进行从大到小的排序,即{d(2,2),d(1,2),d(2,1),d(1,1),……}依次排序。将排序靠后的d(i,j)值较小的 p个分块丢弃,剩余的分块数量为n×n-p,将这些剩余的分块作为重要区域分块。
这样,该方法针对被压缩图像的不同信息区域,进行有选择、可控制地压缩,对于图像/视频中信息密集的重点区域尽可能多的保留,尽量少压缩;而对图像中信息稀疏的非重点区域,则尽可能的压缩,提高图像压缩效率,实现统一方案下灵活的码率控制。
在本申请的一个实施例中,将重要区域分块以及重要区域分块在原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流,包括:
将重要区域分块输入视觉转换模型,输出编码可见补丁和掩码令牌;
根据编码可见补丁、掩码令牌以及在原始图像中的位置信息,生成图像令牌,并根据图像令牌生成比特流。
参见图6,图6示意性地示出了应用本申请技术方案的编码器模块示意图。将没有被丢弃的图像分块以及他们在原图中的位置关系一起输入到 Vision Transformer模型中。将图像没有被丢弃分块的Patch Embeddings和 Positional Embeddings信息,输入到Transformer的Encoder模块中。
经过Transformer的Encoder模块计算之后,会得到同样数量的p个分块信息和其位置信息,这时候再根据位置信息重新排列得到和原图尺寸相同数量的d×d个分块。这d×d个分块中,之前没有被丢弃的图片分块经过 Vision Transformer计算之后得到,被称为Encoded Visible Patches(编码可见补丁)。其余根据位置信息重新排列得到被称之为Mask Tokens(掩码令牌)。
这样,相关技术方案的视频编码系统方法均是面向人类视觉任务的,在面向机器视觉任务时,不能很好的完成机器视觉智能分析任务。本实施例的技术提案是面向机器视觉任务的,能够较好的完成机器视觉智能分析任务。
在本申请的一个实施例中,方法还包括,图像的压缩比率α满足公式:
Figure BDA0003749364910000081
其中,n为原始图像的尺寸大小,p为丢弃的分块数量。
这样,通过图像分块之后控制丢弃图片分块的比率,可以灵活控制压缩率。
根据本申请实施例的一个方面,提供一种图像解码方法,对如上所述的图像编码方法所进行的编码进行解码,图像解码方法包括:
接收经过编码生成的比特率;
将比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
参见图7,图7示意性地示出了应用本申请技术方案的解码器模块示意图。在得到基于区域梯度信息的Transformer编码器模块的输出Encoded Visible Patches和MaskTokens之后,将这两部分结合原图的位置信息 Positional Embeddings,进行相加,并将相加后的结果,输入到以 Transformer Block模块构建的解码器Decoder中。在解码器中,Transformer Block模块由归一化Normalize、多头注意力Multi-head Self Attention以及MLP模块构成。
在图片分块t输入到Multi-head Self Attention之后,随机初始化Multi- headSelf Attention中的权重矩阵Wt,以及每个头的注意力权重矩阵
Figure BDA0003749364910000091
接着各图片分块向量,分别乘以每个头的注意力权重矩阵
Figure BDA0003749364910000092
以计算得到这个图片分块向量对应的三个矩阵Qt,Kt,Vt,计算公式如下:
Figure BDA0003749364910000093
其中每个图片向量对应各头的注意力,计算如下公式所示:
Figure BDA0003749364910000094
Figure BDA0003749364910000095
在公式中,ht为图片分块t分别对应各个注意力的head,
Figure RE-GDA0003930955530000096
是矩阵Kg的维度,δ(Qt,Kt,Vt)是计算注意力的函数,
Figure RE-GDA0003930955530000097
为Softmax逻辑回归函数。
在公式中,
Figure RE-GDA0003930955530000098
代表Concatenate函数,Wt e为参数矩阵,计算结果r表示多头的值。解码器的输出即为重构后的图。
为了便于理解本申请的技术方案,参见图8,图8示意性地示出了应用本申请技术方案的编解流程示意图。
在编码端:步骤S801,对原始图像进行分块计算,将n×n的图像按照非重叠区域均匀分块为m×m,即Non-Overlapping Patches;
步骤S802,对图像分块中的每个像素(x,y),分别计算其x方向梯度和 y方向的梯度:
Figure BDA0003749364910000101
Figure BDA0003749364910000102
步骤S803,计算像素(x,y)的梯度计算值:
Figure BDA0003749364910000103
步骤S804,计算每个分块区域内所有像素的梯度平均值:
Figure BDA0003749364910000104
步骤S805,将所有分块按照d(i,j)的值进行排序。丢弃排序靠后的 d(i,j)值较小的p个分块,压缩比α的计算满足公式:
Figure BDA0003749364910000105
步骤S806,根据丢弃操作的结果生成Image Tokens,即Encoded Visible Patches和Mask Tokens;
步骤S807,根据Image Tokens生成比特流。
解码端:
步骤S808,根据比特流得出Encoded Visible Patches、Mask Tokens以及Positional Embeddings信息;
步骤S809,对数据做归一化处理;
步骤S810,计算多头注意力Multi-head Self Attention;
Figure BDA0003749364910000106
Figure BDA0003749364910000107
Figure BDA0003749364910000108
步骤S811,数据归一化处理;
步骤S812,多层感知机计算;
步骤S813,输出重构后的图片。
本申请在图像编解码中,采用基于区域梯度计算的方法设计图像编解码器,即对图像内容信息进行有选择的压缩;提出了对分块的图像做梯度、梯度计算值以及梯度计算均值的计算,并根据梯度计算均值筛选出重要的信息分块;提出了根据梯度计算均值信息计算关键区域的思想,排序并筛选出信息聚焦的重要区域,进而丢弃图像中的非重要区域,实现图像有选择的压缩;通过图像分块之后控制丢弃图片分块的比率,可以灵活控制压缩率;另外,相关技术方案的视频编码系统方法均是面向人类视觉任务的,在面向机器视觉任务时,不能很好的完成机器视觉智能分析任务。而本申请提出的系统是面向机器视觉任务的,能够较好的完成机器视觉智能分析任务。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的图像编码方法,或者图像解码方法。图9示意性地示出了本申请实施例提供的图像编码装置的结构框图。如图9所示,一种图像编码装置,图像编码装置900包括:
获取模块901,用于获取原始图像,并进行分块处理;
计算模块902,用于计算每个分块内像素的梯度值,根据像素的梯度值筛选重要区域分块;
编码模块903,用于将重要区域分块以及重要区域分块在原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
在本申请的一些实施例中,基于以上技术方案,计算模块902还用于,计算每个分块内像素的梯度值,根据像素的梯度值计算各个分块的梯度平均值;根据梯度平均值对各个分块进行排序,并将梯度平均值小于预设值的分块丢弃,剩余的分块为重要区域分块。
在本申请的一些实施例中,基于以上技术方案,编码模块903还用于,将重要区域分块输入视觉转换模型,输出编码可见补丁和掩码令牌;根据编码可见补丁、掩码令牌以及在原始图像中的位置信息,生成图像令牌,并根据图像令牌生成比特流。
在本申请的一些实施例中,基于以上技术方案,图像的压缩比率α满足公式:
Figure BDA0003749364910000121
其中,n为原始图像的尺寸大小,p为丢弃的分块数量。
在本申请的一些实施例中,基于以上技术方案,获取模块901还用于,获取n×n的原始图像;
将原始图像按照非重叠区域均匀分块为m×m,得到每个均匀分块的大小为
Figure BDA0003749364910000122
根据本申请实施例的一个方面,提供一种图像解码装置,图像解码装置包括:
接收模块,用于接收经过编码生成的比特率;
解码模块,用于将比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
本申请各实施例中提供的图像编码装置或者图像解码装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图10示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图10示出的电子设备的计算机系统1000仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理器1001(Central Processing Unit,CPU),其可以根据存储在只读存储器1002(Read-Only Memory,ROM)中的程序或者从存储部分1008加载到随机访问存储器 1003(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1003中,还存储有系统操作所需的各种程序和数据。中央处理器1001、在只读存储器1002以及随机访问存储器1003通过总线1004彼此相连。输入/输出接口1005(Input/Output接口,即I/O接口) 也连接至总线1004。
以下部件连接至输入/输出接口1005:包括键盘、鼠标等的输入部分 1006;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器 (Liquid Crystal Display,LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至输入/输出接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010 上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011 被安装。在该计算机程序被中央处理器1001执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory, EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read- Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD- ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种图像编码方法,其特征在于,所述图像编码方法包括:
获取原始图像,并进行分块处理;
计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块;
将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
2.根据权利要求1所述的图像编码方法,其特征在于,所述计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块,包括:
计算每个分块内像素的梯度值,根据所述像素的梯度值计算各个分块的梯度平均值;
根据所述梯度平均值对各个分块进行排序,并将所述梯度平均值小于预设值的分块丢弃,剩余的分块为所述重要区域分块。
3.根据权利要求1或2所述的图像编码方法,其特征在于,所述将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流,包括:
将所述重要区域分块输入所述视觉转换模型,输出编码可见补丁和掩码令牌;
根据所述编码可见补丁、所述掩码令牌以及在所述原始图像中的位置信息,生成图像令牌,并根据所述图像令牌生成所述比特流。
4.根据权利要求1或2所述的图像编码方法,其特征在于,所述方法还包括,图像的压缩比率α满足公式:
Figure FDA0003749364900000011
其中,n为原始图像的尺寸大小,p为丢弃的分块数量。
5.根据权利要求1所述的图像编码方法,其特征在于,所述获取原始图像,并进行分块处理,包括:
获取n×n的原始图像;
将所述原始图像按照非重叠区域均匀分块为m×m,得到每个均匀分块的大小为
Figure FDA0003749364900000012
6.一种图像解码方法,其特征在于,对权利要求1至5任意一项所述的图像编码方法所进行的编码进行解码,所述图像解码方法包括:
接收经过编码生成的比特率;
将所述比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
7.一种图像编码装置,其特征在于,所述图像编码装置包括:
获取模块,用于获取原始图像,并进行分块处理;
计算模块,用于计算每个分块内像素的梯度值,根据所述像素的梯度值筛选重要区域分块;
编码模块,用于将所述重要区域分块以及所述重要区域分块在所述原始图像中的位置信息,输入视觉转换模型中进行编码,以生成比特流。
8.一种图像解码装置,其特征在于,所述图像解码装置包括:
接收模块,用于接收经过编码生成的比特率;
解码模块,用于将所述比特流进行解码,并将解码结果依次经过归一化、多头注意力机制以及多层感知器处理,输出重构后的图像。
9.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的图像编码方法,或者如权利要求6所述的图像解码方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至5中任意一项所述的图像编码方法,或者如权利要求6所述的图像解码方法。
CN202210837739.2A 2022-07-15 2022-07-15 图像编码方法、解码方法、装置、可读介质及电子设备 Pending CN115514976A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210837739.2A CN115514976A (zh) 2022-07-15 2022-07-15 图像编码方法、解码方法、装置、可读介质及电子设备
PCT/CN2023/107504 WO2024012574A1 (zh) 2022-07-15 2023-07-14 图像编码方法、解码方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210837739.2A CN115514976A (zh) 2022-07-15 2022-07-15 图像编码方法、解码方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN115514976A true CN115514976A (zh) 2022-12-23

Family

ID=84502698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210837739.2A Pending CN115514976A (zh) 2022-07-15 2022-07-15 图像编码方法、解码方法、装置、可读介质及电子设备

Country Status (2)

Country Link
CN (1) CN115514976A (zh)
WO (1) WO2024012574A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116132818A (zh) * 2023-02-01 2023-05-16 辉羲智能科技(上海)有限公司 用于自动驾驶的图像处理方法及系统
WO2024012574A1 (zh) * 2022-07-15 2024-01-18 中国电信股份有限公司 图像编码方法、解码方法、装置、可读介质及电子设备
WO2024037330A1 (zh) * 2022-08-19 2024-02-22 中国电信股份有限公司 图像特征处理方法和装置、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5144688A (en) * 1990-03-23 1992-09-01 Board Of Regents, The University Of Texas System Method and apparatus for visual pattern image coding
JPH06350992A (ja) * 1993-06-08 1994-12-22 Sony Corp データ圧縮回路
US7668382B2 (en) * 2006-02-24 2010-02-23 Microsoft Corporation Block-based fast image compression
CN114428866A (zh) * 2022-01-26 2022-05-03 杭州电子科技大学 一种基于面向对象的双流注意力网络的视频问答方法
CN115514976A (zh) * 2022-07-15 2022-12-23 中国电信股份有限公司 图像编码方法、解码方法、装置、可读介质及电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024012574A1 (zh) * 2022-07-15 2024-01-18 中国电信股份有限公司 图像编码方法、解码方法、装置、可读介质及电子设备
WO2024037330A1 (zh) * 2022-08-19 2024-02-22 中国电信股份有限公司 图像特征处理方法和装置、存储介质
CN116132818A (zh) * 2023-02-01 2023-05-16 辉羲智能科技(上海)有限公司 用于自动驾驶的图像处理方法及系统
CN116132818B (zh) * 2023-02-01 2024-05-24 辉羲智能科技(上海)有限公司 用于自动驾驶的图像处理方法及系统

Also Published As

Publication number Publication date
WO2024012574A9 (zh) 2024-02-29
WO2024012574A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
Hu et al. Improving deep video compression by resolution-adaptive flow coding
Cai et al. End-to-end optimized ROI image compression
CN115514976A (zh) 图像编码方法、解码方法、装置、可读介质及电子设备
Tang et al. Joint graph attention and asymmetric convolutional neural network for deep image compression
CN109936745B (zh) 用于改善原始视频数据的解压的方法和系统
Jamil et al. Learning-driven lossy image compression: A comprehensive survey
CN114363623A (zh) 图像处理方法、装置、介质及电子设备
Feng et al. Image coding for machines with omnipotent feature learning
CN109996073B (zh) 一种图像压缩方法、系统、可读存储介质及计算机设备
WO2022100140A1 (zh) 一种压缩编码、解压缩方法以及装置
Löhdefink et al. Focussing learned image compression to semantic classes for V2X applications
Fu et al. Learned image compression with generalized octave convolution and cross-resolution parameter estimation
Muruganandham et al. Adaptive fractal image compression using PSO
WO2023174256A1 (zh) 一种数据压缩方法以及相关设备
Jilani et al. JPEG image compression using FPGA with Artificial Neural Networks
Jing et al. Video prediction: a step-by-step improvement of a video synthesis network
WO2023050433A1 (zh) 视频编解码方法、编码器、解码器及存储介质
CN115661276A (zh) 图像数据的编码方法、装置、设备、介质及程序
Popa et al. Hardware acceleration of background modeling in the compressed domain
Sigger et al. Spatial-temporal autoencoder with attention network for video compression
Zhang et al. A computationally efficient neural video compression accelerator based on a sparse cnn-transformer hybrid network
CN116668702B (zh) 一种视频编码方法、装置、终端设备及存储介质
Aulí-Llinàs et al. Accelerating BPC-PaCo through visually lossless techniques
US20240163479A1 (en) Entropy-Constrained Neural Video Representations
US20240303866A1 (en) Method, electronic device, and computer program product for image processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination