CN114422802B - 一种基于码本的自编码机图像压缩方法 - Google Patents

一种基于码本的自编码机图像压缩方法 Download PDF

Info

Publication number
CN114422802B
CN114422802B CN202210312001.4A CN202210312001A CN114422802B CN 114422802 B CN114422802 B CN 114422802B CN 202210312001 A CN202210312001 A CN 202210312001A CN 114422802 B CN114422802 B CN 114422802B
Authority
CN
China
Prior art keywords
decoder
encoder
codebook
self
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210312001.4A
Other languages
English (en)
Other versions
CN114422802A (zh
Inventor
滕波
章卿妹
向国庆
焦立欣
牛梅梅
陆嘉瑶
洪一帆
张羿
方赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Smart Video Security Innovation Center Co Ltd
Original Assignee
Zhejiang Smart Video Security Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Smart Video Security Innovation Center Co Ltd filed Critical Zhejiang Smart Video Security Innovation Center Co Ltd
Priority to CN202210312001.4A priority Critical patent/CN114422802B/zh
Publication of CN114422802A publication Critical patent/CN114422802A/zh
Application granted granted Critical
Publication of CN114422802B publication Critical patent/CN114422802B/zh
Priority to PCT/CN2022/130355 priority patent/WO2023184980A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于码本的自编码机图像压缩方法,解码器端通过历史数据得到一组卷积核参数差值的码本,并将码本a发送至编码器端;编码器端通过待压缩图像数据训练自编码机,得到编码器a和解码器b,并根据解码器b选择一个对应的码本;当待压缩图像数据更新后解码器的参数差值不在码本中有对应时,编码器端指示一个卷积核参数差值和码本之间的差值;编码器端通过码本获得解码器参数的参数差值;解码器端根据参数差值,更新解码器,通过解码器重建图像。将解码器的参数更新均被部署在云端,通过对大量的差分信息数据生成高频使用的码本,能够大幅度降低全模型更新策略的带宽开销。

Description

一种基于码本的自编码机图像压缩方法
技术领域
本发明涉及到视频编码的技术领域,尤其涉及到一种基于码本的自编码机图像压缩方法。
背景技术
自从数字视网膜概念提出以来,在视频编解码、视频监控等领域引起了较大的关注。在传统的图像处理领域,视频压缩和视频分析分属不同的两个领域,数字视网膜技术受人类视网膜的生物学功能启发,率先提出了视频压缩、视频分析一体化的智能图像传感器。具体而言,数字视网膜的特点在于能够同时获得视频压缩数据和视频特征数据,并通过数据流传送至云端,便于后期的回放和检索。为了获取图像的特征流,数字视网膜技术引入了模型流的概念,也就是说图像采集前端可以根据需求应用不同的特征提取模型,这些模型可以通过云端存储和反向传输的方式发送到图像采集前端。
在视频压缩方面,基本的理念是通过计算压缩视频的时空冗余信息。视频压缩的基本范式在过去数十年来没有发生较大的改变,基于分块的视频压缩编解码技术发展得非常成熟,其具有计算复杂度适中、压缩率高、重建质量高等特点,因此在过去的数十年里得到了非常广泛的饮用,目前主流的编解码技术包括H.264/H.265/H.266以及MPEG2/MPEG4等均主要以基于分块的视频编解码技术。从早期的视频编码开始,编码理论的范式没有就没有改变过,新一代的编码标准所采用的技术都是通过“计算换空间”的方法来提升压缩比率。例如从H.264到H.265的演进,压缩率提升了50%,但是同时也带来了更大的计算需求。这是由于使用了更灵活的编码单元,更灵活的参考帧使得基于运动补偿的压缩方法挖掘了更多的压缩潜力。
由于数字视网膜框架融合了与视频相关的特征识别和数据压缩两个方面,因此创造了一种新的范式,这种范式排除了以单一参数为衡量的某种技术,而是以一种面向复杂目标的综合性评价方法。
将特征识别和数据压缩两个任务进行联合优化的方法在过去三年里得到广泛的关注,因为特征识别的相关技术,尤其是深度神经网络的方法被证明也具有提升视频数据压缩的潜力。其中,自编码机分析网络能够将图像压缩到隐式的特征,从而减少传输的数据量。在解码器端,通过生成网络将隐式特征重建成解码图像。在基于分块的编码方式中,I帧由于缺少可参考的帧,只能通过帧内预测的方法进行压缩。而基于自编码机的方法可以应用在I帧内,以获得更高的压缩率,尤其是在数字视网膜应用的安全监控领域,摄像头采集的图像特征变化较为缓慢,信息熵低。然而,自编码机受限于其模型的容量和有限的训练数据集,泛化能力有局限,会在采集图像特征变化时遭遇性能降低。为了应对这个问题,一些根据待压缩数据进行模型更新的方法被提出,其中早期的方法提出只针对编码器进行更新而保持解码器不变,这样的好处在于解码器端不需要做额外的更改。根据每个待编码图像更新自编码机的编码器和解码器,并将解码器和隐式特征的超先验信息均进行量化并传输至解码器端,解码器端根据控制信息更新自编码机的解码器后,对压缩数据进行图像重建。这种方法的性能超越了传统基于分块编码的方法。由于其全模型更新的能力,可以理解的是它能在不增加带宽需求的情况下提升模型的泛化能力。然而,这种方法的模型更新策略需要对每一个样本生成一组控制信息,也就是解码器和超先验的差分信息,并进行量化后传输至解码器端。如前所述,在图像的信息熵较小的情况下,上述差分信息需要进行量化后进行传输,因此意味着传输的控制信息是一个多维空间内的离散采样点。并且该采样点的分布是稀疏的。例如一个样本带来的自编码机解码器参数更新只有其中一个卷基层的一个权重发生了1bit的改变。而由于解码器的参数更新均被部署在云端,这意味着云端具有通过对大量的差分信息数据生成高频使用的码本的可能。
发明内容
本发明的目的在于提供一种基于码本的自编码机图像压缩方法能够大幅度降低全模型更新策略的带宽开销。
一种基于码本的自编码机图像压缩方法,包括以下步骤:
步骤A,解码器端通过历史数据得到一组卷积核参数差值的码本,并将码本a发送至编码器端;
步骤B,所述编码器端通过待压缩图像数据训练自编码机,得到编码器a和解码器b,并根据所述解码器b选择一个对应的码本;
步骤C,所述解码器端通过所述码本获得解码器参数的参数差值;
步骤D,所述解码器端根据所述参数差值,更新解码器,通过所述解码器重建图像。
作为进一步的优选,还包括步骤E,当所述待压缩图像数据更新后解码器的参数差值不在码本中有对应时,所述编码器端指示一个卷积核参数差值和码本之间的差值。
作为进一步的优选,所述步骤A中在所述解码器端和编码器端均有一套预训练的自编码器,所述自编码器包括编码器A和解码器B,所述历史数据来自对解码器A的更新,所述数据可以来自其他编码器端的更新。
作为进一步的优选,所述步骤B包括将所述待压缩图像数据作为训练数据,通过反向传播算法,训练自编码机,获得编码器a和解码器b。
作为进一步的优选,所述步骤B中所述解码器是一个由多层神经网络构成的深度生成网络,所述深度生成网络包括多个卷积核,所述每个卷积核的参数是一个三维权重张量。
作为进一步的优选,所述步骤C包括:
步骤C1,所述编码器端将参数差值按照每个卷积核为单位排列,获得
Figure DEST_PATH_IMAGE001
个差值;
步骤C2,对以卷积核为单位的参数差值进行量化,获得离散的差值;
步骤C3,基于所述离散的差值,得到最佳码本,并获得
Figure DEST_PATH_IMAGE002
个码本索引。
作为进一步的优选,所述每个卷积核的参数差值对应
Figure DEST_PATH_IMAGE003
个码本索引。
作为进一步的优选,步骤C还包括:步骤C4,所述编码器端在通过训练后获得所述解码器的参数差值,并得到最佳码本,将所述码本作为最终差值发送至所述解码器端。
作为进一步的优选,所述步骤D包括:
步骤D1,所述编码器端使用编码器a对待编码图像进行编码,获得隐式特征;
步骤D2,将所述隐式特征和所述码本索引一同发送到所述解码器端;
步骤D3,所述解码器端获得所述码本索引,并根据所述码本恢复每个卷积核的参数差值;
步骤D4,根据所述参数差值,所述解码器端更新所述自编码机的解码器;
步骤D5,所述解码器端通过更新后的解码器处理所述隐式特征,重建图像。
一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现以上任一项实施例所述的方法。
一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现以上任一项实施例所述的方法。
一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现以上任一项实施例所述的方法。
上述技术方案具有如下优点或有益效果:
本发明这种基于码本的自编码机图像压缩方法将解码器的参数更新均被部署在云端,通过对大量的差分信息数据生成高频使用的码本,能够大幅度降低全模型更新策略的带宽开销。
附图说明
图1是本发明一种基于码本的自编码机图像压缩方法的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
前端设备同时具有视频压缩和用于视频特征提取的深度模型。由于后端可以通过传输的方法向前端部署不同的模型。因此,对任一图像帧,前端设备可以使用基于自编码机的图像压缩,并生成隐式特征。编码器端最初使用训练的自编码器用于压缩图像,该自编码机的编码器、解码器、隐式超先验的参数为预训练的结果。在编码器端收到待压缩的图像后,不是直接使用预训练模型对图像压缩,而是将待压缩图像作为训练数据,更新自编码机的编码器、解码器、隐式超先验的参数。由于待压缩的图像的隐式特征概率分布存在缓慢的变化,因此编码器a、解码器b、隐式超先验2与编码器A、解码器B、隐式超先验1可能不完全相同。因此,在上述全模型更新方法中,自编码机的解码器和隐式超先验参数的差值通过量化和熵编码后,与使用编码器b生成的隐式特征一同发送到解码器端。在解码器端,最初部署的自编码机的解码器是预训练的模型,并且用于隐式特征的熵解码器也是基于隐式超先验。因此,解码器端首先根据接收到的解码器差值和隐式超先验差值更新解码器和隐式特征的熵解码器。最后,使用更新后的自编码机的解码器重建图像数据。由于自编码机的解码的参数量较大,本发明将只研究自编码机的解码器的更新方法。但是隐式超先先验的更新也可以使用相同的方法。
结合图1所示,一种基于码本的自编码机图像压缩方法,包括以下步骤:
步骤A,解码器端通过历史数据得到一组卷积核参数差值的码本,并将码本a发送至编码器端,解码器端通过历史数据生成码本,并将码本发送至编码器端,其中历史数据来自对解码器B的更新过程,该数据可以来自其他编码器端的历史更新过程,在解码器端和编码器端均有一套预训练的自编码器,自编码器包括编码器A和解码器B;
步骤B,所述编码器端通过待压缩图像数据训练自编码机,得到编码器a和解码器b,并根据所述解码器b选择一个对应的码本,在编码器端收到一个待编码的图像,首先通过将该数据作为训练数据,通过反向传播算法,训练整个自编码机,获得编码器a和解码器b,此时解码器端仍然使用解码器B;
步骤C,所述解码器端通过所述码本获得解码器参数的参数差值,编码器端获得解码器b与解码器B的参数差值,也就是自编码机的解码器参数的更新值,并将参数差值按照每个卷积核为单位排列,获得
Figure DEST_PATH_IMAGE004
个差值,每个以卷积核为单位的参数差值实际是一个3维的参数张量,对以卷积核为单位的参数差值进行量化,获得离散的差值,基于离散的差值,在码本中搜索最佳码本,并获得
Figure DEST_PATH_IMAGE005
个码本索引,其中每个卷积核的参数差值对应
Figure 461758DEST_PATH_IMAGE003
个码本索引;
步骤D,所述解码器端根据所述参数差值,更新解码器,通过所述解码器重建图像,编码器端使用编码器a对待编码图像进行编码,获得隐式特征,该隐式特征和生成的码本索引一同发送到解码器端,解码器端首先获得码本索引,并根据本地的码本表格恢复每个卷积核的参数差值,根据这些参数差值,解码器端更新其自编码机的解码器,最后解码器端使用更新后的自编码机的解码器处理隐式特征数据,获得重建图像。
其中,编码器端:是指视频采集端,编码器端需要对采集的图像进行视频压缩或特征提取,并将数据传输至解码器端。前端设备就是编码器端。编码器端和自编码机的编码器不是一个概念。
自编码机的编码器:自编码机的分析网络,用于将图像压缩成隐式特征。
解码器端:指视频解压缩端,通过接收或从存储设备中读取的压缩数据,重建视频数据或特征数据。后段设备就是解码器端。解码器端和自编码机的解码器不是一个概念。
自编码机的解码器:自编码机的生成网络,用于从隐式特征中生成重建的图像。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,还包括步骤E,当所述待压缩图像数据更新后解码器的参数差值不在码本中有对应时,所述编码器端指示一个卷积核参数差值和码本之间的差值。
在另外一种实施方法中,所述码本可以是3维或者使用更大的2维尺寸,例如4*4。这取决于云端在获得大量自编码机的解码器参数差值后经过搜索后得到的最优结果。
在一些情况下,具体的卷积核参数差值不在设计的码本之内,例如非全零卷积核参数差值的最后2*2个差值,并不能在码本中找到对应。此时,编码器端可以使用其他控制位信息,指示除了使用的码本以外,还对残差值进行编码。例如编码器端使用码本索引01,并对残差值0011(2*2的差值经过重新排列后的一维数据)进行编码。
由于码本是在云端经过设计,并通过通信链路分发到编码器端的。因此在另外一种实施方式中,编码器端在通过训练后获得自编码机的解码器的参数,并在码本中搜索最接近的码本,并将最接近的码本作为最终差值发送至解码器端。例如,卷积核参数差值,编码器端只发送码本索引01。此时会带来自编码机的解码器的参数误差,但是由于每次压缩一个新图像均会更新自编码机的解码器参数的差值,累计的差值会在下一次更新时被发送,因此不会带来累计误差。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述步骤A中在所述解码器端和编码器端均有一套预训练的自编码器,所述自编码器包括编码器A和解码器B,所述历史数据来自对解码器B的更新,所述数据可以来自其他编码器端的更新。解码器端通过历史数据生成码本,并将码本发送至编码器端。其中历史数据来自对解码器B的更新过程,该数据可以来自其他编码器端的历史更新过程。在解码器端和编码器端均有一套预训练的自编码器,自编码器包括编码器A和解码器B。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述步骤B包括将所述待压缩图像数据作为训练数据,通过反向传播算法,训练自编码机,获得编码器a和解码器b。在编码器端收到一个待编码的图像,首先通过将该数据作为训练数据,通过反向传播算法,训练整个自编码机,获得编码器a和解码器b。此时,解码器端仍然使用解码器A。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述步骤B中所述解码器是一个由多层神经网络构成的深度生成网络,所述深度生成网络包括多个卷积核,所述每个卷积核的参数是一个三维权重张量。
假设
Figure DEST_PATH_IMAGE006
为预训练的自编码机的编码器的参数,则经过待编码图像数据的训练后,自编码机的编码器的参数变为
Figure DEST_PATH_IMAGE007
,则自编码机的编码器参数差值为
Figure DEST_PATH_IMAGE008
类似的,假设
Figure DEST_PATH_IMAGE009
为与训练的自编码机的解码器的参数,则经过待编码的图像数据训练后,自编码机的解码器的参数变为
Figure DEST_PATH_IMAGE010
,则自编码机的解码器参数差值为:
Figure DEST_PATH_IMAGE011
一个自编码机的解码器是一个由多层神经网络构成的深度生成网络。每层卷积神经网络包括多个卷积核(Kernel),其中每个卷积核的参数是一个三维权重张量,也就是
Figure DEST_PATH_IMAGE012
,其中
Figure DEST_PATH_IMAGE013
代表第
Figure DEST_PATH_IMAGE014
层卷积层第
Figure DEST_PATH_IMAGE015
个卷积核的权重参数集合,
Figure DEST_PATH_IMAGE016
对于前层网络输出的长,宽,深。因此可见,一个解码器的参数差值集可以写成由多个卷积核参数差值的集合。也就是
Figure DEST_PATH_IMAGE017
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述步骤C包括:
步骤C1,所述编码器端将参数差值按照每个卷积核为单位排列,获得
Figure 159324DEST_PATH_IMAGE001
个差值,每个以卷积核为单位的参数差值实际是一个3维的参数张量;
步骤C2,对以卷积核为单位的参数差值进行量化,获得离散的差值;
步骤C3,基于所述离散的差值,得到最佳码本,并获得
Figure DEST_PATH_IMAGE018
个码本索引。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述每个卷积核的参数差值对应
Figure DEST_PATH_IMAGE019
个码本索引。
进一步,对每个卷积核参数差值进行量化,就能得到离散的每个卷积核的参数差值。在一个熵值较低的场景内,例如安全监控领域,
Figure DEST_PATH_IMAGE020
将主要以近零分量为主,也就是大量的
Figure DEST_PATH_IMAGE021
为0,少量
Figure DEST_PATH_IMAGE022
拥有较小的非0取值。例如两个4*4*4的卷积核最终量化后的参数残差值的示意,其中第一个卷积核的残差值为全0,也就是说该卷积核的参数在一帧待编码数据的训练后,变化非常小,不足以在量化后产生一个非0值。第二个卷积核的残差值不全为0,其中一个权重参数的差值在量化后得到了1,而另外一个权重参数的差值在量化后得到了2。注意1和2是量化的水平,并没有展示编码后的比特数据。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,步骤C还包括:步骤C4,所述编码器端在通过训练后获得所述解码器的参数差值,并得到最佳码本,将所述码本作为最终差值发送至所述解码器端。由于码本是在云端经过设计,并通过通信链路分发到编码器端的。因此在另其他实施例中,编码器端在通过训练后获得自编码机的解码器的参数,并在码本中搜索最接近的码本,并将最接近的码本作为最终差值发送至解码器端。例如,卷积核参数差值,编码器端只发送码本索引01。此时会带来自编码机的解码器的参数误差,但是由于每次压缩一个新图像均会更新自编码机的解码器参数的差值,累计的差值会在下一次更新时被发送,因此不会带来累计误差。
进一步地,本发明一种基于码本的自编码机图像压缩方法的较佳的实施例中,所述步骤D包括:
步骤D1,所述编码器端使用编码器a对待编码图像进行编码,获得隐式特征;
步骤D2,将所述隐式特征和所述码本索引一同发送到所述解码器端;
步骤D3,所述解码器端获得所述码本索引,并根据所述码本恢复每个卷积核的参数差值;
步骤D4,根据所述参数差值,所述解码器端更新所述自编码机的解码器;
步骤D5,所述解码器端通过更新后的解码器处理所述隐式特征,重建图像。
进一步,由于自编码机的编码器每进行一次图像编码,就要生成一组卷积核参数差值,并发送至解码器端。由于解码器端部署在云端,因此云端拥有海量的卷积核参数差值的数据样本。因此,云端可以根据海量的数据计算得出一套码本,用于指示高频出现卷积核参数残差。例如一套最基本的码本,其中编码索引00用来指示全0的卷积核参数差值;01,10,11分别指示其他几种高频非全0的卷积核参数差值。此时,使用了两个比特来表示一个2*2的卷积核参数差值,一个卷积核参数差值共需要32个比特来指示。而传统的方法中,假设差值只有两个量化水平,也就是1个比特表示差值,也需要至少16*4=64比特来指示一个全0的卷积核参数差值。出现以上现象的原因在于,自编码机的解码器的一个卷积层拥有大量的参数,而实际自编码机的解码器经过每个图像样本训练后的参数经过量化后需要更新的参数非常少。这和传统图像压缩中帧内预测的基础一样,也就是拥有大量的空间冗余,而仅仅使用熵编码并不能压缩这部分冗余。
本发明解码器端通过获得的大量自编码机的解码器参数差值,计算得到一组自编码机的解码器卷积核参数差值的码本,每个码本与一个码本索引对应,每个码本具有一个2维或3维的参数差值数值。编码器端基于待压缩图像数据更新自编码机的编码器和解码器,并根据获得的自编码机的解码器选择一个对应的码本,并在控制信息中使用码本索引用来指示自编码机的解码器参数的差值。解码器器端在收到码本索引后,根据码本索引对应的参数差值数据,更新自编码机的解码器,并利用更细后的解码器重建图像。其中还包括,编码器端还可以指示一个卷积核参数差值和码本之间的差值,尤其是在基于待压缩图像数据更新后自编码机的解码器的参数差值不在码本中有直接对应的时候。
一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如以上任一项所述的方法。
具体地,处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器通过运行存储在存储器中的非暂态软件程序/指令以及功能模块,从而执行处理器的各种功能应用以及数据处理。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口)连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如以上任一项所述的方法。
前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所本申请的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
综上所述,本发明这种基于码本的自编码机图像压缩方法将解码器的参数更新均被部署在云端,通过对大量的差分信息数据生成高频使用的码本,能够大幅度降低全模型更新策略的带宽开销。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

Claims (9)

1.一种基于码本的自编码机图像压缩方法,其特征在于,包括以下步骤:
步骤A,解码器端通过历史数据得到一组卷积核参数差值的码本,并将码本发送至编码器端;所述步骤A中在所述解码器端和编码器端均有一套预训练的自编码器,所述自编码器包括编码器A和解码器B,所述历史数据来自对所述解码器B的更新;编码器端:是指视频采集端,编码器端需要对采集的图像进行视频压缩或特征提取,并将数据传输至解码器端;解码器端:指视频解压缩端,通过接收或从存储设备中读取的压缩数据,重建视频数据或特征数据;
步骤B,所述编码器端通过待压缩图像数据训练自编码机,得到编码器a和解码器b,并根据所述解码器b选择一个对应的码本;自编码机的编码器:自编码机的分析网络,用于将图像压缩成隐式特征;自编码机的解码器:自编码机的生成网络,用于从隐式特征中生成重建的图像;
步骤C,所述解码器端通过所述码本获得解码器参数的参数差值;解码器参数的参数差值为解码器b与解码器B的参数差值;
步骤D,所述解码器端根据所述参数差值,更新解码器,通过所述解码器重建图像;所述步骤D包括:
步骤D1,所述编码器端使用编码器a对待编码图像进行编码,获得隐式特征;
步骤D2,将所述隐式特征和所述码本索引一同发送到所述解码器端;
步骤D3,所述解码器端获得所述码本索引,并根据所述码本恢复每个卷积核的参数差值;
步骤D4,根据所述参数差值,所述解码器端更新所述自编码机的解码器;
步骤D5,所述解码器端通过更新后的解码器处理所述隐式特征,重建图像。
2.如权利要求1所述的一种基于码本的自编码机图像压缩方法,其特征在于,还包括步骤E,当所述待压缩图像数据更新后解码器的参数差值不在码本中有对应时,所述编码器端指示一个卷积核参数差值和码本之间的差值。
3.如权利要求1所述的一种基于码本的自编码机图像压缩方法,其特征在于,所述步骤B包括将所述待压缩图像数据作为训练数据,通过反向传播算法,训练自编码机,获得编码器a和解码器b。
4.如权利要求3所述的一种基于码本的自编码机图像压缩方法,其特征在于,所述步骤B中所述解码器是一个由多层神经网络构成的深度生成网络,所述深度生成网络包括多个卷积核,所述每个卷积核的参数是一个三维权重张量。
5.如权利要求1所述的一种基于码本的自编码机图像压缩方法,其特征在于,所述步骤C包括:
步骤C1,所述编码器端将参数差值按照每个卷积核为单位排列,获得
Figure 255256DEST_PATH_IMAGE001
个差值;
步骤C2,对以卷积核为单位的参数差值进行量化,获得离散的差值;
步骤C3,基于所述离散的差值,得到最佳码本,并获得
Figure 300573DEST_PATH_IMAGE002
个码本索引。
6.如权利要求5所述的一种基于码本的自编码机图像压缩方法,其特征在于,所述每个卷积核的参数差值对应
Figure 164623DEST_PATH_IMAGE003
个码本索引。
7.如权利要求1所述的一种基于码本的自编码机图像压缩方法,其特征在于,步骤C还包括:步骤C4,所述编码器端在通过训练后获得所述解码器的参数差值,并得到最佳码本,将所述码本作为最终差值发送至所述解码器端。
8.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-7任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-7任一项所述的方法。
CN202210312001.4A 2022-03-28 2022-03-28 一种基于码本的自编码机图像压缩方法 Active CN114422802B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210312001.4A CN114422802B (zh) 2022-03-28 2022-03-28 一种基于码本的自编码机图像压缩方法
PCT/CN2022/130355 WO2023184980A1 (zh) 2022-03-28 2022-11-07 一种基于码本的自编码机图像压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210312001.4A CN114422802B (zh) 2022-03-28 2022-03-28 一种基于码本的自编码机图像压缩方法

Publications (2)

Publication Number Publication Date
CN114422802A CN114422802A (zh) 2022-04-29
CN114422802B true CN114422802B (zh) 2022-08-09

Family

ID=81263767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210312001.4A Active CN114422802B (zh) 2022-03-28 2022-03-28 一种基于码本的自编码机图像压缩方法

Country Status (2)

Country Link
CN (1) CN114422802B (zh)
WO (1) WO2023184980A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422802B (zh) * 2022-03-28 2022-08-09 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法
CN118470435A (zh) * 2024-07-04 2024-08-09 鹏城实验室 图像语义传输方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010728A (zh) * 2004-09-02 2007-08-01 松下电器产业株式会社 语音编码装置、语音解码装置及它们的方法
CN102369569A (zh) * 2009-05-13 2012-03-07 华为技术有限公司 编码处理方法、编码处理装置与发射机
CN109076248A (zh) * 2016-02-01 2018-12-21 华为技术有限公司 通过由选出的训练信号生成的码本进行视频编码的矢量量化
CN111246206A (zh) * 2020-01-14 2020-06-05 济南浪潮高新科技投资发展有限公司 一种基于自编码器的光流信息压缩方法及装置
CN112119634A (zh) * 2018-10-01 2020-12-22 腾讯美国有限责任公司 360图像及视频编码的qp编码方法
WO2021001687A1 (en) * 2019-07-02 2021-01-07 Interdigital Ce Patent Holdings, Sas Systems and methods for encoding a deep neural network
CN112203089A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 基于稀疏编码的码率控制的图像压缩方法、系统及装置
CN112449195A (zh) * 2019-09-04 2021-03-05 阿里巴巴集团控股有限公司 图像压缩和解压的方法和装置,以及图像的处理系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7295614B1 (en) * 2000-09-08 2007-11-13 Cisco Technology, Inc. Methods and apparatus for encoding a video signal
US8385670B2 (en) * 2008-08-20 2013-02-26 Microsoft Corporation Image restoration by vector quantization utilizing visual patterns
WO2019162231A1 (en) * 2018-02-26 2019-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selective quantization parameter transmission
CN108259997B (zh) * 2018-04-02 2019-08-23 腾讯科技(深圳)有限公司 图像相关处理方法及装置、智能终端、服务器、存储介质
CN108665067B (zh) * 2018-05-29 2020-05-29 北京大学 用于深度神经网络频繁传输的压缩方法及系统
CN113422950B (zh) * 2021-05-31 2022-09-30 北京达佳互联信息技术有限公司 训练方法和训练装置、图像数据处理方法和装置、电子设备及存储介质
CN114422802B (zh) * 2022-03-28 2022-08-09 浙江智慧视频安防创新中心有限公司 一种基于码本的自编码机图像压缩方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010728A (zh) * 2004-09-02 2007-08-01 松下电器产业株式会社 语音编码装置、语音解码装置及它们的方法
CN102369569A (zh) * 2009-05-13 2012-03-07 华为技术有限公司 编码处理方法、编码处理装置与发射机
CN109076248A (zh) * 2016-02-01 2018-12-21 华为技术有限公司 通过由选出的训练信号生成的码本进行视频编码的矢量量化
CN112119634A (zh) * 2018-10-01 2020-12-22 腾讯美国有限责任公司 360图像及视频编码的qp编码方法
WO2021001687A1 (en) * 2019-07-02 2021-01-07 Interdigital Ce Patent Holdings, Sas Systems and methods for encoding a deep neural network
CN112449195A (zh) * 2019-09-04 2021-03-05 阿里巴巴集团控股有限公司 图像压缩和解压的方法和装置,以及图像的处理系统
CN111246206A (zh) * 2020-01-14 2020-06-05 济南浪潮高新科技投资发展有限公司 一种基于自编码器的光流信息压缩方法及装置
CN112203089A (zh) * 2020-12-03 2021-01-08 中国科学院自动化研究所 基于稀疏编码的码率控制的图像压缩方法、系统及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ITU-T G.723.1语音编码算法分析及优化策略;李纯静等;《电子测量技术》;20070915(第09期);全文 *
Principal component vector quantization for abrupt scene changes;S.C. Huang;《 [Proceedings] 1992 IEEE International Symposium on Circuits and Systems》;20020806;全文 *
徐庆.分形图像编码的混合算法研究.《 CNKI优秀硕士学位论文全文库》.2011, *

Also Published As

Publication number Publication date
WO2023184980A1 (zh) 2023-10-05
CN114422802A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN114422802B (zh) 一种基于码本的自编码机图像压缩方法
US11544606B2 (en) Machine learning based video compression
CN110602494A (zh) 基于深度学习的图像编码、解码系统及编码、解码方法
CN113259676B (zh) 一种基于深度学习的图像压缩方法和装置
WO2020237646A1 (zh) 图像处理方法、设备及计算机可读存储介质
CN110248190B (zh) 一种基于压缩感知的多层残差系数图像编码方法
CN111246206B (zh) 一种基于自编码器的光流信息压缩方法及装置
CN111641826B (zh) 对数据进行编码、解码的方法、装置与系统
CN109903351B (zh) 基于卷积神经网络和传统编码相结合的图像压缩方法
Tomar et al. Lossless image compression using differential pulse code modulation and its application
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN116527943B (zh) 基于矢量量化索引和生成模型的极限图像压缩方法及系统
Zhang et al. Learned scalable image compression with bidirectional context disentanglement network
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN111050170A (zh) 基于gan的图片压缩系统构建方法、压缩系统及方法
Balcilar et al. Reducing the amortization gap of entropy bottleneck in end-to-end image compression
CN109889848A (zh) 基于卷积自编码器的多描述编码、解码方法及系统
CN116437089B (zh) 一种基于关键目标的深度视频压缩方法
CN116527909A (zh) 编码参数的传输方法、装置、设备、存储介质及程序产品
Gao et al. Volumetric end-to-end optimized compression for brain images
US9501717B1 (en) Method and system for coding signals using distributed coding and non-monotonic quantization
CN114519750A (zh) 一种人脸图像压缩方法和系统
Ran et al. Combined VQ-DCT coding of images using interblock noiseless coding
CN111565314A (zh) 图像压缩方法、编解码网络训练方法、装置及电子设备
CN116723333B (zh) 基于语义信息的可分层视频编码方法、装置及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant