CN114450938A - 具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置 - Google Patents

具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置 Download PDF

Info

Publication number
CN114450938A
CN114450938A CN202180005484.7A CN202180005484A CN114450938A CN 114450938 A CN114450938 A CN 114450938A CN 202180005484 A CN202180005484 A CN 202180005484A CN 114450938 A CN114450938 A CN 114450938A
Authority
CN
China
Prior art keywords
neural network
stackable
neural
weights
neural networks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202180005484.7A
Other languages
English (en)
Other versions
CN114450938B (zh
Inventor
蒋薇
王炜
刘杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN114450938A publication Critical patent/CN114450938A/zh
Application granted granted Critical
Publication of CN114450938B publication Critical patent/CN114450938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)

Abstract

一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法,由至少一个处理器执行,并且包括:在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中第一神经网络的第一先前权重集保持不变;使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示;以及对所获得的已编码表示进行编码,以确定已压缩表示。

Description

具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置
相关申请的交叉引用
本申请基于2020年6月29日提交的申请号为63/045,342的美国临时专利申请和2021年6月16日提交的申请号为17/348,894的美国专利申请,并要求它们的优先权,这两个申请的公开内容通过引用整体并入本申请中。
背景技术
标准组织和公司一直在积极地寻找未来视频编解码技术标准化的潜在需要。这些标准组织和公司聚焦于使用深度神经网络(DNN)的基于人工智能(AI)的端到端神经图像压缩(NIC)。这种方法的成功为先进的神经图像和视频压缩方法带来了越来越多的工业利益。
灵活的比特率控制仍然是先前NIC方法的挑战性问题。通常,它可以包括对多个模型实例进行训练,分别针对速率和失真(压缩图像的质量)之间的每个期望的折衷。所有这些多个模型实例可能需要存储并部署在解码器侧,以从不同的比特率重建图像。这对于具有有限存储和计算资源的很多应用而言,可能成本高得令人望而却步。
发明内容
根据实施例,一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法,由至少一个处理器执行,并且包括:在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变;使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示;以及对所获得的已编码表示进行编码,以确定已压缩表示。
根据实施例,一种用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置,包括:至少一个存储器,被配置为存储程序代码;以及至少一个处理器,被配置为读取程序代码并按照程序代码的指令进行操作。程序代码包括:第一堆叠代码,被配置为使至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变;第一编码代码,被配置为使至少一个处理器使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示;以及第二编码代码,被配置为使至少一个处理器对所获得的已编码表示进行编码,以确定已压缩表示。
根据实施例,一种非易失性计算机可读介质,存储指令,所述指令在由至少一个处理器执行以用于具有可堆叠嵌套模型结构的多速率神经图像压缩时,使至少一个处理器:在对应于先前超参数的第一神经网络的第一先前权重集上迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变;使用堆叠有第一多个可堆叠神经网络的第一多个权重集第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示;以及对所获得的已编码表示进行编码以确定已压缩表示。
附图说明
图1是根据实施例的可以实施本公开所描述的方法、装置和系统的环境的示意图。
图2是图1的一个或多个设备的示例组成部分的框图。
图3是根据实施例的在测试阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的测试装置的框图。
图4是根据实施例的在训练阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的训练装置的框图。
图5是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像压缩方法的流程图。
图6是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置的框图。
图7是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像解压缩方法的流程图。
图8是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像解压缩装置的框图。
具体实施方式
本公开描述了用于通过具有可堆叠嵌套模型结构的多速率NIC模型来对输入图像进行压缩的方法和装置。仅使用一个NIC模型实例来实现多比特率的图像压缩。
图1是根据实施例的可以实施本公开所描述的方法、装置和系统的环境100的示意图。
如图1所示,环境100可以包括用户设备110、平台120和网络130。环境100的设备可以通过有线连接、无线连接或有线和无线连接的组合进行互连。
用户设备110包括一个或多个设备,该一个或多个设备能够接收、生成、存储、处理和/或提供与平台120相关的信息。例如,用户设备110可以包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,智能眼镜或智能手表)或相似设备。在一些实施方式中,用户设备110可以从平台120接收信息和/或向平台120发送信息。
平台120包括如本文中其它地方所描述的一个或多个设备。在一些实施方式中,平台120可以包括云服务器或云服务器组。在一些实施方式中,平台120可以被设计成模块化,使得软件组件可以被换入或换出。这样,可以容易地和/或快速地重新配置平台120以具有不同的用途。
在一些实施方式中,如图所示,平台120可以被托管(hosted)在云计算环境122中。值得注意的是,虽然本文所述的实施方式将平台120描述为托管在云计算环境122中,但是在一些实施方式中,平台120不是基于云的(即,可以在云计算环境外部实现)或者可以是部分基于云的。
云计算环境122包括托管平台120的环境。云计算环境122可以提供计算、软件、数据访问、存储等服务,这些服务不需要终端用户(例如,用户设备110)了解托管平台120的系统和/或设备的物理位置和配置。如图所示,云计算环境122可以包括一组计算资源124(统称为“计算资源(computing resources)124”并分别称为“计算资源(computing resource)124”)。
计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实施方式中,计算资源124可以托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实施方式中,计算资源124可以通过有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。
进一步如图1所示,计算资源124包括一组云资源,例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。
应用程序124-1包括一个或多个软件应用程序,其可以提供给用户设备110和/或平台120,或由用户设备110和/或平台120访问。应用程序124-1无需在用户设备110上安装和执行软件应用程序。例如,应用程序124-1可以包括与平台120相关的软件,和/或,能够通过云计算环境122提供的任何其它软件。在一些实施方式中,一个应用程序124-1可以通过虚拟机124-2向或从一个或多个其它应用程序124-1发送/接收信息。
虚拟机124-2包括机器(例如,计算机)的软件实现,该机器执行程序,类似于物理机。虚拟机124-2可以是系统虚拟机,也可以是进程虚拟机,这取决于虚拟机124-2对任何真实机的使用和对应程度。系统虚拟机可以提供完整系统平台,其支持完整操作系统(“OS”)的执行。进程虚拟机可以执行单个程序,并且可以支持单个进程。在一些实施方式中,虚拟机124-2可以代表用户(例如,用户设备110)执行,并且可以管理云计算环境122的基础架构,例如数据管理、同步或长期数据传输。
虚拟化存储124-3包括一个或多个存储系统和/或一个或多个设备,该一个或多个设备在计算资源124的存储系统或设备内使用虚拟化技术。在一些实施方式中,在存储系统的上下文内,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储从物理存储的抽象(或分离),以便可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员灵活地管理终端用户的存储。文件虚拟化可以消除在文件级别存取的数据与物理存储文件的位置之间的依赖性。这可以优化存储使用、服务器整合和/或无中断文件迁移的性能。
管理程序(Hypervisor)124-4可以提供硬件虚拟化技术,其允许多个操作系统(例如,“客户操作系统”)在诸如计算资源124的主计算机上同时执行。管理程序124-4可以向客户操作系统提供虚拟操作平台,并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。
网络130包括一个或多个有线和/或无线网络。例如,网络130可以包括蜂窝网络(例如,第五代(fifth generation,5G)网络、长期演进(Long-Term Evolution,LTE)网络、第三代(third generation,3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PublicLand Mobile Network,PLMN)、局域网(Local Area Network,LAN)、广域网(Wide AreaNetwork,WAN)、城域网(Metropolitan Area Network,MAN)、电话网络(例如,公共交换电话网络(Public Switched Telephone Network,PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等,和/或这些或其它类型的网络的组合。
图1所示的设备和网络的数量和排列被作为示例来提供。实际上,与图1所示的设备和/或网络相比,可以有更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或排列不同的设备和/或网络。此外,图1所示的两个或更多个设备可以在单个设备内实现,或者图1所示的单个设备可以实现为多个分布式设备。另外或可替代地,环境100的一组设备(例如,一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。
图2是图1中一个或多个设备的示例组件的框图。
设备200可以对应于用户设备110和/或平台120。如图2所示,设备200可以包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。
总线210包括允许设备200的组件之间进行通信的组件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实施方式中,处理器220包括一个或多个能够被编程以执行功能的处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光存储器),其存储供处理器220使用的信息和/或指令。
存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如,存储组件240可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、光盘(CD)、数字通用盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非易失性计算机可读介质,以及相应的驱动器。
输入组件250包括允许设备200例如通过用户输入接收信息的组件,例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风。另外或可替代地,输入组件250可以包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速计、陀螺仪和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件,例如,显示器、扬声器和/或一个或多个发光二极管(LED)。
通信接口270包括类似收发器的组件(例如,收发器和/或单独的接收器和发送器),该组件使设备200能够例如通过有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如,通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备200可以执行本文中所描述的一个或多个过程。设备200可以响应于处理器220执行由非易失性计算机可读介质(例如存储器230和/或存储组件240)存储的软件指令来执行这些过程。计算机可读介质在本文中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储空间或分布在多个物理存储设备上的存储空间。
软件指令可以通过通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240。当被执行时,存储在存储器230和/或存储组件240中的软件指令可以使处理器220执行本文中所描述的一个或多个过程。另外或可替代地,可以使用硬件连线电路来代替软件指令或与软件指令结合以执行本文中所描述的一个或多个过程。因此,本文中所描述的实施方式不限于硬件电路和软件的任何特定组合。
图2所示的组件的数量和排列被作为示例来提供。实际上,与图2所示的组件相比,设备200可能包括更多的组件、更少的组件、不同的组件或排列不同的组件。另外或可替代地,设备200的一组组件(例如,一个或多个组件)可以执行被描述为由设备200的另一组组件执行的一个或多个功能。
现在将详细地描述用于具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置。
本公开描述了用于学习和部署仅一个支持多速率图像压缩的NIC模型实例的多速率NIC框架。描述了用于编码器和解码器两者的可堆叠嵌套模型结构,其中,编码模块或解码模块是渐进地堆叠,以实现越来越高的比特率压缩结果。
图3是根据实施例的在测试阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的测试装置300的框图。
如图3所示,测试装置300包括测试DNN编码器310、测试编码器320、测试解码器330、测试DNN解码器340、测试DNN编码器350和测试DNN解码器360。测试DNN编码器350包括可堆叠DNN编码器350A、350B、……和350N,测试DNN解码器360包括可堆叠DNN解码器360A、360B、……和360N。
给定大小为(h,w,c)的输入图像x,其中,h、w、c分别是高度、宽度和信道的数量,NIC工作流的测试阶段的目标可以描述如下。计算针对存储和传输紧凑的已压缩表示
Figure BDA0003560509930000061
然后,基于已压缩表示
Figure BDA0003560509930000062
重建图像
Figure BDA0003560509930000063
重建的图像
Figure BDA0003560509930000064
应当与初始输入图像x相似。
计算已压缩表示
Figure BDA0003560509930000065
的过程分成两部分。第一部分,DNN编码过程使用测试DNN编码器310将输入图像x编码成经DNN编码的表示y。第二部分,编码过程使用测试编码器320将经DNN编码的表示y编码(对其执行量化和熵编码)为已压缩表示
Figure BDA0003560509930000066
相应地,解码过程分成两部分。第一部分,解码过程使用测试解码器330将已压缩表示
Figure BDA0003560509930000067
解码(对其执行解码和去量化)为已恢复表示
Figure BDA0003560509930000068
第二部分,DNN解码过程使用测试DNN解码器340将已恢复表示
Figure BDA0003560509930000071
解码为重建的图像
Figure BDA0003560509930000072
在本公开中,对用于DNN编码的测试DNN编码器310或用于DNN解码的测试DNN解码器340的网络结构没有任何限制。对用于编码或解码的方法(量化方法和熵编解码方法)没有任何限制。
为了学习NIC模型,需要处理两个互相竞争的需求:更好的重建质量与更少的比特消耗。使用损失函数
Figure BDA0003560509930000073
来测量重建误差,重建误差被称为图像x与
Figure BDA0003560509930000074
之间的失真损失,诸如峰值信噪比(PSNR)和/或结构相似性指数度量(SSIM)。计算速率损失
Figure BDA0003560509930000075
以对已压缩表示
Figure BDA0003560509930000076
的比特消耗进行测量。因此,折衷超参数λ用于优化联合率失真(R-D)损失:
Figure BDA0003560509930000077
使用较大的超参数λ进行训练,得到的压缩模型的失真较小但比特消耗较多,反之亦然。对于每个预定义的超参数λ,将训练一个NIC模型实例,该实例不适用于超参数λ的其它值。因此,为了实现压缩流的多比特率,传统的方法可能需要训练和存储多个模型实例。
在本公开中,使用NIC网络的一个单一的训练好的模型实例,用可堆叠嵌套模型结构实现多速率NIC。所述NIC网络包含多个可堆叠嵌套模型结构,针对超参数λ的不同值,渐进地堆叠每个可堆叠嵌套模型结构。具体地,令λ1、……、λN表示以降序排列的N个超参数,对应于具有逐步减小的失真(逐步增加的质量)和逐步增加的速率损失(逐步减小的比特率)的已压缩表示。令
Figure BDA0003560509930000078
Figure BDA0003560509930000079
分别表示对应于超参数λi的已压缩表示和重建图像。令
Figure BDA00035605099300000710
表示针对超参数λi的测试DNN编码器310的权重系数集。对于NIC模型,
Figure BDA00035605099300000711
类似地,令
Figure BDA00035605099300000712
表示针对超参数λi的测试DNN解码器340的权重系数集。
Figure BDA00035605099300000713
Figure BDA00035605099300000714
是用于超参数λi的、堆叠在用于超参数λi-1的测试DNN编码器310之上的可堆叠DNN编码器350A、350B、……或350N的权重系数集。
Figure BDA00035605099300000715
是用于超参数λi的、堆叠在用于超参数λi-1的测试DNN解码器340之上的可堆叠DNN解码器360A、360B、……或360N的权重系数集。每个
Figure BDA00035605099300000716
是测试DNN编码器310(测试DNN解码器360)的可堆叠DNN编码器350A、350B、……或350N(可堆叠DNN解码器360A、360B、……或360N)的第j层的权重系数。而且,用于超参数λi的每个值的可堆叠DNN编码器350A、350B、……和350N以及可堆叠DNN解码器360A、360B、……和360N可以具有不同的DNN结构。在本公开中,对底层DNN编码器/解码器网络模型没有任何限制。
图3给出了该方法的测试阶段的整个工作流程。给定输入图像x,以及给定目标超参数λi,测试DNN编码器310使用权重系数集
Figure BDA0003560509930000081
来计算经DNN编码的表示y。然后,由测试编码器320在编码过程中计算出已压缩表示
Figure BDA0003560509930000082
基于已压缩表示
Figure BDA0003560509930000083
可以使用测试解码器330通过DNN解码过程来计算已恢复表示
Figure BDA0003560509930000084
使用超参数λi,测试DNN解码器340使用权重系数集
Figure BDA0003560509930000085
基于已恢复表示
Figure BDA0003560509930000086
来计算重建的图像
Figure BDA0003560509930000087
图4是根据实施例的在训练阶段用于具有可堆叠嵌套模型结构的多速率神经图像压缩的训练装置400的框图。
如图4所示,训练装置400包括权重更新模块410、训练DNN编码器420、训练DNN解码器430、添加可堆叠模块440和权重更新模块450。训练DNN编码器420包括可堆叠DNN编码器420A、420B、……和420N,训练DNN解码器430包括可堆叠DNN解码器430A、430B、……和430N。
图4给出了该方法的训练阶段的整个工作流程。目标是学习嵌套的权重
Figure BDA0003560509930000088
Figure BDA0003560509930000089
渐进式多阶段训练框架可以实现该目标。
假设有初始权重系数集
Figure BDA00035605099300000810
Figure BDA00035605099300000811
这些初始权重系数可以根据某个分布,随机地进行初始化。还可以使用某个预训练数据集对它们进行预训练。在一个实施例中,权重更新模块410通过常规的反向传播的权重更新过程,使用训练数据集Str,通过优化以超参数λN为目标的等式(1)的R-D损失,来学习模型权重集
Figure BDA00035605099300000812
Figure BDA00035605099300000813
在另一实施例中,可以跳过该权重更新过程,将
Figure BDA00035605099300000814
Figure BDA00035605099300000815
直接设置为初始值
Figure BDA00035605099300000816
Figure BDA00035605099300000817
现在假设已经训练好了具有权重系数
Figure BDA00035605099300000818
Figure BDA00035605099300000819
的当前模型实例,目标是训练针对于超参数λi的附加权重
Figure BDA00035605099300000820
Figure BDA00035605099300000821
添加可堆叠模块440在添加可堆叠模块过程中,堆叠可堆叠DNN编码器420A、420B、……和
Figure BDA00035605099300000822
以及可堆叠DNN解码器430A、430B、……和
Figure BDA00035605099300000823
其中,
Figure BDA00035605099300000824
Figure BDA00035605099300000825
被初始化为
Figure BDA00035605099300000826
Figure BDA00035605099300000827
然后,在权重更新过程中,权重更新模块450固定已经学习的权重
Figure BDA00035605099300000828
Figure BDA00035605099300000829
通过常规的反向传播,使用以超参数λi为目标的等式(1)的R-D损失,来更新新添加的权重
Figure BDA00035605099300000830
Figure BDA00035605099300000831
典型地,在该权重更新过程中将采用多个时期(epoch)迭代来优化R-D损失,例如,直到达到最大迭代次数或直到损失收敛为止。
与先前的端到端(E2E)图像压缩方法相比,图3和图4的实施例可以仅包括一个模型实例来实现具有可堆叠嵌套模型结构的多速率压缩效果,以及训练框架来学习该模型实例。相应地,这些实施例可以包括大大减少的部署存储,以实现多速率压缩,并且包括适应各种类型的NIC模型的灵活框架。此外,来自执行较高比特率压缩的嵌套网络结构的共享计算可以通过重用较低比特率压缩的计算来实现,这节省了多速率压缩中的计算。
图5是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像压缩方法500的流程图。
在一些实施方式中,图5的一个或多个处理框可由平台120来执行。在一些实施方式中,图5的一个或多个处理框可由与平台120分开或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。
如图5所示,在操作510中,方法500包括:在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集。第一神经网络的第一先前权重集保持不变。
在操作520中,方法500包括:使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示。
在操作530中,方法500包括:对所获得的已编码表示进行编码,以确定已压缩表示。
虽然图5示出了方法500的示例框,但是在一些实施方式中,方法500可以包括图5中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地,方法500的框中的两个或更多个框可以并行地执行。
图6是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置600的框图。
如图6所示,装置600包括第一堆叠代码610、第一编码代码620和第二编码代码630。
第一堆叠代码610被配置为使至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变。
第一编码代码620被配置为使至少一个处理器使用堆叠有第一多个可堆叠神经网络的第一多个权重集的第一神经网络的第一先前权重集,对输入图像进行编码,以获得已编码表示。
第二编码代码630被配置为使至少一个处理器对所获得的编码表示进行编码,以确定已压缩表示。
图7是根据实施例的具有可堆叠嵌套模型结构的多速率神经图像解压缩方法700的流程图。
在一些实施方式中,图7的一个或多个处理框可由平台120来执行。在一些实施方式中,图7的一个或多个处理框可由与平台120分开或包括平台120的另一设备或设备群组(诸如用户设备110)来执行。
如图7所示,在操作710中,方法700包括:在对应于先前超参数的第二神经网络的第二先前权重集上,迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集。第二神经网络的第二先前权重集保持不变。
在操作720中,方法700包括:对所确定的已压缩表示进行解码,以确定已恢复表示。
在操作730中,方法700包括:使用堆叠有第二多个可堆叠神经网络的第二多个权重集的第二神经网络的第二先前权重集,对所确定的已恢复表示进行解码,以重建输出图像。
可以通过以下步骤对第一神经网络和第二神经网络进行训练:更新第一神经网络的第一初始权重集和第二神经网络的第二初始权重集,以优化基于输入图像、输出图像和已压缩表示确定的率失真损失;在第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变;在第二神经网络的第二先前权重集上,迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,该第二神经网络的第二先前权重集保持不变;以及更新堆叠的第一多个可堆叠神经网络的第一多个权重集和堆叠的第二多个可堆叠神经网络的第二多个权重集,以优化率失真损失。可以以相同的方式迭代地堆叠附加的神经网络。第一神经网络的第一先前权重集在整个迭代堆叠过程中保持不变。
第一多个可堆叠神经网络的第一多个权重集和第二多个可堆叠神经网络的第二多个权重集中的一个或多个可以不对应于当前超参数。
虽然图7示出了方法700的示例框,但是在一些实施方式中,方法700可以包括图7中描绘的那些框之外的框、比其更少的框、与其不同的框或与其布置不同的框。附加地或可选地,方法700的框中的两个或更多个框可以并行地执行。
图8是根据实施例的用于具有可堆叠嵌套模型结构的多速率神经图像解压缩装置800的框图。
如图8所示,装置800包括第二堆叠代码810、第一解码代码820和第二解码代码830。
第二堆叠代码810被配置为使至少一个处理器在对应于先前超参数的第二神经网络的第二先前权重集上,迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,第二神经网络的第二先前权重集保持不变。
第一解码代码820被配置为使至少一个处理器对所确定的已压缩表示进行解码,以确定已恢复表示。
第二解码代码830被配置为使至少一个处理器使用堆叠有第二多个可堆叠神经网络的第二多个权重集的第二神经网络的第二先前权重集,对所确定的已恢复表示进行解码,以重建输出图像。
可以通过以下步骤对第一神经网络和第二神经网络进行训练:更新第一神经网络的第一初始权重集和第二神经网络的第二初始权重集,以优化基于输入图像、输出图像和已压缩表示确定的率失真损失;在第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,第一神经网络的第一先前权重集保持不变;在第二神经网络的第二先前权重集上,迭代地堆叠对应于当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,该第二神经网络的第二先前权重集保持不变;以及更新堆叠的第一多个可堆叠神经网络的第一多个权重集和堆叠的第二多个可堆叠神经网络的第二多个权重集,以优化率失真损失。
第一多个可堆叠神经网络的第一多个权重集和第二多个可堆叠神经网络的第二多个权重集中的一个或多个可以不对应于当前超参数。
这些方法可以单独使用或以任何顺序组合使用。此外,方法(或实施例)、编码器和解码器中的每一者可由处理电路(例如,一个或多个处理器或一个或多个集成电路)来实现。在一个示例中,一个或多个处理器执行存储在非易失性计算机可读介质中的程序。
上述公开内容提供了说明和描述,但并不旨在穷举或将实现限制为所公开的精确形式。根据上述公开,修改和变化是可能的,或者可以从实现的实践中获得修改和变化。
如本文所使用的,术语部件旨在被广泛地解释为硬件、固件或硬件和软件的组合。
显然,本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现的限制。因此,本文在没有参考特定软件代码的情况下描述了系统和/或方法的操作和行为—应当理解,软件和硬件可以被设计成基于本文的描述来实现系统和/或方法。
即使在权利要求中列举和/或在说明书中公开了特征的组合,但这些组合并不旨在限制可能实现的公开。实际上,这些特征中的许多可以以未在权利要求中具体列举和/或在说明书中公开的方式组合起来。虽然下面列出的每个从属权利要求可以直接依赖于仅一个权利要求,但是可能的实现的公开包括与权利要求集中的所有其他权利要求结合的每个从属权利要求。
本文使用的元素、动作或指令不能被解释为关键的或必要的,除非明确地这样描述。而且,如本文所使用的,冠词“一”和“一个”旨在包括一个或多个项目,并且可与“一个或多个”互换使用。此外,如本文所使用的,术语“集合”旨在包括一个或多个项目(例如,相关项目、不相关项目、相关和不相关项目的组合等),并且可与“一个或多个”互换使用。在仅意指一个项目的情况下,使用术语“一个”或类似的语言。而且,如在本文所使用的,术语“有(has)”、“有(have)”、“具有(having)”等旨在是开放式术语。此外,除非另有明确说明,否则短语“基于”旨在意为“至少部分地基于”。

Claims (20)

1.一种具有可堆叠嵌套模型结构的多速率神经图像压缩方法,其特征在于,所述方法由至少一个处理器执行,所述方法包括:
在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变;
使用堆叠有所述第一多个可堆叠神经网络的所述第一多个权重集的所述第一神经网络的所述第一先前权重集,对输入图像进行编码,以获得已编码表示;以及
对所获得的已编码表示进行编码,以确定已压缩表示。
2.根据权利要求1所述的方法,其特征在于,还包括:
在对应于所述先前超参数的第二神经网络的第二先前权重集上,迭代地堆叠对应于所述当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变;
对所确定的已压缩表示进行解码,以确定已恢复表示;以及
使用堆叠有所述第二多个可堆叠神经网络的所述第二多个权重集的所述第二神经网络的所述第二先前权重集,对所确定的已恢复表示进行解码,以重建输出图像。
3.根据权利要求2所述的方法,其特征在于,所述第一神经网络和所述第二神经网络是通过以下步骤进行训练:更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集,以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。
4.根据权利要求3所述的方法,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第一神经网络的所述第一先前权重集上,迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变。
5.根据权利要求4所述的方法,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第二神经网络的所述第二先前权重集上,迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变。
6.根据权利要求5所述的方法,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集,以优化所述率失真损失。
7.根据权利要求2所述的方法,其特征在于,所述第一多个可堆叠神经网络的所述第一多个权重集和所述第二多个可堆叠神经网络的所述第二多个权重集中的一个或多个,不对应于所述当前超参数。
8.一种用于具有可堆叠嵌套模型结构的多速率神经图像压缩装置,其特征在于,所述装置包括:
至少一个存储器,被配置为存储程序代码;以及
至少一个处理器,被配置为读取所述程序代码并按照所述程序代码的指示进行操作,所述程序代码包括:
第一堆叠代码,被配置为使所述至少一个处理器在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变;
第一编码代码,被配置为使所述至少一个处理器使用堆叠有所述第一多个可堆叠神经网络的所述第一多个权重集的所述第一神经网络的所述第一先前权重集,对输入图像进行编码,以获得已编码表示;以及
第二编码代码,被配置为使所述至少一个处理器对所获得的已编码表示进行编码,以确定已压缩表示。
9.根据权利要求8所述的装置,其特征在于,所述程序代码进一步包括:
第二堆叠代码,被配置为使所述至少一个处理器在对应于所述先前超参数的第二神经网络的第二先前权重集上,迭代地堆叠对应于所述当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变;
第一解码代码,被配置为使所述至少一个处理器对所确定的已压缩表示进行解码,以确定已恢复表示;以及
第二解码代码,被配置为使所述至少一个处理器使用堆叠有所述第二多个可堆叠神经网络的所述第二多个权重集的所述第二神经网络的所述第二先前权重集,对所确定的已恢复表示进行解码,以重建输出图像。
10.根据权利要求9所述的装置,其特征在于,所述第一神经网络和所述第二神经网络是通过以下步骤进行训练:更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集,以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。
11.根据权利要求10所述的装置,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第一神经网络的所述第一先前权重集上,迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变。
12.根据权利要求11所述的装置,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第二神经网络的所述第二先前权重集上,迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变。
13.根据权利要求12所述的装置,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集,以优化所述率失真损失。
14.根据权利要求9所述的装置,其特征在于,所述第一多个可堆叠神经网络的所述第一多个权重集和所述第二多个可堆叠神经网络的所述第二多个权重集中的一个或多个,不对应于所述当前超参数。
15.一种存储指令的非易失性计算机可读介质,其特征在于,所述指令在由至少一个处理器执行以用于具有可堆叠嵌套模型结构的多速率神经图像压缩时,使所述至少一个处理器:
在对应于先前超参数的第一神经网络的第一先前权重集上,迭代地堆叠对应于当前超参数的第一多个可堆叠神经网络的第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变;
使用堆叠有所述第一多个可堆叠神经网络的所述第一多个权重集的所述第一神经网络的所述第一先前权重集,对输入图像进行编码,以获得已编码表示;以及
对所获得的已编码表示进行编码,以确定已压缩表示。
16.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述指令在由所述至少一个处理器执行时还使所述至少一个处理器:
在对应于所述先前超参数的第二神经网络的第二先前权重集上,迭代地堆叠对应于所述当前超参数的第二多个可堆叠神经网络的第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变;
对所确定的已压缩表示进行解码,以确定已恢复表示;以及
使用堆叠有所述第二多个可堆叠神经网络的所述第二多个权重集的所述第二神经网络的所述第二先前权重集,对所确定的已恢复表示进行解码,以重建输出图像。
17.根据权利要求16所述的非易失性计算机可读介质,其特征在于,所述第一神经网络和所述第二神经网络是通过以下步骤进行训练:更新所述第一神经网络的第一初始权重集和所述第二神经网络的第二初始权重集,以优化基于所述输入图像、所述输出图像和所述已压缩表示确定的率失真损失。
18.根据权利要求17所述的非易失性计算机可读介质,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第一神经网络的所述第一先前权重集上,迭代地堆叠对应于所述当前超参数的所述第一多个可堆叠神经网络的所述第一多个权重集,其中,所述第一神经网络的所述第一先前权重集保持不变。
19.根据权利要求18所述的非易失性计算机可读介质,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:在所述第二神经网络的所述第二先前权重集上,迭代地堆叠对应于所述当前超参数的所述第二多个可堆叠神经网络的所述第二多个权重集,其中,所述第二神经网络的所述第二先前权重集保持不变。
20.根据权利要求19所述的非易失性计算机可读介质,其特征在于,所述第一神经网络和所述第二神经网络还通过以下步骤进行训练:更新堆叠的所述第一多个可堆叠神经网络的第一多个权重集和堆叠的所述第二多个可堆叠神经网络的第二多个权重集,以优化所述率失真损失。
CN202180005484.7A 2020-06-29 2021-06-22 多速率神经图像压缩方法、装置以及电子设备 Active CN114450938B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063045342P 2020-06-29 2020-06-29
US63/045,342 2020-06-29
US17/348,894 2021-06-16
US17/348,894 US11488329B2 (en) 2020-06-29 2021-06-16 Method and apparatus for multi-rate neural image compression with stackable nested model structures
PCT/US2021/038476 WO2022005817A1 (en) 2020-06-29 2021-06-22 Method and apparatus for multi-rate neural image compression with stackable nested model structures

Publications (2)

Publication Number Publication Date
CN114450938A true CN114450938A (zh) 2022-05-06
CN114450938B CN114450938B (zh) 2023-03-24

Family

ID=79031297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180005484.7A Active CN114450938B (zh) 2020-06-29 2021-06-22 多速率神经图像压缩方法、装置以及电子设备

Country Status (6)

Country Link
US (1) US11488329B2 (zh)
EP (1) EP4029240A4 (zh)
JP (1) JP7418570B2 (zh)
KR (1) KR102627748B1 (zh)
CN (1) CN114450938B (zh)
WO (1) WO2022005817A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220071713A (ko) * 2020-11-24 2022-05-31 삼성전자주식회사 뉴럴 네트워크 가중치 압축 방법 및 장치
WO2023200752A1 (en) * 2022-04-15 2023-10-19 Nokia Technologies Oy Model level update skipping in compressed incremental learning

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297542A1 (en) * 2012-05-07 2013-11-07 Filip Piekniewski Sensory input processing apparatus in a spiking neural network
CN108805802A (zh) * 2018-06-05 2018-11-13 东北大学 一种基于约束条件的堆叠步进自编码器的正面人脸重建系统及方法
WO2019115865A1 (en) * 2017-12-13 2019-06-20 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN109978142A (zh) * 2019-03-29 2019-07-05 腾讯科技(深圳)有限公司 神经网络模型的压缩方法和装置
US20190236411A1 (en) * 2016-09-14 2019-08-01 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
US20200090313A1 (en) * 2019-11-25 2020-03-19 Intel Corportation Unsupervised training of neural network for high dynamic range image compression

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10769532B2 (en) * 2017-04-05 2020-09-08 Accenture Global Solutions Limited Network rating prediction engine
US10924755B2 (en) 2017-10-19 2021-02-16 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
US10886943B2 (en) * 2019-03-18 2021-01-05 Samsung Electronics Co., Ltd Method and apparatus for variable rate compression with a conditional autoencoder
EP3772709A1 (en) * 2019-08-06 2021-02-10 Robert Bosch GmbH Deep neural network with equilibrium solver

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130297542A1 (en) * 2012-05-07 2013-11-07 Filip Piekniewski Sensory input processing apparatus in a spiking neural network
US20190236411A1 (en) * 2016-09-14 2019-08-01 Konica Minolta Laboratory U.S.A., Inc. Method and system for multi-scale cell image segmentation using multiple parallel convolutional neural networks
WO2019115865A1 (en) * 2017-12-13 2019-06-20 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CN108805802A (zh) * 2018-06-05 2018-11-13 东北大学 一种基于约束条件的堆叠步进自编码器的正面人脸重建系统及方法
CN109919011A (zh) * 2019-01-28 2019-06-21 浙江工业大学 一种基于多时长信息的动作视频识别方法
CN109978142A (zh) * 2019-03-29 2019-07-05 腾讯科技(深圳)有限公司 神经网络模型的压缩方法和装置
US20200090313A1 (en) * 2019-11-25 2020-03-19 Intel Corportation Unsupervised training of neural network for high dynamic range image compression

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHANNES BALLE等: "Variational Image compression With a Scale Hyperprior", 《CORNELL UNIVERSITY LIBRARY,ELECTRONICAL ENGINEERING AND SYSTEMS SCIENCE,IMAGE AND VIDEO PROCESSING》 *
SCOTT WISDOM等: "Deep recurrent NMF for speech separation by unfolding iterative thresholding", 《2017 IEEE WORKSHOP ON APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS (WASPAA)》 *
杨军等: "基于深度体素卷积神经网络的三维模型识别分类", 《光学学报》 *

Also Published As

Publication number Publication date
CN114450938B (zh) 2023-03-24
US20210407146A1 (en) 2021-12-30
EP4029240A1 (en) 2022-07-20
KR102627748B1 (ko) 2024-01-19
KR20220066371A (ko) 2022-05-24
JP7418570B2 (ja) 2024-01-19
WO2022005817A1 (en) 2022-01-06
JP2023501638A (ja) 2023-01-18
EP4029240A4 (en) 2022-12-14
US11488329B2 (en) 2022-11-01

Similar Documents

Publication Publication Date Title
JP7374340B2 (ja) ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム
US11582470B2 (en) Method and apparatus for multi-scale neural image compression with intra-prediction residuals
CN114450938B (zh) 多速率神经图像压缩方法、装置以及电子设备
US20210406691A1 (en) Method and apparatus for multi-rate neural image compression with micro-structured masks
JP7420942B2 (ja) 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置
US11652994B2 (en) Neural image compression with adaptive intra-prediction
JP2023526180A (ja) 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化
CN114930349A (zh) 用于端到端图像压缩的特征替换的方法和装置
JP7425870B2 (ja) 積み重ね可能な入れ子モデル構造及びマイクロ構造化された重み統一によるマルチレートニューラル画像圧縮のための方法及び装置
JP7411117B2 (ja) メタ学習による柔軟なハイパー事前モデルを用いる適応画像圧縮のための方法、装置及びコンピュータプログラム
US20230186081A1 (en) System, method, and computer program for iterative content adaptive online training in neural image compression
US20230186525A1 (en) System, method, and computer program for content adaptive online training for multiple blocks in neural image compression
JP7342265B2 (ja) μ構造化ネストマスク及び重み単一化によるマルチレートニューラル画像圧縮モデルを圧縮及び加速するための方法及び装置
CN116324805A (zh) 神经图像压缩中具有替代项的非线性量化
CN116249986A (zh) 神经图像压缩中具有替代项的依赖标量量化
JP2023525673A (ja) メタ学習によるスムーズな品質制御を用いた適応ニューラル画像圧縮のための方法、装置、非一時的コンピュータ可読媒体、およびコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40072095

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant