CN116324805A - 神经图像压缩中具有替代项的非线性量化 - Google Patents

神经图像压缩中具有替代项的非线性量化 Download PDF

Info

Publication number
CN116324805A
CN116324805A CN202280006539.0A CN202280006539A CN116324805A CN 116324805 A CN116324805 A CN 116324805A CN 202280006539 A CN202280006539 A CN 202280006539A CN 116324805 A CN116324805 A CN 116324805A
Authority
CN
China
Prior art keywords
image
representation
processor
quantized
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280006539.0A
Other languages
English (en)
Inventor
林晟
蒋薇
刘杉
王炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN116324805A publication Critical patent/CN116324805A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

用于使用具有替代项的非线性量化进行端到端神经图像压缩的方法、装置和非暂时性存储介质,包括:接收一个或多个输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成与输入图像相关联的替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。

Description

神经图像压缩中具有替代项的非线性量化
相关申请的交叉引用
本申请基于并要求于2021年6月18日提交的第63/212,452号美国临时专利申请的优先权和于2022年5月26日提交的第17/825,594号美国申请的优先权,这两个美国申请的公开内容通过引用整体并入本文中。
背景技术
近来,ISO/IEC MPEG(JTC 1/SC 29/WG 11)一直在积极尝试对未来的视频编解码技术进行标准化,特别是可利用机器学习或人工智能(ML/AI)的标准化。ISO/IEC JPEG已建立专注于基于AI的端到端神经图像压缩的JPEG-AI小组。中国AVS标准还成立AVS-AI特别小组来致力于神经图像和视频压缩技术的研究。此外,还对神经图像压缩(NIC)方面的专门研究项目提供资金。
在基于神经网络的视频或图像编解码框架中,可使用多个模型,且每个模型可能需要大数据集并实现多个机器学习模型。传统的混合视频编解码器框架可专注于单独地训练和优化多个模型中的每一个模型,这可增加率失真损失或增加视频或图像编解码框架的计算成本,导致图像或视频框架/过程的总体性能降低。
因此,需要优化编解码框架并提高总体性能的方法。
发明内容
根据实施例,可提供一种用于使用具有替代项(substitution)的非线性量化进行神经图像压缩的方法。该方法可由一个或多个处理器执行。该方法可包括:接收待压缩的输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
根据实施例,可提供一种用于使用具有替代项的非线性量化进行神经图像压缩的装置。该装置可包括:至少一个存储器,配置成存储程序代码;以及至少一个处理器,配置成读取程序代码并按照程序代码的指令进行操作。程序代码可包括:第一接收代码,配置成使得至少一个处理器接收输入图像;第一生成代码,配置成使得至少一个处理器基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩代码,配置成使得至少一个处理器压缩替代图像;量化代码,配置成使得至少一个处理器通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及编码代码,配置成使得至少一个处理器使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
根据实施例,可提供一种非暂时性计算机可读介质,该非暂时性计算机可读介质存储有指令。当指令由用于使用具有替代项的非线性量化进行神经图像压缩的至少一个处理器运行时,指令可使得至少一个处理器:接收输入图像;基于输入图像,使用基于神经网络的替代特征生成器生成替代图像;压缩替代图像;通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的输入图像的量化表示;以及使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成量化表示的压缩表示。
附图说明
图1是根据实施例的可实现本文描述的方法、装置和系统的环境的图。
图2是图1的一个或多个设备的示例组件的框图。
图3是根据实施例的示例性非线性量化过程的图。
图4是根据实施例的使用具有替代项的非线性量化的端到端神经图像压缩框架的框图。
图5A和图5B示出了根据实施例的使用具有替代项的非线性量化的用于端到端神经图像的方法的流程图。
具体实施方式
本公开的实施例涉及用于端到端(E2E)神经图像压缩(NIC)的方法、装置和系统,其可包括:接收输入图像;通过执行变换和量化来确定输入图像的替代表示;以及压缩该替代表示。E2E NIC框架可通过优化E2E NIC框架的多个质量度量(quality metrics)(例如,率失真性能)来调整生成压缩表示的、基于深度神经网络的模型/层。
如上所述,传统的混合视频编解码器框架可专注于单独地训练和优化图像或视频编解码框架中所涉及的机器学习模型,导致压缩性能的总体损失。另一方面,E2E NIC框架能够作为单个模块对从输入到输出(使用位于输入和输出之间的层)的图像或视频编解码进行联合优化,以提高最终目标(例如,最小化率失真损失)。因此,E2E NIC框架可优化整个编解码系统以实现更好的性能,且在某些情况下,可减少框架的总体计算负载。
在E2E NIC框架中,量化过程和压缩过程可能特别重要。虽然量化可能是图像和视频压缩中的核心过程,但是量化还可能是压缩质量损失的来源。因此,提高量化效率可实现图像或视频编解码框架的总体性能的提高。根据本公开的实施例,利用输入图像的卓越改变,卓越的替代图像或替代图像是可被更好地量化并因此被更好地压缩的图像。因此,本公开的实施例涉及一种新颖的E2E NIC框架,其可使用基于神经网络的模型来利用更好的可压缩替代图像生成替代图像,然后量化替代图像以获得更好的压缩性能。利用包括非线性量化(非线性量化使用更好地适合于压缩的替代图像)的该E2E NIC框架,提高了总体编解码性能,并减少了在原始输入图像的量化期间引入的压缩损失。
根据实施例,E2E NIC框架可以是基于深度神经网络的图像或视频编解码方法。量化过程可利用非线性量化器,且量化表示可被熵编码以生成压缩表示。在一些实施例中,E2E NIC框架可包括任何合适的基于神经网络的方法、模型或层。本文公开的实施例不旨在是限制性或排他性的。E2E NIC框架可使用本文公开的方法来预训练和微调。根据本公开的一些实施例,E2E NIC框架可被联合训练并用于推断(inference)。
根据一些实施例,基于神经网络的图像压缩的过程可以如下。给定输入图像或视频序列x,基于神经网络的编码器(例如,基于深度神经网络(DNN)的编码器)可基于输入x计算压缩表示f,当与输入图像x相比时,压缩表示f更易于存储和传输。然后,压缩表示f可量化成离散值量化表示
Figure BDA0004136102260000041
然后,该离散值量化表示/>
Figure BDA0004136102260000042
可(使用例如算术编码或霍夫曼编码)无损地或有损地熵编码成比特流,以易于存储和传输。在解码器侧,比特流可经过无损或有损熵解码,以恢复离散值量化表示/>
Figure BDA0004136102260000043
然后,该离散值量化表示/>
Figure BDA0004136102260000044
可输入到基于神经网络的解码器(例如,基于DNN的解码器)中,以恢复和/或重建输入图像或视频序列/>
Figure BDA0004136102260000045
根据输入图像的质量和特性、一条或多条辅助信息以及一个或多个目标质量度量,输入图像的压缩表示可具有超过特定阈值的损失。此外,在上述基于神经网络的图像压缩过程中,量化是核心步骤,也是压缩质量损失的一个主要来源。提高量化效率可以在所有图像和视频压缩任务中带来较大的性能增益。因此,根据本公开的实施例,提供一种用于使用输入图像的替代项进行非线性量化的方法,该方法利用卓越的替代图像的更高效量化。该方法的实施例增加了所有图像和视频压缩任务中的性能增益。
在相关技术中,在编解码或推断阶段期间,可使用均匀或标量量化器作为量化器。在训练阶段期间,均匀或标量量化器可由噪声禁止量化器代替。在E2E NIC模型的训练期间,可优化率失真损失,以使用折衷超参数λ实现已重建的输入图像或视频序列的失真损失
Figure BDA0004136102260000046
与压缩表示/>
Figure BDA0004136102260000047
的比特消耗R之间的折衷。
Figure BDA0004136102260000048
根据本公开的实施例,量化可用于支持熵编码器压缩由基于神经网络的编码器学习的特征。由于训练E2E NIC框架包括在同一模型内训练所有图像处理任务,因此图像或视频压缩所需的训练数据可能巨大,且数据可由大范围的值表示。虽然均匀量化或标量量化由于具有均匀的量化间隔而可能不是太过计算密集,但是由于模型数据值与其量化表示之间的映射可能不一致,导致均匀量化或标量量化引入了较高的错误率。对于高电平信号,信噪比可能较大,但是对于低电平信号,信噪比可能较小。作为示例,一些量化表示可映射到过高数量或过低数量的模型数据值。
根据本公开的实施例,可使用非线性量化来实现高效的熵编码和压缩,即使在大范围的模型数据值的情况下。作为示例,对数量化或指数量化可用于非线性量化。根据本公开的实施例,对数量化可以对压缩图像的特征的对数值进行舍入,其中E2E NIC框架可使用量化值和/或量化表示作为输入来进行熵编码和生成编码比特流。
根据本公开的实施例,对于待压缩的视频序列中的每个输入图像或帧,E2E NIC框架可使用在线训练方法来找到输入图像的最优替代图像,然后压缩和量化该替代图像(而不是压缩和量化输入图像)。通过量化最优替代图像或至少卓越的替代图像(而不是量化输入图像),量化表示实现了更好的压缩和总体编解码性能。根据实施例,将生成替代图像,之后对替代图像进行非线性量化(例如,对数量化)相结合的示例性方法可用于提高任何合适的基于神经网络的E2E NIC框架的压缩性能。
根据本公开的实施例,基于神经网络的图像压缩框架可包括预训练DNN模型,其中,与预训练DNN模型相关联的一个或多个模型权重可以是固定的。在一些实施例中,可训练或微调DNN模型的一个或多个超参数。
根据本公开的实施例,在E2E NIC框架和E2E NIC框架中的任何模型中,可存在关键超参数:步长和步数。步长可指示在线训练的“学习速率”。在线学习可包括本文描述的一个或多个模型的实时学习。具有不同类型的内容的图像可对应于不同的步长,以实现最佳优化结果。作为示例,具有特定分辨率的图像、包括特定元数据(例如,标签、特征等)的图像、或特定编解码属性(例如,预测模式、CU大小、块大小等)可对应于不同的步长,以实现最佳优化结果。步数可指示操作的更新的数量。超参数可与目标损失函数
Figure BDA0004136102260000051
一起用于在线学习过程。例如,可以在学习过程中执行的梯度下降算法或反向传播计算中使用步长。迭代次数可用作最大迭代次数的阈值,以控制何时可以终止学习过程。
作为示例,如果存在替代图像x′,使得该替代图像可映射到压缩表示
Figure BDA0004136102260000061
且基于距离测量或损失函数,压缩表示/>
Figure BDA0004136102260000062
可更接近输入图像x,则与使用原始输入图像x可实现的压缩相比,使用替代图像x′可实现更好的压缩。根据一些实施例,可以在输入图像和重建图像之间的率失真损失与压缩表示的比特消耗率之间的折衷的全局最小值处实现最佳压缩表示。作为示例,可以在等式1的全局最小值处实现最佳压缩性能。
在相关技术中,量化可包括仅将舍入函数应用于输入图像的编码特征。然而,根据本公开的实施例,量化可包括非线性量化,例如对数量化。此外,可以对生成的替代图像的编码特征执行量化(而不是如相关技术中那样,对输入图像执行量化)。根据本公开的实施例,可以在训练期间的多次迭代中观察到总体损失(例如,均方误差(MSE)、二进制交叉熵(BCE)、分类交叉熵(CC)、对数损失、指数损失、铰链损失等)。如果损失一致、平稳,或者在多次迭代中超过阈值,则可终止训练以节省时间和资源。根据一些实施例,对数量化可用于微调预训练模型,以获得更好的压缩性能。
根据一些实施例,学习速率或步长可通过损失函数的输出来改变。作为示例,如果损失逐渐变化,则步长可急剧增加。反之亦然,如果损失急剧变化,则可逐渐改变步长。
本公开的实施例涉及端到端神经图像压缩模型,该模型通过从整个系统层面优化图像压缩来提高压缩性能。本公开的实施例能够使用基于神经网络的图像替代方法和非线性量化来实现更好的图像压缩。本公开提供一种新颖的机制、方法和装置,其将基于神经网络的替代图像生成方法/模型与非线性量化相结合,以实现有效的端到端神经图像压缩和提高的编解码性能。根据一些实施例,基于端到端神经网络的替代和/或非线性量化模型可被预训练然后微调,或者可被训练且同时用于推断。神经网络的这种微调或联合训练和推断提高了处理效率并减少了开销。
图1是根据实施例的可实现本文描述的方法、装置和系统的环境100的图。
如图1所示,环境100可包括用户设备110、平台120和网络130。环境100的设备可经由有线连接、无线连接、或者有线连接和无线连接的组合来互连。
用户设备110包括能够接收、生成、存储、处理、和/或提供与平台120相关联的信息的一个或多个设备。例如,用户设备110可包括计算设备(例如台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如智能电话、无线电电话等)、可穿戴设备(例如,一副智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备110可从平台120接收信息和/或向平台120发送信息。
平台120包括如本文其它位置所描述的一个或多个设备。在一些实现方式中,平台120可包括云服务器或一组云服务器。在一些实现方式中,平台120可设计成模块化平台,使得软件组件可被调入或调出。因此,平台120可针对不同用途而容易地和/或快速地重新配置。
在一些实现方式中,如图所示,平台120可以被托管(hosted)在云计算环境122中。应注意,虽然本文描述的实现方式将平台120描述为被托管在云计算环境122中,但是在一些实现方式中,平台120可以不基于云(即,可以在云计算环境之外实现)或者可部分地基于云。
云计算环境122包括托管平台120的环境。云计算环境122可提供不需要终端用户(例如,用户设备110)知道托管平台120的系统和/或设备的物理位置和配置的计算、软件、数据访问、存储等服务。如图所示,云计算环境122可包括一组计算资源124(统称为“计算资源124”,单独称为“计算资源124”)。
计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实现方式中,计算资源124可以托管平台120。云资源可包括在计算资源124中运行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传输设备等。在一些实现方式中,计算资源124可经由有线连接、无线连接、或者有线连接和无线连接的组合与其它计算资源124进行通信。
如图1进一步所示,计算资源124包括一组云资源,例如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储器(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。
应用程序124-1包括可提供给用户设备110和/或平台120或者由用户设备110和/或平台120访问的一个或多个软件应用程序。应用程序124-1可消除在用户设备110上安装和运行软件应用程序的需要。例如,应用程序124-1可包括与平台120相关联的软件和/或能够经由云计算环境122提供的任何其它软件。在一些实现方式中,一个应用程序124-1可经由虚拟机124-2向一个或多个其它应用程序124-1发送信息或者从一个或多个其它应用程序124-1接收信息。
虚拟机124-2包括像物理机那样运行程序的机器(例如计算机)的软件实现。根据虚拟机124-2对任何实机的对应程度和用途,虚拟机124-2可以是系统虚拟机或过程虚拟机。系统虚拟机可提供支持完整操作系统(“OS”)的运行的完整系统平台。过程虚拟机可运行单个程序,且可支持单个过程。在一些实现方式中,虚拟机124-2可代表用户(例如用户设备110)来运行,且可管理云计算环境122的基础设施,例如数据管理、同步或长时间数据传输。
虚拟化存储器124-3包括在计算资源124的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现方式中,在存储系统的上下文中,虚拟化的类型可包括块虚拟化和文件虚拟化。块虚拟化可指的是逻辑存储与物理存储的抽象化(或分离),使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可允许存储系统的管理员在管理员如何管理终端用户的存储方面具有灵活性。文件虚拟化可消除以文件级访问的数据和物理地存储文件的位置之间的依赖性。这可实现存储器使用、服务器整合、和/或无中断文件迁移性能的优化。
管理程序124-4可提供硬件虚拟化技术,硬件虚拟化技术允许多个操作系统(例如“客户操作系统”)同时在主控计算机例如计算资源124上运行。管理程序124-4可以给客户操作系统呈现虚拟操作平台,且可管理客户操作系统的运行。各种操作系统的多个实例可共享虚拟化硬件资源。
网络130包括一个或多个有线网络和/或无线网络。例如,网络130可包括蜂窝网络(例如第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网(例如公共交换电话网(PSTN))、专用网络、自组织网络、内部网、因特网、基于光纤的网络等,和/或这些网络或其它类型网络的组合。
图1所示的设备和网络的数量和布置作为示例提供。在实践中,可存在额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或与图1所示的设备和/或网络不同地布置的设备和/或网络。此外,图1所示的两个或更多个设备可以在单个设备内实现,或者图1所示的单个设备可实现为多个分布式设备。另外或者替代地,环境100的一组设备(例如,一个或多个设备)可执行被描述成由环境100的另一组设备执行的一个或多个功能。
图2是图1的一个或多个设备的示例组件的框图。
设备200可对应于用户设备110和/或平台120。如图2所示,设备200可包括总线210、处理器220、存储器230、存储组件240、输入组件250、输出组件260和通信接口270。
总线210包括允许设备200的组件之间通信的组件。处理器220以硬件、固件、或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、或另一类型的处理组件。在一些实现方式中,处理器220包括能够被编程以执行功能的一个或多个处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)、和/或存储供处理器220使用的信息和/或指令的另一类型的动态或静态存储设备(例如,闪存、磁性存储器和/或光学存储器)。
存储组件240存储与设备200的操作和使用相关的信息和/或软件。例如,存储组件240可包括硬盘(例如,磁盘、光盘、磁-光盘、和/或固态盘)、紧凑盘(compact disc,CD)、数字多功能盘(DVD)、软盘、盒式磁盘、磁带、和/或另一类型的非暂时性计算机可读介质、以及相应的驱动器。
输入组件250包括允许设备200例如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、和/或麦克风)接收信息的组件。另外或者替代地,输入组件250可包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速度计、陀螺仪、和/或致动器)。输出组件260包括提供来自设备200的输出信息的组件(例如,显示器、扬声器、和/或一个或多个发光二极管(LED))。
通信接口270包括类似于收发器的组件(例如收发器、和/或单独的接收器和发射器),该组件使得设备200能够例如经由有线连接、无线连接、或者有线连接和无线连接的组合与其它设备通信。通信接口270可允许设备200接收来自另一设备的信息和/或向另一设备提供信息。例如,通信接口270可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备200可执行本文描述的一个或多个过程。设备200可响应于处理器220运行由诸如存储器230和/或存储组件240的非暂时性计算机可读介质存储的软件指令来执行这些过程。计算机可读介质在本文中定义为非暂时性存储器设备。存储器设备包括单个物理存储设备内的存储器空间或散布在多个物理存储设备上的存储器空间。
软件指令可经由通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储组件240中。当运行时,存储在存储器230和/或存储组件240中的软件指令可使得处理器220执行本文描述的一个或多个过程。另外或者替代地,可使用硬连线电路来代替软件指令或者与软件指令组合,以执行本文描述的一个或多个过程。因此,本文描述的实现方式不限于硬件电路和软件的任何特定组合。
图2所示的组件的数量和布置作为示例提供。在实践中,设备200可包括额外的组件、更少的组件、不同的组件、或与图2所示的组件不同地布置的组件。另外或者替代地,设备200的一组组件(例如,一个或多个组件)可执行被描述成由设备200的另一组组件执行的一个或多个功能。
图3是根据实施例的示例性非线性对数量化过程300的图。如图4所示,非线性对数量化过程300可包括操作302至308,以生成所生成的替代图像的量化表示。
在操作302处,非线性对数量化过程300可接收与替代图像相关联的一个或多个压缩和/或编码特征。作为示例,可接收特征fi的值,其中fi的值可以是特征本身的数字、浮点、十进制、二进制或十六进制表示。在操作304处,可确定与替代图像相关联的相应的一个或多个压缩和/或编码特征的对数值。对数可以是任何合适的基数。在操作306处,可以对与替代图像相关联的相应的一个或多个压缩和/或编码特征的对数值执行舍入,以将对数值转换成整数。然后,在操作308处,可生成基于一个或多个相应的对数值的整数舍入的量化表示。
图4是根据实施例的使用具有替代项的非线性量化的端到端神经图像压缩(E2ENIC)框架的示例性框图400的图示。
如在图4中看到的,框图400可包括编码器402、非线性量化器404、熵编码器406、熵解码器408、解码器410、替代特征优化器403、超编码器452、第二非线性量化器454、第二熵编码器456、第二熵解码器458、超解码器460以及上下文模型420。
根据本公开的实施例,E2E NIC框架可如下利用框图400。给定输入图像或视频序列x,替代特征优化器403可基于输入x生成替代图像x′,且基于神经网络的编码器402可生成压缩表示
Figure BDA0004136102260000111
当与输入图像x相比时,压缩表示/>
Figure BDA0004136102260000112
更易于存储和传输。可使用非线性量化器404将压缩表示/>
Figure BDA0004136102260000113
量化成离散值量化表示/>
Figure BDA0004136102260000114
然后,该离散值量化表示/>
Figure BDA0004136102260000115
可使用熵编码器406(使用例如算术编码或霍夫曼编码)无损地或有损地熵编码成比特流,该比特流易于存储和传输。在解码器侧,比特流可经过使用熵解码器408进行的无损或有损熵解码,以恢复离散值(解)量化表示/>
Figure BDA0004136102260000116
然后,该离散值量化表示/>
Figure BDA0004136102260000117
可输入到基于神经网络的解码器410(例如,基于DNN的解码器)中,以恢复和/或重建输入图像或视频序列/>
Figure BDA0004136102260000118
根据一些实施例,E2E NIC可以在在线训练阶段期间包括超先验和上下文模型,以进一步提高压缩性能。超先验模型可用于捕获在神经网络中的层之间生成的潜在表示中的空间依赖性。根据一些实施例,辅助信息可由超先验模型使用,辅助信息通常由解码器侧的相邻参考帧的运动补偿时间插值生成。该辅助信息可用于训练E2E NIC框架和从E2E NIC框架推断。超编码器452可使用基于超先验神经网络的编码器对替代图像x′进行编码。然后,可使用第二非线性量化器454和第二熵编码器456来生成已超编码的替代图像的超压缩表示。第二熵解码器458可以对超压缩表示进行解码以生成超重建图像,然后可使用基于超先验神经网络的超解码器460来生成重建替代图像
Figure BDA0004136102260000121
可使用来自第一非线性量化器404的量化表示和超重建替代图像来训练基于神经网络的上下文模型420。熵编码器406和熵解码器408可分别使用上下文模型420来进行编码和重新编码。
图5A和图5B示出了根据实施例的使用具有替代项的非线性量化用于端到端神经图像的方法的流程图。图5A示出了用于编码的过程500,图5B示出了用于解码的过程550。
在操作505处,框架可接收输入图像。根据一些实施例,输入图像可以是处于任何合适格式的图像。在一些实施例中,输入图像可以是一系列视频帧的一部分。作为示例,在505处,框架可接收一个或多个输入图像。
在操作510处,可基于输入图像,使用基于神经网络的替代特征生成器生成替代图像。作为示例,替代特征优化器403可生成输入图像x的替代图像x′。在操作515处,可使用基于神经网络的编码器402对替代图像进行编码。操作510和515可以以任何顺序执行。根据一些实施例,编码器402可以对由替代特征优化器403生成的替代图像进行编码。在一些实施例中,顺序可以颠倒。基于神经网络的编码器402可接收输入图像并对输入图像的学习特征进行编码,替代特征优化器403可以对输入图像的学习特征进行优化。
在操作520处,可基于已编码的替代图像,使用第一非线性量化器来生成量化表示。根据实施例,使用非线性量化来生成量化表示可包括:接收与替代图像相关联的一个或多个特征;生成与替代图像相关联的一个或多个特征的一个或多个相应的对数值;以及基于一个或多个相应的对数值的整数舍入来生成量化表示。
在操作525处,可使用熵编码来生成量化表示的压缩表示。根据实施例,最佳压缩表示可以是输入图像和重建图像之间的率失真损失与压缩表示的比特消耗率之间的折衷的全局最小值。熵编码可以将量化表示转换成比特流,以便存储和传输。
在操作530处,在操作的解码侧,可接收压缩表示。在操作535处,可使用基于神经网络的解码器和/或熵解码器对压缩表示进行解码。在操作540处,可基于已解码的压缩表示来生成重建图像。
根据实施例,基于神经网络的图像压缩(E2E NIC)框架可包括预训练模型,其中,与预训练模型相关联的一个或多个模型权重是固定的。可使用第一非线性量化器对预训练模型进行微调。
根据一些实施例,基于神经网络的图像压缩框架可包括模型,其中,训练该模型可包括:初始化模型的学习速率。随着训练的进行,可以以阈值次数调整模型的学习速率,其中,调整可基于一个或多个训练图像的图像属性。可基于以下任意条件终止训练:确定连续迭代之间的学习速率之差小于学习阈值;确定对于第一迭代次数,损失函数的输出损失是一致的;或者确定对于最大迭代次数,已调整学习速率。根据一些实施例,对学习速率的调整可与损失函数的输出损失反向相关。
根据一些实施例,可使用配置成运行代码的装置来执行操作505至540,每个操作对应于例如接收代码、确定代码、生成代码等代码。
本公开的实施例还提供灵活性,以基于当前数据在线或离线调整基于学习的替代、量化、编码和解码方法,并支持不同类型的基于学习的量化方法,此类量化方法包括基于DNN或基于模型的方法。所描述的方法还提供适应不同DNN架构和多个质量度量的灵活且通用的框架。
所提出的方法可单独使用,或者可以以任何顺序组合。此外,每一个方法(或实施例)可通过处理电路(例如,一个或多个处理器或者一个或多个集成电路)来实现,或者可使用软件代码(例如,生成代码、接收代码、编码代码、解码代码等)来实现。在一个示例中,一个或多个处理器运行存储在非暂时性计算机可读介质中的程序。
本公开提供了说明和描述,但是不旨在穷举或将实现方式限制为所公开的精确形式。根据本公开可进行修改和变化,或者可从实现方式的实践中获得修改和变化。
如本文所使用的,术语“组件”旨在广义地解释为硬件、固件、或者硬件和软件的组合。
显然,本文描述的系统和/或方法可以以不同形式的硬件、固件、或者硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此,本文描述系统和/或方法的操作和行为,而不必参考特定的软件代码-应理解,软件和硬件可设计成实现基于本文的描述的系统和/或方法。
即使在权利要求中记载和/或在说明书中公开了特征的组合,这些组合并不旨在限制可能的实现方式的公开内容。实际上,这些特征中的许多特征可以以未在权利要求中具体记载和/或在说明书中公开的方式组合。虽然下面列出的每个从属权利要求可仅直接从属于一个权利要求,但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每一个其它权利要求的组合。
本文使用的任何元素、动作或指令不可被解释为关键的或必要的,除非如此明确描述。此外,如本文所使用的,冠词“一”和“一个”旨在包括一个或多个项目,且可与“一个或多个”互换地使用。此外,如本文所使用的,术语“集”旨在包括一个或多个项目(例如,相关项目、不相关项目、相关项目和不相关项目的组合等),且可与“一个或多个”互换地使用。在意图仅是一个项目的情况下,使用术语“一个”或类似的语言。此外,如本文所使用的,术语“具有”、“含有”、“有”或类似术语旨在是开放式术语。此外,短语“基于”的意思旨在是“至少部分地基于”,除非另有明确说明。

Claims (20)

1.一种使用具有替代项的非线性量化进行神经图像压缩的方法,所述方法由一个或多个处理器执行,所述方法包括:
接收输入图像;
基于所述输入图像,使用基于神经网络的替代特征生成器生成替代图像;
压缩所述替代图像;
通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的所述输入图像的量化表示;以及
使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成所述量化表示的压缩表示。
2.根据权利要求1所述的方法,其中,所述非线性量化器是对数量化器。
3.根据权利要求2所述的方法,其中,所述获得量化表示包括:
接收与所述替代图像相关联的一个或多个特征;
生成与所述替代图像相关联的所述一个或多个特征的一个或多个相应的对数值;以及
基于所述一个或多个相应的对数值的整数舍入来生成所述量化表示。
4.根据权利要求1所述的方法,其中,所述方法进一步包括:
接收所述压缩表示;
使用基于神经网络的解码器对所述压缩表示进行解码;以及
基于已解码的压缩表示来生成重建图像。
5.根据权利要求4所述的方法,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。
6.根据权利要求1所述的方法,其中,所述生成压缩表示包括:
使用基于超先验神经网络的编码器对已编码的替代图像进行超编码;
使用第二非线性量化器和熵编码生成已超编码的替代图像的超压缩表示;
使用基于超先验神经网络的解码器对所述超压缩表示进行超解码,以生成超重建图像;
基于所述超重建图像和所述量化表示来训练上下文神经网络模型;以及
使用熵编码和所述上下文神经网络模型生成所述量化表示的压缩表示。
7.根据权利要求1所述的方法,其中,所述神经图像压缩包括预训练模型,并且其中,与所述预训练模型相关联的一个或多个模型权重是固定的。
8.根据权利要求7所述的方法,其中,使用所述非线性量化器对所述预训练模型进行微调。
9.根据权利要求1所述的方法,其中,所述神经图像压缩包括训练模型,并且其中,训练所述训练模型包括:
初始化所述训练模型的学习速率;
以阈值次数调整所述训练模型的学习速率,其中,所述调整基于一个或多个训练图像的图像属性;以及
基于以下至少一项终止所述训练:
确定连续迭代之间的学习速率之差小于学习阈值,
确定对于第一迭代次数,损失函数的输出损失是一致的,或者
确定对于最大迭代次数,已调整所述学习速率。
10.根据权利要求9所述的方法,其中,基于所述损失函数的输出损失来反向调整所述学习速率。
11.一种用于使用具有替代项的非线性量化进行神经图像压缩的装置,所述装置包括:
至少一个存储器,配置成存储程序代码;以及
至少一个处理器,配置成读取所述程序代码并按照所述程序代码的指令进行操作,所述程序代码包括:
第一接收代码,配置成使得所述至少一个处理器接收输入图像;
第一生成代码,配置成使得所述至少一个处理器基于所述输入图像,使用基于神经网络的替代特征生成器生成替代图像;
压缩代码,配置成使得所述至少一个处理器压缩所述替代图像;
量化代码,配置成使得所述至少一个处理器通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的所述输入图像的量化表示;以及
编码代码,配置成使得所述至少一个处理器使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成所述量化表示的压缩表示。
12.根据权利要求11所述的装置,其中,所述非线性量化器是对数量化器,并且其中,所述量化代码进一步包括:
第二接收代码,配置成使得所述至少一个处理器接收与所述替代图像相关联的一个或多个特征;
第二生成代码,配置成使得所述至少一个处理器生成与所述替代图像相关联的所述一个或多个特征的一个或多个相应的对数值;以及
第三生成代码,配置成使得所述至少一个处理器基于所述一个或多个相应的对数值的整数舍入来生成所述量化表示。
13.根据权利要求11所述的装置,其中,所述程序代码进一步包括:
第三接收代码,配置成使得所述至少一个处理器接收所述压缩表示;
第一解码代码,配置成使得所述至少一个处理器使用基于神经网络的解码器对所述压缩表示进行解码;以及
第四生成代码,配置成使得所述至少一个处理器基于已解码的压缩表示来生成重建图像。
14.根据权利要求13所述的装置,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。
15.根据权利要求11所述的装置,其中,所述神经图像压缩包括预训练模型,并且其中,与所述预训练模型相关联的一个或多个模型权重是固定的。
16.根据权利要求15所述的装置,其中,使用所述非线性量化器对所述预训练模型进行微调。
17.一种非暂时性计算机可读介质,存储有指令,当所述指令由用于使用具有替代项的非线性量化进行神经图像压缩的至少一个处理器运行时,所述指令使得所述至少一个处理器:
接收待压缩的输入图像;
基于所述输入图像,使用基于神经网络的替代特征生成器生成替代图像;
压缩所述替代图像;
通过使用非线性量化器,对已压缩的替代图像进行量化,以获得具有更高压缩性能的所述输入图像的量化表示;以及
使用基于神经网络的编码器对已量化的替代图像进行熵编码,以生成所述量化表示的压缩表示。
18.根据权利要求17所述的非暂时性计算机可读介质,其中,所述非线性量化器是对数量化器,并且其中,所述生成量化表示包括:
接收与所述替代图像相关联的一个或多个特征;
生成与所述替代图像相关联的所述一个或多个特征的一个或多个相应的对数值;以及
基于所述一个或多个相应的对数值的整数舍入来生成所述量化表示。
19.根据权利要求17所述的非暂时性计算机可读介质,其中,当所述指令由所述至少一个处理器运行时,所述指令进一步使得所述至少一个处理器:
接收所述压缩表示;
使用基于神经网络的解码器对所述压缩表示进行解码;以及
基于已解码的压缩表示来生成重建图像。
20.根据权利要求19所述的非暂时性计算机可读介质,其中,最佳压缩表示是所述输入图像和所述重建图像之间的率失真损失与所述压缩表示的比特消耗率之间的折衷的全局最小值。
CN202280006539.0A 2021-06-18 2022-05-31 神经图像压缩中具有替代项的非线性量化 Pending CN116324805A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163212452P 2021-06-18 2021-06-18
US63/212,452 2021-06-18
US17/825,594 US20220405978A1 (en) 2021-06-18 2022-05-26 Non-linear quantization with substitution in neural image compression
US17/825,594 2022-05-26
PCT/US2022/031505 WO2022265846A1 (en) 2021-06-18 2022-05-31 Non-linear quantization with substitution in neural image compression

Publications (1)

Publication Number Publication Date
CN116324805A true CN116324805A (zh) 2023-06-23

Family

ID=84490584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280006539.0A Pending CN116324805A (zh) 2021-06-18 2022-05-31 神经图像压缩中具有替代项的非线性量化

Country Status (6)

Country Link
US (1) US20220405978A1 (zh)
EP (1) EP4133459A4 (zh)
JP (1) JP2023542540A (zh)
KR (1) KR20230156141A (zh)
CN (1) CN116324805A (zh)
WO (1) WO2022265846A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593632B2 (en) * 2016-12-15 2023-02-28 WaveOne Inc. Deep learning based on image encoding and decoding
US11257254B2 (en) * 2018-07-20 2022-02-22 Google Llc Data compression using conditional entropy models
US11430155B2 (en) * 2018-10-05 2022-08-30 Apple Inc. Quantized depths for projection point cloud compression

Also Published As

Publication number Publication date
KR20230156141A (ko) 2023-11-13
JP2023542540A (ja) 2023-10-10
US20220405978A1 (en) 2022-12-22
EP4133459A1 (en) 2023-02-15
EP4133459A4 (en) 2023-09-13
WO2022265846A1 (en) 2022-12-22

Similar Documents

Publication Publication Date Title
US11582470B2 (en) Method and apparatus for multi-scale neural image compression with intra-prediction residuals
JP7374340B2 (ja) ニューラル画像圧縮のためのタスク適応型前処理のための方法、装置およびコンピュータプログラム
US11900640B2 (en) Method and apparatus for substitutional neural residual compression
CN114450938A (zh) 具有可堆叠嵌套模型结构的多速率神经图像压缩方法和装置
US11652994B2 (en) Neural image compression with adaptive intra-prediction
US11810331B2 (en) Neural image compression with latent feature-domain intra-prediction
CN114930349A (zh) 用于端到端图像压缩的特征替换的方法和装置
US20220405978A1 (en) Non-linear quantization with substitution in neural image compression
US11909975B2 (en) Dependent scalar quantization with substitution in neural image compression
US20230186525A1 (en) System, method, and computer program for content adaptive online training for multiple blocks in neural image compression
US20230186081A1 (en) System, method, and computer program for iterative content adaptive online training in neural image compression
CN116897372A (zh) 用于针对基于特定模式的多个块进行内容自适应在线训练的系统、方法和计算机程序
CN115485729A (zh) 用于神经图像压缩中多次学习替换率的方法和装置
CN115715463A (zh) 用于神经图像压缩中的替代的动态学习率的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40088655

Country of ref document: HK