CN115315956A - 具有自适应帧内预测的神经网络图像压缩 - Google Patents

具有自适应帧内预测的神经网络图像压缩 Download PDF

Info

Publication number
CN115315956A
CN115315956A CN202180020895.3A CN202180020895A CN115315956A CN 115315956 A CN115315956 A CN 115315956A CN 202180020895 A CN202180020895 A CN 202180020895A CN 115315956 A CN115315956 A CN 115315956A
Authority
CN
China
Prior art keywords
block
blocks
residual
processor
recovery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180020895.3A
Other languages
English (en)
Inventor
蒋薇
王炜
丁鼎
刘杉
许晓中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent America LLC
Original Assignee
Tencent America LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent America LLC filed Critical Tencent America LLC
Publication of CN115315956A publication Critical patent/CN115315956A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

具有自适应帧内预测的神经网络图像压缩方法由至少一个处理器执行,包括:接收最佳分区;接收输入的压缩表示,所述输入包括第一组块;对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,合并所述当前恢复块,以获得重建的图像;其中,所述第一恢复包括:使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;所述第二恢复包括:基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;基于所述第一组块中的当前块和预测块,计算第一残差;基于所述第一残差,生成恢复残差;对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。

Description

具有自适应帧内预测的神经网络图像压缩
相关申请的交叉引用
本申请要求于2021年1月19日提交美国专利局、申请号为63/138,963的美国临时申请的优先权,以及于2021年9月29日提交美国专利局、申请号为17/488,532的美国正式申请的优先权,其全部内容通过引用结合在本申请中。
背景技术
标准组和公司一直在积极寻找对未来视频编解码技术进行标准化的潜在需求。这些标准组和公司已经建立了JPEG-AI组,集中在使用神经网络(NN)实现基于AI的端到端的神经网络图像压缩。近期一些先进的神经网络图像和视频压缩方法的成功,带来了越来越多的工业兴趣。
给定输入图像x,NIC的目标是使用图像x作为NN编码器的输入,计算得到压缩表示
Figure BDA0003843077260000011
该压缩对于存储和传输而言是紧凑(compact)的,然后,使用
Figure BDA0003843077260000012
作为NN解码器的输入,重建图像
Figure BDA0003843077260000013
先前的NIC方法采用变分自动编码器(Variational AutoEncoder,VAE)结构,其中,NN编码器直接使用整个图像x作为其输入,通过像黑盒一样工作的一组网络层,计算得到输出表示
Figure BDA0003843077260000014
相应地,NN解码器采用整个表示
Figure BDA0003843077260000015
作为其输入,通过像另一黑盒一样工作的另一组网络层,计算得到重建的
Figure BDA0003843077260000016
基于块的帧内预测和残差编解码机制,对预测块与原始块之间的残差进行编码,而不是直接对原始完整图像进行编码。这种机制已经被证明在现代视频编解码标准中的图像帧压缩是非常有效的,如HEVC和VVC。整个图像被分区成各种大小的块,沿着各种角度方向,复制先前压缩块的边界像素,从而生成预测块,然后压缩原始块与预测块之间的残差。与原始像素相比,可以更有效地对残差进行编码,因此可以实现更好的编解码性能。不同的块大小直接影响压缩性能,并且最佳的块大小通常取决于特定的图像。
发明内容
根据本申请实施例,一种具有自适应帧内预测的神经网络图像压缩方法,由至少一个处理器执行,包括:接收最佳分区;接收输入的压缩表示,所述输入包括第一组块;对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,合并所述当前恢复块,以获得重建的图像;其中,所述第一恢复包括:使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;所述第二恢复包括:基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;基于所述第一组块中的当前块和预测块,计算第一残差;基于所述第一残差,生成恢复残差;对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
根据本申请实施例,一种具有自适应帧内预测的神经网络图像压缩装置,包括:至少一个存储器,用于存储计算机程序代码;至少一个处理器,用于读取所述计算机程序代码,根据所述计算机程序代码的指令进行操作,所述程计算机序代码包括:第一接收代码,用于使得所述至少一个处理器,接收最佳分区;第二接收代码,用于使得所述至少一个处理器,接收输入的压缩表示,所述输入包括第一组块;第三接收代码,用于使得所述至少一个处理器,对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,合并代码,用于使得所述至少一个处理器,合并所述当前恢复块,以获得重建的图像;其中,所述第一恢复包括:第一压缩代码,用于使得所述至少一个处理器,使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;第一解压缩代码,用于使得所述至少一个处理器,使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;所述第二恢复包括:第一预测代码,用于使得所述至少一个处理器,基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;第一残差代码,用于使得所述至少一个处理器,基于所述第一组块中的当前块和预测块,计算第一残差;第一生成代码,用于使得所述至少一个处理器,基于所述第一残差,生成恢复残差;第一分区代码,用于使得所述至少一个处理器,对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
根据本申请实施例,一种非易失性计算机可读介质,其特征在于,其上存储有指令,所述指令由至少一个处理器执行具有自适应帧内预测的神经网络图像压缩时,使得所述至少一个处理器:接收最佳分区;接收输入的压缩表示,所述输入包括第一组块;对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,合并所述当前恢复块,以获得重建的图像;其中,所述第一恢复包括:使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;所述第二恢复包括:基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;基于所述第一组块中的当前块和预测块,计算第一残差;基于所述第一残差,生成恢复残差;对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
附图说明
图1示出了根据本申请实施例的实施本文中所述方法、装置和系统的环境的示意图;
图2示出了图1的至少一个设备的示例部件的方框图;
图3示出了根据本申请实施例的在测试阶段的NIC编码器装置的方框图;
图4示出了根据本申请实施例的在测试阶段的图3中分区选择模块的详细工作流;
图5示出了根据本申请实施例的在测试阶段的NIC解码器装置的方框图;
图6示出了根据本申请实施例的在训练阶段的NIC帧内预测装置的工作流;
图7示出了根据本申请实施例的具有自适应帧内预测的神经网络图像压缩方法的流程图;
图8示出了根据本申请实施例的具有自适应帧内预测的神经网络图像压缩装置的方框图。
具体实施方式
本申请提出了神经网络图像压缩(NIC)框架,使用基于块的帧内预测机制以及自适应块大小,通过神经网络(DNN),对输入图像进行压缩。下面结合附图来描述示例性实施例。在附图中,相同的模块使用相同的附图标记,因此,必要时省略了重复的描述。图1是根据本申请实施例的实施本文中所述方法、装置和系统的环境的示意图。
如图1所示,环境100可以包括用户设备110、平台120和网络130。环境100的设备可以经由有线连接、无线连接或有线和无线连接的组合进行互连。
用户设备110包括能够接收、生成、存储、处理和/或提供与平台120相关联的信息的一个或多个设备。例如,用户设备110可以包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。在一些实现方式中,用户设备110可以从平台120接收信息和/或向平台120传输信息。
平台120包括能够通过多频带同步神经声码器生成音频输出信号的一个或多个设备,如本申请别处所述。在一些实现方式中,平台120可以包括云服务器或一组云服务器。在一些实现方式中,平台120可以被设计为模块化的,使得可以根据特定需要换入或换出某些软件部件。这样,平台120可以容易地和/或快速地重新配置用于不同的用途。
在一些实现方式中,如图所示,平台120可以托管在云计算环境122中。值得注意的是,虽然本申请描述的实现方式将平台120描述为托管在云计算环境122中,但是在一些实现方式中,平台120不是基于云的(即,可以在云计算环境之外实现)或者可以是部分基于云的。
云计算环境122包括托管平台120的环境。云计算环境122可以提供不需要最终用户(例如,用户设备110)了解托管平台120的一个或多个系统和/或设备的物理位置和配置的计算、软件、数据访问、存储等服务。如图所示,云计算环境122可以包括一组计算资源124(统称为“计算资源124”,并且单独称为“计算资源124”)。
计算资源124包括一个或多个个人计算机、工作站计算机、服务器设备或其它类型的计算和/或通信设备。在一些实现方式中,计算资源124可以是托管平台120。云资源可以包括在计算资源124中执行的计算实例、在计算资源124中提供的存储设备、由计算资源124提供的数据传送设备等。在一些实现方式中,计算资源124可以经由有线连接、无线连接或有线和无线连接的组合与其它计算资源124通信。
如图1中进一步所示,计算资源124包括一组云资源,诸如一个或多个应用程序(“APP”)124-1、一个或多个虚拟机(“VM”)124-2、虚拟化存储(“VS”)124-3、一个或多个管理程序(“HYP”)124-4等。
应用程序124-1包括可以提供给用户设备110和/或传感器设备120或由用户设备110和/或传感器设备120访问的一个或多个软件应用程序。应用程序124-1可以消除在用户设备110上安装和执行软件应用程序的需要。例如,应用程序124-1可以包括与平台120相关联的软件和/或能够经由云计算环境122提供的任何其它软件。在一些实现方式中,一个应用程序124-1可以经由虚拟机124-2向/从一个或多个其它应用程序124-1发送/接收信息。
虚拟机124-2包括像物理机器一样执行程序的机器(例如,计算机)的软件实现。虚拟机124-2可以是系统虚拟机或进程虚拟机,这取决于虚拟机124-2的使用和与任何真实机器的对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。进程虚拟机可以执行单个程序,并且可以支持单个进程。在一些实现方式中,虚拟机124-2可以代表用户(例如,用户设备110)执行,并且可以管理云计算环境122的基础设施,诸如数据管理、同步或长持续时间数据传送。
虚拟化存储124-3包括使用计算资源124的存储系统或设备内的虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现方式中,在存储系统的上下文中,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储与物理存储的抽象(或分离),使得可以在不考虑物理存储或异构结构的情况下访问存储系统。分离可以允许存储系统的管理员在管理员如何管理最终用户的存储方面具有灵活性。文件虚拟化可以消除在文件级访问的数据与物理地存储文件的位置之间的依赖性。这可以实现存储使用、服务器整合和/或无中断文件迁移的性能的优化。
管理程序124-4可以提供允许多个操作系统(例如,“客户操作系统”)在诸如计算资源124等主机计算机上并发执行的硬件虚拟化技术。管理程序124-4可以向客户操作系统呈现虚拟操作平台,并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化的硬件资源。
网络130包括一个或多个有线和/或无线网络。例如,网络130可以包括蜂窝网络(例如,第五代(5G)网络、长期演进(LTE)网络、第三代(3G)网络、码分多址(CDMA)网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络等,和/或这些或其它类型的网络的组合。
图1中所示的设备和网络的数量和布置被提供作为示例。在实践中,可以存在比图1所示的设备和/或网络更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络,或不同布置的设备和/或网络。此外,图1所示的两个或更多个设备可以在单个设备内实现,或者图1所示的单个设备可以实现为多个分布式设备。附加地或替换地,环境100的一组设备(例如,一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。
图2示出了图1的至少一个设备的示例部件的方框图。
设备200可以对应于用户设备110和/或平台120。如图2所示,设备200可以包括总线210、处理器220、存储器230、存储部件240、输入部件250、输出部件260和通信接口270。
总线210包括允许设备200的部件之间的通信的部件。处理器220以硬件、固件或硬件和软件的组合来实现。处理器220是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理部件。在一些实现方式中,处理器220包括能够被编程以执行功能的一个或多个处理器。存储器230包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储供处理器220使用的信息和/或指令的另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光存储器)。
存储部件240存储与设备200的操作和使用相关的信息和/或软件。例如,存储部件240可以包括硬盘(例如,磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字通用光盘(DVD)、软盘、盒式磁带、磁带和/或其它类型的非易失性计算机可读介质,以及对应的驱动器。
输入部件250包括允许设备200诸如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的部件。附加地或替换地,输入部件250可以包括用于感测信息的传感器(例如,全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出部件260包括提供来自设备200的输出信息的部件(例如,显示器、扬声器和/或一个或多个发光二极管(LED))。
通信接口270包括类似收发器的部件(例如,收发器和/或单独的接收器和发射器),其使得设备200能够诸如经由有线连接、无线连接或有线和无线连接的组合与其它设备通信。通信接口270可以允许设备200从另一设备接收信息和/或向另一设备提供信息。例如,通信接口270可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备200可以执行本申请描述的一个或多个过程。设备200可以响应于处理器220执行由诸如存储器230和/或存储部件240等非易失性计算机可读介质存储的软件指令而执行这些过程。计算机可读介质在本申请中被定义为非易失性存储器设备。存储器设备包括单个物理存储设备内的存储器空间或分布在多个物理存储设备的存储器空间。
软件指令可以经由通信接口270从另一计算机可读介质或从另一设备读入存储器230和/或存储部件240。当被执行时,存储在存储器230和/或存储部件240中的软件指令可以使处理器220执行本申请描述的一个或多个过程。附加地或替换地,硬连线电路可以代替软件指令或与软件指令结合使用,以执行本申请描述的一个或多个过程。因此,本申请描述的实现方式不限于硬件电路和软件的任何特定组合。
图2中所示的部件的数量和布置被提供作为示例。在实践中,设备200可以包括与图2所示的部件相比更多的部件、更少的部件、不同的部件或不同布置的部件。附加地或替换地,设备200的一组部件(例如,一个或多个部件)可以执行被描述为由设备200的另一组部件执行的一个或多个功能。
用于NIC中使用基于块的帧内预测机制以及自适应块大小的方法和装置,将在下文中进行详细描述。
本申请提出了NIC框架,使用基于块的帧内预测机制以及自适应块大小。对预测块和原始块之间的残差进行编码,而代替了对原始的像素进行编码,并且基于压缩质量,例如,率失真(Rate-Distortion,R-D)损失,对块大小进行自适应地确定。
图3示出了根据本申请实施例的在测试阶段的NIC编码器300装置的方框图.
如图3所示,编码器300包括分区模块310和分区选择模块320。
在编码器侧,给定输入图像x,分区模块310将输入图像x分区成k个微块,大小为(wm,hm),
Figure BDA0003843077260000081
其中,mi表示第i个微块。每个微块mi可以被进一步分区成块bi,1,…,bi,n,其中,bi,j是微块mi中的第j个块。对于不同的块,块bi,j的大小可以变化。在示例性实施例中,在当前视频编解码工具中,微块与CTU分区对齐。每个CTU微块可以被进一步分区成2×2,4×4,8×8,16×16,32×32或64×64块。实施例不对CTU的大小或如何分区CTU中的块施加任何限制。
假设有P种不同的方式,将每个微块mi分区成多个块。现在将详细描述如何在分区选择模块320中确定最佳分区方式的工作流。
图4示出了根据本申请实施例的在测试阶段的图3中分区选择模块320的详细工作流。
如图4所示,分区选择模块320包括帧内预测模块410、残差神经压缩模块420、残差神经解压缩模块430、计算残差压缩损失模块440、神经压缩模块450、神经解压缩模块460、计算压缩损失模块470、块选择模块480和计算分区损失模块490。
分区选择模块320的输出包括最佳分区方式p*、一组块选择信号
Figure BDA0003843077260000091
Figure BDA0003843077260000092
和一组压缩表示
Figure BDA0003843077260000093
通常,在通过量化和熵编码进一步压缩之后,将这些输出发送到解码器侧(例如,图5中详述的解码器500)。
Figure BDA0003843077260000094
表示通过第p个分区方式获得的块。用于该分区的块np的总数由微块mi的大小和块的大小自动确定。对于每个分区块bi,p,j,可以由帧内预测模块410基于预测网络来计算预测的块
Figure BDA0003843077260000095
预测网络将从x中选择的一组图像像素作为输入,其中,所选择的像素可以来自两个源:来自在微块mi之前被编码的微块
Figure BDA0003843077260000096
以及来自在分区块bi,p,j之前被编码的微块mi中的块
Figure BDA0003843077260000097
有许多方式可以选择像素并且形成预测网络的输入。例如,在空间上最接近上下文区域中的分区块bi,p,j的相邻像素,可以按某种顺序(堆叠、串接、在空间上变换等)进行组织,以形成预测网络的输入。通过推断计算,预测网络输出预测块
Figure BDA0003843077260000098
预测网络可以具有各种架构。对于每种分区方式,预测网络可以使用不同的NN模型用于预测。通常使用卷积层和完全连接层。实施例不对用于像素选择的上下文区域的大小和形状、将像素转换成预测网络的输入的方式,或预测网络的网络架构施加任何限制。
对于分区块bi,p,j,在计算预测块
Figure BDA0003843077260000099
之后,可以基于分区块bi,p,j和预测块
Figure BDA00038430772600000910
来计算残差ri,p,j,例如通过减法。令
Figure BDA0003843077260000101
表示以第p个方式分区的整个第i个微块mi的残差。可以将此残差
Figure BDA0003843077260000102
重新分区成一组q个残差块
Figure BDA0003843077260000103
Figure BDA0003843077260000104
注意,残差块的重新分区可以与预测块
Figure BDA0003843077260000105
的原始分区相同或不同。当q=1时,整个微块将被作为一个整体进行处理。也可以以相同的方式,对对应的微块
Figure BDA0003843077260000106
和预测块
Figure BDA0003843077260000107
分别进行重新分区,得到重新分区的微块
Figure BDA0003843077260000108
和重新分区的预测块
Figure BDA0003843077260000109
Figure BDA00038430772600001010
残差神经压缩模块420可以对每个残差块
Figure BDA00038430772600001011
进行压缩,计算得到压缩残差表示
Figure BDA00038430772600001012
残差神经解压缩模块430对压缩残差表示
Figure BDA00038430772600001013
进行解压缩,计算得到恢复的残差块
Figure BDA00038430772600001014
可以将恢复的残差块
Figure BDA00038430772600001015
再添加到对应的重新分区的预测块
Figure BDA00038430772600001016
从而获得重建的块
Figure BDA00038430772600001017
计算残差压缩损失模块440基于重新分区的微块
Figure BDA00038430772600001018
重建的块
Figure BDA00038430772600001019
和压缩残差表示
Figure BDA00038430772600001020
计算残差压缩质量损失
Figure BDA00038430772600001021
例如,在示例性实施例中,速率失真(R-D)损失可以被计算为质量测量(残差质量损失),如下所示:
Figure BDA00038430772600001022
其中,
Figure BDA00038430772600001023
是重新分区的微块
Figure BDA00038430772600001024
与重建的块
Figure BDA00038430772600001025
之间的失真。
Figure BDA00038430772600001026
是速率损失,用于测量压缩残差表示
Figure BDA00038430772600001027
的比特消耗。λ是平衡不同项的重要性的折衷超参数。在这里当然可以使用其它压缩质量损失。实施例不对用于压缩质量损失、失真或速率损失的特定测量施加任何限制。
同时,每个原始块
Figure BDA00038430772600001028
可以由神经压缩模块450直接压缩,计算得到压缩表示
Figure BDA00038430772600001029
神经解压缩模块460对压缩表示
Figure BDA00038430772600001030
进行解压缩,直接计算得到恢复的块
Figure BDA00038430772600001031
在计算压缩损失模块470中,可以基于原始块
Figure BDA00038430772600001032
重建的块
Figure BDA00038430772600001033
和压缩表示
Figure BDA00038430772600001034
以与残差质量损失
Figure BDA00038430772600001035
相同的方式,计算得到压缩质量损失
Figure BDA00038430772600001036
基于压缩质量损失
Figure BDA00038430772600001037
和残差质量损失
Figure BDA00038430772600001038
块选择模块480生成选择信号si,p,j,来指示是否使用残差块
Figure BDA00038430772600001039
或原始
Figure BDA00038430772600001040
来生成压缩残差表示
Figure BDA00038430772600001041
或压缩表示
Figure BDA00038430772600001042
例如通过选择具有较少质量损失的选项。这给出了压缩当前第j个块
Figure BDA0003843077260000111
的最佳质量损失
Figure BDA0003843077260000112
例如
Figure BDA0003843077260000113
计算分区损失模块490计算针对微块mi的第p个分区方式的总质量损失Li,p,如下所示:
Figure BDA0003843077260000114
其中,每个wi,p,j是与原始块
Figure BDA0003843077260000115
相关联的权重。通过简单地将所有权重设置为1,所有块被同等地处理。一些块可以用比其它块更多的注意力来处理,并且注意力图(attention map)(或重要性图significance map)可以用于获得权重。
通过对分区的所有P方式重复相同的过程,可以获得质量损失Li,p,p=1,…,P。然后可以选择最佳的分区方式p*,例如,作为具有最佳损失(即,p*=argminpLi,p
Figure BDA0003843077260000116
)的分区。对应的块选择信号
Figure BDA0003843077260000117
也可以被确定为分区选择模块320的输出。
Figure BDA0003843077260000118
表示为微块mi选择的最佳分区块。根据块选择信号
Figure BDA0003843077260000119
对应的压缩残差表示
Figure BDA00038430772600001110
或压缩表示
Figure BDA00038430772600001111
也可以被确定为块
Figure BDA00038430772600001112
的实际压缩表示
Figure BDA00038430772600001113
该组压缩表示
Figure BDA00038430772600001114
也从分区选择模块320输出。最佳分区p*、压缩表示
Figure BDA00038430772600001115
和块选择信号
Figure BDA00038430772600001116
被进一步编码,例如通过量化和熵编码,以生成编码流并且被发送到解码器侧(在图5中详述)。
神经压缩模块450和残差神经压缩模块420可以使用任何神经压缩方法。实施例不对用于这两个模块的特定方法或网络架构施加任何限制。
图5示出了根据本申请实施例的在测试阶段的NIC解码器500装置的方框图。
如图5所示,解码器500包括帧内预测模块410、残差神经解压缩模块430、神经解压缩模块460和合并模块510。
在解码器500侧,系统接收最佳分区p*、压缩表示
Figure BDA00038430772600001117
和块选择信号
Figure BDA00038430772600001118
(通常从接收的码流通过熵解码和解量化后恢复得到)。基于每个块选择信号
Figure BDA00038430772600001119
系统选择以下方法中的一个来计算恢复的块
Figure BDA00038430772600001120
如果选择信号
Figure BDA0003843077260000121
指示恢复的块来自于在编码器300侧基于压缩表示
Figure BDA0003843077260000122
进行解码得到的块,则神经解压缩模块460将用于计算恢复的块
Figure BDA0003843077260000123
如果选择信号
Figure BDA0003843077260000124
指示恢复的块来自于在编码器300侧基于压缩残差表示
Figure BDA0003843077260000125
进行解码得到的块,则残差神经解压缩模块430将用于计算恢复的残差
Figure BDA0003843077260000126
在使用恢复的残差
Figure BDA0003843077260000127
的情况下,帧内预测模块410基于该组先前恢复的块
Figure BDA0003843077260000128
Figure BDA0003843077260000129
和先前恢复的微块
Figure BDA00038430772600001210
通过使用预测网络计算预测块
Figure BDA00038430772600001211
以相同的方式在编码器300中计算。唯一的区别是,在编码器300侧,预测网络的输入是由原始输入图像x的像素形成。在解码器500侧,输入来自对应的恢复的块和微块。然后可以将恢复的残差
Figure BDA00038430772600001212
添加回(以与编码器300相同的方式)重新分区的预测块
Figure BDA00038430772600001213
以获得恢复的块
Figure BDA00038430772600001214
计算出的恢复的块(
Figure BDA00038430772600001215
Figure BDA00038430772600001216
)将给出实际恢复的块
Figure BDA00038430772600001217
解码器继续处理下一个块。最终,在合并模块510中,微块mi的恢复的块
Figure BDA00038430772600001218
被聚集到重建的图像
Figure BDA00038430772600001220
在一些实施例中,合并模块510可以进一步处理恢复的块以去除伪像,诸如解块、去噪等。实施例不对如何将恢复的块聚集到重建的图像
Figure BDA00038430772600001219
中的特定方法施加任何限制。
现在将描述NIC帧内预测训练过程。图6是根据实施例的NIC帧内预测装置600在训练阶段期间的工作流。
如图6所示,NIC帧内预测训练装置600包括分区模块310、分区选择模块320、帧内预测模块410、剩余神经解压缩模块430、神经解压缩模块460、合并模块510、计算整体损失模块610和计算附加损失模块620。
训练过程的目标是学习预测网络、神经压缩模块450、神经解压缩模块460、残差神经压缩模块420和残差神经解压缩模块430。在使用可学习合并模块510和块选择模块480的情况下,例如,当NN用于将恢复的块聚集到恢复的图像中时,也可以在训练过程中学习对应的可学习参数。在训练过程中,对要学习的上述网络和模块的权重系数进行初始化,例如,通过使用预训练的模型,或将它们的参数设置为随机数。然后,给定输入训练图像x,它通过图3中描述的编码器300,然后通过图5中描述的解码器500,计算得到最佳分区p*、压缩表示
Figure BDA0003843077260000131
用于每个微块mi的块选择信号
Figure BDA0003843077260000132
Figure BDA0003843077260000133
以及最终重建的图像
Figure BDA0003843077260000134
可以计算失真损失
Figure BDA0003843077260000135
诸如传统的PSNR、MS-SSIM或两者的权重组合。可以计算速率损失
Figure BDA0003843077260000136
以测量压缩表示
Figure BDA0003843077260000137
的比特消耗。因此,可以在计算总损失模块610中计算总R-D损失
Figure BDA0003843077260000138
Figure BDA0003843077260000139
其中α,βi是平衡不同项的重要性的超参数。
也可以在计算附加损失模块620(例如,MSE或SSIM测量)中计算其它形式的损失,诸如恢复的残差
Figure BDA00038430772600001310
与原始残差
Figure BDA00038430772600001311
之间的失真损失
Figure BDA00038430772600001312
和失真损失
Figure BDA00038430772600001313
还可以任选
Figure BDA00038430772600001314
Figure BDA00038430772600001315
与整个R-D损失
Figure BDA00038430772600001316
组合为整个系统的最终损失。可以计算最终损失的梯度,并且反向传播,以更新系统中的可学习参数。注意,可以用不同的更新频率在不同的时间更新不同的部件(即,网络或模块)。在一些实施例中,一些部件或一些部件中的部分参数可以进行预训练并固定,训练过程中仅更新剩余的参数。
图7是根据实施例的具有自适应帧内预测的神经网络图像压缩方法的流程图。
在一些实施方案中,图7的一个或多个过程块可以由平台120执行。在一些实施方案中,图7的一个或多个过程块可以由与平台120分离或包括平台120的另一设备或一组设备(诸如用户设备110)来执行。虽然图7示出了该方法的示例块,但是在一些实施方案中,该方法可以包括相比图7中描绘的那些块附加的块、更少的块、不同的块或不同地布置的块。附加地或替代地,可以并行地执行该方法的两个或更多个块。
如图7所示,在操作701中,该方法包括接收最佳分区方式和接收输入的压缩表示,所述输入包括第一组块。对第一组块中的每个块,执行操作702至操作709。
在操作702中,图7的方法包括接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块。
在操作703中,基于块选择信号,该方法继续到操作704至操作705或操作706至操作709中的一个。
在操作704中,图7的方法包括使用第一神经网络,压缩第一组块中的块,以计算第一压缩表示。
在操作705中,图7的方法包括使用第二神经网络,解压缩第一压缩表示,以计算第一恢复块。
在操作706中,图7的方法包括基于一组先前恢复块和一组先前恢复的微块,计算第一预测块。
在操作707中,图7的方法包括基于第一组块中的当前块和预测块,计算第一残差。
在操作708中,图7的方法包括基于第一残差,生成恢复残差。
在操作709中,图7的方法包括对第一预测块进行分区,并且添加恢复残差,以获得第二恢复块。
在操作710中,图7的方法包括合并每一个当前恢复块,以获得重建的图像。
图8是根据实施例的用于具有自适应帧内预测的神经网络图像压缩的装置的块图。
如图8所示,该装置包括第一接收代码801、第二接收代码802、第三接收代码803、第一压缩代码804、第一解压缩代码805、第一预测代码806、第一残差代码807、第一生成代码808、第一分区代码809和合并代码810。
第一接收代码801被配置为使至少一个处理器接收最佳分区方式。
第二接收代码802被配置为使至少一个处理器接收输入的压缩表示,所述输入包括第一组块,并且用于第一组块中的每个块。
第三接收代码803被配置为使至少一个处理器接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块。
第一压缩代码804被配置为使至少一个处理器使用第一神经网络,压缩第一组块中的块,以计算第一压缩表示。
第一解压缩代码805被配置为使至少一个处理器使用第二神经网络,解压缩第一压缩表示,以计算第一恢复块。
第一预测代码806被配置为使至少一个处理器基于一组先前恢复的块和一组先前恢复的微块,预测第一预测块。
第一残差代码807被配置为使至少一个处理器基于第一组块中的当前块和预测块,计算第一残差。
第一生成代码808被配置为使至少一个处理器基于第一残差,生成恢复残差。
第一分区代码809被配置为使至少一个处理器对第一预测块进行分区,并且添加恢复残差,以获得第二恢复块。
合并代码810被配置为使至少一个处理器合并每一个当前恢复块,以获得重建的图像。
虽然图8示出了装置的示例块,但是在一些实现方式中,装置可以包括与图4中描绘的那些框相比更多的块、更少的块、不同的块或不同布置的块。附加地或替换地,可以合并装置的两个或更多个块。
本申请实施例描述了使用帧内预测以及原始图像像素进行自适应块分区和块压缩方法选择的方法,以及使用不同块大小用于帧内预测残差生成和基于块的神经压缩的方法。这种INC编解码方法有利于得到一种灵活和通用的架构,来适应不同的帧内预测方法、同时用于残差和原始图像块的不同的神经压缩方法、不同的微块和块的分区。
所提出的INC编解码方法可以单独使用,或者按任何顺序进行合并。进一步,每个方法(或实施例)、编码器和解码器,可以由处理电路(例如,至少一个处理器,或者,至少一个集成电路)实施。在一个示例中,所述至少一个处理器执行存储在非易失性计算机可读介质中的程序。
上述公开内容提供了说明和描述,但并不旨在穷举或将实现方式限制为所公开的精确形式。根据上述公开内容可以进行修改和变化,或者可以从实现方式的实践中获得修改和变化。
如本申请所使用的,术语部件旨在被广泛地解释为硬件、固件或硬件和软件的组合。
显然,本申请描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不是对实现方式的限制。因此,本申请描述了系统和/或方法的操作和行为,而没有参考特定的软件代码——应当理解,软件和硬件可以被设计成基于本申请的描述来实现系统和/或方法。
即使在权利要求中列举和/或在说明书中公开了特征的特定组合,这些组合并不旨在限制可能实现方式的公开。事实上,这些特征中的许多特征可以以权利要求中未具体叙述和/或说明书中未公开的方式组合。虽然下面列出的每个从属权利要求可以直接依赖于仅一个权利要求,但是可能实现方式的公开包括与权利要求集中的所有其它权利要求结合的每个从属权利要求。
除非明确说明,否则本申请使用的任何元素、行为或指令均不应被解释为关键或必要的。此外,如本申请所使用的,术语“组”旨在包括一个或多个项目(例如,相关项目、不相关项目、相关和不相关项目的组合等),并且可以与“一个或多个”互换使用。此外,除非另有明确说明,否则短语“基于”旨在表示“至少部分地基于”。

Claims (20)

1.一种具有自适应帧内预测的神经网络图像压缩方法,所述方法由至少一个处理器执行,其特征在于,包括:
接收最佳分区;
接收输入的压缩表示,所述输入包括第一组块;
对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,
合并所述当前恢复块,以获得重建的图像;
其中,所述第一恢复包括:
使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;
使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;
所述第二恢复包括:
基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;
基于所述第一组块中的当前块和预测块,计算第一残差;
基于所述第一残差,生成恢复残差;
对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述输入分区为一组微块,将所述一组微块中的每个微块重新分区为第二组块,对于每个块:
基于从所述输入选择出的一组像素,计算第二预测块;
同时执行第一计算和第二计算;
基于所述第一计算和所述第二计算,生成所述块选择信号;
其中,所述第一计算包括:
基于所述第二组块中的块和所述第二预测块,计算第二残差;
基于第二压缩残差表示,生成第二重建块;
基于所述第二组块、所述第二重建块以及所述第二压缩残差表示,计算第一质量损失;
所述第二计算包括:
压缩所述第二组块中的块,以计算第二压缩表示;
解压缩所述第二压缩表示,以计算第三恢复块;
基于所述第二组块、所述第三恢复块以及所述第二压缩表示,计算第二质量损失。
3.根据权利要求2所述的方法,其特征在于,当所述第一质量损失小于所述第二质量损失时,所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示;
当所述第二质量损失小于所述第一质量损失时,所述块选择信号指示所述第二组块中的块将用于生成所述压缩表示。
4.根据权利要求1所述的方法,其特征在于,还包括:
将所述第一残差分区为第一残差块;
其中,生成所述恢复残差,是使用第三神经网络,压缩所述第一残差块中的块,以获得第一压缩残差表示;
使用第四神经网络,对所述第一压缩残差表示进行解压缩,以获得所述恢复残差。
5.根据权利要求4所述的方法,其特征在于,对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练,通过:
对权重系数进行初始化;
计算总损失并向后传播所述总损失的梯度,以更新可学习参数。
6.根据权利要求2所述的方法,其特征在于,所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。
7.根据权利要求2所述的方法,其特征在于,还包括:
使用多种方式对所述输入进行分区;
其中,所述最佳分区方式是指将所述输入分区后,使得来自所述第二组块的质量损失最小的方式。
8.一种具有自适应帧内预测的神经网络图像压缩装置,其特征在于,包括:
至少一个存储器,用于存储计算机程序代码;
至少一个处理器,用于读取所述计算机程序代码,根据所述计算机程序代码的指令进行操作,所述程计算机序代码包括:
第一接收代码,用于使得所述至少一个处理器,接收最佳分区;
第二接收代码,用于使得所述至少一个处理器,接收输入的压缩表示,所述输入包括第一组块;
第三接收代码,用于使得所述至少一个处理器,对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,
合并代码,用于使得所述至少一个处理器,合并所述当前恢复块,以获得重建的图像;
其中,所述第一恢复包括:
第一压缩代码,用于使得所述至少一个处理器,使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;
第一解压缩代码,用于使得所述至少一个处理器,使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;
所述第二恢复包括:
第一预测代码,用于使得所述至少一个处理器,基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;
第一残差代码,用于使得所述至少一个处理器,基于所述第一组块中的当前块和预测块,计算第一残差;
第一生成代码,用于使得所述至少一个处理器,基于所述第一残差,生成恢复残差;
第一分区代码,用于使得所述至少一个处理器,对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
9.根据权利要求8所述的装置,其特征在于,还包括:
第二分区代码,用于使得所述至少一个处理器,将所述输入分区为一组微块,将所述一组微块中的每个微块重新分区为第二组块,对于每个块:
第二预测代码,用于使得所述至少一个处理器,基于从所述输入选择出的一组像素,计算第二预测块;
执行代码,用于使得所述至少一个处理器,同时执行第一计算和第二计算;
块选择代码,用于使得所述至少一个处理器,基于所述第一计算和所述第二计算,生成所述块选择信号;
其中,所述第一计算包括:
第一残差代码,用于使得所述至少一个处理器,基于所述第二组块中的块和所述第二预测块,计算第二残差;
第二生成代码,用于使得所述至少一个处理器,基于第二压缩残差表示,生成第二重建块;
第一质量损失代码,用于使得所述至少一个处理器,基于所述第二组块、所述第二重建块以及所述第二压缩残差表示,计算第一质量损失;
所述第二计算包括:
第二压缩代码,用于使得所述至少一个处理器,压缩所述第二组块中的块,以计算第二压缩表示;
第二解压缩代码,用于使得所述至少一个处理器,解压缩所述第二压缩表示,以计算第三恢复块;
第二质量损失代码,用于使得所述至少一个处理器,基于所述第二组块、所述第三恢复块以及所述第二压缩表示,计算第二质量损失。
10.根据权利要求8所述的装置,其特征在于,当所述第一质量损失小于所述第二质量损失时,所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示;
当所述第二质量损失小于所述第一质量损失时,所述块选择信号指示所述第二组块中的块将用于生成所述压缩表示。
11.根据权利要求8所述的装置,其特征在于,还包括:
残差分区代码,用于使得所述至少一个处理器,将所述第一残差分区为第一残差块;
其中,生成所述恢复残差,是使用第三神经网络,压缩所述第一残差块中的块,以获得第一压缩残差表示;
使用第四神经网络,对所述第一压缩残差表示进行解压缩,以获得所述恢复残差。
12.根据权利要求11所述的装置,其特征在于,对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练,通过:
对权重系数进行初始化;
计算总损失并向后传播所述总损失的梯度,以更新可学习参数。
13.根据权利要求9所述的装置,其特征在于,所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。
14.根据权利要求9所述的装置,其特征在于,所述第二分区代码,还用于使得所述至少一个处理器,使用多种方式对所述输入进行分区;
其中,所述最佳分区方式是指将所述输入分区后,使得来自所述第二组块的质量损失最小的方式。
15.一种非易失性计算机可读介质,其特征在于,其上存储有指令,所述指令由至少一个处理器执行具有自适应帧内预测的神经网络图像压缩时,使得所述至少一个处理器:
接收最佳分区;
接收输入的压缩表示,所述输入包括第一组块;
对所述第一组块中的每个块,接收块选择信号,所述块选择信号指示将第一恢复块和第二恢复块中的一个作为当前恢复块,并基于接收到的所述块选择信号,执行第一恢复和第二恢复中的一个;及,
合并所述当前恢复块,以获得重建的图像;
其中,所述第一恢复包括:
使用第一神经网络,压缩所述第一组块中的块,以计算第一压缩表示;
使用第二神经网络,解压缩所述第一压缩表示,以计算所述第一恢复块;
所述第二恢复包括:
基于一组先前恢复块和一组先前恢复的微块,计算第一预测块;
基于所述第一组块中的当前块和预测块,计算第一残差;
基于所述第一残差,生成恢复残差;
对所述第一预测块进行分区,并且添加所述恢复残差,以获得所述第二恢复块。
16.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述指令由至少一个处理器执行,还使得所述至少一个处理器:
将所述输入分区为一组微块,将所述一组微块中的每个微块重新分区为第二组块,对于每个块:
基于从所述输入选择出的一组像素,计算第二预测块;
同时执行第一计算和第二计算;
基于所述第一计算和所述第二计算,生成所述块选择信号;
其中,所述第一计算包括:
基于所述第二组块中的块和所述第二预测块,计算第二残差;
基于第二压缩残差表示,生成第二重建块;
基于所述第二组块、所述第二重建块以及所述第二压缩残差表示,计算第一质量损失;
所述第二计算包括:
压缩所述第二组块中的块,以计算第二压缩表示;
解压缩所述第二压缩表示,以计算第三恢复块;
基于所述第二组块、所述第三恢复块以及所述第二压缩表示,计算第二质量损失。
17.根据权利要求15所述的非易失性计算机可读介质,其特征在于,当所述第一质量损失小于所述第二质量损失时,所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示;
当所述第二质量损失小于所述第一质量损失时,所述块选择信号指示所述第二组块中的块将用于生成所述压缩表示。
18.根据权利要求15所述的非易失性计算机可读介质,其特征在于,所述指令由至少一个处理器执行,还使得所述至少一个处理器:
当所述第一质量损失小于所述第二质量损失时,所述块选择信号指示所述第二残差将用于生成所述第二压缩残差表示;
当所述第二质量损失小于所述第一质量损失时,所述块选择信号指示所述第二组块中的块将用于生成所述压缩表示。
19.根据权利要求18所述的非易失性计算机可读介质,其特征在于,对所述第一神经网络、所述第二神经网络、所述第三神经网络和所述第四神经网络中的每一个进行训练,通过:
对权重系数进行初始化;
计算总损失并向后传播所述总损失的梯度,以更新可学习参数。
20.根据权利要求16所述的非易失性计算机可读介质,其特征在于,所述指令由至少一个处理器执行,还使得所述至少一个处理器:
使用多种方式对所述输入进行分区;
其中,所述最佳分区方式是指将所述输入分区后,使得来自所述第二组块的质量损失最小的方式;
所述一组像素是从所述一组先前恢复块或所述一组先前恢复的微块中选择出来的。
CN202180020895.3A 2021-01-19 2021-10-04 具有自适应帧内预测的神经网络图像压缩 Pending CN115315956A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163138963P 2021-01-19 2021-01-19
US63/138,963 2021-01-19
US17/488,532 US11652994B2 (en) 2021-01-19 2021-09-29 Neural image compression with adaptive intra-prediction
US17/488,532 2021-09-29
PCT/US2021/053329 WO2022159151A1 (en) 2021-01-19 2021-10-04 Neural image compression with adaptive intra-prediction

Publications (1)

Publication Number Publication Date
CN115315956A true CN115315956A (zh) 2022-11-08

Family

ID=82405478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180020895.3A Pending CN115315956A (zh) 2021-01-19 2021-10-04 具有自适应帧内预测的神经网络图像压缩

Country Status (6)

Country Link
US (1) US11652994B2 (zh)
EP (1) EP4088467A4 (zh)
JP (1) JP2023520593A (zh)
KR (1) KR20220156896A (zh)
CN (1) CN115315956A (zh)
WO (1) WO2022159151A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115334308B (zh) * 2022-10-14 2022-12-27 北京大学深圳研究生院 一种面向学习模型的编码决策处理方法、装置及设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2646575A1 (fr) * 1989-04-26 1990-11-02 Labo Electronique Physique Procede et structure pour la compression de donnees
JP2013223096A (ja) * 2012-04-16 2013-10-28 Jvc Kenwood Corp 画像符号化装置、画像符号化方法及び画像符号化プログラム
US11128935B2 (en) 2012-06-26 2021-09-21 BTS Software Solutions, LLC Realtime multimodel lossless data compression system and method
EP3043560A4 (en) * 2013-09-06 2017-03-01 Mitsubishi Electric Corporation Video encoding device, video transcoding device, video encoding method, video transcoding method and video stream transmission system
US10153980B2 (en) 2016-07-19 2018-12-11 Coco Communications Corp Systems and methods for managing network congestion
US10361712B2 (en) * 2017-03-14 2019-07-23 International Business Machines Corporation Non-binary context mixing compressor/decompressor
US10797723B2 (en) 2017-03-14 2020-10-06 International Business Machines Corporation Building a context model ensemble in a context mixing compressor
JP2020120141A (ja) * 2017-05-26 2020-08-06 シャープ株式会社 動画像符号化装置及び動画像復号装置、フィルタ装置
WO2019185808A1 (en) * 2018-03-29 2019-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Intra-prediction mode concept for block-wise picture coding
US11019355B2 (en) * 2018-04-03 2021-05-25 Electronics And Telecommunications Research Institute Inter-prediction method and apparatus using reference frame generated based on deep learning
US10999606B2 (en) 2019-01-08 2021-05-04 Intel Corporation Method and system of neural network loop filtering for video coding

Also Published As

Publication number Publication date
US20220232212A1 (en) 2022-07-21
KR20220156896A (ko) 2022-11-28
WO2022159151A1 (en) 2022-07-28
EP4088467A4 (en) 2023-06-21
US11652994B2 (en) 2023-05-16
JP2023520593A (ja) 2023-05-17
EP4088467A1 (en) 2022-11-16

Similar Documents

Publication Publication Date Title
JP7551206B2 (ja) イントラ予測残差を用いたマルチスケールニューラル画像圧縮のための方法および装置、およびコンピュータプログラム
JP7483030B2 (ja) 潜在特徴領域におけるイントラ予測によるニューラル画像圧縮
CN114450938B (zh) 多速率神经图像压缩方法、装置以及电子设备
KR102633549B1 (ko) 대체 신경 잔차 압축을 위한 방법 및 장치
CN115315956A (zh) 具有自适应帧内预测的神经网络图像压缩
KR20230108335A (ko) 신경 이미지 압축을 위한 잠재 공간에서의 대체 품질 인자 학습
JP2023526180A (ja) 滑らかな品質制御による適応ニューラル画像圧縮のための代替の入力最適化
CN114930349A (zh) 用于端到端图像压缩的特征替换的方法和装置
CN116964632A (zh) 用于神经图像压缩中迭代内容自适应在线训练的系统、方法和计算机程序
JP2024512652A (ja) ニューラル画像圧縮における複数ブロック用のコンテンツ適応型オンライン訓練のためのシステム、方法、およびコンピュータプログラム
JP2024513432A (ja) ニューラルネットワークを使用する、エンドツーエンド(e2e)ニューラル画像圧縮(nic)用のコンテンツ適応型オンライン訓練の方法、装置及びコンピュータプログラム
JP2023521292A (ja) 深層強化学習によるエンドツーエンドニューラル圧縮のための方法及び装置
CN115715463A (zh) 用于神经图像压缩中的替代的动态学习率的方法和装置
CN116324805A (zh) 神经图像压缩中具有替代项的非线性量化
CN115336261A (zh) 用于通过元学习进行率控制的自适应神经图像压缩的方法和装置
JP2023527655A (ja) メタ学習による滑らかな品質管理を用いた品質適応型のニューラル・ネットワーク・ベースのループフィルタ
CN115485729A (zh) 用于神经图像压缩中多次学习替换率的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40075539

Country of ref document: HK