CN110637460B - 利用深层神经网络的视觉质量保持量化参数预测 - Google Patents

利用深层神经网络的视觉质量保持量化参数预测 Download PDF

Info

Publication number
CN110637460B
CN110637460B CN201880027382.3A CN201880027382A CN110637460B CN 110637460 B CN110637460 B CN 110637460B CN 201880027382 A CN201880027382 A CN 201880027382A CN 110637460 B CN110637460 B CN 110637460B
Authority
CN
China
Prior art keywords
image features
image
quantization parameter
neural network
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880027382.3A
Other languages
English (en)
Other versions
CN110637460A (zh
Inventor
徐迅
中村章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN110637460A publication Critical patent/CN110637460A/zh
Application granted granted Critical
Publication of CN110637460B publication Critical patent/CN110637460B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/197Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including determination of the initial value of an encoding parameter

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

QP映射方法能够在整个编码的帧中保持一致的视觉质量。它自动将更多位指派给对压缩失真更敏感的图像块。用于QP预测的纹理描述特征被快速计算,并且与深度神经网络一起,能够有效地近似从视觉质量测量推导的底层QP映射策略。

Description

利用深层神经网络的视觉质量保持量化参数预测
技术领域
本发明涉及视频编码。更具体而言,本发明涉及视频编码中的量化参数预测。
背景技术
在视频编码中,量化参数(Quantization Parameter,QP)是决定应当分配多少位来编码每个编码单位(图像块)的参数。常规地,QP常常被全局指派,从而导致统一的位分配策略。但是,这种策略导致视觉质量不一致,因为不同的图像块在隐藏由压缩引起的失真方面的能力有所不同。
发明内容
QP映射方法能够在整个编码的帧中保持一致的视觉质量。它自动将更多位指派给对压缩失真更敏感的图像块。用于QP预测的纹理描述特征被快速计算,并且与深度神经网络一起,能够有效地近似从视觉质量测量推导出的底层QP映射策略。
在一个方面,一种被编程在设备的非暂态存储器中的方法,包括:获取视频内容,从视频内容中提取图像特征,通过深度神经网络馈送图像特征,以及预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应。首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。所述方法还包括通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。图像特征包括:Haralick纹理描述符、全变分和方差。使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
在另一方面,一种系统,包括:透镜、传感器,被配置用于获取视频内容、以及处理部件,被配置用于从视频内容中提取图像特征,通过深度神经网络馈送图像特征并预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应。首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。处理部件还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。图像特征包括:Haralick纹理描述符、全变分和方差。使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
在另一方面,一种相机设备,包括:透镜;传感器,被配置用于获取视频内容;非暂态存储器,用于存储应用,所述应用用于:从视频内容中提取图像特征;通过深度神经网络馈送图像特征;以及预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应;以及处理部件,耦接到所述存储器,所述处理部件被配置用于处理所述应用。首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。所述应用还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。图像特征包括:Haralick纹理描述符、全变分和方差。使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
在另一方面,一种被编程在设备的非暂态存储器中的方法,包括:获取视频内容;使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止;以及利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数。视觉质量阈值是预先选择的。
在另一方面,一种系统,包括:透镜、传感器,被配置用于获取视频内容、以及处理部件,被配置用于使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止,并利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数。视觉质量阈值是预先选择的。
在另一方面,一种相机设备,包括:透镜;传感器,被配置用于获取视频内容;非暂态存储器,用于存储应用,所述应用用于:使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止;以及利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数;以及处理部件,耦接到所述存储器,所述处理部件被配置用于处理所述应用。视觉质量阈值是预先选择的。
附图说明
图1图示了根据一些实施例的视觉质量保持QP指派的图。
图2图示了根据一些实施例的QP预测神经网络的图。
图3图示了根据一些实施例的被配置为实现QP映射方法的示例性计算设备的框图。
具体实施方式
描述了一种将量化参数(QP)参数指派给图像块的框架,该框架具有跨编码的帧保持视觉质量的能力。描述了一种基于深度神经网络的快速、自动QP预测算法。在预测算法中使用各种有效的图像特征。
在视频编码中,量化参数(QP)是决定应当分配多少位来编码每个编码单位(图像块)的参数。这些参数在视频编码过程中是重要的,因为它们直接影响编码的视频的最终质量。
常规地,QP是全局指派的,从而产生统一的位分配策略。这种策略未考虑不同图像块的视觉特性。由于其各种视觉外观,不同的图像块在隐藏由压缩造成的失真方面的能力也有所不同。因此,一些图像块对压缩更敏感(例如,在这些块中更容易观察到压缩伪像);因此,应当为图像块分配更多的位或等效地指派较低的QP以进行编码。
QP指派的一种更合理的策略是保持统一的视觉质量,而不是统一的位数量。描述了指派QP参数的自动算法,例如,将每个图像块映射到QP值,该算法能够保持视觉质量。
视觉质量保持QP映射
为了设计能够保持视觉质量的QP映射策略,使用了一种视觉质量评估(VQA)方法。给定原始图像和失真图像(例如,压缩图像),这种VQA算法能够测量失真图像的质量。在不失一般性的前提下,假设算法将视觉质量评级为范围从0(低质量)到1(高质量)的实际值。本文描述的框架能够使用任何VQA算法。一种VQA算法是特征相似性索引模型(FSIM)。FSIM算法计算速度快,并且实现了相当不错的视觉质量测量。
虽然能够使用任何范围/数字,但首先将预选的视觉质量阈值(VQT)选择为0到1之间的数字,例如0.95。然后,对于每个给定的输入图像块(来自要压缩的原始视频帧),以所有可能的QP(范围从0到51的整数值)对其进行压缩。随着QP的增加,一般视觉质量测量会下降(虽然不一定单调)。当质量测量首次下降到VQT以下时恰好在前面的QP被确定为视觉质量保持QP(例如,用于训练神经网络的目标QP)。图1图示了保持视觉质量的QP指派的图。
对视频帧中的所有图像块执行该过程,将其映射到保持视觉质量的QP的映射。
用深度神经网络的QP映射预测
能够在视频编码工作流中直接执行QP映射过程。另一种方法是找到能够近似这种QP映射策略的快速算法。为此,采用了深度神经网络,如图2所示。网络的输入层包括使用特征提取器从输入图像块中提取的图像特征。特征在本文中描述。网络的输出层由52个节点(例如QP=0,...,QP=51)组成,每个节点与可能的QP值之一对应。输出节点的激活值在-1和1之间,而激活值最高的节点预测目标QP值。
首先通过为QP预测网络馈入从训练图像块中提取的大量图像特征来以无监督的方式对QP预测网络进行预训练。使用自动编码器框架执行预训练,在该框架中对网络参数进行调谐,以能够最好地重建训练输入。然后,由于本文所述的策略,通过馈入大量的图像特征对及其指派的QP值来进一步改善网络。使用反向传播算法来实现此目的。
用于QP预测神经网络的图像特征
三种不同类型的图像特征构成了QP预测神经网络的输入层:Haralick纹理描述符、全变分(total-variation)和方差。13维Haralick纹理描述符是从输入图像中提取纹理信息的经典特征。Haralick纹理描述符是从灰度共生矩阵(GLCM)计算得出的。全变分和方差特征是正在处理的图像内的像素值的统计信息。
空间金字塔框架被用于提取各种粒度的图像特征。将输入图像块顺序划分为一系列较小的子图像的网格。网格的尺寸为1x1(原始图像块)、2x2、4x4和8x8。对于这些网格中的每一个,针对每个子图像提取本文所述的图像特征,然后将这些子特征级联到最终特征向量中,该最终特征向量被馈送到QP预测神经网络中。
图3图示了根据一些实施例的被配置为实现QP映射方法的示例性计算设备的框图。计算设备300能够被用于获取、存储、计算、处理、传达和/或显示诸如图像和视频之类的信息。一般而言,适于实现计算设备300的硬件结构包括网络接口302、存储器304、处理器306、(一个或多个)I/O设备308、总线310和存储设备312。处理器的选择无关紧要,只要选择了具有足够速度的合适处理器即可。存储器304可以是本领域中已知的任何常规计算机存储器。存储设备312可以包括硬盘驱动器、CDROM、CDRW、DVD、DVDRW、高清光盘/驱动器、超HD驱动器、闪存卡或任何其它存储设备。计算设备300能够包括一个或多个网络接口302。网络接口的示例包括连接到以太网或其它类型的LAN的网卡。(一个或多个)I/O设备308能够包括以下一个或多个:键盘、鼠标、监视器、屏幕、打印机、调制解调器、触摸屏、按钮接口和其它设备。用于执行透镜-传感器倾斜校准方法的(一个或多个)QP映射应用330可能被存储在存储设备312和存储器304中,并且如通常处理应用那样被处理。图3中所示的更多或更少部件能够被包括在计算设备300中。在一些实施例中,包括QP映射硬件320。虽然图3中的计算设备300包括用于QP映射方法的应用330和硬件320,但是QP映射方法能够以硬件、固件、软件或其任何组合在计算设备上实现。例如,在一些实施例中,QP映射应用330在存储器中被编程并且使用处理器来执行。在另一个示例中,在一些实施例中,QP映射硬件320是被编程的硬件逻辑,其包括被专门设计用于实现QP映射方法的门。
在一些实施例中,(一个或多个)QP映射应用330包括数个应用和/或模块。在一些实施例中,模块还包括一个或多个子模块。在一些实施例中,能够包括更少或更多的模块。
合适的计算设备的示例包括个人计算机、膝上型计算机、计算机工作站、服务器、大型计算机、手持计算机、个人数字助理、蜂窝/移动电话、智能设备、游戏控制台、数字相机、数字摄像机、照相电话、智能电话、便携式音乐播放器、平板电脑、移动设备、视频播放器、视频光盘刻录机/播放机(例如,DVD刻录机/播放机、高清光盘刻录机/播放器、超高清光盘刻录机/播放器、电视、家庭娱乐系统、智能珠宝(例如,智能手表)或任何其它合适的计算设备。
为了利用本文描述的QP映射方法,使用诸如数字摄像机之类的设备来获取视频。QP映射方法被自动用于处理获取的数据。QP映射方法能够被自动实现,而无需用户参与。
在操作中,QP映射方法能够在整个编码的帧上保持一致的视觉质量。它自动将更多位指派给对压缩失真更敏感的图像块。用于QP预测的纹理描述特征被快速计算,并且能够有效地近似从视觉质量测量推导的底层QP映射策略。
利用深层神经网络的视觉质量保持量化参数预测的一些实施例
1、一种被编程在设备的非暂态存储器中的方法,包括:
a.获取视频内容;
b.从视频内容中提取图像特征;
c.通过深度神经网络馈送图像特征;以及
d.预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应。
2、如条款1所述的方法,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
3、如条款2所述的方法,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
4、如条款1所述的方法,还包括通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
5、如条款1所述的方法,其中图像特征包括:Haralick纹理描述符、全变分和方差。
6、如条款1所述的方法,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
7、如条款6所述的方法,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
8、一种系统,包括:
a.透镜
b.传感器,被配置用于获取视频内容;以及
c.处理部件,被配置用于从视频内容中提取图像特征,通过深度神经网络馈送图像特征并预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应。
9、如条款8所述的系统,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
10、如条款9所述的系统,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
11、如条款8所述的系统,其中处理部件还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
12、如条款8所述的系统,其中图像特征包括:Haralick纹理描述符、全变分和方差。
13、如条款8所述的系统,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
14、如权利要求13所述的系统,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
15、一种相机设备,包括:
a.透镜;
b.传感器,被配置用于获取视频内容;
c.非暂态存储器,用于存储应用,所述应用用于:
i.从视频内容中提取图像特征;
ii.通过深度神经网络馈送图像特征;以及
iii.预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应;以及
d.处理部件,耦接到所述存储器,所述处理部件被配置用于处理所述应用。
16、如条款15所述的相机设备,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
17、如条款16所述的相机设备,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
18、如条款15所述的相机设备,其中所述应用还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
19、如条款15所述的相机设备,其中图像特征包括:Haralick纹理描述符、全变分和方差。
20、如条款15所述的相机设备,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
21、如条款20所述的相机设备,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
22、一种被编程在设备的非暂态存储器中的方法,包括:
a.获取视频内容;
b.使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止;以及
c.利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数。
23、如条款22所述的方法,其中视觉质量阈值是预先选择的。
24、一种系统,包括:
a.透镜;
b.传感器,被配置用于获取视频内容;以及
c.处理部件,被配置用于使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止,并利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数。
25、如条款24所述的系统,其中视觉质量阈值是预先选择的。
26、一种相机设备,包括:
a.透镜;
b.传感器,被配置用于获取视频内容;
c.非暂态存储器,用于存储应用,所述应用用于:
i.使用从量化参数0开始的各量化参数来压缩视频内容的每个图像块,以及增大量化参数,直到压缩图像块的质量测量低于视觉质量阈值为止;以及
ii.利用具有低于视觉质量阈值的压缩图像块的质量测量的量化参数恰好之前的量化参数,作为视觉质量保持量化参数;以及
d.处理部件,耦接到所述存储器,所述处理部件被配置用于处理所述应用。
27、如条款26所述的相机设备,其中视觉质量阈值是预先选择的。
已经根据结合细节的具体实施例描述了本发明,以促进对本发明的操作和构造原理的理解。本文中对具体实施例及其细节的这种引用无意于限制所附权利要求的范围。对于本领域技术人员而言清楚的是,可以在选择用于说明的实施例中进行其它各种修改,而不脱离由权利要求书限定的本发明的精神和范围。

Claims (21)

1.一种被编程在设备的非暂态存储器中的方法,包括:
a.获取视频内容;
b.从视频内容中提取图像特征;
c.通过深度神经网络馈送图像特征;以及
d.预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应,其中输出层包括52个节点,每个节点与量化参数值之一对应。
2.如权利要求1所述的方法,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
3.如权利要求2所述的方法,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
4.如权利要求1所述的方法,还包括通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
5.如权利要求1所述的方法,其中图像特征包括:Haralick纹理描述符、全变分和方差。
6.如权利要求1所述的方法,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
7.如权利要求6所述的方法,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
8.一种系统,包括:
a.透镜
b.传感器,被配置用于获取视频内容;以及
c.处理部件,被配置用于从视频内容中提取图像特征,通过深度神经网络馈送图像特征并预测目标量化参数值,其中目标量化参数值与具有最高激活值的节点对应,其中输出层包括52个节点,每个节点与量化参数值之一对应。
9.如权利要求8所述的系统,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
10.如权利要求9所述的系统,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
11.如权利要求8所述的系统,其中处理部件还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
12.如权利要求8所述的系统,其中图像特征包括:Haralick纹理描述符、全变分和方差。
13.如权利要求8所述的系统,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
14.如权利要求13所述的系统,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
15.一种相机设备,包括:
a.透镜;
b.传感器,被配置用于获取视频内容;
c.非暂态存储器,用于存储应用,所述应用用于:
i.从视频内容中提取图像特征;
ii.通过深度神经网络馈送图像特征;以及
iii.预测目标量化参数值,其中目标量化参数值基于多个节点中的每个节点的激活值的比较而与具有最高激活值的节点对应,其中输出层包括52个节点,每个节点与量化参数值之一对应,其中每个节点的激活值在-1和1之间;以及
d.处理部件,耦接到所述存储器,所述处理部件被配置用于处理所述应用。
16.如权利要求15所述的相机设备,其中首先使用从训练图像块中提取的图像特征在没有监督的情况下对深度神经网络进行预训练。
17.如权利要求16所述的相机设备,其中预训练使用自动编码器框架,其中网络参数被调谐以重建训练输入。
18.如权利要求15所述的相机设备,其中所述应用还用于通过使用反向传播算法输入图像特征及其指派的量化参数值来改善神经网络。
19.如权利要求15所述的相机设备,其中图像特征包括:Haralick纹理描述符、全变分和方差。
20.如权利要求15所述的相机设备,其中使用空间金字塔框架执行对图像特征的提取以提取各种粒度的图像特征。
21.如权利要求20所述的相机设备,其中空间金字塔框架包括:将图像块顺序划分为一系列较小的子图像的网格,对于每个网格,为每个子图像提取图像特征,然后将图像特征级联到输入到神经网络中的最终特征向量。
CN201880027382.3A 2017-07-11 2018-06-29 利用深层神经网络的视觉质量保持量化参数预测 Active CN110637460B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/646,737 2017-07-11
US15/646,737 US10728553B2 (en) 2017-07-11 2017-07-11 Visual quality preserving quantization parameter prediction with deep neural network
PCT/IB2018/054832 WO2019012363A1 (en) 2017-07-11 2018-06-29 PREDICTION OF QUANTIFICATION PARAMETER PRESERVING VISUAL QUALITY THROUGH DEEP NEURAL NETWORK

Publications (2)

Publication Number Publication Date
CN110637460A CN110637460A (zh) 2019-12-31
CN110637460B true CN110637460B (zh) 2021-09-28

Family

ID=63209629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880027382.3A Active CN110637460B (zh) 2017-07-11 2018-06-29 利用深层神经网络的视觉质量保持量化参数预测

Country Status (5)

Country Link
US (1) US10728553B2 (zh)
JP (1) JP7026878B2 (zh)
KR (1) KR20190127909A (zh)
CN (1) CN110637460B (zh)
WO (1) WO2019012363A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195096B2 (en) * 2017-10-24 2021-12-07 International Business Machines Corporation Facilitating neural network efficiency
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
US10560696B2 (en) * 2018-06-25 2020-02-11 Tfi Digital Media Limited Method for initial quantization parameter optimization in video coding
US10963742B2 (en) * 2018-11-02 2021-03-30 University Of South Florida Leveraging smart-phone cameras and image processing techniques to classify mosquito genus and species
KR20200082227A (ko) * 2018-12-28 2020-07-08 한국전자통신연구원 오디오 신호를 위한 손실 함수 결정 방법 및 손실 함수 결정 장치
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US20210233259A1 (en) * 2020-01-28 2021-07-29 Ssimwave Inc. No-reference visual media assessment combining deep neural networks and models of human visual system and video content/distortion analysis
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置
KR20210155695A (ko) 2020-06-16 2021-12-23 삼성전자주식회사 화질 튜닝을 수행하는 이미지 처리 시스템 및 화질 튜닝 방법
US11335033B2 (en) * 2020-09-25 2022-05-17 Adobe Inc. Compressing digital images utilizing deep learning-based perceptual similarity
KR20220043694A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 영상을 처리하는 디바이스 및 그 동작 방법
CN114363624B (zh) * 2020-10-13 2023-03-31 北京大学 一种基于敏感度的码率分配特征压缩方法
CN112733863B (zh) * 2021-01-07 2022-06-07 苏州浪潮智能科技有限公司 一种图像特征提取方法、装置、设备及存储介质
CN113259163B (zh) * 2021-05-17 2022-02-08 云南大学 一种基于网络拓扑感知的Web服务质量预测方法及系统
EP4145394A1 (en) * 2021-09-06 2023-03-08 Nokia Technologies Oy Personalized perceptual video encoder for mission-critical tasks
WO2023169501A1 (en) * 2022-03-09 2023-09-14 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for visual data processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101325707A (zh) * 2007-06-12 2008-12-17 浙江大学 纹理自适应视频编解码系统
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
WO2016150472A1 (en) * 2015-03-20 2016-09-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Relevance score assignment for artificial neural network
CN106485316A (zh) * 2016-10-31 2017-03-08 北京百度网讯科技有限公司 神经网络模型压缩方法以及装置
CN106778918A (zh) * 2017-01-22 2017-05-31 北京飞搜科技有限公司 一种应用于手机端的深度学习图像识别系统及实现方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5444820A (en) * 1993-12-09 1995-08-22 Long Island Lighting Company Adaptive system and method for predicting response times in a service environment
KR0139154B1 (ko) * 1994-07-08 1998-06-15 김광호 신경망을 이용한 부호화방법 및 그 장치
US6832006B2 (en) 2001-07-23 2004-12-14 Eastman Kodak Company System and method for controlling image compression based on image emphasis
US20060280242A1 (en) 2005-06-13 2006-12-14 Nokia Corporation System and method for providing one-pass rate control for encoders
US8243737B2 (en) 2009-03-23 2012-08-14 Lsi Corporation High speed packet FIFO input buffers for switch fabric with speedup and retransmit
US20120316421A1 (en) * 2009-07-07 2012-12-13 The Johns Hopkins University System and method for automated disease assessment in capsule endoscopy
US9292933B2 (en) * 2011-01-10 2016-03-22 Anant Madabhushi Method and apparatus for shape based deformable segmentation of multiple overlapping objects
US8594385B2 (en) * 2011-04-19 2013-11-26 Xerox Corporation Predicting the aesthetic value of an image
US8731323B2 (en) * 2011-11-23 2014-05-20 Stmicroelectronics Asia Pacific Pte Ltd. General banding and codec banding artifact removal
US9143776B2 (en) * 2012-05-07 2015-09-22 Futurewei Technologies, Inc. No-reference video/image quality measurement with compressed domain features
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9536177B2 (en) * 2013-12-01 2017-01-03 University Of Florida Research Foundation, Inc. Distributive hierarchical model for object recognition in video
US20170272778A9 (en) * 2014-01-06 2017-09-21 Samsung Electronics Co., Ltd. Image encoding and decoding methods for preserving film grain noise, and image encoding and decoding apparatuses for preserving film grain noise
US20150193947A1 (en) * 2014-01-06 2015-07-09 Qualcomm Incorporated System and method to generate high dynamic range images with reduced ghosting and motion blur
US9639806B2 (en) * 2014-04-15 2017-05-02 Xerox Corporation System and method for predicting iconicity of an image
US10373050B2 (en) * 2015-05-08 2019-08-06 Qualcomm Incorporated Fixed point neural network based on floating point neural network quantization
US10499056B2 (en) 2016-03-09 2019-12-03 Sony Corporation System and method for video processing based on quantization parameter

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101325707A (zh) * 2007-06-12 2008-12-17 浙江大学 纹理自适应视频编解码系统
WO2016150472A1 (en) * 2015-03-20 2016-09-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Relevance score assignment for artificial neural network
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN106485316A (zh) * 2016-10-31 2017-03-08 北京百度网讯科技有限公司 神经网络模型压缩方法以及装置
CN106778918A (zh) * 2017-01-22 2017-05-31 北京飞搜科技有限公司 一种应用于手机端的深度学习图像识别系统及实现方法

Also Published As

Publication number Publication date
US10728553B2 (en) 2020-07-28
CN110637460A (zh) 2019-12-31
US20190020871A1 (en) 2019-01-17
JP2020518191A (ja) 2020-06-18
JP7026878B2 (ja) 2022-03-01
KR20190127909A (ko) 2019-11-13
WO2019012363A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
CN110637460B (zh) 利用深层神经网络的视觉质量保持量化参数预测
CN108780499B (zh) 基于量化参数的视频处理的系统和方法
US10726299B2 (en) Sorted geometry with color clustering (SGCC) for point cloud compression
Liu et al. PQA-Net: Deep no reference point cloud quality assessment via multi-view projection
Bosse et al. A deep neural network for image quality assessment
CN107895359B (zh) 使用图像分析算法给神经网络提供训练数据的方法和系统
CN111869220B (zh) 电子装置及其控制方法
CN110717953B (zh) 基于cnn-lstm组合模型的黑白图片的着色方法和系统
US20150110386A1 (en) Tree-based Linear Regression for Denoising
US11636626B2 (en) Apparatus and method of using AI metadata related to image quality
US9245354B2 (en) System and method having transparent composite model for transform coefficients
CN111179201B (zh) 一种视频去噪方法和电子设备
CN111047543A (zh) 图像增强方法、装置和存储介质
EP3343445A1 (en) Method and apparatus for encoding and decoding lists of pixels
Athar et al. Degraded reference image quality assessment
WO2020113068A1 (en) Block-based picture fusion for contextual segmentation and processing
CN111488476B (zh) 图像推送方法、模型训练方法及对应装置
Ding et al. Improved frequency table adjusting algorithms for context-based adaptive lossless image coding
RU2782583C1 (ru) Слияние изображений на блочной основе для контекстной сегментации и обработки
Dranoshchuk et al. About perceptual quality estimation for image compression
Mei et al. Lightweight High-Performance Blind Image Quality Assessment
WO2024084660A1 (ja) 画像符号化装置、画像復号装置、画像処理システム、モデル学習装置、画像符号化方法、画像復号方法、および、コンピュータ可読記憶媒体
CN111918070B (zh) 图像重建方法及图像解码设备
EP4391533A1 (en) Feature map encoding method and apparatus and feature map decoding method and apparatus
Laazoufi et al. Point Cloud Quality Assessment using 1D VGG16 based Transfer Learning Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant