CN108780499B - 基于量化参数的视频处理的系统和方法 - Google Patents

基于量化参数的视频处理的系统和方法 Download PDF

Info

Publication number
CN108780499B
CN108780499B CN201780015278.8A CN201780015278A CN108780499B CN 108780499 B CN108780499 B CN 108780499B CN 201780015278 A CN201780015278 A CN 201780015278A CN 108780499 B CN108780499 B CN 108780499B
Authority
CN
China
Prior art keywords
image
image block
video
features
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780015278.8A
Other languages
English (en)
Other versions
CN108780499A (zh
Inventor
叶鹏
徐迅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN108780499A publication Critical patent/CN108780499A/zh
Application granted granted Critical
Publication of CN108780499B publication Critical patent/CN108780499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本文公开了基于量化参数处理视频的系统和方法的各个方面。在实施例中,所述方法包括提取用于捕获图像块的纹理信息的多个特征。训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数。通过使用所确定的最佳量化参数对该图像块进行编码。

Description

基于量化参数的视频处理的系统和方法
相关申请的交叉引用/通过引用并入
技术领域
本公开的各种实施例涉及视频处理。更具体地,本公开的各种实施例涉及基于量化参数的视频处理。
背景技术
视频处理技术领域的进步革新了数字产业及其相关设备和应用。随着高分辨率视频内容服务的普及,视频编码技术的发展变得越来越重要。
在某些场景中,当用于编码视频内容的一个或多个图像块的比特数减少时,可能难以在不同图像块和/或图像帧上维持特定质量水平的视频内容。可能需要先进的系统的技术,使得视频质量不会在不同的图像块和/或图像帧上波动,并且可以在编码的视频中优化整体视频质量。
通过与如本申请的其余部分和参考附图所述的具有本公开的某些方面的所述系统进行比较,常见的和传统的方法的进一步限制和缺点对于本领域技术人员将是明晰的。
发明内容
一种基于量化参数处理视频内容的系统和方法,基本上如至少一幅附图所示和/或结合其所述,在权利要求中更完整地记载。
通过阅读本公开的以下详细描述以及附图,可以理解本公开的这些和其他特征和优点,附图中相同的附图标记始终表示相同的部分。
附图说明
图1是示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的网络环境的框图。
图2是示出了根据本公开的实施例的示例性视频处理设备的框图。
图3示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的示例性最佳量化参数预测技术。
图4示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的前馈神经网络的示例性概览。
图5A和图5B共同描述了根据本公开的实施例的示出基于量化参数处理视频的示例性方法的流程图。
具体实施方式
以下描述的实现可以在所公开的基于量化参数处理视频的系统和方法中被找到。本公开的示例性方面可以包括可以提取图像块的用于捕获纹理信息的多个特征的方法。可以训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数(QP)。可以通过使用所确定的最佳QP来编码图像块。
根据实施例,第一图像帧的图像块可以由多个QP编码,多个QP用于生成第一图像帧的图像块的多个重建图像块。可以对多个重建图像块中的每一个利用图像质量测量,以确定该图像块的最佳QP。
根据实施例,图像质量测量可以是基于卷积神经网络的全参考图像质量测量。可以通过使用图像质量测量为多个重建图像块中的每一个生成分数。该分数可以表示多个重建图像块中的每一个的视觉质量的测量。
根据实施例,所确定的最佳QP的值可以在用于生成该图像块的多个重建图像块的多个QP的值中最高。所确定的最佳QP的值也可以大于或等于预先指定的图像质量阈值。
根据实施例,可以基于提取的多个特征生成训练数据集,所述多个特征对应于所确定的图像块的最佳QP。生成的训练数据集可以包括视频的第一图像帧的其他图像块的多个特征和对应的最佳QP。可以提取其他图像块的多个特征以捕获其他图像块的纹理信息。
根据实施例,生成的训练数据集可以用于训练神经网络回归器。可以基于该训练的神经网络回归器确定该图像块的所提取的多个特征与所确定的最佳QP之间的映射函数。根据实施例,神经网络回归器可以是基于前馈神经网络的回归模型。基于所述训练的神经网络回归器,可以为第二图像帧的另一个图像块预测另一最佳QP。
图1是示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的网络环境的框图。参考图1,示出了视频处理设备102、显示设备104、通信网络106、视频108和一个或多个用户,诸如用户110。
根据实施例,视频处理设备102可以经由通信网络106被通信地耦合到显示设备104和一个或多个服务器(未示出)上。根据实施例,用户可以与显示设备104和/或视频处理设备102相关联。
视频处理设备102可以包括合适的逻辑、电路、接口和/或代码,其可以处理诸如视频108的一个或多个视频内容,以生成编码的视频。视频处理设备102的示例可以包括但不限于数码相机、便携式摄像机、视频编解码器、智能手机、投影仪、平板电脑、笔记本电脑、服务器、游戏设备、媒体流设备、视频会议装备和/或编码器和/或其他计算设备。
显示设备104可以包括合适的逻辑、电路、接口和/或代码,其配置为在解码之后呈现所编码的视频。显示设备104的示例可以包括但不限于电视(诸如高清电视(HDTV))、超高清电视(UHDTV)、互联网协议电视(IPTV)、数字媒体接收器、媒体回放设备、视频编解码器、智能手机、游戏设备、视频会议装备和/或解码器和/或其他计算设备。
通信网络106可以包括媒体和一个或多个服务器,视频处理设备102可以通过该媒体与一个或多个显示设备(诸如显示设备104)通信。通信网络106的示例可以包括但不限于因特网、云网络、无线局域网(WLAN)、局域网(LAN)、普通老式电话服务(POTS)和/或城域网(MAN)。根据各种有线和无线通信协议,网络环境100中的各种设备可用于连接到通信网络106。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和因特网协议(TCP/IP)、长期演进(LTE)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、红外(IR)、IEEE 802.11、IEEE 802.16、蜂窝通信协议和/或蓝牙(BT)通信协议。
在操作中,视频处理设备102可以被配置为接收视频108的图像序列。视频处理设备102可以被配置为提取用于捕获图像块的纹理信息的多个特征(图2中所述)。图像块可以指的是视频108的第一图像帧的输入图像块。视频处理设备102可以被配置为利用多个QP对第一图像帧的图像块进行编码,以生成第一图像帧的输入图像块的多个重建图像块。
根据实施例,视频处理设备102可以被配置为对多个重建图像块中的每一个生成分数。可以通过使用图像质量测量来生成该分数。图像质量测量可以是基于卷积神经网络(FRCNN)的全参考图像质量测量。尽管如此,在不脱离本公开的范围的情况下,图像质量测量可以是用于客观图像质量评估的任何其他方法,诸如其他全参考方法、半参考方法和/或无参考方法。所生成的分数可以表示多个重建图像块中的每一个的视觉质量的测量。
根据实施例,视频处理设备102可以被配置为从多个QP值中确定该图像块的最佳量化参数(图3中详细示出和描述)。可以通过对多个重建图像块中的每一个使用图像质量测量(诸如FRCNN)和质量阈值来确定图像块的最佳QP。所确定的最佳QP的值可以是该多个QP的值中最高的一个。所确定的最佳QP的值可以大于或等于预先指定的图像质量阈值。
根据实施例,视频处理设备102可以被配置为通过使用所确定的最佳量化参数来对图像块进行编码。视频处理设备102可以被配置为提取视频108的第一图像帧的另一图像块的多个特征。视频处理设备102进一步可以被配置为确定另一图像块的最佳QP。这可以通过使用诸如FRCNN的图像质量测量和质量阈值的类似于上述的过程来完成。
根据实施例,视频处理设备102可以被配置为生成训练数据集。该训练数据集可以是基于图像块的所提取的多个特征和对应确定的最佳QP。类似地,另一个图像块的所提取的多个特征和对应确定的最佳QP也可以被用来形成训练数据集。大的训练数据集可以通过使用视频108的一个或多个图像帧(诸如至少第一图像帧)的各个图像块的多个特征和相关的最佳QP来生成。
根据实施例,视频处理设备102可以被配置为基于所生成的训练数据集训练神经网络回归器。根据实施例,神经网络回归器可以是基于前馈神经网络的回归模型。视频处理设备102可以被配置为在训练神经网络回归器的过程中,确定各个图像块(诸如该图像块和另一个图像块)的所提取的多个特征与所确定的最佳QP之间的映射函数和/或关系。
根据实施例,在训练神经网络回归器之后,视频处理设备102可以被配置为处理视频108或另一视频的后续图像帧(诸如第二图像帧)的图像块。视频处理设备102可以被配置为通过使用所训练的神经网络回归器来确定(或预测)第二图像帧的图像块的另一个最佳QP。类似地,通过使用相关的最佳QP,视频108的第二图像帧和其他图像帧的各个图像块可以被高效且快速地编码。最佳QP可以基于所训练的神经网络回归器来预测,并且可以被用来生成编码视频。通过使用如上所述的编码技术进行编码的视频108可以在该编码视频的不同图像块和/或编码图像帧上保持一致的视觉质量。
根据实施例,与存储视频108所需的存储空间相比,编码视频可以被存储在减少的存储空间中。由于量化操作是有损压缩,因此可以在不同的图像块和/或图像帧上保持视频质量的一致性的同时实现高压缩。如上所述,这可以通过使用编码技术来实现。视频处理设备102可以将编码视频存储在视频处理设备102的本地存储器(诸如内存)或内容服务器(未示出)中。根据实施例,编码中使用的最佳QP的值可以与编码视频一起存储。
根据实施例,编码视频可以在视频处理设备102处通过使用与编码时使用的相同的最佳QP来进行解码。在回放期间,视频质量不会在不同图像块和/或图像帧上波动。进一步,整体视频质量可以在用户(诸如用户110)观看时被优化。根据实施例,编码视频可以通过通信网络106被发送给一个或多个显示设备,诸如显示设备104。在这种情况下,编码视频可以被解码并随后在显示设备104处呈现。如用户110在回放期间所感知到的整体视频质量可被高度优化。
图2是示出了根据本公开的实施例的示例性视频处理设备的框图。参考图2,示出了视频处理设备102。视频处理设备102可以包括一个或多个处理器,例如处理器202、存储器204和网络接口206。处理器202可以通信地耦合到存储器204和网络接口206上。网络接口206可以被配置为经由通信网络106与显示设备104和一个或多个服务器通信。
处理器202可以包括合适的逻辑、电路、接口和/或代码,其可被配置为执行存储在存储器204中的一组指令。处理器202可以被称为视频处理器。处理器202可以基于本领域已知的多个处理器技术被实现。处理器202的示例可以是基于X86的处理器、基于X86-64的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、中央处理单元(CPU)、显式并行指令计算(EPIC)处理器、超长指令字(VLIW)处理器和/或其他处理器或电路。
存储器204可以包括合适的逻辑、电路和/或接口,其可以被配置为存储可由处理器202执行的机器代码和/或指令集。存储器204可以进一步操作用于存储视频内容,诸如视频108、编码视频和/或其他数据。存储器204可进一步操作用于存储操作系统和相关应用。存储器204的实现示例可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。
网络接口206可以包括合适的逻辑、电路、接口和/或代码,其可以被配置为经由通信网络106与显示设备104和一个或多个服务器通信。网络接口206可以实现已知技术以支持视频处理设备102与通信网络106间的有线或无线通信。网络接口206可以包括各种组件,诸如但不限于天线、收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、用户识别模块(SIM)卡和/或本地缓冲器。网络接口206可以通过使用各种通信协议经由有线或无线通信进行通信,通信协议如先前在图1中关于通信网络106所述。
在操作中,处理器202可以被配置为接收视频108的图像序列。处理器202可以被配置为提取视频108的第一图像帧的图像块的多个特征以捕获其纹理信息。根据实施例,用于捕获纹理信息的多个特征可以是Haralick纹理描述符、全变差和方差特征。Haralick纹理描述符可以从灰度共生矩阵(GLCM)计算,以提供经典的13个纹理特征,例如本领域已知的角二阶矩(ASM)、对比度、相关性、平方和、逆差矩、和平均、和方差、和熵、熵、差分方差、差熵、相关性信息度量1和相关性信息度量2。对于像素的“N”灰度和空间关系(诸如上方、旁边、对角关系),GLCM是“N×N”矩阵,其捕获在给定空间关系下两个灰度可以共同出现的概率。可以基于GLCM矩阵统计地计算GLCM特征。根据实施例,用于计算GLCM的灰度的数量可以根据各种要求适当地改变。全变差和方差特征可以提供可以处理的图像或图像块内的像素值的统计。
根据实施例,为了以各种粒度提取多个特征,可以将输入图像块顺序地划分为一系列较小子图像的网格。网格的大小可以是1x1(原始图像块)、2x2、4x4和8x8之一。对于每个网格,针对每个子图像提取上述多个特征,然后将这些子特征连接成最终特征向量,该向量可以稍后用于馈送到QP预测神经网络(诸如图4中描述的前馈神经网络)。用于捕获纹理信息的多个特征可以构成QP预测神经网络的输入层。例如,在这种情况下,可以提取总共15个特征(来自Haralick纹理描述符的13个纹理特征,来自全变差和方差各一个特征),其可以组成QP预测神经网络的输入层。用于QP预测神经网络的多个特征(诸如图4中所述的前馈神经网络)可以快速计算并有效地将下面的纹理特征近似为QP映射策略(如图3和图4所述)。
图3示出了根据本公开的实施例的用于实现所公开的基于QP处理视频的系统和方法的示例性最佳QP预测技术。参考图3,示出了可以是未压缩图像块的图像块302、多个QP值304、诸如重建图像块306a至306n的多个重建图像块306、图像质量测量308以及多个分数310。
在基于块的视频编码技术中,QP确定用于编码诸如图像块302的图像块的比特数。进一步,QP控制一个或多个重建块(诸如用于图像块302的重建图像块306a至306n)的视觉质量。一般地,较小的QP产生较高的视觉质量。然而,以这种方式确定的这种较高的视觉质量可能以较高比特率的代价发生。理想地,可以使用诸如QP=“1”的小QP来实现最佳视觉质量。然而,比特率可能受到外部资源的限制,诸如受到网络(诸如通信网络106)的带宽的限制。对于给定的速率,可能要求为每个图像块适当分配QP,以便视频质量可以在该视频(诸如视频108)的不同图像块和图像帧上保持一致并因此不波动。
根据实施例,处理器202可以被配置为对视频108的第一图像帧的图像块302进行编码。在这种情况下,多个QP值304,诸如QP值“1”至“N”(QP1至QPN)可用于生成重建图像块306a至306n。例如,当“N”=“1”至“52”时,范围从“1”至“52”的QP值可用于编码图像块302。在此过程中,总共“52”个重建(或降质)的图像块可以被获取。然后可以测量每个重建图像块306a至306n的视觉质量。可以期望该图像质量测量通过主观测试由人来分配。然而,执行这种大规模主观测试将是耗时且昂贵的。
信号保真度测量,诸如峰值信噪比(PSNR)或均方误差(MSE),被广泛用于测量图像失真。然而,人类的感知不与这些测量非常相关。例如,具有相同PSNR的两个块可能具有非常不同的感知质量。因此,使用粗劣的质量测量可能导致在块和帧上的质量波动。这种波动会显著降低视觉感知或视觉质量。可以使用合适的图像质量测量来近似主观质量。
根据实施例,处理器202可以被配置为利用基于卷积神经网络(FRCNN)的全参考图像质量测量来确定每个重建图像块306a至306n的视觉质量。FRCNN质量测量可以近似于主观质量,并且可以是可靠的、计算上高效的和成本有效的图像质量测量。
根据实施例,处理器202可以被配置为通过使用诸如FRCNN的图像质量测量,为多个重建图像块306中的每一个生成诸如“S1至SN”的分数。所生成的分数可以表示多个重建图像块306中的每一个的视觉质量的测量。较高分数可以表示较高质量。然后可以指定质量阈值,该质量阈值表示在重建的视频中需要实现的质量水平。处理器202可以被配置为基于质量阈值和通过使用图像质量测量(诸如FRCNN)生成的多个分数310来确定最佳QP。最佳QP可以是满足质量阈值的多个QP值304中的最高QP值。根据实施例,质量阈值可以是预先指定的阈值量。例如,对于图像块302(未压缩图像块)“I”和质量阈值“θ”,分配给图像块302的QP值可以由以下数学表达式表示:
根据实施例,处理器202可以被配置为,以类似于上述过程的方式,提取特征并随后对视频108的第一图像帧(视频帧)的所有图像块进行编码。因此,在这种情况下,每个图像块可以被自动映射到一个QP值,其可以保持诸如视频108的第一图像帧和后续图像帧的图像帧的视觉质量。
通常,QP常是全局(globally)分配的。例如,可以使用统一的QP值来编码一个图像帧中的所有图像块。这可能导致统一的比特分配策略。然而,不同图像块的视觉特性可能未纳入考虑。由于它们不同的视觉外观,不同的图像块在隐藏由编码(压缩)过程引起的失真的能力上不同。结果,一些图像块可能对压缩更敏感。也就是说,在这些不同的图像块中可以更容易地观察到压缩伪像。应该为这样的图像块分配更多比特以编码或等效地分配更低的QP。统一比特分配,不考虑不同图像块的视觉特性,可能无法在图像帧上保持一致的视觉质量,因为不同的图像块由于其变化的视觉特性而在压缩之后将具有变化的视觉质量,如上所论述。因此,用于QP分配的更合理的技术或策略是为了保持统一的视觉质量,而不是统一的比特数,如有关图1、图2和图3的公开中所描述的。所公开的处理视频的系统和方法可以提供QP映射策略,其能够在编码的图像帧上保持一致的视觉质量。它可以使能更多比特自动分配给对压缩失真更敏感的图像块。根据实施例,可以通过提高处理性能来进一步加速这种最佳QP的确定。通过使用深度神经网络(诸如用于回归的前馈神经网络)可以实现降低的计算成本。
图4示出了根据本公开的实施例的用于实现所公开的基于量化参数处理视频的系统和方法的前馈神经网络的示例性概览。参考图4,示出了前馈神经网络400,其可以包括输入层402、多个隐藏层404和输出层406。
前馈神经网络400的输入层402可以包括与从输入图像块提取的纹理信息有关的多个特征。多个隐藏层404,诸如在这种情况下的3个隐藏层,可以包括多个节点。在这种情况下,每个层可以包括80个节点。整流线性单元“ReLU”可以实现激活函数“f(x)”,该函数可以在每个隐藏层中使用。激活函数“f(x)”可以基于以下数学表达式(2)来确定:
ReLU f(x)=max(x,0)……………………(2)
前馈神经网络400的输出层406可以包括“52”节点,每个节点对应于可能的QP值之一。输出节点具有在“-1”和“1”之间的激活值,其中具有最高激活的节点可以预测目标最佳QP值。
用于对每个图像块进行最佳QP预测以对视频108的第一图像帧的图像块进行编码(如图3所示)的过程,可以针对大的训练图像块集被重复。这可以用于生成训练数据集。所生成的训练数据集可以用于训练前馈神经网络400(神经网络回归器)以生成学习型(learned)(或训练的(trained))神经网络回归器。可以在该过程中使用学习型神经网络回归器来快速且可靠地将给定图像块的提取的纹理特征映射到最佳QP。由于用所有可能的QP值多次编码每个图像块所需的计算资源和相关成本可能很高,因此可以进一步优化和简化这种最佳QP预测以用于实际应用。这可以通过使用可以基于基于前馈神经网络的回归模型的前馈神经网络400来进行。
根据实施例,前馈神经网络400可以以无人监督的方式训练并且可以是自组织的。在这种情况下,从训练图像块提取的大量图像纹理特征可以被馈送到输入层402。训练(或预训练)可以由自动编码框架执行,其中前馈神经网络400的参数可以被调谐以能够以最佳可能方式形成训练输入。根据实施例,可以使用反向传播算法来实现这一点。例如,设训练样本的数量为“K”,其纹理特征向量可以表示为“fk”,QP值可以表示为“yk”,其中”“k=1,...,K”。则可以通过最小化以下目标函数(3)来优化网络参数“(W)”(诸如前馈神经网络400的参数):
其中“F”表示由前馈神经网络400指定的功能,“F(fk;W)”是输入“fk”的网络输出。优化可以通过反向传播来实现。
根据实施例,可以利用最佳QP预测技术通过馈送大量提取的纹理特征对(如图2和图3中所述)及其相关的确定的最佳QP值来改进前馈神经网络400,如图3所示。根据实施例,处理器202可以被配置为确定诸如与训练图像块相关的纹理特征的多个特征和确定的最佳QP值之间的映射函数。因此,前馈神经网络400可以在训练期间学习不同输入(诸如所提取的用于捕获不同训练图像块的纹理信息的多个特征)和输出(诸如确定的该图像块对应的最佳QP值)之间的关系。
根据实施例,在训练期间,可以训练前馈神经网络400用于分类。在这种情况下,可以使用神经网络分类器来预测用于视频编码的图像块的最佳QP。分类方案将不同的QP值“(1~52)”视为分类值或标签而不是具有顺序的实数。例如,在分类中,将QP=“1”的图像块错误分类为QP=“2”和QP=“52”的惩罚可以相等。然而,对于QP=“1”的块,与QP=“52”的预测相比,QP=“2”的错误预测更接近真实标签,因此,对这两个错误的惩罚应该给予不同,且将QP=“1”错误分类为QP=“52”应该给予更高的惩罚。
根据实施例,在训练中,前馈神经网络400可以被训练用于回归而不是分类。根据实施例,在训练中,当前馈神经网络400被训练用于回归(称为“神经网络回归器”)时,QP值被视为具有顺序的实数。在这种情况下,将QP=“1”错误分类为QP=“52”的惩罚高于将QP=“1”错误分类为QP=“2”的惩罚,如在神经网络回归器中那样。在这种情况下,QP值被视为具有顺序的实数。
根据实施例,当后续图像帧的另一图像块(诸如视频108的第二图像帧)要被编码时,处理器202可被配置为提取用于捕获另一图像块的纹理信息的多个特征。处理器202可以被配置为通过使用训练的(或学习的)前馈神经网络400(神经网络回归器)来快速映射另一图像块的提取的特征来确定最佳QP。基于所提取的特征,诸如Haralick纹理描述符、全变差和方差特征,多个隐藏层404中的完全连接的节点可以使用根据数学表达式(2)的激活函数。输出层406中的一个节点可以具有最高的激活值,诸如“1”,如同所示。最高值的出现可以表示用于另一个图像块所提取的特征的最佳QP值。
根据实施例,处理器202可以被配置为基于训练的(学习的)前馈神经网络400(学习的神经网络回归器)来预测第二图像帧的另一图像块的最佳QP。处理器202可以被配置为通过使用预测的最佳QP来编码另一个图像块。因此,通过利用使用神经网络回归器的方法,可以提供系统且高效的机制以建立图像内容(诸如纹理特征)与最佳QP之间的关系。可以通过使用训练的神经网络回归器来编码视频108或另一输入视频的图像帧序列的不同图像块,其中压缩伪像可能在编码图像块中不可见。视频质量可以在输入视频(诸如视频108或其他输入视频)的不同图像块和图像帧上是一致的(并且可以不波动)。
根据实施例,一旦训练了神经网络回归器,处理器202就可以快速处理视频以生成编码视频,该编码视频可以在不同图像块上具有一致的质量。这种优化的视频处理和编码技术对于编码高分辨率视频服务(诸如UHDTV或4KTV和4K内容流服务)中使用的视频非常有用。所公开的处理视频的系统和方法还可以在视频会议、视频电话、数字视频广播、网络视频和数字影像产业中找到应用。所公开的处理视频的系统和方法还在诸如媒体编码器或媒体播放器的视频处理设备和视频编解码器应用中找到应用,其要求用于减少的存储空间的视频编码和/或在通信网络(诸如通信网络106)上优化的数据传输速率而不损害视频质量(诸如人类感知的视频质量)。
图5A和图5B共同描述了根据本公开的实施例的示出基于QP处理视频的示例性方法的流程图。参考图5A和图5B,示出了流程图500。流程图500是结合图1、图2、图3和图4来描述的。该方法在步骤502开始并进行到步骤504。
在步骤504,可以接收诸如视频108的视频的图像序列。在步骤506,可以提取用于捕获视频(诸如视频108)的第一图像帧的输入图像块的纹理信息的多个特征。根据实施例,捕获纹理信息的多个特征可以是Haralick纹理描述符、全变差和方差(如先前图2中所述)。
在步骤508,可以用多个QP值(诸如QP“1”至“N”)对第一图像帧的图像块(诸如图像块302)进行编码,以生成第一图像帧的图像块的多个重建图像块(诸如重建图像块306a至306n)。在步骤510,可以利用诸如FRCNN的图像质量测量来确定多个重建图像块(诸如重建图像块306a至306n)中的每一个的视觉质量。FRCNN质量测量可以近似于主观质量,并且可以是用于QP预测目的的可靠、计算上高效且成本有效的图像质量测量。
在步骤512,可以为多个重建图像块(诸如重建图像块306a至306n)中的每一个生成分数。可以通过使用诸如FRCNN的图像质量测量来生成这样的分数(诸如由“S1至SN”描述的多个分数310)。生成的分数可以表示多个重建图像块中的每一个的视觉质量的测量。在步骤514,可以通过使用图像质量测量(诸如FRCNN)和质量阈值从多个QP值中确定最佳QP。该最佳QP可以是满足质量阈值的多个QP值中最高的QP值。
在步骤516,可以确定所提取的用于捕获一个或多个图像块(诸如第一图像帧的图像块)的纹理信息的多个特征和相关的确定的最佳QP是否大于预先指定的阈值量。例如,预先指定的阈值量可以对应于可能已经处理的某些预先指定数量的图像块和/或与其相关的确定的最佳QP。在所提取的用于捕获一个或多个图像块的纹理信息的多个特征和相关的确定的最佳QP小于预先指定的阈值量的情况下,控制可以转到步骤518。在所提取的用于捕获一个或多个图像块的纹理信息的多个特征和相关的确定的最佳QP等于或大于预先指定的阈值量的情况下,控制可以转到步骤520。
在步骤518,可以提取用于捕获另一输入图像块(诸如视频108的第一图像帧的另一图像块)的纹理信息的多个特征。控制可以返回到步骤508,并且可以重复步骤508到514以确定输入图像块的最佳QP。
在步骤520,可以基于所提取的一个或多个图像块的多个特征以及该一个或多个图像块的对应确定的最佳QP来生成训练数据集,如上所述。为了生成大的训练数据集,可以使用视频的至少第一图像帧的所有图像块的多个特征和相关的最佳QP。在步骤522,可以基于所生成的训练数据集来训练神经网络回归器(如图4所示)。
在步骤524,可以在训练神经网络回归器的同时确定一个或多个图像块的所提取的多个特征与所确定的最佳QP之间的映射函数和/或关系。神经网络回归器可以是基于前馈神经网络的回归模型,如图4所示。在步骤526,可以接收后续图像帧的图像块的另一输入,诸如视频(诸如视频108)的第二图像帧。
在步骤528,可以通过使用训练的神经网络回归器动态地预测输入图像块(诸如第二图像帧的图像块)的最佳QP。在步骤530,可以通过使用预测的最佳QP来编码该输入图像块,诸如第二图像帧的图像块。
在步骤532,可以确定是否编码了视频的所接收的图像序列的所有图像块。在编码了视频的所接收的图像序列的所有图像块的情况下,控制可以转到步骤534。在未编码视频的所接收的图像序列的所有图像块的情况下,控制可以返回到步骤526。可以基于训练的神经网络回归器,通过使用相关的预测的最佳QP来编码视频的第二图像帧和后续图像帧的各个图像块。
在步骤534,可以生成编码视频。压缩伪像可以在该编码视频中不可见。视频质量可以在输入视频(诸如视频108)的不同图像块和图像帧上一致(并且可以不波动)。控制转到结束步骤536。
根据本公开的实施例,公开了一种基于QP处理视频的系统。诸如视频处理设备102(图1)的设备可以包括一个或多个处理器(以下称为处理器202(图2))。处理器202可以被配置为提取用于捕获图像块的纹理信息的多个特征。处理器202可以进一步被配置为训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数。处理器202可以进一步被配置为通过使用所确定的最佳量化参数编码该图像块。
本公开的各个实施例可以提供非暂时性计算机可读介质和/或存储介质,和/或其上存储有可由机器和/或计算机执行的基于量化参数处理视频的一组指令的非暂时性机器可读介质和/或存储介质。视频处理器中的指令集(诸如视频处理设备102(图1))可以使机器和/或计算机执行包括提取用于捕获图像块的纹理信息的多个特征的步骤。可以训练神经网络回归器以映射所提取的多个特征以确定最佳量化参数。可以通过使用所确定的最佳量化参数来编码图像块。
本公开可以以硬件或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式方式实现,其中不同元件可以分布在若干互连计算机系统上。适于执行本文所述的方法的计算机系统或其他装置可能是适合的。硬件和软件的组合可以是具有计算机程序的通用计算机系统,该计算机程序在被加载和执行时可以控制计算机系统,使得它执行本文所述的方法。本公开可以以包括还执行其他功能的集成电路的一部分的硬件来实现。
本公开还可以被嵌入在计算机程序产品中,该计算机程序产品包括使能本文所述方法的实现的所有特征,并且当加载到计算机系统中时该计算机程序产品能够执行这些方法。在本语境中,计算机程序是指想要使具有信息处理能力的系统直接地或在下列任一或两个之后执行特定功能的一组指令的任何语言、代码或符号的任何表达:a)转换为另一种语言、代码或符号;b)以不同的材料形式复制。
虽然本公开已经参考某些实施例进行了描述,但是本领域技术人员可理解,在不脱离本公开的范围的情况下,可以进行各种改变并且可以替换等同物。另外,在不脱离本公开的范围的情况下,可以做出许多修改以使特定的情况或材料适应本公开的教导。因此,意图是本公开不限于所公开的特定实施例,而是本公开将包括落入所附权利要求范围内的全部实施例。

Claims (13)

1.一种用于视频处理的系统,所述系统包括:
视频处理器中的一个或多个电路,所述一个或多个电路被配置为:
对于第一图像帧的第一多个图像块中的每个图像块:
提取图像块的第一多个特征;
基于提取的第一多个特征捕获所述图像块的纹理信息,其中所述第一多个特征至少包括Haralick纹理描述符;
利用第一多个量化参数对所述图像块进行编码,以生成所述图像块的多个重建图像块;
利用基于卷积神经网络的全参考图像质量测量为所述多个重建图像块中的每个重建图像块生成分数;
基于所述多个重建图像块中的每个重建图像块的所述分数确定所述图像块的所述第一多个量化参数中的最佳量化参数;
基于神经网络回归器确定每个图像块的所述第一多个特征与对应的最佳量化参数之间的映射函数;和
分别基于对应的最佳量化参数对所述第一图像帧的所述第一多个图像块中的每个图像块进行编码。
2.根据权利要求1所述的系统,其中
所述分数表示所述多个重建图像块中的每一个的视觉质量的测量。
3.根据权利要求2所述的系统,其中
所述确定的最佳量化参数的值在所述第一多个量化参数的值中最高,并且
所述确定的最佳量化参数的所述值大于或等于预先指定的图像质量阈值。
4.根据权利要求1所述的系统,其中
所述一个或多个电路还被配置为生成包括所述第一图像帧的每个图像块的所述第一多个特征和对应的最佳量化参数的训练数据集。
5.根据权利要求4所述的系统,其中生成的训练数据集进一步包括:
第二图像帧的每个图像块的第二多个特征和对应的最佳量化参数。
6.根据权利要求4所述的系统,其中所述一个或多个电路还被配置为基于生成的训练数据集训练所述神经网络回归器。
7.根据权利要求1所述的系统,其中所述神经网络回归器是基于前馈神经网络的回归模型。
8.根据权利要求5所述的系统,其中所述第二图像帧和所述第一图像帧对应于视频内容。
9.一种用于视频处理的方法,所述方法包括:
对于第一图像帧的第一多个图像块中的每个图像块:
通过视频处理器中的一个或多个电路提取图像块的第一多个特征;
通过所述一个或多个电路基于提取的第一多个特征捕获所述图像块的纹理信息,其中所述第一多个特征至少包括Haralick纹理描述符;
通过所述一个或多个电路利用第一多个量化参数对所述图像块进行编码,以生成所述图像块的多个重建图像块;
通过所述一个或多个电路利用基于卷积神经网络的全参考图像质量测量为所述多个重建图像块中的每个重建图像块生成分数;
通过所述一个或多个电路基于所述多个重建图像块中的每个重建图像块的所述分数确定所述图像块的所述第一多个量化参数中的最佳量化参数;
通过所述一个或多个电路基于神经网络回归器确定每个图像块的所述第一多个特征与对应的最佳量化参数之间的映射函数;和
通过所述一个或多个电路分别基于对应的最佳量化参数对每个图像块进行编码。
10.根据权利要求9所述的方法,其中所述分数表示所述多个重建图像块中的每一个的视觉质量的测量。
11.根据权利要求9所述的方法,进一步包括:
通过所述一个或多个电路,生成包括所述第一图像帧的每个图像块的所述第一多个特征和对应的最佳量化参数的训练数据集;以及
通过所述一个或多个电路基于生成的训练数据集训练所述神经网络回归器。
12.根据权利要求9所述的方法,其中所述神经网络回归器是基于前馈神经网络的回归模型。
13.根据权利要求11所述的方法,其中生成的训练数据集进一步包括:第二图像帧的每个图像块的第二多个特征和对应的最佳量化参数。
CN201780015278.8A 2016-03-09 2017-03-02 基于量化参数的视频处理的系统和方法 Active CN108780499B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/065,248 US10499056B2 (en) 2016-03-09 2016-03-09 System and method for video processing based on quantization parameter
US15/065,248 2016-03-09
PCT/US2017/020468 WO2017155786A1 (en) 2016-03-09 2017-03-02 System and method for video processing based on quantization parameter

Publications (2)

Publication Number Publication Date
CN108780499A CN108780499A (zh) 2018-11-09
CN108780499B true CN108780499B (zh) 2024-02-02

Family

ID=59788758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780015278.8A Active CN108780499B (zh) 2016-03-09 2017-03-02 基于量化参数的视频处理的系统和方法

Country Status (4)

Country Link
US (1) US10499056B2 (zh)
JP (1) JP6717385B2 (zh)
CN (1) CN108780499B (zh)
WO (1) WO2017155786A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593632B2 (en) 2016-12-15 2023-02-28 WaveOne Inc. Deep learning based on image encoding and decoding
CN106686385B (zh) * 2016-12-30 2018-09-25 平安科技(深圳)有限公司 视频压缩感知重构方法及装置
AU2018254591B2 (en) 2017-04-21 2021-01-07 Zenimax Media Inc. Systems and methods for encoder-guided adaptive-quality rendering
US10728553B2 (en) * 2017-07-11 2020-07-28 Sony Corporation Visual quality preserving quantization parameter prediction with deep neural network
JP6867273B2 (ja) * 2017-10-31 2021-04-28 日本電信電話株式会社 符号量推定装置及び符号量推定プログラム
US10559093B2 (en) * 2018-01-13 2020-02-11 Arm Limited Selecting encoding options
US10499081B1 (en) * 2018-06-19 2019-12-03 Sony Interactive Entertainment Inc. Neural network powered codec
US10560696B2 (en) * 2018-06-25 2020-02-11 Tfi Digital Media Limited Method for initial quantization parameter optimization in video coding
CN110870310A (zh) * 2018-09-04 2020-03-06 深圳市大疆创新科技有限公司 图像编码方法和装置
WO2020067592A1 (ko) * 2018-09-28 2020-04-02 한국과학기술원 컨텐츠 인지 신경망을 이용하여 실시간으로 적응형 비디오를 전송하는 방법 및 장치
CN109447952B (zh) * 2018-10-10 2021-12-17 嘉兴学院 一种基于Gabor差分盒加权维数的半参考型图像质量评价方法
CN111182301A (zh) * 2018-11-12 2020-05-19 北京眼神科技有限公司 一种图像压缩时选择最优量化参数的方法、装置、设备及系统
US11689726B2 (en) 2018-12-05 2023-06-27 Google Llc Hybrid motion-compensated neural network with side-information based video coding
US10997717B2 (en) * 2019-01-31 2021-05-04 Siemens Healthcare Gmbh Method and system for generating a confidence score using deep learning model
CN110198444B (zh) * 2019-04-16 2021-07-09 浙江大华技术股份有限公司 视频帧编码方法、视频帧编码设备及具有存储功能的装置
CN110113609B (zh) * 2019-04-26 2020-09-08 深圳市华星光电技术有限公司 图像压缩方法及装置
US10992331B2 (en) * 2019-05-15 2021-04-27 Huawei Technologies Co., Ltd. Systems and methods for signaling for AI use by mobile stations in wireless networks
CN110390394B (zh) * 2019-07-19 2021-11-05 深圳市商汤科技有限公司 批归一化数据的处理方法及装置、电子设备和存储介质
JP2021057769A (ja) * 2019-09-30 2021-04-08 株式会社ソニー・インタラクティブエンタテインメント 画像データ転送装置、画像表示システム、および画像圧縮方法
CN110971784B (zh) * 2019-11-14 2022-03-25 北京达佳互联信息技术有限公司 一种视频处理方法、装置、电子设备及存储介质
US11648467B2 (en) 2020-02-14 2023-05-16 Microsoft Technology Licensing, Llc Streaming channel personalization
CN111314698A (zh) * 2020-02-27 2020-06-19 浙江大华技术股份有限公司 一种图像编码处理方法及装置
CN111726613B (zh) * 2020-06-30 2021-07-27 福州大学 一种基于最小可觉差的视频编码优化方法
KR20220043694A (ko) * 2020-09-29 2022-04-05 삼성전자주식회사 영상을 처리하는 디바이스 및 그 동작 방법
US11263796B1 (en) 2020-11-11 2022-03-01 Sony Interactive Entertainment Inc. Binocular pose prediction
US11368756B1 (en) * 2021-03-26 2022-06-21 Retrocausal, Inc. System and method for correlating video frames in a computing environment
EP4145394A1 (en) * 2021-09-06 2023-03-08 Nokia Technologies Oy Personalized perceptual video encoder for mission-critical tasks
CN114745556B (zh) * 2022-02-07 2024-04-02 浙江智慧视频安防创新中心有限公司 编码方法、装置、数字视网膜系统、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525761A (zh) * 2003-01-21 2004-09-01 ���ǵ�����ʽ���� 使用神经网络选择可变长度编码比特流长度的装置和方法
CN1564605A (zh) * 2004-03-30 2005-01-12 浙江大学 图像和视频编码中多尺度兼容处理装置及其方法
CN101895752A (zh) * 2010-07-07 2010-11-24 清华大学 基于图像视觉质量的视频传输方法、系统及装置
CN101924943A (zh) * 2010-08-27 2010-12-22 郭敏 一种实时的基于h.264的低比特率视频转码方法
CN101946516A (zh) * 2008-02-22 2011-01-12 高通股份有限公司 快速宏块增量量化参数的决定
CN102595142A (zh) * 2012-03-15 2012-07-18 国网北京经济技术研究院 一种电网全息数字地图视频编码方法及系统
CN103313047A (zh) * 2012-03-13 2013-09-18 中国移动通信集团公司 一种视频编码方法及装置
CN103416057A (zh) * 2011-03-09 2013-11-27 佳能株式会社 图像编码设备、图像编码方法和程序及图像解码设备、图像解码方法和程序
CN103597829A (zh) * 2011-06-28 2014-02-19 日本电气株式会社 对视频量化参数编码的方法和对视频量化参数解码的方法
WO2014052602A1 (en) * 2012-09-28 2014-04-03 Vid Scale, Inc. Method and apparatus of edge guided processing for video coding
CN105049949A (zh) * 2015-06-19 2015-11-11 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105163121A (zh) * 2015-08-24 2015-12-16 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241383A (en) 1992-05-13 1993-08-31 Bell Communications Research, Inc. Pseudo-constant bit rate video coding with quantization parameter adjustment
KR0139154B1 (ko) 1994-07-08 1998-06-15 김광호 신경망을 이용한 부호화방법 및 그 장치
US6574279B1 (en) * 2000-02-02 2003-06-03 Mitsubishi Electric Research Laboratories, Inc. Video transcoding using syntactic and semantic clues
EP3282699B1 (en) * 2001-11-29 2019-10-23 Godo Kaisha IP Bridge 1 Coding distortion removal method
WO2004043054A2 (en) 2002-11-06 2004-05-21 Agency For Science, Technology And Research A method for generating a quality oriented significance map for assessing the quality of an image or video
HUP0301368A3 (en) * 2003-05-20 2005-09-28 Amt Advanced Multimedia Techno Method and equipment for compressing motion picture data
US7995649B2 (en) 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
US9445110B2 (en) 2007-09-28 2016-09-13 Dolby Laboratories Licensing Corporation Video compression and transmission techniques
US8665948B2 (en) 2007-11-23 2014-03-04 Stmicroelectronics International N.V. Adaptive rate control to cover multiple encoding standards
US8515182B2 (en) * 2009-02-11 2013-08-20 Ecole De Technologie Superieure Method and system for determining a quality measure for an image using multi-level decomposition of images
TW201134223A (en) * 2010-03-29 2011-10-01 Univ Nat Taiwan Perceptual video encoding system and circuit thereof
US20140072033A1 (en) * 2011-06-10 2014-03-13 Mediatek Inc. Method and Apparatus of Scalable Video Coding
WO2013177779A1 (en) * 2012-05-31 2013-12-05 Thomson Licensing Image quality measurement based on local amplitude and phase spectra
US20140067679A1 (en) * 2012-08-28 2014-03-06 Solink Corporation Transaction Verification System

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1525761A (zh) * 2003-01-21 2004-09-01 ���ǵ�����ʽ���� 使用神经网络选择可变长度编码比特流长度的装置和方法
CN1564605A (zh) * 2004-03-30 2005-01-12 浙江大学 图像和视频编码中多尺度兼容处理装置及其方法
CN101946516A (zh) * 2008-02-22 2011-01-12 高通股份有限公司 快速宏块增量量化参数的决定
CN101895752A (zh) * 2010-07-07 2010-11-24 清华大学 基于图像视觉质量的视频传输方法、系统及装置
CN101924943A (zh) * 2010-08-27 2010-12-22 郭敏 一种实时的基于h.264的低比特率视频转码方法
CN103416057A (zh) * 2011-03-09 2013-11-27 佳能株式会社 图像编码设备、图像编码方法和程序及图像解码设备、图像解码方法和程序
CN103597829A (zh) * 2011-06-28 2014-02-19 日本电气株式会社 对视频量化参数编码的方法和对视频量化参数解码的方法
CN103313047A (zh) * 2012-03-13 2013-09-18 中国移动通信集团公司 一种视频编码方法及装置
CN102595142A (zh) * 2012-03-15 2012-07-18 国网北京经济技术研究院 一种电网全息数字地图视频编码方法及系统
WO2014052602A1 (en) * 2012-09-28 2014-04-03 Vid Scale, Inc. Method and apparatus of edge guided processing for video coding
CN105049949A (zh) * 2015-06-19 2015-11-11 美国掌赢信息科技有限公司 一种即时视频的编码方法和电子设备
CN105163121A (zh) * 2015-08-24 2015-12-16 西安电子科技大学 基于深度自编码网络的大压缩比卫星遥感图像压缩方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A novel quantization parameter estimation model based on neural network;Jianying Zhu等;《2012 International Conference on Systems and Informatics (ICSAI2012)》;20120625;2020-2023 *
Evaluation of objective quality metrics for multidimensional video scalability;Manri Cheon等;《Journal of Visual Communication and Image Representation》;132-145 *
On Model Parameter Estimation for H.264/AVC Rate Control;Jianpeng Dong等;《2007 IEEE International Symposium on Circuits and Systems》;20070625;289-292 *
王飞.关于压缩视频编码转换技术的研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,第2015年卷(第2期),第I136-404页. *
视频编码量化预测及多模块的关联性度量;祝建英;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20140215;第2014年卷(第2期);摘要、第1-2章、图2.3、图2.4 *
面向高清/超高清的感知视频编码的变换量化并行技术研究;赵会玲;《中国优秀硕士学位论文全文数据库 信息科技辑》;第2015年卷(第4期);I136-304 *

Also Published As

Publication number Publication date
US20170264902A1 (en) 2017-09-14
JP6717385B2 (ja) 2020-07-01
US10499056B2 (en) 2019-12-03
WO2017155786A1 (en) 2017-09-14
JP2019512938A (ja) 2019-05-16
CN108780499A (zh) 2018-11-09

Similar Documents

Publication Publication Date Title
CN108780499B (zh) 基于量化参数的视频处理的系统和方法
US11310501B2 (en) Efficient use of quantization parameters in machine-learning models for video coding
US11310498B2 (en) Receptive-field-conforming convolutional models for video coding
CN110637460B (zh) 利用深层神经网络的视觉质量保持量化参数预测
CN107895359B (zh) 使用图像分析算法给神经网络提供训练数据的方法和系统
US11956447B2 (en) Using rate distortion cost as a loss function for deep learning
CN104160703A (zh) 经对象检测所通知的编码
CN111837140A (zh) 视频代码化的感受野一致卷积模型
WO2021129007A1 (zh) 视频码率的确定方法、装置、计算机设备及存储介质
CN110169059B (zh) 视频代码化的复合预测
CN109891885B (zh) 视频编译中用于环路恢复的引导偏移校正
US10021398B2 (en) Adaptive tile data size coding for video and image compression
CN116208770A (zh) 用于视频编码的增强型实时视觉质量度量生成
JP2014036260A (ja) 画質評価装置、画質評価方法及び画質評価プログラム
CN107945108A (zh) 视频处理方法及装置
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
Nami et al. Lightweight Multitask Learning for Robust JND Prediction using Latent Space and Reconstructed Frames

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant