CN103650493A - 低复杂度模式选择 - Google Patents

低复杂度模式选择 Download PDF

Info

Publication number
CN103650493A
CN103650493A CN201280031159.9A CN201280031159A CN103650493A CN 103650493 A CN103650493 A CN 103650493A CN 201280031159 A CN201280031159 A CN 201280031159A CN 103650493 A CN103650493 A CN 103650493A
Authority
CN
China
Prior art keywords
distortion
coding
hidden
estimation
bias term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280031159.9A
Other languages
English (en)
Other versions
CN103650493B (zh
Inventor
M.尼尔松
R.瓦芬
S.V.安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Skype Ltd Ireland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Skype Ltd Ireland filed Critical Skype Ltd Ireland
Publication of CN103650493A publication Critical patent/CN103650493A/zh
Application granted granted Critical
Publication of CN103650493B publication Critical patent/CN103650493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/89Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving methods or arrangements for detection of transmission errors at the decoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/164Feedback from the receiver or from the transmission channel
    • H04N19/166Feedback from the receiver or from the transmission channel concerning the amount of transmission errors, e.g. bit error rate [BER]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/19Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding using optimisation based on Lagrange multipliers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种编码包括多个帧的输出视频流的方法,其中每个帧包括多个图像部分,所述方法包括:针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;以及通过有损通道传输所述编码的输出视频流。所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失经历的失真的估计。所述偏置项基于根据视频流样本训练的训练参数确定。

Description

低复杂度模式选择
技术领域
本发明涉及当使用帧内编码和帧间编码来编码视频信号时,平衡码率与失真之间的均衡。
背景技术
要编码的视频数据流在图1a中示意性地示出。该视频数据流包括多个帧(F),每个帧表示不同时刻上的视频图像。本领域的技术人员将理解,为了进行编码,每个帧(F)被分为多个部分,并且每个部分还可被再细分为更小的子部分,每个部分或子部分包括多个像素。例如,根据一个术语,要编码的视频流的每个帧被分为多个宏块(MB)并且每个宏块被细分为块(b),每个块包括多个像素。每个帧还可以被分为可独立解码的片(slice)(S),每个片包括一个或多个宏块。注意,图1a所示的划分仅作为示例,用于说明的目的,应该理解,这些划分不一定旨在对应于任何实际的编码方案 - 例如,每个帧可能包含更多数量的宏块。
其中可采用视频编码的通信系统实例在图2的框图中示意性地示出。该通信系统包括第一发送端子12和第二接收端子22。例如,每个端子12、22可以包括移动电话或智能电话、平板计算机、膝上型计算机、桌面计算机或其它家用电器,例如电视机、机顶盒、立体音响系统等。第一和第二端子12、22分别在操作上与通信网络32相连,因此,第一发送端子12被设置为发送将被第二接收端子22接收的信号。当然,发送端子12还能从接收端子22接收信号或者接收端子22从发送端子12接收信号,但是为了进行说明,此处从第一端子12的角度描述发送,从第二端子22的角度描述接收。通信网络32例如可以包括基于分组的网络,例如广域互联网和/或局域网,和/或移动蜂窝网络。
第一端子12包括存储介质14,例如闪存或其它电子存储器、磁存储器件和/或光存储器件。第一端子12还包括处理装置16,该装置采取具有一个或多个核的CPU的形式;收发器,例如具有至少发送器18的有线或无线调制解调器;以及视频相机15,该相机可能(也可能不)与端子12的支架位于同一外壳内。存储介质14、视频相机15和发送器18分别在操作上与处理装置16相连,并且发送器18通过有线或无线链路在操作上与网络32相连。类似地,第二端子22包括存储介质24,例如电、磁和/或光存储器件;以及处理装置26,该装置采取具有一个或多个核的CPU的形式。该第二端子包括收发器,例如具有至少接收器28的有线或无线调制解调器;以及屏幕25,该屏幕可能(也可能不)与端子22的支架位于同一外壳内。第二端子的存储介质24、屏幕25和接收器28分别在操作上与各个处理装置26相连,并且接收器28通过有线或无线链路在操作上与网络32相连。
第一端子12上的存储介质14存储至少视频编码器,该编码器被设置为在处理装置16上执行。当被执行时,该编码器从视频相机15接收“原始”(未编码)输入视频流,将该视频流进行编码,从而将其压缩为较低码率的流,然后输出经过编码的视频流以便通过发送器18和通信网络32发送到第二端子22的接收器28。第二端子22上的存储介质存储至少视频解码器,该解码器被设置为在其自己的处理装置26上执行。当被执行时,该解码器从接收器28接收经过编码的视频流并对其进行解码,从而将其输出到屏幕25。可用于指代编码器和/或解码器的普通术语为编解码器。
视频编码解码器的目标是减小发送视频信号所需的码率,同时保持可能的最高质量。该目标利用统计冗余度(视频信号的相似度)和感知不相干性(与人类视觉系统的敏感性有关)来实现。
现今的多数视频编解码器基于包括根据其它像素块预测像素块,变换预测残差,量化变换系数,以及对量化指数进行熵编码的体系结构。这些步骤有助于减少冗余度和不相干性。
现在参考以下文档:
[1] ITU-T, Recommendation H.264, “Advanced video coding for generic audiovisual services”, 2007年;
[2] 张等人在2004年发表于IEEE国际图像处理会议记录163-166页的“Error resilience video coding in H.264 encoder with potential distortion tracking”;
[3] M. Barkowsky. B. Eskofier、R. Bitto、J. Bialkowski和A. Kaup在2007年发表于MobConQoE 07:移动内容质量体验研讨会的第1-7页的“Perceptually motivated spatial and temporal integration of pixel based video quality measures,”;
[4] ISO/IEC MPEG和ITU-T VCEG的视频联合组(JVT),文档号JVT-N046;
[5] ISO/IEC MPEG和ITU-T VCEG的视频联合组(JVT),文档号JVT- V079;
[6] G. J. Sullivan和T. Wiegand在1998年11月发表于IEEE信号处理杂志第5卷、第6号,17-90页上的“Rate-Distortion Optimization for Video Compression”)。
预测通常可根据不同于当前帧的视频帧中的像素执行(帧间预测)并且根据同一帧中的像素执行(帧内预测)。即,如果使用帧内编码进行编码,则帧的一个块或部分(目标块或部分)相对于帧中的另一块或图像部分(基准块或部分)进行编码;并且如果使用帧间编码进行编码,则目标块或部分相对于另一帧中的基准块或部分进行编码。此过程一般被称为预测或预测编码。因此,帧间或帧内预测模块在帧内编码的情况下产生例如采取邻近块指示形式的预测,和/或在帧间编码的情况下产生移动矢量。一般而言,编码器还产生表示预测块与实际块之间的“剩余”差的残差信号。残差移动矢量以及与帧内预测关联的任何所需数据然后被输出到经过编码的视频流,一般通过进一步的编码阶段(例如量化器或熵编码器)执行此操作。因此,视频中的多数块可根据块差进行编码,这样,与编码绝对像素值相比,编码所需的比特数较少,从而节省码率。帧内预测编码一般需要比帧间预测更多的比特数,但是仍然比编码绝对值省码率。适合于视频的帧间编码和帧内编码技术的细节对于本领域的技术人员而言是显而易见的。
现代编解码器允许针对帧内的不同部分使用不同的预测编码模式。具有不同编码选项的可能性增加了视频编解码器的率失真效率。必须找到每个帧区域的最优编码表示。一般而言,此类区域为宏块,例如16×16像素。即,对于帧内预测或帧间预测模式而言,因此可以针对每个宏块单独选择,以便同一帧内的不同宏块可使用不同的模式进行编码。在某些编解码器中,还可以根据不同的宏块划分水平使用不同的模式,例如,在较高复杂度模式或较低复杂度模式之间选择,在所述较高复杂度模式中,针对宏块内的每个4×4块执行单独的预测,在所述较低复杂度模式中,仅基于8×8或8×16块,甚至基于整个宏块执行预测。可用模式也可以包括用于执行预测的不同选项。例如,如图1b中示意性地示出那样,在一个帧内模式中,4×4块(b)的像素可通过从紧上面的块的邻近像素的向下外插或通过从紧左边的块向侧面外插确定。被称为“跳过模式”的另一特殊预测模式也可以在某些编解码器中提供,此模式可被视为帧间模式的备选类型。在跳过模式(Pskip)中,目标的移动矢量基于到上面和到左边的移动矢量推断,因此没有残差系数编码。推断移动矢量的方式与移动矢量预测一致,因此,移动矢量差为零,因此只需要信号通知MB是跳过块。
图3是示意性地示出例如可以在发送端子12上实现的编码器的高级框图。该编码器包括:离散余弦变换(DCT)模块51、量化器53、逆变换模块61、逆量化器63、帧内预测模块41、帧间预测模块43和减法级(-)。编码器还包括开关47和模式选择模块49。每个模块或块优选地被实现为在发送端子的存储介质14上存储的编码的一部分,并且被设置为在其处理装置16上执行,但是也不排除某些或所有这些模块全部或部分地在专用硬件电路中实现的可能性。
开关47和模式选择模块49中的每一者被设置为接收包括多个宏块MB的输入视频流的实例。模式选择模块49被设置为针对每个宏块选择编码模式“o”,并且在操作上与多工器47相连,以便以适合于选定模式的方式控制它将逆量化器63的输出传递到帧内预测模块41或帧间模块43的输入端。模式选择模块49也可被设置为将选定模式“o”指示给相关预测模块41、43(例如,指示4×4划分模式、8×8模式、跳过模式等)。帧内预测模块41或帧间预测模块43的输出端然后耦合到减法级(-)的输入端,该减法级被设置为在另一输入端上接收未编码的输入视频流并从未编码的部分减去预测块,从而产生残差信号。残差块然后通过变换(DCT)模块51传递,其中其残差值被转换为频域,然后转换为量化器53,其中变换的值被转换为离散量化指数。量化、变换的信号被反馈回逆量化器63和逆变换模块61以产生预测块版本(将在解码器上看到),以便由选定的预测模块41、43使用。在预测模块41、43中使用的预测的指示、帧间预测模块43产生的移动矢量,以及变换和量化模块51、53产生的残差的量化变换指数全部被输出,并包括在经过编码的视频流中,通常通过进一步无损编码阶段(例如熵编码器(未示出))执行此操作,在所述无损编码阶段中,预测值以及变换、量化的指数可使用本领域公知的无损编码技术进行进一步压缩。
根据上面的描述,编码表示因此可以包括块划分信息、预测模式、移动矢量、量化精确度等。最优编码选项依赖于视频内容、码率、较早期编码决策等。变换系数的量化精确度通常被选择为满足码率约束。而且可以最小化失真。
例如,H.264视频编码器在选择预测模式[1]方面提供极大的灵活性。对于亮度分量的帧间预测,16×16像素的宏块可被表示为一个16×16像素块,或两个16×8像素块,或两个8×16像素块,或四个8×8像素块。进一步地,8×8块可被表示为一个8×8像素块,或两个8×4像素块,或两个4×8像素块,或四个4×4像素块。帧间预测针对每个允许的宏块划分尝试。块的帧间预测通过检索(多个)基准帧和(多个)移动矢量(从相应基准帧中基准块的空间移动)表示,所述基准帧和移动矢量通常以子像素精确度估计。对于亮度分量的帧内预测,对于16×16块存在四种可能的模式,对于4×4块存在九种可能的模式。进一步地,对于色度分量,存在四种可能的模式。最佳预测模式通过比较帧间预测模式与帧内预测模式的性能来选择。
诸如H.264 AVC [1]之类的视频编解码器的率失真性能很大程度上依赖于宏模块模式选择o的性能。即,根据率失真确定宏块是否被最佳编码的过程使用例如帧间模式或帧内模式(根据之前编码的帧预测)进行平衡。从鲁棒的角度来看,帧内编码宏块是有利的,因为它们停止时间误差扩散(propagation)(假设使用受约束的帧内预测,即,禁止根据预测的宏块执行帧内预测)。但是,与帧间编码的宏块相比,帧内编码的宏块一般在码率方面支出更大,因此系统性地引入帧内编码的宏块非常重要,从而在给定特定码预算的情况下,最小化解码器上的失真(例如,平均失真)。
率失真性能优化问题可根据在码率约束R下最小化失真以公式表示。经常使用拉格朗日优化框架解决此问题。在此,优化标准用以下公式表示
J=D(m, o) + λR(m, o)               (1)
其中J表示拉格朗日函数,D表示失真测量(模式o和宏块m或者宏块子划分的函数),R是码率,并且λ是定义失真与码率之间均衡的参数。
在该应用中,解决拉格朗日优化问题意味着查找最小化拉格朗日函数J的编码模式o,其中拉格朗日函数J包括至少表示失真的项、表示码率的项和表示二者之间均衡的系数(“拉格朗日乘数”)。当编码模式o朝着更细致或更佳质量编码模式变化时,失真项D将减小。但是,同时码率项R将增加,并且在依赖于λ的特定点上,R的增加比D的减小更重要。因此,表达式J将具有某一最小值,并且发生这一现象的编码模式o被视为最优编码模式。
在此方面,码率R而非λR项对最优化产生约束,因为该项将最优编码模式从不断增加的质量上拉回。找到此最优平衡的模式将依赖于λ,因此λ可被视为表示码率与失真间的均衡。
拉格朗日优化通常用于选择编码决策的过程,并且适合于每个帧区域(例如,每个16×16像素宏块)。
失真D可被量化为原始像素与重构像素之间平方差和(SSD);并且可被计算为解释所有处理阶段,其中包括预测、变换(从每个块或宏块的像素空间域表示变换为诸如光频域表示之类的变换域表示)和量化(将连续信号的数字近似值转换为更离散的、低粒度量化水平的过程)。而且,为了计算重构像素,必须执行逆量化、逆变换和逆预测等步骤。SSD经常被优选为失真标准,因为它导致更高的质量。一般而言,码率项R还解释所有所需参数的编码,其中包括描述预测的参数和量化的变换系数[4、5、6]。这些参数一般使用熵编码器进行编码,并且在这种情况下,该码率可以是通过熵编码器获取,或者可通过实际运行熵编码器并测量每种候选模式的结果码率获取的码率的估计。熵编码/解码是无损过程,因此不影响失真。
此类过程在此可被称为完全复杂度率失真优化(或完全RDO)[4、5、6]。
张等人所发表的文档[2]提出了一种系统框架以介绍帧内编码宏块,其基于解码器上预期平均平方差和[SSD]的最小值。而且,张考虑了基于误差传输通道假设的端到端失真的估计。通过跟踪潜在的失真,张等人能够计算与预期误差扩散失真(在解码器上)相关的偏置项,当计算编码器率失真环路内宏块间的成本时,该预期误差扩散失真被添加到源编码失真上。
在[2]中,作者张等人估计由于源编码和通道误差导致的解码器中的潜在失真。估计的潜在失真然后被间接地用于使模式选择偏向帧内编码(如果存在通道误差的可能性)。
张所称的端到端失真表达式基于平方差和(SSD)失真测量并假设用于丢失宏块的伯努利分布。最优宏块模式O opt 通过以下公式给出:
Figure 411663DEST_PATH_IMAGE002
(2)
其中D s (m, o)表示针对宏块m和宏块模式o的原始像素块与重构像素块之间的SSD失真,R是总码率,λ是有关失真和码率项的拉格朗日乘数。D ep-ref (m, o)表示由于误差扩散导致的解码器中的基准块内的预期失真。因此,D ep-ref (m, o)提供偏置项,如果误差扩散失真变得太大,则该项使优化朝着帧内编码偏置。对于帧内编码的宏块模式,D ep-ref (m, o)为零。表达式D s (m, o)+ D ep-ref (m, o)+ λR(m, o)可被视为拉格朗日函数J的实例。Argmin o 输出自变量o的值,对于该自变量,表达式J的值为最小值。
总预期误差扩散失真图D ep 由误差隐蔽的性能驱动并且在每次宏块模式选择之后更新为:
Figure 328804DEST_PATH_IMAGE003
(3)
其中n是帧编号,m(k)表示宏块m的第k个子划分(即,块),p表示丢失分组的概率。在张等人所发表的[2]中,误差扩散失真以4×4像素块粒度存储。块的误差扩散基准失真D ep-ref (m, o)通过平均化先前帧的误差扩散失真图中的失真进行估计,所述先前帧对应于当前块的移动矢量所指示的块位置。D ec-rec 表示编码器中的重构像素与误差隐蔽像素之间的SSD,D ec-ep 表示编码器和解码器中的误差隐蔽像素之间的预期SSD。一般而言,丢失的块通过从先前帧复制块来重构(例如,使用帧复制或移动复制误差隐蔽法来实现)。在此情况下,D ec-ep 通过从用于误差隐蔽的帧的误差扩散失真图中提取对应的失真来获取。
但是,通过上述所有内容可看出,编码选项的数量可能非常大,因此估计它们所需的计算负荷就变为限制因素。在给定大量可能的编码选项的情况下,估计解释所有处理级的拉格朗日优化标准(还需要所有要执行的逆处理级)可能变为更迫切的计算任务。因此,通常还使用备选的低复杂度优化标准:
Figure 170858DEST_PATH_IMAGE004
(1a)
其中D’是预测失真,R’是描述预测的参数(例如,预测模式、移动矢量)的码率。
预测失真D’仅考虑在帧间预测或帧内预测之后的失真(或者更精确地说,仅考虑预测之后的残差),并未考虑其它编码器级(例如从空间域变换为变换域并量化或者它们的逆运算)的影响。因此,D’表示原始样本与预测样本(帧间或帧内)之间的差值,而非原始样本与完全重构的样本之间的差值。进一步地,该简化的失真测量被量化为原始样本与预测样本(帧间或帧内)的绝对差值和(SAD),与SSD相比,此操作所需的计算量较小。即:
Figure 628384DEST_PATH_IMAGE005
                     (1b)
其中s i 是原始输入样本, s’ predi 是预测样本,其中不考虑通过正变换、正量化以及逆变换和逆量化进行重构的影响。因此,另外基于SAD而非SSD,低复杂度失真项D’表示原始样本与预测样本之间的差值,而非在上面计算的完全复杂度版本中表示的原始像素与重构像素之间的差值。
进一步地,码率项R’仅表示边信息的码率成本(帧内预测的移动矢量或指示、预测模式以及宏块划分的指示);并且不考虑变换的量化残差的码率成本。
这样,简化的计算仅需要执行预测步骤。省略变换和量化,以及逆量化、逆变换和逆预测等步骤。现在参考图3,这表示为了执行RDO计算,元件51、53、61和63有效地从环路中省略。因此,估计编码选项性能的复杂度在此得以降低。此类处理在此可被称为低复杂度率失真优化(低复杂度RDO)。
另一方面,由于低复杂度RDO仅近似预测步骤,因此所形成的最终率失真性能通常被降低。在发明者的试验中,他们观察到与同一码率上的完全RDO相比,低复杂度RDO导致性能降低0.5-1.5 dB。主观地讲,重构的视频也具有较低的质量。
发明内容
本发明旨在实现比低复杂度、无损自适应RDO处理导致的性能率失真优化更高的性能率失真优化;但是不会产生完全复杂度有损自适应RDO的完全处理成本。一种实现方式就是使用“混合”RDO处理,该处理结合使用简化的源编码失真测量与较高复杂度有损自适应偏置项。但是,良好的性能不一定通过简单地组合基于两个不同类型失真测量(例如,基于SAD的源编码失真预测误差测量和基于SSD的有损自适应偏置项失真测量)的项来实现。
因此,本发明的目标是尝试最大化在简化的率失真表达式环境中使用的有损自适应RDO处理的性能。
根据本发明的一方面,提供一种编码包括多个帧的输出视频流的方法,其中每个帧包括多个图像部分,所述方法包括:针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;以及通过有损通道传输所述编码的输出视频流;其中所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于所述通道上的丢失而经历的失真的估计;并且其中所述偏置项基于根据视频流样本训练的训练参数确定。
因此本发明提供一种训练率失真优化处理的方法,此方法可有利地用于支持“混合”RDO处理,该处理接近完全复杂度有损自适应RDO的性能优势,但是计算复杂度降低。
在实施例中,所述偏置项基于第二项,其表示在所述目标部分未通过所述通道到达的情况下,由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计,该偏置项还基于隐蔽项,其表示由于隐蔽而经历的失真的估计;所述隐蔽项可以包括第三项,其表示所述目标部分相对于图像部分的隐蔽失真的测量,该图像部分在所述目标部分在所述通道上丢失时,用于隐蔽所述目标部分的丢失,所述隐蔽项还可以包括第四项,其表示由于隐蔽所述目标部分所依赖的所述目标部分的历史中的图像部分丢失而经历的失真的估计;并且所述第三项和所述第二项之一可以包括所述训练参数。
在一个实施例中,所述第三项可以包括所述训练参数。
所述第一项可以基于复杂度比所述偏置项所基于的一个或多个项更低的样本差值测量。
所述第一项可以基于所述目标图像部分的原始样本与预测样本的绝对差值和。
所述第三项可以基于所述目标图像部分的重构样本与用于隐蔽所述目标部分的丢失的所述图像部分的重构样本的绝对差值和。
所述第三项可以包括绝对差值和的所述训练参数次幂。
所述第三项可以包括平方差和乘以所述训练参数。
所述训练参数可被训练为最大化信噪比。
所述训练参数可以是丢失概率、编码率和往返时间中的一项或多项的函数。
所述第二和第四项中的一个或全部可以基于所述样本之间的平方差之和。
所述方法可以包括确定在所述通道上丢失分组的概率p,其中所述第二项可以根据因子1-p进行加权,并且所述隐蔽项可以根据因子p进行加权。
所述方法可以包括确定在所述通道上丢失分组的概率p,其中所述第二项可以根据作为p和码率R的函数的训练因子α(p,R)进行加权,并且所述隐蔽项可以根据还作为p和码率R的函数的训练因子β(p,R)进行加权。
所述偏置项可以基于包括所述第二项和所述隐蔽项的误差扩散失真图中的条目,并且所述方法可以包括:在每次选择编码模式之后更新所述误差扩散失真图,并且根据用于每个相应后续的编码模式选择的误差扩散失真图确定误差扩散偏置项。
所述选定的编码模式o opt 可通过以下公式计算:
Figure 442756DEST_PATH_IMAGE006
其中D’(m, o)+D ep-rep (m, o)+λR’(m, o)是所述函数,D’是第一项,D ep-rep (m, o)是偏置项,R’(m, o)是码率,λ是表示失真与码率之间均衡的因子,并且m是目标图像部分的指数。
所述方法可以包括将在所述通道上丢失分组的概率p,其中更新的帧n+1的失真图D ep 可根据以下公式计算:
Figure 829000DEST_PATH_IMAGE008
其中n表示先前编码的帧,m(k)表示第m个图像部分的第k个划分,D ep-ref 是第二项,
Figure 96034DEST_PATH_IMAGE009
是第三项,D ec-ep 是第四项。
第三项可根据以下公式计算:
Figure 357251DEST_PATH_IMAGE010
其中SAD是绝对差值和,γ是训练参数。
第三项可根据以下公式计算:
Figure 26129DEST_PATH_IMAGE011
其中SSD是平方差和,并且γ(p, R)是训练参数。
编码模式至少可以包括(i)帧内模式,该模式相对于同一帧中的基准图像部分编码目标图像部分,以及(ii)帧间编码模式,该模式相对于先前编码的帧中的基准图像部分编码目标图像部分。
所述编码模式集可以包括多个帧内模式。
所述编码模式集可以包括跳过模式。
所述第一项可以考虑由于预测编码导致的失真而非由于量化导致的失真。
所述第三项可以考虑由于预测编码导致的失真而非由于量化导致的失真。
所述第二和第四项中的一个或全部可以考虑同时由于预测编码和量化导致的失真。
所述第一项可以考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。
所述第三项可以考虑由于预测编码导致的失真而非由于量化导致的失真。
所述第二和第四项中的一个或全部可以考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。
所述码率可以不考虑编码残差信号的成本。
所述偏置项可以整合过去的丢失随时间继续的效应。
在又一实施例中,所述第二项可以包括所述训练参数,所述方法可以包括在所述通道上丢失分组的概率p,更新的帧n+1的失真图D ep 可根据以下公式计算:
Figure 81810DEST_PATH_IMAGE013
其中
Figure 836140DEST_PATH_IMAGE014
Figure 635468DEST_PATH_IMAGE015
,并且γ是训练参数。
根据本发明的另一方面,提供一种用于编码包括多个帧的输出视频流的计算机程序产品,其中每个帧包括多个图像部分,所述计算机程序产品体现在非临时性计算机可读介质上并且被配置为当在处理器上执行时,可执行以下操作:针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;并通过有损通道传输所述编码的输出视频流;其中所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失而经历的失真的估计;并且其中所述偏置项基于根据视频流样本训练的训练参数确定。
在实施例中,所述计算机程序产品可被进一步配置为当被执行时,执行根据上述方法特征中的任一项的操作。
根据本发明的另一方面,提供一种用于编码包括多个帧的输出视频流的装置,其中每个帧包括多个图像部分,所述装置包括:编码器,其被配置为针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;其中所述编码器被配置为使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;所述装置包括发送器,用于通过有损通道传输所述编码的输出视频流;所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失而经历的失真的估计;并且所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定。
在实施例中,所述编码器可被进一步配置为执行根据上述方法特征中的任一项的操作。
附图说明
为了更好地理解本发明并示出其如何实施,可以借助实例参考附图,其中:
图1a是视频流的示意性表示,
图1b是某一帧内预测编码模式的示意性表示,
图1c是帧间预测编码模式的示意性表示,
图2是通信系统的示意性框图,以及
图3是编码器的示意性框图。
 
具体实施方式
如上所述,本发明可实现混合RDO处理,该处理接近完全复杂度有损自适应RDO的性能优势,但是计算复杂度有所降低。在本文中,低复杂度表示当在处理器上执行时,导致较少的处理周期。特别是,本发明可用于支持简化的RDO与有损自适应RDO处理之间的交互,从而当在简化的率失真表达式上下文中使用时,最大化有损自适应RDO处理的性能。
现今实时视频编码的典型问题是宏块模式选择中的SSD计算由于CPU的限制而不可行。可备选地使用简化的类率失真成本函数(1a、1b),但是这不提供解码视频质量方面的最佳性能。
本发明使用简化的源编码失真测量,但是添加了有损自适应偏置项D。在实施例中,可通过拉格朗日函数表示此行为:
Figure 158853DEST_PATH_IMAGE016
(1c)
其中
Figure 149550DEST_PATH_IMAGE017
(1b)
并且D ep-ref 表示由于误差扩散导致的解码器中基准块内的预期失真,并且根据误差扩散图D ep 确定。
表示同一优化的另一方式是:
Figure 453492DEST_PATH_IMAGE018
(1d)
源编码失真D’的低复杂度测量是原始样本与预测样本之间的简化SAD(不需要正变换、正量化以及逆变换、逆量化),并且较低复杂度码率项R’仅测量边信息的码率成本(并非残差)。
D ep-ref 基于平方差和(SSD)失真测量导出,因此严格地讲,不应作为简化RDO方程式中的项发挥作用。但是,发明者发现,实际上该混合物表现出良好的性能,接近张等人所发表的文档[2]中的完全有损自适应RDO,但是具有较低复杂度。
无论如何,作为结果,当使用简化的率失真失真标准时,张等人所发表的文档[2]中的算法并非最优。上面简化的率失真标准基于启发法并且与使用SSD的完全RDO非常不同。因此,仅使用张等人所发表的文档[2]中的算法不可能产生最优性能,即,使用上一节中的(3)添加偏置项D ep-ref (m, o)。因此,本发明的特别优选的实施例使用[2]中算法的改编用于简化的宏块模式选择的率失真表达式。具体而言,提供一种数据驱动的程序,以便在有损条件下最大化端到端率失真性能。
在优选实施例中,误差扩散失真图的计算适合于使用利用数据驱动训练程序的简化率失真表达式。这可能导致率失真性能提高。即,例如,(3)的部分被修正为使得计算的D ep-ref (m, o)更适合简化的率失真表达式。
该优选实施例背后的理念与上面介绍的预期误差扩散失真图的计算有关。在优选实施例中,对上面的表达式做出下面的改变以更新误差扩散失真图:
Figure 728616DEST_PATH_IMAGE019
(4)
其中
Figure 434404DEST_PATH_IMAGE020
表示当前和先前编码的块m(k)的重构像素的函数,该函数表示导出误差扩散递归的误差隐蔽重构失真。
Figure 831887DEST_PATH_IMAGE021
根据先前的误差扩散失真图以及当前的模式和移动矢量(上面简单描述)进行计算。Dec-ep可根据用于上面简单描述的用于误差隐蔽的帧的误差扩散失真图进行估计。在一个实施例实例中,函数的形式被选定为:
Figure 124590DEST_PATH_IMAGE022
             (4a)
或备选地被选定为:
Figure 203405DEST_PATH_IMAGE023
           (4b)
其中参数γ(p, R)例如可被训练为针对相关数据集以及诸如通道帧丢失率p和/或编码率R之类的传输性质在解码器上最大化峰值信噪比(PSNR)。该参数还可依赖于帧在从发送器到接收器的通道上传输并且又返回所用的往返时间(RTT)(如果RTT很大,则对有损自适应机制的需求可能大于RTT很小时的需求,其中假设当出现丢失时,获取恢复帧)。即,上述公式中的函数γ将变为γ(p, R, RTT),或者实际上可以是这些参数的其它组合的函数。
也就是说,在设计阶段,算法(4)和(4a)被“离线”应用到视频流样本,并且尝试了大量不同的γ值,然后比较它们的结果以最大化PSNR或充当训练标准的其它此类传输性质。在实际部署中,参数γ(p, R)然后可从预训练的表中读取。通过训练参数γ(p, R),改编D ep ,从而改编D ep-ref (m, o),这样便可在方程式(1d)的简化率失真标准中更好地平衡源编码失真与误差扩散基准失真。与结合简化的率失真标准的张等人的算法[2]相比,这可能导致提高有损条件下解码器上的率失真性能。
在实施例中,不同的γ(p, R)γ(p, R, RTT)值可针对不同的训练场景提前确定,p、R和/或RRT然后被根据对应于p、R和/或RTT的已检测到的传输场景应用于实际的输出视频流。在具有不同的γ值可用的情况下,在某些实施例中,当前值的选择可基于已检测到的当前场景(例如,基于已检测到的丢失率、编码率和/或RTT)动态地适配(即,运作中,实时地适配)。
在另一实施例中,方程式(3)和(4)中的因子(1-p)和p之一可被两个训练参数α(p, R)和β(p, R)替代,这两个参数均被优化为在特定的预定条件下最大化例如PSNR(峰值信噪比)。
适配误差扩散的表达式以适应简化的率失真表达式的备选或补充将是通过用于残差量化的率失真模型来估计方程式(1a)或(1d)中的失真偏置项和码率项,从而最小化简化的率失真表达式与方程式(2)的原始率失真表达式之间的失配。
本发明可以在类似于结合图3描述的编码器中实现,但是具有修正的模式选择模块49。它可用于编码图1所示类型的视频流,并且在诸如图2所示的通信系统中实现。
方程式(4)、(4a)和(4b)背后的工作将在下面更详细地说明。
如上所述,模式选择可以包含优化(例如,最小化)拉格朗日类型函数:
J=D(m, o) + λR(m, o)               (1)
其中J表示拉格朗日函数,D表示失真测量(模式o和宏块m或者宏块子划分的函数),R是码率,并且λ是定义失真与码率之间均衡的参数。
在一般情况下,失真项D仅考虑源编码失真,即,由于编码器的不完美导致的失真(例如量化引入的失真)。它不考虑可能由于通道上的数据丢失导致的失真,例如,由于在基于帧的网络32上传输中丢失分组导致的失真。
另一方面,诸如本发明和张等人所发表的文档[2]中介绍的有损自适应技术尝试在同时考虑源编码和由于通道上数据丢失导致的失真的情况下,定义“端到端”失真的测量。给定(目标)块的端到端失真可被描述为:
Figure 763699DEST_PATH_IMAGE024
 (5)
其中Darrival是目标块到达解码器的情况下经历的失真的估计,Dloss是目标块由于通道上的分组丢失(例如,由于包括该块的分组在基于分组的网络32上丢失)未到达解码器的情况下经历的失真的估计。参数p是在通道上出现导致所述块丢失的丢失事件概率的估计,例如分组丢失概率的估计。
Darrival不仅表示源编码失真,还表示由于块过去的失真导致的失真,即预测目标块所依据的一个或多个基准块中的失真。因此,Darrival同时包括源编码失真项Ds和误差扩散失真项Def-ref,后一项表示预测的目标块的历史中的失真(即,目标块的基准块中的失真,该失真将继续到目标块):
Figure 535346DEST_PATH_IMAGE025
             (6)
D loss 包括由于隐蔽导致的丢失。如未接收到目标块,则解码器将应用隐蔽算法,该算法可包含冻结先前解码的块,或者从一个或多个成功解码的块(从当前的帧和/或先前的帧)内插或外插。因此,D loss 可被识别为由于该隐蔽处理导致的失真:
Dloss = Dec                    (7)
因此查看方程式(5),项Ds表示在根本没有任何丢失的情况下经历的失真的估计,项Dec表示在目标块丢失时经历的失真的估计的估计,项Dep-ref表示当目标块被成功接收但是其历史中的某些内容丢失的情况下(如果目标块的基准块丢失,或者基准块的基准块丢失等)经历的失真的估计。
Ds和Dep-ref是编码模式选择o的函数。Dec不是模式选择o的函数,因此从拉格朗日表达式中丢弃(丢失的块如何编码并不重要,它始终会丢失)。因此,优化可被编写为:
           (2)
Ds是确定的,因为它基于可在编码器上获知的信息,例如,基于原始输入样本值s与重构样本值
Figure 493124DEST_PATH_IMAGE027
之间的差值。编码器在编码器端运行解码器的平行实例(或其近似值)——请参阅图3中详细说明帧间预测模块43的插图。帧间预测模块43包括运动补偿预测(MCP)块44和加法级(+),该级被配置为通过组合每个样本指数i的预测样本
Figure 845607DEST_PATH_IMAGE028
和重构残差
Figure 349008DEST_PATH_IMAGE029
,即来确定重构样本
Figure 269876DEST_PATH_IMAGE027
。在帧间编码的情况下,在编码器上,预测样本
Figure 804763DEST_PATH_IMAGE031
可以与基准块
Figure 918212DEST_PATH_IMAGE032
的样本完全相同(基准帧中的基准块根据相对于目标帧的移动矢量发生偏置——请参阅图1c,其中将再次简单地介绍)。
因此,编码器可以确定实际样本s与重构样本之间的差值,可以在编码器上看到此差值(到目前为止忽略了进一步引入在解码器上经历的失真的丢失的可能性)。样本中的差值例如可被计算为所述目标块的所有样本指数i上的平方差和(SSD)误差:
        (8)
但是,Dep-ref仍旧被估计,该估计基于针对发送编码数据时使用的通道做出某些估计(例如,通过基于分组的网络32)。
为了实现此目标,编码器中的模式选择模块49可被配置为保持误差扩散失真图Dep,该图描述最近编码的帧内的每个宏块或宏块划分的失真。模式选择模块49还被配置为确定在通道上丢失分组(包含预测目标块时依据的基准块)的概率p(因此还暗示地或明确地确定分组到达的概率1-p)。在优选实施例中,概率p在设计阶段基于统计建模预先确定,在这种情况下,模式选择模块49通过从存储器14检索值来确定p。但是,另一可能性是模式选择模块49基于接收器22的反馈确定p。
误差扩散图可被表示为:
Figure 755346DEST_PATH_IMAGE034
              (9)
误差扩散图Dep包括最近编码的帧内的宏块m或更优选地说,包括最近编码的帧内的每个子划分(块)m(k)的失真估计。因此,该图可以更明确地编写为:
Figure 102014DEST_PATH_IMAGE035
       (10)
其中m(k)表示宏块m的第k个子划分(例如,块),p是分组丢失的概率。
如上所述,Dloss等于Dec。Dep-arrival表示通道上的差值,即,编码器上的重构样本与解码器上的重构样本之间的差值。例如,它可被量化为平方差和(SSD):
Figure 514541DEST_PATH_IMAGE036
        (11)
其中
Figure 604857DEST_PATH_IMAGE037
是在同时考虑源编码失真和由于通道导致的失真的情况下,在解码器上接收的样本(或指数i)。即,
Figure 786439DEST_PATH_IMAGE038
是原始未编码的输入样本,
Figure 38429DEST_PATH_IMAGE039
是在考虑源编码失真(例如,由于量化)的情况下,编码器上的重构样本,并且
Figure 938252DEST_PATH_IMAGE040
是在考虑总体端到端失真的情况下的样本,该端到端失真包括通道的有损效应;
Figure 65215DEST_PATH_IMAGE041
Dep-arrival可被扩展为:
Figure 366883DEST_PATH_IMAGE042
               (12)
其中
Figure 789774DEST_PATH_IMAGE043
是重构残差的样本。因此:
Figure 176893DEST_PATH_IMAGE044
                 (13)
这样,替换到方程式(9)和(11),误差扩散图可被重写为:
Figure 609011DEST_PATH_IMAGE045
                 (14)
或者:
            (15)
考虑模式优化问题,该方程式还可编写为:
Figure 358979DEST_PATH_IMAGE047
  (16)
其中n是帧编号,即,Dep(n+1)是在给定现有决策Oopt和帧n的失真图Dep(n)的情况下,用于针对帧编号n+1做出模式选择的误差扩散图。
如张等人发表的文档[2]中所述,Dec项也可进行扩展:
Figure 531596DEST_PATH_IMAGE049
(3)
其中Dec-rec表示编码器中重构像素和误差隐蔽像素之间的SSD,并且Dec-ep是编码器和解码器中误差隐蔽像素之间的预期SSD。
现在看方程式(3),如上所述,项Dep-ref表示当目标块被成功接收但是其历史中的某些内容丢失的情况下(如果目标块的基准块丢失,或者基准块的基准块丢失等)经历的失真,进一步地,Dec-rec表示由于隐蔽算法本身的性质导致的失真的估计(在某些方面类似于用于预测的内在源编码失真Ds)。Dec-ep然后表示当目标块丢失(因此需要在解码器上隐蔽)并且隐蔽目标块的历史中的某些内容也丢失(如果完成隐蔽所依据的块丢失,或者预测或隐蔽块所依据的块丢失等)的情况下经历的失真的估计。即,Dec-ep表示由于隐蔽基准损坏(源于先前的丢失)而在误差隐蔽块中引入的失真,即,编码器-解码器基准失配。
因此,失真图Dep包括由来自于Dec-rec以及部分地来自于Dec-ep的新丢失导致的贡献;以及由来自于Dep-ref以及部分地来自于Dec-ep的过去的丢失导致的贡献。
对于序列中的第一帧,该帧将使用帧内编码进行编码,在这种情况下,Dep-ref = 0,因此Dep= pDec
误差隐蔽失真Dec由模式选择模块49计算。项Dec-rec基于对隐蔽算法的了解,并且可以依赖于所用的特定误差隐蔽算法。Dec-ep基于现有(或最新)的失真图进行计算,其方式与Dep-ref类似,例如,通过在基本隐蔽算法的情况下复制同位块的失真,或者在使用尝试外插运动(同样参阅下面的图1c中的相关介绍)的更复杂的隐蔽的情况下,计算多个先前编码的块b1-b4中失真的加权和。可使用计算Dec的其它方法——所述方法可以是对编码器中的重构样本与可在解码器上看到的隐蔽误差样本之间差值的任何估计(即,复制样本,从先前接收的帧或同一帧中已接收的区域开始内插或外插以隐蔽丢失的帧或区域)。
模式选择模块49然后维护每个后续帧间预测帧的误差扩散图,其方式是在每次模式选择决策之后更新该图,现在包括使用所述帧的运动矢量,根据对现有误差图的了解计算Dep-ref
帧间预测实例(运动估计)在图1c中示出。在基准帧Ft(编号n)中示出四个块实例b1、b2、b3和b4,基准帧已被编码。目标帧Ft+1(编号n+1)的块将根据基准帧Ft进行预测。例如考虑目标帧Ft+1中的目标块b1’。为此,运动预测块44确定定义目标帧Ft+1中目标块与基准帧Ft中基准块(通过虚线示出)之间偏移的运动矢量,以便当基准块从基准帧Ft中的偏置位置转换为目标帧Ft+1中的目标块b1’的位置时,提供目标块b1’的最佳估计。因此需要指出,虚线表示的基准块不一定是基准帧Ft的可索引块。即,它不一定是基准帧的预定子划分,并且可以偏移任意量(实际上,甚至可以偏移一小部分像素)。因此,基准块由来自四个实际可索引的块b1、b2、b3和b4的贡献组成。
因此,模式选择模块49在确定用于更新误差扩散图Dep(n+1)的Dep-ref时执行的计算包括计算针对现有图Dep(n)中的块b1至b4记录的失真的加权和:
Figure 767406DEST_PATH_IMAGE050
               (17)
其中wi是表示来自块bi的贡献的权重,Dep(i)是块bi的误差扩散图项目。
上面描述了确定初始误差扩散图Dep的过程,其中使用该误差扩散图选择后续编码的最优编码模式决策oopt,使用该编码决策更新图Dep,然后在接下来的编码决策中使用更新的图等等,其中该误差扩散图表示端到端失真,其中包括估计的通道上丢失的效应。例如,再次参考张等人所发表的文档[2]。此处可被称为有损自适应率失真优化(LARDO)。
但是,在本发明的优选实施例中,误差扩散图被修正为以下形式:
Figure 778087DEST_PATH_IMAGE051
(4)
其中f是基于所述当前帧中块的重构样本与先前编码的帧中块的重构样本之间的绝对差值和的函数,先前编码的帧将用于掩蔽丢失的样本。例如:
Figure 808360DEST_PATH_IMAGE052
         (4a)
因此,表示隐蔽算法内在失真的项Dec-rec被修正为基于SAD类型测量而非SSD。优选地,这是SAD的训练参数γ次幂。
另一选项是:
Figure 904492DEST_PATH_IMAGE053
       (4b)
如上所述,方程式(1d)中的因子(1-p)和p也可分别由两个训练参数α(p, R)和β(p, R)替代。
在上述任一实例中,γ还可以是往返时间RTT的函数,即,γ(p, R, RTT)或者是这些参数的其它组合。
现在描述可选择与本发明结合使用的进一步的修正。
张等人所发表的文档[2]中算法的问题是不一定以最优方式考虑潜在失真对将来的影响,从感知的角度来看,误差时长是重要因素[3],并且发明者认为持续存在的潜在预期误差扩散失真即使很小,最终也会触发选择帧内编码模式。在下面描述的实施例中,将例证如何将时间整合到预期误差扩散失真的表达式中以便利实现此目的。
使用张等人所发表的文档[2]中的算法,来自(3)的预期的潜在误差扩散失真并不总是高得足以触发帧内编码,因此将存在伪影,直到下一帧内或场景发生改变。相反,如果潜在误差扩散在一段时间之后整合,便可能触发帧内编码并且剩余的伪影将在一段时间之后消失。如何实现此目的的实施例实例在下面描述。
如上所述,现有有损自适应RDO技术的问题是它们不考虑过去的丢失累积到将来的影响,特别是在其中没有运动或运动量很小的情况下,例如静态背景或近似静态背景。在这些情况下,发明者注意到:
Figure 239265DEST_PATH_IMAGE054
                 (18)
在基本隐蔽算法中,这是因为隐蔽块从先前的同位块进行复制,在静态背景的情况下,先前的同位块与当前的隐蔽块相同。即,编码器中的误差隐蔽样本和重构样本将相同;或者换言之,隐蔽算法本身不会内在地引入任何失真。类似的效应将在更复杂的隐蔽算法中出现。
此外:
Figure 104453DEST_PATH_IMAGE055
              (19)
这是因为,在缺乏任何来自隐蔽的内在失真的情况下,编码器上的误差隐蔽样本与可在解码器上看到的估计样本之间的差值仅从现有误差扩散图中进行复制。
将(18)和(19)替换到方程式(3),可看出这表示:
Figure 305627DEST_PATH_IMAGE056
  (20)
即,在其中由新丢失导致的贡献为零或者可被忽略的情况下,更新的扩散图被精简为仅包括由过去的丢失(用于预测和/或隐蔽的历史中的丢失)导致的贡献。现在看另一方式,在其中运动量很小或没有运动的情况下,例如,在基本静止的背景中,通道上任何进一步的丢失以及解码器上关联隐蔽的效应本身对失真没有内在影响,因为从一个帧到下一帧的块复制或外插基本应该相同(或者在空间隐蔽算法的情况下,从统一背景的一个大型静态区域的一个或多个附近块复制、外插或内插的块将极为相似)。结果是Dep将无限期保持相同,并且在一段时间之后不会扩大。
但是在现实中,从感知的角度来看,失真将变得越来越相关,因为误差时长在误差感知中非常重要。也就是说,从感知的角度来看,不仅失真程度相关,而且失真时长也相关。
因此,存在的问题是:使用诸如张等人所发表的文档[2]中的现有技术,形成做出编码模式决策基础的失真图不会总是足够早地触发帧内编码以防止感知相关的伪影。
在张等人所发表的文档[2]中,误差扩散图可以在一段时间之后扩大,但是仅由于通道上持续发生的丢失导致失真的贡献,即,仅由于新丢失及其关联的掩蔽。
为了解决此问题,本发明规定使用误差扩散图,在诸如其中由新丢失导致的贡献为零或可被忽略的静态背景的情况下,该误差扩散图精简为以下表达式,该表达式将过去的丢失导致的贡献累积到将来:
Figure 951372DEST_PATH_IMAGE057
          (21)
其中ε > 1。这可被视为过去的丢失随时间的贡献的时间整合。
例如,修正张等人所发表的文档[2],失真图公式变为:
Figure 201087DEST_PATH_IMAGE059
 (22)
其中ε > 1。如上所述,足够大的因子ε和非零Dep-ref将导致即使在误差隐蔽重构失真Dec-rec为零的情况下,Dep也会扩大,因此,最终触发帧内编码。
即,历史丢失的影响随着时间的推移不断地扩大,使得该失真在优化问题中的比重不断增加。即使所估计的样本之间差值的实际失真不一定扩大,失真的感知也会随着时间变得更显著,因此在选择使用帧间编码还是帧内编码对下一帧或区域进行编码时,应该更关注较老的失真。
方程式(22)可以选择性地与上述其它技术进行组合,以便Dec-rec变为方程式(4a)的基于SAD的测量,或变为方程式(4b)的基于SSD的测量。
将理解,上述实施例仅作为实例进行描述。
例如,本发明可以扩展到除了调谐Dec-rec之外还调谐有损自适应优化处理的其它方式。备选实例为:使Dec-rec保持不变(例如,如张等人所发表的文档中所述)并且相反地将函数应用于Dep-ref,以便Dep-ref变为训练参数γ的函数,例如,Dep-ref的γ次幂或者Dep-ref乘以γ。在这种情况下,误差扩散图表示为:
Figure 248678DEST_PATH_IMAGE060
其中例如可以是
Figure 308666DEST_PATH_IMAGE063
Figure 691423DEST_PATH_IMAGE065
进一步地,在上述各个公式中,参数λ、α、β和ε可由系统设计者进行调谐。对于这些参数,没有正确或错误的值——优选值将依赖于系统设计者决定容忍的特定质量以及通道可支持的码率。例如,在一个实施例中,ε可处于1.03到1.05的范围内。特定的λ值由H.264推荐,尽管该值还可根据系统设计进行调谐。
在特别有利的实施例中,模式选择模块49可被配置为针对不同的码率和/或通道条件(例如,帧丢失和往返时间)使用不同的λ、α、β和/或ε值。在这种情况下,这些值可基于当前检测到的通道(多个)条件动态地适配,例如基于解码器的反馈所报告的通道条件;或者基于码率的动态设定或改变动态的适配,例如基于解码器所请求的码率或基于用户设定。
再次注意,当在本申请中提到由于丢失导致的贡献时,或者当任何内容宣称在通道上发生“如果”数据丢失等情况时,这仅涉及概率假设(例如,p),该假设是编码器针对解码器可能遇到的状况做出的假设——编码器当然不知道将发生什么情况。此概率假设可在设计阶段基于统计网络建模预先确定,和/或甚至可以基于来自解码器的反馈动态地确定。
尽管上面按照片、宏块和块进行描述,但是这些术语并非旨在作为限制,并且此处描述的理念不限于对权利要求进行划分或子划分的任何特定方式。进一步地,失真图可涵盖整个帧或帧内的区域,并且编码决策处理可应用于整个帧或仅应用于帧的一部分。
进一步地,可以使用其它处理,这些处理使用上述简化近似值的其它组合。例如,基于低复杂度SAD的测量可以仅排除变换,不排除量化(即,在空间域中进行量化)。另一实例是在实时编码中排除量化并使用变换(例如,使用绝对变换差值和作为失真测量,该失真测量将频率变换应用于原始块与基准块中像素之间的差值,这样提高了编码性能,但是处理成本稍高于基本SAD)。另一实例是包括所有预测、变换和量化,但是仍使用绝对差值和(SAD)作为失真测量,而非使用平方差和(SSD)。在其它实例中,基于较高复杂度SSD的测量可以考虑通道上丢失或误差扩散的效应,但是仍排除变换和/或量化,并且/或者仍基于SAD或其它失真测量。进一步地,可针对偏置项使用SAD和/或SSD的不同组合。一般而言,所有组合都是可能的。
进一步地,尽管本发明根据两个帧n和n+1进行描述,但是根据本发明的特定实施例,这些帧不一定指示两个相邻的帧(尽管在现有编解码器中,可以是这种情况)。在某些实施例中,可以相对于甚至更早的帧执行帧间预测,并且例如n和n+1可以结合本发明使用以分别指示任何先前编码的帧或图像部分以及根据其预测的后续帧或部分。
在给定此处公开内容的情况下,对于本领域的技术人员而言,其它变形可变得显而易见。本发明的范围并非由所述的实施例限定,而是仅由所附权利要求限定。
权利要求书(按照条约第19条的修改)
1.一种编码包括多个帧的输出视频流的方法,其中每个帧包括多个图像部分,所述方法包括:
针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;
使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;以及
通过有损通道传输所述编码的输出视频流;
其中所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失经历的失真的估计;并且其中所述偏置项基于根据视频流样本训练的训练参数确定,其中
所述第一项基于复杂度比所述偏置项所基于的一个或多个项更低的样本之间差值的测量;
所述第一项基于所述目标图像部分的原始样本与预测样本的绝对差值和,而所述偏置项所基于的一个或多个项基于样本之间的平方差和,
所述第一项考虑由于预测编码导致的失真而非由于量化导致的失真,而所述偏置项所基于的一个或多个项考虑同时由于预测编码和量化导致的失真;
所述第一项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真,而所述偏置项所基于的一个或多个项考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。
2.根据权利要求1的方法,其中:
所述偏置项基于第二项,其表示在所述目标部分通过所述通道到达的情况下,由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计,并且该偏置项还基于隐蔽项,其表示由于隐蔽而经历的失真的估计;
所述隐蔽项包括第三项,其表示所述目标部分相对于图像部分的隐蔽失真的测量,在所述目标部分在所述通道上丢失的情况下,所述图像部分用于隐蔽所述目标部分的丢失,所述隐蔽项还包括第四项,其表示由于隐蔽所述目标部分所依赖的所述目标部分的历史中的图像部分丢失而经历的失真的估计;并且
所述第三项和所述第二项之一包括所述训练参数。
3.根据权利要求1或2的方法,其中包括以下至少一项:
所述第三项包括所述训练参数;
所述第三项基于所述目标图像部分的重构样本与用于隐蔽所述目标部分的丢失的所述图像部分的重构样本的绝对差值和;
所述第三项包括绝对差值和的所述训练参数次幂;
所述第三项包括平方差和乘以所述训练参数;并且
所述第三项考虑由于预测编码导致的失真而非由于量化导致的失真;并且
所述第三项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。
4.根据上述任一权利要求的方法,其中所述训练参数被训练为最大化信噪比。
5.根据权利要求2至5中任一项的方法,其中包括以下至少一项:
所述第二和第四项中的一个或全部基于所述样本之间的平方差和;
所述第二和第四项中的一个或全部考虑同时由于预测编码和量化导致的失真;以及
所述第二和第四项中的一个或全部考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。
6.根据权利要求2至6中任一项的方法,其中包括确定在所述通道上丢失分组的概率p,其中所述第二项根据因子1-p或根据作为p和码率R的函数的训练因子α(p, R)进行加权,并且所述隐蔽项根据因子p或根据也作为p和码率R的函数的训练因子进行加权。
7.根据权利要求2至7中任一项的方法,其中所述偏置项基于包括所述第二项和所述隐蔽项的误差扩散失真图中的项,并且所述方法包括:
在每次选择编码模式之后更新所述误差扩散失真图,并且根据用于每个相应的后续编码模式选择的误差扩散失真图确定误差扩散偏置项。
8.根据上述任一权利要求的方法,其中所述偏置项整合过去的丢失随时间继续的效应。
9.一种用于编码包括多个帧的输出视频流的计算机程序产品,其中每个帧包括多个图像部分,所述计算机程序产品体现在非临时性计算机可读介质上并且被配置为当在处理器上执行时,执行上述任一权利要求中的操作。
10.一种用于编码包括多个帧的输出视频流的装置,其中每个帧包括多个图像部分,所述装置包括:
编码器,其被配置为针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;
其中所述编码器被配置为使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;
所述装置包括发送器,用于通过有损通道传输所述编码的输出视频流;
所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失经历的失真的估计;并且
所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定,其中
所述第一项基于复杂度比所述偏置项所基于的一个或多个项更低的样本之间差值的测量;
所述第一项基于所述目标图像部分的原始样本与预测样本的绝对差值和,而所述偏置项所基于的一个或多个项基于样本之间的平方差和,
所述第一项考虑由于预测编码导致的失真而非由于量化导致的失真,而所述偏置项所基于的一个或多个项考虑同时由于预测编码和量化导致的失真;
所述第一项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真,而所述偏置项所基于的一个或多个项考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。

Claims (10)

1. 一种编码包括多个帧的输出视频流的方法,其中每个帧包括多个图像部分,所述方法包括:
针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;
使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;以及
通过有损通道传输所述编码的输出视频流;
其中所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失经历的失真的估计;并且其中所述偏置项基于根据视频流样本训练的训练参数确定。
2. 根据权利要求1的方法,其中:
所述偏置项基于第二项,其在表示所述目标部分通过所述通道到达的情况下,由于预测所述目标部分所依赖的所述目标部分的历史中的基准部分未到达而经历的失真的估计,该偏置项还基于隐蔽项,其表示由于隐蔽而经历的失真的估计;
所述隐蔽项包括第三项,其表示所述目标部分相对于图像部分的隐蔽失真的测量,在所述目标部分在所述通道上丢失的情况下,所述图像部分用于隐蔽所述目标部分的丢失,所述隐蔽项还包括第四项,其表示由于隐蔽所述目标部分所依赖的所述目标部分的历史中的图像部分丢失而经历的失真的估计;并且
所述第三项和所述第二项之一包括所述训练参数。
3. 根据权利要求1或2的方法,其中包括以下至少一项:
所述第一项基于复杂度比所述偏置项所基于的一个或多个项更低的样本之间差值测量;
所述第一项基于所述目标图像部分的原始样本与预测样本的绝对差值和;
所述第一项考虑由于预测编码导致的失真而非由于量化导致的失真;并且
所述第一项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。
4. 根据权利要求2或3的方法,其中包括以下至少一项:
所述第三项包括所述训练参数;
所述第三项基于所述目标图像部分的重构样本与用于隐蔽所述目标部分的丢失的所述图像部分的重构样本的绝对差值和;
所述第三项包括绝对差值和的所述训练参数次幂;
所述第三项包括平方差和乘以所述训练参数;并且
所述第三项考虑由于预测编码导致的失真而非由于量化导致的失真;并且
所述第三项考虑由于预测编码导致的失真而非由于从空间域表示到变换域表示的变换导致的失真。
5. 根据上述任一权利要求的方法,其中所述训练参数被训练为最大化信噪比。
6. 根据权利要求2至5中任一项的方法,其中包括以下至少一项:
所述第二和第四项中的一个或全部基于所述样本之间的平方差和;
所述第二和第四项中的一个或全部考虑同时由于预测编码和量化导致的失真;以及
所述第二和第四项中的一个或全部考虑同时由于预测编码和从空间域表示到变换域表示的变换导致的失真。
7. 根据权利要求2至6中任一项的方法,其中包括确定在所述通道上丢失分组的概率p,其中所述第二项根据因子1-p或根据作为p和码率R的函数的训练因子α(p, R)进行加权,并且所述隐蔽项根据因子p或根据也作为p和码率R的函数的训练因子进行加权。
8. 根据权利要求2至7中任一项的方法,其中所述偏置项基于包括所述第二项和所述隐蔽项的误差扩散失真图中的项,并且所述方法包括:
在每次选择编码模式之后更新所述误差扩散失真图,并且根据用于每个相应的后续编码模式选择的误差扩散失真图确定误差扩散偏置项。
9. 根据上述任一权利要求的方法,其中所述偏置项整合过去的丢失随时间继续的效应。
10. 一种用于编码包括多个帧的输出视频流的装置,其中每个帧包括多个图像部分,所述装置包括:
编码器,其被配置为针对每个要编码的目标图像部分,通过优化包括失真估计和码率测量的函数,从编码模式集中选择优选的模式,所述码率是编码所述目标图像部分所需的码率;
其中所述编码器被配置为使用所述选定的编码模式将所述目标图像部分编码为所述输出视频流;
所述装置包括发送器,用于通过有损通道传输所述编码的输出视频流;
所述失真估计包括第一项,其表示源编码失真,以及偏置项,其表示由于在所述通道上的丢失经历的失真的估计;并且
所述编码器被配置为使得所述偏置项基于根据视频流样本训练的训练参数确定。
CN201280031159.9A 2011-06-24 2012-06-22 低复杂度模式选择 Active CN103650493B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1110763.8A GB2492163B (en) 2011-06-24 2011-06-24 Video coding
GB1110763.8 2011-06-24
PCT/EP2012/062162 WO2012175721A1 (en) 2011-06-24 2012-06-22 Low complexity mode selection

Publications (2)

Publication Number Publication Date
CN103650493A true CN103650493A (zh) 2014-03-19
CN103650493B CN103650493B (zh) 2017-02-15

Family

ID=44485129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280031159.9A Active CN103650493B (zh) 2011-06-24 2012-06-22 低复杂度模式选择

Country Status (5)

Country Link
US (1) US9131248B2 (zh)
EP (1) EP2712482B8 (zh)
CN (1) CN103650493B (zh)
GB (1) GB2492163B (zh)
WO (1) WO2012175721A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106507111A (zh) * 2016-11-17 2017-03-15 上海兆芯集成电路有限公司 使用残差补偿的视频编码方法以及使用该方法的装置
WO2018184411A1 (zh) * 2017-04-05 2018-10-11 深圳市中兴微电子技术有限公司 一种预测模式的判决方法、装置及存储介质
CN109587488A (zh) * 2018-11-07 2019-04-05 成都随锐云科技有限公司 一种基于率失真优化和丢帧预测的长参考帧的选取方法
CN109688411A (zh) * 2017-10-18 2019-04-26 深圳市中兴微电子技术有限公司 一种视频编码率失真代价估计方法和装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2492330B (en) 2011-06-24 2017-10-18 Skype Rate-Distortion Optimization with Encoding Mode Selection
GB2492329B (en) 2011-06-24 2018-02-28 Skype Video coding
GB2493777A (en) 2011-08-19 2013-02-20 Skype Image encoding mode selection based on error propagation distortion map
GB2495467B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495468B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495469B (en) 2011-09-02 2017-12-13 Skype Video coding
US10218983B2 (en) * 2015-09-30 2019-02-26 Apple Inc. Adapting mode decisions in video encoder
US11871052B1 (en) * 2018-09-27 2024-01-09 Apple Inc. Multi-band rate control
CN113767400A (zh) * 2019-03-21 2021-12-07 谷歌有限责任公司 使用率失真成本作为深度学习的损失函数
TWI743919B (zh) * 2020-08-03 2021-10-21 緯創資通股份有限公司 視訊處理裝置及視訊串流的處理方法
TWI749676B (zh) 2020-08-03 2021-12-11 緯創資通股份有限公司 影像品質評估裝置及其影像品質評估方法
KR20220157765A (ko) * 2021-05-21 2022-11-29 삼성전자주식회사 영상 부호화 장치 및 이의 동작 방법
CN115866252B (zh) * 2023-02-09 2023-05-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种图像压缩方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101014128A (zh) * 2007-02-02 2007-08-08 清华大学 H.264/avc视频编码中速率和失真的快速估计方法
WO2007084475A3 (en) * 2006-01-17 2007-10-04 Thomson Licensing Methods and apparatus for low complexity error resilient motion estimation and coding mode selection
US7317759B1 (en) * 2002-02-28 2008-01-08 Carnegie Mellon University System and methods for video compression mode decisions
CN101513071A (zh) * 2006-08-28 2009-08-19 汤姆森许可贸易公司 用于确定解码视频块中的期望失真的方法及设备

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0620303B2 (ja) 1984-11-08 1994-03-16 日本電信電話株式会社 フレ−ム間符号化方式におけるリフレッシュ処理方式
JPH10145794A (ja) 1996-11-11 1998-05-29 Oki Electric Ind Co Ltd 画像符号化方法及び画像符号化装置
JPH11218673A (ja) 1998-01-30 1999-08-10 Olympus Optical Co Ltd カメラシステム
US6434196B1 (en) 1998-04-03 2002-08-13 Sarnoff Corporation Method and apparatus for encoding video information
JP3606306B2 (ja) 1998-10-08 2005-01-05 沖電気工業株式会社 画像符号化装置、画像復号化装置及び画像伝送システム
US6499060B1 (en) 1999-03-12 2002-12-24 Microsoft Corporation Media coding for loss recovery with remotely predicted data units
JP2003032287A (ja) 2001-07-16 2003-01-31 Furukawa Electric Co Ltd:The ネットワーク間接続方法、その装置およびその装置を用いたシステム
FR2840495B1 (fr) 2002-05-29 2004-07-30 Canon Kk Procede et dispositif de selection d'une methode de transcodage parmi un ensemble de methodes de transcodage
CA2491522C (en) * 2002-07-01 2014-12-09 E G Technology Inc. Efficient compression and transport of video over a network
FR2846835B1 (fr) * 2002-11-05 2005-04-15 Canon Kk Codage de donnees numeriques combinant plusieurs modes de codage
EP1439712A1 (en) 2002-12-17 2004-07-21 Visiowave S.A. Method of selecting among "Spatial Video CODEC's" the optimum CODEC for a same input signal
CN100499788C (zh) 2003-01-09 2009-06-10 加利福尼亚大学董事会 视频编码设备
US7672523B2 (en) 2003-03-03 2010-03-02 The Hong Kong University Of Science And Technology Efficient rate allocation for multi-resolution coding of data
KR20050061762A (ko) 2003-12-18 2005-06-23 학교법인 대양학원 부호화 모드 결정방법, 움직임 추정방법 및 부호화 장치
JP4031455B2 (ja) 2004-03-29 2008-01-09 株式会社東芝 画像符号化装置
EP1603339A1 (en) * 2004-06-01 2005-12-07 STMicroelectronics S.r.l. Method and system for communicating video data in a packet-switched network, related network and computer program product therefor
JP4680008B2 (ja) 2004-08-31 2011-05-11 株式会社エヌ・ティ・ティ・ドコモ 通信システム、通信ノード及び通信方法
US8948266B2 (en) * 2004-10-12 2015-02-03 Qualcomm Incorporated Adaptive intra-refresh for digital video encoding
WO2006078595A2 (en) 2005-01-18 2006-07-27 Thomson Licensing Method and apparatus for estimating channel induced distortion
US9667999B2 (en) 2005-04-25 2017-05-30 Avago Technologies General Ip (Singapore) Pte. Ltd. Method and system for encoding video data
DE102005029127A1 (de) 2005-06-23 2007-04-19 On Demand Microelectronics Ag Verfahren und Vorrichtung zur optimierten prädiktiven Videocodierung
US20070030894A1 (en) 2005-08-03 2007-02-08 Nokia Corporation Method, device, and module for improved encoding mode control in video encoding
CA2633819C (en) * 2005-12-08 2016-12-06 Vidyo, Inc. Systems and methods for error resilience and random access in video communication systems
WO2007070056A1 (en) 2005-12-15 2007-06-21 Thomson Licensing An adaptive joint source and channel coding scheme for h.264 video multicasting over wireless networks
WO2007075220A1 (en) 2005-12-22 2007-07-05 Thomson Licensing Method and apparatus for optimization of frame selection for flexible macroblock ordering (fmo) video encoding
JP2009522972A (ja) 2006-01-09 2009-06-11 ノキア コーポレイション スケーラブルなビデオ符号化におけるエラー耐性を有するモード決定
JP4845640B2 (ja) 2006-08-23 2011-12-28 富士通株式会社 無線通信システムおよび無線通信方法
US8467448B2 (en) 2006-11-15 2013-06-18 Motorola Mobility Llc Apparatus and method for fast intra/inter macro-block mode decision for video encoding
WO2008076148A2 (en) 2006-12-15 2008-06-26 Thomson Licensing Distortion estimation
US8824567B2 (en) 2007-04-04 2014-09-02 Ittiam Systems (P) Ltd. Method and device for tracking error propagation and refreshing a video stream
KR100898176B1 (ko) 2007-06-12 2009-05-19 한국전자통신연구원 비디오 인코딩을 위한 인터 모드 결정 방법
US20080316364A1 (en) 2007-06-25 2008-12-25 The Hong Kong University Of Science And Technology Rate distortion optimization for video denoising
US8982947B2 (en) 2007-07-20 2015-03-17 The Hong Kong University Of Science And Technology Rate control and video denoising for noisy video data
CN100566427C (zh) 2007-07-31 2009-12-02 北京大学 用于视频编码的帧内预测编码最佳模式的选取方法及装置
US20090067495A1 (en) 2007-09-11 2009-03-12 The Hong Kong University Of Science And Technology Rate distortion optimization for inter mode generation for error resilient video coding
JP5427785B2 (ja) 2007-09-28 2014-02-26 ドルビー ラボラトリーズ ライセンシング コーポレイション ビデオ圧縮技法及びビデオ伝達技法
US20090110062A1 (en) 2007-10-30 2009-04-30 The Hong Kong University Of Science And Technology Optimal heegard-berger coding schemes
US20090135901A1 (en) 2007-11-28 2009-05-28 The Hong Kong University Of Science And Technology Complexity adaptive video encoding using multiple reference frames
FR2925819A1 (fr) 2007-12-21 2009-06-26 Thomson Licensing Sas Procede de codage double passe par macrobloc
US8238427B2 (en) 2008-01-17 2012-08-07 Texas Instruments Incorporated Rate distortion optimized adaptive intra refresh for video coding
US8265171B2 (en) * 2008-02-26 2012-09-11 Richwave Technology Corp. Error resilient video transmission using instantaneous receiver feedback and channel quality adaptive packet retransmission
US8798137B2 (en) 2008-02-29 2014-08-05 City University Of Hong Kong Bit rate estimation in data or video compression
US8406296B2 (en) 2008-04-07 2013-03-26 Qualcomm Incorporated Video refresh adaptation algorithms responsive to error feedback
KR101350723B1 (ko) 2008-06-16 2014-01-16 돌비 레버러토리즈 라이쎈싱 코오포레이션 비디오 코딩을 위한 슬라이스 종속성에 기초한 레이트 제어 모델 적응 방법
EP2139138B1 (en) 2008-06-24 2013-06-19 Alcatel Lucent Radio link adaption of a channel between a first network element and a second network element in a communication network
WO2010009770A1 (en) * 2008-07-25 2010-01-28 Telefonaktiebolaget Lm Ericsson (Publ) A method for the estimation of spatio-temporal homogeneity in video sequences
US9479786B2 (en) 2008-09-26 2016-10-25 Dolby Laboratories Licensing Corporation Complexity allocation for video and image coding applications
KR101619972B1 (ko) 2008-10-02 2016-05-11 한국전자통신연구원 이산 여현 변환/이산 정현 변환을 선택적으로 이용하는 부호화/복호화 장치 및 방법
KR101217525B1 (ko) 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
US20100238997A1 (en) 2009-03-17 2010-09-23 Yang En-Hui Method and system for optimized video coding
EP2230849A1 (en) 2009-03-20 2010-09-22 Mitsubishi Electric R&D Centre Europe B.V. Encoding and decoding video data using motion vectors
US8270473B2 (en) 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
US8477846B2 (en) 2009-10-07 2013-07-02 Ittiam Systems (P) Ltd. System and method for adaptive intra refresh rate setting in a video encoder
US8411750B2 (en) * 2009-10-30 2013-04-02 Qualcomm Incorporated Global motion parameter estimation using block-based motion vectors
TWI390503B (zh) 2009-11-19 2013-03-21 Gemtek Technolog Co Ltd Dual channel voice transmission system, broadcast scheduling design module, packet coding and missing sound quality damage estimation algorithm
GB2476271B (en) 2009-12-17 2015-09-02 Skype Coding data streams
US8553796B2 (en) 2009-12-23 2013-10-08 Intel Corporation Distortion-aware multiple input multiple output precoding
CN102783151A (zh) * 2010-01-08 2012-11-14 诺基亚公司 用于视频编码的装置、方法和计算机程序
US9078009B2 (en) 2010-02-19 2015-07-07 Skype Data compression for video utilizing non-translational motion information
US20120069927A1 (en) 2010-09-17 2012-03-22 Intel Corporation CQI feedback mechanisms for distortion-aware link adaptation toward enhanced multimedia communications
WO2012054570A1 (en) 2010-10-20 2012-04-26 Dolby Laboratories Licensing Corporation Error resilient rate distortion optimization for image and video encoding
EP2721826A4 (en) 2011-06-14 2015-05-06 Zhou Wang METHOD AND SYSTEM FOR OPTIMIZATION OF FLOW-DISTORTION BASED ON STRUCTURAL SIMILARITY FOR PERCEPTUAL VIDEO CODING
GB2492329B (en) 2011-06-24 2018-02-28 Skype Video coding
GB2492330B (en) 2011-06-24 2017-10-18 Skype Rate-Distortion Optimization with Encoding Mode Selection
GB2493777A (en) 2011-08-19 2013-02-20 Skype Image encoding mode selection based on error propagation distortion map
GB2495468B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495467B (en) 2011-09-02 2017-12-13 Skype Video coding
GB2495469B (en) 2011-09-02 2017-12-13 Skype Video coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7317759B1 (en) * 2002-02-28 2008-01-08 Carnegie Mellon University System and methods for video compression mode decisions
WO2007084475A3 (en) * 2006-01-17 2007-10-04 Thomson Licensing Methods and apparatus for low complexity error resilient motion estimation and coding mode selection
CN101513071A (zh) * 2006-08-28 2009-08-19 汤姆森许可贸易公司 用于确定解码视频块中的期望失真的方法及设备
US20100239015A1 (en) * 2006-08-28 2010-09-23 Yao Wang Method and apparatus for determining expected distortion in decoded video blocks
CN101014128A (zh) * 2007-02-02 2007-08-08 清华大学 H.264/avc视频编码中速率和失真的快速估计方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106507111A (zh) * 2016-11-17 2017-03-15 上海兆芯集成电路有限公司 使用残差补偿的视频编码方法以及使用该方法的装置
WO2018184411A1 (zh) * 2017-04-05 2018-10-11 深圳市中兴微电子技术有限公司 一种预测模式的判决方法、装置及存储介质
CN108696750A (zh) * 2017-04-05 2018-10-23 深圳市中兴微电子技术有限公司 一种预测模式的判决方法及装置
CN109688411A (zh) * 2017-10-18 2019-04-26 深圳市中兴微电子技术有限公司 一种视频编码率失真代价估计方法和装置
CN109587488A (zh) * 2018-11-07 2019-04-05 成都随锐云科技有限公司 一种基于率失真优化和丢帧预测的长参考帧的选取方法
CN109587488B (zh) * 2018-11-07 2022-08-05 成都随锐云科技有限公司 一种基于率失真优化和丢帧预测的长参考帧的选取方法

Also Published As

Publication number Publication date
GB2492163A (en) 2012-12-26
EP2712482B8 (en) 2020-05-27
CN103650493B (zh) 2017-02-15
US9131248B2 (en) 2015-09-08
WO2012175721A1 (en) 2012-12-27
EP2712482B1 (en) 2020-04-08
EP2712482A1 (en) 2014-04-02
GB201110763D0 (en) 2011-08-10
US20120327998A1 (en) 2012-12-27
GB2492163B (en) 2018-05-02

Similar Documents

Publication Publication Date Title
CN103650493B (zh) 低复杂度模式选择
CN103733621B (zh) 基于低复杂度差错传播追踪的速率失真优化的视频编码模式选择
CN103609115B (zh) 具有基于知觉的帧内切换的模式决策的编码方法及装置
EP2737702B1 (en) Video encoding mode selection based on an aggregate estimate of error propagation distortion over multiple lossy channels
EP2737701B1 (en) Video refresh with error propagation tracking and error feedback from receiver
EP2737703B1 (en) Video refresh using error-free reference frames
EP2710802B1 (en) Rate-distortion optimization for video coding
CN101233760A (zh) 在视频编码中用于改进的编码模式控制的方法、设备和模块
CN105379269A (zh) 兴趣区域感知的视频编码
US20160105675A1 (en) Metadata hints to support best effort decoding for green mpeg applications
CN102946533B (zh) 视频编码
CN102946532A (zh) 视频编码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200330

Address after: Redmond, Washington, USA

Patentee after: MICROSOFT TECHNOLOGY LICENSING, LLC

Address before: Ai Erlandubailin

Patentee before: Skype