CN103636212B - 基于帧相似性和视觉质量以及兴趣的帧编码选择 - Google Patents

基于帧相似性和视觉质量以及兴趣的帧编码选择 Download PDF

Info

Publication number
CN103636212B
CN103636212B CN201280031787.7A CN201280031787A CN103636212B CN 103636212 B CN103636212 B CN 103636212B CN 201280031787 A CN201280031787 A CN 201280031787A CN 103636212 B CN103636212 B CN 103636212B
Authority
CN
China
Prior art keywords
frame
quality metric
video coding
input
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280031787.7A
Other languages
English (en)
Other versions
CN103636212A (zh
Inventor
D·S·普莱斯
周小松
H-J·吴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Publication of CN103636212A publication Critical patent/CN103636212A/zh
Application granted granted Critical
Publication of CN103636212B publication Critical patent/CN103636212B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field

Abstract

提供了一种用于在编码视频的帧速率下降至低水平以至于失去活动视频的感觉时确定从视频序列中选择具有高视觉吸引力并且可以按高质量编码的帧的系统和方法。从候选输入帧得到度量,并且这种度量被用于确定是增加还是降低给予该候选输入帧的权重。在一个实施例中,该度量可以是与该候选输入帧相关联的自动曝光数据。

Description

基于帧相似性和视觉质量以及兴趣的帧编码选择
相关申请的交叉引用
本申请要求此前于2011年7月1日提交的、名为FRAME ENCODING SELECTION BASEDON FRAME SIMILARITIES AND VISUAL QUALITY AND INTERESTS的美国临时专利申请序列号61/503,795的优先权。该临时申请通过引用而全部内容并入于此。
技术领域
本发明的方面总体上涉及视频处理领域,更具体地,涉及预测视频编码系统。
背景技术
当按10帧/秒(fps)或以上的速率显示多个图像时,视频显示系统给出了活动视频的感觉。视频编码系统尝试通过编码视频序列并且通过带宽受限的信道发送该序列来表达运动。然而,在许多系统中信道带宽可能会在没有警告的情况下改变。视频编码系统动态地改变视频序列的参数(量化参数、编码模式、帧尺寸以及帧速率),以使所编码的视频数据适合由信道提供的带宽。视频编码协议是有损处理,因此,某些编码参数可能会降低所恢复的视频的感知质量。
然而,在某些情况下,带宽限制变得如此严重以至于编码器必须将帧速率下降至恢复的视频不再被感觉为“活动”视频的水平。例如,在1-3fps时,恢复的视频很可能被感觉为一系列的静态图像(类似于幻灯片放映的效果),而非活动视频。当视觉上无吸引力的图像(模糊的图像、曝光不足的图像等)在很长的时间段内显示在终端上时,消费者会感到编码序列的质量特别差。因此,发明人认识到,在编码控制方案的领域中,需要在严重的带宽限制期间选择高质量图像用于编码。
附图说明
图1(a)是例示根据本发明的实施例的视频编码系统的简化框图。
图1(b)是例示根据本发明的实施例的终端的组件的简化框图。
图2(a)和(b)例示了根据本发明的实施例的、视频编码器基于时间数据来选择参考帧的编码操作。
图3是例示根据本发明的实施例的、用于基于自动曝光数据来选择参考帧的方法的简化流程图。
图4(a)和(b)例示了根据本发明的实施例的、用于基于空间复杂性数据来选择参考帧的方法。
图5是例示根据本发明的实施例的、用于基于运动数据来选择参考帧的方法的简化流程图。
图6是例示根据本发明的实施例的、用于基于视觉兴趣指示来选择参考帧的方法的简化流程图。
图7是例示根据本发明的实施例的、当视频编码器处于幻灯片放映模式时的方法的简化流程图。
具体实施方式
本发明的实施例提供了这样的技术,其用于在编码视频的帧速率下降至低水平以至于失去活动视频的感觉,并且在这样的帧速率在使用中时,确定从视频序列中选择具有高视觉吸引力并且可以按高质量编码的帧。相对于具有较低吸引力和/或质量的其它帧,选择这种帧用于编码。
图1(a)是例示根据本发明的实施例的视频编码系统100的简化框图。如图所示,系统100可以包括经由网络130互连的多个终端110、120。终端110、120皆可以在本地位置处捕获视频数据,并且编码该视频数据以用于经由网络130发送至另一终端。每个终端110、120可以从网络130接收另一终端的编码视频数据,重建该编码数据,以及显示从其恢复的视频数据。
在图1(a)中,终端110、120被例示为智能电话,但本发明的原理并不受限于此。本发明的实施例在个人计算机(台式计算机和膝上型计算机)、平板计算机、计算机服务器、媒体播放器以及/或者专用视频会议设备中都可应用。
网络130表示在终端110、120之间传递编码视频数据的任何数目的网络,包括例如有线和/或无线通信网络。通信网络130可以在电路交换或分组交换信道中交换数据。代表性网络包括电信网络、局域网、广域网和/或因特网。出于本讨论的目的,网络130的架构和拓扑对本发明的操作来说不重要,除非下面另加说明。
图1(b)是例示根据本发明的实施例的终端110的组件的简化框图。终端110可以包括视频编码器140、摄像机150、运动传感器160,以及面部检测器170。摄像机150可以在终端110处捕获图像。摄像机150可以包括各种控制部件,包括自动曝光控制部155(在图1(b)中单独示出)。视频编码器140可以执行编码处理来压缩从摄像机150输入至其的视频数据。运动传感器160(诸如陀螺仪或加速度计)可以检测终端110的运动。面部检测器170可以分析由摄像机150输出的帧,并且可以确定该帧内容中人面部是否可见。
如图1(b)所示,视频编码器140可以包括几个功能模块,包括帧缓冲器141、预处理器142、编码引擎143、参考图片缓存144、发送器145以及控制器146。帧缓冲器141可以在由摄像机150输出的帧被编码之前存储该帧。在各种操作模式中,这些帧可以从缓冲器141中丢弃,以将视频序列的帧速率调整为视频编码器140必须按其操作的编码约束,包括可用比特率。
预处理器142可以对存储在缓冲器141中的视频数据执行各种分析和信号调节操作。例如,预处理器142可以将各种过滤操作应用到帧数据,以改进由编码引擎143应用的编码操作的效率。编码引擎143可以通过利用输入视频数据中的时间和空间冗余来编码该视频数据。典型地,编码引擎143通过运动补偿预测编码来编码输入视频数据,其涉及遍及参考图片缓存144搜索以寻找提供用于输入帧的良好预测参考的数据。参考图片缓存144可以存储重建的参考帧数据。作为其操作的一部分,编码引擎143可以将某些帧指定为“参考帧”,其可以用作用于之后接收到的视频数据的预测参考。编码引擎143还可以包括解码参考帧的编码数据和将重建的数据存储在参考图片缓存144中的功能(未示出)。发送器145可以缓冲来自编码引擎143的编码视频数据,并且可以准备用于经由信道131向终端120发送的数据。控制器146可以管理视频编码器140的操作。
运动传感器160可以在视频捕获期间检测终端110的运动。运动传感器160可以被具体实施为加速度计、陀螺仪或相似的传感器。
顾名思义,面部检测器170是分析视频内容并且确定是否可以在该视频内检测到人面部的功能单元。面部检测器典型地输出表示在每个帧内任何检测到的面部的坐标的数据,而且可能输出表示面部检测正确的估计可能性的置信度分数。
面部检测器170还可以输出标识检测到的面部的特性的元数据,例如,面部是否在微笑,眼睛是否被检测为睁开等。
终端120可以包括对终端110执行的处理操作进行逆转的功能块(未示出)。因此,终端120可以包括接收来自信道的编码数据的接收器,和逆转由视频编码器执行的编码操作的解码器。解码器可以生成适于显示或适于终端120的显示设备的恢复视频。
为了支持双向通信,终端120可以包括其自身的与摄像机、视频编码器140、运动传感器160以及面部检测器170相对应的功能块(未示出)。在这种实施例中,终端120可以捕获本地环境的视频并对其编码以递送至终端110。终端110可以包括其自身的接收器和解码器,以从由终端120发送的编码视频来恢复视频。同样,这些功能单元仅为方便起见而没有示出。
在本发明的一个实施例中,视频编码器对预测参考的搜索可以强调时间上最接近正被编码的帧的参考帧。图2(a)和(b)例示了根据本发明的实施例的、视频编码器基于时间数据来选择参考帧的编码操作。
图2(a)例示了其中视频编码器将N个参考帧201-210存储在参考图片缓存中的编码操作。这些参考帧可供用作被输入至视频编码器的新帧220的预测参考。预测参考可以逐像素块来分配。即,输入帧可以被解析成多个像素块,接着每个像素块可以与每个参考帧的同位置数据相比较,以识别与来自输入帧的像素块相匹配的一个或多个参考帧像素块。运动估计搜索可以跨每个像素块的空间区域搜索,以寻找匹配的预测参考。随着视频编码器将输入像素块与每个参考帧相比较,其可以确定表示输入像素块与对应参考帧之间的匹配的质量的相似程度。
图2(b)例示了可以应用至从预测参考搜索得到的相似性测度(similaritymeasure)的示例性加权函数230、240。加权函数230是线性函数,其从针对时间上最接近输入帧220的参考帧201的最大值线性地转变至针对时间上离该输入帧最远的参考帧210的最小值。加权函数240是在多个离散值之间转变的阶梯函数,其针对时间上最接近输入帧220的参考帧201取最大值,到针对时间上离该输入帧最远的参考帧210取最小值。在另一个实施例中,对于时间上远离输入参考帧超过预定量的参考帧,加权函数250可以被设置成零。图2(b)所示的加权函数仅仅是示例性的;本发明可以根据需要提供任何加权函数(指数减函数、渐近减函数等)。
在操作期间,在参考预测搜索期间得到的相似性测度可以由与相应参考帧相关联的加权函数来定标(scale)。例如,利用加权函数230,如果输入像素块对于参考帧202和参考帧208生成相同的相似性测度,则应用至参考帧202的较高加权可以使其相对于参考帧208优先被选择。然而,如果由参考帧208得到的相似性测度很高以至于其值超过参考帧202的相似性测度(在二者都被定标之后),则参考帧208可以被选择为针对输入像素块的预测参考。
在操作期间,相似性测度可以由帧差异来生成,帧差异是对输入像素块与参考帧的同位置数据之间的差异的确定。另选地,相似性测度可以由运动估计搜索或者来自面部检测器的检测到的面部的位置来生成。
可以预期的是,强调时间上更靠近正被编码的帧的参考帧将导致在编码输入帧时减小熵,因此,这将有助于当编码帧在解码器处重建时的更高的视觉质量。
在另一个实施例中,可以执行对要编码的输入帧的选择,以减小在解码器处的视频重建和回放期间的抖动。尽管幻灯片放映模式趋于使帧速率下降至失去活动视频的感觉的水平,但如果抖动可以在所重建图像中最小化,则可以保持所重建图像的感知质量。视频编码器可以估计与每个缓冲帧相关联的抖动的量,并且基于所估计的抖动向该帧分配权重。
视频编码器可以基于将帧辨别为具有良好图像质量的度量来选择要编码的帧。图3是例示根据本发明的实施例的、用于基于自动曝光数据来选择参考帧的方法300的简化流程图。在图3中,视频编码器可以使用自动曝光(AE)控制作为一个这样的度量。许多摄像机系统采用响应于视频序列内变化的亮度而动态地调节摄像机内的曝光设置的算法。
在框310处,方法300可以读取针对作为要编码的候选者的输入帧的AE设置数据。接着,在框320处,方法300可以确定AE设置在输入帧由摄像机捕获时是否在改变。如果AE设置未改变,则在框330处,方法300可以增加给予该输入帧的权重。如果AE设置在改变,则在框340处,方法300可以降低给予该输入帧的权重。
典型地,摄像机响应于视频序列内的亮度变化而改变其AE设置。在AE设置在改变时捕获的帧可能具有差的图像质量,因为其是曝光过度或曝光不足的。与此相反,在AE设置稳定时捕获的帧可能具有更好的图像质量,因为摄像机在使用适于所捕获图像的亮度的AE设置进行操作。
在另一个实施例中,该方法可以检查先前编码的帧与可用于编码的缓冲输入帧之间的曝光差异。具有与先前编码帧相似的曝光设置的缓冲帧相比于具有不同曝光设置的其它缓冲帧,可以被分配以更高的权重。
在又一个实施例中,该方法可以估计每个缓冲帧的亮度(luminance),并且如果在帧内检测到面部,则估计该面部的亮度。该方法可以增加在其中检测到面部并且该面部被确定为曝光良好的帧的权重。该方法可以降低在其中检测到面部但被确定为曝光不足或者曝光过度的帧的权重。
图4(a)和(b)例示了根据本发明的实施例的、用于基于空间复杂性数据来选择参考帧的方法。图4(a)是例示了用于基于空间复杂性数据来选择参考帧的方法400的流程图。具体来说,视频编码器可以使用空间复杂性作为度量来识别作为要编码的候选者的哪个(哪些)帧具有良好的图像质量。视频编码器可以使用预处理算法来估计空间复杂性。
在框410处,方法400可以读取针对作为要编码的候选者的输入帧的复杂性估计。接着,在框420处,方法400可以将该复杂性估计与阈值相比较。如果该复杂性数据超出该阈值,则在框430处,方法400可以增加给予输入帧的权重。如果该复杂性数据未超出该阈值,则在框440处,方法400可以降低给予输入帧的权重。
空间复杂性可以按任何方法来确定。预处理器可以在候选帧内执行边缘检测,以识别该帧内的多个边缘。预处理器(单独地或者与编码引擎合作)可以执行图像数据的频率变换,例如离散余弦变换或小波变换,并且确定在变换后的数据内发现的高频分量的相对强度。根据这些度量,可以执行图4(a)的操作。
在一个实施例中,针对输入帧的空间复杂性数据可以相对地确定(框410)。具体来说,针对候选输入帧的空间复杂性数据可以被确定并且与先前选择的输入帧的空间复杂性数据相比较。接着,将所得增量与阈值相比较(框420),以确立输入帧的权重应当增加还是降低(框430和440)。
图4(b)例示了根据本发明的实施例的各种加权函数。典型地,如果具有高空间复杂性的图像可以在解码器处以足够的图像逼真度被恢复,则其会被感知为具有高图像质量。然而,对于视频编码系统来说,针对复杂图像保持高图像质量可能是困难的,特别是在可用比特率下降至低水平以至于编码器进入幻灯片放映模式时。因此,在一个实施例中,如曲线450所示,加权函数可以向具有更高复杂性的帧分配更高的权重。在另一个实施例中,如曲线460所示,另一个加权函数可以向具有中等复杂性的帧分配更高的权重。
在又一个实施例中,方法400可以将复杂性与表示不同复杂程度的多个不同阈值相比较,并且响应于这些比较来分配不同的权重。这些阈值例如可以对应于图4(b)的曲线450、460中的不同阶梯水平之间的边界。一些复杂性值可以使得给定输入帧无资格作为用于编码的候选者。
图5是例示了根据本发明的实施例的、用于基于运动数据来选择参考帧的方法500的简化流程图。具体来说,视频编码器可以使用运动数据作为度量来识别作为要编码的候选者的哪个(哪些)帧具有良好的图像质量。视频编码器可以经由预处理器从该视频序列得到运动数据,或者可以从与摄像机衔接的运动传感器接收这种数据。
在框510处,方法500可以读取针对作为要编码的候选者的输入帧的运动数据。接着,在框520处,方法500可以将该运动与阈值相比较。如果该运动数据超出该阈值,则在框530处,方法500可以降低给予输入帧的权重。如果该复杂性数据未超出该阈值,则在框540处,方法500可以增加给予输入帧的权重。
在一个实施例中,针对输入帧的运动数据可以相对地确定(框510)。具体来说,针对候选输入帧的运动数据可以被确定并且与先前选择的输入帧的运动数据相比较。接着,将所得增量与阈值相比较(框520),以确立输入帧的权重应当增加还是降低(框530和540)。
如先前所讨论的,运动数据可以由视频编码器内的预处理算法来生成。这种算法典型地通过估计较大视频序列内的帧中的图像内容的运动来估计该帧的全局运动。另选地,运动传感器数据(例如,由容纳摄像机150(图1)的终端110(图1)内的陀螺仪或加速度计提供的)可以提供这种数据。
在另一个实施例中,该运动数据可以从由面部检测器170(图1)输出的数据得到。当在视频序列内被检测到时,面部检测器典型地提供表示面部的坐标的数据。在一个实施例中,该方法可以由帧至帧的坐标数据来计算面部的速度,并且可以基于所计算的速度来向单独的帧分配权重。
典型地,由运动的摄像机捕获的图像很可能展示伪像,诸如降低所感知的图像质量的运动模糊或滚动百叶窗伪像。因此,加权函数可以向低运动帧分配更高权重,而向具有中等至高度运动的帧分配更低权重。
图6是例示了根据本发明的实施例的、用于基于视觉兴趣指示来选择参考帧的方法600的简化流程图。具体来说,视频编码器可以使用视觉兴趣指示作为度量来识别作为要编码的候选者的哪个(哪些)帧具有良好的视觉兴趣。顾名思义,面部检测算法执行扫描视频序列的帧并且确定视野中是否存在人面部的处理。当面部检测器识别到图像内的面部时,该检测器可以输出识别该面部的位置和/或尺寸的数据以及指示例如眼睛是睁开还是闭上和该面部是否在微笑的辅助数据。视频编码器可以使用这些指示来选择视觉上引起兴趣的帧用于编码。
在框610处,方法600可以读取输入帧的面部检测器数据。接着,在框620处,方法600可以确定在该输入帧的视野内是否检测到面部。如果检测到面部,则在框630处,方法600可以增加与该输入帧相关联的权重。如果未检测到面部,则在框640处,方法600可以降低与该输入帧相关联的权重。结果,方法600可以强调具有更高视觉兴趣的帧用于编码。
可选的是,在框650处,对于检测到面部的帧,方法600可以扩展成确定该面部是否被显示为在微笑。如果是这样,则在框660处,方法600可以增加与该输入帧相关联的权重。如果没有,则在框670处,方法600可以降低与该输入帧相关联的权重。而且,在框680处,方法600可以可选地确定眼睛是否被检测为睁开。如果是这样,则在框690处,方法600可以增加与该输入帧相关联的权重。如果没有,则在框700处,方法600可以降低与该输入帧相关联的权重。
方法600还可以使用由面部检测器提供的其它度量,以调节分配给每个帧的权重。例如,方法600可以确定该面部在视野内的尺寸,并且相对于具有更小面部的帧强调具有更大面部的帧。另外,方法600可以确定面部在视野内的位置,并且相对于面部位于视野中心之外的帧强调面部位于视野中心的帧。而且,方法600可以确定面部在候选输入帧中的位置,并且将其与面部在先前编码的输入帧中的位置相比较。方法600可以相对于其中面部位置差异大的帧强调其中面部位置差异小的帧。
方法600还可以向其中面部被检测为处于自动曝光(AE)计量区内的帧分配优先权重。例如,许多自动曝光控制算法开发了基于视野中心内的图像内容的AE控制。在AE控制区内识别到面部的帧可以具有分配至其的增加的权重,而在AE控制区之外识别到面部的帧可以具有分配至其的较低的权重。
考虑其中编码帧速率仅允许每10个帧中的1个帧被编码的示例。在这种情况下,视频编码器将丢弃10个帧中的9个,生成10、20、30、40、50等的默认模式。然而,在某些情况下,由于编码质量的考虑,视频编码器可以在帧10被编码之后选择帧15用于编码。在该示例中通过从帧15构建新的帧模式,抖动可以被最小化。从而,帧25将获得用于下一个选择判定的最高加权,而非帧30。该加权可以基于对哪些帧在回放期间产生最小抖动量的估计,该回放并不总是移动与已经被编码的原始帧相距的距离。
图7是例示根据本发明的实施例的、在视频编码器处于幻灯片放映模式时的方法800的简化流程图。
在框810处,视频编码器初始地可以按正常运行时模式操作,在该情况下,其根据一组默认编码策略缓冲并编码输入视频数据,该组默认编码策略包括默认帧速率。接着,在操作中的某一时间点,视频编码器可以进入幻灯片放映模式,在该时间点,帧速率下降至帧不能按足够高的速率被编码以在回放时表达运动感觉的水平。典型地,该速率为1-3fps。当视频编码器进入幻灯片放映模式时,其可以评估包含在其帧缓冲器中的每个输入帧作为用于编码的候选者。具体来说,在框820处,视频编码器可以例如根据图2中描述的搜索方法,基于加权搜索来对输入帧可以实现的编码质量进行排名。此后,在框830处,视频编码器可以例如根据图3-6中描述的一种或多种技术,基于用于输入帧的质量度量来对该帧可以实现的编码质量进行排名。最后,在框840处,视频编码器可以根据在框820-830处得到的排名来选择和编码所缓冲的帧中的一个帧。典型地,这涉及选择排名最高的帧。
在视频编码器在以幻灯片放映模式进行操作时,在框850处,方法800可以继续缓冲由摄像机捕获的新帧,并且按幻灯片放映的帧速率重复框820-840的操作,直到视频序列结束或者视频编码器退出幻灯片放映模式为止。
视频编码器可以基于“颤动(judder)”来选择用于编码的缓冲帧,“颤动”是帧之间的时间间隔的一致性。如果当前帧速率是每秒钟特定数目的帧,例如,每秒钟1帧,则视频编码器可以选择用于编码的帧以使得每个所选择的用于编码的帧距离先前所选择的用于编码的帧大约1秒钟。
视频编码器还可以通过利用面部区域上的额外加权执行候选缓冲帧与先前编码帧的像素之间的绝对差的简单加权和,来选择用于编码的缓冲帧。这种选择可以产生非常高效的编码。
前述讨论列出了可以用于根据本发明的各种实施例构造的视频编码系统中的功能模块。在实践中,这些系统可以在多种设备中应用,诸如设置有集成摄像机(例如,具有摄像能力的电话、娱乐系统以及计算机)的移动设备和/或诸如视频会议设备和具有摄像能力的台式计算机的有线通信系统。在某些应用中,上面描述的功能块可以作为集成软件系统的部件被提供,其中,这些块可以作为计算机程序的分离部件被提供。在其它应用中,所述功能块可以作为处理系统的离散电路组件被提供,诸如专用集成电路或数字信号处理器内的功能单元。本发明的又一些应用可以被具体实施为专用硬件和软件组件的混合系统。而且,在此描述的功能块不需要被设置为分离的单元。例如,尽管图1(b)例示了视频编码器的组件作为分离的单元,但在一个或多个实施例中,其一些或全部可以被集成并且其不需要是分离的单元。这种实现细节对于本发明的操作来说不重要,除非上面另外进行了注释。
而且,在此例示的图仅提供了呈现本发明的主题所必要的细节。在实践中,视频编码器典型地包括除了在此描述的那些以外的其它功能单元,包括音频处理系统、如所示的用于在整个编码流水线上存储数据的缓冲器、用于管理与通信网络的通信的通信收发器、以及对应的解码器设备。为清楚起见,已经将这些部件从前述讨论中省略。
虽然上面本发明参照一些实施例进行了详细描述,但对本领域普通技术人员而言,在本发明的范围和精神内的变型是明显的。因此,本发明应当被视为仅根据权利要求书的范围来限制。

Claims (36)

1.一种视频编码方法,包括:当编码帧速率下降至低于预定阈值时:
缓冲由摄像机生成的多个输入视频帧,
基于帧质量度量向每个缓冲的输入帧分配权重,其中,所述帧质量度量是根据在捕获每个缓冲的输入帧期间出现的摄像机自动曝光设置的变化率而得到的,
编码最高加权的帧,以及
从缓冲器中丢弃多个较低加权的帧而不编码。
2.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据每个缓冲的输入帧与其前一帧之间的曝光变化而得到的。
3.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据每个缓冲的输入帧的估计亮度而得到的。
4.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据对每个缓冲的输入帧执行的估计面部检测而得到的。
5.根据权利要求4所述的视频编码方法,其中,所述帧质量度量进一步是根据每个输入帧内检测到的面部区域的估计亮度而得到的。
6.根据权利要求4所述的视频编码方法,其中,所述帧质量度量进一步是根据每个输入帧内检测到的面部的人为现象而得到的。
7.根据权利要求4所述的视频编码方法,其中,所述帧质量度量进一步是根据每个输入帧内检测到的面部的位置而得到的。
8.根据权利要求4所述的视频编码方法,其中,所述帧质量度量进一步是根据与每个输入帧内检测到的面部相关联的置信度分数而得到的。
9.根据权利要求6所述的视频编码方法,其中,所述人为现象是检测到的微笑。
10.根据权利要求6所述的视频编码方法,其中,所述人为现象是检测到睁眼。
11.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据每个缓冲的输入帧内的空间复杂性的估计而得到的。
12.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据每个缓冲的输入帧的运动的估计而得到的。
13.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据与每个输入帧相关联的抖动的估计而得到的。
14.根据权利要求1所述的视频编码方法,其中,所述帧质量度量进一步是根据每个输入帧与至少一个先前编码帧之间的时间一致性的估计而得到的。
15.根据权利要求1所述的视频编码方法,其中,所述编码包括针对要编码的帧的每个像素块执行以下操作:
在要编码的帧的相应像素块与多个本地存储的参考帧之间执行运动估计搜索,
针对由所述搜索识别的每个候选参考帧,确定要编码的相应像素块与来自相应候选参考帧的匹配像素块之间的相似性测度,
根据候选参考帧的时间位置定标该相似性测度,
基于经定标的相似性测度选择一匹配像素块作为要编码的像素块的预测参考,以及
参照该预测参考来编码输入的该像素块。
16.一种视频编码装置,包括:
摄像机,
视频编码器系统,包括:
缓冲器,用于存储来自摄像机的视频序列的输入帧,
编码引擎,用于根据时间预测技术编码来自缓冲器的所选择的帧,
参考图片缓存,用于存储经编码的参考帧的重建视频数据,以及
控制器,用于控制视频编码序列的操作,其中,当编码帧速率下降至低于预定阈值时:
基于帧质量度量向每个缓冲的输入帧分配权重,其中,所述帧质量度量是根据在捕获每个缓冲的输入帧期间出现的摄像机自动曝光设置的变化率而得到的,
选择最高加权的帧用于编码,以及
从缓冲器中丢弃多个较低加权的帧而不编码。
17.根据权利要求16所述的视频编码装置,其中,所述视频编码器包括预处理器,该预处理器估计所缓冲的帧的曝光,并且所述帧质量度量进一步是根据每个缓冲的输入帧与其前一帧之间的曝光变化而得到的。
18.根据权利要求16所述的视频编码装置,其中,所述视频编码器包括预处理器,该预处理器估计所缓冲的帧的亮度,并且所述帧质量度量进一步是根据每个缓冲的输入帧的估计亮度而得到的。
19.根据权利要求16所述的视频编码装置,还包括面部检测器,其中,所述帧质量度量进一步是根据对每个缓冲的输入帧执行的估计面部检测而得到的。
20.根据权利要求16所述的视频编码装置,其中,所述视频编码器包括预处理器,该预处理器估计所缓冲的帧的空间复杂性,并且所述帧质量度量进一步是根据每个缓冲的输入帧内的空间复杂性的估计而得到的。
21.根据权利要求16所述的视频编码装置,还包括运动传感器,其中,所述帧质量度量进一步是根据每个缓冲的输入帧的运动的估计而得到的。
22.根据权利要求16所述的视频编码装置,其中,所述帧质量度量进一步是根据与每个输入帧相关联的抖动的估计而得到的。
23.根据权利要求16所述的视频编码装置,其中,所述帧质量度量进一步是根据每个输入帧与至少一个先前编码帧之间的时间一致性的估计而得到的。
24.一种视频编码装置,包括:
用于当编码帧速率下降至低于预定阈值时缓冲由摄像机生成的多个输入视频帧的部件;
用于基于帧质量度量向每个缓冲的输入帧分配权重的部件,其中,所述帧质量度量是根据在捕获每个缓冲的输入帧期间出现的摄像机自动曝光设置的变化率而得到的;
用于编码最高加权的帧的部件;以及
用于从存储设备中丢弃多个较低加权的帧而不编码的部件。
25.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据每个缓冲的输入帧与其前一帧之间的曝光变化而得到的。
26.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据每个缓冲的输入帧的估计亮度而得到的。
27.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据对每个缓冲的输入帧执行的估计面部检测而得到的。
28.根据权利要求27所述的视频编码装置,其中,所述帧质量度量进一步是根据每个输入帧内检测到的面部区域的估计亮度而得到的。
29.根据权利要求27所述的视频编码装置,其中,所述帧质量度量进一步是根据每个输入帧内的检测到的面部的人为现象而得到的。
30.根据权利要求27所述的视频编码装置,其中,所述帧质量度量进一步是根据每个输入帧内的检测到的面部的位置而得到的。
31.根据权利要求27所述的视频编码装置,其中,所述帧质量度量进一步是根据与每个输入帧内检测到的面部相关联的置信度分数而得到的。
32.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据每个缓冲的输入帧内的空间复杂性的估计而得到的。
33.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据每个缓冲的输入帧的运动的估计而得到的。
34.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据与每个输入帧相关联的抖动的估计而得到的。
35.根据权利要求24所述的视频编码装置,其中,所述帧质量度量进一步是根据每个输入帧与至少一个先前编码帧之间的时间一致性的估计而得到的。
36.根据权利要求24所述的视频编码装置,其中,所述编码包括,通过以下步骤编码所述帧的每个像素块:
在要编码的帧的相应像素块与多个本地存储的参考帧之间执行运动估计搜索,
针对由所述搜索识别的每个候选参考帧,确定要编码的相应像素块与来自相应候选参考帧的匹配像素块之间的相似性测度,
根据候选参考帧的时间位置定标该相似性测度,
基于经定标的相似性测度选择一匹配像素块作为要编码的像素块的预测参考,以及
参照该预测参考来编码输入的该像素块。
CN201280031787.7A 2011-07-01 2012-06-29 基于帧相似性和视觉质量以及兴趣的帧编码选择 Active CN103636212B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161503795P 2011-07-01 2011-07-01
US61/503,795 2011-07-01
US13/443,745 2012-04-10
US13/443,745 US9723315B2 (en) 2011-07-01 2012-04-10 Frame encoding selection based on frame similarities and visual quality and interests
PCT/US2012/045032 WO2013006469A1 (en) 2011-07-01 2012-06-29 Frame encoding selection based on frame similarities and visual quality and interests

Publications (2)

Publication Number Publication Date
CN103636212A CN103636212A (zh) 2014-03-12
CN103636212B true CN103636212B (zh) 2017-10-31

Family

ID=47390670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280031787.7A Active CN103636212B (zh) 2011-07-01 2012-06-29 基于帧相似性和视觉质量以及兴趣的帧编码选择

Country Status (7)

Country Link
US (1) US9723315B2 (zh)
EP (1) EP2727344B1 (zh)
JP (1) JP5766877B2 (zh)
KR (1) KR101602032B1 (zh)
CN (1) CN103636212B (zh)
TW (1) TWI511529B (zh)
WO (1) WO2013006469A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014082541A (ja) * 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラムおよび装置
JP2014192702A (ja) * 2013-03-27 2014-10-06 National Institute Of Information & Communication Technology 複数の入力画像をエンコーディングする方法、プログラムおよび装置
CN103957417B (zh) * 2014-04-21 2018-01-12 深圳市视晶无线技术有限公司 一种高鲁棒性的视频编码方法及系统
KR101729195B1 (ko) * 2014-10-16 2017-04-21 한국전자통신연구원 질의동작기반 안무 검색 시스템 및 방법
JP6438629B2 (ja) * 2016-05-18 2018-12-19 株式会社日立国際電気 撮像装置
WO2018076370A1 (zh) * 2016-10-31 2018-05-03 华为技术有限公司 一种视频帧的处理方法及设备
US11310475B2 (en) * 2019-08-05 2022-04-19 City University Of Hong Kong Video quality determination system and method
CN110740316A (zh) * 2019-09-09 2020-01-31 西安万像电子科技有限公司 数据编码方法及装置
CN110933425A (zh) * 2019-11-15 2020-03-27 西安万像电子科技有限公司 数据处理方法及装置
FR3105904B1 (fr) * 2019-12-26 2023-03-10 Thales Sa Procédé d'allocation pour liaison bas-débit
CN116647685A (zh) * 2020-10-26 2023-08-25 杭州海康威视数字技术股份有限公司 视频编码方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001333429A (ja) * 2000-05-24 2001-11-30 Matsushita Electric Ind Co Ltd 画像符号化装置および画像復号化装置
JP2005341601A (ja) * 2005-06-08 2005-12-08 Mitsubishi Electric Corp 動画像符号化装置
CN102113329A (zh) * 2008-07-29 2011-06-29 高通股份有限公司 在视频译码中基于压缩域中相似性量度的智能型跳帧

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5563661A (en) * 1993-04-05 1996-10-08 Canon Kabushiki Kaisha Image processing apparatus
US6370195B1 (en) 1998-04-14 2002-04-09 Hitachi, Ltd. Method and apparatus for detecting motion
US6526097B1 (en) * 1999-02-03 2003-02-25 Sarnoff Corporation Frame-level rate control for plug-in video codecs
US6754279B2 (en) * 1999-12-20 2004-06-22 Texas Instruments Incorporated Digital still camera system and method
US7128266B2 (en) * 2003-11-13 2006-10-31 Metrologic Instruments. Inc. Hand-supportable digital imaging-based bar code symbol reader supporting narrow-area and wide-area modes of illumination and image capture
JP2003169284A (ja) * 2001-12-04 2003-06-13 Fuji Photo Film Co Ltd 画像変換装置並びに画像変換プログラム
US7558320B2 (en) * 2003-06-13 2009-07-07 Microsoft Corporation Quality control in frame interpolation with motion analysis
DE60329335D1 (de) * 2003-07-11 2009-10-29 Hitachi Ltd Bildverarbeitungs-kamerasystem und bildverarbeitungs-kamerasteuerverfahren
US7526028B2 (en) 2003-07-25 2009-04-28 Taiwan Imaging-Tek Corp. Motion estimation method and apparatus for video data compression
US7460250B2 (en) * 2003-10-24 2008-12-02 3Dm Devices Inc. Laser triangulation system
US8824730B2 (en) 2004-01-09 2014-09-02 Hewlett-Packard Development Company, L.P. System and method for control of video bandwidth based on pose of a person
US8175147B1 (en) * 2005-08-08 2012-05-08 Texas Instruments Incorporated Video coding rate control
US20070041657A1 (en) 2005-08-19 2007-02-22 Samsung Electronics Co., Ltd. Image processing device to determine image quality and method thereof
RU2370815C2 (ru) * 2005-08-19 2009-10-20 Самсунг Электроникс Ко., Лтд. Способ и система для выделения и классификации дефектов экспозиции цифровых изображений
US7983458B2 (en) * 2005-09-20 2011-07-19 Capso Vision, Inc. In vivo autonomous camera with on-board data storage or digital wireless transmission in regulatory approved band
JP4724061B2 (ja) 2006-07-06 2011-07-13 株式会社東芝 動画像符号化装置
KR101520027B1 (ko) 2007-06-21 2015-05-14 삼성전자주식회사 움직임 추정 방법 및 장치
JP2010074323A (ja) * 2008-09-17 2010-04-02 Sony Corp 記録装置および方法、並びに記録再生装置および方法
JP2011066790A (ja) * 2009-09-18 2011-03-31 Pioneer Electronic Corp 画像記録装置及び画像再生装置
US20110292997A1 (en) * 2009-11-06 2011-12-01 Qualcomm Incorporated Control of video encoding based on image capture parameters
US9473792B2 (en) * 2009-11-06 2016-10-18 Texas Instruments Incorporated Method and system to improve the performance of a video encoder
US8483055B2 (en) * 2010-07-02 2013-07-09 Librestream Technologies Inc. Adaptive frame rate control for video in a resource limited system
JP5067471B2 (ja) * 2010-11-29 2012-11-07 株式会社日立製作所 復号化方法、復号化装置、及びプログラム
US9007432B2 (en) * 2010-12-16 2015-04-14 The Massachusetts Institute Of Technology Imaging systems and methods for immersive surveillance
CN103891294B (zh) * 2011-04-28 2017-09-01 皇家飞利浦有限公司 用于hdr图像编码和解码的装置与方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001333429A (ja) * 2000-05-24 2001-11-30 Matsushita Electric Ind Co Ltd 画像符号化装置および画像復号化装置
JP2005341601A (ja) * 2005-06-08 2005-12-08 Mitsubishi Electric Corp 動画像符号化装置
CN102113329A (zh) * 2008-07-29 2011-06-29 高通股份有限公司 在视频译码中基于压缩域中相似性量度的智能型跳帧

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Arbitrary Frame Rate Transcoding Through Temporal and Spatial Complexity;Ching-Ting Hsu,et al.;《IEEE TRANSACTIONS ON BROADCASTING》;20091231;第55卷(第4期);全文 *

Also Published As

Publication number Publication date
WO2013006469A1 (en) 2013-01-10
US20130003846A1 (en) 2013-01-03
US9723315B2 (en) 2017-08-01
TWI511529B (zh) 2015-12-01
EP2727344B1 (en) 2018-09-19
KR20140016999A (ko) 2014-02-10
EP2727344A1 (en) 2014-05-07
KR101602032B1 (ko) 2016-03-17
CN103636212A (zh) 2014-03-12
JP5766877B2 (ja) 2015-08-19
TW201306601A (zh) 2013-02-01
JP2014523713A (ja) 2014-09-11

Similar Documents

Publication Publication Date Title
CN103636212B (zh) 基于帧相似性和视觉质量以及兴趣的帧编码选择
Duan et al. Video coding for machines: A paradigm of collaborative compression and intelligent analytics
US20210218891A1 (en) Apparatus and Methods for Image Encoding Using Spatially Weighted Encoding Quality Parameters
CN105814878B (zh) 热管理和功率管理
US20210160556A1 (en) Method for enhancing resolution of streaming file
CN104137146B (zh) 用于利用前景对象分割的噪声过滤的视频编码的方法和系统
EP3583547A1 (en) Method for image processing and video compression
CN107534774A (zh) 相机模式控制
US20200267396A1 (en) Human visual system adaptive video coding
US20110064129A1 (en) Video capture and generation at variable frame rates
CN110493600A (zh) 图像编码方法、装置、计算机设备及存储介质
CN112714320B (zh) 一种解码方法、解码设备及计算机可读存储介质
CN110087071A (zh) 基于感知的图像处理装置及相关方法
CN114554211A (zh) 内容自适应视频编码方法、装置、设备和存储介质
CN104702833B (zh) 一种信息处理的方法及一种电子设备
CN116847087A (zh) 视频处理方法、装置、存储介质及电子设备
US20220294971A1 (en) Collaborative object detection
WO2023005740A1 (zh) 图像编码、解码、重建、分析方法、系统及电子设备
CN103702123B (zh) 一种视频编码和处理的方法以及设备
CN109716770A (zh) 基于语义相关性的图像压缩
CN116918329A (zh) 一种视频帧的压缩和视频帧的解压缩方法及装置
CN112200816A (zh) 视频图像的区域分割及头发替换方法、装置及设备
CN117014659B (zh) 一种视频转码方法、装置、电子设备和存储介质
CN112135190A (zh) 视频处理方法、装置、系统、服务器及存储介质
Challa et al. Deep learning based on multimedia encoding to enhance video quality

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant