CN101411208A - 视频编码的时间质量度量 - Google Patents

视频编码的时间质量度量 Download PDF

Info

Publication number
CN101411208A
CN101411208A CNA200780010832XA CN200780010832A CN101411208A CN 101411208 A CN101411208 A CN 101411208A CN A200780010832X A CNA200780010832X A CN A200780010832XA CN 200780010832 A CN200780010832 A CN 200780010832A CN 101411208 A CN101411208 A CN 101411208A
Authority
CN
China
Prior art keywords
value
video sequence
temporal quality
lof
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200780010832XA
Other languages
English (en)
Other versions
CN101411208B (zh
Inventor
杨凯希
哈立德·希勒米·厄勒-马列
维贾伊·马哈德万
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN101411208A publication Critical patent/CN101411208A/zh
Application granted granted Critical
Publication of CN101411208B publication Critical patent/CN101411208B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/144Movement detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明针对用于估算经编码的视频的时间质量的技术。代替只基于帧速率或运动活动性来估计图像跳动,相继的丢失帧的数目形成基本估计单位。已经考虑了若干人类视觉系统因素,例如对时间质量波动和运动活动性的敏感性,以使所预测的图像跳动更符合实际人类视觉响应。可使用时间质量度量来估计由视频镜头、运动活动性和局部质量波动的各种组合下的时间不连续性引起的人类察觉到的不适。所述技术可以两种模式来应用:(1)位流模式或(2)像素模式。可使用质量度量来估算时间质量,或控制编码或解码特征以增强时间质量。

Description

视频编码的时间质量度量
本申请案主张2006年4月5日申请的第60/789,664号共同转让美国临时申请案的优先权和权益,所述临时申请案的整个内容以引用的方式并入本文中。
技术领域
本发明涉及数字视频编码,且更明确地说,涉及用于估算经编码的视频的质量的技术。
背景技术
已经建立了许多不同的视频编码标准来对数字视频序列进行编码。举例来说,运动图像专家组(Moving Picture Experts Group,MPEG)已经开发了许多标准,包含MPEG-1、MPEG-2和MPEG-4。其它实例包含国际电信联盟(International Telecommunication Union,ITU)H.263标准,以及新兴的ITU H.264标准。这些视频编码标准通常通过以压缩方式对数据进行编码来支持视频序列的经改进的传输效率。
举例来说,视频电话(Video telephony,VT)允许用户共享视频和音频信息,以支持例如视频会议的应用。示范性视频电话标准包含由会话发起协议(Session InitiationProtocol,SIP)、ITU H.323标准和ITU H.324标准定义的标准。在VT系统中,用户可发送和接收视频信息、只接收视频信息或只发送视频信息。接收者通常以视频信息被从发送者传输的形式来观看接收到的视频信息。
经编码的视频可能由于帧丢失而遭受时间质量降级。帧丢失可能由多种因素引起,例如跳帧、帧速率下取样和信道包损失。一般来说,与帧速率下取样或信道包损失相比,跳帧趋向于对时间质量降级具有较大影响。在丢失大量帧的情况下,观看者可观察到帧冻结(frame freezing),因为大多数视频解码器都自动复制在丢失的帧之前接收到的最后一个帧,且呈现复制帧代替丢失的帧,同时维持同一帧速率。
与帧丢失相关联的复制导致通常被称为“图像跳动(Jerkiness)”的时间不连续性。图像跳动趋向于使经解码的视频的观看者感到困扰。在观看跳动的视频序列的过程中,观看者经历不仅由于丢失帧的量而且由于丢失帧与未丢失帧之间的时间质量波动而导致的不适。人类视觉系统趋向于对当前帧与其相邻帧的质量对比度具有非常高的敏感性。
发明内容
本发明针对用于估算经编码的视频的时间质量的技术。代替只基于帧速率或运动活动性而估计时间质量,所揭示的时间质量度量使用相继的丢失帧的数目作为基本估计单位。相继的丢失帧的数目在本文被称为帧组丢失长度。另外,可考虑若干人类视觉系统因素,例如对时间质量波动或运动活动性的敏感性,来使所预测的时间质量更符合实际人类视觉响应。
时间质量度量可被称为最小可察觉图像跳动(just noticeable jerkiness,JNJ),因为其强调可由人类观看者察觉到的时间质量降级,即,仅可察觉的图像跳动。此JNJ度量可用于有效地估计由视频镜头、视频运动活动性和局部质量波动的各种组合下的时间不连续性(图像跳动)引起的人类所察觉到的不适。所描述的技术可以两种模式来应用:(1)位流模式或(2)像素模式,基于输入信息的可用性而定。时间质量度量可用于简单地估算时间质量,或在时间质量已经由于帧丢失而显著降级的情况下产生反馈以控制编码或解码特征,以便增强时间质量。
在一个实施例中,本发明提供一种方法,其包括基于视频序列中相继丢失的视频帧的数目而产生所述视频序列的时间质量度量。
在另一实施例中,本发明提供一种装置,其包括处理器,所述处理器基于视频序列中相继丢失的视频帧的数目而产生所述视频序列的时间质量估算。
本文所描述的技术可在硬件、软件、固件或其任一组合中实施。如果在软件中实施,那么所述技术可整个或部分地由包括含有指令的程序代码的计算机可读媒体来实现,所述指令在被执行时,执行本发明中所描述的方法中的一者或一者以上。
在附图和下文的描述内容中陈述一个或一个以上实施例的细节。从描述内容和附图,且从权利要求书,将明白其它特征、目标和优点。
附图说明
本专利或申请案文件含有至少一个以彩色绘制的图。此专利或专利申请公开案的具有彩图的副本将由专利局根据需要提供,且需支付必要的费用。
图1是说明根据本发明的装备有最小可察觉跳动(JNJ)度量单元的视频编码与解码系统的框图。
图2是说明图1的JNJ度量单元的操作的框图。
图3是说明图2的JNJ度量单元的操作的流程图。
图4是说明图2的JNJ度量单元的示范性组件的框图。
图5是更详细地说明图4的JNJ度量单元的操作的流程图。
图6是说明供JNJ度量单元使用的构造为运动活动性和帧丢失严重性的函数的运动模型的三维曲线图。
图7是说明用于与JNJ度量单元一起操作的时间质量波动(temporal qualityfluctuation,TQF)单元的示范性组件的框图。
图8是说明由图7的TQF单元实施的示范性TQF函数的响应的曲线图。
图9是说明基于帧组丢失长度、运动活动性和时间质量波动而对JNJ度量进行的估计的图。
具体实施方式
图1是说明并入有JNJ度量单元32的视频编码与解码系统10的框图。根据本发明的实施例,度量计算对用户察觉到的时间质量降级的强调程度可大于对用户不能察觉到的时间质量降级的强调程度。在一些实施例中,所述度量只考虑人类观看者实际可察觉到的时间质量降级,例如图像跳动,且可被称为JNJ度量。
JNJ度量单元32可经配置以忽视用户不容易察觉的较少量的时间不连续性,或至少对度量进行加权,使得此类较少量的时间不连续性对整体度量的影响较小。实际上,JNJ度量经公式化以只强调可由人类观看者察觉的时间质量降级,即最小(仅)可察觉图像跳动。
如图1所示,系统10包含第一视频通信装置12和第二视频通信装置14。通信装置12、14由传输信道16连接。传输信道16可以是有线或无线通信媒体。系统10可支持视频通信装置12,14之间的双向视频传输以用于视频电话、单向视频传输以用于视频流式传输,或上述两者。装置12,14可以实质上对称的方式操作。然而,在一些实施例中,一个或两个视频通信装置12,14可经配置以只用于单向通信,以支持视频流式传输。
对于双向应用,可在信道16的相反端上提供互反的编码、解码、多路复用(MUX)和解多路复用(DEMUX)组件。在图1的实例中,视频通信装置12包含MUX/DEMUX组件18、视频CODEC 20和音频CODEC 22。类似地,视频通信装置14包含MUX/DEMUX组件26、视频CODEC 28和音频CODEC 30。
视频通信装置12,14中的一者或两者可经配置以应用时间质量估计技术。在一些实施例中,视频通信装置12,14可在固定或自适应基础上积极应用跳帧和/或帧速率下取样,以补偿编码速率、帧速率或其它带宽限制。另外,由于例如数据破坏或短期信道损失等因素,帧在信道16上传输期间可能被丢失。
在每一种情况下,帧丢失都可能导致时间质量降级,包含可见的时间不连续性,有时被称为图像跳动。根据本发明,一个或两个视频CODEC 20,28可包含JNJ度量单元。在图1的实例中,视频CODEC 28包含JNJ度量单元32,其估算时间质量。JNJ度量单元32可简单地产生JNJ度量以进行估算,或向视频CODEC 28内的其它组件提供JNJ度量,(例如)以控制视频解码或对不同视频通信装置的信令。
举例来说,视频CODEC 28可基于JNJ度量而调节一个或一个以上解码特征,以改进时间质量。视频CODEC 28可响应于JNJ度量的变化,在动态基础上周期性地调节解码特征。或者或另外,视频CODEC 28可基于JNJ度量而产生信令信息,且在带内或带外将所述信令信息传送给视频通信装置12,使得视频CODEC 20可调节编码特征以改进时间质量。作为进一步说明,JNJ度量或者基于JNJ度量而产生的一个或一个以上控制信号可用作反馈,以控制视频通信装置12内的自适应跳帧过程。
系统10可根据会话发起协议(SIP)、ITU H.323标准、ITU H.324标准或其它标准来支持视频电话。每一视频CODEC 20,28可根据视频压缩标准(例如MPEG-2、MPEG-4、ITU H.263或ITU H.264)产生经编码的视频数据。如图1进一步展示,视频CODEC 20,28可与相应的音频CODEC 22,30集成,且包含适当的MUX/DEMUX组件18,26,以处理数据流的音频和视频部分。MUX-DEMUX单元18,26可符合ITU H.223多路复用器协议,或其它协议,例如用户数据报协议(user datagram protocol,UDP)。
可将视频通信装置12,14实施为经装备以用于视频流式传输、视频电话或两者的无线移动终端或有线终端。为此,视频通信装置12,14可进一步包含适当的无线传输器、接收器、调制解调器和处理电子器件来支持无线通信。无线移动终端的实例包含移动无线电电话、移动个人数字助理(PDA)、移动计算机、移动电视或装备有无线通信能力和视频编码和/或解码能力的任何其它移动装置。有线终端的实例包含桌上型计算机、工作站、视频电话、网络用具、机顶盒、互动电视或类似物。视频通信装置12,14的任一者可经配置以发送视频信息、接收视频信息或发送和接收视频信息。
对于视频电话应用,通常希望装置12支持视频发送和视频接收能力两者。然而,还涵盖流式传输视频应用。在视频电话,且尤其是无线通信所使用的移动视频电话中,带宽是重要的关注点,因为通常需要极其低的位速率。明确地说,通信信道16可能具有有限的带宽,使得信道16上的质量视频序列的有效实时传输非常具有挑战性。通信信道16(例如)可以是由于信道16中的物理约束条件而具有有限带宽,或可能具有由通信信道16的提供商强加的服务质量(QoS)限制或带宽分配约束条件的无线通信链路。
一般来说,系统10使用用于估算时间质量以针对视频电话(VT)应用而产生时间质量度量的技术。所述时间质量度量代表人类观看者所察觉到的图像跳动的程度。代替单独根据帧速率来估计图像跳动,本发明中所描述的时间质量度量使用组丢失的长度作为基本估计单位。组丢失的长度涉及视频序列内的相继丢失的帧的数目。
另外,时间质量度量使用人类视觉系统因素,例如对时间质量波动和运动活动性的敏感性,以使所预测的图像跳动更符合主观视觉响应。明确地说,可选择时间质量波动和运动活动性敏感性,以使其更符合来自主观实验的平均意见得分(Mean Opinion Score,MOS)数据。测试结果显示JNJ度量(如本发明中所描述)可有效地量度人类所察觉到的图像跳动,并产生与主观实验结果高度相关的输出。
在视频时间质量降级中,图像跳动是主要假象。图像跳动通常由以下情况导致:(1)编码时的跳帧,(2)帧速率下取样和/或(3)信道包损失。时间质量降级的上述原因(1)到(3)是以对时间质量降级的影响的严重性的次序列举的。当帧丢失发生时,(例如)为了保存编码位或保持在带宽容量限制内,观看者将观察到帧冻结。典型的视频解码器自动复制帧丢失发生之前的最后一个帧,且用复制的帧代替丢失的帧,同时维持同一视频重放速度。遗憾的是,当显示新的帧时,上述情况导致帧冻结和时间不连续性,从而导致所谓的“图像跳动”。
为了减少帧丢失对观看者的负面影响,已经研究了若干方法。举例来说,已经开发了用于智能帧丢失或帧速率上转换的技术。然而,在不具有以人类感知为导向的准确引导的情况下,智能帧丢失或帧速率上转换的视频增强难以有效应用。所提出的一些度量基于帧速率信息或运动活动性而估计图像跳动。许多实践观察显示基于帧速率而估计图像跳动是不足的,因为其假定所丢失的帧均匀地分布在整个视频序列中。
在同一帧速率下,丢失一组相继帧与分散的帧丢失相比具有显著不同的质量影响。组丢失指的是丢失两个或两个以上且可能若干个相继帧。分散帧丢失通常指的是丢失在视频序列内不同位置处的一个或两个帧。人类的固有认知内插机制导致对组帧丢失和分散帧丢失的非常不同的响应。
另外,基于帧速率信息而估计图像跳动假定未丢失的帧不引入任何负面影响。然而,在跳动的序列中,观看者的不适不仅由丢失帧的量引起,而且由丢失帧与未丢失帧之间的时间质量波动引起。人类视觉系统对当前帧与其相邻帧之间的质量对比度具有非常高的敏感性。
一些图像跳动度量可通过使用来自视频位流的时间戳信息,或通过分析相继帧之间的类似程度,来估计帧损失和复制的量或持续时间。当帧损失/丢失发生时,时间戳的不连续性是明显的,且帧间相似性极其高。在获得丢失帧的位置和数目之后,可通过使总丢失帧的数目除以给定位流/视频剪辑中的帧的总数来估计平均帧速率。
因为同一帧速率在不同运动活动性下可能引入不同等级的图像跳动,所以映射函数(具有运动活动性作为其输入)将帧速率映射到图像跳动测量值中。为了更全面地估计图像跳动,可在具有对丢失持续时间的分布的统计分析的映射阶段之后,应用后处理。然而,此些方案不考虑局部时间质量波动的影响,局部时间质量波动可对人类视觉响应具有显著影响。
根据本发明,JNJ度量准确地估计由镜头、不同视频运动活动性和(重要地)不同局部质量波动的各种组合下的时间不连续性(图像跳动)引入的人类察觉到视觉不适。以此方式,时间质量度量将局部图像跳动的变化考虑为用于估计图像跳动的因素中的一者,这对时间质量评估来说是重要的。另外,JNJ度量32可经配置以忽视或略过人类观看者不可注意到的时间质量降级。
JNJ度量单元32经配置以不仅通过使用帧速率而且通过利用组帧丢失的长度来估计图像跳动。基于组丢失的长度的信息,可分析时间质量评估的更重要的属性。另外,可以两种不同模式来实施JNJ度量。在一种模式下,可估算视频位流。在另一模式下,可估算像素信息,如果足够的输入信息可用的话。因此,在一些实施例中,实施JNJ度量估算的系统可支持两种不同类型的输入信息,从而提供足够的灵活性。
图2是说明图1的时间质量(JNJ)度量单元的操作的框图。如图2所示,最小可察觉图像跳动(JNJ)单元32包含JNJ预处理器33,其接收视频位流或像素信息。JNJ预处理器33处理接收到的视频信息,以产生由JNJ计算器35用来产生JNJ度量的若干参数。明确地说,JNJ预处理器33估计组丢失长度信息、运动活动性信息和时间质量波动(TQF)信息。组丢失长度信息指示视频序列内或视频序列内的特定镜头内相继丢失的帧的数目。运动活动性信息通常指示视频序列的内容代表低、中等还是高程度运动。TQF信息指示估算下的当前帧与其相邻帧(即,在当前帧之前和之后的帧)之间的时间质量对比度。
使用组丢失长度、运动活动性和TQF信息,JNJ计算器35计算JNJ度量,其代表图像跳动。JNJ计算器35可仅产生和存储图像跳动以供进一步分析。另外或者替代地,JNJ度量单元32可基于JNJ度量而向视频CODEC 14内的解码引擎34或信令引擎36提供时间质量信息,或反馈或控制信息。解码引擎34可基于JNJ度量而对一个或一个以上解码特征作出改变,以增强时间质量。信令引擎36可产生信令信息以传输到装置,所述装置对视频信息进行编码,使得其可调节一个或一个以上编码特征以增强时间质量。
如将描述,在位流模式下,JNJ度量单元32可使用来自输入视频位流的时间戳信息来确定是否已经发生帧丢失。如果相继帧的时间戳显示间隙,那么显然至少一个介入帧已经丢失,例如通过跳帧、帧速率下取样或信道损失。如由时间戳确定的间隙的长度允许确定已经丢失的相继帧的数目,即组丢失长度。
举例来说,相继编码的帧的时间戳可以单位阶跃增加。然而,如果具有不同内容的两个帧之间显示一个以上单位阶跃,那么明显至少一个帧已经丢失。通过使时间戳差除以单位阶跃,有可能确定已经丢失了多少个帧。或者,可通过对特定时间戳重复的次数进行计数来确定丢失帧的数目。
JNJ度量单元32可使用来自输入位流的编码模式决策信息(例如,帧内或帧间)来确定镜头边界。镜头边界指代针对不同场景获得的视频帧之间的视频镜头边界。一个镜头包含针对第一个场景获得的一个或一个以上视频帧,而第二镜头可包含针对第二场景获得的一个或一个以上视频帧,依此类推。
镜头可依据所捕获的主体、视频捕获条件(例如照明条件)或其它差异而不同。举例来说,一个镜头可含有第一布景中的第一个人,例如相对静止地坐在座椅中的体育观众,其呈现较低的运动活动性,而第二镜头可含有在运动场上进行高运动性活动的另一个人或多个人。
镜头边界检测对于运动活动性估计是所需要的,因为具有类似内容的视频序列通常具有类似的运动活动性。为了准确地估计图像跳动,应估计运动活动性的“正确”等级。因此,可通过使镜头彼此区分开来区分运动活动性的不同等级。镜头边界检测也是所需要的,使得在时间质量度量中可不考虑场景改变所导致的运动活动性,因为其实际上并不造成图像跳动。
在示范性实施例中,JNJ度量单元32应用运动映射模型,其使用基于帧速率的帧丢失严重性。运动映射模型的输入中的一者是对运动活动性等级的估计。通过每一帧中的运动向量的平均量值来获得运动活动性等级的估计。在应用运动映射模型之后,丢失严重性的基于帧速率的估计可用于每一帧。
因为人类对质量的突然改变非常敏感,所以每一帧的时间质量降级不仅与当前帧有关,而且与其相邻帧有关。当前帧与相邻帧之间的时间质量降级的较高对比度对观看者来说将更显著。出于这些原因,与相邻帧相比,具有较高波动的帧的时间降级在估算时间质量的过程中应具有更大权重。
视频重放是因果过程。因此,观看者对当前帧的质量波动的敏感性可能只与先前观看到的视频帧有关。因此,JNJ度量单元32使用时间质量波动(TQF)函数来估计权数,所述函数回顾在由固定窗口大小界定的窗口内的帧。一般来说,将从运动映射s′m,n获得的丢失严重性应用于时间质量波动(TQF)函数,以估计时间质量波动。更明确地说,可通过s′m,n与其相邻丢失严重性的平均值之间的差的平方来确定TQF估计。
使用差异的平方,因为当组丢失的大小增加时,人类视觉系统具有非线性视觉敏感性。接着,因为每一帧速率的上限/下限的可能波动是可变的,所以应使用查找表(LUT)将时间质量波动标准化成值0到1。接下来,如将进一步详细描述,JNJ度量单元32在时间融合单元中应用非线性TQF函数、标准化参数k、丢失严重性和运动建模,以产生图像跳动报告,以经由信令供分析、视频解码控制或视频编码控制中使用。
一般来说,TQF响应在某一点之后快速上升,且迅速变得饱和。当较少量的时间质量波动出现在所观看的视频中时,人类敏感性增加,且当组丢失长度变大且支配所察觉到的时间质量时,人类敏感性迅速饱和。标准化参数k随着帧速率减小而减小,这意味着来自质量波动的影响在较高帧速率下更引人注意。以此方式,可使用标准化参数k来调谐度量的敏感性,以更有效地模拟人类视觉响应。
另外,可通过估计TQF加权平均值来获得每一镜头的图像跳动。在此情况下,JNJ度量单元32可通过简单地取每一镜头的平均图像跳动来计算输入视频序列的总图像跳动。当将各种运动模型应用于每一镜头时,所有镜头的平均值不一定需要进一步加权。
当位流信息不可用时,JNJ度量单元32可在像素模式下操作,而不是在位流模式下操作。在像素模式下,典型情况是视频解码器的YUV(亮度、色度1、色度2)输出可用。像素模式下用于确定JNJ度量的基本过程类似于上文针对位流模式所描述的过程。然而,输入信息是不同的。
因为大多数解码器复制帧丢失发生之前的最后一个帧,所以可使用每一帧的像素类似性来确定丢失帧的位置。举例来说,如果帧重复五次,那么明显四个相继帧已经丢失。可通过每一帧的相继时间戳之间的间隙和/或对帧的类似性的分析来检测重复。
当复制的帧之间的类似性达到某一阈值时,JNJ度量单元32能够估计哪些帧被损失。JNJ度量单元32可使用与用于帧丢失估计相同或类似像素信息来进行镜头边界检测。举例来说,当两个相继镜头期间发生镜头转移时,像素类似性下降到非常低的值。当连续帧之间的像素类似性下降到预定阈值以下时,JNJ度量单元32确定镜头边界的存在。
对于运动活动性,JNJ度量单元32可采用标准化像素差,例如如D.田(D.Tian)、L.沈(L.Shen)和Z.姚(Z.Yao)的“基于运动活动性的无线视频质量感知度量(MotionActivity Based Wireless Video Quality Perceptual Metric)”(Proc.IEEE ISIMP,2006),以及S.简宁(S.Jeannin)和A.迪瓦卡兰(A.Divakaran)的“MPEG-7视觉运动描述符(MPEG-7 Visual Motion Descriptors)”(IEEE视频技术电路和系统学报(IEEE transactionon Circuit and System for Video Technology),2001)中所描述。标准化像素差是运动活动性的可靠指示物。在已经用适当的标准化提取了来自像素的所有信息之后,JNJ度量单元32可实质上如上文关于位流模式所描述那样应用运动映射、权数估计和时间融合。
可以多种方式来形成图2中所描绘的各种组件,如离散功能模块或单片模块,其包含在本文中归因于每一所说明的模块的功能性。在任一情况下,可在硬件、软件、固件或其组合中实现视频编码系统44的各种组件。举例来说,此些组件可作为在以下各项上执行的软件过程而操作:一个或一个以上微处理器或数字信号处理器(DSP)、一个或一个以上专用集成电路(ASIC)、一个或一个以上现场可编程门阵列(FPGA)或其它等效集成或离散逻辑电路。
图3是说明图2的时间质量度量单元的操作的流程图。如图3所示,在接收到视频序列(38)之后,JNJ度量单元32估计相继丢失的帧的数目(即组丢失长度)(40),确定时间质量波动(42),确定镜头边界(43)且确定运动活动性(44)。基于时间质量波动、镜头边界和运动活动性,JNJ度量单元32计算图像跳动(46),且应用JNJ度量(47),例如用于分析、解码控制或编码控制。
举例来说,可使用JNJ度量单元32的输出来增强随后编码和解码的视频帧中的时间质量。显著的是,代替只基于帧速率或运动活动性而估计图像跳动,JNJ度量单元32使相继丢失的帧的数目与时间质量波动和运动活动性组合,以更好地与实际人类视觉响应相关。以此方式,所得JNJ度量产生对于实际观看者对时间不连续性的感知的更有效测量。
图4是说明图2的JNJ度量单元32的示范性组件的框图。而且,将参看图4的各个组件来更详细地描述用于计算JNJ度量的过程。如图4所示,JNJ度量单元32包含帧丢失估计器48、镜头边界识别器50、运动活动性估计器52和模型选择单元54。选择模块56基于模型选择单元54的输出而将帧丢失估计器48的输出应用于三个不同运动模型中的一者,即低运动模型58、中等运动模型60和高运动模型62。时间质量波动(TQF)单元66将TQF函数应用于选定运动模型58,60,62的输出。时间融合单元64接收选定运动模型的输出以及TQF单元66的输出,且产生图像跳动报告。
在图4的实例中,帧丢失估计器48接收视频位流,且分析所述位流的每一帧中所记录的时间戳。使用所述时间戳,帧丢失估计器48确定连续未丢失帧之间的时间间隔。如果若干相继帧被丢失,那么由于解码器对最后一个未丢失帧的复制和重复,若干接收到的帧的时间戳将相同。
如果帧之间的时间戳是固定或可确定值(代表单位阶跃),那么帧丢失估计器48能够确定连续未丢失帧之间的时间间隔,且因此确定组丢失长度,即视频序列内相继丢失的帧的数目。或者,帧丢失估计器48可对特定帧重复的次数进行计数。
基于组丢失长度,帧丢失估计器48产生帧丢失严重性值sm,n。帧丢失严重性值可为单个丢失组的组丢失长度或多个丢失组的组丢失长度的函数。
镜头边界识别器50确定帧过渡是否代表镜头边界,即从一个场景改变到另一场景。举例来说,镜头边界识别器50可分析接收到的视频位流中的模式决策信息,以识别从一个镜头到另一个镜头的过渡。明确地说,镜头边界识别器50可分析传入的视频位流,以识别从帧间(P或B)编码到帧内(I)编码的改变。
当镜头依据场景而改变时,所得的内容变化通常将要求对镜头中的至少第一个帧的更多帧内编码,而所述帧的其余部分将趋向于被帧间编码。然而,帧内编码的宏块的量仍少于帧内帧。因此,镜头边界识别器50可通过用上阈值和下阈值对经帧内编码的宏块进行定限来识别镜头边界。举例来说,如果经帧内编码的宏块的量高于给定阈值,那么可将包含所述宏块的帧识别为处在镜头边界上。
在图4的实例中,镜头边界识别器50向帧丢失估计器48和决策模式单元54提供边界识别。帧丢失估计器48使用来自镜头边界识别器50的镜头边界识别来估计每一镜头内的丢失严重性。视频序列可具有多个镜头。当估计图像跳动时,重要的是单独跟踪每一镜头的帧丢失严重性,因为不同的场景通常引入不同的跳动影响。因此,在镜头间累计帧丢失长度将是有误导性的。当识别到新的镜头时,帧丢失估计器48使组丢失长度复位。
因此,可针对具有多个镜头的序列估计多组丢失严重性。此外,如将更详细地描述,可在单个镜头内估计多个组丢失长度。明确地说,单个镜头可具有相继丢失的帧的一个以上跨度。另外,较大数目的相继帧的丢失与较小数目的相继帧的丢失或一个镜头期间非相继基础上的单个帧的丢失相比,对用户来说更为显著。
运动活动性估计器52接收来自接收到的视频位流中的帧的运动向量。一般来说,运动向量从一个帧中的视频区块指向另一帧中的实质上类似或相同的视频区块,从而提供对运动的指示。运动活动性估计器52可基于给定帧中的运动向量的平均量值而确定所述帧内的运动活动性的一般等级。使用来自运动活动性估计器52的所估计出的运动活动性等级,模式选择单元54经由选择器56选择性地将帧丢失严重性值sm,n应用于低运动模型58、中等运动模型60和高运动模型62中的一者。明确地说,选定的运动模型将帧丢失估计器48所产生的帧丢失严重性值sm,n映射到运动模型映射58,60,62中。选定模型58,60,62的输出是丢失严重性的基于帧速率的估计s′m,n
如其名称所指示,当运动活动性估计器52估计帧内的运动为低、中等或高时,分别应用低运动模型58,中等运动模型60和高运动模型62。尽管图4的实例中展示三个不同的运动模型,但可针对额外等级的运动活动性提供额外的运动模型。每一运动模型58,60,62将帧丢失严重性值sm,n的相应映射应用于运动映射的帧丢失严重性值s′m,n。以此方式,时间质量度量不仅依赖于相继丢失的帧的数目,而且依赖于运动活动性。
模型选择单元54还接收镜头边界识别器50的输出。通过跟踪镜头边界,模型选择单元54能够将给定帧内的高运动活动性与由于镜头之间的场景改变而导致的高运动活动性的虚假外观区分开。具有类似内容的视频帧通常具有类似的运动活动性。为了准确地估计图像跳动,应估计运动活动性的“正确”等级。模型选择单元54使用来自镜头边界识别器50的镜头边界指示来估计或适当地加权场景改变所导致的运动活动性。
图5是更详细地说明图4的时间质量度量单元的操作的流程图。如图5中所示,帧丢失估计器48、镜头边界识别器50和运动活动性估计器52接收视频序列(68),其可以是视频位流(如图4所示),或由视频序列的解码产生的视频像素。帧丢失估计器48从视频序列中的位流提取时间戳。基于时间戳差异,帧丢失估计器48估计相继丢失的帧的数目(70),且输出帧丢失严重性值sm,n。镜头边界识别器50分析视频帧的相似性和/或编码模式改变(即,帧内或帧间),以确定镜头边界(72)。
运动活动性估计器52估计运动活动性(74)。明确地说,运动活动性估计器52分析来自视频序列的运动向量以估计运动活动性(74),以选择运动模型58,60,62中的一者。模型选择单元54接收来自镜头边界识别器50的所识别的镜头边界的指示,以补偿运动活动估计器52的运动活动性输出(75)。明确地说,模型选择单元54将由稳定状态帧内容产生的实际高运动活动性与由与镜头边界相关联的场景改变产生的表观高运动活动性区分开。然而,如上文所提及,镜头边界识别用于补偿运动活动性,使得帧到帧镜头改变不会被错误地理解为高运动。使用经补偿的运动活动性,模型选择单元54选择运动模型58,60,62(即,低,中等,高)中的一者(76)。
选定运动模型58,60,62将帧丢失长度映射到运动映射的帧丢失严重性s′m,n。运动映射的帧映射长度s′m,n由时间融合单元64和时间质量波动(TQF)单元66接收。TQF单元66将TQF函数应用于接收到的运动映射的帧映射长度(s′m,n)78,以产生TQF权数wm,n,其代表由人类观看者察觉到的连续帧之间的时间质量波动量。使用TQF权数wm,n和运动映射的帧丢失严重性值s′m,n,时间融合单元64应用时间融合(80)以产生图像跳动(JNJ)度量作为其输出(82)。JNJ度量可用于分析或对编码、解码或其它视频处理的反馈控制。
图6是说明运动模型(MM)的三维曲线图,将所述运动模型构造为运动活动性和帧丢失严重性sm,n的函数,以供时间质量度量单元使用。如图6所示,所述曲线图将运动活动性对帧丢失严重性sm,n映射到运动映射的帧丢失严重性值s′m,n。在图4的实例中,出于说明的目的而展示三个离散运动映射模型58,60,62。然而,使用固定数目的运动映射模型是可选的,且可根据设计考虑因素而改变。因此,视可用计算功率、存储器和其它设计考虑因素而定,图6中所说明的运动映射在实践中可由相对较大或较小数目的运动映射模型表示。
图6中的曲线图展示运动活动性mam,n与帧丢失严重性值sm,n的组合导致帧丢失严重性值sm,n的按比例缩放,以产生运动映射的帧丢失严重性值s′m,n。一般来说,对于高运动活动性值mam,n,运动映射的帧丢失严重性值s′m,n趋向于遵循帧丢失严重性值sm,n。对于较小的运动活动性值mam,n,运动映射的帧丢失严重性值s′m,n相对于帧丢失严重性值sm,n而减小,除非帧丢失严重性值sm,n较高。下文将更详细地描述得出运动映射帧丢失严重性值s′m,n的函数。
图7是说明用于与时间质量度量单元32一起操作的时间质量波动(TQF)单元66的示范性组件的框图。如图7所示,将TQF单元66的功能组件表示为:时间波动估计器84,其接收运动映射的帧丢失严重性值s′m,n;基于LUT的标准化单元86;和TQF函数单元,其应用参数k来产生TQF输出w′m,n
时间波动估计器84计算一系列帧丢失严重性值上的时间波动,且产生时间波动估计tfm,n。基于LUT的标准化单元86基于一系列丢失帧上的可应用帧速率的上限(UB)和下限(UB)而使时间波动估计tfm,标准化,以产生经标准化的时间波动估计tf′m,n。TQF函数单元应用TQF函数来将局部时间活动性映射到与时间质量相关联的TQF输出权数w′m,n中。
图8是说明图7的TQF单元88所实施的示范性TQF函数的响应的曲线图。图8的曲线图在水平轴上标绘时间波动且在垂直轴上标绘TQF输出权数w′m,n,且包含对应于不同帧速率的三个曲线90,92,94。在图8的实例中,对于每秒20与30个帧之间的帧速率,TQF函数单元88使用曲线90来将时间波动映射到TQF输出w′m,n。对于每秒14与19个帧之间的帧速率,TQF函数单元88使用曲线92。对于每秒1到13个帧之间的帧速率,TQF函数单元使用曲线94。
对于较高的帧速率,TQF函数通常减小TQF输出权数w′m,n,因为较高的帧速率趋向于减轻对时间不连续性的感知。对于中等帧帧,曲线92在时间波动估计器84所产生的经估计时间波动的范围内产生较高的TQF输出权数w′m,n。根据曲线94,对于非常低的时间波动,TQF输出权数w′m,n甚至更高,所述TQF输出权数极有可能导致人类观看者察觉到实质性时间质量波动。时间融合单元64应用TQF输出权数w′m,n以产生JNJ度量输出。
图9是说明基于帧组丢失严重性sm,n、运动活动性mam,n和时间质量波动wm,n而估计时间质量度量的图。在图9的图中,JNJ度量单元32接收视频序列中的多个视频帧。较长高度的垂直线96代表与镜头边界重合的视频帧,且中等高度的垂直线98代表呈现原始的未经复制的内容的正常视频帧。较短高度的垂直线100代表丢失的视频帧。丢失的视频帧可由来自帧丢失之前接收到的帧的复制内容代替。因此,丢失的视频帧通常将具有与先前复制的帧相同的时间戳,且因此显现帧丢失。
复制的帧的数目(即,帧组丢失长度)可(例如)由连续接收到的复制帧的数目或在丢失之前接收到帧与以不同时间戳接收到的下一个帧之间的时间戳的差异来确定。在图9的实例中,丢失估计通过镜头跟踪丢失帧的实例和在镜头内的出现。明确地说,帧丢失严重性值sm,n含有识别镜头的指数m,以及识别镜头内的有关帧丢失组的次序的指数n。因此,帧丢失严重性值s11指代第一镜头(镜头1)内的帧丢失的第一实例。同样,帧丢失严重性值s12、s13和s14分别指代第一镜头(镜头1)内的帧丢失的第二、第三和第四实例。第二镜头(镜头2)包含帧丢失的单次出现S21
每一帧丢失严重性值sm,n都具有作为与丢失帧相关联的时间戳之间的差的函数的值。在一个实施例中,(例如)帧丢失严重性值sm,n可如下表示:
S m , n = 1 R - 1 [ | t m , n + 1 - t m , n | T - 1 ] - - - ( 1 )
其中m是镜头的指数,n是组丢失的指数,T是每一帧之间的时间间隔,tm,n-1是与丢失的帧组之后的帧相关联的时间戳,且tm,n是与丢失的帧组之前的帧相关联的时间戳。在操作中,帧丢失估计器48(图4)应用等式(1)来计算视频序列的估计帧丢失严重性值s。
从时间戳tm,n+1减去时间戳tm,n产生差值,所述差值在除以每帧的时间间隔T时,指示组中所丢失的帧的数目,即对其进行估算的特定丢失组的组丢失长度。从此差值减去值1,且使结果除以R-1,以得出标准化帧丢失严重性值sm,n。值R-1等效于可应用的最大帧速率减一个帧,且用于使不同帧速率上的帧丢失严重性值标准化。如果帧速率为30(例如),那么值R-1等于29,且上述等式(1)表现为如下:
S m , n = 1 29 [ | t m , n + 1 - t m , n | T - 1 ] - - - ( 2 )
为了计算特定镜头m的帧丢失严重性值s,可按照上文的等式(1)来针对所述镜头中的所有丢失组计算组丢失长度,且计算其总和以产生所述镜头的总严重性值。又,为了计算总视频序列的帧丢失严重性值s,可计算序列中的每一镜头的丢失严重性值的总和。
对于运动映射,运动活动性估计器52(图4)接收视频序列中的帧的运动向量,且产生运动活动性值mam,n,其中m是镜头指数,且n是组丢失指数。模型选择单元54(图4)选择相应的模型58,60,62,以应用运动映射来产生连续的运动映射的帧丢失严重性值s′m,n。如图9所示,(例如)选定运动模型58,60,62将来自镜头1的丢失严重性值s11、s12、s13和s14映射到运动映射的丢失严重性值s′11、s′12、s′13、s′14,且将来自镜头2的丢失严重性值S21映射到运动映射的丢失严重性值s′21
选定运动模型可使用以下等式将丢失严重性值sm,n映射到丢失严重性值s′m,n
s′m,n=MM(sm,n,mam,n)    (3)
其中MM是一组预定义的运动模型,例如图4中的运动模型58,60,62,且ma是tm,n-1与tm,n之间的运动活动性,其以1到10标准化。在示范性实施例中,等式(3)可如下配置:
Figure A20078001083200221
其中
γ=1,当mam,n≥th,
γ=0,当mam,n≤th时,且
th是运动活动性阈值。
选定运动模型58,60,62的输出是运动映射的丢失严重性值s′m,n,其被提供到时间融合单元64和TQF单元66。
TQF函数单元66基于选定运动模型58,60,62所产生的丢失严重性值s′m,n而产生TQF权数。TQF权数代表视频序列中的帧之间的时间质量波动,且可根据以下等式来计算:
w m , n = 1 + κ · TQF [ ( s ′ m , n - 1 I Σ i = 1 I s ′ m , n - 1 ) 2 ] - - - ( 5 )
其中I是TQF函数单元66用来在视频序列中回顾一系列帧的窗口的大小,TQF是将局部时间活动性映射到TQF权数中的函数,且值k是大体上跟踪人类视觉响应的敏感性的标准化值。窗口的大小I(其可以是固定的或可变的)指定待估算的帧的数目,以估计TQF。TQF函数单元66针对为每一帧丢失组计算出的运动映射的丢失严重性值sm,n而产生TQF权数wm,n。在图9的实例中,TQF函数单元66针对镜头1中的运动映射的丢失严重性值s′11、s′12、s′13和s′14而产生TQF权数w11、w12、w13和w14,且针对镜头2中的运动映射的丢失严重性值s′21而产生权数w21
时间融合单元64接收运动映射的丢失严重性值s′m,n和对应的TQF权数wm,n,且产生图像跳动报告。举例来说,时间融合单元64可应用时间度量函数,如下:
JNJ = 1 MN Σ m = 1 M Σ n = 1 N w m , n · s ′ m , n - - - ( 6 )
其中
N∈丢失组的数目,且
M∈镜头的数目。
如上文的等式(6)所表示,时间融合单元64计算所有镜头上的每一TQF权数wm,n与每一运动映射的丢失严重性值的乘积的总和,以产生视频序列的总JNJ度量。
将更详细地描述TQF函数单元66的示范性操作。如上文所论述,TQF函数单元66根据等式(5)计算TQF权数,等式(5)在下文再现:
w m , n = 1 + κ · TQF [ ( s ′ m , n - 1 I Σ i = 1 I s ′ m , n - 1 ) 2 ] - - - ( 5 )
参看图7,时间波动估计单元84、基于LUT的标准化单元86和TQF函数88基于运动映射的丢失严重性值s′m,n而产生TQF权数wm,n。更明确地说,时间波动估计单元84可如下计算估计出的时间波动:
tf m , n = [ s ′ m , n - 1 I Σ i = 1 I s ′ m , n - i ] 2 - - - ( 7 )
在计算tfm,n之后,标准化单元86根据以下等式来对值进行标准化:
Figure A20078001083200233
其中UB代表可应用的帧速率的上限,且LB代表可应用的帧速率的下限。
TQF函数单元88使用从标准化单元86产生的tf’m,n以及值ψ来计算TQF权数,如下:
w m , n = 1 + κ [ 1 - ( 1 - tf ′ m , n 1.25 ) ψ ] - - - ( 9 )
其中
ψ=5,当20≤帧速率≤30时
ψ=10,当19≤帧速率≤14时且
ψ=14,当1≤帧速率≤14时
下文的表1说明针对等式(9)中的给定tf和帧速率的选定值k。一般来说,如表1中所示,可将值k选择为针对较低值的tf和较高帧速率为最高,且针对较低帧速率和较低值的tf为最低。
表1
作为帧速率和tf的函数的值k
Figure A20078001083200241
在主观实验中,已经在同一帧速率产生了具有不同组丢失组合的若干情况。主观影响受不同组丢失长度显著影响。在实验中,选择三个标准视频测试序列(容器、公路和橄榄球)来代表运动活动性的范围。将每一序列下取样到各种帧速率:27帧每秒(fps),15fps和10fps。另外,针对每一帧速率产生具有不同组丢失组合的若干子情况。此实验由十五个志愿观看者来进行,所述十五个志愿观看者中包含五个专家观看者和十个非专家观看者。
下文的表2展示从观看者获得的主观得分,以及使用如本发明中所描述的JNJ度量而获得的JNJ输出,其中帧速率为23fps。表3和表4展示分别针对不同帧速率(即15fps和10fps)且针对不同组丢失情况的主观得分和JNJ度量输出。将主观得分标准化为在0到1内,其中较高值指示更多图像跳动,且较低值指示较少的图像跳动。类似地对JNJ度量进行标准化。
表2
JNJ对主观图像跳动-23fps
Figure A20078001083200242
表3
JNJ对主观图像跳动-15fps
Figure A20078001083200251
表4
JNJ对主观图像跳动-10fps
Figure A20078001083200252
在表2到表4中,最左边的列展示不同的帧丢失子情况,以a*b或a+b的格式表示,其中组丢失长度由a表示,且视频剪辑中的丢失组的总数目为b。举例来说,1*7表示存在7个组,每个组具有一个丢失帧。更明确地说,在一秒内均匀间隔开的七个时间间隔上一次丢失一个帧。同样,2*10表示存在十个组,每个组具有2个丢失帧。
或者,a和b都代表两个不同组的组丢失长度。举例来说,3+4表示存在两个丢失组,且所述组中的一者具有三个丢失帧,而另一个组具有四个丢失帧。同样,7+8表示存在两个组,其分别具有在一秒内丢失的七个和八个丢失帧。如果丢失情况为7,如表2中所指示,那么存在单个丢失组,其具有七个丢失帧的长度。
从表2到表4的实验结果来看,显然针对不同帧丢失子情况,甚至针对同一帧速率,主观图像跳动得分也显著不同。主观图像跳动得分根据丢失子情况而广泛变化,因为突然的质量波动对观看者来说非常令人讨厌。此证据展示通过帧速率来估计图像跳动是不够的。随着帧速率减小,来自质量变化的影响将逐渐减小,因为丢失帧的总数开始支配察觉到的图像跳动。
从表2到表4中所示的JNJ输出来看,显然JNJ度量与主观得分密切相关。因此,本发明中所描述的JNJ度量提供对时间质量和时间质量波动的主观估算的合理替代。
代替只基于帧速率或运动活动性而估计图像跳动,所揭示的时间质量度量技术可使用相继丢失的帧的数目(即,组丢失长度)作为基本估计单位。利用两种不同的输入模式,本发明中所描述的技术可基于可用性而处理位流或像素信息。使用组丢失长度,可捕获图像跳动的更多属性。通过添加局部质量活动性分析,所揭示的时间质量度量可成功地捕获人类对质量波动的敏感性,这在估定总视觉时间质量中可能非常重要。与主观观看结果的比较展示所揭示的JNJ度量与人类对时间质量的视觉响应密切相关。而且,可针对不同程度的运动活动性来调节图像跳动敏感性。
本发明中所描述的技术可在硬件、软件,固件或其任一组合中实施。举例来说,可在一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或任一其它等效集成或离散逻辑电路,以及此类组件的任一组合内实施所述技术的各个方面。术语“处理器”或“处理电路”通常可指代任一前述逻辑电路(单独或与其它逻辑电路组合),或任一其它等效电路。在一些实施例中,本文所描述的功能性可提供在专用软件模块或经配置以进行编码和解码的硬件单元内,或并入组合的视频编码器-解码器(CODEC)中。
当在软件中实施时,所述技术可部分地由包括程序代码或指令的计算机可读媒体来实现,所述程序代码或指令在由处理器执行时,执行上文所述的功能中的一者或一者以上。存储此类程序代码或指令的计算机可读媒体可包括随机存取存储器(RAM)(例如同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体或此类存储器或存储媒体的任一组合。
已经描述了各种实施例。这些和其它实施例在所附权利要求书的范围内。

Claims (32)

1.一种方法,其包括基于视频序列中丢失的视频帧的数目且基于所述视频序列内的时间质量波动而产生所述视频序列的时间质量度量。
2.根据权利要求1所述的方法,其进一步包括基于所述视频序列内的运动活动性而产生所述时间质量度量。
3.根据权利要求1所述的方法,其进一步包括针对代表所述视频序列的位流或像素信息中的一者而产生所述时间质量度量。
4.根据权利要求1所述的方法,其中产生所述时间质量度量包含:
估计所述视频序列中相继丢失的视频帧的所述数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
基于所述运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述经运动补偿的帧丢失严重性值而产生所述时间质量度量。
5.根据权利要求4所述的方法,其进一步包括:
识别所述视频序列内的不同镜头之间的边界;以及
响应于所述经识别的镜头边界识别而补偿所述所估计的运动活动性等级。
6.根据权利要求4所述的方法,其进一步包括:
基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值;以及
基于所述经运动补偿的帧丢失严重性值和所述时间质量波动值而产生所述时间质量度量。
7.根据权利要求6所述的方法,其进一步包括基于标准化值而产生所述时间质量波动值,所述标准化值对应于人类在所述视频序列的给定帧速率下对时间质量波动的响应。
8.根据权利要求1所述的方法,其中产生所述时间质量度量包含:
估计所述视频序列中相继丢失的视频帧组的数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
识别所述视频序列内不同镜头之间的边界;
响应于所述所识别的镜头边界识别而补偿所述所估计的运动活动性等级;
基于所述经补偿的运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值;以及
基于所述经运动补偿的帧丢失严重性值以及所述时间质量波动值,根据以下等式来产生所述时间质量度量:
JNJ = 1 MN Σ m = 1 M Σ n = 1 N w m , n · s m , n ′
其中JNJ代表时间质量,N代表组的数目,M代表镜头的数目,s′m,n代表映射的帧丢失严重性值,且wm,n代表时间质量波动的程度。
9.根据权利要求8所述的方法,其进一步包括根据以下等式来计算所述wm,n值:
w m , n = 1 + κ · TQF [ ( s m , n ′ - 1 I Σ i = 1 I s m , n - 1 ′ ) 2 ]
其中TQF是代表时间质量波动的函数,且值k是根据所述视频序列的帧速率而变化的值。
10.根据权利要求8所述的方法,其进一步包括根据以下等式来计算所述wm,n值:
w m , n = 1 + κ [ 1 - ( 1 - tf m , n ′ 1.25 ) ψ ]
其中tf′m,n是标准化时间波动估计,其中值k是根据所述视频序列的帧速率和所述
相关联的tf′m,n而变化的值,且ψ随不同帧速率而变化。
11.根据权利要求10所述的方法,其中
ψ=5,当20≤帧速率≤30时
ψ=10,当19≤帧速率≤14时,以及
ψ=14,当1≤帧速率≤14时。
12.一种装置,其包括基于视频序列中相继丢失的视频帧的数目且基于所述视频序列内的时间质量波动而产生所述视频序列的时间质量度量的处理器。
13.根据权利要求12所述的装置,其中所述处理器基于所述视频序列内的运动活动性而产生所述时间质量度量。
14.根据权利要求14所述的装置,其中所述处理器针对代表所述视频序列的位流或像素信息中的一者而产生所述时间质量度量。
15.根据权利要求12所述的装置,其中所述处理器:
估计所述视频序列中相继丢失的视频帧的数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
基于所述运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述经运动补偿的帧丢失严重性值而产生所述时间质量度量。
16.根据权利要求15所述的装置,其中所述处理器识别所述视频序列内不同镜头之间的边界,且响应于所述所识别的镜头边界识别而补偿所述所估计的运动活动性等级。
17.根据权利要求15所述的装置,其中所述处理器基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值,且基于所述经运动补偿的帧丢失严重性值和所述时间质量波动值而产生所述时间质量度量。
18.根据权利要求17所述的装置,其中所述处理器基于标准化值而产生所述时间质量波动值,所述标准化值对应于人类在所述视频序列的给定帧速率下对时间质量波动的响应。
19.根据权利要求12所述的装置,其中所述处理器:
估计所述视频序列中相继丢失的视频帧组的数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
识别所述视频序列内不同镜头之间的边界;
响应于所述所识别的镜头边界识别信息而补偿所述所估计的运动活动性等级;
基于所述经补偿的运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值;以及
基于所述经运动补偿的帧丢失严重性值以及所述时间质量波动值,根据以下等式来产生所述时间质量度量:
JNJ = 1 MN Σ m = 1 M Σ n = 1 N w m , n · s m , n ′
其中JNJ代表时间质量,N代表组的数目,M代表镜头的数目,s′m,n代表映射的帧丢失严重性值,且wm,n代表时间质量波动的程度。
20.根据权利要求19所述的装置,其中所述处理器根据以下等式来计算所述wm,n值:
w m , n = 1 + κ · TQF [ ( s m , n ′ - 1 I Σ i = 1 I s m , n - 1 ′ ) 2 ]
其中TQF是代表时间质量波动的函数,且值k是根据所述视频序列的帧速率和相关联的tf′m,n而变化的值。
21.根据权利要求19所述的装置,其中所述处理器根据以下等式来计算所述wm,n值:
w m , n = 1 + κ [ 1 - ( 1 - tf m , n ′ 1.25 ) ψ ]
其中tf′m,n是标准化时间波动估计,其中值k是根据所述视频序列的帧速率和所述相关联的tf′m,n而变化的值,且ψ随不同帧速率而变化。
22.一种计算机可读媒体,其包括致使处理器基于视频序列中相继丢失的视频帧的数目且基于所述视频序列内的时间质量波动而产生所述视频序列的时间质量度量的指令。
23.根据权利要求22所述的计算机可读媒体,其进一步包括致使所述处理器基于所述视频序列内的运动活动性而产生所述时间质量度量的指令。
24.根据权利要求22所述的计算机可读媒体,其进一步包括致使所述处理器针对代表所述视频序列的位流或像素信息中的一者而产生所述时间质量度量的指令。
25.根据权利要求22所述的计算机可读媒体,其进一步包括致使所述处理器进行以下动作的指令:
估计所述视频序列中相继丢失的视频帧的数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
基于所述运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述经运动补偿的帧丢失严重性值而产生所述时间质量度量。
26.根据权利要求25所述的计算机可读媒体,其进一步包括致使处理器进行以下动作的指令:识别所述视频序列内不同镜头之间的边界;以及响应于所述所识别的镜头边界识别而补偿所述所估计的运动活动性等级。
27.根据权利要求25所述的计算机可读媒体,其进一步包括致使所述处理器进行以下动作的指令:基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值;以及基于所述经运动补偿的帧丢失严重性值和所述时间质量波动值而产生所述时间质量度量。
28.根据权利要求27所述的计算机可读媒体,其进一步包括致使所述处理器进行以下动作的指令:基于标准化值而产生所述时间质量波动值,所述标准化值对应于人类在所述视频序列的给定帧速率下对时间质量波动的响应。
29.根据权利要求22所述的计算机可读媒体,其中所述指令致使所述处理器进行以下动作:
估计所述视频序列中相继丢失的视频帧组的数目,以产生帧丢失严重性值;
估计所述视频序列内的运动活动性等级;
识别所述视频序列内不同镜头之间的边界;
响应于所述所识别的镜头边界识别而补偿所述所估计的运动活动性等级;
基于所述经补偿的运动活动性等级而将所述帧丢失严重性值映射到经运动补偿的帧丢失严重性值;以及
基于所述视频序列内的窗口内的局部时间活动性而产生时间质量波动值;以及
基于所述经运动补偿的帧丢失严重性值和所述时间质量波动值,根据以下等式来产生所述时间质量度量:
JNJ = 1 MN Σ m = 1 M Σ n = 1 N w m , n · s m , n ′
其中JNJ代表时间质量,N代表组的数目,M代表镜头的数目,s′m,n代表映射的帧丢失严重性值,且wm,n代表时间质量波动的程度。
30.根据权利要求29所述的计算机可读媒体,其中所述指令致使所述处理器根据以下等式来计算所述wm,n值:
w m , n = 1 + κ · TQF [ ( S m , n ′ - 1 I Σ i = 1 I S m , n - 1 ′ ) 2 ]
其中TQF是代表时间质量波动的函数,且值k是根据所述视频序列的帧速率而变化的值。
31.根据权利要求29所述的计算机可读媒体,其中所述指令致使所述处理器根据以下等式来计算所述wm,n值:
w m , n = 1 + κ [ 1 - ( 1 - tf m , n ′ 1.25 ) ψ ]
其中tf′m,n是标准化时间波动估计,其中值k是根据所述视频序列的帧速率和所述相关联的tf′m,n而变化的值,且ψ随不同帧速率而变化。
32.根据权利要求31所述的计算机可读媒体,其中
ψ=5,当20≤帧速率≤30时
ψ=10,当19≤帧速率≤14时,以及
ψ=14,当1≤帧速率≤14时。
CN200780010832XA 2006-04-05 2007-04-05 视频编码的时间质量度量 Expired - Fee Related CN101411208B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US78966406P 2006-04-05 2006-04-05
US60/789,664 2006-04-05
US11/450,692 2006-06-08
US11/450,692 US9025673B2 (en) 2006-04-05 2006-06-08 Temporal quality metric for video coding
PCT/US2007/066082 WO2007118160A1 (en) 2006-04-05 2007-04-05 Temporal quality metric for video coding

Publications (2)

Publication Number Publication Date
CN101411208A true CN101411208A (zh) 2009-04-15
CN101411208B CN101411208B (zh) 2011-04-06

Family

ID=38370850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780010832XA Expired - Fee Related CN101411208B (zh) 2006-04-05 2007-04-05 视频编码的时间质量度量

Country Status (6)

Country Link
US (1) US9025673B2 (zh)
EP (1) EP2002664A1 (zh)
JP (1) JP5215288B2 (zh)
KR (1) KR100977694B1 (zh)
CN (1) CN101411208B (zh)
WO (1) WO2007118160A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012012914A1 (en) * 2010-07-30 2012-02-02 Thomson Broadband R & D (Beijing) Co. Ltd. Method and apparatus for measuring video quality
CN104081769A (zh) * 2011-11-28 2014-10-01 汤姆逊许可公司 失真/质量测量
CN106357896A (zh) * 2016-08-31 2017-01-25 广东欧珀移动通信有限公司 一种掉帧信息的输出方法、装置及移动终端
US10728538B2 (en) 2010-01-11 2020-07-28 Telefonaktiebolaget L M Ericsson(Publ) Technique for video quality estimation

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8840475B2 (en) * 2002-12-10 2014-09-23 Ol2, Inc. Method for user session transitioning among streaming interactive video servers
JP2009260941A (ja) * 2008-03-21 2009-11-05 Nippon Telegr & Teleph Corp <Ntt> 映像品質客観評価方法、映像品質客観評価装置、及びプログラム
US8208563B2 (en) * 2008-04-23 2012-06-26 Qualcomm Incorporated Boundary artifact correction within video units
EP2112835A1 (en) 2008-04-24 2009-10-28 Psytechnics Ltd Method and apparatus for generation of a video quality parameter
US20100027663A1 (en) * 2008-07-29 2010-02-04 Qualcomm Incorporated Intellegent frame skipping in video coding based on similarity metric in compressed domain
CN101741752B (zh) 2008-11-17 2015-08-19 华为技术有限公司 视频流传输的方法、装置和系统
US8294772B2 (en) * 2009-01-29 2012-10-23 Pelco, Inc. System and method for monitoring connections within an analog video system
CN102317974B (zh) * 2009-02-12 2014-08-06 杜比实验室特许公司 图像序列的质量评估
EP2293554A1 (en) * 2009-07-27 2011-03-09 Trident Microsystems (Far East) Ltd. Frame-rate conversion
WO2012071680A1 (en) * 2010-11-30 2012-06-07 Technicolor (China) Technology Co., Ltd. Method and apparatus for measuring quality of video based on frame loss pattern
HUE039252T2 (hu) * 2010-12-10 2018-12-28 Deutsche Telekom Ag Eljárás és berendezés videojel minõségének megállapítására a videojel kódolása és átvitele folyamán
EP2786566A4 (en) * 2011-11-28 2016-01-13 Thomson Licensing MEASURE OF DISTORTION / QUALITY
US9924167B2 (en) 2011-11-28 2018-03-20 Thomson Licensing Video quality measurement considering multiple artifacts
EP2670151A1 (en) * 2012-05-28 2013-12-04 Tektronix Inc. Heuristic method for drop frame detection in digital baseband video
CN104781649B (zh) * 2012-11-16 2019-07-05 贝克曼考尔特公司 流式细胞术数据分割结果的评价系统和方法
EP2736261A1 (en) * 2012-11-27 2014-05-28 Alcatel Lucent Method For Assessing The Quality Of A Video Stream
CN104995914A (zh) * 2013-02-07 2015-10-21 汤姆逊许可公司 用于基于上下文的视频质量评估的方法和装置
JP2016510568A (ja) 2013-02-07 2016-04-07 トムソン ライセンシングThomson Licensing コンテキストベースのビデオ品質評価のための方法および装置
BR112015018465A2 (pt) 2013-02-07 2017-07-18 Thomson Licensing método e aparelho para avaliação de qualidade de vídeo à base de contexto
CN103747238B (zh) * 2013-02-20 2015-07-08 华为技术有限公司 视频静止失真程度评估方法和装置
US9554168B2 (en) * 2014-09-11 2017-01-24 Harman International Industries, Incorporated Methods and systems for sample recovery in AVB networks
US10264097B2 (en) 2016-08-02 2019-04-16 Sandisk Technologies Llc Method and system for interactive aggregation and visualization of storage system operations
US10154429B1 (en) * 2017-06-13 2018-12-11 Western Digital Technologies, Inc. Method and system for user experience event processing and analysis
US10503526B2 (en) * 2017-06-13 2019-12-10 Western Digital Technologies, Inc. Method and system for user experience event processing and analysis
US11295783B2 (en) * 2018-04-05 2022-04-05 Tvu Networks Corporation Methods, apparatus, and systems for AI-assisted or automatic video production
US11563794B1 (en) * 2021-10-06 2023-01-24 Charter Communications Operating, Llc. Full reference video quality measurements of video conferencing over the congested networks

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07115584A (ja) 1993-10-19 1995-05-02 Canon Inc 画像揺れ補正装置
US5614945A (en) 1993-10-19 1997-03-25 Canon Kabushiki Kaisha Image processing system modifying image shake correction based on superimposed images
US5550595A (en) * 1994-12-16 1996-08-27 Intel Corporation Apparatus and method for motion estimation with enhanced camera interface
EP0888019A1 (en) 1997-06-23 1998-12-30 Hewlett-Packard Company Method and apparatus for measuring the quality of a video transmission
JP2000165857A (ja) 1998-11-25 2000-06-16 Ando Electric Co Ltd 階層動画評価装置及び動画通信装置
US6795504B1 (en) 2000-06-21 2004-09-21 Microsoft Corporation Memory efficient 3-D wavelet transform for video coding without boundary effects
US20020136298A1 (en) * 2001-01-18 2002-09-26 Chandrashekhara Anantharamu System and method for adaptive streaming of predictive coded video data
US7030845B2 (en) * 2002-01-20 2006-04-18 Shalong Maa Digital enhancement of streaming video and multimedia system
JP2003250155A (ja) 2002-02-25 2003-09-05 Ando Electric Co Ltd 動画符号評価装置及び課金システム
US20040179606A1 (en) 2003-02-21 2004-09-16 Jian Zhou Method for transcoding fine-granular-scalability enhancement layer of video to minimized spatial variations
GB0428155D0 (en) * 2004-12-22 2005-01-26 British Telecomm Buffer underflow prevention
JP4377357B2 (ja) 2005-07-07 2009-12-02 日本電信電話株式会社 映像品質推定装置および映像品質推定方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10728538B2 (en) 2010-01-11 2020-07-28 Telefonaktiebolaget L M Ericsson(Publ) Technique for video quality estimation
WO2012012914A1 (en) * 2010-07-30 2012-02-02 Thomson Broadband R & D (Beijing) Co. Ltd. Method and apparatus for measuring video quality
CN103385000A (zh) * 2010-07-30 2013-11-06 汤姆逊许可公司 用于测量视频质量的方法和装置
US8675075B2 (en) 2010-07-30 2014-03-18 Thomson Licensing Method and apparatus for measuring video quality
CN104081769A (zh) * 2011-11-28 2014-10-01 汤姆逊许可公司 失真/质量测量
CN106357896A (zh) * 2016-08-31 2017-01-25 广东欧珀移动通信有限公司 一种掉帧信息的输出方法、装置及移动终端

Also Published As

Publication number Publication date
KR20090006171A (ko) 2009-01-14
US20070237227A1 (en) 2007-10-11
JP2009533008A (ja) 2009-09-10
US9025673B2 (en) 2015-05-05
EP2002664A1 (en) 2008-12-17
KR100977694B1 (ko) 2010-08-24
CN101411208B (zh) 2011-04-06
JP5215288B2 (ja) 2013-06-19
WO2007118160A1 (en) 2007-10-18

Similar Documents

Publication Publication Date Title
CN101411208B (zh) 视频编码的时间质量度量
Bampis et al. Towards perceptually optimized end-to-end adaptive video streaming
Ries et al. Video Quality Estimation for Mobile H. 264/AVC Video Streaming.
Zheng et al. Quality-of-experience assessment and its application to video services in LTE networks
CN101982977B (zh) 用于与时域边界进行数据对准的方法和装置
Tanwir et al. A survey of VBR video traffic models
CN111277826B (zh) 一种视频数据处理方法、装置及存储介质
CN102959976A (zh) 评估视频流质量的方法及设备
Tavakoli et al. Subjective quality study of adaptive streaming of monoscopic and stereoscopic video
Argyropoulos et al. No-reference video quality assessment for SD and HD H. 264/AVC sequences based on continuous estimates of packet loss visibility
Chen et al. Hybrid distortion ranking tuned bitstream-layer video quality assessment
Ries et al. Motion based reference-free quality estimation for H. 264/AVC video streaming
Usman et al. A novel no-reference metric for estimating the impact of frame freezing artifacts on perceptual quality of streamed videos
Ries et al. Performance evaluation of mobile video quality estimators
WO2008077160A1 (en) Method and system for video quality estimation
Guionnet et al. Forward-looking content aware encoding for next generation UHD, HDR, WCG, and HFR
JP6010625B2 (ja) 歪み/品質測定
CN115379291A (zh) 一种码表更新方法、装置、设备及存储介质
Martínez et al. Objective video quality metrics: A performance analysis
Asan et al. Optimum encoding approaches on video resolution changes: A comparative study
Song et al. QoE modelling for VP9 and H. 265 videos on mobile devices
Ries Video quality estimation for mobile video streaming
Shi et al. A user-perceived video quality assessment metric using inter-frame redundancy
Farrugia et al. Objective video quality metrics for HDTV services: A survey
Arsenović et al. Quality of Experience Assessment for HTTP Based Adaptive Video Streaming.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110406

Termination date: 20190405