CN103458238A - 一种结合视觉感知的可伸缩视频码率控制方法、装置 - Google Patents

一种结合视觉感知的可伸缩视频码率控制方法、装置 Download PDF

Info

Publication number
CN103458238A
CN103458238A CN201210455614XA CN201210455614A CN103458238A CN 103458238 A CN103458238 A CN 103458238A CN 201210455614X A CN201210455614X A CN 201210455614XA CN 201210455614 A CN201210455614 A CN 201210455614A CN 103458238 A CN103458238 A CN 103458238A
Authority
CN
China
Prior art keywords
bit rate
macro block
video
encoder bit
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210455614XA
Other languages
English (en)
Other versions
CN103458238B (zh
Inventor
柳伟
陈旭
梁永生
张基宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201210455614.XA priority Critical patent/CN103458238B/zh
Publication of CN103458238A publication Critical patent/CN103458238A/zh
Application granted granted Critical
Publication of CN103458238B publication Critical patent/CN103458238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明适用于视频技术领域,提供了一种结合视觉感知的可伸缩视频码率控制方法、装置,所述方法包括:接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;根据排序结果对各个宏块的编码码率进行控制。本发明,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率,显著度高区域的感知质量有了明显提升。

Description

一种结合视觉感知的可伸缩视频码率控制方法、装置
技术领域
本发明属于视频技术领域,尤其涉及一种结合视觉感知的可伸缩视频码率控制方法、装置。
背景技术
随着网络技术和各种终端设备的发展,新的视频应用要求视频编码能够以较低复杂度提供时域、空域和质量可伸缩性。可伸缩编码(Scalable VideoCoding,SVC)采用多层编码的方式把视频序列编码成相互依赖的可伸缩层集合,不同的终端设备可以根据播出能力、处理能力和网络质量,提取和解码可伸缩层的一部分。如何通过视频码率控制满足用户的个性化需求,实现播出质量的最大化成为视频压缩和传输中需要解决的关键问题。
现有的码率控制方法大都基于JVT-H017草案,通过二次率失真模型估计量化参数。作为H.264/AVC的扩展,H.264/SVC在基本层实现了码率控制算法。视觉认知的研究发现,每个视频包对于视频质量的贡献是不一样的,有必要在感知层面考虑视频内容对人眼视觉系统的激励特性,现有技术1提出了一种改进的JVT-H017算法,根据人类视觉系统特性设计加权Y分量的峰值信噪比(PeakSignaltoNoiseRatio,PSNR),再根据基本单元层的复杂度分配码率;现有技术2提出面向运动可伸缩性的率失真优化算法,通过该算法实现码流提取;现有技术3在视觉显著图的基础上,根据显著度和绝对误差修改宏块的复杂度,将码率控制应用于无线信道;现有技术4将码率和感知质量建模为帧率和量化步长的函数,应用于可伸缩码流自适应和帧率自适应。针对中粒度可伸缩编码(Medium-Grain Scalable Video Coding,MGS),现有技术5提出加权率失真模型估计差错漂移的影响;现有技术6基于MGS中slices的视觉重要性分配码率。
现有技术存在的问题和不足在于:
1、采用的视觉显著图都只有二维空间信息,没有考虑时间变化所造成的人眼视觉转移和视频内容的变化;
2、使用视觉感知特性作为加权分量修改率失真模型,计算量大,并且没有从整体上考虑码率分配的边际效应。
综上所述,在网络带宽资源有限的情况下,现有的视频,经过可伸缩视频编码后,得到的可伸缩视频的主观质量比较差。
发明内容
本发明实施例提供了一种结合视觉感知的可伸缩视频码率控制方法、装置,旨在解决现有技术经过可伸缩编码后得到的可伸缩视频的主观视觉质量比较差的问题。
一方面,提供一种结合视觉感知的可伸缩视频码率控制方法,所述方法包括:
接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
根据排序结果对各个宏块的编码码率进行控制。
另一方面,提供一种结合视觉感知的可伸缩视频码率控制装置,所述装置包括:
视频处理单元,用于接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
时空显著图获取单元,用于构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
第一排序单元,用于根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
码率控制单元,用于根据排序结果对各个宏块的编码码率进行控制。
在本发明实施例中,对输入的视频,先计算出包含时间和空间特性的时空显著图,再根据所述时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制。时空显著图中不仅包括了空间信息,还包括时间信息,该时空显著图的主观视觉质量相比现有技术采用的视觉显著图,视觉质量更高。另外,在进行码率控制时,根据时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率,显著度高区域的感知质量有了明显提升。
附图说明
图1是本发明实施例一提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
图2是本发明实施例二提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
图3是本发明实施例二提供的人眼视觉示意图;
图4是本发明实施例三提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图;
图5是本发明实施例三提供的人眼对视频的主观视觉感知质量与视频编码码率近似关系示意图;
图6是本发明实施例四提供的结合视觉感知的可伸缩视频码率控制装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,对输入的视频,先计算出包含时间和空间特性的时空显著图,再根据所述时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制。时空显著图中不仅包括了空间信息,还包括时间信息,该时空显著图的主观视觉质量相比现有技术采用的视觉显著图,视觉质量更高。另外,在进行码率控制时,根据时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率。
以下结合具体实施例对本发明的实现进行详细描述:
实施例一
图1示出了本发明实施例一提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图。
在本发明实施例中,时空显著图是一种三维显著图,综合考虑视频的时间和空间特性,反映人眼注视区域与注视时间之间的映射关系。时空显著图的计算过程包括初始显著计算与最终显著计算部分。
初始显著计算部分即是对接收到的视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图,具体的,可以利用Harel方法得到各个视频帧的视觉显著图。
在步骤S102中,构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图。
在本发明实施例中,最终显著区域计算部分即是在初始显著计算结果的基础上,结合考虑了视觉注视转移及延迟方面的视觉特性进一步优化,计算得到步骤S01所述的视觉显著图的时空显著图。
在获取初始显著计算结果后,由于人眼注视视频画面过程中会发生注视、眼跳和追随运动,而人眼视觉及心理学相关研究表明,人眼对区域平均眼跳延迟(注视)时长约为350ms,平均眼跳时长约为70ms。因此为方便计算,根据人眼的视觉特性,先设置时间参数Δt,该时间参数Δt满足公式(1):
Δtn∞R2(mean(Δtn))s.t.mean(Δtn)=420(1)
其中,n表示第n个显著区域,R2表示显著区域的面积,∞表示注视时间和区域面积成正比,mean(△tn)表示取Δtn的平均值。
再构造注视转移矩阵Pt,具体构造的Pt满足公式(2):
Figure BDA00002401376300051
其中,在同一镜头内,该矩阵表达了不同时间段范围内人眼所注视区域的可能性大小,是模拟Δt时间段内对人眼扫视范围的矩阵。初始注视转移矩阵Pt为全0矩阵,n为显著区域序号,mij,s为所在显著区域中的元素,Δk为注视增长单元,注视增长单元与显著区域大小成反比关系。随时间增长,显著区域注视值增加,当显著区域内注视值均为1时,根据人眼排他性,视点转移到下一个显著区域。
其中,根据人眼返回抑制性以及邻近优先性,结合步骤S101得到的视觉显著图F(x,y)、返回抑制图In(x,y)及邻近优先图Mn(x,y)信息,得到综合显著图Dn+1(x,y),下一个显著区域Rn+1位置计算满足公式(3):
D n + 1 ( x , y ) = F ( x , y ) I n ( x , y ) M n ( x , y ) ( px n + 1 , py n + 1 ) = arg max ( x , y ) D n + 1 ( x , y ) ( px n + 1 , py n + 1 ) ∈ R n + 1 - - - ( 3 )
则最终显著区域计算结果S'可表示为:
S'=Pt·S    (4)
其中,S为初始显著区域计算结果,Pt为注视转移矩阵。
在步骤S103中,根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序。
根据时空显著图获取了视频图像各区域的注视可能性值,为了能够保障所注视区域的质量,使得s(i,j,k)、Be(i,j,k)满足公式(5):
Max ( Σ k = 1 t Σ i , j ( Be ( i , j , k ) × s ( i , j , k ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , k ) ≤ Be max - - - ( 5 )
其中i,j为宏块标号,s(i,j,k)为宏块编号为i,j的k帧视频帧所对应的显著度计算结果,Be(i,j,k)为宏块编号为i,j的k帧视频帧码率控制前质量增强层编码码率,也即步骤S101得到的编码码率,k为帧号,t为帧率。
在本实施例中,结合贪婪算法来实现码率控制优化问题。对于视频码率控制,将各区域码率看成背包问题中的物品,注视可能性即物品的价值;各区域所分配码率的大小即物品的重量;传输带宽即背包的容量。在有限带宽条件下,为使得目标函数
Figure BDA00002401376300064
最大化,对可伸缩编码后生成的可伸缩编码码流进行码流提取的过程中,对s(i,j,k)进行排序,再通过公式(5)确定各个宏块的编码码率的重要性排序结果。
在步骤S104中,根据排序结果对各个宏块的编码码率进行控制。
在本实施例中,通过对s(i,j,k)排序后,认为s(i,j,k)值大的区域对应的注视可能性高,应对该区域的编码码率进行提高。所以,本实施例优先降低注视可能性低的区域的编码码率,而提高注视可能性高的区域的编码码率,使得显著度高区域的感知质量得到明显提升。
本发明实施例,对输入的视频,先计算出包含时间和空间特性的时空显著图,再根据所述时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制。时空显著图中不仅包括了空间信息,还包括时间信息,该时空显著图的主观视觉质量相比现有技术采用的视觉显著图,视觉质量更高。另外,在进行码率控制时,根据时空显著图中各个宏块的显著度信息对各个宏块的码率进行控制,优先降低注视可能性低的区域的码率,而提高显著度高区域的码率,显著度高区域的感知质量有了明显提升。
实施例二
图2示出了本发明实施例一提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图。
在步骤S202中,构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图。
在步骤S203中,结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线。
在本实施例中,应用贪婪算法获得各个宏块增强层码率初始值以后,还需要根据人眼视觉特性修正初始码率,获得更为平滑的视觉效果。根据人眼视觉注意机制的研究,在不同画面分辨率及视线距离情况下,人眼中央凹在5°视觉范围内能达到画面90%的清晰度,而在10°的视觉范围只能达到约画面50%的清晰度,如图3所示的人眼视觉示意图:设d为视线距离,r为像素点至显著区域中心最近距离。则w(r,d)为二维拟合曲线,使得w满足公式(6):
1 = w ( 0 , d ) 0.9 = w ( d × tg ( π 720 ) , d ) 0.5 = w ( d × tg ( π 360 ) , d ) - - - ( 6 )
在步骤S204中,根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的加权权值。
在本实施例中,为避免在进行可伸缩编码的过程中视频帧产生画面方块效应,根据人眼中央凹视觉特性对画面进行平滑处理。如公式(7)所示:
C R i = kR i , enh · S i
Figure BDA00002401376300083
其中n,m为宏块序列号,
Figure BDA00002401376300084
为第i帧的n,m宏块在码流提取后视频子码流增强层的码率。
在步骤S205中,根据所述加权权值,对各个宏块的编码码率的重要性进行排序。
在本实施例中,对可伸缩编码后生成的可伸缩编码码流进行码流提取的过程中,对进行排序。其中,降低
Figure BDA00002401376300086
小的区域的编码码率,提高
Figure BDA00002401376300087
大的区域的的码率。
在步骤S206中,根据排序结果对各个宏块的编码码率进行控制。
本实施例,通过结合人眼中央凹视觉特性、视频画面大小、视线距离进行曲线拟合对步骤202得到的时空显著图进行曲线拟合,得到各个宏块的加权权值,避免了在进行可伸缩编码的过程中视频帧产生画面方块效应,本实施例和实施例一提供的方法非常适合与注视间隔长,注视区域少,空间域的影响较大的场景。
实施例三
图4示出了本发明实施例三提供的结合视觉感知的可伸缩视频码率控制方法的实现流程图,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S401中,接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图。
在步骤S402中,构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图。
在步骤S403中,结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线。
在步骤S404中,根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率。
人眼视觉质量与视频编码码率的关系并非线性关系,在人眼距离屏幕60cm条件下,对于CIF视频文件,结合公共视频数据集测试,人眼对视频的主观视觉感知质量与视频编码码率近似关系如图5所示:其中,MOS(Mean OpinionScore)为主观视觉感知效果分数值,可见视频画面在1-1.5Mbps带宽区间变化情况下对人眼视觉感知影响较大,大于1.5Mbps进行码率增加或小于1Mbps进行码率降低对于主观视觉感知影响相对降低。由于视觉感知函数单调可导,因此根据编码结果,计算得到不同宏块的编码码率大小对应了不同的宏块MOS分值,如公式(8)所示。
α × Be ( i , j , k ) Mos ( i , j , k ) = Σ k = 1 t Σ i , j ( Be ( i , j , k ) ) F ( Σ k = 1 t Σ i , j ( Be ( i , j , k ) ) )
α = mean ( Be ( i , j , k ) ) Be ( i , j , k ) - - - ( 8 )
Be(i,j,k)表示第k帧的第(i,j)个宏块在增强层的编码码率,MOS(i,j,k)表示该宏块的主观视觉感知效果分数值,F表示图5中的视觉感知效果分数值与编码码率之间的关系函数。
改善各个宏块带宽阈值,使得MOS(i,j,k)的总和最大化,则评价仅从整体画质上进行考虑,可使得全局MOS值最优。实际上码率控制需进一步结合人眼对不同区域的关注程度。视觉显著区域则反映了人眼所可能注视区域,因此同样应当给予此部分区域更高码率以获取更好的主观视觉感知效果。使得在码率控制策略上使得主观视觉感知效果最好,优化公式如公式(9)所示:
Max ( Σ k = 1 t Σ i , j ( dMos ( i , j , t ) dBe ( i , j , t ) × s ( i , j , t ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , t ) ≤ Be max - - - ( 9 )
其中i,j为宏块标号,s(i,j)为宏块标号为i,j的宏块对应的时空显著计算结果,Be(i,j)为码率控制前质量增强层编码码率,MOS(i,j)为视频帧的主观视觉感知分数值。
对于不同画面分辨率及视线距离情况下,根据人眼中央凹视觉特性,公式(9)修改为公式(10):
Max ( Σ k = 1 t Σ i , j ( dMos ( i , j , t ) dBe ( i , j , t ) × w ( r , d ) × s ( i , j , t ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , t ) ≤ Be max - - - ( 10 )
在步骤S405中,根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
在本实施例中,在带宽一定的条件下,通过循环计算,对 dMOS ( i , j , t ) dBe ( i , j , t ) × w ( r , d ) × s ( i , j , t ) 进行排序。
在步骤S406中,根据排序结果对各个宏块的编码码率进行控制。
在本实施例中,考虑到主观感知与编码码率间的关系,利用两者之间的边际效应,虽然在视觉显著区域分配的编码码率比实施例一和二中的少,但是没有明显降低视觉效果。节约的编码码率用于其他非视觉显著区域,明显提高画面的整体感知质量。
实施例四
图6示出了本发明实施例四提供的结合视觉感知的可伸缩视频码率控制装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分,所述结合视觉感知的可伸缩视频码率控制装置包括:视频处理单元61、时空显著图获取单元62、第一排序单元63和码率控制单元64。
其中,视频处理单元61,用于接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
时空显著图获取单元62,用于构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
第一排序单元63,用于根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
码率控制单元64,用于根据排序结果对各个宏块的编码码率进行控制,具体的,所述码率控制单元64通过优先降低显著度低区域的编码码率来对编码码率进行控制,同时,使所述显著度与所述编码码率的关系满足如下公式:
Max ( Σ k = 1 t Σ i , j ( Be ( i , j , k ) × s ( i , j , k ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , k ) ≤ Be max
其中,Be(i,j,k)为宏块编号为i,j的k帧视频帧编码码率,s(i,j,k)为宏块编号为i,j的k帧视频帧所对应的显著度。
进一步地,所述装置还可以包括:二维拟合曲线生成单元、加权权值生成单元和第二排序单元。
其中,二维拟合曲线生成单元,用于结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线;
加权权值生成单元,用于根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的显著度加权权值;
第二排序单元,用于根据所述显著度加权权值,对各个宏块的编码码率的重要性进行排序。
进一步地,所述装置还可以包括:斜率计算单元和第三排序单元。
其中,斜率计算单元,用于根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率;
第三排序单元,用于根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
本发明实施例提供的结合视觉感知的可伸缩视频码率控制装置可以应用在前述对应的方法实施例一、二或者三中,详情参见上述实施例一、二或者三中的描述,在此不再赘述。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种结合视觉感知的可伸缩视频码率控制方法,其特征在于,所述方法包括:
接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
根据排序结果对各个宏块的编码码率进行控制。
2.如权利要求1所述的方法,其特征在于,在所述构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图之后,所述方法还包括:
结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线;
根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的显著度加权权值;
根据所述显著度加权权值,对各个宏块的编码码率的重要性进行排序。
3.如权利要求2所述的方法,其特征在于,在所述结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线之后,所述方法还包括:
根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率;
根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
4.如权利要求1所述的方法,其特征在于,所述根据排序结果对各个宏块的编码码率进行控制具体为:
优先降低显著度低区域的编码码率,同时,使所述显著度与所述编码码率的关系满足如下公式:
Max ( Σ k = 1 t Σ i , j ( Be ( i , j , k ) × s ( i , j , k ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , k ) ≤ Be max
其中,Be(i,j,k)为宏块编号为i,j的k帧视频帧编码码率,s(i,j,k)为宏块编号为i,j的k帧视频帧所对应的显著度。
5.一种结合视觉感知的可伸缩视频码率控制装置,其特征在于,所述装置包括:
视频处理单元,用于接收输入的视频文件,一方面对所述视频文件进行可伸缩编码,得到各个宏块的编码码率,另一方面对所述视频文件的视频帧进行显著图计算,获取各个视频帧的视觉显著图;
时空显著图获取单元,用于构造注视转移矩阵,根据所述注视转移矩阵,结合镜头播放时长及人眼视觉特性,计算得到所述视觉显著图的时空显著图;
第一排序单元,用于根据所述时空显著图中各个宏块的显著度信息,对各个宏块的编码码率的重要性进行排序;
码率控制单元,用于根据排序结果对各个宏块的编码码率进行控制。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
二维拟合曲线生成单元,用于结合人眼中央凹视觉特性、视频画面大小、视线距离确定人眼的二维拟合曲线;
加权权值生成单元,用于根据所述二维拟合曲线对所述时空显著图进行曲线拟合,得到各个宏块的显著度加权权值;
第二排序单元,用于根据所述显著度加权权值,对各个宏块的编码码率的重要性进行排序。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
斜率计算单元,用于根据主观感知与编码码率曲线关系图得到各个宏块的主观视觉感觉效果分数值,并进一步得到各个宏块的编码码率的斜率;
第三排序单元,用于根据所述编码码率的斜率、时空显著图以及二位拟合曲线,对各个宏块的编码码率的重要性进行排序。
8.如权利要求5所述的装置,其特征在于,所述码率控制单元通过优先降低显著度低区域的编码码率来对编码码率进行控制,同时,使所述显著度与所述编码码率的关系满足如下公式:
Max ( Σ k = 1 t Σ i , j ( Be ( i , j , k ) × s ( i , j , k ) ) )
s.t. Σ k = 1 t Σ i , j Be ( i , j , k ) ≤ Be max
其中,Be(i,j,k)为宏块编号为i,j的k帧视频帧编码码率,s(i,j,k)为宏块编号为i,j的k帧视频帧所对应的显著度。
CN201210455614.XA 2012-11-14 2012-11-14 一种结合视觉感知的可伸缩视频码率控制方法、装置 Active CN103458238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210455614.XA CN103458238B (zh) 2012-11-14 2012-11-14 一种结合视觉感知的可伸缩视频码率控制方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210455614.XA CN103458238B (zh) 2012-11-14 2012-11-14 一种结合视觉感知的可伸缩视频码率控制方法、装置

Publications (2)

Publication Number Publication Date
CN103458238A true CN103458238A (zh) 2013-12-18
CN103458238B CN103458238B (zh) 2016-06-15

Family

ID=49740141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210455614.XA Active CN103458238B (zh) 2012-11-14 2012-11-14 一种结合视觉感知的可伸缩视频码率控制方法、装置

Country Status (1)

Country Link
CN (1) CN103458238B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101490A (zh) * 2016-07-18 2016-11-09 北京邮电大学 基于时空显著性的视频跨尺度自适应增强方法及装置
WO2018077142A1 (zh) * 2016-10-26 2018-05-03 深圳市道通智能航空技术有限公司 全景视频的处理方法、装置及系统
CN108271021A (zh) * 2016-12-30 2018-07-10 安讯士有限公司 基于注视感测的块级更新速率控制
CN110784716A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及介质
CN113573058A (zh) * 2021-09-23 2021-10-29 康达洲际医疗器械有限公司 一种基于时空显著性融合的帧间图像编码方法
CN113923398A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 一种视频会议实现方法及装置
WO2023226504A1 (zh) * 2022-05-27 2023-11-30 腾讯科技(深圳)有限公司 一种媒体数据处理方法、装置、设备以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
CN1913631A (zh) * 2006-08-18 2007-02-14 哈尔滨工业大学 基于db2小波的可伸缩性视频编解码方法
CN101478677A (zh) * 2008-12-24 2009-07-08 西安交通大学 基于码率控制的可伸缩多描述视频编码结构设计方法
CN101572817A (zh) * 2009-05-26 2009-11-04 北京邮电大学 一种用于空间可分级视频编码的编码模式选择方法
CN102595115A (zh) * 2011-01-13 2012-07-18 深圳信息职业技术学院 一种中粒度质量可伸缩视频编码优化方法、装置及信息终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116716B2 (en) * 2002-11-01 2006-10-03 Microsoft Corporation Systems and methods for generating a motion attention model
CN1913631A (zh) * 2006-08-18 2007-02-14 哈尔滨工业大学 基于db2小波的可伸缩性视频编解码方法
CN101478677A (zh) * 2008-12-24 2009-07-08 西安交通大学 基于码率控制的可伸缩多描述视频编码结构设计方法
CN101572817A (zh) * 2009-05-26 2009-11-04 北京邮电大学 一种用于空间可分级视频编码的编码模式选择方法
CN102595115A (zh) * 2011-01-13 2012-07-18 深圳信息职业技术学院 一种中粒度质量可伸缩视频编码优化方法、装置及信息终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈旭,张基宏,柳伟,梁永生,冯纪强: "低复杂度的可伸缩视频流媒体MGS编码方案优化", 《信号处理》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106101490A (zh) * 2016-07-18 2016-11-09 北京邮电大学 基于时空显著性的视频跨尺度自适应增强方法及装置
WO2018077142A1 (zh) * 2016-10-26 2018-05-03 深圳市道通智能航空技术有限公司 全景视频的处理方法、装置及系统
CN108271021A (zh) * 2016-12-30 2018-07-10 安讯士有限公司 基于注视感测的块级更新速率控制
CN108271021B (zh) * 2016-12-30 2024-03-19 安讯士有限公司 基于注视感测的块级更新速率控制
CN110784716A (zh) * 2019-08-19 2020-02-11 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及介质
CN110784716B (zh) * 2019-08-19 2023-11-17 腾讯科技(深圳)有限公司 媒体数据处理方法、装置及介质
CN113573058A (zh) * 2021-09-23 2021-10-29 康达洲际医疗器械有限公司 一种基于时空显著性融合的帧间图像编码方法
CN113573058B (zh) * 2021-09-23 2021-11-30 康达洲际医疗器械有限公司 一种基于时空显著性融合的帧间图像编码方法
CN113923398A (zh) * 2021-09-30 2022-01-11 中国工商银行股份有限公司 一种视频会议实现方法及装置
WO2023226504A1 (zh) * 2022-05-27 2023-11-30 腾讯科技(深圳)有限公司 一种媒体数据处理方法、装置、设备以及可读存储介质

Also Published As

Publication number Publication date
CN103458238B (zh) 2016-06-15

Similar Documents

Publication Publication Date Title
CN103458238A (zh) 一种结合视觉感知的可伸缩视频码率控制方法、装置
CN110226316B (zh) 用于对虚拟现实视频执行转换及流传输的系统及方法
KR101927967B1 (ko) 다시점 비디오 데이터의 깊이맵 부호화 방법 및 장치, 복호화 방법 및 장치
Chiariotti A survey on 360-degree video: Coding, quality of experience and streaming
WO2021244341A1 (zh) 图像编码方法及装置、电子设备及计算机可读存储介质
CN102158712B (zh) 一种基于视觉的多视点视频信号编码方法
CN103597839A (zh) 实现分辨率权衡和优化的视频压缩
CN105556972A (zh) 用于层间视频解码和编码设备和方法的对深度图像的场景内预测方法
CN108200431B (zh) 一种视频编码码率控制帧层比特分配方法
CN101867816A (zh) 一种基于人眼视觉特性的立体视频非对称压缩编码方法
JP2017537539A (ja) サンプル単位予測符号化装置及びその方法
CN105227955B (zh) 超高清低延时视频码率控制方法
CN103688538A (zh) 用于重新构造并且编码视频信号的方法和装置
CN109451310A (zh) 一种基于显著性加权的率失真优化方法及装置
CN103716643A (zh) 用于使用内容信息改进视频编码的系统和方法
Liu et al. Rate control schemes for panoramic video coding
CN102420987A (zh) 基于分层b帧结构的码率控制的自适应比特分配方法
CN107483931B (zh) 一种基于显著度的hevc帧内编码深度划分快速决策方法
Yang et al. Fovr: Attention-based vr streaming through bandwidth-limited wireless networks
CN104618718A (zh) 一种基于空间-时间多预测模式的无损压缩方法与系统
CN101584220A (zh) 对视频信号进行编码的方法和系统、编码的视频信号、对视频信号进行解码的方法和系统
CN102164281A (zh) 一种基于视觉显著度模型的视频编码码率控制方法
CN102510496A (zh) 基于感兴趣区域的快速降尺寸转码方法
CN101854549B (zh) 基于空域预测的视频和图像编解码方法和装置
CN103475878A (zh) 一种视频编码方法和编码器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant