一种时空域显著性检测及融合方法
技术领域
本发明涉及视频技术领域,更具体的说是涉及一种时空域显著性检测及融合方法,该方法基于卷积神经网络和运动矢量的时空域显著性检测及融合。
背景技术
目前,随着视频压缩技术的不断发展、高品质、高实时性视频已成为发展趋势,这也促进了高清、超高清视频应用的迅速发展。目前,新一代视频编码标准HEVC(HighEfficiency Video Coding)在保留了传统视频编码的框架基础上,采纳近年来视频压缩技术研究的新成果,使其编码性能基本可以达到H.264/AVC标准的2倍。然而,这种压缩性能的提高也带来了巨大的编码复杂度,仍需要进行进一步的研究和改进。同时,随着视频分辨率和质量的提高,现代社会对视频高清度的要求也越来越高,由最初的QCIF发展至4K(分辨率为3840×2160),乃至不久后发展为8K(分辨率为7680×4320)的超高清视频,这样对视频的压缩、存储和传输都提出了更高的要求。在高清视频应用越来越普及的情况下,因为带宽受限而出现的问题给视频压缩技术带来了巨大的挑战,如何保证高质量的高清视频传输、提升人眼的主观视觉感受质量己经成为刻不容缓需要解决的问题,尤其是如何能够提高压缩效率,使人眼所关注部分的画质更加清晰、真实等至关重要。
视频压缩的编码效率是通过减少统计冗余和感知冗余来实现的。在标准的视频压缩方法中,去除统计冗余作为核心技术,包括帧内预测,帧间预测,熵编码等等,去除感知冗余的技术主要包括量化矩阵中衰减高频分量,色度亚采样,去块滤波等。然而,对于人类视觉系统(HVS)的研究发现,人类通常只能清楚地看到视角2-5°内的小区域,并且当我们在观察图像时,由于对一幅图像的各个区域的理解不同,人们会把视线集中在一些比较特殊的地方(ROI,即人眼视觉的感兴趣区域),因此眼睛的注意力并不是平均分布的,而是对ROI区域的图像失真较为敏锐,如果将视频编码方法和人类视觉系统(Human Visual System,HVS)有机结合,将可以去除更多的主观视觉感知冗余,同时提升人眼的主观视觉感知质量,并进一步提升视频压缩效果。
因此,降低视频的感知冗余从而得到较好的压缩效果是目前视频发展的新方向,需要以注意力机制为基础的视频显著性算法和感知优先的视频压缩算法这两个方面对HEVC进行改进和强化。
因此,在感知视频压缩的处理之前,如何能够准确获得视觉显著性区域或者ROI区域,是需要首先解决的关键问题。
发明内容
有鉴于此,本发明提供了一种时空域显著性检测及融合方法,基于卷积神经网络和运动矢量的时空域显著性检测及融合,可有效结合时空域信息得到较准确的时空显著图,为后续视频压缩提供了有力的保障。
为了实现上述目的,本发明采用如下技术方案:
本发明提供一种时空域显著性检测及融合方法,包括:
输入原始视频帧,根据卷积神经网络对输入视频帧进行空域显著性检测,生成空域显著性检测结果;
根据HEVC压缩过程中帧间预测过程得到的运动矢量,生成时域部分的运动显著性结果;
将所述空域显著性检测结果和所述时域部分的运动显著性结果,采用熵不确定度算法进行融合。
进一步地,所述卷积神经网络结构,包括:
(1)卷积层:经过卷积操作后得到表示图像局部特征的特征图,每个卷积层后加一个修正线性单元;
(2)局部响应归一化层:对神经网络中间层的输出进行了平滑,输出如下:
其中(x,y)表示像素位置,i表示通道索引,N为通道数,α,β,k,n均为自定义常数;l表示在第l个局部响应归一化层;。
(3)最大池化层:最大池化层用于提取局部相近的语义信息,该过程通过一个N×N的滑动窗口操作,其中窗口移动步长为N,通过计算原图像的局部被窗口所包含区域的最大值作为新的特征图对应位置的像素值;
(4)反卷积层:实现将小尺寸的特征图尺寸缩放为原图像的大小,得到最终输出。
进一步地,根据卷积神经网络对输入视频帧进行空域显著性检测,生成空域显著性检测结果,包括:
将所述卷积神经网络训练完成后,对输入的所述原始视频帧图像进行前向传播,得到最终的空域显著性图。
进一步地,根据HEVC压缩过程中帧间预测过程得到的运动矢量,生成时域部分的运动显著性结果,包括:
从视频压缩域提取运动信息,利用HEVC中进行浅层解码的过程,得到视频帧中预测单元PU的运动矢量信息;
将所述运动矢量信息的大小作为块运动的剧烈程度重组成时域运动特征图。
进一步地,根据所述时域运动特征图,采用全局运动估计算法,采用透视模型得到视频中的全局运动信息,该过程可以表述为:
式中(x,y)和(x′,y′)分别是当前帧和参考帧的对应像素点,参数集m=[m0,...,m7]代表需要估计的全局运动参数;
使用梯度下降法对该模型求解,计算可得代表摄像机运动信息的全局运动,由原始运动减去全局运动,得到相对于背景的前景运动;
根据显示运动速度的感知先验分布幂函数:
(1.4)式中,v表示运动速度;k和α表示常数;
根据其自信息计算运动的时间显著性,计算公式如下:
S(t)=-logp(v)=αlogv+β (1.5)
其中β=-logk并且α和β分别为0.2,0.09;最后将其归一化到[0,1],得到时域显著性图。
进一步地,将所述空域显著性检测结果和所述时域部分的运动显著性结果,采用熵不确定度算法进行融合,包括:
将计算得到所述空域显著性图和所述时域显著性图合并,获得整体的时空显著性图,使用下式计算融合后显著图:
式中,U(t)表示时域的感知不确定度;U(s)表示空域显著性的不确定度;S(t)表示运动的时间显著性;S(S)表示当前帧的空域显著性。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种时空域显著性检测及融合方法,利用卷积神经网络对输入视频帧进行空域显著性检测,同时根据HEVC压缩过程中帧间预测过程得到的运动矢量,生成时域部分的运动显著性结果,采用熵不确定度的方法对时空域显著性进行融合,从而得到针对视频的时空域显著性结果;该方法可有效结合时空域信息得到较准确的时空显著图,为后续视频压缩提供了有力的保障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种时空域显著性检测及融合方法的流程图。
图2附图为本发明提供的视频时空显著性检测及针对高清视频的感知压缩过程的整体实现框图。
图3附图为本发明提供的卷积神经网络的结构示意图。
图4a附图为本发明提供的空域显著性效果示例的原始画面图。
图4b附图为本发明提供的空域显著性效果示例的模型计算所得空域显著性图。
图5附图为本发明提供的运动矢量示意图。
图6a附图为本发明提供的时域显著性效果示例的原始画面图。
图6b附图为本发明提供的时域显著性效果示例的模型计算所得时域显著性图。
图7附图为本发明提供的时空融合效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
视觉显著性检测大体分为人眼注视点预测和显著物体检测两类。人眼注视点预测旨在建模图像或视频中的每一个像素或者像素块对人眼的刺激程度,而显著物体检测旨在发现图像或者视频中的显著物体,将图像的前景和背景进行分离。感知视频压缩主要通过使用人眼注视点预测的显著性来进行。
早期的视觉注意力模型使用了仿生和信息理论的思想。这些模型大都使用了人类的先验知识,从低层特征开始自底向上地分析或是由高层知识自顶向下地分析,给出图像视觉显著度分布。Itti模型是最早出现的一批视觉注意力计算模型,它将不同尺度下的颜色和方向特征结合起来计算局部显著性。虽然Itti模型能够分辨视觉上比较突出的像素,但是它给出的结果比较模糊而且混杂着大量的非显著像素。以Itti模型为基础,等人采用更好的显著差异度量方法设计了一种基于图论的显著性预测模型。Gao等人使用中心周围判别式来预测显著性,Hou等人采用谱残差法检测视觉显著性,显著图通过对图像进行傅里叶变换(FT)计算对数谱获得。近年来,随着深度学习技术的发展,大量的基于深度学习的显著性检测方法相继产生。
其主要方法是通过建立浅层或者深层的神经网络,以原始的图像作为输入,眼动追踪实验得到的真实显著性图作为输出来对神经网络进行训练,让其损失函数收敛到极小值得到网络的参数,其检测精度高于传统的方法,不断刷新MIT saliency benchmark的排名。
以上所提及的均是静止图像的显著性检测。相比于静止图像而言,视频显著性检测是一个具有挑战性的难题,其难点在于处理视频中的时域和运动信息。
本发明实施例公开了一种时空域显著性检测及融合方法,基于卷积神经网络和运动矢量的时空域显著性检测及融合算法,参照图1所示,包括
S101~S103;
S101、输入原始视频帧,根据卷积神经网络对输入视频帧进行空域显著性检测,生成空域显著性检测结果;
S102、根据HEVC压缩过程中帧间预测过程得到的运动矢量,生成时域部分的运动显著性结果;
S103、将所述空域显著性检测结果和所述时域部分的运动显著性结果,采用熵不确定度算法进行融合。
其中,步骤S101中,输入原始视频帧,整体实现框图如图2所示,是利用卷积神经网络对输入视频帧进行空域显著性检测,同时根据HEVC压缩过程中帧间预测过程得到的运动矢量,生成时域部分的运动显著性结果,采用熵不确定度的方法对时空域显著性进行融合,从而得到针对视频的时空域显著性结果。为后续视频压缩提供了有力的保障。在视频编码部分,可对HEVC标准算法进行优化。
其中,对压缩部分的改进目标是结合所提出的时空显著性优化压缩后视频的感知质量,即在获得了视频视觉显著性后,给予这些显著区域(统计意义上人们更倾向于关注的区域)更好的压缩质量,并且在不出现过分失真的前提下可以适当降低非显著区域的压缩质量以便降低视频码率。另外从率失真优化的核心思想出发,根据基于显著性加权的率失真优化算法,可以有效提高视频压缩的感知质量。
下面分别对上述步骤做详细说明:
1.1基于卷积神经网络的空域显著性
视频的空域显著性可以等效为每一帧视频图像的图像显著性,图像的视觉注意机制主要分为两类:自下而上机制和自上而下机制。自下而上机制是数据驱动的,主要通过图像中的一些底层特征进行;自上而下的机制是任务驱动的,通过一些先验知识和语义特征进行显著性预测。目前,随着深度学习技术的发展,大量的基于深度学习的显著性检测方法相继产生,其中基于卷积神经网络的图像显著性算法取得了很好的效果。在国际ImageNet标准数据集中,许多成功的模型都是基于CNN的,与传统方法相比,CNN可以直接输入原始图像,从而避免对图像进行复杂的预处理。
本文的空域显著性部分采用了一种多层卷积神经网络模型,该网络包含10个有参数的层,共有2580万个参数。每个卷积层后加一个修正线性单元(ReLU),前两个卷积层后面紧跟池化层,并且在最后加入一个反卷积层保证输出的显著性图的尺寸与输入匹配。
该卷积神经网络的结构如图3所示。
该网络各层的结构和功能如下:
(1)卷积层:由于图像的像素间的空间联系是局部的,只考虑像素的局部信息比考虑全局信息的复杂度低很多,经过卷积操作后可得到表示图像局部特征的特征图,在每次卷积操作之后,一般会跟随一个RectifiedLinearUnit(ReLU),该激活函数计算速度快,并且能有效缓解梯度消失问题。
(2)局部响应归一化层:该层相当于对神经网络中间层的输出进行了平滑,有利于提高模型的泛化能力。该层的输出如下:
其中(x,y)表示像素位置,i表示通道索引,N为通道数,α,β,k,n均为自定义常数;l表示在第l个局部响应归一化层;j表示通道索引;j是根据i和n的大小决定的一个通道索引,公式中分母里面的求和符号下标即为j的确定公式。
(3)最大池化层:最大池化层可提取局部相近的语义信息,该过程通过一个N×N的滑动窗口操作,其中窗口移动步长为N,通过计算原图像的局部被窗口所包含区域的最大值作为新的特征图对应位置的像素值。池化操作可以减少输出的大小,进而降低了过拟合。
(4)反卷积层:实现将小尺寸的特征图尺寸缩放为原图像的大小,得到最终输出。
比如将该上述网络在包含9000张图片的SALICON数据集上进行训练,即可得到本发明所使用的空域显著性网络。
通过训练好的网络模型,对输入的三通道图像进行前向传播,即可得到最终的空域显著性图,如图4a-4b所示,该网络能有效计算画面中的显著性区域。
1.2基于运动矢量的时域显著性
视频的时域特征也是视频显著性重要的组成部分,现有的运动估计方法精度较高的是使用光流法估计视频帧中每个像素的运动,该方法需要耗费大量的计算资源且速度较慢。本文从降低算法复杂度同时保证较高准确度的角度考虑,采用基于块的运动估计方法,考虑到标准HEVC方法在对视频进行压缩时,对PU进行帧间预测,从参考帧寻找最佳匹配的PU,使得该PU的率失真代价最低。本文直接从视频压缩域提取运动信息,利用HEVC中进行浅层解码的过程,得到视频帧中预测单元PU的运动矢量信息,然后将运动矢量的大小作为块运动的剧烈程度重组成时域运动特征图。
参照图5即为视频帧的运动矢量示意图,但是由上述过程所得到的时域运动特征图包含了视频帧中的全部运动,而实验表明,对人眼刺激较为明显的是前景物体相对于背景物体的运动,因此,进一步地,本发明采用全局运动估计算法,采用透视模型得到视频中的全局运动信息,该过程可以表述为:
(1.2)和(1.3)式中(x,y)和(x′,y′)分别是当前帧和参考帧的对应像素点,参数集m=[m0,...,m7]代表需要估计的全局运动参数,可使用梯度下降法对该模型求解,计算可得代表摄像机运动信息的全局运动,由原始运动减去全局运动即可得到相对于背景的前景运动。
Stocker等人已经通过一系列心理视觉实验测量了人类关于运动物体感知的先验概率,实验结果显示运动速度的感知先验分布可以通过以下幂函数计算:
其中v是运动速度,k和α表示常数;那么就可以利用其自信息计算运动的时间显著性,计算公式如下:
S(t)=-logp(v)=αlogv+β (1.5)
其中β=-logk并且α和β分别为0.2,0.09;最后将其归一化到[0,1]即可得到时域显著性图,如图6a中所示,图像是视频BasketballDrive中的一帧画面,该视频中摄像机根据人物和篮球的剧烈运动进行频繁的平移旋转等操作,该图像是在摄像机进行平移时截取的;图6a图像显示了本发明所提算法计算得到的时域显著性图,由于算法中的运动信息来自于HEVC编码过程中各块的运动矢量,所以运动检测结果不可避免地会出现块状结构,但仍能看出全局运动被很好地消除,并且凸显出前景物体中较为显著的运动区域。
1.3基于熵不确定度的时空显著性融合
常见的时空显著图融合方法是寻找合适的参数将两者进行线性加权融合,这种方法需要进行大量实验来调整并确定权重,并且不具一般性和合理性。Fang等人提出了一种基于熵不确定性图的显著性融合方法,通过分别计算时空显著性图的局部不确定度,实现时域显著性和空域显著性的动态融合,取得良好的效果。本发明根据此方法提出改良算法对前文所取得的时空显著性进行融合。
1.3.1空域显著性不确定度估计
本发明提出的方法依赖格式塔理论,其中接近定律表明相互接近的元素倾向于被认为是一个整体,连接定律表明彼此连接的元素倾向于被认为是一个整体。将该理论延伸到视觉显著性,可得到以下原则:首先,距离最集中的显著区域越近的区域,是显著性区域的可能性也比较高;其次,一个空间区域连接的显著区域越多,该区域更可能是一个显著区域。这些原则也符合对显著性数据库的经验统计。该理论在显著性上的应用来源于二值真实显著性图,本文在空间灰度显著性图上对该理论进行扩展,具体操作如下:
首先对于给定的图片和它对应的显著性图SS,它的显著图的中心位置可以用下式计算:
其中RSs表示所有显著像素的集合,M表示显著性图中像素的总数,然后计算显著性图中任意位置到计算得到的显著性中心的空间距离d,构建一个d的函数作为该像素是显著像素的概率统计:
该函数模型通过对二值显著性图进行统计,得到距离d的显著性像素所占据的百分比,再进行实验拟合得到,其中P(s|d)表示一个像素是显著像素的可能性,α1,β1,γ1是模型的拟合参数。以这个模型为基础,可以计算概率熵来量化感知不确定性水平:
U(d)=Hb(P(s|d))=-P(s|d)log2P(s|d)-(1-P(s|d))log2(1-P(s|d)) (1.9)
同时,由连续性准则可知,像素间的关联性也会对该像素显著性的概率产生影响。在本发明中,利用下式计算每个像素的连接性:
其中RN代表当前像素与当前像素相接的邻域像素集合,可以通过下式继续计算当前像素为显著性像素的可能性:
其中P(s|c)代表在计算得到的连接性下当前像素是显著像素的可能性,同理,可以计算其感知不确定度:
U(c)=Hb(P(s|c)) (1.12)
最后,假设接近性准则与连续性准则相互独立,每个像素的空域显著性的不确定度可根据下式计算:
U(s)=U(d)+U(c) (1.13)
1.3.2时域显著性不确定度估计
空域不确定度的计算与时域不同,计算过程中要更多的考虑场景中的物体运动,研究表明,当一个视频中背景运动比较大时,视觉系统识别场景中运动物体的精确度会随着局部对比度的增加而降低。具体而言,假设人眼在观看视频时,受到的视觉刺激速度为vs,则用条件概率表示为:
其中,vm是人眼在受到真实运动速度vs刺激下所感知到的速度,σ决定了感知不确定度的水平,与vs无关,只与图像的局部对比度q有关,计算公式如下:
其中λ和γ均为正常数,γ为2.5,λ满足并且δ为2.25。
初始局部对比度q′根据图像局部块的标准差和均值进行计算:
其中,σp和μp分别为局部图像块的标准差和均值,μ0为一常数,此处设置为6,防止上式中的分母过小,在0附近出现不稳定。同时考虑到小对比度值和大对比度值下的对比度响应饱和效应,通过下式进行最终的对比度计算:
其中θ是控制位置的常数参数,设置为0.05。由于时域部分中感知不确定度与全局运动速度相互联系,可用背景速度vg替代vs,可以用下式计算时域的感知不确定度:
其中U(t)表示时域的感知不确定度;P(vm|vg)表示幂函数;-logp(vm|vg)表示运动时间显著性值;vm是人眼在受到真实运动速度vs刺激下所感知到的速度;vg表示背景速度;γ和δ均为常数;q为局部对比度。
1.3.3时空不确定度加权
最终,将计算得到的空域和时域显著性图合并,从而获得整体的时空显著性图,根据上述算法,不确定度越低,其权重应该越高,因此使用下式计算融合后显著图的计算方法:
本发明提出的这种融合规则会随着时域和空域不确定度的变化进行动态的调整,该方法与传统的固定参数的融合方法相比更为灵活,更满足对于视频的检测需求,如图7所示,(a为原始画面,b为时域显著性图,c为时域不确定图,d为空域显著性图,e为空域不确定图,f为不确定加权后的最终显著图)对于时空的特征进行有效融合,并且强化不确定度较低区域的检测结果,融合后的时空不确定图能够较好地反映人眼的显著注视区域。
为了更好的评估该算法的检测结果,本发明可选取五个评估指标比较检测结果和实际注视数据的差异,同时,将该算法与同类算法(比如SAVC算法)进行比较。
实验选取10个来自3个不同分辨率的视频序列进行检测,视频信息如表1所示:
表1实验所用视频序列信息
利用国际上主流的六种对显著性模型的评估策略(AUC、SIM、CC、NSS、KL)对三种算法进行评估,其中AUC值越接近1说明对图像显著部分的预测越准确,SIM是衡量两个分布相似程度的一个度量,CC是用来测量显著图和注视图之间的线性关系的一种对称指标,NSS是评估固定位置的平均归一化显著性,以上四个指标均是越大越好,KL则是利用一种概率解释来评估显著度和注视图,其值评估了显著图的信息丢失,相反的,KL指标的数值越低越好。显著性检测结果如表2所示。
表2时空显著性检测结果
表2显著性检测评估结果由以上数据可以看出本发明算法在结合HEVC压缩域信息的三种显著性检测算法中综合效果最好,这是由于本发明算法在结合HEVC中运动矢量的基础上,空域部分采用准确度较高的卷积神经网络,并且根据人眼特性进行熵不确定度计算,时域和空域的融合过程充分考虑格式塔理论。SAVC算法是基于H.264进行检测,H.264因为基于传统的宏块进行编码,其大小固定,局限性较大,不如HEVC中的编码树单元灵活,因此检测效果不够准确。Xu算法虽然采用HEVC中各项特征,同时也引入了学习机制,弥补了检测结果和眼动数据的部分差异,但是由于其所有特征均基于HEVC的编码信息,因此在画面复杂时容易受到干扰,导致检测范围较大,难以突出显著区域,但是该算法检测过程中不需要完全解码视频,因此该算法在直接对视频码流进行检测时具有优势。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。