CN102929970A

CN102929970A - 基于时域视觉关注的视频拷贝检测方法

Info

Publication number: CN102929970A
Application number: CN2012103896924A
Authority: CN
Inventors: 孙建德; 柳晓翠; 张丽坤
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2012-10-15
Filing date: 2012-10-15
Publication date: 2013-02-13

Abstract

本发明提出一种基于时域视觉关注的视频拷贝检测方法。先根据视觉注意机制得到不同视频帧之间视觉关注的变化，并得出时域关注度的表示，再根据时域关注度计算一个视频片段内的视频帧的时域关注权重，由此形成视频片段的视觉关注转移图像，最后在生成的带有时域和空域信息的视觉关注转移图像上提取视频哈希。本发明的方法充分考虑视频的时域信息，不仅能够将突出视频内容的视频帧重点加权，而且提取的特征综合了时域和空域的信息，对时域攻击有很好的鲁棒性。

Description

基于时域视觉关注的视频拷贝检测方法

技术领域

本发明涉及一种基于时域视觉关注的视频拷贝检测方法，属于基于内容的视频检索技术领域。

背景技术

随着多媒体技术的发展,每天都有成千上万的数字视频产生和发布。利用数字处理工具,视频可以被转换成各种不同的版本。因此,如何快速而有效地从大量视频中找出数字视频的拷贝成为亟待解决的问题。除版权保护外，拷贝检测还可应用于视频搜索结果的去冗余、有害内容视频的过滤等方面，具有巨大的市场应用需求和广阔的应用前景。基于内容的视频拷贝检测技术正是在这种情况下产生的，并且成为近年来的研究热点。目前很多的拷贝检测技术是在视频的空域特征上进行检测的，却忽略了视频的最大特点：时域信息。因此，研究者开始考虑利用特征的时域变化来表征视频的时域信息再进行视频拷贝检测。

现有方法一般对时域上的信息考虑方式比较简单，在生成时域信息代表图像时，采用的帧加权权重w_k一般是常量1、线性k或者指数γ^k等。这几种形式都是根据实验得到的，没有系统的理论支持。并且，这类方法没有突出视频时域上的内容变化，不能将突出视频内容的信息有效提取出来，对时域上的攻击缺乏鲁棒性。本发明的方法不仅能够将突出视频内容的视频帧重点加权，而且提取的特征综合了时域和空域的信息，对时域攻击有很好的鲁棒性。

发明内容

针对已有方法对时域信息考虑不足的问题，本发明提供了一种融合视频的时域信息和空域信息，突出视频内容在时域上变化的特点，并且在鲁棒性和区分性上性能较好的拷贝检测方法。

本发明的基于时域视觉关注的视频拷贝检测方法，先根据视觉注意机制得到不同视频帧之间视觉关注的变化，并得出时域关注度的表示，再根据时域关注度计算一个视频片段内的视频帧的时域关注权重，由此形成视频片段的视觉关注转移图像，最后在生成的带有时域和空域信息的视觉关注转移图像上提取视频哈希，通过形成的视频哈希进行视频拷贝检测，具体包括以下步骤：

（1）建立视频的视觉关注模型：根据视觉注意机制，分别建立视频帧的静态关注模型和动态关注模型，然后将两者融合成最终的视觉关注模型；

（2）生成视觉关注节奏曲线：根据生成的视觉关注模型，计算视频帧的视觉关注转移，由此形成视觉关注节奏曲线；

（3）生成视觉关注转移图像：根据视觉关注节奏曲线的强度变化计算时域权重，然后将视频片段合成视觉关注转移图像；

（4）视频哈希提取：在生成的视觉关注转移图像上提取空域上的特征，形成视频哈希；

（5）拷贝检测：对待检测视频和参考视频分别按照上述方法提取哈希并进行哈希对比，确定待检测视频是否为参考视频的拷贝。

上述步骤（1）的具体实现步骤为：

a.对视频帧进行多尺度变换后提取其局部对照特征，生成相应的特征图，然后线性结合各个特征图，形成最终的显著图；

b.采用基于块的LK光流算法得到视频各帧的光流，然后利用混合高斯背景建模的方法消除检测过程中可能出现的阴影问题，并得到每帧的运动前景，对光流和运动前景进行膨胀和腐蚀运算后归一化形成最终的动态关注模型；

c.通过权重加权将静态关注模型和动态关注模型融合成最终的视觉关注模型。

上述步骤（2）的具体实现步骤为：

a.将每个视频帧的最终视觉显著图分成无重叠的大小为8*8的块,计算每块的均值，并找出均值最大的块，以这个块为中心，通过区域扩展形成一个最优的矩形区域作为视觉关注区域；

b.将第一个视觉关注区域置零后，在视觉显著图的剩余区域中，用同样的方法找到第二个视觉关注区域；

c.判断相邻两帧之间是否发生视觉关注转移，判断方法为：若从前后两帧中选出来的关注区域发生变化，或者前后两帧中选出来的关注区域没有变化但两个受关注区域的均值之间的大小关系在前后两帧中发生变化，则表明视觉关注发生转移；

d.计算视觉转移量，由此得到视觉关注节奏曲线，视觉转移量是指视觉转移之前，视觉关注保持在某一关注区域的时间，用视频中没有视觉转移发生的这段时间内视频的帧数来表示。

上述步骤（3）的具体实现步骤为：

a.在一个视频片段内，视觉关注节奏曲线的幅度为零的视频帧的权重都是相同的；

b.视觉关注节奏曲线的幅度非零的视频帧的权重根据其幅度的大小计算，幅度较大的视频帧的权重较大，幅度较小的视频帧的权重较小；

c.视频帧的权重生成后，将此片段内的所有帧进行加权叠加生成视觉关注转移图像。上述步骤（4）的具体实现步骤为：

a.先将代表图像进行分块，并根据特定规律分配块的序号，计算各分块的强度；

b.根据相邻块之间的强度差异得到视频哈希。

优选地，块的序号按照从左到右、从上到下的顺序或者希尔伯特曲线的顺序进行分配。

优选地，各分块的强度是灰度和、灰度平均值、灰度中值的其中一种。

上述步骤（5）的具体实现步骤为：

a.对待检测视频和参考视频分别得到视频哈希，生成衡量哈希匹配准确性的比特误码率；

b.设置一个阈值T来决定待检测视频是否为参考视频的拷贝视频，如果比特误码率高于阈值T，则待检测视频不是拷贝视频，反之亦然。

本发明将被用于基于内容的视频拷贝检测中，这样的哈希提取方法着眼于人眼对视频时域上内容变化的关注程度，根据这个关注的程度决定在哈希提取过程中重点突出哪些视频帧的内容。

本发明将被用于基于内容的视频检索的镜头分割中，这样的分割方法着眼于采用低维特征进行视频分析，在进行完视频分割之后，也可以对后续的视频摘要、视频检索等提供有效的参考。

附图说明

图1是本发明的框架；

图2是视觉关注转移流程图；

图3是视频“hall”的视觉关注曲线；

图4是本发明方法与没有时域加权方法的比特错误率的查全查准率的比较；

图5是本发明方法与Wang的时域加权方法的比特错误率的查全查准率的比较。

具体实施方式

实验中采用了包括纪录片、新闻、体育、动画等在内的视频，并采用直方图均衡化、高斯噪声、对比度变化、随机帧交换、丢帧、随机帧加高斯噪声等在内的视频攻击。

图1给出了本发明方法的框架图，按所示流程，包括如下具体步骤：

（1）建立视频的视觉关注模型。

a.对视频帧的静态关注模型的建立，我们首先对视频帧进行多尺度变换，接着提取颜色、亮度、纹理等局部对照特征。根据不同尺度上的局部对照图生成相对应的特征图，然后将全局归一化的特征图通过线性结合形成最终的显著图，即S_sm。

b.采用基于块的LK光流算法得到视频各帧的光流LK_motion，然后利用混合高斯背景建模的方法消除检测过程中可能出现的阴影问题，并得到每帧的运动前景G_fg。对光流LK_motion和运动前景G_fg进行膨胀和腐蚀运算后归一化形成最终的动态关注模型T_sm,如下：

T＝dilatation(LK_motion,G_fg)（1）

T_sm＝erosion(T)（2）

其中dilatation是膨胀运算，erosion是腐蚀运算。

c.静态关注模型和动态关注模型融合成最终的视觉关注模型。在两者融合的过程中，由于人眼对动态的目标更关注，因此对两者采用不同的权重。如下所示：

w_T＝T_sm'×exp(1-T_sm′)（3）

w_S＝1-w_T（4）

其中，w_T和w_S分别是动态关注模型和静态关注模型的权重。公式（3）中的T_sm′表示动态模型的最大值与其平均值的差值，如下式所示：

T_sm'＝Max(T_sm)-Mean(T_sm)（5）

其中，Max(T_sm)是T_sm的最大值，Mean(T_sm)是T_sm的平均值。

（2）视觉关注节奏曲线。根据生成的视觉关注模型，计算视频帧的视觉关注转移，由此形成视觉关注节奏曲线。

a.将每个视频帧的最终视觉显著图分成无重叠的大小为8*8的块。计算每块的均值，并找出均值最大的块。本发明中图像块的受关注程度通过图像块的平均灰度值体现，均值越大，受关注程度越大。找到均值最大的块后，以这个块为中心，通过区域扩展形成一个最优的矩形区域作为视觉关注区域。这个最优的矩形区域必须面积最小且局部平均像素值最大。通过这样的方法得到第一个视觉受关注区域。用同样的方法找到第二个视觉关注区域。

b.计算选出的两个受关注区域的均值，以受关注区域或其均值的变化来表征视觉关注的转移。具体来说，若从前后两帧中选出来的关注区域发生变化，则表明视觉关注发生转移；或者，若前后两帧中选出来的关注区域没有变化，但两个受关注区域之间的均值大小关系在前后两帧中发生变化时，也表明视觉关注发生转移，用公式表示为：

用av₁(i)和av₂(i)表示第i帧选出的两个受关注区域的均值，那么，当av₁(i)＞av₂(i)&av₂(i+1)＞av₁(i+1)或者av₂(i)＞av₁(i)&av₁(i+1)＞av₂(i+1)时，表示在第i帧时刻发生了视觉转移。

c.我们定义视觉转移量来表示视觉转移程度的大小。视觉转移量是指视觉转移之前，视觉关注保持在某一关注区域的时间，它可以用视频中没有视觉转移发生的这段时间内视频的帧数来表示：

δ_{t} (i) = {&Integral;}_{0}^{T} dt, T &Element; N - - - (6)

其中，T是没有视觉转移发生的一段时间内出现的视频帧数，N是正整数或零，δ_t(i)为第i帧出现时刻的视觉转移量。

视频当前帧选出的两个关注区域的均值与前一帧选出的两个关注区域的均值相比没有发生变化时，视觉转移量为零，若发生变化，视觉转移量累加，以此获得视觉关注节奏曲线。图3展示了视频“hall”的视觉关注节奏曲线。

（3）视觉关注转移图像。

时域权重w_k的计算方法如下：

w_{k} = \{\begin{matrix} \frac{0.5}{N (δ_{t} = 0)}, & A_{k} = 0 \\ \frac{0.5 * A_{k}}{Σ_{k = 0}^{J} A_{k}}, & A_{k} &NotEqual; 0 \end{matrix} - - - (7)

其中，N(δ_t＝0)表示在包含J帧视频片段中，视觉转移量为0的帧数0。A_k表示在J帧视频片段中第k帧的视觉转移量的绝对值。

对于视觉转移量为零的帧，采用相同的权重，而视觉转移量非零时的权重与视觉转移量的绝对值相关。

因此，视觉关注转移图像F(m,n)生成如下：

F (m, n) = Σ_{k = 1}^{J} w_{k} F (m, n, k) - - - (8)

其中F(m,n,k)是在包含J帧视频片段中第k帧的(m,n)位置的像素的亮度值。

（4）视频哈希提取。在生成的视觉关注转移图像上提取空域上的特征，形成视频哈希。

a.先将代表图像进行分块，并根据希尔伯特曲线分配块的序号，计算分块的强度，然后根据相邻块之间的强度差异得到视频哈希。故第n个视频片段的哈希生成如下：

H_{n}^{k} = \{\begin{matrix} 0 & V_{n}^{k} &GreaterEqual; V_{n}^{k + 1} \\ 1 & V_{n}^{k} < V_{n}^{k + 1} \end{matrix} - - - (9)

其中

表示第n个代表图像中第k个分块的强度。

（5）拷贝检测。对待检测视频和参考视频分别计算视频哈希，然后进行拷贝检测。

a.使用比特误码率BER衡量哈希提取和匹配的准确性。

BER = \frac{1}{N} Σ_{n = 1}^{N} Σ_{k = 1}^{16} (H_{n}^{k} &CirclePlus; H_{n}^{' k}) - - - (10)

这里，

和分别是参考视频和查询视频的第n个片段中第k个哈希比特。是异或运算。N是视频片段的个数。

b.通常设置一个阈值T来决定实验的视频是否为拷贝视频。如果BER高于阈值T，则实验视频不是拷贝视频，反之亦然。

从图4和图5中可以看出，采用本发明方法所得到的查全率明显高于无时域加权的方法以及Wang的时域加权方法（Jing Wang,Jiande Sun,Ju Liu,Xiushan Nie,Hua Yan,A VisualSaliency Based Video Hashing Algorithm,ICIP 2012,645-648.）所得到的查全率。

Claims

1.一种基于时域视觉关注的视频拷贝检测方法，先根据视觉注意机制得到不同视频帧之间视觉关注的变化，并得出时域关注度的表示，再根据时域关注度计算一个视频片段内的视频帧的时域关注权重，由此形成视频片段的视觉关注转移图像，最后在生成的带有时域和空域信息的视觉关注转移图像上提取视频哈希，通过形成的视频哈希进行视频拷贝检测，具体包括以下步骤：

2.根据权利要求1所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：步骤（1）的具体实现步骤为：

3.根据权利要求1所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：步骤（2）的具体实现步骤为：

4.根据权利要求1所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：步骤（3）的具体实现步骤为：

c.视频帧的权重生成后，将此片段内的所有帧进行加权生成视觉关注转移图像。

5.根据权利要求1所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：步骤（4）的具体实现步骤为：

b.根据相邻块之间的强度差异得到视频哈希。

6.根据权利要求5所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：块的序号按照从左到右、从上到下的顺序或者希尔伯特曲线的顺序进行分配。

7.根据权利要求5所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：各分块的强度是灰度和、灰度平均值、灰度中值的其中一种。

8.根据权利要求1所述的基于时域视觉关注的视频拷贝检测方法，其特征在于：步骤（5）的具体实现步骤为：