CN110889011B

CN110889011B - 一种视频指纹方法

Info

Publication number: CN110889011B
Application number: CN201911203905.8A
Authority: CN
Inventors: 李宏元; 吴奕刚; 孙彦龙
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-07-26
Anticipated expiration: 2039-11-29
Also published as: CN110889011A

Abstract

本发明公开了一种视频指纹方法。它具体包括如下步骤：对视频在时间轴上重取样；将视频的每帧图像转换为灰度图，再进行去黑边处理，之后缩放至规定的大小；统计各帧图像的特征数据；考察每幅图的亮度变化，对每帧图片都提取此类特征数据；再考察相邻图像帧特征数据之变化，获得64位布尔值组成的整数就可作为当前图像帧的指纹编码；按上述方式连续取帧，沿着时间轴滑动取样，形成的一串指纹序列作为整个视频的特征指纹；指纹之距离计算采用汉明距；若某视频A的特征指纹全部或部分片段与另一视频B的部分指纹高度相似，即可断定视频A或A的片段在视频B中出现。本发明的有益效果是：运算量小，稳定性较高。

Description

一种视频指纹方法

技术领域

本发明涉及视频处理相关技术领域，尤其是指一种视频指纹方法。

背景技术

随着计算机技术与网络技术的飞速发展，多媒体尤其是视频数据量急剧增长。海量视频的呈现，视频的检索与保护的重要性日益突出。由于视频的数据与信息量巨大，许多公司和厂家采用视频指纹技术。目前，有各种不同的视频指纹方案出现，以应对不同的应用场景。但这些指纹方案往往由于其复杂性和大运算量，或者因为对抗噪声、尺度变换等攻击的鲁棒性不够而使应用受到限制。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种运算量小且稳定性高的视频指纹方法。

为了实现上述目的，本发明采用以下技术方案：

一种视频指纹方法，具体包括如下步骤：

(1)对视频在时间轴上重取样，即采用固定的帧率；

(2)将视频的每帧图像转换为灰度图，再进行去黑边处理，之后缩放至规定的大小；

(3)统计各帧图像的特征数据，采用分块亮度，具体操作是将整幅图像划分为8x8的分块，顺序排列，共64块，统计累加各个块内各点的灰度值；

(4)考察每幅图内64个分块之间的亮度变化，这样能获得一个元素个数为64的一维数组，此数组可作为视频图像在空间上的特征，对每帧图片都提取此类特征数据；

(5)再考察相邻图像帧特征数据之变化，即视频在时间域的变化，以RASTA滤波器处理，获得64位布尔值组成的整数就可作为当前图像帧的指纹编码；

(6)按上述方式连续取帧，沿着时间轴滑动取样，每次滑动一帧就可获得一个指纹编码，这样形成的一串指纹序列，可作为整个视频的特征指纹；

(7)指纹之距离计算采用汉明距；

(8)对于两个指纹长度相同的视频，其差异可以使用所有对应指纹距离的平均值来度量；

(9)若某视频A的特征指纹全部或部分片段与另一视频B的部分指纹高度相似，即可断定视频A或A的片段在视频B中出现。

本申请提供了一种视频文件的指纹方案，可用于建立视频文件的索引，可用于视频文件的搜索和盗版检测等。本申请的指纹方案不仅体现了视频图像在二维空间上的特征，也兼顾了视频在时间域的变化，而且运算量小，稳定性较高，对于二维拉伸、缩放、亮度改变或饱和度及马赛克等攻击有很强的抵抗能力，也能抵抗小幅度的旋转，特别适于盗版检测的视频搜索与比对。

作为优选，在步骤(3)中，特征数据可以是图像经过傅里叶变换后的各个频组能量，也可以是亮度直方图数据。

作为优选，在步骤(4)中，相邻块之间的亮度差值反应较高频率的变化，而人眼感知的变化往往集中于低频段，故可统计距离较远的分块之间的差值。

作为优选，在步骤(5)中，采用四阶RASTA滤波，即取连续的四帧，相当于160毫秒的跨度，共64组个数为4的特征数据序列，具体操作方式如下：

把图像帧k划分为平均大小的8x8共64个分块，顺序编号为0～63.各个分块的亮度记为B[0],B[1],B[2],...,B[61],B[62],B[63]，检查如下两行对应分块的亮度差：

B[0],B[1],B[2],...,B[34],B[35],B[36],B[37],B[38],B[39],...,B[61],B[62],B[63]

B[27],B[28],B[29],...,B[61],B[62],B[63],B[0],B[1],B[2],...,B[24],B[25],B[26]

分别计算B[0]与B[27]、B[1]与B[28]，直至B[63]与B[26]的差值，这样就有64个差值，组成一个元素个数为64的一维数组：

{x[k,0],x[k,1],x[k,2],...,x[k,61],x[k,62],x[k,63]}

考察某视频连续的帧序列，从第一帧开始直到第n+1帧，一共可以获得n+1组类似上述的一维数组；为表示分别，第一个下标为帧序号，第二个下标为分块序号，列式如下：

{x[0,0],x[0,1],x[0,2],...,x[0,61],x[0,62],x[0,63]}

{x[1,0],x[1,1],x[1,2],...,x[1,61],x[1,62],x[1,63]}

{x[2,0],x[2,1],x[2,2],...,x[2,61],x[2,62],x[2,63]}

{x[n,0],x[n,1],x[n,2],...,x[n,61],x[n,62],x[n,63]}

上述数组共64列，作为对应的64个RASTA滤波器的输入，则可获得64个输出，迭代公式为：

y[k,i]＝0.94*y[k-1,i]+2.0*x[k,i]+x[k-4,i]-x[k-2,i]-2.0*x[k-1,i]

其中，i＝0～63，每次迭代的输出都只与上一次的输出和当前及前四次的输入有关；对于第一帧，没有前四帧的输入与输出，可设置初始条件为0：

x[-4,i]＝0,x[-3,i]＝0,x[-2,i]＝0,x[-1,i]＝0,y[-1,i]＝0

其中，i＝0～63，这样每一帧都有64个输出，这64个输出的符号以布尔值标记：若大于0，标记为1；若小于或等于0，标记为0；这样就形成了由0或1标志位组成的64位编码，这就是此图像帧的指纹编码。

本发明的有益效果是：不仅体现了视频图像在二维空间上的特征，也兼顾了视频在时间域的变化，而且运算量小，稳定性较高，特别适于盗版检测的视频搜索与比对。

具体实施方式

下面结合具体实施方式对本发明做进一步的描述。

一种视频指纹方法，具体包括如下步骤：

(1)对视频在时间轴上重取样，即采用固定的帧率；本发明使用的帧率为25帧/秒；

(2)将视频的每帧图像转换为灰度图，再进行去黑边处理，之后缩放至规定的大小，比如320X240；

(3)统计各帧图像的特征数据，这个特征数据可以是图像经过傅里叶变换后的各个频组能量，也可以是亮度直方图等数据；采用分块亮度(灰度)，具体操作是将整幅图像划分为8x8的分块，顺序排列，共64块，统计累加各个块内各点的灰度值；

其中：分块亮度、亮度直方图数据及图像经过傅里叶变换后的各个频组能量这几类数据，彼此之间没有对应的、直接的关联，他们都是从不同的参数来描述图像的特征，都可作为图像的特征数据。示例中采用分块亮度作为考量的特征数据来提取指纹，最容易理解；采用其他特征也同样可以获得指纹。一个指纹系统可以选取上述任一特征来提取指纹；使用不同的特征方案获得的指纹各不相同，也各不相干。

(4)考察每幅图内64个分块之间的亮度变化，相邻块之间的亮度差值反应较高频率的变化，而人眼感知的变化往往集中于低频段，故可统计距离较远的分块之间的差值，比如第1块和第28块的亮度差，第2块和第29块之差值。。。。，这样能获得一个元素个数为64的一维数组，此数组可作为视频图像在空间上的特征，对每帧图片都提取此类特征数据；图像的两个分块之间的亮度差值反映了这两个分块的亮度变化，就是分块A比分块B亮多少，或者暗多少。

(5)再考察相邻图像帧特征数据之变化，即视频在时间域的变化，以RASTA滤波器处理，这样能提高对数据变化的敏感程度。这里采用四阶RASTA滤波，即取连续的四帧，相当于160毫秒的跨度，共64组个数为4的特征数据序列，具体操作方式如下：

B[0],B[1],B[2],...,B[34],B[35],B[36],B[37],B[38],B[39],...,B[61],B[62],B[63]

B[27],B[28],B[29],...,B[61],B[62],B[63],B[0],B[1],B[2],...,B[24],B[25],B[26]

{x[k,0],x[k,1],x[k,2],...,x[k,61],x[k,62],x[k,63]}

{x[0,0],x[0,1],x[0,2],...,x[0,61],x[0,62],x[0,63]}

{x[1,0],x[1,1],x[1,2],...,x[1,61],x[1,62],x[1,63]}

{x[2,0],x[2,1],x[2,2],...,x[2,61],x[2,62],x[2,63]}

{x[n,0],x[n,1],x[n,2],...,x[n,61],x[n,62],x[n,63]}

y[k,i]＝0.94*y[k-1,i]+2.0*x[k,i]+x[k-4,i]-x[k-2,i]-2.0*x[k-1,i]

x[-4,i]＝0,x[-3,i]＝0,x[-2,i]＝0,x[-1,i]＝0,y[-1,i]＝0

其中，i＝0～63，这样每一帧都有64个输出，这64个输出的符号以布尔值标记：若大于0，标记为1；若小于或等于0，标记为0；这样就形成了由0或1标志位组成的64位编码，这就是此图像帧的指纹编码；

(6)按上述方式连续取帧，相当于采用大小为4的帧窗口，沿着时间轴滑动取样，每次滑动一帧就可获得一个指纹编码，这样形成的一串指纹序列，可作为整个视频的特征指纹；

(7)指纹之距离计算采用汉明距(Hamming distance)；

(8)对于两个指纹长度(个数)相同的视频，其差异可以使用所有对应指纹距离的平均值来度量；

(9)若某视频A的特征指纹全部(或部分片段)与另一视频B的部分指纹高度相似，即可断定视频A(或A的片段)在视频B中出现。

本指纹方案不仅体现了视频图像在二维空间上的特征，也兼顾了视频在时间域的变化，而且运算量小，稳定性较高，对于二维拉伸、缩放、亮度改变或饱和度及马赛克等攻击有很强的抵抗能力，也能抵抗小幅度的旋转，但对于较大幅度的旋转操作和时间轴上的缩放等攻击的抵抗能力较弱，特别适于盗版检测的视频搜索与比对。

Claims

1.一种视频指纹方法，其特征是，具体包括如下步骤：

（1）对视频在时间轴上重取样，即采用固定的帧率；

（2）将视频的每帧图像转换为灰度图，再进行去黑边处理，之后缩放至规定的大小；

（3）统计各帧图像的特征数据，采用分块亮度，具体操作是将整幅图像划分为8x8的分块，顺序排列，共64块，统计累加各个块内各点的灰度值；

（4）考察每幅图内64个分块之间的亮度变化，这样能获得一个元素个数为64的一维数组，此数组作为视频图像在空间上的特征，对每帧图片都提取此类特征数据；

（5）再考察相邻图像帧特征数据之变化，即视频在时间域的变化，以RASTA滤波器处理，获得64位布尔值组成的整数就可作为当前图像帧的指纹编码；采用四阶RASTA滤波，即取连续的四帧，共64组个数为4的特征数据序列，具体操作方式如下：

把图像帧k划分为平均大小的8x8共64个分块，顺序编号为0~63.各个分块的亮度记为B[0], B[1], B[2],..., B[61], B[62], B[63]，检查如下两行对应分块的亮度差：

B[0], B[1], B[2], ...,B[34],B[35],B[36],B[37],B[38],B[39],..., B[61],B[62],B[63]

B[27],B[28],B[29],...,B[61],B[62],B[63],B[0], B[1], B[2], ..., B[24],B[25],B[26]

分别计算B[0]与B[27]、B[1]与B[28]，直至B[63]与 B[26]的差值，这样就有64个差值，组成一个元素个数为64的一维数组：

{x[k, 0], x[k, 1], x[k, 2], ..., x[k, 61], x[k, 62], x[k, 63]}

{x[0,0], x[0,1], x[0,2], ..., x[0,61], x[0,62], x[0,63]}

{x[1,0], x[1,1], x[1,2], ..., x[1,61], x[1,62], x[1,63]}

{x[2,0], x[2,1], x[2,2], ..., x[2,61], x[2,62], x[2,63]}

……

{x[n,0], x[n,1], x[n,2], ..., x[n,61], x[n,62], x[n,63]}

上述数组共64列，作为对应的64个RASTA滤波器的输入，则可获得64个输出，每次迭代的输出都只与上一次的输出和当前及前四次的输入有关；对于第一帧，没有前四帧的输入与输出，设置初始条件为0，这样每一帧都有64个输出，这64个输出的符号以布尔值标记：若大于0，标记为1；若小于或等于0，标记为0；这样就形成了由0或1标志位组成的64位编码，这就是此图像帧的指纹编码；

（6）按步骤（5）的方式连续取帧，沿着时间轴滑动取样，每次滑动一帧就获得一个指纹编码，这样形成的一串指纹序列，作为整个视频的特征指纹；

（7）指纹之距离计算采用汉明距；

（8）对于两个指纹长度相同的视频，其差异使用所有对应指纹距离的平均值来度量；

（9）若某视频A的特征指纹全部或部分片段与另一视频B的部分指纹高度相似，即断定视频A或A的片段在视频B中出现。

2.根据权利要求1所述的一种视频指纹方法，其特征是，在步骤（3）中，特征数据是图像经过傅里叶变换后的各个频组能量，或者是亮度直方图数据。

3.根据权利要求1所述的一种视频指纹方法，其特征是，在步骤（4）中，相邻块之间的亮度差值反应较高频率的变化，而人眼感知的变化往往集中于低频段，故统计距离较远的分块之间的差值。