CN103593464A

CN103593464A - 基于视觉特征的视频指纹检测及视频序列匹配方法及系统

Info

Publication number: CN103593464A
Application number: CN201310608893.3A
Authority: CN
Inventors: 刘琼; 杨铀; 喻莉; 吴伟民; 高跃; 于国星
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2013-11-25
Filing date: 2013-11-25
Publication date: 2014-02-19
Anticipated expiration: 2033-11-25
Also published as: CN103593464B

Abstract

本发明提出一种基于视觉特征的视频指纹检测方法，具体为：按照帧间相关性对视频序列分段，在分段中提取关键帧；在各关键帧中提取视频特征；利用像素点特征字典对像素点分类；对各关键帧分别进行多次不同数量的分块，在各子块中依据像素点的分类结果统计像素点特征字典各元素的出现次数，得到该子块的特征向量；将所有子块的特征向量拼接得到关键帧的高维视频指纹；对各高维视频指纹进行降维；将各视频片段关键帧的低维视频指纹按照时间先后顺序连成关键帧视频指纹串。本发明还提供了基于上述指纹检测方法的视频匹配方法。本发明通过对视频内容的关键信息进行有效描述，在不影响匹配率的情况下，大大降低了算法的复杂度，有效提高了检测效率。

Description

基于视觉特征的视频指纹检测及视频序列匹配方法及系统

技术领域

本发明属于视频分析领域，尤其是涉及一种基于视觉特征的视频指纹检测及视频序列匹配方法。

背景技术

随着计算机技术及网络的快速发展，网络视频数量正在急剧增长。与此同时，随着视频处理技术的发展，视频编辑变得越发容易，针对视频内容进行内容的删减、分辨率改变、内容遮挡、内容替换、增加噪声等等都增加对相关视频内容检测的困难。如何有效地建立视频指纹从而能够在存在一定视频编辑的前提下仍然能够检测到相关视频内容成为一项日益迫切的需求。

目前主要的视频序列匹配方法主要可以分成两类。第一种方法是全局的亮度分析方法。该方法通过对视频帧的亮度分布进行分析，从而形成一种简单的特征用于视频比对。这种技术的优点是简单，而且计算迅速，可以快速生成用以匹配的视频指纹。缺点是该方法对视频内容的一致性要求较高，当视频内容经过编辑发生一定程度的变化时，该方法就无法检测到相关的视频。第二种方法基于运动轨迹的分析。这种方法首先获得视频序列的一些关键对象，并分析关键对象在整段视频序列中的变化情况，并依此作为视频指纹来进行相关视频检测。这类基于运动轨迹分析的方法能够对关键对象进行跟踪，从而相对基于全局亮度的方法鲁棒性较好，但是其计算复杂度很高，需要对关键对象进行检测并跟踪，从而在效率上具有一定的局限性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于视觉特征的视频指纹检测及视频序列匹配方法及系统，其目的在于通过对视频内容的关键信息进行有效描述，在不影响匹配率的情况下，大大降低了算法的复杂度，有效提高了检测效率。

一种基于视觉特征的视频指纹检测方法，包括以下步骤：

（1）按照帧间相关性对视频序列分段，在得到的每个视频分段中提取最具有代表性的关键帧；

（2）分别在各关键帧中采样，对采样得到的像素点提取视频特征；

（3）依据视频特征，利用离线样本聚类得到的像素点特征字典对采样像素点分类；

（4）对各关键帧分别进行多次不同数量的分块；在每次分块得到的子块中，依据采样像素点的分类结果统计像素点特征字典各元素的出现次数，从而得到该子块对应的特征向量；将统计得到的所有子块特征向量拼接得到关键帧的高维视频指纹；

（5）对各高维视频指纹进行降维得到低维视频指纹；

（6）将各视频片段关键帧的低维视频指纹按照时间先后顺序连成关键帧视频指纹串。

进一步地，所述步骤（1）按照帧间相关性对视频序列分段，在得到的每个视频分段中提取最具有代表性的关键帧的具体过程为：

计算视频序列中相邻两帧间的色彩直方图距离，将色彩直方图距离归一化处理后作为相邻帧间的相关性度量；若相关性度量低于分段阈值，则将该相关性度量对应的相邻帧间设为分割点；相邻分割点之间的视频划分为一个视频片断。

进一步地，所述视频特征为SIFT视频特征、颜色直方图、颜色矩、灰度统计特征、边缘特征或角点特征。

进一步地，所述像素点特征字典是采用K均值聚类算法、凝聚层次聚类算法或DBSCAN聚类算法聚类得到。

进一步地，所述步骤（5）采用主成份分析法、独立成分分析法、线性决策分析法或局部特性分析法对各高维视频指纹进行降维得到低维视频指纹。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，本发明方法通过视频帧的视觉相似性的变化，首先获得多个连续的视频片段，并为每一个视频片段提取一个视频关键帧。接下来对每个视频关键帧进行具有空间位置信息描述的视频指纹提取，这种空间位置信息以例如SIFT特征的形式被提取出来。与每一帧都提取视频指纹相比，这种基于关键帧的视频指纹提取，在基本不影响匹配率的情况下，大大降低了算法的复杂度，有效提高了运算效率。

进一步地，由于色彩直方图距离描述了不同颜色在图像中所占的比例，反映了图像颜色的统计分布和基本色调。因此，本发明采用色彩直方图距离来表征两帧间的相关性，在低算法复杂度的条件下可以准确的对视频进行分段。

本发明还提供了一种视频序列匹配方法，具体为：针对待分析视频序列和基准视频序列，分别按照所述的视频指纹检测方法进行检测，得到各自的关键帧视频指纹串；采用串匹配方法对两关键帧视频指纹串进行匹配。

进一步地，所述采用串匹配方法对两关键帧视频指纹串进行匹配的具体实现过程为：

令待检索视频Q的关键帧集合表示为n_q为待检索视频Q的关键帧数目；基准视频片段

的关键帧集合表示为

n_i为基准视频片段Clip_i的关键帧数目；

计算待检索视频Q中第s个关键帧kf_q,s与基准视频片段Clip_i中第t个关键帧kf_i,t之间的欧式距离：

d(kf_q,s,kf_i,t)＝norm(fea_q,s,fea_i,t)，

式中，s＝1,…,n_q，t＝1,…,n_i，fea_q,s和fea_i,t分别是关键帧kf_q,s与kf_i,t的视觉特征向量，norm()表示求向量fea_q,s和fea_i,t之差的2-范数；

若欧式距离d(kf_q,s,kf_i,t)＜阈值T₁，则判定kf_q,s与kf_i,t匹配；

一旦待检索视频存在一帧与基准视频片段Clip_i中关键帧kf_i,t匹配，则认为关键帧kf_i,t匹配成功，计算基准视频中匹配成功的关键帧数与基准视频的关键帧总数的比值即为匹配率。

进一步地，所述匹配的具体实现过程还包括下述步骤：

若待检索视频的某个关键帧与基准视频中的第t个关键帧kf_i,t匹配，则匹配标志flag_t＝1，否则为flag_t＝0，该关键帧kf_i,t所代表视频片段与待检索视频某片段的相似度为flag_t×w_kf(kf_i,t)；

计算基准视频与待检索视频总相似度为

计算总的匹配时长为

t = length ({Video}_{i}) \cdot Σ_{t = 1}^{n_{i}} {flag}_{t} \times w_{kf} ({kf}_{i, t});

综合考虑匹配时长与匹配率确定待检索视频与基准视频是否匹配。

一种基于视觉特征的视频指纹检测系统，其特征在于，包括

第一模块，用于按照帧间相关性对视频序列分段，在得到的每个视频分段中提取最具有代表性的关键帧；

第二模块，用于分别在各关键帧中采样，对采样得到的像素点提取视频特征；

第三模块，用于依据视频特征，利用离线样本聚类得到的像素点特征字典对采样像素点分类；

第四模块，用于对各关键帧分别进行多次不同数量的分块；在每次分块得到的子块中，依据采样像素点的分类结果统计像素点特征字典各元素的出现次数，从而得到该子块对应的特征向量；将统计得到的所有子块特征向量拼接得到关键帧的高维视频指纹；

第五模块，用于对各高维视频指纹进行降维得到低维视频指纹；

第六模块，用于将各视频片段关键帧的低维视频指纹按照时间先后顺序连成关键帧视频指纹串。

本发明匹配方法的技术效果体现在：

本发明基于该视频指纹，采用串匹配方法对关键视频进行有效检测，通过计算两个视频之间的任意两个关键帧的欧式距离，可以准确判断两个视频是否匹配。作为优化，在匹配率的基础上，还考虑到每个关键帧相似度对整个视频序列相似性的贡献不同，关键帧所在视频片段时长越长，其对视频序列的相似性贡献越大，反之贡献越小。因此，将匹配的关键帧视频指纹串的相似度进行加权，权值由关键帧所在视频片段的时长获得。最后由匹配时长与匹配率共同决定待检索视频与基准视频是否匹配。本方法不仅考虑关键帧像素点的特征，同时考虑整体空间的分布，因此能对视频内容的关键信息进行描述，从而获得更好的视频序列检测结果。本发明方法设计简单，易于实现。

附图说明

图1为本发明的基于视觉特征的视频指纹检测及视频序列匹配方法流程图；

图2为本发明的应用实例的数据图；

图3为本发明的应用实例结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基于视觉特征的视频指纹检测及视频序列匹配方法如图1所示，具体实现步骤如下：

1、基准视频指纹的提取。

（1）按照帧间相关性对视频序列分段，在得到的每个视频分段中提取最具有代表性的关键帧。

对于视频序列的关键帧选取，关键在于寻找最优分割点，从而能够得到足够精确的视频关键帧序列。具体可采用基于视频分割的关键帧提取、基于聚类的关键帧提取、基于公差带的关键帧提取以及基于运动分析的关键帧提取等方法。本发明对基于视频分割的关键帧提取方法进行了改进为例详细说明：

（1.1）对视频进行解码，获得所有视频帧的信息；

（1.2）基于时间顺序对视频序列进行分段。

对视频序列中的各帧进行色彩直方图统计，计算相邻两帧间的色彩直方图距离。由于色彩直方图距离描述了不同颜色在图像中所占的比例，反映了图像颜色的统计分布和基本色调。因此，本发明采用色彩直方图距离来表征两帧间的相关性，在低算法复杂度的条件下可以准确的对视频进行分段。接下来，对色彩直方图距离进行归一化处理得到相邻帧间的分割度量。

以第一帧为初始帧开始，将初始帧与第二帧间的相关性度量与分段阈值比较，若相关性度量低于分段阈值，则初始帧与第二帧间设为分割点，否则将第二帧与第三帧间、第三帧与第四帧间……进行相同方式的比较和处理，一直到找到分割点为止，那么初始帧与分割点间的视频图像为一视频分段。将分割点的下一帧作为初始帧，按照相同的方式确定下一视频分段。

分段阈值为经验值，与连续两帧的相似度有关，具体可根据试验结果调整，例如将该分割度量值小于-20的位置设置为一个视频分割点。

（1.3）在每一个视频片段选取最具有代表性的帧作为关键帧。最具代表性的帧选取原则是：与该视频片段中与该段内所有帧的色彩直方图距离平均值最近的帧为最具代表性的帧，即关键帧。

（1.4）在提取关键帧后，设置该关键帧的权重。由于每段视频反映的内容重要程度不同，因此对不同的关键帧赋予不同的权重。权重通过每个关键帧对代表的视频片段长度来决定的，视频片段越长则其权重相对越大，反之则越小。这样既获得了每个视频分段的时间，同时又将视频段内容的重要程度加以区分。

（2）分别在各关键帧中采样，对采样得到的像素点提取视频特征。

对基准视频序列的各关键帧进行采样，并对选取的像素点提取视频特征。视频图像的特征有很多，概括起来包括纹理特征、颜色特征、几何形状特征等，针对以上特征又包含一些具体的特征，如颜色直方图、颜色矩、灰度统计特征、边缘特征、角点特征等。本发明选用SIFT视频特征，该特征对发生平移、旋转、尺度缩放、亮度变化、视角变化、仿射变换、噪声干扰等图像都有较好的匹配效果。

在指纹提取前，首先利用历史样本视频训练得到像素点特征字典，具体为：

对样本视频的关键帧首先进行采样，并对选取的像素点提取视频特征。

对提取的像素点特征聚类得到像素点特征字典。聚类可采用K均值聚类算法、凝聚层次聚类算法、基于密度的聚类算法（DBSCAN）等，本发明优选K均值聚类算法，它被广泛的用于连续空间中的数据对象聚类。

视频指纹生成决定了视频内容描述能力的性能，旨在获得对视频关键内容及全局部分具有较好代表能力的视频特征。视频指纹的提取可采用基于图像特征的视频指纹提取、基于运动特征的视频指纹提取、以及结合图像特征与运动特征的视频指纹提取等方法。

由于本发明已经进行了关键帧的提取，所以在提取视频指纹时，只需要采用基于关键帧内容的方法。该方法提取的视频指纹具有较强的描述能力和较好的鲁棒性。按照下述方法对对基准视频序列的每一关键帧提取视频指纹：

（3.1）利用像素点特征字典对步骤（2）的采样像素点进行分类，每个采样点获得一个标签；

（3.2）对各关键帧先后多次分块，每次分块数量不同，对每次得到的分块统计字典元素出现的数量，例如字典的维数n为1024维，对每个元素都进行统计，那么每一块得到的统计特征就有1024维。将图像分成不同层次的块，这样可以提高匹配的准确度，基于块的特征可以防止一定的图像篡改带来的干扰，每次分块数量优选2^m，m大于1，分块次数和每次分块个数越多，准确度越大，但会带来计算量的增加，具体选择根据精度要求和试验结果适当调整。

例如，将图像分成1*1块。统计字典元素得到1024*1维特征；将图像分成2*2块，在每一个块内分别进行统计字典元素出现的数量得到1024*4维特征；将图像分成4*4块，统计字典元素得到1024*16维特征。这样每一帧会得到1024*21维特征，并将全部的统计结果拼接作为该帧的视频指纹。

（4）对获得视频指纹进行降维，从而生成低维度的视频指纹；

低维度视频指纹生成方法旨在降低原始高维视频指纹特征，从而能够更加精确的进行视频指纹的存储和查询。对获得高维视频指纹进行降维，具体可采用主成份分析法、独立成分分析法、线性决策分析法、局部特性分析法等，本发明优选主成份分析法，将众多具有相关性的属性合并组成新的互相无关的综合指标，来实现视频指纹的降维。

（5）将各视频片段的关键帧的视频指纹按照时间先后顺序连成关键帧视频指纹串，以备后续匹配过程中应用串匹配方法进行两个视频片段的相关性分析，实际上，每个关键帧视频指纹串就是一个特征向量组，每个元素就是一帧图像的特征向量。

2、待分析视频序列的匹配。

将待分析的视频序列与基准视频序列按照如下步骤进行匹配：

（1）待分析视频序列和基准视频序列分别进行以上视频指纹提取后，分别得到的是两个关键帧视频指纹串。

（2）应用串匹配方法进行视频关键帧视频指纹串的匹配。视频的关键帧视频指纹串是以每一关键帧的特征向量为单位元素的串，它们匹配，可以抽象为串匹配的问题。所以本发明用串匹配的方法解决视频关键帧串的匹配问题，对于待分析视频序列和基准视频序列的关键帧视频指纹串中的任意两个关键帧，计算该两关键帧低维度视频指纹的欧式距离，具体如下：

令待检索视频Q的关键帧集合表示为

n_q为待检索视频Q的关键帧数目；基准视频片段

的关键帧集合表示为

n_i为基准视频片段Clip_i的关键帧数目；

d(kf_q,s,kf_i,t)＝norm(fea_q,s,fea_i,t)，

欧式距离d(kf_q,s,kf_i,t)越小，则表明待检索视频Q中第s个关键帧kf_q,s与基准视频片段Clip_i中第t个关键帧kf_i,t间的相似性越大。实际应用中，可定义阈值T₁，当d(kf_q,s,kf_i,t)＜T₁时，认为该两帧完全匹配。需要指出的是，较小的T₁将会使得两个视频帧之间匹配的条件更加严格，使得只有极为相似的视频帧才会匹配。较大的T₁将会使得两个视频帧之间匹配的条件更加宽松，使得匹配的视频帧更多。

只要待检索视频存在一帧与基准视频片段Clip_i中关键帧kf_i,t匹配，则认为关键帧kf_i,t匹配成功，通过将基准视频中匹配成功的关键帧数比上基准视频的关键帧总数获得基准视频的匹配率。

进一步地，还可将匹配的关键帧视频指纹串的相似度进行加权，从而获得两个视频序列的综合匹配结果。将匹配的关键帧视频指纹串的相似度进行加权，权值由关键帧所在视频片段的时长获得，加权的目的是为了突出每个关键帧相似度对整个视频序列相似性的贡献不同，关键帧所在视频片段时长越长，其对视频序列的相似性贡献越大，反之贡献越小。由此得到视频序列的相似性，从而获得两个视频序列的匹配结果。具体过程如下：

权值由以下公式得到：

w_{kf} ({kf}_{i, t}) = \frac{length ({Clip}_{t})}{length ({Video}_{i})}

kf_i,t为基准视频中的第t个关键帧，length(Clip_s)为该关键帧代表的视频分段的时长，length(Video_i)代表基准视频的总时长。

若待检索视频的某个关键帧与kf_i,t匹配，则匹配标志flag_t＝1，否则为flag_t＝0，该关键帧所代表视频片段与待检索视频某片段的相似度为flag_t×w_kf(kf_i,t)，那么基准视频与待检索视频总相似度为：

那么总的匹配时长为：匹配时长与匹配率共同决定待检索视频与基准视频是否匹配。

实施例：

本实施例选取了1000段视频序列。每段视频序列从几秒钟到1分钟不等，分别包括单个或多个视频镜头。为了描述方便，在以下介绍中每个视频序列均使用一个视频关键帧进行代表。另外选取一个待分析视频，并通过分辨率变化、局部遮挡、字幕变化、台标变化等方式获得20种处理后视频序列。本实施例旨在从1000+20个视频序列中检测到20个相关的视频序列。

本实施例的基于视觉特征的视频指纹检测及视频序列匹配方法包括以下步骤：

1）对原始视频序列进行解码，获得各视频帧的信息，对每一段视频进行基于时间顺序的关键帧提取，并为每个关键帧赋予一定权重；

2）对每一个关键帧提取视觉特征，并通过空间位置分布建立具有空间分布描述能力的视频指纹；

3）对获得视频指纹进行降维，从而生成低维度的视频指纹；

4）将一个视频片段的关键帧连成一个具有时间顺序的关键帧串，应用串匹配方法进行两个视频片段的相关性分析。

上述步骤1）中，对于视频序列的关键帧选取，关键在于寻找最优分割点，从而能够得到足够精确的视频关键帧序列。具体包括以下步骤：

（1）对视频进行解码，获得所有视频帧的信息；

（2）计算任意两个视频帧之间的距离，这里采用每个视频帧的色彩直方图距离，并基于时间顺序对视频进行分段。每次选取一个初始帧，当后续帧与初始帧距离超出一个阈值时，设置为一个视频断点，从而获得一个视频片段，并重新初始化初始帧，其中阈值设置为0.5；

（3）对每一个视频片段选取最具有代表性的帧作为关键帧，并基于该视频片段的帧的数量设置该关键帧的权重。

上述步骤2）中视频指纹生成决定了视频内容描述能力的性能，旨在获得对视频关键内容及全局部分具有较好代表能力的视频特征。具体包括以下几个步骤：

（1）对待处理的关键帧首先进行密集采样，并对选取的像素点提取SIFT视频特征，其中两个方向的步进步长均为10个像素；

（2）选取大量像素点特征，应用K均值聚类获得一个大小为1024的像素点特征字典，这里选取20万个像素点的SIFT特征进行K均值聚类生成像素点特征字典；

（3）基于像素点特征字典对（1）中像素点特征进行分类，每个采样点获得一个标签；

（4）将图像分成不从层次的块，比如1*1、2*2和4*4，在每一个块内进行分别统计字典元素出现的数量，并将全部的统计结果拼接作为该帧的视频指纹。

上述步骤3）中低维度视频指纹生成方法旨在降低原始高维视频指纹特征，从而能够更加精确的进行视频指纹的存储和查询。对获得高维视频指纹进行降维，使用主成分分析将高维指纹降维到200维，从而获得低维视频指纹。

上述步骤4）中应用串匹配方法进行视频关键帧视频指纹串的匹配：

d(kf_q,s,kf_i,t)＝norm(fea_q,s,fea_i,t)，

当d(kf_i,t,Q)＜T₁时，认为该关键帧与Q产生了完全匹配。在本实例中，T₁被设置为0.4。

基于串匹配结果获得两个视频序列的相关性，将匹配的关键帧串的相似度进行加权，从而获得两个视频序列的匹配结果。这里我们设置匹配时长阈值为15秒，匹配率阈值为70%，用户可以根据需要设置阈值。

本实施例的待分析视频序列及20种编辑后的视频序列的单关键帧描述如图2所示。图3中给出了检测结果及顺序。从实验结果中可以看出，本方法能够有效的将相关的视频序列检测出来。

虽然在本方法说明及实施例中应用该视频指纹进行视频片段匹配，但是本发明并不限于这种形式的应用。本领域普通技术人员可在本发明的精神及观点内对本发明进行多种不同的修改，但凡依本发明权利要求书范围所做的同等的变化及修饰，皆为本发明所保护的范围。

Claims

1.一种基于视觉特征的视频指纹检测方法，其特征在于，包括以下步骤：

（5）对各高维视频指纹进行降维得到低维视频指纹；

2.根据权利要求1所述的基于视觉特征的视频指纹检测方法，其特征在于，所述步骤（1）按照帧间相关性对视频序列分段，在得到的每个视频分段中提取最具有代表性的关键帧的具体过程为：

3.根据权利要求1或2所述的基于视觉特征的视频指纹检测方法，其特征在于，所述视频特征为SIFT视频特征、颜色直方图、颜色矩、灰度统计特征、边缘特征或角点特征。

4.根据权利要求1或2所述的基于视觉特征的视频指纹检测方法，其特征在于，所述像素点特征字典是采用K均值聚类算法、凝聚层次聚类算法或DBSCAN聚类算法聚类得到。

5.根据权利要求1或2所述的基于视觉特征的视频指纹检测方法，其特征在于，所述步骤（5）采用主成份分析法、独立成分分析法、线性决策分析法或局部特性分析法对各高维视频指纹进行降维得到低维视频指纹。

6.一种视频序列匹配方法，其特征在于，具体为：针对待分析视频序列和基准视频序列，分别按照权利要求1～5任意一项所述的视频指纹检测方法进行检测，得到各自的关键帧视频指纹串；采用串匹配方法对两关键帧视频指纹串进行匹配。

7.根据权利要求6所述的一种视频序列匹配方法，其特征在于，所述采用串匹配方法对两关键帧视频指纹串进行匹配的具体实现过程为：

令待检索视频Q的关键帧集合表示为

n_q为待检索视频Q的关键帧数目；基准视频片段

的关键帧集合表示为

n_i为基准视频片段Clip_i的关键帧数目；

d(kf_q,s,kf_i,t)＝norm(fea_q,s,fea_i,t)，

8.根据权利要求7所述的一种视频序列匹配方法，其特征在于，所述匹配的具体实现过程还包括下述步骤：

计算基准视频与待检索视频总相似度为

计算总的匹配时长为

t = length ({Video}_{i}) \cdot Σ_{t = 1}^{n_{i}} {flag}_{t} \times w_{kf} ({kf}_{i, t});

9.一种基于视觉特征的视频指纹检测系统，其特征在于，包括