CN101976258B

CN101976258B - 基于对象分割和特征加权融合的视频语义提取方法

Info

Publication number: CN101976258B
Application number: CN 201010529734
Authority: CN
Inventors: 蒋兴浩; 孙锬锋; 唐峰; 於人则; 蒋呈明
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2010-11-03
Filing date: 2010-11-03
Publication date: 2013-07-10
Anticipated expiration: 2030-11-03
Also published as: CN101976258A

Abstract

一种视频搜索技术领域的基于对象分割和特征加权融合的视频语义提取方法，通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算，即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别加权求和后与阈值比较确定镜头中是否具有测试的语义。本发明由于分离背景，去除背景噪声，提高了语义分类的精确性；同时考虑到视频对象的提取可能出现的误差以及静止的视频语义，使用传统的方法进行分类。两种方法的结合使得语义提取的正确性得以提高。

Description

基于对象分割和特征加权融合的视频语义提取方法

技术领域

本发明涉及的是一种视频搜索技术领域的方法，具体是一种基于对象分割和特征加权融合的视频语义提取方法。

背景技术

随着互联网和多媒体技术的迅速发展，网络视频的数量日趋庞大，已经成为最为主要的互联网信息传递媒介之一。对这些海量视频数据进行预览、分析、分类和搜索成为了一个重要的研究课题。通常把视频图像表示为具有特征一致性的区域，该区域称为视频对象，对其进行压缩和搜索，可以提高压缩比和搜索效率。在基于内容的视频搜索中，语义是一个非常重要的概念。一般而言，视频中具有语言学意义的物体称为语义，以区分于普通的视频对象。如飞机、教室、行人等都是语义。用户能够通过具有语义信息的关键词对视频进行搜索以得到期望的结果，这相对于传统的文本关键词搜索方法，在速度和准确度上有相当大的提升。因此，在视频搜索领域中，视频语义提取技术具有极大的研究价值。

经对现有技术检索发现，中国专利文献号CN101650728，公开了一种“视频高层特征检索系统及其实现”，该技术提取视频关键帧图像的底层特征(诸如颜色、形状、纹理等)，并利用支持向量机(Support Vector Machine，SVM)对所提取的特征进行分类，进而提取相应的视频语义；

进一步检索发现，北京邮电大学学报(2006年4月，第29卷，第2期)，题为：基于支持向量机的视频关键帧语义提取，提出了一种提取视频关键帧的彩色直方图和边缘直方图特征，使用多类支持向量机对特征进行分类，从而获得关键帧的语义的方法。

上述文献在视频语义提取技术上提出了一些较好的方法，但仍存有一些缺陷，其主要问题是这些方法是对关键帧的整幅图像提取全局特征和局部特征。然而，由于关键帧一般是由背景和视频对象所组成，所以对于语义而言，提取的整幅图像的特征是含有背景噪声的特征，影响了视频语义提取的准确性。

发明内容

本发明的目的在于克服现有技术的不足并针对视频语义提取的精度要求，提供一种基于对象分割和特征加权融合的视频语义提取方法，通过分别提取镜头关键帧和视频对象的图像特征，然后使用支持向量机对特征进行分类和加权融合，最后确定视频语义的方法。

本发明是通过以下技术方案实现的，本发明通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算，即对于每一种语义所对应的视频对象的快速鲁棒特征(Speeded Up Robust Features，SURF)、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别设置为r₀，r₁，r₂，r₃和r₄，其中r_i的值为0或1，其权重分别为w₀，w₁，w₂，w₃和w₄，其中：0≤w_i≤1，w_i是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果；然后根据

与阈值T_c进行比较确定镜头中是否具有测试的语义，当

则该镜头中包含所测试的语义，反之

则镜头中不包含该语义。

所述的基于背景帧构造的视频对象语义分类，通过以下方式获得：

第一步，通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧，具体为：

1.1)读取待检测的镜头，将其第一帧作为初始化背景帧，设视频帧的长为m，宽为n；

1.2)设置两个的m×n矩阵，一个为计数矩阵A，一个为标志矩阵B，初始阶段两个矩阵都是零矩阵，其中：计数矩阵记录帧间变化检测中像素点连续不变的次数；标志矩阵记录像素点是否已被初始化；

1.3)将第k帧和第k+1帧转换成灰度图像并相减：当在位置(i，j)上的像素点灰度值的差为0，那么计数矩阵A的元素a_ij的值加1，反之a_ij＝0；

1.4)搜索计数矩阵A的所有元素，当a_ij＞T，则标志矩阵B相应位置的元素b_ij＝1，同时把位置(i，j)上的像素点的值赋给背景帧的相应位置的像素点；

1.5)当标志矩阵B所有的元素都为1或者该镜头结束时，背景帧构造完毕。

第二步，提取被检测镜头中的关键帧，查找关键帧中与背景帧不同的区域，以此作为视频对象候选区域。

第三步，采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域。

第四步，提取视频对象的快速鲁棒特征(Speeded Up Robust Features，SURF)，然后利用支持向量机对SURF特征分类，具体为：

4.1)使用快速Hessian方法对视频对象的图像进行特征点检测。

4.2)通过计算特征点邻接圆域内x、y方向上的Haar小波响应来获得主方向，在特征点选择一块大小与尺度相应的方形区域，分成64块，统计每一块的dx，dy，|dx|，|dy|的累积和，获得64维特征向量。

4.3)预先完成对大量的样本提取SURF特征，并应用K-means算法进行聚类以获得聚类中心，形成词汇数量为n的视觉词汇(Bag of Visual Words，BOVW)库。

对于视频对象的图像，计算它的每一个特征点与BOVW中词汇的距离，由此判断这个特征点属于哪一个词汇，然后统计这个视频中每个词汇出现的频率，在此过程中，通过soft-weighting的策略，计算与某个特征点距离最近的4个词汇，分别给予权重1、0.5、0.25、0.125，统计到最后的直方图中，以此提高识别的准确率。该直方图矢量化后即为该视频的BOVW特征向量，向量的长度等于视频词汇的数量。

4.4)使用支持向量机分类器，把提取的视觉词汇特征和预先训练好的视频语义特征文件进行匹配分类，得到视频对象分类结果。预先完成训练的视频语义为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话。

所述的基于关键帧特征的视频语义分类，通过以下方式获得：

步骤一，提取镜头关键帧图像的全局特征和局部特征。

所述的全局特征包括颜色直方图、边缘直方图、局部二进制特征和SURF特征。

步骤二，采用支持向量机对已知语义的图像的特征进行预先训练，生成训练文件。

所述的预先训练的视频关键帧中可能包括飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话等视频语义。

步骤三，使用支持向量机测试，把提取的每一种特征和预先训练好的语义的对应的特征文件进行匹配，以得到分类结果。

与现有技术相比，本发明的有益效果是：本发明利用基于背景帧构造的视频对象提取方法提取视频对象区域，然后分别利用支持向量机对视频关键帧的整幅图像和关键帧内的视频对象区域所提取的特征进行分类，把两者的结果加权计算以得出最终的分类结果。相比传统的对整幅图像提取特征进行建模并分类的方法，一方面由于分离背景，去除背景噪声，提高了语义分类的精确性；另一方面，考虑到视频对象的提取可能出现的误差以及静止的视频语义，同时使用传统的方法进行分类。最后根据小样本测试结果分别给予两种方法得出的分类结果一定的权重计算出最终结果。两种方法的结合使得语义提取的正确性得以提高。

附图说明

图1是本发明的总体流程示意图。

图2是本发明的基于背景帧构造的视频对象语义分类提取的流程图。

图3是本发明的支持向量机训练及分类流程图。

图4是本发明的视频关键帧的整幅图像的语义提取流程图。

具体实施方式

以下结合附图对本发明的方法进一步描述：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本实施例通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算，然后根据加权结果与与阈值进行比较确定镜头中是否具有测试的语义。

基于背景帧构造的视频对象语义分类提取的流程如图2所示，其具体步骤为：

第一步，构造待检测镜头的背景帧，具体为：

a)设B(i，j，k)为第k帧构造的背景图像，其中(i，j)为像素点位置；f(i，j，k)表示序列中第k帧图像。读取待检测的镜头，将其第一帧作为初始化背景帧，即B(i，j，1)＝f(i，j，1)。设视频帧的长为m，宽为n。

b)设置两个的m×n矩阵，一个为计数矩阵A，一个为标志矩阵B，初始阶段两个矩阵都是零矩阵。其中，计数矩阵记录帧间变化检测中像素点连续不变的次数；标志矩阵记录像素点是否已被初始化。

c)将第k帧和第k+1帧转换成灰度图像并相减。当在位置(i，j)上的像素点的差值为0，那么计数矩阵A的元素a_ij的值加1，反之a_ij＝0。

d)搜索计数矩阵A的所有元素，当a_ij＞T(本实施例中阈值T设为12)，那么令标志矩阵B相应位置的元素b_ij＝1，同时把位置(i，j)上的像素点的值赋给背景帧的相应位置的像素点，即B(i，j，k)＝f(i，j，k)。

e)当标志矩阵B所有的元素都为1或者该镜头结束时，背景帧构造完毕。

第二步，从上述的镜头中提取关键帧，查找关键帧中与背景帧不同的区域，以此作为视频对象候选区域。

第三步，视频对象候选区域一般是由视频对象和其阴影组成，阴影对后续的支持向量机建模分类会产生误差，因此必须消除阴影区域。E.Salvador，A.Cavallaro，T.Ebrahimi于2001年在论文：Shadow identification and classification using invariant color models中提出的基于c₁c₂c₃模型的静态图像阴影检测方法效果优良，因此本实施例采用此方法对视频对象候选区域进行阴影区域检测和消除。

第四步，提取视频对象的SURF特征，SURF特征具有良好的尺度不变性、旋转不变性、亮度不变性和仿射不变性，而且计算效率高；然后利用支持向量机对特征分类，具体为：

a)把视频对象的图像转换成积分图，选取不同大小的箱式滤波器建立图像的尺度空间，使用快速Hessian方法检测每一层图像上的极值点，这些极值点就是图像的特征点。

b)以特征点为中心，计算它的邻接圆域内x、y方向上的Haar小波响应来获得主方向。选定特征点主方向后，以特征点为中心，将坐标轴旋转到主方向，选择一块大小与尺度相应的方形区域，分成64块，统计每一块的dx，dy，|dx|，|dy|的累积和，获得64维特征向量。

c)预先完成对大量的样本提取SURF特征，并应用K-means算法进行聚类以获得聚类中心，形成词汇数量为n的视觉词汇库，本实施例中n的值设为500。

对于视频对象的图像，计算它的每一个特征点与BOVW中词汇的距离，由此判断这个特征点属于哪一个词汇，然后统计这个视频中每个词汇出现的频率，在此过程中，通过soft-weighting的策略，计算与某个特征点距离最近的4个词汇，分别给予权重1、0.5、0.25、0.125，统计到最后的直方图中，以此提高识别的准确率。该直方图矢量化后即为该视频的BOVW特征向量，向量的长度等于视频词汇的数量，即500维。

d)预先已完成SVM分类器对已知语义的视频对象的BOVW特征的训练。本实施例中的测试语义为TRECVID 2010中语义索引轻量级比赛项目所指定的的10种语义，其分别为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话，每一类都已生成训练文件。已知语义的训练样本是由人工选择的合适的正负样本，在本实施例中正负样本集的比例为1∶3，其正样本中包含所要测试的10种语义种的一种，而负样本则不包括该语义。

使用SVM分类器对测试的特征和预先训练好的语义特征文件进行匹配，以确定该对象属于哪一类语义。其分类流程如图3所示，若该视频对象属于某一语义，则在这语义下标记为1，否则标记为0。

基于关键帧特征的视频语义分类提取方法如图4所示，具体步骤为：

第一步，提取镜头关键帧图像的全局特征和局部特征。全局特征包括颜色、边缘和纹理特征；局部特征选用具有良好的尺度不变性的SURF特征。

选取这些特征的原因是：颜色是图像重要的视觉特征，它和图像中所包含的物体或场景十分相关。颜色特征对图像本身的尺寸、方向、视角及背景复杂度等的依赖性较小，因此较为可靠。本实施例中，颜色特征选用了颜色直方图(Color Histogram)，它是最常用的表达颜色特征的方法，其优点是不受图像旋转和平移变化的影响，进一步借助归一化还可不受图像尺度变化的影响。边缘特征反映了图像中物体形状的轮廓，本实施例中边缘特征选用边缘直方图(EdgeHistogram)。纹理特征是不依赖于颜色或灰度的反映图像中同质现象的视觉特征，它是所有物体表面共有的内在特性。本实施例中纹理特征选用局部二进制特征(LBP)。

第二步，使用支持向量机预先完成对已知语义的图像四种特征的训练。语义分为飞机、轮船、公共汽车、城市景观、教室、游行人群、手、夜景、唱歌和电话10种，对每一类都有已生成的训练文件。已知语义的训练样本是由人工选择的合适的正负样本，在本实施例中正负样本集的比例为1∶3，其正样本中包含所要测试的10种语义种的一种，而负样本则不包括该语义。使用支持向量机测试，把提取的每一种特征和预先训练好的语义的相对应的特征文件进行匹配，以得到分类结果。每一种特征的分类流程如图3所示，具体为：

a)输入待检测关键帧的特征向量(颜色、边缘、纹理、BOW)。

b)与生成的训练文件进行匹配。

c)当属于测试的语义标记为1，否则标记为0。

上述分类是并行的流程，提高了特征分类、语义提取的效率。

如图1所示，对上述两部分所得的结果进行加权计算以得到最终的结果。对于每一种语义，令其视频对象SURF特征、关键帧SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别为r₀，r₁，r₂，r₃和r₄，其中r_i的值为0或1，其权重分别为w₀，w₁，w₂，w₃和w₄，其中0≤w_i≤1。预先已完成每一种语义的每种特征的小样本测试，其具体权重分配如表1所示。根据

与阈值T_c比较确定镜头的语义类别：若

则该镜头中包含测试的语义，反之

则不包含。在该实施例中T_c＝3。

表1中数据的说明：在本实施例中，对50个包含飞机语义的镜头进行特征提取，然后对每一种特征进行测试，获得它的预测准确率作为权重值，其余几种语义的权重值获取方式与飞机一致。

表1

	w₀	w₁	w₂	w₃	w₄
						飞机	0.89	0.90	0.88	0.85	0.83
轮船	0.90	0.91	0.93	0.89	0.92
						公共汽车	0.92	0.91	0.84	0.89	0.90
城市景观	0.51	0.95	0.90	0.93	0.83
						教室	0.63	0.88	0.82	0.92	0.94
游行人群	0.91	0.89	0.88	0.93	0.88
						手	0.89	0.91	0.83	0.84	0.90
夜景	0.48	0.91	0.89	0.87	0.81
						唱歌	0.88	0.86	0.90	0.91	0.82
电话	0.52	0.92	0.84	0.88	0.89

本实施例，对以镜头为单元的视频进行测试。使用支持向量机对关键帧和关键帧中的视频对象进行分类，并对结果进行加权计算，一方面针对运动的视频对象分离背景，去除背景噪声；另一方面考虑到静止的视频语义，同时使用对整幅关键帧的图像特征进行分类的方法，使得语义分类的查全率和准确率相比于现有的方法有一定提高。虽然本实施例要对多种特征和多种语义进行分类，但是的决策系统是并行式的，可以同时进行测试，提高特征分类的效率。本实施例可以扩展语义的种类，形成比较完善的视频语义搜索系统。此外，还能增加正负训练样本的数量，样本数量的增加在一定程度上可以提高语义分类的准确率；增加用以权重值确定的测试样本数量，提高权重值的精确性。

本实施例的应用前景广泛，例如，在数量庞大的视频中，只要输入视频语义便能自动的找出含有该语义的视频，加快了搜索视频的效率；另外，常见的具有暴力和色情内容的不良视频中一般都含有人，使用本实施例可以精确地把具有语义为人的视频分类出来，提升了不良视频筛选的准确性。

Claims

1.一种基于对象分割和特征加权融合的视频语义提取方法，其特征在于，通过将基于背景帧构造的视频对象语义分类和基于关键帧特征的视频语义分类进行加权计算，即对于每一种语义所对应的视频对象的快速鲁棒特征、关键帧的SURF特征、颜色直方图、边缘直方图和局部二进制特征对应的分类结果分别设置为r₀，r₁，r₂，r₃和r₄，其中r_i的值为0或1，其权重分别为w₀，w₁，w₂，w₃和w₄，其中：0≤w_i≤1，w_i是预先对每一种语义的每种特征进行的小样本训练和测试所得的结果；然后根据

与阈值T_c进行比较确定镜头中是否具有测试的语义，当

则该镜头中包含所测试的语义，反之则镜头中不包含该语义；

第一步，通过检测镜头内相邻帧对应的像素点间的变化来构造背景帧；

第二步，提取被检测镜头中的关键帧，查找关键帧中与背景帧不同的区域，以此作为视频对象候选区域；

第三步，采用静态图像阴影检测方法消除视频对象候选区域中的阴影区域；

第四步，提取视频对象的快速鲁棒特征，然后利用支持向量机对SURF特征分类；

步骤一，提取镜头关键帧图像的全局特征和局部特征；

步骤二，采用支持向量机对已知语义的图像的特征进行预先训练，生成训练文件；