CN107368807B - 一种基于视觉词袋模型的监控视频车型分类方法 - Google Patents
一种基于视觉词袋模型的监控视频车型分类方法 Download PDFInfo
- Publication number
- CN107368807B CN107368807B CN201710595141.6A CN201710595141A CN107368807B CN 107368807 B CN107368807 B CN 107368807B CN 201710595141 A CN201710595141 A CN 201710595141A CN 107368807 B CN107368807 B CN 107368807B
- Authority
- CN
- China
- Prior art keywords
- image
- vehicle
- feature
- vector
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012544 monitoring process Methods 0.000 title claims abstract description 8
- 239000013598 vector Substances 0.000 claims abstract description 121
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000003064 k means clustering Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000012887 quadratic function Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于视觉词袋模型的监控视频车型分类方法,包括采集车辆图像;对训练图像库中的车辆图像提取车辆特征向量;对获得的车辆特征向量进行聚类生成视觉词典;将提取的车辆特征向量以及生成的视觉词典进行空间金字塔分解,得到最终图像特征向量,形成训练图像模型库;对待分类图像提取出最终图像特征向量,并利用KNN分类器进行分类,输出待分类图像的类别。本发明使用PCA‑SIFT算法可以自由降低特征向量的维数,大大降低计算量。另外改进的k‑means算法使用局部因子异常算法去除离群点和孤立点之后,再进行聚类,能够显著提高k‑means算法聚类的精度,且对初始中心选择更有针对性,减少计算量和迭代次数。
Description
技术领域
本发明涉及视频图像分类方法,特别是涉及一种基于视觉词袋模型的监控视频车型分类方法。
背景技术
随着电子工业技术和多媒体技术的发展,数字图像和视频等被广泛的应用于多个领域,信息呈现爆炸性增长,形成了海量数据环境。与文本信息相比,图像信息具有直观,生动,易于理解的特点,给人们带来了很多便利,但是与此同时也带来很多问题,选取需要的信息变得异常困难,检索时常常存在大量无用或者错误信息。词袋模型来源于文本分类,文本可以看作是无序的单词的集合,通过对文本中的单词进行统计,可以完成文本的分类。图像分类与之类似,图像可以看作是许多与位置无关的局部特征的集合,这些局部特征相当于文本中的单词,我们把这些局部特征称作视觉单词,视觉单词的集合称为视觉词典。
智能交通系统在交通和科技日益发展的今天得到凸显,其中车型分类技术是重要的一个分支,但,现有的车型分类算法使用SIFT提取车辆局部特征,并使用k-means对特征向量进行聚类生成视觉单词,但该方法存在以下缺点:SIFT方法提取的每个特征向量使用一个128维的浮点数组表示,然后需要对特征向量进行聚类,空间金字塔匹配等操作。对于这些操作来说,128维的数组显得过于庞大,而且数组中包括了很多的冗余信息,这会导致计算量大大增加。且k-means聚类算法对于离群点和孤立点非常敏感,如果在需要进行聚类的特征向量中存在较多的离群点和孤立点,那么将会对聚类结果造成很大的影响,从而影响聚类的准确度。K-means聚类算法初始聚类中心的选择非常重要,如果初始聚类中心选择不好,那么迭代的次数将会增加,计算量也会更大。
发明内容
发明目的:为解决现有技术的不足,提供一种基于改进的K-means算法和改进的SIFT算法的视觉词袋模型的监控视频车型分类方法。
技术方案:一种基于视觉词袋模型的监控视频车型分类方法,包括以下步骤:
S01、采集车辆图像,并将其分为训练图像库和待分类图像,其中,车辆图像包括车脸;
S02、对训练图像库中的车辆图像提取车辆特征向量;
S03、对获得的车辆特征向量进行聚类生成视觉词典;
S04、将提取的车辆特征向量以及生成的视觉词典进行空间金字塔分解,得到训练图像库中车辆图像的最终图像特征向量,形成训练图像模型库;
S05、对待分类图像按照步骤S02至S04提取出最终图像特征向量,并利用KNN分类器进行分类,输出待分类图像的类别。
进一步的,所述步骤S02中使用PCA-SIFT算法提取车辆图像的车辆特征向量,其中车辆特征向量维数设置为S维,这样每一个车辆图像最终特征向量维数为S维;其包括以下步骤:
(1)输入车辆图像;
(2)对车辆图像进行高斯差分尺度空间特征点检测
二维图像的尺度空间定义为:
L(x,y,σ)=G(x,y,σ)*I(x,y)
其中,I(x,y)为车辆图像信息,G(x,y,σ)是尺度可变高斯函数,计算公式如下:
其中,(x,y)是空间坐标,σ是尺度坐标,σ大小决定图像的平滑程度高斯差分尺度空间,得到稳定的特征点,高斯差分尺度空间的计算公式如下:
D(x,y,σ)=(G(x,y,εσ)-G(x,y,σ))*I(x,y)=L(x,y,εσ)-L(x,y,σ)
其中,ε为系数,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小;如果一个点在多尺度空间本层以及上下两层的所有领域中是最大值或最小值时,就认为该点是图像在该尺度下的一个特征点;
(3)去除不好的特征点
通过拟合三维二次函数以确定特征点的位置和尺度达到亚像素精度,同时去除低对比度的特征点和不稳定的边缘响应点,以增强匹配稳定性、提高抗噪声能力;
(4)特征点的主方向计算
为上一步确定的每幅图像的特征点计算一个主方向,依照这个主方向进行下一步运算,利用特征点邻域像素的梯度方向分布特性为每个特征点指定方向参数,使得算子具备旋转不变性;其方向参数的计算公式如下:
θ(x,y)=αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
其中,(x,y)为特征点位置,m(x,y)为(x,y)处梯度的模值,即(x,y)所处尺度,θ(x,y)为(x,y)处梯度的方向,即(x,y)的主方向,α为矩阵Q的特征值,其中L所用的尺度为其对应的每个特征点各自所在的尺度;
(5)描述子的构造;
(6)提取出车辆特征向量。
更进一步的,所述步骤(5)包括:
(a)对特征点确定一个大小为41*41的邻域,旋转这个邻域到该特征点的主方向;
(b)计算邻域内特征点的水平梯度与垂直梯度,这样每个特征点确定了一个大小为39*39*2=3042维的特征描述子向量;
(c)假设有N个特征点,那么所有特征点描述子向量构成一个N*3042的矩阵,计算矩阵的协方差矩阵Cr;
(d)计算协方差矩阵Cr的特征向量,根据特征根的大小排序,选择对应的前n′个特征向量,构成投影矩阵T;
(e)对所述特征描述子向量,乘以投影矩阵T,得到3042维降到n′维的车辆特征向量,其包括视觉词典和视觉词典中视觉单词的频率。
进一步的,所述步骤S03包括:
(1)使用LOF算法去除离群点和孤立点;
(2)定义聚类中心数ρ以及车辆特征向量集合F;
(3)根据改进的算法确定ρ个初始聚类中心;
(4)计算车辆特征向量集合F中的向量fi,i=1,2,...,m与ρ个初始均值向量的欧氏距离,将fi加入与其距离最近的簇Ci中:
Ci=Ci∪{fi}
(5)判断当前迭代次数是否已达预设的上限值
若达到预设的上限值,则返回步骤(4),否则,结束聚类计算,得到视觉单词数量为M′的视觉词典。
更进一步的,所述步骤(1)中
特征点p的局部离群因子表示为:
其中,lrdk(o)表示特征点o的局部可达密度,lrdk(p)表示特征点p的局部可达密度,Nk(p)表示特征点p的第k距离邻域,LOFk(p)表示特征点p的邻域点Nk(p)的局部可达密度与特征点p的局部可达密度之比的平均数,设定阈值为10,若LOFk(p)大于等于10,则认为特征点p是离群点或孤立点;若LOFk(p)小于10,则认为特征点p是正常点。
更进一步的,所述步骤(3)包括:
定义车辆特征向量集合:F={f1,f2,...,fm};其中,fi为特征点的特征向量,i=1,2,...,m;从中任选一个特征点的特征向量,计算它与其余所有特征点的特征向量的欧氏距离得到m-1个欧氏距离,其中,两个特征点的特征向量x和y的欧氏距离定义为:
把得到的m-1欧氏距离写成距离矢量形式为:
D={d1,d2,...,dm-1}
其中,di为第i个欧氏距离,i=1,2,...,m-1;
最后计算基于距离的概率大小为:
p={p1,p2,...,pm-1}
选取其中前k′个概率最大的特征点的特征向量λi(i=1,2,...,k′)作为初始聚类中心Ci,每个初始聚类中心Ci只有一个向量λi。
进一步的,所述步骤S04包括:
(1)对采集的车辆图像进行分层处理
首先需要确定车辆图像空间金字塔的层数,设置层数为R,然后对图像进行分层处理,j=0,1,…,R-1,j表示车辆图像在空间金字塔中的具体层次,j=0表示原车辆图像,那么在第j层,把车辆图像均匀分成不重叠的2j×2j块子图像;
(2)统计不同层次车辆图像中不同子图像的直方图
j=0时,即为原图像,根据k-means聚类结果绘制直方图,其中直方图的横坐标为M′个视觉词典的序数,纵坐标为所在车辆图像中相应的视觉单词出现的次数,最终得到一个1×M′维的向量来表示该车辆图像第0层的特征,将其记作H0;
在上述步骤(1)中把车辆图像分为R层,在第j层从左上角的第一块图像开始,从左至右,从上至下分别记作第μ块,μ=1,2,...,2j×2j,进而获得每层车辆图像的直方图;对于第j层,可以得到2j×2j个1×M′的向量来表示该层车辆图像的特征向量,把这些特征向量按照顺序连接起来记作H1,由此可以完成每层车辆图像特征向量的统计;
(3)计算车辆图像的直方图表示
不同层次的空间金字塔图像需要分配不同的权重,然后将不同层次的直方图串联成一个直方图,对于不同层次的空间金字塔图像按照下式分配权重:
wj=1/2j+1
分别将不同层次的空间金字塔获得的权重和对应层次的直方图向量Hj相乘,得到每一层空间金字塔图像的最终直方图,并且将不同层次的最终直方图连接起来,成为这幅车辆图像在不同空间金字塔的最终表示H,即最终图像特征向量,其表达式如下:
H=[w0H0 w1H1...wjHj]
训练图像库中的每一幅车辆图像的最终图像特征向量形成训练图像模型库。
进一步的,所述步骤S05包括:
计算待分类图像库中车辆图像与训练图像模型库中每幅图像的距离,取其中距离最近的κ幅训练图像,统计这κ幅训练图像的类别频率,选取类别频率最高的图像类别作为待分类图像的类别。
有益效果:与现有技术相比,本发明有以下优点:
(1)对SIFT算法进行了改进,使用PCA-SIFT算法可以对特征向量进行降维,并且降维之后特征向量的维数可以自由设置,因此,大大降低计算量。
(2)对k-means算法进行了两点改进,一是初始中心选择的改进,二是使用局部因子异常算法去除了离群点和孤立点。本发明算法对初始中心选择更有针对性,从而能够减少k-means算法的计算量和迭代次数;特征向量群中离群点和孤立点的存在会影响k-means聚类的精度,使用局部因子异常算法去除离群点和孤立点之后,再进行聚类,能够显著提高k-means算法聚类的精度。
附图说明
图1是现有技术算法模型的框图;
图2是现有技术SIFT算法流程图;
图3是现有技术使用SIFT提取车辆特征点的示意图;
图4是现有技术k-means算法流程图;
图5是现有技术空间金字塔匹配示意图;
图6是现有技术空间金字塔分层示意图;
图7是现有技术特征因子直方图;
图8是本发明改进的算法框图;
图9是本发明改进的k-means算法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行详细的说明。
图1为现有技术的算法框图,图2为现有技术中SIFT算法框图,图3为使用SIFT算法提取特征点的效果图,图中圆圈就是提取出的特征点,圆圈上的直线就是特征点的梯度方向。图4为现有的k-means聚类算法流程图。如图5为空间金字塔匹配不同层次的视觉单词直方图,如图5所示把图像分为3层,第0层表示整张图像,第1层表示把图像切分成4块,第2层表示把图像切分成16块;其中,直方图表示每一层中视觉单词的统计结果。图6是空间金字塔匹配不同层次的视觉单词权重计算示意图,图6中的不同符号代表不同的视觉单词,将不同层次视觉单词统计之后,再乘以不同层次的权重系数,就得到了不同层次的视觉单词直方图。图7为不同车型视觉单词的统计直方图,其中,横坐标代表不同车型,纵坐标表示特征因子个数,即直方图的高度表示视觉单词的个数,视觉单词用不同形状的直方图表示。
针对现有技术存在的缺点本发明对现有方法中的聚类方法k-means进行了改进,并针对SIFT方法进行了改进。具体为:
如图8所示,一种基于视觉词袋模型的监控视频车型分类方法,算法的改进主要集中在PCA-SIFT降维和k-means算法,包括以下步骤:
S01、采集车辆图像,并将其分为训练图像库和待分类图像,其中,车辆图像包括车脸;
S02、对训练图像库中的车辆图像提取车辆特征向量;
PCA(Principal Component Analysis)即主成分分析,也被称为KL变换或者Hotelling变换,数据的变换可以达到分类或者压缩数据的作用,PCA-SIFT是对SIFT描述子数据进行了压缩。首先收集数据所有特征,然后观察数据的重要成分进行分类,也可以抛弃不重要的成分,减少或者压缩数据。
本发明使用PCA-SIFT算法提取车辆图像中车辆的特征向量,其中特征向量维数设置为20维,这样每一图像最终特征向量维数为20维;包括以下步骤:
(1)输入车辆图像;
(2)对车辆图像进行高斯差分尺度空间特征点检测
构建尺度空间是PCA-SIFT算法的初始化操作,目的是模拟图像数据的多尺度特征。高斯卷积和是实现尺度变换的唯一线性核,二维图像的尺度空间定义为:
L(x,y,σ)=G(x,y,σ)*I(x,y)
其中,I(x,y)为车辆图像信息,G(x,y,σ)是尺度可变高斯函数,计算公式如下:
其中,(x,y)是空间坐标,σ是尺度坐标,σ大小决定图像的平滑程度;大尺度对应图像的整体特征,小尺度对应图像的细节特征,即σ越大整体特征越明显,σ越小细节特征越明显。大的σ值对应低的分辨率,小的σ值对应高的分辨率。为了有效的在尺度空间检测到稳定的特征点,提出了高斯差分尺度空间,高斯差分尺度空间是利用不同尺度的高斯差分核与图像卷积生成。公式如下:
D(x,y,σ)=(G(x,y,εσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)
其中,ε为系数,为了寻找尺度空间的特征点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小;如果一个点在多尺度空间本层以及上下两层的所有领域中是最大或最小值时,就认为该点是图像在该尺度下的一个特征点;
(3)去除不好的特征点
这一步的目的是去除高斯差分尺度空间中局部曲率非常不对称的像素。通过拟合三维二次函数以确定特征点的位置和尺度达到亚像素精度,同时去除低对比度的特征点和不稳定的边缘响应点,以增强匹配稳定性、提高抗噪声能力。
高斯差分尺度空间函数x泰勒展开式如下:
其中,D(x)表示函数D(x,y,σ)的x的偏导函数,Dx(0)表示函数D(x,y,σ)在x=0处的一阶偏导数,Dxx(0)表示函数D(x,y,σ)在x=0处的二阶偏导数,对上式求导,并令其为0,得到精确位置:
将公式(2)代入公式(1),得到高斯差分尺度空间特征点处D(x)的取值,只取前两项即可得到
一个定义不好的高斯差分尺度空间特征点在横跨边缘的地方有较大的主曲率,而在垂直边缘的方向有较小的主曲率,主曲率通过一个Q矩阵求出:
其中,Dxx为函数D(x,y,σ)的x的二阶偏导数,Dxy为函数D(x,y,σ)中x和y的混合偏导数,Dyy为函数D(x,y,σ)的y的二阶偏导数。
车辆特征向量集合F的主曲率和矩阵Q的特征值成正比,令:
Tr(Q)=Dxx+Dyy=α+β
Det(Q)=DxxDyy-Dxy 2=αβ
其中,α和β为矩阵Q的特征值,且α>β。
令α=γβ,则
(γ+1)2/γ的值在两个特征值相等的时候最小,而且随着γ的增大而增大,因此,为了检测主曲率是否在某阈值γ下,只需要检测
通常取γ=10。
(4)特征点的主方向计算
上一步确定了每幅图像的特征点,需要为每个特征点计算一个主方向,依照这个主方向进行下一步运算,利用特征点邻域像素的梯度方向分布特性为每个特征点指定方向参数,使得算子具备旋转不变性。
θ(x,y)=αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
其中,(x,y)为特征点位置,m(x,y)为(x,y)处梯度的模值,即(x,y)所处尺度,θ(x,y)为(x,y)处梯度的方向,即(x,y)的主方向,α矩阵Q的特征值,其中L所用的尺度为其对应的每个特征点各自所在的尺度;至此,图像的特征点已经检测完毕,每个特征点有三个信息:位置、所处尺度和主方向。
(5)描述子的构造
(a)对特征点确定一个大小为41*41的邻域,旋转这个邻域到该特征点的主方向;
(b)计算邻域内特征点的水平梯度与垂直梯度,这样每个特征点确定了一个大小为39*39*2=3042维的特征描述子向量;
(c)假设有N个特征点,那么所有特征点描述子向量构成一个N*3042的矩阵,计算矩阵的协方差矩阵Cr;
(d)计算协方差矩阵Cr的特征向量,根据特征根的大小排序,选择对应的前n′个特征向量,构成投影矩阵T;
(e)对所述特征描述子向量,乘以投影矩阵T,得到3042维降到n′维的车辆特征向量,其包括视觉词典和视觉词典中视觉单词的频率。
(6)提取出车辆特征向量。
S03、对获得的特征进行聚类生成视觉词典,包括以下步骤:
(1)使用LOF算法去除离群点和孤立点
使用LOF算法来去除离群点和孤立点,LOF算法(Local Outlier Factor,局部离群因子检测方法),是基于密度的离群点检测方法中一个比较有代表性的算法。该算法会给数据集中的每个点计算一个离群因子LOF,通过判断LOF与阈值的关系来判定是否是离群因子。若LOF大于等于10,则认为是离群因子,若LOF小于10,则是正常点。具体为:
(a)定义d(p,o)为特征点p和特征点o之间的距离;
(b)第k距离,对于特征点p的第k距离dk(p)定义如下:
在集合中至少有不包括p在内的k个点ζ∈C{ζ≠p},满足d(p,ζ)≤d(p,o);且在集合中最少有不包括p在内的k-1个点ζ∈C{ζ≠p},满足d(p,ζ)<d(p,o);
因此,p的第k距离,也就是距离特征点p第k远的特征点的距离,不包括p;
(c)第k距离邻域
特征点p的第k距离邻域Nk(p),就是特征点p的第k距离以内的所有点,其包括第k距离的特征点;
(d)可达距离
特征点o到特征点p的第k可达距离定义为:rd(p,o)=max{dk(o),d(p,o)};
即特征点o到特征点p的第k可达距离,是特征点o的第k距离,或者为特征点o和特征点p之间的真实距离;且,距离特征点o最近的k个特征点,特征点o到它们的可达距离被认为相等,并且都等于特征点o的第k距离dk(o);
(e)局部可达密度
特征点p的局部可达密度可以表示为:
其表示特征点p的第k邻域内的特征点到特征点p的平均可达距离的倒数;其中,distk(p,o)p点和o点之间的距离;
(f)局部离群因子
特征点p的局部离群因子表示为:
其表示特征点p的邻域点Nk(p)的局部可达密度与特征点p的局部可达密度之比的平均数。通过判断LOF是否接近1来判定是否是离群因子。通常设定阈值为10,若LOF大于10,则认为是离群因子;若LOF小于10,则认为是正常点。
(2)定义聚类数目ρ以及样本数据集合D;
(3)根据改进的算法确定ρ个聚类中心点的车辆特征向量集合F
由于k-means聚类算法初始中心选取的随机性,大大增加了迭代的计算花销,因此,本发明对初始值选择进行了改进,改进后的k-means聚类算法初始中心不再是随机选择的,而是基于彼此之间距离大小选取k′个可能性最大的特征点,也就是说,假如一个特征矢量与其他所有的特征矢量有最大的欧氏距离,那么它被选取为一个初始中心的概率最大。这是因为类别差异越大,它们类别中的视觉单词的欧氏距离也应该越大。
定义车辆特征向量集合:F={f1,f2,...,fm};其中,fi为特征点的特征向量,i=1,2,...,m;从中任选一个特征点的特征向量,计算它与其余所有特征点的特征向量的欧氏距离得到m-1个欧氏距离,两个特征点的特征向量x和y的欧氏距离定义为:
把得到的m-1欧氏距离写成距离矢量形式为:
T={d1,d2,...,dm-1}
其中,di为第i个欧氏距离,i=1,2,...,m-1;
最后计算基于距离的概率大小为:
p={p1,p2,...,pm-1}
选取其中前k′个概率最大的特征点的特征向量λi(i=1,2,...,k′)作为初始聚类中心Ci,每个初始聚类中心Ci只有一个向量λi。算法如图9所示。
(4)计算车辆特征向量集合D中的向量fi(i=1,2,…,m)与ρ个初始聚类中心的欧氏距离,将fi加入与其距离最近的簇Ci中,
Ci=Ci∪{fi}
(5)判断当前迭代次数是否已经达到预设的上限值
若达到预设的上限值,则返回步骤(4),否则,结束聚类计算,得到视觉单词数量为M′的视觉词典。
S04、将提取的车辆特征以及生成的视觉词典进行空间金字塔分解,得到训练图像库的最终图像特征;
根据空间金字塔模型,需要对采集到的车辆图像进行不同层次的分层处理,统计每一层中相同视觉单词的数量形成视觉单词直方图,不同层次的直方图有不同的权重,根据每层的权重得到该层的最终视觉单词直方图表示,最后,把不同层次的直方图按照层次顺序连接起来,形成车辆图像的直方图表示,空间金字塔模型的具体步骤如下所述:
(1)对采集的车辆图像进行分层处理
首先需要确定车辆图像空间金字塔的层数,设置层数为R,然后对图像进行分层处理,j=0,1,…,R-1,j表示图像在空间金字塔中的具体层次,j=0表示原图像,那么在第j层,把图像均匀分成不重叠的2j×2j块子图像;
(2)统计不同层次图像中不同子块的直方图
j=0时,即为原图像,根据k-means聚类结果绘制直方图,其中直方图的横坐标为M′个视觉单词字典的序数,纵坐标为所在图像中相应的视觉单词出现的次数,最终得到一个1×M′维的向量来表示该图像第0层的特征,将其记作H0;
在上述步骤(1)中把车辆图像分为R层,在第j层从左上角的第一块图像开始,从左至右,从上至下分别记作第μ块,μ=1,2,...,2j×2j,进而获得每层图像的直方图;对于第j层,可以得到2j×2j个1×M′的向量来表示该层图像的特征,把这些向量按照顺序连接起来记作H1,由此可以完成每层图像特征的统计;
(3)计算图像的直方图表示
不同层次的空间金字塔图像需要分配不同的权重,然后将不同层次的直方图串联成一个直方图,对于不同层次的空间金字塔图像按照下式分配权重:
wj=1/2j+1
分别将不同层次的空间金字塔获得的权重和对应层次的直方图向量Hi相乘,得到每一层空间金字塔图像的最终直方图,并且将不同层次的最终直方图连接起来,成为这幅车辆图像在不同空间金字塔的最终表示H,即最终图像特征向量,其表达式如下:
H=[w0H0 w1H1...wjHj]
训练图像库中的每一幅车辆图像的最终图像特征向量形成训练图像模型库。
S05、对待分类图像利用KNN分类器进行分类,输出待分类图像的类别;
K最近邻(KNN)算法是数据挖掘分类技术中最常用的方法之一,KNN算法的核心思想是如果一个样本在特征空间中的δ个最近邻的样本的大多数属于某一个类别,那么这个样本也属于这个类别。
本发明中的KNN算法使用欧氏距离来度量两个向量之间的距离:
计算待分类图像库中车辆图像与训练图像模型库中每幅图像的距离,取其中距离最近的κ幅训练图像,统计这κ幅训练图像的类别频率,选取类别频率最高的图像类别作为待分类图像的类别。
Claims (2)
1.一种基于视觉词袋模型的监控视频车型分类方法,其特征在于,包括以下步骤:
S01、采集车辆图像,并将其分为训练图像库和待分类图像,其中,车辆图像包括车脸;
S02、对训练图像库中的车辆图像提取车辆特征向量;具体为:
使用PCA-SIFT算法提取车辆图像的车辆特征向量,其中车辆特征向量维数设置为S维,这样每一个车辆图像最终特征向量维数为S维;其包括以下步骤:
(1)输入车辆图像;
(2)对车辆图像进行高斯差分尺度空间特征点检测
二维图像的尺度空间定义为:
L(x,y,σ)=G(x,y,σ)*I(x,y)
其中,I(x,y)为车辆图像信息,G(x,y,σ)是尺度可变高斯函数,计算公式如下:
其中,(x,y)是空间坐标,σ是尺度坐标,σ大小决定图像的平滑程度高斯差分尺度空间,得到稳定的特征点,高斯差分尺度空间的计算公式如下:
D(x,y,σ)=(G(x,y,εσ)-G(x,y,σ))*I(x,y)=L(x,y,εσ)-L(x,y,σ)
其中,ε为系数,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小;如果一个点在多尺度空间本层以及上下两层的所有领域中是最大值或最小值时,就认为该点是图像在该尺度下的一个特征点;
(3)去除不好的特征点
通过拟合三维二次函数以确定特征点的位置和尺度达到亚像素精度,同时去除低对比度的特征点和不稳定的边缘响应点,以增强匹配稳定性、提高抗噪声能力;
(4)特征点的主方向计算
为上一步确定的每幅图像的特征点计算一个主方向,依照这个主方向进行下一步运算,利用特征点邻域像素的梯度方向分布特性为每个特征点指定方向参数,使得算子具备旋转不变性;其方向参数的计算公式如下:
θ(x,y)=αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))
其中,(x,y)为特征点位置,m(x,y)为(x,y)处梯度的模值,即(x,y)所处尺度,θ(x,y)为(x,y)处梯度的方向,即(x,y)的主方向,α为矩阵Q的特征值,其中L所用的尺度为其对应的每个特征点各自所在的尺度;
(5)描述子的构造;具体包括:
(a)对特征点确定一个大小为41*41的邻域,旋转这个邻域到该特征点的主方向;
(b)计算邻域内特征点的水平梯度与垂直梯度,这样每个特征点确定了一个大小为39*39*2=3042维的特征描述子向量;
(c)假设有N个特征点,那么所有特征点描述子向量构成一个N*3042的矩阵,计算矩阵的协方差矩阵Cr;
(d)计算协方差矩阵Cr的特征向量,根据特征根的大小排序,选择对应的前n′个特征向量,构成投影矩阵T;
(e)对所述特征描述子向量,乘以投影矩阵T,得到3042维降到n′维的车辆特征向量,其包括视觉词典和视觉词典中视觉单词的频率;
(6)提取出车辆特征向量;
S03、对获得的车辆特征向量进行聚类生成视觉词典;
具体包括:
(1)使用LOF算法去除离群点和孤立点;具体为:
特征点p的局部离群因子表示为:
其中,lrdk(o)表示特征点o的局部可达密度,lrdk(p)表示特征点p的局部可达密度,Nk(p)表示特征点p的第k距离邻域,LOFk(p)表示特征点p的邻域点Nk(p)的局部可达密度与特征点p的局部可达密度之比的平均数,设定阈值为10,若LOFk(p)大于等于10,则认为特征点p是离群点或孤立点;若LOFk(p)小于10,则认为特征点p是正常点;
(2)定义聚类中心数ρ以及车辆特征向量集合F;
(3)根据改进的算法确定ρ个初始聚类中心;
定义车辆特征向量集合:F={f1,f2,...,fm};其中,fi为特征点的特征向量,i=1,2,…,m;从中任选一个特征点的特征向量,计算它与其余所有特征点的特征向量的欧氏距离得到m-1个欧氏距离,其中,两个特征点的特征向量x和y的欧氏距离定义为:
把得到的m-1欧氏距离写成距离矢量形式为:
D={d1,d2,...,dm-1}
其中,di为第i个欧氏距离,i=1,2,...,m-1;
最后计算基于距离的概率大小为:
p={p1,p2,...,pm-1}
选取其中前k′个概率最大的特征点的特征向量λi(i=1,2,...,k′)作为初始聚类中心Ci,每个初始聚类中心Ci只有一个向量λi;
(4)计算车辆特征向量集合F中的向量fi,i=1,2,...,m与ρ个初始均值向量的欧氏距离,将fi加入与其距离最近的簇Ci中:
Ci=Ci∪{fi}
(5)判断当前迭代次数是否已达预设的上限值;
若达到预设的上限值,则返回步骤(4),否则,结束聚类计算,得到视觉单词数量为M′的视觉词典;
S04、将提取的车辆特征向量以及生成的视觉词典进行空间金字塔分解,得到训练图像库中车辆图像的最终图像特征向量,形成训练图像模型库;具体包括:
(1)对采集的车辆图像进行分层处理;
首先需要确定车辆图像空间金字塔的层数,设置层数为R,然后对图像进行分层处理,j=0,1,…,R-1,j表示车辆图像在空间金字塔中的具体层次,j=0表示原车辆图像,那么在第j层,把车辆图像均匀分成不重叠的2j×2j块子图像;
(2)统计不同层次车辆图像中不同子图像的直方图;
j=0时,即为原图像,根据k-means聚类结果绘制直方图,其中直方图的横坐标为M′个视觉词典的序数,纵坐标为所在车辆图像中相应的视觉单词出现的次数,最终得到一个1×M′维的向量来表示该车辆图像第0层的特征,将其记作H0;
在上述步骤(1)中把车辆图像分为R层,在第j层从左上角的第一块图像开始,从左至右,从上至下分别记作第μ块,μ=1,2,...,2j×2j,进而获得每层车辆图像的直方图;对于第j层,可以得到2j×2j个1×M′的向量来表示该层车辆图像的特征向量,把这些特征向量按照顺序连接起来记作H1,由此可以完成每层车辆图像特征向量的统计;
(3)计算车辆图像的直方图表示;
不同层次的空间金字塔图像需要分配不同的权重,然后将不同层次的直方图串联成一个直方图,对于不同层次的空间金字塔图像按照下式分配权重:
wj=1/2j+1
分别将不同层次的空间金字塔获得的权重和对应层次的直方图向量Hj相乘,得到每一层空间金字塔图像的最终直方图,并且将不同层次的最终直方图连接起来,成为这幅车辆图像在不同空间金字塔的最终表示H,即最终图像特征向量,其表达式如下:
H=[w0H0 w1H1...wjHj]
训练图像库中的每一幅车辆图像的最终图像特征向量形成训练图像模型库;
S05、对待分类图像按照步骤S02至S04提取出最终图像特征向量,并利用KNN分类器进行分类,输出待分类图像的类别。
2.根据权利要求1所述的车型分类方法,其特征在于,所述步骤S05包括:计算待分类图像库中车辆图像与训练图像模型库中每幅图像的距离,取其中距离最近的κ幅训练图像,统计这κ幅训练图像的类别频率,选取类别频率最高的图像类别作为待分类图像的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710595141.6A CN107368807B (zh) | 2017-07-20 | 2017-07-20 | 一种基于视觉词袋模型的监控视频车型分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710595141.6A CN107368807B (zh) | 2017-07-20 | 2017-07-20 | 一种基于视觉词袋模型的监控视频车型分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107368807A CN107368807A (zh) | 2017-11-21 |
CN107368807B true CN107368807B (zh) | 2020-06-30 |
Family
ID=60307473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710595141.6A Expired - Fee Related CN107368807B (zh) | 2017-07-20 | 2017-07-20 | 一种基于视觉词袋模型的监控视频车型分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107368807B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10713563B2 (en) * | 2017-11-27 | 2020-07-14 | Technische Universiteit Eindhoven | Object recognition using a convolutional neural network trained by principal component analysis and repeated spectral clustering |
CN108564111A (zh) * | 2018-03-26 | 2018-09-21 | 太原理工大学 | 一种基于邻域粗糙集特征选择的图像分类方法 |
CN109583307A (zh) * | 2018-10-31 | 2019-04-05 | 东华大学 | 一种基于局部特征与词包模型的羊绒羊毛纤维识别方法 |
CN109558823B (zh) * | 2018-11-22 | 2020-11-24 | 北京市首都公路发展集团有限公司 | 一种以图搜图的车辆识别方法及系统 |
CN109657711A (zh) * | 2018-12-10 | 2019-04-19 | 广东浪潮大数据研究有限公司 | 一种图像分类方法、装置、设备及可读存储介质 |
CN111414958B (zh) * | 2020-03-18 | 2022-02-08 | 燕山大学 | 一种视觉词袋金字塔的多特征图像分类方法及系统 |
US11709917B2 (en) * | 2020-05-05 | 2023-07-25 | Nanjing University | Point-set kernel clustering |
CN112446902A (zh) * | 2020-11-24 | 2021-03-05 | 浙江大华技术股份有限公司 | 目标车辆异常的确定方法及装置、存储介质、电子装置 |
CN113657511B (zh) * | 2021-02-02 | 2022-10-28 | 哈尔滨商业大学 | 一种商品图像特征描述方法 |
CN113223668B (zh) * | 2021-04-15 | 2023-05-02 | 中南民族大学 | 胶囊内镜图像冗余数据筛查方法 |
CN113447771A (zh) * | 2021-06-09 | 2021-09-28 | 上海交通大学 | 一种基于sift-lda特征的局部放电模式识别方法 |
CN113567953A (zh) * | 2021-07-28 | 2021-10-29 | 哈尔滨工业大学 | 一种基于sift视觉词袋的全波形激光回波信号的分类方法 |
CN115082720A (zh) * | 2022-07-22 | 2022-09-20 | 国网江西省电力有限公司信息通信分公司 | 基于离群点检测的差分隐私直方图发布方法及装置 |
CN116682043B (zh) * | 2023-06-13 | 2024-01-26 | 西安科技大学 | 基于SimCLR无监督深度对比学习异常视频清洗方法 |
CN117290741B (zh) * | 2023-11-14 | 2024-03-19 | 北京阿帕科蓝科技有限公司 | 车辆聚类方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411710A (zh) * | 2011-12-09 | 2012-04-11 | 东南大学 | 一种基于车脸特征的车辆类型识别方法 |
CN103279738A (zh) * | 2013-05-09 | 2013-09-04 | 上海交通大学 | 车标自动识别方法及系统 |
CN106570514A (zh) * | 2016-05-08 | 2017-04-19 | 扬州西岐自动化科技有限公司 | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 |
-
2017
- 2017-07-20 CN CN201710595141.6A patent/CN107368807B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411710A (zh) * | 2011-12-09 | 2012-04-11 | 东南大学 | 一种基于车脸特征的车辆类型识别方法 |
CN103279738A (zh) * | 2013-05-09 | 2013-09-04 | 上海交通大学 | 车标自动识别方法及系统 |
CN106570514A (zh) * | 2016-05-08 | 2017-04-19 | 扬州西岐自动化科技有限公司 | 一种基于词袋模型和支持向量机的汽车轮毂分类方法 |
Non-Patent Citations (2)
Title |
---|
narrowing the semantic gap-improved text-based web document retrieval using visual features;Rong zhao,etc;<IEEE transactions on multimedia>;20020630;第4卷(第2期);第189-200页 * |
基于空间金字塔视觉词袋模型的交通视频车型分类方法研究;戴光麟等;《浙江工业大学学报》;20160630;第44卷(第3期);第247-253页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107368807A (zh) | 2017-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107368807B (zh) | 一种基于视觉词袋模型的监控视频车型分类方法 | |
CN107515895B (zh) | 一种基于目标检测的视觉目标检索方法与系统 | |
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
Sun et al. | Automatic target detection in high-resolution remote sensing images using spatial sparse coding bag-of-words model | |
CN108122008B (zh) | 基于稀疏表示和多特征决策级融合的sar图像识别方法 | |
US8675974B2 (en) | Image processing apparatus and image processing method | |
CN107480620B (zh) | 基于异构特征融合的遥感图像自动目标识别方法 | |
CN104850822B (zh) | 基于多特征融合的简单背景下的叶片识别方法 | |
CN112149758B (zh) | 一种基于欧式距离和深度学习的高光谱开放集分类方法 | |
CN107085731B (zh) | 一种基于rgb-d融合特征与稀疏编码的图像分类方法 | |
CN108932518B (zh) | 一种基于视觉词袋模型的鞋印图像特征提取及检索方法 | |
CN108388902B (zh) | 结合全局框架点与局部shot特征的复合3d描述子构建方法 | |
CN105654122B (zh) | 基于核函数匹配的空间金字塔物体识别方法 | |
CN112580480B (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN107633065A (zh) | 一种基于手绘草图的识别方法 | |
Duarte-Carvajalino et al. | Multiscale representation and segmentation of hyperspectral imagery using geometric partial differential equations and algebraic multigrid methods | |
CN110751027A (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN110738672A (zh) | 一种基于分层高阶条件随机场的图像分割方法 | |
CN113447771A (zh) | 一种基于sift-lda特征的局部放电模式识别方法 | |
CN110334704B (zh) | 基于分层学习的三维模型兴趣点提取方法及系统 | |
CN112966629B (zh) | 基于图像变换和BoF模型的遥感图像场景分类方法 | |
CN112784722B (zh) | 基于YOLOv3和词袋模型的行为识别方法 | |
Battiato et al. | Scene categorization using bag of textons on spatial hierarchy | |
CN110929801B (zh) | 一种基于改进的Euclid距离KNN分类方法和系统 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200630 |