一种面向智能视频监控的监控场景类型辨识方法
技术领域
本发明涉及场景图像识别技术领域,尤其涉及一种面向智能视频监控的监控场景类型辨识方法。
背景技术
监控场景中的目标检测与辨识是智能视频监控领域中的重要研究内容之一,目前在民用与军事领域都有着广泛的应用空间与市场需求。然而,受到现有视频监控成像技术的限制及建设成本的制约,通常我们所能获得的视频监控场景图像往往存在“低分辨率”、“高噪声”、“模糊”、“图像畸变”等图像品质问题;与此同时,视频图像中还普遍存在着诸如“光照变化”、“物体遮挡”、“视角变化”和“尺度变化”等瓶颈性问题。以上各种问题都给后期在监控场景图像中进行目标检测与辨识带来了很大的困难,因此长期困扰着智能视频监控技术的发展。虽然数字图像增强与修复技术能够在一点程度上提高和修正场景图像的品质,但现有技术在实际应用中远未达到预期效果;且从理论上来说,此类技术能够发挥的作用也比较有限,并不可能从根本上解决监控场景图像低品质带来的目标检测和辨识难题。反观我们自身,人类在监测和辨识视频场景图像中的目标物体时,虽然也受限于自身视力(模糊、散光等)和复杂场景条件(视角、光照、遮挡等)的影响——因而在客观上也不可能完全获取场景中每个物体的清晰图像,但是人类仍然可以快速、准确的检测和辨识出视频场景图像中众多的小而模糊的目标物体。根据最新的脑科学研究报道,人类的这种视觉能力实际上主要得益于对视觉场景类型先验知识的运用,对场景类型的判断和辨识通常优先于对场景中目标物体的检测和辨识,在快速完成对场景类型的判断和识别后,人类便将对场景的先验知识作为背景框架和约束条件进一步对场景中的物体进行检测和辨识(检测是分割出不同的物体区块,辨识则是具体识别出该区块的内容)。例如:在没有场景类型约束的情况下,对模糊目标物体的检测与辨识是比较困难的,因为图像的模糊性带来的是无限的可能性,当加入场景类型约束条件后,目标物体的可能性范围大大缩小了,通过进一步对物体在场景中的空间位置和其他视觉信息(如纹理、色彩等)进行综合分析就可以有效的对目标进行推断和辨识。对于其他诸如光照变化、物体遮挡、视角变化和尺度变化等问题,引入场景类型作为背景先验知识和目标约束条件也能够起到相同的作用。因此,对监控场景类型的快速、准确辨识对于智能视频监控中的目标检测与辨识具有重要的辅助作用,可以有效的排除各种视觉干扰、减少伪目标数量,增加监控设备的智能性与自适应性,降低后期视频分析与处理的复杂度,提高目标检测与辨识的准确性。
从本质上说,监控场景也归属于自然场景,但是由于其自身所具有的特殊性,使得通常面向自然场景的场景类型辨识方法在面对监控场景时无法获得理想效果。监控场景是比较特殊的一类视觉场景,因此对监控场景的处理和分析必须采用有针对性的设计。虽然监控场景类型辨识与自然场景类型辨识的目的都是辨识出不同场景类型的外观语义,但是两者在外观语义的定义上存在差异。因此,对监控场景类型的定义要符合视频监控领域的自身要求,而不能采用一般地对自然场景类型的定义标准。在视频监控领域,通常都有一些固定的监控场景类型,比如:围界、停车场、商店、广场等等。很多监控场景类型往往是按照监控的对象或者监控场景中的标志性建筑物来定义的,例如:“停车场”这个监控场景类型的定义就是按照监控的对象——汽车为判断标准的,一个有多辆汽车整齐停放的地方就被定义为停车场;又比如,监控场景中有一种常见的类型叫做围界,这种场景类型的定义是以场景中是否存在“围界”这类建筑物为判断标准的,因此无论是在街道边、旷野中还是海滩上,只要存在围界这类建筑物,这个监控场景就隶属于“围界”类型。
此外,监控场景图像通常都是从视频摄像机拍摄的监控视频中截取的一些单帧静态图像,因此监控场景图像的品质往往不及由相机拍摄得到的自然场景图像的品质好。监控场景图像通常存在的品质问题有:低分辨率、低信噪比、低对比度、图像模糊、图像畸变、颜色失真等等。这些图像品质问题的存在大大增加了对监控场景图像进行场景类型辨识的难度。
发明内容
本发明的目的是克服现有监控场景类型辨识方法对于存在尺度变化、视角变化或物体遮挡的监控场景图像辨识正确率不高的技术问题,提供了一种面向智能视频监控的监控场景类型辨识方法,其能够有效克服视频监控场景图像中普遍存在的尺度变化、视角变化和物体遮挡对监控场景图像辨识的影响,提高了辨识正确率。
为了解决上述问题,本发明采用以下技术方案予以实现:
本发明的一种面向智能视频监控的监控场景类型辨识方法,包括以下步骤:
S1:创建监控场景图像样本集{I1,I2,…,IN},N是自然数;
S2:对监控场景图像样本集{I1,I2,…,IN}进行预处理;
S3:由预处理后的监控场景图像样本集{G1,G2,…,GN},建立其对应的三层多尺度图像金字塔集合{P1,P2,…,PN};
S4:利用三层多尺度图像金字塔集合{P1,P2,…,PN},产生一个视觉词汇库{W1,W2,…,WK},包括以下步骤:
S41:对三层多尺度图像金字塔集合{P1,P2,…,PN}中的任一幅三层多尺度图像金字塔Pk,用均匀网格采样法在三层多尺度图像金字塔Pk的每一层图像上选取三层多尺度图像金字塔Pk的特征点,然后使用SIFT方法提取其对应的SIFT特征向量;
S42:用步骤S41的方法对三层多尺度图像金字塔集合{P1,P2,…,PN}中的所有三层多尺度金字塔图像进行处理,提取所有三层多尺度金字塔图像对应的SIFT特征向量;
S43:对提取的全部SIFT特征向量进行K均值聚类,将每个聚类中心作为一个视觉词汇,则由K个聚类中心组成一个视觉词汇库{W1,W2,…,WK};
S5:求取监控场景图像样本集{G1,G2,…,GN}中的每一幅监控场景图像对应的特征值,建立一个特征值矩阵F和一个对应的类型标号矩阵C,包括以下步骤:
S51:在监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk的三层多尺度图像金字塔Pk的三个不同尺度层次上,分别用空间金字塔方法构建出三个不同尺度的三层空间金字塔;
S52:利用视觉词汇库{W1,W2,…,WK},在三层多尺度图像金字塔Pk构建出的三个三层空间金字塔上统计视觉词汇出现的类型及个数,建立相应的统计直方图,得到一个与监控场景图像Gk对应的视觉词汇统计直方图向量{Hk1,Hk2,Hk3};
S53:对监控场景图像样本集{G1,G2,…,GN}中所有图像均进行步骤S51至步骤S52的处理,则监控场景图像样本集{G1,G2,…,GN}中的每一幅监控场景图像都对应产生一个视觉词汇统计直方图向量;
S54:对监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk,利用该监控场景图像Gk对应的视觉词汇统计直方图向量和监控场景图像样本集{G1,G2,…,GN}中每幅监控场景图像对应的视觉词汇统计直方图向量,计算出监控场景图像Gk与监控场景图像样本集{G1,G2,…,GN}中每幅图像的交叉核,得到监控场景图像Gk所对应的交叉核向量{Xk1,Xk2,…,XkN},将该交叉核向量{Xk1,Xk2,…,XkN}作为监控场景图像Gk的特征值;
S55:建立一个特征值矩阵F和一个对应的类型标号矩阵C,将监控场景图像Gk对应的特征值和监控场景图像Gk所属的类型标号分别存放在特征值矩阵F的第k行和类型标号矩阵C的第k行中;
S56:对监控场景图像样本集{G1,G2,…,GN}中所有图像进行步骤S51至S55的处理,则特征值矩阵F中存放着监控场景图像样本集{G1,G2,…,GN}中所有图像的特征值,而类型标号矩阵C中存放着监控场景图像样本集{G1,G2,…,GN}中所有图像的类型标号;
S6:利用特征值矩阵F和类型标号矩阵C构建监控场景类型辨识器;
S7:对任意一幅场景类型未知的监控场景图像J进行监控场景类型辨识,包括以下方法:
S71:对图像J进行预处理;
S72:建立与预处理后的图像J对应的三层多尺度图像金字塔PJ;
S73:采用步骤S51至步骤S54对图像J进行处理,得到对应的特征值;
S74:将得到的特征值输入监控场景类型辨识器,监控场景类型辨识器查找出该特征值对应的类型标号并输出,该类型标号表明了图像J所应归属的场景类型。
在本技术方案中,步骤S1:创建监控场景图像样本集{I1,I2,…,IN},N是自然数,包括以下步骤:
S11:选定10种常见的监控场景类型,并给每种类型赋予不同的类型标号:10种监控场景类型及其相应的类型标号如下:通道【1】,生活居室【2】,商店【3】,办公室【4】,广场【5】,围界【6】,社区【7】,高速公路【8】,户外停车场【9】,市内街道【10】。
S12:针对每一种监控场景类型,分别收集若干幅属于该类型的监控场景图像作为样本(所有图像均为从可见光视频监控摄像机的视频数据中截取的单帧静态图像)。
S13:给每一种监控场景类型下的图片赋予相应的类型标号,使得同一种监控场景类型下的监控场景图像具有相同的类型标号,而不同监控场景类型下的监控场景图像具有不同的类型标号。
S14:将上述10种监控场景进一步划分为“室内”和“室外”两大监控场景类型,其中:
室内={通道【1】,生活居室【2】,商店【3】,办公室【4】};
室外={广场【5】,围界【6】,社区【7】,高速公路【8】,户外停车场【9】,市内街道【10】}。
S15:将所有的监控场景图像放在一起,构成一个监控场景图像样本集{I1,I2,…,IN}。
本方案引入能够增加现有智能视频监控系统在执行多种智能视频数据分析时的智能型、准确性和鲁棒性。例如,智能视频监控系统通过事先确定某监控场景的类型,能够调用关于该场景的先验知识,从而有利于更快速、准确地判断在监控场景中是否出现了异常物体或异常事件。在提取表征监控场景类型的特征值时,本方案中设计的一种多尺度局部特征统计性描述方法,能够有效克服视频监控场景图像中普遍存在的尺度变化、视角变化和物体遮挡等问题。
作为优选,所述步骤S1中的监控场景图像样本集包括“室内”和“室外”两大类监控场景类型,“室内”监控场景类型包括若干种属于“室内”的监控场景类型,“室外”监控场景类型包括若干种属于“室外”的监控场景类型。
作为优选,所述步骤S6中的监控场景类型辨识器包括用于辨识“室内”、“室外”两大类型的监控场景类型辨识器M1,用于辨识若干种属于“室内”的监控场景类型的监控场景类型辨识器M2,用于辨识若干种属于“室外”的监控场景类型的监控场景类型辨识器M3。
作为优选,所述步骤S74包括以下步骤:将图像J的特征值输入监控场景类型辨识器M1,监控场景类型辨识器M1判断图像J是属于“室内”监控场景类型还是属于“室外”监控场景类型,如果属于“室内”监控场景类型,则将图像J的特征值输入监控场景类型辨识器M2,监控场景类型辨识器M2查找出该特征值对应的类型标号并输出图像J所隶属的具体的“室内”监控场景类型,如果属于“室外”监控场景类型,则将图像J的特征值输入监控场景类型辨识器M3,监控场景类型辨识器M3查找出该特征值对应的类型标号并输出图像J所隶属的具体的“室外”监控场景类型。
作为优选,所述步骤S2中的预处理方法包括以下步骤:
S21:将监控场景图像样本集{I1,I2,…,IN}中的所有图像均转换为灰度图像,并且归一化为256×256像素大小,对应得到灰度图像样本集{I′1,I′2,…,I′N};
S22:对灰度图像样本集{I′1,I′2,…,I′N}中的任一幅图像I′k,1≤k≤N,进行光照正则化处理,包括以下步骤:
I′k→ln→WT→H(LF,HF)→IWT→exp→Gk
其中,ln表示对I′k进行自然对数运算,WT表示进行小波变换,H(LF,HF)代表对小波变换后产生的低频小波子带图像LF和高频小波子带图像HF进行滤波变换,IWT表示进行小波逆变换,exp表示对小波逆变换后产生的图像进行指数运算,Gk则代表完成整个光照正则化处理后得到的图像;
S23:对灰度图像样本集{I′1,I′2,…,I′N}中的所有图像均进行步骤S22的处理,得到预处理后的监控场景图像样本集{G1,G2,…,GN}。
作为优选,所述步骤S3包括以下步骤:
S31:对监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk,1≤k≤N,用db1小波对监控场景图像Gk进行两层分解;
S32:对每层的小波系数分别进行重构,获得监控场景图像Gk在两个不同尺度上的对应子图像;
S33:将监控场景图像Gk及其两个子图像一起组成一个三层的多尺度图像金字塔Pk;
S34:对监控场景图像样本集{G1,G2,…,GN}中的所有图像均进行步骤S31至步骤S33的处理,生成一个与监控场景图像样本集{G1,G2,…,GN}对应的三层多尺度图像金字塔集合{P1,P2,…,PN}。
作为优选,所述步骤S52包括以下步骤:
S521:对三层多尺度图像金字塔Pk进行均匀网格采样并提取每个采样点的SIFT特征向量,然后将每个SIFT特征向量映射为视觉词汇库{W1,W2,…,WK}中的一个视觉词汇;
S522:对每一个三层空间金字塔,分别在其第一层、第二层、第三层上统计视觉词汇出现的类型及个数,得到对应的三个视觉词汇统计直方图;
S523:分别将三个三层空间金字塔的同一层次上的视觉词汇统计直方图进行级联,得到三个代表不同局部空间划分的视觉词汇统计直方图Hk1,Hk2,Hk3;
S524:将视觉词汇统计直方图Hk1,Hk2,Hk3组成一个向量{Hk1,Hk2,Hk3},将该向量作为监控场景图像Gk所对应的视觉词汇统计直方图向量。
作为优选,所述步骤S54包括以下步骤:
S541:任取监控场景图像样本集{G1,G2,…,GN}中一幅监控场景图像Gq,1≤q≤N,将监控场景图像Gq对应的向量{Hq1,Hq2,Hq3}与监控场景图像Gk对应的向量{Hk1,Hk2,Hk3}进行“交叉”运算,具体方法是将两个向量对应位置的分量分别使用“直方图交叉函数”进行运算,即
其中,D1表示视觉词汇统计直方图Hk1中视觉词汇类型的个数,D2表示视觉词汇统计直方图Hk2中视觉词汇类型的个数,D3表示视觉词汇统计直方图Hk3中视觉词汇类型的个数;
S542:由Tkq1,Tkq2,Tkq3计算出监控场景图像Gk与监控场景图像Gq的交叉核,方法如下:
Xkq=w3Tkq3+w2(Tkq2-Tkq3)+w1(Tkq1-Tkq2)
其中,Xkq表示监控场景图像Gk与监控场景图像Gq的交叉核,wn表示权重系数,n=1,2,3;
S543:采用步骤S541至步骤S542计算出监控场景图像Gk与监控场景图像样本集{G1,G2,…,GN}中每幅图像的交叉核,得到监控场景图像Gk所对应的交叉核向量{Xk1,Xk2,…,XkN},将该交叉核向量{Xk1,Xk2,…,XkN}作为监控场景图像Gk的特征值。
作为优选,所述步骤S6包括以下步骤:
S61:建立一个只包含“室内”、“室外”两类标号的类型标号矩阵C1,方法如下:将步骤S5中所述的类型标号矩阵C中的全部内容复制给类型标号矩阵C1,将类型标号矩阵C1中类型标号对应“通道”、“生活居室”、“商店”和“办公室”的项全部替换为类型标号是“室内”,将类型标号矩阵C1中类型标号对应“广场”、“围界、“社区”、“高速公路”、“户外停车场”和“市内街道”的项全部替换为类型标号是“室外”;接着用步骤S5中所述的特征值矩阵F和上述的类型标号矩阵C1,对支持向量机进行训练,构建出一个能够辨识“室内”、“室外”两种监控场景类型的监控场景类型辨识器M1;
S62:建立一个只包含4种“室内”类型标号的类型标号矩阵C2及其相应的特征值矩阵F2,方法如下:将类型标号矩阵C中类型标号对应“通道”、“生活居室”、“商店”和“办公室”的项依次取出并存入类型标号矩阵C2,同时,将特征值矩阵F中对应这些类型标号的特征值也以相同顺序取出,存入一个特征值矩阵F2;接着用特征值矩阵F2和类型标号矩阵C2,对支持向量机进行训练,构建出一个能够辨识上述4种“室内”监控场景类型的监控场景类型辨识器M2;
S63:建立一个只包含6种“室外”类型标号的类型标号矩阵C3及其相应的特征值矩阵F3,方法如下:将类型标号矩阵C中类型标号对应“广场”、“围界、“社区”、“高速公路”、“户外停车场”和“市内街道”的项依次取出并存入类型标号矩阵C3,同时,将特征值矩阵F中对应这些类型标号的特征值也以相同顺序取出,存入一个特征值矩阵F3;接着用特征值矩阵F3和类型标号矩阵C3,对支持向量机进行训练,构建出一个能够辨识上述6种“室内”监控场景类型的监控场景类型辨识器M3。
本发明的实质性效果是:(1)本发明归纳出了视频监控领域中最主要的10种监控场景类型,满足了面向智能视频监控领域的特殊需要。(2)本发明中设计的预处理环节可有效降低由于视频监控图像画面品质差、图像外观随环境光照变化大所带来的负面影响。(3)在提取表征监控场景类型的特征值时,本发明中设计的一种多尺度局部特征统计性描述方法,能够有效克服视频监控场景图像中普遍存在的尺度变化、视角变化和物体遮挡等问题。(4)本发明所采用的由粗到精的两步式辨识策略,提高了监控场景类型辨识的效率与正确率。
附图说明
图1是本发明的一种流程图;
图2是本发明进行实施所获得的平均正确率示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种面向智能视频监控的监控场景类型辨识方法,如图1所示,包括以下步骤:
S1:创建监控场景图像样本集{I1,I2,…,IN},N是自然数,包括以下步骤:
S11:选定10种常见的监控场景类型,并给每种类型赋予不同的类型标号:10种监控场景类型及其相应的类型标号如下:通道【1】,生活居室【2】,商店【3】,办公室【4】,广场【5】,围界【6】,社区【7】,高速公路【8】,户外停车场【9】,市内街道【10】。
S12:针对每一种监控场景类型,分别收集若干幅属于该类型的监控场景图像作为样本(所有图像均为从可见光视频监控摄像机的视频数据中截取的单帧静态图像)。
S13:给每一种监控场景类型下的图片赋予相应的类型标号,使得同一种监控场景类型下的监控场景图像具有相同的类型标号,而不同监控场景类型下的监控场景图像具有不同的类型标号。
S14:将上述10种监控场景进一步划分为“室内”和“室外”两大监控场景类型,其中:
室内={通道【1】,生活居室【2】,商店【3】,办公室【4】};
室外={广场【5】,围界【6】,社区【7】,高速公路【8】,户外停车场【9】,市内街道【10】}。
S15:将所有的监控场景图像放在一起,构成一个监控场景图像样本集{I1,I2,…,IN};
S2:对监控场景图像样本集{I1,I2,…,IN}进行预处理,包括以下步骤:
S21:将监控场景图像样本集{I1,I2,…,IN}中的所有图像均转换为灰度图像,并且归一化为256×256像素大小,对应得到灰度图像样本集{I′1,I′2,…,I′N};
S22:对灰度图像样本集{I′1,I′2,…,I′N}中的任一幅图像I′k,1≤k≤N,进行光照正则化处理,包括以下步骤:
I′k→ln→WT→H(LF,HF)→IWT→exp→Gk
其中,ln表示对I′k进行自然对数运算,WT表示进行小波变换,H(LF,HF)代表对小波变换后产生的低频小波子带图像LF和高频小波子带图像HF进行滤波变换,IWT表示进行小波逆变换,exp表示对小波逆变换后产生的图像进行指数运算,Gk则代表完成整个光照正则化处理后得到的图像,(具体地,WT使用的是Haar小波变换(小波分解层数为3层),H(LF,HF)滤波变换包含两部分操作:对低频小波子带图像LF使用线性滤波器来修正图像的亮度不均匀问题,对高频小波子带图像HF进行滤波并增强高频信息来提高原图像对比度);
S23:对灰度图像样本集{I′1,I′2,…,I′N}中的所有图像均进行步骤S22的处理,得到预处理后的监控场景图像样本集{G1,G2,…,GN};
S3:由预处理后的监控场景图像样本集{G1,G2,…,GN},建立其对应的三层多尺度图像金字塔集合{P1,P2,…,PN},包括以下步骤:
S31:对监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk,1≤k≤N,用db1小波对监控场景图像Gk进行两层分解;
S32:对每层的小波系数分别进行重构,获得监控场景图像Gk在两个不同尺度上的对应子图像;
S33:将监控场景图像Gk及其两个子图像一起组成一个三层的多尺度图像金字塔Pk;
S34:对监控场景图像样本集{G1,G2,…,GN}中的所有图像均进行步骤S31至步骤S33的处理,生成一个与监控场景图像样本集{G1,G2,…,GN}对应的三层多尺度图像金字塔集合{P1,P2,…,PN};
S4:利用三层多尺度图像金字塔集合{P1,P2,…,PN},产生一个视觉词汇库{W1,W2,…,WK},包括以下步骤:
S41:对三层多尺度图像金字塔集合{P1,P2,…,PN}中的任一幅三层多尺度图像金字塔Pk,对Pk中每一个尺度层次上的图像分别使用均匀网格采样法进行像素点采样(网格窗口大小取为8×8像素),然后将所有的采样点作为多尺度图像金字塔Pk的特征点,然后对该多尺度图像金字塔Pk中的每一个特征点,使用SIFT(尺度不变特征变换)方法提取其对应的SIFT特征向量;
S42:用步骤S41的方法对三层多尺度图像金字塔集合{P1,P2,…,PN}中的所有三层多尺度金字塔图像进行处理,提取所有三层多尺度金字塔图像对应的SIFT特征向量;
S43:对由三层多尺度图像金字塔集合{P1,P2,…,PN}中所有多尺度图像金字塔产生出的全部SIFT特征向量统一使用K均值聚类方法进行聚类,将每一个聚类中心(即一个特征向量)作为一个视觉词汇,则由K个聚类中心组成一个视觉词汇库{W1,W2,…,WK},本实施例中K的取值为200;
S5:求取监控场景图像样本集{G1,G2,…,GN}中的每一幅监控场景图像对应的特征值,建立一个特征值矩阵F和一个对应的类型标号矩阵C,包括以下步骤:
S51:在监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk的三层多尺度图像金字塔Pk的三个不同尺度层次上,分别用空间金字塔方法构建出三个不同尺度的三层空间金字塔;
以三层多尺度图像金字塔Pk中第一个尺度层次上的图像Pk1为例,其相应的三层空间金字塔构成如下:三层空间金字塔的第一层即为Pk1,第二层是对Pk1进行均匀4分块后得到的4块局部区域图像,第三层是对Pk1进行均匀16分块后得到的16块局部区域图像,于是,上述的三层空间金字塔中一共包含了从图像Pk1中产生的21个具有不同空间尺寸和空间位置的图像区块。Pk是一个三层的多尺度图像金字塔,按上述方法在每个尺度层次上构建一个三层空间金字塔,因此由Pk可以构建出三个具有不同尺度的三层空间金字塔;
S52:利用视觉词汇库{W1,W2,…,WK},在三层多尺度图像金字塔Pk构建出的三个三层空间金字塔上统计视觉词汇出现的类型及个数,建立相应的统计直方图,得到一个与监控场景图像Gk对应的视觉词汇统计直方图向量{Hk1,Hk2,Hk3};
S53:对监控场景图像样本集{G1,G2,…,GN}中所有图像均进行步骤S51至步骤S52的处理,则监控场景图像样本集{G1,G2,…,GN}中的每一幅监控场景图像都对应产生一个视觉词汇统计直方图向量;
S54:对监控场景图像样本集{G1,G2,…,GN}中的任一幅监控场景图像Gk,利用该监控场景图像Gk对应的视觉词汇统计直方图向量和监控场景图像样本集{G1,G2,…,GN}中每幅监控场景图像对应的视觉词汇统计直方图向量,计算出监控场景图像Gk与监控场景图像样本集{G1,G2,…,GN}中每幅图像的交叉核,得到监控场景图像Gk所对应的交叉核向量{Xk1,Xk2,…,XkN},将该交叉核向量{Xk1,Xk2,…,XkN}作为监控场景图像Gk的特征值;
S55:建立一个特征值矩阵F和一个对应的类型标号矩阵C,将监控场景图像Gk对应的特征值和监控场景图像Gk所属的类型标号分别存放在特征值矩阵F的第k行和类型标号矩阵C的第k行中;
S56:对监控场景图像样本集{G1,G2,…,GN}中所有图像进行步骤S51至S55的处理,则特征值矩阵F中存放着监控场景图像样本集{G1,G2,…,GN}中所有图像的特征值,而类型标号矩阵C中存放着监控场景图像样本集{G1,G2,…,GN}中所有图像的类型标号;
S6:利用特征值矩阵F和类型标号矩阵C构建监控场景类型辨识器M1、监控场景类型辨识器M2和监控场景类型辨识器M3,包括以下步骤:
S61:建立一个专门用于辨识“室内”、“室外”两类标号的类型标号矩阵C1,方法如下:将步骤S5中所述的类型标号矩阵C中的全部内容复制给类型标号矩阵C1,将类型标号矩阵C1中所有类型标号【1】、【2】、【3】、【4】的项全部替换为类型标号是“室内”,将类型标号矩阵C1中所有类型标号为【5】、【6】、【7】、【8】、【9】、【10】的项全部替换为类型标号是“室外”,由此得到的类型标号矩阵C1与类型标号矩阵C的维数相同,但是只包含“室内”与“室外”两种类型标号,接着用步骤S5中所述的特征值矩阵F和上述的类型标号矩阵C1,对支持向量机(SVM)进行训练,构建出一个能够辨识“室内”、“室外”两种监控场景类型的监控场景类型辨识器M1;
S62:建立一个专门用于辨识4种“室内”类型标号的类型标号矩阵C2及其相应的特征值矩阵F2,方法如下:“室内”监控场景类型下包括4种具体的监控场景类型,分别是:通道【1】,生活居室【2】,商店【3】,办公室【4】,将类型标号矩阵C中的类型标号为【1】、【2】、【3】、【4】的项依次取出并存入类型标号矩阵C2,同时,将特征值矩阵F中对应这些类型标号的特征值也以相同顺序取出,存入一个特征值矩阵F2;接着用特征值矩阵F2和类型标号矩阵C2,对支持向量机(SVM)进行训练,构建出一个能够辨识“通道”、“生活居室”、“商店”和“办公室”4种“室内”监控场景类型的监控场景类型辨识器M2;
S63:建立一个专门用于辨识6种“室外”类型标号的类型标号矩阵C3及其相应的特征值矩阵F3,方法如下:“室外”监控场景类型下包括6种具体的监控场景类型,分别是:广场【5】,围界【6】,社区【7】,高速公路【8】,户外停车场【9】,市内街道【10】,将类型标号矩阵C中的类型标号为【5】、【6】、【7】、【8】、【9】、【10】的项依次取出并存入类型标号矩阵C3,同时,将特征值矩阵F中对应这些类型标号的特征值也以相同顺序取出,存入一个特征值矩阵F3;接着用特征值矩阵F3和类型标号矩阵C3,对支持向量机(SVM)进行训练,构建出一个能够辨识“广场”、“围界、“社区”、“高速公路”、“户外停车场”和“市内街道”6种“室内”监控场景类型的监控场景类型辨识器M3。
S7:对监控场景图像样本集{I1,I2,…,IN}之外的任意一幅场景类型未知的监控场景图像J(J是从某可见光视频监控摄像机的视频数据中截取的单帧静态图像)进行监控场景类型辨识,包括以下方法:
S71:使用步骤S2的预处理方法对图像J进行预处理;
S72:使用步骤S1至步骤S33的方法建立与预处理后的图像J对应的三层多尺度图像金字塔PJ;
S73:采用步骤S51至步骤S54对图像J进行处理,得到对应的特征值;
S74:将得到的特征值输入监控场景类型辨识器,监控场景类型辨识器查找出该特征值对应的类型标号并输出,该类型标号表明了图像J所应归属的场景类型,包括以下步骤:
将图像J的特征值输入监控场景类型辨识器M1,监控场景类型辨识器M1判断图像J是属于“室内”监控场景类型还是属于“室外”监控场景类型,如果属于“室内”监控场景类型,则将图像J的特征值输入监控场景类型辨识器M2,监控场景类型辨识器M2查找出该特征值对应的类型标号并输出图像J所隶属的具体的“室内”监控场景类型(“通道”、“生活居室”、“商店”、“办公室”),如果属于“室外”监控场景类型,则将图像J的特征值输入监控场景类型辨识器M3,监控场景类型辨识器M3查找出该特征值对应的类型标号并输出图像J所隶属的具体的“室外”监控场景类型(“广场”、“围界、“社区”、“高速公路”、“户外停车场”、“市内街道”)。
步骤S52包括以下步骤:
S521:对三层多尺度图像金字塔Pk进行均匀网格采样并提取每个采样点的SIFT特征向量,然后将每个SIFT特征向量映射为视觉词汇库{W1,W2,…,WK}中的一个视觉词汇,方法为:计算每个SIFT特征向量与视觉词汇库{W1,W2,…,WK}中每个视觉词汇的欧氏距离,将SIFT特征向量映射为与其欧氏距离最近的那个视觉词汇;
S522:对每一个三层空间金字塔,分别在其第一层、第二层、第三层上统计视觉词汇出现的类型及个数,得到对应的三个视觉词汇统计直方图;
S523:将三个三层空间金字塔的第一层上的视觉词汇统计直方图进行级联(即串联),得到一个总的视觉词汇统计直方图Hk1;对三个三层空间金字塔的第二层以及第三层进行与第一层相同的操作,得到相应的视觉词汇统计直方图Hk2,Hk3;
S524:将视觉词汇统计直方图Hk1,Hk2,Hk3组成一个向量{Hk1,Hk2,Hk3},将该向量作为监控场景图像Gk所对应的视觉词汇统计直方图向量。
步骤S54包括以下步骤:
S541:任取监控场景图像样本集{G1,G2,…,GN}中一幅监控场景图像Gq,1≤q≤N,将监控场景图像Gq对应的向量{Hq1,Hq2,Hq3}与监控场景图像Gk对应的向量{Hk1,Hk2,Hk3}进行“交叉”运算,具体方法是将两个向量对应位置的分量分别使用“直方图交叉函数”进行运算,即
其中,D1表示视觉词汇统计直方图Hk1中视觉词汇类型的个数,D2表示视觉词汇统计直方图Hk2中视觉词汇类型的个数,D3表示视觉词汇统计直方图Hk3中视觉词汇类型的个数;
S542:由Tkq1,Tkq2,Tkq3计算出监控场景图像Gk与监控场景图像Gq的交叉核,方法如下:
Xkq=w3Tkq3+w2(Tkq2-Tkq3)+w1(Tkq1-Tkq2)
其中,Xkq表示监控场景图像Gk与监控场景图像Gq的交叉核,wn表示权重系数,n=1,2,3;
S543:采用步骤S541至步骤S542计算出监控场景图像Gk与监控场景图像样本集{G1,G2,…,GN}中每幅图像的交叉核,得到监控场景图像Gk所对应的交叉核向量{Xk1,Xk2,…,XkN},将该交叉核向量{Xk1,Xk2,…,XkN}作为监控场景图像Gk的特征值。
本实施例归纳出了视频监控领域中最主要的10种监控场景类型,满足了面向智能视频监控领域的特殊需要;设计的预处理环节可有效降低由于视频监控图像画面品质差、图像外观随环境光照变化大所带来的负面影响;在提取表征监控场景类型的特征值时,设计的一种多尺度局部特征统计性描述方法,能够有效克服视频监控场景图像中普遍存在的尺度变化、视角变化和物体遮挡等问题;采用的由粗到精的两步式辨识策略,提高了监控场景类型辨识的效率与正确率。
本实施例采集10种监控场景类型的图像,包括:“通道”32幅、“生活居室”45幅、“商店”39幅、“办公室”53幅、“广场”47幅、“围界”46幅、“社区”42幅、“高速公路”71幅、“户外停车场”46幅、“市内街道”41幅。从每种监控场景类型图像中随机选取28幅图像,创建一个包含有280幅监控场景图像的监控场景图像样本集{I1,I2,…,I280},将每种监控场景中剩余的图像全部作为场景类型未知的待辨识监控场景图像。
对所有待辨识的监控场景图像均按照本实施例方法求出其相应的预测类型标号;然后,通过统计所有待辨识图像的预测类别标号与其实际类别标号的一致性,计算得出本实施例方法的正确率。通过重复上述步骤10次然后求平均,可得到本实施例方法的平均正确率,如图2所示。在图2中,横坐标表示监控场景的类型标号,纵坐标表示本实施例对每种监控场景图像进行类型辨识的平均正确率。例如,当横坐标值为“1”时,对应的纵坐标值为“78”,这表示对于第【1】类监控场景“通道”,采用本实施例进行监控场景类型辨识的平均正确率是78%。
本实施例的方法与其它方法的平均正确率,如下表所示:
比较在三种方法间展开:(1)美国麻省理工学院的Aude Oliva(8类自然场景图像集的创立者)提出的一种针对自然场景的场景类型辨识方法;(2)美国北卡罗来纳大学的Svetlana Lazebnik(15类自然场景图像集的创立者)提出的一种针对自然场景的场景类型辨识方法;(3)本实施例的方法。三种方法的运算结果是在相同的测试平台上,对相同的数据集,采用相同的实验设置获得。进行比较的数据是对10种监控场景图像进行场景类型辨识时所获得的平均正确率,该平均正确率是对如图2中所示的10个百分比数值求平均得到。