CN105631413A

CN105631413A - 一种基于深度学习的跨场景行人搜索方法

Info

Publication number: CN105631413A
Application number: CN201510977881.7A
Authority: CN
Inventors: 舒泓新; 蔡晓东; 宋宗涛; 王爱华
Original assignee: Chinaccs Information Industry Co ltd
Current assignee: Chinaccs Information Industry Co ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-06-01

Abstract

本发明公开了一种基于深度学习的跨场景行人搜索方法，包括：对样本库中的每张图片进行预处理；构建卷积神经网络并训练；对经预处理的两组图像集提取上半身局部特征向量集和下半身局部特征向量集，然后将其融合得到全局特征向量；将待搜索图片经过预处理后，提取上半身局部特征向量和下半身局部特征向量并融合，得到的全局特征向量；将待搜索图片对应的全局特征向量与样本库图片对应的全局特征向量，通过余弦相似度依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序。本发明的有益效果是：本发明是以监控视频中获取的行人图片作为样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高。

Description

一种基于深度学习的跨场景行人搜索方法

技术领域

本发明涉及信息技术技术领域，特别涉及一种基于深度学习的跨场景行人搜索方法。

背景技术

随着平安城市战略的启动，越来越多的网络监控摄像机被安装在大型广场、商场、公司、医院、公园、学校、地铁站等人群密集且易发生公共安全事件的场所。当事件发生后，需要从多个摄像机的监控视频画面中寻找可疑目标人物，而这些监控摄像机安装在各个地方且跨度很大，这样就给工作人员从多个监控视频画面中寻找该可疑目标行人带来巨大挑战。传统的搜索比对方法比较多，比如基于颜色、纹理和轮廓等，均是以公开库做样本库，而且需要对特征进行设计而且特征的鲁棒性不强，实际搜索应用的准确率不高。

发明内容

本发明提供了一种基于深度学习的跨场景行人搜索方法，是以监控视频中的获取的图片做样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高。

为了实现上述发明目的，本发明提供了一种基于深度学习的跨场景行人搜索方法，其中，所述方法包括：

步骤S101：构建样本库，对样本库中的每张图片进行尺寸归一化、分割预处理，每张图片均得到对应的上半身图像和下半身图像，经上述处理后，样本库包括两组图像集，分别为上半身图像集和下半身图像集；

步骤S102：构建卷积神经网络，将步骤S101得到的上半身图像集和下半身图像集分别输入到卷积神经网络进行训练，得到最终训练好的卷积神经网络模型；

步骤S103：将步骤S101得到的两组图像集输入到训练好的卷积神经网络模型，得到与两组图像集对应的上半身局部特征向量集和下半身局部特征向量集，然后将同一图像对应的上半身局部特征向量和下半身局部特征向量融合，得到与样本库所有图片一一对应的全局特征向量；

步骤S104：将待搜索图片经过尺寸归一化、分割预处理后，输入到训练好的卷积神经网络模型，将得到的上半身局部特征向量和下半身局部特征向量融合，得到待搜索图片对应的全局特征向量；

步骤S105：通过余弦相似度将步骤S104得到的与待搜索图片对应的全局特征向量，与步骤S103得到的与样本库图片对应的全局特征向量，依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序，得到最大相似度值对应的样本库中的图片。

其中，所述样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成。

所述步骤S101和所述步骤S104中，所述尺寸归一化具体为：将图像统一归一化为60×160像素；所述分割预处理是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。

所述步骤S102中，所述卷积神经网络包括四层卷积池化层和三层全连接层。

本发明的有益效果是：本发明是以监控视频中获取的行人图片作为样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高；本发明基于图像内容对图片进行分割，可以精确提取行人目标的局部特征,并对重要位置特征多次提取，增强特征效果，有效减少局部特征丢失，提高搜索准确率；构建一个适应于行人搜索的深度网络结构（卷积神经网络），采用大数据投入网络训练，利用深度卷积神经网络提取出高级特征，计算出它们的相似度，以此搜索目标行人；根据排序结果既可清晰的查到搜索行人的效果，最终实现跨场景行人搜索。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例中图像分割预处理的示意图。

图3为本发明实施例中卷积神经网络的结构图。

具体实施方式

本发明提供了一种基于深度学习的跨场景行人搜索方法,首先基于图像内容对图像进行分割，构建一个适应于行人搜索的深度网络结构，然后将处理过后的图像投入训练，得出训练模型，再根据此排名算法输出排名结果，最终达到跨场景搜索行人的目的。

参见图1，具体方法如下：

其中，样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成；监控视频中的视频帧为24张/s。

步骤S101和步骤S104中，尺寸归一化具体为：将图像统一归一化为60×160像素；分割预处理如图2所示，具体是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。

步骤S102中，卷积神经网络结构包括四层卷积池化层和三层全连接层；

如图3所示，卷积神经网络主要采用四层卷积(con1-con4)、池化层(pool1-pool4)和三层全连接层（ip1、ip2、ip3）；具体过程如下：

1、原图是60×107像素（分辨率为72像素/英寸）的图片,通过第一次5×5的卷积核之后,得到尺寸为(60-5+1)×(107-5+1)的卷积图片,卷积核的权重是取一定范围内的随机值，该图片的像素还需要进行Relu函数的变换，normal层的处理，才能作为池化层的输入,将56×103像素的图片进行2×2的最大池化,得到尺寸为28×51的图片,作为下一层卷积层的输入；

2、剩余的三层卷积池化层（con2-con4、pool2-pool4）按照上述过程逐一进行；

3、将最后一层卷积池化后，进行全连接（ip1）输出4096维特征向量，然后进行Relu函数的变换，再通过dropout层去除多余权重信息；

4、最后经过全连接（ip1、ip2）处理，最终输出训练模型。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的跨场景行人搜索方法，其特征在于，所述方法包括：

步骤S101：构建样本库，对样本库中的每张图片进行尺寸归一化和分割预处理，每张图片均得到对应的上半身图像和下半身图像，经上述处理后，样本库包括两组图像集，分别为上半身图像集和下半身图像集；

步骤S102：构建卷积神经网络，将步骤S101得到的上半身图像集和下半身图像集分别输入到卷积神经网络进行训练，得到训练好的卷积神经网络模型；

步骤S103：将步骤S101得到的两组图像集输入到训练好的卷积神经网络模型，得到与两组图像集对应的上半身局部特征向量集和下半身局部特征向量集，然后将同一图像对应的上半身局部特征向量和下半身局部特征向量融合，从而得到该图像的全局特征向量，对样本库中所有图像进行相同处理得到与样本库所有图片一一对应的全局特征向量；

步骤S104：将待搜索图片经过尺寸归一化和分割预处理后，输入到训练好的卷积神经网络模型，将得到的上半身局部特征向量和下半身局部特征向量融合，得到待搜索图片对应的全局特征向量；

2.根据权利要求1所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成。

3.根据权利要求1或2所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述步骤S101和所述步骤S104中，所述尺寸归一化具体为：将图像统一归一化为60×160像素；所述分割预处理是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。

4.根据权利要求1-3任一项所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述步骤S102中，所述卷积神经网络包括四层卷积池化层和三层全连接层。