CN111738070A

CN111738070A - 一种多个小目标的自动准确检测方法

Info

Publication number: CN111738070A
Application number: CN202010407732.8A
Authority: CN
Inventors: 黄翰; 黄黎龙; 李刚; 徐杨; 郝志峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-10-02
Also published as: WO2021227366A1

Abstract

本发明公开了一种多个小目标的自动准确检测方法，用户输入视频流或者多张图像，通过使用训练好的网络模型进行前向传播运算，计算出物体预测最大的概率得到分类类别和在图像中的X,Y值坐标。本方法具有较好的检测性能，并且借鉴了卷积神经网络自动抽取特征的特性，能够进行多物体检测。通过图像分块与非极大值抑制算法，能够准确检测小目标物体。

Description

一种多个小目标的自动准确检测方法

技术领域

本发明涉及智能监控视频处理领域，具体涉及一种多个小目标的自动准确检测方法。

背景技术

近年来，随着全国各地平安城市、国家安防等需求日益增进，国家大力发展相关行业技术的研究和实施，视频图像监控技术在其中起着越来越核心的作用，同时大量数据的产生以及如何高效利用大数据带来的信息和内容成为行业前进的关键，智慧监控的图像视频大数据是获取大量有效信息的源头，也为深度学习算法等模型训练验证提供了数据支撑。自2006年以来，深度学习在学术界和工业界持续升温，在语音识别、自然语言处理、图像识别等领域取得了惊人进展，从而推动了人工智能和人机交互的大踏步前进。深度学习成为了新世纪以来最具有技术性和突破性的研究方向，为科技新时代的建立提供了整体的技术框架和核心思路。

传统来说，视频图像中的物体识别可以划分成三个步骤，一个是图像分割，即将图像主体，待识别检测的前景，与背景进行分离，二是通过主体前景进行图像特征的提取，使用数学向量或张量的形式进行简化和特征突出，三是将提取好的图像特征进行机器学习的分类迭代，得到最终物体的类别最大释然估计，预测物体的类别。其中，图像预处理负责降低图像中的噪声并使图像格式符合后续程序需求；图像分割负责找出图像中感兴趣的内容送入后续步骤处理；特征提取负责抽取像素图像的特征(feature)，用某种模式描述图像的主要信息；预测物体的类别是根据目标图像的特征和前期训练好的分类器模型，对图像的类别进行判定；最后输出结果。可以看出，在传统的图像识别算法中，特征提取占据了非常重要的位置。由于分类器接收的输入信号不是原始像素图像而是图像的特征，因此分类器效果的好坏非常依赖于特征提取的质量。在实践中，图像特征的提取是与具体应用领域紧密相关的，比如在人脸识别中的特征脸等。即使在应用领域很小的图像，也需要通过人为进行分析，是否需要使用角点特征，是否需要具有尺寸不变性，旋转不变性，或是其他符合相关类别的特征表示，通过筛选这些不同计算方式得到的特征信息组成共同表示该类别的特征集进行后续机器学习的操作。

物体检测相比较与物体识别，具有更高等级的技术难度和不确定性因素，物体检测不提供前景主体的位置信息，需要进行前景的判断和提取，很大可能一张监控图像包含了多个物体，需要同时确定每个物体的位置和类别，同时因为物体识别中人为判断前景具有人为意识的辅助，物体检测更具有智能化的要求，难度维度要更高一层。DeformableParts Model是物体检测经典的检测方法，具体做法是先进行方向梯度统计，一般是直方图统计的方式，然后使用支持向量机进行参数的训练得到最后的物体网络模型，通过对应的模型进行物体的分类检测。

发明内容

本发明针对当前智能图像分类中需要人工设计特征的繁重任务，且准确率相对不高的现状，本发明提供一种多个小目标的自动准确检测方法。本发明可以快速准确检测出小目标物体中的位置和类别。

本发明采用如下技术方案：

一种多个小目标的自动准确检测方法，基于caffe深度学习框架、VGGNet深度学习网络的多物体检测方法。用户输入视频流或者多张图像，通过使用训练好的网络模型进行前向传播运算，计算出物体预测最大的概率得到分类类别和在图像中的X,Y值坐标。在物体检测网络进行迭代训练之前，需要提供大量的物体图像数据及标定好的xml文件，并且按照4:1的比例随机划分为训练集和验证集。训练集作为学习的部分进行网络的迭代和更新参数，测试集作为检测网络模型是否更新有效。深度学习网络层次越深，模型越复杂，泛化能力也就越强，能够较好的拟合复杂多样的类别。

本方法具体包括如下步骤：

S1生成多类别的训练集和测试数据集，随机划分为4：1，对图像数据进行标定，记录类别序号及位置信息，具体为：

S1.1为每个类别指定类别名；

S1.2对所有的图像文件进行标定，标定出图像中出现的物体信息，包括类别和位置信息(xmin,ymin,xmax,ymax)；

S1.3根据标定的xml文件和图片文件生成训练数据和测试数据描述文件；

S2对图像数据进行关键帧图像的提取，对提取后的图像数据进行预处理，所述预处理包括标准化和归一化处理，标准化是将数据通过去均值实现中心化的处理，更容易取得训练之后的泛化效果；归一化是将取值空间统一映射到同一个空间，避免奇异样本数据造成的影响，具体为：

S2.1对视频数据进行关键帧中训练图像的提取，对训练图像进行标准化，公式如下：

其中μ是该图像均值，x是图像的二阶张量，x_{standardization}是归一化后的图像，其中：

σ表示标准差，N表示像素总量；

S2.2对训练图像进行归一化，公式如下：

其中x_i表示图像x的i通道像素值，max(x_i)和min(x_i)分别表示图像x的i通道像素值的最大值和最小值。

所述S2还包括对预处理后的图像数据进行压缩，然后重叠分块，然后得到多张小图像，并对其图像序列进行编号，由于输入图像会统一进行压缩，因此针对待检测物体中目标过小的类别，将图像进行重叠分块后进行多张小图像的检测；

具体为：

根据小目标物体的大小将整张图像进行n*n的分割，分配序列号1至n*n；

对于长宽分别为l和w的图像，截取图像长从l/2n到l-l/2n，宽从w/2n到w-w/2n的部分，将该图像进行(n-1)*(n-1)的分割，分配序列号n*n+1至n*n+(n-1)*(n-1)；

将分割后的n*n+(n-1)*(n-1)张序列图像和原图一同作为对应的训练集和测试集进行物体检测。

S3采用基于caffe框架的VGGNet模型作为基础网络，在基础网络中添加从大到小的卷积层用于预测图像中物体的位置信息，通过迭代训练数据集，不断迭代优化损失函数，得到物体检测模型；

具体，删除基于caffe框架的VGGNet模型中VGG-16的最后两个FC层和softmax，然后增加五个由大到小的卷积层。

网络训练需要数据集，数据集为图像数据及其类别和位置信息。其中图像数据传入最底层通过卷积网络抽取特征，类别数据集位置信息在网络结构中后面的卷积层通过与网络的预测值构造损失函数，不断优化得到最优的网络模型；

该最优网络模型的损失函数为：

损失函数由位置损失L_loc(x,l,g)和类别置信度损失L_conf(x,c)加权而得。其中α表示权重项，根据交叉验证求出为1。其中l为前向传播后网络输出的位置坐标，g为真实训练数据框选的物体位置坐标。L_loc(x,c)为通过预测类别和真实类别计算得到的损失函数。

在网络结构后面的从大到小的卷积层中，每次迭代选用6个待预测的候选框。其中每一个特征图对应的候选框的面积计算公式如下：

其中，S_min取值为0.2，S_max取值为0.95，k∈[1,m]，再选择不同比例的default box，用α_r表示不同长宽比的参数：

则每一个default boxe的长宽即可被计算出来。

S3中的前置VGG16网络的卷积层大小分别是224*224，112*112，56*56，28*28，通过3*3大小的卷积核，2*2大小的max pooling池化运算进行连接，将VGG16的最后一层卷积层、最后两个FC层和softmax删去，后置增加14*14，14*14，7*7，5*5，3*3，1*1的卷积层，通过3*3和1*1大小的卷积核进行连接，通道数如图3所示，从VGG的第四层通道数为512，后置卷积层的通道数和卷积核的通道数一致，通过多尺度的候选框进行物体位置和类别的预测，最后通过NMS进行预测框的定位。

图2是现有技术中VGG-16的结构示意图。

S4在物体检测模型中添加dropout结构，对dropout结构输出的特征向量进行rescale操作，来保证数据归一化后数据的分布相同；

S3步骤得到物体检测模型中的网络计算公式为：

添加dropout结构后网络计算公式为：

上述公式中Bernoulli函数是伯努利分布，指的是对于随机变量r，有参数为p(0<p<1)，分别以概率p和1-p取1和0为值。

模型使用了dropout结构后，训练时只有占比为p的隐藏层单元参与训练，在预测时所有的隐藏层单元都参与进来，则得到的结果相比训练时平均要大1/p，为了避免这种情况，需要测试的时候将输出结果乘以p使下一层的输入规模保持不变

也可以在训练的时候直接将dropout后留下的权重扩大1/p倍，这样就可以使结果的scale保持不变，而在预测的时候也不用做额外的操作了，更方便一些。

S5将caffe深度学习工具编译成linux环境下的.so文件，将训练得到的算法模型caffemodel文件和网络结构描述文件prototxt共同打包成Jar包。

通过对传入的图像文件或传入的JPG对象进行识别得到图像中物体的类别和位置信息；

S6对分割后的n*n+(n-1)*(n-1)张序列图像进行合并，并对检测框进行非极大值抑制(NMS)，输出该图的检测框结果；

将n*n+(n-1)*(n-1)张序列图合成为原图，相应的检测框在原图位置标出，这样会形成大量有重合的检测框，这时候使用非极大值抑制算法(Non-maximum suppression,NMS)进行去重。按照检测框的置信度进行排序，置信度最高的框作为候选框，其它所有与它的IOU(交并比Intersection-over-Union)高于某个阈值的检测框其置信度置为0。然后在剩余的框里寻找置信度第二大的框，其它所有与它的IOU高于这个阈值的框其概率被置为0。重复以上操作。最终所有的框相互之间的IOU都是小于该阈值的，或者置信度被置为0了。剩下的所有置信度非0的框就是最终的检测框。

本发明的有益效果：

本发明利用卷积网络能够自动学习物体的特征，省去了现有技术中人工设计提取图像的工作，且网络模型优秀，更容易取得训练之后的泛化效果，避免奇异样本数据造成的影响，防止过拟合，对小物体识别的准确率提升，具有较高的分类准确率。此外，相比于之前R-CNN系统的算法，需要生成大量的region proposals，极大地提高了检测的速度。

附图说明

图1是本发明的工作流程图；

图2是本发明的VGG-16示意图；

图3是本发明的VGG-16作为前置网络的网络结构示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例

如图1所示，本发明采用VGGNet作为卷积神经网络提取特征，机器学习进行分类，其中每层的数据后连接一下softmax激活层，损失函数采用的是比较两个概率分布差异的交叉熵函数，整体网络结构为维数逐渐降低的卷积算子，最后的卷积层连接全连接层，输出物体位置的最大释然估计值，最后总的损失函数由位置损失和类别损失加权得到，通过对训练数据不断优化损失函数，得到最优的网络模型，对数据进行了标准化和归一化的预处理，网络结构中采用了dropout操作，防止过拟合，图像采用交叉分块检测，并使用NMS使得检测框的准确性。

在多目标物体检测应用中，我们选取三种物体：人体、机动车和文字。从网上爬取一些图片数据，经人工标定得到人体11678张图片、机动车7214张图片和5523张图片。

一种多个小目标的自动准确检测方法，包括如下步骤：

S1使用标定软件或脚本代码进行图像数据标定，生成训练集train.txt和测试集val.txt。随机按照4:1比例划分。其中，类别名定义如下表1：

表1

class_name	备注
		vehicle	机动车
person	人体
		text	文字

图片文件和xml标签文件分别放在train和val文件夹中，编写create_train_txt.py和create_val_txt.py脚本，在data主文件夹下生成训练数据和测试数据描述的txt文件，两个txt文件分别声明了进行迭代训练和进行测试需要的训练数据和测试数据，并分别在其中写入对应的文件名。

S2安装caffe并成功编译，为了高效读取数据集，在/caffe/build/tools/目录下一个convert_imagenet.bin文件可以将图像格式的数据集转换成数据库格式的LMDB。在/caffe/examples/imagenet/目录下有一个shell脚本：create_imagenet.sh，将图像数据文件夹和create_imagenet.sh放至/caffe/models/vggnet/目录下，将create_imagenet.sh重命名为create_lmdb.sh并执行，生成vgg_train_lmdb文件和vgg_val_lmdb文件。

S3使用pip命令安装opencv，编写python代码读取训练图片，编写后续图像预处理代码，包括图像分块模块代码，图像块的标准化和归一化模块代码，对图像进行处理输出多张处理后的图像块。

S4准备好VGGNet的网络结构文件(.prototxt)和训练求解器文件(solver.prototxt)。编写train_vggnet.sh模型训练脚本文件，配置好caffe-GPU环境，将以上文件放在/caffe/models/vggnet/目录中。

S5在caffe/目录下打开bash，执行命令bash./models/vggnet/train_vggnet.sh，通过训练得到caffemodel模型文件，训练过程中从打印出的Accuracy结果可以查看每500次迭代的准确率。

S6将caffe深度学习工具编译成linux环境下的.so文件，将训练得到的算法模型caffemodel文件和网络结构描述文件prototxt共同打包成Jar包。在VS2017中创建解决方案ImageRecognition，提供detectObject方法进行视频图像物体检测，参数可以分别输视频路径String videoPath或者输入图片字节数组byte[]imgFile，方法返回JSONObject结构，其中存储了视频图像中物体检测对应的包括类别、位置信息(xmin,ymin,xmax,ymax)和置信度，使用非极大值抑制将重复框选的目标合并。

S7传入视频或多张图片数据进行检测，可以传入文件的路径或者视频流文件的字节数组，支持MP4，JPEG格式。使用opencv的rectangle和putText函数对视频流中关键帧图像进行数据框和类别的标注，用imshow函数进行图像的效果显示。

本发明采用VGGNet作为卷积神经网络提取特征，机器学习进行分类，其中每层的数据后连接一下softmax激活层，损失函数采用的是比较两个概率分布差异的交叉熵函数，整体网络结构为维数逐渐降低的卷积算子，最后的卷积层连接全连接层，输出物体位置的最大释然估计值，最后总的损失函数由位置损失和类别损失加权得到，通过对训练数据不断优化损失函数，得到最优的网络模型，对数据进行了标准化和归一化的预处理，网络结构中采用了dropout操作，防止过拟合，图像采用交叉分块检测，并使用NMS使得检测框的准确性。

本发明采用VGGNet作为基础网络，修改网络卷积层结构，优化训练模型更新策略，对小目标检测具有更好的效果。实验证明，本方法具有较好的准确率及检测速度。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多个小目标的自动准确检测方法，其特征在于，包括如下步骤：

S1生成多类别的训练集和测试数据集，对图像数据进行标定，记录类别序号及位置信息；

S2对图像数据进行预处理，所述预处理包括标准化和归一化处理，对预处理后的图像数据进行压缩，然后重叠分块，得到多张小图像，对其序列进行编号；

S5将训练得到的caffemodel文件和网络结构描述文件共同打包成Jar包，封装成SDK；

S6对分块后的序列图像进行合并，并进行非极大值抑制，输出该图的检测框结果。

2.根据权利要求1所述的自动准确检测方法，其特征在于，所述S1生成多类别的训练集和测试数据集，对图像数据进行标定，记录类别序号及位置信息，具体为：

S1.1每个类别制定类别名；

S1.2对所有的图像文件进行标定，标定出图像中出现的物体信息，包括类别和位置信息；

S1.3根据标定的xml文件和图片文件生成训练数据和测试数据描述文件。

3.根据权利要求1所述的自动准确检测方法，其特征在于，所述S2重叠分块，得到多张小图像的检测，具体为：

S2.1根据小目标物体的大小将整张图像进行n*n的分块，分配序列号1至n*n；

S2.2对于长宽分别为l和w的图像，截取图像长从l/2n到l-l/2n，宽从w/2n到w-w/2n的部分，将该图像进行(n-1)*(n-1)的分块，分配序列号n*n+1至n*n+(n-1)*(n-1)；

S2.3将分块后的n*n+(n-1)*(n-1)张序列图像和原图一同作为对应的训练集和测试集进行物体检测。

4.根据权利要求1所述的自动准确检测方法，其特征在于，所述S3采用基于caffe框架的VGGNet模型作为基础网络，在基础网络中添加从大到小的卷积层用于预测图像中物体的位置信息，通过迭代训练数据集，不断迭代优化损失函数，得到物体检测模型，具体为：

物体检测模型的损失函数为：

损失函数由位置损失L_loc(x,l,g)和类别置信度损失L_conf(x,c)加权而得，其中α表示权重项，根据交叉验证求出为1，其中l为前向传播后网络输出的位置坐标，g为真实训练数据框选的物体位置坐标，L_loc(x,c)为通过预测类别和真实类别计算得到的损失函数；

在网络结构后面的从大到小的卷积层中，每次迭代选用6个待预测的候选框，其中每一个特征图对应的候选框的面积计算公式如下：

则每一个default boxe的长宽即可被计算出来：

5.根据权利要求1所述的自动准确检测方法，其特征在于，添加dropout结构后网络节点计算公式为：

Bernoulli(p)

6.根据权利要求1所述的自动准确检测方法，其特征在于，所述S3中的前置VGG16网络的卷积层大小分别是224*224，112*112，56*56，28*28，通过3*3大小的卷积核，2*2大小的max pooling池化运算进行连接，将VGG16的最后一层卷积层、最后两个FC层和softmax删去，后置增加14*14，14*14，7*7，5*5，3*3，1*1的卷积层，通过3*3和1*1大小的卷积核进行连接，从VGG的第四层通道数为512，后置卷积层的通道数和卷积核的通道数一致，通过多尺度的候选框进行物体位置和类别的预测，最后通过NMS进行预测框的定位。

7.根据权利要求1所述的自动准确检测方法，其特征在于，在S5步骤之前，还包括将Caffe/examples/cpp_classification/目录下的classification.cpp编译成linux环境下的.so文件。