CN110569754A

CN110569754A - 图像目标检测方法、装置、存储介质及设备

Info

Publication number: CN110569754A
Application number: CN201910788754.0A
Authority: CN
Inventors: 刘绍波; 吴波; 林赣秀; 姚娜娜; 周志芬; 吴佳君
Original assignee: Jiangxi Aerospace Pohu Cloud Technology Co Ltd
Current assignee: Jiangxi Aerospace Pohu Cloud Technology Co Ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-13

Abstract

本发明涉及人工智能技术领域，公开了一种图像目标检测方法，包括：S1：获取视频流媒体的帧数据，利用卷积神经网络模型对帧数据进行特征图提取，以得到特征图片；S2：将所述特征图片输入到目标检测模型的边框区域网络，对特征图中片可能存在的目标进行边框确定，输出边框区域信息，所述卷积神经网络模型和目标检测模型均是基于城管案件图片训练得到的；S3：将所述边框区域信息与所述特征图片一并输入到目标检测模型的特征图池化层，得到兴趣区域特征图；S4：将所述兴趣区域特征图送入卷积神经网络模型的网络全连接层，检测出目标物体的位置和类别。本发明方法即使在背景信息比较复杂、图像质量较低的情况下也能准确地检测出目标物体的类别。

Description

图像目标检测方法、装置、存储介质及设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种图像目标检测方法、装置、存储介质及设备。

背景技术

近年来，由于人工智能技术、移动互联网以及云计算的规模和应用激增，随着数据采集技术的进步和深度学习(Deep Learning)等领域的复杂新技术、新方法的使用也导致数据量的产生与日俱增导致数据量的产生与日俱增。为了充分发挥长期积累的巨量数据的效能，学术界和工业界再一次将目光转向大数据的研究，并成为智慧城市领域的热点技术。同时，视频监控的飞速发展使得对城市管理的要求不断提高，现有的视频监控的作用领域成为大家主要关注的问题。如何在智慧城市领域加入有效的视频监控应用机制，加入有效安全受控分发机制，为城市运行安全监测提供保障，已成为热点问题。

已经有学者针对视频中的场景进行研究并提出一些视频图像识别的方案。在Dalal的方案中，提出了使用梯度方向直方图进行移动行人检测，梯度方向直方图将图像分成小的连通区域，采集连通区域中各像素点的梯度的边缘或边缘的方向直方图，最后将这些直方图组合起来构成特征描述、HOG(Histogram of Oriented Gradient)描述器对图像几何和光学的变化都能保持较好的不变性、而且在粗空间采样、精细方向抽样和较强的光学归一化等条件下，行人保持站立的姿态做一些轻微的肢体动作，这些肢体动作可以忽略而不影响检测效果。另有一部分研究人员在如何对视频安监、交通领域进行了研究，并提出了基于形状的目标监测算法。但在城管案件特殊情况下，实际现实中场景数据是不完善的、背景信息比较复杂、图像质量较低、因此利用一般的分类方法不能取得理想效果。

发明内容

本发明提出一种图像目标检测方法、装置、存储介质及设备，解决现有技术中现实中场景由于数据不完善、背景信息比较复杂、图像质量较低导致图像无法准确分类的问题。

本发明的一种图像目标检测方法，包括步骤：

S1：获取视频流媒体的帧数据，利用卷积神经网络模型对帧数据进行特征图提取，以得到特征图片；

S2：将所述特征图片输入到目标检测模型的边框区域网络，对特征图中片可能存在的目标进行边框确定，输出边框区域信息，所述卷积神经网络模型和目标检测模型均是基于城管案件图片训练得到的；

S3：将所述边框区域信息与所述特征图片一并输入到目标检测模型的特征图池化层，得到兴趣区域特征图；

S4：将所述兴趣区域特征图送入卷积神经网络模型的网络全连接层，检测出目标物体的位置和类别。

其中，所述S1之前还包括：训练所述卷积神经网络模型的步骤：

S101：将城管案件图片作为样本图片进行分类并标记类别，人工过滤模糊图片，形成预训练模型案件图片库；

S102：对案件图片库中的图片进行数据增强处理和预处理；

S103：对VGG16分类网络模型进行微调，初始化VGG16分类网络模型中后三层的权重，并将VGG16分类网络中的类别设为要识别的城管案件类别；

S104：根据要识别的城管案件类别的类别数指定新的全连接层的选项，并将全连接层输出大小设置为与所述类别数相同的大小；

S105：设置VGG16分类网络的训练参数；

S106：VGG16分类网络对样本图片进行特征提取；

S107：通过迭代对VGG16分类网络模型的网络权重进行优化，得到优化后的VGG16分类网络模型；

S108：根据优化后的网络权重对VGG16分类网络模型进行调整，包括对训练参数的调整；

S109：利用调整好的训练参数，返回步骤S106继续训练VGG16分类网络，直到损失曲线趋于平稳或者达到指定迭代次数则训练完成。

其中，所述步骤S109之后和步骤S1之前还包括：训练目标检测模型的步骤：

S110对所述样本图片进行兴趣点标记；

S111：采用兴趣点标记后的图片单独训练边框区域网络，以得到图片的边框信息，边框区域网络的网络权重为训练完成的VGG16分类网络模型的网络权重；

S112：利用VGG16网络权重和上一步边框区域网络生成的边框区域信息作为Fast-RCNN的输入，将边框区域信息进行特征提取，然后通过特征图池化层和全连接层输出两条支路，一条是目标分类，另一条是边框区域回归；

S113：再次训练边框区域网络，固定特征提取层、特征图池化层、全连接层的参数，只更新边框区域网络独有部分的参数，所述全连接层用于目标分类，所述特征池化层带有边框信息，用于边框区域回归；

S114：对边框区域网络的结果再次微调S112部分的参数，固定边框区域网络的参数，只更新步骤S112独有部分的参数，完成目标检测模型训练。

本发明还提供了一种图像目标检测装置，包括用于执行上述任一项所述的方法的单元。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述任一项所述的方法。

本发明还提供了一种图像目标检测设备，包括：处理器、网络接口和存储器，所述处理器、所述网络接口和所述存储器相互连接，其中，所述网络接口受所述处理器的控制用于收发消息，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述任一项所述的方法。

本发明的图像目标检测方法中，由于采用基于城管案件图片训练得到的卷积神经网络模型(Convolutional Neural Networks，CNN)和目标检测模型，图片数据完善，通过在CNN模型中添特征图片噪声过滤机制，并在特征提取之后，对目标物体位置进行边框回归，再截取边框中的目标物体，将其继进行图像分类，即使在背景信息比较复杂、图像质量较低的情况下也能准确地检测出目标物体的类别；而且有效地解决了城管案件费财、费人、费力的不足，同时填补了视频监控领域在智慧城管中应用的空白点，从而达到了在城管案件在视频流环境下的目标检测与分类。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种图像目标检测方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例的图像目标检测方法如图1所示，包括：

步骤S1，获取视频流媒体的帧数据，利用卷积神经网络模型对帧数据进行特征图提取，以得到特征图片。

步骤S2，将所述特征图片输入到目标检测模型的边框区域网络(即RPN)，对特征图中片可能存在的目标进行边框确定，输出边框区域信息。本实施例中，所述卷积神经网络模型是基于城管案件图片训练得到的，视频流媒体为摄像头实时采集的视频流媒体。

步骤S3，将边框区域信息与特征图片一并输入到目标检测模型的特征图池化层，得到兴趣区域特征图。

步骤S4，将所述兴趣区域特征图送入卷积神经网络模型的网络全连接层，检测出目标物体的位置和类别。

本实施例的图像目标检测方法中，由于采用基于城管案件图片训练得到的卷积神经网络模型(Convolutional Neural Networks，CNN)和目标检测模型，图片数据完善，通过在CNN模型中添特征图片噪声过滤机制，并在特征提取之后，对目标物体位置进行边框回归，再截取边框中的目标物体，将其继进行图像分类，即使在背景信息比较复杂、图像质量较低的情况下也能准确地检测出目标物体的类别；而且有效地解决了城管案件费财、费人、费力的不足，同时填补了视频监控领域在智慧城管中应用的空白点，从而达到了在城管案件在视频流环境下的目标检测与分类。

本实施例中，步骤S1之前还包括：训练所述卷积神经网络模型的步骤，具体包括：

步骤S101，将城管案件图片作为样本图片进行分类并标记类别，人工过滤模糊图片，形成预训练模型案件图片库。

步骤S102，对案件图片库中的图片进行数据增强处理和预处理，其中，数据增强是在数据集不足的情况下，对图片进行翻转、旋转、缩放、平移、饱和度调整等，并重新保存，以扩展图片数量。预处理包括：去除图片背景噪声干扰，对图片存在的雨滴、雾气进行过滤，对夜间图片进行曝光处理。

步骤S103，对VGG16(卷积神经网络模型的一种)分类网络模型进行微调，初始化VGG16分类网络模型中后三层的权重，并将VGG16分类网络中的类别设为要识别的城管案件类别。

步骤S104，根据要识别的城管案件类别的类别数指定新的全连接层的选项，并将全连接层输出大小设置为与所述类别数相同的大小。

步骤S105，设置VGG16分类网络的训练参数；其中训练参数包括：迭代epoch数：30，学习速率：0.0001，最小批数据：64，优化器：梯度下降(Gradient Descent)。

步骤S106，VGG16分类网络对样本图片进行特征提取。

步骤S107，通过迭代对网络权重进行优化，得到优化后的VGG16分类网络模型。

步骤S108，根据优化后的网络权重对VGG16分类网络模型进行调整，包括对训练参数的调整。调整后的训练参数如下：迭代epoch数：25；初始学习速率为0.00001，当训练次数达到9000后，学习速率将变为0.0001；最小批数据：64；优化器：Adam。

步骤S109，利用调整好的训练参数，返回步骤S106继续训练VGG16分类网络，直到损失曲线趋于平稳或者达到指定迭代次数则训练完成，其中，指定迭代次数可以是25次epoch，一次epoch表示一次完整的数据集迭代训练。

步骤S110，对所述样本图片进行兴趣点标记，具体地，对特征区域进行人工标注，用不同标签(label)对不同案件类型进行区分。

步骤S111，采用兴趣点标记后的图片单独训练边框区域网络，以得到图片的边框信息，边框区域网络的网络权重为训练完成的VGG16分类网络模型的网络权重。

步骤S112，利用VGG16网络权重和上一步边框区域网络生成的边框区域信息作为Fast-RCNN的输入，将边框区域信息进行特征提取，然后通过特征图池化层和全连接层输出两条支路，一条是目标分类，另一条是边框区域回归。

步骤S113，再次训练边框区域，此时固定特征提取层、特征图池化层、全连接层的参数，只更新边框区域网络独有部分的参数，全连接层用于目标分类，特征池化层带有边框信息，用于边框区域回归。

步骤S114，对边框区域的结果再次微调S112部分的参数，固定边框区域网络的参数，只更新步骤S112独有部分的参数，完成目标检测模型训练。

下面以一实例进行说明，将上述图像目标检测方法程序安装到智慧城管平台，该方法包括以下步骤：

步骤501：视频流媒体发送数据请求，智慧城管平台接受数据请求，并做抽帧处理，交给目标监测模型处理。

步骤502：输入图片经过特征提取层提取图像的特征图。该特征图被共享用于后续RPN层和全连接层。

步骤503：将步骤502生成的特征图会传入RPN网络中，RPN网络用于生成边框位置，在conv5-3的卷积特征图上用一个n×n的滑窗(本实施例选用了n＝3，即3×3的滑窗)生成一个长度为512维长度的全连接特征，然后在这个512维的特征后产生两个分支的全连接层。

步骤504：全连接层通过RPN判断位置矩阵属于前景或者背景，再利用非极大值抑制算法修正位置矩阵获得精确的边框位置。

步骤505：把ROI中的位置区域坐标映射到特征图上，映射规则比较简单，就是把各个坐标除以“输入图片与特征图的大小的比值，得到了特征图上的边框坐标后，使用ROI池化得到输出；由于输入的图片大小不一，所以需要使用的类似Spp Pooling，在ROI池化的过程中需要计算池化后的结果对应到特征图上所占的范围，然后在那个范围中进行取最大池化或者取均值池化，输出固定尺寸的特征图。

步骤506：再次利用边框区域回归获得每个区域的位置偏移量预测框，用于回归更加精确的目标检测框。

步骤507：分类部分利用已经获得的区域特征图，通过全连接层与softmax计算每个区域具体属于那个类别，输出类别概率向量；

本实例中的目标检测方法可以做到在智慧城管平台的的稳定运行下，模型对视频摄像头流数据进行并行运算识别，并将识别后的结果图片输出至界面中、以保证案件检测的实时性、高效性，拍摄过程中将完成案件多角度抓怕，以保证案件的真实性以及模型的准确性。

在目标检测模型中添加卷积神经网络，主要是为了优化对特殊案件进行像素级别特征的提取与分类，本方法设计的首层卷积核大小为11×11，且在卷积层利用ReLU激活函数加快网络训练速度，同时在池化层后利用dropout技术随机断开50％的网络结点防止算法过拟合，最后使用对网络参数进行微调，全连接层采用softmax分类器进行分类。

卷积神经网络的工作流程架构包括：目标检测模型与卷积神经网络建立连接；建立连接后分类器中的卷积层负责图像特征的提取运算；分类器对输入图片进行分类识别；分类器结果返回智慧城管平台后，重新回归物体边框与最后的分类信息，智慧城管平台记录案件信息。

下面以实例分别说明卷积神经网络在收到数据后，对案件图片进行分类的具体步骤包括：

步骤508：对输入图片进行resize操作，使输入图片符合分类器尺寸要求。

步骤509：输入图片进入卷积层，卷积层的每一个卷积滤波器重复的作用于整个感受野中，对输入图像进行卷积，卷积结果构成了输入图像的特征图，提取出图像的局部特征。每一个卷积滤波器共享相同的参数，包括相同的权重矩阵和偏置项，激活函数作用在卷积层，增强了模型对非线性问题的处理。

步骤5010：对每一步卷积后的特征图进行池化操作，去除卷积后的特征图中对于物体分类不必要的冗余信息。

步骤5011：对前面所有卷积、池化后的特征图信息进行整合，采用softmax对物体进行分类，并计算出概率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像目标检测方法，其特征在于，包括步骤：

2.如权利要求1所述的图像目标检测方法，其特征在于，所述S1之前还包括：训练所述卷积神经网络模型的步骤：

S102：对案件图片库中的图片进行数据增强处理和预处理；

S105：设置VGG16分类网络的训练参数；

S106：VGG16分类网络对样本图片进行特征提取；

3.如权利要求2所述的图像目标检测方法，其特征在于，所述步骤S109之后和步骤S1之前还包括：训练目标检测模型的步骤：

S110对所述样本图片进行兴趣点标记；

4.一种图像目标检测装置，其特征在于，包括用于执行如权利要求1～3中任一项所述的方法的单元。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～3中任一项所述的方法。

6.一种图像目标检测设备，其特征在于，包括：处理器、网络接口和存储器，所述处理器、所述网络接口和所述存储器相互连接，其中，所述网络接口受所述处理器的控制用于收发消息，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～3中任一项所述的方法。