CN111652836A

CN111652836A - 一种基于聚类算法和神经网络的多尺度目标检测方法

Info

Publication number: CN111652836A
Application number: CN202010198410.7A
Authority: CN
Inventors: 苏寒松; 田曦初; 刘高华
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-09-11

Abstract

本发明公开了一种基于聚类算法和神经网络的多尺度目标检测方法，对于输入图片进行统一尺寸、灰度化处理，将机器学习k‑means算法和深度学习神经网络结合起来，融合了两者的优点，实现目标检测网络的检测。与现有技术相比，本发明选择轻量级网络作为网络框架，避免了神经网络结构复杂臃肿、参数庞大冗余的问题；并通过一些数据预处理手段进一步减小整个网络计算开销；同时为改进多尺度目标检测的方式，结合了机器学习中k‑means聚类算法和神经网络，在控制计算开销的同时切实提高无区域提议算法的识别准确率。

Description

一种基于聚类算法和神经网络的多尺度目标检测方法

技术领域

本发明涉及计算机视觉领域和人工智能的深度学习技术领域，特别涉及一种基于聚类算法和神经网络的目标检测方法。

背景技术

随着计算机技术的发展，计算机视觉领域取得了巨大进展，目标检测作为计算机视觉领域的基础问题一直备受关注，并且在无人驾驶、视频监控、视频分析等领域有着广泛的应用应用前景。

传统的目标检测方法有很多，常用的有帧间差分法、背景减除法和光流法。(1)帧间差分法是将固定间隔的视频帧进行比较，该方法适合动态变化的环境却不适用于静态物体，且会产生大面积的空洞，提取目标的完整性较差；(2)光流法因其计算复杂、计算量庞大，很难满足运动检测的实时性；(3)背景差分法通过当前视频帧和背景帧进行差分运算实现对运动目标检测，但受光照和背景的变化影响较大。

近年深度学习算法的迅猛发展使其在计算机视觉领域的研究中已超过传统算法，全面革新了目标检测的模式，且端到端的方式便利了不同知识背景的人进行操作。故目前多采用深度学习神经网络的方法进行目标检测。大致可分为两个主流：一是基于区域提议的方法，其首先生成提议区域，然后放入分类器分类并修正位置，如RCNN、FastRCNN以及FasterRCNN；二是无区域提议的方法，其不生成提议区域，直接对全图进行目标位置检测和分类，如YOLO、SSD。基于区域提议的目标检测算法由于在提取感兴趣区域的过程中耗时严重，并不适合于实时检测；无区域提议的算法的检测实时性好，但是也因训练过程没有目的性而浪费了大量计算开销，且导致检测精度不高等问题。

考虑到实际应用中对实时性要求较高，本发明选择在无区域提议算法的基础上进行改进。

发明内容

本发明旨在提出一种基于聚类算法和神经网络的多尺度目标检测方法，选择轻量级网络，对于输入图片进行统一尺寸、灰度化处理，将机器学习k-means算法和深度学习神经网络结合起来，融合了两者的优点，实现目标检测网络的检测。

本发明的一种基于聚类算法和神经网络的多尺度目标检测方法，包括以下步骤：

步骤1、训练数据集图片预处理，具体包括以下处理：

步骤101、对于训练数据集图片进行标注，即用矩形框完整包围待检测目标形成数据框，依次标注图中每个数据框对应的目标类别名称；

步骤102、将训练数据集图片放缩到统一的尺寸，得到同尺寸图片；

步骤103、将同尺寸图片灰度化处理；

步骤104、选择12个目标检测参考面积，使用机器学习中的k-means聚类算法，将步骤102中标注的矩形框进行聚类，即：将所有矩形框按面积大小相近程度分成12组，每组分别计算平均面积值以及平均宽、高；计算过程如下：

已知待测集合(x₁,x₂,...,x_n)，利用k-means聚类将这n个值划分到k个集合中(k≤n)，使得组内平方和最小，即找到使得下式满足的聚类：

其中，SSE是误差平方和(sum ofthe squared errors)，μ_i是集合S_i中所有点的均值，x是集合S_i中的样本点；

选择12个目标检测参考面积，使用机器学习中的k-means聚类算法，将步骤102中标注的矩形框进行聚类，即将所有矩形框按面积大小相近程度分成12组，每组分别计算平均面积值以及平均宽、高，然后将计算出的12个平均面积当做后续目标检测网络的基准面积，重点检测与这些面积大小相似、宽高比例相仿的区域中是否有目标以及目标属于何种分类，并根据结果微调面积，使网络能准确标定目标框并检测出目标所属类别；

步骤2、设计并训练目标检测网络，具体包括以下处理：

步骤201：将上述12个基准面积从小到大排列，得到序列[a1,a2,a3,b1,b2,b3,c1,c2,c3,d1,d2,d3]，然后将该序列等分为4份分给不同尺度特征图做检测参照：[a1,a2,a3]分配给最大的特征图，[b1,b2,b3]分配给第二大的特征图，[c1,c2,c3]分配给第三大特征图，[d1,d2,d3]分配给最小的特征图；

步骤202、训练目标检测网络至收敛，即以MobileNet为基础网络，后面加4层不同尺度的特征图用于检测不同尺度的目标；将在不同特征图其对应的参考框位置表示为a＝(a^cx,a^cy,a^w,a^h)，a^cx和a^cy表示参考框中心坐标，a^w和a^h表示参考框宽高；将目标框真实位置表示为b＝(b^cx,b^cy,b^w,b^h)；

预测值p计算公式如下：

训练过程就是不断优化p的值而使检测效果越来越好的过程；

从最后一层特征图开始向上进行3次上采样和通道加和的操作，使得每层特征图都有其他特征图的信息，以增强检测效果；

步骤203、待收敛后固定目标检测网络所有层参数不再变化，得到最终目标检测网络；

步骤3、待测试图片预处理。与训练图片预处理部分相似，具体包括以下处理：

步骤301、将待测试图片放缩到统一的尺寸；

步骤302、图像灰度化处理；

步骤4、将处理后的待测图片输入目标检测网络，检测完毕后输出标注了检测框和类别的结果图片，完成检测任务；

后续再进行其他的检测任务，只重复进行步骤3、步骤4。

与现有技术相比，本发明选择轻量级网络作为网络框架，避免了神经网络结构复杂臃肿、参数庞大冗余的问题；并通过一些数据预处理手段进一步减小整个网络计算开销；同时为改进多尺度目标检测的方式，结合了机器学习中k-means聚类算法和神经网络，在控制计算开销的同时切实提高无区域提议算法的识别准确率。

附图说明

图1为本发明的一种基于聚类算法和神经网络的多尺度目标检测方法整体流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步详细描述。

如图1所示，为本发明的一种基于聚类算法和神经网络的多尺度目标检测方法整体流程图。

步骤1、训练数据集图片预处理，具体包含101至104节点分别对应的以下操作：

101节点对应的步骤101、对训练图片的数据集进行标注，包括用矩形框完整包围目标并标记所属类别，采用工具为LabelImg，标注后产生后缀为.xml的信息文件和原图片一一对应；

102节点对应步骤102、将训练图片统一放缩处理，得到同尺寸图片(376像素×376像素)，从而避免因图片大小不同使得网络无法在一致的标准下进行学习；

103节点对应步骤103、将同尺寸图片灰度化处理；

这是由于目标检测最重要的是学习目标内部的结构和联系，过多色彩同样会造成干扰，影响准确率，也会带来计算开销。彩色图像中每个像素点由R、G、B三个分量决定，而每个分量又有256种取值方法，此时一个像素点就有1600多万(256色×256色×256色)的颜色变化范围。而灰度图像是R、G、B三个分量取值相同的特殊彩色图像，此时一个像素点颜色的变化范围有256种。在进行人脸表情识别之前把图像进行灰度化处理，可以使后续的图像处理计算量变小。

104节点对应步骤104、选择12个目标检测参考面积，使用机器学习中的k-means聚类算法，将步骤102中标注的矩形框进行聚类，即：将所有矩形框按面积大小相近程度分成12组，每组分别计算平均面积值以及平均宽、高。大致计算过程如下：已知待测集合(x₁,x₂,...,x_n)，利用k-means聚类将这n个值划分到k个集合中(k≤n)，使得组内平方和最小。换句话说，它的目标是找到使得下式满足的聚类：

其中，SSE是误差平方和(sum ofthe squared errors)，μ_i是集合S_i中所有点的均值，x是集合S_i中的样本点。SSE表示样本的聚类误差，代表了聚类效果好坏，用上式可以使求得聚类误差最小、聚类效果最好；

以k＝12为例，用自己制作的数据集进行聚类，用“宽×长”表示面积，最终得到序列从小到大顺序排列为：

[8×8,10×12,15×27,21×30,31×58,59×81,70×99,90×112,127×159,157×202,191×224,242×276]。

上述以及后续的面积尺寸宽长值单位均为像素。将计算出的这12个值当作后续目标检测网络的参考框，重点检测与这些框面积大小相似、宽高比例相仿的区域中是否有目标以及目标属于何种分类。此处的目标分类即通过神经网络提取图像中特征，根据特征找出图像中存在目标的位置与大小并判断目标所属类别。例如图中有一个苹果，通过神经网络提取图中各处像素点值，通过不同区域像素数值与像素点间联系不同，检测出苹果对应的轮廓、颜色、形状、大小等关键特征，最终判断出该物体为苹果并给出大致位置，之后根据结果微调面积，使面积与物体实际面积越来越接近，微调方法见步骤202；

步骤2、训练目标检测网络，具体包含201至203节点分别对应的以下操作：

201节点对应步骤201、将步骤104得到的12个像素宽长值从小到大排列的面积序列等分为4份分配给不同尺度特征图做检测参照，即：[8×8,10×12,15×27]分配给尺寸为96×96的特征图1，[21×30,31×58,59×81]分配给尺寸为48×48的特征图2，[70×99,90×112,127×159]分配给尺寸为24×24的特征图3，[157×202,191×224,242×276]分配给尺寸为12x12的特征图4，所有的尺寸都是以像素为单位的宽长相乘；

本步骤的操作是因为大特征图感受野更细致，对于小物体检测效果更优；小特征图感受野更整体，对于大物体检测效果更优。

202、203节点对应步骤202、203、训练目标检测网络至收敛后固定所有层参数不变，具体操作为：以轻量级网络如目前最流行的MobileNet为基础网络，后面加96×96、48×48、24×24、12×12大小的4层特征图用于检测不同尺度的目标，每层特征图间用步长stride＝2的卷积操作完成尺寸的减小和深层特征的提取。同时为了增强检测效果，从特征图4向上进行3次上采样和通道加和的操作，使得每层特征图都有其他特征图的信息，这样使学到的信息更丰富，识别更准确。根据不同参考面积，在不同特征图其对应的参考框位置均可表示为a＝(a^cx,a^cy,a^w,a^h)，a^cx和a^cy表示参考框中心坐标，a^w和a^h表示参考框宽高；目标框真实位置可用b＝(b^cx,b^cy,b^w,b^h)表示；预测值p实际就是求a相对于b的转换值：

训练过程中就是不断优化p的值来使检测效果越来越好；

步骤3、待测试图片预处理，具体包含301、302节点分别对应的以下操作：与训练图片预处理部分102、103节点操作完全一致，不再赘述。

最终，结合结合步骤3图片处理过程，将处理后图片输入步骤2得到的目标检测网络，输出结果，便完成了整个目标检测算法实现的全部过程。

Claims

1.一种基于聚类算法和神经网络的多尺度目标检测方法，其特征在于，该方法包括以下步骤：