CN111652836A - 一种基于聚类算法和神经网络的多尺度目标检测方法 - Google Patents
一种基于聚类算法和神经网络的多尺度目标检测方法 Download PDFInfo
- Publication number
- CN111652836A CN111652836A CN202010198410.7A CN202010198410A CN111652836A CN 111652836 A CN111652836 A CN 111652836A CN 202010198410 A CN202010198410 A CN 202010198410A CN 111652836 A CN111652836 A CN 111652836A
- Authority
- CN
- China
- Prior art keywords
- target detection
- network
- detection
- areas
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于聚类算法和神经网络的多尺度目标检测方法,对于输入图片进行统一尺寸、灰度化处理,将机器学习k‑means算法和深度学习神经网络结合起来,融合了两者的优点,实现目标检测网络的检测。与现有技术相比,本发明选择轻量级网络作为网络框架,避免了神经网络结构复杂臃肿、参数庞大冗余的问题;并通过一些数据预处理手段进一步减小整个网络计算开销;同时为改进多尺度目标检测的方式,结合了机器学习中k‑means聚类算法和神经网络,在控制计算开销的同时切实提高无区域提议算法的识别准确率。
Description
技术领域
本发明涉及计算机视觉领域和人工智能的深度学习技术领域,特别涉及一种基于聚类算法和神经网络的目标检测方法。
背景技术
随着计算机技术的发展,计算机视觉领域取得了巨大进展,目标检测作为计算机视觉领域的基础问题一直备受关注,并且在无人驾驶、视频监控、视频分析等领域有着广泛的应用应用前景。
传统的目标检测方法有很多,常用的有帧间差分法、背景减除法和光流法。(1)帧间差分法是将固定间隔的视频帧进行比较,该方法适合动态变化的环境却不适用于静态物体,且会产生大面积的空洞,提取目标的完整性较差;(2)光流法因其计算复杂、计算量庞大,很难满足运动检测的实时性;(3)背景差分法通过当前视频帧和背景帧进行差分运算实现对运动目标检测,但受光照和背景的变化影响较大。
近年深度学习算法的迅猛发展使其在计算机视觉领域的研究中已超过传统算法,全面革新了目标检测的模式,且端到端的方式便利了不同知识背景的人进行操作。故目前多采用深度学习神经网络的方法进行目标检测。大致可分为两个主流:一是基于区域提议的方法,其首先生成提议区域,然后放入分类器分类并修正位置,如RCNN、FastRCNN以及FasterRCNN;二是无区域提议的方法,其不生成提议区域,直接对全图进行目标位置检测和分类,如YOLO、SSD。基于区域提议的目标检测算法由于在提取感兴趣区域的过程中耗时严重,并不适合于实时检测;无区域提议的算法的检测实时性好,但是也因训练过程没有目的性而浪费了大量计算开销,且导致检测精度不高等问题。
考虑到实际应用中对实时性要求较高,本发明选择在无区域提议算法的基础上进行改进。
发明内容
本发明旨在提出一种基于聚类算法和神经网络的多尺度目标检测方法,选择轻量级网络,对于输入图片进行统一尺寸、灰度化处理,将机器学习k-means算法和深度学习神经网络结合起来,融合了两者的优点,实现目标检测网络的检测。
本发明的一种基于聚类算法和神经网络的多尺度目标检测方法,包括以下步骤:
步骤1、训练数据集图片预处理,具体包括以下处理:
步骤101、对于训练数据集图片进行标注,即用矩形框完整包围待检测目标形成数据框,依次标注图中每个数据框对应的目标类别名称;
步骤102、将训练数据集图片放缩到统一的尺寸,得到同尺寸图片;
步骤103、将同尺寸图片灰度化处理;
步骤104、选择12个目标检测参考面积,使用机器学习中的k-means聚类算法,将步骤102中标注的矩形框进行聚类,即:将所有矩形框按面积大小相近程度分成12组,每组分别计算平均面积值以及平均宽、高;计算过程如下:
已知待测集合(x1,x2,...,xn),利用k-means聚类将这n个值划分到k个集合中(k≤n),使得组内平方和最小,即找到使得下式满足的聚类:
其中,SSE是误差平方和(sum ofthe squared errors),μi是集合Si中所有点的均值,x是集合Si中的样本点;
选择12个目标检测参考面积,使用机器学习中的k-means聚类算法,将步骤102中标注的矩形框进行聚类,即将所有矩形框按面积大小相近程度分成12组,每组分别计算平均面积值以及平均宽、高,然后将计算出的12个平均面积当做后续目标检测网络的基准面积,重点检测与这些面积大小相似、宽高比例相仿的区域中是否有目标以及目标属于何种分类,并根据结果微调面积,使网络能准确标定目标框并检测出目标所属类别;
步骤2、设计并训练目标检测网络,具体包括以下处理:
步骤201:将上述12个基准面积从小到大排列,得到序列[a1,a2,a3,b1,b2,b3,c1,c2,c3,d1,d2,d3],然后将该序列等分为4份分给不同尺度特征图做检测参照:[a1,a2,a3]分配给最大的特征图,[b1,b2,b3]分配给第二大的特征图,[c1,c2,c3]分配给第三大特征图,[d1,d2,d3]分配给最小的特征图;
步骤202、训练目标检测网络至收敛,即以MobileNet为基础网络,后面加4层不同尺度的特征图用于检测不同尺度的目标;将在不同特征图其对应的参考框位置表示为a=(acx,acy,aw,ah),acx和acy表示参考框中心坐标,aw和ah表示参考框宽高;将目标框真实位置表示为b=(bcx,bcy,bw,bh);
预测值p计算公式如下:
训练过程就是不断优化p的值而使检测效果越来越好的过程;
从最后一层特征图开始向上进行3次上采样和通道加和的操作,使得每层特征图都有其他特征图的信息,以增强检测效果;
步骤203、待收敛后固定目标检测网络所有层参数不再变化,得到最终目标检测网络;
步骤3、待测试图片预处理。与训练图片预处理部分相似,具体包括以下处理:
步骤301、将待测试图片放缩到统一的尺寸;
步骤302、图像灰度化处理;
步骤4、将处理后的待测图片输入目标检测网络,检测完毕后输出标注了检测框和类别的结果图片,完成检测任务;
后续再进行其他的检测任务,只重复进行步骤3、步骤4。
与现有技术相比,本发明选择轻量级网络作为网络框架,避免了神经网络结构复杂臃肿、参数庞大冗余的问题;并通过一些数据预处理手段进一步减小整个网络计算开销;同时为改进多尺度目标检测的方式,结合了机器学习中k-means聚类算法和神经网络,在控制计算开销的同时切实提高无区域提议算法的识别准确率。
附图说明
图1为本发明的一种基于聚类算法和神经网络的多尺度目标检测方法整体流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步详细描述。
如图1所示,为本发明的一种基于聚类算法和神经网络的多尺度目标检测方法整体流程图。
步骤1、训练数据集图片预处理,具体包含101至104节点分别对应的以下操作:
101节点对应的步骤101、对训练图片的数据集进行标注,包括用矩形框完整包围目标并标记所属类别,采用工具为LabelImg,标注后产生后缀为.xml的信息文件和原图片一一对应;
102节点对应步骤102、将训练图片统一放缩处理,得到同尺寸图片(376像素×376像素),从而避免因图片大小不同使得网络无法在一致的标准下进行学习;
103节点对应步骤103、将同尺寸图片灰度化处理;
这是由于目标检测最重要的是学习目标内部的结构和联系,过多色彩同样会造成干扰,影响准确率,也会带来计算开销。彩色图像中每个像素点由R、G、B三个分量决定,而每个分量又有256种取值方法,此时一个像素点就有1600多万(256色×256色×256色)的颜色变化范围。而灰度图像是R、G、B三个分量取值相同的特殊彩色图像,此时一个像素点颜色的变化范围有256种。在进行人脸表情识别之前把图像进行灰度化处理,可以使后续的图像处理计算量变小。
104节点对应步骤104、选择12个目标检测参考面积,使用机器学习中的k-means聚类算法,将步骤102中标注的矩形框进行聚类,即:将所有矩形框按面积大小相近程度分成12组,每组分别计算平均面积值以及平均宽、高。大致计算过程如下:已知待测集合(x1,x2,...,xn),利用k-means聚类将这n个值划分到k个集合中(k≤n),使得组内平方和最小。换句话说,它的目标是找到使得下式满足的聚类:
其中,SSE是误差平方和(sum ofthe squared errors),μi是集合Si中所有点的均值,x是集合Si中的样本点。SSE表示样本的聚类误差,代表了聚类效果好坏,用上式可以使求得聚类误差最小、聚类效果最好;
以k=12为例,用自己制作的数据集进行聚类,用“宽×长”表示面积,最终得到序列从小到大顺序排列为:
[8×8,10×12,15×27,21×30,31×58,59×81,70×99,90×112,127×159,157×202,191×224,242×276]。
上述以及后续的面积尺寸宽长值单位均为像素。将计算出的这12个值当作后续目标检测网络的参考框,重点检测与这些框面积大小相似、宽高比例相仿的区域中是否有目标以及目标属于何种分类。此处的目标分类即通过神经网络提取图像中特征,根据特征找出图像中存在目标的位置与大小并判断目标所属类别。例如图中有一个苹果,通过神经网络提取图中各处像素点值,通过不同区域像素数值与像素点间联系不同,检测出苹果对应的轮廓、颜色、形状、大小等关键特征,最终判断出该物体为苹果并给出大致位置,之后根据结果微调面积,使面积与物体实际面积越来越接近,微调方法见步骤202;
步骤2、训练目标检测网络,具体包含201至203节点分别对应的以下操作:
201节点对应步骤201、将步骤104得到的12个像素宽长值从小到大排列的面积序列等分为4份分配给不同尺度特征图做检测参照,即:[8×8,10×12,15×27]分配给尺寸为96×96的特征图1,[21×30,31×58,59×81]分配给尺寸为48×48的特征图2,[70×99,90×112,127×159]分配给尺寸为24×24的特征图3,[157×202,191×224,242×276]分配给尺寸为12x12的特征图4,所有的尺寸都是以像素为单位的宽长相乘;
本步骤的操作是因为大特征图感受野更细致,对于小物体检测效果更优;小特征图感受野更整体,对于大物体检测效果更优。
202、203节点对应步骤202、203、训练目标检测网络至收敛后固定所有层参数不变,具体操作为:以轻量级网络如目前最流行的MobileNet为基础网络,后面加96×96、48×48、24×24、12×12大小的4层特征图用于检测不同尺度的目标,每层特征图间用步长stride=2的卷积操作完成尺寸的减小和深层特征的提取。同时为了增强检测效果,从特征图4向上进行3次上采样和通道加和的操作,使得每层特征图都有其他特征图的信息,这样使学到的信息更丰富,识别更准确。根据不同参考面积,在不同特征图其对应的参考框位置均可表示为a=(acx,acy,aw,ah),acx和acy表示参考框中心坐标,aw和ah表示参考框宽高;目标框真实位置可用b=(bcx,bcy,bw,bh)表示;预测值p实际就是求a相对于b的转换值:
训练过程中就是不断优化p的值来使检测效果越来越好;
步骤3、待测试图片预处理,具体包含301、302节点分别对应的以下操作:与训练图片预处理部分102、103节点操作完全一致,不再赘述。
最终,结合结合步骤3图片处理过程,将处理后图片输入步骤2得到的目标检测网络,输出结果,便完成了整个目标检测算法实现的全部过程。
Claims (1)
1.一种基于聚类算法和神经网络的多尺度目标检测方法,其特征在于,该方法包括以下步骤:
步骤1、训练数据集图片预处理,具体包括以下处理:
步骤101、对于训练数据集图片进行标注,即用矩形框完整包围待检测目标形成数据框,依次标注图中每个数据框对应的目标类别名称;
步骤102、将训练数据集图片放缩到统一的尺寸,得到同尺寸图片;
步骤103、将同尺寸图片灰度化处理;
步骤104、选择12个目标检测参考面积,使用机器学习中的k-means聚类算法,将步骤102中标注的矩形框进行聚类,即:将所有矩形框按面积大小相近程度分成12组,每组分别计算平均面积值以及平均宽、高;计算过程如下:
已知待测集合(x1,x2,...,xn),利用k-means聚类将这n个值划分到k个集合中(k≤n),使得组内平方和最小,即找到使得下式满足的聚类:
其中,SSE表示误差平方和(sum of the squared errors),μi是集合Si中所有点的均值,x是集合Si中的样本点;
选择12个目标检测参考面积,使用机器学习中的k-means聚类算法,将步骤102中标注的矩形框进行聚类,即将所有矩形框按面积大小相近程度分成12组,每组分别计算平均面积值以及平均宽、高,然后将计算出的12个平均面积当做后续目标检测网络的基准面积,重点检测与这些面积大小相似、宽高比例相仿的区域中是否有目标以及目标属于何种分类,并根据结果微调面积,使网络能准确标定目标框并检测出目标所属类别;
步骤2、设计并训练目标检测网络,具体包括以下处理:
步骤201:将上述12个基准面积从小到大排列,得到序列[a1,a2,a3,b1,b2,b3,c1,c2,c3,d1,d2,d3],然后将该序列等分为4份分给不同尺度特征图做检测参照:[a1,a2,a3]分配给最大的特征图,[b1,b2,b3]分配给第二大的特征图,[c1,c2,c3]分配给第三大特征图,[d1,d2,d3]分配给最小的特征图;
步骤202、训练目标检测网络至收敛,即以MobileNet为基础网络,后面加4层不同尺度的特征图用于检测不同尺度的目标;将在不同特征图其对应的参考框位置表示为a=(acx,acy,aw,ah),acx和acy表示参考框中心坐标,aw和ah表示参考框宽高;将目标框真实位置表示为b=(bcx,bcy,bw,bh);
预测值p计算公式如下:
训练过程就是不断优化p的值而使检测效果越来越好的过程;
从最后一层特征图开始向上进行3次上采样和通道加和的操作,使得每层特征图都有其他特征图的信息,以增强检测效果;
步骤203、待收敛后固定目标检测网络所有层参数不再变化,得到最终目标检测网络;
步骤3、待测试图片预处理,与训练图片预处理部分相似,具体包括以下处理:
步骤301、将待测试图片放缩到统一的尺寸;
步骤302、图像灰度化处理;
步骤4、将处理后的待测图片输入目标检测网络,检测完毕后输出标注了检测框和类别的结果图片,完成检测任务;
后续再进行其他的检测任务,只需重复进行步骤3、步骤4。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198410.7A CN111652836A (zh) | 2020-03-19 | 2020-03-19 | 一种基于聚类算法和神经网络的多尺度目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010198410.7A CN111652836A (zh) | 2020-03-19 | 2020-03-19 | 一种基于聚类算法和神经网络的多尺度目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111652836A true CN111652836A (zh) | 2020-09-11 |
Family
ID=72346425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010198410.7A Pending CN111652836A (zh) | 2020-03-19 | 2020-03-19 | 一种基于聚类算法和神经网络的多尺度目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652836A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011389A (zh) * | 2021-04-23 | 2021-06-22 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113344113A (zh) * | 2021-06-27 | 2021-09-03 | 东南大学 | 一种基于改进k-means聚类的Yolov3锚框确定方法 |
CN113362371A (zh) * | 2021-05-18 | 2021-09-07 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、电子设备、存储介质 |
CN113807407A (zh) * | 2021-08-25 | 2021-12-17 | 西安电子科技大学广州研究院 | 目标检测模型训练方法、模型性能检测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN110852283A (zh) * | 2019-11-14 | 2020-02-28 | 南京工程学院 | 一种基于改进YOLOv3的安全帽佩戴检测与跟踪方法 |
-
2020
- 2020-03-19 CN CN202010198410.7A patent/CN111652836A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960198A (zh) * | 2018-07-28 | 2018-12-07 | 天津大学 | 一种基于残差ssd模型的交通标志检测与识别方法 |
CN110852283A (zh) * | 2019-11-14 | 2020-02-28 | 南京工程学院 | 一种基于改进YOLOv3的安全帽佩戴检测与跟踪方法 |
Non-Patent Citations (2)
Title |
---|
张强等: ""基于改进 YOLOv3 的手势实时识别方法"", 《计算机工程》 * |
施辉等: ""改进YOLO v3的安全帽佩戴检测方法"", 《计算机工程与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011389A (zh) * | 2021-04-23 | 2021-06-22 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113011389B (zh) * | 2021-04-23 | 2022-07-26 | 电子科技大学 | 一种基于聚类思想的道路行人小目标检测方法 |
CN113362371A (zh) * | 2021-05-18 | 2021-09-07 | 北京迈格威科技有限公司 | 目标跟踪方法及装置、电子设备、存储介质 |
CN113344113A (zh) * | 2021-06-27 | 2021-09-03 | 东南大学 | 一种基于改进k-means聚类的Yolov3锚框确定方法 |
CN113344113B (zh) * | 2021-06-27 | 2024-03-19 | 东南大学 | 一种基于改进k-means聚类的Yolov3锚框确定方法 |
CN113807407A (zh) * | 2021-08-25 | 2021-12-17 | 西安电子科技大学广州研究院 | 目标检测模型训练方法、模型性能检测方法及装置 |
CN113807407B (zh) * | 2021-08-25 | 2023-04-18 | 西安电子科技大学广州研究院 | 目标检测模型训练方法、模型性能检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491835B (zh) | 面向面部表情识别的双通道卷积神经网络 | |
CN107945204B (zh) | 一种基于生成对抗网络的像素级人像抠图方法 | |
CN109325454B (zh) | 一种基于YOLOv3的静态手势实时识别方法 | |
CN108154118B (zh) | 一种基于自适应组合滤波与多级检测的目标探测系统及方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN109886121B (zh) | 一种遮挡鲁棒的人脸关键点定位方法 | |
CN111652836A (zh) | 一种基于聚类算法和神经网络的多尺度目标检测方法 | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN109598268B (zh) | 一种基于单流深度网络的rgb-d显著目标检测方法 | |
CN107633226B (zh) | 一种人体动作跟踪特征处理方法 | |
CN112085735A (zh) | 一种基于自适应锚框的铝材质图像缺陷检测方法 | |
CN107403200A (zh) | 改进图像分割算法结合深度学习的多重不良图片分类方法 | |
CN112036447B (zh) | 零样本目标检测系统及可学习语义和固定语义融合方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN110910391A (zh) | 一种双模块神经网络结构视频对象分割方法 | |
CN108230330B (zh) | 一种快速的高速公路路面分割和摄像机定位的方法 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN112364881B (zh) | 一种进阶采样一致性图像匹配方法 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN109919215B (zh) | 基于聚类算法改进特征金字塔网络的目标检测方法 | |
CN110516527B (zh) | 一种基于实例分割的视觉slam回环检测改进方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN107423771B (zh) | 一种两时相遥感图像变化检测方法 | |
CN110910497B (zh) | 实现增强现实地图的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200911 |
|
WD01 | Invention patent application deemed withdrawn after publication |