CN111881828A - 一种面向移动端设备的障碍物检测方法 - Google Patents
一种面向移动端设备的障碍物检测方法 Download PDFInfo
- Publication number
- CN111881828A CN111881828A CN202010738838.6A CN202010738838A CN111881828A CN 111881828 A CN111881828 A CN 111881828A CN 202010738838 A CN202010738838 A CN 202010738838A CN 111881828 A CN111881828 A CN 111881828A
- Authority
- CN
- China
- Prior art keywords
- model
- mobile terminal
- width
- depth
- obstacle detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种面向移动端设备的障碍物检测方法,包括:(1)选择障碍物检测模型;(2)将训练完的检测模型的识别准确率a作为因变量,模型的深度d、宽度w和图片大小r作为自变量;(3)分别对模型的深度d、宽度w和图片大小r进行剪枝,并在数据集上对模型进行微调,用函数f拟合a与d、w、r之间的关系;(4)通过优化函数求解最优的深度、宽度和图片大小(dm,wm,rm),并根据求得的(dm,wm,rm),导出对应的精简模型结构;(5)在数据集上对精简模型进行训练;(6)在移动端设备运行精简模型,实时输入周围的环境照片,进行障碍物识别。本发明使深度卷积神经网络可以满足移动端设备的流畅性要求,同时使障碍物检测具有较高的准确率。
Description
技术领域
本发明属于计算机视觉技术领域,尤其是涉及一种面向移动端设备的障碍物检测方法。
背景技术
随着计算机视觉技术的发展,图像识别、目标检测等技术被广泛应用于自动驾驶、门禁系统等领域。而深度卷积神经网络是计算机视觉领域最重要深度学习框架之一,它由多个卷积层和全连接层组成的,目前准确率最高的图像识别、目标检测等算法,都使用了深度卷积神经网络。然而,深度卷积神经网络的运行需要消耗大量的计算资源,而大部分移动设备(例如手机、车载芯片等)的计算资源都非常有限,这严重阻碍了深度卷积神经网络在移动端的部署,因此,对深度卷积神经网络进行加速是必不可少的。
对深度卷积神经网络(下称模型)进行加速的基本思路就是减小模型推理过程中的浮点运算量,同时尽量保证模型的准确率损失最小。通常来说,有三种手段:1)减小模型的深度;2)减小模型的宽度;3)减小模型使用的图片尺寸大小。(注:深度指模型的层数,层数越多则越深;宽度指模型每层的过滤器数量,数量越多则越宽)。
大多数以往的神经网络加速系统都只专注于其中一种加速手段,以2)为例,他们认为同一层内不同的过滤器的重要程度是不一样的,因此着重研究在减小模型的宽度时应该删除哪些过滤器才能对模型准确率影响最小。但是,在实际使用中发现,给定一个计算量,单纯的减小宽度、深度或图片大小都会使模型准确率下降很大。相反,如果能够同时减小这三者的大小,找到一个最优的组合策略,则可以把模型准确率损失降到最小,但是如何才能找到最优的三者的组合是一个很难解决的问题。
目前已有的技术是通过近似暴力搜索的方式来寻找最优组合的,即将计算量满足要求的可能的深度、宽度、图片大小都训练一个新的模型,并选择出准确率最高的一个,但是这种方法十分耗时。
发明内容
本发明提供了一种面向移动端设备的障碍物检测方法,使深度卷积神经网络可以满足移动端设备的流畅性要求,同时使障碍物检测具有较高的准确率。
一种面向移动端设备的障碍物检测方法,包括:
(1)选择障碍物检测模型,并在数据集中进行训练;
(2)将训练完的检测模型的识别准确率a作为因变量,模型的深度d、模型的宽度w和图片的大小r作为自变量;
(3)分别对模型的深度d、模型的宽度w和图片的大小r进行剪枝,并在数据集上对模型进行微调,用函数f(d,w,r)拟合识别准确率a与深度d、宽度w和图片的大小r之间的关系;
(4)通过优化函数求解最优的深度、宽度和图片大小(dm,wm,rm),并根据求得的(dm,wm,rm),导出对应的精简模型结构;
(5)在数据集上对精简模型进行训练直到模型收敛;
(6)在移动端设备运行精简模型,实时输入周围的环境照片,进行障碍物识别。
本发明的方法,把模型的识别准确率a作为因变量,把深度d、宽度w和图片大小r作为自变量,把寻找最佳的深度、宽度和图片大小转化为了一个凸优化问题,并找到了一个合适的函数来拟合这4个变量的关系,并通过求解凸优化函数确定了最佳的d、w和r。最终,利用得出了d、w、r设计了一个新的障碍物检测模型。在对新的模型进行训练后,得到一个高效、精简、计算量小、可以在移动端流程运行的高速障碍物检测系统。
步骤(1)中,所述的障碍物检测模型为可以为ResNet50-SSD,所述的数据集可以采用cityscape公开数据集。
步骤(3)中,所述的函数f(d,w,r)具有可分离性、非负性、递增性、凹性,具体为:
分离性:f(d,w,r)可以被表示成三个独立函数的乘积,即f(d,w,r)=c*h1(d)h2(w)h3(r);
非负性:0≤f(d,w,r)≤1;
同时,d、w、r中任意一个变量为0时,模型的准确率就是0,即f(0,w,r)=f(d,0,r)=f(d,w,0)=0。
步骤(3)中,所述的函数f(d,w,r)为:
式中,c,k1,k2,k3为待定参数。
步骤(4)中,采用拉格朗日乘子法和KKT条件求解出最优的深度、宽度和图片大小(dm,wm,rm),优化目标为:
d,w,r=argmaxf(d,w,r)
s.t.g(d,w,r)≤T*g(d0,w0,r0)
式中,g(d,w,r)为模型计算量,d0,w0,r0代表原始模型的深度、宽度和图片大小,g(d0,w0,r0)是原始模型的计算量,0<T<1是一个人为设定的超参,代表剪枝微调后模型的计算量与原模型计算量的比值。
与现有技术相比,本发明具有以下有益效果:
本发明的方法,将模型加速的问题转化为一个数值优化的问题,并将障碍物检测模型精简后运行在移动端设备上,与现有的针对移动端设备的检测模型相比,计算成本相当,但是识别的准确率远高于现有的检测模型。尤其是在用于自动驾驶场景时,本发明的方法可以帮助车辆更好的感知周围环境,使障碍物检测具有较高的准确率,以便车辆能够更加安全的行驶。
附图说明
图1为本发明方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种面向移动端设备的障碍物检测方法,包括:选择障碍物检测模型;把模型的识别准确率a作为因变量,把深度d、宽度w和图片大小r作为自变量,把寻找最佳的深度、宽度和图片大小转化为了一个凸优化问题,并找到了一个合适的函数来拟合这4个变量的关系,并通过求解凸优化函数确定了最佳的d、w和r。最终,利用得出了d、w、r设计了一个新的障碍物检测模型。在对模型进行训练后,导出了一个高效、精简、计算量小、可以在移动端流程运行的高速障碍物检测系统,并用于障碍物识别的应用。
下面以自动驾驶场景使用的障碍物检测模型为例说明本发明的实施方案。本文涉及到的几个概念:
mAP:这是评价某个目标检测模型在某个特定数据集上的准确率的一个指标,取值范围为0~1,越大代表准确率越高。
剪枝:剪枝是神经网络加速的算法之一,它通过定位并删除卷积神经网络中不重要的过滤器或层来减小模型的宽度或深度,然后再在数据集上微调模型来恢复其准确率。
本发明首先取得一个训练好的针对服务器端的障碍物检测模型ResNet50-SSD。已知该模型识别准确率很高(mAP=0.83),但是模型过于笨重(深度50,宽度64,图片大小512*512)而不能满足移动端的使用要求。通过利用ResNet50-SSD来设计本发明的精简模型的流程如下:
1、尝试将ResNet50-SSD通过剪枝算法剪枝到25层,并在cityscape数据集上微调模型得到mAP为0.78。
2、尝试将ResNet50-SSD通过剪枝算法将宽度剪枝为45,并在cityscape数据集上微调模型得到mAP为0.77
3、尝试将ResNet50-SSD的输入图片大小改为360*360,并在cityscape数据集上微调模型得到mAP为0.74。
4、根据上述三条数据用函数f拟合模型准确率a和深度d、宽度w和图片大小r之间的关系。所述的函数f(d,w,r)为:
式中,c,k1,k2,k3为待定参数。
5、用过优化函数f寻找最佳的d、w、r,并根据d、w、r导出一个对应的模型结构newResNet-SSD。
6、在cityscape公开数据集上训练newResNet-SSD至收敛,得到最终导出的模型。该模型在cityscape验证数据集上的识别准确率可以达到mAP=0.81,仅仅比原始的服务器端的模型低0.02。
本发明通过同时减小宽度、深度或图片大小,合理的时间内找到最佳的组合方案,并根据这个方案训练并给出相应的神经网络,并将该网络运行在移动端设备,该模型比服务器端的原始模型更加精简、高效,因此计算量大大减小,可以在车载芯片等移动端设备上流畅运行,可以满足自动驾驶场景对于识别准确率的要求。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (6)
1.一种面向移动端设备的障碍物检测方法,其特征在于,包括:
(1)选择障碍物检测模型,并在数据集中进行训练;
(2)将训练完的检测模型的识别准确率a作为因变量,模型的深度d、模型的宽度w和图片的大小r作为自变量;
(3)分别对模型的深度d、模型的宽度w和图片的大小r进行剪枝,并在数据集上对模型进行微调,用函数f(d,w,r)拟合识别准确率a与深度d、宽度w和图片的大小r之间的关系;
(4)通过优化函数求解最优的深度、宽度和图片大小(dm,wm,rm),并根据求得的(dm,wm,rm),导出对应的精简模型结构;
(5)在数据集上对精简模型进行训练直到模型收敛;
(6)在移动端设备运行精简模型,实时输入周围的环境照片,进行障碍物识别。
2.根据权利要求1所述的面向移动端设备的障碍物检测方法,其特征在于,步骤(1)中,所述的障碍物检测模型为ResNet50-SSD。
3.根据权利要求1所述的面向移动端设备的障碍物检测方法,其特征在于,步骤(1)中,所述的数据集采用cityscape公开数据集。
4.根据权利要求1所述的面向移动端设备的障碍物检测方法,其特征在于,步骤(3)中,所述的函数f(d,w,r)具有可分离性、非负性、递增性、凹性,具体为:
分离性:f(d,w,r)可以被表示成三个独立函数的乘积,f(d,w,r)=c*h1(d)h2(w)h3(r);
非负性:0≤f(d,w,r)≤1;
递增性:f(d,w,r)随着d、w、r的增大而增大;
凹性:f(d,w,r)是一个凹函数;
同时,d、w、r中任意一个变量为0时,模型的准确率就是0。
6.根据权利要求1所述的面向移动端设备的障碍物检测方法,其特征在于,步骤(4)中,采用拉格朗日乘子法和KKT条件求解出最优的深度、宽度和图片大小(dm,wm,rm),优化目标为:
d,w,r=argmaxf(d,w,r)
s.t.g(d,w,r)≤T*g(d0,w0,r0)
式中,g(d,w,r)为模型计算量,d0,w0,r0代表原始模型的深度、宽度和图片大小,g(d0,w0,r0)是原始模型的计算量,0<T<1是一个人为设定的超参,代表剪枝微调后模型的计算量与原模型计算量的比值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738838.6A CN111881828B (zh) | 2020-07-28 | 2020-07-28 | 一种面向移动端设备的障碍物检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010738838.6A CN111881828B (zh) | 2020-07-28 | 2020-07-28 | 一种面向移动端设备的障碍物检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881828A true CN111881828A (zh) | 2020-11-03 |
CN111881828B CN111881828B (zh) | 2022-05-06 |
Family
ID=73200884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010738838.6A Active CN111881828B (zh) | 2020-07-28 | 2020-07-28 | 一种面向移动端设备的障碍物检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881828B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
CN109165542A (zh) * | 2018-06-27 | 2019-01-08 | 中国人民解放军陆军工程大学 | 基于精简卷积神经网络的行人检测方法 |
CN110619385A (zh) * | 2019-08-31 | 2019-12-27 | 电子科技大学 | 基于多级剪枝的结构化网络模型压缩加速方法 |
CN111199282A (zh) * | 2019-12-31 | 2020-05-26 | 的卢技术有限公司 | 一种卷积神经网络模型的剪枝方法及装置 |
CN111340225A (zh) * | 2020-02-28 | 2020-06-26 | 中云智慧(北京)科技有限公司 | 一种基于深度卷积神经网络模型压缩和加速方法 |
CN111444760A (zh) * | 2020-02-19 | 2020-07-24 | 天津大学 | 一种基于剪枝与知识蒸馏的交通标志检测与识别方法 |
-
2020
- 2020-07-28 CN CN202010738838.6A patent/CN111881828B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165542A (zh) * | 2018-06-27 | 2019-01-08 | 中国人民解放军陆军工程大学 | 基于精简卷积神经网络的行人检测方法 |
CN109086678A (zh) * | 2018-07-09 | 2018-12-25 | 天津大学 | 一种基于深度监督学习提取图像多级特征的行人检测方法 |
CN110619385A (zh) * | 2019-08-31 | 2019-12-27 | 电子科技大学 | 基于多级剪枝的结构化网络模型压缩加速方法 |
CN111199282A (zh) * | 2019-12-31 | 2020-05-26 | 的卢技术有限公司 | 一种卷积神经网络模型的剪枝方法及装置 |
CN111444760A (zh) * | 2020-02-19 | 2020-07-24 | 天津大学 | 一种基于剪枝与知识蒸馏的交通标志检测与识别方法 |
CN111340225A (zh) * | 2020-02-28 | 2020-06-26 | 中云智慧(北京)科技有限公司 | 一种基于深度卷积神经网络模型压缩和加速方法 |
Non-Patent Citations (2)
Title |
---|
HAN CAI 等: "ONCE-FOR-ALL:TRAIN ONE NETWORK AND SPECIALIZE IT FOR EFFICIENT DEPLOYMNET", 《ARXIV:1908.09791V5》 * |
JIAN-HAO LUO 等: "ThiNet: Pruning CNN Filters for a Thinner Net", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881828B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
WO2020228525A1 (zh) | 地点识别及其模型训练的方法和装置以及电子设备 | |
US10325351B2 (en) | Systems and methods for normalizing an image | |
CN107145889B (zh) | 基于具有RoI池化的双CNN网络的目标识别方法 | |
CN111950723B (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
CN112560656A (zh) | 一种联合注意力机制端到端训练的行人多目标跟踪方法 | |
CN110175615B (zh) | 模型训练方法、域自适应的视觉位置识别方法及装置 | |
CN109801297B (zh) | 一种基于卷积实现的图像全景分割预测优化方法 | |
CN105809672A (zh) | 一种基于超像素和结构化约束的图像多目标协同分割方法 | |
CN110059597B (zh) | 基于深度相机的场景识别方法 | |
CN112395951A (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN110929848A (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN112766411B (zh) | 一种自适应区域精修的目标检测知识蒸馏方法 | |
WO2023038574A1 (en) | Method and system for processing a target image | |
CN112417973A (zh) | 一种基于车联网的无人驾驶系统 | |
CN115953643A (zh) | 基于知识蒸馏的模型训练方法、装置及电子设备 | |
CN116630932A (zh) | 一种基于改进yolov5的道路遮挡目标检测方法 | |
CN116994236A (zh) | 一种基于深度神经网络的低质图像车牌检测方法 | |
CN108921044A (zh) | 基于深度卷积神经网络的驾驶员决策特征提取方法 | |
Nagaraj et al. | Edge-based street object detection | |
CN111881828B (zh) | 一种面向移动端设备的障碍物检测方法 | |
CN115795355A (zh) | 一种分类模型训练方法、装置及设备 | |
CN116246305A (zh) | 一种基于混合部件变换网络的行人检索方法 | |
CN116310328A (zh) | 基于跨图像相似度关系的语义分割知识蒸馏方法及系统 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |