CN110472529A - 目标识别导航方法及系统 - Google Patents

目标识别导航方法及系统 Download PDF

Info

Publication number
CN110472529A
CN110472529A CN201910687109.XA CN201910687109A CN110472529A CN 110472529 A CN110472529 A CN 110472529A CN 201910687109 A CN201910687109 A CN 201910687109A CN 110472529 A CN110472529 A CN 110472529A
Authority
CN
China
Prior art keywords
target identification
neural network
network model
target
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910687109.XA
Other languages
English (en)
Inventor
孙宏元
谭万成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201910687109.XA priority Critical patent/CN110472529A/zh
Publication of CN110472529A publication Critical patent/CN110472529A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了目标识别导航方法及系统。涉及计算机视觉领域,其中,方法通过获取样本数据,构建并利用训练样本集训练目标识别神经网络模型,利用测试集和验证集对目标识别神经网络模型进行参数验证,然后将样本目标图像输入到训练好的目标识别神经网络模型,得到目标识别结果,再结合深度数据和目标识别结果给出导航信息,并且构建目标识别神经网络模型的过程还包括:模型剪枝压缩处理。通过采用剪枝压缩处理减少模型的参数数量和与之相关的运算量,提高模型识别速度的同时不会降低识别准确率,使得精简后的模型能够满足嵌入式平台中对于速度与功耗的要求,更适用于小尺寸和低功耗的移动平台上,扩展了目标识别算法的适用范围。

Description

目标识别导航方法及系统
技术领域
本发明涉及计算机视觉领域,尤其是一种目标识别导航方法及系统。
背景技术
如今,应用计算机视觉进行目标识别的研究越来越多,其应用范围也越来越广泛,例如帮助盲人出行、自动驾驶等。盲人出行是一项重要的社会问题,盲人手杖、导盲犬、盲道成为盲人出行的主要依靠,但是仅仅靠这些还远远不够,盲人难以辨别周围的大部分物品,当盲人进入陌生室内环境之后,物品、家具的摆设不同于以往,就会让盲人与周围的环境交互十分困难,使得盲人社交愈发的少。
传统的目标识别算法需要人工设计特征工程,设计方法复杂且通用性差。而得益于目前硬件计算速度的提高,基于深度学习的目标识别算法无论是在速度还是精度上都超过了传统的目标识别算法,且设计的可配置性强,通用性高,例如卷积神经网络(Convolutional Neutral Network)是人工神经网络的一种。它利用空间关系,采用权值共享网络结构,使之更类似于生物神经网络,降低了网络模型的复杂度并减少了权值的数量,以提高一般前向BP算法的训练性能。但是很多目标识别神经网络模型面临计算量大、准确度不高的问题,这就使得目标检测网络很难应用在实际目标导航过程中。
因此需要提出一种能够降低运算量并且提高目标识别准确度的目标识别导航方法,能够提供当前目标的类别和距离,做出导航提示。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的是提供一种能够降低运算量并且提高目标识别准确度的目标识别导航方法,能够提供当前目标的类别和距离,做出导航提示。
本发明所采用的技术方案是:
第一方面,本发明提供一种目标识别导航方法,包括:
获取样本数据,生成训练样本集、测试集和验证集;
构建并利用所述训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型;
利用所述测试集和所述验证集对所述目标识别神经网络模型进行参数验证;
将样本目标图像输入到所述目标识别神经网络模型,得到所述样本目标图像的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
结合深度数据和所述目标识别结果给出导航信息;
所述构建所述目标识别神经网络模型的过程还包括:模型剪枝压缩处理,所述模型剪枝压缩处理包括以下一种或多种:稀疏化训练、模型剪枝和模型微调。
进一步地,在Darknet学习框架下基于Yolo算法搭建所述目标识别神经网络模型,包括:24个卷积层和2个全连接层。
进一步地,所述稀疏化训练指:基于评价函数进行权重矩阵稀疏化,具体为:去掉所述权重矩阵中整行或整列为零的值,以降低所述权重矩阵的维度。
进一步地,所述模型剪枝指:从所述目标识别神经网络模型的最后一层卷积层开始,根据预设剪枝规则进行该层的剪枝,然后重新训练所述目标识别神经网络模型,一直循环上述剪枝过程至第一层卷积层;
所述预设剪枝规则为:计算当前卷积层中每个卷积核的权重绝对值之和,当所述权重绝对值之和小于预设裁剪数值时,对该卷积核的权重置零;
每一层的剪枝过程都需要根据剪枝前后目标识别神经网络模型的损失函数值修正所述预设裁剪数值。
进一步地,所述模型微调指:利用所述测试集代替所述训练样本集训练所述目标识别神经网络模型的最后一层卷积层。
进一步地,所述构建所述目标识别神经网络模型的过程还包括:定点化处理,指将所述目标识别神经网络模型中浮点数计算方式改为定点数计算方式,具体为:
获取所述目标识别神经网络模型中每一层中所有参数值的小数点分布区间;
采用定点化的方式,将该层中所有参数线性映射到所述分布区间。
第二方面,本发明还提供一种目标识别导航装置,包括:
获取样本数据模块:用于获取样本数据,生成训练样本集、测试集和验证集;
构建并训练目标识别神经网络模型模块:用于构建并利用所述训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型;
模型参数验证模块:用于利用所述测试集和所述验证集对所述目标识别神经网络模型进行参数验证;
目标识别模块:用于将样本图片输入到所述目标识别神经网络模型,得到所述样本图片的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
获取导航信息模块:用于结合深度数据和所述目标识别结果给出导航信息。
第三方面,本发明还提供一种目标识别导航系统,包括:摄像头、逻辑单元端、处理系统端和DDR存储器;
所述逻辑单元端包括:图像采集模块、目标识别处理模块、深度运算模块和访存模块,具体的:
所述图像采集模块:用于将摄像头采集的样本目标图像转换为RGB图像数据和深度数据,并将所述RGB图像数据和所述深度数据输入到所述目标识别处理模块;
所述目标识别处理模块:用于执行如第一方面任一项所述的目标识别导航方法,得到所述样本目标图像的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
所述深度运算模块:用于根据所述深度数据得到深度值;
所述访存模块:用于将所述目标识别处理模块的中涉及的模型特征数据和相应权重存入所述DDR存储器中,同时将所述RGB图像数据存入所述DDR存储器中,将所述深度值发送至所述处理系统端;
所述处理系统端包括:坐标与深度数据处理模块、非最大值抑制计算模块和控制命令处理模块,具体的:
所述坐标与深度数据处理模块:用于通过所述访存模块获取所述目标识别结果中对应预测框的位置,并从所述DDR存储器中读取所述RGB图像数据,然后根据所述对应预测框的位置在所述RGB图像数据中标识出目标区域,同时将所述深度值和所述目标区域通过串口输出到所述控制命令处理模块;
所述非最大值抑制计算模块:用于根据所述目标识别结果中的目标类别和置信度,通过非最大值抑制运算输出识别的最终目标类别给所述控制命令处理模块;
所述控制命令处理模块:用于根据所述深度值、所述目标区域和所述最终目标类别生成导航控制命令。
进一步地,所述逻辑单元端与所述处理系统端之间通过AXI4总线进行数据传输,所述DDR存储器与所述处理系统端之间通过串口进行数据传输。
第五方面,本发明提供一种目标识别导航设备,包括:
至少一个处理器,以及与所述至少一个处理器通信连接的存储器;
其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如第一方面任一项所述的方法。
本发明的有益效果是:
本发明通过获取样本数据,构建并利用训练样本集训练目标识别神经网络模型,利用测试集和验证集对目标识别神经网络模型进行参数验证,然后将样本目标图像输入到训练好的目标识别神经网络模型,得到包括对应预测框的位置、目标类别、置信度的样本目标图像的目标识别结果,再结合深度数据和目标识别结果给出导航信息,并且构建目标识别神经网络模型的过程还包括:模型剪枝压缩处理,其中,模型剪枝压缩处理包括:稀疏化训练、模型剪枝和模型微调。通过采用剪枝压缩处理减少模型的参数数量和与之相关的运算量,提高模型识别速度的同时不会降低识别准确率,使得精简后的模型能够满足嵌入式平台中对于速度与功耗的要求,更适用于小尺寸和低功耗的移动平台上,扩展了目标识别算法的适用范围。
可广泛应用于计算机视觉目标识别领域。
附图说明
图1是本发明中目标识别导航方法的一具体实施例的实现流程图;
图2是本发明中目标识别导航方法的一具体实施例的模型精简具体过程示意图;
图3是本发明中目标识别导航装置的一具体实施例的结构框图;
图4是本发明中目标识别导航系统的一具体实施例的结构框图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一:
本发明实施例一提供一种目标识别导航方法,图1为本发明实施例提供的目标识别导航方法的实现流程图,如图1所示,该方法包括以下步骤:
S1:获取样本数据,生成训练样本集、测试集和验证集。
本实施例中,首先获取大量图片样本并给样本图片上需要识别的物体划定预测框并贴上对应的目标类别标签作为样本数据,可选的,在一种具体实施方式中,通过LabelImg可视化图像标定工具进行标定,将生成的xml文件通过python脚本转成txt格式,并将其中十分之一的样本图片作为验证集样本。
进一步地,当适用于不同的导航场景时,采集不同类型的样本数据,例如,当用于盲人导航时,本实施例采集符合盲人导航的样本数据集,并删掉对于盲人导航不重要的数据,且添加上如红绿灯、盲道等特定数据,使得本实施例的目标识别导航方法能够应用于盲人导航。
S2:构建并利用训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型,其中构建目标识别神经网络模型的过程还包括:模型剪枝压缩处理、定点化处理和模型参数提取在内的模型精简,具体的,模型剪枝压缩处理包括以下一种或多种:稀疏化训练、模型剪枝和模型微调,模型剪枝压缩处理的主要作用是减少模型的参数数量与运算量,提高模型推断速度,在不影响模型识别准确率的前提下,大大的减少参数数量和运算量,以使整个算法模型更适用于运行在小型嵌入式平台上,提高适用范围。
本实施例中,在Darknet学习框架下基于Yolo算法搭建目标识别神经网络模型,包括:24个卷积层和2个全连接层。Darknet是一个深度学习框架,其易于安装,并且整个框架都用C语言进行编写,可以不依赖任何库,结构明晰,能够方便的查看修改源代码,并且提供python接口,可以使用python直接对训练好的模型进行调用,更重要的是,该框架部署到本地十分简单,可以根据机器情况,选择使用cpu或gpu进行部署。
进一步地,Yolo算法可实现端到端训练和实时的速度,同时保持较高的平均精度,能够快速识别图像中的目标,并且其结构简单适合部署在嵌入式设备中。
S3:利用测试集和验证集对目标识别神经网络模型进行参数验证,主要用来提高模型参数的准确度和精度。
S4:将样本目标图像输入到目标识别神经网络模型,得到样本目标图像的目标识别结果,其中,目标识别结果包括:对应预测框的位置、目标类别、置信度,其中对应预测框的位置包括预测框中心坐标和预测框长宽。
S5:结合深度数据和目标识别结果给出导航信息。
具体的,本实施例中步骤S2中,如图2所示,为本实施例中模型精简具体过程示意图。从图中可以看出,包括以下步骤:
S21:稀疏化训练指:基于评价函数最优解进行权重矩阵稀疏化,具体为:去掉权重矩阵中整行或整列为零的值,以降低权重矩阵的维度来提升模型的运算效率,评价函数表示为:
上式中,W表示目标识别神经网络模型中所有权重的集合,ED(W)表示稀疏化之后重新训练目标识别神经网络模型的损失函数值,R表示对每个权重的范数约束,Rg表示对于每一层网络的空间结构化正则运算,w(i)表示目标识别神经网络模型中权重的4维张量,L表示目标识别神经网络模型结构的层数,λ表示惩罚项,可以设为0.1。λg也表示惩罚项,同样可选的设为0.1
S22:模型剪枝指:从目标识别神经网络模型的最后一层卷积层开始,根据预设剪枝规则进行该层的剪枝,然后重新训练目标识别神经网络模型,一直循环上述剪枝过程至第一层卷积层。需要注意的是,进行模型剪枝时,首先将原始的目标识别神经网络模型训练至收敛,保存其权重。
本实施例中,每一层卷积层经过剪枝后,将剩余的权重构成新的模型以达到模型压缩加速并保证精准度不变的目的。可选的,对经过剪枝之后的模型训练时,采用比原始目标识别神经网络模型小一点的学习率进行训练,以减少运算工作量。
其中,预设剪枝规则为:计算当前卷积层中每个卷积核的权重绝对值之和,当权重绝对值之和小于预设裁剪数值时,对该卷积核的权重置零,这样处理的目的判断每一层卷积核对目标识别神经网络模型的贡献大小,删除贡献较小的卷积核。例如一层有512个卷积核,将低于预设裁剪数值的卷积核权重置零,然后重新训练目标识别神经网络模型。
每一层的剪枝过程都需要根据剪枝前后目标识别神经网络模型的损失函数值修正预设裁剪数值。可以理解的是,最后一层卷积层进行剪枝时,预设裁剪数值的初值为常用的经验值,然后根据前后损失函数值对比修正该值以达到精准度要求。
在一种具体实施方式中,精准度要求指剪枝后构建的目标识别神经网络模型损失函数值与原始目标识别神经网络模型损失函数值的差异在阈值之内,可选的,阈值为2%。
S23:模型微调指:利用测试集代替训练样本集训练目标识别神经网络模型的最后一层卷积层,可选的,采用较小的学习率进行训练,来提高目标识别神经网络模型的鲁棒性。
本实施例中步骤S2中,还包括:
S24:定点化处理,指将目标识别神经网络模型中浮点数计算方式改为定点数计算方式,其中,定点数由符号位+整数位+小数点位组成,具体为:
通过可视化方式,获取目标识别神经网络模型中每一层所有参数值的小数点分布区间。
采用定点化的方式,将该层中所有参数进行线性映射到分布区间,定点化方式即选择定点位数,可根据实际需要进行选择,目标识别神经网络模型中每一层的定点数总长是相同的。
在一种具体实施方式中,将参数值的小数点位数绘制出来,然后根据小数点位数确定分布区间,例如,选取16位定点化方式,在当前网络层发现小数点位数大多分布在8位以下,则进行定点化处理时,定小数点为8位,而符号占一位,剩余16-8-1=7位为整数位。
本实施例中,定点化处理把同一层的所有参数都线性映射到同样位数的区间,减少计算资源,比如从32位的浮点数到16位定点数,这样需要的资源变少,计算速度也相应提高,得到的目标识别神经网络模型也有利于移植到嵌入式平台中的计算单元进行计算,有利于后期用硬件加速算法。
在一种具体实施方式中,经过对训练后的目标识别神经网络模型进行模型剪枝压缩处理,可使该模型的参数量减少80%,运算量减少70%,推断的速度提高100%,而准确率保持不变。
本实施例中步骤S2中,还包括:
S25:模型参数提取,指的是使用python脚本,按照训练好的目标识别神经网络模型数据格式提取模型的权重值与偏置值,用于后续移植运算。
本实施例中步骤S2中,构建的目标识别神经网络模型激活函数可选的是ReLU激活函数,其损失函数表示为:
loss=loss1+loss2+loss3+loss4
其中,loss表示总损失函数,loss1表示位置预测部分的总均方误差损失函数,loss2表示宽度和高度的总均方误差损失函数,loss3表示置信度的交叉熵损失函数,loss4表示类被概率的损失函数。
另外,S表示的是图片划分的网格数,具体划分为S×S个网格,B表示每个网格数中划分预测框的个数,λcoord表示计算坐标和位置损失时赋予的损失权重,一般值较大,可选的设为5,并且每次模型训练中根据实际情况重新定义,λnoobj表示计算没有目标的网格置信度预测损失时赋予的损失权重,一般值较小,可选的设为0.5,并且每次模型训练中根据实际情况重新定义,表示判断第i个网格中第j个预测框是否与这个目标相关,x,y表示预测框中心坐标值,w,h表示预测框的宽高,c表示置信度,p表示预测类别的概率,对x,y,w,h,c,p来说,当下标为i时表示预测值,当下标为ii时表示实际值。
本实施例中通过步骤S2和S3得到训练好的日标识别神经网络模型,然后步骤S4和S5中:将样本目标图像输入到目标识别神经网络模型,得到包括对应预测框的位置、目标类别、置信度的样本目标图像的目标识别结果,然后结合深度数据和目标识别结果给出导航信息。
其中,在一种具体实施过程中,深度数据可以通过RGBD传感器采集,例如采集4张不同相位的图片按照下述公式进行深度值计算,表示为:
其中,DCLRaw,x,y表示初始深度值,c表示光速,f表示调制频率,PHS1、PHS2、PHS3和PHS4分别表示4张图片,其相位分别为0°,90°,180°,270°。
进一步地,通过配置延迟线步进和步长的延迟锁相环,可以实现用查找表校正深度图,在固定传感器位置不变时,通过配置不同的延迟线步长,每个延迟线步长可测量多张,然后取每个点的深度值平均值减去步进为0时的深度值平均值,并保存一个用于校正的深度图,例如,选取共50个步长,可测量保存50张深度图进行深度优化查找,公式表示为:
ax,y=trunc(Indexx,y)
bx,y=ax,y+1
DCLx,y,calibration=(DCLx,y,b-DCLx,y,a)*(Indexx,y-ax,y)+DCLx,y,a
其中,Indexx,y表示根据初始深度值计算出来的查找的序号,在查找表中查找对应的深度值,dDLL表示每一级延迟步长的延迟时间转换成的距离大小,该值可根据实际效果进行微调,可选的是三十厘米,ozero,x,y表示步进为0时的深度值平均值,函数trunc表示去除数字的小数部分,ax,y表示Indexx,y的整数部分,选取a和b的目的是寻找深度值在1到64个查找区间的区间位置两个端点,DCLx,y,a表示第a张查找表(x,y)点的值,DCLx,y,b表示第b张查找表(x,y)点的值,DCLx,y,calibration表示经过查找后计算出的最终深度值。
进一步地,本实施例还可以对得到的深度值进行环境光补偿、数据滤波等操作提升该值的精确度,数据滤波可选的有:时域中值滤波、空域中值滤波和高斯滤波等。
本实施例,通过模型输出的对应预测框的位置、目标类别和置信度,通过非最大值抑制运算输出识别的最终目标类别,结合上述深度值,判断当前目标类别和距离,给出导航或者避障信息。例如,当用于盲人导航时,可以提示前方障碍物或红绿灯的距离,选择进行避障或等待;当用于车辆导航时,同样需要结合目标类别和距离进行具体场景下的导航。
本实施例通过采用剪枝压缩处理减少模型的参数数量和与之相关的运算量,提高模型识别速度的同时不会降低识别准确率,使得精简后的模型能够满足嵌入式平台中对于速度与功耗的要求,更适用于小尺寸和低功耗的移动平台上,扩展了目标识别算法的适用范围。
实施例二:
如图3所示,为本实施例的一种目标识别导航装置结构框图,用于执行如实施例一所述的方法,包括:
获取样本数据模块10:用于获取样本数据,生成训练样本集、测试集和验证集;
构建并训练目标识别神经网络模型模块11:用于构建并利用训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型;
模型参数验证模块12:用于利用测试集和验证集对目标识别神经网络模型进行参数验证;
目标识别模块13:用于将样本图片输入到目标识别神经网络模型,得到样本图片的目标识别结果,其中,目标识别结果包括:对应预测框的位置、目标类别、置信度;
获取导航信息模块14:用于结合深度数据和目标识别结果给出导航信息。
实施例三:
如图4所示,为本实施例的一种目标识别导航系统结构框图,从图中可以看出,该系统包括:摄像头20、逻辑单元端30、处理系统端40、DDR存储器50和SD存储卡60,并且逻辑单元端30与处理系统端40之间通过AXI4总线进行数据传输,DDR存储器50与处理系统端40之间通过串口进行数据传输,SD存储卡60用于根据需要存储数据。
其中,1)逻辑单元端30包括:图像采集模块31、目标识别处理模块32、深度运算模块33和访存模块34,具体的:
1a)图像采集模块31:用于将摄像头20采集的样本目标图像转换为RGB图像数据和深度数据,并将RGB图像数据输入到目标识别处理模块32,本实施例中,摄像头20可选的为RGBD类型相机,其可获取带深度信息的图像数据,通过图像采集模块31可将摄像头20采集到的Bayer数据转化为RGB数据与深度数据,Bayer数据是一种常见的图像数据格式,后缀名一般为*.raw。
1b)目标识别处理模块32:用于执行如实施例一任一项所述的目标识别导航方法,得到样本目标图像的目标识别结果,其中,目标识别结果包括:对应预测框的位置、目标类别、置信度。另外,目标识别处理模块32包括:卷积运算模块321、辅助运算模块322和池化运算模块323,主要用于完成如实施例一中基于Yolo算法的目标识别神经网络模型的目标识别过程,例如,其中具体的卷积运算、批处理规范化(batch normalization)运算、激活函数计算和池化运算,通过目标识别处理模块32的运算可得到目标识别结果,如对应预测框的位置、目标类别和置信度。
具体的:
卷积运算模块321:通过AXI4总线从DDR存储器50中获得模型特征数据、相应权重、偏置值以进行卷积运算,可选的卷积运算可采用动态定点化乘加运算,不同卷积模块之间可以并行工作,并将运算的特征数据传向辅助运算模块322。卷积运算模块321具有可配置性,故目标识别神经网络模型结构中的全连接层可通过配置卷积运算模块321来完成全连接运算,同时卷积运算模块321具有复用性,每一层目标识别神经网络模型结构的卷积层均可通过配置卷积运深度计算模块通过AXI4总线从DDR中获得深度数据,并进行3D深度计算,获得精确的深度值并返回到ps端。
辅助运算模块322:接接收来自卷积运算模块321运算后的图像特征数据,并进行所需的批处理规范化运算与激活函数运算,并将运算后的图像特征数据通过AXI4总线传回到DDR存储器50中。
池化运算模块323:通过AXI4总线从DDR存储器50中获取辅助运算模块322运算过后的图像特征数据,进行池化运算后将特征图像数据传输回DDR存储器50中,本实施例中,池化运算模块323也是可配置的,可进行不同类型的池化运算。
本实施例中,当可配置的卷积运算模块321、辅助运算模块322和池化运算模块323设计好后逻辑单元端30可根据软件算法设计的网络结构调用这些模块,像软件执行流程一样控制图像特征数据传入所需的模块,并对这些模块进行配置与使能,最后获得最后一次全连接层后输出参数,包括:对应预测框的位置、目标类别和置信度。
1c)深度运算模块33:用于根据深度数据得到深度值,其深度值计算方法可选实施例一所述的深度值计算方法。
1d)访存模块34:用于将目标识别处理模块32的中涉及的模型特征数据和相应权重通过AXI4高速接口突发模式存入DDR存储器50中,同时将RGB图像数据存入DDR存储器50中,将深度值发送至处理系统端40,另外,访存模块34中还包括:FIFO存储器341和仲裁结构342,对待传输的数据进行优先级排序,按照优先级进行传输,采用乱序的AXI总线传输方法,使得每个硬件模块既能高速的与DDR存储器50传输数据,又能保证DDR存储器50的带宽得到充分利用。
2)处理系统端40包括:坐标与深度数据处理模块41、非最大值抑制计算模块42、控制命令处理模块43和VGA驱动模块44,具体的:
2a)坐标与深度数据处理模块41:用于通过访存模块34获取目标识别结果中对应预测框的位置和大小,并从DDR存储器50中读取RGB图像数据,然后根据对应预测框的位置在RGB图像数据中标识出目标区域,同时将深度值和目标区域通过串口输出到控制命令处理模块43。
另外,坐标与深度数据处理模块41还将标识出的目标区域传输给VGA驱动模块41,用于将目标区域在VGA设备上进行可视化显示,VGA(Video Graphics Array)一种视频传输标准。
2b)非最大值抑制计算模块42:用于根据目标识别结果中的目标类别和置信度,通过非最大值抑制运算输出识别的最终目标类别给控制命令处理模块43;
2c)控制命令处理模块43:用于根据深度值、目标区域和最终目标类别生成导航控制命令。
逻辑单元端30读取DDR存储器50中样本图片数据进行处理,并根据处理结果(对应预测框的位置、目标类别和置信度)标识出目标区域,置信度景观非最大值抑制运算后,得到最终目标类别,并将最终目标类别和目标区域传入VGA驱动模块41,通过VGA设备显示出来,同时控制命令处理模块43根据深度值、目标区域和最终目标类别生成导航控制命令,进行避障的提示,通过串口发出信息,完成盲人与外界的互通功能,减少资源消耗。
进一步地,可以将这些导航数据信息进行整合,得到物体在三维坐标系上的位置,以及对摄像头20的位姿进行处理,综合计算得到用户行走的轨迹,用来判断行走路线是否偏离更新障碍物的提示信息。
实施例四:
本实施例是实施例三的一种具体应用场景,本实施例运行在ZYNQ平台(例如xilinx公司的ZYNQ-7020FPGA嵌入式平台)上,与传统的处理器不同,ZYNQ平台是一种新型的”CPU+FPGA”的异构平台,其处理器系统包含一系列常用的外设资源(如I2C、UART、CAN、GPIO、SPI、USB 2.0、Ethernet MAC、SDIO等)以及多端口DRAM Controller(可支持DDR2、DDR3/3L或LPDDR2颗粒组成一个16-bit或32-bit的存储器系统),而且可以通过专用的端口可以直接和可编程逻辑进行通信和数据共享。
本实施例中,利用CPU来实现复杂的控制功能,充分利用FPGA的并行处理能力与丰富的逻辑资源进行深度学习计算,来加速计算功能,同时结合ARM在搭建操作系统与实现复杂控制命令方面的优势,使得各个硬件模块可以并行执行,保障运算实时性,另外相较于常用的GPU嵌入式平台,采用该平台可以加速开发和减少功耗。
实施例五:
本实施例提供一种目标识别导航设备包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;
其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如实施例一所述的方法。
本发明通过获取样本数据,构建并利用训练样本集训练目标识别神经网络模型,利用测试集和验证集对目标识别神经网络模型进行参数验证,然后将样本目标图像输入到训练好的目标识别神经网络模型,得到包括对应预测框的位置、目标类别、置信度的样本目标图像的目标识别结果,再结合深度数据和目标识别结果给出导航信息,并且构建目标识别神经网络模型的过程还包括:模型剪枝压缩处理,其中,模型剪枝压缩处理包括:稀疏化训练、模型剪枝和模型微调。通过采用剪枝压缩处理减少模型的参数数量和与之相关的运算量,提高模型识别速度的同时不会降低识别准确率,使得精简后的模型能够满足嵌入式平台中对于速度与功耗的要求,更适用于小尺寸和低功耗的移动平台上,扩展了目标识别算法的适用范围。可广泛应用于计算机视觉目标识别领域。
以上各实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种目标识别导航方法,其特征在于,包括:
获取样本数据,生成训练样本集、测试集和验证集;
构建并利用所述训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型;
利用所述测试集和所述验证集对所述目标识别神经网络模型进行参数验证;
将样本目标图像输入到所述目标识别神经网络模型,得到所述样本目标图像的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
结合深度数据和所述目标识别结果给出导航信息;
所述构建所述目标识别神经网络模型的过程还包括:模型剪枝压缩处理,所述模型剪枝压缩处理包括以下一种或多种:稀疏化训练、模型剪枝和模型微调。
2.根据权利要求1所述的一种目标识别导航方法,其特征在于,在Darknet学习框架下基于Yolo算法搭建所述目标识别神经网络模型,包括:24个卷积层和2个全连接层。
3.根据权利要求1所述的一种目标识别导航方法,其特征在于,所述稀疏化训练指:基于评价函数进行权重矩阵稀疏化,具体为:去掉所述权重矩阵中整行或整列为零的值,以降低所述权重矩阵的维度。
4.根据权利要求1所述的一种目标识别导航方法,其特征在于,所述模型剪枝指:从所述目标识别神经网络模型的最后一层卷积层开始,根据预设剪枝规则进行该卷积层的剪枝,然后重新训练所述目标识别神经网络模型,一直循环上述剪枝过程至第一层卷积层;
所述预设剪枝规则为:计算当前卷积层中每个卷积核的权重绝对值之和,当所述权重绝对值之和小于预设裁剪数值时,对该卷积核的权重置零;
每一层的剪枝过程都需要根据剪枝前后目标识别神经网络模型的损失函数值修正所述预设裁剪数值。
5.根据权利要求1所述的一种目标识别导航方法,其特征在于,所述模型微调指:利用所述测试集代替所述训练样本集训练所述目标识别神经网络模型的最后一层卷积层。
6.根据权利要求1至5任一项所述的一种目标识别导航方法,其特征在于,所述构建所述目标识别神经网络模型的过程还包括:定点化处理,指将所述目标识别神经网络模型中浮点数计算方式改为定点数计算方式,具体为:
获取所述目标识别神经网络模型中每一层中所有参数值的小数点分布区间;
采用定点化的方式,将该层中所有参数线性映射到所述分布区间。
7.一种目标识别导航装置,其特征在于,包括:
获取样本数据模块:用于获取样本数据,生成训练样本集、测试集和验证集;
构建并训练目标识别神经网络模型模块:用于构建并利用所述训练样本集训练目标识别神经网络模型,得到训练完成的目标识别神经网络模型;
模型参数验证模块:用于利用所述测试集和所述验证集对所述目标识别神经网络模型进行参数验证;
目标识别模块:用于将样本图片输入到所述目标识别神经网络模型,得到所述样本图片的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
获取导航信息模块:用于结合深度数据和所述目标识别结果给出导航信息。
8.一种目标识别导航系统,其特征在于,包括:摄像头、逻辑单元端、处理系统端和DDR存储器;
所述逻辑单元端包括:图像采集模块、目标识别处理模块、深度运算模块和访存模块,具体的:
所述图像采集模块:用于将摄像头采集的样本目标图像转换为RGB图像数据和深度数据,并将所述RGB图像数据和所述深度数据输入到所述目标识别处理模块;
所述目标识别处理模块:用于执行如权利要求1至6任一项所述的目标识别导航方法,得到所述样本目标图像的目标识别结果,所述目标识别结果包括:对应预测框的位置、目标类别、置信度;
所述深度运算模块:用于根据所述深度数据得到深度值;
所述访存模块:用于将所述目标识别处理模块的中涉及的模型特征数据和相应权重存入所述DDR存储器中,同时将所述RGB图像数据存入所述DDR存储器中,将所述深度值发送至所述处理系统端;
所述处理系统端包括:坐标与深度数据处理模块、非最大值抑制计算模块和控制命令处理模块,具体的:
所述坐标与深度数据处理模块:用于通过所述访存模块获取所述目标识别结果中对应预测框的位置,并从所述DDR存储器中读取所述RGB图像数据,然后根据所述对应预测框的位置在所述RGB图像数据中标识出目标区域,同时将所述深度值和所述目标区域通过串口输出到所述控制命令处理模块;
所述非最大值抑制计算模块:用于根据所述目标识别结果中的目标类别和置信度,通过非最大值抑制运算输出识别的最终目标类别给所述控制命令处理模块;
所述控制命令处理模块:用于根据所述深度值、所述目标区域和所述最终目标类别生成导航控制命令。
9.根据权利要求8所述的一种目标识别导航系统,其特征在于,所述逻辑单元端与所述处理系统端之间通过AXI4总线进行数据传输,所述DDR存储器与所述处理系统端之间通过串口进行数据传输。
10.一种目标识别导航设备,其特征在于,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至6任一项所述的方法。
CN201910687109.XA 2019-07-29 2019-07-29 目标识别导航方法及系统 Pending CN110472529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910687109.XA CN110472529A (zh) 2019-07-29 2019-07-29 目标识别导航方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910687109.XA CN110472529A (zh) 2019-07-29 2019-07-29 目标识别导航方法及系统

Publications (1)

Publication Number Publication Date
CN110472529A true CN110472529A (zh) 2019-11-19

Family

ID=68509008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910687109.XA Pending CN110472529A (zh) 2019-07-29 2019-07-29 目标识别导航方法及系统

Country Status (1)

Country Link
CN (1) CN110472529A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160519A (zh) * 2019-12-02 2020-05-15 上海交通大学 基于结构冗余检测的卷积神经网络模型剪枝方法
CN111653103A (zh) * 2020-05-07 2020-09-11 浙江大华技术股份有限公司 一种目标对象的识别方法及装置
CN112101178A (zh) * 2020-09-10 2020-12-18 电子科技大学 一种辅助盲人感知外界环境的智能soc终端
CN112200295A (zh) * 2020-07-31 2021-01-08 厦门星宸科技有限公司 稀疏化卷积神经网络的排序方法、运算方法、装置及设备
CN112347857A (zh) * 2020-10-14 2021-02-09 燕山大学 一种光学遥感卫星图像的舰船检测装置及方法
CN112580627A (zh) * 2020-12-16 2021-03-30 中国科学院软件研究所 基于国产智能芯片K210的yolov3目标检测方法及电子装置
CN113128440A (zh) * 2021-04-28 2021-07-16 平安国际智慧城市科技股份有限公司 基于边缘设备的目标物识别方法、装置、设备及存储介质
CN113343949A (zh) * 2021-08-03 2021-09-03 中国航空油料集团有限公司 一种通用的嵌入式平台的行人检测模型训练方法
CN113469114A (zh) * 2021-07-19 2021-10-01 国网陕西省电力公司电力科学研究院 一种输电线路环水保扰动土范围识别方法、装置和设备
CN113780315A (zh) * 2020-06-09 2021-12-10 顺丰科技有限公司 图像识别方法、装置、网络设备及计算机可读存储介质
CN114460943A (zh) * 2022-02-10 2022-05-10 山东大学 服务机器人自适应目标导航方法及系统
WO2022179382A1 (zh) * 2021-02-25 2022-09-01 山东英信计算机技术有限公司 一种物体识别方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU01033A (zh) * 2013-03-23 2015-07-03 G H Raisoni College Of Engineering
US20180005079A1 (en) * 2016-07-01 2018-01-04 Ricoh Co., Ltd. Active View Planning By Deep Learning
CN107610235A (zh) * 2017-08-21 2018-01-19 北京精密机电控制设备研究所 一种基于深度学习的移动平台导航方法和装置
CN108168539A (zh) * 2017-12-21 2018-06-15 儒安科技有限公司 一种基于计算机视觉的盲人导航方法、装置及系统
CN108245384A (zh) * 2017-12-12 2018-07-06 清华大学苏州汽车研究院(吴江) 基于增强学习的双目视觉导盲仪
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IN2013MU01033A (zh) * 2013-03-23 2015-07-03 G H Raisoni College Of Engineering
US20180005079A1 (en) * 2016-07-01 2018-01-04 Ricoh Co., Ltd. Active View Planning By Deep Learning
CN107610235A (zh) * 2017-08-21 2018-01-19 北京精密机电控制设备研究所 一种基于深度学习的移动平台导航方法和装置
CN108245384A (zh) * 2017-12-12 2018-07-06 清华大学苏州汽车研究院(吴江) 基于增强学习的双目视觉导盲仪
CN108168539A (zh) * 2017-12-21 2018-06-15 儒安科技有限公司 一种基于计算机视觉的盲人导航方法、装置及系统
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JOSH JIA-CHING YING等: "A Deep Learning Approach to Sensory Navigation Device for Blind Guidance", 《2018 IEEE 20TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS》 *
JOSH JIA-CHING YING等: "A Deep Learning Approach to Sensory Navigation Device for Blind Guidance", 《2018 IEEE 20TH INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING AND COMMUNICATIONS》, 24 January 2019 (2019-01-24) *
KAIMING HE等: "Deep Residual Learning for Image Recognition", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 770 - 778 *
TSUNG-YI LIN等: "Focal Loss for Dense Object Detection", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》, pages 2999 - 3007 *
靳丽蕾等: "一种用于卷积神经网络压缩的混合剪枝方法", 《小型微型计算机系统》 *
靳丽蕾等: "一种用于卷积神经网络压缩的混合剪枝方法", 《小型微型计算机系统》, no. 12, 31 December 2018 (2018-12-31), pages 1 - 5 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160519B (zh) * 2019-12-02 2023-12-08 上海交通大学 基于结构冗余检测的卷积神经网络模型剪枝方法
CN111160519A (zh) * 2019-12-02 2020-05-15 上海交通大学 基于结构冗余检测的卷积神经网络模型剪枝方法
CN111653103A (zh) * 2020-05-07 2020-09-11 浙江大华技术股份有限公司 一种目标对象的识别方法及装置
CN113780315A (zh) * 2020-06-09 2021-12-10 顺丰科技有限公司 图像识别方法、装置、网络设备及计算机可读存储介质
CN112200295A (zh) * 2020-07-31 2021-01-08 厦门星宸科技有限公司 稀疏化卷积神经网络的排序方法、运算方法、装置及设备
CN112200295B (zh) * 2020-07-31 2023-07-18 星宸科技股份有限公司 稀疏化卷积神经网络的排序方法、运算方法、装置及设备
CN112101178A (zh) * 2020-09-10 2020-12-18 电子科技大学 一种辅助盲人感知外界环境的智能soc终端
CN112347857B (zh) * 2020-10-14 2022-04-19 燕山大学 一种光学遥感卫星图像的舰船检测装置及方法
CN112347857A (zh) * 2020-10-14 2021-02-09 燕山大学 一种光学遥感卫星图像的舰船检测装置及方法
CN112580627A (zh) * 2020-12-16 2021-03-30 中国科学院软件研究所 基于国产智能芯片K210的yolov3目标检测方法及电子装置
WO2022179382A1 (zh) * 2021-02-25 2022-09-01 山东英信计算机技术有限公司 一种物体识别方法、装置、设备及介质
CN113128440A (zh) * 2021-04-28 2021-07-16 平安国际智慧城市科技股份有限公司 基于边缘设备的目标物识别方法、装置、设备及存储介质
CN113469114A (zh) * 2021-07-19 2021-10-01 国网陕西省电力公司电力科学研究院 一种输电线路环水保扰动土范围识别方法、装置和设备
CN113343949A (zh) * 2021-08-03 2021-09-03 中国航空油料集团有限公司 一种通用的嵌入式平台的行人检测模型训练方法
CN114460943A (zh) * 2022-02-10 2022-05-10 山东大学 服务机器人自适应目标导航方法及系统
CN114460943B (zh) * 2022-02-10 2023-07-28 山东大学 服务机器人自适应目标导航方法及系统

Similar Documents

Publication Publication Date Title
CN110472529A (zh) 目标识别导航方法及系统
US11106896B2 (en) Methods and apparatus for multi-task recognition using neural networks
CN112990211B (zh) 一种神经网络的训练方法、图像处理方法以及装置
CN111862213A (zh) 定位方法及装置、电子设备、计算机可读存储介质
WO2022116423A1 (zh) 物体位姿估计方法、装置、电子设备及计算机存储介质
CN108734120A (zh) 标注图像的方法、装置、设备和计算机可读存储介质
CN109558937A (zh) 神经网络系统和神经网络系统的操作方法
CN111797983A (zh) 一种神经网络构建方法以及装置
CN108764466A (zh) 基于现场可编程门阵列的卷积神经网络硬件及其加速方法
CN115512251A (zh) 基于双分支渐进式特征增强的无人机低照度目标跟踪方法
WO2022062238A1 (zh) 一种足球检测方法、装置、计算机可读存储介质及机器人
US11651191B2 (en) Methods, apparatuses, and computer program products using a repeated convolution-based attention module for improved neural network implementations
CN114529757B (zh) 一种跨模态单样本三维点云分割方法
WO2022156475A1 (zh) 神经网络模型的训练方法、数据处理方法及装置
US20190094941A1 (en) Power state control of a mobile device
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
CN108268878A (zh) 三维全卷积网络实现设备
Yang et al. [Retracted] A Method of Image Semantic Segmentation Based on PSPNet
CN116518979A (zh) 一种无人机路径规划方法、系统、电子设备及介质
CN114490922B (zh) 一种自然语言理解模型训练方法及装置
CN115965961B (zh) 局部到全局的多模态融合方法、系统、设备及存储介质
US11501135B2 (en) Smart engine with dynamic profiles
US20230410338A1 (en) Method for optimizing depth estimation model, computer device, and storage medium
CN115049786B (zh) 任务导向的点云数据下采样方法及系统
CN116363615A (zh) 数据融合方法、装置、车辆和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119