CN111950451A - 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 - Google Patents
基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 Download PDFInfo
- Publication number
- CN111950451A CN111950451A CN202010806204.XA CN202010806204A CN111950451A CN 111950451 A CN111950451 A CN 111950451A CN 202010806204 A CN202010806204 A CN 202010806204A CN 111950451 A CN111950451 A CN 111950451A
- Authority
- CN
- China
- Prior art keywords
- layer
- scale
- neural network
- convolutional neural
- convolution layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000000007 visual effect Effects 0.000 claims abstract description 8
- 230000004913 activation Effects 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 65
- 238000010586 diagram Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,包括:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出分类结果;将分类结果为物体的候选框,去除重复的候选框;对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;视觉摄像头采集视频文件,并且统一尺寸大小;将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。本发明充分考虑了目标识别快速准确的特点,设计了多尺度背景预测卷积神经网络,利用多尺度网络模型来对多类别目标进行识别,提高了对于多类别目标的识别准确率和速度,并且具有很高的可移植性,应用前景广泛。
Description
技术领域
本发明涉及多类别目标识别及深度学习领域,具体涉及一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法。
背景技术
随着计算机视觉的不断发展,深度学习在视觉处理的多目标识别领域也不断拓宽。可是目前部分多目标识别算法仍存在识别目标不准确,识别速度慢的问题,为满足视觉领域对多类别目标识别的要求及对深度学习模型移植小型化嵌入式系统的需求,研究基于国产龙芯芯片的快速准确多类别目标识别技术具有重要意义。
目前,多目标识别主要有两种方法,一是通过图像处理中的模板匹配法,就是选取模板后,在待搜索图像中搜索出与模板匹配程度最高的子图,再进行模板和子图的相似度匹配完成识别,这种匹配方法计算量很大,难以应用在对目标识别速度要求较高的实时多类别目标识别领域上。二是通过深度学习的方法,采用神经网络模型完成识别多类别目标,但目前采用深度学习的方法进行多类别目标识别,由于复杂情况下的目标存在互相遮挡以及尺度大小变化的问题,神经网络模型识别目标容易出现误检或者是漏检的问题。
发明内容
发明目的:为了克服现有技术中存在的不足,针对目前目标识别技术对多类别目标识别精度与速度不高的问题,提出一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,设计了多尺度背景预测卷积神经网络模型与算法,提升了多类别目标识别的快速性与准确性。
技术方案:为实现上述目的,本发明提供一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,包括如下步骤:
S1:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;
S2:将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;
S3:选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;
S4:视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
S5:将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。
进一步的,所述步骤S1中多尺度背景预测卷积神经网络包括三个部分,其具体搭建方法如下:
第一部分的搭建:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于COCO数据集,COCO数据集里的每一张图像送到输入层;输入层后面是第一部分的第一个卷积层;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式计算得到第一部分的第一个卷积层的输出大小;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层;
第二部分的搭建:
第二部分包括一个卷积层和一个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有2个神经元,对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到2个目标类别的置信度系数,置信度系数指目标类别的概率;设定一个阈值K1,如果物体的置信度系数大于K1或背景的置信度系数小于K1,则将第二部分的卷积层的输出送入第三部分的每一个卷积层中;
第三部分的搭建:
第三部分包括六个卷积层和两个全连接层,将由第二部分的卷积层的输出送入第三部分的第一个卷积层;第二部分的卷积层的输出使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第四个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第五个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第六个卷积层;
第三部分的每一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第一个全连接层,第三部分的第一个全连接层有N1个神经元,对应N1个目标类别,第三部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层,第三部分的第二个全连接层有N2个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度。
进一步的,所述步骤S2具体包括如下步骤:
A1:对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小进行排序;
A2:选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IoU值,IoU值计算公式如下:
IoU=S2/S3
其中,S2表示两个候选框面积的交集,S3表示两个候选框面积的并集;
A3:设定一个阈值T,根据下式计算新的置信度系数:
其中,M为最大置信度系数对应的候选框,si为第i个候选框的置信度系数,bi为第i个候选框,IOU(M,bi)为M与bi的IOU值,σ为常数,e=2.71828,G为最大置信度系数对应的候选框经过上式计算得到的新的置信度系数;
如果G<T,则删除最大置信度系数对应的候选框;
A4:从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复步骤A1~步骤A3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。
进一步的,所述步骤S3具体包括如下步骤:
B1:任意选择COCO数据集中里的10000张真实图像,并且将10000张图像使用双线性插值法得到尺寸为500*500的图像;
B2:将1000张图像按照4:1比例划分为训练集和测试集,在训练的过程中,将1000张图像里的每100张图像作为一个训练单元;
B3:损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多尺度背景预测卷积神经网络进行充分训练,得到训练好的多尺度背景预测卷积神经网络模型。
进一步的,所述步骤S4具体包括如下步骤:
C1:视觉摄像头采集视频文件;
C2:将采集的视频文件每隔3帧截取一张图像;
C3:若截取的图像为灰度图像,采用灰度级-彩色变换法变成彩色图像;
C4:对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像。
进一步的,所述步骤S5具体包括如下步骤:
D1:将得到的统一尺寸大小的彩色图像输入多尺度背景预测卷积神经网络模型中进行识别目标;
D2:多尺度背景预测卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
D3:调用OpenCV的Improcess及Caffemodel库文件,将训练完的多尺度背景预测卷积神经网络模型移植至基于龙芯芯片的嵌入式系统中,利用动态链接库,将程序运行所用到的库文件进行打包,执行编写好的脚本文件,完成对多类别目标的识别功能。
有益效果:本发明与现有技术相比,充分考虑了目标识别快速准确的特点,设计了多尺度背景预测卷积神经网络,利用多尺度网络模型来对多类别目标进行识别,提高了对于多类别目标的识别准确率和速度,解决了目前目标识别技术对多类别目标识别准确率不高、识别速度慢等问题,并且具有很高的可移植性,应用前景广泛。
附图说明
图1是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法的工作流程示意图;
图2是本发明实施例提供的一种多尺度背景预测卷积神经网络模型图;
图3是本发明实施例提供的基于龙芯芯片的龙芯2K1000嵌入式系统实物图;
图4是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图一;
图5是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图二;
图6是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图三;
图7是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图四。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明提供一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,如图1所示,其包括以下步骤:
步骤1,搭建多尺度背景预测卷积神经网络,将目标图像输入到多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;
步骤2,将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;
步骤3,选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,经过多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;
步骤4,通过视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
步骤5,将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的龙芯2K1000嵌入式系统中完成对多类别目标识别。
如图2所示,本实施例提供一种多尺度背景预测卷积神经网络结构图。步骤1中该多尺度背景预测卷积神经网络包括三个部分,其搭建过程具体如下:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于COCO数据集,COCO数据集里的每一张图像大小为500*500,每一张图像送到输入层;输入层后面是第一部分的第一个卷积层,第一部分的第一个卷积层选用了16个3*3的卷积核,步长为1,填充数量为1,卷积层的输出尺寸计算公式如下所示:
其中,Z是卷积输出数据的长度,W是卷积输入数据的长度,P是填充数量,F是卷积核的长度,S表示步长;
对于第一部分的第一个卷积层,由卷积层的输出尺寸通过公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层,第一部分的第二个卷积层采用32个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸通过公式(1)计算,第一部分第二个卷积层的输出大小是500*500*32;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层,第一部分的第三个卷积层采用64个3*3卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸通过公式(1)计算,第一部分的第三个卷积层的输出大小是250*250*64;
第二部分包括一个卷积层和一个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层,第二部分的第一个卷积层采用128个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸通过公式(1)计算,第二部分的第一个卷积层的输出大小是250*250*128;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有2个神经元,对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到2个目标类别的置信度系数,置信度系数指目标类别的概率;设定一个阈值K1,如果物体的置信度系数大于K1或背景的置信度系数小于K1,则将第二部分的卷积层的输出送入第三部分的每一个卷积层中;
第三部分包括六个卷积层和两个全连接层,将由第二部分的卷积层的输出送入第三部分的第一个卷积层,第三部分的第一个卷积层采用64个3*3卷积核,步长为1,填充数量为1,则根据卷积层的输出尺寸计算公式如下所示:
Z1=(W1-1)×S1-2×P1+F1 (2)
其中,Z1是卷积输出数据的长度,W1是卷积输入数据的长度,P1是填充数量,F1是卷积核的长度,S1表示步长;根据卷积层的输出尺寸通过公式(2)计算,第三部分第一个卷积层的输出大小是250*250*64;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层,第三部分的第二个卷积层采用64个4*4卷积核,步长为2,填充数量为1,则根据卷积层的输出尺寸通过公式(2)计算,第三部分第二个卷积层的输出大小是500*500*64;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层,第三部分的第三个卷积层采用64个5*5卷积核,步长为3,填充数量为1,则根据卷积层的输出尺寸通过公式(2)计算,第三部分第三个卷积层的输出大小是750*750*64;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第四个卷积层,第三部分的第四个卷积层采用64个6*6卷积核,步长为4,填充数量为1,则根据卷积层的输出尺寸通过公式(2)计算,第三部分第四个卷积层的输出大小是3000*3000*64;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第五个卷积层,第三部分的第五个卷积层采用64个7*7卷积核,步长为5,填充数量为1,则根据卷积层的输出尺寸计算公式(2),第三部分第五个卷积层的输出大小是15000*15000*64;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第六个卷积层,第三部分的第六个卷积层采用64个8*8卷积核,步长为6,填充数量为1,则根据卷积层的输出尺寸通过公式(2)计算,第三部分第六个卷积层的输出大小是90000*90000*64;
第三部分的每一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第一个全连接层,第三部分的第一个全连接层有1000个神经元,对应1000个目标类别,第三部分的第一个全连接层后面使用softmax函数,得到1000个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层,第三部分的第二个全连接层有4000个神经元,对应1000个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度;
本实施例中,步骤2具体包括如下步骤:
步骤2-1,对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小排序;
步骤2-2,选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IoU值,IoU值计算公式如下:
IoU=S2/S3 (3)
其中,S2表示两个候选框面积的交集,S3表示两个候选框面积的并集;
步骤2-3,设定一个阈值T,根据公式(4)计算新的置信度系数:
其中M为最大置信度系数对应的候选框,si为第i个候选框的置信度系数,bi为第i个候选框,IOU(M,bi)为M与bi的IOU值,σ为常数(σ一般取值0.6),e=2.71828,G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数;
如果G<T,则删除最大置信度系数对应的候选框;
步骤2-4,从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复2-1~步骤2-3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。
在本实施例中,步骤3具体包括如下步骤:
步骤3-1,任意选择COCO数据集中里的10000张真实图像,并且将10000张图像使用双线性插值法得到尺寸为500*500的图像;
步骤3-2,将10000张图像按照4:1比例划分为训练集和测试集,在训练的过程中,将10000张图像里的每100张图像作为一个训练单元;
步骤3-3,损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多尺度背景预测卷积神经网络进行充分训练,得到训练好的多尺度背景预测卷积神经网络模型。
在本实施例中,步骤4具体包括如下步骤:
步骤4-1,通过视觉摄像头采集视频文件;
步骤4-2,将采集的视频文件每隔3帧截取一张图像;
步骤4-3,若截取的图像为灰度图像,采用灰度级-彩色变换法变成彩色图像;
步骤4-4,对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像。
在本实施例中,步骤5中应用到的基于龙芯芯片的龙芯2K1000嵌入式系统的实物图如图3所示。
在本实施例中,步骤5具体包括如下步骤:
步骤5-1,将步骤4-4得到的统一尺寸大小的彩色图像输入多尺度背景预测卷积神经网络模型中进行识别多类别目标;
步骤5-2,多尺度背景预测卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
步骤5-3,调用OpenCV的Improcess及Caffemodel库文件,将训练完的多尺度背景预测卷积神经网络模型移植至基于龙芯芯片的龙芯2K1000嵌入式系统中,利用动态链接库,将程序运行所用到的库文件进行打包,执行编写好的脚本文件,完成对多类别目标的识别功能。
本实施例中应用上述方法对多类别目标进行识别,具体识别结果为:
图4是通过多尺度背景预测卷积神经网络识别的效果图,图4的左上角为原点,水平方向为横轴,竖直方向为纵轴,建立坐标系,多尺度背景预测卷积神经网络通过已训练好的多尺度背景预测卷积神经网络模型完成对图中物体的识别,图4中识别结果为桥;图5中识别结果为自动售货机;图6中识别结果为阿拉斯加雪橇犬;图7中识别结果为泰迪。
另外,本实施例还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
Claims (6)
1.基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:包括如下步骤:
S1:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;
S2:将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;
S3:选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;
S4:视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
S5:将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。
2.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S1中多尺度背景预测卷积神经网络包括三个部分,其具体搭建方法如下:
第一部分的搭建:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于COCO数据集,COCO数据集里的每一张图像送到输入层;输入层后面是第一部分的第一个卷积层;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式计算得到第一部分的第一个卷积层的输出大小;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层;
第二部分的搭建:
第二部分包括一个卷积层和一个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有2个神经元,对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到2个目标类别的置信度系数,置信度系数指目标类别的概率;设定一个阈值K1,如果物体的置信度系数大于K1或背景的置信度系数小于K1,则将第二部分的卷积层的输出送入第三部分的每一个卷积层中;
第三部分的搭建:
第三部分包括六个卷积层和两个全连接层,将由第二部分的卷积层的输出送入第三部分的第一个卷积层;第二部分的卷积层的输出使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第四个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第五个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第六个卷积层;
第三部分的每一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第一个全连接层,第三部分的第一个全连接层有N1个神经元,对应N1个目标类别,第三部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层,第三部分的第二个全连接层有N2个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度。
3.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S2具体包括如下步骤:
A1:对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小进行排序;
A2:选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IoU值,IoU值计算公式如下:
IoU=S2/S3
其中,S2表示两个候选框面积的交集,S3表示两个候选框面积的并集;
A3:设定一个阈值T,根据下式计算新的置信度系数:
其中,M为最大置信度系数对应的候选框,si为第i个候选框的置信度系数,bi为第i个候选框,IOU(M,bi)为M与bi的IOU值,σ为常数,e=2.71828,G为最大置信度系数对应的候选框经过上式计算得到的新的置信度系数;
如果G<T,则删除最大置信度系数对应的候选框;
A4:从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复步骤A1~步骤A3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。
4.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S3具体包括如下步骤:
B1:任意选择COCO数据集中里的10000张真实图像,并且将10000张图像使用双线性插值法得到尺寸为500*500的图像;
B2:将1000张图像按照4:1比例划分为训练集和测试集,在训练的过程中,将1000张图像里的每100张图像作为一个训练单元;
B3:损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多尺度背景预测卷积神经网络进行充分训练,得到训练好的多尺度背景预测卷积神经网络模型。
5.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S4具体包括如下步骤:
C1:视觉摄像头采集视频文件;
C2:将采集的视频文件每隔3帧截取一张图像;
C3:若截取的图像为灰度图像,采用灰度级-彩色变换法变成彩色图像;
C4:对彩色图像进行双线性插值法变成尺寸大小为500*500,得到统一尺寸大小的彩色图像。
6.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S5具体包括如下步骤:
D1:将得到的统一尺寸大小的彩色图像输入多尺度背景预测卷积神经网络模型中进行识别目标;
D2:多尺度背景预测卷积神经网络模型对每个目标都会生成1000个候选框,每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数;
D3:调用OpenCV的Improcess及Caffemodel库文件,将训练完的多尺度背景预测卷积神经网络模型移植至基于龙芯芯片的嵌入式系统中,利用动态链接库,将程序运行所用到的库文件进行打包,执行编写好的脚本文件,完成对多类别目标的识别功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806204.XA CN111950451A (zh) | 2020-08-12 | 2020-08-12 | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010806204.XA CN111950451A (zh) | 2020-08-12 | 2020-08-12 | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950451A true CN111950451A (zh) | 2020-11-17 |
Family
ID=73332778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010806204.XA Pending CN111950451A (zh) | 2020-08-12 | 2020-08-12 | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950451A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818871A (zh) * | 2021-02-04 | 2021-05-18 | 南京师范大学 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190279045A1 (en) * | 2016-12-16 | 2019-09-12 | Beijing Sensetime Technology Development Co., Ltd | Methods and apparatuses for identifying object category, and electronic devices |
CN110889324A (zh) * | 2019-10-12 | 2020-03-17 | 南京航空航天大学 | 一种基于yolo v3面向末端制导的热红外图像目标识别方法 |
CN110991359A (zh) * | 2019-12-06 | 2020-04-10 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 基于多尺度深度卷积神经网络的卫星图像目标检测方法 |
CN111368637A (zh) * | 2020-02-10 | 2020-07-03 | 南京师范大学 | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 |
-
2020
- 2020-08-12 CN CN202010806204.XA patent/CN111950451A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190279045A1 (en) * | 2016-12-16 | 2019-09-12 | Beijing Sensetime Technology Development Co., Ltd | Methods and apparatuses for identifying object category, and electronic devices |
CN110889324A (zh) * | 2019-10-12 | 2020-03-17 | 南京航空航天大学 | 一种基于yolo v3面向末端制导的热红外图像目标识别方法 |
CN110991359A (zh) * | 2019-12-06 | 2020-04-10 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 基于多尺度深度卷积神经网络的卫星图像目标检测方法 |
CN111368637A (zh) * | 2020-02-10 | 2020-07-03 | 南京师范大学 | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818871A (zh) * | 2021-02-04 | 2021-05-18 | 南京师范大学 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
CN112818871B (zh) * | 2021-02-04 | 2024-03-29 | 南京师范大学 | 一种基于半分组卷积的全融合神经网络的目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109685152B (zh) | 一种基于dc-spp-yolo的图像目标检测方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
CN108416266B (zh) | 一种利用光流提取运动目标的视频行为快速识别方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN111738344A (zh) | 一种基于多尺度融合的快速目标检测方法 | |
CN107784288A (zh) | 一种基于深度神经网络的迭代定位式人脸检测方法 | |
Nandhini et al. | Object Detection Algorithm Based on Multi-Scaled Convolutional Neural Networks | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
US20230048405A1 (en) | Neural network optimization method and apparatus | |
WO2023116632A1 (zh) | 基于时空记忆信息的视频实例分割方法和分割装置 | |
CN112580458A (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN110751195A (zh) | 一种基于改进YOLOv3的细粒度图像分类方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN111723660A (zh) | 一种用于长形地面目标检测网络的检测方法 | |
CN111651361A (zh) | 一种基于可视化页面的无脚本自动化测试方法 | |
CN110245683A (zh) | 一种少样本目标识别的残差关系网络构建方法及应用 | |
CN114723010B (zh) | 一种异步事件数据的自动学习增强方法及系统 | |
CN116883681A (zh) | 一种基于对抗生成网络的域泛化目标检测方法 | |
Zheng et al. | Feature enhancement for multi-scale object detection | |
CN116665054A (zh) | 一种基于改进YOLOv3的遥感影像小目标检测方法 | |
CN111882000A (zh) | 一种应用于小样本细粒度学习的网络结构及方法 | |
CN111368733A (zh) | 一种基于标签分布学习的三维手部姿态估计方法、存储介质及终端 | |
CN111950451A (zh) | 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |