CN111950451A

CN111950451A - 基于多尺度预测cnn及龙芯芯片的多类别目标识别方法

Info

Publication number: CN111950451A
Application number: CN202010806204.XA
Authority: CN
Inventors: 陆飞; 谢非; 卢毅; 曹湘玉; 吴启宇; 吴奕之; 陈瑾杰; 叶欣雨; 吴俊�; 章悦
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-11-17

Abstract

本发明公开了一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，包括：将目标图像输入到搭建好的多尺度背景预测卷积神经网络，输出分类结果；将分类结果为物体的候选框，去除重复的候选框；对多尺度背景预测卷积神经网络充分训练，得到训练好的多尺度背景预测卷积神经网络；视觉摄像头采集视频文件，并且统一尺寸大小；将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。本发明充分考虑了目标识别快速准确的特点，设计了多尺度背景预测卷积神经网络，利用多尺度网络模型来对多类别目标进行识别，提高了对于多类别目标的识别准确率和速度，并且具有很高的可移植性，应用前景广泛。

Description

基于多尺度预测CNN及龙芯芯片的多类别目标识别方法

技术领域

本发明涉及多类别目标识别及深度学习领域，具体涉及一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法。

背景技术

随着计算机视觉的不断发展，深度学习在视觉处理的多目标识别领域也不断拓宽。可是目前部分多目标识别算法仍存在识别目标不准确，识别速度慢的问题，为满足视觉领域对多类别目标识别的要求及对深度学习模型移植小型化嵌入式系统的需求，研究基于国产龙芯芯片的快速准确多类别目标识别技术具有重要意义。

目前，多目标识别主要有两种方法，一是通过图像处理中的模板匹配法，就是选取模板后，在待搜索图像中搜索出与模板匹配程度最高的子图，再进行模板和子图的相似度匹配完成识别，这种匹配方法计算量很大，难以应用在对目标识别速度要求较高的实时多类别目标识别领域上。二是通过深度学习的方法，采用神经网络模型完成识别多类别目标，但目前采用深度学习的方法进行多类别目标识别，由于复杂情况下的目标存在互相遮挡以及尺度大小变化的问题，神经网络模型识别目标容易出现误检或者是漏检的问题。

发明内容

发明目的：为了克服现有技术中存在的不足，针对目前目标识别技术对多类别目标识别精度与速度不高的问题，提出一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，设计了多尺度背景预测卷积神经网络模型与算法，提升了多类别目标识别的快速性与准确性。

技术方案：为实现上述目的，本发明提供一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，包括如下步骤：

S1：将目标图像输入到搭建好的多尺度背景预测卷积神经网络，输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别；

S2：将分类结果为物体的候选框通过高斯加权非极大值抑制算法，去除重复的候选框；

S3：选择网络优化器，使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集，对多尺度背景预测卷积神经网络充分训练，得到训练好的多尺度背景预测卷积神经网络；

S4：视觉摄像头采集视频文件，然后将采集的视频文件逐帧转换为彩色图像，并对彩色图像统一尺寸大小；

S5：将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。

进一步的，所述步骤S1中多尺度背景预测卷积神经网络包括三个部分，其具体搭建方法如下：

第一部分的搭建：

第一部分包括一个输入层和三个卷积层，用于对数据进行卷积特征提取，第一部分的输入来自于COCO数据集，COCO数据集里的每一张图像送到输入层；输入层后面是第一部分的第一个卷积层；

对于第一部分的第一个卷积层，由卷积层的输出尺寸计算公式计算得到第一部分的第一个卷积层的输出大小；

在第一部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第二个卷积层；

第一部分的第二个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第三个卷积层；

第二部分的搭建：

第二部分包括一个卷积层和一个全连接层；第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层；

第二部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第二部分的第一个全连接层，第二部分的第一个全连接层有2个神经元，对应物体和背景这2个目标类别，第二部分的第一个全连接层后面使用softmax函数，得到2个目标类别的置信度系数，置信度系数指目标类别的概率；设定一个阈值K1，如果物体的置信度系数大于K1或背景的置信度系数小于K1，则将第二部分的卷积层的输出送入第三部分的每一个卷积层中；

第三部分的搭建：

第三部分包括六个卷积层和两个全连接层，将由第二部分的卷积层的输出送入第三部分的第一个卷积层；第二部分的卷积层的输出使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第二个卷积层；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第三个卷积层；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第四个卷积层；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第五个卷积层；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第六个卷积层；

第三部分的每一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第一个全连接层，第三部分的第一个全连接层有N1个神经元，对应N1个目标类别,第三部分的第一个全连接层后面使用softmax函数，得到N1个目标类别的置信度系数，置信度系数指目标类别的概率；同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层，第三部分的第二个全连接层有N2个神经元，对应N1个目标类别的候选框位置，每个候选框位置由坐标(x，y，l，h)确定，x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离，y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离，l代表候选框的长度，h代表候选框的高度。

进一步的，所述步骤S2具体包括如下步骤：

A1：对每个目标里的1000个候选框按照对应的置信度系数的大小情况，由大到小进行排序；

A2：选中最大置信度系数对应的候选框，计算剩余候选框与最大置信度系数对应的候选框之间的IoU值，IoU值计算公式如下：

IoU＝S2/S3

其中，S2表示两个候选框面积的交集，S3表示两个候选框面积的并集；

A3：设定一个阈值T，根据下式计算新的置信度系数：

其中，M为最大置信度系数对应的候选框，s_i为第i个候选框的置信度系数，b_i为第i个候选框，IOU(M，b_i)为M与b_i的IOU值，σ为常数，e＝2.71828，G为最大置信度系数对应的候选框经过上式计算得到的新的置信度系数；

如果G<T，则删除最大置信度系数对应的候选框；

A4：从剩余候选框中继续选取一个最大置信度系数对应的候选框，重复步骤A1～步骤A3，直到只剩一个候选框，候选框的坐标位置(x,y,l,h)就是目标的实际位置，最大置信度系数对应的目标类别就是目标的实际类别。

进一步的，所述步骤S3具体包括如下步骤：

B1：任意选择COCO数据集中里的10000张真实图像，并且将10000张图像使用双线性插值法得到尺寸为500*500的图像；

B2：将1000张图像按照4:1比例划分为训练集和测试集，在训练的过程中，将1000张图像里的每100张图像作为一个训练单元；

B3：损失函数使用交叉熵损失函数，网络优化器采用亚当优化器，对多尺度背景预测卷积神经网络进行充分训练，得到训练好的多尺度背景预测卷积神经网络模型。

进一步的，所述步骤S4具体包括如下步骤：

C1：视觉摄像头采集视频文件；

C2：将采集的视频文件每隔3帧截取一张图像；

C3：若截取的图像为灰度图像，采用灰度级-彩色变换法变成彩色图像；

C4：对彩色图像进行双线性插值法变成尺寸大小为500*500，得到统一尺寸大小的彩色图像。

进一步的，所述步骤S5具体包括如下步骤：

D1：将得到的统一尺寸大小的彩色图像输入多尺度背景预测卷积神经网络模型中进行识别目标；

D2：多尺度背景预测卷积神经网络模型对每个目标都会生成1000个候选框，每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数；

D3：调用OpenCV的Improcess及Caffemodel库文件，将训练完的多尺度背景预测卷积神经网络模型移植至基于龙芯芯片的嵌入式系统中，利用动态链接库，将程序运行所用到的库文件进行打包，执行编写好的脚本文件，完成对多类别目标的识别功能。

有益效果：本发明与现有技术相比，充分考虑了目标识别快速准确的特点，设计了多尺度背景预测卷积神经网络，利用多尺度网络模型来对多类别目标进行识别，提高了对于多类别目标的识别准确率和速度，解决了目前目标识别技术对多类别目标识别准确率不高、识别速度慢等问题，并且具有很高的可移植性，应用前景广泛。

附图说明

图1是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法的工作流程示意图；

图2是本发明实施例提供的一种多尺度背景预测卷积神经网络模型图；

图3是本发明实施例提供的基于龙芯芯片的龙芯2K1000嵌入式系统实物图；

图4是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图一；

图5是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图二；

图6是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图三；

图7是本发明实施例提供的基于多尺度预测CNN及龙芯芯片的多类别目标识别结果图四。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明提供一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，如图1所示，其包括以下步骤：

步骤1，搭建多尺度背景预测卷积神经网络，将目标图像输入到多尺度背景预测卷积神经网络，输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别；

步骤2，将分类结果为物体的候选框通过高斯加权非极大值抑制算法，去除重复的候选框；

步骤3，选择网络优化器，使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集，经过多尺度背景预测卷积神经网络充分训练，得到训练好的多尺度背景预测卷积神经网络；

步骤4，通过视觉摄像头采集视频文件，然后将采集的视频文件逐帧转换为彩色图像，并对彩色图像统一尺寸大小；

步骤5，将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的龙芯2K1000嵌入式系统中完成对多类别目标识别。

如图2所示，本实施例提供一种多尺度背景预测卷积神经网络结构图。步骤1中该多尺度背景预测卷积神经网络包括三个部分，其搭建过程具体如下：

第一部分包括一个输入层和三个卷积层，用于对数据进行卷积特征提取，第一部分的输入来自于COCO数据集，COCO数据集里的每一张图像大小为500*500，每一张图像送到输入层；输入层后面是第一部分的第一个卷积层，第一部分的第一个卷积层选用了16个3*3的卷积核，步长为1，填充数量为1，卷积层的输出尺寸计算公式如下所示：

其中，Z是卷积输出数据的长度，W是卷积输入数据的长度，P是填充数量，F是卷积核的长度，S表示步长；

对于第一部分的第一个卷积层，由卷积层的输出尺寸通过公式(1)计算得到第一部分的第一个卷积层的输出大小是500*500*16；

在第一部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第二个卷积层，第一部分的第二个卷积层采用32个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸通过公式(1)计算，第一部分第二个卷积层的输出大小是500*500*32；

第一部分的第二个卷积层后也使用线性整流函数作为激活函数，将经过激活函数的数据送入第一部分的第三个卷积层，第一部分的第三个卷积层采用64个3*3卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸通过公式(1)计算，第一部分的第三个卷积层的输出大小是250*250*64；

第二部分包括一个卷积层和一个全连接层；第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层，第二部分的第一个卷积层采用128个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸通过公式(1)计算，第二部分的第一个卷积层的输出大小是250*250*128；

第二部分的第一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第二部分的第一个全连接层，第二部分的第一个全连接层有2个神经元，对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数，得到2个目标类别的置信度系数，置信度系数指目标类别的概率；设定一个阈值K1，如果物体的置信度系数大于K1或背景的置信度系数小于K1，则将第二部分的卷积层的输出送入第三部分的每一个卷积层中；

第三部分包括六个卷积层和两个全连接层，将由第二部分的卷积层的输出送入第三部分的第一个卷积层，第三部分的第一个卷积层采用64个3*3卷积核，步长为1，填充数量为1，则根据卷积层的输出尺寸计算公式如下所示：

Z₁＝(W₁-1)×S₁-2×P₁+F₁ (2)

其中，Z₁是卷积输出数据的长度，W₁是卷积输入数据的长度，P₁是填充数量，F₁是卷积核的长度，S₁表示步长；根据卷积层的输出尺寸通过公式(2)计算，第三部分第一个卷积层的输出大小是250*250*64；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第二个卷积层，第三部分的第二个卷积层采用64个4*4卷积核，步长为2，填充数量为1，则根据卷积层的输出尺寸通过公式(2)计算，第三部分第二个卷积层的输出大小是500*500*64；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第三个卷积层，第三部分的第三个卷积层采用64个5*5卷积核，步长为3，填充数量为1，则根据卷积层的输出尺寸通过公式(2)计算，第三部分第三个卷积层的输出大小是750*750*64；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第四个卷积层，第三部分的第四个卷积层采用64个6*6卷积核，步长为4，填充数量为1，则根据卷积层的输出尺寸通过公式(2)计算，第三部分第四个卷积层的输出大小是3000*3000*64；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第五个卷积层，第三部分的第五个卷积层采用64个7*7卷积核，步长为5，填充数量为1，则根据卷积层的输出尺寸计算公式(2)，第三部分第五个卷积层的输出大小是15000*15000*64；第二部分的卷积层的输出也使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第六个卷积层，第三部分的第六个卷积层采用64个8*8卷积核，步长为6，填充数量为1，则根据卷积层的输出尺寸通过公式(2)计算，第三部分第六个卷积层的输出大小是90000*90000*64；

第三部分的每一个卷积层后使用线性整流函数作为激活函数，将经过激活函数的数据送入第三部分的第一个全连接层，第三部分的第一个全连接层有1000个神经元，对应1000个目标类别,第三部分的第一个全连接层后面使用softmax函数，得到1000个目标类别的置信度系数，置信度系数指目标类别的概率；同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层，第三部分的第二个全连接层有4000个神经元，对应1000个目标类别的候选框位置，每个候选框位置由坐标(x，y，l，h)确定，x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离，y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离，l代表候选框的长度，h代表候选框的高度；

本实施例中，步骤2具体包括如下步骤：

步骤2-1，对每个目标里的1000个候选框按照对应的置信度系数的大小情况，由大到小排序；

步骤2-2，选中最大置信度系数对应的候选框，计算剩余候选框与最大置信度系数对应的候选框之间的IoU值，IoU值计算公式如下：

IoU＝S2/S3 (3)

步骤2-3，设定一个阈值T，根据公式(4)计算新的置信度系数：

其中M为最大置信度系数对应的候选框，s_i为第i个候选框的置信度系数，b_i为第i个候选框,IOU(M，b_i)为M与b_i的IOU值，σ为常数(σ一般取值0.6)，e＝2.71828，G为最大置信度系数对应的候选框经过公式(4)计算得到的新的置信度系数；

如果G<T，则删除最大置信度系数对应的候选框；

步骤2-4，从剩余候选框中继续选取一个最大置信度系数对应的候选框，重复2-1～步骤2-3，直到只剩一个候选框，候选框的坐标位置(x,y,l,h)就是目标的实际位置，最大置信度系数对应的目标类别就是目标的实际类别。

在本实施例中，步骤3具体包括如下步骤：

步骤3-1，任意选择COCO数据集中里的10000张真实图像，并且将10000张图像使用双线性插值法得到尺寸为500*500的图像；

步骤3-2，将10000张图像按照4:1比例划分为训练集和测试集，在训练的过程中，将10000张图像里的每100张图像作为一个训练单元；

步骤3-3，损失函数使用交叉熵损失函数，网络优化器采用亚当优化器，对多尺度背景预测卷积神经网络进行充分训练，得到训练好的多尺度背景预测卷积神经网络模型。

在本实施例中，步骤4具体包括如下步骤：

步骤4-1，通过视觉摄像头采集视频文件；

步骤4-2，将采集的视频文件每隔3帧截取一张图像；

步骤4-3，若截取的图像为灰度图像，采用灰度级-彩色变换法变成彩色图像；

步骤4-4，对彩色图像进行双线性插值法变成尺寸大小为500*500，得到统一尺寸大小的彩色图像。

在本实施例中，步骤5中应用到的基于龙芯芯片的龙芯2K1000嵌入式系统的实物图如图3所示。

在本实施例中，步骤5具体包括如下步骤：

步骤5-1，将步骤4-4得到的统一尺寸大小的彩色图像输入多尺度背景预测卷积神经网络模型中进行识别多类别目标；

步骤5-2，多尺度背景预测卷积神经网络模型对每个目标都会生成1000个候选框，每个候选框都有对应的坐标位置(x,y,l,h)和目标类别的置信度系数；

步骤5-3，调用OpenCV的Improcess及Caffemodel库文件，将训练完的多尺度背景预测卷积神经网络模型移植至基于龙芯芯片的龙芯2K1000嵌入式系统中，利用动态链接库，将程序运行所用到的库文件进行打包，执行编写好的脚本文件，完成对多类别目标的识别功能。

本实施例中应用上述方法对多类别目标进行识别，具体识别结果为：

图4是通过多尺度背景预测卷积神经网络识别的效果图，图4的左上角为原点，水平方向为横轴，竖直方向为纵轴，建立坐标系，多尺度背景预测卷积神经网络通过已训练好的多尺度背景预测卷积神经网络模型完成对图中物体的识别，图4中识别结果为桥；图5中识别结果为自动售货机；图6中识别结果为阿拉斯加雪橇犬；图7中识别结果为泰迪。

另外，本实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

Claims

1.基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：所述步骤S1中多尺度背景预测卷积神经网络包括三个部分，其具体搭建方法如下：

第一部分的搭建：

第二部分的搭建：

第三部分的搭建：

3.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：所述步骤S2具体包括如下步骤：

IoU＝S2/S3

A3：设定一个阈值T，根据下式计算新的置信度系数：

如果G<T，则删除最大置信度系数对应的候选框；

4.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：所述步骤S3具体包括如下步骤：

5.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：所述步骤S4具体包括如下步骤：

C1：视觉摄像头采集视频文件；

C2：将采集的视频文件每隔3帧截取一张图像；

6.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法，其特征在于：所述步骤S5具体包括如下步骤：