CN112580627A

CN112580627A - 基于国产智能芯片K210的yolov3目标检测方法及电子装置

Info

Publication number: CN112580627A
Application number: CN202011490588.5A
Authority: CN
Inventors: 苗玉霞; 于佳耕; 邰阳; 侯朋朋; 武延军
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-30

Abstract

本发明公开了一种基于国产智能芯片K210的yolov3实时目标检测方法及电子装置，包括模型训练、模型量化和剪枝、模型转换、新增算子、实现yolo层、编译、烧录。首先根据K210开发板所支持的算子修改yolov3模型的backbone；然后使用PASCAL VOC2012和PASCAL VOC2007数据集训练模型，并进行剪枝；将保存好的模型转换为K210可以识别加载的格式，最后由K210摄像头采集到的图像，经过模型得到feature map，对得到的feature map通过yolo层进行激活、nms等操作得到图像中物体的位置和类别。本发明对yolov3算法进行剪枝、量化后使得模型大小减少到原来的11％；且利用K210软件栈执行硬件加速后运行速度相比于cpu有所提升。

Description

基于国产智能芯片K210的yolov3目标检测方法及电子装置

技术领域

本发明涉及目标检测技术领域，具体涉及一种基于国产智能芯片K210的yolov3实时目标检测方法及电子装置。

背景技术

近年来，随着人工智能领域的快速发展，卷积神经网络已经成为不同视觉任务的主要研究方法，例如目标检测、图像分类等，为了提高模型的表达能力，卷积神经网络模型规模越来越大，参数量越来越多。然而更大的网络模型需要更多的计算资源，例如一个152层的ResNet有超过6000万个参数，在推理224*224大小的图像时需要超过20千兆的浮点运算。这在资源受限的终端设备上运行是不现实的。

卷积神经网络在实际应用部署中主要受以下限制：

1)模型大小的限制：卷积神经网络强大的表达能力来自其数百万个可训练参数。这些参数以及网络结构信息需要存储在磁盘上，并在推理期间加载到内存中。例如，存储一个典型的在ImageNet上训练过的CNN要消耗300MB以上空间，这对于资源受限的智能芯片端是一大资源负担。

2)运行时内存：在推理期间，CNN的中间层的激活和响应甚至比存储模型参数占用更多的内存空间，即使批量大小为1。对于许多应用程序来说，这不是一个高性能的问题。

3)计算操作的数量：卷积运算在高分辨率图像上是计算密集型的。一个大型的CNN在资源受限的智能芯片端处理一个单一的图像可能需要几分钟的时间，这使得将其用于实际应用是不现实的。

国产智能芯片K210开发板采用RISC-V处理器架构，KPU加速模块仅支持1*1和3*3的卷积核，其他尺寸的卷积核均不能被KPU加速，且其只有6MB的通用RAM和2MB的KPU专用RAM。卷积神经网络模型的输入和输出特征图存储在2MB的KPU专用RAM中。模型的权重和其他参数存储在6MB通用RAM中，然而其实际支持的最大神经网络模型参数只有5.5M到5.9M。

yolov3模型是一阶段目标检测任务中运行速度更快、准确度较高的一种算法。它以yolov1和yolov2为基础，采用了多尺度特征对目标进行预测，利用Logistic方法对目标进行分类。该算法与其他目标检测方法相比不仅速度快而且对于小目标的检测效果更好。

原有yolov3模型参数量较多，运行时占用内存较大，由于国产智能芯片K210硬件平台的存储和运行内存有限，并且在基于FreeRtos的SDK中不支持quant_resize_nearest_neighbor、channelwise_dequantize和Logistic算子，使得yolov3模型并不能在国产智能芯片K210上运行。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于国产智能芯片K210的yolov3实时目标检测方法及电子装置，可以将现有yolov3模型通过剪枝、量化等方法减小模型大小，降低运行时内存消耗，并减少计算操作的数量，使其满足国产智能芯片K210对神经网络模型参数的最大限制；减小输入图像的尺寸，使其满足国产智能芯片K210对卷积神经网络模型的输入和输出特征图的存储限制；将训练后的模型进行转换为K210可以加载运行的模型文件；在K210软件栈中新增算子、并实现了yolo层；获取K210上摄像头采集的视频数据，加载运行yolov3模型，对目标检测结果在LCD上进行显示。

为了实现上述目的，提供如下技术解决方案：

一种基于国产智能芯片K210的yolov3目标检测方法，其步骤包括：

1)采用MobileNet模型结构替代yolov3模型中的darknet-53层网络结构，并减少网络中卷积核的数量与网络层数，得到调整后yolov3模型；

2)使用若干训练样本图像对调整后yolov3模型进行稀疏化训练，并对稀疏化训练后yolov3模型进行剪枝操作，得到最终yolov3模型；

3)将依据最终yolov3模型生成的.h5模型文件，转化为kmodel模型文件，生成kmodel模型，并在国产智能芯片K210的软件栈中新增算子，其中算子包括：kpu_logistic算子；

4)将待检测数据转化为输入图像后，输入主干网络为MobileNet模型结构的kmodel模型中，得到特征图，并通过kpu_logistic算子，对特征图中每个网格预测的B个边界框的中心坐标与相应置信度及C个类别概率进行激活，计算特征图中每一边界框的中心坐标、宽高、相应置信度及各类别的概率值，其中B≥1，C≥1；

5)根据输入图像的大小和特征图的尺寸，计算每个边界框在输入图像上的位置，得到目标检测结果。

进一步地，使用若干训练样本图像对调整后yolov3模型进行稀疏化训练之前，对训练样本图像进行预处理；所述预处理的策略包括：

1)依据国产智能芯片K210对于神经网络模型输入和输出特征图存储空间大小的要求，以及根据yolov3模型对于输入图像的宽高限制，调整训练样本图像的尺寸；

2)对训练样本图像的真实值与标签进行适应性地缩放。

进一步地，在keras框架下，对调整后yolov3模型进行稀疏化训练。

进一步地，所述剪枝操作包括：删除权重张量中的部分值和减少神经网络层之间的连接数量。

进一步地，通过以下步骤转化为kmodel模型文件：

1)通过tensorflow的tflite_convert命令，将.h5模型文件转化为tflite模型文件；

2)使用K210模型转化工具nncase，将tflite模型转化为kmodel模型文件。

进一步地，待检测数据包括：视频数据或图像数据。

进一步地，通过调用dvp模块获取所述视频数据。

进一步地，通过以下步骤将图像数据转化为输入图像：

1)将任意图像的大小调整为kmodel模型所需要的大小；

2)将图像格式通过代码转换为国产智能芯片K210可加载的.c文件。

进一步地，将输入图像输入主干网络为MobileNet模型结构的kmodel模型时，边界框的数量B_N＝w_I*h_I*a，kmodel模型的output数量N₀＝B_N*(c+4+1),其中w_I为kmodel模型中yolo层的宽，h_I为kmodel模型中yolo层的高，a为锚点数量，c为类别数量。

进一步地，计算每个边界框在输入图像上的位置之前，删除相应置信度低于设定置信度阈值的边界框。

进一步地，计算每个边界框在输入图像上的位置之后，根据非极大值抑制算法获取各边界框的非极大值抑制值，并删除低于非极大值抑制阈值的边界框。

进一步地，所述算子还包括：kpu_quant_resize_nearest_neighbor算子和kpu_kmodel_channelwise_dequantize算子。

进一步地，通过以下步骤将待检测数据、kmodel模型、算子与目标检测结果烧录在国产智能芯片K210的开发板上：

1)创建yolov3的工作空间，并将待检测数据、kmodel模型、算子与目标检测结果放入工作空间进行编译，生成一个bin文件；

2)使用kflash，将bin文件烧录在国产智能芯片K210的开发板上。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果为：

(1)、经过剪枝、量化将yolov3模型大小减少到原来11％。

(2)、在国产智能芯片K210软件栈中新增quant_resize_nearest_neighbor、channelwise_dequantize、logistic算子。

(3)、在K210上实现yolo层。

附图说明

图1、本发明的整体流程图。

图2、原有yolov3深度学习网络模型结构图。

图3、本发明yolov3深度学习网络模型结构图。

图4、本发明模型转换流程图。

图5、本发明在K210开发板上的运行流程图。

具体实施方式

为了使本发明的目的、技术方案更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。

设定如下场景：带有GPU的服务器一台，下载完成的PASCAL VOC2012和PASCALVOC2007数据集，一个K210智能芯片，下载安装好的模型转换工具、基于FreeRtos的SDK。待检测的数据如下表所示：

如图1所示，本发明实施步骤如下：

1)、服务器端环境部署。

在服务器端安装GPU版本的Keras智能计算框架，下载并安装K210的RISC-V工具链kendryte-toolchain。

2)、图像预处理

首先将PASCAL VOC2012和PASCAL VOC2007数据集的图像路径和annotation合并到一个npy文件中，使用K-means聚类对数据集的annotations进行聚类得到anchor数据。然后将数据集按照4：1的比例划分为训练集和测试集，然后根据国产智能芯片K210对于神经网络模型输入和输出特征图存储空间大小的要求，以及根据yolov3对于输入图像的宽高必须是32的倍数限制，故将输入图像的尺寸调整为224*320，并对ground truth(数据集中图像的真实值、标签)进行对应的缩放。

3)、调整模型网络结构

Yolov3的原始模型结构如图2所示，采用darknet-53层的网络结构对输入图像进行特征提取，其网络较深，参数量大，模型大小和计算操作的数量都远远大于K210开发板所支持的最大规模。为了使得yolov3可以在K210开发板上运行，所以采用MobileNet模型结构作为yolov3的主干网络，如图3所示，并相应减少网络中卷积核的数量以及网络的层数，使得模型检测效果相对不变的情况下，减少网络参数量和计算量。

4)、模型的训练和剪枝

4.1安装和配置keras框架。

4.2随机选取64张经过图像预处理后的训练样本构成一个batch，初始学习率为0.001，iou阈值为0.3，最终稀疏度为50％，然后进行稀疏化训练。

4.3稀疏化训练完模型后，通过删除权重张量中不必要的值以及减少神经网络层之间的连接数量等操作，从而减少计算中涉及的参数，得到剪枝后的最终模型。

5)、yolov3模型转换

图4为模型转换流程图，由于国产智能芯片K210开发板不支持keras模型，故将得到剪枝后的.h5模型文件通过tensorflow的tflite_convert命令转化为tflite模型文件：

tflite_convert--output_file＝path/to/save/tflite_model--keras_model_file＝path/to/keras-model

然后使用K210模型转化工具nncase将tflite模型转化为K210可以加载运行的kmodel模型文件：

ncc-i tflite-o kmodel-t k210--dataset images path/to/tflite_modelpath/to/save/kmodel

6)、K210软件栈中新增算子

由于国产智能芯片K210在基于FreeRtos的SDK中暂不支持quant_resize_nearest_neighbor、channelwise_dequantize、logistic算法。在加载运行kmodel模型时需用到quant_resize_nearest_neighbor、channelwise_dequantize算子，在yolo层需要使用logistic算子对特征图进行激活。故在K210软件栈中新增kpu_quant_resize_nearest_neighbor、kpu_kmodel_channelwise_dequantize、kpu_logistic算子。

7)、实现yolo层

YOLO算法将图片划分为S*S个网格(grid cell)，如果一个物体的中心落在某个网格内，则这个网格负责检测该物体。通过网络，每个网格会预测产生B个bounding box(边界框)及其对应的confidence score(置信度)和C个类别概率。这些表示每个网格包含物体的类别概率以及定位精度。

首先将通过kmodel模型结构，得到深度为c_l＝(B*(4+1)+C)的feature map(特征图)，其中B为Bounding boxes的数量，每一个bounding box包含5个参数x,y,w,h和confidence score和C个类别概率，由于PASCAL VOC中有20个类别所以这里的C＝20。然后对feature map中每个网格预测的B个bounding box的中心坐标、confidence score以及20个类别使用logistic激活函数进行激活，然后对feature map中的每一个网格计算其对应每个Bounding box的中心坐标、宽高、confidence score和类别的概率值。根据设置的阈值(threshold)删除confidence score低于threshold的bounding boxes，并根据输入图像的大小和feature map的尺寸计算每个Bounding box在输入图像上的位置，最后根据NMS(非极大值抑制)算法再去掉一些低于NMS阈值(nms_value)的bounding box，最后得到物体的位置和所属类别，完成目标检测。

8)、加载模型并初始化yolo层

对PASCAL VOC2012和PASCAL VOC2007数据集进行合并，然后使用k-means进行聚类得到模型每个尺度预测的anchor值(锚点)，根据每个尺度的feature map大小和输入模型图像的设置yolo层的宽w_l、高h_l、通道c_l、输入模型图像的宽w_i、输入模型图像的高h_i；并设置threshold和nms_value。boxes的总数量B_N和kmode的output数量N_o公式计算如下，其中c表示c个类别，a表示anchor的数量。

B_N＝w_l*h_l*a

N_o＝B_N*(c+4+1)

9)、获取待检测数据以及结果显示

待检测数据可分为两类：视频数据和图像数据。

(1)、检测视频数据。调用K210开发板上集成的KPU加速模块，对kmodel模型进行加速，并调用dvp模块获取视频数据，获取的视频数据经过kmodel模型和yolo层的计算得到物体的定位框和类别，并在将定位框和类别标注在视频数据上，完成对视频数据的检测，在LCD模块上显示检测后的视频数据。

(2)、检测图像。首先需要将任意图像的大小调整为kmodel模型所需要的大小即224*320，并将图像格式通过代码转换为K210可加载的.c文件，调用K210开发板上集成的KPU加速模块，对kmodel模型进行加速。图像的.c文件经过kmodel模型和yolo层的计算得到物体的定位框和类别，并在将定位框和类别标注在图像上，完成对图像数据的检测，在LCD模块上显示检测后的静态图像。

10)、编译

在基于FreeRtos的sdk中创建yolov3的工作空间，并将kmodel模型、yolo层的实现、新增的算子、调用K210摄像头模组获取视频数据或加载图像数据、LCD模块上结果显示等代码放入工作空间中，然后使用kendryte-toolchain对yolov3的工作空间进行编译，编译成功后会在FreeRtos-SDK目录下的bulid文件中生成yolov3_kmodel.bin文件，其可在K210上运行。其中编译命令为：cmake..-DPROJ＝yolov3_kmodel-DTOOLCHAIN＝/opt/kendryte-toolchain/bin&&make

编译成功后会在FreeRtos-SDK目录下的bulid文件中生成yolov3_kmodel.bin文件

11)、烧写模型文件

下载烧录工具代码kflash，然后使用Type-c数据线连接服务器和开发板，在kflash目录下执行如下烧录命令。

python kflash.py-s-t path/to/yolov3_kmodel.bin

12)、实现目标检测

如图5所示，连接K210开发板和服务器，使用kflash将编译后生成的bin文件烧录在开发板上，实现基于国产智能芯片K210的yolov3目标检测。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.一种基于国产智能芯片K210的yolov3目标检测方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，使用若干训练样本图像对调整后yolov3模型进行稀疏化训练之前，对训练样本图像进行预处理；所述预处理的策略包括：

2)对训练样本图像的真实值与标签进行适应性地缩放。

3.如权利要求1所述的方法，其特征在于，在keras框架下，对调整后yolov3模型进行稀疏化训练；所述剪枝操作包括：删除权重张量中的部分值和减少神经网络层之间的连接数量。

4.如权利要求1所述的方法，其特征在于，通过以下步骤转化为kmodel模型文件：

5.如权利要求1所述的方法，其特征在于，待检测数据包括：视频数据或图像数据；通过调用dvp模块获取所述视频数据；通过以下步骤将图像数据转化为输入图像：

1)将任意图像的大小调整为kmodel模型所需要的大小；

6.如权利要求1所述的方法，其特征在于，输入图像输入主干网络为MobileNet模型结构的kmodel模型中时，边界框的数量B_N＝w_I*h_I*a，kmodel模型的output数量N₀＝B_N*(c+4+1)，其中w_I为kmodel模型中yolo层的宽，h_I为kmodel模型中yolo层的高，a为锚点数量，c为类别数量。

7.如权利要求1所述的方法，其特征在于，计算每个边界框在输入图像上的位置之前，删除相应置信度低于设定置信度阈值的边界框；计算每个边界框在输入图像上的位置之后，根据非极大值抑制算法获取各边界框的非极大值抑制值，并删除低于非极大值抑制阈值的边界框。

8.如权利要求1所述的方法，其特征在于，所述算子还包括：kpu_quant_resize_nearest_neighbor算子和kpu_kmodel_channelwise_dequantize算子。

9.如权利要求8所述的方法，其特征在于，通过以下步骤将待检测数据、kmodel模型、算子与目标检测结果烧录在国产智能芯片K210的开发板上：

2)使用kflash，将bin文件烧录在国产智能芯片K210的开发板上。

10.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-9中任一所述方法。