CN115273060A

CN115273060A - 适用于边缘设备的神经网络模型、图像识别方法及装置

Info

Publication number: CN115273060A
Application number: CN202210990859.6A
Authority: CN
Inventors: 郎翊东; 陈康麟; 韩晓琳; 赖盛强
Original assignee: Hangzhou Langyang Technology Co ltd
Current assignee: Hangzhou Langyang Technology Co ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-11-01

Abstract

本发明公开了一种适用于边缘设备的神经网络模型、图像识别方法及装置，该模型包括依次串联的初始卷积单元、呼吸模块及全连接层；所述初始卷积单元包括有至少一初始卷积层；所述呼吸模块包括至少一呼吸单元，呼吸单元间依次配合设置，所述呼吸单元包括第一呼吸卷积层、第二呼吸卷积层及激活层；其中，所述第一呼吸卷积层和第二呼吸卷积层依次串联，所述第一呼吸卷积层的卷积核数被配置为小于所述呼吸单元的输入数据的通道数；激活层配合设置在第二呼吸卷积层之后。本发明通过设置呼吸单元，有较小的Feature map，减少了需要学习的参数量，同时降低了内存要求，能够用在小内存空间的嵌入式设备中。

Description

适用于边缘设备的神经网络模型、图像识别方法及装置

技术领域

本发明属于数据处理技术领域，具体来说涉及适用于边缘设备的神经网络模型、图像识别方法及装置。

背景技术

目前，人工智能领域当下较为热门的图像处理技术在嵌入式领域已经得到了越来越多的重视并且正在为人类生活提供着更加智能化的体验，比如：摄像头人脸识别、车牌定位、手机美颜相机等等。然而，由于嵌入式系统本身具有内存容量小和数据处理速度较为有限的特点，而图像数据信息量大且对内存空间和数据处理速度有较高要求，对嵌入式系统中图形处理技术的发展增加了难度。

为了在嵌入式设备有限的内存空间内实现图像处理，相关技术借鉴了mobilenet、lenet等轻量化深度学习网络框架，然而，这些框架所需内存对于内存较小的嵌入式设备来说依旧较高。

发明内容

本发明的目的之一在于提供适用于边缘设备的神经网络模型、图像识别方法及装置，以解决背景技术中提出的嵌入式设备内存小、数据处理速度慢导致图像处理困难的问题。

为实现上述目的，本发明提供技术方案如下：

一种适用于边缘设备的神经网络模型，包括依次串联的初始卷积单元、呼吸模块及全连接层；所述初始卷积单元包括有至少一初始卷积层；所述呼吸模块包括至少一呼吸单元，呼吸单元间依次配合设置，所述呼吸单元包括第一呼吸卷积层、第二呼吸卷积层及激活层；其中，

所述第一呼吸卷积层和第二呼吸卷积层依次串联，所述第一呼吸卷积层的卷积核数被配置为小于所述呼吸单元的输入数据的通道数；激活层配合设置在第二呼吸卷积层之后。

优选地，在所述呼吸单元中，所述第二呼吸卷积层和激活层间设置有批量归一化层，所述批量归一化层被配置为将数据分布标准化成均值为0且方差为1。

优选地，所述呼吸单元还包括丢弃层，丢弃层设置在激活层之后，所述丢弃层被配置为丢弃预设比例的数据信息。

优选地，所述呼吸单元还包括池化层，所述池化层设置在第二呼吸卷积层和激活层之间或者激活层之后。

优选地，所述呼吸模块中，任意相邻呼吸单元间设置有中间卷积单元，所述中间卷积单元包括有至少一中间卷积层。

一种图像识别方法，包括以下步骤：

在所述的适用于边缘设备的神经网络模型后连接输出单元，得到图像识别模型；

若图像识别为分类问题，则输出单元包括依次连接的激活层softmax和分类层；若图像识别为回归问题，则输出单元包括回归层；

将图像数据输入到训练后的图像识别模型中获得图像识别结果。

优选地，所述图像识别方法包括：

获取多个指针表图像和所述多个指针表图像相应的多个指针表读数；

将所述多个指针表图像和所述多个指针表读数输入到所述的图像识别模型中进行训练，得到训练后的图像识别模型；

将待识别的指针表图像输入到所述训练后的图像识别模型中，获得所述待识别的指针表图像相应的指针表读数预测值。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的图像识别方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的图像识别方法。

一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现所述的图像识别方法。

与现有技术相比，本发明的有益效果为：

本发明的适用于边缘设备的神经网络模型通过设置呼吸单元，有较小的Featuremap，减少了需要学习的参数量，同时降低了内存要求，能够用在小内存空间的嵌入式设备中；另外通过使用常用算子，易于各类推理框架使用，在较深的网络结构中也能得到较好的结果；框架灵活度较高，可根据实际需求灵活解决图像处理中的分类问题和回归问题。

附图说明

图1为本发明的适用于边缘设备的神经网络模型的结构示意图。

图2为本发明实施例的适用于边缘设备的神经网络模型的具体网络结构示意图。

图3为回归问题下图2的适用于边缘设备的神经网络模型的网络参数示意图。

图4为分类问题下图2的适用于边缘设备的神经网络模型的网络参数示意图。

图5为指针表图像示例。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

参照图1所示，一种适用于边缘设备的神经网络模型，包括依次串联的初始卷积单元、呼吸模块及全连接层；所述初始卷积单元包括有至少一初始卷积层；所述呼吸模块包括至少一呼吸单元，呼吸单元间依次配合设置，所述呼吸单元包括第一呼吸卷积层、第二呼吸卷积层及激活层；其中，所述第一呼吸卷积层和第二呼吸卷积层依次串联，所述第一呼吸卷积层的卷积核数被配置为小于所述呼吸单元的输入数据的通道数；激活层配合设置在第二呼吸卷积层之后。

该神经网络模型中，原始输入图像作为初始卷积单元的输入，初始卷积单元的输出作为呼吸模块的输入，呼吸模块的输入则作为全连接层的输入，最后获得全连接层的输出结果。该初始卷积单元中，至少有一个初始卷积层，该初始卷积层用于提取原始输入图像的特征，一般情况下，该初始卷积层的卷积核数大于原始输入图像的通道数，也就是大于3(原始输入图像的通道数)，从而使得该初始卷积层的输出通道数大于3。当然，该初始卷积单元中，包括但不限于初始卷积层，还可以设置批量归一化层、激活层relu、池化层等，本领域技术人员可根据实际情况自行设置。

该呼吸单元中，第一呼吸卷积层和第二呼吸卷积层可以是现有技术中任意一种用于提取图片特征的卷积层。通过第一呼吸卷积层和第二呼吸卷积层这两个连续的卷积层，能够提取到适当深度的图像特征，并且第一层呼吸卷积层通过使用更少的卷积核数(卷积核数决定输出数据的通道数，输出数据的通道数即为feature map的个数)有效的降低了feature map的大小，从而降低参数量，降低模型的内存。

一般情况下，第二呼吸卷积层的卷积核数会被设置为大于第一呼吸卷积层的卷积核数，从而提取更多的特征，当然第二呼吸卷积层也可以被设置为小于或等于第一呼吸卷积层的卷积核数，本领域技术人员可根据实际情况自行设置。

该呼吸单元中，所述激活层为ReLu激活函数。通过设置ReLu激活函数，能够更加有效率的梯度下降以及反向传播：避免了梯度爆炸和梯度消失问题；且该模型中未设置诸如指数函数等其它复杂的激活函数，同时降低神经网络整体计算成本。

该呼吸模块中，当仅有1个呼吸单元时，该呼吸单元的输出就直接作为全连接层的输入，而当呼吸单元有2个以上时，呼吸单元构建的呼吸模块呈串接的形式。

进一步地，所述呼吸单元中还可以包括批量归一化层、丢弃层、池化层中的一层或多层。

所述批量归一化层被配置为将数据分布标准化成均值为0且方差为1。批量归一化层优选设置在第二呼吸卷积层之后，批量归一化层之后连接Relu激活函数，使用批量归一化层对数据标准化使其服从相同的分布，提升模型的泛化能力、加速模型收敛速度。

所述丢弃层被配置为丢弃预设比例的数据信息。丢弃层优选设置在激活层Relu激活函数之后。丢弃层优选50％丢弃率，能够一定程度降低模型复杂度和避免过拟合，从而训练得到更优的模型，提升模型识别精度。

所述池化层包括平均池化层或最大池化层。池化层能够降低特征维度，即featuremap的维度，减少参数，降低计算量，保持图片旋转、平移、伸缩等不变性。池化层优选设置在激活层之后或者第二呼吸卷积层和激活层之间；当第二呼吸卷积层和激活层之间设有批量归一化层时，池化层优选设置在第二呼吸卷积层和批量归一化层之间，当激活层之后连接有丢弃层时，池化层优选设置在丢弃层之后。

这里需要注意的是，批量归一化层、丢弃层、池化层的具体位置设置为本领域常规技术手段，可由本领域技术人员根据实际情况自行设置。

进一步的，所述呼吸模块中，任意相邻呼吸单元间设置有中间卷积单元，所述中间卷积单元包括有至少一中间卷积层。

本发明中，通过在两呼吸单元间设置中间卷积单元，使得提取的特征更丰富，从而提高预测的准确性。这里需要注意的是，并不是所有相邻的呼吸单元间都一定需要设置中间卷积单元，本领域技术人员可根据实际情况在任意两个相邻的呼吸单元间设置中间卷积单元。该中间卷积单元中的中间卷积层可以为现有技术中的任意一种卷积层，且该中间卷积层的卷积核大于或等于该中间卷积层的输入数据的通道数。该中间卷积单元中，可以有多个中间卷积层，当然也可以有除中间卷积层以外的其他层，如批量归一化层、激活层、池化层等。

图2示出了本发明实施例的神经网络模型结构(即simplenet网络模型)，参照图2所示，该神经网络模型包括依次串联的初始卷积单元、呼吸模块及全连接层。

本实施例中，待输入的图像大小被设定为160x120x3，宽度为160，高度为120，深度为3。

该初始卷积单元包括依次串联的第一卷积层conv_1、第二卷积层conv_2、第一批量归一化层BatchNorm_1及第一激活层Relu_1。本实施例中，第一卷积层conv_1的卷积核大小为5x5(决定输出层特征尺寸)，卷积核通道数：3，卷积核个数：4(决定输出通道数)。第二卷积层conv_2的卷积核大小为5x5，卷积核通道数：4，卷积核个数：8。这里，由于待输入的图像的通道数为3，因此设定第一卷积层conv_1的卷积核个数为4，从而使输出通道数大于3。参照图3和图4所示，输入的图像经第一卷积层conv_1输出的图像大小为160x120x4，该第一卷积层conv_1的可学习参数总数为304；经第二卷积层conv_2输出的图像大小为160x120x8，该第二卷积层conv_2的可学习参数总数为808；经第一批量归一化层BatchNorm_1输出的图像大小为160x120x8，该第一批量归一化层BatchNorm_1的可学习参数总数为16；经第一激活层Relu_1输出的图像大小为160x120x8，该第一激活层Relu_1的可学习参数总数为0。

该呼吸模块包括6个依次连接的呼吸单元，第2个呼吸单元和第3个呼吸单元间连接有1个中间卷积单元，同时第4个呼吸单元和第5个呼吸单元间也连接有1个中间卷积单元。

第1个呼吸单元包括依次串联的第三卷积层conv_3、第四卷积层conv_4、第二批量归一化层BatchNorm_2、第二激活层Relu_2及第一平均池化层AvgPool2d_1。本实施例中，第三卷积层conv_3的卷积核大小为5x5，卷积核通道数：8，卷积核个数：4。第四卷积层conv_4的卷积核大小为5x5，卷积核通道数：4，卷积核个数：8。这里，由于经第一卷积单元输出的图像的通道数为8，而该图像作为第1个呼吸单元的输入图像，将第三卷积层conv4的卷积核个数设置为4，有效的降低了feature map的大小。

第2个呼吸单元包括依次串联的第五卷积层conv_5、第六卷积层conv_6、第三批量归一化层BatchNorm_3、第三激活层Relu_3、第一丢弃层Dropout_1及第二平均池化层AvgPool2d_2。本实施例中，第五卷积层conv_5的卷积核大小为5x5，卷积核通道数：8，卷积核个数：4。第六卷积层conv_6的卷积核大小为5x5，卷积核通道数：4，卷积核个数：8。

设置在第2个呼吸单元和第3个呼吸单元间的中间卷积单元包括依次串联的第七卷积层conv_7、第八卷积层conv_8、第四批量归一化层BatchNorm_4、第四激活层Relu_4及第三平均池化层AvgPool2d_3。本实施例中，第七卷积层conv_7的卷积核大小为5x5，卷积核通道数：8，卷积核个数：8。第八卷积层conv_8的卷积核大小为5x5，卷积核通道数：8，卷积核个数：16。

第3个呼吸单元包括依次串联的第九卷积层conv_9、第十卷积层conv_10、第五批量归一化层BatchNorm_5、第五激活层Relu_5及第四平均池化层AvgPool2d_4。本实施例中，第九卷积层conv_9的卷积核大小为5x5，卷积核通道数：16，卷积核个数：8。第十卷积层conv_10的卷积核大小为5x5，卷积核通道数：8，卷积核个数：16。

第4个呼吸单元包括依次串联的第十一卷积层conv_11、第十二卷积层conv_12、第六批量归一化层BatchNorm_6、第六激活层Relu_6、第二丢弃层Dropout_2及第五平均池化层AvgPool2d_5。本实施例中，第十一卷积层conv_11的卷积核大小为5x5，卷积核通道数：16，卷积核个数：8。第十二卷积层conv_12的卷积核大小为5x5，卷积核通道数：8，卷积核个数：16。该第二丢弃层Dropout_2丢弃50％的冗余神经元。

设置在第4个呼吸单元和第5个呼吸单元的中间卷积单元包括依次串联的第十三卷积层conv_13、第十四卷积层conv_14、第七批量归一化层BatchNorm_7、第七激活层Relu_7及第六平均池化层AvgPool2d_6。本实施例中，第十三卷积层conv_13的卷积核大小为5x5，卷积核通道数：16，卷积核个数：16。第十四卷积层conv_14的卷积核大小为5x5，卷积核通道数：16，卷积核个数：32。

第5个呼吸单元包括依次串联的第十五卷积层conv_15、第十六卷积层conv_16、第八批量归一化层BatchNorm_8及第八激活层Relu_8。本实施例中，第十五卷积层conv_15的卷积核大小为5x5，卷积核通道数：32，卷积核个数：16。第十六卷积层conv_16的卷积核大小为5x5，卷积核通道数：16，卷积核个数：32。

第6个呼吸单元包括第十七卷积层conv_17、第十八卷积层conv_18、第九激活层Relu_9、第三丢弃层Dropout_3、全连接层fc和回归输出层。本实施例中，第十七卷积层conv_17的卷积核大小为5x5，卷积核通道数：32，卷积核个数：16。第十八卷积层conv_18的卷积核大小为5x5，卷积核通道数：16，卷积核个数：32。第三丢弃层Dropout_3丢弃20％的冗余神经元。

在上述实施例中，使用5x5大小的卷积核相较于相关技术中使用3x3大小的卷积核，能够更好的捕捉图像特征信息，提升准确度；另外，第一卷积层conv_1至第十八卷积层conv_18中卷积核的个数并未采用单调递增的形式，而是动态缩放的，比如，第一卷积层的卷积核数为4，第二卷积层的卷积核数扩大到8，第三卷积层的卷积和数又再次减小到4，缩放的方式有效的降低了feature map的大小，减少参数学习量，从而减少计算时间，提升计算效率。

本发明公开了一种图像识别方法，该图像识别方法使用图像识别模型进行图像识别，该图像识别模型由该适用于边缘设备的神经网络模型和输出单元组成，输出单元设置在该适用于边缘设备的神经网络模型之后，具体来说全连接层之后连接输出单元。参照图3和图4，当该图像识别为分类问题时，全连接层fc之后依次连接Softmax激活函数及分类层；当遇到回归问题时，全连接层fc之后连接回归层mae。该图像识别方法为将图像数据输入到训练后的图像识别模型中，获得图像识别结果。

举例来说，将图2中的simplenet网络模型应用于指针表图像的读数识别中，则在该simplenet网络模型中的全连接层fc之后连接回归层mae，形成图像识别模型，具体参照图3所示；基于该图像识别模型进行指针表图像的读数识别包括以下步骤：

(1-1)获取多个指针表图像和所述多个指针表图像相应的多个指针表读数；将指针表图像和对应的指针表读数作为一个样本，构建由多个样本组成的样本集；这里需要注意的是，指针表读数为指针表归一化读数。

(1-2)通过样本集进行训练：将多个样本输入到该图2和图3所示的图像识别模型中进行训练，得到训练后的图像识别模型。

(1-3)将待识别的指针表图像输入到所述训练后的图像识别模型中，获得所述待识别的指针表图像相应的指针表读数预测值，该预测值为归一化读数。

本实施例中，呼吸模块中的呼吸单元和中间卷积单元内设置的池化层优选平均池化层，平均池化层相较于最大池化层能够更多的保留指针表图片的信息，更加适用于指针表读数识别。

本实施例中，图像识别模型采用L1正则项的目标函数计算梯度，从而进行图像识别模型的训练，L1对噪音的鲁棒性优于L2正则项，更适用于指针表读数识别。

本实施例中，

这里.初始读数定义为指针表左边的读数，一般为指针表的最小值；终止读数定义为指针表右边的读数，一般为指针表的最大值；当然，终止读数不一定要大于初始读数，本领域技术人员可根据实际情况自行设置。

例如，使用图2及图3中的网络结构对图5中的指针表图像进行归一化数值读取，图5(a)的计算结果：归一化读数为0.1698，转化为读数20.4，实际读数约为19.5；图5(b)的计算结果：归一化读数为0.3325，转化为读数66.5，实际读数约为67.5。

为了验证本发明实施例的神经网络模型simplenet，使用simplenet和mobilenetv2_small_035(035指mobilenet的深度因子为0.35)进行对比，对比结果如下：

首先，从模型的大小来看，模型大小simplenet的模型大小为370kB，mobilenetv2_small_035为1540kB，因此可见simp lennet更加轻量化有明显优势。

其次，使用指针表数据集在arm芯片上使用arm compute library进行推理，对模型的性能进行了对比试验，具体地，在4000张图片上训练，在377张图片上测试，测试结果如下所示，其中MAE为平均绝对误差，RMSE为均方根误差，3％-acc为绝对误差在3％以内的统计为准确的准确率；所有结果以归一化读数计算。

由上面的测试结果可知，simplenet的效果优于mobilenet。

通过上述对比得以验证本发明的深度学习网络模型：Simplenet相较于mobilenet进一步降低了对于内存的要求，提升了识别准确率。

作为本发明实施例的另一个方面，本发明方法可通过计算机可读介质来实现，存储有计算机可执行指令，即本发明方法所对应的程序指令，所述计算机可执行指令用于执行以上图1-4所示及对应实施例所述的方法，即该神经网络模型和图像识别方法，并可将所述计算机可执行指令植入安全存储芯片中。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本发明还披露了一种计算设备。计算设备以通用计算设备的形式表现。计算设备的组件可以包括但不限于：至少一个处理器、至少一个存储器、连接不同系统组件(包括存储器和处理器)的总线。

方法的流程在一些可能的实施方式中，本申请提供的图像识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

Claims

1.一种适用于边缘设备的神经网络模型，其特征在于，包括依次串联的初始卷积单元、呼吸模块及全连接层；所述初始卷积单元包括有至少一初始卷积层；所述呼吸模块包括至少一呼吸单元，呼吸单元间依次配合设置，所述呼吸单元包括第一呼吸卷积层、第二呼吸卷积层及激活层；其中，

2.如权利要求1所述的一种适用于边缘设备的神经网络模型，其特征在于，在所述呼吸单元中，所述第二呼吸卷积层和激活层间设置有批量归一化层，所述批量归一化层被配置为将数据分布标准化成均值为0且方差为1。

3.如权利要求1所述的一种适用于边缘设备的神经网络模型，其特征在于，所述呼吸单元还包括丢弃层，丢弃层设置在激活层之后，所述丢弃层被配置为丢弃预设比例的数据信息。

4.如权利要求1所述的一种适用于边缘设备的神经网络模型，其特征在于，所述呼吸单元还包括池化层，所述池化层设置在第二呼吸卷积层和激活层之间或者激活层之后。

5.如权利要求1所述的一种适用于边缘设备的神经网络模型，其特征在于，所述呼吸模块中，任意相邻呼吸单元间设置有中间卷积单元，所述中间卷积单元包括有至少一中间卷积层。

6.一种图像识别方法，其特征在于，包括以下步骤：

在权利要求1-5任一项所述的适用于边缘设备的神经网络模型后连接输出单元，得到图像识别模型；

7.如权利要求6所述的一种图像识别方法，其特征在于，所述图像识别方法包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求6至7中任一项所述的图像识别方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求6至7中任一项所述的图像识别方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求6至7中任一项所述的图像识别方法。