CN113221908B

CN113221908B - 一种基于深度卷积神经网络的数字识别方法及设备

Info

Publication number: CN113221908B
Application number: CN202110622917.5A
Authority: CN
Inventors: 魏文应; 张世雄; 李楠楠; 傅弘; 龙仕强; 陈智敏
Original assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Guangdong Bohua Ultra Hd Innovation Center Co ltd; Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2024-04-16
Anticipated expiration: 2041-06-04
Also published as: CN113221908A

Abstract

基于深度卷积神经网络的数字识别的方法，包括：算法模型设计：对标准目标检测模型算法进行结构调整，减少深度卷积神经网络的层数、通道数、宽度，以减少计算量；算法模型训练：深度卷积神经网络在使用前，需要对深度卷积神经网络进行训练；算法模型转换：算法模型训练好后，对算法模型进行格式变换、模型量化、算子替换转换操作，让算法模型在单片机上运行；以及算法模型移植：算法模型转换后，将算法模型文件烧录到单片机中，单片机运行的深度卷积神经网络框架会加载并运行算法模型。本发明方法可以解决原有卷积神经网络数字识别算法无法在单片机设备运行的问题。

Description

一种基于深度卷积神经网络的数字识别方法及设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于深度卷积神经网络的数字识别的方法及设备。

背景技术

随着人工智能图像识别技术的发展，基于卷积神经网络的图像识别技术被应用于各个行业。其中，基于卷积神经网络的数字识别技术，被广泛应用，比如应用于车牌识别、银行卡号识别、工号识别等等。当前数字识别技术，大多以文本识别为主，即先进行文本检测，再进行数字识别的模型级联方式，进行数字识别。文本检测需要使用LSTM长短时记忆网络，该网络算子相对复杂，需要消耗大量芯片资源，因此难以在单片机设备上运行，比如主流的单片机神经网络框架(TensorFlow Lite Micro)，至今未对长短时记忆网络(LSTM)提供支持。这类算法需要硬件设备拥有充足的运算资源，即对芯片的算力和运行内存都有较高要求，因此，这类算法往往被运行在高端嵌入式设备、服务器、个人电脑等高性能设备中。而在现实的应用中，存在大量使用单片机的设备，这些单片机的计算能力和运行内存不足，难以运行标准的数字识别算法模型。同时，单片机设备上运行的算法，往往是针对特定环境条件下的固定应用，无需过于复杂的文本识别和多样的数字检测。

发明内容

本发明提供了一种基于深度卷积神经网络的数字识别的方法及设备，利用目标检测识别技术，将特定环境条件下的数字识别出来。本发明方法，可以在运算资源相对匮乏的单片机设备上运行，实现数字检测识别，而不需要高性能GPU和CPU，以此，解决原有卷积神经网络数字识别算法无法在单片机设备运行的问题。

本发明的技术方案如下：

根据本发明的一方面，提供了一种基于深度卷积神经网络的数字识别的方法，包括如下步骤：S1.算法模型设计：对标准目标检测模型算法进行结构调整，减少深度卷积神经网络的层数、通道数、宽度，以此减少计算量；S2.算法模型训练：深度卷积神经网络在使用前，需要使用数据集作为深度卷积神经网络的输入，对深度卷积神经网络进行训练；S3.算法模型转换：深度卷积神经网络训练好后，对深度卷积神经网络进行格式变换、模型量化、算子替换转换操作，让深度卷积神经网络在单片机上运行；以及S4.算法模型移植：深度卷积神经网络转换后，将深度卷积神经网络文件烧录到单片机中，单片机运行的深度卷积神经网络框架会加载并运行深度卷积神经网络。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S1中，采用目标检测识别算法，对数字进行识别。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S1中，改变部分算子，将算子替换为单片机神经网络框架支持的算子，在调整神经网络特征图的大小时，使用最小邻近法算子替代双线性插值法算子，以此让算法可以在单片机上运行。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S2中，数据集是特定应用场景下拍摄的图片以及特定字体格式的数字。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S2中，利用单片机实际应用场景的单一性，图片数据集包含的图片均为单一字体类型的数字，并且图片拍摄场景相对单一。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S4中，在单片机上，使用摄像头生成图片数据，将图片数据传给单片机的芯片，最终输入到模型算法中，最后输出数字识别结果。

优选的，在上述基于深度卷积神经网络的数字识别的方法中，在步骤S4中，将算法模型，使用相应的单片机神经网络框架加载，并使用C/C++语言实现前后处理部分的算法。

根据本发明的另一方面，还提供了一种基于深度卷积神经网络的数字识别的设备，包括：摄像头，用于拍摄需要进行数字识别的目标物体，得到图片，并将图片传回给单片机主控；检测区域，用于放置目标物体；以及单片机主控，其上运行有数字识别算法，可将图片中的数字识别出来。

根据本发明的技术方案，产生的有益效果是:

本发明的基于深度卷积神经网络的数字识别的方法，可以有效解决深度卷积神经网络数字识别算法，因计算量大而无法在单片机设备上运行的问题。在现有技术中，使用深度卷积神经网络进行数字识别，存在模型级联、过度通用化、模型过大、算子复杂等问题。本发明方法，根据单片机实际应用场景的单一性，去除文本检测模型，缩减模型结构，简化模型算子，使得模型算法可以在单片机平台设备上运行起来，最终实现单片机离线数字识别。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是本发明方法的大致流程图；

图2是本发明方法涉及的设备简图；以及

图3是本发明的算法模型设计的示意图。

具体实施方式

本发明的基于深度卷积神经网络的数字识别的方法原理是：使用基于深度卷积神经网络的目标检测算法，对特定环境条件下的图片进行数字检测识别，无需进行通用文本检测，进而实现卷积神经网络数字识别算法在单片机设备上运行。本发明方法利用单片机实际应用场景的单一性，对算法模型进行简化处理，实现卷积神经网络数字识别算法模型在单片机上运行，以此解决已有方法在单片机上运行神经网络数字识别时，因存在模型级联、过度通用化、模型过大、算子复杂而无法在单片机上运行模型算法的问题。

图1是本发明方法的大致流程图以及图2是本发明方法涉及的设备简图，其中，检测区域放置目标物体，这些目标物体可以是数字水表、银行卡、车牌等需要数字识别的物体；摄像头拍照后得到图片，将图片传回给单片机主控；单片机主控上运行有本发明的数字识别算法，可将图片中的数字识别出来。

如图1所示，本发明的基于深度卷积神经网络的数字识别的方法，包括步骤S1至S4，其中：

S1.算法模型设计：对标准目标检测模型算法，比如YOLO(you only look one)模型算法，进行结构调整，减少深度卷积神经网络的层数、通道数、宽度，以此减少计算量。改变部分算子，将算子替换为单片机神经网络框架支持的算子，比如在调整神经网络特征图的大小时，使用最小邻近法算子替代双线性插值法算子，以此让算法可以在单片机上运行。该步骤中，摒弃先检测文本、再识别数字的模型级联方式，而是采用目标检测识别算法(即，模型算法)，对数字进行识别。

如图3所示，是算法模型设计的示意图。普通数字识别模型，是高度通用的数字识别模型，可以识别各种字体、角度的数字，包括手写体数字。因此，普通数字识别模型，需要极为复杂的模型级联操作：先对图片(如图3所示)文本检测、再仿射变换矫正角度，再进行字符分割，最后通过自然语言处理将数字识别。如此模型级联、复杂的操作，算法在单片机上几乎无法运行起来。本发明方法针对单片机应用场景的单一性，直接采用目标检测算法，进行目标检测，得到对应的数字。这类目标检测算法有很多，比如YOLOv3、YOLOv4、SSD等。选取好标准模型之后，对标准模型进行适当改进，缩减模型大小，将模型消耗的芯片资源，控制在单片机支持的范围内即可，改进的方式有：减少神经网络的层数、通道数、宽度，以此减少模型参数，将模型大小从200M，降为了200K。此外，当前主流的单片机神经网络框架，如TensorFlow Lite Micro，只支持部分卷积神经网络算子，因此改变部分算子，将算子替换为单片机神经网络框架支持的算子，比如在调整神经网络特征图的大小时，使用最小邻近法算子替代双线性插值法算子，以此让算法可以在单片机上运行。

S2.算法模型训练：深度卷积神经网络(即，算法模型)，在使用前，需要使用数据集作为深度卷积神经网络的输入，对深度卷积神经网络进行训练。其中，数据集是特定应用场景下拍摄的图片，以及特定字体格式的数字。

在该步骤中，算法模型使用前，需要对模型进行针对性训练。在模型设计时，本发明方法中的模型大小只有200K左右，相比于标准目标检测模型的200M，模型参数锐减。模型参数大幅减少的后果，就是模型逻辑复杂的度不足，如果数字字体、大小、角度都变化，甚至存在手写体，则难以进行目标检测，从而导致无法进行数字识别，最终将模型误判为不可用。本发明方法根据单片机应用场景的单一性，即单片机应用的数字识别，往往是印刷体中的特定字体，大小和角度相对固定，针对这种情况，在步骤S1中使用目标检测算法替换一般的OCR光学字符识别算法，并在训练步骤中，使用带有大小、字体、角度单一的印刷体数字的图片，作为图片数据集进行训练，这样使得模型可以很好的收敛，而不至于因为数据集过于庞杂而无法收敛。

该步骤中，利用单片机实际应用场景的单一性，图片数据集包含的图片，均为单一字体类型的数字，并且图片拍摄场景相对单一。

S3.算法模型转换：算法模型(即，深度卷积神经网络)训练好后，对算法模型进行格式变换、模型量化、算子替换等转换操作，让深度卷积神经网络在单片机上运行。该步骤中，对模型进行格式变换、参数量化、模型替换等操作，以此让单片机相应的深度卷积神经网络框架支持该模型运行。

S4.算法模型移植：算法模型转换后，将算法模型文件烧录到单片机中，单片机运行的深度卷积神经网络框架会加载并运行算法模型。在单片机(即单片机平台设备)上，使用摄像头生成图片数据，将图片数据传给单片机芯片，最终输入到模型算法中，最后输出数字识别结果。将算法模型，使用相应的单片机神经网络框架加载，并使用C/C++语言实现前后处理部分的算法。

本发明的基于深度卷积神经网络的数字识别的方法，利用深度卷积神经网络，在单片机嵌入式设备上，进行离线数字识别。具体地，对摄像头采集的图片，进行检测识别，将图片中的数字识别出来。使用基于深度卷积神经网络的目标检测算法，针对某一特定环境条件优化，并将该算法运行在单片机设备上，从而解决旧有方法，难以使深度卷积神经网络数字识别算法在单片机设备上运行的问题。

以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于深度卷积神经网络的数字识别的方法，其特征在于，包括如下步骤：

S1. 算法模型设计：对标准目标检测模型算法进行结构调整，减少深度卷积神经网络的层数、通道数、宽度，以此减少计算量，

采用目标检测识别算法，对数字进行识别，

改变部分算子，将算子替换为单片机神经网络框架支持的算子，在调整神经网络特征图的大小时，使用最小邻近法算子替代双线性插值法算子，以此让算法可以在所述单片机上运行；

S2. 算法模型训练：所述深度卷积神经网络在使用前，需要使用数据集作为深度卷积神经网络的输入，对深度卷积神经网络进行训练，

在步骤S2中，利用单片机实际应用场景的单一性，图片数据集包含的图片均为单一字体类型的数字，并且图片拍摄场景相对单一；

S3. 算法模型转换：深度卷积神经网络训练好后，对深度卷积神经网络进行格式变换、模型量化、算子替换转换操作，让深度卷积神经网络在单片机上运行；以及

S4. 算法模型移植：深度卷积神经网络转换后，将深度卷积神经网络文件烧录到所述单片机中，所述单片机运行的深度卷积神经网络框架会加载并运行深度卷积神经网络。

2.根据权利要求1所述的基于深度卷积神经网络的数字识别的方法，其特征在于，在步骤S4中，在所述单片机上，使用摄像头生成图片数据，将图片数据传给所述单片机的芯片，最终输入到模型算法中，最后输出数字识别结果。

3.根据权利要求1所述的基于深度卷积神经网络的数字识别的方法，其特征在于，在步骤S4中，将算法模型，使用相应的单片机神经网络框架加载，并使用C/C++语言实现前后处理部分的算法。

4.一种基于深度卷积神经网络的数字识别的设备，其特征在于，包括：

摄像头，用于拍摄需要进行数字识别的目标物体，得到图片，并将所述图片传回给单片机主控；

检测区域，用于放置所述目标物体；以及

单片机主控，其上运行根据权利要求1-3任意一项有所述的基于深度卷积神经网络的数字识别的方法的数字识别算法，可将所述图片中的数字识别出来。