CN109543744A

CN109543744A - 一种基于龙芯派的多类别深度学习图像识别方法及其应用

Info

Publication number: CN109543744A
Application number: CN201811374115.1A
Authority: CN
Inventors: 赵静; 王弦; 谢非; 牛友臣
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-03-29
Anticipated expiration: 2038-11-19
Also published as: CN109543744B

Abstract

本发明提出了一种基于龙芯派的多类别深度学习图像识别方法，该方法包括以下步骤：获取待识别类别的图像数据集；在计算机平台下搭建AlexNet网络模型，并利用图像数据集训练AlexNet网络模型，以得到训练参数；在龙芯派平台下实现多类别深度学习图像识别程序；设计图形用户界面，实现由用户选取待识别图像，自动显示目标图像所属类别。本发明利用了深度学习在图像识别领域的优势，可在龙芯2K1000平台下实现100类日常生活中常见对象的自动分类，具有出色的识别准确率和识别速度，应用前景广泛。

Description

一种基于龙芯派的多类别深度学习图像识别方法及其应用

技术领域

本发明涉及一种基于龙芯派的多类别深度学习图像识别方法及其应用，属于嵌入式图像处理技术领域。

背景技术

随着图像处理技术的不断发展，图像识别在各个领域得到了广泛的应用。在工业领域，智能机器人、工业机械臂的运作依赖机器视觉对3D图像进行理解与识别，大大提高了工业生产的效率；在医疗领域，图像识别技术可用于辅助临床诊断和病理研究；在安防领域，人脸识别、指纹识别的应用在保证了安全的前提下，给生活带来了便捷；在环境监测领域，遥感技术与图像处理的结合，常用于地形地质探查，森林、水利、海洋、农业等资源调查和灾害预测。

目前，在计算机平台下图像识别的方法与应用研究取得了丰硕的成果，但是基于国产芯片以及嵌入式平台的图像识别的研究成果却很少。传统的图像识别算法仅在识别简单图像时比较有效，且仅可识别少量特定对象，相较之下神经网络在识别此类对象时具有明显优势。此外，采用多层神经网络的深度学习方法具有较大的计算量，在国产芯片以及嵌入式设备下的处理速度过慢。因此，为了在龙芯派平台下处理多类别复杂图像，并且保证良好的识别率和识别速度，本发明提出了一种多类别深度学习图像识别方法与应用程序。

发明内容

本发明所要解决的技术问题是针对传统图像识别算法在可识别对象数量、对象背景单一的局限性以及深度学习方法过于依赖高性能处理器的缺陷，克服上述现有技术的不足而提供一种基于龙芯派的多类别深度学习图像识别方法及其应用。

本发明提供一种基于龙芯派的多类别深度学习图像识别方法，包括以下步骤：

步骤S1、获取待识别类别的图像数据集；

步骤S2、在计算机平台下搭建AlexNet网络模型，并利用图像数据集训练AlexNet网络模型，以得到训练参数；

步骤S3、在龙芯派平台下实现多类别深度学习图像识别程序；

步骤S4、设计图形用户界面，实现由用户选取待识别图像，自动显示目标图像所属类别。

作为本发明的进一步技术方案，在步骤S1中，图像数据集包括训练集和测试集；对大规模的训练集进行二次整理，筛选出200类对象(涉及生活用品、动植物、交通工具等)，每类对象100张图片。此外，每一类对象都包含该对象不同形态、角度、清晰度的图片，并且考虑到单一对象和处于不同背景下的对象。建立txt格式文本，对每一类对象添加相应标签信息。

步骤S2中，在Caffe深度学习框架下，利用图像数据集训练网络模型的方法如下：

S201、图像预处理，通过大小归一化处理，将步骤S2所获取的图像数据集中所有图像都归一化为256*256的大小(如果图像数据集中有长方形的图像，先将短边长度改为256，再裁剪图片中心对应大小的部分)，并且对每张图像进行减均值处理；

S202、在caffe深度学习框架下建立初始AlexNet网络模型，设定网络模型为8层，前5层为卷积层，分别记为Conv1、Conv2、Conv3、Conv4、Conv5，用于提取图像特征，后三层为全连接层，分别记为Conv6、Conv7、Conv8，用于综合前面所提取到的特征，进行逻辑推断。在卷积层Conv1与Conv2、卷积层Conv2与Conv3、卷积层Conv5与全连接层Conv6之间设立池化层，采用3*3池化窗口的最大池化方法，池化层的步长为2，池化层用于融合特征并且对图像进行降维。AlexNet网络模型采用的激活函数均为ReLU函数，其表达式为：

f(x)＝max(0,x)

其中，x在卷积层中代表RGB某个通道的某个像素，在全连接层中代表某个神经元的输出值；

S203、训练AlexNet网络模型，将预处理过的图像数据输入到所建立的AlexNet网络模型中进行训练，在训练过程中，该网络模型的结构参数不断优化，最终训练参数被保存为二进制文件。

在步骤S201中，减均值处理的具体方法为将每张图像的每个像素减去图像数据集所有图像的像素平均值；在步骤S203中，训练参数设定为:迭代5000次，batch_size＝256，基础学习率设为0.001，学习参数weight_decay＝0.0005,momentum＝0.9，采用step算法，每1000次迭代衰减一次，Momentum值为0.9,每1000次迭代输出一个snapshot。

在步骤S3中，所采用的龙芯派平台以龙芯2K1000芯片为处理器，该处理器为双核64位处理器，主频为1GHz，峰值运算速度为8Gflops，配备USB闪存盘作为存储设备，LCD显示屏作为输出设备。平台搭载的操作系统为基于Fedora内核的loongnix系统。

步骤S3中，龙芯派下的图像识别程序包括以下步骤：

S301、搭建AlexNet网络模型，从prototxt类型文件读取网络基本结构，从caffemodel类型文件读取训练参数，得到AlexNet网络模型，AlexNet网络模型具有5层用来对图像进行特征提取的卷积层以及3层对提取到的特征进行融合的全连接层；

S302、主函数从指定系统文件夹位置读取图像文件，图像文件为任意图像格式，通过OpenCv环境下的imread函数，将输入图像转换成RGB数据的形式；

S303、利用AlexNet网络模型对图像数据进行处理，AlexNet网络模型中最后一层网络(即最后一层全连接层)通过softmax函数的输出为200维的向量，向量的各个分量值均在0-1之间；

S304、主函数读取AlexNet网络模型的输出和标签文件，匹配输出向量值最大的分量所对应的标签，并输出标签文件信息；

S305、利用Qt环境的widget方法组合各个控件，形成图形用户界面，实现选取文件夹、选取图片到识别结果显示的可视化过程。

在步骤S301中，所建立的AlexNet网络模型中卷积层之间设立池化层，且该池化层采用3*3池化窗口的最大池化方法，池化层的步长为2；在步骤S303中，最后一层全连接层通过softmax分类器处理后输出，输出大小为1*1*100,代表100类可识别对象。

本发明还提供了一种基于龙芯派的多类别深度学习图像识别方法的应用，包括基于龙芯派的多类别深度学习图像识别方法的应用程序，该程序使用动态编译的方法将运行所需相关库进行打包，该程序不仅能在本发明所使用的龙芯派平台下运行，并且能够移植到其他嵌入式平台以及计算机平台下。

进一步的，所述应用程序在龙芯派上使用并该应用完成图像识别时，平均识别率在95％以上，平均识别速度为3s。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)将深度学习的方法应用到龙芯派上，本发明所设计的多类别深度学习图像识别方法，将训练与识别过程分开，不依赖处理器的高性能，在各种平台下都能完美适用；

(2)本发明所设计的基于龙芯派的多类别深度学习图像识应用程序可识别100类不同对象，且能准确区分相似度很高的对象，不受对象环境影响；此外，在保证高识别率和多识别类别的情况下，仍能将识别时间控制在3s左右；

(3)本发明所设计的基于龙芯派的多类别深度学习图像识别方法具有可扩展性，遵循相同设计步骤，通过修改网络结构、重新训练参数，能够快速完成基于龙芯派的图像处理领域的方法和应用。

本发明利用了深度学习在图像识别领域的优势，可在龙芯2K1000平台下实现100类日常生活中常见对象的自动分类，具有出色的识别准确率和识别速度，应用前景广泛。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明中基于深度学习的图像识别方法的流程图。

图2为本发明中对应的龙芯派平台下多类别深度学习图像识别程序实现的流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本实施例提出了一种基于龙芯派的多类别深度学习图像识别方法，包括以下步骤：

步骤S1，从ImageNet上下载待识别类别的图像数据集，图像数据集包括训练集和测试集。对大规模的训练集进行二次整理，筛选出200类对象(涉及生活用品、动植物、交通工具等)，每类对象100张图片。此外，每一类对象都包含该对象不同形态、角度、清晰度的图片，并且考虑到单一对象和处于不同背景下的对象。建立txt格式文本，对每一类对象添加相应标签信息。

步骤S2，在计算机平台下搭建AlexNet网络模型，并在Caffe框架下利用归一化处理后的图像数据集训练AlexNet网络模型，保存训练后得到的网络模型训练参数。该步骤在装有Caffe深度学习框架的计算机上进行，具体方法如下：

S201、为了提高后续训练的精读与速度，需要对图像数据集中的图像进行预处理，图像通过大小归一化处理，将步骤S2所获取的图像数据集中所有图像都归一化为256*256的大小(如果图像数据集中有长方形的图像，先将短边长度改为256，再裁剪图片中心对应大小的部分)，使用“convert-resize 256*256”命令完成。需要用脚本文件将图像数据转换为leveldb格式数据。

对每张图像进行减均值处理：每张图像的每个像素减去图像数据集所有图像的像素平均值。图像像素均值可由脚本文件生成。

当图像数据集比较小的时候，可通过数据增强人为扩大数据集，即从256*256大小的图像中随机提取5个224*224大小的图像碎片，使用这些图像碎片以及它们的水平翻转图像用来训练。

f(x)＝max(0,x)

其中，x在卷积层中代表RGB某个通道的某个像素，在全连接层中代表某个神经元的输出值。最后一层全连接层Conv8的输出连接softmax层，网络最终的输出大小为1*1*200，对应200类对象。

该过程在caffe框架下的具体操作为：修改solver.protoxt文件和net.prototxt文件中对应信息，前者存放求解器的信息，包括迭代次数、每次迭代训练的图片数等，后者存放网络结构信息，包括模型层数、各层的结构和属性等。

S203、训练AlexNet网络模型，将预处理过的图像数据输入到所建立的AlexNet网络模型中进行训练，在训练过程中，该网络模型的结构参数不断优化，最终训练参数被保存在一个caffemodel类型文件中。训练参数设定为:迭代5000次，batch_size＝256，基础学习率设为0.001，学习参数weight_decay＝0.0005,momentum＝0.9，采用step算法，每1000次迭代衰减一次，Momentum值为0.9,每1000次迭代输出一个snapshot。

步骤S3，在龙芯派平台下利用训练参数搭建网络模型，实现多类别深度学习图像识别程序，读取到待识别图像，经过网络处理获取图像分类信息。所采用的龙芯派平台以龙芯2K1000芯片为处理器，该处理器为双核64位处理器，主频为1GHz，峰值运算速度为8Gflops，配备USB闪存盘作为存储设备，LCD显示屏作为输出设备。平台搭载的操作系统为loongnix系统，loongnix系统是龙芯开源社区推出的Linux操作系统，基于Fedora21内核。

龙芯派下的图像识别程序包括以下步骤：

S301、搭建AlexNet网络模型，从prototxt类型文件读取网络基本结构，从caffemodel类型文件读取训练参数，得到AlexNet网络模型，AlexNet网络模型具有5层用来对图像进行特征提取的卷积层以及3层对提取到的特征进行融合的全连接层；所建立的AlexNet网络模型中卷积层之间设立池化层，且该池化层采用3*3池化窗口的最大池化方法，池化层的步长为2；在步骤S303中，最后一层全连接层通过softmax分类器处理后输出，输出大小为1*1*100,代表100类可识别对象；

步骤S4，设计图形用户界面，实现由用户选取待识别图像，自动显示目标图像所属类别，即实现选取文件夹、选取图像、识别、窗口显示识别结果这一系列过程。

本实施例的测试结果说明：

1.本发明所设计的图像识别方法和应用能有效识别多类对象，比如4张测试图像涉及种类有家电、植物、自然景观。

2.对具有相似特征的对象进行测试，结果表明不论是不同种类的犬类还是不同种类的汽车，本发明都能准确识别对象的具体分类。可以得知，即便常人难以区分的拉布拉多和哈士奇，本发明也能完美完成识别任务。

3.对不同形态的北极熊图像进行测试，经测试，角度、形态、背景并没有影响识别效果。

综上所述，本发明具有普适性和有效性，对不同种类对象，具有相似特征的不同对象以及具有不同形态、背景、角度的同类对象识别率均在95％以上。此外，本设计的测试结果均在3s内显示，具有出色的识别速度。

本实施例还提供了一种包含上述基于龙芯派的多类别深度学习图像识别方法的应用程序，该程序使用动态编译的方法将运行所需相关库进行打包，该程序不仅能在本发明所使用的龙芯派平台下运行，并且能够移植到其他嵌入式平台以及计算机平台下。该应用程序在龙芯派上使用并该应用完成图像识别时，平均识别率在95％以上，平均识别速度为3s左右。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，包括以下步骤：

步骤S1、获取待识别类别的图像数据集；

2.根据权利要求1所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，在步骤S1中，图像数据集包括训练集和测试集；对大规模的训练集进行二次整理，筛选出200类对象，每类对象100张图片。

3.根据权利要求2所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，步骤S2中，在Caffe深度学习框架下，利用图像数据集训练网络模型的方法如下：

S201、图像预处理，通过大小归一化处理，将步骤S2所获取的图像数据集中所有图像都归一化为256*256的大小，并且对每张图像进行减均值处理；

S202、在caffe深度学习框架下建立初始AlexNet网络模型，设定网络模型为8层，前5层为卷积层，分别记为Conv1、Conv2、Conv3、Conv4、Conv5，后三层为全连接层，分别记为Conv6、Conv7、Conv8，在卷积层Conv1与Conv2、卷积层Conv2与Conv3、卷积层Conv5与全连接层Conv6之间设立池化层，AlexNet网络模型采用的激活函数均为ReLU函数，其表达式为：

f(x)＝max(0,x)

4.根据权利要求3所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，在步骤S201中，减均值处理的具体方法为将每张图像的每个像素减去图像数据集所有图像的像素平均值；在步骤S203中，训练参数设定为:迭代5000次，batch_size＝256，基础学习率设为0.001，学习参数weight_decay＝0.0005,momentum＝0.9，采用step算法，每1000次迭代衰减一次，Momentum值为0.9,每1000次迭代输出一个snapshot。

5.根据权利要求4所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，在步骤S3中，所采用的龙芯派平台以龙芯2K1000芯片为处理器，该处理器为双核64位处理器，主频为1GHz，峰值运算速度为8Gflops，平台搭载的操作系统为基于Fedora内核的loongnix系统。

6.根据权利要求5所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，步骤S3中，龙芯派下的图像识别程序包括以下步骤：

S303、利用AlexNet网络模型对图像数据进行处理，AlexNet网络模型中最后一层网络通过softmax函数的输出为200维的向量，向量的各个分量值均在0-1之间；

7.根据权利要求6所述一种基于龙芯派的多类别深度学习图像识别方法，其特征在于，在步骤S301中，所建立的AlexNet网络模型中卷积层之间设立池化层，且该池化层采用3*3池化窗口的最大池化方法，池化层的步长为2；在步骤S303中，最后一层全连接层通过softmax分类器处理后输出，输出大小为1*1*100,代表100类可识别对象。

8.权利要求1至7任一项所述一种基于龙芯派的多类别深度学习图像识别方法的应用，其特征在于，包括基于龙芯派的多类别深度学习图像识别方法的应用程序，该程序使用动态编译的方法将运行所需相关库进行打包，该程序不仅能在龙芯派平台下运行，并且能够移植到其他嵌入式平台以及计算机平台下。

9.根据权利要求8所述一种基于龙芯派的多类别深度学习图像识别方法的应用，其特征在于，所述应用程序在龙芯派上使用并该应用完成图像识别时，平均识别率在95％以上，平均识别速度为3s。