CN107463960A

CN107463960A - 一种图像识别方法及装置

Info

Publication number: CN107463960A
Application number: CN201710666233.9A
Authority: CN
Inventors: 石林星
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2017-12-12

Abstract

本发明实施例公开了一种图像识别方法及装置，应用于图像处理技术领域。所述方法包括多特征图深度学习的训练过程和使用训练好的深度学习模型进行图像识别的过程，所述使用训练好的深度学习模型进行图像识别过程。本发明应用图像的多种特征图来进行深度学习，提取更多量和更多元的特征，从而增强系统的鲁棒性，同时亦能提升识别率，并进一步应用MLP和SOFTMAX结合的方式强化分类器，来提升识别效果。

Description

一种图像识别方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像识别方法及装置。

背景技术

目前，在图像处理和模式识别领域，由手动人工特征和浅层的人工神经网络所获取的特征来进行分类和识别。在复杂环境条件下，这些浅层特征对识别来说是不够的。深层的神经网络即深度学习应运而生，已被大量应用到图像和模式识别领域。深度模型训练(即深度网络训练、深度学习系统训练)的基本流程简要描述如下。网络的每层参数基本都表示成(w，b)，其中w是权值参数，b是偏置参数，每层的输入输出关系是y＝wx+b，其中，x表示输入，y表示输出。各层连接起来就是一个嵌套关系，为简单计，假定总的参数为(W，B)，总的输入输出关系是Y＝F(X，W，B)。如果模型已训练好，即(W，B)已确定，则有输入X直接得到前向输出Y，就是所需的结果。如果模型还没训练好，即(W，B)没有确定，则先给(W，B)一个初始值(W0，B0)，得到训练样本的预测输出Y0＝F(X，W0，B0)，它与训练样本的标签即标定输出Ytrue存在很大的偏差。可以设置一个损失函数，比如说loss＝0.5*(Ytrue-Y0)^2，即预测输出和标签相差越远，则损失函数越大，这时进行误差反传来更新模型参数。每训练一次，就将参数(W，B)更新一次，其目的就是使得预测输出和标定输出的差值越来越小，经过很多训练样本的多次训练，当loss值小于一定的值时，就认为模型训练好了(即找到了合适的的(W，B)值)，训练过程结束。

由于目前这些深度学习系统的输入往往是灰度图或rgb图，其它各层的特征都要由此训练和学习得到，特征的冗余度和容错性不够，在复杂条件下可靠性低。同时，现有技术中，分类器一般选用SOFTMAX、SVM等，较为简单，分类精度不能达到最优，这些问题都有待进一步提高。

发明内容

本发明实施例的目的在于提供一种图像识别方法及装置，以精确和有效地对图片进行分类和识别。

为达到上述目的，本发明实施例公开了一种图像识别方法，所述方法包括多特征图深度学习的训练过程和使用训练好的深度学习模型进行图像识别的过程，其中，所述多特征图深度学习的训练过程包括以下步骤：

对训练样本集图片求取其灰度图；

对所述灰度图求取灰度图中每个像素点的特征构成的特征图，所述特征图包括：LBP特征图、梯度幅值特征图和梯度方向特征图；

设置深度卷积网络的各个网络层及分类器的初始参数，将获得的灰度图和获得的特征图输入所述深度卷积网络以提取高层特征即深度卷积特征，并将所述深度卷积特征输入到所述分类器，所述分类器获得模型的前向预测输出，其中深度卷积网络和分类器的参数均为前一次学习的结果；

将获得的所述前向预测输出与所述训练样本集图片的标签进行比对，将两者的误差反传，根据所述误差来更新所述深度卷积网络的参数和所述分类器的参数；

对多个训练样本图片进行多次训练，当所述误差小于预定值时确定当前学习到的模型参数为训练好的模型参数，从而获得训练好的深度学习模型，所述训练好的模型参数包括深度卷积网络的参数和分类器的参数；

所述使用训练好的深度学习模型进行图像识别过程包括以下步骤：

对测试图片分别求取灰度图、LBP特征图、梯度幅值特征图和梯度方向特征图；

将获得的4种图输入前述训练过程获得的所述深度学习模型获取图像的深度卷积特征；

将获取的深度卷积特征输入到训练好的分类器，获得最终的分类和识别结果。

较佳的，当应用模型的可用资源少的情况下，将获得的灰度图和获得的特征图作为多输入到同一个深度卷积网络以提取高层特征。

较佳的，当应用模型的可用资源多的情况下，对获得的灰度图和获得的每个特征图分别构建一个深度卷积网络以提取高层特征，并将这些高层特征级联作为所述分类器的输入。

较佳的，所述分类器由多层感知器MLP和SOFTMAX构成。

较佳的，所述多层感知器采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器。

较佳的，所述多层感知器采用2-3个全连接层。

较佳的，在所述全连接层为3个的情况下，所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。

为达到上述目的，本发明实施例公开了一种图像识别装置，装置包括：

获取模块，用于对训练样本集图片获取其灰度图；

求取模块，用于对所述灰度图求取灰度图中每个像素点的特征构成的特征图，所述特征图包括：LBP特征图、梯度幅值特征图和梯度方向特征图；

输入模块，用于设置深度卷积网络的各个网络层及分类器的初始参数，将获得的灰度图和获得的特征图输入所述深度卷积网络以提取高层特征即深度卷积特征，并将所述深度卷积特征输入到所述分类器，所述分类器获得模型的前向预测输出，其中深度卷积网络和分类器的参数均为前一次学习的结果；

更新模块，用于将获得的所述前向预测输出与所述训练样本集图片的标签进行比对，将两者的误差反传，根据所述误差来更新所述深度卷积网络的参数和所述分类器的参数；

确定模块，用于对多个训练样本图片进行多次训练，当所述误差小于预定值时确定当前学习到的模型参数为训练好的模型参数，从而获得训练好的深度学习模型，所述训练好的模型参数包括深度卷积网络的参数和分类器的参数；

第二求取模块，用于对测试图片分别求取灰度图、LBP特征图、梯度幅值特征图和梯度方向特征图；

第二获取模块，用于将获得的4种图输入前述训练过程获得的所述深度学习模型获取图像的深度卷积特征；

第二输入模块，用于将获取的深度卷积特征输入到训练好的分类器，获得最终的分类和识别结果。

较佳的，其特征在于，所述分类器由多层感知器MLP和SOFTMAX构成。

较佳的，其特征在于，所述多层感知器采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器。

较佳的，所述多层感知器采用2-3个全连接层。

较佳的，所述全连接层为3个的情况下，所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。

由上述的技术方案可见，本发明实施例提供的一种图像识别方法及装置，采用易于实现的算法提取图片的各种特征图，并通过深度学习对得到的特征图更进一步提取卷积特征，使得到的特征更具有分类判别性，提高判别效果；对资源有限的系统，这些特征图作为系统的多维输入而共享一个深度学习系统，如果资源充足，则对每个特征图都组建一个深度学习系统，并对获取的卷积特征进行融合；对分类器采用MLP+SOFTMAX组合对获取的图像卷积特征进行识别，提升分类精度，提高了识别率。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1(a)和图1(b)为本发明实施例提供的一种图像识别方法的流程示意图；

图2(c)和图2(d)为本发明实施例提供的一种图像识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面首先对本发明实施例提供的一种图像识别方法进行详细说明。

本发明的一种基于多特征图深度学习的图像识别方法，包括两个过程。第一个过程为训练过程，通过大量的训练样本来训练获取网络的各个参数(即网络模型)，之后将训练好的网络模型用于第二过程的识别过程，对获取的每张图像自动分类识别。

下面接合图1(a)和图1(b)进行详细描述。训练过程包括如下步骤：

步骤a：对训练样本集图片求取其灰度图。

步骤b：对所述灰度图求取灰度图中每个像素点的特征构成的特征图，所述特征图包括：LBP特征图、梯度幅值特征图和梯度方向特征图。

步骤c：设置深度卷积网络的各个网络层及分类器的初始参数，将步骤a和b中获得的灰度图和特征图输入所述深度卷积网络以提取高层特征即深度卷积特征，并将所述深度卷积特征输入到所述分类器，所述分类器获得系统的前向预测输出，其中深度卷积网络和分类器的参数均为前一次学习的结果。

具体的，这里的深度卷积网络(即深度卷积神经网络，deep convolutionalneural networks，DCNN)由多层卷积层连接而成，前面的卷积层主要是获取图片的低层特征，如边缘，轮廓等，越往后的卷积层获取的就是图片的局部或整体的语义特征，即高层特征。本发明中使用的深度卷积网络是多种深度网络中的一种，本领域的人熟知，当然也可以使用其他深度网络来达到本发明的目的。

步骤c中，当应用系统的可用资源少的情况下，将步骤a中获得的灰度图和步骤b中获得的多个特征图作为多输入到同一个深度卷积网络以提取高层特征。如图2所示。步骤c中，当应用系统的可用资源多的情况下，对步骤中获得的灰度图和步骤b中获得的每个特征图分别构建一个深度卷积网络以提取高层特征，并将这些高层特征级联作为所述分类器的输入。这里，实际应用系统包括系统的软硬件，可用资源即硬件的CPU，GPU，内存等等。

具体的，本发明中，分类器由多层感知器(MLP，multi-layer perception)和SOFTMAX构成。所述多层感知器(MLP)采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器。具体地，该多层感知器采用2～3个全连接层。如果多层感知器采用3个全连接层，则所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。

接下来是步骤d：将步骤c获得的所述前向预测输出与所述训练样本集图片的标签进行比对，将两者的误差反传，根据所述误差来更新所述深度卷积网络的参数和所述分类器的参数。例如，应用随机梯度下降方法来更新所述深度卷积网络的参数和所述分类器的参数，或者利用其他已知的方法来更新参数。本步骤中，将分类器的前向预测输出与所述训练样本集图片的标签的误差逐步反传，并对分类器和深度卷积网络的各层参数依次更新，其目的是使得前向预测输出与标签之间的误差逐步减少。

步骤e：重复步骤a～d，对多个训练样本图片进行多次训练，每次训练均对深度卷积网络的参数和所述分类器的参数进行更新，以不断缩小前向预测输出与所述训练样本集图片的误差，当所述误差小于预定值时就可确定当前学习到的模型参数为训练好的模型参数，从而获得训练好的深度学习系统，所述训练好的模型参数包括深度卷积网络的参数和分类器的参数。

接下来使用训练好的深度学习系统进行图像识别过程，包括以下步骤：

步骤f：对测试图片分别求取灰度图、LBP特征图、梯度幅值特征图和梯度方向特征图。该步骤对应于系统的数据处理部分。这里，对图像中的任意像素点求取特征，从而能扩展到整幅图像获取特征图。具体地，首先获取图片的灰度图即为灰度特征图，在此基础上求取其它三种特征图，以LBP特征图为例，先求取每个像素点的LBP特征，求取图像边缘像素点的特征值时，超出边界的像素点其值可设置为零，从而得到整幅图像的LBP特征图。同理可获取梯度幅值和梯度方向的特征图。

步骤g：将步骤f获得的4种图输入前述训练过程获得的所述深度学习系统获取图像的深度卷积特征。该步骤对应于系统的求取深度卷积特征部分。在单模型系统中，将四个特征图合并输入到深度学习识别系统，得到多特征图的深度卷积特征。在多模型并行系统中，分别计算每个特征图的深度卷积特征，并将这些特征级联成为一个新的卷积特征；卷积网络则依据输入图片的大小和系统复杂度来优化设计。

步骤h：将步骤g中获取的深度卷积特征输入到训练好的分类器，获得最终的分类和识别结果。该步骤对应于系统的分类器部分。分类器由MLP和SOFTMAX组合而成，MLP则由全连接层(FC)串连而成，依据系统的复杂度，在速度和系统复杂度、性能之间折中选择，FC一般选2到3层。在车牌字符识别中采用了本发明的多模型并行系统来进行图像识别。对每个字符先求取灰度图，再依据灰度图分别求出其他三种特征图，对每一种特征图应用深度卷积网络分别求其深度卷积特征，并将所获得的深度卷积特征级联送入分类器，分类器由两个全连接层(FC)串联加一个SOFTMAX构成。

示例性的，应用本发明方法，在5万测试车牌字符里，识别精度可达到99.4％以上，错误率为0.6％，如果只用灰度图一个特征图作为输入，识别精度为98.656％，错误率为1.344％，错误率降低了一半以上，因此本发明方法是可以有效地提高识别精度和效率。

可见，采用易于实现的算法提取图片的各种特征图，并通过深度学习对得到的特征图更进一步提取卷积特征，使得到的特征更具有分类判别性，提高判别效果；对资源有限的系统，这些特征图作为系统的多维输入而共享一个深度学习系统，如果资源充足，则对每个特征图都组建一个深度学习系统，并对获取的卷积特征进行融合；对分类器采用MLP+SOFTMAX组合对获取的图像卷积特征进行识别，提升分类精度，提高了识别率。

参见图2，图2(c)和图2(d)为本发明实施例提供的一种图像识别装置的结构示意图，与图1(a)和图1(b)所示的流程相对应，该识别装置可以包括：

获取模块，用于对训练样本集图片获取其灰度图；

具体的，当应用模型的可用资源少的情况下，将获得的灰度图和获得的特征图作为多输入到同一个深度卷积网络以提取高层特征。

具体的，当应用模型的可用资源多的情况下，对获得的灰度图和获得的每个特征图分别构建一个深度卷积网络以提取高层特征，并将这些高层特征级联作为所述分类器的输入。

具体的，所述分类器可以由多层感知器MLP和SOFTMAX构成。

具体的，所述多层感知器可以采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器。

具体的，所述多层感知器可以采用2-3个全连接层。

具体的，所述全连接层为3个的情况下，所述分类器的连接方式可以为FC1+FC2+FC3+SOFTMAX。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像识别方法，其特征在于，所述方法包括多特征图深度学习的训练过程和使用训练好的深度学习模型进行图像识别的过程，其中，所述多特征图深度学习的训练过程包括以下步骤：

对训练样本集图片求取其灰度图；

2.根据权利要求1所述的方法，其特征在于，当应用模型的可用资源少的情况下，将获得的灰度图和获得的特征图作为多输入到同一个深度卷积网络以提取高层特征。

3.根据权利要求2所述的方法，其特征在于，当应用模型的可用资源多的情况下，对获得的灰度图和获得的每个特征图分别构建一个深度卷积网络以提取高层特征，并将这些高层特征级联作为所述分类器的输入。

4.根据权利要求2或3所述的方法，其特征在于，所述分类器由多层感知器MLP和SOFTMAX构成，所述多层感知器采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器，所述多层感知器采用2-3个全连接层，所述全连接层为3个的情况下，所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。

5.一种图像识别装置，其特征在于，所述装置包括以下模块：

获取模块，用于对训练样本集图片获取其灰度图；

6.根据权利要求5所述的装置，其特征在于，当应用模型的可用资源少的情况下，将获得的灰度图和获得的特征图作为多输入到同一个深度卷积网络以提取高层特征。

7.根据权利要求5所述的装置，其特征在于，当应用模型的可用资源多的情况下，对获得的灰度图和获得的每个特征图分别构建一个深度卷积网络以提取高层特征，并将这些高层特征级联作为所述分类器的输入。

8.根据权利要求6或7所述的装置，其特征在于，所述分类器由多层感知器MLP和SOFTMAX构成，所述多层感知器采用多层全连接层FC串联来实现，并将结果输入到SOFTMAX分类器。

9.根据权利要求8所述的装置，其特征在于，所述多层感知器采用2-3个全连接层。

10.根据权利要求9所述的装置，其特征在于，所述全连接层为3个的情况下，所述分类器的连接方式为FC1+FC2+FC3+SOFTMAX。