CN112434731A

CN112434731A - 图像识别方法、装置及可读存储介质

Info

Publication number: CN112434731A
Application number: CN202011281599.2A
Authority: CN
Inventors: 李建强; 李亚楠; 张丰瑶; 姜江; 王春玲
Original assignee: Beijing Meteorological Service Center; Beijing University of Technology
Current assignee: Beijing Meteorological Service Center; Beijing University of Technology
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2021-03-02
Anticipated expiration: 2040-11-16
Also published as: CN112434731B

Abstract

本发明提供一种图像识别方法、装置及可读存储介质，本发明方法中，将待识别图像输入至图像识别模型，输出与所述待识别图像对应的图像种类识别结果，其中，所述图像识别模型是基于图像样本数据以及预先确定的图像种类标签进行训练后得到的，所述图像识别模型用于基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，通过基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，能够增加特征的多样性，使图像的分类正确率更高。

Description

图像识别方法、装置及可读存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种图像识别方法、装置及可读存储介质。

背景技术

在AlexNet网络出世之前，绝大多数图像分类方法都是采用传统的特征提取方法，如图像的颜色、纹理、形状、梯度、等属于底层特征，它们的提取相对简单，无需学习与训练，仅需简单计算与传统的统计。在底层特征基础上进行多特征融合处理获得新的特征，主要是颜色和纹理的多样性结合，如：LOMO(HSV+SILTP)。这种方式通常融入较多数据理论处理过程，比较复杂。

自AlexNet出世之后，越来越多的人关注到深度卷积网络中。深度卷积网络比传统方法提取的特征更加抽象，更深。它无需受光照、姿态等的影响。随着深度卷积网络的发展，越来越多的网络更加注重特征融合。特征融合的目的是将来自两个或多个特征向量的相关信息合并成具有更强鉴别能力的单个特征向量。

传统的基于CCA(Canonical Correlation Analyses，典型相关分析)的融合方法使用两个输入特征，根据两个特征间的相关关系，计算两种变换，变换后的特征比输入的两个特征集有更高的相关性。但是CCA忽略了数据集中类结构间的关系，因此在此基础上提出了判别相关分析(Discriminant Correlation Analysis，DCA)。

采用DCA的方法处理两种特征，可以最大化不同类之间的差异，但是在采用DCA处理特征之间关系时，会因为两个特征之间的相关性不大，去除一些特征向量，但有些特征并不能确定是否在分类时产生作用，进而导致特征缺失，影响图像分类的准确性。

发明内容

针对现有技术存在的上述技术问题，本发明提供一种图像识别方法、装置及可读存储介质。

本发明提供一种图像识别方法，包括：

将待识别图像输入至图像识别模型，输出与所述待识别图像对应的图像种类识别结果；

其中，所述图像识别模型是基于图像样本数据以及预先确定的图像种类标签进行训练后得到的，所述图像识别模型用于基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类。

根据本发明提供的一种图像识别方法，所述基于所述待识别图像的底层特征和卷积特征经判别相关分析和特征融合操作得到的融合特征，具体包括：

对所述待识别图像的底层特征进行判别相关分析，得到第一特征；

对所述待识别图像的卷积特征进行判别相关分析，得到第二特征；

将所述待识别图像的卷积特征与所述第二特征进行特征融合，得到第三特征；

将所述第三特征和第一特征进行特征融合，得到所述融合特征。

根据本发明提供的一种图像识别方法，所述将所述待识别图像的卷积特征与所述第二特征进行特征融合中，所述特征融合采用求和融合方式。

根据本发明提供的一种图像识别方法，所述将所述第三特征和第一特征进行特征融合中，所述特征融合采用串联融合方式。

根据本发明提供的一种图像识别方法，所述待识别图像的底层特征包括纹理特征、边缘特征、颜色特征和梯度特征中的任意两种。

根据本发明提供的一种图像识别方法，所述待识别图像的卷积特征是基于深度卷积网络确定的。

根据本发明提供的一种图像识别方法，所述对所述待识别图像进行分类，包括：

将所述融合特征输入支持向量机分类器，得到所述待识别图像对应的图像种类识别结果。

本发明还提供一种图像识别装置，包括：

输入模块，用于将待识别图像输入至图像识别模型；

输出模块，用于输出与所述待识别图像对应的图像种类识别结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像识别方法的步骤。

本发明提供的图像识别方法、装置及可读存储介质，通过基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，能够增加特征的多样性，使图像的分类正确率更高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像识别方法的流程示意图；

图2是本发明提供的融合特征的获取流程示意图；

图3是本发明提供的VGG-19网络结构示意图；

图4是本发明提供的图像识别方法的全流程示意图；

图5是本发明提供的图像识别装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图6描述本发明的图像识别方法、装置及可读存储介质。

图1为本发明提供的一种图像识别方法的流程示意图，如图1所示，该方法包括：

步骤110，将待识别图像输入至图像识别模型。

具体的，为了增加图像的多样性，也为了防止过拟合，提高图像识别模型的泛化能力，在将待识别图像输入至图像识别模型之前，可以采用随机亮度、随机饱和度、随机水平翻转、随机噪声和随机缩放等数据增强方法对所述待识别图像进行数据增强。

步骤120，输出与所述待识别图像对应的图像种类识别结果；

具体的，可以预先训练得到图像识别模型，例如通过如下方式训练得到图像识别模型：首先，收集大量样本图像，并确定样本图像对应的图像种类识别结果。随即，基于样本图像及其对应的图像种类识别结果训练初始模型，从而得到图像识别模型。

所述图像识别模型基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类。

本发明提供的方法，通过基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，能够增加特征的多样性，使图像的分类正确率更高。

基于上述实施例，所述基于所述待识别图像的底层特征和卷积特征经判别相关分析和特征融合操作得到的融合特征，具体包括：

具体的，判别相关分析(DCA)是找到一组线性投影矩阵Wx和Wy，分别对应2种模态的转换矩阵，使其能够最大化同类特征的相关性，减弱不同类样本间的冗余相关性。之前利用DCA进行特征变换的图像分类方法，都是对卷积特征或底层特征进行DCA处理，但是单单只对它们进行处理，会使特征缺乏多样性。因此本发明的方法对卷积特征与底层特征都进行DCA处理然后做特征融合，使底层特征和卷积特征可以进行互补，并且DCA处理不会让特征之间冗余，可以提高图像的分类效率。

如图2所示为本发明提供的融合特征的获取流程示意图，如图2所示，对所述待识别图像的底层特征F3和F4进行判别相关分析，得到第一特征F3’和F4’；对所述待识别图像的卷积特征F1和F2进行判别相关分析，得到第二特征F1’和F2’；将所述待识别图像的卷积特征F1和F2与所述第二特征F1’和F2’进行特征融合，得到第三特征；将所述第三特征和第一特征F3’和F4’进行特征融合，得到所述融合特征。

本发明提供的方法，通过对所述待识别图像的底层特征进行判别相关分析，得到第一特征，对所述待识别图像的卷积特征进行判别相关分析，得到第二特征，将所述待识别图像的卷积特征与所述第二特征进行特征融合，得到第三特征，将所述第三特征和第一特征进行特征融合，得到所述融合特征，不仅保留了特征的多样性，还对相关性较大的特征进行了强调，使图像的分类正确率更高。

基于上述实施例，所述将所述待识别图像的卷积特征与所述第二特征进行特征融合中，所述特征融合采用求和融合方式。

具体的，要得到最终的融合特征有两种特征融合的方式，分别为串联融合(concat)和求和融合(add)。add操作是信息之间的叠加，使得描述图像的特征下的信息量增多了，但是描述图像的维度本身并没有增加，只是每一维下的信息量在增加，这显然是对最终的图像的分类是有益的。因为在DCA处理之后，相关性较小的特征会被去除，变换之前的特征虽然会带来冗余，但是保持了特征的多样性，DCA变换类似于一个注意力机制，把变换之前的特征与变换之后的特征相加，不仅可以保持特征的多样性，更加会使特征中对分类起重要作用的权重增加。

本发明提供的方法，通过采用求和融合方式将所述待识别图像的卷积特征与所述第二特征进行特征融合，能够在保持特征多样性的基础上使特征中对分类起重要作用的权重增加，使图像的分类正确率更高。

基于上述实施例，所述将所述第三特征和第一特征进行特征融合中，所述特征融合采用串联融合方式。

具体的，concat操作是网络结构设计中很重要的一种操作，经常用于将特征联合，多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合，而concat操作是通道数的合并，即描述图像本身的特征增加了，而每一特征下的信息没有增加。concat操作实现了所述待识别图像的底层特征和卷积特征的结合，可以保证图像分类的准确性。

本发明提供的方法，通过采用串联融合方式将所述第三特征和第一特征进行特征融合，能够保证图像分类的准确性。

基于上述实施例，所述待识别图像的底层特征包括纹理特征、边缘特征、颜色特征和梯度特征中的任意两种。

具体的，出于保证图像分类准确性的考虑，所述底层特征包括纹理特征、边缘特征、颜色特征和梯度特征中的任意两种。当然所述底层特征也可以为上述四种特征之外的其它特征，本发明对此不作具体限定。

本发明提供的方法，通过采用纹理特征、边缘特征、颜色特征和梯度特征中的任意两种作为图像分类的依据，能够尽可能保证特征多样性，进而确保图像分类的准确性。

基于上述实施例，所述待识别图像的卷积特征是基于深度卷积网络确定的。

具体的，所述深度卷积网络可以为VGG-19网络，如图3所示为本发明提供的VGG-19网络结构示意图，其网络结构如图3所示，在此不再赘述。VGG-19的网络结构非常简洁，整个网络都使用了同样大小的卷积核尺寸(3*3)和最大池化尺寸(2*2)，不仅加深了网络结构，提升了网络性能，也减少了网络的参数量，因此本发明方法中采用VGG-19网络。当然，根据实际需要，所述深度卷积网络也可以采用其它特征提取网络，本发明对此不作具体限定。

本发明提供的方法，通过深度卷积网络进行待识别图像的卷积特征提取，能够保证提取特征的准确性，进而确保图像分类的准确性。

基于上述实施例，所述对所述待识别图像进行分类，包括：

具体的，将融合特征送入SVM(Support Vector Machine，支持向量机)分类器，即可得到所述待识别图像的分类结果。

本发明提供的方法，通过将所述融合特征输入支持向量机分类器，得到所述待识别图像对应的图像种类识别结果，能够保证图像种类识别结果的准确性。

图4是本发明提供的图像识别方法的全流程示意图，下面结合图4对上述任一实施例所述方法进行进一步说明：

(1)数据增强。采用随机亮度、随机饱和度、随机水平翻转、随机噪声和随机缩放等数据增强方法对待识别图像进行增强。

(2)提取VGG-19网络中特征图。把数据集放入VGG-19网络中，提取网络中的特征图，本发明方法中提取了第一个与第二个全连接层的特征f_1i∈R^4096×1、f_2i∈R^4096×1。其中将n个图像的f_1i∈R^4096×1组成第一个全连接层特征为F1＝(f₁₁,f₁₂,...,f_1n),将n个图像的f_2i∈R^4096×1组成第二个全连接层特征为F2＝(f₂₁,f₂₂,...,f_2n)。

(3)提取图像底层特征中的纹理特征。采用局部二值法(Local Binary Pattern，LBP)进行图像纹理特征的提取。LBP是一种用来描述图像局部纹理特征的算子，它具有旋转不变性和灰度不变性的优点。

在3*3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3邻域内的8个点经比较可产生8位二进制数(通常转换为十进制数即LBP码，共256种)，即得到该窗口中心像素点的LBP值，并用这个值来反映该区域的纹理信息，整张图像的特征表示为：F3∈R^s×t。

(4)提取图像底层特征中的边缘特征。边缘是一幅图像中不同区域之间的边界线，通常一个边缘图像是一个二值图像。边缘检测的目的是捕捉亮度急剧变化的区域，而这些区域通常是我们关注的。常用的边缘检测方法有Canny算子和Sobel算子进行边缘检测。本发明方法中采用了Sobel算子，它是利用梯度信息对图像进行边缘检测。对图像进行边缘检测时，计算每个像素的梯度并给出不同方向从明到暗的最大变化及其变化率。这个结果显示出图片在该点亮度变化为“急剧”还是“平滑”，由此可以判断该区域成为边缘的概率。Sobel算子检测边缘的步骤为：

水平变化：将I(图像中一个3x3的窗口)与一个奇数大小的内核Gx进行卷积。比如，当内核大小为3时，Gx的计算结果为：

垂直变化：将I(图像中一个3x3的窗口)与一个奇数大小的内核Gy进行卷积。比如，当内核大小为3时，Gy的计算结果为：

在图像的每一点，结合以上两个结果求出近似梯度：

经Sobel算子得到的图像的边缘特征为G，写做：F4∈R^k×1。

(5)对卷积特征F1，F2进行DCA变换并融合。DCA处理过程如下：

假设数据矩阵样本有c类，矩阵X∈R^p×n，Y∈R^q×n包含来自图像的n个特征向量，分别表示来自第一个全连接层与第二个全连接层的特征向量的p维、q维特征向量；且矩阵样本是从不同的c个类别中收集，因此矩阵的n列被分为c个单独的组，其中n_i列属于第i类，即

设x_ij∈X对应与第i类的第j个样本，

和

分别对应第i类样本和整个特征集中x_ij向量的平均值：

类间散度矩阵定义为：

其中，

若将特征中的不同类别分开，Φ_bx ^TΦ_bx将可以转换为对角矩阵，由于Φ_bx ^TΦ_bx是对称的半正定矩阵，可根据下式将其对角化：

其中P由矩阵Φ_bx ^TΦ_bx的正交特征向量组成，

是一个对角阵，设Q_c×r由矩阵P的前r个最大非零特征值对应的特征向量组成，则有：

Q^T(Φ_bx ^TΦ_bx)Q＝∧_r×r (9)

S_bx的前r个特征向量可以通过映射：Q→Φ_bxQ获得，具体如下：

(Φ_bxQ)^TS_bx(Φ_bxQ)＝∧_r×r (10)

求特征集X单位化的类间散度矩阵，通过转换矩阵W_bx＝Φ_bxQ∧^-1/2实现，同时将数据矩阵X的维数从p降到r，公式为：

W_bx ^TS_bxW_bx＝I (11)

X'_r×n＝W_bx(r×p) ^TX_p×n (12)

其中，参数X'为矩阵X的投影，I为单位化的类间散布矩阵，其中：r≤min(c-1.rank(X),rank(Y)) (13)

同样可求出使数据集Y的类间散度矩阵单位化的转换矩阵，并将Y的维数从q降到r，具体如下公式所示：

W_by ^TS_byW_by＝I (14)

Y'_r×n＝W_bx(r×p) ^TX_p×n (15)

将两个特征集之间的协方差矩阵S_xy'＝X'Y'^T对角化，采用奇异值分解将S_xy'对角化，公式如下：

其中，∑是对角矩阵，主对角线元素是非零值，设W_cx＝U∑^-1/2，W_cy＝V∑^-1/2，则有：(U∑^-1/2)^TS'_xy(V∑^-1/2)＝I (17)

由下列公式可得到特征集转换过程：

其中

分别是X、Y的最终的转换矩阵。

把上述步骤总结为：X',Y'＝DCA(X,Y)，则对卷积特征进行DCA变换可写作：F1',F2'＝DCA(F1,F2)。

将DCA变换之后的深度卷积特征F1’、F2’与变换之前的特征F1、F2进行add为F5：

F5＝add(F1,F2,F1',F2')

其中add(X1,X2,...,Xn)表示将特征向量X1，X2等进行求和融合。在进行求和操作时需要特征向量的维度大小相同，需要对原始特征进行变换再进行求和融合操作。经DCA变换之后的特征大小为：r*n，其中r≤(c-1,rank(F1),rank(F2))可知r一定小于等于4096，因此对F1，F2采用dropout的方式对特征向量进行变换，变换成大小为r*4096的矩阵再进行add特征融合操作。

(6)对纹理特征F3与边缘特征F4做DCA变换。可写作：F3',F4'＝DCA(F3,F4)。

(7)将卷积融合后的特征F5与F3’、F4’进行融合。对特征向量进行concat需要特征向量的宽度与高度一致，此时F5的大小为r*n，因此需要把纹理特征F3'∈R^a×n，边缘特征F4'∈R^a×n的大小统一成r*n。

①当a×n＞r×n时：采用dropout的方法对特征进行舍弃。

②当a×n＜r×n时：采用补0的方法对特征进行变换。

(8)将最终的特征F6进行SVM分类，得到待识别图像的种类识别结果。

基于上述任一实施例，图5是本发明提供的图像识别装置的结构示意图，如图5所示，该装置包括：

输入模块510，用于将待识别图像输入至图像识别模型。

具体的，通过输入模块510将待识别图像输入至图像识别模型。

输出模块520，用于输出与所述待识别图像对应的图像种类识别结果；

具体的，所述图像识别模型基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，并通过输出模块520输出与所述待识别图像对应的图像种类识别结果。

本发明提供的装置，通过基于所述待识别图像的底层特征和卷积特征经判别相关分析和融合操作得到的融合特征，对所述待识别图像进行分类，能够增加特征的多样性，使图像的分类正确率更高。

基于上述实施例，所述对所述待识别图像进行分类，包括：

本发明提供的图像识别装置可以执行上述图像识别方法，其具体工作原理和相应的技术效果与上述方法相同，在此不再赘述。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行上述各方法所提供的图像识别方法。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的图像识别方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法所提供的图像识别方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

将待识别图像输入至图像识别模型；

输出与所述待识别图像对应的图像种类识别结果；

2.根据权利要求1所述的图像识别方法，其特征在于，所述基于所述待识别图像的底层特征和卷积特征经判别相关分析和特征融合操作得到的融合特征，具体包括：

3.根据权利要求2所述的图像识别方法，其特征在于，所述将所述待识别图像的卷积特征与所述第二特征进行特征融合中，所述特征融合采用求和融合方式。

4.根据权利要求2所述的图像识别方法，其特征在于，所述将所述第三特征和第一特征进行特征融合中，所述特征融合采用串联融合方式。

5.根据权利要求1所述的图像识别方法，其特征在于，所述待识别图像的底层特征包括纹理特征、边缘特征、颜色特征和梯度特征中的任意两种。

6.根据权利要求1所述的图像识别方法，其特征在于，所述待识别图像的卷积特征是基于深度卷积网络确定的。

7.根据权利要求1所述的图像识别方法，其特征在于，所述对所述待识别图像进行分类，包括：

8.一种图像识别装置，其特征在于，包括：

输入模块，用于将待识别图像输入至图像识别模型；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述图像识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像识别方法的步骤。