CN110363290B

CN110363290B - 一种基于混合神经网络模型的图像识别方法、装置及设备

Info

Publication number: CN110363290B
Application number: CN201910655663.XA
Authority: CN
Inventors: 左亚尧; 洪嘉伟; 马铎
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-07-25
Anticipated expiration: 2039-07-19
Also published as: CN110363290A

Abstract

本发明公开了一种基于混合神经网络模型的图像识别方法、装置、设备以及计算机可读存储介质，包括：将待识别图像输入至卷积自编码器中进行预处理；利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果。本发明所提供的方法、装置、设备以及计算机可读存储介质，可以大大减少训练神经网络模型需要的图像数量，同时提高了图像识别的精确度。

Description

一种基于混合神经网络模型的图像识别方法、装置及设备

技术领域

本发明涉及图像识别技术领域，特别是涉及一种基于混合神经网络模型的图像识别方法、装置、设备以及计算机可读存储介质。

背景技术

近年来，图像识别技术发展迅速，尤其是深度学习使得图像识别的精度大大提高。利用深度学习识别日常生活用品可以帮我们解决很多简单而又繁琐的人工分类问题。也可以解决物品管理分类难的问题。

然而，由于深度学习是需要大量带标注样本来实现的。而实际现实中我们要获取大量带标记的样本是非常耗费人力，物力的。所以单纯采用传统的神经网络模型很难训练一个识别精确度很高的神经网络模型。

综上所述可以看出，如何在提高图像识别精度的同时降低神经网络模型的训练难度是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于混合神经网络模型的图像识别方法、装置、设备以及计算机可读存储介质，以解决现有技术中深度学习网络的识别精度高但训练复杂，而传统神经网络模型训练简单但图像识别精度较低的问题。

为解决上述技术问题，本发明提供一种基于混合神经网络模型的图像识别方法，包括：将待识别图像输入至卷积自编码器中进行预处理；利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果。

优选地，所述将待识别图像输入至卷积自编码器中进行预处理包括：

将所述待识别图像转换为224×224像素大小的目标待识别图像后，利用所述卷积自编码器对所述目标待识别图像进行去噪处理；

其中，所述卷积自编码器包括一个编码器与一个解码器；所述编码器为采用三层卷积及三层池化交叉处理后利用全连接层提取特征的模型；所述解码器为采用三层上采样及三层卷积进行图像解压重构的模型。

优选地，所述基于迁移学习构建的特征提取器提取预处理处理后的待识别图像的图像特征包括：

将去噪处理后的待识别图像输入至预先完成训练的Google Net模型中，提取所述待识别图像的第一图像特征；

将去噪处理后的待识别图像输入至预先完成训练的VGG16模型中，提取所述待识别图像的第二图像特征。

优选地，所述利用特征融合门及特征筛选内，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征包括：

将所述第一图像特征、所述第二图像特征以及所述内部时序特征输入至所述特征融合门中，得到融合特征；

将所述融合特征输入至所述特征筛选门中，利用主成分分析法提取主要特征后，利用两层全连接层将所述主要特征压缩为所述目标特征。

优选地，所述将待识别图像输入至卷积自编码器中进行预处理前还包括：

将预先完成标记的家居图像集输入至预先构建的初始卷积自编码器中进行预处理；

采用最小二乘法确定所述初始卷积自编码器的输出结果与未加噪音的图像集的损失，以便对所述卷积自编码器进行更新，得到完成训练的卷积自编码器。

本发明还提供了一种基于混合神经网络模型的图像识别装置，包括：

预处理模块，用于将待识别图像输入至卷积自编码器中进行预处理；

图像特征提取模块，用于利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；

内部特征提取模块，用于利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；

特征融合筛选模块，用于利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；

分类模块，用于利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果。

优选地，所述预处理模块具体用于：

优选地，所述图像特征提取模块包括：

第一提取单元，用于将去噪处理后的待识别图像输入至预先完成训练的GoogleNet模型中，提取所述待识别图像的第一图像特征；

第二提取单元，用于将去噪处理后的待识别图像输入至预先完成训练的VGG16模型中，提取所述待识别图像的第二图像特征。

本发明还提供了一种基于混合神经网络模型的图像识别设备，包括：

存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于混合神经网络模型的图像识别方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于混合神经网络模型的图像识别方法的步骤。

本发明所提供的基于混合神经网络模型的图像识别方法，首先利用卷积自编码器对待识别图像进行预处理；其次利用基于迁移学习构建的特征提取器提取预处理后的待识别图像的图像特征；利用长短期记忆网络模型提取预处理后的待识别图像的内部时序特征；然后，利用特征融合门及特征筛选门对所述图像特征与所述内部时序特征进行融合筛选处理；最后将融合筛选处理后的目标特征输入至softmax分类器中，得到所述待识别图像的分类结果。本发明所提供的方法，利用包括基于迁移学习的特征提取器以及长短期记忆网络模型的混合神经网络模型提取图像特征，可以有效解决训练集图像数量不足导致降低图像识别精确度降低的问题；并利用特征融合门与特征筛选门充分结合了混合神经网络模型提取到的图像特征，提高了图像识别的准确性。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的基于混合神经网络模型的图像识别方法的第一种具体实施例的流程图；

图2为卷积自编辑器的结构示意图；

图3为训练基于混合神经网络模型的图像识别算法的步骤流程图；

图4为本发明所提供的基于混合神经网络模型的图像识别方法的第二种具体实施例的流程图；

图5为本发明实施例提供的一种基于混合神经网络模型的图像识别装置的结构框图。

具体实施方式

本发明的核心是提供一种基于混合神经网络模型的图像识别方法、装置、设备以及计算机可读存储介质，在大大减少训练图像识别神经网络模型所需的图像数量的同时，提高了图像识别的准确度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明所提供的基于混合神经网络模型的图像识别方法的第一种具体实施例的流程图；具体操作步骤如下：

步骤S101：将待识别图像输入至卷积自编码器中进行预处理；

将所述待识别图像转换为224×224像素大小的目标待识别图像后，利用所述卷积自编码器对所述目标待识别图像进行去噪处理。如图2所示，所述卷积自编码器包括一个编码器与一个解码器。所述编码器为采用三层卷积及三层池化交叉处理后利用全连接层提取特征的模型，经过全连接层后获取得到的特征为784维的向量。所述解码器为采用三层上采样及三层卷积进行图像解压重构的模型。

步骤S102：利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；

所述基于迁移学习构建的特征提取器包括预先利用使用ImageNet图像集预训练好的Google Net模型和VGG16模型。

步骤S103：利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；

步骤S104：利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；

步骤S105：利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果。

本实施例所提供的基于混合神经网络模型的图像识别方法，利用所述卷积自编码器对所述待识别图像进行去噪处理，增加了图像质量，并利用基于迁移学习构建的特征提取器以及LSTM模型分别来提取所述待识别图像的不同特征后经过所述特征融合门融合提取特征，采用特征筛选门筛选提取到特征输送给softmax分类器分类，来提高图像识别率。

基于上述实施例，在对待识别图像进行预处理前，还包括对基于混合神经网络模型的图像识别算法的训练。其中，所述基于混合神经网络模型的图像识别算法包括：卷积自编码器，基于迁移学习构建的特征提取器，长短期记忆网络模型，特征融合门，特征筛选门以及Softmax分类器。利用家居图像集作为所述混合神经网络模型的图像识别算法的训练集。如图3所示，对所述混合神经网络模型的图像识别算法的训练步骤包括：

步骤S301：采用图像随机裁剪法、图像随机翻转法及图像色彩调整法对预先标注的家居图像集中的每幅初始家居物品图像进行处理，并将所述每幅初始家居物品图像转换为224×224像素大小的家居物品图像；

所述家居图像集为日常生活中拍下的家居物品图像，并对每幅家居物品图像进行了标记，如杯子、勺子等。

在本实施例中，采用图像随机裁剪、图像随机翻转、图像色彩调整的方式来增强增加数据集；其中，图像翻转的角度大于等于0小于等于180度。并通过填充或裁剪方式将所述初始家居图像全部转换为224×224像素大小的图像。

步骤S302：利用卷积自编码器对所述家居图像集中的每幅家居物品图像进行去噪处理，得到并保存去噪处理后的目标家居物品图像；

所述每幅目标家居图像经过所述卷积自编码器中编码器的全连接层后获取得到的特征为784维的向量。模型的输入为加上随机噪音的图像集,输出结果为Y_p；采用最小二乘法计算输出结果与没加噪音的图像集的损失来更新模型。

步骤S303：将每幅目标家居物品图像分别输入至预先完成训练的VGG16模型和Google Net模型中，提取所述每幅目标家居物品图像的第一图像特征与第二图像特征；

在本实施例中，基于迁移学习的构建的特征提取器包括使用ImageNet图像集预训练好的Google Net模型与VGG16模型。原始VGG16模型中的网络含有参数的有16个层；原始Google Net模型中的网络含有参数的有22层。且由于ImageNet是一个很大的数据集，包含了很多关于家居物品的图像，故使用ImageNet训练这两个模型，采用batch是100，学习率从0.01～0.00001，共进行40轮训练后可以得到不错的模型参数；使得这两个特征提取器提取的特征更具有表达能力。

通过所述Google Net模型得到的第一图像特征为模型最后一个全连接层的特征，其为1000维的向量。而通过所述VGG16模型得到的第二图像特征为模型第一个全连接层fct6的特征，其为4096维的向量。

步骤S304：将所述每幅目标家居物品图像输入至预先构建的长短期记忆网络中，提取所述每幅目标家居图像的内部时序特征；

所述长短期记忆网络(LSTM)模型是一个待训练的时序神经网络，它是由单元、输入门、输出门和遗忘门组成。其中单元输出为内部状态c_t和外部状态h_t；而LSTM网络中的“门”是一种“软”门，取值在(0，1)之间，表示以一定的比例运行信息通过。遗忘门f_t控制上一个时刻的内部状态c_t-1需要遗忘多少信息。输入门i_t控制当前时刻的候选状态有多少信息需要保存。输出门o_t控制当前时刻的内部状态c_t有多少信息需要输出给外部状态h_t。其计算公式如下：

h_t＝o_t⊙tanh(c_t)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

将所述每幅目标家居物品图像填充为230×224像素，然后将所述每幅目标家居物品图像按行从上到下拆分为10批，每批图片像素为23×224；每张图像输入为10批23×224数据，借此来提取图片内部时序特征S2，其维度为1000的向量。

步骤S305：利用特征融合门与特征筛选门对所述每幅目标家居物品图像的第一图像特征、第二图像特征以及内部融合特征进行融合筛选，得到所述每幅目标家居物品图像的目标特征；

所述特征融合门可以将混合神经网络模型得到特征融合并加权。其具体实现为：将所述LSTM模型提取特征S2、所述VGG16提取特征S1以及所述Google Net模型提取的特征S3拼接起来得到总特征S＝{S1,S2,S3}；再用权重向量W＝{a,b,c}来融合总特征S得到特征融合门输出S_o。其具体计算公式如下：S_o＝tanh(W·[S1,S2,S3]+b)。

所述特征筛选门是对经过特征融合门后得到图像特征进行筛选，得到表达能力更强的图像特征。

采用PCA对已有特征S_o的协方差矩阵进行特征分解，得出特征的主成分进行，可以有效筛选到对图像表达能力更强的特征S₁。使用两层全连接层分别对特征S₁进行处理，可以进一步筛选出分类所需的特征S₂。其具体计算公式如下：

S₂＝tanh(W₂·S₁+b)

S₃＝tanh(W₃·S₂+b)

步骤S306：利用Softmax分类器对所述每幅目标家居物品图像的目标特征进行分类处理，得到所述每幅目标家居物品图像的预测分类结果；

步骤S307：根据所述每幅目标家居物品图像的预测分类结果以及所述每幅目标家居物品图像预先标注的实际类别结果，对混合神经网络模型的图像识别算法的网络结构进行训练，确定目标网络结构；

步骤S308：利用弹性网络正则化来约束所述混合神经网络模型的图像识别算法的网络参数更新，确定目标网络参数，完成所述混合神经网络模型的图像识别算法的训练。

所述Softmax分类器预测属于类别c的条件概率为：

且使用交叉熵函数来学习到最优参数W；为了使得学习到模型参数不会使得模型过拟合，采用了弹性网络正则化约束模型参数变化。弹性网络正则化是Lasso回归和Ridge回归的线性组合。具体损失函数表达式为：Loss＝-∑y_i·log(W·x_i)+θL₁+(1-θ)L₂；其中L₁为Lasso回归，L₂是Ridge回归。

本实施例所提供的混合神经网络模型的图像识别算法的训练方法，对有家居物品样本有限时，结合家居图像集内图像的大小和类型；利用卷积自编码器对图像进行去噪处理，有效的提高了图像的质量。在已有生活物品图片不足的情况下，利用迁移学习和LSTM相混合的方法来有效提取图像不同特征并使用特征融合门融合，有效增加了特征的表达能力；充分利用特征筛选门筛选特征的能力，并利用softmax分类器的强大性，使用弹性网络约束模型，避免了过拟合，分类困难的问题，提高了家居物品图像种类的识别率。

基于上述实施例，在本实施例中，利用训练完成的基于混合神经网络模型的图像识别算法对待处理的家居物品图像进行分类识别。请参考图4，图4为本发明所提供的基于混合神经网络模型的图像识别方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤S401：利用卷积自编码器对转换为224×224像素大小的待识别家居物品图像进行去噪处理，得到目标待识别家居物品图像；

步骤S402：将所述目标待识别家居物品图像输入至预先完成训练的Google Net模型中，提取所述目标待识别家居物品图像的第一图像特征；

步骤S403：将所述目标待识别家居物品图像输入至预先完成训练的VGG16模型中，提取所述目标待识别家居物品图像的第二图像特征；

步骤S404：利用长短期记忆网络模型提取所述目标待识别家居物品图像的内部时序特征；

步骤S405：将所述第一图像特征、所述第二图像特征以及所述内部时序特征输入至所述特征融合门中，得到融合特征；

步骤S406：将所述融合特征输入至所述特征筛选门中，利用主成分分析法提取主要特征后，利用两层全连接层将所述主要特征压缩为所述目标特征；

步骤S407：利用softmax分类器对所述目标特征进行分类，得到所述目标待识别家居物品图像的分类结果。

在本实施例中，将所述第一图像特征S1、第二图像特征S2以及内部融合特征S3输入至所述特征融合门中，得到所述融合特征S＝{w₁*S1+b₁ w₂*S2+b₂ w₃*S3+b₃}，其维度为2048的向量。再把所述融合特征S输入到特征筛选门得到所述目标特征S4。其中所述融合特征S经过主成分分析法(PCA)来筛选特征，得到所述主要特征S′，其是维度为1000的向量。再使用两层全连接层把所述主要特征S′压缩成256维向量再压缩成64维的目标特征S4。

本实施例使用卷积自编码器来提高待识别家居物品图像的质量；分别利用迁移学习构建特征提取器和LSTM来提取图像特征，并经过特征融合门增加图像特征的表达能力；采用特征筛选门对已提取特征进行筛选，进一步提高特征表达能力；采用softmax分类器来提高图像识别准确率，采用弹性网络正则化来约束模型参数更新，防止模型过拟合。

请参考图5，图5为本发明实施例提供的一种基于混合神经网络模型的图像识别装置的结构框图；具体装置可以包括：

预处理模块100，用于将待识别图像输入至卷积自编码器中进行预处理；

图像特征提取模块200，用于利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；

内部特征提取模块300，用于利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；

特征融合筛选模块400，用于利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；

分类模块500，用于利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果。

本实施例的基于混合神经网络模型的图像识别装置用于实现前述的基于混合神经网络模型的图像识别方法，因此基于混合神经网络模型的图像识别装置中的具体实施方式可见前文中的基于混合神经网络模型的图像识别方法的实施例部分，例如，预处理模块100，图像特征提取模块200，内部特征提取模块300，特征融合筛选模块400，分类模块500，分别用于实现上述基于混合神经网络模型的图像识别方法中步骤S101，S102，S103，S104和S105，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种基于混合神经网络模型的图像识别设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于混合神经网络模型的图像识别方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于混合神经网络模型的图像识别方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于混合神经网络模型的图像识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于混合神经网络模型的图像识别方法，其特征在于，包括：

将待识别图像输入至卷积自编码器中进行预处理；

利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；所述特性提取器包括Google Net模型和VGG16模型；

利用长短期记忆网络模型提取所述预处理后的待识别图像的内部时序特征；

利用特征融合门及特征筛选门，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征；

利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果；

所述基于迁移学习构建的特征提取器提取预处理处理后的待识别图像的图像特征包括：

将去噪处理后的待识别图像输入至预先完成训练的VGG16模型中，提取所述待识别图像的第二图像特征；

所述利用特征融合门及特征筛选内，对所述图像特征与所述内部时序特征融合筛选，得到所述识别图像的目标特征包括：

2.如权利要求1所述的方法，其特征在于，所述将待识别图像输入至卷积自编码器中进行预处理包括：

3.如权利要求1所述的方法，其特征在于，所述将待识别图像输入至卷积自编码器中进行预处理前还包括：

4.一种基于混合神经网络模型的图像识别装置，其特征在于，包括：

图像特征提取模块，用于利用基于迁移学习构建的特性提取器提取预处理后的待识别图像的图像特征；所述特性提取器包括Google Net模型和VGG16模型；

分类模块，用于利用softmax分类器对所述目标特征进行分类，得到所述待识别图像的分类结果；

所述图像特征提取模块包括：

第一提取单元，用于将去噪处理后的待识别图像输入至预先完成训练的Google Net模型中，提取所述待识别图像的第一图像特征；

第二提取单元，用于将去噪处理后的待识别图像输入至预先完成训练的VGG16模型中，提取所述待识别图像的第二图像特征；

所述特征融合筛选模块包括：

5.如权利要求4所述的装置，其特征在于，所述预处理模块具体用于：

6.一种基于混合神经网络模型的图像识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述一种基于混合神经网络模型的图像识别方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述一种基于混合神经网络模型的图像识别方法的步骤。