CN115909009A - 图像识别方法、装置、存储介质及电子设备 - Google Patents
图像识别方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115909009A CN115909009A CN202211555432.XA CN202211555432A CN115909009A CN 115909009 A CN115909009 A CN 115909009A CN 202211555432 A CN202211555432 A CN 202211555432A CN 115909009 A CN115909009 A CN 115909009A
- Authority
- CN
- China
- Prior art keywords
- module
- image
- layer
- feature map
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本申请的实施例提供了一种图像识别方法,所述方法包括:构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;获取待识别图像,将所述待识别图像输入所述图像识别模型;输出由所述图像识别模型识别出的所述待识别图像的分类结果。本申请实施例的技术方案能提高基于神经网络模型进行图像识别的适用性。
Description
技术领域
本申请涉及图像识别技术领域,具体而言,涉及一种图像识别方法、装置、存储介质及电子设备。
背景技术
目前基于神经网络模型具有准确率高,运行速度快等特点,使得神经网络模型被广泛应用于图像识别领域,但用于图像识别的神经网络模型往往需要过多的参数量和计算量,相应的,需要硬件平台提供可用的高内存和大算力的支持,即导致基于神经网络模型在硬件资源低和功耗低的移动设备端上难以实现图像识别功能。基于此,如何提高基于神经网络模型进行图像识别的适用性是亟待解决的技术问题。
发明内容
本申请的实施例提供了一种图像识别方法、装置、存储介质及电子设备,进而在一定程度上能降低图像识别模型的参数量和计算量,进而提高基于所述图像识别模型进行图像识别的适用性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的第一方面,提供了一种图像识别方法,所述方法包括:
构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;
获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类;输出由所述图像识别模型识别出的所述待识别图像的分类结果。
在本申请的一些实施例中,基于前述方案,所述第一通道整合模块用于将输入所述图像特征捕捉模块的原始特征图的原始输出通道数降低至预设输出通道数。
在本申请的一些实施例中,基于前述方案,所述特征图拼接模块由数据运算层,拼接层依次连接组成;所述数据运算层用于对输入所述特征图拼接模块的第一特征图进行数据处理以得到第二特征图;所述拼接层用于对所述第二特征图与所述第一特征图进行拼接,以实现所述第一特征图的输出通道数扩展至所述原始输出通道数。
在本申请的一些实施例中,基于前述方案,所述第二通道整合模块由通道分组模块,数据交换模块,以及维度压缩模块依次连接组成;所述通道分组模块用于将输入所述第二通道整合模块的初始维度的特征图划分为多组特征图组,并将所述初始维度扩展至预设维度;所述数据交换模块用于交换所述多组特征图组中不同特征图组之间的图像数据;所述维度压缩模块用于将所述预设维度压缩至所述初始维度,以实现所述不同特征图组之间的图像数据融合。
在本申请的一些实施例中,基于前述方案,所述空间注意力模块由运算模块,拼接模块,卷积模块,激活模块依次连接组成;所述运算模块用于对输入所述空间注意力模块的特征图进行绝对运算以得到绝对特征图,并对所述绝对特征图进行数据处理分别得到输出通道数为一的均值特征图和最大值特征图;
所述拼接模块用于将所述均值特征图与所述最大值特征图进行拼接,以得输出通道数为二的中间特征图;所述卷积模块为1X1卷积,用于对所述中间特征图进行降维处理以得到输出通道数为一的权值张量;所述激活模块用于对所述权值张量进行激活处理以到目标权值张量,并基于所述目标权值张量与所述绝对特征图输出目标特征图。
在本申请的一些实施例中,基于前述方案,所述第一激活层由依次串行的第一分组卷积层,第一运算层,批归一化层,第二通道整合模块,以及第二运算层组成;所述第一运算层用于对输入所述第一运算层的特征图进行绝对运算以得到绝对特征图;所述批归一化层用于对所述绝对特征图进行归一化处理以得到归一特征图;所述第二运算层用于基于所述绝对特征图中第一特征值与所述归一特征图中第二特征值的大小确定目标特征值,并由所述目标特征值构建目标特征图,其中,所述第一特征值与所述第二特征值一一对应。
在本申请的一些实施例中,基于前述方案,所述第二激活层中包括激活函数,所述激活函数为线性整流函数。
根据本申请实施例的第二方面,提供了一种图像识别装置,所述装置包括:构建单元,用于构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;获取单元,用于获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类;输出单元,用于输出由所述图像识别模型识别出的所述待识别图像的分类结果。
根据本申请实施例的第三方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述第一方面任一项所述的方法所执行的操作。
根据本申请实施例的第四方面,提供了一种电子设备,包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条程序代码,所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如上述第一方面任一项所述的方法所执行的操作。
本申请提出的技术方案,通过构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;再通过将待识别的图像输入至图像识别模型以得到待识别的图像的分类结果。由于在用于图像识别的图像识别模型中设计了多个图像特征捕捉模块,能大大降低图像识别模型的参数量和计算量,从而使得本申请提供的图像识别模型能运行于硬件资源有限、功耗低的移动端设备上以实现对图像的识别,即提高了基于神经网络模型进行图像识别的适用性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了根据本申请一个实施例的图像识别方法的流程图;
图2示出了根据本申请一个实施例的神经网络模型的结构示意图;
图3示出了根据本申请一个实施例的第二通道整合模块的结构示意图;
图4示出了根据本申请一个实施例的第一激活层的结构示意图;
图5示出了根据本申请一个实施例的图像识别装置的框图;
图6示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
需要注意的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的技术方案应用的场景包括但不限于图像类型识别、图像分割、人脸识别等等视觉领域方面的应用。
参见图1,示出了根据本申请一个实施例的图像识别方法的流程图,其中,具体包括步骤110至步骤130。
步骤110,构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成。
需要说明的是,可以根据实际应用场景采集不同类型的图像数据作为样本数据,也可以利用现有的一些图像数据集作为样本数据集,示例性的,以CIFAR10图像数据集作为样本数据集,以对构建的神经网络模型进行训练,具体的,对样本图像数据的采集来源在本申请中不做限定。
还需要说明的是,构建的神经网络模型可以是依据AlexNet,VGG11等现有的网络结构进行构建,即可以在AlexNet,VGG11网络结构的基础上进行改进,融入本申请技术方案中设计的图像特征捕捉模块以识别图像。也可以是按照如图2所示设计的神经网络模型以识别图像。
参见图2,根据本申请一个实施例的神经网络模型的结构示意图,图中展示的是设计四个图像特征捕捉模块,其中,每个图像特征捕捉模块的结构设计相同。在本申请中,具体设计图像特征的捕捉模块数量以及每个图像特征捕捉模块中具体的参数的设置,本申请不做限定。
在一些实施方式中,所述第一卷积模块可以为3X3标准卷积单元,所述第二卷积模块可以为1X1标准卷积单元。
在一些实施方式中,图像特征捕捉模块中的第一通道整合模块用于将输入所述图像特征捕捉模块的原始特征图的原始输出通道数降低至预设输出通道数。
具体的,在一种实施方式中,可以是将输入所述图像特征捕捉模块的原始特征图的原始输出通道数与预设的通道放缩系数相乘,以得到预设输出通道数,其中通道放缩系数大于0且小于1,优选的,可以将通道放缩系数确定为0.5。
可以理解,所述第一通道整合模块实际上是对输入所述第一卷积模块的特征图的输出通道进行了降低,从而在一定程度上能降低第一卷积模块的计算量,使得图像识别模型轻量化。
在一些实施方式中,图像特征捕捉模块中的特征图拼接模块由数据运算层,拼接层依次连接组成;所述数据运算层用于对输入所述特征图拼接模块的第一特征图进行数据处理以得到第二特征图;所述拼接层用于对所述第二特征图与所述第一特征图进行拼接,以实现所述第一特征图的输出通道数扩展至所述原始输出通道数。
需要说明的是,所述数据运算层可以是对第一特征图中的特征值取反值以得到第二特征图(即负特征图),也可以根据具体的应用场景处理得到相适应的第二特征图,本申请在此不做限定。
示例性的,以输入特征图为2维张量(矩阵)为例,假设第一特征图为:
经过数据运算层处理可以得到第二特征图为:
还需要说明的是,所述拼接层可以将第二特征图按照第一特征图的深度维度进行拼接,也可以按照第一特征图的长宽维度进行拼接,如果是按照第一特征图的长宽维度进行拼接,则需要对拼接后得到的特征图进行维度调整,以将从长宽维度拼接得到的特征图调整为适应深度维度进行拼接的特征图。
示例性的,如果将上述第一特征图X和第二特征图X-如果按照深度维度进行拼接,则拼接后得到的特征图为:
如果将上述第一特征图和第二特征图按照第一特征图的长宽维度进行拼接,则拼接后得到的特征图为:
则此时需要对得到的拼接图Y0进行维度调整,以将从长宽维度拼接得到的特征图Y0调整为适应深度维度进行拼接的特征图,在一种实施方式中,可以将特征图Y0调整为如下特征图Y2:
可以理解,本实施例通过将输入特征图拼接模块的特征图的输出通道数重新调整为原始输出通道数,可以起到维持神经网络模型形状的作用,提高神经网络模型识别图像数据的准确性。
在一些实施方式中,图像特征捕捉模块中的第二通道整合模块的结构如图3所示。由通道分组模块,数据交换模块,以及维度压缩模块依次连接组成;所述通道分组模块用于将输入所述第二通道整合模块的初始维度的特征图划分为多组特征图组,并将所述初始维度扩展至预设维度;所述数据交换模块用于交换所述多组特征图组中不同特征图组之间的图像数据;所述维度压缩模块用于将所述预设维度压缩至所述初始维度,以实现所述不同特征图组之间的图像数据融合。
参见图3,示出了根据本申请一个实施例的第二通道整合模块的结构示意图。在一种实施方式中,如果与第二通道整合模块相连的卷积为分组卷积,可以依据分组卷积的卷积组数对输入的特征图进行特征图组划分。示例性的,假设与第二通道整合模块相连的卷积为分组卷积(即卷积组数g>1),首先将输入的为初始维度的特征图的输出通道随机分成g组,并且将初始维度扩展至预设维度;然后再使得不同特征组之间进行数据交换;最后将预设维度压缩至与初始维度,以完成不同特征图组之间的图像数据融合,也实现了输入特征图中通道与像素位置的解耦。
在另一种实施方式中,与第二通道相连的卷积为非分组卷积(即卷积组数g=1),在实现通道分组之前可以先使用第一通道整合模块计算可以划分为多少组特征图组,以及每组特征图组中包含多少数量的输出通道数;然后再按照卷积组数g>1的方式完成图像数据信息的融合。
示例性的,假如输入第二通道整合模块的特征图X的初始维度为四维张量(32,32,3,3),其中,第一维度代表输入通道数为32,第二维度代表输出通道数为32,第三维度和第四维度代表卷积核的大小为3X3。使用第一通道整合模块(假设设置通道放缩系数为0.25),则依据第二维度输出通道数与通道放缩系数相乘(即32X0.25=4),得到可以将输出通道数划分为4组,每组包含8个输出通道,即将初始维度扩展为五维张量(32,8,4,3,3),通过数据交换模块交换不同特征图组之间的图像数据,变更为(32,4,8,3,3),最后通过维度压缩模块将五维张量压缩为四维张量(32,32,3,3),以得到新的特征图,实现图像数据间的融合,以及通道与像素位置的解耦。
在一些实施方式中,图像特征捕捉模块中的空间注意力模块由运算模块,拼接模块,卷积模块,激活模块依次连接组成;所述运算模块用于对输入所述空间注意力模块的特征图进行绝对运算以得到绝对特征图,并对所述绝对特征图进行数据处理分别得到输出通道数为一的均值特征图和最大值特征图;所述拼接模块用于将所述均值特征图与所述最大值特征图进行拼接,以得输出通道数为二的中间特征图;所述卷积模块为1X1卷积,用于对所述中间特征图进行降维处理以得到输出通道数为一的权值张量;所述激活模块用于对所述权值张量进行激活处理以到目标权值张量,并基于所述目标权值张量与所述绝对特征图输出目标特征图。
需要说明的是,对输入空间注意力模块的特征图首先取其绝对值,以得到非负的绝对特征图,再在指定维度对绝对特征图取均值和最大值,得到通道数为1的均值特征图和通道数为1的最大值特征图;然后将均值特征图和最大值特征按通道进行拼接,得到通道数为2的中间特征图;再使用1X1卷积,对中间特征图进行降维,实现特征图跨通道图像数据信息融合,输出通道数为1的权值张量。
最后输入激活模块,所述激活模块包括激活层和乘法器;激活层,可以选用Softmax、Sigmoid等激活函数,将权值张量的值限定在(0,1)内作为目标权值张量;使用乘法器将目标权值张量与绝对特征图相乘,得到目标特征图并输出。在本实施例中,由于绝对值运算的加入,可以保证输出的目标特征图的所有值都非负。
示例性的,假设输入空间注意力模块的输入特征图X的维度是(32,32,3,3),取绝对值得到维度相同的绝对特征图Y;按输出通道维度对Y取均值和最大值,得到维度是(32,1,3,3)的均值特征图和维度是(32,1,3,3)的最大值特征图;拼接后,得到维度是(32,2,3,3)的中间特征图;用1X1卷积,对中间特征图进行降维,得到维度是(32,1,3,3)的权值张量Z;最后激活层将Z的值限定在(0,1)内,乘法器将绝对特征图Y和Z相乘,得到维度与特征图X相同的目标特征图。
在一些实施方式中,图像特征捕捉模块中第一激活层的结构如图4所示,由依次串行的第一分组卷积层,第一运算层,批归一化层,第二通道整合模块,以及第二运算层组成;所述第一运算层用于对输入所述第一运算层的特征图进行绝对运算以得到绝对特征图;所述批归一化层用于对所述绝对特征图进行归一化处理以得到归一特征图;所述第二运算层用于基于所述绝对特征图中第一特征值与所述归一特征图中第二特征值的大小确定目标特征值,并由所述目标特征值构建目标特征图,其中,所述第一特征值与所述第二特征值一一对应。
在一些实施方式中,第一分组卷积可以是1X1分组卷积。第二运算层可以取绝对特征图中第一特征值与所述归一特征图中第二特征值的中的最大值作为目标特征值。
示例性的,第一运算层对1X1分组卷积输出的特征图取绝对值运算,得到绝对特征图X,再经过批归一化层后得到非负的归一特征图X1,第二运算层则是比较绝对特征图X和归一特征图Z中特征值的大小,取二者中的最大值组成新的目标特征图Y。即,Y(a,b,c,d)=max{X(a,b,c,d),X1(a,b,c,d)}。
在一些实施方式中,图像特征捕捉模块中的第二激活层中包括激活函数,所述激活函数为线性整流函数。
继续参见图1,步骤120,获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类。
继续参见图1,步骤130,输出由所述图像识别模型识别出的所述待识别图像的分类结果。
为了更好的说明本申请提出的技术方案的有益效果,下面将结合表1至表5说明融入本申请提出的图像特征捕捉模块设计不同的神经网络模型,利用CIFAR10图像数据集进行模型训练并进行图像识别,在参数量,计算量以及准确率上的对比。
对表1,表2和表3的说明如下:
表1,代表AlexNet神经网络模型的参数设置表,以及将本申请提出的图像特征捕捉模块替代AlexNet神经网络模型中Conv3X3+ReLU模块构成的Alex_Like神经网络模型的参数设置表。其中,序号1-序号5中设置参数从左至右依次代表输入通道数,输出通道数,卷积核大小,步幅(stride)大小,填充(padding)值,以及组数(groups);序号6至序号8中设置参数从左至右依次代表输入通道数,输出通道数;且AlexNet神经网络模型和Alex_Like神经网络模型两种结构单元均不使用偏置(bias=False)。
表2,代表VGG11神经网络模型的参数设置表,以及将本申请提出的图像特征捕捉模块替代VGG11神经网络模型中的Conv构成的VGG11_Like神经网络模型的参数设置表。其中,Conv或图像特征捕捉模块中设置参数从左至右依次代表输入通道数,输出通道数,卷积核大小,步幅(stride)大小,填充(padding)值,以及组数(groups);全连接层中设置参数从左至右依次代表输入通道数,输出通道数;池化层(Maxpooling和AvgPooling)中设置参数从左至右依次代表卷积核大小,步幅大小;且VGG11神经网络模型和VGG11_Like神经网络模型两种结构单元均不使用偏置(bias=False)。
表3,代表如图2所示的神经网络模型构成的轻量化神经网络模型,即由依次串行的输入层,四个图像特征捕捉模块,全连接层以及输出层组成。其中图像特征捕捉模块中中设置参数从左至右依次代表输入通道数,输出通道数,卷积核大小,步幅(stride)大小,填充(padding)值,以及组数(groups);全连接层中设置参数从左至右依次代表输入通道数,输出通道数;且轻量化神经网络模型中不使用偏置(bias=False)。
表1
表2
表3
对表4和表5的说明如下:
表4代表在利用CIFAR10图像数据集对AlexNet神经网络模型、Alex_Like神经网络模型、VGG11神经网络模型、VGG11_Like神经网络模型以及轻量化神经网络模型进行训练的实验环境。
表5代表对AlexNet神经网络模型、Alex_Like神经网络模型、VGG11神经网络模型、VGG11_Like神经网络模型以及轻量化神经网络模型训练后在识别图像过程中参数量、计算量以及准确率上的对比。实验1代表Alex_Like神经网络模型和轻量化神经网络模型与AlexNet神经网络模型的对比;实验2代表VGG11_Like神经网络模型与VGG11神经网络模型的对比。
表4
表5
通过表5,可以清楚的看出,使用本申请提出的图像特征捕捉模块构成的Alex_Like神经网络模型,与AlexNet神经网络模型相比,在相同的设置参数的情景下可以减少8.27%的参数量和22.92%的计算量,且准确率较AlexNet神经网络模型的75.70%提高了16.47%。
还可以看出,使用本申请提出的图像特征捕捉模块构成的VGG11_Like神经网络模型,与VGG11神经网络模型相比,在相同的设置参数的情景下可以减少36.11%的参数量和30.33%的计算量,且准确率较VGG11神经网络模型的91.80%提高了1.50%。
还可以看出本申请提出的轻量化神经网络模型,与AlexNet神经网络模型相比减少92.18%的参数量和85.26%的计算量,且准确率较AlexNet神经网络模型的75.70%提高了15.22%。
由以上表1至表5的实验数据表明,通过使用本申请提出的图像特征捕捉模块构成的神经网络模型,应用于图像识别,能大大降低参数量和计算量,并且在一定程度上提高图像识别的准确率,因此使得本申请提供的图像识别模型能运行于硬件资源有限、功耗低的移动端设备上,提高基于神经网络模型进行图像识别的适用性。
在本申请的一些实施例所提供的技术方案中,通过构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;再通过将待识别的图像输入至图像识别模型以得到待识别的图像的分类结果。由于在用于图像识别的图像识别模型中设计了多个图像特征捕捉模块,能大大降低图像识别模型的参数量和计算量,从而使得本申请提供的图像识别模型能运行于硬件资源有限、功耗低的移动端设备上以实现对图像的识别,即提高了基于神经网络模型进行图像识别的适用性。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的图像识别方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的图像识别方法的实施例。
图5示出了根据本申请的一个实施例的图像识别装置的框图。
参照图5所示,根据本申请的一个实施例的图像识别装置500,包括:构建单元501,获取单元502和输出单元503。
其中,构建单元501,用于构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;获取单元502,用于获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类;输出单元503,用于输出由所述图像识别模型识别出的所述待识别图像的分类结果。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述第一通道整合模块用于将输入所述图像特征捕捉模块的原始特征图的原始输出通道数降低至预设输出通道数。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述特征图拼接模块由数据运算层,拼接层依次连接组成;所述数据运算层用于对输入所述特征图拼接模块的第一特征图进行数据处理以得到第二特征图;所述拼接层用于对所述第二特征图与所述第一特征图进行拼接,以实现所述第一特征图的输出通道数扩展至所述原始输出通道数。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述第二通道整合模块由通道分组模块,数据交换模块,以及维度压缩模块依次连接组成;所述通道分组模块用于将输入所述第二通道整合模块的初始维度的特征图划分为多组特征图组,并将所述初始维度扩展至预设维度;所述数据交换模块用于交换所述多组特征图组中不同特征图组之间的图像数据;所述维度压缩模块用于将所述预设维度压缩至所述初始维度,以实现所述不同特征图组之间的图像数据融合。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述空间注意力模块由运算模块,拼接模块,卷积模块,激活模块依次连接组成;
所述运算模块用于对输入所述空间注意力模块的特征图进行绝对运算以得到绝对特征图,并对所述绝对特征图进行数据处理分别得到输出通道数为一的均值特征图和最大值特征图;所述拼接模块用于将所述均值特征图与所述最大值特征图进行拼接,以得输出通道数为二的中间特征图;所述卷积模块为1X1卷积,用于对所述中间特征图进行降维处理以得到输出通道数为一的权值张量;
所述激活模块用于对所述权值张量进行激活处理以到目标权值张量,并基于所述目标权值张量与所述绝对特征图输出目标特征图。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述第一激活层由依次串行的第一分组卷积层,第一运算层,批归一化层,第二通道整合模块,以及第二运算层组成;所述第一运算层用于对输入所述第一运算层的特征图进行绝对运算以得到绝对特征图;所述批归一化层用于对所述绝对特征图进行归一化处理以得到归一特征图;所述第二运算层用于基于所述绝对特征图中第一特征值与所述归一特征图中第二特征值的大小确定目标特征值,并由所述目标特征值构建目标特征图,其中,所述第一特征值与所述第二特征值一一对应。
在本申请的一些实施例中,基于前述方案,所述构建单元501还包括:所述第二激活层中包括激活函数,所述激活函数为线性整流函数。
图6示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(Central Processing Unit,CPU)601,其可以根据存储在只读存储器(Read-Only Memory,ROM)602中的程序或者从储存部分608加载到随机访问存储器(Random Access Memory,RAM)603中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(Input/Output,I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分607;包括硬盘等的储存部分608;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入储存部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中所述的图像识别方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的图像识别方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种图像识别方法,其特征在于,所述方法包括:
构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;
获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类;
输出由所述图像识别模型识别出的所述待识别图像的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述第一通道整合模块用于将输入所述图像特征捕捉模块的原始特征图的原始输出通道数降低至预设输出通道数。
3.根据权利要求2所述的方法,其特征在于,所述特征图拼接模块由数据运算层,拼接层依次连接组成;
所述数据运算层用于对输入所述特征图拼接模块的第一特征图进行数据处理以得到第二特征图;
所述拼接层用于对所述第二特征图与所述第一特征图进行拼接,以实现所述第一特征图的输出通道数扩展至所述原始输出通道数。
4.根据权利要求1所述的方法,其特征在于,所述第二通道整合模块由通道分组模块,数据交换模块,以及维度压缩模块依次连接组成;
所述通道分组模块用于将输入所述第二通道整合模块的初始维度的特征图划分为多组特征图组,并将所述初始维度扩展至预设维度;
所述数据交换模块用于交换所述多组特征图组中不同特征图组之间的图像数据;
所述维度压缩模块用于将所述预设维度压缩至所述初始维度,以实现所述不同特征图组之间的图像数据融合。
5.根据权利要求1所述的方法,其特征在于,所述空间注意力模块由运算模块,拼接模块,卷积模块,激活模块依次连接组成;
所述运算模块用于对输入所述空间注意力模块的特征图进行绝对运算以得到绝对特征图,并对所述绝对特征图进行数据处理分别得到输出通道数为一的均值特征图和最大值特征图;
所述拼接模块用于将所述均值特征图与所述最大值特征图进行拼接,以得输出通道数为二的中间特征图;
所述卷积模块为1X1卷积,用于对所述中间特征图进行降维处理以得到输出通道数为一的权值张量;
所述激活模块用于对所述权值张量进行激活处理以到目标权值张量,并基于所述目标权值张量与所述绝对特征图输出目标特征图。
6.根据权利要求1所述的方法,其特征在于,所述第一激活层由依次串行的第一分组卷积层,第一运算层,批归一化层,第二通道整合模块,以及第二运算层组成;
所述第一运算层用于对输入所述第一运算层的特征图进行绝对运算以得到绝对特征图;
所述批归一化层用于对所述绝对特征图进行归一化处理以得到归一特征图;
所述第二运算层用于基于所述绝对特征图中第一特征值与所述归一特征图中第二特征值的大小确定目标特征值,并由所述目标特征值构建目标特征图,其中,所述第一特征值与所述第二特征值一一对应。
7.根据权利要求1所述的方法,其特征在于,所述第二激活层中包括激活函数,所述激活函数为线性整流函数。
8.一种图像识别装置,其特征在于,所述装置包括:
构建单元,用于构建神经网络模型,并通过预先采集的样本图像数据对所述神经网络模型进行训练,得到图像识别模型,所述神经网络模型由依次串行的输入层,多个图像特征捕捉模块,全连接层,以及输出层组成,其中,所述图像特征捕捉模块由依次串行的第一通道整合模块,第一卷积模块,特征图拼接模块,第二通道整合模块,空间注意力模块,第一激活层,第二卷积模块,以及第二激活层组成;
获取单元,用于获取待识别图像,将所述待识别图像输入所述图像识别模型,以由所述图像识别模型对所述待识别图像进行分类;
输出单元,用于输出由所述图像识别模型识别出的所述待识别图像的分类结果。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至7任一项所述的方法所执行的操作。
10.一种电子设备,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如权利要求1至7中任一所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211555432.XA CN115909009A (zh) | 2022-12-06 | 2022-12-06 | 图像识别方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211555432.XA CN115909009A (zh) | 2022-12-06 | 2022-12-06 | 图像识别方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115909009A true CN115909009A (zh) | 2023-04-04 |
Family
ID=86470822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211555432.XA Pending CN115909009A (zh) | 2022-12-06 | 2022-12-06 | 图像识别方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115909009A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740414A (zh) * | 2023-05-15 | 2023-09-12 | 中国科学院自动化研究所 | 图像识别方法、装置、电子设备和存储介质 |
-
2022
- 2022-12-06 CN CN202211555432.XA patent/CN115909009A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116740414A (zh) * | 2023-05-15 | 2023-09-12 | 中国科学院自动化研究所 | 图像识别方法、装置、电子设备和存储介质 |
CN116740414B (zh) * | 2023-05-15 | 2024-03-01 | 中国科学院自动化研究所 | 图像识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
CN111950723A (zh) | 神经网络模型训练方法、图像处理方法、装置及终端设备 | |
WO2022105125A1 (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN109711508B (zh) | 图像处理方法和装置 | |
CN109034206A (zh) | 图像分类识别方法、装置、电子设备及计算机可读介质 | |
CN112668588B (zh) | 车位信息生成方法、装置、设备和计算机可读介质 | |
CN107832794A (zh) | 一种卷积神经网络生成方法、车系识别方法及计算设备 | |
CN112288087A (zh) | 一种神经网络剪枝方法、装置、电子设备及存储介质 | |
CN113095475A (zh) | 一种神经网络的训练方法、图像处理方法以及相关设备 | |
CN113065997B (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
US20220374219A1 (en) | Deployment of service | |
CN111985597A (zh) | 模型压缩方法及装置 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN117616424A (zh) | 用于平衡权重中的稀疏性以用于加速深度神经网络的系统和方法 | |
CN112529068A (zh) | 一种多视图图像分类方法、系统、计算机设备和存储介质 | |
CN111104941B (zh) | 图像方向纠正方法、装置及电子设备 | |
CN115909009A (zh) | 图像识别方法、装置、存储介质及电子设备 | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN112069412B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN112183303A (zh) | 变电设备图像分类方法、装置、计算机设备和介质 | |
CN111967478A (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN113705686B (zh) | 图像分类方法、装置、电子设备及可读存储介质 | |
CN116168267A (zh) | 一种多任务神经网络模型的训练方法、装置、设备及介质 | |
CN111429388A (zh) | 一种图像处理方法、装置和终端设备 | |
CN113168555A (zh) | 减少卷积神经网络的资源消耗的系统及相关方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |