CN112149694A - 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 - Google Patents
一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN112149694A CN112149694A CN202010888339.5A CN202010888339A CN112149694A CN 112149694 A CN112149694 A CN 112149694A CN 202010888339 A CN202010888339 A CN 202010888339A CN 112149694 A CN112149694 A CN 112149694A
- Authority
- CN
- China
- Prior art keywords
- pooling
- image
- generate
- layer
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011176 pooling Methods 0.000 title claims abstract description 187
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 66
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 67
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 239000011159 matrix material Substances 0.000 claims abstract description 31
- 230000008707 rearrangement Effects 0.000 claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端,该方法包括:采集目标图像生成多个特征图;将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层;基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
Description
技术领域
本发明涉及计算机的深度学习技术领域,特别涉及一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端。
背景技术
随着深度学习的兴起,作为深度学习技术之一,卷积神经网络在计算机视觉领域得到越来越多的发展和应用,卷积神经网络(Convolutional Neural Networks,CNN)在现代计算机视觉任务中扮演着重要的角色。CNN一般是由卷积、池化、激活函数和全连接等层所构成。其中的池化层用于减小模型参数量,并且对图像中感兴趣目标微小的平移操作具有一定的不变性。
现有的池化方法可以分为最大池化、平均池化、全局池化、步长池化和感知器池化等类别,目前在计算机视觉领域中,通过卷积神经网络提取图像特征时,使用最多的就是感知器池化,感知器池化方法主要是利用感知器的线性加权原理,对窗口内的像素和感知器的权重参数进行相乘。由于当前感知器池化方法对每一个池化块都需要训练出权重参数和偏置参数,相应的模型参数量和计算量也较大,从而导致卷积神经网络模型对原始图像识别的准确率大幅度下降。
发明内容
本申请实施例提供了一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种基于卷积神经网络池化模块的图像处理方法,方法包括:
采集目标图像生成多个特征图;
将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
可选的,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层;
将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,包括:
从多个特征图中获取任一特征图作为输入特征图;
图像预处理层对输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
向量拼接层将输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
可选的,方法还包括:
将多个特征图中各特征图执行权利要求2中的方法步骤,生成各特征图对应的池化结果。
可选的,预处理,包括:
图像预处理层对输入特征图按照预设窗口尺寸进行分组,生成输入特征图对应的多组像素;以及
获取多组像素中各组像素在窗口中不同位置的编号次序;
图像预处理层基于不同位置的编号次序进行组合,生成输入特征图对应的多组向量。
可选的,采集目标图像生成多个特征图,包括:
获取目标图像;
采用卷积神经网络中的卷积核与目标图像进行卷积,得到多个特征图。
第二方面,本申请实施例提供了一种基于卷积神经网络池化模块的图像处理系统,系统包括:
特征图生成模块,用于采集目标图像生成多个特征图;
特征图池化模块,用于将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
任务执行模块,用于输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
可选的,特征图池化模块,包括:
特征图选取单元,用于从多个特征图中获取任一特征图作为输入特征图;
向量生成单元,用于图像预处理层对输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
矩阵生成单元,用于向量拼接层将输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权单元,用于像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
结果生成单元,用于元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,图像处理装置首先采集目标图像生成多个特征图,然后将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,最后基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种基于卷积神经网络池化模块的图像处理方法的流程示意图;
图2是本申请实施例提供的一种基于卷积神经网络池化模块的图像处理过程的过程示意图;
图3是本申请实施例提供的另一种基于卷积神经网络池化模块的图像处理方法的流程示意图;
图4是本申请实施例提供的一种基于卷积神经网络池化模块的图像处理系统的系统示意图;
图5是本申请实施例提供的一种特征图池化模块的模块示意图;
图6是本申请实施例提供的一种终端示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
到目前为止,通过卷积神经网络提取图像特征时,使用最多的就是感知器池化,感知器池化方法主要是利用感知器的线性加权原理,对窗口内的像素和感知器的权重参数进行相乘。由于当前感知器池化方法对每一个池化块都需要训练出权重参数和偏置参数,相应的模型参数量和计算量也较大,从而导致卷积神经网络模型对原始图像识别的准确率大幅度下降。为此,本申请提供了一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图3,对本申请实施例提供的基于卷积神经网络池化模块的图像处理方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的基于卷积神经网络池化模块的图像处理系统上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
请参见图1,为本申请实施例提供了一种基于卷积神经网络池化模块的图像处理方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,采集目标图像生成多个特征图;
其中,图像是人类的视觉基础,“图”是物体反射或投射光的分布,“像”是人的视觉系统所接受的图在人脑中所形成的印象或认识,例如照片、绘画、剪贴画、地图等都是图像。目标图像是采集到的一张或多张包含信息的载体,是客观信息的一种表示,包含了被描述对象的有关信息。特征图是采用卷积神经网络中的卷积核将目标图像进行卷积处理后生成的特征图像。
通常,在本申请中,采集的目标图像可以是用户通过摄像头实时采集的连续图像帧,也可以是保存在用户终端图像库中的照片,还可以是云端保存的图像,针对图像采集的方式可以有很多种,此处不做限定。
在一种可行的实现方式中,用户通过采集目标图像输入图像处理装置中,当图像处理装置接收到采集的目标图像后,获取预先保存的卷积神经网络模型,通过卷积神经网络中的卷积核与采集的目标图像进行卷积操作,生成原始图像对应的多层特征映射图像,针对某层特征映射图像的每个通道对应一个子特征图,从而生成多个特征映射图(即多个特征图)。
为了描述方便,本申请实施例通过连接在用户终端的鼠标选中图像识别按钮,用户终端响应于该操作进行目标图像采集和卷积生成特征图为例进行说明。
例如:用户小明想让用户终端实时进行人脸识别,此时小明打开用户终端(例如智能电脑以及智能机器人上的智能终端),通过外部连接的设备(鼠标)单击图像识别按钮(button)生成指令,用户终端响应于该指令后实施采集人脸图像,用户终端当采集到人脸图像时,加载预先保存的卷积神经网络模型,然后将采集到的人脸图像输入到卷积神经网络模型中,卷积神经网络模型首先根据其中的卷积核与目标图像进行卷积操作,从而生成多个目标图像对应的特征映射图。
S102,将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
其中,神经网络为卷积神经网络,池化模块为卷积神经网络中的多个池化块,每个池化块的参数通过预先训练学习得到。池化操作是每个池化块根据预先训练学习得到的参数针对目标图像进行处理。
通常,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,当针对特征图进行池化时,将特征图依次输入图像预处理层、向量拼接层、像素加权层和元素重排层中进行处理,从而得到池化结果。
在一种可行的实现方式中,图像处理装置利用卷积神经网络进行池化操作时,首先从所述多个特征图中获取任一特征图作为输入特征图,再通过图像预处理层对所述输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量,然后采用向量拼接层将所述输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵,再根据像素加权层对所述输入特征图的图像矩阵中的图像像素按照预设卷积参数进行线性加权,生成加权后的向量,最后通过元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
进一步地,通过图像预处理层对所述输入特征图按照预设窗口尺寸进行预处理时,图像预处理层首先对输入特征图按照预设窗口尺寸进行分组,生成输入特征图对应的多组像素,然后获取所述多组像素中各组像素在所述窗口中不同位置的编号次序,图像预处理层最后基于所述不同位置的编号次序进行组合,生成输入特征图对应的多组向量。
进一步地,获取下一张特征图再输入卷积神经网络池化模块中进行处理生成池化结果,依次循环,直到目标图像的特征图全部池化完成时,停止池化操作生成多个特征图对应的池化结果。
具体的,例如图2所示,图2是本申请实施例提供的池化模块对特征映射图池化的过程示意图,特征图按照设定的池化窗口尺寸2x2大小进行划分为4个组G1、G2、G3以及G4,每个组对应窗口中不同位置的像素按照次序组成的一个向量,再将分组后的向量拼接成一个图像矩阵,对拼接后的向量矩阵进行线性加权处理,最后将加权后的向量中的元素进行重排,生成输入特征图的池化结果。
S103,输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
其中,池化结果是从目标图像中提取到的更高阶的特征,目的是通过池化操作忽略一些细节信息,强行让卷积神经网络学到的更多更高级的图像语义特征。计算机视觉任务例如基于深度学习的图像分类、人脸识别等应用场景。
在一种可行的实现方式中,在基于步骤S102得到目标图像的多个特征图对应的池化结果后,输出多个特征图对应的池化结果,并将得到的多个特征图对应的池化结果用于分类、聚类、相似度计算或人脸识别等各种计算机视觉任务。
在本申请实施例中,图像处理装置首先采集目标图像生成多个特征图,然后将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,最后基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
请参见图3,为本申请实施例提供的一种基于卷积神经网络池化模块的图像处理方法的流程示意图。该基于卷积神经网络池化模块的图像处理方法可以包括以下步骤:
S201,采集目标图像生成多个特征图;
在一种可行的实现方式中,利用卷积神经网络将目标图像处理后得到一系列层的特征图,其中每个层的特征图包含多个通道,每个通道对应一个特征图。
需要说明的是,这里的采用卷积神经网络池化模块中的池化操作是针对每个层的每个特征图进行池化处理的。
S202,从多个特征图中获取任一特征图作为输入特征图;
S203,图像预处理层对输入特征图按照预设窗口尺寸进行分组,生成输入特征图对应的多组像素,以及获取多组像素中各组像素在窗口中不同位置的编号次序;
例如,通常的池化窗口尺寸参数为2x2,针对每个特征图,按照窗口尺寸的大小2x2将每个特征图分为4个组,每个组对应窗口中不同位置的像素按照次序组成一个向量。如果池化窗口为3x3,则相应分为9个组。进一步地,为了使用1x1卷积对图像像素进行线性加权处理,需要将分组后的向量拼接起来组成一个图像矩阵。
S204,向量拼接层将输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
S205,像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
例如,对拼接后的图像矩阵,使用1x1卷积只进行线性加权处理,不需要激活函数处理,这种操作类似于感知器池化方法,对池化窗口下的像素线性加权。对各组相同位置的像素进行加权处理后,将得到与每组大小一样的向量。假设图像矩阵尺寸为8*1*4,那么1x1卷积的卷积核大小为1*1*4*1,最后输出向量尺寸为8*1。
其中,感知器池化方法是在池化窗口下对特征图中的相应像素进行线性加权,主要是利用感知器的线性加权原理,对窗口内的像素和感知器的权重参数进行相乘,得到池化计算后的结果。
S206,元素重排层将所述加权后的向量中向量的元素进行重排,生成输入特征图的池化结果;
例如,为了与原始特征图池化操作得到结果一致,需要对向量中的元素进行重排,恢复到跟原始池化结果一样的位置,因此重排处理后就得到每个特征图的池化结果。
S207,是否存在其他特征图;
通常,对每个层的每个特征图都进行上述池化操作,将得到每层特征图的最终池化处理结果。
在本申请中,判断是否还存在未处理完的特征图,当存在时,返回S202继续执行,否则执行S208。
S208,输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
在本申请实施例中,图像处理装置首先采集目标图像生成多个特征图,然后将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,最后基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。
请参见图4,其示出了本发明一个示例性实施例提供的基于卷积神经网络池化模块的图像处理系统的结构示意图。该基于卷积神经网络池化模块的图像处理系统可以通过软件、硬件或者两者的结合实现成为智能机器人的全部或一部分。该系统1包括特征图生成模块10、特征图池化模块20、任务执行模块30。
特征图生成模块10,用于采集目标图像生成多个特征图;
特征图池化模块20,用于将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
任务执行模块30,用于输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
可选的,例如图5所示,特征图池化模块20包括:
特征图选取单元201,用于从多个特征图中获取任一特征图作为输入特征图;
向量生成单元202,用于图像预处理层对输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
矩阵生成单元203,用于向量拼接层将输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权单元204,用于像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
结果生成单元205,用于元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
需要说明的是,上述实施例提供的基于卷积神经网络池化模块的图像处理系统在执行基于卷积神经网络池化模块的图像处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于卷积神经网络池化模块的图像处理系统与基于卷积神经网络池化模块的图像处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,图像处理装置首先采集目标图像生成多个特征图,然后将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,最后基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的基于卷积神经网络池化模块的图像处理方法。
本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的基于卷积神经网络池化模块的图像处理方法。
请参见图6,为本申请实施例提供了一种终端的结构示意图。如图6所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于卷积神经网络池化模块的图像处理应用程序。
在图6所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的基于卷积神经网络池化模块的图像处理应用程序,并具体执行以下操作:
采集目标图像生成多个特征图;
将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
在一个实施例中,处理器1001在执行将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果时,具体执行以下操作:
从多个特征图中获取任一特征图作为输入特征图;
图像预处理层对输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
向量拼接层将输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
在一个实施例中,处理器1001在执行图像预处理层对输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量时,具体执行以下操作:
图像预处理层对输入特征图按照预设窗口尺寸进行分组,生成输入特征图对应的多组像素;以及
获取多组像素中各组像素在窗口中不同位置的编号次序;
图像预处理层基于不同位置的编号次序进行组合,生成输入特征图对应的多组向量。
在一个实施例中,处理器1001在执行采集目标图像生成多个特征图时,具体执行以下操作:
获取目标图像;
采用卷积神经网络中的卷积核与目标图像进行卷积,得到多个特征图。
在本申请实施例中,图像处理装置首先采集目标图像生成多个特征图,然后将多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层,最后基于多个特征图的池化结果控制执行计算机视觉任务。因此,采用本申请实施例,由于本申请使用卷积神经网络模型对图像卷积后进行池化操作时,通过预设池化模块对卷积后的特征图进行分组拼接并使用1x1卷积对分组拼接后的特征图矩阵进行线性加权,从而减少了模型的参数量和计算量,使得进一步提取更高级的图像语义特征,从而提升了卷积神经网络对图像识别的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种基于卷积神经网络池化模块的图像处理方法,其特征在于,所述方法包括:
采集目标图像生成多个特征图;
将所述多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
2.根据权利要求1所述的方法,所述池化模块包括图像预处理层、向量拼接层、像素加权层和元素重排层;
所述将所述多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果,包括:
从所述多个特征图中获取任一特征图作为输入特征图;
图像预处理层对所述输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
向量拼接层将所述输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述多个特征图中各特征图执行所述权利要求2中的方法步骤,生成各特征图对应的池化结果。
4.根据权利要求2所述的方法,其特征在于,所述预处理,包括:
图像预处理层对所述输入特征图按照预设窗口尺寸进行分组,生成输入特征图对应的多组像素;以及
获取所述多组像素中各组像素在所述窗口中不同位置的编号次序;
图像预处理层基于所述不同位置的编号次序进行组合,生成输入特征图对应的多组向量。
5.根据权利要求1所述的方法,其特征在于,所述采集目标图像生成多个特征图,包括:
获取目标图像;
采用卷积神经网络中的卷积核与所述目标图像进行卷积,得到多个特征图。
6.根据权利要求2所述的方法,其特征在于,所述一维卷积为1x1的卷积参数。
7.一种基于卷积神经网络池化模块的图像处理系统,其特征在于,所述系统包括:
特征图生成模块,用于采集目标图像生成多个特征图;
特征图池化模块,用于将所述多个特征图依次输入卷积神经网络池化模块中进行池化操作,生成多个特征图的池化结果;
任务执行模块,用于输出所述多个特征图的池化结果,并基于所述多个特征图的池化结果控制执行计算机视觉任务。
8.根据权利要求7所述的系统,其特征在于,所述特征图池化模块,包括:
特征图选取单元,用于从所述多个特征图中获取任一特征图作为输入特征图;
向量生成单元,用于图像预处理层对所述输入特征图按照预设窗口尺寸进行预处理,生成输入特征图对应的多组向量;
矩阵生成单元,用于向量拼接层将所述输入特征图对应的多组向量进行拼接后生成输入特征图的图像矩阵;
像素加权单元,用于像素加权层对所述输入特征图的图像矩阵逐列使用一维卷积进行线性加权,生成加权后的向量;
结果生成单元,用于元素重排层将所述加权后的向量中的元素进行重排,生成输入特征图的池化结果。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~6任意一项的方法步骤。
10.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~6任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010888339.5A CN112149694B (zh) | 2020-08-28 | 2020-08-28 | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010888339.5A CN112149694B (zh) | 2020-08-28 | 2020-08-28 | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149694A true CN112149694A (zh) | 2020-12-29 |
CN112149694B CN112149694B (zh) | 2024-04-05 |
Family
ID=73890170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010888339.5A Active CN112149694B (zh) | 2020-08-28 | 2020-08-28 | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149694B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686269A (zh) * | 2021-01-18 | 2021-04-20 | 北京灵汐科技有限公司 | 池化方法、装置、设备和存储介质 |
CN112991142A (zh) * | 2021-03-31 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 图像数据的矩阵运算方法、装置、设备及存储介质 |
CN113379624A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 图像生成方法、图像生成模型的训练方法、装置及设备 |
CN113806261A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种面向向量处理器的池化向量化实现方法 |
WO2023169369A1 (zh) * | 2022-03-11 | 2023-09-14 | 浪潮(北京)电子信息产业有限公司 | 一种行人重识别方法、系统、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130120393A1 (en) * | 2009-09-04 | 2013-05-16 | Holger Winnemoeller | Methods and Apparatus for Marker-Based Stylistic Rendering |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
CN109996023A (zh) * | 2017-12-29 | 2019-07-09 | 华为技术有限公司 | 图像处理方法和装置 |
CN110473137A (zh) * | 2019-04-24 | 2019-11-19 | 华为技术有限公司 | 图像处理方法和装置 |
CN110490813A (zh) * | 2019-07-05 | 2019-11-22 | 特斯联(北京)科技有限公司 | 卷积神经网络的特征图增强方法、装置、设备及介质 |
US20200090028A1 (en) * | 2018-09-19 | 2020-03-19 | Industrial Technology Research Institute | Neural network-based classification method and classification device thereof |
CN111247527A (zh) * | 2017-12-20 | 2020-06-05 | 华为技术有限公司 | 在卷积神经网络模型中确定特征图像的方法和装置 |
-
2020
- 2020-08-28 CN CN202010888339.5A patent/CN112149694B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130120393A1 (en) * | 2009-09-04 | 2013-05-16 | Holger Winnemoeller | Methods and Apparatus for Marker-Based Stylistic Rendering |
CN104915322A (zh) * | 2015-06-09 | 2015-09-16 | 中国人民解放军国防科学技术大学 | 一种卷积神经网络硬件加速方法及其axi总线ip核 |
CN111247527A (zh) * | 2017-12-20 | 2020-06-05 | 华为技术有限公司 | 在卷积神经网络模型中确定特征图像的方法和装置 |
CN109996023A (zh) * | 2017-12-29 | 2019-07-09 | 华为技术有限公司 | 图像处理方法和装置 |
US20200090028A1 (en) * | 2018-09-19 | 2020-03-19 | Industrial Technology Research Institute | Neural network-based classification method and classification device thereof |
CN110473137A (zh) * | 2019-04-24 | 2019-11-19 | 华为技术有限公司 | 图像处理方法和装置 |
CN110490813A (zh) * | 2019-07-05 | 2019-11-22 | 特斯联(北京)科技有限公司 | 卷积神经网络的特征图增强方法、装置、设备及介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686269A (zh) * | 2021-01-18 | 2021-04-20 | 北京灵汐科技有限公司 | 池化方法、装置、设备和存储介质 |
CN112991142A (zh) * | 2021-03-31 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 图像数据的矩阵运算方法、装置、设备及存储介质 |
CN112991142B (zh) * | 2021-03-31 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 图像数据的矩阵运算方法、装置、设备及存储介质 |
CN113379624A (zh) * | 2021-05-31 | 2021-09-10 | 北京达佳互联信息技术有限公司 | 图像生成方法、图像生成模型的训练方法、装置及设备 |
CN113806261A (zh) * | 2021-10-09 | 2021-12-17 | 中国人民解放军国防科技大学 | 一种面向向量处理器的池化向量化实现方法 |
CN113806261B (zh) * | 2021-10-09 | 2023-06-20 | 中国人民解放军国防科技大学 | 一种面向向量处理器的池化向量化实现方法 |
WO2023169369A1 (zh) * | 2022-03-11 | 2023-09-14 | 浪潮(北京)电子信息产业有限公司 | 一种行人重识别方法、系统、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112149694B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149694B (zh) | 一种基于卷积神经网络池化模块的图像处理方法、系统、存储介质及终端 | |
CN111104962B (zh) | 图像的语义分割方法、装置、电子设备及可读存储介质 | |
JP7286013B2 (ja) | ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
US20160196672A1 (en) | Graph image representation from convolutional neural networks | |
CN108647585A (zh) | 一种基于多尺度循环注意力网络的交通标识符检测方法 | |
KR102140805B1 (ko) | 위성 영상의 물체 식별을 위한 뉴럴 네트워크 학습 방법 및 장치 | |
CN111563502A (zh) | 图像的文本识别方法、装置、电子设备及计算机存储介质 | |
CN113822951B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN115147598B (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN111611925A (zh) | 一种建筑物检测与识别方法及装置 | |
CN114429641A (zh) | 一种时序动作检测方法、装置、存储介质及终端 | |
CN113011320A (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN115578590A (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
CN113744280B (zh) | 图像处理方法、装置、设备及介质 | |
CN113158970B (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
CN112861678B (zh) | 一种图像识别方法及装置 | |
CN111639523B (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN111967478A (zh) | 一种基于权重翻转的特征图重构方法、系统、存储介质及终端 | |
CN114418064B (zh) | 一种目标检测方法、终端设备及存储介质 | |
CN113516670B (zh) | 一种反馈注意力增强的非模式图像分割方法及装置 | |
CN114140543A (zh) | 基于U2net的多通道输出方法、系统、计算机设备及存储介质 | |
CN113642353A (zh) | 一种人脸检测模型的训练方法、存储介质及终端设备 | |
CN112288748A (zh) | 一种语义分割网络训练、图像语义分割方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |