CN115841587A - 图像分类任务的特征提取方法、装置、设备及存储介质 - Google Patents
图像分类任务的特征提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115841587A CN115841587A CN202211302670.XA CN202211302670A CN115841587A CN 115841587 A CN115841587 A CN 115841587A CN 202211302670 A CN202211302670 A CN 202211302670A CN 115841587 A CN115841587 A CN 115841587A
- Authority
- CN
- China
- Prior art keywords
- features
- convolution
- feature extraction
- fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 80
- 230000004927 fusion Effects 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000002156 mixing Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 108091006146 Channels Proteins 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 35
- 230000009467 reduction Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007499 fusion processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种图像分类任务的特征提取方法、装置、设备及介质,包括:将基础图像输入至训练好的特征提取模型,其中,训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数,采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征,基于随机洗牌算法,对N个多尺度特征进行特征融合和分组混合,得到目标特征,提高低资源条件下图像特征提取的精度与效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图像分类任务的特征提取方法、装置、设备及介质。
背景技术
随着人工智能技术的发展,通过计算机进行图像识别应用越来越广泛,给人们生活带来了极大便利,在进行图像识别任务之前,需要进行图像识别分类模型的训练,图像识别分类,需要较多的图像特征,在图像资源较少的情况下,如何得到较多符合要求的特征,成了一个亟待解决的难题。
现有方式中,进行图像分类任务的提取,有采用neural network matrixfactorization(神经网络矩阵分解技术)、Low-rank matrix factorization for deepneural network training with high-dimensional output targets(一种可输出高纬特征的低秩矩阵分解技术)、Semi-orthogonal low-rank matrix factorization for deepneural networks(一种半正交低秩矩阵分解方法)、SVD(奇异值分解技术)、CP分解和Tucker分解等,但这些方式在进行特征分解过程中只考虑具体层而未考虑层与层之间的关系,通常不具备通用形式,使得提取到的特征可利用率低,提取的特征质量较差;也有采用基于模型量化的模型压缩方式进行特征提取,如:High performance binarized neuralnetworks trained on the imagenet classification task(一种高性能的二值神经网络技术)、Quantization Networks(量化网络)、Imagenet classification using binaryconvolutional neural networks.(一种二值卷积神经网络技术)、Training andinference with integers in deep neural networks(一种基于整数类型的深度神经网络)等,但这种方式在精度上会有明显的损失,同时post-trained模型需要借助底层硬件的支持,成本较高;也有采用基于知识蒸馏的方式进行特征提取,但采用知识蒸馏方法通常需要至少两步以上的训练步骤,一步针对原生Teacher模型,一步针对目标模型Student,整体流程相复杂,效率较低。
综上,现有的图像分类任务的特征提取方法存在提取效率较低或者提取到的特征质量低的问题。
发明内容
本发明实施例提供一种图像分类任务的特征提取方法、装置、计算机设备和存储介质,以提高特征提取效率。
为了解决上述技术问题,本申请实施例提供一种图像分类任务的特征提取方法,所述图像分类任务的特征提取方法包括:
将基础图像输入至训练好的特征提取模型,其中,所述训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数;
采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征;
基于随机洗牌算法,对N个所述多尺度特征进行特征融合和分组混合,得到目标特征。
可选地,不同尺寸的卷积核中,大尺寸的卷积核用于捕捉高分辨率的图像特征,小尺寸的卷积核用于捕捉低分辨率的图像特征。
可选地,所述采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征包括:
通过1×1的卷积核对输入的所述基础图像进行降维处理,得到基础特征;
沿通道方向,按照预设比例对所述基础特征进行划分,得到N组划分特征;
采用N组并联的不同尺度的卷积核对所述划分特征进行特征提取,得到N个所述多尺度特征。
可选地,所述基于随机洗牌算法,对N个所述多尺度特征进行特征融合,得到和分组混合,得到目标特征包括:
沿通道方向对N个所述多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,所述拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
根据新的通道序列进行融合操作,得到融合特征;
采用分组卷积的方式,将所述融合特征沿通道方向分成G组,G为正整数;
对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征。
可选地,所述对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征包括:
对所述融合特征进行分组卷积处理,得到各个分支输出特征;
将所有所述分支输出特征进行汇总,并采用求和、平均值和卷积运算进行混合,输出得到不同比例的多尺度的目标特征。
为了解决上述技术问题,本申请实施例还提供一种图像分类任务的特征提取装置,包括:
图像输入模块,用于将基础图像输入至训练好的特征提取模型,其中,所述训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数;
特征提取模块,用于采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征;
特征融合模块,用于基于随机洗牌算法,对N个所述多尺度特征进行特征融合和分组混合,得到目标特征。
可选地,所述特征提取模块包括:
降维处理单元,用于通过1×1的卷积核对输入的所述基础图像进行降维处理,得到基础特征;
特征分割单元,用于沿通道方向,按照预设比例对所述基础特征进行划分,得到N组划分特征;
卷积处理单元,用于采用N组并联的不同尺度的卷积核对所述划分特征进行特征提取,得到N个所述多尺度特征。
可选地,所述特征融合模块包括:
特征拼接单元,用于沿通道方向对N个所述多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,所述拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
序列洗牌单元,用于采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
融合处理单元,用于根据新的通道序列进行融合操作,得到融合特征;
特征分组单元,用于采用分组卷积的方式,将所述融合特征沿通道方向分成G组,G为正整数;
特征混合单元,用于对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征。
可选地,所述特征混合单元包括:
分组子单元,用于对所述融合特征进行分组卷积处理,得到各个分支输出特征;
混合子单元,用于将所有所述分支输出特征进行汇总,并采用求和、平均值和卷积运算进行混合,输出得到不同比例的多尺度的目标特征。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像分类任务的特征提取方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像分类任务的特征提取方法的步骤。
本发明实施例提供的图像分类任务的特征提取方法、装置、计算机设备及存储介质,将基础图像输入至训练好的特征提取模型,其中,训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数,采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征,基于随机洗牌算法,对N个多尺度特征进行特征融合和分组混合,得到目标特征,提高低资源条件下图像特征提取的精度与效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的图像分类任务的特征提取方法的一个实施例的流程图;
图3是根据本申请的图像分类任务的特征提取装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的图像分类任务的特征提取方法由服务器执行,相应地,图像分类任务的特征提取装置设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器,本申请实施例中的终端设备101、102、103具体可以对应的是实际生产中的应用系统。
请参阅图2,图2示出本发明实施例提供的一种图像分类任务的特征提取方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S201:将基础图像输入至训练好的特征提取模型,其中,训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数。
可选地,本实施例中,不同尺寸的卷积核中,大尺寸的卷积核用于捕捉高分辨率的图像特征,小尺寸的卷积核用于捕捉低分辨率的图像特征。
现有的瓶颈残差模块是构成残差网络(用于图像的特征提取网络)及其相关变体神经网络的主要构件。除恒定连接方式外,残差模块还具有以下特点:包括两组1×1通道卷积和一组3×3空间卷积,两组1×1卷积的主要功能是降低和增加特征的维度,形成瓶颈结构,更容易形成更深层次的网络结构。其中每一卷积层均采用relu激活函数和BN批次归一化。而通常图像存在分辨率的多样性,因此,本实施例采用一种改进型的残差模块,对于多分辨率的目标图像,通过大尺寸卷积核来捕捉高分辨率的图像特征,小尺寸卷积核捕捉低分辨率的图像特征,整体提高模型的鲁棒性。在瓶颈残差模块的基础上,采用分组卷积形式并联多种不同尺度卷积核对输入信息分别进行特征提取与融合。优选地,本实施例使用3×3、5×5、7×7三种不同尺度卷积核,从输入到输出整个操作流程可分成三个部分:特征提取、特征随机融合、分组通道特征组合。
本实施例N组并联的不同尺度的卷积核分组中,假设输入通道大小为Cin,输出通道大小为Cin,G表示输入沿通道方向被分成的组数,输入张量在每组中的通道数相同,用Cin/G表示。则所有空间位置的计算公式如下所示(公式1):
其中表示G组卷积的输入,zg(g∈G)是Cin/G×K×K维度的向量,K×K、Wgg分别表示卷积核的大小和每一组卷积的权重。通过调整分组卷积组数G降低网络参数量parameters与计算力FLOPs。
a)参数量parameters。参数量是指参与计算的占用内存空间或GPU内存空间的参数数量。假设普通卷积层中卷积核的大小为K×K,不考虑偏置情况下,其参数量为Cin×(K×K)×Cout。分组卷积每一组输入数据的通道宽度为Cin/G,输出宽度为Cout/G,通过采用分组卷积其参数量降低到1/G,参数变化过程表示为(公式2):
b)计算力FLOPs。FLOPs是floating point operations的缩写(s表复数),意指浮点运算次数,理解为计算力,可以用来衡量算法/模型的复杂度。运算方式为乘积累加运算(Multiply Accumulate,MAC)包括乘积运算操作和加法运算操作。假设Hout×Wout为标准卷积输出特征图的大小,在不考虑偏执的情况下针对某一特征点一次卷积计算次数为(Cin×K×K)+(Cin×K×K),第一、二项分别是是乘法、加法运算次数。则整个卷积(标准卷积)所需要的计算力为(公式3):
替换成分组卷积的计算力在理想状态也可以降低到1/G,表示为(公式4):
本实施例中,各个参数基于实际应用的需要,采用上述计算方式进行计算确定。
S202:采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征。
在一具体可选实施方式中,采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征包括:
通过1×1的卷积核对输入的基础图像进行降维处理,得到基础特征;
沿通道方向,按照预设比例对基础特征进行划分,得到N组划分特征;
采用N组并联的不同尺度的卷积核对划分特征进行特征提取,得到N个多尺度特征。
具体地,特征提取过程与普通卷积类似,在1×1卷积中对输入数据进行降维,产生输出特征X,之后沿通道方向按预设比例划分形成{X1,X2,…,XN}分别输入到N组不同的分组卷积中进行特征提取,N组卷积分别采用不同尺度的卷积核。保持稳定的计算复杂度,可以适当增加分组模块,添加更多丰富的不同尺度卷积核。
S203:基于随机洗牌算法,对N个多尺度特征进行特征融合和分组混合,得到目标特征。
在视觉任务中,集成思想是机器学习领域常用提升模型泛化能力的方法(例如在图像分类领域),由多个子模型共同构建,构成最终的算法模型,这些子模型可以是参数独立也可以是参数共享的。目前除了常见的Bagging、AdaBoost等用于机器学习算法外,用于深度学习的dropout方法是提升模型泛化能力的一种重要手段,从集成算法的角度考虑,dropout能够在训练过程中产生多种排列形式,标准全连接以固定的形式进行连接,每次更新所有参数,网络结构唯一,采用dropout之后,部分神经元连接权重被置零,反向传播不会对其进行更新,这种方式形成多种子结构模型,并且这些子模型是参数共享的。
在本实施例中,采用随机洗牌融合思想也是源于集成思想,主要针对的是分组卷积连接形式,当然也可以推广到一般的卷积形式。分组卷积的连接形式通常有多种形式,例如普通的直连形式,交叉形式等,随机洗牌融合算法在一次或多次模型前向过程中随机以通道维度对通道特征进行洗牌重组,形成集成思想中的一个子模型,理论上在具体某一层能产生多不同子模型,这种思想可以理解为dropout方法的一种逆向思维。DropOut是在固定参数(虽然会被随机置零,单权值还是存在的)情况下去学习较低参数的子模型,而随机洗牌融合方式是在较小的参数下学习大参数情况下的模型结构。
现有的全连接层参数固定且非常密集,不能应用于分组卷积,会带来很多问题,尤其是参数的暴增,本实施例采用的随机洗牌的方式进行融合是dropout的一种逆向思维,以参数稀疏的形式,模拟多个连接权重共同构成一个巨大的网络结构即一个权值参数负责多个连接形式的学习。
在一具体可选实施方式中,基于随机洗牌算法,对N个多尺度特征进行特征融合,得到和分组混合,得到目标特征包括:
沿通道方向对N个多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
根据新的通道序列进行融合操作,得到融合特征;
采用分组卷积的方式,将融合特征沿通道方向分成G组,G为正整数;
对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到目标特征。
在一具体实施方式中,N为3,也即,对三个多尺度特征进行融合,具体过程为:特征提取操作完成后,得到三组(多组)不同尺度卷积核所产生的特征张量V1、V2、V3。首先,通过沿通道方向将三组张量进行拼接产生整体输出V,设V的通道深度为C,则通道序号可表示为:SeqC=[1,2,3,4,5,…,C]。然后利用Knuth-Durstenfeld Shuffle算法对通道序列进行洗牌生成新的通道序列SeqNC(以64通道为例),原序号在每个位置出现的概率P(Ac)是相等的,为1/C,形成新的序列SeqNC=[C-1,C-6,1,0,…C-8]∧C≥64。
多尺度特征融合过程如中,由三组(多组)不同尺度卷积核所产生的特征张量V1、V2、V3沿通道展开如公式(5)所示:
其中1≤g≤G,Gg分组中每个特征图都来自不同卷积核的卷积映射。在每一组1×1卷积中,处理的输入数据来自上一层不同分组卷积的不同通道,这些来自上一层不同分组卷积的特征集,在下一层分组卷积中被组合在一起,形成不同比例的多尺度卷积特征,增强了分组卷积特征多样性与信息交互能力。与瓶颈残差模块功能相同,第三步1×1卷积用于提高纬度,保持输入和输出维度一致,产生整体模块输出Yout并作为下一层的输入。
可选地,对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到目标特征包括:
对融合特征进行分组卷积处理,得到各个分支输出特征;
将所有分支输出特征进行汇总,并采用求和、平均值和卷积运算进行混合,输出得到不同比例的多尺度的目标特征。
本实施例中,将基础图像输入至训练好的特征提取模型,其中,训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数,采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征,基于随机洗牌算法,对N个多尺度特征进行特征融合和分组混合,得到目标特征,提高低资源条件下图像特征提取的精度与效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图3示出与上述实施例图像分类任务的特征提取方法一一对应的图像分类任务的特征提取装置的原理框图。如图3所示,该图像分类任务的特征提取装置包括图像输入模块31、特征提取模块32和特征融合模块33。各功能模块详细说明如下:
图像输入模块31,用于将基础图像输入至训练好的特征提取模型,其中,训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数;
特征提取模块32,用于采用N组并联的不同尺度的卷积核对基础图像进行特征提取,得到N个多尺度特征;
特征融合模块33,用于基于随机洗牌算法,对N个多尺度特征进行特征融合和分组混合,得到目标特征。
可选地,特征提取模块32包括:
降维处理单元,用于通过1×1的卷积核对输入的基础图像进行降维处理,得到基础特征;
特征分割单元,用于沿通道方向,按照预设比例对基础特征进行划分,得到N组划分特征;
卷积处理单元,用于采用N组并联的不同尺度的卷积核对划分特征进行特征提取,得到N个多尺度特征。
可选地,特征融合模块33包括:
特征拼接单元,用于沿通道方向对N个多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
序列洗牌单元,用于采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
融合处理单元,用于根据新的通道序列进行融合操作,得到融合特征;
特征分组单元,用于采用分组卷积的方式,将融合特征沿通道方向分成G组,G为正整数;
特征混合单元,用于对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到目标特征。
可选地,特征混合单元包括:
分组子单元,用于对融合特征进行分组卷积处理,得到各个分支输出特征;
混合子单元,用于将所有分支输出特征进行汇总,并采用求和、平均值和卷积运算进行混合,输出得到不同比例的多尺度的目标特征。
关于图像分类任务的特征提取装置的具体限定可以参见上文中对于图像分类任务的特征提取方法的限定,在此不再赘述。上述图像分类任务的特征提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件连接存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如图像分类任务的特征提取的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如图像分类任务的特征提取的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的图像分类任务的特征提取方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种图像分类任务的特征提取方法,应用于多分辨率的基础图像特征提取,其特征在于,所述图像分类任务的特征提取方法包括:
将基础图像输入至训练好的特征提取模型,其中,所述训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数;
采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征;
基于随机洗牌算法,对N个所述多尺度特征进行特征融合和分组混合,得到目标特征。
2.如权利要求1所述的图像分类任务的特征提取方法,其特征在于,不同尺寸的卷积核中,大尺寸的卷积核用于捕捉高分辨率的图像特征,小尺寸的卷积核用于捕捉低分辨率的图像特征。
3.如权利要求1所述的图像分类任务的特征提取方法,其特征在于,所述采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征包括:
通过1×1的卷积核对输入的所述基础图像进行降维处理,得到基础特征;
沿通道方向,按照预设比例对所述基础特征进行划分,得到N组划分特征;
采用N组并联的不同尺度的卷积核对所述划分特征进行特征提取,得到N个所述多尺度特征。
4.如权利要求1至3任一项所述的图像分类任务的特征提取方法,其特征在于,所述基于随机洗牌算法,对N个所述多尺度特征进行特征融合,得到和分组混合,得到目标特征包括:
沿通道方向对N个所述多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,所述拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
根据新的通道序列进行融合操作,得到融合特征;
采用分组卷积的方式,将所述融合特征沿通道方向分成G组,G为正整数;
对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征。
5.如权利要求4所述的图像分类任务的特征提取方法,其特征在于,所述对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征包括:
对所述融合特征进行分组卷积处理,得到各个分支输出特征;
将所有所述分支输出特征进行汇总,并采用求和、平均值和卷积运算进行混合,输出得到不同比例的多尺度的目标特征。
6.一种图像分类任务的特征提取装置,其特征在于,所述图像分类任务的特征提取装置包括:
图像输入模块,用于将基础图像输入至训练好的特征提取模型,其中,所述训练好的特征提取模型为深度神经网络模型,包含N组并联的不同尺度的卷积核,N为大于2的正整数;
特征提取模块,用于采用N组并联的不同尺度的卷积核对所述基础图像进行特征提取,得到N个多尺度特征;
特征融合模块,用于基于随机洗牌算法,对N个所述多尺度特征进行特征融合和分组混合,得到目标特征。
7.如权利要求6所述的图像分类任务的特征提取装置,其特征在于,所述特征提取模块包括:
降维处理单元,用于通过1×1的卷积核对输入的所述基础图像进行降维处理,得到基础特征;
特征分割单元,用于沿通道方向,按照预设比例对所述基础特征进行划分,得到N组划分特征;
卷积处理单元,用于采用N组并联的不同尺度的卷积核对所述划分特征进行特征提取,得到N个所述多尺度特征。
8.如权利要求6所述的图像分类任务的特征提取装置,其特征在于,所述特征融合模块包括:
特征拼接单元,用于沿通道方向对N个所述多尺度特征进行特征进行拼接,得到通道深度为C的拼接特征,所述拼接特征的通道序号表示为SeqC=[1,2,3,…,C];
序列洗牌单元,用于采用随机洗牌算法,对通道序列进行洗牌,生成新的通道序列;
融合处理单元,用于根据新的通道序列进行融合操作,得到融合特征;
特征分组单元,用于采用分组卷积的方式,将所述融合特征沿通道方向分成G组,G为正整数;
特征混合单元,用于对每组融合特征进行卷积处理,并对各个分组卷积处理后的特征进行特征混合,得到所述目标特征。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的图像分类任务的特征提取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的图像分类任务的特征提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211302670.XA CN115841587B (zh) | 2022-10-24 | 2022-10-24 | 图像分类任务的特征提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211302670.XA CN115841587B (zh) | 2022-10-24 | 2022-10-24 | 图像分类任务的特征提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115841587A true CN115841587A (zh) | 2023-03-24 |
CN115841587B CN115841587B (zh) | 2023-11-24 |
Family
ID=85576452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211302670.XA Active CN115841587B (zh) | 2022-10-24 | 2022-10-24 | 图像分类任务的特征提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115841587B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021018163A1 (zh) * | 2019-07-30 | 2021-02-04 | 华为技术有限公司 | 神经网络的搜索方法及装置 |
CN113469099A (zh) * | 2021-07-13 | 2021-10-01 | 北京航科威视光电信息技术有限公司 | 目标检测模型的训练方法、检测方法、装置、设备及介质 |
CN113724263A (zh) * | 2020-05-26 | 2021-11-30 | 上海微创卜算子医疗科技有限公司 | 全卷积神经网络模型、图像分割方法及装置 |
CN114360068A (zh) * | 2022-01-12 | 2022-04-15 | 安徽师范大学 | 基于多流分组洗牌图卷积神经网络的骨骼动作识别方法 |
-
2022
- 2022-10-24 CN CN202211302670.XA patent/CN115841587B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021018163A1 (zh) * | 2019-07-30 | 2021-02-04 | 华为技术有限公司 | 神经网络的搜索方法及装置 |
CN113724263A (zh) * | 2020-05-26 | 2021-11-30 | 上海微创卜算子医疗科技有限公司 | 全卷积神经网络模型、图像分割方法及装置 |
CN113469099A (zh) * | 2021-07-13 | 2021-10-01 | 北京航科威视光电信息技术有限公司 | 目标检测模型的训练方法、检测方法、装置、设备及介质 |
CN114360068A (zh) * | 2022-01-12 | 2022-04-15 | 安徽师范大学 | 基于多流分组洗牌图卷积神经网络的骨骼动作识别方法 |
Non-Patent Citations (1)
Title |
---|
谷雨;徐英;: "面向SAR目标识别的深度卷积神经网络结构设计", 中国图象图形学报, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN115841587B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210201147A1 (en) | Model training method, machine translation method, computer device, and storage medium | |
US11307864B2 (en) | Data processing apparatus and method | |
WO2020199693A1 (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
CN109003132B (zh) | 广告推荐方法及相关产品 | |
US10706348B2 (en) | Superpixel methods for convolutional neural networks | |
US20170150235A1 (en) | Jointly Modeling Embedding and Translation to Bridge Video and Language | |
US20230026006A1 (en) | Convolution computation engine, artificial intelligence chip, and data processing method | |
JP2022502758A (ja) | 符号化方法、装置、機器およびプログラム | |
US20230067934A1 (en) | Action Recognition Method, Apparatus and Device, Storage Medium and Computer Program Product | |
US20230135109A1 (en) | Method for processing signal, electronic device, and storage medium | |
CN111353598A (zh) | 一种神经网络压缩方法、电子设备及计算机可读介质 | |
CN112130805A (zh) | 包括浮点加法器的芯片、设备及浮点运算的控制方法 | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN112966729B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN116186295B (zh) | 基于注意力的知识图谱链接预测方法、装置、设备及介质 | |
CN115841587B (zh) | 图像分类任务的特征提取方法、装置、设备及存储介质 | |
CN111667046A (zh) | 深度学习加速方法及用户终端 | |
CN111814368B (zh) | 基于张量的土地利用模拟方法、系统、设备及存储介质 | |
US11086634B2 (en) | Data processing apparatus and method | |
CN113139490B (zh) | 一种图像特征匹配方法、装置、计算机设备及存储介质 | |
CN116781484B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN117553808B (zh) | 基于深度学习的机器人定位导航方法、装置、设备及介质 | |
CN117688193B (zh) | 图文统一编码方法、装置、计算机设备及介质 | |
CN112529718B (zh) | 基于多场景的产品演示方法、装置、计算机设备及介质 | |
CN117519996B (zh) | 一种数据处理方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: No. 205, Building B1, Huigu Science and Technology Industrial Park, No. 336 Bachelor Road, Bachelor Street, Yuelu District, Changsha City, Hunan Province, 410000 Patentee after: Wisdom Eye Technology Co.,Ltd. Country or region after: China Address before: 410205, Changsha high tech Zone, Hunan Province, China Patentee before: Wisdom Eye Technology Co.,Ltd. Country or region before: China |
|
CP03 | Change of name, title or address |