CN115273129A - 基于神经架构搜索的轻量级人体姿态估计方法及装置 - Google Patents
基于神经架构搜索的轻量级人体姿态估计方法及装置 Download PDFInfo
- Publication number
- CN115273129A CN115273129A CN202210164323.9A CN202210164323A CN115273129A CN 115273129 A CN115273129 A CN 115273129A CN 202210164323 A CN202210164323 A CN 202210164323A CN 115273129 A CN115273129 A CN 115273129A
- Authority
- CN
- China
- Prior art keywords
- module
- search
- human body
- network model
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000001537 neural effect Effects 0.000 title claims abstract description 16
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000013138 pruning Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明是关于一种基于神经架构搜索的轻量级人体姿态估计方法及装置,其中,方法包括:构建多通道和多分辨率的网络模型的搜索空间;利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于神经架构搜索的轻量级人体姿态估计方法及装置。
背景技术
人体姿态估计技术可应用于运动教学与分析、视频安防与监控、人机交互、肢体语言理解等领域,它是一项有助于理解人体姿态语义和基于此语义信息进行拓展应用的基础视觉检测技术。现有的人体姿态估计主要部署在 GPU和CPU上,而在特定的移动设备上并没有对计算量、内存和延迟进行优化。这对人体姿态估计技术在移动设备的部署带来较大的困难。
发明内容
为克服相关技术中存在的问题,本发明提供一种基于神经架构搜索的轻量级人体姿态估计方法及装置。
根据本发明实施例的第一方面,提供一种基于神经架构搜索的轻量级人体姿态估计方法,所述方法包括:
构建多通道和多分辨率的网络模型的搜索空间;
利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
在一个实施例中,优选地,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
通过所述茎部结构对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;
通过所述平行模块传输同一分辨率之间的特征图像;
通过所述头部结构选取目标特征图像,并进行人体关键点的预测。
在一个实施例中,优选地,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和 Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块,三个并列的纵深卷积模块分别为:3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1 卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
在一个实施例中,优选地,所述模型搜索过程中采用的搜索策略包括:
其中,表示搜索过程的总损失函数,表示预测的人体关键点与真实人体关键点的均方误差,γ表示BN层的缩放因子,与可搜索单元中的纵深卷积模块的通道一一对应,用于衡量每个通道的重要性,l表示可搜索单元中纵深卷积模块的每一个通道的延迟,λ1、λ2表示正则化权重,λ1=10-6,λ2= 10-4,β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性;
经过若干轮迭代后,分别将γ和β与预设阈值进行比较,以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。
在一个实施例中,优选地,所述方法还包括:
根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
根据本发明实施例的第二方面,提供一种基于神经架构搜索的轻量级人体姿态估计装置,所述装置包括:
构建模块,用于构建多通道和多分辨率的网络模型的搜索空间;
搜索模块,用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
剪枝模块,用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
识别模块,用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
在一个实施例中,优选地,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
所述茎部结构,用于对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
所述特征融合模块,用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;
所述平行模块,用于传输同一分辨率之间的特征图像;
所述头部结构,用于选取目标特征图像,并进行人体关键点的预测。
在一个实施例中,优选地,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和 Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块,三个并列的纵深卷积模块分别为:3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1 卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
在一个实施例中,优选地,所述模型搜索过程中采用的搜索策略包括:
其中,表示搜索过程的总损失函数,表示预测的人体关键点与真实人体关键点的均方误差,γ表示BN层的缩放因子,与可搜索单元中的纵深卷积模块的通道一一对应,用于衡量每个通道的重要性,l表示可搜索单元中纵深卷积模块的每一个通道的延迟,λ1、λ2表示正则化权重,λ1=10-6,λ2= 10-4,β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性;
经过若干轮迭代后,分别将γ和β与预设阈值进行比较,以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。
在一个实施例中,优选地,所述装置还包括:
确定模块,用于根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例中,通过对多通道和多分辨率的网络模型的搜索空间进行不断搜索,剪掉不重要的通道和拓扑连接,从而减小了模型的内存、计算量和延迟,以便更好地在移动设备上进行部署。最终,本方法得到一个收敛的轻量级网络,并且不需要重新训练,便可高效地实现对人体姿态的估计。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的流程图。
图2是根据一示例性实施例示出的网络模型的搜索空间的具体结构示意图。
图3是根据一示例性实施例示出的可搜索单元的示意图。
图4是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的总体流程图。
图5是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计方法的流程图,如图1所示,所述方法包括:
步骤S101,构建多通道和多分辨率的网络模型的搜索空间;
步骤S102,利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
步骤S103,利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
步骤S104,利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
在该实施例中,通过对多通道和多分辨率的网络模型的搜索空间进行不断搜索,剪掉不重要的通道和拓扑连接,从而减小了模型的内存、计算量和延迟,以便更好地在移动设备上进行部署。最终,本方法得到一个收敛的轻量级网络,并且不需要重新训练,便可高效地实现对人体姿态的估计。
如图2所示,在一个实施例中,优选地,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
通过所述茎部结构对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;以图一右上部分为例,每个输出的特征图需接收四个不同尺度的特征图。分辨率较小的特征图需进行上采样插值操作,而分辨率较大的则需进行下采样操作,最后它们以element-wise的方式相加。
通过所述平行模块传输同一分辨率之间的特征图像;
通过所述头部结构选取目标特征图像,并进行人体关键点的预测。
在一个实施例中,优选地,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和 Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,可搜索单元如图 3所示,通道为c的输入特征图经过一个1×1卷积模块,将通道数扩张为3rc,其中r为逆残差模块(MBConv)的扩张比例。接着分成三个通道数为rc的特征图,分别通过3×3depth-wise卷积,5×5depth-wise卷积和7×7depth-wise 卷积(depth-wise卷积:以通道为维度方向进行卷积),最后再通过一个1×1 卷积,输出通道为c'的特征图;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1 卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
在一个实施例中,优选地,所述模型搜索过程中采用的搜索策略包括:
其中,表示搜索过程的总损失函数,表示预测的人体关键点与真实人体关键点的均方误差,γ表示BN层的缩放因子,与可搜索单元中的纵深卷积模块的通道一一对应,用于衡量每个通道的重要性,l表示可搜索单元中纵深卷积模块的每一个通道的延迟,λ1、λ2表示正则化权重,λ1=10-6,λ2= 10-4,β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性;
经过若干轮迭代后,分别将γ和β与预设阈值进行比较,以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。
在搜索过程中,因为BN层的缩放因子γ与可搜索单元中的depth-wise卷积的通道一一对应,所以利用此缩放因子来衡量每个通道的重要性。为了加快缩放因子的收敛,使用L1正则化技术,并将此正则化项加入到损失函数当中,其中为预测的人体关键点与真实人体关键点的均方误差,如公式1中第二项所示,正则化权重λ1=10-6。l为可搜索单元中depth-wise卷积的每一个通道的延迟(latency),其预先衡量好,以表的形式储存。经过若干轮迭代后,γ<T的缩放因子会被除掉,与之对应的通道也会被去掉。因此,可以从通道层次上搜索到重要性高的通道。
除了通道层次上的搜索,还在模型层次上进行优化搜索。在特征融合模块引入新的一组参数β=1,其用来衡量特征融合模块中特征图之间的连接的重要性。类似地,对β进行L1正则化,如公式1中的第三项所示正则化权重λ2=10-4。经过若干轮迭代后,β<T的连接会被去掉。因此可以从模型层次上搜索到重要性高的拓扑连接。
在一个实施例中,优选地,所述方法还包括:
根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
阈值T的选取取决于目标移动设备的内存大小、计算速度等因素,使用者可根据实际情况选择不同的阈值。
下面以一个具体实施例,详细说明本发明的基于神经架构搜索的轻量级人体姿态估计方法的总体流程。
如图4所示,利用人体检测框对输入的原始图像进行人体检测,将框出来的人体图片输送至模型,进行下一步生成关键点操作。
生成关键点:对输入的3通道图像的尺寸进行重塑,转换为(3,256,192) 通道图像,首先经过茎部结构,生成一个尺度为(256,64,48)的特征图,然后通过若干个特征融合模块和平行模块生成了(32,64,48)、(64,32, 24)、(128,16,12)、(256,8,6)4种不同尺度的特征图,分别对应着图一中分辨率为1/4、1/8、1/16、1/32的特征图,最后经过头部结构的特征融合和通道压缩操作,输出一个尺度为(N,64,48)的人体关键点热度图。其中三元组中第一项N为图像通道数,第二项64为图像宽度,第三项48为图像高度。
在模型搜索过程,会不断循环生成关键点的过程。这一过程得到的梯度会用来更新网络模型的参数和特征融合模块中的β。设定每隔30轮对小于阈值T=0.001的通道和特征融合层的连接进行剪枝操作,然后对得到的模型进行微调。使用改这种渐进式缩减搜索的策略,在搜索结束后不需要对模型进行重新训练,进一步减少了计算损耗。
最终在测试阶段,本方法可将模型部署于移动设备。以单张图片为例,参照生成关键点的流程,移动设备可利用预先部署好的人体检测框捕捉到人体目标,一张包含M人的图像,经过模型处理后,会输出一个带有M×N个人体关键点的图像。而本方法中的低延迟轻量级网络可实现视频检测,后续便可基于这些关键点信息进行下一步的分析应用,如运动分析、行人跌倒检测等。
总的来说,本方法通过对超网的不断搜索,剪掉不重要的通道与连接,从而减小了模型的内存、计算量和延迟,以便更好地在移动设备上进行部署。最终,本方法得到一个收敛的轻量级网络,并且不需要重新训练,便可高效地实现对人体姿态的估计。
图5是根据一示例性实施例示出的一种基于神经架构搜索的轻量级人体姿态估计装置的框图。
如图5所示,根据本发明实施例的第二方面,提供一种基于神经架构搜索的轻量级人体姿态估计装置,所述装置包括:
构建模块51,用于构建多通道和多分辨率的网络模型的搜索空间;
搜索模块52,用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
剪枝模块53,用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
识别模块54,用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
在一个实施例中,优选地,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
所述茎部结构,用于对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
所述特征融合模块,用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;
所述平行模块,用于传输同一分辨率之间的特征图像;
所述头部结构,用于选取目标特征图像,并进行人体关键点的预测。
在一个实施例中,优选地,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和 Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块,三个并列的纵深卷积模块分别为:3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1 卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
在一个实施例中,优选地,所述模型搜索过程中采用的搜索策略包括:
其中,表示搜索过程的总损失函数,表示预测的人体关键点与真实人体关键点的均方误差,γ表示BN层的缩放因子,与可搜索单元中的纵深卷积模块的通道一一对应,用于衡量每个通道的重要性,l表示可搜索单元中纵深卷积模块的每一个通道的延迟,λ1、λ2表示正则化权重,λ1=10-6,λ2= 10-4,β用来衡量特征融合模块中特征图像之间的拓扑连接的重要性;
经过若干轮迭代后,分别将γ和β与预设阈值进行比较,以将γ和β小于所述预设阈值的通道和拓扑结构进行剪枝操作。
在一个实施例中,优选地,所述装置还包括:
确定模块61,用于根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项方法的步骤。
进一步可以理解的是,本发明中“多个”是指两个或两个以上,其它量词与之类似。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
进一步可以理解的是,术语“第一”、“第二”等用于描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开,并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
进一步可以理解的是,本发明实施例中尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种基于神经架构搜索的轻量级人体姿态估计方法,其特征在于,所述方法包括:
构建多通道和多分辨率的网络模型的搜索空间;
利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
2.根据权利要求1所述的方法,其特征在于,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
通过所述茎部结构对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
通过所述特征融合模块将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;
通过所述平行模块传输同一分辨率之间的特征图像;
通过所述头部结构选取目标特征图像,并进行人体关键点的预测。
3.根据权利要求2所述的方法,其特征在于,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块,三个并列的纵深卷积模块分别为:3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
6.一种基于神经架构搜索的轻量级人体姿态估计装置,其特征在于,所述装置包括:
构建模块,用于构建多通道和多分辨率的网络模型的搜索空间;
搜索模块,用于利用来自目标移动终端的原始图像训练集和所述网络模型的搜索空间进行迭代模型搜索,其中,所述模型搜索包括通道层次的搜索和模型层次的搜索,所述原始图像训练集中的原始图像包含人体关键点数据;
剪枝模块,用于利用模型搜索过程得到的梯度对通道和网络模型的拓扑连接进行剪枝操作,并对剪枝后的网络模型进行微调,以得到轻量级卷积神经网络模型;
识别模块,用于利用所述轻量级卷积神经网络模型对所述目标移动终端采集的测试图像进行识别,以输出所述测试图像对应的人体关键点图像。
7.根据权利要求6所述的装置,其特征在于,所述网络模型的搜索空间包括茎部结构、多个特征融合模块、多个平行模块和头部结构;
所述茎部结构,用于对输入的原始图像进行升维处理和下采样处理,以增加图像的通道数量和减小图像的分辨率,得到多通道和多分辨率的特征图像;
所述特征融合模块,用于将不同分辨率的特征图像处理为同一分辨率的特征图像并进行融合处理;
所述平行模块,用于传输同一分辨率之间的特征图像;
所述头部结构,用于选取目标特征图像,并进行人体关键点的预测。
8.根据权利要求7所述的装置,其特征在于,所述茎部结构包括两个步长为2的3×3的卷积模块和4个残差瓶颈模块,其中,所述卷积模块包括卷积层、BN层和Relu激活层;
所述特征融合模块和所述平行模块中包括可搜索单元,所述可搜索单元包括1×1的第一卷积模块、三个并列的纵深卷积模块和1×1的第一卷积模块,三个并列的纵深卷积模块分别为:3×3纵深卷积模块、5×5纵深卷积模块、7×7纵深卷积模块;
所述头部结构通过上采样操作将最后一个特征融合模块输出的所有特征图转换为统一分辨率,以通道作为维度方向进行拼接操作,并通过一个1×1卷积模块将通道数压缩为N个,代表需要预测的N个人体姿态关键点。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据所述目标移动终端的内存大小和计算速度,确定所述预设阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164323.9A CN115273129B (zh) | 2022-02-22 | 2022-02-22 | 基于神经架构搜索的轻量级人体姿态估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164323.9A CN115273129B (zh) | 2022-02-22 | 2022-02-22 | 基于神经架构搜索的轻量级人体姿态估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115273129A true CN115273129A (zh) | 2022-11-01 |
CN115273129B CN115273129B (zh) | 2023-05-05 |
Family
ID=83758638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210164323.9A Active CN115273129B (zh) | 2022-02-22 | 2022-02-22 | 基于神经架构搜索的轻量级人体姿态估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273129B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882040A (zh) * | 2020-07-30 | 2020-11-03 | 中原工学院 | 基于通道数量搜索的卷积神经网络压缩方法 |
CN112308200A (zh) * | 2019-07-30 | 2021-02-02 | 华为技术有限公司 | 神经网络的搜索方法及装置 |
CN112396181A (zh) * | 2020-12-31 | 2021-02-23 | 之江实验室 | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 |
WO2021218095A1 (zh) * | 2020-04-30 | 2021-11-04 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2022
- 2022-02-22 CN CN202210164323.9A patent/CN115273129B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112308200A (zh) * | 2019-07-30 | 2021-02-02 | 华为技术有限公司 | 神经网络的搜索方法及装置 |
WO2021218095A1 (zh) * | 2020-04-30 | 2021-11-04 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN111882040A (zh) * | 2020-07-30 | 2020-11-03 | 中原工学院 | 基于通道数量搜索的卷积神经网络压缩方法 |
CN112396181A (zh) * | 2020-12-31 | 2021-02-23 | 之江实验室 | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 |
Non-Patent Citations (1)
Title |
---|
ALVIN WAN ET AL.: "FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions", 《2020CVPR》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115273129B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241982B (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN110458165B (zh) | 一种引入注意力机制的自然场景文本检测方法 | |
CN110889343A (zh) | 基于注意力型深度神经网络的人群密度估计方法及装置 | |
CN110879982B (zh) | 一种人群计数系统及方法 | |
CN113139989B (zh) | 一种基于深度学习的粒子图像测速方法与装置 | |
CN113989100B (zh) | 一种基于样式生成对抗网络的红外纹理样本扩充方法 | |
KR20200091331A (ko) | 다중 카메라 혹은 서라운드 뷰 모니터링에 이용되기 위해, 타겟 객체 통합 네트워크 및 타겟 영역 예측 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 적응 가능한 cnn 기반 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN111401436A (zh) | 一种融合网络和双通道注意力机制的街景图像分割方法 | |
CN113065653A (zh) | 面向移动端图像分类的轻量级卷积神经网络的设计方法 | |
KR20190139781A (ko) | 데이터 획득 시간 최소화를 위한 cnn 기반의 고해상도 영상 생성 장치 및 그 방법 | |
CN117037215B (zh) | 人体姿态估计模型训练方法、估计方法、装置及电子设备 | |
CN112561801A (zh) | 基于se-fpn的目标检测模型训练方法、目标检测方法及装置 | |
CN113095254A (zh) | 一种人体部位关键点的定位方法及系统 | |
CN112489164A (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN117671509B (zh) | 遥感目标检测方法、装置、电子设备及存储介质 | |
CN114120361A (zh) | 一种基于编解码结构的人群计数定位方法 | |
CN113095251A (zh) | 一种人体姿态估计方法及系统 | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN114519844A (zh) | 一种基于视觉转化器的人群密度估计方法及系统 | |
CN112989952B (zh) | 一种基于遮罩引导的人群密度估计方法及装置 | |
CN114066959A (zh) | 基于Transformer的单幅条纹图深度估计方法 | |
CN117593702A (zh) | 远程监控方法、装置、设备及存储介质 | |
CN117314750A (zh) | 一种基于残差生成网络的图像超分辨率重建方法 | |
CN115273129A (zh) | 基于神经架构搜索的轻量级人体姿态估计方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |