CN112149558A - 一种用于关键点检测的图像处理方法、网络和电子设备 - Google Patents

一种用于关键点检测的图像处理方法、网络和电子设备 Download PDF

Info

Publication number
CN112149558A
CN112149558A CN202011001563.4A CN202011001563A CN112149558A CN 112149558 A CN112149558 A CN 112149558A CN 202011001563 A CN202011001563 A CN 202011001563A CN 112149558 A CN112149558 A CN 112149558A
Authority
CN
China
Prior art keywords
feature map
convolution
group
key point
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011001563.4A
Other languages
English (en)
Inventor
任豪
王紫颐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uisee Technology Zhejiang Co Ltd
Original Assignee
Yushi Technology Nanjing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yushi Technology Nanjing Co ltd filed Critical Yushi Technology Nanjing Co ltd
Priority to CN202011001563.4A priority Critical patent/CN112149558A/zh
Publication of CN112149558A publication Critical patent/CN112149558A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例涉及一种用于关键点检测的图像处理方法、网络和电子设备。本公开的至少一个实施例中,通过对待检测关键点的图像进行特征提取,得到第一特征图,所述第一特征图的通道数为c1;进而对第一特征图的通道数进行调整,得到第二特征图,所述第二特征图的通道数为c2*N,N为关键点的个数;从而对第二特征图进行组卷积和组归一化,实现对第二特征图进行分组处理,每个分组对应一个关键点,最终得到通道数为N的第三特征图,每个通道对应一个关键点,便于基于第三特征图检测关键点。采用分组处理方式使得各个关键点的学习解耦,相互独立,互不影响,提高后续进行关键点检测的准确度。

Description

一种用于关键点检测的图像处理方法、网络和电子设备
技术领域
本公开实施例涉及图像处理技术领域,具体涉及一种用于关键点检测的图像处理方法、网络和电子设备。
背景技术
关键点检测是用于识别人体骨骼关键点的技术。人体骨骼关键点包括:眼部、耳部、嘴部、肩部、手肘、手腕、腰部、膝盖、脚踝等共17处关键点。关键点检测包括两个步骤,首先对图片中的人体目标进行识别定位,然后将识别出的人体目标分别单独提取出来,检测人体目标的可见关键点位置。
由于人体骨骼关键点可以描述人体姿态,因此关键点检测有广泛的应用前景:1.行为识别,预测人体行为;2.动作分类,异常行为检测;3.自动驾驶/无人驾驶,预测行人运动行为与运动轨迹,提前做出预判;4.步态识别与人物跟踪,因为不同个体的步态有其独特的特点。
关键点检测主要需要实现两个功能,其一是对图像中的人体目标进行检测,这个功能已经在目标检测领域中有了非常深入的研究;其二是对人体目标进行骨骼关键点的提取。
目前关键点检测方案存在的主要问题有:1.人物存在遮挡关系时,难以正确检测关键点所属的人物;2.关键点位置不够精确,与真值相比存在偏移。
因此,亟需提供一种用于关键点检测的图像处理方法,以提高关键点检测的准确性。
上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种用于关键点检测的图像处理方法、网络和电子设备。
第一方面,本公开实施例提出一种用于关键点检测的图像处理方法,所述方法包括:
对待检测关键点的图像进行特征提取,得到第一特征图;所述第一特征图的尺寸为[b,c1,h,w],其中,b为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度;
对所述第一特征图的第一通道数进行调整,得到第二特征图;所述第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数;
对所述第二特征图进行组卷积和组归一化,得到第三特征图,所述第三特征图的尺寸为[b,N,h,w];所述组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点;所述第三特征图由多个关键点概率图构成,且所述第三特征图中每个通道对应一个关键点。
第二方面,本公开实施例还提出一种用于关键点检测的图像处理网络,所述图像处理网络包括:骨干网络、通道调整网络和分组处理网络;
所述骨干网络,用于对待检测关键点的图像进行特征提取,得到第一特征图;所述第一特征图的尺寸为[b,c1,h,w],其中,b为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度;
所述通道调整网络,用于对所述第一特征图的第一通道数进行调整,得到第二特征图;所述第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数;
所述分组处理网络,用于对所述第二特征图进行组卷积和组归一化,得到第三特征图,所述第三特征图的尺寸为[b,N,h,w];所述组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点;所述第三特征图由多个关键点概率图构成,且所述第三特征图中每个通道对应一个关键点。
第三方面,本公开实施例还提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述方法的步骤。
第四方面,本公开实施例还提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面所述方法的步骤。
可见,本公开的至少一个实施例中,通过对待检测关键点的图像进行特征提取,得到第一特征图,所述第一特征图的通道数为c1;进而对第一特征图的通道数进行调整,得到第二特征图,所述第二特征图的通道数为c2*N,N为关键点的个数;从而对第二特征图进行组卷积和组归一化,实现对第二特征图进行分组处理,每个分组对应一个关键点,最终得到通道数为N的第三特征图,每个通道对应一个关键点,便于基于第三特征图检测关键点。采用分组处理方式使得各个关键点的学习解耦,相互独立,互不影响,提高后续进行关键点检测的准确度。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种用于关键点检测的图像处理网络的示例性框图;
图2是本公开实施例提供的一种HRNet的示例性结构图;
图3是本公开实施例提供的一种用于关键点检测的图像处理方法的示例性流程图;
图4是本公开实施例提供的一种电子设备的示例性框图;
图5是本公开实施例提供的另一种用于关键点检测的图像处理方法的示例性流程图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
关键点检测需要得到更加精确的关键点坐标预测结果,而且需要加快训练速度。因此,本公开实施例基于概率图的方法,设计更加精巧的神经网络提取图像特征,得到更加精确的概率图。
图1为本公开实施例提供的一种用于关键点检测的图像处理网络的示例性框图。如图1所示,图像处理网络可包括但不限于:骨干网络11、通道调整网络12和分组处理网络13。
骨干网络11
骨干网络(Backbone)11,可以理解为图像中公共特征的提取器(Public FeatureExtractor),用于对待检测关键点的图像进行特征提取,得到第一特征图。其中,第一特征图的尺寸为[b,c1,h,w],其中,b(batch size)为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度。本领域技术人员可以理解b,c1,h,w均为正整数。
在一些实施例中,骨干网络11为HRNet(High-Resoultion Net)。HRNet是一种基于概率图的关键点检测网络,其主要思想为通过设计网络结构得到针对各个关键点的概率图,损失函数的优化目标为使得概率图中关键点坐标上的概率接近1,其他点的概率接近0。
HRNet的示例性结构图如图2所示,横向方向表示网络的深度(depth),纵向方向表示网络的尺度(scale)。图2中,网络分成多个阶段(例如深度1至3、4至6、7至10、11至14分别为不同的阶段),在每个阶段初,增添一个更小分辨率的特征图(尺度也更小),分别通过插值上采样和卷积下采样的方式得到不同尺度的特征图,并将同一个尺度的特征图相加,保证初始特征图结合了上一个阶段不同尺度特征图的特征。每个阶段过程中采用ResNet(残差神经网络)对各个尺度的特征图分别进行深度学习。在最后一个阶段(即深度11至14)之后,一共可以得到4个不同尺度的特征图,将所有小尺度的特征图进行插值上采样得到与最大尺度特征图同样大小的特征图,并将它们加起来,即可得到最终输出的特征图(FeatureMap),也即深度15对应的特征图。
目前,HRNet在深度15对应的特征图之后会添加一层卷积层,将通道数目设置为关键点数量,保证输出的概率图的每个通道分别代表一个关键点的概率图。通过关键点真值生成真值概率图,使得关键点的坐标处的概率为1,其他点的概率为0,从概率为1的点过渡到概率为0的点采用高斯分布。训练时的损失函数采用MSE(Mean Squared Error,平方平均误差)。但是,但是HRNet对于关键点坐标预测不够精确,且采用插值的方法进行上采样并不十分准确。
本实施例中,骨干网络11采用如图2所示的HRNet的网络结构,用于对待检测关键点的图像进行特征提取,得到的是第一特征图,而非关键点的概率图。
通道调整网络12
通道调整网络12,用于对第一特征图的第一通道数进行调整,得到第二特征图。其中,第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数。本领域技术人员可以理解,符号“*”表示乘积运算,c2和N均为正整数。在一些实施例中,关键点为骨骼关键点,因此,N取值为17。
在一些实施例中,通道调整网络12将第一特征图依次进行卷积(Conv)、批归一化(Batch Normalization,BN)和线性整流(ReLU),得到第二特征图;其中,卷积对应的卷积核数与第二通道数相同,并且每个卷积核的通道数与第一通道数相同。
例如,第一特征图的第一通道数为48,即c1=48;第二特征图的第二通道数为32*17,即c2*N=32*17;相应地,通道调整网络12包括的卷积核数为32*17,每个卷积核的通道数为48。本领域技术人员可以理解,第二通道数中N为固定值17,但是通过调节c2的取值,可以改变第二特征图的第二通道数,例如,第二通道数可以为64*17,也可为128*17,本实施例不限定第二通道数的具体取值。
分组处理网络13
分组处理网络13,用于对第二特征图进行分组处理。通过分组处理,每个分组对应一个关键点,使得各个关键点的学习解耦,相互独立,互不影响,提高后续进行关键点检测的准确度。
在一些实施例中,分组处理网络13对第二特征图进行组卷积(Group Conv)和组归一化(Group Normalization,GN),得到第三特征图。其中,第三特征图的尺寸为[b,N,h,w],也即第三特征图的通道数也为N,与关键点的个数相同。第三特征图中每个通道对应一个关键点,每个通道表征了一个关键点的概率图。第三特征图由多个关键点概率图构成(例如17个关键点概率图)。
组卷积和组归一化实现了对第二特征图的分组处理。组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点。
在一些实施例中,分组处理网络13对第二特征图进行分组,每个分组对应的特征图的尺寸为[b,c2,h,w],分组数量与关键点的个数相同。例如,关键点的个数N为17,第二特征图的分组数量为17。分组处理网络13对不同分组并行操作,且针对每个分组,依次进行卷积和归一化,其中,所述操作可以理解为卷积和归一化,也即分组处理网络13对不同分组并行地进行卷积和归一化。
在一些实施例中,分组处理网络13可对每个分组依次进行多次卷积,并在最后一次卷积后进行归一化,得到每个分组的关键点概率图。例如,c2为32,每个分组的通道数为32,分组处理网络13对每个分组依次进行多次卷积包括:6次卷积,且6次卷积对应的通道数变化为:
第1次卷积,通道32不变;
第2次卷积,通道数由32变化为16;
第3次卷积,通道数16不变;
第4次卷积,通道数由16变化为8;
第5次卷积,通道数8不变;
第6次卷积,通道数由8变化为1。
在一些实施例中,基于分组处理网络13输出的第三特征图,可进行关键点检测,例如,将第三特征图中每个关键点概率图的最大概率值所对应的坐标确定为对应关键点的坐标。
可见,本公开的至少一个实施例中,基于概率图的关键点检测方法和HRNet的基础上,提出了对第一特征图进行后续分组处理,使得各个关键点的学习解耦,相互独立,互不影响,提高后续进行关键点检测的准确度。
在一些实施例中,为了实现以上实施例的功能,需要对用于关键点检测的图像处理网络进行训练,也即,对骨干网络11、通道调整网络12和分组处理网络13进行联合训练。
在训练过程中,图像处理网络的输入为样本图像,样本图像中标注有关键点位置,图像处理网络的输出为样本图像中17个关键点的概率图,通过反向传播调整图像处理网络的参数值,需要说明的是,分组处理网络13中各个分组分别通过反向传播学习各自的卷积核参数,归一化时也在组内进行,保证了各个分组的学习是相互独立、互不影响的,使得各个关键点的学习解耦,达到提高各自的预测准确度的效果。在一些实施例中,样本图像的数量为b。
在一些实施例中,在训练过程中,分组处理网络13中各个分组分别通过反向传播学习各自的卷积核参数,归一化时也在组内进行,为了防止过拟合,每次训练以50%概率对分组处理网络中的神经元进行dropout。
在一些实施例中,在训练过程中,可预先配置图像处理网络的输出的17个关键点概率图的顺序,这样,当训练完成后,将待检测关键点的图像输入图像处理网络,图像处理网络就按照前述顺序输出17个关键点的概率图。
在一些实施例中,在训练过程中,采用Focal Loss损失函数替换MSE Loss损失函数进行梯度计算和反向传播。Focal Loss的计算公式为:
FL(pt)=-αt(1-pt)γlog(pt)
其中,
Figure BDA0002694501150000081
与传统交叉熵相比,Focal Loss通过引入(1-pt)γ因子,降低了易分类样本在损失函数计算中的权重。应用到本实施例中,因为每个骨骼关键点的概率图中只有一个点是正样本,其他的点均为负样本,负样本的数量远远多于正样本,且负样本的分类难度也远远低于正样本。因此采用Focal Loss可以抑制正确分类的负样本在损失函数中的权重,而保留正确分类的正样本在损失函数中的权重,达到更好的学习效果。
可见,本公开的至少一个实施例中,采用Focal Loss损失函数替代MSE损失函数,抑制了大量容易分类的负样本在损失函数中的权重,保留了难以分类的正样本在损失函数中的权重,使图像处理网络学习过程中更加关心概率图中值接近1的正样本,进而可提高后续进行关键点检测的准确度。
在一些实施例中,用于关键点检测的图像处理网络中各网络的划分仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如骨干网络11、通道调整网络12和分组处理网络13中的至少两个网络可以实现为一个网络;骨干网络11、通道调整网络12或分组处理网络13也可以划分为多个子网络。可以理解的是,各个网络或子网络能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。
图3是本公开实施例提供的一种用于关键点检测的图像处理方法的示例性流程图。本实施例的方法可由图1所示的用于关键点检测的图像处理网络来执行。为便于描述,下面结合图1所示的图像处理网络对本实施例的方法进行说明。
在步骤301中,骨干网络为HRNet Backbone,对待检测关键点的图像进行公共特征提取(Public Feature Extractor),得到第一特征图(Feature Map 1)。Feature Map 1的尺寸[b,c1,h,w]为[b,48,96,72],也即,第一特征图的第一通道数c1为48。
在步骤302中,通道调整网络对第一特征图的第一通道数进行调整,具体地,通道调整网络将Feature Map 1依次进行卷积(Conv)、批归一化(BN)和线性整流(ReLU),得到第二特征图(Feature Map 2)。其中,Feature Map 2的尺寸[b,c2*N,h,w]为[b,32*17,96,72],也即,第二特征图的第二通道数c2*N为32*17,关键点的个数N为17。本步骤中,卷积(Conv)对应的卷积核数与第二通道数相同,也即卷积核数也为32*17。
在步骤303中,分组处理网络对第二特征图进行分组处理,具体地,分组处理网络对Feature Map 2进行(Group Conv)和组归一化(GN),得到第三特征图(Feature Map 3)。Feature Map 3的尺寸[b,N,h,w]为[b,17,96,72],也即,第三特征图的通道数为17,与关键点的个数相同。
本实施例中,组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点。第三特征图中每个通道对应一个关键点,每个通道表征了一个关键点的概率图。第三特征图由17个关键点概率图构成。
本实施例中,分组处理网络对Feature Map 2进行分组,如图3步骤303对应的虚线框中的多个箭头,每个箭头表示一个分组。每个分组对应的特征图的尺寸[b,c2,h,w]为[b,32,96,72],分组数量与关键点的个数相同。由于关键点的个数N为17,Feature Map 2的分组数量为17。
图3中,θ=0.5表示在训练过程中,每次训练以50%概率对分组处理网络中的神经元进行dropout,防止过拟合。
图4是本公开实施例提供的一种电子设备的结构示意图。
如图4所示,电子设备包括:至少一个处理器41、至少一个存储器42和至少一个通信接口43。电子设备中的各个组件通过总线系统44耦合在一起。通信接口43,用于与外部设备之间的信息传输。可理解地,总线系统44用于实现这些组件之间的连接通信。总线系统44除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图4中将各种总线都标为总线系统44。
可以理解,本实施例中的存储器42可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器42存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础任务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用任务。实现本公开实施例提供的用于关键点检测的图像处理方法的程序可以包含在应用程序中。
在本公开实施例中,处理器41通过调用存储器42存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器41用于执行本公开实施例提供的用于关键点检测的图像处理方法各实施例的步骤。
本公开实施例提供的用于关键点检测的图像处理方法可以应用于处理器41中,或者由处理器41实现。处理器41可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本公开实施例提供的用于关键点检测的图像处理方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器42,处理器41读取存储器42中的信息,结合其硬件完成方法的步骤。
图5为本公开实施例提供的一种用于关键点检测的图像处理方法的示例性流程图。该方法的执行主体为电子设备。在一些实施例中,该方法基于PyTorch框架实现。为便于描述,以下实施例中以电子设备为执行主体说明图像处理方法的流程。
如图5所示,在步骤501中,电子设备对待检测关键点的图像进行特征提取,得到第一特征图;所述第一特征图的尺寸为[b,c1,h,w],其中,b为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度。
在一些实施例中,电子设备通过骨干网络(Backbone)对待检测关键点的图像进行特征提取,得到第一特征图。在一些实施例中,骨干网络为HRNet,也可以为其他类型的特征提取网络。
在步骤502中,电子设备对所述第一特征图的第一通道数进行调整,得到第二特征图;所述第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数。
在一些实施例中,电子设备将第一特征图依次进行卷积(Conv)、批归一化(BN)和线性整流(ReLU),得到第二特征图;其中,所述卷积对应的卷积核数与所述第二通道数相同,并且每个卷积核的通道数与第一通道数相同。
在步骤503中,电子设备对所述第二特征图进行组卷积(Group Conv)和组归一化(GN),得到第三特征图,所述第三特征图的尺寸为[b,N,h,w];所述组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点;所述第三特征图由多个关键点概率图构成,且所述第三特征图中每个通道对应一个关键点,每个通道表征了一个关键点的概率图。
在一些实施例中,电子设备对所述第二特征图进行组卷积和组归一化包括:
对所述第二特征图进行分组,每个分组对应的特征图的尺寸为[b,c2,h,w],分组数量与所述关键点的个数相同;
对不同分组并行操作,且针对每个分组,依次进行卷积和归一化。其中,所述操作可以理解为卷积和归一化,也即对不同分组并行地进行卷积和归一化。
在一些实施例中,电子设备针对每个分组,依次进行卷积和归一化,包括:对每个分组依次进行多次卷积,并在最后一次卷积后进行归一化,得到每个分组的关键点概率图。
例如,c2为32,每个分组的通道数为32,电子设备对每个分组依次进行6次卷积,且6次卷积对应的通道数变化为:
第1次卷积,通道32不变;
第2次卷积,通道数由32变化为16;
第3次卷积,通道数16不变;
第4次卷积,通道数由16变化为8;
第5次卷积,通道数8不变;
第6次卷积,通道数由8变化为1。
在一些实施例中,电子设备基于第三特征图,可进行关键点检测,例如,将第三特征图中每个关键点概率图的最大概率值所对应的坐标确定为对应关键点的坐标。
可见,本公开的至少一个实施例中,基于概率图的关键点检测方法和HRNet的基础上,提出了对第一特征图进行后续分组处理,使得各个关键点的学习解耦,相互独立,互不影响,提高后续进行关键点检测的准确度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员能够理解,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。另外,本领域技术人员能够理解,说明书中所描述的实施例均属于可选实施例。
本公开实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如用于关键点检测的图像处理方法各实施例的步骤,为避免重复描述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种用于关键点检测的图像处理方法,其特征在于,所述方法包括:
对待检测关键点的图像进行特征提取,得到第一特征图;所述第一特征图的尺寸为[b,c1,h,w],其中,b为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度;
对所述第一特征图的第一通道数进行调整,得到第二特征图;所述第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数;
对所述第二特征图进行组卷积和组归一化,得到第三特征图,所述第三特征图的尺寸为[b,N,h,w];所述组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点;所述第三特征图由多个关键点概率图构成,且所述第三特征图中每个通道对应一个关键点。
2.根据权利要求1所述的方法,其特征在于,所述对待检测关键点的图像进行特征提取,得到第一特征图包括:
通过骨干网络对待检测关键点的图像进行特征提取,得到第一特征图。
3.根据权利要求2所述的方法,其特征在于,
所述骨干网络为HRNet。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一特征图的第一通道数进行调整,得到第二特征图包括:
将所述第一特征图依次进行卷积、批归一化和线性整流,得到第二特征图;其中,所述卷积对应的卷积核数与所述第二通道数相同。
5.根据权利要求1所述的方法,其特征在于,所述对所述第二特征图进行组卷积和组归一化包括:
对所述第二特征图进行分组,每个分组对应的特征图的尺寸为[b,c2,h,w],分组数量与所述关键点的个数相同;
对不同分组并行操作,且针对每个分组,依次进行卷积和归一化。
6.根据权利要求5所述的方法,其特征在于,所述针对每个分组,依次进行卷积和归一化,包括:
对每个分组依次进行多次卷积,并在最后一次卷积后进行归一化,得到每个分组的关键点概率图。
7.根据权利要求6所述的方法,其特征在于,c2为32,每个分组的通道数为32,所述对每个分组依次进行多次卷积包括:6次卷积,且6次卷积对应的通道数变化为:
第1次卷积,通道32不变;
第2次卷积,通道数由32变化为16;
第3次卷积,通道数16不变;
第4次卷积,通道数由16变化为8;
第5次卷积,通道数8不变;
第6次卷积,通道数由8变化为1。
8.一种用于关键点检测的图像处理网络,其特征在于,所述图像处理网络包括:骨干网络、通道调整网络和分组处理网络;
所述骨干网络,用于对待检测关键点的图像进行特征提取,得到第一特征图;所述第一特征图的尺寸为[b,c1,h,w],其中,b为样本数量,c1为第一通道数,h为特征图高度,w为特征图宽度;
所述通道调整网络,用于对所述第一特征图的第一通道数进行调整,得到第二特征图;所述第二特征图的尺寸为[b,c2*N,h,w],其中,c2*N为第二通道数,N为关键点的个数;
所述分组处理网络,用于对所述第二特征图进行组卷积和组归一化,得到第三特征图,所述第三特征图的尺寸为[b,N,h,w];所述组卷积和组归一化的过程中每个分组的卷积和归一化相互独立,且每个分组对应一个关键点;所述第三特征图由多个关键点概率图构成,且所述第三特征图中每个通道对应一个关键点。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述方法的步骤。
CN202011001563.4A 2020-09-22 2020-09-22 一种用于关键点检测的图像处理方法、网络和电子设备 Pending CN112149558A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011001563.4A CN112149558A (zh) 2020-09-22 2020-09-22 一种用于关键点检测的图像处理方法、网络和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011001563.4A CN112149558A (zh) 2020-09-22 2020-09-22 一种用于关键点检测的图像处理方法、网络和电子设备

Publications (1)

Publication Number Publication Date
CN112149558A true CN112149558A (zh) 2020-12-29

Family

ID=73893565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011001563.4A Pending CN112149558A (zh) 2020-09-22 2020-09-22 一种用于关键点检测的图像处理方法、网络和电子设备

Country Status (1)

Country Link
CN (1) CN112149558A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520251A (zh) * 2018-04-20 2018-09-11 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN109614876A (zh) * 2018-11-16 2019-04-12 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN110163080A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 人脸关键点检测方法及装置、存储介质和电子设备
CN111160111A (zh) * 2019-12-09 2020-05-15 电子科技大学 一种基于深度学习的人体关键点检测方法
CN111476184A (zh) * 2020-04-13 2020-07-31 河南理工大学 一种基于双注意力机制的人体关键点检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN108520251A (zh) * 2018-04-20 2018-09-11 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109614876A (zh) * 2018-11-16 2019-04-12 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN110163080A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 人脸关键点检测方法及装置、存储介质和电子设备
CN110084221A (zh) * 2019-05-08 2019-08-02 南京云智控产业技术研究院有限公司 一种基于深度学习的带中继监督的序列化人脸关键点检测方法
CN111160111A (zh) * 2019-12-09 2020-05-15 电子科技大学 一种基于深度学习的人体关键点检测方法
CN111476184A (zh) * 2020-04-13 2020-07-31 河南理工大学 一种基于双注意力机制的人体关键点检测方法

Similar Documents

Publication Publication Date Title
CN110443818B (zh) 一种基于涂鸦的弱监督语义分割方法与系统
CN106960206B (zh) 字符识别方法和字符识别系统
CN106683048B (zh) 一种图像超分辨率方法及设备
CN111340180B (zh) 指定标签的对抗样本生成方法、装置、电子设备及介质
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN111444765B (zh) 图像重识别方法及相关模型的训练方法及相关装置、设备
CN110826457B (zh) 一种复杂场景下的车辆检测方法及装置
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
CN111967573A (zh) 数据处理方法、装置、设备及计算机可读存储介质
CN111985414B (zh) 一种关节点位置确定方法及装置
CN112836756A (zh) 图像识别模型训练方法、系统和计算机设备
CN114419313A (zh) 影像辨识方法及影像辨识系统
CN115311550A (zh) 遥感影像语义变化检测方法、装置、电子设备及存储介质
CN114821823A (zh) 图像处理、人脸防伪模型的训练及活体检测方法和装置
CN118097293A (zh) 基于残差图卷积网络和自注意力的小样本数据分类方法及系统
CN114299358A (zh) 图像质量评估方法、装置、电子设备及机器可读存储介质
CN117975086A (zh) 一种基于度量元学习的少样本图像分类方法及系统
CN112149558A (zh) 一种用于关键点检测的图像处理方法、网络和电子设备
CN112016571B (zh) 一种基于注意力机制的特征提取方法、装置及电子设备
CN113807407B (zh) 目标检测模型训练方法、模型性能检测方法及装置
CN114970732A (zh) 分类模型的后验校准方法、装置、计算机设备及介质
CN113724261A (zh) 一种基于卷积神经网络的快速图像构图方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210929

Address after: No.1 Factory building, no.299, Hongye Road, Dayun Town, Jiashan County, Jiaxing City, Zhejiang Province

Applicant after: UISEE TECHNOLOGY (ZHEJIANG) Co.,Ltd.

Address before: 211100 2nd floor, block B4, Jiulonghu international enterprise headquarters park, 19 Suyuan Avenue, Jiangning Development Zone, Nanjing City, Jiangsu Province (Jiangning Development Zone)

Applicant before: Yushi Technology (Nanjing) Co.,Ltd.