CN110084180A - 关键点检测方法、装置、电子设备及可读存储介质 - Google Patents
关键点检测方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110084180A CN110084180A CN201910335205.8A CN201910335205A CN110084180A CN 110084180 A CN110084180 A CN 110084180A CN 201910335205 A CN201910335205 A CN 201910335205A CN 110084180 A CN110084180 A CN 110084180A
- Authority
- CN
- China
- Prior art keywords
- module
- feature
- key point
- sampling
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例提供了一种关键点检测方法、装置、电子设备及可读存储介质,应用于图像处理技术领域,方法包括:对待检测图像进行预处理,将得到的预处理图像输入第一Hourglass网络,得到预设数量张第一关键点概率图,将预处理图像和第一关键点概率图输入第二Hourglass网络,根据得到的预设数量张第二关键点概率图确定待检测图像中关键点的位置,分别在第一Hourglass网络和第二Hourglass网络中,在下采样模块或上采样模块后,通过Inception‑Resnet模块提取采样后的特征,通过Attention模块生成提取后的每个特征的权重并修正权重,得到修正后的特征。可提高关键点检测的效率及准确性。
Description
技术领域
本公开涉及图像处理技术领域,特别是涉及一种关键点检测方法、装置、电子设备及可读存储介质。
背景技术
人体骨骼关键点对于描述人体姿态,预测人体行为至关重要,因此人体骨骼关键点检测是诸多计算机视觉任务的基础,例如,动作分类,异常行为检测,以及自动驾驶等。人体骨骼关键点检测主要检测人体的一些关键点,如关节,五官等,通过关键点描述人体骨骼信息。由于人体具有相当的柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响非常大,而且还面临着遮挡、光照、雾等环境的影响。
相关技术中,可以通过Stacked Hourglass(沙漏)算法将深度学习应用于人体姿态分析,同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage,其中,第一个stage产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。在Stacked Hourglass算法中,Hourglass是核心部件,由Residual模块组成。上下两个半路都包含若干Residual模块,逐步提取更深层次特征。但上半路在原尺度进行,下半路经历了先下采样再上采样的过程。下采样使用max pooling,上采样使用最近邻插值。Stacked Hourglass算法使用的是四个Hourglass:每次下采样之前,分出上半路保留原尺度信息;每次上采样之后,和上一个尺度的数据相加;两次下采样之间,使用三个Residual模块提取特征;两次相加之间,使用一个Residual模块提取特征,1阶Hourglass网络可参见图1。4个Hourglass检测人体关键点的计算量较大,网络结构复杂,因此,检测效率较低。
发明内容
本公开提供一种关键点检测方法、装置、电子设备及可读存储介质,以至少解决相关技术中关键点检测效率低的问题。具体技术方案如下:
根据本公开实施例的第一方面,提供一种关键点检测方法,所述方法包括:
对待检测图像进行预处理,得到预处理图像;
将所述预处理图像输入第一Hourglass网络,得到预设数量张第一关键点概率图,将所述预处理图像和所述第一关键点概率图输入第二Hourglass网络,得到所述预设数量张第二关键点概率图;
根据所述第二关键点概率图,确定所述待检测图像中关键点的位置;
其中,所述第一Hourglass网络和所述第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和Attention模块,针对输入所述第一Hourglass网络的所述预处理图像,以及输入所述第二Hourglass网络中的所述预处理图像和所述第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,所述第一关键点概率图是基于所述第一Hourglass网络中修正后的特征得到的,所述第二关键点概率图是基于所述第二Hourglass网络中修正后的特征得到的。
可选的,所述对待检测图像进行预处理,包括:
对待检测图像进行N次下采样,N为大于或等于4的整数。
可选的,所述通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,包括:
若所述Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;
在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重。
可选的,所述通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样,包括:
通过至少任意一个下采样模块进行下采样;或,
通过除最后一个上采样模块之外的至少任意一个上采样模块进行上采样。
可选的,所述通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,包括:
通过SENet生成提取后的每个特征的权重,并通过注意力机制修正所述权重。
可选的,所述将所述预处理图像和所述第一关键点概率图输入第二Hourglass网络,包括:
将所述预处理图像和所述第一关键点概率图进行串行连接之后,输入第二Hourglass网络。
根据本公开实施例的第二方面,提供一种关键点检测装置,所述装置包括:
预处理模块,被配置为执行对待检测图像进行预处理,得到预处理图像;
Hourglass网络处理模块,被配置为执行将所述预处理图像输入第一Hourglass网络,得到预设数量张第一关键点概率图,将所述预处理图像和所述第一关键点概率图输入第二Hourglass网络,得到所述预设数量张第二关键点概率图;
关键点确定模块,被配置为执行根据所述第二关键点概率图,确定所述待检测图像中关键点的位置;
其中,所述第一Hourglass网络和所述第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和Attention模块,针对输入所述第一Hourglass网络的所述预处理图像,以及输入所述第二Hourglass网络中的所述预处理图像和所述第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,所述第一关键点概率图是基于所述第一Hourglass网络中修正后的特征得到的,所述第二关键点概率图是基于所述第二Hourglass网络中修正后的特征得到的。
可选的,所述预处理模块,具体被配置为执行对待检测图像进行N次下采样,N为大于或等于4的整数。
可选的,所述Hourglass网络处理模块,包括:
特征提取单元,被配置为执行若所述Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;
权重修正单元,被配置为执行在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重。
可选的,所述通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样,包括:
通过至少任意一个下采样模块进行下采样;或,
通过除最后一个上采样模块之外的至少任意一个上采样模块进行上采样。
可选的,所述权重修正单元,具体被配置为执行通过SENet生成提取后的每个特征的权重,并通过注意力机制修正所述权重。
可选的,所述Hourglass网络处理模块,包括:
图像输入单元,被配置为执行将所述预处理图像和所述第一关键点概率图进行串行连接之后,输入第二Hourglass网络。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述第一方面任一所述的关键点检测方法的步骤。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述第一方面任一所述的关键点检测方法的步骤。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品在处理器上被执行时,实现上述第一方面任一所述的关键点检测方法的步骤。
本公开实施例提供的技术方案至少带来以下有益效果:由于本公开实施例将4个Hourglass网络缩减为2个Hourglass网络,因此,减小了计算量,并且Hourglass网络中的Inception-Resnet模块可以减小网络模型的参数量,从而进一步减小计算量,因此,可以实时应用到嵌入式手机设备。通过Inception-Resnet模块可以提高提取特征的准确性,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的,因此可以提高关键点检测的准确性。可见,本公开在减小计算量的同时,不降低关键点检测的准确性。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1为相关技术中一阶Hourglass网络结构图;
图2为本公开实施例的关键点检测方法的一种流程图;
图3为本公开实施例的整体Hourglass网络结构图;
图4为本公开实施例中每个Hourglass网络的结构图;
图5为本公开实施例的Inception-Resnet模块的结构图;
图6为本公开实施例的Attention模块的结构图;
图7为本公开实施例的关键点检测装置的一种结构图;
图8为本公开实施例的电子设备的第一种示意图;
图9为本公开实施例的电子设备的第二种示意图;
图10为本公开实施例的电子设备的第三种示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,通过Stacked Hourglass算法检测关键点的计算量较大,检测效率较低,为了解决该问题,本公开实施例提供了一种关键点检测方法、装置、电子设备及可读存储介质,以提高关键点检测的效率。
下面首先对本公开实施例所提供的关键点检测方法进行详细介绍。
参见图2,图2为本公开实施例的关键点检测方法的一种流程图,包括以下步骤:
S101,对待检测图像进行预处理,得到预处理图像。
本公开实施例中,待检测图像可以是包含人物的图像。通常情况下,原始的待检测图像分辨率较大,如果直接对待检测图像进行处理,计算量将比较大,因此,可以对待检测图像进行预处理,以减小待检测图像的分辨率,从而减小计算量。
本公开的一种实现方式中,可以对待检测图像进行N次下采样,N为大于或等于4的整数。下采样即缩小图像,例如,若图像尺寸为M*N,对其进行s倍下采样,即可得到(M/s)*(N/s)尺寸的分辨率图像。若待检测图像大小是3×256×256(3为输入通道数,256和256分别为待检测图像的高和宽),通过对待检测图像进行下采样,若下采样的次数为4,可以生成预处理图像的大小为n×16×16(n为输出通道数,16和16为预处理图像的高和宽)。其中,下采样的次数为大于或等于4的整数时,可以减小计算量。当然,下采样的次数越多,得到的预处理图像的分辨率越低,导致关键点检测的准确性降低,因此,实际应用中,下采样的次数可以是4或5。
S102,将预处理图像输入第一沙漏Hourglass网络,得到预设数量张第一关键点概率图,将预处理图像和第一关键点概率图输入第二Hourglass网络,得到预设数量张第二关键点概率图。
具体的,现有的Stacked Hourglass算法中使用4个Hourglass网络,本公开实施例中可以将Hourglass网络的个数缩减为2个,对Hourglass网络进行缩减之后,可以使计算量减小。参见图3,图3为本公开实施例的整体Hourglass网络结构图,可以看出,预处理图像经过第一Hourglass网络处理之后,得到第一关键点概率图,之后将预处理图像和第一关键点概率图输入第二Hourglass网络,得到第二关键点概率图。可选的,可以将预处理图像和第一关键点概率图进行串行连接之后,输入第二Hourglass网络,即第二Hourglass网络的输入是预处理图像和第一关键点概率图的串连数据。预设数量是预先设置的待检测关键点的数量,本公开对预设数量的大小不做限制,例如,若待检测关键点的数量为16个,预设数量即为16。相应地,第一关键点概率图和第二关键点概率图均是16张各待检测关键点的概率图。
其中,第一Hourglass网络和第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和注意Attention模块,针对输入第一Hourglass网络的预处理图像,以及输入第二Hourglass网络中的预处理图像和第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的。
参见图4,图4为本公开实施例中每个Hourglass网络的结构图,即第一Hourglass网络和第二Hourglass网络均可以具有图4所示的结构,均为2阶Hourglass网络,当然,也可以是4阶Hourglass网络等,包括:下采样模块(图4中的/2)、上采样模块(图4中的*2)、Inception-Resnet模块(图4中的IRB模块)和Attention模块。可见,在通过下采样模块进行下采样或通过上采样模块进行上采样之后,可以通过Inception-Resnet模块和Attention模块对采样后的特征进行处理。当然,每次进行下采样或上采样的输入是不同的。
其中,Inception结构出自GoogLeNet,GoogLeNet首次出现在2014年ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比赛中获得冠军,ILSVRC是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平,该版本通常称为Inception V1。Inception V1有22层深,参数量为5M。同一时期的VGGNet性能和Inception V1差不多,但是参数量也是远大于Inception V1。Inception结构非常重要的功能之一是选择卷积核的工作交给网络来处理;其后出现Inception V2版本,将V1中的5×5卷积替换为两个3×3卷积,进一步减少网络模型的参数量。
而ResNet在2015年被提出,在ImageNet比赛classification任务上获得第一名,因为它“简单与实用”并存,之后很多方法都建立在ResNet50或者ResNet101的基础上完成的,检测、分割、识别等领域都纷纷使用ResNet,Alpha zero也使用了ResNet,可见,ResNet应用广泛。随着网络的加深,出现了训练集准确率下降的现象,针对该问题提出了一种全新的网络,即深度残差网络。将Inception结构和Resnet残差结构进行结合,从而形成Inception-Resnet模块,Inception-Resnet模块的结构图可参见图5,若图5中的输入是c×h×w,c为特征的通道数,h为特征的高,w为特征的宽,左边分支经过conv_1×1得到c1×h×w的特征,中间分支依次经过conv_1×1和conv_3×3生成c2×h×w的特征;右边分支依次经过conv_1×1、conv_3×3和conv_3×3生成c3×h×w的特征。在每个分支中,h和w一直是保持不变的,但是通道数一直在变,具体数值可以根据实际情况设定。concat操作是把左边分支、中间分支和右边分支生成的特征串起来,w和h保持不变,但是,新生成的通道数是三个分支各自通道数的和,即新生成的通道数是c1+c2+c3。这样,通过Inception-Resnet模块提取特征,可以提高关键点检测的准确性。
可选的,可以在通过至少任意一个下采样模块进行下采样;或,通过除最后一个上采样模块之外的至少任意一个上采样模块进行上采样之后,通过Inception-Resnet模块提取采样后的特征。即除最后一个上采样模块之外,Inception-Resnet模块可以在其他任意一个下采样模块或上采样模块之后连接,也可以在每个下采样模块之后连接等。当然,也可以在除最后一个上采样模块之外的其他每个下采样模块和上采样模块之后,连接Inception-Resnet模块,通过Inception-Resnet模块提取采样后的特征。在下采样模块或上采样模块之后,若Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过Attention模块生成提取后的每个特征的权重,并修正权重。在Attention模块中,可以通过SENet生成提取后的每个特征的权重,并通过注意力机制修正权重。SENet(Squeeze-and-Excitation Networks)是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构,它通过对特征通道间的相关性进行建模,把重要的特征进行强化来提升准确率,这个结构是2017ILSVR竞赛的冠军,准确率提升较大。Attention模块的结构可参见图6,c为特征的通道数,h为特征的高,w为特征的宽,经过global pool,c×h×w的特征变成c×1×1的c个数。这c个数和c/2×1×1的c/2个数进行全连接,然后c/2个数再和c×1×1的c个数全连接,经过sigmoid处理把c×1×1个数量化到0~1之间。因此,Attention模块可以进一步提高关键点检测的准确性。
本公开实施例中,虽然理论上Inception-Resnet模块和Attention模块的个数越多越好,但是实验结果表明并非线性规律,本公开对Inception-Resnet模块和Attention模块的个数不做限定,有一定数量的Inception-Resnet模块和Attention模块即可,具体数值可以根据经验设定。例如,Inception-Resnet模块的个数可以为2个或3个等,可以在每个Inception-Resnet模块之后设置Attention模块,也可以在部分Inception-Resnet模块之后设置Attention模块。
S103,根据第二关键点概率图,确定待检测图像中关键点的位置。
如前所述,得到的第二关键点概率图是各待检测关键点的概率图,那么,根据第二关键点概率图可以直接确定待检测图像中关键点的位置。
本公开实施例的关键点检测方法,通过对待检测图像进行预处理,将4个Hourglass网络缩减为2个Hourglass网络,减小了计算量,并且Hourglass网络中的Inception-Resnet模块可以减小网络模型的参数量,从而进一步减小计算量,因此,可以实时应用到嵌入式手机设备。通过Inception-Resnet模块可以提高提取特征的准确性,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的,因此可以提高关键点检测的准确性。可见,本公开在减小计算量的同时,不降低关键点检测的准确性。
相应于上述方法实施例,本公开实施例提供了一种关键点检测装置,参见图7,图7为本公开实施例的关键点检测装置的一种结构图,包括:
预处理模块201,被配置为执行对待检测图像进行预处理,得到预处理图像;
沙漏Hourglass网络处理模块202,被配置为执行将预处理图像输入第一Hourglass网络,得到预设数量张第一关键点概率图,将预处理图像和第一关键点概率图输入第二Hourglass网络,得到预设数量张第二关键点概率图;
关键点确定模块203,被配置为执行根据第二关键点概率图,确定待检测图像中关键点的位置。
其中,第一Hourglass网络和第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和Attention模块,针对输入第一Hourglass网络的预处理图像,以及输入第二Hourglass网络中的预处理图像和第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的。
本公开实施例的关键点检测装置,将4个Hourglass网络缩减为2个Hourglass网络,因此,减小了计算量,并且Hourglass网络中的Inception-Resnet模块可以减小网络模型的参数量,从而进一步减小计算量,因此,可以实时应用到嵌入式手机设备。通过Inception-Resnet模块可以提高提取特征的准确性,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的,因此可以提高关键点检测的准确性。可见,本公开在减小计算量的同时,不降低关键点检测的准确性。
可选的,预处理模块,具体被配置为执行对待检测图像进行N次下采样,N为大于或等于4的整数。
可选的,Hourglass网络处理模块,包括:
特征提取单元,被配置为执行若Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;
权重修正单元,被配置为执行在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过Attention模块生成提取后的每个特征的权重,并修正权重。
可选的,通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样,包括:
通过至少任意一个下采样模块进行下采样;或,
通过除最后一个上采样模块之外的至少任意一个上采样模块进行上采样。
可选的,权重修正单元,具体被配置为执行通过SENet生成提取后的每个特征的权重,并通过注意力机制修正权重。
可选的,Hourglass网络处理模块,包括:
图像输入单元,被配置为执行将预处理图像和第一关键点概率图进行串行连接之后,输入第二Hourglass网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例提供了一种电子设备,参见图8,图8为本公开实施例的电子设备的第一种示意图,包括:
处理器301;
用于存储处理器301可执行指令的存储器302;
其中,处理器301被配置为执行上述任一关键点检测方法的步骤。
本公开实施例的电子设备中,将4个Hourglass网络缩减为2个Hourglass网络,因此,减小了计算量,并且Hourglass网络中的Inception-Resnet模块可以减小网络模型的参数量,从而进一步减小计算量,因此,可以实时应用到嵌入式手机设备。通过Inception-Resnet模块可以提高提取特征的准确性,通过Attention模块生成提取后的每个特征的权重,并修正权重,得到修正后的特征,第一关键点概率图是基于第一Hourglass网络中修正后的特征得到的,第二关键点概率图是基于第二Hourglass网络中修正后的特征得到的,因此可以提高关键点检测的准确性。可见,本公开在减小计算量的同时,不降低关键点检测的准确性。
可选的,本公开实施例的电子设备可以为如图9所示的装置400,例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电源组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
可选的,本公开实施例的电子设备可以为如图10所示的装置500。例如,装置500可以被提供为一服务器。参照图10,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供了一种非临时性计算机可读存储介质,当存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述任一关键点检测方法的步骤。
本公开实施例提供了一种计算机程序产品,计算机程序产品在处理器上被执行时,实现上述任一关键点检测方法的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种关键点检测方法,其特征在于,所述方法包括:
对待检测图像进行预处理,得到预处理图像;
将所述预处理图像输入第一沙漏Hourglass网络,得到预设数量张第一关键点概率图,将所述预处理图像和所述第一关键点概率图输入第二Hourglass网络,得到所述预设数量张第二关键点概率图;
根据所述第二关键点概率图,确定所述待检测图像中关键点的位置;
其中,所述第一Hourglass网络和所述第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和注意Attention模块,针对输入所述第一Hourglass网络的所述预处理图像,以及输入所述第二Hourglass网络中的所述预处理图像和所述第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,所述第一关键点概率图是基于所述第一Hourglass网络中修正后的特征得到的,所述第二关键点概率图是基于所述第二Hourglass网络中修正后的特征得到的。
2.根据权利要求1所述的关键点检测方法,其特征在于,所述对待检测图像进行预处理,包括:
对待检测图像进行N次下采样,N为大于或等于4的整数。
3.根据权利要求1所述的关键点检测方法,其特征在于,所述通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,包括:
若所述Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;
在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重。
4.根据权利要求1所述的关键点检测方法,其特征在于,所述通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,包括:
通过SENet生成提取后的每个特征的权重,并通过注意力机制修正所述权重。
5.一种关键点检测装置,其特征在于,所述装置包括:
预处理模块,被配置为执行对待检测图像进行预处理,得到预处理图像;
Hourglass网络处理模块,被配置为执行将所述预处理图像输入第一沙漏Hourglass网络,得到预设数量张第一关键点概率图,将所述预处理图像和所述第一关键点概率图输入第二Hourglass网络,得到所述预设数量张第二关键点概率图;
关键点确定模块,被配置为执行根据所述第二关键点概率图,确定所述待检测图像中关键点的位置;
其中,所述第一Hourglass网络和所述第二Hourglass网络,分别包括:下采样模块、上采样模块、Inception-Resnet模块和注意Attention模块,针对输入所述第一Hourglass网络的所述预处理图像,以及输入所述第二Hourglass网络中的所述预处理图像和所述第一关键点概率图,在通过至少一个下采样模块进行下采样或通过至少一个上采样模块进行上采样之后,通过所述Inception-Resnet模块提取采样后的特征,得到提取后的特征,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重,得到修正后的特征,所述第一关键点概率图是基于所述第一Hourglass网络中修正后的特征得到的,所述第二关键点概率图是基于所述第二Hourglass网络中修正后的特征得到的。
6.根据权利要求5所述的关键点检测装置,其特征在于,所述预处理模块,被配置为执行对待检测图像进行N次下采样,N为大于或等于4的整数。
7.根据权利要求5所述的关键点检测装置,其特征在于,所述Hourglass网络处理模块,包括:
特征提取单元,被配置为执行若所述Inception-Resnet模块的个数为多个,按照多个Inception-Resnet模块的连接顺序,对采样后的特征进行提取,得到提取后的特征;
权重修正单元,被配置为执行在至少一个Inception-Resnet模块之后,连接一个Attention模块,通过所述Attention模块生成提取后的每个特征的权重,并修正所述权重。
8.根据权利要求7所述的关键点检测装置,其特征在于,所述权重修正单元,被配置为执行通过SENet生成提取后的每个特征的权重,并通过注意力机制修正所述权重。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1~4任一所述的关键点检测方法的步骤。
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由移动终端的处理器执行时,使得所述移动终端能够执行权利要求1~4任一所述的关键点检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335205.8A CN110084180A (zh) | 2019-04-24 | 2019-04-24 | 关键点检测方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910335205.8A CN110084180A (zh) | 2019-04-24 | 2019-04-24 | 关键点检测方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110084180A true CN110084180A (zh) | 2019-08-02 |
Family
ID=67416631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910335205.8A Pending CN110084180A (zh) | 2019-04-24 | 2019-04-24 | 关键点检测方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110084180A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325145A (zh) * | 2020-02-19 | 2020-06-23 | 中山大学 | 一种基于结合时域通道相关性块的行为识别方法 |
CN112287855A (zh) * | 2020-11-02 | 2021-01-29 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112733141A (zh) * | 2020-12-30 | 2021-04-30 | 五八有限公司 | 一种信息处理方法及装置 |
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229490A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN109359636A (zh) * | 2018-12-14 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置及服务器 |
CN109446994A (zh) * | 2018-10-30 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 手势关键点检测方法、装置、电子设备及存储介质 |
CN109670397A (zh) * | 2018-11-07 | 2019-04-23 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 |
-
2019
- 2019-04-24 CN CN201910335205.8A patent/CN110084180A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108229490A (zh) * | 2017-02-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 关键点检测方法、神经网络训练方法、装置和电子设备 |
CN109446994A (zh) * | 2018-10-30 | 2019-03-08 | 北京达佳互联信息技术有限公司 | 手势关键点检测方法、装置、电子设备及存储介质 |
CN109670397A (zh) * | 2018-11-07 | 2019-04-23 | 北京达佳互联信息技术有限公司 | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 |
CN109359636A (zh) * | 2018-12-14 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置及服务器 |
Non-Patent Citations (1)
Title |
---|
CHRISTIAN SZEGEDY: "Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning", 《ARXIV:1602.07261V2》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325145A (zh) * | 2020-02-19 | 2020-06-23 | 中山大学 | 一种基于结合时域通道相关性块的行为识别方法 |
CN111325145B (zh) * | 2020-02-19 | 2023-04-25 | 中山大学 | 一种基于结合时域通道相关性块的行为识别方法 |
CN112287855A (zh) * | 2020-11-02 | 2021-01-29 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112287855B (zh) * | 2020-11-02 | 2024-05-10 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
CN112733141A (zh) * | 2020-12-30 | 2021-04-30 | 五八有限公司 | 一种信息处理方法及装置 |
CN112733141B (zh) * | 2020-12-30 | 2023-03-24 | 五八有限公司 | 一种信息处理方法及装置 |
CN114519401A (zh) * | 2022-02-22 | 2022-05-20 | 平安科技(深圳)有限公司 | 一种图像分类方法及装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084180A (zh) | 关键点检测方法、装置、电子设备及可读存储介质 | |
CN108549863B (zh) | 人体姿态预测方法、装置、设备及存储介质 | |
CN108664989B (zh) | 图像标签确定方法、装置及终端 | |
WO2020233464A1 (zh) | 模型训练方法、装置、存储介质及设备 | |
CN108062526A (zh) | 一种人体姿态估计方法及移动终端 | |
CN106339680B (zh) | 人脸关键点定位方法及装置 | |
CN109726659A (zh) | 人体骨骼关键点的检测方法、装置、电子设备和可读介质 | |
KR20220100920A (ko) | 3d 신체 모델 생성 | |
CN109670397A (zh) | 人体骨骼关键点的检测方法、装置、电子设备及存储介质 | |
CN108352168A (zh) | 用于语音唤醒的低资源关键短语检测 | |
CN108780646A (zh) | 用于改进型关键短语检测的中间评分和拒绝环回 | |
CN111726536A (zh) | 视频生成方法、装置、存储介质及计算机设备 | |
CN109614876A (zh) | 关键点检测方法及装置、电子设备和存储介质 | |
CN110110145A (zh) | 描述文本生成方法及装置 | |
CN108399409A (zh) | 图像分类方法、装置及终端 | |
CN110222551A (zh) | 识别动作类别的方法、装置、电子设备及存储介质 | |
CN110113523A (zh) | 智能拍照方法、装置、计算机设备及存储介质 | |
CN110390705A (zh) | 一种生成虚拟形象的方法及装置 | |
CN109871843A (zh) | 字符识别方法和装置、用于字符识别的装置 | |
CN106127828A (zh) | 一种增强现实的处理方法、装置及移动终端 | |
CN111680123B (zh) | 对话模型的训练方法、装置、计算机设备及存储介质 | |
CN109410276A (zh) | 关键点位置确定方法、装置及电子设备 | |
CN111581958A (zh) | 对话状态确定方法、装置、计算机设备及存储介质 | |
CN110047468A (zh) | 语音识别方法、装置及存储介质 | |
CN109920016A (zh) | 图像生成方法及装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190802 |
|
RJ01 | Rejection of invention patent application after publication |