CN111401335B - 一种关键点检测方法及装置、存储介质 - Google Patents
一种关键点检测方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111401335B CN111401335B CN202010356560.6A CN202010356560A CN111401335B CN 111401335 B CN111401335 B CN 111401335B CN 202010356560 A CN202010356560 A CN 202010356560A CN 111401335 B CN111401335 B CN 111401335B
- Authority
- CN
- China
- Prior art keywords
- key point
- information
- image
- prediction
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种关键点检测方法及装置、存储介质,方法包括:利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息;关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息;肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种关键点检测方法及装置、存储介质。
背景技术
人体关键点检测,主要检测人体的一些关键点,例如,眼睛、鼻子、手肘等,并将它们按照肢体顺序依次进行连接,从而描述人体骨骼信息。基于深度学习的人体关键点检测方法可以划分成两种,分别为自上而下的检测方法和自下而上的检测方法。
自上而下的检测方法,主要包括人体检测步骤和单人人体关键点检测步骤。具体的,首先通过目标检测算法将图像中每个人物个体单独的检测出来,之后,在检测框的基础上针对每个人物个体分别进行人体骨骼关键点检测。自上而下的检测方法检测精度较高,但是检测速度与图像中人物个体的数量呈线性增长的关系,并且需要额外的目标检测算法作为支持。
自下而上的检测方法,主要包括图像中多人关键点检测步骤和后处理步骤。具体的,首先将图像中所有的关键点检测出来,之后,应用相关后处理策略将所有的关键点分配到图像中不同的人物个体上。
目前,对于自下而上的检测方法而言,不仅检测模型的复杂度较高,运算量加大,而且,检测结果的精度较低。
发明内容
本申请实施例提供一种关键点检测方法及装置、存储介质,在两种预测模型中均引入多尺度学习机制,并针对不同的预测模型提供相应的特征信息进行处理,不仅降低了关键点检测的运算量,而且提高了检测精度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供了一种关键点检测方法,所述方法包括:
利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;
利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息;所述关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;
利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息;所述肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;
基于所述关键点位置信息和所述肢体连接信息,生成所述输入图像的关键点检测结果。
在上述方法中,所述第一多尺度网络包括并列的多个第一分支卷积层,所述利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息,包括:
利用所述多个第一分支卷积层中不同卷积层,从所述浅层特征图像中提取不同尺度的图像信息,得到第一多尺度图像信息;
利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息。
在上述方法中,所述第一卷积网络包括顺序连接的第一提取卷积层和第一预测卷积层,所述利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息,包括:
利用所述第一提取卷积层,对所述多个第一图像信息进行关键点特征提取,得到第一提取结果;
利用所述第一预测卷积层,根据所述第一提取结果进行关键点位置预测,得到所述关键点位置信息。
在上述方法中,所述第二多尺度网络包括并列的多个第二分支卷积层,所述利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息,包括:
利用所述上采样层,对所述深层特征图像进行上采样,得到上采样特征图像;
利用所述多个第二分支卷积层中不同卷积层,从所述上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;
利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息。
在上述方法中,所述第二卷积网络包括顺序连接的第二提取卷积层和第二预测卷积层,所述利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息,包括:
利用所述第二提取卷积层,对所述第二多尺度图像信息进行肢体连接特征提取,得到第二提取结果;
利用所述第二预测卷积层,根据所述第二提取结果进行肢体连接预测,得到所述肢体连接信息。
在上述方法中,所述利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息之前,所述方法还包括:
利用所述基础网络对样本图像进行下采样,得到浅层特征样本和深层特征样本;
利用所述关键点位置预测模型,对所述浅层特征样本进行关键点位置预测,得到预测位置信息;
利用所述肢体连接预测模型,对所述深层特征样本进行肢体连接预测,得到预测连接信息;
基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练。
在上述方法中,所述基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练,包括:
利用所述预测位置信息和所述预设关键点位置,确定第一损失参数;
利用所述预测连接信息和所述预设连接信息,确定第二损失参数;
根据所述第一损失参数和所述第二损失参数,确定预测损失参数;
基于所述预测损失参数,对所述关键点位置预测模型和所述肢体连接预测模型进行优化。
本申请实施例提供了一种关键点检测装置,所述装置包括:
特征提取模块,用于利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;
第一预测模块,用于利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息;所述关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;
第二预测模块,用于利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息;所述肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;
结果生成模块,用于基于所述关键点位置信息和所述肢体连接信息,生成所述输入图像的关键点检测结果。
在上述装置中,所述第一多尺度网络包括并列的多个第一分支卷积层,所述第一预测模块,具体用于利用所述多个第一分支卷积层中不同卷积层,从所述浅层特征图像中提取不同尺度的图像信息,得到第一多尺度图像信息;利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息。
在上述装置中,所述第一卷积网络包括顺序连接的第一提取卷积层和第一预测卷积层,第一预测模块,具体用于利用所述第一提取卷积层,对所述多个第一图像信息进行关键点特征提取,得到第一提取结果;利用所述第一预测卷积层,根据所述第一提取结果进行关键点位置预测,得到所述关键点位置信息。
在上述装置中,所述第二多尺度网络包括并列的多个第二分支卷积层,所述第二预测模块,具体用于利用所述上采样层,对所述深层特征图像进行上采样,得到上采样特征图像;利用所述多个第二分支卷积层中不同卷积层,从所述上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息。
在上述装置中,所述第二卷积网络包括顺序连接的第二提取卷积层和第二预测卷积层,所述第二预测模块,具体用于利用所述第二提取卷积层,对所述第二多尺度图像信息进行肢体连接特征提取,得到第二提取结果;利用所述第二预测卷积层,根据所述第二提取结果进行肢体连接预测,得到所述肢体连接信息。
在上述装置中,所述装置还包括模型训练模块;
所述特征提取模块,还用于利用所述基础网络对样本图像进行下采样,得到浅层特征样本和深层特征样本;
所述第一预测模块,还用于利用所述关键点位置预测模型,对所述浅层特征样本进行关键点位置预测,得到预测位置信息;
所述第二预测模块,还用于利用所述肢体连接预测模型,对所述深层特征样本进行肢体连接预测,得到预测连接信息;
所述模型训练模块,用于基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练。
在上述装置中,所述模型训练模块,具体用于利用所述预测位置信息和所述预设关键点位置,确定第一损失参数;利用所述预测连接信息和所述预设连接信息,确定第二损失参数;根据所述第一损失参数和所述第二损失参数,确定预测损失参数;基于所述预测损失参数,对所述关键点位置预测模型和所述肢体连接预测模型进行优化。
本申请实施例提供了一种关键点检测装置,所述装置包括处理器、存储器和通信总线;
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述存储器中存储的关键点检测程序,以实现上述关键点检测方法。
本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述关键点检测方法。
本申请实施例提供了一种关键点检测方法及装置、存储介质,方法包括:利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息;关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息;肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。本申请实施例提供的技术方案,在两种预测模型中均引入多尺度学习机制,并针对不同的预测模型提供相应的特征信息进行处理,不仅降低了关键点检测的运算量,而且提高了检测精度。
附图说明
图1为本申请实施例提供的一种关键点检测方法的流程示意图;
图2为本申请实施例提供的一种示例性的第一多尺度网络的结构示意图;
图3为本申请实施例提供的一种示例性的预测过程示意图;
图4为本申请实施例提供的一种终端的结构示意图一;
图5为本申请实施例提供的一种终端的结构示意图二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
本申请实施例提供了一种关键点检测方法,通过关键点检测装置实现。其中,关键点检测装置可以是手机、平板电脑等电子设备,本申请实施例不作限定。图1为本申请实施例提供的一种关键点检测方法的流程示意图。如图1所示,关键点检测方法主要包括以下步骤:
S101、利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像。
在本申请的实施例中,关键点检测装置在获取到输入图像之后,首先,利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像。
需要说明的是,在本申请的实施例中,输入图像为需要进行关键点检测的包括人物的图像。关键点检测装置可以配置有摄像模块,从而自主采集输入图像,当然,也可以通过其它独立的摄像装置进行输入图像的采集,并将输入图像传输给关键点检测装置。具体的输入图像,以及输入图像的来源,本申请实施例不作限定。
需要说明的是,在本申请的实施例中,关键点检测装置利用基础网络对输入图像进行下采样,具体可以包括:利用基础网络对输入图像依次进行4次2倍下从采样,其中,将8倍的下采样结果确定为浅层特征图像,将16倍的下采样结果确定为深层特征图像。当然,关键点检测装置还可以进行更多次的下采样,从而选择浅层特征图像和深层特征图像,本申请实施例不作限定。
需要说明的是,在本申请的实施例中,基础网络可以为现有的任意一个卷积神经网络,例如Vgg、ResNet、Mobilenet等。其中,Vgg和ResNet等深层次类型的基础网络,其运算量较大,但是精度较高,Mobilenet等轻量化类型的基础网络,运算量较小,处理速度较快,但是精度有限。具体的基础网络的可以根据实际应用场景和实际需求进行选择,本申请实施例不作限定。
可以理解的是,在本申请的实施例中,关键点检测装置在后续进行关键点位置预测和肢体连接预测时,对于关键点位置预测倾向于需要精细的位置坐标信息,因此,以利用基础网络得到的浅层特征图像作为处理对象,而对于肢体连接预测倾向于需要高层级的语义信息来学习肢体分类特征,因此,以利用基础网络得到深层特征图像作为处理对象。
S102、利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息;关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络。
在本申请的实施例中,关键点检测装置在得到输入图像的浅层特征图像和深层特征图像之后,进一步的,可以利用利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息。
需要说明的是,在本申请的实施例中,关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络。其中,第一多尺度网络可以包括并列的多个第一分支卷积层。具体的第一多尺度网络包括的第一分支卷积层的数量可以根据实际需求设置,本申请实施例不作限定。
具体的,在本申请的实施例中,关键点检测装置利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息,包括:利用多个第一分支卷积层中不同卷积层,从浅层特征图像中提取不同尺度的图像信息,得到第一多尺度图像信息;利用第一卷积网络,根据第一多尺度图像信息进行关键点位置预测,得到关键点位置信息。
可以理解的是,在本申请的实施例中,基础网络为卷积神经网络,其中每个卷积层的输入只能为上一个卷积层的输出,即每个卷积层能学习到的特征信息只能是上一个卷积层的输出所代表的单一感受野信息。而第一多尺度网络包括并列的多个第一分支卷积层,每个第一分支卷积层使用不同大小的卷积核,从而能够基于同一输入,即浅层特征图像,同时提取到多个不同尺度的图像信息,作为第一多尺度图像信息。
图2为本申请实施例提供的一种示例性的第一多尺度网络的结构示意图。如图2所示,在本申请的实施例中,第一多尺度网络包括四个并列的第一分支卷积层,分别为:一个1×1卷积核的卷积层、一个3×3卷积核的卷积层、两个3×3卷积核的卷积层,以及三个3×3卷积核的卷积层。四个卷积层既保证了多尺度的图像信息提取效果,而且相比于现有的1×1卷积核、3×3卷积核、5×5卷积核和7×7卷积核结构的四个卷积层,运算量较少。例如,输入和输出特征图像均为N×W×H×C,其中N表示训练批处理数目,W和H表示特征图的宽高,C表示特征图的通道数,则1个5×5卷积核的运算量为5×5×N×W×H×C×C,而2个3×3卷积核的运算量为2×3×3×N×W×H×C×C,只有原来的18/25。
需要说明的是,在本申请的实施例中,关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络。其中,第一卷积网络包括顺序连接的第一提取卷积层和第一预测卷积层。
具体的,在本申请的实施例中,关键点检测装置利用第一卷积网络,根据第一多尺度图像信息进行关键点位置预测,得到关键点位置信息,包括:利用第一提取卷积层,对多个第一图像信息进行关键点特征提取,得到第一提取结果;利用第一预测卷积层,根据第一提取结果进行关键点位置预测,得到关键点位置信息。
需要说明的是,在本申请的实施例中,第一卷积网络中包括两个卷积层,其中,第一提取卷积层可以为一个3×3的卷积核,用于对输入的第一多尺度图像信息进行进一步的关键点特征提取,而与第一提取卷积层顺序相连的第一预测卷积层,用于根据第一提取卷积层输出的第一提取结果,进行关键点位置预测,其输出的关键点位置信息实际上是一个关键点位置的特征图。
S103、利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息;肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络。
在本申请的实施例中,关键点检测装置在得到输入图像的浅层特征图像和深层特征图像之后,进一步的,可以利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息。
需要说明的是,在本申请的实施例中,肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络。其中,第二多尺度网络包括并列的多个第二分支卷积层。具体的第二多尺度网络包括的第二分支卷积层的数量可以根据实际需求设置,本申请实施例不作限定。
具体的,在本申请的实施例中,关键点检测装置利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息,包括:利用上采样层,对深层特征图像进行上采样,得到上采样特征图像;利用多个第二分支卷积层中不同卷积层,从上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;利用第二卷积网络,根据第二多尺度图像信息进行肢体连接预测,得到肢体连接信息。
可以理解的是,在本申请的实施例中,由于从基础网络中输出的深层特征图像实际上是输入图像的16倍下采样结果,深层特征图像的尺寸较小,如果直接将其作为肢体连接预测模型中第二多尺度网络的输入,则在第二多尺度网络中利用卷积核较大且较多的卷积层进行特征提取时,容易出现过度提取的问题,产生不必要的冗余信息。因此,在肢体连接预测模型中,第二多尺度网络之前,设置有上采样层,可以对深层特征图像先进行一个2倍的上采样,以避免特征过度提取。
需要说明的是,在本申请的实施例中,关键点检测装置利用第二多尺度网络对上采样特征图像进行不同尺度的图像信息的提取,与上述步骤S102中,利用第一多尺度网络对浅层特征图像进行不同尺度的图像信息的提取过程类似,在此不再赘述。
需要说明的是,在本申请的实施例中,第一多尺度网络和第二多尺度网络可以为不同的多尺度网络,但是其结构相同或类似,此外,第一多尺度网络和第二多尺度网络也可以是同一多尺度网络,例如,第二多尺度网络与图2所示的第一多尺度网络相同,本申请实施例不作限定。
需要说明的是,在本申请的实施例中,第二卷积网络包括顺序连接的第二提取卷积层和第二预测卷积层。
具体的,在本申请的实施例中,关键点检测装置利用第二卷积网络,根据第二多尺度图像信息进行肢体连接预测,得到肢体连接信息,包括:利用第二提取卷积层,对第二多尺度图像信息进行肢体连接特征提取,得到第二提取结果;利用第二预测卷积层,根据第二提取结果进行肢体连接预测,得到肢体连接信息。
需要说明的是,在本申请的实施例中,第二卷积网络中包括两个卷积层,其中,第二提取卷积层可以为一个3×3的卷积核,用于对输入的第二多尺度图像信息进行进一步的肢体连接特征提取,而与第二提取卷积层顺序相连的第1预测卷积层,用于根据第二提取卷积层输出的第二提取结果,进行肢体连接预测,其输出的肢体连接信息实际上是一个肢体连接的特征图。
需要说明的是,在目前的关键点检测的过程中,关键点位置预测和肢体连接预测,其使用的模型均需要大量的卷积核串行连接来提升精度,但是实验证明,无论是关键点位置预测还是肢体连接预测,过多的卷积核串行对于精度的提升十分有限,并且还带来巨大的参数量和运算量。在本申请的实施例中,关键点位置预测模型和肢体连接预测模型中均加入了多尺度网络,从而使得输入到后续卷积网络中进行预测的信息包含有非常丰富的特征信息,因此,可以进一步减少后续卷积网络中卷积核的数目,不仅提高了预测精度,而且大幅降低了运算量和参数量,能够实现实时检测。
S104、基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。
在本申请的实施例中,关键点检测装置在获得关键点位置信息和肢体连接信息之后,即可基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。
具体的,在本申请的实施例中,关键点检测装置基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果,可以包括:基于关键点位置信息,从输入图像中确定不同对象对应的关键点;利用肢体连接信息,将输入图像中不同对象对应的关键点分别进行连接,得到关键点检测结果。
可以理解的是,在本申请的实施例中,关键点检测装置可以检测出输入图像中的全部关键点的位置信息,从而利用特定的策略将关键点分配到输入图像中不同的人物个体上,之后,针对于不同的人物个体,按照肢体连接信息中指示的相应的连接顺序,将关键点依次进行连接,从而呈现最终的关键点检测结果。
图3为本申请实施例提供的一种示例性的预测过程示意图。如图3所示,关键点检测装置先利用基础网络对输入图像依次进行4次的2倍下采样,之后,利用关键点位置预测模型根据8倍的下采样结果,即浅层特征图像,进行关键点位置预测,利用肢体连接预测模型根据16倍的下采样结果,即深层特征图像,进行肢体连接预测。其中,关键点位置预测模型和肢体连接预测模型中,3×3的卷积核实际上为相应模型中的提取卷积层,1×1的卷积核实际上为相应模型中的预测卷积层。
需要说明的是,在本申请的实施例中,关键点检测装置在对输入图像进行关键点位置预测和肢体连接预测之前,需要对相应的预测模型进行一定程度的训练。
在本申请的实施例中,关键点检测装置利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息之前,还可以执行以下步骤:利用基础网络对样本图像进行下采样,得到浅层特征样本和深层特征样本;利用关键点位置预测模型,对浅层特征样本进行关键点位置预测,得到预测位置信息;利用肢体连接预测模型,对深层特征样本进行肢体连接预测,得到预测连接信息;基于预测位置信息、预测连接信息、样本图像对应的预设关键点位置和预设连接信息,对关键点位置预测模型和肢体连接预测模型进行训练。
需要说明的是,在本申请的实施例中,关键点检测装置可以获取到样本图像,以利用样本图像对关键点位置预测模型和肢体连接预测模型进行模型训练。具体的样本图像,以及样本图像的数量本申请实施例不作限定。
需要说明的是,在本申请的实施例中,关键点检测装置利用关键点位置预测模型和肢体连接预测模型进行相应预测的方式,与上述步骤S102和S103相同,在此不再赘述。
具体的,在本申请的实施例中,关键点检测装置基于预测位置信息、预测连接信息、样本图像对应的预设关键点位置和预设连接信息,对关键点位置预测模型和肢体连接预测模型进行训练,包括:利用预测位置信息和预设关键点位置,确定第一损失参数;利用预测连接信息和预设连接信息,确定第二损失参数;根据第一损失参数和第二损失参数,确定预测损失参数;基于预测损失参数,对关键点位置预测模型和肢体连接预测模型进行优化。
可以理解的是,在本申请的实施例中,为了衡量预测模型的预测结果与真实结果之间的差距,关键点检测装置可以分别计算两个预测模型的损失参数,从而基于总的损失参数,调整预测模型中的参数,以最小化总的损失参数。
需要说明的是,在本申请的实施例中,第一损失参数表征预测的关键点位置与真实的关键点位置之间的损失,具体的第一损失参数L1可以按照以下公式(1)计算:
其中,P1(i,j)表示预测位置信息表征的关键点形成的特征图中位置(i,j)上的值,G1(i,j)表示预设关键点位置表征的关键点形成的特征图中位置(i,j)上的值,预测位置信息表征的关键点形成的特征图,以及预设关键点位置表征的关键点形成的特征图的宽和高相同,均为width1和height1。
需要说明的是,在本申请的实施例中,第二损失参数表征预测的肢体连接信息与真实的肢体连接顺序之间的损失,具体的第二损失参数L2可以按照以下公式(2)计算:
其中,P2(i,j)表示预测连接信息形成的特征图中位置(i,j)上的值,G1(i,j)表示预设连接信息形成的特征图中位置(i,j)上的值,预测连接信息形成的特征图,以及预设连接信息形成的特征图的宽和高相同,均为width2和height2。
需要说明的是,在本申请的实施例中,关键点检测装置具体按照以下公式(3)确定预测损失参数:
Ltotal=L1+L2 (3)
其中,Ltotal即为预测损失参数,L1为第一损失参数,L2为第二损失参数。
需要说明的是,在本申请的实施例中,关键点检测装置在得到预测损失参数之后,如果预测损失参数超过预设参数阈值,则可以按照特定的策略调整关键点位置预测模型和肢体连接预测模型中的参数不断进行调整,直至预测损失参数低于预设参数阈值。
需要说明的是,在本申请的实施例中,关键点位置预测模型和肢体连接预测模型中所有的卷积处理,均不改变对应输入的特征图的大小。
可以理解的是,在本申请的实施例中,第一,关键点检测方法属于自下而上类型的检测方法,相比于自上而下的检测方法,不需要引入额外的目标检测算法进行预先处理。第二,关键点位置预测模型和肢体连接预测模型中均设置有多尺度网络,从而使模型能够学习到的尺度信息和感受野信息更多,从而提升模型的预测精度,并且,多尺度网络的结构简单,运算量较小。第三,针对与关键点位置预测模型和肢体连接预测模型,分别提供相应的信息进行预测,从提升了模型的预测精度。第四,关键点位置预测模型和肢体连接预测模型中的卷积网络,只包括两个卷积层,结构简单,降低了模型的运算量。
本申请实施例提供了一种关键点检测方法,包括:利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息;关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息;肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。本申请实施例提供的技术方案,在两种预测模型中均引入多尺度学习机制,并针对不同的预测模型提供相应的特征信息进行处理,不仅降低了关键点检测的运算量,而且提高了检测精度。
本申请实施例还提供了一种关键点检测装置。图4为本申请实施例提供的一种关键点检测装置的结构示意图一。如图4所示,关键点检测装置包括:
特征提取模块401,用于利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;
第一预测模块402,用于利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息;所述关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;
第二预测模块403,用于利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息;所述肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;
结果生成模块404,用于基于所述关键点位置信息和所述肢体连接信息,生成所述输入图像的关键点检测结果。
在本申请一实施例中,所述第一多尺度网络包括并列的多个第一分支卷积层,所述第一预测模块402,具体用于利用所述多个第一分支卷积层中不同卷积层,从所述浅层特征图像中提取不同尺度的图像信息,得到第一多尺度图像信息;利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息。
在本申请一实施例中,所述第一卷积网络包括顺序连接的第一提取卷积层和第一预测卷积层,第一预测模块402,具体用于利用所述第一提取卷积层,对所述多个第一图像信息进行关键点特征提取,得到第一提取结果;利用所述第一预测卷积层,根据所述第一提取结果进行关键点位置预测,得到所述关键点位置信息。
在本申请一实施例中,所述第二多尺度网络包括并列的多个第二分支卷积层,所述第二预测模块403,具体用于利用所述上采样层,对所述深层特征图像进行上采样,得到上采样特征图像;利用所述多个第二分支卷积层中不同卷积层,从所述上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息。
在本申请一实施例中,所述第二卷积网络包括顺序连接的第二提取卷积层和第二预测卷积层,所述第二预测模块403,具体用于利用所述第二提取卷积层,对所述第二多尺度图像信息进行肢体连接特征提取,得到第二提取结果;利用所述第二预测卷积层,根据所述第二提取结果进行肢体连接预测,得到所述肢体连接信息。
在本申请一实施例中,所述装置还包括模型训练模块405(图中未示出);
所述特征提取模块401,还用于利用所述基础网络对样本图像进行下采样,得到浅层特征样本和深层特征样本;
所述第一预测模块402,还用于利用所述关键点位置预测模型,对所述浅层特征样本进行关键点位置预测,得到预测位置信息;
所述第二预测模块403,还用于利用所述肢体连接预测模型,对所述深层特征样本进行肢体连接预测,得到预测连接信息;
所述模型训练模块405,用于基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练。
在本申请一实施例中,所述模型训练模块405,具体用于利用所述预测位置信息和所述预设关键点位置,确定第一损失参数;利用所述预测连接信息和所述预设连接信息,确定第二损失参数;根据所述第一损失参数和所述第二损失参数,确定预测损失参数;基于所述预测损失参数,对所述关键点位置预测模型和所述肢体连接预测模型进行优化。
图5为本申请实施例提供的一种关键点检测装置的结构示意图二。如图5所示,关键点检测装置包括:处理器501、存储器502和通信总线503;
所述通信总线503,用于实现所述处理器501和所述存储器502之间的通信连接;
所述处理器501,用于执行所述存储器502中存储的关键点检测程序,以实现上述关键点检测方法。
本申请实施例提供了一种关键点检测装置,利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;利用关键点位置预测模型,对浅层特征图像进行关键点位置预测,得到关键点位置信息;关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;利用肢体连接预测模型,对深层特征图像进行肢体连接预测,得到肢体连接信息;肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;基于关键点位置信息和肢体连接信息,生成输入图像的关键点检测结果。本申请实施例提供的关键点检测装置,在两种预测模型中均引入多尺度学习机制,并针对不同的预测模型提供相应的特征信息进行处理,不仅降低了关键点检测的运算量,而且提高了检测精度。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述关键点检测方法。计算机可读存储介质可以是易失性存储器(volatile memory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(non-volatile memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);也可以是包括上述存储器之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的实现流程示意图和/或方框图来描述的。应理解可由计算机程序指令实现流程示意图和/或方框图中的每一流程和/或方框、以及实现流程示意图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在实现流程示意图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本实用申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种关键点检测方法,其特征在于,所述方法包括:
利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;其中,所述基础网络为任一个卷积神经网络;
利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息;所述关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;
利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息;所述肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;
基于所述关键点位置信息和所述肢体连接信息,生成所述输入图像的关键点检测结果;
所述第二多尺度网络包括并列的多个第二分支卷积层,所述利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息,包括:
利用所述上采样层,对所述深层特征图像进行上采样,得到上采样特征图像;
利用所述多个第二分支卷积层中不同卷积层,从所述上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;
利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息。
2.根据权利要求1所述的方法,其特征在于,所述第一多尺度网络包括并列的多个第一分支卷积层,所述利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息,包括:
利用所述多个第一分支卷积层中不同卷积层,从所述浅层特征图像中提取不同尺度的图像信息,得到第一多尺度图像信息;
利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息。
3.根据权利要求2所述的方法,其特征在于,所述第一卷积网络包括顺序连接的第一提取卷积层和第一预测卷积层,所述利用所述第一卷积网络,根据所述第一多尺度图像信息进行关键点位置预测,得到所述关键点位置信息,包括:
利用所述第一提取卷积层,对所述多个第一多尺度图像信息进行关键点特征提取,得到第一提取结果;
利用所述第一预测卷积层,根据所述第一提取结果进行关键点位置预测,得到所述关键点位置信息。
4.根据权利要求1所述的方法,其特征在于,所述第二卷积网络包括顺序连接的第二提取卷积层和第二预测卷积层,所述利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息,包括:
利用所述第二提取卷积层,对所述第二多尺度图像信息进行肢体连接特征提取,得到第二提取结果;
利用所述第二预测卷积层,根据所述第二提取结果进行肢体连接预测,得到所述肢体连接信息。
5.根据权利要求1所述的方法,其特征在于,所述利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息之前,所述方法还包括:
利用所述基础网络对样本图像进行下采样,得到浅层特征样本和深层特征样本;
利用所述关键点位置预测模型,对所述浅层特征样本进行关键点位置预测,得到预测位置信息;
利用所述肢体连接预测模型,对所述深层特征样本进行肢体连接预测,得到预测连接信息;
基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述基于所述预测位置信息、所述预测连接信息、所述样本图像对应的预设关键点位置和预设连接信息,对所述关键点位置预测模型和所述肢体连接预测模型进行训练,包括:
利用所述预测位置信息和所述预设关键点位置,确定第一损失参数;
利用所述预测连接信息和所述预设连接信息,确定第二损失参数;
根据所述第一损失参数和所述第二损失参数,确定预测损失参数;
基于所述预测损失参数,对所述关键点位置预测模型和所述肢体连接预测模型进行优化。
7.一种关键点检测装置,其特征在于,所述装置包括:
特征提取模块,用于利用基础网络对输入图像进行下采样,得到浅层特征图像和深层特征图像;其中,所述基础网络为任一个卷积神经网络;
第一预测模块,用于利用关键点位置预测模型,对所述浅层特征图像进行关键点位置预测,得到关键点位置信息;所述关键点位置预测模型包括顺序连接的第一多尺度网络和第一卷积网络;
第二预测模块,用于利用肢体连接预测模型,对所述深层特征图像进行肢体连接预测,得到肢体连接信息;所述肢体连接预测模型包括顺序连接的上采样层、第二多尺度网络和第二卷积网络;
结果生成模块,用于基于所述关键点位置信息和所述肢体连接信息,生成所述输入图像的关键点检测结果;
所述第二多尺度网络包括并列的多个第二分支卷积层,所述第二预测模块,具体用于利用所述上采样层,对所述深层特征图像进行上采样,得到上采样特征图像;利用所述多个第二分支卷积层中不同卷积层,从所述上采样特征图像中提取不同尺度的图像信息,得到第二多尺度图像信息;利用所述第二卷积网络,根据所述第二多尺度图像信息进行肢体连接预测,得到所述肢体连接信息。
8.一种关键点检测装置,其特征在于,所述装置包括处理器、存储器和通信总线;
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述存储器中存储的关键点检测程序,以实现权利要求1-6任一项所述的关键点检测方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-6任一项所述的关键点检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356560.6A CN111401335B (zh) | 2020-04-29 | 2020-04-29 | 一种关键点检测方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356560.6A CN111401335B (zh) | 2020-04-29 | 2020-04-29 | 一种关键点检测方法及装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401335A CN111401335A (zh) | 2020-07-10 |
CN111401335B true CN111401335B (zh) | 2023-06-30 |
Family
ID=71433838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010356560.6A Active CN111401335B (zh) | 2020-04-29 | 2020-04-29 | 一种关键点检测方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401335B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258487B (zh) * | 2020-10-29 | 2024-06-18 | 成都芯昇动力科技有限公司 | 图像检测系统及方法 |
CN113192043B (zh) * | 2021-05-13 | 2022-07-01 | 杭州健培科技有限公司 | 基于多尺度拓扑图的医学关键点检测方法、装置及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614876A (zh) * | 2018-11-16 | 2019-04-12 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN110188708A (zh) * | 2019-06-03 | 2019-08-30 | 西安工业大学 | 一种基于卷积神经网络的人脸表情识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108965687B (zh) * | 2017-05-22 | 2021-01-29 | 阿里巴巴集团控股有限公司 | 拍摄方向识别方法、服务器及监控方法、系统及摄像设备 |
US10679075B2 (en) * | 2017-08-31 | 2020-06-09 | Nec Corporation | Dense correspondence estimation with multi-level metric learning and hierarchical matching |
US10748376B2 (en) * | 2017-09-21 | 2020-08-18 | NEX Team Inc. | Real-time game tracking with a mobile device using artificial intelligence |
-
2020
- 2020-04-29 CN CN202010356560.6A patent/CN111401335B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109614876A (zh) * | 2018-11-16 | 2019-04-12 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN110188708A (zh) * | 2019-06-03 | 2019-08-30 | 西安工业大学 | 一种基于卷积神经网络的人脸表情识别方法 |
Non-Patent Citations (1)
Title |
---|
林怡雪 ; 高尚 ; 王光彩 ; 刘晓欣 ; 范迪 ; .基于改进CPN的人体关键点定位算法研究.现代计算机.2020,(第12期),86-90. * |
Also Published As
Publication number | Publication date |
---|---|
CN111401335A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN108010031B (zh) | 一种人像分割方法及移动终端 | |
US9542621B2 (en) | Spatial pyramid pooling networks for image processing | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN109671020B (zh) | 图像处理方法、装置、电子设备和计算机存储介质 | |
CN110991513B (zh) | 一种具有类人连续学习能力的图像目标识别系统及方法 | |
CN110517278A (zh) | 图像分割和图像分割网络的训练方法、装置和计算机设备 | |
CN111209921A (zh) | 基于改进的YOLOv3网络的车牌检测模型及构建方法 | |
CN111104925B (zh) | 图像处理方法、装置、存储介质和电子设备 | |
CN111401335B (zh) | 一种关键点检测方法及装置、存储介质 | |
CN111738269B (zh) | 模型训练方法、图像处理方法及装置、设备、存储介质 | |
CN110781980B (zh) | 目标检测模型的训练方法、目标检测方法及装置 | |
CN111738270B (zh) | 模型生成方法、装置、设备和可读存储介质 | |
CN113807361B (zh) | 神经网络、目标检测方法、神经网络训练方法及相关产品 | |
CN112115860B (zh) | 人脸关键点定位方法、装置、计算机设备和存储介质 | |
CN112287947A (zh) | 一种区域建议框检测方法、终端及存储介质 | |
CN112016502B (zh) | 安全带检测方法、装置、计算机设备及存储介质 | |
CN111783935B (zh) | 卷积神经网络构建方法、装置、设备及介质 | |
CN112836756A (zh) | 图像识别模型训练方法、系统和计算机设备 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN116091596A (zh) | 一种自下而上的多人2d人体姿态估计方法及装置 | |
CN114022748B (zh) | 目标识别方法、装置、设备及存储介质 | |
Shi et al. | Lightweight context-aware network using partial-channel transformation for real-time semantic segmentation | |
CN116152608A (zh) | 基于点云多模态的对比学习预训练方法、装置及介质 | |
CN105096304B (zh) | 一种图像特征的估计方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |