CN110378253B - 一种基于轻量化神经网络的实时关键点检测方法 - Google Patents

一种基于轻量化神经网络的实时关键点检测方法 Download PDF

Info

Publication number
CN110378253B
CN110378253B CN201910585486.2A CN201910585486A CN110378253B CN 110378253 B CN110378253 B CN 110378253B CN 201910585486 A CN201910585486 A CN 201910585486A CN 110378253 B CN110378253 B CN 110378253B
Authority
CN
China
Prior art keywords
input
bottleneck module
module
bottleneck
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910585486.2A
Other languages
English (en)
Other versions
CN110378253A (zh
Inventor
王雷
黄科杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910585486.2A priority Critical patent/CN110378253B/zh
Publication of CN110378253A publication Critical patent/CN110378253A/zh
Application granted granted Critical
Publication of CN110378253B publication Critical patent/CN110378253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4023Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开一种基于轻量化神经网络的实时关键点检测方法,该方法首先使用faster rcnn或者类似的人体检测算法将图片中的人物截取出来然后再送入设计的轻量化网络中去,然后输出预测的坐标,该方法不同于一般的方法在于所设计的网络是轻量化的可伸缩的,能够以较小的参数量和运算量,达到满意的检测精度,同时使用了基于积分的热图预测,使得系统完成端到端的预测,同时能够完成2D和3D任务。

Description

一种基于轻量化神经网络的实时关键点检测方法
技术领域
本发明属于计算机视觉的关键点检测领域,具体涉及一种轻量化神经网络的实时关键点检测方法。
背景技术
关键点检测技术在人体动作识别,行人重识别领域以及相关的领域都有极其重要的应用,但是无论是在安防或者消费领域如体感游戏等都对系统的运行时间有着严格的要求,目前的主流的关键点检测算法虽然在检测精度上获得了巨大的提升,然而在运行速度上却受到了严重的制约,因此本发明主要是在采用尽可能的少的参数和运算量的情况下实现能够满足实际应用的检测精度,以实现在保证检测精度的前提下提升运行速度。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于轻量化神经网络的实时关键点检测方法。
为了实现上述目的,本发明采用的技术方案如下:
一种基于轻量化神经网络的实时关键点检测方法,步骤如下:
首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括若干瓶颈模块A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;
根据如下积分公式预测关键点位置:
Figure BDA0002114426080000021
Figure BDA0002114426080000022
式中H为输出的原始热图,
Figure BDA0002114426080000023
为归一化的热图,p为热图中的像素点,
对其进行离散化得到:
Figure BDA0002114426080000024
其中,D为深度、H为高度、W为宽度。
损失函数采用L2范数。
本发明的有益效果是:
本发明方法所设计的神经网络是轻量化的可伸缩的,能够以较小的参数量和运算量,达到满意的检测精度,同时使用了基于积分的热图预测,使得系统完成端到端的预测,同时能够完成2D和3D任务。
附图说明
图1是本发明构建的轻量化神经网络的结构示意图。
图2是本发明构建的一种具体轻量化神经网络的结构示意图。
图3是图2中的预处理模块的结构示意图。
具体实施方式
下面结合附图和具体实例对本发明的方法做进一步的说明。
以下实例仅用于对本发明方法做进一步的解释说明,但并非对本发明的具体限定。图1为本发明构建的一种具体的轻量化神经网络的结构示意图(图中c=4),基于该轻量化神经网络进行实时关键点检测方法,步骤如下:
首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括若干瓶颈模块(bottleneck)A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,主要用来实现降采样。所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;简单来说该处理过程就是:首先将之前检测到的图片放入网络的输入端,然后经过两次降采样后,达到原来的四分之一大小,然后不断的分出一个向下的分支实现降采样,使得分辨率不断的减少为上一级尺度的二分之一,同时,同一尺度之间进行特征融合,达到最低尺度后再不断地升采样,直至回到原来的尺寸的四分之一大小,最后输出热图。
根据如下积分公式预测关键点位置:
Figure BDA0002114426080000041
Figure BDA0002114426080000042
式中Hk为输出的第k个关键点对应原始热图,
Figure BDA0002114426080000043
为归一化的热图,p为热图中的像素点,Ω为热图中像素点的集合。
对其进行离散化得到:
Figure BDA0002114426080000044
其中,D为深度、H为高度、W为宽度。当D=1时即可用于2D预测。
损失函数采用L2范数。
Figure BDA0002114426080000045
损失函数采用L2范数。
本方法在3D训练的时候使用了2D3D数据混合训练策略(考虑到3D数据量较少),即将x,y,z坐标分开训练,这样2D的数据也可以用来训练3D预测中的x,y坐标,显著提高准确性。具体操作以x坐标为例:首先对y,z坐标积分,得到关于x单独的预测值:
Figure BDA0002114426080000051
则热图的关键点预测就可以改写成:
Figure BDA0002114426080000052
实现2D数据x坐标的利用,y坐标同理。这样就可以在训练3D网络的时候充分利用2D的训练数据,提高预测的精度。最后使用的损失函数为L2范数,训练时使用的数据增强的手段为翻转,旋转正负45度,尺度缩放为0.8到1.2之间。
图2、3为另一具体实例的网络结构图,其中,预处理模块由两个瓶颈模块B和四个瓶颈模块A构成,该实例中n取32,K为17。

Claims (1)

1.一种基于轻量化神经网络的实时关键点检测方法,其特征在于,该方法步骤如下:
首先通过基于深度学习的人体检测技术将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括瓶颈模块A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过多个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数则翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;
根据如下积分公式预测关键点位置:
Figure FDA0002901033920000011
Figure FDA0002901033920000021
式中H为输出的原始热图,
Figure FDA0002901033920000022
为归一化的热图,p为热图中的像素点,对其进行离散化得到:
Figure FDA0002901033920000023
其中,D为深度、H为高度、W为宽度;
损失函数采用L2范数。
CN201910585486.2A 2019-07-01 2019-07-01 一种基于轻量化神经网络的实时关键点检测方法 Active CN110378253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585486.2A CN110378253B (zh) 2019-07-01 2019-07-01 一种基于轻量化神经网络的实时关键点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585486.2A CN110378253B (zh) 2019-07-01 2019-07-01 一种基于轻量化神经网络的实时关键点检测方法

Publications (2)

Publication Number Publication Date
CN110378253A CN110378253A (zh) 2019-10-25
CN110378253B true CN110378253B (zh) 2021-03-26

Family

ID=68251443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585486.2A Active CN110378253B (zh) 2019-07-01 2019-07-01 一种基于轻量化神经网络的实时关键点检测方法

Country Status (1)

Country Link
CN (1) CN110378253B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580515B (zh) * 2020-12-21 2022-05-10 浙江大学 一种基于高斯热图回归的轻量级人脸关键点检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038860A (zh) * 2017-11-30 2018-05-15 杭州电子科技大学 基于3d全卷积神经网络的脊柱分割方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109145843A (zh) * 2018-08-29 2019-01-04 上海萃舟智能科技有限公司 一种卡口高清相机全车信息识别系统及方法
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109614876A (zh) * 2018-11-16 2019-04-12 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109934111A (zh) * 2019-02-12 2019-06-25 清华大学深圳研究生院 一种基于关键点的健身姿态估计方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6929953B2 (ja) * 2017-03-17 2021-09-01 マジック リープ, インコーポレイテッドMagic Leap,Inc. 部屋レイアウト推定方法および技法
CN109214282B (zh) * 2018-08-01 2019-04-26 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038860A (zh) * 2017-11-30 2018-05-15 杭州电子科技大学 基于3d全卷积神经网络的脊柱分割方法
CN108229445A (zh) * 2018-02-09 2018-06-29 深圳市唯特视科技有限公司 一种基于级联金字塔网络的多人姿态估计方法
CN109145843A (zh) * 2018-08-29 2019-01-04 上海萃舟智能科技有限公司 一种卡口高清相机全车信息识别系统及方法
CN109614876A (zh) * 2018-11-16 2019-04-12 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质
CN109508681A (zh) * 2018-11-20 2019-03-22 北京京东尚科信息技术有限公司 生成人体关键点检测模型的方法和装置
CN109934111A (zh) * 2019-02-12 2019-06-25 清华大学深圳研究生院 一种基于关键点的健身姿态估计方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Feature Extraction from Telematics Car Driving Heatmaps;Guangyuan Gao等;《Social Science Electronic Publishing》;20181231;第1-16页 *
基于深度神经网络和Bottleneck特征的说话人识别系统;田垚等;《清华大学学报(自然科学版)》;20161231;第56卷(第11期);第1143-1148页 *

Also Published As

Publication number Publication date
CN110378253A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
Zhao et al. Building extraction from satellite images using mask R-CNN with building boundary regularization
CN110188598B (zh) 一种基于MobileNet-v2的实时手部姿态估计方法
CN113888631B (zh) 一种基于目标裁剪区域的指定物体抓取方法
CN111179324A (zh) 基于颜色和深度信息融合的物体六自由度位姿估计方法
CN108665496A (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN110264563A (zh) 一种基于orbslam2的八叉树建图方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN111160164A (zh) 基于人体骨架和图像融合的动作识别方法
WO2020233129A1 (zh) 一种图像超分辨和着色方法、系统及电子设备
CN113065546A (zh) 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统
CN108229440A (zh) 一种基于多传感器融合室内人体姿态识别方法
CN110135277B (zh) 一种基于卷积神经网络的人体行为识别方法
CN114820408A (zh) 基于自注意力和卷积神经网络的红外可见光图像融合方法
CN105913435A (zh) 一种适用于大区域的多尺度遥感影像匹配方法及系统
CN111860175A (zh) 一种基于轻量化网络的无人机影像车辆检测方法及装置
CN103345765B (zh) 基于dsp+fpga的移动平台下运动目标检测装置及其方法
CN110378253B (zh) 一种基于轻量化神经网络的实时关键点检测方法
CN110930306A (zh) 一种基于非局部感知的深度图超分辨率重建网络构建方法
Liu et al. URTSegNet: A real-time segmentation network of unstructured road at night based on thermal infrared images for autonomous robot system
CN113240584B (zh) 一种基于图片边缘信息的多任务手势图片超分辨率方法
CN114089370A (zh) 一种雷达回波视频数据矢量化的处理方法、系统及设备
CN104318591A (zh) 一种带边界平面流场的动态绘制方法
Tong et al. SG-grasp: Semantic segmentation guided robotic grasp oriented to weakly textured objects based on visual perception sensors
Song et al. Spatial-aware dynamic lightweight self-supervised monocular depth estimation
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant