CN110378253B - 一种基于轻量化神经网络的实时关键点检测方法 - Google Patents
一种基于轻量化神经网络的实时关键点检测方法 Download PDFInfo
- Publication number
- CN110378253B CN110378253B CN201910585486.2A CN201910585486A CN110378253B CN 110378253 B CN110378253 B CN 110378253B CN 201910585486 A CN201910585486 A CN 201910585486A CN 110378253 B CN110378253 B CN 110378253B
- Authority
- CN
- China
- Prior art keywords
- input
- bottleneck module
- module
- bottleneck
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 21
- 238000001514 detection method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4023—Scaling of whole images or parts thereof, e.g. expanding or contracting based on decimating pixels or lines of pixels; based on inserting pixels or lines of pixels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于轻量化神经网络的实时关键点检测方法,该方法首先使用faster rcnn或者类似的人体检测算法将图片中的人物截取出来然后再送入设计的轻量化网络中去,然后输出预测的坐标,该方法不同于一般的方法在于所设计的网络是轻量化的可伸缩的,能够以较小的参数量和运算量,达到满意的检测精度,同时使用了基于积分的热图预测,使得系统完成端到端的预测,同时能够完成2D和3D任务。
Description
技术领域
本发明属于计算机视觉的关键点检测领域,具体涉及一种轻量化神经网络的实时关键点检测方法。
背景技术
关键点检测技术在人体动作识别,行人重识别领域以及相关的领域都有极其重要的应用,但是无论是在安防或者消费领域如体感游戏等都对系统的运行时间有着严格的要求,目前的主流的关键点检测算法虽然在检测精度上获得了巨大的提升,然而在运行速度上却受到了严重的制约,因此本发明主要是在采用尽可能的少的参数和运算量的情况下实现能够满足实际应用的检测精度,以实现在保证检测精度的前提下提升运行速度。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于轻量化神经网络的实时关键点检测方法。
为了实现上述目的,本发明采用的技术方案如下:
一种基于轻量化神经网络的实时关键点检测方法,步骤如下:
首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括若干瓶颈模块A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;
根据如下积分公式预测关键点位置:
对其进行离散化得到:
其中,D为深度、H为高度、W为宽度。
损失函数采用L2范数。
本发明的有益效果是:
本发明方法所设计的神经网络是轻量化的可伸缩的,能够以较小的参数量和运算量,达到满意的检测精度,同时使用了基于积分的热图预测,使得系统完成端到端的预测,同时能够完成2D和3D任务。
附图说明
图1是本发明构建的轻量化神经网络的结构示意图。
图2是本发明构建的一种具体轻量化神经网络的结构示意图。
图3是图2中的预处理模块的结构示意图。
具体实施方式
下面结合附图和具体实例对本发明的方法做进一步的说明。
以下实例仅用于对本发明方法做进一步的解释说明,但并非对本发明的具体限定。图1为本发明构建的一种具体的轻量化神经网络的结构示意图(图中c=4),基于该轻量化神经网络进行实时关键点检测方法,步骤如下:
首先通过基于深度学习的人体检测技术(如faster rcnn等)将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括若干瓶颈模块(bottleneck)A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,主要用来实现降采样。所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过若干个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;简单来说该处理过程就是:首先将之前检测到的图片放入网络的输入端,然后经过两次降采样后,达到原来的四分之一大小,然后不断的分出一个向下的分支实现降采样,使得分辨率不断的减少为上一级尺度的二分之一,同时,同一尺度之间进行特征融合,达到最低尺度后再不断地升采样,直至回到原来的尺寸的四分之一大小,最后输出热图。
根据如下积分公式预测关键点位置:
对其进行离散化得到:
其中,D为深度、H为高度、W为宽度。当D=1时即可用于2D预测。
损失函数采用L2范数。
损失函数采用L2范数。
本方法在3D训练的时候使用了2D3D数据混合训练策略(考虑到3D数据量较少),即将x,y,z坐标分开训练,这样2D的数据也可以用来训练3D预测中的x,y坐标,显著提高准确性。具体操作以x坐标为例:首先对y,z坐标积分,得到关于x单独的预测值:
则热图的关键点预测就可以改写成:
实现2D数据x坐标的利用,y坐标同理。这样就可以在训练3D网络的时候充分利用2D的训练数据,提高预测的精度。最后使用的损失函数为L2范数,训练时使用的数据增强的手段为翻转,旋转正负45度,尺度缩放为0.8到1.2之间。
图2、3为另一具体实例的网络结构图,其中,预处理模块由两个瓶颈模块B和四个瓶颈模块A构成,该实例中n取32,K为17。
Claims (1)
1.一种基于轻量化神经网络的实时关键点检测方法,其特征在于,该方法步骤如下:
首先通过基于深度学习的人体检测技术将图像中的人体截取出来,然后将截取获得的结果送入到构建的轻量化神经网络中,所述的轻量化神经网络包括瓶颈模块A和瓶颈模块B,其中瓶颈模块A中3×3卷积层的步长为1,瓶颈模块B中3×3卷积层的步长为2,所述的轻量化神经网络的结构如下:
将所截取的人体图像输入瓶颈模块B中,输入输出通道分别为3、64,输出结果再输入至另一瓶颈模块B中,输入输出通道分别为64、64,之后依次经过多个输入输出通道分别为64、64的瓶颈模块A后,再输入至输入通道数为64、输出通道数为n的瓶颈模块A,其中n为16-64,图像尺度为H×W,该瓶颈模块A的输出一方面输入至一输入输出通道数为n、n的瓶颈模块A中,另一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为n、2n,经瓶颈模块B的2倍降采样后,图像尺度降为H/2×W/2,该瓶颈模块B的输出一方面输入至输入输出通道数均为2n的瓶颈模块A,一方面输入至另一瓶颈模块B中,该瓶颈模块B的输入输出通道数为2n、4n,经2倍降采样后,图像尺度降为H/4×W/4,另一方面采用双线性插值的方法进行上采样,图像尺度升为H/2×W/2后输入至输入输出通道数为n、n的瓶颈模块A中,如此,每进行一次降采样,使得图像分辨率继续减少为二分之一,模块的通道数则翻倍,同时,将已有尺度的图像之间进行特征融合,达到预设的最低尺度后再不断地升采样,模块的通道数则减半,直至回到图像尺寸为H×W,即最终汇聚至一个输入输出通道数为n、n的瓶颈模块A,该瓶颈模块A输出至输入通道数为n、输出通道数为关键点个数K的瓶颈模块A,其输出即为热图Hk,1≤k≤K;
根据如下积分公式预测关键点位置:
其中,D为深度、H为高度、W为宽度;
损失函数采用L2范数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585486.2A CN110378253B (zh) | 2019-07-01 | 2019-07-01 | 一种基于轻量化神经网络的实时关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585486.2A CN110378253B (zh) | 2019-07-01 | 2019-07-01 | 一种基于轻量化神经网络的实时关键点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378253A CN110378253A (zh) | 2019-10-25 |
CN110378253B true CN110378253B (zh) | 2021-03-26 |
Family
ID=68251443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910585486.2A Active CN110378253B (zh) | 2019-07-01 | 2019-07-01 | 一种基于轻量化神经网络的实时关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378253B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580515B (zh) * | 2020-12-21 | 2022-05-10 | 浙江大学 | 一种基于高斯热图回归的轻量级人脸关键点检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038860A (zh) * | 2017-11-30 | 2018-05-15 | 杭州电子科技大学 | 基于3d全卷积神经网络的脊柱分割方法 |
CN108229445A (zh) * | 2018-02-09 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于级联金字塔网络的多人姿态估计方法 |
CN109145843A (zh) * | 2018-08-29 | 2019-01-04 | 上海萃舟智能科技有限公司 | 一种卡口高清相机全车信息识别系统及方法 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109614876A (zh) * | 2018-11-16 | 2019-04-12 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN109934111A (zh) * | 2019-02-12 | 2019-06-25 | 清华大学深圳研究生院 | 一种基于关键点的健身姿态估计方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6929953B2 (ja) * | 2017-03-17 | 2021-09-01 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 部屋レイアウト推定方法および技法 |
CN109214282B (zh) * | 2018-08-01 | 2019-04-26 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
-
2019
- 2019-07-01 CN CN201910585486.2A patent/CN110378253B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038860A (zh) * | 2017-11-30 | 2018-05-15 | 杭州电子科技大学 | 基于3d全卷积神经网络的脊柱分割方法 |
CN108229445A (zh) * | 2018-02-09 | 2018-06-29 | 深圳市唯特视科技有限公司 | 一种基于级联金字塔网络的多人姿态估计方法 |
CN109145843A (zh) * | 2018-08-29 | 2019-01-04 | 上海萃舟智能科技有限公司 | 一种卡口高清相机全车信息识别系统及方法 |
CN109614876A (zh) * | 2018-11-16 | 2019-04-12 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN109508681A (zh) * | 2018-11-20 | 2019-03-22 | 北京京东尚科信息技术有限公司 | 生成人体关键点检测模型的方法和装置 |
CN109934111A (zh) * | 2019-02-12 | 2019-06-25 | 清华大学深圳研究生院 | 一种基于关键点的健身姿态估计方法及系统 |
Non-Patent Citations (2)
Title |
---|
Feature Extraction from Telematics Car Driving Heatmaps;Guangyuan Gao等;《Social Science Electronic Publishing》;20181231;第1-16页 * |
基于深度神经网络和Bottleneck特征的说话人识别系统;田垚等;《清华大学学报(自然科学版)》;20161231;第56卷(第11期);第1143-1148页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110378253A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Building extraction from satellite images using mask R-CNN with building boundary regularization | |
CN110188598B (zh) | 一种基于MobileNet-v2的实时手部姿态估计方法 | |
CN113888631B (zh) | 一种基于目标裁剪区域的指定物体抓取方法 | |
CN111179324A (zh) | 基于颜色和深度信息融合的物体六自由度位姿估计方法 | |
CN108665496A (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
CN110264563A (zh) | 一种基于orbslam2的八叉树建图方法 | |
CN110246181B (zh) | 基于锚点的姿态估计模型训练方法、姿态估计方法和系统 | |
CN111160164A (zh) | 基于人体骨架和图像融合的动作识别方法 | |
WO2020233129A1 (zh) | 一种图像超分辨和着色方法、系统及电子设备 | |
CN113065546A (zh) | 一种基于注意力机制和霍夫投票的目标位姿估计方法及系统 | |
CN108229440A (zh) | 一种基于多传感器融合室内人体姿态识别方法 | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN114820408A (zh) | 基于自注意力和卷积神经网络的红外可见光图像融合方法 | |
CN105913435A (zh) | 一种适用于大区域的多尺度遥感影像匹配方法及系统 | |
CN111860175A (zh) | 一种基于轻量化网络的无人机影像车辆检测方法及装置 | |
CN103345765B (zh) | 基于dsp+fpga的移动平台下运动目标检测装置及其方法 | |
CN110378253B (zh) | 一种基于轻量化神经网络的实时关键点检测方法 | |
CN110930306A (zh) | 一种基于非局部感知的深度图超分辨率重建网络构建方法 | |
Liu et al. | URTSegNet: A real-time segmentation network of unstructured road at night based on thermal infrared images for autonomous robot system | |
CN113240584B (zh) | 一种基于图片边缘信息的多任务手势图片超分辨率方法 | |
CN114089370A (zh) | 一种雷达回波视频数据矢量化的处理方法、系统及设备 | |
CN104318591A (zh) | 一种带边界平面流场的动态绘制方法 | |
Tong et al. | SG-grasp: Semantic segmentation guided robotic grasp oriented to weakly textured objects based on visual perception sensors | |
Song et al. | Spatial-aware dynamic lightweight self-supervised monocular depth estimation | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |