CN111753736A - 基于分组卷积的人体姿态识别方法、装置、设备和介质 - Google Patents

基于分组卷积的人体姿态识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN111753736A
CN111753736A CN202010591669.8A CN202010591669A CN111753736A CN 111753736 A CN111753736 A CN 111753736A CN 202010591669 A CN202010591669 A CN 202010591669A CN 111753736 A CN111753736 A CN 111753736A
Authority
CN
China
Prior art keywords
convolution
human body
image
body posture
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010591669.8A
Other languages
English (en)
Inventor
袁振杰
郝瑞
雒冬梅
李慧强
宋亚莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Softcom Smart City Technology Co ltd
Original Assignee
Beijing Softcom Smart City Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Softcom Smart City Technology Co ltd filed Critical Beijing Softcom Smart City Technology Co ltd
Priority to CN202010591669.8A priority Critical patent/CN111753736A/zh
Publication of CN111753736A publication Critical patent/CN111753736A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种基于分组卷积的人体姿态识别方法、装置、设备和介质。该基于分组卷积的人体姿态识别方法包括:获取待识别图像;将所述待识别图像输入到人体姿态识别模型中,得到所述人体姿态识别模型的输出结果;其中,所述人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;根据所述输出结果,确定待识别图像中的人体姿态。本发明实施例通过待识别图像的至少两个特征数据提高人体姿态特征提取的全局性,避免受到局部特征的影响造成姿态识别不准确,进而提高姿态识别的准确率和人体姿态识别模型的泛化性。

Description

基于分组卷积的人体姿态识别方法、装置、设备和介质
技术领域
本发明实施例涉及计算机视觉技术领域,尤其涉及一种基于分组卷积的人体姿态识别方法、装置、设备和介质。
背景技术
近年来,随着信息技术的发展和人工智能技术的普及,人体姿态识别技术开始广泛应用。相关研究人员用收集到的人体姿势数据集来探索有效特征和进行分类。传统的姿态识别方法主要有两个步骤:(1)从原始输入图像中提取复杂的人工特征;(2)从获取的特征中训练分类器。
在传统的姿态识别过程中,需要从原始输入图像中提取复杂的人工特征。虽然在识别精度上是有效的,但由于人体的高度复杂性,从骨关节点和深度图像信息中提取的特征具有一定的局限性。并且大部分深度图像需要进行预处理,导致姿态特征提取困难,识别效率低,收敛时间长。
发明内容
本发明实施例提供一种基于分组卷积的人体姿态识别方法、装置、设备和介质,以提高人体姿态特征提取的全局性,进而提高姿态识别准确率。
第一方面,本发明实施例提供了一种基于分组卷积的人体姿态识别方法,包括:
获取待识别图像;
将所述待识别图像输入到人体姿态识别模型中,得到所述人体姿态识别模型的输出结果;其中,所述人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
根据所述输出结果,确定待识别图像中的人体姿态。
第二方面,本发明实施例还提供了一种基于分组卷积的人体姿态识别装置,包括:
图像获取模块,用于获取待识别图像;
输出结果确定模块,用于将所述待识别图像输入到人体姿态识别模型中,得到所述人体姿态识别模型的输出结果;其中,所述人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
姿态识别模块,用于根据所述输出结果,确定待识别图像中的人体姿态。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的基于分组卷积的人体姿态识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的基于分组卷积的人体姿态识别方法。
本发明实施例基于预先训练包括至少两组卷积单元的人体姿态识别模型,将待识别图像输入到该模型中,以此得到待识别图像的至少两个特征数据,通过待识别图像的至少两个特征数据可以提高人体姿态特征提取的全局性,避免受到局部特征的影响造成姿态识别不准确,进而提高姿态识别的准确率和人体姿态识别模型的泛化性。
附图说明
图1是本发明实施例一中的基于分组卷积的人体姿态识别方法的流程图;
图2A是本发明实施例二中的人体姿态识别模型训练过程的流程图;
图2B是本发明优选实施例中的人体姿态识别模型训练过程的流程图;
图3是本发明实施例三中的基于分组卷积的人体姿态识别装置的结构示意图;
图4是本发明实施例四中的设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的基于分组卷积的人体姿态识别方法的流程图,本实施例可适用于对人体影像图像进行人体姿态识别的情况。该方法可以由基于分组卷积的人体姿态识别装置来执行,该装置可以采用软件和/或硬件的方式实现,并可配置在设备中,例如设备可以是后台服务器等具有通信和计算能力的设备。如图1所示,该方法具体包括:
步骤101、获取待识别图像。
待识别图像是指包括人的整体或者部分肢体的人类活动影像数据,例如包括人体的整体轮廓以及手势肢体等。对于待识别图像可以是道路行人的监控图像、人体运动图像、医疗人体图像以及舞蹈教育人体图像等,通过对该图像中人体姿态的识别可以对行人道路行为监控、人体运动行为分析、医疗康复训练以及舞蹈教育培训等方面提供帮助。通过对待识别图像中人体整体或者部分肢体的特征进行分析,例如人体轮廓、关节点位置或者手势肢体等,得到待识别图像中的姿态识别结果。
步骤102、将待识别图像输入到人体姿态识别模型中,得到人体姿态识别模型的输出结果;其中,人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据。
人体姿态识别模型是通过对人体图像的样本集进行预先训练得到的。且在预先训练的人体姿态识别模型中包括至少两组卷积单元,各卷积单元分别对待识别图像进行特征提取,以得到至少两个特征数据。对于各卷积单元的设置可以相同或者不相同,在此不作限定。
示例性的,人体姿态识别模型中包括三个卷积单元,则将待识别图像输入到人体姿态识别模型中,通过三个卷积单元,可以得到待识别图像的三个特征图,通过对三个特征图进行处理,进而得到待识别图像的局部特征和全局特征。通过多个卷积单元分别对同一待识别图像进行特征提取,且各卷积单元之间相互独立,卷积单元的卷积层之和单元内的前后层连接,使得各卷积单元获取到的特征相互独立,提高特征提取的完整性。并且在卷积单元内使用卷积核为1×1的卷积作为瓶颈层,以降低网络参数数量,加深网络深度,提高特征提取能力。
具体的,将待识别图像输入到人体姿态模型中,通过至少两组卷积单元,得到待识别图像的至少两个特征数据,通过对至少两个特征数据的分析,得到人体姿态识别模型的输出结果。示例性的,人体姿态识别模型的输出结果为各姿态分类的概率值。
在本实施例中,可选的,卷积单元中包括至少一个上采样卷积组、下采样卷积组和尺度不变卷积组;其中,上采样卷积组包括卷积层和转置卷积层,下采样卷积组包括至少两个采用非等距滑动步长的卷积层,尺度不变卷积组包括至少一个采用边界填充的卷积层;通过调整卷积单元中三种卷积组的设置数量以调整得到的特征数据的大小。
对于卷积单元内卷积组的类型包括三种类型,分别是上采样卷积组、下采样卷积组和尺度不变卷积组。即通过三种类型的卷积组的组合构成不同的卷积单元。
上采样卷积组包括卷积层和转置卷积层,其中,卷积层由若干卷积核组成,转置卷积层又称反卷积层或分数卷积层,用于恢复减少的维数,转置卷积层中用步长小于1的卷积进行上采样,使输出的特征数据大小增大。示例性的,上采样卷积组为在大小1×1的卷积核(conv1×1)后设置一个步长为2的大小为3×3的转置卷积层(deconv3×3),使输出特征图的空间尺度与输入图像扩大1倍。
下采样卷积组包括至少两个采用非等距滑动步长的卷积层,其中滑动步长表示卷积核两次卷积操作的距离,滑动步长大于1时称为等距下采样,因为这样输出特征数据肯定会丢失信息,输出特征图的大小比输入图像小。示例性的,下采样卷积组为conv3×1和conv1×3两个卷积核在卷积过程中使用非等距滑动步长,使输出特征图的宽、高分别降为输入的一半。
尺度不变卷积组包括至少一个采用边界填充的卷积层,该卷积层在卷积过程中,会对输出的特征图缺少的边界部分进行补零。示例性的,尺度不变卷积组在卷积操作时通过边缘填充保持输出特征图和输入图像的空间尺度相同。
通过调整卷积单元中三种卷积组的设置数量可使卷积单元的输出特征图在空间尺度不变、缩小和放大之间转换,以满足特征提取的实际需求,且保证降低网络参数数量,提高训练效率。因此对于卷积单元内卷积组的具体设置不在本发明实施例的限定范围内,示例性的,本发明实施例中的卷积单元均相同,且分别采用5个下采样卷积组、6个上采样卷积组以及一个尺度不变卷积组。
步骤103、根据输出结果,确定待识别图像中的人体姿态。
根据人体姿态识别模型输出的分类结果,确定待识别图像中的人体姿态。示例性的,根据人体姿态识别模型输出的各姿态识别概率值,根据概率值确定待识别图像中的人体姿态。
本发明实施例基于预先训练包括至少两组卷积单元的人体姿态识别模型,将待识别图像输入到该模型中,以此得到待识别图像的至少两个特征数据,通过待识别图像的至少两个特征数据可以提高人体姿态特征提取的全局性,避免受到局部特征的影响造成姿态识别不准确,进而提高姿态识别的准确率和人体姿态识别模型的泛化性。
实施例二
图2A是本发明实施例二中的人体姿态识别模型训练过程的流程图,本发明实施例二对本发明实施例一中的人体姿态识别模型的训练过程进行详细说明,本实施例二可设置在实施例的识别过程之前。如图2A所示,训练过程包括:
步骤201、获取样本集图像。
样本集图像从预先获取的样本集中确定,示例性性的,利用智能影像分析平台中的数据采集功能,对影像数据进行采集,获取表征人类活动影像数据的样本集,并为样本集添加姿态标签。
并且由于卷积神经网络是一种前馈型神经网络,由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,针对提取图像特征时不同图像区域和提取出的不同抽象特征被平等对待的问题,根据图像的全局特征和局部特征来计算姿态的分类概率,从而进行姿态识别,提高识别效率。
步骤202、将样本集图像输入到至少两组卷积单元中,得到样本集图像的至少两个特征数据。
将样本集图像分别输入到至少两组卷积单元中,由各卷积单元对样本集图像进行特征提取,得到样本集图像的至少两个特征数据。示例性的,至少两组卷积单元分别输出样本集图像的特征图。对于卷积单元的具体设置如实施例一中所述,在此不作赘述。
在本实施例中,可选的,将样本集图像输入到至少两组卷积单元中,得到样本集图像的至少两个特征数据之前,还包括:
对样本集图像进行预处理,得到预处理后的样本集图像;其中,预处理包括如下至少一项:数据增强、图像平滑、边缘提取以及边缘高度归一化。
预处理是对样本集图像进行一定的处理,以提高后续训练过程中的准确性以及效率。
数据增强用于在原始图像样本集不够充分的情况下,可以采用数据增强来提升样本集的数量,从而提升训练网络的整体性能。数据增强的主要方法有旋转、水平翻转、镜像、缩放、随机剪裁等。同时可以组合使用多种处理方式。例如,同时进行旋转和缩放数据预处理主要包括去均值、归一化等。去均值就是把数据各个维度都中心化为零;归一化则是对提取后的二值化的图像进行形态学处理,去除噪声等干扰因素,并通过先开运算后闭运算来填补目标区域的空洞点以及去除多余的噪声点。
图像平滑是为了提高特征提取的准确性,避免图像噪声对图像特征提取造成的干扰。边缘提取是指对图像中人体边缘轮廓进行提取,进一步保证特征提取的准确性,示例性的,使用Canny算子对人体边缘轮廓进行提取。
最后由于样本集各图像中人体距离摄像头的距离和角度不同,造成人体轮廓的尺寸不同,有比较大的差别,这里需要对运动目标进行归一化处理,以便于更好的提取人体目标的轮廓。检测出图像中运动目标的外围轮廓之后,对人体轮廓高度进行归一化处理,将其高度归一化到统一高度,并按照一定的比例来对轮廓的宽度进行缩放。
通过对样本集图像进行预处理,提高样本集图像中特征的显著性,便于后续进行特征提取。
步骤203、对至少两个特征数据进行特征合并,得到样本集图像的综合特征。
由于至少两个特征数据分别反映了样本集图像中部分特征,因此需要对各特征数据进行合并,以得到样本集图像的综合特征,该综合特征反映了样本集图像的全局特征和局部特征,提高特征提取的完整性。
具体的,将至少两个特征数据进行相关拼接以完成合并,示例性的,输出的数据在相同的维度进行拼接合并。
在本实施例中,可选的,对至少两个特征数据进行特征合并,得到样本集图像的综合特征,包括:
对至少两个特征数据在相同维度上进行拼接,得到拼接后的特征数据;
对拼接后的特征数据进行批标准化处理以及线性处理,得到样本集图像的综合特征。
其中,批处理化处理是对每一批数据进行归一化处理,通过批处理化处理可以加快模型训练过程中的收敛速度,而且更重要的是在一定程度缓解了深层网络中梯度弥散的问题,从而使得训练深层网络模型更加容易和稳定。线性处理可以通过线性单元层进行操作,线性单元在面对线性不可分的数据样本集时,会收敛到一个最佳的近似上,从而避免无法收敛的问题。
示例性的,在训练模型网络通过层来搭建,合并后的特征图作为输入到批标准化层和线性单元层的进行处理,线性单元层可以用于指数计算,得到样本集图像的综合特征。
步骤204、根据综合特征确定人体姿态识别模型的训练结果。
由于综合特征中反映了样本集图像的全局特征和局部特征,因此通过对特征的分析确定训练结果。示例性的,根据特征中包括的关节点位置以及人体轮廓特征进行学习,得到训练结果。
在本实施例中,可选的,根据综合特征确定人体姿态识别模型的训练结果,包括:
将综合特征分别通过池化层、全连接层以及回归分类层,得到人体姿态识别模型的训练结果。
池化层本质其实是采样层,目的是为了保持某种不变性(例如旋转、平移、伸缩等)。本实施例中采用最大池化,填充方式为不填充。通过采用2×2的最大池化滤波器以步幅2向下采样,在每个池化层中均采用步幅为2进行向下采样,填充方式为不填充,进过4次池化操作后,特征维度被降低。示例性的,输入的4个特征池化处理输出1个特征,从数据的空间维度达到类似扁平化的特征;使得参与计算的参数量降低,输入的特征经处理仍保持全局特征信息,具备不变性,更好的保持纹理细节的信息。
全连接层将学到的分布式特征映射到样本标记空间,起到分类器的作用。回归分类层可以使用softmax回归模型,利用最小化代价函数完成对人体多姿态的识别分类。
步骤205、将训练结果进行反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
其中,反向传播本质上是链式法则,利用已经求得的导数值,与该层导数值相乘,不断求得总误差对于每一层参数的导数值,利用迭代公式更新该层参数值,直至所有层参数更新完毕即完成一轮迭代。再次利用输入与上一轮各层参数值计算得到输出,计算总误差。
通过对确定的训练结果计算误差值,利用误差值进行参数优化,实现对人体姿态识别模型的训练。
在本实施例中,可选的,将训练结果进行反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练,包括:
基于训练结果和预先设置的样本集图像关联标签确定损失函数的输出值;
通过损失函数的输出值进行梯度下降计算,完成反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
其中,预先设置的样本集图像关联标签是指在确定样本集图像时就随之确定的该图像对应的人体姿态,作为其标签。关联标签可以由人为预先确定,以保证标签的准确性。
利用训练结果和样本集标签计算损失函数,之后通过梯度下降等网络优化算法反向传播调整网络的参数,在不断训练的过程中,降低损失至网络收敛,完成模型训练。
本发明实施例通过设置至少两组卷积单元完成对样本集图像的至少两个特征数据的提取,根据至少两个特征数据实现对样本集图像综合特征的确定,综合特征反映了样本集图像中人体姿态的全局特征,避免受到局部特征的影响造成姿态识别不准确,进而提高姿态识别的准确率和人体姿态识别模型的泛化性。
作为本发明的一个优选实施例,图2B是本发明优选实施例中的人体姿态识别模型训练过程的流程图。如图2B所示:
本发明实施例对卷积层进行改造,建立分组卷积,经过分组卷积模块中的三个卷积单元完成对输入图像的特征提取,生成三个特征图,然后再进行特征图的合并操作,经过标准化和指数处理,最后经过池化、全连接完成识别输出,对输出结果和输入图像的标签进行损失值计算,通过网络优化算法反向传播从而调整网络的参数,在不断训练的过程中,降低损失至网络收敛。
分组卷积模块主要由三组相同的卷积单元构成,各卷积单元分别对输入图像进行特征提取,生成特征图,然后在通道方向上合并特征图,经批标准化和指数线性单元处理后作为分组卷积模块的输出。分组卷积模块的设置使得特征提取更具有全局性,计算参数更多,并且提高全局特征的提取,不依赖于局部特征,网络模型更具备泛化性。并且与常规卷积相比,通过分组卷积模块的网络模型,在宽度和深度相同的前提下,该结构可有效降低网络参数的数量,通过模型训练得到参数越小,生产的模型权重文件越小,在应用模型进行验证的时候预测的计算开销越小,达到空间(存储空间、计算所用资源)和时间(计算所需时间)上的优化。
实施例三
图3是本发明实施例三中的基于分组卷积的人体姿态识别装置的结构示意图,本实施例可适用于对人体影像图像进行人体姿态识别的情况。如图3所示,该装置包括:
图像获取模块310,用于获取待识别图像;
输出结果确定模块320,用于将待识别图像输入到人体姿态识别模型中,得到人体姿态识别模型的输出结果;其中,人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
姿态识别模块330,用于根据输出结果,确定待识别图像中的人体姿态。
本发明实施例基于预先训练包括至少两组卷积单元的人体姿态识别模型,将待识别图像输入到该模型中,以此得到待识别图像的至少两个特征数据,通过待识别图像的至少两个特征数据可以提高人体姿态特征提取的全局性,避免受到局部特征的影响造成姿态识别不准确,进而提高姿态识别的准确率和人体姿态识别模型的泛化性。
可选的,装置还包括模型训练模块,用于对人体姿态识别模型进行训练,包括:
样本集图像获取单元,用于获取样本集图像;
特征数据获取单元,用于将样本集图像输入到至少两组卷积单元中,得到样本集图像的至少两个特征数据;
特征数据合并单元,用于对至少两个特征数据进行特征合并,得到样本集图像的综合特征;
训练结果确定单元,用于根据综合特征确定人体姿态识别模型的训练结果;
反向优化单元,用于将训练结果进行反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
可选的,卷积单元中包括至少一个上采样卷积组、下采样卷积组和尺度不变卷积组;其中,上采样卷积组包括卷积层和转置卷积层,下采样卷积组包括至少两个采用非等距滑动步长的卷积层,尺度不变卷积组包括至少一个采用边界填充的卷积层;通过调整卷积单元中三种卷积组的设置数量以调整得到的特征数据的大小。
可选的,特征数据合并单元,具体用于:
对至少两个特征数据在相同维度上进行拼接,得到拼接后的特征数据;
对拼接后的特征数据进行批标准化处理以及线性处理,得到样本集图像的综合特征。
可选的,训练结果确定单元,具体用于:
将综合特征分别通过池化层、全连接层以及回归分类层,得到人体姿态识别模型的训练结果。
可选的,反向优化单元,具体用于:
基于训练结果和预先设置的样本集图像关联标签确定损失函数的输出值;
通过损失函数的输出值进行梯度下降计算,完成反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
可选的,装置还包括图像预处理模块,具体用于:
对样本集图像进行预处理,得到预处理后的样本集图像;其中,预处理包括如下至少一项:数据增强、图像平滑、边缘提取以及边缘高度归一化。
本发明实施例所提供的基于分组卷积的人体姿态识别装置可执行本发明任意实施例所提供的基于分组卷积的人体姿态识别方法,具备执行基于分组卷积的人体姿态识别方法相应的功能模块和有益效果。
实施例四
图4是本发明实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备12的框图。图4显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储装置28,连接不同系统组件(包括系统存储装置28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储装置28可以包括易失性存储装置形式的计算机系统可读介质,例如随机存取存储装置(RAM)30和/或高速缓存存储装置32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储装置28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储装置28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图4中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储装置28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于分组卷积的人体姿态识别方法,包括:
获取待识别图像;
将待识别图像输入到人体姿态识别模型中,得到人体姿态识别模型的输出结果;其中,人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
根据输出结果,确定待识别图像中的人体姿态。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的基于分组卷积的人体姿态识别方法,包括:
获取待识别图像;
将待识别图像输入到人体姿态识别模型中,得到人体姿态识别模型的输出结果;其中,人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
根据输出结果,确定待识别图像中的人体姿态。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于分组卷积的人体姿态识别方法,其特征在于,包括:
获取待识别图像;
将所述待识别图像输入到人体姿态识别模型中,得到所述人体姿态识别模型的输出结果;其中,所述人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
根据所述输出结果,确定待识别图像中的人体姿态。
2.根据权利要求1所述的方法,其特征在于,所述人体姿态识别模型的训练过程包括:
获取样本集图像;
将所述样本集图像输入到至少两组卷积单元中,得到所述样本集图像的至少两个特征数据;
对所述至少两个特征数据进行特征合并,得到所述样本集图像的综合特征;
根据所述综合特征确定人体姿态识别模型的训练结果;
将所述训练结果进行反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
3.根据权利要求1或2中任一所述的方法,其特征在于,所述卷积单元中包括至少一个上采样卷积组、下采样卷积组和尺度不变卷积组;其中,所述上采样卷积组包括卷积层和转置卷积层,所述上下采样卷积组包括至少两个采用非等距滑动步长的卷积层,所述尺度不变卷积组包括至少一个采用边界填充的卷积层;通过调整所述卷积单元中三种卷积组的设置数量以调整得到的特征数据的大小。
4.根据权利要求2所述的方法,其特征在于,对所述至少两个特征数据进行特征合并,得到所述样本集图像的综合特征,包括:
对所述至少两个特征数据在相同维度上进行拼接,得到拼接后的特征数据;
对所述拼接后的特征数据进行批标准化处理以及线性处理,得到所述样本集图像的综合特征。
5.根据权利要求2所述的方法,其特征在于,根据所述综合特征确定人体姿态识别模型的训练结果,包括:
将所述综合特征分别通过池化层、全连接层以及回归分类层,得到人体姿态识别模型的训练结果。
6.根据权利要求2所述的方法,其特征在于,将所述训练结果进行反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练,包括:
基于所述训练结果和预先设置的样本集图像关联标签确定损失函数的输出值;
通过所述损失函数的输出值进行梯度下降计算,完成反向传播,以优化人体姿态识别模型的参数,对人体姿态识别模型进行训练。
7.根据权利要求2所述的方法,其特征在于,将所述样本集图像输入到至少两组卷积单元中,得到所述样本集图像的至少两个特征数据之前,还包括:
对所述样本集图像进行预处理,得到预处理后的样本集图像;其中,所述预处理包括如下至少一项:数据增强、图像平滑、边缘提取以及边缘高度归一化。
8.一种基于分组卷积的人体姿态识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像;
输出结果确定模块,用于将所述待识别图像输入到人体姿态识别模型中,得到所述人体姿态识别模型的输出结果;其中,所述人体姿态识别模型中包括至少两组卷积单元,用于得到待识别图像的至少两个特征数据;
姿态识别模块,用于根据所述输出结果,确定待识别图像中的人体姿态。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于分组卷积的人体姿态识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的基于分组卷积的人体姿态识别方法。
CN202010591669.8A 2020-06-24 2020-06-24 基于分组卷积的人体姿态识别方法、装置、设备和介质 Pending CN111753736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010591669.8A CN111753736A (zh) 2020-06-24 2020-06-24 基于分组卷积的人体姿态识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010591669.8A CN111753736A (zh) 2020-06-24 2020-06-24 基于分组卷积的人体姿态识别方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN111753736A true CN111753736A (zh) 2020-10-09

Family

ID=72677307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010591669.8A Pending CN111753736A (zh) 2020-06-24 2020-06-24 基于分组卷积的人体姿态识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111753736A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016639A (zh) * 2020-11-02 2020-12-01 四川大学 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用
CN113705480A (zh) * 2021-08-31 2021-11-26 新东方教育科技集团有限公司 基于姿态识别神经网络的姿态识别方法、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN110222634A (zh) * 2019-06-04 2019-09-10 河海大学常州校区 一种基于卷积神经网络的人体姿态识别方法
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740534A (zh) * 2018-12-29 2019-05-10 北京旷视科技有限公司 图像处理方法、装置及处理设备
CN110222634A (zh) * 2019-06-04 2019-09-10 河海大学常州校区 一种基于卷积神经网络的人体姿态识别方法
CN110647912A (zh) * 2019-08-15 2020-01-03 深圳久凌软件技术有限公司 细粒度图像识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周云成等: "基于自监督学习的番茄植株图像深度估计方法", 《农业工程学报》, pages 181 - 190 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016639A (zh) * 2020-11-02 2020-12-01 四川大学 灵活可分离卷积框架和特征提取方法及其在VGG和ResNet中应用
CN113705480A (zh) * 2021-08-31 2021-11-26 新东方教育科技集团有限公司 基于姿态识别神经网络的姿态识别方法、设备和介质

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
CN101539994B (zh) 一种手语语音互译系统及手语语音互译方法
WO2021190296A1 (zh) 一种动态手势识别方法及设备
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
CN112016638B (zh) 一种钢筋簇的识别方法、装置、设备及存储介质
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN110188766B (zh) 基于卷积神经网络的图像主目标检测方法及装置
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
CN114445904A (zh) 基于全卷积神经网络的虹膜分割方法和装置、介质和设备
CN113011568A (zh) 一种模型的训练方法、数据处理方法及设备
CN111753736A (zh) 基于分组卷积的人体姿态识别方法、装置、设备和介质
CN114549557A (zh) 一种人像分割网络训练方法、装置、设备及介质
CN110472673B (zh) 参数调整方法、眼底图像处理方法、装置、介质及设备
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质
CN116075820A (zh) 用于搜索图像数据库的方法、非暂时性计算机可读存储介质和设备
WO2023207531A1 (zh) 一种图像处理方法及相关设备
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
CN115049546A (zh) 样本数据处理方法、装置、电子设备及存储介质
CN111814865A (zh) 一种图像识别方法、装置、设备及存储介质
CN112131902A (zh) 闭环检测方法及装置、存储介质和电子设备
CN110705510B (zh) 一种动作确定方法、装置、服务器和存储介质
Chen et al. Pruning deep feature networks using channel importance propagation
CN113408780B (zh) 汽车未来保值率预测方法、系统、设备及可读存储介质
CN108960084A (zh) 目标追踪方法、系统、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination