CN113887373A

CN113887373A - 基于城市智慧体育的并行融合网络的姿态识别方法和系统

Info

Publication number: CN113887373A
Application number: CN202111137342.4A
Authority: CN
Inventors: 王强; 王静宇; 马亚中; 梅一多; 李慎国; 谷雨明
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-01-04
Anticipated expiration: 2041-09-27
Also published as: CN113887373B

Abstract

本发明实施例提供的一种基于城市智慧体育的并行融合网络的姿态识别方法和装置，该方法采用全新的奥斯瓦德网络对输入的预处理图像进行特征提取，对从高到低不同分辨率的图像进行特征提取，在整个过程中都保持高分辨率和低分辨率特征相融合后进行预测。本发明进行了多次多尺度融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。因此，预测的关键点更准确，在空间上也更精确。

Description

基于城市智慧体育的并行融合网络的姿态识别方法和系统

技术领域

本发明涉及大数据和人工智能技术领域，具体涉及一种基于城市智慧体育的并行融合网络的姿态识别方法和系统。

背景技术

OpenPose是基于卷积神经网络和监督学习并以caffe为框架写成的开源库，可以实现人的面部表情、躯干和四肢甚至手指的跟踪，不仅适用于单人也适用于多人，同时具有较好的鲁棒性。可以称是世界上第一个基于深度学习的实时多人二维姿态估计，是人机交互上的一个里程碑，为机器理解人提供了一个高质量的信息维度。

传统的姿态估计系统主要是基于OpenPose算法提取骨骼信息进行视频监控，或者加速度传感器监控。但传统的监控方法以记录为主，同时还需要通过穿戴式传感器实现跌倒监测，使用者需要随时佩戴，在实际应用中极为不便。

发明内容

为了解决现有检测方案对体育运动行为相似度的检测不够准确的问题，提高用户动作与标准动作相匹配，本发明提供一种基于城市智慧体育的并行融合网络的姿态识别方法和系统，该方法采用全新的骨骼提取网络-奥斯瓦德网络增强了识别高分辨率下小目标的识别准确度，该网络能在整个过程中都保持高分辨和低分辨率特征相融合进行预测，进行了多次多尺度融合，使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复接收信息，从而得到丰富的高分辨率表征。从而预测的关键点更加准确，在空间上也更加准确。其具体技术方案如下：

本发明实施例提供的一种基于城市智慧体育的并行融合网络的姿态识别方法，包括步骤：

获取待识别骨骼图像，对所述待识别图像进行预处理得到预处理骨骼图像；

将所述预处理骨骼图像输入至具有两层并行计算融合得到特征图像的奥斯瓦德网络进行不同分辨率的特征提取，得到融合骨骼特征图像；

将所述融合骨骼特征图像输入至agaze模块，得到不同类型通道的多个均分图像后，根据不同类型通道设置不同权重后输入至预先训练的深度学习网络进行预测，得到骨骼姿态类别。

进一步的，所述奥斯瓦德网络对所述预处理骨骼图像进行处理得到融合骨骼特征图像，包括步骤：

所述奥斯瓦德网络包括第一阶段和第二阶段两个阶段，两阶段按照不同分辨率进行图像特征提取；所述第一阶段和所述第二阶段并行进行；所述第一阶段按照分辨率从小到大的顺序进行，所述第二阶段按照分辨率从大到小的顺序进行；

将所述第一阶段和所述第二阶段对应得到的不同分辨率的特征图像进行融合，得到融合骨骼特征图像。

进一步的，所述两阶段按照不同分辨率进行图像特征提取，包括步骤：

在第一阶段：第一部分将所述预处理图像经过预设次数的池化和卷积计算，得到预设分辨率范围和通道数范围的第一图片；第二部分将所述第一图片进行预设次数的反卷积计算，得到预设通道数范围的第二图片，将所述第一图片和所述第二图片进行裁剪和拼接，得到第三图片；

在第二阶段：将所述第二图片进行多次反卷积计算得到预设通道数范围和预设分辨率范围的第四图片；

将所述第四图片与所述第一图片进行融合，得到不同分辨率的融合骨骼特征图像。

进一步的，所述预处理图像为568*568像素、64通道的图片；所述第一图片包括第一子图片、第二子图片、第三子图片和第四子图片；所述第二图片包括第五子图片、第六子图片和第七子图片、第八子图片；

所述第一部分将所述预处理图像经过预设次数的池化和卷积计算，得到预设分辨率范围和通道数范围的第一图片，具体包括步骤：

第一步：将所述预处理图像经过池化计算得到284*284像素64通道图片，经过3*3卷积核两次卷积变成280*280像素128通道，得到第一子图片；

第二步：经过池化计算变为140*140像素128通道图片，经过3*3卷积核两次卷积变成136*136像素256通道，得到第二子图片；

第三步：经过池化计算变为68*68像素256通道图片，经过3*3卷积核两次卷积变成64*64像素512通道图片，得到第三子图片；

第四步：经过池化计算变为32*32像素512通道图片，经过3*3卷积核一次卷积变成30*30像素1024通道图片，再经过3*3卷积核一次卷积变成28*28像素1024通道，得到第四子图片；

所述第二部分将所述第一图片进行预设次数的反卷积计算，得到预设通道数范围的第二图片，将所述第一图片和所述第二图片进行裁剪和拼接，得到第三图片；具体包括步骤：

第五步：将所述第四子图片经过反卷积计算变为56*56像素512通道图片，与第一阶段第三步计算结果进行拷贝然后裁剪成56*56，拼接成1024通道，经过3*3卷积核两次卷积变成52*52像素256通道，得到第五子图片；

第六步：经过反卷积计算变为104*104像素256通道图片，与第一阶段第二步计算结果进行拷贝然后裁剪成104*104，拼接成512通道，经过3*3卷积核两次卷积变成100*100像素128通道，得到第六子图片；

第七步：经过反卷积计算变为200*200像素128通道图片，与第一阶段第一步计算结果进行拷贝然后裁剪成200*200，拼接成256通道，经过3*3卷积核两次卷积变成196*196像素64通道，得到第七子图片；

第八步：经过反卷积计算变为392*392像素64通道图片，与第一阶段输入图片卷积后的568*568像素64通道图片，进行拷贝然后裁剪成392*392，拼接成128通道，经过3*3卷积核两次卷积变成398*398像素64通道，得到第八子图片。

进一步的，所述第四图片包括：第九子图片、第十子图片、第十一子图片、第十二子图片和第十三子图片；

所述在第二阶段：将所述第二图片进行多次反卷积计算得到预设通道数范围和预设分辨率范围的第四图片；具体包括步骤：

第一步：将所述预处理图像经过反卷积计算变为1136*1136像素64通道图片，经过3*3卷积核八次卷积变成1120*1120像素128通道得到第九子图片；

第二步：将所述第九子图片经过反卷积计算变为2240*2240像素128通道图片，经过3*3卷积核三十二次卷积变成2176*2176像素256通道图片，得到第十子图片；

第三步：将第十子图片经过反卷积计算变为4352*4352像素256通道图片，经过3*3卷积核一百二十八次卷积变成4096*4096像素256通道图片，得到第十一子图片；

第四步：将第十一子图片经过反卷积计算变为8192*8192像素512通道图片，经过3*3卷积核五百一十二次卷积变成7186*7186像素256通道，得到第十二子图片；

第五步：将第十二子图片经过池化计算变为3593*3593像素512通道图片，经过3*3卷积核五百一十二次卷积变成7186*7186像素256通道，得到第十三子图片。

进一步的，所述将所述第四图片与所述第一图片进行融合，得到不同分辨率的融合骨骼特征图像，具体包括步骤：

将所述第一子图片与所述第九子图片进行放大4倍然后拼接，进行全连接计算后预测，得到融合后的第一分辨率的融合骨骼特征图像；

将所述第二子图片与所述第十子图片进行放大16倍然后拼接，进行全连接计算，得到融合后的第二分辨率的融合骨骼特征图像；

将所述第三子图片与所述第十一子图片进行放大64倍然后拼接，进行全连接计算后预测，得到融合后的第三分辨率的融合骨骼特征图像；

将所述第四子图片与所述第十二子图片进行放大128倍然后拼接，进行全连接计算后预测，得到融合后的第四分辨率的融合骨骼特征图像；

将所述第五子图片与所述第十三子图片进行放大256倍然后拼接，进行全连接计算后预测，得到融合后的第五分辨率的融合骨骼特征图像。

进一步的，所述agaze模块将得到的融合骨骼特征图像均匀分成16等分，将16等分划分为4类。

本发明的第二方面提供一种基于城市智慧体育的并行融合网络的姿态识别装置，包括：

获取模块，用于获取待识别骨骼图像，对所述待识别图像进行预处理得到预处理骨骼图像；

融合骨骼特征图像获取模块，用于将将所述预处理骨骼图像输入至具有两层并行计算融合得到特征图像的奥斯瓦德网络进行不同分辨率的特征提取，得到融合骨骼特征图像；

预测模块，用于将所述融合骨骼特征图像输入至agaze模块，得到不同类型通道的多个均分图像后，根据不同类型通道设置不同权重后输入至预先训练的深度学习网络进行预测，得到骨骼姿态类别。

进一步的，所述融合骨骼特征图像获取模块，具体用于分第一阶段和第二阶段两个阶段，按照不同分辨率进行图像特征提取；所述第一阶段和所述第二阶段并行进行；所述第一阶段按照分辨率从小到大的顺序进行，所述第二阶段按照分辨率从大到小的顺序进行；

本发明的第三方面提供一种电子设备，所述电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行上述任一所述的基于城市智慧体育的并行融合网络的姿态识别方法。

本发明的优点：

附图说明

图1是本发明一种基于城市智慧体育的并行融合网络的姿态识别方法的流程示意图；

图2是奥斯瓦德网络结构示意图；

图3是agaze模块分解示意图。

具体实施方式

以下结合附图对本发明进行说明，但不用来限制本发明的范围。

参见图1是本发明一种基于城市智慧体育的并行融合网络的姿态识别方法的流程示意图，包括：

S1：获取待识别骨骼图像，对所述待识别图像进行预处理得到预处理骨骼图像。

上述待识别骨骼图像是城市体育项目中获得的体育运动员的骨骼图像，对获得的图像进行预处理，对图像进行去噪等处理，得到预处理后的骨骼图像。

S2：将所述预处理骨骼图像输入至奥斯瓦德网络进行不同分辨率的特征提取，得到融合骨骼特征图像；所述奥斯瓦德网络具有两层并行计算融合结构，通过两层并行计算融合结构能够得到不同分辨率的特征图像。

本发明采用全新的骨骼提取网络-奥斯瓦德网络，包括两层并行计算融合结构，通过该结构能够得到不同分辨率的特征图像，其具体结构参见图2所示。

所述奥斯瓦德网络包括第一阶段和第二阶段两个阶段，两阶段按照不同分辨率进行图像特征提取；所述第一阶段和所述第二阶段并行进行；所述第一阶段按照分辨率从小到大的顺序进行，所述第二阶段按照分辨率从大到小的顺序进行；将所述第一阶段和所述第二阶段对应得到的不同分辨率的特征图像进行融合，得到融合骨骼特征图像。

上述两阶段按照不同分辨率进行图像特征提取，包括步骤：在第一阶段：第一部分将所述预处理图像经过预设次数的池化和卷积计算，得到预设分辨率范围和通道数范围的第一图片。本发明预处理图像为568*568像素、64通道的图片；所述第一图片包括第一子图片、第二子图片、第三子图片和第四子图片。

第一部分将所述预处理图像经过预设次数的池化和卷积计算，得到预设分辨率范围和通道数范围的第一图片，具体包括步骤：

第四步：经过池化计算变为32*32像素512通道图片，经过3*3卷积核一次卷积变成30*30像素1024通道图片，再经过3*3卷积核一次卷积变成28*28像素1024通道，得到第四子图片。

第二部分将所述第一图片进行预设次数的反卷积计算后与所述第一图片进行裁剪和拼接，得到第二图片；上述第二图片包括第五子图片、第六子图片和第七子图片、第八子图片具体包括步骤：

第五步：将所述第四子图片经过反卷积计算变为56*56像素512通道图片，与第一阶段第三步计算得到的第三子图像进行拷贝然后裁剪成56*56，拼接成1024通道，经过3*3卷积核两次卷积变成52*52像素256通道，得到第五子图片；

第六步：将第五子图片经过反卷积计算变为104*104像素256通道图片，与第一阶段第二步计算得到的第二子图像进行拷贝然后裁剪成104*104，拼接成512通道，经过3*3卷积核两次卷积变成100*100像素128通道，得到第六子图片；

第七步：将第六子图片经过反卷积计算变为200*200像素128通道图片，与第一阶段第一步计算得到的第一子图像进行拷贝然后裁剪成200*200，拼接成256通道，经过3*3卷积核两次卷积变成196*196像素64通道，得到第七子图片；

第八步：将第七子图片经过反卷积计算变为392*392像素64通道图片，与第一阶段输入的预处理图像卷积后的568*568像素64通道图片，进行拷贝然后裁剪成392*392，拼接成128通道，经过3*3卷积核两次卷积变成398*398像素64通道，得到第八子图片。

上述第三图片包括：第九子图片、第十子图片、第十一子图片、第十二子图片和第十三子图片；

所述在第二阶段：将所述第二图片进行多次反卷积计算得到预设通道数范围和预设分辨率范围的第三图片；具体包括步骤：

所述将所述第三图片与所述第一图片进行融合，得到不同分辨率的融合骨骼特征图像，具体包括步骤：

将所述第一子图片与所述第九子图片进行放大4倍然后拼接，进行全连接计算，得到融合后的第一分辨率的融合骨骼特征图像；

将所述第三子图片与所述第十一子图片进行放大64倍然后拼接，进行全连接计算，得到融合后的第三分辨率的融合骨骼特征图像；

将所述第四子图片与所述第十二子图片进行放大128倍然后拼接，进行全连接计算，得到融合后的第四分辨率的融合骨骼特征图像；

将所述第五子图片与所述第十三子图片进行放大256倍然后拼接，进行全连接计算，得到融合后的第五分辨率的融合骨骼特征图像。S3：将所述融合骨骼特征图像输入至agaze模块，得到不同类型通道的多个均分图像后，根据不同类型通道设置不同权重后输入至预先训练的深度学习网络进行预测，得到骨骼姿态类别。

上述agaze模块将得到的融合骨骼特征图像均匀分成16等分，将16等分划分为4类。如图3，本发明引入agaze模块，agaze模块用于对图像进行切割。由奥斯瓦德(Oswald)网络识别出的人体骨骼图像，把图片均匀的切割成16等分，将16等分划分为4类，从左到右从上到下依次编号1到16，1、4、13、16归类为1类通道，5、8、9、12归类为2类通道，2、6、10、14归类为3类通道，3、7、11、15归类为4类通道；通过对不同类的通道，采取不同的权值预测来体现agaze机制，1类通道取十分之二权重，2类通道取十分之二权重，3类通道取十分之三权重，4类通道取十分之三权重。按照固定的排列顺序，送入yolov5网络中学习，agaze模块的切割方式，有效的针对人体在体育运动中的图像人物的呈现方式，提高了人体居中或集中在一些区块里的识别效果，有效提升了算法对人体骨骼识别的敏锐度。

本发明的优点：

上述奥斯瓦德网络的训练过程与一般深度学习网络的训练过程相同，本发明采用标准的骨骼动作图与分类得到的骨骼姿态进行相似性判断。

本发明的第三方面提供一种电子设备，所述电子设备包括：

处理器；以及，

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，包括步骤：

将所述预处理骨骼图像输入至奥斯瓦德网络进行不同分辨率的特征提取，得到融合骨骼特征图像；所述奥斯瓦德网络具有两层并行计算融合结构，通过两层并行计算融合结构能够得到不同分辨率的特征图像；

2.根据权利要求1所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述奥斯瓦德网络对所述预处理骨骼图像进行处理得到融合骨骼特征图像，包括步骤：

3.根据权利要求2所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述两阶段按照不同分辨率进行图像特征提取，包括步骤：

在第一阶段：第一部分将所述预处理图像经过预设次数的池化和卷积计算，得到预设分辨率范围和通道数范围的第一图片；第二部分将所述第一图片进行预设次数的反卷积计算后与所述第一图片进行裁剪和拼接，得到预设通道数范围的第二图片；

在第二阶段：将所述第二图片进行多次反卷积计算得到预设通道数范围和预设分辨率范围的第三图片；

将所述第三图片与所述第一图片进行融合，得到不同分辨率的融合骨骼特征图像。

4.根据权利要求3所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述预处理图像为568*568像素、64通道的图片；所述第一图片包括第一子图片、第二子图片、第三子图片和第四子图片；所述第二图片包括第五子图片、第六子图片和第七子图片、第八子图片；

所述第二部分将所述第一图片进行预设次数的反卷积计算后与所述第一图片进行裁剪和拼接，得到第二图片；具体包括步骤：

5.根据权利要求4所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述第三图片包括：第九子图片、第十子图片、第十一子图片、第十二子图片和第十三子图片；

6.根据权利要求5所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述将所述第三图片与所述第一图片进行融合，得到不同分辨率的融合骨骼特征图像，具体包括步骤：

将所述第五子图片与所述第十三子图片进行放大256倍然后拼接，进行全连接计算，得到融合后的第五分辨率的融合骨骼特征图像。

7.根据权利要求1所述的基于城市智慧体育的并行融合网络的姿态识别方法，其特征在于，所述agaze模块将得到的融合骨骼特征图像均匀分成16等分，将16等分划分为4类。

8.一种基于城市智慧体育的并行融合网络的姿态识别装置，其特征在于，包括：

9.根据权利要求8所述的基于城市智慧体育的并行融合网络的姿态识别装置，其特征在于，所述融合骨骼特征图像获取模块，具体用于分第一阶段和第二阶段两个阶段，按照不同分辨率进行图像特征提取；所述第一阶段和所述第二阶段并行进行；所述第一阶段按照分辨率从小到大的顺序进行，所述第二阶段按照分辨率从大到小的顺序进行；

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1-7任一所述的基于城市智慧体育的并行融合网络的姿态识别方法。