CN115311745A - 一种花样滑冰分层动作识别方法 - Google Patents
一种花样滑冰分层动作识别方法 Download PDFInfo
- Publication number
- CN115311745A CN115311745A CN202211019180.9A CN202211019180A CN115311745A CN 115311745 A CN115311745 A CN 115311745A CN 202211019180 A CN202211019180 A CN 202211019180A CN 115311745 A CN115311745 A CN 115311745A
- Authority
- CN
- China
- Prior art keywords
- skating
- bone
- pattern
- data
- layered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种花样滑冰分层动作识别方法,属于图形图像识别技术领域,解决了现有花样滑冰动作识别不准确的问题。方法包括:获取花样滑冰视频数据构建花样滑冰分层数据集;基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流;基于分层细粒度图卷积神经网络结构构建花样滑冰分层动作识别模型;基于构建的数据流训练所述花样滑冰分层动作识别模型;提取待识别视频的骨骼点数据,构建待识别视频的骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流输入训练好的花样滑冰分层动作识别模型,得到待识别视频的花样滑冰动作识别结果。实现了花样滑冰动作的准确识别。
Description
技术领域
本发明涉及图形图像识别技术领域,尤其涉及一种花样滑冰分层动作识别方法。
背景技术
花样滑冰是兼顾力量与美的冰上运动。自从1882年挪威选手阿克塞尔·保尔森在首个国际大赛中创造出阿克塞尔一周半跳,花样滑冰的技术动作不断在发展。目前花样滑冰单人滑的动作主要可以分为跳跃、旋转和步法三大类。其中,步法的编排具有较大的自由度,能够充分展示选手的个人特色和艺术表现能力。目前国际赛场上成人组选手编排的跳跃动作大多为三周跳或四周跳,选手在跳跃和旋转的过程中犹如一只高速旋转的陀螺,普通观众难以分辨旋转的周数和动作完成程度。因此,面向花样滑冰的动作识别算法可用于花样滑冰比赛直播的实时动作标注,不仅能够辅助比赛解说,还能够帮助观众理解比赛。此外,花样滑冰的分数由基础分值,GOE(质量加分)和PCS(节目内容分组成),其中基础分值由选手完成的动作种类决定,GOE由选手对动作的执行程度决定,PCS由选手整体艺术效果呈现决定。面向花样滑冰的动作识别算法可以帮助裁判更加清晰地分析选手的动作呈现效果,使他们能够更加客观地做出评判。
现有的花样滑冰动作识别方法进针对动作小类进行识别,对不同动作大类的共同特征学习不充分,并且对花样滑冰动作的关键特征把握不够准确,对时间信息的学习不够充分,因此现有方法对花样滑冰的动作识别不准确。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种花样滑冰分层动作识别方法,用以解决现有方法动作识别不准确的问题。
一方面,本发明实施例提供了一种花样滑冰分层动作识别方法,包括以下步骤:
获取花样滑冰视频数据构建花样滑冰分层数据集;所述分层数据集包括骨骼点数据、动作小类标签和动作大类标签;
基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流;基于分层细粒度图卷积神经网络结构构建花样滑冰分层动作识别模型;基于所述骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流训练所述花样滑冰分层动作识别模型;
提取待识别视频的骨骼点数据,构建待识别视频的骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流输入训练好的花样滑冰分层动作识别模型,得到待识别视频的花样滑冰动作识别结果。
上述技术方案的有益效果为:通过采用分层分类识别的方法,贴合花样滑冰比赛将动作分类为不同大类和小类的现状。基于分层数据集,采用分层细粒度图卷积神经网络结构构建适用于花样滑冰比赛规则的花样滑冰分层动作识别模型。模型利用学习到的大类内部的共同特征调整模型对样本所属小类的预测,降低动作样本小类分类错误的概率,提高动作识别的准确性。
基于上述技术方案的进一步改进,获取花样滑冰视频数据构建花样滑冰分层数据集,包括:
提取花样滑冰视频中每帧图像的骨骼点数据;
识别采集异常数据帧,采用零值填充异常数据帧;
对于缺失骨骼点数据的数据帧,取当前帧的前一帧数据和当前帧后缺失的骨骼点第一次被成功识别时的数据帧的加权均值进行填充;
每帧图像的骨骼点数据和对应的动作小类标签及动作大类标签构成分层数据集。
上述技术方案的有益效果为:通过对采集异常数据帧和缺失骨骼点数据的数据帧进行处理,消除异常数据的影响,使动作识别更加准确。
进一步地,所述花样滑冰分层动作识别模型包括四个分层细粒度图卷积神经网络和决策融合模块;
每个所述分层细粒度图卷积神经网络包括多个图卷积单元、两个注意力模块和一个分层分类结构;
所述图卷积单元用于提取输入数据的时空特征;
所述注意力模块用于为图卷积单元输出的时空特征赋予注意力权重;
所述分层分类结构用于基于输入的特征进行分层分类;
所述决策融合模块用于将所述分层细粒度图卷积神经网络的识别结果融合得到最终识别结果。
进一步地,所述决策融合模块采用以下公式计算最终识别结果:
其中,zs表示样本的小类预测结果,zm表示样本的大类预测结果,表示第一个分层细粒度图卷积神经网络预测的第i个小类的概率,表示第二个分层细粒度图卷积神经网络预测的第i个小类的概率,表示第三个分层细粒度图卷积神经网络预测的第i个小类的概率,表示第四个分层细粒度图卷积神经网络预测的第i个小类的概率,表示第一个分层细粒度图卷积神经网络预测的第i个大类的概率,表示第二个分层细粒度图卷积神经网络预测的第i个大类的概率,表示第三个分层细粒度图卷积神经网络预测的第i个大类的概率,表示第四个分层细粒度图卷积神经网络预测的第i个大类的概率,argmax表示取最大值对应的序号,是模型参数。
进一步地,所述分层分类结构采用以下公式计算模型损失:
其中,当样本j的小类表标签为第c个小类时,,否则,;当样本j的大类标签为第d个大类时,,否则,;表示模型计算得到的样本j的小类为第c个小类的概率,表示模型计算得到的样本j的大类为第d个大类的概率,表示模型计算得到的样本j的小类为第d个大类下第k个小类的概率,Lsj表示样本j的小类分类损失,Lmj表示样本j的大类分类损失,L表示总损失,ns表示小类数量,nm表示大类数量,md表示大类d包含的小类数量,N为训练样本数。
进一步地,每个所述注意力模块包括时空注意力子网络、通道注意力子网络和运动注意力子网络。
进一步地,所述多个图卷积单元和多个注意力模块交错设置,所述注意力模块设置在输出通道数大于输入通道数的图卷积单元之前。
进一步地,所述通道注意力子网络通过以下步骤计算通道注意力特征:
在空间维度上对输入数据进行池化处理得到通道全局特征;
对所述通道全局特征交错进行两次通道维度的一维卷积和一次时间维度的一维卷积得到通道注意力权重,基于所述通道注意力权重和输入数据得到通道注意力特征。
进一步地,所述运动注意力子网络通过以下步骤计算运动注意力特征:
对输入数据进行一维卷积处理;
对输入数据的第二帧至最后一帧的特征进行一维卷积操作,将卷积后的结果与第一帧至倒数第二帧的特征数据做差;将差值经空间维度的池化操作得到运动全局特征;
对运动全局特征进行一维卷积操作和sigmoid函数处理得到运动注意力权重;基于所述运动注意力权重和输入数据得到运动注意力特征。
进一步地,基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流,包括:
与现有技术相比,本发明的花样滑冰分层动作识别方法通过采用分层分类识别的方法,贴合花样滑冰比赛将动作分类为不同大类和小类的现状。基于分层数据集,采用分层细粒度图卷积神经网络结构构建适用于花样滑冰比赛规则的花样滑冰分层动作识别模型。模型利用学习到的大类内部的共同特征调整模型对样本所属小类的预测,降低动作样本小类分类错误的概率,提高动作识别的准确性。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例花样滑冰分层动作识别方法的流程图;
图2为本发明实施例中异常数据帧示意图;
图3为本发明实施例的骨架示意图;
图4为本发明实施例的分层细粒度图卷积神经网络结构示意图;
图5为本发明实施例的图卷积单元结构示意图;
图6为本发明实施例的时间建模模块结构示意图;
图7为本发明实施例的注意力模块结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个具体的实施例公开了一种花样滑冰分层动作识别方法,如图1所示,包括以下步骤:
S1、获取花样滑冰视频数据构建花样滑冰分层数据集;所述分层数据集包括骨骼点数据、动作小类标签和动作大类标签;
S2、基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流;基于分层细粒度图卷积神经网络结构构建花样滑冰分层动作识别模型;基于所述骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流训练所述花样滑冰分层动作识别模型;
S3、提取待识别视频的骨骼点数据,构建待识别视频的骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流输入训练好的花样滑冰分层动作识别模型,得到待识别视频的花样滑冰动作识别结果。
通过采用分层分类识别的方法,贴合花样滑冰比赛将动作分类为不同大类和小类的现状。基于分层数据集,采用分层细粒度图卷积神经网络结构构建适用于花样滑冰比赛规则的花样滑冰分层动作识别模型。模型利用学习到的大类内部的共同特征调整模型对样本所属小类的预测,降低动作样本小类分类错误的概率,提高动作识别的准确性。
实施时,首先依据国家花样滑冰等级测试大纲与国际滑联ISU官网2021年的花样滑冰特殊规定和技术规则,针对花样滑冰的三大类基础动作制定花样滑冰数据分类标准。
花样滑冰动作首先分为跳跃、步法、旋转三大类,紧接着在三大类的基础上细分为10小类数据。跳跃动作和旋转动作根据实际比赛中出现的动作状况分别为多个跳跃小类和旋转小类,步法动作由选手及其团队编排,主观性较强,哪怕是定级相同的步法动作间也具有较大差异,因此在本发明的数据集中不对其进行进一步细分。分层次分类的方法符合花样滑冰动作的特点,且使算法进行动作识别时可以更细致地看到算法在各个大类动作和小类动作上的表现。
具体的,步骤S1中获取花样滑冰视频数据构建花样滑冰分层数据集,包括:
S11、提取花样滑冰视频中每帧图像的骨骼点数据;
实施时,可由专业人士依据分类标准对花样滑冰视频进行分割,通过OpenPose等姿态提取算法对视频逐帧提取花样滑冰选手的骨骼点数据。
S12、识别采集异常数据帧,采用零值填充采集异常数据帧;
采用姿态识别算法提取的骨骼数据会存在误将观众的骨架图当作花样滑冰选手的骨架图的情况,图2(a)图展示了数据集中错误采集的观众骨骼数据。由于花样滑冰单人滑三大类基础动作跳跃、步法、旋转中,选手的骨架大多呈现展开状态,均匀分布在坐标平面x轴的上下两侧,仅在蹲踞式旋转和鲍步等步法中,选手的骨架会蜷缩在坐标平面x轴下方。因此,本发明通过这一特点判断选手骨骼点分布在x轴上下两侧或x轴下方时为正常采集的帧,反之则为采集异常的帧。对于检测出的采集异常帧,采用零填充的方法处理,即将该帧的骨骼坐标均置为0。
S13、对于缺失骨骼点数据的数据帧,取当前帧的前一帧数据和当前帧后缺失的骨骼点第一次被成功识别时的数据帧的加权均值进行填充;
采用姿态识别算法提取的骨骼数据会存在选手运动过程中部分骨骼点未能成功提取。图2(b)展示了部分骨骼点数据未成功采集被置于坐标原点的选手骨骼数据。
由于OpenPose算法对未成功识别的骨骼点默认为原点坐标,针对缺失骨骼点的异常帧,对坐标在原点位置的骨骼点采用特殊值填充方法处理。填充的特殊值为该骨骼点前一帧坐标与在当前帧之后该骨骼点第一次被成功识别时的坐标在时间序列上的加权平均值。缺失骨骼点填充坐标值的具体计算方法如公式(1)所示。此外,为了减轻选手在空间中的位置变动对动作识别的影响,本文将花样滑冰骨架图中心腰骶部的骨骼点,即图3中编号为8的骨骼点,固定于坐标空间原点位置。
其中,(xt,yt)表示第t帧图像缺失的骨骼点的坐标,(xt-1,yt-1)表示缺失的骨骼点在t-1帧中的坐标, l表示缺失的骨骼点在l帧第一次被成功识别,(xl,yl)表示缺失的骨骼点在l帧中的坐标。
S14、每帧图像的骨骼点数据和对应的动作小类标签及动作大类标签构成分层数据集。
通过步骤S12-S13对噪声数据进行清洗,从而为准确进行花样滑冰动作提供数据基础。将步骤S12-S13称为数据预处理。
将每段动作视频添加大类标签和小类标签,动作视频对应的每帧图像的骨骼点数据和动作大类标签、动作小类标签形成一个分层样本数据,多个样本形成分层数据集。
本发明的分层数据集FSHD-10中包含2300个样本数据,其中训练集包含1841个样本数据,测试集包含459个样本数据,各类数据的样本数量如表1所示:
为了获取更多的运动信息,步骤S2中首先基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流,具体包括:
由于骨骼点坐标数据只能反映骨骼关节的位置信息,因此建立骨骼数据流来表示骨骼的长度和方向信息。实施时,可以骨骼点b为离心节点,骨骼点a为向心节点,离心节点为更远离人体重心的节点,向心节点为更接近人体重心的节点。
为了增强对时间信息的学习,构建骨骼点运动数据流和骨骼运动数据流以学习骨骼点和骨骼的运动信息,提高动作识别的准确性。骨骼点运动数据流是通过相邻两帧的骨骼点坐标相减得到的。同样,骨骼运动数据流由相邻两帧的骨骼向量相减得到,具体公式为:
计算得到的骨骼数据流、骨骼点运动数据流、骨骼运动数据流和原本的骨骼点数据流一起发送至构建的花样滑冰分层动作识别模型进行模型训练。其中,花样滑冰分层动作识别模型是基于分层细粒度图卷积神经网络结构构建的。
具体的,所述花样滑冰分层动作识别模型包括四个分层细粒度图卷积神经网络和决策融合模块;骨骼数据流、骨骼点运动数据流、骨骼运动数据流和骨骼点数据流分别输入四个分层细粒度图卷积神经网络中进行模型训练。
每个所述分层细粒度图卷积神经网络包括多个图卷积单元、多个注意力模块和一个分层分类结构,如图4所示,图卷积单元和注意力模块交错放置。注意力模块设置在输出通道数大于输入通道数的图卷积单元之前,帮助模型学习更多的关键骨骼点信息,增强模型学习不同特征时对关键信息的学习。本发明采用4个图卷积单元+1个注意力模块+3个图卷积单元+1个注意列模块+3个图卷积单元+1个分层分类结构。
所述图卷积单元用于提取输入数据的时空特征。
每个图卷积单元包括空间图卷积模块、数据处理模块和时间建模模块,如图5所示。
实施时,空间图卷积模块采用现有的自适应图卷积块,对空间信息进行图卷积运算,可以学习节点之间的连接强度。具体结构参考现有技术。
为了更好地学习不同时间尺度的花样滑冰运动特征,图卷积单元中设置了一个时间建模模块,如图6所示,时间建模模块包括6个时间卷积块,输入数据在通道中被6个时间卷积块划分为6个分支,一个时间卷积块为一个1×1的卷积层。在此之后,对前4个分支进行四种不同程度的膨胀卷积,对第5个分支进行最大池化的处理。为了保持输入数据的原始特征,增强模型的稳定性,该模块不对第6个支路的数据进行处理。在通道维度中连接六个分支的数据后,时间建模模块增加了残差链接结构以增强模型的稳定性。图卷积单元中的时间建模模块有助于增强模型学习时间信息的能力。
在时序建模模块和空间图卷积模块之后分别有一个数据处理模块来处理输出数据。数据处理模块主要用于规范数据分布,缓解过拟合,增强系统的表达能力。数据处理模块首先将前一个模块的输出数据通过BN层,对输出数据分布进行归一化,在BN层之后,该模块设置一个非线性激活函数ReLU层来缓解过拟合问题。
所述注意力模块用于为图卷积单元输出的时空特征赋予注意力权重;专注于找出每个图卷积单元中最受关注的骨骼点。
具体的,每个所述注意力模块包括时空注意力子网络、通道注意力子网络和运动注意力子网络。
由于花样滑冰具有丰富的时间信息和骨骼点信息,因此引入了注意力模块来增强模型对关键骨骼点信息的学习。注意力模块包括时空注意力(Spatial-TemporalExcitation, STE)子网络,通道注意力子网络(Channel Excitation, CE)子网络和运动注意力(Motion Excitation, ME)子网络。该注意力模块的具体结构如图7所示,其中(a),(b),(c)分别为时空注意力子网络结构,通道注意力子网络结构和运动注意力子网络结构。每个子网络的输入数据表示为(N,C,T,V),其中,N表示样本数,C表示通道数,T表示帧序列,V表示特征向量。为了能够处理仅包含xy二维坐标的花样滑冰数据,通道注意力子网络和运动注意力子网络采用多个一维卷积层学习数据特征。
时空注意力子网络通过使用卷积提取数据中的时空注意力特征,具体结构如图7(a)所示。为了减小模型的计算量,首先对输入数据在通道维度上进行池化处理,得到一个时空全局特征F,大小为(N,1,T,V)。随后模型对F进行3×3的卷积操作并使用Sigmoid函数转换为时空注意力权重A1,大小为(N,1,T,V),将输入数据与权重相乘后与输入数据相加即为时空注意力子网络的输出数据,从而增强模型的稳定性。
因此,所述时空注意力子网络通过以下步骤计算时空注意力特征:
在通道维度上对输入数据进行池化处理得到时空全局特征F;
通道注意力子网络通过对数据通道维度的卷积建模通道相互依赖性,增强模型对运动数据通道特征的学习,具体结构如图7(b)所示。首先在空间维度上对数据进行池化处理,得到一个通道全局特征,继而对该通道全局特征交错进行两次通道维度的一维卷积和一次时间维度的一维卷积(即先做一次通道维度的一维卷积,然后进行一次时间维度的一维卷积,再进行一次通道维度的一维卷积),得到通道注意权重A2,大小为(N,C,T,1),将输入数据与权重相乘后与输入数据相加即为通道注意力子网络的输出数据,从而增强模型的稳定性。由于本发明输入数据中包含时序信息,因此使用时间维度的卷积增加数据在时域的相互依赖程度,从而不仅增强模型对数据通道依赖的学习,也增强模型对数据时间序列的学习。
因此,所述通道注意力子网络通过以下步骤计算通道注意力特征:
在空间维度上对输入数据进行池化处理得到通道全局特征;
对所述通道全局特征进行两次通道维度的一维卷积和一次时间维度的一维卷积得到通道注意力权重,基于所述通道注意力权重和输入数据得到通道注意力特征。
运动注意力子网络通过计算两帧之差学习数据运动特征,具体结构如图7(c)所示。首先通过一个一维卷积增强模型通道相互依赖性的同时减小模型计算量,继而对输入数据的第二帧至最后一帧的特征进行一维卷积操作,将卷积后的结果与第一帧至倒数第二帧的特征数据做差;将差值通过空间维度的池化操作学习全局运动特征,经一维卷积层和sigmoid函数调整后得到运动注意力权重,将输入数据与权重相乘后与输入数据相加即为运动注意力机制模块的输出数据。运动注意力子网络在学习相邻帧差的运动信息的同时,增强了模型对空间全局信息和通道依赖信息的学习,通过残差链接也维护了模型的稳定性,对增强模型在识别花样滑冰动作任务上的表现具有重要意义。
因此,所述运动注意力子网络通过以下步骤计算运动注意力特征:
对输入数据进行一维卷积处理增强通道相互依赖性;
对输入数据的第二帧至最后一帧的特征进行一维卷积操作,将卷积后的结果与第一帧至倒数第二帧的特征数据做差;将差值经空间维度的池化操作得到运动全局特征;
对运动全局特征进行一维卷积操作和sigmoid函数处理得到运动注意力权重;基于所述运动注意力权重和输入数据得到运动注意力特征。
采用加和方式将得到的时空注意力特征、通道注意力特征和运动注意力特征融合后得到注意力加权特征,输入分层分类结构进行分类识别。
分层细粒度图卷积神经网络末端包括一个所述分层分类结构,用于基于注意力加权特征进行分层分类;
花样滑冰动作分为三大类——跳跃、步法和旋转。这三个主要的动作类别可再细分为十个小类。因此采用分层分类结构,学习大类类别和小类的特征进行分类。
分层分类结构分为三层。在第一层,计算每个小类预测的损失。在第二层,计算样本属于主要大类的概率,然后计算每个大类预测的损失。在第三层,将第一层和第二层的输出损失相加,得到反向传播的网络损失。
具体的,所述分层分类结构采用以下公式计算模型损失:
其中,当样本j的小类表标签为第c个小类时,,否则,;当样本j
的大类标签为第d个大类时,,否则,;表示模型计算得到的样本j的
小类为第c个小类的概率,表示模型计算得到的样本j的大类为第d个大类的概率,表示模型计算得到的样本j的小类为第d个大类下第k个小类的概率,Lsj表示样本j的小
类分类损失,Lmj表示样本j的大类分类损失,L表示总损失,ns表示小类数量,nm表示大类数
量,md表示大类d包含的小类数量,N为训练样本数。四个分层细粒度图卷积神经网络分别基
于对应的数据流进行训练,训练结束后,得到训练样本集中每个样本基于不同的数据流的
分类识别。因此需要采用融合模块将四个分层细粒度图卷积神经网络的识别结果融合得到
最终识别结果。
实施时,在识别结果融合前首先采用softmax函数对四个分层细粒度图卷积神经网络的输出结构进行归一化处理。
具体的,所述决策融合模块采用以下公式计算最终识别结果:
其中,zs表示样本的小类预测结果,zm表示样本的大类预测结果,表示第一个
分层细粒度图卷积神经网络预测的第i个小类的概率,表示第二个分层细粒度图卷积
神经网络预测的第i个小类的概率,表示第三个分层细粒度图卷积神经网络预测的第i
个小类的概率,表示第四个分层细粒度图卷积神经网络预测的第i个小类的概率,
表示第一个分层细粒度图卷积神经网络预测的第i个大类的概率,表示第二个分层细
粒度图卷积神经网络预测的第i个大类的概率,表示第三个分层细粒度图卷积神经网
络预测的第i个大类的概率,表示第四个分层细粒度图卷积神经网络预测的第i个大
类的概率,argmax表示取最大值对应的序号,是模型参数。
下面以具体的实验数据说明本发明的有益效果。
第一个实验是测试HFGCN中的数据预处理(步骤S12-S13)、分层分类结构(即分层细粒度图卷积神经网络末端的分层分类结构)、时间建模模块和注意力模块的贡献。该实验采用经典动作识别网络2s-AGCN作为基准。从表2可以看出,无论数据是否进行预处理,2s-AGCN的准确率仅为32.09%或77.90%,这说明2s-AGCN在花样滑冰领域的表现并不好。model_1是采用了分层分类结构,其将准确率从77.90%提高到90.37%(+12.47%),这得益于分层分类模块。此外,ACTION-Net注意力模块和时间建模模块有助于将准确率分别提高到91.03%和92.88%。这些模块都对本发明的花样滑冰分层动作识别模型(FSARS)做出了贡献,使系统在FSHD-10的最终精度达到93.70%。具体数据如下表所示:
第二个实验验证FSARS在FSHD-10上的有效性,并与动作识别算法2s-AGCN、MS-G3D、CTR-GCN进行了比较,这些算法在动作识别领域都表现良好。具体数据如下表所示:
在表3中,accjump,accspin和accsequence分别代表三个大类内动作细分的准确率,acc3代表动作仅分为三个大类时的准确率,acc10代表动作细分为十个小类时的准确率。
本发明数据集中花样滑冰数据主要分为跳跃、步法、旋转三大类,进一步可划分为10小类,数据集中三大类的数据个数基本持平。然而,由于各个大类中小类的个数不同,如跳跃分为6小类,旋转仅分为3小类,且实际比赛中各个类别动作出现的次数也因比赛规定而有所不同,因此本发明在计算算法评价指标时需考虑各个类别数据间的均衡问题。
根据国际滑联ISU官网的2014年和2021年的花样滑冰特殊规定和技术规则和2016年的ISU Communication 2014(第 56 届国际滑联大会接受的一般规则、特殊规则和技术规则的变化),本发明对国际花样滑冰比赛中各个大类动作出现次数规则总结如下:
(1)花样滑冰单人滑比赛项目由短节目和自由滑组成。根据国际赛场的通常做法,花样滑冰个人赛单人滑短节目一般为30名选手登场,前24名晋级自由滑。因此本发明将短节目和自由滑的比例暂定为5:4;
(2)短节目由七个规定动作组成,主要包括三个跳跃,三个旋转,一个接续步。根据赛季的不同、选手性别和年龄的不同,各个跳跃和旋转的具体要求也不同,但从2014年到2022年间,七个动作的分布都是如此;
(3)自由滑规定成年组选手的节目中最多包括7个跳跃,3个旋转,一个接续步,一个编排接续步。
综上所述,根据国际滑联的规定,跳跃、旋转与步法在比赛中出现的比例大约为43:27:13,即51.81%,32.53%,15.66%。
本发明选用准确率作为评估算法性能的指标,分别计算系统仅将动作划分为大类的准确率和各个大类中动作细分的准确率。在计算小类准确率时,本发明采用如上所述的比例将各个大类中动作细分的准确率相加,得到系统将动作划分为10个小类的准确率,具体计算方法如以下公式所示。
其中,acc10代表将动作划分为10个小类的准确率,accjump,accspin和accsequence分别代表跳跃、旋转、步法三大类内部动作细分的准确率。
其中,以跳跃大类为例说明大类内动作细分的准确率的计算方法:提取所有小类标签为后外点冰跳、后内点冰跳、勾手跳、勾手跳与后外点冰跳联跳、后外结环跳和阿克塞尔跳的所有样本,其中小类分类识别正确的样本数占比即为该大类内的动作细分准确率。
由表3可知,每个算法在步法大类内的动作细分准确率都达到了96%以上的准确率。对于旋转大类内部动作细分,FSARS的准确率达到99.40%,远远高于其他三种算法。对于跳跃大类内部动作细分,FSARS的准确率为88.69%,仍高于2s-AGCN、MS-G3D和CTR-GCN的准确率。
部分现有算法在分类花样滑冰动作时倾向于将所有动作都划分为步法和旋转,以此提高步法和旋转动作的分类准确率,使整体分类准确率处于一个较为不错的状态,但这类算法对跳跃的识别效果十分一般,缺乏实际应用价值。花样滑冰比赛将花样滑冰动作分为各个大类和小类,不同大类的评分标准不同,要求也不同。因此,本文提出的层次分类结构适用于花样滑冰比赛规则。此外,采用该结构可以根据模型学习到的大类内部的共同特征调整模型对样本所属小类的预测,降低动作样本小类分类错误的概率,提高动作识别的准确性。
在大类和小类的动作识别方面,FSARS的准确率分别为99.35%和93.7%。2s-AGCN在大类分类上的准确率比在小类分类上的准确率高出21.01%,MS-G3D的准确率高出31.81%,CTR-GCN的准确率高出8.53%,而FSARS的准确率高出5.65%。大类与小类之间的动作识别准确率差异表明,分层分类结构对于缩小大类与小类之间的准确率差距,从而提高花样滑冰十个小类动作识别的性能是有价值的。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种花样滑冰分层动作识别方法,其特征在于,包括以下步骤:
获取花样滑冰视频数据构建花样滑冰分层数据集;所述分层数据集包括骨骼点数据、动作小类标签和动作大类标签;
基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流;基于分层细粒度图卷积神经网络结构构建花样滑冰分层动作识别模型;基于所述骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流训练所述花样滑冰分层动作识别模型;
提取待识别视频的骨骼点数据,构建待识别视频的骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流输入训练好的花样滑冰分层动作识别模型,得到待识别视频的花样滑冰动作识别结果。
2.根据权利要求1所述的花样滑冰分层动作识别方法,其特征在于,获取花样滑冰视频数据构建花样滑冰分层数据集,包括:
提取花样滑冰视频中每帧图像的骨骼点数据;
识别采集异常数据帧,采用零值填充异常数据帧;
对于缺失骨骼点数据的数据帧,取当前帧的前一帧数据和当前帧后缺失的骨骼点第一次被成功识别时的数据帧的加权均值进行填充;
每帧图像的骨骼点数据和对应的动作小类标签及动作大类标签构成分层数据集。
3.根据权利要求1所述的花样滑冰分层动作识别方法,其特征在于,所述花样滑冰分层动作识别模型包括四个分层细粒度图卷积神经网络和决策融合模块;
每个所述分层细粒度图卷积神经网络包括多个图卷积单元、多个注意力模块和一个分层分类结构;
所述图卷积单元用于提取输入数据的时空特征;
所述注意力模块用于为图卷积单元输出的时空特征赋予注意力权重;
所述分层分类结构用于基于输入的特征进行分层分类;
所述决策融合模块用于将所述分层细粒度图卷积神经网络的识别结果融合得到最终识别结果。
4.根据权利要求3所述的花样滑冰分层动作识别方法,其特征在于,所述决策融合模块采用以下公式计算最终识别结果:
6.根据权利要求3所述的花样滑冰分层动作识别方法,其特征在于,每个所述注意力模块包括时空注意力子网络、通道注意力子网络和运动注意力子网络。
7.根据权利要求3所述的花样滑冰分层动作识别方法,其特征在于,
所述多个图卷积单元和多个注意力模块交错设置,所述注意力模块设置在输出通道数大于输入通道数的图卷积单元之前。
8.根据权利要求6所述的花样滑冰分层动作识别方法,其特征在于,
所述通道注意力子网络通过以下步骤计算通道注意力特征:
在空间维度上对输入数据进行池化处理得到通道全局特征;
对所述通道全局特征进行两次通道维度的一维卷积和一次时间维度的一维卷积得到通道注意力权重,基于所述通道注意力权重和输入数据得到通道注意力特征。
9.根据权利要求6所述的花样滑冰分层动作识别方法,其特征在于,所述运动注意力子网络通过以下步骤计算运动注意力特征:
对输入数据进行一维卷积处理;
对输入数据的第二帧至最后一帧的特征进行一维卷积操作,将卷积后的结果与第一帧至倒数第二帧的特征数据做差;将差值经空间维度的池化操作得到运动全局特征;
对运动全局特征进行一维卷积操作和sigmoid函数处理得到运动注意力权重;基于所述运动注意力权重和输入数据得到运动注意力特征。
10.根据权利要求1所述的花样滑冰分层动作识别方法,其特征在于,基于分层数据集构建骨骼点数据流、骨骼数据流、骨骼点运动数据流和骨骼运动数据流,包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211019180.9A CN115311745A (zh) | 2022-08-24 | 2022-08-24 | 一种花样滑冰分层动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211019180.9A CN115311745A (zh) | 2022-08-24 | 2022-08-24 | 一种花样滑冰分层动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115311745A true CN115311745A (zh) | 2022-11-08 |
Family
ID=83864730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211019180.9A Pending CN115311745A (zh) | 2022-08-24 | 2022-08-24 | 一种花样滑冰分层动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115311745A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778576A (zh) * | 2023-06-05 | 2023-09-19 | 吉林农业科技学院 | 基于骨架的时序动作分割的时空图变换网络 |
-
2022
- 2022-08-24 CN CN202211019180.9A patent/CN115311745A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778576A (zh) * | 2023-06-05 | 2023-09-19 | 吉林农业科技学院 | 基于骨架的时序动作分割的时空图变换网络 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544928B2 (en) | Athlete style recognition system and method | |
Wang et al. | Human action recognition by learning spatio-temporal features with deep neural networks | |
Xu et al. | Learning to score figure skating sport videos | |
Sharma et al. | Action recognition using visual attention | |
Zeng et al. | Breaking winner-takes-all: Iterative-winners-out networks for weakly supervised temporal action localization | |
Kar et al. | Adascan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos | |
Yao et al. | Highlight detection with pairwise deep ranking for first-person video summarization | |
Host et al. | An overview of Human Action Recognition in sports based on Computer Vision | |
CN107944431B (zh) | 一种基于运动变化的智能识别方法 | |
CN110348364B (zh) | 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法 | |
CN110298332A (zh) | 行为识别的方法、系统、计算机设备和存储介质 | |
Kusmakar et al. | Machine learning enabled team performance analysis in the dynamical environment of soccer | |
CN115311745A (zh) | 一种花样滑冰分层动作识别方法 | |
Chen et al. | Afnet: Temporal locality-aware network with dual structure for accurate and fast action detection | |
Ghosh et al. | Sports analytics review: Artificial intelligence applications, emerging technologies, and algorithmic perspective | |
Tang et al. | Research on Sports Dance Movement Detection Based on Pose Recognition. | |
Yan et al. | A Review of Basketball Shooting Analysis Based on Artificial Intelligence | |
CN116189278A (zh) | 一种基于全局上下文感知的细粒度篮球动作识别方法 | |
Liu et al. | Improving Image Paragraph Captioning with Dual Relations | |
Liu et al. | A Novel Model for Intelligent Pull‐Ups Test Based on Key Point Estimation of Human Body and Equipment | |
Cai et al. | Rgb video based tennis action recognition using a deep historical long short-term memory | |
US20240042281A1 (en) | User experience platform for connected fitness systems | |
US20240181295A1 (en) | User experience platform for connected fitness systems | |
Tian et al. | SPACE-TIME GRAPH-BASED CONVOLUTIONAL NEURAL NETWORKS OF STUDY ON MOVEMENT RECOGNITION OF FOOTBALL PLAYERS | |
CN112308013B (zh) | 一种基于深度学习的足球球员追踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |