CN115205737A

CN115205737A - 基于Transformer模型的运动实时计数方法和系统

Info

Publication number: CN115205737A
Application number: CN202210784220.2A
Authority: CN
Inventors: 李长霖; 李海洋; 侯永弟
Original assignee: Beijing Deck Intelligent Technology Co ltd
Current assignee: Beijing Deck Intelligent Technology Co ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-18
Anticipated expiration: 2042-07-05
Also published as: CN115205737B

Abstract

本发明实施例公开了一种基于Transformer模型的运动实时计数方法和系统，所述方法包括：通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；进而将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。解决了动作识别和计数准确性较差的技术问题。

Description

基于Transformer模型的运动实时计数方法和系统

技术领域

本发明涉及运动监测技术领域，具体涉及一种基于Transformer模型的运动实时计数方法和系统。

背景技术

随着智能健身、云赛事、虚拟运动等新兴运动的兴起，AI健身得到了广泛推广，为了保证远程健身效果，AI健身软件中多嵌入运动计数模块。在现有技术中，在进行运动计数时，多通过摄像头捕捉人体姿态，再结合AI识别算法进行动作识别及计数。但是，现有方法对于动作速度较快或者较慢的运动，其动作识别和计数的准确性较差。

发明内容

为此，本发明实施例提供一种基于Transformer模型的运动实时计数方法和系统，以至少部分解决现有技术中运动动作识别和计数准确性较差的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

一种基于Transformer模型的运动实时计数方法，所述方法包括：

通过摄像设备实时采集人体运动视频数据；

通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；

将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；

基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；

其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；

所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

进一步地，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量，具体包括：

检测所述运动视频中每一帧图像中所述目标运动者的骨骼关键点的三维坐标，以得到每一帧图像中所述目标运动者的姿态图；

基于所述姿态图，获取多个目标骨骼关键点，并以任意三个所述目标骨骼关键点作为一个骨骼关键点序列，以得到多个骨骼关键点序列；

计算各所述骨骼关键点序列之间的夹角，得到序列夹角，并将所有序列夹角构成运动姿态向量。

进一步地，计算各所述骨骼关键点序列之间的夹角，得到序列夹角，并将所有序列夹角构成运动姿态向量，具体包括：

设定骨骼关键点n通过三维坐标(x_n,y_n,z_n)描述，假设有[w,p,q]三个骨骼关键点序列，关键点的坐标为：(x_w,y_w,z_w),(x_p,y_p,z_p),(x_q,y_q,z_q)，其中，w点和p点可以形成线段l₁，q和p可以构成线段l₂；

计算l₁和l₂之间的夹角即为w,p,q三个骨骼关键点形成的序列夹角；

计算其他骨骼关键点序列的序列夹角，并得到所有的序列夹角；

所有序列夹角的值构成运动姿态向量：[θ₁,θ₂,…,θ_n]。

进一步地，基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果，具体包括：

将所述运动姿态矩阵输入预先训练的Transformer模型，计算所述运动姿态矩阵相对于任一目标动作的输出概率；

判定所述输出概率大于或等于预设阈值，则在所述目标动作的计数上加1，并将窗口w向前滑动p帧；

其中，p为窗口w的长度，p的取值范围为[l，r]，l表示训练数据集中所述目标动作的视频帧数的最小值，r表示训练数据集中所述目标动作的视频帧数的最大值。

进一步地，将所述运动姿态矩阵输入预先训练的Transformer模型，计算所述运动姿态矩阵相对于任一目标动作的输出概率，之后还包括：

判定所述输出概率小于预设阈值，则将窗口w向前滑动1帧。

进一步地，所述Transformer模型的模型结构包括：

所述编码模块的输入是运动姿态矩阵，其中堆叠了n个Transformer算法中的Encoder模块，每个Encoder模块中采用多头注意力机制；

所述全连接层的输入是编码模块输出的向量，全连接层使用m层线性全连接，全连接层的输出维度是动作类别的种类数；

所述Softmax层的输入是全连接层的输出向量，通过全连接层最终计算出输入编码模块的运动姿态矩阵所属动作类别的概率。

本发明还提供一种基于Transformer模型的运动实时计数系统，所述系统包括：

数据获取单元，用于通过摄像设备实时采集人体运动视频数据；

姿态向量计算单元，用于通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；

姿态矩阵生成单元，用于将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；

计数结果输出单元，用于基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明所提供的基于Transformer模型的运动实时计数方法，通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；进而将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。这样，该运动实时计数方法将视频帧序列作为输入，通过实时动作分析，并结合预先训练的Transformer模型，实现对各种体育动作的计数，可方便应用于各类体育项目，具有较好的动作识别性和技术准确性，解决了现有技术中存在的动作识别和计数准确性较差的技术问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明所提供的基于Transformer模型的运动实时计数方法一种具体实施方式的流程图之一；

图2为本发明所提供的基于Transformer模型的运动实时计数方法一种具体实施方式的流程图之二；

图3为本发明所提供的基于Transformer模型的运动实时计数方法一种具体实施方式的流程图之三；

图4为本发明所提供的Transformer模型一种具体实施方式的流程图；

图5为本发明所提供的基于Transformer模型的运动实时计数系统一种具体实施方式的结构框图；

图6为本发明所提供的电子设备的实体结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对于同一种体育动作而言，当不同的人做的动作速度过快或者过慢时，都会影响算法的计数效果。为了解决这一问题，本发明提供了一种基于Transformer模型的运动实时计数方法，利用以时间顺序排列的运动姿势矩阵和预先训练的Transformer模型，得到目标时段内较为准确的运动计数结果。

请参考图1，图1为本发明所提供的基于Transformer模型的运动实时计数方法一种具体实施方式的流程图之一。

在一种具体实施方式中，本发明所提供的基于Transformer模型的运动实时计数方法包括以下步骤：

S101：通过摄像设备实时采集人体运动视频数据。

S102：通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量。运动视频会包括很多帧图像，每一帧图像都会得到一个运动姿态向量，则运动视频会得到多个运动姿态向量。

S103：将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵。以1分钟的运动视频为例，在该运动视频中，得到了多个运动姿态向量，这些运动姿态向量分别对应运动视频中的每一帧图像，这些帧图像在运动视频中是具有时间顺序的，则每帧图像在运动视频中的时间顺序将运动姿态向量进行排列，即可得到运动姿态矩阵。

S104：基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

在一些实施例中，如图2所示，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量，具体包括以下步骤：

S201：检测所述运动视频中每一帧图像中所述目标运动者的骨骼关键点的三维坐标，以得到每一帧图像中所述目标运动者的姿态图。在实际使用场景中，通常拍摄的运动视频都是2D的视频帧图，通过3D人体骨骼关键点检测算法分析后，可以检测出每一帧图中人体的骨骼关键点的三维坐标，运动视频经过分析后，每一帧都变成了由3D人体的骨骼关键点构成的姿态图。

S202：基于所述姿态图，获取多个目标骨骼关键点，并以任意三个所述目标骨骼关键点作为一个骨骼关键点序列，以得到多个骨骼关键点序列。

人体的运动姿态可以通过不同骨骼关节点之间形成的角度来描述。一个骨骼关键点n可以通过三维坐标(x_n,y_n,z_n)来描述。假设有[w,p,q]三个骨骼关键点序列，关键点的坐标为：(x_w,y_w,z_w),(x_p,y_p,z_p),(x_q,y_q,z_q)，其中，w点和p点可以形成线段l₁，q和p可以构成线段l₂。l₁和l₂之间的夹角即为w,p,q三个骨骼关键点形成的夹角。在该实施例中，定义了用于描述人体运动姿态的骨骼关键点序列有18个：[左踝关节，左膝关节，左髋关节]，[右踝关节，右膝关节，右髋关节]，[左膝关节，左髋关节，骨盆]，[右膝关节，右髋关节，骨盆]，[左手腕，左肘关节，左肩关节]，[右手腕，右肘关节，右肩关节]，[右肘关节，右肩关节,左肩关节],[左肘关节，左肩关节,右肩关节]，[头顶、脖子、盆骨]，[右手腕，头顶，脖子]，[左手腕，头顶，脖子]，[左肘关节，头顶，脖子]，[右肘关节，头顶，脖子]，[头顶，左耳，脖子]，[头顶，右耳，脖子]，[左耳，脖子，右肩关节]，[右耳，脖子，左肩关节]，[左髋关节，骨盆，右髋关节]。

S203：计算各所述骨骼关键点序列之间的夹角，得到序列夹角，并将所有序列夹角构成运动姿态向量。

具体地，已知设定了骨骼关键点n通过三维坐标(x_n,y_n,z_n)描述，假设有[w,p,q]三个骨骼关键点序列，关键点的坐标为：(x_w,y_w,z_w),(x_p,y_p,z_p),(x_q,y_q,z_q)，其中，w点和p点可以形成线段l₁，q和p可以构成线段l₂；计算l₁和l₂之间的夹角即为w,p,q三个骨骼关键点形成的序列夹角；计算其他骨骼关键点序列的序列夹角，并得到所有的序列夹角；所有序列夹角的值构成运动姿态向量：[θ₁,θ₂,…,θ_n]。

也就是说，所有序列夹角的值可以构成一个向量，该向量可以用于描述运动姿态，称为运动姿态向量：[θ₁,θ₂,…,θ_n]。运动视频中的每一帧都对应了一个运动姿态向量，视频中全部帧的运动姿态向量按照时间顺序排列后，构成运动姿态矩阵。

在一些实施例中，如图3所示，对于实时录制的用户线上动作视频数据，算法会以窗口w从左向右滑动，构建窗口内的视频对应的运动姿态矩阵：基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果，具体包括以下步骤：

S301：将所述运动姿态矩阵输入预先训练的Transformer模型，计算所述运动姿态矩阵相对于任一目标动作的输出概率；

S302：判定所述输出概率大于或等于预设阈值，则在所述目标动作的计数上加1，并将窗口w向前滑动p帧；

S303：判定所述输出概率小于预设阈值，则将窗口w向前滑动1帧；

下面简单介绍Transformer模型的线下训练、线上检测过程，以及模型结构，通过训练基于Transformer算法的模型，从而实现精准的动作计数。

如图4所示，该Transformer模型的模型结构包括三个部分：编码模块、全连接层和Softmax层。其中，编码模块的输入是运动姿态矩阵，其中堆叠了n个Transformer算法中的Encoder模块，每个Encoder模块中采用多头注意力机制。全连接层的输入是编码模块输出的向量，全连接层使用m层线性全连接，全连接层的输出维度是动作类别的种类数。Softmax层的输入是全连接层的输出向量，通过全连接层最终计算出输入编码模块的运动姿态矩阵所属动作类别的概率。

在线下训练阶段，首先，采集需要进行实时技术的多种不同类型的体育运动的视频数据，其中，每段视频只包含一种体育运动的一次动作，例如，一段俯卧撑的视频只包含了一次俯卧撑动作。然后，对每段视频的体育运动类别进行标注。最后，计算每段视频对应的运动姿态矩阵，所有运动姿态矩阵构成训练数据，输入图2中的模型进行训练。

在线上检测阶段，首先，对于实时录制的用户线上动作视频数据，算法会以窗口w从左向右滑动，每次滑动1帧。w的长度p可以选取[l,r]区间中的一个值，其中l表示训练数据中该类动作视频帧数的最小值，r表示训练数据中该类动作视频帧数的最大值。本提案选取窗口长度p为训练数据中该类动作视频帧数的平均值。然后，计算窗口w中视频段的运动姿态矩阵。最后，将运动姿态矩阵输入图4的模型中，计算该段视频的输出概率：

如果该段视频属于某类动作的概率大于等于阈值，则该类动作的计数加1。并且窗口w向前滑动p帧。

如果该段视频属于某类动作的概率小于阈值，则窗口w向前滑动1帧。

在上述具体实施方式中，本发明所提供的基于Transformer模型的运动实时计数方法，通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；进而将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。这样，该运动实时计数方法将视频帧序列作为输入，通过实时动作分析，并结合预先训练的Transformer模型，实现对各种体育动作的计数，可方便应用于各类体育项目，具有较好的动作识别性和技术准确性，解决了现有技术中存在的动作识别和计数准确性较差的技术问题。

除了上述方法，本发明还提供一种基于Transformer模型的运动实时计数系统，如图5所示，所述系统包括：

数据获取单元501，用于通过摄像设备实时采集人体运动视频数据；

姿态向量计算单元502，用于通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；

姿态矩阵生成单元503，用于将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；

计数结果输出单元504，用于基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；

其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

在上述具体实施方式中，本发明所提供的基于Transformer模型的运动实时计数系统，通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；进而将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。这样，该运动实时计数系统将视频帧序列作为输入，通过实时动作分析，并结合预先训练的Transformer模型，实现对各种体育动作的计数，可方便应用于各类体育项目，具有较好的动作识别性和技术准确性，解决了现有技术中存在的动作识别和计数准确性较差的技术问题。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行交易请求处理方法，该方法包括：通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例提供的电子设备中的处理器610可以调用存储器630中的逻辑指令，其实施方式与本申请提供的交易请求处理方法的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的交易请求处理方法，该方法包括：通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

本申请实施例提供的计算机程序产品被执行时，实现上述交易请求处理方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的交易请求处理方法，该方法包括：通过摄像设备实时采集人体运动视频数据；通过人体检测算法检测出位于视频图像中心位置的运动者，以该运动者作为目标运动者，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量；将各帧图像得到运动姿态向量以时间顺序进行排列，得到运动姿态矩阵；基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果；其中，所述Transformer模型是基于运动姿态矩阵样本构成的训练数据集训练得到的，所述运动姿态矩阵样本是由多种类型运动的视频数据样本计算得到的，每个所述视频数据样本只包含一种目标运动样本的一次完整动作，且每个所述视频数据样本标注有运动类别；所述Transformer模型的模型结构包括编码模块、全连接层和Softmax层。

本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述交易请求处理方法，其具体的实施方式与前述方法的实施例中记载的实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于Transformer模型的运动实时计数方法，其特征在于，所述方法包括：

通过摄像设备实时采集人体运动视频数据；

2.根据权利要求1所述的运动实时计数方法，其特征在于，计算所述目标运动者在所述运动视频的各帧图像中的运动姿态向量，具体包括：

3.根据权利要求2所述的运动实时计数方法，其特征在于，计算各所述骨骼关键点序列之间的夹角，得到序列夹角，并将所有序列夹角构成运动姿态向量，具体包括：

所有序列夹角的值构成运动姿态向量：[θ₁,θ₂,…,θ_n]。

4.根据权利要求1所述的运动实时计数方法，其特征在于，基于预先训练的Transformer模型对所述运动姿态矩阵进行分析，以得到目标动作的计数结果，具体包括：

5.根据权利要求4所述的运动实时计数方法，其特征在于，将所述运动姿态矩阵输入预先训练的Transformer模型，计算所述运动姿态矩阵相对于任一目标动作的输出概率，之后还包括：

判定所述输出概率小于预设阈值，则将窗口w向前滑动1帧。

6.根据权利要求1所述的运动实时计数方法，其特征在于，

7.一种基于Transformer模型的运动实时计数系统，其特征在于，所述系统包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。