CN113743362A

CN113743362A - 基于深度学习的实时矫正训练动作的方法及其相关设备

Info

Publication number: CN113743362A
Application number: CN202111091742.6A
Authority: CN
Inventors: 孙安国
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-03

Abstract

本申请实施例属于人工智能技术领域，应用于智慧医疗领域中，涉及一种基于深度学习的实时矫正训练动作的方法及其相关设备，包括实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧；将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型；对所述动作视频进行截取操作，获得多个视频片段，并基于所述动作类型从数据库中调取对应的标准动作图片，分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果，基于所述动作对比结果生成矫正建议。动作对比结果可存储于区块链中。本申请能够实时对用户的训练动作进行更加准确的矫正。

Description

基于深度学习的实时矫正训练动作的方法及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及基于深度学习的实时矫正训练动作的方法及其相关设备。

背景技术

在康复训练领域，对于患者的康复训练有两种方式，第一种是患者前往医院康复中心进行训练，由康复训练师协助进行康复动作的训练和指导。但是，这种方式需要专业地点和专业人员进行辅导训练。第二种是患者在家中，通过观看视频的方式进行康复训练，但无法对自己的训练情况进行评估和矫正。

目前，虽然计算机已经应用于对训练动作的纠正领域中，但是，未能实现实时的纠正，对患者的动作的判断不够精准，无法进行准确的矫正，使得患者的康复训练效果不佳，用户体验度低。

发明内容

本申请实施例的目的在于提出一种基于深度学习的实时矫正训练动作的方法及其相关设备，能够实时对用户的训练动作进行更加准确的矫正。

为了解决上述技术问题，本申请实施例提供一种基于深度学习的实时矫正训练动作的方法，采用了如下所述的技术方案：

一种基于深度学习的实时矫正训练动作的方法，包括下述步骤：

实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧；

将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型；

对所述动作视频进行截取操作，获得多个视频片段，并基于所述动作类型从数据库中调取对应的标准动作图片，分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果，基于所述动作对比结果生成矫正建议。

进一步的，所述对所述动作视频进行截取操作，获得多个视频片段的步骤包括：

基于动作类型或预设时间周期对所述动作视频进行截取操作，获得多个视频片段。

进一步的，所述分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果的步骤包括：

基于与当前视频片段的视频帧对应的所有标准动作图片生成标准特征，基于当前视频片段的所有视频帧生成动作特征；

将所述标准特征和所述动作特征分别输入至预先训练的特征分析模型中，获得输出的第一目标特征和第二目标特征；

基于所述第一目标特征和所述第二目标特征生成当前视频片段的动作对比结果。

进一步的，所述基于当前视频片段的所有视频帧生成动作特征的步骤包括：

确定各所述视频帧中图像的动作角度，获得角度特征；

融合所有所述角度特征，获得所述动作特征。

进一步的，所述动作识别模型包括双向长短期记忆网络、自注意力层和归一化层，所述将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型的步骤包括：

将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵；

将所述第一特征矩阵输入至所述自注意力层中，获得输出的第二特征矩阵；

将所述第二特征矩阵输入至所述归一化层中，获得输出的所述动作类型。

进一步的，所述双向长短期记忆网络包括输入门和输出门，所述将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵的步骤包括：

基于所述输入门和所述输出门中的relu激活函数对所述关键点视频帧进行激活操作，获得所述第一特征矩阵。

进一步的，所述基于所述动作对比结果生成矫正建议的步骤包括：

确定各所述动作对比结果的结果等级和对应的动作类型，基于所述结果等级和动作类型从预设矫正库中获取对应的矫正方案，作为所述矫正建议。

为了解决上述技术问题，本申请实施例还提供一种基于深度学习的实时矫正训练动作的装置，采用了如下所述的技术方案：

一种基于深度学习的实时矫正训练动作的装置，包括：

检测模块，用于实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧；

识别模块，用于将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型；

对比模块，用于对所述动作视频进行截取操作，获得多个视频片段，并基于所述动作类型从数据库中调取对应的标准动作图片，分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果，基于所述动作对比结果生成矫正建议。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于深度学习的实时矫正训练动作的方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于深度学习的实时矫正训练动作的方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请通过实时获取用户的动作视频，并基于动作识别模型对动作视频中的关键点视频帧进行识别，提高识别的准确度，进而实时准确的识别出视频帧的动作类型。通过多动作视频进行截取和分别处理各动作视频，降低了计算机在动作对比过程中的处理负担，降低出错率，提升对比准确性，从而获得动作对比结果，根据动作对比结果能够给出矫正建议，实现对用户训练动作的实时准确的矫正。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于深度学习的实时矫正训练动作的方法的一个实施例的流程图；

图3是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；

图4是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；

图5是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；

图6是根据本申请的基于深度学习的实时矫正训练动作的装置的一个实施例的结构示意图；

图7是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于深度学习的实时矫正训练动作的装置；301、检测模块；302、识别模块；303、对比模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于深度学习的实时矫正训练动作的方法一般由服务器/终端设备执行，相应地，基于深度学习的实时矫正训练动作的装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于深度学习的实时矫正训练动作的方法的一个实施例的流程图。所述的基于深度学习的实时矫正训练动作的方法，包括以下步骤：

S1：实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧。

在本实施例中，本申请通过设备上安装的摄像头实时录取患者的康复训练动作，进而获得动作视频，计算机实时获取该动作视频，并输入至肢体识别模型中，肢体识别模型解析该动作视频的每一帧的图片。肢体识别模型为Realtime Multi-Person PoseEstimation，实时多人姿态估计模型。肢体识别模型主要是识别出人体的25个关键点位，如：眼、肩、肘、腿等。通过该肢体识别模型对视频帧进行肢体关键点检测操作，获得标注了肢体关键点位的关键点视频帧，用于后续的动作识别。具体的：该实时多人姿态估计模型的包括PAF和CMP，其中，PAF(Part Affinity Fields，部分区域亲和)，负责在图像域编码四肢位置和方向的2D矢量。CMP(Part Detection Confidence Maps)负责标记每一个关键点的置信度(即热图)。该模型通过PAF和CMP联合学习关键点位置和关键点之间的联系。

在本实施例中，基于深度学习的实时矫正训练动作的方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取动作视频。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

S2：将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型。

在本实施例中，本申请通过动作识别模型实时进行动作分析。将各视频帧依照在动作视频中的时序依次输入至动作识别模型中，动作识别模型确定出各种动作(如屈臂上举、抬腿等)对于当前视频帧的概率，将概率最大值对应的动作作为该视频帧的动作类型。

具体的，如图3所示，图3是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；具体为步骤S2的详细的步骤流程图。所述动作识别模型包括双向长短期记忆网络、自注意力层和归一化层，所述将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型的步骤包括：

S21：将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵；

S22：将所述第一特征矩阵输入至所述自注意力层中，获得输出的第二特征矩阵；

S23：将所述第二特征矩阵输入至所述归一化层中，获得输出的所述动作类型。

本实施例中，动作识别模型包括双向长短期记忆网络(Bi-directional LongShort-Term Memory，BiLSTM)、自注意力层(selfattention)和归一化层(softmax)。BiLSTM为，BiLSTM是一种时序模型，由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。所述将所述第一特征矩阵输入至自注意力层中，获得输出的第二特征矩阵的步骤包括:将第一特征矩阵进行向量转换操作，获得Q(查询，query)、K(键，key)、V(值，value)，具体的：将第一特征矩阵分别与三个预设的权重相乘，分别获得Q、K、V。计算所述QK的点积，获得点积结果；为了防止其结果过大，会除以一个尺度标度(query或者key的维度平方根)，获得调整后的结果。通过softmax归一化调整后的结果，获得概率分布，例如：softmax([2,4,4])＝[0.0,0.5,0.5]，将概率分别中的最大值乘以V(值，value)获得所述第二特征矩阵。上述过程转化成为公式表达为：

其中，T表示转置，d_k表示尺度标度。最后通过归一化层对第二特征矩阵进行归一化处理，获得动作类型。

其中，所述双向长短期记忆网络包括输入门和输出门，所述将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵的步骤包括：

在本实施例中，BiLSTM(Long Short-Term Memory)网络，LSTM是一种RNN的特殊类型，LSTM包括通过遗忘门(forget gate)、输入门(input gate)、输出门(output gate)学习长期依赖信息。原始RNN的隐藏层只有一个状态，即h，保存短期的状态，LSTM中增加了一个状态，即C(单元状态，cell state)，保存长期的状态。门实际上是一层全连接层，输入的是一个向量，输出的是0到1之间的实数向量。其中，遗忘门中的具体过程为：选择忘记过去某些信息。即决定应丢弃或保留哪些信息。将t时刻的输入X＝[x1，...，xt]与上一个隐藏层的数据ht-1进行结合，然后再用W_f矩阵其调整成与t时刻隐藏层相同的维度，然后加一个b_f偏置之后经过sigmoid函数进行0～1之间的分类。遗忘门的处理过程的公式表达为：f_t＝σ(W_f*[h_t-1，x_t]+b_f)，其中，f_t表示当前时刻遗忘门输出的信息，h_t-1表示上一时刻输入的信息，x_t表示当前时刻输入的信息，b_f表示预设的偏置项，W_f表示预设的权重矩阵，σ表示sigmoid函数。输入门是记忆现在的某些信息，并将过去与现在的记忆进行合并。输入门的处理过程的公式表达为：i_t＝σ(W_i*[h_t-1，x_t]+b_i)，其中，i_t表示当前时刻输入门输出的信息；

其中，

表示当前时刻ellstate(LSTM神经单元状态)的内容；

其中，C_t表示结合上一时刻更新ellstate(单元状态)的值。输出门为输出最终的结果。其中，输出门的公式表达为：o_t＝σ(W_o[h_t-1，x_t]+b_o)，其中，o_t表示输出门的输出结果。h_t＝o_t*relu(C_t)，其中，h_t表示结合cellstate(单元状态)的值和o_t输出当前时刻的结果，即所述第一特征矩阵。本申请中的输入门和输出门中均设置有relu函数，实现对单元状态中状态保存期限的延长。

S3：对所述动作视频进行截取操作，获得多个视频片段，并基于所述动作类型从数据库中调取对应的标准动作图片，分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果，基于所述动作对比结果生成矫正建议。

在本实施例中，基于预设的条件对视频帧进行选取，获得目标视频帧，实现对视频帧的分批处理。

具体的，所述对所述动作视频进行截取操作，获得多个视频片段的步骤包括：

在本实施例中，基于动作类型或预设时间周期对所述动作视频进行截取操作，获得多个视频片段。通过对动作视频进行截取操作，避免动作视频过长，造成模型无法有效识别动作的情况。本申请中的时间周期设定为20秒至3分钟之间的任意时长。在一个时间周期具有十个时刻时，则对应有十张视频帧。根据动作类型对动作视频进行截取操作，便于后续的对同一动作类型的视频帧的处理。

需要说明的是：上述过程均是实时进行。通过上述处理过程，最终以实时提示的方式，给出患者用于动作改善的矫正建议。

具体的，如图4所示，图4是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；具体为步骤S3的详细的步骤流程图。所述分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果的步骤包括：

S31：基于与当前视频片段的视频帧对应的所有标准动作图片生成标准特征，基于当前视频片段的所有视频帧生成动作特征；

S32：将所述标准特征和所述动作特征分别输入至预先训练的特征分析模型中，获得输出的第一目标特征和第二目标特征；

S33：基于所述第一目标特征和所述第二目标特征生成当前视频片段的动作对比结果。

在本实施例中，标准特征(X₁)和动作特征(X₂)分别输入至预先训练的特征分析模型中，特征分析模型为GCNN网络(Graph Convolutional Neural Network，图卷积神经网络)，分别获得输出的第一目标特征(G_wX₁)和第二目标特征(G_wX₂)。通过计算第一目标特征(G_wX₁)和第二目标特征(G_wX₂)之间的余弦相似度，获得动作对比结果。

其中，如图5所示，图5是根据本申请的基于深度学习的实时矫正训练动作的方法的另一个实施例的流程图；具体为步骤S31的详细的步骤流程图。

所述基于当前视频片段的所有视频帧生成动作特征的步骤包括：

S311:确定各所述视频帧中图像的动作角度，获得角度特征；

S312:融合所有所述角度特征，获得所述动作特征。

在本实施例中，获得角度特征的具体过程为：通过cos函数计算动作的角度，将角度转换为向量，获得角度向量，作为所述角度特征。融合所有的角度特征，获得动作特征的步骤包括：拼接所有的角度向量，获得动作特征。

需要说明的是，上述步骤中标准动作图片的标准特征生成过程与目标视频帧的动作特征生成过程一致，此处不再赘述。

本申请的实施例能够应用于慢阻肺康复训练场景中，慢阻肺康复训练可以拆分为一系列的动作，每一个具体的动作对应N个关键角度。如，在屈臂上举动作中，肘的角度需要在85-95度范围内，肩的最大角度需要在160-180度范围内。标注动作图片中的动作的角度为范围内的标准角度，通过上述计算过程，能够确定目标视频帧中的动作的角度与标注角度之间的差距，进而有助于对患者的训练动作进行更好的矫正。

此外，作为本申请的另一实施例，所述基于所述动作对比结果生成矫正建议的步骤包括：

在本实施例中，本申请对用户给出矫正建议，根据动作类型确定矫正库中的对应的矫正子文件夹。根据动作对比结果确定结果等级，根据结果等级匹配出矫正子文件夹中对应的矫正方案。例如：输出的结果等级为B级，则向用户发送“没有达到正确结果”的信息。矫正方案为对应该动作类型的动作需要重新做3次。实现对用户的更加准确性的适应性矫正。

本申请还包括基于当天的动作对比结果(即相似度)生成动作分值曲线图，以供用户查阅。其中，动作分值根据动作对比结果生成，例如，动作对比结果为相似度，则动作分值为相似度的倒数，或预设固定值减去相似度获得的数值。

此外，很多恢复慢的疾病的康复训练，会有多阶段的康复训练。本申请还包括内容智能推荐：获取患者当前的康复训练等级，并获取患者在当前时间点至预设的历史时间点之间的所述结果等级；确定与所述康复训练等级相关联的目标门限等级，确定所述结果等级是否超过所述目标门限等级，若所述结果等级超过所述目标门限等级，则将所述患者的康复训练等级升级至下一个康复训练等级，以进行下一阶段的康复训练。即当患者达到当前康复训练等级对应的结果等级的要求后，升级为更高等级的康复训练，以实现为患者推荐更合适的康复训练等级的内容。

在本实施例的一些可选的实现方式中，在步骤S1之前，即所述实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧的步骤之前，上述电子设备还可以执行以下步骤：

接收第一训练数据和第二训练数据；

基于所述第一训练数据和所述第二训练数据分别训练预设的肢体识别模型和预设的动作识别模型，直至损失函数收敛，获得所述肢体识别模型和所述动作识别模型，其中，所述损失函数基于如下公式计算：

其中，T表示时刻，α_t表示所述第一训练数据的标注值，

表示所述肢体识别模型的预测值，θ_t表示所述第二训练数据的标注值，

表示所述动作识别模型的预测值。

在本实施例中，

其中，L_pose为肢体识别模型的损失函数，L_action为动作识别模型的损失函数。通过损失函数的计算，实现获得训练效果更佳的模型。

需要强调的是，为进一步保证上述动作对比结果的私密和安全性，上述动作对比结果还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请可应用于智慧医疗领域中，从而推动智慧城市的建设。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图2所示方法的实现，本申请提供了一种基于深度学习的实时矫正训练动作的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的基于深度学习的实时矫正训练动作的装置300包括：检测模块301、识别模块302以及对比模块303。其中：检测模块301，用于实时获取动作视频，并对所述动作视频中的视频帧进行肢体关键点检测操作，获得关键点视频帧；识别模块302，用于将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型；对比模块303，用于对所述动作视频进行截取操作，获得多个视频片段，并基于所述动作类型从数据库中调取对应的标准动作图片，分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果，基于所述动作对比结果生成矫正建议。

在本实施例中，本申请通过实时获取用户的动作视频，并基于动作识别模型对动作视频中的关键点视频帧进行识别，提高识别的准确度，进而实时准确的识别出视频帧的动作类型。通过多动作视频进行截取和分别处理各动作视频，降低了计算机在动作对比过程中的处理负担，降低出错率，提升对比准确性，从而获得动作对比结果，根据动作对比结果能够给出矫正建议，实现对用户训练动作的实时准确的矫正。

所述动作识别模型包括双向长短期记忆网络、自注意力层和归一化层，识别模块302包括输入子模块、自注意力子模块和归一化子模块，其中，输入子模块用于将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵；自注意力子模块用于将所述第一特征矩阵输入至所述自注意力层中，获得输出的第二特征矩阵；归一化子模块用于将所述第二特征矩阵输入至所述归一化层中，获得输出的所述动作类型。

在本实施例的一些可选的实现方式中，所述双向长短期记忆网络包括输入门和输出门，上述输入子模块进一步用于：基于所述输入门和所述输出门中的relu激活函数对所述关键点视频帧进行激活操作，获得所述第一特征矩阵。

在本实施例的一些可选的实现方式中，上述对比模块303进一步用于：基于动作类型或预设时间周期对所述动作视频进行截取操作，获得多个视频片段。

对比模块303包括生成子模块、特征分析子模块和对比子模块，其中，生成子模块用于基于与当前视频片段的视频帧对应的所有标准动作图片生成标准特征，基于当前视频片段的所有视频帧生成动作特征；特征分析子模块用于将所述标准特征和所述动作特征分别输入至预先训练的特征分析模型中，获得输出的第一目标特征和第二目标特征；对比子模块用于基于所述第一目标特征和所述第二目标特征生成当前视频片段的动作对比结果。

生成子模块包括确定单元和融合单元，其中，确定单元用于确定各所述视频帧中图像的动作角度，获得角度特征；融合单元用于融合所有所述角度特征，获得所述动作特征。

在本实施例的一些可选的实现方式中，上述对比模块303还用于确定各所述动作对比结果的结果等级和对应的动作类型，基于所述结果等级和动作类型从预设矫正库中获取对应的矫正方案，作为所述矫正建议。

在本实施例的一些可选的实现方式中，上述装置300还包括：接收模块和训练模块，其中，接收模块用于接收第一训练数据和第二训练数据，训练模块用于基于所述第一训练数据和所述第二训练数据分别训练预设的肢体识别模型和预设的动作识别模型，直至损失函数收敛，获得所述预先训练的肢体识别模块和所述预先训练的动作识别模型，其中，所述损失函数基于如下公式计算：

其中，T表示时刻，α_t表示所述第一训练数据的标注值，

表示所述动作识别模型的预测值。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field--Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件，例如基于深度学习的实时矫正训练动作的方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于深度学习的实时矫正训练动作的方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，实时获取用户的动作视频，并基于动作识别模型对动作视频中的各视频帧进行识别，提高识别的准确度，根据动作对比结果能够给出矫正建议，实现对用户训练动作的实时准确的矫正。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于深度学习的实时矫正训练动作的方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于深度学习的实时矫正训练动作的方法，其特征在于，包括下述步骤：

2.根据权利要求1所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述对所述动作视频进行截取操作，获得多个视频片段的步骤包括：

3.根据权利要求1所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述分别将各视频片段的视频帧与对应的所述标准动作图片进行动作对比，获得多个动作对比结果的步骤包括：

4.根据权利要求3所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述基于当前视频片段的所有视频帧生成动作特征的步骤包括：

确定各所述视频帧中图像的动作角度，获得角度特征；

融合所有所述角度特征，获得所述动作特征。

5.根据权利要求1所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述动作识别模型包括双向长短期记忆网络、自注意力层和归一化层，所述将所述关键点视频帧依据时序输入至预先训练的动作识别模型中，获得所述视频帧的动作类型的步骤包括：

6.根据权利要求5所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述双向长短期记忆网络包括输入门和输出门，所述将所述关键点视频帧输入至所述双向长短期记忆网络中，获得输出的第一特征矩阵的步骤包括：

7.根据权利要求1所述的基于深度学习的实时矫正训练动作的方法，其特征在于，所述基于所述动作对比结果生成矫正建议的步骤包括：

8.一种基于深度学习的实时矫正训练动作的装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于深度学习的实时矫正训练动作的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的实时矫正训练动作的方法的步骤。