CN117137435A

CN117137435A - 一种基于多模态信息融合的康复动作识别方法和系统

Info

Publication number: CN117137435A
Application number: CN202310904796.2A
Authority: CN
Inventors: 李建伟; 薛珺; 胡海晴; 李金阳; 莫思宇; 张开宇; 沈燕飞; 许寿生
Original assignee: Beijing Sport University
Current assignee: Beijing Sport University
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-12-01

Abstract

本发明涉及康复训练技术领域，尤其涉及一种基于多模态信息融合的康复动作识别方法和系统，方法包括：在用户进行康复训练时，利用IMU采集设备，按照第一采集频率连续采集用户身体的17个人体关键关节点的位置数据，并利用RGB‑D相机，按照第二采集频率，连续采集用户的多个动作图像数据；利用多模态数据对齐算法，将数据进行时空对齐，得到时空对齐后的多模态数据；基于时空对齐后的多模态数据，利用轻量级模态筛选决策网络的动作识别算法，对用户的康复动作进行识别，将通过IMU采集的数据与通过RGB‑D相机采集的数据进行时空对齐，为后续的康复动作识别与康复动作的质量评估提供了可靠的标准和基础数据。

Description

一种基于多模态信息融合的康复动作识别方法和系统

技术领域

本发明涉及康复训练技术领域，尤其涉及一种基于多模态信息融合的康复动作识别方法和系统。

背景技术

人体动作分析工作主要包含动作识别和动作评估两个环节。人体动作识别旨在识别该动作是什么，包括动作检测和动作分类。动作质量评估旨在自动量化动作执行的好坏或对其表现进行评分，往往需要在动作识别的基础上进行，通过专家知识对专业领域动作的规范性、流畅性进行判断，为改善运动表现提供可解释的量化依据。

人体动作分析技术这一研究领域目前受到研究者们广泛关注，如身体康复、自我学习平台上的技能训练和体育活动评分等。大量研究证明，不同模态数据之间具有异构互补信息，多模态机器学习(Multi-Modal Machine Learning，MMML)旨在构建可以处理来自多种模态信息的模型。为满足人体动作识别在实际应用场景中的要求提高人体动作识别效率，可以通过对两种或两种以上的不同传感器模式进行融合，以达到提升算法性能的目的。

在康复训练领域中，通过使用Kinect对人体关节部位的数据进行采集、分析与评价，并把采集到的相关数据有效地反馈到康复训练中，能够地对病人的康复训练进行有效的指导。但是在数据采集和分析过程中有两个关键性问题有待解决：

1)部分训练运动会有关节遮挡现象发生，相机无法采集到被遮挡关节部位的深度数据。

2)在康复训练的运动评价过程中，不同患者运动过程的数据长度基本上都不相同，为制定评价标准带来困难。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了一种基于多模态信息融合的康复动作识别方法和系统。

本发明的一种基于多模态信息融合的康复动作识别方法的技术方案如下：

在用户进行康复训练时，利用IMU采集设备，按照第一采集频率连续采集用户身体的17个人体关键关节点的位置数据，并利用RGB-D相机，按照第二采集频率，连续采集用户的多个动作图像数据；

利用多模态数据对齐算法，将通过所述IMU采集设备采集的数据与通过所述RGB-D相机采集的数据进行时空对齐，得到时空对齐后的多模态数据；

基于所述时空对齐后的多模态数据，利用轻量级模态筛选决策网络的动作识别算法，对所述用户的康复动作进行识别。

本发明的一种基于多模态信息融合的康复动作识别系统的技术方案如下：

包括数据采集模块、时空对齐模块和识别模块；

所述数据采集模块用于：在用户进行康复训练时，利用IMU采集设备，按照第一采集频率连续采集用户身体的17个人体关键关节点的位置数据，并利用RGB-D相机，按照第二采集频率，连续采集用户的多个动作图像数据；

所述时空对齐模块用于：利用多模态数据对齐算法，将通过IMU采集设备采集的数据与通过RGB-D相机采集的数据进行时空对齐，得到时空对齐后的多模态数据；

所述识别模块用于：基于所述时空对齐后的多模态数据，利用轻量级模态筛选决策网络的动作识别算法，对所述用户的康复动作进行识别。

本发明的一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行上述任一项所述的一种基于多模态信息融合的康复动作识别方法。

本发明的一种电子设备，包括处理器和上述的存储介质，所述处理器执行所述存储介质中的指令。

本发明的有益效果如下：

将通过IMU采集设备采集的数据与通过RGB-D相机采集的数据进行时空对齐，能够获得更完整、准确的康复动作信息即时空对齐后的多模态数据，提高了数据的质量和可用性，为后续的康复动作识别与康复动作的质量评估提供了可靠的标准和基础数据。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例的一种基于多模态信息融合的康复动作识别方法的流程示意图之一；

图2为动作识别算法的流程示意图；

图3为多模态动作质量评估算法的流程示意图；

图4为本发明实施例的一种基于多模态信息融合的康复动作识别方法的流程示意图之二；

图5为多模态数据切分归一化的流程示意图；

图6为动作识别的流程示意图；

图7为动作质量评估的流程示意图；

图8为动作评估案例DTW距离计算可视化对比的示意图之一；

图9为动作评估案例DTW距离计算可视化对比的示意图之二；

图10为动作评估案例DTW距离计算可视化对比的示意图之三；

图11为本发明实施例的一种基于多模态信息融合的康复动作识别系统的结构示意图。

具体实施方式

如图1所示，本发明实施例的一种基于多模态信息融合的康复动作识别方法，包括如下步骤：

S1、在用户进行康复训练时，利用IMU采集设备，按照第一采集频率连续采集用户身体的17个人体关键关节点的位置数据，并利用RGB-D相机，按照第二采集频率，连续采集用户的多个动作图像数据；

在执行S1之前，还包括：

对使用的RGB-D相机进行标定，以获取RGB-D相机的内外参数，并对IMU采集设备进行硬件校准，确保采集到的数据的准确性和可靠性。

S2、利用多模态数据对齐算法，将通过IMU采集设备采集的数据与通过RGB-D相机采集的数据进行时空对齐，得到时空对齐后的多模态数据。

其中，多模态数据对齐算法具体包括：

S21、将每个相同时刻获取的用户身体的17个人体关键关节点的位置数据和动作图像数据进行关联配对，实现用户身体的17个人体关键关节点的位置数据和动作图像数据的时间同步，例如，第一采集频率为每秒采集一次，第二采集频率为每秒采集两次，IMU采集设备和RGB-D相机在同一时刻开始采集，则第一次采集的用户身体的17个人体关键关节点的位置数据与第一次采集的动作图像数据关联配对，第二次采集的用户身体的17个人体关键关节点的位置数据与第三次采集的动作图像数据关联配对，第三次采集的用户身体的17个人体关键关节点的位置数据与第五次采集的动作图像数据关联配对，由此实现用户身体的17个人体关键关节点的位置数据和动作图像数据的时间同步。

在进行时间同步后的用户身体的17个人体关键关节点的位置数据和动作图像数据的基础上，再通过空间坐标系转换和插值融合实现用户身体的17个人体关键关节点的位置数据和动作图像数据的空间对齐；

其中，空间对齐需要将Kinect相机坐标系下的空间位置数据转换为IMU身体坐标系下BVH格式的空间位置数据，具体步骤如下：

S210、通过T-pose矫正程序，获取标准T-pose状态下Kinect相机坐标系全身关节点的空间位置数据。根据标准T-pose状态下Kinect相机坐标系的根节点坐标与IMU身体坐标系的根节点坐标，求解两坐标系根节点的平移和旋转关系具体见第二公式和第三公式，获得Kinect相机坐标系空间位置数据的BVH格式的根节点坐标信息。具体地：

1)平移关系Trans可通过计算根节点坐标J_root之间的差异来确定，如第二公式所示，tar表示在目标BVH坐标系下，src表示在RGB-D相机坐标系下。第二公式为：

2)对于给定的两个骨架截面上的向量V₁和V₂，V₁是右髋关节到下脊柱关节点的向量，V₂是右髋关节到左髋关节的向量。可以推导出旋转关系Rot，即第三公式，第三公式为：

S211、利用最小化Kinect相机坐标系下的局部关节点坐标与IMU身体坐标系局部关节点坐标之间的距离损失函数即第四公式，求解两坐标系局部关节点的旋转平移关系，获得Kinect相机坐标系空间位置数据的BVH格式的局部关节点信息。具体地：

执行S210后，骨架便移动至标准的BVH坐标系下，然后，可以考虑使用矫正程序进行手动调整，输出调整后T-pose的关节点坐标。T-pose后，针对每帧骨架位置信息，通过下面方法求局部关节点旋转平移关系。利用第四公式最小化T-pose骨骼模板关节点坐标与实际关节点坐标之间距离损失，第四公式为：

其中，J_est为骨骼模板关节位置，J_gt为RGB-D相机骨架位置，J_est由关节树累乘获取，即通过第五公式获得，第五公式为：

求出RGB-D相机的BVH信息后，可以通过插值方法融合两种设备骨架，将IMU传感器数据的三维姿态与Kinect相机捕捉到的RGB-D数据进行匹配，确保通过IMU采集设备采集的数据与通过RGB-D相机采集的数据在空间上保持一致，简言之，求出Kinect相机坐标系空间位置数据的根关节点和局部关节点BVH格式信息后，即可统一两坐标系空间位置数据的格式。

S212、利用球面线性插值(SLERP)方法第六公式融合Kinect和IMU BVH格式的空间位置数据，得到对齐后的空间位置数据，第六公式为：R_fusion＝SLERP{(R_dep,R_imu)}。

S22、对进行时间同步以及进行空间对齐后的用户身体的17个人体关键关节点的位置数据和动作图像数据进行归一化处理，获得时间序列长度一致的康复动作数据即时空对齐后的多模态数据。骨架数据归一化过程与RGB-D数据归一化过程操作一致，以RGB数据为例，具体步骤如下：

首先，去除时空对齐后的RGB-D数据每个动作开始前和完成后的冗余部分，然后，将去冗余后的RGB-D数据全部分割成1秒长度的片段，最后，将相同动作的时间片段重新组合成长度为T的序列，从而获得时间序列长度一致的RGB-D康复动作数据，在本发明中，T设置为8秒，也可根据实际情况设置。

时空对齐后的多模态数据包括：相同的坐标原点、采集时刻和片段时间长度的康复动作图像序列数据和三维人体骨架数据。

S3、基于时空对齐后的多模态数据，利用基于轻量级模态筛选决策网络的动作识别算法，对用户的康复动作进行识别。

其中，如图2所示，轻量级模态筛选决策网络的动作识别算法具体包括：

S30、利用S1和S2的方法，得到多条时空对齐后的历史多模态数据；

将每条时空对齐后的历史多模态数据输入第一预设深度学习模型，第一预设深度学习模型用于：从每条时空对齐后的历史多模态数据中，筛选出参与后续训练的数据，参与后续训练的数据为相同的坐标原点、采集时刻和片段时间长度的康复动作图像序列数据，和/或，相同的坐标原点、采集时刻和片段时间长度的三维人体骨架数据。

1)当采集三维人体骨架数据时，由于IMU传感器磁信号较差导致数据不准确，导致人体骨架置信度较低时，单独采用康复动作图像序列数据；

2)当出动作RGB图像由于人体运动速度过快出现被采集对象模糊不清，或由于相机CMOS长时间使用导致单帧图像部分异色等问题时，当采用三维人体骨架数据；

3)当三维人体骨架数据和动作RGB图像均采集正常，数据质量良好，同时采用康复动作图像序列数据和三维人体骨架数据；

标记每个筛选出的康复动作图像序列数据和三维人体骨架数据对应的康复动作识别结果，康复动作识别结果包括：康复动作的类别信息。

基于所有筛选出的康复动作图像序列数据以及每个筛选出的康复动作图像序列数据对应的康复动作识别结果，对第二预设深度学习模型进行训练。

基于所有筛选出的三维人体骨架数据以及每个筛选出的三维人体骨架数据对应的康复动作识别结果，对第三预设深度学习模型进行训练。

将第二预设深度学习模型输出的康复动作识别结果和第三预设深度学习模型输出的康复动作识别结果进行融合，得到最终的康复动作识别结果。

融合过程：根据模态筛选过程中，根据RGB图像模态和三维人体骨架模态的选择使用率，决定识别结果融合中的优势模态，如RGB图像经筛选后保留45.6％，三维人体骨架数据经筛选后保留73.2％，则三维人体骨架数据为识别任务中的优势模态，结果融合过程使用加权平均法，模态的选择使用率为加权值。

基于多条时空对齐后的历史多模态数据对第一预设深度学习模型、第二预设深度学习模型和第三预设深度学习模型进行训练，得到训练好的第一预设深度学习模型、训练好的第二预设深度学习模型和训练好的第三预设深度学习模型。

其中，第一预设深度学习模型为长短期记忆网络LSTM，也可根据实际情况采用其它的深度学习模型，第二预设深度学习模型为MobileNetV2或长短期记忆网络，也可根据实际情况采用其它的深度学习模型，第三预设深度学习模型为MobileNetV2或长短期记忆网络，也可根据实际情况采用其它的深度学习模型。

S31、基于时空对齐后的多模态数据，利用训练好的第一预设深度学习模型、第二预设深度学习模型和第三预设深度学习模型，得到并将训练好的第二预设深度学习模型输出的康复动作识别结果以及训练好的第三预设深度学习模型输出的康复动作识别结果进行融合，得到用户的康复动作识别结果。

S4、基于用户的康复动作识别结果，利用多模态动作质量评估算法，对所做的每个康复动作的质量进行评价，得到质量评价结果。

如图3所示，多模态动作质量评估算法具体包括：

S40、根据康复专家的领域知识，确定用户的康复动作识别结果即识别出的康复动作在康复动作评估中的重要关节点。利用时空对齐后的多模态数据，计算每个重要关节点关联的运动学参数，例如，患者在完成踝泵动作时，身体呈仰卧位，主要运动关节为双侧的踝关节，在动作评估时我们主要关注的就是踝关节的运动数据。在确认评估的主要关节点后，基于关节点对齐后的每个时刻的三维坐标，计算该关节的旋转角度、移动距离、速度和加速度变化率。具体地：

1)使用余弦定理计算主要运动关节的旋转角度，Coor_A，Coor_B，Coor_C分别为构成该关节角度的三个点坐标，该关节两端的运动环节空间向量分别表示为(Coor_A-Coor_B)和(Coor_B-Coor_C)，具体计算方式见第十公式，第十公式为：

2)骨骼关键点的移动距离可以根据其在空间中的坐标变化进行计算，本发明中采用运动前后关键点的欧式距离进行距离计算，具体利用第十一公式计算，第十一公式中(x₁,y₁,z₁)和(x₂,y₂,z₂)分别为开始时刻T₁和结束时刻T₂骨骼关键点的三维坐标，第十一公式为：

还可利用第第十二公式计算该点的平均移动速度v_mean，第十二公式为：

3)加速度的变化率被称为力变率或急动度(Jerk)，具体利用第十三公式计算，加速度的变化率是评估动作流畅度的常用指标，当加速度曲线平滑时，意味着动作过程中没有频繁的抽搐或中断行为，该动作具有较高的流畅性，第十三公式为：

S41、为消除用户的康复动作图像序列数据和三维人体骨架数据，与标准模板中的康复动作图像序列数据和三维人体骨架数据，在时序上的差异，利用动态时间规划(DTW)比较用户的三维人体骨架数据，与标准模板中的三维人体骨架数据之间的相似度，由于用户的康复动作图像序列数据和三维人体骨架数据在时间上对齐的，且标准模板中的康复动作图像序列数据和三维人体骨架数据在时间上也是对齐的，因此，也可利用动态时间规划(DTW)比较用户的康复动作图像序列数据，与标准模板中的康复动作图像序列数据之间的相似度，根据得到的相似获得动作完成度、动作流畅度、动作准确性和动作对称性四个维度的评估结果。例如，患者在完成踝泵动作时，先计算得到踝关节的旋转角度、移动距离、速度和加速度变化率，再利用DTW，比较患者和健康人群的关节移动距离相似度获得动作完成度的评估结果，比较患者和健康人群的关节加速度变化率相似度获得动作流畅度的评估结果，比较患者和健康人群间关节的旋转角度相似度获得动作完成度的评估结果，比较患者自身健侧患侧的关节旋转角度相似度获得动作对称性的评估结果。

S42、结合康复专家的意见，对四个维度的评估结果进行加权，得到整体动作质量评估结果。

综合考虑康复专家的专业意见和客观分析结果，通过权重分配或特定规则进行决策，得到最终更准确、全面的动作质量评估结果。最终计算公式为第十五公式，第十五公式为：

Score＝∑s_i*w_i*100

其中，s_i为该类指标相似度或达标率，w_ni为第i个指标的权重，Score表示得分，得分越高，动作越标准，得分越低，动作越不标准，当得分小于预设得分阈值时，向用户发出提醒。

本发明的一种基于多模态信息融合的康复动作识别方法，具体提出了多模态数据对齐算法、基于多模态信息的动作识别算法、以及多模态动作质量评估算法，并将其应用智能化康复训练系统中，具体如下：

1)多模态信息对齐算法：

旨在利用多模态数据对数据采集过程中存在的关节遮挡问题进行弥补。该算法结合Kinect相机和惯性测量单元(IMU)的数据，通过基于时间戳的同步录制程序，实现了IMU传感器和Kinect相机数据的时间同步，又通过空间坐标系对齐实现了空间上的融合，最后将RGB数据和IMU数据进行对应关联，获得更完整、准确的康复动作信息，提高了数据的质量和可用性。本发明的贡献在于提供了一个包含多模态数据的康复动作数据集，为后续的康复动作识别与质量评估的研究提供了可靠的标准和基础数据。

2)多模态信息的动作识别算法：

提出一种包含了一个轻量级的决策网络和一个识别网络的基于多模态信息的动作识别算法，其中策略网络由特征提取器MobileNetV2和长短期记忆网络构成，其作用是对视频序列的每个模态片段计算二进制策略向量，用来判断是否保留当前模态的数据进行后续的识别。识别网络由多个子网络构成，分别对上一步选取得到的多模态数据进行特征提取和后融合得到识别结果。整体网络联合训练，在测试阶段首先将归一化的多模态视频片段送入策略网络，其输出决定用于给定片段的正确模态，然后将选择保留的模态输入到的不同模态相应的识别网络子网络中以生成片段级预测，其中RGB模态子网络为ResNet-50，IMU骨架子网络为GCN。最后，基于可学习权重网络将所有片段级预测平均作为视频最终识别结果。这样做的优点是，轻量级模态筛选网络增加了多模态动作识别算法的可解释性，同时大大降低了算法所需计算量。

3)康复动作质量评估算法：

通过多个评价指标对康复动作的质量进行综合评估。该算法结合了康复领域的专业知识和经验设计了动作质量评价指标，对康复动作的完成度、流畅度、准确性和对称性等四个维度进行综合评价，该算法采用了基于模板的方法，将健康人群的正常动作范围、平均指标水平以及与患者健侧的对比数据作为评价模板，与输入动作进行比较和相似度计算，从而提供客观可量化的数据支持。此外，康复专家的动作质量标注结果也被纳入评价体系中，以综合考虑主观和客观的评价因素。最后采用权重分配或特定规则进行决策，得到加权后的动作质量评估结果。该算法在动作评估阶段的创新点在于综合了主客观评价的结果，实现了对动作质量评价的高度平衡，提高了评估的准确性和可靠性。

本发明的智能化康复动作训练系统的工作流程如图6所示，包括四个阶段：首先进行康复动作数据采集与预处理，对多模态数据进行时空对齐处理，得到对应的康复动作RGB图像及骨架序列数据；然后以此为输入基于多模态数据进行康复动作识别，最后在识别结果基础上完成动作质量评估，具体如下：

1)数据采集及数据处理阶段：

数据采集及数据处理阶段技术方案如图5所示，具体流程如下：

①相机标定：在每次康复动作拍摄之前都要进行相机校准。在每次校准中，都拍摄100张左右棋盘式图像，棋盘上的网格为9×12，每个网格的实际边长为10cm。通过Kinectazure SDK得到每个相机的内参数矩阵，主机位和侧机位两个相机之间的几何关系由Matlab立体相机校准工具计算，相机立体标定的平均重投影误差为2.81像素。

②系统校准：该阶段包括相机对准、硬件校准和系统校正3个步骤，具体地：

a)相机对准：确保每次采集数据主机位和侧机位的相机高度和夹角相同，并调整它们的焦距和视野范围，以便能够准确捕捉到康复动作的细节。

b)硬件校准：引导受试者完成IMU校准动作，进行传感器设备校准，以确保测量结果的可靠性。

c)系统校正基于Point Grey工业相机SDK提供的设备同步触发功能，编写数据同步录制程序，并记录时间戳信息，实现IMU传感器和Kinect相机数据的时间同步。两种设备时间戳主要区别在于起始时间不同。Kinect相机起始时间为每次录制开始时间点。IMU则是以MocapApi应用程序启动时刻(即同步软件与Axis Studio软件连接成功时)作为起始时间戳。因此，为了统一两种设备的时间戳格式，对每一帧执行以下操作，即执行第一公式，第一公式为：Time＝cur_time-ini_time，其中处理后的时间戳为Time，cur_time为每一帧的时间戳(包含第一帧)，ini_time为第一帧时间戳。然后，对时间戳统一向下保留两位小数。

为实现两设备空间对齐，需要将Kinect相机坐标系转化为IMU的BVH格式的身体坐标系。由于IMU的BVH局部关节旋转平移都是基于T-pose进行描述构建，所以首先需要经过T-pose矫正程序调整获取Kinect的标准T-pose关节点位置。

平移关系Trans可通过计算根节点坐标J_root之间的差异来确定，具体利用第二公式计算，tar表示在目标BVH坐标系下，src表示在RGB-D相机坐标系下，第二公式为：对于给定的两个骨架截面上的向量V₁和V₂，V₁是右髋关节到下脊柱关节点的向量，V₂是右髋关节到左髋关节的向量。可以推导出旋转关系Rot，具体为第三公式，第三公式为：

执行上述操作后，骨架便移动至标准的BVH坐标系下。然后，可以考虑使用矫正程序进行手动调整，输出调整后T-pose的关节点坐标。T-pose后，针对每帧骨架位置信息，通过下面方法求局部关节点旋转平移关系。利用第四公式，最小化T-pose骨骼模板关节点坐标与实际关节点坐标之间距离损失，第四公式为：

其中，J_est为骨骼模板关节位置，J_gt为RGB-D相机骨架位置，J_est由关节树累乘获取，具体通过第五公式计算得到，第五公式为：

求出RGB-D相机的BVH信息后，可以通过插值方法即第六公式融合两种设备骨架，将IMU传感器数据的三维姿态与Kinect相机捕捉到的RGB-D数据进行匹配，确保IMU和Kinect数据在空间上保持一致，第六公式为：

R_fusion＝SLERP{(R_dep,R_imu)+

③数据切分与标注：数据切分共包含三个步骤，包含采样间隔归一化、片段时间归一化和序列长度归一化。首先，对IMU传感器进行降采样处理，以30Hz作为统一的帧提取频率，保留时间戳一致的帧作为同步帧，实现采样间隔归一化。然后，将对齐后的RGB-D数据和IMU数据进行切分，去除动作准备和完成前后冗余部分，同时进行动作片段时间归一化处理，将数据全部分割成1秒长度的片段，并按照相同存储结构保存。由于每个动作的序列都有不同的长度，这不利于时间动态的模型学习。因此，将所有序列调整到特定长度的T(在我们的实验中T设置为8s)。此外，本发明对接康复及相关领域专家，对每个康复动作序列的动作完成质量进行人工标注，为后续的动作质量评估提供可靠的标准。

④数据集构建：将切分和标注后的数据片段组合成康复动作数据集，对康复动作数据进行数据标注和分层存储。每个动作分别储存其主机位和侧机位姿态数据，在每个动作片段对应的每个子姿态文件夹中分别包含彩色图、深度图和骨架数据文件。每条康复动作标签将包含其类别信息以及专家给出的质量评分，作为训练和评估康复动作识别与质量评估方法的基础，为后续的算法设计和实验提供数据支持。

2)动作识别阶段：

动作识别阶段的技术方案如图4所示，主要包括以下四个步骤：

①构建RGB数据和IMU数据的对应组织结构，其特征在于可以输入一个基于轻量级模态筛选决策网络。

②模态筛选，使用轻量级特征提取器MobileNetV2和长短期记忆网络构成模态筛选决策网络，用来判断是否保留当前模态的数据进行后续的识别。该策略网络包含一个轻量级的联合特征提取器和一个LSTM模块。对策略网络中的所有模态使用MobileNetV2来提取特征，然后应用两个维度为2,048的额外全连接层来连接所有模式的特征作为联合特征。在LSTM输出之上使用K个并行全连接层来生成每个模态的二进制决策策略。具体来说，给定一个视频V时长为T，其中包含片段{s₁,s₂,…,s_T+的序列，在第t(t≤T)个时刻，LSTM接收当前视频段s_t的联合特征f_t，之前的隐藏状态h_t-1以及单元输出o_t-1来计算当前隐藏状态h_t和单元状态o_t，具体利用第七公式计算，第七公式为：h_t,o_t＝LSTM(f_t,h_t-1,o_t-1)。

对于给定隐藏状态，策略网络估计每个模态的策略分布，并采样二进制决策参数u_t，k，指示是否通过Gumbel-Softmax操作在t(U＝{u_t,k+_t≤T,k≤K)时刻选择模态。根据这些决策，我们将当前段转发到相应的子网络，以得到分段级预测，并对所有段级预测进行平均，以生成输入视频的视频级预测。

该网络决定是否跳过或使用每个输入片段的每个模态。然而这决策是离散的，使得网络不可微，因此很难通过标准的反向传播进行优化。解决这一问题的一种方法是将优化问题转化为强化学习问题，这里本方法采用Gumbel-Softmax采样来解决这种不可微性，并能够有效地直接优化离散策略。Gumbel-Softmax是一种简单而有效的方法，用可微样本代替离散分布的原始可微样本。具体来说，在每个时刻t，我们首先通过每个模态全连接层的隐藏状态h_t生成日志z_k，然后使用Gumbel-Max方法即第八公式从分类分布中抽取离散样本，第八公式为：

其中，G_i,k＝-log(-logU_i,k)标准的Gumbel分布，U_i,k从一个均匀的i.i.d分布中采样。由于方程(2)中argmax操作的不可微性，使用Gumbel-Softmax分布作为对argmax的连续松弛。因此，从Gumbel-Softmax分布中采样允许从离散的样本反向传播到策略网络。

③动作识别，识别网络由多个子网络构成，其中RGB模态子网络为ResNet-50，IMU骨架子网络为GCN，分别对上一步选取得到的多模态数据进行特征提取，以生成片段级预测。其中Resnet-50共有四组大block，每组分别是3,4,6,3个小block，每个小block里面有3个卷积，该网络的在最开始有一个单独的卷积层最后又一个全连接层，因而一共50层。GCN网络使用基于2s-AGCN的模型，我们根据人体骨架链接规律构建骨架信息无向图，使用一个时空图来模拟这些关节之间沿时空维度的结构化信息。模型输入有两个流，对于关节流，我们使用一个时空图来模拟沿着这些关节的时空维度上它们之间的结构化信息。图的结构不仅包含关节点坐标，还包含相邻关键点之间的空间约束。对于骨骼流，输入数据是骨架的长度和方向。我们将骨盆的中点设置为中心点，靠近中心点的关节作为父关节，远离中心点的关节作为子关节。因此关节是关键点，骨头是从一点到另一点的矢量，矢量的长度为骨头的长度，矢量的方向为骨头的方向。

④识别结果决策级融合，基于可学习参数权重网络将所有片段级预测取平均作为视频最终识别结果。

表示框架中的总可训练参数，其中θ_Φ，θ_LSTM表示在策略网络中分别使用的特征提取器和LSTM关节的参数。/>表示从LSTM隐藏状态生成策略日志的全连接层的参数，/>表示联合识别网络的K个子网络的参数。在训练过程中利用第九公式最小化以下损失，以得到正确的预测，同时也最小化需要更多计算的模式的选择，第九公式为：

其中，和y表示训练视频样本的预测和真实标签，λ_k表示与处理第k个模态相关的计算成本。U_K代表第k个模态的决策策略，当产生正确的预测时，/>测量在总视频片段中选择模态k的片段的比例。使用以上参数来改变模型，允许根据目标预算约束来训练不同的模型。第九公式的第一部分代表标准交叉熵损失用来衡量动作识别结果的质量，第九公式的第二部分驱动网络学习策略，选择更高效的模态完成识别。

3)动作评估阶段：

动作评估阶段的技术方案如图7所示，主要包括以下5个步骤：

①获取动作ID：从动作识别阶段获得的结果中提取动作ID、数据和标签，作为评估的输入。

②判断主要运动关节点：结合康复领域专家的知识和经验，对识别出的动作进行分析，确定该动作的主要运动环节和关键关节点以及主要运动方向。

③计算动作学参数：在本发明中，为了评估康复动作的质量，我们利用预处理归一化后的数据计算了关节角度和移动距离，并通过动作完成时间，进一步计算速度、加速度、加速度变化率(力变率)等二级指标，用于评估动作的完成度、流畅度、准确性和对称性等评价维度。以下是各指标对应指标及其计算方法：

使用余弦定理计算主要运动关节的旋转角度，Coor_A，Coor_B，Coor_C分别为构成该关节角度的三个点坐标，该关节两端的运动环节空间向量分别表示为(Coor_A-Coor_B)和(Coor_B-Coor_C)，具体计算方式见第十公式，第十公式为：

骨骼关键点的移动距离可以根据其在空间中的坐标变化进行计算，本发明中采用运动前后关键点的欧式距离进行距离计算，具体利用第十一公式计算，第十一公式中(x₁,y₁,z₁)和(x₂,y₂,z₂)分别为开始时刻T₁和结束时刻T₂骨骼关键点的三维坐标。v_mean表示该点的平均移动速度。利用第十二公式计算，第十一公式为：

第十二公式为：

加速度的变化率被称为力变率或急动度(Jerk)，具体利用第十三公式计算。它是评估动作流畅度的常用指标，当加速度曲线平滑时，意味着动作过程中没有频繁的抽搐或中断行为，该动作具有较高的流畅性，第十三公式为：

④选择评价模板，计算DTW距离：模板包括普通健康人群的正常动作范围、均值水平、患者健侧以及专家标签。动态时间规划(Dynamic Time Warping，DTW)是一种用于比较两个时间序列之间的相似性的算法。它在时间序列分析、模式识别和语音识别等领域有广泛的应用。该算法的核心思想是通过在两个序列之间找到最佳的匹配，来测量它们的相似度。在这个过程中，允许序列中的元素进行拉伸或压缩，以便更好地匹配另一个序列。DTW算法通过计算两个序列之间的距离或相似度矩阵，并使用动态规划的方法找到最佳的匹配路径。设有两列长度为m和n的序列：记x_m和y_n间的距离为d(x_m，y_n)，简写为d(m，n)，1≤m≤M，1≤n≤N。为了确保求得的路径A是一条全局最优规整路径，有约束条件包括：路径必须起点(1，1)到终点(M，N)；路径保持时间顺序单调不减；m和n只能依次增加0或者1。根据约束条件，DTW距离的递归公式如第十四公式所示，第十四公式为：

D(M,N)＝Dist(M,N)+min[D(M-1,N),D(M,N-1),D(M-1,N-1)]

在进行计算之前，选择适当的模板是至关重要的。针对4个评价维度，分别对应不同的模板进行结果比较。动作完成度以关节旋转角度和移动距离为关键指标，以专家建议或普通人群均值水平作为标准的关节活动范围，计算患者对应关节活动度在标准范围区间中所占的比例，得到相应康复动作的达标率。动作对称性则选择患者健侧作为标准，进行自身对照，比较两侧关节活动度和轨迹的相似性，以得到肢体两侧功能对称性的评估结果。目前，运动康复领域还没有明确的标准来评估动作的流畅度，故该项指标选取正常受试者均值水平作为参照，计算两者相似度来进行评估。动作准确性是也同样时评估工作中的重难点，对执行者和评估者都带来很大的挑战。在本专利中，将利用康复专家对动作质量的标注作为输出结果进行学习，采用端到端的神经网络，实现对较为复杂的动作准确性评价。此外，本方法还将主要活动关节和邻近关节的运动幅度、范围以及运动发生时间进行比较，作为动作准确性评估的补充。

⑤获得最终加权结果：综合考虑康复专家的专业意见和客观分析结果，通过权重分配或特定规则进行决策，得到最终更准确、全面的动作质量评估结果。最终由第十五公式计算，第十五公式为：

Score＝∑s_i*w_i*100

在另外一个实施例中，本发明提出了一种基于计算机视觉的康复动作分析方法，并在此方法基础上设计了一套智能化康复动作训练系统。该方法能实现康复动作数据集构建、康复动作识别以及动作质量评估三个功能。

本发明的动作分析系统分为康复动作数据采集与预处理、多模态数据进行归一化处理、基于多模态数据进行康复动作识别以及多模态动作质量评估四个阶段。整个构成图如图4所示。数据采集及数据处理阶段的工作流程如图4所示，多模态数据进行归一化处理工作流程如图5所示，基于多模态数据动作识别工作流程如图6所示，动作评估阶段的工作流程如图7所示。以下将分别针对四个阶段进行介绍。

如图4所示，康复动作分析系统架构过程如下：

主要包括四个阶段：首先进行康复动作数据采集与预处理；其次对多模态数据进行归一化处理，得到对应的康复动作RGB图像及骨架序列数据；然后以此为输入基于多模态数据进行康复动作识别，最后在识别结果基础上完成动作质量评估。

如图5所示，数据采集及数据处理过程如下：

(1)相机标定，其特征在于通过Kinect azure SDK得到每个相机的内参数矩阵，两个相机主视图和侧视图的几何关系由Matlab立体相机校准工具计算。

(2)系统校准：系统校准：该阶段包括相机对准、硬件校准和系统校正3个步骤，具体地：

c)系统校正：基于Point Grey工业相机SDK提供的设备同步触发功能，编写数据同步录制程序，记录时间戳信息，实现两设备间采集时间同步。为实现两设备空间对齐，将Kinect相机坐标系转化为IMU的BVH格式的身体坐标系。通过T-pose矫正程序调整获取Kinect的标准T-pose关节点位置，求得旋转矩阵和平移关系获得根节点和局部关节点的BVH信息，最后通过插值方法融合两种设备骨架。

(3)数据切分与标注：

数据切分共包含三个步骤，如图7所示，包含采样间隔归一化、片段时间归一化和序列长度归一化。首先，对IMU传感器进行降采样处理，以30Hz作为统一的帧提取频率，保留时间戳一致的帧作为同步帧，实现采样间隔归一化。然后，将对齐后的RGB-D数据和IMU数据进行切分，去除动作准备和完成前后冗余部分，同时进行动作片段时间归一化处理，将数据全部分割成1秒长度的片段，并按照相同存储结构保存。由于每个动作的序列都有不同的长度，这不利于时间动态的模型学习。因此，将所有序列调整到特定长度的T(在我们的实验中T设置为8s)。此外，本发明对接康复及相关领域专家，对每个康复动作序列的动作完成质量进行人工标注，为后续的动作质量评估提供可靠的标准。

(4)数据集构建：

将切分和标注后的数据片段组合成康复动作数据集，对康复动作数据进行数据标注和分层存储。30名正常受试者的文件夹表示为S01,S02，..S30,30名脑卒中受试者的文件夹表示为P01,P02，..P30。然后按照动作的类别进行分类，每个动作文件夹命名为A01,A02，...A16。在对应文件夹下有切分处理后的动作文件夹R01,R02,R03。每个动作分别储存其主机位和侧机位姿态数据，在每个动作片段对应的每个子姿态文件夹中分别包含彩色图、深度图和骨架数据文件。每条康复动作标签将包含其类别信息以及专家给出的质量评分，作为训练和评估康复动作识别与质量评估方法的基础，为后续的算法设计和实验提供数据支持。

如图6所示，动作识别过程如下：

(1)构建RGB数据和IMU数据的对应组织结构，其特征在于可以输入一个基于轻量级模态筛选决策网络。

(2)模态筛选，使用轻量级特征提取器MobileNetV2和长短期记忆网络构成模态筛选决策网络，用来判断是否保留当前模态的数据进行后续的识别。

(3)动作识别，将筛选后保留的模态输入对应子网络，其中RGB模态子网络为ResNet-50，IMU骨架子网络为GCN，分别对上一步选取得到的多模态数据进行特征提取，以生成片段级预测。

(4)识别结果决策级融合，基于可学习权重网络将所有片段级预测取平均作为视频最终识别结果。

如图7所示，动作评估过程如下：

(1)获取动作ID：从动作识别阶段获得的结果中提取动作ID、数据和标签，作为评估的输入。

(2)判断主要运动关节点：结合康复领域专家的知识和经验，对识别出的动作进行分析，确定该动作的主要运动环节和关键关节点。

(3)计算动作学参数，利用经过处理的数据，计算主要关节点和邻近关节点的旋转角度、移动距离以及动作完成时间。借助这些指标，计算速度、加速度、加速度变化率(力变率)等二级指标，用于评估动作的完成度、熟练度、流畅度、准确性、稳定性和对称性等6个质量维度。

(4)选择评价模板，计算DTW距离针对4个评价维度，分别对应不同的模板进行结果比较，其中包括专家标注、普通健康人群的正常动作范围、平均指标水平以及患者健侧数据。通过计算输入动作与标注模板的相似度或达标率，提供客观可量化的数据支持作为康复动作的质量评估结果。以下是各个维度的评价方法：

a)动作完成度：该评价维度以关节旋转角度和移动距离为关键指标，以专家标注或普通健康人群均值水平作为标准的关节活动范围，计算患者对应关节活动度在标准范围区间中所占的比例，得到康复动作的达标率，以此评价动作的完成度。

b)动作流畅度：目前，运动康复领域还没有明确的标准来评估动作的流畅度，故该项指标选取正常受试者均值水平作为参照，计算两者相似度来进行评估。

c)动作对称性：选择患者健侧作为标准，进行自身对照，比较两侧关节活动度和轨迹的相似性，以得到肢体两侧功能对称性的评估结果。

d)动作准确性：动作准确性评估是评估工作中的重难点，对执行者和评估者都带来很大的挑战。在本专利中，将利用康复专家对动作质量的标注作为输出结果进行学习，采用端到端的神经网络，实现对较为复杂的动作准确性评价。此外，本方法还将主要活动关节和邻近关节的运动幅度、范围以及运动发生时间进行比较，作为动作准确性评估的补充。

以上方法可以用于对动作的不同评价维度进行准确的评估。以踮脚动作为例，该动作的主要运动环节发生在左右两侧踝关节。踝关节的移动距离被用作衡量该动作完成度的指标。图8展示了患者和标准模板在完成踮脚动作时，随时间变化的踝关节移动距离。图9显示了经过动态时间规整(DTW)前后，患者左右两侧肢体与标准模板之间关键点坐标移动距离序列的相似程度。图10展示了患者和模板自身作为参照，在经过DTW处理后，左右两侧肢体移动距离序列的相似性。计算结果显示，患者的左侧与模板之间的DTW距离为13.04，右侧与模板之间的DTW距离为13.36。标准模板自身两侧的DTW距离仅为2.72，而患者自身两侧的DTW距离为4.78。由此可见，患者肢体可移动范围与普通人相比仍存在较大差距，提示患者存在一定的功能障碍，需在康复训练中进一步提高足踝的背屈功能。此外，该患者右侧动作的完成度较低，左右肢体的完成动作质量略有差距，提示患者功能对称性不足。

(5)获得最终加权结果：综合考虑康复专家的专业意见和客观分析结果，通过权重分配或特定规则进行决策，得到最终更准确、全面的动作质量评估结果。

本发明公开了一种基于多模态信息融合的康复动作识别与质量评估方法，主要包括以下三个功能：康复动作数据集构建、康复动作识别以及动作质量评估，该方法利用IMU和RGB-D相机捕捉三维人体姿态，基于多模态人体动作数据构建动作分析模型，以实现康复动作识别和质量评估。该方法在自建的康复动作数据集上的实验表明，基于多模态信息融合的动作识别和质量评估具有很高的精度。

在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本申请给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图11所示，本发明实施例的一种基于多模态信息融合的康复动作识别系统200，包括数据采集模块210、时空对齐模块220和识别模块230；

数据采集模块210用于：在用户进行康复训练时，利用IMU采集设备，按照第一采集频率连续采集用户身体的17个人体关键关节点的位置数据，并利用RGB-D相机，按照第二采集频率，连续采集用户的多个动作图像数据；

时空对齐模块220用于：利用多模态数据对齐算法，将通过IMU采集设备采集的数据与通过RGB-D相机采集的数据进行时空对齐，得到时空对齐后的多模态数据；

识别模块230用于：基于时空对齐后的多模态数据，利用轻量级模态筛选决策网络的动作识别算法，对用户的康复动作进行识别。

可选地，在上述技术方案中，还包括评价模块，评价模块用于：基于时空对齐后的多模态数据，利用多模态动作质量评估算法，对所做的每个康复动作的质量进行评价，得到质量评价结果。

可选地，在上述技术方案中，轻量级模态筛选决策网络的动作识别算法包括轻量级的决策网络和识别网络；策略网络包括特征提取器MobileNetV2和长短期记忆网络，识别网络包括多个子网络。

上述关于本发明的一种基于多模态信息融合的康复动作识别系统200中的各参数和各个单元模块实现相应功能的步骤，可参考上文中关于一种基于多模态信息融合的康复动作识别方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例的一种存储介质，存储介质中存储有指令，当计算机读取指令时，使计算机执行上述任一项的一种基于多模态信息融合的康复动作识别方法。

本发明实施例的一种电子设备，包括处理器和上述的存储介质，处理器执行存储介质中的指令。其中，电子设备可以选用电脑、手机等。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。

因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)，只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多模态信息融合的康复动作识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多模态信息融合的康复动作识别方法，其特征在于，还包括：

基于所述时空对齐后的多模态数据，利用多模态动作质量评估算法，对所述所做的每个康复动作的质量进行评价，得到质量评价结果。

3.根据权利要求1或2所述的一种基于多模态信息融合的康复动作识别方法，其特征在于，所述时空对齐后的多模态数据包括相同的坐标原点、采集时刻和片段时间长度的康复动作图像数据序列数据和三维人体骨架数据。

4.一种基于多模态信息融合的康复动作识别系统，其特征在于，包括数据采集模块、时空对齐模块和识别模块；

所述时空对齐模块用于：利用多模态数据对齐算法，将通过所述IMU采集设备采集的数据与通过所述RGB-D相机采集的数据进行时空对齐，得到时空对齐后的多模态数据；

5.根据权利要求4所述的一种基于多模态信息融合的康复动作识别系统，其特征在于，还包括评价模块，所述评价模块用于：基于所述时空对齐后的多模态数据，利用多模态动作质量评估算法，对所述所做的每个康复动作的质量进行评价，得到质量评价结果。

6.根据权利要求4或5所述的一种基于多模态信息融合的康复动作识别系统，其特征在于，所述时空对齐后的多模态数据包括相同的坐标原点、采集时刻和片段时间长度的康复动作图像数据序列数据和三维人体骨架数据。

7.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至3中任一项所述的一种基于多模态信息融合的康复动作识别方法。

8.一种电子设备，其特征在于，包括处理器和权利要求7所述的存储介质，所述处理器执行所述存储介质中的指令。