CN114005073B

CN114005073B - 上肢镜像康复训练、识别方法和装置

Info

Publication number: CN114005073B
Application number: CN202111595501.5A
Authority: CN
Inventors: 李醒; 孙悦超; 王建辉; 马宏伟; 朱宇轩
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08
Anticipated expiration: 2041-12-24
Also published as: CN114005073A

Abstract

本公开涉及一种上肢镜像康复训练、识别方法及装置，采集上肢康复动作视频数据集，通过分割获取多个视频数据样本，从多个视频数据样本中获取候选视频数据样本并进行随机数据增强，得到待训练视频数据正、负样本，然后进行特征提取，得到第一、二待训练特征向量，分别将第一、二待训练特征向量映射到应用对比损失的潜在空间中，得到第一、二目标特征向量，将第一、二目标特征向量进行拼接，得到特征向量矩阵，基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型。由此，获取的无监督对比学习动作识别模型能够准确识别动作信号，以进一步提高康复机器人辅助用户进行康复训练精度和效率。

Description

上肢镜像康复训练、识别方法和装置

技术领域

本公开涉及镜像康复训练技术领域，尤其涉及一种上肢镜像康复训练、识别方法和装置。

背景技术

目前，脑卒是一种致残率极高的疾病，且卒后上肢功能障碍发生率高，约80%卒中患者患有上肢运动功能障碍，恢复困难，治疗需求极大。

相关技术中，训练视频具有一定的延迟性，并且视觉动作标签常依赖于人为标注，而传统镜像疗法对患肢侧训练不足，不能为其提供支撑功能，影响康复训练效果。

发明内容

为了解决上述技术问题，本公开提供了一种基于无监督对比学习的上肢镜像康复训练、识别方法和装置。

第一方面，本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练方法，包括：

采集上肢康复动作视频数据集，对上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本，从多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和待训练视频数据负样本，基于编码器分别对待训练视频数据正样本和待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量，基于多层感知网络分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量，将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵，基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型。

第二方面、本公开实施例提供了一种基于无监督对比学习模型的上肢镜像康复识别方法，包括：

获取待识别视频，从待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据，对待识别视频数据进行特征提取，得到待识别特征向量，将待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量，将待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号。

第三方面、本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练装置，包括：

采集装置，采集上肢康复动作视频数据集；

分割装置，对上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本；

第一获取装置，从多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和待训练视频数据负样本；

第一提取装置，基于编码器分别对待训练视频数据正样本和待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量；

第一映射装置，基于多层感知网络分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量；

拼接装置，将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵；

生成装置，基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型。

第四方面、本公开实施例提供了一种基于无监督对比学习模型的上肢镜像康复识别装置，包括：

第二获取装置，获取待识别视频；

第三获取装置，从待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据；

第二提取装置，对待识别视频数据进行特征提取，得到待识别特征向量；

第二映射装置，将待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量；

输入装置，将待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例中，采集上肢康复动作视频数据集，通过分割获取多个视频数据样本，从多个视频数据样本中获取候选视频数据样本并进行随机数据增强，得到待训练视频数据正、负样本，然后进行特征提取，得到第一、二待训练特征向量，分别将第一、二待训练特征向量映射到应用对比损失的潜在空间中，得到第一、二目标特征向量，将第一、二目标特征向量进行拼接，得到特征向量矩阵，基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型，由此，获取的无监督对比学习动作识别模型能够准确识别动作信号，以进一步提高康复机器人辅助用户进行康复训练精度和效率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练方法流程图；

图2为本公开实施例提供的一种多层感知机流程示意图；

图3本公开实施例提供了另一种基于无监督对比学习的上肢镜像康复训练方法流程图；

图4为本公开实施例提供的一种特征提取网络架构每层卷积结构示意图；

图5为本公开实施例提供的一种三维卷积网络架构与特征提取网络架构对比示意图；

图6为本公开实施例提供的一种特征提取网络架构示意图；

图7为本公开实施例提供的一种特征提取网络结构示意图；

图8为本公开实施例提供的一种基于无监督对比学习模型的上肢镜像康复识别方法示意图；

图9为本公开实施例提供的一种无监督对比学习模型示意图；

图10为本公开实施例提供的一种上肢镜像训练动作识别流程示意图；

图11为本公开实施例提供的一种人机交互系统设计流程示意图；

图12为本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练装置结构示意图；

图13为本公开实施例提供的一种基于无监督对比学习模型的上肢镜像康复识别装置结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练方法流程图，包括：

步骤101、采集上肢康复动作视频数据集。

其中，上肢康复动作视频数据集指的是执行上肢康复动作训练过程中拍摄的视频数据集合，如执行上肢反射活动、屈肌协同运动、伸肌协同运动、分离运动、反射亢进、腕稳定性、手指运动、协调运动能力与速度等动作拍摄的视频，作为上肢康复动作视频数据集。

在一些实施例中，根据上肢运动功能评估量表设计康复动作集，通过摄像机采集不同性别和不同年龄的用户执行康复动作集，获取上肢康复动作视频数据集。

步骤102、对上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本。

由于上肢康复动作不同，每个上肢康复动作视频的时间长短不同，并且视频本身具有一定的延迟性，因此需要对每个不同时长的上肢康复动作视频进行分割，得到第一维度类型的多个视频数据样本。其中，第一维度类型指的是包括帧数、长、宽、通道数四个不同维度。

可选地，分割方式可采用移动窗口法，具体地，将上肢康复动作视频数据集中每个康复训练视频按照预设N帧进行多次采样，并且设置相邻两次采样之间有M帧的重叠，得到第一维度类型的视频帧数据作为多个视频数据样本，其中，M和N为正整数，M小于N。

步骤103、从多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和负样本。

其中，随机数据增强的目的是指将第二维度类型的候选视频数据样本通过不同的增强方式转换成两个相关视频数据样本，即视频数据正样本和视频数据负样本。其中，第二维度类型指的是样本数、帧数、长、宽、通道数五个不同维度。

在一些实施例中，从多个视频数据样本中随机采样，获取第二维度类型的候选视频数据样本，对候选视频数据样本中每个候选视频进行随机裁剪后调整到原来分辨率大小、随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声中一种或者多种处理，得到第二维度类型的待训练视频数据样本。

步骤104、基于编码器分别对待训练视频数据正样本和待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量。

其中，特征提取可通过编码器来完成，具体地，通过编码器对待训练视频数据样本进行特征提取，得到待训练特征向量。其中，第三维度类型指的是样本数、帧数为1、长为1、宽为1、通道数为卷积核的个数五个不同维度。

在一些实施方式中，通过第一层卷积网络对待训练视频数据正样本进行二维空间采样和一维时间采样，得到第一待训练中间向量，通过第二层卷积网络对第一待训练中间向量进行二维空间和一维时间采样，得到第二待训练中间向量，通过第三层卷积网络对第二待训练中间向量进行二维空间采样和一维时间采样，得到第三待训练中间向量，通过第四层卷积网络对第三待训练中间向量进行二维空间采样和一维时间采样，得到第四待训练中间向量；通过第五层卷积网络对第四待训练中间向量进行二维空间采样和一维时间采样，得到第三维度类型的第一待训练特征向量，在另一些实施方式中，待训练视频数据负样本的特征提取方式与待训练视频数据正样本相同，在此不再赘述。

步骤105、基于多层感知网络分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量。

具体地，多层感知网络除了输入输出层，中间可以有多个隐藏层，例如采用只含一个隐藏层的多层感知网络，如图2所示。

其中，多层感知网络层与层之间为全连接，最底层是输入层，中间为隐藏层，最后是输出层，设输入层用待训练特征向量X表示，则隐藏层的输出为 f (W₁X+b₁)，W₁为权重，b₁为偏置，函数f为RELU( Rectified Linear Unit，非线性激活函数)函数，输出层的输出为RELU(W₂A₁+b₂)，其中A₁表示隐藏层的输出 f(W₁X+b₁)，W₂表示权重，b₂表示偏置，最终得到目标特征向量。

步骤106、将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵。

在一些实施例中，设第一目标特征向量为

，第二目标特征向量为

，令：

。

其中，

表示将

和

拼接，则特征向量矩阵：

。

步骤107、基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型。

具体地，对特征向量矩阵中任意两个元素计算余弦相似度，并将余弦相似度输入分类函数，得到任意两个元素的概率，基于概率计算，获取任意两个元素的损失，计算多个损失的平均值，得到目标损失。

在本公开实施例，在获取目标损失后，基于目标损失是否满足预设阈值等方式不断调整网络参数，直到目标损失小于预设阈值，生成无监督对比学习动作识别模型。

本公开实施例提供的上肢镜像康复训练方案，采集上肢康复动作视频数据集，通过分割获取多个视频数据样本，从多个视频数据样本中获取候选视频数据样本并进行随机数据增强，得到待训练视频数据正、负样本，然后进行特征提取，得到第一、二待训练特征向量，分别将第一、二待训练特征向量映射到应用对比损失的潜在空间中，得到第一、二目标特征向量，将第一、二目标特征向量进行拼接，得到特征向量矩阵，基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型，通过数据增强的方式产生不同的训练样本，将增强后大量未标签的视频分割为时间特征和空间特征进行编码，并将提取的特征向量进行融合来表示特定的康复动作，并在潜在空间中将不同动作类进行聚类，实现通过少量有标签的数据集，对预训练的无监督对比学习模型进行微调，将不同的动作类分开，能够快速生成无监督对比学习动作识别模型，以及该无监督对比学习动作识别模型能够快速精确识别动作信息以生成对应控制信息以辅助训练。

图3为本公开实施例提供了另一种基于无监督对比学习的上肢镜像康复训练方法流程图，包括：

步骤301、根据上肢运动功能评估量表设计康复动作集，通过摄像机采集不同性别和不同年龄的用户执行康复动作集，获取上肢康复动作视频数据集。

其中，运动功能评估量表包含运动、感觉、平衡、关节获得度及疼痛五个领域的内容，其上肢运动功能的评估包含上肢反射活动、屈肌协同运动、伸肌协同运动、伴有协同运动的活动、分离运动、反射亢进、腕稳定性、肩前屈30°时肘伸直、手指运动、协调运动能力与速度等。

在一些实施例中，如可根据运动功能评估量表的上肢板块设计十二种镜像康复训练动作，包括肘屈曲、肘伸展、肩内敛、肩外旋等。每人每动作做4-7组，并通过摄像机获取上肢康复动作视频数据集，其中，每个镜像康复训练动作视频可设置为2~4秒。

步骤302、将上肢康复动作视频数据集中每个康复训练视频按照预设N帧进行多次采样，并且设置相邻两次采样之间有M帧的重叠，得到第一维度类型的视频帧数据作为多个视频数据样本，其中，M和N为正整数，M小于N。

在一些实施例中，由于每个镜像康复训练动作不同，每个视频时间长短也不同，且视频本身具有一定的延迟性，可以采用移动窗口法对每个不同时长的康复动作视频进行分割，得到（帧（N），长（H），宽（W），通道数（C））类型的视频数据样本，比如将采集得到的数据样本按5：1的比例随机划分为训练集和测试集。

可选地，将每个镜像康复训练视频从0帧开始每次采样16帧图像，并且设置相邻两次采样之间有8帧的重叠，得到（N， H， W，C）视频数据样本。

另外，由于康复训练视频信号是时变的，在短时范围内特征变化较小，可以作为稳态来处理，但超出短时范围，康复训练视频信号变化较明显，因此在相邻两采样之间康复训练视频信号发生变化时，其特征参数可能变化较大，为了使特征参数平滑变化，可选地，在两个不重叠的帧之间插入一些帧来提取特征参数，即形成了相邻帧之间的重叠部分。

步骤303、从多个视频数据样本中随机采样，获取第二维度类型的候选视频数据样本，对候选视频数据样本中每个候选视频进行随机裁剪后调整到原来分辨率大小、随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声中一种或者多种处理，得到第二维度类型的待训练视频数据负样本。

具体地，设

为随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声一种或者几种方法进行组合。

设

为第二维度类型的候选视频数据样本，采用随机裁剪，将其调整到原来分辨率大小，然后对候选视频数据样本的两个分支中的一个分支进行目标转换

，而另一个分支作为标志不做任何处理，即令：

其中，

为随机挑选增强方式，Color distort为随机颜色扭曲，

为随机高斯模糊，

为随机高斯噪声，变换后生成待训练视频数据样本X´和X"。

由于单一的数据增强方法不能够学到较好的视觉表征，而组合数据增强方法给康复动作识别增加了难度，但能够显著提升表征质量，可选地，可以通过网格搜索法寻找使模型能够学到良好视觉表征的最优组合。

在一些实施方式中，对于镜像康复训练动作识别任务，随机采样一小批（Batch）视频数据样本（B，N，Ｈ，Ｗ，C），其中，每个Batch含有N个视频数据样本，将每一个视频数据样本通过随机数据增强进行扩充，得到2N个待训练视频数据样本，对于给定的视频数据样本增强为

和

，记为第二维度类型的待训练视频数据正样本，将除该样本以外的其他2（N- 1）个样本示例记为第二维度类型的待训练视频数据负样本。

步骤304、基于编码器分别对待训练视频数据正样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量。

其中，待训练视频数据正样本可通过特征提取网络架构来实现。

具体地，图4为本公开实施例提供的一种特征提取网络架构每层卷积结构示意图，具体地，待训练视频数据正样本通过输入模块进行输入，然后进入到二维空间卷积和一维时间卷积中，然后通过输出模块进行输出得到第三维度类型的第一待训练特征向量。

在一些实施例中，第一层卷积网络对待训练视频数据正样本进行二维空间采样和一维时间采样，得到第一待训练中间向量，通过第二层卷积网络对第一待训练中间向量进行二维空间采样和一维时间采样，得到第二待训练中间向量，通过第三层卷积网络对第二待训练中间向量进行二维空间采样和一维时间采样，得到第三待训练中间向量，通过第四层卷积网络对第三待训练中间向量进行二维空间采样和一维时间采样，得到第四待训练中间向量；通过第五层卷积网络对第四待训练中间向量进行二维空间采样和一维时间采样，得到第三维度类型的第一待训练特征向量。

具体地，基编码器定义为

，从待训练视频数据正样本

中提取第三维度类型的第一待训练特征向量

。

；

完整的三维卷积使用大小为（t×d×d）的卷积核，其中t表示时间范围，d表示空间的宽度和高度，N_i表示第i层卷积核个数。本公开的特征提取网络卷积则把3维时空卷积分解成2维空间卷积和1维时间卷积，因此卷积核大小为1×d×d + t×1×1，具体如图5所示。

其中，

。

超参数M_i决定了信号在时、空卷积之间投影的子空间个数，通过增加通道数，来让分解之后的特征提取网络和之前的三维卷积模型的参数量相同。

当输入为(B_in*N_in*H_in*W_in*C_in)时，经过卷积核为(kerne_size[0]*kerne_size[1]*kerne_size[2])，步长为(stride[0]*stride[1]*stride[2])，膨胀为(dilation[0]*dilation[1]*dilation[2])，池化层为(padding[0]*padding[1]*padding[2])的3D卷积后得到的输出为(B_in*N_out*H_out*W_out*C_out)。

其中，B为一个Batch_size的样本数，N为帧数（时间维度），H为高度，W为宽度，C为通道数。

；

；

；

；

卷积核的个数。

将增强后的视频帧数据样本(B_in*N_in*H_in*W_in*C_in)作为R特征提取网网路的输入。将（3*3*3）的卷积核拆分为个

个（1*3*3）和

个（3*1*1）的卷积核。使用卷积步长为1×2 ×2 在第一层卷积网络实现的一个空间下采样，以及卷积步长为2×2×2 在第三层卷积网络、第四层卷积网络和第五层卷积网络实现的三个时空下采样，如图6所示。

将经过一系列的卷积得到输出经过一个自适应池化层得到一个(B，1，1，1，512)的特征向量。

其中，自适应池化层特殊在输出的大小都是给定的，其原理为：

若已知池化层的

、

、

以及输入的大小

则输出的大小

为：

。

根据上式可得：

。

最终得到第三维度类型的第一待训练特征向量。

可选地，编码器还可采用双流卷积网络作为特征提取网络对待训练视频数据样本进行特征提取，其中，双流网络分为两部分，一部分用于处理彩色图像，用于提取空间特征，另一部分处理光流图像，用于提取时间特征，其结构示意图如图7所示。

具体地，将增强后的待训练视频数据样本进行处理，得到彩色图像和光流图像，然后再将彩色图像和光流图像分别输入到特征提取网络中，进行特征提取得到特征向量并将得到的两个特征向量进行融合，得到待训练特征向量。

在另一些实施例中，待训练视频数据负样本的特征提取与待训练视频数据正样本方式相同，在此不再赘述。

步骤305、分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量。

步骤306、将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵。

需要说明的是，步骤305-306与上述步骤105-106相同，具体参见对步骤105-106的描述，此处不再详述。

步骤307、对特征向量矩阵中任意两个元素计算余弦相似度，并将余弦相似度输入分类函数，得到任意两个元素的概率，基于概率计算，获取任意两个元素的损失，计算多个损失的平均值，得到目标损失。

可选地，设目标特征向量为

和

，令：

其中，

表示将

和

拼接。则特征向量矩阵

对特征向量矩阵M中任意两个元素计算余弦相似度：

其中，

是可调参数，可以缩放输入，并扩大余弦相似度的范围[- 1,1]，Z_i、Z_j表示特征向量矩阵M中任意两个元素，本公开优选取

；

是该矢量的模。

可选地，将余弦相似度输入分类函数Softmax中计算两元素相似的概率得到

。

然后，通过取上述计算的对数的负数来计算这两个元素的损失。

为NCE( Noise Contrastive Estimation，噪声对比估计损失)

。

最后，计算多个损失的平均值，得到目标损失L

。

其中，P为Batch size大小，k为第k个视频数据样本。

本公开实施例提供的上肢镜像康复训练方案，根据上肢运动功能评估量表设计康复动作集，通过摄像机采集不同性别和不同年龄的用户执行康复动作集，获取上肢康复动作视频数据集，将上肢康复动作视频数据集中每个康复训练视频按照预设N帧进行多次采样，并且设置相邻两次采样之间有M帧的重叠，得到第一维度类型的视频帧数据作为多个视频数据样本，其中，M和N为正整数，M小于N，从多个视频数据样本中随机采样，获取第二维度类型的候选视频数据样本，对候选视频数据样本中每个候选视频进行随机裁剪后调整到原来分辨率大小、随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声中一种或者多种处理，得到第二维度类型的待训练视频数据负样本，基于编码器分别对待训练视频数据正样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量待训练特征向量，基于多层感知网络分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量，将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵，对特征向量矩阵中任意两个元素计算余弦相似度，并将余弦相似度输入分类函数，得到任意两个元素的概率，基于概率计算，获取任意两个元素的损失，计算多个损失的平均值，得到目标损失，通过采用无监督对比模型解决训练，不需要再将视频数据样本进行人为标注标签，节省了大量的人力成本，提高动作信号识别精度和效率。

图8为本公开实施例提供的一种基于无监督对比学习模型的上肢镜像康复识别方法，包括：

步骤801、获取待识别视频。

步骤802、从待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据。

需要说明的是，步骤801-802与上述步骤101-103相同，具体参见对步骤101-103的描述，此处不再详述。

步骤803、对待识别视频数据进行特征提取，得到待识别特征向量。

步骤804、将待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量。

需要说明的是，步骤803-804与上述步骤104-105相同，具体参见对步骤201-202的描述，此处不再详述。

步骤805、将待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号。

本公开实施例提供的一种基于无监督对比学习模型的上肢镜像康复识别方案，获取待识别视频，从待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据，对待识别视频数据进行特征提取，得到待识别特征向量，将待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量，将待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号，通过随机数据增强模块及特征提取等模块，解决了镜像训练中遇到的问题，提高康复效果。

可选地，本公开实施例提供的另一种基于无监督对比学习模型的上肢镜像康复识别方法，还包括：

将识别动作信号转换为控制信号发送给上肢康复机器人，以使上肢康复机器人根据控制信号进行动作，以此提高康复效果。

为了更加清晰的描述本公开，本公开还提供了一种无监督对比学习模型如图9所示。

X为候选的视频数据样本，T(*)为随机增强函数，首先通过将候选视频数据样本通过随机增强函数增强，得到待训练视频数据正样本X´,待训练视频数据负样本X",其次通过特征提取模块,分别对X´及X"进行特征提取得到第三维度类型的第一待训练特征向量和第二待训练特征向量,其中，特征提取模块包括五个卷积层，分别为第一层卷积网络、第二层卷积网络、第三层卷积网络、第四层卷积网络、第五层卷积网络，每一层卷积中均包含二维空间采样和一维时间采样，再通过多层感知机将得到的待训练特征向量通过RELU提高模型的泛化性,最后通过对比损失模块,采用余弦相似度计算特征向量矩阵,通过归一化温度标度的交叉熵损耗进行优化得到无监督对比学习模型。

具体地，图10为本公开实施例提供的一种上肢镜像训练动作识别流程示意图，首先通过摄像头采集视频动作进行上肢镜像康复动作捕捉，并对视频进行预处理，然后通过无监督对比学习模型提取特征向量，设计康复动作识别分类器，实现上肢镜像康复训练动作识别。

此外，图11为本公开实施例提供的一种人机交互系统设计流程示意图，主要包括数字化镜像显示模块、控制台模块、视频动作分析模块、分类结果输出模块、机器人运动状态模块。

在控制台模块安装两个摄像头以捕捉患者的上肢动作，将捕捉到的上肢动作输入到视频动作分析模块，分析康复动作的特征信息，并通过分类结果输出模型计算出分类结果并输出动作类别，通过虚拟显示技术在数字化镜像显示模块中显示患者健侧上肢的运动画面并经“镜像”反转处理后反馈到患侧，代替患侧上肢的运动影像，实现双侧同步视觉反馈的功能，机器人运动状态模块用于获取机器人的运动状态，对机器人的运动状态进行显示。

图12为本公开实施例提供了一种基于无监督对比学习的上肢镜像康复训练装置结构示意图，该装置包括采集装置1201、分割装置1202、第一获取装置1203、第一提取装置1204、第一映射装置1205、拼接装置1206、生成装置1207，其中，

采集装置1201、用于采集上肢康复动作视频数据集；

分割装置1202、用于对上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本；

第一获取装置1203、用于从多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和待训练视频数据负样本；

第一提取装置1204、用于基于编码器分别对待训练视频数据正样本和待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量；

第一映射装置1205、用于基于多层感知网络分别将第一待训练特征向量和第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量；

拼接装置1206、用于将第一目标特征向量和第二目标特征向量进行拼接，得到特征向量矩阵；

生成装置1207、用于基于特征向量矩阵进行计算，得到目标损失，基于目标损失调整网络参数，生成无监督对比学习动作识别模型。

可选地，采集装置1201，具体用于：

根据上肢运动功能评估量表设计康复动作集；

通过摄像机采集不同性别和不同年龄的用户执行康复动作集，获取上肢康复动作视频数据集。

可选地，分割装置1202，具体用于：

将上肢康复动作视频数据集中每个康复训练视频按照预设N帧进行多次采样，并且设置相邻两次采样之间有M帧的重叠，得到第一维度类型的目标数据类型的视频帧数据作为多个视频数据样本；其中，M和N为正整数，M小于N。

可选地，第一获取装置1203，具体用于：

从多个视频数据样本中随机采样，获取第二维度类型的候选视频数据样本；

对候选视频数据样本中每个候选视频进行随机裁剪后调整到原来分辨率大小、随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声中一种或者多种处理，得到第二维度类型的待训练视频数据样本。

可选地，第一提取装置1204，具体用于：

通过第一层卷积网络对待训练视频数据正样本进行二维空间采样和一维时间采样，得到第一待训练中间向量；

通过第二层卷积网络对第一待训练中间向量进行二维空间采样和一维时间采样，得到第二待训练中间向量；

通过第三层卷积网络对第二待训练中间向量进行二维空间采样和一维时间采样，得到第三待训练中间向量；

通过第四层卷积网络对第三待训练中间向量进行二维空间采样和一维时间采样，得到第四待训练中间向量；

通过第五层卷积网络对第四待训练中间向量进行二维空间采样和一维时间采样，得到第三维度类型的第一待训练特征向量。

需要说明的是第一提取装置1204还可用于待训练视频数据负样本的特征提取，由于待训练视频数据负样本与待训练视频数据正样本提取方式相同，在此不再赘述。

可选地，生成装置1207，具体用于：

对特征向量矩阵中任意两个元素计算余弦相似度，并将余弦相似度输入分类函数，得到任意两个元素的概率；

基于概率计算，获取任意两个元素的损失；

计算多个损失的平均值，得到目标损失。

图13为本公开实施例提供的一种基于无监督对比学习模型的上肢镜像康复识别装置结构示意图，该装置包括：第二获取装置1301、第三获取装置1302、第二提取装置1303、第二映射装置1304、输入装置1305；

第二获取装置1301、用于获取待识别视频；

第三获取装置1302、用于从待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据；

第二提取装置1303、用于对待识别视频数据进行特征提取，得到待识别特征向量；

第二映射装置1304、用于将待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量；

输入装置1305、用于将待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号。

可选地，所述装置还包括转换装置1306，具体用于：

将识别动作信号转换为控制信号发送给上肢康复机器人，以使上肢康复机器人根据控制信号进行动作。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于无监督对比学习的上肢镜像康复训练方法，其特征在于，包括：

采集上肢康复动作视频数据集；

对所述上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本；

从所述多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和待训练视频数据负样本；

基于编码器分别对所述待训练视频数据正样本和所述待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量；

基于多层感知网络分别将所述第一待训练特征向量和所述第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量；

将所述第一目标特征向量和所述第二目标特征向量进行拼接，得到特征向量矩阵；

基于所述特征向量矩阵进行计算，得到目标损失，基于所述目标损失调整网络参数，生成无监督对比学习动作识别模型；

其中，所述基于编码器分别对所述待训练视频数据正样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量，包括：

通过第一层卷积网络对所述待训练视频数据正样本进行二维空间采样和一维时间采样，得到第一待训练中间向量；

通过第二层卷积网络对所述第一待训练中间向量进行二维空间采样和一维时间采样，得到第二待训练中间向量；

通过第三层卷积网络对所述第二待训练中间向量进行二维空间采样和一维时间采样，得到第三待训练中间向量；

通过第四层卷积网络对所述第三待训练中间向量进行二维空间采样和一维时间采样，得到第四待训练中间向量；

通过第五层卷积网络对所述第四待训练中间向量进行二维空间采样和一维时间采样，得到所述第三维度类型的第一待训练特征向量；

所述基于编码器分别对所述待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第二待训练特征向量，包括：

通过第一层卷积网络对所述待训练视频数据负样本进行二维空间采样和一维时间采样，得到第五待训练中间向量；

通过第二层卷积网络对所述第五待训练中间向量进行二维空间采样和一维时间采样，得到第六待训练中间向量；

通过第三层卷积网络对所述第六待训练中间向量进行二维空间采样和一维时间采样，得到第七待训练中间向量；

通过第四层卷积网络对所述第七待训练中间向量进行二维空间采样和一维时间采样，得到第八待训练中间向量；

通过第五层卷积网络对所述第八待训练中间向量进行二维空间采样和一维时间采样，得到所述第三维度类型的第二待训练特征向量。

2.根据权利要求1所述的基于无监督对比学习的上肢镜像康复训练方法，其特征在于，所述采集上肢康复动作数据集，包括：

根据上肢运动功能评估量表设计康复动作集；

通过摄像机采集不同性别和不同年龄的用户执行所述康复动作集，获取所述上肢康复动作视频数据集。

3.根据权利要求1所述的基于无监督对比学习的上肢镜像康复训练方法，其特征在于，所述对所述上肢康复动作视频数据集进行分割，获取第一维度类型的多个视频数据样本，包括：

将所述上肢康复动作视频数据集中每个康复训练视频按照预设N帧进行多次采样，并且设置相邻两次采样之间有M帧的重叠，得到第一维度类型的视频帧数据作为所述多个视频数据样本；其中，M和N为正整数，所述M小于N。

4.根据权利要求1所述的基于无监督对比学习的上肢镜像康复训练方法，其特征在于，所述从所述多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据负样本，包括：

从所述多个视频数据样本中随机采样，获取第二维度类型的候选视频数据样本；

对所述候选视频数据样本中每个候选视频进行随机裁剪后调整到原来分辨率大小、随机旋转、随机颜色扭曲、随机高斯模糊和随机高斯噪声中一种或者多种处理，得到第二维度类型的所述待训练视频数据负样本。

5.根据权利要求1所述的基于无监督对比学习的上肢镜像康复训练方法，其特征在于，所述基于所述特征向量矩阵进行计算，得到目标损失，包括：

对所述特征向量矩阵中任意两个元素计算余弦相似度，并将所述余弦相似度输入分类函数，得到所述任意两个元素的概率；

基于所述概率计算，获取所述任意两个元素的损失；

计算多个所述损失的平均值，得到所述目标损失。

6.一种基于无监督对比学习模型的上肢镜像康复识别方法，其特征在于，包括：

获取待识别视频；

从所述待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据；

对所述待识别视频数据进行特征提取，得到待识别特征向量；

将所述待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量；

将所述待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号；

其中，所述对所述待识别视频数据进行特征提取，得到待识别特征向量，包括：通过第一层卷积网络对待识别视频数据进行二维空间采样和一维时间采样，得到第一待识别中间向量，通过第二层卷积网络对第一待识别中间向量进行二维空间和一维时间采样，得到第二待识别中间向量，通过第三层卷积网络对第二待识别中间向量进行二维空间采样和一维时间采样，得到第三待识别中间向量，通过第四层卷积网络对第三待识别中间向量进行二维空间采样和一维时间采样，得到第四待识别中间向量；通过第五层卷积网络对第四待识别中间向量进行二维空间采样和一维时间采样，得到第三维度类型的待识别特征向量。

7.根据权利要求6所述的基于无监督对比学习模型的上肢镜像康复识别方法，其特征在于，还包括：

将所述识别动作信号转换为控制信号发送给上肢康复机器人，以使所述上肢康复机器人根据所述控制信号进行动作。

8.一种基于无监督对比学习的上肢镜像康复训练装置，其特征在于，包括：

采集装置，采集上肢康复动作视频数据集；

分割装置，对所述上肢康复动作视频数据集进行分割，得到第一维度类型的多个视频数据样本；

第一获取装置，从所述多个视频数据样本中获取第二维度类型的候选视频数据样本并进行随机数据增强，得到第二维度类型的待训练视频数据正样本和待训练视频数据负样本；

第一提取装置，基于编码器分别对所述待训练视频数据正样本和所述待训练视频数据负样本进行空间特征和时间特征提取，得到第三维度类型的第一待训练特征向量和第二待训练特征向量；

第一映射装置，基于多层感知网络分别将所述第一待训练特征向量和所述第二待训练特征向量映射到应用对比损失的潜在空间中，得到第一目标特征向量和第二目标特征向量；

拼接装置，将所述第一目标特征向量和所述第二目标特征向量进行拼接，得到特征向量矩阵；

生成装置，基于所述特征向量矩阵进行计算，得到目标损失，基于所述目标损失调整网络参数，生成无监督对比学习动作识别模型；

9.一种基于无监督对比学习模型的上肢镜像康复识别装置，其特征在于，包括：

第二获取装置，获取待识别视频；

第三获取装置，从所述待识别视频中获取候选视频数据并进行随机数据增强，得到待识别视频数据；

第二提取装置，对所述待识别视频数据进行特征提取，得到待识别特征向量；

第二映射装置，将所述待识别特征向量映射到应用对比损失的潜在空间中，得到待识别目标特征向量；

输入装置，将所述待识别目标特征向量输入无监督对比学习动作识别模型，得到识别动作信号；