CN115223250A

CN115223250A - 基于多尺度时空分解卷积网络的上肢康复动作识别方法

Info

Publication number: CN115223250A
Application number: CN202211107295.3A
Authority: CN
Inventors: 李醒; 孙悦超; 王建辉; 朱宇轩
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-10-21
Anticipated expiration: 2042-09-13
Also published as: CN115223250B

Abstract

本申请公开了一种基于多尺度时空分解卷积网络的上肢康复动作识别方法，包括：对上肢康复动作进行采集，获得若干样本视频数据；基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果。本申请中的方法能够快速、准确地对待识别的目标视频数据进行动作识别，提高了动作识别的效率以及准确度。

Description

基于多尺度时空分解卷积网络的上肢康复动作识别方法

技术领域

本发明涉及镜像康复训练技术领域，特别涉及一种基于多尺度时空分解卷积网络的上肢康复动作识别方法。

背景技术

脑卒中是严重危害人类健康的重大慢性心血管疾病，其中70%-80%的脑卒中患者因不同程度的上肢运动功能障碍严重影响生活质量。大量研究表明双侧协调镜像训练是当前脑卒中上肢康复中为数不多的关注健患侧肢体协同训练的方法之一，通过视错觉、视觉、幻觉反馈以及虚拟现实，刺激患者镜像神经元，促进上肢运动功能康复。

随着机器人技术和人机交互技术的发展，脑卒中患者可以通过人机交互借助康复机器人进行双侧协调镜像训练以恢复运动机能。双侧协调镜像训练的关键在于使用动作识别算法对患者健肢侧的上肢康复动作进行准确识别，进而控制康复机器人的带动患肢进行“镜像”运动。

然而，目前基于计算机视觉的动作意图识别主要存在如下问题：通过摄像头采集患者上肢康复动作的时，易受外界环境因素干扰，而且采集的动作类内之间存在差异性，进而造成动作意图识别不准确。

由此，亟需一种康复动作识别方法，以解决现有技术中在上肢双侧协调镜像训练过程中，动作识别不够准确的问题。

发明内容

有鉴于此，本发明提供了一种基于多尺度时空分解卷积网络的上肢康复动作识别方法、装置、存储介质及电子设备，主要目的在于解决目前上肢双侧协调镜像训练过程中，动作识别不够准确的问题。

为解决上述问题，本申请提供一种基于多尺度时空分解卷积网络的上肢康复动作识别方法，包括：

对上肢康复动作进行采集，获得若干样本视频数据；

基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；

对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；

基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果。

可选的，所述对上肢康复动作进行采集，获得若干样本视频数据，具体包括：

根据上肢运动康复标准和Fugl-Meyer运动功能评估量表的上肢板块结合脑卒中日常康复训练动作，设计上肢康复动作集；

基于摄像机采集不同性别以及不同年龄的用户执行所述上肢康复动作集的视频图像，以获得所述若干样本视频数据。

可选的，所述基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列，具体包括：

基于预设的滑动窗口采用滑动间隔采样的方式，分别对各所述样本视频帧数据进行视频帧采样，以获得所述若干样本视频帧序列。

可选的，对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧，具体包括：

基于随机光度增强、随机噪声以及随机几何变换，按照随机顺序，依次对各样本视频帧序列进行数据增强处理，以获得与各样本视频帧序列对应的处理后的样本视频帧序列；

其中，所述随机光度增强包括如下任意一种或几种：随机亮度、随机对比度、随机饱和度以及随机色调；

所述随机噪声包括：椒盐噪声或高斯噪声；

所述随机几何变换包括如下任意一种或几种：随机裁剪、随机旋转以及随机反转。

可选的，所述初始多尺度时空分解卷积网络模型依次包括：初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层；

所述基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型，具体包括：

依次基于初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层对各所述样本视频帧序列进行特征提取处理，获得与各样本视频帧序列对应的第一目标特征向量；

基于各所述第一目标特征向量获得与各样本视频帧序列对应的第一动作识别结果；

基于各所述样本视频帧序列的第一动作识别结果以及各所述样本视频帧序列对应的动作标签，分别对所述初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层中的参数进行调整，获得目标第一时空分解卷积层、目标第一池化层、目标第二时空分解卷积层、目标第三时空分解卷积层、目标第二池化层、目标第一时域多尺度卷积层、目标第三池化层、目标第二时域多尺度卷积层、目标第四池化层、目标第三时域多尺度卷积层以及目标第五池化层，以获得所述目标多尺度时空分解卷积网络模型。

可选的，所述上肢康复动作集包括如下任意一种或几种康复动作：上肢摸高、喝水、肩部水平外展、梳头、肩部屈曲、肘部屈曲、肘关节屈、提裤。

为解决上述问题，本申请提供一种基于多尺度时空分解卷积网络的上肢康复动作识别装置，包括：

动作采集模块，用于对上肢康复动作进行采集，获得若干样本视频数据；

采样模块，用于基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；

数据增强模块，用于对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；

训练模块，用于基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

识别模块，用于基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果。

可选的，所述动作采集模块具体用于：

为解决上述问题，本申请提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述基于多尺度时空分解卷积网络的上肢康复动作识别方法的步骤。

为解决上述问题，本申请提供一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述任一项所述基于多尺度时空分解卷积网络的上肢康复动作识别方法的步骤。

本申请中的基于多尺度时空分解卷积网络的上肢康复动作识别方法、装置、存储介质及电子设备，通过对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例一种基于多尺度时空分解卷积网络的上肢康复动作识别方法的流程图；

图2为本申请实施例中多尺度时空分解卷积网络模型结构框图；

图3为本申请实施例中多尺度时空分解卷积网络模型中各卷积层的参数表；

图4（a）和图4（b）为三维卷积与时空分解卷积的对比图；

图5（a）和图5（b）为三维卷积网络和时空分解卷积网络结构的对比如图；

图6为本申请实施例中时域多尺度卷积层结构框图；

图7为本申请另一实施例中基于多尺度时空分解卷积网络的上肢康复动作识别装置的结构框图。

具体实施方式

此处参考附图描述本申请的各种方案以及特征。

应理解的是，可以对此处申请的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所申请的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所申请的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请实施例提供一种基于多尺度时空分解卷积网络的上肢康复动作识别方法，如图1所示，本实施例中的方法包括：

步骤S101，对上肢康复动作进行采集，获得若干样本视频数据；

本步骤在具体实施过程中，可以先根据上肢运动康复标准和Fugl-Meyer运动功能评估量表的上肢板块结合脑卒中日常康复训练动作，设计上肢康复动作集；然后基于摄像机采集不同性别以及不同年龄的用户执行所述康复动作集的视频图像，以获得所述若干样本视频数据。其中康复动作集包括如下任意一种或几种康复动作：上肢摸高、喝水、肩部水平外展、梳头、肩部屈曲、肘部屈曲、肘关节屈、提裤等等动作。

步骤S102，基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；

本步骤在具体实施过程中，具体基于预设的滑动窗口采用滑动间隔采样的方式，分别对各所述样本视频帧数据进行视频帧采样，以获得所述若干样本视频帧序列。也就是，从滑动窗口的首部开始每隔n帧均匀抽取视频帧，然后滑动窗口沿着视频序列的时间轴向后滑动m帧，重复上述操作，组成新的视频序列集合，由此获得若干样本视频帧序列。其中滑动窗口的大小可以根据实际需要设定，即滑动窗口所包含的视频帧数量可以根据实际需要设定。

步骤S103，对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；

本步骤在具体实施过程中，具体可以基于随机光度增强、随机噪声以及随机几何变换，按照随机顺序，依次对各样本视频帧序列进行数据增强处理，以获得与各样本视频帧序列对应的处理后的样本视频帧序列。例如可以先对某一样本视频帧序列进行随机噪声处理，获得噪声处理后的该样本视频帧序列，然后对噪声处理后的该样本视频帧序列进行随机光度增强处理，获得光度增强后的样本视频帧序列，最后对该光度增强后的样本视频帧序列进行随机几何变换处理，由此获得处理后的样本视频帧序列。再如，还可以对另一样本视频帧序列进行随机几何变换处理，获得变换处理后的样本视频帧序列，然后对该变换处理后的样本视频帧序列进行随机噪声处理，获得噪声处理后的样本视频帧序列，最后对该噪声处理后的样本视频帧序列进行随机光度增强处理，由此获得处理后的样本视频帧序列。

本步骤在具体实施过程中，所述随机光度增强处理包括如下任意一种或几种：随机亮度、随机对比度、随机饱和度以及随机色调。所述随机噪声处理包括：椒盐噪声或高斯噪声。所述随机几何变换处理包括如下任意一种或几种：随机裁剪、随机旋转以及随机反转。

步骤S104，基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

本步骤在具体实施过程中，所述初始多尺度时空分解卷积网络模型依次包括：初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层。在进行模型训练时具体可以采用如下方式：依次基于初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层对各所述样本视频帧序列进行特征提取处理，获得与各样本视频帧序列对应的第一目标特征向量；基于各所述第一目标特征向量获得与各样本视频帧序列对应的第一动作识别结果；基于各样本视频帧序列的第一动作识别结果以及各样本视频帧序列对应的动作标签，分别对所述初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层中的参数进行调整，获得目标第一时空分解卷积层、目标第一池化层、目标第二时空分解卷积层、目标第三时空分解卷积层、目标第二池化层、目标第一时域多尺度卷积层、目标第三池化层、目标第二时域多尺度卷积层、目标第四池化层、目标第三时域多尺度卷积层以及目标第五池化层，以获得所述目标多尺度时空分解卷积网络模型。

具体的，本实施例中的模型训练过程为：

步骤一、对各所述处理后的样本视频帧进行划分，获得用于模型训练的若干第一样本视频帧序列以及用于模型测试的若干第二样本视频帧序列；

步骤二、基于初始多尺度时空分解卷积网络模型中的初始第一时空分解卷积层，对各第一样本视频帧序列进行特征提取，获得第一特征向量；

步骤三、基于初始多尺度时空分解卷积网络模型中的初始第一池化层，对所述第一特征向量进行特征提取，获得第二特征向量；

步骤四、基于初始多尺度时空分解卷积网络模型中的初始第二时空分解卷积层，对所述第二特征向量进行特征提取，获得第三特征向量；

步骤五、基于初始多尺度时空分解卷积网络模型中的初始第三时空分解卷积层，对所述第三特征向量进行特征提取，获得第四特征向量；

步骤六、基于初始多尺度时空分解卷积网络模型中的初始第二池化层，对所述第四特征向量进行特征提取，获得第五特征向量；

步骤七、基于初始多尺度时空分解卷积网络模型中的初始第一时域多尺度卷积层，对所述第五特征向量进行特征提取，获得第六特征向量；

步骤八、基于初始多尺度时空分解卷积网络模型中的初始第三池化层，对所述第六特征向量进行特征提取，获得第七特征向量；

步骤九、基于初始多尺度时空分解卷积网络模型中的初始第二时域多尺度卷积层，对所述第七特征向量进行特征提取，获得第八特征向量；

步骤十、基于初始多尺度时空分解卷积网络模型中的初始第四池化层，对所述第八特征向量进行特征提取，获得第九特征向量；

步骤十一、基于初始多尺度时空分解卷积网络模型中的初始第三时域多尺度卷积层，对所述第九特征向量进行特征提取，获得第十特征向量；

步骤十二、基于初始多尺度时空分解卷积网络模型中的初始第五池化层，对所述第十特征向量进行特征提取，获得第十一特征向量、以获得第一目标特征向量；

步骤十三、基于各所述第一目标特征向量获得与各第一样本视频帧序列对应的第一动作识别结果；

步骤十四、基于各所述第一样本视频帧序列的第一动作识别结果以及各所述第一样本视频帧对应的动作标签，分别对所述初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层中的参数进行调整，获得目标第一时空分解卷积层、目标第一池化层、目标第二时空分解卷积层、目标第三时空分解卷积层、目标第二池化层、目标第一时域多尺度卷积层、目标第三池化层、目标第二时域多尺度卷积层、目标第四池化层、目标第三时域多尺度卷积层以及目标第五池化层，以获得所述目标多尺度时空分解卷积网络模型；

步骤十五、基于所述初始目标多尺度时空分解卷积网络模型对各所述第二样本视频帧序列进行特征提取，获得第二目标特征向量。本步骤中的具体特征提取过程与步骤二至步骤十二中特征提取过程类似，在此不再赘述。

步骤十六、基于各所述第二目标特征向量获得与各第二样本视频帧序列对应的第二动作识别结果；

步骤十七、基于各第二样本视频帧的第二动作识别结果以及各第二样本视频帧序列对应的动作标签，对所述初始目标多尺度时空分解卷积网络模型进行测试以验证所获得所述目标多尺度时空分解卷积网络模型的有效性，重复步骤二至十四；

步骤S105，基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果，

本步骤在具体实施过程中，具体动作识别过程与步骤S104中的步骤二至步骤十三的过程类似，也是由目标多尺度时空分解卷积网络模型中的目标第一时空分解卷积层、目标第一池化层、目标第二时空分解卷积层、目标第三时空分解卷积层、目标第二池化层、目标第一时域多尺度卷积层、目标第三池化层、目标第二时域多尺度卷积层、目标第四池化层、目标第三时域多尺度卷积层以及目标第五池化层以此对待识别的目标视频数据进行特征提取，获得目标特征向量，最后基于目标特征向量进行康复动作识别。

本申请中的基于多尺度时空分解卷积网络的上肢康复动作识别方法，通过对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

本申请又一实施例提供一种多尺度时空分解卷积网络的上肢康复动作识别方法，具体包括如下步骤：

步骤S201，根据上肢运动康复标准和Fugl-Meyer运动功能评估量表的上肢板块结合脑卒中日常康复训练动作，设计上肢康复动作集；基于摄像机采集不同性别以及不同年龄的用户执行所述上肢康复动作集的视频图像，以获得所述若干样本视频数据；

步骤S202，基于预设的滑动窗口采用滑动间隔采样的方式，分别对各所述样本视频帧数据进行视频帧采样，以获得所述若干样本视频帧序列；

本步骤中滑动间隔采样是从滑动窗口的首部开始每隔n帧均匀抽取视频帧，然后窗口沿着视频序列的时间轴向后滑动m帧，重复上述操作，组成新的视频序列集合，即获得若干组样本视频帧序列。

例如，将样本视频数据（视频序列）中表示为元素个数（视频帧个数）为k的集合

，然后从k个视频帧中抽取n个视频帧组成新的视频帧序列X ₁、X ₂...X _i，采样间隔为p帧，滑动窗口大小为

，滑动步长为m帧，则组成的新的视频帧序列的个数为：

；

本实施例中，由于在完整的视频序列中，相邻帧之间存在着大量的冗余信息，只提取单帧或者一小部分视频序列，没有对视频序列进行长期时间建模，使得动作识别网络模型对视频序列的时空信息挖掘不充分。因此本步骤中，通过采用滑动间隔采样策略，针对每个样本视频数据/视频序列，均可以提取获得若干组样本视频帧序列，各样本视频帧序列分别包含若干视频帧，由此可以过滤掉视频帧间的冗余信息，对视频序列进行长期时间建模，充分挖掘视频中的运动信息，以解决网络对视频长时特征提取不充分的问题。另外通过滑动窗口的方式可以对原有的上肢康复动作数据集进行扩充，改善网络模型因视频数据量不足而导致过拟合的问题。

步骤S203，基于随机光度增强、随机噪声以及随机几何变换，按照随机顺序，依次对各样本视频帧进行数据增强处理，以获得与各样本视频帧序列对应的处理后的样本视频帧序列。

本步骤中，随机光度增强：光度增强是通过变化原始图像的RGB通道从而生成新的数据样本，（r，g，b）中的每个原始像素值将被移位为（r'，g'，b'）中的新像素值，包括随机亮度、随机对比度、随机饱和度和随机色调，通过这种变换可以调整图像亮度、对比度、饱和度和色调并保持对象几何体不变，使网络模型能够学习到受光照影响的动作特征。

随机噪声：基于噪声的数据增强是在原始图像的基础之上，叠加一些随机噪声来生成新的数据样本，包括椒盐噪声和高斯噪声，目的是为了使网络模型学习到存在噪声的动作特征。

随机几何变换：几何变换是通过将原始图像的每个像素的位置映射到新的位置来生成新的数据样本，包括随机裁剪、随机旋转和随机反转等，目的是为了使网络模型能够学习到不同位置、方向或有遮挡的动作特征。

由此，本步骤在获得若干样本视频帧序列之后，可以采用同样的混合数据增强方式对各样本视频帧序列进行处理，即各样本视频帧对应的混合数据增强处理方式相同；例如可以先对各样本视频帧序列进行随机噪声处理，获得噪声处理后的样本视频帧序列，然后对噪声处理后的样本视频帧序列进行随机光度增强处理，获得光度增强后的样本视频帧序列，最后对光度增强后的样本视频帧序列中的各视频帧进行随机几何变换处理，由此获得处理后的样本视频帧。也可以采用不同的数据增强处理方式分别对各样本视频帧序列进行混合数据增强处理，即各样本视频帧对应的混合数据增强处理方式不同；例如对某一（或某一部分）样本视频帧序列进行随机噪声处理，获得噪声处理后的样本视频帧序列，然后对噪声处理后的样本视频帧序列进行随机光度增强处理，获得光度增强后的样本视频帧序列，最后对光度增强后的样本视频帧序列中的各视频帧进行随机几何变换处理，由此获得该（或该部分）处理后的样本视频帧；然后对另一（或另一部分）样本视频帧序列进行随机光度增强处理，获得光度增强后的样本视频帧序列；然后对光度增强后的样本视频帧进行随机噪声处理，获得噪声处理后的样本视频帧序列；最后对噪声处理后的样本视频帧序列中的各样本视频帧进行随机几何变换处理，获得处理后的样本视频帧序列。

本实施例中，由于在采集患者上肢康复动作的过程中，视频数据容易受光照、噪声和异物遮挡镜头等外界因素的影响，且单一的数据增强策略可能都不足以学到良好的视觉表征，故本实施例采用一种基于随机光照增强、随机噪声和随机几何变换的混合数据增强策略。虽然这种混合数据增强策略会增加网络学习视觉表征的难度，但是能够帮助网络模型学习受外界因素干扰的视觉表征，显著提升表征质量，进而减小外界因素的影响。

步骤S204，基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

本步骤中，多尺度时空分解卷积网络模型的结构可以如图2所示，包括3个时空分解卷积层、5个池化层、6个时域多尺度卷积层，也就是依次包括；第一时空分解卷积层Conv3d_1a、第一池化层MaxPool3d_1、第二时空分解卷积层Conv3d_2a、第三时空分解卷积层Conv3d_3a、第二池化层MaxPool3d_2、第一时域多尺度卷积层Inception_1a及Inception_1b、第三池化层MaxPool3d_3、第二时域多尺度卷积层Inception_2a及Inception_2b、第四池化层MaxPool3d_4、第三时域多尺度卷积层Inception_3a及Inception_3b以及目标第五池化层Avg_Pool。本实施例中训练获得的目标模型中各卷积层参数具体可以如图3所示。

本实施例中，由于不同患者恢复程度不同，同类康复动作在不同的视频中动作持续时间不同，类内之间存在差异性，因此使用同一个时间尺度的卷积核来提取视频的运动信息特征来识别上肢康复动作，容易造成视频的部分关键信息的遗漏。由此，本实施例采用多尺度特征融合模块，通过不同尺度的感受野来提取视频运动特征并融合，以解决因尺度不匹配而出现的特征提取不充分问题。

本实施例中，3D卷积的理论公式如式(1)所示，与2D卷积所提取的特征相比，3D卷积可以将视频序列中的时间信息充分加以利用。

（1）

对于视频序列中连续帧上的相同区域，传统的3D卷积是通过赋权重而后相加的方式来学习视频序列中空间之间的信息特征 QUOTE

。

（2）

完整的3D卷积可以更方便地由二维卷积和一维卷积来近似从而分离出空间卷积和时间卷积为两个单独的卷积过程，三维卷积和时空分解卷积的对比图可以如图4（a）和图4（b）所示。

时空分解卷积是将原有的N_i个大小为

的三维卷积核分解为M_i个大小为

的二维卷积核和N_i个大小为

的一维卷积核。其中超参数M_i决定了信号在时空卷积之间投影的子空间个数，通过增加通道数，使分解前后模型的参数保持一致。

（3）

与完整的3D卷积网络相比，时空分解卷积在二维卷积和一维卷积两个子卷积之间的存在额外ReLU函数，因此在没有改变参数的数量的前提下，使网络中的非线性数量增加了一倍，增加了网络的复杂性，提高了网络的容错能力。另外将3D卷积分解为单独的空间和时间分量会使优化更容易，网络损失更低，三维卷积网络和时空分解卷积网络结构的对比如图5（a）、图5（b）所示。

本实施例中，时域多尺度时空分解卷积模块是一种典型的并行多分支结构的多尺度特征融合网络基础框架，在同一层提取多个不同感受野的特征并将其融合传递到下一层，能够灵活地平衡计算量和模型能力。其结构可以如图6所示，由四个不同分支组成，分别是 1*1 *1卷积、3*3*3 卷积、5*3*3 卷积和 3*3*3 最大池化，并将三维卷积核进行时空分解。在3*3*3卷积层、5*3*3卷积层和3*3*3最大池化层的分支中使用 1*1*1 卷积用于降维和减少网络参数。多个不同空间感受野的卷积分支并联后，将提取的特征进行拼接融合，最终得到融合多个感受野的特征图，使动作识别网络可以通过1、3、5三种不同尺度的感受野来提取康复动作的时间特征，而且网络更易优化，容错能力更高。

步骤S205，基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果。

本步骤中，在训练获得目标多尺度时空分解卷积网络模型后，就可以基于该模型对待识别的目标视频帧数据进行特征提取，获得目标特征向量，最后基于目标特征向量进行康复动作识别。

本实施例中的基于多尺度时空分解卷积网络的上肢康复动作识别方法，通过采用滑动间隔采样策略对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

在上述实施例的基础上，以下结合具体的应用场景进行具体说明。本实施例中的基于多尺度时空分解卷积网络的上肢康复动作识别方法，包括如下步骤：

步骤一、首先可以依据上肢运动康复标准和Fugl-Meyer运动功能评估量表的上肢板块，并结合脑卒中患者日常康复训练动作设计8类上肢康复动作，主要包括上肢摸高、喝水、肩部水平外展、梳头、肩部屈曲、肘部屈曲、肘关节屈、提裤。然后进行上肢康复动作数据集的采集工作，将摄像头固定在距人约1.5米处，例如可以共对10名身高、体重各不相同对象（五名男性和五名女性）执行8种上肢康复动作进行视频采集。每人每类动作做5-8组，摄像头帧速率为 30 帧/秒，时长在3~5秒，90~150帧左右，视频中每一帧的尺寸都是为720×1280。

步骤二，基于预设的滑动窗口采用滑动间隔采样的方式，分别对各所述样本视频帧数据进行视频帧采样，以获得所述若干样本视频帧序列；

由于步骤一中采集的上肢康复动作数据集的视频图像大小为(720*1280)，视频图像尺寸太大，会导致卷积核运算量的增加，模型复杂度过高，增加网络过拟合的风险，不利于模型进行训练学习。因此可先对视频图像进行resize处理，将视频图像尺寸调整为(256*456)。然后采用滑动间隔采样策略对人体行为动作数据集进行采样，滤掉视频序列中的冗余信息，同时可以扩充数据样本，抑制网络模型过拟合，采样帧数为48帧，采样间隔为2帧，滑动步长为1。

步骤三、接着采用随机光度变换、随机噪声和随机几何变换组合的数据增强方法将调整大小后的人体行为动作数据集进行随机数据增强。将256*456大小的输入图像随机裁剪为224*224大小，然后以0.5的概率随机反转；随机光度变换中随机亮度增强的亮度、随机饱和度、随机对比度的增强因子设为0.8，随机色调的增强因子设为0.2；以0.5的概率加入随机高斯噪声或者随机椒盐噪声。

步骤四、从上肢康复动作数据集中随机抽取8名实验对象的行为动作作为训练集，剩下的2名实验对象的行为动作作为测试集。在模型训练过程中，使用随机梯度下降法(SGD)进行优化，损失函数为交叉熵损失函数，然后将权重衰减设为0.01，动量设为0.9，采用batch size为3的小样本训练方法训练100轮。设置初始学习率为0.001，设置动态学习率在30轮和60轮时学习率衰减0.1倍，进行多尺度时空分解卷积网络模型训练，获得目标多尺度时空分解卷积网络模型训练。

步骤五、基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果。

本实施例中的基于多尺度时空分解卷积网络的上肢康复动作识别方法，能够快速、准确的对待识别的目标视频数据进行动作识别，提高了动作识别的效率以及准确度。

本申请另一实施例提供一种基于多尺度时空分解卷积网络的上肢康复动作识别装置，如图7所示，本实施例中的装置1包括：

动作采集模块11，用于对上肢康复动作进行采集，获得若干样本视频数据；

采样模块12，用于基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；

数据增强模块13，用于对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；

训练模块14，用于基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

识别模块15，用于基于所述目标多尺度时空分解卷积网络模型对待识别的目标视频数据进行动作识别，获得动作识别结果

本实施例在具体实施过程中，所述动作采集模块具体用于：根据上肢运动康复标准和Fugl-Meyer运动功能评估量表的上肢板块结合脑卒中日常康复训练动作，设计上肢康复动作集；基于摄像机采集不同性别以及不同年龄的用户执行所述上肢康复动作集的视频图像，以获得所述若干样本视频数据

本实施例在具体实施过程中，所述采样模块用于：基于预设的滑动窗口采用滑动间隔采样的方式，分别对各所述样本视频帧数据进行视频帧采样，以获得所述若干样本视频帧序列。

本实施例在具体实施过程中，所述处理模块用于：基于随机光度增强、随机噪声以及随机几何变换，按照随机顺序，依次对各样本视频帧进行数据增强处理，以获得与各样本视频帧对应的处理后的样本视频帧；其中，所述随机光度增强包括如下任意一种或几种：随机亮度、随机对比度、随机饱和度以及随机色调；所述随机噪声包括：椒盐噪声或高斯噪声；所述随机几何变换包括如下任意一种或几种：随机裁剪、随机旋转以及随机反转。

本实施例在具体实施过程中，所述初始多尺度时空分解卷积网络模型依次包括：初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层；

所述训练模块具体用于：依次基于初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层对各所述样本视频帧序列进行特征提取处理，获得与各样本视频帧序列对应的第一目标特征向量；

本实施在具体实施过程中，所述康复动作集包括如下任意一种或几种康复动作：上肢摸高、喝水、肩部水平外展、梳头、肩部屈曲、肘部屈曲、肘关节屈、提裤。

本实施例中的基于多尺度时空分解卷积网络的上肢康复动作识别装置，通过对采样滑动间隔采样方式对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

本申请另一实施例提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

步骤一、对上肢康复动作进行采集，获得若干样本视频数据；

步骤二、基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列；

步骤三、对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧序列；

步骤四、基于各所述处理后的样本视频帧序列对初始多尺度时空分解卷积网络模型进行模型训练，获得目标多尺度时空分解卷积网络模型；

上述方法步骤的具体实施过程可参见上述任意基于多尺度时空分解卷积网络的上肢康复动作识别方法的实施例，本实施例在此不再重复赘述。

申请中的存储介质，通过对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

本申请另一实施例提供一种电子设备，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现如下方法步骤：

申请中的电子设备，通过采用滑动间隔采样的方式对样本视频数据进行视频帧采样，可以过滤掉视频帧间的冗余信息，同时提供充足的样本视频帧，有利于后续基于各样本视频帧充分挖掘视频中的运动信息，提高特征提取的准确度。通过采用混合数据增强策略对样本视频帧进行处理，可以增加网络学习视觉表征的难度，帮助网络模型学习受外界因素干扰的视觉表征，从而显著提升表征质量，进而减小外界因素的影响。通过训练获得目标多尺度时空分解卷积网络模型，然后利用该目标多尺度时空分解卷积网络模型进行动作识别，能够实现基于不同尺度的感受野来提取视频运动特征并融合，从而解决了因尺度不匹配而出现的特征提取不充分的问题，进而提高了动作识别的准确度。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种基于多尺度时空分解卷积网络的上肢康复动作识别方法，其特征在于，包括：

对上肢康复动作进行采集，获得若干样本视频数据；

2.如权利要求1所述的方法，其特征在于，所述对上肢康复动作进行采集，获得若干样本视频数据，具体包括：

3.如权利要求1所述的方法，其特征在于，所述基于各所述样本视频数据进行视频帧采样，获得若干样本视频帧序列，具体包括：

4.如权利要求1所述的方法，其特征在于，对各所述样本视频帧序列分别进行混合数据增强处理，获得若干处理后的样本视频帧，具体包括：

所述随机噪声包括：椒盐噪声或高斯噪声；

5.如权利要求1所述的方法，其特征在于，所述初始多尺度时空分解卷积网络模型依次包括：初始第一时空分解卷积层、初始第一池化层、初始第二时空分解卷积层、初始第三时空分解卷积层、初始第二池化层、初始第一时域多尺度卷积层、初始第三池化层、初始第二时域多尺度卷积层、初始第四池化层、初始第三时域多尺度卷积层以及初始第五池化层；

6.如权利要求2所述的方法，其特征在于，所述上肢康复动作集包括如下任意一种或几种康复动作：上肢摸高、喝水、肩部水平外展、梳头、肩部屈曲、肘部屈曲、肘关节屈、提裤。

7.一种基于多尺度时空分解卷积网络的上肢康复动作识别装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述动作采集模块具体用于：

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-6任一项所述基于多尺度时空分解卷积网络的上肢康复动作识别方法的步骤。

10.一种电子设备，其特征在于，至少包括存储器、处理器，所述存储器上存储有计算机程序，所述处理器在执行所述存储器上的计算机程序时实现上述权利要求1-6任一项所述基于多尺度时空分解卷积网络的上肢康复动作识别方法的步骤。