CN115177273A

CN115177273A - 基于多头再注意力机制的运动意图识别方法及系统

Info

Publication number: CN115177273A
Application number: CN202210759783.6A
Authority: CN
Inventors: 张文利; 赵庭松; 王宇飞; 张健一
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-14
Anticipated expiration: 2042-06-30
Also published as: CN115177273B

Abstract

本发明公开了一种基于多头再注意力机制的运动意图识别方法，包括：获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号和/或样本脑电信号；基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；基于所述运动意图识别模型确定所述脑卒中患者的运动意图。还公开了基于双流Transformer编码器和多头再注意力机制的运动意图识别系统、该运动意图识别方法在脑卒中患者的镜像治疗和/或助动治疗中的应用、电子设备以及计算机可读存储介质。

Description

基于多头再注意力机制的运动意图识别方法及系统

技术领域

本发明涉及计算机虚拟现实和智能康复技术领域，尤其涉及一种基于多头再注意力机制的运动意图识别方法及系统。

背景技术

“脑卒中”又称“中风”、“脑血管意外”，是一种急性脑血管疾病，是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病，包括缺血性和出血性卒中，缺血性卒中的发病率高于出血性卒中，占脑卒中总数的60％～70％。颈内动脉和椎动脉闭塞和狭窄可引起缺血性脑卒中，年龄多在40岁以上，男性较女性多，严重者可引起死亡，出血性卒中的死亡率较高，脑卒中具有发病率高、死亡率高和致残率高的特点，其中腕内翻是脑卒中常见的临床表现，患者手臂肌肉萎缩，失去手部的抓拿作用，十分不便。

运动意图是实现精确跟踪人体上肢运动，最终实现上肢的镜像治疗的关键部分。尽管近年来外骨骼领域针对运动意图的研究取得了一定成果，但是技术依旧不够成熟。运动意图识别的关键是针对脑卒中患者获取当前时刻执行不完全的动作的时间序列，从中分析出患者的预期动作，以指导患侧手根据患者的运动意图进行康复运动。目前针对人体运动意图的识别方法主要有基于力学信息的意图识别和基于生物电信息的意图识别。然而，采用力学信息的运动意图识别方法由于只有在使用者开始运动后才能得到，具有较为严重的滞后性，并不能直接反映人的运动意图，难以实现柔性控制。由于人体连续运动会造成肌肉收缩性下降、上表皮出汗等问题，从而使得运动意图的预测结果准确性下降，基于生物电信息的意图识别需要全面考虑长时间使用后使用者肌肉状态对肌电信息的影响，因此人们开始研究机器学习方法在运动意图识别领域的应用。对于人体全身方面运动意图识别的研究，通常在人体和外骨骼上穿戴加速度、角速度、压力等多种传感器来采集生理信号，进而对人体运动形式进行预判，从而控制外骨骼机器人运动。对于人体下肢康复运动领域的研究，例如：Marion等学者研究了利用前馈神经网络和长短时记忆神经网络这两种网络预测下肢运动过程中的地面反作用力和关节力矩，平均预测精度为 0.95，参见文献《MundtMarion,Koeppe Arnd,David Sina,Bamer Franz,Potthast Wolfgang,MarkertBernd.Predict ion ofground reaction force andjoint moments based onopticalmotion capture data during gait.[J].Medical engineering&physics，2020，86.》。但由于上述方法的网络结构较简单，对于生物电信号在变化明显处的特征提取效果较差，因此预测精度普遍偏低。

因此，现有技术在针对重度脑卒中患者的镜像康复治疗和中、轻度助动治疗中应用识别模型进行运动意图识别还没有成熟可应用的技术方案。

发明内容

为了解决现有技术中存在的问题，本发明提供了如下一种基于多头再注意力机制的运动意图识别方法及系统，基于所采集的患者不同动作下的样本信号，进行数据样本扩展后建立肌电运动意图识别模型，基于识别模型可以较高准确率的识别运动意图，从而为进行有效的主动康复治疗提供依据。

本发明一方面提供了一种基于多头再注意力机制的运动意图识别方法，包括：

S1，获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号和/或样本脑电信号；

S2，基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；

S3，基于所述运动意图识别模型确定所述脑卒中患者的运动意图。

优选的，所述S2，基于每组样本信息建立基于多头再注意力机制的运动意图识别模型包括：

S21，对所述样本信息进行预处理并获得建立运动意图识别模型所需的第一部分数据集数据；

S22，将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据，将所述第一部分数据集数据与所述第二部分数据集数据合并形成样本数据集数据；

S23，建立基于多头再注意力机制的运动意图识别网络；所述运动意图识别网络包括双流Transformer编码器、长短序列特征交叉注意力模块、多尺度特征融合模块以及运动意图分类模块；所述双流 Transformer编码器包括多头再注意力机制；

S24，将所述样本数据集数据输入所述运动意图识别网络中进行训练学习，获得所述运动意图识别模型。

优选的，所述可穿戴设备为肌电采集传感器、惯性测量传感器和 /或脑电采集传感器。

优选的，所述S21的所述预处理包括降噪、归一化、取绝对值以及数据分割，其中：

S211，所述降噪包括滤除原始的所述肌电信号中的工频干扰、运动伪迹和/或多通道串扰原因造成的噪声，从而获得滤除噪声后的样本信息；

S212，所述归一化包括将所述滤除噪声后的样本信息限定到有利于模型训练的大小，获得归一化肌电信号；

S213，所述取绝对值包括：将每个所述归一化肌电信号的全部序列取绝对值；

S214，数据分割：将取绝对值后的归一化肌电信号的全部序列切割为多个样本时序窗，将所述多个样本时序窗作为数据集数据。

优选的，所述S22所述将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据包括：

S221，随机取窗：将所述第一部分数据集数据进行随机取窗获得所述第二部分数据集数据中的随机取窗样本数据，包括：在每一类动作序列内随机选取窗的起始点，并根据窗长确定终止点从而获得肌电时序窗；基于所述肌电时序窗将取绝对值后的归一化样本信息全部序列进行随机取窗获得所述第二部分数据集数据中的随机取窗样本数据；

S222，时延信号增强：将所述第一部分数据集数据进行时延信号增强获得所述第二部分数据集数据中的时延信号增强样本数据，包括：随机选取S214的所述多个样本时序窗中其中一个样本时序窗的一段采样点并删除；选取所述其中一个样本时序窗的下一时刻与所删除的采样点点数相同的采样点放入窗尾，形成时延信号增强时序窗；基于所述时延信号增强时序窗将取绝对值后的归一化样本信息全部序列进行时延信号增强获得所述第二部分数据集数据中的时延信号增强样本数据；

S223，将所述第二部分数据集数据中的随机取窗样本数据和所述第二部分数据集数据中的时延信号增强样本数据合并获得第二部分数据集数据；将所述第一部分数据集数据与所述第二部分数据集数据合并形成样本数据集数据基于数据增强合并实现，从而有效扩充样本数据集数据量。

优选的，所述S22仅包括执行所述S221随机取窗或所述S222 所述时延信号增强，并据此选择不实施S223。

优选的，所述双流Transformer编码器包括通道注意力模块、长序列切片变换模块、短序列切片变换模块、多头再注意力机制模块以及前馈神经网络模块；

所述长短序列特征交叉注意力模块用于同时学习由所述长/短序列切片变换模块获得的长序列分支和短序列分支的识别信息；

所述多尺度特征融合模块用于将通过所述长短序列特征交叉注意力模块的所述长序列分支所学习到的所述识别信息和所述短序列分支所学习到的所述识别信息进行融合后输出多尺度融合特征；

所述运动意图分类模块用于使用全连接对所述多尺度融合特征进行运动意图分类得到运动意图输出结果。

优选的，建立所述双流Transformer编码器包括：

S231，建立通道注意力模块，包括：根据样本信息的时序性特征以及多通道肌电信号的空间特征，计算各个通道之间的联系，学习空间分布中每个通道的信号特征对康复动作识别的重要性，并自适应调整各通道的识别权重，使经过所述通道注意力模块的样本时序窗形成通道注意力；

S232，建立长序列切片变换模块和短序列切片变换模块，包括：将形成所述通道注意力的样本时序窗按照一定时间采样点数进行切片处理，分别形成较多采样点的长序列和较少采样点的短序列；将每个切片的所述长序列和所述短序列通过长序列切片模块和短序列切片模块分别变换为长序列切片一维向量和短序列切片一维向量；

S233，建立多头再注意力机制模块，所述多头再注意力机制为在双流Transformer编码器中通过在多头注意力之间用一个带有可学习参数的变换矩阵以增加多头再注意力机制；

S234，建立前馈神经网络，所述前馈神经网络由多个全连接层构成，所述前馈神经网络与所述多头再注意力机制模块之间设置第一残差连接和归一化模块；所述前馈神经网络与所述长短序列特征交叉注意力模块之间设置第二残差连接和归一化模块。

优选的，所述多头再注意力机制用于对所述多头注意力矩阵 MultiHead(Q'，K'，V')增设带有学习参数的变换矩阵，从而将多头注意力矩阵中的信息变换整合，收集互补信息，以构建深层网络，所述多头再注意力机制的数学表达如式(2)所示：

Re-Attention(Q'，K'，V')＝Norm(θ^TMultiHead(Q'，K'，V')) (2)；

MultiHead(Q'，K'，V')＝concat(head 1，...，head h)； (15)

其中Re-Attention为多头再注意力机制，Q’，K’，V’分别为转换后的查询矩阵、键矩阵和值矩阵，d为矩阵的行向量维度，Softmax 为归一化指数函数，变换矩阵为θ^T，Norm函数为归一化函数，包括求取最大奇异值或范数；MultiHead(Q'，K'，V')为原始多头注意力矩阵；headi为第i个单头注意力矩阵；concat函数能够沿指定轴将多个矩阵进行连接形成拼接矩阵。

优选的，所述多头再注意力机制模块包括：

多头再切片形成模块，用于基于长序列切片一维向量和短序列切片一维向量构建长序列切片矩阵和短序列切片矩阵并输入到所述切片矩阵变换模块；

切片矩阵变换模块：用于将长序列切片矩阵和短序列切片矩阵进行线性变化获得查询矩阵Q、键矩阵K和值矩阵V并通过全连接层得到转换后的查询矩阵Q'、键矩阵K'和值矩阵V'并输入所述单头注意力变换模块；

单头注意力变换模块：用于基于转换后的查询矩阵Q'、键矩阵 K'和值矩阵V'获取多个单头注意力矩阵；

多头再注意力融合模块：用于将多个单头注意力矩阵拼接构建多头注意力矩阵；基于多头注意力矩阵构建多头再注意力矩阵；基于全连接层将多头再注意力矩阵压缩，使多头再注意力压缩后的矩阵与单头注意力矩阵维度保持一致；输出压缩后的多头再注意力矩阵X’或 Y’；

所述多头切片形成模块用于接收短序列切片模块输出的n个短序列切片一维向量a₁,a₂,…,a_n，或接收长序列切片模块输出的L个长序列切片一维向量b₁,b₂,…,b_L；构建短序列切片矩阵X＝[a₁,a₂,…,a_n]或长序列切片矩阵Y＝[b₁,b₂,…,b_L]；将所述短序列切片矩阵X或长序列切片矩阵Y输出到切片矩阵变换模块中；

所述切片矩阵变换模块用于接收所述短序列切片矩阵X或长序列切片矩阵Y，通过线性变换得到查询矩阵Q、键矩阵K和值矩阵V，如式(11)、(12)、(13)所示；

对于短序列切片矩阵X，则：

Q＝W_qX+b_q (11)；

K＝W_kX+b_k (12)；

V＝W_vX+b_v (13)；

或对于长序列切片矩阵Y执行与式(11)、(12)、(13)相同的操作；

其中W_q，W_K，W_v，为每个注意力机制中带有可学习参数的矩阵， b_q，b_k，b_v为矩阵偏置，在模型训练过程中通过优化更新参数矩阵与矩阵偏置；

获取Q，K和V值后，通过全连接层得到转换后的查询矩阵Q'、键矩阵K'和值矩阵V'，将转换后的查询矩阵Q'，键矩阵K'和值矩阵 V'输出到所述单头注意力变换模块中，用以构建多头再注意力机制的单个头；

所述单头注意力变换模块用于接收所述切片矩阵变换模块输出的转换后的查询矩阵Q'、键矩阵K'和值矩阵V'；然后进行如下处理：首先将转换后的键矩阵K'转置与转换后的查询矩阵Q'点乘；然后将点乘结果除以矩阵的行向量维度d的二分之一次方

最后将上述计算结果经过Softmax函数进行归一化处理并乘以值矩阵V'，得到含有单头注意力信息的输出矩阵head；

所述单头注意力计算公式如式(1)所示：

其中head为含有单头注意力信息的输出矩阵，Attention为单头注意力变换，Q'，K'和V'分别为转换后的查询矩阵、键矩阵和值矩阵， Q'，K'，和V'矩阵维度均相同，d为矩阵的行向量维度；

当有h个单头注意力模块时，分别得到h个单头注意力输出矩阵 head 1，head2，…，head i，…，headh，如式(14)：

其中

并将h个单头注意力矩阵输出到多头再注意力融合模块中；

所述多头再注意力融合模块用于接收所述h个单头注意力输出矩阵head 1，head2，…，head i，…，head h，将其拼接构建含有多头注意力信息的矩阵，如式(15)所述，

MultiHead(Q'，K'，V')＝concat(head 1，...，head h) (15)；

其中concat函数能够沿指定轴将多个矩阵进行连接形成拼接矩阵；

将多头注意力矩阵MultiHead(Q'，K'，V')经过多头再注意力机制构建多头再注意力矩阵；将多头再注意力矩阵MultiHead(Q'，K'，V')进行压缩处理获得压缩后的多头再注意力矩阵X’或Y’，将所述压缩后的多头再注意力矩阵X’或Y’输出到第一残差连接和归一化模块中进行处理，其中所述压缩处理包括：使用全连接层将多头再注意力矩阵压缩，使多头再注意力压缩后的矩阵与单头注意力矩阵维度保持一致。

本发明的第二方面提供一种基于多头再注意力机制的运动意图识别系统，包括：

样本采集模块，用于获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号或样本脑电信号；

模型建立模块，用于基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；

运动意图识别模块，用于基于所述运动意图识别模型确定所述脑卒中患者的运动意图。

本发明的第三发明提供一种基于多头再注意力机制的运动意图识别方法在脑卒中患者的镜像治疗和/或助动治疗中的应用。

本发明的第四方面提供一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如第一方面所述的方法。

本发明的第五方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如第一方面所述的方法。

本发明提供的基于多头再注意力机制的运动意图识别方法、系统、应用、电子设备以及计算机可读存储介质，具有如下有益的技术效果：

采集患者穿戴设备的样本信号，进行预处理后将全部信号截取为样本时序窗作为数据集数据，并对数据集数据进行数据增强，扩充训练样本。对样本信号进行长短序列的切片并分别输入至双流 Transformer编码器，充分提取信号长时序列和短时序列的信息。对提取出来的特征使用长短序列特征交叉注意力模块和多尺度特征融合模块，兼顾样本时序窗中的长时序列和短时序列信息，并进行特征融合最终形成基于长短时序交叉注意力的双流多尺度融合的运动意图识别网络，最后通过意图分类模块得出患者运动意图，实现高准确率的运动意图识别。

附图说明

图1(a)为本发明所述的基于多头再注意力机制的运动意图识别方法的流程图；图1(b)为本发明所述的基于每组样本信息建立基于多头再注意力机制的运动意图识别模型方法流程图。

图2为本发明所述的基于多头再注意力机制的运动意图识别网络结构示意图。

图3为本发明所述的多头再注意力机制模块的原理架构图。

图4为现有技术传统Transformer模型层与层之间的相似程度比较示意图。

图5为本发明所述的多头再注意力机制的原理图，其中图5(a) 为改进前的多头注意力机制对应的模块原理图，图5(b)为基于图5 (a)多头注意力机制下改进的再注意力模块原理图。

图6为本发明所述基于多头再注意力机制的运动意图识别系统的原理架构图。

图7为本发明所述电子设备结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。

本发明提供的方法可以在如下的终端环境中实施，该终端可以包括一个或多个如下部件：处理器、存储器和显示屏。其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现下述实施例所述的方法。

处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行终端的各种功能和处理数据。

存储器可以包括随机存储器(RandomAccess Memory，RAM)，也可以包括只读存储器(Read-OnlyMemory，ROM)。存储器可用于存储指令、程序、代码、代码集或指令。

显示屏用于显示各个应用程序的用户界面。

除此之外，本领域技术人员可以理解，上述终端的结构并不构成对终端的限定，终端可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件，在此不再赘述。

实施例一

参见图1(a)，一种基于多头再注意力机制的运动意图识别方法，包括：S1，获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号和/或样本脑电信号；S2，基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；S3，基于所述运动意图识别模型确定所述脑卒中患者的运动意图。

参见图1(b)以及图2，所述S2，基于每组样本信息建立基于多头再注意力机制的运动意图识别模型包括：S21，对所述样本信息进行预处理并获得建立运动意图识别模型所需的第一部分数据集数据；S22，将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据，将所述第一部分数据集数据与所述第二部分数据集数据合并形成样本数据集数据；S23，建立基于多头再注意力机制的运动意图识别网络；所述运动意图识别网络包括双流Transformer编码器、长短序列特征交叉注意力模块、多尺度特征融合模块以及运动意图分类模块；所述双流Transformer编码器包括多头再注意力机制；S24，将所述样本数据集数据输入所述运动意图识别网络中进行训练学习，获得所述运动意图识别模型。

作为优选的实施方式，所述可穿戴设备为肌电采集传感器、惯性测量传感器和/或脑电采集传感器。本实施例中，可穿戴设备为肌电采集传感器，将肌电采集传感器固定在所述脑卒中患者的健侧手的对应位置。

作为优选的实施方式，所述S21的所述预处理包括降噪、归一化、取绝对值以及数据分割，其中：S211，所述降噪包括：根据所述样本信息的类型设置滤波器类型和系数以及盲源分离方法；基于所述滤波器和盲源分离方法滤除原始的所述肌电信号中的工频干扰、运动伪迹和/或多通道串扰原因造成的噪声，从而获得滤除噪声后的样本信息； S212，所述归一化包括：基于Z-score或最大最小归一化的方法将所述滤除噪声后的样本信息限定到有利于模型训练的大小，获得归一化肌电信号；S213，所述取绝对值包括：将所述归一化肌电信号的全部序列取绝对值；步骤S213的实施是由于归一化肌电信号中，每段动作段的信号幅值有正有负，但无论正负均可表现肌肉的收缩，不进行绝对值处理可能会抵消掉有用信息；S214，数据分割：将取绝对值后的归一化肌电信号的全部序列切割为多个样本时序窗，将所述多个样本时序窗作为数据集数据。对于本实施例中，样本数据为肌电信号，肌电信号是一个时间序列，根据采样设备的采样率会采集一段长序列，因数据过长无法对数据进行训练和识别，因此将取绝对值后的归一化肌电信号全部序列切割为多个肌电时序窗，即取窗，记为原始肌电时序窗，将所述原始肌电时序窗作为数据集数据，数据集数据后续进行数据增强合并获取用于训练运动意图识别模型的训练数据等。

作为优选的实施方式，S22中将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据包括将所述第一部分数据集数据分别进行随机取窗以及时延信号增强后分别获得所述第二部分数据集数据中的随机取窗样本数据和所述第二部分数据集数据中的时延信号增强样本数据，将所述第二部分数据集数据中的随机取窗样本数据和所述第二部分数据集数据中的时延信号增强样本数据合并获得第二部分数据集数据。

作为优选的实施方式，所述S22所述将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据包括：S221，随机取窗：包括：在每一类动作序列内随机选取窗的起始点，并根据窗长确定终止点从而获得随机取窗时序窗；基于所述随机取窗时序窗将取绝对值后的归一化样本信息全部序列进行随机取窗获得所述第二部分数据集数据中的随机取窗样本数据；对于本实施例中的肌电信号，S221 操作的目的是可以取到S214实施过程中无法取到的肌电时序窗，以增加数据集的样本多样性。S222，时延信号增强：包括：随机选取 S214的所述多个样本时序窗中其中一个样本时序窗的一段采样点并删除；选取所述其中一个样本时序窗的下一时刻与所删除的采样点点数相同的采样点放入窗尾，形成时延信号增强时序窗；基于所述时延信号增强时序窗将取绝对值后的归一化样本信息全部序列进行时延信号增强获得所述第二部分数据集数据中的时延信号增强样本数据。本实施例中，S222实施的目的在于肌电采集传感器会有内部元器件或者传输收发时产生数据遗漏的问题，这样可以增加系统的样本量和鲁棒性。S223，将所述第二部分数据集数据中的随机取窗样本数据和所述第二部分数据集数据中的时延信号增强样本数据合并获得第二部分数据集数据。

所述将所述第一部分数据集数据与所述第二部分数据集数据合并形成样本数据集数据基于数据增强合并实现，从而有效扩充样本数据集数据量。

需要说明的是，所述S22仅包括执行所述S221随机取窗或所述 S222所述时延信号增强，并据此选择不实施S223。因此以上三种数据扩增方式(仅包含S221，仅包含S222，同时包括S221-S223的方案)均在本发明的保护范围，均能在不同程度上有效扩充样本数据集的数据量。

再次参见图2，其中“XM”与“XN”表示该虚线中的结构重复 M次和N次以构建深层的编码器，提取到更深层的特征，基于此，长短序列特征交叉注意力模块用于同时学习由所述长序列切片变换模块和短序列切片变换模块分别获得的长序列分支和短序列分支的识别信息；具体的，本实施例中，识别信息与图2中所示的短序列特征和长序列特征相对应，因此所述交叉注意力模块用于同时学习由所述长序列切片变换模块和短序列切片变换模块构建的长序列分支所输出的长序列特征和短序列分支所输出的短序列特征。

所述多尺度特征融合模块用于将通过所述长短序列特征交叉注意力模块的所述长序列分支的所述识别信息和所述短序列分支的所述识别信息进行融合后输出多尺度融合特征；本实施例中，具体方法是首先利用每个分支的CLS token(classification token，分类切片) 作为代理，在另一个分支的patchtoken(序列切片)之间交换信息，然后将其投影到自己的分支。由于CLS token已经学习了自己分支中所有patch token之间的抽象信息，因此与另一个分支中的patchtoken 的交互有助于融合不同尺度的信息。与其他分支token融合后，CLS token在下一层Transformer编码器上再次与自己的patch token交互，在这一步中，它又能够将来自另一个分支的学习信息传递给自己的 patch token，以丰富每个patch token的特征表示。

所述运动意图分类模块：使用全连接对所述多尺度融合特征进行运动意图分类得到运动意图输出结果。

作为优选的实施方式，所述双流Transformer编码器包括通道注意力模块、长序列切片变换模块、短序列切片变换模块、多头再注意力机制模块以及前馈神经网络模块。

建立所述双流Transformer编码器包括：S231，建立通道注意力模块，包括：根据样本信息的时序性特征以及多通道肌电信号的空间特征，计算各个通道之间的联系，本实施例中，其中一个通道对应一个肌电传感器，多个肌电传感器分布在不同肌肉群上；学习空间分布中每个通道的信号特征对康复动作识别的重要性，并自适应调整各通道的识别权重，使经过所述通道注意力模块的样本时序窗形成通道注意力；从而使得运动意图识别网络更好提取到肌电中所蕴含的动作信息；S232，建立长序列切片变换模块和短序列切片变换模块，包括：将形成所述通道注意力的样本时序窗按照一定时间采样点数进行切片处理，分别形成较多采样点的长序列和较少采样点的短序列；将每个切片的所述长序列和所述短序列通过长序列切片模块和短序列切片模块分别变换为长序列切片一维向量和短序列切片一维向量；本实施例中，所采集的肌电信号中包含针对患手可活动程度不同而设置多种难易程度的康复手势。复杂康复手势更依赖长时肌电序列中的变化特征，简单康复手势更依赖短时肌电序列中的变化特征；而提取长时肌电序列特征会对简单手势识别造成信息冗余，提取短时肌电序列特征信息不足以识别复杂康复手势，因此同时进行长序列和短序列切片有利于各种手势的识别；S233，建立多头再学习注意力模块。

参见图3，多头再注意力机制模块包括构成：多头切片形成模块 S1：用于接收短序列切片模块输出的n个短序列切片一维向量 a₁,a₂,…,a_n，或接收长序列切片模块输出的L个长序列切片一维向量 b₁,b₂,…,b_L。并构建短序列切片矩阵X＝[a₁,a₂,…,a_n]或长序列切片矩阵 Y＝[b₁,b₂,…,b_L]；将所述短序列切片矩阵X或长序列切片矩阵Y输出到切片矩阵变换模块S2中；切片矩阵变换模块S2：接收所述短序列切片矩阵X或长序列切片矩阵Y，通过线性变换得到查询矩阵Q、键矩阵K和值矩阵V，如式(11)、(12)、(13)所示。

对于短序列切片矩阵X，则：

Q＝W_qX+b_q(11)；

K＝W_kX+b_k(12)；

V＝W_vX+b_v(13)；

对于长序列切片矩阵Y执行与式(11)、(12)、(13)相同的操作。

其中W_q，W_K，W_v，为每个注意力机制中带有可学习参数的矩阵， b_q，b_k，b_v为矩阵偏置，在模型训练过程中通过优化更新参数矩阵与矩阵偏置，使模型输出逼近正确运动意图。

获取Q，K和V值后，通过全连接层得到转换后的查询矩阵Q'、键矩阵K'和值矩阵V'，将转换后的查询矩阵Q'、键矩阵K'和值矩阵 V输出到单头注意力变换模块S3中，用以构建多头再注意力机制的单个头。

单头注意力变换模块S3：用于接收所述切片矩阵变换模块S2输出的转换后的查询矩阵Q'、键矩阵K'和值矩阵V；首先将转换后的键矩阵K'转置与转换后的查询矩阵Q'点乘；然后将点乘结果除以矩阵的行向量维度d的二分之一次方

目的是缩小矩阵参数数值易于模型计算；最后将上述计算结果经过Softmax函数进行归一化处理并乘以值矩阵V'，得到含有单头注意力信息的输出矩阵head；所述单头注意力变换模块S3计算公式如式(1)，具体结构如图3中S3 虚线部分。通过单头注意力模块的计算公式可以学习到各个切片之间的相关性。

其中head为含有单头注意力信息的输出矩阵，Attention为单头注意力变换，Q'，K'和V'分别为转换后的查询矩阵、键矩阵和值矩阵，Q'，K'，和V' 矩阵维度均相同，d为矩阵的行向量维度。

其中

并将h个单头注意力矩阵输出到多头再注意力融合模块S4 中获得带有注意力信息的短序列切片X’和长序列切片Y’。

多头再注意力融合模块S4包括如下功能：(1)多头注意力拼接：接收所述h个单头注意力输出矩阵head1，head2，…，headi，…， headh，将其拼接构建含有多头注意力信息的矩阵，如式(15)所述，通过多头注意力拼接可以将多个维度注意力信息有效整合，

MultiHead(Q'，K'，V')＝concat(head 1，...，head h) (15)；

其中concat函数能够沿指定轴将多个矩阵进行连接形成拼接矩阵。

(2)将多头注意力矩阵MultiHead(Q'，K'，V')附加再注意力机制：接收多头注意力矩阵MultiHead(Q'，K'，V')，再注意力机制增设带有学习参数的变换矩阵将多头注意力矩阵中的信息变换整合，收集互补信息，以构建深层网络，更好地提高了每层注意力特征的多样性，如式 (2)所示：

Re-Attention(Q'，K'，V')＝Norm(θ^TMultiHead(Q'，K'，V')) (2)，

其中Re-Attention为多头再注意力机制，MultiHead(Q'，K'，V')为原始多头注意力矩阵，变换矩阵为θ^T，Norm为归一化函数。

多头再注意力机制与多头自注意力机制相比，只需要微不足道的计算开销。使每层的多头自注意力机制的多个头学习到各异的特征，以增加在不同层学习到的特征多样性，使模型获得预期的性能提升。

(3)将多头再注意力矩阵Re-Attention(Q'，K'，V')进行多头再注意力压缩：接收所述再注意力模块S5输出的多头再注意力矩阵 Re-Attention(Q'，K'，V')，使用全连接层将多头再注意力矩阵压缩，使多头再注意力压缩后的矩阵与单头注意力矩阵维度保持一致。

(4)将所述压缩后的多头再注意力矩阵X’或Y’输出到第一残差连接和归一化模块中进行处理，其中第一残差连接和归一化模块的建立在下面进行详细说明。

由于在使用注意力模型搭建模型时，增加网络深度可以提取到更细致的特征，是提高模型性能的有效方式。原始的Transformer中的多头注意力机制(Multi-HeadAttention)每个头计算公式(1)如下：

其中Attention为多头注意力机制，Q，K，V分别为查询矩阵、键矩阵和值矩阵，d为矩阵的行向量维度，Softmax为归一化指数函数，Softmax函数是一个单层的神经网络，是二分类函数sigmoid在多分类上的推广，用于将多分类的结果以概率的形式展示出来，Softmax的计算方法为： Softmax是将在负无穷到正无穷上的预测结果按照两步转换为概率：第一步是将模型的预测结果转化到指数函数上，从而保证概率的非负性；第二步是为了确保各个预测结果的概率之和等于1，将转换后的结果，即将转化后的结果除以所有转化后结果之和，可以理解为转化后结果占总数的百分比，得到近似的概率。通过该注意力计算公式可以学习到同一层中每个切片之间的相关性。

在使用多头注意力机制(Multi-HeadAttention)构建Transformer 模型，传统Transformer模型仅通过堆叠Encode的方式增加网络深度，在深度N达到一定深度后层与层之间输出的特征会越来越相似，无法增加网络性能甚至还可能出现特征提取能力下降的问题，这种现象为注意力崩溃如图4。

图4所示为层与层之间的相似程度，其中K表示邻近层数，K＝1 即为最近一层相似度，K＝2为每隔一层计算相似度，以此类推。

本发明克服注意力崩溃问题的传统办法是增加长序列切片变换和短序列切片变换的维度，即增加Input Embedding维度。这样可以增强网络单个流的特征表示能力，编码更多信息，但这种方法会显著增加计算成本，随着网络层数增加而带来的性能改善往往会减少。此外，更大的模型(嵌入维数更高)通常需要更多的数据进行训练，存在过度拟合风险。因此本发明提出的解决方案，即在双流Transformer 编码器中增加再注意力机制：通过在多头注意力(附图5(a)所示) 之间用一个带有可学习参数的变换矩阵(附图5(b)所示)，再注意力模型的数学表达如上式(2)所示。

该方法的增设的变换矩阵通过多头注意力之间的相互作用来收集它们的互补信息，更好地提高了注意力特征的多样性。而且与多头自注意力机制相比，它只需要微不足道的计算开销。使每层的多头自注意力机制的多个头学习到各异的特征，以增加在不同层学习到的特征多样性，使模型获得预期的性能提升。因此，它比第一种增加切片维数的方法更有效。改进前后的注意力机制分别如图5(a)和5(b) 所示。其中，图5(a)为Multi-HeadAttention，图5(b)为Re-Attention (再注意力模块)。

其中两个残差连接和归一化模块都用于解决多层神经网络训练中的问题，用于将上一模块的输入输出进行加权连接，并进行归一化处理，两个模块用于使得浅层信息有效传递到深层，从而有效解决梯度消失的问题。包括残差连接Add和归一化Norm两个部分：(1)残差连接Add代表了Residual Connection，通过将一部分的前一层的信息无差的传递到下一层，提升模型性能，解决多层神经网络训练困难的问题。对于有些层，无法确定其效果是否为正向的，增加残差连接后，将上一层的信息分为两路，一部分通过层进行变化，另一部分直接传入下一层，将两部分的结果进行相加作为一下层的输入，从而通过残差连接后至少可以保留上一层的信息；(2)归一化Norm为层归一化，通过对层的激活值的归一化，加速模型的训练过程，从而获得更快的收敛速度。本实施例中归一化包括两种方法：对同一个batch下不同样本的同一个特征做归一化或在通道方向上对同一个样本的不同特征做归一化。

作为优选的实施方式，所述S24包括：将S214中的所述数据集数据、S221中获取的随机取窗样本时序窗以及S222中获取的所述时延信号增强的样本时序窗组成样本数据集数据，并将所述样本数据集数据输入运动意图识别网络中进行训练学习。

实施例二

参见图6，本实施例二提供一种基于多头再注意力机制的运动意图识别系统，包括：样本采集模块101，用于获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号或样本脑电信号；模型建立模块102，用于基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；运动意图识别模块103，用于基于所述运动意图识别模型确定所述脑卒中患者的运动意图。

本发明的第三发明提供一种基于多头再注意力机制的运动意图识别方法在脑卒中患者的镜像治疗和/或助动治疗中的应用。其中脑卒中患者分为以下三类，以及对应的治疗方式：

(一)重度病人

适用对象：Brunnstorm分期I(无随意运动(迟缓期))、II(仅有极细微的屈曲)病人。

患者特点：患侧手无随意运动或者仅有细微弯曲，没有可靠的表达运动意图的肌电信号。

措施：镜像治疗，采集健侧手肌电信号识别动作，从而控制患侧手的康复辅具运动。

(二)中度病人

适用对象：Brunnstorm分期III(整体抓握，使用勾状抓握但不能放松，不能伸指)、IV(能侧方捏及松开拇指，手指有半随意的小范围伸展)、V(可做球状、圆柱状抓握，手指可一起伸展但不能单独伸展)病人。

患者特点：患侧手仅有部分自主运动，但具有较为可靠的表达运动意图的肌电信号。

措施：助动治疗，按照特定康复动作采集患侧手肌电信号识别手势动作，从而控制康复辅具进行康复运动。

(三)轻度病人

适用对象：Brunnstorm分期VI病人。

患者特点：所有抓握均能完成，但速度准确度比健侧差，此阶段病人动作均可自我执行。

本发明还提供了一种存储器，存储有多条指令，所述指令用于实现如实施例一所述的方法。

如图7所示，本发明还提供了一种电子设备，包括处理器701和与所述处理器701连接的存储器702，所述存储器702存储有多条指令，所述指令可被所述处理器加载并执行，以使所述处理器能够执行如实施例一所述的方法。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多头再注意力机制的运动意图识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述S2，基于每组样本信息建立基于多头再注意力机制的运动意图识别模型包括：

S23，建立基于多头再注意力机制的运动意图识别网络；所述运动意图识别网络包括双流Transformer编码器、长短序列特征交叉注意力模块、多尺度特征融合模块以及运动意图分类模块；所述双流Transformer编码器包括多头再注意力机制；

3.根据权利要求2所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述可穿戴设备为肌电采集传感器、惯性测量传感器和/或脑电采集传感器。

4.根据权利要求2所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述S21的所述预处理包括降噪、归一化、取绝对值以及数据分割，其中：

S213，所述取绝对值包括：将所述归一化肌电信号的全部序列取绝对值；

5.根据权利要求4所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述S22所述将所述第一部分数据集数据进行数据集扩充获得第二部分数据集数据包括：

6.根据权利要求5所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述S22仅包括执行所述S221随机取窗或所述S222所述时延信号增强，并据此选择不实施S223。

7.根据权利要求4所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，

所述双流Transformer编码器包括通道注意力模块、长序列切片变换模块、短序列切片变换模块、多头再注意力机制模块以及前馈神经网络模块；

所述长短序列特征交叉注意力模块用于同时学习由长序列切片变换模块和短序列切片变换模块获得的长序列分支识别信息和短序列分支识别信息；

所述多尺度特征融合模块用于将通过所述长短序列特征交叉注意力模块的所学习到的所述长序列分支识别信息和所述短序列分支识别信息进行融合后输出多尺度融合特征；

8.根据权利要求7所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，建立所述双流Transformer编码器包括：

S232，建立长序列切片变换模块和短序列切片变换模块，包括：将形成所述通道注意力的样本时序窗按照一定时间内的采样点数进行切片处理，分别形成较多采样点的长序列和较少采样点的短序列；将每个切片的所述长序列和所述短序列通过长序列切片模块和短序列切片模块分别变换为长序列切片一维向量和短序列切片一维向量；

9.根据权利要求8所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，

所述多头再注意力机制用于对所述多头注意力矩阵MultiHead(Q'，K'，V')增设带有学习参数的变换矩阵，从而将多头注意力矩阵中的信息变换整合，收集互补信息，以构建深层网络；

所述多头再注意力机制的数学表达如式(2)所示：

Re-Attention(Q'，K'，V')＝Norm(θ^TMultiHead(Q'，K'，V')) (2)；

其中，

MultiHead(Q'，K'，V')＝concat(head 1，...，head h)；

其中Re-Attention为多头再注意力机制，Attention为单头注意力变换，Q’，K’，V’分别为转换后的查询矩阵、键矩阵和值矩阵，d为矩阵的行向量维度，Softmax为归一化指数函数，变换矩阵为θ^T，Norm函数为归一化函数，包括求取最大奇异值或范数；MultiHead(Q'，K'，V')为原始多头注意力矩阵；headi为第i个单头注意力矩阵；concat函数能够沿指定轴将多个矩阵进行连接形成拼接矩阵。

10.根据权利要求9所述的一种基于多头再注意力机制的运动意图识别方法，其特征在于，所述多头再注意力机制模块包括：

多头切片形成模块(S1)，用于基于长序列切片一维向量和短序列切片一维向量构建长序列切片矩阵和短序列切片矩阵并输入到切片矩阵变换模块(S2)；

切片矩阵变换模块(S2)：用于将长序列切片矩阵和短序列切片矩阵进行线性变化获得查询矩阵Q、键矩阵K和值矩阵V并通过全连接层得到转换后的查询矩阵Q'，键矩阵K'和值矩阵V'并输入单头注意力变换模块(S3)；

单头注意力变换模块(S3)：用于基于转换后的查询矩阵Q'、键矩阵K'和值矩阵V'获取多个单头注意力矩阵；

多头再注意力融合模块(S4)：用于将多个单头注意力矩阵拼接构建多头注意力矩阵；基于多头注意力矩阵构建多头再注意力矩阵；基于全连接层将多头再注意力矩阵压缩，使多头再注意力压缩后的矩阵与单头注意力矩阵维度保持一致；输出压缩后的多头再注意力矩阵X’或Y’；

所述多头切片形成模块(S1)用于接收短序列切片模块输出的n个短序列切片一维向量a₁,a₂,…,a_n，或接收长序列切片模块输出的L个长序列切一维向量b₁,b₂,…,b_L；构建短序列切片矩阵X＝[a₁,a₂,…,a_n]或长序列切片矩阵Y＝[b₁,b₂,…,b_L]；将所述短序列切片矩阵X或长序列切片矩阵Y输出到切片矩阵变换模块(S2)中；

所述切片矩阵变换模块(S2)用于接收所述短序列切片矩阵X或长序列切片矩阵Y，通过线性变换得到查询矩阵Q、键矩阵K和值矩阵V，如式(11)、(12)、(13)所示；

对于短序列切片矩阵X，则：

Q＝W_qX+b_q (11)；

K＝W_kX+b_k (12)；

V＝W_vX+b_v (13)；

或对于长序列切片矩阵执行与式(11)、(12)、(13)相同的操作；

其中W_q，W_K，W_v，为每个注意力机制中带有可学习参数的矩阵，b_q，b_k，b_v为矩阵偏置，在模型训练过程中通过优化更新参数矩阵与矩阵偏置；

获取Q，K和V值后，通过全连接层得到转换后的查询矩阵Q'，键矩阵K'和值矩阵V'，将转换后的查询矩阵Q'、键矩阵K'和值矩阵V'输出到所述单头注意力变换模块(S3)中，用以构建多头再注意力机制的单个头；

所述单头注意力变换模块(S3)用于接收所述切片矩阵变换模块(S2)输出的转换后的查询矩阵Q'，键矩阵K'，值矩阵V'；然后进行如下处理：首先将转换后的键矩阵K'转置与转换后的查询矩阵Q'点乘；然后将点乘结果除以矩阵的行向量维度d的二分之一次方

所述单头注意力的计算公式如式(1)：

其中head为含有单头注意力信息的输出矩阵，Attention为单头注意力变换，Q'，K'和V'分别为转换后的查询矩阵、键矩阵和值矩阵，Q'，K'，和V'矩阵维度均相同，d为矩阵的行向量维度；

当有h个单头注意力模块时，分别得到h个单头注意力输出矩阵head1，head2，…，headi，…，headh，如式(14)：

其中

并将h个单头注意力矩阵输出到多头再注意力融合模块(S4)中；

所述多头再注意力融合模块(S4)用于接收所述h个单头注意力输出矩阵head1，head2，…，headi，…，headh，将其拼接构建含有多头注意力信息的矩阵，如式(15)所述，

MultiHead(Q'，K'，V')＝concat(head1，...，head h) (15)；

11.一种基于多头再注意力机制的运动意图识别系统，用于实施根据权利要求1-10任一所述的识别方法，其特征在于，包括：

样本采集模块(101)，用于获取脑卒中患者佩戴的可穿戴设备采集的多组样本信息，每组样本信息包括样本肌电信号、惯性测量信号和/或样本脑电信号；

模型建立模块(102)，用于基于每组样本信息建立基于多头再注意力机制的运动意图识别模型；

运动意图识别模块(103)，用于基于所述运动意图识别模型确定所述脑卒中患者的运动意图。

12.一种根据权利要求1-10任一所述的基于多头再注意力机制的运动意图识别方法在脑卒中患者的镜像治疗和/或助动治疗中的应用。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令，所述处理器用于读取所述指令并执行如权利要求1-10任一所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述多条指令可被处理器读取并执行如权利要求1-10任一所述的方法。