CN117392760B

CN117392760B - 一种基于折半交叉网络的健康指导方法和系统

Info

Publication number: CN117392760B
Application number: CN202311698698.4A
Authority: CN
Inventors: 黄倩; 陈莹莹; 毛莺池; 李畅; 王彦芳; 巫义锐
Original assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Current assignee: Nanjing Huiying Electronic Technology Co ltd; Hohai University HHU
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-04-23
Anticipated expiration: 2043-12-12
Also published as: CN117392760A

Abstract

本发明公开一种基于折半交叉网络的健康指导方法和系统，包括如下步骤：构建物理层和数据处理层，通过摄像头采集动作视频并进行处理得到去噪深度图和时间梯度图；构建行为识别层：构建特征提取网络，通过特征提取得到深度特征图和时间梯度特征图；构建折半交叉注意力模型，计算得到特征向量；输入全连接层，并通过激活函数进行激活，通过分类器得到输出结果；构建控制层：根据输出结果建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示。采用本发明的健康指导方法，解决了数据维度过高和无关特征信息对模型性能产生影响的问题，增强了对人体行为时空特征的表述能力，提高了行为识别精度和颈椎康复指导系统的可靠性。

Description

一种基于折半交叉网络的健康指导方法和系统

技术领域

本发明属于行为识别领域，特别涉及一种基于折半交叉网络的健康指导方法和系统。

背景技术

随着颈椎康复行业的快速发展，颈椎康复辅助锻炼利用可移动设备和通信技术嵌入了摄像头和基础应用软件，可以通过感知用户活动和节奏变化，推断用户的锻炼质量并提供适当的建议。智慧颈椎康复系统对解决资源滥用、安全监控、提高人们的生活质量有着重要的意义。

现有的颈椎指导在引导正确动作方面的技术已经比较成熟，当下的侧重点是信息的精准化建议，也就是智能化方面。人体行为识别技术的发展对颈椎康复系统的研究起着至关重要的推动作用。但是传统的行为识别方法，往往都只利用了一种模态的数据，对于特征的描述不够完整和充分。近年来，通过卷积神经网络直接提取图像特征的方法受到广泛关注，其可以有效地捕获图像的网络状拓扑并通过卷积自动提取图像特征。虽然基于深度学习的方法可以显著提高行为识别效果，但是依然面临着许多问题，比如卷积神经网络提取到的特征数据中无关信息会对模型产生影响，此外对于特征之间的内部相关性描述较差。

发明内容

本发明的目的，在于提供一种基于折半交叉网络的健康指导方法和系统，通过构建折半交叉注意力模型计算两种模态数据的特征向量，解决现有技术对于特征的描述不够完整和充分以及对特征之间的内部相关性描述较差的问题。

为了达成上述目的，本发明的解决方案是：

一种基于折半交叉网络的健康指导方法，包括如下步骤：

步骤1，构建物理层：采集动作视频，得到深度图和彩色图，并进行数据传输；

步骤2，构建数据处理层：接收物理层传输的深度图和彩色图，并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度特征图；

步骤3，构建行为识别层：构建特征提取网络，对去噪深度图和时间梯度特征图进行特征提取，得到深度图像特征图和彩色图像特征图；构建折半交叉注意力模型，对折半交叉注意力模型进行训练，将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型中进行计算，得到特征向量；将特征向量输入全连接层，并通过激活函数进行激活，输出得到注意力特征图，最后通过分类器处理，得到输出结果；

步骤4，构建控制层：根据步骤3输出结果建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示。

上述步骤1中，通过摄像头进行采集，所述摄像头采用Kinect摄像头，采集不同环境中不同个体的动作视频，所述动作视频分为两种模态数据，包括深度图和彩色图；动作包括但不限于后颈按摩、踮脚拉伸和跪坐俯身；数据传输通过局域网进行传输。

上述步骤2中，数据处理层通过局域网接收来自物理层的数据传输，对深度图进行去燥处理得到去噪深度图；对彩色图进行灰度化和去噪处理得到灰度图，将每张灰度图记为，进行时间梯度的计算，得到时间梯度特征图，灰度图中相邻n帧的对应灰度差作为时间梯度，公式如下所示：

其中，t代表帧数，i代表灰度图的x坐标，j代表灰度图的y坐标，是第t帧动作图中(i,j)位置的像素值。

上述步骤3中，特征提取网络使用ResNet3D残差网络对去噪深度图和时间梯度特征图进行特征提取，得到深度图像特征图和彩色图像特征图。

上述步骤3中，对折半交叉注意力模型进行训练的内容包括：首先将步骤1通过摄像头采集的动作视频划分为测试集和训练集，具体划分方法包括交叉受试者C-Sub划分和交叉设置C-Set划分；其中，对于交叉受试者C-Sub划分方案，所有的动作视频数据被平均分为训练组和测试组，每组由总数一半的动作视频数据组成；对于交叉设置C-Set划分，具有奇数集合设置ID的样本用于训练，具有偶数设置ID的样本用于测试；然后通过有监督学习方式对折半交叉注意力模型进行训练，使用交叉熵作为损失函数并使用L2正则化项来防止过拟合，不断迭代直至误差等于或小于期望值时结束训练。

上述步骤3中，通过折半交叉注意力模型计算特征向量的具体内容是：使用1×1×1卷积将输入特征投影为query、key和value；query经过折半处理取前一半特征向量，key和value经过折半处理取后一半特征向量；利用点积的相似度函数将query和每个key进行相似度计算得到权重，公式如下所示：

其中，表示query和keyi的相似度，T为矩阵转置操作，/>表示第i个key；

使用softmax函数对所述权重进行归一化处理，公式如下所示：

其中，表示i为1到m时/>的和；e表示自然常数；

最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量：。

上述步骤3中，激活函数采用Softmax函数，通过Softmax函数取最大概率对应的行为作为最终的识别结果。

上述步骤4中，控制层包括但不限于麦克风、蓝牙和话筒；其中，麦克风用于进行语音播报，发出建议，建议内容包括但不限于保持速度、抬高手臂和休息；蓝牙用于连接摄像头和用户端口；话筒用于接收用户语言输入指令。

采用本发明基于折半交叉网络的健康指导方法，通过折半交叉注意力网络解决了数据维度过高和无关特征信息对模型性能产生影响的问题，在行为识别层通过折半交叉注意力网络对时间和空间模态的行为数据进行特征提取和融合，使得模型更加关注重点信息，增强了对人体行为时空特征的表述能力，提高了行为识别精度和颈椎康复指导系统的可靠性。

附图说明

图1是本发明基于折半交叉网络的健康指导方法的框架图。

图2是本发明时间梯度特征图的输出示例。

图3是本发明中折半交叉注意力模型的特征处理流程图。

图4是本发明折半处理的效果图。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

如图1所示，为本发明基于折半交叉网络的健康指导方法的框架图，其包括如下步骤：

步骤1，构建物理层：通过摄像头采集动作视频，得到深度图和彩色图，并进行数据传输；

步骤2，构建数据处理层：接收物理层传输的深度图和彩色图，并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度图；

步骤3，构建行为识别层：构建特征提取网络，对去噪深度图和时间梯度图进行特征提取，得到深度特征图和时间梯度特征图；构建折半交叉注意力模型，对折半交叉注意力模型进行训练，将深度特征图和时间梯度特征图输入训练后的折半交叉注意力模型中进行计算，得到特征向量；将特征向量输入全连接层，并通过激活函数进行激活，通过分类器得到输出结果；

如图2所示，为本发明时间梯度特征图的输出示例，通过步骤1中采集得到的彩色视频通过时间梯度模块处理得到时间梯度特征图，具体处理过程为：首先对彩色视频进行灰度化和去燥处理，得到相对应的灰度图，这极大地减少了计算资源同时对结果的影响较小，并对每张灰度图记为，进行时间梯度的计算，以灰度图中相邻n帧的对应灰度差作为时间梯度，本实施例中n为1，公式如下所示：

再通过ResNet3D残差网络对时间梯度图进行特征提取，得到时间梯度特征图。

如图3所示，为本发明中折半交叉注意力模型的特征处理流程图，首先构建特征提取网络，具体内容为：第一个卷积层块由64个3×7×7大小的卷积核和一个2×2×2的池化层组成，设置空域的步幅为2，时域的步幅为1，时域和空域的填充为0，然后使用不同的卷积核对图像进行卷积操作得到64个特征图，再对特征图分布进行最大池化操作得到64个下采样特征图，池化操作的填充为0，空域和时域的步幅分别为2和1；第二个卷积层块使用2组64个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到64个特征图，该卷积层没有池化操作；第三个卷积层块使用2组128个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到128个特征图，该卷积层没有池化操作；第四个卷积层块使用2组256个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到256个特征图，该卷积层没有池化操作；第五个卷积层块使用2组512个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到512个特征图，再通过1×1×1的池化层进行池化操作。

然后构建折半交叉注意力模型，如图4所示，为本发明折半处理的效果图，具体内容为：第一步是使用1×1卷积将输入特征投影为query、key和value；第二步是query经过折半处理取前一半特征向量，key和value经过折半处理取后一半特征向量；然后第三步是利用点积的相似度函数将query和每个key进行相似度计算得到权重，公式如下所示：

使用一个softmax函数对这些权重进行归一化，公式如下所示：

其中，表示i为1到m时/>的和；e表示自然常数；

最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量，公式如下所示：。

将折半交叉注意力模型得到的特征向量输入最后一个全连接层，并通过Softmax激活后输出，输出层的个数对应于行为类别的个数。

其中，对折半交叉注意力模型的训练过程是：利用预训练ResNet3D模型作为特征提取网络，随机化全连接层的参数，然后从头训练全连接层，其余层的参数通过基于源模型的参数微调得到最优的网络参数，微调有助于提升模型的泛化能力，使用交叉熵作为损失函数并使用L2正则化项来防止过拟合，损失函数的公式如下所示：

其中，n表示颈椎康复动作类别数，表示动作样本真实标签的概率分布，/>表示预测标签的概率分布，/>表示L2正则化，/>，不断迭代此过程直至误差等于或小于期望值时，结束训练。

最后设计关联，建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示。本发明的实施例对应的关联如下：静止提示运动；后颈按摩提示保持匀速；踮脚拉伸提示停留片刻；颈部旋转提示降低幅度。控制层根据行为识别层传入的结果触发语音指令并通过局域网对用户进行建议。

综合以上，本发明提出一种基于折半交叉网络的健康指导方法和系统，其包括如下步骤：构建物理层：通过摄像头采集动作视频，得到深度图和彩色图，并进行数据传输；构建数据处理层：接收物理层传输的深度图和彩色图，并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度图；构建行为识别层：构建特征提取网络，对去噪深度图和时间梯度图进行特征提取，得到深度特征图和时间梯度特征图；构建折半交叉注意力模型，对折半交叉注意力模型进行训练，将深度特征图和时间梯度特征图输入训练后的折半交叉注意力模型中进行计算，得到特征向量；将特征向量输入全连接层，并通过激活函数进行激活，通过分类器得到输出结果；构建控制层：根据输出结果建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示。采用本发明的健康指导方法，通过折半交叉注意力网络解决了数据维度过高和无关特征信息对模型性能产生影响的问题，在行为识别层通过折半交叉注意力网络对时间和空间模态的行为数据进行特征提取和融合，使得模型更加关注重点信息，增强了对人体行为时空特征的表述能力，提高了行为识别精度和颈椎康复指导系统的可靠性。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于折半交叉网络的健康指导方法，其特征在于，包括如下步骤：

步骤1，采集动作视频，得到深度图和彩色图，并进行数据传输；

步骤2，对步骤1中深度图和彩色图分别进行处理得到去噪深度图和时间梯度特征图；

步骤3，对去噪深度图和时间梯度特征图进行特征提取，得到深度图像特征图和彩色图像特征图；构建折半交叉注意力模型，对折半交叉注意力模型进行训练，将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型中进行计算，得到特征向量；将特征向量输入全连接层，并通过激活函数进行激活，输出得到注意力特征图，最后通过分类器处理，得到输出结果；

步骤4，根据步骤3输出结果建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示；

所述步骤3中，对折半交叉注意力模型进行训练的内容包括：首先将步骤1中采集的动作视频划分为测试集和训练集，包括两种划分方法：交叉受试者C-Sub划分和交叉设置C-Set划分；

其中，交叉受试者C-Sub划分的具体内容是：将所有的动作视频平均分为训练组和测试组，每组由总数一半的动作视频组成；

交叉设置C-Set划分的具体内容是：将具有奇数集合设置ID的样本用于训练，具有偶数设置ID的样本用于测试；

根据两种划分方法，通过有监督学习方式分别对折半交叉注意力模型进行训练，使用交叉熵作为损失函数并使用L2正则化项进行处理，不断迭代直至误差等于或小于期望值时结束训练，得到基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型；

所述步骤3中，分别通过基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型计算特征向量，具体内容是：使用1×1×1卷积将输入特征投影为query、key和value；query经过折半处理取前一半特征向量，key和value经过折半处理取后一半特征向量；利用点积的相似度函数将query和每个key进行相似度计算得到权重，公式如下所示：

，

其中，表示query和key i的相似度，T为矩阵转置操作，/>表示第i个key；

使用softmax函数对所述权重进行归一化处理，公式如下所示：

，

其中，表示i为1到m时/>的和；e表示自然常数；

2.如权利要求1所述的健康指导方法，其特征在于，所述步骤1中，通过摄像头进行采集，所述摄像头采用Kinect摄像头，采集不同环境中不同个体的动作视频，所述动作视频分为两种模态数据，包括深度图和彩色图；动作包括但不限于后颈按摩、踮脚拉伸和跪坐俯身；数据传输通过局域网进行传输。

3.如权利要求2所述的健康指导方法，其特征在于，所述步骤2中，通过局域网接收步骤1中的数据传输，对深度图进行去噪处理得到去噪深度图；对彩色图进行灰度化和去噪处理得到灰度图，将每张灰度图记为，进行时间梯度的计算，得到时间梯度特征图，灰度图中相邻n帧的对应灰度差作为时间梯度，公式如下所示：

，

其中，代表帧数，/>代表灰度图的x坐标，/>代表灰度图的y坐标，/>是第/>帧动作图中/>位置的像素值。

4.如权利要求1所述的健康指导方法，其特征在于，所述步骤3中，特征提取网络使用ResNet3D残差网络对去噪深度图和时间梯度特征图进行特征提取，得到深度图像特征图和彩色图像特征图。

5.如权利要求1所述的健康指导方法，其特征在于，所述步骤3中，激活函数采用Softmax函数，得到注意力特征图，分别通过分类器进行处理，得到基于C-Sub划分的折半交叉注意力模型的输出结果和基于C-Set划分的折半交叉注意力模型的输出结果，选择输出结果正确率更高的模型作为实际应用的折半交叉注意力模型。

6.如权利要求1所述的健康指导方法，其特征在于，所述步骤4中，控制层包括但不限于麦克风、蓝牙和话筒；其中，麦克风用于进行语音播报，发出建议，建议内容包括但不限于保持速度、抬高手臂和休息；蓝牙用于连接摄像头和用户端口；话筒用于接收用户语言输入指令。

7.一种基于折半交叉网络的健康指导系统，其特征在于：包括物理层、数据处理层、行为识别层和控制层；

其中，物理层包括摄像头，用于采集动作视频，得到深度图和彩色图，并进行数据传输；

数据处理层用于接收物理层传输的深度图和彩色图，并分别对深度图和彩色图进行处理，得到去噪深度图和时间梯度特征图；

行为识别层包括特征提取网络、折半交叉注意力模型、全连接层和分类器；其中，特征提取网络用于对去噪深度图和时间梯度特征图进行特征提取，得到深度图像特征图和彩色图像特征图；

对折半交叉注意力模型进行训练，将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型进行计算，得到特征向量；

将特征向量输入全连接层，并通过激活函数进行激活，输出得到注意力特征图；

最后通过分类器处理，得到输出结果；

其中，对折半交叉注意力模型进行训练的内容包括：首先将采集的动作视频划分为测试集和训练集，包括两种划分方法：交叉受试者C-Sub划分和交叉设置C-Set划分；

分别通过基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型计算特征向量，具体内容是：使用1×1×1卷积将输入特征投影为query、key和value；query经过折半处理取前一半特征向量，key和value经过折半处理取后一半特征向量；利用点积的相似度函数将query和每个key进行相似度计算得到权重，公式如下所示：

，

使用softmax函数对所述权重进行归一化处理，公式如下所示：

，

其中，表示i为1到m时/>的和；e表示自然常数；

最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量：；

控制层用于对行为识别层的输出结果建立行为与控制的匹配关系，确定每个动作对应的语音指令以及实现对用户的建议提示。