CN117392760B - 一种基于折半交叉网络的健康指导方法和系统 - Google Patents
一种基于折半交叉网络的健康指导方法和系统 Download PDFInfo
- Publication number
- CN117392760B CN117392760B CN202311698698.4A CN202311698698A CN117392760B CN 117392760 B CN117392760 B CN 117392760B CN 202311698698 A CN202311698698 A CN 202311698698A CN 117392760 B CN117392760 B CN 117392760B
- Authority
- CN
- China
- Prior art keywords
- map
- cross
- feature
- attention model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000036541 health Effects 0.000 title claims abstract description 19
- 230000006399 behavior Effects 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000004913 activation Effects 0.000 claims abstract description 8
- 230000003213 activating effect Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000000284 resting effect Effects 0.000 claims description 2
- 238000005192 partition Methods 0.000 claims 2
- 238000011176 pooling Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001035 drying Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1116—Determining posture transitions
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
- A61B5/1126—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
- A61B5/1128—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/30—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Surgery (AREA)
- Veterinary Medicine (AREA)
- Animal Behavior & Ethology (AREA)
- Heart & Thoracic Surgery (AREA)
- Pathology (AREA)
- Physiology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Dentistry (AREA)
- Biodiversity & Conservation Biology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Human Computer Interaction (AREA)
- Physical Education & Sports Medicine (AREA)
- Social Psychology (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于折半交叉网络的健康指导方法和系统,包括如下步骤:构建物理层和数据处理层,通过摄像头采集动作视频并进行处理得到去噪深度图和时间梯度图;构建行为识别层:构建特征提取网络,通过特征提取得到深度特征图和时间梯度特征图;构建折半交叉注意力模型,计算得到特征向量;输入全连接层,并通过激活函数进行激活,通过分类器得到输出结果;构建控制层:根据输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。采用本发明的健康指导方法,解决了数据维度过高和无关特征信息对模型性能产生影响的问题,增强了对人体行为时空特征的表述能力,提高了行为识别精度和颈椎康复指导系统的可靠性。
Description
技术领域
本发明属于行为识别领域,特别涉及一种基于折半交叉网络的健康指导方法和系统。
背景技术
随着颈椎康复行业的快速发展,颈椎康复辅助锻炼利用可移动设备和通信技术嵌入了摄像头和基础应用软件,可以通过感知用户活动和节奏变化,推断用户的锻炼质量并提供适当的建议。智慧颈椎康复系统对解决资源滥用、安全监控、提高人们的生活质量有着重要的意义。
现有的颈椎指导在引导正确动作方面的技术已经比较成熟,当下的侧重点是信息的精准化建议,也就是智能化方面。人体行为识别技术的发展对颈椎康复系统的研究起着至关重要的推动作用。但是传统的行为识别方法,往往都只利用了一种模态的数据,对于特征的描述不够完整和充分。近年来,通过卷积神经网络直接提取图像特征的方法受到广泛关注,其可以有效地捕获图像的网络状拓扑并通过卷积自动提取图像特征。虽然基于深度学习的方法可以显著提高行为识别效果,但是依然面临着许多问题,比如卷积神经网络提取到的特征数据中无关信息会对模型产生影响,此外对于特征之间的内部相关性描述较差。
发明内容
本发明的目的,在于提供一种基于折半交叉网络的健康指导方法和系统,通过构建折半交叉注意力模型计算两种模态数据的特征向量,解决现有技术对于特征的描述不够完整和充分以及对特征之间的内部相关性描述较差的问题。
为了达成上述目的,本发明的解决方案是:
一种基于折半交叉网络的健康指导方法,包括如下步骤:
步骤1,构建物理层:采集动作视频,得到深度图和彩色图,并进行数据传输;
步骤2,构建数据处理层:接收物理层传输的深度图和彩色图,并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度特征图;
步骤3,构建行为识别层:构建特征提取网络,对去噪深度图和时间梯度特征图进行特征提取,得到深度图像特征图和彩色图像特征图;构建折半交叉注意力模型,对折半交叉注意力模型进行训练,将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型中进行计算,得到特征向量;将特征向量输入全连接层,并通过激活函数进行激活,输出得到注意力特征图,最后通过分类器处理,得到输出结果;
步骤4,构建控制层:根据步骤3输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。
上述步骤1中,通过摄像头进行采集,所述摄像头采用Kinect摄像头,采集不同环境中不同个体的动作视频,所述动作视频分为两种模态数据,包括深度图和彩色图;动作包括但不限于后颈按摩、踮脚拉伸和跪坐俯身;数据传输通过局域网进行传输。
上述步骤2中,数据处理层通过局域网接收来自物理层的数据传输,对深度图进行去燥处理得到去噪深度图;对彩色图进行灰度化和去噪处理得到灰度图,将每张灰度图记为,进行时间梯度的计算,得到时间梯度特征图,灰度图中相邻n帧的对应灰度差作为时间梯度,公式如下所示:
其中,t代表帧数,i代表灰度图的x坐标,j代表灰度图的y坐标,是第t帧动作图中(i,j)位置的像素值。
上述步骤3中,特征提取网络使用ResNet3D残差网络对去噪深度图和时间梯度特征图进行特征提取,得到深度图像特征图和彩色图像特征图。
上述步骤3中,对折半交叉注意力模型进行训练的内容包括:首先将步骤1通过摄像头采集的动作视频划分为测试集和训练集,具体划分方法包括交叉受试者C-Sub划分和交叉设置C-Set划分;其中,对于交叉受试者C-Sub划分方案,所有的动作视频数据被平均分为训练组和测试组,每组由总数一半的动作视频数据组成;对于交叉设置C-Set划分,具有奇数集合设置ID的样本用于训练,具有偶数设置ID的样本用于测试;然后通过有监督学习方式对折半交叉注意力模型进行训练,使用交叉熵作为损失函数并使用L2正则化项来防止过拟合,不断迭代直至误差等于或小于期望值时结束训练。
上述步骤3中,通过折半交叉注意力模型计算特征向量的具体内容是:使用1×1×1卷积将输入特征投影为query、key和value;query经过折半处理取前一半特征向量,key和value经过折半处理取后一半特征向量;利用点积的相似度函数将query和每个key进行相似度计算得到权重,公式如下所示:
其中,表示query和keyi的相似度,T为矩阵转置操作,/>表示第i个key;
使用softmax函数对所述权重进行归一化处理,公式如下所示:
其中,表示i为1到m时/>的和;e表示自然常数;
最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量:。
上述步骤3中,激活函数采用Softmax函数,通过Softmax函数取最大概率对应的行为作为最终的识别结果。
上述步骤4中,控制层包括但不限于麦克风、蓝牙和话筒;其中,麦克风用于进行语音播报,发出建议,建议内容包括但不限于保持速度、抬高手臂和休息;蓝牙用于连接摄像头和用户端口;话筒用于接收用户语言输入指令。
采用本发明基于折半交叉网络的健康指导方法,通过折半交叉注意力网络解决了数据维度过高和无关特征信息对模型性能产生影响的问题,在行为识别层通过折半交叉注意力网络对时间和空间模态的行为数据进行特征提取和融合,使得模型更加关注重点信息,增强了对人体行为时空特征的表述能力,提高了行为识别精度和颈椎康复指导系统的可靠性。
附图说明
图1是本发明基于折半交叉网络的健康指导方法的框架图。
图2是本发明时间梯度特征图的输出示例。
图3是本发明中折半交叉注意力模型的特征处理流程图。
图4是本发明折半处理的效果图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
如图1所示,为本发明基于折半交叉网络的健康指导方法的框架图,其包括如下步骤:
步骤1,构建物理层:通过摄像头采集动作视频,得到深度图和彩色图,并进行数据传输;
步骤2,构建数据处理层:接收物理层传输的深度图和彩色图,并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度图;
步骤3,构建行为识别层:构建特征提取网络,对去噪深度图和时间梯度图进行特征提取,得到深度特征图和时间梯度特征图;构建折半交叉注意力模型,对折半交叉注意力模型进行训练,将深度特征图和时间梯度特征图输入训练后的折半交叉注意力模型中进行计算,得到特征向量;将特征向量输入全连接层,并通过激活函数进行激活,通过分类器得到输出结果;
步骤4,构建控制层:根据步骤3输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。
如图2所示,为本发明时间梯度特征图的输出示例,通过步骤1中采集得到的彩色视频通过时间梯度模块处理得到时间梯度特征图,具体处理过程为:首先对彩色视频进行灰度化和去燥处理,得到相对应的灰度图,这极大地减少了计算资源同时对结果的影响较小,并对每张灰度图记为,进行时间梯度的计算,以灰度图中相邻n帧的对应灰度差作为时间梯度,本实施例中n为1,公式如下所示:
其中,t代表帧数,i代表灰度图的x坐标,j代表灰度图的y坐标,是第t帧动作图中(i,j)位置的像素值。
再通过ResNet3D残差网络对时间梯度图进行特征提取,得到时间梯度特征图。
如图3所示,为本发明中折半交叉注意力模型的特征处理流程图,首先构建特征提取网络,具体内容为:第一个卷积层块由64个3×7×7大小的卷积核和一个2×2×2的池化层组成,设置空域的步幅为2,时域的步幅为1,时域和空域的填充为0,然后使用不同的卷积核对图像进行卷积操作得到64个特征图,再对特征图分布进行最大池化操作得到64个下采样特征图,池化操作的填充为0,空域和时域的步幅分别为2和1;第二个卷积层块使用2组64个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到64个特征图,该卷积层没有池化操作;第三个卷积层块使用2组128个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到128个特征图,该卷积层没有池化操作;第四个卷积层块使用2组256个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到256个特征图,该卷积层没有池化操作;第五个卷积层块使用2组512个3×3×3大小的卷积核按照空域和时域的步幅分别为2和1得到512个特征图,再通过1×1×1的池化层进行池化操作。
然后构建折半交叉注意力模型,如图4所示,为本发明折半处理的效果图,具体内容为:第一步是使用1×1卷积将输入特征投影为query、key和value;第二步是query经过折半处理取前一半特征向量,key和value经过折半处理取后一半特征向量;然后第三步是利用点积的相似度函数将query和每个key进行相似度计算得到权重,公式如下所示:
其中,表示query和keyi的相似度,T为矩阵转置操作,/>表示第i个key;
使用一个softmax函数对这些权重进行归一化,公式如下所示:
其中,表示i为1到m时/>的和;e表示自然常数;
最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量,公式如下所示:。
将折半交叉注意力模型得到的特征向量输入最后一个全连接层,并通过Softmax激活后输出,输出层的个数对应于行为类别的个数。
其中,对折半交叉注意力模型的训练过程是:利用预训练ResNet3D模型作为特征提取网络,随机化全连接层的参数,然后从头训练全连接层,其余层的参数通过基于源模型的参数微调得到最优的网络参数,微调有助于提升模型的泛化能力,使用交叉熵作为损失函数并使用L2正则化项来防止过拟合,损失函数的公式如下所示:
其中,n表示颈椎康复动作类别数,表示动作样本真实标签的概率分布,/>表示预测标签的概率分布,/>表示L2正则化,/>,不断迭代此过程直至误差等于或小于期望值时,结束训练。
最后设计关联,建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。本发明的实施例对应的关联如下:静止提示运动;后颈按摩提示保持匀速;踮脚拉伸提示停留片刻;颈部旋转提示降低幅度。控制层根据行为识别层传入的结果触发语音指令并通过局域网对用户进行建议。
综合以上,本发明提出一种基于折半交叉网络的健康指导方法和系统,其包括如下步骤:构建物理层:通过摄像头采集动作视频,得到深度图和彩色图,并进行数据传输;构建数据处理层:接收物理层传输的深度图和彩色图,并对深度图和彩色图分别进行处理得到去噪深度图和时间梯度图;构建行为识别层:构建特征提取网络,对去噪深度图和时间梯度图进行特征提取,得到深度特征图和时间梯度特征图;构建折半交叉注意力模型,对折半交叉注意力模型进行训练,将深度特征图和时间梯度特征图输入训练后的折半交叉注意力模型中进行计算,得到特征向量;将特征向量输入全连接层,并通过激活函数进行激活,通过分类器得到输出结果;构建控制层:根据输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。采用本发明的健康指导方法,通过折半交叉注意力网络解决了数据维度过高和无关特征信息对模型性能产生影响的问题,在行为识别层通过折半交叉注意力网络对时间和空间模态的行为数据进行特征提取和融合,使得模型更加关注重点信息,增强了对人体行为时空特征的表述能力,提高了行为识别精度和颈椎康复指导系统的可靠性。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.一种基于折半交叉网络的健康指导方法,其特征在于,包括如下步骤:
步骤1,采集动作视频,得到深度图和彩色图,并进行数据传输;
步骤2,对步骤1中深度图和彩色图分别进行处理得到去噪深度图和时间梯度特征图;
步骤3,对去噪深度图和时间梯度特征图进行特征提取,得到深度图像特征图和彩色图像特征图;构建折半交叉注意力模型,对折半交叉注意力模型进行训练,将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型中进行计算,得到特征向量;将特征向量输入全连接层,并通过激活函数进行激活,输出得到注意力特征图,最后通过分类器处理,得到输出结果;
步骤4,根据步骤3输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示;
所述步骤3中,对折半交叉注意力模型进行训练的内容包括:首先将步骤1中采集的动作视频划分为测试集和训练集,包括两种划分方法:交叉受试者C-Sub划分和交叉设置C-Set划分;
其中,交叉受试者C-Sub划分的具体内容是:将所有的动作视频平均分为训练组和测试组,每组由总数一半的动作视频组成;
交叉设置C-Set划分的具体内容是:将具有奇数集合设置ID的样本用于训练,具有偶数设置ID的样本用于测试;
根据两种划分方法,通过有监督学习方式分别对折半交叉注意力模型进行训练,使用交叉熵作为损失函数并使用L2正则化项进行处理,不断迭代直至误差等于或小于期望值时结束训练,得到基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型;
所述步骤3中,分别通过基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型计算特征向量,具体内容是:使用1×1×1卷积将输入特征投影为query、key和value;query经过折半处理取前一半特征向量,key和value经过折半处理取后一半特征向量;利用点积的相似度函数将query和每个key进行相似度计算得到权重,公式如下所示:
,
其中,表示query和key i的相似度,T为矩阵转置操作,/>表示第i个key;
使用softmax函数对所述权重进行归一化处理,公式如下所示:
,
其中,表示i为1到m时/>的和;e表示自然常数;
最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量:。
2.如权利要求1所述的健康指导方法,其特征在于,所述步骤1中,通过摄像头进行采集,所述摄像头采用Kinect摄像头,采集不同环境中不同个体的动作视频,所述动作视频分为两种模态数据,包括深度图和彩色图;动作包括但不限于后颈按摩、踮脚拉伸和跪坐俯身;数据传输通过局域网进行传输。
3.如权利要求2所述的健康指导方法,其特征在于,所述步骤2中,通过局域网接收步骤1中的数据传输,对深度图进行去噪处理得到去噪深度图;对彩色图进行灰度化和去噪处理得到灰度图,将每张灰度图记为,进行时间梯度的计算,得到时间梯度特征图,灰度图中相邻n帧的对应灰度差作为时间梯度,公式如下所示:
,
,
其中,代表帧数,/>代表灰度图的x坐标,/>代表灰度图的y坐标,/>是第/>帧动作图中/>位置的像素值。
4.如权利要求1所述的健康指导方法,其特征在于,所述步骤3中,特征提取网络使用ResNet3D残差网络对去噪深度图和时间梯度特征图进行特征提取,得到深度图像特征图和彩色图像特征图。
5.如权利要求1所述的健康指导方法,其特征在于,所述步骤3中,激活函数采用Softmax函数,得到注意力特征图,分别通过分类器进行处理,得到基于C-Sub划分的折半交叉注意力模型的输出结果和基于C-Set划分的折半交叉注意力模型的输出结果,选择输出结果正确率更高的模型作为实际应用的折半交叉注意力模型。
6.如权利要求1所述的健康指导方法,其特征在于,所述步骤4中,控制层包括但不限于麦克风、蓝牙和话筒;其中,麦克风用于进行语音播报,发出建议,建议内容包括但不限于保持速度、抬高手臂和休息;蓝牙用于连接摄像头和用户端口;话筒用于接收用户语言输入指令。
7.一种基于折半交叉网络的健康指导系统,其特征在于:包括物理层、数据处理层、行为识别层和控制层;
其中,物理层包括摄像头,用于采集动作视频,得到深度图和彩色图,并进行数据传输;
数据处理层用于接收物理层传输的深度图和彩色图,并分别对深度图和彩色图进行处理,得到去噪深度图和时间梯度特征图;
行为识别层包括特征提取网络、折半交叉注意力模型、全连接层和分类器;其中,特征提取网络用于对去噪深度图和时间梯度特征图进行特征提取,得到深度图像特征图和彩色图像特征图;
对折半交叉注意力模型进行训练,将深度图像特征图和彩色图像特征图输入训练后的折半交叉注意力模型进行计算,得到特征向量;
将特征向量输入全连接层,并通过激活函数进行激活,输出得到注意力特征图;
最后通过分类器处理,得到输出结果;
其中,对折半交叉注意力模型进行训练的内容包括:首先将采集的动作视频划分为测试集和训练集,包括两种划分方法:交叉受试者C-Sub划分和交叉设置C-Set划分;
其中,交叉受试者C-Sub划分的具体内容是:将所有的动作视频平均分为训练组和测试组,每组由总数一半的动作视频组成;
交叉设置C-Set划分的具体内容是:将具有奇数集合设置ID的样本用于训练,具有偶数设置ID的样本用于测试;
根据两种划分方法,通过有监督学习方式分别对折半交叉注意力模型进行训练,使用交叉熵作为损失函数并使用L2正则化项进行处理,不断迭代直至误差等于或小于期望值时结束训练,得到基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型;
分别通过基于C-Sub划分的折半交叉注意力模型和基于C-Set划分的折半交叉注意力模型计算特征向量,具体内容是:使用1×1×1卷积将输入特征投影为query、key和value;query经过折半处理取前一半特征向量,key和value经过折半处理取后一半特征向量;利用点积的相似度函数将query和每个key进行相似度计算得到权重,公式如下所示:
,
其中,表示query和key i的相似度,T为矩阵转置操作,/>表示第i个key;
使用softmax函数对所述权重进行归一化处理,公式如下所示:
,
其中,表示i为1到m时/>的和;e表示自然常数;
最后将权重和另一模态相应的键值value进行加权求和得到最后的attention向量: ;
控制层用于对行为识别层的输出结果建立行为与控制的匹配关系,确定每个动作对应的语音指令以及实现对用户的建议提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311698698.4A CN117392760B (zh) | 2023-12-12 | 2023-12-12 | 一种基于折半交叉网络的健康指导方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311698698.4A CN117392760B (zh) | 2023-12-12 | 2023-12-12 | 一种基于折半交叉网络的健康指导方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117392760A CN117392760A (zh) | 2024-01-12 |
CN117392760B true CN117392760B (zh) | 2024-04-23 |
Family
ID=89465238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311698698.4A Active CN117392760B (zh) | 2023-12-12 | 2023-12-12 | 一种基于折半交叉网络的健康指导方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392760B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740677A (zh) * | 2019-01-07 | 2019-05-10 | 湖北工业大学 | 一种基于主成分分析改进生成对抗网络的半监督分类方法 |
CN110147800A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于sift的图像复制粘贴篡改盲检方法 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113988002A (zh) * | 2021-11-15 | 2022-01-28 | 天津大学 | 一种基于神经聚类方法的近似注意力系统及方法 |
CN116189027A (zh) * | 2022-11-23 | 2023-05-30 | 中国铁塔股份有限公司重庆市分公司 | 基于多层特征融合的Faster R-cnn上下文机制优化方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897714B (zh) * | 2017-03-23 | 2020-01-14 | 北京大学深圳研究生院 | 一种基于卷积神经网络的视频动作检测方法 |
-
2023
- 2023-12-12 CN CN202311698698.4A patent/CN117392760B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740677A (zh) * | 2019-01-07 | 2019-05-10 | 湖北工业大学 | 一种基于主成分分析改进生成对抗网络的半监督分类方法 |
CN110147800A (zh) * | 2019-05-20 | 2019-08-20 | 哈尔滨工业大学 | 基于sift的图像复制粘贴篡改盲检方法 |
CN113673307A (zh) * | 2021-07-05 | 2021-11-19 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113988002A (zh) * | 2021-11-15 | 2022-01-28 | 天津大学 | 一种基于神经聚类方法的近似注意力系统及方法 |
CN116189027A (zh) * | 2022-11-23 | 2023-05-30 | 中国铁塔股份有限公司重庆市分公司 | 基于多层特征融合的Faster R-cnn上下文机制优化方法 |
Non-Patent Citations (3)
Title |
---|
Dual-stream Multi-scale Distillation Network for Human Action Recognition;Qian Huang;《SSRN》;20231017;1-15 * |
基于交叉注意力机制的煤矿井下不安全行为识别;饶天荣;《工矿自动化》;20221013;48-54 * |
多模态数据的行为识别综述;黄倩;《多模态数据的行为识别综述》;20221116;3139-3159 * |
Also Published As
Publication number | Publication date |
---|---|
CN117392760A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN111931701B (zh) | 基于人工智能的姿态识别方法、装置、终端和存储介质 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN108875708A (zh) | 基于视频的行为分析方法、装置、设备、系统及存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN112543936B (zh) | 用于动作识别的动作结构自注意力图卷积网络模型 | |
CN111639558A (zh) | 一种基于ArcFace Loss和改进残差网络的指静脉身份验证方法 | |
CN111582342B (zh) | 一种图像识别方法、装置、设备以及可读存储介质 | |
CN112132099A (zh) | 身份识别方法、掌纹关键点检测模型训练方法和装置 | |
CN114998983A (zh) | 一种基于增强现实技术和姿态识别技术的肢体康复方法 | |
CN116311539B (zh) | 基于毫米波的睡眠动作捕捉方法、装置、设备及存储介质 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Pratama et al. | Deep convolutional neural network for hand sign language recognition using model E | |
CN116758621B (zh) | 基于自注意力机制的遮挡人脸面部表情深度卷积识别方法 | |
CN113781462A (zh) | 一种人体伤残检测方法、装置、设备及存储介质 | |
CN117392760B (zh) | 一种基于折半交叉网络的健康指导方法和系统 | |
CN117079339A (zh) | 动物虹膜识别方法、预测模型训练方法、电子设备及介质 | |
CN111881818A (zh) | 医疗行为细粒度识别装置及计算机可读存储介质 | |
CN112597842B (zh) | 基于人工智能的运动检测面瘫程度评估系统 | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 | |
CN108960275A (zh) | 一种基于深度玻尔兹曼机的图像识别方法及系统 | |
US20220319234A1 (en) | Object Behavior Analysis Method, Information Display Method, and Electronic Device | |
CN114519865A (zh) | 一种融合集成注意力的2d人体姿态估计方法 | |
CN114663910A (zh) | 基于多模态学习状态分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |