CN117218709A - 基于时间可变形注意力机制的居家老人实时状态监测方法 - Google Patents
基于时间可变形注意力机制的居家老人实时状态监测方法 Download PDFInfo
- Publication number
- CN117218709A CN117218709A CN202311388239.6A CN202311388239A CN117218709A CN 117218709 A CN117218709 A CN 117218709A CN 202311388239 A CN202311388239 A CN 202311388239A CN 117218709 A CN117218709 A CN 117218709A
- Authority
- CN
- China
- Prior art keywords
- attention
- network
- time
- frame
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007246 mechanism Effects 0.000 title claims abstract description 33
- 238000012544 monitoring process Methods 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 47
- 230000014509 gene expression Effects 0.000 claims abstract description 38
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 230000008451 emotion Effects 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 35
- 230000036651 mood Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 210000003414 extremity Anatomy 0.000 claims description 6
- 230000008921 facial expression Effects 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 206010011224 Cough Diseases 0.000 claims description 3
- 206010019233 Headaches Diseases 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 231100000869 headache Toxicity 0.000 claims description 3
- 210000003127 knee Anatomy 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 201000010099 disease Diseases 0.000 claims description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- RWCOTTLHDJWHRS-YUMQZZPRSA-N Pro-Pro Chemical compound OC(=O)[C@@H]1CCCN1C(=O)[C@H]1NCCC1 RWCOTTLHDJWHRS-YUMQZZPRSA-N 0.000 claims 1
- 108010077112 prolyl-proline Proteins 0.000 claims 1
- 230000003068 static effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 206010041232 sneezing Diseases 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及一种基于时间可变形注意力机制的居家老人实时状态监测方法。首先,基于改进yolov7提取视频人体2D姿态图,沿时间维度堆叠成3D热图体,并使用主题中心裁剪,均匀采样等多种方式进行数据预处理。接着,利用时间可变形注意力机制模块与前馈神经网络,使用网络隐帧赋权,结合3D卷积,构建动作识别模型。然后,基于Harr级联分类器提取人脸位置,结合特征聚类网络,多头注意网络、注意融合网络构建表情识别模型。最后,通过不断迭代,优化组合损失更新动作识别模型和表情识别模型参数,并利用动作识别模型构建多级动作判别预警系统,结合表情识别模型构建实时情绪打分系统。
Description
技术领域
本发明涉及计算机视觉技术领域,特别是基于时间可变形注意力机制的居家老人实时状态监测方法。
背景技术
近年来,动作识别和表情识别在人工智能领域的学术界和工业界引起了广泛的研究关注。它们在多个领域中产生了积极的影响,如人机交互、智能监控系统、虚拟现实等。
动作识别一般分为动态与静态动作识别。动作的特征包括人体姿态、运动轨迹、动作速度等,并且同一种动作可能会因为不同环境条件、观察角度和动作者个体差异而呈现出多样化的表现形式。因此使用动态的动作识别使得检测的精度提高,与静态图像相比,视频动作序列包含了更多的时空信息,因此对计算机视觉系统来说更具挑战性。
表情识别主要依靠包括面部肌肉的运动、眼部和嘴部的形态变化等特征来判断检测对象的实时表情。然而,由于人脸表情的多样性和个体差异,加之光照、角度、遮挡、姿态等因素的影响,表情识别还需要不断地优化更新。
利用深度神经网络和计算机视觉技术,可以大大提高动作识别和表情识别的效率。对于动作识别任务,通过将时间维度纳入考虑,可以设计出适应时空关系的网络结构,以提取动作序列中的时序特征。对于表情识别任务,可以利用卷积神经网络等网络结构对人脸图像进行特征提取。由于动作和表情之间的微小差异,需要学习具有区分能力的特征表示,以便准确地分类不同的动作或表情类别。因此,出现了如度量学习、注意力机制等,以增强模型对关键特征的感知能力。
发明内容
有鉴于此,本发明的目的在于提供一种基于时间可变形注意力机制的居家老人实时状态监测方法,通过摄像头对居家老人实时监测,目的在于解决目前监测模式下设备部署难度高,监测对象生活不方便、使用成本高的问题。
为实现上述目的,本发明采用如下技术方案:基于时间可变形注意力机制的居家老人实时状态监测方法,包括以下步骤:
步骤S1:基于改进yolov7提取视频人体2D姿态图,沿时间维度堆叠成3D热图体,并使用主题中心裁剪,均匀采样等多种方式进行数据预处理;
步骤S2:利用时间可变形注意力机制模块与前馈神经网络,使用网络隐帧赋权,结合3D卷积,构建动作识别模型;
步骤S3:基于Harr级联分类器提取人脸位置,结合岛损失函数与特征聚类网络,多头注意网络、注意融合网络构建表情识别模型;
步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新动作识别模型和表情识别模型参数,根据验证准确率不断保存最优模型;利用动作识别模型构建多级动作判别预警系统,并结合表情识别模型构建实时情绪打分系统。
在一较佳的实施例中:步骤S1具体包括以下步骤:
步骤S11:使用yolov7-pose进行目标检测,将低层特征与高层特征相融合,从而提高yolov7模型的特征表示能力;然后进行2D人体姿态估计,提取至多17个关键点;
步骤S12:在提取2D人体姿势关键点后,将制定沿时间维度堆叠构成的3D热图体;我们将2D姿态表示为大小为K×H×W的热图,其中K是关节的数量,H和W是视频该帧的高度和宽度;在yolov7目标检测器给定相应边界框的情况下,对热图进行补零处理从而匹配原始帧的大小;通过人体关节坐标(xk,yk)以及置信度得分ck,组合K个以每个关节为中心的高斯映射得到关节热图J:
σ1为高斯图的方差,(xo,yo)表示关节坐标周围点的坐标,e为自然常数;并且,利用提取的人体关键点,构建人体肢体热图L:
函数D计算点(xo,yo)到线段seg(ak,bk)的距离,ak,bk表示肢体的两端, 代表两端关节点的置信度;最后,将所有热图(J或L)沿时间维度一同叠加得到三维热图体,其大小为K×Ti×H×W,Ti为时间长度;
步骤S13:首先采用中心裁剪技术,根据所有2D姿态估计的最小目标边界框的大小对所有帧进行裁剪,调整为检测目标的大小,既能保留所有动作信息,又能减少3D热图体空间大小;由于处理视频每一帧会造成大量计算开销,接着使用均匀抽样方法,对视频进行平均分割,将视频分割成同帧数的n′个片段,并在每一个片段中抽取一帧,拼接成较短的视频,减少在时间维度上的长度;对数据使用翻转、变形、缩放处理方法。
在一较佳的实施例中:步骤S2具体包括以下步骤:
步骤S21:使用时间可变形注意力机制;将一组视频特征作为查询输入;然后它将输出一组动作预测;每个动作预测都表示为时间段、置信度评分和标签的元组;使用时间可变形注意模块TDA,自适应地关注输入特征序列中参考位置周围时间位置的特征;首先设输入视频 表示实数空间;TS指时间维度的长度,C则代表某一帧的维度;所以特征序列中的特征都是从视频每一帧提取的特征向量,接下来将对每一帧进行特征增强,使得每一帧都具有时间上下文特征;
设查询向量tq∈[0,1]为对应参考点的归一化坐标,这里的参考点就是视频的某一帧;输入为/>第m个TDA模块头的输出为/>由从X采样的一组关键元素的加权和计算得出:
kn表示采样点的数量,amqk∈[0,1]为各个采样点的归一化注意力权值,体现对不同采样点的关注程度;Δtmqk∈[0,1]为相对于tq的采样偏移量;X((tq+Δtmqk)TS)表示在(tq+Δtmqk)TS处的线性插值特征;接着通过线性投影从查询特征zq中预测注意权值amqk和采样偏移量Δtmqk;使用softmax函数将注意力权重归一化,是各个帧的权重值,为可学习参数;TDA的输出是通过不同TDA头输出的线性组合来计算的:
TDA(zq,tq,,X)=WOconcat(h1,h2,...,hm)
也是一组可学习的权重,concat表示线性组合;
在计算输出序列中的第t′帧时,查询点和参考点都是输入序列中的第t′帧,所述查询特征是该帧的输入特征和在该位置嵌入的其他位置特征的总和;位置嵌入用于区分输入序列中的不同位置,使用正弦位置嵌入法确定嵌入位置:
γ=1,2,3…,根据实际情况设定;
步骤S22:进行各帧权重分配,将所有识别片段的所有帧的特征进行赋权;通过计算视频编码向量c′与隐层表示ki的相似度,得出各帧特征对应的权重系数;计算公式如下:
T表示矩阵转置,T0为输入视频帧数,ξi为第i帧的权值,V0为可学习参数;
步骤S23:解码层使用自注意力机制与时间可变形注意力(TDA)结合,将前者TDA(zq,tq,X)的输出作为输入,通过连接池化层和前馈神经网络,从而可以得到解码层预测结果;
步骤S24:此前步骤是使用注意力机制提高网络对视频的识别能力,在此,我们引入基于骨骼的3D卷积网络作为动作识别的主干网络,在多种3D卷积中,选择slowonly网络作为主要网络组成,并在网络层中嵌入此前提出的注意力机制;在slowonly网络中,3D卷积的使用参数有所不同,这里卷积核的维度表示为分别表示时间步长,空间步长,通道大小,我们使用不同类型的卷积来提取视频的特征,各层卷积使用情况如下:
第一层卷积层为:1×72,64
第二层卷积残差连接层使用:
第三层卷积残差连接层使用:
第四层卷积残差连接层使用:
在一较佳的实施例中:步骤S3具体包括以下步骤:
步骤S31:基于Harr级联分类器提取人脸位置;Haar级联分类器是由大量的弱分类器组成的级联结构,每个弱分类器用于检测图像的一个特定特征;级联结构允许快速过滤掉非人脸区域,只对可能包含人脸的区域进行更详细的检测;在检测到对应的人脸后,依据人脸检测的最小目标框进行裁剪,只保留人脸部分;对部分数据加入随机噪声、模糊化、颜色变化处理方法;
步骤S32:为搭建多头注意网络,该网络第一部分使用特征聚类网络;整个网络以残差网络为主干,我们使用两种损失函数,一种称为亲和损失,另一种则为岛损失函数,使用两种损失函数的目的在于,在使同一类别内的距离尽可能靠近的同时,既能最大化不同类之间的边界,也能最大化不同类中心的距离;我们假设网络的输入为xi,该输入的标签为yi,该部分网络的输出为x′i:
x′i=F(wr.xi)
F表示该部分网络,wr表示网络参数;接着使用亲和损失:
为类中心矩阵,每一列对应一个特定类的中心,/>为是c中的列向量,表示实际标签,N′为该批次训练的图像量,σc表示各个类中心的标准差,Y表示标签空间,D0为类中心维数;同时使用岛损失函数:
τ为自定义的阈值;
步骤S33:第二部分为多头注意网络,我们的方法构建1×1、1×3、3×1和3×3卷积核来捕获多尺度的局部特征;通道注意单元由一个全局平均池化层、两个线性层和一个激活函数组成,并且利用两个线性层来编码信道信息;
表示Ka个空间注意头,/>表示Ka个空间注意图;由于第一部分的输出为x′i,第j个空间注意单元的输出为:
sj=x′i⊙Hj(ws,x′i),j∈{1,...,Ka}
ws代表网络参数,同时假设为通道注意头,/>为通道注意头输出的最终注意力特征向量,则第j个输出为:
aj=sj⊙H′j(ws,sj),j∈{1,...,Ka}
步骤S34:第三部分使用注意融合网络;注意融合网络通过应用log-softmax函数来缩放注意力特征向量;因为在第二部分多头注意网络中,输出注意力向量特征特征缩放结果为:
在L0这里取512,接着使用分区损失的方法;
为/>的方差,从而指导注意力头集中在不同的关键区域,避免注意力重叠,最后,归一化的注意力特征向量合并为一个,然后用线性层计算类置信度。
在一较佳的实施例中:步骤S4具体包括以下步骤:
步骤S41:对于动作识别模型,我们直接使用交叉熵损失和梯度下降法对模型进行优化;对于表情识别模型,我们使用4种损失函数组成新的损失函数:
其中,为亲和损失,/>为岛损失,/>为分区损失,/>为预测结果的交叉熵损失;λ1,λ2,λ3分别代表对应损失函数的系数,系数根据需要进行调整;接着不断对模型迭代,使用梯度下降法对模型参数进行更新,不断验证模型准确度,保留最优模型参数;
步骤S42:在进行动作识别和表情识别的模型训练后,将训练完成的模型部署在居家老人实时监测系统中;对动作进行分级,分成三级,分别表示无危险、可能危险、危险三种情况:
(1)对于挥手、坐、走路、站着、躺着等动作,我们认为是正常动作,视为无危险动作;
(2)对于头疼、腰部不适、膝盖不适、咳嗽、打喷嚏等动作,我们视为可能危险动作,保持对画面人物的严格监控,并提醒家属存在潜在危险或可能疾病;
(3)对于摔倒、呼救等动作,我们视为危险动作,警报提醒家属;
步骤S43:基于表情识别的实时情绪打分系统,我们使用表情识别模型结合摄像头,每秒捕获老人的面部表情一次,并预测老人的心情,同时依照预测的置信度,对每秒老人的心情进行打分,并实时计算当前老人当天的实时心情平均得分,我们假设当前时刻心情得分为scorei
当心情为厌恶的、轻蔑的时候:
score1=100-60*pro
当心情为开心、兴奋的时候:
score2=90+10*pro
当心情为中立的、惊讶的时候:
score3=60+25*pro
当心情为愤怒的、悲伤的时候:
score4=100-80*pro
pro为预测的置信度,置信度区间为[0,1],进而能够进行算出当天实时情绪平均得分。
与现有技术相比,本发明具有以下有益效果:
1.本发明涉及一种基于时间可变形注意力机制的居家老人实时状态监测方法,该系统通过摄像头对居家老人实时监测,目的在于解决目前监测模式下设备部署难度高,监测对象生活不方便、使用成本高的问题。
2.针对基于人体姿态估计的动作识别,本发明使用yolov7-pose提取人体姿态,利用时间可变形注意力机制与3D卷积对视频中的姿态进行动作识别,相比于RGB模式下的识别,减少计算资源消耗,提高识别速度。并且相较于静态动作识别,更关注动作的变化特征,提高对动作识别的精度。
3.针对表情识别,本发明使用多头注意网络,加强了对脸部不同部位特征的关注,减少表情之间相似特征的干扰,增强了对多种相似面部表情的潜在差异的识别能力,更加精准识别监测对象的情绪。
4.动作识别和表情识别的结合,在实时监测的同时加入了情绪打分模式,增添了人文关怀的元素,更贴近现实监测需求。
附图说明
图1为本发明优选实施例的原理示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式;如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种基于时间可变形注意力机制的居家老人实时状态监测方法,具体包括以下步骤:
步骤S1:基于改进yolov7提取视频人体2D姿态图,沿时间维度堆叠成3D热图体,并使用主题中心裁剪,均匀采样等多种方式进行数据预处理;
步骤S2:利用时间可变形注意力机制模块与前馈神经网络,使用网络隐帧赋权,结合3D卷积,构建动作识别模型;
步骤S3:基于Harr级联分类器提取人脸位置,结合岛损失函数与特征聚类网络,多头注意网络、注意融合网络构建表情识别模型;
步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新动作识别模型和表情识别模型参数,根据验证准确率不断保存最优模型。利用动作识别模型构建多级动作判别预警系统,并结合表情识别模型构建实时情绪打分系统。
在本实施例中,包括步骤S1具体包括以下步骤:
步骤S11:使用yolov7-pose进行目标检测,为了使模型对原始数据特征变化有一定的灵敏性,增加跳跃连接,将低层特征与高层特征相融合,从而提高yolov7模型的特征表示能力。然后进行2D人体姿态估计,提取至多17个关键点。
步骤S12:在提取2D人体姿势关键点后,将制定沿时间维度堆叠构成的3D热图体。我们将2D姿态表示为大小为K×H×W的热图,其中K是关节的数量,H和W是视频该帧的高度和宽度。在yolov7目标检测器给定相应边界框的情况下,对热图进行补零处理从而匹配原始帧的大小。我们通过人体关节坐标(xk,yk)以及置信度得分ck,组合K个以每个关节为中心的高斯映射得到关节热图J:
σ1为高斯图的方差,(xo,yo)表示关节坐标周围点的坐标,e为自然常数。并且,可以利用提取的人体关键点,构建人体肢体热图L:
函数D计算点(xo,yo)到线段seg(ak,bk)的距离,ak,bk表示肢体的两端, 代表两端关节点的置信度。最后,将所有热图(J或L)沿时间维度一同叠加得到三维热图体,其大小为K×Ti×H×W,Ti为时间长度。
步骤S13:首先采用中心裁剪技术,根据所有2D姿态估计的最小目标边界框的大小对所有帧进行裁剪,调整为检测目标的大小,既能保留所有动作信息,又能减少3D热图体空间大小。由于处理视频每一帧会造成大量计算开销,接着使用均匀抽样方法,对视频进行平均分割,将视频分割成同帧数的n′个片段,并在每一个片段中抽取一帧,拼接成较短的视频,减少在时间维度上的长度。为了保证模型的泛化能力,我们需要对数据集进行数据增强,保证在不同角度,不同远近的情况下,模型都具有很高的识别精度。于是,对数据使用翻转、变形、缩放等处理方法。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:使用时间可变形注意力机制。将一组视频特征作为查询输入。然后它将输出一组动作预测。每个动作预测都表示为时间段、置信度评分和标签的元组。使用时间可变形注意模块TDA,自适应地关注输入特征序列中参考位置周围时间位置的特征。首先设输入视频表示实数空间。TS指时间维度的长度,C则代表某一帧的维度。所以特征序列中的特征都是从视频每一帧提取的特征向量,接下来将对每一帧进行特征增强,使得每一帧都具有时间上下文特征。
设查询向量tq∈[0,1]为对应参考点的归一化坐标,这里的参考点就是视频的某一帧。输入为/>第m个TDA模块头的输出为/>由从X采样的一组关键元素的加权和计算得出:
kn表示采样点的数量,amqk∈[0,1]为各个采样点的归一化注意力权值,体现对不同采样点的关注程度。Δtmqk∈[0,1]为相对于tq的采样偏移量。X((tq+Δtmqk)TS)表示在(tq+Δtmqk)TS处的线性插值特征。接着通过线性投影从查询特征zq中预测注意权值amqk和采样偏移量Δtmqk。使用softmax函数将注意力权重归一化,是各个帧的权重值,为可学习参数。TDA的输出是通过不同TDA头输出的线性组合来计算的:
TDA(zq,tq,,X)=WOconcat(h1,h2,...,hm)
也是一组可学习的权重,concat表示线性组合。
在计算输出序列中的第t′帧时,查询点和参考点都是输入序列中的第t′帧,所述查询特征是该帧的输入特征和在该位置嵌入的其他位置特征的总和。位置嵌入用于区分输入序列中的不同位置,使用正弦位置嵌入法确定嵌入位置:
γ=1,2,3…,根据实际情况设定。
步骤S22:进行各帧权重分配,将所有识别片段的所有帧的特征进行赋权。通过计算视频编码向量c′与隐层表示ki的相似度,得出各帧特征对应的权重系数。计算公式如下:
T表示矩阵转置,T0为输入视频帧数,ξi为第i帧的权值,V0为可学习参数。
步骤S23:解码层使用自注意力机制与时间可变形注意力(TDA)结合,将前者TDA(zq,tq,X)的输出作为输入,通过连接池化层和前馈神经网络,从而可以得到解码层预测结果。
步骤S24:此前步骤是使用注意力机制提高网络对视频的识别能力,在此,我们引入基于骨骼的3D卷积网络作为动作识别的主干网络,在多种3D卷积中,选择slowonly网络作为主要网络组成,并在网络层中嵌入此前提出的注意力机制。在slowonly网络中,3D卷积的使用参数有所不同,这里卷积核的维度表示为分别表示时间步长,空间步长,通道大小,我们使用不同类型的卷积来提取视频的特征,各层卷积使用情况如下:
第一层卷积层为:1×72,64
第二层卷积残差连接层使用:
第三层卷积残差连接层使用:
第四层卷积残差连接层使用:
在本实施例中,步骤S3具体包括以下步骤:
步骤S31:基于Harr级联分类器提取人脸位置。Haar级联分类器是由大量的弱分类器组成的级联结构,每个弱分类器用于检测图像的一个特定特征。级联结构允许快速过滤掉非人脸区域,只对可能包含人脸的区域进行更详细的检测。在检测到对应的人脸后,为了降低计算开销,我们依据人脸检测的最小目标框进行裁剪,只保留人脸部分。为了提高模型的泛化能力,保证在不同情况下对表情检测的精度保持较高水平,对部分数据加入随机噪声、模糊化、颜色变化等处理方法。
步骤S32:为搭建多头注意网络,该网络第一部分使用特征聚类网络。整个网络以残差网络为主干,我们使用两种损失函数,一种称为亲和损失,另一种则为岛损失函数,使用两种损失函数的目的在于,在使同一类别内的距离尽可能靠近的同时,既能最大化不同类之间的边界,也能最大化不同类中心的距离。我们假设网络的输入为xi,该输入的标签为yi,该部分网络的输出为x′i:
x′i=F(wr.xi)
F表示该部分网络,wr表示网络参数。接着使用亲和损失:
为类中心矩阵,每一列对应一个特定类的中心,/>为是c中的列向量,表示实际标签,N′为该批次训练的图像量,σc表示各个类中心的标准差,Y表示标签空间,D0为类中心维数。同时使用岛损失函数:
为自定义的阈值。
步骤S33:第二部分为多头注意网络,我们的方法构建了1×1、1×3、3×1和3×3卷积核来捕获多尺度的局部特征。通道注意单元由一个全局平均池化层、两个线性层和一个激活函数组成,并且利用了两个线性层来编码信道信息。
表示Ka个空间注意头,/>表示Ka个空间注意图。由于第一部分的输出为x′i,第j个空间注意单元的输出为:
sj=x′i⊙Hj(ws,x′i),jv{1,...,Ka}
ws代表网络参数,同时假设为通道注意头,/>为通道注意头输出的最终注意力特征向量,则第j个输出为:
aj=sj⊙H′j(ws,sj),j∈{1,...,Ka}
步骤S34:第三部分使用注意融合网络。注意融合网络通过应用log-softmax函数来缩放注意力特征向量。因为在第二部分多头注意网络中,输出了注意力向量特征特征缩放结果为:
在L0这里取512,接着使用分区损失的方法;
为/>的方差,从而指导注意力头集中在不同的关键区域,避免注意力重叠,最后,归一化的注意力特征向量合并为一个,然后用线性层计算类置信度。
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:对于动作识别模型,我们直接使用交叉熵损失和梯度下降法对模型进行优化。对于表情识别模型,我们使用4种损失函数组成新的损失函数:
其中,为亲和损失,/>为岛损失,/>为分区损失,/>为预测结果的交叉熵损失。λ1,λ2,λ3分别代表对应损失函数的系数,系数可以根据需要进行调整。接着不断对模型迭代,使用梯度下降法对模型参数进行更新,不断验证模型准确度,保留最优模型参数。
步骤S42:在进行动作识别和表情识别的模型训练后,将训练完成的模型部署在居家老人实时监测系统中。我们对动作进行分级,分成三级,分别表示无危险、可能危险、危险三种情况。
(1)对于挥手、坐、走路、站着、躺着等动作,我们认为是正常动作,视为无危险动作。
(2)对于头疼、腰部不适、膝盖不适、咳嗽、打喷嚏等动作,我们视为可能危险动作,保持对画面人物的严格监控,并提醒家属存在潜在危险或可能疾病。
(3)对于摔倒、呼救等动作,我们视为危险动作,警报提醒家属。
步骤S43:基于表情识别的实时情绪打分系统,我们使用表情识别模型结合摄像头,每秒捕获老人的面部表情一次,并预测老人的心情,同时依照预测的置信度,对每秒老人的心情进行打分,并实时计算当前老人当天的实时心情平均得分,我们假设当前时刻心情得分为scorei
当心情为厌恶的、轻蔑的时候:
score1=100-60*pro
当心情为开心、兴奋的时候:
score2=90+10*pro
当心情为中立的、惊讶的时候:
score3=60+25*pro
当心情为愤怒的、悲伤的时候:
score4=100-80*pro
pro为预测的置信度,置信度区间为[0,1],进而能够进行算出当天实时情绪平均得分。
特别的,大多数现有的居家老人监测系统是基于多种智能设备结合的实时监测,存在设备部署难度高,监测对象生活不方便、使用成本高等问题。本发明希望能依靠计算机视觉领域的相关技术,实现更高效、更便捷的监测模式。本实例在使用动作识别方面对监测对象的人体姿态进行识别,并使用表情识别对监测对象的心情进行实时分析,在监测的基础上加入了人文关怀要素。针对基于人体姿态估计的动作识别,本发明使用yolov7-pose提取人体姿态,利用时间可变形注意力机制与3D卷积对视频中的姿态进行动作识别,相比于RGB模式下的识别,减少计算资源消耗,提高识别速度。并且相较于静态动作识别,更关注动作的变化特征,提高对动作识别的精度。针对表情识别,本发明使用多头注意网络,加强了对脸部不同部位特征的关注,减少表情之间相似特征的干扰,增强了对多种相似面部表情的潜在差异的识别能力,更加精准识别监测对象的情绪。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (5)
1.基于时间可变形注意力机制的居家老人实时状态监测方法,其特征在于:包括以下步骤:
步骤S1:基于改进yolov7提取视频人体2D姿态图,沿时间维度堆叠成3D热图体,并使用主题中心裁剪,均匀采样等多种方式进行数据预处理;
步骤S2:利用时间可变形注意力机制模块与前馈神经网络,使用网络隐帧赋权,结合3D卷积,构建动作识别模型;
步骤S3:基于Harr级联分类器提取人脸位置,结合岛损失函数与特征聚类网络,多头注意网络、注意融合网络构建表情识别模型;
步骤S4:按照指定训练参数进行迭代训练,通过优化组合损失更新动作识别模型和表情识别模型参数,根据验证准确率不断保存最优模型;利用动作识别模型构建多级动作判别预警系统,并结合表情识别模型构建实时情绪打分系统。
2.根据权利要求1所述的基于时间可变形注意力机制的居家老人实时状态监测方法,其特征在于:步骤S1具体包括以下步骤:
步骤S11:使用yolov7-pose进行目标检测,将低层特征与高层特征相融合,从而提高yolov7模型的特征表示能力;然后进行2D人体姿态估计,提取至多17个关键点;
步骤S12:在提取2D人体姿势关键点后,将制定沿时间维度堆叠构成的3D热图体;我们将2D姿态表示为大小为K×H×W的热图,其中K是关节的数量,H和W是视频该帧的高度和宽度;在yolov7目标检测器给定相应边界框的情况下,对热图进行补零处理从而匹配原始帧的大小;通过人体关节坐标(xk,yk)以及置信度得分ck,组合K个以每个关节为中心的高斯映射得到关节热图J:
σ1为高斯图的方差,(xo,yo)表示关节坐标周围点的坐标,e为自然常数;并且,利用提取的人体关键点,构建人体肢体热图L:
函数D计算点(xo,yo)到线段seg(ak,bk)的距离,ak,bk表示肢体的两端, 代表两端关节点的置信度;最后,将所有热图(J或L)沿时间维度一同叠加得到三维热图体,其大小为K×Ti×H×W,Ti为时间长度;
步骤S13:首先采用中心裁剪技术,根据所有2D姿态估计的最小目标边界框的大小对所有帧进行裁剪,调整为检测目标的大小,既能保留所有动作信息,又能减少3D热图体空间大小;由于处理视频每一帧会造成大量计算开销,接着使用均匀抽样方法,对视频进行平均分割,将视频分割成同帧数的n′个片段,并在每一个片段中抽取一帧,拼接成较短的视频,减少在时间维度上的长度;对数据使用翻转、变形、缩放处理方法。
3.根据权利要求1所述的基于时间可变形注意力机制的居家老人实时状态监测方法,其特征在于:步骤S2具体包括以下步骤:
步骤S21:使用时间可变形注意力机制;将一组视频特征作为查询输入;然后它将输出一组动作预测;每个动作预测都表示为时间段、置信度评分和标签的元组;使用时间可变形注意模块TDA,自适应地关注输入特征序列中参考位置周围时间位置的特征;首先设输入视频表示实数空间;Ts指时间维度的长度,C则代表某一帧的维度;所以特征序列中的特征都是从视频每一帧提取的特征向量,接下来将对每一帧进行特征增强,使得每一帧都具有时间上下文特征;
设查询向量tq∈[0,1]为对应参考点的归一化坐标,这里的参考点就是视频的某一帧;输入为/>第m个TDA模块头的输出为/>由从X采样的一组关键元素的加权和计算得出:
kn表示采样点的数量,amqk∈[0,1]为各个采样点的归一化注意力权值,体现对不同采样点的关注程度;Δtmqk∈[0,1]为相对于tq的采样偏移量;X((tq+Δtmqk)TS)表示在(tq+Δtmqk)TS处的线性插值特征;接着通过线性投影从查询特征zq中预测注意权值amqk和采样偏移量Δtmqk;使用softmax函数将注意力权重归一化,是各个帧的权重值,为可学习参数;TDA的输出是通过不同TDA头输出的线性组合来计算的:
TDA(zq,tq,X))=Woconcat(h1,h2,...,hm)
也是一组可学习的权重,concat表示线性组合;
在计算输出序列中的第t′帧时,查询点和参考点都是输入序列中的第t′帧,所述查询特征是该帧的输入特征和在该位置嵌入的其他位置特征的总和;位置嵌入用于区分输入序列中的不同位置,使用正弦位置嵌入法确定嵌入位置:
γ=1,2,3…,根据实际情况设定;
步骤S22:进行各帧权重分配,将所有识别片段的所有帧的特征进行赋权;通过计算视频编码向量c′与隐层表示ki的相似度,得出各帧特征对应的权重系数;计算公式如下:
T表示矩阵转置,T0为输入视频帧数,ξi为第i帧的权值,V0为可学习参数;
步骤S23:解码层使用自注意力机制与时间可变形注意力(TDA)结合,将前者TDA(zq,tq,X)的输出作为输入,通过连接池化层和前馈神经网络,从而可以得到解码层预测结果;
步骤S24:此前步骤是使用注意力机制提高网络对视频的识别能力,在此,我们引入基于骨骼的3D卷积网络作为动作识别的主干网络,在多种3D卷积中,选择slowonly网络作为主要网络组成,并在网络层中嵌入此前提出的注意力机制;在slowonly网络中,3D卷积的使用参数有所不同,这里卷积核的维度表示为分别表示时间步长,空间步长,通道大小,我们使用不同类型的卷积来提取视频的特征,各层卷积使用情况如下:
第一层卷积层为:1×72,64
第二层卷积残差连接层使用:
第三层卷积残差连接层使用:
第四层卷积残差连接层使用:
4.根据权利要求1所述的基于时间可变形注意力机制的居家老人实时状态监测方法,其特征在于:步骤S3具体包括以下步骤:
步骤S31:基于Harr级联分类器提取人脸位置;Haar级联分类器是由大量的弱分类器组成的级联结构,每个弱分类器用于检测图像的一个特定特征;级联结构允许快速过滤掉非人脸区域,只对可能包含人脸的区域进行更详细的检测;在检测到对应的人脸后,依据人脸检测的最小目标框进行裁剪,只保留人脸部分;对部分数据加入随机噪声、模糊化、颜色变化处理方法;
步骤S32:为搭建多头注意网络,该网络第一部分使用特征聚类网络;整个网络以残差网络为主干,我们使用两种损失函数,一种称为亲和损失,另一种则为岛损失函数,使用两种损失函数的目的在于,在使同一类别内的距离尽可能靠近的同时,既能最大化不同类之间的边界,也能最大化不同类中心的距离;我们假设网络的输入为xi,该输入的标签为yi,该部分网络的输出为x′i:
x′i=F(wr.xi)
F表示该部分网络,wr表示网络参数;接着使用亲和损失:
为类中心矩阵,每一列对应一个特定类的中心,/>为是c中的列向量,表示实际标签,N′为该批次训练的图像量,σc表示各个类中心的标准差,Y表示标签空间,D0为类中心维数;同时使用岛损失函数:
τ为自定义的阈值;
步骤S33:第二部分为多头注意网络,我们的方法构建1×1、1×3、3×1和3×3卷积核来捕获多尺度的局部特征;通道注意单元由一个全局平均池化层、两个线性层和一个激活函数组成,并且利用两个线性层来编码信道信息;
表示Ka个空间注意头,/>表示Ka个空间注意图;由于第一部分的输出为x′i,第j个空间注意单元的输出为:
sj=x′i⊙Hj(ws,x′i),j∈{1,...,Ka}
ws代表网络参数,同时假设为通道注意头,/>为通道注意头输出的最终注意力特征向量,则第j个输出为:
aj=sj⊙H′j(ws,sj),j∈{1,...,Ka}
步骤S34:第三部分使用注意融合网络;注意融合网络通过应用log-softmax函数来缩放注意力特征向量;因为在第二部分多头注意网络中,输出注意力向量特征特征缩放结果为:
在L0这里取512,接着使用分区损失的方法;
为/>的方差,从而指导注意力头集中在不同的关键区域,避免注意力重叠,最后,归一化的注意力特征向量合并为一个,然后用线性层计算类置信度。
5.根据权利要求1所述的基于时间可变形注意力机制的居家老人实时状态监测方法,其特征在于:步骤S4具体包括以下步骤:
步骤S41:对于动作识别模型,我们直接使用交叉熵损失和梯度下降法对模型进行优化;对于表情识别模型,我们使用4种损失函数组成新的损失函数:
其中,为亲和损失,/>为岛损失,/>为分区损失,/>为预测结果的交叉熵损失;λ1,λ2,λ3分别代表对应损失函数的系数,系数根据需要进行调整;接着不断对模型迭代,使用梯度下降法对模型参数进行更新,不断验证模型准确度,保留最优模型参数;
步骤S42:在进行动作识别和表情识别的模型训练后,将训练完成的模型部署在居家老人实时监测系统中;对动作进行分级,分成三级,分别表示无危险、可能危险、危险三种情况:
(1)对于挥手、坐、走路、站着、躺着等动作,我们认为是正常动作,视为无危险动作;
(2)对于头疼、腰部不适、膝盖不适、咳嗽、打喷嚏等动作,我们视为可能危险动作,保持对画面人物的严格监控,并提醒家属存在潜在危险或可能疾病;
(3)对于摔倒、呼救等动作,我们视为危险动作,警报提醒家属;
步骤S43:基于表情识别的实时情绪打分系统,我们使用表情识别模型结合摄像头,每秒捕获老人的面部表情一次,并预测老人的心情,同时依照预测的置信度,对每秒老人的心情进行打分,并实时计算当前老人当天的实时心情平均得分,我们假设当前时刻心情得分为scorei
当心情为厌恶的、轻蔑的时候:
score1=100-60*pro
当心情为开心、兴奋的时候:
score2=90+10*pro
当心情为中立的、惊讶的时候:
score3=60+25*pro
当心情为愤怒的、悲伤的时候:
score4=100-80*pro
pro为预测的置信度,置信度区间为[0,1],进而能够进行算出当天实时情绪平均得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388239.6A CN117218709A (zh) | 2023-10-25 | 2023-10-25 | 基于时间可变形注意力机制的居家老人实时状态监测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311388239.6A CN117218709A (zh) | 2023-10-25 | 2023-10-25 | 基于时间可变形注意力机制的居家老人实时状态监测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117218709A true CN117218709A (zh) | 2023-12-12 |
Family
ID=89035512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311388239.6A Pending CN117218709A (zh) | 2023-10-25 | 2023-10-25 | 基于时间可变形注意力机制的居家老人实时状态监测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117218709A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408996A (zh) * | 2023-12-13 | 2024-01-16 | 山东锋士信息技术有限公司 | 基于缺陷专注和边缘权重损失的表面缺陷检测方法 |
CN117710755A (zh) * | 2024-02-04 | 2024-03-15 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别系统及方法 |
-
2023
- 2023-10-25 CN CN202311388239.6A patent/CN117218709A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408996A (zh) * | 2023-12-13 | 2024-01-16 | 山东锋士信息技术有限公司 | 基于缺陷专注和边缘权重损失的表面缺陷检测方法 |
CN117408996B (zh) * | 2023-12-13 | 2024-04-19 | 山东锋士信息技术有限公司 | 基于缺陷专注和边缘权重损失的表面缺陷检测方法 |
CN117710755A (zh) * | 2024-02-04 | 2024-03-15 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别系统及方法 |
CN117710755B (zh) * | 2024-02-04 | 2024-05-03 | 江苏未来网络集团有限公司 | 一种基于深度学习的车辆属性识别系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3547211B1 (en) | Methods for training a cnn and classifying an action performed by a subject in an inputted video using said cnn | |
Vishwakarma | A two-fold transformation model for human action recognition using decisive pose | |
US10902243B2 (en) | Vision based target tracking that distinguishes facial feature targets | |
Jalal et al. | Human Depth Sensors‐Based Activity Recognition Using Spatiotemporal Features and Hidden Markov Model for Smart Environments | |
Ahad | Motion history images for action recognition and understanding | |
Valstar et al. | Fully automatic facial action unit detection and temporal analysis | |
CN112800903B (zh) | 一种基于时空图卷积神经网络的动态表情识别方法及系统 | |
Shahzad et al. | A smart surveillance system for pedestrian tracking and counting using template matching | |
WO2017150032A1 (en) | Method and system for detecting actions of object in scene | |
Wu et al. | A detection system for human abnormal behavior | |
CN109685037B (zh) | 一种实时动作识别方法、装置及电子设备 | |
CN117218709A (zh) | 基于时间可变形注意力机制的居家老人实时状态监测方法 | |
Chaudhari et al. | Face detection using viola jones algorithm and neural networks | |
US20120219186A1 (en) | Continuous Linear Dynamic Systems | |
CN115427982A (zh) | 用于使用卷积神经网络标识数字视频中的人体行为的方法、系统和介质 | |
Nigam et al. | A review of computational approaches for human behavior detection | |
CN112883896B (zh) | 一种基于bert网络的微表情检测方法 | |
CN107863153A (zh) | 一种基于智能大数据的人体健康特征建模测量方法与平台 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Sheeba et al. | Hybrid features-enabled dragon deep belief neural network for activity recognition | |
Ansar et al. | Robust hand gesture tracking and recognition for healthcare via Recurent neural network | |
Pervaiz et al. | Artificial neural network for human object interaction system over Aerial images | |
Serpush et al. | Complex human action recognition in live videos using hybrid FR-DL method | |
Batool et al. | Fundamental recognition of ADL assessments using machine learning engineering | |
Li | Dual-attention generative adversarial network and flame and smoke analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |