CN116704609A - 基于时序注意力的在线手卫生评估方法及系统 - Google Patents
基于时序注意力的在线手卫生评估方法及系统 Download PDFInfo
- Publication number
- CN116704609A CN116704609A CN202310698849.XA CN202310698849A CN116704609A CN 116704609 A CN116704609 A CN 116704609A CN 202310698849 A CN202310698849 A CN 202310698849A CN 116704609 A CN116704609 A CN 116704609A
- Authority
- CN
- China
- Prior art keywords
- features
- action
- hand washing
- layer
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 141
- 238000005406 washing Methods 0.000 claims abstract description 90
- 238000011176 pooling Methods 0.000 claims abstract description 36
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000003672 processing method Methods 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 230000000875 corresponding effect Effects 0.000 claims abstract description 7
- 230000004913 activation Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 28
- 230000007774 longterm Effects 0.000 claims description 20
- 230000003287 optical effect Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 230000033001 locomotion Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000000750 progressive effect Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000012854 evaluation process Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于时序注意力的在线手卫生评估方法及系统,所述方法包括:获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;使用时序注意力来增强和融合各类时序特征,得到融合特征;对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分;本发明的优点在于:提高评估结果的准确性。
Description
技术领域
本发明涉及深度学习领域,具体涉及基于时序注意力的在线手卫生评估方法及系统。
背景技术
手卫生评估是一项重要的预防措施,是降低疾病传播潜在风险的重要任务。一个标准的手卫生视频包含六个洗手动作,但每两个洗手动作之间可能会夹杂着背景动作,这很容易干扰洗手动作的评估性能。与短时序的跳水动作相比,洗手动作持续的时间更长,并且包含了更多的细节,这使得手部卫生评估的任务更具挑战性。
现有的手卫生评估方法大多是对提取好的视频特征直接进行评估。现有技术一:Zhong等,Designing a Computer-Vision Application:A Case Study for Hand-HygieneAssessment in an Open-Room Environment.《Journal of Imaging》,2021,7(9):170.应用迭代工程的流程来设计手部卫生行为检测系统,在实现特征提取后直接对视频进行分类,利用动作分类的结果来评估洗手动作。但是其在特征提取后直接对视频进行分类,并没有很好地建模动作的时序关系。此外,使用动作分类的结果来评估洗手动作,这忽略了每个洗手动作的内在复杂性,从而整个方案无法给出准确的评估结果。
现有技术二:中国专利公开号CN115205972A公开的一种基于深度学习的六步洗手评估方法及装置,设计了一种关键动作打分器,旨在关注每个洗手动作中所包含的关键动作信息。关键动作打分器由全局平均池化层和两个全连接层构成,用于对动作特征进行关键动作提取,两个分支对应两个不同的关键动作,还设计了可学习Sigmoid层用来自适应调整不同关键动作的得分比重。但是关键动作评分器只是一个浅层的回归模块,因此很难完全挖掘洗手动作的细节,无法给出准确的评估效果。
发明内容
本发明所要解决的技术问题在于现有技术手卫生评估方法无法给出准确的评估效果的问题。
本发明通过以下技术手段解决上述技术问题的:基于时序注意力的在线手卫生评估方法,所述方法包括:
步骤a:获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;
步骤b:使用时序注意力来增强和融合各类时序特征,得到融合特征;
步骤c:对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;
步骤d:将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。
本发明对融合特征进行动作分类并对初始特征进行分割,不仅可以对每类洗手动作进行独立且充分的细粒度评估,减少不相关动作之前的相互干扰,而且去除了各类洗手动作之间存在的背景噪声,提高评估结果的准确性,将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后加权并求和得到该洗手动作的预测得分,从而以树状结构从粗到细地评估每个洗手动作,充分挖掘洗手动作的细节信息,进一步提高评估结果的准确性。
进一步地,所述步骤a之前还包括:
对在线洗手视频流提取224×224可见光视频帧以及224×224光流帧,然后输入到预训练好的I3D网络中,通过特征提取得到1024维的可见光特征和光流特征,之后将这两个模态特征在通道维度上进行连接,得到2048维的初始特征。
进一步地,所述步骤a包括:
从初始特征中提取第一预设长度的特征作为长期特征Flong,从初始特征中提取第二预设长度的特征作为长期特征Fshort,第一预设长度大于第二预设长度,通过编码器和解码器分别建模各类时序特征的公式如下
{F0,F2}=Encoder(Flong)
F1=Decoder(Fshort,F0,F0)
F3=Decoder(Q,F0,F0)
其中,Encoder表示编码器,F0表示长期历史特征,F2表示类别历史特征,F1表示短期当前特征,Decoder表示解码器,F3表示短期未来特征,Q表示可学习特征。
更进一步地,所述步骤b包括:
短期当前特征F1、类别历史特征F2和短期未来特征F3均输入到相同结构的注意力模块中,利用注意力机制在空间和通道上进行特征增强,之后进行传递连接实现渐进式交互,最后在通道维度上将三者连接起来得到融合特征Fm。
更进一步地,所述步骤b还包括:
构建以下公式得到融合特征Fm
Fi ′=Attention(Fi)
其中,i∈{1,2,3},Attention代表注意力模块,AP为第一平均池化层,Concat表示连接。
更进一步地,所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层,第二全局池化层通过第二全连接层与第一激活层连接,第二平均池化层通过第三全连接层与第二激活层连接,第一激活层与第二激活层的输出结果融合以后输入到第四全连接层,第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层,第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。
更进一步地,所述步骤c包括:
将融合特征Fm输入到分类头中,识别得到当前视频流每一帧的动作类别,之后利用这些类别信息对I3D网络提取出的初始特征进行分割,得到当前视频流中各个洗手动作的时序特征αi,i对应洗手动作的类别,αi作为动作特征。
更进一步地,所述步骤d包括:
通过公式si=EST(αi)获取当前视频流中第i个洗手动作的得分;
通过公式将当前视频流中的各个洗手动作得分相加,得到当前视频流中洗手动作的预测得分;
其中,EST表示集成评分树,集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构,n表示当前视频流中洗手动作的类别数。
更进一步地,所述方法还包括预训练过程:
调整评估过程中涉及的各个模块的参数,不断训练整个模型,直到损失函数最小时停止训练,得到最优的模型,利用该最优的模型进行在线手卫生评估,所述损失函数包括第一损失函数Loss1=CE(p,g)+μCE(p′,g′)
其中,p为当前动作的类别预测概率且p=CF(Fm),p′为未来帧的预测概率且p′=CF′(F3),CE表示交叉熵损失函数,CF和CF′均为分类器,g和g′分别是当前和未来动作的真实类别,μ为平衡因子;
所述损失函数还包括第二损失函数Loss2=MSE(S,S′)
其中,S和S′分别为预测得分和真实得分,MSE表示均方误差。
本发明还提供基于时序注意力的在线手卫生评估系统,所述系统包括:
时序特征获取模块,用于获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;
融合特征获取模块,用于使用时序注意力来增强和融合各类时序特征,得到融合特征;
动作特征获取模块,用于对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;
评估模块,用于将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。
本发明的优点在于:
(1)本发明对融合特征进行动作分类并对初始特征进行分割,不仅可以对每类洗手动作进行独立且充分的细粒度评估,减少不相关动作之前的相互干扰,而且去除了各类洗手动作之间存在的背景噪声,提高评估结果的准确性,将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后加权并求和得到该洗手动作的预测得分,从而以树状结构从粗到细地评估每个洗手动作,充分挖掘洗手动作的细节信息,进一步提高评估结果的准确性。
(2)本发明设计了一个时序Transformer(包含一个编码器、两个解码器以及一个时序注意力),充分建模了长期历史信息、短期当前信息和短期未来信息,并且利用注意机制在空间和通道上增强个体特征,通过传递连接实现渐进式融合。
(3)现有评估头的回归能力相对较差,很容易忽略了每个洗手动作的内在复杂性,难以挖掘动作的细节信息。为了实现对洗手动作的细粒度评估,本发明设计了一个集成评分树(由池化层,全连接层和多层感知机MLP组成)来捕捉细粒度的洗手动作细节,以树状结构从粗到细地评估每个洗手动作,充分挖掘洗手动作的细节信息。
附图说明
图1为本发明实施例所公开的基于时序注意力的在线手卫生评估方法的整体架构图;
图2为本发明实施例所公开的基于时序注意力的在线手卫生评估方法中时序注意力部分的示意图;
图3为本发明实施例所公开的基于时序注意力的在线手卫生评估方法中集成评分树的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,基于时序注意力的在线手卫生评估方法,所述方法包括:
步骤1、对输入视频流提取可见光特征和光流特征,具体过程为:
对在线洗手视频流提取224×224可见光视频帧以及224×224光流帧,然后输入到预训练好的I3D网络中,通过特征提取得到1024维的可见光特征和光流特征,之后将这两个模态特征在通道维度上进行连接,得到2048维的初始特征。
步骤2、获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;具体过程为:
从初始特征中提取第一预设长度的特征作为长期特征Flong,从初始特征中提取第二预设长度的特征作为长期特征Fshort,第一预设长度大于第二预设长度,由于长期历史信息涵盖了丰富的动作特征和时序信息,通过编码器来建模输入的长期特征Flong,获得长期历史特征F0以及类别历史特征F2。此外,短期当前信息包括当前帧和一些相邻的最近帧,这对于当前动作检测和后续评估是至关重要的,所以将短期特征Fshort作为查询,长期历史特征F0作为键和值输入到解码器中,得到短期当前特征F1。关于未来的信息,它是不可见的,但与当前帧紧密相连,这使得它在合理预测时会为动作检测带来有用的相关时序信息。因此,将一个自定义的可学习特征Q作为查询,长期历史特征F0作为键和值输入到另一个解码器中,预测得到短期未来特征F3,相关公式过程如下
{F0,F2}=Encoder(Flong)
F1=Decoder(Fshort,F0,F0)
F3=Decoder(Q,F0,F0)
其中,Encoder表示编码器,F0表示长期历史特征,F2表示类别历史特征,F1表示短期当前特征,Decoder表示解码器,F3表示短期未来特征,Q表示可学习特征。其中Flong和Fshort的通道维度为2048,其余特征通道维度均为1024。
步骤3、使用时序注意力来增强和融合各类时序特征,得到融合特征;具体过程为:
如图2所示,短期当前特征F1、类别历史特征F2和短期未来特征F3均输入到相同结构的注意力模块中,利用注意力机制在空间和通道上进行特征增强,之后进行传递连接实现渐进式交互,最后在通道维度上将三者连接起来得到融合特征Fm。相关公式如下
Fi ′=Attention(Fi)
其中,i∈{1,2,3},Attention代表注意力模块,AP为第一平均池化层,Concat表示连接。Fm的通道维度为3072,其余特征通道维度均为1024。
继续参阅图2,所述注意力模块包括第二全局池化层1、第二平均池化层4、第二全连接层2至第六全连接层10、第一激活层至第三激活层,第二全局池化层1通过第二全连接层2与第一激活层3连接,第二平均池化层4通过第三全连接层5与第二激活层6连接,第一激活层3与第二激活层6的输出结果融合以后输入到第四全连接层7,第五全连接层8通过第三激活层9以后的输出结果以及第一激活层3与第二激活层6的输出结果融合以后输入第六全连接层10,第四连接层7和第六连接层10的输出结果分别通过一个激活函数以后融合输出。
步骤4、对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;具体过程为:
首先将时序Transformer输出的融合特征Fm输入到分类头中,识别得到当前视频流每一帧的动作类别,之后利用这些类别信息对I3D网络提取出的初始特征进行分割,得到当前视频流中各个洗手动作的时序特征αi,i对应洗手动作的类别,αi作为动作特征。这样,不仅可以对每类洗手动作进行独立且充分的细粒度评估,减少不相关动作之前的相互干扰,而且去除了各类洗手动作之间存在的背景噪声。
步骤5、将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。具体过程为:
现有评估头的回归能力相对较差,很容易忽略了每个洗手动作的内在复杂性,难以挖掘动作的细节信息。为了实现对洗手动作的细粒度评估,本发明提出了集成评分树,它可以从粗到细地评估每个洗手动作,从而极大地捕捉洗手动作的细节。
集成评分树的细节如图3所示,图3中FC表示全连接层,FC的下标表示全连接层的编号。首先,将动作特征通过全局最大池化进行汇集,得到根特征,然后由两个不同的全连接层线性映射到两个子特征中,后续各层特征的处理方法相同。最后,使用MLP对最后一层的所有特征进行回归,得到每个分支的得分,然后将其加权并求和,得到该洗手动作的预测得分,相关公式如下
通过公式si=EST(αi)获取当前视频流中第i个洗手动作的得分;
通过公式将当前视频流中的各个洗手动作得分相加,得到当前视频流中洗手动作的预测得分;
其中,EST表示集成评分树,集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构,n表示当前视频流中洗手动作的类别数。αi的通道维度为2048。
需要说明的是,本发明还包括预训练过程:调整评估过程中涉及的各个模块的参数,不断训练整个模型,直到损失函数最小时停止训练,得到最优的模型,利用该最优的模型进行在线手卫生评估。具体的,在动作检测部分,将融合特征Fm输入到分类头中,得到当前动作的类别预测概率p,同样,将特征F3输入到分类头中,得到未来帧的预测概率p′。使用交叉熵损失函数也即第一损失函数来监督每一帧的预测:
p=CF(Fm)
p′=CF′(F3)
Loss1=CE(p,g)+μCE(p′,g′)
其中,p为当前动作的类别预测概率),p′为未来帧的预测概率,CE表示交叉熵损失函数,CF和CF′均为分类器,g和g′分别是当前和未来动作的真实类别,μ为平衡因子,设置为0.7。
在动作评估部分,将其视为一个回归任务,使用均方误差损失函数也即第二损失函数来修正预测分数,公式如下:
Loss2=MSE(S,S′)
其中,S和S′分别为预测得分和真实得分,MSE表示均方误差。
以下对本发明提供的方法进行仿真分析,并且根据仿真分析结果说明本发明的效果。本发明选择在公开的手卫生数据集HHA300上与一些先进的相关算法进行对比(表1)。采用在线动作检测算法流行的平均准确率(mAP)和动作质量评估算法流行的斯皮尔曼相关秩系数(ρ)以及相对L2距离(RL2)作为评价指标。从结果中可以得到,本发明提出的方法应用在手卫生数据集上,在各个评价指标上都有明显提升。
表1仿真分析结果对比
方法 | 发表信息 | mAP(%)↑ | ρ↑ | RL2(×100)↓ |
OadTR★ | ICCV2021 | 84.7 | 0.866 | 1.66 |
TeSTra★ | ECCV2022 | 88.8 | 0.894 | 1.23 |
LSTR★ | NeurIPS2021 | 89.1 | 0.890 | 1.25 |
本方法 | - | 90.1 | 0.927 | 0.99 |
通过以上技术方案,本发明设计了一个时序Transformer模块:包含一个编码器、两个解码器和一个时序注意力,以充分利用长期历史信息、短期当前信息和短期未来信息。其中,编码器用来建模长期历史信息,一个解码器用来建模短期当前信息,另一解码器则用来预测短期未来信息,而时序注意力利用注意机制以空间和通道的方式增强不同时期的特征信息,并通过传递连接进行渐进式交互。还设计了集成评分树模块,是一种树状的多分支多层次评估模型,由池化层,全连接层和多层感知机组成。特别地,集成评分树能够从粗到细地评估每个洗手动作,从而可以很好地关注到洗手动作的细节信息。
实施例2
基于实施例1,本发明实施例2还提供基于时序注意力的在线手卫生评估系统,所述系统包括:
时序特征获取模块,用于获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;
融合特征获取模块,用于使用时序注意力来增强和融合各类时序特征,得到融合特征;
动作特征获取模块,用于对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;
评估模块,用于将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。
具体的,所述时序特征获取模块之前还包括:
对在线洗手视频流提取224×224可见光视频帧以及224×224光流帧,然后输入到预训练好的I3D网络中,通过特征提取得到1024维的可见光特征和光流特征,之后将这两个模态特征在通道维度上进行连接,得到2048维的初始特征。
具体的,所述时序特征获取模块还用于:
从初始特征中提取第一预设长度的特征作为长期特征Flong,从初始特征中提取第二预设长度的特征作为长期特征Fshort,第一预设长度大于第二预设长度,通过编码器和解码器分别建模各类时序特征的公式如下
{F0,F2}=Encoder(Flong)
F1=Decoder(Fshort,F0,F0)
F3=Decoder(Q,F0,F0)
其中,Encoder表示编码器,F0表示长期历史特征,F2表示类别历史特征,F1表示短期当前特征,Decoder表示解码器,F3表示短期未来特征,Q表示可学习特征。
更具体的,所述融合特征获取模块还用于:
短期当前特征F1、类别历史特征F2和短期未来特征F3均输入到相同结构的注意力模块中,利用注意力机制在空间和通道上进行特征增强,之后进行传递连接实现渐进式交互,最后在通道维度上将三者连接起来得到融合特征Fm。
更具体的,所述融合特征获取模块还用于:
构建以下公式得到融合特征Fm
F′i=Attention(Fi)
其中,i∈{1,2,3},Attention代表注意力模块,AP为第一平均池化层,Concat表示连接。
更具体的,所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层,第二全局池化层通过第二全连接层与第一激活层连接,第二平均池化层通过第三全连接层与第二激活层连接,第一激活层与第二激活层的输出结果融合以后输入到第四全连接层,第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层,第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。
更具体的,所述动作特征获取模块还用于:
将融合特征Fm输入到分类头中,识别得到当前视频流每一帧的动作类别,之后利用这些类别信息对I3D网络提取出的初始特征进行分割,得到当前视频流中各个洗手动作的时序特征αi,i对应洗手动作的类别,αi作为动作特征。
更具体的,所述评估模块还用于:
通过公式si=EST(αi)获取当前视频流中第i个洗手动作的得分;
通过公式将当前视频流中每个洗手动作的得分相加,得到当前视频流中洗手动作的预测得分;
其中,EST表示集成评分树,集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构,n表示当前视频流中洗手动作的类别数。
更具体的,所述系统还包括预训练模块,预训练模块用于:
调整评估过程中涉及的各个模块的参数,不断训练整个模型,直到损失函数最小时停止训练,得到最优的模型,利用该最优的模型进行在线手卫生评估,所述损失函数包括第一损失函数Loss1=CE(p,g)+μCE(p′,g′)
其中,p为当前动作的类别预测概率且p=CF(Fm),p′为未来帧的预测概率且p′=CF′(F3),CE表示交叉熵损失函数,CF和CF′均为分类器,g和g′分别是当前和未来动作的真实类别,μ为平衡因子;
所述损失函数还包括第二损失函数Loss2=MSE(S,S′)
其中,S和S′分别为预测得分和真实得分,MSE表示均方误差。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.基于时序注意力的在线手卫生评估方法,其特征在于,所述方法包括:
步骤a:获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;
步骤b:使用时序注意力来增强和融合各类时序特征,得到融合特征;
步骤c:对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;
步骤d:将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。
2.根据权利要求1所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤a之前还包括:
对在线洗手视频流提取224×224可见光视频帧以及224×224光流帧,然后输入到预训练好的I3D网络中,通过特征提取得到1024维的可见光特征和光流特征,之后将这两个模态特征在通道维度上进行连接,得到2048维的初始特征。
3.根据权利要求1所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤a包括:
从初始特征中提取第一预设长度的特征作为长期特征Flong,从初始特征中提取第二预设长度的特征作为长期特征Fshort,第一预设长度大于第二预设长度,通过编码器和解码器分别建模各类时序特征的公式如下
{F0,F2}=Encoder(Flong)
F1=Decoder(Fshort,F0,F0)
F3=Decoder(Q,F0,F0)
其中,Encoder表示编码器,F0表示长期历史特征,F2表示类别历史特征,F1表示短期当前特征,Decoder表示解码器,F3表示短期未来特征,Q表示可学习特征。
4.根据权利要求3所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤b包括:
短期当前特征F1、类别历史特征F2和短期未来特征F3均输入到相同结构的注意力模块中,利用注意力机制在空间和通道上进行特征增强,之后进行传递连接实现渐进式交互,最后在通道维度上将三者连接起来得到融合特征Fm。
5.根据权利要求4所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤b还包括:
构建以下公式得到融合特征Fm
F′i=Attention(Fi)
其中,i∈{1,2,3},Attention代表注意力模块,AP为第一平均池化层,Concat表示连接。
6.根据权利要求4所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层,第二全局池化层通过第二全连接层与第一激活层连接,第二平均池化层通过第三全连接层与第二激活层连接,第一激活层与第二激活层的输出结果融合以后输入到第四全连接层,第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层,第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。
7.根据权利要求4所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤c包括:
将融合特征Fm输入到分类头中,识别得到当前视频流每一帧的动作类别,之后利用这些类别信息对I3D网络提取出的初始特征进行分割,得到当前视频流中各个洗手动作的时序特征αi,i对应洗手动作的类别,αi作为动作特征。
8.根据权利要求7所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述步骤d包括:
通过公式si=EST(αi)获取当前视频流中第i个洗手动作的得分;
通过公式将当前视频流中的各个洗手动作得分相加,得到当前视频流中洗手动作的预测得分;
其中,EST表示集成评分树,集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构,n表示当前视频流中洗手动作的类别数。
9.根据权利要求8所述的基于时序注意力的在线手卫生评估方法,其特征在于,所述方法还包括预训练过程:
调整评估过程中涉及的各个模块的参数,不断训练整个模型,直到损失函数最小时停止训练,得到最优的模型,利用该最优的模型进行在线手卫生评估,所述损失函数包括第一损失函数Loss1=CE(p,g)+μCE(p′,g′)
其中,p为当前动作的类别预测概率且p=CF(Fm),p′为未来帧的预测概率且p′=CF′(F3),CE表示交叉熵损失函数,CF和CF′均为分类器,g和g′分别是当前和未来动作的真实类别,μ为平衡因子;
所述损失函数还包括第二损失函数Loss2=MSE(S,S′)
其中,S和S′分别为预测得分和真实得分,MSE表示均方误差。
10.基于时序注意力的在线手卫生评估系统,其特征在于,所述系统包括:
时序特征获取模块,用于获取在线洗手视频流,通过编码器和解码器分别建模各类时序特征;
融合特征获取模块,用于使用时序注意力来增强和融合各类时序特征,得到融合特征;
动作特征获取模块,用于对融合特征进行动作分类并对初始特征进行分割,得到各个洗手动作的时序特征及其对应的动作类别,作为动作特征;
评估模块,用于将动作特征通过第一全局最大池化层进行汇集得到根特征,由两个不同的第一全连接层线性映射到两个子特征中,后续各层特征的处理方法相同,最后使用MLP对最后一层的所有特征进行回归,得到每个洗手动作的得分,将当前视频流中的各个洗手动作得分相加得到最终的预测得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310698849.XA CN116704609A (zh) | 2023-06-12 | 2023-06-12 | 基于时序注意力的在线手卫生评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310698849.XA CN116704609A (zh) | 2023-06-12 | 2023-06-12 | 基于时序注意力的在线手卫生评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704609A true CN116704609A (zh) | 2023-09-05 |
Family
ID=87838835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310698849.XA Pending CN116704609A (zh) | 2023-06-12 | 2023-06-12 | 基于时序注意力的在线手卫生评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704609A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117498320A (zh) * | 2023-11-01 | 2024-02-02 | 南方电网电力科技股份有限公司 | 一种波浪发电功率预测方法和系统 |
-
2023
- 2023-06-12 CN CN202310698849.XA patent/CN116704609A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117498320A (zh) * | 2023-11-01 | 2024-02-02 | 南方电网电力科技股份有限公司 | 一种波浪发电功率预测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN108921051B (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN110084151B (zh) | 基于非局部网络深度学习的视频异常行为判别方法 | |
CN112685597B (zh) | 一种基于擦除机制的弱监督视频片段检索方法和系统 | |
CN112507901B (zh) | 一种基于伪标签自纠正的无监督行人重识别方法 | |
CN109299657B (zh) | 基于语义注意力保留机制的群体行为识别方法及装置 | |
CN109190544B (zh) | 一种基于序列深度图像的人体身份识别方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN110853074A (zh) | 一种利用光流增强目标的视频目标检测网络系统 | |
Shen et al. | Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description. | |
CN114842553A (zh) | 基于残差收缩结构和非局部注意力的行为检测方法 | |
CN116704609A (zh) | 基于时序注意力的在线手卫生评估方法及系统 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN114049581A (zh) | 一种基于动作片段排序的弱监督行为定位方法和装置 | |
CN116206327A (zh) | 一种基于在线知识蒸馏的图像分类方法 | |
CN113592008B (zh) | 小样本图像分类的系统、方法、设备及存储介质 | |
Zhao et al. | Robust online tracking with meta-updater | |
CN114821299A (zh) | 一种遥感图像变化检测方法 | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
CN117152459A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN112801076B (zh) | 基于自注意力机制的电子商务视频高光检测方法及系统 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN115393802A (zh) | 一种基于小样本学习的铁路场景不常见入侵目标识别方法 | |
CN111681748B (zh) | 基于智能视觉感知的医疗行为动作规范性评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |