CN116704609A

CN116704609A - 基于时序注意力的在线手卫生评估方法及系统

Info

Publication number: CN116704609A
Application number: CN202310698849.XA
Authority: CN
Inventors: 李成龙; 刘图彪; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-05

Abstract

本发明公开了基于时序注意力的在线手卫生评估方法及系统，所述方法包括：获取在线洗手视频流，通过编码器和解码器分别建模各类时序特征；使用时序注意力来增强和融合各类时序特征，得到融合特征；对融合特征进行动作分类并对初始特征进行分割，得到各个洗手动作的时序特征及其对应的动作类别，作为动作特征；将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后使用MLP对最后一层的所有特征进行回归，得到每个洗手动作的得分，将当前视频流中的各个洗手动作得分相加得到最终的预测得分；本发明的优点在于：提高评估结果的准确性。

Description

基于时序注意力的在线手卫生评估方法及系统

技术领域

本发明涉及深度学习领域，具体涉及基于时序注意力的在线手卫生评估方法及系统。

背景技术

手卫生评估是一项重要的预防措施，是降低疾病传播潜在风险的重要任务。一个标准的手卫生视频包含六个洗手动作，但每两个洗手动作之间可能会夹杂着背景动作，这很容易干扰洗手动作的评估性能。与短时序的跳水动作相比，洗手动作持续的时间更长，并且包含了更多的细节，这使得手部卫生评估的任务更具挑战性。

现有的手卫生评估方法大多是对提取好的视频特征直接进行评估。现有技术一：Zhong等,Designing a Computer-Vision Application:A Case Study for Hand-HygieneAssessment in an Open-Room Environment.《Journal of Imaging》,2021,7(9):170.应用迭代工程的流程来设计手部卫生行为检测系统，在实现特征提取后直接对视频进行分类，利用动作分类的结果来评估洗手动作。但是其在特征提取后直接对视频进行分类，并没有很好地建模动作的时序关系。此外，使用动作分类的结果来评估洗手动作，这忽略了每个洗手动作的内在复杂性，从而整个方案无法给出准确的评估结果。

现有技术二：中国专利公开号CN115205972A公开的一种基于深度学习的六步洗手评估方法及装置，设计了一种关键动作打分器，旨在关注每个洗手动作中所包含的关键动作信息。关键动作打分器由全局平均池化层和两个全连接层构成，用于对动作特征进行关键动作提取，两个分支对应两个不同的关键动作，还设计了可学习Sigmoid层用来自适应调整不同关键动作的得分比重。但是关键动作评分器只是一个浅层的回归模块，因此很难完全挖掘洗手动作的细节，无法给出准确的评估效果。

发明内容

本发明所要解决的技术问题在于现有技术手卫生评估方法无法给出准确的评估效果的问题。

本发明通过以下技术手段解决上述技术问题的：基于时序注意力的在线手卫生评估方法，所述方法包括：

步骤a：获取在线洗手视频流，通过编码器和解码器分别建模各类时序特征；

步骤b：使用时序注意力来增强和融合各类时序特征，得到融合特征；

步骤c：对融合特征进行动作分类并对初始特征进行分割，得到各个洗手动作的时序特征及其对应的动作类别，作为动作特征；

步骤d：将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后使用MLP对最后一层的所有特征进行回归，得到每个洗手动作的得分，将当前视频流中的各个洗手动作得分相加得到最终的预测得分。

本发明对融合特征进行动作分类并对初始特征进行分割，不仅可以对每类洗手动作进行独立且充分的细粒度评估，减少不相关动作之前的相互干扰，而且去除了各类洗手动作之间存在的背景噪声，提高评估结果的准确性，将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后加权并求和得到该洗手动作的预测得分，从而以树状结构从粗到细地评估每个洗手动作，充分挖掘洗手动作的细节信息，进一步提高评估结果的准确性。

进一步地，所述步骤a之前还包括：

对在线洗手视频流提取224×224可见光视频帧以及224×224光流帧，然后输入到预训练好的I3D网络中，通过特征提取得到1024维的可见光特征和光流特征，之后将这两个模态特征在通道维度上进行连接，得到2048维的初始特征。

进一步地，所述步骤a包括：

从初始特征中提取第一预设长度的特征作为长期特征F_long，从初始特征中提取第二预设长度的特征作为长期特征F_short，第一预设长度大于第二预设长度，通过编码器和解码器分别建模各类时序特征的公式如下

{F₀,F₂}＝Encoder(F_long)

F₁＝Decoder(F_short,F₀,F₀)

F₃＝Decoder(Q,F₀,F₀)

其中，Encoder表示编码器，F₀表示长期历史特征，F₂表示类别历史特征，F₁表示短期当前特征，Decoder表示解码器，F₃表示短期未来特征，Q表示可学习特征。

更进一步地，所述步骤b包括：

短期当前特征F₁、类别历史特征F₂和短期未来特征F₃均输入到相同结构的注意力模块中，利用注意力机制在空间和通道上进行特征增强，之后进行传递连接实现渐进式交互，最后在通道维度上将三者连接起来得到融合特征F_m。

更进一步地，所述步骤b还包括：

构建以下公式得到融合特征F_m

F_i ^′＝Attention(F_i)

其中，i∈{1,2,3}，Attention代表注意力模块，AP为第一平均池化层，Concat表示连接。

更进一步地，所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层，第二全局池化层通过第二全连接层与第一激活层连接，第二平均池化层通过第三全连接层与第二激活层连接，第一激活层与第二激活层的输出结果融合以后输入到第四全连接层，第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层，第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。

更进一步地，所述步骤c包括：

将融合特征F_m输入到分类头中，识别得到当前视频流每一帧的动作类别，之后利用这些类别信息对I3D网络提取出的初始特征进行分割，得到当前视频流中各个洗手动作的时序特征α_i，i对应洗手动作的类别，α_i作为动作特征。

更进一步地，所述步骤d包括：

通过公式s_i＝EST(α_i)获取当前视频流中第i个洗手动作的得分；

通过公式将当前视频流中的各个洗手动作得分相加，得到当前视频流中洗手动作的预测得分；

其中，EST表示集成评分树，集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构，n表示当前视频流中洗手动作的类别数。

更进一步地，所述方法还包括预训练过程：

调整评估过程中涉及的各个模块的参数，不断训练整个模型，直到损失函数最小时停止训练，得到最优的模型，利用该最优的模型进行在线手卫生评估，所述损失函数包括第一损失函数Loss₁＝CE(p,g)+μCE(p′,g′)

其中，p为当前动作的类别预测概率且p＝CF(F_m)，p^′为未来帧的预测概率且p′＝CF′(F₃)，CE表示交叉熵损失函数，CF和CF^′均为分类器，g和g^′分别是当前和未来动作的真实类别，μ为平衡因子；

所述损失函数还包括第二损失函数Loss₂＝MSE(S,S′)

其中，S和S^′分别为预测得分和真实得分，MSE表示均方误差。

本发明还提供基于时序注意力的在线手卫生评估系统，所述系统包括：

时序特征获取模块，用于获取在线洗手视频流，通过编码器和解码器分别建模各类时序特征；

融合特征获取模块，用于使用时序注意力来增强和融合各类时序特征，得到融合特征；

动作特征获取模块，用于对融合特征进行动作分类并对初始特征进行分割，得到各个洗手动作的时序特征及其对应的动作类别，作为动作特征；

评估模块，用于将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后使用MLP对最后一层的所有特征进行回归，得到每个洗手动作的得分，将当前视频流中的各个洗手动作得分相加得到最终的预测得分。

本发明的优点在于：

(1)本发明对融合特征进行动作分类并对初始特征进行分割，不仅可以对每类洗手动作进行独立且充分的细粒度评估，减少不相关动作之前的相互干扰，而且去除了各类洗手动作之间存在的背景噪声，提高评估结果的准确性，将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后加权并求和得到该洗手动作的预测得分，从而以树状结构从粗到细地评估每个洗手动作，充分挖掘洗手动作的细节信息，进一步提高评估结果的准确性。

(2)本发明设计了一个时序Transformer(包含一个编码器、两个解码器以及一个时序注意力)，充分建模了长期历史信息、短期当前信息和短期未来信息，并且利用注意机制在空间和通道上增强个体特征，通过传递连接实现渐进式融合。

(3)现有评估头的回归能力相对较差，很容易忽略了每个洗手动作的内在复杂性，难以挖掘动作的细节信息。为了实现对洗手动作的细粒度评估，本发明设计了一个集成评分树(由池化层，全连接层和多层感知机MLP组成)来捕捉细粒度的洗手动作细节，以树状结构从粗到细地评估每个洗手动作，充分挖掘洗手动作的细节信息。

附图说明

图1为本发明实施例所公开的基于时序注意力的在线手卫生评估方法的整体架构图；

图2为本发明实施例所公开的基于时序注意力的在线手卫生评估方法中时序注意力部分的示意图；

图3为本发明实施例所公开的基于时序注意力的在线手卫生评估方法中集成评分树的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，基于时序注意力的在线手卫生评估方法，所述方法包括：

步骤1、对输入视频流提取可见光特征和光流特征，具体过程为：

步骤2、获取在线洗手视频流，通过编码器和解码器分别建模各类时序特征；具体过程为：

从初始特征中提取第一预设长度的特征作为长期特征F_long，从初始特征中提取第二预设长度的特征作为长期特征F_short，第一预设长度大于第二预设长度，由于长期历史信息涵盖了丰富的动作特征和时序信息，通过编码器来建模输入的长期特征F_long，获得长期历史特征F₀以及类别历史特征F₂。此外，短期当前信息包括当前帧和一些相邻的最近帧，这对于当前动作检测和后续评估是至关重要的，所以将短期特征F_short作为查询，长期历史特征F₀作为键和值输入到解码器中，得到短期当前特征F₁。关于未来的信息，它是不可见的，但与当前帧紧密相连，这使得它在合理预测时会为动作检测带来有用的相关时序信息。因此，将一个自定义的可学习特征Q作为查询，长期历史特征F₀作为键和值输入到另一个解码器中，预测得到短期未来特征F₃，相关公式过程如下

{F₀,F₂}＝Encoder(F_long)

F₁＝Decoder(F_short,F₀,F₀)

F₃＝Decoder(Q,F₀,F₀)

其中，Encoder表示编码器，F₀表示长期历史特征，F₂表示类别历史特征，F₁表示短期当前特征，Decoder表示解码器，F₃表示短期未来特征，Q表示可学习特征。其中F_long和F_short的通道维度为2048，其余特征通道维度均为1024。

步骤3、使用时序注意力来增强和融合各类时序特征，得到融合特征；具体过程为：

如图2所示，短期当前特征F₁、类别历史特征F₂和短期未来特征F₃均输入到相同结构的注意力模块中，利用注意力机制在空间和通道上进行特征增强，之后进行传递连接实现渐进式交互，最后在通道维度上将三者连接起来得到融合特征F_m。相关公式如下

F_i ^′＝Attention(F_i)

其中，i∈{1,2,3}，Attention代表注意力模块，AP为第一平均池化层，Concat表示连接。F_m的通道维度为3072，其余特征通道维度均为1024。

继续参阅图2，所述注意力模块包括第二全局池化层1、第二平均池化层4、第二全连接层2至第六全连接层10、第一激活层至第三激活层，第二全局池化层1通过第二全连接层2与第一激活层3连接，第二平均池化层4通过第三全连接层5与第二激活层6连接，第一激活层3与第二激活层6的输出结果融合以后输入到第四全连接层7，第五全连接层8通过第三激活层9以后的输出结果以及第一激活层3与第二激活层6的输出结果融合以后输入第六全连接层10，第四连接层7和第六连接层10的输出结果分别通过一个激活函数以后融合输出。

步骤4、对融合特征进行动作分类并对初始特征进行分割，得到各个洗手动作的时序特征及其对应的动作类别，作为动作特征；具体过程为：

首先将时序Transformer输出的融合特征F_m输入到分类头中，识别得到当前视频流每一帧的动作类别，之后利用这些类别信息对I3D网络提取出的初始特征进行分割，得到当前视频流中各个洗手动作的时序特征α_i，i对应洗手动作的类别，α_i作为动作特征。这样，不仅可以对每类洗手动作进行独立且充分的细粒度评估，减少不相关动作之前的相互干扰，而且去除了各类洗手动作之间存在的背景噪声。

步骤5、将动作特征通过第一全局最大池化层进行汇集得到根特征，由两个不同的第一全连接层线性映射到两个子特征中，后续各层特征的处理方法相同，最后使用MLP对最后一层的所有特征进行回归，得到每个洗手动作的得分，将当前视频流中的各个洗手动作得分相加得到最终的预测得分。具体过程为：

现有评估头的回归能力相对较差，很容易忽略了每个洗手动作的内在复杂性，难以挖掘动作的细节信息。为了实现对洗手动作的细粒度评估，本发明提出了集成评分树，它可以从粗到细地评估每个洗手动作，从而极大地捕捉洗手动作的细节。

集成评分树的细节如图3所示，图3中FC表示全连接层，FC的下标表示全连接层的编号。首先，将动作特征通过全局最大池化进行汇集，得到根特征，然后由两个不同的全连接层线性映射到两个子特征中，后续各层特征的处理方法相同。最后，使用MLP对最后一层的所有特征进行回归，得到每个分支的得分，然后将其加权并求和，得到该洗手动作的预测得分，相关公式如下

其中，EST表示集成评分树，集成评分树表示的是步骤d中第一全局最大池化层、两个不同的第一全连接层以及后续各层的结构，n表示当前视频流中洗手动作的类别数。α_i的通道维度为2048。

需要说明的是，本发明还包括预训练过程：调整评估过程中涉及的各个模块的参数，不断训练整个模型，直到损失函数最小时停止训练，得到最优的模型，利用该最优的模型进行在线手卫生评估。具体的，在动作检测部分，将融合特征F_m输入到分类头中，得到当前动作的类别预测概率p，同样，将特征F₃输入到分类头中，得到未来帧的预测概率p^′。使用交叉熵损失函数也即第一损失函数来监督每一帧的预测：

p＝CF(F_m)

p′＝CF′(F₃)

Loss₁＝CE(p,g)+μCE(p′,g′)

其中，p为当前动作的类别预测概率)，p^′为未来帧的预测概率，CE表示交叉熵损失函数，CF和CF^′均为分类器，g和g^′分别是当前和未来动作的真实类别，μ为平衡因子，设置为0.7。

在动作评估部分，将其视为一个回归任务，使用均方误差损失函数也即第二损失函数来修正预测分数，公式如下：

Loss₂＝MSE(S,S^′)

以下对本发明提供的方法进行仿真分析，并且根据仿真分析结果说明本发明的效果。本发明选择在公开的手卫生数据集HHA300上与一些先进的相关算法进行对比(表1)。采用在线动作检测算法流行的平均准确率(mAP)和动作质量评估算法流行的斯皮尔曼相关秩系数(ρ)以及相对L2距离(RL2)作为评价指标。从结果中可以得到，本发明提出的方法应用在手卫生数据集上，在各个评价指标上都有明显提升。

表1仿真分析结果对比

方法	发表信息	mAP(％)↑	ρ↑	RL2(×100)↓
					OadTR^★	ICCV2021	84.7	0.866	1.66
TeSTra^★	ECCV2022	88.8	0.894	1.23
					LSTR^★	NeurIPS2021	89.1	0.890	1.25
本方法	-	90.1	0.927	0.99

通过以上技术方案，本发明设计了一个时序Transformer模块：包含一个编码器、两个解码器和一个时序注意力，以充分利用长期历史信息、短期当前信息和短期未来信息。其中，编码器用来建模长期历史信息，一个解码器用来建模短期当前信息，另一解码器则用来预测短期未来信息，而时序注意力利用注意机制以空间和通道的方式增强不同时期的特征信息，并通过传递连接进行渐进式交互。还设计了集成评分树模块，是一种树状的多分支多层次评估模型，由池化层，全连接层和多层感知机组成。特别地，集成评分树能够从粗到细地评估每个洗手动作，从而可以很好地关注到洗手动作的细节信息。

实施例2

基于实施例1，本发明实施例2还提供基于时序注意力的在线手卫生评估系统，所述系统包括：

具体的，所述时序特征获取模块之前还包括：

具体的，所述时序特征获取模块还用于：

{F₀,F₂}＝Encoder(F_long)

F₁＝Decoder(F_short,F₀,F₀)

F₃＝Decoder(Q,F₀,F₀)

更具体的，所述融合特征获取模块还用于：

构建以下公式得到融合特征F_m

F′_i＝Attention(F_i)

更具体的，所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层，第二全局池化层通过第二全连接层与第一激活层连接，第二平均池化层通过第三全连接层与第二激活层连接，第一激活层与第二激活层的输出结果融合以后输入到第四全连接层，第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层，第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。

更具体的，所述动作特征获取模块还用于：

更具体的，所述评估模块还用于：

通过公式将当前视频流中每个洗手动作的得分相加，得到当前视频流中洗手动作的预测得分；

更具体的，所述系统还包括预训练模块，预训练模块用于：

其中，p为当前动作的类别预测概率且p＝CF(F_m)，p′为未来帧的预测概率且p′＝CF′(F₃)，CE表示交叉熵损失函数，CF和CF′均为分类器，g和g′分别是当前和未来动作的真实类别，μ为平衡因子；

所述损失函数还包括第二损失函数Loss₂＝MSE(S,S′)

其中，S和S′分别为预测得分和真实得分，MSE表示均方误差。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于时序注意力的在线手卫生评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤a之前还包括：

3.根据权利要求1所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤a包括：

{F₀，F₂}＝Encoder(F_long)

F₁＝Decoder(F_short，F₀，F₀)

F₃＝Decoder(Q，F₀，F₀)

4.根据权利要求3所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤b包括：

5.根据权利要求4所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤b还包括：

构建以下公式得到融合特征F_m

F′_i＝Attention(F_i)

其中，i∈{1，2，3}，Attention代表注意力模块，AP为第一平均池化层，Concat表示连接。

6.根据权利要求4所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述注意力模块包括第二全局池化层、第二平均池化层、第二全连接层至第六全连接层、第一激活层至第三激活层，第二全局池化层通过第二全连接层与第一激活层连接，第二平均池化层通过第三全连接层与第二激活层连接，第一激活层与第二激活层的输出结果融合以后输入到第四全连接层，第五全连接层通过第三激活层以后的输出结果以及第一激活层与第二激活层的输出结果融合以后输入第六全连接层，第四连接层和第六连接层的输出结果分别通过一个激活函数以后融合输出。

7.根据权利要求4所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤c包括：

8.根据权利要求7所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述步骤d包括：

9.根据权利要求8所述的基于时序注意力的在线手卫生评估方法，其特征在于，所述方法还包括预训练过程：

调整评估过程中涉及的各个模块的参数，不断训练整个模型，直到损失函数最小时停止训练，得到最优的模型，利用该最优的模型进行在线手卫生评估，所述损失函数包括第一损失函数Loss₁＝CE(p，g)+μCE(p′，g′)

所述损失函数还包括第二损失函数Loss₂＝MSE(S，S′)

10.基于时序注意力的在线手卫生评估系统，其特征在于，所述系统包括：