CN114511927A

CN114511927A - 一种基于视频时序特征分析的泳池溺水行为判识方法

Info

Publication number: CN114511927A
Application number: CN202210063414.3A
Authority: CN
Inventors: 纪刚; 周粉粉
Original assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Current assignee: Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-17
Anticipated expiration: 2042-01-20

Abstract

本发明属于视频监控计算机图像处理技术领域，涉及一种基于视频时序特征分析的泳池溺水行为识别方法，包括：S1、构建数据集；S2、对图像进行预处理；S3、构建神经网络模型，包括：构建特征提取部分、构建空间语义调制模块、构建时间语义调制模块、构建特征融合模块、构建行为判识模块；S4、训练构建的神经网络模型；S5、将采集的目标人员的游泳行为视频进行预处理，输入训练后的神经网络模型，判断该行为是否属于溺水行为；本发明将人体行为的空间信息特征和时序信息特征进行融合，能够实现实时处理图像信息，构建的神经网络模型计算收敛速度快，泛化能力强，具有较强的鲁棒性；该方法构思巧妙，对溺水行为识别的精度达到90％以上。

Description

一种基于视频时序特征分析的泳池溺水行为判识方法

技术领域：

本发明属于视频监控计算机图像处理技术领域，涉及计算机视觉算法，具体涉及一种基于视频时序特征分析的泳池溺水行为判识方法，通过对室内的游泳图像进行分析处理，对图像中出现的溺水行为做出有效的预警，减少溺亡的发生。

背景技术：

随着社会的发展和人们生活水平的提高，游泳这一全身性锻炼的体育运动越来越受到人们的欢迎。但因其在水中进行的，初学者往往因为不能自由的呼吸、行动等而导致呛水，甚至发生溺水事故。此外，游泳者可能在水中发生肌肉痉挛、相互碰撞、体力不支等情况，这些都可能导致溺水事件的发生。溺水事件一旦发生，将直接关乎到游泳者的生命安全。目前，针对识别溺水行为的研究已有报道，但现有技术还存在以下缺点：

(1)传统的人体异常行为识别方法通过从原始图像上提取特征描述子，再结合SVM、KNN等分类算法解决问题，但随着深度学习技术的发展，相较于传统方法，神经网络在提取特征方面表现出的性能显著优于传统方法，识别效果较好；

(2)目前基于监控的人体行为动作识别大多采用静态图片分析的技术，通过人工标注大量前景目标，接着采用2D的CNN网络框架提取图片的前景目标框，虽然计算成本较低，但是无法捕捉行为的时间关系，进而缺少目标的行为动作特征，使得重要的行为特征缺失严重，导致行为识别的精度不高；尤其是针对室内泳池这样的复杂环境，受监控设备安装角度，光照，水面波动，池底图案晃动等因素的多种影响，运动目标在游泳的过程中位置有时处于水上，有时处于水下，目标状态难以捕捉，为目标检测增加了难度，进而无法识别出具体的行为；

(3)3D的CNN网络框架在时空建模方面被证明是有效的，但无法捕获视频中包含的足够信息，通过增加光流信息相对单流网络框架可以显著提高性能，但引入的光流计算成本非常昂贵，进而无法在现实世界的应用程序上进行部署；

(4)部分设计的3D网络由于受到数据集规模大小的影响，导致训练得到的模型存在过拟合和收敛速度慢的问题。

发明内容：

本发明的目的是为了克服现有技术存在的缺点，提供一种基于视频时序特征分析的泳池溺水行为判识方法，通过对室内的游泳图像进行分析处理，对图像中出现的溺水行为做出有效的预警，减少溺亡的发生。

为了实现上述目的，本发明提供一种基于视频时序特征分析的泳池溺水行为判识方法，具体步骤包括：

S1、构建数据集：通过摄像头采集真实的或模拟的溺水行为视频和正常游泳行为视频作为原始数据集，将原始数据集分为训练集和验证集，训练集和验证集中各包含自由泳、蝶泳、蛙泳、仰泳和溺水5种人体行为数据视频，每个视频片段代表某一种具体行为，视频片段的长度选择为5s～10s；

S2、对图像进行预处理：将数据集的图像进行预处理，使得预处理后的图像尺寸统一为3×T×224×224；

S3、构建神经网络模型，具体步骤为：

S31、构建特征提取部分，采用基准的网络框架3D resnet50作为主干网络backbone，用于提取视频游泳者行为特征；主干网络包括6层结构，从上到下依次为conv1层、Pool1层、Layer1层、Layer2层、Layer3层和Layer4层，每一层的输出特征图像作为下一层的输入特征图像，最后提取得到Layer1层、Layer2层、Layer3层和Layer4层特征图像；

S32、构建空间语义调制模块，用于对步骤S31提取的各层特征图像进行空间尺寸调制，使得各层特征图像的空间尺寸保持一致；

S33、构建时间语义调制模块，用于对经过步骤S32空间语义调制后的层级特征图像进行时间语义调制；

S34、构建特征融合模块，用于将经过步骤S32和步骤S33操作后的层级特征图像分别采用自上而下和自下而上的两种方式进行特征融合；再将两个融合特征进行聚合，聚合特征作为该视频行为的高级特征；

S35、构建行为判识模块，将步骤S34得到的聚合后的高级特征输入行为判识模块，预测得到该视频行为属于自由泳、蝶泳、蛙泳、仰泳和溺水5种行为中的哪种行为；

S4、训练构建的神经网络模型，得到最优的神经网络模型；

S5、将泳池上方监控摄像头采集的目标人员的游泳行为视频图像进行预处理得到尺寸为3×T×224×224的图像，然后输入训练后的神经网络模型，判断得到该目标人员的游泳行为是否属于溺水行为。

进一步地，步骤S2的预处理步骤为：从原始数据集视频中提取的图像数据格式为3×T×W×H，先将W×H的图像缩放为224×224大小，然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作，使得预处理后的图像尺寸统一为3×T×224×224。

进一步地，主干网络backbone的网络层结构如下表所示；

进一步地，空间语义模块包括模块0和模块1；将步骤S31提取的layer3层特征图像输入到模块0，空间上采用滤波核大小为3×3，步长为2，pad填充为1的卷积conv操作，接着进行bn层归一化操作，再经过relu激活函数进行操作，输出特征图像的大小为2048×T×7×7；将步骤S31提取的layer4层特征图像输入到模块1中，进行idenfify()函数操作，输出大小与输入的layer4特征图像大小相同，即输出特征图像的大小为2048×T×7×；7经过空间语义调制后，使得layer3和layer4层特征图像的空间尺寸保持一致。

进一步地，时间语义调制模块包括模块3和模块4，将经过空间语义调制后的层级特征分别输入模块3和模块4，模块3和模块4的网络结构都包括conv层和pool层，其中conv层3×1×1进行时序上的操作处理，T帧图像中每3帧图像进行特征提取，步长stride为1；pool层时序上采用的步长stride为8。

进一步地，步骤S4的具体训练过程为：

S41、设定模型的初始学习率为0.01；

S42、设置辅助行为判识模块，用于获取更强的特征监督，增强语义信息，增强模型的训练效果；将步骤S31得到的layer3层特征图像或layer4层特征图像输入辅助行为判识模块，该判识结果作用于损失函数，用于判断模型预测的视频行为结果和视频的真实行为之间的损失差异；

S43、选择损失函数，损失函数用来衡量模型参数学习的好坏；

选取的损失函数为：

其中，L_FocalLoss,o表示FocalLoss损失函数；L_FocalLoss,i表示用于第i个辅助行为判识的损失函数；λ_i表示平衡系数，设置λ_i＝0.5；M表示选择的辅助行为识别模块的数量，i为1-M之间的某个数值；

其中FocalLoss损失函数，公式如下：

FocalLoss(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t表示训练样本通过神经网络模型预测的结果中对应真实类别的概率；α_t代表类别权值系数；其中γ＝2；本技术方案选择的游泳行为包含自由泳、蝶泳、蛙泳、仰泳、溺水5种人体行为，其中各行为类别的权值参数α_t＝[1.2,1.5,1.3,0.5,1.2]；

S44、将训练数据集视频图像输入构建好的神经网络模型学习模型参数，损失函数衡量模型参数学习的好坏；

S45、使用损失函数计算真实的游泳行为和预测的游泳行为的损失值，损失值越小，表示得到的模型参数效果越好；当训练第80遍完整的训练集和第150遍完整的训练集时，学习率依次降低为0.001和0.0001；本技术方案以训练200遍完整训练集作为最终的参数模型；

S46、使用测试集验证预测结果的准确率；

经过对神经网络模型进行不断改进与优化后，神经网络模型最终的溺水行为判识最高精度为90.2％。

本发明与现有技术相比，主要采用网络框架3D resnet50对图像特征进行提取，将人体行为的空间信息特征和时序信息特征进行融合，形成新的融合方式，该方法能够实现实时处理图像信息，并且构建的神经网络模型计算收敛速度快，泛化能力强，具有较强的鲁棒性；该方法构思巧妙，对溺水行为识别的精度高，达到90％以上，还可以应用到移动设备端，降低计算成本。

具体实施方式：

下面通过具体实施例对本发明作进一步详细说明。

实施例1：

本实施例涉及一种基于视频时序特征分析的泳池溺水行为识别方法，具体步骤如下：

S2、对图像进行预处理：从原始数据集视频中提取的图像数据格式为3×T×W×H，其中T表示从视频片段中按照一定的采样间隔获取的帧数；由于监控摄像头采集的视频图像是彩色的，3表示彩色图像的RGB的3个通道；W×H分别代表提取图像的宽度和高度；在输入主干网络之前，对图像进行预处理，预处理步骤为：先将W×H的图像缩放为224×224大小，然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作，使得预处理后的图像尺寸统一为3×T×224×224；

S3、构建神经网络模型，具体过程包括：

S31、构建特征提取部分：

采用基准的网络框架3D resnet50作为主干网络backbone，用于提取视频游泳者行为特征；主干网络包括6层结构，从上到下依次为conv1层、Pool1层、Layer1层、Layer2层、Layer3层和Layer4层，每一层的输出特征图像作为下一层的输入特征图像，最后提取得到Layer1层、Layer2层、Layer3层和Layer4层特征图像；具体为：步骤S2预处理后的图像输入到conv1，如表1中的conv1所示的网络结构，1×7×7表示将输入3通道图像在空间大小为224×224上采用滤波核大小为7×7、步长为2的卷积操作，输出图像的通道为64，图像的大小为112×112，输出尺寸为64×T×112×112的特征图像；然后进入Pool1层，空间上进行滤波核大小为3×3、步长为2的最大池化操作，输出尺寸为64×T×56×56的特征图像；然后进入Layer1层，layer1中按照表1中的网络结构设置的参数进行卷积操作，×3表示相同的操作进行3次，输出得到尺寸为256×T×56×56的Layer1层特征图像；将得到的Layer1层特征图像输入Layer2层，layer2层按照表1中的网络结构设置的参数进行卷积操作，×4表示相同的操作进行4次，输出得到尺寸为512×T×28×28的layer2层特征图像；将layer2层特征图像输入Layer3层，layer3层按照表1中的网络结构设置的参数进行卷积操作，3×1×1中的3表示视频帧时序上采用3帧，1×1表示图像空间上采用大小为1的滤波核进行特征提取，×6表示相同的操作进行6次，输出得到尺寸为1024×T×14×14的Layer3层特征图像；最后将Layer3层特征图像输入Layer4层，layer4中按照表1中的网络结构设置的参数进行卷积操作，3×1×1中的3表示视频帧时序上采用3帧，1×1表示空间上采用大小为1的滤波核，×3表示相同的操作进行3次，输出得到尺寸为2048×T×7×7的Layer4层特征图像；主干网络backbone的网络层结构如表1所示；

表1主干网络的网络层结构

S32、构建空间语义调制模块：

空间语义模块是对步骤S31提取的各层特征图像进行空间尺寸调制，使得各层特征图像的空间尺寸保持一致，便于后续操作；空间语义模块包括模块0和模块1，模块0是用于对步骤S31得到的layer3层特征图像进行空间尺寸调制，模块1是对layer4层特征图像进行空间尺寸调制；具体为:将得到的layer3层特征图像输入到空间语义调制模块中的模块0，空间上采用滤波核大小为3×3，步长为2，pad填充为1的卷积conv操作，接着进行bn层归一化操作，再经过relu激活函数进行操作，输出特征图像的大小为2048×T×7×7；将layer4的特征图像输入到空间语义调制模块中的模块1中，进行idenfify()函数操作，输出大小与输入的layer4特征图像大小相同，即输出特征图像的大小为2048×T×7×7；经过空间语义调制后，使得layer3和layer4层特征图像的空间尺寸保持一致，便于后续操作；

由于通过步骤S31中的3D网络框架获取视频序列的多层特征，但layer1～layer4层的输出特征图像的空间尺寸大小不一致，需要对提取的特征进行空间尺寸调制，使得各层特征图像的空间尺寸保持一致，便于后续操作；本实施例选择高级语义特征layer3层和layer4层的结果进行分析，但不局限于选择layer3层和layer4层进行分析；空间语义调制模块的结构设计如表2所示；

表2空间语义调制模块网络结构

S33、构建时间语义调制模块：

时间语义调制模块是为了更好地控制特征图像在时间尺度上的相对差异，从而更加有效地进行特征聚合；时间语义调制模块包括模块3和模块4，用于对空间语义调制后的layer3层特征图像和layer4层特征图像进行时间语义调制；具体为：S32步骤进行空间语义调制后的两个输出结果分别输入时间语义调制模块中的模块3和模块4，其中conv中的3×1×1进行时序上的操作处理，T帧图像中每3帧图像进行特征提取，步长stride为1；pool层时序上采用的步长stride为8，本实施例中S2步骤中的采样帧数选择T＝8；输出的特征通道数为1024；模块3和模块4的输出特征大小均为[1024,1,7,7]；时间语义调制网络结构设计如表3所示；

表3时间语义调制模块网络结构

S34、构建特征融合模块：

特征融合模块用于将经过步骤S32和步骤S33操作后的层级特征图像分别采用自上而下和自下而上的两种方式进行特征融合；经过空间语义调制和时间语义调制后的layer3层特征图像记为spatial_temporal_layer3；经过空间语义调制和时间语义调制后的layer4层特征图像记为spatial_temporal_layer4；spatial_temporal_layer3进行下采样操作，结果与spatial_temporal_layer4进行特征融合，得到自下而上的金字塔融合特征；spatial_temporal_layer4进行上采样操作，结果与spatial_temporal_layer3进行特征融合，得到自上而下的金字塔融合特征；

将上述两个金字塔融合特征进行聚合，聚合特征作为该视频行为的高级特征；

S35、构建行为判识模块

行为判识模块用于判识该视频行为属于哪一种游泳行为类别；具体判识步骤为：将步骤S34得到的聚合后的高级特征输入行为判识模块，预测得到该视频行为属于自由泳、蝶泳、蛙泳、仰泳和溺水5种行为中的哪种行为；行为判识模块的网络结构如表4所示；

表4主行为判识模块网络结构

S4、训练构建的神经网络模型，得到最优的神经网络模型：

S41、设定模型的初始学习率为0.01；

S42、设置辅助行为判识模块，用于获取更强的特征监督，增强语义信息，增强模型的训练效果；辅助行为判识模块具体步骤为：将步骤S31得到的layer3层特征图像输入辅助行为判识模块，预测得到该视频行为属于5种行为中的某一种行为类别；一个神经网络模型可以有多个辅助行为判识模块，例如，分别输入步骤S31得到的layer3层特征图像和layer4层特征图像得到两个辅助行为判识结果，该判识结果作用于损失函数，用于判断模型预测的视频行为结果和视频的真实行为之间的损失差异；辅助行为判识模块的网络结构如表5所示；

表5辅助行为判识模块

选取的损失函数为：

其中FocalLoss损失函数，公式如下：

FocalLoss(p_t)＝-α_t(1-p_t)^γlog(p_t)

其中，p_t表示训练样本通过本实施例神经网络模型预测的结果中对应真实类别的概率；α_t代表类别权值系数；其中γ＝2；本方法选择的游泳行为包含自由泳、蝶泳、蛙泳、仰泳、溺水5种人体行为，其中各行为类别的权值参数α_t＝[1.2,1.5,1.3,0.5,1.2]；

S45、使用损失函数计算真实的游泳行为和预测的游泳行为的损失值，损失值越小，表示得到的模型参数效果越好；当训练第80遍完整的训练集和第150遍完整的训练集时，学习率依次降低为0.001和0.0001；本实施例以训练200遍完整训练集作为最终的参数模型；

S46、使用测试集验证预测结果的准确率；

经过对神经网络模型进行不断改进与优化后，本实施例设计的神经网络模型最终的溺水行为判识最高精度为90.2％；

步骤S5的监控摄像头的安装位置位于泳池上方，且距离水面一定距离，属于水上摄像头；根据具体泳池场景的不同，安装位置根据具体情况分析，但需要保证监控摄像头的安装角度、高度位置合适，使得拍摄的目标人员的游泳行为明显且清晰可见，有利于提高行为的判识结果。

Claims

1.一种基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，具体步骤如下：

S1、构建数据集：通过摄像头采集真实的或模拟的溺水行为视频和正常游泳行为视频作为原始数据集，将原始数据集分为训练集和验证集，训练集和验证集中各包含自由泳、蝶泳、蛙泳、仰泳和溺水5种人体行为数据视频，每个视频片段代表某一种具体行为；

S2、对图像进行预处理：将数据集的图像尺寸进行预处理；

S3、构建神经网络模型，具体步骤为：

S4、训练构建的神经网络模型，得到最优的神经网络模型；

S5、将泳池上方监控摄像头采集的目标人员的游泳行为视频图像进行预处理后输入训练后的神经网络模型，判断得到该目标人员的游泳行为是否属于溺水行为。

2.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，步骤S2的预处理步骤为：从原始数据集视频中提取的图像数据格式为3×T×W×H，先将W×H的图像缩放为224×224大小，然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作，使得预处理后的图像尺寸统一为3×T×224×224。

3.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，主干网络backbone的网络层结构如下表所示；

4.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，空间语义模块包括模块0和模块1；将步骤S31提取的layer3层特征图像输入到模块0，空间上采用滤波核大小为3×3，步长为2，pad填充为1的卷积conv操作，接着进行bn层归一化操作，再经过relu激活函数进行操作，输出特征图像的大小为2048×T×7×7；将步骤S31提取的layer4层特征图像输入到模块1中，进行idenfify()函数操作，输出大小与输入的layer4特征图像大小相同，即输出特征图像的大小为2048×T×7×7；经过空间语义调制后，使得layer3和layer4层特征图像的空间尺寸保持一致。

5.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，时间语义调制模块包括模块3和模块4，将经过空间语义调制后的层级特征分别输入模块3和模块4，模块3和模块4的网络结构都包括conv层和pool层，其中conv层3×1×1进行时序上的操作处理，T帧图像中每3帧图像进行特征提取，步长stride为1；pool层时序上采用的步长stride为8。

6.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法，其特征在于，步骤S4的具体训练过程为：

S41、设定模型的初始学习率为0.01；

选取的损失函数为：

其中FocalLoss损失函数，公式如下：

FocalLoss(p_t)＝-α_t(1-p_t)^γlog(p_t)

S46、使用测试集验证预测结果的准确率；