CN114511927A - 一种基于视频时序特征分析的泳池溺水行为判识方法 - Google Patents

一种基于视频时序特征分析的泳池溺水行为判识方法 Download PDF

Info

Publication number
CN114511927A
CN114511927A CN202210063414.3A CN202210063414A CN114511927A CN 114511927 A CN114511927 A CN 114511927A CN 202210063414 A CN202210063414 A CN 202210063414A CN 114511927 A CN114511927 A CN 114511927A
Authority
CN
China
Prior art keywords
behavior
layer
module
image
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210063414.3A
Other languages
English (en)
Other versions
CN114511927B (zh
Inventor
纪刚
周粉粉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Lianhe Chuangzhi Technology Co ltd
Original Assignee
Qingdao Lianhe Chuangzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Lianhe Chuangzhi Technology Co ltd filed Critical Qingdao Lianhe Chuangzhi Technology Co ltd
Priority to CN202210063414.3A priority Critical patent/CN114511927B/zh
Priority claimed from CN202210063414.3A external-priority patent/CN114511927B/zh
Publication of CN114511927A publication Critical patent/CN114511927A/zh
Application granted granted Critical
Publication of CN114511927B publication Critical patent/CN114511927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于视频监控计算机图像处理技术领域,涉及一种基于视频时序特征分析的泳池溺水行为识别方法,包括:S1、构建数据集;S2、对图像进行预处理;S3、构建神经网络模型,包括:构建特征提取部分、构建空间语义调制模块、构建时间语义调制模块、构建特征融合模块、构建行为判识模块;S4、训练构建的神经网络模型;S5、将采集的目标人员的游泳行为视频进行预处理,输入训练后的神经网络模型,判断该行为是否属于溺水行为;本发明将人体行为的空间信息特征和时序信息特征进行融合,能够实现实时处理图像信息,构建的神经网络模型计算收敛速度快,泛化能力强,具有较强的鲁棒性;该方法构思巧妙,对溺水行为识别的精度达到90%以上。

Description

一种基于视频时序特征分析的泳池溺水行为判识方法
技术领域:
本发明属于视频监控计算机图像处理技术领域,涉及计算机视觉算法,具体涉及一种基于视频时序特征分析的泳池溺水行为判识方法,通过对室内的游泳图像进行分析处理,对图像中出现的溺水行为做出有效的预警,减少溺亡的发生。
背景技术:
随着社会的发展和人们生活水平的提高,游泳这一全身性锻炼的体育运动越来越受到人们的欢迎。但因其在水中进行的,初学者往往因为不能自由的呼吸、行动等而导致呛水,甚至发生溺水事故。此外,游泳者可能在水中发生肌肉痉挛、相互碰撞、体力不支等情况,这些都可能导致溺水事件的发生。溺水事件一旦发生,将直接关乎到游泳者的生命安全。目前,针对识别溺水行为的研究已有报道,但现有技术还存在以下缺点:
(1)传统的人体异常行为识别方法通过从原始图像上提取特征描述子,再结合SVM、KNN等分类算法解决问题,但随着深度学习技术的发展,相较于传统方法,神经网络在提取特征方面表现出的性能显著优于传统方法,识别效果较好;
(2)目前基于监控的人体行为动作识别大多采用静态图片分析的技术,通过人工标注大量前景目标,接着采用2D的CNN网络框架提取图片的前景目标框,虽然计算成本较低,但是无法捕捉行为的时间关系,进而缺少目标的行为动作特征,使得重要的行为特征缺失严重,导致行为识别的精度不高;尤其是针对室内泳池这样的复杂环境,受监控设备安装角度,光照,水面波动,池底图案晃动等因素的多种影响,运动目标在游泳的过程中位置有时处于水上,有时处于水下,目标状态难以捕捉,为目标检测增加了难度,进而无法识别出具体的行为;
(3)3D的CNN网络框架在时空建模方面被证明是有效的,但无法捕获视频中包含的足够信息,通过增加光流信息相对单流网络框架可以显著提高性能,但引入的光流计算成本非常昂贵,进而无法在现实世界的应用程序上进行部署;
(4)部分设计的3D网络由于受到数据集规模大小的影响,导致训练得到的模型存在过拟合和收敛速度慢的问题。
发明内容:
本发明的目的是为了克服现有技术存在的缺点,提供一种基于视频时序特征分析的泳池溺水行为判识方法,通过对室内的游泳图像进行分析处理,对图像中出现的溺水行为做出有效的预警,减少溺亡的发生。
为了实现上述目的,本发明提供一种基于视频时序特征分析的泳池溺水行为判识方法,具体步骤包括:
S1、构建数据集:通过摄像头采集真实的或模拟的溺水行为视频和正常游泳行为视频作为原始数据集,将原始数据集分为训练集和验证集,训练集和验证集中各包含自由泳、蝶泳、蛙泳、仰泳和溺水5种人体行为数据视频,每个视频片段代表某一种具体行为,视频片段的长度选择为5s~10s;
S2、对图像进行预处理:将数据集的图像进行预处理,使得预处理后的图像尺寸统一为3×T×224×224;
S3、构建神经网络模型,具体步骤为:
S31、构建特征提取部分,采用基准的网络框架3D resnet50作为主干网络backbone,用于提取视频游泳者行为特征;主干网络包括6层结构,从上到下依次为conv1层、Pool1层、Layer1层、Layer2层、Layer3层和Layer4层,每一层的输出特征图像作为下一层的输入特征图像,最后提取得到Layer1层、Layer2层、Layer3层和Layer4层特征图像;
S32、构建空间语义调制模块,用于对步骤S31提取的各层特征图像进行空间尺寸调制,使得各层特征图像的空间尺寸保持一致;
S33、构建时间语义调制模块,用于对经过步骤S32空间语义调制后的层级特征图像进行时间语义调制;
S34、构建特征融合模块,用于将经过步骤S32和步骤S33操作后的层级特征图像分别采用自上而下和自下而上的两种方式进行特征融合;再将两个融合特征进行聚合,聚合特征作为该视频行为的高级特征;
S35、构建行为判识模块,将步骤S34得到的聚合后的高级特征输入行为判识模块,预测得到该视频行为属于自由泳、蝶泳、蛙泳、仰泳和溺水5种行为中的哪种行为;
S4、训练构建的神经网络模型,得到最优的神经网络模型;
S5、将泳池上方监控摄像头采集的目标人员的游泳行为视频图像进行预处理得到尺寸为3×T×224×224的图像,然后输入训练后的神经网络模型,判断得到该目标人员的游泳行为是否属于溺水行为。
进一步地,步骤S2的预处理步骤为:从原始数据集视频中提取的图像数据格式为3×T×W×H,先将W×H的图像缩放为224×224大小,然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作,使得预处理后的图像尺寸统一为3×T×224×224。
进一步地,主干网络backbone的网络层结构如下表所示;
Figure BDA0003479109440000031
进一步地,空间语义模块包括模块0和模块1;将步骤S31提取的layer3层特征图像输入到模块0,空间上采用滤波核大小为3×3,步长为2,pad填充为1的卷积conv操作,接着进行bn层归一化操作,再经过relu激活函数进行操作,输出特征图像的大小为2048×T×7×7;将步骤S31提取的layer4层特征图像输入到模块1中,进行idenfify()函数操作,输出大小与输入的layer4特征图像大小相同,即输出特征图像的大小为2048×T×7×;7经过空间语义调制后,使得layer3和layer4层特征图像的空间尺寸保持一致。
进一步地,时间语义调制模块包括模块3和模块4,将经过空间语义调制后的层级特征分别输入模块3和模块4,模块3和模块4的网络结构都包括conv层和pool层,其中conv层3×1×1进行时序上的操作处理,T帧图像中每3帧图像进行特征提取,步长stride为1;pool层时序上采用的步长stride为8。
进一步地,步骤S4的具体训练过程为:
S41、设定模型的初始学习率为0.01;
S42、设置辅助行为判识模块,用于获取更强的特征监督,增强语义信息,增强模型的训练效果;将步骤S31得到的layer3层特征图像或layer4层特征图像输入辅助行为判识模块,该判识结果作用于损失函数,用于判断模型预测的视频行为结果和视频的真实行为之间的损失差异;
S43、选择损失函数,损失函数用来衡量模型参数学习的好坏;
选取的损失函数为:
Figure BDA0003479109440000041
其中,LFocalLoss,o表示FocalLoss损失函数;LFocalLoss,i表示用于第i个辅助行为判识的损失函数;λi表示平衡系数,设置λi=0.5;M表示选择的辅助行为识别模块的数量,i为1-M之间的某个数值;
其中FocalLoss损失函数,公式如下:
FocalLoss(pt)=-αt(1-pt)γlog(pt)
其中,pt表示训练样本通过神经网络模型预测的结果中对应真实类别的概率;αt代表类别权值系数;其中γ=2;本技术方案选择的游泳行为包含自由泳、蝶泳、蛙泳、仰泳、溺水5种人体行为,其中各行为类别的权值参数αt=[1.2,1.5,1.3,0.5,1.2];
S44、将训练数据集视频图像输入构建好的神经网络模型学习模型参数,损失函数衡量模型参数学习的好坏;
S45、使用损失函数计算真实的游泳行为和预测的游泳行为的损失值,损失值越小,表示得到的模型参数效果越好;当训练第80遍完整的训练集和第150遍完整的训练集时,学习率依次降低为0.001和0.0001;本技术方案以训练200遍完整训练集作为最终的参数模型;
S46、使用测试集验证预测结果的准确率;
经过对神经网络模型进行不断改进与优化后,神经网络模型最终的溺水行为判识最高精度为90.2%。
本发明与现有技术相比,主要采用网络框架3D resnet50对图像特征进行提取,将人体行为的空间信息特征和时序信息特征进行融合,形成新的融合方式,该方法能够实现实时处理图像信息,并且构建的神经网络模型计算收敛速度快,泛化能力强,具有较强的鲁棒性;该方法构思巧妙,对溺水行为识别的精度高,达到90%以上,还可以应用到移动设备端,降低计算成本。
具体实施方式:
下面通过具体实施例对本发明作进一步详细说明。
实施例1:
本实施例涉及一种基于视频时序特征分析的泳池溺水行为识别方法,具体步骤如下:
S1、构建数据集:通过摄像头采集真实的或模拟的溺水行为视频和正常游泳行为视频作为原始数据集,将原始数据集分为训练集和验证集,训练集和验证集中各包含自由泳、蝶泳、蛙泳、仰泳和溺水5种人体行为数据视频,每个视频片段代表某一种具体行为,视频片段的长度选择为5s~10s;
S2、对图像进行预处理:从原始数据集视频中提取的图像数据格式为3×T×W×H,其中T表示从视频片段中按照一定的采样间隔获取的帧数;由于监控摄像头采集的视频图像是彩色的,3表示彩色图像的RGB的3个通道;W×H分别代表提取图像的宽度和高度;在输入主干网络之前,对图像进行预处理,预处理步骤为:先将W×H的图像缩放为224×224大小,然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作,使得预处理后的图像尺寸统一为3×T×224×224;
S3、构建神经网络模型,具体过程包括:
S31、构建特征提取部分:
采用基准的网络框架3D resnet50作为主干网络backbone,用于提取视频游泳者行为特征;主干网络包括6层结构,从上到下依次为conv1层、Pool1层、Layer1层、Layer2层、Layer3层和Layer4层,每一层的输出特征图像作为下一层的输入特征图像,最后提取得到Layer1层、Layer2层、Layer3层和Layer4层特征图像;具体为:步骤S2预处理后的图像输入到conv1,如表1中的conv1所示的网络结构,1×7×7表示将输入3通道图像在空间大小为224×224上采用滤波核大小为7×7、步长为2的卷积操作,输出图像的通道为64,图像的大小为112×112,输出尺寸为64×T×112×112的特征图像;然后进入Pool1层,空间上进行滤波核大小为3×3、步长为2的最大池化操作,输出尺寸为64×T×56×56的特征图像;然后进入Layer1层,layer1中按照表1中的网络结构设置的参数进行卷积操作,×3表示相同的操作进行3次,输出得到尺寸为256×T×56×56的Layer1层特征图像;将得到的Layer1层特征图像输入Layer2层,layer2层按照表1中的网络结构设置的参数进行卷积操作,×4表示相同的操作进行4次,输出得到尺寸为512×T×28×28的layer2层特征图像;将layer2层特征图像输入Layer3层,layer3层按照表1中的网络结构设置的参数进行卷积操作,3×1×1中的3表示视频帧时序上采用3帧,1×1表示图像空间上采用大小为1的滤波核进行特征提取,×6表示相同的操作进行6次,输出得到尺寸为1024×T×14×14的Layer3层特征图像;最后将Layer3层特征图像输入Layer4层,layer4中按照表1中的网络结构设置的参数进行卷积操作,3×1×1中的3表示视频帧时序上采用3帧,1×1表示空间上采用大小为1的滤波核,×3表示相同的操作进行3次,输出得到尺寸为2048×T×7×7的Layer4层特征图像;主干网络backbone的网络层结构如表1所示;
表1主干网络的网络层结构
Figure BDA0003479109440000061
S32、构建空间语义调制模块:
空间语义模块是对步骤S31提取的各层特征图像进行空间尺寸调制,使得各层特征图像的空间尺寸保持一致,便于后续操作;空间语义模块包括模块0和模块1,模块0是用于对步骤S31得到的layer3层特征图像进行空间尺寸调制,模块1是对layer4层特征图像进行空间尺寸调制;具体为:将得到的layer3层特征图像输入到空间语义调制模块中的模块0,空间上采用滤波核大小为3×3,步长为2,pad填充为1的卷积conv操作,接着进行bn层归一化操作,再经过relu激活函数进行操作,输出特征图像的大小为2048×T×7×7;将layer4的特征图像输入到空间语义调制模块中的模块1中,进行idenfify()函数操作,输出大小与输入的layer4特征图像大小相同,即输出特征图像的大小为2048×T×7×7;经过空间语义调制后,使得layer3和layer4层特征图像的空间尺寸保持一致,便于后续操作;
由于通过步骤S31中的3D网络框架获取视频序列的多层特征,但layer1~layer4层的输出特征图像的空间尺寸大小不一致,需要对提取的特征进行空间尺寸调制,使得各层特征图像的空间尺寸保持一致,便于后续操作;本实施例选择高级语义特征layer3层和layer4层的结果进行分析,但不局限于选择layer3层和layer4层进行分析;空间语义调制模块的结构设计如表2所示;
表2空间语义调制模块网络结构
Figure BDA0003479109440000071
S33、构建时间语义调制模块:
时间语义调制模块是为了更好地控制特征图像在时间尺度上的相对差异,从而更加有效地进行特征聚合;时间语义调制模块包括模块3和模块4,用于对空间语义调制后的layer3层特征图像和layer4层特征图像进行时间语义调制;具体为:S32步骤进行空间语义调制后的两个输出结果分别输入时间语义调制模块中的模块3和模块4,其中conv中的3×1×1进行时序上的操作处理,T帧图像中每3帧图像进行特征提取,步长stride为1;pool层时序上采用的步长stride为8,本实施例中S2步骤中的采样帧数选择T=8;输出的特征通道数为1024;模块3和模块4的输出特征大小均为[1024,1,7,7];时间语义调制网络结构设计如表3所示;
表3时间语义调制模块网络结构
Figure BDA0003479109440000072
Figure BDA0003479109440000081
S34、构建特征融合模块:
特征融合模块用于将经过步骤S32和步骤S33操作后的层级特征图像分别采用自上而下和自下而上的两种方式进行特征融合;经过空间语义调制和时间语义调制后的layer3层特征图像记为spatial_temporal_layer3;经过空间语义调制和时间语义调制后的layer4层特征图像记为spatial_temporal_layer4;spatial_temporal_layer3进行下采样操作,结果与spatial_temporal_layer4进行特征融合,得到自下而上的金字塔融合特征;spatial_temporal_layer4进行上采样操作,结果与spatial_temporal_layer3进行特征融合,得到自上而下的金字塔融合特征;
将上述两个金字塔融合特征进行聚合,聚合特征作为该视频行为的高级特征;
S35、构建行为判识模块
行为判识模块用于判识该视频行为属于哪一种游泳行为类别;具体判识步骤为:将步骤S34得到的聚合后的高级特征输入行为判识模块,预测得到该视频行为属于自由泳、蝶泳、蛙泳、仰泳和溺水5种行为中的哪种行为;行为判识模块的网络结构如表4所示;
表4主行为判识模块网络结构
Figure BDA0003479109440000082
S4、训练构建的神经网络模型,得到最优的神经网络模型:
S41、设定模型的初始学习率为0.01;
S42、设置辅助行为判识模块,用于获取更强的特征监督,增强语义信息,增强模型的训练效果;辅助行为判识模块具体步骤为:将步骤S31得到的layer3层特征图像输入辅助行为判识模块,预测得到该视频行为属于5种行为中的某一种行为类别;一个神经网络模型可以有多个辅助行为判识模块,例如,分别输入步骤S31得到的layer3层特征图像和layer4层特征图像得到两个辅助行为判识结果,该判识结果作用于损失函数,用于判断模型预测的视频行为结果和视频的真实行为之间的损失差异;辅助行为判识模块的网络结构如表5所示;
表5辅助行为判识模块
Figure BDA0003479109440000091
S43、选择损失函数,损失函数用来衡量模型参数学习的好坏;
选取的损失函数为:
Figure BDA0003479109440000092
其中,LFocalLoss,o表示FocalLoss损失函数;LFocalLoss,i表示用于第i个辅助行为判识的损失函数;λi表示平衡系数,设置λi=0.5;M表示选择的辅助行为识别模块的数量,i为1-M之间的某个数值;
其中FocalLoss损失函数,公式如下:
FocalLoss(pt)=-αt(1-pt)γlog(pt)
其中,pt表示训练样本通过本实施例神经网络模型预测的结果中对应真实类别的概率;αt代表类别权值系数;其中γ=2;本方法选择的游泳行为包含自由泳、蝶泳、蛙泳、仰泳、溺水5种人体行为,其中各行为类别的权值参数αt=[1.2,1.5,1.3,0.5,1.2];
S44、将训练数据集视频图像输入构建好的神经网络模型学习模型参数,损失函数衡量模型参数学习的好坏;
S45、使用损失函数计算真实的游泳行为和预测的游泳行为的损失值,损失值越小,表示得到的模型参数效果越好;当训练第80遍完整的训练集和第150遍完整的训练集时,学习率依次降低为0.001和0.0001;本实施例以训练200遍完整训练集作为最终的参数模型;
S46、使用测试集验证预测结果的准确率;
经过对神经网络模型进行不断改进与优化后,本实施例设计的神经网络模型最终的溺水行为判识最高精度为90.2%;
S5、将泳池上方监控摄像头采集的目标人员的游泳行为视频图像进行预处理得到尺寸为3×T×224×224的图像,然后输入训练后的神经网络模型,判断得到该目标人员的游泳行为是否属于溺水行为。
步骤S5的监控摄像头的安装位置位于泳池上方,且距离水面一定距离,属于水上摄像头;根据具体泳池场景的不同,安装位置根据具体情况分析,但需要保证监控摄像头的安装角度、高度位置合适,使得拍摄的目标人员的游泳行为明显且清晰可见,有利于提高行为的判识结果。

Claims (6)

1.一种基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,具体步骤如下:
S1、构建数据集:通过摄像头采集真实的或模拟的溺水行为视频和正常游泳行为视频作为原始数据集,将原始数据集分为训练集和验证集,训练集和验证集中各包含自由泳、蝶泳、蛙泳、仰泳和溺水5种人体行为数据视频,每个视频片段代表某一种具体行为;
S2、对图像进行预处理:将数据集的图像尺寸进行预处理;
S3、构建神经网络模型,具体步骤为:
S31、构建特征提取部分,采用基准的网络框架3D resnet50作为主干网络backbone,用于提取视频游泳者行为特征;主干网络包括6层结构,从上到下依次为conv1层、Pool1层、Layer1层、Layer2层、Layer3层和Layer4层,每一层的输出特征图像作为下一层的输入特征图像,最后提取得到Layer1层、Layer2层、Layer3层和Layer4层特征图像;
S32、构建空间语义调制模块,用于对步骤S31提取的各层特征图像进行空间尺寸调制,使得各层特征图像的空间尺寸保持一致;
S33、构建时间语义调制模块,用于对经过步骤S32空间语义调制后的层级特征图像进行时间语义调制;
S34、构建特征融合模块,用于将经过步骤S32和步骤S33操作后的层级特征图像分别采用自上而下和自下而上的两种方式进行特征融合;再将两个融合特征进行聚合,聚合特征作为该视频行为的高级特征;
S35、构建行为判识模块,将步骤S34得到的聚合后的高级特征输入行为判识模块,预测得到该视频行为属于自由泳、蝶泳、蛙泳、仰泳和溺水5种行为中的哪种行为;
S4、训练构建的神经网络模型,得到最优的神经网络模型;
S5、将泳池上方监控摄像头采集的目标人员的游泳行为视频图像进行预处理后输入训练后的神经网络模型,判断得到该目标人员的游泳行为是否属于溺水行为。
2.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,步骤S2的预处理步骤为:从原始数据集视频中提取的图像数据格式为3×T×W×H,先将W×H的图像缩放为224×224大小,然后将缩放后的图像进行均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]的归一化操作,使得预处理后的图像尺寸统一为3×T×224×224。
3.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,主干网络backbone的网络层结构如下表所示;
Figure FDA0003479109430000011
Figure FDA0003479109430000021
4.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,空间语义模块包括模块0和模块1;将步骤S31提取的layer3层特征图像输入到模块0,空间上采用滤波核大小为3×3,步长为2,pad填充为1的卷积conv操作,接着进行bn层归一化操作,再经过relu激活函数进行操作,输出特征图像的大小为2048×T×7×7;将步骤S31提取的layer4层特征图像输入到模块1中,进行idenfify()函数操作,输出大小与输入的layer4特征图像大小相同,即输出特征图像的大小为2048×T×7×7;经过空间语义调制后,使得layer3和layer4层特征图像的空间尺寸保持一致。
5.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,时间语义调制模块包括模块3和模块4,将经过空间语义调制后的层级特征分别输入模块3和模块4,模块3和模块4的网络结构都包括conv层和pool层,其中conv层3×1×1进行时序上的操作处理,T帧图像中每3帧图像进行特征提取,步长stride为1;pool层时序上采用的步长stride为8。
6.根据权利要求1所述的基于视频时序特征分析的泳池溺水行为识别方法,其特征在于,步骤S4的具体训练过程为:
S41、设定模型的初始学习率为0.01;
S42、设置辅助行为判识模块,用于获取更强的特征监督,增强语义信息,增强模型的训练效果;将步骤S31得到的layer3层特征图像或layer4层特征图像输入辅助行为判识模块,该判识结果作用于损失函数,用于判断模型预测的视频行为结果和视频的真实行为之间的损失差异;
S43、选择损失函数,损失函数用来衡量模型参数学习的好坏;
选取的损失函数为:
Figure FDA0003479109430000031
其中,LFocalLoss,o表示FocalLoss损失函数;LFocalLoss,i表示用于第i个辅助行为判识的损失函数;λi表示平衡系数,设置λi=0.5;M表示选择的辅助行为识别模块的数量,i为1-M之间的某个数值;
其中FocalLoss损失函数,公式如下:
FocalLoss(pt)=-αt(1-pt)γlog(pt)
其中,pt表示训练样本通过神经网络模型预测的结果中对应真实类别的概率;αt代表类别权值系数;其中γ=2;本技术方案选择的游泳行为包含自由泳、蝶泳、蛙泳、仰泳、溺水5种人体行为,其中各行为类别的权值参数αt=[1.2,1.5,1.3,0.5,1.2];
S44、将训练数据集视频图像输入构建好的神经网络模型学习模型参数,损失函数衡量模型参数学习的好坏;
S45、使用损失函数计算真实的游泳行为和预测的游泳行为的损失值,损失值越小,表示得到的模型参数效果越好;当训练第80遍完整的训练集和第150遍完整的训练集时,学习率依次降低为0.001和0.0001;本技术方案以训练200遍完整训练集作为最终的参数模型;
S46、使用测试集验证预测结果的准确率;
经过对神经网络模型进行不断改进与优化后,神经网络模型最终的溺水行为判识最高精度为90.2%。
CN202210063414.3A 2022-01-20 一种基于视频时序特征分析的泳池溺水行为判识方法 Active CN114511927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210063414.3A CN114511927B (zh) 2022-01-20 一种基于视频时序特征分析的泳池溺水行为判识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210063414.3A CN114511927B (zh) 2022-01-20 一种基于视频时序特征分析的泳池溺水行为判识方法

Publications (2)

Publication Number Publication Date
CN114511927A true CN114511927A (zh) 2022-05-17
CN114511927B CN114511927B (zh) 2024-10-22

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376210A (zh) * 2022-10-24 2022-11-22 杭州巨岩欣成科技有限公司 泳池防溺水的溺水行为识别方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
DE102020122028A1 (de) * 2019-08-27 2021-03-04 Nvidia Corporation Selbstüberwachtes hierarchisches bewegungslernen für videoaktionserkennung
CN112651267A (zh) * 2019-10-11 2021-04-13 阿里巴巴集团控股有限公司 识别方法、模型训练、系统及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171109A1 (zh) * 2017-03-23 2018-09-27 北京大学深圳研究生院 基于卷积神经网络的视频动作检测方法
DE102020122028A1 (de) * 2019-08-27 2021-03-04 Nvidia Corporation Selbstüberwachtes hierarchisches bewegungslernen für videoaktionserkennung
CN112651267A (zh) * 2019-10-11 2021-04-13 阿里巴巴集团控股有限公司 识别方法、模型训练、系统及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张聪聪;何宁;: "基于关键帧的双流卷积网络的人体动作识别方法", 南京信息工程大学学报(自然科学版), no. 06, 28 November 2019 (2019-11-28) *
王毅;马翠红;毛志强;: "基于时空双流融合网络与Attention模型的行为识别", 计算机应用与软件, no. 08, 12 August 2020 (2020-08-12) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376210A (zh) * 2022-10-24 2022-11-22 杭州巨岩欣成科技有限公司 泳池防溺水的溺水行为识别方法、装置、设备及介质
CN115376210B (zh) * 2022-10-24 2023-03-21 杭州巨岩欣成科技有限公司 泳池防溺水的溺水行为识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
CN110188637A (zh) 一种基于深度学习的行为识别技术方法
CN111259850A (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN110119703A (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN108830252A (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN102214309B (zh) 一种基于头肩模型的特定人体识别方法
CN111368666B (zh) 一种基于新型池化及注意力机制双流网络的活体检测方法
CN112115775B (zh) 一种基于计算机视觉的监控场景下的吸烟行为检测方法
CN107563345A (zh) 一种基于时空显著性区域检测的人体行为分析方法
CN106203260A (zh) 基于多摄像机监控网络的行人识别与跟踪方法
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN107909008A (zh) 基于多通道卷积神经网络和粒子滤波的视频目标跟踪方法
CN111582129A (zh) 一种盾构机司机工作状态实时监测报警方法及装置
CN108647575A (zh) 基于光学视觉分析的溺水预警方法
CN107025420A (zh) 视频中人体行为识别的方法和装置
CN110046574A (zh) 基于深度学习的安全帽佩戴识别方法及设备
CN102622584A (zh) 视频监控中蒙面人脸的检测方法
CN112084928A (zh) 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法
CN114550268A (zh) 一种利用时空特征的深度伪造视频检测方法
CN114187664B (zh) 一种基于人工智能的跳绳计数系统
CN111881732A (zh) 一种基于svm的人脸质量评价方法
CN114663769A (zh) 一种基于YOLO v5的水果识别方法
CN114550270A (zh) 一种基于双注意力机制的微表情识别方法
CN114332739A (zh) 一种基于运动目标检测和深度学习技术的烟雾检测方法
CN117671349A (zh) 一种周界入侵目标的检测与跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant