CN115410035A - 基于监控视频的空中交通管制员不安全行为分类方法 - Google Patents

基于监控视频的空中交通管制员不安全行为分类方法 Download PDF

Info

Publication number
CN115410035A
CN115410035A CN202210966731.6A CN202210966731A CN115410035A CN 115410035 A CN115410035 A CN 115410035A CN 202210966731 A CN202210966731 A CN 202210966731A CN 115410035 A CN115410035 A CN 115410035A
Authority
CN
China
Prior art keywords
pooling
data set
controller
classification
unsafe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210966731.6A
Other languages
English (en)
Inventor
高曙
揣明瑞
罗帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210966731.6A priority Critical patent/CN115410035A/zh
Publication of CN115410035A publication Critical patent/CN115410035A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了基于监控视频的空中交通管制员不安全行为分类方法及控制方法,包括:S1获取数据集;S2数据集处理:将数据集输入至目标检测层,定位每一个管制员在图像中的位置坐标,将每一个管制员目标从原图像中裁剪出来;S3搭建双线性池化网络;S4设计双域混合注意力机制;S5采用交叉熵作为损失函数,对搭建的网络模型进行训练;S6进行指标评估,指标评估达到设定值则训练完成,将待检测视频图像输入至基于双域混合注意力机制的双线性池化网络模型得到分类结果。本发明通过引入双域混合注意力机制增加对不安全行为分类有重要影响的局部分类特征权重,削减次要信息特征权重,达到提高管制员不安全行为分类精度的目的。

Description

基于监控视频的空中交通管制员不安全行为分类方法
技术领域
本发明属于计算机视觉领域,具体是指一种基于目标检测和双域混合注意力池化网络的基于监控视频的空中交通管制员不安全行为分类方法。
背景技术
随着科学技术的发展,航空业以其安全,快捷的特点在交通领域发挥越来越重要的作用。其中,空中交通管制员(以下简称为“管制员”)是航空运输体系的重要参与人员,主要负责维护空中交通运行秩序,保障航空运输体系的运行安全。鉴于管制员在航空运输体系中的重要地位,要求其在工作期间保持精神高度集中,并且管制员的工作制度为昼夜轮班,导致管制员易处于疲劳状态。为了保障飞行安全,遏制不安全事件的发生,鉴于管制员工作的重要性、特殊性,需要密切关注其行为的规范和要求,严格防止出现与规范要求不相符的不安全行为。目前,对管制员的不安全行为检测主要利用监控视频,采用人工巡查方式进行识别。人工巡查需要对监控录像进行回放、人工识别和审核,增加了额外的劳动成本,使得管制员视频监控系统没有得到充分利用和发挥有效作用。因此,基于视频监控数据,研究可以高效、精准地自动识别管制员不安全行为的方法,将有助于对管制员不安全行为预警并采取防范措施,排除潜在隐患,保障空中交通安全,具有重要的现实意义与应用价值。
目前利用视频数据分析管制员不安全行为鲜有报道,而在煤矿、建筑工程等领域,对不安全行为分类的研究主要基于大量不安全行为样本数据进行训练,与不安全行为偶发、稀疏等特点不符,因此,传统的图像分类模型在管制员工作场景下会出现较高的漏检与误检,难以进行实际应用。并且管制员工作场景与煤矿、建筑行业有显著不同,一般存在多名管制员,此时视频图像中可能出现多种行为类别,导致图像中存在大量的信息冗余。如果不首先进行管制员检测与分割,这些冗余信息带来的噪声干扰将不利于模型对不同行为特征的理解,容易产生错误的推理结果,降低分类准确率。此外,管制员不安全行为之间相似度较高,且不安全行为与某些正常行为之间区分度不大,即不安全行为的局部分类特征不明显,这些也都影响现有模型的分类效果。
发明内容
本发明的目的在于克服现有技术应用于管制员工作场景的不足,而提出一种基于目标检测和双域混合注意力池化网络的基于监控视频的空中交通管制员不安全行为分类方法,解决现有不安全行为分类方法在管制员工作场景下分类准确率较低的问题。
为实现上述目的,本发明所设计的基于监控视频的空中交通管制员不安全行为分类方法,其特殊之处在于,所述方法包括如下步骤:
S1获取数据集:采集空中交通管制员工作监控视频,对视频图像进行预处理,形成数据集;
S2数据集处理:将数据集输入至目标检测层,目标检测层定位每一个管制员在图像中的位置坐标,同时将每一个管制员目标从原图像中裁剪出来,作为后续分类模型的输入;
S3分类模型搭建:搭建双线性池化网络,使用主干网络EfficentNetV2对数据集中的图像进行分类处理,输出特征图F;
S4将管制员不安全行为分类作为细粒度图像分类,在双线性池化网络的基础上,针对图像局部分类特征不明显的特点,设计双域混合注意力机制:首先将所述特征图F输入至通道域注意力机制得到通道域注意力机制加权特征图Fc,再将所述通道域注意力机制加权特征图Fc输入至空间域注意力机制得到空间域注意力机制加权特征图Fs
S5采用交叉熵作为损失函数,使用Pytorch深度学习框架对搭建的网络模型进行训练;
S6针对数据集,基于双域混合注意力机制的双线性池化网络生成预测pth文件,进行指标评估,指标评估达到设定值则训练完成,将待检测视频图像输入至基于双域混合注意力机制的双线性池化网络模型得到分类结果。
优选地,步骤S4中通道域注意力机制的处理过程为:
401)使用全局最大池化和全局平均池化并行处理输入特征图F,得到最大池化特征FGMP∈RC×1×1和平均池化特征FGAP∈RC×1×1
FGMP=GMP(F),FGAP=GAP(F) (4)
其中GMP()表示全局最大池化,GAP()表示全局平均池化,C、R分别代表特征图的通道数和实数集;
402)将全局最大池化、全局平均池化特征图输入共享权重的多层感知机MLP进行缩放映射学习后,得到通道域特征C1∈RC×1×1、C2∈RC×1×1
C1=f′(f(FGMP)),C2=f′(f(FGAP)) (5)
其中,f′(f(·))表示全连接层的缩放映射学习;
403)对全局最大池化、全局平均池化特征并行处理,其中,一路通过特征元素拼接,将C1和C2进行融合,再经过全连接层做线性映射处理,另一路通过特征元素相加,将C1和C2进行融合,最后,再将两者以特征元素相加的方式融合并进行Sigmod归一化,此时得到通道域注意力权重向量Mc∈RC×1×1
Figure BDA0003795167420000031
其中,Sigmoid表示激活函数,
Figure BDA0003795167420000032
表示特征元素相加,concat表示特征拼接,FC表示全连接操作;
404)将通道域注意力权重向量Mc和输入特征图F进行矩阵点乘运算,最终得到与原始输入特征图F尺寸相同的通道域注意力机制加权特征图Fc
Figure BDA0003795167420000041
其中,
Figure BDA0003795167420000042
表示矩阵点乘运算。
优选地,步骤S4中空间域注意力机制的处理过程为:
405)采用与通道域相同的全局最大池化和全局平均池化并行处理输入的通道域注意力机制加权特征图Fc∈RC×W×H,生成最大池化特征F′GMP∈RC×1×1和平均池化特征F′GAP∈RC×1×1
F′GMP=GMP(Fc),F′GAP=GAP(Fc) (8)
406)并行处理最大池化特征F′GMP和平均池化特征F′GAP,其中一路沿通道方向将F′GMP和F′GAP拼接融合,得到特征图M1∈R2×H×W,另一路通过特征元素相加将两个池化特征进行融合,得到特征图M2∈R2×H×W,将特征图M1和M2沿通道方向拼接融合,到特征图M3∈R2×H×W,将特征图M3经过下采样得到空间域特征M∈R1×H×W,最后通过Sigmod归一化处理,得到空间域注意力权重矩阵Ms∈R1×H×W
Ms=Sigmoid(f(Concat(Concat(F′GMP,F′GAP),(F′GMP⊕F′GAP)))) (9)
407)将空间域注意力权重矩阵Ms和输入的通道域注意力机制加权特征图Fc进行矩阵点乘运算,得到空间域注意力加权特征图Fs
Figure BDA0003795167420000043
优选地,步骤S5中首先利用注意力模块特征提取器提取预测向量Fs,然后利用初始图片的标签y训练特征,则相应的交叉熵损失函数为-log(Fs y),其中Fs y代表图像在实际类别y上的预测概率,则在训练特征时损失函数为:
H=-log(Fs y) (11)
优选地,步骤S3中对数据集进行分类处理的过程为:将数据集图像输入两个的卷积神经网络,卷积层的输出分别为X1∈Rh×w×c、X2∈Rh×w×c,其中,h、w、c分别代表特征图的高、宽、通道数,Xi(i=1,2)位于空间位置p处的描述算子分别为
Figure BDA0003795167420000044
Figure BDA0003795167420000051
通过在每个空间位置上使用矩阵外积组合得到双线性特征,则双线性池化在位置p处的特征表示为:
Figure BDA0003795167420000052
其中,Fp是双线性模型在位置p处的输出结果,则双线性模型表示为:
Figure BDA0003795167420000053
由于采用两个相同的卷积神经网络,所以双线性池化模型表示为:
Figure BDA0003795167420000054
对于一个卷积神经网络有c个通道数,则位置p处的特征维度为1×c,然后与另一个卷积神经网络在相同位置处得到的1×c的矩阵进行乘积,得到的矩阵维度为c×c,之后将每个位置处得到的矩阵求和,转换为向量形式,得到图像上每个位置的双线性特征。
优选地,步骤S1中使用Opencv将获取到的数据集中的图像尺寸调整为512×512,将数据集中的一些过度曝光图像进行去噪处理,步骤S2中所述目标检测层利用YOLOv5网络检测并定位视频图像中的所有管制员前景区域,将其从原图像中分割出来,作为后续模型的输入。
优选地,步骤S2中使用公共数据集COCO2017对YOLOv5网络训练,训练过程中参数设置为:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0005,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=300。
优选地,步骤S2中训练过程包括微调训练阶段,将主干网络部分的head权重冻结,并将双线性池化网络全连接层输出维度改为所需分类的类别数量,包含正常行为和六类不安全行为;使用管制员不安全行为数据集进行微调训练,微调训练阶段参数设置为:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0005,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=100。
优选地,步骤S6中采用精准率P作为评价指标,计算方法为:
Figure BDA0003795167420000061
其中,TP、FP分别表示在某类不安全行为的分类结果里,正确和错误分为该类不安全行为的数量,评价指标精准率百分制表示。
本发明还提出一种计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述一种基于监控视频的空中交通管制员不安全行为分类方法。
本发明是通过如下的技术方案实现的:
1)基于目标检测和双域混合注意力池化网络的管制员不安全行为分类方法,在原有的双线性池化网络基础上,添加了目标检测网络和双域混合注意力机制。
2)针对管制员工作场景中存在多名管制员的特点,首先,使用YOLOv5网络定位管制员在图像中的位置坐标,同时将管制员目标从原图像中裁剪出来,作为后续分类模型的输入,从而将多目标分类任务转变为单目标分类任务,有效滤除冗余信息,同时降低图像中的噪声信息。
3)针对图像局部分类特征不明显,即不安全行为之间相似度高的问题,本发明将管制员不安全行为分类看作细粒度图像分类问题,在双线性池化网络的基础上,针对图像局部分类特征不明显的特点,设计通道域和空间域的混合注意力机制。
相比于现有技术,本发明具有如下优点:
1)利用YOLOv5网络对视频图像中管制员进行有效分割。管制员工作场景的特点之一是场景中存在多名管制员,因此同一图像中可能出现多种行为类别,如果不首先进行分割,将不利于网络分别对不同行为特征的理解,从而产生错误的推理结果。相较于传统方法,该方法引入YOLOv5目标检测网络对原始图像进行目标检测和区域分割,将原始图像划分为与管制员人数相等的单人图像,降低冗余信息和噪声给分类任务造成的影响,加强分类模型对管制员行为特征的理解,为不安全行为分类效果的提高奠定了基础。
2)利用双域混合注意力机制增强局部分类特征。通过引入双域混合注意力机制可以增加对不安全行为分类有重要影响的局部分类特征权重,削减次要信息特征权重,即引导模型关注动作幅度小、行为相似度高的不安全行为之间的细微差异,从而达到提高管制员不安全行为分类精度的目的。
附图说明
图1为基于目标检测和双域混合注意力池化的不安全行为模型架构图。
图2为基于YOLOv5的管制员目标检测层结构
图3为管制员工作场景图。
图4为管制员不安全行为与正常行为示意图。
图5为引入YOLOv5前后分类效果可视化图。
图6为融合双域混合注意力机制的双线性池化结构。
图7为通道域注意力机制结构示意图。
图8为空间域注意力机制结构示意图。
图9为看书不安全行为CAM图。
图10为摘耳机不安全行为CAM图。
图11为玩手机不安全行为CAM图。
图12为睡岗不安全行为CAM图。
图13为聊天不安全行为CAM图。
图14为各类不安全行为分布图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,但以下实施例仅是说明性的,本发明的保护范围并不受这些实施例的限制。
基于目标检测和双域混合注意力池化的不安全行为模型架构如图1所示,本发明提出的一种基于监控视频的空中交通管制员不安全行为分类方法,包括如下步骤:
S1获取数据集:采集空中交通管制员工作监控视频,对视频图像进行预处理,形成数据集。
鉴于管制员工作的特殊性与保密性,所构建的实验数据集均采自某空管分局管制员培训室(与实际工作场景一致)的监控视频。视频帧率为12fps,分辨率为720×480,剪辑掉无用片段后,得到视频总时长约500分钟,其中不安全行为占43分钟,其余皆为正常工作行为。按照5帧间隔采集图像,并将其按照8:2的比例划分为训练集和测试集。
S2数据集处理::将数据集输入至目标检测层,目标检测层定位每一个管制员在图像中的位置坐标,同时将每一个管制员目标从原图像中裁剪出来,作为后续分类模型的输入。
为方便模型训练,同时降低网络计算复杂度,使用Opencv将S1中获取到的图像尺寸调整为512×512,将数据集中的一些过度曝光图像进行去噪处理,利用如图2所示的YOLOv5网络检测并定位视频图像中的所有管制员前景区域,将其从原图像中分割出来,作为后续模型的输入。分割前后的数据集示意图详见图3、图4。
S3分类模型搭建:搭建双线性池化网络,使用主干网络EfficentNetV2对数据集中的图像进行分类处理,输出特征图F。
对数据集进行分类处理的过程为:将数据集图像输入两个的卷积神经网络,卷积层的输出分别为X1∈Rh×w×c、X2∈Rh×w×c,其中,h、w、c分别代表特征图的高、宽、通道数,Xi(i=1,2)位于空间位置p处的描述算子分别为
Figure BDA0003795167420000081
Figure BDA0003795167420000082
通过在每个空间位置上使用矩阵外积组合得到双线性特征,则双线性池化在位置p处的特征表示为:
Figure BDA0003795167420000091
其中,Fp是双线性模型在位置p处的输出结果,则双线性模型表示为:
Figure BDA0003795167420000092
由于采用两个相同的卷积神经网络,所以双线性池化模型表示为:
Figure BDA0003795167420000093
对于一个卷积神经网络有c个通道数,则位置p处的特征维度为1×c,然后与另一个卷积神经网络在相同位置处得到的1×c的矩阵进行乘积,得到的矩阵维度为c×c,之后将每个位置处得到的矩阵求和,转换为向量形式,得到图像上每个位置的双线性特征。
为了验证引入目标检测层YOLOv5网络对管制员不安全行为分类的有效性,设计了对比实验:首先,使用管制员不安全行为分类数据集的原始图像训练图像分类模型,得到实验评价指标。然后,将YOLOv5网络引入上述图像分类模型,并使用管制员单人数据集的单人图像重新训练。最后,均在管制员不安全行为分类数据集上进行测试,通过对比上述两种模型在管制员不安全行为分类数据集上的实验评价指标,验证目标检测方法能有效提高管制员不安全行为分类准确率。实验对比引入YOLOv5网络前后的分类模型对管制员不安全行为的分类效果。以看书和玩手机两种不安全行为为例,在不安全行为分类数据集中选取部分图像测试,可视化结果如图5所示。图5中,(a)、(c)为EfficentNetv2模型直接分类的可视化结果,(b)、(d)为引入YOLOv5网络后EfficentNetv2模型分类的可视化结果,每个图片左下角标出了图片中各管制员的不安全行为分类结果,浅色字体表示分类错误,深色字体表示分类正确,正常工作且分类为正常行为的管制员未标出。从分类结果来看,(a)中部分看书行为被错误分类为玩手机和正常行为,(c)为玩手机不安全行为,可以看出手机目标较小,并且被手掌区域遮盖,部分被错误分类为正常行为;(b)、(d)利用YOLOv5将管制员分割为单人图像后进行分类,有效缓解了误识别问题,并且可以同时识别多种不安全行为。本发明引入YOLOv5的目标检测网络,在管制员不安全行为数据集上的指标评价结果如表1所示,评价指标精准率以百分制显示。由于本发明利用YOLOv5网络检测管制员人数,进而判断是否发生脱岗不安全行为,故未引入YOLOv5网络的分类方法计算脱岗行为的分类准确率,因此表1中相应地方用“-”表示。
表1基于YOLOv5的目标检测网络评估实验
Figure BDA0003795167420000101
综合图5和表1的实验数据可知,使用YOLOv5网络首先对原始图像进行处理,将分割后的管制员单人图像作为分类网络的输入,对管制员不安全行为分类效果有明显提升。其原因分析如下:
管制员工作场景的特点之一是同一图像中存在多名管制员,若直接对不安全行为分类数据集的原始图像进行训练,同一图像中可能出现多种行为类别,给分类任务带来了大量信息冗余和噪声干扰,不利于网络的特征理解,从而产生错误的推理结果。将YOLOv5网络引入分类模型,对原始图像进行目标检测和区域裁剪,将管制员从原始图像中分割出来,再将其作为分类模型的输入,更有利于模型对管制员各种行为特征的理解,同时也能精确定位到做出不安全行为的管制员。以上实验验证了将YOLOv5目标检测网络引入不安全行为分类模型,是符合管制员工作场景特点的有效改进措施。
S4将管制员不安全行为分类作为细粒度图像分类,在双线性池化网络的基础上,针对图像局部分类特征不明显的特点,设计双域混合注意力机制:第一条通道针对通道特征,第二条通道针对空间特征,融合双域混合注意力机制的双线性池化结构如图6所示。具体步骤包括:设计通道域注意力机制,如图7所示,处理过程为:
401)使用全局最大池化和全局平均池化并行处理输入特征图F,得到最大池化特征FGMP∈RC×1×1和平均池化特征FGAP∈RC×1×1
FGMP=GMP(F),FGAP=GAP(F) (4)
其中GMP()表示全局最大池化,GAP()表示全局平均池化;
402)将全局最大池化、全局平均池化特征图输入共享权重的多层感知机MLP进行缩放映射学习后,得到通道域特征C1∈RC×1×1、C2∈RC×1×1
C1=f′(f(FGMP)),C2=f′(f(FGAP)) (5)
其中,f′(f(·))表示全连接层的缩放映射学习;
403)对全局最大池化、全局平均池化特征并行处理,其中一路通过特征元素拼接,将C1和C2进行融合,再经过全连接层做线性映射处理,另一路通过特征元素相加,将C1和C2进行融合,最后,再将两者以特征元素相加的方式融合并进行Sigmod归一化,此时得到通道域注意力权重向量Mc∈RC×1×1
Figure BDA0003795167420000111
其中,Sigmoid表示激活函数,
Figure BDA0003795167420000112
表示特征元素相加,concat表示特征拼接,FC表示全连接操作,C1、C2表示通道域特征;
404)将通道域注意力权重向量Mc和输入特征图F进行矩阵点乘运算,最终得到与原始输入特征图F尺寸相同的通道域注意力加权特征图Fc
Figure BDA0003795167420000113
其中,
Figure BDA0003795167420000114
表示矩阵点乘运算。
通道域注意力机制通过关注特征图通道域维度的不同特征分布情况,计算相应的特征权重,以提高特征图的表征能力。为了进一步捕获空间位置之间的依赖关系,设计了空间域注意力机制,如图8所示:
405)采用与通道域相同的全局最大池化和全局平均池化并行处理输入的通道域加权特征图Fc∈RC×W×H,生成最大池化特征F′GMP∈RC×1×1和平均池化特征F′GAP∈RC×1×1
F′GMP=GMP(Fc),F′GAP=GAP(Fc) (8)
其中,GMP表示全局最大池化,GAP表示全局平均池化。
406)并行处理最大池化特征F′GMP和平均池化特征F′GAP,其中一路沿通道方向将F′GMP和F′GAP拼接融合,得到特征图M1∈R2×H×W,另一路通过特征元素相加将两个池化特征进行融合,得到特征图M2∈R2×H×W,将特征图M1和M2沿通道方向拼接融合,到特征图M3∈R2×H×W,将特征图M3经过下采样得到空间域特征M∈R1×H×W,最后通过Sigmod归一化处理,得到空间域注意力权重矩阵Ms∈R1×H×W
Ms=Sigmoid(f(Concat(Concat(F′GMP,F′GAP),(F′GMP⊕F′GAP)))) (9)
其中,Sigmoid表示激活函数,
Figure BDA0003795167420000121
表示特征元素相加,concat表示特征拼接。
407)将空间域注意力权重矩阵Ms和输入的通道域加权特征图Fc进行矩阵点乘运算,得到空间域注意力加权特征图Fs
Figure BDA0003795167420000122
得到的注意力特征图Fs即为输出特征图。
为了验证融合双域混合注意力机制对管制员不安全行为分类的有效性,设计了对比实验:模型其他结构保持不变,对比引入双域混合注意力机制前后的实验效果。通过对比在管制员不安全行为分类数据集上的评价指标,验证引入双域混合注意力机制对管制员不安全行为分类的有效性。为了验证引入双域混合注意力机制对图像特征描述的影响,图9至图13展示了引入注意力机制前后的五种不安全行为类激活图(Class ActivationMapping,以下简称“CAM图”),CAM图可以反应分类网络所关注的图像区域,即图像中的深色区域。从图9至图13可以看出,未引入双域混合注意力机制前,模型对图像的关注区域较为分散。而引入双域混合注意力机制后,模型则更关注与当前分类行为相关的特征,如图9对看书不安全行为的关注区域更集中于手部,图12对睡岗不安全行为的关注更集中于头部和背部,图13对聊天不安全行为的关注更集中于嘴部。由此可知,引入双域混合注意力机制能较好的提升管制员不安全行为分类效果。本发明提出的双域混合注意力机制在管制员不安全行为数据集上的指标评价结果如表2所示,评价指标精准率以百分制显示。
表2融合双域混合注意力机制评估实验
Figure BDA0003795167420000131
结合图9至图13、表2实验结果分析可以看出,相比于未引入注意力机制,融合双域混合注意力机制的双线性池化层表现更好,可能原因分析如下:
(1)引入双域混合注意力机制之后的双线性池化网络信息处理能力更强,能更加关注重要特征(动作特征)而抑制不重要特征,进而加强了对动作幅度小、行为相似度高的管制员不安全行为分类效果。
(2)双域混合注意力机制同时结合了通道域注意力和空间域注意力,相较于单域注意力机制,双域混合注意力机制能进一步提升映射特征的表征能力,通过捕获空间位置之间以及通道图之间的依赖关系,挖掘双域重要特征信息,从而生成更具有辨识度的特征表示,提升不安全行为分类性能。
S5采用交叉熵作为损失函数,使用Pytorch深度学习框架对搭建的网络模型进行训练。
交叉熵反映了实际输出与期望输出的接近程度,首先利用注意力模块特征提取器提取预测向量Fs,然后利用初始图片的标签y来训练特征,则相应的交叉熵损失函数为-log(Fs y),其中Fs y代表图像在实际类别y上的预测概率。在训练特征时损失函数为:
H=-log(Fs y) (11)
使用Pytorch深度学习框架对搭建的网络模型进行训练,训练包括如下步骤:
(1)YOLOv5网络训练:对自制数据集标注检测框非常耗时,但考虑到人体结构的高度相似性,在公共数据集上训练的目标检测网络理论上也可以适用于管制员。使用公共数据集COCO2017对YOLOv5网络训练,训练过程中参数设置如下:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0005,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=300。
(2)融合双域混合注意力机制的双线性池化网络训练:通过对比网络性能,选用EfficentNetv2网络作为融合双域混合注意力机制的双线性池化网络(以下简称“双线性池化网络”)的主干网络。训练过程分为预训练和微调训练两个阶段。
预训练阶段,使用ImageNet2012数据集训练双线性池化网络,预训练过程中参数设置如下:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0001,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=300。
微调训练阶段,遵循迁移学习思路,将主干网络部分的head权重冻结,并将双线性池化网络全连接层输出维度改为所需分类的类别数量。使用管制员不安全行为数据集进行微调训练,微调训练阶段参数设置除迭代次数epochs=100,其他与预训练阶段一致。
S6针对数据集,基于双域混合注意力机制的双线性池化网络生成预测pth文件,进行指标评估,指标评估达到设定值则训练完成,将待检测视频图像输入至基于双域混合注意力机制的双线性池化网络模型得到分类结果。
本发明使用的训练数据均采自某空管分局管制员培训室。数据集共有图像5668张,其中脱岗792张、睡岗572张、使用非工作所需电子产品(玩手机)990张、看书475张、未佩戴耳机(或摘耳机)728张、聊天1086张,此外需要分类模型也能对正常行为进行分类,所以采集了部分正常行为图像1025张,管制员行为类型分布图如图14所示。
为了评估模型性能,采用精准率P(Precision)作为评价指标。精准率又称为查准率,表示正确预测为正例的样本占所有被预测为正例的样本的比例,度量分类器的准确性,计算方法为:
Figure BDA0003795167420000151
其中,TP、FP分别表示在某类不安全行为的分类结果里,正确和错误分为该类不安全行为的数量。
本发明的指标评估实验结果如表3所示,评价指标精准率以百分制显示。
表3管制员不安全行为分类模型指标评估实验结果
Figure BDA0003795167420000152
本发明还提出一种计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现上述的方法。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。本领域的技术人员容易理解,以上所述仅为本发明专利的较佳实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之内。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:所述方法包括如下步骤:
S1获取数据集:采集空中交通管制员工作监控视频,对视频图像进行预处理,形成数据集;
S2数据集处理:将数据集输入至目标检测层,目标检测层定位每一个管制员在图像中的位置坐标,同时将每一个管制员目标从原图像中裁剪出来,作为后续分类模型的输入;
S3分类模型搭建:搭建双线性池化网络,使用主干网络EfficentNetV2对数据集中的图像进行分类处理,输出特征图F;
S4将管制员不安全行为分类作为细粒度图像分类,在双线性池化网络的基础上,针对图像局部分类特征不明显的特点,设计双域混合注意力机制:首先将所述特征图F输入至通道域注意力机制得到通道域注意力机制加权特征图Fc,再将所述通道域注意力机制加权特征图Fc输入至空间域注意力机制得到空间域注意力机制加权特征图Fs
S5采用交叉熵作为损失函数,使用Pytorch深度学习框架对搭建的网络模型进行训练;
S6针对数据集,基于双域混合注意力机制的双线性池化网络生成预测pth文件,进行指标评估,指标评估达到设定值则训练完成,将待检测视频图像输入至基于双域混合注意力机制的双线性池化网络模型得到分类结果。
2.根据权利要求1所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S4中通道域注意力机制的处理过程为:
401)使用全局最大池化和全局平均池化并行处理输入特征图F,得到最大池化特征FGMP∈RC×1×1和平均池化特征FGAP∈RC×1×1
FGMP=GMP(F),FGAP=GAP(F) (4)
其中GMP()表示全局最大池化,GAP()表示全局平均池化;
402)将全局最大池化、全局平均池化特征图输入共享权重的多层感知机MLP进行缩放映射学习后,得到通道域特征C1∈RC×1×1、C2∈RC×1×1
C1=f′(f(FGMP)),C2=f′(f(FGAP)) (5)
其中,f′(f(·))表示全连接层的缩放映射学习;
403)对全局最大池化、全局平均池化特征并行处理,其中一路通过特征元素拼接,将C1和C2进行融合,再经过全连接层做线性映射处理,另一路通过特征元素相加,将C1和C2进行融合,最后,再将两者以特征元素相加的方式融合并进行Sigmod归一化,此时得到通道域注意力权重向量Mc∈RC×1×1
Figure FDA0003795167410000021
其中,Sigmoid表示激活函数,
Figure FDA0003795167410000022
表示特征元素相加,concat表示特征拼接,FC表示全连接操作;
404)将通道域注意力权重向量Mc和输入特征图F进行矩阵点乘运算,最终得到与原始输入特征图F尺寸相同的通道域注意力加权特征图Fc
Figure FDA0003795167410000023
其中,
Figure FDA0003795167410000024
表示矩阵点乘运算。
3.根据权利要求1所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S4中空间域注意力机制的处理过程为:
405)采用与通道域相同的全局最大池化和全局平均池化并行处理输入的通道域加权特征图Fc∈RC×W×H,生成最大池化特征FGMP∈RC×1×1和平均池化特征FGAP∈RC×1×1
FGMP=GMP(Fc),FGAP=GAP(Fc) (8)
406)并行处理最大池化特征FGMP和平均池化特征FGAP,其中一路沿通道方向将FGMP和FGAP拼接融合,得到特征图M1∈R2×H×W,另一路通过特征元素相加将两个池化特征进行融合,得到特征图M2∈R2×H×W,将特征图M1和M2沿通道方向拼接融合,到特征图M3∈R2×H×W,将特征图M3经过下采样得到空间域特征M∈R1×H×W,最后通过Sigmod归一化处理,得到空间域注意力权重矩阵Ms∈R1×H×W
Figure FDA0003795167410000031
407)将空间域注意力权重矩阵Ms和输入的通道域加权特征图Fc进行矩阵点乘运算,得到空间域注意力加权特征图Fs
Figure FDA0003795167410000032
4.根据权利要求1所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S5中首先利用注意力模块特征提取器提取预测向量Fs,然后利用初始图片的标签y训练特征,则相应的交叉熵损失函数为-log(Fs y),其中Fs y代表图像在实际类别y上的预测概率,则在训练特征时损失函数为:
H=-log(Fs y) (11)
5.根据权利要求3所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S3中对数据集进行分类处理的过程为:将数据集图像经过两个相同的卷积神经网络输出的卷积层分别为X1∈Rh×w×c、X2∈Rh×w×c,其中,h、w、c分别代表特征图的高、宽、通道数,Xi(i=1,2)位于空间位置p处的描述算子分别为
Figure FDA0003795167410000033
Figure FDA0003795167410000034
通过在每个空间位置上使用矩阵外积组合得到双线性特征,则双线性池化在位置p处的特征表示为:
Figure FDA0003795167410000035
其中,Fp是双线性模型在位置p处的输出结果,则双线性模型表示为:
Figure FDA0003795167410000036
由于采用两个相同的卷积神经网络,所以双线性池化模型表示为:
Figure FDA0003795167410000037
对于一个卷积神经网络有c个通道数,则位置p处的特征维度为1×c,然后与另一个卷积神经网络在相同位置处得到的1×c的矩阵进行乘积,得到的矩阵维度为c×c,之后将每个位置处得到的矩阵求和,转换为向量形式,得到图像上每个位置的双线性特征。
6.根据权利要求5所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S1中使用Opencv将获取到的数据集中的图像尺寸调整为512×512,将数据集中的一些过度曝光图像进行去噪处理,步骤S2中所述目标检测层利用YOLOv5网络检测并定位视频图像中的所有管制员前景区域,将其从原图像中分割出来,作为后续模型的输入。
7.根据权利要求6所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S5中使用公共数据集COCO2017对YOLOv5网络训练,训练过程中参数设置为:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0005,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=300。
8.根据权利要求6所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S5中训练过程包括微调训练阶段,将主干网络部分的head权重冻结,并将双线性池化网络全连接层输出维度改为所需分类的类别数量,包含正常行为和六类脱岗行为;使用管制员不安全行为数据集进行微调训练,微调训练阶段参数设置为:选择随机梯度下降作为优化器,权重衰减weight_decay=0.0005,学习率learning_rate=0.001,动量momentum=0.9,批量尺寸batch_size=16,迭代次数epochs=100。
9.根据权利要求5所述的基于监控视频的空中交通管制员不安全行为分类方法,其特征在于:步骤S6中采用精准率P作为评价指标,计算方法为:
Figure FDA0003795167410000051
其中,TP、FP分别表示在某类不安全行为的分类结果里,正确和错误分为该类不安全行为的数量,评价指标精准率以百分制表示。
10.一种计算机设备,其包括存储器、处理器和存储在存储器中可供处理器运行的程序指令,其中所述处理器执行所述程序指令以实现权利要求1至9中任一项所述的方法。
CN202210966731.6A 2022-08-12 2022-08-12 基于监控视频的空中交通管制员不安全行为分类方法 Pending CN115410035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210966731.6A CN115410035A (zh) 2022-08-12 2022-08-12 基于监控视频的空中交通管制员不安全行为分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210966731.6A CN115410035A (zh) 2022-08-12 2022-08-12 基于监控视频的空中交通管制员不安全行为分类方法

Publications (1)

Publication Number Publication Date
CN115410035A true CN115410035A (zh) 2022-11-29

Family

ID=84159687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210966731.6A Pending CN115410035A (zh) 2022-08-12 2022-08-12 基于监控视频的空中交通管制员不安全行为分类方法

Country Status (1)

Country Link
CN (1) CN115410035A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109630A (zh) * 2023-04-10 2023-05-12 创域智能(常熟)网联科技有限公司 基于传感器采集和人工智能的图像分析方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116109630A (zh) * 2023-04-10 2023-05-12 创域智能(常熟)网联科技有限公司 基于传感器采集和人工智能的图像分析方法及系统

Similar Documents

Publication Publication Date Title
Li et al. Simultaneously detecting and counting dense vehicles from drone images
CN111353395A (zh) 一种基于长短期记忆网络的换脸视频检测方法
CN112597867B (zh) 戴口罩人脸识别方法、系统、计算机设备及存储介质
Yang et al. A deep multiscale pyramid network enhanced with spatial–spectral residual attention for hyperspectral image change detection
CN111368690A (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN113344475B (zh) 基于序列模态分解的变压器套管缺陷识别方法及系统
CN111709313B (zh) 基于局部和通道组合特征的行人重识别方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN113762107A (zh) 对象状态评估方法、装置、电子设备及可读存储介质
CN115131747A (zh) 基于知识蒸馏的输电通道工程车辆目标检测方法及系统
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
Suratkar et al. Deep fake video detection using transfer learning approach
Su et al. Going the extra mile in face image quality assessment: A novel database and model
CN115410035A (zh) 基于监控视频的空中交通管制员不安全行为分类方法
Song et al. Intelligent Identification Method of Hydrophobic Grade of Composite Insulator Based on Efficient GA‐YOLO Former Network
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN117351392A (zh) 一种视频异常行为检测的方法
CN112528058A (zh) 基于图像属性主动学习的细粒度图像分类方法
CN117152815A (zh) 一种学生活动伴随式数据分析方法、装置及设备
CN116704208A (zh) 基于特征关系的局部可解释方法
CN116704585A (zh) 一种基于质量感知的人脸识别方法
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN112348011B (zh) 一种车辆定损方法、装置及存储介质
CN113989742A (zh) 一种基于多尺度特征融合的核电站厂区行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination