CN114882397B - 一种基于交叉注意机制动态知识传播的危险车辆识别方法 - Google Patents

一种基于交叉注意机制动态知识传播的危险车辆识别方法 Download PDF

Info

Publication number
CN114882397B
CN114882397B CN202210438864.6A CN202210438864A CN114882397B CN 114882397 B CN114882397 B CN 114882397B CN 202210438864 A CN202210438864 A CN 202210438864A CN 114882397 B CN114882397 B CN 114882397B
Authority
CN
China
Prior art keywords
network
feature
dangerous
fusion
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210438864.6A
Other languages
English (en)
Other versions
CN114882397A (zh
Inventor
姚楠
刘子全
王真
秦剑华
朱雪琼
薛海
高超
吴奇伟
胡成博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202210438864.6A priority Critical patent/CN114882397B/zh
Publication of CN114882397A publication Critical patent/CN114882397A/zh
Application granted granted Critical
Publication of CN114882397B publication Critical patent/CN114882397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种危险车辆识别方法、装置及存储介质,方法包括:获取待识别危险车辆的图像帧,输入预先训练的危险车辆识别模型;根据危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;其中,危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;动态知识传播网络采用交叉注意机制进行特征交叉融合,再通过残差连接将学生网络得到的特征与交叉参与特征相结合,进而对图像帧集中车辆动作的危险性进行分类。本发明可实现对危险车辆的识别,能够提高识别结果的准确性。

Description

一种基于交叉注意机制动态知识传播的危险车辆识别方法
技术领域
本发明涉及图像检测技术领域,特别是一种基于交叉注意机制动态知识传播的危险车辆识别方法。
背景技术
随着我国电网设施的大力建设,大型工程车辆在电网建设中得到广泛应用,也不可避免的带来了安全、管理上的诸多问题。尤其威胁了输电线路的安全稳定运行,有效的危险车辆识别已经成为工程车辆识别技术成功扩展到现实应用的关键。
危险车辆的识别是大型车辆识别的关键问题之一。目前,许多主流的车辆检测方法是基于深度学习,人们提出的多种有效的危险车辆识别方法,主要的发展方向集中在两个方面:(a)更高效的CNN和(b)突出的帧/剪辑选择。在第一个方面,为了减少每个剪辑的计算成本,更成功的方法是简单地改用更轻的2D-CNN,通常与RNN/LSTM模型结合使用。但是,即使使用更高效的网络,如果所有帧都被处理了,对于较长的视频,计算量也会很高。因此,第二个方面基于显著性的框架选择的方法补充了这一缺陷,也取得了大多数成功。这些方法依赖于学习一种策略来决定一个特定的框架应该以何种分辨率支持切/跳过。这样的策略函数可以提高效率,然而,这些方法依赖于不遗漏对危险车辆识别至关重要的帧的策略。
发明内容
本发明的目的是提供一种危险车辆识别方法,在动态知识传播机制的基础上构建学生-教师模型,实现对危险车辆的识别,能够提高识别结果的准确性。本发明采用的技术方案如下。
一方面,本发明提供一种危险车辆识别方法,包括:
获取待识别危险车辆的图像帧;
将获取到的图像帧输入预先训练的危险车辆识别模型;
根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,所述危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;
所述第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
所述第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
所述动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
所述预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
可选的,所述第一特征提取网络的网络深度大于第二特征提取网络的网络深度。
可选的,所述危险车辆识别模型的训练包括:
对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集;
获取对样本图像帧集中图像帧的标注信息;
将所述样本图像帧集和所述标注信息输入学生网络和教师网络进行训练。
可选的,所述对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集,包括:
对应学生网络和教师网络分别进行图像帧采样得到对应的样本图像帧集;
其中,在训练过程中,对应学生网络的图像帧采样间隔等于对应教师网络的图像帧采样间隔;在模型测试时,对应学生网络的图像帧采样间隔大于对应教师网络的图像帧采样间隔。在训练阶段,采样间隔相等并允许重复抽样,可方便学生网络和教师网络的特征匹配。测试阶段设置对应教师网络的图像帧采样间隔大于学生网络,可减少教师网络的图像处理数量,减少繁重的教师网络计算成本。
进一步的,若对应学生网络的图像帧采样间隔不等于对应教师网络的图像帧采样间隔,则采样得到的两个样本图像帧集中存在相同的图像帧。可以方便学生网络与教师网络在后续交叉注意机制分析时进行特征匹配,提升模型数据处理的效率。
可选的,定义第一特征提取网络和第二特征提取网络得到的帧级特征序列分别为 所述第一/第二时间特征融合网络采用自我注意机制对帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征序列
所述动态知识传播网络对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,包括:
将序列分别线性投影为查询向量序列{qi}和键值对{(ki,vi)},其中查询向量qi表示查询目标危险车辆,键值对中ki为查询向量序列的索引,用来计算注意力分布,vi为序列的值,用来基于注意力分布计算聚合后的信息;
生成的交叉参与特征的计算公式为:
其中,N为键的维数,T为N的平方根,为缩放查询向量和键值的点积,注意力权重为由查询和键之间缩放的点积相似性决定,低质量特征被高质量特征的加权和取代。
上述序列特征线性投影可采用平坦路径的线性投影(Linear Projection ofFlattened pathes)方法,具体过程参考现有技术。
可选的,所述通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列,公式为:
为结合特征序列中的元素。
可选的,所述预测网络根据结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息,包括:
根据结合特征计算图像帧中的车辆动作的类预测分数 表示第i帧中车辆动作属于第j个动作类的置信度;
选出置信度最大的k帧图像,其中γ为超参数;
根据所述k帧图像中的车辆动作属于各动作类的置信度计算每一种动作类在k帧图像中的平均置信度
选择最大平均置信度对应的动作类,作为图像中车辆动作的最终分类,根据相应分类的危险性确定待检测图像帧集中车辆动作是否为危险动作,输出相应的分类结果信息。
第二方面,本发明提供一种危险车辆识别装置,包括:
图像采样模块,被配置用于获取待识别危险车辆的图像帧;
动作分类模块,被配置用于将获取到的图像帧输入预先训练的危险车辆识别模型;
识别结果输出模块,被配置用于根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,所述危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;
所述第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
所述第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
所述动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
所述预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
可选的,所述第一特征提取网络的网络深度大于第二特征提取网络的网络深度;
所述对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集为:对应学生网络和教师网络分别进行图像帧采样得到对应的样本图像帧集;
其中,在训练过程中,对应学生网络的图像帧采样间隔等于对应教师网络的图像帧采样间隔;在模型测试时,对应学生网络的图像帧采样间隔大于对应教师网络的图像帧采样间隔。
第三方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如第一方面所述的危险车辆识别方法。
有益效果
本发明基于交叉注意机制动态知识传播技术,构建了基于交叉注意机制的动态知识传播模型框架,设计了一种针对视频图像的危险车辆识别技术,能够对视频图像中车辆动作的危险性进行识别。在动态的学生-教师体系结构中,学生网络是一个简单的轻量级模型,在危险识别任务中,学生网络采用知识蒸馏方法,利用教师网络的深度和时间信息等高层次知识学习,这使得学生和教师模型能够在训练和推理过程中进行交互。可解决了现有动作识别方法中的庞大计算量以及精确度问题。引入的交叉注意机制的动态知识传播,能够使两个网络基于动态切换准则相互训练,可大大提高危险车辆目标检测性能。
附图说明
图1所示为本发明中危险车辆识别模型的一种实施例架构示意图;
图2所示为本发明一种实施例中学生网络和教师网络对图像帧的采样示意图。
具体实施方式
以下结合附图和具体实施例进一步描述。
本发明的技术构思为:在动态知识传播机制的基础上构建动态的学生-教师模型,使学生和教师两个网络基于动态切换准则相互训练,提升实际应用时的检测效率和检测结果可靠性。
实施例1
本实施例介绍一种危险车辆识别方法,包括:
获取待识别危险车辆的图像帧;
将获取到的图像帧输入预先训练的危险车辆识别模型;
根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,参考图1所示,危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;第一特征提取网络和第二特征提取网络即图1中的主干网。
第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,再通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
图1所示的危险车辆识别模型中,第一特征提取网络的网络深度大于第二特征提取网络的网络深度。也即,教师网络ft是一个具有更大深度的模型,而学生网络fs则是一个简单的轻量级模型,在训练过程中,教师和学生网络都在处理同样的任务,学生网络采用知识蒸馏方法,利用教师网络的深度和时间信息等高层次知识学习,这使得学生和教师模型能够在训练和推理过程中进行交互,且两个网络基于动态切换准则相互训练,可提升模型训练的效率和分类准确度,训练完成的模型在实际应用中也相应的具有较高的检测效率和结果可靠性。
本实施例中,危险车辆识别模型的训练包括:
对包含车辆动作的大量交通事故监控视频进行帧采样,得到各样本图像帧集;
获取对样本图像帧集中图像帧的标注信息;
将所述样本图像帧集和所述标注信息输入学生网络和教师网络进行训练。
上述帧采样即,对应学生网络和教师网络分别进行图像帧采样得到对应的样本图像帧集,其中,对应学生网络的图像帧采样间隔rs大于或等于对应教师网络的图像帧采样间隔rt。对应教师网络的图像帧采样间隔大于学生网络,可减少教师网络的图像处理数量,减少繁重的教师网络计算成本。
采样方案参考图2所示,一个视频可以分为T个短片段Vt(t=1,…,T),由于一个剪辑包含视觉上相似的框架,因此我们用一个代表性框架总结每个剪辑。设置ns=T/rs作为学生框架,nt=T/rt为教师框架。在测试阶段,基于不同采样间隔进行学生帧和教师帧的统一采样;此时为了减少繁重的教师网络的计算成本,可设置rt>rs。此外,为了避免对学生和教师进行冗余采样,如果学生帧位于采样的教师框架的同一剪辑中,可跳过采样的学生框架。需要注意的是,在训练阶段,为了利用学生网络和教师网络的匹配特征之间的关系,设置rt等于rs,并允许重复抽样。
经采样,一个视频中抽取得到两个帧子集,一个包含ns帧,另一个包含nt帧。第一个子集由网络fs处理,提取帧级特征序列而第二个则由网络ft处理,获得帧级特征序列
接着,考虑到动作实例是由几帧的时间序列捕获的,因此,为了可以准确的识别视频中目标的动作,需要随着时间的推移对相邻帧进行聚合。本实施例中,对于每个主干网络输出的帧级特征,在时间特征融合网络中,使用自我注意机制进行时间特征融合,得到时间融合特征
在动态知识传播网络中,教师网络中的知识传递给学生。具体方式为,首先,对每帧图像进行分片,通过平坦路径的线性投影(Linear Projection of Flattened pathes)方法,将时间融合特征分别映射得到车辆目标序列-查询向量{qi},序列索引记为{ki},序列的值记为{vi},具体即:学生特征被转换为使用线性层查询类似地,教师特征被线性投影到键和值然后,可计算得到知识传播后的交叉参与特征
其中,N为键的维数,T为N的平方根,为缩放查询向量和键值的点积,注意力权重为由查询和键之间缩放的点积相似性决定,低质量特征被高质量特征的加权和取代。
残差连接具有将学生网络和教师网络的知识相结合的作用,本实施例中通过残差连接将学生的知识与结合公式为:
为结合特征序列中的元素。其第一项仅由学生网络生成,第二项是利用教师的知识动态修改的学生特征。
本实施例中,用于分类的预测网络由一个简单的线性分类器实现,预测网络计算的分数表示第i帧中车辆动作属于第j个动作类的置信度。计算得到每帧中车辆动作属于各动作类的置信度后,从中选出置信度最大的k帧图像,其中γ为超参数;
根据所述k帧图像中的车辆动作属于各动作类的置信度计算每一种动作类在k帧图像中的平均置信度
然后选择最大平均置信度对应的动作类,作为图像中车辆动作的最终分类,根据相应分类的危险性确定待检测图像帧集中车辆动作是否为危险动作,输出相应的分类结果信息,由于各动作类的危险性为初始已知,因此可最终确定图像帧集中的车辆动作是否为危险动作,及相应车辆是否为危险车辆。
在模型训练时,我们通过教师网络进行培训对视频分类损失Lvid进行优化,然后,通过最小化三种损失之和来训练学生网络:视频分类损失Lvid、帧分类损失Lfrm和余弦相似度损失Lcos。形式上,教师和学生的损失函数表示为Lt和Ls
Lt=Lvid
Ls=LvidfrmLfrmcosLcos
其中μfrm和μcos为超参数,控制帧分类的损失和余弦相似度损失。
视频分类损失Lvid惩罚学生网络的预测错误,估计动作类的softmax概率。给定输入视频V和真实值单热点向量y,定义视频分类损失为:
式中,CE为交叉熵损失函数,为从学生(或教师)网络的置信度得分得到的softmax概率。
由于我们处理的是弱监督动作识别,帧级的真实值标签不可用。所以我们使用教师网络的预测作为学生网络帧级预测的伪标签,鼓励学生的预测与老师的预测相似。将帧分类损失Lfrm定义为:
对于第i帧图像,是由学生网络和教师网络分别计算的softmax概率。
在交叉注意中,查询向量和键的值分别来自学生网络和教师网络。因此对于每个视频帧,使师生网络产生相似的特征有利于知识的稳定传播。所以在这种损失下,本实施例最大化了查询和键之间的余弦相似性,余弦相似度损失定义为:
其中qi、ki表示第i帧对应的查询向量和键的值。
本实施例在实现危险车辆检测的平台上进行目标检测训练的步骤如下:
步骤1:对输入图像和检测的危险车辆目标进行初始化,并提取目标子图像块的特征。
如果输入图像为视频中第一帧RGB格式的图像,则默认第一帧图像中已知需要检测的目标位置;
通过给定的图像目标中心点的坐标(t,s)和目标长宽(m,n)并得到的目标区域,提取目标的子图像块;
通过模型,提取目标子图像块的特征。
步骤2:对目标的外观特征和相关滤波器做卷积互相关的计算,完成对危险车辆目标检测。
步骤3:对算法进行K次优化迭代,并通过相应更新公式对标签分配蒸馏模型进行更新。
步骤4:输入下一帧图像,计算并绘制一个新的目标区域根据以上计算结果,得到新的一帧图像的目标中心点的坐标(p,q)以及目标长宽(m,n);在新的一帧图像中用矩形框绘制目标区域。
步骤5:若目标未到最后一帧图像,则返回步骤1进行目标子图像块的提取;若目标已到最后一帧图像,则输出危险车辆检测目标。
实施例2
本实施例介绍一种危险车辆识别装置,包括:
图像采样模块,被配置用于获取待识别危险车辆的图像帧;
动作分类模块,被配置用于将获取到的图像帧输入预先训练的危险车辆识别模型;
识别结果输出模块,被配置用于根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,所述危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;
所述第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
所述第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
所述动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
所述预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
以上各功能模块的具体功能实现参考实施例1方法中的相关内容。特别指出的是,所述第一特征提取网络的网络深度大于第二特征提取网络的网络深度;
所述对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集为:对应学生网络和教师网络分别进行图像帧采样得到对应的样本图像帧集;
其中,在训练过程中,对应学生网络的图像帧采样间隔等于对应教师网络的图像帧采样间隔;在模型测试时,对应学生网络的图像帧采样间隔大于对应教师网络的图像帧采样间隔。
实施例3
本实施例介绍一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如实施例1所述的危险车辆识别方法。
综上实施例,经实验表明,本发明有策略地使用教师模型进行推理对视频识别是有效的,大大提高了危险车辆识别的准确性和鲁棒性。并且复杂程度低,实现简单,具有较快的计算速度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种危险车辆识别方法,其特征是,包括:
获取待识别危险车辆的图像帧;
将获取到的图像帧输入预先训练的危险车辆识别模型;
根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,所述危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;
所述第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
所述第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
所述动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
所述预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
2.根据权利要求1所述的方法,其特征是,所述第一特征提取网络的网络深度大于第二特征提取网络的网络深度。
3.根据权利要求1所述的方法,其特征是,所述危险车辆识别模型的训练包括:
对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集;
获取对样本图像帧集中图像帧的标注信息;
将所述样本图像帧集和所述标注信息输入学生网络和教师网络进行训练。
4.根据权利要求1所述的方法,其特征是,在训练过程中,对应学生网络的图像帧采样间隔等于对应教师网络的图像帧采样间隔;在模型测试时,对应学生网络的图像帧采样间隔大于对应教师网络的图像帧采样间隔。
5.根据权利要求1所述的方法,其特征是,定义第一特征提取网络和第二特征提取网络得到的帧级特征序列分别为)和);所述第一/第二时间特征融合网络采用自我注意机制对帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征序列
所述动态知识传播网络对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,包括:
将序列分别线性投影为查询向量序列和键值对,其中查询向量表示查询目标危险车辆,键值对中为查询向量序列的索引,用来计算注意力分布,为序列的值,用来基于注意力分布计算聚合后的信息;
生成的交叉参与特征的计算公式为:
其中,为键的维数,的平方根,为缩放查询向量和键值的点积,注意力权重为,由查询和键之间缩放的点积相似性决定,低质量特征被高质量特征的加权和取代。
6.根据权利要求5所述的方法,其特征是,所述通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列,公式为:
为结合特征序列中的元素。
7.根据权利要求1所述的方法,其特征是,所述预测网络根据结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息,包括:
根据结合特征计算图像帧中的车辆动作的类预测分数表示第帧中车辆动作属于第个动作类的置信度;
选出置信度最大的k帧图像,其中为超参数;
根据所述k帧图像中的车辆动作属于各动作类的置信度,计算每一种动作类在k帧图像中的平均置信度
选择最大平均置信度对应的动作类,作为图像中车辆动作的最终分类, 根据相应分类的危险性确定待检测图像帧集中车辆动作是否为危险动作,输出相应的分类结果信息。
8.一种危险车辆识别装置,其特征是,包括:
图像采样模块,被配置用于获取待识别危险车辆的图像帧;
动作分类模块,被配置用于将获取到的图像帧输入预先训练的危险车辆识别模型;
识别结果输出模块,被配置用于根据所述危险车辆识别模型的输出确定图像中是否存在做出危险动作的危险车辆,若存在则输出危险车辆信息;
其中,所述危险车辆识别模型包括教师网络和学生网络,教师网络包括第一特征提取网络和第一时间特征融合网络,学生网络包括第二特征提取网络、第二时间特征融合网络、动态知识传播网络和预测网络;
所述第一特征提取网络和第二特征提取网络分别用于对输入的图像帧集进行帧级特征提取,得到帧级特征序列;
所述第一/第二时间特征融合网络用于,采用自我注意机制对第一/第二特征提取网络输出的帧级特征序列进行时间相邻图像特征的融合,得到时间融合特征;
所述动态知识传播网络用于,对第一时间特征融合网络和第二时间特征融合网络得到的时间融合特征,采用交叉注意机制进行特征交叉融合,得到交叉参与特征,通过残差连接将第一时间特征融合网络输出的时间融合特征与所述交叉参与特征相结合,得到结合特征序列;
所述预测网络用于根据所述结合特征序列对图像帧集中车辆动作的危险性进行分类,输出危险车辆信息。
9.根据权利要求8所述的危险车辆识别装置,其特征是,所述第一特征提取网络的网络深度大于第二特征提取网络的网络深度;
所述危险车辆识别模型的训练包括:对包含车辆动作的交通事故监控视频进行帧采样,得到样本图像帧集,其中,对应学生网络和教师网络分别进行图像帧采样得到对应的样本图像帧集;
在训练过程中,对应学生网络的图像帧采样间隔等于对应教师网络的图像帧采样间隔;在模型测试时,对应学生网络的图像帧采样间隔大于对应教师网络的图像帧采样间隔。
10.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-7任一项所述的危险车辆识别方法。
CN202210438864.6A 2022-04-25 2022-04-25 一种基于交叉注意机制动态知识传播的危险车辆识别方法 Active CN114882397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210438864.6A CN114882397B (zh) 2022-04-25 2022-04-25 一种基于交叉注意机制动态知识传播的危险车辆识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210438864.6A CN114882397B (zh) 2022-04-25 2022-04-25 一种基于交叉注意机制动态知识传播的危险车辆识别方法

Publications (2)

Publication Number Publication Date
CN114882397A CN114882397A (zh) 2022-08-09
CN114882397B true CN114882397B (zh) 2024-07-05

Family

ID=82672188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210438864.6A Active CN114882397B (zh) 2022-04-25 2022-04-25 一种基于交叉注意机制动态知识传播的危险车辆识别方法

Country Status (1)

Country Link
CN (1) CN114882397B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117935177B (zh) * 2024-03-25 2024-05-28 东莞市杰瑞智能科技有限公司 基于注意力神经网络的道路车辆危险行为识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200231A (zh) * 2020-09-29 2021-01-08 深圳市信义科技有限公司 一种危险品车辆识别方法、系统、装置及介质
CN113313012A (zh) * 2021-05-26 2021-08-27 北京航空航天大学 一种基于卷积生成对抗网络的危险驾驶行为识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985259B (zh) * 2018-08-03 2022-03-18 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN111767711B (zh) * 2020-09-02 2020-12-08 之江实验室 基于知识蒸馏的预训练语言模型的压缩方法及平台
CN114022697A (zh) * 2021-09-18 2022-02-08 华侨大学 基于多任务学习与知识蒸馏的车辆再辨识方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200231A (zh) * 2020-09-29 2021-01-08 深圳市信义科技有限公司 一种危险品车辆识别方法、系统、装置及介质
CN113313012A (zh) * 2021-05-26 2021-08-27 北京航空航天大学 一种基于卷积生成对抗网络的危险驾驶行为识别方法

Also Published As

Publication number Publication date
CN114882397A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
Lin et al. Bmn: Boundary-matching network for temporal action proposal generation
Shou et al. Online detection of action start in untrimmed, streaming videos
CN113486726A (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
CN110210335B (zh) 一种行人重识别学习模型的训练方法、系统和装置
CN102799900B (zh) 一种基于检测中支持在线聚类学习的对象跟踪方法
CN105654139A (zh) 一种采用时间动态表观模型的实时在线多目标跟踪方法
Kim et al. Few-shot object detection via knowledge transfer
CN110163069A (zh) 用于辅助驾驶的车道线检测方法
Le et al. Toward interactive self-annotation for video object bounding box: Recurrent self-learning and hierarchical annotation based framework
CN114882397B (zh) 一种基于交叉注意机制动态知识传播的危险车辆识别方法
CN115131710A (zh) 基于多尺度特征融合注意力的实时动作检测方法
Zhao et al. Spatial-channel transformer network for trajectory prediction on the traffic scenes
Liu et al. ACDnet: An action detection network for real-time edge computing based on flow-guided feature approximation and memory aggregation
CN115410081A (zh) 一种多尺度聚合的云和云阴影辨识方法、系统、设备及存储介质
Yang et al. BANDT: A border-aware network with deformable transformers for visual tracking
Adhikari et al. Sample selection for efficient image annotation
Zhang et al. A comparative analysis of object detection algorithms in naturalistic driving videos
CN117671450A (zh) 一种基于transformer的属地网络图像内容安全监管的DETR架构方法
Liu et al. Adaptive matching strategy for multi-target multi-camera tracking
Zhang et al. Boosting the speed of real-time multi-object trackers
Patel et al. Detection of traffic sign based on YOLOv8
He et al. ACSL: Adaptive correlation-driven sparsity learning for deep neural network compression
CN113298017A (zh) 一种针对视频行为检测的行为提议生成方法
Fakharurazi et al. Object Detection in Autonomous Vehicles
Hathat et al. SNCF workers detection in the railway environment based on improved YOLO v5

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant