CN117437529A - 基于交叉注意力机制的目标检测模型构建方法及应用 - Google Patents
基于交叉注意力机制的目标检测模型构建方法及应用 Download PDFInfo
- Publication number
- CN117437529A CN117437529A CN202311553378.XA CN202311553378A CN117437529A CN 117437529 A CN117437529 A CN 117437529A CN 202311553378 A CN202311553378 A CN 202311553378A CN 117437529 A CN117437529 A CN 117437529A
- Authority
- CN
- China
- Prior art keywords
- attention
- target detection
- detection model
- features
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 230000007246 mechanism Effects 0.000 title claims abstract description 62
- 238000010276 construction Methods 0.000 title claims description 6
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 239000011229 interlayer Substances 0.000 claims abstract description 16
- 239000010410 layer Substances 0.000 claims description 66
- 239000013598 vector Substances 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 210000003275 diaphysis Anatomy 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 4
- 238000007710 freezing Methods 0.000 claims description 4
- 238000010257 thawing Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000004880 explosion Methods 0.000 abstract description 5
- 230000003935 attention Effects 0.000 description 68
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000010332 selective attention Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
- G06V20/36—Indoor scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种基于交叉注意力机制的目标检测模型构建方法及应用,其中基于交叉注意力机制的目标检测模型构建方法包括:步骤1)构建室内场景目标检测的训练样本数据集;步骤2)在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,并将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,从而搭建出初始目标检测模型;步骤3)使用所述训练样本训练所述初始目标检测模型,最终得到所述目标检测模型。以解决现有技术中的运用注意力机制的深度学习网络,由于多维的数据特征相加或拼接,会增加训练网络负担,导致维度爆炸的问题。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种基于交叉注意力机制的目标检测模型构建方法及应用。
背景技术
在计算机视觉领域中,骨干网络是深度学习模型的核心组件。骨干网络多阶段特征具有不同的层次信息,例如低层次特征包含边缘和纹理信息,高层次特征则包含更抽象的语义信息。该领域中目标检测对上述层次信息的运用更为重要。因此,将这些特征有机地结合起来,考虑不同层次间卷积特征的内在联系,可进一步提高深度学习网络参数训练的收敛速率以及训练后网络的执行效率。现有运用注意力机制的深度学习网络,虽可以加强不同层次对特征的表征能力,提高目标检测的准确性,但多维的数据特征相加或拼接会增加训练网络负担,导致维度爆炸等问题。
发明内容
本申请的目的在于提供一种基于交叉注意力机制的目标检测模型构建方法及应用,用以解决现有技术中的运用注意力机制的深度学习网络,由于多维的数据特征相加或拼接,会增加训练网络负担,导致维度爆炸的问题。
为实现上述目的,本申请实施例提供一种基于交叉注意力机制的目标检测模型构建方法,包括以下步骤:步骤1)构建室内场景目标检测的训练样本数据集;
步骤2)在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,并将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,从而搭建出初始目标检测模型;
步骤3)使用所述训练样本训练所述初始目标检测模型,最终得到所述目标检测模型。
可选地,在所述步骤2)中,所述将每个阶段中最后一个MBConv模块引入注意力机制,包括:
将MBConv模块输入特征与输出特征进行通道注意力操作,然后融合得到CA-MBConv模块输出特征。
可选地,所述将MBConv模块输入特征与输出特征进行通道注意力操作,然后融合得到CA-MBConv模块输出特征,包括:
通过MBConv得到输入特征对应的输出特征,通过可学习参数矩阵将顶层特征和底层特征映射到同一特征空间得到顶层和低层特征的初始通道权重;
对所述初始通道权重进行注意力操作,得到注意力权重矩阵;
通过拆分所述注意力权重矩阵,得到两个增强的通道注意力权重向量,分别使用拆分后得到的两个注意力权重矩阵与对应的底层和顶层特征加权得到两个自适应加权特征;
将两个经过增强调整后的所述自适应加权特征相加,得到CA-MBConv模块输出特征。
可选地,在所述步骤2)中,所述将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,包括:
对于EfficientDet中BiFPN结构的每层输出特征分别进行空间注意力操作和通道注意力操作,然后融合得到最终输出特征。
可选地,所述对于EfficientDet中BiFPN结构的每层输出特征分别进行空间注意力操作和通道注意力操作,然后融合得到最终输出特征,包括:
对于来自EfficientDet中BiFPN结构的不同层的输入特征,通过3×3卷积和反卷积将不同层的输入特征进行统一;
在通道维度上,对统一后的不同层的输入特征进行全局平均池化操作,得到对应的全局向量;
将各层对应的全局向量在空间维度进行拼接,然后在空间维度上分割成向量,利用更新后的向量对统一后的不同层的输入特征进行加权融合,得到第一特征;
在空间维度上,对不同层特征利用1×1卷积操作来将其通道数降成1从而得到不同层的注意力图;
将各层对应的注意力图在通道维度拼接到一起并进行自注意力操作,然后在通道维度上进行分割,利用更新后的注意力图对统一后的不同层的输入特征进行加权融合,得到第二特征;
将所述第一特征和第二特征进行融合,获取包含多层信息的最终输出特征。
可选地,所述步骤3)具体包括:
加载骨干模型预训练权重,对所述初始目标检测模型的分类头与检测头进行训练,冻结骨干模型;
进入解冻训练,在梯度回传时同时更新包含骨干模型、检测头与分类头在内的整个所述初始目标检测模型。
可选地,在所述步骤3)之后,还包括:
使用所述训练样本中的测试图片,输入训练好的所述目标检测模型,得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度。
为实现上述目的,本申请还提供一种基于交叉注意力机制的目标检测方法,包括:
获取室内场景的视频流,输入由权利要求1至7任一项所述的基于交叉注意力机制的目标检测模型构建方法所构建的目标检测模型,得到输出的包括目标锚框与目标分类的所属类别的目标检测结果。
为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
本申请实施例具有如下优点:
本申请实施例提供一种基于交叉注意力机制的目标检测模型构建方法,包括:步骤1)构建室内场景目标检测的训练样本数据集;步骤2)在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,并将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,从而搭建出初始目标检测模型;步骤3)使用所述训练样本训练所述初始目标检测模型,最终得到所述目标检测模型。
通过上述方法,在EfficientDet骨干网络EfficientNet中,通过在每个MBConv模块中加入一个注意力模块,来自适应地调整特征通道的重要性,更好地利用不同通道的信息,提高特征表征能力,进而提高检测精度。此外,通过层间交叉融合机制,可以更好地捕捉BiFPN输出的不同层特征之间的相互关系,从而提高目标检测性能。从而解决了现有技术中的运用注意力机制的深度学习网络,由于多维的数据特征相加或拼接,会增加训练网络负担,导致维度爆炸的问题。
附图说明
为了更清楚地说明本申请的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。
图1为本申请实施例提供的一种基于交叉注意力机制的目标检测模型构建方法的流程图;
图2为本申请实施例提供的一种基于交叉注意力机制的目标检测模型构建方法的块内通道注意力机制的流程示意图;
图3为本申请实施例提供的一种基于交叉注意力机制的目标检测模型构建方法的层间交叉融合模块的流程示意图;
图4为本申请实施例提供的一种基于交叉注意力机制的目标检测方法的流程示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本申请一实施例提供一种基于交叉注意力机制的目标检测模型构建方法,参考图1,图1为本申请的一实施方式中提供的一种基于交叉注意力机制的目标检测模型构建方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
在步骤1)处,构建室内场景目标检测的训练样本数据集。
具体地,首先手工筛选出COCO目标检测数据集中满足背景复杂、目标遮挡与尺度变化大等条件的室内场景图片,然后统计各类物体的样本框数量,只保留样本框数量较多的类别的标注信息,最终构成了共包含7607张图片与25个类别的室内场景目标检测数据集作为训练样本,称为COCO-indoor。
在步骤2)处,在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,并将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,从而搭建出初始目标检测模型。
具体地,以EfficientDet骨干网络EfficientNet为基础搭建初始目标检测模型。
首先在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,从而替换为采用本申请提出的基于块内通道注意力机制的CA-MBConv增强模块。然后在EfficientDet的BiFPN结构后增加本申请提出的层间交叉融合模块进行特征融合。
在一些实施例中,将MBConv模块输入特征与输出特征进行通道注意力操作,然后融合得到CA-MBConv模块输出特征。
所述进行通道注意力操作即引入通道注意力机制,通道注意力机制(ChannelAttention Mechanism)是一种在深度学习模型中用于增强模型对输入数据的特定通道(例如图像的RGB通道)的注意力的一种机制。通过分配不同的权重给不同的通道,通道注意力机制可以实现对输入数据的重要特征的选择性关注。
参考图2,具体包括:
(2-1-1)对于输入特征Xl,通过残差块(MBConv模块)得到其对应的输出特征Fl,通过可学习参数矩阵I将顶层特征Fl和底层特征Xl映射到同一特征空间得到顶层和低层特征的初始通道权重SF,SX:
SF=I⊙Fl
SX=I⊙Xl。
(2-1-2)为了捕获顶层和底层特征之间的相关性,对其初始通道权重进行注意力操作:
A=ReLU(XW1+b1)W2+b2,
该公式为ReLU函数的一个线性公式,X是状态,表示图片样本的输入;W1,b1表示第一层神经网络的参数,W2,b2表示第二层神经网络的参数。
(2-1-3)通过拆分注意力权重矩阵A得到两个增强的通道注意力权重向量AX∈R(C ×1×1)和AF∈R(C×1×1),分别使用这两个注意力权重矩阵与对应的底层和顶层特征加权得到新的自适应加权特征RX∈R(C×H×W)和RF∈R(C×H×W):
RX=AX×Xl
RF=AF×Fl。
(2-1-4)把两个经过增强调整后的特征RX和RF相加,得到块内通道注意力机制的最终输出O:
通过上述方法,在EfficientDet的骨干网络中,将每个阶段中最后一个MBConv模块替换为本实施例提出的CA-MBConv模块。该CA-MBConv模块是一种基于块内通道注意力机制的增强模块,可以提高残差块内特征的融合效果,增强特征的表征能力。CA-MBConv模块通过在每个MBConv模块中加入一个注意力模块,来自适应地调整特征通道的重要性,更好地利用不同通道的信息,提高特征表征能力,进而提高检测精度。
注意力机制是一种插入到卷积神经网络内部的算法,其本质就是帮助卷积神经网络赋予任务感兴趣的信息或特征更大的权重,而赋予对任务无用的信息或特征更小的权重,通过权重矩阵控制不同特征在卷积神经网络中的重要程度。利用注意力机制来改进骨干卷积神经网络可以在不明显增加模型参数的情况下提高模型性能。
上述实施例提出的块内通道注意力机制,实现了在残差块顶层和低层之间传递注意力信息,同时融合来自这两层的特征,从而提高网络的特征表示能力。该方法的核心思想是通过跨层级的注意力机制,使得高层次特征中的重要通道信息传递到低层次特征中,同时将低层次特征中的互补通道信息传递到高层次特征中,以帮助网络更好地利用不同层次的特征信息,提高对于不同物体的识别和定位能力。
在一些实施例中,所述将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,包括:
对于EfficientDet中BiFPN结构的每层输出特征分别进行空间注意力操作和通道注意力操作,然后融合得到最终输出特征。
所述进行空间注意力操作即引入空间注意力机制,空间注意力机制(SpatialAttention Mechanism)是一种深度学习模型中用于增强模型对输入数据的空间位置的注意力的一种机制。通过分配不同的权重给输入数据的不同位置,空间注意力机制可以实现对输入数据的重要区域的选择性关注。
参考图3,具体包括:
(2-2-1)对于来自不同层的输入特征Fx-1,Fx,Fx+1,先通过3×3卷积和反卷积将不同层的特征统一到Fx的特征维度,Fx∈R(C×H×W):
F′x-1=Convx-1(Fx-1)
F′x=Convx(Fx)
F′x+1=Deconvx+1(Fx+1)。
(2-2-2)在通道维度上,对不同层特征采取全局平均池化操作来获取他们对应的全局语义信息Vx-1’,Vx’Vx+1’:
V′x-1=GAP(F′x-1)
V′x=GAP(F′x)
V′x+1=GAP(F′x+1)。
(2-2-3)将各层对应的全局向量在空间维度拼接到一起实现自注意力交互来增强彼此一致的信息,削弱互不相干的信息,得到Vc:
Vc=SA(Cats(V′x-1,V′x,V′x+1))。
(2-2-4)将Vc在空间维度上分割成向量V″x-1,V″x,V″x+1,利用这些更新后的向量对不同层特征进行加权融合,得到第一特征Fc:
(2-2-5)在空间维度上,对不同层特征利用1×1卷积操作来将其通道数降成1从而得到不同层的注意力图Mx-1’,Mx’Mx+1’:
M′x-1=Conv′x-1(F′x-1)
M′x=Conv′x(F′x)
M′x+1=Conv′x+1(F′x+1)。
(2-2-6)将各层对应的注意力图在通道维度拼接到一起并通过自注意力操作来增强彼此一致的信息,削弱互不相干的信息:
Mc=R′(SA(R(Catc(M′x-1,M′x,M′x+1))))。
(2-2-7)将Mc在通道维度上分割成注意力图M″x-1,M″x,M″x+1,利用这些更新后的注意力图对不同层的特征进行加权融合得到第二特征Fs:
(2-2-8)将Fc和Fs进行融合以获取包含多层信息的更具表征性的目标特征表示,即最终输出特征P:
P=Conv′(Catc(Fc,Fs))。
在EfficientDet中,加权双向特征金字塔网络BiFPN通过添加双向连接,让不同层次之间的信息可以互相传递,从而使得每个层次的特征都包含了互补的信息,有效提高了目标检测性能。但是针对BiFPN输出特征的现有的合并方法通常采用简单的拼接或加法等技术,不能充分捕捉不同层次之间的复杂关系。而上述实施例提出的层间交叉融合机制,不同于块内通道注意力机制是用于处理残差模块内不同层的特征之间的关系,层间交叉融合机制是用于处理卷积神经网络不同阶段输出的特征,其输入是不同分辨率的多层金字塔卷积特征,输出是融合多阶段特征信息的增强特征,可以更好地捕捉BiFPN输出的不同层特征之间的相互关系,从而提高目标检测性能。
在步骤3)处,使用所述训练样本训练所述初始目标检测模型,最终得到所述目标检测模型。
在一些实施例中,具体包括:使用在大规模图像分类数据集ImageNet上预训练的骨干模型权重,模型训练过程分为冻结训练与解冻训练两个部分,即在加载骨干网络预训练权重后,首先只对初始目标检测模型的分类头与检测头进行训练,冻结骨干网络;在进入解冻训练后,在梯度回传时同时更新包含骨干网络、检测头与分类头在内的整个模型。
在一些实施例中,冻结训练Epoch设置为100,解冻训练Epoch设置为200。冻结训练时batch size设置为128,解冻训练时batch size设置64,使用的优化器为Adam,初始学习率设置为0.01,采用余弦学习率衰减的策略。针对不同输入图像的大小,统一将图像切割为512x512的大小用于模型训练。
在一些实施例中,使用的训练样本是前述实施例中所提手工筛选出的COCO目标检测数据集,且训练所用数据为该数据集的前80%。
在一些实施例中,在所述步骤3)之后,还包括:使用测试图片进行推理测试,得到目标检测结果:使用测试图片,基于训练好的检测模型得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度,得到最终目标检测结果,具体为目标锚框与目标分类的所属类别。
在一些实施例中,推理测试所用数据为筛选出COCO目标检测数据集(即训练样本)的后20%。
本申请为验证所提出模块的高效性,在COCO-indoor数据集上以目标检测任务中的关键指标mAP作为比较指标,对比了5个先进目标检测模型在室内场景目标检测任务下的性能表现,实验结果如表1所示。本申请提出的方法取得了最优的检测性能,为EfficientDet的mAP指标带来了1.64%的性能提升。主要原因是交叉注意力可以充分挖掘有效特征,抑制无关特征对检测的影响。具体来说,块内通道注意力机制能够提高每个块内特征通道之间的交互,层间交叉融合模块则能够促进跨层特征的融合,更好地利用输入数据中的信息,提高模型的预测精度。
表1:对比实验结果
方法 | mAP |
EfficientDet | 48.57% |
NanoDet-m | 49.72% |
YoloV3-Tiny | 48.25% |
YoloV4-Tiny | 49.04% |
MobileDets | 50.06% |
本申请方法 | 50.21% |
本申请的目标检测模型可以应用在室内安全监控中,旨在检测和警报任何可疑或危险的活动,以维护建筑物、企业或个人的安全,实现无人值守,警报记录。目标检测在室内安全监控中的作用包括:
1、入侵检测:检测和警报未经授权的人员或物体进入受保护区域。
2、盗窃检测:检测盗贼或可疑行为,以防止财产被盗。
3、火警检测:检测火源或烟雾,以及检测火警逃生情况。
4、摄像头遮挡检测:检测是否有人试图遮挡监控摄像头,以防止监控被禁止。
参考图4,本申请实施例还提供一种基于交叉注意力机制的目标检测方法,包括:获取室内场景的视频流,输入由前述实施例中的基于交叉注意力机制的目标检测模型构建方法所构建的目标检测模型,得到输出的包括目标锚框与目标分类的所属类别的目标检测结果。
以下以具体应用场景中的实施为例,详细解释如何应用前述实施例中的目标检测模型:
1、制作应用场景的对应数据集。即设置监控摄像头以覆盖所需区域,并收集大量室内视频数据,挑选出视频数据中含入侵行为、盗窃行为、摄像头遮挡行为以及出现火源或烟雾场景所对应的视频帧图像序列,并对上述图像序列中的对应行为人或物进行位置框及其类别的标注;标注后,随机打乱图像序列,其中80%的数据用作训练集,20%的数据用作测试集。
2、训练:对训练集进行模型训练。将数据集带入含有预训练权重(该权重为上述流程训练权重结果)的网络(本发明重点,①融合通道与空间的注意力机制,将该机制CA-MBConv嵌入efficientnet这个网络中,替代原有的MBConv。②在EfficientDet的BiFPN结构后增加本申请提出的层间交叉融合模块进行特征融合)
3、测试:进行回归测试。即使用标记后的测试数据集对选择的目标检测模型进行训练和推理测试,训练过程将使模型了解不同目标类别和其位置,以验证识别的准确率。
4、部署:部署经过训练的目标检测模型到室内监控系统中,摄像头将实时捕获视频流,模型将在视频帧中检测目标。
5、事件触发和警报:当模型检测到入侵事件时,它将触发警报,如声音警报、短信通知或电子邮件通知,以通知安全人员或建筑管理员。
通过上述方法,在EfficientDet骨干网络EfficientNet中,通过在每个MBConv模块中加入一个注意力模块,来自适应地调整特征通道的重要性,更好地利用不同通道的信息,提高特征表征能力,进而提高检测精度。此外,通过层间交叉融合机制,可以更好地捕捉BiFPN输出的不同层特征之间的相互关系,从而提高目标检测性能。从而解决了现有技术中的运用注意力机制的深度学习网络,由于多维的数据特征相加或拼接,会增加训练网络负担,导致维度爆炸的问题。
本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
Claims (9)
1.一种基于交叉注意力机制的目标检测模型构建方法,其特征在于,包括以下步骤:
步骤1)构建室内场景目标检测的训练样本数据集;
步骤2)在EfficientDet骨干网络EfficientNet中,将每个阶段中最后一个MBConv模块引入注意力机制,并将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,从而搭建出初始目标检测模型;
步骤3)使用所述训练样本训练所述初始目标检测模型,最终得到所述目标检测模型。
2.根据权利要求1所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,在所述步骤2)中,所述将每个阶段中最后一个MBConv模块引入注意力机制,包括:
将MBConv模块输入特征与输出特征进行通道注意力操作,然后融合得到CA-MBConv模块输出特征。
3.根据权利要求2所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,所述将MBConv模块输入特征与输出特征进行通道注意力操作,然后融合得到CA-MBConv模块输出特征,包括:
通过MBConv得到输入特征对应的输出特征,通过可学习参数矩阵将顶层特征和底层特征映射到同一特征空间得到顶层和低层特征的初始通道权重;
对所述初始通道权重进行注意力操作,得到注意力权重矩阵;
通过拆分所述注意力权重矩阵,得到两个增强的通道注意力权重向量,分别使用拆分后得到的两个注意力权重矩阵与对应的底层和顶层特征加权得到两个自适应加权特征;
将两个经过增强调整后的所述自适应加权特征相加,得到CA-MBConv模块输出特征。
4.根据权利要求1所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,在所述步骤2)中,所述将EfficientDet中BiFPN结构的输出特征进行层间交叉融合,包括:
对于EfficientDet中BiFPN结构的每层输出特征分别进行空间注意力操作和通道注意力操作,然后融合得到最终输出特征。
5.根据权利要求4所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,所述对于EfficientDet中BiFPN结构的每层输出特征分别进行空间注意力操作和通道注意力操作,然后融合得到最终输出特征,包括:
对于来自EfficientDet中BiFPN结构的不同层的输入特征,通过3×3卷积和反卷积将不同层的输入特征进行统一;
在通道维度上,对统一后的不同层的输入特征进行全局平均池化操作,得到对应的全局向量;
将各层对应的全局向量在空间维度进行拼接,然后在空间维度上分割成向量,利用更新后的向量对统一后的不同层的输入特征进行加权融合,得到第一特征;
在空间维度上,对不同层特征利用1×1卷积操作来将其通道数降成1从而得到不同层的注意力图;
将各层对应的注意力图在通道维度拼接到一起并进行自注意力操作,然后在通道维度上进行分割,利用更新后的注意力图对统一后的不同层的输入特征进行加权融合,得到第二特征;
将所述第一特征和第二特征进行融合,获取包含多层信息的最终输出特征。
6.根据权利要求1所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,所述步骤3)具体包括:
加载骨干模型预训练权重,对所述初始目标检测模型的分类头与检测头进行训练,冻结骨干模型;
进入解冻训练,在梯度回传时同时更新包含骨干模型、检测头与分类头在内的整个所述初始目标检测模型。
7.根据权利要求1所述的基于交叉注意力机制的目标检测模型构建方法,其特征在于,在所述步骤3)之后,还包括:
使用所述训练样本中的测试图片,输入训练好的所述目标检测模型,得到检测框,再根据非极大值抑制算法滤除掉重叠的检测框,提升检测精度。
8.一种基于交叉注意力机制的目标检测方法,其特征在于,
获取室内场景的视频流,输入由权利要求1至7任一项所述的基于交叉注意力机制的目标检测模型构建方法所构建的目标检测模型,得到输出的包括目标锚框与目标分类的所属类别的目标检测结果。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553378.XA CN117437529A (zh) | 2023-11-20 | 2023-11-20 | 基于交叉注意力机制的目标检测模型构建方法及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553378.XA CN117437529A (zh) | 2023-11-20 | 2023-11-20 | 基于交叉注意力机制的目标检测模型构建方法及应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437529A true CN117437529A (zh) | 2024-01-23 |
Family
ID=89556627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311553378.XA Pending CN117437529A (zh) | 2023-11-20 | 2023-11-20 | 基于交叉注意力机制的目标检测模型构建方法及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437529A (zh) |
-
2023
- 2023-11-20 CN CN202311553378.XA patent/CN117437529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Masurekar et al. | Real time object detection using YOLOv3 | |
Chang | Neural reversible steganography with long short-term memory | |
Nandhini et al. | An Improved Crime Scene Detection System Based on Convolutional Neural Networks and Video Surveillance | |
Utebayeva et al. | Multi-label UAV sound classification using Stacked Bidirectional LSTM | |
Suratkar et al. | Employing transfer-learning based CNN architectures to enhance the generalizability of deepfake detection | |
CN116052082A (zh) | 一种基于深度学习算法的配电站房异常检测方法及装置 | |
Mathur et al. | Identification of Illicit Activities & Scream Detection using Computer Vision & Deep Learning | |
CN112733733A (zh) | 伪造视频检测方法、电子设备及存储介质 | |
WO2023185074A1 (zh) | 一种基于互补时空信息建模的群体行为识别方法 | |
CN115758337A (zh) | 基于时序图卷积网络的后门实时监测方法、电子设备、介质 | |
Aqeel et al. | Detection of anomaly in videos using convolutional autoencoder and generative adversarial network model | |
CN117437529A (zh) | 基于交叉注意力机制的目标检测模型构建方法及应用 | |
Suba et al. | Violence detection for surveillance systems using lightweight CNN models | |
Chang et al. | Deep learning for predictive analytics in reversible steganography | |
Arshad et al. | Anomalous Situations Recognition in Surveillance Images Using Deep Learning | |
Choi et al. | GAN based Deep Learning Model for Detecting Damage and Displacement of Cultural Asset | |
Kukad et al. | Autonomous anomaly detection system for crime monitoring and alert generation | |
Marwaha et al. | Effective Surveillance using Computer Vision | |
Mahavishnu et al. | Pattern Recognition Algorithm to Detect Suspicious Activities | |
Jaleel et al. | Towards Proactive Surveillance through CCTV Cameras under Edge‐Computing and Deep Learning | |
Khan et al. | VD-Net: An Edge Vision-Based Surveillance System for Violence Detection | |
CN117390685B (zh) | 一种基于遗忘学习的行人重识别数据隐私保护方法和系统 | |
CN114841312B (zh) | 一种基于自适应图卷积网络的弱监督视频异常检测方法 | |
CN115278221B (zh) | 一种视频质量评估方法、装置、设备及介质 | |
Singla et al. | Detecting Criminal Activities From CCTV by using Object Detection and machine Learning Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |