CN115359372A - 一种基于光流网络的无人机视频运动目标检测方法 - Google Patents

一种基于光流网络的无人机视频运动目标检测方法 Download PDF

Info

Publication number
CN115359372A
CN115359372A CN202210878119.3A CN202210878119A CN115359372A CN 115359372 A CN115359372 A CN 115359372A CN 202210878119 A CN202210878119 A CN 202210878119A CN 115359372 A CN115359372 A CN 115359372A
Authority
CN
China
Prior art keywords
optical flow
feature
module
network
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210878119.3A
Other languages
English (en)
Inventor
符颖
李卓遥
吴锡
胡金蓉
周激流
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210878119.3A priority Critical patent/CN115359372A/zh
Publication of CN115359372A publication Critical patent/CN115359372A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/17Terrestrial scenes taken from planes or by drones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于光流网络的无人机视频运动目标检测方法,所述光流网络包括特征语义提取网络、上下文提取网络、视觉相似度计算模块、MobileViT‑CBAM模块和GRU迭代更新模块,特征语义提取网络和上下文提取网络的RepVGG特征提取模块,即保留了多分支结构的性能优势,进一步融合了细节信息和语义信息,使提取的特征表达能力更强,提高了检测精度。同时利用机构重参数化思想变为单路结构,又进一步提高了推理速度,减少显存占用。针对CNN缺乏全局信息的提取能力,采用MobileViT‑CBAM模块作为单独的附加模块,使用CNN和Transformer结合的方式,以获得更多的特征信息和细节信息,达到更精确的光流估计,得到更精确的目标分割结果。

Description

一种基于光流网络的无人机视频运动目标检测方法
技术领域
本发明涉及无人机技术领域,尤其涉及一种基于光流网络的无人机视频运动目标检测方法。
背景技术
随着无人机技术不断发展成熟,针对无人机视频图像的处理也变得愈加重要,其中运动目标检测就是重要研究方向之一,它在空间遥感、军事勘察、智慧城市建设、自然灾害检测等方面都发挥着重要作用。运动目标检测也是实现目标跟踪、道路监控、行为分析等任务的前提,是计算机视觉领域的重要组成部分,被广泛应用于军事以及民用领域,其中主要包括:武器装备,安防,交通管制,图像压缩,三维重构等。由于无人机数据的获取不受时间和地域的限制,在获得大范围、多角度、高分辨率数据等方面具有一定的优势。因此,国内外学者开始利用无人机视频图像进行运动目标检测相关的研究,常见的无人机视频运动目标检测方法主要包括帧差法、光流法和深度学习法等。传统方法虽然在运动目标检测领域取得了一定的成果,但取得的效果局限于一些特定的场景。深度学习已被证明是传统方法的有效替代品,深度学习可以回避制定优化问题并训练网络直接预测流量。当前的深度学习方法已经实现了与最佳传统方法相当的性能,同时在推理时明显更快。
光流估计领域先后有几种主流网络。一开始是FlowNet以及FlowNet2,后来被PWCNet所替代,后来又有了IRR这样的迭代式网络,再到2020年提出了RAFT。其实光流估计方法的发展过程就是从UNet的结构逐渐跳出的过程。而且,由于光流所描述的是两帧图像间的关系,通过已估计出的光流可以把后一帧向前一帧映射,映射之后的两帧可以继续估计光流的残差,如此循环,可以将残差不断叠加,所以,加入迭代优化的结构是很好的思路。PWCNet试图加入迭代优化,但由于其思路仍然被UNet限制,没能走出上下采样的结构,从而限制了迭代的次数,即迭代上采样的层数的设计必须和下采样的层数保持一致。后来,IRR网络进一步推动迭代优化的过程,将整个PWCNet网络迭代很多次,不断地计算光流的残差,再求和,从而达到了更好的效果。而RAFT巧妙地将下采样与迭代优化结合,完美地跳出Unet相关思想的限制。这也成为接下来一段时间光流估计方法的主要思想,即同时考虑到局部和全局信息,输入到循环网络里将光流的估计值进行迭代优化。RAFT架构是由传统的基于优化的方法推动的。特征编码器提取每个像素的特征。相关层计算像素之间的视觉相似度。更新运算符模仿迭代优化算法的步骤。但与传统方法不同,特征和运动先验不是手工制作的,而是学习的,分别由特征编码器和更新算子学习。这种特征匹配与迭代的方式,也将成为今后光流网络研究的热点方向。
现有技术方案存在的不足:
1、运动目标检测中由于遮挡和运动会导致光流估计结果存在很大的模糊性,而这些模糊无法通过局部方法解决,导致最终检测精度较低。
CNN不适合做全局运动估计,CNN网络在空间上是局部的,标准的卷积可以看成三步:1)unfolding 2)matrix multiplication 3)folding。其中第二步矩阵乘法只能学习到局部表征。所以如何结合CNN的轻量和学习到全局特征是当前的重要任务。
2、针对不同场景的检测精度较差
无人机运动过程中不可避免的会因为自身运动、光照变化,风力干扰等因素容易运动目标检测中存在一些挑战,比如进行多目标检测、遮挡目标检测任务等。
3、缺乏大量带有真实标签的光流数据
光流网络模型训练需要大量带真实标签的光流数据,而带光流标签的真实无人机视频数据很少,现有的方法使用的都是合成的、非真实的数据集。
发明内容
针对现有技术之不足,一种基于光流网络的无人机视频运动目标检测方法,所述方法通过构建的光流网络来进行运动目标的检测,所述光流网络包括特征语义提取网络、上下文提取网络、视觉相似度计算模块、MobileViT-CBAM模块和GRU迭代更新模块,所述方法具体包括:
步骤1:将无人机获取的视频处理得到的目标图像作为训练集;
步骤2:将训练集中相邻的两个目标图像通过两个权值共享的特征语义提取网络分别提取第K帧和第K+1帧的特征语义信息,所述特征语义提取网络整体下采样率8倍;
步骤3:将第K帧目标图像输入与特征语义提取网络结构完全相同的RepVGG模块的上下文提取网络,用于提取所述目标图像的上下文特征;
步骤4:将所述特征语义信息输出至视觉相似度计算模块,计算所提取特征对的内积,得到一个4D的代价空间,然后将所述代价空间的最后两个维用大小为1、2、4、8的核进行池化,构建4层相关金字塔,利用相关金字塔建立多尺度图像相似度特征,使突变运动更明显,所述特征对为第K帧和第K+1帧的语义信息特征;
步骤5:将所述上下文特征输出至所述MobileViT-CBAM模块,MobileViT-CBAM模块使用CNN和Transformer结合的方式,使用CNN提取局部特征,使用Transformer提取全局特征,输出聚合的全局特征,所述全局特征在整个图像中共享信息,将这些聚合的全局特征与局部特征和视觉上下文特征连接起来,具体为:
步骤51:将输入的上下文特征X[H,W,C]使用一个n×n卷积和PWConv卷积,放缩通道数为b,得到第一特征X′[H,W,b],将第一特征X′展开为第二特征X″[P,N,d],然后输入Transformer网络提取全局空间信息,输出第三特征Y″[P,N,d],将所述第三特征通过与前面展开方式相反的操作再折叠复原得到第四特征Y′[H,W,b],将第四特征Y′使用PWConv卷积复原回与所述上下文特征一样尺寸大小的第五特征;
步骤52:所述MobileViT-CBAM模块还包括跳跃连接模块,即在MobileViT模块的跳跃连接部分直接引入了CBAM模块,所述CBAM模块包括通道注意力模块和空间注意力模块,将所述上下文特征输入所述通道注意力模块获得通道注意力特征,将所述通道注意力特征输入所述空间注意力模块得到空间注意力特征,即最终的通道空间注意力特征,所述空间通道注意力特征与所述第五特征进行融合得到最终的第六特征Y[H,W,C];
步骤6:将所述第六特征与所述多尺度图像相似度特征进行融合后输入GRU迭代更新模块,由GRU迭代更新模块解码为剩余光流,得到高分辨率光流场,具体的:
GRU迭代更新模块输出的光流分辨率为初始图像的1/8,采用光流的双线性插值和凸上采样来匹配真值分辨率,通过将全分辨率上的每一个像素都看作是其在1/8分辨率上的邻域像素们的某种凸组合(convex combination),进而可以通过对1/8分辨率上的邻域像素们进行上采样,得到全分辨率上的结果,即最终的目标图像高分辨率光流场;
步骤7:将高分辨率光流场处理得到最终光流可视化结果,具体将光流的方向用颜色标识,不同的颜色表示不同的运动方向,光流的大小用颜色强度表示,光流值越大,颜色越深;
步骤8:光流阈值分割提取运动目标,在进行步骤7的光流计算后,得到视频序列图像的光流场,然后通过最大类间方差来对光流场进行阈值分割,按图像的灰度特性,区分出前景与背景,得到最终的运动目标检测图像。
本发明的有益效果在于:
1、本发明所提出的基于光流网路的无人机视频运动目标检测方法能有效解决目前方法存在的精度较差问题,以及由于无人机视频数据特征复杂多样导致复杂场景下目标检测性能受到限制等问题。无论是在单目标、多目标和遮挡目标场景均能实现更好的运动目标检测效果。总体上提升了深度光流网络进行无人机视频运动目标检测的性能。
2、本发明所提出的RepVGG特征提取模块,即保留了多分支结构的性能优势,进一步融合了细节信息和语义信息,使提取的特征表达能力更强,提高了检测精度。同时利用机构重参数化思想变为单路结构,又进一步提高了推理速度,减少显存占用。
3、考虑了CNN缺乏全局信息的提取能力,采用MobileViT-CBAM作为单独的附加模块,使用CNN和Transformer结合的方式,以获得更多的特征信息和细节信息,达到更精确的光流估计。
附图说明
图1是本发明无人机运动目标检测方法的流程图;
图2是本发明光流网络的结构示意图;
图3是RepVGG模块结构示意图;
图4是MobileViT-CBAM模块结构示意图;
图5是CBAM模块结构示意图;
图6是光流可视化示意图;
图7是Flying Chairs测试集上的光流预测结果对比图;
图8是单运动的目标检测结果;
图9是多运动的目标检测结果;和
图10是遮挡运动目标的检测结果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
下面结合附图进行详细说明。
针对现有技术存在的不足,本发明提出一种基于光流网络的无人机视频运动目标检测方法,方法通过构建的光流网络来进行运动目标的检测,光流网络包括特征语义提取网络、上下文提取网络、视觉相似度计算模块、MobileViT-CBAM模块和GRU迭代更新模块。图1是本发明无人机运动目标检测方法的流程图,图2是本发明光流网络的结构示意图;现结合图1和图2进行具体阐述。
步骤1:将无人机获取的视频进行处理,得到的目标图像作为训练集;尤其采用Flying Chairs模拟数据集作为训练集。
步骤2:将训练集中相邻的目标图像通过两个权值共享的特征语义提取网络分别提取第K帧和第K+1帧的特征语义信息,特征语义提取网络整体下采样率8倍,第1个,第4个,第8个RepVGG模块进行步长为2的下采样,尺寸缩小一半,所示特征语义提取网络总共包含15个RepVGG模块,同时引入残差分支和卷积分支。
步骤3:将第K帧目标图像输入与特征语义提取网络结构完全相同的RepVGG模块的上下文提取网络,用于提取目标图像的上下文特征。
基于ResNet的设计思想,应用结构重参数化的思想,提出了RepVGG模块,RepVGG主体只有一种算子:conv3×3+ReLU。所以可以通过集成一定数量的3×3卷积和ReLU的计算单元,利用3×3卷积的低层优势来达到很高的计算效率。RepVGG模块结构如图3所示。RepVGG模块在原始VGG结构中,同时引入了残差分支和1×1卷积分支,仅在单模块上进行连接。相关实验也证明了残差分支和1×1卷积分支均能增加网络性能。网络训练完毕后,不仅整合各个分支结构,同时整合一条分支结构中的卷积层和批归一化层,将这两者合并起来能有效提高推理速度。
公式(1)(2)分别为卷积层和批归一化层,公式(3)为卷积层和批归一化结合后的结果,因为在训练时卷积层没有使用偏置项参数,训练阶段训练的参数为W(x)、λ和β,最终融合结果为公式(4)。
Conv(x)=W(x)+b (1)
Figure BDA0003763304220000061
Figure BDA0003763304220000062
BN(Conv(x))=Wfused(x)+Bfused (4)
同样的RepVGG架构也用于上下文提取网络,它只从一张图像生成特征。在归一化方法上只有一个区别,特征提取器使用实例归一化,而上下文网络使用批处理归一化。
步骤4:将特征语义信息输出至视觉相似度计算模块,计算所提取特征对的内积,得到一个4D的代价空间(correlation volume),然后将代价空间的最后两个维用大小为1、2、4、8的核进行池化,构建4层相关金字塔,利用相关金字塔建立多尺度图像相似度特征,使突变运动更明显,特征对为第K帧和第K+1帧的语义信息特征。
给定一个查表操作符Lc,能够通过代价空间的序标生成特征图。给定当前光流状态记为(f1,f2),将第k帧每个像素X=(u,v)映射到第k+1帧图上的对应点为X′=(u+f1(u),v+f2(v)),在X′的定义领域格网内,可以对应的找到其在代价空间中的位置,所有层级上的金字塔都通过N(X′/2k)执行级别k处的查找。此方法将用于后面进行光流的迭代更新时检索当前光流fk对应在相关空间中的特征。
步骤5:将上下文特征输出至MobileViT-CBAM模块,输出聚合的全局特征,全局特征在整个图像中共享信息,将这些聚合的全局特征与局部特征和视觉上下文特征连接起来,由GRU迭代更新模块解码为剩余光流,步骤5的作用是针对由遮挡引起的局部图象特征不明显的位置,MobileViT-CBAM能获得更多的全局运动特征,为后续提供更精确的光流计算,MobileViT-CBAM是一个独立附加模块。
MobileViT-CBAM的结构示意图如图4所示,使用CNN和transformer结合的方式,使用CNN提取局部特征,使用Transformer提取全局特征。理论上网络的感受野为H×W,即全感受野。并且对transformer的输入保留了维度patch,每个patch包含所有像素的位置顺序。这使得encoder的输入包含了每个patch的顺序以及每个patch中所有像素的顺序,最终和上下文特征连接成残差流,以获得更多的特征信息和细节信息,达到更精确的光流估计。
步骤51:将输入的上下文特征X[H,W,C]使用一个n×n卷积和PWConv(1*1卷积)卷积,放缩通道数为b,得到第一特征X′[H,W,b],将第一特征X′展开为第二特征X″[P,N,d],然后输入Transformer网络提取全局空间信息,输出第三特征Y″[P,N,d],将所述第三特征通过与前面展开方式相反的操作再折叠复原得到第四特征Y′[H,W,b],将第四特征Y′使用PWConv卷积复原回与所述上下文特征一样尺寸大小的第五特征。
步骤52:MobileViT-CBAM模块还包括跳跃连接模块,即在MobileViT模块的跳跃连接部分直接引入了CBAM模块,CBAM包括通道注意力模块和空间注意力模块,将上下文特征输入通道注意力模块获得通道注意力特征,将通道注意力特征输入空间注意力模块得到空间注意力特征,即最终的通道空间注意力特征,空间通道注意力特征与第五特征进行融合得到最终的第六特征Y[H,W,C]。
传统Transformer完全基于自注意力,对于词语位置之间的信息有一定的丢失,虽然尝试加入位置编码来解决这个问题,但也还存在着可以优化的地方。如图5所示,CBAM是一种基于通道和空间的注意力模块,由于其良好的通用性,被广泛集成于卷积神经网络中。CBAM依靠通道和空间两个维度进行建模,生成注意力权重信息,帮助网络更好的学习到有用特征,抑制无效特征。
首先对输入的H×W×C的特征图进行全局信息建模,即分别进行全局最大池化和全局平均池化的操作,将池化后得到的两个1×1×C的的特征向量送入类似于SE通道注意力机制的共享全连接层,目的是建立通道之间的权重相关性,将经过全连接层得到的通道注意力信息通过Sigmoid函数压缩成0~1之间的通道注意力权重,生成的权重信息最后与H×W×C大小的原始特征图进行点乘操作,获得最终的通道注意力特征。
数学表达式如公式(5)所示。公式中F表示H×W×C特征图,
Figure BDA0003763304220000081
表示全局平均池化,
Figure BDA0003763304220000082
表示全局最大池化,W0和W1表示全连接层,δ表示Sigmoid函数。
Figure BDA0003763304220000083
空间注意力模块以通道注意力特征为输入,与通道注意力模块不同的是,首先分别进行基于通道维度的最大池化和平均池化操作,生成两个H×W×1的特征向量,将两个生成的特征向量在通道的维度上进行拼接操作,送入一个7×7卷积和ReLU函数进行降维处理,得到H×W×1特征图,最后同样经过Sigmoid函数压缩为0~1的空间注意力权重,与通道注意力模块生成的通道注意力特征进行点乘操作,得到空间注意力特征,也为最终的通道空间注意力特征,即从通道和空间两个维度完成对特征图的重标定。
数学表达式如(6)所示。式中
Figure BDA0003763304220000084
表示基于通道的平局池化,
Figure BDA0003763304220000085
表示基于通道的最大池化,f7×7表示7×7卷积,δ表示Sigmoid函数。
Figure BDA0003763304220000086
引入CBAM模块后,特征覆盖到了待识别物体的更多部位,而且最终判别物体的几率也更高,这代表CBAM模块让光流网络进一步关注到了重点信息,进一步提高了光流估计的准确性。本发明直接在MobileViT跳跃连接部分加入CBAM,称为MobileViT-CBAM模块并将该模块作为GRU循环迭代的输入。
步骤6:将第六特征与多尺度图像相似度特征进行融合后输入GRU迭代更新模块,得到高分辨率光流场。GRU输出进行上采样之后得到的才是高分辨率光流场。GRU迭代更新模块是一个门控循环单元序列,用于融合之前计算的所有数据,从初始的光流状态f0开始,更新操作符输出了N次光流的结果{f1,…,fN},每一次迭代,更新操作符都输出一个优化的光流Δf,并将其与当前光流状态进行叠加,得到更新后的光流状态:fk+1=Δf+fk+1。更新操作符将光流状态、代价空间、以及潜在的隐藏状态(初始的隐藏状态由语义提取器提供)作为输入,进而输出两个量,一个是用于更新的Δf,另一个则是更新后的隐藏状态(hiddenstate)。这样的一个方法主要是模拟传统算法中的优化过程。
具体在应用到视频的光流估计的时候,将前一帧的光流投影到下一帧,作为下一帧的初始值。
给定当前的光流状态fk后,利用fk按照前面步骤41提到的方法检索对应在相关空间中的特征。然后再通过两个卷积层对这些特征进行处理,此外,这两个卷积层还将应用到光流估计本身中,用于生成光流特征。最后,再从语义网络中获取信息,并将其与代价空间、光流进行特征融合,作为更新算子的输入。
步骤6的作用得到更准确的光流,使预测光流值更加接近真实光流值。
GRU迭代更新模块输出的光流分辨率为初始图像的1/8,采用光流的双线性插值和凸上采样来匹配真值分辨率。
通过将全分辨率上的每一个像素都看做是其在1/8分辨率上的邻域像素们的某种凸组合(convex combination),进而可以通过对1/8分辨率上的邻域像素们进行上采样,得到全分辨率上的结果。具体来说,使用了两个卷积层来预测mask,这个mask的维度是H/8×W/8×(8×8×9),因为对于1/8分辨率上的每一个像素来说,都对应着全分辨率的8×8个像素,而全分辨率的每一个像素又和其领域的9个像素相关,所以mask的维度就变成了H/8×W/8×(8×8×9)。之后再对这9个邻居的权重做softmax,最后再根据这9个邻居的权值加权得到最终的视频序列图象高分辨率光流场。
步骤7:光流包含了大小和方向,光流场是图像中光流的集合,为了直观表达光流场,图6是光流可视化示意图,将光流的方向用颜色标识,不同的颜色表示不同的运动方向,光流的大小用颜色强度表示,光流值越大,颜色越深。若一幅光流场图像中目标的颜色为红色,说明该目标向右运动,颜色为绿色则说明向左下运动,颜色越深说明目标运动量越大,白色则表示目标没有运动。以此方法得到最终光流可视化结果。
步骤8:光流阈值分割提取运动目标,在进行相关的光流计算后,得到视频序列图像的光流场,然后通过最大类间方差来对光流场进行阈值分割,得到最终的运动目标检测图像。它是按图像的灰度特性,区分出前景与背景。
由于光流网络模型训练需要大量带真实标签的光流数据,而带光流标签的真实无人机视频数据很少,现有的方法使用的都是合成的、非真实的数据集。因此,本文使用Flying Chairs模拟数据集进行网络模型训练
图7(a)为Chairs真实光流的可视化图,图7(b)、(c)和(d)分别为在PWC-Net、RAFT和本文提出的光流网络预测的光流可视化结果。
本发明的评价标准采用光流的通用评价指标EPE,是端点到端点误差(end pointerror),其中,(u,v)表示光流在x方向和y方向的位移大小,(uGT,vGT)表示光流的标签值,GT是Ground Truth的简写。计算方式如下
Figure BDA0003763304220000101
实验的平台和系统设置:CPU为AMD Ryzen 5 3600X 6-Core;GPU为NVIDIAGeForce RTX 3090;操作系统为Ubuntu20.04,软件环境为Python3.9,Pytorch1.10。实验中使用AdamW优化器,使用AdamW中的默认参数,指数衰减率β1=0.9,β2=0.999,权重衰减为1e-4,设置批次输入大小为12,训练120000批次,初始学习率为4e-4,使用OneCycleLR学习率衰减。
在FlyingChairs公开数据集上与已有的一些主流光流网络进行对比,分别为FlowNet1s、PWC-Net、HD3、VCN、RAFT、GMA,本实验的基线网络RAFT,以及本文提出的光流网络,对比实验的数据集划分一致,使用相同的训练策略,每个网络训练120k轮,图像尺寸为436×1024,对比结果如表1所示。
表1主流光流估计方法性能比较
Figure BDA0003763304220000102
图8是单运动目标检测结果。图8(a)是第k帧图像,图8(b)是第k+1帧图像,图8(c)是PWC-Net光流估计结果,图8(d)是PWC-Net运动目标检测结果,图8(e)RAFT光流估计结果,图8(f)是RAFT运动目标检测结果,图8(g)本发明所提方法光流估计结果,图8(h)是本发明所提方法检测结果,从图8可以看出,PWC-Net和RAFT光流法在光流可视化效果中虽然能够准确识别出目标所在位置,但是检测目标出现一定的缺失,轮廓较模糊,所以经过光流阈值分割后也不能提取到准确的运动目标。而本文提出的方法如图8(g~h),不仅能够提取到丰富的目标信息,同时清晰呈现出前景和背景的区别,而且检测目标轮廓完整、清晰,与原视频图像中的目标匹配度较高,检测效果具有较明显的优势。
图9是多目标检测结果。图9(a)是第k帧图像,图9(b)是第k+1帧图像,图9(c)是PWC-Net光流估计结果,图9(d)是PWC-Net运动目标检测结果,图9(e)RAFT光流估计结果,图9(f)是RAFT运动目标检测结果,图9(g)本发明所提方法光流估计结果,图9(h)是本发明所提方法检测结果,从图9可以看出,检测对象为两辆同向行驶的黑色车辆,图像背景和运动目标矢量大小一致,三种方法的光流可视化结果和检测结果都能轻易的区分出背景和检测目标。但是从图9(c)和图9(e)可以看出PWC-Net和RAFT网络得到的目标轮廓吻合度较差,因此经过光流阈值分割后得到的检测结果也较为粗糙,如图9(d)和图9(f)所示。而采用本文提出的方法,得到的光流可视化图和阈值分割结果中的运动目标形状完整,边缘光滑,与原始图像中的目标相似度较高,检测效果较好。
图10是遮挡运动目标检测结果。图10(a)是第k帧图像,图10(f)是第k+m帧图像,图10(b)是第k帧RAFT光流估计结果,图10(c)是第k帧RAFT运动目标检测结果,图10(d)是第k帧本发明所提方法光流估计结果,图10(e)是第k帧本发明所提方法检测结果,图10(g)是第k+m帧RAFT光流估计结果,图10(h)是第k+m帧RAFT检测结果,图10(i)是第k+m帧本发明所提方法光流估计结果,图10(j)是第k+m帧本发明所提方法检测结果,从图10可以看出,图10(a)长货车大部分被中间的绿植遮挡,RAFT和本文方法均无法计算出其光流值从而无法检测到该目标车辆。另一辆正常行驶未被遮挡的灰色车辆,RAFT能大致识别出其目标轮廓,但轮廓形状较粗糙,识别度较差;而本文所提出的方法无论是光流可视化效果还是阈值分割效果都取得了较好的结果,检测出的目标车辆轮廓完整且较平滑,识别度较高。图10(f)是一段时间之后,被遮挡车辆基本进入视角,仅有少部分被遮挡,未遮挡部分两种方法均能检测出,但是可以看出RAFT的检测效果相对较差,轮廓存在一定的缺失,而我们方法不管是针对遮挡目标还是未遮挡目标都取得了较好的检测结果。因此本文所提出的方法在目标存在遮挡的情况能较好的完成运动目标检测任务,同时说明该算法具有良好的适应性。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (1)

1.一种基于光流网络的无人机视频运动目标检测方法,其特征在于,所述方法通过构建的光流网络来进行运动目标的检测,所述光流网络包括特征语义提取网络、上下文提取网络、视觉相似度计算模块、MobileViT-CBAM模块和GRU迭代更新模块,所述方法具体包括:
步骤1:将无人机获取的视频处理得到的目标图像作为训练集;
步骤2:将训练集中相邻的两个目标图像通过两个权值共享的特征语义提取网络分别提取第K帧和第K+1帧的特征语义信息,所述特征语义提取网络整体下采样率为8倍;
步骤3:将第K帧目标图像输入与特征语义提取网络结构完全相同的RepVGG模块的上下文提取网络,用于提取所述目标图像的上下文特征;
步骤4:将所述特征语义信息输出至视觉相似度计算模块,计算所提取特征对的内积,得到一个4D的代价空间,然后将所述代价空间的最后两个维用大小为1、2、4、8的核进行池化,构建4层相关金字塔,利用相关金字塔建立多尺度图像相似度特征,使突变运动更明显,所述特征对为第K帧和第K+1帧的语义信息特征;
步骤5:将所述上下文特征输出至所述MobileViT-CBAM模块,MobileViT-CBAM模块使用CNN和Transformer结合的方式,使用CNN提取局部特征,使用Transformer提取全局特征,输出聚合的全局特征,所述全局特征在整个图像中共享信息,将这些聚合的全局特征与局部特征和视觉上下文特征连接起来,具体为:
步骤51:将输入的上下文特征X[H,W,C]使用一个n×n卷积和PWConv卷积,放缩通道数为b,得到第一特征X′[H,W,b],将第一特征X′展开为第二特征X[P,N,d],然后输入Transformer网络提取全局空间信息,输出第三特征Y[P,N,d],将所述第三特征通过与前面展开方式相反的操作再折叠复原得到第四特征Y′[H,W,b],将第四特征Y′使用PWConv卷积复原回与所述上下文特征一样尺寸大小的第五特征;
步骤52:所述MobileViT-CBAM模块还包括跳跃连接模块,即在MobileViT模块的跳跃连接部分直接引入了CBAM模块,所述CBAM模块包括通道注意力模块和空间注意力模块,将所述上下文特征输入所述通道注意力模块获得通道注意力特征,将所述通道注意力特征输入所述空间注意力模块得到空间注意力特征,即最终的通道空间注意力特征,所述空间通道注意力特征与所述第五特征进行融合得到最终的第六特征Y[H,W,C];
步骤6:将所述第六特征与所述多尺度图像相似度特征进行融合后输入GRU迭代更新模块,由GRU迭代更新模块解码为剩余光流,得到高分辨率光流场,具体的:
GRU迭代更新模块输出的光流分辨率为初始图像的1/8,采用光流的双线性插值和凸上采样来匹配真值分辨率,通过将全分辨率上的每一个像素都看作是其在1/8分辨率上的邻域像素们的凸组合,进而可以通过对1/8分辨率上的邻域像素们进行上采样,得到全分辨率上的结果,即最终的目标图像高分辨率光流场;
步骤7:将高分辨率光流场处理得到最终光流可视化结果,具体的:将光流的方向用颜色标识,不同的颜色表示不同的运动方向,光流的大小用颜色强度表示,光流值越大,颜色越深;
步骤8:光流阈值分割提取运动目标,在进行步骤7的光流计算后,得到视频序列图像的光流场,然后通过最大类间方差来对光流场进行阈值分割,按图像的灰度特性,区分出前景与背景,得到最终的运动目标检测图像。
CN202210878119.3A 2022-07-25 2022-07-25 一种基于光流网络的无人机视频运动目标检测方法 Pending CN115359372A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210878119.3A CN115359372A (zh) 2022-07-25 2022-07-25 一种基于光流网络的无人机视频运动目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210878119.3A CN115359372A (zh) 2022-07-25 2022-07-25 一种基于光流网络的无人机视频运动目标检测方法

Publications (1)

Publication Number Publication Date
CN115359372A true CN115359372A (zh) 2022-11-18

Family

ID=84032350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210878119.3A Pending CN115359372A (zh) 2022-07-25 2022-07-25 一种基于光流网络的无人机视频运动目标检测方法

Country Status (1)

Country Link
CN (1) CN115359372A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN115880614A (zh) * 2023-01-19 2023-03-31 清华大学 一种宽视场高分辨视频高效智能检测方法及系统
CN116452813A (zh) * 2023-06-14 2023-07-18 泉州装备制造研究所 基于空间和语义信息的图像处理方法、系统、设备和介质
CN116697943A (zh) * 2023-08-02 2023-09-05 成都信息工程大学 一种积雪深度的测定装置及方法
CN117218606A (zh) * 2023-11-09 2023-12-12 四川泓宝润业工程技术有限公司 一种逃生门检测方法、装置、存储介质及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880614A (zh) * 2023-01-19 2023-03-31 清华大学 一种宽视场高分辨视频高效智能检测方法及系统
CN115797931A (zh) * 2023-02-13 2023-03-14 山东锋士信息技术有限公司 一种基于双分支特征融合的遥感图像语义分割方法
CN116452813A (zh) * 2023-06-14 2023-07-18 泉州装备制造研究所 基于空间和语义信息的图像处理方法、系统、设备和介质
CN116452813B (zh) * 2023-06-14 2023-08-22 泉州装备制造研究所 基于空间和语义信息的图像处理方法、系统、设备和介质
CN116697943A (zh) * 2023-08-02 2023-09-05 成都信息工程大学 一种积雪深度的测定装置及方法
CN116697943B (zh) * 2023-08-02 2023-09-29 成都信息工程大学 一种积雪深度的测定装置及方法
CN117218606A (zh) * 2023-11-09 2023-12-12 四川泓宝润业工程技术有限公司 一种逃生门检测方法、装置、存储介质及电子设备
CN117218606B (zh) * 2023-11-09 2024-02-02 四川泓宝润业工程技术有限公司 一种逃生门检测方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110135366B (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN112396607A (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN110084108A (zh) 基于gan神经网络的行人重识别系统及方法
CN111626159B (zh) 一种基于注意力残差模块和支路融合的人体关键点检测方法
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113902915A (zh) 一种基于低光照复杂道路场景下的语义分割方法及系统
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN113792641B (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN113610905B (zh) 基于子图像匹配的深度学习遥感图像配准方法及应用
CN113112583B (zh) 基于红外热成像的3d人体重构方法
CN115713679A (zh) 基于多源信息融合、热红外和三维深度图的目标检测方法
CN115238758A (zh) 一种基于点云特征增强的多任务三维目标检测方法
CN113269133A (zh) 一种基于深度学习的无人机视角视频语义分割方法
CN114037640A (zh) 图像生成方法及装置
CN116563682A (zh) 一种基于深度霍夫网络的注意力方案和条带卷积语义线检测的方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
CN116863241A (zh) 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备
CN116486352A (zh) 基于道路约束的车道线鲁棒检测与提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination