CN114463686B - 基于复杂背景下的移动目标检测方法和系统 - Google Patents

基于复杂背景下的移动目标检测方法和系统 Download PDF

Info

Publication number
CN114463686B
CN114463686B CN202210371385.7A CN202210371385A CN114463686B CN 114463686 B CN114463686 B CN 114463686B CN 202210371385 A CN202210371385 A CN 202210371385A CN 114463686 B CN114463686 B CN 114463686B
Authority
CN
China
Prior art keywords
network
target
frame
spatial dimension
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210371385.7A
Other languages
English (en)
Other versions
CN114463686A (zh
Inventor
孙自伟
华泽玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Durui Sensing Technology Co ltd
Southwest Jiaotong University
Original Assignee
Sichuan Durui Sensing Technology Co ltd
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Durui Sensing Technology Co ltd, Southwest Jiaotong University filed Critical Sichuan Durui Sensing Technology Co ltd
Priority to CN202210371385.7A priority Critical patent/CN114463686B/zh
Publication of CN114463686A publication Critical patent/CN114463686A/zh
Application granted granted Critical
Publication of CN114463686B publication Critical patent/CN114463686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于复杂背景下的移动目标检测方法和系统,包括步骤:粗检阶段:将连续5帧视频图像输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置;细检阶段:利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置,并获取最小外切矩形后裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。本发明分为粗检阶段和细检阶段,两阶段充分利用了移动小目标的运动信息,来提高复杂背景下移动小目标检测的精度,减少了误报漏报,减轻了人工介入的程度。

Description

基于复杂背景下的移动目标检测方法和系统
技术领域
本发明涉及移动小目标检测技术领域,特别涉及一种基于复杂背景下的移动目标检测方法和系统。
背景技术
对于复杂背景下的移动小目标的检测,目前的方法概括起来主要有三种:
第一种可以归为基于背景的方法。这一类主要有直接对背景建模的,运用背景差的方法得到运动目标前景,但是背景随光强和其他扰动变化复杂,提取到的运动目标前景效果不好。还有运用鲁棒性主成分分析法(RPCA),直接分理处低秩矩阵(背景)和稀疏矩阵(噪声前景),但是在实际情况下,图像会受到一定程度的光强变化、遮挡、平移等干扰,这些因素也可以看做是一个噪声矩阵,从而影响运动目标的精度。实际上这类方法无法检测静止的目标。
第二种可以归为基于单帧图片的检测方法。这种方法是通用的目标检测方法,对于复杂环境下的小目标,其目标特征信息少,一般情况下与环境较为相似,因此基于单帧图片的检测方法效果较差。
第三种可以归为传统的基于运动信息的检测方法。这类方法主要是使用一个循环神经网络后接一个目标检测网络来检测,但是这类方法在处理较多运动小目标时,顾此失彼,显得无法集中注意力,要么出现很多漏检,要么出现很多误检的情况。
因此,基于运动信息对于复杂背景下的移动小目标检测(如老鼠、飞鸟等),一般监控区域面积较大,入侵异物较小,使用人工方式进行排查时,不仅成本高,而且人的精力有限很难保证排查精度。如果使用现有的检测算法,要么精度低,要么效率低。
发明内容
本发明的目的在于改善复杂背景下小目标检测的精度和效率,提供一种基于复杂背景下的移动目标检测方法和系统。
为了实现上述发明目的,本发明实施例提供了以下技术方案:
基于复杂背景下的移动目标检测方法,包括以下步骤:
步骤S1,粗检阶段:将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置;
步骤S2,细检阶段:利用目标跟踪法跟踪粗检阶段得到的目标在连续5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。
所述粗检模型中的ConvLSTM网络,其融合历史状态
Figure 276303DEST_PATH_IMAGE001
和当前输入状态
Figure 862617DEST_PATH_IMAGE002
的方式为先将历史状态
Figure 173513DEST_PATH_IMAGE001
和当前输入状态
Figure 506405DEST_PATH_IMAGE002
进行连接操作,再进行卷积:
Figure 727302DEST_PATH_IMAGE003
式中,
Figure 80923DEST_PATH_IMAGE004
为t时刻的细胞状态,细胞状态中存储了与运动信息相关的信息;
Figure 20060DEST_PATH_IMAGE005
为t时刻输入层状态,表示某一帧视频图像经过卷积后的状态;
Figure 891064DEST_PATH_IMAGE006
表示t时刻输入门控制信号,
Figure 356681DEST_PATH_IMAGE007
表示t时刻遗忘门控制信号;
Figure 756569DEST_PATH_IMAGE008
为融合输入信息和上一时刻细胞状态信息的卷积权重,卷积权重
Figure 42057DEST_PATH_IMAGE008
是可学习的。
所述ConvLSTM网络嵌入YOLO4网络的主干网络CSPDark53的第二层与第三层之间;且将YOLO4网络的每个输出尺寸扩大一倍。
所述粗检阶段具体包括以下步骤:
步骤S1-1:将连续5帧视频图像进行预处理后得到粗检模型的输入
Figure 451173DEST_PATH_IMAGE009
,将其输入依次输入主干网络CSPDark53的第一层和第二层,得到
Figure 381082DEST_PATH_IMAGE010
,有
Figure 342085DEST_PATH_IMAGE011
,其中i=1,2,3,4,5,
Figure 252885DEST_PATH_IMAGE012
表示主干网络CSPDark53的前两层;
步骤S1-2:将
Figure 59167DEST_PATH_IMAGE010
依次输入到ConvLSTM网络中,得到包含运动信息的特征矩阵
Figure 109163DEST_PATH_IMAGE013
,有
Figure 116433DEST_PATH_IMAGE014
,其中i=1,2,3,4,5,
Figure 376513DEST_PATH_IMAGE015
步骤S1-3:将特征矩阵
Figure 127431DEST_PATH_IMAGE013
输入YOLO4网络的后续结构中,输出得到目标的类别和空间维度位置的预测矩阵{R},有
Figure 156567DEST_PATH_IMAGE016
步骤S1-4:将预测矩阵{R}输入YOLO4的后处理中,得到连续5帧视频图像中每帧的目标类别和空间维度位置:
Figure 600318DEST_PATH_IMAGE017
有:
Figure 957481DEST_PATH_IMAGE018
所述细检阶段具体包括以下步骤:
步骤S2-1:利用目标跟踪法跟踪粗检阶段得到的目标,获取同一目标在连续5帧图像上的空间维度位置信息
Figure 636724DEST_PATH_IMAGE019
Figure 661312DEST_PATH_IMAGE020
步骤S2-2:根据同一目标在5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形
Figure 10385DEST_PATH_IMAGE021
,有
Figure 245057DEST_PATH_IMAGE022
步骤S2-3:使用该最小外切矩形
Figure 358286DEST_PATH_IMAGE021
分别裁剪对应的连续5帧图像{f1,f2,f3,f4,f5},得到包含该目标运动区域的5张截图
Figure 237380DEST_PATH_IMAGE023
,有
Figure 881988DEST_PATH_IMAGE024
,其中i=1,2,3,4,5;
如果最小外切矩形
Figure 479322DEST_PATH_IMAGE021
中还有其他目标,则使用黑色矩形框将其覆盖,得到覆盖其他目标后的5张截图
Figure 375734DEST_PATH_IMAGE025
;如果最小外切矩形
Figure 968390DEST_PATH_IMAGE021
中没有其他目标,则
Figure 924844DEST_PATH_IMAGE026
,有
Figure 9475DEST_PATH_IMAGE027
,其中i=1,2,3,4,5;
步骤S2-4:将处理后的5张截图
Figure 834212DEST_PATH_IMAGE025
融合在一起,构成一个W*H*15的矩阵
Figure 687898DEST_PATH_IMAGE028
,其中W为裁剪图像的宽,H为裁剪图像的高,15表示由5张3通道图像组成而成的15通道,有
Figure 284096DEST_PATH_IMAGE029
步骤S2-5:对矩阵
Figure 715077DEST_PATH_IMAGE028
进行resize和归一化的预处理,得到矩阵
Figure 950362DEST_PATH_IMAGE030
,有
Figure 924134DEST_PATH_IMAGE031
步骤S2-6:将
Figure 815867DEST_PATH_IMAGE030
输入细检模型中,经过细检得到检测结果。
所述步骤S2-6具体包括以下步骤:
步骤S2-6-1:将
Figure 140669DEST_PATH_IMAGE030
输入由MobilenetV2网络和YOLO检测头组成的细检模型中,输出得到预测第3帧目标的类别和空间维度位置的矩阵
Figure 916995DEST_PATH_IMAGE032
步骤S2-6-2:将矩阵
Figure 604328DEST_PATH_IMAGE032
输入细检模型的后处理中,得到第3帧目标的类别和空间维度位置
Figure 807907DEST_PATH_IMAGE033
,有
Figure 947902DEST_PATH_IMAGE034
步骤S2-6-3:将细检阶段得到的结果
Figure 793498DEST_PATH_IMAGE033
通过映射矩阵{W},映射到原始视频图像帧中,得到最终检测结果
Figure 210704DEST_PATH_IMAGE035
,有
Figure 975398DEST_PATH_IMAGE036
所述目标跟踪法为Sort算法或DeepSort算法。
在所述粗检阶段之前还包括训练粗检模型的步骤:
收集含有移动目标的视频,将视频解析为连续的图像帧;使用标注软件对每一帧图像中目标的类别和空间维度位置进行标注,形成该帧图像的空间维度位置标签;
将连续5帧图像及其对应的空间维度位置标签输入到粗检模型训练框架中,训练基于运动信息的粗检模型;待训练至Loss收敛后,固定粗检模型权重得到基于运动信息的粗检模型。
在所述细检阶段之前还包括训练细检模型的步骤:
将含有单一目标的连续5帧图像运动区域的截图及其对应的第3帧图像的空间维度位置标签输入细检模型训练框架中,训练基于运动信息的细检模型;待训练至Loss收敛后,固定细检模型权重得到基于运动信息的细检模型。
基于复杂背景下的移动目标检测系统,包括:
粗检模型,将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置;
细检模型,利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。
与现有技术相比,本发明的有益效果:
本发明充分分析对复杂环境下的移动小目标识别的方法,将其分为粗检阶段和细检阶段两个阶段,首先根据运动信息发现哪些位置存在目标,然后再集中注意力对存在目标的地方进行观察,两阶段充分利用了移动小目标的运动信息,来提高复杂背景下移动小目标检测的精度,减少了误报漏报,减轻了人工介入的程度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明粗检阶段流程图;
图2为本发明细检阶段流程图;
图3为本发明粗检阶段训练流程图;
图4为本发明细检阶段训练流程图;
图5为传统ConvLSTM网络结构示意图;
图6为本发明ConvLSTM网络结构示意图;
图7为传统YOLO4网络结构示意图;
图8为本发明YOLO4网络结构示意图;
图9为本发明细检模型结构示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“YOLO4”指的是YOLO4作为目标检测算法,“YOLO4网络”指的是YOLO4网络的结构。
实施例:
本发明通过下述技术方案实现,如图1、图2所示,基于复杂背景下的移动目标检测方法,包括两个阶段,分别是粗检阶段和细检阶段。在粗检阶段,将连续5帧视频图像输入粗检模型,得到目标在每一帧中的空间维度信息;在细检阶段,跟踪目标并融合图像,将融合后的图像输入细检模型,得到精确的检测结果。
步骤S1,粗检阶段:将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置。
请参见图3,在所述粗检阶段之前还包括训练粗检模型的步骤:
1)收集含有移动小目标(如小鸟、小老鼠等)的视频,将视频解析为连续的图像帧;使用标注软件对每一帧图像中目标的类别和空间维度位置进行标注,形成该帧图像的空间维度位置标签;
2)将连续5帧图像及其对应的空间维度位置标签输入到粗检模型训练框架中,训练基于运动信息的粗检模型;
3)待训练一定的步长或损失收敛后,固定粗检模型权重参数得到基于运动信息的粗检模型。
本方案所使用的ConvLSTM网络和YOLO4网络都进行了改进,传统的ConvLSTM网络如图5所示,融合历史状态
Figure 478054DEST_PATH_IMAGE001
和输入状态
Figure 720817DEST_PATH_IMAGE002
时, 是将这两者“相加”,即
Figure 255179DEST_PATH_IMAGE037
,但这样可能会有信息损失。
而ConvLSTM网络进行改进后,请参见图6,先将历史状态
Figure 800561DEST_PATH_IMAGE001
和当前输入状态
Figure 915147DEST_PATH_IMAGE002
进行Concat,再进行卷积,以完成历史状态
Figure 102546DEST_PATH_IMAGE001
和当前输入状态
Figure 25503DEST_PATH_IMAGE002
的融合,即
Figure 7365DEST_PATH_IMAGE038
,这种方式能够更加灵活地融合不同状态的信息。
请继续参见图6,其中
Figure 750193DEST_PATH_IMAGE039
为t时刻的输入,
Figure 334759DEST_PATH_IMAGE040
为t时刻的隐藏层状态,
Figure 846642DEST_PATH_IMAGE041
为t-1时刻的隐藏层状态;Concat为连接操作;
Figure 858461DEST_PATH_IMAGE042
Figure 557427DEST_PATH_IMAGE043
分别为输入卷积权重及其对应的偏置,
Figure 945683DEST_PATH_IMAGE044
Figure 309143DEST_PATH_IMAGE045
分别为输入门卷积权重及其对应的偏置,
Figure 632808DEST_PATH_IMAGE046
Figure 209283DEST_PATH_IMAGE047
分别为遗忘门卷积权重及其对应的偏置,
Figure 11017DEST_PATH_IMAGE048
Figure 90969DEST_PATH_IMAGE049
分别为输出门卷积权重及其对应的偏置;tanh为tanh函数;
Figure 585535DEST_PATH_IMAGE050
为sigmoid函数;
Figure 524672DEST_PATH_IMAGE004
为t时刻的细胞状态(长期记忆),
Figure 254731DEST_PATH_IMAGE051
为t-1时刻的细胞状态,细胞状态中存储了与运动信息相关的信息;
Figure 330134DEST_PATH_IMAGE005
为t时刻输入层状态(短期记忆),表示某一帧视频图像经过卷积后的状态;
Figure 120236DEST_PATH_IMAGE006
表示t时刻输入门控制信号,
Figure 546669DEST_PATH_IMAGE007
表示t时刻遗忘门控制信号,
Figure 690205DEST_PATH_IMAGE052
表示t时刻输出门控制信号;
Figure 10328DEST_PATH_IMAGE053
为融合输入信息和上一时刻细胞状态信息的卷积权重,卷积权重
Figure 109347DEST_PATH_IMAGE053
是可学习的;符号“×”表示乘法逻辑门,符号“+”表示加法逻辑门。
请参见图7为传统的YOLO4网络的结构,包括依次连接的主干网络CSPDark53、颈部网络、检测头(Head),所述颈部网络包括空间金字塔池化(Spatial Pyramid Pooling,SPP)+卷积层、特征金字塔网络(Feature Pyramid Network, FPN)、路径增强网络(PathAugmentation Network, PAN),YOLO4网络具有三个输出,输出尺寸分别为76*76、38*38、19*19。
请参见图8,YOLO4网络的改进是将前述改进后的ConvLSTM网络嵌入主干网络CSPDark53的第二层和第三层之间,为了更好的适应小目标,将YOLO网络的三个输出尺寸扩大了一倍,即分别为152*152、76*76、38*38。
请参见图1,在粗检阶段进行时,将连续5帧视频图像进行预处理后得到粗检模型的输入
Figure 491918DEST_PATH_IMAGE009
,将其输入依次输入主干网络CSPDark53的第一层和第二层,也就是YOLO4网络的前两层特征提取器,得到
Figure 563779DEST_PATH_IMAGE010
,有
Figure 879354DEST_PATH_IMAGE011
,其中i=1,2,3,4,5,
Figure 745679DEST_PATH_IMAGE012
表示主干网络CSPDark53的前两层。
然后将
Figure 881125DEST_PATH_IMAGE010
依次输入到改进的ConvLSTM网络中,得到包含运动信息的特征矩阵
Figure 632043DEST_PATH_IMAGE013
,有
Figure 661179DEST_PATH_IMAGE014
,其中i=1,2,3,4,5,
Figure 573771DEST_PATH_IMAGE015
接着将特征矩阵
Figure 586727DEST_PATH_IMAGE013
输入YOLO4网络的后续结构中,输出得到目标的类别和空间维度位置的预测矩阵{R},有
Figure 875757DEST_PATH_IMAGE016
最后将预测矩阵{R}输入YOLO4网络的后处理中(即YOLO4网络的后网络),得到连续5帧视频图像中每帧的目标类别和空间维度位置:
Figure 759399DEST_PATH_IMAGE017
有:
Figure 108472DEST_PATH_IMAGE018
步骤S2,细检阶段:利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到检测结果。
请参见图4,在细检阶段之前还包括训练细检模型的步骤:
1)准备两种类型数据,一种是含有目标的正样本,另一种是不含目标的负样本;针对正样本利用训练粗检阶段所标注的数据,运用目标跟踪法确定每个目标在连续5帧图像中的空间维度位置;
2)获取5帧图像中空间维度位置的最小外切矩形,根据最小外切矩形裁剪得到5张截图;如果该最小外切矩形中还有其他目标,则使用黑色矩形框将其覆盖,以保证裁剪出来的图像中只有一个目标;
3)将5张截图融合在一起,以融合运动信息,构成一个W*H*15的矩阵图像,其中W为裁剪图像的宽,H为裁剪图像的高,15表示由5张3通道图像组成而成的15通道;
4)通过对应关系获取第3帧截图上目标的空间维度位置信息,得到正样本位置标签;然后使用步骤1)~步骤3)对粗检阶段的正确检测结果进行处理,以扩充训练细检模型的正样本;
5)针对负样本使用相同的最小矩形框分别裁剪连续5帧图像,同样将裁剪的5张截图融合在一起,构成一个W*H*15的矩阵图像;然后使用步骤1)~步骤3)的方法对粗检阶段的错误检测结果(比如没有目标但检测为有目标结果)进行处理,以扩充训练细检阶段的正样本图像。
6)将含有单一目标的连续5帧图像运动区域的截图及其对应的第3帧图像的空间维度位置标签输入细检模型训练框架中,训练基于运动信息的细检模型;待训练一定的步长或损失收敛后,固定细检模型权重参数得到基于运动信息的细检模型。
请参见图2,利用目标跟踪法跟踪粗检阶段得到的目标,获取同一目标在连续5帧图像上的空间维度位置信息
Figure 77565DEST_PATH_IMAGE019
,所述目标跟踪法包括但不限于Sort算法、DeepSort算法,有:
Figure 167356DEST_PATH_IMAGE054
然后根据同一目标在5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形
Figure 46451DEST_PATH_IMAGE021
,有
Figure 691059DEST_PATH_IMAGE022
;使用该最小外切矩形
Figure 553972DEST_PATH_IMAGE021
分别裁剪对应的连续5帧图像{f1,f2,f3,f4,f5},得到包含该目标运动区域的5张截图
Figure 450384DEST_PATH_IMAGE023
,有
Figure 449564DEST_PATH_IMAGE024
,其中i=1,2,3,4,5。
如果最小外切矩形
Figure 265073DEST_PATH_IMAGE021
中还有其他目标,则使用黑色矩形框将其覆盖,得到覆盖其他目标后的5张截图
Figure 349704DEST_PATH_IMAGE025
;如果最小外切矩形
Figure 518648DEST_PATH_IMAGE021
中没有其他目标,则
Figure 231389DEST_PATH_IMAGE026
,有
Figure 358745DEST_PATH_IMAGE027
,其中i=1,2,3,4,5。
接着将处理后的5张截图
Figure 789727DEST_PATH_IMAGE025
融合在一起,构成一个W*H*15的矩阵
Figure 290591DEST_PATH_IMAGE028
,其中W为裁剪图像的宽,H为裁剪图像的高,15表示由5张3通道图像组成而成的15通道,有
Figure 998784DEST_PATH_IMAGE029
。对矩阵
Figure 31462DEST_PATH_IMAGE028
进行resize和归一化的预处理,得到矩阵
Figure 215319DEST_PATH_IMAGE030
,有
Figure 726065DEST_PATH_IMAGE031
然后将
Figure 554344DEST_PATH_IMAGE030
输入细检模型中,经过细检得到检测结果。在粗检阶段会得到较多的疑似有移动目标的区域,为了保证检测速度,请参见图9,所述细检模型是由MobilenetV2网络和YOLO检测头网络组成的轻量级模型,使用MobilenetV2网络作为特征提取器,由于细检阶段只检测一个目标,所以细检阶段的检测头使用了YOLO检测头,经过卷积预测目标类别(c表示目标类别的数量)和两个对角点坐标(x1,y1,x2,y2)。
Figure 148136DEST_PATH_IMAGE030
输入细检模型中,输出得到预测第3帧目标的类别和空间维度位置的矩阵
Figure 163497DEST_PATH_IMAGE032
。最后将矩阵
Figure 9093DEST_PATH_IMAGE032
输入细检阶段的后处理中,得到第3帧目标的类别和空间维度位置
Figure 550933DEST_PATH_IMAGE033
,有
Figure 190993DEST_PATH_IMAGE034
。将细检阶段得到的结果
Figure 956299DEST_PATH_IMAGE033
通过映射矩阵{W},映射到原始视频图像帧中,得到最终检测结果
Figure 933482DEST_PATH_IMAGE035
,有
Figure 470774DEST_PATH_IMAGE036
本发明为实现上述方法,还提出一种基于复杂背景下的移动目标检测系统,包括粗检模块、细检模型,将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置。利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.基于复杂背景下的移动目标检测方法,其特征在于:包括以下步骤:
步骤S1,粗检阶段:将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置;
所述ConvLSTM网络嵌入到YOLO4网络的主干网络CSPDark53的第二层与第三层之间;
所述粗检阶段具体包括以下步骤:
步骤S1-1:将连续5帧视频图像进行预处理后得到粗检模型的输入
Figure 306089DEST_PATH_IMAGE001
,将其输入依次输入主干网络CSPDark53的第一层和第二层,得到
Figure 275182DEST_PATH_IMAGE002
,有
Figure 961378DEST_PATH_IMAGE003
,其中i=1,2,3,4,5,
Figure 699527DEST_PATH_IMAGE004
表示主干网络CSPDark53的前两层;
步骤S1-2:将
Figure 812976DEST_PATH_IMAGE002
依次输入到ConvLSTM网络中,得到包含运动信息的特征矩阵
Figure 3786DEST_PATH_IMAGE005
,有
Figure 290411DEST_PATH_IMAGE006
,其中i=1,2,3,4,5,
Figure 883066DEST_PATH_IMAGE007
步骤S1-3:将特征矩阵
Figure 432996DEST_PATH_IMAGE005
输入YOLO4网络的后续结构中,输出得到目标的类别和空间维度位置的预测矩阵{R},有
Figure 111102DEST_PATH_IMAGE008
步骤S1-4:将预测矩阵{R}输入YOLO4的后处理中,得到连续5帧视频图像中每帧的目标类别和空间维度位置:
Figure 139101DEST_PATH_IMAGE009
有:
Figure 586263DEST_PATH_IMAGE010
步骤S2,细检阶段:利用目标跟踪法跟踪粗检阶段得到的目标在连续5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。
2.根据权利要求1所述的基于复杂背景下的移动目标检测方法,其特征在于:所述粗检模型中的ConvLSTM网络,其融合历史状态
Figure 307094DEST_PATH_IMAGE011
和当前输入状态
Figure 472497DEST_PATH_IMAGE012
的方式为先将历史状态
Figure 304186DEST_PATH_IMAGE011
和当前输入状态
Figure 605855DEST_PATH_IMAGE012
进行连接操作,再进行卷积:
Figure 497587DEST_PATH_IMAGE013
式中,
Figure 150286DEST_PATH_IMAGE014
为t时刻的细胞状态,
Figure 520087DEST_PATH_IMAGE015
为t-1时刻的细胞状态,细胞状态中存储了与运动信息相关的信息;
Figure 941841DEST_PATH_IMAGE016
为t时刻输入层状态,表示某一帧视频图像经过卷积后的状态;
Figure 4475DEST_PATH_IMAGE017
表示t时刻输入门控制信号,
Figure 878890DEST_PATH_IMAGE018
表示t时刻遗忘门控制信号;
Figure 317962DEST_PATH_IMAGE019
为融合输入信息和上一时刻细胞状态信息的卷积权重,卷积权重
Figure 594222DEST_PATH_IMAGE019
是可学习的。
3.根据权利要求2所述的基于复杂背景下的移动目标检测方法,其特征在于:将YOLO4网络的每个输出尺寸扩大一倍。
4.根据权利要求1所述的基于复杂背景下的移动目标检测方法,其特征在于:所述细检阶段具体包括以下步骤:
步骤S2-1:利用目标跟踪法跟踪粗检阶段得到的目标,获取同一目标在连续5帧图像上的空间维度位置信息
Figure 830687DEST_PATH_IMAGE020
Figure 192398DEST_PATH_IMAGE021
步骤S2-2:根据同一目标在5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形
Figure 904002DEST_PATH_IMAGE022
,有
Figure 300349DEST_PATH_IMAGE023
步骤S2-3:使用该最小外切矩形
Figure 704785DEST_PATH_IMAGE022
分别裁剪对应的连续5帧图像{f1,f2,f3,f4,f5},得到包含该目标运动区域的5张截图
Figure 553793DEST_PATH_IMAGE024
,有
Figure 69088DEST_PATH_IMAGE025
,其中i=1,2,3,4,5;
如果最小外切矩形
Figure 319940DEST_PATH_IMAGE022
中还有其他目标,则使用黑色矩形框将其覆盖,得到覆盖其他目标后的5张截图
Figure 895278DEST_PATH_IMAGE026
;如果最小外切矩形
Figure 231582DEST_PATH_IMAGE022
中没有其他目标,则
Figure 550567DEST_PATH_IMAGE027
,有
Figure 655927DEST_PATH_IMAGE028
,其中i=1,2,3,4,5;
步骤S2-4:将处理后的5张截图
Figure 402166DEST_PATH_IMAGE026
融合在一起,构成一个W*H*15的矩阵
Figure 756924DEST_PATH_IMAGE029
,其中W为裁剪图像的宽,H为裁剪图像的高,15表示由5张3通道图像组成而成的15通道,有
Figure 879601DEST_PATH_IMAGE030
步骤S2-5:对矩阵
Figure 839466DEST_PATH_IMAGE029
进行resize和归一化的预处理,得到矩阵
Figure 756607DEST_PATH_IMAGE031
,有
Figure 67502DEST_PATH_IMAGE032
步骤S2-6:将
Figure 728291DEST_PATH_IMAGE031
输入细检模型中,经过细检得到检测结果。
5.根据权利要求4所述的基于复杂背景下的移动目标检测方法,其特征在于:所述步骤S2-6具体包括以下步骤:
步骤S2-6-1:将
Figure 542663DEST_PATH_IMAGE031
输入由MobilenetV2网络和YOLO检测头组成的细检模型中,输出得到预测第3帧目标的类别和空间维度位置的矩阵
Figure 896284DEST_PATH_IMAGE033
步骤S2-6-2:将矩阵
Figure 428896DEST_PATH_IMAGE033
输入细检模型的后处理中,得到第3帧目标的类别和空间维度位置
Figure 627797DEST_PATH_IMAGE034
,有
Figure 562255DEST_PATH_IMAGE035
步骤S2-6-3:将细检阶段得到的结果
Figure 86777DEST_PATH_IMAGE034
通过映射矩阵{W},映射到原始视频图像帧中,得到最终检测结果
Figure 841106DEST_PATH_IMAGE036
,有
Figure 109277DEST_PATH_IMAGE037
6.根据权利要求3所述的基于复杂背景下的移动目标检测方法,其特征在于:所述目标跟踪法为Sort算法或DeepSort算法。
7.根据权利要求1所述的基于复杂背景下的移动目标检测方法,其特征在于:在所述粗检阶段之前还包括训练粗检模型的步骤:
收集含有移动目标的视频,将视频解析为连续的图像帧;使用标注软件对每一帧图像中目标的类别和空间维度位置进行标注,形成该帧图像的空间维度位置标签;
将连续5帧图像及其对应的空间维度位置标签输入到粗检模型训练框架中,训练基于运动信息的粗检模型;待训练一定的步长或Loss收敛后,固定粗检模型权重得到基于运动信息的粗检模型。
8.根据权利要求1所述的基于复杂背景下的移动目标检测方法,其特征在于:在所述细检阶段之前还包括训练细检模型的步骤:
将含有单一目标的连续5帧图像运动区域的截图及其对应的第3帧图像的空间维度位置标签输入细检模型训练框架中,训练基于运动信息的细检模型;待训练一定的步长或Loss收敛后,固定细检模型权重得到基于运动信息的细检模型。
9.基于复杂背景下的移动目标检测系统,其特征在于:包括:
粗检模型,将连续5帧视频图像依次输入由ConvLSTM网络和YOLO4网络组成的粗检模型中,其中ConvLSTM网络捕获运动信息,YOLO4网络利用含有运动信息的特征图定位目标在每一帧中的空间维度位置;所述ConvLSTM网络嵌入到YOLO4网络的主干网络CSPDark53的第二层与第三层之间;
所述粗检模型具体包括以下步骤:
步骤S1-1:将连续5帧视频图像进行预处理后得到粗检模型的输入
Figure 898241DEST_PATH_IMAGE001
,将其输入依次输入主干网络CSPDark53的第一层和第二层,得到
Figure 328085DEST_PATH_IMAGE002
,有
Figure 832360DEST_PATH_IMAGE003
,其中i=1,2,3,4,5,
Figure 638642DEST_PATH_IMAGE004
表示主干网络CSPDark53的前两层;
步骤S1-2:将
Figure 282113DEST_PATH_IMAGE002
依次输入到ConvLSTM网络中,得到包含运动信息的特征矩阵
Figure 148438DEST_PATH_IMAGE005
,有
Figure 877360DEST_PATH_IMAGE006
,其中i=1,2,3,4,5,
Figure 487333DEST_PATH_IMAGE007
步骤S1-3:将特征矩阵
Figure 250889DEST_PATH_IMAGE005
输入YOLO4网络的后续结构中,输出得到目标的类别和空间维度位置的预测矩阵{R},有
Figure 22536DEST_PATH_IMAGE008
步骤S1-4:将预测矩阵{R}输入YOLO4的后处理中,得到连续5帧视频图像中每帧的目标类别和空间维度位置:
Figure 504333DEST_PATH_IMAGE009
有:
Figure 652418DEST_PATH_IMAGE010
细检模型,利用目标跟踪法跟踪粗检阶段得到的目标在连接5帧图像上的空间维度位置,获取5个空间维度位置的最小外切矩形并裁剪得到5张图像,将5张图像融合构成一个15通道的图像后输入细检模型中,经过细检得到最终检测结果。
CN202210371385.7A 2022-04-11 2022-04-11 基于复杂背景下的移动目标检测方法和系统 Active CN114463686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210371385.7A CN114463686B (zh) 2022-04-11 2022-04-11 基于复杂背景下的移动目标检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210371385.7A CN114463686B (zh) 2022-04-11 2022-04-11 基于复杂背景下的移动目标检测方法和系统

Publications (2)

Publication Number Publication Date
CN114463686A CN114463686A (zh) 2022-05-10
CN114463686B true CN114463686B (zh) 2022-06-17

Family

ID=81416861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210371385.7A Active CN114463686B (zh) 2022-04-11 2022-04-11 基于复杂背景下的移动目标检测方法和系统

Country Status (1)

Country Link
CN (1) CN114463686B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222775B (zh) * 2022-09-15 2022-12-06 中国科学院长春光学精密机械与物理研究所 弱小目标检测跟踪装置及其检测跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN113392930A (zh) * 2021-07-02 2021-09-14 西安电子科技大学 基于多层次分治网络的交通标志目标检测方法
CN113436227A (zh) * 2021-06-07 2021-09-24 南京航空航天大学 一种基于倒残差的孪生网络目标跟踪方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109479088A (zh) * 2017-06-02 2019-03-15 深圳市大疆创新科技有限公司 基于深度机器学习和激光雷达进行多目标跟踪和自动聚焦的系统和方法
CN109191498B (zh) * 2018-09-05 2021-04-02 中国科学院自动化研究所 基于动态记忆和运动感知的目标检测方法及系统
JPWO2020255966A1 (zh) * 2019-06-19 2020-12-24
CN111666836B (zh) * 2020-05-22 2023-05-02 北京工业大学 M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法
CN111932583A (zh) * 2020-06-05 2020-11-13 西安羚控电子科技有限公司 一种基于复杂背景下的时空信息一体化智能跟踪方法
CN112396002B (zh) * 2020-11-20 2023-05-30 重庆邮电大学 一种基于SE-YOLOv3的轻量级遥感目标检测方法
CN113093726A (zh) * 2021-03-05 2021-07-09 华南理工大学 一种基于Yolo_v4算法的目标检测与跟踪方法
CN113065558B (zh) * 2021-04-21 2024-03-22 浙江工业大学 一种结合注意力机制的轻量级小目标检测方法
CN113223059B (zh) * 2021-05-17 2022-10-21 浙江大学 基于超分辨率特征增强的弱小空域目标检测方法
CN113449680B (zh) * 2021-07-15 2022-08-30 北京理工大学 一种基于知识蒸馏的多模小目标检测方法
CN114022705B (zh) * 2021-10-29 2023-08-04 电子科技大学 一种基于场景复杂度预分类的自适应目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016476A (zh) * 2020-08-31 2020-12-01 山东大学 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN113436227A (zh) * 2021-06-07 2021-09-24 南京航空航天大学 一种基于倒残差的孪生网络目标跟踪方法
CN113392930A (zh) * 2021-07-02 2021-09-14 西安电子科技大学 基于多层次分治网络的交通标志目标检测方法

Also Published As

Publication number Publication date
CN114463686A (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
CN112966684B (zh) 一种注意力机制下的协同学习文字识别方法
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN111368690B (zh) 基于深度学习的海浪影响下视频图像船只检测方法及系统
CN112465880B (zh) 基于多源异构数据认知融合的目标检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
Jia et al. FoveaMask: A fast and accurate deep learning model for green fruit instance segmentation
CN111027576A (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN115439442A (zh) 基于共性和差异的工业品表面缺陷检测与定位方法及系统
CN111462184B (zh) 基于孪生神经网络线性表示模型的在线稀疏原型跟踪方法
CN114463686B (zh) 基于复杂背景下的移动目标检测方法和系统
CN113657414B (zh) 一种物体识别方法
CN114677707A (zh) 一种基于多分辨率特征融合网络的人体姿态估计方法
CN114022804A (zh) 一种泄漏的检测方法、装置、系统及存储介质
Kim et al. Massive scale deep learning for detecting extreme climate events
CN113269038A (zh) 一种基于多尺度的行人检测方法
CN114612468B (zh) 一种基于正样本的设备外部缺陷检测方法
Zhang et al. Key technologies of smart factory machine vision based on efficient deep network model
Rao et al. Roads detection of aerial image with FCN-CRF model
Hu et al. Discriminative Context-Aware Network for Target Extraction in Remote Sensing Imagery
ALSAADI et al. An automated classification of mammals and reptiles animal classes using deep learning
CN111191575B (zh) 一种基于火苗跳动建模的明火检测方法及系统
Hu et al. Detection of material on a tray in automatic assembly line based on convolutional neural network
Qi et al. Class-Aware Dual-Supervised Aggregation Network for Video Object Detection
Liu et al. Peaks Fusion assisted Early-stopping Strategy for Overhead Imagery Segmentation with Noisy Labels
Liu et al. Deep neural network based approach for robust aerial surveillance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant