CN110378288B - 一种基于深度学习的多级时空运动目标检测方法 - Google Patents

一种基于深度学习的多级时空运动目标检测方法 Download PDF

Info

Publication number
CN110378288B
CN110378288B CN201910653504.6A CN201910653504A CN110378288B CN 110378288 B CN110378288 B CN 110378288B CN 201910653504 A CN201910653504 A CN 201910653504A CN 110378288 B CN110378288 B CN 110378288B
Authority
CN
China
Prior art keywords
time
space
frame
layer
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910653504.6A
Other languages
English (en)
Other versions
CN110378288A (zh
Inventor
杨依忠
张涛
胡今朝
解光军
程心
张章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910653504.6A priority Critical patent/CN110378288B/zh
Publication of CN110378288A publication Critical patent/CN110378288A/zh
Application granted granted Critical
Publication of CN110378288B publication Critical patent/CN110378288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提出一种基于深度学习的多尺度时空运动目标检测方法,其步骤包括:1获取具有像素级标签的视频数据集;2建立多尺度时空网络模型;3离线训练建立的多尺度时空网络模型;4利用建立好的模型实现预测,以达到目标检测的目的。本发明克服了现有监督算法缺少空间和时间特征多尺度信息的缺陷,可精准检测不同尺寸、不同运动速率的运动目标。

Description

一种基于深度学习的多级时空运动目标检测方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于多级时空特征的运动目标检测方法。
背景技术
运动目标检测是计算机视觉领域的一个重要课题,在自动驾驶、目标跟踪、人群分析、交通流、自动异常检测等视频监控领域中有着重要的作用。运动目标检测是像素级别的二分类问题,其目的是从冗余的视频序列中提取出显著的前景目标。运动目标检测算法主要分为两大类:传统算法和基于深度学习的算法。
传统算法的运动目标检测法一般利用图像的传统手工视觉特征,例如颜色、纹理等,为每一个像素建模背景模型,通过对比输入图片与背景模型来分类出前景像素,并完成背景模型的更新与维护。由于颜色、纹理、梯度等低级视觉特征对视频图片的质量要求较高,传统算法只能处理简单的视频场景,而对于动态背景、阴影等复杂场景的检测效果并不好。另外,传统算法有大量需要人工调优的超参数,针对不同场景都有不同的最优超参数。
近年来,深度学习引起了计算机视觉界的广泛关注,人们已经将其应用于各种视觉任务,并取得了显著的效果。目前,基于深度学习的运动目标检测方法大多数只采用二维卷积网络提取单帧图片的空间特征,忽略了视频序列的时间依赖关系,仅基于空间特征的方法处理场景黑暗、颜色信息丢失等场景的性能较差。另外,目前基于深度学习的没有使用多尺度方法或仅在空间尺度上采用多尺度方法,缺少空间多尺度信息导致前景分割结果缺少细节信息,缺少时间多尺度信息导致该方法法不能准确地分割出视频中以不同速率运动的前景目标。
发明内容
本发明为克服现有技术的不足之处,提出一种基于深度学习的多级时空运动目标检测方法,以期能实现视频中前景目标的自动检测,从而提高检测效率和准确性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度学习的多级时空运动目标检测方法的特点是按如下步骤进行:
步骤1、获取带有像素级标签的视频数据集并进行分割,得到N个T帧的短视频序列并进行归一化处理,得到归一化的训练样本集记为S={S1,S2,...,Sn,...,SN};Sn表示第n个归一化后的短视频序列,且
Figure GDA0002743750040000011
Figure GDA0002743750040000012
表示第n个归一化后的短视频序列Sn中第t帧图像;n=1,2,...,N;t=1,2,...,T;
步骤2、建立多尺度时空网络模型,所述多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间提取模块和多尺度特征融合模块组成;
步骤2.1、权值初始化:
令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值;
令三个卷积长短期记忆网络层ConvLSTM使用高斯分布进行初始化权值;
令上采样层通过反卷积实现,反卷核使用双线性插值初始化;
步骤2.2、令所述多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络,依次包括:第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3;
将所述归一化的训练样本集S输入所述多尺度空间特征提取模块中,并经过所述第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列
Figure GDA0002743750040000021
第二空间特征序列
Figure GDA0002743750040000022
第三空间特征序列
Figure GDA0002743750040000023
其中,Ft 1表示第一空间特征序列F1中第t帧特征图,Ft 2表示第二空间特征序列F2中第t帧特征图,Ft 3表示第三空间特征序列F3中第t帧特征图;
步骤2.2、所述多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列,再由卷积长短期记忆层完成多尺度时间建模;
步骤2.2.1、将所述第一空间特征序列F1、第二空间特征序列F2、第三空间特征序列F3的初始时间长度均设为T;
在时间尺度上,分别以第一采样间隔d1对第一初始空间特征序列F1、以第二采样间隔d2对第二初始空间特征序列F2、以第三采样间隔d3对第三初始空间特征序列F3进行均匀采样,从而得到三个时间长度的第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3
步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3进行时间建模,并以所述卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态HT作为特征输出,从而得到第T帧的第一时空信息特征图
Figure GDA0002743750040000024
第T帧的第二时空信息特征图
Figure GDA0002743750040000025
第T帧的第三时空信息特征图
Figure GDA0002743750040000026
步骤2.3、基于多尺度特征融合模块的特征融合;
步骤2.3.1、将第T帧的第一时空信息特征图
Figure GDA0002743750040000031
经上采样层放大两倍后与第T帧的第二时空信息特征图特征图
Figure GDA0002743750040000032
连接,得到第T帧连接后的两个尺度的时空特征融合图;
步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图
Figure GDA0002743750040000033
连接,得到第T帧连接后的三个尺度的时空特征融合图;
步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后,通过另一层卷积层处理后,得到第T帧的得分特征图并输入给sigmoid层,从而得到第T帧前景概率图PT
步骤3、对初始多级时空运动目标检测模型进行离线训练,从而得到最优多级时空运动目标检测模型:
采用式(1)计算第T帧前景概率图PT与像素级标签GT之间的焦点损失值Loss,并使用自适应矩估计优化方法以学习率l_rate来更新网络权值,并在损失值Loss趋于稳定时完成离线训练;
Figure GDA0002743750040000034
式(1)中,K是一帧图像的总像素数,PT(k)为第T帧前景概率图PT中第k个像素是前景的概率值,GT(k)为第T帧前景概率图PT所对应的像素级标签中第k个像素的真实值,γ是可调焦距参数,a是权重因子;
步骤4、利用所述最优多级时空运动目标检测模型对任一短视频序列进行预测,得到预测的第T帧前景概率图;
将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较,并将大于阈值M的所有像素值设为前景,其余像素值设为背景,从而完成二值化阈值分割处理,并得到运动目标分割结果。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过构建多尺度时空网络,从输入短视频序列中提取有效的多尺度时空特征,并从这些特征中提取出像素级前景目标分割结果,解决了现有运动目标检测技术鲁棒性差,提取的特征不够完整等问题,实现了视频中前景目标的自动检测,且不需要任何复杂的后处理模块,降低了检测的复杂度。
2、本发明能够实现端到端的训练和预测,与传统的背景算法相比,端到端的结构能将复杂的背景建模及更行过程简化成一个简单的像素级分类过程,不需要手工制作复杂的视觉特征,通过训练使网络具有时空特征提取能力。
3、本发明通过融合不同尺度的空间信息,能有效减轻因池化层导致的特征信息的损失,获得丰富的细节场景信息,进而加强了网络对小尺度前景目标和局部边缘的敏感性,最终提高了前景目标分割的精度。
4、本发明利用时间采样生成不同尺度的时空特征序列,通过ConvLSTM对时空特征序列进行时间上的多尺度时间建模,学习时间信息,使模型能有效地处理空间(颜色、纹理等)特征严重丢失的视频场景,且提高了不同运动速率的前景目标的检测精度。
附图说明
图1为本发明方法流程示意图;
图2为本发明多级时空神经网络的结构图;
图3a为本发明测试集中部分短视频序列中第T帧图像;
图3b为本发明测试集中部分短视频序列中第T帧图像所对应的标签图像;
图3c为本发明使用多尺度时空网络得到的二值化分割图像。
具体实施方式
本实施例中,一种基于深度学习的多尺度时空运动目标检测方法,主要是利用卷积神经网络(CNN)和卷积长短期记忆网络(ConvLSTM)提取视频序列中的多尺度时空特征,并通过融合多尺度时空特征生成前景分割图,如图1所示,具体步骤如下:
步骤1、获取带有像素级标签的视频数据集并进行分割,得到N个T帧的短视频序列并进行归一化处理,得到归一化的训练样本集记为S={S1,S2,...,Sn,...,SN};Sn表示第n个归一化后的短视频序列,且
Figure GDA0002743750040000041
Figure GDA0002743750040000042
表示第n个归一化后的短视频序列Sn中第t帧图像;n=1,2,...,N;t=1,2,...,T;本实施例利用公开的视频数据集CDnet2014做训练和测试,其包含了多种挑战性的视频场景,包括:动态背景、阴影、恶劣天气、低帧率、相机运动、间歇性物体运动、湍流;将数据集CDnet2014的70%用于训练,其余30%用于测试;如图3a所示,为测试集中部分短视频序列中第T帧图像;如图3b所示,为测试集中部分短视频序列中第T帧图像所对应的标签图像。
在本实验测试中,短视频序列的时间长度T取14,但不局限于此取值。
步骤2、建立多尺度时空网络模型,多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间提取模块和多尺度特征融合模块组成;
步骤2.1、权值初始化:
令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值,使卷积核满足均匀分布
Figure GDA0002743750040000051
cin、cout分别为卷积核所在层的输入维度和输出维度;
令三个卷积长短期记忆网络层ConvLSTM使用高斯分布N(0,0.01)进行初始化权值,卷积核尺寸为3×3,个数为128;
令上采样层通过反卷积实现,反卷积核尺寸为3×3,个数为128,步长为2,使用双线性插值初始化,且反卷积核是可训练的。
步骤2.2、如图2左半部分所示,多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络,依次包括:第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3;利用的全卷积神经网络逐层提取的深度空间特征,比传统的颜色、纹理、梯度等低级视觉特征具有更好的语义表达能力及抗噪能力;
将归一化的训练样本集S输入多尺度空间特征提取模块中,并经过第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列
Figure GDA0002743750040000052
第二空间特征序列
Figure GDA0002743750040000053
第三空间特征序列
Figure GDA0002743750040000054
其中,Ft 1表示第一空间特征序列F1中第t帧特征图,Ft 2表示第二空间特征序列F2中第t帧特征图,Ft 3表示第三空间特征序列F3中第t帧特征图;Ft 1、Ft 2、Ft 3尺寸分别是输入帧It的1/2、1/4、1/8,包含了不同的空间尺度的信息,既可以表达输入视频帧深度语义信息,又可以保留其细节信息;
步骤2.2、如图2中间部分所示,多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列,再由卷积长短期记忆层完成多尺度时间建模;
步骤2.2.1、将第一空间特征序列F1、第二空间特征序列F2、第三空间特征序列F3的初始时间长度均设为T;
在时间尺度上,分别以第一采样间隔d1对第一空间特征序列F1、以第二采样间隔d2对第二空间特征序列F2、以第三采样间隔d3对第三空间特征序列F3进行均匀采样,从而得到三个时间长度的第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3
步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3进行时间建模,并以卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态HT作为特征输出,从而得到第T帧的第一时空信息特征图
Figure GDA0002743750040000061
第T帧的第二时空信息特征图
Figure GDA0002743750040000062
第T帧的第三时空信息特征图
Figure GDA0002743750040000063
本实例中,d1、d2、d3的值分别取1,2,3,但不局限于此取值;由于采样间隔不同,经采样得到的时空特征序列SF1、SF2、SF3包含了不同尺度的时空信息,对SF1、SF2、SF3进行时间建模以学习多尺度时间信息;
步骤2.3、如图2右半部分所示,基于多尺度特征融合模块进行特征融合处理,从而得到初始多级时空运动目标检测模型;
由于尺寸不同,两个特征图连接之前,需要将尺寸小的特征图进行放上采样放大,使两个特征图的尺寸一致;
步骤2.3.1、将第T帧的第一时空信息特征图
Figure GDA0002743750040000064
经上采样层放大两倍后与第T帧的第二时空信息特征图特征图
Figure GDA0002743750040000065
连接,得到第T帧连接后的两个尺度的时空特征融合图;
步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图
Figure GDA0002743750040000066
连接,得到第T帧连接后的三个尺度的时空特征融合图;
步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后,通过另一个卷积核尺寸为1×1的1通道卷积层处理后,得到第T帧的得分特征图并输入给sigmoid层,从而得到第T帧前景概率图PT
步骤3、对初始多级时空运动目标检测模型进行离线训练,从而得到最优多级时空运动目标检测模型:
采用式(1)计算第T帧前景概率图PT与像素级标签GT之间的焦点损失值Loss,并使用自适应矩估计优化方法以学习率l_rate来更新网络权值,为了防止陷入局部最优解,在训练过程中对学习速率l_rate进行线性衰减,使损失值Loss不断减小直至稳定,完成离线训练;
Figure GDA0002743750040000067
式(1)中,K是一帧图像的总像素数,PT(k)为第T帧前景概率图PT第k个像素是前景的概率值,GT(k)为PT所对应像素级标签第k个像素的真实值,γ是可调焦距参数,a是权重因子。α,1-α能平衡背景和前景的重要性;(1-PT(n))γ,PT(n)γ组成的调制因子,能够进一步减少易分类背景像素的损失贡献,增加难分类前景像素的损失贡献。
本实例中,学习率l_rate初始值设置为5e-5,权重因子α,可调焦距γ分别设置为0.5,2;
步骤4、利用最优多级时空运动目标检测模型对任一短视频序列进行预测,得到预测的第T帧前景概率图;
将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较,并将大于阈值M的所有像素值设为前景,其余像素值设为背景,从而完成二值化阈值分割处理,并得到运动目标分割结果;本实例中,阈值M设置为0.5。如图3c所示,为本发明使用多尺度时空网络预测得到的二值化分割图像;将图3c中的分割图像与图3b中对应的标签图像进行比较,可以看出,本发明方法对运动目标的分割结果非常接近标签图像,运动目标与背景具有清晰的边缘轮廓,且精确地保留了不同尺寸的运动目标的细节信息。

Claims (1)

1.一种基于深度学习的多级时空运动目标检测方法,其特征是按如下步骤进行:
步骤1、获取带有像素级标签的视频数据集并进行分割,得到N个T帧的短视频序列并进行归一化处理,得到归一化的训练样本集记为S={S1,S2,...,Sn,...,SN};Sn表示第n个归一化后的短视频序列,且
Figure FDA0002136087670000011
Figure FDA0002136087670000012
表示第n个归一化后的短视频序列Sn中第t帧图像;n=1,2,...,N;t=1,2,...,T;
步骤2、建立多尺度时空网络模型,所述多尺度时空网络模型由多尺度空间特征提取模块、多尺度时间特征 提取模块和多尺度特征融合模块组成;
步骤2.1、权值初始化:
令多尺度时空网络模型中的所有卷积层均使用Xavier方法进行初始化权值;
令三个卷积长短期记忆网络层ConvLSTM使用高斯分布进行初始化权值;
令上采样层通过反卷积实现,反卷核使用双线性插值初始化;
步骤2.2、令所述多尺度空间特征提取模块由VGG16模型的前13层构成的全卷积神经网络,依次包括:第一卷积层1、第一卷积层2、第一池化层、第二卷积层1、第二卷积层2、第二池化层、第三卷积层1、第三卷积层2、第三卷积层3、第三池化层、第四卷积层1、第四卷积层2、第四卷积层3;
将所述归一化的训练样本集S输入所述多尺度空间特征提取模块中,并经过所述第二卷积层2、第三卷积层3、第四卷积层3分别输出第一空间特征序列
Figure FDA0002136087670000013
第二空间特征序列
Figure FDA0002136087670000014
第三空间特征序列
Figure FDA0002136087670000015
其中,Ft 1表示第一空间特征序列F1中第t帧特征图,Ft 2表示第二空间特征序列F2中第t帧特征图,Ft 3表示第三空间特征序列F3中第t帧特征图;
步骤2.2、所述多尺度时间特征提取模块通过时间采样操作产生不同时间长度的特征序列,再由卷积长短期记忆层完成多尺度时间建模;
步骤2.2.1、将所述第一空间特征序列F1、第二空间特征序列F2、第三空间特征序列F3的初始时间长度均设为T;
在时间尺度上,分别以第一采样间隔d1对第一初始空间特征序列F1、以第二采样间隔d2对第二初始空间特征序列F2、以第三采样间隔d3对第三初始空间特征序列F3进行均匀采样,从而得到三个时间长度的第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3
步骤2.2.2、采用三个卷积长短期记忆网络层ConvLSTM分别对第一时空特征序列SF1、第二时空特征序列SF2、第三时空特征序列SF3进行时间建模,并以所述卷积长短期记忆网络层ConvLSTM的最终第T个隐层状态HT作为特征输出,从而得到第T帧的第一时空信息特征图
Figure FDA0002136087670000021
第T帧的第二时空信息特征图
Figure FDA0002136087670000022
第T帧的第三时空信息特征图
Figure FDA0002136087670000023
步骤2.3、基于多尺度特征融合模块的特征融合;
步骤2.3.1、将第T帧的第一时空信息特征图
Figure FDA0002136087670000024
经上采样层放大两倍后与第T帧的第二时空信息特征图特征图
Figure FDA0002136087670000025
连接,得到第T帧连接后的两个尺度的时空特征融合图;
步骤2.3.2、将第T帧连接后的两个尺度的时空特征融合图经上采样层放大两倍后与第T帧的第三时空信息特征图
Figure FDA0002136087670000026
连接,得到第T帧连接后的三个尺度的时空特征融合图;
步骤2.3.3、将第T帧连接后的三个尺度的时空特征融合图经上采样层放大两倍后,通过另一层卷积层处理后,得到第T帧的得分特征图并输入给sigmoid层,从而得到第T帧前景概率图PT
步骤3、对初始多级时空运动目标检测模型进行离线训练,从而得到最优多级时空运动目标检测模型:
采用式(1)计算第T帧前景概率图PT与像素级标签GT之间的焦点损失值Loss,并使用自适应矩估计优化方法以学习率l_rate来更新网络权值,并在损失值Loss趋于稳定时完成离线训练;
Figure FDA0002136087670000027
式(1)中,K是一帧图像的总像素数,PT(k)为第T帧前景概率图PT中第k个像素是前景的概率值,GT(k)为第T帧前景概率图PT所对应的像素级标签中第k个像素的真实值,γ是可调焦距参数,a是权重因子;
步骤4、利用所述最优多级时空运动目标检测模型对任一短视频序列进行预测,得到预测的第T帧前景概率图;
将预测的第T帧前景概率图中的每个像素值分别与阈值M进行比较,并将大于阈值M的所有像素值设为前景,其余像素值设为背景,从而完成二值化阈值分割处理,并得到运动目标分割结果。
CN201910653504.6A 2019-07-19 2019-07-19 一种基于深度学习的多级时空运动目标检测方法 Active CN110378288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910653504.6A CN110378288B (zh) 2019-07-19 2019-07-19 一种基于深度学习的多级时空运动目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910653504.6A CN110378288B (zh) 2019-07-19 2019-07-19 一种基于深度学习的多级时空运动目标检测方法

Publications (2)

Publication Number Publication Date
CN110378288A CN110378288A (zh) 2019-10-25
CN110378288B true CN110378288B (zh) 2021-03-26

Family

ID=68254111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910653504.6A Active CN110378288B (zh) 2019-07-19 2019-07-19 一种基于深度学习的多级时空运动目标检测方法

Country Status (1)

Country Link
CN (1) CN110378288B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160154B (zh) * 2019-12-16 2023-09-22 浙江大学 串级时空特征融合远距离弱小目标视觉检测方法
CN111179246B (zh) * 2019-12-27 2021-01-29 中国科学院上海微系统与信息技术研究所 一种像素位移量确认方法、装置、电子设备及存储介质
CN111626090B (zh) * 2020-03-03 2023-07-07 湖南理工学院 一种基于深度帧差卷积神经网络的运动目标检测方法
CN111489372B (zh) * 2020-03-11 2022-10-18 天津大学 基于级联卷积神经网络的视频前背景分离方法
CN111814543B (zh) * 2020-06-01 2023-07-21 湖南科技大学 深度视频对象修复篡改检测方法
CN111639719B (zh) * 2020-06-08 2023-04-07 安徽大学 基于时空运动和特征融合的足迹图像检索方法
CN112036300B (zh) * 2020-08-31 2022-08-05 合肥工业大学 一种基于多尺度时空传播层的运动目标检测方法
CN112288776B (zh) * 2020-10-26 2022-06-24 杭州电子科技大学 一种基于多时间步金字塔编解码器的目标跟踪方法
CN112446426A (zh) * 2020-11-23 2021-03-05 中国科学技术大学 摔倒检测方法、装置、电子设备及存储介质
CN112967322B (zh) * 2021-04-07 2023-04-18 深圳创维-Rgb电子有限公司 运动目标检测模型建立方法和运动目标检测方法
CN113111822B (zh) * 2021-04-22 2024-02-09 深圳集智数字科技有限公司 用于拥堵识别的视频处理方法、装置与电子设备
CN113177481B (zh) * 2021-04-29 2023-09-29 北京百度网讯科技有限公司 目标检测方法、装置、电子设备及存储介质
CN114429607B (zh) * 2022-01-24 2024-03-29 中南大学 一种基于Transformer的半监督视频目标分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109800689A (zh) * 2019-01-04 2019-05-24 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9904852B2 (en) * 2013-05-23 2018-02-27 Sri International Real-time object detection, tracking and occlusion reasoning
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
US10521699B2 (en) * 2017-10-12 2019-12-31 Lawrence Livermore National Security, Llc Multi-scale deep learning system
US10679085B2 (en) * 2017-10-31 2020-06-09 University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image
CN108492319B (zh) * 2018-03-09 2021-09-03 西安电子科技大学 基于深度全卷积神经网络的运动目标检测方法
CN109284670B (zh) * 2018-08-01 2020-09-25 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109961019B (zh) * 2019-02-28 2021-03-26 华中科技大学 一种时空行为检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108182388A (zh) * 2017-12-14 2018-06-19 哈尔滨工业大学(威海) 一种基于图像的运动目标跟踪方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109800689A (zh) * 2019-01-04 2019-05-24 西南交通大学 一种基于时空特征融合学习的目标跟踪方法
CN109886090A (zh) * 2019-01-07 2019-06-14 北京大学 一种基于多时间尺度卷积神经网络的视频行人再识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Multiscale Fully Convolutional Network for Foreground Object Detection in Infrared Videos;Dongdong Zeng等;《IEEE Geoscience and Remote Sensing Letters》;20180430;617-621 *
Space-Range-Doppler Focus-Based Low-observable Moving Target Detection Using Frequency Diverse Array MIMO Radar;Xiaolong Chen等;《IEEE Access》;20180806;43892-43904 *
基于鲁棒主成分分析的运动目标检测优化算法;杨依忠等;《电子与信息学报》;20180630;1309-1315 *
复杂扰动背景下时空特征动态融合的视频显著性检测;陈昶安等;《计算机辅助设计与图形学学报》;20160531;802-812 *

Also Published As

Publication number Publication date
CN110378288A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110378288B (zh) 一种基于深度学习的多级时空运动目标检测方法
Jia et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot
CN108492319B (zh) 基于深度全卷积神经网络的运动目标检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN108460764B (zh) 基于自动上下文和数据增强的超声图像智能分割方法
CN107016357B (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN111260738A (zh) 基于相关滤波和自适应特征融合的多尺度目标跟踪方法
CN112036300B (zh) 一种基于多尺度时空传播层的运动目标检测方法
CN111401293B (zh) 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法
CN107767416B (zh) 一种低分辨率图像中行人朝向的识别方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN109919073B (zh) 一种具有光照鲁棒性的行人再识别方法
CN104766065B (zh) 基于多视角学习的鲁棒性前景检测方法
CN107506792B (zh) 一种半监督的显著对象检测方法
CN110415260B (zh) 基于字典与bp神经网络的烟雾图像分割与识别方法
CN105741319B (zh) 基于盲目更新策略和前景模型的改进视觉背景提取方法
CN109886176B (zh) 复杂驾驶场景下的车道线检测方法
CN110555868A (zh) 一种复杂地面背景下运动小目标检测方法
CN108038515A (zh) 无监督多目标检测跟踪方法及其存储装置与摄像装置
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
Wang et al. Removing background interference for crowd counting via de-background detail convolutional network
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
CN115937254B (zh) 一种基于半监督学习的多空中飞行目标跟踪方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant