CN113269054A - 一种基于时空2d卷积神经网络的航拍视频分析方法 - Google Patents

一种基于时空2d卷积神经网络的航拍视频分析方法 Download PDF

Info

Publication number
CN113269054A
CN113269054A CN202110485470.1A CN202110485470A CN113269054A CN 113269054 A CN113269054 A CN 113269054A CN 202110485470 A CN202110485470 A CN 202110485470A CN 113269054 A CN113269054 A CN 113269054A
Authority
CN
China
Prior art keywords
neural network
convolutional neural
aerial
aerial video
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110485470.1A
Other languages
English (en)
Other versions
CN113269054B (zh
Inventor
杨烽
张健
袁湘粤
赵悦
秦安勇
廖文平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110485470.1A priority Critical patent/CN113269054B/zh
Publication of CN113269054A publication Critical patent/CN113269054A/zh
Application granted granted Critical
Publication of CN113269054B publication Critical patent/CN113269054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于遥感影像智能化分析领域,具体涉及一种基于时空2D卷积神经网络的航拍视频分析方法,该方法包括实时获取航拍视频数据,对获取的航拍视频数据进行预处理;将预处理后的航拍视频数据输入到训练好的航拍视频识别模型中进行识别分析处理;对识别结果进行统计分析;所述航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征融合模块FFM,所述长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM设置在2D卷积神经网络中;本发明采用改进的2D卷积神经网络模型并结合长时序特征提取模块、短期运动特征提取模块和特征融合模块,提高了计算效率以及航拍视频的识别准确率。

Description

一种基于时空2D卷积神经网络的航拍视频分析方法
技术领域
本发明属于遥感影像智能化分析领域,具体涉及一种基于时空2D卷积神经网络的航拍视频分析方法。
背景技术
随着遥感与计算机视觉领域的不断发展,由于无人机能以较低的成本提供实时的高分辨率视频,能显著地减少对天气和环境的依赖,以更高的灵活性来面对现实中的各种问题。但是随着无人机制造工艺的不断完善,使得空中的无人机越来越多,对应创建的视频数据也越来越多,如何对这些视频数据进行自动识别分析是非常重要的。
现有的视频处理方法包括两类,一类是基于双流的神经网络方法,另一类是基于3D卷积神经网络的方法。基于双流的神经网络方法是指以RGB帧为输入的RGB流和以光流帧为输入的光流,RGB流对外观特征进行建模,而光流对时序特征进行建模;但是光流无法捕获长时序信息,而且在空间和时间上对光流进行提取的计算量是非常巨大的,这就限制了其在工业中的广泛应用。基于3D卷积神经网络的方法是采用3D卷积从扩展的时间维度上捕捉时间特征和空间特征,同时通过叠加3D卷积捕获长时序信息;但是3D卷积计算成本同样非常巨大,无法在边缘设备上进行部署。由于以上现有技术中处理视频方法的计算量较大,不能高效的处理数据,急需一种新的方法对视频数据进行处理。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种基于时空2D卷积神经网络的航拍视频分析方法,该方法包括:实时获取航拍视频数据,对获取的航拍视频数据进行预处理;将预处理后的航拍视频数据输入到训练好的航拍视频识别模型中进行识别分析处理;对识别结果进行统计分析;所述航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征融合模块FFM,长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM均设置在2D卷积神经网络中。
优选的,对航拍视频数据进行预处理包括:将实时获取的每个无人机航拍视频数据分为等长的T个片段,从每个片段中随机抽取一帧数据形成T帧输入序列。
优选的,航拍视频识别模型中的2D卷积神经网络为Resnet-50卷积神经网络,该网络包括一个卷积层、十六个Building block结构、一个全连接层以及一个平均池化层;将长时序特征提取模块LTFE和短期运动特征提取模块SMFE并联插入到每个Building block结构的残差块中,并用特征融合模块FFM将长时序特征和短期运动特征进行融合,构成航拍视频识别模型。
优选的,对航拍视频识别模型进行训练的过程包括:
S1:获取原始航拍数据集,对原始航拍数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理,生成T帧输入序列;
S2:将T帧输入序列输入到航拍视频识别模型中进行训练;
S3:将T帧输入序列输入到航拍视频识别模型的卷积层中进行局部特征提取,得到局部特征图;
S4:将局部特征图输入到各个Building block结构中,得到融合特征;
S5:将所有的融合特征输入到全连接层和平均池化层,得到每一帧图像的分类向量;
S6:采用Softmax函数对分类向量进行归一化处理,得到分类结果;
S7:根据分类结果计算模型的损失函数,不断调整模型的参数,当损失函数最小时完成模型的训练,得到训练好的航拍视频识别模型。
进一步的,采用Building block结构对局部特征图进行处理的具体过程包括:
S41:采用一层1×1的2D卷积对局部特征图进行卷积处理,减少通道的维数,对局部特征图进行压缩;
S42:将压缩后的局部特征图输入到长时序特征提取模块LTFE中,提取局部特征图的长时序特征;
S43:将压缩后的局部特征图输入到短期运动特征提取模块SMFE中,提取局部特征图的短期运动特征;
S44:将长时序特征和短期运动特征输入到特征融合模块FFM中,得到融合特征。
进一步的,采用长时序特征提取模块LTFE对局部特征进行处理的过程包括:对局部特征图进行reshape操作,改变输入特征图的维度;在时间维度上对改变维度后的特征图进行通道级的1D卷积操作,提取长时序特征;对长时序特征进行reshape操作,将特征图重塑为原始维度,并通过一层3×3的2D卷积对局部空间信息进行建模;将输入特征以及建模后的特征图通过残差连接的方式进行相加,提取长时序信息的同时保留原始空间信息,得到局部特征图的长时序特征。
进一步的,采用短期运动特征提取模块SMFE对局部特征图进行处理的过程包括:对局部特征图进行一层1×1的2D卷积操作,降低通道数;对降低通道数后的局部特征图进行时序分割操作,并计算分割后所得相邻特征图之间的差异;提取相邻特征图之间的运动特征,对所有的运动特征通过Concate操作进行合并,构建运动矩阵;将运动矩阵输入到全局平均池化层,得到空间信息;采用一层2D卷积将特征图通道扩展为原始通道尺寸,同时利用Sigmoid函数得到运动注意权重值;对运动注意权重值和局部特征图进行通道级乘积,并将乘积结果与局部特征图输入到残差连接,得到与运动特征信息相关的通道并保留整体的空间背景信息。
进一步的,对长时序特征和短期运动特征进行融合的过程包括:利用两次仿射变换将长时序特征从单模态映射到多模态中;采用元素级求和、通道级乘积和残差连接的方式对多模态长时序特征和短期运动特征的相关关系进行融合,得到融合特征;得到融合特征的表达式为:
F=(η1(A*)⊙Mo2(A*))+Mo
优选的,分类结果的表达式为:
Figure BDA0003050082370000041
优选的,模型的损失函数为交叉熵损失函数,其表达式为:
Figure BDA0003050082370000042
本发明的有益效果在于:
本发明采用改进的2D卷积神经网络模型,提高了计算效率;同时,本发明构建了长时序特征提取模块LTFE和短期运动特征提取模块SMFE,能有效的提取长时序特征和短期运动特征,解决了2D卷积神经网络无法对时序信息进行建模的问题。
附图说明
图1为本发明的整体流程图;
图2为本发明的卷积神经网络框架图;
图3为本发明的长时序提取模块和短期运动特征提取模块插入Resnet网络结构示意图;
图4为本发明的长时序特征提取模块示意图;
图5为本发明的短期运动特征提取模块示意图;
图6为本发明的特征融合模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于时空2D卷积神经网络的航拍视频分析方法,如图1所示,该方法包括:实时获取航拍视频数据,对获取的航拍视频数据进行预处理;将预处理后的航拍视频数据输入到训练好的航拍视频识别模型中进行识别分析处理;对识别结果进行统计分析;所述航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征融合模块FFM,所述长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征提取模块设置在2D卷积神经网络中。
对航拍视频数据进行预处理包括:将获取的每个无人机航拍视频数据分为等长的T个片段,从每个片段中随机抽取一帧数据形成T帧输入序列。在构成T帧输入序列前,将抽取的图像裁剪到224×224的固定尺寸。
航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征提取模块FFM,所述长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM设置在2D卷积神经网络中。本发明的2D卷积神经网络为Resnet-50卷积神经网络,长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM的个数与Resnet-50卷积神经网络中的残差块的个数相同。
优选的,如图2所示,航拍视频识别模型包括一个卷积层、十六个Building block结构、一个全连接层以及一个平均池化层。每个Building block结构中插入LTFE和SMFE模块,其中插入方式如图3所示,将LTFE和SMFE模块并联替换原有Building block结构中3×3的2D卷积层,再通过FFM模块将LTFE和SMFE输出的特征信息进行融合。
对航拍视频识别模型进行训练的过程包括:
S1:获取原始航拍数据集,对原始航拍数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理,生成T帧输入序列;
S2:将T帧输入序列输入到航拍视频识别模型中进行训练;
S3:将T帧输入序列输入到航拍视频识别模型的卷积层中进行局部特征提取,得到局部特征图;
S4:将局部特征图输入到各个Building block结构中,得到融合特征。
S5:将所有的融合特征输入到全连接层和平均池化层,得到每一帧图像的分类向量。
S6:采用Softmax函数对分类向量进行归一化处理,得到分类结果。
S7:根据分类结果计算模型的损失函数,不断调整模型的参数,当损失函数最小时完成模型的训练,得到训练好的航拍视频识别模型。
对原始航拍数据集进行预处理的过程包括:将航拍视频数据集按照7:3的比例划分成训练集和测试集,再对划分好的数据集进行预处理;其中每个航拍视频分成等长的T个片段,并从每个片段中随机抽取一帧,并将抽取后的图像裁剪到224×224的固定尺寸,而后形成T帧输入序列。
将预处理后的数据送入航拍视频识别模型中,输入的T帧序列首先经过一个7×7的2D卷积层,提取每一帧的局部特征,然后在送入Building block结构中,经过一层1×1的2D卷积层,减少通道维数,提升计算效率。将压缩后的特征图分别送入LTFE和SMFE,其中特征图输入为
Figure BDA0003050082370000061
N为批大小,T代表着时间维度,C代表特征通道数,H和W代表着空间分辨率,
Figure BDA0003050082370000062
表示空间向量。
如图4所示,特征图输入LTFE模块后,首先经过reshape操作,将
Figure BDA0003050082370000063
之后在时间维度上进行通道级的1D卷积操作,利用这个操作可以降低计算成本,更加精炼的提取每个通道的语义信息。在形式上,通道级卷积的计算方式可以表示为:
Figure BDA0003050082370000064
其中,
Figure BDA0003050082370000065
表示通道数为c索引值为i的组合权重值,
Figure BDA0003050082370000066
表示的是输入特征序列。Ac,t表示的是经过时域融合后的特征。由于该1D卷积层的卷积核大小为3×1,因此i∈[-1,1]。之后再通过reshape操作将Ac,t重塑为
Figure BDA0003050082370000067
并使用一个3×3的2D卷积来对局部空间信息进行建模,最后将输出特征和原始输入通过残差链接的方式相加,保留各帧原始空间信息的同时提取了长时序信息,其表达式为:
A*=M+Conv(A)sp
其中M表示原始输入,Convsp表示一层3×3的2D卷积,A表示经过通道级时域融合后的特征。
如图5所示,特征图输入SMFE模块后,进入一个1×1的2D卷积来减少通道数,降低计算量,之后再通过时序分割操作将输入特征图在时间维度上分割开来,即
Figure BDA0003050082370000071
之后对特征进行通道级变换,因为在时间步长t处的特征级运动表示可以近似的看作两个相邻帧M(t)与M(t+1)之间的差异,所以得到以下公式:
X(t)=Conv(M(t+1))tran-M(t),1≤t≤T-1
其中,Conv(.)tran表示3×3的2D通道级变换。将步长结束时的运动特征表示为零,即X(T)=0,同时通过Concate操作合并所有运动特征,最终构建运动矩阵[X(1),X(2)…X(T)],再将构建好的运动矩阵送入一个全局平均池化层,来总结空间信息。表达形式如下所示:
X*=Pool(X)
之后利用1×1的2D卷积来将特征图通道扩展为原始通道尺寸,并且利用Sigmoid函数得到对应的运动注意权重值,表达形式如下所示:
W=2γ×Conv(X*)ex-1
其中,Convex表示1×1的2D卷积,γ表示Sigmoid激活函数。而后为了激发与运动信息相关的通道并保留整体的空间背景信息,将原始输入和运动注意权重值进行通道级乘积,并通过残差链接的方式加上原始输入。表达形式如下所示:
Mo=M+W⊙M
其中,⊙表示通道级乘积,Mo表示经过SMFE模块后的输出,M表示原始输入。
如图6所示,长时序特征和短期运动特征一同输入FFM模块。长时序特征通过两次仿射变换,实现单模态到多模态的映射。其中利用两个多层感知器来实现两次仿射变换,之后将短期运动特征与其中一次仿射变换后的特征图进行通道级乘积,再将得到的特征图与另一次仿射变换后的特征图进行元素级求和,而后再通过残差连接的方式加上短期运动特征,从而构建短期运动特征和长时序特征的相关关系,其表达式为:
F=(η1(A*)⊙Mo2(A*))+Mo
其中,A*表示长时序特征,Mo表示短期运动特征,η表示仿射变换,⊙表示通道级乘积。而后再将融合后的特征信息通过一个1×1的2D卷积来恢复成原始通道尺寸。通过16个Building block模块后,将最终输出的特征信息经过一个全连接层和一个平均池化层,得到对应每一帧的分类向量
Figure BDA0003050082370000081
其中Cls表示事件类别数,i表示第i图片。之后使用Softmax函数,对分类向量进行归一化,输出识别结果,表达形式如下:
Figure BDA0003050082370000082
其中,Softmax表示归一化指数函数,Vc表示每一帧分类向量对应的第c个类别的输出,Cls表示事件类别数,j表示第j类事件。将激活后的分类向量记录为Si,Si表示一个各维度和为1,每一个维度代表分为这一类的概率。
定义一个交叉熵损失函数,表达形式如下所示:
Figure BDA0003050082370000083
其中θ表示网络参数,M表示为输入的数据,N表示批大小,Cls表示类别数,
Figure BDA0003050082370000084
表示示性函数,即输入第i样本是否属于类别c,如果是则为1,如果不是则为0;示性函数的表达式为:
Figure BDA0003050082370000085
计算损失函数,返回更新参数,并不断进行迭代,提高模型识别的准确度,当损失函数最小时,航拍视频识别模型训练完成。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,包括:实时获取航拍视频数据,对获取的航拍视频数据进行预处理;将预处理后的航拍视频数据输入到训练好的航拍视频识别模型中进行识别分析;对识别结果进行统计分析;所述航拍视频识别模型包括2D卷积神经网络、长时序特征提取模块LTFE、短期运动特征提取模块SMFE以及特征融合模块FFM,长时序特征提取模块LTFE、短期运动特征提取模块SMFE和特征融合模块FFM均设置在2D卷积神经网络中。
2.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,对航拍视频数据进行预处理包括:将实时获取的每个航拍视频数据分为等长的T个片段,从每个片段中随机抽取一帧数据形成T帧输入序列。
3.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,航拍视频识别模型中的2D卷积神经网络为Resnet-50卷积神经网络,该网络包括一个卷积层、十六个Building block结构、一个全连接层以及一个平均池化层;将长时序特征提取模块LTFE和短期运动特征提取模块SMFE并联插入到每个Building block结构的残差块中,并利用特征融合模块FFM来融合长时序特征和短期运动特征,构成航拍视频识别模型。
4.根据权利要求1所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,对航拍视频识别模型进行训练的过程包括:
S1:获取原始航拍数据集,对原始航拍数据集进行划分,得到训练集和测试集;对训练集中的数据进行预处理,生成T帧输入序列;
S2:将T帧输入序列输入到航拍视频识别模型中进行训练;
S3:将T帧输入序列输入到航拍视频识别模型的卷积层中进行局部特征提取,得到局部特征图;
S4:将局部特征图输入到各个Building block结构中,得到融合特征;
S5:将所有的融合特征输入到全连接层和平均池化层,得到每一帧图像的分类向量;
S6:采用Softmax函数对分类向量进行归一化处理,得到分类结果;
S7:根据分类结果计算模型的损失函数,不断调整模型的参数,当损失函数最小时完成模型的训练,得到训练好的航拍视频识别模型。
5.根据权利要求4所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,采用Building block结构对局部特征图进行处理的具体过程包括:
S41:采用一层1×1的2D卷积对局部特征图进行卷积处理,减少通道的维数,对局部特征图进行压缩;
S42:将压缩后的局部特征图输入到长时序特征提取模块LTFE中,提取局部特征图的长时序特征;
S43:将压缩后的局部特征图输入到短期运动特征提取模块SMFE中,提取局部特征图的短期运动特征;
S44:将长时序特征和短期运动特征输入到特征融合模块FFM中,得到融合特征。
6.根据权利要求5所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,采用长时序特征提取模块LTFE对局部特征进行处理的过程包括:对局部特征图进行reshape操作,改变输入特征图的维度;在时间维度上对改变维度后的特征图进行通道级的1D卷积操作,提取长时序特征;对长时序特征进行reshape操作,将特征图重塑为原始维度,并通过一层3×3的2D卷积对局部空间信息进行建模;将输入特征以及建模后的特征图通过残差连接的方式进行相加,提取长时序信息的同时保留原始空间信息,得到局部特征图的长时序特征。
7.根据权利要求5所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,采用短期运动特征提取模块SMFE对局部特征图进行处理的过程包括:对局部特征图进行一层1×1的2D卷积操作,降低通道数;对降低通道数后的局部特征图进行时序分割操作,并计算分割后所得相邻特征图之间的差异;提取相邻特征图之间的运动特征,对所有的运动特征通过Concate操作进行合并,构建运动矩阵;将运动矩阵输入到全局平均池化层,得到空间信息;采用一层2D卷积将特征图通道扩展为原始通道尺寸,同时利用Sigmoid函数得到运动注意权重值;对运动注意权重值和局部特征图进行通道级乘积,并将乘积结果与局部特征图输入到残差连接,得到与运动特征信息相关的通道并保留整体的空间背景信息。
8.根据权利要求5所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,对长时序特征和短期运动特征进行融合的过程包括:利用两次仿射变换将长时序特征从单模态映射到多模态中;采用元素级求和、通道级乘积和残差连接的方式对多模态长时序特征和短期运动特征的相关关系进行融合,得到融合特征;得到融合特征的表达式为:
F(η1(A*)⊙Mo2(A*))+Mo
其中A*表示长时序特征,Mo表示短期运动特征,η表示仿射变换,⊙表示通道级乘积。
9.根据权利要求4所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,分类结果的表达式为:
Figure FDA0003050082360000031
其中,Softmax表示归一化指数函数,Vc表示每一帧分类向量对应的第c个类别的输出,Cls表示事件类别数,j表示第j类事件。
10.根据权利要求4所述的一种基于时空2D卷积神经网络的航拍视频分析方法,其特征在于,模型的损失函数为交叉熵损失函数,其表达式为:
Figure FDA0003050082360000032
其中,θ表示网络参数,M表示输入的数据,N表示批大小,Cls表示事件类别数,
Figure FDA0003050082360000033
表示示性函数,
Figure FDA0003050082360000034
表示经过Softmax函数后得到的预测结果。
CN202110485470.1A 2021-04-30 2021-04-30 一种基于时空2d卷积神经网络的航拍视频分析方法 Active CN113269054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110485470.1A CN113269054B (zh) 2021-04-30 2021-04-30 一种基于时空2d卷积神经网络的航拍视频分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110485470.1A CN113269054B (zh) 2021-04-30 2021-04-30 一种基于时空2d卷积神经网络的航拍视频分析方法

Publications (2)

Publication Number Publication Date
CN113269054A true CN113269054A (zh) 2021-08-17
CN113269054B CN113269054B (zh) 2022-06-10

Family

ID=77229864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110485470.1A Active CN113269054B (zh) 2021-04-30 2021-04-30 一种基于时空2d卷积神经网络的航拍视频分析方法

Country Status (1)

Country Link
CN (1) CN113269054B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114494981A (zh) * 2022-04-07 2022-05-13 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统
CN114743120A (zh) * 2022-06-10 2022-07-12 深圳联和智慧科技有限公司 一种基于图像识别的路边车辆非法占道检测方法及系统
CN116402811A (zh) * 2023-06-05 2023-07-07 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN117313791A (zh) * 2023-11-30 2023-12-29 青岛科技大学 基于GCL-Peephole的车联网智能无线感知算法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN107330384A (zh) * 2017-06-19 2017-11-07 北京协同创新研究院 一种视频中运动目标跟踪的方法及装置
CN109858407A (zh) * 2019-01-17 2019-06-07 西北大学 一种基于多种信息流特征和异步融合的视频行为识别方法
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
US20190251684A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Method and apparatus with image fusion
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN112541449A (zh) * 2020-12-18 2021-03-23 天津大学 一种基于无人机航拍视角的行人轨迹预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217214A (zh) * 2014-08-21 2014-12-17 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN107330384A (zh) * 2017-06-19 2017-11-07 北京协同创新研究院 一种视频中运动目标跟踪的方法及装置
US20190251684A1 (en) * 2018-02-09 2019-08-15 Samsung Electronics Co., Ltd. Method and apparatus with image fusion
CN109858407A (zh) * 2019-01-17 2019-06-07 西北大学 一种基于多种信息流特征和异步融合的视频行为识别方法
CN109919031A (zh) * 2019-01-31 2019-06-21 厦门大学 一种基于深度神经网络的人体行为识别方法
CN110705412A (zh) * 2019-09-24 2020-01-17 北京工商大学 一种基于运动历史图像的视频目标检测方法
CN111310672A (zh) * 2020-02-19 2020-06-19 广州数锐智能科技有限公司 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN112541449A (zh) * 2020-12-18 2021-03-23 天津大学 一种基于无人机航拍视角的行人轨迹预测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZUXUAN WU等: "Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification", 《MM "15: PROCEEDINGS OF THE 23RD ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 13 October 2015 (2015-10-13), pages 461, XP058076417, DOI: 10.1145/2733373.2806222 *
宦睿智: "基于注意力机制的长时程特征融合的视频行为识别研究与实现", 《中国优秀硕士论文电子期刊网 信息科技辑》, 15 February 2020 (2020-02-15), pages 138 - 1812 *
毛志强: "视频序列中人体异常行为分析技术研究", 《中国优秀硕士论文电子期刊网 信息科技辑》, 15 January 2020 (2020-01-15), pages 138 - 1659 *
马翠红 等: "基于时空双流与局部融合网络的行为识别", 《工业控制计算机》, 25 November 2019 (2019-11-25), pages 71 - 73 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114120077A (zh) * 2022-01-27 2022-03-01 山东融瓴科技集团有限公司 一种基于无人机航拍大数据下的防控风险预警方法
CN114494981A (zh) * 2022-04-07 2022-05-13 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统
CN114494981B (zh) * 2022-04-07 2022-08-05 之江实验室 一种基于多层次运动建模的动作视频分类方法及系统
CN114743120A (zh) * 2022-06-10 2022-07-12 深圳联和智慧科技有限公司 一种基于图像识别的路边车辆非法占道检测方法及系统
CN114743120B (zh) * 2022-06-10 2022-09-06 深圳联和智慧科技有限公司 一种基于图像识别的路边车辆非法占道检测方法及系统
CN116402811A (zh) * 2023-06-05 2023-07-07 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN116402811B (zh) * 2023-06-05 2023-08-18 长沙海信智能系统研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN117313791A (zh) * 2023-11-30 2023-12-29 青岛科技大学 基于GCL-Peephole的车联网智能无线感知算法
CN117313791B (zh) * 2023-11-30 2024-03-22 青岛科技大学 基于GCL-Peephole的车联网智能无线感知算法

Also Published As

Publication number Publication date
CN113269054B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN113269054B (zh) 一种基于时空2d卷积神经网络的航拍视频分析方法
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN107633513B (zh) 基于深度学习的3d图像质量的度量方法
CN112801018B (zh) 一种跨场景目标自动识别与追踪方法及应用
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
CN113111814B (zh) 基于正则化约束的半监督行人重识别方法及装置
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN110147707B (zh) 一种高精度车辆识别方法及系统
CN113158723A (zh) 一种端到端的视频动作检测定位系统
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
CN113255616B (zh) 一种基于深度学习的视频行为识别方法
US20240029402A1 (en) Quick and intelligent ir7-ec network based classification method for concrete image crack type
CN112836646A (zh) 一种基于通道注意力机制的视频行人重识别方法及应用
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN113205002B (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
CN115035298A (zh) 基于多维注意力机制的城市街景语义分割增强方法
CN114005085A (zh) 一种视频中密集人群分布检测与计数方法
CN117581232A (zh) 基于NeRF的机器学习模型的加速训练
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN115393690A (zh) 一种轻量化神经网络的空对地观测多目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant