CN113255464A - 一种飞机动作识别方法及系统 - Google Patents

一种飞机动作识别方法及系统 Download PDF

Info

Publication number
CN113255464A
CN113255464A CN202110481977.XA CN202110481977A CN113255464A CN 113255464 A CN113255464 A CN 113255464A CN 202110481977 A CN202110481977 A CN 202110481977A CN 113255464 A CN113255464 A CN 113255464A
Authority
CN
China
Prior art keywords
flight
time
convolution
video data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110481977.XA
Other languages
English (en)
Inventor
杨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Celinkout Information Technology Co ltd
Original Assignee
Beijing Celinkout Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Celinkout Information Technology Co ltd filed Critical Beijing Celinkout Information Technology Co ltd
Priority to CN202110481977.XA priority Critical patent/CN113255464A/zh
Publication of CN113255464A publication Critical patent/CN113255464A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种飞机动作识别方法及系统,属于目标检测技术领域,本发明的一种飞机动作识别方法,首先对飞行样本视频数据进行预处理得到连续帧训练样本,并将连续帧训练样本输入到飞行动作卷积神经网络中进行训练,得到飞行动作识别模型,最后将实时飞行视频数据输入到飞行动作识别模型完成飞机动作识别。本发明将3D卷积核分为时间和空间两个卷积核并根据时间和空间卷积核建立飞行动作卷积神经网络,可以利用空间卷积模块对每一个视频帧进行二维图像特征的提取,而时间卷积模块可对多个视频帧进行帧间信息的提取,本发明加强了视频特征的传播,使得特征信息在整个神经网络中传播地更好,可以训练更深的识别模型,显著提高飞行动作的识别精度。

Description

一种飞机动作识别方法及系统
技术领域
本发明属于目标检测技术领域,更具体地说,是涉及一种飞机动作识别方法及系统。
背景技术
随着电子信息技术与计算机科学的飞速发展,动作识别在计算机视觉领域发挥着越来越重要的作用。作为计算机视觉领域的一个重要分支,动作识别的主要目标是让计算机对一系列的行为与动作做出正确的识别与分类,其在智能视频监控、交通流量预测、军事作战等领域有广泛的应用。传统的动作识别方法采用的是人工提取运动特征进行识别的方法,但近年来随着深度学习方法理论在图像识别领域的兴起与发展,该方法理论被应用于动作识别领域,使动作识别方法准确率越来越高。深度学习是一种对数据进行表征学习的方法,它通过组合低层特征形成更加抽象的高层特征或属性来实现运动特征提取的自动化,其中卷积神经网络在图像特征提取上表现优异。然而,基于卷积神经网络的特征提取都是针对单张图片进行二维图像的卷积操作,而动作识别为一系列连贯动作,即相邻视频帧的动作都是相互关联的,这使得单一的2D卷积操作忽略了视频流中的动作基于时间变化的信息,因此在动作识别领域难以达到较高的准确率。
根据处理的数据类型不同,动作识别方法可分为基于静态图像的动作识别方法以及基于视频的动作识别方法。
基于静态图像的动作识别方法需要考虑图像中物体的姿态信息以及物体与物体之间的交互信息;基于视频的动作识别方法不仅需要考虑视频每帧的静态空间结构信息,还需要考虑视频中每帧与每帧之间的时变动态信息。
近年来,针对视频的动作识别问题,相关研究人员提出了众多的方法,首先是提出了3D卷积特征提取的神经网络系统,将卷积神经网络扩展到三维卷积神经网络,所构建的3D卷积神经网络可以同时提取时间域和空间域特征来捕获多个相邻视频帧间编码的运动信息来对物体当前动作进行识识别分类;其次还有方法认为一个视频动作序列可以通过输入几个关键视频帧图像来预测动作分类,其余视频帧图像均为冗余的视频帧图像信息,同时提出用于动作识别的关键帧挖掘模型来提取关键帧,在减少参数量的同时提取出更为重要的视频帧图像对物体动作进行识别分类;最后,还有一种方法提出一种融合不同类型的经典描述符和多通道3D卷积神经网络的特征融合方法,用于动作识别分类。
但是上述动作识别方法仍存在一下问题:传统的2D卷积的方法仅仅只能对空间维度进行卷积,不能有效的结合视频数据中的时空信息,会造成分类精度低,分类不准确等问题;3D卷积的方法在对视频流数据进行处理时,由于视频流数据过于庞大,3D卷积核的参数数量设置过多,会存在训练时间较长,调参困难等现象,并且视频资源本身会受到很多因素的影响,如视频背景的杂乱、目标物体的遮挡以及视角的变化等,使得对视频的处理与分析变得非常困难。
发明内容
本发明的目的在于提供一种飞机动作识别方法及系统,旨在解决现有动作识别方法对飞机动作进行分类识别时,分类精度低,训练时间长的问题。
为实现上述目的,本发明采用的技术方案是:一种飞机动作识别方法,包括以下步骤:
步骤1:获取飞机的飞行样本视频数据;
步骤2:对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
步骤3:提取所述预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;
步骤4:将3D卷积核拆分为时间卷积核和空间卷积核;
步骤5:根据所述时间卷积核和空间卷积核建立飞行动作卷积神经网络;
步骤6:将所述连续帧训练样本输入到所述飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,所述飞行动作识别模型是以所述连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
步骤7:获取飞机的实时飞行视频数据;
步骤8:将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别。
优选的,所述步骤2:对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据,包括:
步骤2.1:将所述飞行样本视频数据转换为飞行样本图片序列帧;
步骤2.2:以所述飞行样本图片序列帧中的每帧图片的每个像素点为中心取一个邻域,将所述邻域中的像素值按照从小到大排列,生成像素上升序列;
步骤2.3:取所述像素上升序列的中值所对应的像素值作为中心像素的输出得到中心像素集合;
步骤2.4:根据所述中心像素集合生成预处理后的飞行样本图片序列帧;
步骤2.5:根据所述预处理后的飞行样本图片序列帧生成所述预处理后的飞行样本视频数据。
优选的,所述步骤4:将3D卷积核拆分为时间卷积核和空间卷积核,包括:
将T×H×W的3D卷积核拆分为1×H×W的空间卷积核和T×1×1的时间卷积核,其中T表示卷积核的时间维度,H表示卷积核的高,W表示卷积核的宽。
优选的,所述步骤8:将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别,包括:
步骤8.1:对所述实时飞行视频数据进行预处理生成预处理后的实时飞行视频数据;
步骤8.2:将所述预处理后的实时飞行视频数据转化为实时飞行图片序列帧;
步骤8.3:根据所述实时飞行图片序列帧得到帧间信息;
步骤8.4:采用空间卷积层提取所述实时飞行图片序列帧生成空间特征信息;
步骤8.5:采用时间卷积层提取所述帧间信息生成时间特征信息;
步骤8.6:将所述空间特征信息和所述时间特征信息进行拼接得到联合时空特征;
步骤8.7:将所述联合时空特征依次输入到第一全连接层、第二全连接层和Softmax层得到飞机动作。
优选的,所述步骤8.3:根据所述实时飞行图片序列帧得到帧间信息,包括:
步骤8.3.1:将所述预处理后的实时飞行视频数据转换为实时飞行图片序列帧;
步骤8.3.2:采用差分公式对所述实时飞行图片序列帧进行计算得到差分图片序列帧;其中,所述差分公式为:
Figure BDA0003049606870000041
其中,D(x,y)表示连续两帧图像之间的差分图像,I(t)表示t时刻实时飞行图片序列帧中的图片,I(t-1)表示t-1时刻实时飞行图片序列帧中的图片,T为灰度门限值;
步骤8.3.3:按照时间从小到大的顺序对所述差分图片序列帧进行排列得到所述帧间信息。
优选的,所述步骤8.4:采用空间卷积层提取所述实时飞行图片序列帧生成空间特征信息,包括:
将所述实时飞行图片序列帧依次输入到第一空间卷积层、第二空间卷积层、池化层、第三空间卷积层、第四空间卷积层、第一空间池化层和空间Flatten层中生成空间特征信息;其中,所述第一空间卷积层、所述第二空间卷积层、所述第三空间卷积层和所述第四空间卷积层中的卷积核均为1×3×3的空间卷积核。
优选的,所述步骤8.5:采用时间卷积层提取所述帧间信息生成时间特征信息,包括:
将所述帧间信息依次输入到第一时间卷积层、第二时间卷积层、第一时间池化层、第三时间卷积层、第四时间卷积层、第二时间池化层和时间Flatten层中生成时间特征信息;其中,所述第一时间卷积层、所述第二时间卷积层、所述第三时间卷积层和所述第四时间卷积层中的卷积核均为3×1×1的时间卷积核。
本发明还提供了一种飞机动作识别系统,包括:
飞行样本视频数据获取模块,用于获取飞机的飞行样本视频数据;
预处理模块,用于对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
训练样本提取模块,用于提取所述预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;
卷积核拆分模块,用于将3D卷积核拆分为时间卷积核和空间卷积核;
飞行动作卷积神经网络建立模块,用于根据所述时间卷积核和空间卷积核建立飞行动作卷积神经网络;
飞行动作识别模型生成模块,用于将所述连续帧训练样本输入到所述飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,所述飞行动作识别模型是以所述连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
实时飞行视频数据获取模块,用于获取飞机的实时飞行视频数据;
飞机动作识别模块,用于将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别。
本发明提供的一种飞机动作识别方法及系统的有益效果在于:与现有技术相比,本发明的一种飞机动作识别方法,首先对飞行样本视频数据进行预处理得到连续帧训练样本,并将连续帧训练样本输入到飞行动作卷积神经网络中进行训练,得到飞行动作识别模型,最后将实时飞行视频数据输入到飞行动作识别模型完成飞机动作识别。本发明将3D卷积核分为时间和空间两个卷积核并根据时间和空间卷积核建立飞行动作卷积神经网络,可以利用空间卷积模块对每一个视频帧进行二维图像特征的提取,而时间卷积模块可对多个视频帧进行帧间信息的提取,本发明加强了视频特征的传播,使得特征信息在整个神经网络中的传播过程中保持地更好,可以训练更深的识别模型,显著提高飞行动作的识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种飞机动作识别方法流程图;
图2为本发明实施例提供3D卷积核拆分示意图;
图3为本发明实施例提供的神经网络整体框架流程图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的目的在于提供一种飞机动作识别方法及系统,旨在解决现有动作识别方法对飞机动作进行分类识别时,分类精度低,训练时间长的问题。
请参阅图1,为实现上述目的,本发明采用的技术方案是:一种飞机动作识别方法,包括以下步骤:
S1:获取飞机的飞行样本视频数据;
在本发明中,采用高清相机来拍摄飞机飞行时的视频得到飞行样本视频数据。
S2:对飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
S2具体包括:
S2.1:将飞行样本视频数据转换为飞行样本图片序列帧;
在本发明中可采用绘声绘影等视频编辑软件将飞行样本视频数据转换为飞行样本图片序列帧。
S2.2:以飞行样本图片序列帧中的每帧图片的每个像素点为中心取一个邻域,将邻域中的像素值按照从小到大排列,生成像素上升序列;
S2.3:取像素上升序列的中值所对应的像素值作为中心像素的输出得到中心像素集合;
S2.4:根据中心像素集合生成预处理后的飞行样本图片序列帧;
S2.5:根据预处理后的飞行样本图片序列帧生成预处理后的飞行样本视频数据。
本发明通过对图像进行预处理,可以保留原始图像边缘和细节特征的情况下,对目标图像进行噪声抑制,用来减少不同脉冲噪声对图像的影响,提高后续模型训练精度。
S3:提取预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;其中飞行动作包括:水平飞行、左转弯、右转弯、爬升和下降。
S4:将3D卷积核拆分为时间卷积核和空间卷积核;
采用3D卷积核直接对视频输入数据进行卷积参数量十分庞大,计算量大,致使计算时间长,而且参数的调节也十分困难。为了解决上述问题,把3D卷积核拆分为时间卷积和空间卷积两个部分,分别提取视频图像的时间特征信息以及空间特征信息,减少了参数量,提高了网络计算效率,提升了时间信息以及空间信息的交互,可以极大的减少参数量以及计算量。
S4具体包括:
将T×H×W的3D卷积核拆分为1×H×W的空间卷积核和T×1×1的时间卷积核,其中T表示卷积核的时间维度,H表示卷积核的高,W表示卷积核的宽。
请参阅图2,下面对这一过程进行进一步说明。
H和W分别为卷积核的高和宽,T为卷积核的时间维度,将大小为T×H×W的3D卷积核拆分为1×H×W和T×1×1两种尺寸的卷积核分别对视频流数据进行卷积操作,其中1×H×W卷积核对每一个视频帧进行二维图像特征提取,T×1×1卷积核对多个视频帧进行深度卷积提取帧间信息,从而捕捉运动帧之间的信息。
S5:根据时间卷积核和空间卷积核建立飞行动作卷积神经网络;
S6:将连续帧训练样本输入到飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,飞行动作识别模型是以连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
S7:获取飞机的实时飞行视频数据;
S8:将实时飞行视频数据输入到飞行动作识别模型进行飞机动作识别。
S8具体包括:
S8.1:对实时飞行视频数据进行预处理生成预处理后的实时飞行视频数据;在本发明中,对实时飞行视频数据进行预处理生成预处理后的实时飞行视频数据与S2中对飞行样本视频数据进行预处理的原理是一样的,对此不在赘述。
S8.2:将预处理后的实时飞行视频数据转化为实时飞行图片序列帧;在本发明中可采用绘声绘影等视频编辑软件将飞行样本视频数据转换为飞行样本图片序列帧。
S8.3:根据实时飞行图片序列帧得到帧间信息;
S8.3具体包括:
S8.3.1:将预处理后的实时飞行视频数据转换为实时飞行图片序列帧;
S8.3.2:采用差分公式对实时飞行图片序列帧进行计算得到差分图片序列帧;其中,差分公式为:
Figure BDA0003049606870000091
其中,D(x,y)表示连续两帧图像之间的差分图像,I(t)表示t时刻实时飞行图片序列帧中的图片,I(t-1)表示t-1时刻实时飞行图片序列帧中的图片,T为灰度门限值;
S8.3.3:按照时间从小到大的顺序对差分图片序列帧进行排列得到帧间信息。
本发明利用差分图像作为帧间信息可以很好的反应出各个时间视频的变化情况,增强了视频信息的利用效率。
S8.4:采用空间卷积层提取实时飞行图片序列帧生成空间特征信息;
S8.4具体包括:
将实时飞行图片序列帧依次输入到第一空间卷积层、第二空间卷积层、池化层、第三空间卷积层、第四空间卷积层、第一空间池化层和空间Flatten层中生成空间特征信息;其中,第一空间卷积层、第二空间卷积层、第三空间卷积层和第四空间卷积层中的卷积核均为1×3×3的空间卷积核。
S8.5:采用时间卷积层提取帧间信息生成时间特征信息;
S8.5具体包括:
将帧间信息依次输入到第一时间卷积层、第二时间卷积层、第一时间池化层、第三时间卷积层、第四时间卷积层、第二时间池化层和时间Flatten层中生成时间特征信息;其中,第一时间卷积层、第二时间卷积层、第三时间卷积层和第四时间卷积层中的卷积核均为3×1×1的时间卷积核。
S8.6:将空间特征信息和时间特征信息进行拼接得到联合时空特征;
S8.7:将联合时空特征依次输入到第一全连接层、第二全连接层和Softmax层得到飞机动作。在得到时间特征信息以及空间特征信息之后,若分别处理时间特征信息以及空间特征信息,首先会增加参数计算量,其次特征信息之间的相关性信息没有提取,会减少计算精度。为解决该问题,把时间特征和空间特征进行拼接,得到联合时空特征,对联合时空特征计算每种动作的概率可以增加计算准确性。
下面结合具体的实施例对本发明的技术方案进行进一步说明。
请参考图3,将视频帧图像输入,且选取多个连续帧为一组作为神经网络模型的输入。视频经过预处理,将每一输入帧生成N个通道。将两个数据流分别应用大小为1×3×3和3×1×1的3D卷积,在空间卷积模块中,应用1×3×3卷积核对图像进行处理,该模块通过2个卷积层,1个池化层之后再次经过两个卷积层核一个池化层,最后通过Flatten层将图像特征转变为一维向量输出得到空间特征;在时间卷积模块中,应用3×1×1卷积核对帧间信息进行处理,该模块通过2个卷积层,1个池化层之后再次经过两个卷积层核一个池化层,最后通过Flatten层将帧间信息特征转变为一维向量输出得到时间特征;空间特征和时间特征经过拼接得到联合时空特征,再经过两个全连接层,其中每个全连接层后使用神经元随机失活方法(Dropout)来防止神经元过拟合,最后再通过Softmax层输出每种动作的概率。
本发明还提供了一种飞机动作识别系统,包括:
飞行样本视频数据获取模块,用于获取飞机的飞行样本视频数据;
预处理模块,用于对飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
训练样本提取模块,用于提取预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;
卷积核拆分模块,用于将3D卷积核拆分为时间卷积核和空间卷积核;
飞行动作卷积神经网络建立模块,用于根据时间卷积核和空间卷积核建立飞行动作卷积神经网络;
飞行动作识别模型生成模块,用于将连续帧训练样本输入到飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,飞行动作识别模型是以连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
实时飞行视频数据获取模块,用于获取飞机的实时飞行视频数据;
飞机动作识别模块,用于将实时飞行视频数据输入到飞行动作识别模型进行飞机动作识别。
本发明提供的一种飞机动作识别方法及系统的有益效果在于:与现有技术相比,本发明的一种飞机动作识别方法,首先对飞行样本视频数据进行预处理得到连续帧训练样本,并将连续帧训练样本输入到飞行动作卷积神经网络中进行训练,得到飞行动作识别模型,最后将实时飞行视频数据输入到飞行动作识别模型完成飞机动作识别。本发明通过将原3D卷积拆分为时间和空间两个模块之后,采用1×3×3和3×1×1两种卷积核对视频数据的时间和空间两模块进行卷积,在卷积操作之后接池化层。池化方式选用平均池化(avg-pooling)的方法,以有效保留图像的纹理信息,将两个数据流的信息进行扁平化处理后相互拼接传送到Softmax层计算每种动作的概率。本发明融合时间和空间信息,增加了信息的多样性,更有效地利用了特征信息,且加强了特征传播,使得信息在整个网络中的传播过程中保持地更好,显著提高飞行动作的识别精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种飞机动作识别方法,其特征在于,包括以下步骤:
步骤1:获取飞机的飞行样本视频数据;
步骤2:对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
步骤3:提取所述预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;
步骤4:将3D卷积核拆分为时间卷积核和空间卷积核;
步骤5:根据所述时间卷积核和空间卷积核建立飞行动作卷积神经网络;
步骤6:将所述连续帧训练样本输入到所述飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,所述飞行动作识别模型是以所述连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
步骤7:获取飞机的实时飞行视频数据;
步骤8:将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别。
2.如权利要求1所述的一种飞机动作识别方法,其特征在于,所述步骤2:对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据,包括:
步骤2.1:将所述飞行样本视频数据转换为飞行样本图片序列帧;
步骤2.2:以所述飞行样本图片序列帧中的每帧图片的每个像素点为中心取一个邻域,将所述邻域中的像素值按照从小到大排列,生成像素上升序列;
步骤2.3:取所述像素上升序列的中值所对应的像素值作为中心像素的输出得到中心像素集合;
步骤2.4:根据所述中心像素集合生成预处理后的飞行样本图片序列帧;
步骤2.5:根据所述预处理后的飞行样本图片序列帧生成所述预处理后的飞行样本视频数据。
3.如权利要求2所述的一种飞机动作识别方法,其特征在于,所述步骤4:将3D卷积核拆分为时间卷积核和空间卷积核,包括:
将T×H×W的3D卷积核拆分为1×H×W的空间卷积核和T×1×1的时间卷积核,其中T表示卷积核的时间维度,H表示卷积核的高,W表示卷积核的宽。
4.如权利要求3所述的一种飞机动作识别方法,其特征在于,所述步骤8:将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别,包括:
步骤8.1:对所述实时飞行视频数据进行预处理生成预处理后的实时飞行视频数据;
步骤8.2:将所述预处理后的实时飞行视频数据转化为实时飞行图片序列帧;
步骤8.3:根据所述实时飞行图片序列帧得到帧间信息;
步骤8.4:采用空间卷积层提取所述实时飞行图片序列帧生成空间特征信息;
步骤8.5:采用时间卷积层提取所述帧间信息生成时间特征信息;
步骤8.6:将所述空间特征信息和所述时间特征信息进行拼接得到联合时空特征;
步骤8.7:将所述联合时空特征依次输入到第一全连接层、第二全连接层和Softmax层得到飞机动作。
5.如权利要求4所述的一种飞机动作识别方法,其特征在于,所述步骤8.3:根据所述实时飞行图片序列帧得到帧间信息,包括:
步骤8.3.1:将所述预处理后的实时飞行视频数据转换为实时飞行图片序列帧;
步骤8.3.2:采用差分公式对所述实时飞行图片序列帧进行计算得到差分图片序列帧;其中,所述差分公式为:
Figure FDA0003049606860000031
其中,D(x,y)表示连续两帧图像之间的差分图像,I(t)表示t时刻实时飞行图片序列帧中的图片,I(t-1)表示t-1时刻实时飞行图片序列帧中的图片,T为灰度门限值;
步骤8.3.3:按照时间从小到大的顺序对所述差分图片序列帧进行排列得到所述帧间信息。
6.如权利要求5所述的一种飞机动作识别方法,其特征在于,所述步骤8.4:采用空间卷积层提取所述实时飞行图片序列帧生成空间特征信息,包括:
将所述实时飞行图片序列帧依次输入到第一空间卷积层、第二空间卷积层、池化层、第三空间卷积层、第四空间卷积层、第一空间池化层和空间Flatten层中生成空间特征信息;其中,所述第一空间卷积层、所述第二空间卷积层、所述第三空间卷积层和所述第四空间卷积层中的卷积核均为1×3×3的空间卷积核。
7.如权利要求6所述的一种飞机动作识别方法,其特征在于,所述步骤8.5:采用时间卷积层提取所述帧间信息生成时间特征信息,包括:
将所述帧间信息依次输入到第一时间卷积层、第二时间卷积层、第一时间池化层、第三时间卷积层、第四时间卷积层、第二时间池化层和时间Flatten层中生成时间特征信息;其中,所述第一时间卷积层、所述第二时间卷积层、所述第三时间卷积层和所述第四时间卷积层中的卷积核均为3×1×1的时间卷积核。
8.一种飞机动作识别系统,其特征在于,包括:
飞行样本视频数据获取模块,用于获取飞机的飞行样本视频数据;
预处理模块,用于对所述飞行样本视频数据进行预处理生成预处理后的飞行样本视频数据;
训练样本提取模块,用于提取所述预处理后的飞行样本视频数据中飞机的各个飞行动作作为连续帧训练样本;
卷积核拆分模块,用于将3D卷积核拆分为时间卷积核和空间卷积核;
飞行动作卷积神经网络建立模块,用于根据所述时间卷积核和空间卷积核建立飞行动作卷积神经网络;
飞行动作识别模型生成模块,用于将所述连续帧训练样本输入到所述飞行动作卷积神经网络中进行训练,得到飞行动作识别模型;其中,所述飞行动作识别模型是以所述连续帧训练样本为输入,以各个飞机动作为输出进行训练得到的;
实时飞行视频数据获取模块,用于获取飞机的实时飞行视频数据;
飞机动作识别模块,用于将所述实时飞行视频数据输入到所述飞行动作识别模型进行飞机动作识别。
CN202110481977.XA 2021-04-30 2021-04-30 一种飞机动作识别方法及系统 Pending CN113255464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110481977.XA CN113255464A (zh) 2021-04-30 2021-04-30 一种飞机动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110481977.XA CN113255464A (zh) 2021-04-30 2021-04-30 一种飞机动作识别方法及系统

Publications (1)

Publication Number Publication Date
CN113255464A true CN113255464A (zh) 2021-08-13

Family

ID=77223817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110481977.XA Pending CN113255464A (zh) 2021-04-30 2021-04-30 一种飞机动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN113255464A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
WO2023108782A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 行为识别模型训练方法及装置、行为识别方法及装置、系统、介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023108782A1 (zh) * 2021-12-15 2023-06-22 深圳先进技术研究院 行为识别模型训练方法及装置、行为识别方法及装置、系统、介质
CN114842554A (zh) * 2022-04-22 2022-08-02 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法
CN114842554B (zh) * 2022-04-22 2024-05-14 北京昭衍新药研究中心股份有限公司 一种基于局部和全局时空特征的群体猴子动作识别方法

Similar Documents

Publication Publication Date Title
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Yang et al. A survey of DNN methods for blind image quality assessment
Pang et al. Visual haze removal by a unified generative adversarial network
CN110580472B (zh) 一种基于全卷积网络和条件对抗网络的视频前景检测方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN110097028B (zh) 基于三维金字塔图像生成网络的人群异常事件检测方法
CN111582122B (zh) 一种监控视频多维度行人行为智能分析系统及方法
CN111582095B (zh) 一种轻量级行人异常行为快速检测方法
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN113255464A (zh) 一种飞机动作识别方法及系统
CN110827265A (zh) 基于深度学习的图片异常检测方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN110929099A (zh) 一种基于多任务学习的短视频帧语义提取方法及系统
CN113011308A (zh) 一种引入注意力机制的行人检测方法
CN112418032A (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN116503776A (zh) 一种基于时间自适应的时空注意力视频行为识别方法
CN116543338A (zh) 一种基于注视目标估计的学生课堂行为检测方法
He et al. MTRFN: Multiscale temporal receptive field network for compressed video action recognition at edge servers
CN114419729A (zh) 一种基于轻量双流网络的行为识别方法
CN114648722A (zh) 一种基于视频多路径时空特征网络的动作识别方法
CN114639166A (zh) 一种基于动作识别的考场异常行为识别方法
Wang et al. Learning hybrid representations of semantics and distortion for blind image quality assessment
CN110414301A (zh) 一种基于双摄头的列车车厢人群密度估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination