CN113111721A - 基于多无人机视角图像数据驱动的人体行为智能识别方法 - Google Patents
基于多无人机视角图像数据驱动的人体行为智能识别方法 Download PDFInfo
- Publication number
- CN113111721A CN113111721A CN202110285423.2A CN202110285423A CN113111721A CN 113111721 A CN113111721 A CN 113111721A CN 202110285423 A CN202110285423 A CN 202110285423A CN 113111721 A CN113111721 A CN 113111721A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- lstm
- human body
- aerial vehicle
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多无人机视角图像数据驱动的人体行为智能识别方法,该方法首先通过不同方位无人机相对于同一人体目标从不同角度、不同高度、不同距离进行观测,采集得到包含目标行为的视频序列,然后分别对每一架无人机采集的视频序列进行处理得到人体关节点坐标序列,接着利用基于LSTM的短时‑长时深度神经网络对人体关节点坐标序列进行时序建模得到单架无人机的人体行为识别结果概率,最后对所有无人机的人体行为识别结果概率进行融合得到人体行为识别结果。与现有技术相比,本发明方法鲁棒性强,有效增强了人体行为识别效果,可适用于各类复杂环境,为无人机人体行为识别任务提供了新的解决办法。
Description
技术领域
本发明涉及无人机视觉行为识别技术领域,尤其是涉及一种基于多无人机视角图像数据驱动的人体行为智能识别方法。
背景技术
人体行为识别是计算机视觉领域的一个重要研究方向。人体行为识别过程的实质是根据所观测目标的行为动作,对其时空关系进行建模,从而判断所观测目标的行为类别。随着人工智能技术和图像处理技术近年来的迅猛发展,人体行为识别技术也迅速获得提升,逐渐应用于人机交互、城市监控系统、运动分析等广阔领域。
无人机作为一种高度集成的无人设备,因其机动灵活性强、部署成本低、可搭载多种传感器、覆盖范围广等特点,从而可以适用于多样化的任务需求。特别是随着控制技术、新材料、计算技术、通讯技术的快速发展,无人机已经大量应用于军事及民用领域。其在搜索救援、实时监控、侦察、交通、有害区域检查和网络延伸等方面的重要性及优势已经得到广泛认可。但由于所侦测目标通常处于动态变化的各类复杂环境中,使得无人机人体行为识别任务无可避免的面对如光照变化、视点变化、外形尺度变化、目标遮挡等诸多不确定性因素,仍然是一项非常具有挑战性的任务。同时,由于无人机这一载体的特殊性,使得人体行为识别方法在无人机平台上的应用存在其特有的挑战,具体地:①由于无人机视角、距离的高速变化,造成目标外形、尺度变化,对于人体姿态的观测可以表现出极大的差异性,同时对目标行为的捕获存在运动模糊等困难,进而可能导致识别错误;②由于目标本身也会存在运动情况,则可能导致目标超出视野或被物体遮挡,使得无人机观测不到目标,进而无法有效判断目标行为,导致任务失败。
目前表现优异的人体行为识别算法多通过深度学习方法获得,可主要分为两类:基于RGB视频流的方法和基于3D人体骨架的方法两大类,前者主要利用卷积神经网络直接处理视频流并得到识别结果。Jeff等人在文献《Long-term Recurrent ConvolutionalNetworks for Visual Recognition and Description》中通过聚合图像序列特征的方法,提出了通过基于预训练卷积神经网络模型和长短时记忆网络聚合时空特征以进行识别,过程较为繁琐;Du等人在文献《Learning spatiotemporal features with 3dconvolutional networks》中提出基于3D CNN的行为识别方法C3D,同时在空间和时间维度上提取特征,从而可以更高效、简洁的捕获视频时空特征。C3D方法基于3D CNN的特性,可以同时对人体外观信息和运动信息进行建模,获取到了更好的识别效果。但此类方法对光照强度的变化较为敏感,且大量的神经网络参数使得其难以适用于计算能力有限的无人机平台。
而后一类行为识别方法首先通过深度相机,如Kinect,获取人体各个关节点的三维空间坐标,继而基于各个关节点的坐标变化情况构建行为识别算法,由于深度相机在光线微弱的环境下也能正常工作,故而该方法对光线变化不敏感。Du等人在文献《Hierarchical recurrent neural network for skeleton based action recognition》提出根据人体骨架的分块结构设计多层次RNN,将各层次子网络提取的特征分层融合进而构建更高层次的骨架信息特征;Liu等人在文献《Skeleton-based human actionrecognition with global context-aware attention LSTM networks》中提出通过引入全局注意力机制来自动挑选动作序列中若干重要的人体关键点,从而弱化次要关键点对动作识别的影响,极大提升了行为识别的效果。但同时,由于深度相机在室外环境中难以正常工作,故而难以适用于无人机绝大多数的工作场景。因此很大程度上限制了无人机行为识别方法识别效果的精确度与鲁棒性。
因此,一种兼具鲁棒性与实用性的高效通用的无人机人体行为识别方法亟待提出。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种兼具鲁棒性与实用性的高效通用的基于多无人机视角图像数据驱动的人体行为智能识别方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多无人机视角图像数据驱动的人体行为智能识别方法,该方法首先通过不同方位无人机相对于同一人体目标从不同角度、不同高度、不同距离进行观测,采集得到包含目标行为的视频序列,然后分别对每一架无人机采集的视频序列进行处理得到人体关节点坐标序列,接着利用基于LSTM的短时-长时深度神经网络对人体关节点坐标序列进行时序建模得到单架无人机的人体行为识别结果概率,最后对所有无人机的人体行为识别结果概率进行融合得到人体行为识别结果。
优选地,该方法具体包括如下步骤:
S1、对于多无人机系统中的单架无人机,读取无人机采集的包含目标行为的视频序列,所述视频序列包含多帧图像;
S2、对视频序列的前N帧图像进行特征提取与处理得到包含人体关节点的人体关节点坐标序列;
S3、对人体关节点坐标序列进行数据处理得到运动特征和余弦相似度特征;
S4、利用基于LSTM的短时-长时深度神经网络对提取的特征进行时序建模得到无人机的人体行为识别结果概率;
S5、对多无人机系统中的其他处于不同方位无人机分别重复上述步骤S1~S4分别得到其他无人机各自的人体行为识别结果概率;
S6、确定多无人机系统中的各个无人机的人体行为识别权重;
S7、对所有无人机的人体行为识别结果概率进行加权融合,并依据非极大值抑制得到人体行为识别结果;
S8、使用步长为1的滑窗法将所有视频序列的后续N帧图像依次重复步骤S2~S7,直至处理完所有视频序列;
S9、判断后续是否还有视频帧输入,如果是,则重复步骤S8,否则结束人体行为识别过程。
优选地,步骤S2具体为:
S21、对N帧图像使用预训练完成的多阶段级联的卷积神经网络模型逐帧提取深度特征,并表示为深度特征图;
S22、对所述的深度特征图按人体关节点位置回归出关于人体关节点的热力图,各个位置的像素值表征该位置是人体关节点的概率大小;
S23、根据人体关节点的热力图,通过局部非极大值抑制方法获取人体各关节点在热力图中的坐标,将热力图中的坐标按多阶段级联的卷积神经网络步长映射回原视频序列图像中的坐标,得到人体关节点在原视频图像中的坐标 t代表N帧图像的第t帧,i表示第i个人体关节点,表示第t帧图像中第i个人体关节点的横坐标,表示第t帧图像中第i个人体关节点的纵坐标,t=1,2,……,N,i=0,1,……,k-1,k表示人体关节点总个数;
优选地,步骤S3中运动特征和余弦相似度特征分别通过如下方式得到:
S31、选取一个人体关节点为参考关节点进行坐标变换:以第一帧图像中参考关节点为原点对所有图像中的人体关节点分别进行坐标变换得到进而得到可表征运动特征的单帧人体关节点的坐标序列以每一帧图像中参考关节点为原点对该帧图像中其他人体关节点分别进行坐标变换得到进而得到可表征余弦相似度特征的单帧人体关节点的坐标序列
优选地,所述的基于LSTM的短时-长时深度神经网络包括短时时序建模分支、长时时序建模分支、余弦相似度建模分支和分支识别结果融合模块;
所述的短时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
所述的长时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
所述的余弦相似度建模分支用于根据余弦相似度特征进行建模得到人体行为识别结果概率;
所述的分支识别结果融合模块用于将各分支的识别结果概率进行加权融合得到单架无人机最终的人体行为识别结果概率。
优选地,所述的短时时序建模分支、短时时序建模分支和余弦相似度建模分支对应包括单个或多个并联的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块,所述的LSTM短时运动特征模块和LSTM长时运动特征模块用于输入运动特征,所述的LSTM余弦相似度特征模块用于输入余弦相似度特征,所述的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块输出分别对应连接特征连接层和特征池化层,对应分支中的特征池化层均连接至一个全连接层,所述的全连接层输出结果依次通过正则化和分类函数输出对应的人体行为识别结果概率。
优选地,所述的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块中均具有不同数量的LSTM工作单元,不同的LSTM单元工作的起始时间步不同,且各分支中LSTM单元的LSTM窗口尺寸也不同;
对于LSTM短时运动特征模块和LSTM长时运动特征模块两者而言,LSTM短时运动特征模块的LSTM单元数量较多,不同的LSTM单元工作的起始时间步相差较小且LSTM窗口尺寸较小,LSTM长时运动特征模块的LSTM单元数量较少,不同的LSTM单元工作的起始时间步相差较大且LSTM窗口尺寸较大。
优选地,步骤S6确定多无人机系统中的各个无人机的人体行为识别权重的具体方式为:
根据各个无人机获取的第一帧图像中的单帧人体关节点的坐标序列计算其最小外接矩形的面积Pj,j=1,2,……,z,z为多无人机系统中无人机数量;
优选地,步骤S7中依据非极大值抑制得到人体行为识别结果的具体方式为:依据非极大值抑制得到融合后的行为类别概率最大值,若此行为类别概率最大值小于所设阈值,则认为此N帧图像的视频序列中不含目标行为,否则通过行为类别概率最大值确定其所属的目标行为类别。
优选地,所述的人体关节点包括鼻子、脖子、肩膀、手肘、手腕、臀部、膝盖、脚踝中的全部或部分。
与现有技术相比,本发明具有如下优点:
(1)本发明设计了一种基于多无人机视角图像数据的数据增广方法,通过各个角度、高度所采集的多无人机视角数据集进行训练,提升了人体行为识别方法对于目标人体姿态差异的适应性;
(2)本发明设计了一种基于LSTM的短时-长时深度神经网络,由短时时序建模分支、长时时序建模分支及余弦相似度建模分支组成,各分支中具有不同数量的LSTM工作单元,不同的LSTM单元工作的起始时间步不同,且各分支的LSTM窗口尺寸也不同,增强了行为动作动态变化时的识别效果;
(3)本发明设计了一种基于多视角无人机系统融合判断目标行为类别的策略,显著提升了单架无人机在视角被遮挡或出现误识别时的识别鲁棒性,所述无人机人体行为识别方法可应用于广泛复杂场景下,为无人机人体行为识别任务提供了新的解决办法。
附图说明
图1为本发明一种基于多无人机视角图像数据驱动的人体行为智能识别方法的流程框图;
图2为本发明人体行为智能识别方法的总体框架图;
图3为基于LSTM的短时-长时深度神经网络的网络架构;
图4为传统多层LSTM模块、短时时序建模LSTM模块以及长时时序建模LSTM模块的结构对比图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于多无人机视角图像数据驱动的人体行为智能识别方法,该方法首先通过不同方位无人机相对于同一人体目标从不同角度、不同高度、不同距离进行观测,采集得到包含目标行为的视频序列,然后分别对每一架无人机采集的视频序列进行处理得到人体关节点坐标序列,接着利用基于LSTM的短时-长时深度神经网络对人体关节点坐标序列进行时序建模得到单架无人机的人体行为识别结果概率,最后对所有无人机的人体行为识别结果概率进行融合得到人体行为识别结果。该方法通过不同方位无人机相对于同一人体目标,从不同角度、不同高度、不同距离进行观测,并通过多无人机视角图像数据联合判断,从而提升了由于无人机视角变化,导致的对于人体姿态观测差异的适应性能力,有效增强了人体行为识别效果。同时证明了所提出的多无人机视角识别结果融合的方法,显著优于单架无人机的人体行为识别精度与鲁棒性。通过引入基于LSTM的短时-长时深度神经网络,同时对时序动作的短期信息及长期信息进行建模,从而实现了针对人体外形差异、行为动作时序差异的判别力。本发明所采用的基于人体姿态数据的行为识别方法,通过人体姿态估计方法处理视频流后获取人体关节点序列数据,后续通过直接处理人体关节点序列数据进行行为识别,避免了需要直接对视频流中的目标外观、所处背景等冗余信息进行处理的行为识别策略,从而使得所述方法可适用于各类复杂环境,为无人机人体行为识别任务提供了新的解决办法。
具体地,结合图1和图2,该方法具体包括如下步骤:
S1、对于多无人机系统中的单架无人机,读取无人机采集的包含目标行为的视频序列,所述视频序列包含多帧图像。
S2、对视频序列的前N帧图像进行特征提取与处理得到包含人体关节点的人体关节点坐标序列,人体关节点包括鼻子、脖子、肩膀、手肘、手腕、臀部、膝盖、脚踝中的全部或部分;
步骤S2具体为:
S21、对N帧图像使用预训练完成的多阶段级联的卷积神经网络模型逐帧提取深度特征,并表示为深度特征图;
S22、对深度特征图按人体关节点位置回归出关于人体关节点的热力图,各个位置的像素值表征该位置是人体关节点的概率大小;
S23、根据人体关节点的热力图,通过局部非极大值抑制方法获取人体各关节点在热力图中的坐标,将热力图中的坐标按多阶段级联的卷积神经网络步长映射回原视频序列图像中的坐标,得到人体关节点在原视频图像中的坐标 t代表N帧图像的第t帧,i表示第i个人体关节点,表示第t帧图像中第i个人体关节点的横坐标,表示第t帧图像中第i个人体关节点的纵坐标,t=1,2,……,N,i=0,1,……,k-1,k表示人体关节点总个数,本实施例中人体关节点包括鼻子、脖子、肩膀(左、右)、手肘(左、右)、手腕(左、右)、臀部(左、右)、膝盖(左、右)、脚踝(左、右)等14个人体关节点;
S3、对人体关节点坐标序列进行数据处理得到运动特征和余弦相似度特征,具体通过如下方式得到:
S31、选取一个人体关节点为参考关节点进行坐标变换,本实施例选取脖子关节点为参考关节点,进而进行坐标变换包括两部分:(1)以第一帧图像中参考关节点为原点对所有图像中的人体关节点分别进行坐标变换得到进而得到可表征运动特征的单帧人体关节点的坐标序列以每一帧图像中参考关节点为原点对该帧图像中其他人体关节点分别进行坐标变换得到进而得到可表征余弦相似度特征的单帧人体关节点的坐标序列
S4、利用基于LSTM的短时-长时深度神经网络对提取的特征进行时序建模得到无人机的人体行为识别结果概率;
S5、对多无人机系统中的其他处于不同方位无人机分别重复上述步骤S1~S4分别得到其他无人机各自的人体行为识别结果概率;
S6、确定多无人机系统中的各个无人机的人体行为识别权重;
S7、对所有无人机的人体行为识别结果概率进行加权融合,并依据非极大值抑制得到人体行为识别结果;
S8、使用步长为1的滑窗法将所有视频序列的后续N帧图像依次重复步骤S2~S7,直至处理完所有视频序列;
S9、判断后续是否还有视频帧输入,如果是,则重复步骤S8,否则结束人体行为识别过程。
如图3所示,基于LSTM的短时-长时深度神经网络包括短时时序建模分支、长时时序建模分支、余弦相似度建模分支和分支识别结果融合模块;
短时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
长时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
余弦相似度建模分支用于根据余弦相似度特征进行建模得到人体行为识别结果概率;
分支识别结果融合模块用于将各分支的识别结果概率进行加权融合得到单架无人机最终的人体行为识别结果概率,此处采用平均加权融合方式,即每个分支得到的人体行为识别结果概率的权重均分别取为1/3。
短时时序建模分支、短时时序建模分支和余弦相似度建模分支对应包括单个或多个并联的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块,LSTM短时运动特征模块和LSTM长时运动特征模块用于输入运动特征,LSTM余弦相似度特征模块用于输入余弦相似度特征,LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块输出分别对应连接特征连接层和特征池化层,对应分支中的特征池化层均连接至一个全连接层,全连接层输出结果依次通过正则化和分类函数输出对应的人体行为识别结果概率。结合图3可知,本实施例中LSTM短时运动特征模块和LSTM长时运动特征模块均设置多个,分别为T1个和T2个,LSTM余弦相似度特征模块设为1个。其中,xs_1、xs_1、…、xs_T1表示基于人体关节点坐标序列所求得的短时运动特征,xl_1、xl_2、…、xl_T2表示长时运动特征,xc表示余弦相似度特征,Concat表示对特征的连接,Sumpool与Meanpool均是特征的池化方法,FC表示全连接层,Dropout为神经网络正则化方式,Softmax代表softmax分类函数。需要说明的是短时运动特征和长时运动特征即为S32中求取的运动特征,通过改变运动补偿系数D的大小使得各分支的运动特征不同,同时LSTM短时运动特征模块和LSTM长时运动特征模块的网络结构也不同,具体在下文进行详细说明。余弦相似度特征xc是由步骤S33中各帧图像的余弦相似度特征组成。
LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块中均具有不同数量的LSTM工作单元,不同的LSTM单元工作的起始时间步不同,且各分支中LSTM单元的LSTM窗口尺寸也不同。
对于LSTM短时运动特征模块和LSTM长时运动特征模块两者而言,LSTM短时运动特征模块的LSTM单元数量较多,不同的LSTM单元工作的起始时间步相差较小且LSTM窗口尺寸较小,LSTM长时运动特征模块的LSTM单元数量较少,不同的LSTM单元工作的起始时间步相差较大且LSTM窗口尺寸较大。通过设置不同的LSTM单元数量和起始时间步间隔,可以得到多组LSTM短时运动特征模块与LSTM长时运动特征模块,从而实现对行为动作时序特征更好的特征捕获与建模。
图4中,(a)为传统多层LSTM模块的结构示意图,(b)为短时时序建模LSTM模块的结构示意图,(c)为长时时序建模LSRM模块的结构示意图。本实施例中LSTM短时运动特征模块采用图4中(b)所示的结构,LSTM长时运动特征模块采用图4中(c)所示的结构。Ns为LSTM短时运动特征模块的LSTM单元数量,ts为LSTM短时运动特征模块中相邻两个LSTM单元工作的起始时间间距,Nl为LSTM长时运动特征模块的LSTM单元数量,tl为LSTM长时运动特征模块中相邻两个LSTM单元工作的起始时间间距,Ns>Nl,ts<tl,虚线箭头表示各个时间步上输入的原始特征,在LSTM短时运动特征模块和LSTM长时运动特征模块中,输入的原始特征即为运动特征(对应为短时运动特征和长时运动特征),图中,第l个LSTM单元与第l+1个LSTM单元之间的实线箭头表示各个时间步上经第l个LSTM单元处理后输出的第l级运动特征,对于LSTM短时运动特征模块来说,l∈[1,Ns-1],对于LSTM短时运动特征模块来说,l∈[1,Nl-1]。
对于LSTM余弦相似度特征模块,采用与LSTM短时运动特征模块和LSTM长时运动特征模块一样的结构(即图4中(b)和(c)所示结构),区别在于LSTM单元数量、相邻两个LSTM单元工作的起始时间间距以及LSTM窗口尺寸大小是根据需求进行设置的,对应地,图4中虚线箭头表示各个时间步上输入的余弦相似度特征,第l个LSTM单元与第l+1个LSTM单元之间的实线箭头表示经第l个LSTM单元处理后输出的第l级余弦相似度特征,l∈[1,Nc-1],Nc为LSTM余弦相似度特征模块中LSTM单元的数量。
对于单架无人机(单视角),使用所述基于LSTM的短时-长时深度神经网络,通过softmax函数获得单架无人机的人体行为识别结果概率,所述识别结果概率p=[p0,p1,…,pn-1],px表示某一类行为类别的概率,n表示可识别的行为类别总数。
步骤S6确定多无人机系统中的各个无人机的人体行为识别权重的具体方式为:
根据各个无人机获取的第一帧图像中的单帧人体关节点的坐标序列计算其最小外接矩形的面积Pj,j=1,2,……,z,z为多无人机系统中无人机数量;
进而步骤S7中依据非极大值抑制得到人体行为识别结果的具体方式为:依据非极大值抑制得到融合后的行为类别概率最大值,若此行为类别概率最大值小于所设阈值,则认为此N帧图像的视频序列中不含目标行为,否则通过行为类别概率最大值确定其所属的目标行为类别。
本实施例在自采多无人机视角图像数据行为识别数据集V4R_Action上进行模型训练及实验比较,结果表明,所述人体行为识别方法可以适用于无人机行为识别任务且性能优异,所述多无人机识别结果加权融合策略展现出了优良的识别效果。
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (10)
1.一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,该方法首先通过不同方位无人机相对于同一人体目标从不同角度、不同高度、不同距离进行观测,采集得到包含目标行为的视频序列,然后分别对每一架无人机采集的视频序列进行处理得到人体关节点坐标序列,接着利用基于LSTM的短时-长时深度神经网络对人体关节点坐标序列进行时序建模得到单架无人机的人体行为识别结果概率,最后对所有无人机的人体行为识别结果概率进行融合得到人体行为识别结果。
2.根据权利要求1所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,该方法具体包括如下步骤:
S1、对于多无人机系统中的单架无人机,读取无人机采集的包含目标行为的视频序列,所述视频序列包含多帧图像;
S2、对视频序列的前N帧图像进行特征提取与处理得到包含人体关节点的人体关节点坐标序列;
S3、对人体关节点坐标序列进行数据处理得到运动特征和余弦相似度特征;
S4、利用基于LSTM的短时-长时深度神经网络对提取的特征进行时序建模得到无人机的人体行为识别结果概率;
S5、对多无人机系统中的其他处于不同方位无人机分别重复上述步骤S1~S4分别得到其他无人机各自的人体行为识别结果概率;
S6、确定多无人机系统中的各个无人机的人体行为识别权重;
S7、对所有无人机的人体行为识别结果概率进行加权融合,并依据非极大值抑制得到人体行为识别结果;
S8、使用步长为1的滑窗法将所有视频序列的后续N帧图像依次重复步骤S2~S7,直至处理完所有视频序列;
S9、判断后续是否还有视频帧输入,如果是,则重复步骤S8,否则结束人体行为识别过程。
3.根据权利要求2所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,步骤S2具体为:
S21、对N帧图像使用预训练完成的多阶段级联的卷积神经网络模型逐帧提取深度特征,并表示为深度特征图;
S22、对所述的深度特征图按人体关节点位置回归出关于人体关节点的热力图,各个位置的像素值表征该位置是人体关节点的概率大小;
S23、根据人体关节点的热力图,通过局部非极大值抑制方法获取人体各关节点在热力图中的坐标,将热力图中的坐标按多阶段级联的卷积神经网络步长映射回原视频序列图像中的坐标,得到人体关节点在原视频图像中的坐标 t代表N帧图像的第t帧,i表示第i个人体关节点,表示第t帧图像中第i个人体关节点的横坐标,表示第t帧图像中第i个人体关节点的纵坐标,t=1,2,……,N,i=0,1,……,k-1,k表示人体关节点总个数;
4.根据权利要求3所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,步骤S3中运动特征和余弦相似度特征分别通过如下方式得到:
S31、选取一个人体关节点为参考关节点进行坐标变换:以第一帧图像中参考关节点为原点对所有图像中的人体关节点分别进行坐标变换得到进而得到可表征运动特征的单帧人体关节点的坐标序列以每一帧图像中参考关节点为原点对该帧图像中其他人体关节点分别进行坐标变换得到进而得到可表征余弦相似度特征的单帧人体关节点的坐标序列
5.根据权利要求2所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,所述的基于LSTM的短时-长时深度神经网络包括短时时序建模分支、长时时序建模分支、余弦相似度建模分支和分支识别结果融合模块;
所述的短时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
所述的长时时序建模分支用于根据运动特征进行时序建模得到人体行为识别结果概率;
所述的余弦相似度建模分支用于根据余弦相似度特征进行建模得到人体行为识别结果概率;
所述的分支识别结果融合模块用于将各分支的识别结果概率进行加权融合得到单架无人机最终的人体行为识别结果概率。
6.根据权利要求5所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,所述的短时时序建模分支、短时时序建模分支和余弦相似度建模分支对应包括单个或多个并联的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块,所述的LSTM短时运动特征模块和LSTM长时运动特征模块用于输入运动特征,所述的LSTM余弦相似度特征模块用于输入余弦相似度特征,所述的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块输出分别对应连接特征连接层和特征池化层,对应分支中的特征池化层均连接至一个全连接层,所述的全连接层输出结果依次通过正则化和分类函数输出对应的人体行为识别结果概率。
7.根据权利要求6所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,所述的LSTM短时运动特征模块、LSTM长时运动特征模块和LSTM余弦相似度特征模块中均具有不同数量的LSTM工作单元,不同的LSTM单元工作的起始时间步不同,且各分支中LSTM单元的LSTM窗口尺寸也不同;
对于LSTM短时运动特征模块和LSTM长时运动特征模块两者而言,LSTM短时运动特征模块的LSTM单元数量较多,不同的LSTM单元工作的起始时间步相差较小且LSTM窗口尺寸较小,LSTM长时运动特征模块的LSTM单元数量较少,不同的LSTM单元工作的起始时间步相差较大且LSTM窗口尺寸较大。
9.根据权利要求2所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,步骤S7中依据非极大值抑制得到人体行为识别结果的具体方式为:依据非极大值抑制得到融合后的行为类别概率最大值,若此行为类别概率最大值小于所设阈值,则认为此N帧图像的视频序列中不含目标行为,否则通过行为类别概率最大值确定其所属的目标行为类别。
10.根据权利要求1~9所述的一种基于多无人机视角图像数据驱动的人体行为智能识别方法,其特征在于,所述的人体关节点包括鼻子、脖子、肩膀、手肘、手腕、臀部、膝盖、脚踝中的全部或部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110285423.2A CN113111721B (zh) | 2021-03-17 | 2021-03-17 | 基于多无人机视角图像数据驱动的人体行为智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110285423.2A CN113111721B (zh) | 2021-03-17 | 2021-03-17 | 基于多无人机视角图像数据驱动的人体行为智能识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111721A true CN113111721A (zh) | 2021-07-13 |
CN113111721B CN113111721B (zh) | 2022-07-05 |
Family
ID=76711617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110285423.2A Active CN113111721B (zh) | 2021-03-17 | 2021-03-17 | 基于多无人机视角图像数据驱动的人体行为智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111721B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN107657244A (zh) * | 2017-10-13 | 2018-02-02 | 河海大学 | 一种基于多摄像机的人体跌倒行为检测系统及其检测方法 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111814894A (zh) * | 2020-07-17 | 2020-10-23 | 福州大学 | 一种快速种子随机游走的多视角半监督分类方法 |
-
2021
- 2021-03-17 CN CN202110285423.2A patent/CN113111721B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106909938A (zh) * | 2017-02-16 | 2017-06-30 | 青岛科技大学 | 基于深度学习网络的视角无关性行为识别方法 |
CN107657244A (zh) * | 2017-10-13 | 2018-02-02 | 河海大学 | 一种基于多摄像机的人体跌倒行为检测系统及其检测方法 |
CN108985259A (zh) * | 2018-08-03 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
CN111814894A (zh) * | 2020-07-17 | 2020-10-23 | 福州大学 | 一种快速种子随机游走的多视角半监督分类方法 |
Non-Patent Citations (2)
Title |
---|
BRUNO ARTACHO AND ANDREAS SAVAKIS: "UniPose: Unified Human Pose Estimation in Single Images and Videos", 《CVF》 * |
王策等: "一种简便的视角无关动作识别方法", 《智能系统学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113111721B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837778B (zh) | 一种基于骨架关节点序列的交警指挥手势识别方法 | |
CN111523410B (zh) | 一种基于注意力机制的视频显著性目标检测方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN107886069A (zh) | 一种多目标人体2d姿态实时检测系统及检测方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN111523378B (zh) | 一种基于深度学习的人体行为预测方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN111461063B (zh) | 一种基于图卷积和胶囊神经网络的行为识别方法 | |
CN113076891B (zh) | 基于改进高分辨率网络的人体姿态预测方法及系统 | |
CN116343330A (zh) | 一种红外-可见光图像融合的异常行为识别方法 | |
CN116363748A (zh) | 基于红外-可见光图像融合的电网现场作业一体管控方法 | |
CN111881802A (zh) | 基于双分支时空图卷积网络的交警手势识别方法 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN111833400B (zh) | 一种相机位姿定位方法 | |
Aldahoul et al. | A comparison between various human detectors and CNN-based feature extractors for human activity recognition via aerial captured video sequences | |
CN112446253A (zh) | 一种骨架行为识别方法及装置 | |
CN116895098A (zh) | 基于深度学习和隐私保护的视频人体动作识别系统与方法 | |
CN117826795A (zh) | 地下管廊巡检机器人的自主巡检方法及系统 | |
Zhao et al. | Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images | |
Huo et al. | GTFormer: 3D Driver Body Pose Estimation in Video with Graph Convolution Network and Transformer | |
Byukusenge et al. | Life detection based on uavs-thermal images in search and rescue operation | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN117115921A (zh) | 一种电力巡检人体行为识别方法、系统、设备及存储介质 | |
CN113111721B (zh) | 基于多无人机视角图像数据驱动的人体行为智能识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |