CN112883769A

CN112883769A - 一种识别无人机航拍视频内人类交互行为的方法

Info

Publication number: CN112883769A
Application number: CN202010042078.5A
Authority: CN
Inventors: 赛义德·皮拉斯特; 加萨·沙姆瑟布尔
Original assignee: Jia SaShamusebuer; Sai YidePilasite
Current assignee: Jia SaShamusebuer; Sai YidePilasite
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2021-06-01

Abstract

本发明属于人类行为识别技术领域，公开了一种识别无人机航拍视频内人类交互行为的方法，包括：抽取视频帧的开始帧和结束帧作为关键帧；将关键帧分割为由m×n个像素组成的多个M图像，在M图像上建立滑动窗口；任意选取一尺寸的滑动窗口，对关键帧图像进行滑动扫描，直至扫描像素覆盖关键帧的全帧图像的50％后，更换滑动窗口尺寸，重复扫描；在滑动窗口扫描的过程中，基于CNN生成关键帧全帧图像的概率向量，并对概率向量中的向量元素进行最大似然性运算；将开始帧与结束帧的两个概率向量转化为一个向量，并提取特征向量元素；基于支持向量机对提取的特征向量元素进行动作标签分配；本发明具有准确度高、远算量小、内存消耗低的优点。

Description

一种识别无人机航拍视频内人类交互行为的方法

技术领域

本发明属于人类行为识别技术领域，具体涉及一种识别无人机航拍视频内人类交互行为的方法。

背景技术

现有技术中，具体结合图1可知，一般的人体行为识别步骤共分为六个：采集视频；选取感兴趣区域(ROI)，分割原图像；ROI预处理；特征提取和表示；跟踪；以及理解动作(涉及分类器和分配动作标签)，而在上述识别过程中，不仅需要进行大量数据的运算，还需要消耗大量内存以供提取特征。

另外，针对上述提取特征，可分为传统的浅层结构学习算法模型和深度学习模型；其中：

传统的浅层结构学习算法模型提取局部特征、全局特征、或二者融合。全局特征指提取物体的完整图像，包括轮廓表示、形状特征描述符、纹理特征等，适用于检索图像、检测物体、动作分类、识别人体；但是，全局特征的提取易受到如高斯噪声、脉冲噪声等噪声的影响。局部特征指一个矩形子图像的纹理特征，如物体的矩形子图像；但是，局部特征需要图像分割为若干区域，分割过程耗时长，需要执行大量运算。

深度学习模型利用神经网络技术解决人体行为识别的问题，成功完成了如识别、分割等图像分析任务，例如，卷积神经网络(CNN)；但是，使用CNN模型识别时，可能出现一帧图像内的多个感兴趣目标分布在不同区域，需要抽取大量的感兴趣区域的情况，在此情况之下，检测和分类执行计算的时间十分长。

综上可知，如何精确、快速的进行人体行为识别具有重要的研究意义。

发明内容

鉴于此，本发明提供了一种识别无人机航拍视频内人类交互行为的方法，具体提出了一种开始帧-结束帧算法，并有效结合卷积神经网络(CNN)进行交互行为的目标识别，具有准确度高、远算量小、内存消耗低的识别效果。

为实现上述目的，本发明提供如下技术方案：一种识别无人机航拍视频内人类交互行为的方法，具体包括如下步骤：

S1.抽取视频帧的开始帧和结束帧作为关键帧；

S2.将关键帧分割为由m×n个像素组成的多个M图像，在M图像上建立滑动窗口，且滑动窗口的尺寸为m/i×n/i，其中i＝3或4或5；

S3.任意选取一尺寸的滑动窗口，对关键帧图像进行滑动扫描，直至扫描像素覆盖关键帧的全帧图像的N％后，更换滑动窗口尺寸，重复扫描，且N％≤100％；

S4.在滑动窗口扫描的过程中，基于CNN生成关键帧全帧图像的概率向量，并对概率向量中的向量元素进行最大似然性运算；

S5.基于联集函数将开始帧与结束帧的两个概率向量转化为一个向量，并提取特征向量元素，且特征向量元素映射于识别目标；

S6.基于支持向量机对提取的特征向量元素进行动作标签分配。

与现有技术相比，本发明具有以下有益效果：

以抽取开始帧和结束帧的图像识别算法代替传统的多帧图像识别算法，有效降低了识别过程中的运算量，并以此解决了识别运算过程中内存消耗大的问题，提高了识别速度，进而降低应急管理和救援响应的难度，满足快速执行灾害管理、应急响应和救援的需要。

结合卷积神经网络，优化算法，使得本方法的识别准确率不低于90.42％，从而具有高质量和高准确度的优点。

优选的，步骤S2中，在进行滑动窗口的建立之前，若目标视频的分辨率过低，还包括利用超分辨率重建高分辨率图像的步骤。

进一步的，在进行所述超分辨率的重建之前，还包括预处理步骤，且预处理步骤包括：

基于CNN从低分辨率视频中抽取目标图像；

在CNN的层级结构中建立低分辨率目标图像与高分辨率目标图像之间的映射；

超分辨率学习CNN的层级结构中的映射。

优选的，步骤S2中至步骤S4中，所述滑动窗口为自适应窗口，并基于自适应滤波器进行关键帧全帧图像处理。

优选的，步骤S3中，选取9个不同尺寸的滑动窗口依次扫描。更优选的，9个所述滑动窗口的尺寸分别为：

和

优选的，步骤S3中，所述滑动窗口扫描时，对关键帧全帧图像的覆盖率达到50％后，更换滑动窗口尺寸，重复扫描。

优选的，步骤S4中，最大似然性运算的方法为：

获取同一向量元素的相邻两个似然性运算值；

对比两个运算值；

选取大的运算值作为当前向量元素的最大似然性运算值。

优选的，步骤S6中，所述支持向量机还包括预训练步骤，且预训练基于加载于支持向量机内的数据集完成，所述数据集包括70％的训练数据集，10％的验证数据集，以及20％的测试数据集。其中，所述训练数据集用于学习支持向量机的映射函数，所述验证数据集用于最小化过拟合和预测未知模型的性能，所述测试数据集用于检验支持向量机的性能。

进一步的，步骤S6中，所述支持向量机的分配分类方法为监督式分类方法。

附图说明

图1为现有人体行为识别的流程图；

图2为本发明识别方法的流程图；

图3为滑动窗口的扫描示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图2所示，本发明提供如下技术方案：一种识别无人机航拍视频内人类交互行为的方法，包括如下步骤：

S1.抽取视频帧的开始帧和结束帧作为关键帧。

在本步骤中，关于关键帧数量的选取：

抽取两帧图像/三帧图像/七帧图像进行识别对比，其识别对比表格如下，具体两帧图像指开始帧和结束帧，而三帧图像或七帧图像指包括开始帧、结束帧、以及视频中间的任意一帧图像或五帧图像：

并根据表格中的数据可知，在选取两帧图像时，其准确度不低于92.82％，能有效满足识别需要，尽管随着图像的数量增加，算法的准确度提高了，但是在实际识别应用中，特别是灾害救援中应对危急情况和做决策时，算法的运算时间、设备可进行的运算、快速分析、救援队伍的响应速度至关重要，而在行为识别运算中，所抽图的图像越少，其识别运算越快；因此本发明中，优选为选取开始帧和结束帧两帧图像，既保证了识别的准确性，又加快了识别速度。

S2.将关键帧分割为由m×n个像素组成的多个M图像，在M图像上建立滑动窗口，且滑动窗口的尺寸为m/i×n/i，其中i＝3或4或5。

在本步骤中，设定一个关键帧的全帧图像由m个像素(x)和n个像素(y)组成，由此则可确定该全帧图像长度(l)和宽度(w)，并将该全帧图像的尺寸定义为长度(l)和宽度(w)或像素(x,y)。

上述全帧图像含有m×n尺寸大小的像素，针对其中一个像素M图像，将该M图像分为(m/3×n/3)或(m/4×n/4)或(m/5×n/5)的尺寸大小的区域，而分割后的区域即叫做图像上的“滑动窗口”；具体，关于分隔滑动窗口的算法如下：

另外，一帧图像通常会包含不同尺寸的多个目标，这些目标可能属于建筑类、船类、树类、车类、人类、犬类或其他目标，其结构或形状有无限种变化，并且视频内的目标取决于摄像机距离和无人机拍摄的角度；因此，在建立滑动窗口是，采用自适应滤波器对每帧图像进行处理，以使得滑动窗口构建为自适应窗口，从而有效适应于不同情况下的识别需要。

在本步骤中，其关于滑动窗口的最优分割尺寸如下：

和

和

和

和

和

和

即每张图像均会被分隔为9种不同尺寸的滑动窗口，并且在滑动窗口扫描的过程中进行20％、50％、80％的全帧图像覆盖率的试验，其中优选为50％的覆盖率。

具体，可结合图3所示，将全帧图像中分割成尺寸为

和

和

的滑动窗口，将窗口滑动至x轴和y轴方向，直至图像的像素覆盖率达50％；而后，将全帧图像分别分割成尺寸为

和

和

的滑动窗口；同样的再次滑动窗口，直至图像的像素覆盖率达50％；最后，将全帧图像分别分割成尺寸为

和

和

的滑动窗口，并重复上述滑动步骤；依次执行步骤S3的重复扫描。

在本步骤中，概率向量即表示每个关键帧全帧图像中存在不同的目标，设定概率向量为r，其中元素i的值为n，则元素i所对应的目标x在全帧图像中的存在概率即为n(也表示为目标x或元素i的似然性为n)

另外，关于最大似然性运算方法为：

获取同一向量元素的相邻两个似然性运算值；

对比两个运算值；

选取大的运算值作为当前向量元素的最大似然性运算值。

例如，在第一个滑动窗口中计算的目标x或元素i的似然性为n，第一个滑动窗口中计算的目标x或元素i的似然性为m，其中m＞n时，则选取m作为目标x或元素i的最大似然性。

S5.基于联集函数将开始帧与结束帧的两个概率向量转化为一个向量，并提取特征向量元素，且特征向量元素映射于识别目标。

具体，在本步骤中，支持向量机还包括预训练步骤，且预训练基于加载于支持向量机内的数据集完成，所述数据集包括70％的训练数据集，10％的验证数据集，以及20％的测试数据集。其中训练数据集用于学习支持向量机的映射函数，验证数据集用于最小化过拟合和预测未知模型的性能，测试数据集用于检验支持向量机的性能。

而支持向量机的分配分类方法为监督式分类方法：

支持向量机会针对每一组数据(对应于特征向量元素)生成两条平行线，且两条平行线之间有一条分界线，产生平面线形最大化间隔，以便分离两类数据。间隔由超平面分离，而支持向量机在高维空间生成最优分类超平面后，再执行数据分类，其中最优分类超平面的计算公式为：a.x+b＝0，其中，a.x是a和x的点积。

另外，支持向量机算法可使用数学方程式表示，而该方程式被定义为核函数；在核函数的方程式内输入数据，并将数据转化为所需的形式，例如如下核函数即为处理图像的多项式核函数：

k(x_i,x_j)＝(x_i.x_j+1)^d，其中，d为多项式次数。

2、针对上述方法及其优选方式，采用召回率、精确率和准确率进行验证：

(1)召回率又名为灵敏性，计算公式为：

其中，TP为真阳率，FN为假阳率。

(2)精确率又名为阳性预测值，计算公式为：

(3)准确率，计算公式为：

(TP+TN)/(TP+TN+FP+FN)

其中TP为将正类预测为正类数，FP为将负类预测为正类数，FN为将正类预测为负类数。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种识别无人机航拍视频内人类交互行为的方法，其特征在于，包括如下步骤：

S1.抽取视频帧的开始帧和结束帧作为关键帧；

2.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于：步骤S2中，在进行滑动窗口的建立之前，若目标视频的分辨率过低，还包括利用超分辨率重建高分辨率图像的步骤。

3.根据权利要求2所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于，在进行所述超分辨率的重建之前，还包括预处理步骤，且预处理步骤包括：

基于CNN从低分辨率视频中抽取目标图像；

超分辨率学习CNN的层级结构中的映射。

4.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于：步骤S2中至步骤S4中，所述滑动窗口为自适应窗口，并基于自适应滤波器进行关键帧全帧图像处理。

5.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于：步骤S3中，选取9个不同尺寸的滑动窗口依次扫描。

6.根据权利要求4所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于，9个所述滑动窗口的尺寸分别为：

和

7.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于：步骤S3中，所述滑动窗口扫描时，对关键帧全帧图像的覆盖率达到50％后，更换滑动窗口尺寸，重复扫描。

8.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于，步骤S4中，最大似然性运算的方法为：

获取同一向量元素的相邻两个似然性运算值；

对比两个运算值；

选取大的运算值作为当前向量元素的最大似然性运算值。

9.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于，步骤S6中，所述支持向量机还包括预训练步骤，且预训练基于加载于支持向量机内的数据集完成，所述数据集包括70％的训练数据集，10％的验证数据集，以及20％的测试数据集。

10.根据权利要求1所述的一种识别无人机航拍视频内人类交互行为的方法，其特征在于，步骤S6中，所述支持向量机的分配分类方法为监督式分类方法。