CN115063880A

CN115063880A - 一种基于YOLOv5和GME的采样方法

Info

Publication number: CN115063880A
Application number: CN202210585051.XA
Authority: CN
Inventors: 贾海涛; 邹新雷; 任利; 贾宇明; 张钰琪; 胡佳丽; 高源�; 邢增桓
Original assignee: Chengdu Yunqing Technology Co ltd
Current assignee: Chengdu Yunqing Technology Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-16

Abstract

本发明公开了一种基于YOLOv5和GME的采样方法。该发明是一种全局运动补偿与目标检测算法YOLOv5相结合的采样阶段预处理模块，针对镜头大幅度运动下的视频行为识别任务进行算法改进。该模块算法与基于光流的全局运动补偿算法有以下不同：一是用视频帧压缩域已有的运动矢量替换Brox光流进行，大大降低了获得数据的计算量和耗时；二是添加行人检测算法YOLOv5切割出人体存在区域，使得全局运动的估计不被人体的局部运动所影响，随后计算出背景的全局运动，反馈到整个视频帧中消除全局运动对行为识别的负面影响。本发明在公开数据集上验证并比较新算法和原算法的效果，实验结果表明该采样方法较原方法有效的保证了行为识别的实时性，同时明显改善了行为识别在镜头大幅度运动下的视频中的识别准确率。

Description

一种基于YOLOv5和GME的采样方法

技术领域

本发明涉及图像智能识别中的视频行为识别领域，针对出现镜头运动的视频进行行为识别时，采样无法消除全局运动的问题，设计了一种消除全局运动的采样方法。

背景技术

人体行为识别是对拍摄视频的图像处理过程，无论专业与否，在视频的拍摄过程中，难免出现摄像机的抖动与移动。这些非人体行为移动数据，极大的影响到了行为识别的准确率。

全局运动的估计算法层出不穷，主要基于光流以及运动矢量进行计算展开。本发明目标为设计一个采样阶段的预处理模块，能够估算出全局运动的运动矢量，消除其对行为识别的负面影响。

消除全局运动需要面临的问题：一是运动边界突出人体行为运动不能很好的消除全局运动对行为识别造成的负面影响，在大幅度运动出现的情况下表现不佳，二是当下基于Brox等光流的GME算法参数过多，计算复杂，同时该光流的提取也非常耗时，无法满足视频行为识别的实时性。

YOLOv5是一种在coco数据集上预训练的最新的目标检测算法，其核心思想是以回归问题的思路来处理目标检测任务。

在最初版本的YOLO方法中，网络以整张图片为输入，将其输入由若干卷积核池化层组成的中间层，提取图片的类别特征，再通过两个全连接层，预测出目标的类别和位置。这样的网络结构相较之前的R-NN而言，仅通过单个神经网络，就可以得到预测目标的类别信息和边界框的位置，极大的提升了目标检测算法的运行速度。本文将把目标检测算法用于视频特征提取的预处理阶段，为了达成算法的实时性，应该选用目标检测算法中速度最快的YOLOv5算法。除此以外，视频中的运动矢量在视频解压的过程中就可以直接获得，相较于GME，这样做避免了大量的光流运算，因此可以使用运动矢量代替光流作为网络的输入。

本专利结合目标检测YOLOv5算法，设计了基于YOLOv5和GME的采样方法，该方法在行为识别任务中有效地的消除全局运动的影响，提取出准确的人体运动信息，通过实验验证了其准确度和识别效率上的性能优越性。

发明内容

为了克服行为识别无法有效消除全局运动负面影响，运动边界特征无法有效辨别大幅度运动时人体行为和背景运动的界定问题，本发明提出了一种基于YOLOv5和GME的采样方法。该技术引用了全局运动补偿算法以及图像智能识别领域的YOLOv5技术，对GME算法进行了进一步改进。本发明所采用的的技术方案是：

步骤1.运动矢量获取模块。YGME算法将使用帧之间的运动矢量数据替代光流值进行接下来的全局运动估计与补偿。由于视频中的运动矢量在视频解压的过程中就可以直接获得，相较于GME，这样做避免了大量的光流运算(Brox光流算法在NVIDIA GPU上的处理速度为一帧0.06s，也就是约16FPS)。

步骤2.人体区域分割模块。为了消除局部运动(主要是人体运动)对全局运动的错误估计，使用行人检测Yolo算法获取图像帧中的人员存在区域，留下人员存在以外的那部分区域。

步骤3全局运动估计模块。根据切割后留下的背景模块，估计全局运动估计背景区域的全局运动矢量，也就是摄像机的运动量。

步骤4.全局运动补偿模块。根据全局运动估计模块计算的估计值作为补偿值，整张图像帧减去补偿值，还原只包含人体行为的矢量估计值。

步骤5.使用该采样方法结合一种深度学习网络进行行为识别实验，结合数据集训练出能够准确识别视频中人员行为的模型。

与现有技术相比，本发明的有益效果是：

(1)在行为识别视频发生全局运动或是摄像头发生抖动的情况下，能够有效的区分全局运动与人员运动，并且消除全局运动对行为识别的负面影响；

(2)与原有的全局运动补偿算法相比，使用运动矢量代替光流，在保证识别率的同时使得算法速率有了极大的提升，在实际场景中有了应用价值。

附图说明

图1为：整体采样算法流程。

图2为：压缩域YGME和像素域GME算法流程对比。

图3为：四参数模型坐标系。

图4为：估计平移参数T的算法表。

图5为：全局运动估计示意图。

图6为：实验分类损失函数和整体损失函数。

图7为：全局运动补偿算法准确率和速度对比。

图8为：行为识别实例演示。

具体实施方式

下面结合附图对本发明进一步说明。

首先，整体流程图如图1所示。与原框架相比，在送入网络前的预处理模块上进行了改进，在对视频帧的运动显著区提取的同时，对视频帧进行全局运动的矢量估计算法。

在该框架中，YGME和GME算法本质上都是为了消除全局运动对视频人体行为识别的负面影响，二者在计算量和精确度上有所不同，YGME是由比GME精度更低但速度更快的CGME算法设计而来的，考虑到本方面需要实现行为识别的实时性，实际应用场景下应采取速度更快的算法。预处理模块结束后，获取了新的模态数据。此部分数据的视频送入到SlowFast网络，的到最后的行为分类预测值。

在细节上，本发明所设计的YGME和GME之间的区别是二者分别针对压缩域和像素域进行分析，算法的对比如图2所示。在GME算法中，需要获取视频每一帧之间每一个像素的光流值，通过实验对比Brox光流算法和YGME发现YGME实现了算法的实时性并保证了识别准确率。

具体方法如下：

(1)在实际的视频人体行为识别中，直接基于视频的压缩域运动矢量(MPEG)来代替相邻两帧图像的光流进行全局运动估计，四参数模型足以描述其各种运动模式。故使用四参数模型估计矢量参数。

首先基于视频图像的中心作为原点，构建XOY坐标系，导入其全局运动的矢量数据，如图3所示。

坐标系将二维图像分为四个区域，右下、左下、左上、右上分别为ⅠⅡⅢⅣ象限。在Ⅰ象限的像素中取一点，其坐标为a_Ⅰ＝(x,y)^T,x>0,y>0，该像素在另外三个像素中关于XY轴以及原点对称的三点分别为a_Ⅱ＝(-x,y)^T,a_Ⅲ＝(-x，-y)^T，a_IV＝(x，-y)^T。

基于以上建模，就可以用以下方程来表示全局运动：

式中，a_I＝(x，y)^T表示图像帧中的某一像素点，t_x和t_y代表了XY轴两个方向的摄像机平移运动变量，a₁和a₂代表了伸缩和旋转的运动变量。根据这四个参数，构筑了全局运动估计的四参数模型，可以根据该四个参数估计摄像机全局运动。

在XOY坐标系中，可以用下式表示随机一点的运动矢量：

MVP(a_i)＝f(a_i|A，T)-a_i＝(A-I)×a_i+T

(2)依照(1)构筑的四参数模型，要描述某一帧的全局运动，需要对平移参数T(包括t_x和t_y)以及伸缩/旋转参数A(包括a₁和a₂)进行估计。

首先估计平移参数T。取I象限中的某一运动矢量，表示为MVP(a_I)，其中a_I＝(x，y)^T，x＞0，y＞0。利用图3及对称性理论，关于原点对称的在III象限的点可表示为MVP(a_III)，其中a_III＝(-x，-y)^T。

已知运动矢量MVP(a_I)和MVP(a_III)的伸缩旋转分量关于原点中心对称，将二者相加就可以得到平移参数T。

公式如下：

MVP(a_I)+MVP(a_III)＝f(a_I|A，T)-a_I+f(a_III|A，T)-a_III

＝(A-I)(a_I+a_III)+2T

＝2T

同理，对于II象限的某一运动矢量，表示为MVP(a_II)，其中a_II＝(-x，y)^T，x＞0，y＞0。关于原点对称的在IV象限的点可表示为MVP(a_IV)，其中a_IV＝(x，-y)^T。

该点的运动矢量公式如下：

MVP(a_II)+MVP(a_IV)＝f(a_II|A，T)-a_II+r(a_IV|A，T)-a_IV

＝(A-I)(a_II+a_IV)+2T

＝2T

从而得到平移参数的集合T＝{T₁，T₂，...，T_i，...，T_N}。假设视频的某一帧只有摄像机运动了，那么就有T₁＝T₂＝…＝T_i＝…＝T_N。但在本研究中的人体行为识别情况下图像中显然还包括了人员的运动，所以估计出的T_i并不完全相等，需要选取一种算法进行估计。

平移参数T的估计算法表如图4所示。

在流程中，首先计算所有T的均值，随后计算所有T_i与之的残差，再计算出所有残差的平均值，以该均值作为一个阈值筛除掉所有残差高于该值的数据，最终计算剩余T_i的均值作为最终的T_out，也就是平移参数T的估计值。

接下来估计估计伸缩和旋转参数A，首先假设有两个在同行间运动的矢量MVP(a₁)和MVP(a₂)，同行运动其y坐标是一致的。MVP(a₁)的起点坐标为a₁＝(x₁，y)^T，MVP(a₂)的起点坐标为a₂＝(x₂，y)^T，x₂-x₁＝s，s为常数。MVP(a₁)和MVP(a₂)在X方向的矢量为MVP_x(a₁)和MVP_x(a₂)，在Y方向的矢量为MVP_y(a₁)和MVP_y(a₂)

在X方向上有如下公式：

MVP_x(a₂)-MVP_x(a₁)

＝(f(a₂|A，T)-a₂)-(f(a₁|A，T)-a₁)

＝((a₁-1)×x₂-a₂×y+t_x)-((a₁-1)×x₁-a₂×y+t_x)

＝(a₁-1)(x₂-x₁)

＝(a₁-1)s

由上式变换可以得到：

同理，在Y方向上计算得到：

随后假设两个同列运动的矢量MVP(a₃)和MVP(a₄)，其x坐标是一致的。MVP(a₃)的起点坐标为a₃＝(x，y₁)^T，MVP(a₂)的起点坐标为a₂＝(x，y₂)^T，y₂-y₁＝p，p为常数。

同样的在X方向上有如下公式：

MVP_x(a₄)-MVP_x(a₃)

＝(f(a₄|A，T)-a₄)-(f(a₃|A，T)-a₃)

＝((a₁-1)×x-a₂×y₂+t_x)-((a₁-1)×x-a₂×y₁+t_x)

＝-a₂×(y₂-y₁)

＝-a₂×p

由上式变换可得：

同理，在Y方向上计算得到：

利用上述公式，基于运动矢量数据计算出a₁和a₂的集合A₁＝{a₁₁，a₁₂，...，a_1i，...，a_1K}以及A₂＝{a₂₁，a₂₂，...，a_2i，...，a_2K}。接下来运用和平移参数计算类似的方法，利用图4的算法，计算A₁和A₂集合中所有数据的均值，随后计算每个数据与该值的残差，随后计算出残差的均值，以该均值作为阈值，筛选掉残差大于该值的数据，最终计算剩余A_1i和A_2i的均值作为最终的A_1out和A_2out，也就是平移参数A的估计值。

(3)在结合目标检测YOLOv5的运动补偿模式中，考虑到本文所研究的人体行为识别场景，只需要裁减掉人体所在的区域，计算剩余区域的全局运动矢量，就可以精确的表达出摄像机造成的全局运动。其矢量裁取模式如图5所示。

全局运动补偿的公式如下：

MVP′(a_i)＝MVP_people(a_i)-MVP_global(a_i)

MVP_people(a_i)是人员区域运动矢量数据，为已知值，MVP_global(a_i)是全局运动矢量，根据上一节四参数模型的算法，MVP_global(a_i)的计算公式如下：

MVP_global(a_i)＝Aa_i+T

所以上式可写为：

(4)将设计好的基于YOLOv5和GME的采样模块应用行为识别算法中，本发明的实验以SlowFast网络为例，在数据集UCF101和HMBD51中进行测试。各算法的分类损失函数和整体损失函数如图6所示，和原算法的mAP以及运行速度比较结果如图7所示。可以看到，在数据集UCF1o1中，平均识别准确率比CGME提升了1.7％，识别速度为76.5fps，在数据集HMBD51中，平均识别准确率比CGME提升了1.5％，识别速度为86.0fps。实验结果表明，新的采样方法使得行为识别在镜头出现大幅度运动的场景下效果有了明显改善，同时保证了算法运行的实时性(识别速度在70-90fps)。

以上所述，仅为本发明的具体实施方式，本说明中所公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征或/和步骤外，均可以任何方式组合。

Claims

1.一种基于YOLOv5和GME的采样方法，包括以下步骤：

步骤1.运动矢量获取模块，为本专利核心内容。YGME算法将使用帧之间的运动矢量数据替代光流值进行接下来的全局运动估计与补偿。由于视频中的运动矢量在视频解压的过程中就可以直接获得，相较于GME，这样做避免了大量的光流运算(Brox光流算法在NVIDIAGPU上的处理速度为一帧0.06s，也就是约16FPS)。

步骤2.参数运动估计模型，全局运动的参数模型分为四种：二参数模型、四参数模型、六参数模型、八参数模型。四种不同的模型具备的全局运动建模特性不同。

从实际应用场景上分析，通常来说，参数的减少意味着准确度的下降，但是在实际的视频人体行为识别中，如果直接基于视频的压缩域运动矢量(MPEG)来代替相邻两帧图像的光流进行全局运动估计，四参数模型就足以描述其各种运动模式。在本发明中将使用四参数模型估计参数。坐标系将二维图像分为四个区域，右下、左下、左上、右上分别为IIIIIIIV象限。在I象限的像素中取一点，其坐标为a_I＝(x，y)^T，x＞0，y＞0，该像素在另外三个像素中关于XY轴以及原点对称的三点分别为a_II＝(-x，y)^T，a_III＝(-x，-y)^T，a_IV＝(x，-y)^T。

基于以上建模，就可以用以下方程来表示全局运动：

公式中，a_I＝(x，y)^T表示图像帧中的某一像素点，t_x和t_y代表了XY轴两个方向的摄像机平移运动变量，a₁和a₂代表了伸缩和旋转的运动变量。根据这四个参数，构筑了全局运动估计的四参数模型，可以根据该四个参数估计摄像机全局运动。

在XOY坐标系中，可以用下面的公式表示随机一点的运动矢量：

MVP(a_i)＝f(a_i|A，T)-a_i＝(A-I)×a_i+T

首先基于视频图像的中心作为原点，构建XOY坐标系，导入其全局运动的矢量数据。

步骤3.人体区域分割模块，为本专利的核心思想。为了消除局部运动(主要是人体运动)对全局运动的错误估计，使用行人检测YOLO算法获取视频帧中的人员存在区域，留下人员存在以外的那部分区域。随后裁去其整张运动矢量图中的对应区域运动矢量，输入剩余区域的运动矢量进行参数估计，估算出整张图的全局运动矢量。最后返还计算出的全局运动矢量，还原出一张没有发生全局运动的运动矢量图。

全局运动补偿的公式如下：

MVP′(a_i)＝MVP_people(a_i)-MVP_global(a_i)

MVP_people(a_i)是人员区域运动矢量数据，为已知值，MVP_global(a_i)是全局运动矢量，根据述四参数模型的算法，MVP_global(a_i)的计算公式如下：

MVP_global(a_i)＝Aa_i+T

所以上式可写为：

步骤4.整体的采样方案在双流SlowFast结构上进行性能测试。在HMDB51数据集上的实验结果中，51类行为数据中，有48个类别的识别率得到了提升，其中dance、ride、hit等几类提升超过了10％，只在lie(-0.1AP)、throw(-0.2AP)、phoning(-0.4AP)三类上有极小的降低，以Top-5的评价标准来看，其识别的准确率从86.2％提升到了88.3％。除此以外，算法的分类损失函数和整体损失函数比其他采样方法的收敛速度更快。

压缩域CGME是基于GME算法提出的为了提升全局运动补偿运行速度的算法。其核心思路在于用视频的运动矢量，也就是MPEG光流来代替需要计算得到的Brox光流，在运动信息的描述显然不如Brox光流，其原因是MPEG光流以16*16的图块描述运动信息，而Brox光流则是像素与像素间的运动信息。但其运算速度有了近百倍的提升(从6.6fps到912.3fps)，但是实际运行过程并不需要这么快的速度，故而使用一部分资源，利用目标检测算法YOLOv5作为辅助改善CGME算法的准确率。从实验的结果来看，压缩域的YGEM算法以降低一部分识别率的代价(下降约1.8％)，大大提升了算法的运行速度(从6.6fps到86.0fps)，使得全局运动补偿在实时应用的场景的有了实际意义。

2.如权利要求1所述方法，其特征在于，步骤1使用运动矢量替换Brox光流作为输入，极大程度的提升了算法运行的速度。

3.如权利要求1所述方法，其特征在于，步骤3使用YOLOv5辅助CGME算法提取人体运动区域，精确的计算出了全局运动产生的运动矢量，在不影响算法实时性的同时明显提升了算法的识别准确率。