CN113920153B

CN113920153B - 基于编码-解码网络的深度运动分离方法

Info

Publication number: CN113920153B
Application number: CN202111076361.0A
Authority: CN
Inventors: 毋立芳; 杨雨辰; 简萌; 相叶; 石戈; 赵博煊
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-05-28
Anticipated expiration: 2041-09-15
Also published as: CN113920153A

Abstract

基于编码‑解码网络的深度运动分离方法属于图像处理领域。从原始混合运动中估计全局运动和局部运动是有必要的。现有的全局运动估计算法无法表达复杂场景下的全部全局运动。同时，体育比赛转播视频等存在静止的记分牌等区域，对局部运动估计造成了影响。本发明提出了一种端到端的全局与局部运动估计网络，利用自动编码器将原始运动编码为代表全部全局运动的低维向量后解码为全局运动场。网络通过混合运动场中全局运动区域的运动值进行弱监督学习。进一步，Attention U‑net将粗糙局部运动中的记分牌等噪声区域的运动值去除，得到纯净的局部运动。在行为识别数据集NCAA，UCF‑101和单应性估计数据集DHE上的实验表明，该方法的全局运动和局部运动估计结果好于现有方法。

Description

基于编码-解码网络的深度运动分离方法

技术领域

本发明设计图像处理领域，涉及运动模式提取，具体涉及基于相机运动和个体运动属性的全局和局部运动模式分离方法。

背景技术

视频运动模式分析是视频分析与理解领域中的关键技术之一。主要任务是通过连续视频帧或帧间运动场估计视频中准确的相机的运动和前景中人或物体的运动。该技术在光流估计、视频稳像、目标分割、目标检测、行为识别等任务中具有很多的应用。视频中的运动信息通常由光流表征，光流本质上是全局运动和局部运动相加得到的混合运动，二者来自不同的主体，全局运动是相机运动的结果而局部运动是前景中物体的运动。两类运动来自不同的主体又表征了不同的运动信息，但是光流得到的混合运动将二者混在一起，目前大多数的方法并没有提取出纯粹的全局运动和局部运动，无法准确利用全局运动和局部运动信息进行后续任务的实现，因此有必要将二者进行分离。

运动分离方法包括全局运动估计、混合光流分离方法等。前者直接由图像估计全局运动，早期的工作根据图像对中的匹配角点、SIFT等特征点估计全局运动。深度学习方法利用图像的深度特征实现全局运动估计。这类方法的局限性在于仅能通过图像实现全局运动估计，无法提取局部运动。后者由混合光流直接分离出全聚合局部运动信息。Wu等人在2020年发表文章“Fusing motion patterns and key visual information for semanticevent recognition in basketball videos”，提出了基于统计分析的方法，该方法根据混合光流边缘区域还原完整的全局运动。进一步通过混合运动减去全局运动分离出局部运动。然而，当混合光流边缘区域出现局部运动时，该方法分离的全局运动和局部运动具有较大误差。Wu等人在2021年发表文章“Global Motion Estimation with IterativeOptimization-based Independent Univariate Model for Action Recognition”，进一步提出了基于迭代优化的方法，从水平和垂直尺度通过混合光流建模全局运动，并通过迭代算法优化出最优解。最后通过连续T帧光流去除记分牌区域的无效运动，得到准确的局部运动。然而该方法建模的全局运动无法表达相机的全部运动。同时，该方法仅通过当前光流无法得到准确的局部运动，不适合作为一个端到端的运动分离算法。

发明内容

为了有效的解决现有运动分离方法存在的问题，本发明提出了一种基于编码-解码网络的深度运动分离方法。本发明可以连接到任何混合光流估计算法之后，直接提取混合光流中的全局运动和局部运动。本发明提取的全局运动和局部运动在单应性估计任务和群体行为识别任务中得到了良好的应用，对后续任务具有良好的性能提升效果。发明的算法整体框架如图1所示。

本发明的具体步骤如下：

步骤一：构建一个用于分离全局运动的深度学习网络。全局运动和局部运动有较大差别，混合光流中全局运动点的值表示相机的运动，由于全局运动信息具有线性移不变特性，不同区域的全局运动值符合一致的运动规律，因此可以用少量的参数进行统一建模，最终重构完整的全局运动。

目前主流的运动模型包括平移变换模型、仿射变换模型、透视变换模型等。透视变换模型描述了3D空间到2D空间的映射关系，对于实际情况下全局运动变换前后点变换轨迹拟合准确度较高，很好地复原了实际场景下坐标系统间的映射情况。因此，网络设计的目的是将输入的光流拟合为低维度的运动向量，该运动向量与透视变换模型一样，可以很好地表达光流中的全局运动规律，进而通过运动向量生成完整的全局运动。基于这个特点，我们采用编码-解码网络，模拟参数化建模和运动场重构的过程，将高维度的光流编码为表示相机运动的低维向量。之后通过解码端将低维向量重构为全局运动。

步骤二：构建一个全局运动分离网络的训练方式。由于没有与光流对应的真实全局运动，我们设计了一种基于图像掩码的训练策略。本发明利用Wu等人在2021年发表文章“Global Motion Estimation with Iterative Optimization-based IndependentUnivariate Model for Action Recognition”为每张光流图生成对应尺寸相同的二值化掩码mask。mask中的每个点的值代表光流中对应点的运动模式分类，为0表示该点在光流中为局部运动，为1表示该点在光流中为全局运动。全局运动和光流在分类为全局运动的像素点具有一致的运动值，因此用mask约束网络输出在这些像素点的值与光流中对应点的值相等，即可使网络学习从这些全局运动区域学习到全局运动规律。本发明的全局运动分离损失函数L₁为：

其中，w表示光流图的宽度，h表示光流图的高度，n表示当前训练数据批次中的样本数量，i是当前训练批次中第i个样本的索引，MM_i ^(x,y)是当前训练批次中第i个光流在像素点(x,y)位置上的运动值，GM_i ^(x,y)是当前训练批次中第i个网络的输出在像素点(x,y)位置上的运动值，M_i ^(x,y)是当前训练批次中第i个掩码在像素点(x,y)位置上的分类，1代表全局运动，0代表局部运动，因此M_i ^(x,y)＝0时无需计算误差，双竖线表示L2范数运算。

步骤三：构建一个用于分离局部运动的深度学习网络和对应的网络训练策略。一般情况下，局部运动可以由光流与全局运动相减得到。光流中存在不符合全局运动和局部运动规律的运动无关区域中的运动值，比如篮球比赛场景中的及分配等标志。这些标志始终固定在转播画面的某些位置，不包含任何运动信息。因此，直接相减得到局部运动时会引入运动无关区域的噪声运动。网络的目标是去除特殊区域的噪声运动，得到高质量的局部运动。由于局部运动不像全局运动那样符合统一的规律，因此本发明采用基于编码-解码结构的Attention U-net网络，利用高维特征构建局部运动特征，并通过解码端生成完整的局部运动，去除噪声运动。由于没有与光流对应的真实局部运动，本发明设计了一种基于人工标注的训练策略。我们对光流中的噪声区域位置进行了人工标注。利用标注信息从光流中裁剪出噪声区域运动，与步骤一中得到的全局运动和局部运动分离网络的输出相加，得到重构的运动场。理想状态下，该重构的运动场与原始光流一致，因为原始光流为噪声区域的运动、全局运动和局部运动混叠而成。因此，约束运动场和光流之间的误差，即可进而约束局部运动分离网络的输出为局部运动。本发明的局部运动分离损失函数L₂为：

其中，n表示当前训练数据批次中的样本数量，i是当前训练批次中第i个样本的索引，MM_i是当前训练批次中第i个光流的运动值，IM_i是当前训练批次中第i个光流的噪声区域运动值，GM_i是当前训练批次中第i个光流的全局运动，OM_i是局部分离网络的输出，双竖线表示L2范数运算。

与现有技术相比，本发明具有如下优点：

本发明通过两个编码-解码网络分别从光流中分离全局运动和局部运动，同时，针对两个网络分别设计了两种有效的训练策略。通过在多个数据集和多个计算机视觉任务中的对比，相较于之前的方法，本发明可以做到端到端地分离，可以更好地连接到任何光流估计网络之后实现运动分离，同时，多个计算机视觉任务通过本发明得到的全局运动和局部运动进一步提升了性能。

附图说明

图1是本发明示意图。

具体实施方式

本发明提出了一种基于编码-解码网络的深度运动分离方法。该发明的具体实现步骤如下：

步骤一：本发明首先通过Sun等人在2018年发表的文章“Cnns for optical flowusing pyramid,warping,and cost volume”计算得到两个相邻视频帧之间的光流，作为全局运动分离网络的输入。将光流转化为64*64*2的双通道运动场，两个通道分别代表水平运动幅度与垂直运动幅度。将光流平铺为长度为64*64*2＝8192的一维向量ζ₁输入网络。经过三个全连接层后，向量维度从8192->1024->128->8逐渐降低到8，得到8维向量ζ₂。网络的具体参数见表1：

表1：全局运动分离网路的参数

层	输入特征维度	输出特征维度
			全连接层1	8192	1024
全连接层2	1024	128
			全连接层3	128	8
全连接层4	8	128
			全连接层5	128	1024
全连接层6	1024	8192

向量中包含的局部运动信息不符合全局运动信息的运动规律，因此被当作噪声信息舍去。ζ₂可以建模相机的全部运动。

其次，解码端被设计为与编码端对称的结构。通过三个全连接层8->128->1024->8192后，向量维度从8逐渐增加到8192，得到8192维向量ζ₃。由于编码端的输入向量ζ₂建模了相机的全部运动，因此通过解码端得到的向量ζ₃仅包含代表相机运动的全局运动。最终，将ζ₃还原为64*64*2的运动场，再转化为与输入光流尺寸一致的运动场，从而得到全局运动。

步骤二：本发明针对全局运动分离网络的特性实现了一种基于掩码mask的训练策略。利用Wu等人在2021年发表文章“Global Motion Estimation with IterativeOptimization-based Independent Univariate Model for Action Recognition”为每张光流图生成对应尺寸相同的二值化掩码mask，将mask转化为64*64*1大小。网络训练时，采用Adam学习率更新策略，训练批次大小设置为256，初始学习率设置为0.001，并将光流的值除以20进行归一化。在反向传播阶段，通过公式(1)，用光流与全局运动相减的结果与mask相乘，实现对全局运动区域误差的保留，同时去除非全局运动区域的误差，实现对网络输出中的全局运动区域的约束，更新网络参数，使得8维的ζ₂向量更好地表达全局运动规律。

步骤三：本发明将光流和步骤一中得到的全局运动经过组合作为局部运动分离网络的输入，具体如下：将光流与全局运动相减得到粗糙的局部运动，这个局部运动包含噪声区域的运动值。将粗糙的局部运动和光流都转化为64*64*2的双通道运动场，然后在特征通道将两个运动场拼接为64*64*4的运动场，输入局部运动分离网络。网络训练时，采用Adam学习率更新策略，训练批次大小设置为256，初始学习率设置为0.001，并将光输入运动场的值除以20进行归一化。网络训练时的反向传播过程，用公式(2)计算网络的误差，并更新网络权重参数。

为了验证本发明的有效性，将本发明算法的全局运动和局部运动估计结果在单应性估计数据集DHE和行为识别数据集UCF-101、NCAA上进行了实验。首先测试了本发明的全局运动在单应性估计任务的性能。如表2所示，本发明和目前的最佳方法即刘帅成团队提出的基于内容感知的方法相比，在某些类别中取得了与最佳方法一致的效果。

表2：单应性估计任务的性能对比

	RE	LL	SF	LF
					内容感知	1.81	1.94	1.75	1.72
专利方法	1.81	1.95	1.97	2.07

随后，我们从行为识别数据集中随机抽取了200张光流，人工标注了局部运动和噪声区域。定义剩余区域为全局运动区域，将不同方法的全局运动中的全局运动区域与光流对应区域的误差作为指标，比较不同方法的全局运动估计效果，结果如表3所示。相较于目前的最佳方法，即毋立芳团队提出的统计分析方法和迭代优化方法，本发明具有最小的误差，全局运动估计效果最好，证明了本发明中全局运动分离的有效性。

表3：全局运动估计的性能对比

不同方法	误差
		统计分析	0.573
迭代优化	0.314
		专利方法	0.204

最后，我们在NCAA数据集上利用不同方法的局部运动进行了群体行为识别任务，通过C3D卷积提取一个事件中所有局部运动的时序特征进行行为事件的分类。利用不同方法得到的局部运动分别测试行为识别效果，结果如表4所示。相较于目前的最佳方法，即毋立芳团队提出的统计分析方法和迭代优化方法，利用本发明得到的局部运动进行行为识别任务的误差最小，证明了本发明中局部运动分离的有效性。

表4：NCAA数据集上的群体行为识别准确率

	统计分析	迭代优化	Ours
				3分球	0.695	0.802	0.777
罚球	0.821	0.866	0.910
				上篮	0.626	0.593	0.594
2分球	0.563	0.582	0.614
				扣篮	0.389	0.333	0.278
抢断	0.940	0.976	0.993
				平均	0.672	0.688	0.690

Claims

1.一种基于编码-解码网络的深度运动分离方法，其特征在于包括以下步骤：

(1)设计了一个用于分离全局运动的深度学习网络，对输入的光流分离出全局运动；

(2)针对全局运动分离网络的特点，设计了一种基于掩码mask的训练策略，对网络的输出进行约束，使网络学习光流中的全局运动特征；

(3)设计了一个局部运动分离深度学习网络和对应的网络训练策略，将光流和得到的全局运动经过组合输入局部运动分离网络，经网络计算后得到局部运动；并通过对应的训练策略约束网络的输出，使得网络从光流和粗糙的局部运动中提取出全局运动；

步骤(1)中，首先通过Pwc-Net深度学习算法计算得到两个相邻视频帧之间的光流，作为全局运动分离网络的输入；将光流转化为64*64*2的双通道运动场，两个通道分别代表水平运动幅度与垂直运动幅度；将光流平铺为长度为64*64*2＝8192的一维向量ζ₁输入网络；经过三个全连接层后，向量维度从8192->1024->128->8逐渐降低到8，得到8维向量ζ₂；其次，解码端被设计为与编码端对称的结构；通过三个全连接层8->128->1024->8192后，向量维度从8逐渐增加到8192，得到8192维向量ζ₃；由于编码端的输入向量ζ₂建模了相机的全部运动，因此通过解码端得到的向量ζ₃仅包含代表相机运动的全局运动；最终，将ζ₃还原为64*64*2的运动场，再转化为与输入光流尺寸一致的运动场，从而得到全局运动；

步骤(2)中，利用迭代优化算法为每张光流图生成对应尺寸相同的二值化掩码mask，mask中的每个点的值代表光流中对应点的运动模式分类，为0表示该点在光流中为局部运动，为1表示该点在光流中为全局运动；将mask转化为64*64*1大小；全局运动和光流在分类为全局运动的像素点具有一致的运动值，因此用mask约束网络输出在这些像素点的值与光流中对应点的值相等，使网络学习从这些全局运动区域学习到全局运动规律；全局运动分离损失函数L₁如公式(1)所示；网络训练时，采用Adam学习率更新策略，训练批次大小设置为256，初始学习率设置为0.001，并将光流的值除以20进行归一化；在反向传播阶段，通过公式(1)，用光流与全局运动相减的结果与mask相乘，实现对全局运动区域误差的保留，同时去除非全局运动区域的误差，实现对网络输出中的全局运动区域的约束，更新网络参数，使得8维的ζ₂向量更好地表达全局运动规律；其中，w表示光流图的宽度，h表示光流图的高度，n表示当前训练数据批次中的样本数量，i是当前训练批次中第i个样本的索引，MM_i ^(x,y)是当前训练批次中第i个光流在像素点(x,y)位置上的运动值，GM_i ^(x,y)是当前训练批次中第i个网络的输出在像素点(x,y)位置上的运动值，M_i ^(x,y)是当前训练批次中第i个掩码在像素点(x,y)位置上的分类，1代表全局运动，0代表局部运动，因此M_i ^(x,y)＝0时无需计算误差，双竖线表示L2范数运算；

步骤(3)中，将光流与全局运动相减得到粗糙的局部运动，这个局部运动包含噪声区域的运动值；将粗糙的局部运动和光流都转化为64*64*2的双通道运动场，然后在特征通道将两个运动场拼接为64*64*4的运动场，输入局部运动分离网络；网络训练时，对光流中的噪声区域位置进行了人工标注；利用标注信息从光流中裁剪出噪声区域的运动，与步骤(1)中得到的全局运动和局部运动分离网络的输出相加，得到重构的运动场；约束运动场和光流之间的误差，进而约束局部运动分离网络的输出为局部运动，如公式(2)所示；采用Adam学习率更新策略，训练批次大小设置为256，初始学习率设置为0.001，并将光输入运动场的值除以20进行归一化；网络训练时的反向传播过程，用公式(2)计算网络的误差L₂，并更新网络权重参数；其中，n表示当前训练数据批次中的样本数量，i是当前训练批次中第i个样本的索引，MM_i是当前训练批次中第i个光流的运动值，IM_i是当前训练批次中第i个光流的噪声区域运动值，GM_i是当前训练批次中第i个光流的全局运动，OM_i是局部分离网络的输出，双竖线表示L2范数运算；