CN108320020A

CN108320020A - 一种基于双向光流的端到端无监督学习方法

Info

Publication number: CN108320020A
Application number: CN201810121000.5A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-02-07
Filing date: 2018-02-07
Publication date: 2018-07-24

Abstract

本发明中提出的一种基于双向光流的端到端无监督学习方法，其主要内容包括：基于光流的无监督学习、光流网络架构和计算，其过程为，基于双向(即前向和后向)光流估计来设计对称，遮挡感知损失；使用全面的无监督损失来训练光流网络来估计双向光流；通过堆叠多个光流网络来使用迭代改进，为每个流向执行一次传递，并共享两次传递之间的所有权重；还可以使用监督损失来在无监督训练之后对稀疏标定真实数据上的网络进行微调。本发明利用基于双向光流的端到端无监督学习方法，解决了缺乏标记的实际训练数据的问题，在无需人工进行标注数据的情况下实现较高的准确性，使其更有利于实际应用。

Description

一种基于双向光流的端到端无监督学习方法

技术领域

本发明涉及无监督学习领域，尤其是涉及了一种基于双向光流的端到端无监督学习方法。

背景技术

无监督学习是机器学习和人工智能领域的一个重要分支，其在机器学习、数据挖掘、生物医学大数据分析、数据科学等领域有着重要地位。无监督学习的作用是在设计分类器时候，用于处理未被分类标记的样本集，其可以大大减少人工标注带来的人力、物力的耗费。无监督学习最常见的应用是图像分类，如在医学领域，无监督学习可以应用于组织病理图像分类，对恶性组织或细胞进行识别和鉴定，实现计算机辅助诊断，减轻医生工作负担，从而提高诊断的准确率；而在日常搜索中，通过对各种类别的人物、动物、生活用品甚至是商品等进行分类，可以大大提高搜索效率，给用户带来极大的便利。除此之外，无监督学习也可用于行为检测，特别是在安保领域，通过对各种人物姿势进行识别和分类，可以结合视频监控系统对公共场合等的密集人流进行行为检测，一旦发现异常行为，即可通知安保人员对其进行控制，从而减少危险事件的发生。近年来的研究中，用于光流的端到端卷积网络仍依赖于合成数据集进行监督，训练和测试场景之间的域不匹配也是一个巨大的挑战。

本发明提出了一种基于双向光流的端到端无监督学习方法，基于双向(即前向和后向)光流估计来设计对称，遮挡感知损失；使用全面的无监督损失来训练光流网络来估计双向光流；通过堆叠多个光流网络来使用迭代改进，为每个流向执行一次传递，并共享两次传递之间的所有权重；还可以使用监督损失来在无监督训练之后对稀疏标定真实数据上的网络进行微调。本发明利用基于双向光流的端到端无监督学习方法，解决了缺乏标记的实际训练数据的问题，在无需人工进行标注数据的情况下实现较高的准确性，使其更有利于实际应用。

发明内容

针对训练和测试场景之间的域不匹配的问题，本发明的目的在于提供一种基于双向光流的端到端无监督学习方法，基于双向(即前向和后向)光流估计来设计对称，遮挡感知损失；使用全面的无监督损失来训练光流网络来估计双向光流；通过堆叠多个光流网络来使用迭代改进，为每个流向执行一次传递，并共享两次传递之间的所有权重；还可以使用监督损失来在无监督训练之后对稀疏标定真实数据上的网络进行微调。

为解决上述问题，本发明提供一种基于双向光流的端到端无监督学习方法，其主要内容包括：

(一)基于光流的无监督学习；

(二)光流网络架构和计算。

其中，所述的基于光流的无监督学习，基于光流的无监督学习包括无监督损失和后向扭曲，具体为以下三个方面：

(1)基于双向(即前向和后向)光流估计来设计对称，遮挡感知损失；

(2)使用全面的无监督损失来训练光流网络-C来估计双向光流；

(3)通过堆叠多个光流网络来使用迭代改进；

可选地，还可以使用监督损失来在无监督训练之后对稀疏标定真实数据上的网络进行微调。

进一步地，所述的无监督损失，设为两个时间连续的帧；目标是估计从I₁到I₂的光流w^f＝(u^f,v^f)^T；由于遮挡检测还需要反向光流w^b＝(u^b,v^b)^T，所以通过使所有的损耗项对称(即计算两个光流方向)来联合估计双向光流；在这里，将这个想法从基于超像素的设置扩展到一般流场，并将其用作无监督学习中的损失函数；

对于非遮挡的像素，正向光流应该是第二帧中相应像素处的逆向光流的方向；当这两个光流之间不匹配时，将像素标记为遮挡；因此，对于正向遮挡，每当约束(如下式所示)不符合时，将遮挡标志定义为1，否则为0；

|w^f(x)+w^b(x+w^f(x))|²<α₁(|w^f(x)|²+|w^b(x+w^f(x))|²)+α₂ (1)

对于反向遮挡，用相同的方式定义交换w^f和w^b；在所有的实验中设定了α₁＝0.01，α₂＝0.5；为了探索感知遮挡的损失变量，只需要对所有x∈P使用

进一步地，所述的感知遮挡，感知遮挡的数据损失定义为：

其中，f_D(I₁(x),I₂(x′))测量两个假定对应的像素x和x′之间的光度差，ρ(x)＝(x²+∈²)^γ是鲁棒的广义的沙博尼耶罚函数，γ＝0.45；为所有被遮挡的像素添加一个常数惩罚λ_p，从而避免所有遮挡像素的平凡解，并且惩罚所有非遮挡像素的光度差；亮度恒常性约束f_D(I₁(x),I₂(x′))＝I₁(x)-I₂(x′)用于测量光度差；由于亮度恒常性不是在现实情况下常见的光照不变，因此改为使用三元Census变换；Census变换可以补偿加法和乘法照明变化以及伽玛变化，从而提供了一个更真实的图像恒定假设。

进一步地，所述的流场，在流场上使用二阶平滑约束来鼓励相邻流的共线性，从而实现更有效的正则化：

其中，N(x)由x周围的水平、垂直和两个对角邻域组成(共4个)；对于矢量，假设ρ(·)计算每个组件的原始广义的沙博尼耶罚函数的平均值；对于遮挡像素位置，除了遮挡惩罚之外，这个项是唯一有效的项；对于非遮挡像素，添加前向-后向一致性惩罚：

E(w^f,w^b,o^f,o^b)＝E_D(w^f,w^b,o^f,o^b)

+λ_SE_S(w^f,w^b)+λ_CE_C(w^f,w^b,o^f,o^b) (5)

最终损失为独立损失项的加权总和如公式(5)所示。

进一步地，所述的后向扭曲，为了用反向传播的次微分方法计算损失，在光流位移位置(即后向扭曲)采用双线性采样；例如，为了比较I₁(x)和I₂(x+w^f(x))，使用w^f后向扭曲I₂，然后将后向扭曲的第二图像与第一图像进行比较。

其中，所述的光流网络架构和计算，光流网络包括堆叠和计算无监督的损失；基本的卷积神经网络(CNN)称为非光流网络-C，其基于光流网络-C，在两个独立的输入流中处理两个连续的图像，关联图像并用CNN编码器将结果压缩到原始分辨率的六分之一；在解码器部分(细化网络)中，压缩表示卷积上采样四次，并且在每次上采样之后预测密集流；最后的流量估计双线性上采样到原始分辨率；为了计算双向光流，首先将光流网络-C应用于RGB图像(I₁,I₂)，从而获得正向流(u^f,v^f)，并将相同的计算应用于(I₂,I₁)以获得反向流(u^b,v^b)；在两个方向上共享权重，以在任一方向上训练一个通用的光流网络。

进一步地，所述的堆叠，通过将光流网络传递到具有独立权重的光流网络-S中，迭代地改进非光流网络-C的估计，并将其称为双网络堆叠的非光流网络-CS；接着为每个流向执行一次传递，并共享两次传递之间的所有权重；除了原始的图像，输入初始光流估计、后向扭曲的第二个图像、扭曲的图像和第一个图像之间的亮度误差到迭代网络；同样，在非光流网络-CS之后连接一个额外的光流网络-S来细化估计，并称为三网络堆叠的非光流网络-CSS。

进一步地，所述的计算无监督的损失，与受监督的光流网络类似，计算来自细化网络的所有中间预测的损失，在多个分辨率的情况下指导学习过程，然后通过加权平均来合并它们；总损失为：

其中，E_i是公式(5)中的损失，在第i层进行评估。

进一步地，所述的损失，通过比较双线性上采样的最终光流估计和标定好的真值可用的所有像素的真实流量来计算网络损耗：

如果在像素x处存在有效的标定真实数据，则否则不减少对标定好的真实流量的下采样，只计算最终预测的损失。

附图说明

图1是本发明一种基于双向光流的端到端无监督学习方法的系统框架图。

图2是本发明一种基于双向光流的端到端无监督学习方法的基于光流的无监督学习。

图3是本发明一种基于双向光流的端到端无监督学习方法的无人监督的非流网络-C的视觉比较。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于双向光流的端到端无监督学习方法的系统框架图。主要包括基于光流的无监督学习；光流网络架构和计算。

光流网络包括堆叠和计算无监督的损失；基本的卷积神经网络(CNN)称为非光流网络-C，其基于光流网络-C，在两个独立的输入流中处理两个连续的图像，关联图像并用CNN编码器将结果压缩到原始分辨率的六分之一；在解码器部分(细化网络)中，压缩表示卷积上采样四次，并且在每次上采样之后预测密集流；最后的流量估计双线性上采样到原始分辨率；为了计算双向光流，首先将光流网络-C应用于RGB图像(I₁,I₂)，从而获得正向流(u^f,v^f)，并将相同的计算应用于(I₂,I₁)以获得反向流(u^b,v^b)；在两个方向上共享权重，以在任一方向上训练一个通用的光流网络。

通过将光流网络传递到具有独立权重的光流网络-S中，迭代地改进非光流网络-C的估计，并将其称为双网络堆叠的非光流网络-CS；接着为每个流向执行一次传递，并共享两次传递之间的所有权重；除了原始的图像，输入初始光流估计、后向扭曲的第二个图像、扭曲的图像和第一个图像之间的亮度误差到迭代网络；同样，在非光流网络-CS之后连接一个额外的光流网络-S来细化估计，并称为三网络堆叠的非光流网络-CSS。

图2是本发明一种基于双向光流的端到端无监督学习方法的基于光流的无监督学习。基于光流的无监督学习包括无监督损失和后向扭曲，具体为以下三个方面：

(3)通过堆叠多个光流网络来使用迭代改进；

设为两个时间连续的帧；目标是估计从I₁到I₂的光流w^f＝(u^f,v^f)^T；由于遮挡检测还需要反向光流w^b＝(u^b,v^b)^T，所以通过使所有的损耗项对称(即计算两个光流方向)来联合估计双向光流；在这里，将这个想法从基于超像素的设置扩展到一般流场，并将其用作无监督学习中的损失函数；

|w^f(x)+w^b(x+w^f(x))|²<α₁(|w^f(x)|²+|w^b(x+w^f(x))|²)+α₂ (1)

感知遮挡的数据损失定义为：

在流场上使用二阶平滑约束来鼓励相邻流的共线性，从而实现更有效的正则化：

E(w^f,w^b,o^f,o^b)＝E_D(w^f,w^b,o^f,o^b)

+λ_SE_S(w^f,w^b)+λ_CE_C(w^f,w^b,o^f,o^b) (5)

最终损失为独立损失项的加权总和如公式(5)所示。

为了用反向传播的次微分方法计算损失，在光流位移位置(即后向扭曲)采用双线性采样；例如，为了比较I₁(x)和I₂(x+w^f(x))，使用w^f后向扭曲I₂，然后将后向扭曲的第二图像与第一图像进行比较。

图3是本发明一种基于双向光流的端到端无监督学习方法的无人监督的非流网络-C的视觉比较。与受监督的光流网络类似，计算来自细化网络的所有中间预测的损失，在多个分辨率的情况下指导学习过程，然后通过加权平均来合并它们；总损失为：

其中，E_i是公式(5)中的损失，在第i层进行评估。

通过比较双线性上采样的最终光流估计和标定好的真值可用的所有像素的真实流量来计算网络损耗：

如图所示比较了先前方法(中间列)的基线无监督损失与本方法的无监督损失(右列)；对于每个示例，会显示标定好的真实数据和估计流量，以及输入图像叠加和流量误差。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于双向光流的端到端无监督学习方法，其特征在于，主要包括基于光流的无监督学习(一)；光流网络架构和计算(二)。

2.基于权利要求书1所述的基于光流的无监督学习(一)，其特征在于，基于光流的无监督学习包括无监督损失和后向扭曲，具体为以下三个方面：

(3)通过堆叠多个光流网络来使用迭代改进；

3.基于权利要求书2所述的无监督损失，其特征在于，设为两个时间连续的帧；目标是估计从I₁到I₂的光流w^f＝(u^f,v^f)^T；由于遮挡检测还需要反向光流w^b＝(v^b,v^b)^T，所以通过使所有的损耗项对称(即计算两个光流方向)来联合估计双向光流；在这里，将这个想法从基于超像素的设置扩展到一般流场，并将其用作无监督学习中的损失函数；

|w^f(x)+w^b(x+w^f(x))|²<α₁(|w^f(x)|²+|w^b(x+w^f(x))|²)+α₂ (1)

4.基于权利要求书3所述的感知遮挡，其特征在于，感知遮挡的数据损失定义为：

5.基于权利要求书3所述的流场，其特征在于，在流场上使用二阶平滑约束来鼓励相邻流的共线性，从而实现更有效的正则化：

E(w^f,w^b,o^f,o^b)＝E_D(w^f,w^b,o^f,o^b)

+λ_SE_S(w^f,w^b)+λ_CE_C(w^f,w^b,o^f,o^b) (5)

最终损失为独立损失项的加权总和如公式(5)所示。

6.基于权利要求书2所述的后向扭曲，其特征在于，为了用反向传播的次微分方法计算损失，在光流位移位置(即后向扭曲)采用双线性采样；例如，为了比较I₁(x)和I₂(x+w^f(x))，使用w^f后向扭曲I₂，然后将后向扭曲的第二图像与第一图像进行比较。

7.基于权利要求书1所述的光流网络架构和计算(二)，其特征在于，光流网络包括堆叠和计算无监督的损失；基本的卷积神经网络(CNN)称为非光流网络-C，其基于光流网络-C，在两个独立的输入流中处理两个连续的图像，关联图像并用CNN编码器将结果压缩到原始分辨率的六分之一；在解码器部分(细化网络)中，压缩表示卷积上采样四次，并且在每次上采样之后预测密集流；最后的流量估计双线性上采样到原始分辨率；为了计算双向光流，首先将光流网络-C应用于RGB图像(I₁,I₂)，从而获得正向流(u^f,v^f)，并将相同的计算应用于(I₂,I₁)以获得反向流(u^b,v^b)；在两个方向上共享权重，以在任一方向上训练一个通用的光流网络。

8.基于权利要求书7所述的堆叠，其特征在于，通过将光流网络传递到具有独立权重的光流网络-S中，迭代地改进非光流网络-C的估计，并将其称为双网络堆叠的非光流网络-CS；接着为每个流向执行一次传递，并共享两次传递之间的所有权重；除了原始的图像，输入初始光流估计、后向扭曲的第二个图像、扭曲的图像和第一个图像之间的亮度误差到迭代网络；同样，在非光流网络-CS之后连接一个额外的光流网络-S来细化估计，并称为三网络堆叠的非光流网络-CSS。

9.基于权利要求书7所述的计算无监督的损失，其特征在于，与受监督的光流网络类似，计算来自细化网络的所有中间预测的损失，在多个分辨率的情况下指导学习过程，然后通过加权平均来合并它们；总损失为：

其中，E_i是公式(5)中的损失，在第i层进行评估。

10.基于权利要求书9所述的损失，其特征在于，通过比较双线性上采样的最终光流估计和标定好的真值可用的所有像素的真实流量来计算网络损耗：