CN111325774B

CN111325774B - 基于几何关系的光流无监督损失计算方法

Info

Publication number: CN111325774B
Application number: CN202010093052.3A
Authority: CN
Inventors: 王贺升; 张弛; 王光明
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2023-04-18
Anticipated expiration: 2040-02-14
Also published as: CN111325774A

Abstract

本发明提供了一种基于几何关系的光流无监督损失计算方法，包括：步骤A：进行光流不相交损失计算；步骤B：进行非遮挡区域光流不遮挡损失计算。本发明利用基于几何约束关系的光流无监督损失计算方法，解决了光流训练中缺乏标注数据集的问题，减少了人工标注数据的成本，能实现较高的准确性，有利于实际应用。

Description

基于几何关系的光流无监督损失计算方法

技术领域

本发明涉及计算机视觉技术领域，具体地，涉及一种基于几何关系的光流无监督损失计算方法。

背景技术

光流法是目前主流的运动图像分析方法，光流是计算机视觉领域的重要研究部分：被观察物体的三维速度矢量经投影在成像面，构成二维速度矢量，不仅包含被观察物体的运动信息，还有景物的三维结构信息。通过研究光流，可以在目标识别、场景分割、机器人导航等实现应用，前景广泛。

随着机器学习技术的发展，利用机器学习对光流估计，取得了较好的成果。对光流的无监督学习是一个重要的研究方向，其成果广泛地应用于计算机视觉领域：如在自动驾驶技术中，利用对光流的无监督学习训练，对行人行为和车辆行为进行属性分析，实现对场景的理解与决策。

在光流任务中，相比监督学习，无监督学习有以下优势：对于光流数据，若采用监督学习，其训练数据需要人类的手工筛选与标注，不仅难度大、成本高，数据的准确性与可用性也较低。相比之下，无监督学习可以节约人工进行标注的成本，利用计算机在巨大的样本中筛选部分有代表性的样本进行训练，是研究光流任务更好的选择。

损失函数是用于表示某随机事件的损失或风险的函数。损失函数越科学合理，对模型的指导也越客观准确，有利于我们进一步优化模型。对于光流研究，采用无监督学习方法，损失函数的选择是最为重要的一环：损失函数对学习误差进行惩罚，决定下一轮训练的方向，直接影响到最终的模型学习成果。

本发明提出了一种基于几何关系的光流无监督损失计算方法：对于连续两帧图像，非遮挡区域中的像素满足几何约束关系：光流不相交与光流不遮挡。对于不满足几何约束的像素点，本发明定义了光流不相交损失和光流不遮挡损失进行惩罚，对模型训练起到指导作用。两种损失基于无监督学习方法，无需有标注的数据集样本，并实现了较高的准确性。

光流：光流为观察者和场景间的相对运动而引起图像像素点的表观运动，利用相邻帧图像中像素点的相关性，推测出第一帧图像与第二帧图像间像素级别的对应关系，从而得到两帧间物体的运动信息。

无监督学习：是三类主流机器学习方法之一，可以用没有预先标注的数据集，利用计算机在巨大的样本中筛选部分有代表性的样本进行训练，能够解决对数据集进行人工标注成本过高、标注精度不足的难题。

损失函数：在数学优化和决策理论中，损失函数是将一个或多个变量的一个或多个事件映射到真值上，用于表示事件的损失或风险。在机器学习模型训练中，通过降低损失的方法实现优化与决策。

专利文献CN110490928A(申请号：201910603891.2)公开了一种基于深度神经网络的相机姿态估计方法，步骤如下：1)构建相机姿态估计网络；2)构建无监督训练方案，利用估计的深度图、帧间相对位姿及光流从输入的前后帧图像中分别重建出相应的图像，利用输入图像和重建图像之间的光度误差构建网络的损失函数；3)位姿估计模块与光流估计模块共享特征提取部分，加强特征对于帧间的几何联系；4)输入待训练单视点视频，输出对应帧间相对位姿，通过最优化手段降低损失函数来训练模型，以至网络达到收敛。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于几何关系的光流无监督损失计算方法。

如图1，根据本发明提供的基于几何关系的光流无监督损失计算方法，包括：

步骤A：进行光流不相交损失计算；

步骤B：进行非遮挡区域光流不遮挡损失计算。

优选地，所述步骤A包括：

步骤A1：对于连续两帧图像，利用光流网络得到第一帧到第二帧的前向光流与第二帧到第一帧的后向光流，将两者不一致区域判定为遮挡区域；

步骤A2：以3×3为滑动核尺寸，1为滑动步长，对尺寸为H×W的第一帧图像，得到(H-2)×(W-2)个尺寸为3×3的基本单位；

其中，H表示：图像的高度为H个像素；W表示：图像的宽度为W个像素；

步骤A3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算中间像素点和与之相邻的8个像素点间的光流不相交损失，

步骤A4：对所有基本单位损失值求平均，得到整张图片的光流不相交损失。

优选地，所述步骤A3包括：

步骤A3.1：在光流移动中，非遮挡区域第一帧中的像素点

像素点

和与之对应的第二帧中的像素点

像素点

第一帧中两像素点到第二帧对应位置时，不会发生遮挡，对于遮挡情况，计算光流不相交损失进行惩罚，其中，p_mid对应基本单位的中间像素点，p_i对应基本单位内与p_mid相邻的其他像素点，i＝1，2，...8；

步骤A3.2：若光流

与光流

未发生交叉，则像素点

间的光流不相交损失为0；否则，判定像素点间发生遮挡，计算光流不相交损失。

优选地，所述步骤A3.2包括：

步骤A3.2.1：在第一帧图像内，以中间像素点与周围像素点的差异程度，计算光流不相交损失权重，根据如下公式计算每个基本单位中，中间像素点p_mid与相邻周边8个像素点p_i间的光流不相交损失权重w_i：

其中，p_mid为基本单位的中间像素点，p_i对应基本单位内与p_mid相邻的其他像素点，i＝1，2，...8，j∈{R，G，B}，用p_i，j、p_mid，j表示p_i、p_mid像素点对应的颜色空间RGB三通道值；i表示：与中间像素点相邻的像素点编号；j表示：RGB颜色色域的通道编号；

步骤A3.2.2：获得光流相交系数μ_i与λ_i，计算公式如下：

x_mid+λ_iΔx_mid＝x_i+μ_iΔx_i

y_mid+λ_iΔy_mid＝y_i+μ_iΔy_i

其中，(x_mid，y_mid)为第一帧内中间像素点坐标，(x_i，y_i)为第一帧内相邻像素点坐标，Δx、Δy为像素点由第一帧流向第二帧在坐标系下的位移，求得：

Δ＝-Δx_midΔy_i+Δx_iΔy_mid

Δ表示：中间变量；

步骤A3.2.3：计算一个基本单位内，中间像素点相对于所有8个相邻的周围像素点的光流不相交损失E_unit，公式如下：

其中，i＝1，2，...，8，表示在基本单位内与中间像素点p_mid相邻的8个像素，w_i为p_i的光流不相交损失权重；

Ei表示：单个像素的不相交损失值；

在一个基本单位内计算得到E_unit，共提取(H-2)×(W-2)个基本单位，记E_k表示上述第k个单位内所求光流不相交损失，k＝1，2，...，(H-2)×(W-2)。

优选地，所述步骤A4包括：

对第一帧图片提取的(H-2)×(W-2)个基本单位求得的光流不相交损失取均值，求整张图片的光流不相交损失，公式如下：

其中，E_k表示上述第k个单位内所求光流不相交损失。

优选地，所述步骤B包括：

步骤B1：对连续两帧图像，利用光流网络得到第一帧到第二帧的前向光流与第二帧到第一帧的后向光流，将两者不一致区域判断为遮挡区域；

步骤B2：以4×4为滑动核尺寸，1为滑动步长，对尺寸为H×W的第一帧图像进行采样，得到尺寸为4×4的(H-3)×(W-3)个基本单位；

步骤B3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算外围12个像素点与中间4个像素点的光流不遮挡损失。

优选地，所述步骤B3包括：

步骤B3.1：判断在第二帧中，周边像素点是否流入中间4个像素点组成的四边形内部；

步骤B3.2：对于外围像素点P_i，根据中间像素点组成的四边形ABCD与P_i与在空间上的几何关系，定义像素点P_i的光流不遮挡损失E_i：

其中，P_i为基本单位中外围的像素点，i＝1，2，...，12；d_i为P_i到四边形各边距离的最小值；

步骤B3.3：求一个基本单位内12个外围像素点的光流不遮挡损失E_unit：

在一个基本单位内计算得到E_unit，共提取(H-3)×(W-3)个基本单位，记E_k表示上述第k个单位内所求光流不遮挡损失，k＝1，2，...，(H-3)×(W-3)；

步骤B4：对第一帧图片提取的(H-3)×(W-3)个基本单位求得的光流不遮挡损失取均值，求整张图片的光流不遮挡损失，公式如下：

其中，H表示：图像的高度为H个像素；W表示：图像的宽度为W个像素。

优选地，所述步骤B3.1包括：

步骤B3.1.1：定义一个基本单位内，中间4个像素点P_j与外围12个像素点P_i，其中j∈{A，B，C，D}，i＝1，2，...，12，第一帧采样获得基本单位的中间4个像素点P_AP_BP_CP_D在第二帧中构成四边形ABCD，由对角线分割为两个三角形，根据选择不同对角线AC或BD进行分割，分为各含两个三角形的两种情况ΔABC+ΔACD与ΔABD+ΔBCD，当且仅当以任一种分割方式，外围像素点均流入某三角形内时，判定发生遮挡；

步骤B3.1.2：对三角形ΔABC与点P_i，当BA×BP、AC×AP、CB×CP为同一方向时，判断P_i在ΔABC内；同理可推断P_i与ΔACD、ΔABD、ΔBCD的空间关系，计算逻辑表达式如下：

xBA表示：三角形的BA边向量的x坐标；

yBA表示：三角形的BA边向量的y坐标；

满足(Γ_ΔABC∨Γ_ΔACD)∧(Γ_ΔABD∨Γ_ΔBCD)＝1时，判定Pi在四边形ABCD内。

与现有技术相比，本发明具有如下的有益效果：

1、本发明能解决在光流网络训练任务中，缺乏标注数据集的问题。

2、本发明采用无监督学习训练光流网络，基于几何约束关系提出了两种损失函数：光流不相交损失和非遮挡区光流不遮挡损失，用两种损失函数对光流网络训练结果进行惩罚，对下一轮训练起到指导作用。

3、本发明解决了光流训练中缺乏标注数据集的问题，减少了人工标注数据的成本，能实现较高的准确性，有利于实际应用。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一种基于几何关系的光流无监督损失计算方法的系统框架图；

图2是步骤(A)光流不相交损失的流程图；

图3是3×3滑动核采样得到基本单位的示意图；

图4是光流

与光流

发生交叉情况的示意图；

图5是步骤(B)非遮挡区域光流不遮挡损失的流程图；

图6是4×4滑动核采样得到基本单位的示意图；

图7是像素点运动后，点P_i与四边形ABCD的几何关系示意图，其中，(A)对应四边形ABCD为凸四边形的情况，(B)对应四边形ABCD为凹四边形的情况。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的一种基于几何关系的光流无监督损失计算方法，包括：光流不相交损失计算步骤A和非遮挡区域光流不遮挡损失计算步骤B。

所述步骤A包括如下步骤：

步骤A1：对于连续两帧图像，利用光流网络可得到第一帧到第二帧的前向光流与第二帧到第一帧的后向光流。两者不一致区域判断为遮挡区域。

步骤A2：以3×3为滑动核尺寸，1为滑动步长，对尺寸为H×W的图像，得到(H-2)×(W-2)个尺寸为3×3的基本单位。例如，图3为滑动核提取基本单位的示意图，虚线方框代表滑动核提取的一个基本单位。以1为滑动步长，滑动核向右移动一个像素长度，即可提取下一个基本单位。以此原理可从一张尺寸为H×W的图像，提取出(H-2)×(W-2)个尺寸为3×3的基本单位；

步骤A3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算中间像素点和与之相邻的8个像素点间的光流不相交损失，包括如下步骤：

步骤A3.1：在光流移动中，非遮挡区域第一帧中的像素点

像素点

和与之对应的第二帧中的像素点

像素点

第一帧中两像素点到第二帧对应位置时，不会发生遮挡。对于遮挡情况，计算光流不相交损失进行惩罚。其中，p_mid对应基本单位的中间像素点，p_i对应基本单位内与p_mid相邻的其他像素点，i＝1，2，...8。

步骤A3.2：若光流

与光流

未发生交叉，则像素点

间的光流不相交损失为0；否则，认为像素点间发生遮挡，计算光流不相交损失，包括如下步骤：

步骤A3.2.1：在第一帧图像内，以中间像素点与周围像素点的差异程度，计算光流不相交损失权重。根据如下公式计算每个基本单位中，中间像素点p_mid与相邻周边8个像素点p_i间的光流不相交损失权重w_i：

其中，p_mid为基本单位的中间像素点，p_i对应基本单位内与p_mid相邻的其他像素点，i＝1，2，...8。j∈{R，G，B}，用p_i，j、p_mid，j表示p_i、p_mid像素点对应的颜色空间RGB三通道值；

步骤A3.2.2：获得光流相交系数μ_i与λ_i，其几何意义如图4所示：第一帧中像素点

与

在第二帧中对应像素点为

和

若运动中发生像素点间的遮挡，则光流

与光流

会发生如图4所示交叉。满足几何关系如下：

x_mid+λ_iΔx_mid＝x_i+μ_iΔx_i

y_mid+λ_iΔy_mid＝y_i+μ_iΔy_i

其中，(x_mid，y_mid)为第一帧内中间像素点坐标，(x_i，y_i)为第一帧内相邻像素点坐标，Δx、Δy为像素点由第一帧流向第二帧在坐标系下的位移。可求得光流相交系数μ_i与λ_i：

Δ＝-Δx_midΔy_i+Δx_iΔy_mid

步骤A3.2.3：计算一个基本单位内，中间像素点相对于所有相邻周围像素点的光流不相交损失E_unit，公式如下：

其中，i＝1，2，...，8，表示在基本单位内与中间像素点相邻的8个像素点，w_i为p_i的光流不相交损失权重；。

因为在一个基本单位内计算得到E_unit，共提取(H-2)×(W-2)个基本单位，记E_k表示上述第k个单位内所求光流不相交损失，k＝1，2，...，(H-2)×(W-2)

步骤A4：对第一帧图片提取的(H-2)×(W-2)个基本单位求得的光流不相交损失取均值，求整张图片的光流不相交损失，公式如下：

如图5，所述步骤B包括如下步骤：

步骤B1：对于连续两帧图像，利用光流网络可得到第一帧到第二帧的前向光流与第二帧到第一帧的后向光流。两者不一致区域判断为遮挡区域。此部分算法最近相关文献都有详细介绍，这里不再赘述；

步骤B2：以4×4为滑动核尺寸，1为滑动步长，对尺寸为H×W的第一帧图像进行采样，得到尺寸为4×4的(H-3)×(W-3)个基本单位。例如，图6所示为滑动核提取基本单位的示意图，虚线方框代表滑动核提取的一个基本单位。以1为滑动步长，滑动核向右移动一个像素长度，即可提取下一个基本单位。以此原理可从一张尺寸为H×W的图像，提取出(H-3)×(W-3)个尺寸为4×4的基本单位；

步骤B3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算外围12个像素点与中间4个像素点的光流不遮挡损失，包括如下步骤：

步骤B3.1：判断在第二帧中，周边像素点是否流入中间4个像素点组成的四边形内部，其特征在于，包括如下步骤：

步骤B3.1.1：定义一个基本单位内，中间4个像素点P_j与外围12个像素点P_i，其中j∈{A，B，C，D}，i＝1，2，...，12。第一帧采样获得基本单位的中间4个像素点P_AP_BP_CP_D在第二帧中构成四边形ABCD，由对角线分割为两个三角形。根据选择不同对角线AC或BD进行分割，分为各含两个三角形的两种情况ΔABC+ΔACD与ΔABD+ΔBCD。当且仅当以任一种分割方式，外围像素点均流入某三角形内，可推断发生遮挡

如图7，(A)对应第二帧四边形ABCD为凸四边形情况。根据对角线AC分割为ΔABC+ΔACD，点P_i在ΔABC内部；而根据对角线BD分割为ΔABD+ΔBCD，点P_i在ΔABD内部。结合两次判断，可推测P_i流入四边形ABCD内部。

如图7，(B)对应第二帧四边形ABCD为凹四边形情况。根据对角线AC分割为ΔABC+ΔACD，点P_i在ΔABC与ΔACD内部；而根据对角线BD分割为ΔABD+ΔBCD，点P_i不在ΔABD或是ΔBCD内部。结合两次判断，可推测P_i没有流入四边形ABCD内部。

步骤B3.1.2：对三角形ΔABC与点P_i，当BA×BP，AC×AP，CB×CP为同一方向时，可判断P_i在ΔABC内；同理可推断P_i与ΔACD、ΔABD、ΔBCD的空间关系。计算逻辑表达式如下：

满足(Γ_ΔABC∨Γ_ΔACD)∧(Γ_ΔABD∨Γ_ΔBCD)＝1，可推断Pi在四边形ABCD内。

因为在一个基本单位内计算得到E_unit，共提取(H-3)×(W-3)个基本单位，记E_k表示上述第k个单位内所求光流不遮挡损失，k＝1,2,…,(H-3)×(W-3)；

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于几何关系的光流无监督损失计算方法，其特征在于，包括：

步骤A：进行光流不相交损失计算；

步骤B：进行非遮挡区域光流不遮挡损失计算；

所述步骤A包括：

步骤A3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算中间像素点和与之相邻的8个像素点间的光流不相交损失；

步骤A4：对所有基本单位损失值求平均，得到整张图片的光流不相交损失；

所述步骤A3包括：

步骤A3.1：在光流移动中，非遮挡区域第一帧中的像素点像素点和与之对应的第二帧中的像素点像素点第一帧中两像素点到第二帧对应位置时，不会发生遮挡，对于遮挡情况，计算光流不相交损失进行惩罚，其中，p_mid对应基本单位的中间像素点，p_i对应基本单位内与p_mid相邻的其他像素点，i＝1,2,…8；

步骤A3.2：若光流与光流未发生交叉，则像素点间的光流不相交损失为0；否则，判定像素点间发生遮挡，计算光流不相交损失；

所述步骤A3.2包括：

其中，p_mid为基本单位的中间像素点,p_i对应基本单位内与p_mid相邻的其他像素点，i＝1,2,…8，j∈{R,G,B}，用p_i,、p_mid,表示p_i、p_mid像素点对应的颜色空间RGB三通道值；i表示：与中间像素点相邻的像素点编号；j表示：RGB颜色色域的通道编号；

步骤A3.2.2：获得光流相交系数μ_i与λ_i，计算公式如下：

x_mid+λ_iΔx_mid＝x_i+μ_iΔx_i

y_mid+λ_iΔy_mid＝y_i+μ_iΔy_i

Δ＝-Δx_midΔy_i+Δx_iΔy_mid

Δ表示：中间变量；

E_i表示：单个像素的不相交损失值；

在一个基本单位内计算得到E_unit，共提取(H-2)×(W-2)个基本单位，记E_k表示第k个单位内所求光流不相交损失，k＝1，2，...，(H-2)×(W-2)；

所述步骤A4包括：

其中，E_k表示第k个单位内所求光流不相交损失；

所述步骤B包括：

步骤B3：利用并行计算提高计算效率，将整张图像分为若干基本单位，并在每个基本单位内，依次计算外围12个像素点与中间4个像素点的光流不遮挡损失；

所述步骤B3包括：

步骤B3.2：对于外围像素点P_i，根据中间像素点组成的四边形ABCD与P_i与在空间上的几何关系，定义像素点P_i的光流不遮挡损失E_i′：

步骤B3.3：求一个基本单位内12个外围像素点的光流不遮挡损失E_unit′：

在一个基本单位内计算得到E_unit′，共提取(H-3)×(W-3)个基本单位，记E_k′表示第k个单位内所求光流不遮挡损失，k＝1，2，...，(H-3)×(W-3)；

2.根据权利要求1所述的基于几何关系的光流无监督损失计算方法，其特征在于，所述步骤B3.1包括：

步骤B3.1.1：定义一个基本单位内，中间4个像素点Pi与外围12个像素点P_i，其中j∈{A，B，C，D}，i＝1，2，...，12，第一帧采样获得基本单位的中间4个像素点P_AP_BP_CP_D在第二帧中构成四边形ABCD，由对角线分割为两个三角形，根据选择不同对角线AC或BD进行分割，分为各含两个三角形的两种情况ΔABC+ΔACD与ΔABD+ΔBCD，当且仅当以任一种分割方式，外围像素点均流入某三角形内时，判定发生遮挡；

x_BA表示：三角形的BA边向量的x坐标；

y_BA表示：三角形的BA边向量的y坐标；

满足(Γ_ΔABC∨Γ_ΔACD)∧(Γ_ΔABD∨Γ_ΔBCD)＝1时，判定P_i在四边形ABCD内。