CN108932725B - 基于卷积神经网络的场景流估计方法 - Google Patents
基于卷积神经网络的场景流估计方法 Download PDFInfo
- Publication number
- CN108932725B CN108932725B CN201810589261.XA CN201810589261A CN108932725B CN 108932725 B CN108932725 B CN 108932725B CN 201810589261 A CN201810589261 A CN 201810589261A CN 108932725 B CN108932725 B CN 108932725B
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- flow
- optical flow
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于卷积神经网络的场景流估计方法,属于计算机视觉领域。该方法将卷积神经网络与场景流估计相结合,可以从大量无标注的数据集中无监督学习得到场景流,进而提出了一种新的网络架构,命名为SF‑Net,端到端地进行场景流无监督学习,该模型能够从输入的图像中直接提取出场景流。在估计场景流时,通过使用预先训练好的网络模型,只需通过前向计算就可以得到场景流,能够满足实时应用要求。
Description
技术领域
本发明属于计算机视觉领域,具体涉及基于卷积神经网络的场景流估计方法。
背景技术
动态图像的处理是近些年计算机视觉研究的一个热点。相比与传统的静态图像,动态图像的主要研究目标是运动的物体。动态图像不仅包含景物的色彩、位置等空间上的信息,也包含了景物的时间信息。人们往往通过对对图像序列中图像进行分析计算,从而获得物体的运动状况。
目前动态图像处理包含多个方面,光流分析是目前动态图像处理中一种典型的处理方法。光流(optical flow)的概念是Gibson在1950年提出来的,是指空间运动物体在观察成像平面上的像素运动的瞬时速度。观察视频图像可以发现,时间相邻的图像存在着一定的时间相关性和位置相关性。利用这种相关性可以计算出物体的运动信息。这就是光流法的核心思想。将图像中多个像素的光流汇集,就可获得光流场。因此,光流场可以看作是二维的瞬时速度场,而其中二维速度矢量是图像中三维速度矢量在成像表面的投影。
由于光流不仅包含了物体的运动信息,而且还包含了结构信息,所以近些年来对光流的研究日渐增多,针对光流的研究成为计算机视觉领域的研究热点和难点。光流估计是运动估计的重要手段。通过光流计算,可获得在图像中的全部运动信息。光流估计在视觉计算与分析中扮演着非常重要的角色。基于光流的应用可以在多个领域,如军事、交通、医学、工业信息等。
与光流经历了三十多年的发展不同,场景流是一个很新的研究方向。场景流的概念虽然最早在1999年就被提出,但直到2005年,关于场景流的研究才正式在权威期刊中出现。简单的来讲,光流是平面上物体运动的二维信息,而场景流则包括了空间中物体运动的三维信息。光流估计往往是基于目标刚体或分片刚体假设的二维运动重构方法,而场景流则假设目标完全非刚体,各点运动彼此独立,并同时估计三维场景的运动和结构。因而场景流是运动估计方法由传统二维到三维的一个飞跃,也成为三维视觉最有前景的方向之一。
场景流是光流的三维拓展,该领域目前是计算机视觉的重要研究方向之一。传统的场景流估计模型使用的是变分框架,在能量泛函中定义数据项和平滑项,通过极小化能量泛函的方式求取场景流。优化一个复杂的能量泛函通常是十分耗时的,大多数基于变分模型的算法很难满足实际的应用场景。而且这些方法不能从现有的大量数据集中学习得到先验知识。
针对以上问题,本发明提出了一种基于卷积神经网络的场景流估计方法,该方法将卷积神经网络与场景流估计相结合,可以从大量无标注的数据集中无监督学习得到场景流,该模型能够从输入的图像中直接提取出场景流。在估计场景流时,通过使用预先训练好的网络模型,只需通过前向计算就可以得到场景流,能够满足实时的应用场合。
发明内容
本发明的目的在于提出基于一种新的网络架构和全新的损失函数的基于卷积神经网络的场景流估计方法。
本发明的目的通过如下技术方案来实现:
基于卷积神经网络的场景流估计方法,包括如下步骤:
(1)准备用于场景流网络训练的立体图像对,包括左目相机t,t+1时刻的图像,以及右目相机t,t+1时刻的图像,t为正整数;
(2)构建光流估计子网络,输入左目t时刻和t+1时刻图像,输出得到稠密的光流;
(3)构建视差估计子网络,输入左目t时刻与右目t时刻图像,输出为t时刻视差,输入左目t+1时刻与右目t+1时刻图像,输出为t+1时刻的视差;
(4)构建融合子网络,该网络将光流子网络中的部分特征图以及视差子网络中的部分特征图进行特征融合,采用无监督学习场景流损失函数引导网络的训练;
(5)构建并训练场景流整体网络,首先训练光流子网络以及视差子网络,然后将预训练好的光流及视差子网络与融合子网络相连接,固定光流及视差子网络的权值,进行融合子网络的训练,最终得到场景流估计整体网络;
(6)利用训练得到的场景流网络对测试图像对进行前向计算,输出即为预测所得到的场景流。
所述的步骤(2)具体包括:
所述的光流估计子网络由收缩和扩张两部分构成,收缩部分包7个卷积层,扩张部分包括4个反卷积层,每个反卷积层后面都连接一个ReLU激活函数;
(2.1)光流估计子网络的损失函数定义如下,
其中λ1,λ2,λ3为各项的平衡因子;
其中I1,I2为输入图像对,x为图像像素点坐标,w(x)=(u,v)为预测所得到的光流;
所述的步骤(3)具体包括:
视差子网络由收缩和扩张两部分构成,收缩部分包括7个卷积层,每个卷积层后都连接一个ReLU激活函数,扩张部分包括4个反卷积层,每个反卷积层后面都连接一个ReLU激活函数;
(3.1)视差子网络的损失函数定义如下,
其中Il,Ir分别为左右目图像,x为图像坐标位置,d(x)为在x位置估计得到的视差值;
(3.2)定义视差空间平滑损失函数如下,
所述的步骤(4)具体包括:
(4.1)定义融合子网络场景流损失函数如下,
其中μ1,μ2和μ3为3项损失函数的平衡因子;
本发明的有益效果在于:
提出一种基于卷积神经网络的场景流估计方法,该方法将光流估计子网络与视差估计子网络进行融合设计,进而提出了一种新的网络架构,命名为SF-Net,端到端的进行场景流无监督学习,与此同时提出了一种全新的损失函数,用于引导网络的训练过程。
附图说明
图1为本发明流程图;
图2为本发明的光流子网络架构图;
图3为本发明的视差子网络架构图;
图4为本发明的视差共享网络结构图;
图5为本发明的融合子网络架构图;
图6为本发明的场景流网络总体架构图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
S1.首先将训练数据集按照网络训练输入图像的形式整理,其中包括左目相机t,t+1 时刻图像,以及右目相机t,t+1时刻图像。
S2.如图2所示,光流子网络输入为左目相机t时刻与t+1时刻的图像。该网络由收缩和扩张两部分构成。收缩部分包7个卷积层,具体结构及参数见图2,每个卷积层后都连接一个ReLU激活函数。扩张部分包括4个反卷积层,具体结构及参数见图2,每个反卷积层后面都连接一个ReLU激活函数。每个卷积层输出不同分辨率下计算得到的预测光流值。在模型的测试阶段,扩张部分最后连接一个上采样层,用来将预测得到的光流上采样到与输入图像相同的分辨率。该网络的损失函数定义如下,
光流子网络在不同分辨率下预测光流并计算损失,具体可见图2。
S3.如图3所示,视差子网络分为t时刻子网络与t+1时刻子网络,两个子网络采用共享网络结构,权值共享,具体结构见图4。该网络由收缩和扩张两部分构成。收缩部分包括7 个卷积层,具体结构及参数可见于图3,每个卷积层后都连接一个ReLU激活函数。扩张部分包括4个反卷积层,具体结构及参数可见于图3,每个反卷积层后面都连接一个ReLU激活函数。每个卷积层输出不同分辨率下计算得到的预测视差值。在模型的测试阶段,扩张部分最后连接一个上采样层,用来将预测得到的视差上采样到与输入图像相同的分辨率。该网络的损失函数定义如下,
其中Il,Ir分别为左右目图像。x为图像坐标位置。d(x)为在x位置估计得到的视差值。
定义视差空间平滑损失函数如下,
视差子网络损失函数计算不同分辨率下预测视差的损失,具体可见图3。
S4.如图5所示,融合子网络包括3个反卷积层,步长设置为2,激活函数选用ReLU,并且将光流子网络和视差子网络中部分特征图做堆叠处理,以达到特征融合的目的。首先定义融合子网络场景流损失函数如下,
场景流融合子网络在不同分辨率下预测场景流并计算损失,具体可见图5。
S5.构建并训练场景流整体网络,如图6所示。网络的训练步骤可分为如下几步:首先训练光流子网络以及视差子网络。然后将预训练好的光流及视差子网络与融合子网络相连接,固定光流及视差子网络的权值,进行融合子网络的训练。最终得到场景流估计整体网络。
S6.利用训练得到的场景流网络对测试图像对进行前向计算,输出即为预测所得到的场景流。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.基于卷积神经网络的场景流估计方法,其特征在于,包括以下步骤:
(1)准备用于场景流网络训练的立体图像对,包括左目相机t,t+1时刻的图像,以及右目相机t,t+1时刻的图像,t为正整数;
(2)构建光流估计子网络,输入左目t时刻和t+1时刻图像,输出得到稠密的光流;
(3)构建视差估计子网络,输入左目t时刻与右目t时刻图像,输出为t时刻视差,输入左目t+1时刻与右目t+1时刻图像,输出为t+1时刻的视差;
(4)构建场景流融合子网络,该网络将光流子网络中的部分特征图以及视差估计子网络中的部分特征图进行特征融合,采用无监督学习场景流损失函数引导网络的训练;
(5)构建并训练场景流整体网络,首先训练光流子网络以及视差估计子网络,然后将预训练好的光流及视差估计子网络与融合子网络相连接,固定光流及视差估计子网络的权值,进行融合子网络的训练,最终得到场景流估计整体网络;
(6)利用训练得到的场景流网络对测试图像对进行前向计算,输出即为预测所得到的场景流;
所述的步骤(2)具体包括:
所述的光流估计子网络由收缩和扩张两部分构成,收缩部分包7个卷积层,扩张部分包括4个反卷积层,每个反卷积层后面都连接一个ReLU激活函数;
(2.1)光流估计子网络的损失函数定义如下,
其中λ1,λ2,λ3为各项的平衡因子;
所述的步骤(3)具体包括:
视差估计子网络由收缩和扩张两部分构成,收缩部分包括7个卷积层,每个卷积层后都连接一个ReLU激活函数,扩张部分包括4个反卷积层,每个反卷积层后面都连接一个ReLU激活函数;
(3.1)视差估计子网络的损失函数定义如下,
其中Il,Ir分别为左右目图像,x为图像坐标位置,d(x)为在x位置估计得到的视差值;
(3.2)定义视差空间平滑损失函数如下,
所述的步骤(4)具体包括:
(4.1)定义场景流融合子网络场景流损失函数如下,
其中μ1,μ2和μ3为3项损失函数的平衡因子;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589261.XA CN108932725B (zh) | 2018-06-08 | 2018-06-08 | 基于卷积神经网络的场景流估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810589261.XA CN108932725B (zh) | 2018-06-08 | 2018-06-08 | 基于卷积神经网络的场景流估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108932725A CN108932725A (zh) | 2018-12-04 |
CN108932725B true CN108932725B (zh) | 2021-10-26 |
Family
ID=64449564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810589261.XA Active CN108932725B (zh) | 2018-06-08 | 2018-06-08 | 基于卷积神经网络的场景流估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108932725B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110176023B (zh) * | 2019-04-29 | 2023-06-02 | 同济大学 | 一种基于金字塔结构的光流估计方法 |
CN110310317A (zh) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | 一种基于深度学习的单目视觉场景深度估计的方法 |
CN111353509B (zh) * | 2020-03-31 | 2022-08-16 | 广西大学 | 一种视觉slam系统的关键点提取器生成方法 |
GB2594970B (en) * | 2020-05-13 | 2024-03-20 | Huawei Tech Co Ltd | Three-dimensional motion estimation |
CN111932584B (zh) * | 2020-07-13 | 2023-11-07 | 浙江大华技术股份有限公司 | 图像中运动对象的确定方法及装置 |
CN112686952A (zh) * | 2020-12-10 | 2021-04-20 | 中国科学院深圳先进技术研究院 | 一种图像光流计算系统、方法及应用 |
CN114494332B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种无监督的合成到真实LiDAR点云场景流估计方法 |
CN117420209B (zh) * | 2023-12-18 | 2024-05-07 | 中国机械总院集团沈阳铸造研究所有限公司 | 基于深度学习的全聚焦相控阵超声快速高分辨率成像方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680544A (zh) * | 2015-03-18 | 2015-06-03 | 哈尔滨工程大学 | 基于3维流场正则化的变分场景流估计方法 |
CN106485675A (zh) * | 2016-09-27 | 2017-03-08 | 哈尔滨工程大学 | 一种基于3d局部刚性和深度图引导各向异性平滑的场景流估计方法 |
CN107767393A (zh) * | 2017-09-07 | 2018-03-06 | 南京信息工程大学 | 一种面向移动硬件的场景流估计方法 |
CN107993255A (zh) * | 2017-11-29 | 2018-05-04 | 哈尔滨工程大学 | 一种基于卷积神经网络的稠密光流估计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10200666B2 (en) * | 2015-03-04 | 2019-02-05 | Dolby Laboratories Licensing Corporation | Coherent motion estimation for stereoscopic video |
-
2018
- 2018-06-08 CN CN201810589261.XA patent/CN108932725B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104680544A (zh) * | 2015-03-18 | 2015-06-03 | 哈尔滨工程大学 | 基于3维流场正则化的变分场景流估计方法 |
CN106485675A (zh) * | 2016-09-27 | 2017-03-08 | 哈尔滨工程大学 | 一种基于3d局部刚性和深度图引导各向异性平滑的场景流估计方法 |
CN107767393A (zh) * | 2017-09-07 | 2018-03-06 | 南京信息工程大学 | 一种面向移动硬件的场景流估计方法 |
CN107993255A (zh) * | 2017-11-29 | 2018-05-04 | 哈尔滨工程大学 | 一种基于卷积神经网络的稠密光流估计方法 |
Non-Patent Citations (2)
Title |
---|
High-speed and High-accuracy Scene Flow Estimation Using Kinect;Kyosuke Sato et al;《Procedia Computer Science》;20131231;第33卷;第945-953页 * |
基于彩色的微分光流估计及运动目标检测技术研究;项学智;《中国博士学位论文全文数据库电子期刊 信息科技辑》;20110415;第2011年卷(第4期);第I138-77页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108932725A (zh) | 2018-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108932725B (zh) | 基于卷积神经网络的场景流估计方法 | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN112435325B (zh) | 基于vi-slam和深度估计网络的无人机场景稠密重建方法 | |
CN108986136B (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
US20180255290A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
CN103400409B (zh) | 一种基于摄像头姿态快速估计的覆盖范围3d可视化方法 | |
CN101877143B (zh) | 一种二维图像组的三维场景重建方法 | |
CN107113416A (zh) | 多视点高速运动采集的方法及系统 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN106056622B (zh) | 一种基于Kinect相机的多视点深度视频复原方法 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN113538667B (zh) | 动态场景光场重建方法及装置 | |
CN113256699B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN106447718B (zh) | 一种2d转3d深度估计方法 | |
CN111292425B (zh) | 一种基于单双目混合数据集的视图合成方法 | |
CN107018400B (zh) | 一种将2d视频转换成3d视频的方法 | |
Fan et al. | RS-DPSNet: Deep plane sweep network for rolling shutter stereo images | |
WO2019213392A1 (en) | System and method for generating combined embedded multi-view interactive digital media representations | |
CN113034681A (zh) | 空间平面关系约束的三维重建方法及装置 | |
CN117132952A (zh) | 一种基于多摄像头的鸟瞰视角车辆感知系统 | |
Yin et al. | Novel view synthesis for large-scale scene using adversarial loss | |
CN114935316B (zh) | 基于光学跟踪与单目视觉的标准深度图像生成方法 | |
CN112819849B (zh) | 一种基于三目的无标记点视觉运动捕捉方法 | |
EP4191539A1 (en) | Method for performing volumetric reconstruction | |
Thakur et al. | A conditional adversarial network for scene flow estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |