CN112396074A - 基于单目图像的模型训练方法、装置及数据处理设备 - Google Patents

基于单目图像的模型训练方法、装置及数据处理设备 Download PDF

Info

Publication number
CN112396074A
CN112396074A CN201910753810.7A CN201910753810A CN112396074A CN 112396074 A CN112396074 A CN 112396074A CN 201910753810 A CN201910753810 A CN 201910753810A CN 112396074 A CN112396074 A CN 112396074A
Authority
CN
China
Prior art keywords
image
optical flow
training
training image
flow prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910753810.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN201910753810.7A priority Critical patent/CN112396074A/zh
Priority to PCT/CN2020/104924 priority patent/WO2021027543A1/zh
Priority to US17/629,521 priority patent/US20220270354A1/en
Publication of CN112396074A publication Critical patent/CN112396074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于单目图像的模型训练方法、装置及数据处理设备,该方法包括首先获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图。然后根据第一训练图及第二训练图之间的光度损失,获得从第一训练图到第二训练图的第一光流预测结果。再将第一光流预测结果作为代理标记,使用第一训练图和第二训练图进行光流预测训练。通过将双目图像匹配看作光流预测的特例,采用代理学习的方式,将不同时间点采集的两个单目图像作为训练样本得到的第一光流预测结果作为代理标注来指导模型进行再次光流预测的学习。如此,可以在不依赖校正好的双目图像样本的情况下实现双目图像立体匹配的自监督学习,使用同一个模型进行预测光流和立体匹配。

Description

基于单目图像的模型训练方法、装置及数据处理设备
技术领域
本申请涉及计算机视觉技术领域,具体而言,涉及一种基于单目图像的模型训练方法、装置及数据处理设备。
背景技术
双目图像对齐(stereo matching)是一个基本的计算机视觉问题,广泛应用于3D数字场景重建、自动驾驶等领域。双目图像对齐的目标是预测像素的位移,即两张双目图像之间的立体视差图。
在处理双目图像对齐问题时,常使用卷积神经网络(Convolutional NeuralNetworks,CNN)模型,通过大量的样本对CNN模型进行训练,然后使用训练完成的模型实现双目图像对齐。由于获得带有正确标注的双目图像训练样本成本十分昂贵,因此在一些实现方式中,改为采用合成的仿真图像进行训练,但这种方式训练出的模型对真实图像的识别能力不佳。在另一些实现方式中,采用未标记的双目图像,根据预测获得的视差图把右图像扭曲到左图像,然后根据光度量损失来测量扭曲过的右图像和左图像之间的差异,但这种方式仍然需要大量校正好的双目图像,训练成本高。
发明内容
为了克服上述至少一个不足,第一方面,本申请提供一种基于单目图像的模型训练方法,应用于对图像匹配模型进行训练,所述方法包括:
获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图;
根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果;
将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习。
第二方面,本申请提供一种基于单目图像的模型训练装置,应用于对图像匹配模型进行训练,所述装置包括:
图像获取单元,用于获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图;
第一光流预测模块,用于根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果;
第二光流预测模块,用于将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习。
第三方面,本申请提供一种数据处理设备,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个活多个所述处理器执行时,促使所述数据处理设备实现本申请提供的基于单目图像的模型训练方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请提供的基于单目图像的模型训练方法、装置及图像处理设备,通过将双目图像匹配看作光流预测的特例,采用代理学习的方式,将不同时间点采集的两个单目图像作为训练样本得到的光流预测结果作为代理标记,用于指导模型进行再次光流预测的学习。如此,可以在不依赖校正好的双目图像样本的情况下实现双目图像立体匹配的自监督学习,使用同一个模型进行预测光流和立体匹配。
附图说明
为了本申请实施例的技术方案进行清楚地说明,以下将简单地介绍实施例中所需要使用的附图。应当理解,下述附图仅包括针对本申请的部分可选实施例的说明,不应被视作是对本申请范围的限定,在不付出创造性劳动的前提下,本领域技术人员也可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理设备的方框示意图;
图2为本申请实施例提供的基于单目图像的模型训练方法的步骤流程示意图;
图3为本申请实施例提供的双目图像对齐原理示意图之一;
图4为本申请实施例提供的双目图像对齐原理示意图之二;
图5为本申请实施例提供的图像匹配模型处理的示意图;
图6为相同数据集上光流预测测试结果对比示意图;
图7为相同数据集上双目图像对齐测试结果对比示意图;
图8为本申请实施例提供的基于单目图像的模型训练装置的模块示意图。
具体实施方式
为更清楚地介绍本申请实施例的目的、技术方案和优点,下面将附图对本申请实施例中的技术方案描述。
请参照图1,图1为本实施例提供的一种数据处理设备100的硬件结构示意图。该数据处理设备100可包括处理器130及机器可读存储介质120。处理器130与机器可读存储介质120可经由系统总线通信。并且,机器可读存储介质120存储有机器可执行指令(如图像模型训练装置110相关的代码指令),通过读取并执行机器可读存储介质120中与图像模型训练逻辑对应的机器可执行指令,处理器130可执行上文描述的基于单目图像的模型训练方法。
本文中提到的机器可读存储介质120可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
请参照图2,本实施例提供的一种基于单目图像的模型训练方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S210,获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图。
步骤S220,根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果。
步骤S230,将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习。
详细地,由于双目图像对齐是从具有水平方向立体视察的两个双目图像中确定同一物体的计算机视觉任务。
光流(opticalflow)预测是基于亮度恒定性和空间平滑性假设,根据像素的光度来确定不同帧图像中同一物体的运动的技术。
经发明人研究发现,双目图像对齐和光流预测看作一类问题,即图像中对应像素点的匹配问题。两者的主要区别在于,双目图像对齐是一维搜索问题,在校正好的双目图像上,对应像素位于对极线上。而光流预测不具有这种约束,可以视作二维搜索问题。因此,双目图像对齐可以被视为是光流的特殊情况。如果通过训练出在二维场景能够良好执行像素匹配模型,它就也能够在一维场景上很好地实现像素匹配任务。因此,在本实施例的步骤S210中,可以获取单目图像采集装置不同时间点采集两个图像作为训练样本对图像匹配模型进行训练。
具体地,对于双目图像对齐,双目摄像机左右两个摄像机同时图像,并且两个相机的相对位置是固定的,因此,根据该几何特性,在双目图像对齐过程中,针对左图像极线上的像素,其对应的像素应位于右图像的极线上,即这是一维图像匹配问题。
请参照图3,三维场景中的点P在双目图像的左图像中的投影点为像素Pl,右图像中的投影点为像素Pr。当Pl确定时,极线过左图像极点el,且Pl位于极线上,则在右图像上与Pl的相应像素Pr也总是位于极线上,并且极线通过右图像极点er。其中,Ol和Or分别是左右摄像机中心,el和er是极点。请参照图4,图4示出了双目立体图像校正的例子,左右两个摄像机是平行的,极线是水平的,即双目图像对齐是沿水平线找到匹配的像素。
光流描述了两个相邻帧之间的密集运动。两个图像在不同时间拍摄,并且这两个帧之间的相机位置和姿势可以改变。光流预测的场景为刚性场景或非刚性场景。对于刚性场景,场景中物体没有移动,图像的差异仅因为摄像机的移动(旋转或平移),则光流预测也可以成为沿着极线的一维图像匹配问题。双目图像是在同一时间不同角度拍摄的画面,双目图像对齐问题可以视作在刚性场景中,摄像机在一个位置拍摄后移动另一位置在此拍摄,然后处理两个图像的光流预测的问题。
由于估算自我运动本身将导致额外的误差并且场景并不总是刚性的,因此在本实施例中不考虑摄像机自我运动的问题,仅将双目图像对齐作为光流预测的特殊情况。也就是说,若图像匹配模型能在二维空间中实现良好的光流预测,也应该能够在一维空间中良好地实现双目图像对齐。
因此,由于本实施例的步骤S220中,在光流预测过程中,会根据预测的光流把目标图像扭曲到参照图像,并通过测量翘曲目标图像和参照图像之间的差异来构建光度损失。但是,对于场景中被前景遮挡的物体对应的像素,亮度恒定性假设不再成立,因此对于被遮挡像素,光度损失可能将导致错误的训练监督。因此在本实施例中,在采用光度损失预测光流时需要预先确定并排除被遮挡像素。
具体地,在本实施例中,根据所述第一训练图及第二训练图之间的光度损失,获得从第一训练图到第二训练图的初始光流图和初始置信度图,然后根据所述初始光流图和初始置信度图,获得排除被遮挡像素之后的所述第一光流预测结果。
例如,所述初始置信度图中被遮挡像素的置信度被设置为0,未被遮挡像素的置信度被设置为1。然后根据所述初始光流图和初始置信度图,获得所述第一光流预测结果。
由于被遮挡像素的置信度为0,当初始光流图与初始置信度图相乘时,即从所述初始光流图中剔除了被遮挡像素的数据,从而获得了未被遮挡的像素组成的高置信度的光流图。
进一步地,在本实施例中,可以采用前向-后向光度检测对所述初始光流图进行处理,根据光度差异确定各像素点对应的置信度得到所述置信度图。其中,将光度差异超过预设阈值的像素的置信度设置为0,作为被遮挡的像素;将光度差异未超过预设阈值的像素的置信度设置为1,作为未被遮挡的像素。
在进行前向-后向光度检测时,获得所述第一训练图It到第二训练图It+1的初始光流图上像素p的前向光流Ft→t+1(p)及后向光流F′t→t+1(p),其中,F′t→t+1(p)=Ft+1t(p+Ft→t+1(p)),Ft+1→t为所述第二训练图到第一训练图的初始光流。
按照以下公式根据所述像素p的前向光流和后向光流获得像素p的置信度图Mt→t+1(p),
Figure BDA0002168104650000061
其中,p表示像素点,δ(p)=0.1(|Ft→t+1(p)+F′t→t+1(p)|)+0.05。
另外,在本实施例中,还可以交换第一训练图和第二训练图来进行训练,来获得第二训练图到第一训练图的反向光流图。
在步骤S220中,可以根据预设的光度损失函数和平滑度损失函数进行从所述第一训练图到第二训练图的光流预测,获得所述第一光流预测结果。
具体地,所述光度损失函数Lp为:
Figure BDA0002168104650000071
其中,p表示像素点,
Figure BDA0002168104650000072
为将所述第一训练图It使用Census变化后获得的图像,
Figure BDA0002168104650000073
为根据所述第一训练图到所述第二训练图的正向光流将
Figure BDA0002168104650000074
扭曲到
Figure BDA0002168104650000075
获得的扭曲图像,Hamming(x)为汉明距离。
所述平滑度损失函数Lm的形式为:
Figure BDA0002168104650000076
其中,I(p)为所述第一训练图或第二训练图上的像素点,N是所述第一训练图或第二训练图的像素总数,
Figure BDA0002168104650000078
表示梯度,T表示转置,I(p)为第一训练图或第二训练图上的像素点,F(p)为当前处理的光流图上的点。
在步骤S220中,使用Lp+λLm作为损失函数训练所述图像匹配模型,其中,λ=0.1。
此外,在上述步骤S230中,由于即使只有稀疏的正确标记,CNN也可以在KITTI数据集上学习到相当好的光流预测。因此,在本实施例中,首先从步骤S220获得稀疏的高置信度的光流预测,然后将它们用作代理标记来指导图像匹配预测的学习。
请参照图5,在本实施例中,可以将所述第一光流预测结果作为代理标记,使用预设的代理自监督损失函数和平滑度损失函数,执行从所述第一训练图到第二训练图的光流预测。
具体地,所述代理自监督损失函数Ls的形式为:
Figure BDA0002168104650000077
其中,p表示像素点,Fpy为所述初始光流图,Mpy为所述初始置信度图,F为当前处理的光流图。
在步骤S230中,使用LS+λLm作为损失函数训练所述图像匹配模型,其中,λ=0.1。
需要说明的是,与步骤S220的训练过程不同,在步骤S230中不再执行对未被遮挡像素的剔除动作,以使模型能够预测被遮挡区域的光流。
可选地,在本实施例中,在步骤S230的训练过程中,可以随机地先对所述第一训练图和第二训练图进行相同位置和相同大小的剪裁和/或进行相同的随机降采样,然后使用剪裁后和/或降采样后的第一训练图和第二训练图进行步骤S230的训练,从而可以同时提高遮挡点以及被遮挡点光流预测准确率的效果。
可选地,在本实施例中,在步骤S230的训练过程中,也可以先对所述第一训练图和第二训练图进行相同系数的随机缩放或相同角度的随机旋转,然后使用处理后的第一训练图和第二训练图进行步骤S230的训练。
需要说明的是,也可以采用其他方法可以获得高置信度的光流预测。例如,采用传统方法来计算可靠的视差。在本实施例中,模型最终需要执行的是光流预测,因此采用在步骤S220中获取到光流预测结果和置信度图,然后在步骤S230中使用高置信度的光流预测作为代理基础事实来指导神经网络学习图像匹配,可在一个模型中完成上述训练过程。
在本实施例中,经过代理学习之后,高置信度像素的数量将会增加,因此在步骤S230之后,还可以使用代理学习获得的第二光流预测结果进行迭代训练,以进一步改善所述图像匹配模型的识别能力。
需要说明的是,通过本实施例提供的方法训练获得的图像匹配模型,既可以用于进行光流预测,也可以用于进行双目图像对齐。当训练好的所述图像匹配模型在进行光流预测时,可以将不同时间点采集的第一训练图It到第二训练图It+1作为输入,输出It到It+1的光流图。在将训练好的所述图像匹配模型用于双目图像对齐时,则可以将双目图像中左右摄像机采集的图像Il和Ir作为输入,并获得输出的图像Il到Ir的立体视差图作为匹配结果。
在本实施例中,可以使用Adam优化器在TensorFlow系统上建立所述图像匹配模型,并模型的将批量大小设置为4,初始学习率为1e-4,每60k迭代将其衰减一半。在训练期间,可以将标准化的图像为输入并进行类似于随机剪裁、缩放或旋转的数据增强。特别地,裁剪大小可以设置为[256,640]像素大小,随机缩放系数范围可以设置为[0.75,1.25]。
在步骤S220中,可以将光度损失应用于所有像素,并使用光度损失训练所述图像匹配模型,从头开始进行100k次迭代。需要注意的是,在开始时,不区分高置信度像素和低置信度像素,因为直接只将光度损失应用于高置信度像素可能会得出所有像素被视为低置信度像素的明显解。之后,运用光度损失函数Lp和平滑度损失函数Lm进行400k次迭代来进行所述图像匹配模型。在步骤S230中,使用代理自监督损失函数Ls和平滑度损失函数Lm进行400k迭代来训练所述图像匹配模型。
图6示出了在使用KITTI 2012数据集和KITTI 2015数据集上,使用现有的模型与使用本实施例提供的方法训练出的图像匹配模型进行光流预测的测试结果,从图6可见,本实施例提供的基于单目图像的模型训练方法训练出的图像匹配模型(“Our+proxy”项)的识别能力明显优于例如MultiFrameOccFlow和DDFlow等现有最先进的无监督方法。
图7示出了在使用KITTI 2012数据集和KITTI 2015数据集上,使用现有的模型与使用本实施例提供的方法训练出的图像匹配模型进行双目图像对齐的测试结果,从图7可见,本实施例提供的基于单目图像的模型训练方法训练出的图像匹配模型(“Our+proxy+ft”项)的识别能力明显优于其他项现有最先进的无监督方法。
请参照图8,本实施例还提供一种基于单目图像的模型训练装置110,所述装置包括图像获取模块111、第一光流预测模块112及第二光流预测模块113。
所述图像获取单元111用于获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图。
所述第一光流预测模块112用于根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果;
所述第二光流预测模块113用于将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习。
综上所述,本申请提供的基于单目图像的模型训练方法、装置及图像处理设备,通过将双目图像匹配看作光流预测的特例,采用代理学习的方式,将不同时间点采集的两个单目图像作为训练样本得到的第一光流预测结果作为代理标记,用于指导模型进行再次光流预测的学习。如此,可以在不依赖校正好的双目图像样本的情况下双目图像立体匹配的自监督学习,使用同一个模型进行预测光流和立体匹配。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (14)

1.一种基于单目图像的模型训练方法,其特征在于,应用于对图像匹配模型进行训练,所述方法包括:
获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图;
根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果;
将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习;
将训练好的所述图像匹配模型用于执行双目图像对齐和光流预测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将待处理的双目图像输入训练好的所述图像匹配模型;
获得所述图像匹配模型针对所述待处理的双目图像输出的立体视差图。
3.根据权利要求1所述的方法,其特征在于,所述获得从所述第一训练图到第二训练图的第一光流预测结果的步骤,包括:
根据所述第一训练图及第二训练图之间的光度损失,获得从第一训练图到第二训练图的初始光流图和初始置信度图;
根据所述初始光流图和初始置信度图,获得排除被遮挡像素之后的所述第一光流预测结果。
4.根据权利要求3所述的方法,其特征在于,获得所述初始置信度图的方式,包括:
采用前向-后向光度检测对所述初始光流图进行处理,根据光度差异确定各像素点对应的置信度得到所述置信度图;
其中,将光度差异超过预设阈值的像素的置信度设置为0,作为被遮挡的像素;将光度差异未超过预设阈值的像素的置信度设置为1,作为未被遮挡的像素。
5.根据权利要求4所述的方法,其特征在于,所述采用前向-后向光度检测对所述初始光流图进行处理,根据光度差异确定各像素点对应的置信度得到所述置信度图,包括:
获得所述第一训练图It到第二训练图It+1的初始光流图上像素p的前向光流Ft→t+1(p)及后向光流F′t→t+1(p),其中,F′t→t+1(p)=Ft+1→t(p+Ft→t+1(p)),Ft+1→t为所述第二训练图到第一训练图的初始光流;
按照以下公式根据所述像素p的前向光流和后向光流获得像素p的置信度图Mt→t+1(p),
Figure FDA0002168104640000021
其中,δ(p)=0.1(|Ft→t+1(p)+F′t→t+1(p)|)+0.05。
6.根据权利要求5所述的方法,其特征在于,所述根据所述初始光流图和初始置信度图,获得所述第一光流预测结果的步骤,包括:
根据预设的光度损失函数和平滑度损失函数进行从所述第一训练图到第二训练图的光流预测,获得所述第一光流预测结果。
7.根据权利要求6所述的方法,其特征在于,所述光度损失函数Lp的形式为:
Figure FDA0002168104640000022
其中,
Figure FDA0002168104640000023
为将所述第一训练图It使用Census变化后获得的图像,
Figure FDA0002168104640000024
为根据所述第一训练图到所述第二训练图的正向光流将
Figure FDA0002168104640000025
扭曲到
Figure FDA0002168104640000026
获得的扭曲图像,Hamming(x)为汉明距离。
8.根据权利要求6所述的方法,其特征在于,所述平滑度损失函数Lm的形式为:
Figure FDA0002168104640000031
其中,I(p)为所述第一训练图或第二训练图上的像素点,N是所述第一训练图或第二训练图的像素总数,
Figure FDA0002168104640000032
表示梯度,T表示转置,I(p)为第一训练图或第二训练图上的像素点,F(p)为当前处理的光流图上的点。
9.根据权利要求5所述的方法,其特征在于,将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习的步骤,包括:
将所述第一光流预测结果作为代理标记,使用预设的代理自监督损失函数和平滑度损失函数,执行从所述第一训练图到第二训练图的光流预测。
10.根据权利要求9所述的方法,其特征在于,所述代理自监督损失函数Ls的形式为:
Figure FDA0002168104640000033
其中,Fpy为所述初始光流图,Mpy为所述初始置信度图,F为当前处理的光流图。
11.根据权利要求9所述的方法,其特征在于,所述将所述第一光流预测结果作为代理标记,使用预设的代理自监督损失函数和平滑度损失函数,执行从所述第一训练图到第二训练图的光流预测训练的步骤,包括:
对所述第一训练图及所述第二训练图进行相同的随机剪裁和/或相同的随机降采样;
将所述第一光流预测结果作为代理标记,使用剪裁和/或降采样后的第一训练图及第二训练图进行图像元素匹配的机器学习训练。
12.根据权利要求1所述的方法,其特征在于,所述将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习的步骤之后,所述方法还包括:
使用代理学习获得的第二光流预测结果进行迭代训练。
13.一种基于单目图像的模型训练装置,其特征在于,应用于对图像匹配模型进行训练,所述装置包括:
图像获取单元,用于获取单目图像采集装置在不同时间点采集的第一训练图和第二训练图;
第一光流预测模块,用于根据所述第一训练图及第二训练图之间的光度损失,获得从所述第一训练图到第二训练图的第一光流预测结果;
第二光流预测模块,用于将所述第一光流预测结果作为代理标记,使用所述第一训练图和第二训练图进行光流预测的代理学习。
14.一种数据处理设备,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-12任意一项所述的方法。
CN201910753810.7A 2019-08-15 2019-08-15 基于单目图像的模型训练方法、装置及数据处理设备 Pending CN112396074A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910753810.7A CN112396074A (zh) 2019-08-15 2019-08-15 基于单目图像的模型训练方法、装置及数据处理设备
PCT/CN2020/104924 WO2021027543A1 (zh) 2019-08-15 2020-07-27 基于单目图像的模型训练方法、装置及数据处理设备
US17/629,521 US20220270354A1 (en) 2019-08-15 2020-07-27 Monocular image-based model training method and apparatus, and data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753810.7A CN112396074A (zh) 2019-08-15 2019-08-15 基于单目图像的模型训练方法、装置及数据处理设备

Publications (1)

Publication Number Publication Date
CN112396074A true CN112396074A (zh) 2021-02-23

Family

ID=74570913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753810.7A Pending CN112396074A (zh) 2019-08-15 2019-08-15 基于单目图像的模型训练方法、装置及数据处理设备

Country Status (3)

Country Link
US (1) US20220270354A1 (zh)
CN (1) CN112396074A (zh)
WO (1) WO2021027543A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966584A (zh) * 2021-02-26 2021-06-15 中国科学院上海微系统与信息技术研究所 一种运动感知模型的训练方法、装置、电子设备及存储介质
CN114005075A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 一种光流估算模型的构建方法、装置及光流估算方法
CN117237800A (zh) * 2023-08-01 2023-12-15 广州智在信息科技有限公司 基于人工智能的作物生长监控方法及计算机设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688090B2 (en) * 2021-03-16 2023-06-27 Toyota Research Institute, Inc. Shared median-scaling metric for multi-camera self-supervised depth evaluation
CN113643406B (zh) * 2021-08-12 2022-03-25 北京的卢深视科技有限公司 图像生成方法、电子设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016148512A (ja) * 2013-06-11 2016-08-18 ヤマハ発動機株式会社 単眼モーションステレオ距離推定方法および単眼モーションステレオ距離推定装置
US10388069B2 (en) * 2015-09-09 2019-08-20 Futurewei Technologies, Inc. Methods and systems for light field augmented reality/virtual reality on mobile devices
KR102219561B1 (ko) * 2018-11-23 2021-02-23 연세대학교 산학협력단 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
CN109903315B (zh) * 2019-03-08 2023-08-25 腾讯科技(深圳)有限公司 用于光流预测的方法、装置、设备以及可读存储介质
CN110111366B (zh) * 2019-05-06 2021-04-30 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN112396073A (zh) * 2019-08-15 2021-02-23 广州虎牙科技有限公司 基于双目图像的模型训练方法、装置及数据处理设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966584A (zh) * 2021-02-26 2021-06-15 中国科学院上海微系统与信息技术研究所 一种运动感知模型的训练方法、装置、电子设备及存储介质
CN112966584B (zh) * 2021-02-26 2024-04-19 中国科学院上海微系统与信息技术研究所 一种运动感知模型的训练方法、装置、电子设备及存储介质
CN114005075A (zh) * 2021-12-30 2022-02-01 深圳佑驾创新科技有限公司 一种光流估算模型的构建方法、装置及光流估算方法
CN114005075B (zh) * 2021-12-30 2022-04-05 深圳佑驾创新科技有限公司 一种光流估算模型的构建方法、装置及光流估算方法
CN117237800A (zh) * 2023-08-01 2023-12-15 广州智在信息科技有限公司 基于人工智能的作物生长监控方法及计算机设备

Also Published As

Publication number Publication date
US20220270354A1 (en) 2022-08-25
WO2021027543A1 (zh) 2021-02-18

Similar Documents

Publication Publication Date Title
CN112396074A (zh) 基于单目图像的模型训练方法、装置及数据处理设备
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
KR102480245B1 (ko) 패닝 샷들의 자동 생성
US11978225B2 (en) Depth determination for images captured with a moving camera and representing moving features
US8433157B2 (en) System and method for three-dimensional object reconstruction from two-dimensional images
JP5160643B2 (ja) 2次元画像からの3次元オブジェクト認識システム及び方法
KR20180132946A (ko) 멀티-뷰 장면 분할 및 전파
Zhang et al. Robust metric reconstruction from challenging video sequences
KR100953076B1 (ko) 객체 또는 배경 분리를 이용한 다시점 정합 방법 및 장치
US20220277545A1 (en) Binocular image-based model training method and apparatus, and data processing device
US20160048978A1 (en) Method and apparatus for automatic keyframe extraction
EP2016559A2 (en) System and method for three-dimensional object reconstruction from two-dimensional images
US9253415B2 (en) Simulating tracking shots from image sequences
CN111340749B (zh) 图像质量的检测方法、装置、设备及存储介质
US11651581B2 (en) System and method for correspondence map determination
CN112136153A (zh) 基于光场的反射消除
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
US20140126768A1 (en) Method for Initializing and Solving the Local Geometry or Surface Normals of Surfels Using Images in a Parallelizable Architecture
CN114782507B (zh) 一种基于无监督学习的非对称双目立体匹配方法及系统
CN113658231B (zh) 光流预测方法、装置、电子设备及存储介质
CN112991419B (zh) 视差数据生成方法、装置、计算机设备及存储介质
Rzeszutek et al. Efficient automatic depth estimation for video
CN117115145B (zh) 检测方法及装置、电子设备、计算机可读介质
CN116805957A (zh) 一种视频帧率提升方法与装置
Nazzar Automated detection of defects in 3D movies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination