CN114596475A - 单应性流估计模型的训练方法、单应性流估计方法和装置 - Google Patents

单应性流估计模型的训练方法、单应性流估计方法和装置 Download PDF

Info

Publication number
CN114596475A
CN114596475A CN202210213145.4A CN202210213145A CN114596475A CN 114596475 A CN114596475 A CN 114596475A CN 202210213145 A CN202210213145 A CN 202210213145A CN 114596475 A CN114596475 A CN 114596475A
Authority
CN
China
Prior art keywords
homography
data
homography flow
image
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210213145.4A
Other languages
English (en)
Inventor
谢佳锋
隋伟
陈腾
任伟强
张骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN202210213145.4A priority Critical patent/CN114596475A/zh
Publication of CN114596475A publication Critical patent/CN114596475A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种单应性流估计模型的训练方法及装置、基于单目图像的单应性流估计方法及装置、计算机可读存储介质及电子设备,其中,该训练方法包括:利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据;基于特征数据,利用待训练模型进行预测,得到预测单应性流数据;基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;基于单应性流损失值,调整待训练模型的参数,得到单应性流估计模型。本公开实施例实现了对单应性流估计模型的训练,可以对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,极大提高了单应性流数据预测的效率和准确性。

Description

单应性流估计模型的训练方法、单应性流估计方法和装置
技术领域
本公开涉及计算机技术领域,尤其是一种单应性流估计模型的训练方法、单应性流估计模型的装置、单应性流估计方法、应性流估计装置、计算机可读存储介质及电子设备。
背景技术
单应性估计可以被应用到图像矫正、图像对齐、图像拼接、增强现实、视觉定位等方面。常见的单应性估计主要用于描述场景中一些物体的共同平面的帧间映射关系。例如,在辅助驾驶和自动驾驶的应用中,地平面作为一个主要平面,单应性估计能够基于不同帧分别对应的地面方程和不同帧之间的帧间相机姿态将不同帧内的地面进行对齐,进而为后续任务提供地面对齐后的帧间数据,为更精确的自动驾驶感知提供更好的数据输入。
目前常用的单应性估计包括以下两种方案:
1、传统的单应性估计方案,可以对地面进行特征点检测,然后基于特征点进行特征匹配,利用RANSAC(Random Sample Consensus)算法排除错误匹配点,最终得到基于地面的单应性估计数据。
2、基于深度学习的单应性估计方案,通过预测图像序列中的每个图像的四个角的相对偏移,可以计算出图像序列的单应性估计数据。
发明内容
本公开的实施例提供了一种单应性流估计模型的训练方法及装置、基于单目图像的单应性流估计方法及装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种单应性流估计模型的训练方法,该方法包括:利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据,其中,第二样本图像位于第一样本图像之后;基于特征数据,利用待训练模型进行预测,得到表示第一样本图像和第二样本图像中地面区域的相对位置变化的预测单应性流数据;基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;基于单应性流损失值,调整待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
根据本公开实施例的另一个方面,提供了一种基于单目图像的单应性流估计方法,该方法包括:利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,其中,第二图像位于第一图像之后;基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据。
根据本公开实施例的另一个方面,提供了一种单应性流估计模型的训练装置,该装置包括:第一提取模块,用于利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据,其中,第二样本图像位于第一样本图像之后;第一预测模块,用于基于特征数据,利用待训练模型进行预测,得到表示第一样本图像和第二样本图像中地面区域的相对位置变化的预测单应性流数据;第一确定模块,用于基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;训练模块,用于基于单应性流损失值,调整待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
根据本公开实施例的另一个方面,提供了一种基于单目图像的单应性流估计装置,该装置包括:第二提取模块,用于利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,其中,第二图像位于第一图像之后;第二预测模块,用于基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述单应性流估计模型的训练方法或基于单目图像的单应性流估计方法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述单应性流估计模型的训练方法或基于单目图像的单应性流估计方法。
基于本公开上述实施例提供的单应性流估计模型的训练方法,通过待训练模型对第一样本图像和第二样本图像进行特征提取,再基于特征数据得到地面区域的相对位置变化的预测单应性流数据,然后基于预测单应性流数据和单应性流损失函数,确定单应性流损失值,最后基于单应性流损失值,调整待训练模型的参数,得到单应性流估计模型。实现了对单应性流估计模型的训练和单应性流数据预测,训练后的单应性流估计模型,可以对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,相比于基于全图的单应性估计,本公开实施例提供的单应性流估计模型只针对地面进行单应性流预测,模型的预测过程更有针对性,从而极大提高了单应性流数据预测的效率和准确性。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图3是本公开另一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图4是本公开另一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图5是本公开另一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图6是本公开另一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图7是本公开另一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。
图8是本公开一示例性实施例提供的基于单目图像的单应性流估计方法的流程示意图。
图9是本公开一示例性实施例提供的单应性流估计模型的训练装置的结构示意图。
图10是本公开另一示例性实施例提供的单应性流估计模型的训练装置的结构示意图。
图11是本公开一示例性实施例提供的基于单目图像的单应性流估计装置的结构示意图。
图12是本公开另一示例性实施例提供的基于单目图像的单应性流估计装置的结构示意图。
图13是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
单应性估计主要用于描述场景中一些物体的共同平面的帧间映射关系。目前的单应性估计方案包括传统的基于特征点匹配的方案和基于深度学习的方案。
基于特征点匹配的方案,能够获得地面特征点并经过特征匹配和筛选进行单应性估计预测,但整个流程较长,计算量较大,且运行效率低,无法满足业务场景实时运行的需求。基于深度学习的方案,一般只能预测基于全图的单应性数据,无法指定只预测地平面的单应性估计数据,针对地面的单应性估计准确性较低。
因此,现有的单应性估计方案无法满足高效、实时、高准确性的需求。本公开实施例旨在提出一种利用单目相机拍摄的图像序列,针对地平面的单应性流估计模型的训练方法,来解决现有方案的问题。
示例性系统
图1示出了可以应用本公开的实施例的单应性流估计模型的训练方法或单应性流估计模型的训练装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如图像处理应用、视频处理应用、导航类应用、网页浏览器应用等。
终端设备101可以是各种电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如利用终端设备101上传的图像序列进行处理的后台图像处理服务器。后台图像处理服务器可以利用接收的图像序列进行模型训练,或利用训练后的模型对图像序列进行单应性流估计等。
需要说明的是,本公开的实施例所提供的单应性流估计模型的训练方法或基于单目图像的单应性流估计方法可以由服务器103执行,也可以由终端设备101执行,相应地,单应性流估计模型的训练装置或基于单目图像的单应性流估计装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在图像不需要从远程获取或图像处理不需要远程进行的情况下,上述系统架构可以不包括网络,只包括服务器或终端设备。
示例性方法
图2是本公开一示例性实施例提供的单应性流估计模型的训练方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图2所示,该方法包括如下步骤:
步骤201,利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据。
其中,第二样本图像位于第一样本图像之后。例如,第一样本图像是在t时刻拍摄的,则位于其后的第二样本图像可以是在t时刻之后拍摄的。需要说明的是,上述图像序列可以是相机拍摄的原始图像序列,也可以是从原始图像序列包括的图像中提取的多个图像组成的序列。
通常,上述图像序列是单目相机拍摄的,且上述图像序列可以是相机在运动状态下拍摄的。例如,车辆在行驶过程中,其上安装的相机对车辆的周边环境进行拍摄,得到图像序列。
上述待训练模型可以包括各种结构的深度神经网络。例如,待训练模型可以包括Resnet(残差网络)、VarGnet(可变组网络)等网络,利用这些网络,可以对输入的图像进行特征提取。特征提取时,可以将第一样本图像和第二样本图像分别在RGB三个通道上合并,再从合并后的图像中提取特征数据。
在提取特征数据时,可以采用诸如Unet的网络结构提取不同尺度的特征数据。例如,Unet的下采样次数是5次,每次特征图的尺度就会是下采样前的1/2,得到的特征尺度就分别是原图像尺寸的1/2,1/4,1/8,1/16,1/32。
步骤202,基于特征数据,利用待训练模型进行预测,得到表示第一样本图像和第二样本图像中地面区域的相对位置变化的预测单应性流数据。
作为示例,上述Unet下采样5次后的特征数据,再经过若干次2倍上采样之后再与大尺度的特征进行融合,依次类推得到多个尺度的融合特征数据。通常,单应性流预测所采用的融合特征数据可以是从多个尺度的融合特征数据中选择的。例如,可以选择原图像大小的1/2或1/4尺度的融合特征数据进行单应性流预测,利用该尺度的融合特征数据,模型预测的速度和性能均较好。
其中,单应性是指像素点从一个平面到另一个平面的投影映射。单应性流数据是一种光流,表示空间相对运动物体在成像平面上的对应像素的瞬时运动速度,也就是一个图像中的像素点A表示的实际空间点对应到另一图像上的像素点A’的相对位移特征。需要说明的是,上述运动物体是相对于成像平面发生相对运动的物体,例如,相机相对于地面处于运动状态时,相机拍摄的图像中的地面相对于成像平面即为相对运动物体。本实施例中的预测单应性流数据即表示第一样本图像和第二样本图像中的地面区域相对于第一样本图像和第二样本图像的成像平面的相对位移特征。通过单应性流数据,可以建立第一样本图像和第二样本图像中的地面之间的映射关系,该映射关系需要单应性流估计完成,单应性流数据就是经过单应性流估计得到的表示地面上同一空间点映射到两个图像上的像素点之间的相对位置关系。
本实施例中,待训练模型可以包括单应性流预测网络,单应性流预测网络可以根据融合特征数据,分别确定第一样本图像和第二样本图像中的地面区域,再利用现有的单应性估计方法,确定两个地面区域的映射关系,进而得到单应性流预测数据。
步骤203,基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值。
其中,单应性流损失函数用于定量计算预测单应性流数据和实际单应性流数据之间的误差,单应性流损失值即可表示预测单应性流数据和实际单应性流数据之间的误差。
单应性损失函数可以包括有监督、无监督、自监督等各种形式的损失函数中的至少一种。单应性损失函数具体的形式可以参考下述可选实施例。
步骤204,基于单应性流损失值,调整待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
模型的训练方法可以采用机器学习的方法,即在对待训练模型进行训练时,电子设备可以采用梯度下降法和反向传播法,调整待训练模型的参数,使单应性流损失值逐渐减小,并将每次调整参数后的模型作为下次训练的待训练模型,在满足预设训练结束条件的情况下,结束训练,从而得到单应性流估计模型。上述预设训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;单应性流损失值收敛。
本公开的上述实施例提供的方法,通过待训练模型对第一样本图像和第二样本图像进行特征提取,再基于特征数据得到地面区域的相对位置变化的预测单应性流数据,然后基于预测单应性流数据和单应性流损失函数,确定单应性流损失值,最后基于单应性流损失值,调整待训练模型的参数,得到单应性流估计模型。实现了对单应性流估计模型的训练,训练后的单应性流估计模型可以对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,相比于基于全图的单应性估计,本公开实施例提供的单应性流估计模型只针对地面进行单应性流预测,模型的预测过程更有针对性,从而极大提高了单应性流数据预测的效率和准确性。
在一些可选的实现方式中,单应性流损失函数包括单应性流无监督损失函数,单应性流损失值包括第一单应性流损失值。
基于此,如图3所示,步骤203可以包括如下子步骤:
步骤2031,确定第二样本图像对应的地面掩码数据。
其中,地面掩码数据为通过语义分割从第二样本图像中确定的表示地面的数据。通常,在第二样本图像中,可以将属于地面区域的像素置为数字“1”,将不属于地面区域的像素置为数字“0”,从而得到地面掩码数据。
步骤2032,基于预测单应性流数据,将第一样本图像映射到第二样本图像的像平面,得到映射图像。
具体地,由于预测单应性流数据是以地面为基准,表示第一样本图像和第二样本图像中的地面之间的映射关系,因此可以根据该映射关系,将第一样本图像包括的像素映射到第二样本图像的像平面,得到映射图像warp(it-1,HFpre)。warp()表示图像映射方法,HFpre表示预测单应性流数据,it-1表示第一样本图像。
步骤2033,基于映射图像、第二样本图像、地面掩码数据,利用单应性流无监督损失函数,确定第一单应性流损失值。
具体地,电子设备可以按照如下公式(1)确定第一单应性流损失值LuHF
Figure BDA0003532937210000091
其中,maskg表示地面掩码数据,α为设置的权重,SSIM()表示计算两个图像之间的相似度,it表示第二样本图像,it-warp(it-1,HFpre)表示两个图像相对应的像素值相减(可以为RGB值相减,或灰度值相减)。
本实施例通过设置单应性流无监督损失函数计算得到第一单应性流损失值,实现了在训练单应性流估计模型时采用无监督的训练方法,无需预先对样本图像进行大量的标注,提高了训练效率,丰富了训练的方式,提高了训练单应性流估计模型的灵活性,有助于与其他损失函数结合提高训练后的模型的预测精度。
在一些可选的实现方式中,单应性流损失函数包括单应性流监督损失函数,单应性流损失值包括第二单应性流损失值。
基于此,步骤203可以包括:
基于第二样本图像对应的实际单应性流数据和预测单应性流数据,利用单应性流监督损失函数,确定第二单应性流损失值。
其中,上述实际单应性流数据可以是预先对第一样本图像和第二样本图像进行标注生成的数据,用于表示实际的单应性流数据。通常,可以预先对第一样本图像和第二样本图像分别包括的地面区域进行对比,对两图像中表示实际地面上同一点的对应点在两图像上的投影点的位移进行测量,从而标注得到上述实际单应性流数据。
作为示例,可以按照如下公式(2)计算第二单应性流损失值LsHF
LsHF=|HFgt-HFpre| (2)
其中,HFgt表示实际单应性流数据,HFpre表示预测单应性流数据。
本实施例通过设置有监督的单应性损失函数,可以在训练过程中基于实际单应性流数据和预测单应性流数据,使模型的预测数据接近实际数据,进一步丰富了训练的方式,有助于与其他损失函数结合提高训练后的模型的预测精度。
进一步参考图4,其示出了单应性流估计模型的训练方法的又一个实施例的流程示意图。如图4所示,在上述图2所示实施例的基础上,步骤204之前可以包括如下步骤:
步骤205,基于特征数据,利用待训练模型进行空间检测,生成空间检测数据。
其中,空间检测数据用于表征第一样本图像和第二样本图像中的物体的三维空间特征。通常,空间检测数据可以由待训练模型包括的空间检测网络生成。特征数据是多个尺度的特征图的集合,因此可以从这些特征图中选择一定尺度(例如最小尺度)的特征图输入空间检测网络,得到空间检测数据。
作为示例,空间检测数据可以包括但不限于以下至少一种数据:第一样本图像和第二样本图像的帧间姿态数据、地面方程数据等。关于上述两种空间检测数据的生成方法,可以参考下述可选实施例。
步骤206,基于空间检测数据和预设的空间检测损失函数,确定空间检测损失值。
在本实施例中,通常,空间检测损失函数为有监督的损失函数,即在训练时,电子设备根据空间检测损失函数确定预先标注的实际空间检测数据与计算得到的预测空间检测数据之间的误差,该误差可以用空间检测损失函数计算得到的空间检测损失值表示。
如图4所示,步骤204可以进一步包括:
步骤2041,基于单应性流损失值和空间检测损失值,调整待训练模型的参数。
具体地,可以将单应性流损失函数和空间检测损失函数相加,得到的计算结果即为单应性流损失值和空间检测损失值之和,在训练时,电子设备可以调整待训练模型的参数,使单应性流损失值和空间检测损失值之和逐渐减小,并将每次调整参数后的模型作为下次训练的待训练模型,在满足预设训练结束条件的情况下,结束训练,从而训练得到单应性流估计模型。
上述图4对应实施例提供的方法,通过待训练模型进行空间检测,生成空间检测数据,基于空间检测数据和空间检测损失函数,结合单应性流损失函数,对待训练模型进行训练,从而可以在训练过程中引入更多的参量,使模型的参数与实际场景更加匹配,有助于提高训练后的单应性流估计模型的预测精度。同时训练后的单应性流估计模型可以输出空间检测数据,从而丰富了单应性流估计模型的功能,大大丰富了模型的适用场景。
在一些可选的实现方式中,空间检测数据包括第一空间检测数据和第二空间检测数据。其中,第一空间检测数据可以是表示第一样本图像和第二样本图像之间的相机相对姿态的帧间姿态数据,第二空间检测数据可以是表示第二样本图像对应的地面方程的地面方程数据。
如图5所示,上述步骤205可以包括:
步骤2051,基于特征数据,由待训练模型进行帧间姿态预测,得到表示第一样本图像和第二样本图像之间的相机相对姿态的第一空间检测数据。
其中,帧间姿态预测数据可以由待训练模型包括的帧间姿态网络利用特征数据进行运算得到。帧间姿态网络可以根据其包括的网络参数,对特征数据进行运算,得到用于表征帧间姿态数据的第一空间检测数据。需要说明的是,通过神经网络计算帧间姿态的方法可以采用现有技术,这里不再赘述。
步骤2052,基于特征数据,由待训练模型进行地面方程预测,得到表示第二样本图像对应的地面方程的第二空间检测数据。
其中,地面方程数据可以由待训练模型包括的地面方程预测网络利用特征数据进行运算得到。地面方程数据用于表征第二样本图像中的地面区域所在空间内的平面方程。通常,地面方程数据可以包括地面法向量,由地面法向量,根据点法式、法线式等表示方式,即可得到表示地面方程的第二空间检测数据。
地面方程预测网络可以根据特征数据,确定第二样本图像中的地面区域包括的像素对应的在三维空间中的点的位置,根据这些三维点的位置,可以根据现有的确定地面法向量的方法,得到包括地面法向量的地面方程数据。
本实施例提供了两种空间检测数据的生成方法,利用这两种空间检测数据,可以与单应性流数据相结合对整个待训练模型进行训练,由于训练过程引入了更多方面的数据,从而使训练得到的单应性流估计模型在预测运算时可以更全面地对输入的图像的空间特征进行分析,提高了训练得到的单应性流估计模型的预测精度。同时单应性流估计模型还可以在预测时通过帧间姿态网络和地面方程预测网络对输入的图像进行帧间姿态预测和地面方程预测,丰富了单应性流估计模型的功能,扩展了单应性流估计模型的使用场景。
在一些可选的实现方式中,空间检测损失函数包括有监督帧间姿态损失函数和有监督地面方程损失函数,空间检测损失值包括第一空间检测损失值和第二空间检测损失值。
如图5所示,上述步骤206包括:
步骤2061,基于第一空间检测数据和对应的实际帧间姿态数据,利用有监督帧间姿态损失函数,确定第一空间检测损失值。
上述实际帧间姿态数据可以是预先对第一样本图像和第二样本图像进行标注生成的数据,用于表示相机实际的帧间姿态。上述实际帧间姿态数据可以是预先对第一样本图像和第二样本图像拍摄的实际场景进行测量而设置的。或者利用其它帧间姿态评估方法(例如LOAM(Lidar Odometry and Mapping in Real-time,实时激光雷达里程计和地图绘制)建图方法得到的。
具体的,有监督帧间姿态损失函数可以用下式(3)表示:
Lspose=|pgt-ppre| (3)
其中,Lspose表示第一空间检测损失值,pgt表示实际帧间姿态数据,即帧间姿态真值,ppre表示预测的帧间姿态数据,即第一空间检测数据。
步骤2062,基于第二空间检测数据和对应的实际地面方程数据,利用有监督地面方程损失函数,确定第二空间检测损失值。
其中,上述实际地面方程数据可以是预先对第二样本图像进行标注生成的数据,用于表示实际的地面方程。通常,可以采用人工方式,或基于现有的目标检测方法,在场景图像中将地面分割出来,然后在相机坐标系下进行平面方程拟合,得到上述实际地平面方程。
具体的,有监督地面方程损失函数可以用下式(4)表示:
Lsground=|ggt-gpre| (4)
其中,Lsground表示第二空间检测损失值,ggt表示实际地面方程数据,即地面方程真值,gpre表示预测的地面方程数据,即第二空间检测数据。
通常,在训练时,可以将有监督帧间姿态损失函数和有监督地面方程损失函数与上述单应性流损失函数相加,通过调整待训练模型的参数,使各个损失函数的损失值之和逐渐减小至收敛,实现了基于空间检测和单应性评估的联合训练。
本实施例提供的有监督帧间姿态损失函数和有监督地面方程损失函数,可以使训练后的单应性流估计模型输出与实际情况更接近的第一空间检测数据和第二空间检测数据,提高了单应性流估计模型对图像进行空间检测的准确性。
在一些可选的实现方式中,如图6所示,上述步骤205包括:
步骤2053,从特征数据中确定目标尺度的特征图。
其中,特征数据通常为由多个不同大小的特征图组合成的数据集合,特征图包括的特征数据通常为矩阵的形式,特征图的尺度即为特征图的行列数。
目标尺度可以是预先设置的某个固定尺度,也可以是按照设置的规则从特征数据中确定的尺度。例如,目标尺度可以是各个特征图的尺度中的最小尺度。
作为示例,待训练模型包括的特征融合网络的下采样次数是5次,每次下采样后得到的特征图的尺度就会是下采样前的1/2,得到的特征尺寸就分别是原图像尺度的1/2,1/4,1/8,1/16,1/32,那么最小尺度的特征图就是原图像尺度的1/32的特征图,所以这里的目标尺度与输入图像大小和特征融合网络的下采样次数有关系。
步骤2054,基于目标尺度的特征图,利用待训练模型进行空间检测,生成空间检测数据。
具体地,可以将目标尺度的特征图输入上述空间检测网络,由空间检测网络生成空间检测数据。
本实施例通过从特征数据中确定目标尺度的特征图,可以灵活地选择用于进行空间检测的特征图的感受野,例如当目标尺度为最小尺度时,最小尺度的特征图的感受野最大,输出的空间检测数据与图像的全局相关,从而有利于提高空间检测的准确性。
在一些可选的实现方式中,单应性流损失函数包括单应性流自监督损失函数,单应性流损失值包括第三单应性流损失值。
如图7所示,步骤203包括:
步骤2034,基于第一空间检测数据,确定第二样本图像相对于第一样本图像的旋转矩阵和平移矩阵。
其中,旋转矩阵和平移矩阵可以包含于第一空间检测数据中,即第一样本图像和第二样本图像之间的相机相对姿态可以通过该旋转矩阵和平移矩阵表示。
步骤2035,基于第二空间检测数据,确定地面法向量和用于拍摄图像序列的相机的高度。
由于第二空间检测数据用于表示第二样本图像对应的地面方程,而地面方程的表示形式可以为法线式,因此可以直接从第二空间检测数据中确定地面法向量。由于地面方程是在相机坐标系下建立的,并且相机坐标系的坐标原点为相机的位置,因此,可以根据地平面方程确定相机相对地面的高度。
步骤2036,基于地面法向量、预设的相机内参、高度、旋转矩阵和平移矩阵,确定单应性矩阵。
其中,相机内参可以是预先标定好的,相机内参用于表征相机坐标系下的点和图像坐标系下的点的对应关系。
可以通过如下公式(5)确定单应性矩阵H:
Figure BDA0003532937210000141
其中,K表示相机内参,K-1表示相机内参的逆矩阵,R表示旋转矩阵,t表示平移矩阵,N表示地面法向量,NT表示地面法向量的转置,dc表示相机高度。
步骤2037,利用单应性矩阵,确定第二样本图像相对于第一样本图像的实际单应性流数据。
上述单应性矩阵用于表示第一样本图像和第二样本图像中的地面区域包括的像素点之间的映射关系,因此,可以将第一样本图像中的地面区域包括的像素点的坐标向量分别与该单应性矩阵相乘,从而得到在第二样本图像中的映射坐标。再将第二样本图像中的地面区域包括的像素的坐标与对应的映射坐标相减,即可得到实际单应性流数据。
步骤2038,基于预测单应性流数据和实际单应性流数据,利用单应性流自监督损失函数,确定第三单应性流损失值。
具体地,可以根据如下公式(6)表示的单应性流自监督损失函数,确定第三单应性流损失值LsGHF
LsGHF=|HFpre-HFcal| (6)
其中,HFpre表示预测单应性流数据,HFcal表示实际单应性流数据,在训练模型时,随着不断地调整待训练模型的参数,LsGHF逐渐减小,即预测单应性流数据和实际单应性流数据的差距逐渐减小。
通常,在训练模型时,可以将上述各实施例描述的所有损失函数相加,通过调整待训练模型的参数,使各损失函数的损失值之和逐渐减小,直至收敛,从而得到训练后的单应性流估计模型。
本实施例通过设置单应性流自监督损失函数,可以在训练单应性流估计模型时,自动计算实际单应性流数据,无需预先对样本图像进行大量标注,提高了训练效率,丰富了训练的方式,提高了训练单应性流估计模型的灵活性,有助于与其他损失函数结合提高训练后的模型的预测精度。
图8是本公开一示例性实施例提供的基于单目图像的单应性流估计方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图8所示,该方法包括如下步骤:
步骤801,利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据。
其中,单应性流估计模型是预先根据上述图2对应实施例描述的方法训练得到。第二图像位于第一图像之后。例如,第二样本图像是当前时刻(例如t时刻)拍摄的,则第一图像可以是在当前时刻之前拍摄的。
上述单应性流估计模型可以包括任一适宜结构的深度神经网络。例如,待训练模型可以包括Resnet(残差网络)、VarGnet(可变组网络)等网络,利用这些网络,可以对输入的图像进行特征提取。特征提取时,可以将第一图像和第二图像分别在RGB三个通道上合并,再从合并后的图像中提取特征数据。
步骤802,基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据。
通常,在进行单应性流预测之前,可以将特征数据进行多个尺度的融合,得到融合特征数据,再将融合特征数据输入单应性流预测网络,单应性流预测网络可以根据融合特征数据,分别确定第一图像和第二图像中的地面区域,再利用现有的单应性估计方法,确定两个地面区域的映射关系,得到单应性流预测数据。
作为示例,特征数据可以是由Unet结构的深度神经网络下采样5次后得到的特征数据,再经过若干次2倍上采样之后再与大尺度的特征进行融合,依次类推得到多个尺度的融合特征数据。通常,单应性流预测所采用的融合特征数据可以是从多个尺度的融合特征数据中选择的。例如,可以选择原图像大小的1/2或1/4尺度的融合特征数据进行单应性流预测,利用该尺度的融合特征数据,模型预测的速度和性能均较好。
应当理解,本实施例所使用的单应性流估计模型与上述图2对应实施例中训练得到的单应性流估计模型相同,对于单应性流估计模型的结构和预测流程的说明,可以参考上述图2对应实施例描述的内容,这里不再赘述。
本公开的上述实施例提供的方法,通过利用单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,然后基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据,由于模型训练时采用了对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,模型的预测过程更有针对性,从而大大提高了对单目图像序列进行单应性流数据预测的效率和准确性。
在一些可选的实现方式中,该方法还包括:
基于特征数据,由单应性流估计模型进行空间检测,生成空间检测数据。
其中,空间检测数据用于表征第一图像和第二图像中的物体的三维空间特征。通常,空间检测数据可以由待训练模型包括的空间检测网络生成。由于特征数据是多个尺度的特征图的集合,因此,可以从这些特征图中选择一定尺度(例如最小尺度)的特征图输入空间检测网络,得到空间检测数据。
本实施例提供的方法,单应性流估计模型还可以输出空间检测数据,从而丰富了单应性流估计模型的功能,大大丰富了模型的适用场景。
在一些可选的实现方式中,电子设备可以按照如下步骤生成空间检测数据:
首先,基于特征数据,由单应性流估计模型进行帧间姿态预测,得到表示第一图像和第二图像之间的相机相对姿态的第一空间检测数据。
然后,基于特征数据,由单应性流估计模型进行地面方程预测,得到表示第二样本图像对应的地面方程的第二空间检测数据。
其中,第一空间检测数据即帧间姿态预测数据,可以由单应性流估计模型包括的帧间姿态网络利用特征数据进行运算得到。帧间姿态网络可以根据其包括的网络参数,对特征数据进行运算,得到帧间姿态数据。需要说明的是,通过神经网络计算帧间姿态的方法可以采用现有技术,这里不再赘述。
第二空间检测数据即地面方程数据,可以由单应性流估计模型包括的地面方程预测网络利用特征数据进行运算得到。地面方程数据用于表征第二样本图像中的地面区域所在空间内的平面方程。通常,地面方程数据可以包括地面法向量,由地面法向量,根据点法式、法线式等表示方式,即可得到地面方程。
地面方程预测网络可以根据特征数据,确定第二图像中的地面区域包括的像素对应的在三维空间中的点的位置,根据这些三维点的位置,可以根据现有的确定地面法向量的方法,得到包括地面法向量的地面方程数据。
通常,上述帧间姿态数据可以用于自车速度的估计,或者用于图像对齐。地面方程可以用于深度估计转化得到相机高度信息,或者用于确定图像的深度信息。
本实施例的单应性流估计模型可以在预测时通过帧间姿态网络和地面方程预测网络对输入的图像进行帧间姿态预测和地面方程预测,丰富了单应性流估计模型的功能,扩展了单应性流估计模型的使用场景。
示例性装置
图9是本公开一示例性实施例提供的单应性流估计模型的训练装置的结构示意图。本实施例可应用在电子设备上,如图9所示,单应性流估计模型的训练装置包括:第一提取模块901,用于利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据,其中,第二样本图像位于第一样本图像之后;第一预测模块902,用于基于特征数据,利用待训练模型进行预测,得到表示第一样本图像和第二样本图像中地面区域的相对位置变化的预测单应性流数据;第一确定模块903,用于基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;训练模块904,用于基于单应性流损失值,调整待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
在本实施例中,第一提取模块901可以利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据。其中,第二样本图像位于第一样本图像之后。例如,第一样本图像是在t时刻拍摄的,则位于其后的第二样本图像可以是在t时刻之后拍摄的。
通常,上述图像序列是单目相机拍摄的,且上述图像序列可以是相机在运动状态下拍摄的。
上述待训练模型可以包括各种结构的深度神经网络。例如,待训练模型可以包括Resnet、VarGnet等网络,利用这些网络,可以对输入的图像进行特征提取。特征提取时,可以将第一样本图像和第二样本图像分别在RGB三个通道上合并,再从合并后的图像中提取特征数据。
在本实施例中,第一预测模块902可以基于特征数据,利用待训练模型进行预测,得到表示第一样本图像和第二样本图像中地面区域的相对位置变化的预测单应性流数据。
其中,单应性是指像素点从一个平面到另一个平面的投影映射。单应性流数据是一种光流,表示空间相对运动物体在成像平面上的对应像素的瞬时运动速度,也就是一个图像中的像素点A表示的实际空间点对应到另一图像上的像素点A’的相对位移特征。需要说明的是,上述运动物体是相对于成像平面发生相对运动的物体。
本实施例中,待训练模型可以包括单应性流预测网络,单应性流预测网络可以根据融合特征数据,分别确定第一样本图像和第二样本图像中的地面区域,再利用现有的单应性估计方法,确定两个地面区域的映射关系,进而得到单应性流预测数据。
在本实施例中,第一确定模块903可以基于预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值。其中,单应性流损失函数用于定量计算预测单应性流数据和实际单应性流数据之间的误差,单应性流损失值即可表示预测单应性流数据和实际单应性流数据之间的误差。
在本实施例中,训练模块904可以基于单应性流损失值,调整待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
模型的训练方法可以采用机器学习的方法。上述预设训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;单应性流损失值收敛。
参照图10,图10是本公开另一示例性实施例提供的单应性流估计模型的训练装置的结构示意图。
在一些可选的实现方式中,该装置还包括:第一检测模块905,用于基于特征数据,利用待训练模型进行空间检测,生成空间检测数据;第二确定模块906,用于基于空间检测数据和预设的空间检测损失函数,确定空间检测损失值;训练模块进一步用于:基于单应性流损失值和空间检测损失值,调整待训练模型的参数。
在一些可选的实现方式中,空间检测数据包括第一空间检测数据和第二空间检测数据;第一检测模块905包括:第一检测单元9051,用于基于特征数据,由待训练模型进行帧间姿态预测,得到表示第一样本图像和第二样本图像之间的相机相对姿态的第一空间检测数据;第二检测单元9052,用于基于特征数据,由待训练模型进行地面方程预测,得到表示第二样本图像对应的地面方程的第二空间检测数据。
在一些可选的实现方式中,空间检测损失函数包括有监督帧间姿态损失函数和有监督地面方程损失函数,空间检测损失值包括第一空间检测损失值和第二空间检测损失值;第二确定模块906包括:第一确定单元9061,用于基于第一空间检测数据和对应的实际帧间姿态数据,利用有监督帧间姿态损失函数,确定第一空间检测损失值;第二确定单元9062,用于基于第二空间检测数据和对应的实际地面方程数据,利用有监督地面方程损失函数,确定第二空间检测损失值。
在一些可选的实现方式中,单应性流损失函数包括单应性流自监督损失函数,单应性流损失值包括第三单应性流损失值;第一确定模块903包括:第三确定单元9031,用于基于第一空间检测数据,确定第二样本图像相对于第一样本图像的旋转矩阵和平移矩阵;第四确定单元9032,用于基于第二空间检测数据,确定地面法向量和用于拍摄图像序列的相机的高度;第五确定单元9033,用于基于地面法向量、预设的相机内参、高度、旋转矩阵和平移矩阵,确定单应性矩阵;第六确定单元9034,用于利用单应性矩阵,确定第二样本图像相对于第一样本图像的实际单应性流数据;第七确定单元9035,用于基于预测单应性流数据和实际单应性流数据,利用单应性流自监督损失函数,确定第三单应性流损失值。
在一些可选的实现方式中,第一检测模块905包括:第十确定单元9053,用于从特征数据中确定目标尺度的特征图;生成单元9054,用于基于目标尺度的特征图,利用待训练模型进行空间检测,生成空间检测数据。
在一些可选的实现方式中,单应性流损失函数包括单应性流无监督损失函数,单应性流损失值包括第一单应性流损失值;第一确定模块903包括:第八确定单元9036,用于确定第二样本图像对应的地面掩码数据;映射单元9037,用于基于预测单应性流数据,将第一样本图像映射到第二样本图像的像平面,得到映射图像;第九确定单元9038,用于基于映射图像、第二样本图像、地面掩码数据,利用单应性流无监督损失函数,确定第一单应性流损失值。
在一些可选的实现方式中,单应性流损失函数包括单应性流监督损失函数,单应性流损失值包括第二单应性流损失值;第一确定模块903进一步用于:基于第二样本图像对应的实际单应性流数据和预测单应性流数据,利用单应性流监督损失函数,确定第二单应性流损失值。
本公开上述实施例提供的单应性流估计模型的训练装置,通过待训练模型对第一样本图像和第二样本图像进行特征提取,再基于特征数据得到地面区域的相对位置变化的预测单应性流数据,然后基于预测单应性流数据和单应性流损失函数,确定单应性流损失值,最后基于单应性流损失值,调整待训练模型的参数,得到单应性流估计模型。实现了对单应性流估计模型的训练,训练后的单应性流估计模型,可以对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,相比于基于全图的单应性估计,本公开实施例提供的单应性流估计模型只针对地面进行单应性流预测,模型的预测过程更有针对性,从而极大提高了单应性流数据预测的效率和准确性。
图11是本公开一示例性实施例提供的基于单目图像的单应性流估计装置的结构示意图。本实施例可应用在电子设备上,如图11所示,基于单目图像的单应性流估计装置包括:第二提取模块1101,用于利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,其中,第二图像位于第一图像之后;第二预测模块1102,用于基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据。
在本实施例中,第二提取模块1101可以利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据。
其中,单应性流估计模型是预先根据上述图2对应实施例描述的方法训练得到的。第二图像位于第一图像之后。例如,第二样本图像是当前时刻(例如t时刻)拍摄的,则第一图像可以是在当前时刻之前拍摄的。
上述单应性流估计模型可以包括任一适宜结构的深度神经网络。例如,待训练模型可以包括Resnet(残差网络)、VarGnet(可变组网络)等网络,利用这些网络,可以对输入的图像进行特征提取。特征提取时,可以将第一图像和第二图像分别在RGB三个通道上合并,再从合并后的图像中提取特征数据。
在本实施例中,第二预测模块1102可以基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据。
通常,在进行单应性流预测之前,可以将特征数据进行多个尺度的融合,得到融合特征数据,再将融合特征数据输入单应性流预测网络,单应性流预测网络可以根据融合特征数据,分别确定第一图像和第二图像中的地面区域,再利用现有的单应性估计方法,确定两个地面区域的映射关系,得到单应性流预测数据。
作为示例,特征数据可以是由Unet结构的深度神经网络下采样5次后得到的特征数据,再经过若干次2倍上采样之后再与大尺度的特征进行融合,依次类推得到多个尺度的融合特征数据。通常,单应性流预测所采用的融合特征数据可以是从多个尺度的融合特征数据中选择的。例如,可以选择原图像大小的1/2或1/4尺度的融合特征数据进行单应性流预测,利用该尺度的融合特征数据,模型预测的速度和性能均较好。
应当理解,本实施例所使用的单应性流估计模型与上述图2对应实施例中训练得到的单应性流估计模型相同,对于单应性流估计模型的结构和预测流程的说明,可以参考上述图2对应实施例描述的内容,这里不再赘述。
参照图12,图12是本公开另一示例性实施例提供的基于单目图像的单应性流估计装置的结构示意图。
在一些可选的实现方式中,该装置还包括:第二检测模块1103,用于基于特征数据,由单应性流估计模型进行空间检测,生成空间检测数据。
在一些可选的实现方式中,第二检测模块1103包括:第一预测单元11031,用于基于特征数据,由单应性流估计模型进行帧间姿态预测,得到表示第一图像和第二图像之间的相机相对姿态的第一空间检测数据;第二预测单元11032,用于基于特征数据,由单应性流估计模型进行地面方程预测,得到表示第二样本图像对应的地面方程的第二空间检测数据。
本公开上述实施例提供的基于单目图像的单应性流估计装置,通过利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,然后基于特征数据,由单应性流估计模型进行单应性流预测,生成表示第一图像和第二图像中的地面区域相对位置变化的单应性流数据,由于模型训练时采用了对单目相机拍摄的图像序列进行以地面为基准的单应性流数据的预测,模型的预测过程更有针对性,从而极大提高了对单目图像序列进行单应性流数据预测的效率和准确性。
示例性电子设备
下面,参考图13来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图13图示了根据本公开实施例的电子设备的框图。
如图13所示,电子设备1300包括一个或多个处理器1301和存储器1302。
处理器1301可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备1300中的其他组件以执行期望的功能。
存储器1302可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1301可以运行程序指令,以实现上文的本公开的各个实施例的单应性流估计模型的训练方法或基于单目图像的单应性流估计方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如图像、单应性流估计模型等各种内容。
在一个示例中,电子设备1300还可以包括:输入装置1303和输出装置1304,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置1303可以是相机、鼠标、键盘等设备,用于输入图像、执行上述方法的命令等内容。在该电子设备是单机设备时,该输入装置1303可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的图像、执行上述方法的命令等内容。
该输出装置1304可以向外部输出各种信息,包括单应性流数据等。该输出设备1304可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图13中仅示出了该电子设备1300中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1300还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的单应性流估计模型的训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的单应性流估计模型的训练方法或基于单目图像的单应性流估计方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种单应性流估计模型的训练方法,包括:
利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据,其中,所述第二样本图像位于所述第一样本图像之后;
基于所述特征数据,利用所述待训练模型进行预测,得到表示所述第一样本图像和所述第二样本图像中地面区域的相对位置变化的预测单应性流数据;
基于所述预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;
基于所述单应性流损失值,调整所述待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述特征数据,利用所述待训练模型进行空间检测,生成空间检测数据;
基于所述空间检测数据和预设的空间检测损失函数,确定空间检测损失值;
所述基于所述单应性流损失值,调整所述待训练模型的参数,包括:
基于所述单应性流损失值和所述空间检测损失值,调整所述待训练模型的参数。
3.根据权利要求2所述的方法,其中,所述空间检测数据包括第一空间检测数据和第二空间检测数据,所述基于所述特征数据,利用所述待训练模型进行空间检测,生成空间检测数据,包括:
基于所述特征数据,由所述待训练模型进行帧间姿态预测,得到表示所述第一样本图像和所述第二样本图像之间的相机相对姿态的第一空间检测数据;
基于所述特征数据,由所述待训练模型进行地面方程预测,得到表示所述第二样本图像对应的地面方程的第二空间检测数据。
4.根据权利要求3所述的方法,其中,所述空间检测损失函数包括有监督帧间姿态损失函数和有监督地面方程损失函数,所述空间检测损失值包括第一空间检测损失值和第二空间检测损失值;
所述基于所述空间检测数据和预设的空间检测损失函数,确定空间检测损失值,包括:
基于所述第一空间检测数据和对应的实际帧间姿态数据,利用所述有监督帧间姿态损失函数,确定所述第一空间检测损失值;
基于所述第二空间检测数据和对应的实际地面方程数据,利用所述有监督地面方程损失函数,确定所述第二空间检测损失值。
5.根据权利要求3所述的方法,其中,所述单应性流损失函数包括单应性流自监督损失函数,所述单应性流损失值包括第三单应性流损失值;
所述基于所述预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值,包括:
基于所述第一空间检测数据,确定所述第二样本图像相对于所述第一样本图像的旋转矩阵和平移矩阵;
基于所述第二空间检测数据,确定地面法向量和用于拍摄所述图像序列的相机的高度;
基于所述地面法向量、预设的相机内参、所述高度、所述旋转矩阵和所述平移矩阵,确定单应性矩阵;
利用所述单应性矩阵,确定所述第二样本图像相对于所述第一样本图像的实际单应性流数据;
基于所述预测单应性流数据和所述实际单应性流数据,利用所述单应性流自监督损失函数,确定所述第三单应性流损失值。
6.根据权利要求2所述的方法,其中,所述基于所述特征数据,利用所述待训练模型进行空间检测,生成空间检测数据,包括:
从所述特征数据中确定目标尺度的特征图;
基于所述目标尺度的特征图,由所述待训练模型进行空间检测,生成所述空间检测数据。
7.根据权利要求1所述的方法,其中,所述单应性流损失函数包括单应性流无监督损失函数,所述单应性流损失值包括第一单应性流损失值;
所述基于所述预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值,包括:
确定所述第二样本图像对应的地面掩码数据;
基于所述预测单应性流数据,将所述第一样本图像映射到所述第二样本图像的像平面,得到映射图像;
基于所述映射图像、所述第二样本图像、所述地面掩码数据,利用所述单应性流无监督损失函数,确定所述第一单应性流损失值。
8.根据权利要求1所述的方法,其中,所述单应性流损失函数包括单应性流监督损失函数,所述单应性流损失值包括第二单应性流损失值;
所述基于所述预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值,包括:
基于所述第二样本图像对应的实际单应性流数据和所述预测单应性流数据,利用单应性流监督损失函数,确定第二单应性流损失值。
9.一种基于单目图像的单应性流估计方法,包括:
利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,其中,所述第二图像位于所述第一图像之后;
基于所述特征数据,由所述单应性流估计模型进行单应性流预测,生成表示所述第一图像和所述第二图像中的地面区域相对位置变化的单应性流数据。
10.一种单应性流估计模型的训练装置,包括:
第一提取模块,用于利用待训练模型对同一图像序列中的第一样本图像和第二样本图像进行特征提取,得到特征数据,其中,所述第二样本图像位于所述第一样本图像之后;
第一预测模块,用于基于所述特征数据,利用所述待训练模型进行预测,得到表示所述第一样本图像和所述第二样本图像中地面区域的相对位置变化的预测单应性流数据;
第一确定模块,用于基于所述预测单应性流数据和预设的单应性流损失函数,确定单应性流损失值;
训练模块,用于基于所述单应性流损失值,调整所述待训练模型的参数,直至满足预设训练结束条件,得到单应性流估计模型。
11.一种基于单目图像的单应性流估计装置,包括:
第二提取模块,用于利用预先训练的单应性流估计模型,对同一图像序列中的第一图像和第二图像进行特征提取,得到特征数据,其中,所述第二图像位于所述第一图像之后;
第二预测模块,用于基于所述特征数据,由所述单应性流估计模型进行单应性流预测,生成表示所述第一图像和所述第二图像中的地面区域相对位置变化的单应性流数据。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9任一所述的方法。
13.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9任一所述的方法。
CN202210213145.4A 2022-03-04 2022-03-04 单应性流估计模型的训练方法、单应性流估计方法和装置 Pending CN114596475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210213145.4A CN114596475A (zh) 2022-03-04 2022-03-04 单应性流估计模型的训练方法、单应性流估计方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210213145.4A CN114596475A (zh) 2022-03-04 2022-03-04 单应性流估计模型的训练方法、单应性流估计方法和装置

Publications (1)

Publication Number Publication Date
CN114596475A true CN114596475A (zh) 2022-06-07

Family

ID=81815442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210213145.4A Pending CN114596475A (zh) 2022-03-04 2022-03-04 单应性流估计模型的训练方法、单应性流估计方法和装置

Country Status (1)

Country Link
CN (1) CN114596475A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023109221A1 (zh) * 2021-12-14 2023-06-22 北京地平线信息技术有限公司 确定单应性矩阵的方法、装置、介质、设备和程序产品

Similar Documents

Publication Publication Date Title
US10204423B2 (en) Visual odometry using object priors
CN112560684B (zh) 车道线检测方法、装置、电子设备、存储介质以及车辆
CN112509047A (zh) 基于图像的位姿确定方法、装置、存储介质及电子设备
JP7411114B2 (ja) 空間幾何情報推定モデルの生成方法及び装置
CN114758068A (zh) 空间几何信息估计模型的训练方法及装置
CN111402404B (zh) 全景图补全方法、装置、计算机可读存储介质及电子设备
CN113469025B (zh) 应用于车路协同的目标检测方法、装置、路侧设备和车辆
CN112907620A (zh) 相机位姿的估计方法、装置、可读存储介质及电子设备
WO2023109221A1 (zh) 确定单应性矩阵的方法、装置、介质、设备和程序产品
CN115719436A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN114937125B (zh) 可重建度量信息预测方法、装置、计算机设备和存储介质
CN113592940A (zh) 基于图像确定目标物位置的方法及装置
CN111985556A (zh) 关键点识别模型的生成方法和关键点识别方法
CN115147683A (zh) 位姿估计网络模型的训练方法、位姿估计方法及装置
CN114596475A (zh) 单应性流估计模型的训练方法、单应性流估计方法和装置
CN111402136A (zh) 全景图生成方法、装置、计算机可读存储介质及电子设备
CN114782510A (zh) 目标物体的深度估计方法和装置、存储介质、电子设备
CN111639591B (zh) 轨迹预测模型生成方法、装置、可读存储介质及电子设备
CN107945109B (zh) 基于卷积网络的图像拼接方法及装置
CN111915587A (zh) 视频处理方法、装置、存储介质和电子设备
CN112085842A (zh) 深度值确定方法及装置、电子设备和存储介质
KR102299902B1 (ko) 증강현실을 제공하기 위한 장치 및 이를 위한 방법
CN114972465A (zh) 图像目标深度的检测方法、装置、电子设备和存储介质
CN113506328A (zh) 视线估计模型的生成方法和装置、视线估计方法和装置
CN111260544A (zh) 数据处理方法及装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination