CN114913290A - 多视角融合的场景重建方法、感知网络训练方法及装置 - Google Patents

多视角融合的场景重建方法、感知网络训练方法及装置 Download PDF

Info

Publication number
CN114913290A
CN114913290A CN202210575068.7A CN202210575068A CN114913290A CN 114913290 A CN114913290 A CN 114913290A CN 202210575068 A CN202210575068 A CN 202210575068A CN 114913290 A CN114913290 A CN 114913290A
Authority
CN
China
Prior art keywords
view
image
images
scene
around
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210575068.7A
Other languages
English (en)
Inventor
陈腾
隋伟
张骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN202210575068.7A priority Critical patent/CN114913290A/zh
Publication of CN114913290A publication Critical patent/CN114913290A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

公开了一种多视角融合的场景重建方法、感知网络训练方法及装置,该多视角融合的场景重建方法包括:获取多张图像,将多张图像融合为环视视角图像,以及将多张图像融合为鸟瞰视角图像。基于环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征。基于环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息。基于第一场景信息及第二场景信息进行三维场景重建。通过本公开实施例的方案可以避免出现多个视角的图像之间重叠区域在场景重建时无法融合的问题。另外本公开可以将多视角融合为环视视角和鸟瞰视角,之后从环视和鸟瞰两个视角进行场景重建,得到的场景信息更为准确。

Description

多视角融合的场景重建方法、感知网络训练方法及装置
技术领域
本公开涉及计算机视觉领域,尤其涉及一种多视角融合的场景重建方法、感知网络训练方法、装置、电子设备及计算机可读存储介质。
背景技术
随着科技的发展,自动驾驶技术在人们生活中的应用越来越广泛。环境感知作为自动驾驶技术中至关重要的分支,是自动驾驶载具导航与控制的基础。因此,对于自动驾驶载具来说,需要对载具所处环境进行场景重建,以保证自动驾驶过程中的安全,避免与周围车辆、行人发生碰撞。
场景重建时,首先利用车载相机获取多张图像,之后提取每张图像所对应视角的三维信息,再将所有视角的三维信息融合在一起,以重建车辆所处环境的场景。
但是,对于某一视角的部分三维信息,存在难以将其与其他视角的三维信息融合在一起的情况。
发明内容
现有的技术方案单独处理不同相机拍摄的图像,得到多个处理结果,之后将多个处理结果融合为场景信息。但是,不同相机之间存在视角重叠区域,该重叠区域的不同处理结果之间无法融合。
为了解决上述技术问题,本公开的实施例提供了一种多视角融合的场景重建方法、感知网络训练方法及装置。
根据本公开的一个方面,提供了一种多视角融合的场景重建方法,包括:
获取多张图像,多张所述图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多张图像;
将多张所述图像融合为环视视角图像,以及将多张所述图像融合为鸟瞰视角图像;
基于所述环视视角图像和所述鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征;
基于所述环视图像特征及所述鸟瞰图像特征,分别得到所述环视视角图像对应的第一场景信息及所述鸟瞰视角图像对应的第二场景信息;
基于所述第一场景信息及所述第二场景信息进行三维场景重建。
根据本公开的另一个方面,提供了一种感知网络训练方法,感知网络包括环视感知网络和鸟瞰感知网络,环视感知网络用于对环视图像特征进行语义分割、目标检测和车道线检测,鸟瞰感知网络用于对鸟瞰图像特征进行语义分割、目标检测和车道线检测;方法包括:
确定环视感知网络的第一损失函数及鸟瞰感知网络的第二损失函数;
确定环视感知网络与鸟瞰感知网络之间的一致性约束损失函数;
基于第一损失函数、第二损失函数及一致性约束损失函数,确定感知网络在训练阶段的总损失函数,以监督感知网络的训练过程。
根据本公开的另一个方面,提供了一种多视角融合的场景重建装置,包括:
图像获取模块,用于获取多张图像,多张图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像;
图像融合模块,用于将图像获取模块获取的多张图像融合为环视视角图像,以及将图像获取模块获取的多张图像融合为鸟瞰视角图像;
特征提取模块,用于基于图像融合模块融合的环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征;
场景预测模块,用于基于特征提取模块提取的环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息;
场景重建模块,用于基于场景预测模块预测的第一场景信息及第二场景信息进行三维场景重建。
根据本公开的另一个方面,提供了一种感知网络训练装置,感知网络包括环视感知网络和鸟瞰感知网络,装置包括:
第一确定模块,用于确定环视感知网络的第一损失函数及鸟瞰感知网络的第二损失函数;
第二确定模块,用于确定环视感知网络与鸟瞰感知网络之间的一致性约束损失函数;
第三确定模块,用于基于第一确定模块确定的第一损失函数、第二损失函数及第二确定模块确定的一致性约束损失函数,确定感知网络在训练阶段的总损失函数,以监督感知网络的训练过程。
根据本公开的又一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述的多视角融合的场景重建方法,或者,上述的感知网络训练方法。
根据本公开的再一个方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的多视角融合的场景重建方法,或者,上述的感知网络训练方法。
基于本公开上述实施例提供的一种多视角融合的场景重建方法、感知网络训练方法及装置,该多视角融合的场景重建方法包括:获取多张图像,多张图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多张图像。将多张图像融合为环视视角图像,以及将多张图像融合为鸟瞰视角图像。基于环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征。基于环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息。基于第一场景信息及第二场景信息进行三维场景重建。通过本公开实施例的方案进行场景重建,能够将多个视角的图像融合为环视视角图像及鸟瞰视角图像,之后再根据环视视角图像及鸟瞰视角图像进行场景重建,因此可以避免出现多个视角的图像之间重叠区域在场景重建时无法融合的问题。另外,本公开可以将多视角融合为环视视角和鸟瞰视角,之后从环视和鸟瞰两个视角进行场景重建,得到的场景信息更为准确。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开一示例性实施例提供的自动驾驶系统的结构示意图。
图2是本公开一示例性实施例提供的载具坐标系示意图。
图3是本公开一示例性实施例提供的多视角融合的场景重建方法的流程示意图。
图4是本公开一示例性实施例提供的环视视角图像示意图。
图5是本公开一示例性实施例提供的鸟瞰视角图像示意图。
图6是本公开一示例性实施例提供的提取场景信息的流程示意图。
图7是本公开一示例性实施例提供的三维场景重建的流程示意图。
图8是本公开一示例性实施例提供的环视视角图像融合的流程示意图。
图9是本公开一示例性实施例提供的构建基准摄相机系统的流程示意图。
图10是本公开一示例性实施例提供的多摄相机系统与基准摄相机系统之间的对应示意图。
图11是本公开一示例性实施例提供的环视视角图像融合的流程示意图。
图12为本公开实施例提供的鸟瞰视角图像融合的流程示意图。
图13是本公开一示例性实施例提供的感知网络训练方法流程示意图。
图14是本公开一示例性实施例提供的感知网络的结构示意图。
图15是本公开一示例性实施例提供的一种多视角融合的场景重建装置结构示意图。
图16是本公开一示例性实施例提供的一种多视角融合的场景重建装置的另一种结构示意图。
图17是本公开一示例性实施例提供的一种感知网络训练装置结构示意图。
图18是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
公开概述
辅助驾驶或自动驾驶技术中至关重要的分支为环境感知技术,环境感知技术是辅助驾驶或自动驾驶载具导航与控制的基础。环境感知技术能够精确感知载具周围环境及交通参与者,且具备对较远距离物体的检测能力,以保证车辆在较高速度下的行驶安全。因此,环境感知技术中的关键技术之一为车辆所处环境的3D场景重建。
例如,对自动驾驶载具来说,为保证自动驾驶过程中的安全,需要对车辆所处环境中的目标物体及目标物体所处位置等信息进行重建,以得到车辆所处环境的3D场景信息。这样,可以对自动驾驶载具的行驶路线进行规划,避免发生碰撞等事故。该目标物体可以是车道线、标志牌、车辆、行人以及交通灯等,该自动驾驶载具可以为车辆、飞行器等。
目前在进行3D场景重建时,在自动驾驶载具上配置多个相机,每个相机采集一个视角的图像。对各个视角的图像进行3D信息的提取,得到每个视角对应的3D信息,之后再将每个视角的3D信息融合在一起。但是,由于多个相机的视角之间存在重叠,因此对每个视角的图像单独进行3D信息提取之后,这些重叠区域会存在至少两种不同的3D信息,该两种不同的3D信息难以融合在一起,导致无法重建3D场景。
示例性系统
本公开实施例可以应用于需要进行3D场景重建的应用场景中,该应用场景可包括辅助驾驶或自动驾驶等应用场景。
图1是本公开一示例性实施例提供的自动驾驶系统的结构示意图。
如图1所示,本公开实施例应用在辅助驾驶或自动驾驶的应用场景中,辅助驾驶或自动驾驶的载具101上配置自动驾驶系统102和多摄相机系统103,车载自动驾驶系统102和多摄相机系统103电连接。多摄相机系统103用于采集当前时刻载具101所处环境的图像,自动驾驶系统102用于获取图像并进行3D场景重建。
其中,多摄相机系统103可以包括多个相机,每个相机设置于载具101的不同位置,数个相机的总视角范围覆盖载具周围360°的环境范围。例如,以6摄相机系统为例,6个相机分别设置在载具的前端、左前端、右前端、右后端、左后端和后端。在每个时刻分别采集各自视角的图像,如前视图像、左前视图像、右前视图像、右后视图像、左后视图像和后视图像,6个相机的采集范围覆盖载具周围全部区域。
此外,载具101上还可配置有雷达、GPS、传感器以及测距器等。
图2是本公开一示例性实施例提供的载具坐标系示意图。
如图2所示,载具自身具有VCS(Vertical Coordinate Systems,垂直坐标系统)坐标系,以载具为车辆为例,该VCS坐标系的原点可以为车辆后轴中心。VCS坐标系可以包括两种,对于VCS坐标系1:X轴方向为面向车辆前方、右手所指方向,Y轴方向为车辆前进方向,Z轴方向为与地面垂直、指向车顶方向。对于VCS坐标系2:X轴方向为车辆前进方向,Y轴方向为面向车辆前方、左手所指方向,Z轴方向为与地面垂直、指向车顶方向。
示例性方法
图3是本公开一示例性实施例提供的多视角融合的场景重建方法的流程示意图。本实施例可应用在电子设备上,如图3所示,包括如下步骤:
S401:获取多张图像,多张所述图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多张图像。
在辅助驾驶或自动驾驶等应用场景下,多摄相机系统可以设置在载具上,多摄相机系统中包括多个相机,多个相机可以围绕载具、朝向载具四周设置,多个相机距离地面有一定距离,以采集载具周围环境的图像。
多摄相机系统实际包括的相机数量可以根据实际情况确定,在一些实现方式中,可以将多个相机的视角设置为360°覆盖载具所处环境。对于多摄相机系统的其中一个相机,其视角可以为载具前进方向上的45°或60°等,还可以是载具尾端所对方向上的45°或60°,多个相机之间的视角可以存在部分重叠,其余相机的实际视角此处不再赘述。这样,载具周围环境可以尽可能的被多摄相机系统采集。
此外,由于该载具具有VCS坐标系,且该多摄相机系统中的相机具有相机坐标系,因此,在为载具设置多摄相机系统时,还可以包括预先对VCS坐标系与相机坐标系进行标定。这样,可以确定载具与多摄相机系统中相机之间的位置关系。
该多张图像可以是多摄相机系统中全部相机拍摄的所有图像,也可以是多摄相机系统中部分相机拍摄的图像。那么,该多张图像的数量具体可以为至少两张,或者两张以上。该多张图像中的每一张图像,对应于多摄相机系统的一个视角。由于多摄相机系统在同一时刻针对载具周围环境进行图像采集,因此此时采集而得的图像能够准确的进行场景重建、载具行驶预测规划等。
S402:将多张图像融合为环视视角图像,以及将多张图像融合为鸟瞰视角图像。
其中,以载具中心为基准,该载具中心可以为载具的重心,在载具为车辆时,该载具中心还可以为车辆后轴中心。在载具中心向四周扫视的视角即为环视视角,在载具中心向地面俯视的视角即为鸟瞰视角(bev view),俯视的距离取决于多摄相机系统设置在载具上时离地面的高度。
由于该多张图像是由设置在载具上、朝向载具四周的多摄相机系统拍摄的,因此,该多张图像可以融合为环视视角图像或者鸟瞰视角图像。图4是本公开一示例性实施例提供的环视视角图像示意图,如图4所示,环视视角图像是一张包括载具周围景象的平面图像,也可以称作全景图,多摄相机系统拍摄的图像1、图像2、图像3、图像4……图像n可以拼接融合成环视视角图像,其中,n小于等于多摄相机系统中的相机数。图5是本公开一示例性实施例提供的鸟瞰视角图像示意图,如图5所示,多摄相机系统拍摄的图像1、图像2、图像3、图像4……图像n可以拼接融合成鸟瞰视角图像,其中,n小于等于多摄相机系统中的相机数。如图4及图5所示,多摄相机系统拍摄的多张图像之间存在部分重叠的区域,融合后,环视视角图像及鸟瞰视角图像中不存在重叠。因此,融合形成环视视角图像和鸟瞰视角图像可以消除重叠区域,利于进行载具所处环境的场景重建。
S403:基于环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征。
其中,特征提取的过程可以由感知网络来实现。感知网络可以包括特征提取器,特征提取器用于对输入的图像进行特征提权。其中输入的图像可以包括环视视角图像和/或鸟瞰视角图像。特征提取器提取的特征可以是图像中的颜色特征、纹理特征、形状特征、边缘特征、点特征以及图像频谱、图像直方图等。特征提取器的具体构建过程可以由特征的种类决定,本方案对此不做具体限定。应用于环视视角图像的特征提取器,与应用至鸟瞰视角图像的特征提取器的类型可以相同,也可以不同。
S404:基于环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息。
其中,场景信息提取的过程也可以由感知网络来实现。环视视角图像对应的环视图像特征,及鸟瞰视角图像对应的鸟瞰图像特征,可以用于分析多张图像包含的场景信息,例如图像中包括哪些目标、目标的具体形状以及目标的位置信息,该目标可以是预先选取的车道线、标志牌、车辆、交通灯等。再如图像中包括哪些车道线以及车道线的位置信息、图像每一像素所对应的类别等。这些信息包含了一些平面信息及立体信息,能够反映载具所处环境的实际情况,因此第一场景信息和第二场景信息可以用于进行三维场景重建。
S405:基于第一场景信息及第二场景信息进行三维场景重建。
其中,三维场景可以是预先建立的,例如可以是一个基于载具所处实际环境及多摄相机系统拍摄视角等抽象建立的一个三维环境。之后,可以将上述第一场景信息及第二场景信息投影到该三维场景中,即可实现载具所处环境的场景重建。
可见,基于本公开上述实施例提供的一种多视角融合的场景重建方法,获取多张图像,多张图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多张图像。将多张图像融合为环视视角图像,以及将多张图像融合为鸟瞰视角图像。基于环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征。基于环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息。基于第一场景信息及第二场景信息进行三维场景重建。通过本公开实施例的方案进行场景重建,能够将多个视角的图像融合为环视视角图像及鸟瞰视角图像,之后再根据环视视角图像及鸟瞰视角图像进行场景重建,因此可以避免出现多个视角的图像之间重叠区域在场景重建时无法融合的问题。另外,本公开可以将多个视角的图像融合为环视视角图像和鸟瞰视角图像,之后利用深度学习的方法从两个视角的图像中分别提取特征,进而进行场景重建。由于使用了从两个视角的图像中分别提取特征,可用于进行场景重建的特征比使用从单一图像中提取出的特征更多,因而可以使得最终构建得到的场景信息更为准确。
在本公开中,需要说明的是,第一场景信息可以包括环视语义分割结果、环视目标检测结果和环视车道线结果,第二场景信息可以包括鸟瞰语义分割结果、鸟瞰目标检测结果和鸟瞰车道线结果。可以理解的是,第一场景信息和第二场景信息不限于上述内容,还可以根据实际情况进行选择,例如图像梯度信息等。
图6是本公开一示例性实施例提供的提取场景信息的流程示意图,如图4所示,在上述图3所示实施例的基础上,步骤S404可以包括如下步骤:
S4041:利用感知网络,基于环视图像特征及鸟瞰图像特征进行语义分割,分别得到多个环视语义分割结果和多个鸟瞰语义分割结果。
其中,环形语义分割结果是对环视图像特征进行语义分割得到的结果,鸟瞰语义分割结果是对鸟瞰图像特征进行语义分割得到的结果。语义分割的过程即为对像素点进行分类的过程。例如,对环视图像特征包括的每一个像素点进行分类,之后根据像素点的分类结果,可以确定环视图像特征中的一个或几个像素点属于同一类别。上述类别可以预先设置的行人、自行车、机动车等。这样,可以得到环视视角图像中所关心的物体。语义分割的过程可以由感知网络的语义分割模块实现,上述类别的具体值可以在对感知网络的训练阶段决定。对感知网络的具体训练过程将在下文中详述,此处不再赘述。
S4042:利用感知网络,基于环视图像特征及鸟瞰图像特征进行目标检测,分别得到多个环视目标检测结果和多个鸟瞰目标检测结果;目标是预定的对象。
环视目标检测结果是对环视图像特征进行目标检测得到的结果,鸟瞰目标检测结果是对鸟瞰图像特征进行目标检测得到的结果。目标检测的过程目的在于找出图像中的目标,并对目标正确分类和确定目标的具体位置。该目标可以是预先设置的行人、标志牌、车辆、交通灯等。目标检测后输出的目标检测结果包括在图像中标记出的检测框,以及检测框在图像中的位置信息。该检测框用于表示框中物为目标。目标检测的过程可以由感知网络的目标检测模块实现,上述目标的具体值可以在对感知网络的训练阶段决定。
S4043:利用感知网络,基于环视图像特征及鸟瞰图像特征进行车道线检测,分别得到多个环视车道线结果和多个鸟瞰车道线结果。
环视车道线结果是对环视图像特征进行车道线检测得到的结果,鸟瞰车道线结果是对鸟瞰图像特征进行车道线检测得到的结果。车道线检测得到的结果主要包括:车道线的类别信息、车道线在图像中的位置和轮廓、车道线与载具的位置关系等。车道线在图像中的位置以及轮廓可以在图像中标记出。上述车道线可以为白色虚线、白色实线、黄色虚线、黄色实线、双白虚线、双黄实线等。车道线检测的过程可以由感知网络的车道线检测模块实现,上述车道线的具体值可以在对感知网络的训练阶段决定。本公开方案中,可以同时在环视视角和鸟瞰视角进行车道线检测,这样,可以实现对车道线的精准定位。
由于环视视角图像是一张不能从其中直接获取图像深度信息的平面图像,因此本公开还可以包括对环视图像特征进行深度估计的过程,即第一场景信息还可以包括通过深度估计得到的深度信息。该深度信息具体是指图像中各个像素的三维信息,其可以包含图像像素距离拍摄它的相机之间的距离,通过该深度信息,可以确定载具所处空间中各物体之间的方位关系。深度估计的过程可以由感知网络的深度估计模块实现,得到环视深度估计结果。这样,可以确定环视视角图像中各个像素的深度信息,以得到精准的场景信息,利于进行场景重建。
需要补充说明的是,上述对环视图像特征进行语义分割、目标检测、车道线检测及深度估计的过程具体可以由环视感知网络实现,上述对鸟瞰图像特征进行语义分割、目标检测及车道线检测的过程具体可以由鸟瞰感知网络实现。
图7是本公开一示例性实施例提供的三维场景重建的流程示意图,如图7所示,在上述图3所示实施例的基础上,步骤S405可包括如下步骤:
S4051:将环视语义分割结果、环视目标检测结果及环视车道线结果投影至预设的三维场景中。
具体投影过程中,可以利用多摄相机系统中相机的参数,和包含深度信息的环视深度估计结果,将环视语义分割结果、环视目标检测结果及环视车道线结果投影至三维场景中。环视语义分割结果、环视目标检测结果及环视车道线结果能够准确的对载具所处空间进行场景重建。
S4052:将鸟瞰语义分割结果、鸟瞰目标检测结果及鸟瞰车道线结果投影至三维场景中。
对于鸟瞰视角的图像而言,图像中每一个像素的距离代表的空间中的实际距离(在路面上的长度/宽度)通过摄像机的内参和外参进行换算是可以确定的,例如通过换算可以确定1个像素的距离可以代表0.5米或者1米距离。例如,对于一张包括512*512个像素的鸟瞰视角图像,载具可以处于图中第256*256个像素处,该载具在图中往前有256个像素,往后有256个像素。那么在实际空间中,该载具往前可以有256*0.5=128米的距离,往后可以有256*0.5=128米的距离,在另一个示例中,该载具往前可以有256*1=256米的距离,往后可以有256*1=256米的距离。因此,基于鸟瞰视角图像得出的鸟瞰语义分割结果、鸟瞰目标检测结果及鸟瞰车道线结果,可以按照其在图像中的位置,确定其在现实空间中与载具的实际距离,从而可以按照其实际距离将鸟瞰语义分割结果、鸟瞰目标检测结果及鸟瞰车道线结果等投影至三维场景中。鸟瞰语义分割结果、鸟瞰目标检测结果及鸟瞰车道线结果能够准确的对载具所处空间进行场景重建。
由上述内容可知,本公开中,环视视角图像和鸟瞰视角图像均是基于同样的多张图像融合形成,从二者中所提取出的场景信息存在一一对应的关系。因此环视视角图像对应的第一场景信息和鸟瞰视角图像对应的第二场景信息在投影后,可以得到相同的投影结果,两投影之间不存在冲突。并且在进行场景重建的过程中,环视视角图像有助于识别细节信息,例如标志牌、车辆、行人、交通灯等,鸟瞰视角图像则有助于识别环境的整体信息,尤其是车道线、路面箭头等,因此通过两个视角的投影,能够使得场景重建的结果更为精准。
图8是本公开一示例性实施例提供的环视视角图像融合的流程示意图。如图8所示,在上述图3所示实施例的基础上,步骤S402可包括如下步骤:
S501:构建基准摄相机系统;基准摄相机系统与多摄相机系统之间存在相机的一一对应关系。
对于设置在载具上的多摄相机系统,其中的多个相机可能存在重复视野,各个相机的型号及安装高度等等均可能不同,如果直接将拍摄而得的多张图片并排放在一起,不同相机之间的重合区域不满足视觉一致性的要求,无法构成一张全景图。因此需要对多张图片进行拼接融合,形成环视视角图像。在拼接融合过程中,首先构建基准摄相机系统,基准摄相机系统是一种虚拟的系统,该虚拟的基准摄相机系统是设置在一个柱面上的,之后利用该基准摄相机系统及柱面进行图像拼接,可以保持实际场景中的空间约束关系和实际场景的视觉一致性。
图9是本公开一示例性实施例提供的构建基准摄相机系统的流程示意图。图10是本公开一示例性实施例提供的多摄相机系统与基准摄相机系统之间的对应示意图。如图9及图10所示,在上述图3所示实施例的基础上,步骤S501可包括如下步骤:
S5011:确定多摄相机系统中心位置的一个柱面作为初始基准面。
其中,在多摄相机系统中心位置构建一个圆柱,选择该圆柱上的一个柱面作为初始基准面。该圆柱的半径和高可以由多摄相机系统拍摄的图片的具体参数确定,初始基准面的参数也可以由多摄相机系统中相机的参数以及多摄相机系统拍摄的图片的具体参数确定,本公开对此不做具体限定。
在一些实现方式中,也可以在载具中心位置建立该初始基准面,载具中心可以和多摄相机系统中心重合。
S5012:确定初始基准面上与多摄相机系统中相机等数量的基准相机,各个基准相机之间等距离设置,基准相机与多摄相机系统中的相机存在一一对应关系。
如图10所示,基准相机等距设置在初始基准面上,多摄相机系统包括相机1、相机2、……相机6,基准摄相机系统包括相机1'、相机2'、……相机6',且相机1与相机1'存在对应关系,相机2与相机2'存在对应关系,相机3与相机3'存在对应关系,相机4与相机4'存在对应关系,相机5与相机5'存在对应关系,相机6与相机6'存在对应关系。示例性的,各个基准相机与圆柱圆点之间的连线夹角可以为3°,这样,6个基准相机可以在初始基准面上呈180°分布。各个基准相机在初始基准面的实际分布情况,由多摄相机系统的相机参数等决定。
S502:利用基准摄相机系统,将多张图像融合为环视视角图像。
图11是本公开一示例性实施例提供的环视视角图像融合的流程示意图,如图11所示,在上述图3所示实施例的基础上,步骤S502可包括以下步骤:
S5021:利用多摄相机系统中相机的内参、径向畸变系数以及切向畸变系数,分别将处于世界坐标系中的多张图像,投影到多摄相机系统中相机的相机坐标系中。
其中,相机的内参(intrinsics)是相机的固有参数,根据相机的出厂参数等可以计算得到,内参k是一个3*3的矩阵。径向畸变是由镜头的形状缺陷所造成的畸变,具体的,图像径向畸变是图像像素点以畸变中心为中心点,沿着径向产生的位置偏差,从而导致图像中所成的像发生形变。切向畸变是由于相机制造上的缺陷使得透镜本身与图像平面不平行而产生的。径向畸变和切向畸变均可以由畸变系数以及相机参数等定量描述。
对于世界坐标系下的图像,一般选取图像左上角为坐标系原点(0,0)。
基于相机内参、径向畸变系数和切向畸变系数,每一张图像均从世界坐标系投影到了多摄相机系统的相机坐标系中。
S5022:利用多摄相机系统中相机的外参及基准相机与多摄相机系统中相机的对应关系,分别将处于相机坐标系中的图像移动至基准相机的相机坐标系中。
其中,相机的外参(extrinsics)体现了相机的位姿,因此相机的外参是随着相机的运动而改变的,本公开中,可以实时根据相机的实际位姿确定相机的外参,相机外参是一个3*3旋转矩阵。基于基准相机与多摄相机系统中相机的对应关系,可以确定二者之间的平移向量t,通过多摄相机系统中相机外参以及平移向量t,可以将图像从多摄相机系统相机坐标系下,投影到基准相机系统相机坐标系下,投影的过程是一个平移旋转的过程。
S5023:分别将处于基准相机的相机坐标系中的图像投影至世界坐标系中。
这样,每一张图像均由基准相机的相机坐标系被投影到了世界坐标系中。
S5024:分别将处于世界坐标系中的图像投影至初始基准面中。
这样,多摄相机系统拍摄的图像,经过多次投影后,形成了覆盖在初始基准面上的多张图像。
S5025:确定初始基准面中重叠像素的加权平均数。
由于多摄相机系统拍摄的多张图像之间存在重叠区域,这些重叠区域在初始基准面上表现为像素重叠,因此需要增加一些过滤策略对重叠像素进行筛选。
S5026:利用加权平均数融合重叠像素,得到融合后的基准面。
加权平均的方法可以融合重叠像素,以达到消除不同视角之间重叠区域的目的。
S5027:基于融合后的基准面,确定环视视角图像。
其中,由于融合后的基准面是一个柱面,因此展开融合后的基准面,即可得到环视视角图像。由于该环视视角图像已经是经过融合的一张完整图片,那么不同视角的重叠区域之间已经得到融合,在之后进行基于该环视视角图像进行投影时,不会出现视角重叠对应位置投影结果不同且各个结果难以融合的问题。
图12为本公开实施例提供的鸟瞰视角图像融合的流程示意图,如图12所示,在上述图3所示实施例的基础上,步骤S402还可包括如下步骤:
S601:确定VCS坐标系中的一个平面为逆透视变换平面,VCS坐标系是预先与多摄相机系统中的相机坐标系标定的坐标系。
在相机拍摄的图像中,由于透视效应的存在,本应是平行的事物,例如相互平行的两条车道线,在图像中会显示为非平行的,因此可以利用IPM(Inverse PerspectiveMapping,逆透视变换)变换消除这种透视效应。其中VCS坐标系是基于载具建立的坐标系,例如当载具为车辆时,该VCS坐标系为自车坐标系。由于VCS坐标系和多摄相机系统的相机坐标系之间预先进行了标定,因此逆透视变换平面可以是基于VCS坐标系确定的一个平面,例如逆透视变换平面可以是VCS坐标系中的x-y水平面。
S602:利用逆透视变换平面、VCS坐标系的外参、以及多摄相机系统中相机的内参和外参,计算多摄相机系统中各个相机的单应性矩阵。
其中,每个相机对应一个单应性矩阵。
S603:利用各个相机的单应性矩阵,分别将多张图像投影到VCS坐标系中,得到鸟瞰视角图像。
其中,多张图像是多摄相机系统的相机拍摄的图像,分别利用相机的单应性矩阵,将该相机拍摄的图像投影的VCS坐标系中,即可得到VCS坐标系下俯视视角的鸟瞰图像。具体投影可按照如下公式进行:
Figure BDA0003660279060000151
其中,x1、y1为某个视角图像在世界坐标系下的图像坐标,H为拍摄图像的相机对应的单应性矩阵,x2、y2为VCS坐标系下的图像坐标。
在一些实现方式中,由于多摄相机系统的相机之间存在视角重合的区域,即多张图像之间存在重叠的区域,在将多张图像投影到VCS坐标系中后,还可以对投影后的图像增加一些过滤筛选策略,例如加权平均等。
可见,本公开实施例提供的多视角融合的场景重建方法,可以将多张图像融合为环视视角图像或鸟瞰视角图像,之后分别将环视视角图像和鸟瞰视角图像投影至三维场景中,得到三维场景信息。这样,可以融合多张图像之间重叠的区域,得到准确的三维场景信息。
图13是本公开一示例性实施例提供的感知网络训练方法流程示意图。图14是本公开一示例性实施例提供的感知网络的结构示意图,本实施例可应用在电子设备上,如图13所示,包括以下步骤:
感知网络包括环视感知网络和鸟瞰感知网络,环视感知网络用于对环视图像特征进行语义分割、目标检测和车道线检测,鸟瞰感知网络用于对鸟瞰图像特征进行语义分割、目标检测和车道线检测。方法包括:
S701:确定环视感知网络的第一损失函数及鸟瞰感知网络的第二损失函数。
S702:确定环视感知网络与鸟瞰感知网络之间的一致性约束损失函数。
S703:基于第一损失函数、第二损失函数及一致性约束损失函数,确定感知网络在训练阶段的总损失函数,以监督感知网络的训练过程。
在感知网络训练时,感知网络分别训练环视感知网络和鸟瞰感知网络的语义分割任务,此时感知网络中只有特征抽取器和语义分割模块,即环视感知网络800只包括第一特征抽取器801及语义分割模块803,鸟瞰感知网络900只包括第二特征抽取器901及语义分割模块902。此时可以利用语义分割常用的损失函数L分割分别训练环视感知网络800和鸟瞰感知网络900。当语义分割任务达到预设精度后,增加目标检测和车道线检测任务,此时环视感知网络800包括第一特征抽取器801、语义分割模块803、目标检测模块804及车道线检测模块805,鸟瞰感知网络900包括第二特征抽取器901、语义分割模块902、目标检测模块903及车道线检测模块904。可以利用目标检测常用的损失函数L检测及车道线检测常用的损失函数L车道线分别训练环视感知网络和鸟瞰感知网络。当环视感知网络和鸟瞰感知网络的目标检测任务、车道线检测任务均达到预设精度后,为环视感知网络增加深度估计任务,此时环视感知网络800包括第一特征抽取器801、深度估计模块802、语义分割模块803、目标检测模块804及车道线检测模块805,可以利用深度估计常用的损失函数L深度训练环视感知网络。
在各个模块输出的结果都趋于稳定后,可以为环视感知网络和鸟瞰感知网络构建一致性约束,即在环视感知网络和鸟瞰感知网络输出的结果之间构建损失函数L一致性,L一致性可以由L1、L2损失进行构建。其中,L1和L2是机器学习中的两个常用损失函数。L1损失函数代表最小绝对偏差,也称为LAD,L2损失函数代表最小二乘误差,也称为Ls。L1损失函数用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。L2损失函数用于最小化误差,该误差是真实值和预测值之间所有平方差的总和。
加入一致性约束后,基于环视感知网络与鸟瞰感知网络确定的结果之间可以得到统一。这样,分别对环视视角和鸟瞰视角进行三维场景重建时,环视视角和鸟瞰视角的投影结果之间不会存在矛盾。
环视感知网络最终的损失函数可以如下式:
L环视=L深度+L分割+L检测+L车道线
鸟瞰感知网络最终的损失函数可以如下式:
L鸟瞰=L分割+L检测+L车道线
感知网络最终的损失函数可以如下式:
L=L环视+L鸟瞰+L一致性
可以理解的是,经过训练过程形成的环视感知网络800和鸟瞰感知网络900,可以应用至上述多视角融合的场景重建方法中。训练感知网络的图像数据集可以是预先设置的已知图像。感知网络的训练过程还包括对各个模块定义的过程等。
示例性装置
图15是本公开一示例性实施例提供的一种多视角融合的场景重建装置结构示意图,该装置用于实现前述方法实施例的全部或部分功能。具体的,多视角融合的场景重建装置包括图像获取模块201、图像融合模块202、特征提取模块203、场景预测模块204及场景重建模块205。此外,该装置还可以包括接收模块以及发送模块等,本公开实施例对此不予限制。
具体的,本公开实施例中的图像获取模块201用于获取多张图像,多张图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像。
本公开实施例中的图像融合模块202用于将图像获取模块201获取的多张图像融合为环视视角图像,以及将图像获取模块201获取的多张图像融合为鸟瞰视角图像。
本公开实施例中的特征提取模块203用于基于图像融合模块202融合的环视视角图像和鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征。
本公开实施例中的场景预测模块204用于基于特征提取模块203提取的环视图像特征及鸟瞰图像特征,分别得到环视视角图像对应的第一场景信息及鸟瞰视角图像对应的第二场景信息。
本公开实施例中的场景重建模块205用于基于场景预测模块204预测的第一场景信息及第二场景信息进行三维场景重建。
可选的,在本实施例的另一种实现方式中,第一场景信息包括环视语义分割结果、环视目标检测结果和环视车道线结果,第二场景信息包括鸟瞰语义分割结果、鸟瞰目标检测结果和鸟瞰车道线结果。
图16是本公开一示例性实施例提供的一种多视角融合的场景重建装置的另一种结构示意图。
可选的,在本实施例的另一种实现方式中,如图16所示,该场景预测模块204包括语义分割单元2041、目标检测单元2042和车道线检测单元2043。
语义分割单元2041用于利用感知网络,基于环视图像特征及鸟瞰图像特征进行语义分割,分别得到多个环视语义分割结果和多个鸟瞰语义分割结果。
目标检测单元2042用于利用感知网络,基于环视图像特征及鸟瞰图像特征进行目标检测,分别得到多个环视目标检测结果和多个鸟瞰目标检测结果。目标是预定的对象。
车道线检测单元2043用于利用感知网络,基于环视图像特征及鸟瞰图像特征进行车道线检测,分别得到多个环视车道线结果和多个鸟瞰车道线结果。
可选的,在本实施例的另一种实现方式中,该场景重建模块205包括环视投影单元2051和鸟瞰投影单元5025。
环视投影单元2051用于将环视语义分割结果、环视目标检测结果及环视车道线结果投影至预设的三维场景中。
鸟瞰投影单元5025用于将鸟瞰语义分割结果、鸟瞰目标检测结果及鸟瞰车道线结果投影至三维场景中。
可选的,在本实施例的另一种实现方式中,该图像融合模块202包括构建单元2021和融合单元2022。
构建单元2021用于构建基准摄相机系统。基准摄相机系统与多摄相机系统之间存在相机的一一对应关系。
融合单元2022用于利用基准摄相机系统,将多张图像融合为环视视角图像。
可选的,在本实施例的另一种实现方式中,构建基准摄相机系统包括:
确定多摄相机系统中心位置的一个柱面作为初始基准面。
确定初始基准面上与多摄相机系统中相机等数量的基准相机,各个基准相机之间等距离设置,基准相机与多摄相机系统中的相机存在一一对应关系。
可选的,在本实施例的另一种实现方式中,利用基准摄相机系统,将多张图像融合为环视视角图像,包括:
利用多摄相机系统中相机的内参、径向畸变系数以及切向畸变系数,分别将处于世界坐标系中的多张图像,投影到多摄相机系统中相机的相机坐标系中。
利用多摄相机系统中相机的外参及基准相机与多摄相机系统中相机的对应关系,分别将处于相机坐标系中的图像移动至基准相机的相机坐标系中。
分别将处于基准相机的相机坐标系中的图像投影至世界坐标系中。
分别将处于世界坐标系中的图像投影至初始基准面中。
确定初始基准面中重叠像素的加权平均数。
利用加权平均数融合重叠像素,得到融合后的基准面。
基于融合后的基准面,确定环视视角图像。
可选的,在本实施例的另一种实现方式中,该图像融合模块202还包括平面确定单元2023、计算单元2024和投影单元2025。
平面确定单元2023用于确定VCS坐标系中的一个平面为逆透视变换平面,VCS坐标系是预先与多摄相机系统中的相机坐标系标定的坐标系。
计算单元2024用于利用逆透视变换平面、VCS坐标系的外参、以及多摄相机系统中相机的内参和外参,计算多摄相机系统中各个相机的单应性矩阵。
投影单元2025用于利用各个相机的单应性矩阵,分别将多张图像投影到VCS坐标系中,得到鸟瞰视角图像。
另外,本装置实施例中,如图15所示的各个模块的功能与前述如图3所示的方法实施例对应,比如,图像获取模块201用于执行前述方法步骤S401、图像融合模块202用于执行前述方法步骤S402、特征提取模块203用于执行前述方法步骤S403、场景预测模块204用于执行前述方法步骤S404、场景重建模块205用于执行前述方法步骤S405等。
图17是本公开一示例性实施例提供的一种感知网络训练装置结构示意图,该装置用于实现前述方法实施例的全部或部分功能。具体的,感知网络训练装置包括:第一确定模块301、第二确定模块302和第三确定模块303。
具体的,感知网络包括环视感知网络和鸟瞰感知网络。
本公开实施例中的第一确定模块301用于确定环视感知网络的第一损失函数及鸟瞰感知网络的第二损失函数。
本公开实施例中的第二确定模块302用于确定环视感知网络与鸟瞰感知网络之间的一致性约束损失函数。
本公开实施例中的第三确定模块303用于基于第一确定模块301确定的第一损失函数、第二损失函数及第二确定模块302确定的一致性约束损失函数,确定感知网络在训练阶段的总损失函数,以监督感知网络的训练过程。
另外,本装置实施例中,如图17所示的各个模块的功能与前述如图13所示的方法实施例对应,比如,第一确定模块301用于执行前述方法步骤S701、第二确定模块302用于执行前述方法步骤S702、第三确定模块303用于执行前述方法步骤S704等。
示例性电子设备
下面,参考图18来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图18图示了根据本公开实施例的电子设备的框图。
如图18所示,电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的多视角融合的场景重建方法或感知网络训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置13可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图18中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的多视角融合的场景重建方法或感知网络训练方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的多视角融合的场景重建方法或感知网络训练方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种多视角融合的场景重建方法,包括:
获取多张图像,多张所述图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多张图像;
将多张所述图像融合为环视视角图像,以及将多张所述图像融合为鸟瞰视角图像;
基于所述环视视角图像和所述鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征;
基于所述环视图像特征及所述鸟瞰图像特征,分别得到所述环视视角图像对应的第一场景信息及所述鸟瞰视角图像对应的第二场景信息;
基于所述第一场景信息及所述第二场景信息进行三维场景重建。
2.根据权利要求1所述的多视角融合的场景重建方法,其中,所述第一场景信息包括环视语义分割结果、环视目标检测结果和环视车道线结果,所述第二场景信息包括鸟瞰语义分割结果、鸟瞰目标检测结果和鸟瞰车道线结果。
3.根据权利要求2所述的多视角融合的场景重建方法,其中,所述基于所述环视图像特征及所述鸟瞰图像特征,分别得到所述环视视角图像对应的第一场景信息及所述鸟瞰视角图像对应的第二场景信息,包括:
利用感知网络,基于所述环视图像特征及所述鸟瞰图像特征进行语义分割,分别得到多个所述环视语义分割结果和多个所述鸟瞰语义分割结果;
利用所述感知网络,基于所述环视图像特征及所述鸟瞰图像特征进行目标检测,分别得到多个所述环视目标检测结果和多个所述鸟瞰目标检测结果;所述目标是预定的对象;
利用所述感知网络,基于所述环视图像特征及所述鸟瞰图像特征进行车道线检测,分别得到多个所述环视车道线结果和多个所述鸟瞰车道线结果。
4.根据权利要求2或3所述的多视角融合的场景重建方法,其中,所述基于所述第一场景信息及所述第二场景信息进行三维场景重建,包括:
将所述环视语义分割结果、所述环视目标检测结果及所述环视车道线结果投影至预设的三维场景中;
将所述鸟瞰语义分割结果、所述鸟瞰目标检测结果及所述鸟瞰车道线结果投影至所述三维场景中。
5.根据权利要求1所述的多视角融合的场景重建方法,其中,所述将多张所述图像融合为环视视角图像,包括:
构建基准摄相机系统;所述基准摄相机系统与所述多摄相机系统之间存在相机的一一对应关系;
利用所述基准摄相机系统,将多张所述图像融合为所述环视视角图像。
6.根据权利要求5所述的多视角融合的场景重建方法,其中,所述构建基准摄相机系统包括:
确定所述多摄相机系统中心位置的一个柱面作为初始基准面;
确定所述初始基准面上与所述多摄相机系统中相机等数量的基准相机,各个所述基准相机之间等距离设置,所述基准相机与所述多摄相机系统中的相机存在一一对应关系。
7.根据权利要求6所述的多视角融合的场景重建方法,其中,所述利用所述基准摄相机系统,将多张所述图像融合为所述环视视角图像,包括:
利用所述多摄相机系统中相机的内参、径向畸变系数以及切向畸变系数,分别将处于世界坐标系中的多张所述图像,投影到所述多摄相机系统中相机的相机坐标系中;
利用所述多摄相机系统中所述相机的外参及所述基准相机与所述多摄相机系统中所述相机的对应关系,分别将处于相机坐标系中的图像移动至所述基准相机的相机坐标系中;
分别将处于基准相机的相机坐标系中的图像投影至世界坐标系中;
分别将处于世界坐标系中的图像投影至所述初始基准面中;
确定所述初始基准面中重叠像素的加权平均数;
利用所述加权平均数融合所述重叠像素,得到融合后的基准面;
基于所述融合后的基准面,确定所述环视视角图像。
8.根据权利要求1所述的多视角融合的场景重建方法,其中,所述将多张所述图像融合为鸟瞰视角图像,还包括:
确定VCS坐标系中的一个平面为逆透视变换平面,所述VCS坐标系是预先与所述多摄相机系统中的相机坐标系标定的坐标系;
利用所述逆透视变换平面、所述VCS坐标系的外参、以及所述多摄相机系统中相机的内参和外参,计算所述多摄相机系统中各个相机的单应性矩阵;
利用各个所述相机的所述单应性矩阵,分别将多张所述图像投影到所述VCS坐标系中,得到所述鸟瞰视角图像。
9.一种感知网络训练方法,所述感知网络包括环视感知网络和鸟瞰感知网络,所述环视感知网络用于对环视图像特征进行语义分割、目标检测和车道线检测,所述鸟瞰感知网络用于对鸟瞰图像特征进行语义分割、目标检测和车道线检测;所述方法包括:
确定所述环视感知网络的第一损失函数及所述鸟瞰感知网络的第二损失函数;
确定所述环视感知网络与所述鸟瞰感知网络之间的一致性约束损失函数;
基于所述第一损失函数、所述第二损失函数及所述一致性约束损失函数,确定所述感知网络在训练阶段的总损失函数,以监督所述感知网络的训练过程。
10.一种基于多视角融合的场景重建装置,包括:
图像获取模块,用于获取多张图像,多张所述图像为载具的多摄相机系统在同一时刻针对载具周围环境采集的不同视角的多个图像;
图像融合模块,用于将所述图像获取模块获取的多张所述图像融合为环视视角图像,以及将所述图像获取模块获取的多张所述图像融合为鸟瞰视角图像;
特征提取模块,用于基于所述图像融合模块融合的所述环视视角图像和所述鸟瞰视角图像进行特征提取,分别得到环视图像特征及鸟瞰图像特征;
场景预测模块,用于基于所述特征提取模块提取的所述环视图像特征及所述鸟瞰图像特征,分别得到所述环视视角图像对应的第一场景信息及所述鸟瞰视角图像对应的第二场景信息;
场景重建模块,用于基于所述场景预测模块预测的所述第一场景信息及所述第二场景信息进行三维场景重建。
11.一种感知网络训练装置,所述感知网络包括环视感知网络和鸟瞰感知网络,所述装置包括:
第一确定模块,用于确定所述环视感知网络的第一损失函数及所述鸟瞰感知网络的第二损失函数;
第二确定模块,用于确定所述环视感知网络与所述鸟瞰感知网络之间的一致性约束损失函数;
第三确定模块,用于基于所述第一确定模块确定的所述第一损失函数、所述第二损失函数及所述第二确定模块确定的所述一致性约束损失函数,确定所述感知网络在训练阶段的总损失函数,以监督所述感知网络的训练过程。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的多视角融合的场景重建方法,或者,用于执行上述权利要求9所述的感知网络训练方法。
13.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8任一所述的多视角融合的场景重建方法,或者,执行所述指令以实现上述权利要求9所述的感知网络训练方法。
CN202210575068.7A 2022-05-24 2022-05-24 多视角融合的场景重建方法、感知网络训练方法及装置 Pending CN114913290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210575068.7A CN114913290A (zh) 2022-05-24 2022-05-24 多视角融合的场景重建方法、感知网络训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210575068.7A CN114913290A (zh) 2022-05-24 2022-05-24 多视角融合的场景重建方法、感知网络训练方法及装置

Publications (1)

Publication Number Publication Date
CN114913290A true CN114913290A (zh) 2022-08-16

Family

ID=82768857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210575068.7A Pending CN114913290A (zh) 2022-05-24 2022-05-24 多视角融合的场景重建方法、感知网络训练方法及装置

Country Status (1)

Country Link
CN (1) CN114913290A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223148A (zh) * 2022-09-20 2022-10-21 毫末智行科技有限公司 一种车辆的自动控制方法、装置、车辆、设备及存储介质
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法
CN116612059A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备、存储介质
CN116630219A (zh) * 2023-07-21 2023-08-22 小米汽车科技有限公司 多相机的图像融合方法、装置及车辆

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223148A (zh) * 2022-09-20 2022-10-21 毫末智行科技有限公司 一种车辆的自动控制方法、装置、车辆、设备及存储介质
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法
CN116612059A (zh) * 2023-07-17 2023-08-18 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备、存储介质
CN116612059B (zh) * 2023-07-17 2023-10-13 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备、存储介质
CN116630219A (zh) * 2023-07-21 2023-08-22 小米汽车科技有限公司 多相机的图像融合方法、装置及车辆
CN116630219B (zh) * 2023-07-21 2023-11-14 小米汽车科技有限公司 多相机的图像融合方法、装置及车辆

Similar Documents

Publication Publication Date Title
CN109461211B (zh) 基于视觉点云的语义矢量地图构建方法、装置和电子设备
CN114913290A (zh) 多视角融合的场景重建方法、感知网络训练方法及装置
CN112180373B (zh) 一种多传感器融合的智能泊车系统和方法
CN109544629B (zh) 摄像头位姿确定方法和装置以及电子设备
JP6866440B2 (ja) 物体識別方法、装置、機器、車両及び媒体
CN112444242B (zh) 一种位姿优化方法及装置
US10909395B2 (en) Object detection apparatus
KR102200299B1 (ko) 3d-vr 멀티센서 시스템 기반의 도로 시설물 관리 솔루션을 구현하는 시스템 및 그 방법
WO2023221566A1 (zh) 一种基于多视角融合的3d目标检测方法及装置
CN112116655A (zh) 目标对象的图像的位置信息确定方法和装置
EP3782363B1 (en) Method for dynamic stereoscopic calibration
CN113537047A (zh) 障碍物检测方法、装置、交通工具及存储介质
CN113281780B (zh) 对图像数据进行标注的方法、装置及电子设备
CN114120254A (zh) 道路信息识别方法、装置及存储介质
CN112488022A (zh) 一种环视全景监控方法、装置及系统
CN112241963A (zh) 基于车载视频的车道线识别方法、系统和电子设备
KR102003387B1 (ko) 조감도 이미지를 이용한 교통 장애물의 검출 및 거리 측정 방법, 교통 장애물을 검출하고 거리를 측정하는 프로그램을 저장한 컴퓨터 판독가능 기록매체
CN114863096B (zh) 室内停车场的语义地图构建及定位方法和装置
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
JPH1023311A (ja) 画像情報入力方法及び装置
CN115249345A (zh) 一种基于倾斜摄影三维实景地图的交通拥堵检测方法
CN114998436A (zh) 对象标注方法、装置、电子设备及存储介质
CN113591640A (zh) 一种道路护栏的检测方法、装置及车辆
Tu et al. Extrinsic Parameter Co-calibration of a Monocular Camera and a LiDAR Using Only a Chessboard
Esparza et al. Wide base stereo with fisheye optics: A robust approach for 3d reconstruction in driving assistance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination