CN115049820A - 遮挡区域的确定方法、装置和分割模型的训练方法 - Google Patents

遮挡区域的确定方法、装置和分割模型的训练方法 Download PDF

Info

Publication number
CN115049820A
CN115049820A CN202210512774.7A CN202210512774A CN115049820A CN 115049820 A CN115049820 A CN 115049820A CN 202210512774 A CN202210512774 A CN 202210512774A CN 115049820 A CN115049820 A CN 115049820A
Authority
CN
China
Prior art keywords
semantic segmentation
training
determining
images
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210512774.7A
Other languages
English (en)
Inventor
王梦圆
朱红梅
张骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN202210512774.7A priority Critical patent/CN115049820A/zh
Publication of CN115049820A publication Critical patent/CN115049820A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例公开了一种遮挡区域的确定方法、装置和分割模型的训练方法,其中,方法包括:确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;确定至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;将至少两个第一语义分割特征进行融合,获得融合语义分割特征;基于融合语义分割特征及预先训练获得的遮挡区域分割模型,确定第二类视角下的遮挡区域。本公开实施例可以实现仅利用相机、雷达等,进行中融合,即可实现第二类视角下的遮挡区域的确定,无需进行后处理,有效降低处理时间,从而减小辅助延迟,解决了现有技术后融合方式导致延迟较大等问题。

Description

遮挡区域的确定方法、装置和分割模型的训练方法
技术领域
本公开涉及计算机视觉技术,尤其是一种遮挡区域的确定方法、装置和分割模型的训练方法。
背景技术
在自动驾驶等计算机视觉领域,遮挡区域是指由于物体的遮挡,自车无法感知的区域。在遮挡区域,感知的置信度低,不确定性较大,对自车安全有较大影响,因此,遮挡区域的确定在规划与控制中有着至关重要的作用。相关技术中,通常通过设置在可移动设备上的多个视角的摄像头采集周围多个视角的图像数据,然后基于神经网络模型分别确定各视角的图像数据中的遮挡区域,然后再进行后融合,得到鸟瞰图(BEV)下的遮挡区域。但是,现有这种后融合的方法的后处理过程处理时间较长,从而为辅助驾驶带来较大延迟。
发明内容
为了解决上述后处理过程处理时间较长等技术问题,提出了本公开。本公开的实施例提供了一种遮挡区域的确定方法、装置和分割模型的训练方法。
根据本公开实施例的一个方面,提供了一种遮挡区域的确定方法,包括:确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;确定所述至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征;基于所述融合语义分割特征及预先训练获得的遮挡区域分割模型,确定所述第二类视角下的遮挡区域。
根据本公开实施例的另一个方面,提供了一种遮挡区域分割模型的训练方法,包括:确定第一类视角下的至少一组多视角训练图像数据,每组所述多视角训练图像数据包括至少两个视角分别对应的第一训练图像;确定所述至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征及所述训练融合语义分割特征对应的标签数据,得到至少一个训练融合语义分割特征及对应的标签数据;基于所述至少一个训练融合语义分割特征及对应的标签数据,对预先建立的遮挡区域分割网络进行训练,获得所述遮挡区域分割模型。
根据本公开实施例的再一方面,提供一种遮挡区域的确定装置,包括:第一确定模块,用于确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;第一处理模块,用于确定所述至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;第一融合模块,用于将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征;第二处理模块,用于基于所述融合语义分割特征及预先训练获得的遮挡区域分割模型,确定所述第二类视角下的遮挡区域。
根据本公开实施例的叉一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的遮挡区域的确定方法。
根据本公开实施例的再一方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的遮挡区域分割模型的训练方法。
根据本公开实施例的叉一方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的遮挡区域的确定方法。
根据本公开实施例的再一方面,提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开上述任一实施例所述的遮挡区域分割模型的训练方法。
基于本公开上述实施例提供的遮挡区域的确定方法、装置和分割模型的训练方法,通过中融合方式,基于相机视角、雷达视角等第一类视角对应的图像数据,确定鸟瞰视角的第二类视角的语义分割特征,在特征阶段进行融合,获得鸟瞰视角的融合语义分割特征,基于融合语义分割特征及预先训练获得的遮挡区域分割模型确定出第二类视角下的融合的遮挡区域,从而实现仅利用相机、雷达等,进行中融合,即可实现端到端的遮挡区域确定,无需进行后处理,有效降低处理时间,从而减小辅助延迟,解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开提供的遮挡区域的确定方法的一个示例性的应用场景;
图2是本公开一示例性实施例提供的遮挡区域的确定方法的流程示意图;
图3是本公开一示例性实施例提供的第一语义分割特征的融合示意图;
图4是本公开一个示例性实施例提供的遮挡区域的确定方法的流程示意图;
图5是本公开一示例性实施例提供的步骤202的流程示意图;
图6是本公开一示例性实施例提供的第一语义分割网络模型的训练流程示意图;
图7是本公开一示例性实施例提供的两个第一语义分割特征融合的原理示意图;
图8是本公开一示例性实施例提供的步骤203的流程示意图;
图9是本公开一示例性实施例提供的遮挡区域分割模型的训练流程示意图;
图10是本公开一示例性实施例提供的遮挡区域分割模型的训练方法的流程示意图;
图11是本公开一示例性实施例提供的步骤402的流程示意图;
图12是本公开一示例性实施例提供的第一掩码图像的示意图;
图13是本公开一示例性实施例提供的步骤4024b的流程示意图;
图14是本公开一示例性实施例提供的融合掩码图像的确定过程示意图;
图15是本公开一示例性实施例提供的遮挡区域的确定装置的结构示意图;
图16是本公开一示例性实施例提供的遮挡区域的确定装置的结构示意图;
图17是本公开一示例性实施例提供的第一处理模块502的结构示意图;
图18是本公开一示例性实施例提供的第一融合模块503的结构示意图;
图19是本公开一示例性实施例提供的遮挡区域分割模型的训练装置的结构示意图;
图20是本公开另一示例性实施例提供的第三确定模块602的结构示意图;
图21是本公开电子设备一个应用实施例的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在自动驾驶等计算机视觉领域,在遮挡区域,感知的置信度低,不确定性较大,对自车安全有较大影响,因此,遮挡区域的确定在规划与控制中有着至关重要的作用。相关技术中,通常通过设置在可移动设备上的多个视角的摄像头采集周围多个视角的图像数据,然后基于神经网络模型分别确定各视角的图像数据中的遮挡区域,然后再进行后融合,得到鸟瞰图(BEV)的遮挡区域。但是,现有这种后融合的方法的后处理过程处理时间较长,从而为辅助驾驶带来较大延迟。
示例性概述
图1是本公开提供的遮挡区域的确定方法的一个示例性的应用场景。
在该场景中,可移动设备为车辆,在车辆上设置有前、后、左、右4个视角的摄像头,第一类视角以摄像头视角为例,第二类视角为鸟瞰视角,4个视角的摄像头用于采集车辆前、后、左、右4个视角的图像数据,并传输到用于执行本公开的遮挡区域的确定方法的遮挡区域的确定装置,利用本公开的遮挡区域的确定方法,可以基于各摄像头视角的图像分别确定该视角对应的鸟瞰视角下的语义分割特征,进而将各摄像头视角对应的鸟瞰视角下的语义分割特征进行融合,获得融合语义分割特征,进而基于融合语义分割特征及预先训练获得的遮挡区域分割模型确定鸟瞰视角下的遮挡区域,为车辆行驶的规划控制提供依据。本公开实施例通过特征阶段的中融合实现了端到端的遮挡区域的确定,无需进行后处理,有效降低处理时间,从而减小辅助延迟,提高准确度,解决了现有技术后融合导致延迟较大等问题。
示例性方法
图2是本公开一示例性实施例提供的遮挡区域的确定方法的流程示意图。本实施例可应用在电子设备上,具体比如车载计算平台上,如图2所示,包括如下步骤:
步骤201,确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像。
第一类视角可以为摄像头视角(或称相机视角)、雷达视角等采集可移动设备周围环境信息的传感器视角。对于摄像头视角,每个摄像头对应一个视角,从至少两个摄像头可以确定上述至少两个第一类视角分别对应的第一图像,每个第一图像对应一个第一类视角,对于雷达视角,可以将采集的三维点云数据转换成二维图像数据,得到至少两个第一图像,具体可以根据实际需求设置。
示例性的,在自动驾驶领域,需要4个或6个视角的摄像头,覆盖车辆周围环境图像的采集,在每个时刻可以获得对应视角数量(4个或6个)的第一图像。
步骤202,确定至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征。
其中,第二类视角可以为鸟瞰视角,鸟瞰视角是在天空中飞翔的鸟类的视角,鸟瞰视角下的图像称为鸟瞰图(BEV(Birds EyeViews)图),鸟瞰视角下可以获得可移动设备周围一定范围的全局图像。
在得到至少两个第一图像后,每个第一图像可以获得一个对应的第二类视角下的第一语义分割特征,至少两个第一图像可得到至少两个第二类视角下的第一语义分割特征。具体第一类视角的视角数量可以根据实际需求设置,本公开不做限定。比如自动驾驶车辆的前、后、左、右4个视角,可以获得4个第二类视角下的第一语义分割特征。具体不再赘述。
在一个可选示例中,第一语义分割特征可以基于第一类视角下的特征提取及视角转换获得。比如先在第一类视角下对第一图像进行特征提取,获得第一类视角下的语义分割特征,再基于第一类视角与第二类视角的坐标转换关系将第一类视角下的语义分割特征转换到第二类视角下,比如基于逆透视变换(IPM)实现视角转换,具体不做限定。
步骤203,将至少两个第一语义分割特征进行融合,获得融合语义分割特征。
其中,鸟瞰视角下的第一语义分割特征的特征图是包括了可移动设备周围一定范围的全局特征图,也即第一语义分割特征包括了全局范围的像素,对于每个第一类视角来说,其对应的第一语义分割特征中只有该第一类视角在第二类视角中的对应像素区域具有有效的特征值,其他像素区域特征值为0。将至少两个第一语义分割特征融合后,获得的融合语义分割特征的各像素区域均具有有效特征值。
示例性的,图3是本公开一示例性实施例提供的第一语义分割特征的融合示意图,对于设置有前、后、左、右4个视角的摄像头的车辆来说,每个视角的摄像头图像对应的鸟瞰视角下的第一语义分割特征实质上包括前、后、左、右视角分别对应的区域,以前视视角为例,其对应的第一语义分割特征中灰色的前视区域像素特征值从前视摄像头图像提取并转换获得,对于其他区域,由于前视摄像头图像中没有相关信息,因此特征值为0或其他表示,具体可以根据实际需求设置。各视角的第一语义分割特征融合后,获得的融合语义分割特征融合了各视角的第一语义分割特征,形成了车辆一定范围内的全局语义分割特征。这里仅以一简单示例说明第一语义分割特征与融合语义分割特征的关系,并不对其进行限定。
在实际应用中,不同视角之间可能存在重叠区域,不同视角在第一语义分割特征中对应的区域形状、大小可以相同也可以不同,融合方式也可以是其他方式,融合语义分割特征的表示方式也可以是其他方式,比如可以是将各第一语义分割特征通过concat(拼接)方式融合,本公开不做限定。
步骤204,基于融合语义分割特征及预先训练获得的遮挡区域分割模型,确定第二类视角下的遮挡区域。
其中,遮挡区域分割模型可以采用任意可实施的语义分割模型,比如基于FCN(Fully Convolutional Networks,全卷积网络)的语义分割模型及其系列、基于UNet的语义分割模型及其系列、基于DeepLab的语义分割模型及其系列,等等。遮挡区域分割模型的输入为融合语义分割特征,在训练过程中,其输入也为鸟瞰视角下的训练融合语义分割特征。遮挡区域分割模型的输出可以为融合语义分割特征各像素属于遮挡区域的概率,可以称为融合语义分割特征对应的概率图,进而基于该概率图确定第二类视角下的遮挡区域。
本实施例提供的遮挡区域的确定方法,通过中融合方式,基于相机视角、雷达视角等第一类视角对应的图像,确定鸟瞰视角的第二类视角的语义分割特征,在特征阶段进行融合,获得鸟瞰视角的融合语义分割特征,基于融合语义分割特征及预先训练获得的遮挡区域分割模型确定出第二类视角下的融合的遮挡区域,从而实现仅利用相机、雷达等,进行中融合,即可实现端到端的遮挡区域确定,无需进行后处理,有效降低处理时间,从而减小辅助延迟,解决了现有技术后融合导致延迟较大等问题。
图4是本公开一个示例性实施例提供的遮挡区域的确定方法的流程示意图。
在一个可选示例中,步骤202具体可以包括以下步骤:
步骤2021,分别对至少两个第一图像进行特征提取,确定至少两个第一图像分别对应的第一类视角下的第二语义分割特征,得到至少两个第二语义分割特征。
其中,对第一图像进行特征提取可以采用任意可实施的方式,比如可以基于训练好的特征提取网络模型进行特征提取,还可以基于训练好的第一语义分割网络模型中的特征提取网络部分进行特征提取,具体可以根据实际需求设置。每个第一图像得到一个对应的第二语义分割特征。
步骤2022,将至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下,得到至少两个第一语义分割特征。
其中,第二类视角对应的坐标系可以为可移动设备的自坐标系(比如车辆坐标系),也可以为世界坐标系,还可以是地图坐标系,具体可以根据实际需求设置,本公开不做限定。第一类视角以摄像头视角为例,第二类视角以车辆坐标系为例,摄像头视角对应的坐标系为图像坐标系,图像坐标系与车辆坐标系的转换关系可以基于摄像头的内参和外参、及预先获得的图像坐标系的预设点坐标确定。比如可以基于摄像头的内参和外参、及预先获得的图像坐标系的预设点坐标确定该摄像头视角对应的单应性变换矩阵,基于单应性变换矩阵实现第二语义分割特征到第二类视角的转换。还可以通过其他转换方式进行转换,本实施例不做限定。每个第二语义分割特征可以得到一个对应的第一语义分割特征。
本公开通过第一类视角下的特征提取结合视角转换,获得第一类视角下的第一图像数据对应的第二类视角下的第一语义分割特征,实现了特征阶段的视角转换,便于后续第二类视角下的特征融合,从而实现中融合。
图5是本公开一示例性实施例提供的步骤202的流程示意图。
在一个可选示例中,步骤2022的将至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下,得到至少两个第一语义分割特征,包括:
步骤20221,基于至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数,确定至少两个第一类视角分别对应的单应性变换矩阵,得到至少两个单应性变换矩阵。
其中,预设点坐标可以包括4个点坐标,以一个摄像头为例,具体为该摄像头的图像坐标系中地面的4个点的坐标,表示为Iimg,相机参数即摄像头参数,可以包括内参和外参。每个第一类视角确定出一个对应的单应性变换矩阵。具体来说,在车辆标定出厂后,车辆上部署的摄像头的内参k)是固定的,可以通过一系列标定,确定各摄像头的外参p,当第二类视角对应的坐标系为车辆坐标系时,可以确定摄像头到车辆坐标系原点(通常为车辆后轴中心)的外参p。基于摄像头内参k和外参p,可以得到上述4个点坐标对应的鸟瞰视角的坐标IBEV,表示如下:
IBEV=kpIimg
基于图像坐标系和鸟瞰视角的车辆坐标系的4个点对,可以得到该摄像头对应的单应性变换矩阵,比如可以通过相应的IPM变换函数getPerspectiveTransform实现,表示如下:
H=getPerspectiveTransform(Iimg,IBEV)
具体IPM变换原理不再赘述。
步骤20222,基于至少两个单应性变换矩阵,分别将至少两个第二语义分割特征转换到第二类视角对应的坐标系下,得到至少两个第一语义分割特征。
在确定了各第一类视角分别对应的单应性变换矩阵后,即可基于各单应性变换矩阵将对应视角的第二语义分割特征转换到第二类视角对应的坐标系下,得到对应的第一语义分割特征。
示例性的,通过上述单应性变换矩阵H,将第二语义分割特征Fimg,转换到鸟瞰视角,得到第一语义分割特征FBEV,表示如下:
FBEV=HFimg
具体转换原理不再赘述。
在一个可选示例中,步骤2021的分别对至少两个第一图像进行特征提取,确定至少两个第一图像分别对应的第一类视角下的第二语义分割特征,得到至少两个第二语义分割特征,包括:
步骤20211,基于预先训练获得的第一语义分割网络模型对至少两个第一图像进行特征提取,获得至少两个第二语义分割特征。
其中,第一语义分割网络模型可以采用任意可实施的网络结构,比如基于FCN(Fully Convolutional Networks,全卷积网络)的语义分割网络模型及其系列、基于UNet的语义分割网络模型及其系列、基于DeepLab的语义分割网络模型及其系列,等等。第一语义分割网络模型的训练采用分割类型标签数据进行监督,在用于特征提取时,可以将第一语义分割网络模型中最后的归一化层(比如sofimax层)之前输出的特征图作为提取的第二语义分割特征。
在一个可选示例中,在一个可选示例中,图6是本公开一示例性实施例提供的第一语义分割网络模型的训练流程示意图。在本示例中,第一语义分割网络模型通过以下方式获得:
步骤3011,确定第一训练数据,第一训练数据包括第一类视角下的训练图像据及对应的第一标签数据;
其中,第一类视角下的训练图像数据可以包括多个视角的训练图像,第一标签数据包括各训练图像中各像素所属的第一预设语义分割类型标签,第一预设语义分割类型可以根据实际需求设置,比如可以包括地面、路沿、车道线、人行道、停止线、箭头、车辆及其他可能的类型等中的至少一种。第一预设语义分割类型标签可以采用任意可实施的表示方式,比如用0、1、2、3等编号表示,也可以用其他方式表示,对于只有一种分割类型的情况,每个像素对应的分割类型可以用0、1表示,0表示不属于该类型,1表示属于该类型,具体不做限定。
步骤3012,基于第一训练图像数据和第一标签数据,对预先建立的第一语义分割网络进行训练,获得第一语义分割网络模型。
其中,训练过程中,可以采用任意可实施的损失函数,比如交叉熵损失函数、聚焦损失函数(focalloss),等等。第一标签数据可以采用任意可实施的方式获得。具体来说,将第一训练图像中的各训练图像作为第一语义分割网络的输入,获得对应的第一输出数据,基于第一输出数据、对应的第一标签数据及第一损失函数,确定当前损失,基于当前损失调整网络参数,进入下一迭代流程,以此类推,直至当前损失收敛,获得第一语义分割网络模型。具体训练原理不再赘述。
在一个可选示例中,步骤203的将至少两个第一语义分割特征进行融合,获得融合语义分割特征,包括:
步骤2031a,基于至少两个第一语义分割特征中相同像素位置的特征值,确定融合语义分割特征。
其中,各第一语义分割特征是相同尺寸的特征图,比如均为512*512*1的特征图,每个第一类视角对应的第一语义分割特征包含该第一类视角对应区域的特征值,其他区域特征值为0,因此,可以基于各视角分别对应的第一语义分割特征中相同像素位置的特征值来确定融合语义分割特征。具体确定规则可以根据实际需求设置,比如,对于每个像素位置来说,多个视角的特征值可以直接相加作为融合特征值。再比如还可以考虑重叠区域,通过求均值确定该像素位置的融合特征值,具体不做限定。
在一个可选示例中,可以将多个视角分别对应的第一语义分割特征中相同像素位置的特征值相加,实现不同第一类视角区域的特征值融合到了一个特征图上,形成了包含多视角信息的全局语义分割特征。参见上述图3,每个视角区域包括多个像素,在各视角的第一语义分割特征中,相应视角区域的各像素具有对应的特征值,其他区域像素的特征值为0,在融合获得的融合语义分割特征中,各像素均具有对应的特征值,融合了各视角区域的特征值,形成了第二类视角下的全局语义分割特征图。具体不再赘述。图7是本公开一示例性实施例提供的两个第一语义分割特征融合的原理示意图。在本示例中,两个视角的第一语义分割特征中相同像素位置的特征值相加,作为该像素位置的融合特征值,获得融合语义分割特征。
需要说明的是,在实际应用中各第一类视角之间可能存在重叠区域,转换到第二类视角后,表现为各第一语义分割特征之间可能存在重叠的像素,即在同一像素位置,两个第一语义分割特征中特征值均不为0,在该示例中,对于重叠区域的特征值同样可以采用直接相加方式,由于第一语义分割特征和融合语义分割特征是从第一类视角的图像数据到第二类视角的语义分割结果的端到端处理过程的中间的特征图,在基于第二语义分割网络模型进行语义分割时,融合语义分割特征还会经过多层网络的处理,且在模型训练过程同样采用相同的方式进行特征融合,从而学习了因此可能带来的误差,保证模型精度,因此,特征值直接相加不会影响第二类视角下的语义分割结果。
在一个可选示例中,图8是本公开一示例性实施例提供的步骤203的流程示意图。在本示例中,步骤203包括:
步骤2031b,确定至少两个第一语义分割特征的相同像素位置的特征值中符合预设条件的特征值。
其中,预设条件可以根据实际需求设置,比如可以根据是否重叠区域进行设置,对于重叠区域,多个第一语义分割特征的相同像素位置的特征值中有至少两个非0特征值,比如相邻两视角的重叠区域,在重叠区域的像素位置,由于两个视角均有采集到图像,因此转换到第二类视角对应像素位置,两个视角均具有相应的有效特征值,那么在该像素位置有两个非0特征值。
步骤2032b,基于符合预设条件的像素位置的特征值,确定该像素位置的融合特征值。
其中,像素位置的融合特征值是指该像素位置的多个视角的第一语义分割特征的特征值融合后的特征值。对于符合预设条件的像素位置的特征值,可以设置对应的融合方式,基于该融合方式来确定该像素位置的融合特征值。具体融合方式可以根据实际需求设置,比如求均值作为融合特征值、取其中一个特征值作为融合特征值,等等。具体可以根据实际需求设置。对于不符合预设条件的像素位置的特征值,可以通过直接相加作为融合特征值。
步骤2033b,基于各像素位置的融合特征值,获得融合语义分割特征。
具体的,确定了每个像素位置的融合特征值后,所有像素位置的融合特征值即构成融合语义分割特征。
在一个可选示例中,本公开的步骤2032b的基于符合预设条件的像素位置的特征值,确定该像素位置的融合特征值,包括:响应于至少两个第一语义分割特征的相同像素位置的特征值中,有至少两个非0特征值,将该像素位置的特征值按非0特征值数量求均值,作为该像素位置的融合特征值。
其中,为了进一步确保融合特征值的准确性,对于重叠区域的像素,由于存在至少两个第一语义分割特征在该像素位置具有非0特征值,可以将该至少两个非0特征值求均值,作为该像素位置的融合特征值,提高融合语义分割特征的准确性。
在一个可选示例中,图9是本公开一示例性实施例提供的遮挡区域分割模型的训练流程示意图。在本示例中,遮挡区域分割模型通过以下方式获得:
步骤3021,确定第二训练数据,第二训练数据包括第二类视角下的训练语义分割特征数据及对应的第二标签数据。
其中,第二类视角下的训练语义分割特征数据是多视角融合后的训练融合语义分割特征数据。第二标签数据包括训练语义分割特征数据中各像素所属的第二预设语义分割类型,第二预设语义分割类型包括遮挡区域和非遮挡区域。
步骤3022,基于训练语义分割特征数据和第二标签数据,对预先建立的遮挡区域分割网络进行训练,获得遮挡区域分割模型。
其中,训练语义分割特征数据作为遮挡区域分割网络的输入,第二标签数据作为监督,通过损失调整网络参数,直至损失收敛获得遮挡区域分割模型。具体训练过程不再赘述。训练过程中的损失函数可以采用任意可实施的损失函数,比如交叉熵损失函数、聚焦损失函数(focal loss),等等。
本公开实施例通过特征阶段的中融合实现了端到端的确定鸟瞰视角下的遮挡区域,无需进行后处理,有效降低处理时间,从而减小辅助延迟,解决了现有技术需要传输到后处理模块进行后处理导致延迟较大等问题。并且现有技术的后融合方式在两视角重叠的部分,不同视角的语义分割结果可能不同,导致确定的遮挡区域准确度低,相对于现有技术,本公开的中融合方式有效解决了现有技术这一问题,基于融合的特征直接实现全局的语义分割,避免不同视角重叠区域分割结果不同的情况发生,有效提高遮挡区域的准确度。
本公开实施例提供的任一种遮挡区域的确定方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种遮挡区域的确定方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种遮挡区域的确定方法。下文不再赘述。
本公开另一示例性实施例提供一种遮挡区域分割模型的训练方法,用于遮挡区域分割模型的训练。图10是本公开一示例性实施例提供的遮挡区域分割模型的训练方法的流程示意图。本实施例可以应用在电子设备上,具体比如服务器、终端设备等。如图10所示,本实施例的训练方法包括如下步骤:
步骤401,确定第一类视角下的至少一组多视角训练图像数据,每组多视角训练图像数据包括至少两个视角分别对应的第一训练图像。
其中,第一类视角参见前述实施例。一组多视角训练图像数据是指同一时刻采集的至少两个视角的图像数据。比如在采集车辆上设置前、后、左、右4个视角的摄像头,采集车辆在某一位置同时触发4个摄像头采集一组图像,即获得一组多视角训练图像数据。该组多视角训练图像数据包括4个摄像头视角分别对应的图像,作为第一训练图像。多视角训练图像数据可以采用任意可实施的方式获得,具体不做限定。
步骤402,确定至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征及训练融合语义分割特征对应的标签数据,得到至少一个训练融合语义分割特征及对应的标签数据。
其中,第二类视角参见前述实施例。训练融合语义分割特征的确定可以采用任意可实施的方式,比如与前述融合语义分割特征的原理类似,在此不再赘述。训练融合语义分割特征对应的标签数据包括训练融合语义分割特征中每个像素所属分割类型,分割类型包括遮挡区域类型和非遮挡区域类型。比如标签0表示遮挡区域,标签1表示非遮挡区域。标签数据可以采用任意可实施的方式获得。
步骤403,基于至少一个训练融合语义分割特征及对应的标签数据,对预先建立的遮挡区域分割网络进行训练,获得遮挡区域分割模型。
其中,训练融合语义分割特征作为遮挡区域分割网络的输入,对应的标签数据作为监督,通过损失调整网络参数,直至损失收敛获得遮挡区域分割模型。具体训练过程不再赘述。训练过程中的损失函数可以采用任意可实施的损失函数,比如交叉熵损失函数、聚焦损失函数(focal loss),等等。
本公开实施例提供的遮挡区域分割模型的训练方法,通过中融合的方式,在特征阶段确定第二类视角下的训练融合语义分割特征,进而基于训练融合语义分割特征及对应的标签数据训练获得第二类视角下的遮挡区域分割模型,从而可以实现基于中融合方式确定第二类视角下的遮挡区域,无需进行后处理,有效降低处理时间,从而减小辅助延迟,解决了现有技术后融合导致延迟较大等问题。
图11是本公开一示例性实施例提供的步骤402的流程示意图。
在一个可选示例中,步骤402的确定至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征,得到至少一个训练融合语义分割特征,包括:
步骤4021a,确定至少一组多视角训练图像数据中的目标组,确定目标组中的至少两个视角分别对应的第一训练图像,得到至少两个第一训练图像。
其中,目标组可以是至少一组多视角训练图像数据中的任意组,比如可以分别将至少一组多视角训练图像数据中的每一组作为目标组,对目标组执行后续的流程。由于每组多视角训练图像数据中包括至少两个视角分别对应的第一训练图像,因此在确定了目标组后即可获得该目标组中的至少两个第一训练图像。
步骤4022a,确定至少两个第一训练图像分别对应的第一类视角下的第一训练语义分割特征,得到至少两个第一训练语义分割特征。
其中,第一训练语义分割特征的确定可以采用任意可实施的特征提取方式,具体参见前述实施例第一类视角下的特征提取,在此不再赘述。
步骤4023a,将至少两个第一训练语义分割特征分别转换到第二类视角对应的坐标系下,得到至少两个第二训练语义分割特征。
其中,从第一类视角的第一训练语义分割特征到第二类视角的第二训练语义分割特征的具体视角转换原理参见前述实施例,在此不再赘述。
步骤4024a,将至少两个第二训练语义分割特征进行融合,得到目标组对应的训练融合语义分割特征。
其中,训练融合语义分割特征的确定原理参见前述实施例的融合语义分割特征,在此不再赘述。
步骤4025a,基于目标组对应的训练融合语义分割特征,获得至少一个训练融合语义分割特征。
其中,每个目标组可以获得一个训练融合语义分割特征,多组多视角训练图像数据可以获得对应数量的训练融合语义分割特征。
在一个可选示例中,步骤402的确定至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征所对应的标签数据,得到至少一个训练融合语义分割特征对应的标签数据,包括:
步骤4021b,基于预先训练获得的第二语义分割网络模型,确定目标组中的至少两个第一训练图像分别对应的语义分割结果,得到至少两个语义分割结果。
其中,第二语义分割网络模型与前述实施例的第一语义分割网络模型类似,具体训练过程不再赘述,第二语义分割网络模型可以与第一语义分割网络模型的网络结构相同或不同,或者第二语义分割网络模型可以为前述的第一语义分割网络模型,具体可以根据实际需求设置,在此不再赘述。每个语义分割结果可以包括每个像素所属的分割类型,分割类型可以包括地面、人行道、车道线、箭头、停止线、路沿、车辆及其他可能的类型,具体可以根据实际需求设置。
步骤4022b,确定至少两个语义分割结果分别对应的第一掩码图像,得到至少两个第一掩码图像,第一掩码图像中各像素的像素值为该像素所属类型的类型值,类型包括地面区域和非地面区域。
其中,第一掩码图像是像素的特征值只有0和1两种值的特征图。比如,1表示地面区域,0表示非地面区域。地面区域是指不存在障碍物的区域,比如上述分割类型中的地面、人行道、车道线、箭头、停止线等与地面在同一高度的分割类型对应的区域都可以归为地面区域,其他如路沿、车辆及其他高于地面的分割类型对应的区域归为非地面区域,依此可以根据至少两个语义分割结果中各像素的分割类型,及分割类型与区域类型(地面区域和非地面区域)的映射关系,确定第一掩码图像。比如像素属于地面类型,地面类型的表示值为2,语义分割结果中该像素的特征值为2,映射到第一掩码图像,该像素的特征值为1,即将地面分割类型映射到地面区域的区域类型。具体原理不再一一赘述。
示例性,图12是本公开一示例性实施例提供的第一掩码图像的示意图。本示例中第一掩码图像为4*4的掩码特征图。其中,1表示地面区域,0表示非地面区域。这里仅为一示例性说明,实际第一掩码图像的大小与其对应的第一训练图像大小相同,在此不再赘述。
步骤4023b,将至少两个第一掩码图像分别转换到第二类视角对应的坐标系下,得到至少两个第二掩码图像。
其中,第一掩码图像也是第一类视角下的一种特征图,其转换到第二类视角下的原理与前述视角转换原理相同或相似,在此不再赘述。获得的第二类视角下的第二掩码图像同前述第一语义分割特征类似,是可移动设备周围一定范围的全局特征图。其各像素的特征值,在其视角区域中为有效值,其他区域为0或者其他表示方式,具体可以根据实际需求设置。
步骤4024b,将至少两个第二掩码图像进行融合,获得融合掩码图像。
其中,融合掩码图像是第二类视角下的融合特征图,其各像素的特征值同样只有0和1,比如,1表示地面区域,0表示非地面区域。地面区域相当于是非遮挡区域,非地面区域相当于是遮挡区域,也即1表示非遮挡区域,0表示遮挡区域。第二掩码图像的融合方式可以根据实际需求设置,其中,对于不同视角之间具有重叠区域的情况,需要设置相应的规则,确定出重叠区域像素位置的融合掩码是0还是1,具体规则可以根据实际需求设置。比如,一组有4个第一训练图像,可获得4个第二掩码图像,某像素位置,该4个第二掩码图像中有两个特征值都是1,其他两个特征值为0,则融合后,该像素位置处若存在重叠区域,对于重叠区域,若重叠的各特征值都为1确定该像素位置的融合掩码为1,若重叠的各特征值有1个为0则确定该像素位置的融合掩码为0,以确保非遮挡区域的可靠性,从而提高可移动设备的行驶安全性。是实际应用中也可以1表示遮挡区域,0表示非遮挡区域,相应地在融合时需要设置与该表示方式对应的融合规则,具体不做限定。
步骤4025b,将融合掩码图像作为目标组所对应的训练融合语义分割特征的标签数据。
其中,融合掩码图像包括了训练融合语义分割特征的各像素属于遮挡区域或非遮挡区域的标签,因此,可以将融合掩码图像作为该训练融合语义分割特征的标签数据。
本公开实现了标签数据的自动化确定,可大大减少人工标注工作量,有效提高标注效率,进而提高遮挡区域分割模型的训练效率。
在一个可选示例中,图13是本公开一示例性实施例提供的步骤4024b的流程示意图。在本示例中,步骤4024b的将至少两个第二掩码图像进行融合,获得融合掩码图像,包括:
步骤4024b1,确定至少两个第二掩码图像中各像素位置分别对应的重叠次数。
其中,重叠次数是指一个像素位置在多个视角中信息重复次数,比如只有一个第一类视角覆盖该像素位置对应的区域,则表示重叠次数为0,有两个第一类视角覆盖,则重叠次数为1,以此类推。
步骤4024b2,基于至少两个第二掩码图像中相同像素位置的特征值,获得中间图像。
其中,中间图像中各像素位置的特征值可能是0、1、2、…,比如通过将至少两个第二掩码图像中相同像素位置的特征值相加,获得中间图像。当某像素位置是两个第二掩码图像的重叠区域时,若该两个第二掩码图像在该像素位置的特征值均为1,则相加后的特征值为2。
示例性的,图14是本公开一示例性实施例提供的融合掩码图像的确定过程示意图。其中,第二掩码图像中,灰色区域表示该第二掩码图像的对应第一类视角的区域,1表示非遮挡区域,0表示遮挡区域。两个第二掩码图像中有一行像素重叠,获得的中间图像中该重叠区域的像素位置的特征值为该像素位置的两特征值相加,比如中间图像中的中间像素位置的特征值2。
步骤4024b3,基于中间图像及各像素位置分别对应的重叠次数,确定融合掩码图像。
以上述图14的中间图像中中间像素位置的特征值2为例,重叠次数为1,中间图像特征值为2,表示该像素位置重叠的两个第二掩码图像中特征值都是1,可以确定融合掩码为1。再比如中间图像第一列第三行的像素位置特征值为1,该像素位置重叠次数也为1,表示两个第二掩码图像中有一个特征值是1一个是0,在确定该像素位置的融合掩码为0。
在一个可选示例中,步骤4024b3的基于中间图像及各像素位置分别对应的重叠次数,确定融合掩码图像,包括:将中间图像中大于对应重叠次数的特征值确定为1,将小于或等于重叠次数的特征值确定为0,获得融合掩码图像。
具体的,结合图14,当中间图像中某像素位置的特征值大于重叠次数时,表示重叠的各第二掩码图像中该像素位置的掩码值都是1,也即在重叠的各视角下确定的该像素位置的像素均为非遮挡区域,则可以确定该像素位置的像素属于非遮挡区域,因此,可以确定融合掩码为1。当中间图像中某像素的特征值小于或等于重叠次数时,则表示在重叠的各第二掩码图像中有至少一个掩码值是0,也即有一个视角确定的该像素的类型为遮挡区域,为了保证可移动设备行驶安全性,该像素位置的融合掩码确定为0。在确定了各像素位置的融合掩码后,各像素位置的融合掩码可构成融合掩码图像。
本公开在确定标签数据的过程中,对于重叠区域的像素类型标签,当重叠的各视角语义分割结果都是非遮挡区域时,才确定为非遮挡区域标签,以保证遮挡区域分割模型对遮挡区域预测结果的可靠性,从而保证可移动设备行驶的安全性。
本公开实施例提供的任一种遮挡区域分割模型的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种遮挡区域分割模型的训练方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种遮挡区域分割模型的训练方法。下文不再赘述。
示例性装置
图15是本公开一示例性实施例提供的遮挡区域的确定装置的结构示意图。该实施例的装置可用于实现本公开相应的遮挡区域的确定方法实施例,如图15所示的装置包括:第一确定模块501、第一处理模块502、第一融合模块503和第二处理模块504。
第一确定模块501,用于确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;第一处理模块502,用于确定第一确定模块501得到的至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;第一融合模块503,用于将第一处理模块502得到的至少两个第一语义分割特征进行融合,获得融合语义分割特征;第二处理模块504,用于基于第一融合模块503获得的融合语义分割特征及预先训练获得的遮挡区域分割模型,确定第二类视角下的遮挡区域。
图16是本公开一示例性实施例提供的遮挡区域的确定装置的结构示意图。
在一个可选示例中,第一处理模块502包括:第一特征提取单元5021和第一视角转换单元5022。
第一特征提取单元5021,用于分别对至少两个第一图像进行特征提取,确定至少两个第一图像分别对应的第一类视角下的第二语义分割特征,得到至少两个第二语义分割特征;第一视角转换单元5022,用于将特征提取单元5021得到的至少两个第二语义分割特征分别转换到第二类视角对应的坐标系下,得到至少两个第一语义分割特征。
图17是本公开一示例性实施例提供的第一处理模块502的结构示意图。
在一个可选示例中,第一视角转换单元5022包括:第一确定子单元50221和第一转换子单元50222。
第一确定子单元50221,用于基于至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数,确定至少两个第一类视角分别对应的单应性变换矩阵,得到至少两个单应性变换矩阵;第一转换子单元50222,用于基于至少两个单应性变换矩阵,分别将至少两个第二语义分割特征转换到第二类视角对应的坐标系下,得到至少两个第一语义分割特征。
在一个可选示例中,第一特征提取单元5021包括:第一提取子单元50211,用于基于预先训练获得的第一语义分割网络模型对至少两个第一图像进行特征提取,获得至少两个第二语义分割特征。
在一个可选示例中,第一融合模块503包括:第一融合单元5031a,用于基于至少两个第一语义分割特征中相同像素位置的特征值,确定融合语义分割特征。
图18是本公开一示例性实施例提供的第一融合模块503的结构示意图。
在一个可选示例中,第一融合模块503包括:第一确定单元5031b、第二确定单元5032b和第一处理单元5033b。
第一确定单元5031b,用于确定至少两个第一语义分割特征的相同像素位置的特征值中符合预设条件的特征值;第二确定单元5032b,用于基于符合预设条件的像素位置的特征值,确定该像素位置的融合特征值;第一处理单元5033b,基于各像素位置的融合特征值,获得融合语义分割特征。
在一个可选示例中,第二确定单元5032b,具体用于:响应于至少两个第一语义分割特征的相同像素位置的特征值中,有至少两个非0特征值,将该像素位置的特征值按非0特征值数量求均值,作为该像素位置的融合特征值。
本公开叉一示例性实施例还可以提供一种遮挡区域分割模型的训练装置。图19是本公开一示例性实施例提供的遮挡区域分割模型的训练装置的结构示意图。该实施例的遮挡区域分割模型的训练装置可用于实现本公开相应的遮挡区域分割模型的训练方法实施例,如图19所示的训练装置包括:第二确定模块601、第三确定模块602和第三处理模块603。
第二确定模块601,用于确定第一类视角下的至少一组多视角训练图像数据,每组多视角训练图像数据包括至少两个视角分别对应的第一训练图像;第三确定模块602,用于确定至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征及训练融合语义分割特征对应的标签数据,得到至少一个训练融合语义分割特征及对应的标签数据;第三处理模块603,基于至少一个训练融合语义分割特征及对应的标签数据,对预先建立的遮挡区域分割网络进行训练,获得遮挡区域分割模型。
图20是本公开另一示例性实施例提供的第三确定模块602的结构示意图。
在一个可选示例中,第三确定模块602包括:第三确定单元6021、第四确定单元6022、第二视角转换单元6023、第二融合单元6024和第二处理单元6025。
第三确定单元6021,用于确定至少一组多视角训练图像数据中的目标组,确定目标组中的至少两个视角分别对应的第一训练图像,得到至少两个第一训练图像;第四确定单元6022,用于确定至少两个第一训练图像分别对应的第一类视角下的第一训练语义分割特征,得到至少两个第一训练语义分割特征;第二视角转换单元6023,将至少两个第一训练语义分割特征分别转换到第二类视角对应的坐标系下,得到至少两个第二训练语义分割特征;第二融合单元6024,用于将至少两个第二训练语义分割特征进行融合,得到目标组对应的训练融合语义分割特征;第二处理单元6025,用于基于目标组对应的训练融合语义分割特征,获得至少一个训练融合语义分割特征。
在一个可选示例中,第三确定模块602还包括:第五确定单元6026、第六确定单元6027、第三视角转换单元6028、第三融合单元6029和第三处理单元60210。
第五确定单元6026,用于基于预先训练获得的第二语义分割网络模型,确定目标组中的至少两个第一训练图像分别对应的语义分割结果,得到至少两个语义分割结果;第六确定单元6027,用于确定至少两个语义分割结果分别对应的第一掩码图像,得到至少两个第一掩码图像,第一掩码图像中各像素的像素值为该像素所属类型的类型值,类型包括地面区域和非地面区域;第三视角转换单元6028,用于将至少两个第一掩码图像分别转换到第二类视角对应的坐标系下,得到至少两个第二掩码图像;第三融合单元6029,用于将至少两个第二掩码图像进行融合,获得融合掩码图像;第三处理单元60210,用于将融合掩码图像作为目标组所对应的训练融合语义分割特征的标签数据。
在一个可选示例中,第三融合单元6029具体用于:确定至少两个第二掩码图像中各像素位置分别对应的重叠次数;基于至少两个第二掩码图像中相同像素位置的特征值,获得中间图像;基于中间图像及各像素位置分别对应的重叠次数,确定融合掩码图像。
在一个可选示例中,第三融合单元6029具体用于:将中间图像中大于对应重叠次数的特征值确定为1,将小于或等于重叠次数的特征值确定为0,获得融合掩码图像。
示例性电子设备
本公开实施例还提供了一种电子设备,包括:存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的遮挡区域的确定方法。
本公开实施例还提供一种电子设备,包括:存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现本公开上述任一实施例所述的遮挡区域分割模型的训练方法。
图21是本公开电子设备一个应用实施例的结构示意图。本实施例中,该电子设备10包括一个或多个处理器11和存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,该输入装置13可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。
此外,该输入装置13还可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图21中仅示出了该电子设备10中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种遮挡区域的确定方法,包括:
确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;
确定所述至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;
将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征;
基于所述融合语义分割特征及预先训练获得的遮挡区域分割模型,确定所述第二类视角下的遮挡区域。
2.根据权利要求1所述的方法,其中,所述确定所述至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征,包括:
分别对所述至少两个第一图像进行特征提取,确定所述至少两个第一图像分别对应的所述第一类视角下的第二语义分割特征,得到至少两个第二语义分割特征;
将所述至少两个第二语义分割特征分别转换到所述第二类视角对应的坐标系下,得到所述至少两个第一语义分割特征。
3.根据权利要求2所述的方法,其中,所述将所述至少两个第二语义分割特征分别转换到所述第二类视角对应的坐标系下,得到所述至少两个第一语义分割特征,包括:
基于所述至少两个第一类视角分别对应的图像坐标系中的预设点坐标和预先获得的相机参数,确定所述至少两个第一类视角分别对应的单应性变换矩阵,得到至少两个单应性变换矩阵;
基于所述至少两个单应性变换矩阵,分别将所述至少两个第二语义分割特征转换到所述第二类视角对应的坐标系下,得到所述至少两个第一语义分割特征。
4.根据权利要求2所述的方法,其中,所述分别对所述至少两个第一图像进行特征提取,确定所述至少两个第一图像分别对应的所述第一类视角下的第二语义分割特征,得到至少两个第二语义分割特征,包括:
基于预先训练获得的第一语义分割网络模型对所述至少两个第一图像进行特征提取,获得所述至少两个第二语义分割特征。
5.根据权利要求1-4任一所述的方法,其中,所述将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征,包括:
基于所述至少两个第一语义分割特征中相同像素位置的特征值,确定所述融合语义分割特征。
6.根据权利要求1-4任一所述的方法,其中,所述将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征,包括:
确定所述至少两个第一语义分割特征的相同像素位置的特征值中符合预设条件的特征值;
基于符合所述预设条件的像素位置的特征值,确定该像素位置的融合特征值;
基于各所述像素位置的所述融合特征值,获得所述融合语义分割特征。
7.根据权利要求6所述的方法,其中,所述基于符合所述预设条件的像素位置的特征值,确定该像素位置的融合特征值,包括:
响应于所述至少两个第一语义分割特征的相同像素位置的特征值中,有至少两个非0特征值,将该像素位置的特征值按非0特征值数量求均值,作为该像素位置的融合特征值。
8.一种遮挡区域分割模型的训练方法,包括:
确定第一类视角下的至少一组多视角训练图像数据,每组所述多视角训练图像数据包括至少两个视角分别对应的第一训练图像;
确定所述至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征及所述训练融合语义分割特征对应的标签数据,得到至少一个训练融合语义分割特征及对应的标签数据;
基于所述至少一个训练融合语义分割特征及对应的标签数据,对预先建立的遮挡区域分割网络进行训练,获得所述遮挡区域分割模型。
9.根据权利要求8所述的方法,其中,确定所述至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征,得到至少一个训练融合语义分割特征,包括:
确定所述至少一组多视角训练图像数据中的目标组,确定所述目标组中的所述至少两个视角分别对应的第一训练图像,得到至少两个第一训练图像;
确定所述至少两个第一训练图像分别对应的第一类视角下的第一训练语义分割特征,得到至少两个第一训练语义分割特征;
将所述至少两个第一训练语义分割特征分别转换到所述第二类视角对应的坐标系下,得到至少两个第二训练语义分割特征;
将所述至少两个第二训练语义分割特征进行融合,得到所述目标组对应的训练融合语义分割特征;
基于所述目标组对应的训练融合语义分割特征,获得所述至少一个训练融合语义分割特征。
10.根据权利要求9所述的方法,其中,确定所述至少一组多视角训练图像数据对应的第二类视角下的训练融合语义分割特征所对应的标签数据,得到至少一个训练融合语义分割特征对应的标签数据,包括:
基于预先训练获得的第二语义分割网络模型,确定所述目标组中的所述至少两个第一训练图像分别对应的语义分割结果,得到至少两个语义分割结果;
确定所述至少两个语义分割结果分别对应的第一掩码图像,得到至少两个第一掩码图像,所述第一掩码图像中各像素的像素值为该像素所属类型的类型值,所述类型包括地面区域和非地面区域;
将所述至少两个第一掩码图像分别转换到所述第二类视角对应的坐标系下,得到至少两个第二掩码图像;
将所述至少两个第二掩码图像进行融合,获得融合掩码图像;
将所述融合掩码图像作为所述目标组所对应的所述训练融合语义分割特征的标签数据。
11.根据权利要求10所述的方法,其中,所述将所述至少两个第二掩码图像进行融合,获得融合掩码图像,包括:
确定所述至少两个第二掩码图像中各像素位置分别对应的重叠次数;
基于所述至少两个第二掩码图像中相同像素位置的特征值,获得中间图像;
基于所述中间图像及各像素位置分别对应的重叠次数,确定所述融合掩码图像。
12.根据权利要求11所述的方法,其中,所述基于所述中间图像及各像素位置分别对应的重叠次数,确定所述融合掩码图像,包括:
将所述中间图像中大于对应重叠次数的特征值确定为1,将小于或等于重叠次数的特征值确定为0,获得所述融合掩码图像。
13.一种遮挡区域的确定装置,包括:
第一确定模块,用于确定至少两个第一类视角分别对应的第一图像,得到至少两个第一图像;
第一处理模块,用于确定所述至少两个第一图像分别对应的第二类视角下的第一语义分割特征,得到至少两个第一语义分割特征;
第一融合模块,用于将所述至少两个第一语义分割特征进行融合,获得融合语义分割特征;
第二处理模块,用于基于所述融合语义分割特征及预先训练获得的遮挡区域分割模型,确定所述第二类视角下的遮挡区域。
14.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的遮挡区域的确定方法;或者,所述计算机程序用于执行上述权利要求8-12任一所述的遮挡区域分割模型的训练方法。
15.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的遮挡区域的确定方法。
16.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求8-12任一所述的遮挡区域分割模型的训练方法。
CN202210512774.7A 2022-05-11 2022-05-11 遮挡区域的确定方法、装置和分割模型的训练方法 Pending CN115049820A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210512774.7A CN115049820A (zh) 2022-05-11 2022-05-11 遮挡区域的确定方法、装置和分割模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210512774.7A CN115049820A (zh) 2022-05-11 2022-05-11 遮挡区域的确定方法、装置和分割模型的训练方法

Publications (1)

Publication Number Publication Date
CN115049820A true CN115049820A (zh) 2022-09-13

Family

ID=83157130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210512774.7A Pending CN115049820A (zh) 2022-05-11 2022-05-11 遮挡区域的确定方法、装置和分割模型的训练方法

Country Status (1)

Country Link
CN (1) CN115049820A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578702A (zh) * 2022-09-26 2023-01-06 北京百度网讯科技有限公司 道路元素的提取方法、装置、电子设备、存储介质及车辆
CN116071724A (zh) * 2023-03-03 2023-05-05 安徽蔚来智驾科技有限公司 车载相机遮挡场景识别方法、电子设备、存储介质及车辆

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110598784A (zh) * 2019-09-11 2019-12-20 北京建筑大学 基于机器学习的建筑垃圾分类方法及装置
CN112465840A (zh) * 2020-12-10 2021-03-09 重庆紫光华山智安科技有限公司 语义分割模型训练方法、语义分割方法及相关装置
CN113362338A (zh) * 2021-05-24 2021-09-07 国能朔黄铁路发展有限责任公司 铁轨分割方法、装置、计算机设备和铁轨分割处理系统
CN113673444A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于角点池化的路口多视角目标检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110363134A (zh) * 2019-07-10 2019-10-22 电子科技大学 一种基于语义分割的人脸遮挡区定位方法
CN110598784A (zh) * 2019-09-11 2019-12-20 北京建筑大学 基于机器学习的建筑垃圾分类方法及装置
CN112465840A (zh) * 2020-12-10 2021-03-09 重庆紫光华山智安科技有限公司 语义分割模型训练方法、语义分割方法及相关装置
CN113362338A (zh) * 2021-05-24 2021-09-07 国能朔黄铁路发展有限责任公司 铁轨分割方法、装置、计算机设备和铁轨分割处理系统
CN113673444A (zh) * 2021-08-19 2021-11-19 清华大学 一种基于角点池化的路口多视角目标检测方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115578702A (zh) * 2022-09-26 2023-01-06 北京百度网讯科技有限公司 道路元素的提取方法、装置、电子设备、存储介质及车辆
CN115578702B (zh) * 2022-09-26 2023-12-05 北京百度网讯科技有限公司 道路元素的提取方法、装置、电子设备、存储介质及车辆
CN116071724A (zh) * 2023-03-03 2023-05-05 安徽蔚来智驾科技有限公司 车载相机遮挡场景识别方法、电子设备、存储介质及车辆
CN116071724B (zh) * 2023-03-03 2023-08-04 安徽蔚来智驾科技有限公司 车载相机遮挡场景识别方法、电子设备、存储介质及车辆

Similar Documents

Publication Publication Date Title
US10929713B2 (en) Semantic visual landmarks for navigation
CN113264066B (zh) 障碍物轨迹预测方法、装置、自动驾驶车辆及路侧设备
US11940803B2 (en) Method, apparatus and computer storage medium for training trajectory planning model
CN115049820A (zh) 遮挡区域的确定方法、装置和分割模型的训练方法
JP2019096072A (ja) 物体検出装置、物体検出方法およびプログラム
WO2018066351A1 (ja) シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
CN114821506A (zh) 多视角语义分割方法、装置、电子设备和存储介质
CN110060230B (zh) 三维场景分析方法、装置、介质及设备
CN115879060B (zh) 基于多模态的自动驾驶感知方法、装置、设备和介质
WO2022206414A1 (zh) 三维目标检测方法及装置
WO2023155580A1 (zh) 一种对象识别方法和装置
CN113111751A (zh) 一种自适应融合可见光与点云数据的三维目标检测方法
WO2023023272A1 (en) Vision-based system training with simulated content
CN115866229B (zh) 多视角图像的视角转换方法、装置、设备和介质
CN117372991A (zh) 基于多视角多模态融合的自动驾驶方法及系统
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116403186A (zh) 基于FPN Swin Transformer与Pointnet++ 的自动驾驶三维目标检测方法
CN114913329A (zh) 一种图像处理方法、语义分割网络的训练方法及装置
CN113222968B (zh) 融合毫米波和图像的检测方法、系统、设备及存储介质
US11544899B2 (en) System and method for generating terrain maps
CN114386481A (zh) 一种车辆感知信息融合方法、装置、设备及存储介质
CN118043864A (zh) 障碍物识别方法、装置、存储介质及电子设备
Berrio et al. Semantic sensor fusion: From camera to sparse LiDAR information
EP4287141A1 (en) Sensor virtualization
CN115829898B (zh) 数据处理方法、装置、电子设备、介质以及自动驾驶车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination