CN113610172A - 神经网络模型训练方法和装置、传感数据融合方法和装置 - Google Patents
神经网络模型训练方法和装置、传感数据融合方法和装置 Download PDFInfo
- Publication number
- CN113610172A CN113610172A CN202110931060.5A CN202110931060A CN113610172A CN 113610172 A CN113610172 A CN 113610172A CN 202110931060 A CN202110931060 A CN 202110931060A CN 113610172 A CN113610172 A CN 113610172A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- real
- image
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本公开实施例公开了一种用于传感数据融合的神经网络模型训练方法和装置、基于神经网络模型的传感数据融合方法和装置、电子设备及存储介质,其中,用于传感数据融合的神经网络模型训练方法包括基于样本图像和样本三维点云数据集,构建训练数据;基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。本公开实施例可以更好的基于长尾场景的样本数据不断迭代优化所述神经网络模型。
Description
技术领域
本公开涉及计算机辅助驾驶技术,尤其是一种用于传感数据融合的神经网络模型训练方法和装置、基于神经网络模型的传感数据融合方法和装置、电子设备及存储介质。
背景技术
在辅助驾驶或自动驾驶应用中,经常需要基于车载摄像头和激光雷达的融合进行感知后处理,而相关技术中的融合手段无法适应长尾场景。
因此,如何提供一种可以基于长尾场景的迭代优化的传感器融合方案其成为亟需解决的问题。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种用于传感数据融合的神经网络模型训练方法和装置、基于神经网络模型的传感数据融合方法和装置、电子设备及存储介质。
根据本公开实施例的一个方面,提供了一种用于传感数据融合的神经网络模型训练方法包括:基于样本图像和样本三维点云数据集,构建训练数据;基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
根据本公开实施例的另一个方面,提供了一种基于神经网络模型的传感数据融合方法,其中,所述神经网络模型为利用本公开所述的神经网络模型训练方法进行训练所得,所述传感数据融合方法包括:基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影;将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流;基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
根据本公开实施例的又一个方面,提供了一种用于传感数据融合的神经网络模型训练装置,包括:训练数据构建单元被配置为基于样本图像和样本三维点云数据集,构建训练数据;训练执行单元被配置为基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
根据本公开实施例的再一个方面,提供了一种基于神经网络模型的传感数据融合装置,其中,所述神经网络模型为利用本公开所述的神经网络模型训练装置进行训练所得,所述传感数据融合装置括:投影确定单元,被配置为基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影;实时光流确定单元,被配置为将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流;图像融合单元,被配置为基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
根据本公开实施例的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开所述的神经网络模型训练方法或所述的传感数据融合方法。
根据本公开实施例的再一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本公开所述的神经网络模型训练方法或本公开所述的传感数据融合方法。
基于本公开上述实施例提供的用于传感数据融合的神经网络模型训练方法和装置、基于神经网络模型的传感数据融合方法和装置、电子设备及存储介质。在神经网络模型训练阶段,可以利用不同场景下所述目标区域的样本图像和点云数据作为训练数据,对所述初始神经网络模型进行闭环迭代,以优化模型参数,使得训练得到的神经网络模型可以适应多种不同场景,从而可以更好的基于长尾场景(指的是车辆在道路上行驶过程中能够遇到或者已经遇到的不同场景)下的样本数据不断迭代优化所述神经网络模型,即可解决长尾场景问题。在应用阶段,可以直接将训练好的神经网络模型应用于数据融合过程,从而整个方案的实施不需要技术人员配置数据融合规则,即有利于减少人工干预。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统示意图;
图2是本公开一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图;
图3是本公开另一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图;
图4a是本公开一示例性实施例所述车载摄像头拍摄的实时二维图像示意图;
图4b是本公开一示例性实施例所述稀疏的视角转换光流示意图;
图4c是本公开一示例性实施例所述稠密的视角转换光流示意图;
图4d是本公开一示例性实施例所述虚拟鸟瞰视角下的图像示意图;
图5是本公开又一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图;
图6是本公开一示例性实施例所述的神经网络模型结构示意图;
图7是本公开一示例性实施例提供的基于神经网络模型的传感数据融合方法的流程示意图;
图8是本公开另一示例性实施例提供的基于神经网络模型的传感数据融合方法的流程示意图;
图9是本公开一示例性实施例提供的用于传感数据融合的神经网络模型训练装置的结构示意图;
图10是图9中训练数据构建单元910一示例性实施例的结构示意图;
图11是图9中训练数据构建单元920一示例性实施例的结构示意图;
图12是本公开一示例性实施例提供的基于神经网络模型的传感数据融合装置的结构示意图;
图13是图12中投影确定单元1210一示例性实施例的结构示意图;
图14是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
本公开概述
在实现本公开的过程中,发明人发现,在辅助驾驶/自动驾驶应用中,车载摄像头的感知结果(即所拍摄的图像)都是在二维图像空间上,因此缺乏深度信息,难以还原到真实的三维空间。在预测规划等感知后的下游应用中,计算往往在鸟瞰图像空间来进行,因此感知和预测规划之间存在着明显的空间表达的差异。车载激光雷达作为自动驾驶中常用的传感器,可以直接获得目标空间的深度信息,但是由于稀疏性,无法获得像图像一样丰富的语义信息。因此,可利用车载摄像头和车载激光雷达进行传感融合,然后基于融合后的传感数据进行预测规划等感知后处理。
相关现有技术中,对车载摄像头和车载激光雷达点融合方法主要是“后融合”,即分别基于车载摄像头和车载激光雷达做独立的感知,然后将独立感知的数据基于人工建立的规则进行融合,即将车载摄像头拍摄的二维图像与车载激光雷达扫描的点云基于人工建立的规则进行融合,例如,在利用激光雷达的投影获得图像中的检测框的深度。
但是上述现有技术中至少存在以下问题:需要人工设置融合规则,无法利用大量的数据和神经网络自动进行长尾场景的迭代优化。
示例性概述
本公开可基于用于传感数据融合的神经网络模型,得到视角转换光流,从而基于所述视角转换光流,实现车载摄像头拍摄的二维图像与车载激光雷达扫描的点云数据的融合,得到所述目标区域在所述虚拟视角下的图像。其中,所述视角转换光流表达了二维图像与虚拟视角下的图像的变化,由于其包含了目标运动的信息,因此可被观察者用来确定目标的运动情况。一个例子如图1所示。
图1中,传感数据融合设备100可以为具有传感数据融合功能的计算机、智能驾驶控制设备或服务器等电子设备。例如,传感数据融合设备100中可设置有投影模块110、用于传感数据融合的神经网络模型120以及融合模块130,其中,神经网络模型110可以为编码解码网络(如U-Net)。
下面以传感数据融合设备100接收到对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据为例进行示例性说明。
首先,投影模块110可以确定所述实时三维点云数据在所述实时二维图像上的投影以及在虚拟视角图像上的投影;其中虚拟视角可根据需求设置,例如在辅助驾驶/自动驾驶应用中,所述虚拟视角通常可选取为鸟瞰视角(BEV)。
其次,神经网络模型110可以所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影作为模型输入,得到视角转换光流;
最后,融合模块130可以基于所述实时二维图像和所述视角转换光流,将所述实时二维图像中的像素坐标按照所述视角转换光流移动,从而得到所述目标区域在所述虚拟视角下的图像。
示例性方法
图2是本公开一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图。本实施例可应用在电子设备上,如图2所示,包括如下步骤:
S210,基于样本图像和样本三维点云数据集,构建训练数据。
S220,基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
由于本示例的步骤应用在上述神经网络模型的训练阶段,因此训练所需的样本数据可以是提前获知的历史数据。
具体地,所述样本图像和样本三维点云数据集可通过任何可行的方式获取。例如,可以从车辆的传感数据记录单元或数据存储服务模块,获取车载摄像头在某一历史时刻T1以及地点P1,对一目标区域拍摄的图像作为所述样本图像。类似地,获取车载激光雷达在所述历史时刻T1以及地点P1,对所述目标区域扫描的点云数据集作为所述样本三维点云数据。
上述基于同一历史时刻T1、地点P1且对应同一目标区域的样本图像、三维点云数据记为一组训练数据。针对不同的场景(这里场景指的是车辆行驶过程遇到的不同道路场景,例如十字路口、高速路口等)可获取不同的样本图像和样本三维点云数据,进而形成所述训练数据。
本公开的用于传感数据融合的神经网络模型训练方法,在训练阶段,可以利用不同场景下所述目标区域的样本图像和点云数据作为训练数据,对所述初始神经网络模型进行闭环迭代,以优化模型参数,使得训练得到的神经网络模型可以适应多种不同场景,从而可以更好的基于长尾场景(指的是车辆在道路上行驶过程中遇到的不同场景)下的样本数据不断迭代优化所述神经网络模型,即可解决长尾场景问题。进而在后续应用阶段,可以直接将训练好的神经网络模型应用于数据融合过程,不需要技术人员配置数据融合规则,即有利于减少人工干预。
图3是本公开另一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图。如图3所示,在上述图2所示实施例基础上,步骤S210包括以下步骤S2101至S2104。
S2101、基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述样本三维点云数据集中的每个点在所述样本图像上的第一投影坐标。
根据情况,可以通过任何可用的方式获取所述第一外参。例如,可以与车辆的传感器外参标定系统通信连接,以获取所述车载激光雷达相对于所述车载摄像头的第一外参。在一可选示例中,首先所述传感器外参标定系统可以在车载摄像头位置建立三维世界坐标系,其次基于车载摄像头位的三维世界坐标系确定图像坐标系,再次计算车载激光雷达坐标系中的点云转换到图像坐标系中的对应位置所需的转换关系,从而将计算得到的转换关系确定为所述第一外参。即,所述第一外参为表征所述车载摄像头与车载激光雷达之间的坐标系转换关系的参数,例如旋转矩阵和/或平移矩阵。
根据需要,可以通过任何可用的方式确定所述第一投影坐标。例如,首先,可基于所述第一外参确定所述车载激光雷达坐标系到所述车载摄像头坐标系的第一变换矩阵;然后,按照所述第一变换矩阵,将所述三维点云数据集变换到所述二维图像所在的像面坐标系中,得到三维点云数据集在所述像面坐标系中的投影坐标,即所述第一投影坐标。
S2102、基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述样本三维点云数据集中的每个点在虚拟视角图像上的第二投影坐标。
这里,获取所述第二外参的方式与步骤S2101类似。根据情况,可以通过任何可用的方式获取所述第二外参。例如,可以与车辆的传感器外参标定系统通信连接,以获取所述车载激光雷达相对于所述虚拟视角摄像头的第二外参。在一可选示例中,首先,所述传感器外参标定系统可以在虚拟视角摄像头位置建立三维世界坐标系,其次,基于虚拟视角摄像头的三维世界坐标系确定虚拟视角图像坐标系,再次,计算车载激光雷达坐标系中的点云转换到虚拟视角图像坐标系中的对应位置所需的转换关系,从而将计算得到的转换关系确定为所述第二外参。即,所述第二外参为表征所述虚拟视角摄像头与车载激光雷达之间的坐标系转换关系的参数,例如旋转矩阵和/或平移矩阵。
根据需要,可以通过任何可用的方式确定所述第二投影坐标。例如,首先,可基于所述第二外参确定所述车载激光雷达坐标系到所述虚拟视角摄像头坐标系的第二变换矩阵;然后,按照所述第二变换矩阵,将所述三维点云数据集变换到所述虚拟视角图像所在的像面坐标系中,得到三维点云数据集在所述像面坐标系中的投影坐标,即所述第二投影坐标。
其中,所述虚拟视角可根据情况而定。例如,在车辆的辅助驾驶/自动驾驶应用中,通常所述虚拟视角可优选为虚拟鸟瞰视角(BEV),对应的虚拟视角摄像头可以为虚拟鸟瞰摄像头,以便于利用BEV空间作感知任务;在需要合成新视角场景中,可匹配新视角设定所述虚拟视角,例如需要在车辆左侧合成新视角,那么可以选取车辆的左视图的视角作为所述虚拟视角。
S2103、计算所述样本三维点云数据集中的每个点的第一投影坐标与第二投影坐标之间的差值,得到稀疏视角转换光流。
这里,以所述虚拟视角为虚拟鸟瞰视角(BEV)为例进行示例性说明。此时所述第一投影坐标是三维点云数据集在所述二维图像(例如,图4a所示图像)所在的像面坐标系中的投影坐标;所述第二投影坐标是三维点云数据集在所述虚拟鸟瞰图像所在的像面坐标系中的投影坐标。通过上述第一投影坐标与第二投影坐标之间的差值,得到稀疏视角转换光流(如图4b所示)。
S2104、基于所述样本图像、第一投影坐标、第二投影坐标以及稀疏视角转换光流,构建所述训练数据。
如能理解的,可以通过任何可用的方式构建所述训练数据。例如,在一可选示例中,将所述样本图像、第一投影坐标、第二投影坐标作为对所述初始神经网络模型进行训练时的输入数据;将所述稀疏视角转换光流作为对所述初始神经网络模型进行训练时真值监督,即用于对所述初始神经网络模型的输出值进行校验,以调整模型参数(具体校验、调整参数的过程将在下文实施例描述,这里不赘述)。在该示例中,所述训练数据可包括两类:第一类为输入数据,包括所述样本图像、第一投影坐标、第二投影坐标;第二类为真值监督,包括所述稀疏视角转换光流。
如上所述,步骤S2101至步骤S2103分别确定了第一投影坐标、第二投影坐标以及稀疏视角转换光流,步骤S2104基于样本图像、第一投影坐标、第二投影坐标以及稀疏视角转换光流构建了训练数据。
图5是本公开又一示例性实施例提供的用于传感数据融合的神经网络模型训练方法的流程示意图。如图5所示,在上述图2所示实施例的基础上,步骤S220包括以下步骤S2201至S2204。
S2201、将所述样本图像、第一投影坐标以及第二投影坐标输入所述初始神经网络模型,得到所述初始神经网络模型输出的第一视角转换光流。
其中,所述初始神经网络模型的模型可以包括但不限于编码解码网络、BP网络、RBF网络、Hopfield网络以及自组织特征映射网络等。
本公开实施例优选编码解码网络(如U-Net),该模型网络的结构中可依次包括输入层、卷积层、池化层、激活函数层、归一化层、全连接层以及输出层。其中如图6所示,可以将卷积层、池化层、激活函数层、归一化层、全连接层记为隐藏层(中间层),然后整个模型结构划分为输入层、隐藏层以及输出层。
需要说明的是,在执行步骤S2201之前,对所述初始神经网络模型参数执行随机初始化。其作用在于如果将隐藏层中的每个隐藏单元的参数都初始化为相等的值,那么在正向传播时每个隐藏单元将根据相同的输入计算出相同的值,并传递至输出层。在反向传播中,每个隐藏单元的参数梯度值相等。因此,这些参数在使用基于梯度的优化算法迭代后值依然相等。之后的迭代也是如此。在这种情况下,无论隐藏层包括多少隐藏单元,隐藏层本质上只有一个隐藏单元在发挥作用。因此如前所述,需要将神经网络的模型参数(特别是权重参数)进行随机初始化,这里所述权重参数(也叫权值)即图6中圆形(神经元)之间的连接线,每个连接线对应一个不同的权重,对模型训练的目的就是在寻找最优的权值。
基于上述初始化后的初始神经网络模型,输入上述训练数据,得到模型输出的第一视角转换光流。
S2202、基于所述稀疏视角转换光流与所述第一视角转换光流,构建误差函数。
这里,第一视角转换光流是神经网络模型训练过程中的输出,其与作为真值监督的实际稀疏视角转换光流存在差距,这个差距也即表明神经网络模型参数还不是最优化;因此构建误差函数来描述所述差距,然后反向传播,以修改所述神经网络模型的参数(特别是权值)。
在一可选示例中,假设上述对所述初始神经网络模型参数执行随机初始化后,得到的初始化参数为w、b0、θ、b1,其中矩阵w是连接输入层与隐藏层的桥梁,b0和θ是隐藏层神经元的常数变量、b1是输出层神经元的常数变量。
基于上述初始化参数,假设有K组训练数据(xi,yi)i=1,...,k,所述误差函数L(w,b0,θ,b1)可以定义为如下公式(1),即所述稀疏视角转换光流与所述第一视角转换光流之间差值的平方和。
其中,函数N表示神将网络模型的针对一组训练数据的模型输出,即第一视角转换光流;y表示一组训练数据的用于真值监督的稀疏视角转换光流。
S2203、基于所述误差修改所述初始神经网络模型的权重参数。
S2204、重复上述步骤直至迭代次数满足预设次数。
可选地,基于上述公式(1)所述的误差函数L分别对权重参数w、b0、θ、b1求偏导数,基于得到的偏导数,利用以下公式(2)~(5)更新所述参数w、b0、θ、b1。
其中,r表示leaning rate,表示神经网络的学习速度和质量。
如能理解的,可利用上述梯度下降的返向传播方式更新神经网络,即重复迭代上述步骤S2201至S2204,按照使所述误差函数值逐步减小的方向,调整所述初始神经网络模型的权重参数。直至迭代次数满足预设次数,此时所述误差函数值缩小到一个可接受范围或小于预设的误差阈值,则认为所述神经网络模型的参数已经是相对最优化的参数,也即完成了对神经网络模型的训练。
本公开对预设次数不做限制,可根据对模型的精度需求设置。例如要求精度越高,所述预设次数也就相应越多。
在上述图5实施例中,可以利用不同场景下所述目标区域的样本图像和点云数据作为训练数据,对所述初始神经网络模型进行闭环迭代,以优化模型参数,使得训练得到的神经网络模型可以适应多种不同场景从而可以更好的基于长尾场景(车辆在道路上行驶过程中遇到的不同场景)下的样本数据不断迭代优化所述神经网络模型,即可解决长尾场景问题。
图7是本公开一示例性实施例提供的基于神经网络模型的传感数据融合方法的流程示意图。其中,所述神经网络模型为利用本公开上述的神经网络模型训练方法进行训练所得。本实施例可应用在电子设备上。如图7所示,包括如下步骤:
S710、基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影。
该步骤S710基于前述神经网络模型的应用步骤,因此采集二维图像以及三维点云均是实时数据。
可通过与车载摄像头以及车载激光雷达建立有线或无线的通信连接,以获取所述实时二维图像以及实时三维点云数据集。
S720、将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流。
这里,基于所述神经网络模型的自身特性,在应用阶段输出的视角转换光流为稠密的视角转换光流(如图4c所示),区别于训练阶段用作真值监督的稀疏的视角转换光流(如图4b所示)。
S730、基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
这里,所述所述目标区域在所述虚拟视角下的图像结合了点云数据(深度信息)的图像,即实现了传感数据的融合。
本公开的基于神经网络模型的传感数据融合方法,可直接利用训练好的神经网络模型获取视角转换光流,然后利用视角转换光流将实时二维图像转换到虚拟视角下的图像,从而实现数据融合,整个过程不再需要工程技术人员人为配置数据融合规则,即可减少人工干预。
图8是本公开另一示例性实施例提供的基于神经网络模型的传感数据融合方法的流程示意图。如图8所示,在上述图7所示实施例的基础上,步骤S710包括:
S7101、基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述实时三维点云数据集中的每个点在所述实时二维图像上的第三投影坐标。
S7102、基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述实时三维点云数据集中的每个点在所述虚拟视角图像上的第四投影坐标。
需要说明的是,获取所述第一外参或第二外参的的方式可参照本公开前述部分的步骤S2101或S2102,这里不赘述。
如前所述,第一、二外参可广义地定义为表征所述车载摄像头与车载激光雷达之间的坐标系转换关系的参数。其中,所述车载摄像头与车载激光雷达是指在当前应用阶段与执行主体(例如,车载智能控制器)通信连接,并提供实时传感数据的车载摄像头与车载激光雷达。前述神经网络模型训练的实施例中涉及的样本图像和/或样本三维点云数据可以不是实时数据,即可以是车载摄像头与车载激光雷达之前获取的历史数据。另外,前述神经网络模型训练的实施例中涉及的车载摄像头与车载激光雷达与本实施例涉及的车载摄像头与车载激光雷达可以不是同一个;进而前述神经网络模型训练的实施例中涉及的第一外参或第二外参也可与本实施例涉及的第一外参或二外参不同。
在一个可选示例中,S7101可以通过以下方式确定所述第三投影坐标。例如,首先,可基于所述第一外参确定所述车载激光雷达坐标系到所述车载摄像头坐标系的第一变换矩阵;然后,按照所述第一变换矩阵,将所述三维点云数据集变换到所述二维图像所在的像面坐标系中,得到三维点云数据集在所述像面坐标系中的投影坐标,即所述第三投影坐标。
在另一个可选示例中,S7102可以通过以下方式确定所述第四投影坐标。例如,首先,可基于所述第二外参确定所述车载激光雷达坐标系到所述虚拟视角摄像头坐标系的第二变换矩阵;然后,按照所述第二变换矩阵,将所述三维点云数据集变换到所述虚拟视角图像所在的像面坐标系中,得到三维点云数据集在所述像面坐标系中的投影坐标,即所述第四投影坐标。
其中,所述虚拟视角可根据情况而定。例如,在车辆的辅助驾驶/自动驾驶应用中,通常所述虚拟视角可优选为虚拟鸟瞰视角(BEV),对应的虚拟视角摄像头可以为虚拟鸟瞰摄像头,以便于利用BEV空间作感知任务;在需要合成新视角场景中,可匹配新视角设定所述虚拟视角,例如需要在车辆左侧合成新视角,那么可以选取车辆的左视图的视角作为所述虚拟视角。
上述图8实施例中,利用车载摄像头与车载激光雷达之间的第一外参、第二外参可以分别确定出车载激光雷达坐标系与车载摄像头坐标系、以及虚拟视角摄像头坐标系之间的旋转平移关系,进而可确定出所述实时三维点云数据集中的每个点在所述二维图像所在的像面坐标系中的第三投影坐标;以及在所述虚拟视角图像所在的像面坐标系中的第四投影坐标,从而为获取视角转换光流做好输入数据准备。
在一可选示例中,在上述图7、图8所示实施例的基础上,步骤S720可以通过以下方式实现:将所述实时二维图像、第三投影坐标以及第四投影坐标输入所述神经网络模型,得到所述视角转换光流。
其中,在所述虚拟视角摄像头为虚拟鸟瞰摄像头的情况下,如果实时二维图像为图4a所示的实时二维图像,则得到的所述视角转换光流可以为如图4所示的视角转换光流。
在一可选示例中,在上述图7、图8所示实施例的基础上,步骤S730可以通过以下方式实现:将所述实时二维图像的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像。
需要说明的是,由于所述视角转换光流是基于利用神经网络模型并结合激光点云数据(即深度信息)得到的,因此所述视角转换光流表征二维图像与虚拟视角下的图像像素坐标的位移变化量,因此,所述“将所述实时二维图像的像素坐标按照所述视角转换光流移动”,也就是对所述实时二维图像基于所述视角转换光流做图像重映射,实现图像视角切换,得到虚拟视角下的图像。
在一个可选示例中,以图4a所示图像为所述实时二维图像、以虚拟视角为虚拟鸟瞰视角,利用本公开上述实施例的方案,可以得到的所述目标区域在所述虚拟视角下的图像为如图4d所示的图像。
在一可选示例中,在上述图7、图8所示实施例的基础上,所述传感数据融合方法还包括:基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像特征。
如能理解的,可通过任何可用的方式确定所述虚拟视角下的图像特征。例如,首先,可以对所述实时二维图像进行特征提取,得到所述实时二维图像中表征检测目标的轮廓特征;其次,可以确定所述轮廓特征的像素坐标;最后,可以将所述轮廓特征的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像特征。
其中,所述“对所述实时二维图像进行特征提取”可通过以下方式实现。具体地,可以预先训练一个对二维图想想进行特征提取的神经网络模型,训练数据可以是合适的二维图像以及该二维图像中的确定的特征。基于该训练好的神经网络模型可以对所述实时二维图像进行特征提取,得到所述实时二维图像中表征检测目标的轮廓特征。例如,车载摄像头拍摄的图像中包括当前车辆前方行驶录路线上的车辆,那么可利用该神经网络模型对图像中的前方车辆的轮廓进行检测,然后确定所述轮廓特征的在图像坐标系或像平面上的像素坐标(位置)。
然后如上所述,利用所述轮廓特征的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像特征。即实时二维图像中的前方车辆的轮廓特征在所述虚拟视角下的图像特征。
基于上述实施例得到的所述虚拟视角下的图像特征,可用于作感知任务,感知任务例如获取车辆行驶路段局部地图信息或者当前车辆与其他车辆之间的相对位置、姿态等。
利用本公开上述基于神经网络模型的传感数据融合方法,可直接利用训练好的神经网络模型获取视角转换光流,然后利用视角转换光流将实时二维图像转换到虚拟视角下的图像,从而实现数据融合,整个过程不需要技术人员配置数据融合规则,即有利于减少人工干预。另外,所述视角转换光流表达了二维图像与虚拟视角下的图像之间的空间运动变化,具有明确的物理意义,并且拓展性好,不仅可用于图像合成,还可用于图像特征的融合,以便于后续实施感知任务。
本公开实施例提供的任一种用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法。下文不再赘述。
示例性装置
应理解,本文中前述实施例关于用于传感数据融合的神经网络模型训练方法所描述的具体特征,也可类似地应用于以下用于传感数据融合的神经网络模型训练装置中进行类似扩展。本文中前述实施例关于基于神经网络模型的传感数据融合方法所描述的具体特征,也可类似地应用于以下基于神经网络模型的传感数据融合装置中进行类似扩展。为简化起见,未对其进行详细描述。
图9是本公开一示例性实施例提供的用于传感数据融合的神经网络模型训练装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例。如图9所示的用于传感数据融合的神经网络模型训练装置900包括:训练数据构建单元910以及训练执行单元920。训练数据构建单元910,被配置为基于样本图像和样本三维点云数据集,构建训练数据;训练执行单元920,被配置为基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
本公开的用于传感数据融合的神经网络模型训练装置,在训练阶段,可以利用不同场景下所述目标区域的样本图像和点云数据作为训练数据,对所述初始神经网络模型进行闭环迭代,以优化模型参数,使得训练得到的神经网络模型可以适应多种不同场景,从而可以更好的基于长尾场景(指的是车辆在道路上行驶过程中遇到的不同场景)下的样本数据不断迭代优化所述神经网络模型,即可解决长尾场景问题。进而在后续应用阶段,可以直接将训练好的神经网络模型应用于数据融合过程,不需要技术人员配置数据融合规则,即有利于减少人工干预。
图10是图9中训练数据构建单元910一示例性实施例的结构示意图。所述训练数据构建单元910包括:第一投影模块9101,被配置为基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述样本三维点云数据集中的每个点在所述样本图像上的第一投影坐标;第二投影模块9102,被配置为基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述样本三维点云数据集中的每个点在虚拟视角图像上的第二投影坐标;光流真值确定模块9103,被配置为计算所述样本三维点云数据集中的每个点的第一投影坐标与第二投影坐标之间的差值,得到稀疏视角转换光流;构建模块9104,被配置为:基于所述样本图像、第一投影坐标、第二投影坐标以及稀疏视角转换光流,构建所述训练数据。
图11是图9中训练数据构建单元920一示例性实施例的结构示意图。所述训练执行单元920包括:第一光流确定模块9201,被配置为将所述样本图像、第一投影坐标以及第二投影坐标输入所述初始神经网络模型,得到所述初始神经网络模型输出的第一视角转换光流;误差计算模块9202,被配置为基于所述稀疏视角转换光流与所述第一视角转换光流,构建误差函数;参数调整模块9203,被配置为基于所述误差修改所述初始神经网络模型的权重参数;循环模块9204,被配置为重复调用所述第一光流确定模块、误差计算模块以及参数调整模块执行对应步骤,直至调用次数满足预设次数。
在一可选示例中,所述参数调整模块9203被进一步配置为:按照使所述误差逐步减小的方向,调整所述初始神经网络模型的权重参数。
在一可选示例中,所述虚拟视角包括虚拟鸟瞰视角。
在上述图9至图11实施例中,可以利用不同场景下所述目标区域的样本图像和点云数据作为训练数据,对所述初始神经网络模型进行闭环迭代,以优化模型参数,使得训练得到的神经网络模型可以适应多种不同场景,从而可以更好的基于长尾场景(车辆在道路上行驶过程中遇到的不同场景)下的样本数据不断迭代优化所述神经网络模型,即可解决长尾场景问题。
图12是本公开一示例性实施例提供的基于神经网络模型的传感数据融合装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例,所述神经网络模型为利用本公开所述的神经网络模型训练装置进行训练所得。
如图12所示的基于神经网络模型的传感数据融合装置1200包括:投影确定单元1210,被配置为基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影;实时光流确定单元1220,被配置为将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流;图像融合单元1230,被配置为基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
本公开的基于神经网络模型的传感数据融合装置,直接利用训练好的神经网络模型获取视角转换光流,然后利用视角转换光流将实时二维图像转换到虚拟视角下的图像,从而实现数据融合,整个过程不再需要工程技术人员人为配置数据融合规则,即可减少人工干预。
图13是图12中投影确定单元1210一示例性实施例的结构示意图。所述投影确定单元,包括:第三投影模块12101,被配置为基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述实时三维点云数据集中的每个点在所述实时二维图像上的第三投影坐标;第四投影模块12102,被配置为基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述实时三维点云数据集中的每个点在所述虚拟视角图像上的第四投影坐标。
在一可选示例中,所述实时光流确定单元1220被进一步配置为:将所述实时二维图像、第三投影坐标以及第四投影坐标输入所述神经网络模型,得到所述视角转换光流。
在一可选示例中,所述数据融合单元1230被进一步配置为:将所述实时二维图像的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像。
在一可选示例中,所述传感数据融合装置还包括:图像特征融合单元,被配置为:基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像特征。
在一可选示例中,所述图像特征融合单元被进一步配置为:对所述实时二维图像进行特征提取,得到所述实时二维图像中表征检测目标的轮廓特征;确定所述轮廓特征的像素坐标;将所述轮廓特征的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像特征。
在一可选示例中,所述虚拟视角包括虚拟鸟瞰视角。
利用本公开上述基于神经网络模型的传感数据融合装置,直接利用训练好的神经网络模型获取视角转换光流,然后利用视角转换光流将实时二维图像转换到虚拟视角下的图像,从而实现数据融合,整个过程不需要技术人员配置数据融合规则,即有利于减少人工干预。另外,所述视角转换光流表达了二维图像与虚拟视角下的图像之间的空间运动变化,具有明确的物理意义,并且拓展性好,不仅可用于图像合成,还可用于图像特征的融合,以便于后续实施感知任务。
示例性电子设备
下面,参考图14来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图14图示了根据本公开实施例的电子设备的框图。
如图14所示,电子设备包括一个或多个处理器和存储器。
处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器可以运行所述程序指令,以实现上文所述的本公开的各个实施例的用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备还可以包括:输入装置和输出装置,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备或第二设备时,该输入装置可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置可以是通信网络连接器,用于从第一设备和第二设备接收所采集的输入信号。
此外,该输入设备还可以包括例如键盘、鼠标等等。
该输出装置可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图14中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于传感数据融合的神经网络模型训练方法、以及基于神经网络模型的传感数据融合方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (12)
1.一种用于传感数据融合的神经网络模型训练方法,包括:
基于样本图像和样本三维点云数据集,构建训练数据;
基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
2.根据权利要求1所述的神经网络模型训练方法,其中,所述基于样本图像和样本三维点云数据集,构建训练数据,包括:
基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述样本三维点云数据集中的每个点在所述样本图像上的第一投影坐标;
基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述样本三维点云数据集中的每个点在虚拟视角图像上的第二投影坐标;
计算所述样本三维点云数据集中的每个点的第一投影坐标与第二投影坐标之间的差值,得到稀疏视角转换光流;
基于所述样本图像、第一投影坐标、第二投影坐标以及稀疏视角转换光流,构建所述训练数据。
3.根据权利要求2所述的神经网络模型训练方法,其中,所述基于所述训练数据,对初始神经网络模型进行训练,包括:
将所述样本图像、第一投影坐标以及第二投影坐标输入所述初始神经网络模型,得到所述初始神经网络模型输出的第一视角转换光流;
基于所述稀疏视角转换光流与所述第一视角转换光流,构建误差函数;
基于所述误差修改所述初始神经网络模型的权重参数;
重复上述步骤直至迭代次数满足预设次数。
4.根据权利要求3所述的神经网络模型训练方法,其中,所述基于所述误差修改所述初始神经网络模型的权重参数,包括:
按照使所述误差逐步减小的方向,调整所述初始神经网络模型的权重参数。
5.一种基于神经网络模型的传感数据融合方法,其中,所述神经网络模型为利用权利要求1-4中任一项所述的神经网络模型训练方法进行训练所得,所述传感数据融合方法包括:
基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影;
将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流;
基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
6.根据权利要求5所述的传感数据融合方法,其中,所述基于获取到的车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影,包括:
基于获取到的所述车载激光雷达相对于所述车载摄像头的第一外参,确定所述实时三维点云数据集中的每个点在所述实时二维图像上的第三投影坐标;
基于获取到的所述车载激光雷达相对于虚拟视角摄像头的第二外参,确定所述实时三维点云数据集中的每个点在所述虚拟视角图像上的第四投影坐标。
7.根据权利要求5所述的传感数据融合方法,其中,所述基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像,包括:
将所述实时二维图像的像素坐标按照所述视角转换光流移动,得到所述目标区域在所述虚拟视角下的图像。
8.根据权利要求5所述的传感数据融合方法,其中,所述传感数据融合方法还包括:
基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像特征。
9.一种用于传感数据融合的神经网络模型训练装置,包括:
训练数据构建单元,被配置为:基于样本图像和样本三维点云数据集,构建训练数据;
训练执行单元,被配置为:基于所述训练数据,对初始神经网络模型进行训练,得到训练好的神经网络模型。
10.一种基于神经网络模型的传感数据融合装置,其中,所述神经网络模型为利用权利要求9所述的神经网络模型训练装置进行训练所得,所述传感数据融合装置括:
投影确定单元,被配置为:基于车载摄像头对目标区域拍摄的实时二维图像和车载激光雷达对所述目标区域扫描的实时三维点云数据集,确定所述实时三维点云数据集在所述实时二维图像上的投影以及在虚拟视角图像上的投影;
实时光流确定单元,被配置为:将所述实时二维图像、所述实时三维点云数据集在所述实时二维图像上的投影以及在所述虚拟视角图像上的投影输入所述神经网络模型,得到视角转换光流;
图像融合单元,被配置为:基于所述实时二维图像和所述视角转换光流,确定所述目标区域在所述虚拟视角下的图像。
11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的方法。
12.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931060.5A CN113610172B (zh) | 2021-08-13 | 2021-08-13 | 神经网络模型训练方法和装置、传感数据融合方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110931060.5A CN113610172B (zh) | 2021-08-13 | 2021-08-13 | 神经网络模型训练方法和装置、传感数据融合方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610172A true CN113610172A (zh) | 2021-11-05 |
CN113610172B CN113610172B (zh) | 2023-08-18 |
Family
ID=78308519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110931060.5A Active CN113610172B (zh) | 2021-08-13 | 2021-08-13 | 神经网络模型训练方法和装置、传感数据融合方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610172B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037921A (zh) * | 2021-11-26 | 2022-02-11 | 安徽送变电工程有限公司 | 基于无人机智能识别的弧垂建模方法及系统 |
CN115147054A (zh) * | 2022-09-05 | 2022-10-04 | 创新奇智(青岛)科技有限公司 | 货物装箱规划方法及装置 |
CN116071621A (zh) * | 2023-03-15 | 2023-05-05 | 中汽智联技术有限公司 | 针对感知算法的训练样本生成和验证方法、设备和介质 |
CN116580163A (zh) * | 2023-07-14 | 2023-08-11 | 深圳元戎启行科技有限公司 | 三维场景重建方法、电子设备及存储介质 |
CN117058564A (zh) * | 2023-10-11 | 2023-11-14 | 光轮智能(北京)科技有限公司 | 一种虚拟感知数据获取方法及长尾场景数据挖掘方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646424A (zh) * | 2013-11-26 | 2014-03-19 | 北京空间机电研究所 | 一种空中无缝虚拟漫游系统构建方法 |
CN108269300A (zh) * | 2017-10-31 | 2018-07-10 | 杭州先临三维科技股份有限公司 | 牙齿三维数据重建方法、装置和系统 |
US20190045276A1 (en) * | 2017-12-20 | 2019-02-07 | Intel Corporation | Free dimension format and codec |
US20200011968A1 (en) * | 2017-03-03 | 2020-01-09 | Iee International Electronics & Engineering S.A. | Method and system for obtaining an adaptive angle-doppler ambiguity function in mimo radars |
WO2020034542A1 (zh) * | 2018-08-17 | 2020-02-20 | 平安科技(深圳)有限公司 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
CN111639626A (zh) * | 2020-06-11 | 2020-09-08 | 深圳市泰沃德自动化技术有限公司 | 三维点云数据处理方法、装置、计算机设备和存储介质 |
CN112085801A (zh) * | 2020-09-08 | 2020-12-15 | 清华大学苏州汽车研究院(吴江) | 基于神经网络的三维点云和二维图像融合的校准方法 |
-
2021
- 2021-08-13 CN CN202110931060.5A patent/CN113610172B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103646424A (zh) * | 2013-11-26 | 2014-03-19 | 北京空间机电研究所 | 一种空中无缝虚拟漫游系统构建方法 |
US20200011968A1 (en) * | 2017-03-03 | 2020-01-09 | Iee International Electronics & Engineering S.A. | Method and system for obtaining an adaptive angle-doppler ambiguity function in mimo radars |
CN108269300A (zh) * | 2017-10-31 | 2018-07-10 | 杭州先临三维科技股份有限公司 | 牙齿三维数据重建方法、装置和系统 |
US20190045276A1 (en) * | 2017-12-20 | 2019-02-07 | Intel Corporation | Free dimension format and codec |
WO2020034542A1 (zh) * | 2018-08-17 | 2020-02-20 | 平安科技(深圳)有限公司 | 神经网络模型训练、人脸识别方法、装置、设备及介质 |
CN111639626A (zh) * | 2020-06-11 | 2020-09-08 | 深圳市泰沃德自动化技术有限公司 | 三维点云数据处理方法、装置、计算机设备和存储介质 |
CN112085801A (zh) * | 2020-09-08 | 2020-12-15 | 清华大学苏州汽车研究院(吴江) | 基于神经网络的三维点云和二维图像融合的校准方法 |
Non-Patent Citations (1)
Title |
---|
夏正德;宋娜;刘宾;潘晋孝;闫文敏;邵子惠;: "基于字典学习的稠密光场重建算法", 物理学报, no. 06 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037921A (zh) * | 2021-11-26 | 2022-02-11 | 安徽送变电工程有限公司 | 基于无人机智能识别的弧垂建模方法及系统 |
CN114037921B (zh) * | 2021-11-26 | 2024-05-10 | 安徽送变电工程有限公司 | 基于无人机智能识别的弧垂建模方法及系统 |
CN115147054A (zh) * | 2022-09-05 | 2022-10-04 | 创新奇智(青岛)科技有限公司 | 货物装箱规划方法及装置 |
CN116071621A (zh) * | 2023-03-15 | 2023-05-05 | 中汽智联技术有限公司 | 针对感知算法的训练样本生成和验证方法、设备和介质 |
CN116071621B (zh) * | 2023-03-15 | 2023-06-23 | 中汽智联技术有限公司 | 针对感知算法的训练样本生成和验证方法、设备和介质 |
CN116580163A (zh) * | 2023-07-14 | 2023-08-11 | 深圳元戎启行科技有限公司 | 三维场景重建方法、电子设备及存储介质 |
CN116580163B (zh) * | 2023-07-14 | 2023-12-22 | 深圳元戎启行科技有限公司 | 三维场景重建方法、电子设备及存储介质 |
CN117058564A (zh) * | 2023-10-11 | 2023-11-14 | 光轮智能(北京)科技有限公司 | 一种虚拟感知数据获取方法及长尾场景数据挖掘方法 |
CN117058564B (zh) * | 2023-10-11 | 2023-12-22 | 光轮智能(北京)科技有限公司 | 一种虚拟感知数据获取方法及长尾场景数据挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113610172B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113610172B (zh) | 神经网络模型训练方法和装置、传感数据融合方法和装置 | |
CN113039563A (zh) | 学习生成用于训练神经网络的合成数据集 | |
US9747668B2 (en) | Reconstruction of articulated objects from a moving camera | |
CN112991413A (zh) | 自监督深度估测方法和系统 | |
CN110838122B (zh) | 点云的分割方法、装置及计算机存储介质 | |
EP3992908A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN112818778B (zh) | 车道线拟合方法、装置、介质以及电子设备 | |
CN112561978B (zh) | 深度估计网络的训练方法、图像的深度估计方法、设备 | |
US20230130281A1 (en) | Figure-Ground Neural Radiance Fields For Three-Dimensional Object Category Modelling | |
CN115082885A (zh) | 点云目标的检测方法、装置、设备及存储介质 | |
CN115797571A (zh) | 3d风格化场景的新视角合成方法 | |
CN110889426A (zh) | 三维表达体生成系统 | |
JP2024507727A (ja) | 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング | |
CN109049716A (zh) | 三维打印模型图的生成方法、装置、电子设备及存储介质 | |
EP3992909A1 (en) | Two-stage depth estimation machine learning algorithm and spherical warping layer for equi-rectangular projection stereo matching | |
CN115082636B (zh) | 基于混合高斯网络的单图像三维重建方法及设备 | |
WO2023086398A1 (en) | 3d rendering networks based on refractive neural radiance fields | |
CN113808006B (zh) | 一种基于二维图像重建三维网格模型的方法及装置 | |
CN111126310B (zh) | 一种基于场景迁移的行人性别识别方法 | |
CN114764746A (zh) | 激光雷达的超分辨率方法和装置、电子设备及存储介质 | |
CN113808186A (zh) | 训练数据生成方法、装置与电子设备 | |
CN117422629B (zh) | 一种实例感知的单目语义场景补全方法、介质及设备 | |
CN117593702B (zh) | 远程监控方法、装置、设备及存储介质 | |
US20230102186A1 (en) | Apparatus and method for estimating distance and non-transitory computer-readable medium containing computer program for estimating distance | |
US20230177722A1 (en) | Apparatus and method with object posture estimating |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |