CN117314968A - 运动信息估计方法、装置、设备、存储介质和程序产品 - Google Patents
运动信息估计方法、装置、设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN117314968A CN117314968A CN202311345588.XA CN202311345588A CN117314968A CN 117314968 A CN117314968 A CN 117314968A CN 202311345588 A CN202311345588 A CN 202311345588A CN 117314968 A CN117314968 A CN 117314968A
- Authority
- CN
- China
- Prior art keywords
- feature map
- motion estimation
- motion
- point cloud
- cloud data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000005070 sampling Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 17
- 230000002123 temporal effect Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 16
- 230000003287 optical effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 229910052698 phosphorus Inorganic materials 0.000 description 4
- 229910052799 carbon Inorganic materials 0.000 description 3
- 229910052757 nitrogen Inorganic materials 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/098—Distributed learning, e.g. federated learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开实施例涉及一种运动信息估计方法、装置、设备、存储介质和程序产品。所述方法包括:获取原始点云数据对应的伪图像特征图;将所述伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定所述伪图像特征图对应的目标特征图;根据所述目标特征图确定所述原始点云数据对应的场景流;所述场景流中包括所述原始点云数据对应的环境中各个点的运动信息;其中,所述运动估计网络包括多层运动估计层,所述多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入。采用本方法能够保证估计的运动信息的准确性。
Description
技术领域
本公开实施例涉及车辆自动驾驶技术领域,特别是涉及一种运动信息估计方法、装置、设备、存储介质和程序产品。
背景技术
自动驾驶车辆指的是通过在车辆上安装各类传感器,然后通过各类传感器对周围的环境信息进行感知,之后通过对各类传感器感知的数据进行处理,获得周围环境的运动信息、语义信息、位置信息等,其中运动信息的估计可以帮助自动驾驶车辆更好地感知到动态障碍物及计算物体的运动轨迹,最终用于自车路径规划等目的,以辅助车辆进行自动驾驶。
然而,目前的技术无法保证估计的运动信息的准确性。
发明内容
本公开实施例提供一种运动信息估计方法、装置、设备、存储介质和程序产品,可以保证估计的运动信息的准确性。
第一方面,本公开实施例提供一种运动信息估计方法,该方法包括:
获取原始点云数据对应的伪图像特征图;
将伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图;其中,上述运动估计网络包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入;
根据目标特征图确定原始点云数据对应的场景流;上述场景流中包括原始点云数据对应的环境中各个点的运动信息。
第二方面,本公开实施例提供一种运动信息估计装置,该装置包括:
获取模块,用于获取原始点云数据对应的伪图像特征图;
运动估计模块,用于将伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图;其中,上述运动估计网络包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入;
确定模块,用于根据目标特征图确定原始点云数据对应的场景流;上述场景流中包括原始点云数据对应的环境中各个点的运动信息。
第三方面,本公开实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的方法。
第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面的方法。
本公开实施例提供的运动信息估计方法、装置、设备、存储介质和程序产品,通过获取原始点云数据对应的伪图像特征图,并将该伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图,然后根据目标特征图确定原始点云数据对应的场景流;其中,该场景流中包括原始点云数据对应的环境中各个点的运动信息,且运动估计网络中包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入。在该方法中,由于在通过包括多层运动估计层的运动估计网络对场景流中运动信息进行估计时,可以将任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入,这样可以通过上一层的运动估计结果辅助下一层进行运动估计,估计时结合的信息较多较丰富,那么估计的目标特征图就越准确,进而通过目标特征图估计的运动信息就越准确,因此可以保证最终估计的运动信息的准确性。
附图说明
图1为相关技术一中运动信息估计的网络架构示例图;
图2为相关技术二中运动信息估计的网络架构示例图;
图3为一个实施例中计算机设备的内部结构图;
图4为一个实施例中运动信息估计方法的流程示意图;
图5为另一个实施例中运动信息估计方法的流程示意图;
图6为另一个实施例中运动信息估计方法的流程示意图;
图7为另一个实施例中运动估计网络的架构框图;
图8为另一个实施例中运动信息估计方法的流程示意图;
图9为另一个实施例中运动信息估计方法的整体流程框图;
图10为一个实施例中运动信息估计装置的结构框图。
具体实施方式
为了使本公开实施例的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开实施例,并不用于限定本公开实施例。
首先,在具体介绍本公开实施例的技术方案之前,先对本公开实施例基于的技术背景或者技术演进脉络进行介绍。通常情况下,在车辆自动驾驶领域,当前的技术背景是:一般需要对自动驾驶车辆的运动信息进行估计,以便通过估计的运动信息更好地辅助车辆自动驾驶。在对运动信息进行估计时,目前有两种估计方式,一种是采用图1所示PWC net为基础(比如与该网络有相似结构的算法如RAFT)进行运动信息估计,该方式中先用上层金字塔估计较大幅度的运动,将估计出的光流进行上采样,用该光流对特征进行偏移扭曲,用作下一层光流估计的输入,下一层估计的是对上一层光流估计结果的修正量;该方式中稠密光流在图像每个位置幅度都不同,上层金字塔有更大感受野能够计算幅度较大的光流值,并且随着从上到下的光流传递,可以将光流精度逐层提升,得到更加精细、更加准确的光流估计,但该方式中的网络结构的运算量比较大,从而导致运动估计速度较慢。另一种方式是采用图2所示的Motion Net进行运动信息估计,在Motion Net中,可以采用各层的时空卷积模块(STC Block)对输入数据同时进行时间和空间的下采样卷积操作,获得卷积特征,之后再对相应的卷积特征进行反卷积和二维卷积处理等,最终获得估计的运动信息,然而该方式对于大幅度运动估计,底层金字塔往往会估计错误,影响光流结果,即无法保证估计的运动信息的准确性。
基于该背景,申请人通过长期的模型模拟研发以及验证,发现对上述Motion Net运动网络进行改进之后可以使得既能保证估计的运动信息的准确性,还可以具有较快的运动估计速度。
需要说明的是,对于确定上述背景的几种方式各自存在的问题以及下述实施例介绍的技术方案,申请人均付出了大量的创造性劳动。
下面结合本公开实施例所应用的场景,对本公开实施例涉及的技术方案进行介绍。
本公开实施例提供的运动信息估计方法,可以应用于计算机设备,该该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种运动信息估计方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,如图4所示,提供了一种运动信息估计方法,以该方法应用于图1中的计算机设备为例进行说明,该方法可以包括以下步骤:
S202,获取原始点云数据对应的伪图像特征图。
在本步骤中,原始点云数据可以是采用传感器对环境进行采集获得的,该原始点云数据中的环境可以包括车辆及车辆周围的其他物体等。该原始点云数据可以是三维点云数据。
该传感器可以是激光雷达,那么采集的原始点云数据可以是激雷达点云数据,当然该传感器还可以是其他类型的传感器,比如毫米波雷达;该传感器可以设置于车辆上,也可以设置于路侧,或者还可以根据实际情况进行设定。
在传感器采集到环境的原始点云数据之后,可以将该原始点云数据发送给与传感器连接的计算机设备,这样计算机设备即可获得该原始点云数据并进行后续的运动估计处理。
在计算机设备获得环境的原始点云数据之后,可以采用图像转换相关算法或神经网络等方式,将原始点云数据中转换为伪图像特征图。对于这里的伪图像特征图,其可以是包括多个维度特征的特征图,这多个维度特征可以表示原始点云数据上与环境相关的特征。作为可选的实施例,这里的伪图像特征图可以包括四个维度的特征,该四个维度分别为时间维度、特征维度、二维平面的长度和二维平面的宽度。这里的二维平面可以是原始点云数据投影的平面,一般可以是XY平面,这里二维平面的长度和宽度可以是伪图像特征图中的各二维伪图像特征图的长度和宽度。这里的时间维度可以是有关原始点云数据中各个点的时间信息的维度,特征维度可以是原始点云数据中与环境相关的特征信息的维度。
这里通过将原始点云数据转换为伪图像特征图,这样的方式可以跳过复杂的3D卷积而进行2D的卷积,使得可以提升后续的运动估计效率。
S204,将伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图;其中,上述运动估计网络包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入。
在本步骤中,运动估计网络可以是神经网络,该运动估计网络的架构可以是金字塔型的网络架构,其中可以包括多层运动估计层,每层运动估计层均可以是包括至少一个卷积模块,用于对伪图像特征图进行卷积处理等,以实现运动估计,获得该运动估计层的运动估计结果。
该运动估计网络中的多层运动估计层依次相邻设置,且从顶层的运动估计层开始,每两个相邻的运动估计层中,其中上一层运动估计层的估计结果可以作为下一层运动估计层的输入,使得下一层运动估计层在进行运动估计时,可以结合上一层运动估计层的运动估结果,辅助下一层运动估计层进行更准确地运动估计,获得更为准确的运动估计结果。
具体的,在上述获得伪图像特征图之后,可以将伪图像特征图从运动估计层的底部输入至运动估计网络中,在该运动估计网络中通过各层运动估计层对伪图像特征图进行处理,并将每一层运动估计层的运动估计结果输入至下一层运动估计层中,以辅助下一层运动估计层进行更准确地运动估计,最终通过运动估计网络获得运动估计结果。
这里的运动估计结果可以是对伪图像特征图进行精细处理后的特征图,记为目标特征图,该目标特征图的精度高于伪图像特征图的精度,同时该目标特征图可以是对时间信息进行整合后且不包括时间信息的目标特征图,但是该目标特征图中的特征维度一般还是多个维度的特征。
S206,根据目标特征图确定原始点云数据对应的场景流;上述场景流中包括原始点云数据对应的环境中各个点的运动信息。
在本步骤中,在获得更高精度的目标特征图之后,就可以进行场景流及其中的运动信息的估计处理,作为可选的实施例,这里可以是将目标特征图输入至预设的运动头估计网络中进行处理,获得原始点云数据对应的场景流;该场景流为二维的场景流。
其中,场景流指的是可以利用双帧或多帧点云数据去还原周围环境的稠密场景流,得到环境中每个位置点的运动信息(包括二维/三维速度)。这里场景流实质是光流的三维形式,将三维的点云结构转换为BEV(Bird's Eye View,鸟瞰视角)下的二维特征后,对场景流的计算就可以转换为对光流的计算,也就是说,本步骤中的二维场景流也可以称为光流。
这里的运动头估计网络可以是神经网络,例如Motion Head。这里在获得目标特征图之后,可以将该目标特征图输入至运动头估计网络中进行运动估计处理,将目标特征图处理成二维的场景流,
该二维的场景流中包括上述环境中各个点的运动信息。这里的每个点代表环境中的每一个位置,因此这里的各个点的运动信息也可以是环境中每一个位置处的运动信息。这里的运动信息可以是速度信息,比如可以是二维的运动信息,包括在X方向上的速度和在Y方向上的速度。
在获得环境中各个位置的运动信息之后,这里的环境中包括车辆及其周围的物体等,即也可以获得车辆上各个位置的运动信息及周围各个位置的运动信息,这样就可以通过车辆上各个位置的运动信息及周围各个位置的运动信息为自动驾驶车辆提供一个较为准确全面的运动信息,以辅助车辆更好更准确地进行自动驾驶。
上述运动信息估计方法中,通过获取原始点云数据对应的伪图像特征图,并将该伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图,然后根据目标特征图确定原始点云数据对应的场景流;其中,该场景流中包括原始点云数据对应的环境中各个点的运动信息,且运动估计网络中包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入。在该方法中,由于在通过包括多层运动估计层的运动估计网络对场景流中运动信息进行估计时,可以将任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入,这样可以通过上一层的运动估计结果辅助下一层进行运动估计,估计时结合的信息较多较丰富,那么估计的目标特征图就越准确,进而通过目标特征图估计的运动信息就越准确,因此可以保证最终估计的运动信息的准确性。
以下实施例对上述运动估计网络的具体架构以及采用该运动估计网络具体进行运动估计的过程进行进一步说明。
在另一个实施例中,提供了另一种运动信息估计方法,上述每层运动估计层包括时间卷积模块和/或空间卷积模块,在上述实施例的基础上,如图5所示,上述S204可以包括以下步骤:
S302,将伪图像特征图输入至运动估计网络中,采用每层运动估计层中的空间卷积模块对伪图像特征进行空间信息的卷积处理,获得不同尺度的第一特征图。
在本步骤中,该运动估计网络中包括多个时间卷积模块和多个空间卷积模块,该多个时间卷积模块和多个空间卷积模块分别可以作为运动估计网络中各层运动估计层中的卷积模块。这里的时间卷积模块可以对输入数据进行时间信息的卷积等整合处理,空间卷积模块可以对输入数据进行空间信息的卷积等整合处理。
上述在获得伪图像特征图之后,可以将伪图像特征图从运动估计网络的底部输入至运动估计网络中,采用各空间卷积模块对伪图像特征图进行不同尺度的空间信息整合处理,这里可以是上一个空间卷积模块输出的特征图作为下一个空间卷积模块的输入,每个空间卷积模块可以是对相应的输入数据进行二维卷积(例如下采样处理)。每经过一个空间卷积模块的处理,输出的特征图的尺度就会减少为输入的特征图的一半,输出的时间维度长度不变,输出的特征维度长度可以变为输入的特征维度长度的两倍,这样可以获得不同尺度的特征图,均可以记为第一尺度特征图。
示例地,比如伪图像特征图可以表示为T*C*W*H,有三个空间卷积模块,比如第一个空间卷积模块的输入为该伪图像特征图,输出可以是T*2C*W/2*H/2,第二个空间卷积模块的输入为T*2C*W/2*H/2,输出可以是T*4C*W/4*H/4,第三个空间卷积模块的输入为T*4C*W/4*H/4,输出可以是T*8C*W/8*H/8。其中的T可以是时间维度,C可以是特征维度,W可以是二维平面的长度,H可以是二维平面的宽度。
S304,采用每层运动估计层中的时间卷积模块对相应尺度的第一特征图进行时间信息的卷积处理,获得不同尺度的第二特征图。
在本步骤中,如上提到的,伪图像特征图可以先输入至每层运动估计层中的空间卷积模块中进行卷积信息的整合处理,获得相应尺度的第一特征度,之后可以采用相应运动估计层中的时间卷积模块对相应的第一特征图进行时间信息的整合处理,即在时间维度上对输入数据进行卷积处理,获得相应尺度的特征图,记为第二特征图。
这里的卷积核大小例如可以是(T,1,1),也就是说,每个时间卷积模块输出的第二特征图的时间维度T变为1,其长度和宽度保持不变,输出的特征维度长度与输入的特征维度长度相同。
另外,由上述描述可知,本实施例中的空间卷积模块和时间卷积模块之间是相互独立的,即空间卷积模块的数量和时间卷积模块的数量可以不相等。
S306,根据不同尺度的第二特征图确定伪图像特征图对应的目标特征图。
在本步骤中,在上述获得不同尺度的第二特征图之后,可以通过对不同尺度的第二特征度再进一步处理,比如卷积处理、上采样处理等操作,最终获得目标特征图。
需要说明的是,该目标特征图的长度和宽度一般是和输入的伪图像特征图的长度和宽度相同的,即不改变输入的伪图像特征图的长度和宽度等尺寸信息。
在本实施例中,通过将伪图像特征图输入至各层运动估计层中的空间卷积模块进行空间信息的卷积处理以及采用时间卷积模块对相应空间卷积模块输出的特征图进行时间信息的卷积处理以获得目标特征图,这样通过相互独立的空间卷积模块和时间卷积模块分别对伪图像特征图进行空间维度和时间维度上的特征处理,这样可以降低运动估计网络的计算量,提升运动信息估计的效率。
以下实施例对上述通过各时间卷积模块输出的不同尺度的第二特征图具体确定目标特征图的过程进行说明。
在另一个实施例中,提供了另一种运动信息估计方法,在上述实施例的基础上,如图6所示,上述S306可以包括以下步骤:
S402,对各第二特征图中位于顶层运动估计层的第二特征图进行上采样处理,获得上采样特征图。
在本步骤中,参见图7所示的运动估计网络的架构框图,图中所示的运动估计网络为倒立的金字塔结构,最上面是运动估计网络的底层或底部,即金字塔的底层或底部,最下面是运动估计网络的顶层或顶部,即金字塔的顶层或顶部。需要说明的是,图7中仅是以四层网络架构示例,但不表示运动估计网络仅是四层架构,本实施例中的运动估计网络可以是包括任意数量层架构的网络,比如可以是包括两层网络架构、三层网络架构、五层网络架构等。
在图7中,S-block表示空间卷积模块,T-block表示时间卷积模块,Upsample表示上采样模块,Concat表示连接。可见,上述伪图像特征图可以从运动估计网络的底部输入至运动估计网络中,通过运动估计网络中自下而上的多个空间卷积模块S-block分别进行空间信息的卷积处理,获得不同尺度的第一特征图;然后每个空间卷积模块输出的尺度图通过相应的时间卷积模块进行时间信息的卷积处理,获得相应尺度的第二特征图。这里需要说明的是,伪图像特征图在从运动估计网络的底部输入至运动估计网络中时,也会通过一个时间卷积模块对其进行时间信息的卷积处理,获得相应尺度的第二特征图。
进一步地,对于上述各时间卷积模块获得的第二特征图,作为可选的实施例,各第二特征图中位于顶层运动估计层的第二特征图的尺度小于位于底层运动估计层的第二特征图的尺度。同样的,对于上述各空间卷积模块获得的第一特征图,作为可选的实施例,各第一特征图中位于顶层运动估计层的第一特征图的尺度小于位于底层运动估计层的第一特征图的尺度。
也就是说,各空间卷积模块可以是位于运动估计网络的下采样阶段,各时间卷积模块可以是位于运动估计网络的上采样阶段,这样可以从运动估计网络的顶层开始进行时间维度的卷积处理,使得最终每一层运动估计时均可以参考到相邻时间范围和空间范围内的数据,获得更准确的运动估计结果。
从运动估计网络的顶层开始,在顶层的时间卷积模块获得相应的第二特征图之后,可以对该顶层的时间卷积模块获得的第二特征图进行上采样处理,获得上采样特征图。这里的上采样处理一般是按2的一次方的方式进行上采样,即每次上采样处理都是对输入数据的尺寸进行翻倍。这里的上采样处理主要是为了便于进行后续的特征连接及卷积处理。
S404,执行卷积操作,该卷积操作包括:对上采样特征图及其相邻的下一层运动估计层中的第二特征图进行连接及卷积处理,获得中间特征图。
在本步骤中,如上提到的,可以对顶层时间卷积模块获得的第二特征图进行上采样处理,获得上采样特征图,该上采样特征图一般是和其相邻的下一层的时间卷积模块输出的第二特征图的尺度相同的,那么这里可以对上采样特征图和相邻的下一层时间卷积模块输出的第二特征图进行连接处理或拼接处理等(例如图7中的Concat),获得连接或拼接后的特征图。然后可以对该拼接后的特征图进行卷积处理,这里的卷积处理也可以采用空间卷积模块S-block进行卷积处理,获得中间特征图。
S406,检测是否满足迭代截止条件,若否,则对中间特征图进行上采样处理,获得新的上采样特征图,并迭代执行上述卷积操作,直至满足迭代截止条件为止,获得目标特征图。
在本步骤中,以第二层为例,在上述获得第二层的中间特征图之后,可以检测当前是否满足迭代截止条件,若满足,则结束运动估计网络的迭代过程,将当前获得的第二层的中间特征图作为目标特征图。若不满足,则继续对该第二层的中间特征图进行上采样处理,获得该第二层的中间特征图对应的上采样特征图,并将该上采样特征图作为新的上采样特征图,返回执行上述对上采样特征图及其相邻的下一层运动估计层中的第二特征图进行连接及卷积处理,获得中间特征图步骤,然后会获得第三层的中间特征图。
之后可以继续检测当前是否满足迭代截止条件,若满足,则结束运动估计网络的迭代过程,将当前第三层的中间特征图作为目标特征图。若不满足,则按照上述的方式,继续对该第三层的中间特征图进行上采样处理,获得新的上采样特征图之后再迭代执行上述对上采样特征图及其相邻的下一层运动估计层中的第二特征图进行连接及卷积处理,获得中间特征图步骤,直至当前满足迭代截止条件为止。这里在当前满足迭代条件时,可以将当前获得中间特征图作为最终的目标特征图。
对于上述迭代截止条件,其可以包括以下至少一种:中间特征图的尺度与伪图像特征图的尺度相同;迭代次数达到迭代次数阈值。
基于此,上述在检测当前是否满足迭代截止条件时,可以是检测当前获得的中间特征图的尺度是否和原来的伪图像特征图的尺度相同,若相同,则说明满足迭代截止条件;若不相同,则说明不满足迭代截止条件,需要继续迭代处理。这里的尺度相同主要指的是二维平面的长度和宽度相同。
或者也可以检测当前迭代次数是否大于迭代次数阈值,若当前迭代次数小于或等于迭代次数阈值,则说明不满足迭代截止条件,需要继续迭代处理。若当前迭代次数大于迭代次数阈值,则说明满足迭代截止条件。
本实施例中,通过对顶层的第二特征图进行上采样处理之后迭代执行卷积操作,具体迭代的卷积操作包括对上采样特征图及其相邻下一层的第二特征图进行连接及卷积处理,获得中间特征图,并在满足迭代截止条件时获得目标特征图,这样通过不断迭代操作可以使得每一层进行运动估计时均结合相邻层的时间和空间信息,结合的信息更多更丰富,且不需要进行反卷积和时间池化等处理,这样可以减少网络进行运动估计的运算量,同时还可以保证最终运动估计获得的估计结果的精度。同时通过设置多种不同的迭代截止条件,使得可以整个迭代过程更加完善,且不会进入死循环,保证最终可以顺利获得准确的运动估计结果。
以下实施例对上述通过原始点云数据获得相应的伪图像特征图的一种可能的实现方式进行说明。
在另一个实施例中,提供了另一种运动信息估计方法,在上述实施例的基础上,如图8所示,上述S202可以包括以下步骤:
S502,获取原始点云数据。
在本步骤中,对于原始点云数据的获取方式,可以参见上述S202中的相关获取方式,这里就不再赘述。
S504,将原始点云数据输入至预设的立柱特征网络中进行立柱特征转化处理,确定伪图像特征图。
在本步骤中,立柱特征网络可以是神经网络,例如可以是Pillar Feature Net,其主要是将原始点云数据转换为伪图片。
具体转换时,首先对点云进行区域的划分,这个步骤和voxel(体素)类似,构造出的pillar(立柱)和voxel最大的不同在于pillar在z方向上没有高度的限制。对pillar中的点还需要进行增广操作,从原始4维信息增广到9维(多出的5维分别是pillar的中心点三位坐标以及每个点x,y到中心的距离)。由于点云分布不均匀的问题,要对非空的pillar进行一次采样,限制其中点的个数,得到尺寸为(D,P,N)的tensor(张量):D是特征的维度,这里为9;P是每次抽样中非空pillar的个数;N是每个pillar中点的个数。接下来对尺寸为(D,P,N)的tensor进行特征提取生成尺寸为(C,P,N)的新tensor,然后进行通道上的maxoperation(最大操作)降维成(C,P)的tensor。最后scatter back(散射回来)回原来的pillar location(立柱位置)去构造尺寸为(C,H,W)的伪图片,其中H是高度,W是宽度,C是特征维度数量。
另外,上述是针对一个时间点的点云数据进行伪图片的转换,本实施例中还需要考虑时间信息,因此可以将各个时间点的点云数据均进行伪图片的转换后,按照时间顺进行排列,即可获得包括时间信息的伪图片。这里每个伪图片可以是二维的图片。
如上提到的,伪图片中包括多种类型的特征,实质上是特征图,因此上述获得的包括时间信息的伪图片即是上述的伪图像特征图。
这里通过将原始点云数据转换为包括时间信息的二维伪图像特征图,这样的方式可以跳过复杂的3D卷积而使得后续进行2D的卷积以实现运动估计,使得可以提升后续的运动估计效率。
本实施例中,通过将获取的点云数据输入至立柱特征网络中进行立柱特征转化处理,确定伪图像特征图,这样可以跳过复杂的3D卷积而使得后续进行2D的卷积以实现运动估计,提升后续的运动估计效率。
下面结合一个具体的自动驾驶场景来介绍本公开的一个实施例,具体可以结合图9所示的流程结构框图进行说明,在上述实施例的基础上,该方法包括如下步骤:
S1,获取原始点云数据(即图中的Point cloud);
S2,将原始点云数据输入至预设的立柱特征网络中进行立柱特征转化处理,确定伪图像特征图;
具体的,其中立柱特征网络即图中的Pillar Feature Net,可以先将原始点云数据(即图中的Point cloud)转化为堆叠立柱(即图中的stacked pillars),然后进行特征学习(即图中的Learned Features),最后进行伪图像转换处理(即图中的Pseudo image),获得最终转换的伪图像特征图;
S3,将伪图像特征图输入至运动估计网络(即图中的Neck)中进行运动估计处理,确定伪图像特征图对应的目标特征图;
S4,将目标特征图输入至运动头估计网络(即图中的Motion Head)中进行处理,获得预测结果(即图中的Predictions);该预测结果为原始点云数据对应的场景流,场景流中包括原始点云数据对应的环境中各个点的运动信息。
进一步地,针对上述立柱特征网络、运动估计网络以及运动头估计网络这三个网络,均可以采用训练样本进行联合训练,该训练样本集中包括多个训练点云数据以及每个训练点云数据对应的真实运动信息。具体在训练过程中,可以通过每个训练点云数据的预测运动信息和对应的真实运动信息之间的损失来对立柱特征网络、运动估计网络以及运动头估计网络这三个网络进行联合训练。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种运动信息估计装置,包括:获取模块、运动估计模块和确定模块,其中:
获取模块,用于获取原始点云数据对应的伪图像特征图;
运动估计模块,用于将伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定伪图像特征图对应的目标特征图;其中,上述运动估计网络包括多层运动估计层,多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入;
确定模块,用于根据目标特征图确定原始点云数据对应的场景流;上述场景流中包括原始点云数据对应的环境中各个点的运动信息。
可选的,上述伪图像特征图包括四个维度的特征,四个维度分别为时间维度、特征维度、二维平面的长度和二维平面的宽度。
在另一个实施例中,提供了另一种运动信息估计装置,在上述实施例的基础上,每层运动估计层包括时间卷积模块和/或空间卷积模块,上述运动估计模块可以包括:
空间估计单元,用于将伪图像特征图输入至运动估计网络中,采用每层运动估计层中的空间卷积模块对伪图像特征进行空间信息的卷积处理,获得不同尺度的第一特征图;
时间估计单元,用于采用每层运动估计层中的时间卷积模块对相应尺度的第一特征图进行时间信息的卷积处理,获得不同尺度的第二特征图;
目标特征图确定单元,用于根据不同尺度的第二特征图确定伪图像特征图对应的目标特征图。
在另一个实施例中,提供了另一种运动信息估计装置,在上述实施例的基础上,上述目标特征图确定单元,可以包括:
上采样子单元,用于对各第二特征图中位于顶层运动估计层的第二特征图进行上采样处理,获得上采样特征图;
执行子单元,用于执行卷积操作,卷积操作包括:对上采样特征图及其相邻的下一层运动估计层中的第二特征图进行连接及卷积处理,获得中间特征图;
检测子单元,用于检测是否满足迭代截止条件,若否,则对中间特征图进行上采样处理,获得新的上采样特征图,并迭代执行卷积操作,直至满足迭代截止条件为止,获得目标特征图。
可选的,上述迭代截止条件包括以下至少一种:中间特征图的尺度与伪图像特征图的尺度相同;迭代次数达到迭代次数阈值。
可选的,各第二特征图中位于顶层运动估计层的第二特征图的尺度小于位于底层运动估计层的第二特征图的尺度。
在另一个实施例中,提供了另一种运动信息估计装置,在上述实施例的基础上,上述确定模块,可以包括:
确定单元,用于将目标特征图输入至预设的运动头估计网络中进行处理,获得原始点云数据对应的场景流;场景流为二维的场景流。
在另一个实施例中,提供了另一种运动信息估计装置,在上述实施例的基础上,上述获取模块,可以包括:
获取单元,用于获取原始点云数据;
转化单元,用于将原始点云数据输入至预设的立柱特征网络中进行立柱特征转化处理,确定伪图像特征图。
关于运动信息估计装置的具体限定可以参见上文中对于运动信息估计方法的限定,在此不再赘述。上述运动信息估计装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由计算机设备的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序被处理器执行时,可以实现上述方法。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行这些计算机指令时,可以全部或部分地按照本公开实施例所述的流程或功能实现上述方法中的部分或者全部。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本公开实施例所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本公开实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开实施例构思的前提下,还可以做出若干变形和改进,这些都属于本公开实施例的保护范围。因此,本公开实施例专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种运动信息估计方法,其特征在于,所述方法包括:
获取原始点云数据对应的伪图像特征图;
将所述伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定所述伪图像特征图对应的目标特征图;其中,所述运动估计网络包括多层运动估计层,所述多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入;
根据所述目标特征图确定所述原始点云数据对应的场景流;所述场景流中包括所述原始点云数据对应的环境中各个点的运动信息。
2.根据权利要求1所述的方法,其特征在于,每层所述运动估计层包括时间卷积模块和/或空间卷积模块,所述将所述伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定所述伪图像特征图对应的目标特征图,包括:
将所述伪图像特征图输入至所述运动估计网络中,采用每层所述运动估计层中的所述空间卷积模块对所述伪图像特征进行空间信息的卷积处理,获得不同尺度的第一特征图;
以及,采用每层所述运动估计层中的所述时间卷积模块对相应尺度的第一特征图进行时间信息的卷积处理,获得不同尺度的第二特征图;
根据所述不同尺度的第二特征图确定所述伪图像特征图对应的目标特征图。
3.根据权利要求2所述的方法,其特征在于,所述根据所述不同尺度的第二特征图确定所述伪图像特征图对应的目标特征图,包括:
对各所述第二特征图中位于顶层运动估计层的第二特征图进行上采样处理,获得上采样特征图;
执行卷积操作,所述卷积操作包括:对所述上采样特征图及其相邻的下一层运动估计层中的第二特征图进行连接及卷积处理,获得中间特征图;
检测是否满足迭代截止条件,若否,则对所述中间特征图进行上采样处理,获得新的上采样特征图,并迭代执行所述卷积操作,直至满足迭代截止条件为止,获得目标特征图。
4.根据权利要求3所述的方法,其特征在于,所述迭代截止条件包括以下至少一种:
所述中间特征图的尺度与所述伪图像特征图的尺度相同;
迭代次数达到迭代次数阈值。
5.根据权利要求2-4任一项所述的方法,其特征在于,各所述第二特征图中位于顶层运动估计层的第二特征图的尺度小于位于底层运动估计层的第二特征图的尺度。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标特征图确定所述原始点云数据对应的场景流,包括:
将所述目标特征图输入至预设的运动头估计网络中进行处理,获得所述原始点云数据对应的场景流;所述场景流为二维的场景流。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述获取原始点云数据对应的伪图像特征图,包括:
获取原始点云数据;
将所述原始点云数据输入至预设的立柱特征网络中进行立柱特征转化处理,确定所述伪图像特征图。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述伪图像特征图包括四个维度的特征,所述四个维度分别为时间维度、特征维度、二维平面的长度和二维平面的宽度。
9.一种运动信息估计装置,其特征在于,所述装置包括:
获取模块,用于获取原始点云数据对应的伪图像特征图;
运动估计模块,用于将所述伪图像特征图输入至预设的运动估计网络中进行运动估计处理,确定所述伪图像特征图对应的目标特征图;其中,所述运动估计网络包括多层运动估计层,所述多层运动估计层中的任一层运动估计层的估计结果作为相邻的下一层运动估计层的输入;
确定模块,用于根据所述目标特征图确定所述原始点云数据对应的场景流;所述场景流中包括所述原始点云数据对应的环境中各个点的运动信息。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述的方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345588.XA CN117314968A (zh) | 2023-10-17 | 2023-10-17 | 运动信息估计方法、装置、设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311345588.XA CN117314968A (zh) | 2023-10-17 | 2023-10-17 | 运动信息估计方法、装置、设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117314968A true CN117314968A (zh) | 2023-12-29 |
Family
ID=89297044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311345588.XA Pending CN117314968A (zh) | 2023-10-17 | 2023-10-17 | 运动信息估计方法、装置、设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117314968A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117622228A (zh) * | 2024-01-25 | 2024-03-01 | 交通运输部公路科学研究所 | 一种车内无人自动驾驶营运汽车远程操控方法及装置 |
-
2023
- 2023-10-17 CN CN202311345588.XA patent/CN117314968A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117622228A (zh) * | 2024-01-25 | 2024-03-01 | 交通运输部公路科学研究所 | 一种车内无人自动驾驶营运汽车远程操控方法及装置 |
CN117622228B (zh) * | 2024-01-25 | 2024-04-05 | 交通运输部公路科学研究所 | 一种车内无人自动驾驶营运汽车远程操控方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
US20190279005A1 (en) | Neural networks for object detection and characterization | |
EP3571664B1 (en) | Determining the location of a mobile device | |
EP3822852B1 (en) | Method, apparatus, computer storage medium and program for training a trajectory planning model | |
US11966234B2 (en) | System and method for monocular depth estimation from semantic information | |
KR20190039382A (ko) | 회귀 분석으로 2d 바운딩 박스에서 수도(pseudo)-3d박스를 획득하는 방법 및 이를 이용한 학습 장치 및 테스트 장치 | |
CN111860072A (zh) | 泊车控制方法、装置、计算机设备及计算机可读存储介质 | |
CN112861619A (zh) | 模型的训练方法、车道线检测方法、设备及装置 | |
KR101030317B1 (ko) | 스테레오 비전을 이용하여 장애물을 추적하는 장치 및 방법 | |
CN117314968A (zh) | 运动信息估计方法、装置、设备、存储介质和程序产品 | |
CN111488783B (zh) | 基于cnn检测伪3d边界框的方法及其装置 | |
KR20220150899A (ko) | 차선 마커 검출 | |
US12112552B2 (en) | Lane marker recognition | |
CN114140758A (zh) | 一种目标检测方法、装置及计算机设备 | |
US11544898B2 (en) | Method, computer device and storage medium for real-time urban scene reconstruction | |
US20230206456A1 (en) | System and method for point supervised edge detection | |
KR20210024862A (ko) | 계층적인 피라미드를 이용하여 객체를 검출하는 객체 검출 시스템 및 이의 객체 검출 방법 | |
CN114118247A (zh) | 一种基于多传感器融合的无锚框3d目标检测方法 | |
EP3571665B1 (en) | Determining the location of a mobile device | |
CN115984634B (zh) | 图像检测方法、装置、设备、存储介质和程序产品 | |
CN116883972A (zh) | 确定障碍物空间位置的方法、模型的训练方法和装置 | |
JP7556142B2 (ja) | 点群からの効率的な三次元物体検出 | |
US20230097594A1 (en) | Information processing device and onboard control device | |
CN115147720A (zh) | 基于坐标注意力和长短距上下文的sar舰船检测方法 | |
CN115131762A (zh) | 一种车辆泊车方法、系统及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |