CN115049872A

CN115049872A - 一种融合图像点云特征的分类方法和装置

Info

Publication number: CN115049872A
Application number: CN202210515948.5A
Authority: CN
Inventors: 何哲琪; 冯阳; 张雨
Original assignee: Suzhou Qingyu Technology Co Ltd
Current assignee: Suzhou Qingyu Technology Co Ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-09-13

Abstract

本发明实施例涉及一种融合图像点云特征的分类方法和装置，所述方法包括：获取指定时段内指定摄像头拍摄的多个图像生成第一图像序列，指定雷达扫描生成的多个扫描点云生成第一点云序列；根据第一图像序列和第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量；基于分类神经网络对融合特征向量进行分类处理得到对应的分类向量；将取值最大的分类向量数据对应的分类类别作为本次分类结果输出。通过本发明，可以提高分类精度。

Description

一种融合图像点云特征的分类方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种融合图像点云特征的分类方法和装置。

背景技术

自动驾驶系统的感知模块会基于感知传感器(摄像头、雷达等)获取的感知数据(摄像头拍摄图像、雷达点云)对自车行驶环境中的障碍物进行目标分类并将分类结果传输给下游模块。在进行分类处理时，感知模块的常规做法是先分别基于图像特征、点云特征进行分类，再对二者分类结果进行比对，若分类一致或有交集则将相交部分作为分类结果输出。这种处理方式一方面要执行两组完整的分类处理流程、时间消耗较大；另一方面分类交集范围不好确定，容易导致分类范围过大的问题。

发明内容

本发明的目的，就是针对现有技术的缺陷，提供一种融合图像点云特征的分类方法、装置、电子设备及计算机可读存储介质，选择最近时段内的图像和点云组成对应的图像、点云序列，并基于ResNet18神经网络对图像序列进行特征提取、基于PointNet神经网络对点云序列进行特征提取，并对提取出的图像、点云特征进行向量合并，并基于长短期记忆网络(Long Short-Term Memory,LSTM)对合并向量进行特征融合，再使用分类神经网络根据特征融合向量进行分类处理。通过本发明，一方面只需并列执行两组特征处理流程，缩短了处理时间；另一方面基于图像和点云的融合特征进行分类，分类结果更明确、分类精度更高。

为实现上述目的，本发明实施例第一方面提供了一种融合图像点云特征的分类方法，所述方法包括：

获取指定时段内指定摄像头拍摄的多个图像生成第一图像序列；并获取所述指定时段内与所述指定摄像头对应的指定雷达扫描生成的多个扫描点云生成第一点云序列；所述第一图像序列包括多个第一图像，所述第一点云序列包括多个第一点云；

根据所述第一图像序列和所述第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量；

基于分类神经网络对所述融合特征向量进行分类处理得到对应的分类向量；所述分类向量为一维向量，包括指定数量m个分类向量数据，各个所述分类向量数据分别对应一个分类类别；所述分类类别包括6类类别分别为车、行人、骑行者、绿植、栅栏和其它物体；

将取值最大的所述分类向量数据对应的所述分类类别作为本次分类结果输出。

优选的，所述根据所述第一图像序列和所述第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量，具体包括：

根据所述第一图像序列进行图像特征提取处理生成对应的第一特征向量；

根据所述第一点云序列进行点云特征提取处理生成对应的第二特征向量；

对所述第一、第二特征向量进行向量合并得到对应的第三特征向量；

将所述第三特征向量输入LSTM神经网络进行特征融合处理生成对应的融合特征向量。

进一步的，所述根据所述第一图像序列进行图像特征提取处理生成对应的第一特征向量，具体包括：

对所述第一图像序列的所述第一图像的数量进行统计生成第一数量b₁；

将所述第一图像序列的各个所述第一图像分别输入ResNet18神经网络进行特征提取处理生成对应的第一图像特征向量；所述第一图像特征向量的形状为1×1024；

由得到的所述第一数量b₁个所述第一图像特征向量组成所述第一特征向量；所述第一特征向量的形状为b₁×1024。

进一步的，所述根据所述第一点云序列进行点云特征提取处理生成对应的第二特征向量，具体包括：

对所述第一点云序列的所述第一点云的数量进行统计生成第二数量b₂；

将所述第一点云序列的各个所述第一点云分别输入PointNet神经网络进行特征提取处理生成对应的第一点云特征向量；所述第一点云特征向量的形状为1×1024；

由得到的所述第二数量b₂个所述第一点云特征向量组成所述第二特征向量；所述第二特征向量的形状为b₂×1024。

进一步的，所述第三特征向量的形状为(b₁+b₂)×1024；第一数量b₁为所述第一图像序列的所述第一图像的数量，第二数量b₂为所述第一点云序列的所述第一点云的数量。

进一步的，所述将所述第三特征向量输入LSTM神经网络进行特征融合处理生成对应的融合特征向量，具体包括：

将结构为(b₁+b₂)×1024的所述第三特征向量输入所述LSTM神经网络，由所述LSTM神经网络对所述第三特征向量1024个维度上的(b₁+b₂)个特征进行特征融合，从而得到对应的所述融合特征向量；所述融合特征向量的结构为1×1024。

优选的，所述分类神经网络包括全连接网络层和激活网络层组成；所述基于分类神经网络对所述融合特征向量进行分类处理得到对应的分类向量，具体包括：

将所述融合特征向量输入所述分类神经网络的所述全连接网络层进行全连接运算输出对应的全连接向量；并将所述全连接向量输入所述激活网络层进行分类评分得到对应的所述分类向量。

本发明实施例第二方面提供了一种用于实现上述第一方面所述的融合图像点云特征的分类方法的装置,所述装置包括：获取模块、特征融合模块、分类模块；

所述获取模块用于获取指定时段内指定摄像头拍摄的多个图像生成第一图像序列；并获取所述指定时段内与所述指定摄像头对应的指定雷达扫描生成的多个扫描点云生成第一点云序列；所述第一图像序列包括多个第一图像，所述第一点云序列包括多个第一点云；

所述特征融合模块用于根据所述第一图像序列和所述第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量；

所述分类模块用于基于分类神经网络对所述融合特征向量进行分类处理得到对应的分类向量；并将取值最大的所述分类向量数据对应的所述分类类别作为本次分类结果输出；所述分类向量为一维向量，包括指定数量m个分类向量数据，各个所述分类向量数据分别对应一个分类类别；所述分类类别包括6类类别分别为车、行人、骑行者、绿植、栅栏和其它物体。

本发明实施例第三方面提供了一种电子设备，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现上述第一方面所述的方法步骤；

所述收发器与所述处理器耦合，由所述处理器控制所述收发器进行消息收发。

本发明实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行上述第一方面所述的方法的指令。

本发明实施例提供了一种融合图像点云特征的分类方法、装置、电子设备及计算机可读存储介质，选择最近时段内的图像和点云组成对应的图像、点云序列，并基于ResNet18神经网络对图像序列进行特征提取、基于PointNet神经网络对点云序列进行特征提取，并对提取出的图像、点云特征进行向量合并，并基于LSTM对合并向量进行特征融合，再使用分类神经网络根据特征融合向量进行分类处理。通过本发明，一方面只需并列执行两组特征处理流程，缩短了处理时间；另一方面基于图像和点云的融合特征进行分类使得分类结果更明确，提高了分类精度。

附图说明

图1为本发明实施例一提供的一种融合图像点云特征的分类方法示意图；

图2为本发明实施例二提供的一种融合图像点云特征的分类装置的模块结构图；

图3为本发明实施例三提供的一种电子设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例一提供一种融合图像点云特征的分类方法，如图1为本发明实施例一提供的一种融合图像点云特征的分类方法示意图所示，本方法主要包括如下步骤：

步骤1，获取指定时段内指定摄像头拍摄的多个图像生成第一图像序列；并获取指定时段内与指定摄像头对应的指定雷达扫描生成的多个扫描点云生成第一点云序列；

其中，第一图像序列包括多个第一图像，第一点云序列包括多个第一点云。这里，指定时段可任意设置，默认为最近的一个时段；感知模块从指定摄像头处获取第一图像序列，从指定雷达处获取第一点云序列；该指定摄像头与指定雷达观测的场景相同、时间相同；第一图像序列为指定摄像头在指定时段内拍摄的图像序列；第一点云序列为指定雷达在指定时段内扫描的点云序列。

步骤2，根据第一图像序列和第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量；

这里，本发明实施例首先分别对第一图像序列和第一点云序列进行特征提取，再对二者的特征向量进行合并和特征融合从而得到融合特征向量；

具体包括：步骤21，根据第一图像序列进行图像特征提取处理生成对应的第一特征向量；

具体包括：步骤211，对第一图像序列的第一图像的数量进行统计生成第一数量b₁；

步骤212，将第一图像序列的各个第一图像分别输入ResNet18神经网络进行特征提取处理生成对应的第一图像特征向量；

其中，第一图像特征向量的形状为1×1024；

这里，由微软研发部门(Microsoft Research)的作者Kaiming He、XiangyuZhang、Shaoqing Ren、Jian Sun发表的论文《Deep Residual Learning for ImageRecognition》可知，ResNet18神经网络的网络结构由1个卷积层、4个残差单元ResBlock(每个ResBlock由conv1层、conv2_x层、conv3_x层、conv4_x层、conv5_x层和最后的一个分类器组成；其中，conv1层为一层传统卷积网络层，conv2_x层、conv3_x层、conv4_x层、conv5_x层则为残差网络层，各残差网络层包括2个连续残差模块、各连续残差模块包括2层卷积层，分类器由池化层、全连接层和softmax分类函数构成，ResNet18神经网络的网络层数总共为1+4*2*2+1＝18层；

需要说明的是，本发明实施例将第一图像序列的各个第一图像分别输入ResNet18神经网络进行特征提取处理时，仅会利用ResNet18神经网络的conv1层、conv2_x层、conv3_x层、conv4_x层、conv5_x层进行运算并不使用该网络的分类器进行分类；另外，conv5_x层输出特征向量的数据通道数小于1024，还需通过补位将输出特征向量的数据通道数扩到1024；所以，将第一图像序列的各个第一图像分别输入ResNet18神经网络进行特征提取处理生成对应的第一图像特征向量具体为：将当前第一图像输入ResNet18神经网络的conv1层进行运算得到对应的第一输出向量，并将第一输出向量输入conv2_x层进行运算得到对应的第二输出向量，并将第二输出向量输入conv3_x层进行运算得到对应的第三输出向量，并将第三输出向量输入conv4_x层进行运算得到对应的第四输出向量，并将第四输出向量输入conv5_x层进行运算得到对应的第五输出向量，并通过补0将第五输出向量的数据通道扩展到1024从而得到形状为1×1024的第一图像特征向量；

步骤213，由得到的第一数量b₁个第一图像特征向量组成第一特征向量；

其中，第一特征向量的形状为b₁×1024；

步骤22，根据第一点云序列进行点云特征提取处理生成对应的第二特征向量；

具体包括：步骤221，对第一点云序列的第一点云的数量进行统计生成第二数量b₂；

步骤222，将第一点云序列的各个第一点云分别输入PointNet神经网络进行特征提取处理生成对应的第一点云特征向量；

其中，第一点云特征向量的形状为1×1024；

这里，由斯坦福大学(Stanford University)的作者：Charles R.Qi*，Hao Su*，Kaichun Mo，Leonidas J.Guibas发表的论文《PointNet:Deep Learning on Point Setsfor 3D Classification and Segmentation》可知，PointNet神经网络有两种应用网络结构：分类网络(Classification Network)结构和分割网络(Segmentation Network)结构，本发明实施例采用其中的分类网络对点云分支序列进行特征提取；该分类网络结构由多级特征转换网络、最大池化网络和全连接分类网络构成；其中，多级特征转换网络用于对输入的点云进行多级特征转换，最大池化网络用于对多级特征转换网络的输出向量进行特征聚合，全连接分类网络则通过对最大池化网络的输出向量进行三级全连接得到最终的分类向量，此处最大池化网络输出向量的数据通道数为1024；

需要说明的是，本发明实施例将第一点云序列的各个第一点云分别输入PointNet神经网络进行特征提取处理时，仅会利用PointNet神经网络的分类网络的多级特征转换网络和最大池化网络进行运算；所以，将第一点云序列的各个第一点云分别输入PointNet神经网络进行特征提取处理生成对应的第一点云特征向量具体为：将当前第一点云输入多级特征转换网络进行运算得到对应的第一输出向量，并将第一输出向量输入最大池化网络进行运算得到形状为1×1024的第一点云特征向量；

步骤223，由得到的第二数量b₂个第一点云特征向量组成第二特征向量；

其中，第二特征向量的形状为b₂×1024；

步骤23，对第一、第二特征向量进行向量合并得到对应的第三特征向量；

其中，第三特征向量的形状为(b₁+b₂)×1024；

步骤24，将第三特征向量输入LSTM神经网络进行特征融合处理生成对应的融合特征向量；

具体包括：将结构为(b₁+b₂)×1024的第三特征向量输入LSTM神经网络，由LSTM神经网络对第三特征向量1024个维度上的(b₁+b₂)个特征进行特征融合，从而得到对应的融合特征向量；融合特征向量的结构为1×1024。

这里，由作者Hochreiter,S、J.Schmidhuber发表的文章《Long short-termmemory》我们可知LSTM神经网络的网络结构，LSTM是循环神经网络(Recurrent NeuralNetwork,RNN)的一种，其网络运算过程可参见文章内容，在此不做进一步赘述。

步骤3，基于分类神经网络对融合特征向量进行分类处理得到对应的分类向量；

其中，分类神经网络包括全连接网络层和激活网络层组成；分类向量为一维向量，包括指定数量m个分类向量数据，各个分类向量数据分别对应一个分类类别；分类类别包括6类类别分别为车、行人、骑行者、绿植、栅栏和其它物体；

具体包括：将融合特征向量输入分类神经网络的全连接网络层进行全连接运算输出对应的全连接向量；并将全连接向量输入激活网络层进行分类评分得到对应的分类向量。

这里，指定数量m默认为6，则得到的分类向量包括6个分类向量数据，每个分类向量数据对应6类类别(车、行人、骑行者、绿植、栅栏和其它物体)中的一种，每个分类向量数据实际为对应类别的分类评分(或分类概率)。

步骤4，将取值最大的分类向量数据对应的分类类别作为本次分类结果输出。

这里，从分类向量的6个分类向量数据中选择取值最大的分类向量数据作为最大分类评分，将与最大分类评分对应的分类类别作为最大评分类别，最终将最大评分类别作为本次融合图像点云特征的分类结果输出。

图2为本发明实施例二提供的一种融合图像点云特征的分类装置的模块结构图，该装置为实现前述方法实施例的终端设备或者服务器，也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置，例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图2所示，该装置包括：获取模块201、特征融合模块202、分类模块203。

获取模块201用于获取指定时段内指定摄像头拍摄的多个图像生成第一图像序列；并获取指定时段内与指定摄像头对应的指定雷达扫描生成的多个扫描点云生成第一点云序列；第一图像序列包括多个第一图像，第一点云序列包括多个第一点云。

特征融合模块202用于根据第一图像序列和第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量。

分类模块203用于基于分类神经网络对融合特征向量进行分类处理得到对应的分类向量；并将取值最大的分类向量数据对应的分类类别作为本次分类结果输出；分类向量为一维向量，包括指定数量m个分类向量数据，各个分类向量数据分别对应一个分类类别；分类类别包括6类类别分别为车、行人、骑行者、绿植、栅栏和其它物体。

本发明实施例提供的一种融合图像点云特征的分类装置，可以执行上述方法实施例中的方法步骤，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，获取模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所描述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个数字信号处理器(Digital Signal Processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(System-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line，DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

图3为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器，也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图3所示，该电子设备可以包括：处理器301(例如CPU)、存储器302、收发器303；收发器303耦合至处理器301，处理器301控制收发器303的收发动作。存储器302中可以存储各种指令，以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的，本发明实施例涉及的电子设备还包括：电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。

在图3中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储器(Non-Volatile Memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器CPU、网络处理器(NetworkProcessor，NP)、图形处理器(Graphics Processing Unit，GPU)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中提供的方法和处理过程。

本发明实施例还提供一种运行指令的芯片，该芯片用于执行前述方法实施例描述的处理步骤。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合图像点云特征的分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的融合图像点云特征的分类方法，其特征在于，所述根据所述第一图像序列和所述第一点云序列进行图像点云融合特征提取处理生成对应的融合特征向量，具体包括：

3.根据权利要求2所述的融合图像点云特征的分类方法，其特征在于，所述根据所述第一图像序列进行图像特征提取处理生成对应的第一特征向量，具体包括：

4.根据权利要求2所述的融合图像点云特征的分类方法，其特征在于，所述根据所述第一点云序列进行点云特征提取处理生成对应的第二特征向量，具体包括：

5.根据权利要求2所述的融合图像点云特征的分类方法，其特征在于，

所述第三特征向量的形状为(b₁+b₂)×1024；第一数量b₁为所述第一图像序列的所述第一图像的数量，第二数量b₂为所述第一点云序列的所述第一点云的数量。

6.根据权利要求5所述的融合图像点云特征的分类方法，其特征在于，所述将所述第三特征向量输入LSTM神经网络进行特征融合处理生成对应的融合特征向量，具体包括：

7.根据权利要求1所述的融合图像点云特征的分类方法，其特征在于，所述分类神经网络包括全连接网络层和激活网络层组成；所述基于分类神经网络对所述融合特征向量进行分类处理得到对应的分类向量，具体包括：

8.一种用于实现权利要求1-7任一项所述的融合图像点云特征的分类方法的装置，其特征在于，所述装置包括：获取模块、特征融合模块、分类模块；

9.一种电子设备，其特征在于，包括：存储器、处理器和收发器；

所述处理器用于与所述存储器耦合，读取并执行所述存储器中的指令，以实现权利要求1-7任一项所述的方法步骤；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被计算机执行时，使得所述计算机执行权利要求1-7任一项所述的方法的指令。