CN114913373B - 一种基于图像点云对序列的分类方法和装置 - Google Patents

一种基于图像点云对序列的分类方法和装置 Download PDF

Info

Publication number
CN114913373B
CN114913373B CN202210514668.2A CN202210514668A CN114913373B CN 114913373 B CN114913373 B CN 114913373B CN 202210514668 A CN202210514668 A CN 202210514668A CN 114913373 B CN114913373 B CN 114913373B
Authority
CN
China
Prior art keywords
point cloud
image
vector
sequence
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210514668.2A
Other languages
English (en)
Other versions
CN114913373A (zh
Inventor
何哲琪
冯阳
张雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Qingyu Technology Co Ltd
Original Assignee
Suzhou Qingyu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Qingyu Technology Co Ltd filed Critical Suzhou Qingyu Technology Co Ltd
Priority to CN202210514668.2A priority Critical patent/CN114913373B/zh
Publication of CN114913373A publication Critical patent/CN114913373A/zh
Application granted granted Critical
Publication of CN114913373B publication Critical patent/CN114913373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及一种基于图像点云对序列的分类方法和装置,所述方法包括:获取第一图像、点云序列;将第一图像序列中时间最近的指定数量a的第一图像记为第二图像pi;将第一点云序列中与各个第二图像pi匹配的第一点云记为第二点云di;由第二图像pi、第二点云di构成第一图像点云对序列;基于RegNetX‑400MF神经网络和Po i ntNet神经网络进行特征提取得到第一图像、点云特征向量;进行向量拼接得到第一向量;基于GRU神经网络进行特征融合得到第二向量;基于分类神经网络进行分类得到第三向量;将取值最大的第三向量数据对应的分类类别作为结果输出。通过本发明,可以提高分类精度。

Description

一种基于图像点云对序列的分类方法和装置
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于图像点云对序列的分类方法和装置。
背景技术
自动驾驶系统的感知模块会基于感知传感器(摄像头、雷达等)获取的感知数据(摄像头拍摄图像、雷达点云)对自车行驶环境中的障碍物进行目标分类并将分类结果传输给下游模块。在进行分类处理时,感知模块的常规做法是先分别基于图像特征、点云特征进行分类,再对二者分类结果进行比对,若分类一致或有交集则将相交部分作为分类结果输出。这种处理方式一方面要执行两组完整的分类处理流程、时间消耗较大;另一方面分类交集范围不好确定,容易导致分类范围过大的问题。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种基于图像点云对序列的分类方法、装置、电子设备及计算机可读存储介质,选择时间相近的图像与点云组成图像点云对并由多组图像点云对构成图像点云序列,并基于RegNetX-400MF神经网络和PointNet神经网络对图像点云序列的图像、点云分支序列分别进行特征提取得到对应的图像、点云特征向量,并使用GRU神经网络对图像、点云特征向量的拼接向量按数据维度进行特征融合,再使用分类神经网络根据特征融合向量进行分类处理。通过本发明,一方面只需并列执行两组特征处理流程,缩短了处理时间;另一方面基于图像和点云的融合特征进行分类,分类结果更明确、分类精度更高。
为实现上述目的,本发明实施例第一方面提供了一种基于图像点云对序列的分类方法,所述方法包括:
获取第一图像序列和第一点云序列;所述第一图像序列包括多个第一图像,所述第一点云序列包括多个第一点云;
将所述第一图像序列中时间最近的指定数量a的所述第一图像记为第二图像pi;1≤i≤a;
将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di
由所述第二图像pi和对应的所述第二点云di构成对应的第一图像点云对,并由得到的a个所述第一图像点云对构成第一图像点云对序列;
基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对所述第一图像特征向量和所述第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量;
基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量;所述第三向量为一维向量,包括指定数量m个第三向量数据,各个所述第三向量数据分别对应一个分类类别;
将取值最大的所述第三向量数据对应的所述分类类别作为本次分类结果输出。
优选的,各个所述第一图像对应一个图像时间,各个所述第一点云对应一个点云时间;所述将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di,具体包括:
将当前所述第二图像pi的所述图像时间记为当前图像时间;并将所述第一点云序列中,所述点云时间与所述当前图像时间的绝对时间差小于预设时长的所述第一点云纳入第二点云序列;并将所述第二点云序列中,所述点云时间与所述当前图像时间的绝对时间差为最小值的所述第一点云作为与当前所述第二图像pi对应的所述第二点云di
优选的,所述基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量,具体包括:
从所述第一图像点云对序列中,提取所有所述第二图像pi按脚标i排序生成对应的图像分支序列,并提取所有所述第二点云di按脚标i排序生成对应的点云分支序列;
将所述图像分支序列输入所述RegNetX-400MF神经网络进行特征提取生成对应的所述第一图像特征向量;并将所述点云分支序列输入所述PointNet神经网络进行特征提取生成对应的所述第一点云特征向量;所述第一点云特征向量和所述第一图像特征向量的结构相同均为a×512。
优选的,所述第一向量的结构为a×1024;所述基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量,具体包括:
将结构为a×1024的所述第一向量输入所述GRU神经网络,由所述GRU神经网络对所述第一向量1024个维度上的a个特征进行特征融合,从而得到对应的所述第二向量;所述第二向量的结构为1×1024。
优选的,所述分类神经网络包括全连接网络层和激活网络层组成;所述基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量,具体包括:
将所述第二向量输入所述分类神经网络的所述全连接网络层进行全连接运算输出对应的全连接向量;并将所述全连接向量输入所述激活网络层进行分类评分得到对应的所述第三向量。
优选的,所述指定数量a默认为8;
所述指定数量m默认为6;
所述分类类别包括6类类别分别为:车、行人、骑行者、绿植、栅栏和其它物体。
本发明实施例第二方面提供了一种用于实现上述第一方面所述的基于图像点云对序列的分类方法的装置,所述装置包括:获取模块、图像点云对序列处理模块、图像点云对序列特征处理模块和分类处理模块;
所述获取模块用于获取第一图像序列和第一点云序列;所述第一图像序列包括多个第一图像,所述第一点云序列包括多个第一点云;
所述图像点云对序列处理模块用于将所述第一图像序列中时间最近的指定数量a的所述第一图像记为第二图像pi,1≤i≤a;并将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di;并由所述第二图像pi和对应的所述第二点云di构成对应的第一图像点云对,并由得到的a个所述第一图像点云对构成第一图像点云对序列;
所述图像点云对序列特征处理模块用于基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对所述第一图像特征向量和所述第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量;
所述分类处理模块用于基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量;并将取值最大的所述第三向量数据对应的所述分类类别作为本次分类结果输出;所述第三向量为一维向量,包括指定数量m个第三向量数据,各个所述第三向量数据分别对应一个分类类别。
本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种基于图像点云对序列的分类方法、装置、电子设备及计算机可读存储介质,选择时间相近的图像与点云组成图像点云对并由多组图像点云对构成图像点云序列,并基于RegNetX-400MF神经网络和PointNet神经网络对图像点云序列的图像、点云分支序列分别进行特征提取得到对应的图像、点云特征向量,并使用GRU神经网络对图像、点云特征向量的拼接向量按数据维度进行特征融合,再使用分类神经网络根据特征融合向量进行分类处理。通过本发明,一方面只需并列执行两组特征处理流程,缩短了处理时间;另一方面基于图像和点云的融合特征进行分类使得分类结果更明确,提高了分类精度。
附图说明
图1为本发明实施例一提供的一种基于图像点云对序列的分类方法示意图;
图2为本发明实施例一提供的RegNetX-400MF神经网络结构图;
图3为本发明实施例二提供的一种基于图像点云对序列的分类装置的模块结构图;
图4为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种基于图像点云对序列的分类方法,如图1为本发明实施例一提供的一种基于图像点云对序列的分类方法示意图所示,本方法主要包括如下步骤:
步骤1,获取第一图像序列和第一点云序列;
其中,第一图像序列包括多个第一图像,第一点云序列包括多个第一点云;各个第一图像对应一个图像时间,各个第一点云对应一个点云时间。
这里,感知模块从摄像头处获取第一图像序列,从雷达处获取第一点云序列;该摄像头与雷达观测的场景相同、时间相同;第一图像序列为该摄像头最近时段的拍摄图像序列,序列中每个第一图像对应的图像时间即为该图像的拍摄时间;第一点云序列为该雷达最近时段的扫描点云序列,序列中每个第一点云对应的点云时间即为该点云的扫描时间。
步骤2,将第一图像序列中时间最近的指定数量a的第一图像记为第二图像pi
其中,1≤i≤a。
这里,指定数量a默认为8,当前步骤实际就是从第一图像序列中提取最近的8张第一图像作为对应的8个第二图像p1、p2…p8
步骤3,将第一点云序列中与各个第二图像pi匹配的第一点云记为对应的第二点云di
具体包括:将当前第二图像pi的图像时间记为当前图像时间;并将第一点云序列中,点云时间与当前图像时间的绝对时间差小于预设时长的第一点云纳入第二点云序列;并将第二点云序列中,点云时间与当前图像时间的绝对时间差为最小值的第一点云作为与当前第二图像pi对应的第二点云di;预设时长默认为50ms。
这里,虽然产生第一点云序列与第一图像序列的雷达和摄像头观测的场景相同、时间相同,但雷达和摄像头的处理周期不同,所以即使在同一时段也很难确保第一图像与第一点云的图像时间和点云时间能完全匹配。本发明实施例为8个第二图像p1、p2…p8筛选对应的8个第二点云d1、d2…d8时,以默认为50ms的预设时长为界先从第一点云序列中找出与各个第二图像pi绝对时差小于预设时长的第一点云纳入第二点云序列,并将第二点云序列中最小绝对时差的第一点云作为第二图像pi的第二点云di
步骤4,由第二图像pi和对应的第二点云di构成对应的第一图像点云对,并由得到的a个第一图像点云对构成第一图像点云对序列。
步骤5,基于RegNetX-400MF神经网络和PointNet神经网络对第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对第一图像特征向量和第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对第一向量进行特征融合得到对应的第二向量;
这里,当前步骤首先对第一图像点云对序列的图像、点云分支序列分别进行特征提取得到对应的第一图像特征向量、第一点云特征向量,然后对第一图像特征向量、第一点云特征向量进行向量拼接和特征融合处理得到二者的融合特征向量即第二向量;
具体包括:步骤51,基于RegNetX-400MF神经网络和PointNet神经网络对第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;
具体包括:步骤511,从第一图像点云对序列中,提取所有第二图像pi按脚标i排序生成对应的图像分支序列,并提取所有第二点云di按脚标i排序生成对应的点云分支序列;
这里,图像分支序列由第二图像p1、p2…p8排序而成;点云分支序列由第二点云d1、d2…d8排序而成;
步骤512,将图像分支序列输入RegNetX-400MF神经网络进行特征提取生成对应的第一图像特征向量;并将点云分支序列输入PointNet神经网络进行特征提取生成对应的第一点云特征向量;
其中,第一点云特征向量和第一图像特征向量的结构相同均为a×512;
这里,由脸书人工智能研究部门(Facebook AI Research,FAIR)的作者:IlijaRadosavovic,Raj Prateek Kosaraju,Ross Girshick,Kaiming He,Piotr Doll′ar发布的论文《Designing Network Design Spaces》可知,RegNetX-400MF神经网络的网络结构如图2为本发明实施例一提供的RegNetX-400MF神经网络结构图所示,包括stem网络层、body网络层和head网络层;stem网络层由卷积层、归一化(BatchNormalization,BN)层和relu函数激活层组成,卷积层的卷积核大小为3x3、步距为2、卷积核个数为32;body网络层由4个stagej网络层堆叠而成,每经过一个stagej网络层都会将输入特征矩阵的高度和宽度缩减一半;每个stagej网络层又由多个blockj,h模块堆叠而成,每个stagej网络层中除第一个blockj,1之外其余所有blockj,h>1模块的结构均相同都采用残差网络结构,因此也将除第一个blockj,1之外其余所有blockj,h>1模块称为重复模块;RegNetX-400MF神经网络中,stagej=1网络层的h最大值为2、重复模块总数为1,stagej=2网络层的h最大值为3、重复模块总数为2,stagej=3网络层的h最大值为8、重复模块总数为7,stagej=4网络层的h最大值为13、重复模块总数为12;head网络层由一个全局平均池化层和全连接层,用于进行特征分类处理;
需要说明的是,本发明实施例将图像分支序列输入RegNetX-400MF神经网络进行特征提取时,仅会利用该网络的stem网络层和body网络层进行运算并不使用该网络的head网络层进行分类;另外,RegNetX-400MF神经网络body网络层的stage4网络层输出特征向量的数据通道数为384,还需通过补位将输出特征向量的数据通道数扩到512;所以,将图像分支序列输入RegNetX-400MF神经网络进行特征提取生成对应的第一图像特征向量具体为:将图像分支序列的各个第二图像pi分别输入RegNetX-400MF神经网络的stem网络层进行运算得到对应的第一输出向量,并将第一输出向量输入RegNetX-400MF神经网络的body网络层进行运算得到对应的第二输出向量,并通过补0将第二输出向量的数据通道扩展到512从而得到数据通道数为512的图像pi特征向量,由得到的a个图像pi特征向量构成形状为a×512的第一图像特征向量;
这里,由斯坦福大学(Stanford University)的作者:Charles R.Qi*,Hao Su*,Kaichun Mo,Leonidas J.Guibas发表的论文《PointNet:Deep Learning on Point Setsfor 3D Classification and Segmentation》可知,PointNet神经网络有两种应用网络结构:分类网络(Classification Network)结构和分割网络(Segmentation Network)结构,本发明实施例采用其中的分类网络对点云分支序列进行特征提取;该分类网络结构由多级特征转换网络、最大池化网络和全连接分类网络构成;其中,多级特征转换网络用于对输入的点云进行多级特征转换,最大池化网络用于对多级特征转换网络的输出向量进行特征聚合,全连接分类网络则通过对最大池化网络的输出向量进行三级全连接得到最终的分类向量;此处,全连接分类网络三级全连接运算由三个全连接层实现分别为第一、第二和第三全连接层,第一、第二和第三全连接层输出向量的数据通道数据分别为:512、256和k,k为预设的分别标签总数;
需要说明的是,本发明实施例将点云分支序列输入PointNet神经网络进行特征提取时,仅会利用PointNet神经网络的分类网络的多级特征转换网络、最大池化网络和全连接分类网络的第一全连接层进行运算;所以,将点云分支序列输入PointNet神经网络进行特征提取生成对应的第一点云特征向量具体为:将点云分支序列的各个第二点云di分别输入多级特征转换网络进行运算得到对应的第一输出向量,并将第一输出向量输入最大池化网络进行运算得到对应的第二输出向量,并将第二输出向量输入第一全连接层进行运算得到数据通道数为512的点云di特征向量,由得到的a个点云di特征向量构成形状为a×512的第一点云特征向量;
步骤52,对第一图像特征向量和第一点云特征向量进行向量拼接得到对应的第一向量;
其中,第一向量的结构为a×1024;
步骤53,基于GRU神经网络对第一向量进行特征融合得到对应的第二向量;
具体包括:将结构为a×1024的第一向量输入GRU神经网络,由GRU神经网络对第一向量1024个维度上的a个特征进行特征融合,从而得到对应的第二向量;第二向量的结构为1×1024。
这里,由作者Junyoung Chung,Caglar Gulcehre,KyungHyun Cho,Yoshua Bengio发表的论文《Empirical Evaluation of Gated Recurrent Neural Networks onSequence Modeling》可知,门控循环单元(gated recurrent unit,GRU)是循环神经网络(Recurrent Neural Network,RNN)的一种。GRU神经网络的运算过程可参见论文内容,在此不做进一步赘述。
步骤6,基于分类神经网络对第二向量进行分类处理得到对应的第三向量;
其中,分类神经网络包括全连接网络层和激活网络层组成;第三向量为一维向量,包括指定数量m个第三向量数据,各个第三向量数据分别对应一个分类类别;指定数量m默认为6;分类类别包括6类类别分别为:车、行人、骑行者、绿植、栅栏和其它物体;
具体包括:将第二向量输入分类神经网络的全连接网络层进行全连接运算输出对应的全连接向量;并将全连接向量输入激活网络层进行分类评分得到对应的第三向量。
这里,指定数量m默认为6,则得到的第三向量包括6个第三向量数据,每个第三向量数据对应6类类别(车、行人、骑行者、绿植、栅栏和其它物体)中的一种,每个第三向量数据实际为对应类别的分类评分(或分类概率)。
步骤7,将取值最大的第三向量数据对应的分类类别作为本次分类结果输出。
这里,从第三向量的6个第三向量数据中选择取值最大的第三向量数据作为最大分类评分,将与最大分类评分对应的分类类别作为最大评分类别,最终将最大评分类别作为本次基于图像点云对序列的分类结果输出。
图3为本发明实施例二提供的一种基于图像点云对序列的分类装置的模块结构图,该装置为实现前述方法实施例的终端设备或者服务器,也可以为能够使得前述终端设备或者服务器实现前述方法实施例的装置,例如该装置可以是前述终端设备或者服务器的装置或芯片系统。如图3所示,该装置包括:获取模块201、图像点云对序列处理模块202、图像点云对序列特征处理模块203和分类处理模块204。
获取模块201用于获取第一图像序列和第一点云序列;第一图像序列包括多个第一图像,第一点云序列包括多个第一点云。
图像点云对序列处理模块202用于将第一图像序列中时间最近的指定数量a的第一图像记为第二图像pi,1≤i≤a;并将第一点云序列中与各个第二图像pi匹配的第一点云记为对应的第二点云di;并由第二图像pi和对应的第二点云di构成对应的第一图像点云对,并由得到的a个第一图像点云对构成第一图像点云对序列。
图像点云对序列特征处理模块203用于基于RegNetX-400MF神经网络和PointNet神经网络对第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对第一图像特征向量和第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对第一向量进行特征融合得到对应的第二向量。
分类处理模块204用于基于分类神经网络对第二向量进行分类处理得到对应的第三向量;并将取值最大的第三向量数据对应的分类类别作为本次分类结果输出;第三向量为一维向量,包括指定数量m个第三向量数据,各个第三向量数据分别对应一个分类类别。
本发明实施例提供的一种基于图像点云对序列的分类装置,可以执行上述方法实施例中的方法步骤,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,ASIC),或,一个或多个数字信号处理器(Digital Signal Processor,DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(System-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照前述方法实施例所描述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线路((Digital Subscriber Line,DSL))或无线(例如红外、无线、蓝牙、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
图4为本发明实施例三提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图4所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。
在图4中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器CPU、网络处理器(NetworkProcessor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。
本发明实施例提供了一种基于图像点云对序列的分类方法、装置、电子设备及计算机可读存储介质,选择时间相近的图像与点云组成图像点云对并由多组图像点云对构成图像点云序列,并基于RegNetX-400MF神经网络和PointNet神经网络对图像点云序列的图像、点云分支序列分别进行特征提取得到对应的图像、点云特征向量,并使用GRU神经网络对图像、点云特征向量的拼接向量按数据维度进行特征融合,再使用分类神经网络根据特征融合向量进行分类处理。通过本发明,一方面只需并列执行两组特征处理流程,缩短了处理时间;另一方面基于图像和点云的融合特征进行分类使得分类结果更明确,提高了分类精度。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于图像点云对序列的分类方法,其特征在于,所述方法包括:
获取第一图像序列和第一点云序列;所述第一图像序列包括多个第一图像,所述第一点云序列包括多个第一点云;
将所述第一图像序列中时间最近的指定数量a的所述第一图像记为第二图像pi;1≤i≤a;
将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di
由所述第二图像pi和对应的所述第二点云di构成对应的第一图像点云对,并由得到的a个所述第一图像点云对构成第一图像点云对序列;
基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对所述第一图像特征向量和所述第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量;
基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量;所述第三向量为一维向量,包括指定数量m个第三向量数据,各个所述第三向量数据分别对应一个分类类别;
将取值最大的所述第三向量数据对应的所述分类类别作为本次分类结果输出。
2.根据权利要求1所述的基于图像点云对序列的分类方法,其特征在于,各个所述第一图像对应一个图像时间,各个所述第一点云对应一个点云时间;所述将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di,具体包括:
将当前所述第二图像pi的所述图像时间记为当前图像时间;并将所述第一点云序列中,所述点云时间与所述当前图像时间的绝对时间差小于预设时长的所述第一点云纳入第二点云序列;并将所述第二点云序列中,所述点云时间与所述当前图像时间的绝对时间差为最小值的所述第一点云作为与当前所述第二图像pi对应的所述第二点云di
3.根据权利要求1所述的基于图像点云对序列的分类方法,其特征在于,所述基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量,具体包括:
从所述第一图像点云对序列中,提取所有所述第二图像pi按脚标i排序生成对应的图像分支序列,并提取所有所述第二点云di按脚标i排序生成对应的点云分支序列;
将所述图像分支序列输入所述RegNetX-400MF神经网络进行特征提取生成对应的所述第一图像特征向量;并将所述点云分支序列输入所述PointNet神经网络进行特征提取生成对应的所述第一点云特征向量;所述第一点云特征向量和所述第一图像特征向量的结构相同均为a×512。
4.根据权利要求1所述的基于图像点云对序列的分类方法,其特征在于,所述第一向量的结构为a×1024;所述基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量,具体包括:
将结构为a×1024的所述第一向量输入所述GRU神经网络,由所述GRU神经网络对所述第一向量1024个维度上的a个特征进行特征融合,从而得到对应的所述第二向量;所述第二向量的结构为1×1024。
5.根据权利要求1所述的基于图像点云对序列的分类方法,其特征在于,所述分类神经网络包括全连接网络层和激活网络层组成;所述基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量,具体包括:
将所述第二向量输入所述分类神经网络的所述全连接网络层进行全连接运算输出对应的全连接向量;并将所述全连接向量输入所述激活网络层进行分类评分得到对应的所述第三向量。
6.根据权利要求1所述的基于图像点云对序列的分类方法,其特征在于,
所述指定数量a默认为8;
所述指定数量m默认为6;
所述分类类别包括6类类别分别为:车、行人、骑行者、绿植、栅栏和其它物体。
7.一种用于实现权利要求1-6任一项所述的基于图像点云对序列的分类方法的装置,其特征在于,所述装置包括:获取模块、图像点云对序列处理模块、图像点云对序列特征处理模块和分类处理模块;
所述获取模块用于获取第一图像序列和第一点云序列;所述第一图像序列包括多个第一图像,所述第一点云序列包括多个第一点云;
所述图像点云对序列处理模块用于将所述第一图像序列中时间最近的指定数量a的所述第一图像记为第二图像pi,1≤i≤a;并将所述第一点云序列中与各个所述第二图像pi匹配的所述第一点云记为对应的第二点云di;并由所述第二图像pi和对应的所述第二点云di构成对应的第一图像点云对,并由得到的a个所述第一图像点云对构成第一图像点云对序列;
所述图像点云对序列特征处理模块用于基于RegNetX-400MF神经网络和PointNet神经网络对所述第一图像点云对序列进行特征提取得到对应的第一图像特征向量和第一点云特征向量;并对所述第一图像特征向量和所述第一点云特征向量进行向量拼接得到对应的第一向量;并基于GRU神经网络对所述第一向量进行特征融合得到对应的第二向量;
所述分类处理模块用于基于分类神经网络对所述第二向量进行分类处理得到对应的第三向量;并将取值最大的所述第三向量数据对应的所述分类类别作为本次分类结果输出;所述第三向量为一维向量,包括指定数量m个第三向量数据,各个所述第三向量数据分别对应一个分类类别。
8.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-6任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-6任一项所述的方法的指令。
CN202210514668.2A 2022-05-12 2022-05-12 一种基于图像点云对序列的分类方法和装置 Active CN114913373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210514668.2A CN114913373B (zh) 2022-05-12 2022-05-12 一种基于图像点云对序列的分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210514668.2A CN114913373B (zh) 2022-05-12 2022-05-12 一种基于图像点云对序列的分类方法和装置

Publications (2)

Publication Number Publication Date
CN114913373A CN114913373A (zh) 2022-08-16
CN114913373B true CN114913373B (zh) 2024-04-09

Family

ID=82767003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210514668.2A Active CN114913373B (zh) 2022-05-12 2022-05-12 一种基于图像点云对序列的分类方法和装置

Country Status (1)

Country Link
CN (1) CN114913373B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019127282A1 (de) * 2019-10-10 2021-04-15 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer dreidimensionalen Umgebung durch tiefes Lernen
WO2021134325A1 (zh) * 2019-12-30 2021-07-08 深圳元戎启行科技有限公司 基于无人驾驶技术的障碍物检测方法、装置和计算机设备
CN113963192A (zh) * 2021-09-22 2022-01-21 森思泰克河北科技有限公司 跌倒检测方法、装置和电子设备
CN114283294A (zh) * 2021-12-20 2022-04-05 平安普惠企业管理有限公司 基于神经网络点云特征提取方法、系统、设备及存储介质
CN114445816A (zh) * 2022-01-24 2022-05-06 内蒙古包钢医院 一种基于二维图像和三维点云的花粉分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019127282A1 (de) * 2019-10-10 2021-04-15 Valeo Schalter Und Sensoren Gmbh System und Verfahren zum Analysieren einer dreidimensionalen Umgebung durch tiefes Lernen
WO2021134325A1 (zh) * 2019-12-30 2021-07-08 深圳元戎启行科技有限公司 基于无人驾驶技术的障碍物检测方法、装置和计算机设备
CN113963192A (zh) * 2021-09-22 2022-01-21 森思泰克河北科技有限公司 跌倒检测方法、装置和电子设备
CN114283294A (zh) * 2021-12-20 2022-04-05 平安普惠企业管理有限公司 基于神经网络点云特征提取方法、系统、设备及存储介质
CN114445816A (zh) * 2022-01-24 2022-05-06 内蒙古包钢医院 一种基于二维图像和三维点云的花粉分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈盟 ; 陈兴华 ; 邹鹏 ; .一种面向3D点云识别的新型卷积神经网络.计算机与数字工程.2020,(05),全文. *

Also Published As

Publication number Publication date
CN114913373A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN110175671B (zh) 神经网络的构建方法、图像处理方法及装置
CN109389078B (zh) 图像分割方法、相应的装置及电子设备
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN107533754B (zh) 在深度卷积网络中降低图像分辨率
CN111160214B (zh) 一种基于数据融合的3d目标检测方法
CN112633350B (zh) 一种基于图卷积的多尺度点云分类实现方法
CN111079685B (zh) 一种3d目标检测方法
CN111209910A (zh) 用于语义分割的系统、方法和非暂时性计算机可读介质
CN112418392A (zh) 一种神经网络构建方法以及装置
CN112561027A (zh) 神经网络架构搜索方法、图像处理方法、装置和存储介质
TW201706918A (zh) 作爲供神經網路的訓練準則的濾波器特異性
CN111797983A (zh) 一种神经网络构建方法以及装置
CN110148117B (zh) 基于电力图像的电力设备缺陷识别方法、装置与存储介质
CN112464717B (zh) 一种遥感图像目标检测方法、系统、电子设备和存储介质
US20200202542A1 (en) Systems and methods for determining depth information in two-dimensional images
CN112529146B (zh) 神经网络模型训练的方法和装置
CN110222718A (zh) 图像处理的方法及装置
WO2023125628A1 (zh) 神经网络模型优化方法、装置及计算设备
CN115438569A (zh) 自动驾驶场景生成方法及相关模型的训练方法、设备
CN115601692A (zh) 数据处理方法、神经网络模型的训练方法及装置
CN115018039A (zh) 一种神经网络蒸馏方法、目标检测方法以及装置
CN116958687A (zh) 一种基于改进detr的面向无人机的小目标检测方法及装置
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114913373B (zh) 一种基于图像点云对序列的分类方法和装置
CN115049872A (zh) 一种融合图像点云特征的分类方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant