CN115512319A - 基于异构图网络的多模态协同检测方法及系统 - Google Patents

基于异构图网络的多模态协同检测方法及系统 Download PDF

Info

Publication number
CN115512319A
CN115512319A CN202211122478.2A CN202211122478A CN115512319A CN 115512319 A CN115512319 A CN 115512319A CN 202211122478 A CN202211122478 A CN 202211122478A CN 115512319 A CN115512319 A CN 115512319A
Authority
CN
China
Prior art keywords
meta
bev
features
node
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211122478.2A
Other languages
English (en)
Inventor
张慧
李浥东
曹原周汉
韩瑜珊
金�一
陈乃月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202211122478.2A priority Critical patent/CN115512319A/zh
Publication of CN115512319A publication Critical patent/CN115512319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明提供一种基于异构图网络的多模态协同检测方法及系统,属于目标检测技术领域,包括:智能体基于点云和图像分别提取BEV特征;多个智能体将生成的多模态BEV特征传至中心车辆;基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。本发明采取多模态单阶融合检测模型,检测精度显著优于单模态单阶段检测模型,经过异构协作图的特征融合,大大扩大了单车的感知视野,丰富了感知信息,从而提升协同感知性能。

Description

基于异构图网络的多模态协同检测方法及系统
技术领域
本发明涉及目标检测技术领域,具体涉及一种基于异构图网络的多模态协同检测方法及系统。
背景技术
目标检测是自动驾驶视觉领域的一个重要研究方向,自动驾驶领域的车辆在自动驾驶场景又称为智能体。传统的目标检测都是基于车载传感器的单智能体目标检测。然而,由于目标被遮挡以及车载传感器自身的局限性,单车检测存在盲区,常常不能取得很好的检测结果。为了应对单车目标检测面临的挑战,协同目标检测应运而生。协同目标检测是一种基于多智能体信息融合的检测方法,它通过把多智能体协同模块加入传统的目标检测框架来实现。自动驾驶场景下,道路上有多个自动驾驶车辆和道路基础设施,均配置激光雷达和RGB相机等传感器,一个车辆的盲区可能正处于其他智能体的检测区域,通过把其他车辆和基础设施观测到的目标信息传递给中心车辆,中心车辆可以得到更全面的视野,从而完成更精确的目标检测。协同目标检测根据参与协同的智能体类型可以分为车车协同和车路协同。
车车协同和车路协同的解决思路大致一致,区别是车路协同由于智能体的传感器类型不同,需要考虑数据来源异构的问题。此外,车车协同由于车辆动态变化不可预测导致车车协同方法不能保证实时应用,车路协同由于道路基础设施位置固定不变导致基础设施提供的视野不一定为自动驾驶车辆所用。为了弥补这两个单一任务在实际场景的不足,将两者相结合更有利于为自动驾驶车辆提供完整的视野。
协同目标检测方法可以从协同阶段和融合策略两个角度讨论。协同阶段指在目标检测的哪个阶段插入协同模块,根据协同阶段的不同,协同目标检测方法可以分为数据级协同,特征级协同和决策级协同三类。其中数据级协同指融合智能体的原始观测数据,特征级协同指融合智能体的数据特征,决策级协同指融合智能体最终的检测数据。融合策略指协同模块的具体融合计算过程,可以分为简单融合,基于特征的融合和基于图的融合。简单融合采取求均值、最大值、拼接等策略,基于特征的融合选择了关联性最大的车辆,基于图的融合指把多车协同过程构造成一个图,通过图学习的过程融合多智能体的信息。
数据级协同传递原始数据带来过大的带宽压力,决策级协同的检测结果已经丢失一些目标信息,为了维持精度和带宽的平衡,本发明选择基于特征级协同的目标检测方法。
根据传感器类型的不同,感知任务可以分为基于图像的感知,基于点云的感知以及多模态感知。RGB图像的特点是语义清楚且像素密集,但是存在着视野范围小和目标遮挡的问题,激光雷达的特点是覆盖范围广,同时存在着点云稀疏的问题。单车的3D目标检测通常采用多模态数据作为模型输入,弥补单模态感知的不足。但是现有的协同感知方法均基于点云,还未考虑多模态融合方法。已有的协同感知方法大多针对车车协同任务,并采取特征级融合以实现带宽和精度的平衡,其中基于图学习和注意力机制的方法成为现有方法的主流现有的基于图的协同目标检测方法主要有V2VNet和DiscoNet。V2VNet采取了一个空间感知的图神经网络(Graph Neural Network,GNN)完成多车信息融合。V2VNet首先补偿了不同车辆的传输时延,接着使用GNN把周边的车辆特征都聚集到中心车辆,并根据全局位置确定邻域范围的车辆。这种方法有效地扩大了车辆的视野,从而检测到被遮挡物体。DiscoNet同样采取了一个注意力图网络(Graph Attention Networks,GAT)实现多车的协同。与V2VNet不同,DiscoNet的融合图的边不是标量,而是一个矩阵,这个矩阵可以反映每个像素特征的贡献度。此外,DiscoNet引入一个教师-学生网络,教师网络是数据级协同目标检测,学生网络是特征级协同目标检测,使用教师网络的特征作为学生网络的监督,从而提升特征级协同目标检测的性能。此外,受Transformer启发,Attentive fusion通过self-attention操作融合多个特征图相同位置的元素,从而得到新的特征,如图1所示。该方法动态学习了不同智能体间的特征关系,从而大大提升了融合的准确性。
车路协同是协同感知另一重要任务,可以分为单车与基础设施的协同,以及多车与道路基础设施的协同。最简单的方式是采取前期或者后期融合,目前只有一个工作V2X-ViT实现了特征级的车路协同。V2X-ViT的框架(如图2所示)同时包含车车协同和车路协同任务,在特征端使用Transformer模块融合特征,该模块考虑了智能体的异构问题。但是Transfomer模块参数众多,消耗资源较大,此外该模型只考虑了点云数据,没有考虑多模态融合方法。
综上,目前主流的基于融合图的协同目标检测方法存在两个问题:一是大部分方法关注单一的车车协同任务或者车路协同任务,但是单一车车协同由于车辆动态变化不可预测导致车车协同方法无法保证实时应用,车路协同由于道路基础设施位置固定不变导致基础设施提供的视野不一定为自动驾驶车辆所用。二是主流方法均采取的单一的点云作为模型输入,而点云具有稀疏以及缺乏语义的问题。
发明内容
本发明的目的在于提供一种基于异构图网络的多模态协同检测方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种基于异构图网络的多模态协同检测方法,包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
优选的,智能体基于点云和图像分别提取BEV特征,包括:
采取鸟瞰图作为两种模态的转换特征;假设一共有C个类别的物体,n个自动驾驶车辆和m个路端基础设施,对于每个智能体Ai的点云数据Xi(i=1,2,3,…,n+m),利用点云特征提取器提取三维的点云数据,转换成二维的鸟瞰图特征
Figure BDA0003847733080000041
利用图像的特征提取器,经过投影取得多幅图像生成的二维鸟瞰图特征
Figure BDA0003847733080000042
其中h,k,c分别代表BEV特征的高、宽和通道数;基于点云范围,划分网格生成单阶段目标检测的锚框用于最终的区域提取。
优选的,多个智能体将生成的多模态BEV特征传至中心车辆,包括:
采取特征压缩的方式减小传输带宽;
对于每一个智能体给定一个特征hi∈Rk×k×c,将其压缩至
Figure BDA0003847733080000043
其中
Figure BDA0003847733080000044
在中心车辆端对压缩特征进行解码,从而得到与原始特征尺寸一致的特征hi∈Rk ×k×c
优选的,基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征,包括:
为不同智能体设置异构协作图的元路径;根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合;在不同的元路径之间进行语义层面的注意力机制特征融合;异构协作图输出的特征作为中心车辆的融合特征。
优选的,根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合,包括:
多源异构智能体的多模态特征输入到异构图中,首先在每一种元路径内进行节点层面的注意力机制融合;
对于某一种元路径φi,首先设计一个特定的转换矩阵
Figure BDA0003847733080000051
将特征进行转换,h'i为投影的特征:
Figure BDA0003847733080000052
转换特征之后,使用self-attention计算该元路径内节点特征间的权重;
给定元路径Φ内的节点对(i,j),节点层面的注意力
Figure BDA0003847733080000053
可以学习到节点j对节点i的重要性,self-attention的计算公式为:
Figure BDA0003847733080000054
其中,attnode为self-attention操作:
Figure BDA0003847733080000055
将图的结构信息注入模型确保权重只针对当前边,并通过softmax计算正则化后的特征,其中||为拼接运算,σ是激活函数:
Figure BDA0003847733080000056
得到正则化后的权重,通过下式聚合近邻特征:
Figure BDA0003847733080000061
其中,
Figure BDA0003847733080000062
为当前元路径φi内经过节点层面融合得到的特征,该特征学习了当前元路径内的信息。
优选的,在不同的元路径之间进行语义层面的注意力机制特征融合,包括:
由于异构图中不同节点包含多种语义,在元路径内进行特征融合只能考虑当前路径内的语义,为了更全面地考虑节点的多种语义,需融合多种元路径;
给定节点层融合输出的特征,元路径间的权重可以使用下式计算得到
Figure BDA0003847733080000063
其中,attsem与attnode一样为self-attention操作。
第二方面,本发明提供一种基于异构图网络的多模态协同检测系统,包括:
提取模块,用于智能体基于点云和图像分别提取BEV特征;
传输模块,用于多个智能体将生成的多模态BEV特征传至中心车辆;
融合模块,用于基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
检测模块,用于中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于异构图网络的多模态协同检测方法。
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的基于异构图网络的多模态协同检测方法。
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于异构图网络的多模态协同检测方法的指令。
术语解释:
目标检测:目标检测是计算机视觉的一个基础任务,目的是识别空间内目标的位置和类别。根据预测目标的维度,目标检测方法可以分为2D目标检测和3D目标检测。
协同目标检测:协同目标检测(Collaborative Object Detection)是自动驾驶领域的一个关键视觉技术,它指的是通过场景内的多个智能体的信息交互与数据融合,协助单个智能体完成更精确的目标检测任务,从而缓解自动驾驶场景中目标被遮挡、传感器捕获异常等问题。
异构图网络:异构图指的是图中存在不同类型的节点和边(节点和边至少有一个具有多种类型),常见于知识图谱的场景。最简单的处理异构信息的方式是使用独热编码类型信息并拼接在节点原有表示上。自动驾驶的协同检测任务中,当数据来源于不同类型的智能体如自动驾驶车辆和道路基础设施,即车路协同,则多个智能体构成的图为异构图。
多模态感知:多模态感知指将不同类型的传感器数据得到的特征进行融合,由于不同传感器具有不同的特点及缺陷,将多模态数据得到的特征融合有利于克服单模态感知的不足。
本发明有益效果:将多模态融合的方法应用于协同检测,将两者相结合从而为自动驾驶车辆提供完整的视野,弥补了车车协同和车路协同这两个单一任务的不足;针对多源异构问题,异构图网络用于融合智能体的多模态特征,从而有效提升协同感知性能;采取的简单高效的异构模块,克服Transformer模型参数庞大,推理速度慢等缺点,有效提升模型推理速度,实现实时协同检测。
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术attentive fusion框架结构图。
图2为现有的V2X-ViT框架结构图。
图3为本发明实施例所述的基于异构图网络的多模态协同检测方法流程图。
图4为本发明实施例所述的基于异构图网络的多模态协同检测框架图。
图5为本发明实施例所述的异构智能体多模态特征融合流程图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
首先,本实施例1中,提供了一种基于异构图网络的多模态协同检测系统,包括:
提取模块,用于智能体基于点云和图像分别提取BEV特征;
传输模块,用于多个智能体将生成的多模态BEV特征传至中心车辆;
融合模块,用于基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
检测模块,用于中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
本实施例1中,基于上述的系统,实现了基于异构图网络的多模态协同检测方法,包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
智能体基于点云和图像分别提取BEV特征,包括:
采取鸟瞰图作为两种模态的转换特征;假设一共有C个类别的物体,n个自动驾驶车辆和m个路端基础设施,对于每个智能体Ai的点云数据Xi(i=1,2,3,…,n+m),利用点云特征提取器提取三维的点云数据,转换成二维的鸟瞰图特征
Figure BDA0003847733080000101
利用图像的特征提取器,经过投影取得多幅图像生成的二维鸟瞰图特征
Figure BDA0003847733080000102
其中h,k,c分别代表BEV特征的高、宽和通道数;基于点云范围,划分网格生成单阶段目标检测的锚框用于最终的区域提取。
多个智能体将生成的多模态BEV特征传至中心车辆,包括:
采取特征压缩的方式减小传输带宽;
对于每一个智能体给定一个特征hi∈Rk×k×c,将其压缩至
Figure BDA0003847733080000103
其中
Figure BDA0003847733080000104
在中心车辆端对压缩特征进行解码,从而得到与原始特征尺寸一致的特征hi∈Rk ×k×c
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征,包括:
为不同智能体设置异构协作图的元路径;根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合;在不同的元路径之间进行语义层面的注意力机制特征融合;异构协作图输出的特征作为中心车辆的融合特征。
根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合,包括:
多源异构智能体的多模态特征输入到异构图中,首先在每一种元路径内进行节点层面的注意力机制融合;
对于某一种元路径φi,首先设计一个特定的转换矩阵
Figure BDA0003847733080000111
将特征进行转换,h'i为投影的特征:
Figure BDA0003847733080000112
转换特征之后,使用self-attention计算该元路径内节点特征间的权重;
给定元路径Φ内的节点对(i,j),节点层面的注意力
Figure BDA0003847733080000113
可以学习到节点j对节点i的重要性,self-attention的计算公式为:
Figure BDA0003847733080000114
其中,attnode为self-attention操作:
Figure BDA0003847733080000115
将图的结构信息注入模型确保权重只针对当前边,并通过softmax计算正则化后的特征,其中||为拼接运算,σ是激活函数:
Figure BDA0003847733080000116
得到正则化后的权重,通过下式聚合近邻特征:
Figure BDA0003847733080000121
其中,
Figure BDA0003847733080000122
为当前元路径φi内经过节点层面融合得到的特征,该特征学习了当前元路径内的信息。
在不同的元路径之间进行语义层面的注意力机制特征融合,包括:
由于异构图中不同节点包含多种语义,在元路径内进行特征融合只能考虑当前路径内的语义,为了更全面地考虑节点的多种语义,需融合多种元路径;
给定节点层融合输出的特征,元路径间的权重可以使用下式计算得到
Figure BDA0003847733080000123
其中,attsem与attnode一样为self-attention操作。
为不同智能体设置异构协作图的元路径包括:
由于自动驾驶车辆和道路基础设施的传感器特性,且不同模态生成的特征也具有不同的特性,为了表述这种异构特征,需要定义异构图的节点和边的类型。使用V表示车辆,I表示基础设施,P表示点云,C表示图像,则异构图的节点共有四种类型:
c∈{VP,VC,IP,IC}
相应地,异构图的边的类型包括:
e∈{VP-VP,VP-VC,VP-IP,VP-IC,
VC-VP,VC-VC,VC-IP,VC-IC,
IP-VP,IP-VC,IP-IP,IP-IC,
IC-VP,IC-VC,IC-IP,IC-IC}
上述定义的有向边为异构图的元路径(meta-path),每一条元路径描述了一种特征对,比如VC-IP代表车辆的图像特征与基础设施的点云特征融合。
异构协作图输出的特征作为中心车辆的融合特征包括:
经过元路径内的节点融合以及元路径间的语义融合,异构智能体以及多模态之间的特征得到充分学习,最后使用求平均值的方法将
Figure BDA0003847733080000131
融合作为中心车辆最后的协同特征并输出。
实施例2
本实施例2中,提出了一种基于异构图网络的多模态协同检测方法,基于3D点云和RGB图像提取的特征,通过构建异构协作图的方法,自适应地将自动驾驶车辆和基础设施的感知特征融合,从而辅助中心车辆实现准确的目标检测。本实施例2中,将车车协同和车路协同任务相结合,提出一种基于异构图网络的多模态协同感知算法。此外,现有的协同目标检测模型均为基于点云的单一模态感知,为弥补点云的语义缺失和数据稀疏问题,同时提取智能体的点云和图像特征,从而实现多模态的协同感知。
本实施例2所述的主要基于异构图网络的多模态协同检测方法。包括四个步骤,第一步是智能体基于点云和图像分别提取BEV特征,第二步是多个智能体将生成的多模态BEV特征传至中心车辆,第三步是基于异构图的方法在节点层和语义层融合多智能体的特征,中心车辆得到新的协作特征,第四步是基于协同得到的特征进行目标检测,得到最终的检测结果。本发明通过构建异构协作图的方法从而将车车协同和车路协同任务有效结合,缓解单一任务存在的问题。如图3所示,具体包括如下步骤;
S10,智能体基于点云和图像分别提取BEV特征
本发明面对的任务是多模态单阶段3D目标检测。由于点云和图像的维度不同,相互投影转换会面临着信息丢失问题。自动驾驶3D目标检测一般只涉及同一平面,可以忽视高度目标,鸟瞰图可以很清楚地表示自动驾驶场景中的物体位置,物体之间不会互相遮挡。因此本发明采取鸟瞰图(Bird’s Eye View,BEV)作为两种模态的转换特征。
在自动驾驶场景中,假设一共有C个类别的物体,n个自动驾驶车辆和m个路端基础设施,对于每个智能体Ai的点云数据Xi(i=1,2,3,…,n+m),利用点云特征提取器三维的点云数据,转换成二维的鸟瞰图特征
Figure BDA0003847733080000141
同理,利用图像的特征提取器,经过投影取得多幅图像生成的二维鸟瞰图特征
Figure BDA0003847733080000142
其中h,k,c分别代表BEV特征的高、宽和通道数。
本实施例中,采取PointPillar和ImVoxelNet分别作为点云以及图像的特征提取器。接下来,基于点云范围,划分网格生成单阶段目标检测的锚框(anchor)用于最终的区域提取。
S20,多个智能体将生成的多模态BEV特征传至中心车辆。
特征级协同目标检测需要传输智能体的特征,由于协同感知场景智能体数量多,导致需要传输的特征也多,造成了巨大的带宽消耗。如图4所示,本实施例2中采取特征压缩的方式减小传输带宽。
对于每一个智能体给定一个特征hi∈Rk×k×c,本实施例中采取编码器将特征压缩至
Figure BDA0003847733080000143
其中
Figure BDA0003847733080000144
在中心车辆端对压缩特征进行解码,从而得到与原始特征尺寸一致的特征hi∈Rk×k×c。特征压缩模块使用的编码器为一系列二维卷积,解码器为一系列二维反卷积。
S30,基于异构图的方法在节点层和语义层融合多智能体的多模态特征。
本发明使用异构图网络,将多源异构智能体的多模态特征进行融合,其流程如图5所示。接下来详细介绍该模块的步骤。
S31,为不同智能体设置异构协作图的元路径。
由于自动驾驶车辆和道路基础设施的传感器特性,且不同模态生成的特征也具有不同的特性,为了表述这种异构特征,需要定义异构图的节点和边的类型。使用V表示车辆,I表示基础设施,P表示点云,C表示图像,则异构图的节点共有四种类型:
c∈{VP,VC,IP,IC}
相应地,异构图的边的类型包括:
e∈{VP-VP,VP-VC,VP-IP,VP-IC,VC-VP,VC-VC,VC-IP,VC-IC,IP-VP,IP-VC,IP-IP,IP-IC,IC-VP,IC-VC,IC-IP,IC-IC}
上述定义的有向边为异构图的元路径(meta-path),每一条元路径描述了一种特征对,比如VC-IP代表车辆的图像特征与基础设施的点云特征融合。
S32,根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合。
多源异构智能体的多模态特征输入到异构图中,首先在每一种元路径内进行节点层面的注意力机制融合。
对于某一种元路径φi,首先设计一个特定的转换矩阵
Figure BDA0003847733080000151
将特征进行转换,如下式所示,h'i为投影的特征。
Figure BDA0003847733080000152
转换特征之后,使用self-attention计算该元路径内节点特征间的权重。给定元路径Φ内的节点对(i,j),节点层面的注意力
Figure BDA0003847733080000153
可以学习到节点j对节点i的重要性,self-attention的计算过程如下式所示。
Figure BDA0003847733080000154
其中attnode为self-attention操作,如下式所示。
Figure BDA0003847733080000155
接着,将图的结构信息注入模型确保权重只针对当前边,并通过softmax计算正则化后的特征,如下式所示,其中||为拼接运算,σ是激活函数。
Figure BDA0003847733080000161
得到正则化后的权重,可以通过下式聚合近邻特征。
Figure BDA0003847733080000162
Figure BDA0003847733080000163
为当前元路径φi内经过节点层面融合得到的特征,该特征学习了当前元路径内的信息。
S33,在不同的元路径之间进行语义层面的注意力机制特征融合。
由于异构图中不同节点包含多种语义,在元路径内进行特征融合只能考虑当前路径内的语义,为了更全面地考虑节点的多种语义,我们还需要融合多种元路径。
给定节点层融合输出的特征,元路径间的权重可以使用下式计算得到,其中attsem与attnode一样为self-attention操作。
Figure BDA0003847733080000164
S34,异构协作图输出的特征作为中心车辆的融合特征。
经过元路径内的节点融合以及元路径间的语义融合,异构智能体以及多模态之间的特征得到充分学习,最后使用求平均值的方法将
Figure BDA0003847733080000165
融合作为中心车辆最后的协同特征并输出。
S40,中心车辆根据协作特征进行目标检测。
至此,中心车辆得到多智能体的多模态融合特征,本实施例2中延续PointPillar框架,采取特征金字塔融合多尺寸的特征,再输入到3D检测头部,对每个候选框做分类和回归预测,经过阈值筛选,可以得到更精准的检测结果。
需要注意的是,协同目标检测的场景中,每个车辆都可以作为中心车辆,也可以作为其他车辆的协同车辆,因此,整个协同检测过程是并行的。采取多模态单阶融合检测模型,检测精度显著优于单模态单阶段检测模型,经过异构协作图的特征融合,大大扩大了单车的感知视野,丰富了感知信息,从而提升协同感知性能。
综上,本实施例2所述的方法,首次尝试将多模态融合的方法应用于协同检测,为了弥补车车协同和车路协同这两个单一任务的不足,将两者相结合从而为自动驾驶车辆提供完整的视野。针对多源异构问题,设计了异构图网络用于融合智能体的多模态特征,从而有效提升协同感知性能。此外,采取的简单高效的异构模块,可以克服Transformer模型参数庞大,推理速度慢等缺点,从而有效提升模型推理速度,实现实时协同检测。
实施例3
本发明实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现基于异构图网络的多模态协同检测方法,该方法包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
实施例4
本发明实施例4提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现基于异构图网络的多模态协同检测方法,该方法包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
实施例5
本发明实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现基于异构图网络的多模态协同检测方法的指令,该方法包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于异构图网络的多模态协同检测方法,其特征在于,包括:
智能体基于点云和图像分别提取BEV特征;
多个智能体将生成的多模态BEV特征传至中心车辆;
基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
2.根据权利要求1所述的基于异构图网络的多模态协同检测方法,其特征在于,智能体基于点云和图像分别提取BEV特征,包括:
采取鸟瞰图作为两种模态的转换特征;假设一共有C个类别的物体,n个自动驾驶车辆和m个路端基础设施,对于每个智能体Ai的点云数据Xi(i=1,2,3,…,n+m),利用点云特征提取器提取三维的点云数据,转换成二维的鸟瞰图特征
Figure FDA0003847733070000011
利用图像的特征提取器,经过投影取得多幅图像生成的二维鸟瞰图特征
Figure FDA0003847733070000012
其中h,k,c分别代表BEV特征的高、宽和通道数;基于点云范围,划分网格生成单阶段目标检测的锚框用于最终的区域提取。
3.根据权利要求2所述的基于异构图网络的多模态协同检测方法,其特征在于,多个智能体将生成的多模态BEV特征传至中心车辆,包括:
采取特征压缩的方式减小传输带宽;
对于每一个智能体给定一个特征hi∈Rk×k×c,将其压缩至
Figure FDA0003847733070000013
其中
Figure FDA0003847733070000014
在中心车辆端对压缩特征进行解码,从而得到与原始特征尺寸一致的特征
Figure FDA0003847733070000015
4.根据权利要求3所述的基于异构图网络的多模态协同检测方法,其特征在于,基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征,包括:
为不同智能体设置异构协作图的元路径;根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合;在不同的元路径之间进行语义层面的注意力机制特征融合;异构协作图输出的特征作为中心车辆的融合特征。
5.根据权利要求4所述的基于异构图网络的多模态协同检测方法,其特征在于,根据元路径,在每一个元路径内进行节点层面的注意力机制特征融合,包括:
多源异构智能体的多模态特征输入到异构图中,首先在每一种元路径内进行节点层面的注意力机制融合;
对于某一种元路径φi,首先设计一个特定的转换矩阵
Figure FDA0003847733070000021
将特征进行转换,h'i为投影的特征:
Figure FDA0003847733070000022
转换特征之后,使用self-attention计算该元路径内节点特征间的权重;
给定元路径Φ内的节点对(i,j),节点层面的注意力
Figure FDA0003847733070000023
可以学习到节点j对节点i的重要性,self-attention的计算公式为:
Figure FDA0003847733070000024
其中,attnode为self-attention操作:
Figure FDA0003847733070000025
将图的结构信息注入模型确保权重只针对当前边,并通过softmax计算正则化后的特征,其中||为拼接运算,σ是激活函数:
Figure FDA0003847733070000026
得到正则化后的权重,通过下式聚合近邻特征:
Figure FDA0003847733070000031
其中,
Figure FDA0003847733070000032
为当前元路径φi内经过节点层面融合得到的特征,该特征学习了当前元路径内的信息。
6.根据权利要求5所述的基于异构图网络的多模态协同检测方法,其特征在于,在不同的元路径之间进行语义层面的注意力机制特征融合,包括:
由于异构图中不同节点包含多种语义,在元路径内进行特征融合只能考虑当前路径内的语义,为了更全面地考虑节点的多种语义,需融合多种元路径;
给定节点层融合输出的特征,元路径间的权重可以使用下式计算得到
Figure FDA0003847733070000033
其中,attsem与attnode一样为self-attention操作。
7.一种基于异构图网络的多模态协同检测系统,其特征在于,包括:
提取模块,用于智能体基于点云和图像分别提取BEV特征;
传输模块,用于多个智能体将生成的多模态BEV特征传至中心车辆;
融合模块,用于基于异构图的方法在节点层和语义层融合多智能体的多模态BEV特征,得到新的协作特征;
检测模块,用于中心车辆基于新的协作特征进行目标检测,得到最终的检测结果。
8.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如权利要求1-6任一项所述的基于异构图网络的多模态协同检测方法。
9.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如权利要求1-6任一项所述的基于异构图网络的多模态协同检测方法。
10.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如权利要求1-6任一项所述的基于异构图网络的多模态协同检测方法的指令。
CN202211122478.2A 2022-09-15 2022-09-15 基于异构图网络的多模态协同检测方法及系统 Pending CN115512319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211122478.2A CN115512319A (zh) 2022-09-15 2022-09-15 基于异构图网络的多模态协同检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211122478.2A CN115512319A (zh) 2022-09-15 2022-09-15 基于异构图网络的多模态协同检测方法及系统

Publications (1)

Publication Number Publication Date
CN115512319A true CN115512319A (zh) 2022-12-23

Family

ID=84504375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211122478.2A Pending CN115512319A (zh) 2022-09-15 2022-09-15 基于异构图网络的多模态协同检测方法及系统

Country Status (1)

Country Link
CN (1) CN115512319A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756992A (zh) * 2023-07-07 2023-09-15 北京海澍科技有限公司 具有语义层的车路协同系统建模方法及设备
CN117496161A (zh) * 2023-12-29 2024-02-02 武汉理工大学 一种点云分割方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756992A (zh) * 2023-07-07 2023-09-15 北京海澍科技有限公司 具有语义层的车路协同系统建模方法及设备
CN116756992B (zh) * 2023-07-07 2024-02-23 北京海澍科技有限公司 具有语义层的车路协同系统建模方法及设备
CN117496161A (zh) * 2023-12-29 2024-02-02 武汉理工大学 一种点云分割方法及装置
CN117496161B (zh) * 2023-12-29 2024-04-05 武汉理工大学 一种点云分割方法及装置

Similar Documents

Publication Publication Date Title
CN109410307B (zh) 一种场景点云语义分割方法
Schulter et al. Learning to look around objects for top-view representations of outdoor scenes
CN115512319A (zh) 基于异构图网络的多模态协同检测方法及系统
CN101394573B (zh) 一种基于特征匹配的全景图生成方法及系统
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN110335222B (zh) 基于神经网络的自修正弱监督双目视差提取方法及装置
CN110232418B (zh) 一种语义识别方法、终端及计算机可读存储介质
DE102019123455A1 (de) Gemeinsame synthese und platzierung von objekten in szenen
CN111914615A (zh) 基于立体视觉的消防区域可通过性分析系统
Wang et al. DepthNet nano: A highly compact self-normalizing neural network for monocular depth estimation
CN114913495A (zh) 基于协作图融合的协同目标检测方法及系统
Laupheimer et al. The importance of radiometric feature quality for semantic mesh segmentation
CN113536920B (zh) 一种半监督三维点云目标检测方法
CN102768761B (zh) 一种基于透视变换的立体视频绘制方法
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
CN117173655A (zh) 基于语义传播和跨注意力机制的多模态3d目标检测方法
CN112270701A (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN116563807A (zh) 模型训练方法、装置、电子设备及存储介质
Liu et al. HPL-ViT: A Unified Perception Framework for Heterogeneous Parallel LiDARs in V2V
CN111768493B (zh) 一种基于分布参数编码的点云处理方法
Silva et al. S2TPVFormer: Spatio-Temporal Tri-Perspective View for temporally coherent 3D Semantic Occupancy Prediction
Wang et al. Pi-net: An end-to-end deep neural network for bidirectionally and directly fusing point clouds with images
Săftescu et al. Look Here: Learning Geometrically Consistent Refinement of Inverse-Depth Images for 3D Reconstruction
Dai et al. Connecting the dots for real-time LiDAR-based object detection with YOLO

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination