CN116543283B - 一种考虑模态不确定性的多模态目标检测方法 - Google Patents

一种考虑模态不确定性的多模态目标检测方法 Download PDF

Info

Publication number
CN116543283B
CN116543283B CN202310815693.9A CN202310815693A CN116543283B CN 116543283 B CN116543283 B CN 116543283B CN 202310815693 A CN202310815693 A CN 202310815693A CN 116543283 B CN116543283 B CN 116543283B
Authority
CN
China
Prior art keywords
confidence
prediction
image
mode
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310815693.9A
Other languages
English (en)
Other versions
CN116543283A (zh
Inventor
石琴
陈雅芳
程腾
侯登超
张强
王文冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202310815693.9A priority Critical patent/CN116543283B/zh
Publication of CN116543283A publication Critical patent/CN116543283A/zh
Application granted granted Critical
Publication of CN116543283B publication Critical patent/CN116543283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及新一代信息技术领域,具体是一种考虑模态不确定性的多模态目标检测方法,包括以下步骤:将数据库中同一检测对象的各种模态数据输入训练完成的神经网络中,并输出各种模态对应的结果集;将各种模态下的图像边界框角点坐标转化到同一坐标系中,并在该坐标系下将各种模态的结果集彼此匹配关联;将各种模态的置信估计分数作为置信权重赋予该模态下的图像类别预测置信度分数,以构成各种模态下的期望;对各个期望求均值,将求得的各个均值进行融合,选取融合后图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果;本发明能够提高多模态目标检测的准确性,更为准确地确定目标的存在和位置。

Description

一种考虑模态不确定性的多模态目标检测方法
技术领域
本发明涉及新一代信息技术领域,具体是一种考虑模态不确定性的多模态目标检测方法。
背景技术
多模态目标检测是指使用多个信息源如视觉、音频和传感器数据,检测感兴趣对象的过程。由于每种模态的数据存在可变性和噪声,多模态目标检测中会出现不确定性,导致难以准确地确定目标的存在和位置。
在多模态目标检测的过程中,首先需要考虑多模态场景下可能出现潜在冲突情况和信息源异质性问题;此外,在考虑不确定性过程中可能会引入计算复杂度增大和运算速度减慢等问题;最后还需要针对每个场景进行专门设计调整。由此可见,为了提高多模态目标检测的准确性,在检测的过程需要考虑多种因素的影响。为了兼顾多模态目标检测的中多种因素的影响,通常采用深度神经网络、改进型D-S证据理论、贝叶斯方法等对数据进行处理,以此弥补检测中存在的一些缺陷。然而,这些技术在使用的过程中仍存在着一些不足之处。具体如下:
1、深度神经网络可有效提取特征,并且对于学习训练数据中经验关联的能力非常强大,但是当任务需要依靠常识或者背景知识等计算机未知的推理或复杂的编程时,它的效果就减弱。
2、改进型D-S证据理论弥补了原始理论对于互斥假设处理的不足,但其在面对高冲突证据融合时,会得到有悖常理的无效结果问题,处理的结果错误。
3、贝叶斯方法适合较小规模数据集的使用,当面对的数据集包含大量的数据时,贝叶斯方法处理后的结果的准确度就会下降。
综上可知,尽管这些方法已广泛应用于图像和语音识别等各个领域,但它们存在的不足,导致在处理多模态目标检测中的潜在冲突和信息异构性以及处理考虑时的计算复杂性和运行速度慢方面仍然存在局限性和不确定性。
发明内容
为了避免和克服现有技术中存在的技术问题,本发明提供了一种考虑模态不确定性的多模态目标检测方法。本发明能够提高多模态目标检测的准确性,更为准确地确定目标的存在和位置。
为实现上述目的,本发明提供如下技术方案:
一种考虑模态不确定性的多模态目标检测方法,包括以下步骤:
S1、将数据库中的数据输入神经网络中进行训练,以得到训练完成的神经网络;
S2、将数据库中同一检测对象的各种模态的数据输入训练完成的神经网络中,并输出各种模态对应的结果集,结果集包括图像边界框角点坐标、图像类别预测置信度向量与置信估计分数;
S3、将各种模态下的图像边界框角点坐标转化到同一坐标系中,并在该坐标系下将各种模态的结果集彼此匹配关联;
S4、将各种模态的置信估计分数作为置信权重赋予该模态下的图像类别预测置信度分数,以构成各种模态下的期望;
S5、对各个期望求均值,将求得的各个均值进行融合,选取融合后图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果。
作为本发明再进一步的方案:步骤S1的具体步骤如下:
S11、首先构建神经网络:神经网络包括输入层、隐藏层和输出层,隐藏层包括通用层以及与通用层连接且彼此并列的置信估计层、分类预测层和边框预测层;
输入层、通用层、置信估计层和输出层彼此依次连接构成置信估计网络,置信估计网络输出层的激活函数为sigmod函数,置信估计网络输出置信估计分数;
输入层、通用层、分类预测层和输出层彼此依次连接构成分类预测网络,分类预测网络输出层的激活函数为softmax函数,分类预测网络输出图像类别预测置信度向量;
输入层、通用层、边框预测层和输出层彼此依次连接构成边框预测网络,边框预测网络输出图像边界框角点坐标;
S12、接着构建数据库:数据库内存储预定数量的检测对象的各种模态数据,且同一检测对象的各种模态数据彼此一一对应,模态类别包括雷达模态和摄像模态,检测对象在雷达模态中表现为激光点云,检测对象在摄像模态中表现为RGB图像;
S13、按预定比例将数据库中的数据分为训练集和预测集;将训练集中检测对象同一模态类别的数据分别输入分类预测网络和边框预测网络中进行同步训练;当分类预测网络和边框预测网络同时达到各自对应的预测精度时停止训练,此时分类预测网络和边框预测网络均训练完毕;
S14、锁定通用层中权重参数的数值,即通用层中权重参数的数值不再更新;
S15、将训练集中检测对象同一模态类别的数据依次输入置信估计网络,输出对应的置信估计分数;
S16、将该输入置信估计网络的数据输入已经训练完成的分类预测网络中,得到对应的图像类别预测置信度向量,图像类别预测置信度向量中的各个元素分别表示对应图像类别的图像类别预测置信度分数;对该图像类别预测置信度向量进行掩膜运算,以获得对应的图像类别预测概率真值;
S17、将图像类别预测概率真值和置信估计分数代入置信估计层中的置信损失函数中,计算置信损失值,并同时更新置信估计层的权重参数;当置信损失值达到预定的损失范围后停止训练,此时置信估计网络训练完毕;
S18、分别获得雷达模态下的置信估计网络、分类预测网络和边框预测网络,以及摄像模态下的置信估计网络、分类预测网络和边框预测网络。且在雷达模态下的各个网络与摄像模态下的各个网络是彼此一一对应的,即置信估计网络对置信估计网络、分类预测网络对分类预测网络、边框预测网络对边框预测网络。
作为本发明再进一步的方案:所述置信损失函数的表达式如下:
其中,L conf 表示置信损失值;N表示训练集中检测对象的总数;c i 表示训练集中第i个检测对象的置信估计分数;b i 表示训练集中第i个检测对象的图像类别预测概率真值;log表示对数函数。
作为本发明再进一步的方案:步骤S2的具体步骤如下:
S21、将预测集中检测对象的RGB图像数据输入对应摄像模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成摄像模态结果集;
S22、将预测集中同一检测对象的激光点云数据输入对应雷达模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成雷达模态结果集。
作为本发明再进一步的方案:步骤S3的具体步骤如下:
S31、以摄像模态结果集中检测对象的图像边界框角点坐标中的任一坐标为坐标原点,并以垂直相交于该坐标的两边界框所在的直线为坐标轴,建立图像坐标系;
S32、将雷达模态结果集中的图像边界框角点坐标通过旋转平移的方式与图像坐标系中同一检测对象摄像模态结果集中的图像边界框角点坐标彼此对齐重合;
S33、坐标对齐重合后的雷达模态结果集和摄像模态结果集中的置信估计分数和图像类别预测置信度向量彼此相互关联。即雷达模态结果集的置信估计分数和摄像模态结果集中的置信估计分数彼此关联,雷达模态结果集的图像类别预测置信度向量和摄像模态结果集中的图像类别预测置信度向量彼此关联。
作为本发明再进一步的方案:步骤S4的具体步骤如下:
S41、对雷达模态结果集和摄像模态结果集中的图像边界框角点坐标进行坐标匹配检测,以使同一检测对象的RGB图像和激光点云完全匹配重合;
S42、将检测对象雷达模态下的置信估计分数作为置信权重赋予该雷达模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的雷达模态期望;
S43、对雷达模态期望进行求均值,以获得雷达模态期望均值;
S44、将检测对象摄像模态下的置信估计分数作为置信权重赋予该摄像模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的摄像模态期望;
S45、对摄像模态期望进行求均值,以获得摄像模态期望均值。
作为本发明再进一步的方案:步骤S5的具体步骤如下:
S51、将雷达模态期望均值定义为雷达模态期望证据,将摄像模态期望均值定义为摄像模态期望证据;
S52、将雷达模态期望证据和摄像模态期望证据输入D-S证据理论进行融合,利用D-S证据理论的组合规则对雷达模态期望证据和摄像模态期望证据迭代组合预定次数后的结果作为检测对象的合成结果;
S53、选取合成结果中图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果。
作为本发明再进一步的方案:所述摄像模态期望证据表示如下:
所述雷达模态期望证据表示如下:
其中,M S 表示摄像模态期望值;W S 表示检测对象摄像模态下的置信估计分数;S j 表示检测对象摄像模态下的图像类别预测置信度向量中的第j个元素;n S 表示检测对象摄像模态下的图像类别预测置信度向量中元素的个数;
M D 表示雷达模态期望值;W D 表示检测对象雷达模态下的置信估计分数;D j 表示检测对象雷达模态下的图像类别预测置信度向量中的第j个元素;n D 表示检测对象雷达模态下的图像类别预测置信度向量中元素的个数。
作为本发明再进一步的方案:所述通用层、置信估计层、分类预测层和边框预测层均为全连接层。
与现有技术相比,本发明的有益效果是:
1、本发明旨在获得衡量神经网络预测的类别概率值的可靠性度量,使得该度量分数值越大,神经网络预测的类别置信度得分越可靠,更为准确地确定目标的存在和位置,减小分类冲突,减轻计算复杂度和提高计算机运行速度。
2.与传统神经网络不同,本发明所提出的置信估计神经网络并行于softmax层,与softmax层共享卷积神经网络提取的特征。在置信估计网络中通过一系列的密集层将特征进一步提取,最后将特征输入sigmod函数归一化,输出一个0到1的预测值,该值即表征网络对自身所输出的类别置信度分数的可信度,即置信估计层用于评估预测结果的不确定性,更准确地评估神经网络对目标的分类预测,提高神经网络的分类性能和可靠性和目标检测系统的鲁棒性。
附图说明
图1为本发明的操作步骤流程图。
图2为本发明中置信估计网络结构示意图。
图3为本发明中基于置信估计的确定性融合框架结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-3所示,考虑神经网络自身的不确定性,本发明提出一个置信估计层,置信估计层被赋予一种识别神经网络对于类别置信度得分预测错误的能力,旨在获得衡量神经网络预测的类别概率值的可靠性度量,该度量分数值越大,神经网络预测的类别置信度得分越可靠。理想情况下,按照有监督学习思想,网络应该与将预测置信度分数与真实置信度分数计算损失以训练学习如何得到正确的置信度估计分数,然而真实置信度分数难以以标签的形式提供给网络进行训练。
置信估计网络并行于softmax层,尝试学习神经网络自身预测类别置信度分数正确与错误的能力,输出当前网络预测的置信度分数的可信度。本发明所提出的置信估计层并不是尝试提高感知神经网络预测类别的精确度,而是为了衡量该神经网络预测的可信度,因此置信估计层可以对每个预测值进行打分。
为更准确地评估神经网络自身的预测能力,首先将初始神经网络进行目标检测的训练,使其具备提取复杂特征并分类识别的能力,在此基础上将得到的权重数据作为训练置信估计网络的预训练权重,并在训练时将分类预测层冻结以起到分类层与置信估计层解耦,避免置信估计层干扰原始神经网络的预测。
基于预训练权重,得到了模型预测类别置信度分数的能力,利用所预测的类别置信度分数与置信估计标签,训练置信估计网络。
针对置信估计分数标签难以获取问题,采用训练时生成标签的思路,即标签为预测值。首先根据数据集标签,构建独热编码(one-hot),该独热编码起到一个掩膜的作用,通过与预测的置信度分数向量做与运算,得到神经网络预测出的该目标真实类别对应的置信度分数,以该置信度分数作为置信估计网络训练的标签数据,并将该置信度分数与置信估计网络输出的置信估计分数联合计算损失。然而,训练置信估计网络时,由于预训练权重的引入,分类层网络已经具备了捕捉复杂特征并实现准确分类的能力,因此错误分类的概率较小,神经网络难以学习到预测错误时置信估计网络应该输出什么分数。针对该问题本发明使用L conf 作为置信估计网络的置信损失函数,为避免置信估计网络预测的分数不断趋向于1,在损失函数中引入log函数起到惩罚作用。当标签与预测值的距离接近1时,损失较小,当标签与预测值的距离接近0时,损失会趋向于正无穷。
RGB图像通过神经网络的多次卷积池化来进行特征提取,特征提取后,分别进入置信估计网络,置信估计神经网络并行于softmax层,与softmax层共享卷积神经网络提取的特征。在置信估计网络中通过一系列的密集层将特征进一步提取,最后将特征输入sigmod函数归一化,输出一个0到1 的预测值,该值即表征网络对自身所输出的类别置信度分数的可信度,sigmoid函数预测值输出为0到1 的标量。
分类网络,传统神经网络的输入源经卷积神经网络提取特征后,会将数据特征传入softmax层。softmax层将特征转化为N维值为0到1 的向量,其中N为类别数量,代表神经网络对该目标预测的类别概率。经过排序后,概率最大值所对应的类别即为神经网络对该目标预测的类别。
关于L conf 通过置信估计网络得到一个置信估计分数c,通过分类网络得到N维值为0到1 的向量,并在target真值内进行查找对应的真值,进行掩膜运算得到预测的真值b,得到的cb,进行运算。
基于置信估计的确定性融合框架,首先,从多传感器中接收多源模态数据,将多模态数据输入至感知神经网络,神经网络基于卷积、池化等处理后提取数据特征,将特征并行地输入至分类层、预测层。其中,预测层包含了分类与边框回归的结果,特征经过全连接层后会输入至Softmax函数,以此得到神经网络预测的类别置信度概率;置信估计层旨在衡量神经网络的分类不确定性,即评估神经网络预测的分类置信度的可信度。置信估计层由一系列全连接层构成,并将全连接层输出结果经过sigmod函数将预测值输出为0到1 的标量。然后神经网络会将检测结果通过非极大值抑制(Non-Maximum Suppression, NMS)处理。NMS旨在过滤多余的检测框,其与本发明关注的分类置信度分数和置信估计分数并不冲突,因此将分类置信度分数与置信估计分数共同经过NMS处理输出,最后得到所有检测结果。检测结果为N维向量,向量元素包括边界框角点的二维坐标、类别预测对应的置信度分数与置信估计分数。
接下来将多源模态检测结果的坐标信息经基准坐标系相对的旋转矩阵与平移矩阵变换,得到统一坐标系下的坐标表示,在该坐标系下完成目标结果集间的匹配关联。
最后对关联结果进行融合,待融合信息包含边界框中四个角点的坐标信息与目标的类别信息,其中边界框角点坐标的融合,本发明采用均值法策略进行融合,类别的融合方法采用确定性融合方法,确定性融合依赖于置信估计网络。
在道路的两侧部署室外感知平台,室外感知平台包括路侧感知平台由激光雷达、相机、路侧单元RSU及边缘计算单元等硬件设备。
激光雷达是路侧感知平台的数据采集设备之一,通过发射激光束并有效接收回波信号,可以采集到精准的环境信息,其基本参数表1如下所示,包含激光雷达的输出参数、机械参数以及扫描参数。
表1 激光雷达的参数
边缘计算单元是路侧感知平台中的关键组成部分,为整个系统提供计算能力,包含基础模态感知源的神经网络计算、确定性融合方法计算与数据通讯等。其中,高算力显卡使边缘设备同训练环境一样具有高性能,其基本参数如表2所示。
表2 显卡参数
路侧单元RSU为整个系统提供了通信能力,支持与车端的OBU进行PC5口通信,且通过千兆网口直接与边缘计算单元相连,边缘计算单元借助其实现与云/车端通信的功能,RSU基本参数如表3所示。
表3 路侧单元RSU参数
实现流程:
采集路侧环境下的感知信息以rosbag包的形式存储,并将其解析为连续单帧的图像与激光点云数据。基于labelimg工具与annotate工具标注图像和点云,制作小批量数据集,用以补充训练基础感知源。共采集5000帧激光点云数据与图像数据,并以机动车、非机动车、行人三种类别标注数据集。
首先,将数据库中的数据输入神经网络中进行训练,以得到训练完成的神经网络。本发明采用了激光雷达和相机作为数据输入,为保证算法在边缘设备能够实时运行,以实时性较好的Yolov5与PointPillar作为视觉感知网络与激光感知网络,以确定性融合算法作为数据融合模块,从而实现更加精准和高效的数据融合处理。
其次,将数据库中同一检测对象的各种模态数据输入训练完成的神经网络中,并输出各种模态对应的结果集。
紧接着,将各种模态下的图像边界框角点坐标转化到同一坐标系中,并在该坐标系下将各种模态的结果集彼此匹配关联。
再者,将各种模态的置信估计分数作为置信权重赋予该模态下的图像类别预测置信度分数,以构成各种模态下的期望。
最后,对各个期望求均值,将求得的各个均值进行融合,选取融合后图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种考虑模态不确定性的多模态目标检测方法,其特征在于,包括以下步骤:
S1、将数据库中的数据输入神经网络中进行训练,以得到训练完成的神经网络;
S2、将数据库中同一检测对象的各种模态的数据输入训练完成的神经网络中,并输出各种模态对应的结果集,结果集包括图像边界框角点坐标、图像类别预测置信度向量与置信估计分数;
S3、将各种模态下的图像边界框角点坐标转化到同一坐标系中,并在该坐标系下将各种模态的结果集彼此匹配关联;
S4、将各种模态的置信估计分数作为置信权重赋予该模态下的图像类别预测置信度分数,以构成各种模态下的期望;
S5、对各个期望求均值,将求得的各个均值进行融合,选取融合后图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果;
步骤S1的具体步骤如下:
S11、首先构建神经网络:神经网络包括输入层、隐藏层和输出层,隐藏层包括通用层以及与通用层连接且彼此并列的置信估计层、分类预测层和边框预测层;
输入层、通用层、置信估计层和输出层彼此依次连接构成置信估计网络,置信估计网络输出层的激活函数为sigmod函数,置信估计网络输出置信估计分数;
输入层、通用层、分类预测层和输出层彼此依次连接构成分类预测网络,分类预测网络输出层的激活函数为softmax函数,分类预测网络输出图像类别预测置信度向量;
输入层、通用层、边框预测层和输出层彼此依次连接构成边框预测网络,边框预测网络输出图像边界框角点坐标;
S12、接着构建数据库:数据库内存储预定数量的检测对象的各种模态数据,且同一检测对象的各种模态数据彼此一一对应;模态类别包括雷达模态和摄像模态,检测对象在雷达模态中表现为激光点云,检测对象在摄像模态中表现为RGB图像;
S13、按预定比例将数据库中的数据分为训练集和预测集,将训练集中检测对象同一模态类别的数据分别输入分类预测网络和边框预测网络中进行同步训练;当分类预测网络和边框预测网络同时达到各自对应的预测精度时停止训练,此时分类预测网络和边框预测网络均训练完毕;
S14、锁定通用层中权重参数的数值,即通用层中权重参数的数值不再更新;
S15、将训练集中检测对象同一模态类别的数据依次输入置信估计网络,输出对应的置信估计分数;
S16、将该输入置信估计网络的数据输入已经训练完成的分类预测网络中,得到对应的图像类别预测置信度向量,图像类别预测置信度向量中的各个元素分别表示对应图像类别的图像类别预测置信度分数;对该图像类别预测置信度向量进行掩膜运算,以获得对应的图像类别预测概率真值;
S17、将图像类别预测概率真值和置信估计分数代入置信估计层中的置信损失函数中,计算置信损失值,并同时更新置信估计层的权重参数;当置信损失值达到预定的损失范围后停止训练,此时置信估计网络训练完毕;
S18、分别获得雷达模态下的置信估计网络、分类预测网络和边框预测网络,以及摄像模态下的置信估计网络、分类预测网络和边框预测网络;
所述置信损失函数的表达式如下:
其中,L conf 表示置信损失值;N表示训练集中检测对象的总数;c i 表示训练集中第i个检测对象的置信估计分数;b i 表示训练集中第i个检测对象的图像类别预测概率真值;log表示对数函数。
2.根据权利要求1所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S2的具体步骤如下:
S21、将预测集中检测对象的RGB图像数据输入对应摄像模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成摄像模态结果集;
S22、将预测集中同一检测对象的激光点云数据输入对应雷达模态下的置信估计网络、分类预测网络和边框预测网络,以获得对应的置信估计分数、图像类别预测置信度向量和图像边界框角点坐标,该置信估计分数、图像类别预测置信度向量和图像边界框角点坐标组合形成雷达模态结果集。
3.根据权利要求2所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S3的具体步骤如下:
S31、以摄像模态结果集中检测对象的图像边界框角点坐标中的任一坐标为坐标原点,并以垂直相交于该坐标的两边界框所在的直线为坐标轴,建立图像坐标系;
S32、将雷达模态结果集中的图像边界框角点坐标通过旋转平移的方式与所述图像坐标系中同一检测对象摄像模态结果集中的图像边界框角点坐标彼此对齐重合;
S33、坐标对齐重合后的雷达模态结果集和摄像模态结果集中的置信估计分数和图像类别预测置信度向量彼此相互关联。
4.根据权利要求3所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S4的具体步骤如下:
S41、对雷达模态结果集和摄像模态结果集中的图像边界框角点坐标进行坐标匹配检测,以使同一检测对象的RGB图像和激光点云完全匹配重合;
S42、将检测对象雷达模态下的置信估计分数作为置信权重赋予该雷达模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的雷达模态期望;
S43、对雷达模态期望进行求均值,以获得雷达模态期望均值;
S44、将检测对象摄像模态下的置信估计分数作为置信权重赋予该摄像模态下图像类别预测置信度向量中的各个元素,并对赋予置信权重的各个元素进行求和,以获得对应的摄像模态期望;
S45、对摄像模态期望进行求均值,以获得摄像模态期望均值。
5.根据权利要求4所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,步骤S5的具体步骤如下:
S51、将雷达模态期望均值定义为雷达模态期望证据,将摄像模态期望均值定义为摄像模态期望证据;
S52、将雷达模态期望证据和摄像模态期望证据输入D-S证据理论进行融合,利用D-S证据理论的组合规则对雷达模态期望证据和摄像模态期望证据迭代组合预定次数后的结果作为检测对象的合成结果;
S53、选取合成结果中图像类别预测置信度分数最大值对应的图像类别,该图像类别即为检测对象的检测结果。
6.根据权利要求5所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,所述摄像模态期望证据表示如下:
其中,M S 表示摄像模态期望值;W S 表示检测对象摄像模态下的置信估计分数;S j 表示检测对象摄像模态下的图像类别预测置信度向量中的第j个元素;n S 表示检测对象摄像模态下的图像类别预测置信度向量中元素的个数;
所述雷达模态期望证据表示如下:
M D 表示雷达模态期望值;W D 表示检测对象雷达模态下的置信估计分数;D j 表示检测对象雷达模态下的图像类别预测置信度向量中的第j个元素;n D 表示检测对象雷达模态下的图像类别预测置信度向量中元素的个数。
7.根据权利要求6所述的一种考虑模态不确定性的多模态目标检测方法,其特征在于,所述通用层、置信估计层、分类预测层和边框预测层均为全连接层。
CN202310815693.9A 2023-07-05 2023-07-05 一种考虑模态不确定性的多模态目标检测方法 Active CN116543283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310815693.9A CN116543283B (zh) 2023-07-05 2023-07-05 一种考虑模态不确定性的多模态目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310815693.9A CN116543283B (zh) 2023-07-05 2023-07-05 一种考虑模态不确定性的多模态目标检测方法

Publications (2)

Publication Number Publication Date
CN116543283A CN116543283A (zh) 2023-08-04
CN116543283B true CN116543283B (zh) 2023-09-15

Family

ID=87452839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310815693.9A Active CN116543283B (zh) 2023-07-05 2023-07-05 一种考虑模态不确定性的多模态目标检测方法

Country Status (1)

Country Link
CN (1) CN116543283B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726628B (zh) * 2024-02-18 2024-04-19 青岛理工大学 一种基于半监督目标检测算法的钢材表面缺陷检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2523149A2 (en) * 2011-05-11 2012-11-14 Tata Consultancy Services Ltd. A method and system for association and decision fusion of multimodal inputs
CN103838836A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 基于判别式多模态深度置信网多模态数据融合方法和系统
WO2019222759A1 (en) * 2018-05-18 2019-11-21 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
CN112215257A (zh) * 2020-09-14 2021-01-12 德清阿尔法创新研究院 一种多人多模态感知数据自动标记和互相学习方法
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
US11100669B1 (en) * 2018-09-14 2021-08-24 Apple Inc. Multimodal three-dimensional object detection
CN114359687A (zh) * 2021-12-07 2022-04-15 华南理工大学 基于多模态数据双重融合的目标检测方法、装置、设备和介质
CN114398983A (zh) * 2022-01-14 2022-04-26 腾讯科技(深圳)有限公司 分类预测方法、装置、设备、存储介质及计算机程序产品
CN114972842A (zh) * 2022-04-24 2022-08-30 中山大学 一种基于无人机载的多模态图像融合探雷方法
CN114999006A (zh) * 2022-05-20 2022-09-02 南京邮电大学 基于不确定性估计的多模态情感分析方法、装置及设备
CN115299947A (zh) * 2022-09-06 2022-11-08 济南大学 基于多模态生理数据的心理量表置信度评估方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2523149A2 (en) * 2011-05-11 2012-11-14 Tata Consultancy Services Ltd. A method and system for association and decision fusion of multimodal inputs
CN103838836A (zh) * 2014-02-25 2014-06-04 中国科学院自动化研究所 基于判别式多模态深度置信网多模态数据融合方法和系统
WO2019222759A1 (en) * 2018-05-18 2019-11-21 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
US11100669B1 (en) * 2018-09-14 2021-08-24 Apple Inc. Multimodal three-dimensional object detection
CN112215257A (zh) * 2020-09-14 2021-01-12 德清阿尔法创新研究院 一种多人多模态感知数据自动标记和互相学习方法
CN112800875A (zh) * 2021-01-14 2021-05-14 北京理工大学 一种混合特征融合和决策融合的多模态情感识别方法
CN114359687A (zh) * 2021-12-07 2022-04-15 华南理工大学 基于多模态数据双重融合的目标检测方法、装置、设备和介质
CN114398983A (zh) * 2022-01-14 2022-04-26 腾讯科技(深圳)有限公司 分类预测方法、装置、设备、存储介质及计算机程序产品
CN114972842A (zh) * 2022-04-24 2022-08-30 中山大学 一种基于无人机载的多模态图像融合探雷方法
CN114999006A (zh) * 2022-05-20 2022-09-02 南京邮电大学 基于不确定性估计的多模态情感分析方法、装置及设备
CN115299947A (zh) * 2022-09-06 2022-11-08 济南大学 基于多模态生理数据的心理量表置信度评估方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multimodal Object Detection Via Probabilistic Ensembling;yi ting chen 等;《arXiv:2104.02904v3》;全文 *
基于特征融合的多层次多模态目标检测;程腾 等;《汽车工程》;全文 *

Also Published As

Publication number Publication date
CN116543283A (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
US20200074178A1 (en) Method and system for facilitating recognition of vehicle parts based on a neural network
CN111738258A (zh) 一种基于机器人巡检的指针式仪表读数识别方法
CN110782483A (zh) 基于分布式相机网络的多视图多目标跟踪方法及系统
US11410327B2 (en) Location determination apparatus, location determination method and computer program
CN116543283B (zh) 一种考虑模态不确定性的多模态目标检测方法
Pan et al. Towards better performance and more explainable uncertainty for 3d object detection of autonomous vehicles
CN110197106A (zh) 物件标示系统及方法
CN114937083B (zh) 一种应用于动态环境的激光slam系统及方法
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
US20220130109A1 (en) Centralized tracking system with distributed fixed sensors
CN111429515A (zh) 基于深度学习的机器人避障行为的学习方法
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
Isaac-Medina et al. Multi-view object detection using epipolar constraints within cluttered x-ray security imagery
CN113781563B (zh) 一种基于深度学习的移动机器人回环检测方法
CN104182747A (zh) 基于多个立体相机的对象检测跟踪方法及装置
Wen et al. CAE-RLSM: Consistent and efficient redundant line segment merging for online feature map building
CN115661429B (zh) 一种锅炉水冷壁管缺陷识别系统、方法和存储介质
US20230260259A1 (en) Method and device for training a neural network
Kim et al. Fast stereo matching of feature links
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN115984093A (zh) 基于红外图像的深度估计方法、电子设备以及存储介质
CN114140497A (zh) 目标车辆3d实时追踪方法及系统
CN114066844A (zh) 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法
Liu et al. An IMM-Enabled Adaptive 3D Multi-Object Tracker for Autonomous Driving
CN117523428B (zh) 基于飞行器平台的地面目标检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant