CN116977810A - 多模态后融合的长尾类别检测方法和系统 - Google Patents

多模态后融合的长尾类别检测方法和系统 Download PDF

Info

Publication number
CN116977810A
CN116977810A CN202311236786.2A CN202311236786A CN116977810A CN 116977810 A CN116977810 A CN 116977810A CN 202311236786 A CN202311236786 A CN 202311236786A CN 116977810 A CN116977810 A CN 116977810A
Authority
CN
China
Prior art keywords
long
confidence
class
result
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311236786.2A
Other languages
English (en)
Other versions
CN116977810B (zh
Inventor
马也驰
华炜
张楚润
位硕权
李亚南
孔庶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311236786.2A priority Critical patent/CN116977810B/zh
Publication of CN116977810A publication Critical patent/CN116977810A/zh
Application granted granted Critical
Publication of CN116977810B publication Critical patent/CN116977810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请涉及一种多模态后融合的长尾类别检测方法和系统。所述方法包括:利用第一目标检测模型检测当前场景的点云数据,得到第一目标检测结果;利用第二目标检测模型检测当前场景的图像数据,得到第二目标检测结果;将第一目标检测结果中的三维检测框投影到图像数据的坐标系中,与第二目标检测结果中的二维检测框进行配对;若配对结果中长尾类别的上级类别相匹配,则将两者的置信度进行融合,并更新配对结果;基于点云数据的三维检测框、第三置信度以及图像数据的第二长尾类别,确定更新后的配对结果的长尾类别检测结果。通过本方法能够实现多模态的长尾类别检测,通过轻量级模型,提高长尾类别的检测效率和检测结果的输出精度。

Description

多模态后融合的长尾类别检测方法和系统
技术领域
本申请涉及长尾检测技术领域,特别是涉及一种多模态后融合的长尾类别检测方法和系统。
背景技术
智能驾驶技术是未来汽车产业的重要发展方向之一,智能驾驶汽车必须准确的检测出常见类和稀有类的物体才能安全行驶,而目前常见的基于激光雷达的三维目标检测方法在稀有类别上表现不佳,一方面是因为稀有类别的目标数量较少,训练难度大,另一方面是因为激光雷达传感器无法获得颜色,纹理等特征,因此对于救护车,警车等稀有类别难以准确分类。
在当前研究中,“长尾”类别检测效果较好的是论文《Towards long-tailed 3ddetection》提出的方法,该方法采用单目图像做三维检测,将检测结果和激光雷达检测结果做后融合得到“长尾”类别的检测结果,其缺点是单目图像三维检测的模型训练难度大,检测精度较低,会影响最终融合的检测结果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够减小模型训练难度、提高长尾检测精度的多模态后融合的长尾类别检测方法和系统。
第一方面,本申请提供了一种多模态后融合的长尾类别检测方法,所述方法包括:
利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;
将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;
若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;
基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
在其中一个实施例中,所述利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果包括:
基于设定的点云采集设备的坐标系区间,对当前场景的初始点云数据进行过滤,得到所述当前场景的点云数据;
对所述当前场景的点云数据进行体素化,生成所述当前场景的点云数据对应的多个体素特征;
将所述多个体素特征进行融合,得到所述当前场景的点云数据的特征张量;
将所述特征张量输入所述第一目标检测模型,得到所述第一目标检测结果。
在其中一个实施例中,所述利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果包括:
获取点云采集设备所采集点云的至少一个三维标注框,在对应场景的图像数据的坐标系上进行投影,得到所述对应场景的图像数据上的二维标注框,所述三维标注框为基于点云数据的人为标注框;
将所述对应场景的图像数据和所述二维标注框输入所述第二目标检测模型进行训练,得到训练完备的所述第二目标检测模型;
将所述当前场景的图像数据输入训练完备的所述第二目标检测模型,得到所述第二目标检测结果。
在其中一个实施例中,所述将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果包括:
基于点云采集设备和图像采集设备的外部参数以及所述图像采集设备的内部参数,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,得到在所述图像数据上的二维投影框;
基于设定的重合率阈值,将所述二维投影框与所述第二目标检测结果中的所述二维检测框进行配对计算,得到所述配对结果。
在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionave[i]=Ave(Calibration1[c]×score2[i],score3[i]),
其中,Fusionave[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionnum[i]=Max(Calibration2[c]×score2[i],score3[i]),
其中,Fusionnum[i]表示所述第三置信度,Calibration2[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Max()为最大功能值函数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式(1),得到所述配对结果的第三置信度:
Fusionbayes[i]=Bayes(Calibration3[c]×score2[i],score3[i]) (1),
其中,Fusionbayes[i]表示所述第三置信度,Calibration3[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Bayes()为贝叶斯函数,其中贝叶斯函数的计算方法如以下公式(2):
其中,x1表示Calibration3[c]×score2[i]的值,x2表示score3[i]的值,{p[c],0≤c<C}表示不同长尾类别出现的概率,c为不同长尾类别的类别索引,C为长尾类别总数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
在其中一个实施例中,基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果还包括:
将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框;
基于乘以保留系数的所述未进行配对的三维检测框以及所述更新后的配对结果,输出所述长尾类别检测结果。
第二方面,本申请还提供了一种多模态后融合的长尾类别检测系统,所述系统包括:
点云目标检测模块,用于利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果,其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;
图像目标检测模块,用于利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;
空间融合配对模块,用于将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;
置信度融合模块,用于若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;
长尾类别确定模块,用于基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
在其中一个实施例中,所述系统还包括后处理模块,用于将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框。
上述多模态后融合的长尾类别检测方法和系统,通过利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果,实现多模态的长尾类别检测,解决了现有技术中长尾类别模型训练难度大、长尾检测精度低的问题,提高了融合输出的长尾类别检测结果的精度。
附图说明
图1为一个实施例中多模态后融合的长尾类别检测方法的应用环境图;
图2为一个实施例中多模态后融合的长尾类别检测系统的结构框图;
图3为一个实施例中多模态后融合的长尾类别检测方法的流程示意图;
图4为一个实施例中S301步骤中获取第一目标检测结果的流程示意图;
图5为一个实施例中S301步骤中获取第二目标检测结果的流程示意图;
图6为一个实施例中S302步骤具体内容的流程示意图;
图7为一个示例实施例中多模态后融合的长尾类别检测方法的输出图像示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请实施例提供的多模态后融合的长尾类别检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统106可以存储服务器104需要处理的图像数据。数据存储系统106可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种激光雷达(例如机械式激光雷达、半固态激光雷达、固态激光雷达)、智能相机等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在服务器104上搭建一种多模态后融合的长尾类别检测系统,所述系统包括点云目标检测模块201、图像目标检测模块202、空间融合配对模块203、置信度融合模块204、后处理模块205以及长尾类别确定模块206。其中,点云目标检测模块201可以获取到来自终端102(激光雷达)的三维点云数据,图像目标检测模块202可以获取到来自终端102(智能相机)的二维图像数据。
所述点云目标检测模块201,用于利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果,其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别。
所述图像目标检测模块202,用于利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别。
所述空间融合配对模块203,用于将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果。
所述置信度融合模块204,用于若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新。
所述后处理模块205,用于将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框。
所述长尾类别确定模块206,用于基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
上述多模态后融合的长尾类别检测系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图3所示,提供了一种多模态后融合的长尾类别检测方法,以该方法应用于图1中的服务器端为例进行说明,包括以下步骤:
S301,利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果。
其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别。
具体地,通过点云目标检测模块201获取激光雷达探测到的当前场景的点云数据,利用训练完备的第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果。由于一个场景下的点云数据通常是360度的场景图像,而智能相机所能采集到的场景图像通常情况小于360度,因此一个场景下的点云数据通常需要对应多张图像数据。所以通过图像目标检测模块202获取智能相机拍摄到的当前场景的多张图像数据,利用训练完备的第二检测模型对当前场景的多张图像数据进行检测,得到各张图像数据上的第二目标检测结果。
S302,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果。
具体地,对当前场景下得到的第一目标检测中的三维检测框在多张图像数据的坐标系上进行投影,得到三维检测框在每一张图像数据上的二维投影框,在每一张图像数据上将二维投影框与各自图像数据上第二目标检测结果中的二维检测框进行配对,得到配对结果。
S303,若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新。
其中,长尾类别包括小车、卡车、挂车、公交、工程车、自行车、三轮车、救护车、成人、小孩、交警、工人、婴儿车、动态行人、推拉车、垃圾、交通锥、栅栏,将这些长尾类别划分成车辆、行人以及可移动目标三个大类,这三个大类为长尾类别的上级类别。
具体地,判断配对结果中第一长尾类别的上级类别于第二长尾类别的上级类别是否匹配,在上级类别匹配的情况下,将第一置信度和第二置信度进行融合,得到第三置信度,并将第三置信度更新到所述配对结果中。
S304,基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
具体地,基于更新后的配对结果中的三维检测框、第三置信度以及第二长尾类别,确定当前场景中待检测目标的长尾类别检测结果。
上述多模态后融合的长尾类别检测方法中,通过利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果,实现多模态的长尾类别检测,解决了现有技术中长尾类别模型训练难度大、长尾检测精度低的问题,提高了融合输出的长尾类别检测结果的精度。
在一个实施例中,如图4所示,S301中所述利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果,具体包括以下步骤:
S401,基于设定的点云采集设备的坐标系区间,对当前场景的初始点云数据进行过滤,得到所述当前场景的点云数据。
具体的,通过激光雷达获取当前场景的初始点云数据PC1,每帧大小为N1×3,包含每个点在激光雷达坐标系的X、Y、Z轴坐标,N1表示每帧初始点云的个数。激光雷达坐标系向前为X轴正方向,向右为Y轴正方向,向上为Z轴正方向。
具体地,设定在激光雷达坐标系上的点云采集范围,对当前场景的初始点云数据PC1进行过滤,其中X轴上取值范围为-50m~50m、Y轴上的取值范围为-25m~25m、Z轴上的取值范围为-2.28m~0.72m,得到当前场景的点云数据PC2,每帧大小为N2×3,N2表示每帧点云的个数。
S402,对所述当前场景的点云数据进行体素化,生成所述当前场景的点云数据对应的多个体素特征。
具体地,先基于激光雷达坐标系的X、Y轴,对当前场景的点云数据PC2进行网格化,每个网格化后的点云数据呈包围矩形盒形状,像素大小为1216×608,坐标系大小为0.0822m×0.0822m,每个网格内的点云个数记为N_grid。再基于激光雷达坐标系的Z轴,对网格化的点云数据进行分层,每个网格包含10层,每层记为1个体素,每个体素的坐标系大小为0.0822m×0.0822m×0.3m,每个体素内点云个数记为N_voxel。
记录每个体素所包含的体素内点云的X轴均值x_v_ave、Y轴均值y_v_ave、Z轴均值z_v_ave、相对密度D_grid以及全局密度D_global。因此每个网格的特征形状大小为10×5,得到当前场景的点云数据PC2对应的多个体素特征T_pre,形状大小为10×5×1216×608。
其中X轴均值x_v_ave、Y轴均值y_v_ave、Z轴均值z_v_ave为点云在X、Y、Z轴坐标上分别求和再除以体素内的点云个数N_voxel,相对密度D_grid为体素内点云个数相对于所在网格内点云个数的密度值,全局密度D_global为体素内点云个数相对于当前场景的密度值。
相对密度D_grid的计算公式如下:
全局密度D_global的计算公式如下:
其中,64为激光雷达传感器的线束。
S403,将所述多个体素特征进行融合,得到所述当前场景的点云数据的特征张量。
具体地,构造融合神经网络,所述融合神经网络由两个卷积层和一个池化层组成,每一层的神经网络的具体参数如下表1所示:
表 1
将当前场景的点云数据PC2对应的多个体素特征T_pre输入所述融合神经网络中,得到当前场景的点云数据PC2的特征张量T_fusion,形状大小为16×1216×608。
S404,将所述特征张量输入所述第一目标检测模型,得到所述第一目标检测结果。
具体地,将特征张量T_fusion输入训练完备的第一目标检测模型,得到第一目标检测结果Detections_3d。
可选地,在实际检测过程中,当前场景的一帧点云数据PC_single经过上述步骤S401~S402的过程后,点云网格化后的索引Index_gird为1216×608,得到的体素特征T_pre’的实际形状大小为5×10×8000,其中8000为包含点云的网格的数量。将体素特征T_pre’输入融合神经网络中,输出形状大小16×8000为特征张量T_fusion’。利用索引Index_gird将特征张量T_fusion’映射到特征张量T_fusion中,再将特征张量T_fusion输入训练完备的第一目标检测模型。
本实施例中,通过对点云数据进行过滤、网格化、体素化等预处理操作,减小了第一目标检测模型的输入参量,实现轻量级神经网络模型的点云三维长尾目标检测,提高了长尾目标的检测精度。
在一个实施例中,所述方法还包括构造第一目标检测模型,并对所述第一目标检测模型进行训练。
具体地,构造第一目标检测模型,所述第一检测模型包括第一骨干网络、第一检测头和第一后处理模块。
第一骨干网络为改进版ResNet50残差网络,包括修改第一层卷积层的卷积尺寸为16×7×7×64以及去除最大池化层,保证改进版ResNet50残差网络对输入的特征张量T_fusion进行提取后,输出的特征张量大小为608×304。
第一检测头为基于CenterNet网络的改进型3D检测头,用于输出3D尺寸信息,包括待检测目标的中心点坐标(center_u、center_v)(热图)、中心点偏移量(center_u_offset、center_v_offset)、目标长宽高(l、w、h)、目标中心点在激光雷达坐标系下的Z轴坐标center_z、目标航向角yaw的正余弦值(sin_yaw、cos_yaw),其中目标航向角yaw为待检测目标朝向与激光雷达坐标系的X轴的夹角。
第一后处理模块用于改变第一检测头网络的输出格式,得到某一场景下的第一目标检测结果的特征张量T_detec,大小为K_detec×9。其中,K_detec为第一置信度超过预设阈值0.1的待检测目标的个数,9为待检测目标的三维信息的特征长度,包括上述的3D尺寸信息、第一长尾类别以及第一置信度。
具体地,通过上述步骤S401~S403,对多个场景下的初始点云数据PC11进行过滤,得到多个场景下的点云数据PC22,对点云数据PC22进行体素化、体素特征融合,得到第一目标检测模型的训练集,将训练集中的特征张量T1_fusion输入第一目标检测模型中,经过第一骨干网络、第一检测头网络以及后处理网络,得到某一场景下的第一目标检测结果的特征张量T1_detec。
获取多个场景下的初始点云数据PC11的实际长尾信息,对所述第一目标检测结果进行训练。其中,针对中心点坐标(center_u、center_v)采用Focal_loss损失函数进行训练;针对目标航向角yaw,回归其正弦值和余弦值,并采用L1_loss损失函数进行训练;针对中心点偏移量(center_u_offset、center_v_offset)采用L1_Loss损失函数进行训练;针对目标长宽高(l、w、h)以及目标中心点在激光雷达坐标系下的Z轴坐标center_z采用SmothL1_loss损失函数进行训练。对不同检测分支分配不同的损失权重。
在本实施例中,通过构建轻量级神经网络,结合对点云数据的预处理,减小了点云三维目标检测模型的训练难度,显著提升点云三维目标检测的检测效果。
在一个实施例中,如图5所示,S301中所述利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果,具体包括以下步骤:
S501,获取点云采集设备所采集点云的至少一个三维标注框,在对应场景的图像数据的坐标系上进行投影,得到所述对应场景的图像数据上的二维标注框。
其中,所述三维标注框为基于点云数据的人为标注框。
具体地,计算激光雷达采集到的点云数据上人为标注的至少一个三维标注框box_3d的8个顶点在激光雷达坐标系下的三维坐标corners_3d,大小为8×3,3表示每个点在激光雷达坐标系的X、Y、Z轴坐标。利用智能相机获取到对应场景的多个图像数据,将三维坐标corners_3d通过智能相机的外部参数RT_Camer以及内部参数Intrins,投影到对应场景的各个图像数据的坐标系上,得到在各个图像数据上的二维坐标corners_2d,大小为8×2,2表示每个点在智能相机的图像数据坐标系上的X、Y轴坐标。
在二维坐标corners_2d中,如果存在大于等于3个点满足0<x<1600且0<y<900(x为二维坐标corners_2d中每个点的横坐标,y为二维坐标corners_2d中每个点的纵坐标),则判断对应的三维标注框box_3d可以投影到此图像中,则计算得到对应的二维标注框box_2d,计算公式如下:
xmin=max(0,min(corners_2d[:,0]));
ymin=max(0,min(corners_2d[:,1]));
xmax=min(1600,max(corners_2d[:,0]));
ymax=min(900,max(corners_2d[:,1]));
其中,xmin表示二维标注框box_2d的横坐标最小值,若xmin小于0,则将xmin取值为0;ymin表示二维标注框box_2d的纵坐标最小值,若ymin小于0,则将ymin取值为0;xmax表示二维标注框box_2d的横坐标最大值,若xmax小于0,则将xmax取值为0;ymax表示二维标注框box_2d的纵坐标最大值,若ymax小于0,则将ymax取值为0。
基于投影得到的每张数据图像上的二维标注框box_2d,构成所述第二目标检测模型的训练集。
S502,将所述对应场景的图像数据和所述二维标注框输入所述第二目标检测模型进行训练,得到训练完备的所述第二目标检测模型。
具体地,构造第二目标检测模型,所述第二目标检测模型包括第二骨干网络、第二检测头以及第二后处理模块。
第二骨干网络为ResNet101残差网络,输入为对应场景的图像数据以及投影在对应场景的图像数据上的二维标注框,形状大小为604×604×3,输出为三个特征图,大小分别为512×152×152、1024×76×76、2048×38×38。
第二检测头为YOLO网络,先利用特征金字塔FPN对三个大小不同的特征图进行特征融合,得到融合特征图,大小为1024×512×512。再根据训练集中每一个图像数据中待检测目标的大小,通过自学习生成9个先验框anchor,将融合特征图上的每一个特征点针对每一个先验框anchor生成第二长尾类别、第二置信度以及中心点坐标、中心点偏移量、尺寸偏移量等2D尺寸信息。
第二后处理模块先过滤第二检测头中第二置信度大于0.1的检测结果,再通过非极大值抑制法,删除重叠率大于0.5的先验框anchor,输出对应场景下的第二目标检测结果的特征张量T×6,其中,T表示二维检测框的个数,6表示二维检测框对应的第二长尾类别、第二置信度、中心点坐标以及二维检测框的宽高。
具体地,将所述第二目标检测模型的训练集输入所述第二目标检测模型,经过第二骨干网络、第二检测头以及第二后处理,输出对应场景下各图像数据的第二目标检测结果,包括第二长尾类别、第二置信度、中心点坐标以及二维检测框(保留的先验框anchor)的宽高。
获取对应场景下多张图像数据中待检测目标的实际长尾信息,与第二目标检测结果中的先验框anchor进行重叠比计算,对所述第二目标检测模型进行训练。若重叠比大于0.5,则此先验框anchor为正样本;若重叠比小于0.2,则此先验框anchor为背景,不参与损失计算。其中,针对第二置信度采用交叉熵损失进行训练;针对中心偏移量和宽高偏移量采用L1_Loss损失函数、IOU_Loss损失函数进行训练,对不同检测分支分配不同的损失权重。
S503,将所述当前场景的图像数据输入训练完备的所述第二目标检测模型,得到所述第二目标检测结果。
具体地,通过智能相机获取当前场景下的多个图像数据,将多个图像数据直接输入第二目标检测模型中,输出第二目标检测结果Detections_2d,所述第二目标检测结果Detections_2d包括二维检测框、第二置信度和第二长尾类别。
在本实施例中,在同一个场景下,将激光雷达的三维标注框投影到多张图像数据中,得到在图像数据上的二维标注框,通过构建第二目标检测模型,将图像数据以及对应的二维标注框作为训练集,训练得到一个能够直接通过图像数据识别待检测目标的模型,提高了在二维图像上获取待检测目标的效率。
在一个实施例中,如图6所示,S302中将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果,具体包括以下步骤:
S601,基于点云采集设备和图像采集设备的外部参数以及所述图像采集设备的内部参数,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,得到在所述图像数据上的二维投影框。
其中,点云采集设备为激光雷达,图像采集设备为智能相机。当前场景的第一目标检测结果Detections_3d对应多张图像数据的第二目标检测结果Detections_2d。
具体地,通过激光雷达与智能相机间的外部参数{Extrinsics[i],0<i<=S3×S2},以及智能相机的内部参数{Intrinsics[i],0<i<=S2},将第一目标检测结果Detections_3d中的三维检测框投影到每张图像数据的坐标系中,得到第一目标检测结果在每张图像数据上的二维投影框,其中S3、S2分别为不同模态(激光雷达、智能相机)的设备个数。
S602,基于设定的重合率阈值,将所述二维投影框与所述第二目标检测结果中的所述二维检测框进行配对计算,得到所述配对结果。
具体地,将每张图像数据上的二维投影框与每张图像数据通过第二目标检测模型得到的二维检测框进行IOU重合率计算。设定重合率阈值IOU_thre=0.5,保留重合率大于所述重合率阈值的二维投影框以及对应的二维检测框,得到第一目标检测结果Detections_3d与第二目标检测结果Detections_2d的配对结果{Matched[i],0<=i<=min(R3,R2)},其中Matched包含每一个配对成功的第一目标检测结果Detections_3d的第一置信度、三维检测框、第一长尾类别与第二目标检测结果Detections_2d的第二置信度、二维检测框、第二长尾类别,R3、R2分别为不同模态(激光雷达、智能相机)检测结果的目标个数,min()表示取R3与R2的最小值。
在本实施例中,将第一目标检测结果在图像数据的坐标系上进行投影,计算投影得到的二维投影框与图像数据的第二目标检测结果中的二维检测框的重合率,通过设定重合率阈值确定多模态的目标检测的配对结果,进一步实现高精度的长尾类别检测,提高最终得到的长尾类别检测结果的准确率。
在一个实施例中,S302将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果,还包括以下具体内容:
判断所述配对结果中所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配。若匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对并对所述配对结果进行更新。若不匹配,则将配对结果中第一目标检测结果的3D尺寸信息以及第二目标检测结果的第二长尾类别和第二置信度更新到当前场景中待检测目标的长尾类别检测结果中。
具体地,在第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的情况下,将第一置信度与第二置信度进行融合得到第三置信度,并将第三置信度更新到对应的配对结果中,在输出长尾类别检测结果时,相信更新后配对结果中第二目标检测结果的第二长尾类别、第一目标检测结果的三维检测框以及第三置信度。在第一长尾类别的上级类别与第二长尾类别的上级类别不匹配的情况下,输出长尾类别检测结果时,相信配对结果中第二目标检测结果的第二长尾类别、第二置信度以及第一目标检测结果的三维检测框。
在一个实施例中,S303中若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,具体包括以下步骤:
S701,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionave[i]=Ave(Calibration1[c]×score2[i],score3[i]),
其中,Fusionave[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数。默认置信度参数的初始值为1。
具体地,通过均值置信度融合的方式,利用上述公式,得到融合后的第三置信度。
S702,基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
具体地,根据每一次标定的置信度参数的值,计算对应的第三置信度,经过多次迭代标定,确定标定后的置信度参数能够使最终得到的长尾类别检测结果最优。
S703,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数。
具体地,在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数,即不同“长尾”类别的目标在标定参数计算过程中是相互独立,互不影响的。
S704,利用所述标定后的置信度参数计算得到所述第三置信度。
S705,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
具体地,在标定完成时,由于不同图像数据的感受野之间会出现重合区域,因此来自不同智能相机的图像数据的第二目标检测结果中,存在对同一待检测目标进行二维投影框与二维检测框的配对。若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信第三置信度更高的配对结果。
在本实施例中,通过均值置信度融合方法,对置信度参数进行迭代标定,使标定后的置信度参数得到的第三置信度的准确度更高,有效精炼长尾类别的置信度。
在另一个实施例中,S303中若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,具体包括以下步骤:
S801,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionnum[i]=Max(Calibration2[c]×score2[i],score3[i]),
其中,Fusionnum[i]表示所述第三置信度,Calibration2[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Max()为最大功能值函数。默认置信度参数的初始值为1。
具体地,通过非极大值抑制置信度融合方法,利用上述公式,得到融合后的第三置信度。
S802,基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
具体地,根据每一次标定的置信度参数的值,计算对应的第三置信度,经过多次迭代标定,确定标定后的置信度参数能够使最终得到的长尾类别检测结果最优。
S803,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数。
具体地,在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数,即不同“长尾”类别的目标在标定参数计算过程中是相互独立,互不影响的。
S804,利用所述标定后的置信度参数计算得到所述第三置信度。
S805,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
具体地,在标定完成时,由于不同图像数据的感受野之间会出现重合区域,因此来自不同智能相机的图像数据的第二目标检测结果中,存在对同一待检测目标进行二维投影框与二维检测框的配对。若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信第三置信度更高的配对结果。
在本实施例中,提供另一种通过非极大值抑制置信度融合方法,对置信度参数进行迭代标定,使标定后的置信度参数得到的第三置信度的准确度更高,有效精炼长尾类别的置信度。
在另一个实施例中,S303中若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,具体包括以下步骤:
S901,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式(1),得到所述配对结果的第三置信度:
Fusionbayes[i]=Bayes(Calibration3[c]×score2[i],score3[i]) (1),
其中,Fusionbayes[i]表示所述第三置信度,Calibration3[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Bayes()为贝叶斯函数,其中贝叶斯函数的计算方法如以下公式(2):
其中,x1表示Calibration3[c]×score2[i]的值,x2表示score3[i]的值,{p[c],0≤c<C}表示不同长尾类别出现的概率,c为不同长尾类别的类别索引,C为长尾类别总数。
具体地,通过贝叶斯置信度融合的方式,利用上述两个公式,得到融合后的第三置信度。
S902,基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
具体地,根据每一次标定的置信度参数的值,计算对应的第三置信度,经过多次迭代标定,确定标定后的置信度参数能够使最终得到的长尾类别检测结果最优。
S903,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数。
具体地,在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数,即不同“长尾”类别的目标在标定参数计算过程中是相互独立,互不影响的。
S904,利用所述标定后的置信度参数计算得到所述第三置信度。
S905,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
具体地,在标定完成时,由于不同图像数据的感受野之间会出现重合区域,因此来自不同智能相机的图像数据的第二目标检测结果中,存在对同一待检测目标进行二维投影框与二维检测框的配对。若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信第三置信度更高的配对结果。
在本实施例中,提供另一种通过贝叶斯置信度融合的方法,对置信度参数进行迭代标定,使标定后的置信度参数得到的第三置信度的准确度更高,有效精炼长尾类别的置信度。
基于试验数据表明,在均值置信度融合方式、非极大值抑制置信度融合方式以及贝叶斯置信度融合方式中,采用贝叶斯置信度融合方式对长尾类别置信度的精炼效果最优。
在一个实施例中,S304基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果,还包括以下步骤:
S305,将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框。
具体地,若第一目标检测结果中存在未进行配对的三维检测框,则将未进行配对的三维检测框对应的第一置信度的值乘以保留系数r,得到第一目标检测结果的保留结果Detections_3d_unmatched[i],0≤i<R3。其中,所述保留结果Detections_3d_unmatched[i]包含更新后的第一置信度以及3D尺寸信息。
若第二目标检测结果中存在未进行配对的二维检测框,则直接舍弃所述未进行匹配的二维检测框。
S306,基于乘以保留系数的所述未进行配对的三维检测框以及所述更新后的配对结果,输出所述长尾类别检测结果对应的三维点云图像。
具体地,基于保留结果Detections_3d_unmatched[i]以及更新后的配对结果,最终输出包含待检测目标的三维检测框、第三置信度、第二长尾类别以及保留结果的三维点云图像。
在一个示例实施例中,如图7所示,提供一种多模态后融合的长尾类别检测方法,具体包括以下步骤:
S1,通过激光雷达获取当前场景的初始点云数据PC1,设定在激光雷达坐标系上的点云采集范围,对当前场景的初始点云数据PC1进行过滤,其中X轴上取值范围为-50m~50m、Y轴上的取值范围为-25m~25m、Z轴上的取值范围为-2.28m~0.72m,得到当前场景的点云数据PC2。
S2,对当前场景的点云数据PC2进行体素化,得到当前场景的点云数据PC2对应的多个体素特征T_pre。每个体素的坐标系大小为0.0822m×0.0822m×0.3m,每个体素内点云个数记为N_voxel。记录每个体素所包含的体素内点云的X轴均值x_v_ave、Y轴均值y_v_ave、Z轴均值z_v_ave、相对密度D_grid以及全局密度D_global。
S3,构造融合神经网络,将当前场景的点云数据PC2对应的多个体素特征T_pre输入所述融合神经网络中,得到当前场景的点云数据PC2的特征张量T_fusion,形状大小为16×1216×608。
S4,将特征张量T_fusion输入训练完备的第一目标检测模型,如图7中的左侧第一列图例所示,得到第一目标检测结果Detections_3d,包括三维检测框的3D尺寸信息(待检测目标的中心点坐标(center_u、center_v)(热图)、中心点偏移量(center_u_offset、center_v_offset)、目标长宽高(l、w、h)、目标中心点在激光雷达坐标系下的Z轴坐标center_z、目标航向角yaw的正余弦值(sin_yaw、cos_yaw))、第一长尾类别以及第一置信度。
S5,通过智能相机获取当前场景下的6张图像数据,将6张图像数据直接输入训练完备的第二目标检测模型中,如图7中的左侧第三列图例所示,输出第二目标检测结果Detections_2d,包括二维检测框的2D尺寸信息(中心点坐标、中心点偏移量、尺寸偏移量等)、第二置信度和第二长尾类别。
S6,通过激光雷达与智能相机间的外部参数{Extrinsics[i],0<i<=S3×S2},以及智能相机的内部参数{Intrinsics[i],0<i<=S2},将第一目标检测结果Detections_3d中的三维检测框投影到每张图像数据的坐标系中,得到第一目标检测结果在每张图像数据上的二维投影框,如图7中的左侧第二列图例所示。
S7,将每张图像数据上的二维投影框与每张图像数据通过第二目标检测模型得到的二维检测框进行IOU重合率计算。设定重合率阈值IOU_thre=0.5,保留重合率大于所述重合率阈值的二维投影框以及对应的二维检测框,得到第一目标检测结果Detections_3d与第二目标检测结果Detections_2d的配对结果{Matched[i],0<=i<=min(R3,R2)}。
S8,判断所述配对结果中所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配。
若匹配,则执行S9或S10或S11,对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对并对所述配对结果进行更新。
若不匹配,则将配对结果中第一目标检测结果的3D尺寸信息以及第二目标检测结果的第二长尾类别和第二置信度更新到当前场景中待检测目标的长尾类别检测结果中。
S9,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下均值置信度融合公式,进行置信度参数迭代标定,使得标定后的置信度参数计算得到的第三置信度对应的长尾类别检测结果最优:
Fusionave[i]=Ave(Calibration1[c]×score2[i],score3[i]),
其中,Fusionave[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数。默认置信度参数的初始值为1。
在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
S10,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下非极大值抑制置信度融合公式,进行置信度参数迭代标定,使得标定后的置信度参数计算得到的第三置信度对应的长尾类别检测结果最优:
Fusionnum[i]=Max(Calibration2[c]×score2[i],score3[i]),
其中,Fusionnum[i]表示所述第三置信度,Calibration2[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Max()为最大功能值函数。默认置信度参数的初始值为1。
在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
S11,基于设定的不同长尾类别的置信度参数的初始标定值,利用以下贝叶斯置信度融合公式,进行置信度参数迭代标定,使得标定后的置信度参数计算得到的第三置信度对应的长尾类别检测结果最优:
Fusionbayes[i]=Bayes(Calibration3[c]×score2[i],score3[i]) (1),
其中,Fusionbayes[i]表示所述第三置信度,Calibration3[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Bayes()为贝叶斯函数,其中贝叶斯函数的计算方法如以下公式(2):
其中,x1表示Calibration3[c]×score2[i]的值,x2表示score3[i]的值,{p[c],0≤c<C}表示不同长尾类别出现的概率,c为不同长尾类别的类别索引,C为长尾类别总数。
在标定的过程中,若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数。
S12,在标定完成时,利用标定后的置信度参数计算得到第三置信度,对配对结果进行更新。若针对同一待检测目标,存在多个第一长尾类别的上级类别与第二长尾类别的上级类别相匹配的配对结果,相信第三置信度更高的配对结果。
S13,判断第一目标检测结果Detections_3d是否存在未进行配对的三维检测框,将未进行配对的三维检测框对应的第一置信度的值乘以保留系数r,得到第一目标检测结果的保留结果Detections_3d_unmatched[i],0≤i<R3。
舍弃第二目标检测结果Detections_2d中存在的未进行配对的二维检测框。
S14,基于保留结果Detections_3d_unmatched[i]以及更新后的配对结果,最终输出包含待检测目标的三维检测框、第三置信度、第二长尾类别以及保留结果的三维点云图像,如图7中的左侧第四列图例所示。
通过本示例实施例的多模态后融合的长尾类别检测方法,如下表2所示,利用均值置信度融合以及非极大值抑制置信度融合的方式获得长尾类别的目标检测评价指标mAP(mean average precision)比仅基于点云的长尾类别三维目标检测方法高6.8%,其中稀有类别的目标检测评价指标mAP高出8.9%;利用贝叶斯置信度融合的方式获得的长尾类别的目标检测评价指标mAP(mean average precision)比仅基于点云的长尾类别三维目标检测方法高9.6%,其中稀有类别的目标检测评价指标mAP高出14.3%:
表 2
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储点云数据和/或图像数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多模态后融合的长尾类别检测方法。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各实施例中所述方法对应的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例中所述方法对应的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各实施例中所述方法对应的步骤。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种多模态后融合的长尾类别检测方法,其特征在于,所述方法包括:
利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;
将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;
若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;
基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
2.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果包括:
基于设定的点云采集设备的坐标系区间,对当前场景的初始点云数据进行过滤,得到所述当前场景的点云数据;
对所述当前场景的点云数据进行体素化,生成所述当前场景的点云数据对应的多个体素特征;
将所述多个体素特征进行融合,得到所述当前场景的点云数据的特征张量;
将所述特征张量输入所述第一目标检测模型,得到所述第一目标检测结果。
3.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果包括:
获取点云采集设备所采集点云的至少一个三维标注框,在对应场景的图像数据的坐标系上进行投影,得到所述对应场景的图像数据上的二维标注框,所述三维标注框为基于点云数据的人为标注框;
将所述对应场景的图像数据和所述二维标注框输入所述第二目标检测模型进行训练,得到训练完备的所述第二目标检测模型;
将所述当前场景的图像数据输入训练完备的所述第二目标检测模型,得到所述第二目标检测结果。
4.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果包括:
基于点云采集设备和图像采集设备的外部参数以及所述图像采集设备的内部参数,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,得到在所述图像数据上的二维投影框;
基于设定的重合率阈值,将所述二维投影框与所述第二目标检测结果中的所述二维检测框进行配对计算,得到所述配对结果。
5.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionave[i]=Ave(Calibration1[c]×score2[i],score3[i]),
其中,Fusionave[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
6.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:
Fusionnum[i]=Max(Calibration2[c]×score2[i],score3[i]),
其中,Fusionnum[i]表示所述第三置信度,Calibration2[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Max()为最大功能值函数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
7.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式(1),得到所述配对结果的第三置信度:
Fusionbayes[i]=Bayes(Calibration3[c]×score2[i],score3[i]) (1),
其中,Fusionbayes[i]表示所述第三置信度,Calibration3[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Bayes()为贝叶斯函数,其中贝叶斯函数的计算方法如以下公式(2):
其中,x1表示Calibration3[c]×score2[i]的值,x2表示score3[i]的值,{p[c],0≤c<C}表示不同长尾类别出现的概率,c为不同长尾类别的类别索引,C为长尾类别总数;
基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;
利用所述标定后的置信度参数计算得到所述第三置信度;
若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
8.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述基于所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果还包括:
将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框;
基于乘以保留系数的所述未进行配对的三维检测框以及所述更新后的配对结果,输出所述长尾类别检测结果。
9.一种多模态后融合的长尾类别检测系统,其特征在于,所述系统包括:
点云目标检测模块,用于利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果,其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;
图像目标检测模块,用于利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;
空间融合配对模块,用于将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;
置信度融合模块,用于若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;
长尾类别确定模块,用于基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
10.根据权利要求9所述的多模态后融合的长尾类别检测系统,其特征在于,所述系统还包括后处理模块,用于将所述第一目标检测结果中未进行配对的三维检测框所对应的第一置信度乘以保留系数,并舍弃所述第二目标检测结果中未进行匹配的二维检测框。
CN202311236786.2A 2023-09-25 2023-09-25 多模态后融合的长尾类别检测方法和系统 Active CN116977810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311236786.2A CN116977810B (zh) 2023-09-25 2023-09-25 多模态后融合的长尾类别检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311236786.2A CN116977810B (zh) 2023-09-25 2023-09-25 多模态后融合的长尾类别检测方法和系统

Publications (2)

Publication Number Publication Date
CN116977810A true CN116977810A (zh) 2023-10-31
CN116977810B CN116977810B (zh) 2024-01-09

Family

ID=88479997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311236786.2A Active CN116977810B (zh) 2023-09-25 2023-09-25 多模态后融合的长尾类别检测方法和系统

Country Status (1)

Country Link
CN (1) CN116977810B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691943B1 (en) * 2018-01-31 2020-06-23 Amazon Technologies, Inc. Annotating images based on multi-modal sensor data
CN113962141A (zh) * 2021-09-22 2022-01-21 北京智行者科技有限公司 一种目标检测模型自动化迭代方法、设备及存储介质
US20220066544A1 (en) * 2020-09-01 2022-03-03 Georgia Tech Research Corporation Method and system for automatic extraction of virtual on-body inertial measurement units
EP3992842A1 (en) * 2020-10-30 2022-05-04 Thales DIS France SA Multimodal biometric fusion based authenticatio
CN114612883A (zh) * 2022-03-17 2022-06-10 重庆大学 一种基于级联ssd和单目深度估计的前向车辆距离检测方法
WO2022188489A1 (zh) * 2021-03-12 2022-09-15 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
US20220383041A1 (en) * 2021-05-23 2022-12-01 Jingdong Digits Technology Holding Co., Ltd. Data augmentation for object detection via differential neural rendering
WO2023045936A1 (zh) * 2021-09-22 2023-03-30 北京智行者科技股份有限公司 一种模型自动化迭代方法、设备及存储介质
CN116071557A (zh) * 2023-02-10 2023-05-05 安徽蔚来智驾科技有限公司 一种长尾目标检测方法、计算机可读存储介质及驾驶设备
CN116109047A (zh) * 2022-09-21 2023-05-12 华南理工大学 一种基于三维智能检测的智能调度方法
CN116205024A (zh) * 2022-11-09 2023-06-02 吉林大学 一种面向高低维测评场景的自适应自动驾驶动态场景通用生成方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691943B1 (en) * 2018-01-31 2020-06-23 Amazon Technologies, Inc. Annotating images based on multi-modal sensor data
US20220066544A1 (en) * 2020-09-01 2022-03-03 Georgia Tech Research Corporation Method and system for automatic extraction of virtual on-body inertial measurement units
EP3992842A1 (en) * 2020-10-30 2022-05-04 Thales DIS France SA Multimodal biometric fusion based authenticatio
WO2022188489A1 (zh) * 2021-03-12 2022-09-15 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
US20220383041A1 (en) * 2021-05-23 2022-12-01 Jingdong Digits Technology Holding Co., Ltd. Data augmentation for object detection via differential neural rendering
CN113962141A (zh) * 2021-09-22 2022-01-21 北京智行者科技有限公司 一种目标检测模型自动化迭代方法、设备及存储介质
WO2023045936A1 (zh) * 2021-09-22 2023-03-30 北京智行者科技股份有限公司 一种模型自动化迭代方法、设备及存储介质
WO2023045935A1 (zh) * 2021-09-22 2023-03-30 北京智行者科技股份有限公司 一种目标检测模型自动化迭代方法、设备及存储介质
CN114612883A (zh) * 2022-03-17 2022-06-10 重庆大学 一种基于级联ssd和单目深度估计的前向车辆距离检测方法
CN116109047A (zh) * 2022-09-21 2023-05-12 华南理工大学 一种基于三维智能检测的智能调度方法
CN116205024A (zh) * 2022-11-09 2023-06-02 吉林大学 一种面向高低维测评场景的自适应自动驾驶动态场景通用生成方法
CN116071557A (zh) * 2023-02-10 2023-05-05 安徽蔚来智驾科技有限公司 一种长尾目标检测方法、计算机可读存储介质及驾驶设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
曹诗雨;刘跃虎;李辛昭;: "基于Fast R-CNN的车辆目标检测", 中国图象图形学报, no. 05 *
杨健程;倪冰冰;: "医学3D计算机视觉:研究进展和挑战", 中国图象图形学报, no. 10 *
汤鹏杰;王瀚漓;许恺晟;: "LSTM逐层多目标优化及多层概率融合的图像描述", 自动化学报, no. 07 *
王希;陈晓波;习俊通;: "人体散乱点云数据的区域分割算法", 机械设计与研究, no. 01 *
邓旭冉;闵少波;徐静远;李攀登;谢洪涛;张勇东;: "深度细粒度图像识别研究综述", 南京信息工程大学学报(自然科学版), no. 06 *

Also Published As

Publication number Publication date
CN116977810B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN110325818B (zh) 经由多模融合的联合3d对象检测和取向估计
US11682129B2 (en) Electronic device, system and method for determining a semantic grid of an environment of a vehicle
CN106599108B (zh) 一种三维环境中多模态环境地图构建方法
CN113128348B (zh) 一种融合语义信息的激光雷达目标检测方法及系统
CN111639663B (zh) 多传感器数据融合的方法
CN111442776A (zh) 顺序地面场景图像投影合成与复杂场景重构的方法及设备
CN113160068A (zh) 基于图像的点云补全方法及系统
WO2024012211A1 (zh) 自动驾驶环境感知方法、介质及车辆
CN114913506A (zh) 一种基于多视角融合的3d目标检测方法及装置
Hayakawa et al. Ego-motion and surrounding vehicle state estimation using a monocular camera
CN114550116A (zh) 一种对象识别方法和装置
CN112990049A (zh) 用于车辆自动驾驶的aeb紧急制动方法、装置
CN110864670B (zh) 目标障碍物位置的获取方法和系统
CN116977810B (zh) 多模态后融合的长尾类别检测方法和系统
Zheng et al. A robust strategy for roadside cooperative perception based on multi-sensor fusion
Vatavu et al. Real-time dynamic environment perception in driving scenarios using difference fronts
CN114648639B (zh) 一种目标车辆的检测方法、系统及装置
CN116385997A (zh) 一种车载障碍物精确感知方法、系统及存储介质
CN114898321A (zh) 道路可行驶区域检测方法、装置、设备、介质及系统
WO2023283929A1 (zh) 双目相机外参标定的方法及装置
CN113850293A (zh) 基于多源数据和方向先验联合优化的定位方法
Madake et al. Visualization of 3D Point Clouds for Vehicle Detection Based on LiDAR and Camera Fusion
Berrio et al. Semantic sensor fusion: From camera to sparse LiDAR information
CN111695403B (zh) 一种基于深度感知卷积神经网络的2d与3d图像同步检测方法
CN113240734B (zh) 一种基于鸟瞰图的车辆跨位判断方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant