CN115376101A - 一种面向自动驾驶环境感知的增量式学习方法和系统 - Google Patents

一种面向自动驾驶环境感知的增量式学习方法和系统 Download PDF

Info

Publication number
CN115376101A
CN115376101A CN202211022490.6A CN202211022490A CN115376101A CN 115376101 A CN115376101 A CN 115376101A CN 202211022490 A CN202211022490 A CN 202211022490A CN 115376101 A CN115376101 A CN 115376101A
Authority
CN
China
Prior art keywords
class
uncertainty
training
representing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211022490.6A
Other languages
English (en)
Inventor
胡清华
季罗娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202211022490.6A priority Critical patent/CN115376101A/zh
Publication of CN115376101A publication Critical patent/CN115376101A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向自动驾驶环境感知的增量式学习方法和系统,包括:对环境图像数据集中的目标进行类标记,划分已知类和未知类;划分训练集和测试集移除未知类图像;利用高斯混合模型构建混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;利用目标检测模型的已知类特征空间和预设高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,循环增量地对认知语义不确定性高的图像人工标注,利用标注后的图像对目标检测模型进一步训练得到最优目标检测模型。本发明可减少人工标记成本和训练成本。

Description

一种面向自动驾驶环境感知的增量式学习方法和系统
技术领域
本发明属于图像目标检测技术领域,具体涉及一种面向自动驾驶环境感知的增量式学习方法和系统。
背景技术
目前,人工智能(Artificial Intelligence,AI)尤其是机器学习,已经成为计算机视觉、自然语言处理、大数据分析、机器人、软件测试等等领域的不可缺少的重要技术,并在过去的十年里得到了突飞猛进的进步。这在当今学术界、工业界甚至是普通百姓的生活中都产生了重大影响,智能无人系统便是其中典型的应用之一,而环境感知在智能无人系统中更是有着举足轻重的地位。像机器人、自动驾驶汽车、无人机等智能无人系统在行进中需要不断感知周围的环境,精准的环境感知和认知是安全的基础。
传统的目标检测技术以及机器学习都是针对闭集情况,但在智能无人系统环境感知中,由于环境的变化或者建模的缺陷,智能无人系统像自动驾驶等必然也会面临一些识别不准确或者无法识别的场景,这些场景就属于开放集情况。对于此类场景智能大脑应该能够区分哪些场景是熟悉的,哪些场景是不熟悉的甚至是从未见过的,传统的目标检测技术和机器学习技术解决不了该问题;现有的环境感知目标检测的训练过程大都依赖于已标注类别的训练数据集,而不熟悉的场景和未知场景绝大多数都是没有标注的数据,对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大;在有了新的场景数据的基础上,智能大脑虽然利用部分现有技术能够仅通过新场景数据自主性的进行学习,但常常会忘记旧场景旧知识,从而产生灾难性遗忘。
发明内容
针对以上问题,本发明提出了一种面向自动驾驶环境感知的增量式学习方法和系统,主要针对不熟悉场景,智能系统怎样能够自动检测,并提醒用户标注适当数量的样本,进而启动增量学习,以提高模型的性能进行研究,是一种不确定性驱动的增量学习方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种面向自动驾驶环境感知的增量式学习方法,包括如下步骤:
S1,根据目标检测任务对环境图像数据集
Figure BDA0003814602810000011
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
S2,将划分后的环境图像数据集
Figure BDA0003814602810000012
分为训练集
Figure BDA0003814602810000013
和测试集
Figure BDA0003814602810000014
将训练集
Figure BDA0003814602810000015
和测试集
Figure BDA0003814602810000021
中标记有未知类的图像移除得到训练集
Figure BDA0003814602810000022
和测试集
Figure BDA0003814602810000023
S3,利用高斯混合模型构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集
Figure BDA0003814602810000024
中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;
S5,将训练集
Figure BDA0003814602810000025
输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像集中的图像进行人工标注,利用人工标注后的图像对目标检测模型进一步训练得到最优目标检测模型。
所述步骤S3包括如下步骤:
S3.1,以高斯混合模型的参数作为输出构建混合密度网络,执行t=1,并设定精度差阈值
Figure BDA0003814602810000026
和精度差比例阈值
Figure BDA0003814602810000027
S3.2,从训练集
Figure BDA0003814602810000028
中随机筛选出S1个图像组成第一训练输入图像集;
S3.3,将第一训练输入图像集中的图像输入混合密度网络并以最小化损失函数为目标进行训练得到目标检测器;
S3.4,将测试集
Figure BDA0003814602810000029
中的图像输入目标检测器计算平均精度均值,判断是否满足
Figure BDA00038146028100000210
Figure BDA00038146028100000211
Figure BDA00038146028100000212
若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
S3.5,判断S2<S1,若是,利用训练集
Figure BDA00038146028100000213
更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集
Figure BDA00038146028100000214
中除第一训练输入图像集之外的剩余图像的任意不确定性和认知不确定性,其中,S2表示训练集
Figure BDA00038146028100000215
中除第一训练输入图像集之外的剩余图像的数目;
S3.6,利用Z分数对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3。
在步骤S3.3中,所述损失函数的计算公式为:
Figure BDA0003814602810000031
式中,LTotal表示总体损失,N表示正匹配的数量,Lloc(λ,l,g)表示回归任务中基于负对数似然函数的定位损失,λ表示锚框与真实边界框是否匹配的指标参数,g表示真实边界框参数,l表示预测输出边界框所对应的高斯混合模型参数,η表示加权超参数,
Figure BDA0003814602810000032
表示分类任务中正匹配的贡献,
Figure BDA0003814602810000033
表示分类任务中负匹配的贡献,c表示类参数。
所述回归任务中基于负对数似然函数的定位损失Lloc(λ,l,g)的计算公式为:
Figure BDA0003814602810000034
式中,Pos表示正匹配锚框的集合,
Figure BDA0003814602810000035
表示匹配指标,K表示高斯混合模型的数量,
Figure BDA0003814602810000036
表示第i个锚框的边界框参数b的第k个组件的混合权重,
Figure BDA0003814602810000037
表示第i个锚框的边界框参数b的第k个组件的均值,
Figure BDA0003814602810000038
表示第i个锚框的边界框参数b的第k个组件的方差,
Figure BDA0003814602810000039
表示第j个真实边界框的边界框参数b回归到对应锚框参数的偏移量,ε表示超参数。
所述分类任务中正匹配的贡献
Figure BDA00038146028100000310
的计算公式为:
Figure BDA00038146028100000311
式中,Pos表示正匹配锚框的集合,
Figure BDA00038146028100000312
表示匹配指标,K表示高斯混合模型的数量,πik表示第i个锚框的第k个组件输出的混合权重,
Figure BDA00038146028100000313
表示类别G的第j个真实边界框的真实类,
Figure BDA00038146028100000314
表示第i个锚框的第k个组件的第p类的类概率分布,C表示类的数量;
所述分类任务中负匹配的贡献
Figure BDA00038146028100000315
的计算公式为:
Figure BDA00038146028100000316
式中,M表示难负样本挖掘比,Neg表示负匹配锚框的集合,
Figure BDA00038146028100000317
表示第i个锚框的背景类。
第k个组件中第p类的类概率分布
Figure BDA00038146028100000318
的计算公式为:
Figure BDA00038146028100000319
式中,
Figure BDA00038146028100000320
表示第k个组件的第p类的均值,
Figure BDA00038146028100000321
表示第k个组件的第p类的方差,γ表示辅助噪声变量,
Figure BDA00038146028100000322
表示正态分布;
当对分类头中的参数数量进行缩减时,第k个组件中第p类的类概率分布
Figure BDA0003814602810000041
的计算公式更新为:
Figure BDA0003814602810000042
在步骤S3.5中,所述任意不确定性的计算公式为:
Figure BDA0003814602810000043
式中,ual表示任意不确定性,πk表示第k个组件的混合权重,∑k表示第k个组件的方差;
所述认知不确定性的计算公式为:
Figure BDA0003814602810000044
式中,uep表示认知不确定性,μk表示第k个组件的均值,πk″表示第k″个组件的混合权重,μk″表示第k″个组件的均值。
一种面向自动驾驶环境感知的增量式学习系统,包括:
类别标记模块,用于根据目标检测任务对环境图像数据集
Figure BDA0003814602810000045
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
图像划分模块,用于将标记后的环境图像数据集
Figure BDA0003814602810000046
划分为训练集
Figure BDA0003814602810000047
和测试集
Figure BDA0003814602810000048
然后将训练集
Figure BDA0003814602810000049
和测试集
Figure BDA00038146028100000410
中的标记有未知类的图像移除得到训练集
Figure BDA00038146028100000411
和测试集
Figure BDA00038146028100000412
不确定性计算模块,用于计算训练集
Figure BDA00038146028100000413
中图像的认知不确定性和任意不确定性;
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
本发明的有益效果:
本发明可以有效地区分开放集情景下的已知类与未知类,从而识别开放集下的未知类即新类,进而实现增量学习;可以有效地分阶段学习开放集情景下的已知类和未知类,同时使人工标记成本和训练成本尽可能地少;在对未知类进行增量学习的过程中可以避免对已知类的灾难性遗忘;具有普遍适用性,在一阶目标检测器和二阶目标检测器上均适用,且与其它现有方法相比,平均精度均值更好,效果更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为IDD数据集上已知类的训练对比示意图。
图2为IDD数据集上未知类的训练对比示意图。
图3为采用IDD数据集进行实验时的样本可视化视图。
图4为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:一种面向自动驾驶环境感知的增量式学习方法,如图4所示,包括如下步骤:
S1,根据目标检测任务对环境图像数据集
Figure BDA0003814602810000051
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
采集自动驾驶环境中拍摄到的图像得到环境图像数据集
Figure BDA0003814602810000052
根据预设的目标检测任务对环境图像数据集
Figure BDA0003814602810000053
中每个图像中的目标分别进行类标记,根据标记后的类的属性将这些类划分为已知类和未知类,所述已知类的类别至少为两种,所述未知类的类别至少为一种,且已知类的类别和未知类的类别不同,比如,已知类所对应的类的类别为自行车和汽车,未知类所对应的类的类别为人。
S2,将步骤S1中划分后的环境图像数据集
Figure BDA0003814602810000054
划分为训练集
Figure BDA0003814602810000055
和测试集
Figure BDA0003814602810000056
将训练集
Figure BDA0003814602810000057
和测试集
Figure BDA0003814602810000058
中的标记有未知类的图像移除得到训练集
Figure BDA0003814602810000059
和测试集
Figure BDA00038146028100000510
初始化第一轮训练数t=1和第二轮训练数
Figure BDA00038146028100000511
通过将包含有未知类的图像删除,可以使得标记的未知类成为真正的未知类,也即确保了利用训练集
Figure BDA00038146028100000512
训练过程中该类别不会被目标检测器看到,同时测试集
Figure BDA00038146028100000513
中也不包含该类别的目标对象,这可以形成近似封闭集,而原训练集
Figure BDA00038146028100000514
和原测试集
Figure BDA00038146028100000515
就相当于开放集。当然,未标记的未知类即除已知类和未知类之外的其它类别仍然存在于数据集所在的背景中,它们相当于开放集中的背景,在目标检测器的训练过程中被训练为忽视这些类别。此外,也可以将环境图像数据集划分为训练集、测试集和验证集,所增设的验证集主要用于调节模型的超参数。
S3,利用高斯混合模型(Gaussian Mixture Models,GMMs)构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集
Figure BDA0003814602810000061
中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型,包括如下步骤:
S3.1,以高斯混合模型的参数作为输出构建混合密度网络,设置精度差阈值
Figure BDA0003814602810000062
和精度差比例阈值
Figure BDA0003814602810000063
所述高斯混合模型的参数为均值、方差和混合权重。
S3.2,从训练集
Figure BDA0003814602810000064
中随机筛选出S1个图像组成第一训练输入图像集;
S1为正整数,且
Figure BDA0003814602810000065
Figure BDA0003814602810000066
S表示新的训练集
Figure BDA0003814602810000067
的样本数量。
S3.3,将第一训练输入图像集中的图像输入混合密度网络中以最小化损失函数为目标进行训练得到目标检测器;
所述损失函数的计算公式为:
Figure BDA0003814602810000068
式中,LTotal表示总体损失,N表示正匹配的数量,其中,正匹配即为正确的匹配,即模型输出的预测边界框与真实边界框的IoU大于一定阈值(本实施例取阈值为0.5),且模型对预测边界框内的对象的预测类别与真实类别相同,Lloc(λ,l,g)表示回归任务中基于负对数似然函数的定位损失,η表示加权超参数,用于平衡定位损失与分类损失,本实施例中,η=2,
Figure BDA0003814602810000069
表示分类任务中正匹配的贡献,
Figure BDA00038146028100000610
表示分类任务中负匹配的贡献,其中,负匹配即为不正确的匹配,即模型输出的预测边界框与真实边界框的IoU小于一定阈值(本实施例取阈值为0.5)或模型对预测边界框内的对象的预测类别与真实类别不同,c表示类参数,λ表示锚框与真实边界框是否匹配的指标参数,g表示真实边界框参数,可以为真实边界框的中心横坐标x、中心纵坐标y、宽度w或高度h,l表示预测输出边界框所对应的高斯混合模型参数,当边界框参数为b时,其对应的高斯混合模型参数为
Figure BDA00038146028100000611
Figure BDA00038146028100000612
表示第i个锚框的边界框参数b的第k个组件的混合权重,
Figure BDA00038146028100000613
表示第i个锚框的边界框参数b的第k个组件的均值,
Figure BDA00038146028100000614
表示第i个锚框的边界框参数b的第k个组件的方差。
所述回归任务中基于负对数似然函数的定位损失Lloc(λ,l,g)的计算公式为:
Figure BDA00038146028100000615
式中,
Figure BDA00038146028100000616
表示匹配指标,用于匹配第i个锚框和类别G的第j个真实边界框,Pos表示正匹配锚框的集合,
Figure BDA0003814602810000071
表示第j个真实边界框的边界框参数b回归到对应锚框参数的偏移量,其中边界框参数b由其中心坐标(x和y)、宽度(w)和高度(h)定义,即b={x,y,w,h},因此
Figure BDA0003814602810000072
包含中心横坐标x的偏移量
Figure BDA0003814602810000073
中心纵坐标y的偏移量
Figure BDA0003814602810000074
宽度w的偏移量
Figure BDA0003814602810000075
或高度h的偏移量
Figure BDA0003814602810000076
Figure BDA0003814602810000077
ε表示一个超参数,K表示高斯混合模型的数量。本实施例中,为了对数函数的数值稳定性设置ε=10-9。回归定位损失主要用于回归逼近对象的真实边界框相对于锚框的准确偏移量。
所述用于匹配第i个锚框和类别G的第j个真实边界框的匹配指标
Figure BDA0003814602810000078
的计算公式为:
Figure BDA0003814602810000079
式中,IoU表示交并比,锚框与真实边界框相比的Intersection over Union,交并比是目标检测中使用的一个概念,计算的是“预测的边框”和“真实的边框”的交叠率,即它们的交集和并集的比值。
中心横坐标x的偏移量
Figure BDA00038146028100000710
的计算公式为:
Figure BDA00038146028100000711
式中,
Figure BDA00038146028100000712
表示第j个真实边界框的中心横坐标,
Figure BDA00038146028100000713
表示第i个锚框的中心横坐标,
Figure BDA00038146028100000714
表示第i个锚框的宽度。
中心纵坐标y的偏移量
Figure BDA00038146028100000715
的计算公式为:
Figure BDA00038146028100000716
式中,
Figure BDA00038146028100000717
表示第j个真实边界框的中心纵坐标,
Figure BDA00038146028100000718
表示第i个锚框的中心纵坐标,
Figure BDA00038146028100000719
表示第i个锚框的高度。
宽度w的偏移量
Figure BDA00038146028100000720
的计算公式为:
Figure BDA00038146028100000721
式中,
Figure BDA00038146028100000722
表示第j个真实边界框的宽度。
高度h的偏移量
Figure BDA00038146028100000723
的计算公式为:
Figure BDA00038146028100000724
式中,
Figure BDA0003814602810000081
表示第j个真实边界框的高度。
传统的边界框的回归损失,即平滑的L1损失,只考虑预测的边界框和真实边界框的坐标。因此,它不能考虑到边界框的模糊性也即任意不确定性,而本申请还将锚框(默认框)考虑其中,进而可以考虑到边界框的模糊性同时可以计算其对应的任意不确定性。
所述分类任务中正匹配的贡献
Figure BDA0003814602810000082
的计算公式为:
Figure BDA0003814602810000083
式中,πik表示第i个锚框的第k个组件输出的混合权重,
Figure BDA0003814602810000084
表示第j个真实边界框的真实类,
Figure BDA0003814602810000085
表示第i个锚框的第k个组件的第p类的类概率分布,C表示类的数量,N表示正匹配锚框的数量。
所述分类任务中负匹配的贡献
Figure BDA0003814602810000086
的计算公式为:
Figure BDA0003814602810000087
式中,M表示难负样本挖掘比,本实施例中,没有使用所有的负匹配,而是使用所提出的混合分类损失也即损失函数的值对它们进行排序,并选择前M×N作为最终的负匹配进行训练。在实验中,将M设置为3,Neg表示负匹配锚框的集合,
Figure BDA0003814602810000088
表示第i个锚框的背景类。
第k个组件的类概率分布利用高斯噪声的均值和方差获取,对应的计算公式为:
Figure BDA0003814602810000089
式中,
Figure BDA00038146028100000810
表示第k个组件的第p类的类概率分布,它的计算结果被赋值于
Figure BDA00038146028100000811
Figure BDA00038146028100000812
表示第k个组件的第p类的均值,
Figure BDA00038146028100000813
表示第k个组件的第p类的方差,γ表示辅助噪声变量,γ的大小与
Figure BDA00038146028100000814
Figure BDA00038146028100000815
相同,
Figure BDA00038146028100000816
表示正态分布。
目标检测任务中,每个边界框由其中心坐标、宽度和高度定义,由于高斯混合模型包括K个组件,每个组件相当于一个高斯分布,代表一个聚类分组中的样本分布,K个组件也即高斯分布线性叠加组成了高斯混合模型,回归任务中每个模型预测每个边界框的三组参数:均值
Figure BDA00038146028100000817
方差
Figure BDA00038146028100000818
以及混合权重
Figure BDA00038146028100000819
分类任务中每个类的输出建模为一个高斯混合模型,此时输出每个类的均值、方差以及每个组件的混合权重
Figure BDA00038146028100000820
其中p表示第p个类别。
所述高斯混合模型的均值的计算公式为:
Figure BDA0003814602810000091
式中,
Figure BDA0003814602810000092
表示高斯混合模型的第k个组件所输出的边界框参数b的对应均值,
Figure BDA0003814602810000093
表示高斯混合模型的第k个组件所输出的边界框参数b的对应预测均值,
Figure BDA0003814602810000094
所述高斯混合模型的方差的计算公式为:
Figure BDA0003814602810000095
式中,
Figure BDA0003814602810000096
表示高斯混合模型的第k个组件所输出的边界框参数b的方差,
Figure BDA0003814602810000097
表示高斯混合模型的第k个组件所输出的边界框b的预测方差,此方差即为任意不确定性,
Figure BDA0003814602810000098
Figure BDA0003814602810000099
σ表示sigmoid函数,通过这个sigmoid函数来满足方差的正性约束,即
Figure BDA00038146028100000910
所述高斯混合模型的混合权重的计算公式为:
Figure BDA00038146028100000911
式中,
Figure BDA00038146028100000912
表示高斯混合模型的第k个组件所输出边界框b的混合权重,
Figure BDA00038146028100000913
表示高斯混合模型的第k个组件所输出的边界框b的预测混合权重,
Figure BDA00038146028100000914
通过使用一个softmax函数保持混合权重在概率空间中,即所有组件概率和为1。
本实施例中,将高斯混合模型参数作为混合密度网络的输出,混合密度神经网络的输出层用于预测概率分布,而不是预测网络的每个输出的单个值。如果是回归任务,网络输出高斯混合模型针对每个边界框参数(包括中心点横坐标、中心点纵坐标、宽度、高度)的均值、方差和混合权重,如果是分类任务,网络输出高斯混合模型针对每个类的均值、方差和每个组件的混合权重。
S3.4,将测试集
Figure BDA00038146028100000915
中的图像输入目标检测器计算平均精度均值,判断是否满足
Figure BDA00038146028100000916
Figure BDA00038146028100000917
Figure BDA00038146028100000918
若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
本实施例中,
Figure BDA00038146028100000919
S3.5,判断S2<S1,若是,利用训练集
Figure BDA00038146028100000920
更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集
Figure BDA00038146028100000921
和除第一训练输入图像集之外的剩余图像的不确定性,所述不确定性包括任意不确定性和认知不确定性,其中,S2表示训练集
Figure BDA00038146028100000922
中除第一训练输入图像集之外的剩余图像的数目;
训练集
Figure BDA0003814602810000101
中剩余图像是指训练集
Figure BDA0003814602810000102
中除第一训练输入图像集中的图像之外的其它图像,通过对剩余图像计算不确定性为后续选择训练样本提供了参考指标,这在真实开放集场景下尤为重要,与一次性训练全部样本相比,不断循环选择一定数量的训练样本会大大减少人工标记等训练成本,而与通过不断随机选取同等数量的训练样本相比,根据不确定性选择的训练样本会使模型训练效果更好,精度更高。
所述任意不确定性的计算公式为:
Figure BDA0003814602810000103
式中,ual表示任意不确定性,πk表示第k个组件的混合权重,且
Figure BDA0003814602810000104
k表示第k个组件的方差,且
Figure BDA0003814602810000105
所述认知不确定性的计算公式为:
Figure BDA0003814602810000106
式中,uep表示认知不确定性,μk表示第k个组件的均值,且
Figure BDA0003814602810000107
πk″表示第k″个组件的混合权重,μk″表示第k″个组件的均值。
为了预测输出值的概率分布,利用高斯混合模型对混合密度网络的输出层进行修改,导致了参数数量的增加,尤其是在分类头。具体地,对于大小为F×F的输出特征图,有个C类、D个锚框和每个使用4个坐标定义的边界框,因此修改后的输出层添加参数的数量是F×F×D×(4×3×K)个的定位参数和F×F×D×(C×2×K+K)个的分类参数。优化地,通过减少分类头中的参数数量提高算法的效率,本实施例中,将分类参数的数量降为F×F×D×(C×K+K)个,因此,第k个组件中第p类的类概率分布
Figure BDA0003814602810000108
的计算公式更新为;
Figure BDA0003814602810000109
明显地,公式(16)相对于公式(10)来讲放宽了
Figure BDA00038146028100001010
的考量因素。
同时,分类任务中的任意不确定性的计算公式更新为:
Figure BDA00038146028100001011
式中,diag(q)表示一个具有向量q和
Figure BDA00038146028100001012
元素的对角矩阵。此时,μal是C×C的矩阵,其中,每个对角线元素的值可以被解释为一个特定于类的任意不确定性。同样地,根据更新后的类概率分布
Figure BDA00038146028100001013
的值更新目标检测模型的分类损失函数也即分类任务中正匹配的贡献
Figure BDA0003814602810000111
和分类任务中负匹配的贡献
Figure BDA0003814602810000112
S3.6,利用Z分数(z-score)对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
归一化的计算公式为:
Figure BDA0003814602810000113
式中,
Figure BDA0003814602810000114
表示第i′幅图像的第j′个对象目标的不确定性的归一化值,ui′j′表示第i′幅图像的第j′个目标也即对象的不确定性(任意不确定性或者认知不确定性),μU表示一组图像的所有对象的不确定性的均值,σU表示一组图像的所有对象的不确定性的方差。通过归一化以补偿边界框的坐标值是无界的,因为图像的每个不确定性可能有不同的值范围。
根据归一化后的任意不确定性和认知不确定性确定每个图像的不确定性,具体地是指,首先,选取分类任务中每个图像的所有对象的认知不确定性的最大值和任意不确定性的最大值分别作为图像分类任务的认知不确定性和任意不确定性,选取回归任务中每个图像的所有对象的认知不确定性的最大值和任意不确定性的最大值分别作为图像回归任务的认知不确定性和任意不确定性,四个值组成了图像的不确定性集合,也即
Figure BDA0003814602810000115
Figure BDA0003814602810000116
Figure BDA0003814602810000117
表示分类任务中第i′幅图像的认知不确定性,
Figure BDA0003814602810000118
表示分类任务中第i′幅图像的任意不确定性,
Figure BDA0003814602810000119
表示回归任务中第i′幅图像的认知不确定性,
Figure BDA00038146028100001110
表示回归任务中第i′幅图像的任意不确定性,
Figure BDA00038146028100001111
表示分类任务中第i′幅图像的第j′个对象的认知不确定性归一化值,
Figure BDA00038146028100001112
表示分类任务中第i′幅图像的第j′个对象的任意不确定性归一化值,
Figure BDA00038146028100001113
表示回归任务中第i′幅图像的第j′个对象的认知不确定性归一化值,
Figure BDA00038146028100001114
表示回归任务中第i′幅图像的第j′个对象的任意不确定性归一化值,之后,从图像的不确定性集合中选取最大值作为该对象的不确定值即可。
第i′个图像的不确定性集合Ui′的表达为:
Figure BDA00038146028100001115
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3;
原本的第一训练输入图像集保持不变,通过增加不确定性高的样本到第一训练输入图像集中的方式可以使训练样本更丰富,此外,增加的样本可以被认为是困难样本,利用这些困难样本可以训练目标检测模型更好地学习已知类。
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合,实现目标检测模型的优化,包括如下步骤:
S4.1,根据目标检测模型所产生的训练集
Figure BDA0003814602810000121
图像的已知类的类别和对应的特征向量构建已知类的特征空间;
所述特征空间是指已知类的特征向量所存在的n维空间,n表示所有已知类的特征数量。
S4.2,在已知类的特征空间中设定若干个固定特征点,每个固定特征点分别对应于一个已知类;
S4.3,利用训练集
Figure BDA0003814602810000122
图像对目标检测模型进行训练,并对目标检测模型的损失函数进行更新,使得每一个已知类目标的特征向量和对应的固定特征点之间的距离最小化;
所述对目标检测模型的损失函数进行更新是指对损失函数中的分类损失函数进行更新,具体地,通过一个超参数对锚点损失项进行加权再与原有的分类损失函数直接相加得到更新后的分类损失函数,锚点损失项表示了已知类的特征向量与其对应的固定特征点之间的最小距离。每个已知类的固定特征点的选择取决于类特征向量属于哪个已知类,通过最小化已知类的特征向量与其固定特征点之间的距离可以使已知类特征向量能够更好更严格地映射到已知类特征空间中。超参数降低了锚点损失项的大小以与原有的分类损失函数保持平衡,并加权了在训练过程中的锚点损失项所施加的聚类限制性。在训练期间用更新后的分类损失函数替换原有的分类损失函数,可以学习一个更结构化的特征空间,所谓结构化,主要在于它可以被高斯混合模型建模。
S4.4,为每个已知类分别预设一个高斯混合模型;
S4.5,收集类置信度分数不小于
Figure BDA0003814602810000123
和预测的边界框与真实边界框的IoU值不小于Θ的每个已知类所对应的特征向量组成每个已知类的第二训练输入图像集;
本实施例中,类置信度分数阈值
Figure BDA0003814602810000124
IoU阈值Θ=0.5。
S4.6,将每个已知类的第二训练输入图像集分别输入对应的高斯混合模型,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合得到每个已知类的高斯混合模型的参数,进而建模出第二训练输入图像集在特征空间中的特征向量分布。
在目标检测模型中构建结构化的特征空间并用高斯混合模型进行建模,为后续计算类的认知语义不确定性以识别出未知类做铺垫,使目标检测模型更好地对未知类进行增量学习,同时避免灾难性遗忘。
S5,将训练集
Figure BDA0003814602810000131
输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,利用人工标注后的图像对目标检测模型进一步训练得到最优目标检测模型;
S5.1,将训练集
Figure BDA0003814602810000132
输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型计算每个特征向量属于每个已知类的对数似然值,根据对数似然值确定检测对象也即目标属于每个已知类的认知语义不确定性;
所述对数似然值的计算公式为:
Figure BDA0003814602810000133
式中,
Figure BDA0003814602810000134
表示被检测对象的特征向量,l表示结构化特征空间中的特征向量,Gr表示第r个高斯混合模型,πr,j′表示第r个高斯混合模型的第j′个分量的混合权重,μr,j′表示第r个高斯混合模型的第j′个分量的均值,∑r,j′表示第r个高斯混合模型的第j′个分量的方差。
通过计算每个已知类的高斯混合模型的对数似然值P,P=log(p(l;Gr)),可以得到针对每个已知类的认知不确定性的度量unc,
Figure BDA0003814602810000135
其中一个低对数似然值表示被检测对象属于各自已知类的高认知语义不确定性。
S5.2,根据检测对象属于每个已知类的认知语义不确定性,确定每个检测对象的认知语义不确定性终值,进而确定图像的认知语义不确定性;
具体地,建立被检测对象针对所有已知类的认知语义不确定性值集合,将认知语义不确定性值集合的最小值作为该检测对象的认知语义不确定性终值,也即
Figure BDA0003814602810000136
其中unci′j′表示第i′幅图像的第j′个被检测对象的认知语义不确定性终值,
Figure BDA0003814602810000137
表示第i′幅图像的第j′个被检测对象相对于第q个已知类的认知语义不确定性。取一张图像中的所有被检测对象的认知语义不确定性终值的最大值作为该图像的认知语义不确定性,也即
Figure BDA0003814602810000138
其中
Figure BDA0003814602810000139
表示第i′幅图像的认知语义不确定性。
S5.3,对步骤S5.2所得到的每个图像的认知语义不确定性按照从高到低的顺序进行排序,得到图像的认知语义不确定性集合,选择图像认知语义不确定性较高的前
Figure BDA00038146028100001310
个数值所对应的图像构成待标记图像集,对待标记图像集中的图像进行人工类别标注,将人工标注后的图像集加入训练图像集得到更新后的训练图像集,利用更新后的训练图像集对目标检测模型进行训练;
其中,
Figure BDA00038146028100001311
为正整数,且
Figure BDA00038146028100001312
Figure BDA00038146028100001313
Figure BDA00038146028100001314
表示训练集
Figure BDA00038146028100001315
的样本数量,训练图像集最初为空集。
S5.4,将测试集
Figure BDA0003814602810000141
输入训练后的目标检测模型计算MAP,判断是否满足
Figure BDA0003814602810000142
Figure BDA0003814602810000143
Figure BDA0003814602810000144
若是,执行步骤S5.5,否则,输出
Figure BDA0003814602810000145
轮的目标检测模型作为最优目标检测模型,其中,
Figure BDA0003814602810000146
表示第
Figure BDA0003814602810000147
轮的目标检测模型的MAP,
Figure BDA0003814602810000148
表示第
Figure BDA0003814602810000149
轮的目标检测模型的MAP,
Figure BDA00038146028100001410
表示第
Figure BDA00038146028100001411
轮的目标检测模型的MAP;
S5.5,判断
Figure BDA00038146028100001412
若是,利用训练集
Figure BDA00038146028100001413
更新训练图像集,并执行步骤S5.3,否则,根据训练集
Figure BDA00038146028100001414
中除训练图像集之外的剩余图像更新训练集
Figure BDA00038146028100001415
返回步骤S5.1,其中,
Figure BDA00038146028100001416
表示训练集
Figure BDA00038146028100001417
和除训练图像集之外的剩余图像的数目。
利用结构化特征空间和高斯混合模型计算图像的认知语义不确定性以识别未知类,在开放集场景下,被检测对象的认知语义不确定性终值越高,说明其属于已知类的可能性越小,属于未知类即新类的可能性越大,进一步说明对象检测器需要学习这一新类,为此,循环选择一定数量的含有未知类的图像进行人工标注,标注全部类别,利用标注后的图像不断训练并优化目标检测模型。这样使得该目标检测模型可以有效识别开放集情景下的未知类即新类,进而实现增量学习,同时避免对已知类的灾难性遗忘,而且在训练的过程中可以尽可能地降低人工标记成本和训练成本。
实施例2:一种面向自动驾驶环境感知的增量式学习系统,包括:
类别标记模块,用于根据目标检测任务对环境图像数据集
Figure BDA00038146028100001418
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
图像划分模块,用于将标记后的环境图像数据集
Figure BDA00038146028100001419
划分为训练集
Figure BDA00038146028100001420
和测试集
Figure BDA00038146028100001421
然后将训练集
Figure BDA00038146028100001422
和测试集
Figure BDA00038146028100001423
中的标记有未知类的图像移除得到训练集
Figure BDA00038146028100001424
和测试集
Figure BDA00038146028100001425
不确定性计算模块,用于计算训练集
Figure BDA00038146028100001426
中图像的认知不确定性和任意不确定性;
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
本实施例中,所有的计算方法和模型训练方法同实施例1。
本申请实施例还提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有计算机程序,计算机程序被处理器执行时,执行上述面向自动驾驶环境感知的增量式学习方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,执行上述面向自动驾驶环境感知的增量式学习方法的步骤。具体地,该存储介质可以为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述面向自动驾驶环境感知的增量式学习方法的实施例。
以下采用Python环境、Pytorch深度学习框架以及MMDetection和MMCV来实现本申请的网络架构。对于基本特征提取器,使用ResNet50作为骨干,它强大而简单,新的特征提取器与基本特征提取器相同。对于目标检测框架,在二阶目标检测FasterR-CNN和一阶目标检测RetinaNet均进行实验,以证明方法的普遍适用性。所有的实验都是用一个12GB内存的NVIDIA Corporation GP102 TITAN Xp GPU和Intel(R)Xeon(R)CPU E5-2620 v4@2.10GHz进行的。以下为采用本申请实现自动驾驶环境感知下的不确定性驱动的增量学习的内容,具体是对IDD数据集上的实验。
针对IDD数据集将前7个类:车(car)、人(person)、骑自行车的人(rider)、卡车(truck)、摩托车(motorcycle)、公共汽车(bus)、自行车(bicycle)定义为标记的已知类,剩余的3个类:动物(animal)、交通标志(traffic sign)、交通信号灯(traffic light)为标记的未知类。实验使用IDD的训练集共31569张图片作为
Figure BDA0003814602810000151
IDD的验证集共3741张图片作为
Figure BDA0003814602810000152
IDD的测试集共4794张图片作为
Figure BDA0003814602810000153
在二阶目标检测和一阶目标检测训练中,均先对RGB图像调整大小为1000×600,并通过随机裁剪来增强。网络参数通过随机梯度下降(SGD)方法经过共7个epoch训练而得。对于二阶目标检测器FasterR-CNN,本实验采用SGD的参数学习率为0.005,动量为0.9,权重衰减为0.0001,其中,在第5~6个epoch间采用阶梯式的学习率衰减策略。对于目标检测模型RetinaNet,SGD的参数学习率为0.01,其余参数与二阶目标检测器一致,在整个训练过程中batch_size均为2。
其中,在IDD数据集上,取n1为8000,n2为6000,如图1所示,图中上方的曲线代表使用本申请提出的方法选取不同的样本数量进行训练后得到的对应的mAP值,图中下方的曲线代表用随机提取的方法选取不同的样本数量进行训练后得到的对应的mAP值。可以发现,在学习标记的样本数为8000以前,随着标记样本数的增加,其检测结果的mAP值大幅增加,但在学习标记样本数为8000以后,随着标记样本数的增加,其检测结果的mAP值不再有明显增幅,因此取n1为8000,同理,在IDD数据集上由图2可见取n2为6000。其中,Random表示随机选取样本进行训练的学习方法,FourUnc表示本申请针对已知类提出的主动学习方法,LogitUnc表示本申请针对未知类提出的增量学习方法。
针对IDD数据集,在二阶目标检测器上,通过本申请选取不确定性高的前n1个样本训练已知类,与随机选取n1个样本训练已知类相比,效果更好,精度更高,如表2-1的第一行和第二行所示,平均精度均值提高了约4%。在高效学好已知类的基础上,用本申请与随机选取n2个样本进行增量学习对比,可见本申请提出方法的有效性,有更高的精度,如表2-1的第三行和第四行所示,平均精度均值提高了约5%,对于开放集情况下应知道的未知类动物(animal)和交通标志(traffic sign)、交通信号灯(traffic light),平均精度均值分别提高了约9%、14%、15%。此外,通过表2-1的第二行和第四行对比可知,在增量学习的过程中,对于已知类检测器检测的精度没有大幅度下降,因此并没有产生灾难性遗忘,这是因为对于选取的n2个样本进行人工标记时,不仅标注了开放集环境下的未知类,如果样本中含有已知类,也会标记出来,这相当于在增量学习的过程中对已知类进行了少部分回放,从而避免了对已知类的灾难性遗忘。此外,本方法也适用于一阶目标检测器,见表2-2。综上可见本发明的有效性和普遍适用性,其可视化结果图如图3所示。
表2-1 IDD数据集上的评估(Faster R-CNN)
Figure BDA0003814602810000161
表2-2 IDD数据集上的评估(RetinaNet)
Figure BDA0003814602810000162
将本申请与其他先进方法技术做对比,见表2-3,其中iOD方法是指KjJ等人提出的通过元学习实现增量目标检测的方法,BNC方法是指Na Dong等人提出的将不共存与未标记的野外数据桥联用于增量对象检测方法,Unc方法指的是本申请提出的一种面向自动驾驶环境感知的增量式学习方法。将这三种方法应用在IDD数据集上进行对比,见表2-3,其中IDD下的base是指7个已知类的平均精度均值,novel是指3个未知类的平均精度均值,all是指所有10个类的平均精度均值。对比可知,对于已知类使用本申请的mAP高于iOD方法约14%,高于BNC方法约6%;对于未知类使用本申请的mAP高于iOD方法约8%,高于BNC方法约4%;对于全部类别使用本申请的mAP高于iOD方法约10%,高于BNC方法约4%。
表2-3与其他先进方法的对比
Figure BDA0003814602810000171
由上述可以发现,虽然iOD方法和BNC方法在其原文中表现很突出,但其结果是在VOC和COCO数据集上进行实验所得,将其应用在自动驾驶数据集上发现,其效果并不显著,因此可以说,本申请更适用于像自动驾驶数据集,像自动驾驶等智能无人系统环境感知场景。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向自动驾驶环境感知的增量式学习方法,其特征在于,包括如下步骤:
S1,根据目标检测任务对环境图像数据集
Figure FDA0003814602800000011
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
S2,将划分后的环境图像数据集
Figure FDA0003814602800000012
分为训练集
Figure FDA0003814602800000013
和测试集
Figure FDA0003814602800000014
将训练集
Figure FDA0003814602800000015
和测试集
Figure FDA0003814602800000016
中标记有未知类的图像移除得到训练集
Figure FDA0003814602800000017
和测试集
Figure FDA0003814602800000018
S3,利用高斯混合模型构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集
Figure FDA0003814602800000019
中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;
S5,将训练集
Figure FDA00038146028000000110
输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像集中的图像进行人工标注,利用人工标注后的图像对目标检测模型进一步训练得到最优目标检测模型。
2.根据权利要求1所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,所述步骤S3包括如下步骤:
S3.1,以高斯混合模型的参数作为输出构建混合密度网络,执行t=1,并设定精度差阈值
Figure FDA00038146028000000112
和精度差比例阈值
Figure FDA00038146028000000111
S3.2,从训练集
Figure FDA00038146028000000113
中随机筛选出S1个图像组成第一训练输入图像集;
S3.3,将第一训练输入图像集中的图像输入混合密度网络并以最小化损失函数为目标进行训练得到目标检测器;
S3.4,将测试集
Figure FDA00038146028000000117
中的图像输入目标检测器计算平均精度均值,判断是否满足
Figure FDA00038146028000000119
Figure FDA00038146028000000118
Figure FDA00038146028000000114
若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
S3.5,判断S2<S1,若是,利用训练集
Figure FDA00038146028000000115
更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集
Figure FDA00038146028000000116
中除第一训练输入图像集之外的剩余图像的任意不确定性和认知不确定性,其中,S2表示训练集
Figure FDA00038146028000000214
中除第一训练输入图像集之外的剩余图像的数目;
S3.6,利用Z分数对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3。
3.根据权利要求2所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,在步骤S3.3中,所述损失函数的计算公式为:
Figure FDA0003814602800000021
式中,LTotal表示总体损失,N表示正匹配的数量,Lloc(λ,l,g)表示回归任务中基于负对数似然函数的定位损失,λ表示锚框与真实边界框是否匹配的指标参数,g表示真实边界框参数,l表示预测输出边界框所对应的高斯混合模型参数,η表示加权超参数,
Figure FDA00038146028000000213
表示分类任务中正匹配的贡献,
Figure FDA00038146028000000212
表示分类任务中负匹配的贡献,c表示类参数。
4.根据权利要求3所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,所述回归任务中基于负对数似然函数的定位损失Lloc(λ,l,g)的计算公式为:
Figure FDA0003814602800000022
式中,Pos表示正匹配锚框的集合,
Figure FDA00038146028000000211
表示匹配指标,K表示高斯混合模型的数量,
Figure FDA00038146028000000210
表示第i个锚框的边界框参数b的第k个组件的混合权重,
Figure FDA0003814602800000029
表示第i个锚框的边界框参数b的第k个组件的均值,
Figure FDA0003814602800000027
表示第i个锚框的边界框参数b的第k个组件的方差,
Figure FDA0003814602800000028
表示第j个真实边界框的边界框参数b回归到对应锚框参数的偏移量,ε表示超参数。
5.根据权利要求3所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,所述分类任务中正匹配的贡献
Figure FDA0003814602800000026
的计算公式为:
Figure FDA0003814602800000023
式中,Pos表示正匹配锚框的集合,
Figure FDA0003814602800000024
表示匹配指标,K表示高斯混合模型的数量,πik表示第i个锚框的第k个组件输出的混合权重,
Figure FDA0003814602800000025
表示类别G的第j个真实边界框的真实类,
Figure FDA00038146028000000321
表示第i个锚框的第k个组件的第p类的类概率分布,C表示类的数量;
所述分类任务中负匹配的贡献
Figure FDA00038146028000000320
的计算公式为:
Figure FDA0003814602800000031
式中,M表示难负样本挖掘比,Neg表示负匹配锚框的集合,
Figure FDA00038146028000000319
表示第i个锚框的背景类。
6.根据权利要求5所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,第k个组件中第p类的类概率分布
Figure FDA00038146028000000318
的计算公式为:
Figure FDA0003814602800000032
式中,
Figure FDA00038146028000000316
表示第k个组件的第p类的均值,
Figure FDA00038146028000000317
表示第k个组件的第p类的方差,γ表示辅助噪声变量,
Figure FDA00038146028000000322
表示正态分布;
当对分类头中的参数数量进行缩减时,第k个组件中第p类的类概率分布
Figure FDA00038146028000000315
的计算公式更新为:
Figure FDA0003814602800000033
7.根据权利要求2所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,在步骤S3.5中,所述任意不确定性的计算公式为:
Figure FDA0003814602800000034
式中,ual表示任意不确定性,πk表示第k个组件的混合权重,∑k表示第k个组件的方差;
所述认知不确定性的计算公式为:
Figure FDA0003814602800000035
式中,uep表示认知不确定性,μk表示第k个组件的均值,πk″表示第k″个组件的混合权重,μk″表示第k″个组件的均值。
8.一种面向自动驾驶环境感知的增量式学习系统,其特征在于,包括:
类别标记模块,用于根据目标检测任务对环境图像数据集
Figure FDA00038146028000000314
中的目标进行类标记,并将标记后的类划分为已知类和未知类,且已知类和未知类属于不同类;
图像划分模块,用于将标记后的环境图像数据集
Figure FDA0003814602800000036
划分为训练集
Figure FDA0003814602800000037
和测试集
Figure FDA0003814602800000038
然后将训练集
Figure FDA0003814602800000039
和测试集
Figure FDA00038146028000000310
中的标记有未知类的图像移除得到训练集
Figure FDA00038146028000000311
和测试集
Figure FDA00038146028000000312
不确定性计算模块,用于计算训练集
Figure FDA00038146028000000313
中图像的认知不确定性和任意不确定性;
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
CN202211022490.6A 2022-08-25 2022-08-25 一种面向自动驾驶环境感知的增量式学习方法和系统 Pending CN115376101A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211022490.6A CN115376101A (zh) 2022-08-25 2022-08-25 一种面向自动驾驶环境感知的增量式学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211022490.6A CN115376101A (zh) 2022-08-25 2022-08-25 一种面向自动驾驶环境感知的增量式学习方法和系统

Publications (1)

Publication Number Publication Date
CN115376101A true CN115376101A (zh) 2022-11-22

Family

ID=84067201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211022490.6A Pending CN115376101A (zh) 2022-08-25 2022-08-25 一种面向自动驾驶环境感知的增量式学习方法和系统

Country Status (1)

Country Link
CN (1) CN115376101A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071624A (zh) * 2023-01-28 2023-05-05 南京云创大数据科技股份有限公司 一种基于主动学习的抽烟检测数据标注方法
CN116152576A (zh) * 2023-04-19 2023-05-23 北京邮电大学 图像处理方法、装置、设备及存储介质
CN116630751A (zh) * 2023-07-24 2023-08-22 中国电子科技集团公司第二十八研究所 一种融合信息瓶颈和不确定性感知的可信目标检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071624A (zh) * 2023-01-28 2023-05-05 南京云创大数据科技股份有限公司 一种基于主动学习的抽烟检测数据标注方法
CN116152576A (zh) * 2023-04-19 2023-05-23 北京邮电大学 图像处理方法、装置、设备及存储介质
CN116630751A (zh) * 2023-07-24 2023-08-22 中国电子科技集团公司第二十八研究所 一种融合信息瓶颈和不确定性感知的可信目标检测方法
CN116630751B (zh) * 2023-07-24 2023-10-31 中国电子科技集团公司第二十八研究所 一种融合信息瓶颈和不确定性感知的可信目标检测方法

Similar Documents

Publication Publication Date Title
CN108830188B (zh) 基于深度学习的车辆检测方法
AU2019101142A4 (en) A pedestrian detection method with lightweight backbone based on yolov3 network
CN111444821B (zh) 一种城市道路标志自动识别方法
CN109857889B (zh) 一种图像检索方法、装置、设备及可读存储介质
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN115376101A (zh) 一种面向自动驾驶环境感知的增量式学习方法和系统
CN109558823B (zh) 一种以图搜图的车辆识别方法及系统
CN111079602A (zh) 基于多尺度区域特征约束的车辆细粒度识别方法及装置
CN112016605B (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN111783844B (zh) 基于深度学习的目标检测模型训练方法、设备及存储介质
CN109658442B (zh) 多目标跟踪方法、装置、设备及计算机可读存储介质
CN113688851B (zh) 数据标注方法和装置和精细粒度识别方法和装置
CN110991523A (zh) 一种面向无人驾驶车辆检测算法性能的可解释性评估方法
CN110852358A (zh) 一种基于深度学习的车辆类型判别方法
CN111738300A (zh) 一种交通标志及信号灯检测和识别的优化算法
CN115170611A (zh) 一种复杂交叉路口车辆行驶轨迹分析方法、系统及应用
Wu et al. Traffic sign detection based on SSD combined with receptive field module and path aggregation network
US20150242676A1 (en) Method for the Supervised Classification of Cells Included in Microscopy Images
CN116612450A (zh) 一种面向点云场景的差异化知识蒸馏3d目标检测方法
CN115830371A (zh) 基于深度学习的轨道交通地铁转向架杆件分类检测方法
CN115965786A (zh) 基于局部语义感知注意力神经网络的遮挡目标识别方法
Rani et al. Driver Assistant System using YOLO V3 and VGGNET
Nath et al. Traffic sign recognition and distance estimation with yolov3 model
Sikander et al. Image Classification using CNN for Traffic Signs in Pakistan
CN117593890B (zh) 一种道路遗撒物体的检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination