CN115376101A - 一种面向自动驾驶环境感知的增量式学习方法和系统 - Google Patents
一种面向自动驾驶环境感知的增量式学习方法和系统 Download PDFInfo
- Publication number
- CN115376101A CN115376101A CN202211022490.6A CN202211022490A CN115376101A CN 115376101 A CN115376101 A CN 115376101A CN 202211022490 A CN202211022490 A CN 202211022490A CN 115376101 A CN115376101 A CN 115376101A
- Authority
- CN
- China
- Prior art keywords
- class
- uncertainty
- training
- representing
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种面向自动驾驶环境感知的增量式学习方法和系统,包括:对环境图像数据集中的目标进行类标记,划分已知类和未知类;划分训练集和测试集移除未知类图像;利用高斯混合模型构建混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;利用目标检测模型的已知类特征空间和预设高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,循环增量地对认知语义不确定性高的图像人工标注,利用标注后的图像对目标检测模型进一步训练得到最优目标检测模型。本发明可减少人工标记成本和训练成本。
Description
技术领域
本发明属于图像目标检测技术领域,具体涉及一种面向自动驾驶环境感知的增量式学习方法和系统。
背景技术
目前,人工智能(Artificial Intelligence,AI)尤其是机器学习,已经成为计算机视觉、自然语言处理、大数据分析、机器人、软件测试等等领域的不可缺少的重要技术,并在过去的十年里得到了突飞猛进的进步。这在当今学术界、工业界甚至是普通百姓的生活中都产生了重大影响,智能无人系统便是其中典型的应用之一,而环境感知在智能无人系统中更是有着举足轻重的地位。像机器人、自动驾驶汽车、无人机等智能无人系统在行进中需要不断感知周围的环境,精准的环境感知和认知是安全的基础。
传统的目标检测技术以及机器学习都是针对闭集情况,但在智能无人系统环境感知中,由于环境的变化或者建模的缺陷,智能无人系统像自动驾驶等必然也会面临一些识别不准确或者无法识别的场景,这些场景就属于开放集情况。对于此类场景智能大脑应该能够区分哪些场景是熟悉的,哪些场景是不熟悉的甚至是从未见过的,传统的目标检测技术和机器学习技术解决不了该问题;现有的环境感知目标检测的训练过程大都依赖于已标注类别的训练数据集,而不熟悉的场景和未知场景绝大多数都是没有标注的数据,对这些数据进行类别标注所耗费的人力成本和时间成本非常巨大;在有了新的场景数据的基础上,智能大脑虽然利用部分现有技术能够仅通过新场景数据自主性的进行学习,但常常会忘记旧场景旧知识,从而产生灾难性遗忘。
发明内容
针对以上问题,本发明提出了一种面向自动驾驶环境感知的增量式学习方法和系统,主要针对不熟悉场景,智能系统怎样能够自动检测,并提醒用户标注适当数量的样本,进而启动增量学习,以提高模型的性能进行研究,是一种不确定性驱动的增量学习方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种面向自动驾驶环境感知的增量式学习方法,包括如下步骤:
S3,利用高斯混合模型构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;
S5,将训练集输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像集中的图像进行人工标注,利用人工标注后的图像对目标检测模型进一步训练得到最优目标检测模型。
所述步骤S3包括如下步骤:
S3.3,将第一训练输入图像集中的图像输入混合密度网络并以最小化损失函数为目标进行训练得到目标检测器;
S3.4,将测试集中的图像输入目标检测器计算平均精度均值,判断是否满足 目若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
S3.5,判断S2<S1,若是,利用训练集更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集中除第一训练输入图像集之外的剩余图像的任意不确定性和认知不确定性,其中,S2表示训练集中除第一训练输入图像集之外的剩余图像的数目;
S3.6,利用Z分数对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3。
在步骤S3.3中,所述损失函数的计算公式为:
式中,LTotal表示总体损失,N表示正匹配的数量,Lloc(λ,l,g)表示回归任务中基于负对数似然函数的定位损失,λ表示锚框与真实边界框是否匹配的指标参数,g表示真实边界框参数,l表示预测输出边界框所对应的高斯混合模型参数,η表示加权超参数,表示分类任务中正匹配的贡献,表示分类任务中负匹配的贡献,c表示类参数。
所述回归任务中基于负对数似然函数的定位损失Lloc(λ,l,g)的计算公式为:
式中,Pos表示正匹配锚框的集合,表示匹配指标,K表示高斯混合模型的数量,表示第i个锚框的边界框参数b的第k个组件的混合权重,表示第i个锚框的边界框参数b的第k个组件的均值,表示第i个锚框的边界框参数b的第k个组件的方差,表示第j个真实边界框的边界框参数b回归到对应锚框参数的偏移量,ε表示超参数。
式中,Pos表示正匹配锚框的集合,表示匹配指标,K表示高斯混合模型的数量,πik表示第i个锚框的第k个组件输出的混合权重,表示类别G的第j个真实边界框的真实类,表示第i个锚框的第k个组件的第p类的类概率分布,C表示类的数量;
在步骤S3.5中,所述任意不确定性的计算公式为:
式中,ual表示任意不确定性,πk表示第k个组件的混合权重,∑k表示第k个组件的方差;
所述认知不确定性的计算公式为:
式中,uep表示认知不确定性,μk表示第k个组件的均值,πk″表示第k″个组件的混合权重,μk″表示第k″个组件的均值。
一种面向自动驾驶环境感知的增量式学习系统,包括:
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
本发明的有益效果:
本发明可以有效地区分开放集情景下的已知类与未知类,从而识别开放集下的未知类即新类,进而实现增量学习;可以有效地分阶段学习开放集情景下的已知类和未知类,同时使人工标记成本和训练成本尽可能地少;在对未知类进行增量学习的过程中可以避免对已知类的灾难性遗忘;具有普遍适用性,在一阶目标检测器和二阶目标检测器上均适用,且与其它现有方法相比,平均精度均值更好,效果更佳。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为IDD数据集上已知类的训练对比示意图。
图2为IDD数据集上未知类的训练对比示意图。
图3为采用IDD数据集进行实验时的样本可视化视图。
图4为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:一种面向自动驾驶环境感知的增量式学习方法,如图4所示,包括如下步骤:
采集自动驾驶环境中拍摄到的图像得到环境图像数据集根据预设的目标检测任务对环境图像数据集中每个图像中的目标分别进行类标记,根据标记后的类的属性将这些类划分为已知类和未知类,所述已知类的类别至少为两种,所述未知类的类别至少为一种,且已知类的类别和未知类的类别不同,比如,已知类所对应的类的类别为自行车和汽车,未知类所对应的类的类别为人。
通过将包含有未知类的图像删除,可以使得标记的未知类成为真正的未知类,也即确保了利用训练集训练过程中该类别不会被目标检测器看到,同时测试集中也不包含该类别的目标对象,这可以形成近似封闭集,而原训练集和原测试集就相当于开放集。当然,未标记的未知类即除已知类和未知类之外的其它类别仍然存在于数据集所在的背景中,它们相当于开放集中的背景,在目标检测器的训练过程中被训练为忽视这些类别。此外,也可以将环境图像数据集划分为训练集、测试集和验证集,所增设的验证集主要用于调节模型的超参数。
S3,利用高斯混合模型(Gaussian Mixture Models,GMMs)构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型,包括如下步骤:
所述高斯混合模型的参数为均值、方差和混合权重。
S3.3,将第一训练输入图像集中的图像输入混合密度网络中以最小化损失函数为目标进行训练得到目标检测器;
所述损失函数的计算公式为:
式中,LTotal表示总体损失,N表示正匹配的数量,其中,正匹配即为正确的匹配,即模型输出的预测边界框与真实边界框的IoU大于一定阈值(本实施例取阈值为0.5),且模型对预测边界框内的对象的预测类别与真实类别相同,Lloc(λ,l,g)表示回归任务中基于负对数似然函数的定位损失,η表示加权超参数,用于平衡定位损失与分类损失,本实施例中,η=2,表示分类任务中正匹配的贡献,表示分类任务中负匹配的贡献,其中,负匹配即为不正确的匹配,即模型输出的预测边界框与真实边界框的IoU小于一定阈值(本实施例取阈值为0.5)或模型对预测边界框内的对象的预测类别与真实类别不同,c表示类参数,λ表示锚框与真实边界框是否匹配的指标参数,g表示真实边界框参数,可以为真实边界框的中心横坐标x、中心纵坐标y、宽度w或高度h,l表示预测输出边界框所对应的高斯混合模型参数,当边界框参数为b时,其对应的高斯混合模型参数为 表示第i个锚框的边界框参数b的第k个组件的混合权重,表示第i个锚框的边界框参数b的第k个组件的均值,表示第i个锚框的边界框参数b的第k个组件的方差。
所述回归任务中基于负对数似然函数的定位损失Lloc(λ,l,g)的计算公式为:
式中,表示匹配指标,用于匹配第i个锚框和类别G的第j个真实边界框,Pos表示正匹配锚框的集合,表示第j个真实边界框的边界框参数b回归到对应锚框参数的偏移量,其中边界框参数b由其中心坐标(x和y)、宽度(w)和高度(h)定义,即b={x,y,w,h},因此包含中心横坐标x的偏移量中心纵坐标y的偏移量宽度w的偏移量或高度h的偏移量即ε表示一个超参数,K表示高斯混合模型的数量。本实施例中,为了对数函数的数值稳定性设置ε=10-9。回归定位损失主要用于回归逼近对象的真实边界框相对于锚框的准确偏移量。
式中,IoU表示交并比,锚框与真实边界框相比的Intersection over Union,交并比是目标检测中使用的一个概念,计算的是“预测的边框”和“真实的边框”的交叠率,即它们的交集和并集的比值。
传统的边界框的回归损失,即平滑的L1损失,只考虑预测的边界框和真实边界框的坐标。因此,它不能考虑到边界框的模糊性也即任意不确定性,而本申请还将锚框(默认框)考虑其中,进而可以考虑到边界框的模糊性同时可以计算其对应的任意不确定性。
式中,M表示难负样本挖掘比,本实施例中,没有使用所有的负匹配,而是使用所提出的混合分类损失也即损失函数的值对它们进行排序,并选择前M×N作为最终的负匹配进行训练。在实验中,将M设置为3,Neg表示负匹配锚框的集合,表示第i个锚框的背景类。
第k个组件的类概率分布利用高斯噪声的均值和方差获取,对应的计算公式为:
目标检测任务中,每个边界框由其中心坐标、宽度和高度定义,由于高斯混合模型包括K个组件,每个组件相当于一个高斯分布,代表一个聚类分组中的样本分布,K个组件也即高斯分布线性叠加组成了高斯混合模型,回归任务中每个模型预测每个边界框的三组参数:均值方差以及混合权重分类任务中每个类的输出建模为一个高斯混合模型,此时输出每个类的均值、方差以及每个组件的混合权重其中p表示第p个类别。
所述高斯混合模型的均值的计算公式为:
所述高斯混合模型的方差的计算公式为:
式中,表示高斯混合模型的第k个组件所输出的边界框参数b的方差,表示高斯混合模型的第k个组件所输出的边界框b的预测方差,此方差即为任意不确定性, σ表示sigmoid函数,通过这个sigmoid函数来满足方差的正性约束,即
所述高斯混合模型的混合权重的计算公式为:
本实施例中,将高斯混合模型参数作为混合密度网络的输出,混合密度神经网络的输出层用于预测概率分布,而不是预测网络的每个输出的单个值。如果是回归任务,网络输出高斯混合模型针对每个边界框参数(包括中心点横坐标、中心点纵坐标、宽度、高度)的均值、方差和混合权重,如果是分类任务,网络输出高斯混合模型针对每个类的均值、方差和每个组件的混合权重。
S3.4,将测试集中的图像输入目标检测器计算平均精度均值,判断是否满足 且若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
S3.5,判断S2<S1,若是,利用训练集更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集和除第一训练输入图像集之外的剩余图像的不确定性,所述不确定性包括任意不确定性和认知不确定性,其中,S2表示训练集中除第一训练输入图像集之外的剩余图像的数目;
训练集中剩余图像是指训练集中除第一训练输入图像集中的图像之外的其它图像,通过对剩余图像计算不确定性为后续选择训练样本提供了参考指标,这在真实开放集场景下尤为重要,与一次性训练全部样本相比,不断循环选择一定数量的训练样本会大大减少人工标记等训练成本,而与通过不断随机选取同等数量的训练样本相比,根据不确定性选择的训练样本会使模型训练效果更好,精度更高。
所述任意不确定性的计算公式为:
所述认知不确定性的计算公式为:
为了预测输出值的概率分布,利用高斯混合模型对混合密度网络的输出层进行修改,导致了参数数量的增加,尤其是在分类头。具体地,对于大小为F×F的输出特征图,有个C类、D个锚框和每个使用4个坐标定义的边界框,因此修改后的输出层添加参数的数量是F×F×D×(4×3×K)个的定位参数和F×F×D×(C×2×K+K)个的分类参数。优化地,通过减少分类头中的参数数量提高算法的效率,本实施例中,将分类参数的数量降为F×F×D×(C×K+K)个,因此,第k个组件中第p类的类概率分布的计算公式更新为;
同时,分类任务中的任意不确定性的计算公式更新为:
式中,diag(q)表示一个具有向量q和元素的对角矩阵。此时,μal是C×C的矩阵,其中,每个对角线元素的值可以被解释为一个特定于类的任意不确定性。同样地,根据更新后的类概率分布的值更新目标检测模型的分类损失函数也即分类任务中正匹配的贡献和分类任务中负匹配的贡献
S3.6,利用Z分数(z-score)对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
归一化的计算公式为:
式中,表示第i′幅图像的第j′个对象目标的不确定性的归一化值,ui′j′表示第i′幅图像的第j′个目标也即对象的不确定性(任意不确定性或者认知不确定性),μU表示一组图像的所有对象的不确定性的均值,σU表示一组图像的所有对象的不确定性的方差。通过归一化以补偿边界框的坐标值是无界的,因为图像的每个不确定性可能有不同的值范围。
根据归一化后的任意不确定性和认知不确定性确定每个图像的不确定性,具体地是指,首先,选取分类任务中每个图像的所有对象的认知不确定性的最大值和任意不确定性的最大值分别作为图像分类任务的认知不确定性和任意不确定性,选取回归任务中每个图像的所有对象的认知不确定性的最大值和任意不确定性的最大值分别作为图像回归任务的认知不确定性和任意不确定性,四个值组成了图像的不确定性集合,也即 表示分类任务中第i′幅图像的认知不确定性,表示分类任务中第i′幅图像的任意不确定性,表示回归任务中第i′幅图像的认知不确定性,表示回归任务中第i′幅图像的任意不确定性,表示分类任务中第i′幅图像的第j′个对象的认知不确定性归一化值,表示分类任务中第i′幅图像的第j′个对象的任意不确定性归一化值,表示回归任务中第i′幅图像的第j′个对象的认知不确定性归一化值,表示回归任务中第i′幅图像的第j′个对象的任意不确定性归一化值,之后,从图像的不确定性集合中选取最大值作为该对象的不确定值即可。
第i′个图像的不确定性集合Ui′的表达为:
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3;
原本的第一训练输入图像集保持不变,通过增加不确定性高的样本到第一训练输入图像集中的方式可以使训练样本更丰富,此外,增加的样本可以被认为是困难样本,利用这些困难样本可以训练目标检测模型更好地学习已知类。
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合,实现目标检测模型的优化,包括如下步骤:
所述特征空间是指已知类的特征向量所存在的n维空间,n表示所有已知类的特征数量。
S4.2,在已知类的特征空间中设定若干个固定特征点,每个固定特征点分别对应于一个已知类;
所述对目标检测模型的损失函数进行更新是指对损失函数中的分类损失函数进行更新,具体地,通过一个超参数对锚点损失项进行加权再与原有的分类损失函数直接相加得到更新后的分类损失函数,锚点损失项表示了已知类的特征向量与其对应的固定特征点之间的最小距离。每个已知类的固定特征点的选择取决于类特征向量属于哪个已知类,通过最小化已知类的特征向量与其固定特征点之间的距离可以使已知类特征向量能够更好更严格地映射到已知类特征空间中。超参数降低了锚点损失项的大小以与原有的分类损失函数保持平衡,并加权了在训练过程中的锚点损失项所施加的聚类限制性。在训练期间用更新后的分类损失函数替换原有的分类损失函数,可以学习一个更结构化的特征空间,所谓结构化,主要在于它可以被高斯混合模型建模。
S4.4,为每个已知类分别预设一个高斯混合模型;
S4.6,将每个已知类的第二训练输入图像集分别输入对应的高斯混合模型,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合得到每个已知类的高斯混合模型的参数,进而建模出第二训练输入图像集在特征空间中的特征向量分布。
在目标检测模型中构建结构化的特征空间并用高斯混合模型进行建模,为后续计算类的认知语义不确定性以识别出未知类做铺垫,使目标检测模型更好地对未知类进行增量学习,同时避免灾难性遗忘。
S5,将训练集输入目标检测模型,利用对数似然函数和每个已知类的高斯混合模型估计所有类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,利用人工标注后的图像对目标检测模型进一步训练得到最优目标检测模型;
所述对数似然值的计算公式为:
式中,表示被检测对象的特征向量,l表示结构化特征空间中的特征向量,Gr表示第r个高斯混合模型,πr,j′表示第r个高斯混合模型的第j′个分量的混合权重,μr,j′表示第r个高斯混合模型的第j′个分量的均值,∑r,j′表示第r个高斯混合模型的第j′个分量的方差。
S5.2,根据检测对象属于每个已知类的认知语义不确定性,确定每个检测对象的认知语义不确定性终值,进而确定图像的认知语义不确定性;
具体地,建立被检测对象针对所有已知类的认知语义不确定性值集合,将认知语义不确定性值集合的最小值作为该检测对象的认知语义不确定性终值,也即其中unci′j′表示第i′幅图像的第j′个被检测对象的认知语义不确定性终值,表示第i′幅图像的第j′个被检测对象相对于第q个已知类的认知语义不确定性。取一张图像中的所有被检测对象的认知语义不确定性终值的最大值作为该图像的认知语义不确定性,也即其中表示第i′幅图像的认知语义不确定性。
S5.3,对步骤S5.2所得到的每个图像的认知语义不确定性按照从高到低的顺序进行排序,得到图像的认知语义不确定性集合,选择图像认知语义不确定性较高的前个数值所对应的图像构成待标记图像集,对待标记图像集中的图像进行人工类别标注,将人工标注后的图像集加入训练图像集得到更新后的训练图像集,利用更新后的训练图像集对目标检测模型进行训练;
S5.4,将测试集输入训练后的目标检测模型计算MAP,判断是否满足 且若是,执行步骤S5.5,否则,输出轮的目标检测模型作为最优目标检测模型,其中,表示第轮的目标检测模型的MAP,表示第轮的目标检测模型的MAP,表示第轮的目标检测模型的MAP;
利用结构化特征空间和高斯混合模型计算图像的认知语义不确定性以识别未知类,在开放集场景下,被检测对象的认知语义不确定性终值越高,说明其属于已知类的可能性越小,属于未知类即新类的可能性越大,进一步说明对象检测器需要学习这一新类,为此,循环选择一定数量的含有未知类的图像进行人工标注,标注全部类别,利用标注后的图像不断训练并优化目标检测模型。这样使得该目标检测模型可以有效识别开放集情景下的未知类即新类,进而实现增量学习,同时避免对已知类的灾难性遗忘,而且在训练的过程中可以尽可能地降低人工标记成本和训练成本。
实施例2:一种面向自动驾驶环境感知的增量式学习系统,包括:
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
本实施例中,所有的计算方法和模型训练方法同实施例1。
本申请实施例还提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有计算机程序,计算机程序被处理器执行时,执行上述面向自动驾驶环境感知的增量式学习方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,执行上述面向自动驾驶环境感知的增量式学习方法的步骤。具体地,该存储介质可以为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述面向自动驾驶环境感知的增量式学习方法的实施例。
以下采用Python环境、Pytorch深度学习框架以及MMDetection和MMCV来实现本申请的网络架构。对于基本特征提取器,使用ResNet50作为骨干,它强大而简单,新的特征提取器与基本特征提取器相同。对于目标检测框架,在二阶目标检测FasterR-CNN和一阶目标检测RetinaNet均进行实验,以证明方法的普遍适用性。所有的实验都是用一个12GB内存的NVIDIA Corporation GP102 TITAN Xp GPU和Intel(R)Xeon(R)CPU E5-2620 v4@2.10GHz进行的。以下为采用本申请实现自动驾驶环境感知下的不确定性驱动的增量学习的内容,具体是对IDD数据集上的实验。
针对IDD数据集将前7个类:车(car)、人(person)、骑自行车的人(rider)、卡车(truck)、摩托车(motorcycle)、公共汽车(bus)、自行车(bicycle)定义为标记的已知类,剩余的3个类:动物(animal)、交通标志(traffic sign)、交通信号灯(traffic light)为标记的未知类。实验使用IDD的训练集共31569张图片作为IDD的验证集共3741张图片作为IDD的测试集共4794张图片作为在二阶目标检测和一阶目标检测训练中,均先对RGB图像调整大小为1000×600,并通过随机裁剪来增强。网络参数通过随机梯度下降(SGD)方法经过共7个epoch训练而得。对于二阶目标检测器FasterR-CNN,本实验采用SGD的参数学习率为0.005,动量为0.9,权重衰减为0.0001,其中,在第5~6个epoch间采用阶梯式的学习率衰减策略。对于目标检测模型RetinaNet,SGD的参数学习率为0.01,其余参数与二阶目标检测器一致,在整个训练过程中batch_size均为2。
其中,在IDD数据集上,取n1为8000,n2为6000,如图1所示,图中上方的曲线代表使用本申请提出的方法选取不同的样本数量进行训练后得到的对应的mAP值,图中下方的曲线代表用随机提取的方法选取不同的样本数量进行训练后得到的对应的mAP值。可以发现,在学习标记的样本数为8000以前,随着标记样本数的增加,其检测结果的mAP值大幅增加,但在学习标记样本数为8000以后,随着标记样本数的增加,其检测结果的mAP值不再有明显增幅,因此取n1为8000,同理,在IDD数据集上由图2可见取n2为6000。其中,Random表示随机选取样本进行训练的学习方法,FourUnc表示本申请针对已知类提出的主动学习方法,LogitUnc表示本申请针对未知类提出的增量学习方法。
针对IDD数据集,在二阶目标检测器上,通过本申请选取不确定性高的前n1个样本训练已知类,与随机选取n1个样本训练已知类相比,效果更好,精度更高,如表2-1的第一行和第二行所示,平均精度均值提高了约4%。在高效学好已知类的基础上,用本申请与随机选取n2个样本进行增量学习对比,可见本申请提出方法的有效性,有更高的精度,如表2-1的第三行和第四行所示,平均精度均值提高了约5%,对于开放集情况下应知道的未知类动物(animal)和交通标志(traffic sign)、交通信号灯(traffic light),平均精度均值分别提高了约9%、14%、15%。此外,通过表2-1的第二行和第四行对比可知,在增量学习的过程中,对于已知类检测器检测的精度没有大幅度下降,因此并没有产生灾难性遗忘,这是因为对于选取的n2个样本进行人工标记时,不仅标注了开放集环境下的未知类,如果样本中含有已知类,也会标记出来,这相当于在增量学习的过程中对已知类进行了少部分回放,从而避免了对已知类的灾难性遗忘。此外,本方法也适用于一阶目标检测器,见表2-2。综上可见本发明的有效性和普遍适用性,其可视化结果图如图3所示。
表2-1 IDD数据集上的评估(Faster R-CNN)
表2-2 IDD数据集上的评估(RetinaNet)
将本申请与其他先进方法技术做对比,见表2-3,其中iOD方法是指KjJ等人提出的通过元学习实现增量目标检测的方法,BNC方法是指Na Dong等人提出的将不共存与未标记的野外数据桥联用于增量对象检测方法,Unc方法指的是本申请提出的一种面向自动驾驶环境感知的增量式学习方法。将这三种方法应用在IDD数据集上进行对比,见表2-3,其中IDD下的base是指7个已知类的平均精度均值,novel是指3个未知类的平均精度均值,all是指所有10个类的平均精度均值。对比可知,对于已知类使用本申请的mAP高于iOD方法约14%,高于BNC方法约6%;对于未知类使用本申请的mAP高于iOD方法约8%,高于BNC方法约4%;对于全部类别使用本申请的mAP高于iOD方法约10%,高于BNC方法约4%。
表2-3与其他先进方法的对比
由上述可以发现,虽然iOD方法和BNC方法在其原文中表现很突出,但其结果是在VOC和COCO数据集上进行实验所得,将其应用在自动驾驶数据集上发现,其效果并不显著,因此可以说,本申请更适用于像自动驾驶数据集,像自动驾驶等智能无人系统环境感知场景。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种面向自动驾驶环境感知的增量式学习方法,其特征在于,包括如下步骤:
S3,利用高斯混合模型构建输出包括均值、方差和混合权重的混合密度网络,利用混合密度网络的输出计算训练集中的每个图像的不确定性,根据不确定性建立第一训练输入图像集,将第一训练输入图像集输入混合密度网络,以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
S4,利用步骤S3得到的目标检测模型生成已知类的特征空间,根据已知类的特征空间和预设的高斯混合模型为每个已知类建模,利用最大期望算法对每个已知类的高斯混合模型的参数进行拟合;
2.根据权利要求1所述的面向自动驾驶环境感知的增量式学习方法,其特征在于,所述步骤S3包括如下步骤:
S3.3,将第一训练输入图像集中的图像输入混合密度网络并以最小化损失函数为目标进行训练得到目标检测器;
S3.4,将测试集中的图像输入目标检测器计算平均精度均值,判断是否满足 且若是,执行步骤S3.5,否则,输出t-1轮的目标检测器作为目标检测模型,并执行步骤S4,其中,MAPt表示第t轮的目标检测器的平均精度均值,MAPt-1表示第t-1轮的目标检测器的平均精度均值,MAPt-2表示第t-2轮的目标检测器的平均精度均值;
S3.5,判断S2<S1,若是,利用训练集更新第一训练输入图像集,并执行步骤S3.3,否则,利用高斯混合模型的参数计算训练集中除第一训练输入图像集之外的剩余图像的任意不确定性和认知不确定性,其中,S2表示训练集中除第一训练输入图像集之外的剩余图像的数目;
S3.6,利用Z分数对步骤S3.5计算出的任意不确定性和认知不确定性进行归一化处理,根据归一化后的任意不确定性和认知不确定性确定每个剩余图像的不确定性;
S3.7,对步骤S3.6得到的每个剩余图像的不确定性按照从高到低的顺序进行排序得到剩余图像不确定性集合,将剩余图像不确定性集合中前S1个不确定性所对应的图像加入第一训练输入图像集得到更新后的第一训练输入图像集,执行t=t+1,并返回步骤S3.3。
8.一种面向自动驾驶环境感知的增量式学习系统,其特征在于,包括:
目标检测模型训练模块,根据高斯混合模型的输出参数构建混合密度网络,利用不确定性计算模块所计算出的认知不确定性和任意不确定性,并以最小化损失函数为目标对混合密度网络进行优化得到目标检测模型;
目标检测模型优化模块,基于最大期望算法为每个已知类构建高斯混合模型,利用对数似然函数和每个已知类的高斯混合模型估计已知类和未知类的认知语义不确定性,根据认知语义不确定性建立待标记图像集,对待标记图像进行人工标注,最后利用人工标注后的图像对目标检测模型训练模块生成的目标检测模型进一步训练得到最优目标检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211022490.6A CN115376101A (zh) | 2022-08-25 | 2022-08-25 | 一种面向自动驾驶环境感知的增量式学习方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211022490.6A CN115376101A (zh) | 2022-08-25 | 2022-08-25 | 一种面向自动驾驶环境感知的增量式学习方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115376101A true CN115376101A (zh) | 2022-11-22 |
Family
ID=84067201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211022490.6A Pending CN115376101A (zh) | 2022-08-25 | 2022-08-25 | 一种面向自动驾驶环境感知的增量式学习方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376101A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071624A (zh) * | 2023-01-28 | 2023-05-05 | 南京云创大数据科技股份有限公司 | 一种基于主动学习的抽烟检测数据标注方法 |
CN116152576A (zh) * | 2023-04-19 | 2023-05-23 | 北京邮电大学 | 图像处理方法、装置、设备及存储介质 |
CN116630751A (zh) * | 2023-07-24 | 2023-08-22 | 中国电子科技集团公司第二十八研究所 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
-
2022
- 2022-08-25 CN CN202211022490.6A patent/CN115376101A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071624A (zh) * | 2023-01-28 | 2023-05-05 | 南京云创大数据科技股份有限公司 | 一种基于主动学习的抽烟检测数据标注方法 |
CN116152576A (zh) * | 2023-04-19 | 2023-05-23 | 北京邮电大学 | 图像处理方法、装置、设备及存储介质 |
CN116630751A (zh) * | 2023-07-24 | 2023-08-22 | 中国电子科技集团公司第二十八研究所 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
CN116630751B (zh) * | 2023-07-24 | 2023-10-31 | 中国电子科技集团公司第二十八研究所 | 一种融合信息瓶颈和不确定性感知的可信目标检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830188B (zh) | 基于深度学习的车辆检测方法 | |
AU2019101142A4 (en) | A pedestrian detection method with lightweight backbone based on yolov3 network | |
CN111444821B (zh) | 一种城市道路标志自动识别方法 | |
CN109857889B (zh) | 一种图像检索方法、装置、设备及可读存储介质 | |
CN108564097B (zh) | 一种基于深度卷积神经网络的多尺度目标检测方法 | |
CN115376101A (zh) | 一种面向自动驾驶环境感知的增量式学习方法和系统 | |
CN109558823B (zh) | 一种以图搜图的车辆识别方法及系统 | |
CN111079602A (zh) | 基于多尺度区域特征约束的车辆细粒度识别方法及装置 | |
CN112016605B (zh) | 一种基于边界框角点对齐和边界匹配的目标检测方法 | |
CN111783844B (zh) | 基于深度学习的目标检测模型训练方法、设备及存储介质 | |
CN109658442B (zh) | 多目标跟踪方法、装置、设备及计算机可读存储介质 | |
CN113688851B (zh) | 数据标注方法和装置和精细粒度识别方法和装置 | |
CN110991523A (zh) | 一种面向无人驾驶车辆检测算法性能的可解释性评估方法 | |
CN110852358A (zh) | 一种基于深度学习的车辆类型判别方法 | |
CN111738300A (zh) | 一种交通标志及信号灯检测和识别的优化算法 | |
CN115170611A (zh) | 一种复杂交叉路口车辆行驶轨迹分析方法、系统及应用 | |
Wu et al. | Traffic sign detection based on SSD combined with receptive field module and path aggregation network | |
US20150242676A1 (en) | Method for the Supervised Classification of Cells Included in Microscopy Images | |
CN116612450A (zh) | 一种面向点云场景的差异化知识蒸馏3d目标检测方法 | |
CN115830371A (zh) | 基于深度学习的轨道交通地铁转向架杆件分类检测方法 | |
CN115965786A (zh) | 基于局部语义感知注意力神经网络的遮挡目标识别方法 | |
Rani et al. | Driver Assistant System using YOLO V3 and VGGNET | |
Nath et al. | Traffic sign recognition and distance estimation with yolov3 model | |
Sikander et al. | Image Classification using CNN for Traffic Signs in Pakistan | |
CN117593890B (zh) | 一种道路遗撒物体的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |