CN114511715A

CN114511715A - 一种驾驶场景数据挖掘方法

Info

Publication number: CN114511715A
Application number: CN202210009994.8A
Authority: CN
Inventors: 徐倩; 贾楠; 杨鑫
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-05-17

Abstract

本发明涉及一种驾驶场景数据挖掘方法，包括步骤：S10.获取初始模型和待筛选数据池，对待筛选数据池做前向预测；S20.对预测结果进行数据挖掘，得到每个样本对应的价值得分；S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集；S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集，训练得到本轮迭代模型；S50.将价值样本集中剩余价值样本作为迭代待筛选数据池，对迭代待筛选数据池做前向预测；S60.返回步骤S20，直至迭代待筛选数据池中只剩下无价值样本或价值很小样本，得到最终迭代模型以及最终迭代数据集。本发明的数据挖掘过程使用主动学习方式进行模型迭代和数据集扩增，加快了模型迭代速度，在相同数据量下，模型可达更高精度。

Description

一种驾驶场景数据挖掘方法

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种驾驶场景数据挖掘方法。

背景技术

近年来，随着各种统计报表显示大数据时代的到来，数据获取及传输新技术的发展，带来了数据指数级增速，而相关研究表明，数据可以加速模型迭代，模型的量产及落地部署，均依赖于大数据集。

模型对大数据集的依赖，同时带来了对标签的挑战，为了加速模型迭代速度，满足项目的经费及时间预算，对标签的质和量均提出了较高需求，而某些类型的数据及标签获取时间及预算成本高，比如：

(1)数据很难获取的特殊工况场景，如：车祸发生时刻数据；

(2)数据获取成本或传感器成本高，如：雷达点云；

(3)标签获取耗时高，如：全景语义分割。

传统算法基于被动学习来做迭代，每次待标定数据集均是随机采样得到的；相关研究表明，相比于主动学习每次根据数据价值做数据挖掘的方式，传统算法在达到和主动学习相同精度时，需要多使用40％～50％的样本。

而主动学习的核心部分为数据挖掘算法，一些挖掘方法基于特征降维分析，需要侵入模型内部或修改模型的输出接口，对用户不友好，平台复用性不高，而且算法复杂度较高；自动驾驶场景一些基于影子模式的挖掘方法，需要在车端量产部署算法后使用，并且感知层、决策层、控制层整个数据链路都需要打通，无法用于前期算法单独开发，且成本较高，周期较长；另外一些数据挖掘算法针对特定的算法设计，无法以较小成本迁移到其他任务，通用性不高。

发明内容

本发明为克服上述现有技术中模型迭代及数据集的构建采用被动学习方式，对大数据集过分依赖，算法落地困难，超过项目预算的问题，以及需要解决的如何高效使用大数据，减少GPU及CPU消耗，减少存储资源消耗，如何自动化 Hardcase与Badcase挖掘帮助自动化构建回归测试ISSUE集，如何自动挖掘车端数据，实现模型在线训练，如何自动挖掘云端数据，减少数据采集需求，以及如何开发高效而通用的数据挖掘算法的问题，提供一种驾驶场景数据挖掘方法。

为解决上述技术问题，本发明的技术方案如下：

一种驾驶场景数据挖掘方法，包括步骤：

S10.获取初始模型和待筛选数据池，采用初始模型对待筛选数据池做前向预测；

S20.采用数据挖掘算法对预测结果进行数据挖掘，得到每个样本对应的价值得分；

S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集；

S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集，训练得到本轮迭代模型；

S50.将价值样本集中剩余价值样本作为迭代待筛选数据池，采用本轮迭代模型对迭代待筛选数据池做前向预测；

S60.返回步骤S20，直至迭代待筛选数据池中只剩下无价值样本或价值很小样本，得到最终迭代模型以及最终迭代数据集。

进一步的，作为优选技术方案，步骤S10具体包括：

S101.获取原始图像序列，采用图像去重算法对其进行去重得到去重数据集；

S102.从去重数据集中挑选部分样本作为初始数据集，训练得到初始模型；

S103.将去重数据集中剩余样本作为待筛选数据池，采用初始模型对待筛选数据池做前向预测。

进一步的，作为优选技术方案，步骤S101具体包括：

S1011.对原始图像序列中的每张图片样本提取其特征向量；

S1012.根据特征向量计算任意一张图片样本与所有图片样本之间的相似度；

S1013.判断相似度得分是否超过预设阈值，若是，删除相似度超过预设阈值的图片样本，得到去重数据集。

进一步的，作为优选技术方案，所述图像去重算法基于神经网络，步骤S101 具体为：

采用CNN网络对原始数据集中的每张图片样本提取其1024维特征向量。

进一步的，作为优选技术方案，所述相似度的度量指标为两个特征向量之间的归一化内积值；

所述相似度通过以下公式计算：

K(X,Y)＝(X,Y)/(||X||*||Y||)；

其中，K表示相似度得分，X、Y表示1024维特征向量，(X,Y)表示向量内积，||X||、||Y||表示向量模。

进一步的，作为优选技术方案，所述数据挖掘算法基于多模型对比数据挖掘，即，所述数据挖掘算法至少基于计算规模或者模型结构设计不同的第一模型和第二模型，步骤S20具体为：

S201.将预测结果分别输入到第一模型和第二模型，得到相对应的第一检测结果和第二检测结果；

S202.对第一检测结果和第二检测结果中的检测框进行一一匹配，得到第一检测结果和第二检测结果相匹配的指标参数；

S203.根据指标参数得到当前样本对应的价值得分。

进一步的，作为优选技术方案，在步骤S202中，将第一检测结果作为真值，将第二检测结果作为检测值；或者，将第二检测结果作为真值，将第一检测结果作为检测值；

指标参数包括假正例、真正例和假反例；

步骤S202具体为：

采用面积交并比的算法对第一检测结果和第二检测结果中的检测框进行一一匹配，得到第一检测结果和第二检测结果相匹配的假正例、真正例和假反例。

进一步的，作为优选技术方案，在步骤S203具体包括：

S2031.根据第一检测结果和第二检测结果相匹配的假正例、真正例和假反例计算第一检测结果和第二检测结果的精确率和召回率；

S2032.根据第一检测结果和第二检测结果的精确率和召回率计算的得到当前样本对应的价值得分。

进一步的，作为优选技术方案，所述精确率为真正例与真正例和假正例之和的比值；

所述召回率为真正例与真正例和假反例之和的比值；

所述价值得分为精确率和召回率的乘积与1之间的差值。

进一步的，作为优选技术方案，所述数据挖掘算法基于单模型前向数据挖掘，即，所述数据挖掘算法基于第三模型，步骤S20具体为：

S204.将预测结果输入到第三模型中，得到第三检测结果；

S205.获取第三检测结果中的所有检测框的置信度；

S206.判断置信度是否在中间范围，若不在，检测框得分为0，若在，执行下一步骤；

S207.计算检测框的面积，并根据面积计算检测框的得分；

S208.将所有检测框的得分进行累加得到当前样本对应的价值得分。

进一步的，作为优选技术方案，步骤S207具体为：

计算检测框的面积，根据面积配置文件，得到当前检测框的面积类型，根据面积类型的相关配置信息和检测框的面积计算检测框的得分。

进一步的，作为优选技术方案，所述面积类型的相关配置信息包括得分下限，得分上限，面积下限，面积上限，所述检测框的得分通过以下公式计算：

其中，box_soore表示检测框的得分，s₁为得分下限，s₂为得分上限，a₁为面积下限，a₂为面积上限，area为检测框的面积。

与现有技术相比，本发明技术方案的有益效果是：

本发明的数据挖掘过程使用主动学习方式进行模型迭代和数据集扩增，加快了模型迭代速度，在相同数据量下，模型可达更高精度。

附图说明

图1为本发明实施例1步骤流程图。

图2为本发明实施例1图像去重算法步骤流程图。

图3为本发明实施例1去重结果示意图。

图4为本发明实施例2多模型对比数据挖掘算法步骤流程图。

图5为本发明实施例3单模型前向数据挖掘算法步骤流程图。

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的；相同或相似的标号对应相同或相似的部件；附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征更易被本领域技术人员理解，从而对本发明的保护范围作出更为清楚的界定。。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。

此外，若有“第一”、“第二”等术语仅用于描述目的，主要是用于区分不同的装置、元件或组成部分(具体的种类和构造可能相同也可能不同)，并非用于表明或暗示所指示装置、元件或组成部分的相对重要性和数量，而不能理解为指示或者暗示相对重要性。

实施例1

本实施例公开一种驾驶场景数据挖掘方法，其针对自动驾驶前视摄像头场景下的2D目标检测任务，或其他场景或其他任务，其检测结果包括图像序列或者视频，设计了一个基于主动学习的模型迭代及数据集扩增框架，本方法如图1所示，包括步骤：

S10.获取初始模型和待筛选数据池，采用初始模型对待筛选数据池做前向预测。

本步骤具体为：

S101.获取原始图像序列，采用图像去重算法对其进行去重得到去重数据集。

在本步骤中，由于原始图像序列中可能存在冗余信息，比如视频抽帧不够或静止场景带来的冗余数据，需要对其进行去重处理，本步骤中的图像去重算法用于去除原始图像序列中图像信息非常相似的样本，避免冗余样本的存在。

在本步骤中，采用的图像去重算法为基于神经网络的图像去重算法，故此，本步骤参见图2，具体包括：

S1011.对原始图像序列中的每张图片样本提取其特征向量。

本步骤具体为：

采用CNN网络对原始数据集中的每张图片样本提取其1024维特征向量，以作为图片样本的信息表示向量。

S1012.根据特征向量计算任意一张图片样本与所有图片样本之间的相似度。

在本步骤中，相似度的度量指标为两个特征向量之间的归一化内积值，相似度即为归一化内积值，故此相似度通过以下公式计算：

K(X,Y)＝(X,Y)/(||X||*||Y||)；

上述步骤S1012和S1013具体实现过程为：根据特征向量计算任意一张图片样本与所有图片样本之间的相似度，如果相似度得分超过预设阈值，即认为存在信息冗余，删除所有相似度得分超过阈值的图片样本；重复步骤S1012和S1013，直到所有图片样本处理完，得到去重数据集。

在本步骤中，预设阈值设置范围为0.85-0.95，该预设阈值设置为不同值，其得到的去重数据集里面的样本数量不同。

举例说明，参见图3，以38006张图片作为原始图像序列，也就是原始数据集，分别设置不同的相似度预设阈值进行图片去重，实验了4个相似度预设阈值，分别为0.95、0.92、0.9、0.85，分别得到了四个去重数据集，分别包含了24964、 15534、11454、5417张去重图片。

在本实施例中，从项目预算及数据集稀疏性综合考虑，最终选取0.9作为相似度预设阈值，得到11454张去重数据集，送入下一步计算。

在一些实施例中，采用的图像去重算法为基于Hash的去重算法，故，采用基于Hash的去重算法对原始图像序列进行去重得到去重数据集。该基于Hash的去重算法为现有技术，故此，在本实施例中，不对采用基于Hash的去重算法对原始图像序列进行去重的过程进行详细阐述。

S102.从去重数据集中挑选部分样本作为初始数据集，训练得到初始模型。

本步骤具体为：

从去重数据集中随机挑选符合项目预算的数量的图片样本，送给人工标记后，作为初始数据集，训练得到初始模型，也就是初始版本2D目标检测模型。

参见上述举例说明，得到11454张去重数据集，那么，在本步骤中，随机挑选8325张图片样本作为初始数据集，人工标定后进行初始版本模型训练，得到初始模型。

即，采用初始模型对待筛选数据池中的每个样本做前向预测。

S20.采用数据挖掘算法对预测结果进行数据挖掘，得到每个样本对应的价值得分。

即，将每个样本的前向预测结果输入数据挖掘算法中，得到每个样本对应的价值得分。

S30.根据价值得分对待筛选数据池中的价值样本做排序得到价值样本集。

在本步骤中，根据价值得分对待筛选数据池中的价值样本做降序排列得到价值样本集。

S40.从价值样本集中挑选部分价值样本作为本轮迭代新增数据集，训练得到本轮迭代模型。

本步骤具体为：

从价值样本集中按排序依次取出符合项目预算的数量的价值样本作为本轮迭代新增数据集，使用该本轮迭代新增数据集训练得到本轮迭代模型。

参见上述举例说明，随机挑选8325张图片样本作为初始数据集，人工标定后进行初始版本模型训练，得到初始模型，那么，经过本步骤，挖掘出3000张最有价值样本，也就是从价值样本集中挖掘出3000张最有价值样本作为本轮迭代新增数据集。

S50.将价值样本集中剩余价值样本作为迭代待筛选数据池，采用本轮迭代模型对迭代待筛选数据池做前向预测。

即，将上述举例说明中的11454张图片中不存在有价值样本为止，最终产生 4163张最有价值图片，作为最终迭代数据集，与上轮数据集叠加训练模型，得到本轮迭代模型，即最终迭代模型。

本实施例的数据挖掘过程使用主动学习方式进行模型迭代和数据集扩增，加快了模型迭代速度，在相同数据量下，模型可达更高精度。

实施例2

本实施例公开一种驾驶场景数据挖掘方法，其具体公开一种数据挖掘算法，在本实施例中，该数据挖掘算法基于多模型对比数据挖掘，即，该数据挖掘算法至少基于计算规模不同的第一模型和第二模型，比如一个是服务端复杂模型，一个是边缘端简单模型；或者，该数据挖掘算法至少基于具有同等计算量，但模型结构设计不同的第一模型和第二模型，比如一个是基于锚点的模型，一个是无锚点的模型。

在本实施例中，两个模型在算法验证阶段经常出现，因此本实施例的数据挖掘算法在项目迭代前中期会大概率使用。

多模型对比数据挖掘的核心思想是不同模型针对同一样本的检测结果可能存在差异，导致差异的原因是模型能力不同，把存在差异的样本作为高价值样本，让模型间能够互补学习，互相促进。

但存在差异的样本也存在一个优先级的问题，即需要给出价值高低评估得分，即score，根据score挑选出最优样本，在本实施例中，每个样本对应的价值得分的计算，即score的计算，参见图4，通过以下步骤获取：

S201.将预测结果分别输入到第一模型和第二模型中，得到相对应的第一检测结果和第二检测结果。

在本步骤中，将每个样本的前向预测结果分别输入到第一模型和第二模型中，得到当前样本的第一检测结果和第二检测结果。

S202.对第一检测结果和第二检测结果中的检测框进行一一匹配，得到第一检测结果和第二检测结果相匹配的指标参数。

在本步骤中，可以将第一检测结果作为真值，将第二检测结果作为检测值；也可以将第二检测结果作为真值，将第一检测结果作为检测值。

同时，在本步骤中，指标参数包括假正例、真正例和假反例。

故此，本步骤具体为：

采用面积交并比(IOU)的算法对第一检测结果和第二检测结果中的检测框 (box)进行一一匹配，得到第一检测结果和第二检测结果相匹配的假正例(false positives，即fp)、真正例(true positives，即tp)和假反例(false negatives，即fn)。

S203.根据指标参数得到当前样本对应的价值得分(score)。

本步骤具体包括：

S2031.根据第一检测结果和第二检测结果相匹配的假正例(fp)、真正例 (tp)和假反例(fn)计算第一检测结果和第二检测结果的精确率(precision) 和召回率(recall)；

S2032.根据第一检测结果和第二检测结果的精确率(precision)和召回率(recall)计算的得到当前样本对应的价值得分(score)。

在本步骤中，精确率(precision)、召回率(recall)和当前样本对应的价值得分(score)的计算具体为：

精确率(precision)为真正例(tp)与真正例(tp)和假正例(fp)之和的比值，即,

召回率(recall)为真正例(tp)与真正例(tp)和假反例(fn)之和的比值，即，

价值得分(score)为精确率(precision)和召回率(recall)的乘积与1 之间的差，即，score＝1-precision*recall。

通过上述步骤得到每个样本对应的价值得分(score)。

在本步骤中，价值得分(score)范围为[0,1]，可理解为结果差异大小的评估，如果第一检测结果和第二检测结果的差异大，精确率(precision)和召回率(recall)越小，价值得分(score)越大，样本价值越大。

采用本实施例的数据挖掘算法得到每个样本对应的价值得分后，继续执行步骤S30，以得到最终迭代模型以及最终迭代数据集。

实施例3

本实施例公开一种驾驶场景数据挖掘方法，其具体公开一种数据挖掘算法，在本实施例中，该数据挖掘算法基于单模型前向数据挖掘，即，该数据挖掘算法基于第三模型。

在本实施例中，单模型前向数据挖掘的核心思想是检测框(box)的置信度(confidence)反映了模型对于检测结果的信心度。低置信度(confidence)的检测框(box)，可以通过阈值进行后处理过滤掉，不会对结果产生影响，这些检测框(box)无太大价值；高置信度(confidence)的检测框(box)说明模型对于检测框(box)信心很高，几乎都是正确的结果，这些检测框(box)无价值；而中置信度(confidence)的检测框(box)，模型不是很自信，稍微增加一点噪声扰动，就容易给出错误结果，这些检测框(box)是最有价值的。

针对上述分析，本实施例设计了一个基于置信度(confidence)的单模型前向数据挖掘算法，以获取每个样本对应的价值得分，即score，参见图5，包括以下步骤：

S204.将预测结果输入到第三模型中，得到第三检测结果。

S205.获取第三检测结果中的所有检测框(box)的置信度(confidence)。

S206.判断置信度(confidence)是否在中间范围，若不在，检测框(box) 的得分(score)为0，若在，执行下一步骤。

在本步骤中，置信度(confidence)的中间范围设置为[0.4,0.7]，故此，判断检测框(box)的置信度(confidence)是否在[0.4,0.7]范围内，若不在，当前检测框(box)得分(score)为0，若在，执行下一步骤。

S207.计算检测框(box)的面积，并根据面积计算检测框(box)的得分 (score)。

本步骤具体为：

计算检测框(box)的面积，根据面积配置文件，得到当前检测框(box)的面积类型，根据面积类型的相关配置信息和检测框(box)的面积计算检测框(box) 的得分(score)。

在本实施例中，面积配置文件参见下表1：

面积类型	面积值下限	面积值上限	得分下限	得分上限
					′ignore′	0	100	0.0	0.0
′tiny′	100	256	0.0	0.0
					′small′	256	1024	0.0	0.5
′medium′	1024	9216	0.5	1.0
					′large′	9216	1e8	1.0	1.0

表1

面积类型的相关配置信息包括得分下限，得分上限，面积下限，面积上限，故此，检测框(box)的得分(score)通过以下公式计算：

其中，box_score表示检测框的得分，s₁为得分下限，s₂为得分上限，a₁为面积下限，a₂为面积上限，area为检测框的面积。

本步骤具体为：

将当前样本的所有检测框的得分进行累加得到当前样本对应的价值得分(score)。

在本步骤中，价值得分(score)范围为[0，+∞]，价值得分(score)越大，样本价值越大。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种驾驶场景数据挖掘方法，其特征在于，包括步骤：

2.根据权利要求1所述的一种驾驶场景数据挖掘方法，其特征在于，步骤S10具体包括：

3.根据权利要求2所述的一种驾驶场景数据挖掘方法，其特征在于，步骤S101具体包括：

S1011.对原始图像序列中的每张图片样本提取其特征向量；

4.根据权利要求3所述的一种驾驶场景数据挖掘方法，其特征在于，所述图像去重算法基于神经网络，步骤S101具体为：

5.根据权利要求3所述的一种驾驶场景数据挖掘方法，其特征在于，所述相似度的度量指标为两个特征向量之间的归一化内积值；

所述相似度通过以下公式计算：

K(X,Y)＝(X,Y)/(||X||*||Y||)；

6.根据权利要求1所述的一种驾驶场景数据挖掘方法，其特征在于，所述数据挖掘算法基于多模型对比数据挖掘，即，所述数据挖掘算法至少基于计算规模或者模型结构设计不同的第一模型和第二模型，步骤S20具体为：

S203.根据指标参数得到当前样本对应的价值得分。

7.根据权利要求6所述的一种驾驶场景数据挖掘方法，其特征在于，在步骤S202中，将第一检测结果作为真值，将第二检测结果作为检测值；或者，将第二检测结果作为真值，将第一检测结果作为检测值；

指标参数包括假正例、真正例和假反例；

步骤S202具体为：

8.根据权利要求7所述的一种驾驶场景数据挖掘方法，其特征在于，在步骤S203具体包括：

9.根据权利要求8所述的一种驾驶场景数据挖掘方法，其特征在于，

所述精确率为真正例与真正例和假正例之和的比值；

所述召回率为真正例与真正例和假反例之和的比值；

所述价值得分为精确率和召回率的乘积与1之间的差值。

10.根据权利要求1所述的一种驾驶场景数据挖掘方法，其特征在于，所述数据挖掘算法基于单模型前向数据挖掘，即，所述数据挖掘算法基于第三模型，步骤S20具体为：

S204.将预测结果输入到第三模型中，得到第三检测结果；

S205.获取第三检测结果中的所有检测框的置信度；

S207.计算检测框的面积，并根据面积计算检测框的得分；

11.根据权利要求10所述的一种驾驶场景数据挖掘方法，其特征在于，步骤S207具体为：

12.根据权利要求11所述的一种驾驶场景数据挖掘方法，其特征在于，所述面积类型的相关配置信息包括得分下限，得分上限，面积下限，面积上限，所述检测框的得分通过以下公式计算：

其中，bcx_score表示检测框的得分，s₁为得分下限，s₂为得分上限，a₁为面积下限，a₂为面积上限，area为检测框的面积。