CN113850219A

CN113850219A - 一种数据收集方法、装置、交通工具及存储介质

Info

Publication number: CN113850219A
Application number: CN202111166444.9A
Authority: CN
Inventors: 乐然; 韩旭
Original assignee: Guangzhou Weride Technology Co Ltd
Current assignee: Guangzhou Weride Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2021-12-28
Anticipated expiration: 2041-09-30
Also published as: CN113850219B

Abstract

本发明公开了一种数据收集方法、装置、交通工具及存储介质，方法包括：获得第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数；对第一识别结果和第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得第二预设网络模型；基于第二预设网络模型对第二图像进行处理，输出第二识别结果和第二不确定度参数；当第二不确定度参数大于不确定度参数阈值，收集第二图像数据。通过本发明实施例，通过对神经网络模型增加不确定性输出，模型可以对自己预测的不确定性进行估计，并在不确定性高于阈值时自动收集数据。将收集到的数据标注后加入训练集后可以提高系统对罕见长尾环境的处理能力。

Description

一种数据收集方法、装置、交通工具及存储介质

技术领域

本发明涉及交通工具技术领域，尤其涉及一种数据收集方法、装置、交通工具及存储介质。

背景技术

无人驾驶的视觉感知算法需要使用大量标注的图像数据对神经网络算法进行训练，该过程中需要重点关注并收集长尾数据。长尾数据不仅包括罕见道路环境，比如施工区域及有坑洞/锥筒的路面，也包括无人驾驶车辆表现较差的环境，比如夜晚和雨天。现有的解决方案一般是在发现系统表现异常时人工记录采集相关数据来进行标注以训练。但长尾数据数量较少，人工采集或筛选工作量大且效率低下，而且存在漏采或错采的情况。

发明内容

本发明的主要目的在于提供一种数据收集方法、装置、交通工具及存储介质，旨在解决现有技术中通过人工收集长尾数据工作效率低且存在漏采或错采的问题。

为实现上述目的，本发明提供了一种数据采集方法，所述数据采集方法包括以下步骤：

获取第一图像和第一预设网络模型，所述第一预设网络模型包括第一处理模型和第二处理模型；

基于所述第一处理模型，提取所述第一图像的第一图像特征；通过所述第二处理模型对所述第一图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，所述第一不确定度参数用于指示所述第一识别结果的不确定程度；

对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型；

获取第二图像，基于所述第二预设网络模型对所述第二图像进行处理，输出第二识别结果和第二不确定度参数；

收集所述第二不确定度参数大于不确定度参数阈值的第二图像数据。

可选地，所述通过所述第二处理模型对所述图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，包括以下步骤：

将所述第一图像特征输入第二处理模型，提取不同尺度下的不同层特征；

修改第二处理模型的最后一层卷积的参数，使所述第二处理模型输出的图像特征的图像通道增加，以使每个像素的种类预测结果与不确定度参数相对应；

将所述不同层特征进行上采样并使用卷积融合，叠加后得到第二图像特征；所述第二图像特征包括每个像素的语义分割分类预测结果、每个像素的分类预测结果对应的不确定度参数。

可选地，所述对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型，包括以下步骤：

以所述第一不确定度参数为方差，以所述第一识别结果为均值，对所述第一不确定度参数和所述第一识别结果进行N次正态分布采样，其中，N大于等于1；采样后得到N个相互独立的第二识别结果；

将所述N个相互独立的第二识别结果与对应的所述第一识别结果计算损失函数并叠加，得到第三识别结果；所述第三识别结果用于网络模型训练的梯度反向传播。

可选地，所述不确定度参数阈值，通过以下步骤进行设置：

获取第三图像，基于所述第二预设网络模型对所述第三图像进行处理，输出第三识别结果和第三不确定度参数；

对所述第三不确定度参数的前两个维度值进行池化，生成对应所述第三图片的不确定度参数的标量预测值；

使用所述标量预测值与所述第三图片的标注进行比对，获取满足条件的标量预测值作为所述不确定度参数阈值。

可选地，所述方法还包括以下步骤：

将收集的所述第二图像进行标注，然后加入训练数据集，作为所述第一图像输入所述第一预设网络模型进行训练。

可选地，所述第二预设网络模型对所述第二图像进行处理时，直接输出所述第二识别结果和所述第二不确定度参数。

此外，为实现上述目的，本发明还提出一种数据收集装置，所述数据收集装置包括：

模型获取单元，用于获取第一图像和第一预设网络模型，所述第一预设网络模型包括第一处理模型和第二处理模型；

模型训练单元，用于基于所述第一处理模型，提取所述第一图像的第一图像特征；通过所述第二处理模型对所述第一图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，所述第一不确定度参数用于指示所述第一识别结果的不确定程度；

参数拟合单元，用于对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型；

模型处理单元，用于获取第二图像，基于所述第二预设网络模型对所述第二图像进行处理，输出第二识别结果和第二不确定度参数；

数据采集单元，用于收集所述第二不确定度参数大于不确定度参数阈值的第二图像数据。

此外，为实现上述目的，本发明还提出一种交通工具，所述交通工具包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据收集程序，所述数据收集程序配置为实现如上文所述数据收集方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上文所述的数据收集方法的步骤。

本发明对神经网络模型增加不确定性输出，模型可以对自己预测的不确定性进行估计，并在不确定性高于阈值时自动收集数据；将收集到的数据标注后加入训练集后可以提高系统对罕见长尾环境的处理能力。

附图说明

图1为本发明提供的一种数据收集方法的一个流程示意图。

图2为本发明提供的数据收集后进行标注的一个流程示意图。

图3为本发明提供的不确定度参数输出的一个流程示意图。

图4为本发明提供的不确定度参数拟合的一个流程示意图。

图5为本发明提供的设置不确定度参数阈值的一个流程示意图。

图6为本发明数据收集装置实施例的结构框图。

图7是本发明实施例方案涉及的硬件运行环境的交通工具结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

在一个实施例中，如图1所示，本发明提供一种数据收集方法，所述方法包括：

步骤101、获取第一图像和第一预设网络模型，所述第一预设网络模型包括第一处理模型和第二处理模型。

第一图像是指用于训练图像处理模型的图像。本申请实施例中采用有监督的模型训练方式，所以样本图像具有标注，用于标注样本图像的真实识别结果。在本申请实施例中，样本图像的识别结果包括分类结果和分割结果中的至少一种。相应地，标注包括分类标注和分割标注中的至少一种。其中，分类标注用于标注样本图像的真实类型，分割标注用于标注样本图像中的真实区域分布情况。

接下来，分别对第一图像和第一预设网络模型进行进一步介绍：

1、第一图像

第一图像可以从训练图像集中获取。训练图像集中包括多张用于训练第一预设网络模型的图像。训练图像集中的图像可以为来自不同设备或者机构图像，以提高模型的泛化能力。本申请实施例中的样本图像为一次迭代训练过程中的样本图像，一次迭代训练过程中的样本图像的数量可以根据经验设置，本申请实施例对此不加以限定。也就是说，样本图像的数量可以为一张或多张。

训练图像集中的图像与图像处理模型的应用场景有关，不同应用场景需要不同的训练图像集。示例性地，当图像处理模型的应用场景为无人驾驶，通过图像语义分割用于识别车道、车辆、人和其他感兴趣的对象。识别结果用于正确地引导车辆行驶。需要获取车辆行驶过程中拍摄的图片、激光雷达的点云图像等，然后通过人工标注，生成相应的训练图像集。

在一种可能实现方式中，获取样本图像可以是指从训练图像集中随机提取参考数量的图像作为样本图像。示例性地，在获取样本图像后，可以将样本图像进行缩放，使其具有统一的长宽尺寸，以便于进行模型训练。例如，将样本图像进行缩放，使其长宽尺寸统一为512×512(像素)等。需要说明的是，对于第一标注包括分割标注的情况，需要对分割标注缩放至与样本图像同样的长宽尺寸。此外，在另外一种可能实现方式中，可以在构建训练图像集时，使得训练图像集中的图像具有统一的长宽尺寸，而在获取样本图像时，无需再进行缩放。

在一种可能实现方式中，在得到统一长宽尺寸的样本图像后，还可以将样本图像进行随机加强处理，以提高模型的泛化能力。模型的泛化能力是指模型对新鲜样本的适应能力，泛化能力越强，模型对新鲜样本的适应能力越强。在一种可能实现方式中，随机加强处理包括标准化、随机旋转、随机水平翻转、随机弹性形变、添加噪声等的一种或多种处理。

其中，标准化的处理可以是将每张样本图像减去图像均值，然后再除以图像方差。随机旋转的角度范围可以是-30°～+30°。添加的噪声可以是斑点噪声等。

2、第一预设网络模型

第一预设网络模型中的第一处理模型可以是能够提取图像特征的各种类型的网络模型，本申请实施例对第一处理模型的结构以及提取出的图像特征不加以限定。例如，第一处理模型可以是指U-Net(U-Network，U-网络)模型、PSPNet(Pyramid SceneParsingNetwork，金字塔场景解析网络)模型、DenseNet(Dense Convolutional Network，密度卷积网络)模型、ResNet(Residual Network，残差网络)模型或MobileNet(MobileNetwork)(移动网络)模型等。第一处理模型本身可以具有初始参数，初始参数可以为在ImageNet数据集上预训练得到的参数。在第一次迭代训练过程中，在初始参数的基础上对第一处理模型进行训练。

第一预设网络模型中的第二处理模型用于对第一图像进行识别、语义分割处理。在对第一预设网络模型进行训练之前，可以对第二处理模型的参数进行初始化。例如，采用方差为0.01，均值为0的高斯分布对第二处理模型的参数进行初始化。再例如，采用方差为0.001，均值为0的高斯分布对第二处理模型的参数进行初始化等。不同的模型参数可以采用相同的方式进行初始化，也可以采用不同的方式进行初始化，本申请实施例对此不加以限定。第二处理模型的结构和参数类型可以根据需求灵活设置，本申请实施例对此不加以限定。在设置好结构和参数类型，并且对参数进行初始化后，获取到第二处理模型。

步骤102、基于所述第一处理模型，提取所述第一图像的第一图像特征；通过所述第二处理模型对所述第一图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，所述第一不确定度参数用于指示所述第一识别结果的不确定程度。

第一处理模型用于对第一图像进行特征提取。将第一图像输入第一处理模型后，第一处理模型提取样本图像的特征，然后输出第一图像的图像特征。不同的第一处理模型提取的图像特征可能不同，本申请实施例对此不加以限定。

需要说明的是，对于第一图像的数量为多张的情况，将多张第一图像输入第一处理模型，第一处理模型可以输出每张第一图像的图像特征。也就是说，基于第一处理模型，可以提取每张第一图像的图像特征。

获取第一图像的图像特征后，使用第二处理模型对该图像特征进行处理，获得对应的第一图像的图像语义分割结果及该语义分割结果对应的不确定度参数。不确定度参数用于指示语义分割结果的不确定程度。通过如图3所示流程实现以上功能。

步骤201、将所述第一图像特征输入第二处理模型，提取不同尺度下的不同层特征。

将图像特征输入基于ResNet的网络主干，经过多层卷积及下采样，提取不同尺度下的特征，其中浅层特征拥有丰富边缘细节但语义特征较弱，深层特征语义较强但细节较弱。

步骤202、修改第二处理模型的最后一层卷积的参数，使所述第二处理模型输出的图像特征的图像通道增加，以使每个像素的种类预测结果与不确定度参数相对应。

修改最后一层卷积的参数，对网络输出C_out增加一个通道prob_out至C_out+1维度，以使每个像素的种类预测结果都有对应的不确定度参数输出值。将prob_out与C_out进行分离，后续对它们分别进行处理。

步骤203、将所述不同层特征进行上采样并使用卷积融合，叠加后得到第二图像特征；所述第二图像特征包括每个像素的语义分割分类预测结果、每个像素的分类预测结果对应的不确定度参数。

使用特征金字塔网络模型，将不同层特征进行上采样并使用卷积融合，叠加后得到最终的输出特征图W_out*H_out*C_out，其中C_out为对应于每个像素的语义分割分类预测结果，prob_out为每个像素的种类预测结果对应的不确定度参数输出值。

步骤103、对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型。

对语义分割结果、不确定参数进行正态分布拟合及训练，通过如图4所示流程实现。

步骤301、以所述第一不确定度参数为方差，以所述第一识别结果为均值，对所述第一不确定度参数和所述第一识别结果进行N次正态分布采样，其中，N大于等于1；采样后得到N个相互独立的第二识别结果。

在模型训练时，以不确定度参数输出prob_out为方差，语义分割预测输出C_out为均值，进行多次正态分布采样：

采样后得到N个相互独立的模型预测输出，叠加后得到输出维度为N*W_out*H_out*C_out。这里prob_out越大，代表模型对预测结果的置信度更弱，在上述采样时对均值偏离程度越大。

此处多次正态分布采样仅用于训练，因此不会影响后续在线部署时的推理速度。

步骤302、将所述N个相互独立的第二识别结果与对应的所述第一识别结果计算损失函数并叠加，得到第三识别结果；所述第三识别结果用于网络模型训练的梯度反向传播。

将所有的采样结果分别与真值计算损失函数并叠加，用于模型训练的梯度反向传播。

求和后的模型输出恢复为W_out*H_out*C_out维度，因此对后续的回归计算不造成影响。使用交叉熵等常用损失计算方法对叠加后的输出进行计算。由于对数函数的非线性特征，以C_out为均值取正态分布后的输出：

因此模型会自适应地学到最优的方差值，用作输出不确定性的评估。

这里的损失函数可以有不同的定义形式，采样分布及采样率N也可根据样本分布规律自行定义。

步骤104、获取第二图像，基于所述第二预设网络模型对所述第二图像进行处理，输出第二识别结果和第二不确定度参数。

在无人驾驶车辆上部署带有不确定性输出的第二预设网络模型，对无人驾驶车辆采集图像数据、点云数据进行处理，获得对应的图像语义分割结果及该语义分割结果对应的不确定度参数。不确定度参数用于指示语义分割结果的不确定程度。

步骤105、收集所述第二不确定度参数大于不确定度参数阈值的第二图像数据。

在无人驾驶车辆上部署带有不确定性输出的第二预设网络模型，当不确定性高于阈值时进行标记并触发数据收集。

设置第二预设网络模型中触发发收集数据的不确定度参数阈值，当不确定度参数大于该阈值时，收集第二预设网络模型正在处理的图像数据。通过如图5所示流程实现。

步骤401、获取第三图像，基于所述第二预设网络模型对所述第三图像进行处理，输出第三识别结果和第三不确定度参数。

训练完成后，获得拥有不确定性输出的第二预设网络模型。在模型预测时无需采样，直接取所有像素的预测输出C_out以及不确定度参数输出值prob_out。

步骤402、对所述第三不确定度参数的前两个维度值进行池化，生成对应所述第三图片的不确定度参数的标量预测值。

将prob_out(维度为W_out*H_out*1)的前两个维度求均值，降维成对应图片的不确定性标量预测值。这里不需要进行采样，因此对模型延迟几乎无影响。这里的降维方式可以为其他算法，比如最大池化。

步骤403、使用所述标量预测值与所述第三图片的标注进行比对，获取满足条件的标量预测值作为所述不确定度参数阈值。

在测试数据集上使用模型做预测并将不同不确定性输出区间的模型预测表现对比，比如收集所有不确定性高于0.5/0.8/0.9/0.95/0.99的图片，将预测结果与标注作对比，找到感兴趣的数据收集阈值，即不确定性输出大于阈值的图片大多为长尾数据或有标注价值。此处如果阈值较低，会收集较多数据，但可能掺杂低价值数据。如果阈值较高，会精确收集较少的高价值数据，但可能出现部分遗漏。

在一个实施例中，图2提供了图1实施例触发数据收集后，对收集的数据进行处理的流程。

步骤106、将收集的所述第二图像进行标注，然后加入训练数据集，作为所述第一图像输入所述第一预设网络模型进行训练。

第二预设网络模型在处理图像数据时，得到的不确定度参数大于不确定度参数阈值，即表示该图像数据不确定性较高，需要进行收集和标注。获取该图像数据后，对该图像进行标注，然后作为第二预设网络模型的训练集数据，从而不断优化第二预设网络模型。

本发明将收集到的数据标注后加入训练集后可以提高系统对罕见长尾环境的处理能力。

此外，本发明实施例还提出一种数据收集装置，参照图6，所述数据收集装置包括：

模型获取单元10，用于获取第一图像和第一预设网络模型，所述第一预设网络模型包括第一处理模型和第二处理模型；

模型训练单元20，用于基于所述第一处理模型，提取所述第一图像的第一图像特征；通过所述第二处理模型对所述第一图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，所述第一不确定度参数用于指示所述第一识别结果的不确定程度；

参数拟合单元30，用于对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型；

模型处理单元40，用于获取第二图像，基于所述第二预设网络模型对所述第二图像进行处理，输出第二识别结果和第二不确定度参数；

数据采集单元50，用于收集所述第二不确定度参数大于不确定度参数阈值的第二图像数据。

需要说明的是，上述装置中的各单元可用于实现上述方法中的各个步骤，同时达到相应的技术效果，本实施例在此不再赘述。

参照图7，图7为本发明实施例方案涉及的硬件运行环境的交通工具的结构示意图。

如图7所示，该交通工具可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI、4G、5G接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图7中示出的结构并不构成对交通工具的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据收集程序。

在图7所示的交通工具中，网络接口1004主要用于与外部网络进行数据通信；用户接口1003主要用于接收用户的输入指令；交通工具通过处理器1001调用存储器1005中存储的数据收集程序，并执行以下操作：

可选地，所述不确定度参数阈值，通过以下步骤进行设置：

可选地，所述方法还包括以下步骤：

此外，本发明实施例还提出一种计算机可读存储介质，计算机可读存储介质上存储有数据收集程序，数据收集程序被处理器执行时实现如下操作：

可选地，所述不确定度参数阈值，通过以下步骤进行设置：

可选地，所述方法还包括以下步骤：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，控制器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据收集方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述方法，其特征在于，所述通过所述第二处理模型对所述图像特征进行识别处理，获得所述第一图像的第一识别结果和所述第一识别结果对应的第一不确定度参数，包括以下步骤：

3.根据权利要求2所述方法，其特征在于，所述对所述第一识别结果和所述第一不确定度参数拟合，并加入损失函数进行网络模型训练，获得具有不确定度参数输出的第二预设网络模型，包括以下步骤：

4.根据权利要求1所述方法，其特征在于，所述不确定度参数阈值，通过以下步骤进行设置：

5.根据权利要求1所述方法，其特征在于，所述方法还包括以下步骤：

6.根据权利要求3所述方法，其特征在于，所述第二预设网络模型对所述第二图像进行处理时，直接输出所述第二识别结果和所述第二不确定度参数。

7.一种数据收集装置，其特征在于，所述数据收集装置包括：

8.一种交通工具，其特征在于，所述交通工具包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据收集程序，所述数据收集程序配置为实现根据权利要求1至6中任一项所述数据收集方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据收集方法的步骤。