CN112949583A

CN112949583A - 复杂城市场景的目标检测方法、系统、设备及存储介质

Info

Publication number: CN112949583A
Application number: CN202110342241.4A
Authority: CN
Inventors: 郑小禄; 诸葛天心; 刘羽中; 胡亮; 仵伟强; 尹昌
Original assignee: Jingke Internet Technology Shandong Co ltd
Current assignee: Jingke Internet Technology Shandong Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-11

Abstract

本发明公开了复杂城市场景的目标检测方法，包括如下步骤，构建目标检测模型、自监督分类器，其中，目标检测模型、自监督分类器共享特征提取器；判断数据集中目标图像是否需要预处理，若否，则输入特征提取器进行特征提取，获得特征向量，并将特征向量输入目标检测模型，预测目标图像标签；若是则对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果。另外，还公开了装置、设备及存储介质，本发明通过共享特征提取器在目标检测任务和自监督任务上的共同训练，实现更优的特征提取功能，可在一定程度上提高目标检测算法的准确率，并广泛适用于复杂城市场景图像的目标检测当中。

Description

复杂城市场景的目标检测方法、系统、设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种复杂城市场景的目标检测方法、检测系统、设备及存储介质。

背景技术

目标的可靠检测是实现自动驾驶的关键要求。由于车辆与许多其他交通参与者共用道路，特别是在城市地区，因此车辆的智能算法中心需要具备识别其他交通参与者或障碍物的能力，以避免可能危及生命的事故。在城市中，由于目标的外观和遮挡的多样性，使得目标的检测比较困难。此外，物体之间的相似性或与背景的相似性以及投射阴影或反射等物理效果会使物体的检测变得困难。

目标检测算法的关键在于学出有效的表征，然而，城市场景中的目标检测，存在着目标类别多，目标样本数量少等问题，阻碍了目标检测算法的准确性。因此，如何利用尽可能少的目标样本，训练模型，以识别尽可能多的类别，成为城市场景中的目标检测的挑战。

自监督学习可以训练模型学出有效的表征。自监督学习是一种无监督算法，只使用图像中的视觉信息，而无需标签即可训练模型学出有效的表征。通过大量无需标注的样本，即可学出多样化的图像表征，从而实现高效的目标检测。然而，如何将自监督学习结合到目标检测方法中，仍然是一个挑战。

总而言之，目前的目标检测系统和算法无法很好地结合自监督学习缓解样本数量不足带来的性能问题，也就限制了其在城市场景中的应用。

发明内容

本发明要解决的技术问题在于，提供一种可有效提高目标检测准确率的复杂城市场景的目标检测方法；另外，还提供一种复杂城市场景的目标检测系统。

本发明解决其技术问题所采用的技术方案是：第一方面，该复杂城市场景的目标检测方法，包括如下步骤，

S10、构建目标检测模型、自监督分类器，其中，目标检测模型、自监督分类器共享特征提取器；

S20、判断数据集中目标图像是否需要预处理，若否则执行步骤S30，若是则执行步骤S40；

S30、输入特征提取器进行特征提取，获得特征向量，并将特征向量输入目标检测模型，预测目标图像标签；

S40、则对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果。

进一步地，所述自监督分类器包括自监督旋转分类器；

所述S40中对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果，包括

对目标图像进行0°、90°、180°或270°的随机旋转，获取旋转后的旋转图像及旋转角度标签；

将旋转图像输入特征提取器，获得特征向量；

将特征向量输入自监督旋转分类器，获得预测角度旋转结果。

进一步地，所述自监督分类器包括自监督位置区域分类器；

所述步骤S40中对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果，包括

对目标图像进行裁切，裁切成四区域图像及区域标签；

将四区域图像输入特征提取器，获得特征向量；

将特征向量输入自监督位置区域分类器，获得预测区域分类结果。

进一步地，目标检测模型及自监督分类器为共同训练，其中，构建所述目标检测模型通过如下步骤：

S100、初始化：随机初始化特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数；

S200、数据采样：从数据集中随机采样图像及标签，按比例采样得到支持集S和查询集Q；

S300、网络训练：对于支持集S内的每个图像x，目标检测模型无需图像预处理，自监督旋转分类和自监督位置区域分类需要图像预处理；包括如下步骤，

S301、图像x通过共享特征提取器F_θ后得到的特征向量为F_θ(x)，特征向量F_θ(x)输入到目标检测模型后，得到的预测结果为：

C(F_θ(x)；S)＝softmax[sim(F_θ(x),W)]

其中，sim(.,.)是一个余弦相似度函数，W是目标检测模型的网络参数，计算得到的结果C是每个类的归一化分类概率值，值最大的类即为预测结果；

目标检测模型的损失函数L_obj为

S302、自监督旋转分类器对给定的图像x进行旋转，得到四个旋转图像 {x^r|r∈{0°,90°,180°,270°}}，其中X^r是图像x旋转r角度得到的；

四个旋转图像x^r输入共享特征提取器F_θ，得到F_θ(x^r)，自监督旋转分类器R_φ预测旋转角度r，其损失函数为：

其中，

是每个类r的归一化分类概率值，值最大的类即为预测结果；

S303、自监督位置区域分类器对给定的图像x进行裁剪，得到四个不同的局部图像

其中，

是图像x在区域0、1、2、3的局部图像；

自监督位置区域分类器P_φ(·，·)预测区域位置，其损失函数为：

其中，

是每个区域p的归一化分类概率值，值最大的类即为预测结果；

S400、更新网络参数：根据目标检测模型、自监督旋转角度分类器及自监督位置区域分类器损失计算总损失：

L＝L_obj+L_rot+L_loc

S500、计算总损失相对目标检测模型参数的梯度，并更新网络参数，其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数，直至网络参数收敛；

S600、预测：将查询集的图像输入收敛后的特征提取器和目标检测模型，得到查询集图像标签。

第二方面，还提供一种复杂城市场景的目标检测系统，包括目标检测模型、自监督分类器、特征提取器及判断单元，其中，目标检测模型、自监督分类器共享特征提取器；

所述判断单元，用于判断数据集中目标图像是否需要预处理；

所述特征提取器用于在输入特征提取器目标图像后进行特征提取，获得特征向量；

所述目标检测模型用于接收输入的特征向量并预测目标图像标签；

所述自监督分类器用于接收输入的特征向量并预测处理结果。

进一步地，所述自监督分类器包括第一预处理单元及自监督旋转分类器；

所述第一预处理单元用于对目标图像进行0°、90°、180°或270°的随机旋转，获取旋转后的旋转图像及旋转角度标签；

所述自监督旋转分类器用于接收特征向量输入，并获得预测角度旋转结果。

进一步地，所述自监督分类器包括第二预处理单元及自监督位置区域分类器；

所述第二预处理单元用于对目标图像进行裁切，裁切成四区域图像及区域标签；

所述自监督位置区域分类器用于接收特征向量输入，获得预测区域分类结果。

进一步地，目标检测模型及自监督分类器为共同训练，构建所述目标检测模型包括：

初始化单元用于随机初始化特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数；

数据采样单元用于从数据集中随机采样图像及标签，按比例采样得到支持集S和查询集Q；

网络训练单元用于对于支持集S内的每个图像x，目标检测模型无需图像预处理，自监督旋转分类和自监督位置区域分类需要图像预处理；包括如下步骤，S301、图像x通过共享特征提取器F_θ后得到的特征向量为F_θ(x)，特征向量F_θ(x)输入到目标检测模型后，得到的预测结果为：

C(F_θ(x)；S)＝softmax[sim(F_θ(x),W)]

目标检测模型的损失函数L_obj为

自监督旋转分类器对给定的图像x进行旋转，得到四个旋转图像 {x^r|r∈{0°,90°,180°,270°}}，其中x^r是图像x旋转r角度得到的；

其中，

是每个类r的归一化分类概率值，值最大的类即为预测结果；

自监督位置区域分类器对给定的图像x进行裁剪，得到四个不同的局部图像

其中，

是图像x在区域0、1、2、3的局部图像；

其中，

更新网络参数用于根据目标检测模型、自监督旋转角度分类器及自监督位置区域分类器损失计算总损失：

L＝L_obj+L_rot+L_loc

梯度计算单元用于计算总损失相对目标检测模型参数的梯度，并更新网络参数，其中包括特征提取器参数、目标检测模型参数、自监督旋转角度分类器参数以及自监督位置区域分类器参数，直至网络参数收敛；

输出单元用于将查询集的图像输入收敛后的特征提取器和目标检测模型，得到查询集图像标签。

第三方面，还提供一种包括

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行上述任一项所述的方法。

第四方面，还提供一种存储有计算机程序的存储介质，该程序被处理器执行时实现上述任一项所述的方法。

本发明通过共享特征提取器在目标检测任务和自监督任务上的共同训练，实现更优的特征提取功能，可在一定程度上提高目标检测算法的准确率，并广泛适用于复杂城市场景图像的目标检测当中。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例的整体流程图；

图2是本发明实施例的目标检测模型的示意图；

图3是本发明实施例的复杂场景效果图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

如图1-2所示，该复杂城市场景的目标检测方法，包括如下步骤，

自监督分类器包括自监督旋转分类器；

S40中对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果，包括

将旋转图像输入特征提取器，获得特征向量；

自监督分类器包括自监督位置区域分类器；

步骤S40中对图片进行预处理，并将输入特征提取器获得的特征向量输入自监督分类器，预测处理结果，包括

对目标图像进行裁切，裁切成四区域图像及区域标签；

将四区域图像输入特征提取器，获得特征向量；

目标检测模型及自监督分类器为共同训练，其中，构建目标检测模型通过如下步骤：

C(F_θ(x)；S)＝softmax[sim(F_θ(x),W)]

目标检测模型的损失函数L_obj为

其中，

是每个类r的归一化分类概率值，值最大的类即为预测结果；

其中，

是图像x在区域0、1、2、3的局部图像；

其中，

L＝L_obj+L_rot+L_loc

判断单元，用于判断数据集中目标图像是否需要预处理；

特征提取器用于在输入特征提取器目标图像后进行特征提取，获得特征向量；

目标检测模型用于接收输入的特征向量并预测目标图像标签；

自监督分类器用于接收输入的特征向量并预测处理结果。

自监督分类器包括第一预处理单元及自监督旋转分类器；

第一预处理单元用于对目标图像进行0°、90°、180°或270°的随机旋转，获取旋转后的旋转图像及旋转角度标签；

自监督旋转分类器用于接收特征向量输入，并获得预测角度旋转结果。

自监督分类器包括第二预处理单元及自监督位置区域分类器；

第二预处理单元用于对目标图像进行裁切，裁切成四区域图像及区域标签；

自监督位置区域分类器用于接收特征向量输入，获得预测区域分类结果。

目标检测模型及自监督分类器为共同训练，构建目标检测模型包括：

C(F_θ(x)；S)＝softmax[sim(F_θ(x),W)]

目标检测模型的损失函数L_obj为

其中，

是每个类r的归一化分类概率值，值最大的类即为预测结果；

其中，

是图像x在区域0、1、2、3的局部图像；

自监督位置区域分类器P^φ(·，·)预测区域位置，其损失函数为：

其中，

L＝L_obj+L_rot+L_loc

第三方面，还提供一种设备，包括

一个或多个处理器；

存储器，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述任一项的方法。

该设备包括处理单元、存储器、总线、外部设备、I/O接口以及网络适配器，该存储器包括随机存取存储器(random access memory，RAM)、高速缓存存储器、只读存储器(Read-Only Memory，ROM)以及至少一片存储单元构成的存储单元阵列。其中该存储器，用于存储处理单元执行的程序或指令；该处理单元，用于根据该存储器存储的程序或指令，执行上述对应的本发明示例性实施方式中的方法；该I/O接口，用于在该处理单元的控制下接收或发送数据。

第四方面，还提供一种存储有计算机程序的存储介质，该程序被处理器执行时实现上述任一项的方法。

如图3所示复杂场景效果图为利用本申请的方法取得的较佳检测效果，利用本申请的方法检测效率、精确度等大大提升，下面申请人将结合具体示例佐证其应用效果。

本次效果验证，本申请人采用了大量的实验，包括视觉数据库目标检测任务，车道目标检测任务，车辆目标检测任务。

视觉数据库目标检测任务及数据集介绍如下：

使用经典的公开数据集ImageNet进行目标检测任务。目标检测任务是给定64个类别作为训练集，16个类别作为验证集，20个类别作为测试集。算法在训练集上训练，并通过验证集的结果评价模型收敛情况，将验证集上测试最优的算法在测试集上评估，以评价不同算法的性能。

城市车道目标检测任务、城市车辆目标检测任务及数据集介绍如下：

使用公开的城市场景数据集Apollo中的城市车道检测数据集和城市车辆检测数据集进行目标检测任务。城市车道和车辆目标检测任务均选取60％的图像作为训练集，20％的图像作为验证集，20％的图像作为测试集。算法在训练集上训练，并通过验证集的结果评价模型收敛情况，将验证集上测试最优的算法在测试集上评估，以评价不同算法的性能。

实验结果：

实施在视觉数据库目标检测任务上的实验如表一所示，实施在城市车道目标检测任务、城市车辆目标检测任务上的实验分别如表二和表三所示，表一、表二和表三说明了本方案的方法和其他基线方法在预测准确率(Accuracy) 方面的性能，其中每种情况下的最高值用黑体突出显示。结果表明，我们所提出的方法(Ours)在所有情况下都达到了最佳性能。更具体地说，没有考虑不同语义层面信息的方法如ResNet18，VGG19等都无法取得最优的性能。

而考虑了不同语义层面信息的本方案的方法，在三个不同的目标检测任务上都取得了最优的性能，尤其是在复杂城市场景的城市车道目标检测任务、城市车辆目标检测任务上取得了最优的性能。这是由于自监督分类器和目标检测器关注的是不同语义层面上的信息，通过损失函数的梯度更新共享特征提取器，提升共享特征提取器的性能，从而提高泛化能力。

表一

表二

表三