CN113191332A

CN113191332A - 一种基于深度学习置信度估计的目标检测方法及装置

Info

Publication number: CN113191332A
Application number: CN202110585031.8A
Authority: CN
Inventors: 李松; 刘近平; 张婷婷; 黄琛; 冯俊达
Original assignee: Anyang Institute of Technology
Current assignee: Anyang Institute of Technology
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-07-30
Anticipated expiration: 2041-05-27
Also published as: CN113191332B

Abstract

本发明提出了一种基于深度学习置信度估计的目标检测方法及装置，通过保留目标检测模型中特征提取层的函数，提取第一训练集中样本特征；对特征进行归一化并输入高斯分类器中对特征进行分类，获得每个特征的条件概率；估计分类类别的后验概率从而确定置信度，本发明通过产生式模型给出置信度估计，避免出现置信度估计错误导致检测结果出现虚警。基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合作为识别行人目标的置信度，对待检测图像进行分类。本发明通过整体和部件检测结果共存关系给出检测置信度的描述，进一步提高置信度估计的准确性和合理性，从而提高目标检测的准确性。

Description

一种基于深度学习置信度估计的目标检测方法及装置

技术领域

本发明属于目标检测技术领域，具体涉及一种基于深度学习置信度估计的目标检测方法及装置。

背景技术

在自动驾驶过程中常常需要规避目标，例如行人以及车辆，对于目标的检测对于自动驾驶至关重要，目标检测的准确程度决定了自动驾驶的自动驾驶决策。

现有技术常用的目标检测方案是基于深度学习方法建立检测网络，使用样本训练检测网络，使得检测网络学习样本特征，并输出后验概率作为置信度。将置信度输入到决策系统中，从而得到相应的自动驾驶决策。

深度学习检测的后验概率直接作为置信度存在以下三个问题：(1)目标检测中由于目标的大小不同，因此检测网络中对于同一类目标的检测实际是在不同尺度的特征层上进行的，没有高效的利用同类目标的特征进行学习；(2)检测网络训练时其训练的损失函数往往是召回率和精确度的函数，与置信度关系不够密切；检测网络对于没有学习过的样本，其输出的后验概率不能够精确的体现检测检测结果的可靠程度，出现较大的检测错误，比如检测结果出现虚警，但后验概率很高接近于1；(3)当目标是行人时，会出现部分人体的样本以及整个人体样本，这些样本的检测结果现有技术的检测结果互相独立，而往往同一人的部分样本与整体样本的检测结果之间可以相互印证。因此现有技术检测目标的准确性不高，导致做出的自动驾驶决策并不一定适宜当前驾驶环境。

发明内容

本发明提供了一种基于深度学习置信度估计的目标检测方法及装置，以提高目标检测的准确性。具体的技术方案如下。

第一方面，本发明提供的一种基于深度学习置信度估计的目标检测方法包括：

获取待检测图像及第一训练集；

使用训练完成后的目标检测模型对所述待检测图像进行检测，获得检测结果；

其中，所述检测结果包括行人目标或者行人部件矩形框以及对应的后验概率；第一训练集中包括标注样本以及未标准样本，所述标注样本以矩形框表示目标的位置，以标签表示目标的类别，所述目标包括行人部件或者行人整体；

对所述检测结果进行归一化处理，得到归一化后的检测结果；

去除目标检测模型中输出层的分类函数保留所述目标检测模型中特征提取层的函数；

使用所述去除输出层分类函数的目标检测模型提取所述第一训练集中样本特征；

对所述特征进行归一化并输入高斯分类器中，以使所述高斯分类器对所述特征进行分类，获得每个特征的条件概率；

基于条件概率，估计分类类别的后验概率；

基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；

将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。

可选的，所述训练完成后的目标检测模型的训练过程包括：

获取第二训练集；

所述第二训练集中包括：各个部件图像以及整体人体图像；

使用所述第一训练集迭代训练预设目标检测模型，得到训练完成后的目标检测模型。

可选的，所述去除目标检测模型中输出层的分类函数保留所述目标检测模型中特征提取层的函数包括：

将目标检测模型中的分类网络的分类函数去除，保留特征提取网络。

可选的，所述条件概率为：

其中，x是d维特征空间中来自ω_i类别的特征向量，N(μ_i,Σ_i)表示均值为μ_i，协方差为Σ_i的高斯分布，T表示转置。

可选的，所述基于所述条件概率，估计分类类别的后验概率包括：

将所述条件概率与所述分类模型的先验概率的乘积，确定为分类类别的后验概率；

估计后验概率中的调整量；

其中，所述后验概率表示为：p(ω_i|x)＝p(ω_i)p(x|ω_i)，p(ωi)是先验概率。

可选的，所述后验概率为：

其中，α_i和β_i为调整量，y_j为目标检测模型的的检测结果，样本j识别正确则为1，识别错误则为0。

可选的，所述估计后验概率中的调整量包括：

通过最小化损失函数估计调整量；

所述损失函数为：

可选的，所述融合后的置信度为：

其中，r_i为第i个部件的矩形框的面积，r₀为完整行人的矩形框面积，p₀为高斯分类器估计得到的完整行人检测结果置信度，p_i为高斯分类器估计得到的第i个完整行人检测结果置信度。

可选的，在所述基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合之前，所述目标检测方法包括：

将所述后验概率进行归一化；

所述归一化后的后验概率表示为：

第二方面，本发明提供的一种基于深度学习置信度估计的目标检测装置，包括：

获取模块，用于获取待检测图像及第一训练集；

检测模块，用于使用训练完成后的目标检测模型对所述待检测图像进行检测，获得检测结果；

归一化模块，用于对所述检测结果进行归一化处理，得到归一化后的检测结果；

去除模块，用于去除目标检测模型中输出层的分类函数保留所述目标检测模型中特征提取层的函数；

提取模块，用于使用所述去除输出层分类函数的目标检测模型提取所述第一训练集中样本特征；

第一分类模块，用于对所述特征进行归一化并输入高斯分类器中，以使所述高斯分类器对所述特征进行分类，获得每个特征的条件概率；

估计模块，用于基于条件概率，估计分类类别的后验概率；

融合模块，用于基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；

第二分类模块，用于将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。

本发明实施例的创新点包括：

1、本发明提出了一种基于深度学习置信度估计的目标检测方法及装置，通过去除目标检测模型中输出层的分类函数保留所述目标检测模型中特征提取层的函数；使用所述去除输出层分类函数的目标检测模型提取所述第一训练集中样本特征；对所述特征进行归一化并输入高斯分类器中，以使高斯分类器对所述特征进行分类，获得每个特征的条件概率；基于条件概率，估计分类类别的后验概率从而确定置信度，本发明通过产生式模型给出置信度估计，避免出现因为检测结果置信度估计错误导致检测结果出现虚警，进而可以提高目标检测的准确性。

2、本发明提出了一种基于深度学习置信度估计的目标检测方法及装置，基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。本发明通过整体和部件检测结果共存关系给出检测置信度的描述，进一步提高置信度估计的准确性和合理性，从而提高目标检测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习置信度估计的目标检测方法的流程示意图；

图2为本发明实施例提供的目标检测、特征提取以及置信度融合的过程示意图；

图3为本发明实施例提供的一种基于深度学习置信度估计的目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

图1为本发明实施例提供的一种基于深度学习置信度估计的目标检测方法。该方法具体包括以下步骤。

S1，获取待检测图像以及第一训练集；

其中，待检测图像可以通过监控摄像头获得，也可以从具备拍摄功能的手机、摄像机等电子设备上得到。

其中，第一训练集中包括标注样本以及未标准样本，标注样本以矩形框表示目标的位置，以标签表示目标的类别，目标包括行人部件或者行人整体；

S2，使用训练完成后的目标检测模型对待检测图像进行检测，获得检测结果；

其中，检测结果包括行人目标或者行人部件矩形框以及对应的后验概率；

可以理解，目标检测模型可以只进行完整的行人检测，也可以在行人检测基础上，进行部分人体的检测，比如头部检测，头肩检测，上半身检测，下肢检测等。对于输入图像检测结果为目标的外接矩形框和对应的后验概率。该目标为行人。

S3，对检测结果进行归一化处理，得到归一化后的检测结果；

可以理解，直接训练获得的目标检测模型其训练样本尺度方差较大，因此其模型输出的后验概率的置信度描述也会受尺度的影响，需要将目标检测模型中的检测结果归一化后训练模型，以提取样本特征，用于产生式模型的计算，从而计算置信度。

其中，第一训练集的标定答案是以矩形框表示目标的位置，以label表示目标的类别。本步骤根据标定将矩形框内的图像归一化到固定大小，并存储为单一的图像样本。

S4，去除目标检测模型中输出层的分类函数保留目标检测模型中特征提取层的函数；

本步骤中，可以将目标检测模型中的分类网络的分类函数去除，保留特征提取网络。

S5，使用去除输出层分类函数的目标检测模型提取第一训练集中样本特征；

产生式模型得到置信度中目标检测模型的损失函数loss采用softmax，参考图2，模型涉及的类别包含完整行人，行人部件1，行人部件n，以及非行人部件类别，总计n+2个类别。去掉softmax的分类函数，只保留目标检测模型的特征提取部分，作为特征提取器。用特征提取器对n+2类样本提取特征x，归一化后作为二维高斯分类器的特征输入。

S6，对特征进行归一化并输入高斯分类器中，以使高斯分类器对特征进行分类，获得每个特征的条件概率；

设x是d维特征空间中来自ω_i类的特征向量，根据大数定律假定其分布服从均值为μ_i，协方差为Σ_i的高斯分布N(μ_i,Σ_i)，条件概率为：

S7，基于条件概率，估计分类类别的后验概率；

各类别后验概率p(ω_i|x)可由先验概率p(ω_i)和条件概率p(x|ω_i)的乘积得到，即后验概率表示为：p(ω_i|x)＝p(ω_i)p(x|ω_i)，表示为：

其中，p(ω_i)为各个类别的先验概率，一般假设各类别先验概率相同为1/(n+2)，因此，对待识样本x的判别准则即可表示为条件概率的最大值，：

假定{x₁,x₂,…,x_Ni}是ω_i类的N_i个训练样本，那么p(x|ω_i)的计算，只需要对μ_i和Σ_i的极大似然估计分别为：

由于实际计算均值和协方差矩阵的样本数往往无法达到足够多的程度，因此估计得到的参数会估计误差；另外因为不同的分类系统中，类别之间的相似性不同，因此先验概率的估计需要根据分类系统本身进行自适应调整。

S8，基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；

作为本发明一种可选的实施方式，基于条件概率，估计分类类别的后验概率包括：

步骤一：将条件概率与分类模型的先验概率的乘积，确定为分类类别的后验概率；

步骤二：估计后验概率中的调整量。

其中，p(ω_i)p(x|ω_i)融合变形后，后验概率可以表示为：

其中，α_i和β_i为调整量。该调整量通过训练样本进行估计，参数估计的loss函数如下：

y_j为识别结果标志，样本j识别正确则为1，识别错误则为0。通过最小化loss估计得到参数α_i和β_i。

本发明中对估计得到的后验概率p(ω_i|x)归一化后，作为置信度使用。

根据高斯分布性质，当待识别样本离类别中心越近时，其后验概率越大，置信度也就越大，越可靠；离类别中心越远，也即离其它类别较近时，后验概率越小，置信度也越小。因此通过高斯分布对置信度进行描述是一种产生式模型的描述，相比基于样本驱动的鉴别式描述方式，当训练样本无法达到足够多时，能够通过产生式模型的概率分布结构来约束置信度的估计，达到有效规避“错的离谱”的现象。

参考图2，检测的类别包含完整行人，行人部件1，行人部件n，以及非行人部件类别，总计n+2个类别。在进行特征提取之后，可以估计每一个检测结果的后验概率，归一化后得到置信度，而同一行人的部件和整体之间时共存关系，进行融合可以提高置信度估计的准确性和合理性。

根据融合度计算公式可以计算，融合后的置信度为：

S9，将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。

其中，可以使用高斯分类器作为识别行人目标的模型，当然也可以采用其他识别模型进行识别，置信度决定识别出的行人目标的可信度。

本发明提出了一种基于深度学习置信度估计的目标检测方法，通过去除目标检测模型中输出层的分类函数保留目标检测模型中特征提取层的函数；使用去除输出层分类函数的目标检测模型提取第二训练集中样本特征；对特征进行归一化并输入高斯分类器中，以使二维高斯分类器对特征进行分类，获得每个特征的条件概率；基于条件概率，估计分类类别的后验概率从而确定置信度，本发明通过产生式模型给出置信度估计，避免出现因为检测结果置信度估计错误导致检测结果出现虚警。基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。本发明通过整体和部件检测结果共存关系给出检测置信度的描述，进一步提高置信度估计的准确性和合理性，从而提高目标检测的准确性。

作为本发明一种可选的实施方式，训练完成后的目标检测模型的训练过程包括：

步骤一：获取第二训练集；

其中，第二训练集中包括：各个部件图像以及整体人体图像；

步骤二：使用第一训练集迭代训练预设目标检测模型，得到训练完成后的目标检测模型。

如图3所示，本发明提供的一种基于深度学习置信度估计的目标检测装置包括：

获取模块31，用于获取待检测图像及第一训练集；

检测模块32，用于使用训练完成后的目标检测模型对待检测图像进行检测，获得检测结果；

归一化模块33，用于对检测结果进行归一化处理，得到归一化后的检测结果；

去除模块34，用于去除目标检测模型中输出层的分类函数保留目标检测模型中特征提取层的函数；

提取模块35，用于使用去除输出层分类函数的目标检测模型提取第一训练集中样本特征；

第一分类模块36，用于对特征进行归一化并输入高斯分类器中，以使高斯分类器对特征进行分类，获得每个特征的条件概率；

估计模块37，用于基于条件概率，估计分类类别的后验概率；

融合模块38，用于基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；

第二分类模块39，用于将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。

本发明提出了一种基于深度学习置信度估计的目标检测装置，通过去除目标检测模型中输出层的分类函数保留目标检测模型中特征提取层的函数；使用去除输出层分类函数的目标检测模型提取第二训练集中样本特征；对特征进行归一化并输入高斯分类器中，以使二维高斯分类器对特征进行分类，获得每个特征的条件概率；基于条件概率，估计分类类别的后验概率从而确定置信度，本发明通过产生式模型给出置信度估计，避免出现因为检测结果置信度估计错误导致检测结果出现虚警。基于同一目标不同部件图像以及整体人体图像对应关系，将估计到的同一目标的部件特征以及整体特征的后验概率进行融合；将融合后的后验概率确定为识别行人目标的置信度对待检测图像进行分类，选择输出置信度最高分类结果。本发明通过整体和部件检测结果共存关系给出检测置信度的描述，进一步提高置信度估计的准确性和合理性，从而提高目标检测的准确性。

上述装置实施例与方法实施例相对应，与该方法实施例具有同样的技术效果，具体说明参见方法实施例。装置实施例是基于方法实施例得到的，具体的说明可以参见方法实施例部分，此处不再赘述。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解：实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。