CN107679469B

CN107679469B - 一种基于深度学习的非极大值抑制方法

Info

Publication number: CN107679469B
Application number: CN201710863757.7A
Authority: CN
Inventors: 陆生礼; 周世豪; 庞伟; 韩志; 李硕; 沈志源
Original assignee: Southeast University Wuxi Institute Of Integrated Circuit Technology; Southeast University
Current assignee: Southeast University Wuxi Institute Of Integrated Circuit Technology; Southeast University
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2021-03-30
Anticipated expiration: 2037-09-22
Also published as: CN107679469A

Abstract

本发明公开了一种基于深度学习的非极大值抑制方法，针对深度学习目标检测算法预测窗口的特点，定义了一种新的置信度指数。提出了改进的窗口筛选准则和依据置信度指数对窗口参数进行加权平均的方法。相比于传统方法有着更高的定位精度，更高的召回率以及更佳的鲁棒性。本方法首先找到每个目标对应的置信度最高的窗口为主窗口，然后在每个窗口附近找到置信度大于阈值且与主窗口的交叠率大于阈值的一批窗口作为子窗口。根据子窗口的位置参数和置信度调整主窗口的位置参数，得到新的窗口。多种情况下的实验表明，在相同的目标检测算法下，本方法得到的窗口更接近于真实窗口。

Description

一种基于深度学习的非极大值抑制方法

技术领域

本发明涉及图像处理领域，尤其涉及一种基于深度学习的非极大值抑制方法。

背景技术

传统的目标检测方法多数基于滑动窗口和人工提取的特征描述子来表征待测目标。这些方法依赖于手动设置的物体浅层特征，对光照和遮挡鲁棒性差，也很难解决物体的尺度问题。深度学习的目标检测技术通过反复的卷积操作将整张图片处理成一组特征向量，可以提取物体的深层特征，兼顾各个尺度下的物体。因此，深度学习框架产生的预测框通常能够很好地拟合物体的整体。每个置信度较高的框都包含了丰富的位置信息。

非极大值抑制是目标检测领域的一个应用广泛的技术，其本质是搜索局部最大值，抑制非极大值元素。在目标检测任务中，因为待测目标提供了丰富的位置和特征信息，所以在同一个待测目标，尤其是特征明显的待测目标附近通常会产生大量预测框。因此要用非极大值抑制消除物体多余的检测框，找到最佳的目标位置。目前通用的目标检测库以预测窗口和实际窗口的交叠率超过0.5作为成功检测的标准，对定位精度要求并不严格。所以在深度学习算法中，通常采用基于经验阈值和贪心策略的方法，在超出阈值的预测框中找到局部最大值作为表征目标的窗口。这种方法完全忽略了置信度非常接近局部最大值的预测框所提供的信息，因此存在定位不精确的问题。此外，还有对预测窗口取交集或取并集的方法，这些方法同样导致了检测框过小或过大。在现在的计算机视觉应用中，检测任务往往与目标识别，自然语言处理等任务相关联。目标边界框的准确程度直接影响到后续处理的效果。在此场景下，与实际窗口交叠率超过0.5的指标不再满足要求。传统的非极大值抑制方法对检测信息利用不充分的缺点显现出来。

发明内容

发明目的：为了克服现有技术存在的不足，本发明提供一种利用局部最大值和部分局部次大值的非极大值抑制方法。在维持深度学习框架不变的情况下，利用局部次大值提供的位置信息，提高检测框的精度。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于深度学习的非极大值抑制方法，包括如下步骤：

步骤一：设置预测窗口交叠阈值δ₁＝0.5和窗口置信度阈值δ₂。

步骤二：删除置信度低于δ₂的窗口。将高于阈值δ₂的所有窗口按置信度从大到小排列，组成集合U。从集合U中第一个窗口开始，把所有与该窗口的重合比率大于δ₁的窗口作为该窗口的子窗口，并从集合中移除已经被检测过的窗口。重复操作直到集合U为空集。使每个待测目标都对应着一组预测窗口，其中置信度最高的作为主窗口，其他作为子窗口。

步骤三：设主窗口置信度为conf₀，位置参数为(x₀，y₀，w₀，h₀)；设子窗口个数为n，每个子窗口的置信度conf_i，位置参数为(x_i，y_i，w_i，h_i)。其中x，y代表窗口中心点坐标，w，h分别代表窗口的宽度和长度。其中1≤i≤n，i是自然数。

步骤四：考察正在处理的深度学习模型是否曾对置信度参数进行过非线性处理。即通过非线性函数把置信度归一化到(0,1)之间。如果是，执行步骤五；如果未做处理或使用线性方法归一化，执行步骤六。

步骤五：将conf₀和conf_i带入该非线性函数的反函数，计算并更新置信度参数。将置信度参数还原为原始输出。一般地，对于以softmaxloss作为损失函数的单一类别目标检测模型，其变换函数为

步骤六：计算每个子窗口置信度与主窗口置信度的比例系数k_i＝conf_i/conf₀，其中1≤i≤n，i是自然数。

步骤七：依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数，将主窗口的边框向子窗口边框位置适当调整。按照以下公式计算(x₀′，y₀′，w₀′，h₀′)：

计算完毕删除原始窗口，用新计算得到的位置参数作为该待测目标的预测框。

步骤八：重复步骤四至步骤七直到所有的待测目标均已被检测。

优选的，步骤一所述的窗口置信度阈值δ₂至少满足下列一个条件：

条件一：使原始窗口的检测率与召回率之比大于2；

条件二：使原始窗口的检测率大于90％。

优选的，步骤七所述的边框调整幅度和置信度比例成正相关。

有益效果：

本发明在基于深度学习的目标检测系统基础上，在目标检测后续的处理过程中，提出了一种新的非极大值抑制方法。通过分析预测框和实际物体边界框之间的关系，发现除了置信度最高的预测框外，其他预测框也可以提供位置信息。通过置信度去归一化和窗口加权平均，在不增加深度学习网络复杂程度的情况下，提高了预测框与实际框的交叠率，使检测框的定位更加精确。自适应能力强，对参数设置要求不高。本方法对多种检测任务(如人脸检测，行人检测和多目标检测等)均能达到较好的效果；对RCNN，SSD等常用目标检测算法具有普遍适用性。

附图说明：

附图1是本方法实现流程；

附图2是未经过非极大值抑制的原始边框；

附图3是数据集中人工标注的实际物体边框；

附图4是传统非极大值抑制方法效果；

附图5是本方法的实现效果。

具体实施方式：

本实施方式的基于深度学习的非极大值抑制方法，下面结合附图进一步说明：

步骤一：设置预测窗口交叠阈值δ₁＝0.5和窗口置信度阈值δ₂。δ₂的选取原则为，此阈值只需要过滤掉置信度过低的明显误检窗口，不必设置过高，以便保留部分窗口用于调整位置。δ₂的设置应根据任务需求(如检测率，召回率)和模型性能等综合考虑。示例性地，本方法设δ₂为0.2。

步骤二：删除置信度低于δ₂的窗口。将高于阈值的所有窗口按置信度从大到小排列，组成集合U。从集合中第一个窗口开始，把所有与该窗口的重合比率大于δ₁的窗口作为该窗口的子窗口，并从集合中移除已经被检测过的窗口。从集合中被删除的窗口即对应第一个待测目标。之后选取U中剩余元素中置信度最高的一个，重复上述操作，每次操作都会产生与一个待测目标相对应的窗口集合。直到集合U为空集。这时每个待测目标都对应着一组预测窗口，其中置信度最高的作为主窗口，其他作为子窗口。

步骤三：每组预测窗口中，设主窗口置信度为conf₀，位置参数为(x₀，y₀，w₀，h₀)；设子窗口个数为n，每个子窗口的置信度conf_i，位置参数为(x_i，y_i，w_i，h_i)。其中x，y代表窗口中心点坐标，w，h分别代表窗口的宽度和长度。其中1≤i≤n，i是自然数。如附图2，未经处理的位置参数生成一系列交叠的矩形框。每个框上都和实际边框有较大的重合。可以看出1、一般重合度和置信度成正相关；2、置信度最大的预测框和实际框相比仍然有一定偏差；3、有些置信度稍低的框反倒更精确。

步骤四：考察正在处理的深度学习模型是否曾对置信度参数进行过非线性处理。即通过非线性函数把置信度归一化到(0,1)之间。如果是，执行步骤五；如果未做处理或使用线性方法归一化，执行步骤六。模型直接输出的置信度范围是(-∞,+∞)，为方便比较和运算，通常会采用归一化手段将置信度归一化。这种归一化使置信度失真，破坏了原始的数值关系。所以要去归一化。

步骤七：依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数，将主窗口的边框向子窗口边框位置适当调整。这里可以看作多个窗口共同生成新的预测框。置信度越大，说明提供的位置相对更准确。按照以下公式计算(x₀′，y₀′，w₀′，h₀′)：

下面详细说明本发明实验结果：

1.选用的深度学习模型为基于卷积神经网络的tiny-yolo模型。在这个模型下分别训练了INRIA行人检测库和FDDB人脸数据库。两个数据库均是国际通用的单一类别目标检测库，每张图片都有人工标注的目标边界。标注方式为，按照检测标准，由数人单独标注后取平均值。以FDDB数据库为例，选取2000张图片作为训练库，其余图片作为测试库。把测试图片在tiny-yolo模型上迭代40000次，得到人脸检测模型。在测试集中随机抽取一张图片用该网络检测。置信度阈值设为0.2。得到附图2中结果。用传统方法处理附图2中结果得到附图4所示边界框。用本方法处理附图2中结果得到附图5所示边界框。与图3对比，本方法更加精确。

2.在测试集中抽取100张图片，用传统方法和本方法进行非极大值抑制。分别计算两种情况下与人工标注的边界框的交叠率。多次抽取求平均值。在成功检测的窗口中，平均交叠率提高约6％。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的非极大值抑制方法，其特征在于：所述非极大值抑制方法包括如下步骤：

步骤一：处理图片得到边界框，设置预测窗口交叠率阈值δ₁＝0.5和窗口置信度阈值δ₂；

步骤二：删除置信度低于δ₂的窗口；将高于阈值δ₂的所有窗口组成集合U；从集合U中选择置信度最高的一个窗口作为待测目标，把集合U中其他与该窗口的交叠率大于δ₁的窗口作为该窗口的子窗口，产生与该待测目标相对应的一组预测窗口，并从集合U中移除该窗口；重复上述操作直到集合U为空集，使每个待测目标都对应着一组预测窗口，每组预测窗口中置信度最高的作为主窗口，其他作为子窗口；

步骤三：设主窗口置信度为conf₀，位置参数为(x₀，y₀，w₀，h₀)；设子窗口个数为n，每个子窗口的置信度conf_i，位置参数为(x_i，y_i，w_i，h_i)；其中x，y代表窗口中心点坐标，w，h分别代表窗口的宽度和长度；其中1≤i≤n，i是自然数；

步骤四：考察正在处理的深度学习模型是否曾通过非线性函数把置信度归一化到(0，1)之间；如果是，执行步骤五；如果未使用线性方法归一化，执行步骤六；

步骤五：将conf₀和conf_i带入步骤四所述非线性函数的反函数，计算并更新置信度；将置信度还原为原始输出；

步骤六：计算每组预测窗口中每个子窗口置信度与主窗口置信度的比例系数k_i＝conf_i/conf₀，其中1≤i≤n，i是自然数；

步骤七：依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数，将主窗口和子窗口的位置参数按置信度加权平均，得到新的边界框的位置参数(x₀′，y₀′，w₀′，h₀′)；计算公式如下：

计算完毕后删除原始主窗口和对应的子窗口，用步骤七中得到的位置参数作为该待测目标的预测窗口；

2.根据权利要求1所述的方法，其特征在于：步骤一所述的窗口置信度阈值δ₂至少满足下列一个条件：

条件一：使原始窗口的检测率与召回率之比大于2；

条件二：使原始窗口的检测率大于90％。