CN107679469B - 一种基于深度学习的非极大值抑制方法 - Google Patents
一种基于深度学习的非极大值抑制方法 Download PDFInfo
- Publication number
- CN107679469B CN107679469B CN201710863757.7A CN201710863757A CN107679469B CN 107679469 B CN107679469 B CN 107679469B CN 201710863757 A CN201710863757 A CN 201710863757A CN 107679469 B CN107679469 B CN 107679469B
- Authority
- CN
- China
- Prior art keywords
- window
- confidence
- windows
- sub
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的非极大值抑制方法,针对深度学习目标检测算法预测窗口的特点,定义了一种新的置信度指数。提出了改进的窗口筛选准则和依据置信度指数对窗口参数进行加权平均的方法。相比于传统方法有着更高的定位精度,更高的召回率以及更佳的鲁棒性。本方法首先找到每个目标对应的置信度最高的窗口为主窗口,然后在每个窗口附近找到置信度大于阈值且与主窗口的交叠率大于阈值的一批窗口作为子窗口。根据子窗口的位置参数和置信度调整主窗口的位置参数,得到新的窗口。多种情况下的实验表明,在相同的目标检测算法下,本方法得到的窗口更接近于真实窗口。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种基于深度学习的非极大值抑制方法。
背景技术
传统的目标检测方法多数基于滑动窗口和人工提取的特征描述子来表征待测目标。这些方法依赖于手动设置的物体浅层特征,对光照和遮挡鲁棒性差,也很难解决物体的尺度问题。深度学习的目标检测技术通过反复的卷积操作将整张图片处理成一组特征向量,可以提取物体的深层特征,兼顾各个尺度下的物体。因此,深度学习框架产生的预测框通常能够很好地拟合物体的整体。每个置信度较高的框都包含了丰富的位置信息。
非极大值抑制是目标检测领域的一个应用广泛的技术,其本质是搜索局部最大值,抑制非极大值元素。在目标检测任务中,因为待测目标提供了丰富的位置和特征信息,所以在同一个待测目标,尤其是特征明显的待测目标附近通常会产生大量预测框。因此要用非极大值抑制消除物体多余的检测框,找到最佳的目标位置。目前通用的目标检测库以预测窗口和实际窗口的交叠率超过0.5作为成功检测的标准,对定位精度要求并不严格。所以在深度学习算法中,通常采用基于经验阈值和贪心策略的方法,在超出阈值的预测框中找到局部最大值作为表征目标的窗口。这种方法完全忽略了置信度非常接近局部最大值的预测框所提供的信息,因此存在定位不精确的问题。此外,还有对预测窗口取交集或取并集的方法,这些方法同样导致了检测框过小或过大。在现在的计算机视觉应用中,检测任务往往与目标识别,自然语言处理等任务相关联。目标边界框的准确程度直接影响到后续处理的效果。在此场景下,与实际窗口交叠率超过0.5的指标不再满足要求。传统的非极大值抑制方法对检测信息利用不充分的缺点显现出来。
发明内容
发明目的:为了克服现有技术存在的不足,本发明提供一种利用局部最大值和部分局部次大值的非极大值抑制方法。在维持深度学习框架不变的情况下,利用局部次大值提供的位置信息,提高检测框的精度。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于深度学习的非极大值抑制方法,包括如下步骤:
步骤一:设置预测窗口交叠阈值δ1=0.5和窗口置信度阈值δ2。
步骤二:删除置信度低于δ2的窗口。将高于阈值δ2的所有窗口按置信度从大到小排列,组成集合U。从集合U中第一个窗口开始,把所有与该窗口的重合比率大于δ1的窗口作为该窗口的子窗口,并从集合中移除已经被检测过的窗口。重复操作直到集合U为空集。使每个待测目标都对应着一组预测窗口,其中置信度最高的作为主窗口,其他作为子窗口。
步骤三:设主窗口置信度为conf0,位置参数为(x0,y0,w0,h0);设子窗口个数为n,每个子窗口的置信度confi,位置参数为(xi,yi,wi,hi)。其中x,y代表窗口中心点坐标,w,h分别代表窗口的宽度和长度。其中1≤i≤n,i是自然数。
步骤四:考察正在处理的深度学习模型是否曾对置信度参数进行过非线性处理。即通过非线性函数把置信度归一化到(0,1)之间。如果是,执行步骤五;如果未做处理或使用线性方法归一化,执行步骤六。
步骤六:计算每个子窗口置信度与主窗口置信度的比例系数ki=confi/conf0,其中1≤i≤n,i是自然数。
步骤七:依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数,将主窗口的边框向子窗口边框位置适当调整。按照以下公式计算(x0′,y0′,w0′,h0′):
计算完毕删除原始窗口,用新计算得到的位置参数作为该待测目标的预测框。
步骤八:重复步骤四至步骤七直到所有的待测目标均已被检测。
优选的,步骤一所述的窗口置信度阈值δ2至少满足下列一个条件:
条件一:使原始窗口的检测率与召回率之比大于2;
条件二:使原始窗口的检测率大于90%。
优选的,步骤七所述的边框调整幅度和置信度比例成正相关。
有益效果:
本发明在基于深度学习的目标检测系统基础上,在目标检测后续的处理过程中,提出了一种新的非极大值抑制方法。通过分析预测框和实际物体边界框之间的关系,发现除了置信度最高的预测框外,其他预测框也可以提供位置信息。通过置信度去归一化和窗口加权平均,在不增加深度学习网络复杂程度的情况下,提高了预测框与实际框的交叠率,使检测框的定位更加精确。自适应能力强,对参数设置要求不高。本方法对多种检测任务(如人脸检测,行人检测和多目标检测等)均能达到较好的效果;对RCNN,SSD等常用目标检测算法具有普遍适用性。
附图说明:
附图1是本方法实现流程;
附图2是未经过非极大值抑制的原始边框;
附图3是数据集中人工标注的实际物体边框;
附图4是传统非极大值抑制方法效果;
附图5是本方法的实现效果。
具体实施方式:
本实施方式的基于深度学习的非极大值抑制方法,下面结合附图进一步说明:
步骤一:设置预测窗口交叠阈值δ1=0.5和窗口置信度阈值δ2。δ2的选取原则为,此阈值只需要过滤掉置信度过低的明显误检窗口,不必设置过高,以便保留部分窗口用于调整位置。δ2的设置应根据任务需求(如检测率,召回率)和模型性能等综合考虑。示例性地,本方法设δ2为0.2。
步骤二:删除置信度低于δ2的窗口。将高于阈值的所有窗口按置信度从大到小排列,组成集合U。从集合中第一个窗口开始,把所有与该窗口的重合比率大于δ1的窗口作为该窗口的子窗口,并从集合中移除已经被检测过的窗口。从集合中被删除的窗口即对应第一个待测目标。之后选取U中剩余元素中置信度最高的一个,重复上述操作,每次操作都会产生与一个待测目标相对应的窗口集合。直到集合U为空集。这时每个待测目标都对应着一组预测窗口,其中置信度最高的作为主窗口,其他作为子窗口。
步骤三:每组预测窗口中,设主窗口置信度为conf0,位置参数为(x0,y0,w0,h0);设子窗口个数为n,每个子窗口的置信度confi,位置参数为(xi,yi,wi,hi)。其中x,y代表窗口中心点坐标,w,h分别代表窗口的宽度和长度。其中1≤i≤n,i是自然数。如附图2,未经处理的位置参数生成一系列交叠的矩形框。每个框上都和实际边框有较大的重合。可以看出1、一般重合度和置信度成正相关;2、置信度最大的预测框和实际框相比仍然有一定偏差;3、有些置信度稍低的框反倒更精确。
步骤四:考察正在处理的深度学习模型是否曾对置信度参数进行过非线性处理。即通过非线性函数把置信度归一化到(0,1)之间。如果是,执行步骤五;如果未做处理或使用线性方法归一化,执行步骤六。模型直接输出的置信度范围是(-∞,+∞),为方便比较和运算,通常会采用归一化手段将置信度归一化。这种归一化使置信度失真,破坏了原始的数值关系。所以要去归一化。
步骤六:计算每个子窗口置信度与主窗口置信度的比例系数ki=confi/conf0,其中1≤i≤n,i是自然数。
步骤七:依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数,将主窗口的边框向子窗口边框位置适当调整。这里可以看作多个窗口共同生成新的预测框。置信度越大,说明提供的位置相对更准确。按照以下公式计算(x0′,y0′,w0′,h0′):
计算完毕删除原始窗口,用新计算得到的位置参数作为该待测目标的预测框。
步骤八:重复步骤四至步骤七直到所有的待测目标均已被检测。
下面详细说明本发明实验结果:
1.选用的深度学习模型为基于卷积神经网络的tiny-yolo模型。在这个模型下分别训练了INRIA行人检测库和FDDB人脸数据库。两个数据库均是国际通用的单一类别目标检测库,每张图片都有人工标注的目标边界。标注方式为,按照检测标准,由数人单独标注后取平均值。以FDDB数据库为例,选取2000张图片作为训练库,其余图片作为测试库。把测试图片在tiny-yolo模型上迭代40000次,得到人脸检测模型。在测试集中随机抽取一张图片用该网络检测。置信度阈值设为0.2。得到附图2中结果。用传统方法处理附图2中结果得到附图4所示边界框。用本方法处理附图2中结果得到附图5所示边界框。与图3对比,本方法更加精确。
2.在测试集中抽取100张图片,用传统方法和本方法进行非极大值抑制。分别计算两种情况下与人工标注的边界框的交叠率。多次抽取求平均值。在成功检测的窗口中,平均交叠率提高约6%。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于深度学习的非极大值抑制方法,其特征在于:所述非极大值抑制方法包括如下步骤:
步骤一:处理图片得到边界框,设置预测窗口交叠率阈值δ1=0.5和窗口置信度阈值δ2;
步骤二:删除置信度低于δ2的窗口;将高于阈值δ2的所有窗口组成集合U;从集合U中选择置信度最高的一个窗口作为待测目标,把集合U中其他与该窗口的交叠率大于δ1的窗口作为该窗口的子窗口,产生与该待测目标相对应的一组预测窗口,并从集合U中移除该窗口;重复上述操作直到集合U为空集,使每个待测目标都对应着一组预测窗口,每组预测窗口中置信度最高的作为主窗口,其他作为子窗口;
步骤三:设主窗口置信度为conf0,位置参数为(x0,y0,w0,h0);设子窗口个数为n,每个子窗口的置信度confi,位置参数为(xi,yi,wi,hi);其中x,y代表窗口中心点坐标,w,h分别代表窗口的宽度和长度;其中1≤i≤n,i是自然数;
步骤四:考察正在处理的深度学习模型是否曾通过非线性函数把置信度归一化到(0,1)之间;如果是,执行步骤五;如果未使用线性方法归一化,执行步骤六;
步骤五:将conf0和confi带入步骤四所述非线性函数的反函数,计算并更新置信度;将置信度还原为原始输出;
步骤六:计算每组预测窗口中每个子窗口置信度与主窗口置信度的比例系数ki=confi/conf0,其中1≤i≤n,i是自然数;
步骤七:依据步骤三中的子窗口位置参数和步骤六中的置信度比例系数,将主窗口和子窗口的位置参数按置信度加权平均,得到新的边界框的位置参数(x0′,y0′,w0′,h0′);计算公式如下:
计算完毕后删除原始主窗口和对应的子窗口,用步骤七中得到的位置参数作为该待测目标的预测窗口;
步骤八:重复步骤四至步骤七直到所有的待测目标均已被检测。
2.根据权利要求1所述的方法,其特征在于:步骤一所述的窗口置信度阈值δ2至少满足下列一个条件:
条件一:使原始窗口的检测率与召回率之比大于2;
条件二:使原始窗口的检测率大于90%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710863757.7A CN107679469B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的非极大值抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710863757.7A CN107679469B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的非极大值抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679469A CN107679469A (zh) | 2018-02-09 |
CN107679469B true CN107679469B (zh) | 2021-03-30 |
Family
ID=61137876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710863757.7A Active CN107679469B (zh) | 2017-09-22 | 2017-09-22 | 一种基于深度学习的非极大值抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679469B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166106B (zh) * | 2018-08-02 | 2021-07-30 | 山东大学 | 一种基于滑动窗口的目标检测位置矫正方法和装置 |
CN110826572B (zh) * | 2018-08-09 | 2023-04-21 | 京东方科技集团股份有限公司 | 多目标检测的非极大值抑制方法、装置及设备 |
CN109948480A (zh) * | 2019-03-05 | 2019-06-28 | 中国电子科技集团公司第二十八研究所 | 一种针对任意四边形的非极大值抑制方法 |
CN111178267A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种用于监测非法捕鱼的视频行为识别方法 |
CN111967595B (zh) * | 2020-08-17 | 2023-06-06 | 成都数之联科技股份有限公司 | 候选框标注方法及系统及模型训练方法及目标检测方法 |
CN112215163B (zh) * | 2020-10-13 | 2021-05-25 | 北京中电兴发科技有限公司 | 一种应用于人脸检测预测框的加权后处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165369B1 (en) * | 2013-03-14 | 2015-10-20 | Hrl Laboratories, Llc | Multi-object detection and recognition using exclusive non-maximum suppression (eNMS) and classification in cluttered scenes |
CN105528595A (zh) * | 2016-02-01 | 2016-04-27 | 成都通甲优博科技有限责任公司 | 在无人机航拍图像中对输电线路绝缘子的识别定位方法 |
CN106056101A (zh) * | 2016-06-29 | 2016-10-26 | 哈尔滨理工大学 | 用于人脸检测的非极大值抑制方法 |
CN107092884A (zh) * | 2017-04-20 | 2017-08-25 | 宋佳颖 | 一种快速粗精级联行人检测方法 |
CN107122735A (zh) * | 2017-04-26 | 2017-09-01 | 中山大学 | 一种基于深度学习和条件随机场的多目标跟踪方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
-
2017
- 2017-09-22 CN CN201710863757.7A patent/CN107679469B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165369B1 (en) * | 2013-03-14 | 2015-10-20 | Hrl Laboratories, Llc | Multi-object detection and recognition using exclusive non-maximum suppression (eNMS) and classification in cluttered scenes |
CN105528595A (zh) * | 2016-02-01 | 2016-04-27 | 成都通甲优博科技有限责任公司 | 在无人机航拍图像中对输电线路绝缘子的识别定位方法 |
CN106056101A (zh) * | 2016-06-29 | 2016-10-26 | 哈尔滨理工大学 | 用于人脸检测的非极大值抑制方法 |
CN107092884A (zh) * | 2017-04-20 | 2017-08-25 | 宋佳颖 | 一种快速粗精级联行人检测方法 |
CN107169421A (zh) * | 2017-04-20 | 2017-09-15 | 华南理工大学 | 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法 |
CN107122735A (zh) * | 2017-04-26 | 2017-09-01 | 中山大学 | 一种基于深度学习和条件随机场的多目标跟踪方法 |
Non-Patent Citations (3)
Title |
---|
Rich feature hierarchies for accurate object detection and semantic segmentation;Ross Girshick 等;《IEEE》;20140925;全文 * |
Structural Models for Face Detection;Junjie Yan 等;《IEEE》;20130715;全文 * |
深度学习在目标视觉检测中的应用进展与展望;张慧 等;《自动化学报》;20170831;第43卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107679469A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679469B (zh) | 一种基于深度学习的非极大值抑制方法 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
KR102641115B1 (ko) | 객체 검출을 위한 영상 처리 방법 및 장치 | |
CN110363047B (zh) | 人脸识别的方法、装置、电子设备和存储介质 | |
US9996939B2 (en) | Large-range-first cross-camera visual target re-identification method | |
US9070041B2 (en) | Image processing apparatus and image processing method with calculation of variance for composited partial features | |
US20150347820A1 (en) | Learning Deep Face Representation | |
CN107992807B (zh) | 一种基于cnn模型的人脸识别方法及装置 | |
CN109190544B (zh) | 一种基于序列深度图像的人体身份识别方法 | |
CN109360179B (zh) | 一种图像融合方法、装置及可读存储介质 | |
US10726561B2 (en) | Method, device and system for determining whether pixel positions in an image frame belong to a background or a foreground | |
JP2008542911A (ja) | メトリック埋め込みによる画像比較 | |
CN111241928B (zh) | 人脸识别底库优化方法、系统、设备、可读存储介质 | |
KR20180109658A (ko) | 영상 처리 방법과 장치 | |
CN108010044B (zh) | 一种视频边界检测的方法 | |
CN115861715B (zh) | 基于知识表示增强的图像目标关系识别算法 | |
CN105760865A (zh) | 一种能够提高比对正确率的人脸图像识别方法 | |
CN110321778B (zh) | 一种人脸图像处理方法、装置和存储介质 | |
CN110827327B (zh) | 一种基于融合的长期目标跟踪方法 | |
CN117115117B (zh) | 基于小样本下的病理图像识别方法、电子设备及存储介质 | |
WO2016192213A1 (zh) | 一种图像特征提取方法和装置、存储介质 | |
CN110766708B (zh) | 基于轮廓相似度的图像比较方法 | |
CN110363799B (zh) | 人机共存环境下基于视觉的多运动人体目标跟踪方法 | |
CN105279761B (zh) | 一种基于样本局部密度离群点检测的背景建模方法 | |
CN110751671B (zh) | 一种基于核相关滤波与运动估计的目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |