CN114972710A

CN114972710A - 一种在图像中实现多形状目标检测的方法及系统

Info

Publication number: CN114972710A
Application number: CN202210890449.4A
Authority: CN
Inventors: 龙涛; 杨恒; 阮仕海; 赵月月
Original assignee: Shenzhen Aimo Technology Co ltd
Current assignee: Shenzhen Aimo Technology Co ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-08-30
Anticipated expiration: 2042-07-27
Also published as: CN114972710B

Abstract

本发明公开了一种在图像中实现多形状目标检测的方法及系统，涉及目标检测技术领域，解决了现有非极大值抑制方法存在的耗时长、效率低的技术问题。本发明包括如下步骤：S10、确定第一阈值、第二阈值；S20、将待目标检测的图片输入目标检测模型，得到模型输出的候选框集合；S30、为每个候选框建立最小外接正矩形，存入候选框集合中；S40、通过第一阈值、第二阈值以及候选框对应的最小外接正矩形对候选框进行去重，得到去重后的候选框。本发明通过建立多边形候选框的最小外接正矩形来对候选框进行去重，排除了大量重叠程度不高的候选框，避免了许多冗余的计算，耗时小、效率高。

Description

一种在图像中实现多形状目标检测的方法及系统

技术领域

本发明涉及目标检测技术领域，尤其涉及一种在图像中实现多形状目标检测的方法及系统。

背景技术

在目标检测中，需要对图像中的目标进行分割与识别，如香烟陈列图像中对不同目标对象香烟的识别，不同现实场景中对人体的识别等，使用深度学习进行目标检测是图像识别中至关重要的步骤。目标检测通常在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，而且目标框会出现倾斜等不标准的情况，此时我们需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。

一般的非极大值抑制方法都是针对边界框为正矩形进行设计的，核心操作是通过计算任意两两边界框之间的IoU（Intersection over Union，即两个边界框的交集部分除以它们的并集），将重合程度超过一定阈值的边界框进行去除。由于计算正矩形IoU十分简单，所有整个处理过程耗时较短（毫秒级别），但是应用到多边形的时候，由于计算多边形IoU复杂度是正矩形IoU的上千倍，因而会导致整体耗时明显增多，超出可接受的范围（秒级别）。

一般的非极大值抑制方法流程为：

(1) 将所有边界框按照置信度进行降序排列。

(2) 选择置信度最高的边界框添加到最终输出列表中，将其从边界框列表中删除。

(3) 逐个计算置信度最高的边界框与其它边界框的IoU，删除IoU大于阈值的边界框。

重复上述步骤，直至边界框列表为空。

上述方法计算耗时主要集中在步骤(3)，因此，本发明针对多边形非极大值抑制提出了一种高效的处理方法。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种在图像中实现多形状目标检测的方法及系统。

本发明解决其技术问题所采用的技术方案是：根据本发明的一方面，提供一种在图像中实现多形状目标检测的方法，其特征在于，包括以下步骤：

S10、确定第一阈值、第二阈值；

S20、将待目标检测的图片输入目标检测模型，得到模型输出的候选框集合；所述候选框集合中的所有候选框为多边形；

S30、为每个所述候选框构建最小外接正矩形，存入所述候选框集合中；

S40、通过所述第一阈值、第二阈值以及所述候选框对应的所述最小外接正矩形对所述候选框进行去重，得到去重后的候选框；对去重后的所述候选框进行输出。

进一步地，步骤S10中，所述第一阈值U1的计算公式为：

U1=Ratio×Threshold；

其中，Threshold为指定的多边形的IOU值，Ratio为筛选比例；

所述第二阈值U2计算公式为：

U2=Threshold。

进一步地，所述筛选比例Ratio的确定步骤如下：

S100、准备目标场景的测试数据集合，初始化一个空集合Ratio_list以及预期准确率d；

S101、使用所述目标检测模型对所述测试数据集中的图片进行推理，得到模型输出的多边形框集合；

S102、对所述多边形框集合中每一个多边形框建立最小外接正矩形；

S103、分别计算两两所述多边形框的IOU值Iou1以及两两所述多边形框对应的两个最小外接正矩形的IOU值Iou2；

S104、依次判断Iou1是否为零；每次Iou1不为零时，计算Iou1/ Iou2的比值，并将计算的Iou1/ Iou2的比值放入所述空集合Ratio_list中；

S105、统计所述空集合Ratio_list的元素个数m，将所述空集合Ratio_list的元素进行降序排列；从排列后的所述空集合Ratio_list由前往后数，第n位对应的Iou1/ Iou2的比值即为Ratio。

进一步地，n的计算公式为：

n=round（m×d）；

其中，round为四舍五入函数，d的取值范围为0-1。

进一步地，步骤S40包括如下步骤：

S400、初始化一个空列表keep；所述空列表keep用于保存去除重复框后的所述候选框；

S401、从所述候选框集合中选择置信度最高的所述候选框作为当前框，将其移入所述空列表；

S402、依次计算剩余所述候选框的最小外接正矩形与所述当前框的最小外接正矩形的IOU值Iou3；

S403、Iou3是否大于或等于所述第一阈值；如是，执行步骤S404；否则，执行步骤S407；

S404、计算大于或等于第一阈值对应的所述候选框与所述当前框的IOU值Iou4；

S405、Iou4是否大于或等于所述第二阈值；如是，执行步骤S406；否则，执行步骤S407；

S406、将与所述当前框计算的IOU值Iou4大于或等于所述第二阈值的其他所述候选框从所述候选框集合中删除；

S407、所述候选框集合是否为空集合；如是，执行步骤S408；否则，返回S401；

S408、所述空列表keep保存的所述候选框即为去除重复框后的所述候选框，输出所述空列表keep中的所述候选框。

进一步地，IOU值Iou的计算公式如下：

Iou=area0/（area1+ area2- area0）；

其中，area0为2个所述候选框重合部分的面积，area1为其中一个所述候选框的面积，area2为另一个所述候选框的面积；或，area0为2个所述候选框的最小外接正矩形重合部分的面积，area1为其中一个所述候选框的最小外接正矩形的面积，area2为另一个所述候选框的最小外接正矩形的面积。

进一步地，步骤S30中，每个所述候选框按照如下步骤构建其最小外接正矩形：

S300、获取所述候选框的顶点坐标中X轴的最小值Xmin与最大值Xmax；

S301、获取所述候选框的顶点坐标中Y轴的最小值Ymin与最大值Ymax；

S302、建立坐标点（Xmin，Ymin）、（Xmax，Ymin）、（Xmax，Ymax）、（Xmin，Ymax），将建立坐标点依次连接形成所述候选框的最小外接正矩形。

进一步地，所述目标检测模型为yolo、faster-rcnn或centerNet。

根据本发明的另一方面，还提供了一种在图像中实现多形状目标检测的系统，包括计算机可读的存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现上文所述的在图像中实现多形状目标检测的方法。

进一步地，在图像中实现多形状目标检测的系统还包括处理器以及输出终端；所述处理器与所述存储介质连接，用于执行所述存储介质存储的计算机程序，以使所述处理器执行如上文所述的一种在图像中实现多形状目标检测的方法；所述输出终端与所述处理器连接，用于将采用如上文所述的一种在图像中实现多形状目标检测的方法去重后的候选框进行输出。

实施本发明在图像中实现多形状目标检测方法及系统的技术方案，具有如下优点或有益效果：

（1）本发明在多边形候选框的IOU值之前通过候选框的最小外接正矩形的IOU值进行一次过滤，排除了大量重叠程度不高的候选框，避免了许多冗余的计算，时间复杂度下降了一个数量级（从O(n2)到O(n)，n为候选框数量），大大节省了计算时间；

（2）本发明通过数据统计确定候选框最小外接正矩形的Ratio，相比直接设置为0（等同于只过滤存在相交的候选框），可以排除更多重叠程度不高的候选框，进一步加速后续处理，提升了除去重复候选框的效率与精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，附图中：

图1是本发明实施例一种在图像中实现多形状目标检测的方法的流程示意图；

图2是本发明实施例一种在图像中实现多形状目标检测的方法中步骤S10的流程示意图；

图3是本发明实施例一种在图像中实现多形状目标检测的方法中步骤S30的流程示意图；

图4是本发明实施例步骤30构建的多边形框的最小未接正矩形示意图；

图5是本发明实施例一种在图像中实现多形状目标检测的方法中步骤S40的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下文将要描述的各种示例性实施例将要参考相应的附图，这些附图构成了示例性实施例的一部分，其中描述了实现本发明可能采用的各种示例性实施例，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白，它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的装置和方法的例子，还可使用其他的实施例，或者对本文列举的实施例进行结构和功能上的修改，而不会脱离本发明的范围和实质。在其他情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“厚度”、“上下前后左右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的元器件或插件必须具有的特定的方位、以特定的方位构造和操作，因此，不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定的“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体连接；可以是机械连接，也可以是电连接或可以相互通讯连接；可以是直接相连，也可以是通过中间媒介简介相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

实施例一：

如图1-图5所示，本发明实施例的一种在图像中实现多形状目标检测的方法，其特征在于，包括以下步骤：

S10、确定第一阈值、第二阈值。此步骤设置第一阈值、第二阈值可以排除更多重叠程度不高的候选框，进一步加速后续处理，提升候选框去重的处理效率与精度。具体的，第一阈值U1的计算公式为：

U1=Ratio×Threshold （1）；

其中，Threshold为指定的多边形的IOU值，Ratio为筛选比例。

第二阈值U2计算公式为：

U2=Threshold （2）；

S20、将待目标检测的图片输入目标检测模型，得到模型输出的候选框集合；候选框集合中的所有候选框为多边形。优选的，目标检测模型为yolo、faster-rcnn或centerNet，此为现有技术，在此不再赘述；

S30、为每个候选框建立最小外接正矩形，存入候选框集合中；

S40、通过第一阈值、第二阈值以及候选框对应的最小外接正矩形对候选框进行去重，得到去重后的候选框；对去重后的候选框进行输出。

需说明的是，本发明针对多边形的非极大值抑制，可以将边界框的多边形转换为最小外接正矩形，基于以下两点前提：（1）最小外接正矩形的IOU值相比多边形的IOU值计算时间几乎可以忽略不计；（2）最小外接正矩形的IOU值与多边形的IOU值之间存在一定程度上的正相关关系，如，若最小外接正矩形重合程度不高，则其对应的多边形重合程度大概率也不高，若最小外接正矩形不相交，则多边形也一定不相交。由于大部分边界框之间是不相交或者重合程度很小，因此，背景技术中步骤(3)并不需要计算置信度最高的边界框和其它所有边界框的多边形IOU值，可以首先通过最小外接正矩形IOU值进行一次过滤筛选，只有最小外接正矩形IOU值大于某个阈值的边界框才计算多边形IOU值，从而大大节省了计算时间。

进一步地，上述筛选比例Ratio反映的是候选框（多边形）的IOU值与候选框最小外接正矩形的IOU值之间的关系，如果Ratio设置为0，则表示通过最小外接正矩形的IOU值只将没有相交的候选框直接过滤掉无需进一步计算多边形候选框的IOU值，Ratio设置得越大则表示过滤掉越多的候选框，后续处理速度也会越快，但是如果Ratio设置得过大，则有可能在最小外接正矩形的IOU值这一步就将实际重叠程度很大的候选框进行过滤，从而将其保留在最终的输出结果中造成错误识别。因此，需要在速度和准确率之间达到一个平衡，可以通过使用目标场景的数据集进行统计来确认Ratio的数值，其具体步骤如下：

S100、准备目标场景的测试数据集合，初始化一个空集合Ratio_list以及预期准确率d。其中，d的取值范围为0-1。目标场景的测试数据可以为多个陈列的烟草图片、商店中的顾客等，具体根据实际情况而定；

S101、使用目标检测模型对测试数据集中的图片进行推理，得到模型输出的多边形框集合；

S102、对多边形框集合中每一个多边形框建立最小外接正矩形；

S103、分别计算两两多边形框的IOU值Iou1以及两两多边形框对应的两个最小外接正矩形的IOU值Iou2，计算参见下文所述的公式（4）；

S104、依次判断Iou1是否为零；每次Iou1不为零时，计算Iou1/ Iou2的比值，并将计算的Iou1/ Iou2的比值放入空集合Ratio_list中；

S105、统计空集合Ratio_list的元素个数m，将空集合Ratio_list的元素进行降序排列；从排列后的空集合Ratio_list由前往后数，第n位对应的Iou1/ Iou2的比值即为Ratio。

具体的，n的计算公式为：

n=round（m×d）（3）；

其中，round为四舍五入函数，d的取值范围为0-1。

IOU值Iou的计算公式如下：

Iou=area0/（area1+ area2- area0）（4）；

其中，area0为2个候选框重合部分的面积，area1为其中一个候选框的面积，area2为另一个候选框的面积；或，area0为2个候选框的最小外接正矩形重合部分的面积，area1为其中一个候选框的最小外接正矩形的面积，area2为另一个候选框的最小外接正矩形的面积。

进一步地，步骤S30中，每个候选框按照如下步骤构建其最小外接正矩形：

S300、获取候选框的顶点坐标中X轴的最小值Xmin与最大值Xmax；

S301、获取候选框的顶点坐标中Y轴的最小值Ymin与最大值Ymax；

S302、建立坐标点（Xmin，Ymin）、（Xmax，Ymin）、（Xmax，Ymax）、（Xmin，Ymax），将建立坐标点依次连接形成候选框的最小外接正矩形。

当然，步骤S102中多边形框也按照上述步骤构建其最小外接正矩形。图4为采用步骤S300-S302为候选框构建最小外接正矩阵的示意图。

进一步地，步骤S40包括如下步骤：

S400、初始化一个空列表keep；空列表keep用于保存去除重复框后的候选框；

S401、从候选框集合中选择置信度最高的候选框作为当前框，将其移入空列表。本步骤的置信度由目标检测模型自动计算，如一种计算置信度Conf的计算公式为：

Conf=P（object）×area3/（area4+ area5- area3）（5）；

其中，P（object）为候选框内存在目标对象object的概率，如存在目标对象object，P（object）=1，否则，P（object）=0；area3为真实的候选框与预测的候选框之间重合部分的面积，area4为真实的候选框的面积，area5为预测的候选框的面积。

S402、依次计算剩余候选框的最小外接正矩形与当前框的最小外接正矩形的IOU值Iou3，计算参见公式（4）；

S403、Iou3是否大于或等于第一阈值；如是，执行步骤S404；否则，执行步骤S407；

S404、计算大于或等于第一阈值对应的候选框与当前框的IOU值Iou4，计算参见公式（4）；

S405、Iou4是否大于或等于第二阈值；如是，执行步骤S406；否则，执行步骤S407；

S406、将与当前框计算的IOU值Iou4大于或等于第二阈值的其他候选框从候选框集合中删除；

S407、候选框集合是否为空集合；如是，执行步骤S408；否则，返回S401；

S408、空列表keep保存的候选框即为去除重复框后的候选框，输出空列表keep中的候选框。

综上所述，本实施的方法在多边形候选框的IOU值之前通过候选框的最小外接正矩形的IOU值进行一次过滤，排除了大量重叠程度不高的候选框，避免了许多冗余的计算，时间复杂度下降了一个数量级（从O(n2)到O(n)，n为候选框数量）；另外，通过数据统计确定候选框最小外接正矩形的Ratio，相比直接设置为0（等同于只过滤存在相交的候选框），可以排除更多重叠程度不高的候选框，进一步加速后续处理，提升了除去重复候选框的效率与精度。

实施例二：

本发明还提供了一种在图像中实现多形状目标检测的系统，包括计算机可读的存储介质，存储介质上存储有计算机程序，计算机程序被执行时实现实施例一所述的一种在图像中实现多形状目标检测的方法。

进一步地，本实施例的一种在图像中实现多形状目标检测的系统，还包括处理器以及输出终端。处理器与存储介质连接，用于执行存储介质存储的计算机程序，以使处理器执行如实施例一所述的一种在图像中实现多形状目标检测的方法；输出终端与处理器连接，用于将采用如实施例一所述的一种在图像中实现多形状目标检测的方法去重后的候选框进行输出。本实施例的输出终端可以为显示屏、电脑终端或手机终端，还可以为终端应用程序如App。

在阅读完上文描述的内容之后，本领域的普通技术人员应当明白，本文描述的各种特征可通过方法、数据处理设备或计算机程序产品来实现。因此，这些特征可部采用硬件的方式、全部采用软件的方式或者采用硬件和软件结合的方式来表现。此外，上述特征也可采用存储在一种或多种计算机可读存储介质上的计算机程序产品的形式来表现，该计算机可读存储介质中包含计算机可读程序代码段或者指令，其存储在存储介质中。可读存储介质被配置为存储各种类型的数据以支持在装置的操作。可读存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。如静态硬盘、随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、光存储设备、磁存储设备、快闪存储器、磁盘或光盘和/或上述设备的组合。

以上仅为本发明的较佳实施例而已，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等同替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种在图像中实现多形状目标检测的方法，其特征在于，包括以下步骤：

S10、确定第一阈值、第二阈值；

2.根据权利要求1所述的一种在图像中实现多形状目标检测的方法，其特征在于，步骤S10中，所述第一阈值U1的计算公式为：

U1=Ratio×Threshold；

其中，Threshold为指定的多边形的IOU值，Ratio为筛选比例；

所述第二阈值U2计算公式为：

U2=Threshold。

3.根据权利要求2所述的一种在图像中实现多形状目标检测的方法，其特征在于，所述筛选比例Ratio的确定步骤如下：

4.根据权利要求3所述的一种在图像中实现多形状目标检测的方法，其特征在于，n的计算公式为：

n=round（m×d）；

其中，round为四舍五入函数，d的取值范围为0-1。

5.根据权利要求1所述的一种在图像中实现多形状目标检测的方法，其特征在于，步骤S40包括如下步骤：

6.据权利要求3或5所述的一种在图像中实现多形状目标检测的方法，其特征在于，IOU值Iou的计算公式如下：

Iou=area0/（area1+ area2- area0）；

7.据权利要求1所述的一种在图像中实现多形状目标检测的方法，其特征在于，步骤S30中，每个所述候选框按照如下步骤构建其最小外接正矩形：

8.权利要求1所述的一种在图像中实现多形状目标检测的方法，其特征在于，所述目标检测模型为yolo、faster-rcnn或centerNet。

9.一种在图像中实现多形状目标检测的系统，其特征在于，包括计算机可读的存储介质，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现权利要求1-8任一项所述的在图像中实现多形状目标检测的方法。

10.根据权利要求9所述的一种在图像中实现多形状目标检测的系统，其特征在于，还包括处理器以及输出终端；

所述处理器与所述存储介质连接，用于执行所述存储介质存储的计算机程序，以使所述处理器执行如权利要求1-8任一项所述的一种在图像中实现多形状目标检测的方法；

所述输出终端与所述处理器连接，用于将采用如权利要求1-8任一项所述的一种在图像中实现多形状目标检测的方法去重后的候选框进行输出。