CN112418410A

CN112418410A - 多目标检测方法、装置和存储介质

Info

Publication number: CN112418410A
Application number: CN202011467005.7A
Authority: CN
Inventors: 刘凤余; 张冲; 张平平
Original assignee: Shanghai Zhuofan Information Technology Co ltd
Current assignee: Shanghai Zhuofan Information Technology Co ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-02-26

Abstract

本发明提供了一种多目标检测方法，装置及存储介质，通过构建一种改进的YOLO‑V3模型，并建立具有包含关系的多目标数据集以训练模型，相比传统的目标检测方法在检测多个目标时出现的漏检或错检等缺陷，大大提高了检测准确率，同时降低了漏检率，改进后的模型综合空洞卷积层、转置卷积层和可分离卷积层三种网络结构，具有良好的鲁棒性、对于不同类别目标之间存在遮挡关系时也具有良好的检测效果。

Description

多目标检测方法、装置和存储介质

技术领域

本发明涉及深度学习技术领域，具体涉及一种多目标检测检测方法、装置和存储介质。

背景技术

在很多目标检测的应用场景中，需要检测的目标是存在从属关系的。比如：有时候我们可能想要检测电脑屏幕是在玩游戏还是在办公；有时候我们想要检测在某一物体上是否存在另外一个物体；比如面包上是火腿还是肉松或者什么都没有；有时候我们可能需要检测车子上是什么logo。随着深度学习近年来的迅猛发展，越来越多的深度学习模型开始广泛应用于计算机视觉的各项技术中。基于卷积神经网络的目标检测方法大幅提高了检测精度与速度；但是现有的YOLO v3模型提取的特征过于单一，导致在多目标检测的场景中无法快速准确进行识别。

发明内容

本发明的目的是提供一种多目标检测方法，装置及存储介质，用以检测场景中相似度较大且具有不同尺度的多个目标。

为了达到上述目的，本发明一方面提供一种多目标检测方法，包括：

建立数据集，所述数据集包括应用场景中不同尺度的检测对象及其标注，所述标注用以确定对象之间的嵌套关系；

模型构建，基于YOLO-V3模型进行修改，将用以特征提取的卷积层与用以对象识别的yolo层之间分别增加空洞卷积层、转置卷积层和可分离卷积层，生成修改后的YOLO-DN模型；

模型训练，定义损失函数，通过K-means聚类方法生成锚框，采用数据集分别训练YOLO-DN模型和YOLO-V3模型；

模型剪枝，在所述空洞卷积层、转置卷积层和可分离卷积层后增加BN层，利用BN层的系数进行通道剪枝和模型压缩；

模型检测，将YOLO-V3模型与YOLO-DN模型的检测结果进行比较，根据比较结果验证YOLO-DN模型的准确度。

进一步的，还包括以下步骤：

建立空洞卷积层，所述空洞卷积层基于不同膨胀率的空洞卷积对多尺度的目标进行检测；

建立转置卷积层，所述转置卷积恢复卷积计算的空间分辨率，对粗粒化图像进行卷积操作；

建立可分离卷积层，所述可分离卷积层通过区域和通道的分离实现卷积操作。

进一步的，在模型构建过程中，所述卷积层的计算公式为：

其中，l表示第l层卷积层，j代表当前卷积层的第j个特征图，示第l-1层卷积层的第j个特征图，表示第1层卷积层第j个特征图的第m个卷积核，Mj表示第j个特征图对应的所有卷积核集合，符号*代表卷积运算，表示第l层卷积第j个特征图的偏置参数，f(x)代表激活函数。

进一步的，所述激活函数包括Leaky-ReLU和ELU，其中Leaky-ReLU的计算公式为：

ELU的计算公式为：

进一步的，所述模型的损失函数为：

其中，损失函数中的第一行和第二行表示边界框的位置损失，第三行第四行表示置信度误差，第五行表示框的分类误差；x,y,w,h分别表示边界框的中心点横轴坐标，纵轴坐标，宽度和高。C表示置信度，P表示分类概率。

进一步的，在模型剪枝过程中，所述BN层数据进行归一化：在训练样本{}上，进行归一化计算过程如下：

求出样本均值与样本方差，计算公式为：

将样本数据归一化处理，公式为：

其中ε是一个极小值，防止分母为零时计算值为NaN；

对归一化的数据进行重构，令

其中γ和β为待学习的参数。

为了不改变数据的分布特征，γ和β应按照如下公式进行计算：

β＝μ_a

另一方面，本发明还提供了一种多目标检测装置，包括：

数据获取模块，所述数据获取模块用以构建数据集，所述数据集包括应用场景中不同尺度的检测对象及其标注，所述标注用以确定对象之间的嵌套关系；

模型构建模块，基于YOLO-V3模型进行修改，将用以特征提取的卷积层与用以对象识别的yolo层之间分别增加空洞卷积层、转置卷积层和可分离卷积层，生成修改后的YOLO-DN模型；

模型训练模块，定义损失函数，通过K-means聚类方法生成锚框，采用数据集分别训练YOLO-DN模型和YOLO-V3模型；

模型剪枝模块，在所述空洞卷积层、转置卷积层和可分离卷积层后增加BN层，利用BN层的系数进行通道剪枝和模型压缩；

模型检测模块，将YOLO-V3模型与YOLO-DN模型的检测结果进行比较，根据比较结果验证YOLO-DN模型的准确度。

另一方面，本发明还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行上述多目标检测方法中的步骤。

本发明提供了一种多目标检测方法，装置及存储介质，通过构建一种改进的YOLO-V3模型，并建立具有包含关系的多目标数据集以训练模型，相比传统的目标检测方法在检测多个目标时出现的漏检或错检等缺陷，大大提高了检测准确率，同时降低了漏检率，改进后的模型综合空洞卷积层、转置卷积层和可分离卷积层三种网络结构，具有良好的鲁棒性、对于不同类别目标之间存在遮挡关系时也具有良好的检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种多目标检测方法的方法流程图。

图2为本发明实施例的一种多目标检测装置的系统架构图。

图3为本发明实施例的YOLO-DN模型的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。、在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

下面参照附图描述根据本发明实施例提出的一种多目标检测方法，装置和存储介质，首先将参照附图描述根据本发明实施例提出的一种多目标检测方法。

图1是本发明一个实施例的多目标检测方法的方法流程图。如图1所示，该检测方法包括以下步骤：

步骤S1，建立数据集。

具体的，本发明基于多目标检测的应用场景，构建应用场景中不同尺度目标的数据集，针对不同的目标存在包含或遮挡等从属关系，对不同目标之间的相互关系进行标注，并将标注的数据集分为训练集、验证集和测试集。

在一个实施例中，步骤S1首先通过爬虫对数据进行采集，并将数据进行清洗，去除掉冗余数据和低质量数据。随后对目标数据进行一一标注，标注内容包括不同目标之间的从属关系，然后将标注内容生成XML文件。最后对数据进行切分，将XML文件中的标注与图片中的目标进行一一对应，然后将xml文件进行解析并生成txt格式的labels数据，最后随机将数据集切分为训练集、验证集和测试集。

步骤S2，模型构建。

图3为YOLO-DN模型的结构示意图，如图3所示，本发明基于YOLO-V3模型进行修改，将用以特征提取的卷积层与用以对象识别的yolo层之间分别增加空洞卷积层、转置卷积层和可分离卷积层，生成修改后的YOLO-DN模型。使得三个不同的网络具有三种不同的感受野和三种不同的卷积计算方式，综合三种结构的优点让网络具有更好的鲁棒性，实现针对不同尺度不同类别目标检测准确性提升的目标。

可以理解的是，采用YOLO-DN模型的网络结构包含了三种不同卷积模式的优势，使用不同膨胀率的空洞卷积可以使得网络具有不同的感受野，进而使网络对多尺度的检测目标具有更好的适应能力，使用转置卷积层执行了常规的卷积操作，恢复了其空间分辨率，转置卷积可以同时实现图像的粗粒化卷积操作。可分离卷积一方面比普通卷积减少了参数量，另一方面将以往普通卷积操作同时考虑通道和区域改进为先考虑区域再考虑通道，实现了通道和区域的分离。

此外，YOLO-DN网络结构中还包含了卷积层、BN(Batch Normalization)层、上采样层、yolo层，各层含义及作用如下:

卷积层：用于提取图像的特征，单个卷积操作单元公式如下：

激活函数的使用目的在于将原本线性的网络变为非线性，如果使用激活函数，无论多深的神经网络其本质都是线性的，就都可以用一层网络来替代，在YOLO-DN中使用激活函数包含Leaky-ReLU和ELU，其中Leaky-ReLU定义为：

ELUs是对ReLU激活函数的一种演变，使激活函数更能够保持一个noise-robust状态。所以提出一个具有负值的激活函数，这可以使得平均激活接近于零，但它会以更小的参数饱和为负值的激活函数ELUs。ELUs激活函数的公式The exponential linear unit(ELU)with 0<α如下所示：

上采样层：用于扩大特征图尺寸，提高分辨率。

BN层，通过对训练样本的归一化处理解决反向传播过程中的梯度消失和梯度爆炸问题。进行归一化计算过程如下：

求出样本均值与样本方差，计算公式为：

将样本数据归一化处理，公式为：

其中ε是一个极小值，防止分母为零时计算值为NaN；

对归一化的数据进行重构，令

其中γ和β为待学习的参数。

β＝μ_a

Yolo层：网络的最后一层，输出三个尺度的特征图，运用anchor box对边界框进行回归，得到最终的预测结果框。

S3，模型剪枝，利用BN层的gamma系数评价对应通道的重要性，然后排序并根据gamma系数阈值剪掉BN对应的不重要通道，保留重要通道，从而达到剪枝的效果。

S4，模型训练。定义损失函数，通过K-means聚类方法生成锚框，采用数据集分别训练YOLO-DN模型和YOLO-V3模型。

述模型的损失函数为：

S5，模型检测。

具体的，基于数据集中标注好的数据分别训练YOLO-V3和YOLO-DN模型。其中，训练集用于模型训练，验证集用以在迭代过程中对模型中的参数进行持续测试优化，然后将训练好的模型在测试集上进行测试。

随后，将两个模型在相同的测试集上测试，并将两种模型的检测结果进行比较。根据比较结果对YOLO-DN模型的参数进行进一步的修正。

如图2所示，另一方面，本发明还提供多目标检测装置，包括：

数据获取模块101，所述数据获取模块用以构建数据集，所述数据集包括应用场景中不同尺度的检测对象及其标注，所述标注用以确定对象之间的嵌套关系；

模型构建模块102，基于YOLO-V3模型进行修改，将用以特征提取的卷积层与用以对象识别的yolo层之间分别增加空洞卷积层、转置卷积层和可分离卷积层，生成修改后的YOLO-DN模型；

模型训练模块103，定义损失函数，通过K-means聚类方法生成锚框，采用数据集分别训练YOLO-DN模型和YOLO-V3模型；

模型剪枝模块104，在所述空洞卷积层、转置卷积层和可分离卷积层后增加BN层，利用BN层的系数进行通道剪枝和模型压缩；

模型检测模块105，将YOLO-V3模型与YOLO-DN模型的检测结果进行比较，根据比较结果验证YOLO-DN模型的准确度。

另一方面，本发明还提供一种存储装置所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求上述多目标检测方法中的步骤。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。