CN112084950A

CN112084950A - 基于稀疏卷积神经网络的目标检测方法及检测装置

Info

Publication number: CN112084950A
Application number: CN202010946308.0A
Authority: CN
Inventors: 贺琪欲; 张海波; 杨跞; 许楠; 张文
Original assignee: Shanghai Pont Technology Co Ltd
Current assignee: Shanghai Pont Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-15

Abstract

本申请提供了一种基于稀疏卷积神经网络的目标检测方法及检测装置，目标检测方法包括：利用获取的目标场景图像构建数据集，并对数据集中每幅图像中包含的所有检测目标进行标注；根据检测目标在图像中的比例范围，优化基准卷积神经网络的结构，得到优化后的卷积神经网络；在构建的数据集上对优化后的卷积神经网络进行损失函数添加稀疏正则化项的预训练，得到卷积神经网络；对卷积神经网络进行卷积神经网络稀疏化，得到稀疏化的卷积神经网络；在数据集上对稀疏化的卷积神经网络进行微调训练，得到最终的稀疏卷积神经网络；利用最终的稀疏卷积神经网络对目标进行检测。本申请能够在廉价的硬件上针对大场景中的小物体进行快速、精准的目标检测。

Description

基于稀疏卷积神经网络的目标检测方法及检测装置

技术领域

本申请属于目标检测技术领域，特别适用于对大场景中的小物体进行检测，具体涉及一种基于稀疏卷积神经网络的目标检测方法及检测装置。

背景技术

现有的基于卷积神经网络的快速目标检测算法，通常通过基准模型(例如Yolo模型)在自定义数据集上的迁移学习训练来实现。其中，卷积神经网络基准模型有复杂的深层结构，从检测目标来说，检测的大多为尺度不一的目标，且目标在图像中不能太小；从检测速度来说，如果要达到小于5ms的超高速检测，则大多对硬件要求非常高。现有的基于卷积神经网络的目标检测方法对大场景中小物体的检测精度不高，且其神经网络结构对具体任务有较多冗余，严重影响检测速度。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种基于稀疏卷积神经网络的目标检测方法及检测装置。

根据本申请实施例的第一方面，本申请提供了一种基于稀疏卷积神经网络的目标检测方法，其包括以下步骤：

利用获取的目标场景图像构建数据集，并对数据集中每幅图像中包含的所有检测目标进行标注；

根据检测目标在图像中的比例范围，优化基准卷积神经网络的结构，得到优化后的卷积神经网络；

在构建的数据集上对优化后的卷积神经网络进行损失函数添加稀疏正则化项的预训练，得到卷积神经网络；

对卷积神经网络进行卷积神经网络稀疏化，得到稀疏化的卷积神经网络；

在数据集上对稀疏化的卷积神经网络进行微调训练，得到最终的稀疏卷积神经网络；

利用最终的稀疏卷积神经网络对目标进行检测。

上述基于稀疏卷积神经网络的目标检测方法中，所述目标场景图像包括多幅检测目标在场景中随机分布的图像和多幅无检测目标的场景图像。

进一步地，所述检测目标为不同颜色的乒乓球时，所述目标场景图像包括多幅乒乓球在全乒乓球桌视野范围中随机分布的图像和多幅全乒乓球桌视野范围中无乒乓球的图像，通过架设在乒乓球桌附近的相机获取目标场景图像。

上述基于稀疏卷积神经网络的目标检测方法中，所述对数据集中每幅图像中包含的所有检测目标进行标注包括标注检测目标的中心像素坐标以及检测目标所占的像素宽度和像素高度。

上述基于稀疏卷积神经网络的目标检测方法中，所述步骤根据检测目标在图像中的比例范围，优化基准卷积神经网络N的结构，得到优化后的卷积神经网络的具体过程为：

计算数据集的每幅图像中检测目标所占的比例；

其中，检测目标在目标场景图像中的宽度比例r_w和高度比例r_h为：

其中，w_o表示目标场景图像中检测目标的宽度，w_i表示目标场景图像的宽度，h_o表示目标场景图像中检测目标的高度，h_i表示目标场景图像的高度；

将满足基准卷积神经网络要求的最小输入大小的图像作为基准卷积神经网络的输入图像；

其中，基准卷积神经网络的输入图像的宽度n_w和高度n_h满足以下约束：

基准卷积神经网络N的输入图像的宽度n_w和高度n_h在符合基准卷积神经网络N要求的基础上，选取满足上述约束的最小值；

其中，w_min表示对检测目标进行检测所需的最小像素宽度，h_min表示对检测目标进行检测所需的最小像素高度；[r_w1,r_w2]表示所有检测目标在目标场景图像中的宽度比例所构成的宽度比例范围，[r_h1,r_h2]表示所有目标在目标场景图像中的高度比例所构成的高度比例范围；

优化基准卷积神经网络N的结构，得到优化后的卷积神经网络N_i，其具体过程为：

计算输入卷积神经网络的图像宽度缩放比例r_wn和图像高度缩放比例r_hn，

计算基准缩放比例r_m，r_m为满足以下约束的最大值：

将基准卷积神经网络N的维度最大的输出层的链接层更改链接到维度为(n_w/r_m)*(n_h/r_m)的网络层，修改相应的上采样倍率；将其他卷积神经网络输出层的链接层修改到同比例的链接层，得到优化后的卷积神经网络N_i。

上述基于稀疏卷积神经网络的目标检测方法中，所述步骤对卷积神经网络进行卷积神经网络稀疏化，得到稀疏化的卷积神经网络的具体过程为：

遍历搜索卷积神经网络N_t中的比例权重a_i，将小于阈值t_s的比例权重a_i对应的网络结构i删除；其中，阈值t_s的取值范围为(0,1)；

对卷积神经网络N_t进行卷积神经网络稀疏化后得到稀疏化的卷积神经网络N_{s_}。

上述基于稀疏卷积神经网络的目标检测方法中，所述步骤在数据集上对稀疏化的卷积神经网络进行微调训练，得到最终的稀疏卷积神经网络的具体过程为：

在对优化后的卷积神经网络N_i进行预训练得到卷积神经网络N_t和稀疏化的卷积神经网络N_{s_}的基础上，在数据集D上通过损失函数L₀进行卷积神经网络训练，更新参数数值，得到最终的稀疏卷积神经网络N_s。

上述基于稀疏卷积神经网络的目标检测方法中，所述步骤利用最终的稀疏卷积神经网络对目标进行检测的具体过程为：

将待检测图像缩放成大小为n_w*n_h的图像I_resized；

将缩放后的图像I_resized输入最终的稀疏卷积神经网络N_s中进行运算，得到最终的稀疏卷积神经网络N_s的输出结果Output；

将最终的稀疏卷积神经网络N_s的输出结果Output转换为目标检测结果，其中，目标检测结果为所有检测目标在图像中的中心像素坐标及检测目标所占的像素宽度和像素高度。

根据本申请实施例的第二方面，本申请还提供了一种基于稀疏卷积神经网络的目标检测装置，其包括：

存储器和处理器，

所述处理器被配置为基于存储在存储器中的指令，执行上述任一项所述的基于稀疏卷积神经网络的目标检测方法。

根据本申请实施例的第三方面，本申请还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的基于稀疏卷积神经网络的目标检测方法。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请基于稀疏卷积神经网络的目标检测方法通过改进现有卷积神经网络的结构，能够在廉价的硬件上针对大场景中的小物体进行快速、精准的目标检测。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请实施例提供的一种基于稀疏卷积神经网络的目标检测方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以细微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的细微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

本申请提供的基于稀疏卷积神经网络的目标检测方法，改进了现有卷积神经网络的结构，能够在廉价的硬件上，对大场景中的小物体进行快速、精准的目标检测。例如，本申请提供的基于稀疏卷积神经网络的目标检测方法能够在NVIDIA1050ti显卡上对全乒乓球桌视野范围内的乒乓球进行快速、精准的目标检测，其中，检测时间为2ms。

如图1所示，本申请提供的基于稀疏卷积神经网络的目标检测方法包括以下步骤：

S1、利用获取的目标场景图像构建数据集，并对数据集中每幅图像中包含的所有检测目标进行标注；

其中，目标场景图像包括多幅检测目标在场景中随机分布的图像和多幅无检测目标的场景图像。

数据集即多幅检测目标在场景中随机分布的图像和多幅无检测目标的场景图像的集合。

例如，检测目标为不同颜色的乒乓球，则目标场景图像包括多幅乒乓球在全乒乓球桌视野范围中随机分布的图像和多幅全乒乓球桌视野范围中无乒乓球的图像。

在发球机随机发球和运动员回球的场景下，可以通过架设在乒乓球桌附近的相机获取目标场景图像。

对数据集中每幅图像中包含的所有检测目标进行标注时，具体地，包括标注检测目标的中心像素坐标以及检测目标所占的像素宽度和像素高度。通常，标注时通过在图像上绘制包围检测目标的矩形来实现。

S2、根据检测目标在图像中的比例范围，优化基准卷积神经网络N的结构，得到优化后的卷积神经网络N_i，从而提升大场景下小目标的检测精度，其具体过程为：

S21、计算数据集的每幅图像中检测目标所占的比例；

假设目标场景图像中检测目标的宽度为w_o，高度为h_o；目标场景图像的宽度为w_i，高度为h_i，则检测目标在目标场景图像中的宽度比例r_w和高度比例r_h为：

所有检测目标在目标场景图像中的宽度比例构成宽度比例范围[r_w1,r_w2]，所有目标在目标场景图像中的高度比例构成高度比例范围[r_h1,r_h2]。

S22、将满足基准卷积神经网络N要求的最小输入大小的图像作为基准卷积神经网络N的输入图像。

其中，基准卷积神经网络N的输入图像的宽度为n_w，高度为n_h，宽度n_w和高度n_h满足如下约束：

其中，w_min表示对检测目标进行检测所需的最小像素宽度，h_min表示对检测目标进行检测所需的最小像素高度。最小像素宽度w_min和最小像素高度h_min均为正整数，其具体取值根据待检测目标的特征复杂程度确定。

输入图像的宽度n_w和高度n_h在符合基准卷积神经网络N要求的基础上，选取满足上述约束的最小值，从而从网络输入的层面最大程度的减小计算量，提高运算速度。

以Yolov3-tiny模型作为基准卷积神经网络N为例，其输入图像的宽度n_w和高度n_h均需是32的整数倍。例如，对于乒乓球进行目标检测来说，可以取w_min＝h_min＝4。

S23、优化基准卷积神经网络N的结构，得到优化后的卷积神经网络N_i，其具体过程为：

计算基准缩放比例r_m，其中，基准缩放比例r_m为满足以下约束的最大值：

也就是说，基准缩放比例为：

以Yolov3-tiny模型为例，如果r_m＝4，则将基准卷积神经网络的输出层(即第23层)的链接层(即第20层)更改链接到维度为(n_w/4)*(n_h/4)的网络层(即第4层)，即更改第20层的链接[-1,8]为[-1,4]，同时修改第19层的上采样倍率(从2修改为8)；Yolov3-tiny模型的其他卷积神经网络的输出层没有链接层，因此无需做其他改动。

S3、在构建的数据集上对优化后的卷积神经网络N_i进行损失函数添加稀疏正则化项的预训练，得到卷积神经网络N_t。

卷积神经网络N_t与优化后的卷积神经网络N_i具有相同的神经网络结构，只是其中的具体参数数值不同。损失函数L用于指导卷积神经网络训练过程中具体参数数值的更新。

假设原损失函数为L₀，则新的损失函数L为：

L＝L₀+L_sr，

其中，L_sr为稀疏正则化项。例如，稀疏正则化项L_sr的表达式可以为：

其中，λ表示比例因子，其取值范围为：(0,1]；γ表示卷积神经网络中的各项权重，Γ表示卷积神经网络中的所有权重构成的集合，g(γ)表示稀疏惩罚项。例如，稀疏惩罚项g(γ)可以为g(γ)＝|γ|。

S4、对卷积神经网络N_t进行卷积神经网络稀疏化，去除卷积神经网络N_t中的冗余设计，得到稀疏化的卷积神经网络N_{s_}，从而在相同硬件上达到更快的检测速度，其具体过程为：

遍历搜索卷积神经网络N_t中的比例权重a_i，将小于阈值t_s的比例权重a_i对应的网络结构i删除。其中，阈值t_s的取值范围为(0,1)，具体地，阈值t_s的取值可以为0.02。需要说明的是，此处的比例权重a_i与稀疏正则化项L_sr的表达式中的权重γ对应。

S5、在数据集D上对稀疏化的卷积神经网络N_{s_}进行微调训练，得到最终的稀疏卷积神经网络N_s。

需要说明的是，微调训练指的是，从步骤S3对优化后的卷积神经网络N_i进行预训练得到卷积神经网络N_t和步骤S4得到稀疏化的卷积神经网络N_{s_}的基础上，在数据集D上通过损失函数L₀进行卷积神经网络训练，从而更新参数数值得到最终的稀疏卷积神经网络N_s。其中，最终的稀疏卷积神经网络N_s与稀疏化的卷积神经网络N_{s_}具有相同的结构，不同的参数数值。

S6、利用最终的稀疏卷积神经网络N_s对目标进行检测，其具体过程为：

将待检测图像缩放成大小为n_w*n_h的图像I_resized。

将缩放后的图像I_resized输入最终的稀疏卷积神经网络N_s中进行运算，得到最终的稀疏卷积神经网络N_s的输出结果Output。

需要说明的是，目标检测结果的具体转换方法与所选的基准卷积神经网络N的输出定义相关。每个基准卷积神经网络N均有其标准的转换方法，该方法不属于本申请的保护范围。

以Yolov3-tiny模型为例，从最终的稀疏卷积神经网络N_s的输出结果Output中可以直接得到多个目标检测结果框(包括中心像素坐标以及宽度和高度)以及每个目标检测结果框的概率；然后利用NMS(non-maximum-suppression，非极大值抑制)算法过滤其中的重复无效检测结果框，剩下的检测结果框即为最终的目标检测结果。

本申请基于稀疏卷积神经网络的目标检测方法通过对基准卷积神经网络N的结构进行优化，能够大大提升大场景下小目标物体的检测精度；通过对卷积神经网络进行稀疏化，去除卷积神经网络中的冗余设计，能够在相同的硬件上达到更快的检测速度；通过改进现有卷积神经网络的结构，能够在廉价的硬件上针对大场景中的小物体进行快速、精准的目标检测。

在示例性实施例中，本申请实施例还提供了一种基于稀疏卷积神经网络的目标检测装置，其包括存储器和处理器，处理器被配置为基于存储在存储器中的指令，执行本申请中任一个实施例中的基于稀疏卷积神经网络的目标检测方法。

其中，存储器可以为系统存储器或固定非易失性存储介质等，系统存储器可以存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。

在示例性实施例中，本申请实施例还提供了一种计算机存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由处理器执行，以完成本申请中任一个实施例中的基于稀疏卷积神经网络的目标检测方法。

上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本申请的实施例也可表示在数据信号处理器(Digital Signal Processor，DSP)中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(Field Programmable Gate Array，FPGA)执行的多种功能。可根据本申请配置上述处理器执行特定任务，其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展表示不同的程序语言与不同的格式或形式。也可表示不同的目标平台编译软件代码。然而，根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。

以上所述仅表示本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。

Claims

1.一种基于稀疏卷积神经网络的目标检测方法，其特征在于，包括以下步骤：

利用最终的稀疏卷积神经网络对目标进行检测。

2.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述目标场景图像包括多幅检测目标在场景中随机分布的图像和多幅无检测目标的场景图像。

3.根据权利要求2所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述检测目标为不同颜色的乒乓球时，所述目标场景图像包括多幅乒乓球在全乒乓球桌视野范围中随机分布的图像和多幅全乒乓球桌视野范围中无乒乓球的图像，通过架设在乒乓球桌附近的相机获取目标场景图像。

4.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述对数据集中每幅图像中包含的所有检测目标进行标注包括标注检测目标的中心像素坐标以及检测目标所占的像素宽度和像素高度。

5.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述步骤根据检测目标在图像中的比例范围，优化基准卷积神经网络的结构，得到优化后的卷积神经网络的具体过程为：

计算数据集的每幅图像中检测目标所占的比例；

计算基准缩放比例r_m，r_m为满足以下约束的最大值：

6.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述步骤对卷积神经网络进行卷积神经网络稀疏化，得到稀疏化的卷积神经网络的具体过程为：

7.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述步骤在数据集上对稀疏化的卷积神经网络进行微调训练，得到最终的稀疏卷积神经网络的具体过程为：

8.根据权利要求1所述的基于稀疏卷积神经网络的目标检测方法，其特征在于，所述步骤利用最终的稀疏卷积神经网络对目标进行检测的具体过程为：

将待检测图像缩放成大小为n_w*n_h的图像I_resized；

9.一种基于稀疏卷积神经网络的目标检测装置，其特征在于，包括：

存储器和处理器，

所述处理器被配置为基于存储在存储器中的指令，执行权利要求1～8任一项所述的基于稀疏卷积神经网络的目标检测方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1～8任一项所述的基于稀疏卷积神经网络的目标检测方法。