CN113989498A

CN113989498A - 一种用于多类别垃圾场景识别的目标检测模型的训练方法

Info

Publication number: CN113989498A
Application number: CN202111606977.4A
Authority: CN
Inventors: 张志嵩; 张帆; 陈映; 曹松; 任必为
Original assignee: Beijing Vion Intelligent Technology Co ltd
Current assignee: Beijing Vion Intelligent Technology Co ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-01-28
Anticipated expiration: 2041-12-27
Also published as: CN113989498B

Abstract

本发明提供了一种用于多类别垃圾场景识别的目标检测模型的训练方法，包括：构造基础目标检测模型；在p个卷积层中，选取连续的m个卷积层，将选中的每个卷积层均替换为空洞卷积；依次设置m个空洞卷积的孔洞率，满足任意相邻的两个空洞卷积的孔洞率的最大公约数为1，以获取优化目标检测模型；使用样本图像训练集对优化目标检测模型训练，以获取用于多类别垃圾场景识别的目标检测模型。本发明解决了现有技术中的目标检测模型因其感受野范围小，从而对具有广阔视野的场景图像存在垃圾目标检测精度低的问题，将此类场景图像作为模型输入进行垃圾识别检测，所得到的检测结果往往会出现多点位垃圾识别无效或垃圾检测误报的现象。

Description

一种用于多类别垃圾场景识别的目标检测模型的训练方法

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种用于多类别垃圾场景识别的目标检测模型的训练方法。

背景技术

目标检测是一种基于目标几何和统计特征的图像理解算法，目标检测是将目标对象的定位和识别合二为一，例如：基于计算机视觉算法，利用通过机器学习获得的目标检测模型检测出图像中不同类别的目标对象，即以矩形框标注出目标的位置，并识别出目标对象的类别。

目标检测在垃圾识别分类中应用广泛，相关技术中，目标检测模型由于通过人工少量更改输入参数，因此目标检测模型可识别的垃圾类别有限；不仅如此，随着拍摄终端设备的快速发展，拍摄的场景图像的视野范围更广阔，场景图像的格式文件更大，受到现有的目标检测模型的感受野范围小的影响，目标检测模型对此类场景图像存在垃圾目标检测精度低的问题，将此类场景图像作为模型输入进行垃圾识别检测，所得到的检测结果往往会出现多点位垃圾识别无效或垃圾检测误报的现象。

发明内容

本发明的主要目的在于提供一种于多类别垃圾场景识别的目标检测模型的训练方法，以解决现有技术中的目标检测模型因其感受野范围小，从而对具有广阔视野的场景图像存在垃圾目标检测精度低的问题，将此类场景图像作为模型输入进行垃圾识别检测，所得到的检测结果往往会出现多点位垃圾识别无效或垃圾检测误报的现象。

为了实现上述目的，本发明提供了一种用于多类别垃圾场景识别的目标检测模型的训练方法，包括：步骤S1，构造基于CenterNet网络结构的包含有p个卷积层的基础目标检测模型；步骤S2，在p个卷积层中，选取包括首个卷积层在内的连续的m个卷积层，将选中的每个卷积层均替换为空洞卷积，其中，m个空洞卷积在p个卷积层中的许可占比范围阈值为[1/10，1/3]；步骤S3，依次设置m个空洞卷积的孔洞率，满足任意相邻的两个空洞卷积的孔洞率的最大公约数为1，以获取优化目标检测模型；步骤S4，构造样本图像训练集，样本图像训练集的每张样本图像均包含至少一类垃圾场景，使用样本图像训练集对优化目标检测模型训练，以获取用于多类别垃圾场景识别的目标检测模型。

进一步地，步骤S3还包括判定优化目标检测模型的可用状态：

当优化目标检测模型的第m个空洞卷积的感受野与基础目标检测模型的第m个卷积层的感受野的比值落入感受野优化阈值比例范围内时，判定优化目标检测模型可用，执行步骤S4；

当优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围外时，判定优化目标检测模型不可用，重复步骤S2或步骤S3。

进一步地，当判定优化目标检测模型不可用，重复步骤S2时，在许可占比范围阈值内，依次增加或减小选取的m个卷积层的个数，直至优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。

进一步地，当判定优化目标检测模型不可用，重复步骤S3时，增大或减小m个空洞卷积的孔洞率，直至优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。

进一步地，感受野优化阈值比例范围为（1，4]。

进一步地，基础目标检测模型的感受野的迭代计算公式为：

RF_n= RF_n-1+（k_n-1）×stride_n……………………………………………（1）

其中，RF_n为第n个卷积层的感受野，当n=1时，RF_n-1=1，

k_n为第n个卷积层的卷积核尺寸，

stride_n为第n个卷积层的卷积步长；

优化目标检测模型的感受野的迭代计算公式为：

RF_n’= RF_n-1’+（k_n’-1）×stride_n…………………………………………（2）

其中，当n≤m时，RF_n’为第n个空洞卷积的感受野，或当n＞m时，RF_n’为第n个卷积层的感受野，当n=1时，RF_n-1’=1，

当n≤m时，k_n’为第n个空洞卷积的卷积核尺寸，或当n＞m时，k_n’为第n个卷积层的卷积核尺寸，k_n’的计算公式为：k_n’=k_n+（k_n-1）×（d_n-1），式中，当n≤m时，d_n为第n个空洞卷积的孔洞率，或当n＞m时，d_n为第n个卷积层的孔洞率，

当n≤m时，stride_n为第n个空洞卷积的卷积步长，或当n＞m时，stride_n为第n个卷积层的卷积步长。

进一步地，基础目标检测模型的n个卷积层的卷积核的宽度与高度相同，且各卷积层的卷积核的尺寸为1×1或3×3或5×5或7×7。

进一步地，在基础目标检测模型中，p个卷积层的卷积核的宽度与高度相同，且前m个卷积层的卷积核尺寸均相等，均为k_n=3，即当n≤m时，其表示卷积核尺寸为3×3。

进一步地，在步骤S2中，选中包括首个卷积层在内的连续的3个卷积层替换为空洞卷积，即m=3；在步骤S3中，依次设置前3个空洞卷积的孔洞率分别为：d₁=1，d₂=2，d₃=3；以获取优化目标检测模型。

进一步地，基础目标检测模型的第n个卷积层的卷积步长均为1，优化目标检测模型的m个空洞卷积的卷积步长和n-m个卷积层的卷积步长均为1。

应用本发明的技术方案，为了提高对视野范围广阔的场景图像的垃圾目标检测精度，提供了一种针对多类别垃圾场景识别的目标检测模型的训练方法，使得训练获取的目标检测模型不仅能够保证对多类别垃圾场景的具有很高的区分精度，而且目标检测模型的感受野得到大幅度提升，从而整个场景图像中存在垃圾的各点位均能够被有效识别出，且识别准确率始终保持在极高水准。

具体而言，目标检测模型的训练方法在CenterNet网络结构的基础目标检测模型的p个卷积层中，选取包括首个卷积层在内的连续的m个卷积层，将选中的每个卷积层均替换为空洞卷积；这样，原有的基础目标检测模型的前m个卷积层的每层的感受野均有效增大，m个卷积层后的卷积层能够继承增大的感受野，从而使优化目标检测模型的整体感受野变大；其中，m个空洞卷积在p个卷积层中的许可占比范围阈值为[1/10，1/3]，通过控制m个空洞卷积在p个卷积层中的占比，能够控制优化目标检测模型的感受野相比于原有的基础目标检测模型的感受野的扩大倍数，防止优化目标检测模型的感受野过大而失去实用价值，同时避免空洞卷积数量过多因提取信息存在间隔而导致目标检测模型的卷积损失。此外，在设置m个空洞卷积的孔洞率，满足任意相邻的两个空洞卷积的孔洞率的最大公约数为1，以获取优化目标检测模型；这样m个空洞卷积的扩张率被设计成锯齿状，解决了空洞卷积的卷积核不连续的问题，有效地防止了因空洞卷积的间隔出现的网格效应，避免损失信息的连续性，有利于目标检测模型对像素级任务的精确处理。进而，通过样本图像训练集对优化目标检测模型训练获取的用于多类别垃圾场景识别的目标检测模型具有大识别率、高精度的特点；且避免了因单纯地增加卷积层的数量以达到扩大模型感受野的方式所带来的目标检测模型的结构过大、增加运行负荷的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了根据本发明的一种可选实施例的用于多类别垃圾场景识别的目标检测模型的训练方法的流程图；

图2示出了本发明的一种可选实施例的优化目标检测模型的第一个空洞卷积的感受野示意图，其中，空洞卷积的卷积核刚好被感受野覆盖；

图3示出了图2中的实施例的优化目标检测模型的第二个空洞卷积的感受野示意图，其中，纯黑色部分为空洞卷积的卷积核，阴影部分的覆盖范围为感受野；

图4示出了图2中的实施例的优化目标检测模型的第三个空洞卷积的感受野示意图，其中，纯黑色部分为空洞卷积的卷积核，阴影部分的覆盖范围为感受野。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”、“和”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决现有技术中的目标检测模型因其感受野范围小，从而对具有广阔视野的场景图像存在垃圾目标检测精度低的问题，将此类场景图像作为模型输入进行垃圾识别检测，所得到的检测结果往往会出现多点位垃圾识别无效或垃圾检测误报的问题，本发明提供了一种用于多类别垃圾场景识别的目标检测模型的训练方法，图1是根据本发明实施例的目标检测模型的训练方法的流程图。如图1所示，目标检测模型的训练方法包括：步骤S1，构造基于CenterNet网络结构的包含有p个卷积层的基础目标检测模型；步骤S2，在p个卷积层中，选取包括首个卷积层在内的连续的m个卷积层，将选中的每个卷积层均替换为空洞卷积，其中，m个空洞卷积在p个卷积层中的许可占比范围阈值为[1/10，1/3]；步骤S3，依次设置m个空洞卷积的孔洞率，满足任意相邻的两个空洞卷积的孔洞率的最大公约数为1，以获取优化目标检测模型；步骤S4，构造样本图像训练集，样本图像训练集的每张样本图像均包含至少一类垃圾场景，使用样本图像训练集对优化目标检测模型训练，以获取用于多类别垃圾场景识别的目标检测模型。

为了提高对视野范围广阔的场景图像的垃圾目标检测精度，本发明提供的针对多类别垃圾场景识别的目标检测模型的训练方法，使得训练获取的目标检测模型不仅能够保证对多类别垃圾场景的具有很高的区分精度，而且目标检测模型的感受野得到大幅度提升，从而整个场景图像中存在垃圾的各点位均能够被有效识别出，且识别准确率始终保持在极高水准。

需要说明的是，步骤S3还包括判定优化目标检测模型的可用状态：当优化目标检测模型的第m个空洞卷积的感受野与基础目标检测模型的第m个卷积层的感受野的比值落入感受野优化阈值比例范围内时，判定优化目标检测模型可用，执行步骤S4；当优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围外时，判定优化目标检测模型不可用，重复步骤S2或步骤S3。可见，通过本发明提供的目标检测模型的训练方法，执行后最终能够达到将目标检测模型的感受野控制在合理的扩大范围，以达到对多类别垃圾场景识别这一特定情况的应用可靠性。

由于感受野的继承性，第m个空洞卷积的感受野进化决定了目标检测模型的最终感受野大小。优选地，感受野优化阈值比例范围为（1，4]。当第m个空洞卷积的感受野与基础目标检测模型的第m个卷积层的感受野的比值落入感受野优化阈值比例范围内时，能够确保训练优化目标检测模型后得到的目标检测模型的感受野与训练基础目标检测模型后得到的目标检测模型的感受野的扩大倍数接近此感受野优化阈值比例。

在一种可选实施例中，当判定优化目标检测模型不可用，重复步骤S2时，在许可占比范围阈值内，依次增加或减小选取的m个卷积层的个数，直至优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。也就是说，当优化目标检测模型的感受野与基础目标检测模型的感受野的比值大于感受野优化阈值比例值时，减少将卷积层替换为空洞卷积的数量，即减小m的取值；反之，当优化目标检测模型的感受野与基础目标检测模型的感受野的比值小于感受野优化阈值比例值时，增加将卷积层替换为空洞卷积的数量，即增大m的取值。

在另一种可选实施例中，当判定优化目标检测模型不可用，重复步骤S3时，增大或减小m个空洞卷积的孔洞率，直至优化目标检测模型的感受野与基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。也就是说，当优化目标检测模型的感受野与基础目标检测模型的感受野的比值大于感受野优化阈值比例值时，减小m个空洞卷积的孔洞率；反之，当优化目标检测模型的感受野与基础目标检测模型的感受野的比值小于感受野优化阈值比例值时，增大m个空洞卷积孔洞率。

在本发明中，基础目标检测模型的感受野的迭代计算公式为：

其中，RF_n为第n个卷积层的感受野，当n=1时，RF_n-1=1，k_n为第n个卷积层的卷积核尺寸，stride_n为第n个卷积层的卷积步长；

优化目标检测模型的感受野的迭代计算公式为：

其中，当n≤m时，RF_n’为第n个空洞卷积的感受野，或当n＞m时，RF_n’为第n个卷积层的感受野，当n=1时，RF_n-1’=1，当n≤m时，k_n’为第n个空洞卷积的卷积核尺寸，或当n＞m时，k_n’为第n个卷积层的卷积核尺寸，k_n’的计算公式为：k_n’=k_n+（k_n-1）×（d_n-1），式中，当n≤m时，d_n为第n个空洞卷积的孔洞率，或当n＞m时，d_n为第n个卷积层的孔洞率，当n≤m时，stride_n为第n个空洞卷积的卷积步长，或当n＞m时，stride_n为第n个卷积层的卷积步长。

可选地，基础目标检测模型的n个卷积层的卷积核的宽度与高度相同，且各卷积层的卷积核的尺寸为1×1或3×3或5×5或7×7。此类卷积层的卷积核的结构有利于将卷积层替换为空洞卷积。

图2至图3示意出了在本发明的一个优选实施例中，基础目标检测模型的卷积层被替换后得到的优化目标检测模型的第一个空洞卷积至第三个空洞卷积的感受野示意图。

在本实施例中，基础目标检测模型的p个卷积层的卷积核的宽度与高度相同，且前m个卷积层的卷积核尺寸均相等，均为k_n=3，其表示卷积核尺寸为3×3。选中包括首个卷积层在内的连续的3个卷积层替换为空洞卷积，即m=3；在步骤S3中，依次设置前3个空洞卷积的孔洞率分别为：d₁=1，d₂=2，d₃=3；以获取优化目标检测模型。其中，m/p∈[1/10，1/3]。且基础目标检测模型的第n个卷积层的卷积步长均为1，优化目标检测模型的m个空洞卷积的卷积步长和n-m个卷积层的卷积步长均为1。

根据基础目标检测模型的感受野的迭代计算公式（1）计算得到：RF₁=3、RF₂=5、RF₃=7；

根据优化目标检测模型的感受野的迭代计算公式（2）计算得到：RF₁’=3、RF₂’=7、RF₃’=13；优化目标检测模型的第3个空洞卷积的感受野与所述基础目标检测模型的第3个卷积层的感受野的比值为1.8571，其在感受野优化阈值比例范围为（1，4]内。

由于基础目标检测模型的各卷积层的卷积核尺寸为3×3，将其第一个卷积层替换为空洞卷积后，且孔洞率设置为d₁=1，如图2所示，图2中阴影部分即为优化目标检测模型的第一个空洞卷积的感受野，其刚好覆盖了空洞卷积的卷积核。

由于基础目标检测模型的各卷积层的卷积核尺寸为3×3，将其第二个卷积层替换为空洞卷积后，且孔洞率设置为d₂=2，如图3所示，图3中灰色阴影部分即为优化目标检测模型的第二个空洞卷积的感受野，图中黑色阴影部分即为空洞卷积的卷积核。

由于基础目标检测模型的各卷积层的卷积核尺寸为3×3，将其第三个卷积层替换为空洞卷积后，且孔洞率设置为d₂=3，如图4所示，图4中灰色阴影部分即为优化目标检测模型的第二个空洞卷积的感受野，图中黑色阴影部分即为空洞卷积的卷积核。

由此可见，随着卷积核的孔洞率增大，空洞卷积的感受野随之增大，由于d₁=1，d₂=2，d₃=3，三者之间的最大公约数为1，感受野没有出现间隙，因此确保了最终训练得到的目标检测模型对多类别垃圾场景中的垃圾识别具有优良的精度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于多类别垃圾场景识别的目标检测模型的训练方法，其特征在于，包括：

步骤S1，构造基于CenterNet网络结构的包含有p个卷积层的基础目标检测模型；

步骤S2，在p个所述卷积层中，选取包括首个所述卷积层在内的连续的m个所述卷积层，将选中的每个所述卷积层均替换为空洞卷积，其中，m个所述空洞卷积在p个所述卷积层中的许可占比范围阈值为[1/10，1/3]；

步骤S3，依次设置m个所述空洞卷积的孔洞率，满足任意相邻的两个所述空洞卷积的孔洞率的最大公约数为1，以获取优化目标检测模型；

步骤S4，构造样本图像训练集，所述样本图像训练集的每张样本图像均包含至少一类垃圾场景，使用所述样本图像训练集对所述优化目标检测模型训练，以获取用于多类别垃圾场景识别的目标检测模型。

2.根据权利要求1所述的目标检测模型的训练方法，其特征在于，所述步骤S3还包括判定所述优化目标检测模型的可用状态：

当所述优化目标检测模型的第m个空洞卷积的感受野与所述基础目标检测模型的第m个卷积层的感受野的比值落入感受野优化阈值比例范围内时，判定所述优化目标检测模型可用，执行所述步骤S4；

当所述优化目标检测模型的感受野与所述基础目标检测模型的感受野的比值落入感受野优化阈值比例范围外时，判定所述优化目标检测模型不可用，重复所述步骤S2或所述步骤S3。

3.根据权利要求2所述的目标检测模型的训练方法，其特征在于，当判定所述优化目标检测模型不可用，重复所述步骤S2时，在所述许可占比范围阈值内，依次增加或减小选取的m个所述卷积层的个数，直至所述优化目标检测模型的感受野与所述基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。

4.根据权利要求2所述的目标检测模型的训练方法，其特征在于，当判定所述优化目标检测模型不可用，重复所述步骤S3时，增大或减小m个所述空洞卷积的孔洞率，直至所述优化目标检测模型的感受野与所述基础目标检测模型的感受野的比值落入感受野优化阈值比例范围内。

5.根据权利要求2所述的目标检测模型的训练方法，其特征在于，所述感受野优化阈值比例范围为（1，4]。

6.根据权利要求2所述的目标检测模型的训练方法，其特征在于，

所述基础目标检测模型的感受野的迭代计算公式为：

其中，RF_n为第n个卷积层的感受野，当n=1时，RF_n-1=1，

k_n为第n个卷积层的卷积核尺寸，

stride_n为第n个卷积层的卷积步长；

所述优化目标检测模型的感受野的迭代计算公式为：

7.根据权利要求6所述的目标检测模型的训练方法，其特征在于，所述基础目标检测模型的p个所述卷积层的卷积核的宽度与高度相同，且各卷积层的卷积核的尺寸为1×1或3×3或5×5或7×7。

8.根据权利要求6所述的目标检测模型的训练方法，其特征在于，在所述基础目标检测模型中，p个所述卷积层的卷积核的宽度与高度相同，且前m个所述卷积层的卷积核尺寸均相等，均为k_n=3，即当n≤m时，其表示卷积核尺寸为3×3。

9.根据权利要求8所述的目标检测模型的训练方法，其特征在于，在所述步骤S2中，选中包括首个所述卷积层在内的连续的3个所述卷积层替换为空洞卷积，即m=3；在所述步骤S3中，依次设置前3个所述空洞卷积的孔洞率分别为：d₁=1，d₂=2，d₃=3；以获取所述优化目标检测模型。

10.根据权利要求9所述的目标检测模型的训练方法，其特征在于，所述基础目标检测模型的第n个卷积层的卷积步长均为1，所述优化目标检测模型的m个空洞卷积的卷积步长和n-m个卷积层的卷积步长均为1。