CN113591771B

CN113591771B - 一种多场景配电室物体检测模型的训练方法和设备

Info

Publication number: CN113591771B
Application number: CN202110914202.7A
Authority: CN
Inventors: 程津
Original assignee: Wuhan Zhongdian Smart Technology Co ltd
Current assignee: Wuhan Zhongdian Smart Technology Co ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2024-03-08
Anticipated expiration: 2041-08-10
Also published as: CN113591771A

Abstract

本发明公开了一种多场景配电室物体检测模型的训练方法，包括：将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取；其中，编码网络至少包括一层特征提取模块，特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层；将提取到的特征输入候选区域网络中，得到候选区域框；将候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到多场景配电室物体检测模型。通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值和特征方差等统计信息，能够提高标准化方法的域泛化能力，从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型。

Description

一种多场景配电室物体检测模型的训练方法和设备

技术领域

本发明属于目标检测技术领域，具体涉及一种多场景配电室物体检测模型的训练方法和设备。

背景技术

近年来，随着深度学习技术的发展，利用深度学习技术进行配电室物体检测的方法被广泛研究，该类方法通过在配电室摄像头的图像上进行大量的目标标注，结合深度学习技术进行模型最优拟合，从而达到辅助物体检测的目的。然而，在目前配电室目标物体自动化检测过程中，由于配电室场景变化不一，所采集图像边缘分布差异较大，导致基于深度学习技术的自动化检测方法，具有以下不便性：一.图像异质性严重。由于配电室中光照和焦距的影响，图像往往具有不同的边缘分布，而图像异质性可直接导致模型泛化性能降低，即同类物体在不同边缘分布条件下被检测为不同类；二.图像标注成本高昂。

随着技术的发展，基于深度学习的目标检测网络被广泛应用与配电室的物体检测中。目标检测网络要求丰富的上下文信息以及局部的细粒度特征信息，且对于数据集样本的特征域特别敏感，当使用单一场景的数据对模型进行训练并接近拟合时，模型的参数对于多场景下的图像信息是非常敏感的，噪声分布不同的影响均会导致模型性能降低。

为了解决目标检测网络存在的上述问题，现有技术将领域自适应和领域泛化应用到目标检测网络中。领域自适应的许多方法在视觉任务中联合执行特征级和像素级领域的自适应，例如目标检测领域的自适应。这些方法通过将对抗学习和深度卷积神经网络相结合，利用两种不同场景分布的数据并将其输入到具有特征级对齐的任务网络中，进行像素级的自适应。然而，在具有多场景的配电室物体检测任务中，由于场景本身是无界的，而使用有界的领域自适应方法无法有效地模拟真实的应用场景，因此该方法的性能无法得到保证。

领域泛化中的多数的领域泛化工作是在多个场景的训练图像上展开，如何在单一场景下学习领域不变表示，进而在多场景中进行泛化应用，成为领域泛化工作的一大挑战。现有技术中，对于单一场景的泛化采用对抗学习的方式合成新的训练图像以模型真实的应用场景，即通过学习域不变特征以提高其泛化性能。然而，由于场景本身是无界的，合成新的训练图像是有界的，这种样本扩充的方式并不能极大程度增强目标检测网络的泛化能力。

目前，深度卷积神经网络一般在特征提取后采用标准化方法对输入特征值进行标准化，以防止由于数据分布出现偏移，即输入特征值的差异较大，产生一些偏离较大的差一只，进而导致模型优化的难度增加，甚至不能优化。同时标准化方法可降低模型对于输入数据分布的敏感性。常见的标准化方法，例如批处理标准化方法，在训练阶段，批处理标准化方法通过对一批训练数据估计的统计量来标准化特征图，然后在测试期间应用训练时的统计数据来标准化测试集。在单一场景泛化中，由于测试场景下的数据分布和训练数据之间存在边缘分布差异，因此，将根据训练估计的统计数据应用于测试可能会导致不适用。

发明内容

本发明的目的一种用于多场景配电室物体检测模型的训练方法和设备，用于解决现有技术中存在的至少一个技术问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供一种多场景配电室物体检测模型的训练方法，包括：

将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取；

其中，所述编码网络至少包括一层特征提取模块，所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层；

将提取到的特征输入候选区域网络中，得到候选区域框；

将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，进而得到多场景配电室物体检测模型。

在一种可能的设计中，还包括：

将单一场景下配电室的测试图像数据输入编码网络中，对所述多场景配电室物体检测模型进行测试。

在一种可能的设计中，将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取，包括：

将所述训练图像数据输入所述卷积层中进行卷积提取特征，得到多尺度的特征图x；

通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ；

基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s；

基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm。

在一种可能的设计中，通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ，计算公式如下：

其中，C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸，C ×H×W为特征图x的维度，μ_c和δ_c表示每一通道的特征均值和特征方差，i和 j分别表示特征图x的横纵坐标。

在一种可能的设计中，基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s，包括：

基于所述特征均值μ和特征方差δ，利用自编码器自适应标准化学习离散化的特征均值μ_stan和离散化的特征方差δ_stan；

利用可学习的权重因子作为λ作为残差权重项，对所述特征均值μ_stan和特征方差δ_stan进行加权，同时利用1-λ约束所述特征均值μ和特征方差δ，计算公式如下：

其中，μ_final表示最终特征均值，δ_final表示最终特征方差；

利用最终特征均值μ_final和最终特征方差δ_final对所述特征图x进行标准化，得到所述特征图x_s，计算公式如下：

x_s＝(x-μ_final)/(δ_final+ε)； (3)

其中，ε为常数项，取值为1e-10，用于防止公式(3)的分母为0。

在一种可能的设计中，利用自编码器自适应标准化学习离散化的特征均值μ_stan和离散化的特征方差δ_stan之后，还包括：

通过所述激活函数层中的relu激活函数，保证所述特征均值μ_stan和所述特征方差δ_stan离散且非负。

在一种可能的设计中，基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm，包括：

基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习缩放因子β与平移因子γ；

利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化，得到所述特征图x_norm，计算公式如下：

x_norm＝x_s*β+γ。 (4)

在一种可能的设计中，利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后，还包括：

采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活；

采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活，保证自适应学习的缩放因子β处于0到1之间。

在一种可能的设计中，将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，包括：

将所述候选区域框输入坐标回归和分类网络中，采用非极大值抑制法，对所述候选区域框的置信度进行排序，选取前N个候选框作为最终候选区域框；其中，N为超参数；

对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作；

将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接，得到全连接的预测类别和全连接的预测矩形框。

第二方面，本发明提供一种多场景配电室物体检测模型的训练装置，包括：

特征提取单元，用于将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取；

候选区域框获取单元，用于将提取到的特征输入候选区域网络中，得到候选区域框；

模型获取单元，用于将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，进而得到多场景配电室物体检测模型。

在一种可能的设计中，所述装置还包括：

测试单元，用于将单一场景下配电室的测试图像数据输入编码网络中，对所述多场景配电室物体检测模型进行测试。

在一种可能的设计中，所述特征提取单元包括：

第一特征图获取子单元，用于将所述训练图像数据输入所述卷积层中进行卷积提取特征，得到多尺度的特征图x；

计算子单元，用于通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ；

第二特征图获取子单元，用于基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s；

第三特征图获取子单元，用于基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm。

在一种可能的设计中，所述计算子单元采用的计算公式如下：

在一种可能的设计中，在基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s时，所述第二特征图获取子单元具体用于：

其中，μ_final表示最终特征均值，δ_final表示最终特征方差；

x_s＝(x-μ_final)/(δ_final+ε)； (3)

在一种可能的设计中，在利用自编码器自适应标准化学习离散化的特征均值μ_stan和离散化的特征方差δ_stan之后，所述第二特征图获取子单元还用于：

在一种可能的设计中，在基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm，所述第三特征图获取子单元具体用于：

x_norm＝x_s*β+γ。 (4)

在一种可能的设计中，在利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后，所述第三特征图获取子单元还用于：

在一种可能的设计中，在将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框时，所述模型获取单元具体用于：

第三方面，本发明提供一种计算机设备，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。

有益效果：

1.本发明通过将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取；其中，编码网络至少包括一层特征提取模块，所述特征提取模块包括依次连接的卷积层、自适应标准化层、池化层和激活函数层；将提取到的特征输入候选区域网络中，得到候选区域框；将候选区域框输入坐标回归和分类网络中，对候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，进而得到多场景配电室物体检测模型。通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值、特征方差，缩放因子和平移因子等统计信息，能够提高标准化方法的域泛化能力，从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型，且该模型能够适应于单个的输入样本，适用性强。

2.本发明中的自适应标准化层采用插件化的模块，能够兼容深度卷积神经网络，即插即用，同时可以增强模型的域泛化能力。

3.本发明在自适应标准化层引入残差项，能够稳定自编码器学习到的统计信息的离散型。

4.本发明在将测试图像数据输入多场景的配电室物体检测模型时，由于自适应标准化层可根据输入测试图像数据自适应地计算相应的特征均值、特征方差和缩放因子等统计信息，而不依赖训练时期的训练图像数据相关信息，从而提高测试的准确性。

附图说明

图1为本发明实施例的多场景配电室物体检测模型的训练方法的流程图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，第一方面，本发明提供一种多场景配电室物体检测模型的训练方法的流程图，包括但不限于由步骤S101～S103实现：

其中，首先需要说明的是，本实施例的网络架构以基础目标检测网络FPN 为基础，在其上进行改进和开发，本实施例的网络结构包括但不限于编码网络、候选区域网络和坐标回归和分类网络。

步骤S101.将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取；

在步骤S101中，将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取，包括但不限于由步骤S1011～S1014实现：

步骤S1011.将所述训练图像数据输入所述卷积层中进行卷积提取特征，得到多尺度的特征图x；

步骤S1012.通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ；

在步骤S1012中，通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ，计算公式如下：

其中，需要说明的是，所述自编码器包括编码器和解码器，其中，编码器由三层全连接层构成，第一层编码层输入神经元为C个，输出神经元为C/2个，第二层输入神经元为C/2个，输出神经元为C/4个，第三层输入神经元为C/4 个，输出神经元为C/8个。其中，解码器也由三层全连接层构成，第一层解码层输入神经元为C/8个，输出神经元为C/4个，第二层输入神经元为C/4个，输出神经元为C/2个，第三层输入神经元为C/2个，输出神经元为C个。因此通过mean与std在经过编码器后，特征维度变为C/8*1，而经过解码器后，特征维度则恢复至C*1，与特征均值μ和特征方差δ相同。

步骤S1013.基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s；

在步骤S1013中，基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s，包括：

其中，μ_final表示最终特征均值，δ_final表示最终特征方差；

x_s＝(x-μ_final)/(δ_final+ε)； (3)

其中，需要说明的是，通过对比分析，特征均值μ和特征方差δ可共用同一编码器进行解码，也就是说特征均值μ和特征方差δ所使用的编码器参数共享，而解码器参数则各自独立，保持独立预测。在每个解码器后，还包括：

步骤S1014.基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm。

在步骤S1014中，基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm，包括：

x_norm＝x_s*β+γ。 (4)

其中，需要说明的是，归一化中的自编码器同样由编码器与解码器构成。编码器由三层全连接层构成。第一层编码层输入神经元为C个，输出神经元为 C/2个，第二层输入神经元为C/2个，输出神经元为C/4个，第三层输入神经元为C/4个，输出神经元为C/8个。相同的，解码器也由三层全连接层构成。第一层解码层输入神经元为C/8个，输出神经元为C/4个，第二层输入神经元为 C/4个，输出神经元为C/2个，第三层输入神经元为C/2个，输出神经元为C个。因此通过mean与std在经过编码器后，特征维度变为C/8*1，而经过解码器后，特征维度则恢复至C*1，与μ和δ相同。与标准化过程相同，特征均值μ和特征方差δ可共用同一编码器进行解码，也就是说特征均值μ和特征方差δ所使用的编码器参数共享，而解码器参数则各自独立，保持独立预测。

步骤S102.将提取到的特征输入候选区域网络中，得到候选区域框；

步骤S103.将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，进而得到多场景配电室物体检测模型。

在步骤S103中，将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，包括：

其中，需要说明的是，所述RoIAlign(Region Of Interest Align，感兴趣区域校准)是指：遍历每一候选区域框，保持浮点数边界不做量化，将候选区域分割成k×k个单元，每个单元的边界也不做量化，在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

作为一种可选的实施方式，所述方法还包括：

步骤S104.将单一场景下配电室的测试图像数据输入编码网络中，对所述多场景配电室物体检测模型进行测试。

基于上述公开的内容，通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值、特征方差，缩放因子和平移因子等统计信息，能够提高标准化方法的域泛化能力，从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型，且该模型能够适应于单个的输入样本，适用性强。通过将自适应标准化层采用插件化的模块，能够兼容深度卷积神经网络，即插即用，同时可以增强模型的域泛化能力。通过在自适应标准化层引入残差项，能够稳定自编码器学习到的统计信息的离散型。通过在将测试图像数据输入多场景的配电室物体检测模型时，由于自适应标准化层可根据输入测试图像数据自适应地计算相应的特征均值、特征方差和缩放因子等统计信息，而不依赖训练时期的训练图像数据相关信息，从而提高测试的准确性。

实施例二

在一种可能的设计中，所述装置还包括：

在一种可能的设计中，所述特征提取单元包括：

其中，μ_final表示最终特征均值，δ_final表示最终特征方差；

x_s＝(x-μ_final)/(δ_final+ε)； (3)

x_norm＝x_s*β+γ。 (4)

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多场景配电室物体检测模型的训练方法，其特征在于，包括：

将提取到的特征输入候选区域网络中，得到候选区域框；

将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，进而得到多场景配电室物体检测模型；

将单一场景下配电室的训练图像数据输入编码网络中，进行多尺度的特征提取，包括：

基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm；

通过统计学方法，利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ，计算公式如下：

其中，C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸，C×H×W为特征图x的维度，μ_c和δ_c表示每一通道的特征均值和特征方差，i和j分别表示特征图x的横纵坐标；

基于所述特征均值μ和特征方差δ，利用所述自适应标准化层中的自编码器自适应标准化学习，得到特征图x_s，包括：

其中，μ_final表示最终特征均值，δ_final表示最终特征方差；

x_s＝(x-μ_final)/(δ_final+ε)； (3)

2.根据权利要求1所述的多场景配电室物体检测模型的训练方法，其特征在于，还包括：

将单一场景下配电室的测试图像数据输入所述编码网络中，对所述多场景配电室物体检测模型进行测试。

3.根据权利要求1所述的多场景配电室物体检测模型的训练方法，其特征在于，利用自编码器自适应标准化学习离散化的特征均值μ_stan和离散化的特征方差δ_stan之后，还包括：

4.根据权利要求1所述的多场景配电室物体检测模型的训练方法，其特征在于，基于所述特征均值μ和特征方差δ，利用所述自编码器自适应归一化学习，得到特征图x_norm，包括：

x_norm＝x_s*β+γ (4)。

5.根据权利要求4所述的多场景配电室物体检测模型的训练方法，其特征在于，利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后，还包括：

6.根据权利要求1所述多场景配电室物体检测模型的训练方法，其特征在于，将所述候选区域框输入坐标回归和分类网络中，对所述候选区域框进行筛选、定位和分类，得到预测类别和预测矩形框，包括：

7.一种计算机设备，其特征在于，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1-6任意一项所述的多场景配电室物体检测模型的训练方法。