CN113591771B - 一种多场景配电室物体检测模型的训练方法和设备 - Google Patents
一种多场景配电室物体检测模型的训练方法和设备 Download PDFInfo
- Publication number
- CN113591771B CN113591771B CN202110914202.7A CN202110914202A CN113591771B CN 113591771 B CN113591771 B CN 113591771B CN 202110914202 A CN202110914202 A CN 202110914202A CN 113591771 B CN113591771 B CN 113591771B
- Authority
- CN
- China
- Prior art keywords
- characteristic
- feature
- self
- layer
- distribution room
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 71
- 238000012549 training Methods 0.000 title claims abstract description 57
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004913 activation Effects 0.000 claims abstract description 37
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000011176 pooling Methods 0.000 claims abstract description 8
- 230000003044 adaptive effect Effects 0.000 claims description 39
- 238000010606 normalization Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000013519 translation Methods 0.000 claims description 21
- 230000003213 activating effect Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007619 statistical method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 3
- 238000011425 standardization method Methods 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 31
- 210000002364 input neuron Anatomy 0.000 description 12
- 210000004205 output neuron Anatomy 0.000 description 12
- 230000006978 adaptation Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多场景配电室物体检测模型的训练方法,包括:将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;其中,编码网络至少包括一层特征提取模块,特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;将提取到的特征输入候选区域网络中,得到候选区域框;将候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到多场景配电室物体检测模型。通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值和特征方差等统计信息,能够提高标准化方法的域泛化能力,从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型。
Description
技术领域
本发明属于目标检测技术领域,具体涉及一种多场景配电室物体检测模型的训练方法和设备。
背景技术
近年来,随着深度学习技术的发展,利用深度学习技术进行配电室物体检测的方法被广泛研究,该类方法通过在配电室摄像头的图像上进行大量的目标标注,结合深度学习技术进行模型最优拟合,从而达到辅助物体检测的目的。然而,在目前配电室目标物体自动化检测过程中,由于配电室场景变化不一,所采集图像边缘分布差异较大,导致基于深度学习技术的自动化检测方法,具有以下不便性:一.图像异质性严重。由于配电室中光照和焦距的影响,图像往往具有不同的边缘分布,而图像异质性可直接导致模型泛化性能降低,即同类物体在不同边缘分布条件下被检测为不同类;二.图像标注成本高昂。
随着技术的发展,基于深度学习的目标检测网络被广泛应用与配电室的物体检测中。目标检测网络要求丰富的上下文信息以及局部的细粒度特征信息,且对于数据集样本的特征域特别敏感,当使用单一场景的数据对模型进行训练并接近拟合时,模型的参数对于多场景下的图像信息是非常敏感的,噪声分布不同的影响均会导致模型性能降低。
为了解决目标检测网络存在的上述问题,现有技术将领域自适应和领域泛化应用到目标检测网络中。领域自适应的许多方法在视觉任务中联合执行特征级和像素级领域的自适应,例如目标检测领域的自适应。这些方法通过将对抗学习和深度卷积神经网络相结合,利用两种不同场景分布的数据并将其输入到具有特征级对齐的任务网络中,进行像素级的自适应。然而,在具有多场景的配电室物体检测任务中,由于场景本身是无界的,而使用有界的领域自适应方法无法有效地模拟真实的应用场景,因此该方法的性能无法得到保证。
领域泛化中的多数的领域泛化工作是在多个场景的训练图像上展开,如何在单一场景下学习领域不变表示,进而在多场景中进行泛化应用,成为领域泛化工作的一大挑战。现有技术中,对于单一场景的泛化采用对抗学习的方式合成新的训练图像以模型真实的应用场景,即通过学习域不变特征以提高其泛化性能。然而,由于场景本身是无界的,合成新的训练图像是有界的,这种样本扩充的方式并不能极大程度增强目标检测网络的泛化能力。
目前,深度卷积神经网络一般在特征提取后采用标准化方法对输入特征值进行标准化,以防止由于数据分布出现偏移,即输入特征值的差异较大,产生一些偏离较大的差一只,进而导致模型优化的难度增加,甚至不能优化。同时标准化方法可降低模型对于输入数据分布的敏感性。常见的标准化方法,例如批处理标准化方法,在训练阶段,批处理标准化方法通过对一批训练数据估计的统计量来标准化特征图,然后在测试期间应用训练时的统计数据来标准化测试集。在单一场景泛化中,由于测试场景下的数据分布和训练数据之间存在边缘分布差异,因此,将根据训练估计的统计数据应用于测试可能会导致不适用。
发明内容
本发明的目的一种用于多场景配电室物体检测模型的训练方法和设备,用于解决现有技术中存在的至少一个技术问题。
为了实现上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种多场景配电室物体检测模型的训练方法,包括:
将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;
其中,所述编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;
将提取到的特征输入候选区域网络中,得到候选区域框;
将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型。
在一种可能的设计中,还包括:
将单一场景下配电室的测试图像数据输入编码网络中,对所述多场景配电室物体检测模型进行测试。
在一种可能的设计中,将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取,包括:
将所述训练图像数据输入所述卷积层中进行卷积提取特征,得到多尺度的特征图x;
通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ;
基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s;
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm。
在一种可能的设计中,通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ,计算公式如下:
其中,C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸,C ×H×W为特征图x的维度,μc和δc表示每一通道的特征均值和特征方差,i和 j分别表示特征图x的横纵坐标。
在一种可能的设计中,基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s,包括:
基于所述特征均值μ和特征方差δ,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan;
利用可学习的权重因子作为λ作为残差权重项,对所述特征均值μstan和特征方差δstan进行加权,同时利用1-λ约束所述特征均值μ和特征方差δ,计算公式如下:
其中,μfinal表示最终特征均值,δfinal表示最终特征方差;
利用最终特征均值μfinal和最终特征方差δfinal对所述特征图x进行标准化,得到所述特征图x_s,计算公式如下:
x_s=(x-μfinal)/(δfinal+ε); (3)
其中,ε为常数项,取值为1e-10,用于防止公式(3)的分母为0。
在一种可能的设计中,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan之后,还包括:
通过所述激活函数层中的relu激活函数,保证所述特征均值μstan和所述特征方差δstan离散且非负。
在一种可能的设计中,基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm,包括:
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ;
利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化,得到所述特征图x_norm,计算公式如下:
xnorm=x_s*β+γ。 (4)
在一种可能的设计中,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后,还包括:
采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活;
采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活,保证自适应学习的缩放因子β处于0到1之间。
在一种可能的设计中,将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,包括:
将所述候选区域框输入坐标回归和分类网络中,采用非极大值抑制法,对所述候选区域框的置信度进行排序,选取前N个候选框作为最终候选区域框;其中,N为超参数;
对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作;
将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接,得到全连接的预测类别和全连接的预测矩形框。
第二方面,本发明提供一种多场景配电室物体检测模型的训练装置,包括:
特征提取单元,用于将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;
其中,所述编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;
候选区域框获取单元,用于将提取到的特征输入候选区域网络中,得到候选区域框;
模型获取单元,用于将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型。
在一种可能的设计中,所述装置还包括:
测试单元,用于将单一场景下配电室的测试图像数据输入编码网络中,对所述多场景配电室物体检测模型进行测试。
在一种可能的设计中,所述特征提取单元包括:
第一特征图获取子单元,用于将所述训练图像数据输入所述卷积层中进行卷积提取特征,得到多尺度的特征图x;
计算子单元,用于通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ;
第二特征图获取子单元,用于基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s;
第三特征图获取子单元,用于基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm。
在一种可能的设计中,所述计算子单元采用的计算公式如下:
其中,C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸,C ×H×W为特征图x的维度,μc和δc表示每一通道的特征均值和特征方差,i和 j分别表示特征图x的横纵坐标。
在一种可能的设计中,在基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s时,所述第二特征图获取子单元具体用于:
基于所述特征均值μ和特征方差δ,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan;
利用可学习的权重因子作为λ作为残差权重项,对所述特征均值μstan和特征方差δstan进行加权,同时利用1-λ约束所述特征均值μ和特征方差δ,计算公式如下:
其中,μfinal表示最终特征均值,δfinal表示最终特征方差;
利用最终特征均值μfinal和最终特征方差δfinal对所述特征图x进行标准化,得到所述特征图x_s,计算公式如下:
x_s=(x-μfinal)/(δfinal+ε); (3)
其中,ε为常数项,取值为1e-10,用于防止公式(3)的分母为0。
在一种可能的设计中,在利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan之后,所述第二特征图获取子单元还用于:
通过所述激活函数层中的relu激活函数,保证所述特征均值μstan和所述特征方差δstan离散且非负。
在一种可能的设计中,在基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm,所述第三特征图获取子单元具体用于:
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ;
利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化,得到所述特征图x_norm,计算公式如下:
xnorm=x_s*β+γ。 (4)
在一种可能的设计中,在利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后,所述第三特征图获取子单元还用于:
采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活;
采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活,保证自适应学习的缩放因子β处于0到1之间。
在一种可能的设计中,在将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框时,所述模型获取单元具体用于:
将所述候选区域框输入坐标回归和分类网络中,采用非极大值抑制法,对所述候选区域框的置信度进行排序,选取前N个候选框作为最终候选区域框;其中,N为超参数;
对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作;
将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接,得到全连接的预测类别和全连接的预测矩形框。
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
有益效果:
1.本发明通过将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;其中,编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、自适应标准化层、池化层和激活函数层;将提取到的特征输入候选区域网络中,得到候选区域框;将候选区域框输入坐标回归和分类网络中,对候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型。通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值、特征方差,缩放因子和平移因子等统计信息,能够提高标准化方法的域泛化能力,从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型,且该模型能够适应于单个的输入样本,适用性强。
2.本发明中的自适应标准化层采用插件化的模块,能够兼容深度卷积神经网络,即插即用,同时可以增强模型的域泛化能力。
3.本发明在自适应标准化层引入残差项,能够稳定自编码器学习到的统计信息的离散型。
4.本发明在将测试图像数据输入多场景的配电室物体检测模型时,由于自适应标准化层可根据输入测试图像数据自适应地计算相应的特征均值、特征方差和缩放因子等统计信息,而不依赖训练时期的训练图像数据相关信息,从而提高测试的准确性。
附图说明
图1为本发明实施例的多场景配电室物体检测模型的训练方法的流程图。
具体实施方式
为使本说明书实施例的目的、技术方案和优点更加清楚,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,第一方面,本发明提供一种多场景配电室物体检测模型的训练方法的流程图,包括但不限于由步骤S101~S103实现:
其中,首先需要说明的是,本实施例的网络架构以基础目标检测网络FPN 为基础,在其上进行改进和开发,本实施例的网络结构包括但不限于编码网络、候选区域网络和坐标回归和分类网络。
步骤S101.将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;
其中,所述编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;
在步骤S101中,将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取,包括但不限于由步骤S1011~S1014实现:
步骤S1011.将所述训练图像数据输入所述卷积层中进行卷积提取特征,得到多尺度的特征图x;
步骤S1012.通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ;
在步骤S1012中,通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ,计算公式如下:
其中,C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸,C ×H×W为特征图x的维度,μc和δc表示每一通道的特征均值和特征方差,i和 j分别表示特征图x的横纵坐标。
其中,需要说明的是,所述自编码器包括编码器和解码器,其中,编码器由三层全连接层构成,第一层编码层输入神经元为C个,输出神经元为C/2个,第二层输入神经元为C/2个,输出神经元为C/4个,第三层输入神经元为C/4 个,输出神经元为C/8个。其中,解码器也由三层全连接层构成,第一层解码层输入神经元为C/8个,输出神经元为C/4个,第二层输入神经元为C/4个,输出神经元为C/2个,第三层输入神经元为C/2个,输出神经元为C个。因此通过mean与std在经过编码器后,特征维度变为C/8*1,而经过解码器后,特征维度则恢复至C*1,与特征均值μ和特征方差δ相同。
步骤S1013.基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s;
在步骤S1013中,基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s,包括:
基于所述特征均值μ和特征方差δ,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan;
利用可学习的权重因子作为λ作为残差权重项,对所述特征均值μstan和特征方差δstan进行加权,同时利用1-λ约束所述特征均值μ和特征方差δ,计算公式如下:
其中,μfinal表示最终特征均值,δfinal表示最终特征方差;
利用最终特征均值μfinal和最终特征方差δfinal对所述特征图x进行标准化,得到所述特征图x_s,计算公式如下:
x_s=(x-μfinal)/(δfinal+ε); (3)
其中,ε为常数项,取值为1e-10,用于防止公式(3)的分母为0。
其中,需要说明的是,通过对比分析,特征均值μ和特征方差δ可共用同一编码器进行解码,也就是说特征均值μ和特征方差δ所使用的编码器参数共享,而解码器参数则各自独立,保持独立预测。在每个解码器后,还包括:
通过所述激活函数层中的relu激活函数,保证所述特征均值μstan和所述特征方差δstan离散且非负。
步骤S1014.基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm。
在步骤S1014中,基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm,包括:
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ;
利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化,得到所述特征图x_norm,计算公式如下:
xnorm=x_s*β+γ。 (4)
其中,需要说明的是,归一化中的自编码器同样由编码器与解码器构成。编码器由三层全连接层构成。第一层编码层输入神经元为C个,输出神经元为 C/2个,第二层输入神经元为C/2个,输出神经元为C/4个,第三层输入神经元为C/4个,输出神经元为C/8个。相同的,解码器也由三层全连接层构成。第一层解码层输入神经元为C/8个,输出神经元为C/4个,第二层输入神经元为 C/4个,输出神经元为C/2个,第三层输入神经元为C/2个,输出神经元为C个。因此通过mean与std在经过编码器后,特征维度变为C/8*1,而经过解码器后,特征维度则恢复至C*1,与μ和δ相同。与标准化过程相同,特征均值μ和特征方差δ可共用同一编码器进行解码,也就是说特征均值μ和特征方差δ所使用的编码器参数共享,而解码器参数则各自独立,保持独立预测。
在一种可能的设计中,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后,还包括:
采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活;
采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活,保证自适应学习的缩放因子β处于0到1之间。
步骤S102.将提取到的特征输入候选区域网络中,得到候选区域框;
步骤S103.将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型。
在步骤S103中,将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,包括:
将所述候选区域框输入坐标回归和分类网络中,采用非极大值抑制法,对所述候选区域框的置信度进行排序,选取前N个候选框作为最终候选区域框;其中,N为超参数;
对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作;
其中,需要说明的是,所述RoIAlign(Region Of Interest Align,感兴趣区域校准)是指:遍历每一候选区域框,保持浮点数边界不做量化,将候选区域分割成k×k个单元,每个单元的边界也不做量化,在每个单元中计算固定四个坐标位置,用双线性内插的方法计算出这四个位置的值,然后进行最大池化操作。
将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接,得到全连接的预测类别和全连接的预测矩形框。
作为一种可选的实施方式,所述方法还包括:
步骤S104.将单一场景下配电室的测试图像数据输入编码网络中,对所述多场景配电室物体检测模型进行测试。
基于上述公开的内容,通过自适应标准化层的自编码器进行自适应学习到离散性较高的特征均值、特征方差,缩放因子和平移因子等统计信息,能够提高标准化方法的域泛化能力,从而通过单一场景下的配电室图像数据能够训练得到多场景的配电室物体检测模型,且该模型能够适应于单个的输入样本,适用性强。通过将自适应标准化层采用插件化的模块,能够兼容深度卷积神经网络,即插即用,同时可以增强模型的域泛化能力。通过在自适应标准化层引入残差项,能够稳定自编码器学习到的统计信息的离散型。通过在将测试图像数据输入多场景的配电室物体检测模型时,由于自适应标准化层可根据输入测试图像数据自适应地计算相应的特征均值、特征方差和缩放因子等统计信息,而不依赖训练时期的训练图像数据相关信息,从而提高测试的准确性。
实施例二
第二方面,本发明提供一种多场景配电室物体检测模型的训练装置,包括:
特征提取单元,用于将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;
其中,所述编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;
候选区域框获取单元,用于将提取到的特征输入候选区域网络中,得到候选区域框;
模型获取单元,用于将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型。
在一种可能的设计中,所述装置还包括:
测试单元,用于将单一场景下配电室的测试图像数据输入编码网络中,对所述多场景配电室物体检测模型进行测试。
在一种可能的设计中,所述特征提取单元包括:
第一特征图获取子单元,用于将所述训练图像数据输入所述卷积层中进行卷积提取特征,得到多尺度的特征图x;
计算子单元,用于通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ;
第二特征图获取子单元,用于基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s;
第三特征图获取子单元,用于基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm。
在一种可能的设计中,所述计算子单元采用的计算公式如下:
其中,C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸,C ×H×W为特征图x的维度,μc和δc表示每一通道的特征均值和特征方差,i和 j分别表示特征图x的横纵坐标。
在一种可能的设计中,在基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s时,所述第二特征图获取子单元具体用于:
基于所述特征均值μ和特征方差δ,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan;
利用可学习的权重因子作为λ作为残差权重项,对所述特征均值μstan和特征方差δstan进行加权,同时利用1-λ约束所述特征均值μ和特征方差δ,计算公式如下:
其中,μfinal表示最终特征均值,δfinal表示最终特征方差;
利用最终特征均值μfinal和最终特征方差δfinal对所述特征图x进行标准化,得到所述特征图x_s,计算公式如下:
x_s=(x-μfinal)/(δfinal+ε); (3)
其中,ε为常数项,取值为1e-10,用于防止公式(3)的分母为0。
在一种可能的设计中,在利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan之后,所述第二特征图获取子单元还用于:
通过所述激活函数层中的relu激活函数,保证所述特征均值μstan和所述特征方差δstan离散且非负。
在一种可能的设计中,在基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm,所述第三特征图获取子单元具体用于:
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ;
利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化,得到所述特征图x_norm,计算公式如下:
xnorm=x_s*β+γ。 (4)
在一种可能的设计中,在利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后,所述第三特征图获取子单元还用于:
采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活;
采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活,保证自适应学习的缩放因子β处于0到1之间。
在一种可能的设计中,在将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框时,所述模型获取单元具体用于:
将所述候选区域框输入坐标回归和分类网络中,采用非极大值抑制法,对所述候选区域框的置信度进行排序,选取前N个候选框作为最终候选区域框;其中,N为超参数;
对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作;
将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接,得到全连接的预测类别和全连接的预测矩形框。
第三方面,本发明提供一种计算机设备,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面任意一种可能的设计中所述的多场景配电室物体检测模型的训练方法。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种多场景配电室物体检测模型的训练方法,其特征在于,包括:
将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取;
其中,所述编码网络至少包括一层特征提取模块,所述特征提取模块包括依次连接的卷积层、插件化的自适应标准化层、池化层和激活函数层;
将提取到的特征输入候选区域网络中,得到候选区域框;
将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,进而得到多场景配电室物体检测模型;
将单一场景下配电室的训练图像数据输入编码网络中,进行多尺度的特征提取,包括:
将所述训练图像数据输入所述卷积层中进行卷积提取特征,得到多尺度的特征图x;
通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ;
基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s;
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm;
通过统计学方法,利用所述自适应标准化层沿通道计算每一特征图x的特征均值μ和特征方差δ,计算公式如下:
其中,C、H和W分别表示表示特征图x的通道数、长度尺寸和宽度尺寸,C×H×W为特征图x的维度,μc和δc表示每一通道的特征均值和特征方差,i和j分别表示特征图x的横纵坐标;
基于所述特征均值μ和特征方差δ,利用所述自适应标准化层中的自编码器自适应标准化学习,得到特征图x_s,包括:
基于所述特征均值μ和特征方差δ,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan;
利用可学习的权重因子作为λ作为残差权重项,对所述特征均值μstan和特征方差δstan进行加权,同时利用1-λ约束所述特征均值μ和特征方差δ,计算公式如下:
其中,μfinal表示最终特征均值,δfinal表示最终特征方差;
利用最终特征均值μfinal和最终特征方差δfinal对所述特征图x进行标准化,得到所述特征图x_s,计算公式如下:
x_s=(x-μfinal)/(δfinal+ε); (3)
其中,ε为常数项,取值为1e-10,用于防止公式(3)的分母为0。
2.根据权利要求1所述的多场景配电室物体检测模型的训练方法,其特征在于,还包括:
将单一场景下配电室的测试图像数据输入所述编码网络中,对所述多场景配电室物体检测模型进行测试。
3.根据权利要求1所述的多场景配电室物体检测模型的训练方法,其特征在于,利用自编码器自适应标准化学习离散化的特征均值μstan和离散化的特征方差δstan之后,还包括:
通过所述激活函数层中的relu激活函数,保证所述特征均值μstan和所述特征方差δstan离散且非负。
4.根据权利要求1所述的多场景配电室物体检测模型的训练方法,其特征在于,基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习,得到特征图x_norm,包括:
基于所述特征均值μ和特征方差δ,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ;
利用所述缩放因子β与平移因子γ对所述特征图x_s进行归一化,得到所述特征图x_norm,计算公式如下:
xnorm=x_s*β+γ (4)。
5.根据权利要求4所述的多场景配电室物体检测模型的训练方法,其特征在于,利用所述自编码器自适应归一化学习缩放因子β与平移因子γ之后,还包括:
采用所述激活函数层中的tanh激活函数对所述平移因子γ进行激活;
采用所述激活函数层中的sigmoid激活函数对所述缩放因子β进行激活,保证自适应学习的缩放因子β处于0到1之间。
6.根据权利要求1所述多场景配电室物体检测模型的训练方法,其特征在于,将所述候选区域框输入坐标回归和分类网络中,对所述候选区域框进行筛选、定位和分类,得到预测类别和预测矩形框,包括:
将所述候选区域框输入坐标回归和分类网络中,采用非极大值抑制法,对所述候选区域框的置信度进行排序,选取前N个候选框作为最终候选区域框;其中,N为超参数;
对多个不同尺度的最终候选区域框对应的步长进行RoIAlign操作;
将每个尺度的最终候选区域框经过RoIAlign操作产生的映射在对应的训练图像数据上进行Concat连接,得到全连接的预测类别和全连接的预测矩形框。
7.一种计算机设备,其特征在于,包括依次通信相连的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1-6任意一项所述的多场景配电室物体检测模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110914202.7A CN113591771B (zh) | 2021-08-10 | 2021-08-10 | 一种多场景配电室物体检测模型的训练方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110914202.7A CN113591771B (zh) | 2021-08-10 | 2021-08-10 | 一种多场景配电室物体检测模型的训练方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591771A CN113591771A (zh) | 2021-11-02 |
CN113591771B true CN113591771B (zh) | 2024-03-08 |
Family
ID=78256945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110914202.7A Active CN113591771B (zh) | 2021-08-10 | 2021-08-10 | 一种多场景配电室物体检测模型的训练方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591771B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175615A (zh) * | 2019-04-28 | 2019-08-27 | 华中科技大学 | 模型训练方法、域自适应的视觉位置识别方法及装置 |
CN110188776A (zh) * | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN111310802A (zh) * | 2020-01-20 | 2020-06-19 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击防御训练方法 |
CN111428875A (zh) * | 2020-03-11 | 2020-07-17 | 北京三快在线科技有限公司 | 图像识别方法、装置及相应模型训练方法、装置 |
CN111489412A (zh) * | 2019-01-25 | 2020-08-04 | 辉达公司 | 用于使用神经网络生成基本逼真图像的语义图像合成 |
CN111507884A (zh) * | 2020-04-19 | 2020-08-07 | 衡阳师范学院 | 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统 |
CN112560717A (zh) * | 2020-12-21 | 2021-03-26 | 青岛科技大学 | 一种基于深度学习的车道线检测方法 |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
-
2021
- 2021-08-10 CN CN202110914202.7A patent/CN113591771B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111489412A (zh) * | 2019-01-25 | 2020-08-04 | 辉达公司 | 用于使用神经网络生成基本逼真图像的语义图像合成 |
CN110175615A (zh) * | 2019-04-28 | 2019-08-27 | 华中科技大学 | 模型训练方法、域自适应的视觉位置识别方法及装置 |
CN110188776A (zh) * | 2019-05-30 | 2019-08-30 | 京东方科技集团股份有限公司 | 图像处理方法及装置、神经网络的训练方法、存储介质 |
CN111310802A (zh) * | 2020-01-20 | 2020-06-19 | 星汉智能科技股份有限公司 | 一种基于生成对抗网络的对抗攻击防御训练方法 |
CN111428875A (zh) * | 2020-03-11 | 2020-07-17 | 北京三快在线科技有限公司 | 图像识别方法、装置及相应模型训练方法、装置 |
CN111507884A (zh) * | 2020-04-19 | 2020-08-07 | 衡阳师范学院 | 一种基于深层卷积神经网络的自适应图像隐写分析方法及系统 |
CN112560717A (zh) * | 2020-12-21 | 2021-03-26 | 青岛科技大学 | 一种基于深度学习的车道线检测方法 |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
基于深度学习的人脸活体检测;卢鑫;田莹;;辽宁科技大学学报;20191015(第05期);全文 * |
面向复杂路面的车道线智能检测方法研究;张翔;《《中国博士学位论文全文数据库工程科技Ⅱ辑》》;正文全文 * |
风电和光伏随机场景生成的条件变分自动编码器方法;王守相;陈海文;李小平;舒欣;;电网技术(第06期);正文全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113591771A (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102166458B1 (ko) | 인공신경망 기반의 영상 분할을 이용한 불량 검출 방법 및 불량 검출 장치 | |
WO2021048607A1 (en) | Motion deblurring using neural network architectures | |
CN112115783A (zh) | 基于深度知识迁移的人脸特征点检测方法、装置及设备 | |
CN108229673B (zh) | 卷积神经网络的处理方法、装置和电子设备 | |
CN106780342A (zh) | 基于稀疏域重构的单帧图像超分辨重建方法及装置 | |
US9536206B2 (en) | Method and apparatus for improving resilience in customized program learning network computational environments | |
CN111178162B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN111680757A (zh) | 一种基于自编码器的零样本图像识别算法及系统 | |
CN112418149A (zh) | 一种基于深卷积神经网络的异常行为检测方法 | |
CN115358952A (zh) | 一种基于元学习的图像增强方法、系统、设备和存储介质 | |
CN111626379A (zh) | 肺炎x光图像检测方法 | |
CN111445388A (zh) | 一种图像超分辨重建模型训练方法、船只跟踪方法及装置 | |
CN112967251B (zh) | 图片检测方法、图片检测模型的训练方法及装置 | |
CN113591771B (zh) | 一种多场景配电室物体检测模型的训练方法和设备 | |
CN113313179A (zh) | 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法 | |
CN113313021A (zh) | 一种基于低质量影像识别的深度学习模型构建方法 | |
CN116468894A (zh) | 面向锂电池极片可监督学习的距离自适应掩码生成方法 | |
CN116502899A (zh) | 基于人工智能的风险评级模型生成方法、装置及存储介质 | |
CN116503314A (zh) | 用于门制造的质量检测系统及方法 | |
CN114119334B (zh) | 基于注意力机制的自动学习嵌入代价的图像隐写方法 | |
CN113609957A (zh) | 一种人体行为识别方法及终端 | |
CN112464989A (zh) | 一种基于目标检测网络的闭环检测方法 | |
CN114445343A (zh) | 一种显微镜宫颈癌tct图像细胞鲁棒检测方法 | |
Fan et al. | Joint transformer progressive self‐calibration network for low light enhancement | |
US20240273855A1 (en) | Machine learning-based image noise learning server and image noise reduction device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |