CN114282656A

CN114282656A - 一种用于目标识别的网络系统及方法

Info

Publication number: CN114282656A
Application number: CN202111633903.XA
Authority: CN
Inventors: 曹宁; 符国晖; 韦波; 蒋晓东; 彭澎; 罗展标; 李福权
Original assignee: Shenzhen Power Supply Co ltd
Current assignee: Shenzhen Power Supply Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-05

Abstract

本发明提供一种用于目标识别的网络系统及方法，包括，依次连接的基础网络层、特征层及回归层；所述基础网络层，用以对输入的目标图像提取不同特征并对通过预设的计算规则对提取的特征进行处理；所述基础网络层至少包括多个滤波器和卷积层，所述滤波器用以提取目标图像的特征；所述卷积层用以通过预设的反向传播算法处理提取的特征；特征层，用以对提取的特征进行融合，并对融合后的特征进行训练；回归层，用以通过预设的多层的目标预选框对训练后的特征进行目标的进行选取，得到预测区域。本发明实现通过轻量级网络在满足性能上良好和电脑内存更小的同时在本地样本集的测试环境下有良好的表现。

Description

一种用于目标识别的网络系统及方法

技术领域

本发明涉及电力系统自动化技术领域，特别是涉及一种用于目标识别的网络系统及方法。

背景技术

随着深度学习的发展，卷积神经网络越来越普遍。总体趋势是，通过更深和更复杂的网络得到更高的精度，但这种网络往往在模型大小上和运行速度上没有多大的优势。一种轻量级、低延迟(精度还尚可)的网络模型。大概分为压缩模型和直接训练小型网络两种。已有的是基于MobileNet V1的目标检测网络速度较快但精度损失较大。

目前，带有仪表自动识别功能的智能巡检机器人被大量应用于变电站、发电厂、安装有电气设备的管廊等环境中，以完成仪表示数或状态自动识别、读取、预警等功能。实际环境中表计种类较多，每一种表计都会新训练一套参数，每多一种表计类型，机器人的资源就会消耗一部分，用于存储参数和分配内存。然而计算机资源是有限的。因此，如何通过轻量级网络在满足性能上良好和电脑内存更小的前提下，同时在本地样本集的测试环境下有良好的表现。

发明内容

本发明的目的在于，提出一种用于目标识别的网络系统及方法，实现通过轻量级网络在满足性能上良好和电脑内存更小的同时在本地样本集的测试环境下有良好的表现。

一方面，提供一种用于目标识别的网络系统，包括：

依次连接的基础网络层、特征层及回归层；

所述基础网络层，用以对输入的目标图像提取不同特征并对通过预设的计算规则对提取的特征进行处理；所述基础网络层至少包括多个滤波器和卷积层，所述滤波器用以提取目标图像的特征；所述卷积层用以通过预设的反向传播算法处理提取的特征；

特征层，用以对提取的特征进行融合，并对融合后的特征进行训练；

回归层，用以通过预设的多层的目标预选框对训练后的特征进行目标的进行选取，得到预测区域。

优选地，所述卷积层内的卷积核数量与所述滤波器的大小值和输出通道数对应设置，所有卷积核等效全连接。

优选地，所述特征层至少包括六层神经网络，每一层神经网络至少包括依次连接的BatchNorm层、Scale层及Relu层；

所述BatchNorm层，用以对每一个批处理的数据进行归一化处理，并利用滑移平均计算更新全局的统计量；

所述Scale层，用以对所述BatchNorm层输出的数据进行线性变换；

所述Relu层，用以对所述Scale层的输出量通过预设的线性整流激活函数进行计算，将计算结果输出至下一层神经网络或作为整个神经网络的输出。

优选地，所述回归层根据训练后的特征通过预设的多层的目标预选框选取，并根据选取的特征检测到不同尺度的预测区域，将所述预测区域映射到所述目标图像上。

优选地，所述回归层还用于根据以下公式将所述预测区域映射到所述目标图像上：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(b^w/d^w)，l^h＝log(b^h/d^h)

其中，N表示目标预选框的数量，g表示预测区域，x表示预测区域的类别，cx、cy、w和h表示目标预选框的中心点坐标及宽、高。

另一方面，还提供一种用于目标识别的方法，通过所述的网络系统进行实现，包括：

输入的目标图像；

对输入的目标图像提取不同特征并对通过预设的计算规则对提取的特征进行处理；

对提取的特征进行融合，并对融合后的特征进行训练；

通过预设的多层的目标预选框对训练后的特征进行目标的进行选取，得到预测区域。

优选地，还包括：

通过所述BatchNorm层对提取的特征进行归一化处理，并利用滑移平均计算更新全局的统计量；

通过所述Scale层对特征进行线性变换；

通过所述Relu层对线性变换后的特征通过预设的线性整流激活函数进行计算，并将计算结果输出。

优选地，还包括：

根据训练后的特征通过预设的多层的目标预选框选取，并根据选取的特征检测到不同尺度的预测区域，将所述预测区域映射到所述目标图像上。

优选地，根据以下公式将所述预测区域映射到所述目标图像上：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(bw/d^w)，l^h＝log(b^h/d^h)

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的用于目标识别的网络系统及方法，定义一套轻量级的网络，满足在性能上良好和电脑内存更小的深度学习网络，同时在本地样本集的测试环境下有良好的表现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例中一种用于目标识别的网络系统的示意图。

图2为本发明实施例中一种用于目标识别的网络系统的示意图。

图3为本发明实施例中一种用于目标识别的网络系统的示意图。

图4为本发明实施例中一种用于目标识别的方法的主流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明提供的一种用于目标识别的系统的一个实施例的示意图。在该实施例中，包括：依次连接的基础网络层、特征层及回归层；

具体实施例中，如图2所示，所述卷积层内的卷积核数量与所述滤波器的大小值和输出通道数对应设置，所有卷积核等效全连接。也就是，设置的feature map(滤波器)的大小是10x10，输出通道数是1280。新增加卷积层fc7，输入10x10x1280，卷积核采用1x1x1280等效全连接层，确保输出blob 10x10x1280。

具体地，所述特征层至少包括六层神经网络，每一层神经网络至少包括依次连接的BatchNorm层、Scale层及Relu层；所述BatchNorm层，用以对每一个批处理的数据进行归一化处理，并利用滑移平均计算更新全局的统计量；所述Scale层，用以对所述BatchNorm层输出的数据进行线性变换；所述Relu层，用以对所述Scale层的输出量通过预设的线性整流激活函数进行计算，将计算结果输出至下一层神经网络或作为整个神经网络的输出。可以理解的是，添加新的特征层，分别命名分别为conv8_1、conv8_2、conv9_1、conv9_2、conv10_1、conv10_2，额外添加了6层网络。添加的特征层卷积核的设定分别是10x10x320、5x5x640、5x5x160、3x3x320、3x3x160和1x1x320。此外，每一层都会经过BatchNorm+Scale+Relu处理，用于加速模型收敛和控制过拟合。其中BatchNorm+Scale一般是连在一起用的。理论支持公式如下：

输入数据是β＝x1…m共m个数据，输出是yi＝BN(x)，公式从上到下依次是求出此批次数据x的均值、求出此次batch的方差、对x做归一化和引入缩放(γ)和平移变量(β)。

再具体地，所述回归层根据训练后的特征通过预设的多层的目标预选框选取，并根据选取的特征检测到不同尺度的预测区域，将所述预测区域映射到所述目标图像上。可以理解的是，归层用于后期基于每一层的defaultbox的尺度规格，进行目标的回归和预测，选择了block4-6、block5_2、fc7、conv8_2、conv9_2、conv10_2共6层feature用于回归，如下表所示，

选择不同的尺寸的feature做回归是为了准确检测到不同尺度的物体。回归层的设计需的参数包括每一层的default-boxes、min_size/max_size、aspect_ratio和Step。主要控制当前尺寸层的预测区域在原图尺寸的映射。以featuremap上每个点的中心点，生成一系列同心的Defaultbox(然后中心点坐标乘上step，就能从featuremap的位置映射到原图位置)，最底层的Smin＝0.2，做高层的Smax＝0.95，其他层通过下面公式计算得到：

m是网络选取的回归层的数目(m＝5，第一层单独定义)，sk是对应每层的min_size和max_xize

使用不同的ratio值通过以下公式进行计算：

ar＝{2，3}

w表示default的宽，h表示default的高

上述公式计算生成的均是矩形的default的框，此外在每个cell上还会有两个最小和最大的正方形default框，边长计算公式分别是min_size和√(min_size*max_size)。最后在每一个cell都会有如图3所示的defaultboxes，

再具体地，所述回归层还用于根据以下公式将所述预测区域映射到所述目标图像上：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(b^w/d^w)，l^h＝log(b^h/d^h)

其中，N表示目标预选框的数量，g表示预测区域，x表示预测区域的类别，cx、cy、w和h表示目标预选框的中心点坐标及宽、高。也就是，Loss函数的选择，Loc回归选择使用SMOOTH_L1，conf的计算选择softmax。

公式中的N表示match到GroundTruth的defaultbox的数量，aplha默认为1，目的是调整两种loss之间的比例。g是GroundTruth box，x是匹配了的目标框是否属于哪类别。cx、cy、w和h表示的是边界框的中心点坐标及宽高。

位置回归：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(b^w/d^w)，l^h＝log(b^h/d^h)

Confidence回归：

如图4所示，为本发明提供的一种用于目标识别的方法的一个实施例的示意图。在该实施例中，所述方法包括以下步骤：

输入的目标图像；

对提取的特征进行融合，并对融合后的特征进行训练；具体地，通过所述BatchNorm层对提取的特征进行归一化处理，并利用滑移平均计算更新全局的统计量；通过所述Scale层对特征进行线性变换；通过所述Relu层对线性变换后的特征通过预设的线性整流激活函数进行计算，并将计算结果输出。

通过预设的多层的目标预选框对训练后的特征进行目标的进行选取，得到预测区域。具体地，根据训练后的特征通过预设的多层的目标预选框选取，并根据选取的特征检测到不同尺度的预测区域，将所述预测区域映射到所述目标图像上。还根据以下公式将所述预测区域映射到所述目标图像上：

l^cx＝(b^cx-d^cx)/d^w，l^cy＝(b^cy-d^cy)/d^h

l^w＝log(b^w/d^w)，l^h＝log(b^h/d^h)

关于用于目标识别的方法的具体实现过程，可参考上述的用于目标识别的网络系统，在此不再赘述。

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。