CN114529583A

CN114529583A - 基于残差回归网络的电力设备跟踪方法及跟踪系统

Info

Publication number: CN114529583A
Application number: CN202210125850.9A
Authority: CN
Inventors: 郭志民; 姜亮; 王棨; 张焕龙; 刘昊; 田杨阳; 卢明; 李哲; 梁允; 赵健; 刘善峰; 毛万登; 王超; 袁少光; 王津宇; 贺翔; 魏小钊; 马斌; 苗蒙恩; 齐企业
Original assignee: State Grid Henan Electric Power Co Ltd; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Current assignee: State Grid Henan Electric Power Co Ltd; Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-05-24
Anticipated expiration: 2042-02-10
Also published as: CN114529583B

Abstract

一种基于残差回归网络的电力设备跟踪方法及系统，包括获取目标模板图像与当前帧图像，包括：根据所述电力设备的位置信息，分别提取所述目标模板图像与当前帧图像的深度特征作为目标模板的特征与当前帧搜索区域的特征；进行前背景分类和边界框回归，得到粗分类得分和粗定位结果。根据粗定位结果，使用聚合方法得到聚合特征；根据聚合特征优化细分类得分与残差回归结果；通过点乘操作得到最终分类置信度图，根据残差回归结果与所述粗定位结果，通过求和操作得到目标定位结果；根据最终分类置信度图与目标定位结果，计算出所述当前帧图像的跟踪结果。本发明提升了目标的定位精度。

Description

基于残差回归网络的电力设备跟踪方法及跟踪系统

技术领域

本发明属于电力巡检维护领域，具体涉及一种基于残差回归网络的电力设备跟踪方法及跟踪系统。

背景技术

随着我国电力需求的不断增长，电力系统中的设备越来越多，为了保持这些电力设备的可靠性运行，必须对其进行实时监测。通常，电力系统采用大规模的无人机、机器人、监控摄像头等智能化终端代替人眼对电力设备进行全天候实时监测。通过基于深度学习的计算机视觉技术，对这些智能化设备拍摄到的影像进行目标检测和目标跟踪等视觉方面的处理，从而准确、实时地识出电力设备是否有异常。

近年来，基于孪生网络的目标跟踪算法在保持实时速度的同时又能产生很好的跟踪精度，因此受到了广泛的关注。然而，这些跟踪算法分别使用独立的分类网络和回归网络进行前背景预测和目标定位，忽略了分类置信度和回归精度之间的不匹配问题，从而影响目标跟踪的精度。这就导致在实际的跟踪环境中，目标物体可能会受到光照，遮挡，尺度变化等影响。因此，亟需提出一种能有效保证分类置信度和回归精度一致的跟踪方法。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，基于孪生网络的跟踪器长期存在的分类回归之间的不匹配问题，提出一种基于残差回归网络的电力设备跟踪方法以及跟踪系统。

本发明采用如下的技术方案。

一种基于残差回归网络的电力设备跟踪方法，所述跟踪方法用于实现对电力设备巡检图像的目标检测和跟踪，将第一帧图像作为目标模板图像，将后续待跟踪检测的图像依次作为当前帧图像，其特征在于，所述方法包括如下步骤：

步骤1，根据所述电力设备的位置信息，分别提取所述目标模板图像与当前帧图像的深度特征作为目标模板的特征与当前帧搜索区域的特征；

步骤2，通过图注意力机制，将所述目标模板的特征传递到所述当前帧搜索区域的特征中，以获得响应图；

步骤3，对所述响应图分别使用具有4层卷积的分类网络和回归网络进行前背景分类和边界框回归，得到粗分类得分和粗定位结果；

步骤4，根据所述粗定位结果，使用关键点特征聚合方法得到聚合特征；

步骤5，对所述聚合特征进行分类优化细分类得分，对所述聚合特征进行残差回归优化残差回归结果；

步骤6，根据所述细分类得分与所述粗分类得分，通过点乘操作得到最终分类置信度图，根据所述残差回归结果与所述粗定位结果，通过求和操作得到目标定位结果；

步骤7，根据所述最终分类置信度图与目标定位结果，计算出所述当前帧图像的跟踪结果。

进一步的，

所述深度特征利用预设的Inception v3网络进行提取。

进一步的，

所述步骤1还包括：

预先对所述当前帧图像进行裁剪以固定尺寸。

进一步的，

所述步骤2具体包括：

步骤S21：计算相似度：e＝(W_sh_s)^T(W_th_t)，其中s和t分别是当前帧搜索区域的特征与目标模板的特征，W为线性转换矩阵,T代表转置，h_t和h_s分别为目标模板的特征中结点的特征和当前帧搜索区域的特征中结点的特征；

步骤S22：将相似度e进行softmax归一化得出目标模板和当前帧搜索区域特征结点之间的注意力a，并得到响应图：f_s＝∑((aW_vh_t)||(W_vh_s))，其中W_v为线性转换矩阵。

进一步的，

所述步骤4具体包括：

步骤S41，利用粗定位结果包含的当前帧搜索区域中的电力设备的四条边界的位置坐标，并使用双线性插值法计算出目标边界特征，公式为：

其中(x,y)为边界的位置坐标，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)分别为位于点(x,y)上下左右的四个点的特征值，f(x,y)即为求得的目标边界特征；

步骤S42：对于每一条边界，计算出目标边界特征f(x,y)最大值，将该最大值对应的位置(x,y)作为目标特征的关键点；

步骤S43：将所述关键点与所述响应图进行连接操作，得到聚合后的目标特征：

其中c代表第c个通道，I_c(i,j)为响应图中宽为i，高为j的第c个通道特征，(x₀,y₀)、(x₁,y₁)分别表示粗定位结果对应的目标左上角坐标和右下角坐标，w和h为粗定位结果对应的目标宽和高，N为设定的参数。

进一步的，

所述设定的参数N为10。

进一步的，

所述步骤5具体包括：

步骤S51：使用聚合特征进行分类得到细分类损失为：

其中

为结点(i,j)的细分类得分，q_(x,y)为预设的正负样本标签，L_CE代表交叉熵损失函数，||(t_(i,j))为指示函数。t_(i,j)代表回归标签，

分别是点(i,j)到目标左、上、右、下的距离，所述细分类损失用于优化细分类得分；

步骤S52：使用聚合特征进行残差回归得到残差回归结果的损失为：

其中

为结点(i,j)的残差回归结果，L_IOU代表IOU损失函数，所述残差回归结果的损失用于优化残差回归结果。

进一步的，

所述目标定位结果为：

l^r＝l+Δl,t^r＝t+Δt

r^r＝r+Δr,b^r＝b+Δb

其中(l,t,r,b)和(Δl,Δt,Δr,Δb)分别代表粗定位结果和残差回归结果。

进一步的，

所述步骤7具体包括：

步骤S71，计算出所述最终分类置信度图中的最大值；

步骤S72，将所述最大值的位置对应的矫正后的目标定位结果绘制边界框作为当前帧的跟踪结果，具体为：

其中λ为平衡权重，p_(i,j)为限制目标大幅变化的尺度惩罚项，H_(i,j)表示余弦窗。

一种基于残差回归定位的电力设备精确跟踪系统，包括：图像获取模块、特征提取模块、图注意力机制计算模块、卷积网络模块、聚合特征模块、残差回归模块与跟踪结果模块；

所述图像获取模块用于获取目标模板图像与当前帧图像；

所述特征提取模块用于提取深度特征；

所述图注意力机制计算模块用于获取响应图；

所述卷积网络模块用于根据4层卷积的分类网络和回归网络进行前背景分类和边界框回归，得到粗分类得分和粗定位结果；

所述聚合特征模块用于根据聚合特征得到细分类得分；

所述残差回归模块用于根据聚合特征得到残差回归结果；

所述跟踪结果模块用于根据最终分类置信度图与目标定位结果，计算出当前帧图像的跟踪结果。

本发明的有益效果在于，与现有技术相比，本发明具有以下优点：

(1)本公开将残差学习策略应用于回归网络中，在反向传播时残差回归网络对目标定位的变化更加敏感，可以更细微地调整标记目标的跟踪边界框，提升了目标的定位精度。

(2)本公开使用目标的粗定位信息对目标特征进行增强，网络提取的特征更加丰富，提升了跟踪的鲁棒性。

附图说明

图1为本发明与其他算法在OTB100通用数据集上的跟踪效果对比图。

图2为本发明在几个电力设备跟踪场景上的跟踪效果比较图。

图3是一种基于残差回归定位的电力设备精确跟踪方法的流程图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

本发明的目的是为了提供一种基于残差回归定位的电力设备精确跟踪方法。该方法将残差学习策略应用于回归网络中，在反向传播时残差回归网络对目标定位的变化更加敏感，可以更细微地调整标记目标的跟踪边界框，提升了目标的定位精度；并且使用目标的粗定位信息对目标特征进行增强，网络提取的特征更加丰富，提升了跟踪的鲁棒性。

本发明的实现过程如下：

步骤S1：根据视频序列第i帧图像(i＝1)中的电力设备目标位置信息，截取固定大小的目标区域，利用预先训练好的Inception v3网络提取深度特征作为目标模板的特征；在一些实施例中，为了统一目标区域的尺寸，可以将目标区域设置为127*127的大小，由于图像中每一个像素点包含三要素(例如，RGB三要素，或深度、色调、饱和度三要素)，需要说明的是，所述深度特征即为深度要素。因此目标区域的全部信息的宽、高、通道数分别为127*127*3。训练后的目标模板的特征的宽、高、通道数分别可以为13*13*256。

步骤S2：读取视频序列的第(i+1)帧图像并裁剪出当前帧搜索区域，利用Inception v3网络提取当前帧搜索区域的深度特征，得到当前帧搜索区域的特征；裁剪的目的是使输入到特征提取网络中的图片(当前帧搜索区域)大小固定，因为不同数据集的图像尺寸大小不一样。在一些实施例中，可以使用opencv中的crop函数和resize函数进行裁剪和缩放为固定尺寸。在一些实施例中，当前帧搜索区域的尺寸为287*287，当前帧搜索区域的全部信息的宽、高、通道数分别为287*287*3。训练后的当前帧搜索区域的特征的宽、高、通道数分别为25*25*256。

步骤S3：将步骤S1中的目标模板的特征图通过图注意力机制传递到当前帧搜索区域特征中获得响应图；

所述步骤S3方法具体为：

步骤S31：将目标模板的特征和当前帧搜索区域的特征中的每一格都视为一个结点，对目标模板的特征和当前帧搜索区域的特征中的每个结点使用点乘得到结点间的相似度：e＝(W_sh_s)^T(W_th_t)。其中s和t分别代表当前帧搜索区域的特征与目标模板的特征，W为线性转换矩阵。T代表转置，h_t和h_s分别为目标模板的特征图中结点的特征和当前帧搜索区域的特征图中结点的特征。

步骤S32：将相似度e进行softmax归一化得出目标模板和当前帧搜索区域特征结点之间的注意力a，并且将其与节点特征融合得到响应图：f_s＝∑((aW_vh_t)||(W_vh_s))。需要说明的是，W_s、W_t与W_v这三个线性转换矩阵是有初始值的矩阵，且初始值可以是随机添加的，之后会在网络的训练学习过程中，自动优化调整为合适的参数，这里的“自动优化”是指在网络模型训练过程中，根据步骤S61的细分类损和步骤S62的残差回归结果的损失，使用随机梯度下降方法进行优化。使用随机梯度下降方法(一种常用的标准优化算法，涉及深度学习的基础原理相关知识)对线性转换矩阵内的数值进行改变，使其达到最优；模型训练完成后的跟踪阶段该值是固定的。该“自动优化”方法适用于网络模型训练的过程中的所有会改变的参数，比如下面提到的“分类网络”和“回归网络”中卷积核的参数。训练好后本模型中所有参数都是固定的。由于这些是现有技术，此处不再赘述。||为向量连接符号。

步骤S4：对上述响应图分别使用具有4层卷积的分类网络和回归网络进行前背景分类和边界框回归，分别得到粗分类得分和粗定位结果。

其中，分类回归网络分别具有4层卷积层，每一层卷积层都是有256维3*3的卷积核组成。每一维3*3的卷积核就是长宽分别为3，具有9个参数，256维就是有256*9个参数。这些参数的数值在训练过程中会优化改变(自动优化)，模型训练好后跟踪过程中参数是固定的。

需要说明的是，粗分类得分和粗定位结果的本质都是将目标模板的特征嵌入到当前帧搜索区域的特征中，得到的新的特征。粗分类得分宽、高、通道数分别为25*25*1，也就是只有一层宽为25，高为25的矩阵；用来判断这625(25*25＝625)个位置是目标(前景)还是背景，因此称为“前背景分类。

粗定位结果宽、高、通道数分别为25*25*4，也就是4层宽为25，高为25的矩阵；这四层分别代表这625(25*25＝625)个位置对应距离估计出的目标上、下、左、右的距离，(第一层为上、第二层为下…)，根据这625个位置每个位置对应的四个距离可以得到目标的粗略位置。

步骤S5：使用关键点特征聚合方法根据粗定位结果对特征进行增强，得到增强后的聚合特征，该聚合特征包含有利于目标定位的边界信息。

所述步骤S5方法具体为：

步骤S51，利用粗定位结果包含的当前帧搜索区域中的电力设备的四条边界的位置坐标，并使用双线性插值法计算出目标边界特征，公式为：

其中(x,y)为边界的位置坐标，f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)分别为位于点(x,y)上下左右的四个点的特征值，f(x,y)即为求得的目标边界特征；需要说明的是，由于当前帧搜索区域的特征的宽、高、通道数分别为25*25*256，因此f(Q₁₁)、f(Q₁₂)、f(Q₂₁)、f(Q₂₂)均为长度为256的向量。

步骤S52：对于每一条边界，计算出目标边界特征f(x,y)最大值，将该最大值对应的位置(x,y)作为目标特征的关键点。4条边界一共有4个关键点。

步骤S53：将关键点与响应图进行连接操作，得到聚合后的目标特征：

其中c代表第c个通道，I_c(i,j)为响应图中宽为i，高为j的第c个通道特征，(x₀,y₀)、(x₁,y₁)分别表示粗定位结果对应的目标左上角坐标和右下角坐标，w和h为粗定位结果对应的目标宽和高，N为设定的参数，N的值可以为10。

步骤S6：将步骤S5中的聚合特征进行分类和残差回归，优化细分类得分和残差回归结果；具体包括：

步骤S61：使用聚合特征进行分类得到细分类损失为：

其中

为结点(i,j)的细分类得分，q_(x,y)表示设置的正负样本标签(正样本为1或负样本为0)，L_CE为交叉熵损失函数，||(t_(i,j))为指示函数。t_(i,j)代表回归标签，

分别是点(i,j)到目标左、上、右、下的距离。需要说明的是，细分类得分

初始是0到1之间的随机值，在该步骤中，通过细分类损失L_{ra_cls}对细分类得分

进行评价，不断缩小细分类得分与正负样本标签的差距，从而使得细分类得分更准确。该目标指的是上述四条边界组成的区域，因此，如果点(i,j)在四条边界组成的区域外，则

这四个距离均为负数，否则均为正数。

步骤S62：使用聚合特征进行残差回归得到残差回归结果的损失为：

其中

为结点(i,j)的残差回归结果，L_IOU代表IOU损失函数。需要说明的是，此处残差回归结果的损失和残差回归结果之间的关系与上述细分类损失和新分类得分之间的关系类似。

如上面问题S2和S5所述，不是直接优化的“残差回归结果”，而是优化的网络模型里的参数，例如特征提取网络inceptionv3中定的卷积层，分类回归网络中的卷积层等包含的参数。优化的方法为问题S2中提到的“自动优化”方法，根据残差回归结果的损失使用随机梯度下降方法进行优化。

步骤S7：把细分类得分与粗分类得分通过点乘操作得出最终分类置信度图，把残差回归结果与粗定位结果通过求和操作得出矫正后的目标定位结果；需要说明的是，最终分类置信度图是大小为25*25的矩阵，里面有625个数值，数值大小在0-1之间，数值越大代表该数值所在位置为目标的概率越大。

步骤S7中把残差回归结果与粗定位结果通过求和操作得出矫正后的目标定位结果的方法为：

l^r＝l+Δl,t^r＝t+Δt

r^r＝r+Δr,b^r＝b+Δb

步骤S8：利用矫正后的目标定位结果绘制边界框作为当前帧的跟踪结果；并令i＝i+1，返回步骤S2，直至遍历完整个视频序列。步骤S8具体包括：

步骤S81，计算出最终分类置信度图中的最大值；

步骤S82，将该最大值位置对应的矫正后的目标定位结果绘制边界框作为当前帧的跟踪结果，具体为：

“该最大值位置对应的矫正后的目标定位结果”是指在步骤S7中矫正后的目标定位结果中的625(25*25＝625)个位置里面，与q的位置相同的那一个位置。

其中，q为最终分类置信度图中的最大值，λ为平衡权重，p_(i,j)为限制目标大幅变化的尺度惩罚项，H_(i,j)表示余弦窗。需要说明的是，该最大值位置对应的矫正后的目标定位结果是指在步骤S7中矫正后的目标定位结果中的625(25*25＝625)个位置里面，与q的位置相同的那一个位置。此处的平衡权重，尺度惩罚项，余弦窗三个参数都是超参数，也就是手动设置的数值，大小范围在0到1之间。不同的跟踪数据集会使用不同的参数值以达到最准确的跟踪效果。

本发明实例是使用Pytorch框架在一台Intel i7-10700CPU和NVDIA RTX 2060的计算机上进行实验。在通用数据集OTB100上与最近的先进跟踪方法进行了对比，其中还包括在线跟踪器Ocean；图1是对实际场景中电力设备跟踪效果的比较，我们的跟踪器优于SiamGAT等先进的跟踪方法，而且还能保持实时跟踪速度；图2是本发明和几个先进跟踪算法在真实电力设备跟踪场景中的跟踪效果图，可以看出本发明具有更准确的定位精度和更好的鲁棒性，能够高效处理电力设备跟踪任务。

图3是一种基于残差回归定位的电力设备精确跟踪方法的流程图，所述跟踪方法用于实现对电力设备巡检图像的目标检测和跟踪，将第一帧图像作为目标模板图像，将后续待跟踪检测的图像依次作为当前帧图像，所述方法包括如下步骤：

步骤2，提取所述当前帧图像的深度特征作为当前帧搜索区域的特征；

步骤3，通过图注意力机制，将所述目标模板的特征传递到所述当前帧搜索区域的特征中，以获得响应图；

步骤4，对所述响应图分别使用具有4层卷积的分类网络和回归网络进行前背景分类和边界框回归，得到粗分类得分和粗定位结果。

步骤5，根据所述粗定位结果，使用关键点特征聚合方法得到聚合特征；

步骤6，对所述聚合特征进行分类优化细分类得分，对所述聚合特征进行残差回归优化残差回归结果；

步骤7，根据所述细分类得分与所述粗分类得分，通过点乘操作得到最终分类置信度图，根据所述残差回归结果与所述粗定位结果，通过求和操作得到目标定位结果；

步骤8，根据所述最终分类置信度图与目标定位结果，计算出所述当前帧图像的跟踪结果。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。