CN112990198A

CN112990198A - 一种用于水表读数的检测识别方法、系统及存储介质

Info

Publication number: CN112990198A
Application number: CN202110300300.1A
Authority: CN
Inventors: 高学; 陈子威
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-18
Anticipated expiration: 2041-03-22
Also published as: CN112990198B

Abstract

本发明公开了一种用于水表读数的检测识别方法、系统及存储介质，包括采集并标注含有水表表盘的图像；对图像进行数据处理与数据增强；构建教师网络与学生网络；对教师网络和学生网络分别进行训练；使用训练后的教师网络和数据标注信息共同指导训练学生网络，最后将待识别表盘图像输入学生网络进行识别。本发明能较好地应对水表图像检测需求，并能以较小的运算量达到较好的检测性能，从而提高实际生产应用时算法的运算速度，降低算力需求，提高并发处理能力，因此具有较好的实际应用价值。

Description

一种用于水表读数的检测识别方法、系统及存储介质

技术领域

本发明涉及智能识别领域，具体涉及一种用于水表读数的检测识别方法、系统及存储介质。

背景技术

水务数据采集是水能源运营单位一项繁琐而重要的工作。采取人工抄表的方式需要极大的人力、物力投入。使用摄像头自动定时采集水表图像，并上传云端服务器由计算机自动完成水表读数的检测和识别是近年来新兴的数据采集方式。

水表读数对准确度要求较高，但云端服务器资源较为昂贵且算力有限，使用结构较深，运算量较大的检测模型成本较高，执行速度也较慢，不利于并发地处理大量的检测识别请求。

如何在保持较好准确率的同时，提高检测算法的速度，降低检测模型的规模，是一个重要的技术问题。此领域常用的方法包括剪枝、量化、模型压缩、知识蒸馏等方法。知识蒸馏方法常用于分类任务，通过构建教师网络或学生网络并进行协同训练，能使得较为轻量的学生网络具备接近教师网络的泛化性能，在实践中具有良好效果，但需要工作在输出的logits上。对于检测问题，RPN网络、非极大值抑制等环节通常会产生检测框不能对齐的问题，使得这一技巧基本无法应用于靠近结果输出的logits上。若将其应用于网络中部的隐藏层上，通常也难以取得较好的效果。

发明内容

为了克服现有技术存在的缺点与不足，本发明提供一种用于水表读数的检测识别方法、系统及存储介质。

本方法基于CenterNet框架，不需要只能顺序执行的非极大值抑制逻辑，而是采用MaxPooling来代替；并且作为全卷积网络，该算法没有二阶检测算法的繁琐步骤与anchor对齐问题，也扫除了将分类领域常用的知识蒸馏技巧应用于检测的障碍。

本发明采用如下技术方案：

一种用于水表读数的检测识别方法，包括：

S1采集并标注含有水表表盘的图像；

S2对图像进行数据处理与数据增强；

S3构建教师网络与学生网络；

S4对教师网络和学生网络分别进行训练；

S5使用训练后的教师网络和数据标注信息共同指导训练学生网络；

S6待识别表盘图像输入学生网络进行识别。

进一步，所述S1中，图像标注以旋转矩形框标注。

进一步，所述S2中，对图像进行数据处理与数据增强，具体为：将数据增强后的图片减去各通道均值，除以各通道方差，再进行归一化，并转化为教师网络及学生网络所需的N*3*512*512的张量。

进一步，所述教师网络和学生网络均包括：

特征提取网络，对输入张量维度N*3*512*512的图片进行特征提取，输出特征维度为N*2048*16*16；

上采样层，对特征提取网络的输出进行上采样，输出特征维度N*64*128*128，并由此得到中心预测分支的输出特征维度为N*C*128*128，C表示分类类别数，中心偏移预测分支的输出特征维度为N*2*128*128,2分别代表预测的中心点在宽、高方向上的量化误差补偿，宽高预测分支输出维度为N*2*128*128,2分别代表检测框的宽,高；倾角预测分支输出维度为N*1*128*128,1代表检测框倾角。

进一步，所述S4中，对教师网络和学生网络分别训练，具体为利用图像和标注信息，使用反向传播算法，分别训练教师网络和学生网络。

进一步，在训练阶段，教师网络和学生网络仅有特征提取网络不同，对两个网络分别进行N个Epoch的训练，使得两个网络的损失一致，且考虑倾角引入的损失，其损失函数如下：

L＝L_Heatmap+λ_offL_Offset+λ_whL_wh+λ_angleL_angle

λ_off，λ_wh，λ_angle为调节系数，使得各残差大致保持同一数量级，L_Heatmap表示中心预测分支产生的残差，L_Offset表示中心偏移预测分支产生的残差，L_wh表示宽高预测分支产生的残差，L_angle表示倾角预测分支产生的残差。

进一步，所述S5使用训练后的教师网络和数据标注信息共同指导训练学生网络，具体为：

固定教师网络参数，使用学生网络各预测分支的输出与教师网络预测分支的输出损失，以及学生网络预测和标签的损失相加，共同反向传播，训练学生网络。

进一步，计算学生网络各预测分支与教师网络各预测分支的损失，具体为：

对于二者的中心预测分支，将该分支经过一个Sigmoid层后，计算特征图间的均方损失：

其中，L′_heatmap表示教师和学生网络中心预测分支的残差，

表示教师网络中心预测分支特征图，

表示学生网络中心预测分支特征图；

对于二者的中心偏移，宽高，倾角预测分支，取教师网络的中心预测分支过Sigmoid后3*3Maxpooling的结果取channel-wise的最大值作为系数，对每个中心点计算两网络各分支的L1损失之后，乘上这个系数，作为各分支的残差：

其中，L′_wh,L′_offset,L′_angle分别表示教师和学生网络中心预测分支，中心偏移分支，角度预测分支的残差，Max(A,1)表示取张量A维度1上的最大值，并保留此维度，MaxPool(A,3)表示对张量A进行3*3Maxpooling运算。

一种用于水表读数的检测识别系统，包括：

采集模块：用于获取水表表盘图像，并进行标注；

处理模块：用于对标注后的图像进行处理与增强；

构建及训练模块：用于构建教师网络与学生网络，并对教师网络和学生网络分别进行训练；

二次训练模块：用于使用训练后的教师网络和数据标注信息共同指导训练学生网络；

识别模块：用于将待识别表盘图像输入二次训练后的学生网络进行识别。

一种存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现所述的检测识别方法。

本发明的有益效果：

本方法图像标注以旋转矩形框标注，能检测旋转矩形框，更适合水表读数检测任务；

本方法引入知识蒸馏技巧，并结合网络特点，根据任务特点进行修改定制，使用较低的运算量，获得较好的性能。

附图说明

图1是本发明的工作流程图；

图2是教师网络与学生网络的结构示意图；

图3是本发明实施例1中的水表检测识别结果示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1

如图1-图3所示，一种用于水表读数的检测识别方法，包括如下步骤：

S1采集并标注含有水表表盘的图像。

具体为：采集的表盘图像需包含水表表盘内容，且宽与高中较短边应大于512像素。裁剪图像，并使用标注工具，采用旋转矩形框方式，标记水表读数字轮框和水表指针框的像素位置，以矩形的四个边角的像素坐标的形式记录在文件中。

S2对图像进行数据处理与数据增强。

具体为：所述数据增强操作，包括色彩抖动、加噪声、水平翻转、随机旋转、随机裁剪等增加运算。所述数据处理是将数据增强后的图片减去各通道均值，除以各通道方差，再进行归一化，并转化为教师网络及学生网络所需的N*3*512*512的张量输入到教师网络及学生网络中。

S3构建教师网络与学生网络；

所述教师网络和学生网络均设计倾角预测分支，并且引入倾角预测损失，使网络获得此前不具备的预测旋转矩形框的能力。教师网络和学生网络基本结构相同，包括特征提取网络(下采样层)、上采样层、中心预测分支、中心偏移预测分支、宽高预测分支及倾角预测分支。所述教师网络的特征提取网络参数规模、网络深度皆显著大于学生网络；提取特征能力更强。二者下采样率均为32，从而保证可以通过后续训练，将教师网络所学的知识转移至较轻量的学生网络上，保留学生网络运算速度快特点的同时，提升学生网络性能。

网络输入张量维度均为N*3*512*512,N表示批大小；特征提取网络下采样率为32，输出特征维度为N*2048*16*16；上采样层上采样倍率为8，输出特征维度N*64*128*128；中心预测分支输出特征维度为N*C*128*128，C表示分类类别数；中心偏移预测分支输出特征维度为N*2*128*128,2分别代表预测的中心点在宽，高方向上的量化误差补偿；宽高预测分支输出维度为N*2*128*128,2分别代表检测框的宽,高；倾角预测分支输出维度为N*1*128*128,1代表检测框倾角。

1和2表示通道数，两个通道分别代表预测的目标定位框的宽，高相对于图片宽，高的比值，取值范围为0～1。1也表示通道数，代表预测的目标定位框相对于坐标轴对齐的矩形框的旋转角度，在弧度制表示下，与弧度π的比值，取值范围为0～1。

S4对教师网络和学生网络分别进行训练；

首先分别进行N个Epoch的训练，使得两个网络的损失基本稳定。两者的损失函数完全一致，且考虑了倾角引入的损失，具体损失函数如下所示：

L＝L_Heatmap+λ_offL_Offset+λ_whL_wh+λ_angleL_angle

λ_off，λ_wh，λ_angle为调节系数，使得各残差大致保持同一数量级。

L_Heatmap表示中心预测分支产生的残差，具体如下：

其中，α＝2,β＝4，为用于调节正负和难易样本对梯度贡献的超参数。N代表关键点的数量，

代表该位置上的预测值，Y_xyc代表标签值。

L_offset表示中心偏移预测分支产生的残差，具体如下

其中，

表示预测偏移值，p表示目标中心像素位置，R表示下采样率为4，

表示

的整数近似结果。

L_wh表示宽高预测分支产生的残差，具体如下：

其中，

表示预测尺寸，s_k表示实际尺寸。

L_angle表示倾角预测分支产生的残差，具体如下：

其中，

代表预测的旋转角，a_k代表实际倾角。

学生网络进行两次训练，第一阶段的训练是教师网络和学生网络分别使用标签的监督信息进行各自独立的训练。第二阶段是利用教师网络的预测输出和标签的信息，共同监督学生网络进行训练。

具体为：将知识蒸馏方法融合到检测模型--利用教师网络和数据标注信息共同指导学生网络的训练。固定此前训练好的教师网络，仅使用其进行前向传播，将教师网络的前向传播产生的结果作为软化标签，指导学生网络的学习--即引入新的一部分损失：

S5.1学生网络各预测分支与教师网络各预测分支的损失函数，其特征在于，对于中心预测分支，将学生网络与教师网络的该分支结果经过一个Sigmoid层后，计算特征图间的均方损失：

其中，L′_heatmap表示教师和学生网络中心预测分支的残差，

表示教师网络中心预测分支特征图，

表示学生网络中心预测分支特征图。采用Sigmoid处理主要是考虑到实际置信度区间会落在0-1之间。

S5.2对于学生网络与教师网络的中心偏移、宽高、倾角预测分支等，取教师网络的中心预测分支经过Sigmoid运算后，进行3*3Maxpooling运算并取channel-wise的最大值作为系数；对每个中心点计算两网络各分支的L1损失之后，乘上该系数，作为各分支的残差，具体公式如下：

其中，L′_wh,L′_offset,L′_angle分别表示教师和学生网络中心预测分支，中心偏移分支，角度预测分支的残差。Max(A,1)表示取张量A维度1上的最大值，并保留此维度，MaxPool(A，3)表示对张量A进行3*3Maxpooling运算。

此处的Maxpooling起到了类非极大值抑制的效果。在channel维度上选取最大的值作为此检测框的代表，这里基于CenterNet的基本假设--每个中心点只有一个目标，这也符合实际水表检测的需要。

将此损失与S4步骤中学生网络和标签之间原有的损失相加，并进行反向传播，再训练学生网络N个Epoch，即可将教师网络中的知识蒸馏至学生网络，在不增加推断计算量的情况下，提高推断过程的泛化性能。

S6待识别表盘图像输入学生网络进行识别。

在实际推断中，只使用学生网络进行前向推断。使用3*3MaxPooling代替传统非极大值抑制算法，取结果中置信度最高的50个点，并对它们进行置信度阈值过滤，例如滤掉置信度小于0.5的检测结果，即可得到最终水表读数检测结果，如图3所示。

本方法设计了倾角预测分支，引入了倾角预测的损失计算，使之具备此前不具备的检测旋转矩形框的能力，更好地适应水表读数检测的需求。并且本发明结合了各检测分支特征输出的实际物理含义，设计了符合任务特点和需求的教师网络和学生网络间的损失函数，将知识蒸馏技巧巧妙地引入了此检测算法中，获得了良好的效果。

实施例2

一种用于水表读数的检测识别系统，包括：

采集模块：用于获取水表表盘图像，并进行标注；

处理模块：用于对标注后的图像进行处理与增强；

实施例3

一种存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时，实现实施例1所述的检测识别方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种用于水表读数的检测识别方法，其特征在于，包括：

采集并标注含有水表表盘的图像；

对图像进行数据处理与数据增强；

构建教师网络与学生网络；

对教师网络和学生网络分别进行训练；

使用训练后的教师网络和数据标注信息共同指导训练学生网络；

待识别表盘图像输入学生网络进行识别。

2.根据权利要求1所述的检测识别方法，其特征在于，图像标注以旋转矩形框标注。

3.根据权利要求1所述的检测识别方法，其特征在于，对图像进行数据处理与数据增强，具体为：将数据增强后的图片减去各通道均值，除以各通道方差，再进行归一化，并转化为教师网络及学生网络所需的N*3*512*512的张量。

4.根据权利要求1所述的检测识别方法，其特征在于，所述教师网络和学生网络均包括：

上采样层，对特征提取网络的输出进行上采样，输出特征维度N*64*128*128，并由此得到中心预测分支的输出特征维度为N*C*128*128，C表示分类类别数，中心偏移预测分支的输出特征维度为N*2*128*128，2分别代表预测的中心点在宽、高方向上的量化误差补偿，宽高预测分支输出维度为N*2*128*128，2分别代表检测框的宽，高；倾角预测分支输出维度为N*1*128*128，1代表检测框倾角。

5.根据权利要求1所述的检测识别方法，其特征在于，所述对教师网络和学生网络分别训练，具体为利用图像和标注信息，使用反向传播算法，分别训练教师网络和学生网络。

6.根据权利要求5所述的检测识别方法，其特征在于，在训练阶段，教师网络和学生网络仅有特征提取网络不同，对两个网络分别进行N个Epoch的训练，使得两个网络的损失一致，且考虑倾角引入的损失，其损失函数如下：

L＝L_Heatmap+λ_offL_offset+λ_whL_wh+λ_angleL_angle

7.根据权利要求1所述的检测识别方法，其特征在于，所述使用训练后的教师网络和数据标注信息共同指导训练学生网络，具体为：

8.根据权利要求7所述的检测识别方法，其特征在于，计算学生网络各预测分支与教师网络各预测分支的损失，具体为：