CN110751174A

CN110751174A - 一种基于多任务级联卷积网络的表盘检测方法和系统

Info

Publication number: CN110751174A
Application number: CN201910854170.9A
Authority: CN
Inventors: 韩守东; 王俊凯; 郑丽君; 陈阳
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-02-04

Abstract

本发明公开了一种基于多任务级联卷积网络的表盘检测方法和系统，属于目标检测技术领域。对整幅图片中的仪表盘区域进行检测并对表盘中的特征点进行检测定位，采用了多任务的学习机制，充分利用了子任务之间的关系，并行实现了检测仪表盘区域与表盘特征点定位的双重任务，并且用了一种新的在线困难样本挖掘策略，训练效果比人工选择样本更好。通过对数据集的训练生成相应的训练模型，用训练模型对测试集图片进行表盘检测与表盘特征点定位，实现了在不同背景下对表盘区域的准确检测与表盘特征点的准确定位同时轻量级的卷积神经网络设计可以达到实时检测的效果。

Description

一种基于多任务级联卷积网络的表盘检测方法和系统

技术领域

本发明属于目标检测技术领域，更具体地，涉及一种基于多任务级联卷积网络的表盘检测方法和系统。

背景技术

仪表刻度盘读数的自动提取是工业检验界研究的最深入、最广泛的课题之一。表盘仪表结构简单，维护方便，不受磁场干扰。由于其可靠性高、价格低等优点，在科学实验和工业生产中得到了广泛的应用。这些仪器的结果通常是人工获得的，费时费力，还会导致阅读错误。阅读速度变慢、效率降低、重复率提高，这些都会对结果的准确性产生显著的影响。因此，如何使用计算机系统自动准确地读出表盘仪表的结果是一个迫切需要解决的问题。

卷积神经网络(CNN)具有较强的自学习和处理大规模数据的能力，应用十分广泛，在很多计算机视觉和模式识别任务中都取得了良好的性能。CNN作为最常用的深度学习方法之一，因其在目标识别、人脸信息提取、图像检索等计算机视觉领域的诸多任务上的出色表现而备受欢迎。CNN是一个端到端的学习架构，利用收集到的信息，它直接从原始数据训练描述特征，这意味着减少了设计特征的人工工作量。同时，CNN具有足够的容量和合理的模型结构，能够处理大规模的数据。

在训练过程中，挖掘困难样本对增强检测的能力至关重要。然而，传统的困难样本挖掘通常采用离线方式，这大大增加了手工操作。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种基于多任务级联卷积网络的表盘检测方法和系统，其目的在于不同背景下对不同类型的表盘区域与表盘特征点进行实时、准确的定位。

为实现上述目的，按照本发明的一个方面，提供了一种基于多任务级联卷积网络的表盘检测方法，所述方法包括以下步骤：

S1.选取表盘样本数据集，分别对各表盘样本的表盘框与表盘特征点进行标签标定；

S2.基于表盘样本数据集，分别构建表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集；

S3.基于表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集，训练多任务级联卷积网络，对表盘数据集进行表盘检测、边界框回归和表盘特征点定位，得到训练好的多任务级联卷积网络模型；

S4.将待检表盘图片输入至训练好的多任务级联卷积网络模型，得出待检表盘图片的表盘和特征点；

所述多任务级联卷积网络包括串联的候选卷积网络P-Net、细化卷积网络R-Net和输出卷积网络O-Net；其中，

所述P-Net用于表盘检测，其输入为表盘样本图像，输出为预测边界框；

所述R-Net用于边界框回归，其输入为表盘样本图像和P-Net网络生成的预测边界框，输出为回归框；

所述O-Net用于表盘特征点定位，其输入为表盘样本图像和R-Net网络生成的回归框，输出为定位到的表盘框和表盘特征点位置。

具体地，P-Net的训练数据主要由4部分组成，包括：1)正标签数据，即交并比IoU＞0.65，表盘的损失值为0，回归框值为0；2)负标签数据，即IoU＜0.4，表盘的损失值为0，回归框的值为0；3)中间数据，即0.4≤IoU≤0.65，表盘的损失值为0，回归框的值为0；4)把训练数据输入网络中，根据P-Net网络输出，最后计算总的损失值。

具体地，所述P-Net首先获取表盘候选框和边界回归变量，然后候选框通过边界框回归变量进行校正，最后用非极大值抑制算法合并高度重合的边界框。

具体地，所述R-Net通过以下步骤实现：

(1)从表盘样本图像中将边界框对应的图像裁剪出来；

(2)对裁剪图像进行R-Net表盘模型推理，得到每个边界框的分类信息和坐标回归值；

(3)对边界框进行非极大值抑制，得到需要校正的边界框；

(4)对需要校正的边界框，根据边界框的坐标回归值进行校正，得到回归框。

具体地，表盘特征点为：表盘的起始刻度、中间刻度、终止刻度以及盘心。

具体地，该方法还包括：在步骤S1和步骤S2之间，对表盘样本数据集中样本进行数据增强，得到数据增强后的表盘样本数据集。

具体地，该方法采用了在线困难样本挖掘策略，用于表盘分类任务。

具体地，该方法还包括：在步骤S4之后，根据检测到的特征点对表盘进行倾斜校正。

具体地，综合所有任务的损失函数为：

其中，N表示训练样本的数量，a_j表示任务j的重要度，

为样本类型的指示器，

表示表盘/非表盘分类任务的损失，

表示边界框回归任务的损失，表示表盘特征点定位的损失，p_i表示通过P-Net网络预测出样本x_i是表盘的概率，

表示正确的标注表盘，表示从R-Net网络中获取回归坐标，

为正确的标注边界框坐标，

是从O-Net网络中获取的特征点坐标，是正确的标注特征点坐标。

为实现上述目的，按照本发明的另一个方面，提供了一种基于多任务级联卷积网络的表盘检测系统，该系统包括：

标定模块，用于选取表盘样本数据集，分别对各表盘样本的表盘框与表盘特征点进行标签标定；

样本训练集构建模块，用于基于表盘样本数据集，分别构建表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集；

训练模块，用于基于表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集，训练多任务级联卷积网络，对表盘数据集进行表盘检测、边界框回归和表盘特征点定位，得到训练好的多任务级联卷积网络模型，所述多任务级联卷积网络包括串联的候选卷积网络P-Net、细化卷积网络R-Net和输出卷积网络O-Net；其中，所述P-Net用于表盘检测，其输入为表盘样本图像，输出为预测边界框；所述R-Net用于边界框回归，其输入为表盘样本图像和P-Net网络生成的预测边界框，输出为回归框；所述O-Net用于表盘特征点定位，其输入为表盘样本图像和R-Net网络生成的回归框，输出为定位到的表盘框和表盘特征点位置；

检测模块，用于将待检表盘图片输入至训练好的多任务级联卷积网络模型，得出待检表盘图片的表盘和特征点。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

1、本发明通过引入多任务级联卷积网络结构，采用了多任务的学习机制，充分利用了各个子任务之间的关系，同时实现了检测仪表盘区域和定位表盘特征点的双重任务，而且轻量级的卷积神经网络设计可以达到实时检测与定位的效果，为后续的读数部分大大的提供了便利，而且提高了准确性，对摄像机的拍摄角度没有要求，算法具有很好的普适性和鲁棒性。

2、本发明使用了一种在线困难样本挖掘策略，也就是训练时忽略那些对模型性能的增强作用很小的简单样本，实现在线操作，这样训练的效果比人工选择样本更好，实现了在不同背景下对表盘区域的准确检测与表盘特征点的准确定位。

附图说明

图1为本发明实施例提供的一种基于多任务级联卷积网络的表盘检测方法流程图；

图2(a)为本发明实施例提供的表盘框的标签标定图；

图2(b)为本发明实施例提供的表盘特征点的标签标定图；

图3为本发明实施例提供的P-Net的结构图；

图4为本发明实施例提供的R-Net的结构图；

图5为本发明实施例提供的O-Net的结构图；

图6为本发明实施例提供的多任务级联卷积网络检测表盘的均值平均精度；

图7为本发明实施例提供的多任务级联卷积网络检测表盘的准确率变化曲线；

图8为本发明实施例提供的多任务级联卷积网络定位表盘特征点的平均误差图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

首先，对本发明涉及到的一些专业术语进行解释。

重叠度IoU：对于某个图像的子目标图像，对该子目标图像进行标定的预测框，把最终标定的预测框与真实子图像的自然框(一般是由人工标定)的某种相关性叫做IoU(Intersection over Union)，两个框的交叉面积与合并面积之比是常用的标准。

边界框回归：当IoU小于某个值时，一般会直接将其对应的预测结果丢弃，而边界框检测的目的是对该预测窗口进行调整，让其尽可能接近真实值。其逻辑是在图像检测当中，子窗口一般使用四维向量(x，y，w，h)表示，即图像的左上角坐标还有宽和高，在上一步预测窗口对真实窗口偏差很大的情况下，使预测窗口经过某种变换更接近真实窗口。

NMS：抑制不是极大值的元素，搜索局部极大值。该算法的主要思想是：将所有的框进行得分排序，选择最高分及其对应的框；然后遍历剩余的框，若与当前最高得分框的重合面积(IoU)大于设定的阈值，就将其对应的框删除；继续从未处理的框中选一个得分最高的，重复之前的步骤。

本发明使用了一种在线困难样本挖掘方法用于目标检测和对齐，该方法能够自动适应当前的训练过程。另外，本发明采用了多任务级联卷积网络结构，通过多任务学习将表盘检测与表盘特征点定位两种任务结合起来。本发明实现了在不同背景下对表盘区域的准确检测与表盘特征点的准确定位，同时轻量级的卷积神经网络设计可以达到实时检测与定位的效果。

如图1所示，本发明提供一种基于多任务级联卷积网络的表盘检测方法，所述方法包括以下步骤：

步骤S1.选取表盘样本数据集，分别对各表盘样本的表盘框与表盘特征点进行标签标定。

本实施例选取2000张不同背景下的多种类型的刻度表盘样本图片，干扰比较多的情况也同样适用，用于制作表盘样本训练集。对表盘框进行标签标定，标签“clock”标定表盘框的左上角坐标与右下角坐标。

本发明对指针式仪表盘的类型没有限制，因为无论指针式表盘的量程、刻度数为多少，都会有起始刻度、中间刻度、终止刻度以及盘心位置四个关键特征点。对表盘特征点进行标签标定，标签“point0”、“point1”、“point2”、“point3”分别标定表盘的起始刻度、中间刻度、终止刻度以及盘心四个特征点坐标，生成相应的标定文件。

对表盘框与表盘特征点进行标定并生成相应的标定文件之后，批量提取标定文件中的坐标信息，生成表盘框与表盘特征点坐标信息的文件。

本实施例用标图软件labelme分别对表盘框与表盘特征点进行标签标定。如图2(a)所示，表盘框的标签标定即表盘框的左上角坐标与右下角坐标，如图2(b)所示，表盘特征点的标签标定即表盘的起始刻度、中间刻度、终止刻度以及盘心四个特征点坐标，生成json标定文件。

步骤S2.对表盘样本数据集中样本进行数据增强，得到数据增强后的表盘样本数据集。

为满足深度学习对大量训练样本数量的需求，本发明对训练数据进行了数据增强，仿射变换、剪切、旋转、增加噪声等操作都可以生成更多的样本，本发明用仿射变换以及水平翻转两种方式对训练数据集进行数据增强，就可以生成足够多的训练样本。

步骤S3.基于表盘样本数据集，分别构建表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集。

多源训练由于每个CNN(Convolutional Neural Network，卷积神经网络)都有不同的任务，所以在学习的过程中会有不同的训练数据集。分类任务使用正负样本，回归框预测使用正样本和中间样本，表盘特征点定位预测使用的是有特征点标注的标签。

P-Net(Proposal Network，候选卷积网络)的训练数据主要由4部分组成，包括：

1)正标签数据，即交并比IoU＞0.65，表盘的损失值为0，回归框值为0；

2)负标签数据，即IoU＜0.4，表盘的损失值为0，回归框的值为0；

3)中间数据，即0.4≤IoU≤0.65，表盘的损失值为0，表盘轮廓数据即回归框的值为0；

4)把训练数据输入网络中，然后根据P-Net网络输出，最后计算总的损失值。

优选地，多任务级联卷积神经网络采用一种新的在线困难样本挖掘策略，用于表盘分类任务，以适应训练过程。实验表明，该方法比人工选择样本进行反向传播具有更好的性能。使用在线挖掘困难样本的方法，在原始的分类器训练完之后，进一步进行困难样本的挖掘，实现在线操作。其作用是忽略那些对模型性能的增强作用很小的简单样本，把难以学习的图片重点再次训练，使得训练的效果更好。输入是原始分类器训练之后分出的困难样本，输出是分类好的样本。具体地，对每一小批量样本，按照前向传播所有样本的损失值进行排序，然后选取前70％的样本作为困难样本，那么在反向传播中，就只计算困难样本的梯度。

R-Net(Refine Network，细化网络)的训练数据主要由两部分组成：P-Net网络生成的回归框与表盘关键特征点组成。其中，回归框训练数据生成的主要流程为：

1、读取表盘数据集的图片，然后输入P-Net做推断，这样每个图片就会生成大量的回归框。

2、把每张图片生成的回归框与该图片真实的标签对应的框做IoU比较。类似于P-Net的训练数据，根据IoU不同的大小，生成正样本数据(IoU＞0.65)，负样本数据(IoU＜0.4)，中间样本数据(0.4≤IoU≤0.65)。

3、相对于真实样本的标签所对应的框，这里的每个正样本数据、负样本数据与中间样本数据，具体包括P-Net网络输出的回归框进行裁剪后的图片和对应的回归框坐标偏移量。

O-Net(Output Network，输出网络)的训练数据类似于R-Net。

步骤S4.基于表盘/非表盘分类任务样本训练集、边界框回归任务样本训练集和表盘特征点坐标定位任务样本训练集，训练多任务级联卷积网络，对表盘数据集进行表盘检测、边界框回归和表盘特征点定位，得到训练好的多任务级联卷积网络模型。

该多任务级联卷积网络包括：图像预处理和三级卷积神经网络。

预处理的输入是原图，作用就是将原图缩放到不同的尺度，以满足卷积级联网络的图像尺度要求，从而构建一个图像金字塔，为级联网络的训练提供了条件。

第一阶段

P-Net是一个全连接卷积神经网络，它首先大致的获取表盘候选框和边界回归变量，然后候选框通过边界框回归变量进行校正。最后用NMS(非极大值抑制，Non-MaximumSuppression)算法合并高度重合的候选框。

如图3所示，P-Net的结构如下：P-Net是一个全连接卷积神经网络，包括卷积层和最大池化层，作用均是将输入的图片转换成不同大小的特征图。P-Net模型输入是一个12*12大小的图片，训练前要把生成的训练数据转换成12*12*3的。

1、通过10个大小为3*3*3的卷积核与2*2的最大池化操作，生成10个5*5的特征图。

2、通过16个大小为3*3*10的卷积核，生成16个3*3的特征图。

3、通过32个大小为3*3*16的卷积核，生成32个1*1的特征图。

4、针对32个1*1的特征图，可以通过2个1*1*32的卷积核，生成2个1*1的特征图用于分类；4个1*1*32的卷积核，生成4个1*1的特征图用于回归框的判断；10个1*1*32的卷积核，生成10个1*1的特征图用于表盘轮廓点的判断。经过P-Net网络输出一个X*Y大小的特征网络，该网络的每个网格的坐标。

第二阶段

通过更为复杂的细化网络R-Net拒绝大量的非表盘窗口，细化网络可以进一步细化候选窗口。将所有的候选框作为下层网络R-Net的输入，这个网络将会进一步拒绝大量效果不好的候选框，接下来同样是通过边框回归变量进行校正和NMS算法进行合并。

R-Net的结构如下：P-Net网络将所有的候选框作为下层网络R-Net的输入，这个网络将会进一步拒绝大量效果不好的候选框。R-Net的输入数据主要是两个方面：一是原始的输入图片；二是原始图片经过P-Net的表盘模型推理之后所生成的回归框的信息。流程大致如下：

1、从原始图片中将回归框对应的图像裁剪出来，重新生成大小为24*24的图像。需要注意的是P-Net网络推理出的回归框坐标可能会超出原始图片的大小。此时需要对图片做一定的处理，把坐标值限定在原始图片范围内，超出来的数据值则为0。

2、进行R-Net的表盘模型的推理，得到每个回归框的分类信息和坐标的回归值。

3、根据得到的情况，对回归框进行非极大值抑制得到需要校正的回归框。

4、从第三步中得到的回归框与R-Net所得的回归值，执行回归框的校正，从而得到最终的回归框坐标。

如图4所示，更详细地，

1、R-Net模型输入图片的大小为24*24，通过28个大小为3*3*3的卷积核与3*3的最大池化操作后，生成28个11*11的特征图。

2、通过48个大小为3*3*28的卷积核与3*3的最大池化操作之后，生成48个4*4的特征图。

3、再通过64个大小为2*2*48的卷积核之后，生成了64个3*3的特征图。

4、然后把3*3*64的特征图转换成大小为128的全连接层；将回归框分类问题，转换成大小为2的全连接层；将边框回归问题转换成大小为4的全连接层；将表盘关键点定位转换成大小为10的全连接层。

第三阶段

如图5所示，O-Net与R-Net结构较为相似，但是这个网络的作用是通过更多的监督来识别表盘的区域。尤其是，该网络将会输出表盘的四个特征点。由原始输入图片与P-Net生成预测的边界框。然后将原始输入图片与P-Net生成的边界框通过R-Net生成校正后的边界框，再将其通过O-Net生成校正后的边界框和表盘的特征点。

1、O-Net模型的输入图片大小为48*48*3，先通过32个大小为3*3*3的卷积核与3*3的最大池化操作之后，转换成32个23*23的特征图。

2、然后通过64个大小为3*3*32的卷积核与3*3的最大池化操作转换成64个10*10的特征图。

3、再通过64个大小为3*3*64的卷积核与3*3的最大池化操作，转换成64个4*4的特征图。

4、接着通过128个大小为2*2*64的卷积核，转换成128个3*3的特征图。

5、通过全连接操作转换成大小为256的全连接层。

6、最后生成了大小为2的回归框的分类特征、大小为4的回归框位置的回归特征与大小为10的表盘位置回归特征。

表盘/非表盘分类任务

表盘/非表盘分类任务可以看作是一个两类问题，通过最小化其交叉熵损失来解决。对每个样本x_i，交叉熵损失函数如下：

其中，p_i表示通过P-Net卷积神经网络预测出样本x_i是表盘的概率，

表示正确的标注，

边界框回归任务

边界框回归任务表示为回归问题，通过最小化其欧式损失来解决。对于每个候选窗口，预测它和最近的正确标注之间的偏移量(offset)，例如回归框的左上角坐标还有宽和高。损失函数如下：

其中，

表示从R-Net卷积神经网络中获取回归坐标，

为正确的标注坐标。坐标值包括左上角坐标、宽度和高度。

表盘特征点坐标定位任务

与边框回归类似，其损失函数为：

其中，

是从O-Net卷积神经网络中获取的特征点坐标，

是正确的标注坐标，坐标值包括：起始刻度坐标、中间刻度坐标、终止刻度坐标以及盘心坐标。

训练某个特定的任务时，其他任务的损失值为零，因此综合所有任务的损失函数为：

其中，N表示训练样本的数量，a_j表示每个任务的重要度，在P-Net和R-Net中，α_det＝1，α_box＝0.5，α_landmark＝0.5，而在O-Net中为了检测表盘特征点坐标有更高的准确率，参数设为α_det＝1，α_box＝0.5，α_landmark＝1，

为样本类型的指示器，这样的情况下，可以使用随机梯度下降去训练这些CNN网络。在训练的过程中，批量处理的大小(batch-size)设置为512。

步骤S5.将待检表盘图片输入至训练好的多任务级联卷积网络模型，得出待检表盘图片的表盘和特征点。

精确率(Precision)、召回率(Recall)以及结合精确率与召回率的F1值都存在单点的局限性，现用能够有效的展示算法的全局性能指标mAP(mean Average Precision)以及准确率(Accuracy)来作为多任务级联卷积神经网络算法检测指针式仪表盘在测试数据集上的性能指标，结果如图6与图7所示。多任务级联卷积神经网络算法定位表盘特征点在测试数据集上的性能指标则用平均误差(mean error)，结果如图8所示。

该方法还包括：S6.根据检测到的特征点对表盘进行倾斜校正。

通过实时检测到的表盘特征点计算仿射变换矩阵，从而自动校正倾斜表盘。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多任务级联卷积网络的表盘检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，P-Net的训练数据主要由4部分组成，包括：1)正标签数据，即交并比IoU>0.65，表盘的损失值为0，回归框值为0；2)负标签数据，即IoU<0.4，表盘的损失值为0，回归框的值为0；3)中间数据，即0.4≤IoU≤0.65，表盘的损失值为0，回归框的值为0；4)把训练数据输入网络中，根据P-Net网络输出，最后计算总的损失值。

3.如权利要求1所述的方法，其特征在于，所述P-Net首先获取表盘候选框和边界回归变量，然后候选框通过边界框回归变量进行校正，最后用非极大值抑制算法合并高度重合的边界框。

4.如权利要求1所述的方法，其特征在于，所述R-Net通过以下步骤实现：

(1)从表盘样本图像中将边界框对应的图像裁剪出来；

(3)对边界框进行非极大值抑制，得到需要校正的边界框；

5.如权利要求1所述的方法，其特征在于，表盘特征点为：表盘的起始刻度、中间刻度、终止刻度以及盘心。

6.如权利要求1至5任一项所述的方法，其特征在于，该方法还包括：在步骤S1和步骤S2之间，对表盘样本数据集中样本进行数据增强，得到数据增强后的表盘样本数据集。

7.如权利要求1至5任一项所述的方法，其特征在于，该方法采用了在线困难样本挖掘策略，用于表盘分类任务。

8.如权利要求1至5任一项所述的方法，其特征在于，该方法还包括：在步骤S4之后，根据检测到的特征点对表盘进行倾斜校正。

9.如权利要求1至5任一项所述的方法，其特征在于，综合所有任务的损失函数为：