CN114399754A

CN114399754A - 一种基于sw-fssd的数字仪表字符检测方法

Info

Publication number: CN114399754A
Application number: CN202111660490.4A
Authority: CN
Inventors: 肖振远; 宗起振; 陶征勇; 李实秋; 管金酉; 卢沁欣
Original assignee: Guodian Nanjing Automation Co Ltd
Current assignee: Guodian Nanjing Automation Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-26

Abstract

本发明公开了一种基于SW‑FSSD的数字仪表字符检测方法，其包括：构建SW‑FSSD模型作为数字仪表字符检测模型，并进行模型训练；利用IPC采集数字仪表的字符图像；将字符图像输入训练好的数字仪表字符检测模型；利用数字仪表字符检测模型对字符图像进行特征提取并分类，将模型的高低层予以特征融合获得字符类别，输出字符检测结果。本发明能够提升数字仪表字符检测的准确性和有效性，满足牵引变电所数字仪表字符智能化检测的需求。

Description

一种基于SW-FSSD的数字仪表字符检测方法

技术领域

本发明涉及一种基于SW-FSSD的数字仪表字符检测方法，属于数字仪表字符检测技术领域。

背景技术

数字仪表的数码管中包含由金属丝制成的阳极和阴极，并充以不同的稀有气体，借助电极供电，从而发出不同的颜色光，进而显示相关字符数据。由于成本低，稳定性好，数字仪表广泛用于电力行业，累计记录电压、电流等电力数据，以及实时监控显示变电站、供电所等电压、温度的信息，保障电力系统的安全稳定运行。然而，数字仪表只能显示电力数据，之后还需要通过人工对显示的字符数据进行读取和再记录，操作速度慢且容易引入人工误差。社会发展正逐渐向智能化电力系统以及新能源设备倾斜，对电力的依赖程度日益凸显，由人工记录的数字仪表字符明显满足不了电力行业数据的日益增长。通过对数字仪表字符实时图像的采集、图像智能识别，自动读取出数值将是未来电力监控系统发展的趋势，而仪表字符识别的准确性和有效性又进一步影响牵引变电站向自动化、综合化、可视化、智能化方向发展进程。因此，急需一种可靠稳定仪表字符识别方法。

数字仪表字符数值的检测属于字符检测的一个方向，作为计算机视觉领域的研究热点，传统机器学习对字符的检测方法主要通过图像处理技术，研究的字符大多背景简单、不易受环境影响。而数字仪表字符容易受背景字符印迹、发光不均匀、光照等因素影响，采用传统的图像处理方法，人工设计提取特征复杂耗时、鲁棒性差，检测准确率和检测速度难以保证。近几年，随着社会的发展、人工智能技术的出现以及计算机硬件水平的提高，基于深度学习的数字仪表字符检测方法采用端到端的卷积神经网络自动学习特征，相比于分阶段进行的图像处理方法，检测速度有了很大的提升，且由于使用卷积神经网络自动获取目标特征，避免人工设计特征的各种缺陷，获得了较好的性能。但是，基于深度学习的方法在对数字仪表字符检测时依然存在问题，主要原因是主干网络特征提取语义信息不够丰富和采集样本时易产生样本之间数量的类别不平衡，最终拉低了模型的性能。 SSD模型作为深度学习网络中代表性的优秀网络模型，在对数字仪表字符检测时，依然存在前述问题，使得对数字仪表字符检测准确率受到限制。

发明内容

为了解决现有技术中存在的问题，本发明提出了一种基于SW-FSSD的数字仪表字符检测方法，多深度学习模型SSD进行改进，引入高低层语义信息，并根据部分加权分类损失进行模型训练，能够有效提升数字仪表字符检测的准确性和有效性。

为解决上述技术问题，本发明采用了如下技术手段：

本发明提出了一种基于SW-FSSD的数字仪表字符检测方法，包括如下步骤：

利用IPC采集数字仪表的字符图像；

将字符图像输入预先构建的数字仪表字符检测模型，其中，所述数字仪表字符检测模型采用SW-FSSD模型；

利用数字仪表字符检测模型对字符图像进行特征提取并分类，获得字符类别，输出字符检测结果。

进一步的，所述SW-FSSD模型包括依次连接的主干特征提取网络、多尺度特征提取网络、特征融合结构和分类器，其中，主干特征提取网络采用VGG16网络的前十三层卷积层，多尺度特征提取网络包括3组不同尺度分辨率输出的卷积层，特征融合结构采用FPN结构。

进一步的，所述SW-FSSD模型的分类损失函数采用部分加权损失函数 SWLoss。

进一步的，数字仪表字符检测模型的训练方法包括：

获取数字仪表的多幅字符图像；

将字符图像划分为训练集和测试集，并对每幅字符图像进行标注；

初始化数字仪表字符检测模型的模型参数；

通过数字仪表字符检测模型对训练集中的字符图像进行特征提取、特征融合和特征分类处理，得到字符图像检测结果；

根据字符图像的标注和检测结果，利用损失函数计算数字仪表字符检测模型的总损失；

根据总损失对数字仪表字符检测模型的模型参数进行更新，并利用更新后的数字仪表字符检测模型处理训练集中的字符图像；

重复更新模型参数，直至数字仪表字符检测模型的总损失收敛，得到训练好的数字仪表字符检测模型。

进一步的，对训练集中的字符图像进行特征提取、特征融合和特征分类的方法为：

将训练集中的字符图像输入主干特征提取网络，通过特征提取得到第一语义特征；

将第一语义特征输入多尺度特征提取网络，通过特征提取得到第二、第三、第四语义特征；

利用特征融合结构对主干特征提取网络和多尺度特征提取网络输出的 4个语义特征进行特征融合，得到具有高低层语义信息的特征图；

利用分类器对特征图进行分类处理，得到字符图像对应的字符类别。

进一步的，数字仪表字符检测模型的总损失包括分类损失和回归损失，总损失的计算公式如下：

其中，L(x,c,l,g)表示数字仪表字符检测模型的总损失，x表示预测锚框和标注锚框关于任一字符类别是否匹配的指标参数，c表示数字仪表字符检测模型预测字符类别的概率值，l表示数字仪表字符检测模型预测的锚框位置，g表示标注的锚框位置，κ为多任务不平衡因子，SWL_conf(x,c)表示数字仪表字符检测模型的部分加权分类损失，N为数字仪表字符检测模型预测的锚框总数量，L_loc(x,l,g)表示数字仪表字符检测模型的回归损失。

进一步的，部分加权分类损失SWL_conf(x,c)的表达式如下：

其中，p为字符类别总数，k＝0,1,…,p，L_conf(x,c)表示每个字符类别的分类损失，β_k表示第k个字符类别的类别不平衡因子。

进一步的，L_conf(x,c)的表达式如下：

其中，Pos表示正样本，正样本指与标注锚框的重叠度达到预设阈值的预测锚框，Neg表示负样本，负样本指与标注锚框的重叠度未达到预设阈值的预测锚框，

表示第i个预测锚框与第j个标注锚框关于第k个字符类别是否匹配的指标参数，

表示

的正则化值，

表示第i个预测锚框预测为第k个字符类别的概率值，

表示

的正则化值，

表示第i个预测锚框预测为背景类的概率值，i＝1,2,…,N，j＝1,2,…,M，M为字符图像中标注锚框的总数量。

进一步的，回归损失L_loc(x,l,g)的表达式如下：

其中，Pos表示正样本，cx、cy、w、h分别表示锚框的中心点横坐标、中心点纵坐标、宽度和高度，

分别表示第i 个预测锚框的中心点横坐标、中心点纵坐标、宽度和高度转换到锚框坐标体系中的编码值，

分别表示第j个标注锚框的中心点横坐标、中心点纵坐标、宽度和高度转换到锚框坐标体系中的编码值。

进一步的，

其中，

分别表示第j个标注锚框的中心点横坐标、中心点纵坐标、宽度和高度，

分别表示第i个预测锚框对应的预先划分网格的中心点横坐标、中心点纵坐标、宽度和高度。

采用以上技术手段后可以获得以下优势：

本发明提出了一种基于SW-FSSD的数字仪表字符检测方法，对于同等尺度大小的数字仪表字符，本发明方法中的数字仪表字符检测模型可以保留四层预测输出层，节省了不必要的计算和预测输出；同时，模型将高层语义特征信息向底层融合的机制丰富了各输出层获取的语义特征信息，消除数字仪表字符背景印迹的干扰，可以提升各输出层的预测准确率，进而提高数字仪表字符检测的准确性。在模型训练过程中，本发明方法基于部分加权损失函数SWLoss进行模型训练，可以在训练时有效解决模型受类别样本数量不平衡导致的整体检测准确率底下的问题，提高模型检测性能。

本发明方法利用改进的深度学习模型处理数字仪表字符图像，能够准确检测字符类别，提高数字仪表字符检测的准确性和有效性，对牵引变电站向自动化、综合化、可视化、智能化方向发展具有重要意义。

附图说明

图1为本发明一种基于SW-FSSD的数字仪表字符检测方法的步骤流程图；

图2为本发明实施例中数字仪表字符检测模型的训练和检测流程图；

图3为本发明实施例中数字仪表字符图像示意图；

图4为本发明实施例中数字仪表字符检测模型的网络结构图；

图5为本发明实施例中特征融合结构的示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明：

本发明提出了一种基于SW-FSSD的数字仪表字符检测方法，主要包括前期的模型构建和模型训练过程和后期利用模型实时检测字符图像的过程，如图1、2所示，具体包括如下步骤：

步骤A、对现有的深度学习SSD模型进行改进，构建具有融合高低层次语义特征的SW-FSSD模型，用作数字仪表字符检测模型。

如图4所示，本发明中的SW-FSSD模型主要包括依次连接的主干特征提取网络、多尺度特征提取网络、特征融合结构和分类器，其中，主干特征提取网络采用VGG16网络的前十三层卷积层，多尺度特征提取网络包括 3组不同尺度分辨率输出的卷积层，特征融合结构采用FPN结构，具体结构如图5所示，分类器采用softmax分类器。主干特征提取网络和多尺度特征提取网络的4哥卷积输出层可以输出4种不同尺度的语义信息，特征融合结构给予FPN思想对4种语义信息进行特征融合，再利用分类器对融合后的特征图进行检测。

步骤B、为了提高模型预测的准确率，需要进行模型训练，训练过程种，利用部分加权损失函数SWLoss作为SW-FSSD模型的分类损失函数，对模型参数训练更新使用的分类损失进行自适应加权，即对不同类别的训练集样本计算出的类别损失函数，赋予代表类别样本数量的权重，然后引入多任务不平衡因子并联合回归损失作为模型权重参数更新的总损失。

在本发明实施例中，SW-FSSD模型(或称数字仪表字符检测模型)的训练方法包括：

步骤B01、利用IPC(网络摄像机)对数字仪表字符进行图像采集，获取数字仪表的多幅字符图像，如图3所示。在采集过程中，应从不同角度、不同光照、不同数字仪表字符亮度等自然因素中进行采集，保证采集到图片的多样性。

步骤B02、将字符图像按照6：4的比例划分为训练集和测试集，并对每幅字符图像进行标注。

在本发明实施例种，采集到250张字符图像，按比例划分后训练集和测试集种各类样本的数量如表1和表2所示。

表1训练集样本数量统计表

表2测试集样本数量统计表

根据表1、表2可知，受设备运行的影响，采集到的字符之间的数量明显存在样本数量不平衡问题。

在每一幅字符图像中标注出每个数字仪表字符的位置和类别(0～9)，以保证后续能训练出模型的鲁棒性。

步骤B03、构建完成模型的轮廓后，为加快训练的速度，需要初始化数字仪表字符检测模型的模型参数，得到初始的数字仪表字符检测模型。

在本发明实施例中，采用kaiming高斯进行初始化，使得每一卷积层的输出的方差都为1，权重的初始化方法如下式所示：

其中，a为激活函数Relu的负半轴斜率，n_l为输入的维数，即 n_l＝卷积核边长²×通道数。

步骤B04、通过数字仪表字符检测模型对步骤B02标注的训练集中的字符图像进行特征提取、特征融合和特征分类处理，得到字符图像检测结果。

(1)将训练集中的字符图像输入主干特征提取网络，主干特征提取网络的卷积层提取字符图像中的特征信息，得到第一语义特征。

(2)将第一语义特征输入多尺度特征提取网络，多尺度特征提取网络中的3个卷积层进一步提取特征信息，得到第二、第三、第四语义特征。

(4)利用特征融合结构对主干特征提取网络和多尺度特征提取网络输出的4个语义特征进行特征融合，得到具有高低层语义信息的特征图。

不同于SSD模型，本发明模型有四个不同语义特征大小的输出预测，模型将后一层的语义特征图进行上采样，与前一层提取到的语义特征图相融合，充分利用底层特征图便于寻找目标和高层特征图便于定位的优点。将最高卷积输出层通过线性插值，实现二倍的上采样，将底层卷积输出层通过1×1的卷积进行降维，不改变特征图大小，然后对两者进行语义信息融合，为底层语义特征提供更全局的信息，提高定位准确率，这里的融合是通道之间的拼接，接着对融合后的结果使用大小为3×3、步长为1的卷积核进行卷积以消除混叠效应，并将每层特征图的输出统一为256个语义特征图输出，其包含了丰富的语义特征信息，到相同数量、不同大小尺寸的融合语义特征图。

(5)利用分类器对特征图进行分类处理，得到字符图像对应的字符类别。将网络模型的高层语义特征输出层与底层语义特征输出层相融合，采用四层输出层对仪表字符进行检测，丰富网络模型对数字仪表字符特征的提取，消除数字仪表字符背景印迹的干扰。

步骤B05、根据字符图像的标注和检测结果，利用损失函数计算数字仪表字符检测模型的总损失。

在本发明方法中，数字仪表字符检测模型的总损失包括分类损失和回归损失，分类损失使用部分加权损失函数SWLoss，对分类损失进行自适应加权，即对不同类别的训练集样本计算出的类别损失函数，赋予代表类别样本数量的权重。SWLoss函数可以有效平衡采集到的数据之间的类别样本不平衡。

部分加权分类损失SWLoss的数学表达式如下：

其中，SWL_conf(x,c)表示数字仪表字符检测模型对所有字符类别的加权分类损失，x表示预测锚框和标注锚框关于任一字符类别是否匹配的指标参数， c表示数字仪表字符检测模型预测字符类别的概率值，p为字符类别总数， k＝0,1,…,p，当k＝0时，表示背景类，k≠0时，表示具体的字符类别，L_conf(x,c) 表示每个字符类别的分类损失，β_k表示第k个字符类别的类别不平衡因子。

SWLoss函数的类别不平衡因子β_k是用于调节每个样本的损失权重的大小，进而调节模型中对应的类别的参数，在此其值选为每个批量训练样本中每个类别的总数。

当一个预测锚框与标注锚框的重叠度达到预设阈值时，该预测锚框为正样本，否则该预测锚框为负样本，根据预设阈值可以将模型预测的所有锚框划分为正样本和负样本。L_conf(x,c)的表达式如下：

其中，Pos表示正样本，Neg表示负样本，

表示第i个预测锚框与第 j个标注锚框关于第k个字符类别是否匹配的指标参数，

当第i 个预测锚框与第j个标注锚框关于第k个字符类别匹配时，

不匹配时

表示

的正则化值，

表示第i个预测锚框预测为第k个字符类别的概率值，

表示

的正则化值，

表示第i个预测锚框预测为背景类的概率值i＝1,2,…,N，j＝1,2,…,M，N为数字仪表字符检测模型预测的锚框总数量，M为字符图像中标注锚框的总数量。

回归损失L_loc(x,l,g)的表达式如下：

其中，l表示数字仪表字符检测模型预测的锚框位置，g表示标注的锚框位置，cx、cy、w、h分别表示锚框的中心点横坐标、中心点纵坐标、宽度和高度，

分别表示第i个预测锚框的中心点横坐标、中心点纵坐标、宽度和高度转换到锚框坐标体系中的编码值，

其中，

smooth_L1函数的数学表达式为：

根据公式(5)和(7)，数字仪表字符检测模型的总损失的计算公式如下：

其中，L(x,c,l,g)表示数字仪表字符检测模型的总损失，κ为多任务不平衡因子。

总损失的多任务不平衡因子κ，选为每个批量训练样本中包含类别的总数，然后根据训练样本时分类损失和回归损失差距的大小进行倍数的调整。通过引入多任务不平衡因子，平衡模型分类任务和回归任务的损失权重，可以提升模型性能。

步骤B06、根据总损失对数字仪表字符检测模型的模型参数进行更新，并利用更新后的数字仪表字符检测模型处理训练集中的字符图像。

步骤B07、重复步骤B04～B06，不断更新模型参数，直至数字仪表字符检测模型的总损失收敛，得到最优的模型参数，将最优模型参数带入数字仪表字符检测模型，得到训练好的数字仪表字符检测模型，用于模型测试和后期字符检测使用。

步骤B08、利用测试集对训练好的数字仪表字符检测模型进行性能评估，得到每个字符类别的测试结果。

步骤C、在实时检测过程种，利用IPC实时采集数字仪表的字符图像。

步骤D、将步骤C采集到的字符图像输入步骤B训练好的数字仪表字符检测模型，利用数字仪表字符检测模型对字符图像进行特征提取并分类，获得字符类别，输出字符检测结果。

为了验证本发明方法的效果，本发明实施例给出了如下对比实验，利用传统SSD模型、改进的FSSD模型和本发明方法对测试集中的字符图像进行检测，其中，FSSD模型采用与本发明一致的网络结构，但不使用 SWLoss函数进行模型训练，只使用传统损失函数进行模型训练。

3种方法的检测准确率如下表所示：

表3

根据上表可以看出，本发明方法的准确率普遍高于另外两种方法。

针对现有技术对数字仪表字符检测来说，传统的机器学习存在速度慢、鲁棒性低问题，新兴的深度学习方法准确率易受采集的类别样本不平衡和语义特征提取不丰富限制，而本发明方法针对数字仪表字符检测需求对现有的深度学习方法进行改进，能够有效解决现有技术存在的问题，可以更准确的识别字符类别，提高了数字仪表字符检测的准确性和有效性，进一步加快牵了引变电所智能化、无人值守发展趋势。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，包括如下步骤：

利用IPC采集数字仪表的字符图像；

2.根据权利要求1所述的一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，所述SW-FSSD模型包括依次连接的主干特征提取网络、多尺度特征提取网络、特征融合结构和分类器，其中，主干特征提取网络采用VGG16网络的前十三层卷积层，多尺度特征提取网络包括3组不同尺度分辨率输出的卷积层，特征融合结构采用FPN结构。

3.根据权利要求1所述的一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，所述SW-FSSD模型的分类损失函数采用部分加权损失函数SWLoss。

4.根据权利要求1所述的一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，数字仪表字符检测模型的训练方法包括：

获取数字仪表的多幅字符图像；

初始化数字仪表字符检测模型的模型参数；

5.根据权利要求2或4所述的一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，对训练集中的字符图像进行特征提取、特征融合和特征分类的方法为：

利用特征融合结构对主干特征提取网络和多尺度特征提取网络输出的4个语义特征进行特征融合，得到具有高低层语义信息的特征图；

6.根据权利要求4所述的一种基于SW-FSSD的数字仪表字符检测方法，其特征在于，数字仪表字符检测模型的总损失包括分类损失和回归损失，总损失的计算公式如下：