CN113378838A

CN113378838A - 一种基于深度学习的互感器铭牌文本区域检测方法

Info

Publication number: CN113378838A
Application number: CN202110748403.4A
Authority: CN
Inventors: 于秀丽; 董明帅; 魏世民; 吴澍; 白宇轩; 杨奉豪
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-10

Abstract

本发明公开了一种基于深度学习的互感器铭牌文本区域检测方法。该方法利用一阶段模型使用图像像素分类的原理检测互感器设备铭牌上的文本区域。其中互感器铭牌图像特征提取及融合方法采用U‑Net网络多维度特征融合的方法，通过该方法能够准确的提取图像中不同尺寸文字区域的特征。同时，为了提高互感器铭牌图像中长文本的识别性能，在文本检测阶段采用Differentiable Binarization(DB)网络对融合后的特征进行关联、映射及分类，从而避免存在语义关联的长文本在文本检测时被截断的情况。因此，通过U‑Net网络和DB网络相结合的方式既提高了模型对小区域本文的检测能力，也增强了模型对长文本的特征学习能力，从而提高了整个文本检测模型的精度。

Description

一种基于深度学习的互感器铭牌文本区域检测方法

技术领域

本发明涉及深度学习以及图像识别领域，是一种基于深度学习的互感器铭牌文本区域检测方法。

背景技术

互感器是当前电力系统的重要组成部分。随着我国电力系统的不断发展，对于各类互感器的需求也不断增加。因此，为了更科学的管理互感器设备，需要对互感器各种型号及规格做合理的统计。当前互感器各类信息的识别和统计都是通过人工完成的，这种方式效率低下、成本高并且容易出错。因此，互感器设备铭牌信息的自动识别及统计是一个重要的研究方向。在这个过程中首先要解决的是互感器铭牌本文区域的检测，这是互感器铭牌文本识别的基础。

由于互感器工作环境恶劣，铭牌信息与互感器本体对比不明显，并且，铭牌数据中存在字体大小不同、中英文及特殊符号混杂的情况。因此，如何提供一种准确的互感器文本区域检测方案，是当前亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习的互感器铭牌文本区域检测方法，该方法借鉴U-Net网络的结构，采用ResNet50网络作为主干网络提取互感器铭牌图像的特征，并通过上采样及特征融合方法融合多维度特征。最后，通过像素分类的方法区分不同语义的文本块及背景。通过这种方法实现不同语义的文本块的检测。

对于真实场景中互感器铭牌文本区域的检测，本发明提供了一种高精度互感器铭牌文本检测方法，该方法不但能够准确的检测出文本区域，而且可以根据像素的特征及语义信息划分成不同的文本块。为后续不同语义内容的文本识别、整理及归档做了充分的铺垫。

一方面，本申请实施例提供的一种基于深度学习的互感器铭牌文本区域检测方法，包括：

互感器铭牌图像数据集的收集、标定及预处理；

进一步地，所述步骤互感器铭牌图像数据集的收集、标定及预处理，具体包括互感器铭牌图像数据集的收集。本发明所使用的数据集是收集的某电网公司管辖范围内各种型号互感器的铭牌图像，共记96张。

进一步地，互感器铭牌图像数据集的标定，对采集完成的数据集进行标定。具体包括使用labelme工具标注互感器图像中不同互感器参数指标的文本框。标注完成的文件保存为json格式，用于后续的模型训练及测试。

进一步地，所述互感器铭牌图像数据集的预处理。具体包括数据集的特征工程、数据增强以及区分训练集和测试集三部分。特征工程是根据labelme工具生成的标签文件对文本区域的位置信息向量化，提高模型训练过程的计算效率。数据增强是将做完特征工程的数据按照一定变换规则做扩展，增加训练数据的数量，从而减少模型训练过程中的过拟合现象。常用的数据增强手段有旋转、裁剪、调整亮度、加入高斯噪声等；

公共场景数据集(ICDAR2015，ICDAR2017)的预处理；

进一步地，所述步骤公共场景数据集(ICDAR2015，ICDAR2017)的预处理中，公共场景场景文本识别数据集包括ICDAR2015及ICDAR2017。该数据集包含真实场景中各种标签、路牌以及店铺招牌等图像。对于该数据集的预处理操作包含图片尺寸的裁剪、图像标签的格式转换及特征工程等操作。使得上述两个公共数据集符合模型的对于图片尺寸及标签格式的需求。同时区分训练集和测试集。

搭建多维度特征提取及特征融合的主干网络；

进一步地，所述搭建多维度特征提取及特征融合网络，本发明中为了更好的解决互感器铭牌中不同尺寸以及不同语义文本区域的准确检测和划分，我们采用U-Net网络结构用于互感器铭牌图片特征的提取及融合。网络结构如图1所示。本发明所采用的U-Net网络采用四层下采样结构及三层上采样及特征融合的结构。其中四层下采样网络通过卷积层提取输入互感器铭牌图像不同维度的特征；三层上采样操作对不同维度和尺寸的特征图进行上采样及特征融合操作。通过这种方式使U-Net最终得到的特征图具备多个维度及感受野的特征，提高了特征图对不同尺寸文本区域的表示能力。为后续DB网络的分类操作提供了更加丰富的特征。

搭建基于多维度特征的互感器文本区域检测网络，我们将其命名为DBU；

进一步地，所述步骤搭建基于多维度特征的互感器文本区域检测网络中，结合上述U-Net主干网络、置信度计算模块(confidence map)、阈值估计模块(threshold map)以及可微二值化操作(DB Differentiable Binarization)构成基于多维度特征的互感器文本区域检测网络，如图1所示。置信度计算模块以及阈值估计模块通过融合后的多维度特征图分别计算特征图中每一个像素点的置信度值以及置信度阈值。在此，采用阈值计算模块估计的可变阈值用于置信度模块生成的概率图转化为二进制图像。在此本发明将二进制操作插入到分段网络中进行联合优化，利用这种方式，可以自适应的预测图像每个位置的阈值，从而将前景像素与背景像素区分开。在网络参数反向传播过程中，由于传统的标准二值化函数不可微，因此，本发明采用二值化近似函数如式(1)，使其在训练过程中参数可微，便于网络参数的更新。

该二值化近似函数采用sigmod函数的形式，将概率值P_i,j与阈值T_i,j只差作为函数的输入，在经过方法系数k，将其输出无显逼近0或1从而实现近似二值化函数的效果。

使用公共场景数据集对DBU网络进行预训练；

进一步地，使用公共场景数据集对DBU网络进行预训练，在模型训练前，数据集被分为训练集和测试集。通过训练集对模型进行训练，通过测试集测试模型的性能。在模型训练过程中损失函数包括置信度loss(L_p)、二值图loss(L_b)以及阈值图loss(L_t)。

进一步地，所述置信度loss(L_p)以及二值图loss(L_b)为二值交叉熵损失：

式中，y_i为第i个样本的预测值，y_i为第i个样本的真值。

所述阈值图loss(L_t)为：

式中，R_d为预测得到文本框内的像素点数量，

是阈值预测模块的真值，

是阈值预测模块的预测值。

使用公共场景数据集对DBU网络进行预训练；

进一步地，所述步骤使用公共场景数据集对DBU网络进行预训练。本发明中为了增加网络对不同类型特征的提取及识别能力，同时提高网络的泛化能力并且防止模型过拟合。由于本发明所采集的互感器铭牌图片数量有限，且场景较为单一。因此，通过数量大、场景多样的公共场景数据集对网络进行预训练，使网络具备一定的特征提取能力以及特征敏感性为后续专注于互感器铭牌文本场景做准备。

使用互感器铭牌数据集训练DBU网络；

进一步地，所述步骤使用互感器铭牌数据集训练DBU网络。本发明中互感器铭牌数据数量有限，用该数据集对整个网络进行训练以及权重学习对网络性能的提升作用不大。因此，本发明仅使用互感器铭牌数据集训练DBU网络的头部，即置信度估计模块、阈值估计木块以及近似二值化模块等。增强DBU网络对互感器铭牌特征的敏感性，从而更加准确的对互感器铭牌图像做像素分类操作。

使用互感器铭牌图像测试数据集测试DBU网络的性能；

进一步地，所述步骤使用互感器铭牌图像测试数据集测试DBU网络的性能。本发明为针对互感器铭牌文本区域的检测，因此，该步骤采用互感器铭牌图片测试所提出网络的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1为本发明实施例中基于深度学习的互感器铭牌文本检测模型整体结构示意图；

图2为本发明提供的DB网络像素分类器结构细节示意图；

图3为本发明提供的一种基于深度学习的互感器铭牌文本检测方法的流程示意图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所述为本申请的实施例的基于深度学习的互感器铭牌文本检测模型整体结构示意图，网络整体结构有两部分组成：模型主干网络以及DB网络像素分类器。其中主干网络采用U-Net的网络结构提取输入图像各个维度的特征，并且做特征融合；DB网络像素分类器根据融合后的特征图计算各个像素点的置信度值以及动态二值化阈值，同时根据每个像素点的置信度值及二值化阈值，区分不同文本区域及背景。

其中，本模型运行环境在Ubuntu16.04下配置，CPU为Inter(R)Core(TM)i9-9900CPU@2.30GHZ,GPU为NVIDIA GeForce GTX 2080ti，采用python3.6进行程序编写，在Tensorflow框架下搭建模型结构。

如图2所示为本申请的实施例中互感器铭牌文本区域检测网络中DB网络像素分类器结构细节示意图。该部分网络分为两路，一路为根据融合后的特征图估计各个像素的置信度分数；另一路利用融合后的特征图估计各个像素的二值化阈值。置信度分数以及二值化阈值都会用于后续像素点的分类。

参见图3，为本申请实施例示例性示出的一种基于深度学习的互感器铭牌文本区域检测方法的流程示意图，所述方法包括以下步骤：

步骤S1：所述互感器铭牌图像数据集的收集、标定及预处理。

具体包括标定互感器铭牌图像数据不同参数文本区域的轮廓，并标注其类别。在本发明中采用labelme图像标注工具标注数据集中文本区域的位置。

标注完成后对标定好的数据集做预处理操作。具体包括数据集的特征工程以及数据增强两部分，其中特征工程是对标注好的数据位置信息及类别信息进行编码操作，使其向量化，方便模型的计算；数据增强为通过裁剪、旋转等增强手段，增加数据集的数量。

步骤S2：所述公共场景数据集(ICDAR2015，ICDAR2017)的预处理；

具体的，与S1中互感器铭牌图片数据集的预处理方法相同。根据模型输入输出的需要，向量化数据集的标签数据，并裁剪图像的尺寸以使其符合模型输入的要求。

步骤S3：所述搭建多维度特征提取及特征融合的主干网络；

具体的，考虑到互感器铭牌文本区域尺寸及符号的多样性，我们借鉴U-Net的网络结构搭建特征提取及融合的主干网络。通过融合多维度特征，提高特征图的表示能力。

步骤S4：搭建基于多维度特征的互感器文本区域检测网络；

具体的，在S3所搭建的主干网络基础上，参考DB(Differentiable Binarization)网络的原理，增加DB像素分类器网络(如图2所示)，用以实现网络最终的文本区域检测功能。其中DB像素分类器网络包含的模块有：阈值估计模块、置信度估计模块以及可微二值化功能模块。

步骤S5：使用公共场景数据集对DBU网络进行预训练；

具体的，使用S2所述数据集对DBU网络进行预训练。本发明在S2所处理的公共数据集上训练1200和epoch，Batch size设置为8，learning rate设置为0.001，采用Adam作为模型的优化器。

步骤S6：所述使用互感器铭牌数据集训练DBU网络；

具体的，使用S1步骤处理生成的互感器铭牌数据集中的训练接对模型进行训练。在训练之前固定DBU网络主干网络的参数，本次训练只更新DB像素分类网络的参数，以提升模型头部对于互感器铭牌图片特征的识别能力。

步骤S7：使用互感器铭牌图像测试数据集测试DBU网络的性能；

具体的，使用S1步骤所处理的互感器铭牌数据集的测试集对DBU模型的性能做验证。验证结果表明本发明提出的互感器铭牌文本区域检测网络在真实互感器铭牌文检测任务中达到92.3的精度。

从上述实施例可以看出，方法包括多目标多类别数据集的收集、标定及预处理；搭建多目标多类别分割模型，利用标定及预处理后的数据对多目标多类别分割模型训练及测试；对Cornell抓取检测数据集进行标定及预处理；搭建抓取检测网络，并利用处理后的Cornell抓取检测数据集对抓取检测网络进行训练和测试；将训练好的多类别多目标分割网络和抓取检测网络级联起来，多目标多类别分割网络的输出作为抓取检测模型的输入，从而完成整个模型的训练。

该模型在执行抓取检测过程中，摄像头采集的图像经过多目标多类别分割网络，去除背景信息，只保留目标物体位置的像素信息；只带有目标位置像素信息的图像进入抓取检测网络，对目标物体做抓取位置的预测。

上述方法与现有技术相比，具有以下优点：

1、互感器铭牌文本中包含各种设备参数指标，因此，互感器文本是一个包含中文、英文以及特殊计量符号的复杂特征文本，并且不同型号互感器中铭牌尺寸大小不同。当前文本区域检测方法对于尺寸差距大，以及特殊字符的检测能力有限，容易出现小区域文本以及特殊字符检测不完整的情况，检测准确性差。本发明提出的基于深度学习的互感器铭牌文本区域检测方法采用多特征融合的方法，极大限度的保留不同维度(感受野)的特征，为不同尺寸大小的文本区域以及特殊字符的检测提供丰富的特征，从而提升了模型的检测精度。

2、相比于传统的基于DB网络的文本区域检测方法，我们采用U-Net网络结构优化了模型用于提取特征的主干网络。模型整体参数数量相较于基础DB网络减少25％。另一方面，本发明采用的像素分类网络，由于在网络中间加入了二值化操作流程，减少模型后处理的计算量。基于上述两方面因素，本发明提出的DBU网络在模型训练速度，以及检测效率上高于现有文本检测的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，所述方法包括：

互感器铭牌图像数据集的收集、标定及预处理；

公共场景数据集(ICDAR2015，ICDAR2017)的预处理；

搭建多维度特征提取及特征融合的主干网络；

使用公共场景数据集对DBU网络进行预训练；

使用互感器铭牌数据集训练DBU网络；

使用互感器铭牌图像测试数据集测试DBU网络的性能。

2.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，互感器铭牌图像数据集的收集、标定及预处理，生成互感铭牌图像的训练数据，具体包括：

所述互感器铭牌图像数据集为根据互感器铭牌文本识别需求拍摄制作的数据集，并且根据铭牌文本的语义对图像中包含的文本分区域标定。同时，根据文本检测模型输入图像的尺寸需求对采集到的图像做裁剪。

3.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，公共场景数据集(ICDAR2015，ICDAR2017)的预处理，生成初始数据，具体包括：

所述公共场景数据集(ICDAR2015，ICDAR2017)的预处理，以及按照比例生成训练和测试数据。

4.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，搭建多维度特征提取及特征融合的主干网络，具体包括：

所述搭建多维度特征提取及特征融合网络为利用多层卷积神经网络进行下采样操作，生成多组不同感受野维度的特征图，并通过多次上采样及特征连接操作将不同维度的进行特征图融合。

5.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，搭建基于多维度特征的互感器文本区域检测网络，具体包括：

所述多维度特征为多维度特征提取及融合网络生成的特征图。所述互感器文本区域检测网络利用多维度特征进行互感器文本区域的检测。

6.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，使用公共场景数据集对DBU网络进行预训练，具体包括：

所述使用公共场景数据集对DBU网络进行预训练，为使用数量规模大的公共数据集预训练DBU网络，该训练过程的主要目的是训练DBU网络的特征提取能力。

7.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，使用互感器铭牌数据集训练DBU网络的DB部分，具体包括：

所述使用互感器铭牌数据集训练DBU网络中DB文本区域检测部分。通过互感器铭牌数据集训练模型的文本检测部分，提高文本检测部分对互感器铭牌特征的敏感性。

8.根据权利要求1所述的一种基于深度学习的互感器铭牌文本区域检测方法，其特征在于，使用互感器铭牌图像测试数据集测试DBU网络性能，还包括：

所述使用互感器铭牌图像测试数据集测试DBU网络的性能。

所述互感器铭牌图像数据集为根据文本识别网络的应用场景采集、制作、标注的数据集；所述公共场景数据集为已经公开的图像中包含铭牌相关信息的数据集；所述搭建基于多维度特征的互感器文本区域检测网络，包含文本检测网络与多维度特征提取与融合网络的级联。所述使用公共场景数据集对DBU网络进行预训练，包括网络模型的训练及网络参数调整；所述使用互感器铭牌图像测试数据集测试DBU网络的性能，包括采用真实的互感器铭牌图像测试DBU网络的文本区域检测性能。