CN111860348A

CN111860348A - 基于深度学习的弱监督电力图纸ocr识别方法

Info

Publication number: CN111860348A
Application number: CN202010714478.6A
Authority: CN
Inventors: 王杉; 李�昊; 石玮; 朱玉锦; 高连学; 王黎; 孙万珺; 苗纯源; 甘甜
Original assignee: State Grid Corp of China SGCC; Shandong University; Qingdao Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Shandong University; Qingdao Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30

Abstract

本发明公开了一种基于深度学习的弱监督电力图纸OCR识别方法，属于电力图纸智能识别技术领域，所述方法包括：利用预先训练好的文本检测模型对待识别图像进行检测，预测出整个单词级别的文本区域框；对预测出的文本区域框进行文字识别：对于竖直文本采用字符切割得到单个字符文本，对于水平文本则直接使用文本行，之后再通过CNN+BiLSTM+CTC模型进行识别；对得到的识别结果进行后处理：通过先验知识对结果进行判定和修改来提高准确率。本发明对图纸中水平竖直文本并存的情况能够准确检测出两种文本的区域，对图纸中中文、英文、数字混合的情况能够准确识别出其文字，并且本发明识别速度快，成本低。

Description

基于深度学习的弱监督电力图纸OCR识别方法

技术领域

本发明涉及电力图纸智能识别技术领域，特别是指一种基于深度学习的弱监督电力图纸OCR识别方法。

背景技术

目前，智慧电力在我国电网系统的应用逐步开展，智慧电力将电能流和信息流结合在一起，实现能源传输的同时实现数据的采集。但是我国电力系统发展迅速的同时也会带来相当巨大的工作量，尤其对于电力系统中的图纸，图纸中的文字符号众多，字体相对偏小而且文本方向不统一，通过人工获取图中的信息，将会耗费过多时间并且准确率也无法得到保证。例如像变电站一次接线图，它采用规定的设备文字和图形符号并按照工作顺序排列，详细地表示电气设备或成套装备的全部基本组成和连接关系。但是其中的文字类型较多，而且相对图片本身它的字体过小，人工读取将会非常的耗时耗力。

为解决上述问题，近年来有许多研究工作基于计算机视觉以解决对图像中的文字进行OCR(Optical Character Recognition，光学字符识别)识别等问题。然而现有的OCR识别技术主要是基于词的水平上并只针对水平文本进行识别，例如CTPN(ConnectionistText Proposal Network，连接文本提议网络)和CRNN(Convolutional Recurrent NeuralNetwork，卷积循环神经网路)都只针对水平文本，而像EAST(Efficient and AccuracyScene Text，高效和准确的场景文本检测)这种可以检测多方向文本的模型又因为感受野过小不能获得理想的检测效果。所以针对图纸中存在的水平竖直文本并存，中文、英文、数字混合的情况现有的主流方法没有良好的鲁棒性。

发明内容

本发明要解决的技术问题是提供一种基于深度学习的弱监督电力图纸OCR识别方法，本发明旨在利用深度学习和传统计算机视觉处理技术相结合的方式，对电力系统中的图纸的文本进行OCR识别。针对图纸中存在的水平竖直文本并存的情况做到能够准确检测出两种文本的区域。针对图纸中中文、英文、数字混合的情况本发明能够准确识别出其文字。在此基础上还要提高识别的速度并且降低使用的成本。

为解决上述技术问题，本发明提供技术方案如下：

一种基于深度学习的弱监督电力图纸OCR识别方法，包括：

利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框，其中所述文本检测模型对每个单词级别的标注区域使用弱监督训练学习字符特性；

对预测出的文本区域框进行文字识别：对于竖直文本采用字符切割得到单个字符文本，对于水平文本则直接使用文本行，之后再通过CNN+BiLSTM+CTC模型进行识别；

对得到的识别结果进行后处理：通过先验知识对结果进行判定和修改来提高准确率。

根据本发明优选的，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框之前，包括：

对电力系统图纸进行切割，得到预设尺寸范围内的待识别图像。

根据本发明优选的，所述文本检测模型的训练包括：

数据集使用两种：字符级标签的强数据集和单词级标签的弱数据集；

标签包括：字符级的高斯热图和字符间连接的高斯热图；

对于单词级标签的弱数据集生成伪标签：首先，将单词级别的字符区域从原图中裁剪出来；之后，使用强监督训练出的预训练模型预测区域分数Region score，再通过分水岭算法分割字符区域得到字符框；最后，将字符框的坐标转换回原坐标；

文本检测模型训练过程分为两步：首先，在SynthText数据集上进行训练，迭代50K次；之后，在电力系统图纸数据集上进行微调fine-tuning，此时弱标签数据和强标签数据按照1:5的比例进行训练，即得到所需的文本检测模型。

根据本发明优选的，所述字符级标签的强数据集为SynthText数据集，所述单词级标签的弱数据集为电力系统图纸数据集。

根据本发明优选的，对于字符级标签的强数据集来说，字符级的高斯热图直接由字符框生成高斯热图来获得，字符间连接的高斯热图是由亲和力框Affinity Box生成高斯热图来获得，其中，Affinity Box是通过连接字符框的对角线，再对连接对角线后产生的三角形进行组合得到候选的Affinity Box，之后选出其中面积最大且为凸四边形的即为Affinity Box。

根据本发明优选的，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框，包括：

对待识别图像通过视觉几何群VGG-16构架进行特征提取，之后通过特征金字塔网络FPN进行特征融合，其中在解码阶段跳过连接，就像U-net聚合底层特征一样采用自顶向下的特征聚合方式，浅层和深层的卷积特征相结合作为输出，有效保留浅层的结构特征和深层的语义特征；

再通过使用3*3*32、3*3*32、3*3*16和1*1*16四次卷积，最终的1*1卷积层使用两个卷积核输出两个分支结果，输出分为两个通道区域分数region score和亲和力分数affinity score，分别为单字符中心区域的概率和相邻字符区域中心的概率，得到原图大小1/2的预测图，即可预测出每个文字字符的区域与文字字符的相互关系的置信度；

对预测的region score和affinity score分别记为S_r(p)和S_a(p)，τ_r和τ_a分别表示各自的阈值，创建与图像相同大小的二进制图M，并将其全部像素点初始化为0，若S_r(p)>τ_r或S_a(p)>τ_a，则对二进制图M进行二值化操作，最终得到二值化图像M，之后在M的基础上使用连通区域标记法对图像中不同连通区域中的像素设置唯一的标号，将所有相连的值为1的像素定为一个文本目标，最终将这些单独预测的字符区域连接起来，在这些区域上使用最小包围矩形框得到一个带角度的矩形框检测结果，即可获得单词级别的文本区域框。

根据本发明优选的，所述对预测出的文本区域框进行文字识别，包括：

对预测出的文本区域框通过检测出的坐标获取到文本区域，判别文本区域是竖直还是水平，对于竖直文本通过垂直投影的方法并通过kmeans找到每一个字符的上下边界，进行每个字符切割；

首先对图片的文本区域缩放到预定尺寸，通过CNN提取出输入的文本区域的特征序列，其中提取的特征序列中的向量是从特征图从左到右生成的，每一个特征向量表示了文本区域是一定宽度的特征；

通过BiLSTM网络预测特征序列中每一个特征向量的标签分布；

通过对预测的特征序列进行整合，即可转换成最终的输出结果，其中要用到CTC模型用于解决输出不定长序列结果时存在的对齐解码的问题，CTC连接在BiLSTM网络的最后，做到端对端的识别。

根据本发明优选的，所述预定尺寸为32像素的默认高度，宽度则是任意长度。

本发明具有以下有益效果：

本发明利用了深度学习和传统计算机视觉处理技术相结合的方式，对电力系统图纸中的文本进行OCR识别。其中OCR识别大体分为文本检测和文本识别两部分，文本检测用于检测出文本区域框，文本识别对文本框中的文字进行识别。针对水平竖直文本并存的情况本发明采取切割字符的方法提升识别效果。这样基于字符水平就不存在竖直文本无法检测和识别等问题，对文本过长的情况也有很好的效果。由于基于字符级的数据过少，采用了弱监督的训练方式训练出模型进行文本检测。对于文字识别部分本发明通过使用CNN+BiLSTM+CTC的识别模型可以对中文、英文以及数字混合的情况达到良好的识别效果。

附图说明

图1为本发明基于深度学习的弱监督电力图纸OCR识别方法的流程示意图；

图2为本发明中预测文本区域框过程中得到区域分数和亲和力分数的流程图；

图3为本发明中预测出的一个文本区域框的示意图；

图4为变电站一次接线图原图示例；

图5为采用本发明方法对图4所示原图的识别效果图；

图6为采用现有OCR方法对图4所示原图的识别效果图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明提供一种基于深度学习的弱监督电力图纸OCR识别方法，如图1所示，包括：

步骤101：利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框，其中所述文本检测模型对每个单词级别的标注区域使用弱监督训练学习字符特性；

作为一种可选的实施例，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框(步骤101)之前，可以包括：

步骤1001：对电力系统图纸进行切割，得到预设尺寸范围内的待识别图像。

由于电力系统图纸的图片过大，宽度和高度大多数在3000像素左右，同时图纸上的文字又过小，直接对图纸进行OCR识别将耗费大量计算资源而且准确率也不高，如何对图纸进行预处理来获取合适大小的图片将是一个挑战。本发明中，对图纸进行切割能够减少图片的分辨率，例如可以切割为四份，分别对四张小图进行识别，识别完成后再对四张图进行拼接；切割的算法可以采用本领域各种常规算法，例如获取图片的高和宽，四份按四等分进行切割，即小图的宽高都为原图宽高的一半，切割后的图片的格式和原图一样都为jpg格式。预设尺寸范围可以根据需要灵活设定，例如为2000*2000像素。

作为另一种可选的实施例，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框(步骤101)之前，还可以包括文本检测模型的训练步骤，具体可以包括：

步骤1001’：数据集使用两种：字符级标签的强数据集和单词级标签的弱数据集；

优选的，所述字符级标签的强数据集为SynthText数据集，所述单词级标签的弱数据集为电力系统图纸数据集。

步骤1002’：标签包括：字符级的高斯热图(Region Score GT)和字符间连接的高斯热图(Affinity Score GT)；

本步骤中，对于字符级标签的强数据集来说，字符级的高斯热图直接由字符框生成高斯热图来获得，字符间连接的高斯热图是由亲和力框Affinity Box生成高斯热图来获得，其中，Affinity Box是通过连接字符框的对角线，再对连接对角线后产生的三角形进行组合得到候选的Affinity Box，之后选出其中面积最大且为凸四边形的即为AffinityBox。

步骤1003’：对于单词级标签的弱数据集生成伪标签：

首先，将单词级别的字符区域从原图中裁剪出来；

之后，使用强监督训练出的预训练模型预测区域分数Region score，再通过分水岭算法分割字符区域得到字符框；

本步骤中，为生成伪标签数据，需要把电力系统图纸数据集中的单词级别的字符区域裁剪出来后(即将单词级别的字符区域从原图中裁剪出来)，使用强监督训练出的模型对裁剪出的区域进行预测。强监督训练出的预训练模型是指通过使用SynthText数据集强监督训练出的模型。

最后，将字符框的坐标转换回原坐标；

步骤1004’：文本检测模型训练过程分为两步：

首先，在SynthText数据集上进行训练，迭代50K次；

之后，在电力系统图纸数据集上进行微调fine-tuning，此时弱标签数据和强标签数据按照1:5的比例进行训练，即得到所需的文本检测模型。

作为再一种可选的实施例，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框(步骤101)可以包括：

步骤1011：对待识别图像通过视觉几何群VGG-16构架进行特征提取，之后通过特征金字塔网络FPN进行特征融合，其中在解码阶段跳过连接，就像U-net聚合底层特征一样采用自顶向下的特征聚合方式，浅层和深层的卷积特征相结合作为输出，有效的保留了浅层的结构特征和深层的语义特征；

步骤1012：再通过使用3×3×32、3×3×32、3×3×16和1×1×16四次卷积，最终的1×1卷积层使用两个卷积核输出两个分支结果。如图2所示输出分为两个通道区域分数region score和亲和力分数affinity score，分别为单字符中心区域的概率和相邻字符区域中心的概率，得到原图大小1/2的预测图，即可预测出每个文字字符的区域与文字字符的相互关系的置信度；

步骤1013：对预测的region score和affinity score分别记为S_r(p)和S_a(p)，τ_r和τ_a分别表示各自的阈值，创建与图像相同大小的二进制图M，并将其全部像素点初始化为0。若S_r(p)>τ_r或S_a(p)>τ_a，则对二进制图M进行二值化操作，即两个预测的分数中至少有一方高于阈值的像素点标为1，其他标为0，最终得到二值化处理后的图像M。之后在M的基础上使用连通区域标记法对图像中不同连通区域中的像素设置唯一的标号，将所有相连的值为1的像素定为一个文本目标。最终将这些单独预测的字符区域连接起来，在这些区域上使用最小包围矩形框得到一个带角度的矩形框检测结果。如图3所示，即可获得单词级别的文本区域框。从而得到对于水平和竖直文本都有很好鲁棒性的检测结果。

通过上述步骤1011-1013，即可较好地从待识别图像中预测出整个单词级别的文本区域框。

步骤102：对预测出的文本区域框进行文字识别：对于竖直文本采用字符切割得到单个字符文本，对于水平文本则直接使用文本行，之后再通过CNN+BiLSTM+CTC模型进行识别；

本步骤中，竖直文本切割后为一个个单个字符，每个单个字符视为一个文本行，识别后直接使用其结果即可。

作为一种可选的实施例，所述对预测出的文本区域框进行文字识别(步骤102)，可以包括：

步骤1021：对预测出的文本区域框通过检测出的坐标获取到文本区域，判别文本区域是竖直还是水平，对于竖直文本通过垂直投影的方法并通过kmeans找到每一个字符的上下边界，进行每个字符切割；

本步骤中，判断文本区域是竖直还是水平具体可以通过获取该文本区域的宽和高，通过比较它的宽和高的大小来判断是竖直的还是水平的。

步骤1022：首先对图片的文本区域缩放到预定尺寸，通过卷积神经网络CNN提取出输入的文本区域的特征序列，其中提取的特征序列中的向量是从特征图从左到右生成的，每一个特征向量表示了文本区域是一定宽度的特征；

本步骤中，预定尺寸可以根据需要灵活设定，例如可以为32像素的默认高度，宽度则是任意长度。特征图是指通过卷积神经网络从输入的文本区域的图中提取出的特征图，特征图包含了从左到右这些特征序列。

步骤1023：通过BiLSTM网络预测特征序列中每一个特征向量的标签分布；这里的标签是指所有字符的softmax概率分布，是一个概率矩阵。

步骤1024：通过对预测的特征序列进行整合，即可转换成最终的输出结果，其中要用到CTC模型用于解决输出不定长序列结果时存在的对齐解码的问题，CTC连接在BiLSTM网络的最后，做到端对端的识别。

CTC是一种loss计算方法，使用CTC代替softmax loss，训练样本无需对齐。其loss函数为：L(S)＝-∑_(x,z)∈slnP(z|x)

其中P(z|x)代表给定输入x，输出序列z的概率，s则为训练集。

由于电力系统图纸中文字有水平和竖直两种方向，无法直接使用只针对水平文本进行OCR识别的模型方法，针对图纸中的文字如何做到对水平和竖直两种方向的文字都有很好的识别效果将是一个挑战。并且电力系统图纸中的文字类型众多，包含了汉字、字母、数字这三种类型，而且文字之间的距离过短甚至有粘连，如何降低OCR识别的漏检、误检将会形成挑战。本申请上述步骤1011-1013、1021-1024能够较好地解决这些问题。

步骤103：对得到的识别结果进行后处理：通过先验知识对结果进行判定和修改来提高准确率。

后处理的具体处理过程可以为：通过人工观察和总结识别的结果，找出识别结果中一些共性的错误。例如对于“系统图”这个文本识别结果易共同识别成“系统四”的情况，在程序中通过使用后处理函数对识别结果中这些共性的错误进行判定和更正，使这些共性的错误最终得出正确的识别结果，以此提高准确率。

综上，本发明利用了深度学习和传统计算机视觉处理技术相结合的方式，对电力系统图纸中的文本进行OCR识别。其中OCR识别大体分为文本检测和文本识别两部分，文本检测用于检测出文本区域框，文本识别对文本框中的文字进行识别。针对水平竖直文本并存的情况本发明采取切割字符的方法提升识别效果。这样基于字符水平就不存在竖直文本无法检测和识别等问题，对文本过长的情况也有很好的效果。由于基于字符级的数据过少，采用了弱监督的训练方式训练出模型进行文本检测。对于文字识别部分本发明通过使用CNN+BiLSTM+CTC的识别模型可以对中文、英文以及数字混合的情况达到良好的识别效果。

通过20张不同类别的图纸进行实验表明，文本检测部分在交并比为0.5的情况下平均准确率达到0.85，文本识别部分在基于对字符检测的基础上，平均准确率达到0.82。本发明对电力系统图纸的OCR识别达到了较好的识别效果。同时进行OCR识别时的速度也较快，几乎达到了实时性识别。

下面结合几个具体的例子，对本发明的方案进行说明。

实施例1

对于35kv变电站一次接线图，本例的图片其分辨率为4843×3348像素。为了选到合适大小的处理图片，首先对其进行切割，其中切割时选择的对宽和高切割份数的参数都为2。之后通过使用训练好的文本区域检测模型，获得接线图中的文本区域。由于训练的模型适用于所有电力图纸，不需要设置特定的处理参数。获取每个文本区域的宽高识别是水平文本还是竖直文本，之后将文本区域缩放到32像素的默认高度，竖直文本则需要先进行切割再对字符进行缩放。对文本区域通过CNN+BiLSTM+CTC的识别模型进行文本识别，经过处理对粘连或者间隙过小的字体也有很好的效果。最终，对识别结果再进行后处理。采用现有的OCR(EAST+Tesseract OCR)方法和本发明所述的识别方法进行对比，文本检测部分本发明的方法在交并比为0.5的情况下可以达到0.94的准确率，而现有的OCR方法只有0.83的准确率，文本识别方面本发明的方法可以达到0.92的准确率，而现有的OCR方法只有0.7。在识别速度上，本发明的方法处理时间为0.83秒。

实施例2

对于35kv变电站一次接线图，本例的图片其分辨率为3748×2374像素，图纸中的文本同样过小。为了选到合适大小的处理图片，首先对其进行切割，其中切割时选择的对宽和高切割份数的参数都为2。之后通过使用训练好的文本区域检测模型，获得接线图中的文本区域。由于训练的模型适用于所有电力图纸，不需要设置特定的处理参数。获取每个文本区域的宽高识别是水平文本还是竖直文本，之后将文本区域缩放到32像素的默认高度，竖直文本则需要先进行切割再对字符进行缩放。对文本区域通过CNN+BiLSTM+CTC的识别模型进行文本识别，经过处理对粘连或者间隙过小的字体也有很好的效果。最终，对识别结果再进行后处理。采用现有的OCR(EAST+Tesseract OCR)方法和本发明所述的识别方法进行对比，文本检测部分本发明的方法在交并比为0.5的情况下可以达到0.96的准确率，而现有的OCR方法只有0.81的准确率，文本识别方面本发明的方法可以达到0.912的准确率，而现有的OCR方法只有0.72。在识别速度上，本发明的方法处理时间为0.8秒。

实施例3

对于110kv变电站一次接线图，本例的图片其分辨率为2382×1684像素。为了选到合适大小的处理图片，首先对其进行切割，其中切割时选择的对宽和高切割份数的参数都为2。之后通过使用训练好的文本区域检测模型，获得接线图中的文本区域。由于训练的模型适用于所有电力图纸，不需要设置特定的处理参数。不过由于该类110kv变电站一次接线图图纸数据较少，检测效果相对较差。获取每个文本区域的宽高识别是水平文本还是竖直文本，之后将文本区域缩放到32像素的默认高度，竖直文本则需要先进行切割再对字符进行缩放。对文本区域通过CNN+BiLSTM+CTC的识别模型进行文本识别，经过处理对粘连或者间隙过小的字体也有很好的效果。最终，对识别结果再进行后处理。采用现有的OCR(EAST+Tesseract OCR)方法和本发明所述的识别方法进行对比，文本检测部分本发明的方法在交并比为0.5的情况下可以达到0.76的准确率，而现有的OCR方法只有0.69的准确率，文本识别方面本发明的方法可以达到0.8的准确率，而现有的OCR方法只有0.55。在识别速度上，本发明的方法处理时间为0.78秒。图4-6分别是本实施例3所对应的变电站一次接线图原图，本发明方法的识别效果图和现有OCR方法的识别效果图。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的弱监督电力图纸OCR识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框之前，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本检测模型的训练包括：

标签包括：字符级的高斯热图和字符间连接的高斯热图；

4.根据权利要求3所述的方法，其特征在于，所述字符级标签的强数据集为SynthText数据集，所述单词级标签的弱数据集为电力系统图纸数据集。

5.根据权利要求3所述的方法，其特征在于，对于字符级标签的强数据集来说，字符级的高斯热图直接由字符框生成高斯热图来获得，字符间连接的高斯热图是由亲和力框Affinity Box生成高斯热图来获得，其中，Affinity Box是通过连接字符框的对角线，再对连接对角线后产生的三角形进行组合得到候选的Affinity Box，之后选出其中面积最大且为凸四边形的即为Affinity Box。

6.根据权利要求1所述的方法，其特征在于，所述利用预先训练好的文本检测模型对待识别图像进行检测，通过检测每个文字字符的区域与文字字符的相互关系，预测出整个单词级别的文本区域框，包括：

再通过使用3*3*32、3*3*32、3*3*16和1*1*16四次卷积，最终的1*1卷积层使用两个卷积核输出两个分支结果，输出分为两个通道区域分数region score和亲和力分数affinityscore，分别为单字符中心区域的概率和相邻字符区域中心的概率，得到原图大小1/2的预测图，即可预测出每个文字字符的区域与文字字符的相互关系的置信度；

7.根据权利要求1所述的方法，其特征在于，所述对预测出的文本区域框进行文字识别，包括：

通过BiLSTM网络预测特征序列中每一个特征向量的标签分布；

8.根据权利要求1所述的方法，其特征在于，所述预定尺寸为32像素的默认高度，宽度则是任意长度。