CN114359949B

CN114359949B - 针对电网接线图文字的识别方法

Info

Publication number: CN114359949B
Application number: CN202111587336.9A
Authority: CN
Inventors: 王艺澎; 余涛; 王梓耀; 罗庆全; 萧文聪
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-04-25
Anticipated expiration: 2041-12-23
Also published as: CN114359949A

Abstract

本发明公开了一种针对电网接线图文字的识别方法，包括：1)收集电网接线图图中文字的图片，对图片进行预处理得到文字图片数据集，并划分为文字图片训练集和文字图片测试集；2)搭建CRNN神经网络模型，分别利用Synthetic Chinese String Dataset和文字图片训练集进行预训练和分层解冻式训练；3)收集识别错误的图片构成错误识别数据集，进一步对CRNN神经网络模型进行训练；4)利用训练好的CRNN神经网络模型，构建针对电网接线图文字的识别模型，对文字图片测试集中的图片进行识别。本发明实现了针对电网接线图文字的高准确率识别，解决了传统文字识别方法对电网接线图文字的识别准确率不高的问题，作为电网接线图识别的重要一环，将有助于提高其运维效率及准确度。

Description

针对电网接线图文字的识别方法

技术领域

本发明涉及电气工程和计算机视觉的技术领域，尤其是指一种针对电网接线图文字的识别方法。

背景技术

对电网厂站接线图识别而言，文字识别是关键环节之一，有了准确的文字内容输出，才能更加顺利地进行文字与图元的关联以及接线关系的识别工作。现有的文字识别多采用基于深度学习的端到端OCR技术，可以实现对普通文本的较高准确率识别。

然而，相比普通的文字场景，电网接线图图中文字存在如下问题：

1、文字大小差异较大；2、字体格式各异；3、较多文字图片的分辨率低，模糊不清；4、部分文字图片色彩较浅；5、存在文本简写情况。

这些都在一定程度上增大了文字识别的难度，降低了文字识别的准确率，传统方法对电网接线图图中文字的识别准确率并不高。

因此，提供针对电网接线图文字的识别方法，用于实现针对电网接线图图中文字的高准确率识别，作为电网接线图识别的重要一环，将有助于提高其运维效率及准确度，减轻自动化人员的重复工作压力，推动人工智能技术在调控自动化领域的应用，支撑复杂大电网从特高压到配网的全面调度监视，助力构建新型电力系统。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出了一种针对电网接线图文字的识别方法，能够实现针对电网接线图图中文字的高准确率识别，解决传统文字识别方法对电网接线图图中文字的识别准确率不高的问题，作为电网接线图识别的重要一环，将有助于提高其运维效率及准确度。

为实现上述目的，本发明所提供的技术方案为：针对电网接线图文字的识别方法，包括以下步骤：

1)收集电网接线图图中文字的图片，对图片进行预处理，包括添加白边、自适应阈值二值化以及分类膨胀，预处理后的图片构成文字图片数据集，并按照比例将文字图片数据集分为文字图片训练集和文字图片测试集；

2)搭建CRNN神经网络模型，之后先采用Synthetic Chinese String Dataset中文识别数据集对CRNN神经网络模型进行预训练，再采用文字图片训练集进行分层解冻式训练，分层解冻式训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型；在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为I号CRNN神经网络模型；

3)利用I号CRNN神经网络模型对文字图片训练集进行识别，收集识别错误的图片，构成错误识别数据集，利用错误识别数据集进一步对I号CRNN神经网络模型进行训练，训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型，在所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为Ⅱ号CRNN神经网络模型；

4)基于Ⅱ号CRNN神经网络模型构建针对电网接线图文字的识别模型，对文字图片测试集中的文字图片进行识别；其中，所述识别模型包括旋转预处理模块、文字识别模块、文字选择后处理模块以及简写文本补全后处理模块，所述旋转预处理模块用于对特定的文字图片进行旋转处理，所述文字识别模块采用Ⅱ号CRNN神经网络模型进行文字识别，所述文字选择后处理模块按照标准对经过旋转预处理后的文字图片的识别结果进行选择，所述简写文本补全后处理模块按照距离最近原则在识别结果里补全文字图片中被简写的文本。

进一步，在步骤1)中，添加白边的具体操作是：从1、2、3、4、5五个数字中选择一个作为维度n，先在图片的上下各添加n行白色像素，再在图片的左右各添加n列白色像素；

自适应阈值二值化的具体操作是：首先，按照如下公式对图片进行灰度化：

Y＝0.299R+0.587G+0.114B

式中，Y为灰度化后的图片每个像素点的像素值，R、G、B为灰度化前的图片每个像素点在红、绿、蓝三个通道的像素值；

然后，利用大津算法OTSU求取图片二值化的分割阈值，OTSU是求取图像全局分割阈值的最佳方法，它令前景和背景的类间方差最大求得分割阈值，具有自适应性；得到分割阈值后，进行如下的二值化过程：

式中，Z为二值化后的图片每个像素点的像素值，ε为求取的分割阈值；

分类膨胀的具体操作是：首先，根据图片大小，选取图片分类阈值，将图片分为p类，分类按照如下公式进行：

式中，q为图片分类的类别号，b为用于分类的表征图片大小的参数，s₁，s₂，…，s_p-1为选取的图片分类阈值；

然后，根据图片所属类别号q，对图片进行q-1次膨胀操作，膨胀操作的过程为：先构建矩形结构元素，将矩形结构元素在图片上遍历，在每个遍历位置上利用矩形结构元素所覆盖像素值的最小值替换矩形结构元素中心位置处的像素值。

进一步，所述步骤2)包括以下步骤：

2.1)搭建CRNN神经网络模型，由卷积模块、循环模块和转录模块组成，分别用于提取特征、预测标签分布和输出结果；

2.2)采用Synthetic Chinese String Dataset中文识别数据集对CRNN神经网络模型进行预训练，Synthetic Chinese String Dataset中文识别数据集包含360万张文字图片，涵盖中文、英文、数字、标点以及各类符号；预训练后的CRNN神经网络能够完成简单的文字识别任务，但对电网接线图图中文字的识别效果不好，亟需进一步训练；

2.3)采用文字图片训练集进行分层解冻式训练，具体操作是：首先，冻结预训练得到的CRNN神经网络模型，然后按照结构上从后向前的方向，一层层地解冻CRNN神经网络模型，并使用文字图片训练集进行训练；每次训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型，保存每个训练轮次得到的CRNN神经网络模型，并记录该模型对文字图片训练集的识别准确率；分层解冻式训练完成后，在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为I号CRNN神经网络模型。

进一步，在步骤4)中，所述旋转预处理模块的具体情况为：设定高宽比阈值δ，当图片满足如下条件时：

h＞δw

对图片分别进行顺时针90°旋转和逆时针90°旋转，得到两张不同旋转处理后的图片，构成一组双向图，双向图的两张图片将替换经过旋转处理前的图片；式中，h为待预处理图片的高度，w为待预处理图片的宽度；

所述文字识别模块的具体情况为：采用Ⅱ号CRNN神经网络模型，该模型已充分学习了电网接线图图中文字的特征知识；文字识别模块的输入为一张图片，输出为预测出的文字字符串；针对双向图，一组双向图的两个图片经过文字识别模块后，将得到两个不同的文字字符串，构成一组待选文字；

所述文字选择后处理模块的具体情况为：针对每一组待选文字，文字选择后处理模块将选择出两个文字字符串中属于母线典型标注文字的一个；其中，母线典型标注文字需同时满足如下三个条件：

a、包含文本“KV”、“Kv”、“kV”、“kv”中的一个；

b、包含文本“#”、“I”、“Ⅱ”、“Ⅲ”、“Ⅳ”、“Ⅴ”、“Ⅵ”中的一个；

c、包含文本“母”；

所述简写文本补全后处理模块的具体情况为：针对电网接线图图中的简写文本，根据距离最近原则，简写文本补全后处理模块选取距离最近的断路器设备编号作为前缀对简写文本进行补充；其中，文本A、B间的距离计算公式如下：

式中，d为文本A、B间的距离，x₁、y₁为文本A的中心在电网接线图中的横、纵坐标，x₂、y₂为文本B的中心在电网接线图中的横、纵坐标。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明通过观察电网接线图，根据电网接线图图中文字的特点设置了添加白边、自适应阈值二值化、分类膨胀的图片预处理环节，使得大小差异较大、格式各异、模糊不清、色彩较浅等情况下的电网接线图文字更加清晰、噪声更小、更加便于识别。

2、本发明在对CRNN神经网络模型进行训练时，先采用了Synthetic ChineseString Dataset大型数据集进行预训练，使得模型的初始性能更高、提升速率更快、收敛效果更好。

3、本发明在对CRNN神经网络模型进行训练时，采用了分层解冻的方法进行多次训练，并对识别错误样本进行重复训练，大大提升了模型的学习效果，使得模型充分学习了电网接线图图中文字的特征知识。

4、本发明在构建针对电网接线图文字的识别模型时，通过旋转预处理和文字选择后处理两个模块的结合，简单且高效地实现了对电网接线图典型旋转文字的复原与识别。

5、本发明在构建针对电网接线图文字的识别模型时，在简写文本补全后处理模块里根据距离最近原则对电网接线图图中的简写文本进行了补充，解决了传统方法难以解决的简写文本补全问题，使得本发明更加适用于实际工程。

附图说明

图1为本发明方法的逻辑流程示意图。

图2为图片预处理效果图。

图3为CRNN神经网络模型的整体结构图。

图4为分层解冻式训练所有训练轮次得到的CRNN神经网络模型对文字图片训练集的识别准确率示意图。

图5为步骤3)所有训练轮次得到的CRNN神经网络模型对文字图片训练集的识别准确率示意图。

图6为简写文本补全示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的针对电网接线图文字的识别方法，其具体情况如下：

1)收集电网接线图图中文字的图片，对图片进行预处理，包括添加白边、自适应阈值二值化以及分类膨胀三项预处理环节，预处理后的图片构成文字图片数据集。按照7：3的数量比例将文字图片数据集分为文字图片训练集和文字图片测试集。

添加白边的具体操作是：从1、2、3、4、5五个数字中选择维度n＝2，先在图片的上下各添加2行白色像素，再在图片的左右各添加2列白色像素。

自适应阈值二值化的具体操作是：首先按照如下公式对图片进行灰度化：

Y＝0.299R+0.587G+0.114B

式中，Y为灰度化后的图片每个像素点的像素值，R、G、B为灰度化前的图片每个像素点在红、绿、蓝三个通道的像素值。

然后利用大津算法(OTSU)求取图片二值化的分割阈值，OTSU是求取图像全局分割阈值的最佳方法，它令前景和背景的类间方差最大求得分割阈值，具有自适应性，故每张图片均具有自己对应的分割阈值。得到分割阈值后，进行如下的二值化过程：

式中，Z为二值化后的图片每个像素点的像素值，ε为求取的分割阈值。

分类膨胀的具体操作是：首先根据图片大小，选取图片分类阈值s₁＝50，s₂＝100，将图片分为3类，分类按照如下公式进行：

式中，q为图片分类的类别号，h为图片高度。

然后根据图片所属类别号q，对图片进行q-1次膨胀操作。膨胀操作的过程为：先构建3*3大小的矩形结构元素，将矩形结构元素在图片上遍历，在每个遍历位置上利用矩形结构元素所覆盖像素值的最小值替换矩形结构元素中心位置处的像素值。

图片预处理效果如图2所示，由左到右为原图经一步步预处理后的结果，由图可见，经过图片预处理，待识别的文字图片更加清晰、噪声更少、更便于识别。

2)搭建CRNN神经网络模型，之后先采用Synthetic Chinese String Dataset中文识别数据集对CRNN神经网络模型进行预训练，再采用文字图片训练集进行分层解冻式训练。分层解冻式训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型。在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为I号CRNN神经网络模型。其包括以下步骤：

2.1)搭建CRNN神经网络模型，CRNN神经网络模型的整体结构如图3所示，从前至后由卷积模块、循环模块和转录模块组成，分别用于提取特征、预测标签分布和输出结果。卷积模块包括7个卷积层、4个最大池化层和2个批标准化层；循环模块包括两层双向长短期记忆网络(Bidirectional-LSTM)；转录模块基于CTC损失输出结果。除此之外，卷积模块和循环模块间还设置一层Map-to-Sequence，将卷积模块输出的特征图转化为特征序列输入循环模块。

2.2)采用Synthetic Chinese String Dataset中文识别数据集对CRNN神经网络模型进行预训练，Synthetic Chinese String Dataset中文识别数据集包含360万张文字图片，涵盖中文、英文、数字、标点以及各类符号。预训练后的CRNN神经网络可以完成简单的文字识别任务，但对电网接线图图中文字的识别效果不好，亟需进一步训练。

2.3)采用文字图片训练集进行分层解冻式训练。首先冻结预训练得到的CRNN神经网络模型，然后按照结构上从后向前的方向，一层层地解冻CRNN神经网络模型，并使用文字图片训练集进行训练。每次训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型。保存每个训练轮次得到的CRNN神经网络模型，并记录该模型对文字图片训练集的识别准确率。

这里先解冻两层Bidirectional-LSTM网络，使用文字图片训练集训练30个训练轮次，之后继续解冻最后一层卷积层，使用文字图片训练集训练20个训练轮次。考虑到识别准确率变化不大且训练工作量的增大，省略向前继续解冻进行训练的步骤。分层解冻式训练完成后，在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为I号CRNN神经网络模型。图4为分层解冻式训练所有训练轮次得到的CRNN神经网络模型对文字图片训练集的识别准确率，由图可知第29个训练轮次得到的CRNN神经网络模型对文字图片训练集具有最高的识别准确率91.66％，故选择该CRNN神经网络模型作为I号CRNN神经网络模型。

3)利用I号CRNN神经网络模型对文字图片训练集进行识别，收集识别错误的图片，构成错误识别数据集，利用错误识别数据集进一步对I号CRNN神经网络模型进行训练。训练包括40个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型。在所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为Ⅱ号CRNN神经网络模型。图5为本步骤所有训练轮次得到的CRNN神经网络模型对文字图片训练集的识别准确率，由图可知第4个训练轮次得到的CRNN神经网络模型对文字图片训练集具有最高的识别准确率92.50％，故选择该CRNN神经网络模型作为Ⅱ号CRNN神经网络模型。

4)基于Ⅱ号CRNN神经网络模型构建针对电网接线图文字的识别模型，对文字图片测试集中的文字图片进行识别，识别准确率为91.7％，实现了针对电网接线图图中文字的高准确率识别。针对电网接线图文字的识别模型包括旋转预处理、文字识别、文字选择后处理以及简写文本补全后处理四个模块。

旋转预处理模块的具体情况为：设定高宽比阈值δ＝4，当图片满足如下条件时：

h＞4w

对图片分别进行顺时针90°旋转和逆时针90°旋转，得到两张不同旋转处理后的图片，构成一组双向图，双向图的两张图片将替换经过旋转处理前的图片。式中，h为待预处理图片的高度，w为待预处理图片的宽度。

文字识别模块的具体情况为：采用Ⅱ号CRNN神经网络模型，该模型已充分学习了电网接线图图中文字的特征知识。文字识别模块的输入为一张图片，输出为预测出的文字字符串。针对双向图，一组双向图的两个图片经过文字识别模块后，将得到两个不同的文字字符串，构成一组待选文字。

文字选择后处理模块的具体情况为：针对每一组待选文字，文字选择后处理模块将选择出两个文字字符串中属于母线典型标注文字的一个。母线典型标注文字需同时满足如下三个条件：

a、包含文本“KV”、“Kv”、“kV”、“kv”中的一个；

c、包含文本“母”；

简写文本补全后处理模块的具体情况为：针对电网接线图图中的简写文本，根据距离最近原则，简写文本补全后处理模块选取距离最近的断路器设备编号作为前缀对简写文本进行补充。文本A、B间的距离计算公式如下：

图6为简写文本补全示意图，图中的“-1”、“-2”为简写文本，应当取距离最近的断路器设备编号101作为前缀进行补充，补充后的文本分别为“101-1”与“101-2”。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.针对电网接线图文字的识别方法，其特征在于，包括以下步骤：

添加白边的具体操作是：从1、2、3、4、5五个数字中选择一个作为维度n，先在图片的上下各添加n行白色像素，再在图片的左右各添加n列白色像素；

Y＝0.299R+0.587G+0.114B

式中，q为图片分类的类别号，b为用于分类的表征图片大小的参数；s₁，s₂，…，s_p-1为选取的图片分类阈值；

然后，根据图片所属类别号q，对图片进行q-1次膨胀操作，膨胀操作的过程为：先构建矩形结构元素，将矩形结构元素在图片上遍历，在每个遍历位置上利用矩形结构元素所覆盖像素值的最小值替换矩形结构元素中心位置处的像素值；

2)搭建CRNN神经网络模型，之后先采用Synthetic Chinese String Dataset中文识别数据集对CRNN神经网络模型进行预训练，再采用文字图片训练集进行分层解冻式训练，分层解冻式训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型；在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为Ⅰ号CRNN神经网络模型；包括以下步骤：

2.3)采用文字图片训练集进行分层解冻式训练，具体操作是：首先，冻结预训练得到的CRNN神经网络模型，然后按照结构上从后向前的方向，一层层地解冻CRNN神经网络模型，并使用文字图片训练集进行训练；每次训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型，保存每个训练轮次得到的CRNN神经网络模型，并记录该模型对文字图片训练集的识别准确率；分层解冻式训练完成后，在分层解冻式训练的所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为Ⅰ号CRNN神经网络模型；

3)利用Ⅰ号CRNN神经网络模型对文字图片训练集进行识别，收集识别错误的图片，构成错误识别数据集，利用错误识别数据集进一步对Ⅰ号CRNN神经网络模型进行训练，训练包含多个训练轮次，每个训练轮次均得到具有不同参数值的CRNN神经网络模型，在所有训练轮次中，选取对文字图片训练集具有最高识别准确率的CRNN神经网络模型作为Ⅱ号CRNN神经网络模型；

4)基于Ⅱ号CRNN神经网络模型构建针对电网接线图文字的识别模型，对文字图片测试集中的文字图片进行识别；其中，所述识别模型包括旋转预处理模块、文字识别模块、文字选择后处理模块以及简写文本补全后处理模块，所述旋转预处理模块用于对特定的文字图片进行旋转处理，所述文字识别模块采用Ⅱ号CRNN神经网络模型进行文字识别，所述文字选择后处理模块按照标准对经过旋转预处理后的文字图片的识别结果进行选择，所述简写文本补全后处理模块按照距离最近原则在识别结果里补全文字图片中被简写的文本；

所述旋转预处理模块的具体情况为：设定高宽比阈值δ，当图片满足如下条件时：

h＞δw

a、包含文本“KV”、“Kv”、“kV”、“kv”中的一个；

b、包含文本“#”、“Ⅰ”、“Ⅱ”、“Ⅲ”、“Ⅳ”、“Ⅴ”、“Ⅵ”中的一个；

c、包含文本“母”；