CN117456549A

CN117456549A - 一种基于智能图像算法的站内专题图图元识别方法

Info

Publication number: CN117456549A
Application number: CN202311413299.9A
Authority: CN
Inventors: 邱鹤庆; 赵光; 赵建伟; 王震; 张卫东; 邱炳煌; 游伟鑫; 陈占帅; 蔡钦辉; 蔡良杰; 谭景照; 尤剑晖; 郑安邦; 卢清辉; 范丽琴
Original assignee: XIAMEN GREAT POWER GEO INFORMATION TECHNOLOGY CO LTD; State Grid Information and Telecommunication Co Ltd
Current assignee: XIAMEN GREAT POWER GEO INFORMATION TECHNOLOGY CO LTD; State Grid Information and Telecommunication Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-26

Abstract

本发明涉及一种基于智能图像算法的站内专题图图元识别方法，包括以下步骤：收集站内专题图并生成预设比例的图片，再对图片进行预处理，并对预处理后的图片中的图元进行标记，将带有图元标记的图片组成训练集；构建图元识别推理模型，通过训练集对模型进行训练得到训练完成的图元识别推理模型；构建OCR识别模型，通过训练集对模型进行训练得到训练完成的OCR识别模型；分别输入训练完成的图元识别推理模型以及OCR识别模型，得到图元、图元坐标、图元名称、图元名称坐标，通过坐标绑定目标图元及其对应的文字信息，得到最终识别结果。

Description

一种基于智能图像算法的站内专题图图元识别方法

技术领域

本发明涉及一种基于智能图像算法的站内专题图图元识别方法，属于图形规划布局技术领域。

背景技术

电网系统中，站内图设备同源维护是重点工作之一。在现存的同源技术方案中，一般来说是通过站内图图纸和备注进行相关异动操作，在此过程中需要各方面人员的来回信息确认，沟通成本相对较大，效率相对较低。根据这种情况，各方都在努力尝试相关工作以提升工作效率，比如一些厂商尝试在成图时将异动信息打包成json格式，但因为各种原因无疾而终；也有工作人员在长期的工作中，根据经验总结出在异动图纸中详细备注异动信息这一方法。

上述情况中，详细备注在实际情况减轻工作压力，提升工作效率，这里结果很大依赖备注信息的标注准确高低，又由于各图纸厂商差异性，需要工作人员具备相对较高的能力和经验，而最终结果差强人意，这也是目前主流的工作流程。

发明内容

为了解决上述现有技术中存在的问题，本发明提出了一种基于智能图像算法的站内专题图图元识别方法。

本发明的技术方案如下：

一方面，本发明提供了一种基于智能图像算法的站内专题图图元识别方法，包括以下步骤：

收集站内专题图并对站内专题图按照预设比例生成图片，再对图片进行预处理，对图片中的图元进行标记，将带有图元标记的图片组成训练集；

构建图元识别推理模型，将训练集输入图元识别推理模型进行识别图元及坐标，根据识别结果更新图元识别推理模型参数，最终得到训练完成的图元识别推理模型；

构建OCR识别模型，将训练集输入OCR识别模型进行识别图元名称及坐标，根据识别结果更新OCR识别模型参数，最终得到训练完成的OCR识别模型；

将需要识别的站内专题图图片分别输入训练完成的图元识别推理模型以及OCR识别模型，得到图元、图元坐标、图元名称、图元名称坐标，通过坐标绑定目标图元及其对应的文字信息，得到最终识别结果。

作为本发明的优选实施方式，所述站内专题图图片预处理具体步骤为：

通过图像边缘检测对图像边缘像素进行增强使边缘膨胀，同时对边缘像素进行艳化，对于非边缘且低于色彩阈值的像素设置背景色；

再对上述强化后的图像进行随机旋转、放大、缩小。

作为本发明的优选实施方式，所述图元识别推理模型基于PP-YOLOE网络模型构建；

所述OCR识别模型基于PP-OCRv4网络模型构建。

作为本发明的优选实施方式，基于图元名称坐标识别并绑定其对应的图元，具体为：

整理图元识别推理模型识别的图元并列出图元的坐标清单；

整理OCR识别模型识别的图元名称并列出图元名称的坐标清单；

对于任一图元名称坐标计算其与所有图元坐标的欧式距离，获取距离最小的图元坐标所对应的图元作为当前图元名称坐标所对应图元名称的绑定对象，同时获取最小距离值用于绑定判断；

预设距离阈值，当最小距离值小于距离阈值时判断当前绑定有效，当最小距离值大于距离阈值时判断当前图元名称为无效文本。

另一方面，本发明还提供了一种基于智能图像算法的站内专题图图元识别系统，包括数据收集模块、图元识别推理模块、图元名称识别模块以及图元名称绑定模块；

所述数据收集模块用于收集站内专题图并对站内专题图按照预设比例生成图片，再对图片进行预处理，对图片中的图元进行标记，将带有图元标记的图片组成训练集；

所述图元识别推理模块用于构建图元识别推理模型，将训练集输入图元识别推理模型进行识别图元及坐标，根据识别结果更新图元识别推理模型参数，最终得到训练完成的图元识别推理模型，将需要识别的站内专题图输入该模型得到站内专题图的图元及其坐标；

所述图元名称识别模块用于构建OCR识别模型，将训练集输入OCR识别模型进行识别图元名称及坐标，根据识别结果更新OCR识别模型参数，最终得到训练完成的OCR识别模型，将需要识别的站内专题图输入该模型得到站内专题图的图元名称及其坐标；

所述图元名称绑定模块用于基于图元识别推理模块与图元名称识别模块所输出的图元、图元坐标、图元名称、图元名称坐标，通过坐标绑定目标图元及其对应的文字信息，得到最终识别结果。

再对上述强化后的图像进行随机旋转、放大、缩小。

所述OCR识别模型基于PP-OCRv4网络模型构建。

整理图元识别推理模型识别的图元并列出图元的坐标清单；

再一方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例所述的方法。

再一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的方法。

本发明具有如下有益效果：

1、本发明根据CNN进行深度训练进行目标检测，识别站内图各图元，并获得各图元及其名称的坐标信息，基于图元坐标以及图元名称坐标距离，对识别的图元以及图元名称进行一一绑定，根据绑定结果自动生成相关异动信息，辅助工作人员进一步提升工作效率。

附图说明

图1为本发明方法流程图；

图2为本发明输入数据示例图；

图3为本发明OCR识别模型输出结果示例图；

图4为本发明图元及图元坐标绑定示例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，文中所使用的步骤编号仅是为了方便描述，不对作为对步骤执行先后顺序的限定。

应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

实施例一：

随着近年来英伟达，超威半导体为代表的半导体厂商陆续推出超大线程计算单元设备后，使得卷积神经网络CNN在智能图像识别中，多线程并行计算成为现实，智能图像识别在工业领域中也多有应用落地，在电网gis系统中，站内的智能机器人安全检测，利用无人机的站外设备巡检等系统都已经上线，在电网系统稳定安全中发挥光热。在站内图中，由于图元相对稳定，在否定通过计算机视觉进行模式匹配方案(阈值要求过高)后，提出根据CNN进行深度训练进行目标检测，识别站内图各图元，并获得各图元坐标信息的方案。

参见图1，一种基于智能图像算法的站内专题图图元识别方法，包括以下步骤：

收集站内专题图并对站内专题图按照预设比例生成图片，再对图片进行预处理，对图片中的目标图元进行标记，将带有图元标记的图片组成训练集；

作为本实施例的优选实施方式，所述站内专题图图片预处理具体步骤为：

基于OpenCV库，通过图像边缘检测对图像边缘像素进行增强使边缘膨胀，同时对边缘像素进行艳化，对于非边缘且低于色彩阈值的像素设置背景色；

在本实施例中，边缘膨胀操作仅迭代一次；

再对上述强化后的图像进行随机旋转、放大、缩小。

作为本实施例的优选实施方式，所述图元识别推理模型基于PP-YOLOE网络模型构建；

PP-YOLOE网络模型相较于传统YOLO模型优势如下：

1、更好的骨干网络：PP-YOLOE使用更加先进和高效的骨干网络，如ResNet、ResNext等，这些网络有利于提取更丰富和区分性强的特征；

2、更多的特征融合方式：PP-YOLOE增加了多尺度特征融合，不同层次的特征在网络中有效结合，提升小目标和形变目标的检测效果；

3、更强大的训练框架：基于PaddlePaddle的高性能分布式训练系统，使模型训练速度可加速，支持大规模数据和更深网络训练；

4、模型剪枝和压缩：使用模型压缩技术，减小模型大小，降低计算量和存储需求；

5、更丰富的预训练模型：提供针对不同场景预训练好的高精度模型，降低训练成本；

6、多种预测部署方案：支持服务端、移动端、嵌入式等多平台高效部署；

总体来说，PP-YOLOE在原有YOLO算法基础上，通过骨干网络优化、特征融合、高效训练平台等手段进一步提升了检测精度和速度，使其更适合实际应用场景。

所述OCR识别模型基于PP-OCRv4网络模型构建。

PP-OCRv4网络模型相较于传统OCR模型优势如下：

在检测模块方面：使用了精度更高的骨干网络PP-LCNetV3；

采用了并行head分支融合结构PFHead；

训练中动态增加shrink ratio；

添加Student和Teacher网络输出的KL div loss；

在识别模型方面：

使用了精度更高的骨干网络SVTR_LCNetV3，精简的Neck结构Lite-Neck，稳定的Attention指导分支GTC-NRTR，多尺度训练策略，更新了数据挖掘方案以及采用DKD蒸馏策略；

从效果上看，速度可比情况下，v4相比v3在多种场景下的精度均有大幅提升：

中文场景，相对于PP-OCRv3中文模型提升超4％；

英文数字场景，相比于PP-OCRv3英文模型提升6％；

多语言场景，优化80个语种识别效果，平均准确率提升超8％。

作为本实施例的优选实施方式，基于图元名称坐标识别并绑定其对应的图元，具体为：

整理图元识别推理模型识别的图元并列出图元的坐标清单；

具体地，在本实施例中具体步骤为：

1.生成图片：

1)用专业软件打开图纸；

2)如果存在部分图纸使用自定义字体打开后乱码，修改为标准宋体字体；

3)对图纸按照指定比例生成清晰图片；

4)对目标图元mark标记。

2.图元训练

1)将标签和图片喂入训练，识别图元；

2)对训练模型权重进行图元推理模型部署。

3.图元识别

1)参见图2，将图2喂入已部署的图元识别推理模型；

2)识别并记录预测图元目标以及坐标。

4.图元文字说明OCR识别

1)部署OCR识别模型；

2)将图2喂入已部署的OCR识别推理模型；

3)识别并记录预测图元目标以及坐标，识别结果如图3所示；

5、OCR文字和图元信息绑定

1)整理上述图元识别的目标对象和坐标清单；

2)整理上述文字OCR识别的目标对象和坐标清单；

3)根据文字目标的中心坐标，去和对象的各个原点标点计算欧式距离；

4)获取最小距离的目标对象和最小距离值；

5)提前设定好距离阈值S，当>S时，认定绑定有效，否则认为此文本为无效文本。

参见图4，设定距离阈值S＝4，图中有断路器5个，假定从左向右断路器集合(D1,D2,D3,D4,D5)，各断路器的状态分别为D1断路器-闭合，D2断路器-断开，D3断路器-闭合，D4断路器-断开，D5断路器-断开；

在已经识别出断路器开关对象和文字信息的情况下，以左上角为为原点，设定文字信息集合坐标原点分别为[901(3，5)，902(8，5)，903(13，5)，904(18，5)，905(23，5)]，而对应的断路器开关集合从左向右中心点坐标集合为[(5，5)，(10，5)，(15，5)，(20，5)，(25，5)]；

对于901文字，其对于图元编号D1的欧氏距离为：以此类推后续，901文字与断路器编号D1-D5的距离分别为：2，7，12，17，22，其中最小值为|901-D1|＝2，又由于2小于4，可以认为901是断路器D1的名称。

这里以“文本-join-图元”表示绑定关系，即901-join-D1，以此类推可以推测出剩余断路器结果绑定关系，如果某一个设备被多个文本绑定，则取当前设备的绑定文本清单中，距离最短的那一个作为自己的绑定文本，再对剩余文本进行重新计算，直到没有出现一个图元被多个文本绑定的情况。

实施例二：

一种基于智能图像算法的站内专题图图元识别系统，包括数据收集模块、图元识别推理模块、图元名称识别模块以及图元名称绑定模块；

所述数据收集模块用于收集站内专题图并对站内专题图按照预设比例生成图片，再对图片进行预处理，对图片中的目标图元进行标记，将带有图元标记的图片组成训练集；

再对上述强化后的图像进行随机旋转、放大、缩小。

所述OCR识别模型基于PP-OCRv4网络模型构建。

整理图元识别推理模型识别的图元并列出图元的坐标清单；

实施例三：

本实施例提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明任一实施例所述的方法。

实施例四：

本实施例提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于智能图像算法的站内专题图图元识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于智能图像算法的站内专题图图元识别方法，其特征在于，所述站内专题图图片预处理具体步骤为：

再对上述强化后的图像进行随机旋转、放大、缩小。

3.根据权利要求1所述的一种基于智能图像算法的站内专题图图元识别方法，其特征在于，所述图元识别推理模型基于PP-YOLOE网络模型构建；

所述OCR识别模型基于PP-OCRv4网络模型构建。

4.根据权利要求1所述的一种基于智能图像算法的站内专题图图元识别方法，其特征在于，基于图元名称坐标识别并绑定其对应的图元，具体为：

整理图元识别推理模型识别的图元并列出图元的坐标清单；

5.一种基于智能图像算法的站内专题图图元识别系统，其特征在于，包括数据收集模块、图元识别推理模块、图元名称识别模块以及图元名称绑定模块；

6.根据权利要求5所述的一种基于智能图像算法的站内专题图图元识别系统，其特征在于，所述站内专题图图片预处理具体步骤为：

再对上述强化后的图像进行随机旋转、放大、缩小。

7.根据权利要求5所述的一种基于智能图像算法的站内专题图图元识别系统，其特征在于，所述图元识别推理模型基于PP-YOLOE网络模型构建；

所述OCR识别模型基于PP-OCRv4网络模型构建。

8.根据权利要求5所述的一种基于智能图像算法的站内专题图图元识别系统，其特征在于，基于图元名称坐标识别并绑定其对应的图元，具体为：

整理图元识别推理模型识别的图元并列出图元的坐标清单；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4任一项所述的方法。