CN111563509B - 一种基于tesseract的变电站端子排识别方法及系统 - Google Patents

一种基于tesseract的变电站端子排识别方法及系统 Download PDF

Info

Publication number
CN111563509B
CN111563509B CN202010361848.2A CN202010361848A CN111563509B CN 111563509 B CN111563509 B CN 111563509B CN 202010361848 A CN202010361848 A CN 202010361848A CN 111563509 B CN111563509 B CN 111563509B
Authority
CN
China
Prior art keywords
information
file
terminal
training
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010361848.2A
Other languages
English (en)
Other versions
CN111563509A (zh
Inventor
王磊
黄力
刘应明
杨永祥
陈相吉
周政宇
黄照厅
周金桥
张建行
龙志
瞿强
杨凯利
黄伟
付锡康
朱平
朱皓
张雪清
曾蓉
李克
瞿杨全
熊维
柯勇
汤龙
陈晨
王予彤
余秋衡
阮鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Power Grid Co Ltd
Original Assignee
Guizhou Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Power Grid Co Ltd filed Critical Guizhou Power Grid Co Ltd
Priority to CN202010361848.2A priority Critical patent/CN111563509B/zh
Publication of CN111563509A publication Critical patent/CN111563509A/zh
Application granted granted Critical
Publication of CN111563509B publication Critical patent/CN111563509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于tesseract的变电站端子排设计图识别方法,包括,将变电站端子排信息图纸转换为图片文件上传至客户端内监听上传的所述图片文件并记录在待识别的图片清单中,若所述变电站端子排信息图纸上传完毕,则开始识别所述图片清单;对所述图片清单进行碎片化处理并记录碎片信息;调用训练模型识别所述碎片信息得到识别结果,结构化整理所述识别结果并存入指定目录内。本发明通过增加针对变电站端子排设计图纸特殊字符的字符库,基于tesseract训练模型对特殊符号进行处理提高识别精度,在快速、准确的识别端子排接线设计信息的同时,避免了人工重复劳动,保障了电网接线运行的高效,消除了安全隐患。

Description

一种基于tesseract的变电站端子排识别方法及系统
技术领域
本发明涉及变电站二次接线、端子排图像识别技术领域,尤其涉及一种基于tesseract的变电站端子排识别方法及系统。
背景技术
变电站中的二次系统装置设备众多、各类线缆也是种类繁多,包括继电保护装置、安全自动装置、故障录波装置、继电保护故障信息系统子站、合并单元装置、网络交换机、智能终端装置等。变电站内的二次接线非常复杂,而二次接线的准确与否关系着电网运行安全,因而具有非常重要的地位。如此复杂的对外接线也给安装和维护带来了极大的挑战。如在变电二次检修日常工作中,为了保证电网、设备和人身安全,经常需要在工作前做好二次安全措施。针对主变保护屏、母差保护屏等非常重要的保护屏,都需要对应做如下安全措施:打开端子排内侧接线、做好安全隔离措施、待工作结束后及时恢复等工作。由于这些保护屏的二次接线相对较多,经常会遇到在恢复端子排内侧线时不易下手,或是看不到接线孔位的情况。实际执行时,需要多少人反复确认,有时还要借助尖嘴钳等工具夹住接线插头进行接入。这就容易产生接错位置等安全隐患,造成该操作作业难度大,工作效率低等诸多问题。
目前主要采用人工现在现场检查二次屏柜接线的方式进行,在变电站二次线缆现场的施工过程中都是现场技术人员按照施工图纸手工进行接线操作,由于变电站二次回路屏柜接线种类繁多、数量庞杂、工作量特别大,因此容易发生接线错误。同时在变电站二次系统的运维中也经常涉及到接线的更改,也有可能引入新的接线错误。在实际的工作中,对于接线错误的检查主要是通过人工检查、调试过程中对点查找的方式来检查,这种做法的缺点是效率低,工作量大,且存在漏检、增加了引入人为错误的可能。变电站现场总会有一些接线错误不易被发现,这就给变电站的稳定运行带来了隐患。目前在全国各省的变电站运行中,均有一些接线错误引起的故障,造成损失的事件在不断发生。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明提供了一种基于tesseract的变电站端子排识别方法,能够克服设计图纸复杂多变不易识别的难题、解决接线错误影响电网安全运行的问题。
为解决上述技术问题,本发明提供如下技术方案:包括,将变电站端子排信息图纸转换为图片文件上传至客户端内;监听上传的所述图片文件并记录在待识别的图片清单中,若所述变电站端子排信息图纸上传完毕,则开始识别所述图片清单;对所述图片清单进行碎片化处理并记录碎片信息;调用训练模型识别所述碎片信息得到识别结果,结构化整理所述识别结果并存入指定目录内。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:所述变电站端子排信息图纸上传完毕后,还包括,分别在结果目录下生成变电站开始文件和变电站失败文件;若所述客户端中的上传程序检测到所述变电站开始文件,则提醒用户当前服务器有正在进行的识别任务,不再向识别文件夹上传剩余的所述图片文件;若所述上传程序检测到所述识别任务识别失败,则通知所述变电站失败文件记录识别失败的图片文件名称。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:所述碎片化处理包括,拆分所述图片清单的信息;分别解析外部接线、端子号、回路编号、内部接线、备注列的信息且相互对应数据;解析完成后获得行列单独识别的数据,形成所述碎片信息。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:所述训练模型需提前进行训练,包括,采集多种端子排设计图纸样本添加至字符库内;利用tesseract图纸识别策略建立所述训练模型,结合三方样本训练工具训练所述字符库;设定阈值精度,重复训练所述训练模型识别所述字符库中的所述端子排设计图纸文字、符号样式直至满足所述阈值精度要求;所述阈值精度要求包括,若所述训练模型正确识别端子排上的套管标签且显示文本及端子序号,则所述训练模型结束训练。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:所述训练模型利用字符分割识别所述碎片信息,具体包括,利用字符间的间隔对所述碎片信息进行粗略的切分,检测出字符区域的区域轮廓和子轮廓,形成块区域;在所述块区域中检测出字符轮廓,利用空格得到单词;采用适应分类器两次分析所述单词,识别含有模糊的空格、笔画高度、小写字母,获得识别文本。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:还包括,利用数字图像处理形态策略将所述端子排信息图纸以表格的行、列形式分开处理;定义表头是所述端子排的分组信息,所述列是所述端子排的基本信息;利用二值形态学对二值化翻转图像进行腐蚀和膨胀,如下:
腐蚀公式,
Figure BDA0002475351700000031
膨胀公式,
Figure BDA0002475351700000032
其中,所述腐蚀公式与所述膨胀公式消除噪声、分割独立的图像元素及连接相邻的元素,寻找图像中明显的极大值区域或极小值区域,获得识别元素。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:将所述识别文本与所述识别元素整合形成所述识别结果存入所述指定目录中,具体包括,将所述端子排信息图纸转换为tif格式;定义字符库配置文件且自动匹配到需要矫正的tif文件进行字符矫正,生成训练文件并放入字库目录下;获得矫正好的所述训练文件并复制到所述字库目录下进行读取,所述训练文件中的信息按照数据库的层级结构进行对应存储。
作为本发明所述的一种基于tesseract的变电站端子排识别方法的一种优选方案,其中:所述识别结果还包括,端子排名称、端子序号、外部接线、内部接线;所述数据库层级结构还包括,变电站信息、屏柜信息、分组标签信息、端子号套管标签信息。
作为本发明所述的一种基于tesseract的变电站端子排识别系统的一种优选方案,其中:包括,监听模块,用于对指定目录进行监听并记录操作者行为,依据监听结果调动文字识别及矫正模块、表格图像处理及定位模块、数据库模块,完成整个端子排图纸识别流程;所述文字识别及矫正模块与所述监听模块相连接,用于页面分析、文字区域搜索、文字轮廓搜索,通过LSTM神经网络深度学习算法对待识别的文字进行分类及矫正;所述表格图像处理及定位模块连接于所述文字识别及矫正模块,用于完成表格分析,其通过数字图像处理形态学算法并结合识别模块识别结果综合判断表格信息;所述数据库模块,用于结构化处理所述表格图像处理及定位模块及所述文字识别及矫正模块的识别结果,对比所述端子排信息图纸的接线信息和手持端拍摄的现场端子排接线信息是否相同;所述识别模块,用于加载训练模型数据、获取所述数据库模块的比对结果,输出识别信息。
本发明的有益效果:本发明通过增加针对变电站端子排设计图纸特殊字符的字符库,基于tesseract训练模型对特殊符号进行处理提高识别精度,对于复杂多变的设计图纸进行学习样条差值变换检测各种不规则套管标签的边框信息,通过编码器循环解码矫正得到序列标签,结合二叉树搜索的精准表格切割算法对二值化翻转图像进行腐蚀和膨胀处理得到识别结果,在快速、准确的识别端子排接线设计信息的同时,避免了人工重复劳动,保障了电网接线运行的高效,消除了安全隐患。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的流程示意图;
图2为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的碎片化处理拆分示意图;
图3为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的字符切割示意图;
图4为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的端子排设计信息示意图;
图5为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的传统人工采集方法测试结果示意图;
图6为本发明第一个实施例所述的一种基于tesseract的变电站端子排识别方法的本发明方法测试结果示意图;
图7为本发明第二个实施例所述的一种基于tesseract的变电站端子排识别系统的模块结构分布示意图;
图8为本发明第二个实施例所述的一种基于tesseract的变电站端子排识别系统的网络拓扑结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
端子排是承载多个或多组相互绝缘的端子组件并用于固定支持部件的绝缘部件,将屏内设备和屏外设备的线路相连接,起到信号(电流电压)传输的作用,端子排能牢靠的连接远距离接线,且施工和维护更方便,但是目前并没有针对端子排接线进行识别的技术方案,主要采用人工在现场检查二次屏柜接线的方式进行,且在变电站二次线缆现场的施工过程中都是现场技术人员按照施工图纸手工进行接线操作,由于变电站二次回路屏柜(端子排信息)接线种类繁多、数量庞杂、工作量特别大,因此容易发生接线错误。
参照图1~图6,为本发明的第一个实施例,该实施例提供了一种基于tesseract的变电站端子排设计图识别方法,包括:
S1:将变电站端子排信息图纸转换为图片文件上传至客户端内。
S2:监听上传的图片文件并记录在待识别的图片清单中,若变电站端子排信息图纸上传完毕,则开始识别图片清单。其中需要说明的是,变电站端子排信息图纸上传完毕后,还包括:
分别在结果目录下生成变电站begin.txt(开始)文件和变电站fail.txt(失败)文件;
若客户端中的上传程序检测到变电站begin.txt(开始)文件,则提醒用户当前服务器有正在进行的识别任务,不再向识别文件夹上传剩余的图片文件;
若上传程序检测到识别任务识别失败,则通知变电站fail.txt文件记录识别失败的图片文件名称。
S3:对图片清单进行碎片化处理并记录碎片信息。参照图2,本步骤需要说明的是,碎片化处理包括:
拆分图片清单的信息;
分别解析外部接线、端子号、回路编号、内部接线、备注列的信息且相互对应数据;
解析完成后获得行列单独识别的数据,形成碎片信息。
S4:调用训练模型识别碎片信息得到识别结果,结构化整理识别结果并存入指定目录内。其中还需要说明的是,训练模型需提前进行训练,包括:
采集多种端子排设计图纸样本添加至字符库内;
利用tesseract图纸识别策略建立训练模型,结合jtessBoxEditor(三方样本训练工具)训练字符库;
设定阈值精度,重复训练训练模型识别字符库中的端子排设计图纸文字、符号样式直至满足阈值精度要求;
阈值精度要求包括,若训练模型正确识别端子排上的套管标签且显示文本及端子序号,则训练模型结束训练。
进一步的,参照图3,训练模型利用字符分割识别碎片信息,具体包括:
利用字符间的间隔对碎片信息进行粗略的切分,检测出字符区域的区域轮廓和子轮廓,形成块区域;
在块区域中检测出字符轮廓,利用空格得到单词;
采用适应分类器两次分析单词,识别含有模糊的空格、笔画高度、小写字母,获得识别文本。
需要说明的是,字符分割和识别目标是整个tesseract的设计目标,包括如下步骤:
(1)利用字符间的间隔进行粗略的切分,得到大部分的字符(包括粘连字符、错误切分的字符),判定字符区域类型并根据判定结果对比字符库识别字符;
(2)根据识别的字符结果进行粘连字符的分割,同时把错误分割的字符合并,完成字符的精细划分。
具体的,处理图像元素还包括:
利用数字图像处理形态策略将端子排信息图纸以表格的行、列形式分开处理;
定义表头是端子排的分组信息,列是端子排的基本信息;
利用二值形态学对二值化翻转图像进行腐蚀和膨胀,如下:
腐蚀公式,
Figure BDA0002475351700000071
膨胀公式,
Figure BDA0002475351700000072
其中,腐蚀公式与膨胀公式消除噪声、分割独立的图像元素及连接相邻的元素,寻找图像中明显的极大值区域或极小值区域,获得识别元素。
将识别文本与识别元素整合形成识别结果存入指定目录中,具体包括:
将端子排信息图纸转换为tif格式;
定义字符库配置文件且自动匹配到需要矫正的tif文件进行字符矫正,生成traineddata(训练)文件并放入tessdata(字库)目录下;
获得矫正好的traineddata(训练)文件并复制到tessdata(字库)目录下进行读取,traineddata(训练)文件中的信息按照数据库的层级结构进行对应存储。
识别结果还包括:
端子排名称、端子序号、外部接线、内部接线;
参照图2,ZD表示端子排的名称、直流电流表示端子排的作用、1~10表示端子排上的端子序号、+KM直流信息表示端子排的外部接线、1K-3和1-7K-3W表示端子排的内部接线;
若有备注列,则对备注列进行数据记录,若没有,则不记录。
数据库层级结构还包括:
变电站信息、屏柜信息、分组标签信息、端子号套管标签信息。
较佳的是,调用训练模型对碎片信息中的特殊字符进行文字识别(即利用tessdata字库的中文语言包识别包含中文的端子排信息),结合文字识别结果与碎片信息中的图像元素找到其内在关联信息(即识别图纸时按照表格的行和列形式进行识别,识别外部接线、端子序号、内部接线、回路编号、备注信息时是不存在关联关系的),找到关联信息则能准确的判断屏柜端子排接线方式,若遇到有问题的图片,则跳过该图片的处理并记录错误信息到变电站fail.txt(失败)文件中。
具体的,训练模型主要针对端子排中的连接片(短接关系)做了加强化处理,其中,对待识别图像进行灰度处理和腐蚀膨胀,训练模型选择(寻找图像中明显的极大值区域或极小值区域,获得识别元素)处理后的图像中文字区域(即字体部分,如端子序号、备注信息),再对其进行分割、裁剪、匹配,输出识别结果;例如,参照图6,将要处理的图像以二维矩阵的形式存储在内存中(一张数字图像是由无数个像素点组成,若是灰度图像则可以用一个二维矩阵表示),选择备注中的中文描述说明转换的情况(110KV线路GIS智能控制信号电源),对原图像进行中值滤波,消除图像中的噪声(空域内的非线性滤波),对边缘检测后的图形进行腐蚀、平滑处理,从二进制图像中移除所有少于1000像素的连接对象,消失的是连续的白色像素数量少于1000的字符,得到文字所对应区域,利用其对原图进行裁剪,对裁剪后的图像重复上述过程并对单个的字进行切割,将分割后的字与字符库进行对比,输出识别结果(110KV线路GIS智能控制信号电源)。
再进一步的是,参照图4,本实施例为了更好地说明本发明方法进行识别处理找到关联信息,以某一端子排设计图纸为例,进行详细的概述,在识别时,能够显示出GK1:2、GK2:1、端子号1~15的信息、回路编号~A、内部接线Q12:1、Q13:1、Q11:1、Q10:1及备注中的信息,但这些信息对于CPU处理器而言是无法计算出端子序号为1的端子、外部接线是GK1:2还是GK2:1,所以就需要找到表格单元(即行和列形式)的内在关联信息,利用训练模型中识别字符文本的顺序进行处理;当处理第一行时,识别出GK1:2的信息,存入内存中,将这条信息标记为0,识别第二行时,识别出GK2:1的信息,存入内存中,将这条信息标记为1,识别第三行时,是个空值,但这个值依然会存入内存中,并标记为3,以此类推,将外部接线这列识别完,识别端子序号所在列时,也是按照此方法记录,当图片中的内容全部处理完成后,通过各信息的标记,进行关联,例如标记为0的就关联其他标记为0的信息,最终得到关联信息。
为了对本发明方法中采用的技术效果加以验证说明,本实施例选择以传统人工采集方法与本发明方法进行对比测试,以科学论证的手段对比试验结果,验证本发明方法所具有的真实效果;传统人工采集方法无法准确的、完全的识别出图纸所表达的信息,识别精度较低、识别信息较少、工作效率缓慢,为验证本发明方法相对于传统技术方法具有较高的识别精度、全面的识别信息、提高工作效率,本实施例中将采用传统人工采集方法和本发明方法分别对某设计院设计的端子排信息图纸进行测试对比,为了更好地验证本发明方法与传统技术方法的区别,两种方法共同识别同一段端子排信息进行比较;
测试环境:
(1)Windows7及以上版本的PC;
(2)tessdata运行环境。
本实施例还需要说明的是,传统的人工采集图像识别方法需要人工拍摄需要识别的图像照片并将其直接上传到图像识别服务器中进行识别,将识别后的结果输出为文本数据,根据不同的场景应用生成图片、表格信息,然而,对于图纸中的短接关系是无法做到精确识别的;而本发明方法主要解决端子排之间的连接片关系,将对文输出结果做统一化处理,例如图5中端子号的字体大小不一、备注中的中文字体大小也不一样,具体的,参照图6中的短接关系(电流从端子号为1的口进入时,2、3、4、5、6口皆能接收到1口进入的电流),例如,家中入户的线只有一条,但是这个短接关系能够单独控制冰箱、电灯的供电,所以这个短接关系在实际应用中是很重要的信息,但是参照图5,传统的图像识别方法无法精准的识别短接关系,有时会识别为0,有的则识别不出。
测试结果参照图5和图6的示意,图5为传统技术方法输出的测试结果示意图,图6为本发明方法输出的测试结果示意图,能够看到,图6的信息比图5的要更加全面、清楚,且图6完整的显示端子号信息并通过短接关系进行表达,方便技术人员针对于后期屏柜接线能够更加清楚、直接、正确的进行,避免了接线错误影响电网安全运行的风险,而图5则未能达到此效果,且人工采集数据耗时较长,效率极低,更直观的验证了本发明方法具有较高识别精度和较全面完整的识别信息内容。
实施例2
参照图7和图8,为本发明的第二个实施例,该实施例不同于第一个实施例的是,提供了一种基于tesseract的变电站端子排设计图识别系统,包括:
监听模块100,用于对指定目录进行监听并记录操作者行为,依据监听结果调动文字识别及矫正模块200、表格图像处理及定位模块300、数据库模块400,完成整个端子排图纸识别流程。
文字识别及矫正模块200与监听模块100相连接,用于页面分析、文字区域搜索、文字轮廓搜索,通过LSTM神经网络深度学习算法对待识别的文字进行分类及矫正。
表格图像处理及定位模块300连接于文字识别及矫正模块200,用于完成表格分析,其通过数字图像处理形态学算法并结合识别模块500识别结果综合判断表格信息。
数据库模块400,用于结构化处理表格图像处理及定位模块300及文字识别及矫正模块200的识别结果,对比端子排信息图纸的接线信息和手持端拍摄的现场端子排接线信息是否相同。
识别模块500,用于加载训练模型数据、获取数据库模块400的比对结果,输出识别信息。
需要说明的是,本发明系统分别在GPU服务端的Eclipse、PyDev和PC客户端的Visio studio开发平台进行程序运行的研发,基于程序语言的编写和sqlite3数据库的结合满足开发环境的需求,针对屏柜对应的电子图纸中的端子排接线信息进行识别并给出电子图纸端子排接线信息识别结果存入服务器端数据库内。
具体的,程序应用需结合PC端与移动端实现,PC端用于上传设计图纸图片文件及导出识别结果,移动端用于拍照、处理、在联网状态时同步上传和离网状态下异步上传,本发明系统根据底层基础数据录入的站点信息及相应被测屏柜的标准接线信息,与现场拍摄照片中实际接线信息进行对比,生成识别结果报告并在系统主站端及移动端显示,工作人员通过显示的识别结果获得正确的端子排接线信息。
优选的是,本发明系统的研发成果一方面解决了变电站二次线缆现场的施工过程中由于变电站二次回路屏柜接线种类繁多、数量庞杂、工作量大而导致的接线错误,避免了二次系统运维人工检查错漏现象,另一方面降低了变电站运行隐患,提高了运维效率,对网络化部署及推广应用具有积极作用。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于tesseract的变电站端子排设计图识别方法,其特征在于:包括,
将变电站端子排信息图纸转换为图片文件上传至客户端内;
监听上传的所述图片文件并记录在待识别的图片清单中,若所述变电站端子排信息图纸上传完毕,则开始识别所述图片清单;
对所述图片清单进行碎片化处理并记录碎片信息;
调用训练模型识别所述碎片信息得到识别结果,结构化整理所述识别结果并存入指定目录内;
所述变电站端子排信息图纸上传完毕后,还包括,
分别在结果目录下生成变电站开始文件和变电站失败文件;
若所述客户端中的上传程序检测到所述变电站开始文件,则提醒用户当前服务器有正在进行的识别任务,不再向识别文件夹上传剩余的所述图片文件;
若所述上传程序检测到所述识别任务识别失败,则通知所述变电站失败文件记录识别失败的图片文件名称;
所述碎片化处理包括,
拆分所述图片清单的信息;
分别解析外部接线、端子号、回路编号、内部接线、备注列的信息且相互对应数据;
解析完成后获得行列单独识别的数据,形成所述碎片信息;
所述训练模型需提前进行训练,包括,
采集多种端子排设计图纸样本添加至字符库内;
利用tesseract图纸识别策略建立所述训练模型,结合三方样本训练工具训练所述字符库;
设定阈值精度,重复训练所述训练模型识别所述字符库中的所述端子排设计图纸文字、符号样式直至满足所述阈值精度;
所述阈值精度包括,若所述训练模型正确识别端子排上的套管标签且显示文本及端子序号,则所述训练模型结束训练;
所述训练模型利用字符分割识别所述碎片信息,具体包括,
利用字符间的间隔对所述碎片信息进行粗略的切分,检测出字符区域的区域轮廓和子轮廓,形成块区域;
在所述块区域中检测出字符轮廓,利用空格得到单词;
采用适应分类器两次分析所述单词,识别含有模糊的空格、笔画高度、小写字母,获得识别文本;
利用数字图像处理形态策略将所述端子排信息图纸以表格的行、列形式分开处理;
定义表头是所述端子排的分组信息,所述列是所述端子排的基本信息;
利用二值形态学对二值化翻转图像进行腐蚀和膨胀,如下:
腐蚀公式,
Figure FDA0003236808740000021
膨胀公式,
Figure FDA0003236808740000022
其中,所述腐蚀公式与所述膨胀公式消除噪声、分割独立的图像元素及连接相邻的元素,寻找图像中明显的极大值区域或极小值区域,获得识别元素。
2.如权利要求1所述的基于tesseract的变电站端子排设计图识别方法,其特征在于:将所述识别文本与所述识别元素整合形成所述识别结果存入所述指定目录中,具体包括,
将所述端子排信息图纸转换为tif格式;
定义字符库配置文件且自动匹配到需要矫正的tif文件进行字符矫正,生成训练文件并放入字库目录下;
获得矫正好的所述训练文件并复制到所述字库目录下进行读取,所述训练文件中的信息按照数据库的层级结构进行对应存储。
3.如权利要求2所述的基于tesseract的变电站端子排设计图识别方法,其特征在于:所述识别结果还包括,端子排名称、端子序号、外部接线、内部接线;
所述数据库层级结构还包括,变电站信息、屏柜信息、分组标签信息、端子号套管标签信息。
CN202010361848.2A 2020-04-30 2020-04-30 一种基于tesseract的变电站端子排识别方法及系统 Active CN111563509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010361848.2A CN111563509B (zh) 2020-04-30 2020-04-30 一种基于tesseract的变电站端子排识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010361848.2A CN111563509B (zh) 2020-04-30 2020-04-30 一种基于tesseract的变电站端子排识别方法及系统

Publications (2)

Publication Number Publication Date
CN111563509A CN111563509A (zh) 2020-08-21
CN111563509B true CN111563509B (zh) 2021-11-02

Family

ID=72071715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010361848.2A Active CN111563509B (zh) 2020-04-30 2020-04-30 一种基于tesseract的变电站端子排识别方法及系统

Country Status (1)

Country Link
CN (1) CN111563509B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927194A (zh) * 2021-02-02 2021-06-08 武汉光谷信息技术股份有限公司 设计图纸与实物的自动核对方法及系统
CN113094068B (zh) * 2021-04-14 2023-09-26 珠海优特电力科技股份有限公司 配电图纸更新方法和装置、存储介质及电子设备
CN113138074B (zh) * 2021-04-22 2024-05-28 徐州徐工矿业机械有限公司 用于工程机械故障显示仪表的自动检测系统及方法
CN113255499B (zh) * 2021-05-18 2022-11-04 中国能源建设集团安徽省电力设计院有限公司 一种变电站电缆二次回路数字化自动建模方法
CN113158999B (zh) * 2021-05-26 2024-04-02 南京云阶电力科技有限公司 基于模板匹配的电气设计图纸中端子跳线识别方法及装置
CN113610043A (zh) * 2021-08-19 2021-11-05 海默潘多拉数据科技(深圳)有限公司 一种工业图纸表格结构化识别方法及系统
CN113822715B (zh) * 2021-09-23 2022-04-08 安徽数据堂科技有限公司 一种数据采集训练处理一体化平台分析方法
CN114494681A (zh) * 2022-01-24 2022-05-13 江门市电力工程输变电有限公司 接线端子智能比对方法、系统、计算机设备及存储介质
CN115797291A (zh) * 2022-12-01 2023-03-14 中国南方电网有限责任公司超高压输电公司柳州局 回路端子的识别方法、装置、计算机设备和存储介质
CN118038026A (zh) * 2024-04-11 2024-05-14 江苏省送变电有限公司 基于旋转目标检测的变电站二次接线可信质检方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320287A (zh) * 2018-03-12 2018-07-24 国网江苏省电力公司电力科学研究院 一种变电站二次系统设备屏柜接线自动检查系统及方法
CN109391032A (zh) * 2018-10-19 2019-02-26 国网黑龙江省电力有限公司电力科学研究院 基于图像识别的二次系统的状态检测方法
CN109325950A (zh) * 2018-10-19 2019-02-12 国网黑龙江省电力有限公司电力科学研究院 基于图像识别的二次系统的智能检查系统
CN109756030B (zh) * 2019-01-25 2021-04-23 国网河北省电力有限公司电力科学研究院 一种智能变电站二次回路可视化在线监测及智能运维方法
CN110765322A (zh) * 2019-10-31 2020-02-07 国网河北省电力有限公司电力科学研究院 一种电力系统二次设备信息和状态自动检查系统及方法
CN110795809B (zh) * 2019-11-07 2023-08-29 国网河北省电力有限公司电力科学研究院 基于cad图自动拾取的变电站电气二次回路连接关系的方法、系统及介质

Also Published As

Publication number Publication date
CN111563509A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111563509B (zh) 一种基于tesseract的变电站端子排识别方法及系统
CN108229485B (zh) 用于测试用户界面的方法和装置
KR20190026641A (ko) 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
CN111900694B (zh) 一种基于自动识别的继电保护设备信息采集方法及系统
CN109446689A (zh) 直流换流站二次系统图纸识别方法及系统
WO2021248269A1 (zh) 一种变电设备高精度识别方法及系统
CN113723189B (zh) 一种基于单阶红外图像目标检测的电力设备故障智能诊断方法
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN111553176B (zh) 一种适用于变电站屏柜接线的无线传输检查方法及系统
CN114494681A (zh) 接线端子智能比对方法、系统、计算机设备及存储介质
CN114781997A (zh) 危大工程专项施工方案智能化审查系统及实现方法
CN111783786A (zh) 图片的识别方法、系统、电子设备及存储介质
CN110941910A (zh) 一种电网三维设计评审智能辅助方法及系统
CN110719445A (zh) 一种基于图像识别的远程抄表系统及方法
CN110826306A (zh) 数据采集的方法、装置、计算机可读存储介质及电子设备
CN115995092A (zh) 图纸文字信息提取方法、装置、设备
CN115359505A (zh) 一种电力图纸检测提取方法及系统
CN115310505A (zh) 一种用于互感器二次回路接线端子的自动识别方法及系统
CN112150414A (zh) 目标对象检测方法、装置、电子设备和存储介质
CN112541505A (zh) 文本识别方法、装置以及计算机可读存储介质
CN117173448B (zh) 一种基建工程进度智能化管控与预警方法及装置
CN116933622A (zh) 一种电网一次设备的图纸管理系统及方法
CN114493475A (zh) 一种基于文本识别和目标检测的智能审图方法
CN117931955A (zh) 一种基于知识图谱的电力数据处理方法及系统
CN117078184A (zh) 一种基于人工智能算法的图纸审图方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant