CN115830584A

CN115830584A - 基于深度学习的端子排文本检测方法及系统

Info

Publication number: CN115830584A
Application number: CN202211506273.4A
Authority: CN
Inventors: 谭林林; 庄博; 曹卫国; 钱晶; 陈中; 杜丽艳; 牛雪飞; 吴昌志龙
Original assignee: Nanjing Yunjie Power Technology Co ltd; State Grid Jibei Electric Power Co Ltd
Current assignee: Nanjing Yunjie Power Technology Co ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-21
Anticipated expiration: 2042-11-29

Abstract

本发明公开了一种基于深度学习的端子排文本检测方法及系统，涉及图像处理方法技术领域。所述方法首先检测拍摄图片中的端子排所在区域，并基于端子排所在区域提取端子排图片，再对端子排图片进行文本区域检测，得到不规则文本区域的最大外接矩形框，进而通过仿射变换得到规则的文本区域，最终能够准确检测端子排中的文本区域，提高了文本检测的效率和准确性。

Description

基于深度学习的端子排文本检测方法及系统

技术领域

本发明涉及图像处理方法技术领域，尤其涉及一种基于深度学习的端子排文本检测方法及系统。

背景技术

变电站端子排线路巡检是保证变电站稳定供电的关键环节，巡检工作的主要内容是核对端子排实际线路与设计图纸是否一致。目前，巡检工作主要依靠人工，巡检人员目测端子排线路且记录下来，然后将记录结果与设计图纸进行对比。由于端子排线路密集，容易造成目测出错，严重影响巡检工作的质量和效率。随着机器学习的发展，机器识别场景文本得到深入研究和广泛应用。然而，变电站端子排及电缆套管编号的文本分布稠密、文本区域界定不规则，给端子排文本检测带来挑战。

发明内容

本发明所要解决的技术问题是如何提供一种能够准确检测端子排中的文本区域，提高文本检测的效率和准确性的端子排文本检测方法及系统。

为解决上述技术问题，本发明所采取的技术方案是：一种基于深度学习的端子排文本检测方法，其特征在于包括如下步骤：

S1：利用目标检测模型检测目标图片中端子排所在区域；

S2：确定各所述端子排所在区域的区域坐标，并根据所述区域坐标对所述目标图片进行剪裁，得到剪裁端子排区域图片；

S3：利用目标检测模型对所有剪裁端子排区域图片中的不规则文本区域进行实例切割；

S4：确定各所述端子排文本所在区域的区域坐标，并根据所述区域坐标的最大外接矩形，框出不规则矩形，得到剪裁端子排文本区域图片；

S5：将所有剪裁端子排文本区域图片进行仿射变换；

S6：再次利用目标检测模型，对每一仿射变换后的图片进行文本检测，识别出端子排文本区域。

本发明还公开了一种基于深度学习的端子排文本检测方法，其特征在于包括：

端子排区域检测模块，用于利用YOLOv5目标检测模型检测视频关键帧图片中端子排所在区域；

剪裁模块，用于确定各所述端子排所在区域的区域坐标，并根据所述区域坐标对所述目标关键帧图片进行剪裁，得到剪裁端子排区域图片；

实例切割模块，用于利用DBNet目标检测模型对所有所述剪裁端子排区域图片中不规则文本区域进行实例切割；

预处理模块，用于确定各所述端子排文本所在区域的区域坐标，并根据所述区域坐标的最大外接矩形，框出不规则矩形，得到剪裁端子排文本区域图片；

仿射变换模块，用于将所有所述剪裁端子排文本区域图片进行仿射变换；

端子排文本区域检测模块，用于利用YOLOv5目标检测模型，对每一仿射变换后的图片进行文本检测。

采用上述技术方案所产生的有益效果在于：本发明所述方法中，首先检测拍摄图片中的端子排所在区域，并基于端子排所在区域提取端子排图片，再对端子排图片进行文本区域检测，得到不规则文本区域的最大外接矩形框，进而通过仿射变换得到规则的文本区域，最终能够准确检测端子排中的文本区域，提高了文本检测的效率和准确性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一所述方法的流程图；

图2为本发明实施例一所述方法的具体流程图；

图3为本发明实施例一中提供的端子排所在区域识别图；

图4为本发明实施例一中提供的最大外接矩形框效果图；

图5为本发明实施例一中提供的仿射变换效果图；

图6为本发明实施例一中提供的端子排本文检测效果图；

图7是本发明实施例所述系统的原理框图；

图8是本发明实施例所述系统中端子排区域检测模块的原理框图；

图9是本发明实施例所述系统中剪裁模块的原理框图；

图10是本发明实施例所述系统中剪裁子模块的原理框图；

图11是本发明实施例所述系统中实例切割模块的原理框图；

图12是本发明实施例所述系统中预处理模块的原理框图；

图13是本发明实施例所述系统中仿射变换模块的原理框图；

图14是本发明实施例所述系统中端子排文本区域检测模块的原理框图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例一

总体的，本发明实施例公开了一种基于深度学习的端子排文本检测方法，所述方法首先检测拍摄图片中的端子排所在区域，并基于端子排所在区域提取端子排图片，再对端子排图片进行文本区域检测，得到不规则文本区域的最大外接矩形框，进而通过仿射变换得到规则的文本区域，最终能够准确提检测端子排中的文本区域，提高了文本检测的效率和准确性。

具体的，如图1和图2所示，所述方法包括如下步骤：

S1：利用目标检测模型检测目标图片中端子排所在区域；

通过对端子排的视频拍摄，将关键帧图片提取为图像格式；之后对图像中的端子排所在区域进行标注并训练出模型权重，将此权重用于检测拍摄端子排图片中的端子排区域。所述步骤S1具体包括：

S11：对视频关键帧提取的目标图片中的端子排区域进行规则矩形标注；

S12：利用标注后的目标图片训练YOLOv5目标检测模型；

S13：利用训练好的YOLOv5目标检测模型检测所述目标图片中的所述端子排所在区域。

将拍摄端子排的视频通过关键帧提取有效图像。在图像上进行端子排区域标注，并将其作为训练样本传入YOLOv5算法，检测出所有图像中的端子排区域。

通过YOLOv5算法中设置save-txt参数，将检测出的端子排区域坐标保留在TXT文档中；将YOLO格式TXT标注文件转换为VOC格式XML标注文件；通过OpenCV读取XML中的信息，在原图中进行裁剪，提取并保存端子排区域所在图片。

所述步骤S2具体包括：

S21：在所述端子排区域检测时，在所述YOLOv5目标检测模型中设置save-txt参数，将检测出的所述端子排所在区域的坐标保留在TXT文档中；

S22：根据所述TXT文档中保留的所述区域坐标对所述目标关键帧提取图片进行剪裁，得到剪裁端子排区域图片。

所述步骤S22具体为:

S221：将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件；

S222：读取所述XML标注文件中保留的所述区域坐标，并对所述目标关键帧提取图片进行剪裁，得到所述剪裁端子排区域图片。

将图片中检测出的端子排区域坐标保留，并转化为XML格式，通过OpenCV根据XML中的坐标信息，对原图进行裁剪，裁剪后的图片如图3所示。

步骤S3具体包括：

S31：对端子排图片中的端子排文本区域进行不规则形状标注；

S32：利用标注后的目标图片训练DBNet目标检测模型；

S33：利用训练好的DBNet目标检测模型检测所述目标图片中的所述端子排文本所在区域。

在端子排图像上进行文本区域标注，并将其作为训练样本传入DBNet算法，检测出所有图像中的文本区域。

步骤S4具体包括如下步骤：

S41：在所述端子排文本区域检测时，在所述DBNet目标检测模型中将检测出的所述端子排文本所在区域的坐标保留在TXT文档中；

S42：根据所述TXT文档中保留的所述区域坐标进行最大外接矩形框寻找，及检测目标的最大X坐标和最大Y坐标；

S43：根据检测目标的最大外接矩形框对所述目标图片进行剪裁，得到剪裁端子排文本区域图片。

根据DBNet算法检测的结果，将其扩大为最大外接矩形框，根据最大外接矩形框进行裁剪，裁剪后的图片如图4所示。

S5：将所有剪裁端子排文本区域图片进行仿射变换；

所述步骤S5具体包括如下步骤：

S51：将最大外接矩形的图片先用Hough直线检测找到图像中最长的直线，以最长的直线为基准；

S52：再使用仿射变换对图像进行修改，使倾斜图片矫正，矫正后的图片如图5所示。

步骤S6具体包括如下步骤：

S61：对仿射变换后的目标图片中的端子排文本区域进行规则矩形标注；

S62：利用标注后的目标图片训练YOLOv5目标检测模型；

S63：利用训练好的YOLOv5目标检测模型检测所述目标图片中的所述端子排文本所在区域，检测效果如图6所示。

本实施例中，能够解决实际拍摄端子排中文本倾斜无法检测的问题，相比于直接进行文本检测方法，有很强的实用性，可靠性较高，能够改善文本的检测结果，提高检测算法的准确性。

实施例二

相应的，如图7所示，本发明实施例公开了一种基于深度学习的端子排文本检测方法，包括：

端子排区域检测模块101，用于利用YOLOv5目标检测模型检测视频关键帧图片中端子排所在区域；

剪裁模块102，用于确定各所述端子排所在区域的区域坐标，并根据所述区域坐标对所述目标关键帧图片进行剪裁，得到剪裁端子排区域图片；

实例切割模块103，用于利用DBNet目标检测模型对所有所述剪裁端子排区域图片中不规则文本区域进行实例切割；

预处理模块104，用于确定各所述端子排文本所在区域的区域坐标，并根据所述区域坐标的最大外接矩形，框出不规则矩形，得到剪裁端子排文本区域图片；

仿射变换模块105，用于将所有所述剪裁端子排文本区域图片进行仿射变换；

端子排文本区域检测模块106，用于利用YOLOv5目标检测模型，对每一仿射变换后的图片进行文本检测。

进一步的，如图8所示，所述端子排区域检测模块101包括：

标注模块1011，用于对视频关键帧图片中的端子排所在区域进行标注；

训练模块1012，用于利用标注后的样本图片训练YOLOv5目标检测模型；

检测模块1013，用于利用训练好的YOLOv5目标检测模型检测所述视频关键帧图片中的所述端子排所在区域。

进一步的，如图9所示，所述剪裁模块102具体包括：

坐标保存模块1021，用于在所述端子排区域检测时，在所述YOLOv5目标检测模型中设置save-txt参数，将检测出的所述端子排所在区域的坐标保留在TXT文档中；

剪裁子模块1022，用于根据所述TXT文档中保留的所述区域坐标对所述视频关键帧图片进行剪裁，得到剪裁端子排区域图片。

进一步的，如图10所示，所述剪裁子模块1022具体包括：

文件格式转换模块10221，用于将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件；

剪裁子单元10222，用于读取所述XML标注文件中保留的所述区域坐标，并对所述视频关键帧图片进行剪裁，得到所述剪裁端子排区域图片。

进一步的，如图11所示，所述实例切割模块103具体包括：

不规则形状标注模块1031：用于对端子排图片中的端子排文本区域进行不规则形状标注；

目标检测模型训练模块1032：用于利用标注后的目标图片训练DBNet目标检测模型；

端子排文本所在区域检测模块1033：用于利用训练好的DBNet目标检测模型检测所述目标图片中的所述端子排文本所在区域。

进一步的，如图12所示，所述预处理模块104具体包括：

坐标保留模块1041：用于在所述端子排文本区域检测时，在所述DBNet目标检测模型中将检测出的所述端子排文本所在区域的坐标保留在TXT文档中；

最大值检测模块1042：用于根据所述TXT文档中保留的所述区域坐标进行最大外接矩形框寻找，及检测目标的最大X坐标和最大Y坐标；

端子排文本区域图片获取模块1043：用于根据检测目标的最大外接矩形框对所述目标图片进行剪裁，得到剪裁端子排文本区域图片。

进一步的，如图13所示，所述仿射变换模块105具体包括：

最长直线获取模块1051：用于将最大外接矩形的图片先用Hough直线检测找到图像中最长的直线，以最长的直线为基准；

图片矫正模块1052：用于使用仿射变换对图像进行修改，使倾斜图片矫正。

进一步的，如图14所示，所述端子排文本区域检测模块106具体包括：

规则矩形标注模块1061：用于对仿射变换后的目标图片中的端子排文本区域进行规则矩形标注；

YOLOv5目标检测模型训练模块1062：用于利用标注后的目标图片训练YOLOv5目标检测模型；

端子排文本所在区域检测模块1063：用于利用训练好的YOLOv5目标检测模型检测所述目标图片中的端子排文本所在区域。

本实施例中，能够解决实际拍摄端子排中文本倾斜无法检测的问题，相比于直接进行文本检测系统，有很强的实用性，可靠性较高，能够改善文本的检测结果，提高检测算法的准确性。

Claims

1.一种基于深度学习的端子排文本检测方法，其特征在于包括如下步骤：

S1：利用目标检测模型检测目标图片中端子排所在区域；

S5：将所有剪裁端子排文本区域图片进行仿射变换；

2.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述S1具体包括如下步骤：

S12：利用标注后的目标图片训练YOLOv5目标检测模型；

3.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述步骤S2具体包括如下步骤：

S21：所述端子排区域检测时，在所述YOLOv5目标检测模型中设置save-txt参数，将检测出的所述端子排所在区域的坐标保留在TXT文档中；

S22：根据所述TXT文档中保留的所述区域坐标对所述目标图片进行剪裁，得到剪裁端子排区域图片。

4.如权利要求3所述的基于深度学习的端子排文本检测方法，其特征在于：所述得到剪裁端子排区域图包括如下步骤：

S221：将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件；

S222：读取所述XML标注文件中保留的所述区域坐标，并对所述目标关键帧图片进行剪裁，得到所述剪裁端子排区域图片。

5.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述步骤S3具体包括如下步骤：

S32：利用标注后的目标图片训练DBNet目标检测模型；

6.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述步骤S4具体包括如下步骤：

7.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述步骤S5具体包括如下步骤：

S52：再使用仿射变换对图像进行修改，使倾斜图片矫正。

8.如权利要求1所述的基于深度学习的端子排文本检测方法，其特征在于：所述步骤S6具体包括如下步骤：

S62：利用标注后的目标图片训练YOLOv5目标检测模型；

S63：利用训练好的YOLOv5目标检测模型检测所述目标图片中的所述端子排文本所在区域。

9.一种基于深度学习的端子排文本检测方法，其特征在于包括：

端子排区域检测模块(101)，用于利用YOLOv5目标检测模型检测视频关键帧图片中端子排所在区域；

剪裁模块(102)，用于确定各所述端子排所在区域的区域坐标，并根据所述区域坐标对所述目标关键帧图片进行剪裁，得到剪裁端子排区域图片；

实例切割模块(103)，用于利用DBNet目标检测模型对所有所述剪裁端子排区域图片中不规则文本区域进行实例切割；

预处理模块(104)，用于确定各所述端子排文本所在区域的区域坐标，并根据所述区域坐标的最大外接矩形，框出不规则矩形，得到剪裁端子排文本区域图片；

仿射变换模块(105)，用于将所有所述剪裁端子排文本区域图片进行仿射变换；

端子排文本区域检测模块(106)，用于利用YOLOv5目标检测模型，对每一仿射变换后的图片进行文本检测。

10.如权利要求9所述的基于深度学习的端子排文本检测方法，其特征在于：

所述端子排区域检测模块(101)包括：

标注模块(1011)，用于对视频关键帧图片中的端子排所在区域进行标注；

训练模块(1012)，用于利用标注后的样本图片训练YOLOv5目标检测模型；

检测模块(1013)，用于利用训练好的YOLOv5目标检测模型检测所述视频关键帧图片中的所述端子排所在区域；

所述剪裁模块(102)具体包括：

坐标保存模块(1021)，用于在所述端子排区域检测时，在所述YOLOv5目标检测模型中设置save-txt参数，将检测出的所述端子排所在区域的坐标保留在TXT文档中；

剪裁子模块(1022)，用于根据所述TXT文档中保留的所述区域坐标对所述视频关键帧图片进行剪裁，得到剪裁端子排区域图片；

所述剪裁子模块(1022)具体包括：

文件格式转换模块(10221)，用于将YOLO格式的TXT文档文件转换为VOC格式的XML标注文件；

剪裁子单元(10222)，用于读取所述XML标注文件中保留的所述区域坐标，并对所述视频关键帧图片进行剪裁，得到所述剪裁端子排区域图片；

所述实例切割模块(103)具体包括：

不规则形状标注模块(1031)：用于对端子排图片中的端子排文本区域进行不规则形状标注；

目标检测模型训练模块(1032)：用于利用标注后的目标图片训练DBNet目标检测模型；

端子排文本所在区域检测模块(1033)：用于利用训练好的DBNet目标检测模型检测所述目标图片中的所述端子排文本所在区域。

所述预处理模块(104)具体包括：

坐标保留模块(1041)：用于在所述端子排文本区域检测时，在所述DBNet目标检测模型中将检测出的所述端子排文本所在区域的坐标保留在TXT文档中；

最大值检测模块(1042)：用于根据所述TXT文档中保留的所述区域坐标进行最大外接矩形框寻找，及检测目标的最大X坐标和最大Y坐标；

端子排文本区域图片获取模块(1043)：用于根据检测目标的最大外接矩形框对所述目标图片进行剪裁，得到剪裁端子排文本区域图片；

所述仿射变换模块(105)具体包括：

最长直线获取模块(1051)：用于将最大外接矩形的图片先用Hough直线检测找到图像中最长的直线，以最长的直线为基准；

图片矫正模块(1052)：用于使用仿射变换对图像进行修改，使倾斜图片矫正；

所述端子排文本区域检测模块(106)具体包括：

规则矩形标注模块(1061)：用于对仿射变换后的目标图片中的端子排文本区域进行规则矩形标注；

YOLOv5目标检测模型训练模块(1062)：用于利用标注后的目标图片训练YOLOv5目标检测模型；

端子排文本所在区域检测模块(1063)：用于利用训练好的YOLOv5目标检测模型检测所述目标图片中的端子排文本所在区域。