CN113435452A - 一种基于改进ctpn算法的电气设备铭牌文本检测方法 - Google Patents
一种基于改进ctpn算法的电气设备铭牌文本检测方法 Download PDFInfo
- Publication number
- CN113435452A CN113435452A CN202110777275.6A CN202110777275A CN113435452A CN 113435452 A CN113435452 A CN 113435452A CN 202110777275 A CN202110777275 A CN 202110777275A CN 113435452 A CN113435452 A CN 113435452A
- Authority
- CN
- China
- Prior art keywords
- image
- nameplate
- text
- text region
- line segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 27
- 230000009466 transformation Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000005286 illumination Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 5
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000003416 augmentation Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 10
- 238000003708 edge detection Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 101100534231 Xenopus laevis src-b gene Proteins 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100534223 Caenorhabditis elegans src-1 gene Proteins 0.000 description 1
- 235000002566 Capsicum Nutrition 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 150000003839 salts Chemical group 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30204—Marker
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于改进CTPN算法的电气设备铭牌文本检测方法,首先获取无人车拍摄的图像,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像,之后对铭牌区域图像进行文本检测,得到文本区域图像。本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。
Description
技术领域
本发明涉及图像识别技术领域,特别是涉及一种基于改进CTPN算法的电气设备铭牌文本检测方法。
背景技术
电力系统设备的稳定运行关系着人民生活和生产活动,保证电力系统安全运行是行业的首要任务,对于电气设备的管理尤为重要。
随着我国电网规模日益发展,电气设备的种类与数量也越来越多;对于电气设备的管理也日趋复杂。目前对电气设备管理中,需要人工手动抄录设备铭牌信息,从而实现对电气设备信息的采集、统计,并记录在电力系统设备台账,存在效率低、准确性差、易出现信息记录不完全等问题,给电气设备的管理工作带来极大困难。实现电气设备铭牌文本的自动采集提取,对提高电力系统设备管理水平与自动化水平具有重要意义,而铭牌文本的自动精准检测,是实现铭牌文本自动采集的关键难题,现有铭牌文本检测方法的精度往往不够准确。因此,设计一种高精度的基于改进CTPN算法的电气设备铭牌文本检测方法是十分有必要的。
发明内容
本发明的目的是提供一种基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。
为实现上述目的,本发明提供了如下方案:
一种基于改进CTPN算法的电气设备铭牌文本检测方法,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:利用改进CTPN算法对铭牌区域图像进行文本检测,得到文本区域图像。
可选的,步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
可选的,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像;
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像。
可选的,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都为标记完成后线段上的点,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则标记并输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
可选的,B5中,通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段,具体为:
获取Hough变换确定的线段端点的坐标,将线段间的夹角转换为向量间的夹角,并通过下列公式计算夹角的余弦值:
可选的,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练;
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像。
可选的,C1中,采集电气设备的铭牌照片,具体为:
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片。
可选的,C5中,所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中;
D2:对集合X中的候选文本区域图像进行分类:
获取两个候选文本区域图像的坐标(x1,y1)及(x2,y2),获取这两个候选文本区域图像中较小的候选文本区域图像的宽度a,若|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间,则将候选文本区域图像归为一类,并记录至集合Y中,遍历集合X中所有的候选文本区域图像,得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,得到Yi={Z1,Z2,...,Zk},其中k为Yi中候选文本区域图像的数量;
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,同时采用Canny算子及概率Hough直线检测对无人车拍摄的图像进行分割,得到铭牌区域图像,能够适用于表面图案简单和复杂的铭牌,并未采用标准的Hough直线检测,采用概率Hough直线检测,节约了空间及时间;采用深度学习的CTPN文本检测算法对铭牌区域图像中的电气设备的名称位置进行标定,进行数据集的建立时,通过无人车上安装的摄像头进行拍摄,并且从不同的角度、在不同的光照强度下对变电站中的每一个待检测设备的铭牌进行了拍摄,保证数据集尽可能地与实际应用场景贴合,对数据集进行增广操作,扩大了数据集,防止在训练过程中产生过拟合,能够有效的提高模型的泛化能力,对CTPN文本检测算法进行了改进,在原本的算法基础上增加了图片预处理和文本区域融合两个步骤,图片预处理可以将铭牌区域图像进行旋转,保证铭牌区域图像中的文本倾斜角度在0-15°之间,能够实现文本位置的识别,文本区域融合能够对模型检测到的候选文本区域图像进行融合,得到最终文本区域图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于改进CTPN算法的电气设备铭牌文本检测方法流程示意图;
图2为Canny算子边缘检测流程图;
图3为概率Hough直线检测流程图;
图4为CTPN算法结构图;
图5为改进的CTPN算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明实施例提供的基于改进CTPN算法的电气设备铭牌文本检测方法,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:对铭牌区域图像进行文本检测,得到文本区域图像。
步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
Canny算子是一种非微分边缘检测算子,该算子采用高阈值和低阈值来对边缘像素进行区分,首先进行初步地筛选,认定大于高阈值的是强边缘,在高低阈值之间的则是弱边缘,而小于低阈值的则不算边缘,之后对弱边缘再进行一次判断,认为与强边缘连通的弱边缘是边缘部分,反之则认为是噪声引起的,并不是边缘部分。
如图2所示,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像:
滤波的作用是平滑纹理比较弱的非边缘区域,从而可以更准确的对边缘进行检测,通过高斯滤波处理图像,其中高斯滤波器可以表示为:
式中,σ为高斯函数的标准差,用于控制平滑的程度,设原始图像为F(x,y),则将F(x,y)和G(x,y,σ)经过卷积即可得到高斯滤波之后的平滑图像l(x,y);
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像:
运行2*2邻域一阶偏导的有限差分去计算平滑图像l(x,y)在(i,j)处的梯度幅值为:
梯度方向为:
由于直接采用图像梯度计算出的边缘相对较为模糊,Canny算子中采用非极大值抑制的方法来实现,也即将局部最大值之外的梯度抑制为0,以得到相对精确得结果;
Canny算子通过采用双阈值的方法来对边缘点进行判断。首先通过设定的阈值对边缘点进行初步判断,在点(i,j)处,当梯度幅值G(i,j)大于高阈值时,认为该点是强边缘点,即最终的边缘点,当梯度幅值G(i,j)在高低阈值之间,则认为该点为若边缘点,当梯度幅值G(i,j)小于低阈值时,则认为该点不是边缘点,之后弱边缘点再进行一次判断,认为与强边缘点连通的弱边缘点是边缘点,反之则认为不是边缘点;
将所有的边缘点相连,得到Canny算子边缘检测图像,即铭牌区域图像。
当铭牌表面图案比较复杂时,运用边缘检测算法不能得到完整的铭牌边缘,采用简单的多边形拟合自然也不能得到准确的铭牌轮廓,这时就需要充分利用矩形的特性,采用标准的Hough直线检测既耗时又占空间,因此本发明采用概率Hough直线检测的方法来实现直线检测;
如图3所示,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:与上述方法相同,通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都被标记,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:由于铭牌上有很多非常规则的直线边框,通过上面两个步骤检测出来的平行或垂直直线段往往不止两条,而铭牌的两条边通常是由距离最远的两条平行线段组成的,获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
B5中,通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段,具体为:
获取Hough变换确定的线段端点的坐标,将线段间的夹角转换为向量间的夹角,并通过下列公式计算夹角的余弦值:
其中为与Hough变换确定的线段相对应的向量,由于拍摄角度的问题,图片中电气设备铭牌的两边不一定是标准的垂直或平行关系,所以本文认为夹角在85°-95°的两条直线段是垂直关系,夹角为0°-5°或175°-180°的两条直线段是平行关系,相应的,当计算所得余弦值cosθ<0.08时,判断两线段垂直,当余弦值cosθ>0.996时,判断两线段平行。
现有技术中往往使用SWT算法及MSER算法进行文本检测,这种方法可以识别干扰不大、表面文字比较简洁的铭牌图片,对于受到外界较强干扰或是表面文字较多内容相对繁琐的铭牌来说,其找到文本位置的准确率较低,因此本发明采用一种改进的CTPN算法实现文本检测。
如图5所示,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集:
随着深度学习在文本区域检测领域得到越来越广泛的使用,市面上也逐渐涌现出了一大批数据量较大且已标注完善的开源数据集,这些数据集的出现大量地减少了我们对于通用数据集采集和标注的时间花费,但这同样也存在一定地隐患,比如在反光、铭牌表面磨损等特殊条件下,以这些开源数据集为基础训练出来的模型难以获得理想的结果,因此,本发明选择对实际环境进行数据集采集;
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片,本发明采集了1156张有效图片,其中单张图片的像素分辨率为2048*1536,采用Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,其中可以用光照畸变及几何畸变实现数据集增广;
光照畸变包括改变亮度及添加噪声两种方式,其中改变亮度具体为:
设输出图像为dst:
dst=src1×α+src2×(1-α)+β (6)
式中,α∈(0,1)随机选取,src1为原图,src2为与src1大小相同的全黑图;
增加噪声具体为:在原图的基础上随机的增加噪声,最常见的是椒盐噪声和高斯噪声;
几何畸变包括随机缩放、裁剪等,其中随机裁剪具体为:随机裁剪的裁剪比为原图的0.8倍,随机裁剪可能会导致某个目标只剩部分区域留在图片中,所以需要删除与原来目标框的IOU值小于0.7的jpg和xml文件;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练:
如图4所示,CTPN的网络结构分为特征提取层、循环层和输出层三大部分,其中特征提取层主要是为了实现对图像特征信息的提取,CTPN算法采用VGG16作为基底,由于VGG16经过四次最大池化的下采样,卷积输出的特征图上一个像素宽度相当于原图16个像素的大小,因此后续锚点宽度设置为16,CTPN算法中锚框的宽度是固定的,每次训练前都需要将其宽度设为16,CTPN算法中的锚框高度是可变的,对同一个特征向量有10个高度不同的锚框来匹配各种大小的文字区域,其高度从11到283以0.7的比例等比递增,对于一行文本区域而言,其文本高度是固定不变的,因此只需横向检测连续的一段区域是否都被判断为文本的锚框,将所有被判别是本文锚框的区域连接起来就是最终识别得到的本文区域,而对于高度不变的文本区域来说,网络只需要预测锚框的高度和对应的起始纵坐标即可;
循环层的输入是按照卷积输出的水平方向作为时序方向,所以需要对特征图进行变换继而输入到循环层中,若原特征图张量大小为(N,C,W,H),则变换后的张量大小为(N,C,W*H),其中N为样本数,C为输入特征通道数,W为输入特征的宽度大小,H为输入特征的高度大小,循环层即RNN模块,是由双向LSTM网络构成,其中LSTM的隐含层双向节点个数是256个,其主要作用是将前后文的信息用到文本位置的定位当中,使得文本框更加精确,其公式如下:
输出层的优化的内容只有文本的x和宽度h,优化过程为:首先进行文本行的构造,通过CTPN可以得到候选区域的得分,即一个个小的锚框,对于每个小的锚框而言,如果其得分大于阈值θ1,则该区域可以用来构造文本行,若区域Bj与区域Bi相邻,其合并需要同时满足两个条件,其一,Bj是距离Bi最近的包含文字文本区域,其二,Bj和Bi的竖直方向的重合比例大于θ3;
在完成文本行的构造后,CTPN根据文本行的左端和右端两个锚点的特征向量对文本行进行精修,计算文本行的相对位移O:
CTPN算法使用的训练方法为将分类、预测、边界的精确优化作为一个多任务的模型,模型的损失函数由这些任务的损失函数共同决定,其中CTPN的损失函数表示为:
δ1及δ2是任务的权重系数,Ns、Nv及No是归一化参数,为应对任务的样本数量;
vh=log(h/ha) (12)
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录:
通过参考现有的实验数据以及部分实验结果,发现当文本倾斜度超过15°时,文本的识别效果就会受到一定的影响,因此设定CTPN算法所能检测到的最大文本倾斜角度为15°,对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录,便于后续的逆旋转进行;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像:
其中所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中,例如对待检测的铭牌区域图像进行旋转时,顺时针旋转了20°,在此步骤中应当将得到的候选文本区域图像逆时针旋转20°;
D2:对集合X中的候选文本区域图像进行分类:
设两个候选文本区域图像的坐标分别为(x1,y1)及(x2,y2),两者中较小的候选文本区域图像的宽度为a,当|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间时,将候选文本区域图像归为一类,从而得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对分类得到的集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,设Yi中有k个候选文本区域图像,则得到Yi={Z1,Z2,...,Zk};
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃,其中SWT模型为现有技术经常使用的模型,通过SWT算法建立。
对文本区域检测进行评价时,IOU作为传统的文本检测评价指标,其衡量的标准主要是模型识别出的区域与实际应该得到的区域之间的重合度,一般情况下将该阈值设置为0.5,即当两者重叠率大于0.5时认为该检测目标正确,当两者重叠率小于0.5时认为该检测目标错误;
本发明还采用了精准率(Precision)、召回率(Recall)、平均准确率(meanAverage Precision,mAP)三种指标来对CTPN模型进行评价,如表1所示,其中TP为被模型预测为正的正样本,FP为被模型预测为正的负样本,TN为被模型预测为负的负样本,FN为被模型预测为负的正样本。
表1混淆矩阵定义表
精准率是指模型预测为正例的样本中真正的正例所占比例,其计算方法如下列公式所示:
召回率是指全部正例中模型预测结果为正例的比例,其计算方法如下列公式所示:
F1用于衡量Precision和Recall,其计算方法如下列公式所示:
本发明将常规CTPN算法与上述改进的CTPN算法在ICDAR2013数据集中进行测试,计算得到精准率、召回率和F1,将其记入表2:
表2文本检测结果
根据表2中记录的数据判断,相比于传统算法的识别效果图,改进的CTPN算法尤其是在复杂条件下对电气设备名称文本区域的检测准确率更高。
本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,同时采用Canny算子及概率Hough直线检测对无人车拍摄的图像进行分割,得到铭牌区域图像,能够适用于表面图案简单和复杂的铭牌,并未采用标准的Hough直线检测,采用概率Hough直线检测,节约了空间及时间;采用深度学习的CTPN文本检测算法对铭牌区域图像中的电气设备的名称位置进行标定,进行数据集的建立时,通过无人车上安装的摄像头进行拍摄,并且从不同的角度、在不同的光照强度下对变电站中的每一个待检测设备的铭牌进行了拍摄,保证数据集尽可能地与实际应用场景贴合,对数据集进行增光操作,扩大了数据集,防止在训练过程中产生过拟合,能够有效的提高模型的泛化能力,对CTPN文本检测算法进行了改进,在原本的算法基础上增加了图片预处理和文本区域融合两个步骤,图片预处理可以将铭牌区域图像进行旋转,保证铭牌区域图像中的文本倾斜角度在0-15°之间,能够实现文本位置的识别,文本区域融合能够对模型检测到的候选文本区域图像进行融合,得到最终文本区域图像。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:利用改进CTPN算法对铭牌区域图像进行文本检测,得到文本区域图像。
2.根据权利要求1所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
3.根据权利要求2所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像;
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像。
4.根据权利要求2所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都为标记完成后线段上的点,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则标记并输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
6.根据权利要求5所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练;
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像。
7.根据权利要求6所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,C1中,采集电气设备的铭牌照片,具体为:
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片。
8.根据权利要求6所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,C5中,所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中;
D2:对集合X中的候选文本区域图像进行分类:
获取两个候选文本区域图像的坐标(x1,y1)及(x2,y2),获取这两个候选文本区域图像中较小的候选文本区域图像的宽度a,若|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间,则将候选文本区域图像归为一类,并记录至集合Y中,遍历集合X中所有的候选文本区域图像,得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,得到Yi={Z1,Z2,...,Zk},其中k为Yi中候选文本区域图像的数量;
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777275.6A CN113435452A (zh) | 2021-07-09 | 2021-07-09 | 一种基于改进ctpn算法的电气设备铭牌文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110777275.6A CN113435452A (zh) | 2021-07-09 | 2021-07-09 | 一种基于改进ctpn算法的电气设备铭牌文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113435452A true CN113435452A (zh) | 2021-09-24 |
Family
ID=77759762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110777275.6A Withdrawn CN113435452A (zh) | 2021-07-09 | 2021-07-09 | 一种基于改进ctpn算法的电气设备铭牌文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435452A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780472A (zh) * | 2021-09-29 | 2021-12-10 | 北京金山云网络技术有限公司 | 模型训练样本生成方法、装置、存储介质以及电子设备 |
CN115187881A (zh) * | 2022-09-08 | 2022-10-14 | 国网江西省电力有限公司电力科学研究院 | 电力设备铭牌识别及台区合规性自动校核系统及方法 |
CN116563289A (zh) * | 2023-07-11 | 2023-08-08 | 凯德技术长沙股份有限公司 | 一种基于机器视觉的贴标品质检测方法和系统 |
-
2021
- 2021-07-09 CN CN202110777275.6A patent/CN113435452A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780472A (zh) * | 2021-09-29 | 2021-12-10 | 北京金山云网络技术有限公司 | 模型训练样本生成方法、装置、存储介质以及电子设备 |
CN115187881A (zh) * | 2022-09-08 | 2022-10-14 | 国网江西省电力有限公司电力科学研究院 | 电力设备铭牌识别及台区合规性自动校核系统及方法 |
CN116563289A (zh) * | 2023-07-11 | 2023-08-08 | 凯德技术长沙股份有限公司 | 一种基于机器视觉的贴标品质检测方法和系统 |
CN116563289B (zh) * | 2023-07-11 | 2023-09-29 | 凯德技术长沙股份有限公司 | 一种基于机器视觉的贴标品质检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Concrete column recognition in images and videos | |
EP1233374B1 (en) | Apparatus and method for extracting objects based on feature matching between segmented regions in images | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN113435452A (zh) | 一种基于改进ctpn算法的电气设备铭牌文本检测方法 | |
CN106683119B (zh) | 基于航拍视频图像的运动车辆检测方法 | |
CN104978567B (zh) | 基于场景分类的车辆检测方法 | |
CN107092871B (zh) | 基于多尺度多特征融合的遥感影像建筑物检测方法 | |
CN108564120B (zh) | 基于深度神经网络的特征点提取方法 | |
CN114549981A (zh) | 一种基于深度学习的智能巡检指针式仪表识别及读数方法 | |
CN111611861B (zh) | 一种基于多尺度特征关联的图像变化检测方法 | |
CN110751154B (zh) | 一种基于像素级分割的复杂环境多形状文本检测方法 | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN109685045A (zh) | 一种运动目标视频跟踪方法及系统 | |
CN107578011A (zh) | 视频关键帧的判定方法及装置 | |
CN113240623A (zh) | 一种路面病害检测方法及装置 | |
Femiani et al. | Shadow-based rooftop segmentation in visible band images | |
CN111695373A (zh) | 斑马线的定位方法、系统、介质及设备 | |
Dhar et al. | An efficient real time moving object detection method for video surveillance system | |
CN115841633A (zh) | 一种电力塔和电力线关联矫正的电力塔和电力线检测方法 | |
Lam et al. | Highly accurate texture-based vehicle segmentation method | |
CN110390228A (zh) | 基于神经网络的交通标志图片识别方法、装置及存储介质 | |
CN109064444B (zh) | 基于显著性分析的轨道板病害检测方法 | |
CN113610052A (zh) | 一种基于深度学习的隧道渗漏水自动识别方法 | |
Huang et al. | An automatic detection and recognition method for pointer-type meters in natural gas stations | |
Zou et al. | Flood Depth Assessment with Location-Based Social Network Data and Google Street View-A Case Study with Buildings as Reference Objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210924 |