CN113435452A - 一种基于改进ctpn算法的电气设备铭牌文本检测方法 - Google Patents

一种基于改进ctpn算法的电气设备铭牌文本检测方法 Download PDF

Info

Publication number
CN113435452A
CN113435452A CN202110777275.6A CN202110777275A CN113435452A CN 113435452 A CN113435452 A CN 113435452A CN 202110777275 A CN202110777275 A CN 202110777275A CN 113435452 A CN113435452 A CN 113435452A
Authority
CN
China
Prior art keywords
image
nameplate
text
text region
line segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110777275.6A
Other languages
English (en)
Inventor
何新
赵昊辰
陈琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Rongxin Intelligent Technology Co ltd
Original Assignee
Nanjing Rongxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Rongxin Intelligent Technology Co ltd filed Critical Nanjing Rongxin Intelligent Technology Co ltd
Priority to CN202110777275.6A priority Critical patent/CN113435452A/zh
Publication of CN113435452A publication Critical patent/CN113435452A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于改进CTPN算法的电气设备铭牌文本检测方法,首先获取无人车拍摄的图像,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像,之后对铭牌区域图像进行文本检测,得到文本区域图像。本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。

Description

一种基于改进CTPN算法的电气设备铭牌文本检测方法
技术领域
本发明涉及图像识别技术领域,特别是涉及一种基于改进CTPN算法的电气设备铭牌文本检测方法。
背景技术
电力系统设备的稳定运行关系着人民生活和生产活动,保证电力系统安全运行是行业的首要任务,对于电气设备的管理尤为重要。
随着我国电网规模日益发展,电气设备的种类与数量也越来越多;对于电气设备的管理也日趋复杂。目前对电气设备管理中,需要人工手动抄录设备铭牌信息,从而实现对电气设备信息的采集、统计,并记录在电力系统设备台账,存在效率低、准确性差、易出现信息记录不完全等问题,给电气设备的管理工作带来极大困难。实现电气设备铭牌文本的自动采集提取,对提高电力系统设备管理水平与自动化水平具有重要意义,而铭牌文本的自动精准检测,是实现铭牌文本自动采集的关键难题,现有铭牌文本检测方法的精度往往不够准确。因此,设计一种高精度的基于改进CTPN算法的电气设备铭牌文本检测方法是十分有必要的。
发明内容
本发明的目的是提供一种基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。
为实现上述目的,本发明提供了如下方案:
一种基于改进CTPN算法的电气设备铭牌文本检测方法,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:利用改进CTPN算法对铭牌区域图像进行文本检测,得到文本区域图像。
可选的,步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
可选的,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像;
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像。
可选的,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都为标记完成后线段上的点,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则标记并输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
可选的,B5中,通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段,具体为:
获取Hough变换确定的线段端点的坐标,将线段间的夹角转换为向量间的夹角,并通过下列公式计算夹角的余弦值:
Figure BDA0003156079910000031
其中
Figure BDA0003156079910000032
为与Hough变换确定的线段相对应的向量,当计算所得余弦值cosθ<0.08时,判断两线段垂直,当余弦值cosθ>0.996时,判断两线段平行。
可选的,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练;
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像。
可选的,C1中,采集电气设备的铭牌照片,具体为:
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片。
可选的,C5中,所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中;
D2:对集合X中的候选文本区域图像进行分类:
获取两个候选文本区域图像的坐标(x1,y1)及(x2,y2),获取这两个候选文本区域图像中较小的候选文本区域图像的宽度a,若|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间,则将候选文本区域图像归为一类,并记录至集合Y中,遍历集合X中所有的候选文本区域图像,得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,得到Yi={Z1,Z2,...,Zk},其中k为Yi中候选文本区域图像的数量;
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,同时采用Canny算子及概率Hough直线检测对无人车拍摄的图像进行分割,得到铭牌区域图像,能够适用于表面图案简单和复杂的铭牌,并未采用标准的Hough直线检测,采用概率Hough直线检测,节约了空间及时间;采用深度学习的CTPN文本检测算法对铭牌区域图像中的电气设备的名称位置进行标定,进行数据集的建立时,通过无人车上安装的摄像头进行拍摄,并且从不同的角度、在不同的光照强度下对变电站中的每一个待检测设备的铭牌进行了拍摄,保证数据集尽可能地与实际应用场景贴合,对数据集进行增广操作,扩大了数据集,防止在训练过程中产生过拟合,能够有效的提高模型的泛化能力,对CTPN文本检测算法进行了改进,在原本的算法基础上增加了图片预处理和文本区域融合两个步骤,图片预处理可以将铭牌区域图像进行旋转,保证铭牌区域图像中的文本倾斜角度在0-15°之间,能够实现文本位置的识别,文本区域融合能够对模型检测到的候选文本区域图像进行融合,得到最终文本区域图像。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于改进CTPN算法的电气设备铭牌文本检测方法流程示意图;
图2为Canny算子边缘检测流程图;
图3为概率Hough直线检测流程图;
图4为CTPN算法结构图;
图5为改进的CTPN算法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于改进CTPN算法的电气设备铭牌文本检测方法,能够识别具有复杂图案的电气设备铭牌,能够识别文字倾斜的电气设备铭牌,具有较高的适用性和准确性,保证了文本检测效果。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明实施例提供的基于改进CTPN算法的电气设备铭牌文本检测方法,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:对铭牌区域图像进行文本检测,得到文本区域图像。
步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
Canny算子是一种非微分边缘检测算子,该算子采用高阈值和低阈值来对边缘像素进行区分,首先进行初步地筛选,认定大于高阈值的是强边缘,在高低阈值之间的则是弱边缘,而小于低阈值的则不算边缘,之后对弱边缘再进行一次判断,认为与强边缘连通的弱边缘是边缘部分,反之则认为是噪声引起的,并不是边缘部分。
如图2所示,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像:
滤波的作用是平滑纹理比较弱的非边缘区域,从而可以更准确的对边缘进行检测,通过高斯滤波处理图像,其中高斯滤波器可以表示为:
Figure BDA0003156079910000061
式中,σ为高斯函数的标准差,用于控制平滑的程度,设原始图像为F(x,y),则将F(x,y)和G(x,y,σ)经过卷积即可得到高斯滤波之后的平滑图像l(x,y);
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像:
运行2*2邻域一阶偏导的有限差分去计算平滑图像l(x,y)在(i,j)处的梯度幅值为:
Figure BDA0003156079910000062
梯度方向为:
Figure BDA0003156079910000063
式中,
Figure BDA0003156079910000064
Figure BDA0003156079910000065
分别为平滑图像在(i,j)处的水平和垂直方向的偏导数:
Figure BDA0003156079910000066
由于直接采用图像梯度计算出的边缘相对较为模糊,Canny算子中采用非极大值抑制的方法来实现,也即将局部最大值之外的梯度抑制为0,以得到相对精确得结果;
Canny算子通过采用双阈值的方法来对边缘点进行判断。首先通过设定的阈值对边缘点进行初步判断,在点(i,j)处,当梯度幅值G(i,j)大于高阈值时,认为该点是强边缘点,即最终的边缘点,当梯度幅值G(i,j)在高低阈值之间,则认为该点为若边缘点,当梯度幅值G(i,j)小于低阈值时,则认为该点不是边缘点,之后弱边缘点再进行一次判断,认为与强边缘点连通的弱边缘点是边缘点,反之则认为不是边缘点;
将所有的边缘点相连,得到Canny算子边缘检测图像,即铭牌区域图像。
当铭牌表面图案比较复杂时,运用边缘检测算法不能得到完整的铭牌边缘,采用简单的多边形拟合自然也不能得到准确的铭牌轮廓,这时就需要充分利用矩形的特性,采用标准的Hough直线检测既耗时又占空间,因此本发明采用概率Hough直线检测的方法来实现直线检测;
如图3所示,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:与上述方法相同,通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都被标记,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:由于铭牌上有很多非常规则的直线边框,通过上面两个步骤检测出来的平行或垂直直线段往往不止两条,而铭牌的两条边通常是由距离最远的两条平行线段组成的,获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
B5中,通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段,具体为:
获取Hough变换确定的线段端点的坐标,将线段间的夹角转换为向量间的夹角,并通过下列公式计算夹角的余弦值:
Figure BDA0003156079910000081
其中
Figure BDA0003156079910000082
为与Hough变换确定的线段相对应的向量,由于拍摄角度的问题,图片中电气设备铭牌的两边不一定是标准的垂直或平行关系,所以本文认为夹角在85°-95°的两条直线段是垂直关系,夹角为0°-5°或175°-180°的两条直线段是平行关系,相应的,当计算所得余弦值cosθ<0.08时,判断两线段垂直,当余弦值cosθ>0.996时,判断两线段平行。
现有技术中往往使用SWT算法及MSER算法进行文本检测,这种方法可以识别干扰不大、表面文字比较简洁的铭牌图片,对于受到外界较强干扰或是表面文字较多内容相对繁琐的铭牌来说,其找到文本位置的准确率较低,因此本发明采用一种改进的CTPN算法实现文本检测。
如图5所示,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集:
随着深度学习在文本区域检测领域得到越来越广泛的使用,市面上也逐渐涌现出了一大批数据量较大且已标注完善的开源数据集,这些数据集的出现大量地减少了我们对于通用数据集采集和标注的时间花费,但这同样也存在一定地隐患,比如在反光、铭牌表面磨损等特殊条件下,以这些开源数据集为基础训练出来的模型难以获得理想的结果,因此,本发明选择对实际环境进行数据集采集;
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片,本发明采集了1156张有效图片,其中单张图片的像素分辨率为2048*1536,采用Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,其中可以用光照畸变及几何畸变实现数据集增广;
光照畸变包括改变亮度及添加噪声两种方式,其中改变亮度具体为:
设输出图像为dst:
dst=src1×α+src2×(1-α)+β (6)
式中,α∈(0,1)随机选取,src1为原图,src2为与src1大小相同的全黑图;
增加噪声具体为:在原图的基础上随机的增加噪声,最常见的是椒盐噪声和高斯噪声;
几何畸变包括随机缩放、裁剪等,其中随机裁剪具体为:随机裁剪的裁剪比为原图的0.8倍,随机裁剪可能会导致某个目标只剩部分区域留在图片中,所以需要删除与原来目标框的IOU值小于0.7的jpg和xml文件;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练:
如图4所示,CTPN的网络结构分为特征提取层、循环层和输出层三大部分,其中特征提取层主要是为了实现对图像特征信息的提取,CTPN算法采用VGG16作为基底,由于VGG16经过四次最大池化的下采样,卷积输出的特征图上一个像素宽度相当于原图16个像素的大小,因此后续锚点宽度设置为16,CTPN算法中锚框的宽度是固定的,每次训练前都需要将其宽度设为16,CTPN算法中的锚框高度是可变的,对同一个特征向量有10个高度不同的锚框来匹配各种大小的文字区域,其高度从11到283以0.7的比例等比递增,对于一行文本区域而言,其文本高度是固定不变的,因此只需横向检测连续的一段区域是否都被判断为文本的锚框,将所有被判别是本文锚框的区域连接起来就是最终识别得到的本文区域,而对于高度不变的文本区域来说,网络只需要预测锚框的高度和对应的起始纵坐标即可;
循环层的输入是按照卷积输出的水平方向作为时序方向,所以需要对特征图进行变换继而输入到循环层中,若原特征图张量大小为(N,C,W,H),则变换后的张量大小为(N,C,W*H),其中N为样本数,C为输入特征通道数,W为输入特征的宽度大小,H为输入特征的高度大小,循环层即RNN模块,是由双向LSTM网络构成,其中LSTM的隐含层双向节点个数是256个,其主要作用是将前后文的信息用到文本位置的定位当中,使得文本框更加精确,其公式如下:
Figure BDA0003156079910000101
式中,
Figure BDA0003156079910000102
是非线性的激活函数,H为RNN的隐层节点,X为特征向量,W为长度;
输出层的优化的内容只有文本的x和宽度h,优化过程为:首先进行文本行的构造,通过CTPN可以得到候选区域的得分,即一个个小的锚框,对于每个小的锚框而言,如果其得分大于阈值θ1,则该区域可以用来构造文本行,若区域Bj与区域Bi相邻,其合并需要同时满足两个条件,其一,Bj是距离Bi最近的包含文字文本区域,其二,Bj和Bi的竖直方向的重合比例大于θ3
在完成文本行的构造后,CTPN根据文本行的左端和右端两个锚点的特征向量对文本行进行精修,计算文本行的相对位移O:
Figure BDA0003156079910000103
Figure BDA0003156079910000104
其中xside是由CTPN构造的文本行的开头和结尾两个锚点的x坐标,即文本行的起点坐标和终点坐标,
Figure BDA0003156079910000105
则是对应图片真实标签的坐标,
Figure BDA0003156079910000106
是锚框的中心点坐标位置,wa是锚框宽度的像素大小,一般设置为16;
CTPN算法使用的训练方法为将分类、预测、边界的精确优化作为一个多任务的模型,模型的损失函数由这些任务的损失函数共同决定,其中CTPN的损失函数表示为:
Figure BDA0003156079910000107
δ1及δ2是任务的权重系数,Ns、Nv及No是归一化参数,为应对任务的样本数量;
分类损失函数
Figure BDA0003156079910000108
采用的是softmax损失函数,其中si是预测锚点i为前景的概率,
Figure BDA0003156079910000111
是真实类别标签,即如果锚点为正锚点则
Figure BDA0003156079910000112
否则
Figure BDA0003156079910000113
纵坐标的损失函数
Figure BDA0003156079910000114
使用的是smoothL1损失函数,其中vj和vh代表了相对位移,
Figure BDA0003156079910000115
和ha是锚框的中心y坐标和高度,v={vc,vh},
Figure BDA0003156079910000116
分别是预测的坐标和真实标签的坐标,具体表示如下:
Figure BDA0003156079910000117
vh=log(h/ha) (12)
Figure BDA0003156079910000118
Figure BDA0003156079910000119
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录:
通过参考现有的实验数据以及部分实验结果,发现当文本倾斜度超过15°时,文本的识别效果就会受到一定的影响,因此设定CTPN算法所能检测到的最大文本倾斜角度为15°,对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录,便于后续的逆旋转进行;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像:
其中所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中,例如对待检测的铭牌区域图像进行旋转时,顺时针旋转了20°,在此步骤中应当将得到的候选文本区域图像逆时针旋转20°;
D2:对集合X中的候选文本区域图像进行分类:
设两个候选文本区域图像的坐标分别为(x1,y1)及(x2,y2),两者中较小的候选文本区域图像的宽度为a,当|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间时,将候选文本区域图像归为一类,从而得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对分类得到的集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,设Yi中有k个候选文本区域图像,则得到Yi={Z1,Z2,...,Zk};
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃,其中SWT模型为现有技术经常使用的模型,通过SWT算法建立。
对文本区域检测进行评价时,IOU作为传统的文本检测评价指标,其衡量的标准主要是模型识别出的区域与实际应该得到的区域之间的重合度,一般情况下将该阈值设置为0.5,即当两者重叠率大于0.5时认为该检测目标正确,当两者重叠率小于0.5时认为该检测目标错误;
本发明还采用了精准率(Precision)、召回率(Recall)、平均准确率(meanAverage Precision,mAP)三种指标来对CTPN模型进行评价,如表1所示,其中TP为被模型预测为正的正样本,FP为被模型预测为正的负样本,TN为被模型预测为负的负样本,FN为被模型预测为负的正样本。
表1混淆矩阵定义表
Figure BDA0003156079910000121
精准率是指模型预测为正例的样本中真正的正例所占比例,其计算方法如下列公式所示:
Figure BDA0003156079910000122
召回率是指全部正例中模型预测结果为正例的比例,其计算方法如下列公式所示:
Figure BDA0003156079910000131
F1用于衡量Precision和Recall,其计算方法如下列公式所示:
Figure BDA0003156079910000132
本发明将常规CTPN算法与上述改进的CTPN算法在ICDAR2013数据集中进行测试,计算得到精准率、召回率和F1,将其记入表2:
表2文本检测结果
Figure BDA0003156079910000133
根据表2中记录的数据判断,相比于传统算法的识别效果图,改进的CTPN算法尤其是在复杂条件下对电气设备名称文本区域的检测准确率更高。
本发明提供的基于改进CTPN算法的电气设备铭牌文本检测方法,同时采用Canny算子及概率Hough直线检测对无人车拍摄的图像进行分割,得到铭牌区域图像,能够适用于表面图案简单和复杂的铭牌,并未采用标准的Hough直线检测,采用概率Hough直线检测,节约了空间及时间;采用深度学习的CTPN文本检测算法对铭牌区域图像中的电气设备的名称位置进行标定,进行数据集的建立时,通过无人车上安装的摄像头进行拍摄,并且从不同的角度、在不同的光照强度下对变电站中的每一个待检测设备的铭牌进行了拍摄,保证数据集尽可能地与实际应用场景贴合,对数据集进行增光操作,扩大了数据集,防止在训练过程中产生过拟合,能够有效的提高模型的泛化能力,对CTPN文本检测算法进行了改进,在原本的算法基础上增加了图片预处理和文本区域融合两个步骤,图片预处理可以将铭牌区域图像进行旋转,保证铭牌区域图像中的文本倾斜角度在0-15°之间,能够实现文本位置的识别,文本区域融合能够对模型检测到的候选文本区域图像进行融合,得到最终文本区域图像。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,包括如下步骤:
步骤1:获取无人车拍摄的图像,并在图像中分割出铭牌区域图像;
步骤2:利用改进CTPN算法对铭牌区域图像进行文本检测,得到文本区域图像。
2.根据权利要求1所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,步骤1中,在图像中分割出铭牌区域图像,具体为:
判断图像中的铭牌表面图案是否为复杂图案,若为复杂图案,则通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,若不为复杂图案,则通过Canny算子对图像进行分割,得到铭牌区域图像。
3.根据权利要求2所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,通过Canny算子对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
A1:通过高斯滤波对图像进行处理,得到平滑图像;
A2:对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点,连接边缘点,得到铭牌区域图像。
4.根据权利要求2所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,通过概率Hough直线检测对图像进行分割,得到铭牌区域图像,具体包括如下步骤:
B1:通过高斯滤波对图像进行处理,得到平滑图像,对处理过后的平滑图像进行梯度计算和边缘非极大值抑制,并通过双阈值确定边缘点;
B2:随机选择图像中的一个边缘点,确定该点是否为标记完成后的线段上的点,若该点为标记完成后的线段上的点,则重新选点,若图像中所有的边缘点都为标记完成后线段上的点,则完成分割操作,若选到未标记完成的直线上的点,则进行下一步;
B3:对选取的点进行Hough变换,并在Hough空间进行累加和计算,若Hough空间中的最大值小于预设的阈值,则重新执行B2进行选点,若Hough空间中的最大值大于预设的阈值,则根据计算得到的最大值,从该点沿着直线的方向开始移动,直至确定出线段的两个端点;
B4:计算得到线段的长度,若小于预设的阈值,则舍弃该线段,重新执行B2及B3,若大于预设的阈值,则标记并输出该线段;
B5:根据输出的线段的端点坐标计算线段间的夹角,并通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段;
B6:获取两两平行的线段的端点坐标,计算线段两端到另一条线段两端的距离,并求平均值,将平均值作为两两平行的线段间的距离,很据线段间的距离确定两组距离最大的线段,将这两组线段组成矩形,得到铭牌区域图像。
5.根据权利要求4所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,B5中,通过线段间的夹角对输出的线段进行筛选,得到两两垂直和两两平行的线段,具体为:
获取Hough变换确定的线段端点的坐标,将线段间的夹角转换为向量间的夹角,并通过下列公式计算夹角的余弦值:
Figure FDA0003156079900000021
其中
Figure FDA0003156079900000022
为与Hough变换确定的线段相对应的向量,当计算所得余弦值cosθ<0.08时,判断两线段垂直,当余弦值cosθ>0.996时,判断两线段平行。
6.根据权利要求5所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,步骤2中,对铭牌区域图像进行文本检测,得到文本区域图像,具体包括如下步骤:
C1:采集电气设备的铭牌照片,并通过Labe1Img软件对采集的铭牌照片进行标注,得到初始电气铭牌数据集,对初始电气铭牌数据集进行数据集增广,得到电气铭牌数据集;
C2:基于CTPN算法建立CTPN文本定位模型,根据电气铭牌数据集对CTPN文本定位模型进行训练;
C3:对待检测的铭牌区域图像进行旋转,使得图片中的文本倾斜角度在0-15°之间,并将旋转角度进行记录;
C4:将旋转过后的待检测的铭牌区域图像通过训练完成的CTPN文本定位模型进行识别,得到候选文本区域图像;
C5:基于文本区域图像融合方法融合候选文本区域图像,得到最终文本区域图像。
7.根据权利要求6所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,C1中,采集电气设备的铭牌照片,具体为:
通过无人车上设置的摄像头,从不同的角度、光照强度下对电气设备的铭牌进行拍摄,获取铭牌照片。
8.根据权利要求6所述的基于改进CTPN算法的电气设备铭牌文本检测方法,其特征在于,C5中,所述文本区域图像融合方法具体包括如下步骤:
D1:将候选文本区域图像进行逆变换,并记录逆变换后的候选文本区域图像坐标:
根据记录的旋转角度对相应的候选文本区域图像进行逆旋转,并将逆旋转后的候选文本区域图像的坐标记录至集合X中;
D2:对集合X中的候选文本区域图像进行分类:
获取两个候选文本区域图像的坐标(x1,y1)及(x2,y2),获取这两个候选文本区域图像中较小的候选文本区域图像的宽度a,若|y2-y1|<a且这两个候选文本区域图像的重合度IOU值在0.3-0.7之间,则将候选文本区域图像归为一类,并记录至集合Y中,遍历集合X中所有的候选文本区域图像,得到集合Y={Y1,Y2,...,Yn};
D3:按照文本区域图像置信度对集合Y中n个类Yi进行降序:
对集合Y中的n个类Yi,分别按照文本区域图像置信度进行降序排列,得到Yi={Z1,Z2,...,Zk},其中k为Yi中候选文本区域图像的数量;
D4:对n类文本区域图像进行融合:
当Yi的长度大于1时,计算出Z1、Z2重叠得到的多边形的最小外接矩形,该矩形为最终文本区域图像,当Yi的长度等于1时,利用SWT模型判断该区域是否存在文本,若存在则将文本区域图像作为最终文本区域图像,反之则舍弃。
CN202110777275.6A 2021-07-09 2021-07-09 一种基于改进ctpn算法的电气设备铭牌文本检测方法 Withdrawn CN113435452A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110777275.6A CN113435452A (zh) 2021-07-09 2021-07-09 一种基于改进ctpn算法的电气设备铭牌文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110777275.6A CN113435452A (zh) 2021-07-09 2021-07-09 一种基于改进ctpn算法的电气设备铭牌文本检测方法

Publications (1)

Publication Number Publication Date
CN113435452A true CN113435452A (zh) 2021-09-24

Family

ID=77759762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110777275.6A Withdrawn CN113435452A (zh) 2021-07-09 2021-07-09 一种基于改进ctpn算法的电气设备铭牌文本检测方法

Country Status (1)

Country Link
CN (1) CN113435452A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780472A (zh) * 2021-09-29 2021-12-10 北京金山云网络技术有限公司 模型训练样本生成方法、装置、存储介质以及电子设备
CN115187881A (zh) * 2022-09-08 2022-10-14 国网江西省电力有限公司电力科学研究院 电力设备铭牌识别及台区合规性自动校核系统及方法
CN116563289A (zh) * 2023-07-11 2023-08-08 凯德技术长沙股份有限公司 一种基于机器视觉的贴标品质检测方法和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780472A (zh) * 2021-09-29 2021-12-10 北京金山云网络技术有限公司 模型训练样本生成方法、装置、存储介质以及电子设备
CN115187881A (zh) * 2022-09-08 2022-10-14 国网江西省电力有限公司电力科学研究院 电力设备铭牌识别及台区合规性自动校核系统及方法
CN116563289A (zh) * 2023-07-11 2023-08-08 凯德技术长沙股份有限公司 一种基于机器视觉的贴标品质检测方法和系统
CN116563289B (zh) * 2023-07-11 2023-09-29 凯德技术长沙股份有限公司 一种基于机器视觉的贴标品质检测方法和系统

Similar Documents

Publication Publication Date Title
Zhu et al. Concrete column recognition in images and videos
EP1233374B1 (en) Apparatus and method for extracting objects based on feature matching between segmented regions in images
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN113435452A (zh) 一种基于改进ctpn算法的电气设备铭牌文本检测方法
CN106683119B (zh) 基于航拍视频图像的运动车辆检测方法
CN104978567B (zh) 基于场景分类的车辆检测方法
CN107092871B (zh) 基于多尺度多特征融合的遥感影像建筑物检测方法
CN108564120B (zh) 基于深度神经网络的特征点提取方法
CN114549981A (zh) 一种基于深度学习的智能巡检指针式仪表识别及读数方法
CN111611861B (zh) 一种基于多尺度特征关联的图像变化检测方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN110298297A (zh) 火焰识别方法和装置
CN109685045A (zh) 一种运动目标视频跟踪方法及系统
CN107578011A (zh) 视频关键帧的判定方法及装置
CN113240623A (zh) 一种路面病害检测方法及装置
Femiani et al. Shadow-based rooftop segmentation in visible band images
CN111695373A (zh) 斑马线的定位方法、系统、介质及设备
Dhar et al. An efficient real time moving object detection method for video surveillance system
CN115841633A (zh) 一种电力塔和电力线关联矫正的电力塔和电力线检测方法
Lam et al. Highly accurate texture-based vehicle segmentation method
CN110390228A (zh) 基于神经网络的交通标志图片识别方法、装置及存储介质
CN109064444B (zh) 基于显著性分析的轨道板病害检测方法
CN113610052A (zh) 一种基于深度学习的隧道渗漏水自动识别方法
Huang et al. An automatic detection and recognition method for pointer-type meters in natural gas stations
Zou et al. Flood Depth Assessment with Location-Based Social Network Data and Google Street View-A Case Study with Buildings as Reference Objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210924