CN109389121B - 一种基于深度学习的铭牌识别方法及系统 - Google Patents
一种基于深度学习的铭牌识别方法及系统 Download PDFInfo
- Publication number
- CN109389121B CN109389121B CN201811273877.2A CN201811273877A CN109389121B CN 109389121 B CN109389121 B CN 109389121B CN 201811273877 A CN201811273877 A CN 201811273877A CN 109389121 B CN109389121 B CN 109389121B
- Authority
- CN
- China
- Prior art keywords
- nameplate
- text
- determining
- picture
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
一种基于深度学习的铭牌识别方法,该方法包括:利用目标检测算法对目标图片进行识别确定铭牌所在的区域;然后利用霍夫变换进行边缘检测,将倾斜的图片利用仿射变换进行自动矫正;将铭牌的图片进行文本切分,确定每行文本的位置信息;将切分出来的文本进行文本识别,得到识别结果。还包括一种基于深度学习的铭牌识别系统。本发明采用深度学习算法对铭牌进行行级的文本切分,解决了中文字符分割效率低、分割精度低的问题,提高了识别的效率。利用CRNN算法对行级的文本进行识别,提高了文本识别的精度。
Description
技术领域
本发明涉及铭牌识别技术领域,具体地说是一种基于深度学习的铭牌识别方法及系统。
背景技术
传统的铭牌识别通常是传统的霍夫变换检测图片中的直线,利用预设的边缘提取算法,对待测场景图像进行边缘提取处理,获取相应的待测轮廓图像,并定位待测轮廓图像中的铭牌轮廓区域,这种方式必须根据不同铭牌设置不同的边缘提取算法,同时该种边缘检测算法对复杂环境下的铭牌提取效果比较差。变电站内的设备多,干扰因素也多。基于传统的算法对铭牌识别,识别的精度低。
现有技术通常使用投影技术对字符进行投影分割,这样的分割的方式对于自然场景下的字符分割效率低,并且由于自然场景下的铭牌风化比较严重,对于字符分割的精度也比较低。
发明内容
本发明的目的在于提供一种基于深度学习的铭牌识别方法及系统,用于解决现有技术中铭牌识别受环境干扰因素较多,且文本分割精度低的问题。
为了解决上述问题,本发明提供了一种基于深度学习的铭牌识别方法及系统。
本发明第一方面提供了一种基于深度学习的铭牌识别方法,该方法包括:
利用目标检测算法对目标图片进行识别,确定铭牌所在的区域,然后利用霍夫变换确定铭牌的边缘信息;
将铭牌的图片进行文本切分,确定每行文本的位置信息;
将切分出来的文本进行文本识别,得到识别结果。
结合第一方面,在第一方面第一种可能实现的方式中,确定铭牌所在的区域具体包括以下方法:
对目标图片进行区域划分;
针对每个小区域进行分类,判断每个小区域中是否有铭牌以及铭牌的类型;
通过YOLO神经网络的softmax函数计算每个小区域中包含铭牌的概率;
将符合概率阈值的小区域进行合并,不符合的舍弃;
最终将铭牌所在的区域划分出来。
结合第一方面,在第一方面第二种可能实现的方式中,方法还包括判断铭牌是否倾斜,具体包括:
经过深度学习缩小铭牌的范围,利用霍夫变换检测铭牌所在的区域;
对区域去噪处理后,进行边缘提取;
通过二值化判断是否为边缘点;
将区域映射到霍夫空间,取局部极大值,与预设的阈值比较,过滤干扰直线;
绘制直线、标定角点,确定铭牌的四个顶点的坐标,确定铭牌是否倾斜。
结合第一方面,在第一方面第三种可能实现的方式中,方法还包括将倾斜的图片利用仿射变换进行自动矫正,具体包括:
利用目标检测算法确认铭牌的区域,进而确定铭牌的四个顶点的位置信息;
根据四个顶点的坐标进行计算,得出投影变换的矩阵;
根据投影变换的矩阵,对图像中的每个像素点进行投影变换,得到矫正以后的图像信息。
结合第一方面,在第一方面第四种可能实现的方式中,所述对图像中的每个像素点进行投影变换具体包括:
根据四个顶点的坐标得到四个顶点构成的两条相对的线段构成平行的计算矩阵;
根据计算矩阵对图像中每一个值进行同样的计算,得到新的图像。
结合第一方面,在第一方面第五种可能实现的方式中,将铭牌的图片进行文本切分采用CTPN行文本检测算法。
结合第一方面,在第一方面第六种可能实现的方式中,将切分出来的文本进行文本识别具体包括
将输入的文本进行归一化处理,将图像按水平方向分成33个区域,每个区域均包含中文的一部分结构;
提取各个区域的像素中的特征值,对特征信息进行降维操作;
LSTM根据各个区域的特征值关系,确定中文字。
结合第一方面,在第一方面第七种可能实现的方式中,将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。
本发明第二方面提供了一种基于深度学习的铭牌识别系统,该系统包括图片初步识别子系统,用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息;和,
图片矫正子系统,用于利用仿射变换将倾斜的图片矫正为正常的图片;和,
文本切分子系统,用于将图片中的文本切分出来;和,
文本识别子系统,用于将切分出来的文本进行文本识别。
结合第二方面,在第二方面第一种可能实现的方式中,该系统还包括加速训练子系统,用于加速训练文本识别。
由上述技术方案可知,本发明采用深度学习算法对铭牌进行行级的文本切分,解决了中文字符分割效率低、分割精度低的问题,提高了识别的效率。利用CRNN算法对行级的文本进行识别,提高了文本识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于深度学习的铭牌识别方法的流程示意图;
图2为本发明实施例所应用的对图片进行识别并分类的方法流程示意图;
图3为本发明实施例所应用的判断铭牌是否倾斜的方法流程示意图;
图4为本发明实施例所应用的对图片自动矫正的方法流程示意图;
图5为本发明实施例所应用的对文本识别的方法流程示意图;
图6为本发明实施例所应用的一种基于深度学习的铭牌识别系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,一种基于深度学习的铭牌识别方法,该方法包括:
S1、利用目标检测算法对目标图片进行识别,确定铭牌所在的区域,然后利用霍夫变换确定铭牌的边缘信息;
S2、将铭牌的图片进行文本切分,确定每行文本的位置信息;
S3、将切分出来的文本进行文本识别,得到识别结果。
如图2所示,S1中确定铭牌所在的区域具体包括以下方法:
S101、对目标图片进行区域划分;
S102、针对每个小区域进行分类,判断每个小区域中是否有铭牌以及铭牌的类型;
S103、通过YOLO神经网络的softmax函数计算每个小区域中包含铭牌的概率;
S104、将符合概率阈值的小区域进行合并,不符合的舍弃;
S105、最终将铭牌所在的区域划分出来。
S103中计算每个小区域中包含铭牌的概率可通过如下公式进行计算:
式中,P(t=C|Z)表示,在给定输入Z时,该输入数据是C分类的概率;Z代表的是输入信息,即提取的特征值;C代表类别的符号,在本发明中C=2。
通过该计算公式将每个区域进行计算,输入提取的特征值Z,得到一系列的数值,最后取概率大的作为最终分类结果。
如图3所示,方法还包括判断铭牌是否倾斜,具体包括:
S1051、经过深度学习缩小铭牌的范围,利用霍夫变换检测铭牌所在的区域;
S1052、对区域去噪处理后,进行边缘提取;
S1053、通过二值化判断是否为边缘点;
S1054、将区域映射到霍夫空间,取局部极大值,与预设的阈值比较,过滤干扰直线;
S1055、绘制直线、标定角点,确定铭牌的四个顶点的坐标,确定铭牌是否倾斜。
如图4所示,方法还包括将倾斜的图片利用仿射变换进行自动矫正,具体包括:
S201、利用目标检测算法确认铭牌的区域,利用霍夫变换确定铭牌的四个顶点的位置信息;
S202、根据四个顶点的坐标进行计算,得出投影变换的矩阵;
S203、根据投影变换的矩阵,对图像中的每个像素点进行投影变换,得到矫正以后的图像信息。
S203中对图像中的每个像素点进行投影变换具体包括:
根据四个顶点的坐标得到四个顶点构成的两条相对的线段构成平行的计算矩阵;
根据计算矩阵对图像中每一个值进行同样的计算,得到新的图像。
将铭牌的图片进行文本切分采用CTPN行文本检测算法,具体为:
第一,用VGG16的前5个Conv stage(到conv5)得到feature map(W*H*C);
第二,在conv5的feature map的每个位置上取3*3*C的窗口的特征,这些特征将用于预测该位置k个anchor(anchor的定义和Faster RCNN类似)对应的类别信息,位置信息;
第三,将每一行的所有窗口对应的3*3*C的特征(W*3*3*C)输入到RNN(BLSTM)中,得到W*256的输出;
第四,将RNN的W*256输入到512维的fc层;
第五,fc层特征输入到三个分类或者回归层中。第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个kside-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标(可以决定上下边界),k个side-refinement表示的bounding box的水平平移量。本实施例只用了3个参数表示回归的bounding box,因为这里默认了每个anchor的width是16,且不再变化(VGG16的conv5的stride是16)。回归出来的box是的细长矩形,它们的宽度是一定的;
第六,用简单的文本线构造算法,把分类得到的文字的proposal合并成文本线。
如图5所示,将切分出来的文本进行文本识别具体包括:
S401、将输入的文本进行归一化处理,将图像按水平方向分成33个区域,每个区域均包含中文的一部分结构;
S402、提取各个区域的像素中的特征值,对特征信息进行降维操作;conv3层时数据大小为256*8*32,两个pooling层宽高各除以4。其中conv层的作用是提取图像的像素中的特征信息,pooling层是为了减少计算量,对提取的特征进行降维操作(就是减少特征值的数量),使用多个conv层可以提取更多种类和更高维度的特征。
S403、LSTM根据各个区域的特征值关系,确定中文字。
将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。
如图6所示,一种基于深度学习的铭牌识别系统,该系统包括图片初步识别子系统,用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息;和,图片矫正子系统,用于利用仿射变换将倾斜的图片矫正为正常的图片;和,文本切分子系统,用于将图片中的文本切分出来;和,文本识别子系统,用于将切分出来的文本进行文本识别;和,加速训练子系统,用于加速训练文本识别。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种基于深度学习的铭牌识别方法,其特征是,该方法包括:
利用目标检测算法对目标图片进行识别,确定铭牌所在的区域,然后利用霍夫变换确定铭牌的边缘信息;
将铭牌的图片进行文本切分,确定每行文本的位置信息;
将切分出来的文本进行文本识别,得到识别结果;
确定铭牌所在的区域具体包括以下方法:
对目标图片进行区域划分;
针对每个小区域进行分类,判断每个小区域中是否有铭牌以及铭牌的类型;
通过YOLO神经网络的softmax函数计算每个小区域中包含铭牌的概率;
将符合概率阈值的小区域进行合并,不符合的舍弃;
最终将铭牌所在的区域划分出来;
计算每个小区域中包含铭牌的概率可通过如下公式进行计算:
式中,P(t=C|Z)表示,在给定输入Z时,该输入数据是C分类的概率;Z代表的是输入信息,即提取的特征值;C代表类别的符号,C=2;
通过该计算公式将每个区域进行计算,输入提取的特征值Z,得到一系列的数值,最后取概率大的作为最终分类结果。
2.根据权利要求1所述的方法,其特征是,方法还包括判断铭牌是否倾斜,具体包括:
经过深度学习缩小铭牌的范围,利用霍夫变换检测铭牌所在的区域;
对区域去噪处理后,进行边缘提取;
通过二值化判断是否为边缘点;
将区域映射到霍夫空间,取局部极大值,与预设的阈值比较,过滤干扰直线;
绘制直线、标定角点,确定铭牌的四个顶点的坐标,确定铭牌是否倾斜。
3.根据权利要求2所述的方法,其特征是,方法还包括将倾斜的图片利用仿射变换进行自动矫正,具体包括:
利用目标检测算法确认铭牌的区域,进而确定铭牌的四个顶点的位置信息;
根据四个顶点的坐标进行计算,得出投影变换的矩阵;
根据投影变换的矩阵,对图像中的每个像素点进行投影变换,得到矫正以后的图像信息。
4.根据权利要求3所述的方法,其特征是,所述对图像中的每个像素点进行投影变换具体包括:
根据四个顶点的坐标得到四个顶点构成的两条相对的线段构成平行的计算矩阵;
根据计算矩阵对图像中每一个值进行同样的计算,得到新的图像。
5.根据权利要求1所述的方法,其特征是,将铭牌的图片进行文本切分采用CTPN行文本检测算法。
6.根据权利要求1所述的方法,其特征是,将切分出来的文本进行文本识别具体包括:
将输入的文本进行归一化处理,将图像按水平方向分成33个区域,每个区域均包含中文的一部分结构;
提取各个区域的像素中的特征值,对特征信息进行降维操作;
LSTM根据各个区域的特征值关系,确定中文字。
7.根据权利要求5所述的方法,其特征是,将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。
8.一种基于深度学习的铭牌识别系统,利用权利要求1-7任意一项所述的方法,其特征是,该系统包括图片初步识别子系统,用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息;和,
图片矫正子系统,用于利用仿射变换将倾斜的图片矫正为正常的图片;和,
文本切分子系统,用于将图片中的文本切分出来;和,
文本识别子系统,用于将切分出来的文本进行文本识别。
9.根据权利要求8所述的系统,其特征是,该系统还包括加速训练子系统,用于加速训练文本识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273877.2A CN109389121B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度学习的铭牌识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811273877.2A CN109389121B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度学习的铭牌识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389121A CN109389121A (zh) | 2019-02-26 |
CN109389121B true CN109389121B (zh) | 2021-11-09 |
Family
ID=65427966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811273877.2A Active CN109389121B (zh) | 2018-10-30 | 2018-10-30 | 一种基于深度学习的铭牌识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389121B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
WO2020223859A1 (zh) * | 2019-05-05 | 2020-11-12 | 华为技术有限公司 | 一种检测倾斜文字的方法、装置及设备 |
CN110414309A (zh) * | 2019-05-27 | 2019-11-05 | 上海眼控科技股份有限公司 | 一种车辆铭牌的自动识别方法 |
CN110334647A (zh) * | 2019-07-03 | 2019-10-15 | 云南电网有限责任公司信息中心 | 一种基于图像识别的参数格式化方法 |
CN110502990B (zh) * | 2019-07-17 | 2022-06-03 | 上海展湾信息科技有限公司 | 利用图像处理进行数据采集的方法及系统 |
CN110738602B (zh) * | 2019-09-12 | 2021-01-01 | 北京三快在线科技有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN110781851A (zh) * | 2019-10-31 | 2020-02-11 | 武汉攻壳科技有限公司 | 一种基于图片的装修户型图识别方法 |
CN110956171A (zh) * | 2019-11-06 | 2020-04-03 | 广州供电局有限公司 | 铭牌自动识别方法、装置、计算机设备和存储介质 |
CN110991448A (zh) * | 2019-11-27 | 2020-04-10 | 云南电网有限责任公司电力科学研究院 | 电力设备铭牌图像的文本检测方法及装置 |
CN111444876A (zh) * | 2020-04-08 | 2020-07-24 | 证通股份有限公司 | 一种图文处理方法、系统以及计算机可读存储介质 |
CN111523583B (zh) * | 2020-04-16 | 2022-06-24 | 国网河北省电力有限公司石家庄市栾城区供电分公司 | 一种利用无人机对设备铭牌照片自动识别分类的方法 |
CN112818970B (zh) * | 2021-01-28 | 2023-07-21 | 北京科技大学设计研究院有限公司 | 一种钢卷喷码识别通用检测方法 |
CN113111869B (zh) * | 2021-04-06 | 2022-12-09 | 上海交通大学 | 提取文字图片及其描述的方法和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN108345881A (zh) * | 2018-02-01 | 2018-07-31 | 福州大学 | 一种基于计算机视觉的文档质量检测方法 |
CN108376244A (zh) * | 2018-02-02 | 2018-08-07 | 北京大学 | 一种自然场景图片中的文本字体的识别方法 |
-
2018
- 2018-10-30 CN CN201811273877.2A patent/CN109389121B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247950A (zh) * | 2017-06-06 | 2017-10-13 | 电子科技大学 | 一种基于机器学习的身份证图像文本识别方法 |
CN108345881A (zh) * | 2018-02-01 | 2018-07-31 | 福州大学 | 一种基于计算机视觉的文档质量检测方法 |
CN108376244A (zh) * | 2018-02-02 | 2018-08-07 | 北京大学 | 一种自然场景图片中的文本字体的识别方法 |
Non-Patent Citations (2)
Title |
---|
Crnn中文end-to-end识别;大熊吃土豆网友;《CSDN博客》;20170613;第1-5页 * |
基于YOLOv2算法的运动车辆目标检测方法研究;龚静等;《电子科技》;20180630;第31卷(第06期);第5-12页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109389121A (zh) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109389121B (zh) | 一种基于深度学习的铭牌识别方法及系统 | |
WO2022148192A1 (zh) | 图像处理方法、图像处理装置以及非瞬时性存储介质 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
CN108960229B (zh) | 一种面向多方向的文字检测方法和装置 | |
CN107045634B (zh) | 一种基于最大稳定极值区域与笔画宽度的文本定位方法 | |
CN109409356B (zh) | 一种基于swt的多方向中文印刷体文字检测方法 | |
JP7132050B2 (ja) | テキスト行の区分化方法 | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN104376318A (zh) | 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线 | |
JP2019102061A5 (zh) | ||
CN115661848A (zh) | 一种基于深度学习的表格提取和识别方法及系统 | |
US11823474B2 (en) | Handwritten text recognition method, apparatus and system, handwritten text search method and system, and computer-readable storage medium | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN110427909B (zh) | 一种移动端驾驶证检测方法、系统及电子设备和存储介质 | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
CN109271882B (zh) | 一种区分颜色的手写体汉字提取方法 | |
CN112381844B (zh) | 基于图像分块的自适应orb特征提取方法 | |
Ziaratban et al. | An adaptive script-independent block-based text line extraction | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN112418210B (zh) | 一种杆塔巡检信息智能分类方法 | |
CN111047614A (zh) | 一种基于特征提取的复杂场景图像的目标角点提取方法 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN112950662B (zh) | 一种交通场景空间结构提取方法 | |
Naz et al. | Challenges in baseline detection of cursive script languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |