CN109389121B

CN109389121B - 一种基于深度学习的铭牌识别方法及系统

Info

Publication number: CN109389121B
Application number: CN201811273877.2A
Authority: CN
Inventors: 周建朋; 崔文斌; 刘林; 谢玉鑫; 吴春国; 胡杨
Original assignee: Jinxiandai Information Industry Co ltd
Current assignee: Jinxiandai Information Industry Co ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2021-11-09
Anticipated expiration: 2038-10-30
Also published as: CN109389121A

Abstract

一种基于深度学习的铭牌识别方法，该方法包括：利用目标检测算法对目标图片进行识别确定铭牌所在的区域；然后利用霍夫变换进行边缘检测，将倾斜的图片利用仿射变换进行自动矫正；将铭牌的图片进行文本切分，确定每行文本的位置信息；将切分出来的文本进行文本识别，得到识别结果。还包括一种基于深度学习的铭牌识别系统。本发明采用深度学习算法对铭牌进行行级的文本切分，解决了中文字符分割效率低、分割精度低的问题，提高了识别的效率。利用CRNN算法对行级的文本进行识别，提高了文本识别的精度。

Description

一种基于深度学习的铭牌识别方法及系统

技术领域

本发明涉及铭牌识别技术领域，具体地说是一种基于深度学习的铭牌识别方法及系统。

背景技术

传统的铭牌识别通常是传统的霍夫变换检测图片中的直线，利用预设的边缘提取算法，对待测场景图像进行边缘提取处理，获取相应的待测轮廓图像，并定位待测轮廓图像中的铭牌轮廓区域，这种方式必须根据不同铭牌设置不同的边缘提取算法，同时该种边缘检测算法对复杂环境下的铭牌提取效果比较差。变电站内的设备多，干扰因素也多。基于传统的算法对铭牌识别，识别的精度低。

现有技术通常使用投影技术对字符进行投影分割，这样的分割的方式对于自然场景下的字符分割效率低，并且由于自然场景下的铭牌风化比较严重，对于字符分割的精度也比较低。

发明内容

本发明的目的在于提供一种基于深度学习的铭牌识别方法及系统，用于解决现有技术中铭牌识别受环境干扰因素较多，且文本分割精度低的问题。

为了解决上述问题，本发明提供了一种基于深度学习的铭牌识别方法及系统。

本发明第一方面提供了一种基于深度学习的铭牌识别方法，该方法包括：

利用目标检测算法对目标图片进行识别，确定铭牌所在的区域，然后利用霍夫变换确定铭牌的边缘信息；

将铭牌的图片进行文本切分，确定每行文本的位置信息；

将切分出来的文本进行文本识别，得到识别结果。

结合第一方面，在第一方面第一种可能实现的方式中，确定铭牌所在的区域具体包括以下方法：

对目标图片进行区域划分；

针对每个小区域进行分类，判断每个小区域中是否有铭牌以及铭牌的类型；

通过YOLO神经网络的softmax函数计算每个小区域中包含铭牌的概率；

将符合概率阈值的小区域进行合并，不符合的舍弃；

最终将铭牌所在的区域划分出来。

结合第一方面，在第一方面第二种可能实现的方式中，方法还包括判断铭牌是否倾斜，具体包括：

经过深度学习缩小铭牌的范围，利用霍夫变换检测铭牌所在的区域；

对区域去噪处理后，进行边缘提取；

通过二值化判断是否为边缘点；

将区域映射到霍夫空间，取局部极大值，与预设的阈值比较，过滤干扰直线；

绘制直线、标定角点，确定铭牌的四个顶点的坐标，确定铭牌是否倾斜。

结合第一方面，在第一方面第三种可能实现的方式中，方法还包括将倾斜的图片利用仿射变换进行自动矫正，具体包括：

利用目标检测算法确认铭牌的区域，进而确定铭牌的四个顶点的位置信息；

根据四个顶点的坐标进行计算，得出投影变换的矩阵；

根据投影变换的矩阵，对图像中的每个像素点进行投影变换，得到矫正以后的图像信息。

结合第一方面，在第一方面第四种可能实现的方式中，所述对图像中的每个像素点进行投影变换具体包括：

根据四个顶点的坐标得到四个顶点构成的两条相对的线段构成平行的计算矩阵；

根据计算矩阵对图像中每一个值进行同样的计算，得到新的图像。

结合第一方面，在第一方面第五种可能实现的方式中，将铭牌的图片进行文本切分采用CTPN行文本检测算法。

结合第一方面，在第一方面第六种可能实现的方式中，将切分出来的文本进行文本识别具体包括

将输入的文本进行归一化处理，将图像按水平方向分成33个区域，每个区域均包含中文的一部分结构；

提取各个区域的像素中的特征值，对特征信息进行降维操作；

LSTM根据各个区域的特征值关系，确定中文字。

结合第一方面，在第一方面第七种可能实现的方式中，将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。

本发明第二方面提供了一种基于深度学习的铭牌识别系统，该系统包括图片初步识别子系统，用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息；和，

图片矫正子系统，用于利用仿射变换将倾斜的图片矫正为正常的图片；和，

文本切分子系统，用于将图片中的文本切分出来；和，

文本识别子系统，用于将切分出来的文本进行文本识别。

结合第二方面，在第二方面第一种可能实现的方式中，该系统还包括加速训练子系统，用于加速训练文本识别。

由上述技术方案可知，本发明采用深度学习算法对铭牌进行行级的文本切分，解决了中文字符分割效率低、分割精度低的问题，提高了识别的效率。利用CRNN算法对行级的文本进行识别，提高了文本识别的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于深度学习的铭牌识别方法的流程示意图；

图2为本发明实施例所应用的对图片进行识别并分类的方法流程示意图；

图3为本发明实施例所应用的判断铭牌是否倾斜的方法流程示意图；

图4为本发明实施例所应用的对图片自动矫正的方法流程示意图；

图5为本发明实施例所应用的对文本识别的方法流程示意图；

图6为本发明实施例所应用的一种基于深度学习的铭牌识别系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，一种基于深度学习的铭牌识别方法，该方法包括：

S1、利用目标检测算法对目标图片进行识别，确定铭牌所在的区域，然后利用霍夫变换确定铭牌的边缘信息；

S2、将铭牌的图片进行文本切分，确定每行文本的位置信息；

S3、将切分出来的文本进行文本识别，得到识别结果。

如图2所示，S1中确定铭牌所在的区域具体包括以下方法：

S101、对目标图片进行区域划分；

S102、针对每个小区域进行分类，判断每个小区域中是否有铭牌以及铭牌的类型；

S103、通过YOLO神经网络的softmax函数计算每个小区域中包含铭牌的概率；

S104、将符合概率阈值的小区域进行合并，不符合的舍弃；

S105、最终将铭牌所在的区域划分出来。

S103中计算每个小区域中包含铭牌的概率可通过如下公式进行计算：

式中，P(t＝C|Z)表示，在给定输入Z时，该输入数据是C分类的概率；Z代表的是输入信息，即提取的特征值；C代表类别的符号，在本发明中C＝2。

通过该计算公式将每个区域进行计算，输入提取的特征值Z，得到一系列的数值，最后取概率大的作为最终分类结果。

如图3所示，方法还包括判断铭牌是否倾斜，具体包括：

S1051、经过深度学习缩小铭牌的范围，利用霍夫变换检测铭牌所在的区域；

S1052、对区域去噪处理后，进行边缘提取；

S1053、通过二值化判断是否为边缘点；

S1054、将区域映射到霍夫空间，取局部极大值，与预设的阈值比较，过滤干扰直线；

S1055、绘制直线、标定角点，确定铭牌的四个顶点的坐标，确定铭牌是否倾斜。

如图4所示，方法还包括将倾斜的图片利用仿射变换进行自动矫正，具体包括：

S201、利用目标检测算法确认铭牌的区域，利用霍夫变换确定铭牌的四个顶点的位置信息；

S202、根据四个顶点的坐标进行计算，得出投影变换的矩阵；

S203、根据投影变换的矩阵，对图像中的每个像素点进行投影变换，得到矫正以后的图像信息。

S203中对图像中的每个像素点进行投影变换具体包括：

将铭牌的图片进行文本切分采用CTPN行文本检测算法，具体为：

第一，用VGG16的前5个Conv stage(到conv5)得到feature map(W*H*C)；

第二，在conv5的feature map的每个位置上取3*3*C的窗口的特征，这些特征将用于预测该位置k个anchor(anchor的定义和Faster RCNN类似)对应的类别信息，位置信息；

第三，将每一行的所有窗口对应的3*3*C的特征(W*3*3*C)输入到RNN(BLSTM)中，得到W*256的输出；

第四，将RNN的W*256输入到512维的fc层；

第五，fc层特征输入到三个分类或者回归层中。第二个2k scores表示的是k个anchor的类别信息(是字符或不是字符)。第一个2k vertical coordinate和第三个kside-refinement是用来回归k个anchor的位置信息。2k vertical coordinate表示的是bounding box的高度和中心的y轴坐标(可以决定上下边界)，k个side-refinement表示的bounding box的水平平移量。本实施例只用了3个参数表示回归的bounding box，因为这里默认了每个anchor的width是16，且不再变化(VGG16的conv5的stride是16)。回归出来的box是的细长矩形，它们的宽度是一定的；

第六，用简单的文本线构造算法，把分类得到的文字的proposal合并成文本线。

如图5所示，将切分出来的文本进行文本识别具体包括：

S401、将输入的文本进行归一化处理，将图像按水平方向分成33个区域，每个区域均包含中文的一部分结构；

S402、提取各个区域的像素中的特征值，对特征信息进行降维操作；conv3层时数据大小为256*8*32，两个pooling层宽高各除以4。其中conv层的作用是提取图像的像素中的特征信息，pooling层是为了减少计算量，对提取的特征进行降维操作(就是减少特征值的数量)，使用多个conv层可以提取更多种类和更高维度的特征。

S403、LSTM根据各个区域的特征值关系，确定中文字。

将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。

如图6所示，一种基于深度学习的铭牌识别系统，该系统包括图片初步识别子系统，用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息；和，图片矫正子系统，用于利用仿射变换将倾斜的图片矫正为正常的图片；和，文本切分子系统，用于将图片中的文本切分出来；和，文本识别子系统，用于将切分出来的文本进行文本识别；和，加速训练子系统，用于加速训练文本识别。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习的铭牌识别方法，其特征是，该方法包括：

将铭牌的图片进行文本切分，确定每行文本的位置信息；

将切分出来的文本进行文本识别，得到识别结果；

确定铭牌所在的区域具体包括以下方法：

对目标图片进行区域划分；

将符合概率阈值的小区域进行合并，不符合的舍弃；

最终将铭牌所在的区域划分出来；

计算每个小区域中包含铭牌的概率可通过如下公式进行计算：

式中，P(t＝C|Z)表示，在给定输入Z时，该输入数据是C分类的概率；Z代表的是输入信息，即提取的特征值；C代表类别的符号，C＝2；

2.根据权利要求1所述的方法，其特征是，方法还包括判断铭牌是否倾斜，具体包括：

对区域去噪处理后，进行边缘提取；

通过二值化判断是否为边缘点；

3.根据权利要求2所述的方法，其特征是，方法还包括将倾斜的图片利用仿射变换进行自动矫正，具体包括：

根据四个顶点的坐标进行计算，得出投影变换的矩阵；

4.根据权利要求3所述的方法，其特征是，所述对图像中的每个像素点进行投影变换具体包括：

5.根据权利要求1所述的方法，其特征是，将铭牌的图片进行文本切分采用CTPN行文本检测算法。

6.根据权利要求1所述的方法，其特征是，将切分出来的文本进行文本识别具体包括：

LSTM根据各个区域的特征值关系，确定中文字。

7.根据权利要求5所述的方法，其特征是，将切分出来的文本进行文本识别还包括对归一化处理进行加速训练。

8.一种基于深度学习的铭牌识别系统，利用权利要求1-7任意一项所述的方法，其特征是，该系统包括图片初步识别子系统，用于利用目标检测算法确定铭牌的区域和利用霍夫变换确定铭牌的边缘信息；和，

文本切分子系统，用于将图片中的文本切分出来；和，

文本识别子系统，用于将切分出来的文本进行文本识别。

9.根据权利要求8所述的系统，其特征是，该系统还包括加速训练子系统，用于加速训练文本识别。