CN111626292B

CN111626292B - 一种基于深度学习技术的楼宇指示标识的文字识别方法

Info

Publication number: CN111626292B
Application number: CN202010388458.4A
Authority: CN
Inventors: 王玉龙; 王明君; 赵海秀; 徐童; 张乐剑; 陈爽; 王晶
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-06-30
Anticipated expiration: 2040-05-09
Also published as: CN111626292A

Abstract

一种基于深度学习技术的楼宇指示标识的文字识别方法，包括：采用检测网络对场景图片进行检测，获得楼宇指示标识文本的4个角点坐标，截取出字符图片；将字符图片分别输入MORN网络和进行霍夫直线处理，并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合，获得融合图片；构建楼宇指示标识文本识别模型，输入融合图片，处理流程如下：先将融合图片使用经典卷积神经网络CNN提取特征图，然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中，并输出得到每个时间片对应的文本字符类别，采用损失函数Loss去除空白字符后，获得楼宇指示标识文本。本发明属于信息技术领域，能实现对楼宇指示标识文本的准确识别。

Description

一种基于深度学习技术的楼宇指示标识的文字识别方法

技术领域

本发明涉及一种基于深度学习技术的楼宇指示标识的文字识别方法，属于信息技术领域。

背景技术

自然场景文字识别技术不同于传统OCR(光字符识别)技术，目前可以分成两个部分：文本检测与文字识别。

专利申请CN 201910112721.4(申请名称：一种仓库货架标识牌文字识别的自然场景文字识别方法，申请日：2019.02.13，申请人：东北大学)公开了一种仓库货架标识牌文字识别的自然场景文字识别方法，至少包括以下步骤：搭建待识别标识牌文本检测网络；所述待识别标识牌文本检测网络的具体结构为：来自VGG-16的13个卷积层，卷积层为10个特征提取的额外的卷积层的全卷积网络，以及6个连接到6个中间卷积层的文本框层；保留所述VGG-16的13个卷积层，将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。这个检测算法的预测结果为矩形框，不能用于文字区域有倾斜角度的场景中，而楼宇指示场景下的拍摄图片多有倾斜角度，因此该技术方案无法适用于对楼宇指示标识文本的识别。申请人未发现有其他用于对楼宇指示标识文本识别的现有技术。

因此，如何实现对楼宇指示标识文本的准确识别，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种基于深度学习技术的楼宇指示标识的文字识别方法，能实现对楼宇指示标识文本的准确识别。

为了达到上述目的，本发明提供了一种基于深度学习技术的楼宇指示标识的文字识别方法，包括有：

步骤一、采用检测网络对场景图片进行检测，从而获得楼宇指示标识文本的4个角点坐标，按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片；

步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理，并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合，从而获得融合图片；

步骤三、构建楼宇指示标识文本识别模型，并输入融合图片，楼宇指示标识文本识别模型的处理流程如下：先将融合图片使用经典卷积神经网络CNN提取特征图，然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中，并输出得到每个时间片对应的文本字符类别，采用损失函数Loss去除空白字符后，最终获得楼宇指示标识文本，

步骤一进一步包括有：

步骤11、使用ResNet网络提取场景图片的特征图，检测、并输出所有包含有字符的文字框，然后据此计算包含有楼宇指示标识文本的字符图片的角点坐标，最后从场景图片中截取出包含有楼宇指示标识文本的字符图片；

步骤12、构建一个分类判别网络，其网络特征提取选用VGG16网络，并使用softmax分类函数，所述分类判别网络的输入是待检测图片，输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率，将包含有楼宇指示标识文本的字符图片输入至分类判别网络中，然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整，最后按调整后的角点坐标，从场景图片中重新截取出包含有楼宇指示标识文本的字符图片，

步骤11进一步包含有：

步骤111、设定场景图片的多个尺度，使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图；

步骤112、设定不同尺度对应的特征权重，将每个尺度对应的特征图调整为其和特征权重相乘的积；

步骤113、将所有尺度对应的特征图采用U-net方法进行合并，并将合并后的特征图继续输入ResNet网络，以检测输出所有包含有字符的文字框信息，输出的每个文字框信息包括有文字框得分及文字框的4个角点坐标；

步骤114、将所有文字框采用非极大值抑制NMS，并剔除得分低于阈值的文字框，然后从所有文字框的角点坐标中挑选出横坐标的最小值X_min和最大值X_max、纵坐标的最小值Y_min和最大值Y_max，包含有楼宇指示标识文本的字符图片的左上角坐标即是(X_min，Y_min)，右下角坐标即是(X_max，Y_max)；

步骤115、使用PIL库的crop方法，按照包含有楼宇指示标识文本的字符图片的左上角和右下角坐标，从场景图片中截取出包含有楼宇指示标识文本的字符图片。

与现有技术相比，本发明的有益效果是：本发明通过检测可以获得文本任意四边形的角点坐标，从而避免了略倾斜字符区域的检测缺失，使得检测效果更加精确，且送入识别网络的文本图片更加完整，有效提高识别准确率；由于场景文本具有文本倾斜且字体过小的特点，本发明将MORN网络矫正后的图片和与传统的霍夫直线检测变换后的图片使用全景技术中的融合方法相结合，从而能得到更加准确的矫正图片，且针对字符较小的特点将图像超分辨率方法引入到待识别图像的预处理中，使得识别网络输出结果更加准确；现有的场景文字识别方法所使用的识别数据集都是基于公共数据集，从而导致数据集针对性不强、特定场景下的识别效果不佳，本发明进一步设计了一个具有针对性的用于楼宇指示的文本识别数据集生成方法；本发明的整体方案充分适用于楼宇指示标识的文本识别。

附图说明

图1是本发明一种基于深度学习技术的楼宇指示标识的文字识别方法的流程图。

图2是图1步骤一的具体步骤流程图。

图3是图2步骤11的具体步骤流程图。

图4是图1步骤二的具体步骤流程图。

图5是楼宇指示标识文本识别模型的具体工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种基于深度学习技术的楼宇指示标识的文字识别方法，包括有：

步骤三、构建楼宇指示标识文本识别模型，并输入融合图片，楼宇指示标识文本识别模型的处理流程如下：先将融合图片使用经典卷积神经网络CNN提取特征图，然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中，并输出得到每个时间片对应的文本字符类别，采用损失函数Loss去除空白字符后，最终获得楼宇指示标识文本。

如图2所示，步骤一可以进一步包括有：

步骤12、构建一个分类判别网络，其网络特征提取选用VGG16网络，并使用softmax分类函数，所述分类判别网络的输入是待检测图片，输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率，将包含有楼宇指示标识文本的字符图片输入至分类判别网络中，然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整，最后按调整后的角点坐标，从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。考虑到检测文字框时会出现文字边缘检测不全的情况，本发明通过分类判别网络识别边缘存在缺失的文本框后，再进一步扩大图片的截取范围。

如图3所示，步骤11可以进一步包含有：

步骤111、设定场景图片的多个尺度，所述尺度可以包括但不限于：

使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图；

步骤112、设定不同尺度对应的特征权重，将每个尺度对应的特征图调整为其和特征权重相乘的积；考虑到楼宇指示标识文本存在普遍字体较小的特点，通过引入权重设置，将

这几种特征图分别乘以不同的权重值3、2、1、1，可以加强对小尺度文本的检测能力；

步骤114、将所有文字框采用非极大值抑制(NMS)，并剔除得分低于阈值的文字框，然后从所有文字框的角点坐标中挑选出横坐标的最小值X_min和最大值X_max、纵坐标的最小值Y_min和最大值Y_max，包含有楼宇指示标识文本的字符图片的左上角坐标即是(X_min，Y_min)，右下角坐标即是(X_max，Y_max)；

步骤12中，根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整，最后按调整后的角点坐标，从场景图片中重新截取出包含有楼宇指示标识文本的字符图片，可以进一步包括有：

步骤121、根据分类判别网络的输出结果，计算调整值Δh，即当输出结果为无缺失时，Δh为0，当输出结果为微少缺失时，Δh为0.05，当输出结果为无缺失时，Δh为0.1；

步骤122、根据调整值Δh，计算调整后的字符图片高度和宽度：h′＝h+h*Δh，w′＝w+w*Δ，其中h、w分别是包含有楼宇指示标识文本的字符图片的高度、宽度，h′、w′分别是调整后的包含有楼宇指示标识文本的字符图片的高度、宽度；

步骤123、以包含有楼宇指示标识文本的字符图片框为中心，根据调整后的字符图片高度、宽度，调整字符图片的角点坐标，然后从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。

如图4示，步骤二可以进一步包括有：

步骤21、将包含有楼宇指示标识文本的字符图片输入MORAN网络的MORN网络，MORN网络对字符图片中每个像素点的坐标进行调整，并输出调整后的矫正图片；

关于MORAN网络，可以参见CVPR2019论文《MORAN：A Multi-Object RectifiedAttention Network for Scene Text Recognition》，其中，MORN网络是应用于MORAN网络的预处理子网络，被论文用于对英文艺术字进行矫正，本发明通过MORN网络来对楼宇指示标识文本中的中文进行矫正，由于MORN网络的结构已在论文中具体描述，不在此赘述。包含有楼宇指示标识文本的字符图片在进入MORN网络后会保存一个基础网格basic grid，用于记录字符图片原始的像素位置信息，而通过补充网络，会生成一个同尺寸的偏移图，偏移图中定义了输入图像坐标(x₁，y₁)到输出图像坐标(x₂，y₂)的可微分映射。因此，通过网络矫正后，输入图片的(x₁，y₁)点的像素变为输出图片的(x₂，y₂)点的像素。由于图片的每个像素点经过调整后得到的(x₂，y₂)并不是整数且分布不均匀，因此MORN网络还应用OpenCV中提供的双线性插值法去调整输出图片，进而得到调整后的矫正图片；

步骤22、使用霍夫直线检测原理，将包含有楼宇指示标识文本的字符图片转换为灰度图，去噪并进行边缘提取，二值化后再将字符图片映射到霍夫空间，选取局部极大值并设定阈值，以检测出字符方向的直线，然后对直线角度取平均值作为旋转角度，最后按照该旋转角度对字符图片中的倾斜字符进行矫正，从而得到霍夫直线变换后的图片；

步骤23、将MORN网络输出的矫正图片和霍夫直线变换后的图片采用全景图像融合的image stitch方法进行图像融合，从而获得融合图片；

本发明使用image stitch方法通过映射融合两张相似图片，从而能将传统矫正方法与神经网络完整融合，充分提高融合图片的矫正效果；

步骤24、对融合图片进行SRCNN放大算法处理，SRCNN放大算法效果优于常规的双线性插值等方法，从而能针对性解决楼宇标识中标识文本字符较小的问题，得到尺寸更大的图片作为最终输入识别网络的图片。

步骤三中的楼宇指示标识文本识别模型，可以通过获取用于楼宇指示的特定字典，设定数据集配置文件，从而批量生成文本识别数据集作为训练样本，进一步包括有：

步骤A1、获取字典，其中字典可以由楼宇指示标识文本中经常出现的字符：地域名、公司名字、数字、‘-’符号、和其他常见文字组成，其中地域名、公司名字采用爬虫获取真实公司名及地名，数字及符号按照楼层标识如“A-802”格式随机生成，此外还可以采用小说中的文本作为其他文字，随机截取其中的每4-15字符作为其他常见文字字典；

步骤A2、输入字典，并设置数据集配置文件，然后按数据集配置文件批量生成文本识别数据集。在数据集配置文件中可以定义计划生成的图片数量、基准字典的路径、生成文本的平均长度(字符个数)、生成文本的字体、图片背景效果处理(像素表现，划痕等)、图片字符是否有上下偏移、生成图片的尺寸等配置信息。可以提前选取不同划痕情况20-25张模板图片，并将模板图片进行反转、旋转等处理，然后将生成的文本图片在随机位置与划痕模板图片进行像素相减。这样，修改数据集配置文件后，即可在目标文件夹下生成所需数据，生成的图片文字内容为真实的公司名称，并采用不同字体模仿真正的楼宇指示标识情况，且应用划痕模板加入划痕处理效果以贴近真实标识图片，此外，图片中字符的上下偏移模仿了字体的偏移及倾斜效果，针对性的数据集生成系统保证了数据集的完整。

如图5所示，楼宇指示标识文本识别模型的具体工作流程如下：

步骤31、使用CNN从融合图片中提取图片特征，分别获得1个13列特征图和1个26列特征图；

步骤32、分别将13列特征图和26列特征图的每列作为一个时间片输入到LSTM中，每列长度为512，即分别向LSTM输入13个时间片与26个时间片，以通过LSTM捕获上下文信息，LSTM分别输出13列特征图和26列特征图对应的字符概率分布序列；

步骤33、根据13列特征图和26列特征图对应的字符概率分布序列，计算楼宇指示标识文本的字符序列；

步骤34、对楼宇指示标识文本的字符序列中每一个时间片对应的输出结果进行argmax()操作，即可获得每一列输出字符的类别，然后使用CTC Loss去掉空白字符，从而获得最终的楼宇指示标识文本。

步骤33中，13列特征图、26列特征图分别对应的字符概率分布序列为

其中，/>

分别是13列、26列特征图中的第i、j个时间片在输入LSTM后获得的字符概率分布，i∈[1，13]，j∈[1，26]，这样，计算楼宇指示标识文本的字符序列，可以进一步包括有：

步骤331、设定i＝1，j＝1；

步骤332、从13列特征图对应的字符概率分布序列中提取第i个字符概率分布；

步骤333、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布，从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符，楼宇指示标识文本的字符序列Y中的第j个字符y_j即是所挑选概率最大的字符；

步骤334、将j加1；

步骤335、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布；

步骤336、从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符，楼宇指示标识文本的字符序列Y中的第j个字符y_j即是所挑选概率最大的字符；

步骤337、将i、j分别加1，判断i是否大于137如果是，则本流程结束；如果否，则转向步骤332。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于深度学习技术的楼宇指示标识的文字识别方法，其特征在于，包括有：

步骤一进一步包括有：

步骤11进一步包含有：

2.根据权利要求1所述的方法，其特征在于，步骤12中，根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整，最后按调整后的角点坐标，从场景图片中重新截取出包含有楼宇指示标识文本的字符图片，进一步包括有：

步骤122、根据调整值Δh，计算调整后的字符图片高度和宽度：h′＝h+h*Δh，w′＝w+w*Δh，其中h、w分别是包含有楼宇指示标识文本的字符图片的高度、宽度，h′、w′分别是调整后的包含有楼宇指示标识文本的字符图片的高度、宽度；

3.根据权利要求1所述的方法，其特征在于，步骤二进一步包括有：

步骤24、对融合图片进行SRCNN放大算法处理。

4.根据权利要求1所述的方法，其特征在于，步骤三中的楼宇指示标识文本识别模型，通过获取用于楼宇指示的特定字典，设定数据集配置文件，从而批量生成文本识别数据集作为训练样本，进一步包括有：

步骤A1、获取字典，其中字典由楼宇指示标识文本中经常出现的字符：地域名、公司名字、数字、‘-’符号、和其他常见文字组成；

步骤A2、输入字典，并设置数据集配置文件，然后按数据集配置文件批量生成文本识别数据集，在数据集配置文件中定义计划生成的图片数量、基准字典的路径、生成文本的平均长度、生成文本的字体、图片背景效果处理、图片字符是否有上下偏移、生成图片的尺寸的配置信息，提前选取不同划痕情况的多张模板图片，并将模板图片进行反转、旋转的处理，然后将生成的文本图片在随机位置与划痕模板图片进行像素相减。

5.根据权利要求1所述的方法，其特征在于，楼宇指示标识文本识别模型的具体工作流程如下：

6.根据权利要求5所述的方法，其特征在于，步骤33中，13列特征图、26列特征图分别对应的字符概率分布序列为

其中，/>

分别是13列、26列特征图中的第i、j个时间片在输入LSTM后获得的字符概率分布，i∈[1，13]，j∈[1，26]，这样，计算楼宇指示标识文本的字符序列，进一步包括有：

步骤331、设定i＝1，j＝1；

步骤334、将j加1；

步骤337、将i、j分别加1，判断i是否大于13，如果是，则本流程结束；如果否，则转向步骤332。