CN111626292B - 一种基于深度学习技术的楼宇指示标识的文字识别方法 - Google Patents

一种基于深度学习技术的楼宇指示标识的文字识别方法 Download PDF

Info

Publication number
CN111626292B
CN111626292B CN202010388458.4A CN202010388458A CN111626292B CN 111626292 B CN111626292 B CN 111626292B CN 202010388458 A CN202010388458 A CN 202010388458A CN 111626292 B CN111626292 B CN 111626292B
Authority
CN
China
Prior art keywords
character
text
picture
building
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010388458.4A
Other languages
English (en)
Other versions
CN111626292A (zh
Inventor
王玉龙
王明君
赵海秀
徐童
张乐剑
陈爽
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010388458.4A priority Critical patent/CN111626292B/zh
Publication of CN111626292A publication Critical patent/CN111626292A/zh
Application granted granted Critical
Publication of CN111626292B publication Critical patent/CN111626292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习技术的楼宇指示标识的文字识别方法,包括:采用检测网络对场景图片进行检测,获得楼宇指示标识文本的4个角点坐标,截取出字符图片;将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,获得融合图片;构建楼宇指示标识文本识别模型,输入融合图片,处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,获得楼宇指示标识文本。本发明属于信息技术领域,能实现对楼宇指示标识文本的准确识别。

Description

一种基于深度学习技术的楼宇指示标识的文字识别方法
技术领域
本发明涉及一种基于深度学习技术的楼宇指示标识的文字识别方法,属于信息技术领域。
背景技术
自然场景文字识别技术不同于传统OCR(光字符识别)技术,目前可以分成两个部分:文本检测与文字识别。
专利申请CN 201910112721.4(申请名称:一种仓库货架标识牌文字识别的自然场景文字识别方法,申请日:2019.02.13,申请人:东北大学)公开了一种仓库货架标识牌文字识别的自然场景文字识别方法,至少包括以下步骤:搭建待识别标识牌文本检测网络;所述待识别标识牌文本检测网络的具体结构为:来自VGG-16的13个卷积层,卷积层为10个特征提取的额外的卷积层的全卷积网络,以及6个连接到6个中间卷积层的文本框层;保留所述VGG-16的13个卷积层,将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。这个检测算法的预测结果为矩形框,不能用于文字区域有倾斜角度的场景中,而楼宇指示场景下的拍摄图片多有倾斜角度,因此该技术方案无法适用于对楼宇指示标识文本的识别。申请人未发现有其他用于对楼宇指示标识文本识别的现有技术。
因此,如何实现对楼宇指示标识文本的准确识别,已经成为技术人员普遍关注的技术问题。
发明内容
有鉴于此,本发明的目的是提供一种基于深度学习技术的楼宇指示标识的文字识别方法,能实现对楼宇指示标识文本的准确识别。
为了达到上述目的,本发明提供了一种基于深度学习技术的楼宇指示标识的文字识别方法,包括有:
步骤一、采用检测网络对场景图片进行检测,从而获得楼宇指示标识文本的4个角点坐标,按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,从而获得融合图片;
步骤三、构建楼宇指示标识文本识别模型,并输入融合图片,楼宇指示标识文本识别模型的处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,最终获得楼宇指示标识文本,
步骤一进一步包括有:
步骤11、使用ResNet网络提取场景图片的特征图,检测、并输出所有包含有字符的文字框,然后据此计算包含有楼宇指示标识文本的字符图片的角点坐标,最后从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤12、构建一个分类判别网络,其网络特征提取选用VGG16网络,并使用softmax分类函数,所述分类判别网络的输入是待检测图片,输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率,将包含有楼宇指示标识文本的字符图片输入至分类判别网络中,然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片,
步骤11进一步包含有:
步骤111、设定场景图片的多个尺度,使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图;
步骤112、设定不同尺度对应的特征权重,将每个尺度对应的特征图调整为其和特征权重相乘的积;
步骤113、将所有尺度对应的特征图采用U-net方法进行合并,并将合并后的特征图继续输入ResNet网络,以检测输出所有包含有字符的文字框信息,输出的每个文字框信息包括有文字框得分及文字框的4个角点坐标;
步骤114、将所有文字框采用非极大值抑制NMS,并剔除得分低于阈值的文字框,然后从所有文字框的角点坐标中挑选出横坐标的最小值Xmin和最大值Xmax、纵坐标的最小值Ymin和最大值Ymax,包含有楼宇指示标识文本的字符图片的左上角坐标即是(Xmin,Ymin),右下角坐标即是(Xmax,Ymax);
步骤115、使用PIL库的crop方法,按照包含有楼宇指示标识文本的字符图片的左上角和右下角坐标,从场景图片中截取出包含有楼宇指示标识文本的字符图片。
与现有技术相比,本发明的有益效果是:本发明通过检测可以获得文本任意四边形的角点坐标,从而避免了略倾斜字符区域的检测缺失,使得检测效果更加精确,且送入识别网络的文本图片更加完整,有效提高识别准确率;由于场景文本具有文本倾斜且字体过小的特点,本发明将MORN网络矫正后的图片和与传统的霍夫直线检测变换后的图片使用全景技术中的融合方法相结合,从而能得到更加准确的矫正图片,且针对字符较小的特点将图像超分辨率方法引入到待识别图像的预处理中,使得识别网络输出结果更加准确;现有的场景文字识别方法所使用的识别数据集都是基于公共数据集,从而导致数据集针对性不强、特定场景下的识别效果不佳,本发明进一步设计了一个具有针对性的用于楼宇指示的文本识别数据集生成方法;本发明的整体方案充分适用于楼宇指示标识的文本识别。
附图说明
图1是本发明一种基于深度学习技术的楼宇指示标识的文字识别方法的流程图。
图2是图1步骤一的具体步骤流程图。
图3是图2步骤11的具体步骤流程图。
图4是图1步骤二的具体步骤流程图。
图5是楼宇指示标识文本识别模型的具体工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
如图1所示,本发明一种基于深度学习技术的楼宇指示标识的文字识别方法,包括有:
步骤一、采用检测网络对场景图片进行检测,从而获得楼宇指示标识文本的4个角点坐标,按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,从而获得融合图片;
步骤三、构建楼宇指示标识文本识别模型,并输入融合图片,楼宇指示标识文本识别模型的处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,最终获得楼宇指示标识文本。
如图2所示,步骤一可以进一步包括有:
步骤11、使用ResNet网络提取场景图片的特征图,检测、并输出所有包含有字符的文字框,然后据此计算包含有楼宇指示标识文本的字符图片的角点坐标,最后从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤12、构建一个分类判别网络,其网络特征提取选用VGG16网络,并使用softmax分类函数,所述分类判别网络的输入是待检测图片,输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率,将包含有楼宇指示标识文本的字符图片输入至分类判别网络中,然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。考虑到检测文字框时会出现文字边缘检测不全的情况,本发明通过分类判别网络识别边缘存在缺失的文本框后,再进一步扩大图片的截取范围。
如图3所示,步骤11可以进一步包含有:
步骤111、设定场景图片的多个尺度,所述尺度可以包括但不限于:
Figure GDA0004158241220000041
使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图;
步骤112、设定不同尺度对应的特征权重,将每个尺度对应的特征图调整为其和特征权重相乘的积;考虑到楼宇指示标识文本存在普遍字体较小的特点,通过引入权重设置,将
Figure GDA0004158241220000042
Figure GDA0004158241220000043
这几种特征图分别乘以不同的权重值3、2、1、1,可以加强对小尺度文本的检测能力;
步骤113、将所有尺度对应的特征图采用U-net方法进行合并,并将合并后的特征图继续输入ResNet网络,以检测输出所有包含有字符的文字框信息,输出的每个文字框信息包括有文字框得分及文字框的4个角点坐标;
步骤114、将所有文字框采用非极大值抑制(NMS),并剔除得分低于阈值的文字框,然后从所有文字框的角点坐标中挑选出横坐标的最小值Xmin和最大值Xmax、纵坐标的最小值Ymin和最大值Ymax,包含有楼宇指示标识文本的字符图片的左上角坐标即是(Xmin,Ymin),右下角坐标即是(Xmax,Ymax);
步骤115、使用PIL库的crop方法,按照包含有楼宇指示标识文本的字符图片的左上角和右下角坐标,从场景图片中截取出包含有楼宇指示标识文本的字符图片。
步骤12中,根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片,可以进一步包括有:
步骤121、根据分类判别网络的输出结果,计算调整值Δh,即当输出结果为无缺失时,Δh为0,当输出结果为微少缺失时,Δh为0.05,当输出结果为无缺失时,Δh为0.1;
步骤122、根据调整值Δh,计算调整后的字符图片高度和宽度:h′=h+h*Δh,w′=w+w*Δ,其中h、w分别是包含有楼宇指示标识文本的字符图片的高度、宽度,h′、w′分别是调整后的包含有楼宇指示标识文本的字符图片的高度、宽度;
步骤123、以包含有楼宇指示标识文本的字符图片框为中心,根据调整后的字符图片高度、宽度,调整字符图片的角点坐标,然后从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。
如图4示,步骤二可以进一步包括有:
步骤21、将包含有楼宇指示标识文本的字符图片输入MORAN网络的MORN网络,MORN网络对字符图片中每个像素点的坐标进行调整,并输出调整后的矫正图片;
关于MORAN网络,可以参见CVPR2019论文《MORAN:A Multi-Object RectifiedAttention Network for Scene Text Recognition》,其中,MORN网络是应用于MORAN网络的预处理子网络,被论文用于对英文艺术字进行矫正,本发明通过MORN网络来对楼宇指示标识文本中的中文进行矫正,由于MORN网络的结构已在论文中具体描述,不在此赘述。包含有楼宇指示标识文本的字符图片在进入MORN网络后会保存一个基础网格basic grid,用于记录字符图片原始的像素位置信息,而通过补充网络,会生成一个同尺寸的偏移图,偏移图中定义了输入图像坐标(x1,y1)到输出图像坐标(x2,y2)的可微分映射。因此,通过网络矫正后,输入图片的(x1,y1)点的像素变为输出图片的(x2,y2)点的像素。由于图片的每个像素点经过调整后得到的(x2,y2)并不是整数且分布不均匀,因此MORN网络还应用OpenCV中提供的双线性插值法去调整输出图片,进而得到调整后的矫正图片;
步骤22、使用霍夫直线检测原理,将包含有楼宇指示标识文本的字符图片转换为灰度图,去噪并进行边缘提取,二值化后再将字符图片映射到霍夫空间,选取局部极大值并设定阈值,以检测出字符方向的直线,然后对直线角度取平均值作为旋转角度,最后按照该旋转角度对字符图片中的倾斜字符进行矫正,从而得到霍夫直线变换后的图片;
步骤23、将MORN网络输出的矫正图片和霍夫直线变换后的图片采用全景图像融合的image stitch方法进行图像融合,从而获得融合图片;
本发明使用image stitch方法通过映射融合两张相似图片,从而能将传统矫正方法与神经网络完整融合,充分提高融合图片的矫正效果;
步骤24、对融合图片进行SRCNN放大算法处理,SRCNN放大算法效果优于常规的双线性插值等方法,从而能针对性解决楼宇标识中标识文本字符较小的问题,得到尺寸更大的图片作为最终输入识别网络的图片。
步骤三中的楼宇指示标识文本识别模型,可以通过获取用于楼宇指示的特定字典,设定数据集配置文件,从而批量生成文本识别数据集作为训练样本,进一步包括有:
步骤A1、获取字典,其中字典可以由楼宇指示标识文本中经常出现的字符:地域名、公司名字、数字、‘-’符号、和其他常见文字组成,其中地域名、公司名字采用爬虫获取真实公司名及地名,数字及符号按照楼层标识如“A-802”格式随机生成,此外还可以采用小说中的文本作为其他文字,随机截取其中的每4-15字符作为其他常见文字字典;
步骤A2、输入字典,并设置数据集配置文件,然后按数据集配置文件批量生成文本识别数据集。在数据集配置文件中可以定义计划生成的图片数量、基准字典的路径、生成文本的平均长度(字符个数)、生成文本的字体、图片背景效果处理(像素表现,划痕等)、图片字符是否有上下偏移、生成图片的尺寸等配置信息。可以提前选取不同划痕情况20-25张模板图片,并将模板图片进行反转、旋转等处理,然后将生成的文本图片在随机位置与划痕模板图片进行像素相减。这样,修改数据集配置文件后,即可在目标文件夹下生成所需数据,生成的图片文字内容为真实的公司名称,并采用不同字体模仿真正的楼宇指示标识情况,且应用划痕模板加入划痕处理效果以贴近真实标识图片,此外,图片中字符的上下偏移模仿了字体的偏移及倾斜效果,针对性的数据集生成系统保证了数据集的完整。
如图5所示,楼宇指示标识文本识别模型的具体工作流程如下:
步骤31、使用CNN从融合图片中提取图片特征,分别获得1个13列特征图和1个26列特征图;
步骤32、分别将13列特征图和26列特征图的每列作为一个时间片输入到LSTM中,每列长度为512,即分别向LSTM输入13个时间片与26个时间片,以通过LSTM捕获上下文信息,LSTM分别输出13列特征图和26列特征图对应的字符概率分布序列;
步骤33、根据13列特征图和26列特征图对应的字符概率分布序列,计算楼宇指示标识文本的字符序列;
步骤34、对楼宇指示标识文本的字符序列中每一个时间片对应的输出结果进行argmax()操作,即可获得每一列输出字符的类别,然后使用CTC Loss去掉空白字符,从而获得最终的楼宇指示标识文本。
步骤33中,13列特征图、26列特征图分别对应的字符概率分布序列为
Figure GDA0004158241220000061
其中,/>
Figure GDA0004158241220000062
分别是13列、26列特征图中的第i、j个时间片在输入LSTM后获得的字符概率分布,i∈[1,13],j∈[1,26],这样,计算楼宇指示标识文本的字符序列,可以进一步包括有:
步骤331、设定i=1,j=1;
步骤332、从13列特征图对应的字符概率分布序列中提取第i个字符概率分布;
步骤333、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布,从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符,楼宇指示标识文本的字符序列Y中的第j个字符yj即是所挑选概率最大的字符;
步骤334、将j加1;
步骤335、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布;
步骤336、从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符,楼宇指示标识文本的字符序列Y中的第j个字符yj即是所挑选概率最大的字符;
步骤337、将i、j分别加1,判断i是否大于137如果是,则本流程结束;如果否,则转向步骤332。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种基于深度学习技术的楼宇指示标识的文字识别方法,其特征在于,包括有:
步骤一、采用检测网络对场景图片进行检测,从而获得楼宇指示标识文本的4个角点坐标,按照角点坐标从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤二、将字符图片分别输入MORN网络和进行霍夫直线处理,并将MORN网络矫正后的图片和霍夫直线变换后的图片进行图像融合,从而获得融合图片;
步骤三、构建楼宇指示标识文本识别模型,并输入融合图片,楼宇指示标识文本识别模型的处理流程如下:先将融合图片使用经典卷积神经网络CNN提取特征图,然后将特征图的每列作为一个时间片输入到长短期记忆网络LSTM中,并输出得到每个时间片对应的文本字符类别,采用损失函数Loss去除空白字符后,最终获得楼宇指示标识文本,
步骤一进一步包括有:
步骤11、使用ResNet网络提取场景图片的特征图,检测、并输出所有包含有字符的文字框,然后据此计算包含有楼宇指示标识文本的字符图片的角点坐标,最后从场景图片中截取出包含有楼宇指示标识文本的字符图片;
步骤12、构建一个分类判别网络,其网络特征提取选用VGG16网络,并使用softmax分类函数,所述分类判别网络的输入是待检测图片,输出是待检测图片属于无缺失、微少缺失、有缺失3类结果的概率,将包含有楼宇指示标识文本的字符图片输入至分类判别网络中,然后根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片,
步骤11进一步包含有:
步骤111、设定场景图片的多个尺度,使用ResNet网络从多个尺度下的场景图片中分别抽取各自对应的特征图;
步骤112、设定不同尺度对应的特征权重,将每个尺度对应的特征图调整为其和特征权重相乘的积;
步骤113、将所有尺度对应的特征图采用U-net方法进行合并,并将合并后的特征图继续输入ResNet网络,以检测输出所有包含有字符的文字框信息,输出的每个文字框信息包括有文字框得分及文字框的4个角点坐标;
步骤114、将所有文字框采用非极大值抑制NMS,并剔除得分低于阈值的文字框,然后从所有文字框的角点坐标中挑选出横坐标的最小值Xmin和最大值Xmax、纵坐标的最小值Ymin和最大值Ymax,包含有楼宇指示标识文本的字符图片的左上角坐标即是(Xmin,Ymin),右下角坐标即是(Xmax,Ymax);
步骤115、使用PIL库的crop方法,按照包含有楼宇指示标识文本的字符图片的左上角和右下角坐标,从场景图片中截取出包含有楼宇指示标识文本的字符图片。
2.根据权利要求1所述的方法,其特征在于,步骤12中,根据分类判别网络的输出结果对包含有楼宇指示标识文本的字符图片的角点坐标进行调整,最后按调整后的角点坐标,从场景图片中重新截取出包含有楼宇指示标识文本的字符图片,进一步包括有:
步骤121、根据分类判别网络的输出结果,计算调整值Δh,即当输出结果为无缺失时,Δh为0,当输出结果为微少缺失时,Δh为0.05,当输出结果为无缺失时,Δh为0.1;
步骤122、根据调整值Δh,计算调整后的字符图片高度和宽度:h′=h+h*Δh,w′=w+w*Δh,其中h、w分别是包含有楼宇指示标识文本的字符图片的高度、宽度,h′、w′分别是调整后的包含有楼宇指示标识文本的字符图片的高度、宽度;
步骤123、以包含有楼宇指示标识文本的字符图片框为中心,根据调整后的字符图片高度、宽度,调整字符图片的角点坐标,然后从场景图片中重新截取出包含有楼宇指示标识文本的字符图片。
3.根据权利要求1所述的方法,其特征在于,步骤二进一步包括有:
步骤21、将包含有楼宇指示标识文本的字符图片输入MORAN网络的MORN网络,MORN网络对字符图片中每个像素点的坐标进行调整,并输出调整后的矫正图片;
步骤22、使用霍夫直线检测原理,将包含有楼宇指示标识文本的字符图片转换为灰度图,去噪并进行边缘提取,二值化后再将字符图片映射到霍夫空间,选取局部极大值并设定阈值,以检测出字符方向的直线,然后对直线角度取平均值作为旋转角度,最后按照该旋转角度对字符图片中的倾斜字符进行矫正,从而得到霍夫直线变换后的图片;
步骤23、将MORN网络输出的矫正图片和霍夫直线变换后的图片采用全景图像融合的image stitch方法进行图像融合,从而获得融合图片;
步骤24、对融合图片进行SRCNN放大算法处理。
4.根据权利要求1所述的方法,其特征在于,步骤三中的楼宇指示标识文本识别模型,通过获取用于楼宇指示的特定字典,设定数据集配置文件,从而批量生成文本识别数据集作为训练样本,进一步包括有:
步骤A1、获取字典,其中字典由楼宇指示标识文本中经常出现的字符:地域名、公司名字、数字、‘-’符号、和其他常见文字组成;
步骤A2、输入字典,并设置数据集配置文件,然后按数据集配置文件批量生成文本识别数据集,在数据集配置文件中定义计划生成的图片数量、基准字典的路径、生成文本的平均长度、生成文本的字体、图片背景效果处理、图片字符是否有上下偏移、生成图片的尺寸的配置信息,提前选取不同划痕情况的多张模板图片,并将模板图片进行反转、旋转的处理,然后将生成的文本图片在随机位置与划痕模板图片进行像素相减。
5.根据权利要求1所述的方法,其特征在于,楼宇指示标识文本识别模型的具体工作流程如下:
步骤31、使用CNN从融合图片中提取图片特征,分别获得1个13列特征图和1个26列特征图;
步骤32、分别将13列特征图和26列特征图的每列作为一个时间片输入到LSTM中,每列长度为512,即分别向LSTM输入13个时间片与26个时间片,以通过LSTM捕获上下文信息,LSTM分别输出13列特征图和26列特征图对应的字符概率分布序列;
步骤33、根据13列特征图和26列特征图对应的字符概率分布序列,计算楼宇指示标识文本的字符序列;
步骤34、对楼宇指示标识文本的字符序列中每一个时间片对应的输出结果进行argmax()操作,即可获得每一列输出字符的类别,然后使用CTC Loss去掉空白字符,从而获得最终的楼宇指示标识文本。
6.根据权利要求5所述的方法,其特征在于,步骤33中,13列特征图、26列特征图分别对应的字符概率分布序列为
Figure FDA0004158241210000031
其中,/>
Figure FDA0004158241210000032
分别是13列、26列特征图中的第i、j个时间片在输入LSTM后获得的字符概率分布,i∈[1,13],j∈[1,26],这样,计算楼宇指示标识文本的字符序列,进一步包括有:
步骤331、设定i=1,j=1;
步骤332、从13列特征图对应的字符概率分布序列中提取第i个字符概率分布;
步骤333、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布,从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符,楼宇指示标识文本的字符序列Y中的第j个字符yj即是所挑选概率最大的字符;
步骤334、将j加1;
步骤335、从26列特征图对应的字符概率分布序列中提取第j个字符概率分布;
步骤336、从第i个字符概率分布和第j个字符概率分布中挑选概率最大的字符,楼宇指示标识文本的字符序列Y中的第j个字符yj即是所挑选概率最大的字符;
步骤337、将i、j分别加1,判断i是否大于13,如果是,则本流程结束;如果否,则转向步骤332。
CN202010388458.4A 2020-05-09 2020-05-09 一种基于深度学习技术的楼宇指示标识的文字识别方法 Active CN111626292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010388458.4A CN111626292B (zh) 2020-05-09 2020-05-09 一种基于深度学习技术的楼宇指示标识的文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010388458.4A CN111626292B (zh) 2020-05-09 2020-05-09 一种基于深度学习技术的楼宇指示标识的文字识别方法

Publications (2)

Publication Number Publication Date
CN111626292A CN111626292A (zh) 2020-09-04
CN111626292B true CN111626292B (zh) 2023-06-30

Family

ID=72259890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010388458.4A Active CN111626292B (zh) 2020-05-09 2020-05-09 一种基于深度学习技术的楼宇指示标识的文字识别方法

Country Status (1)

Country Link
CN (1) CN111626292B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734647A (zh) * 2021-01-20 2021-04-30 支付宝(杭州)信息技术有限公司 图像处理方法和装置
CN112766263B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对多层控股关系股份图的识别方法
CN112766262B (zh) * 2021-01-21 2024-02-02 西安理工大学 一种针对单层一对多和多对一股份图的识别方法
CN116958998B (zh) * 2023-09-20 2023-12-26 四川泓宝润业工程技术有限公司 一种基于深度学习的数字仪表读数的识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN109993162A (zh) * 2019-03-01 2019-07-09 昆明理工大学 基于卷积神经网络的老挝语印刷体文本光学字符识别方法
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110796138A (zh) * 2019-10-15 2020-02-14 湖北工业大学 一种基于显性矫正机制的不规则场景文字识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006059663B4 (de) * 2006-12-18 2008-07-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und Computerprogramm zum Identifizieren eines Verkehrszeichens in einem Bild

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993160A (zh) * 2019-02-18 2019-07-09 北京联合大学 一种图像矫正及文本与位置识别方法及系统
CN109993162A (zh) * 2019-03-01 2019-07-09 昆明理工大学 基于卷积神经网络的老挝语印刷体文本光学字符识别方法
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN110796138A (zh) * 2019-10-15 2020-02-14 湖北工业大学 一种基于显性矫正机制的不规则场景文字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘小波等.基于的变电站巡检机器人数字仪表识别算法.2019 年江西省电机工程学会年会论文集.2019,全文. *

Also Published As

Publication number Publication date
CN111626292A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN109241894B (zh) 一种基于表格定位和深度学习的票据内容识别系统和方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
CN113128442B (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
CN110659574A (zh) 文档图像勾选框状态识别后输出文本行内容的方法及系统
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN111783757A (zh) 一种基于ocr技术的复杂场景下身份证识别方法
CN113537227B (zh) 一种结构化文本识别方法及系统
Tardón et al. Optical music recognition for scores written in white mensural notation
CN111523622B (zh) 基于特征图像自学习的机械臂模拟手写笔迹方法
CN111553346A (zh) 一种基于字符区域感知的场景文本检测方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN113139535A (zh) 一种ocr文档识别方法
CN115880566A (zh) 一种基于视觉分析的智能阅卷系统
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
Ovodov Optical Braille recognition using object detection neural network
CN113971805A (zh) 一种结合机器视觉和语义分析的智能阅卷评分方法
CN108052955B (zh) 一种高精度盲文识别方法及系统
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
Ovodov Optical Braille recognition using object detection CNN
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN115731550A (zh) 一种基于深度学习的药品说明书自动识别方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant