CN112633287B - 一种面向矿井多源异构图文信息的文本识别方法及装置 - Google Patents

一种面向矿井多源异构图文信息的文本识别方法及装置 Download PDF

Info

Publication number
CN112633287B
CN112633287B CN202011566285.7A CN202011566285A CN112633287B CN 112633287 B CN112633287 B CN 112633287B CN 202011566285 A CN202011566285 A CN 202011566285A CN 112633287 B CN112633287 B CN 112633287B
Authority
CN
China
Prior art keywords
text
input image
original input
super
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011566285.7A
Other languages
English (en)
Other versions
CN112633287A (zh
Inventor
程德强
寇旗旗
江曼
郭林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202011566285.7A priority Critical patent/CN112633287B/zh
Publication of CN112633287A publication Critical patent/CN112633287A/zh
Application granted granted Critical
Publication of CN112633287B publication Critical patent/CN112633287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种面向矿井多源异构图文信息的文本识别方法及装置,属于计算机视觉技术领域,解决了现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。方法包括:获取包含矿井多源异构图文信息的原始输入图像;基于分割建议网络SPN对原始输入图像进行分割,得到原始输入图像的文本建议区域;对文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域;基于快速卷积神经网络Fast R‑CNN和超分辨率文本建议区域获取原始输入图像的文本检测框;基于循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。实现了原始输入图像中的矿井多源异构图文信息的识别。

Description

一种面向矿井多源异构图文信息的文本识别方法及装置
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种面向矿井多源异构图文信息的文本识别方法及装置。
背景技术
煤炭是我国国民经济发展的基础,但是井下作业环境复杂,工作人员及设备的监管调配难度大,且安全隐患较多,导致矿难频繁发生,研究井下安全生产的各类图文数据报表、关键设备铭牌及标识符的自动识别与录入,可以对煤矿井下环境中的人、设备的各种参数和作业状态进行实时监测和管理,有利于资源的合理调配与协作,且能更好的消除各种安全隐患,同时对矿难发生时的及时抢救,减少生命财产损失有着重要的意义。但是,当前煤矿井下各类图文数据信息的类型多样,通常包括汉字、英文字母、汉语拼音、数字及符号等多种类型的文本信息,这对实现井下各类生产的图文数据的自动录入带来了极大的挑战。因此,研究面向矿井多源异构图文信息的文本识别方法及装置是保证煤矿安全开采至关重要的环节。
多源异构图文信息的文本识别方法(Multilingual Scene Text Spotting):是指通过设计一种网络模型,对不同文本构成形式及呈现方式的场景图片中文本进行检测与识别。目前,现有的多源异构图文信息的文本识别方法存在的缺陷包括:第一、目前场景文本检测与识别大多是两阶段分开处理,先通过训练好的检测器对自然场景图片生成文本实例区域,再送入识别模块对实例区域内的文本进行识别两个阶段分开进行,识别速度慢,时间长,工作量大。第二、目前的研究成果主要针对水平或者定向的文本识别,但是现实世界场景中的文本实例可能是水平、定向,也可能是弯曲的。第三、目前的场景文本识别方法主要针对高清质量图片,但是面向矿井的多源异构图文场景文本通常存在图片灰暗模糊、图片质量低的问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种面向矿井多源异构图文信息的文本识别方法及装置,用以解决现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。
一方面,本发明实施例提供了一种面向矿井多源异构图文信息的文本识别方法,包括下述步骤:
获取包含矿井多源异构图文信息的原始输入图像;
基于分割建议网络SPN对所述原始输入图像进行分割,得到原始输入图像的文本建议区域;
对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域;
基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框;
基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
进一步,所述分割建议网络SPN包括:
卷积池化层,用于提取所述原始输入图像的特征映射;
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对所述连接裁剪层输出的多个特征映射进行融合,得到特征映射图;
归一化层,用于对所述融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对所述归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对所述二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域。
进一步,对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域,包括下述步骤:
基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1∈[0,1],p2∈[0,1],α为随机参数;
基于ResNet-50网络对所述文本特征图进行超分辨率恢复,得到超分辨率文本建议区域。
进一步,所述快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层,4个池化层,1个ROI池化层,2个全连接层和2个平级层。
进一步,基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框,包括下述步骤:
将所述超分辨率文本建议区域输入Fast R-CNN网络,获得超分辨率文本建议区域相对于实际文本区域的位置偏移量,所述实际文本区域为原始输入图像对应的文本区域;
基于偏移所述位置偏移量后的超分辨率文本建议区域获得分类得分,并进行分类得分排序,并将分类得分最高的区域作为文件检测框。
进一步,基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息,包括下述步骤:
将所述文本检测框扩展为文本检测框对应的特征图;
将所述文本检测框对应的特征图输入循环神经网络RNN中,获得原始输入图像中的矿井多源异构图文信息。
进一步,基于下述公式将文本检测框扩展为文本检测框对应的特征图:
Rt-1=(H,HR,WR)
H=(h0,h1,h2,h3,h4)
上式中,Rt-1为文本检测框对应特征图,HR为文本检测框的高度,WR为文本检测框的宽度;h1、h2、h3、h4、h5分别为循环神经网络RNN每个隐态层的神经元集合。
另一方面,本发明实施例提供了一种面向矿井多源异构图文信息的文本识别装置,包括:
原始图像获取模块,用于获取包含矿井多源异构图文信息的原始输入图像;
文本建议区域获取模块,用于根据分割建议网络SPN对所述原始输入图像进行分割,得到原始输入图像的文本建议区域;
文本建议区域改善模块,用于对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域;
文本检测框获取模块,用于根据快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框;
区域字符识别模块,用于根据循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
进一步,所述分割建议网络SPN包括:
卷积池化层,用于提取所述原始输入图像的特征映射;
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对所述连接裁剪层输出的多个特征映射进行融合,得到特征映射图;
归一化层,用于对所述融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对所述归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对所述二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域。
进一步,所述文本建议区域改善模块用于:
基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1∈[0,1],p2∈[0,1],α为随机参数;
基于ResNet-50网络对所述文本特征图进行超分辨率恢复,得到超分辨率文本建议区域。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、一种面向矿井多源异构图文信息的文本识别方法,首先通过分割建议网络SPN获取原始输入图像的文本建议区域。接着,对原始输入图像的文本建议区域进行特征提取,获取原始输入图像的超分辨率文本建议,将模糊图像恢复为高质量图像,有利于后期文本的识别。同时,采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理,获取原始输入图像的文本检测框,对文本的形状具有鲁棒性,最后采用循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息,提高了识别结果的精度,识别速度也更快。
2、通过分割建议网络SPN对原始输入图像进行分割,准确地表示了任意形状的文本轮廓,得到了原始输入图像的文本建议区域,为后期对原始输入图像中矿井多源异构图文信息的识别和提取提供了技术支撑和依据。
3、通过高斯模糊、4倍上下采样、ResNet-50网络中的超分辨率基础单元和上采样单元最终得到原始输入图像的超分辨率文本建议,解决了在灰暗环境中获取的场景图片中的图文信息模糊、不清晰或像素较低的问题,改善了图像的质量,有利于提高后期文本识别的精度,提高了文本检测框的质量。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为一个实施例中面向矿井多源异构图文信息的文本识别方法流程图;
图2为一个实施例中分割建议网络SPN结构图;
图3为一个实施例中快速卷积神经网络Fast R-CNN结构图;
图4为另一个实施例中面向矿井多源异构图文信息的文本识别装置结构图;
附图标记:
100-原始图像获取模块,200-文本建议区域获取模块,300-文本建议区域改善模块,400-文本检测框获取模块,500-区域字符识别模块。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
目前,现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。为此,本申请提出了一种面向矿井多源异构图文信息的文本识别方法及装置,首先通过分割建议网络SPN获取原始输入图像的文本建议区域,对原始输入图像的文本建议区域进行特征提取,获取原始输入图像的超分辨率文本建议,接着采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理,获取原始输入图像的文本检测框,最后采用循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。该方法简单易行,易于实施,通过多个网络的配合,提高了获得的多源异构图文信息精度和速度。
本发明的一个具体实施例,公开了一种面向矿井多源异构图文信息的文本识别方法,如图1所示,包括下述步骤S1~S5。
步骤S1、获取包含矿井多源异构图文信息的原始输入图像。具体来说,包含矿井多源异构图文信息的原始输入图像可以从煤矿井下的固定摄像机拍摄的视频图像中获取,也可以从煤矿井下的车载摄像机摄录的视频图像中获取。
步骤S2、基于分割建议网络SPN对原始输入图像进行分割,得到原始输入图像的文本建议区域。优选地,如图2所示,分割建议网络SPN包括:
卷积池化层,用于提取原始输入图像的特征映射。详细地,该卷积池化层基于卷积层和池化层实现。
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对连接裁剪层输出的多个特征映射进行融合,得到特征映射图。详细地,该融合层基于卷积层和上采样实现。
归一化层,用于对融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域。
具体来说,原始输入图像经过分割建议网络SPN的卷积池化层、连接裁剪层和融合层后,得到一张特征映射图F。原始输入图像大小为H×W,其中H和W分别是输入图像的高度和宽度,则特征映射图F的大小为特征映射图F经过归一化层进行归一化后得到预测的文本建议分割图S,预测的文本建议分割图S的大小为1×H×W,经过预测的文本建议分割图S中的像素值p是在[0,1]范围内变化的连续值。将文本建议分割图S二值化成多个特征映射图B,此处的特征映射图B即为文本区域。这里特征映射图B与文本建议分割图S的大小和输入图像的大小虽然相同都为H×W,但是特征映射图B已经由输入的原始输入图像变成只包含文本的区域。为了得到更精确的文本建议,通过像素修剪层继续修剪像素来缩小文本区域的范围,记修剪像素后产生文本建议区域D,则D=A(1-r2)/L,其中A和L分别代表特征映射图B的多边形周长,r为收缩比,本实施例中取为r=0.4。
通过分割建议网络SPN对原始输入图像进行分割,准确地表示了任意形状的文本轮廓,得到了原始输入图像的文本建议区域,为后期对原始输入图像中矿井多源异构图文信息的提取提供了技术支撑和依据。
步骤S3、对文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议,包括下述步骤:
步骤S301、基于高斯模糊和4倍上下采样对文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1∈[0,1],p2∈[0,1],α为随机参数;
步骤S302、基于ResNet-50网络对文本特征图进行超分辨率恢复,得到超分辨率文本建议区域。具体的,通过ResNet-50网络中的超分辨率基础单元和上采样单元对步骤S301得到的文本特征图进行超分辨率恢复,即可得到超分辨率文本建议区域,公式如下:
P=fsr(DP)
上式中,P为超分辨率文本建议区域,fsr()表示超分辨率恢复,Dp为文本特征图。
通过高斯模糊、4倍上下采样、ResNet-50网络中的超分辨率基础单元和上采样单元最终得到原始输入图像的超分辨率文本建议,解决了在灰暗环境中获取的场景图片中的图文信息模糊、不清晰和像素较低的问题,改善了图像的质量,有利于提高后期文本识别的精度,提高了文本检测框的质量。
步骤S4、基于快速卷积神经网络Fast R-CNN和超分辨率文本建议区域获取原始输入图像的文本检测框,包括下述步骤:
步骤S401、将超分辨率文本建议区域输入Fast R-CNN网络,获得超分辨率文本建议区域相对于实际文本区域的位置偏移量,实际文本区域为原始输入图像对应的文本区域。具体来说,如图3所示,快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层,4个池化层,1个ROI池化层,2个全连接层和2个平级层。其中,超分辨率文本建议区域输入快速卷积神经网络Fast R-CNN后,首先经过13个卷积层和4个池化层,得到特征图,接着ROI池化层将步骤S3中输出的多个超分辨率文本建议区域池化到固定大小,并经过第一个全连接层得到固定大小的特征向量,最后在其中的一个平级层(回归器)中获得每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量,接着另外一个平级层(分类器)基于每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量得到最终的文本检测框。其中,分类器基于每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量得到最终的文本检测框参见下述流程。
步骤S402、基于偏移位置偏移量后的超分辨率文本建议区域获得分类得分,并进行分类得分排序,并将分类得分最高的区域作为文件检测框。具体来说,分类器能够获得偏移位置偏移量后的超分辨率文本建议区域的分类得分,并对分类得分进行排序,分类得分最高的区域就是原始输入图像的文件检测框。
超分辨率文本建议区域经过快速卷积神经网络Fast R-CNN后,生成了更加准确的文本检测框,为后续的矿井多源异构图文信息的识别提供了准确的区域。
步骤S5、基于循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。具体来说,文本检测框中的字符可详细划分为中文、英文、数字以及标识符,循环神经网络RNN能够识别并提取文本检测框中的中文、英文和数字,同时剔除标识符。
步骤S501、将文本检测框扩展为文本检测框对应的特征图,公式如下述所示:
Rt-1=(H,HR,WR)
H=(h0,h1,h2,h3,h4)
上式中,Rt-1为文本检测框对应特征图,HR为文本检测框的高度,WR为文本检测框的宽度;h1、h2、h3、h4、h5分别为循环神经网络RNN每个隐态层的神经元集合。
步骤S502、将文本检测框对应的特征图输入循环神经网络RNN中,获得原始输入图像中的矿井多源异构图文信息,公式如下:
ht=f(ZRt-1+Wht-1+b)
yt=softmax(Vht+c)
上式中,ht为循环神经网络RNN每层的隐态值,f()表示激活函数,Z为输入的文本检测框的权重矩阵,W为循环神经网络RNN中上一层的输出值作为这一次的输入的权重矩阵,softmax()表示归一化指数函数,yt为输出的矿井多源异构图文信息,V为输出层的权重矩阵,b和c均为隐态层与输出层的参数,可基于网络训练得到。
由于循环神经网络RNN能够对任意不规则的文本都能精准识别,通过循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息,达到了更好识别的效果。
与现有技术相比,本实施例提供的面向矿井多源异构图文信息的文本识别方法,首先通过分割建议网络SPN获取原始输入图像的文本建议区域。接着,对原始输入图像的文本建议区域进行特征提取,获取原始输入图像的超分辨率文本建议,将模糊图像恢复为高质量图像,有利于后期文本的识别。同时,采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理,获取原始输入图像的文本检测框,对文本的形状具有鲁棒性,最后采用循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。提高了识别结果的精度,识别速度也更快。
本发明的另一个具体实施例,公开了一种面向矿井多源异构图文信息的文本识别装置,如图4所示,包括:
原始图像获取模块100,用于获取包含矿井多源异构图文信息的原始输入图像;
文本建议区域获取模块200,用于根据分割建议网络SPN对原始输入图像进行分割,得到原始输入图像的文本建议区域;
文本建议区域改善模块300,用于对文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域;
文本检测框获取模块400,用于根据快速卷积神经网络Fast R-CNN和超分辨率文本建议区域获取原始输入图像的文本检测框;
区域字符识别模块500,用于根据循环神经网络RNN提取文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
由于面向矿井多源异构图文信息的文本识别装置与前述实施例中的面向矿井多源异构图文信息的文本识别方法的实现原理相同,故这里不再赘述。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种面向矿井多源异构图文信息的文本识别方法,其特征在于,包括下述步骤:
获取包含矿井多源异构图文信息的原始输入图像;
基于分割建议网络SPN对所述原始输入图像进行分割,得到原始输入图像的文本建议区域;
所述分割建议网络SPN包括:
卷积池化层,用于提取所述原始输入图像的特征映射;
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对所述连接裁剪层输出的多个特征映射进行融合,得到特征映射图;
归一化层,用于对所述融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对所述归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对所述二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域;
对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域,包括下述步骤:
基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1∈[0,1],p2∈[0,1],α为随机参数;
基于ResNet-50网络对所述文本特征图进行超分辨率恢复,得到超分辨率文本建议区域,包括:通过ResNet-50网络中的超分辨率基础单元和上采样单元对得到的文本特征图进行超分辨率恢复,得到超分辨率文本建议区域,公式如下:
P=fsr(DP)
上式中,P为超分辨率文本建议区域,fsr()表示超分辨率恢复,Dp为文本特征图;
基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框;
基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
2.根据权利要求1所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,所述快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层,4个池化层,1个ROI池化层,2个全连接层和2个平级层。
3.根据权利要求2所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框,包括下述步骤:
将所述超分辨率文本建议区域输入Fast R-CNN网络,获得超分辨率文本建议区域相对于实际文本区域的位置偏移量,所述实际文本区域为原始输入图像对应的文本区域;
基于偏移所述位置偏移量后的超分辨率文本建议区域获得分类得分,并进行分类得分排序,并将分类得分最高的区域作为文件检测框。
4.根据权利要求3所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,基于循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息,包括下述步骤:
将所述文本检测框扩展为文本检测框对应的特征图;
将所述文本检测框对应的特征图输入循环神经网络RNN中,获得原始输入图像中的矿井多源异构图文信息。
5.根据权利要求4所述的面向矿井多源异构图文信息的文本识别方法,其特征在于,基于下述公式将文本检测框扩展为文本检测框对应的特征图:
Rt-1=(H,HR,WR)
H=(h0,h1,h2,h3,h4)
上式中,Rt-1为文本检测框对应特征图,HR为文本检测框的高度,WR为文本检测框的宽度;h1、h2、h3、h4、h5分别为循环神经网络RNN每个隐态层的神经元集合。
6.一种面向矿井多源异构图文信息的文本识别装置,其特征在于,包括:
原始图像获取模块,用于获取包含矿井多源异构图文信息的原始输入图像;
文本建议区域获取模块,用于根据分割建议网络SPN对所述原始输入图像进行分割,得到原始输入图像的文本建议区域;所述分割建议网络SPN包括:
卷积池化层,用于提取所述原始输入图像的特征映射;
连接裁剪层,用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪,得到多个特征映射;
融合层,用于对所述连接裁剪层输出的多个特征映射进行融合,得到特征映射图;
归一化层,用于对所述融合层输出的特征映射图进行归一化,得到文本建议分割图;
二值化层,用于对所述归一化层输出的文本建议分割图进行二值化,得到多个特征映射图;
像素修剪层,用于对所述二值化层输出的每一个特征映射图分别进行像素修剪,得到每一个特征映射图对应的文本建议区域;
文本建议区域改善模块,用于对所述文本建议区域进行特征提取,得到原始输入图像的超分辨率文本建议区域,包括下述步骤:
基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强,得到文本特征图,公式如下:
式中,Dp为文本特征图,D为文本建议区域,fgau()表示高斯模糊函数,fd-u()表示4倍上下采样,p1、p2均为文本建议区域D中的随机像素,且满足p1ζ[0,1],p2∈[0,1],α为随机参数;
基于ResNet-50网络对所述文本特征图进行超分辨率恢复,得到超分辨率文本建议区域,包括:通过ResNet-50网络中的超分辨率基础单元和上采样单元对得到的文本特征图进行超分辨率恢复,得到超分辨率文本建议区域,公式如下:
P=fsr(DP)
上式中,P为超分辨率文本建议区域,fsr()表示超分辨率恢复,Dp为文本特征图;
文本检测框获取模块,用于根据快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框;
区域字符识别模块,用于根据循环神经网络RNN提取所述文本检测框中的字符,得到原始输入图像中的矿井多源异构图文信息。
CN202011566285.7A 2020-12-25 2020-12-25 一种面向矿井多源异构图文信息的文本识别方法及装置 Active CN112633287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011566285.7A CN112633287B (zh) 2020-12-25 2020-12-25 一种面向矿井多源异构图文信息的文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011566285.7A CN112633287B (zh) 2020-12-25 2020-12-25 一种面向矿井多源异构图文信息的文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN112633287A CN112633287A (zh) 2021-04-09
CN112633287B true CN112633287B (zh) 2024-04-26

Family

ID=75325365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011566285.7A Active CN112633287B (zh) 2020-12-25 2020-12-25 一种面向矿井多源异构图文信息的文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN112633287B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118199A (zh) * 2021-09-01 2022-03-01 济宁安泰矿山设备制造有限公司 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108182413A (zh) * 2017-12-29 2018-06-19 中国矿业大学(北京) 一种矿井移动目标检测与跟踪识别方法
CN109410239A (zh) * 2018-11-07 2019-03-01 南京大学 一种基于条件生成对抗网络的文本图像超分辨率重建方法
KR102030628B1 (ko) * 2019-04-04 2019-10-10 (주)아이엠시티 Cnn 기반 차량 번호판 인식 방법 및 시스템
CN110598703A (zh) * 2019-09-24 2019-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
WO2023182713A1 (ko) * 2022-03-24 2023-09-28 (주)인포플라 인공지능 기반으로 텍스트 및 비-텍스트 이미지를 포함하는 화면 정보를 인지하여 화면 상의 오브젝트에 이벤트를 발생시키는 방법 및 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631479A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 基于非平衡学习的深度卷积网络图像标注方法及装置
CN108182413A (zh) * 2017-12-29 2018-06-19 中国矿业大学(北京) 一种矿井移动目标检测与跟踪识别方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN109410239A (zh) * 2018-11-07 2019-03-01 南京大学 一种基于条件生成对抗网络的文本图像超分辨率重建方法
KR102030628B1 (ko) * 2019-04-04 2019-10-10 (주)아이엠시티 Cnn 기반 차량 번호판 인식 방법 및 시스템
CN110598703A (zh) * 2019-09-24 2019-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
WO2023182713A1 (ko) * 2022-03-24 2023-09-28 (주)인포플라 인공지능 기반으로 텍스트 및 비-텍스트 이미지를 포함하는 화면 정보를 인지하여 화면 상의 오브젝트에 이벤트를 발생시키는 방법 및 시스템

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Method for Detecting Chinese Texts in Natural Scenes Based on Improved Faster R-CNN;Shuhua Liu,等;《International Journal of Pattern Recognition and Artificial Intelligence》;第1-17页 *
Optimal Power Control for Delay-Constraint Machine Type Communications over Cellular Uplinks;Guopeng Zhang,等;《COMMUNICATIONS LETTERS》;第1-5页 *
一种基于异构图网络的多模态实体识别方法;李代祎,等;《小型微型计算机系统》;第1-10页 *
融合层次特征和注意力机制的轻量化矿井图像 超分辨率重建方法;程德强,等;《仪器仪表学报》;第43卷(第8期);第73-84页 *

Also Published As

Publication number Publication date
CN112633287A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN105046196B (zh) 基于级联卷积神经网络的前车车辆信息结构化输出方法
CN104182750B (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN111695514B (zh) 一种基于深度学习的雾天下车辆检测方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN111160205B (zh) 一种交通场景嵌入式多类目标端对端统一检测方法
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN109753962B (zh) 基于混合网络的自然场景图像中文本区域的处理方法
CN108805018A (zh) 道路交通标志检测识别方法、电子设备、存储介质及系统
CN110956167B (zh) 一种基于定位字符的分类判别强化分离的方法
CN108009548A (zh) 一种智能路牌识别方法及系统
CN103065146A (zh) 用于电力通信机房哑设备标识牌的文字识别方法
CN106919939B (zh) 一种交通标识牌跟踪识别方法及系统
CN112016545A (zh) 一种包含文本的图像生成方法及装置
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112633287B (zh) 一种面向矿井多源异构图文信息的文本识别方法及装置
CN115240210A (zh) 一种用于手写汉字辅助练习的系统及方法
CN109508714B (zh) 一种低成本多通道实时数字仪表盘视觉识别方法及系统
CN114387610A (zh) 一种基于增强特征金字塔网络的任意形状场景文本检测方法
CN113011431A (zh) 一种基于MaskRCNN的汉字笔画分割提取方法及系统
CN111104944A (zh) 一种基于r-fcn的车牌字符检测及分割方法
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
CN111402223B (zh) 一种利用变电站视频图像的变电站缺陷问题检测方法
Tofani et al. Segmentation of text from color map images
Desai et al. A modified approach to thinning of Devanagri characters
Tupsounder et al. Automatic Recognition of Non-standard Number Plates using YOLOv8

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Cheng Deqiang

Inventor after: Kou Qiqi

Inventor after: Jiang Man

Inventor after: Guo Lin

Inventor before: Jiang Man

Inventor before: Guo Lin

Inventor before: Cheng Deqiang

Inventor before: Kou Qiqi

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20240326

Address after: 221116 No. 1 Tongshan University Road, Xuzhou City, Jiangsu Province

Applicant after: CHINA University OF MINING AND TECHNOLOGY

Country or region after: China

Address before: 221116 No. 1 Tongshan University Road, Xuzhou City, Jiangsu Province

Applicant before: CHINA University OF MINING AND TECHNOLOGY

Country or region before: China

Applicant before: Jiangsu Huatu Mining Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210409

Assignee: Xuzhou Zhongkuang Hengyang Technology Co.,Ltd.

Assignor: CHINA University OF MINING AND TECHNOLOGY

Contract record no.: X2024980014949

Denomination of invention: A text recognition method and device for multi-source heterogeneous graphic and textual information in mines

Granted publication date: 20240426

License type: Common License

Record date: 20240912

EE01 Entry into force of recordation of patent licensing contract