CN112633287B

CN112633287B - 一种面向矿井多源异构图文信息的文本识别方法及装置

Info

Publication number: CN112633287B
Application number: CN202011566285.7A
Authority: CN
Inventors: 程德强; 寇旗旗; 江曼; 郭林
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2024-04-26
Anticipated expiration: 2040-12-25
Also published as: CN112633287A

Abstract

本发明涉及一种面向矿井多源异构图文信息的文本识别方法及装置，属于计算机视觉技术领域，解决了现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。方法包括：获取包含矿井多源异构图文信息的原始输入图像；基于分割建议网络SPN对原始输入图像进行分割，得到原始输入图像的文本建议区域；对文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域；基于快速卷积神经网络Fast R‑CNN和超分辨率文本建议区域获取原始输入图像的文本检测框；基于循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。实现了原始输入图像中的矿井多源异构图文信息的识别。

Description

一种面向矿井多源异构图文信息的文本识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种面向矿井多源异构图文信息的文本识别方法及装置。

背景技术

煤炭是我国国民经济发展的基础，但是井下作业环境复杂，工作人员及设备的监管调配难度大，且安全隐患较多，导致矿难频繁发生，研究井下安全生产的各类图文数据报表、关键设备铭牌及标识符的自动识别与录入，可以对煤矿井下环境中的人、设备的各种参数和作业状态进行实时监测和管理，有利于资源的合理调配与协作，且能更好的消除各种安全隐患，同时对矿难发生时的及时抢救，减少生命财产损失有着重要的意义。但是，当前煤矿井下各类图文数据信息的类型多样，通常包括汉字、英文字母、汉语拼音、数字及符号等多种类型的文本信息，这对实现井下各类生产的图文数据的自动录入带来了极大的挑战。因此，研究面向矿井多源异构图文信息的文本识别方法及装置是保证煤矿安全开采至关重要的环节。

多源异构图文信息的文本识别方法(Multilingual Scene Text Spotting)：是指通过设计一种网络模型，对不同文本构成形式及呈现方式的场景图片中文本进行检测与识别。目前，现有的多源异构图文信息的文本识别方法存在的缺陷包括：第一、目前场景文本检测与识别大多是两阶段分开处理，先通过训练好的检测器对自然场景图片生成文本实例区域，再送入识别模块对实例区域内的文本进行识别两个阶段分开进行，识别速度慢，时间长，工作量大。第二、目前的研究成果主要针对水平或者定向的文本识别，但是现实世界场景中的文本实例可能是水平、定向，也可能是弯曲的。第三、目前的场景文本识别方法主要针对高清质量图片，但是面向矿井的多源异构图文场景文本通常存在图片灰暗模糊、图片质量低的问题。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种面向矿井多源异构图文信息的文本识别方法及装置，用以解决现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。

一方面，本发明实施例提供了一种面向矿井多源异构图文信息的文本识别方法，包括下述步骤：

获取包含矿井多源异构图文信息的原始输入图像；

基于分割建议网络SPN对所述原始输入图像进行分割，得到原始输入图像的文本建议区域；

对所述文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域；

基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框；

基于循环神经网络RNN提取所述文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。

进一步，所述分割建议网络SPN包括：

卷积池化层，用于提取所述原始输入图像的特征映射；

连接裁剪层，用于对所述卷积池化层输出的原始输入图像的特征映射进行裁剪，得到多个特征映射；

融合层，用于对所述连接裁剪层输出的多个特征映射进行融合，得到特征映射图；

归一化层，用于对所述融合层输出的特征映射图进行归一化，得到文本建议分割图；

二值化层，用于对所述归一化层输出的文本建议分割图进行二值化，得到多个特征映射图；

像素修剪层，用于对所述二值化层输出的每一个特征映射图分别进行像素修剪，得到每一个特征映射图对应的文本建议区域。

进一步，对所述文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域，包括下述步骤：

基于高斯模糊和4倍上下采样对所述文本建议区域进行特征增强，得到文本特征图，公式如下：

式中，D_p为文本特征图，D为文本建议区域，f_gau()表示高斯模糊函数，f_d-u()表示4倍上下采样，p₁、p₂均为文本建议区域D中的随机像素，且满足p₁∈[0,1]，p₂∈[0,1]，α为随机参数；

基于ResNet-50网络对所述文本特征图进行超分辨率恢复，得到超分辨率文本建议区域。

进一步，所述快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层，4个池化层，1个ROI池化层，2个全连接层和2个平级层。

进一步，基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框，包括下述步骤：

将所述超分辨率文本建议区域输入Fast R-CNN网络，获得超分辨率文本建议区域相对于实际文本区域的位置偏移量，所述实际文本区域为原始输入图像对应的文本区域；

基于偏移所述位置偏移量后的超分辨率文本建议区域获得分类得分，并进行分类得分排序，并将分类得分最高的区域作为文件检测框。

进一步，基于循环神经网络RNN提取所述文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息，包括下述步骤：

将所述文本检测框扩展为文本检测框对应的特征图；

将所述文本检测框对应的特征图输入循环神经网络RNN中，获得原始输入图像中的矿井多源异构图文信息。

进一步，基于下述公式将文本检测框扩展为文本检测框对应的特征图：

R_t-1＝(H,H_R,W_R)

H＝(h₀,h₁,h₂,h₃,h₄)

上式中，R_t-1为文本检测框对应特征图，H_R为文本检测框的高度，W_R为文本检测框的宽度；h₁、h₂、h₃、h₄、h₅分别为循环神经网络RNN每个隐态层的神经元集合。

另一方面，本发明实施例提供了一种面向矿井多源异构图文信息的文本识别装置，包括：

原始图像获取模块，用于获取包含矿井多源异构图文信息的原始输入图像；

文本建议区域获取模块，用于根据分割建议网络SPN对所述原始输入图像进行分割，得到原始输入图像的文本建议区域；

文本建议区域改善模块，用于对所述文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域；

文本检测框获取模块，用于根据快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框；

区域字符识别模块，用于根据循环神经网络RNN提取所述文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。

进一步，所述分割建议网络SPN包括：

卷积池化层，用于提取所述原始输入图像的特征映射；

进一步，所述文本建议区域改善模块用于：

与现有技术相比，本发明至少可实现如下有益效果之一：

1、一种面向矿井多源异构图文信息的文本识别方法，首先通过分割建议网络SPN获取原始输入图像的文本建议区域。接着，对原始输入图像的文本建议区域进行特征提取，获取原始输入图像的超分辨率文本建议，将模糊图像恢复为高质量图像，有利于后期文本的识别。同时，采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理，获取原始输入图像的文本检测框，对文本的形状具有鲁棒性，最后采用循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息，提高了识别结果的精度，识别速度也更快。

2、通过分割建议网络SPN对原始输入图像进行分割，准确地表示了任意形状的文本轮廓，得到了原始输入图像的文本建议区域，为后期对原始输入图像中矿井多源异构图文信息的识别和提取提供了技术支撑和依据。

3、通过高斯模糊、4倍上下采样、ResNet-50网络中的超分辨率基础单元和上采样单元最终得到原始输入图像的超分辨率文本建议，解决了在灰暗环境中获取的场景图片中的图文信息模糊、不清晰或像素较低的问题，改善了图像的质量，有利于提高后期文本识别的精度，提高了文本检测框的质量。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为一个实施例中面向矿井多源异构图文信息的文本识别方法流程图；

图2为一个实施例中分割建议网络SPN结构图；

图3为一个实施例中快速卷积神经网络Fast R-CNN结构图；

图4为另一个实施例中面向矿井多源异构图文信息的文本识别装置结构图；

附图标记：

100-原始图像获取模块，200-文本建议区域获取模块，300-文本建议区域改善模块，400-文本检测框获取模块，500-区域字符识别模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

目前，现有的多源异构图文信息的文本识别方法获得的多源异构图文信息精度较差且速度较慢的问题。为此，本申请提出了一种面向矿井多源异构图文信息的文本识别方法及装置，首先通过分割建议网络SPN获取原始输入图像的文本建议区域，对原始输入图像的文本建议区域进行特征提取，获取原始输入图像的超分辨率文本建议，接着采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理，获取原始输入图像的文本检测框，最后采用循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。该方法简单易行，易于实施，通过多个网络的配合，提高了获得的多源异构图文信息精度和速度。

本发明的一个具体实施例，公开了一种面向矿井多源异构图文信息的文本识别方法，如图1所示，包括下述步骤S1～S5。

步骤S1、获取包含矿井多源异构图文信息的原始输入图像。具体来说，包含矿井多源异构图文信息的原始输入图像可以从煤矿井下的固定摄像机拍摄的视频图像中获取，也可以从煤矿井下的车载摄像机摄录的视频图像中获取。

步骤S2、基于分割建议网络SPN对原始输入图像进行分割，得到原始输入图像的文本建议区域。优选地，如图2所示，分割建议网络SPN包括：

卷积池化层，用于提取原始输入图像的特征映射。详细地，该卷积池化层基于卷积层和池化层实现。

融合层，用于对连接裁剪层输出的多个特征映射进行融合，得到特征映射图。详细地，该融合层基于卷积层和上采样实现。

归一化层，用于对融合层输出的特征映射图进行归一化，得到文本建议分割图；

二值化层，用于对归一化层输出的文本建议分割图进行二值化，得到多个特征映射图；

像素修剪层，用于对二值化层输出的每一个特征映射图分别进行像素修剪，得到每一个特征映射图对应的文本建议区域。

具体来说，原始输入图像经过分割建议网络SPN的卷积池化层、连接裁剪层和融合层后，得到一张特征映射图F。原始输入图像大小为H×W，其中H和W分别是输入图像的高度和宽度，则特征映射图F的大小为特征映射图F经过归一化层进行归一化后得到预测的文本建议分割图S，预测的文本建议分割图S的大小为1×H×W，经过预测的文本建议分割图S中的像素值p是在[0,1]范围内变化的连续值。将文本建议分割图S二值化成多个特征映射图B，此处的特征映射图B即为文本区域。这里特征映射图B与文本建议分割图S的大小和输入图像的大小虽然相同都为H×W，但是特征映射图B已经由输入的原始输入图像变成只包含文本的区域。为了得到更精确的文本建议，通过像素修剪层继续修剪像素来缩小文本区域的范围，记修剪像素后产生文本建议区域D，则D＝A(1-r²)/L，其中A和L分别代表特征映射图B的多边形周长，r为收缩比，本实施例中取为r＝0.4。

通过分割建议网络SPN对原始输入图像进行分割，准确地表示了任意形状的文本轮廓，得到了原始输入图像的文本建议区域，为后期对原始输入图像中矿井多源异构图文信息的提取提供了技术支撑和依据。

步骤S3、对文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议，包括下述步骤：

步骤S301、基于高斯模糊和4倍上下采样对文本建议区域进行特征增强，得到文本特征图，公式如下：

步骤S302、基于ResNet-50网络对文本特征图进行超分辨率恢复，得到超分辨率文本建议区域。具体的，通过ResNet-50网络中的超分辨率基础单元和上采样单元对步骤S301得到的文本特征图进行超分辨率恢复，即可得到超分辨率文本建议区域，公式如下：

P＝f_sr(D_P)

上式中，P为超分辨率文本建议区域，f_sr()表示超分辨率恢复，D_p为文本特征图。

通过高斯模糊、4倍上下采样、ResNet-50网络中的超分辨率基础单元和上采样单元最终得到原始输入图像的超分辨率文本建议，解决了在灰暗环境中获取的场景图片中的图文信息模糊、不清晰和像素较低的问题，改善了图像的质量，有利于提高后期文本识别的精度，提高了文本检测框的质量。

步骤S4、基于快速卷积神经网络Fast R-CNN和超分辨率文本建议区域获取原始输入图像的文本检测框，包括下述步骤：

步骤S401、将超分辨率文本建议区域输入Fast R-CNN网络，获得超分辨率文本建议区域相对于实际文本区域的位置偏移量，实际文本区域为原始输入图像对应的文本区域。具体来说，如图3所示，快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层，4个池化层，1个ROI池化层，2个全连接层和2个平级层。其中，超分辨率文本建议区域输入快速卷积神经网络Fast R-CNN后，首先经过13个卷积层和4个池化层，得到特征图，接着ROI池化层将步骤S3中输出的多个超分辨率文本建议区域池化到固定大小，并经过第一个全连接层得到固定大小的特征向量，最后在其中的一个平级层(回归器)中获得每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量，接着另外一个平级层(分类器)基于每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量得到最终的文本检测框。其中，分类器基于每一个超分辨率文本建议区域相对于实际文本区域的位置偏移量得到最终的文本检测框参见下述流程。

步骤S402、基于偏移位置偏移量后的超分辨率文本建议区域获得分类得分，并进行分类得分排序，并将分类得分最高的区域作为文件检测框。具体来说，分类器能够获得偏移位置偏移量后的超分辨率文本建议区域的分类得分，并对分类得分进行排序，分类得分最高的区域就是原始输入图像的文件检测框。

超分辨率文本建议区域经过快速卷积神经网络Fast R-CNN后，生成了更加准确的文本检测框，为后续的矿井多源异构图文信息的识别提供了准确的区域。

步骤S5、基于循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。具体来说，文本检测框中的字符可详细划分为中文、英文、数字以及标识符，循环神经网络RNN能够识别并提取文本检测框中的中文、英文和数字，同时剔除标识符。

步骤S501、将文本检测框扩展为文本检测框对应的特征图，公式如下述所示：

R_t-1＝(H,H_R,W_R)

H＝(h₀,h₁,h₂,h₃,h₄)

步骤S502、将文本检测框对应的特征图输入循环神经网络RNN中，获得原始输入图像中的矿井多源异构图文信息，公式如下:

h_t＝f(ZR_t-1+Wh_t-1+b)

y_t＝softmax(Vh_t+c)

上式中，h_t为循环神经网络RNN每层的隐态值，f()表示激活函数，Z为输入的文本检测框的权重矩阵，W为循环神经网络RNN中上一层的输出值作为这一次的输入的权重矩阵，softmax()表示归一化指数函数，y_t为输出的矿井多源异构图文信息，V为输出层的权重矩阵，b和c均为隐态层与输出层的参数，可基于网络训练得到。

由于循环神经网络RNN能够对任意不规则的文本都能精准识别，通过循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息，达到了更好识别的效果。

与现有技术相比，本实施例提供的面向矿井多源异构图文信息的文本识别方法，首先通过分割建议网络SPN获取原始输入图像的文本建议区域。接着，对原始输入图像的文本建议区域进行特征提取，获取原始输入图像的超分辨率文本建议，将模糊图像恢复为高质量图像，有利于后期文本的识别。同时，采用快速卷积神经网络Fast R-CNN对超分辨率文本建议区域进行处理，获取原始输入图像的文本检测框，对文本的形状具有鲁棒性，最后采用循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。提高了识别结果的精度，识别速度也更快。

本发明的另一个具体实施例，公开了一种面向矿井多源异构图文信息的文本识别装置，如图4所示，包括：

原始图像获取模块100，用于获取包含矿井多源异构图文信息的原始输入图像；

文本建议区域获取模块200，用于根据分割建议网络SPN对原始输入图像进行分割，得到原始输入图像的文本建议区域；

文本建议区域改善模块300，用于对文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域；

文本检测框获取模块400，用于根据快速卷积神经网络Fast R-CNN和超分辨率文本建议区域获取原始输入图像的文本检测框；

区域字符识别模块500，用于根据循环神经网络RNN提取文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息。

由于面向矿井多源异构图文信息的文本识别装置与前述实施例中的面向矿井多源异构图文信息的文本识别方法的实现原理相同，故这里不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向矿井多源异构图文信息的文本识别方法，其特征在于，包括下述步骤：

获取包含矿井多源异构图文信息的原始输入图像；

所述分割建议网络SPN包括：

卷积池化层，用于提取所述原始输入图像的特征映射；

像素修剪层，用于对所述二值化层输出的每一个特征映射图分别进行像素修剪，得到每一个特征映射图对应的文本建议区域；

对所述文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域，包括下述步骤：

基于ResNet-50网络对所述文本特征图进行超分辨率恢复，得到超分辨率文本建议区域，包括：通过ResNet-50网络中的超分辨率基础单元和上采样单元对得到的文本特征图进行超分辨率恢复，得到超分辨率文本建议区域，公式如下：

P＝f_sr(D_P)

上式中，P为超分辨率文本建议区域，f_sr()表示超分辨率恢复，D_p为文本特征图；

2.根据权利要求1所述的面向矿井多源异构图文信息的文本识别方法，其特征在于，所述快速卷积神经网络Fast R-CNN包括依次连接的13个卷积层，4个池化层，1个ROI池化层，2个全连接层和2个平级层。

3.根据权利要求2所述的面向矿井多源异构图文信息的文本识别方法，其特征在于，基于快速卷积神经网络Fast R-CNN和所述超分辨率文本建议区域获取原始输入图像的文本检测框，包括下述步骤：

4.根据权利要求3所述的面向矿井多源异构图文信息的文本识别方法，其特征在于，基于循环神经网络RNN提取所述文本检测框中的字符，得到原始输入图像中的矿井多源异构图文信息，包括下述步骤：

将所述文本检测框扩展为文本检测框对应的特征图；

5.根据权利要求4所述的面向矿井多源异构图文信息的文本识别方法，其特征在于，基于下述公式将文本检测框扩展为文本检测框对应的特征图：

R_t-1＝(H,H_R,W_R)

H＝(h₀,h₁,h₂,h₃,h₄)

6.一种面向矿井多源异构图文信息的文本识别装置，其特征在于，包括：

文本建议区域获取模块，用于根据分割建议网络SPN对所述原始输入图像进行分割，得到原始输入图像的文本建议区域；所述分割建议网络SPN包括：

卷积池化层，用于提取所述原始输入图像的特征映射；

文本建议区域改善模块，用于对所述文本建议区域进行特征提取，得到原始输入图像的超分辨率文本建议区域，包括下述步骤：

式中，D_p为文本特征图，D为文本建议区域，f_gau()表示高斯模糊函数，f_d-u()表示4倍上下采样，p₁、p₂均为文本建议区域D中的随机像素，且满足p₁ζ[0,1]，p₂∈[0,1]，α为随机参数；

P＝f_sr(D_P)