CN109753962B

CN109753962B - 基于混合网络的自然场景图像中文本区域的处理方法

Info

Publication number: CN109753962B
Application number: CN201910029423.9A
Authority: CN
Inventors: 王永利; 王振鹏; 范嘉捷
Original assignee: Nupt Institute Of Big Data Research At Yancheng
Current assignee: Nupt Institute Of Big Data Research At Yancheng
Priority date: 2019-01-13
Filing date: 2019-01-13
Publication date: 2023-06-09
Anticipated expiration: 2039-01-13
Also published as: CN109753962A

Abstract

本发明涉及基于混合网络的自然场景图像中文本区域的处理方法，属于图像处理领域。包含文本区域的检测和识别；基于卷积神经网络与RCNN网络；该自然场景下获得的图像中含有文字内容的区域标定为文本区域；分别采用卷积神经网络与RCNN网络分别对自然场景下获得的图像数据中的文本区域进行区域性检测；利用区域性检测进行计算获得候选字符连通区域；基于卷积神经网络与RCNN网络对选字符连通区域进行识别得到字符内容在文本区域中标定位置；基于卷积神经网络对文本区域位置分割出的所有单个字符进行识别。本发明基于混合网络的自然场景图像中文本区域的处理方法，通过混合网络模型得到准确的文本区域位置，识别出的文本信息十分准确，可以看出该算法能够很好的解决自然场景下的图像文本检测和识别问题。为之后的图像理解奠定良好的基础。

Description

基于混合网络的自然场景图像中文本区域的处理方法

技术领域

本发明涉及基于混合网络的自然场景图像中文本区域的处理方法，属于图像处理领域。

背景技术

图像是当今世界信息传递和交流的一种重要载体，是人们对环境认知最主要的信息来源。近年来，随着配备有拍摄功能的电子设备普及和快速的更新换代，使得人们捕获日常生活中的自然场景图像变得更加容易，可以随时随地进行各种图像或视频数据的采集。而互联网的普及和各种网络应用的发展为图像的传播和共享提供了必要条件。图像信息理解具有越来越广阔的应用前景。图像的文本信息提取作为计算机从图像获取有效信息的必要步骤，包括图像标记、分类、匹配、定位、分割、识别和分析等多个过程。基于图像提取出的文本信息并加以合理利用，将极大地推动工业的自动化和城市的智能化。

自然场景中的文本检测，因受到语种、字体、光照、视角、模糊等诸多因素的影响，检测及识别精度无法达到较高水平。虽然有些方法在某些数据集上取得了较好的结果，但多是针对数据集本身的特点设计算法和参数，在数据集外很难达到同样的效果。自然场景文本检测方法主要分为基于窗口和基于连通域两大类，基于窗口的方法多是提取滑动窗口的纹理、变换域、边界梯度等特征，然后设计分类器进行文字窗口和非文字窗口的识别。而基于连通域的方法多是依据图像边界、灰度、颜色等信息获得图像中的区域，然后提取区域的笔画宽度、长宽比、占位比、边界等特征进而设计分类器进行字符区域与非字符区域的识别。近年来随着深度学习的发展，其应用拓展到方方面面，深度学习利用深度网络中的大量参数对特征空间进行划分，经过大量样本的训练，网络的识别精度相比传统的基于特征的识别有了较大的提高，因此文本检测的方法中不断有学者引入深度学习模型替代传统的分类器，不仅省去了特征提取的繁杂工作，而且取得了更好的效果，但图像中的文本检测方法依然划分为基于滑动窗口与基于连通域两大类，不同点在于获取了滑动窗口或者连通域后的处理，传统的方法采用的是提取特征进行分类，而深度学习引入之后则是对原图像直接进行学习进行分类。

近年来，人们越来越频繁地使用各种电子设备拍摄日常生活中的景象，记录自己的生活。图像信息理解具有越来越广阔的应用前景。基于图像提取出的文本信息并加以合理利用，将极大地推动工业的自动化和城市的智能化。由于获得图像中的文本是图像理解的基本前提，图像中的文本提取得到了广大研究人员的关注和快速的发展。但是对于无约束条件的场景图像，复杂的拍摄环境、多变的图像获取方式和多样的文本内容都给相关算法带来了很多限制。

对场景图像中文本的研究吸引了很多国内外研究学者，他们提出了一系列具有创新性的方法来解决场景图像中文本定位和识别问题。根据场景图像中文本信息的提取流程，将其分成两部分：场景文本定位和场景文本识别。场景文本定位研究如何找到场景图像中的文字区域，而场景文本识别则研究如何将文字区域中的内容转换为计算机可读的方法。

发明内容

本发明提供了基于混合网络的自然场景图像中文本区域的处理方法。

本发明采用如下技术方案：

本发明基于混合网络的自然场景图像中文本区域的处理方法，包含图像文本区域的检测和识别；基于卷积神经网络与RCNN网络；该自然场景下获得的图像中含有文字内容的区域标定为文本区域；分别采用卷积神经网络与RCNN网络分别对自然场景下获得的图像数据中的文本区域进行区域性检测；利用区域性检测进行计算获得候选字符连通区域；基于卷积神经网络与RCNN网络对所述候选字符连通区域进行识别得到字符内容在文本区域中标定位置；基于卷积神经网络对文本区域位置分割出的所有单个字符进行识别。

本发明所述的基于混合网络的自然场景图像中文本区域的处理方法，所述的卷积神经网络对自然场景下获得的图像在像素级层面的候选字符区域，并对候选字符区域进行分割，从分割区域内提取候选字符连通域；

在字符级层面结合上述得到的字符连通域内通过纹理特征对候选字符进行分类获得文本区域；

通过RCNN网络对自然场景下获得的图像进行计算获得候选文本区域；

将上述卷积神经网络获得图像文本区域与RCNN网络获得选文本区域进行整合，获得的文本区域位置。

本发明所述的基于混合网络的自然场景图像中文本区域的处理方法，所述的卷积神经网络对自然场景下获得的图像的文本区域进行区域性检测；采用聚类连通区域提取算法，通过提取连通区域的颜色，边缘信息，对连通区域进行聚类，得到候选的字符连通区域。

本发明所述的基于混合网络的自然场景图像中文本区域的处理方法，候选文本区域通过三层卷积网络结构可以获得128个1×1大小的特征图，将所有的这些特征图级联得到128维的纹理特征，根据该特征，通过支持向量机(SVM)分类器对字符连通区域进行分类。

本发明所述的基于混合连通区域网络的自然场景图像中文本区域的处理方法，采用的SVM分类器对字符连通区域分类单个字符，粘连字符，背景区域三个类别。

本发明所述的基于混合连通区域网络的自然场景图像中文本区域的处理方法，采用粘连字符分割算法确定连通区域的字符方向，对图像进行旋转并将对字符进行垂直投影，并分割成单个字符区域。

本发明所述的基于混合网络的自然场景图像中文本区域的处理方法，对字符连通域提取几何特征，通过卷积神经网络提取图像的纹理特征，两特征相结合对候选字符进行分类。

本发明所述的基于混合网络的自然场景图像中文本区域的处理方法，卷积神经网络对自然场景下获得的图像中的文本行级层面通过，对候选文本区域进行归一化处理；利用HOG+SVM的方法根据文本区域的纹理特征排除背景区域。

有益效果

本发明基于混合网络的自然场景图像中文本区域的处理方法，通过卷积神经网络与RCNN网络结合的混合网络图像文本检测方法，提取图像中代表性点并聚类来实现候选字符区域的分割以及分割区域的候选字符连通域提取；取的候选字符会使得属于同一文本区域的字符组合在同一个子图像中，提高了下一步文本区域组合的效率和准确率。

本发明基于混合网络的自然场景图像中文本区域的处理方法，不仅能有效表达字符特性也能对抗背景纹理复杂的情形，能更有效地判别背景和字符。提取的文本区域比较完整，不会造成文本区域中字符缺失，在组合后利用字符分类的概率能快速排除部分虚警。

本发明基于混合网络的自然场景图像中文本区域的处理方法，通过混合网络模型得到准确的文本区域位置，再对文本区域进行连通区域检测和字符分割，获得一个个单个字符，利用卷积神经网络对字符进行识别。识别出的文本信息十分准确，可以看出该算法能够很好的解决自然场景下的图像文本检测和识别问题。为之后的图像理解奠定良好的基础。

附图说明

图1是本发明基于混合网络的自然场景下的图片文本区域检测与识别算法结构图；

图2是本发明中利用的卷积神经网络模型图；

图3是本发明中利用的RCNN网络模型图；

图4是本发明基于混合网络的自然场景下的图片文本区域检测与识别算法流程图；

具体实施方式

为使本发明实施例的目的和技术方案更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示：基于混合网络的自然场景下的图片文本区域检测与识别算法结构组成：图像文本区域检测和图像文本区域识别两部分。通过卷积神经网络和RCNN结合的方法对自然场景下的图像进行检测，再利用CNN对检测到的文本区域进行识别，以获得图像中的文本信息。

本发明公开了一种基于混合网络的自然场景下的图片文本区域检测与识别算法，获得自然场景下图像中的文本信息，为图像理解提供支持。

基于混合网络的自然场景下的图片文本区域检测与识别算法，包括文本区域定位与文本区域识别两部分。

第一步，文本区域定位；对自然场景下的含有文本信息的图像进行处理，运用基于卷积神经网络与RCNN网络相结合的混合网络检测方法，对自然场景下的图像进行文本区域检测。

在像素级层面，算法通过提取图像中代表性点并聚类来实现候选字符区域的分割以及分割区域的候选字符连通域提取。

在字符级层面，结合连通域级的几何特征和卷积神经网络提取的纹理特征对候选字符进行分类。

在文本行级层面，采用两层分类系统对候选文本区域确认，在第一层中利用相似性来排除大量重复背景区域，第二层利用文本区域的纹理特征排除背景区域；确认后的文本区域与通过RCNN获得的区域进行整合，获得最终的文本区域位置。

第二步，文本区域识别；对文本区域位置进行再处理，利用连通区域检测得到一个个字符连通域，再利用字符分割获得字符图片集，再输入到预先训练好的字符识别网络模型中进行识别，得到最终的识别结果。

结合图2，该图为算法中用到的CNN网络模型，在图像文本检测时提取纹理特征用到了该模型；在后续的文本区域识别过程中也利用了该模型进行字符识别。其中，

图3中convolution+ReLU为：卷积层+ReLU激活函数；

max pooling为：最大值池化层；

fully nected+ReLU为：全连接层+ReLU激活函数；

softmax函数为：一种归一化指数函数。

结合图3，该图为算法中用到的RCNN网络模型，检测自然场景下的图像文本区域位置，并将其结果与卷积网络模型获得的结果相结合，共同精确地定位到文本区域的位置。其中，1为候选区域；2为裁剪窗口；3为卷积神经网络；4为支持向量机；5为边框回归。

结合图4，算法的具体步骤如下：

一、图像文本区域检测

步骤1.1：输入自然场景下的图像，对图像进行像素级层面处理，根据边缘等信息提取代表性点，将这些代表性点进行聚类，得到候选的字符连通区域。通过这种方式提取的候选字符会使得属于同一文本区域的字符组合在同一个子图像中，提高了下一步文本区域组合的效率和准确率。

步骤1.2：在字符级层面进行处理，对字符连通域提取几何特征，通过卷积神经网络提取图像的纹理特征，两特征相结合对候选字符进行分类。不仅能有效表达字符特性也能对抗背景纹理复杂的情形，能更有效地判别背景和字符。文本区域形成通过子图像和完整图像两层组合，利用字符几何特征和位置关系实现，使提取的文本区域比较完整，不会造成文本区域中字符缺失，在组合后利用字符分类的概率能快速排除部分虚警。

步骤1.3：在文本行级层面进行处理，对候选文本区域进行归一化处理，利用相似性来排除大量重复背景区域，利用HOG+SVM的方法根据文本区域的纹理特征排除背景区域。

步骤1.4：将文本区域位置作为图像标签训练RCNN网络，得到文本检测模型，输入自然场景下的图像，通过RCNN网络模型得到文本候选框，结合以上三步得到的文本区域获得最终的文本区域位置。

二、图像文本区域识别

步骤2.1：对第一步中获得的文本区域位置上进行灰度化、二值化，之后通过连通区域检测获得一个个单个字符连通域。

步骤2.2：对字符连通域进行字符分割，获得一个个字符图片保存到本地文件夹。

步骤2.3：将字符图片输入到已经训练好的CNN识别网络(通过字符图片和字符标签进行有监督训练而得)中，得到字符识别结果，按顺序组合输出即为识别获得的图像文本区域信息。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.基于混合网络的自然场景图像中文本区域的处理方法，其特征在于：包含图像文本区域的检测和识别；基于卷积神经网络与RCNN网络；该自然场景下获得的图像中含有文字内容的区域标定为文本区域；分别采用卷积神经网络与RCNN网络分别对自然场景下获得的图像数据中的文本区域进行区域性检测；利用区域性检测进行计算获得候选字符连通区域；基于卷积神经网络与RCNN网络对所述候选字符连通区域进行识别得到字符内容在文本区域中标定位置；基于卷积神经网络对文本区域位置分割出的所有单个字符进行识别；

所述的卷积神经网络对自然场景下获得的图像在像素级层面的候选字符区域，并对候选字符区域进行分割，从分割区域内提取候选字符连通域；

2.根据权利要求1所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于：所述的卷积神经网络对自然场景下获得的图像的文本区域进行区域性检测；采用聚类连通区域提取算法，通过提取连通区域的颜色，边缘信息，对连通区域进行聚类，得到候选的字符连通区域。

3.根据权利要求1或2所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于：候选文本区域通过三层卷积网络结构获得128个1×1大小的特征图，将所有的这些特征图级联得到128维的纹理特征，根据该特征，通过支持向量机分类器对字符连通区域进行分类。

4.根据权利要求3所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于:采用的SVM分类器对字符连通区域分类单个字符，粘连字符，背景区域三个类别。

5.根据权利要求1所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于:采用粘连字符分割算法确定连通区域的字符方向，对图像进行旋转并将对字符进行垂直投影，并分割成单个字符区域。

6.根据权利要求1所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于：对字符连通域提取几何特征，通过卷积神经网络提取图像的纹理特征，两特征相结合对候选字符进行分类。

7.根据权利要求1所述的基于混合网络的自然场景图像中文本区域的处理方法，其特征在于：卷积神经网络对自然场景下获得的图像中的文本行级层面通过，对候选文本区域进行归一化处理；利用HOG+SVM方法根据文本区域的纹理特征排除背景区域。