CN114359886A

CN114359886A - 一种基于多层次特征选择的自然场景文本识别方法

Info

Publication number: CN114359886A
Application number: CN202111639884.1A
Authority: CN
Inventors: 李利荣; 张开; 陈鹏; 张云良; 周蕾; 乐玲; 熊炜; 丁江; 梅冰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-15

Abstract

本发明公开了一种基于多层次特征选择的自然场景文本识别方法.首先将原始图像使用空间变换网络进行文本矫正处理，将矫正后的图像构建场景文本图像训练集；其次将构建的场景文本图像训练集对多层次特征提取残差网络进行优化训练，得到优化后的多层次特征提取残差网络；接下来通过优化后的多层次特征提取残差网络来预测场景文本图像训练集中的多个数据信息及其类别信息，再使用序列转换的方式分别获得视觉特征序列、上下文特征序列和语义特征序列，并将三者结合成一个多层次特征序列集。最后构建多层次注意力解码器并对其进行优化训练，将多层次特征序列集输入到多层次注意力解码器中进行解码操作，得到最终预测的识别结果。

Description

一种基于多层次特征选择的自然场景文本识别方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于多层次特征选择的自然场景文本识别方法，。

背景技术

场景文本识别作为计算机视觉领域中一个研究方向，随着深度学习的发展，在无人驾驶、智能生活等商业领域广泛应用，但是由于自然场景环境的复杂性，会存在很多模糊、弯曲、倾斜的文本内容。传统的场景文本识别算法通常是按顺序依次每个文本字符的识别，但是这个方法有很大的局限性，自然场景中的文本字符难以分割，且传统方法不依赖于上下文之间的依赖关系和字符之间的顺序建模，导致识别效果不理想。现代的场景文本识别是基于整个单词的识别，将文本图片切分成序列进行预测，避免了每个字符需要单独注释的必要，相比于传统方法能达到更高的准确率。

发明内容

本发明的目的是：当前场景文本识别方法大多数使用编码器-解码器方法，并且只将视觉特征和上下文特征关联起来，而忽略了全局的语义特征，且极少挖掘多种特征之间的隐藏联系来辅助文本识别。为了实现上述目的，本发明所采用的技术方案是：一种基于多层次特征选择的自然场景文本识别方法，其特征在于，包括以下步骤：

步骤1：将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像，通过人工标记得到每幅图像中多个文本外接矩形边框，通过每幅图像构建场景文本图像训练集，人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签；

步骤2：引入多层次特征提取残差网络，将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像，且在每幅网格化处理后的图像中引入锚框，每个锚框以网格为中心用来辅助预测文本框的坐标，将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测，通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标，将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框，从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框，且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息。将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来，得到每个预测的文本外接矩形框中的文本内容所属的文字类别，将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别，及每幅图像生成的Q个网格及对应的B个锚框，将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框，构建多级特征提取残差网络的损失函数，进一步通过Adam算法优化训练得到优化后多层特征提取残差网络；

步骤3：将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中，得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别，将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集，场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集；

步骤4：将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作，场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集，多层次特征序列集中的每一个序列都对应所属的文本类别，再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果，构建多层次注意力解码器的损失函数，进一步通过Adam算法优化训练得到优化后多层次注意力解码器；

作为优选，步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框，具体为：

其中，

表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标，

表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标，

表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标；

表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标，

表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标，

表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标；I_j表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量；J表示图像的数量；

步骤1所场景文本图像训练集中类别为：

classify_j，i

其中，classify_j，i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别；

步骤1所述的场景文本图像训练集为：

其中，data_j(x，y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息，classify_j，i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。

作为优选，步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成；

每个卷积块由BN层、Relu激活函数层级联构成；

步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定，利用网格和锚框进行预测文本的框定和分类。

表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标，

表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标，

表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标，

表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标；

表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。

步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成；

所述目标边界框损失的定义为：

其中，Q为场景文本图像划分的网格数量，B为每个网格中预测的锚框数量，m表示Q中的的其中第m个网格，n表示在第m个网格中第n个锚框；

表示第m个网格中第n个锚框是否负责预测物体，取值为1或0；

所述分类损失函数的定义为：

其中，Q为场景文本图像划分的网格数量，B为每个网格中预测的锚框数量，classify_j，i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别，

表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别；

表示第m个网格的第n个锚框是否不存在目标，λ_non表示没有物体时置信度惩罚权重系数。

作为优选，步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集，可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集，而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下：

其中，F(·)函数表示map-sequence操作过程，将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。

表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集，v_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列，

表示视觉特征序列集中第k个视觉序列的所属类别。

步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序，具体而言是针对视觉序列来建模上下文信息，更好的捕捉双向的语义依赖。具体操作如下：

其中，G(·)函数表示BiLSTM模块的操作过程，

表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标；，c_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列，

表示上下文特征序列集中第k个上下文序列的所属类别。

步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列。语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息。具体操作如下：

U(·)函数表示语义模块的操作过程，

表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集，s_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列，

表示语义特征序列集中第k个语义特征序列的所属类别。

步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D。具体表示如下：

v_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列，

表示第k个视觉序列的所属类别，c_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列，

表示第k个上下文序列的所属类别，s_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列，

表示第k个语义序列的所属类别。

具体而言多层次的特征信息D可以表示如下：

表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集，d_j，i，k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列，

表示第k个多层次特征序列的所属类别。

作为优选，将步骤4所述多层次注意力解码器的损失函数为：

其中，

表示第m个网格的第n个锚框是否不存在目标，

表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度，

表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。

本发明能从场景图片中识别出任意的文本字符，具体而言，本发明具有以下特点：

提出一个新的多层次特征选择模块，在视觉特征中获取上下文特征和全局语义特征，并建立起三者特征之间的联系；

提出一种新型的多层次注意力选择解码器(MASD)，对特征空间进行解码预测操作，选择有价值的特征信息的同时抑制其余无关信息；

提出一种基于多层次特征选择的自然场景文本识别方法。

与现有技术相比，本发明的有益效果是：

本方法在识别过程中不仅关注局部序列字符分类，同时也关注整个单词全局信息；

本方法可以在视觉特征中分别捕获上下文特征和语义特征，还能更好的挖掘特征之间的隐藏联系来辅助文本识别；

本方法可以关注特征序列之间的内部联系，选择重要的信息特征参与预测解码。

附图说明

图1：是本发明的整体结构流程图。

图2：是本发明网络模型结构图。

图3：是BiLSTM编码器结构图。

图4：是多层次注意力选择解码器结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

下面首先对本发明所提到一些概念进行介绍：

深度学习(deep learning)作为机器学习的一个部分，最早源自于对人工神经网络的研究，是传统机器学习技术的一种特殊的表现形式。早期的人工神经网络容易受到网络结构复杂、大规模计算能力差等方面的限制，能够学习获得到的参数较少，拟合效果不佳。而深度学习通过增加复杂的网络结构实现自主的参数学习，不断对参数矩阵及偏置量进行更新，将简单的特征通过特征提取网络转换为深度的高级的特征，此过程仅涉及较为简单的非线性函数，通过对多个非线性函数的组合，即可对复杂的结果进行准确拟合，得到理想的结果。

注意力机制(Attention mechanism)是在复杂信息中快速、准确选择出重要信息的方法，极快的提升了处理信息的效率和提取关键的信息，目前注意力机制在深度学习领域广泛应用。注意力机制本质上是在视觉观察上分配资源的方式，根据对象的重要程度进行分配，权重就是注意力机制所需要分配的资源。

本发明直接对自然场景下的文本图片进行处理，实现了一种基于多层次特征选择的自然场景文本识别方法。

以下结合附图1-4对本发明做进一步的说明。

步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框，具体为：

其中，

表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标；I_j表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量；J＝1000表示图像的数量。

步骤1所场景文本图像训练集中类别为：

classify_j，i

步骤1所述的场景文本图像训练集为：

步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成；

每个卷积块由BN层、Relu激活函数层级联构成；

所述目标边界框损失的定义为：

表示第m个网格中第n个锚框是否负责预测物体，取值为1或0；

所述分类损失函数的定义为：

表示第m个网格的第n个锚框是否不存在目标，λ_non表示没有物体时置信度惩罚权重系数。Q＝49表示网格的数量，B＝2表示每个网格中锚框的数量。

步骤3：将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中，得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别，将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集，场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集。

步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集，可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集，而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下：

F(·)函数表示map-sequence操作过程，将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。

表示视觉特征序列集中第k个视觉序列的所属类别。

G(·)函数表示BiLSTM模块的操作过程，

表示上下文特征序列集中第k个上下文序列的所属类别。

U(·)函数表示语义模块的操作过程，

表示语义特征序列集中第k个语义特征序列的所属类别。

表示第k个语义序列的所属类别。

具体而言多层次的特征信息D可以表示如下：

表示第k个多层次特征序列的所属类别。

将步骤4所述多层次注意力解码器的损失函数为：

其中，

表示第m个网格的第n个锚框是否不存在目标，

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多层次特征选择的自然场景文本识别方法，其特征在于，包括以下步骤：

步骤2：引入多层次特征提取残差网络，将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像，且在每幅网格化处理后的图像中引入锚框，每个锚框以网格为中心用来辅助预测文本框的坐标，将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测，通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标，将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框，从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框，且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息；将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来，得到每个预测的文本外接矩形框中的文本内容所属的文字类别，将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别，及每幅图像生成的Q个网格及对应的B个锚框，将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框，构建多级特征提取残差网络的损失函数，进一步通过Adam算法优化训练得到优化后多层特征提取残差网络；

步骤3：将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中，得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别，将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集，场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集；最后将这三个特征序列集结合起来构建一个多层次特征序列集；

步骤4：将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作，场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集，多层次特征序列集中的每一个序列都对应所属的文本类别，再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果，构建多层次注意力解码器的损失函数，进一步通过Adam算法优化训练得到优化后多层次注意力解码器。

2.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法，其特征在于，步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框，具体为：

其中，

步骤1所场景文本图像训练集中类别为：

classify_j，i

步骤1所述的场景文本图像训练集为：

3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法，其特征在于，步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成；

每个卷积块由BN层、Relu激活函数层级联构成；

步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定，利用网格和锚框进行预测文本的框定和分类；

表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别；

所述目标边界框损失的定义为：

表示第m个网格中第n个锚框是否负责预测物体，取值为1或0；

所述分类损失函数的定义为：

表示第m个网格的第n个锚框是否不存在目标，λ_n定n表示没有物体时置信度惩罚权重系数。

4.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法，其特征在于，步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集，可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集，而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中；具体操作如下：