CN110287960B

CN110287960B - 自然场景图像中曲线文字的检测识别方法

Info

Publication number: CN110287960B
Application number: CN201910592008.4A
Authority: CN
Inventors: 操晓春; 赵汉玥; 代朋纹
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-07-02
Filing date: 2019-07-02
Publication date: 2021-12-10
Anticipated expiration: 2039-07-02
Also published as: CN110287960A

Abstract

本发明公开了一种自然场景图像中曲线文字的检测识别方法，本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题，提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练，利用训练好的曲线文字检测网络对自然场景图像进行检测，检测出图像中的文字区域；2)利用矫正网络将文字区域的曲线文字矫正成水平文字，输出矫正后图像；3)对曲线文字识别网络进行训练，利用训练好的曲线文字识别网络提取矫正后图像的卷积特征，对卷积特征进行解码，识别出文字。

Description

自然场景图像中曲线文字的检测识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够在自然场景下检测和识别曲线文字的方法。

背景技术

自然场景中文字信息无处不在，近年来随着摄影器材的普及，网络空间中图像和视频数据量急剧上升。与此同时，自动驾驶、机器人等人工智能产品的迅速发展，使得文字检测和识别技术的应用也越来越广泛。利用计算机视觉技术，自动分析解释图像中的信息，并且进一步理解图像中的语义内容就显得尤为重要。不同于传统的文字检测和识别方法主要面向于高质量的图片，自然场景下的文字检测和识别受到环境的影响，有图像背景复杂、分辨率低下、字体多样、分布随意等特点。因此，传统的文字检测识别方法在自然场景下不具备适用性。近年来，得益于机器学习算法的发展，图像文字检测识别技术取得较大进步，最近的文字检测识别算法较多依赖于深度学习。

文字检测即定位出图片中文字所在的具体区域，文字识别即识别出所检测区域的具体文字信息内容。目前基于深度学习的文字检测和识别方法从网络结构上可以分为两类，第一种是检测网络加识别网络的方法，先利用文字检测网络检测文字的位置，输出文字区域信息，再将文字区域输入到文字识别网络进行识别，最终输出文字图片坐标定位和文字内容识别结果。第二种是端到端的识别方法，同时进行文字检测和识别，输出文本位置信息和文本内容信息。从文字方向上可以分为三类：水平文字、倾斜文字、曲线文字。

关于水平文字检测和识别技术的研究，是目前文字识别应用中最成功的。水平文字检测即输出矩形文字框，四个自由度。其中，CTPN文字检测网络把文本行看做是由细条状区域组成的，通过Faster R-CNN中的RPN检测细条状区域，并把卷积神经网络(CNN)与循环神经网络(RNN)结合起来，实现了准确快速定位。而TextBoxes文字检测器在SSD框架基础上改进以适应文本行窄长等特征。水平文字识别应用广泛的有CRNN识别网络，该网络由CNN+BiLSTM+CTC构成，实现了端到端训练。与水平文字相比，倾斜文字检测识别与主要体现在文字检测方面，即输出平行四边形文字框，八个自由度。EAST是一个简单高效的文字检测网络，利用了Inception的思想采用PVANet模型提取特征，相比于CTPN减少了很多中间过程，支持多方向的文字定位。TextBoxes++是在TextBoxes上进行改进的多方向文本检测网络。当然，曲线文字检测识别是难度最高的，目前并没有取得很好的效果及相关应用。其难点主要在于文字分布和方向的无规则性，曲线文字检测即输出凸多边形文字框，多个自由度。曲线文字边界模糊和文字与背景对比度较低，导致直接应用目标示例分割方法进行曲线文字检测效果并不理想。曲线文字识别则是考虑先通过矫正网络将文字调整成水平文字，再进行识别。综合曲线文字检测识别技术中的难点问题，设计合理的特征提取方法，改进网络结构，对于提高检测和识别曲线文字的精度至关重要。

发明内容

本发明的目的是提出一种自然场景图像中曲线文字的检测识别方法，能够应对自然场景下文字信息分布的无规则性和无方向性，以及自然场景的环境多变性，对自然场景中曲线文字信息进行有效地检测识别。

为实现上述目的，本发明采用的技术方案如下：

一种自然场景图像中曲线文字的检测识别方法，包括以下步骤：

1)对基于Mask RCNN网络的曲线文字检测网络进行训练，利用训练好的曲线文字检测网络对自然场景图像进行检测，检测步骤包括：

提取图像的文字特征，并对文字特征进行增强；

根据增强的文字特征生成候选框，通过特征分配将生成的候选框与增强的文字特征进行对应，并投影候选框的特征到不同的尺寸固定的特征；

对不同的尺寸固定的特征进行候选框微调，检测出图像中的文字区域；

2)利用矫正网络将文字区域的曲线文字矫正成水平文字，输出矫正后图像；

3)对曲线文字识别网络进行训练，利用训练好的曲线文字识别网络提取矫正后图像的卷积特征，对卷积特征进行解码，识别出文字。

进一步地，对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片；对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。

进一步地，曲线文字检测网络以ResNet-50作为主干网络，通过ResNet-50提取文字特征。

进一步地，曲线文字检测网络还包括一用于增强文字特征的TFE模块，该TFE模块包括多个过滤器和单元，每个过滤器采用1*1卷积核，每个单元含有3*3卷积核、1*7卷积核和7*1卷积核；

每个单元根据公式F_m＝ψ(S_m,F_m+1；θ_m)输出增强的文字特征，其中S_m表示第m级旁路通过滤波器后输出的特征图；F_m+1表示输出特征；ψ(·)表示增强文字特征的函数，θ_m表示在第m个单元中学习到的参数；

在文字特征增强子模块中，一个单元的输入被分配给旁路以输出深层特征，其余单元利用该深层特征融合浅层特征，得到融合后的特征。

进一步地，利用RPN网络产生候选框。

进一步地，候选框对应特征分配公式如下：

其中,Ι(·)表示指示函数，Fⁱ是第i级候选框对应的特征，Aⁱ表示第i级候选框的候选区域面积大小，

表示第m级的候选区域面积上界。

进一步地，利用金字塔ROI池化注意力子模块投影候选框的特征到不同的尺寸固定的特征，公式如下：

其中，Fⁱ是第i级候选框对应的特征，ρ_n表示池化窗口的大小，N表示池化窗口的数量。

进一步地，微调的方法为：将不同的尺寸固定的特征输入到文本框微调子模块进行分类和回归，计算分类损失和回归损失；再输入到文本框切割子模块生成图像掩码，切割出任意形状的文字区域，计算分割损失。

进一步地，文本框切割子模块包括若干卷积层、ReLU激活层以及一个1*1卷积核的卷积层；特征输入到文本框切割子模块后，经过若干卷积层和ReLU激活层之后，输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码；

掩码生成公式为：

其中Ω(·)表示向量化操作，将一个张量转换成一个向量，Ω^-1是Ω(·)的反向运算，Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成，Θ表示全连接层学习到的参数。

进一步地，利用后处理方法去除低置信分数的文字区域掩码，生成最终检测的文字区域。

进一步地，矫正网络基于空间变换网络，通过其定位网络预测一组定位需要的控制点，从控制点计算TPS变换并将其传递给网格生成器和采样器，生成矫正后图像；该定位网络存送卷积网络，包括6个卷积层、5个max-pooling层和2个全连接层。

进一步地，曲线文字识别网络利用卷积网络提取卷积特征，将特征输入到双向LSTM的编码器，再通过含注意力机制的LSTMs解码器进行解码，输出识别文字结果。

首次将Mask RCNN应用于曲线文字检测，能有效解决曲线文字边界模糊且与背景对比度低的问题。该方法设计实现曲线文字检测网络和曲线文字识别网络，曲线文字检测网络是在Mask RCNN网络基础上增加了文字特征增强子模块，通过多尺度特征融合技术增强网络的表征能力。在ROI操作中加入注意力(attention)机制，设计金字塔ROI池化注意力子模块，将候选框与特征相对应。设计基于内容的文本框分割子模块，将候选框的全局信息编码，利用全局信息检测文本边界。曲线文字识别网络ASTER先通过STN矫正网络将曲线文字区域矫正成水平文字，再通过识别网络，使用sequence-to-sequence+attention的方法进行识别。

附图说明：

图1是曲线文字检测网络结构图。

图2是曲线文字识别流程图。

图3是自然场景图像中曲线文字的检测识别方法的简要流程图。

图4-7是四组识别样例流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明采用的技术方案主要分为两部分：检测和识别，另外还包括位于中间的矫正，如图3所示。检测部分将目标实例分割的网络进行改进，设计了曲线文字检测网络CTD，该CTD网络为在Mask RCNN物体检测网络基础上进行的改进，能够端到端地检测曲线文字区域，并且对于倾斜文字和水平文字也有显著的效果。识别部分利用曲线文字识别网络ASTER，能够准确地识别曲线文字内容。

首先对CTD网络进行曲线文字检测训练，训练步骤如下：

数据集：使用的数据集为公开数据集CTW1500，共包含1500张场景文本图片，其中1000张用于训练，500张图片用于测试。一共含有10751个文本实例，且每张图片至少含有一个曲线文字，每个曲线文字区域都用14点进行标注。

训练过程：

1)输入图片，使用ResNet-50作为主干网络提取文字特征。

2)将提取到的文字特征输入的文字特征增强子模块(TFE)，设计3*3conv产生正方形感受野、1*7conv产生更宽的感受、7*1conv产生更高的感受野，增强文字特征。

3)将增强的文字特征输入RPN网络，产生候选框。

4)将候选框输入到金字塔ROI池化注意力子模块(PRPA)，首先根据候选框比例对应增强的特征，然后把该候选框相应特征投影到不同固定尺寸的特征，结合学习到的权重加权求和得到最终的特征图(feature map)。

5)固定尺寸的特征同时输入到文本框微调子模块(BRN)和基于内容的文本框分割子模块(BCTS)。BRN子模块分类和回归出矩形框，计算分类损失和回归损失；BCTS子模块分割每个候选框中的任意形状的文本框，计算分割损失。

6)使用标准的随机梯度下降(SGD)算法来优化网络，BRN与BCTS同时训练。

然后利用训练好的CTD网络进行曲线文字检测测试，步骤如下：

1)输入图片，使用ResNet-50作为主干网络提取特征表示。

2)将提取到的特征输入文字相关特征增强子模块(TFE)，设计3*3conv产生正方形感受野、1*7conv产生更宽的感受、7*1conv产生更高的感受野，增强文字特征。

3)将增强的文字特征输入RPN网络，产生候选框。

4)将候选框输入金字塔ROI池化注意力子模块(PRPA)，首先根据候选框比例对应增强的特征，然后把该候选框相应特征投影到不同固定尺寸的特征，结合学习到的权重加权求和得到特征图(feature map)。

5)固定尺寸的特征输入到文本框微调子模块(BRN)进行候选框微调，再将微调后的候选框输入到基于内容的文本框分割子模块(BCTS)。

6)输出任意形状的文字区域坐标。

进一步地，步骤2)TFE子模块使用不规则的卷积核，除了常规的3*3正方形卷积核以外，还增加了两种适合曲线文本特征的，更宽1*7的卷积核用于表示水平方向的长文本、更高的7*1的卷积核用于表示竖直方向的长文本。自上而下集合多尺度特征。低级特征和高级特征经过融合生成的特征，比单独的特征表示更具有代表性。

进一步地，步骤3)RPN网络产生的筛选在经过PRPA子模块之前，先通过特征分配门(FAG)将候选框的尺度和增强的特征对应起来，再输入PRPA投影到不同的固定尺寸的特征，结合训练部分最终学习到的权重，输出特征图(feature map)。

首先对ASTER网络进行曲线文字识别训练，步骤如下：

数据集：使用的数据集为Synth90k和SynthText。这里先做预处理，将图片的文字部分剪裁之后，再进行训练。Synth90k数据集含有9万张人工合成的图片，SynthText数据集含有8万张人工合成的图片，矫正网络部分一共使用了15万张图片进行训练。

训练过程：

1)把原始图像缩放到64×256再进入矫正网络，使用TPS插值算法将原始图片变换成的水平文字图片。

2)定位网络检测出定位需要的控制点，计算要生成的新图中每个点在原图中的点位置的映射关系，采样后输出为32×64，经过采样器输出32×100的矫正后图像。

3)以32×100的尺寸输入到识别网络，经过45层残差网络为文本识别网络提取卷积特征。

4)将提取后的特征输入到一个两层的Bidirectional LSTM(BiLSTM)，经过含注意力机制的LSTMs解码器，输出识别文字结果对比标注结果计算识别网络损失。

5)除定位网络以外，随机初始化其他网络的参数，优化多任务损失函数。

然后利用训练好的ASTER网络进行曲线文字识别测试，步骤如下：

4)将提取后的特征输入到一个两层的Bidirectional LSTM(BiLSTM)。

5)经过含注意力机制的LSTMs解码器，输出识别文字结果。

进一步地，步骤1)TPS全称Thin-Plate-Spline(薄板样条)，TPS插值算法可以对形变图像(仿射、透视、曲线排列等)进行校正，通过对控制点进行定位和映射，来得到校正后的图像，方便后续进行识别。根据数据集的特点，控制点的个数设置为20个，即文字上方边缘10个点，文字下方边缘10个点。

进一步地，步骤2)定位网络的输入是待识别的未矫正前图像，输出是K个控制点的位置。网络结构采用普通的卷积网络(6层卷积+5个max-pooling+2个全连接)来预测控制点的位置。

进一步地，步骤3)至5)为识别网络识别网络采用当前识别的一般思路：序列到序列的编解码器框架(sequence-to-sequence encoder/decoder框架)+注意力机制(attention)。网络主要分为两部分，即步骤3)和4)中的卷积网络+双向LSTM的编码器模块，步骤5)中的LSTM+attention的解码器模块。

本发明方法对自然场景下曲线文字图像进行监测和识别的过程与上述CTD网络和ASTER网络的测试过程是一致的，在CTD网络输出文字区域后，利用矫正网络对文字区域进行水平矫正，再将矫正图像输入刀槽ASTER网络中进行文字识别。

对上述处理过程进一步说明如下：

CTD网络的结构如图1所示，其主干网络为Resnet-50，在主干网络提取特征后，增加文字相关特征增强子模块(TFE)。每个TFE单元(TFEU)设计了不规则的卷积核，除了常规的3*3的卷积核外，还包括1*7和7*1更宽和更高的适合曲线文字特点的卷积核。TFEU的结构见图2，其中S_m表示第m级旁路通过256个(采用1*1卷积核的)滤波器后输出的特征图。F_m和F_m+1是输入特征和输出特征，S_m的空间维数表示如下：

其中f^m表示m级的floor操作，h_Sm和W_Sm表示输入图片的高和宽，w_I和h_I代表输入图片(I＝input)的宽和高。TFEU的输出由如下公式计算：

F_m＝ψ(S_m,F_m+1；θ_m)

其中，ψ(·)表示增强文字特征的函数，θ_m表示在第m个TEFU中学习到的参数。在TFE子模块中，一个TFEU的输入被分配给旁路输出深层特征，S₅＝F₅，然后特征F₂、F₃和F₄都是深层特征融合浅层特征的结果，相比于融合前的原始特征S₂、S₃和S₅表示能力更强。

接着，使用候选区域提名网络(RPN)生成候选框，通过特征分配门(FAG)将生成的候选框与增强后的特征相对应。将对应后的特征输入到金字塔ROI池化注意力子模块(PRPA)，投影候选框的特征到不同的尺寸固定的特征。

候选框对应特征分配公式如下：

其中Ι(·)表示指示函数，Fⁱ是第i级候选框对应的特征，Aⁱ表示第i级候选框的候选区域面积大小，

表示第m级的候选区域面积上界，在实验中依经验设定：

对于每一个候选框，用ROI池化操作生成池化特征的操作如下：

其中，H_n表示使用第n个池化窗口从P_i中提取到的特征矩阵，P_i表示第i级的候选框(region proposal)，ρ_n表示池化窗口的大小，N表示池化窗口的数量，在实验中设定N＝3，ρ₁＝14,ρ₂＝7和ρ₃＝3，然后将得出的特征做上采样，并结合学习到的权重，输出特征图。

然后引入基于内容的文本框分割子模块(BCTS)，PRPA输出的特征经过若干卷积层和ReLU激活层之后，输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码，掩码生成公式如下：

其中Ω(·)表示向量化操作，将一个张量转换成一个向量，Ω^-1是Ω(·)的反向运算，Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成，Θ表示全连接层学习到的参数。相比传统的全卷积网络(FCN)，BCT子模块生成的是像素级的预测，能更好地利用候选框的全局信息区别与其他文字框重叠的文字区域，因为全连接层使用的是全局信息，而全卷积网络使用的是感受野的局部信息，实验表明使用全连接层的检测效果更好。

CTD网络使用随机梯度下降法做优化，联合训练BCTS和BRN子模块并参数共享，使用多任务学习机制，将多任务损失作为网络的损失，损失函数如下：

其中N₁和N₂是最小批次中正样本和负样本的数量，λ₁是两个任务的平衡因子，λ₂是分割损失函数控制因子，在实验中设置为λ₂＝1，l_i是第i个正样本或负样本的标签，L_cls表示分类损失函数，L_reg表示回归损失函数，L_seg表示分割损失函数。

在训练时，通过计算损失函数来调整模型参数，优化模型，获得更加准确的监测结果。

加入后处理过程，去除低置信分数的文字区域掩码，生成最终的检测结果。后处理过程的算法如下：

1)根据网络输出的RPN产生的候选框和BRN产生的位置偏移，获得场景文字的外接矩形框的绝对位置。

2)根据网络预测的每个外接矩形框的置信度以及阈值，过滤掉置信度低的预测框。

3)将每个网络预测得到的掩码缩放到与其外界矩形框同等大小的尺度，然后根据阈值将其二值化。

4)根据外界矩形框的绝对位置将上述二值化的掩码映射成与输入图像同等尺度的二值图。

5)利用如下公式替代标准NMS中计算IOU的方式，从而利用掩码级的NMS即(MNMS)过滤掉上述得到的密集重叠的二值掩码。

其中，G_i,j表示第i级和第j级的IOU，p是该点在二值掩码中的位置索引。

6)对于剩余的二值掩码，利用opencv自带的边缘获取算法得到文字区域的边缘坐标，以此作任意形状文字位置的表示。

曲线文字识别网络ASTER识别曲线文字图片的过程如图2所示，其使用的曲线文字识别方法属于结构化学习的范畴，基于注意力序列到序列的(sequence-to-sequence)学习模型，模型学习从输入序列预测输出序列。矫正网络利用预测的2D变换对输入图像进行矫正，使用Thin-Plate-Spline(TPS)作为转换操作。矫正网络基于空间变换网络(STN)，STN的核心思想是将空间变换建模为可学习的网络层。矫正网络首先通过其定位网络预测一组控制点。然后，从控制点计算TPS变换并将其传递给网格生成器和采样器生成矫正后的图像Ir。由于控制点是从输入图像I预测的，因此矫正网络不需要输入图像以外的额外输入。文本校正的问题可以归结为预测输入图像上的控制点。定位网络直接从I的下采样Id中回归输入图像的控制点坐标C'。C'和C都是归一化的坐标，(0,0)表示左上角，(1,1)表示右下角。

定位网络由一些卷积层和最大池化层组成，输出层是全连接层，输出大小为2*K，K是每一边的控制点的个数。在矫正网络的输出端，采样器生成矫正后的图像使采样器可微分，即它可以将Ir上的梯度反向传播到P。然后，使用不同大小的图像用于定位网络和采样器，定位网络在较小的图像Id上操作，Id是I的下采样版本，以便减少预测所需的参数的数量。同时，采样器对原始图像进行操作。在最后一个全连接层中取消使用tanh激活函数来限制C'的值。

曲线文字识别网络直接从矫正后的图像预测字符序列。该网络是端到端训练的。它仅使用图像及其groundtruth文本注释进行训练。并使用由双向解码器扩展的序列-序列模型来解决识别问题。解码器使用卷积循环神经网络，输入图像经过卷积层提取成高为1的特征图，然后沿着行轴分割为特征序列，以向量W表示。解码器基于注意力序列到序列模型构建，将特征序列转换为字符序列。注意力列到序列模型是单向循环网络，在步骤t，解码器基于编码器得出H，H＝[h₁,...,h_n]，内部状态S_t-1和在最后步骤中预测的符号y_t-1来预测字符或序列结束符号(EOS)。在这一步骤中，解码器首先通过其注意力机制计算注意力权重向量α_t：

其中，W、w和v是训练得到的权重，b是偏置常量，h_i是编码器输出的特征向量，e_t,i是计算注意力权重的中间值。某一时刻的e_t,i的指数值在所有时刻的e_t,i的指数值和中占比即为意力权重向量α_t,i。

为了起到互补的作用，使用双向的解码器训练，一个解码器被从左到右训练，另一个被从右到左训练。为了合并结果，简单地选择具有最高识别分数的分数，其是所有预测符号的log-softmax分数的总和。

训练的损失函数为多任务损失函数，计算公式如下：

在训练过程中，通过计算损失函数调整模型参数，使得模型判断的结果更加准确。

本发明提出的自然场景曲线文字检测识别方法，其测试环境及实验结果为：

1)测试环境：

系统环境：ubuntu16.04；

硬件环境：内存：64GB，GPU：Titan Xp，硬盘：1.8TB；

(2)实验数据：

训练数据：CTW1500训练CTD检测网络，Synth90K和Synthtext合成数据集训练ASTER识别网络

测试数据：CTW1500和totalTEXT测试CTD网络，SVT和IC13测试ASTER网络。CTW1500测试检测和识别网络

评估方法：使用IOU@0.5和DetEval的方法评估检测网络将CTD网络，并与Y.Liu等人提出的检测曲线文本方法(DCT：Detecting curve text in the wild：New dataset andnew solution)相对比。使用准确率(P％)评估ASTER网络

(3)实验结果：

表1.CTD网络曲线文字检测实验结果

表1中：R(Recall)表示召回率，P(Precision)表示准确率，F表示F值。

由表1看出检测部分增加子模块TFE、PRPA和BCTS以后，检测效果在两个测试集上均有提升。

将本发明方法与传统技术进行比较，见下表。

表2.ASTER网络曲线文字识别实验结果对比

网络结构/测试数据	SVT	IC13
			CRNN	88.76	89.75
ASTER	91.16	90.74

由表2.可以得知本发明的ASTER网络相比于传统识别网络CRNN，准确率在SVT数据集上提升了2.4％，在IC13数据集上提升了0.99％。

将本发明方法应用于5组实际样例，进行自然场景下的曲线文字识别，检测和识别过程如图4-7所示，该5组样例分别对不同自然场景下的曲线文字进行识别，其中每组的第一图为原图，第二图为检测结果图，第三图是矫正结果图，第四图是识别结果图。由图可知，识别准确率均为100％。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种自然场景图像中曲线文字的检测识别方法，包括以下步骤：

1)对基于Mask RCNN网络的曲线文字检测网络进行训练，该曲线文字检测网络包括一用于增强文字特征的TFE模块，该TFE模块包括多个过滤器和单元，每个过滤器采用1*1卷积核，每个单元含有3*3卷积核、1*7卷积核和7*1卷积核；每个单元根据公式F_m＝ψ(S_m,F_m+1；θ_m)输出增强的文字特征，其中S_m表示第m级旁路通过滤波器后输出的特征图；F_m+1表示输出特征；ψ(·)表示增强文字特征的函数，θ_m表示在第m个单元中学习到的参数；在TFE模块中，一个单元的输入被分配给旁路以输出深层特征，其余单元利用该深层特征融合浅层特征，得到融合后的特征；

利用训练好的曲线文字检测网络对自然场景图像进行检测，检测步骤包括：

提取图像的文字特征，并对文字特征进行增强；

根据增强的文字特征生成候选框，通过特征分配将生成的候选框与增强的文字特征进行对应，并投影候选框的特征到不同的尺寸固定的特征；利用金字塔ROI池化注意力子模块投影候选框的特征到不同的尺寸固定的特征，公式如下：

其中，Fⁱ是第i级候选框对应的特征，ρ_n表示池化窗口的大小，N表示池化窗口的数量；

对不同的尺寸固定的特征进行候选框微调，检测出图像中的文字区域；微调的方法为：将不同的尺寸固定的特征输入到文本框微调子模块进行分类和回归；再输入到文本框切割子模块生成图像掩码，切割出任意形状的文字区域；文本框切割子模块包括若干卷积层、ReLU激活层以及一个1*1卷积核的卷积层；特征输入到文本框切割子模块后，经过若干卷积层和ReLU激活层之后，输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码；掩码生成公式为：

其中Ω(·)表示向量化操作，将一个张量转换成一个向量，Ω^-1是Ω(·)的反向运算，Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成，Θ表示全连接层学习到的参数；

2.如权利要求1所述的方法，其特征在于，对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片；对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。

3.如权利要求1所述的方法，其特征在于，曲线文字检测网络以ResNet-50作为主干网络，通过ResNet-50提取文字特征；利用RPN网络产生候选框。

4.如权利要求1所述的方法，其特征在于，候选框对应特征分配公式如下：

表示第m级的候选区域面积上界。

5.如权利要求1所述的方法，其特征在于，利用后处理方法去除低置信分数的文字区域掩码，生成最终检测的文字区域；该后处理方法步骤如下包括：

根据生成的候选框和文本框微调子模块产生的位置偏移，获得场景文字的外接矩形框的绝对位置；

根据预测到的每个外接矩形框的置信度，过滤掉置信度低于一阈值的预测框；

将预测到的掩码缩放到与其外界矩形框同等大小的尺度，根据阈值将其二值化；

根据外界矩形框的绝对位置，将上述二值化的掩码映射成与输入图像同等尺度的二值图；

利用掩码级的NMS过滤掉上述得到的密集重叠的二值掩码；

对于剩余的二值掩码，利用opencv自带的边缘获取算法得到文字区域的边缘坐标，标出任意形状文字位置。

6.如权利要求1所述的方法，其特征在于，矫正网络基于空间变换网络，通过其定位网络预测一组定位需要的控制点，从控制点计算TPS变换并将其传递给网格生成器和采样器，生成矫正后图像；该定位网络存送卷积网络，包括6个卷积层、5个max-pooling层和2个全连接层。

7.如权利要求1所述的方法，其特征在于，曲线文字识别网络利用卷积网络提取卷积特征，将特征输入到双向LSTM的编码器，再通过含注意力机制的LSTMs解码器进行解码，输出识别文字结果。