CN112926372B

CN112926372B - 基于序列变形的场景文字检测方法及系统

Info

Publication number: CN112926372B
Application number: CN202010853196.4A
Authority: CN
Inventors: 彭良瑞; 肖善誉; 闫睿劼; 姚刚; 王生进; 闵载植; 石宗烨
Original assignee: Tsinghua University; Hyundai Motor Co; Kia Motors Corp
Current assignee: Tsinghua University; Hyundai Motor Co; Kia Corp
Priority date: 2020-08-22
Filing date: 2020-08-22
Publication date: 2023-03-10
Anticipated expiration: 2040-08-22
Also published as: US20220058420A1; CN112926372A; DE102021209201A1; KR20220023819A

Abstract

本发明公开一种基于序列变形的场景文字检测方法及系统。所述方法及系统包括：特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x，并发送至序列变形模块；序列变形模块通过对第一特征图x进行迭代采样，得到采样位置对应的特征图，并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m，并发送至辅助字符计数网络；序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图，并发送至目标检测基准网络；目标检测基准网络通过对第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果作为场景文字检测结果。

Description

基于序列变形的场景文字检测方法及系统

技术领域

本发明涉及信息处理技术领域，属于与图像处理、计算机视觉、机器学习相关的技术子领域，具体来讲，是一种采用深层神经网络设计实现的场景文字检测方法及系统，其中具有序列变形模块和辅助字符计数监督学习机制。

背景技术

近年来，基于深层神经网络(又称深度学习)的场景文字检测技术取得了极大的进步，卷积神经网络被广泛地应用于场景文字检测系统中。然而，由于文字在文种、尺度、方向、形状和长宽比等方面变化多样，以及卷积神经网络的感受野对几何变形建模具有内在局限性，非受控条件下的场景文字检测技术仍然是一个开放的问题，特别是对任意形状文本区域进行文字检测具有较大的难度，例如，场景图像中出现弯曲形状的文本。

已有的深度学习场景文字检测方法大致可分为两类，一类是实例层次检测方法，将文本实例(单词或者文本行)作为一类物体，采用通用物体检测框架，如Faster R-CNN、SSD，但这些方法的性能受限于卷积的固定感受野，因而对较大几何变形的建模能力尚显不足；另一类是组件层次检测方法，着眼于文本组件(例如文本段，字符，笔画或者最细颗粒度的像素)而不是整个文本实例的检测，但需要额外的组件聚合等后处理步骤，比如像素聚合或字符块连接，这些方法的性能也受组件预测错误的影响，并且由于这些方法往往需要较为繁琐的后处理步骤，不便进行端到端的一体式优化训练。

上述对背景技术的陈述仅是为了方便对本发明技术方案(使用的技术手段、解决的技术问题以及产生的技术效果等方面)的深入理解，而不应当被视为承认或以任何形式暗示该消息构成已为本领域技术人员所公知的现有技术。

发明内容

本发明旨在至少一定程度上解决上述问题，为此提供一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统，所述方法及系统包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络。

所述特征提取模块基于卷积神经网络对输入的场景图像提取第一特征图x，并将第一特征图x发送至序列变形模块；

所述序列变形模块通过对输入的第一特征图x的每一像素点通过预测偏移量进行迭代采样，得到采样位置对应的特征图，并且通过将第一特征图x与采样得到的特征图沿通道维度进行深度学习中的拼接操作而得到第二特征图m，将第二特征图m发送至辅助字符计数网络；

所述序列变形模块还通过对第二特征图m的通道维度上进行特征聚合操作而得到第三特征图，并将第三特征图发送至目标检测基准网络；

所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果，作为场景文字检测结果。

优选地，在训练阶段，目标检测基准网络采用多种目标函数，利用深层神经网络误差反向传播机制，运用梯度下降法调整神经网络节点参数进行训练，所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数；在训练阶段，还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择，将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列，并发送至辅助字符计数网络。

优选地，所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模，预测生成内容无关字符序列；所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数，利用对应文本区域真实文本标签的内容无关字符信息，对内容无关字符序列预测结果构建目标函数，由此形成辅助字符计数监督学习机制；所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练，从而辅助引导序列变形模块适应各种文本区域的变形。

优选地，所述第一特征图x为大小H×W×C的矩阵，其中，H为特征图高度，W为特征图宽度，C为特征图通道数。

优选地，所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1×1、卷积核个数为的卷积层构成；每个序列采样网络由一个双线性采样器，一个循环神经网络和一个线性层构成；两个单独的序列采样网络从第一特征图x上的同一个起始位置p出发，沿两个不同的方向对特征进行采样；在每个时间步t，给定一个序列采样网络，当前位置为第一特征图x上的起始位置p加上当前累积偏移量p_d,t，双线性采样器对当前位置p+p_d,t输出采样的特征x(p+p_d,t)；0≤时间步t≤T，T表示预先设定的迭代次数，d表示从起始位置的方向，d＝1,2；循环神经网络以采样的特征x(p+p_d,t)作为输入，生成隐含状态h_d,t；线性层以隐含状态h_d,t作为输入，预测相对于当前位置p+p_d,t的二维向量形式的偏移量Δp_d,t；新的累积偏移量p_d,t+1通过将预测偏移量Δp_d,t加至当前累积偏移量p_d,t得到；进一步地，以第一特征图x和所有采样特征图拼接得到的第二特征图m，通过在通道数为(2T+1)·C的第二特征图m上选取特定位置的特征向量，并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列，将选取位置处的特征序列作为所述辅助字符计数网络的输入；对第二特征图m的通道维度上进行特征聚合操作得到第三特征图，特征聚合操作利用一个卷积核大小为1×1、卷积核个数为的卷积层实现，卷积核个数为k设为与第二特征图通道数(2T+1)·C相同。

优选地，所述辅助字符计数网络为深度学习中的序列到序列模型所述辅助字符计数网络通过在通道数为(2T+1)·C的中间特征图m上选取特定位置的特征向量，并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列，构成所述辅助字符计数网络的特征输入。

优选地，所述辅助字符计数网络采用单层多头的自注意力解码器，其中，所述辅助字符计数网络输入特征序列，并输入起始符号<SOS>或前一时刻预测的符号，从而输出下一个预测的符号，直到网络输出终止符号<EOS>。

本发明采取以上技术方案，利用包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络的整个模型在无复杂后处理步骤的情况下，可通过基于深度学习的端到端多任务优化训练进行模型参数的学习，即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数，以及辅助字符计数网络的内容无关字符序列预测目标函数，最终实现可适应多种文本区域变形的场景文字检测系统。

附图说明

下文将结合附图对本发明的示例性实施例进行更为详细的说明。为清楚起见，不同附图中相同的部件以相同标号示出。需要说明的是，附图仅起到示意作用，其并不必然按照比例绘制。在这些附图中：

图1为根据本发明实施例的基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统的流程示意图；

图2为现有的3×3标准卷积和根据本发明实施例的序列变形的采样位置的对比图；

图3为根据本发明实施例的序列变形模块的结构示意图；

图4为根据本发明实施例的辅助字符计数过程的示意图；

图5为具有根据本发明实施例的序列变形模块与辅助字符计数网络的目标检测基准网络的示意图，其中，目标检测基准网络采用Mask R-CNN。

具体实施方式

下面结合附图描述本发明的实施例，附图中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

根据本发明实施例的基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法及系统的流程示意图如图1所示，包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络。

对于输入的场景图像，在采用基于卷积神经网络的特征提取模块提取第一特征图之后，序列变形模块对第一特征图每一像素点通过预测偏移量进行迭代采样，得到采样位置对应的特征图，以适应文本行区域形状的变化，将第一特征图与采样得到的特征图沿通道维度进行深度学习中常规的拼接操作，得到第二特征图，将第二特征图送入辅助字符计数网络，并且对第二特征图的通道维度上进行特征聚合操作得到第三特征图，将第三特征图送入目标检测基准网络。

目标检测基准网络对输入的第三特征图进行文本区域候选框提取，并进一步通过文本区域分类和文本区域包围框的回归拟合得到文本区域预测结果作为系统输出；在训练阶段，目标检测基准网络采用文本区域分类和文本区域包围框的回归的两种目标函数，利用深层神经网络误差反向传播机制，运用梯度下降法调整神经网络节点参数进行训练；在训练阶段，还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择，将与真值区域框匹配的候选框(即正类文本区域候选框，简称正候选框)的中心位置用于选取第二特征图上的特征序列，送入辅助字符计数网络。

辅助字符计数网络对第二特征图上正候选框内选取的特征序列进行字符序列建模，预测生成内容无关字符序列，即在建模过程中只考虑字符出现与否，不考虑字符具体内容，等同于只对序列中的字符计数，也可类比于人在不认识某文种文字的情况下仅对字符进行计数；辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数，利用对应文本区域文本真值的内容无关字符序列，对内容无关字符序列预测结果构建目标函数，由此形成辅助字符计数监督学习机制。辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练，可在一定程度上辅助引导序列变形模块适应各种文本区域的变形。

包含特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络在内的整个模型在无复杂后处理步骤的情况下，可通过基于深度学习的端到端多任务优化训练进行模型参数的学习，即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数，以及辅助字符计数网络的内容无关字符序列预测目标函数，最终实现可适应多种文本区域变形的场景文字检测系统。

需要说明的是，图2为3×3标准卷积和本发明实施例中序列变形的采样位置的对比图，为了更清晰的可视化，采样位置被映射到了输入图像上。图2中的(a)和(b)展示了两个样本的标准卷积的采样位置。黑点表示卷积的中心位置。图2中的(c)和(d)展示了对应于图2中的(a)和(b)两个样本，采用两个不同方向序列采样网络输出结果，黑点表示序列采样起始位置，每一个灰色箭头表示一个时间步预测的偏移量。

下面将通过具体实施例对基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法进行进一步阐述。本发明实施例在一个具有NVIDIA Tesla V100 GPU并行计算支持的计算机上，使用PyTorch(https://github.com/pytorch/pytorch)深度学习框架实现，并且利用了MMDetection开源目标检测工具包(https://github.com/open-mmlab/mmdetection)中的Mask R-CNN目标检测基准框架的实现和Transformer多头自注意力网络(https://github.com/jadore801120/attention-is-all-you-need-pytorch)的技术，具体如下：

首先，如图3所示，序列变形模块先以序列的方式进行采样操作，然后序列变形模块通过在第二特征图m上进行1×1卷积实现特征聚合，其中，第二特征图m是第一特征图和所有采样特征图沿着通道维度上的拼接得到，适应性地捕捉了文本实例层次的表征。将第一特征图上每个像素p(每一个整数位置)作为起始位置，两条相对采样位置分支S_d＝{p_d,t|t＝1,…,T}(d＝1,2)通过偏移量累加序列性地生成，从而构成两条采样路径：

p_d,t+1＝p_d,t+Δp_d,t,t＝0,…,T-1

其中，p_d,0＝(0,0)(d＝1,2)，Δp_d,t表示当前的二维偏移量，T表示预先设定的迭代次数。默认的迭代次数T＝7。序列采样网络密集地运行，因此在每个时间步t，所有的Δp_d,t(d＝1,2)构成一个偏移量图，所有p_d,t(d＝1,2)构成累积偏移量图，所有采样特征x(p+p_d,t)(d＝1,2)构成采样特征图x_d,t(x_d,t(p)＝x(p+p_d,t))。利用双线性采样器将采样位置临近像素点的特征图进行双线性插值得到x(p+p_d,t)。双线性插值是可微分的，因此序列变形模块的训练过程是完全的端到端优化训练过程。

序列采样网络在第一特征图x上密集地逐像素运行，第一特征图上每个像素(每一个整数坐标位置)均被作为起始位置p，即p包括H×W图像上的所有像素位置{(0,0),(0,1),…,(H-1,W-1)}。

序列采样过程通过序列采样网络实现。序列采样网络由一个循环神经网络(在公式中用RNN表示)和一个线性层(在公式中用Linear表示，即神经网络中的全连接层)构成，同时两条单独的采样路径由两个独立的序列采样网络生成，因此每个时刻的预测偏离量基于当前和之前的采样特征{x(p+p_d,0),…,x(p+p_d,t)}(即{x_d,0(p),…,x_d,t(p)})得到：

h_d,t＝RNN_d(x(p+p_d,t),h_d,t-1)＝RNN_d(x_d,t(p),h_d,t-1)，

Δp_d,t＝Linear_d(h_d,t)。

1×1卷积层在输入特征和所有采样特征的拼接而成的特征上进行特征聚合，从而输出聚合后的特征；特征聚合过程通过在第二特征图m上进行1×1卷积得到第三特征图y；第二特征图m是第一特征图x和所有采样特征图x_1,t与x_2,t沿着通道维度上的拼接操作得到：

x_d,t(p)＝x(p+p_d,t)

m＝Concat({x}∪{x_d,t|d＝1,2,t＝1,…,T})

y＝Conv_1×1(m)

其中Concat(·)指沿通道维度上的拼接操作；第二特征图m的通道数为(2T+1)·C，其中C是输入特征图的通道数，2T+1对应于2T个采样特征图和一个原始特征图。Conv_1×1(·)指1×1卷积层，即利用一个卷积核大小为1×1、卷积核个数为k的卷积层实现，卷积核个数为k设为与第二特征图通道数(2T+1)·C相同，即第三特征图y的通道数也是(2T+1)·C。

其次，辅助字符计数监督学习任务被建模为一个序列到序列问题，详细过程如图4所示。本发明实施例从第二特征图m上选取训练样本。利用目标检测基准网络中的区域候选网络得到的正候选框，在正候选框的中心区域附近选取训练样本。对于一个选定的正候选框，将其以给定的收缩系数σ向中心收缩。σ对于ResNet-18和ResNet-50主干网络分别被设置为0.1和0.3。从收缩的区域随机选取一个位置作为选定位置p_c，并生成一个字符计数训练样本。对于第一特征图层次i的候选框，从对应层次i的第二特征图m_i生成字符计数训练样本。

给定选取位置p_c，得到通道数为(2T+1)·C的特征向量m(p_c)，并改变特征向量的形状，使其成为长度2T+1、通道数C的特征序列，该特征序列构成了一个字符计数训练样本。实际计算中，将选取位置p_c临近像素点的特征图进行双线性插值得到m(p_c)。

一个单层的Transformer网络被用于预测内容无关字符序列，该网络在每个时间步为四种符号做分类，符号包括：序列起始符号"<SOS>"，序列终止符号"<EOS>"，为便于数据并行计算序列长度补齐的填补符号"<PAD>"和内容无关字符符号<Char>。内容无关字符符号<Char>表示一个字符的存在，忽略其具体文本代码内容。

对于文本真值序列，可将其中的字符代码逐个替换为内容无关的<Char>符号，得到的文本真值的内容无关字符序列，即包含连续的<Char>符号，<Char>符号的个数等于对应文本真值中的字符个数；文本真值的内容无关字符序列最后包含一个序列终止符号"<EOS>"；

在训练阶段，通过在多头的自注意力层上对文本真值的内容无关字符序列进行掩码操作，解码器的计算过程是迭代进行的，并且前向计算时解码器只能观察到当前时刻之前的输入符号真值。

辅助字符计数网络的目标函数为：

L_count＝-logp(s|reshape(m(p_c)))。

其中，reshape表示改变通道数为(2T+1)·C的特征向量m(p_c)的形状，使其成为长度2T+1、通道数C的特征序列。s为对应文本真值的内容无关字符序列，p(s|reshape(m(p_c)))为Tranformer网络中输出的内容无关字符序列预测的平均softmax值，softmax值的计算方法与常规深度学习方法一致。

在训练阶段，辅助字符计数网络的目标函数L_count与目标检测基准网络的目标函数共同发挥作用，通过神经网络常规采用的误差反向传播，运用梯度下降法调整模型参数，使目标函数极小化。

在本发明实施例中，序列变形模块中的循环神经网络使用单层普通RNN，其中隐藏状态数为64，激活函数为ReLU，网络参数初始化方式为Xavier高斯初始化。辅助字符计数网络使用单层普通Transformer，其中前馈层输出维度为128，注意力头数量为1，激活函数为GeLU，Dropout比例为0.1，网络参数初始化方式为Xavier高斯初始化。

最后，序列变形模块和辅助字符计数监督学习机制可以方便地集成至其他常用目标检测框架中，如图5所示。

本发明实施例中将序列变形模块和辅助字符计数监督学习机制集成至Mask R-CNN目标检测基准框架，但本发明的实施不限于Mask R-CNN。序列变形模块位于不同特征层次的特征金字塔网络特征图(FPN)和区域候选网络(RPN)之间，序列变形模块在不同特征层次之间共享，即不同特征层次的特征图用参数相同的序列变形模块进行处理。同时，RoIAlign层从序列变形模块输出的第三特征图y上提取区域特征。

在ICDAR 2017MLT(http://rrc.cvc.uab.es/？ch＝8)，ICDAR 2015(https://rrc.cvc.uab.es/？ch＝4)，Total-Text(https://github.com/cs-chan/Total-Text-Dataset)和SCUT-CTW1500(https://github.com/Yuliang-Liu/Curve-Text-Detector/tree/master/data)数据集上，利用数据集中的训练集进行训练，在对应的测试集上测试模型性能。在各个数据集上训练的具体方式如下：

ICDAR 2017MLT：按深度学习常规方法采用ImageNet预训练模型，在ICDAR2017MLT训练集上训练140轮(将整个训练集样本处理一遍即训练1轮)，前80轮的学习率设为4×10^-2，第81～125轮的学习率设为4×10^-3，第126～140轮的学习率设为4×10^-4。

ICDAR 2015：采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在ICDAR 2015训练集上训练120轮，前80轮的学习率设为4×10^-3，第81～120轮的学习率设为4×10^-4。

Total-text：采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在Total-text训练集上训练140轮，前80轮的学习率设为4×10^-3，第81～140轮的学习率设为4×10^-4。

SCUT-CTW1500：采用上述在ICDAR 2017MLT数据集上训练得到模型作为预训练模型。在SCUT-CTW1500训练集上训练140轮，前80轮的学习率设为4×10^-3，第81～140轮的学习率设为4×10^-4。

在训练过程中，GPU并行计算的批量处理大小Batch_Size设为32。其他训练超参数的设置与常规深度学习所采用的设置一致。

表1、表2和表3是本发明实施例的实验结果。表1列举了在ICDAR2017MLT多文种文本检测数据集上Mask R-CNN目标检测基准网络集成和不集成序列变形模块和辅助字符计数监督学习机制的消融实验的结果。

F1分数为准确率(又称查准率)和召回率(又称查全率)的调和平均，被用作综合评价指标。结果展示了序列变形模块和辅助字符计数监督学习机制的有效性。

表1为序列变形模块和辅助字符计数监督学习机制在ICDAR2017MLT数据集上的有效性验证。Baseline为Mask R-CNN目标检测基准模型，在本发明实施例中采用主干网络为ResNet-18和ResNet-50的两种实现。SDM指序列变形模块(sequential deformationmodule)，ACC指辅助字符计数(auxiliary character counting)监督学习机制。

表1

表2列举了在ICDAR 2017MLT多文种文本和ICDAR 2015场景文本检测数据集上本发明实施例和其他最新文献公开方法的对比结果。F1分数被用作评价指标。本发明实施例在ICDAR 2017MLT和ICDAR 2015这两个数据集上取得了较高的检测性能，表明了序列变形模块和辅助字符计数监督学习机制的鲁棒性。

表2为ICDAR2017 MLT和ICDAR 2015数据集上的比较结果。SDM指序列变形模块，ACC指辅助字符计数监督学习机制，MT指对输入图像采用多尺度图像缩放的处理之后再进行文字检测的性能测试。PSENet(https://arxiv.org/abs/1903.12473)、FOTS(https://arxiv.org/abs/1801.01671)、PMTD(https://arxiv.org/abs/1903.11800)为文献公开的现有方法。

表2

表3为列举了在Total-Text和SCUT-CTW1500场景文本检测数据集上本发明实施例和其他文献公开方法的对比结果。Total-Text和SCUT-CTW1500包含较多场景弯曲文本的图像样本。表3的实验结果显示本发明实施例在Total-Text和SCUT-CTW1500这两个更具挑战性的弯曲文本数据集上也取得了很高的检测性能，表明了序列变形模块和辅助字符计数监督学习机制对弯曲文本等场景图像样本的适应能力。

表3为Total-Text和SCUT-CTW1500数据集上的比较结果。SDM指序列变形模块，ACC指辅助字符计数监督学习机制，MT指多尺度图像测试。PAN(https://arxiv.org/abs/1908.05900)为文献公开的现有方法。

根据本发明实施例的基于序列变形模块和辅助字符计数监督机制的场景文字检测方法，包含特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络在内的整个模型在无复杂后处理步骤的情况下，可通过基于深度学习的端到端多任务优化训练进行模型参数的学习，即训练过程中多任务目标函数包括目标检测基准网络的文本区域分类和文本区域包围框回归的目标函数，以及辅助字符计数网络的内容无关字符序列预测目标函数，最终实现可适应多种文本区域变形的场景文字检测系统。

表3

在本说明书的描述中，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

以上示例性实施方案所呈现的描述仅用以说明本发明的技术方案，并不想要成为毫无遗漏的，也不想要把本发明限制为所描述的精确形式。显然，本领域的普通技术人员根据上述教导作出很多改变和变化都是可能的。选择示例性实施方式并进行描述是为了解释本发明的特定原理及其实际应用，从而使得本领域的其它技术人员便于理解、实现并利用本发明的各种示例性实施方式及其各种选择形式和修改形式。本发明的保护范围意在由所附权利要求书及其等效形式所限定。

Claims

1.一种基于序列变形模块和辅助字符计数监督学习机制的场景文字检测方法，其特征在于，包括特征提取模块、序列变形模块、辅助字符计数网络和目标检测基准网络；

所述目标检测基准网络通过对输入的第三特征图进行文本区域候选框提取，并通过回归拟合得到文本区域预测结果，作为场景文字检测结果；

所述序列变形模块由两个单独的序列采样网络和一个卷积核大小为1×1、卷积核个数为k的卷积层构成；

每个序列采样网络由一个双线性采样器，一个循环神经网络和一个线性层构成；

两个单独的序列采样网络从第一特征图x上的同一个起始位置p出发，沿两个不同的方向对特征进行采样；

在每个时间步t，给定一个序列采样网络，当前位置为第一特征图x上的起始位置p加上当前累积偏移量p_d,t，双线性采样器对当前位置p+p_d,t输出采样的特征x(p+p_d,t)；0≤时间步t≤T，T表示预先设定的迭代次数，d表示从起始位置的方向，d＝1,2；

循环神经网络以采样的特征x(p+p_d,t)作为输入，生成隐含状态h_d,t；线性层以隐含状态h_d,t作为输入，预测相对于当前位置p+p_d,t的二维向量形式的偏移量Δp_d,t；新的累积偏移量p_d,t+1通过将预测偏移量Δp_d,t加至当前累积偏移量p_d,t得到；

进一步地，以第一特征图x和所有采样特征图拼接得到的第二特征图m，通过在通道数为(2T+1)·C的第二特征图m上选取与真值区域框匹配的正候选框的中心位置的特征向量，并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列，将选取位置处的特征序列作为所述辅助字符计数网络的输入；

对第二特征图m的通道维度上进行特征聚合操作得到第三特征图，特征聚合操作利用一个卷积核大小为1×1、卷积核个数为k的卷积层实现，卷积核个数为k设为与第二特征图通道数(2T+1)·C相同。

2.根据权利要求1所述的方法，其特征在于，

在训练阶段，目标检测基准网络采用多种目标函数，利用深层神经网络误差反向传播机制，运用梯度下降法调整神经网络节点参数进行训练，所述多种目标函数包括文本区域分类和文本区域包围框回归的目标函数；

在训练阶段，还利用样本真值区域框信息对目标检测基准网络中的文本区域候选框进行选择，将与真值区域框匹配的正候选框的中心位置用于选取第二特征图m上的特征序列，并发送至辅助字符计数网络。

3.根据权利要求1所述的方法，其特征在于，

所述辅助字符计数网络对第二特征图m上正候选框内的选取的特征序列进行字符序列建模，预测生成内容无关字符序列；

所述辅助字符计数网络的目标函数采用深度学习序列建模中常用的负对数似然函数，利用对应文本区域真实文本标签的内容无关字符信息，对内容无关字符序列预测结果构建目标函数，由此形成辅助字符计数监督学习机制；

所述辅助字符计数网络的目标函数与目标检测基准网络的目标函数共同参与训练，从而辅助引导序列变形模块适应各种文本区域的变形。

4.根据权利要求1所述的方法，其特征在于，所述第一特征图x为大小H×W×C的矩阵，其中，H为特征图高度，W为特征图宽度，C为特征图通道数。

5.根据权利要求1所述的方法，其特征在于，所述辅助字符计数网络为深度学习中的序列到序列模型，所述辅助字符计数网络通过在通道数为(2T+1)·C的第二特征图m上选取与真值区域框匹配的正候选框的中心位置的特征向量，并改变特征向量的形状得到一个长度为2T+1且通道数为C的特征序列，构成所述辅助字符计数网络的特征输入。

6.根据权利要求5所述的方法，其特征在于，所述辅助字符计数网络采用单层多头的自注意力解码器，其中，所述辅助字符计数网络输入特征序列，并输入起始符号<SOS>或前一时刻预测的符号，从而输出下一个预测的符号，直到网络输出终止符号<EOS>。