CN113361432B

CN113361432B - 一种基于深度学习的视频文字端到端检测与识别的方法

Info

Publication number: CN113361432B
Application number: CN202110662868.8A
Authority: CN
Inventors: 邓建华; 秦琪怡; 常为弘; 俞泉泉; 何佳霓; 杨杰; 李龙; 代铮; 郑凯文; 赵建恒; 陶泊昊; 苟晓攀; 肖正欣; 余坤; 陈翔; 蔡竟业
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2022-03-15
Anticipated expiration: 2041-06-15
Also published as: CN113361432A

Abstract

本发明公开了一种基于深度学习的视频文字端到端检测与识别的方法，属于视频文字处理技术领域。本发明的步骤包括：对待识别的视频序列段，分别对每一视频帧图像进行图像尺寸归一化处理，以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配；将预处理后的图像依次输入至端到端的文字检测与识别网络，获取待识别的视频序列段的文字识别结果。本发明实现了视频文字端到端的检测与识别，规避了多模块目标不一致而导致误差累积等固有缺陷，减少了工程复杂度。还通过共享特征提取网络优化网络结构，同时由于使用了感受野较大的特征图输入到网络的识别分支中，相比于使用原图进行输入，特征图能够包含更大范围的信息，提高了识别准确率。

Description

一种基于深度学习的视频文字端到端检测与识别的方法

技术领域

本发明涉及视频文字处理技术领域，尤其涉及一种基于深度学习的视频文字端到端检测与识别方法。

背景技术

年来，随着社会信息化数字化发展，多媒体信息的广泛传播使得如何从海量的视频、图像中提取信息成为了急切需要解决的问题。视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工，借助视频文字检测识别技术进行视频内容提取与审核等工作，能够大幅提高效率并降低人力成本。

其中，文字检测是指使用文字检测算法对输入的图像进行检测，判断输入图像中是否含有文字，如果图像中包含文字，则进一步地对其在图像中出现的位置进行定位。文字识别是指使用文字识别算法对输入图片中含有的文字信息进行识别，对于输入图片的要求较为严格，需要尽可能只包含含有文字的区域，因此往往是在文字检测成功的前提下进行的。

然而视频图像中的文字信息具有背景复杂、图像模糊、文字的字形字体多样性强、有时字形显示不完整等特点，这些特点注定了对视频文字进行检测与识别是一项难度较大的工作。有效地应用深度学习技术，可以提高视频文字信息提取的速度，从而大幅地减少人力成本，加快审核和内容提取的效率。在本发明的技术方案的实现过程中，发明人发现：现有的两阶段文字检测与识别方法，可能在检测的过程中引入误差，例如对文字区域误检、漏检或检测不完整，导致识别结果出错。因此需要一种基于深度学习的视频文字端到端检测与识别方法来克服现有方法存在的问题。

发明内容

本发明的目的在于，提供一种基于深度学习的视频文字端到端检测与识别的方法，通过共享特征提取网络改善现有的两阶段视频文字检测识别方法中检测结果不准确时容易干扰识别结果的问题，同时提高网络推理的效率。

本发明采用的技术方案如下：

一种基于深度学习的视频文字端到端检测与识别方法，包括如下步骤：

步骤S1：对待识别的视频序列段，分别对每一视频帧图像进行图像尺寸归一化处理，以使得预处理后的图像尺寸与端到端的文字检测与识别网络的输入相匹配；

步骤S2：将预处理后的图像依次输入至端到端的文字检测与识别网络，获取待识别的视频序列段的文字识别结果；

所述端到端的文字检测与识别网络的网络结构包括共享特征提取网络、检测分支和识别分支；

所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层(也可称为卷积单元)，并定义N表示共享特征提取网络的大卷积层数量；

其中，每个大卷积层包括若干个顺次连接的瓶颈残差结构，且每个大卷积层包括的瓶颈残差结构的数量可调，所述瓶颈残差结构的输入到输出存在一个恒等映射，且每个瓶颈残差结构的末尾设置有通道注意力机制；

在输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样，以及将第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合，得到特征图MN并作为检测分支的输入特征图，将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合，得到特征图M2并作为识别分支的输入特征图；

所述检测分支包括双向长短记忆网络层、卷积层和全连接层。特征图MN为检测分支双向长短记忆网络层的输入，所述双向长短记忆网络层的输出特征图为全连接层的输入特征图；全连接层后并行两个全连接层，并分别用于获取当前输入图像的文本框位置以及文本框置信度；

所述识别分支包括顺次连接的至少三个大卷积层、至少两层双向长短记忆网络层、至少一层全连接层和一层字符类别概率输出层，其中，识别分支的每个大卷积层包括的瓶颈残差结构数量相同，该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同；

基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理，再基于当前的各文本框位置，在特征图M2中获取对应的文本区域，并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸后，再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图；

待识别的视频序列段的文字识别结果为：

基于识别分支输出的各个文本区域的字符类别概率，基于最大字符类别概率得到各文本区域的字符类别的编号，并基于字符类别的编号得到文本区域的文字，从而得到按照文本行中的文本区域序列所对应文字序列；对所述文字序列一次进行去重与去占位空字符处理，得到最终的识别结果。

本发明提供的技术方案至少带来如下有益效果：本发明实现了视频文字端到端的检测与识别，规避了多模块目标不一致而导致误差累积等固有缺陷，减少了工程复杂度。还通过共享特征提取网络优化网络结构，同时由于使用了感受野较大的特征图输入到网络的识别分支中，相比于使用原图进行输入，特征图能够包含更大范围的信息，提高了识别准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种基于深度学习的视频文字端到端检测与识别的方法的处理过程示意图；

图2是本发明实施例中，采用的端到端的文字检测与识别网络的结构示意图；

图3是本发明实施例中，数据集的建立过程示意图；

图4是本发明实施例中，建立数据集的示意图；

图5是本发明实施例中，检测识别结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

现有的文字检测与文字识别相分离的两阶段方法容易因为检测的不准确进而导致识别的错误。因此本发明实施例中将文字检测方法和文字识别方法进行整合，通过共享特征提取网络，简化部分运算，同时由于使用了感受野较大的特征图输入到网络的识别分支中，相比于使用原图进行输入，特征图能够包含更大范围的信息，减少因为检测结果不准确，导致文本行的部分未被检出，进而使得识别结果错误的问题。

参见图1，在一种可能的实现方式中，本发明实施例提供的基于深度学习的视频文字端到端检测与识别的方法包括下列步骤：

所述端到端的文字检测与识别网络的网络结构为：

参见图2，端到端的文字检测与识别网络包括共享特征提取网络、检测分支和识别分支；

所述共享特征提取网络包括顺次连接的输入层(卷积层)、批归一化处理层(BatchNorm)、非线性激活层(如采用ReLU激活函数)、最大池化层(Max Pooling)和至少四个大卷积层(也可称为卷积单元)，本发明实施例中，将共享特征提取网络的各大卷积层按照前向传播方向依次标记为：Conv_2_x、Conv_3_x、Conv_4_x、Conv_(N+1)_x，其中N表示共享特征提取网络的大卷积层数量。

以及将第N个大卷积层的输出特征图(大卷积层输出的过程特征图)与第N-1个大卷积层的输出特征图进行特征融合，得到特征图MN并作为检测分支的输入特征图，将特征图M4与第N-2至第1个大卷积层进行逐层的特征融合，得到特征图M2并作为识别分支的输入特征图；

所述检测分支包括序列特征提取网络层、卷积层和全连接层，检测分支的第一卷积层的输入特征图为特征图MN，检测分支的第一卷积层的输出特征图为序列特征提取网络层的输入特征图，所述序列特征提取网络层(可以是双向LSTM网络，也可以门控循环单元GRU)的输出特征图分别为检测分支的第二和第三卷积层的输入特征图，检测分支的第二卷积层的输出特征图为检测分支的第一全连接层的输入特征图；测分支的第三卷积层的输出特征图为检测分支的第二全连接层的输入特征图；两个全连接层并列，且分别用于获取当前输入图像的文本框位置以及文本框置信度(置信得分)；

所述识别分支包括顺次连接的至少三个大卷积层、至少两层序列特征提取网络层、至少一层全连接层和一层字符类别概率输出层，其中，识别分支的每个大卷积层包括的瓶颈残差结构数量相同，该瓶颈残差结构与共享特征提取网络的瓶颈残差结构的网络结构相同；

基于非极大值抑制处理对同一图像中的文本框进行冗余剔除处理，使用文本行拼接算法将文本框拼接成文本行，再基于当前的各文本框位置，在特征图M2中获取对应的文本区域，并对待识别的视频序列段的所有视频帧图像中的文本区域通过双线性插值将其尺寸缩放为指定尺寸(例如40×8)后，再采用文本行拼接法拼接成文本行并作为识别分支的第一个大卷积层的输入特征图；

待识别的视频序列段的文字识别结果为：

优选的，在共享特征提取网络的输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样，以及在识别分支的每个大卷积层的第一个瓶颈残差结构中对其输入特征图的高度进行1/2的下采样，因此最终输出的特征图的高度将为输入特征图的1/8，宽度保持不变，。

作为一种可能的实现方式，本发明实施例中，每个瓶颈残差结构包括堆叠的三个卷积层，且第三个卷积层中卷积核的个数为前两个卷积层的4倍。参见图2，即本发明实施例中，每个瓶颈残差结构包括顺次连接的三个卷积块，每个卷积块包括顺次连接的批归一化处理层、非线性激活层和卷积层。

优选的，每个瓶颈残差结构包括的三个卷积层的卷积核大小依次为：1×1，3×3，1×1，且第三个卷积层中卷积核的个数为前两个卷积层的4倍。

在一种可能的实现方式中，所述瓶颈残差结构的通道注意力机制为：分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征，即对瓶颈残差结构的卷积分支的输出特征图(瓶颈残差结构的最后一个卷积层的输出特征图)分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征，在对同一通道的两个全局特征进行平铺并在首尾填充，再由两个卷积核大小为3的一维卷积分别进行局部跨信道交互，得到两个交互后的全局特征。将两个全局特征相加，得到通道权重，再和每个通道的全部像素值进行点乘计算，以实现对每个通道进行赋权，增强有效特征的表示，从而得到瓶颈残差结构的通道注意力机制的输出特征图，进而基于该输出特征图与瓶颈残差结构的输入特征图得到瓶颈残差结构的最终输出特征图。

在一种可能的实现方式中，将共享特征提取网络的第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合具体为：对第N个大卷积层的输出特征图(例如图2中Conv_5_x的输出特征图)使用1×1卷积进行降维(例如降维至512)，再与第N-1个大卷积层的输出特征图逐元素相加，经过批归一化处理，得到特征图MN。例如图1中所示的网络结构，则将得到通道数1024，下采样1/16的特征图M4。

在获取特征图M2时，其具体的特征融合处理包括：对当前特征融合得到的特征图采用双线性插值算法进行2倍的上采样，再通过1×1卷积降维，在与前一个大卷积层的输出特征图逐元素相加，经过批归一化处理，得到新的融合的特征图。例如对应于图1中所示的四个大卷积层的结构，对特征图M4采用双线性插值算法进行2倍的上采样，使用通过1×1卷积降维至512维，与Conv_3_x的输出特征图逐元素相加，经过批归一化处理，得到通道数512，下采样1/8的特征图M3，接着对新的融合的特征图M3继续使用双线性插值算法进行2倍的上采样，通过1×1卷积降维至256维，与Conv2的输出特征图逐元素相加，经过批归一化处理，得到通道数256，下采样1/4的特征图M2。

在一种可能的实现方式中，所述端到端的文字检测与识别网络在训练时的损失函数包括：检测分支的损失函数和识别分支的损失函数，其中，检测分支的损失函数包括三部分：关于文本框位置的smooth L1损失函数和关于文本框置信度(置信分)的交叉损失函数；识别分支的损失函数为CTC(Connectionist Temporal Classification)损失。

在一种可能的实现方式中，在本发明实施例中，检测分支的两个全连接层输出中，具体为：第一全连接层用于对每个预设的锚点(anchor,即先验框)进行前后景的分类及高度方向上的偏移与长度的回归计算，得到每个文本框位置，第二全连基层用于基于预设的计算规则计算每个文本框的前后景置信度。

在一种可能的实现方式中，所述文本行拼接法包含如下步骤：

步骤(1)：根据锚点(即检测分支获取的文本框)的水平坐标对其进行排序，沿水平正方向寻找与每个锚点i的水平距离小于指定像素值(例如50像素)的候选锚点，由于每个锚点的宽度固定(例如16像素)，因此最多正向寻找一定个数的候选锚点(本实施例中对应于16像素的宽度和50像素的间隔，候选锚点的个数为3)，将与当前锚点在竖直方向上的交并比大于指定值(例如0.7)且置信分最大的候选锚点j进行选定。

然后对被选定的候选锚点j进行反向寻找，沿水平负方向寻找与其水平距离小于50像素的候选锚点，同样寻找到这些候选锚点中与被选定锚点j在竖直方向上的交并比大于0.7且置信分最大的候选锚点k；

步骤(2)：对比锚点i与锚点k的置信分，若锚点i的置信分不小于锚点k的置信分，说明锚点i与锚点j形成的连接是最长连接，在连接图中将G(i,j)置为True；若锚点i的置信分小于锚点k的置信分，说明锚点i与锚点j形成的连接不是最长连接，存在一个更长的连接将锚点i与锚点j包含在其中；

步骤(3)：当所有的锚点都寻找到了配对后，一个N×N的连接图就构建完成了，N为锚点的数量。遍历连接图，将端点重合的配对进行组合之后即可得到文本行；

优选的，所述共享特征提取网络包含49个卷积层，除了输入层外组成4个大卷积层，每个大卷积层由若干个瓶颈残差结构组成，个数分别为3个、4个、6个、3个，每个大卷积层的下采样分别为原图大小的1/4，1/8，1/16，1/16。

优选的，本发明实施例中，检测分支中，检测分支的第二卷积层和第三卷积层的卷积核大小均设置为1×1，且第二、三卷积层的卷积核个数分别为40和20。

优选的，非线性激活层采用的ReLU激活函数，字符类别概率输出层采用的激活函数为Softmax，序列特征提取网络层包括的隐藏单元数设置为256。

在一种可能的实现方式中，本发明实施例中，对所述端到端的文字检测与识别网络的训练包括：

(1)设置识别数据集。

将将视频图像中存在的文本区域以行为单位进行标记，标注文本区域的四个角点坐标，获得文本框的左上、右上、左下、右下四个角点的坐标值以及在该区域内的文本信息，该识别数据集包括训练集与测试集。

参见图3，本发明实施例中，设置识别数据集的过程为：

(1-1)：截取视频帧：采集清晰度高于720P的视频数据，从中截取画面中存在文本信息的片段，每隔一秒截取一帧画面进行保存，并且剔除含有重复文本信息的图片。

(1-2)：标注文本区域：将画面中存在文本信息的区域利用矩形框以行为单位框出，需要确保矩形框覆盖该文本行的全部区域，若同一行文本中存在较大间隔，将其标注为两个文本框。

(1-3)：标注文本信息：标注步骤(1-2)中得到的文本区域内存在的文本信息，如图4所示。

(2)将述训练集输入到所设置的端到端的文字检测与识别网络中进行训练，获取训练得到的最优模型后，将测试集输入最优模型获得文字检测与识别结果。

训练时，将识别分支的输出与文本标签通过CTC loss进行损失值的计算，并与检测分支的损失值相加后进行反向传播。

其中，检测分支的损失函数可以设置如下：

式中，Loss(s_i，v_j，o_k)表示检测分支的损失函数，其由三部分组成。N_s、N_v分别是用于分类和回归的锚点总数，

是每个锚点是否为含有文本的正样本的分类损失，s_i是预测得到的锚点分类置信分数，

表示真实值(即标签值)，正样本(前景)为1，否则为0；

是对每个锚点中心的y坐标和高度的回归损失，v_j是预测得到的锚点在竖直方向上的位置信息，包含v_c和v_h两个值，

是真实值，包含

和

两个值，v_c、v_h、

的计算公式如公式(1.2)、(1.3)、(1.4)、(1.5)所示，

其中，c_y、h，

h^a，

h^*分别是预测的文本候选框、锚点、标注的文本候选框的中心点纵坐标(y坐标)和高度(框的高度)；

针对端到端的文字检测与识别网络的识别分支，可根据训练集中每张图片对应的标签文件中的文本框位置信息，在特征图M2中将每个文本框对应区域进行截取，将同一批次的所有图片中的文本框都采用双线性插值法处理，并将文本区域特征拼接成批输入到识别分支中。将识别分支的输出与文本标签通过CTC loss进行损失值的计算，公式如(1.6)所示，

其中，S表示训练数据集。p(l|x)为给定输入x时得到标签l的最高概率。

需要说明的是，本发明实施中所设置的检测分支与识别分支在训练与预测时(基于训练好的网络进行识别处理时)采用不同的连接方式。训练时，根据训练集标签中的位置信息，从特征图M2中裁剪出缩小了对应尺寸的文字区域(例如对应本实施例中所设置的缩放比例，将其缩小为1/4)，通过双线性插值将其尺寸缩放至40×8像素。将训练样本中的所有文字区域特征图组合成批数据输入识别网络中继续前向传播。预测时，由于无法获取标签中的位置信息，因此需要根据检测分支的输出，使用文本行拼接法，将检测分支预测到的文本框拼接成行，得到其位置，再从特征图M2中裁剪相应位置，通过双线性插值将其尺寸缩放至40×8像素。将从检测结果得到的所有文本行区域特征图组合成批数据输入识别网络中继续前向传播。

训练时，可采用随机方式的初始化预训练网络参数(网络的权重参数)，做好网络训练准备。然后分批次将构建的数据集输入到所构建的网络中进行深度学习训练。可将随机梯度下降作为优化器，对反向传播算法得到的梯度进行优化以调整更新网络参数，直至计算结果与对应标签值之间的差距损失下降到特定阈值范围内，且在一段时间内未发生剧烈震荡(在验证集上的验证精度达到期望阈值范围内)，则神经网络训练完毕。保存当前的网络参数，结束网络模型训练。其中，验证精度可以通过F1 score评估检测部分验证集精度，True Positive评估参数来计算识别部分验证集精度。

采用下述网络结构对如测试集中的某幅图像进行识别处理，得到如图5所以的识别结果，图像下方所示的字符串，其中，“149,128,213,129,212,202,147,201”依次表示文本区域序列的坐标位置，即三个文本区域的坐标位置，“l3”表示该文本区域序列所对应的文字识别结果。本实施例中，所采用的网络结构具体为：

网络的共享特征提取网络包含49个卷积层，除输入层外组成4个大卷积层，每个大卷积层依次包括的瓶颈残差结构数量为：3个、4个、6个、3个，每个大卷积层的下采样分别为1/4，1/8，1/16，1/16。每个瓶颈残差结构中有三个卷积层，卷积核大小依次为1×1，3×3，1×1，第三个卷积层中卷积核的个数为前两个卷积层的4倍，同时输入到输出存在一个恒等映射，每个残差结构的卷积分支的末尾加入了通道注意力机制；并在第四个大卷积层的末尾添加特征融合结构，用于获取特征图M4、M3和M2，其中特征图M4、M3和M2各自的通道数分别设置为1024,512,256；从而得到检测分支与识别分支的输入特征图M4和M2；在检测分支的输入上使用步长为1的3×3卷积进行特征提取，调整张量形状后以每一行作为一个序列输入到隐藏单元数为256的双向LSTM层中提取序列特征，再经两个并列的卷积层(卷积核大小为1×1，卷积核个数分别为40或20)进行形状调整后输入神经元个数为512的全连接层中进行特征交互。最后由两个全连接分支对每个预设锚点进行前后景的分类及高度方向上的偏移与长度的回归计算。在识别分支中，采用18个卷积层，组成3个大卷积层，每个大卷积层均由2个残差凭借结构组成，每个大卷积层中的3×3卷积在高度方向上的步长为2，宽度方向上的步长为1，因此最后得到的特征图在宽度方向上相比于原图的下采样为1/4，在高度方向上为1/32。通过特征提取，得到高度为1像素的特征图像，将其平铺后依次输入两个隐藏单元数为256的双向LSTM层中提取序列特征。最后通过全连接层和Softmax激活函数对每种字符类别输出概率。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度学习的视频文字端到端检测与识别的方法，其特征在于，包括：

所述共享特征提取网络包括顺次连接的输入层、批归一化处理层、非线性激活层、最大池化层和至少四个大卷积层，并定义N表示共享特征提取网络的大卷积层数量；

所述检测分支包括双向长短记忆网络层、卷积层和全连接层，特征图MN为检测分支双向长短记忆网络层的输入，所述双向长短记忆网络层的输出特征图为全连接层的输入特征图；全连接层后并行两个全连接层，并分别用于获取当前输入图像的文本框位置以及文本框置信度；

待识别的视频序列段的文字识别结果为：

2.如权利要求1所述的方法，其特征在于，在共享特征提取网络的输入层、池化层和第2至第N-1个大卷积层的第一个瓶颈残差结构中分别对其输入特征图进行1/2的下采样，以及在识别分支的每个大卷积层的第一个瓶颈残差结构中对其输入特征图的高度进行1/2的下采样。

3.如权利要求1所述的方法，其特征在于，所述瓶颈残差结构包括顺次连接的三个卷积块，每个卷积块包括顺次连接的批归一化处理层、非线性激活层和卷积层。

4.如权利要求1-3 任一项所述的方法，其特征在于，每个瓶颈残差结构包括的三个卷积层的卷积核大小依次为：1×1，3×3，1×1，且第三个卷积层中卷积核的个数为前两个卷积层的4倍。

5.如权利要求1所述的方法，其特征在于，所述瓶颈残差结构的通道注意力机制为：分别通过全局平均池化和全局最大池化获取每个通道的两个全局特征，对同一通道的两个全局特征进行平铺并在首尾填充，再由两个卷积核大小为3的一维卷积分别进行局部跨信道交互，得到两个交互后的全局特征，再将两个交互后的全局特征相加，得到通道权重，再和每个通道的全部像素值进行点乘计算，得到瓶颈残差结构的通道注意力机制的输出特征图，将该输出特征图与瓶颈残差结构的输入特征图相加得到瓶颈残差结构的最终输出特征图。

6.如权利要求1所述的方法，其特征在于，将共享特征提取网络的第N个大卷积层的输出特征图与第N-1个大卷积层的输出特征图进行特征融合为：对第N个大卷积层的输出特征图使用1×1卷积进行降维，再与第N-1个大卷积层的输出特征图逐元素相加，经过批归一化处理，得到特征图MN；

将特征图MN与第N-2至第1个大卷积层进行逐层的特征融合为：对当前特征融合得到的特征图采用双线性插值算法进行2倍的上采样，再通过1×1卷积降维，再与前一个大卷积层的输出特征图逐元素相加，经过批归一化处理，得到新的融合的特征图。

7.如权利要求1所述的方法，其特征在于，所述端到端的文字检测与识别网络在训练时的损失函数包括：检测分支的损失函数和识别分支的损失函数，其中，检测分支的损失函数包括三部分：关于文本框位置的smooth L1损失函数和关于文本框置信度的交叉损失函数；识别分支的损失函数为CTC(Connectionist Temporal Classification)损失函数。

8.如权利要求7所述的方法，其特征在于，训练时，将smooth L1损失函数的值与CTC损失函数的值之和作为端到端的文字检测与识别网络的总损失值，并将训练结束条件设置为：总损失值下降到特定阈值范围内，且在验证集上的验证精度达到期望阈值范围内则训练结束。

9.如权利要求1所述的方法，其特征在于，所述检测分支的两个全连接层输出中，具体为：第一全连接层用于对每个预设的锚点进行前后景的分类及高度方向上的偏移与长度的回归计算，得到每个文本框位置，第二全连基层用于基于预设的计算规则计算每个文本框的前后景置信度。

10.如权利要求1所述的方法，其特征在于，所述文本行拼接法包含如下步骤：

根据检测分支获取的文本框的水平坐标对其进行排序，沿水平正方向将与每个文本框i的水平距离小于指定像素值文本框作为其候选文本框，将与当前文本框在竖直方向上的交并比大于指定值且置信分最大的候选文本框j进行选定，对被选定的候选文本框j进行反向寻找，沿水平负方向寻找与其水平距离小于指定像素值文本框作为其候选文本框，并选定候选文本框j的候选文本框k；

对比文本框i与文本框k的置信度，若文本框i的置信度不小于文本框k的置信度，则表示文本框i与文本框j形成的连接是最长连接，将文本框i与j作为一组配对；

当所有的文本框都寻找到了配对后，遍历连接图，将端点重合的配对进行组合之后得到文本行。