CN116758552B

CN116758552B - 一种基于深度学习的文本检测与识别的端到端方法

Info

Publication number: CN116758552B
Application number: CN202310866899.4A
Authority: CN
Inventors: 刘发贵; 陈希; 朱伯远
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2026-01-16
Anticipated expiration: 2043-07-14
Also published as: CN116758552A

Abstract

本发明公开了一种基于深度学习的文本检测与识别的端到端方法，包括以下步骤：构建并训练基于神经网络的端到端模型，使用训练完成的端到端模型对给定图像中的文档文本进行检测和识别。本发明的文本检测与识别的端到端模型，在骨架网络阶段，通过设计的融合模块达成跨尺度的特征融合，不仅降低了计算开销，还提高了模型的精度；在训练的优化阶段，通过联合文本检测任务的损失函数和文本识别的损失函数，兼顾了文本检测与识别的损失，同时优化文本检测与文本识别任务，降低训练带来的时间成本；在推理阶段，模型只需要进行一次向前推理，就可以在较低代价下同时获取文本框和对应的置信度、文本内容。

Description

一种基于深度学习的文本检测与识别的端到端方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于深度学习的文本检测与识别的端到端方法。

背景技术

场景文本检测与识别是目标检测的重要分支，也是计算机视觉的一个热门研究领域，被广泛应用于单据识别、表盘识别、盲人辅助、实时翻译等场景。文本检测与文本识别两个任务密不可分，文本检测是文本识别的基础，文本识别是文本检测价值的体现。目前，针对文本检测与文本识别两项任务单独开展的深入研究使得这两项技术都取得很好的效果。但是，分开的两项任务并不能将这两种技术应用到具体场景中，文本检测和文本识别的端到端方法成为了这两项技术有机结合的一个研究路径。

由于文本的复杂性，文本存在剧烈的尺度变换，呈现字体、颜色、形状、方向、语言上的多样性，这为文本检测和识别任务增加了难度。为了解决上述困难，深度学习技术被应用以解决上述难点，并成为了解决的主要途径。强大深度学习模型往往具有模型大、推理慢的特点，这影响了模型的实用性。目前最广泛引用的基于分割的文本检测方法是DBNet(Minghui Liao,Zhaoyi Wan,Cong Yao,Kai Chen,and Xiang Bai.Real-time scene textdetection with differentiable binarization.In Proceedings of the AAAIconference on artificial intelligence,volume 34,pages 11474–11481,2020.)，通过实验可以确定该方法中的骨干网络占据了绝大多数的参数量和多数计算量，特征融合模块占据了多数的计算量，上述两个模块在时间开销上也占据了45％和39％。考虑到检测模型的文本通常只占据图像的一小部分，尤其是对于街道数据集，如ICDAR2015(DimosthenisKaratzas,Lluis Gomez-Bigorda,Anguelos Nicolaou,Suman Ghosh,Andrew Bagdanov,Masakazu Iwamura,Jiri Matas,Lukas Neumann,Vijay Ramaseshan Chandrasekhar,Shijian Lu,et al.Icdar 2015competition on robust reading.In 2015 13thinternational conference on document analysis and recognition(ICDAR),pages1156–1160.IEEE,2015.)FPN自顶向下和自底向上的设计旨在全面了解整个图像特征，但文本框所占比例较小，形状较为简单。目前广泛应用的文本识别方法是CRNN方法(B.Shi,X.Bai,and C.Yao,“An End-to-End Trainable Neural Network for Image-basedSequence Recognition and Its Application to Scene Text Recognition.”)，该方法通过对语音领域的CTC损失进行改造，将其应用在文本识别中，取得了良好的识别效果。上述的文本检测和文本识别是两个独立的模型，对于实际应用来说，检测和识别的结合才是真正有价值的。

发明内容

为了更加准确高效地进行文本检测与识别，解决文本检测与文本识别的落地和两者的结合问题，本发明提出了一种基于深度学习的文本检测与识别的端到端方法，以提高文本检测和文本识别模型的可用性，本方法是通过减轻模型的大小和加快推理速度，并将两个模型结合为一个文本检测与识别的端到端模型来实现的。

本发明的目的至少通过如下技术方案之一实现。

一种基于深度学习的文本检测与识别的端到端方法，包括以下步骤：

S1、构建并训练基于神经网络的文本检测与识别的端到端模型；

S2、使用训练完成的文本检测与识别的端到端模型对待检测图像中的文本进行检测和识别。

进一步地，步骤S1包括以下步骤：

S1.1、构建非对称的双分支特征提取网络，双分支特征提取网络分别用于提取局部信息和全局信息，并采用自适应加权的融合模块结合双分支的信息以获取特征图；

S1.2、使用可微分二值化的方法获取特征图中的概率信息和阈值信息，并将特征图中的概率信息和阈值信息结合为用于区分文本区域与非文本区域的二值信息，将概率信息、阈值信息、二值信息作为检测分支的输出；

S1.3、在训练模式下，从训练标签获取文本框；在推理模式下，从二值信息获取文本框；根据文本框从特征图中截取相对应的区域，使用透视投影的方式得到固定高度的矩形区域特征，作为文本识别任务的输入特征；

S1.4、将文本识别的区域特征输入LSTM组成的序列解码器，获取文本识别区域相关的文本信息，作为识别分支的输出；

S1.5、计算检测分支和识别分支的损失，将检测分支的损失和识别分支的损失的加权和作为损失函数，并以加权损失和作为训练的损失进行端到端模型的训练。

进一步地，步骤S1.1中，用于提取局部信息的分支分包括3个子模块，每一个子模块包括一个步幅为2、两个步幅为1、滤波器大小为3×3的卷积层，并在每一个子模块后都跟随一个Relu激活函数作为输出，快速获取1/8尺度下的浅层特征；用于提取全局信息的分支使用yolo5中的stem block模块，通过5次1/2的下采样获得1/32尺度下的深层特征。

进一步地，自适应加权的融合模块包括以下步骤：

1)对于输入尺度分别为H×W、H/4×W/4，通道数为C的浅层特征和深层特征，使用四组滤波器，每组滤波器均是大小为1、数量为C/2；对浅层特征和深层特征进行两次卷积，获得通道数降为C/2的两张浅层特征图和两张深层特征图；

2)改变两张浅层特征图和两张深层特征图的维度，将长与宽合并为一个维度，与通道数形成二维的矩阵，矩阵的行数均为通道数C/2，浅层特征的矩阵列数为(H×W)，深层的矩阵列数为(H/4×W/4)；

3)从步骤2)取一个浅层特征的矩阵和一个深层特征的矩阵，转置其中一个矩阵，使其列数为C/2，转置后的矩阵右乘另一个矩阵得到(H/4×W/4)×(H×W)的二维矩阵，作为加权融合矩阵；

4)从步骤2)取与步骤3)不同的另一个浅层特征的矩阵和另一个深层特征的矩阵，将步骤3)中的加权融合矩阵除以(H×W)后与浅层特征矩阵进行矩阵乘法得到列数为(H/4×W/4)，行数为C/2的浅层权重矩阵；将步骤3)中的加权融合矩阵除以(H/4×W/4)后与深层特征矩阵进行矩阵乘法得到列数为(H×W)，行数为C/2的深层权重矩阵；

5)将浅层权重矩阵恢复为H/4×W/4×C的三维图，与输入端的深层特征相加，经过平均池化层操作得到1×1×C的门控权重；

6)将深层权重矩阵恢复为H×W×C的三维图，与输入端的浅层特征相加，得到H×W×C的特征图；

7)将步骤6)的特征图与门控权重相乘，输出加权后的特征图。

进一步地，步骤S1.2中，使用步长为1、滤波器大小为3×3的卷积层对步骤S1.1中获取的1/8尺度下的特征进行卷积，得到通道数为2、1/8尺度的特征图；对于每一个像素，两个通道内的信息分别表示像素属于文本区域的概率和将图中像素归类为文本或非文本所采用的阈值，将包含概率信息的单通道图像作为一张概率图，将包含阈值信息的单通道图像作为一张阈值图，将概率图和阈值图进行可微分二值化操作得到二值图，将该图视为特征图的第三个通道；对于概率图像素p^p和阈值图像素p^t和二值图像素p^b，可微分二值化采用如下的方法进行计算：

进一步地，步骤S1.4中，使用双向LSTM作为序列解码器。

进一步地，输入的高度固定为1，宽度为任意长度，输出长度固定为1024，通道数与字符的类别数相同。

进一步地，步骤S1.5中，使用如下损失函数进行损失的计算：

L＝L_rec+αL_probably+βL_threshold+L_binary

其中L、L_rec、L_probably、L_threshold和L_binary分别为总损失、识别损失、概率图损失、阈值图损失和二值图损失，α、β分别是平衡概率图损失、阈值图损失之间的权重系数。

进一步地，识别任务使用CTC loss作为损失，概率图使用BCE loss作为损失，阈值图使用L1 loss作为损失，二值图使用Dice loss作为损失。

进一步地，步骤S2包括以下步骤：

S2.1、输入待检测图像，使用训练完成的端到端模型中的检测分支进行文本检测，得到文本二值图和图像特征；

S2.2、使用cv2的findcontours函数获取文本框，将文本框和图像特征送入透视投影获取矫正后的文本矩形特征；

S2.3、将文本矩形特征送入识别区域，得到文本框对应的识别结果；

S2.4、输出文本框、对应的置信度和识别出来的文字内容。

与现有技术相比，本发明具有如下的优点和技术效果：

(1)本发明通过使用一种双分支的特征提取网络，有效加快了模型推理速度。与此同时，文本检测的精度和召回率没有下降。

(2)为加快模型推理速度，将文本检测和文本识别结合为端到端模型，将一次提取到的特征应用到两个任务上，减少重复计算，在模型轻量化和模型加速上均取得明显效果。

(3)使用透视投影的方法在文本检测输出端进行更准确的区域提取。

附图说明

图1为本发明实施例中一种基于深度学习的文本检测与识别的端到端方法流程图；

图2为本发明实施例中一种基于深度学习的文本检测与识别的端到端方法模型架构图；

图3为本发明实施例中使用投影和不使用投影方法的效果对比图。

具体实施方式

为了使本发明的技术方案及优点更加清楚明白，以下结合附图和实施例对本发明的具体实施进行进一步的详细说明，但本发明的实施和保护不限于此。

如图1、图2所示的一种基于深度学习的文本检测与识别的端到端方法，包括以下步骤：

S1.1、构建非对称的双分支特征提取网络(Asymmetric Feature FusionNetwork，AFF-Net)，两条分支分别用于提取局部信息和全局信息，并采用自适应加权的融合模块结合两条分支的信息以获取特征图；

作为其中一种实施例，用于提取局部信息的分支分为3个子模块，每一个子模块都由一个步幅为2，两个步幅为1，滤波器大小均为3×3的卷积层构成，并在每一个子模块后都跟随一个Relu激活函数作为输出，快速获取1/8尺度下的浅层特征；用于提取全局信息的分支使用了yolo5中的stem block模块，通过5次1/2的下采样获得1/32尺度下的深层特征；自适应加权的融合模块包括以下步骤：

1)对于输入尺度分别为H×W、H/4×W/4，通道数为C的浅层特征和深层特征，使用四组滤波器，每组滤波器均是大小为1、数量为C/2。对浅层特征和深层特征进行了两次卷积，获得通道数降为C/2的两张浅层特征图和两张深层特征图；

2)改变两张浅层特征图和两张深层特征图的维度，将长与宽合并为一个维度，与通道数一起形成一个二维的矩阵，矩阵的行数均为通道数C/2，浅层特征的矩阵列数为(H×W)，深层的矩阵列数为(H/4×W/4)；

3)从2)取得一个浅层特征的矩阵和一个深层特征的矩阵，转置其中一个矩阵，使其列数为C/2。转置后的矩阵右乘另一个矩阵得到(H/4×W/4)×(H×W)的二维矩阵，作为加权融合矩阵；

4)从2)取得与3)不同的另一个浅层特征的矩阵和另一个深层特征的矩阵。将3)中的加权融合矩阵除以(H×W)后与浅层特征矩阵进行矩阵乘法得到列数为(H/4×W/4)，行数为C/2的浅层权重矩阵。将3)中的加权融合矩阵除以(H/4×W/4)后与深层特征矩阵进行矩阵乘法得到列数为(H×W)，行数为C/2的深层权重矩阵；

7)将步骤6)的特征图与门控权重相乘，输出加权后的特征图。

S1.2、使用可微分二值化的方法获取特征图中的概率信息和阈值信息，并将两者结合为用于区分文本区域与非文本区域的二值信息，将概率信息、阈值信息、二值信息作为检测分支的输出；

该步骤使用步长为1，滤波器大小为3×3的卷积层对S1.1中获取的1/8尺度下的特征进行卷积，得到通道数为2，1/8尺度的特征图。对于每一个像素，两个通道内的信息分别表示像素属于文本区域的概率，由概率信息组成的单通道图像可以视为一张概率图，由阈值信息组成的单通道图像可以视为一张阈值图，将概率图和阈值图进行可微分二值化操作得到二值图，将该图视为特征图的第三个通道；对于概率图像素p^p和阈值图像素p^t和二值图像素p^b，可微分二值化采用如下的方法进行计算：

S1.3、在训练模式下，从训练标签获取文本框；在推理模式下，从二值信息获取文本框。根据文本框从特征图中截取相对应的区域，使用透视投影的方式得到固定高度的矩形区域特征，作为文本识别任务的输入特征；

作为其中一种实施例，使用双向LSTM作为序列解码器，输入的高度固定为1，宽度为任意长度，输出长度固定为1024，通道数与字符的类别数相同。

S1.5、计算检测分支和识别分支的损失，将检测分支的损失和识别分支的损失的加权和作为损失函数，并以上述加权和为本次训练的损失进行端到端模型的训练。

作为其中一种实施例，使用如下损失函数进行损失的计算：

L＝L_rec+αL_probably+βL_threshold+L_binary

其中L、L_rec、L_probably、L_threshold和L_binary分别为总损失、识别损失、概率图损失、阈值图损失和二值图损失，α、β分别是平衡概率图损失，阈值图损失之间的权重系数。

识别任务使用CTC loss作为损失，概率图使用BCE loss作为损失，阈值图使用L1loss作为损失，二值图使用Dice loss作为损失。

S1.6、进行重复的模型训练，以得到合适的结果。

S2、使用训练完成的文本检测与识别的端到端模型对给定图像中的文本进行检测和识别。

S2.1、输入待检测的图像，使用训练完成的端到端模型中的文本检测分支进行文本检测，得到文本二值图和图像特征；

S2.3、将矩形特征送入识别区域，得到文本框对应的识别结果；

S2.4、输出文本框、对应的置信度和识别出来的文字内容。

本实施例中，本发明所述的文本检测方法展现出了良好的轻量化效果。对比检测模型DBNet，本发明所属的文本检测方法将参数量从12.935M降低到了1.995M；在输入图片大小为640×640时，计算量从46.819G降低到了12.127G；每秒处理的图片数量(FPS)从33.51提升到了47.05；在ICDAR2015数据集上的验证中，本方法的F1-Score与DBNet方法效果相同，均为82.25％；在CTW1500数据集中，本方法的F1-Score较DBNet略有提升，从81.04％提升至81.06％，确保了本方法在轻量化的同时保持了检测效果。在端到端的衔接效果上，本方法采用的透视投影也展现出了较好的效果。图3展现了一张小票的文本检测和识别，每个文本检测框的右上角标出了对齐进行文本识别的结果和检测的置信度，在同样的检测框下，使用了投影衔接的端到端方法中展现出了更强的文本识别能力。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于深度学习的文本检测与识别的端到端方法，其特征在于，包括以下步骤：

S1、构建并训练基于神经网络的文本检测与识别的端到端模型；包括以下步骤：

S1.4、将文本识别的矩形区域特征输入LSTM组成的序列解码器，获取文本识别区域相关的文本信息，作为识别分支的输出；

S1.5、计算检测分支和识别分支的损失，将检测分支的损失和识别分支的损失的加权和作为损失函数，并以加权损失和作为训练的损失进行端到端模型的训练；S2、使用训练完成的文本检测与识别的端到端模型对待检测图像中的文本进行检测和识别。

2.根据权利要求1所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，步骤S1.1中，用于提取局部信息的分支包括3个子模块，每一个子模块包括一个步幅为2、两个步幅为1、滤波器大小为3×3的卷积层，并在每一个子模块后都跟随一个Relu激活函数作为输出，快速获取1/8尺度下的浅层特征；用于提取全局信息的分支使用yolov5中的stem block模块，通过5次1/2的下采样获得1/32尺度下的深层特征。

3.根据权利要求1所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，自适应加权的融合模块包括以下步骤：

1）对于输入尺度分别为、，通道数为的浅层特征和深层特征，使用四组滤波器，每组滤波器均是大小为1、数量为；对浅层特征和深层特征进行两次卷积，获得通道数降为的两张浅层特征图和两张深层特征图；

2）改变两张浅层特征图和两张深层特征图的维度，将长与宽合并为一个维度，与通道数形成二维的矩阵，矩阵的行数均为通道数，浅层特征的矩阵列数为，深层的矩阵列数为；

3）从步骤2）取一个浅层特征的矩阵和一个深层特征的矩阵，转置其中一个矩阵，使其列数为，转置后的矩阵右乘另一个矩阵得到（）×（）的二维矩阵，作为加权融合矩阵；

4）从步骤2）取与步骤3）不同的另一个浅层特征的矩阵和另一个深层特征的矩阵，将步骤3）中的加权融合矩阵除以后与浅层特征矩阵进行矩阵乘法得到列数为，行数为的浅层权重矩阵；将步骤3）中的加权融合矩阵除以后与深层特征矩阵进行矩阵乘法得到列数为，行数为的深层权重矩阵；

5）将浅层权重矩阵恢复为的三维图，与输入端的深层特征相加，经过平均池化层操作得到的门控权重；

6）将深层权重矩阵恢复为的三维图，与输入端的浅层特征相加，得到的特征图；

7）将步骤6）的特征图与门控权重相乘，输出加权后的特征图。

4.根据权利要求1所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，步骤S1.2中，使用步长为1、滤波器大小为3×3的卷积层对步骤S1.1中获取的1/8尺度下的特征进行卷积，得到通道数为2、1/8尺度的特征图；对于每一个像素，两个通道内的信息分别表示像素属于文本区域的概率和将图中像素归类为文本或非文本所采用的阈值，将包含概率信息的单通道图像作为一张概率图，将包含阈值信息的单通道图像作为一张阈值图，将概率图和阈值图进行可微分二值化操作得到二值图，将该二值图视为特征图的第三个通道；对于概率图像素和阈值图像素和二值图像素，可微分二值化采用如下的方法进行计算：

。

5.根据权利要求1所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，步骤S1.4中，使用双向LSTM作为序列解码器。

6.根据权利要求5所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，输入的高度固定为1，宽度为任意长度，输出长度固定为1024，通道数与字符的类别数相同。

7.根据权利要求1所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，步骤S1.5中，使用如下损失函数进行损失的计算：

其中、、和分别为总损失、识别损失、概率图损失、阈值图损失和二值图损失，α、β分别是平衡概率图损失、阈值图损失之间的权重系数。

8.根据权利要求7所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，识别任务使用CTCloss作为损失，概率图使用BCEloss作为损失，阈值图使用L1 loss作为损失，二值图使用Diceloss作为损失。

9.根据权利要求1~8任一项所述的一种基于深度学习的文本检测与识别的端到端方法，其特征在于，步骤S2包括以下步骤：

S2.4、输出文本框、对应的置信度和识别出来的文字内容。