CN115909378A

CN115909378A - 单据文本检测模型的训练方法及单据文本检测方法

Info

Publication number: CN115909378A
Application number: CN202211400836.1A
Authority: CN
Inventors: 陈曦; 常永娟; 郑涛; 卢艳艳; 曹锦纲; 彭姣; 杨力平; 王梦迪; 刘汝坤; 赵梦瑶; 贺月
Original assignee: State Grid Corp of China SGCC; North China Electric Power University; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; North China Electric Power University; Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-04-04

Abstract

本发明提供一种单据文本检测模型的训练方法及单据文本检测方法。该训练方法包括：获取训练集图像，其中，训练集图像包括单据图像以及单据图像中文本区域对应的位置标签；对每张单据图像进行特征提取，得到第一特征图；再对第一特征图进行特征融合，得到第二特征图；基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及单据图像的文本区域位置坐标；基于位置标签、文本区域位置坐标以及预设损失函数对各个参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。本发明能够有效提升模型的训练精度，进而进一步提高单据文本的检测精度。

Description

单据文本检测模型的训练方法及单据文本检测方法

技术领域

本发明涉及图像文本检测技术领域，尤其涉及一种单据文本检测模型的训练方法及单据文本检测方法。

背景技术

单据包含各种重要信息，是财务系统重要的数据来源，其在审计、纳税、核算和报销等方面有及其重要的作用，因此，实现单据文本信息的自动准确检测对智慧财务具有重要意义。现阶段，借助图像处理技术和光学字符识别(Optical Character Recognition，OCR)技术，可实现对单据图像的文本识别与分析，提取关键文本信息，实现单据处理自动化，极大地缩短财务人员处理单据的时间，减少工作量，提高工作效率。

随着深度学习技术的不断发展，基于深度学习的图像文本检测已成为当前的一个研究热点。目前，基于深度学习的图像文本检测方法主要采用两种图像处理策略：一种是基于目标检测算法中的“区域建议”策略；另一种是采用图像语义分割策略。

基于目标检测算法中的“区域建议”策略，以通用目标检测网络为基本模型，并在其基础上结合文本检测的实际应用对算法进行改良，如将通用的多类目标检测模型调整为单类(文本)检测模型。例如常见目标检测模型Faster R-CNN，其基本流程为：1)CNN(Convolutional Neural Network)图像特征提取；2)候选区域RoI(Region of interest)与候选框生成；3)通过分类器生成候选框得分；4)通过非最大值抑制方法(Non-maximumsuppression，NMS)排除多余候选框，得到最终检测结果。用于文本检测的目标检测模型还有SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等。

图像分割技术的发展从早期基于RGB图像提取浅层特征，再到卷积神经网络利用传统分割算法进行像素级处理，之后又由Shelhamer等人提出的全卷积深度神经网络(Fully Convolutional Networks，FCN)可实现端到端图像分割。其相比通用目标检测采用锚框机制回归定位的方式，更注重文字的像素级标注信息，因此可用于复杂背景下的图像文本检测。此外，随着Transformer在自然语言处理的巨大成功，其也被引入到了图像处理任务中。

然而，目前虽然已经在文本检测上取得了一定的效果，但是单据文本图像与普通文档图像并不相同。单据文本图像中除文字外包含大量的噪声，如手写签名、印章图像、墨水污渍等，且具有文本行密集、文本尺度变化大、文字字体风格多样等特点。另外，由于纸质单据老旧、扫描不充分、纸张褶皱等因素的影响，单据文本图像存在模糊以及文本变形等情况，这对文本检测工作造成较大的影响。并且，现阶段文本检测模型存在的问题有：(1)检测精度较低。与一般文本检测任务不同，单据图像包含重要的信息，文本检测错误将对后续数据的处理与分析造成极大的影响和后果，因此单据文本检测与识别算法必须具有较高的识别精度，确保识别结果的准确性。(2)复杂背景下文本边缘定位不准确。由于复杂背景下，干扰因素多，现有的文本检测算法往往只在特定的环境下具有较高的文本检测准确率，因此对于单据文本图像而言，现有的文本检测算法难以适应智慧财务单据文本自动检测的需要。

基于此，设计具有高准确率、高鲁棒性的单据文本检测方法以实现单据文本信息的自动准确检测对智慧财务具有重要意义和应用价值。

发明内容

本发明实施例提供了一种单据文本检测模型的训练方法及单据文本检测方法，以解决现有技术中单据文本检测精度较低的问题。

第一方面，本发明实施例提供了一种单据文本检测模型的训练方法，包括：

获取训练集图像，其中，所述训练集图像包括单据图像以及所述单据图像中的文本区域对应的位置标签；

对于所述训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；

基于级联融合注意力模块和局部-全局融合注意力模块对所述不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；

基于所述第二特征图得到概率图和阈值图，并对所述概率图和所述阈值图进行可微分二值化处理，得到二值图以及基于所述二值图预测的所述单据图像的文本区域位置坐标；

基于所述位置标签、所述文本区域位置坐标以及预设损失函数对所述预设编码器模块、所述级联融合注意力模块和所述局部-全局融合注意力模块的参数进行迭代更新，当所述预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

第二方面，本发明实施例提供了一种单据文本检测方法，包括：

获取待检测单据图像；

对所述待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像；

将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

第三方面，本发明实施例提供了一种单据文本检测模型的训练装置，包括：

图像获取模块，用于获取训练集图像，其中，所述训练集图像包括单据图像以及所述单据图像中的文本区域对应的位置标签；

特征提取模块，用于对于所述训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；

特征融合模块，用于基于级联融合注意力模块和局部-全局融合注意力模块对所述不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；

文本检测模块，用于基于所述第二特征图得到概率图和阈值图，并对所述概率图和所述阈值图进行可微分二值化处理，得到二值图以及基于所述二值图预测的所述单据图像的文本区域位置坐标；

模型修正模块，用于基于所述位置标签、所述文本区域位置坐标以及预设损失函数对所述预设编码器模块、所述级联融合注意力模块和所述局部-全局融合注意力模块的参数进行迭代更新，当所述预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

第四方面，本发明实施例提供了一种单据文本检测装置，包括：

单据图像获取模块，用于获取待检测单据图像；

图像预处理模块，用于对所述待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像；

图像文本检测模块，用于将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

第五方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第六方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第二方面所述方法的步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面、第二方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种单据文本检测模型的训练方法及单据文本检测方法，通过获取训练集图像，其中，训练集图像包括单据图像以及单据图像中的文本区域对应的位置标签；对于训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标；基于位置标签、文本区域位置坐标以及预设损失函数对预设编码器模块、级联融合注意力模块和局部-全局融合注意力模块的参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。基于本发明实施例提供的单据文本检测模型的训练方法训练得到的目标单据文本检测模型，在对训练集图像进行特征提取的过程中，能够获得准确的语义信息和空间信息，进而保证图像文本边缘的准确定位；并且基于对第一特征图进行自顶向下和自底向上的特征融合可以有效提高文本检测的准确性；然后在对模型的训练过程中，基于损失函数迭代更新模型的各项参数，有效提升了模型的训练精度，进而进一步提高了单据文本的检测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的单据文本检测模型的训练方法的实现流程图；

图2是本发明实施例提供的目标单据文本检测模型的架构示意图；

图3是本发明实施例提供的预设编码器模块的架构示意图；

图4是本发明实施例提供的级联融合注意力模块的架构示意图；

图5是本发明实施例提供的局部-全局融合注意力模块的架构示意图；

图6是本发明实施例提供的单据文本检测模型的训练方法的流程示意图；

图7是本发明实施例提供的单据文本检测方法的实现流程图；

图8是本发明实施例提供的单据文本检测模型的训练装置的结构示意图；

图9是本发明实施例提供的单据文本检测装置的结构示意图；

图10是本发明实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

本发明实施例提供了一种单据文本检测模型的训练方法，图1为本发明实施例提供的单据文本检测模型的训练方法的实现流程图；结合图1，对该训练方法详述如下：

步骤101：获取训练集图像，其中，训练集图像包括单据图像以及单据图像中的文本区域对应的位置标签。

在步骤101中，由于是以文本区域为单位进行文本检测，因此本实施例中，在建立训练集图像时，需要对单据图像上每个区域进行标注，建立文本标签。示例性的，可以对每个区域通过标定四边形框(或者椭圆形框等其他形状)的形式给出字符的位置标签，以顺时针方向分别对应左上、右上、右下、左下，之后标出每个区域中对应的文本内容，若存在模糊不可区分的内容则可以用“###”等符号代替。因此，本实施例中获取训练集图像，也即获取单据图像以及单据图像中文本区域对应的位置标签。

另外，在获取到训练集图像之后，由于单据图像中的文本存在很多的问题，例如单据图像清晰度不足、或者单据图像中文本颜色不同等。为了解决这些问题，以提升单据图像的使用精度，进而提高文本检测的准确率，因此，在将单据图像输入到预设单据文本检测模型进行检测之前，可以通过相关算法对图像进行预处理。示例性的，可以对原始单据图像进行模糊去噪、灰度处理，以对应解决上述单据图像的文字清晰度问题和单据图像的文本颜色问题；还可以对原始图像进行数据增强处理，以间接提高单据文本检测模型的鲁棒性。

具体地，对于模糊去噪：由于单据纸张存在杂色或污点，可能对后续图像处理产生不利影响，因此，可以预先对单据图像进行模糊去噪。示例性的，去噪算法可以使用正态概率分布的卷积核进行卷积计算，将图像的像素灰度值轻度模糊，以消除小范围的颜色噪点，达到去噪的效果。图像模糊去噪的本质就是过滤高频信号、保留低频信号，高斯核即为过滤所用的卷积滤波。卷积核是一个正方形的像素矩阵，其中像素值的大小曲线是二维正态分布曲线上的值。高斯模糊时，卷积核乘以原图像中被卷积的区域，得到模糊后的图像。由于其计算简单，效果鲁棒性较好，在图像处理中可作为预处理算法来消除冗余信息。

对于灰度处理：对图像进行灰度转换后，新的图像中每个像素用8比特(或8位)表示，数值0表示黑，数值255表示白，其它数字表示不同程度的灰度。转换公式如下：

L＝R*299/1000+G*587/1000+B*114/1000

其中，L表示灰度处理后的单据图像的图像亮度，R表示单据图像的红色通道，G表示单据图像的绿色通道，B表示单据图像的蓝色通道。

对于数据增强处理：本实施例中，为了充分利用数据，可以对训练集图像进行数据增强处理。示例性的，对于每一张输入图像(也即训练集图像)，以一定概率分别进入五个不同的数据增强管道，进行0.5，1.0，2.0，3.0的随机缩放、随机翻转、接着在(-10°，10°)之间随机抽取一个角度进行角度旋转、选取一个合理的中心点，进行裁剪等。经过数据增强后的单据图像尺度各异，文本朝向不一，角度各不相同，此外，裁剪过程中可能会出现空白数据，能很好的提高模型的鲁棒性。

本实施例中，通过获取高使用精度的单据图像以及单据图像中的文本区域对应的位置标签，以利于后续单据文本检测模型中参数的迭代修正，进而保证模型的训练精度以更准确的进行单据文本检测。

步骤102：对于训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图。

在步骤102中，图2为本发明实施例提供的目标单据文本检测模型的架构示意图，图3为本发明实施例提供的预设编码器模块的架构示意图；请一并参照图1及图3，对于训练集图像中的每张单据图像，将该单据图像输入至预设编码器模块中进行特征提取，以得到该单据图像对应的不同尺度的第一特征图。本实施例中，示例性的，以Segformer作为预设编码器模块的主体部分，一方面，利用多头注意力解决在CNN中图像的全局语义信息利用不充分的问题；另一方面，采用无位置编码的分层Transformer编码器，避免了复杂设计，从而利于单据文本检测模型的高效率训练和高性能检测。与视觉变压器(Vision Transformer，ViT)只能产生单一分辨率的特征图不同，Segformer在编码器的四个阶段(也即图2中Transformer Block1-Transformer Block4四个Transformer块)首先经过分层Segformer的处理，可以得到四个不同尺度的特征图，之后基于得到的特征图经过多层感知机(Multilayer Perceptron，MLP)进行维度转换生成具有不同分辨率的特征图M1、M2、M3和M4(如图2所示，本实施例中，特征图M1、M2、M3和M4各自对应的尺度分别为原图的1/4、1/8、1/16、1/32，通道数分别为32、64、128、256。)。通过低分辨率的特征图，可以确定文本中心区域的位置，通过高分辨率的特征图，可以得到文本区域的边缘信息以及相邻字符间的位置信息。如图3所示，一个Transformer块是由N个高效自注意力模块(Efficient Self-Attention)和混合前馈网络(Mix-Feed-Forward Network，Mix-FFN)连接而成，之后会有一个重叠合并模块(Overlapped Patch Merging)进行重叠的图像块合并，以保持这些图像块周围的局部连续性。

具体地，对于高效自注意力模块：在原始的多头自注意过程中，Q、K、V(Q表示Query向量，K表示Key向量、V表示Value向量，Q、K、V是三个矩阵。)是高效自注意力模块的三个输入，每个头Q、K、V具有相同的维度N×C，其中，N＝H×W为图像的大小，C表示单据图像的通道数，H表示单据图像的高度，W表示单据图像的宽度，自注意力估计为：

其中，Attention(Q,K,V)表示自注意力，Softmax()表示Softmax归一化函数，d_head表示Key向量的维度，K^T表示输入K的转置。该过程的计算复杂度为O(N²)，对于高分辨率的图像产生的参数量会相当大，因此，Segformer引入一个缩放系数r，在保证通道数相同的情况下，通过r倍下采样操作，将输入图像

的维度降低了r倍，从而自注意机制的复杂度从降低到，具体过程如下：

其中，K表示经过缩放变化后的结果，也即高效自注意力模块的K输入，LayerNorm()表示LayerNorm归一化函数，

表示原来的输入图像，Conv_a×a()表示卷积核大小为a，步幅为a，填充为0的卷积操作。另外，LayerNorm()为pytorch中自带的函数，可以改变输入的维度，相当于全连接层。

对于混合前馈网络：由于ViT的位置编码(Position Encoding，PE)分辨率是固定的，在训练集图像的分辨率与后续需获取的测试单据文本检测模型的测试集图像的分辨率不同时，需要插值位置编码，这可能导致模型的训练精度下降。因此，在Segformer中去掉了位置编码，并引入了Mix-FFN，Mix-FFN在每个前馈网络层(Feed-Forward Network，FFN)混合一个3×3的卷积和一个MLP。具体过程如下：输入为相连自注意力模块的输出结果，首先经过一个全连接层进行降维处理，然后经过3×3的卷积操作进行特征提取，最后经过GELU激活函数和全连接层恢复到单据图像的输入维度。

对于重叠合并模块：如果按照ViT(Vision Transformer)中的融合策略直接进行下采样操作，则会损失块与块之间的空间一致性，因此，在Segformer中采用7×7和3×3两种卷积，在进行下采样操作的同时，也能学习到相邻图像块之间的位置关系。经过此模块的融合，可以得到不同分辨率的特征图。

本实施例中，通过提出一种基于Segformer的分层编码器，采用无位置编码的方式，可以生成多个不同分辨率的特征图，从而能够获得准确的语义信息和空间信息，有效解决了文本边缘定位不准确的问题。

步骤103：基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图。

在步骤103中，图4是本发明实施例提供的级联融合注意力模块的架构示意图，图5是本发明实施例提供的局部-全局融合注意力模块的架构示意图，请一并参照图1至图5，本实施例中，基于级联融合注意力模块(Cascading Fusion Attention，CFA)对不同尺度的第一特征图进行自顶向下的特征融合操作，之后基于局部-全局融合注意力模块(Dual-Detail and Global Fusion Model，D-DGF)对引入级联融合注意力模块后的特征图进行自底向上的特征融合操作，进而得到第二特征图。

本实施例中，以预设编码器模块中编码器为基于Segformer的编码器为例，为匹配该编码器的四级结构，提出了一种增强特征金字塔结构的解码器，具体地，该解码器采用了一个四层特征金字塔结构进行特征融合，在每两层第一特征图之间引入CFA模块，利用全局平均池化实现通道间的权重选择，利用卷积进行空间维度和通道维度的信息增强，在一定程度上，有效避免了在解码过程中单据图像信息丢失的问题。此外，由于各个特征图分辨率的不同，所具有的空间信息和语义信息也是不同的，因此，通过引入D-DGF模块，自适应调整权重，使具有不同感受野的特征图能够更高效的融合，有效提高了单据文本检测模型的训练精度，进而提高了文本检测的准确性。

在一种可能的实现方式中，基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图，包括：

按照自顶向下的顺序，将不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，得到不同尺度的第一中间特征图。

对所有第一中间特征图进行上采样，得到相应的相同尺度的第二中间特征图。

按照自底向上的顺序，将第二中间特征图中相邻的低级细节特征图和高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图。

对所有第三中间特征图进行全局平均池化处理和细节特征保护处理，得到第二特征图。

本实施例中，请一并参照图1至图5，考虑到单据图像中文本区域密集，相邻文本的间距小，因此，为了在解码过程中充分利用不同层级特征的空间信息和语义信息，按照自顶向下的顺序，将不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，以得到不同尺度的第一中间特征图。本实施例中，通过在相邻的高层特征图和低层特征图之间引入CFA模块，利用全局平均池化实现通道间的权重选择，之后利用卷积进行空间维度和通道维度的信息增强，在一定程度上，有效避免了在解码过程中单据图像信息丢失的问题。

具体地，CFA模块是由全局注意(Global Attention，GA)和空间注意(SpatialAttention，SA)两个模块组成，输入分别为两个高低尺度的特征图f_i和f_i+1，输出为融合后的特征out_i+1。其基本思想是通过平均池化和最大池化在多个尺度上实现通道注意。

更具体地，在全局注意(也即GA)模块，通过全局平均池化可以得到该通道的全局信息，但单一池化方式会造成信息丢失，因此又采用空间注意(SA)模块，将像素之间位置信息引入池化过程，以获得准确的权重信息。

本实施例中，在自顶向下的路径中，在各层第一特征图之间引入级联融合注意力模块，将底层特征与高层特征进行融合，并将其结果输入到下一层结构以供低层特征与高层特征进行特征融合操作，以提升不同特征通道之间的关联，增加文本边缘定位的准确性。示例性的，本实施例中的单据文本检测模型中添加了三个CFA模块，以实现将低级特征图与三个高级特征图进行合并。

本实施例中，在得到不同尺度的第一中间特征图后，这些第一中间特征图的分辨率不相同，因此，为了保留更多的可利用信息，通过对所有第一中间特征图进行上采样操作，以得到每个第一中间特征图对应的相同尺度的第二中间特征图。如图2所示，本实施例中，将四个第一中间特征图分别进行上采样操作，输出的第二中间特征图D₁、D₂、D₃和D₄统一为原图的四分之一大小。

本实施例中，如图5所示，在得到相同尺度的第二中间特征图后，由于每个第二中间特征图所携带的信息是不同的，高级特征图侧重于携带空间位置信息，低级特征图侧重于携带细节信息，因此，为了使各级特征图能够有效的融合，首先将第二中间特征图D₁、D₂、D₃和D₄分成两组，示例性的，分组形式可以为：D₁和D₂一组，记为第一组；D₃和D₄一组，记为第二组。两组特征图中，D₁和D₃细节信息占比较多，D₂和D₄空间信息占比较多。因此，按照自底向上的顺序，分别对第一组和第二组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图C₁和C₂(也即细节信息占比较多较多的特征图C₁和空间信息占比较多的特征图C₂)；之后再对C₁和C₂进行全局平均池化处理和细节特征保护处理，得到最终的第二特征图(也即图5中的out)。

本实施例中，在自底向上的路径中，基于D-DGF模块，第一级分别融合两个低分辨率特征图和两个高分辨率特征图生成空间信息图和语义信息图，第二级则融合空间信息图和语义信息图以得到最终的第二特征图。通过自适应调整不同的特征图的权重，使具有不同感受野的特征图进行更高效的融合，以提高文本检测的准确性。

在一种可能的实现方式中，按照自顶向下的顺序，将不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，得到不同尺度的第一中间特征图，包括：

基于

将不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，得到不同尺度的第一中间特征图；

其中，

表示不同尺度的第一特征图中相邻的高层特征图和低层特征图的全局特征，f_i表示第i个第一特征图，且表示相对于第i+1个第一特征图的低层特征图，f_i+1表示第i+1个第一特征图，且表示相对于第i个第一特征图的高层特征图，

表示元素相加操作，GAvg()表示全局平均池化处理，PWConv₁()表示卷积核大小为1×1，输入通道为C，输出通道为

的深度卷积操作，δ()表示ReLU激活函数，PWConv₂()表示卷积核大小为1×1，输入通道为

输出通道为C的深度卷积操作，

表示不同尺度的第一特征图中相邻的高层特征图和低层特征图的局部特征，

表示最大池化操作，

表示平均池化操作，||表示拼接操作，Conv_7×7()表示卷积核大小为7×7，输入通道为2，输出通道为1的卷积操作，σ()表示Sigmoid激活函数，m_i+1表示低层特征图和高层特征图的融合权值，

表示元素相乘操作，out_i+1表示第一中间特征图。

本实施例中，通过GA模块获取单据文本图像的全局特征，具体地，通过全局平均池化处理得到通道的全局信息。先经过全局平均注意力模块将大小为C×H×W的图像压缩为C×1×1的标量；再采用卷积核为1×1的Conv层将通道数压缩到原来的

然后经过ReLU激活后再通过一个深度卷积层(Point-Wise conv，PW)使图像恢复到原来的维度。具体公式如下：

其中，

输出通道为C的深度卷积操作。

以上处理操作可以更好地拟合通道间的非线性关系，同时也不会增加很大的计算量。但是，经过全局平均池化的结果比较粗糙，更倾向于强调全局分布的大型对象，而忽略了一些小尺度的细节信息。

因此，为了提高后续单据文本检测的准确率，本实施例中引入了SA模块，SA模块与GA模块并列连接，通过增加空间细节信息来减少小尺度文本的漏检现象。与GA模块不同，SA模块采用通道维的池化操作，即取所有通道的相同位置的像素进行平均或者最大操作，对于C×H×W的输入图像，分别经过最大池化和平均池化后，可以得到两个1×H×W的特征图，然后对拼接后的特征图用7×7的卷积融合。具体公式如下：

其中，

表示最大池化操作，

表示平均池化操作，||表示拼接操作，Conv_7×7()表示卷积核大小为7×7，输入通道为2，输出通道为1的卷积操作，σ()表示Sigmoid激活函数。

之后，基于GA模块以及基于SA模块的输出获得不同尺度的第一中间特征图。具体公式如下：

其中，m_i+1表示低层特征图和高层特征图的融合权值，由0和1之间的实数组成，通过与1-m_i+1结合使用，使得网络能够在f_i和f_i+1之间进行加权平均，

表示元素相乘操作，out_i+1表示第一中间特征图。

本实施例中，通过在层与层之间引入CFA模块，利用全局平均池化实现通道间的权重选择，利用卷积进行空间维度和通道维度的信息增强，在一定程度上，有效解决了解码过程中信息丢失的问题。

在一种可能的实现方式中，按照自底向上的顺序，将第二中间特征图中相邻的低级细节特征图和高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图，包括：

基于

将第二中间特征图中相邻的低级细节特征图和高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图；

其中，

表示第二中间特征图中相邻的低级细节特征图和高级空间特征图的全局特征，f_l表示第l个第二中间特征图，且表示相对于第l+1个第二中间特征图的低级细节特征图，f_l+1表示第l+1个第二中间特征图，且表示相对于第l个第二中间特征图的高级空间特征图，Gavg()表示全局平均池化处理，PWConv₁()表示卷积核大小为1×1，输入通道为C，输出通道为

输出通道为C的深度卷积操作，DE(f_l)表示低级细节特征图的细节特征，f_l ^T表示转置细节特征图，out表示第三中间特征图。

本实施例中，DGF模块的结构如图5所示，由全局注意(Global Attention，GA)模块和细节注意(DEtail attention，DE)模块两个模块组成。DGF中的GA模块与CFA模块中的GA模块作用相同，均是通过全局平均池化操作得到通道的全局信息。先经过全局平均注意力模块将大小为C×H×W的图像压缩为C×1×1的标量；再采用卷积核为1×1的Conv层将通道数压缩到原来的

其中，

输出通道为C的深度卷积操作。

然而，由于平均池化和最大池化操作在解码过程中会造成特征图中信息的丢失，因此，引入DE模块进行细节特征保护，DE模块操作的具体公式如下：

其中，DE(f_l)表示低级细节特征图的细节特征，f_l ^T表示转置细节特征图。

之后，获取第三中间特征图，具体公式如下：

其中，out表示第三中间特征图。

本实施例中，通过D-DGF模块，自适应地调整权重，使具有不同感受野的特征图进行更高效的融合，进而有利于提高文本检测的准确性。

步骤104：基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标。

在步骤104中，如图2所示，基于解码器部分得到的第二特征图可以生成概率图和阈值图两种图。其中，概率图代表像素点是文本的概率，阈值图代表每个像素点的阈值。之后对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标。

本实施例中，如图2所示，在后处理部分，使用可微分二值化算法，目的是为了将文本中心区域与背景分开，即对概率图的像素P_i,j进行二值化处理，0为背景，1为文本区域，二值化的过程如下：

其中，B_i,j表示二值化处理后的概率图的像素，t表示预设像素阈值。

传统二值化通过设置固定的阈值进行文本区域与背景区域的划分，阈值的大小直接影响到了最终结果的好坏。可微分二值化算法的主要特点是可以将阈值信息与网络模型一起训练，从而自适应地确定不同位置像素的阈值。

一般来说，文本区域阈值大，边缘区域阈值小，可以提高对任意形状文本检测的效率。具体算法下：

其中，

表示近似二值图在(i，j)处的值，P_i,j表示概率图的像素值，T_i,j表示阈值图的像素值。

步骤105：基于位置标签、文本区域位置坐标以及预设损失函数对预设编码器模块、级联融合注意力模块和局部-全局融合注意力模块的参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

在步骤105中，根据位置标签、文本区域位置坐标以及预设损失函数对模型中的各个模块中的参数进行迭代更新，直到预设损失函数收敛时，获得训练完成的目标单据文本检测模型。示例性的，预设损失函数收敛可以体现为预设损失函数的损失值不超过某一预设阈值；也即直到预设损失函数的损失值不超过某一预设阈值时，获得训练完成的目标单据文本检测模型。

示例性的，将对概率图和阈值图生成位置标签的过程详述如下：首先，根据文本中的矩形区域坐标，生成原始标注文本框G，接着从原始标注文本框G中，采用Vatti裁剪算法，生成收缩的文本核心区域G_s和外扩的文本边界区域G_d。其中将G内部填充1，外部填充0的掩码图作为概率图和二值图的标签，将G_s与G_d之间框型区域按照高斯分布填充0～1的值，其余部分填充0的掩码图作为阈值图的标签。

本实施例中，预设损失函数的具体计算公式可以为：

L＝L_s+α×L_b+β×L_t

其中，L表示概率图损失、二值图损失以及阈值图损失的加权和，L_s是收缩之后文本实例的损失函数，L_b是二值化之后收缩文本实例的损失函数，L_t是二值化阈值图的损失函数，α表示二值图损失的占比，β表示阈值图损失的占比。

概率图和二值图使用的交叉熵损失函数的具体计算公式可以为：

其中，i表示位置，S_l表示预测文本的核心区域，x_i表示i位置的预测概率值，y_i表示概率图L_s或者二值图L_b在i位置的标签值。

阈值图的损失具体表现在标签值与扩张之后的多边形内的预测值之间的距离之和，阈值图的损失函数的具体计算公式可以为：

其中，R_d表示膨胀和收缩之间的文本边界框区域，

表示阈值图在i位置的标签值，

表示i位置的预测阈值值。

本实施例中，基于位置标签、文本区域位置坐标以及预设损失函数不断迭代更新模型的各项参数，能够有效提升模型的训练精度，进而有效提高单据文本的检测精度。

图6为本发明实施例提供的单据文本检测模型的训练方法的流程示意图，如图6所示。本实施例中，实现单据文本的自动准确检测主要包括标签生成、图像预处理、模型训练以及模型评估四部分。标签生成部分主要是用于获取单据图像中文本区域对应的位置标签；图像预处理部分可以包括模糊去噪处理、灰度处理和/或数据增强处理等，主要是用于保证单据图像的清晰度，以利于为后续模型训练和文本预测提供高质量单据图像。

在模型训练部分，输入为经过预处理的单据图像，如图2所示，模型训练部分又可以细分为三个模块：编码器模块、解码器模块以及后处理模块。编码器模块是基于Segformer的主干网络，通过Transformer Block1至Transformer Block4这四个Transformer块生成不同分辨率的特征图M1、M2、M3和M4，尺度分别为原图的1/4、1/8、1/16、1/32，通道数为32、64、128、256；然后，将M4送入第二个结构解码器模块，得到特征图F4，F4通过CFA模块与M3结合生成F3，接着F3与M2通过CFA模块生成F2，F2与M1通过CFA模块生成F1。解码过程中得到四个特征图F1、F2、F3和F4，尺度分别为原图的1/4、1/8、1/16、1/32；为了保留更多的可利用信息，将四个特征图分别进行上采样，统一为原图的1/4大小。之后，通过D-DGF将四个特征图组合输出为分割图(也即上述第二特征图)，尺度为原图的1/4，通道数为256；最后，在后处理模块中，通过解码器模块生成的分割图可以生成概率图和阈值图两种图。概率图代表像素点是文本的概率，阈值图代表每个像素点的阈值。接着由概率图和阈值图经过可微分二值化处理得到二值图以及基于二值图预测出的单据图像的文本区域坐标。最后在模型评估部分，基于位置标签、文本区域坐标以及预设损失函数，不断迭代更新模型中各个模块的参数，提高单据文本检测模型的训练精度，以利于更准确的进行单据文本检测。

本发明实施例提供一种单据文本检测模型的训练方法，通过获取训练集图像，其中，训练集图像包括单据图像以及单据图像中的文本区域对应的位置标签；对于训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图；基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图；基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标；基于位置标签、文本区域位置坐标以及预设损失函数对预设编码器模块、级联融合注意力模块和局部-全局融合注意力模块的参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。基于本发明实施例提供的单据文本检测模型的训练方法训练得到的目标单据文本检测模型，在对训练集图像进行特征提取的过程中，能够获得准确的语义信息和空间信息，进而保证图像文本边缘的准确定位；并且基于对第一特征图进行自顶向下和自底向上的特征融合可以有效提高文本检测的准确性；然后在对模型的训练过程中，基于损失函数迭代更新模型的各项参数，有效提升了模型的训练精度，进而进一步提高了单据文本的检测精度。

另外，图7为本发明实施例提供的单据文本检测方法的实现流程图，如图7所示，本发明实施例提供了一种单据文本检测方法，包括：

步骤201：获取待检测单据图像。

在步骤201中，获取的待检测单据图像，作为单据文本检测模型的输入。

步骤202：对待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像。

在步骤202中，可以预先对待检测单据图像进行预处理，得到第一待检测单据图像，以利于后续提升单据文本图像的文本检测精度。示例性的，预处理可以包括模糊去噪处理、灰度处理和/或数据增强处理等，本申请对此不作限定。

步骤203：将第一待检测单据图像输入至目标单据文本检测模型中，输出第一待检测单据图像对应的文本区域位置坐标；其中，目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

在步骤203中，将第一待检测单据图像输入至目标单据文本检测模型中，基于模型中各个模块的处理操作，输出第一待检测单据图像对应的文本区域位置坐标。其中，目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。如此一来，即完成对单据文本图像的文本区域的检测。

本发明实施例提供一种单据文本检测方法，通过获取待检测单据图像；对待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像；将第一待检测单据图像输入至目标单据文本检测模型中，输出第一待检测单据图像对应的文本区域位置坐标；其中，目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。基于本发明实施例提供的单据文本检测方法，能够准确检测出单据图像的文本区域。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

以下为本发明的装置实施例，对于其中未详尽描述的细节，可以参考上述对应的方法实施例。

图8为本发明实施例提供的单据文本检测模型的训练装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图8所示，单据文本检测模型的训练装置3，包括：

图像获取模块301，用于获取训练集图像，其中，训练集图像包括单据图像以及单据图像中的文本区域对应的位置标签。

特征提取模块302，用于对于训练集图像中的每张单据图像，基于预设编码器模块进行特征提取，得到该单据图像对应的不同尺度的第一特征图。

特征融合模块303，用于基于级联融合注意力模块和局部-全局融合注意力模块对不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图。

文本检测模块304，用于基于第二特征图得到概率图和阈值图，并对概率图和阈值图进行可微分二值化处理，得到二值图以及基于二值图预测的单据图像的文本区域位置坐标。

模型修正模块305，用于基于位置标签、文本区域位置坐标以及预设损失函数对预设编码器模块、级联融合注意力模块和局部-全局融合注意力模块的参数进行迭代更新，当预设损失函数收敛时，获得训练完成的目标单据文本检测模型。

本发明实施例提供一种单据文本检测模型的训练装置，基于本发明实施例提供的单据文本检测模型的训练装置训练得到的目标单据文本检测模型，在对训练集图像进行特征提取的过程中，能够获得图像准确的语义信息和空间信息，进而保证图像文本边缘的准确定位；并且基于对第一特征图进行自顶向下和自底向上的特征融合可以有效提高文本检测的准确性；然后在对模型的训练过程中，基于损失函数迭代更新模型的各项参数，有效提升了模型的训练精度，进而进一步提高了单据文本的检测精度。

图9为本发明实施例提供的单据文本检测装置的结构示意图，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

如图9所示，单据文本检测装置4，包括：

单据图像获取模块401，用于获取待检测单据图像。

图像预处理模块402，用于对待检测单据图像进行模糊去噪处理、灰度处理以及数据增强处理，得到第一待检测单据图像。

图像文本检测模块403，用于将第一待检测单据图像输入至目标单据文本检测模型中，输出第一待检测单据图像对应的文本区域位置坐标；其中，目标单据文本检测模型基于如上第一方面或第一方面的任一种可能的实现方式所述的单据文本检测模型的训练方法训练得到。

本发明实施例提供一种单据文本检测装置，基于该单据文本检测装置，能够准确检测出单据图像的文本区域。

图10是本发明实施例提供的电子设备的示意图。如图10所示，该实施例的电子设备5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个单据文本检测模型的训练方法/单据文本检测方法实施例中的步骤，例如图1所示的步骤101至步骤105、或者图7所示的步骤201至步骤203。或者，所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块301至305的功能,、或者图9所示模块401至403的功能。

示例性的，所述计算机程序52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序52在所述电子设备5中的执行过程。例如，所述计算机程序52可以被分割成图4所示的模块/单元41至43。

所述电子设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述电子设备5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是电子设备5的示例，并不构成对电子设备5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述电子设备5的内部存储单元，例如电子设备5的硬盘或内存。所述存储器51也可以是所述电子设备5的外部存储设备，例如所述电子设备5上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述电子设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，本发明各实施例中的各功能单元可集成在一个处理单元中，也可以是各单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个单据文本检测模型的训练方法/单据文本检测方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种单据文本检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的单据文本检测模型的训练方法，其特征在于，所述基于级联融合注意力模块和局部-全局融合注意力模块对所述不同尺度的第一特征图进行自顶向下和自底向上的特征融合，得到第二特征图，包括：

按照自顶向下的顺序，将所述不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，得到不同尺度的第一中间特征图；

对所有所述第一中间特征图进行上采样，得到相应的相同尺度的第二中间特征图；

按照自底向上的顺序，将所述第二中间特征图中相邻的低级细节特征图和高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图；

对所有所述第三中间特征图进行全局平均池化处理和细节特征保护处理，得到所述第二特征图。

3.根据权利要求2所述的单据文本检测模型的训练方法，其特征在于，所述按照自顶向下的顺序，将所述不同尺度的第一特征图中相邻的高层特征图和低层特征图进行全局平均池化处理和最大池化处理，得到不同尺度的第一中间特征图，包括：

基于

将所述不同尺度的第一特征图中相邻的所述高层特征图和所述低层特征图进行全局平均池化处理和最大池化处理，得到所述不同尺度的第一中间特征图；

其中，

表示所述不同尺度的第一特征图中相邻的所述高层特征图和所述低层特征图的全局特征，f_i表示第i个所述第一特征图，且表示相对于第i+1个所述第一特征图的低层特征图，f_i+1表示第i+1个所述第一特征图，且表示相对于第i个所述第一特征图的高层特征图，

表示元素相加操作，GAvg()表示所述全局平均池化处理，PWConv₁()表示卷积核大小为1×1，输入通道为C，输出通道为

输出通道为C的深度卷积操作，

表示所述不同尺度的第一特征图中相邻的所述高层特征图和所述低层特征图的局部特征，

表示最大池化操作，

表示平均池化操作，||表示拼接操作，Conv_7×7()表示卷积核大小为7×7，输入通道为2，输出通道为1的卷积操作，σ()表示Sigmoid激活函数，m_i+1表示所述低层特征图和所述高层特征图的融合权值，

表示元素相乘操作，out_i+1表示所述第一中间特征图。

4.根据权利要求3所述的单据文本检测模型的训练方法，其特征在于，所述按照自底向上的顺序，将所述第二中间特征图中相邻的低级细节特征图和高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到第三中间特征图，包括：

基于

将所述第二中间特征图中相邻的所述低级细节特征图和所述高级空间特征图划分为一组，并对每组第二中间特征图进行全局平均池化处理和细节特征保护处理，得到所述第三中间特征图；

其中，

表示所述第二中间特征图中相邻的所述低级细节特征图和所述高级空间特征图的全局特征，f_l表示第l个所述第二中间特征图，且表示相对于第l+1个所述第二中间特征图的低级细节特征图，f_l+1表示第l+1个所述第二中间特征图，且表示相对于第l个所述第二中间特征图的高级空间特征图，Gavg()表示所述全局平均池化处理，PWConv₁()表示卷积核大小为1×1，输入通道为C，输出通道为

输出通道为C的深度卷积操作，DE(f_l)表示所述低级细节特征图的细节特征，

表示转置细节特征图，out表示所述第三中间特征图。

5.一种单据文本检测方法，其特征在于，包括：

获取待检测单据图像；

将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于权利要求1-4中任一项所述的单据文本检测模型的训练方法训练得到。

6.一种单据文本检测模型的训练装置，其特征在于，包括：

7.一种单据文本检测装置，其特征在于，包括：

单据图像获取模块，用于获取待检测单据图像；

图像文本检测模块，用于将所述第一待检测单据图像输入至目标单据文本检测模型中，输出所述第一待检测单据图像对应的文本区域位置坐标；其中，所述目标单据文本检测模型基于权利要求1-4中任一项所述的单据文本检测模型的训练方法训练得到。

8.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求1至4中任一项所述方法的步骤。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上的权利要求5所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上的权利要求1至5中任一项所述方法的步骤。