CN113326887B

CN113326887B - 文本检测方法、装置、计算机设备

Info

Publication number: CN113326887B
Application number: CN202110666494.7A
Authority: CN
Inventors: 甘文扬; 罗琳耀; 沈小勇; 吕江波
Original assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Current assignee: Shenzhen Smartmore Technology Co Ltd; Shanghai Smartmore Technology Co Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2024-03-29
Anticipated expiration: 2041-06-16
Also published as: CN113326887A

Abstract

本申请涉及文本检测方法、装置、计算机设备，应用于文本检测模型，所述文本检测模型包括特征提取层、特征融合层和检测器。所述方法包括：获取待文本检测图像；通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图；通过所述检测器，生成所述特征融合图对应的概率图和阈值图；根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域。采用本方法能够在移动终端设备部署文本检测模型，增强了文本检测模型的特征表现能力，提高了文本检测模型的准确率。

Description

文本检测方法、装置、计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本检测方法、装置、计算机设备。

背景技术

通过光学字符识别(OCR，Optical Character Recognition)，可以针对文本资料的图像文件进行分析识别处理，以获取文字及版面信息。在光学字符识别过程中，需要通过文本检测找到图像中的文本区域，进而对文本区域进行文本识别。文本识别的效果依赖于文本区域定位的准确程度，因此文本检测是光学字符识别的核心任务。

随着深度学习的发展，将基于卷积神经网络(Convolutional Neural Networks)模型的方法应用在文本检测上，能够获取比传统图像处理方法更加精准的结果。目前通常采用的卷积神经网络有着大量的权值参数，而在运行时保存大量权值参数对设备的内存容量要求较高，且在实际的OCR应用中，对单张图像进行检测并识别其文字的时间往往需要控制在毫秒级别，这需要设备配置大容量内存，以能够存储大型卷积神经网络的权值参数，同时也能够配备高端的图形处理器，以加速卷积神经网络的运行效率。

但对于手机等移动终端设备，由于其不具备配备大容量内存和高端图形处理器的条件，无法满足在移动终端设备配置用于文本检测的卷积神经网络模型的需求。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决上述问题的一种文本检测方法、装置、计算机设备。

一种文本检测方法，应用于文本检测模型，所述文本检测模型包括特征提取层、特征融合层和检测器，所述方法包括：

获取待文本检测图像；

通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；

通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图；

通过所述检测器，生成所述特征融合图对应的概率图和阈值图；

根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域。

在一个实施例中，所述通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图，包括：

通过所述特征提取层，对所述待文本检测图像进行特征维度提升，得到特征升维后的待文本检测图像；

采用所述特征提取层中的多个逆残差模块对所述特征升维后的待文本检测图像进行特征提取处理，得到至少两个抽象特征图。

在一个实施例中，所述通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图，包括：

获取指定的逆残差模块输出的待融合抽象特征图；

通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图；所述特征融合图所携带的语义信息的抽象程度大于所述抽象特征图所携带的语义信息的抽象程度。

在一个实施例中，所述通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，包括：

通过所述特征融合层，对各所述待融合抽象特征图进行降维操作，得到降维后的待融合抽象特征图；

从多个所述降维后的待融合抽象特征图中，确定初始处理特征图；

从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图。

在一个实施例中，所述从多个所述降维后的待融合抽象特征图中，确定初始处理特征图，包括：

根据各所述降维后的待融合抽象特征图的尺寸信息，对多个所述降维后的待融合抽象特征图进行排序；

将排序结果中尺寸最小的降维后的待融合抽象特征图，作为所述初始处理特征图。

在一个实施例中，所述从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，包括：

从所述初始处理特征图起始，依次放大每一降维后的待融合抽象特征图的尺寸，并将尺寸放大结果累加至下一个降维后的待融合抽象特征图；

采用累加后的各所述降维后的待融合抽象特征图进行拼接处理，生成所述特征融合图。

在一个实施例中，所述根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域，包括：

根据所述概率图和所述阈值图，确定二值化图；

对所述二值化图进行文本区域调整处理，得到所述待文本检测图像中的目标文本区域。

在一个实施例中，所述文本检测模型还包括数据前处理模块，所述方法还包括：

通过所述数据前处理模块，根据标注的模型训练图像，生成样本概率图和样本阈值图；

采用所述样本概率图和所述样本阈值图对所述文本检测模型进行模型训练；所述样本概率图和所述样本阈值图用于在模型训练过程中作为输入的监督信号。

一种文本检测装置，应用于文本检测模型，所述文本检测模型包括特征提取层、特征融合层和检测器，所述装置包括：

待文本检测图像获取模块，用于获取待文本检测图像；

特征提取模块，用于通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；

级联特征融合模块，用于通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图；

概率图和阈值图生成模块，用于通过所述检测器，生成所述特征融合图对应的概率图和阈值图；

目标文本区域确定模块，用于根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的文本检测方法的步骤。

上述一种文本检测方法、装置、计算机设备，应用于文本检测模型，该文本检测模型包括特征提取层、特征融合层和检测器，通过获取待文本检测图像，然后通过特征提取层，对待文本检测图像进行特征提取处理，得到至少两个抽象特征图，每个抽象特征图具有不同语义信息丰富程度，通过特征融合层，对各抽象特征图进行级联特征融合处理，得到特征融合图，通过检测器，生成特征融合图对应的概率图和阈值图，进而根据概率图和阈值图，确定待文本检测图像中的目标文本区域，实现了在移动终端设备部署文本检测模型，通过采用轻量级的卷积神经网络构建特征提取层，并采用特征融合层级对各抽象特征图进行级联特征融合处理，增强了文本检测模型的特征表现能力，提高了文本检测模型的准确率。

附图说明

图1为一个实施例中一种文本检测方法的流程示意图；

图2为一个实施例中一种卷积神经网络架构的示意图；

图3为一个实施例中一种特征提取步骤的流程示意图；

图4为一个实施例中一种逆残差模块处理流程的示意图；

图5为一个实施例中一种级联特征融合步骤的流程示意图；

图6为一个实施例中一种级联特征金字塔网络处理流程的示意图；

图7为一个实施例中一种文本检测装置的结构框图；

图8为一个实施例中一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本检测方法，可以应用于文本检测模型，该文本检测模型可以包括特征提取层、特征融合层和检测器，文本检测模型可以部署于移动终端中，其包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。本实施例以终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤101，获取待文本检测图像；

其中，待文本检测图像可以为携带文本资料的图像，通过对待文本检测图像的分析、识别处理，可以获取图像中的文字及版面信息。

在具体实现中，通过在移动终端中部署预先训练的文本检测模型，移动终端可以获取待文本检测图像，进而可以采用文本检测模型中特征提取层、特征融合层和检测器对该待文本检测图像进行文本检测，以确定待文本检测图像中的文本区域，为后续的文本识别提供数据支持。

步骤102，通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；

在获取待文本检测图像后，可以通过文本检测模型中的特征提取层，对该待文本检测图像进行特征提取处理，进而可以得到至少两个抽象特征图，每个抽象特征图可以具有不同语义信息丰富程度。

具体地，可以采用轻量级的卷积神经网络构建文本检测模型，由于轻量级的卷积神经网络具有较少的权值参数，减少了所需的计算量，其对内存容量和处理器性能的要求较小，从而能够满足移动终端的部署需求。

在一示例中，可以采用轻量级的卷积神经网络构建文本检测模型中的特征提取层，该特征提取层可以为骨干网络(Backbone)，例如，通过采用轻量级的卷积神经网络MobileNet-v3构建文本检测模型的骨干网络部分，能够在移动终端设备上对单张图像的推理时间控制在0.1秒以内。

由于传统的卷积神经网络具有大量的权值参数，在运行时保存大量权值参数对设备的内存容量要求较高，手机等移动终端设备不具有配备大容量内存和高端图形处理器的条件，相较于采用传统方法在移动终端上处理单张图像的时间长达30秒，本申请在PyTorch框架下得到的训练后文本检测模型的大小仅为9.6MB，在手机芯片上基于预先训练的文本检测模型能够以0.1秒的速度对单张图像进行文本检测，从而在模型大小和推理速度上均达到了移动终端部署要求。

步骤103，通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图；

在对待文本检测图像进行特征提取处理后，可以通过文本检测模型中的特征融合层，对得到的各抽象特征图进行级联特征融合处理，进而可以得到特征融合图，该特征融合图可以具有更加抽象的语义信息。

具体地，特征融合层可以为级联特征金字塔网络(FPNC)，通过采用级联特征金字塔网络对骨干网络的输出结果(即各抽象特征图)进行特征融合，能够充分利用卷积神经网络多个阶段输出的特征图，提升其特征表现能力。

在一示例中，可以将MobileNet-v3的特征融合机制从逐点相加的特征融合方式修改为级联的特征融合方式，从而增强了卷积神经网络的特征表现能力，提高了文本检测模型的准确率。

步骤104，通过所述检测器，生成所述特征融合图对应的概率图和阈值图；

在得到特征融合图后，可以通过文本检测模型中的检测器，生成该特征融合图对应的概率图和阈值图。

在一示例中，检测器可以由两组结构相同的卷积模块构成，其分别负责输出概率图和阈值图，每组卷积模块可以包含一个3x3卷积、两个批归一化(Batch Normalization)操作以及两个转置卷积(Transpose Convolution)。

步骤105，根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域。

在实际应用中，可以根据得到的概率图和阈值图，确定待文本检测图像中的目标文本区域，即通过文本检测模型对待文本检测图像进行文本检测，可以得到待文本检测图像中的目标文本区域，以进一步针对该目标文本区域进行文本识别。

在一示例中，文本检测模型可以由前处理模块、卷积神经网络、后处理模块组成，前处理模块可以应用于文本检测模型的训练阶段，卷积神经网络和后处理模块可以应用于文本检测模型的训练阶段和文本检测模型的推理阶段。其中，卷积神经网络的构建可以包含骨干网络(即特征提取层)、级联特征金字塔网络(即特征融合层)和检测器，如图2所示，其可以为卷积神经网络的架构示意图。

针对输入图像(即待文本检测图像)，如640*640*3图像，通过在骨干网络部分采用3x3大小的卷积核对输入图像进行卷积操作，可以将输入图像的特征维度提升至512，然后可以经过11个逆残差模块(Inverted Residual Block)进行抽象特征提取，进而可以通过级联特征金字塔网络对逆残差模块的输出结果(即至少两个抽象特征图)进行特征融合，得到更加抽象的语义信息，通过检测器可以将级联特征金字塔网络输出的特征融合图，采用卷积和池化操作得到概率图和阈值图，以基于概率图和阈值图进一步处理得到预测的文本区域(即目标文本区域)。

在一个可选实施例中，通过级联特征金字塔网络，可以将第1个逆残差模块、第3个逆残差模块、第8个逆残差模块、第11个逆残差模块分别输出的结果进行特征融合，得到具有更加抽象的语义信息的特征融合图。

在本申请实施例中，通过获取待文本检测图像，然后通过特征提取层，对待文本检测图像进行特征提取处理，得到至少两个抽象特征图，每个抽象特征图具有不同语义信息丰富程度，通过特征融合层，对各抽象特征图进行级联特征融合处理，得到特征融合图，通过检测器，生成特征融合图对应的概率图和阈值图，进而根据概率图和阈值图，确定待文本检测图像中的目标文本区域，实现了在移动终端设备部署文本检测模型，通过采用轻量级的卷积神经网络构建特征提取层，并采用特征融合层级对各抽象特征图进行级联特征融合处理，增强了文本检测模型的特征表现能力，提高了文本检测模型的准确率。

在一个实施例中，如图3所示，所述通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图，可以包括如下步骤：

步骤301，通过所述特征提取层，对所述待文本检测图像进行特征维度提升，得到特征升维后的待文本检测图像；

在获取待文本检测图像后，可以通过文本检测模型中的特征提取层，对该待文本检测图像进行特征维度提升，进而可以得到特征升维后的待文本检测图像，例如，通过采用3x3大小的卷积核对待文本检测图像进行卷积操作，可以将待文本检测图像的特征维度提升至512。

步骤302，采用所述特征提取层中的多个逆残差模块对所述特征升维后的待文本检测图像进行特征提取处理，得到至少两个抽象特征图。

在得到特征升维后的待文本检测图像后，可以采用特征提取层中的多个逆残差模块进行特征提取处理，进而可以得到至少两个抽象特征图，每个抽象特征图可以具有不同语义信息丰富程度，例如，可以通过特征提取层中的11个逆残差模块，对特征升维后的待文本检测图像进行抽象特征提取。

具体地，通过将特征升维后的待文本检测图像输入第1个逆残差模块，可以得到第1个逆残差模块输出的抽象特征图，然后可以将第1个逆残差模块输出的抽象特征图输入第2个逆残差模块，得到第2个逆残差模块输出的抽象特征图，依次经过11个逆残差模块进行抽象特征提取，可以得到多个抽象特征图。

在一示例中，如图4所示，针对特征提取层中的每一逆残差模块，其可以由特征升维部分、深度可分离卷积部分、特征融合部分构成，其中，特征升维即可以通过1x1卷积在保持输入特征图(即前一个逆残差模块输出的抽象特征图)的尺寸的条件下提升其通道数；深度可分离卷积即可以将普通卷积拆分为一个深度卷积和一个逐点卷积，逐点卷积即可以使用1x1大小的卷积核进行标准的卷积操作，与标准卷积不同的是，深度卷积可以通过将卷积核拆分成单通道形式，在不改变输入特征图的通道数的情况下对每一通道进行卷积操作，可以得到和输入特征图通道数一致的输出特征图(即该逆残差模块输出的抽象特征图)。深度卷积的计算量和参数数量仅为标准卷积的：

其中，N为输入特征图的通道数，D_k为卷积核的尺寸。

特征融合即可以将输入特征图和输出特征图在通道维度进行拼接。

通过上述实施例基于特征提取层，对待文本检测图像进行特征维度提升，得到特征升维后的待文本检测图像，进而采用特征提取层中的多个逆残差模块对特征升维后的待文本检测图像进行特征提取处理，得到至少两个抽象特征图，通过采用轻量级的卷积神经网络构建特征提取层，经过多个逆残差模块进行图像特征提取处理，能够使得模型大小和对单张图像的推理时间均达到移动终端的部署要求。

在一个实施例中，如图5所示，所述通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图，可以包括如下步骤：

步骤501，获取指定的逆残差模块输出的待融合抽象特征图；

在实际应用中，可以获取指定的逆残差模块输出的待融合抽象特征图，以基于该待融合抽象特征图进一步进行级联特征融合处理，例如，可以将第1个逆残差模块、第3个逆残差模块、第8个逆残差模块、第11个逆残差模块分别输出的结果作为待融合抽象特征图。

步骤502，通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图；所述特征融合图所携带的语义信息的抽象程度大于所述抽象特征图所携带的语义信息的抽象程度。

在获取待融合抽象特征图后，可以通过特征融合层，对各待融合抽象特征图进行级联特征融合处理，进而可以得到特征融合图，该特征融合图所携带的语义信息的抽象程度大于抽象特征图所携带的语义信息的抽象程度，即具有更加抽象的语义信息。

例如，可以将第1个逆残差模块、第3个逆残差模块、第8个逆残差模块、第11个逆残差模块分别输出的结果进行特征融合，得到具有更加抽象的语义信息的特征融合图。

通过上述实施例获取指定的逆残差模块输出的待融合抽象特征图，进而通过特征融合层，对各待融合抽象特征图进行级联特征融合处理，得到特征融合图，该特征融合图所携带的语义信息的抽象程度大于抽象特征图所携带的语义信息的抽象程度，可以基于指定的逆残差模块输出结果进一步进行级联特征融合处理，为得到更加抽象的语义信息提供了数据支持。

在一个实施例中，所述通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，可以包括如下步骤：

通过所述特征融合层，对各所述待融合抽象特征图进行降维操作，得到降维后的待融合抽象特征图；从多个所述降维后的待融合抽象特征图中，确定初始处理特征图；从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图。

作为一示例，初始处理特征图可以为降维后的待融合抽象特征图中尺寸最小的待融合抽象特征图。

由于级联特征金字塔网络的作用是对尺寸大小不同，语义信息丰富程度不同的特征图进行融合，得到更加抽象的特征图，则可以通过特征融合层，对指定的逆残差模块输出的各待融合抽象特征图进行降维操作，然后可以从多个降维后的待融合抽象特征图中，选出尺寸最小的待融合抽象特征图作为初始处理特征图，进而可以从初始处理特征图起始，依次对各降维后的待融合抽象特征图进行级联特征融合处理，得到更加抽象的特征融合图。

在一示例中，通过使用3x3大小的卷积核对每个逆残差模块输出的待融合抽象特征图进行降维操作，可以将通道数统一降低至16。

通过上述实施例基于特征融合层，对各待融合抽象特征图进行降维操作，得到降维后的待融合抽象特征图，然后从多个降维后的待融合抽象特征图中，确定初始处理特征图，进而从初始处理特征图起始，依次对各降维后的待融合抽象特征图进行级联特征融合处理，得到特征融合图，从而能够基于降维操作统一各待融合抽象特征图中的通道数，有助于进一步对各待融合抽象特征图进行特征融合。

在一个实施例中，所述从多个所述降维后的待融合抽象特征图中，确定初始处理特征图，可以包括如下步骤：

根据各所述降维后的待融合抽象特征图的尺寸信息，对多个所述降维后的待融合抽象特征图进行排序；将排序结果中尺寸最小的降维后的待融合抽象特征图，作为所述初始处理特征图。

在实际应用中，可以根据各降维后的待融合抽象特征图的尺寸信息，对多个降维后的待融合抽象特征图进行排序，如根据降维后的待融合抽象特征图的尺寸大小，从小到大进行排序，进而可以将尺寸最小的降维后的待融合抽象特征图作为初始处理特征图。

通过上述实施例根据各降维后的待融合抽象特征图的尺寸信息，对多个降维后的待融合抽象特征图进行排序，进而将排序结果中尺寸最小的降维后的待融合抽象特征图，作为初始处理特征图，可以根据尺寸信息得到待融合抽象特征图的排序结果，有助于对尺寸大小不同的待融合抽象特征图进一步进行融合处理。

在一个实施例中，所述从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，可以包括如下步骤：

从所述初始处理特征图起始，依次放大每一降维后的待融合抽象特征图的尺寸，并将尺寸放大结果累加至下一个降维后的待融合抽象特征图；采用累加后的各所述降维后的待融合抽象特征图进行拼接处理，生成所述特征融合图。

在得到初始处理特征图后，可以从初始处理特征图起始，基于排序结果依次放大每一降维后的待融合抽象特征图的尺寸，例如，如图6所示，可以从尺寸最小的特征图开始，即图6的输入框中特征图C1，依次使用最近邻插值算法将该尺寸扩大两倍。

然后可以将尺寸放大结果累加至下一个降维后的待融合抽象特征图，例如，如图6所示，可以将尺寸放大结果按照通道维度累加至下一个特征图，并可以在下一个特征图上进行3x3的标准卷积操作。

通过采用累加后的各降维后的待融合抽象特征图进行拼接处理，可以生成特征融合图，例如，如图6所示，可以将每个残差模块的特征图按照通道维度拼接在一起，得到级联特征金字塔网络输出结果，基于级联特征金字塔网络对骨干网络的输出结果进行特征融合，能够充分利用卷积神经网络多个阶段输出的特征图，提升了特征表现能力。

通过上述实施例从初始处理特征图起始，依次放大每一降维后的待融合抽象特征图的尺寸，并将尺寸放大结果累加至下一个降维后的待融合抽象特征图，进而采用累加后的各降维后的待融合抽象特征图进行拼接处理，生成特征融合图，基于级联的特征融合机制，能够增强卷积神经网络的特征表现能力，提高了整体文本检测模型的准确率。

在一个实施例中，所述根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域，可以包括如下步骤：

根据所述概率图和所述阈值图，确定二值化图；对所述二值化图进行文本区域调整处理，得到所述待文本检测图像中的目标文本区域。

在实际应用中，可以通过后处理模块对卷积神经网络的输出结果进行整理，得到文本检测模型最终的输出结果，如预测的文本区域，即通过后处理模块，可以根据概率图和阈值图，确定二值化图，进而可以对该二值化图进行文本区域调整处理，得到待文本检测图像中的目标文本区域。

在一示例中，可以根据概率图P和阈值图T计算近似二值化图B，其计算公式可以为：

其中，k为放大因子，是一个超参数，其取值可以为50。

然后对近似二值化图以0.2的阈值进行二值化操作，可以得到二值化图，进而可以对二值化图使用多边形裁剪算法对文本区域进行扩大，扩大使用的超参数r的取值可以为0.4。

在一个可选实施例中，整体文本检测模型的损失函数可以为：

L＝L_s+α×L_b+β×L_t

其中，L_s为概率图的损失函数，L_b为二值化图的损失函数，损失函数的类型可以为二元交叉熵损失(Binary Cross Entropy Loss)；L_t为阈值图的损失函数，损失函数的类型可以为绝对值损失(L1 Loss)。

通过上述实施例根据概率图和阈值图，确定二值化图，进而对二值化图进行文本区域调整处理，得到待文本检测图像中的目标文本区域，可以基于概率图和阈值图得到的二值化图获取文本的连通区域，进而对文本区域扩张得到目标文本区域，提升了对图像的推理速率。

在一个实施例中，所述文本检测模型还包括数据前处理模块，所述方法还可以包括如下步骤：

通过所述数据前处理模块，根据标注的模型训练图像，生成样本概率图和样本阈值图；采用所述样本概率图和所述样本阈值图对所述文本检测模型进行模型训练；所述样本概率图和所述样本阈值图用于在模型训练过程中作为输入的监督信号。

在文本检测模型的训练阶段，通过前处理模块(即数据前处理模块)可以根据标注的多边形框(即模型训练图像)生成二值图，其中，该二值图中取值为1的像素点表示概率属于文本区域，取值为0的点表示非文本区域，然后可以通过缩小该二值图得到概率图(即样本概率图)，还可以放大该二值图，通过计算放大后的二值图与概率图之间的差集，并针对差集中的每个像素点，计算该像素点到与其最近的文本区域边界的归一化欧式距离，可以对结果进行裁剪，以保证最终的取值在0.3至0.7之间，基于差集中每个点到文本区域边界的距离构成的二维矩阵即为阈值图(即样本阈值图)，进而可以将概率图和阈值图作为训练阶段需要输入的监督信号。

在一示例中，前处理模块可以采用多边形裁剪算法(Vatti Clipping Algorithm)对标注的多边形框进行放缩若干个像素值，放缩的像素值可以通过如下计算得到：

D＝A(1-r²)/L

其中，D为放缩的像素值，A为多边形框的面积，L为多边形框的周长，r为控制缩放比例的超参数(其取值为0到1)，取值可为0.4。

通过上述实施例基于数据前处理模块，根据标注的模型训练图像，生成样本概率图和样本阈值图，进而采用样本概率图和样本阈值图对文本检测模型进行模型训练，样本概率图和样本阈值图用于在模型训练过程中作为输入的监督信号，通过采用轻量级的卷积神经网络构建文本检测模型，并对文本检测模型进行训练，能够使得训练后文本检测模型的大小符合移动终端部署要求。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本检测装置，应用于文本检测模型，该文本检测模型可以包括特征提取层、特征融合层和检测器，包括：

待文本检测图像获取701，用于获取待文本检测图像；

特征提取模块702，用于通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；

级联特征融合模块703，用于通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图；

概率图和阈值图生成模块704，用于通过所述检测器，生成所述特征融合图对应的概率图和阈值图；

目标文本区域确定模块705，用于根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域。

在一个实施例中，所述特征提取模块702包括：

特征升维子模块，用于通过所述特征提取层，对所述待文本检测图像进行特征维度提升，得到特征升维后的待文本检测图像；

抽象特征图得到子模块，用于采用所述特征提取层中的多个逆残差模块对所述特征升维后的待文本检测图像进行特征提取处理，得到至少两个抽象特征图。

在一个实施例中，所述级联特征融合模块703包括：

待融合抽象特征图获取子模块，用于获取指定的逆残差模块输出的待融合抽象特征图；

特征融合图得到子模块，用于通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图；所述特征融合图所携带的语义信息的抽象程度大于所述抽象特征图所携带的语义信息的抽象程度。

在一个实施例中，所述特征融合图得到子模块包括：

降维操作单元，用于通过所述特征融合层，对各所述待融合抽象特征图进行降维操作，得到降维后的待融合抽象特征图；

初始处理特征图确定单元，用于从多个所述降维后的待融合抽象特征图中，确定初始处理特征图；

特征融合图得到单元，用于从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图。

在一个实施例中，所述初始处理特征图确定单元包括：

特征图排序子单元，用于根据各所述降维后的待融合抽象特征图的尺寸信息，对多个所述降维后的待融合抽象特征图进行排序；

初始处理特征图确定子单元，用于将排序结果中尺寸最小的降维后的待融合抽象特征图，作为所述初始处理特征图。

在一个实施例中，所述特征融合图得到单元包括：

放大结果累加子单元，用于从所述初始处理特征图起始，依次放大每一降维后的待融合抽象特征图的尺寸，并将尺寸放大结果累加至下一个降维后的待融合抽象特征图；

拼接子单元，用于采用累加后的各所述降维后的待融合抽象特征图进行拼接处理，生成所述特征融合图。

在一个实施例中，所述目标文本区域确定模块包括：

二值化图确定子模块，用于根据所述概率图和所述阈值图，确定二值化图；

文本区域调整子模块，用于对所述二值化图进行文本区域调整处理，得到所述待文本检测图像中的目标文本区域。

在一个实施例中，所述文本检测模型还包括数据前处理模块，所述装置还包括：

样本概率图和样本阈值图生成模块，用于通过所述数据前处理模块，根据标注的模型训练图像，生成样本概率图和样本阈值图；

模型训练模块，用于采用所述样本概率图和所述样本阈值图对所述文本检测模型进行模型训练；所述样本概率图和所述样本阈值图用于在模型训练过程中作为输入的监督信号。

关于一种文本检测装置的具体限定可以参见上文中对于一种文本检测方法的限定，在此不再赘述。上述一种文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待文本检测图像；

在一个实施例中，处理器执行计算机程序时还实现上述其他实施例中的文本检测方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待文本检测图像；

在一个实施例中，计算机程序被处理器执行时还实现上述其他实施例中的文本检测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本检测方法，其特征在于，应用于文本检测模型，所述文本检测模型包括特征提取层、特征融合层和检测器，所述方法包括：

获取待文本检测图像；

通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；所述特征提取层用于获得特征升维后的待文本检测图像，并通过至少两个逆残差模块提取所述特征升维后的待文本检测图像中的抽象特征，得到至少两个抽象特征图；

2.根据权利要求1所述的方法，其特征在于，所述通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过所述特征融合层，对各所述抽象特征图进行级联特征融合处理，得到特征融合图，包括：

获取指定的逆残差模块输出的待融合抽象特征图；

通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图；所述特征融合图相比于所述待融合抽象特征图具有更加抽象的语义信息。

4.根据权利要求3所述的方法，其特征在于，所述通过所述特征融合层，对各所述待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，包括：

5.根据权利要求4所述的方法，其特征在于，所述从多个所述降维后的待融合抽象特征图中，确定初始处理特征图，包括：

6.根据权利要求4所述的方法，其特征在于，所述从所述初始处理特征图起始，依次对各所述降维后的待融合抽象特征图进行级联特征融合处理，得到所述特征融合图，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述概率图和所述阈值图，确定所述待文本检测图像中的目标文本区域，包括：

根据所述概率图和所述阈值图，确定二值化图；

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述文本检测模型还包括数据前处理模块，所述方法还包括：

9.一种文本检测装置，应用于文本检测模型，所述文本检测模型包括特征提取层、特征融合层和检测器，其特征在于，所述装置包括：

待文本检测图像获取模块，用于获取待文本检测图像；

特征提取模块，用于通过所述特征提取层，对所述待文本检测图像进行特征提取处理，得到至少两个抽象特征图；每个所述抽象特征图具有不同语义信息丰富程度；所述特征提取层用于获得特征升维后的待文本检测图像，并通过至少两个逆残差模块提取所述特征升维后的待文本检测图像中的抽象特征，得到至少两个抽象特征图；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的文本检测方法的步骤。