CN110674804A

CN110674804A - 文本图像的检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110674804A
Application number: CN201910905231.XA
Authority: CN
Inventors: 周康明; 吴昊
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-10

Abstract

本申请涉及一种文本图像的检测方法、装置、计算机设备和存储介质，通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，以提高后续预测不同尺度文本位置的能力，并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，使其更加贴合目标，进而将具有可偏移的文本候选框映射回待进行检测的文本图像上，并采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框，从而可以根据最后的文本预测框进行文本特征的提取，以解决文本特征与背景难以区分的问题。

Description

文本图像的检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及文本检测技术领域，特别是涉及一种文本图像的检测方法、装置、计算机设备和存储介质。

背景技术

随着现代人工智能技术的发展，越来越多的繁琐工作被机器或电脑所取代。比如一些文本的识别录入，如果仅仅依靠人工来完成，不仅耗时费力，而且会因为操作人员的疲劳疏忽等原因导致问题的产生。因此，可以利用光学字符识别技术，从而通过计算机自动完成文本字符的识别和录入。

而作为光学字符识别的基础，首先必然需要在各个场景中定位到文本区域，即文本定位技术是根本。目前使用较多的方法都是采用类似目标检测的定位分类方法，但是由于文本大多为长矩形，宽高比分布较为极端，与普通的目标检测中的物体不一样，普通物体宽高比基本在1左右，且存在明显的闭合边缘轮廓，而文本并没有这种明显的闭合边缘轮廓，从而导致直接提取文本的图像特征极容易和背景区分不开。

发明内容

基于此，有必要针对上述难以直接提取文本的图像特征的问题，提供一种文本图像的检测方法、装置、计算机设备和存储介质。

为了实现上述目的，一方面，本申请实施例提供了一种文本图像的检测方法，所述方法包括：

将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图；

采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框；

将具有可偏移的文本候选框映射回待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。

在其中一个实施例中，具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络；则将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，包括：将待进行检测的文本图像输入至金字塔特征提取网络；由金字塔特征提取网络通过不同的卷积层进行特征融合，输出不同层次的特征图。

在其中一个实施例中，基于深度学习的文本检测模型的构建方法包括：获取带有文本框的样本图像数据集，其中，文本框包括标注了文本框的坐标信息的训练标签；采用包括训练标签的样本图像数据集，利用反向传播算法训练深度学习网络模型，获得文本检测模型。

在其中一个实施例中，利用反向传播算法训练深度学习网络模型，采用的损失函数为多任务损失函数：其中， L(x,c,l,g)表示模型的总损失，L_conf表示模型的分类损失，L_loc表示模型的定位损失，α表示定位损失占据的比重，g为标注的文本框，l为文本预测框，_N表示匹配到标注的文本框的锚点框的数量，x表示匹配的文本框是否属于正样本的概率，取值0或1，c表示匹配的文本框属于正样本的置信度。

在其中一个实施例中，采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，包括：对多层特征图中的各层特征图经由卷积核后输出调整后的特征图；在调整后的特征图上滑窗，得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息，并计算文本框的文本置信度；根据得到的文本置信度大于预设文本置信度的文本框的坐标信息，学习得到对应预设锚点框相对于匹配的文本框的偏移量；根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。

在其中一个实施例中，预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置，预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/或五分之一。

在其中一个实施例中，文本框的坐标信息包括文本框的四个顶点的坐标；则学习得到对应预设锚点框相对于匹配的文本框的偏移量，包括：根据预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移，学习得到预设锚点框相对于匹配的文本框的偏移量。

另一方面，本申请实施例还提供了一种文本图像的检测装置，所述装置包括：

特征提取模块，用于将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图；

候选框生成模块，用于采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框；

文本框预测模块，用于将具有可偏移的文本候选框映射回待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。

又一方面，本申请实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

另一方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述文本图像的检测方法、装置、计算机设备和存储介质，通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，以提高后续预测不同尺度文本位置的能力，并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，使其更加贴合目标，进而将具有可偏移的文本候选框映射回待进行检测的文本图像上，并采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框，从而可以根据最后的文本预测框进行文本特征的提取，以解决文本特征与背景难以区分的问题。

附图说明

图1为一个实施例中文本图像的检测方法的流程示意图；

图2为一个实施例中文本图像的检测方法网络结构示意图；

图3为一个实施例中得到多层特征图的步骤的流程示意图；

图4为另一个实施例中文本检测模型的获取方法的流程示意图；

图5为一个实施例中文本框的标注示意图；

图6为一个实施例中获得文本候选框的流程示意图；

图7为一个实施例中文本框的匹配示意图；

图8为一个具体实施例中文本图像的检测方法的流程示意图；

图9为一个实施例中文本图像的检测装置的结构框图；

图10为一个实施例中计算机设备的内部结构图；

图11为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供了一种文本图像的检测方法，如图1所示，包括以下步骤：

步骤102，将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图。

其中，待进行检测的文本图像是指待通过机器进行文本特征提取的文本图像。特征提取网络模型则可以是由多个卷积层组成的金字塔特征提取网络，其具有多层输出。具体的，特征提取网络模型可以是基于基本的特征提取网络框架实现的，其中，基本的特征提取网络框架不限于VGG(Visual Geometry Group Network，神经网络)、hourglass network(沙漏网络)或者resnet(分类网络) 等网络。在本实施例中，待进行检测的文本图像可以存储在服务器中，当要对服务器中的文本图像进行文本特征提取时，首先需要获取服务器中的待进行检测的文本图像，并将待进行检测的文本图像输入至特征提取网络模型中，从而通过特征提取网络模型的多个输出层输出各层对应的特征图，以提高后续预测不同尺度文本位置的能力。

步骤104，采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框。

其中，基于深度学习的文本检测模型可以是对深度学习网络模型进行训练后得到的。匹配的具有可偏移的文本候选框是指与扫描时预设的锚点框匹配的非固定位置的文本框。在本实施例中，通过基于深度学习的文本检测模型扫描上述步骤得到的多层特征图中的各层特征图，即可得到匹配的具有可偏移的文本候选框，使其更加贴合目标。

步骤106，将具有可偏移的文本候选框映射回待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。

在本实施例中，通过将上述得到匹配的具有可偏移的文本候选框映射回原图(即待进行检测的文本图像)上，并采用非极大值抑制的方法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像最后的文本预测框，从而可以根据最后的文本预测框进行文本特征的提取，以解决文本特征与背景难以区分的问题。

上述文本图像的检测方法，通过将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，以提高后续预测不同尺度文本位置的能力，并采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，使其更加贴合目标，进而将具有可偏移的文本候选框映射回待进行检测的文本图像上，并采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框，从而可以根据最后的文本预测框进行文本特征的提取，以解决文本特征与背景难以区分的问题。

在一个实施例中，如图2所示，具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络，其具有多层输出。其中，特征提取网络模型可以是基于基本的特征提取网络框架实现的，而基本的特征提取网络框架不限于VGG、hourglass network或者resnet等网络。在本实施例中，通过在基本的特征提取网络框架后接上特征金字塔模块即可得到金字塔特征提取网络。具体的，以基本的特征提取网络框架为VGG16为例进行说明，具体的，通过保留VGG16的conv1_1到conv5_3的卷积层，并将最后两层由全连接层替换成卷积层，再继续添加8个卷积层，其中，每两个卷积层取一层输出，加上VGG 网络中的conv4_3和conv7的输出，一共6层输出，即可以输出6层特征图，从而得到本实施例中的金字塔特征提取网络，提高网络预测不同尺度文本位置的能力。

在本实施例中，如图3所示，将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，具体包括如下步骤：

步骤302，将待进行检测的文本图像输入至金字塔特征提取网络。

具体的，在获取到待进行检测的文本图像后，将其通过输入层输入至金字塔特征提取网络，由金字塔特征提取网络提取多尺度的特征图。

步骤304，由金字塔特征提取网络通过不同的卷积层进行特征融合，输出不同层次的特征图。

在本实施例中，金字塔特征提取网络逐级提取输入的待进行检测的文本图像的特征图，具体的，金字塔特征提取网络利用一系列卷积和池化操作得到输入的文本图像的高层语义特征(如纹理结构和语义信息等)，即通过不同的卷积层不断做下采样操作，从而得到输入的文本图像的高层语义特征，并输出多尺度的特征图，即输出不同层次的特征图。由于在每个卷积层，数据都是以三维形式存在的，也可以将三维形式的数据看成许多个叠在一起的二维图片，其中每一个二维图片可以称为一个特征图。在输入层，如果是灰度图片，那就只有一个特征图；如果是彩色图片，一般有3个特征图(如红、绿、蓝)。而层与层之间会有若干个卷积核(kernel)，上一层的每个特征图跟每个卷积核做卷积，都会产生下一层的一个特征图。

在一个实施例中，如图4所示，基于深度学习的文本检测模型的构建方法可以包括如下步骤：

步骤402，获取带有文本框的样本图像数据集。

其中，带有文本框的样本图像数据集是指对每一个样本图像进行了文本框标注的样本图像的集合。在本实施例中，文本框还包括标注了文本框的坐标信息的训练标签。训练标签不仅可以包括文本框的四个顶点的坐标，还可以包括文本框的类别，其表示形式为：(class,x₁,y₁,x₂,y₂,x₃,y₃,x₄,y₄)。其中，第一个元素“class”表示对应文本框的类别信息，如是“文本区域”则为1，不是则为0；后8个元素表征对应文本框的四个顶点的坐标，如图5所示，通常以正方向的文本左上角的顶点为第一个顶点，顺时针方向标注，如第一个顶点的坐标为“x₁,y₁”、第二个顶点的坐标为“x₂,y₂”、第三个顶点的坐标为“x₃,y₃”以及第四个顶点的坐标为“x₄,y₄”。其中x、y分别表示顶点对应的x轴坐标值和y轴坐标值。

步骤404，采用包括训练标签的样本图像数据集，利用反向传播算法训练深度学习网络模型，获得文本检测模型。

在本实施例中，通过上述包括训练标签的样本图像数据集，并利用反向传播算法训练深度学习网络模型，从而得到训练好的文本检测模型。具体的，通过训练标签中文本框的四个顶点的坐标可以获知样本图像中文本框的方向性，也即文本框的角度，基于此，对深度学习网络模型进行训练后，即可得到训练好的多方向文本检测模型。

具体的，在对深度学习网络模型进行训练时，其采用的损失函数为多任务损失函数，表示为：

其中，L(x,c,l,g)表示模型的总损失，L_conf表示模型的分类损失，L_loc表示模型的定位损失，α表示定位损失占据的比重，g为标注的文本框，l为文本预测框，_N表示匹配到标注的文本框的锚点框的数量，x表示匹配的文本框是否属于正样本的概率(即是否属于文本区域的概率)，取值0或1，c表示匹配的文本框属于正样本的置信度。在本实施例中，通过上述损失函数对深度学习网络模型进行训练，从而使得训练后的文本检测模型可以学习到预设锚点框的每个顶点相对于匹配的样本图像中文本框的每个顶点的偏移量，并通过该偏移量即可得到可偏移的文本候选框，即非固定位置的文本候选框。

在一个实施例中，如图6所示，采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，具体包括如下步骤：

步骤602，对多层特征图中的各层特征图经由卷积核后输出调整后的特征图。

由于文本通常的形状为长条形，因此，普通的3×3卷积不太适合，基于此，在本实施例中，采用更加适合文本形状的3×5的卷积核输出(如图2所示)。具体的，将上述得到的多层特征图通过3×5的卷积核进行卷积运算后，输出调整后的多尺度特征图，以期更加适合文本检测。

步骤604，在调整后的特征图上滑窗，得到与每个锚点的预设锚点框的大小和尺度匹配的文本框的坐标信息，并计算文本框的文本置信度。

其中，预设锚点框的大小可以根据样本图像数据集中标注的文本框的尺寸统计进行设置，但是，预设的锚点框的长宽比一般为1、2、3、5、二分之一、三分之一和/或五分之一，从而更加适合长条文本的检测。预设锚点框的尺度则可以是指预设锚点框的方向或角度，对于每个锚点可以具有不同大小和角度的多个预设锚点框。文本框的坐标信息则包括文本框的四个顶点的坐标。

具体的，根据每个锚点的预设锚点框在调整后的特征图上进行滑窗，从而分别得到与每个锚点的预设锚点框大小和尺度匹配的文本框，并根据匹配的文本框的坐标信息采用Softmax计算对应文本框的置信度。

步骤606，根据得到的文本置信度大于预设文本置信度的文本框的坐标信息，学习得到对应预设锚点框相对于匹配的文本框的偏移量。

在本实施例中，计算出匹配的每个文本框的置信度后，将其与预设文本置信度进行比较，并筛选出文本置信度大于预设文本置信度的文本框，进而根据筛选出的文本框的坐标信息以及匹配的锚点框，学习得到两者间的偏移量。如图7所示，外部的黑色虚线框为预设锚点框，内部的黑色实线框为与该预设锚点框匹配的标注的文本框，经过学习训练即可得到两者间的偏移量(如图中的箭头)。具体的，两者间的偏移量可以根据预设锚点框的各顶点坐标相对于匹配的文本框的四个顶点的坐标的偏移，通过学习得到预设锚点框相对于匹配的文本框的偏移量。

步骤608，根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。

其中，可偏移的文本候选框具有非固定的位置。基于上述得到的偏移量在预设锚点框与匹配的文本框之间可以生成任意的文本候选框(如图7所示)，即得到具有可偏移的文本候选框，其具有多样性，且更加贴合目标检测。

在一个实施例中，上述具有多层输出的特征提取网络模型与基于深度学习的文本检测模型可以分开单独设置，也可以集成设置在一个模型中。如图8所示，以两者集成设置在一个模型中为例进一步说明本申请的方法，其可以包括如下步骤：

1)利用样本图像数据集对模型进行反向训练，训练时采用多任务损失函数；

2)其中，样本图像数据集中的样本图像需要进行标注，以生成训练标签，包括标注文本框、标注文本框的类别以及标注文本框的坐标；

3)向训练后的模型输入待进行检测的文本图像；

4)得到模型进行卷积计算后输出的多层特征图；

5)通过卷积核调整特征图后，采用预设锚点框在调整后的特征图上滑窗以得到匹配的文本框；

6)得到匹配的文本框的坐标信息并计算对应文本框的文本置信度，从而得到文本候选框；

7)采用非极大值抑制法去掉冗余的文本候选框，得到得分最高的文本候选框；

8)将得分最高的文本候选框作为待进行检测的文本图像的文本预测框并输出，以完成文本图像中文本特征的检测。

应该理解的是，虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种文本图像的检测装置，包括：特征提取模块901、候选框生成模块902和文本框预测模块903，其中：

特征提取模块901，用于将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图；

候选框生成模块902，用于采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框；

文本框预测模块903，用于将具有可偏移的文本候选框映射回待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为待进行检测的文本图像的文本预测框。

在一个实施例中，具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络；则特征提取模块901具体用于：将待进行检测的文本图像输入至金字塔特征提取网络；由金字塔特征提取网络通过不同的卷积层进行特征融合，输出不同层次的特征图。

在一个实施例中，基于深度学习的文本检测模型包括：样本图像数据集获取单元，用于获取带有文本框的样本图像数据集，其中，文本框包括标注了文本框的坐标信息的训练标签；训练单元，用于采用包括训练标签的样本图像数据集，利用反向传播算法训练深度学习网络模型，获得文本检测模型。

在一个实施例中，利用反向传播算法训练深度学习网络模型，采用的损失函数为多任务损失函数：

其中， L(x,c,l,g)表示模型的总损失，L_conf表示模型的分类损失，L_loc表示模型的定位损失，α表示定位损失占据的比重，g为标注的文本框，l为文本预测框，_N表示匹配到标注的文本框的锚点框的数量，x表示匹配的文本框是否属于正样本的概率，取值0或1，c表示匹配的文本框属于正样本的置信度。

在一个实施例中，候选框生成模块902具体用于：对多层特征图中的各层特征图经由卷积核后输出调整后的特征图；在调整后的特征图上滑窗，得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息，并计算文本框的文本置信度；根据得到的文本置信度大于预设文本置信度的文本框的坐标信息，学习得到对应预设锚点框相对于匹配的文本框的偏移量；根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。

在一个实施例中，预设锚点框的大小根据样本图像数据集中文本框的尺寸统计进行设置，预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/ 或五分之一。

在一个实施例中，文本框的坐标信息包括文本框的四个顶点的坐标；则学习得到对应预设锚点框相对于匹配的文本框的偏移量，包括：根据预设锚点框的各顶点坐标相对于匹配的文本框的四个顶点的坐标的偏移，学习得到预设锚点框相对于匹配的文本框的偏移量。

关于文本图像的检测装置的具体限定可以参见上文中对于文本图像的检测方法的限定，在此不再赘述。上述文本图像的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待进行检测的文本图像数据以及样本图像数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像的检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10、图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络；则将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，包括：将待进行检测的文本图像输入至金字塔特征提取网络；由金字塔特征提取网络通过不同的卷积层进行特征融合，输出不同层次的特征图。

在一个实施例中，基于深度学习的文本检测模型的构建方法包括：获取带有文本框的样本图像数据集，其中，文本框包括标注了文本框的坐标信息的训练标签；采用包括训练标签的样本图像数据集，利用反向传播算法训练深度学习网络模型，获得文本检测模型。

在一个实施例中，采用基于深度学习的文本检测模型扫描多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，包括：对多层特征图中的各层特征图经由卷积核后输出调整后的特征图；在调整后的特征图上滑窗，得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息，并计算文本框的文本置信度；根据得到的文本置信度大于预设文本置信度的文本框的坐标信息，学习得到对应预设锚点框相对于匹配的文本框的偏移量；根据预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。

在一个实施例中，文本框的坐标信息包括文本框的四个顶点的坐标；则学习得到对应预设锚点框相对于匹配的文本框的偏移量，包括：根据预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移，学习得到预设锚点框相对于匹配的文本框的偏移量。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，利用反向传播算法训练深度学习网络模型，采用的损失函数为多任务损失函数：其中， L(x,c,l,g)表示模型的总损失，L_conf表示模型的分类损失，L_loc表示模型的定位损失，α表示定位损失占据的比重，g为标注的文本框，l为文本预测框，_N表示匹配到标注的文本框的锚点框的数量，x表示匹配的文本框是否属于正样本的概率，取值0或1，c表示匹配的文本框属于正样本的置信度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本图像的检测方法，其特征在于，所述方法包括：

采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框；

将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。

2.根据权利要求1所述的文本图像的检测方法，其特征在于，所述具有多层输出的特征提取网络模型包括由多个卷积层组成的金字塔特征提取网络；所述将待进行检测的文本图像输入至具有多层输出的特征提取网络模型中，得到多层特征图，包括：

将待进行检测的文本图像输入至所述金字塔特征提取网络；

由所述金字塔特征提取网络通过不同的卷积层进行特征融合，输出不同层次的特征图。

3.根据权利要求1所述的文本图像的检测方法，其特征在于，所述基于深度学习的文本检测模型的构建方法包括：

获取带有文本框的样本图像数据集，所述文本框包括标注了所述文本框的坐标信息的训练标签；

采用包括所述训练标签的所述样本图像数据集，利用反向传播算法训练深度学习网络模型，获得文本检测模型。

4.根据权利要求3所述的文本图像的检测方法，其特征在于，所述利用反向传播算法训练深度学习网络模型，采用的损失函数为多任务损失函数：

其中，L(x,c,l,g)表示模型的总损失，L_conf表示模型的分类损失，L_loc表示模型的定位损失，α表示定位损失占据的比重，g为标注的文本框，l为文本预测框，_N表示匹配到标注的文本框的锚点框的数量，x表示匹配的文本框是否属于正样本的概率，取值0或1，c表示匹配的文本框属于正样本的置信度。

5.根据权利要求3所述的文本图像的检测方法，其特征在于，所述采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框，包括：

对所述多层特征图中的各层特征图经由卷积核后输出调整后的特征图；

在所述调整后的特征图上滑窗，得到与每个锚点的预设锚点框大小和尺度匹配的文本框的坐标信息，并计算所述文本框的文本置信度；

根据得到的文本置信度大于预设文本置信度的文本框的坐标信息，学习得到对应预设锚点框相对于匹配的文本框的偏移量；

根据所述预设锚点框相对于匹配的文本框的偏移量得到具有可偏移的文本候选框。

6.根据权利要求5所述的文本图像的检测方法，其特征在于，所述预设锚点框的大小根据所述样本图像数据集中所述文本框的尺寸统计进行设置，所述预设锚点框的长宽比为1、2、3、5、二分之一、三分之一和/或五分之一。

7.根据权利要求5所述的文本图像的检测方法，其特征在于，所述文本框的坐标信息包括所述文本框的四个顶点的坐标；所述学习得到对应预设锚点框相对于匹配的文本框的偏移量，包括：

根据所述预设锚点框的各顶点坐标相对于匹配的所述文本框的四个顶点的坐标的偏移，学习得到所述预设锚点框相对于匹配的文本框的偏移量。

8.一种文本图像的检测装置，其特征在于，所述装置包括：

候选框生成模块，用于采用基于深度学习的文本检测模型扫描所述多层特征图中的各层特征图，得到匹配的具有可偏移的文本候选框；

文本框预测模块，用于将所述具有可偏移的文本候选框映射回所述待进行检测的文本图像上，采用非极大值抑制法去掉冗余的文本候选框，将得分最高的文本候选框作为所述待进行检测的文本图像的文本预测框。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。