CN111310758A

CN111310758A - 文本检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111310758A
Application number: CN202010089903.7A
Authority: CN
Inventors: 周康明; 胡威
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-19

Abstract

本申请涉及一种文本检测方法、装置、计算机设备和存储介质。所述方法包括：获取待检测图像；利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像；将各子图像输入预设的文本检测模型，得到各子图像对应的文本条；其中，文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。采用本方法能够对各子图像中的单个字符进行准确地检测，提高了得到的各子图像对应的文本条的准确度。

Description

文本检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种文本检测方法、装置、计算机设备和存储介质。

背景技术

随着深度学习技术的发展，基于深度学习的文本检测方法已广泛地使用在对文本的分析中。

传统技术中，基于深度学习的文本检测方法，将待检测图像输入预先训练好的文本检测模型中，能够对待检测图像中比较容易识别的文本进行准确地检测，例如，对银行票据图像进行分析时，将银行票据图像输入预先训练好的文本检测模型中，能够快速地定位出银行票据图像中的日期、金额等文字区域，加快了对银行票据图像的分析效率。

然而，传统的文本检测方法对于小目标文本区域的检测，存在检测准确率较低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对小目标文本区域进行检测的文本检测方法、装置、计算机设备和存储介质。

一种文本检测方法，所述方法包括：

获取待检测图像；

利用滑动窗口策略，采用预设的第一尺寸的窗口，得到所述待检测图像的多个子图像；

将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条；其中，所述文本检测模型用于对各所述子图像的不同尺度的卷积特征进行融合。

在其中一个实施例中，所述预设的第一尺寸为根据所述待检测图像中文本所占的像素确定的尺寸。

在其中一个实施例中，所述将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条之后，所述方法还包括：

利用空间变换网络对各所述文本条中的扭曲文本进行旋转校正，得到校正后的文本；

根据所述校正后的文本，生成各所述文本条对应的校正后的文本条。

在其中一个实施例中，所述文本检测模型包括特征提取模块、采样模块和特征融合模块，所述将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条，包括：

将各所述子图像输入所述特征提取模块进行特征提取，得到各所述子图像不同尺度下的特征图；

将各所述子图像不同尺度下的特征图输入所述采样模块进行采样处理，得到各所述子图像不同尺度下的采样特征图；

将所述采样特征图输入所述特征融合模块进行特征融合处理，得到各所述子图像对应的文本条。

在其中一个实施例中，所述文本检测模型的训练过程包括：

获取样本图像；

利用所述滑动窗口策略，采用预设的第二尺寸的窗口，得到所述样本图像的多个样本子图像；所述预设的第二尺寸为根据所述样本图像中文本所占的像素确定的尺寸；

获取各所述样本子图像的标注文本条；

将各所述样本子图像输入预设的初始文本检测模型，得到各所述样本子图像对应的样本文本条；其中，所述初始文本检测模型用于对各所述样本子图像的不同尺度的卷积特征进行融合；

根据各所述样本子图像对应的样本文本条和各所述样本子图像的标注文本条，对所述初始文本检测模型进行训练，得到所述文本检测模型。

在其中一个实施例中，所述根据各所述样本子图像对应的样本文本条和各所述样本子图像的标注文本条，对所述初始文本检测模型进行训练，得到所述文本检测模型，包括：

根据各所述样本子图像对应的样本文本条和各所述样本子图像的标注文本条，得到所述初始文本检测模型的损失函数的值；其中，所述损失函数为排斥力损失函数；

根据所述损失函数的值，对所述初始文本检测模型进行训练，得到所述文本检测模型。

在其中一个实施例中，所述损失函数包括第一损失函数和第二损失函数，所述方法还包括：

调节所述第一损失函数的系数和所述第二损失函数的系数；所述第一损失函数用于表征各所述样本子图像对应的样本文本条与相邻的标注文本条之间的损失；所述第二损失函数用于表征各所述样本子图像对应的样本文本条与相邻的非同一类别的标注文本条之间的损失。

一种文本检测装置，所述装置包括：

第一获取模块，用于获取待检测图像；

第二获取模块，用于利用滑动窗口策略，采用预设的第一尺寸的窗口，得到所述待检测图像的多个子图像；

检测模块，用于将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条；其中，所述文本检测模型用于对各所述子图像的不同尺度的卷积特征进行融合。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待检测图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

上述文本检测方法、装置、计算机设备和存储介质，获取待检测图像，利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像，将各子图像输入预设的文本检测模型，得到各子图像对应的文本条；其中，文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。在该方法中，计算机设备利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像能够使待检测图像的单个字符的小文本区域落入到得到的子图像内，捕获到待检测图像中更多的小目标，进而将各子图像输入预设的文本检测模型，对各子图像的不同尺度的卷积特征进行融合，能够对各子图像中的单个文本进行准确地检测，提高了得到的各子图像对应的文本条的准确度。

附图说明

图1为一个实施例提供的计算机设备的内部结构示意图；

图2为一个实施例提供的文本检测方法的流程示意图；

图3为另一个实施例提供的文本检测方法的流程示意图；

图3a为一个实施例提供的对扭曲文本进行旋转校正的示意图；

图3b为一个实施例提供的生成各文本条对应的校正后的文本条的示意图；

图4为另一个实施例提供的文本检测方法的流程示意图；

图5为另一个实施例提供的文本检测方法的流程示意图；

图6为另一个实施例提供的文本检测方法的流程示意图；

图7为另一个实施例提供的文本检测方法的流程示意图；

图8为一个实施例提供的文本检测装置结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本检测方法，可以适用于如图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器，该存储器中存储有计算机程序，处理器执行该计算机程序时可以执行下述方法实施例的步骤。可选的，该计算机设备还可以包括网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。可选的，该计算机设备可以是服务器，可以是个人计算机，还可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请实施例提供的文本检测方法，其执行主体可以是文本检测装置，该文本检测装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

图2为一个实施例提供的文本检测方法的流程示意图。本实施例涉及的是计算机设备获取待检测图像的多个子图像，将各子图像输入预设的文本检测模型，得到各子图像对应的文本条的具体实现过程。如图2所示，该方法可以包括：

S201，获取待检测图像。

其中，待检测图像中包括多个小目标文本区域，每个小目标文本区域中包含一个或多个文本。可选的，包含的文本可以是汉字、数字、英文等字符。可选的，包括的小目标文本区域可能为污渍遮挡的文本区域，也可能为文本密集遮挡的文本区域。

可选的，待检测图像可以为摄像机、扫描仪等设备采集的图像，或者其他图像采集设备采集的图像。示例性地，待检测图像可以为拍摄银行票据、商业保险单、书籍、纸张等得到的图像。可选的，待检测图像中的文本可能是倾斜的文本，也可能是扭曲旋转的文本，也可能是倒置的文本。

需要说明的是，计算机设备得到的待检测图像可能为倾斜的图像，那么需要对待检测图像进行倾斜校正处理，可选的，计算机设备可以采用如下的步骤对待检测图像进行倾斜校正处理：

A1，若待检测图像中包括的文本区域是有表格框线的文本，则可以利用边缘检测算法得到待检测图像中包括的文本区域的边界；若待检测图像中包括的文本区域是无框线的纯文本，则可以利用文本字符的连通域检测方法得到待检测图像中包括的文本区域边界；

A2，利用A1中求得的文本区域边界找到对应的外接矩形框，将找到的外接矩形框的中心点坐标与整张待检测图像的中心点坐标进行比对，求得待检测图像中包括的文本区域的倾斜角度和位置偏差；

A3，根据A2中求得的倾斜角度值，对待检测图像进行顺时针或逆时针旋转，使待检测图像保持竖直状态；再根据求得的位置偏差，将待检测图像的文本区域平移至待检测图像的中心位置处，从而得到校正处理后的待检测图像。

S202，利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像。

具体的，计算机设备利用滑动窗口策略，采用预设的第一尺寸的窗口，遍历待检测图像，得到待检测图像的多个子图像。可选的，计算机设备可以采用预设的第一尺寸的窗口，按照从左到右，从上往下的滑动方向，或者，按照从左到右，从下往上的滑动方向，对待检测图像进行截取处理，得到待检测图像的多个子图像。可选的，计算机设备还可以采用预设的第一尺寸的窗口，按照从右到左，从上往下的滑动方向，或者，按照从右到左，从下往上的滑动方向，对待检测图像进行截取处理，得到待检测图像的多个子图像。可选的，预设的第一尺寸可以根据待检测图像中的文本信息的进行确定，示例性地，计算机设备可以根据待检测图像中最左侧的文本信息和最右侧的文本信息的距离，确定预设的第一尺寸；也可以根据待检测图像中最上侧的文本信息到最下侧的文本信息的距离，确定预设的第一尺寸；或者，计算机设备也可以根据待检测图像中包括的文本总数量和每个文本所占的尺寸，确定预设的第一尺寸。需要说明的是，在本实施例中，利用滑动窗口策略，采用预设的第一尺寸的窗口，遍历待检测图像能够使待检测图像中的小目标文本更容易被滑动窗口捕获到，避免了对待检测图像中小目标文本漏检的可能性。

S203，将各子图像输入预设的文本检测模型，得到各子图像对应的文本条；其中，文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。

具体的，计算机设备将上述得到的各子图像输入预设的文本检测模型，得到各子图像对应的文本条。其中，该文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。可以理解的是，不同尺度的卷积特征融合能够更好地学习各子图像的特征属性，能够更好地将各子图像内提取到的特征进行更有效地应用。其中，不同尺度的卷积特征中低层特征保留的真实信息更多一些，能够增加对各子图像中小目标文本区域的特征学习，高层特征由于经下采样拟合到的特征更多一些，更适用于对大目标文本区域的特征学习，使文本检测模型在实现多尺度的特征融合的同时，能够对各子图像中的小目标文本区域的特征进行准确地检测。

在本实施例中，计算机设备利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像能够使待检测图像的单个字符的小文本区域落入到得到的子图像内，捕获到待检测图像中更多的小目标，进而将各子图像输入预设的文本检测模型，对各子图像的不同尺度的卷积特征进行融合，能够对各子图像中的单个文本进行准确地检测，提高了得到的各子图像对应的文本条的准确度。

在上述实施例的基础上，作为一种可选的实施方式，预设的第一尺寸为根据待检测图像中文本所占的像素确定的尺寸。

具体的，在利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像的场景中，预设的第一尺寸为根据待检测图像中文本所占的像素确定的尺寸。可选的，计算机设备可以获取待检测图像中文本所占的像素的均值，将待检测图像中文本所占的像素的均值确定为预设的第一尺寸。可选的，计算机设备可以获取待检测图像中文本所占的像素的最小值，将待检测图像中文本所占的像素的最小值确定为预设的第一尺寸。

在本实施例中，预设的第一尺寸为根据待检测图像中文本所占的像素确定的，能够使待检测图像中的小目标更容易被滑动窗口捕获到，避免了对待检测图像中小目标文本漏检的可能性。

在上述得到的各子图像对应的文本条的场景中，得到的文本条中的文本可能是扭曲的文本，则需要对文本条中的扭曲文本进行旋转校正。图3为另一个实施例提供的文本检测方法的流程示意图。图3a为一个实施例提供的对扭曲文本进行旋转校正的示意图。图3b为一个实施例提供的生成各文本条对应的校正后的文本条的示意图。本实施例涉及的是计算机设备对各文本条中的扭曲文本进行旋转校正，生成各文本条对应的校正后的文本条的具体实现过程。如图3所示，在上述实施例的基础上，作为一种可选的实施方式，S203之后，上述方法还包括：

S301，利用空间变换网络对各文本条中的扭曲文本进行旋转校正，得到校正后的文本。

其中，如图3a所示，输入图像U是输入的文本条，经过空间转换网络后，求出仿射变换矩阵，输出图像V是校正后的文本条；也就是说，空间变换网络(Spatial TransformerNetworks,STN)的输入为U，输出为V，因为输入的可能是中间层的特征图，故将STN的输入画成了立方体(表示多通道)，STN的处理过程主要分为下述三个步骤：1)本地化网络(Localisation net)是一个自定义的网络，它的输入为U，输出为变化参数θ，参数θ用来映射U和V的坐标关系；2)网格生成器(Grid generator)根据V中的坐标点和变化参数θ，计算出U中的坐标点。这里是因为V的大小是自己先定义好的，当然可以得到V的所有坐标点，而填充V中每个坐标点的像素值的时候，要从U中去取，所以根据V中每个坐标点和变化参数θ进行运算，得到一个坐标。在采样(Sampler)中就是根据这个坐标去U中找到像素值，这样子来填充V；3)Sampler要做的是填充V，根据Grid generator得到的一系列坐标和原图U(因为像素值要从U中取)来填充，因为计算出来的坐标可能为小数，要用另外的方法来填充，例如，双线性插值等。具体的，在本实施例中，计算机设备可以利用STN对各文本条中扭曲文本进行旋转校正，得到校正后的文本。

S302，根据校正后的文本，生成各文本条对应的校正后的文本条。

具体的，计算机设备根据各文本条中校正后的文本，生成各文本条对应的校正后的文本条。可选的，计算机设备可以通过以下步骤生成各文本条对应的校正后的文本条：

B1，根据校正后的文本和对应的扭曲文本，得到用于对各文本条中的扭曲文本进行旋转校正的变换矩阵；

B2，获取各文本条中校正后的文本像素点的坐标，根据上述变换矩阵和校正后的文本像素点的坐标，得到校正后的文本在对应的文本条中的预测坐标；

B3，根据校正后的文本在对应的文本条中的预测坐标，生成各文本条对应的校正后的文本条。

可以理解的是，在本实施例中，计算机设备利用空间变换网络通过输出仿射变换矩阵的变化参数θ＝F(U)(式中U是输入样本)，利用变换矩阵和校正后的文本像素点的坐标，反推输出校正后的文本像素点在原文本条中的位置，如图3b所示，经过变换矩阵T之后，校正后的文本条I中的某一像素点P'，对应原文本条中的像素点P，然后，利用双线性插值等方式生成包含扭曲文本的文本条对应的校正后的文本条。在本实施例中，空间变换网络能够学习包含扭曲文本的文本条的空间位置信息，尽可能把文本的每个区域的边界位置信息都利用到，增加文本检测模型输出的准确性。

在本实施例中，计算机设备利用空间变换网络对各文本条中的扭曲文本进行旋转校正，能够使各文本条中的扭曲文本的边界框坐标点都能被检测到，减少了出现定位目标区域不全的情况，进一步增强了对各文本条中文本定位效果的精度。

在上述将各子图像输入预设的文本检测模型的场景中，上述文本检测模型包括特征提取模块、采样模块和特征融合模块。图4为另一个实施例提供的文本检测方法的流程示意图。本实施例涉及的是计算机设备将各子图像输入预设的文本检测模型，得到各子图像对应的文本条的具体实现过程。如图4所示，在上述实施例的基础上，作为一种可选的实施方式，上述S203包括：

S401，将各子图像输入特征提取模块进行特征提取，得到各子图像不同尺度下的特征图。

具体的，计算机设备将待检测图像的各子图像输入文本检测模型的特征提取模块，对各子图像进行特征提取，得到各子图像不同尺度下的特征图。

S402，将各子图像不同尺度下的特征图输入采样模块进行采样处理，得到各子图像不同尺度下的采样特征图。

具体的，计算机设备将各子图像不同尺度下的特征图输入文本检测模型的采样模块进行采样处理，得到各子图像不同尺度下的采样特征图。可选的，采样模块包括至少一个下采样模块和至少一个上采样模块，可选的，计算机设备可以将各子图像不同尺度下的特征图输入至上述至少一个下采样模块进行下采样特征提取，得到各子图像不同尺度下的下采样特征图，然后，将各子图像不同尺度下的下采样特征图输入至上述至少一个上采样模块进行上采样特征提取，得到各子图像不同尺度下的采样特征图。

S403，将采样特征图输入特征融合模块进行特征融合处理，得到各子图像对应的文本条。

具体的，计算机设备将上述采样特征图输入文本检测模型的特征融合模块进行特征融合处理，得到各子图像对应的文本条。可选的，计算机设备将采样特征图输入文本检测模型的特征融合模块后，特征融合模块可以将不同采样特征图上的通道数进行合并，并将不同尺度下的特征图相加，使文本检测模型在大目标文本区域和小目标文本区域上特征学习的效果增强。

在本实施例中，计算机设备通过提取各子图像不同尺度下的特征图，将各子图像不同尺度下的特征图输入采样模块进行采样处理，得到各子图像不同尺度下的采样特征图，对各子图像不同尺度下的采样特征图进行融合处理，能够增加对各子图像中小目标文本区域的特征提取和学习，避免了对待检测图像各子图像中小目标文本漏检的可能性。

图5为另一个实施例提供的文本检测方法的流程示意图。本实施例涉及的是计算机设备得到文本检测模型的具体实现过程。如图5所示，在上述实施例的基础上，作为一种可选的实施方式，上述文本检测模型的训练过程包括：

S501，获取样本图像。

其中，样本图像中包括多个小目标文本区域，每个小目标文本区域中包含一个或多个文本。可选的，包含的文本可以是汉字、数字、英文等字符。可选的，包括的小目标文本区域可能为污渍遮挡的文本区域，也可能为文本密集遮挡的文本区域。可选的，样本图像可以为摄像机、扫描仪等设备采集的图像，或者其他图像采集设备采集的图像。示例性地，样本图像可以为拍摄银行票据、商业保险单、书籍、纸张等得到的图像。可选的，样本图像中的文本可能是倾斜的文本，也可能是扭曲旋转的文本，也可能是倒置的文本。可选的，计算机设备还可以对获取的样本图像采用上述S201中的A1～A3的步骤进行倾斜校正处理。

S502，利用滑动窗口策略，采用预设的第二尺寸的窗口，得到样本图像的多个样本子图像；预设的第二尺寸为根据样本图像中文本所占宽度的像素确定的尺寸。

具体的，计算机设备利用滑动窗口策略，采用预设的第二尺寸的窗口，遍历上述样本图像，得到样本图像的多个样本子图像。其中，预设的第二尺寸为根据样本图像中文本所占宽度的像素确定的尺寸。可选的，计算机设备可以按照从左到右，从上往下的滑动方向遍历样本图像，得到样本图像的多个样本子图像。

S503，获取各样本子图像的标注文本条。

具体的，计算机设备获取到样本图像的多个样本子图像后，可以利用已有的文本标注方法，对得到的多个样本子图像中的文本进行标注，得到各样本子图像的标注文本条。

S504，将各样本子图像输入预设的初始文本检测模型，得到各样本子图像对应的样本文本条。

具体的，计算机设备将各样本子图像输入预设的初始文本检测模型，初始文本检测模型对各样本子图像的不同尺度的卷积特征进行融合，得到各样本子图像对应的样本文本条。其中，不同尺度的卷积特征融合能够更好地学习各样本子图像的特征属性，能够更好地将各样本子图像内提取到的特征进行更有效地应用，并且，不同尺度的卷积特征中低层特征保留的真实信息更多一些，能够增加对各样本子图像中小目标文本区域的特征学习，高层特征由于经下采样拟合到的特征更多一些，更适用于对大目标文本区域的特征学习，因此，在本实施例中，可以增加在低层特征上融合的权重，使初始文本检测模型能够实现多尺度的特征融合，并着重增加文本检测模型对小目标文本区域的特征检测。

S505，根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，对初始文本检测模型进行训练，得到文本检测模型。

具体的，计算机设备根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，对初始文本检测模型进行训练，得到上述文本检测模型。可选的，计算机设备可以根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，得到初始文本检测模型的损失函数的值，其中，初始文本检测模型的损失函数为排斥力损失函数(RepulsionLoss)，然后，根据初始文本检测模型的损失函数的值，对初始文本检测模型进行训练，得到上述文本检测模型。

其中，Repulsion Loss的表达式如下：L＝L(Attr)+α*L(RepGT)+β*L(RepBox)，式中，L(Attr)用于表征各样本子图像对应的样本文本条与对应的标注文本条的损失值；L(RepGT)为第一损失函数，用于表征各样本子图像对应的样本文本条与相邻的标注文本条之间的损失，其中，各样本子图像对应的样本文本条与相邻的标注文本条之间的损失，指的是各样本子图像对应的样本文本条与对应的标注文本条的上/下/左/右的同一类别的标注文本条之间的损失；L(RepBox)为第二损失函数，用于表征各样本子图像对应的样本文本条与相邻的非同一类别的标注文本条之间的损失，其中，各样本子图像对应的样本文本条与相邻的非同一类别的标注文本条之间的损失，指的是各样本子图像对应的样本文本条与对应的标注文本条的上/下/左/右的非同一类别的标注文本条之间的损失。计算机设备在对初始文本检测模型进行训练时，根据初始文本检测模型输出的各样本子图像对应的样本文本条和各样本子图像的标注文本条，通过调节相关系数α和β以及初始文本检测模型的参数，对初始文本检测模型进行训练，得到文本检测模型。可以理解，Repulsion Loss通过相关系数α和β平衡样本文本条与相邻的标注文本条之间所产生的损失值以及样本文本条与相邻不是同一类别的标注文本条所产生的损失值，通过调节相关系数α和β，使得样本文本条与对应的标注文本条更加接近，尽可能使同类别但不同个体之间的样本文本条分开，让不同类别间的样本文本条尽可能远离，以此来实现对于类内类间遮挡情况下的定位准确度。可以理解的是，针对文本区域定位问题，分别计算类内与类间的预测框损失，是为了分别计算同类文本区域和不相干文本区域相对于真实文本区域的损失值，尽可能减少因字符重叠、噪声干扰等密集遮挡对样本文本条中真实文本定位的影响。

可选的，计算机设备还可以将得到的同类别间和不同类别间的预测框图保存下来，作为接下来更新初始文本检测模型的训练数据，检查核对和纠正错误判别的样本，做好标签记录，依次方法迭代训练初始文本检测模型，以增强得到的文本检测模型的检测准确度。需要说明的是，排斥力损失函数虽属于现有技术，并通常是在通用目标检测应用中引入，例如，人物、车辆等大目标容易判别的区域目标检测，但本申请中引入的排斥力损失函数所起的作用与现有技术不同。在本申请中，初始文本检测模型的损失函数采用排斥力损失函数，目的是尽可能减少因字符重叠、噪声干扰等密集遮挡对样本文本条中真实文本定位的影响，增加密集遮挡文本区域的定位精度，减少因相似文本区域和强干扰文本区域对生成真实有效预测框的影响提高对样本文本条中的文本检测的准确度。

在本实施例中，计算机设备利用滑动窗口策略，采用根据样本图像中文本所占宽度的像素确定的预设的第二尺寸的窗口，获取样本图像的多个样本子图像，能够使样本图像中的小目标更容易被滑动窗口捕获到，避免了对样本图像中小目标文本漏检的可能性，这样再将各样本子图像输入预设的初始文本检测模型，能够得到比较准确地各样本子图像对应的样本文本条，由于得到的各样本子图像对应的样本文本条的准确度得到了提高，进而可以根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，对初始文本检测模型进行准确地训练，提高了得到的文本检测模型的准确度。

图6为另一个实施例提供的文本检测方法的流程示意图。如图6所示，本申请提供的文本检测方法可以先根据获取的样本图像对初始文本检测模型进行训练，得到文本检测模型，该过程可以包括：对获取的样本图像进行数据预处理，然后对样本图像进行边缘检测和连通域检测，得到样本图像中文本的外接矩形框，根据外接矩形框对样本图像进行倾斜校正，之后，对校正后的样本图像通过过采样学习得到样本图像对应的多个样本子图像，将各样本子图像输入预设的初始文本检测模型，得到各样本子图像的多层特征图，对多层特征图进行融合，得到各样本子图像对应的样本文本条，根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，计算初始文本检测模型的损失函数(排斥力损失函数)的值，根据初始文本检测模型的损失函数的值对初始文本检测模型进行训练得到文本检测模型，并利用在对初始文本检测模型训练过程中保存的样本文本条，筛选整合训练数据优化文本检测模型，得到最终的文本检测模型，另外，在得到样本文本条后还可以利用空间变换网络对样本文本条中的扭曲文本进行校正处理，得到校正后的样本文本条。

需要说明的是，现有技术中的过采样操作虽然被广泛应用在通信信号采集中，而在本申请中，在图像特征提取中的过采样操作与其在现有技术的通信信号采集中的作用不同，在图像特征提取中过采样操作的作用是使图像上的小目标更容易被滑动窗口捕获到，从某种意义上说，相当于在样本总数目不增加的情况下，额外增加了小目标的数量，这种方法对样本中的大文本区域也同样适用，间接性地增加了样本的丰富度。

需要说明的是，本实施例中的文本检测方法的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

为了便于本领域技术人员的理解，以下对本申请提供的文本检测方法进行详细介绍，如图7所示，该方法可以包括：

S701，获取待检测图像；

S702，利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像；预设的第一尺寸为根据待检测图像中文本所占的像素确定的尺寸；

S703，将各子图像输入预设的文本检测模型的特征提取模块进行特征提取，得到各子图像不同尺度下的特征图；

S704，将各子图像不同尺度下的特征图输入预设的文本检测模型的采样模块进行采样处理，得到各子图像不同尺度下的采样特征图；

S705，将采样特征图输入特征融合模块进行特征融合处理，得到各子图像对应的文本条；

S706，利用空间变换网络对各文本条中的扭曲文本进行旋转校正，得到校正后的文本；

S707，根据校正后的文本和对应的扭曲文本，得到变换矩阵；变换矩阵用于对各文本条中的扭曲文本进行旋转校正；

S708，获取校正后的文本像素点的坐标，根据变换矩阵和校正后的文本像素点的坐标，得到校正后的文本在对应的文本条中的预测坐标；

S709，根据校正后的文本在对应的文本条中的预测坐标，生成各文本条对应的校正后的文本条。

需要说明的是，针对上述S701-S709中的描述可以参见上述实施例中相关的描述，且其效果类似，本实施例在此不再赘述。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图8为一个实施例提供的文本检测装置结构示意图。如图8所示，该装置可以包括：第一获取模块10、第二获取模块11和检测模块12。

具体的，第一获取模块10，用于获取待检测图像；

第二获取模块11，用于利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像；

检测模块12，用于将各子图像输入预设的文本检测模型，得到各子图像对应的文本条；其中，文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。

可选的，预设的第一尺寸为根据待检测图像中文本所占的像素确定的尺寸。

本实施例提供的文本检测装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

在上述实施例的基础上，可选的，上述装置还包括：校正模块和生成模块。

具体的，校正模块，用于利用空间变换网络对各文本条中的扭曲文本进行旋转校正，得到校正后的文本；

生成模块，用于根据校正后的文本，生成各文本条对应的校正后的文本条。

在上述实施例的基础上，可选的，上述文本检测模型包括特征提取模块、采样模块和特征融合模块，上述检测模块12包括：特征提取单元、采样单元和检测单元。

具体的，特征提取单元，用于将各子图像输入特征提取模块进行特征提取，得到各子图像不同尺度下的特征图；

采样单元，用于将各子图像不同尺度下的特征图输入采样模块进行采样处理，得到各子图像不同尺度下的采样特征图；

检测单元，用于将采样特征图输入特征融合模块进行特征融合处理，得到各子图像对应的文本条。

在上述实施例的基础上，可选的，上述装置还包括：第三获取模块、第四获取模块、第五获取模块、第六获取模块和训练模块。

具体的，第三获取模块，用于获取样本图像；

第四获取模块，用于利用滑动窗口策略，采用预设的第二尺寸的窗口，得到样本图像的多个样本子图像；预设的第二尺寸为根据样本图像中文本所占宽度的像素确定的尺寸；

第五获取模块，用于获取各样本子图像的标注文本条；

第六获取模块，用于将各样本子图像输入预设的初始文本检测模型，得到各样本子图像对应的样本文本条；其中，初始文本检测模型用于对各样本子图像的不同尺度的卷积特征进行融合；

训练模块，用于根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，对初始文本检测模型进行训练，得到文本检测模型。

在上述实施例的基础上，可选的，上述训练模块包括：获取单元和训练单元。

具体的，获取单元，用于根据各样本子图像对应的样本文本条和各样本子图像的标注文本条，得到初始文本检测模型的损失函数的值；其中，损失函数为排斥力损失函数；

训练单元，用于根据损失函数的值，对初始文本检测模型进行训练，得到文本检测模型。

在上述实施例的基础上，可选的，损失函数包括第一损失函数和第二损失函数，上述装置还包括：调节模块。

具体的，调节模块，用于调节所述第一损失函数的系数和所述第二损失函数的系数；所述第一损失函数用于表征各所述样本子图像对应的样本文本条与相邻的标注文本条之间的损失；所述第二损失函数用于表征各所述样本子图像对应的样本文本条与相邻的非同一类别的标注文本条之间的损失。

关于文本检测装置的具体限定可以参见上文中对于文本检测方法的限定，在此不再赘述。上述文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待检测图像；

利用滑动窗口策略，采用预设的第一尺寸的窗口，得到待检测图像的多个子图像；

将各子图像输入预设的文本检测模型，得到各子图像对应的文本条；其中，文本检测模型用于对各子图像的不同尺度的卷积特征进行融合。

上述实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待检测图像；

上述实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述预设的第一尺寸为根据所述待检测图像中文本所占的像素确定的尺寸。

3.根据权利要求1所述的方法，其特征在于，所述将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条之后，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述文本检测模型包括特征提取模块、采样模块和特征融合模块，所述将各所述子图像输入预设的文本检测模型，得到各所述子图像对应的文本条，包括：

5.根据权利要求1所述的方法，其特征在于，所述文本检测模型的训练过程包括：

获取样本图像；

获取各所述样本子图像的标注文本条；

6.根据权利要求5所述的方法，其特征在于，所述根据各所述样本子图像对应的样本文本条和各所述样本子图像的标注文本条，对所述初始文本检测模型进行训练，得到所述文本检测模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述损失函数包括第一损失函数和第二损失函数，所述方法还包括：

8.一种文本检测装置，其特征在于，所述装置包括：

第一获取模块，用于获取待检测图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。