CN113033593A

CN113033593A - 基于深度学习的文本检测训练方法及装置

Info

Publication number: CN113033593A
Application number: CN201911361236.7A
Authority: CN
Inventors: 崔淼
Original assignee: Shanghai Xiaoi Robot Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-25
Anticipated expiration: 2039-12-25
Also published as: CN113033593B

Abstract

本发明提供一种基于深度学习的文本检测训练方法及装置。所述方法包括：获取训练图像集，训练图像集包括多张训练图像；对每张训练图像进行人工标注处理，以得到标注的四个原图边界像素值；对每张训练图像进行缩放处理，以得到对应的缩放图像；根据标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值，并获取标注的右边界区域像素集和标注的左边界区域像素集；根据缩放图像进行建模处理，以得到预测的右边界区域像素集和预测的左边界区域像素集；计算第一边界损失函数；不断重复上述建模处理和计算第一边界损失函数的过程，直至第一边界损失函数满足预设条件。本发明既可提高识别效率，又可提高识别准确率，最终提高用户检测效果。

Description

基于深度学习的文本检测训练方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习的文本检测训练方法及装置。

背景技术

图像对象检测是指在图像中定位和检测感兴趣的目标，并给出每个目标所属的区域(例如边界框)。图像对象检测在人脸识别、智能监控、图像检索、文本识别以及机器人导航等领域有着广泛的应用。图像文本检测是从图像中检测出包括各种字符的文本区域，然后，可以对文本区域中的字符进行识别和其他处理，因此，图像文本检测是图像文本识别和进一步处理的基础和前提。随着卷积神经网络(CNN)在图像处理中的广泛应用，图像文本检测能够更准确地检测出一些文本对象。

文字是不可或缺的视觉信息来源。相对于图像/视频中的其他内容，文字往往包含更强的语义信息，因此对图像中的文字提取和识别具有重大意义。基于深度学习的光学字符识别(OCR)，已经被广泛应用于日常生活中，如常见的身份证、银行卡、驾驶证识别等。OCR包括检测与识别两个步骤。但是如果定位文本不准确会直接影响OCR识别精度，因此提高检测精度是OCR最重要的一步。

目前基于深度学习的字符检测都是基于检测框的回归和分割，包括CTPN(Detecting Text in Natural Image with Connectionist Text Proposal Network，基于连接预选框网络的文本检测)模型、EAST模型、Textboxes++(文本框++)模型等，但是当检测长文本时，由于文本比较长，目前OCR检测算法模型感受野有限，导致检测容易出现断裂，当长文本每一行检测结果出错大量断裂时，必然会降低识别精度，且会增加识别时间。

因此，如何减少长文本检测中的检测框断裂，以提高识别精度和识别效率就成为本领域亟待解决的问题之一。

发明内容

本发明解决的问题是提供一种基于深度学习的文本检测训练方法，既可以提高识别效率，又可以提高识别准确率，最终提高用户检测效果。

为解决上述问题，本发明实施例提供一种基于深度学习的文本检测训练方法，包括以下步骤：

获取训练图像集，所述训练图像集包括多张训练图像，所述训练图像中待检测区域为四边形；

对每张所述训练图像进行人工标注处理，以得到标注的四个原图边界像素值；

对每张所述训练图像进行缩放处理，以得到对应的缩放图像；

根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值，并获取标注的右边界区域像素集和标注的左边界区域像素集；

根据所述缩放图像进行建模处理，以得到预测的右边界区域像素集和预测的左边界区域像素集；

根据loss₁＝l_score(y_r，c_r)+l_score(y_l，c_l)计算第一边界损失函数，其中：loss₁代表第一边界损失函数，l_score(y_r,c_r)是预测的右边界区域像素集y_r与标注的右边界区域像素集c_r之间的误差，l_score(y_l,c_l)是预测的左边界区域像素集y_l与标注的左边界区域像素集c_l之间的误差；

不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件。

可选地，所述缩放处理采用下面公式实现：

其中：Area(p)是训练图像的面积，Permeter(p)是训练图像的周长，r是缩放比例，d是缩放距离，r的取值范围包括大于等于0.5且小于1。

可选地，所述建模处理包括：对所述缩放图像进行特征提取处理以及特征融合处理，以得到预测图像；根据所述预测图像与对应的训练图像，得到预测的右边界区域像素集和预测的左边界区域像素集；所述特征提取处理包括：对所述缩放图像进行多次卷积处理，每次所述卷积处理包括一个卷积层和一个归一层；对所述多次卷积处理后的图像进行多次深度学习处理，每次所述深度学习处理依次包括：squeeze层、第一激活层、expand层和第二激活层。

可选地，所述卷积处理的次数范围包括2—4；所述深度学习处理的次数范围包括9—15。

可选地，所述特征融合处理包括：选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。

可选地，所述方法还包括：

采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理，以得到预测图像分割集及训练图像分割集；

根据loss₂＝dice(G[n-1],S[n-1])计算第二边界损失函数，其中，G[n-1]＝[g1,g2...gn-1]，S[n-1]＝[s1,s2...sn-1]，dice是欧式距离函数，g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果，s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果；

不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件包括：不断重复上述建模处理、计算第一边界损失函数、渐进分割处理以及计算第二边界损失函数的过程，直至所述第一边界损失函数和所述第二边界损失函数之和满足预设条件。

可选地，所述渐进分割处理包括n-1次扩展处理，第i次扩展处理采用下面公式分别对训练图像和预测图像进行处理以得到gi和si：

其中：d′_i是第i次扩展的扩展距离，Area(x)是训练图像或预测图像的面积，Permeter(x)是训练图像或预测图像的周长，m的取值范围大于等于0且小于1，n的取值范围大于等于4且小于等于10。

为解决上述问题，本发明实施例还提供了一种基于深度学习的文本检测训练装置，包括：

输入模块，用于获取训练图像集，所述训练图像集包括多张训练图像，所述训练图像中待检测区域为四边形；

标注模块，用于对每张所述训练图像进行人工标注处理，以得到标注的四个原图边界像素值；

缩放模块，用于对每张所述训练图像进行缩放处理以得到对应的缩放图像，并根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值，且获取标注的右边界区域像素集和标注的左边界区域像素集；

建模模块，用于根据所述缩放图像进行建模处理，以得到预测的右边界区域像素集和预测的左边界区域像素集；

第一边界损失函数模块，用于根据loss₁＝l_score(y_r，c_r)+l_score(y_l，c_l)计算第一边界损失函数，其中：loss₁代表第一边界损失函数，l_score(y_r,c_r)是预测的右边界区域像素集y_r与标注的右边界区域像素集c_r之间的误差，l_score(y_l,c_l)是预测的左边界区域像素集y_l与标注的左边界区域像素集c_l之间的误差；

控制模块，用于控制所述建模模块以及所述第一边界损失函数模块，以不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件。

为了解决上述技术问题，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于深度学习的文本检测训练方法的步骤。

为了解决上述技术问题，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于深度学习的文本检测训练方法的步骤。

与现有技术相比，本发明的技术方案具有以下优点：

在对训练图像进行人工标注处理以及缩放处理之后，仅计算缩放图像的标注的右边界区域像素集和标注的左边界区域像素集，从而通过建模处理得到预测的右边界区域像素集和预测的左边界区域像素集，进而根据预测的右边界区域像素集和预测的左边界区域像素集来计算第一边界损失函数，且通过不断建模和计算第一边界损失函数，当第一边界损失函数满足预设条件时则训练结束。通过提取长文本边界像素值找到长文本四个边界点，直接根据四个边界点，用一个多边形把长文本直接框起来，就可以解决感受野有限导致检测键断裂的问题，最终可以提高长文本检测时的检测速度和检测准确度。

附图说明

图1是实施例一提供的基于深度学习的文本检测训练方法的流程示意图；

图2是实施例一提供的一种待检测区域的示意图；

图3是对图2的待检测区域进行缩放处理的示意图；

图4是实施例一中步骤S400的一种实现方式的示意图；

图5是实施例一中步骤S400的另一种实现方式的示意图；

图6是采用现有技术east方法进行文本检测的示意图；

图7是采用实施例一方法进行文本检测的示意图；

图8是实施例二提供的基于深度学习的文本检测训练方法的流程示意图。

具体实施方式

正如背景技术所述，现有技术中由于文本比较长，目前OCR检测算法模型感受野有限，导致检测容易出现断裂，当长文本每一行检测结果出错大量断裂时，必然会降低识别精度，且会增加识别时间。

发明人经过创造性劳动发现：目前基于深度学习的光学字符检测都是基于检测框的回归和分割技术实现，如：ctpn，textboxes++等，但是这些基于检测框回归的方法在处理曲线型文本或者较为密集的文本的时候都表达不够细致，也会出现回归边框不准确的问题，基于分割的方法往往是文本区域分割+边界框校准的方法。因为对于文字的检测都需要较为精细的边界框，基于检测的方法往往只能确定一个四边形的文本框，后期的NMS(Non-maximum suppression，非极大值抑制)算法也不太适合处理较为密集的文本区域筛选。

针对上述技术问题，发明人进一步发现：由于目前的检测模型是对文本线内的每一个像素点的坐标进行预测，然后计算损失函数时对其所有像素进行加权平均，作为最终文本线的预测坐标。但是这种方法对于长线内的所有像素点的坐标进行预测比较难，容易导致预测检测框的坐标容易受到离边界点远点像素点的影响，导致预测的文本线偏小，没法准确地检测完整的文本，从而出现文本检测断裂，没法准确地检测完整的文本行。为此，发明人创造性地提出：在计算第一边界损失函数时，只用边界像素去预测回归顶点坐标，用所有的边界像素预测值的加权平均来预测检测坐标，即：提取长文本边界像素值找到长文本的四个边界点，进而直接根据四个边界点，用一个多边形把长文本直接框起来，这样就可以加快模型的收敛速度，解决了感受野有限导致检测断裂的问题，从而提高识别精度，且会减少识别时间，最终大大改善了长文本检测的性能。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

实施例一

参考图1所示，本实施例提供了一种基于深度学习的文本检测训练方法，包括以下步骤：

步骤S100，获取训练图像集，所述训练图像集包括多张训练图像；

步骤S200，对所述训练图像进行人工标注处理，以得到标注的四个原图边界像素值；

步骤S300，对每张所述训练图像进行缩放处理，以得到对应的缩放图像；

步骤S400，根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值，并获取标注的右边界区域像素集和标注的左边界区域像素集；

步骤S500，根据所述缩放图像进行建模处理，以得到预测的右边界区域像素集和预测的左边界区域像素集；

步骤S600，根据预测的右边界区域像素集和预测的左边界区域像素集计算第一边界损失函数；

步骤S700，不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件。

本实施例在对训练图像进行人工标注处理以及缩放处理之后，仅计算缩放图像的标注的右边界区域像素集和标注的左边界区域像素集，从而通过建模处理得到预测的右边界区域像素集和预测的左边界区域像素集，进而根据预测的右边界区域像素集和预测的左边界区域像素集来计算第一边界损失函数，且通过不断建模和计算第一边界损失函数，当第一边界损失函数满足预设条件时则训练结束。通过提取长文本边界像素值找到长文本四个边界点，直接根据四个边界点，用一个多边形把长文本直接框起来，就可以解决感受野有限导致检测键断裂的问题，最终可以提高长文本检测时的检测速度和检测准确度。

首先执行步骤S100，获取训练图像集，所述训练图像集包括多张训练图像。

本实施例中所需的训练图像的数目比较少，具体地：训练图像集中可以包括500-2000张训练图像，如：500个、1000个、1500个或2000个。

所述训练图像中待检测区域为四边形，其既可以是规则的长方形、菱形或正方形等四边形，也可以是不规则的梯形或其它四边形。

由于待检测区域为四边形，因此待检测区域具有四个边界点(即顶点)。

需要说明的是，本实施例的方法不仅适合长文本，同时也适合短文本。因此，所述训练图像中可以包括长文本，也可以包括短文本，还可以同时包括长文本和短文本。

接着执行步骤S200，对每张所述训练图像进行人工标注处理，以得到标注的四个原图边界像素值。

本实施例中通过人工标注处理得到每个训练图像的四个原图边界像素值(即四边形的待检测区域的四个顶点位置)，其与现有技术是相同的，在此不再赘述。

参考图2所示，在一个具体例子中，一张训练图像的待检测区域为长方形，其具有四个边界点A、边界点B、边界点C和边界点D。当标注得到四个边界点之后，就可以得到该待检测区域的面积和周长。

接着执行步骤S300，对所述训练图像进行缩放处理，以得到对应的缩放图像。

本实施例中所述缩放处理的缩放比例可以为大于等于0.5且小于1，如：0.5、0.6、0.7、0.75、0.8、0.9或0.95。

所述缩放处理具体包括计算出每个训练图像的多边形面积，并根据下面的公式(1-1)计算缩放距离d，进而得到缩放图像。

其中：Area(p)是训练图像中待检测区域的面积，Permeter(p)是训练图像中待检测区域的周长，r是缩放比例。

所述训练图像的面积Area(p)和所述训练图像的周长Permeter(p)可以通过人工标注得到的四个原图边界像素值计算得到。

参考图3所示，针对图2的具体例子，计算得到缩放距离d之后，得到缩放图像，缩放图像与对应的训练图像相应的每个边之间的距离就是缩放距离d。

接着执行步骤S400，根据所述标注的四个原图边界像素值计算对应的缩放图像的四个缩放边界像素值，并获取标注的右边界区域像素集和标注的左边界区域像素集。

当得到缩放图像之后，就可以确定缩放图像的四个缩放边界像素值，进而根据左侧两个原图边界像素值以及左侧两个缩放边界像素值就可以获取标注的左边界区域像素值，根据右侧两个原图边界像素值以及右侧两个缩放边界像素值就可以获取标注的右边界群区域像素值。

为了便于理解，继续参考图3所示，其中缩放图像的四个边界点分别为边界点a、边界点b、边界点x和边界点y，根据边界点A的像素值、边界点B的像素值、边界点X的像素值、边界点Y的像素值以及缩放距离d就可以通过计算得到边界点a的像素值、边界点b的像素值、边界点x的像素值以及边界点y的像素值。

作为一种具体实施方式，其中：左边界区域的四个边界点分别为左侧两个缩放边界点以及左侧两个原图边界点；右边界区域的四个边界点分别为右侧两个缩放边界点以及右侧两个原图边界点。

为了便于理解，参考图4所示，根据边界点A的像素值、边界点Y的像素值、边界点a的像素值以及边界点y的像素值就可以计算得到标注的左边界区域像素集，即左边界区域由边界点A、边界点a、边界点y以及边界点Y组成；根据边界点B的像素值、边界点X的像素值、边界点b的像素值以及边界点x的像素值就可以计算得到标注的右边界区域像素集，即右边界区域由边界点B、边界点b、边界点X以及边界点x组成。此时标注的左边界区域像素集以及标注的右边界区域像素集是基于人工标注的结果通过计算获得的。

作为另一种具体实施方式，其中：左边界区域的四个边界点分别为左侧两个缩放边界点、以及缩放图像的两个长边的延长线与对应的训练图像的左侧边界之间的两个交叉点；右边界区域的四个边界点分别为右侧两个缩放边界点、以及缩放图像的两个长边的延长线与对应的训练图像的右侧边界之间的两个交叉点。

为了便于理解，参考图5所示，根据边界点A的像素值、边界点Y的像素值、边界点a的像素值以及边界点y的像素值就可以计算得到标注的左边界区域像素集，即左边界区域由边界点a、边界点a’、边界点y以及边界点y’组成；根据边界点B的像素值、边界点X的像素值、边界点b的像素值以及边界点x的像素值就可以计算得到标注的右边界区域像素集，即右边界区域由边界点b’、边界点b、边界点x’以及边界点x组成，其中：边界点a’和边界点y’是缩放图像的长边ab与长边yx的延长线与对应的训练图像的左侧边界AY之间的两个交叉点，边界点b’和边界点x’是缩放图像的长边ab与长边yx的延长线与对应的训练图像的右侧边界BX之间的两个交叉点。此时标注的左边界区域像素集L以及标注的右边界区域像素集R是基于人工标注的结果通过计算获得的。

除了上面两种具体实施方式，还可以在图5的边界点A和边界点a’之间的直线上寻找该直线上的任一点替代a’或图4中的A作为左边界区域的左上顶点，在图5的边界点B和边界点b’的直线上寻找该直线上的任一点替代b’或图4中的B作为左边界区域的右上顶点，在图5的边界点Y和边界点y’的直线上寻找该直线上的任一点替代y’或图4中的Y作为左边界区域的左下顶点，在图5的边界点X和边界点x’的直线上寻找该直线上的任一点替代x’或图4中的X作为左边界区域的右下顶点。从面积的角度来说，图5是面积最小的左边界区域和面积最小的右边界区域，图4是面积最大的左边界区域和面积最大的右边界区域，除了这两种情形外，通过更改端点值的选取方法，左边界区域的面积和右边界区域的面积还可以取最大和最小之间的其它值。

所述右边界区域像素集和所述左边界区域像素集分别是由该区域内的所有像素点的像素值组成的。

接着执行步骤S500，根据所述缩放图像进行建模处理，以得到预测的右边界区域像素集和预测的左边界区域像素集。

所述建模处理可以包括：对所述缩放图像进行特征提取处理以及特征融合处理，以得到预测图像；根据所述预测图像与对应的训练图像，得到预测的右边界区域像素集和预测的左边界区域像素集。

其中，所述特征提取处理可以包括：对所述缩放图像进行多次卷积处理，每次所述卷积处理包括一个卷积层和一个归一层；对所述多次卷积处理后的图像进行多次深度学习处理，每次所述深度学习处理依次包括：squeeze层、第一激活层、expand(扩展)层和第二激活层。

具体地，所述特征提取处理中的所述卷积处理的次数范围可以包括2—4，如：2次、3次或4次；所述深度学习处理的次数范围是可以包括9—15，如：9次、10次、11次、12次、13次、14次或15次。

其中，所述squeeze层可以是1x1的卷积核；所述expand层里面可以有多个1x1和3x3的卷积核，expand层之后将1x1和3x3的卷积输出特征在3维度拼接起来；所述第一激活层和所述第二激活层都可以采用PReLU，由于不包括全连接层，所以训练过程网络参数大大降低。

其中，所述特征融合处理处理可以包括：选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN(feature pyramidnetworks，特征图金字塔网络)特征融合，从而可以提取高质量全局文本特征映射信息(多尺度特征映射)。

发明人经过创造性劳动发现：在进行特征融合处理时，如果选择的深度学习处理的次数太少，则针对提取文本小目标文字信息会有损失，如果选择的深度学习处理的次数太多，在训练网络过程中容易出现梯度消失现象。而当选择4-8次的深度学习处理的squeeze层输出特征图谱进行FPN(feature pyramid networks，特征图金字塔网络)特征融合时既不会出现损失，又不会出现梯度消失现象。

作为一个具体例子，本实施例中的所述特征提取处理中所述卷积处理的次数为2，具体地：将缩放图像输入到2个1*1和3*3大小的卷积操作，卷积层的过程中设置padding参数为“same”，目的为了提取特征分辨率大小与输入的图像分辨率大小相同，有利于特征融合第一层的选择。此外，为了防止特征分辨率过低，本实施例在每一次卷积层后面添加归一层来替代现有技术中常用的池化层。

本实施例中通过特征提取处理以及特征融合处理，就可以得到与每张训练图像对应的预测图像，然后就可以根据所述预测图像与对应的训练图像得到预测的右边界区域像素集和预测的左边界区域像素集。

将网络预测的左右边界区域中所有像素点的像素值分别进行加权平均值作为检测图像文本的边界点坐标。具体地：将预测的右边界区域像素集上半部分区域中所有像素点的像素值的加权平均值作为检测图像的右上边界点的像素值；将预测的右边界区域像素集下半部分区域中所有像素点的像素值的加权平均值作为检测图像的右下边界点的像素值；将预测的左边界区域像素集上半部分区域中所有像素点的像素值的加权平均值作为检测图像的左上边界点的像素值；将预测的左边界区域像素集下半部分区域中所有像素点的像素值的加权平均值作为检测图像的左下边界点的像素值，从而获取了预测图像的四个边界点的像素值(即四个预测边界像素值)。

本实施例中根据四个预测边界像素值获取预测的右边界区域像素集以及预测的左边界区域像素值的方法与上述根据四个缩放边界像素值获取标注的右边界区域像素集以及标注的左边界区域像素值的方法相同，主要是将其中缩放图像的信息变更为预测图像的对应信息，在此不再赘述。

由于现有技术中的模型是对文本线内的每一个像素点的坐标进行预测，然后对其所有像素进行加权平均，作为最终文本线的预测坐标，但是这种方法、容易导致预测检测框的坐标容易受到离边界点远点像素点的影响，导致文本检测断裂，没法准确地检测完整的文本行，因此本实施例只用边界像素去预测回归顶点坐标，用所有的边界像素预测值的加权平均来预测检测坐标，即：提取长文本边界像素值找到长文本的四个边界点，进而直接根据四个边界点，用一个多边形把长文本直接框起来，这样就可以加快模型的收敛速度，解决了感受野有限导致检测断裂的问题，从而提高识别精度，且会减少识别时间，最终大大改善了长文本检测的性能。

接着执行步骤S600，根据预测的右边界区域像素集和预测的左边界区域像素集计算第一边界损失函数。

具体地，本实施例中根据loss₁＝l_score(y_r，c_r)+l_score(y_l，c_l)计算第一边界损失函数，其中：loss₁代表第一边界损失函数，l_score(y_r,c_r)是预测的右边界区域像素集y_r与标注的右边界区域像素集c_r之间的误差，l_score(y_l,c_l)是预测的左边界区域像素集y_l与标注的左边界区域像素集c_l之间的误差。

在得到第一边界损失函数后，判断所述第一边界损失函数是否满足预设条件。

具体地，所述预设阈值条件为大于等于0.5且小于1，如：0.5、0.6、0.7、0.8、0.9等。

接着执行步骤S700，不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件。

需要说明的是，当执行步骤S600后第一次计算得到的第一边界损失函数就满足预设条件时，则无需执行步骤S700，直接结束；而当执行步骤S600后第一次计算得到的第一边界损失函数不满足预设条件时，则需要不断重复步骤S500和步骤S600，直至计算得到的新的第一边界损失函数满足预设条件为止。

至此，完成文本检测的训练过程。

针对同一长文本，图6是采用现有技术east方法进行文本检测的示意图；图7是采用实施例一方法进行文本检测的示意图，通过对比图6和图7可知，采用本实施例方法未出现图6所示的断裂。当采用1000张测试图像进行文本检测的准确率测试时，分别采用现有技术的East模型、CTPN模型以及本实施例方法建立的模型进行检测时，本实施例方法对应的准确率与EAST模型和CTPN模型相比分别提高了12％和9％，即采用本实施例训练方法进行后续文本检测时，检测的准确率有了明显提高。

实施例二

参考图8所示，本实施例提供了一种基于深度学习的文本检测训练方法，包括以下步骤：

步骤s700，采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理，以得到预测图像分割集及训练图像分割集；

步骤s800，根据训练图像分割集以及预测图像分割集计算第二边界损失函数；

步骤s900，不断重复上述建模处理、计算第一边界损失函数、渐进分割处理以及计算第二边界损失函数的过程，直至所述第一边界损失函数和所述第二边界损失函数之和满足预设条件。

此外，与实施例一相比，本实施例增加了步骤s700和步骤s800，且将步骤S700更改为步骤s900，其余步骤请参见实施例一中相应步骤的描述，在此不再赘述。

在执行完步骤s600，即计算得到第一边界损失函数之后，继续执行步骤s700，采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理，以得到预测图像分割集及训练图像分割集。

当对训练图像进行渐进分割处理时，所述渐进分割处理可以包括n-1次扩展处理，第i次扩展处理采用下面公式对训练图像进行处理以得到gi：

其中：d′_i是第i次扩展的扩展距离，Area(x)是训练图像的面积，Permeter(x)是训练图像的周长，m的取值范围大于等于0且小于1，如：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9等，n的取值范围大于等于4且小于等于10，即：4、5、6、7、8、9或10。

当对预测图像进行渐进分割处理时，所述渐进分割处理可以包括n-1次扩展处理，第i次扩展处理采用相同的下面公式对预测图像进行处理以得到gi：

其中：d′_i是第i次扩展的扩展距离，Area(x)是预测图像的面积，Permeter(x)是预测图像的周长，m的取值范围大于等于0且小于1，如：0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8或0.9等，n的取值范围大于等于4且小于等于10，即：4、5、6、7、8、9或10。

发明人经过创造性劳动发现：n的取值如果太小，则最大内核太小会导致密集文本无法分开，进而检测效果不佳；n的取值如果太大，则最大内核太大会导致检测框会压文本的情况。只要当n的取值范围大于等于4且小于等于10，即：4、5、6、7、8、9或10时，才既可以获得满意的检测效果，又不致出现检测框压文本的情况。

作为一个具体例子，本实施例中m的取值为0.5，n的取值为4，则对训练图像进行渐进分割处理时，其包括3次扩展处理：

第一次扩展处理的扩展比例r₁是0.5，扩展距离为d₁’＝0.5*(训练图像的面积/训练图像的周长)，从而完成对训练图像的第一次扩展。

第二次扩展处理的扩展比例r₂是2/3，扩展距离为d₂’＝1/3*(训练图像的面积/训练图像的周长)，从而完成对训练图像的第二次扩展。

第三次扩展处理的扩展比例r₃是1/6，扩展距离为d₃’＝5/6*(训练图像的面积/训练图像的周长)，从而完成对训练图像的第三次扩展。

本实施例中第一次扩展处理之后得到的扩展图像与对应的训练图像相应的每个边之间的距离就是扩展距离d₁’，第二次扩展处理之后得到的扩展图像与对应的训练图像相应的每个边之间的距离就是扩展距离d₂’，第三次扩展处理之后得到的扩展图像与对应的训练图像相应的每个边之间的距离就是扩展距离d₃’。

本实施例中只有第一次扩展处理实质是对训练图像进行了缩放，后续的扩展处理实质都是对训练图像进行了扩展，扩展距离的概念可以参考前面缩放距离的概念。

本实施例中通过对训练图像进行三次扩展处理可以获得三个扩展图像，从而三次扩展处理的结果像就构成训练图像分割集。

对预测图像进行渐进分割处理以得到预测图像分割集的方法请参考上述对训练图像进行渐渐分割处理的过程，在此不再赘述。

接着执行步骤s800，根据训练图像分割集以及预测图像分割集计算第二边界损失函数。

具体地，根据loss₂＝dice(G[n-1],S[n-1])计算第二边界损失函数，其中，G[n-1]＝[g1,g2...gn-1]，S[n-1]＝[s1,s2...sn-1]，dice是欧式距离函数，g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果，s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果。

当计算得到第二边界损失函数之后，判断步骤s600计算得到的第一边界损失函数与步骤s800计算得到的第二边界损失函数之和是否符合预设条件。

接着执行步骤s900，不断重复上述建模处理、计算第一边界损失函数、渐进分割处理以及计算第二边界损失函数的过程，直至所述第一边界损失函数和所述第二边界损失函数之和满足预设条件。

需要说明的是，当执行步骤s800后第一次计算得到的第一边界损失函数与第二边界损失函数之和就满足预设条件时，则无需执行步骤s900，直接结束；而当执行步骤s800后第一次计算得到的第一边界损失函数与第二边界损失函数之和不满足预设条件时，则需要不断重复步骤s500、步骤s600、步骤s700和步骤s800，直至计算得到的新的第一边界损失函数与新的第二边界损失函数之和满足预设条件为止。

至此，完成文本检测的训练过程。

与实施例一相比，本实施例可以进一步解决密集文字紧靠的情况导致检测效果不好的问题，具体是基于分割的思路，通过文本实例扩展到不同的尺度而产生的不同的“内核”。通过不同大小内核分配给多个检测预测的分割区域。该方法将最小的核(即g1和s1)逐步扩展到最大(即gn-1和sn-1)直至最大分割符合输入文本实例。文本极小核间存在较大的明显的密集文本行边界，因此该方法能够有效地区分相邻文本实例。

实施例三

本实施例提供了一种基于深度学习的文本检测训练装置，包括：

控制模块，用于控制所述建模模块以及所述第一边界损失函数式模块，以不断重复上述建模处理和计算第一边界损失函数的过程，直至所述第一边界损失函数满足预设条件。

其中，所述缩放模块可以采用下面公式实现：

其中，所述建模模块可以包括：

特征提取单元，用于对所述缩放图像进行特征提取处理；

特征融合单元，用于对提取的特征进行特征融合处理，以得到预测图像；

计算单元，用于根据预测图像与对应的训练图像，得到预测的右边界区域像素集和预测的左边界区域像素集。

其中，所述特征提取单元可以包括：

多个卷积子单元，用于对对所述缩放图像进行多次卷积处理，每个所述卷积子单元包括一个卷积层和一个归一层；

多个深度学习子单元，对所述多次卷积处理后的图像进行多次深度学习处理，每个所述深度学习子单元依次包括：squeeze层、第一激活层、expand层和第二激活层。

其中，所述卷积子单元的数目范围可以包括2—4；所述深度学习子单元的数目范围可以包括9—15。

其中，所述特征融合单元具体用于选择任一所述卷积层的输出特征图谱以及4—8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。

本装置各功能模块的具体工作过程请详见实施例一对应的步骤，在此不再赘述。

由于现有技术中的模型是对文本线内的每一个像素点的坐标进行预测，然后对其所有像素进行加权平均，作为最终文本线的预测坐标，但是这种装置容易导致预测检测框的坐标容易受到离边界点远点像素点的影响，导致文本检测断裂，没法准确地检测完整的文本行，因此本实施例只用边界像素去预测回归顶点坐标，用所有的边界像素预测值的加权平均来预测检测坐标，即：提取长文本边界像素值找到长文本的四个边界点，进而直接根据四个边界点，用一个多边形把长文本直接框起来，这样就可以加快模型的收敛速度，解决了感受野有限导致检测断裂的问题，从而提高识别精度，且会减少识别时间，最终大大改善了长文本检测的性能。

实施例四

渐进分割模块，用于采用相同方法分别对所述预测图像及对应的所述训练图像进行渐进分割处理，以得到预测图像分割集及训练图像分割集；

第二边界损失函数模块，用于根据loss₂＝dice(G[n-1],S[n-1])计算第二边界损失函数，其中，G[n-1]＝[g1,g2...gn-1]，S[n-1]＝[s1,s2...sn-1]，dice是欧式距离函数，g1,g2,...,gn-1是对训练图像进行渐进扩展分割处理的结果，s1,s2,...,sn-1是对预测图像进行渐进扩展分割处理的结果；

控制模块，用于控制所述建模模块、所述第一边界损失函数模块、渐进分割模块和所述第二边界损失函数模块，以不断重复上述建模处理、计算第一边界损失函数的过程、渐进分割处理和计算第二边界损失函数的过程，直至所述第一边界损失函数与所述第二边界损失函数之和满足预设条件。

其中，所述渐进分割模块包括n-1个扩展单元，第i个扩展单元采用下面公式分别对训练图像和预测图像进行处理以得到gi和si：

本实施例中各功能模块的具体工作过程详见实施例二对应的步骤，在此不再赘述。

与实施例三相比，本实施例可以进一步解决密集文字紧靠的情况导致检测效果不好的问题，具体是基于分割的思路，通过文本实例扩展到不同的尺度而产生的不同的“内核”。通过不同大小内核分配给多个检测预测的分割区域。该装置将最小的核(即g1和s1)逐步扩展到最大(即gn-1和sn-1)直至最大分割符合输入文本实例。文本极小核间存在较大的明显的密集文本行边界，因此该装置能够有效地区分相邻文本实例。

实施例五

相应地，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于深度学习的文本检测训练方法的步骤，具体请参见上面方法部分，在此不再赘述。

存储器作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的基于深度学习的文本检测训练方法对应的程序指令/模块。处理器通过运行存储在存储器中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的基于深度学习的文本检测训练方法。

存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于深度学习的文本检测训练方法的步骤，具体请参见上面方法部分，在此不再赘述。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于深度学习的文本检测训练方法，其特征在于，包括以下步骤：

根据loss₁＝l_score(y_r，c_r)+l_score(y_l，c_l)计算第一边界损失函数，其中：loss₁代表第一边界损失函数，l_score(y_r，c_r)是预测的右边界区域像素集y_r与标注的右边界区域像素集c_r之间的误差，l_score(y_l，c_l)是预测的左边界区域像素集y_l与标注的左边界区域像素集c_l之间的误差；

2.如权利要求1所述的方法，其特征在于，所述缩放处理采用下面公式实现：

3.如权利要求1所述的方法，其特征在于，所述建模处理包括：对所述缩放图像进行特征提取处理以及特征融合处理，以得到预测图像；根据所述预测图像与对应的训练图像，得到预测的右边界区域像素集和预测的左边界区域像素集；

所述特征提取处理包括：

对所述缩放图像进行多次卷积处理，每次所述卷积处理包括一个卷积层和一个归一层：

对所述多次卷积处理后的图像进行多次深度学习处理，每次所述深度学习处理依次包括：squeeze层、第一激活层、expand层和第二激活层。

4.如权利要求3所述的方法，其特征在于，所述卷积处理的次数范围包括2-4；所述深度学习处理的次数范围包括9-15。

5.如权利要求3所述的方法，其特征在于，所述特征融合处理包括：选择任一所述卷积层的输出特征图谱以及4-8次所述深度学习处理的squeeze层输出特征图谱进行FPN特征融合。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据loss₂＝dice(G[n-1]，S[n-1])计算第二边界损失函数，其中，G[n-1]＝[g1，g2...gn-1]，S[n-1]＝[s1，s2...sn-1]，dice是欧式距离函数，g1，g2，...，gn-1是对训练图像进行渐进扩展分割处理的结果，s1，s2，...，sn-1是对预测图像进行渐进扩展分割处理的结果；

7.如权利要求6所述的方法，其特征在于，所述渐进分割处理包括n-1次扩展处理，第i次扩展处理采用下面公式分别对训练图像和预测图像进行处理以得到gi和si：

其中：d_i′是第i次扩展的扩展距离，Area(x)是训练图像或预测图像的面积，Permeter(x)是训练图像或预测图像的周长，m的取值范围大于等于0且小于1，n的取值范围大于等于4且小于等于10。

8.一种基于深度学习的文本检测训练装置，其特征在于，包括：

第一边界损失函数模块，用于根据loss₁＝l_score(y_r，c_r)+l_score(y_l，c_l)计算第一边界损失函数，其中：loss₁代表第一边界损失函数，l_score(y_r，c_r)是预测的右边界区域像素集y_r与标注的右边界区域像素集c_r之间的误差，l_score(y_l，c_l)是预测的左边界区域像素集y_l与标注的左边界区域像素集c_l之间的误差；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的基于深度学习的文本检测训练方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的基于深度学习的文本检测训练方法。