CN111738262A

CN111738262A - 目标检测模型训练、检测方法、装置、设备及存储介质

Info

Publication number: CN111738262A
Application number: CN202010846386.3A
Authority: CN
Inventors: 康凯; 李兵; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-10-02

Abstract

本申请的目标检测模型训练、检测方法、装置、设备及存储介质，其中，在训练目标检测模型的过程中，目标检测模型执行处理训练样本数据集中的待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；计算每个像素位置的候选预测边界框与至少一个真实边界框之间的交并比，以从中获得目标交并比作为相应像素位置的置信得分，获得对应所述待检测图像的置信得分图；根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。本申请技术方案中改进的置信得分图，其中置信得分含义与合并操作中实质认为的意义一致，利用训练得到的目标检测模型进行目标检测，可以提升目标检测结果的准确性。

Description

目标检测模型训练、检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种目标检测模型训练、检测方法、装置、设备及存储介质。

背景技术

随着计算机视觉的发展，越来越多的优秀算法被提出来解决各种现实问题。场景文本检测作为计算机视觉的基础性任务之一，已经得到了广泛的研究，并取得了越来越好的性能。因此，基于精确文本定位和识别的场景文本检测算法在现实世界中有许多重要的应用，如文档分析、自动驾驶和车牌识别等。

在众多文本检测算法中，基于回归方法的EAST模型是一种使用频率较高的高效、准确的场景文本检测器，可以直接从完整的图像中预测文本实例的存在及其几何特征。其输出具有两个分支，第一个分支是像素值在[0，1]范围内的置信得分图（score map），其值表示每个像素是否属于文本区域的概率；第二个分支是回归分支，它可以为文本区域生成两种几何图形的候选预测边界框：旋转框（RBOX）或四边形框（QUAD）。在得到score map和RBOX后，后处理算法对每个像素进行阈值化处理，得到得分超过预定置信阈值的文本区域。然后，这些区域被认为是有效的，每个像素位置会预测一个文本框，后续通过局部感知非极大抑制（LNMS）算法将同一片文本区域的像素点预测的所有候选预测边界框组合成一个最终的预测边界框用来表示该片文本区域。最后，将LNMS后的结果作为整个文本检测算法的最终输出。该算法的结构简单，最终效果较好，因此近几年来被广泛应用在文本检测场景。

然而，该算法在理论上存在缺陷。score map原本的定义为对应像素位置上的像素属于文本区域的置信度，得分越高，该位置的像素就有越大的概率属于文本区域。但在LNMS步骤中，每个score却被当作对应的回归的文本边界框的置信度。这两种定义是不等价的，因此可能会有一些置信度较高的像素点，但其对应的文本边界框的质量较差，这些文本边界框对最终输出的影响更大。例如一个长条形状的文本行，其中心点区域的位置的score得分无疑会非常高（理论上越靠近文本中心区域的位置，其score越高），但是由于网络感受野的限制或其他种种原因，中心区域的位置很难捕获到文本边界框边缘位置的信息，因此通常这些位置预测出的文本边界框的边缘误差会比较大，导致最终合成的边界框的边缘回归效果较差。

此外，EAST模型对于较宽或较长文本区域的检测能力较弱，导致边缘回归效果较差，这是因为EAST模型的感受野较小所造成。

因此，如何找到一种能兼顾已有文本检测模型如EAST的的优点，又能克服所存在的缺点，已成为亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例中提供目标检测模型训练、检测方法、装置、设备及存储介质，解决现有技术中的技术问题。

本申请实施例提供了一种目标检测模型的训练方法，包括：

获取训练样本数据集；其中，所述训练样本数据集包括：带有真实边界框的待检测图像；

将所述训练样本数据集输入目标检测模型以对其训练；

所述训练的过程包括：由目标检测模型执行处理训练样本数据集中的待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；计算每个像素位置的候选预测边界框与至少一个真实边界框之间的交并比，以从中获得目标交并比作为相应像素位置的置信得分，获得对应所述待检测图像的置信得分图；根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果；计算最终预测边界框和对应的真实边界框之间的损失，根据所述损失更新所述目标检测模型中的参数。

可选的，所述目标检测模型包括：特征提取层、特征融合层及输出层；所述处理待检测图像而得到待检测图像中每个像素位置对应的候选预测边界框，包括：

通过特征提取层从待检测图像提取多个尺度的特征图；

通过特征融合层将所述多个尺度的特征图融合为与待检测图像尺寸一致的融合特征图；

通过输出层根据所述融合特征图生成各个所述候选预测边界框。

可选的，所述目标检测方法包括：在所述输出层获得所述置信得分图。

可选的，所述目标检测模型包括：至少一个特征增强模块，基于U形的特征金字塔结构实现，用于以所述目标检测模型中生成的至少一组多个尺度的特征图为原特征图，处理所述至少一组原特征图以得到与所述至少一组原特征图尺寸一一相同的至少一组增强特征图输出。

可选的，所述特征增强模块有多个，相互串联以用于对至少一组多个尺度的原特征图进行多次特征增强而形成至少一组增强特征图输出。

可选的，所述合并操作包括：标准非极大抑制处理、或局部感知非极大抑制处理。

可选的，所述待检测图像包括自然场景图像。

可选的，所述目标包括：文本。

可选的，所述目标检测模型在EAST模型、或进阶EAST模型的基础上实现。

本申请实施例还提供了一种目标检测方法，应用于由前述任一项所述的训练方法训练得到的目标检测模型；所述目标检测方法包括：

由所述目标检测模型处理待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框、及对应所述待检测图像的置信得分图；

由所述目标检测模型根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。

本申请实施例还提供了一种目标检测模型的训练装置，包括：

获取模块，用于获取训练样本数据集；其中，所述训练样本数据集包括：带有真实边界框的待检测图像；

训练模块，用于将所述训练样本数据集输入目标检测模型以对其训练；

其中，所述训练的过程包括：由目标检测模型执行处理训练样本数据集中的待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；计算每个像素位置的候选预测边界框与至少一个真实边界框之间的交并比，以从中获得目标交并比作为相应像素位置的置信得分，获得对应所述待检测图像的置信得分图；根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果；计算最终预测边界框和对应的真实边界框之间的损失，根据所述损失更新所述目标检测模型中的参数。

本申请实施例还提供了一种目标检测装置，应用于所述训练装置训练得到的目标检测模型；所述目标检测装置包括：

预测边界框生成模块，用于处理待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；

置信得分图生成模块，用于处理待检测图像，得到对应所述待检测图像的置信得分图；

边界框合并模块，用于根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。

本申请实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行实施例中任一项所述训练方法或实施例中任一项所述目标检测方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时执行实施例中任一项所述训练方法或实施例中任一项所述目标检测方法的步骤。

与现有技术相比，本申请实施例的技术方案具有以下有益效果：

一方面，本申请实施例中，所采用的目标检测模型，在被训练时通过对应待检测图像中每个像素位置的候选预测边界框同各真实边界框之间的最大交并比来得到该像素位置的得分，从而生成不同于EAST模型的score map的改进的置信得分图，其中的得分实际上表示对应同一目标的像素位置的候选预测边界框与真实边界框间的接近程度，在使用改进的置信得分图进行后续边界框的合并操作（如NMS、LNMS）时，其中每个置信得分的含义同合并操作中将置信得分当做对预测边界框和真实边界框的接近程度的评估之间是等价的；通过这样训练得到的目标检测模型执行目标检测工作，目标检测结果效果更佳，可以改善边界模糊的问题。

另一方面，本申请实施例中，可以在目标检测模型的特征提取层设置特征增强模块，以扩展感受野，从而适用于较长、较宽目标（如文本）的检测。

附图说明

图1是EAST模型的结构示意图；

图2是本申请实施例中一种目标检测模型的结构示意图。

图3是本申请实施例中IoU原理示意图。

图4是本申请实施例中最大IoU计算示意图。

图5是本申请实施例中又一种目标检测模型的结构示意图。

图6是本申请实施例中目标检测模型的训练方法的流程示意图。

图7是本申请实施例中通过目标检测模型得到候选预测边界框的流程示意图。

图8是本申请更具体实施例中训练方法的流程示意图。

图9是本申请实施例中目标检测方法的流程示意图。

图10是本申请实施例特征金字塔增强模块的结构示意图。

图11是本申请实施例中的FPEM模型的结构示意图。

图12是本申请实施例中训练装置的结构示意图。

图13是本申请实施例中目标检测装置的结构示意图。

图14是本申请实施例中计算机设备的结构示意图。

具体实施方式

图像文字检测和识别技术有着广泛的应用场景。已经被互联网公司落地的相关应用涉及了识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等。

已经有不少服务商在提供图像文字检测和识别服务，这些服务商既包括了腾讯、百度、阿里、微软、亚马逊、谷歌等大型云服务企业，也包括了一些活跃在物流、教育、安防、视频直播、电子政务、电子商务、旅游导航等垂直细分行业的服务企业。这些企业既可以使用提前训练好的模型直接提供场景图文识别、卡证识别、扫描文档识别等云服务，也可以使用客户提供的数据集训练定制化模型（如票据识别模型），以及提供定制化人工智能（Artificial Intelligence，AI）服务系统集成等。

在诸多文字检测模型中，EAST模型因其高效、准确的场景文本识别能力而被大量应用。EAST，全称为an Efficient and Accuracy Scene Text detection pipeline，译为高效、准确的场景文本识别管道。其检测流程包括两个阶段，第一阶段是全卷积网络（FCN，Fully Convolutional Networks），通过全卷积网络处理图像得到其中每个像素的对应的候选预测边界框，及包含每个像素属于文本区域的置信得分的置信得分图（score map）；第二阶段是非极大抑制阶段，例如通过标准非极大抑制（NMS）或局部感知非极大抑制（LNMS）等方法，以根据置信得分图将之前所回归的各个候选预测边界框中过于相似的加以合并为一，最终得到对图像中每个目标的最终预测边界框，而完成目标检测。

如前所述，EAST模型中的置信得分图的尺寸与原图像相同，则每个置信得分图中像素位置的置信得分表示原图像中对应位置的像素属于文本区域（即为图中文字上的像素）的可能性，得分越高（可通过置信得分图中的像素值表示），则表示越有可能属于文本区域。

请参阅图1，显示EAST模型的结构示意图。

EAST模型包括：特征提取层（Feature extractor stem，主干网络）101、特征融合层（Feature-merging branch，分支网络）102、及输出层（Output layer）103。

在原始的EAST模型中，特征提取层101采用PVANet。PVAnet是RCNN系列目标方向，基于Faster-RCNN进行改进，Faster-RCNN基础网络可以使用ZFNeT（出自论文《Visualizing and Understanding Convolutional Networks》）、VGGNeT（由牛津大学的视觉几何组即Visual Geometry Group和 Google DeepMind公司的研究员一起研发的的深度卷积神经网络）、残差网络（ResNet等）。

从图中可见，特征提取层101包含多级（stage）的卷积层（conv，即convolution），用于对原图进行多个尺度的特征图f₁~f₄的提取。其中，特征提取层101是基于“金字塔特征网络”的结构，即卷积层的尺寸依级减半，但卷积核的数量依次增倍。

在特征融合层102，采用U形特征金字塔网络（U-net）方法的思想，对较深一级的特征图进行上采样（unpooling），恢复到与前一级尺度的特征图相同尺寸并与其堆叠（concat），例如在特征提取时候，下一级别的特征图相比于上一级别的特征度尺度缩小为1/2，则在上采样时特征图尺度扩大为2倍。以此类推，最终向输出层103输出融合特征图，通过下采样到上采样并融合的过程，融合特征图的尺寸与输入的原图像尺寸相同。特征融合层102以上的计算过程可以表示为计算函数如下式（1）、（2）所示，其中的f_i和h_i分别对应于图1中的f₁~f₄、h₁~h₄。

其中，conv_3x3表示3×3卷积核的卷积层，unpool表示上采样函数，g_i表示求h_i的中间结果的函数。

在输出层103，通过1维的1*1卷积核生成一维的置信得分图，其中每个像素位置的得分（如像素值）即评价原图像中对应位置的像素属于文本区域的可能性高低。

另外，在输出层103，还可以输出两种几何图形的候选预测边界框：旋转框（RBOX）或四边形框（QUAD）。

对于旋转框（RBOX），其为矩形框，可以通过矩形框中的像素到矩形四边的距离以及矩形的转角来确定。具体的，到矩形四边的距离有到矩形顶部、右侧、底部、及左侧的边界的距离，即4个参数；而转角可以通过θ表示，一共5个参数。相应的，在图1中展示为通过4通道1*1卷积核、1通道1*1卷积核处理融合特征图而得到的5通道特征图来表示，图1中简化表示为“几何图”、及“转角”。

对于四边形框（QUAD），简单来说，以像素到四边形框的四个顶点的坐标偏移量（Δxi，Δyi）来表示，则每个顶点有2个坐标偏移量的参数，四个顶点则有8个参数。故每个四边形框（QUAD）有8个参数，在图1中对应有8通道的1*1卷积核处理融合特征图而得到的8通道特征图来表示，图1中简化表示“坐标偏移量集合”。

对应旋转框（RBOX）或四边形框（QUAD）输出的多通道特征图可称为geo map。

在后处理104过程中，通过NMS或LNMS的非极大抑制算法对得到的候选预测边界框进行合并而得到最终的目标检测结果。

在图1中的置信得分图（score map）中的每个置信得分表示原图像中对应像素位置的像素属于文本区域的可能性，但在后处理中进行候选预测边界框合并时，又是以置信得分表示像素对应的候选预测边界框是真实边界框（即正确的边界框，ground truth box，可以由人工标记、或其它目标检测模型（例如SSD等）输出）的可能性，使得两者并不等价，导致目标检测结果存在瑕疵，例如最终的文本边界框边缘检测效果不准确的问题。

鉴于此，本申请实施例中提供改进的目标检测模型，利用该目标检测模型来克服上述缺陷。

可选的，本申请实施例中可以以所述EAST模型为基础，重新定义置信得分，以“候选预测边界框是真实边界框的可能性”为置信得分，而生成新的置信得分图，以替代现有EAST模型中的原置信得分图而据以进行后续后处理阶段，使得在后处理阶段和之前阶段中，新的置信得分图中的置信得分的意义都是等价的，从而解决现有技术的问题。

需特别说明的是，本申请实施例中只是以EAST模型为例，在其它实施例中可以加以变化，例如进阶EAST（Advanced EAST）模型等，而非以前述实施例为限。

请参阅图2，显示本申请实施例中一种目标检测模型的结构示意图。

在本示例中，以例如EAST模型为基础，将图1中的EAST模型结构在图2中简化表示成特征提取层201、特征融合层202、及输出层203，其中，在输出层203具有生成新置信得分图（简称New score map）的分支，该分支中的置信得分图生成单元205生成所述新置信得分图。

在后处理204中，是以新置信得分图来替代原置信得分图，来进行候选边界框的合并操作（例如NMS，LNMS）。

具体说明所述置信得分图生成单元205计算新的置信得分的原理。由于每个像素位置都对应生成有一候选预测边界框，则该像素位置的得分，即“候选预测边界框是真实边界框的可能性”，可以通过计算对应的候选预测边界框和真实边界框之间的交并比（IoU）来表示。

因此，可以通过以带有真实边界框的待检测图像数据构成的训练样本数据来训练所述目标检测模型。

如图3所示，显示本申请实施例中IoU计算的原理。

图中显示边界框A和边界框B，边界框A和边界框B的交叠区域为C，而边界框A和边界框B之间的交并比为C的面积比上A和B并集面积的结果，在图像中，该面积可以通过像素量来表示。例如，C中有X个像素，而A和B并集有Y个像素，则边界框A和边界框B的交并比IoU即为X/Y。根据IoU的计算原理可知，其必然是在[0，1]之间的值。

示例性地，在待检测图像中，可能存在多个目标；则可以在训练数据集中的每个待检测图像中的每个目标设置一个真实边界框，即会存在多个真实边界框。为了筛除候选预测边界框同不同目标的真实边界框所计算的IoU，可以通过计算候选预测边界框同各个已知的真实边界框之间的最大IoU作为对应的像素位置的置信得分。

可以参考图4所示，具体说明上述原理。

在图4示例中，展示有目标A、目标B、及目标C，对应目标A的真实边界框为A₁，对应目标B的真实边界框为B₁，对应目标C的真实边界框为C1；假设目标A中z像素对应的候选预测边界框为A₂，A₂和A的交叠区域为a，A₂和B₁的交叠区域为b，A₂和C₁的交叠区域为c，从人的视觉来判断很明显，A₂和A₁的重叠度最高；假设经计算可得A₁和A₂的IoU₁为0.9，A₂和B₁的IoU₂为0.2，A₂和C₁的IoU₃为0.1，其中最大值为IoU₁=0.9，则以IoU₁=0.9作为z像素的得分，间接相当于筛除掉与目标A无关的B、C的候选预测边界框，即B₁和C₁。

其中，候选预测边界框和其对应像素之间的关系，参考之前实施例即可以理解，例如矩形的旋转框是由对应像素的所在位置到其四个边界的距离以及矩形的转角的5个参数所定义。

需说明的是，图2中所展示的仅是本申请实施例中的一种目标检测模型结构，在其它示例中可以加以变化。

如图5所示，显示本申请实施例中又一种目标检测模型的结构示意图。

相比于图2实施例中的目标检测模型，在本实施例中的目标检测模型中的特征提取层501和特征融合层502可以不变，而输出层503则可以省略掉EAST模型的原score map的计算分支，即不再计算原score map，通过置信得分图生成单元505计算新置信得分图加以替代，而进行后处理504。

如图6所示，显示本申请实施例中的目标检测模型的训练方法的流程示意图。

所述目标检测模型的训练方法包括：

步骤S601：获取训练样本数据集；其中，所述训练样本数据集包括：带有真实边界框的待检测图像；

步骤S602：将所述训练样本数据集输入目标检测模型以对其训练。

所述训练的过程包括：由目标检测模型执行处理训练样本数据集中的待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；计算每个像素位置的候选预测边界框与至少一个真实边界框之间的交并比，以从中获得目标交并比作为相应像素位置的置信得分，获得对应所述待检测图像的置信得分图；根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果（即最终预测边界框）；计算最终预测边界框和对应的真实边界框之间的损失，根据所述损失更新所述目标检测模型中的参数。

在一些示例中，所述待检测图像包括自然场景图像，所述目标可以是文本。相应的，所述目标检测模型可用于字长场景图像的文本检测，例如用于识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等中的文本检测。或者，也可以是对人物、物体等目标的检测。

示例性地，可以参考例如图1中EAST模型的原理，得到候选预测边界框：旋转框（RBOX）或四边形框（QUAD）。

请一并参考图7，展示本申请具体实施例中通过目标检测模型得到候选预测边界框的流程示意图。其中，图7中的具体流程可以基于例如图2或图5实施例中的目标检测模型实现。

图7中的具体流程包括：

步骤S701：通过特征提取层从待检测图像提取多个尺度的特征图。

在一些示例中，可以参考图1实施例中的EAST模型，所述特征提取层可以基于PVAnet（PVA即Performance Vs Accuracy，加速模型性能网络）实现；或者，其它示例中，特征提取层还可以是基于VGGNet（如VGG16等）或ResNet实现。

步骤S702：通过特征融合层将所述多个尺度的特征图融合为与待检测图像尺寸一致的融合特征图。

在一些示例中，可以参考图1实施例中的EAST模型，所述特征融合层可以采用对下一级的特征图上采样恢复与上一级特征图同样尺寸并相叠合的处理方式进行不同尺度的特征图融合，以得到融合特征图。

步骤S703：通过输出层根据所述融合特征图生成各个所述候选预测边界框。

在一些示例中，可以参考图1实施例中的EAST模型，通过输出层的候选预测边界框：旋转框（RBOX）或四边形框（QUAD）的获取方式，如通过5通道或8通道的1*1卷积核处理融合特征图来得到不同几何形状的候选预测边界框。

在得到每个像素的候选预测边界框之后，即可根据候选预测边界框和真实边界框计算新的置信得分。可以参考图3、图4实施例中的原理，将对应待检测图像中每个像素位置的像素的候选预测边界框同预先标记在待检测图像的一个或多个目标的真实边界框计算IoU，假设有n个真实边界框，则每个候选预测边界框同n个真实边界框分别计算IoU，可以得到n个IoU值，并在n个IoU值中得到最大IoU值作为对应像素位置的像素的置信得分，生成置信得分图。例如，待检测图像和融合特征图像的尺寸为512*512（像素*像素），则所述置信得分图的尺寸也为512*512。

在得到新置信得分图后，根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。

在一些示例中，所述合并操作包括：标准非极大抑制（NMS）处理、或局部感知非极大抑制（LNMS）处理。

以标准非极大抑制（NMS）处理为例，来说明使用置信得分图进行冗余候选预测边界框剔除的原理。

具体的，标准非极大抑制（NMS）处理包括：

1）对各个候选预测边界框按置信得分进行排序；

2）选择置信得分最高的候选预测边界框作为参考框；

3）计算所有候选预测边界框的面积；

4）计算参考框与其它候选预测边界框的IoU；

5）删除IoU大于阈值（阈值取例如0.5）的候选预测边界框；

6）重复上述过程，直至所有候选预测边界框皆被计算。

再举一具体示例进行更详细说明，先假设有6个矩形的候选预测边界框A~F，本实施例中简称为“矩形框”。将它们按置信得分排序，表示为A<B<C<D<E<F。

从最大置信得分的矩形框F开始作为参考框，分别判断A、B、C、D、E与F的重叠度IoU是否大于设定的阈值；假设B、D与F的重叠度超过阈值，那么就抛弃B、D，并保留矩形框F；然后，从剩下的矩形框A、C、E中，选择置信得分最大的E作为参考框，然后判断A、C与E的重叠度，若A与E重叠度大于阈值，就抛弃A并保留C；最后，将剩余的C作为参考框，没有可以与其比较IoU的矩形框了，保留C；输出保留的矩形框，即F、E、C作为最终的预测边界框。

由于文本检测面临的是成千上万个几何图形（即候选预测边界框），如果用标准NMS，其计算复杂度过高，局部感知知非极大抑制（LNMS）是在标准NMS基础上改进的算法。

在LNMS中，先合并同一行区域中的候选预测边界框，对进行此合并后的候选预测边界框集合再进行标准的NMS。

上述合并操作的实施例，无论是哪种NMS操作，皆可依据本申请实施例中提供的新置信得分图进行。

在一些示例中，所述目标检测模型输出结果的损失是通过损失函数来进行计算，所述目标检测模型的参数更新可以通过反向传播方式（back propagation）进行。以EAST模型为基础实现目标检测模型的情况下，可以参考EAST模型的损失函数。EAST模型的损失函数由几部分组成，包括：原score map的损失、及预测边界框的损失。

EAST模型的损失函数可以表示为：

L=L_s+λ_gL_g；

其中，L表示EAST模型的损失函数，L_s表示原score map的损失，L_g表示预测边界框的损失，λ_g表示两种损失之间的重要性权衡。

在具体实施中，所述原score map的损失可以通过例如类平衡交叉熵函数来计算。例如，表示为下式：

其中，

是分数图的预测值，Y*是真实值（ground truth），y*是Y*中的值，balanced-xent表示类平衡交叉熵函数。参数β是正样本和负样本之间的平衡因子，计算公式如下：

在具体实施中，预测边界框的损失可以是矩形或四边形的预测边界框相比真实边界框的损失。为方便理解，以矩形的预测边界框为例，其参数有5个，即像素到其四个边界的距离和转角，那么在损失函数中，会计算在这5个参数上相比于真实边界框之间的损失。

在具体实施中，本申请实施例中的目标检测模型的损失函数中，将原score map的损失替换为新score map的损失。

所述步骤S602可以循环迭代地执行，如图8所示，可以通过设置训练目标来判断训练是否完成，所述训练方法还可以包括：

步骤S603：判断目标检测模型是否达到预设训练目标；若是，则完成训练；若否，则重复执行步骤S602。

在具体实施中，可以通过损失计算的情况来判断目标检测模型是否达到预设训练目标。例如，在预定次数的循环迭代执行S602的过程中，计算的损失已趋于缩小至稳定收敛，则认为目标检测模型已达到预设训练目标而训练完成；

或者，在具体实施中，可以通过评价指标来判断目标检测模型是否达到预设训练目标。举例来说，所述训练样本数据集还包含测试数据集，测试数据集同训练数据集可以使用类似数据，一般会将样本数据一分为二，一部分作为训练数据集，另一部分作为测试数据集，当通过测试数据集测试目标检测模型，根据得到的目标检测结果和真实边界框（Groundtruth）比较而计算的精确度（Precision）和召回率（Recall）等指标达到一定的阈值，例如准确度达到95%以上等；此外，在上诉示例中，IoU也可以作为对预测边界框的评价指标，而设置在所述预设训练目标中。

需要说明的是，本申请实施例中例举的EAST模型只是一种举例，其它会生成对应待检测图像的置信得分图，并依据置信得分图进行后处理的目标检测模型中，均可以应用本申请实施例置的方案，而非以EAST模型或其变种模型为限。

可以理解的是，通过以上训练方法训练得到的目标检测模型，可以用于执行目标检测作业。

如图9所示，展示本申请实施例中目标检测方法的流程示意图。

所述目标检测方法包括：

步骤S901：由所述目标检测模型处理待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框、及对应所述待检测图像的置信得分图；

步骤S902：由所述目标检测模型根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。

由于目标检测方法实施例使用的是前述训练方法训练得到的目标检测模型，其原理已在前述实施例中描述，则不对相同的技术特征进行重复描述。

在本实施例中，已训练的目标检测模型处理待检测图像，即进行多层特征提取及特征融合，输出融合特征图给置信得分图生成单元，而根据处理待检测图像得到的对应每个像素的候选预测边界框的数据也传输给置信得分图生成单元，置信得分图生成单元根据其预先训练过的参数来对每个候选预测边界框计算置信得分，从而得到新置信得分图输出；其中，置信得分图生成单元中的参数已训练完成，其从带有真实边界框的图像中学习到理想边界框的形态，结合输入的各个候选预测边界框的数据就可以对每个候选预测边界框打一个IoU得分作为置信得分，以形成置信得分图；故在实际目标检测应用时就不再需要真实边界框了。在后处理中，根据新置信得分图执行合并操作而将各个候选预测边界框合并为一或多个最终预测边界框。

另一方面，考虑到EAST模型的感受野较小，而在较长、较宽文本检测上的能力较差，因此，本申请实施例中还可以提供增强其感受野的方案。

在具体实施中，前述实施例中的目标检测模型还可以包括：至少一个特征增强模块，基于U形的特征金字塔结构实现，用于以所述目标检测模型中生成的至少一组多个尺度的特征图为原特征图，处理所述至少一组原特征图以得到与所述至少一组原特征图尺寸一一相同的至少一组增强特征图输出。

较为典型的，以例如图2或图5中的目标特征模型为例进行说明，并参考图1中EAST模型的结构原理，所述至少一特征增强单元可以用于处理其中产生的任何一组不同尺度的特征图。

举例来说，请参阅图10，可以在例如图2或图5实施例中的目标特征模型、基础上增加特征增强模块。在本实施例中的目标特征模型，其特征提取层1001是基于特征金字塔网络的结构，例如通过PVAnet、VGGNet（如VGG16）或ResNet等神经网络实现，可以提取一组不同尺度的特征图f1~f4，f1~f4可以输入到特征增强模块1004，以得到一组增强特征图f1’~f4’输出到特征融合层1002，特征融合层1002对各增强特征图进行融合后可生成增强的融合特征图，向输出层1003输出。

在一些示例中，所述特征增强模块可以有多个，相互串联以用于对至少一组多个尺度的原特征图进行多次特征增强而形成至少一组增强特征图输出。例如，在图10示例中，特征提取层1001和特征融合层1002之间可以设置多级串联的特征增强模块1004，更深层的特征信息对应于更大的感受野，从而能有效扩大目标检测模型的感受野，尤其是在目标检测模型是基于EAST或进阶EAST模型改进实现以用于检测自然场景文本的情况下，有利于改善对较长或较宽文本检测效果不佳的问题。

可选的，所述特征增强模块可以包括：特征金字塔增强模块（FPEM）。

请参阅图11，显示本申请实施例中特征金字塔增强模块的结构示意图。

FPEM模块可以看作是一个轻量级的特征图金字塔网络（FPN），计算量较小，可以不停级联以达到不停增强特征的作用。

由于低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。所以对图像进行不同层级的多尺度的特征图提取，再进行特征图的融合，就能结合低层和高层特征的优点。特征金字塔网络也就是基于这样的思想而产生。

如图所示，在FPEM模块中，输入的一组多个尺度的特征图（例如一图像经特征金字塔网络逐级特征提取输出的不同尺度的各个特征图）经不同级的卷积层处理后，分别产生不同尺度的特征图，并向后不同级输出，特征提取程度较深的特征图经上采样后与浅一级的特征图尺寸相同并叠加，以此类推而形成图中上半部分的上采样加强过程，形成上采样加强特征图；然后再将上采样加强特征图进行图中下半部分的下采样加强过程，即将上采样加强特征图输出，并与下采样过程中的相应一级的特征图进行融合，再向下级传输，以此类推，最终输出与输入的一组特征图尺寸一一相同的一组增强特征图。

图11下部两个虚框显示图中具体展示了两种加号的具体运算方式，其中，“+”表示逐位相加（wise addition），“2×”表示2×线性上采样，“DWconv”表示“Depth Wise 卷积”，“Conv”表示标准卷积，“BN”表示“Batch Normalization”即批归一化层，ReLu表示线性整流函数（Rectified Linear Unit, ReLU）。

需特别说明的是，FPEM只是一种特征增强模块的实现示例，只要是能拓展感受野的其它基于U形的特征金字塔的模型也可以用来实现上述实施例中的特征增强模块，并非以FPEM为限。

如图12所示，显示本申请实施例中提供的训练装置120的结构示意图。所述训练装置120应用于训练前述实施例中的目标检测模型123，例如图2、图5、图8实施例中的目标检测模型123。由于本实施例中训练装置120的原理可以参考前述实施例（例如图6实施例）中的训练方法；因此，在本实施例中不再对已描述的技术细节进行重复赘述。

所述训练装置120包括：

获取模块121，用于获取训练样本数据集；其中，所述训练样本数据集包括：带有真实边界框的待检测图像；

训练模块122，用于将所述训练样本数据集输入目标检测模型123以对其训练；

其中，所述训练的过程包括：由目标检测模型123执行处理训练样本数据集中的待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；计算每个像素位置的候选预测边界框与至少一个真实边界框之间的交并比，以从中获得目标交并比作为相应像素位置的置信得分，获得对应所述待检测图像的置信得分图；根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果；计算最终预测边界框和对应的真实边界框之间的损失，根据所述损失更新所述目标检测模型123中的参数。

可选的，训练装置120还可以包括：训练控制模块124（虚线框表示可选），用于判断目标检测模型123是否达到预设训练目标；若是，则判断训练完成；若否，则控制所述训练模块继续训练。

可选的，所述目标检测模型123包括：特征提取层、特征融合层及输出层；

所述特征提取层，用于从待检测图像提取多个尺度的特征图；

所述特征融合层，用于将所述多个尺度的特征图融合为与待检测图像尺寸一致的融合特征图；

所述输出层，用于根据所述融合特征图生成各个所述候选预测边界框。

可选的，所述目标检测模型123包括：至少一个特征增强模块，基于U形的特征金字塔结构实现，用于以所述目标检测模型123中生成的至少一组多个尺度的特征图为原特征图，处理所述至少一组原特征图以得到与所述至少一组原特征图尺寸一一相同的至少一组增强特征图输出。

可选的，所述待检测图像包括自然场景图像。

可选的，所述目标包括：文本。

可选的，所述目标检测模型123在EAST模型、或进阶EAST模型的基础上实现。

如图13所示，显示本申请实施例中提供的目标检测装置130结构示意图。所述目标检测装置130可以基于前述实施例中的目标检测模型（例如图2、图5、等实施例中的目标检测模型）实现，例如所述目标检测装置130及其所包含的功能模块可以实现在所述目标检测模型中。由于本实施例中目标检测装置130的原理可以参考前述实施例（例如图9实施例）中的目标检测方法；因此，在本实施例中不再对已描述的技术细节进行重复赘述。

所述目标检测装置130包括：

预测边界框生成模块131，用于处理待检测图像，得到待检测图像中每个像素位置对应的候选预测边界框；

置信得分图生成模块132，用于处理待检测图像，得到对应所述待检测图像的置信得分图；

边界框合并模块133，用于根据所述置信得分图对标记目标所在区域的各个候选预测边界框执行合并操作，以获得目标检测结果。

如图14所示，显示本申请实施例中计算机设备140的结构示意图。

所述计算机设备包括存储器141和处理器142，所述存储器141上存储有可在所述处理器142上运行的计算机程序；所述处理器142运行所述计算机程序时执行前述实施例中的所述训练方法或目标检测方法的步骤。例如，图6实施例中的训练方法，或者图9实施例中的目标检测方法。

在一些示例中，所述处理器142可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(Digital Signal Processing，DSP)、ASIC等；所述存储器141可能包含高速RAM存储器，也可能还包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。

在一些示例中，所述计算机设备140可以实现于例如服务器、服务器组、台式机、笔记本电脑、智能手机、平板电脑、智能手环、智能手表、或其它智能设备、或这些智能设备通信连接而形成的处理系统。

本申请实施例还可以提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时执行前述实施例中任一项所述目标检测方法或实施例中所述训练方法的步骤。

即，上述本发明实施例中的目标检测方法或训练方法被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的数据处理方法。此外，当通用计算机访问用于实现在此示出的数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的数据处理方法的专用计算机。

一方面，本申请实施例中，所采用的目标检测模型，在被训练时通过对应待检测图像中每个像素位置的候选预测边界框同各真实边界框之间的最大交并比来得到该像素位置的得分，从而生成不同于EAST模型的score map的改进的置信得分图，其中的得分实际上表示对应同一目标的像素位置的候选预测边界框与真实边界框间的接近程度，在使用改进的置信得分图进行后续边界框的合并操作（如NMS、LNMS）时，其中每个置信得分的含义同合并操作中将置信得分当做对预测边界框和真实边界框的接近程度的评估之间是等价的；通过这样训练得到的目标检测模型执行目标检测工作，目标检测结果效果更佳，不会出现现有技术中边缘模糊的问题。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

例如，前述实施例中的所述目标检测装置、训练装置中的各个功能模块可以是软件实现；或者也可以是软硬件配合实现，例如通过计算机设备实施例中的处理器运行存储器的计算机程序实现；或者，也可以是通过硬件电路实现。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

例如，前述实施例中的所述目标检测装置、训练装置中的各个功能模块可以是独立、单一的程序实现，也可以是一程序中的不同程序段分别实现，在某些实施场景中，这些功能模块可以位于一个物理设备，也可以位于不同的物理设备但相互通信耦合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

例如，前述实施例中的目标检测方法、训练方法等，其中的各个步骤的顺序可以在具体场景中加以变化，并非以上述描述为限。

虽然本说明书实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

将所述训练样本数据集输入目标检测模型以对其训练；

2.根据权利要求1所述的训练方法，其特征在于，在所述真实边界框为一个的情形下，所述目标交并比为所述候选预测边界框与所述真实边界框的交并比；或者，在所述真实边界框有多个的情形下，所述目标交并比为所述候选预测边界框与所述多个真实边界框间的各交并比中的最大交并比。

3.根据权利要求1所述的训练方法，其特征在于，所述目标检测模型包括：特征提取层、特征融合层及输出层；所述处理待检测图像而得到待检测图像中每个像素位置对应的候选预测边界框，包括：

通过特征提取层从待检测图像提取多个尺度的特征图；

4.根据权利要求3所述的训练方法，其特征在于，包括：在所述输出层获得所述置信得分图。

5.根据权利要求1所述的训练方法，其特征在于，所述目标检测模型包括：至少一个特征增强模块，基于U形的特征金字塔结构实现，用于以所述目标检测模型中生成的至少一组多个尺度的特征图为原特征图，处理所述至少一组原特征图以得到与所述至少一组原特征图尺寸一一相同的至少一组增强特征图输出。

6.根据权利要求5所述的训练方法，其特征在于，所述特征增强模块有多个，相互串联以用于对至少一组多个尺度的原特征图进行多次特征增强而形成至少一组增强特征图输出。

7.根据权利要求1所述的训练方法，其特征在于，所述合并操作包括：标准非极大抑制处理、或局部感知非极大抑制处理。

8.根据权利要求1所述的训练方法，其特征在于，所述待检测图像包括自然场景图像。

9.根据权利要求1或8所述的训练方法，其特征在于，所述目标包括：文本。

10.根据权利要求1所述的训练方法，其特征在于，所述目标检测模型在EAST模型、或进阶EAST模型的基础上实现。

11.一种目标检测方法，其特征在于，应用于由权利要求1至10中任一项所述的训练方法训练得到的目标检测模型；所述目标检测方法包括：

12.一种目标检测模型的训练装置，其特征在于，包括：

13.一种目标检测装置，其特征在于，应用于如权利要求12的训练装置训练得到的目标检测模型；所述目标检测装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至10任一项所述训练方法或权利要求11所述目标检测方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序运行时执行权利要求1至10任一项所述训练方法或权利要求11所述目标检测方法的步骤。