CN112990203B

CN112990203B - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN112990203B
Application number: CN202110507953.7A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2022-01-28
Anticipated expiration: 2041-05-11
Also published as: CN112990203A

Abstract

本申请公开了目标检测方法、装置、电子设备及存储介质，具体实现方案为：将第一文本图像基于特征提取模块进行特征提取，得到特征图像；将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量；将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络；根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。采用本申请，可以提高目标检测的准确率。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

随着便携设备、手机终端等电子设备相比以往更智能化，芯片的解析能力更强，可以通过计算机视觉技术对图文信息、视频信息等进行高效的解析，并对图文信息、视频信息等中的目标对象进行检测。

以目标对象为文本对象为例，文本检测的主要目的是定位文本行或字符在图像中的位置，由于文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，尤其是还存在大量密集文本，导致采用通用的目标检测方法无法得到很好的定位效果，因此，目标检测准确率不高。

发明内容

本申请提供了一种目标检测方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种目标检测方法，包括：

将第一文本图像基于特征提取模块进行特征提取，得到特征图像；

将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量；

将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络；

根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

根据本申请的另一方面，提供了一种目标检测装置，包括：

特征提取分支模块，用于将第一文本图像基于特征提取模块进行特征提取，得到特征图像；

检测分支模块，用于将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量；

目标检测网络确定模块，用于将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络；

目标检测处理模块，用于根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以将第一文本图像基于特征提取模块进行特征提取，得到特征图像；将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量；将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络；根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。由于是在特征提取后通过检测分支多通道的输出（即将特征图像分别输入检测模块再次运算）得到用于目标检测的多个对比图（即文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图）及表征文本区域上下左右位置的多个特征向量，从而，由该多个对比图及该多个特征向量训练得到的目标检测网络进行文本区域的检测，可以解决目前采用通用的目标检测方法定位效果差的问题，可以精确定位出文本区域，因此，目标检测准确率高。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的目标检测方法的流程示意图；

图2是根据本申请实施例的一应用示例中基于像素点方向和搜索策略的密集文本检测的流程示意图；

图3是根据本申请实施例的目标检测装置的组成结构示意图；

图4是用来实现本申请实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

文本检测应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置，文本的精准定位既十分重要又具备挑战，因为相较于通用目标检测来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中，但近年来随着深度学习的再次兴起，对文本检测的研究也成为了一大热点，出现了如下专门用于文本检测的方法。

一、基于滑动窗口的文本检测方法

该方法主要是基于通用目标检测的思想，设置大量具有不同的长宽比及不同大小的锚点框，并以这些锚点框为滑动窗口，在图像上进行遍历搜索、或者在基于图像进行卷积操作所得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。这类基于滑动窗口的文本检测方法，其优点是在文本框判定之后，不需要其余的后续便可进行后续工作，缺点是计算量过大，不仅需要耗费大量计算资源，而且耗时较长。

二、基于计算连通域的方法

该方法主要是基于分割思想，先使用全卷积神经网络模型提取图像特征，然后对特征图进行二值化处理，并计算其连通域，然后相应于不同的应用场景，采用不同应用场景适用的训练数据集来判断文本行的位置。这类基于计算连通域的方法，其优点是计算快速，计算量小，缺点是后处理步骤繁琐，涉及大量的计算和调优，这不仅会消耗大量时间，同时，后处理策略是否合理有效也严格制约着算法的性能。

根据本申请的实施例，提供了一种目标检测方法，图1是根据本申请实施例的目标检测方法的流程示意图，该方法可以应用于目标检测装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行特征提取、目标检测等等。其中，终端可以为用户设备（UE，User Equipment）、移动设备、蜂窝电话、无绳电话、个人数字处理（PDA，Personal Digital Assistant）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、将第一文本图像基于特征提取模块进行特征提取，得到特征图像。

一示例中，该特征提取模块包括骨干网络模块及特征增强融合（FPEM）模块的情况下，可以将该第一文本图像输入所述骨干网络模块进行特征提取，得到多个特征向量，将所述多个特征向量经至少一个所述FPEM模块再次进行特征提取、上采样及串联处理后，得到所述特征图像。其中，所述FPEM模块可以由特征金字塔增强模块（Feature PyramidEnhancement Module，PFEM）和特征融合模块（Feature Fusion Module，FFM）组成，FPEM模块在执行分割处理时可以是可级联的U形模块，可引入多级信息及指导更好的分割。

S102、将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量。

一示例中，该检测模块采用可微分二值化（DB，Real-time Scene Text Detectionwith Differentiable Binarization）模型的情况下，可以将特征图像输入该DB模型进行卷积及反卷积处理，输出多通道的特征图像及多个特征向量。其中，多通道的特征图像中，第一通道输出的特征图像为所述文本区域的概率图，第二通道输出的特征图像为所述内缩文本区域概率图，第三通道输出的特征图像为所述文本区域边界概率图、第四通道输出的特征图像为所述中心区域概率图。多个特征向量从第五通道至第八通道输出，且分别对应的像素点方向为文本区域的上边界方向、文本区域的下边界方向、文本区域的左边界方向、及文本区域的右边界方向。

S103、将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络。

一示例中，可以将该文本区域的概率图、该内缩文本区域概率图、该文本区域边界概率图、该中心区域概率图及该多个特征向量作为样本数据进行网络训练，以将训练得到的检测网络作为最终使用的目标检测网络。

S104、根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

一示例中，基于上述S101-S103，可以针对第一文本图像的特征提取及检测分支的多通道处理得到相应的上述样本数据，从而得到最终使用的目标检测网络，在本S104中使用该目标检测网络的过程中，是可以任意选取一个第二文本图像，其中，第二文本图像中可以包括一行或多行的文本行，文本行不限于英文字符、中文字符、或者中英文混合字符，还可以是非字符的符号等等，使用该目标检测网络可以检测出一行或多行的文本行及其所包含的文本内容。

采用本申请，由于是在特征提取后通过检测分支多通道的输出（即将特征图像分别输入检测模块再次运算）得到用于目标检测的多个对比图（即文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图）及表征文本区域上下左右位置的多个特征向量，从而，由该多个对比图及该多个特征向量训练得到的目标检测网络进行文本区域的检测，可以解决目前采用通用的目标检测方法定位效果差的问题，可以精确定位出文本区域，因此，目标检测准确率高。

一实施方式中，还包括：基于所述检测模块进行检测处理所对应的第一输出、第二输出与第三输出结合在一起进行训练。其中，将所述第一输出的所述文本区域的概率图、所述内缩文本区域概率图及所述中心区域概率图采用第一损失函数（即为 DB模型的第一输出对应的损失函数，可以为DiceLoss）进行训练；将所述第二输出的所述文本区域边界概率图采用第二损失函数（即为 DB模型的第二输出对应的损失函数，可以为平滑L1损失函数）进行训练；将所述第三输出的所述多个特征向量采用第三损失函数（即为DB模型的第三输出对应的损失函数，可以为二分类交叉熵损失函数）进行训练；根据所述第一损失函数、所述第二损失函数及第三损失函数得到总损失函数，根据所述总损失函数的反向传播得到所述目标检测网络。采用本实施方式，可以针对密集文本检测，结合像素聚合网络（PAN，Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel AggregationNetwork）技术和DB模型二者的优势，具体的，可以先通过PAN技术中使用2个FPEM模块进行特征提取，然后通过检测分支的多通道输出（如DB模型所在的8通道输出），以得到第一通道对应的文本区域的概率图、第二通道对应的内缩文本区域概率图、第三通道对应的文本区域边界概率图、第四通道对应的中心区域概率图，及第五通道-第八通道分别对应的多个特征向量，并结合上述检测处理所对应的第一输出、第二输出与第三输出结合在一起进行联合训练，最终通过所得到的总损失函数的反向传播得到最终使用的目标检测网络，从而，通过联合训练得到的该目标检测网络可以实现更精确的目标检测。

对上述PAN技术和DB模型二者各自的优势介绍如下：

一：PAN技术是以Resnet18为基础网络骨架，通过Resnet18对输入图像进行特征提取，以得到纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道特征映射表征。然后将提取得到的特征经过2个FPEM模块进行处理，比如，通过FPEM模块执行结合卷积、反卷积和批归一化相结合的处理。再次提取纹理、边缘、角点和语义信息等特征，最后通过在输出特征图上进行上采样得到一个6通道的特征映射。

针对6通道的特征映射而言，第一个通道的特征图是表示文本行区域的概率图，二值化后计算连通域，可以得到具体的文本行区域；第二个通道的特征图是表示文本行区域按照一定的规则与比例内缩后的文本行区域的概率图，二值化后计算连通域，可以得到具体的内缩文本行区域；将剩余的4个通道联合起来，表示特征图大小的4维特征向量，然后使用聚类的方法，结合文本区域图和内缩文本区域图，通过计算每个像素点位置的4维特征向量与聚类中心点的距离，判断出现在文本区域却未出现在内缩文本区域的像素点具体属于哪一个文本区域。

需要指出的是，不限于上述2个FPEM模块的处理，选择2个FPEM模块的好处是：可以用最少的时间成本提取到更为准确的特征。2个FPEM模块中的每个FPEM模块所做的处理是相同的，将提取得到的特征经过每个FPEM模块进行处理具体包括：对上一步基于Resnet18提取得到的4组大小不同的多通道特征映射，按照从大到小的，从前往后的次序进行特征映射，可以依次称为正向第一、正向第二、正向第三、正向第四组特征映射。先对正向第四组特征映射进行2倍的上采样处理，即将其大小扩大2倍；然后将其与正向第三组特征映射按照通道逐点相加，对逐点相加结果进行一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作，得到的结果称为反向第二组特征映射；相应的，将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于反向第二组特征映射和正向第二组特征映射得到反向第三组特征映射；然后将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于反向第三组特征映射和正向第一组特征映射，得到反向第四组特征映射，同时将正向第四组特征映射视为反向第一组特征映射，由此得到4组反向特征映射；将第四组反向特征映射作为目标第一组特征映射，对目标第一组特征映射进行 2倍的下采样处理，即大小缩小2倍；然后将其与反向第三组特征映射按通道逐点相加，对逐点相加结果进行一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作，得到的结果称为目标第二组特征映射；相应的，将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于目标第二组特征映射和反向第二组特征映射，得到目标第三组特征映射；然后将同样的操作（如一次深度可分离卷积操作之后再进行一次卷积、批归一化和激活函数的操作）作用于目标第三组特征映射和反向第一组特征映射，得到目标第四组特征映射，最终，将上述目标第一、目标第二、目标第三和目标第四组特征映射作为该第一个FFEM模块的输出，第2个FFEM模块是以第一个FFEM模块的输出作为输入，进行如上述该第一个FFEM模块同样的操作，以得到第二个FFEM模块的输出。

二：DB模型也是以上述Resnet18为基础网络架构，通过Resnet18对输入图像提取特征，然后将提取到的特征图全部上采样到原始图像的四分之一大小并串联起来，然后经过一次卷积操作，得到一个2通道的特征映射图作为输出。

针对2通道的特征映射图而言，第一个通道表示内缩文本区域的概率图；第二个通道表示文本区域的阈值图，其中，对于每个像素点距离真实的文本区域框的距离进行了归一化操作，该距离可以采用0到1之间的任意数值。还设计了一个可微分的二值化函数，此二值化函数的参数是可以跟随网络进行学习的，然后根据阈值图和概率图可以计算出此图像文本区域的二值图，在二值图上计算连通域，可以得到内缩文本区域，接着按照一定的规则和比例将内缩文本区域向外扩，由此得到真实文本区域。

可见：上述PAN技术和DB模型各有优势，其中，PAN技术由于使用FPEM模块，其提取特征的优势更加明显，而DB模型的后处理比PAN技术更为简单，所以DB模型的后处理操作更快。

在一些开放的场景文本检测数据集上，如每张图像包括4到5个文本框的情况，采用上述PAN技术和DB模型的检测速度和检测结果基本上相差无几，但是，针对文本非常密集的实际应用场景，比如小学生的算术练习册上一张图像上有至少100个文本区域的情况，由于至少100个文本区域导致的密集文本效应，导致可能出现文本粘连等情况，而采用上述PAN技术和DB模型的二者的后处理都非常的复杂，首先是无法避免对内缩文本区域求取连通域，其次是PAN技术通过聚类的方式对内缩文本区域进行外扩，而DB模型通过通用的外扩算法对内缩文本区域进行外扩，这两步操作的耗时都非常高，而且由于计算复杂，无法在并行计算能力强大的GPU上进行运算，则采用上述PAN技术和DB模型的检测速度受文本框数量的影响非常大，几乎是随着文本框数量的增长，呈线性下降趋势，无法满足实际应用场景的速度需求，二者的后处理成为计算瓶颈，也就是说，采用PAN技术和DB模型无法很好的解决对这些密集文本的目标检测。

对于上述密集文本情况，考虑时间成本及检测准确率的综合效果，可以结合上述PAN技术、DB模型二者的优势，即：在骨干网络中将PAN技术的2个FPEM模块运用于DB模型的检测中，同时，将DB模型基于多通道执行检测的最终输出进行合并，以联合训练出目标检测网络。一示例中，可以基于像素点方向和搜索策略得到真实文本区域的全新后处理的筛选以得到目标文本框的方法，不仅提升了密集文本检测的性能，同时保证了密集文本检测的速度，兼顾到时间成本及检测准确率。

一实施方式中，还包括：分别对所述文本区域的概率图、内缩文本区域概率图、文本区域边界概率图及中心区域概率图进行二值化处理，对应得到文本区域的二值图、内缩文本区域的二值图、文本区域边界的二值图及中心区域的二值图；根据所述文本区域的二值图及所述文本区域边界的二值图，得到目标边界二值图；根据所述内缩文本区域的二值图及所述中心区域的二值图，得到目标中心区域二值图。采用本实施方式，分别对各个概率图（如文本区域的概率图、内缩文本区域概率图、文本区域边界概率图及中心区域概率图）进行二值化处理，在二值化处理后进一步从这些概率图中进行筛选，以得到目标边界二值图及目标中心区域二值图，从而不仅提高了目标检测的精确度，且处理速度得到了大大的提高。

一实施方式中，还包括：为所述多个特征向量进行权重的赋值处理，得到多个处理后的特征向量，将与所述多个处理后的特征向量分别对应的多个像素点进行逐点相加处理，得到第一方向图；根据所述目标边界二值图及所述目标中心区域二值图，得到第二方向图；将所述第一方向图及所述第二方向图作为待比较对象，并根据所述第一方向图及所述第二方向图的连通域运算，从所述待比较对象中筛选出目标文本框。采用本实施方式，可以为多个特征向量的权重分别赋值，以为每个特征向量对应赋值不同的权重，再得到第一方向图，及二值化筛选得到的第二方向图，将该第一方向图及该第二方向图作为待比较对象，并根据该第一方向图及该第二方向图的连通域运算，从该待比较对象中筛选出最终的目标文本框，从而不仅提高了目标检测的精确度，且处理速度得到了大大的提高。

针对上述结合上述PAN技术和DB模型二者优势的一示例中，包括如下内容：

①利用PAN结构和DB结构的神经网络，对待检测文本图像以Resnet18网络模型作为基础网络模型，通过Resnet18网络模型，结合使用2次FPEM模块进行特征提取处理，得到处理之后的特征图像；然后，基于图像分割的多通道处理，对该处理之后的特征图像全部上采样到原图1/4大小，并进行串联，对串联后的特征图像进行一次卷积，两次反卷积操作，得到一个8通道的输出特征图像，其大小与原图相同，从而，结合PAN技术与DB模型的多通道处理，可以得到4个概率图（如第一通道的文本区域的概率图、第二通道的内缩文本区域概率图、第三通道的文本区域边界概率图及第四通道的中心区域概率图）和4个通道的特征向量（如第五通道-第八通道这4个通道的特征向量分别对应的像素点方向为文本区域的上边界方向、文本区域的下边界方向、文本区域的左边界方向、及文本区域的右边界方向）。其中，每个通道上的像素值可以取0或1，如果一个像素点相对文本区域的中心来说，像素点的方向为向左边界且在上边，则这个像素点的4通道像素值标签可以为（1，0，1，0）。

②在训练阶段，可以使用Dice Loss作为第一损失函数对第一、第二、第四通道的概率图进行训练；使用平滑L1损失函数作为第二损失函数对第三通道的概率图进行训练；使用二分类交叉熵损失函数作为第三损失函数对第五至第八通道的多个特征向量进行训练，此时，由于每个通道都有一个二分类损失函数作用，所以，总的损失函数为分别计算8个通道的损失函数之和，即根据第一损失函数、第二损失函数、第三损失函数得到该总的损失函数。

③在测试阶段，基于已经设定的第一阈值对上述4个概率图进行二值化处理，然后利用文本区域和文本区域边界的二值图得到筛选后的目标边界二值图，利用内缩文本和中心区域的二值图得到筛选后的目标中心区域二值图；利用筛选后的目标边界二值图和基于4个通道的特征向量得到的第一方向图，得到筛选后的第二方向图；基于筛选后的目标中心区域二值图和筛选后的第二方向图进行连通域运算以求取中心区域的连通域，比如从中心区域开始沿着多个方向进行直线搜索，得到中心区域的连通域。

采用本示例，通过特征提取及检测这种基于分割的方法来实现密集文本的检测，后处理方式极其简单，能全面的提升密集文本检测的速度和检测效果，由于中心位置包含的像素点数量远少于内缩文本区域的像素点数量，从提高检测速度的角度考虑，可以直接预测文本区域的中心位置，然后预测每个文本区域的边界，同时预测文本区域上边界像素点的方向，因此，可以在提高求连通域速度的同时根据边界像素点的方向决定边界像素点的归属，以最终根据从该中心位置到该边界像素点的连通域运算结果进行搜索，直接搜索得到最终的目标文本框。

无论是采用PAN技术还是DB模型，除了分割处理不如本示例，且二者都因为复杂的后处理过程导致其在密集文本题型的检测速度大幅度下降，具体的，为了解决文本粘连的问题，如果使用预测内缩文本的方式，有两个步骤始终无法绕过，第一个步骤是求取连通域，即得到是内缩文本区域像素点的坐标；第二个步骤是按照一定的比例将内缩文本区域进行外扩，尤其是针对密集文本的粘连问题，需要更多的复杂操作。

可见：本示例相比于只采用PAN技术还是DB模型，不仅可以有效的解决了粘连文本的问题，尤其是对密集文本的粘连问题，能全面的提升密集文本检测的速度和检测效果。

应用示例：

图2是根据本申请实施例的一应用示例中基于像素点方向和搜索策略的密集文本检测的流程示意图，如图2所示，该流程包括如下内容：

第一步，将密集文本图像输入Resnet18网络，进行特征提取。

第二步，将第一步提取到的特征，经过两个FPEM模块，再次提取特征，并得到该特征对应的4组特征映射的特征图。

第三步，将第二步得到的4组特征映射的特征图大小全部上采样到原始图像1/4大小，并串联在一起。

第四步，第三步处理之后的特征图像全部上采样到原图1/4大小，并进行串联后，本步骤中对串联后的特征图像进行一次卷积，两次反卷积操作，得到一个8通道的输出特征图像，其大小与原图相同，结合PAN与DB的思想，其第一个通道表示文本区域的概率图，第二个通道表示内缩文本区域概率图，第三个通道表示文本区域边界概率图，第四个通道表示中心区域概率图（中心区域是3*3的小区域），第五至第八通道表示像素点方向，分别为上下左右。其中，针对第五至第八通道而言，每个通道上的值可以取0或1，举例来说，如果一个像素点相对文本中心来说，在左且在上边，这个像素点的4通道像素值标签就是（1，0，1，0）。

第五步，根据第四步的输出，在训练阶段，使用DiceLoss作为第一损失函数对第一个通道表示的文本区域概率图、第二个通道表示的内缩文本区域概率图和第四个通道表示中心区域概率图进行训练，使用平滑L1损失函数作为第二损失函数对第三通道表示的文本区域边界概率图进行训练，使用二分类交叉熵损失函数作为第三损失函数分别同时对第五通道至第八通道进行训练，根据第一损失函数、第二损失函数及第三损失函数得到总的损失函数。

第六步，根据第四步的输出，在测试阶段，分别根据设定阈值对每个通道进行二值化处理，比如，将第一通道的二值图和第三通道的二值图执行与操作，得到筛选后的目标边界二值图，将第二通道的二值图和第四通道的二值图执行与操作，得到筛选后的目标中心区域二值图。然后分别给予第五至第八通道赋值为不同的权重，比如权重赋值为1、2、4及8，权重的赋值处理只需要保证任意通道的值相加后都是不同的值，将乘了权重的第五至第八通道的像素点执行逐点相加处理，得到第一方向图，使用筛选后的目标边界二值图和第一方向图执行与操作，得到筛选后的第二方向图。

第七步，根据第六步的输出，根据筛选后的目标中心区域二值图和第二方向图，进行如下操作，得到最终的文本框：首先对筛选后的目标中心区域二值图求取连通域，对于每个中心区域来说，它左上对应的方向图值可以是1+4=5，右上对应的方向图值可以是1+8=9；同理，左下对应的方向图值可以是2+4=6,右下对应的方向图值可以是2+8=10。然后从中心区域开始，沿着16个方向进行连通域运算，比如进行连通域的直线搜索，在每20度一个方向上进行直线搜索，也可以在每10度的方向上进行直线搜索，在每5度的方向上进行直线搜索，度数划分的越小，则搜索时间越长，最终的精度也越高，在当前的方向上直至遇见不属于当前边框取值的像素值时才停止，至此得到这个方向的边界点，至此得到18个边界点的坐标，根据该18个边界点的坐标得到最终的目标文本框。

第八步，至此，针对密集文本的检测完成。

本申请提供了一种目标检测装置，图3是根据本申请实施例的目标检测装置的组成结构示意图，如图3所示，所述装置包括：特征提取分支模块41，用于将第一文本图像基于特征提取模块进行特征提取，得到特征图像；检测分支模块42，用于将所述特征图像输入检测模块，得到文本区域的概率图、内缩文本区域概率图、文本区域边界概率图、中心区域概率图及用于表征文本区域上下左右位置的多个特征向量；目标检测网络确定模块43，用于将基于所述文本区域的概率图、所述内缩文本区域概率图、所述文本区域边界概率图、所述中心区域概率图及所述多个特征向量训练得到的检测网络作为目标检测网络；目标检测处理模块44，用于根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域。

一实施方式中，所述特征提取分支模块，用于所述特征提取模块包括骨干网络模块及FPEM模块的情况下，将所述第一文本图像输入所述骨干网络模块进行特征提取，得到多个特征向量，将所述多个特征向量经至少一个所述FPEM模块再次进行特征提取、上采样及串联处理后，得到所述特征图像。

一实施方式中，所述检测分支模块，用于所述检测模块采用DB模型的情况下，将所述特征图像输入所述DB模型进行卷积及反卷积处理，输出多通道的特征图像及多个特征向量；所述多通道的特征图像中，第一通道输出的特征图像为所述文本区域的概率图，第二通道输出的特征图像为所述内缩文本区域概率图，第三通道输出的特征图像为所述文本区域边界概率图、第四通道输出的特征图像为所述中心区域概率图；所述多个特征向量从第五通道至第八通道输出，且分别对应的像素点方向为文本区域的上边界方向、文本区域的下边界方向、文本区域的左边界方向、及文本区域的右边界方向。

一实施方式中，还包括训练模块，用于基于所述检测模块进行检测处理所对应的第一输出、第二输出与第三输出结合在一起进行训练。其中，将所述第一输出的所述文本区域的概率图、所述内缩文本区域概率图及所述中心区域概率图采用第一损失函数进行训练；将所述第二输出的所述文本区域边界概率图采用第二损失函数进行训练；将所述第三输出的所述多个特征向量采用第三损失函数进行训练；根据所述第一损失函数、所述第二损失函数及第三损失函数得到总损失函数，根据所述总损失函数的反向传播得到所述目标检测网络。

一实施方式中，还包括二值化处理模块，用于分别对所述文本区域的概率图、内缩文本区域概率图、文本区域边界概率图及中心区域概率图进行二值化处理，对应得到文本区域的二值图、内缩文本区域的二值图、文本区域边界的二值图及中心区域的二值图；根据所述文本区域的二值图及所述文本区域边界的二值图，得到目标边界二值图；根据所述内缩文本区域的二值图及所述中心区域的二值图，得到目标中心区域二值图。

一实施方式中，还包括筛选模块，用于为所述多个特征向量进行权重的赋值处理，得到多个处理后的特征向量，将与所述多个处理后的特征向量分别对应的多个像素点进行逐点相加处理，得到第一方向图；根据所述目标边界二值图及所述目标中心区域二值图，得到第二方向图；将所述第一方向图及所述第二方向图作为待比较对象，并根据所述第一方向图及所述第二方向图的连通域运算，从所述待比较对象中筛选出目标文本框。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是用来实现本申请实施例的目标检测方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图4中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的目标检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的目标检测方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的目标检测方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标检测方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

目标检测方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

将所述特征图像输入检测模块，输出多通道的特征图像及多个特征向量，其中，所述多通道的特征图像中第一通道输出的特征图像为文本区域的概率图，第二通道输出的特征图像为内缩文本区域概率图，第三通道输出的特征图像为文本区域边界概率图，第四通道输出的特征图像为中心区域概率图，所述多个特征向量从第五通道至第八通道输出且分别对应的像素点方向为文本区域的上边界方向、文本区域的下边界方向、文本区域的左边界方向、及文本区域的右边界方向；

根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域；

其中，基于所述检测模块进行检测处理所对应的第一输出、第二输出与第三输出结合在一起进行训练；

其中，将所述第一输出的所述文本区域的概率图、所述内缩文本区域概率图及所述中心区域概率图采用第一损失函数进行训练；将所述第二输出的所述文本区域边界概率图采用第二损失函数进行训练；将所述第三输出的所述多个特征向量采用第三损失函数进行训练；根据所述第一损失函数、所述第二损失函数及第三损失函数得到总损失函数，根据所述总损失函数的反向传播得到所述目标检测网络。

2.根据权利要求1所述的方法，其特征在于，所述将第一文本图像基于特征提取模块进行特征提取，得到特征图像，包括：

所述特征提取模块包括骨干网络模块及特征增强融合FPEM模块的情况下，将所述第一文本图像输入所述骨干网络模块进行特征提取，得到多个特征向量，将所述多个特征向量经至少一个所述FPEM模块再次进行特征提取、上采样及串联处理后，得到所述特征图像。

3.根据权利要求1或2所述的方法，其特征在于，还包括：

所述检测模块采用可微分二值化DB模型的情况下，将所述特征图像输入所述DB模型进行卷积及反卷积处理，输出所述多通道的特征图像及所述多个特征向量。

4.根据权利要求1或2所述的方法，其特征在于，还包括：

分别对所述文本区域的概率图、内缩文本区域概率图、文本区域边界概率图及中心区域概率图进行二值化处理，对应得到文本区域的二值图、内缩文本区域的二值图、文本区域边界的二值图及中心区域的二值图；

根据所述文本区域的二值图及所述文本区域边界的二值图，得到目标边界二值图；

根据所述内缩文本区域的二值图及所述中心区域的二值图，得到目标中心区域二值图。

5.根据权利要求4所述的方法，其特征在于，还包括：

为所述多个特征向量进行权重的赋值处理，得到多个处理后的特征向量，将与所述多个处理后的特征向量分别对应的多个像素点进行逐点相加处理，得到第一方向图；

根据所述目标边界二值图及所述目标中心区域二值图，得到第二方向图；

将所述第一方向图及所述第二方向图作为待比较对象，并根据所述第一方向图及所述第二方向图的连通域运算，从所述待比较对象中筛选出目标文本框。

6.一种目标检测装置，其特征在于，所述装置包括：

检测分支模块，用于将所述特征图像输入检测模块，输出多通道的特征图像及多个特征向量，其中，所述多通道的特征图像中第一通道输出的特征图像为得到文本区域的概率图，第二通道输出的特征图像为内缩文本区域概率图，第三通道输出的特征图像为文本区域边界概率图，第四通道输出的特征图像为中心区域概率图，所述多个特征向量从第五通道至第八通道输出且分别对应的像素点方向为文本区域的上边界方向、文本区域的下边界方向、文本区域的左边界方向、及文本区域的右边界方向；

目标检测处理模块，用于根据所述目标检测网络，对第二文本图像中相应的文本区域进行检测，定位出所述文本区域；

训练模块，用于基于所述检测模块进行检测处理所对应的第一输出、第二输出与第三输出结合在一起进行训练；

7.根据权利要求6所述的装置，其特征在于，所述特征提取分支模块，用于：

8.根据权利要求6或7所述的装置，其特征在于，所述检测分支模块，用于：

9.根据权利要求6或7所述的装置，其特征在于，还包括二值化处理模块，用于：

10.根据权利要求9所述的装置，其特征在于，还包括筛选模块，用于：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-5中任一项所述的方法。