CN112132164A

CN112132164A - 目标检测方法、系统、计算机装置及存储介质

Info

Publication number: CN112132164A
Application number: CN202011309432.2A
Authority: CN
Inventors: 张蓓蓓; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2020-12-25
Anticipated expiration: 2040-11-20
Also published as: CN112132164B

Abstract

本申请提供目标检测方法、系统、计算机装置及存储介质，在方法中，通过获取由原始图像切分得到的各局部图像、以及从所述原始图像提取的至少一信息强化图像；对每个局部图像和信息强化图像并行地在每个分支的特征提取模块进行特征提取，以得到每个分支的至少一特征提取图像；将各个分支的至少一特征提取图像按在该原始图像中的对应所在位置进行拼接及融合，以形成至少一输出特征图像；根据所述至少一输出特征图像形成待检测特征图像；根据所述待检测特征图像得到目标检测结果。所实现方案中通过将原始图像进行局部划分且并行地通过特征提取模块进行特征提取，以提升检测效率，并且通过多维度的图像特征提取及融合强化图像信息，提升目标检测效果。

Description

目标检测方法、系统、计算机装置及存储介质

技术领域

本申请实施例涉及目标检测技术领域，尤其涉及目标检测方法、系统、计算机装置及存储介质。

背景技术

在众多计算机视觉应用场景中，例如目标识别等，目标检测是其重要的前置步骤。具体的，通过处理所采集图像中的目标相关特征以定位目标所在区域。

所述目标可以是人、物等。在目标检测中会用到目标检测模型，例如神经网络模型等。

随着目标检测模型的技术在飞速发展，已在准确度及效率上有了不少的提升，但是在实际应用中的复杂情景下，仍然会有不足之处。

举例而言，文本检测是目标检测中应用广泛的一种，是很多计算机视觉任务的前置步骤，比如图像搜索、文字识别，身份认证和视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置，文本的精准定位既十分重要又具备挑战，因为相较于通用目标检测来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测上较为成功的算法无法直接迁移到文字检测中，但近年来随着深度学习的再次兴起，对文本检测的研究也成为了一大热点，出现了大量专用于文本检测的方法，且都取得了不错的检测效果。

根据文本检测所用方法的技术特点，目前比较流行的文本检测方法可大致分为两类，第一类是基于滑动窗口的文本检测方法，它主要是基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定，这种方法的优点是文本框判定之后，不需要其余的后续里便可进行后续工作，缺点是计算量过大，不仅需要耗费大量计算资源，而且耗时较长；第二类是基于计算连通域的方法，也称基于分割思想的方法，它主要是先使用全卷积神经网络模型提取图像特征，然后对特征图进行二值化并计算其连通域，然后根据不同地应用场景（即不同地训练数据集），使用一些特定的方法，判断文本行位置，这种方法的优点是计算快速，计算量小；然而缺点是后处理步骤繁琐，涉及大量的计算和调优，这不仅会消耗大量时间，同时，后处理策略是否合理有效也严格制约着算法的性能。

对于第二种分割思想的方法，有大量的研究在如何简化后处理部分做了相当多的工作，但是对于较少文本的场景中的文本检测有所作用，例如在一些开放的场景文本检测数据集上（每张图像4到5个文本框）效果尚可，但是针对文本非常密集的实际应用场景（比如一张图像上有上百个文本区域，如小学生的算术练习册等），检测速度受文本框数量的影响非常大，几乎是随着文本框数量的增长，呈线性下降趋势，无法满足实际应用场景的速度需求。

同样的，可以推知在其它类型的目标检测中，也会存在需要在目标检测模型的检测效率上有所提升的需求，故如何找到一种提升目标检测效率的方案，已成为业界亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例中提供目标检测方法、系统、计算机装置及存储介质，解决现有技术中的技术问题。

本申请实施例提供了一种目标检测方法，包括：

获取由原始图像切分得到的各局部图像、以及从所述原始图像提取的至少一信息强化图像；

通过特征提取模块对每个局部图像和信息强化图像进行特征提取，以分别得到至少一特征提取图像；

根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，以形成至少一输出特征图像；

根据所述至少一输出特征图像形成待检测特征图像；

根据所述待检测特征图像得到目标检测结果。

可选的，所述各局部图像为对原始图像在横向方向和/或纵向方向进行等比例切分得到的。

可选的，所述信息强化图像为与所述原始图像的预定区域对应的图像，所述预定区域包括：局部关键区域及全局区域中的至少一种。

可选的，所述局部关键区域包括中央区域，所述信息强化图像包括中央区域强化图像。

可选的，所述信息强化图像包括原始图像的全局区域对应的全局区域强化图像，所述全局区域强化图像是对原始图像下采样至与局部图像尺度相同的图像。

可选的，所述根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，包括：

根据各局部图像在所述原始图像中的对应位置，拼接各局部图像的特征提取图像为拼接特征图像；

根据对应于局部关键区域的中央区域强化图像在所述原始图像中的对应位置，将中央区域强化图像的特征提取图像按逐像素点的数学计算的方式融合至拼接特征图像上的对应位置；和/或，根据对应于全局区域的全局区域强化图像在所述原始图像中的对应位置，将全局区域强化图像的特征提取图像处理至与所述拼接特征图像尺度相同，按逐像素点的数学计算的方式融合至所述拼接特征图像。

可选的，每个所述特征提取模块根据一尺度组合处理输入的局部图像或信息强化图像，以获得对应的一特征提取图像组。

可选的，各个局部图像和信息强化图像的尺度相同，各个分支的特征提取模块的架构相同并共享权重，以根据同一尺度组合处理各自输入的局部图像或信息强化图像，以得到各个特征提取图像组；

所述根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，以形成至少一输出特征图像，包括：

将各特征提取图像组中具有相同尺度的特征提取图像合成为每个输出特征图像，以形成输出特征图像组。

可选的，所述的目标检测方法包括：通过特征增强模块处理所述输出特征图像组得到对应的至少一特征增强图像；

所述根据所述至少一输出特征图像形成待检测特征图像，包括：

将所述特征增强图像组中的各特征增强图像组合为所述待检测特征图像。

可选的，所述根据所述待检测特征图像得到目标检测结果包括：

分别通过预设操作处理所述待检测特征图像，以得到目标预测阈值图和目标预测概率图；

根据目标预测概率图和目标预测阈值图的差异结果，对目标预测概率图进行二值化处理以得到二值图；

获取所述二值图中的连通域；

根据连通域预测得到目标所在区域。

可选的，所述目标包括图像中密集分布的文本。

本申请实施例提供了一种目标检测系统，包括：

图像提取模块，用于获取由原始图像切分得到的各局部图像、以及从所述原始图像提取的至少一信息强化图像；

多个特征提取模块，分别用于对每个局部图像和信息强化图像进行特征提取，以分别得到至少一特征提取图像；

合成模块，用于根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，以形成至少一输出特征图像；

形成模块，用于根据所述至少一输出特征图像形成待检测特征图像；

目标检测模块，用于根据所述待检测特征图像得到目标检测结果。

本申请实施例提供了一种计算机装置，包括存储器和处理器，所述存储器上存储有可由所述处理器运行的计算机程序，所述处理器运行所述计算机程序时执行所述的目标检测方法中的步骤。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被运行时执行所述的目标检测方法中的步骤。

与现有技术相比，本申请实施例的技术方案具有以下有益效果：

一方面，通过将原始图像进行局部划分且并行地通过特征提取模块进行特征提取，以提升检测效率，有效解决现有技术中针对例如密集文本等大运算量任务时检测效率弱的问题；并且，这样的并行图像处理方式恰好适合使用并行计算效率强大的图形处理器（Graphics Processing Unit，GPU），从而减少在中央处理器（CPU）的工作任务，运行速度亦得到明显提升。

另一方面，通过将原始图像划分成局部图像和需要特征加强区域的信息强化图像进行并行特征提取进而拼接及融合的方式，在提升检测效率的同时，还能起到增强所述信息强化图像对应的局部关键区域、全局区域中信息的作用，从而有效提升目标检测效果。

附图说明

图1展示为本申请实施例中目标检测方法的流程示意图。

图2A至2C展示为本申请不同实施例中局部图像获取的原理示意图。

图3展示为本申请实施例中对应局部关键区域提取的信息强化图像的原理示意图。

图4展示为本申请实施例中对应全局区域提取的信息强化图像的原理示意图。

图5展示为本申请实施例中并行处理局部图像和信息强化图像的模型架构示意图。

图6展示为本申请一种实施例中特征提取模块的原理示意图。

图7展示为本申请实施例中进行特征提取图像拼接及融合的流程示意图。

图8展示为本申请实施例中进行特征提取图像拼接及融合形成输出特征图像组的原理示意图。

图9展示为本申请实施例中待检测特征图像形成的原理示意图。

图10展示为特征金字塔增强网络的原理示意图。

图11展示为本申请实施例中目标根据所述待检测特征图像得到目标检测结果的流程示意图。

图12展示为本申请实施例中目标检测系统的功能模块示意图。

图13展示为本申请实施例中计算机装置的结构示意图。

具体实施方式

由之前可知，在目标识别的前置技术目标检测中，虽然已针对检测效率有了各种改进方案，但是针对运算量较大的实际应用场景仍然存在不足。在一些示例中，如在文本检测中，当文本在图像中相对稀少且分散时，例如对从自然场景中的广告牌、建筑物等所采集的图像进行文本检测，现有的文本检测方案尚可应对；但是，在教育领域，对所使用的书籍、练习册等上存在的密集文本进行检测时，现有技术中的文本检测方案的检测速度就会急剧下降。

由此，本申请实施例中提供相应的解决方案，通过并行且特征加强的方式以改善现状。

现有技术中针对目标检测模型的改优化皆大量集中在后处理上，然而如果将同一个目标检测模型的前向计算效率提高，同时至少保证其提取特征的能力能维持，则即使后处理不做优化，也能得到检测效率的大幅度提升。在此创新思路之下，本申请实施例中提供对应的方案，以解决现有技术中的目标检测效率的问题。

如图1所示，展示本申请实施例中的目标检测方法的流程示意图。

所述目标检测方法具体可包括如下步骤：

步骤S101：获取由原始图像切分得到的各局部图像、以及从所述原始图像提取的至少一信息强化图像。

在一些示例中，所述各局部图像为对原始图像在横向方向和/或纵向方向进行等比例切分得到的。等比例指的是各局部图像的尺度一致，尺度指的是图像的宽和高，可以是以像素或尺寸为单位。

举例来说，例如图2A所示，展示对原始图像200进行十字的四等分的切分方式，从而形成左上、右上、左下、右下的4个局部图像，即201A、201B、201C及201D。或者，如图2B所示，展示为另一种的切分方式，对原始图像200横向均匀切分成两行，及竖向均匀切分成三列，从而形成202A~202F共计6个局部图像。由此可知，所述切分方式并不唯一，可以按例如横向均匀切分的M行及纵向均匀切分的N列的方式，来得到M×N个局部图像。

其中，采用等分方式得到尺度相同的局部图像，可配合在各分支采用配置相同的特征提取网络以形成相同尺度的特征提取图像，而利于后续拼接时的对齐；但需说明的是，此仅为优选举例，并非以此为限制，在其它示例中也可以采用不同尺度、比例的划分方式，而非以此为限。

在一些示例中，由于本步骤中的局部图像的划分，有可能会引起相邻局部图像间连接处的信息丢失。因此，对于各局部图像之间也可以具有重叠部分，例如在图2C中，203A~203D之间互有重叠以加强连接处的信息，在后续步骤中在对应特征图进行拼接时，相邻局部图像的重叠部分对应在各自特征图中的特征部分可以相融合。在图2C中，为能更清楚识别203A~203D，以不同的线型来加以区分，并且以不同虚线框突出表示本实施例中每个局部图像的大小。

在一些示例中，所述信息强化图像对应于原始图像的预定区域，以用于在特征提取时强化预定区域的信息。所述预定区域包括：局部关键区域及全局区域中的至少一种。

由于人的观察特性，在所摄取的图像中往往中央区域的信息是图像的关键信息，例如关注的目标可能处于中央区域或其附近，对关键信息的强化可能可以提升目标检测效果。故可选的，所述局部关键区域可以包括原始图像的中央区域，以用于强化中央区域的信息。

如图3所示，展示本申请实施例中对应局部关键区域提取的信息强化图像的原理示意图。

在图3中，所述局部关键区域为原始图像300的中央区域，所获取的信息强化图像为对应于所述中央区域的中央区域强化图像301。示例性地，所述中央区域强化图像301的中心可与原始图像的中心O点重合；所述中央区域强化图像301的尺度可与局部图像尺度一致，例如局部图像是原始图像300的1/4大小，则中央区域强化图像301也取原始图像300的1/4大小，相同尺度以利于后续在各个分支通过相同的配置相同的特征提取网络来对局部图像和信息强化图像进行特征提取。

需说明的是，原始图像的中央区域只是局部关键区域的一种示例，在实际场景中可以根据需求不同而产生变化，例如边缘区域、目标所在区域等，并非以中央区域为限。

例如，通过对应原始图像的全局区域的信息强化图像可强化原始图像全局的信息，并且，由于局部图像的划分可能会丢失连接处的信息，全局区域的信息强化图像亦能对局部图像连接处的信息强化。

如图4所述，展示本申请实施例中对应全局区域提取的信息强化图像的原理示意图。

在图4中，可以将原始图像400进行下采样以得到对应全局区域的信息强化图像，即全局区域强化图像401。全局区域强化图像401可与相应的局部图像的大小一致，例如局部图像是原始图像400的1/4大小，则全局区域强化图像401也取原始图像400的1/4大小。

在一些示例中，所述下采样的方式包括：双线性插值、池化、卷积等。其中，在目标检测任务中，对空间位置准确度要求较高，可优选采用双线性插值的方式来完成此下采样。

可以理解的是，各局部图像是对原始图像切分的各部分，即各局部图像可能可以拼接出原始图像，因此从原始图像得到的信息强化图像所对应原始图像中的部分，就会与各局部图像间存在重叠；例如，图3中的301为原始图像的中央区域，图4中的原始图像400在下采样之前即为原始图像本身。

还需特别说明的是，上述示例中的中央区域强化图像、全局区域强化图像只是信息强化图像的一些实施方式，在实际场景中，可以根据原始图像在所具体场景中的用途、需求而选择相应的信息强化图像，例如对应原始图像中的目标（如人、物等）所在的图像区域产生信息强化图像等，并非以上述示例为限。

在上述示例中已对局部图像和信息强化图像进行介绍，回到图1实施例中，继续介绍步骤S102。

步骤S102：通过特征提取模块对每个局部图像和信息强化图像进行特征提取，以分别得到至少一特征提取图像。

示例性地，如图5所示，假设根据原始图像500经四等分形成4个局部图像501A~501D，提取1个对应中央区域的中央区域强化图像501E，以及1个对应全局区域的全局区域强化图像501F，共计6个图像；对应6路分支，每个分支设置一特征提取模块502A~502F，并行地对6个图像501A~501F进行特征提取，以在6路中的每一路分支得到至少一特征提取图像。

在一些示例中，各所述特征提取模块502A~502F可以基于神经网络模型实现，其中可包含例如一或多个卷积层、池化层等，以实现特征提取操作而形成特征提取图像。

在一些示例中，每个分支的特征提取模块502A~502F间的架构相同并共享权重，例如所采用的神经网络模型的架构相同，且对应的卷积层的卷积核完全相同。需说明的是，此设计对于密集文本的检测而言更为有利。其原因在于，因为每个神经网络模型倾向于检测一种相同的目标，相对于自然图像来说，一个卷积核就是在整张图像上寻找一种目标，比如对于自然场景中的文本检测来说，是在整张图像上找相同目标即文本，自然场景中的文本可能较为散乱的分布（例如铭牌、商店招牌、建筑物上的广告牌等），然对于密集文本来说，例如书籍、试卷、练习册等，它的背景远比自然场景文本更加单一，主要都是文本，故在采用相同架构且共享权重的神经网络模型处理从密集文本的原始图像中提取的局部图像和信息强化图像，能使特征提取模型的设计更为简化，检测准确度和检测效率亦能兼顾。

在基于多层的深度神经网络实现的特征提取模型中，由于低层的特征语义信息比较少，但是目标位置准确；高层的特征语义信息比较丰富，但是目标位置比较粗略。所以对图像进行不同层级的多尺度的特征图提取，再进行特征图的融合，就能结合低层和高层特征的优点。

故在一些示例中，如图6所示，每个所述特征提取模块600可以包括残差神经网络（Residual Network，ResNet），以通过对输入的局部图像或信息强化图像在不同深度层次的下采样以输出一组不同尺度的特征提取图像，称为特征提取图像组601；其中，特征提取模块对输入图像进行特征提取所依据的各个尺度，可以称为一个尺度组合。

以18层残差神经网络（ResNet18）为例，其架构中具有不同深度的4个块（block），每个块通过下采样输出一特征图，其大小分别是对其输入图像的1/4，1/8、1/16、1/32，形成了一种尺度组合即输入图像的1/4，1/8、1/16、1/32。

进一步举例，假设局部图像和信息强化图像都是原始图像的1/4，如果基于ResNet18的部分或全部架构实现各个所述特征提取模块，那么在每个分支得到的特征提取图像组中，各个特征提取图像分别为原始图像的1/16、1/32、1/64、1/128。

当各个特征提取模块基于相同架构实现并共享权重参数的情况下，各个特征提取模块根据同一尺度组合处理各自的输入图像，即局部图像或信息强化图像；按照前述举例，在各局部图像和信息强化图像都是原图像的1/4的情况下，且同一尺度组合为输入图像的1/4，1/8、1/16、1/32，则每个特征提取图像组601包含的各个特征提取图像分别为原始图像尺寸的1/16、1/32、1/64、1/128。

再来到图1实施例中的步骤S103：根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，以形成至少一输出特征图像。

在具体实施中，所述合成可以包含特征提取图像之间的拼接及融合。其中，拼接可以例如包括将特征提取图像之间的边缘连接起来，融合可以例如包括根据两份特征提取图像中对应像素位置的像素值进行数学计算来合而为一。

如图7所示，在该实施例中，所述步骤S103具体可以包括：

步骤S701：根据各局部图像在所述原始图像中的对应位置，拼接各局部图像的特征提取图像为拼接特征图像。

举例来说，如果各局部图像是如图2A所示进行四等分，则根据各局部图像对应得到的各个特征提取图像间也按左上、右上、左下、右下方式进行拼接。又或者，如图2B所示进行6等分得到6个局部图像，则对应的各特征提取图像间也是按各自局部图像在原始图像中的位置进行拼接。

步骤S702：根据对应于局部关键区域的中央区域强化图像在所述原始图像中的对应位置，将中央区域强化图像的特征提取图像按逐像素点的数学计算的方式融合至拼接特征图像上的对应位置；和/或，根据对应于全局区域的全局区域强化图像在所述原始图像中的对应位置，将全局区域强化图像的特征提取图像处理至与所述拼接特征图像尺度相同，按逐像素点的数学计算的方式融合至所述拼接特征图像。

简而言之，在融合时也需要确定第一或全局区域强化图像在原始图像中对应的位置，例如中央区域强化图像对应于原始图像的中央区域，则其特征提取图像也逐个像素点对应地融合到拼接特征图像的中央区域；又例如全局区域强化图像对应于原始图像的全局区域，则其特征提取图像也逐个像素点对应地融合到拼接特征图像的全局区域。

在实际实现的可选示例中，待生成的输出特征图像的尺度是可以预知的，则可以通过预先设置每个分支输出的特征提取图像对应到待生成的输出特征图像上的输出区域。例如，对应输出特征图像，左上1/4区域的每个像素位置对应供输出由原始图像左上1/4的局部图像得到的特征提取图像，同理，输出特征图像右上、左下、右下皆可对应设置其它3个分支输出的局部图像的特征提取图像，从而构成拼接特征图像；同理，待生成的输出特征图像的中央区域可供逐个像素点地对应融合中央区域强化图像所在分支输出的特征提取图像；待生成的输出特征图像的全局区域可供逐个像素点地对应融合全局区域强化图像所在分支输出的特征提取图像。

在具体实施中，所述逐像素点的数学计算方式可以包括：对中央区域强化图像的特征提取图像同拼接特征图像中相应像素点的两个像素值求和、相乘、加权进行求和/相乘等中的一种或各种组合，其目的在于能实现通过信息强化图像达到信息加强的目的即可，并不限制其具体的数学计算方式。

例如，拼接特征图像为M*N的尺寸，而中央区域强化图像的特征提取图尺寸为M/16*N/16，则特征提取图中的M/16*N/16个像素点与拼接特征图像中央区域的M/16*N/16个像素点之间一一对应地进行像素值的相加或相乘。

同理，对应全局区域的全局区域强化图像而言，其特征提取图像经上采样后可通过两个图像间相应像素点的两个像素值的求和、相乘、加权进行求和/相乘等中的一种或各种组合的计算，而将全局区域强化图像融合至所述拼接特征图像。

例如，拼接特征图像为M*N的尺寸，而中央区域强化图像的特征提取图经处理为与拼接特征图像一致的M*N，则特征提取图中的M*N个像素点与拼接特征图像的M*N个像素点之间一一对应地进行像素值的相加或相乘。

示例性地，所述上采样的方式可以是一种是插值方式，例如双线性插值、最近插值、双三次插值方式等；另一种是通过类似于反池化操作，例如将1个像素点扩大为4个像素点，将此1个像素点的像素值均匀地分给这4个像素点等；以上仅为例举，而非限制上采样的实现方式。

再以图8为例，以直观说明输出特征图像的生成原理。

在图8中，待生成的输出特征图像对应有6个区域，A~F，分别对应于原始图像的左上1/4的局部图像的特征提取图801，右上1/4的局部图像的特征提取图802，左下1/4的局部图像的特征提取图803，右下1/4的局部图像的特征提取图804，中央区域的中央区域强化图像的特征提取图805，全局区域的中央区域强化图像的特征提取图806。

通过将特征提取图801写入区域A，特征提取图802写入区域B，特征提取图803写入区域C，特征提取图804写入区域D，形成拼接特征图像。

将特征提取图805与拼接特征图像在E区域的部分图像融合，将特征提取图806上采样至与拼接特征图像尺度一致（比如从原始图像的1/16扩大4倍到1/4），与拼接特征图像全局的区域F的部分图像融合，形成输出特征图像。

上述示例中，展示以每条支路获得一份特征提取图像并进行拼接和融合的原理之后，应该已说明清楚其原理。在此原理基础上可以加以扩展，如果每个分支的特征提取模块输出的是特征提取图像组，例如特征提取模块包含残差神经网络而获得符合一尺度组合的特征提取图像组等，且如前所述，各个分支的特征提取图像组可符合同一尺度组合，则可将各特征提取图像组中具有相同尺度的特征提取图像合成为每个输出特征图像，以形成输出特征图像组。

以实例来说，假设局部图像和信息强化图像都是原始图像的1/4，如果各个所述特征提取模块使用例如ResNet18，那么在每个分支得到的特征提取图像组中，各个特征提取图像分别为原始图像的1/16、1/32、1/64、1/128。为直观说明，可如图9所示，在图9中展示对应6个分支得到了6个特征提取图像组901A~901F，并以尺度来代表组内的各个特征提取图像，即原始图像的1/16、1/32、1/64、1/128；每个特征提取图像组中符合原始图像1/16的一份特征提取图像可以进行处理，就有6份相同尺度（原始图像1/16）的特征提取图像，即如图中四个实线框W、X、Y、Z所示意，分别对应不同局部图像和信息强化图像，进而可以按照图9所示意，将此6个特征提取图像进行拼接及融合，而形成1个输出特征图像（原始图像的1/4）；同理，6个分支的原始图像1/32的特征提取图像拼接及融合为1个原始图像的1/8的特征图像，还可得到原始图像1/8的输出特征图像，以此类推，可以得到输出特征图像组903，包含原始图像1/4、1/8、1/16、1/32的4个输出特征图像9031、9032、9033及9034。

由此，从6个原始图像1/4的局部图像和信息强化图像，映射为6组且每组4个特征提取图像，每组中的4个特征提取图像大小分别为原始图像的1/16、1/32、1/64、1/128，再对6个1/16、6个1/32、6个1/64、6个1/128的特征提提取图像分别进行拼接及融合，得到原始图像1/4、1/8、1/16、1/32的4个输出特征图像，构成1个输出特征图像组。

接续步骤S103，执行步骤S104：根据所述至少一输出特征图像形成待检测特征图像。

在步骤S104的具体实施中，当步骤S103得到的是1个输出特征图像时，即可直接输出作为待检测特征图像。

或者，如之前的示例中所描述，所述特征提取模块可以采用例如残差神经网络等，目的在于得到不同层次的特征图，然后将它们融合在一起，这样兼具了原始图像的高层次和低层次的特征信息。因此，当步骤S103得到的是输出特征图像组，例如之前举例的原始图像1/4、1/8、1/16、1/32的4个输出特征图像所构成的输出特征图像组，需要将其中的各个输出特征图像再进行组合。

在具体实施中，可将输出特征图像组其中的各特征图像，组合为与其中尺度最大的一个特征图像尺度相同的待检测特征图像。

以原始图像1/4、1/8、1/16、1/32的4个输出特征图像所构成的输出特征图像组为例，可以将其中原始图像1/32扩大两倍后，与1/16的输出特征图像叠加，再对叠加后的1/16的特征图像扩大2倍至1/8与所述1/8的输出特征图像叠加，再对叠加的1/8的特征图像扩大2倍至1/4与所述1/4的输出特征图像叠加，可以得到原始图像1/4大小的待检测特征图像。

或者，更加简单的，直接将所述原始图像1/8、1/16、1/32的输出特征图像都扩大为原始图像1/4，而与所述原始图像1/4的输出特征图像直接叠加而得到所述待检测特征图像。

为进一步增强输出特征图像中的特征，而提升目标检测效果，则在生成所述待检测特征图像之前，还可以包括：通过特征增强处理所述至少一输出特征图像得到对应的至少一特征增强图像。

由于每个特征提取模块可以包括残差神经网络，而输出一个特征提取图像组，则相应的，所述特征增强处理可以由特征金字塔增强模块来实现。在一些示例中，所述特征金字塔增强模块可以是如图9中所展示的结构，被称为FPEM，即Feature PyramidEnhancement Module的缩写。

请参阅图10，展示本申请实施例中特征金字塔增强模块的结构示意图。

FPEM模块是一种结合卷积、反卷积和批归一化相结合的操作，FPEM可以看作是一个轻量级的特征金字塔网络（Feature Pyramid Network，FPN），计算量较小，可以不停级联以达到不停增强特征的作用。

如图所示，在FPEM模块中，输入的一组多个尺度的特征图（例如一图像经特征金字塔网络逐级特征提取输出的不同尺度的各个特征图）经不同级的卷积层处理后，分别产生不同尺度的特征图，并向后不同级输出，特征提取程度较深的特征图经上采样后与浅一级的特征图尺寸相同并叠加，以此类推而形成图中上半部分的上采样加强过程，形成上采样加强特征图；然后再将上采样加强特征图进行图中下半部分的下采样加强过程，即将上采样加强特征图输出，并与下采样过程中的相应一级的特征图进行合成，再向下级传输，以此类推，最终输出与输入的一组特征图尺寸一一相同的一组增强特征图像。

图10下部两个虚框显示图中具体展示了两种加号的具体运算方式，其中，“+”表示逐位相加（wise addition），“2×”表示2×线性上采样，“DWconv”表示“Depth Wise 卷积”，“Conv”表示标准卷积，“BN”表示“Batch Normalization”即批归一化层，ReLu表示线性整流函数（Rectified Linear Unit, ReLU）。

需特别说明的是，FPEM只是一种特征增强网络的实现示例，只要是能拓展感受野的其它U形的特征金字塔的模型也可以用来实现上述实施例中的特征增强网络，并非以FPEM为限。

输入一个输出特征图像组的4个输出特征图像，得到的也是一一对应尺度相同的4个增强特征图像，可见输入与输出的格式是相同的，故可使用2个或以上的所述特征金字塔增强模块串联以用于执行所述特征增强。

进而，可在输出特征图像组经特征增强后得到的一组增强特征图像进行合成而得到所述待检测特征图像。

在具体实施中，接续步骤S104，执行步骤S105：根据所述待检测特征图像得到目标检测结果。

在一些示例中，如图11所示，所述步骤S105可具体包括：

步骤S1101：分别通过预设操作处理所述待检测特征图像，以得到目标预测阈值图（Threshold Map）和目标预测概率图（Probability Map）。

在一些示例中，所述预设操作包括：卷积操作及反卷积操作。例如，先进行2次3*3卷积核的卷积操作，再进行1次例如步长（stride）为2的反卷积操作。其中，设待检测特征图像为F，目标预测概率图为P，目标预测阈值图为T。

可选的，在目标检测模型进行训练时，每个输入的训练图像上对相同目标所标记的不同大小的目标标签；若目标为文本，则目标标签即框选所述文本的文本框；在每个训练图像上的真实标签即真实文本框（例如人工标记）的基础上，进行扩大得到扩大文本框，进行缩小得到内缩文本框，以扩大文本框作为T的参考，内缩文本框作为P的参考，即训练时会根据生成的T和扩大文本框之间差异的损失来调整目标检测模型的参数，训练时根据生成的T和扩大文本框之间差异的损失来调整目标检测模型的参数，以在训练过程中使得T和扩大文本框越来越接近，P和内缩文本框越来越接近。

在具体实施中，所述目标预测概率图P可能相比于F会在尺度上有缩小。

步骤S1102：根据目标预测概率图和目标预测阈值图的差异结果，对目标预测概率图进行二值化处理以得到二值图。

在一些示例中，如果采用标准二值化的方式，对于目标预测概率图P来说，可使用下式来将目标预测概率图P中的每个像素点进行二值化：

（1）

上式中，t表示预设的阈值，(i, j)表示概率图中的坐标位置，B _i,j表示P中(i, j)像素位置的像素点P _i,j二值化之后的结果，输出1表示该像素为正样本也就是目标（例如文本）所在区域，输出0表示该像素为负样本也就是背景。

上述的标准二值化方法中，式（1）的函数是不可微，所以无法在神经网络中学习优化。因此，通过可微的二值化函数加以替代，如下式（2）所示：

（2）

其中，

是相比于B _i,j的近似二值结果；T _i,j是在神经网络中学习到的自适应阈值，即目标预测阈值图中的像素坐标；k是放大因子。

从中亦可见，目标预测概率图和目标预测阈值图的差异结果，即P _i,j-T _i,j，是决定

取值的因素。

步骤S1103：获取所述二值图中的连通域。

在具体实施中，连通域就其定义来说，是由具有相同像素值的相邻像素组成像素集合，可以通过4邻接或8邻接方式在图像中寻找连通域，如果考虑4邻接，则有3个连通域，8邻接则是2个连通域。

举例说明连通域分析算法，连通域分析的基本算法有两种：1) 两遍扫描法（Two-Pass）；2)种子填充法（Seed-Filling）。其中，两遍扫描法指的是通过扫描两遍图像，将图像中存在的所有连通域找出并标记；种子填充法假设在多边形或区域内部至少有一个像素是已知的，然后设法找到区域内所有其他像素，并对它们进行填充。区域可以用内部定义或边界定义；如果是边界定义，那么区域边界上所有像素均具有特定的值或颜色，区域内部的所有像素均不取这一特定值，然而，边界外的像素则可具有与边界相同的值；如果是内部定义，那么，区域内部所有像素具有同一种颜色或值，而区域外的所有像素具有另一种颜色或值。相应的，填充内部定义区域的算法成为泛填充算法(Flood Fill Algorithm)，填充边界定义区域的算法称为边界填充算法。

需说明的是，以上仅为对连通域分析算法的举例，并非限制其具体实施。

步骤S1104：根据连通域预测得到目标所在区域。

在一些示例中，在S1101的目标预测概率图P中，会相比于图像中实际的目标区域缩小，这样可以减少不同目标粘连的可能，这样避免不同目标难区分的问题。

相应的，在步骤S1104中，可以将连通域扩大以将目标检测概率图恢复为原始图像的尺度，进而通过例如对恢复尺度的连通域求最小外接矩形来得到目标所在区域。

需说明的是，步骤S1101~S1104中所提供的目标检测的后处理方式，只是一种优选示例，在实际实现中完全可以加以变化，并非以此为限。

另外需特别说明的是，上述实施例中目标检测方法中的目标可以是文本，尤其是对于自然场景中的密集文本的检测能相比现有技术的方案有较大的效率提升；但是，并不仅限于文本检测，也可以是其它类型目标的检测，例如人、物等，尤其例如是密集的相同外观的物体、穿着相似的人进行规律排列场景中的检测，例如生产制造中按阵列摆放的产品、穿相同制服的人员（如学生、军人、运动员等）的方阵等，同样可以应用本申请的方案以提升检测效率。

如图12所示，展示本申请实施例中提供的目标检测系统的模块示意图。所述目标检测系统的原理与之前实施例中的目标检测方法相同，故可以参考之前实施例，此处不再对技术特征进行重复赘述。

所述目标检测系统包括：

图像提取模块1201，用于获取由原始图像切分得到的各局部图像、以及从所述原始图像提取的至少一信息强化图像；

多个特征提取模块1202A~1202F，用于分别在每个分支对每个局部图像和信息强化图像并行地进行特征提取，以得到每个分支的至少一特征提取图像。图12实施例中示例性地展示为6个特征提取模块，并对1202A~1202D分别输入局部图像，对1202E和1202F分别输入信息强化图像，但这只是举例而非以此为限；在本申请的发明思想下，完全可以根据实际需求的局部图像、信息强化图像数量来选择对应的特征提取模块数量。

合成模块1203，用于根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，以形成至少一输出特征图像；

形成模块1204，用于根据所述至少一输出特征图像形成待检测特征图像；

目标检测模块1205，用于根据所述待检测特征图像得到目标检测结果。

可选的，所述合成模块1203包括：

拼接子模块1231，用于根据各局部图像在所述原始图像中的对应位置，拼接各局部图像的特征提取图像为拼接特征图像；

融合子模块1232，用于根据对应于局部关键区域的中央区域强化图像在所述原始图像中的对应位置，将中央区域强化图像的特征提取图像按逐像素点的数学计算的方式融合至拼接特征图像上的对应位置；和/或，根据对应于全局区域的全局区域强化图像在所述原始图像中的对应位置，将全局区域强化图像的特征提取图像处理至与所述拼接特征图像尺度相同，按逐像素点的数学计算的方式融合至所述拼接特征图像。

可选的，每个所述特征提取模块1202A~1202F根据一尺度组合处理输入的局部图像或信息强化图像，以获得对应的一特征提取图像组。

可选的，各个局部图像和信息强化图像的尺度相同，各个分支的特征提取模块1202A~1202F的架构相同并共享权重，以根据同一尺度组合处理各自输入的局部图像或信息强化图像，以得到各个特征提取图像组；

可选的，所述的目标检测系统包括特征增强模块1206处理所述输出特征图像组得到对应的至少一特征增强图像；所述特征增强模块1206通过一个特征金字塔增强网络或多个级联的特征金字塔增强网络实现。

所述形成模块1204，用于将所述特征增强图像组中的各特征增强图像组合为所述待检测特征图像。

可选的，所述目标检测模块1205，包括：

预测图生成子模块1251，用于分别通过预设操作处理所述待检测特征图像，以得到目标预测阈值图和目标预测概率图；

二值化子模块1252，用于根据目标预测概率图和目标预测阈值图的差异结果，对目标预测概率图进行二值化处理以得到二值图；

连通域提取子模块1253，用于获取所述二值图中的连通域；

预测模块1254，用于根据连通域预测得到目标所在区域。

可选的，所述目标包括图像中密集分布的文本。

为简洁表达，系统中为可变化、可选的子模块通过虚线框的形式表示。

以下再举一具体实例以说明上述目标检测方法和目标检测系统的原理。

所述目标检测方法和目标检测系统可以应用于一目标检测模型，可以是硬件/软件/硬件运行软件以实现，具体说明其工作过程：

所述目标检测模型输入原始图像，输出对原始图像的目标检测结果。

对于输入的原始图像，目标检测模型可以进行预处理，以从输入的原始图像获取各个所述局部图像及信息强化图像，例如前述实施例中的4个等分的局部图像和2个信息强化图像，分别是原始图像的1/4。

预处理之后的6个图像分别输入6个分支的特征提取网络，每个特征提取子网络可以由例如ResNet18，相互之间共享权重参数，以输出6个特征提取图像组，每个特征提取图像组包含4个特征提取图像，分别是原始图像的1/16，1/32，1/64，1/128。

对6个特征提取图像组进行拼接及融合处理，将6个原始图像1/16的特征提取图像按对应原始图像的位置拼接融合为原始图像1/4的输出特征图像，将6个原始图像1/32的特征提取图像按对应原始图像的位置拼接融合为原始图像1/8的输出特征图像，将6个原始图像1/64的特征提取图像按对应原始图像的位置拼接融合为原始图像1/16的输出特征图像，将6个原始图像1/128的特征提取图像按对应原始图像的位置拼接融合为原始图像1/32的输出特征图像，则形成一个输出特征图像组，包含原始图像1/4、1/8、1/16和1/32共计4各输出特征图像。

输出特征图像组输入至2个串联的FPEM模块，经两次增强后输出为增强图像组，尺度不变。

对增强图像组中各特征图像进行合成，参考特征金字塔网络（FPN）的实现，可以是逐级对下级较小尺度的特征图像逐层上采样至与上级较大尺度的特征图像串联叠加的方式，生成原始图像1/4的待检测特征图像。

进而，可对待检测特征图像进行目标预测概率图的生成，二值化后求连通域，处理连通域以得到最终的目标检测结果，例如文本框。

可以理解的是，多分支的图像特征提取工作更适合于发挥图像处理器（GPU）的并行图像处理能力。

如图13所示，展示本身申请实施例中的本申请实施例提供了一种计算机装置1300，包括存储器1301和处理器1302，所述存储器1301上存储有可由所述处理器运行的计算机程序，所述处理器1302运行所述计算机程序时执行所述的目标检测方法中的步骤，例如图1实施例中的目标检测方法的步骤。

在一些示例中，所述存储器1301可能包含高速RAM存储器，也可能还包括非易失性存储器(Non-volatile Memory)，例如至少一个磁盘存储器。

所述处理器1302可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理(Digital Signal Processing，DSP)、ASIC等。在具体实施例中，处理器1302例如是图像处理器（GPU）、或协同工作的图像处理器和中央处理器（CPU）。

在一些示例中，所述计算机装置1300可以实现于例如服务器、服务器组、台式机、笔记本电脑、智能手机、平板电脑、智能手环、智能手表、或其它智能设备、或这些智能设备通信连接而形成的分布式处理系统等。

本申请实施例还可以提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序运行时执行例如图1实施例中的目标检测方法。

即上述功能、方法步骤被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机程序。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

例如，前述图12实施例中的各个功能模块、子模块可以是软件实现；或者也可以是软硬件配合实现，例如通过计算机设备实施例中的处理器运行存储器的计算机程序实现；或者，也可以是通过硬件电路实现。

此外，在本申请各个实施例中的各功能模块可以集成在一个处理部件中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个部件中。上述集成的部件既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的部件如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

例如，前述图12实施例中各个功能模块可以是独立、单一的程序实现，也可以是一程序中的不同程序段分别实现，在某些实施场景中，这些功能模块可以位于一个物理设备，也可以位于不同的物理设备但相互通信耦合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

例如，前述图1实施例中的目标检测方法，其中的各个步骤的顺序可能可以在具体场景中加以变化，并非以上述描述为限。

虽然本说明书实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本说明书实施例的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种目标检测方法，其特征在于，包括：

根据所述至少一输出特征图像形成待检测特征图像；

根据所述待检测特征图像得到目标检测结果。

2.根据权利要求1所述的目标检测方法，其特征在于，所述各局部图像为对原始图像在横向方向和/或纵向方向进行等比例切分得到的。

3.根据权利要求2所述的目标检测方法，其特征在于，所述信息强化图像为与所述原始图像的预定区域对应的图像，所述预定区域包括：局部关键区域及全局区域中的至少一种。

4.根据权利要求3所述的目标检测方法，其特征在于，所述局部关键区域包括中央区域，所述信息强化图像包括中央区域强化图像。

5.根据权利要求3所述的目标检测方法，其特征在于，所述信息强化图像包括原始图像的全局区域对应的全局区域强化图像，所述全局区域强化图像是对原始图像下采样至与局部图像尺度相同的图像。

6.根据权利要求3所述的目标检测方法，其特征在于，所述根据各局部图像及信息强化图像在所述原始图像中的对应位置，将各所述至少一特征提取图像进行合成，包括：

7.根据权利要求1所述的目标检测方法，其特征在于，每个所述特征提取模块根据一尺度组合处理输入的局部图像或信息强化图像，以获得对应的一特征提取图像组。

8.根据权利要求7所述的目标检测方法，其特征在于，各个局部图像和信息强化图像的尺度相同，各个分支的特征提取模块的架构相同并共享权重，以根据同一尺度组合处理各自输入的局部图像或信息强化图像，以得到各个特征提取图像组；

9.根据权利要求8所述的目标检测方法，其特征在于，包括：通过特征增强模块处理所述输出特征图像组得到对应的至少一特征增强图像；

10.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述待检测特征图像得到目标检测结果包括：

获取所述二值图中的连通域；

根据连通域预测得到目标所在区域。

11.根据权利要求1所述的目标检测方法，其特征在于，所述目标包括图像中密集分布的文本。

12.一种目标检测系统，其特征在于，包括：

13.一种计算机装置，包括存储器和处理器，所述存储器上存储有可由所述处理器运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行如权利要求1至11中任一项所述的目标检测方法中的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被运行时执行如权利要求1至11中任一项所述的目标检测方法中的步骤。