CN111768392A

CN111768392A - 目标检测方法及装置、电子设备、存储介质

Info

Publication number: CN111768392A
Application number: CN202010625186.5A
Authority: CN
Inventors: 张发恩; 秦树鑫
Original assignee: Alnnovation Guangzhou Technology Co ltd
Current assignee: Alnnovation Guangzhou Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: CN111768392B

Abstract

本申请提供一种目标检测方法及装置、电子设备、计算机可读存储介质，方法包括：将待检测图像作为特征提取网络的输入，获得所述特征提取网络输出的多个尺度的图像特征；将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图；融合所述分类结果图和语义分割图，获得目标置信度得分图；筛选所述目标置信度得分图中像素值大于预设第一阈值的像素点，获得检测结果图；基于所述检测结果图确定目标在所述待检测图像中的位置信息。本申请实施例，可以避免单一检测方式的局限性，提高检测精度，从而检测出待检测图像中尺寸小、边缘模糊的目标。

Description

目标检测方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种目标检测方法及装置、电子设备、计算机可读存储介质。

背景技术

在工业的各个生产阶段，存在大量质检流程。对于汽车零部件、3C电子产品、纺织布料、建筑物体等生产对象，质检的内容包括表面缺陷检测。通常，可基于传统图像视觉技术对待检测对象表面的明显缺陷(比如，尺寸较大、边缘清晰的破损)进行检测。而对于划痕、压伤、污迹、凹凸等尺寸小、边缘模糊的缺陷，往往需要人工进行检测。

发明内容

本申请实施例的目的在于提供一种目标检测方法及装置、电子设备、计算机可读存储介质，基于图像处理技术对图像中尺寸小、边缘模糊的目标进行检测。

一方面，本申请提供了一种目标检测方法，包括：

将待检测图像作为特征提取网络的输入，获得所述特征提取网络输出的多个尺度的图像特征；

将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图；

融合所述分类结果图和语义分割图，获得目标置信度得分图；其中，所述目标置信度得分图中每一像素点的像素值，表示该像素点在所述待检测图像中对应的像素点属于目标的置信度；

筛选所述目标置信度得分图中像素值大于预设第一阈值的像素点，获得检测结果图；

基于所述检测结果图确定目标在所述待检测图像中的位置信息。

在一实施例中，所述分类网络包括网格化分类网络和语义分割网络；

所述将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图，包括：

将多个尺度的图像特征作为所述网格化分类网络的输入，针对每一尺度的图像特征，通过所述网格化分类网络将所述图像特征依据多种粒度划分为多组网格图像特征；

通过所述网格化分类网络对所述网格图像特征进行分类计算，获得与多个尺度多个粒度对应的多组分类结果图；

将多个尺度的图像特征作为所述语义分割网络的输入，通过所述语义分割网络对多个尺度的图像特征进行融合；

通过所述语义分割网络对融合后的特征图进行计算，获得语义分割图。

在一实施例中，所述特征提取网络和所述分类网络通过如下方式训练得到：

将样本图像输入至所述特征提取网络，获得所述特征提取网络输出的多个尺度的图像特征；其中，所述样本图像携带软标签图像和多个尺度多个粒度的多组网格标签图；

将所述多个尺度的图像特征输入所述分类网络，获得所述分类网络中网格化分类网络输出的多个尺度多个粒度的多组分类结果图，以及，所述分类网络中语义分割网络输出的语义分割图；

基于所述软标签图和所述语义分割图之间的差异，以及，多个尺度多个粒度的多组网格标签图与多个尺度多个粒度的多组分类结果图之间的差异，调整所述特征提取网络和所述分类网络的网络参数；

重复上述过程，直至所述特征提取网络和所述分类网络收敛。

在一实施例中，在将所述样本图像输入至所述特征提取网络之前，所述方法还包括：

获取所述样本图像和对应于所述样本图像的弱标注信息；其中，所述弱标注信息指示所述样本图像中目标所在位置；

对所述弱标注信息进行距离变换和归一化处理，获得对应于所述样本图像的软标签图像；

依据所述多个尺度图像特征的尺度、所述多种粒度和所述软标签图像，生成多个尺度多个粒度的多组网格标签图。

在一实施例中，所述依据所述多个尺度图像特征的尺度、所述多种粒度和所述软标签图像，生成多个尺度多个粒度的多组网格标签图，包括：

基于所述多种粒度将所述样本图像划分为多组网格样本图像；

针对每一网格样本图像，基于所述网格样本图像中像素点在所述软标签图像对应的像素点的像素值，确定所述网格样本图像属于目标的网格置信度；其中，所述软标签图像的每一像素点的像素值，表征该像素点在所述样本图像中对应的像素点属于目标的置信度；

基于所述网格置信度为所述网格样本图像生成网格标签图；

根据所述多个尺度的图像特征的尺度，缩放处理多个粒度的多组网格标签图，获得与每一尺度的图像特征相同尺度的多个粒度的多组网格标签图。

在一实施例中，所述融合所述分类结果图和语义分割图，获得目标置信度得分图，包括：

将每一尺度图像特征对应的多个粒度的多组分类结果图进行融合，获得与每一尺度图像特征对应的多粒度融合分类结果图；

将对应于每一尺度图像特征的多粒度融合分类结果图进行融合，获得多尺度多粒度融合分类结果图；

融合所述多尺度多粒度融合分类结果图和所述语义分割图，获得所述目标置信度得分图。

在一实施例中，所述基于所述检测结果图确定目标在所述待检测图像中的位置信息，包括：

从所述检测结果图中获取目标在所述待检测图像中的候选位置信息；

判断所述候选位置信息对应的目标尺寸是否处于预设尺寸范围，若是，确定所述候选位置信息为目标的位置信息。

另一方面，本申请还提供了一种目标检测装置，包括：

提取模块，用于将待检测图像作为特征提取网络的输入，获得所述特征提取网络输出的多个尺度的图像特征；

分类模块，用于将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图；

融合模块，用于融合所述分类结果图和语义分割图，获得目标置信度得分图；其中，所述目标置信度得分图中每一像素点的像素值，表示该像素点在所述待检测图像中对应的像素点属于目标的置信度；

筛选模块，用于筛选所述目标置信度得分图中像素值大于预设第一阈值的像素点，获得检测结果图；

确定模块，用于基于所述检测结果图确定目标在所述待检测图像中的位置信息。

进一步的，本申请还提供了一种电子设备，，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述目标检测方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述目标检测方法。

在本申请实施例中，通过提取待检测图像的多个尺度的图像特征，并对多个尺度的图像特征进行分类计算和语义分割，可以获得表征目标在待检测图像中的位置的分类结果图和语义分割图；分类网络依据多个尺度的图像特征计算出的语义分类图和语义分割图，可适应不同尺度的目标，泛化能力更强，分类准确性高；通过融合分类结果图和语义分割图，从融合结果中最终确定目标在待检测图像中的位置信息，可以避免单一检测方式的局限性，提高检测精度；通过上述措施，可以检测出待检测图像中尺寸小、边缘模糊的目标。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的目标检测方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的目标检测方法的流程示意图；

图4为本申请一实施例提供的图像特征网格化划分的示意图；

图5为本申请一实施例提供的融合分类结果图和语义分割图的方法的流程示意图；

图6为本申请一实施例提供的网络模型的结构示意图；

图7为本申请一实施例提供的网络模型的训练方法的流程示意图；

图8为本申请一实施例提供的目标检测装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请一实施例提供的设备的目标检测方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是采集待检测图像的摄像机，可向服务端30传输待检测图像，服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以对客户端20上传的待检测图像，执行目标检测的业务。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，简称EEPROM)，可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-OnlyMemory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请实施例提供的目标检测方法。

参见图3，为本申请一实施例提供的目标检测方法的流程示意图，如图3所示，该方法包括步骤310-步骤350。

步骤310：将待检测图像作为特征提取网络的输入，获得所述特征提取网络输出的多个尺度的图像特征。

其中，待检测图像中可以包含被检测出的目标，该目标可视应用场景而定。比如，在检测生产对象的表面缺陷时，目标可以包括划痕、压伤、污迹、凹凸等缺陷。

特征提取网络可以包括骨干网络和多尺度提取网络，其中，骨干网络通过一系列卷积池化等操作提取图像特征，多尺度提取网络将骨干网络输出的图像特征转化为多个不同尺度的图像特征。骨干网络可以直接选择ResNet、DenseNet(Densely ConnectedConvolutional Networks，密集连接的卷积网络)、DarkNet等通用网络；多尺度提取网络可以是经改造的FPN(Feature Pyramid Networks for Object Detection，用于目标检测的特征金字塔网络)，经改造的特征金字塔网络可以输出一个更浅层的图像特征。该图像特征的宽度和高度可以分别等同于待检测图像的宽度和高度，或者，图像特征的宽度为待检测图像的宽度的一半、图像特征的高度为待检测图像的高度的一半，该图像特征也可以是多尺度提取网络输出的最大尺度的图像特征。其中，图像特征可以是特征图。

服务端将待检测图像输入至上述特征提取网络，通过特征提取网络中的骨干网络提取待检测图像的图像特征，并通过特征提取网络中的多尺度提取网络对该图像特征进行计算，获得多个尺度的图像特征。在一实施例中，多尺度提取网络可以输出3到5个不同尺度的图像特征。在本申请实施例中，尺度是指图像或图像特征的宽度和高度，这里的宽度指的是像素点的在图像或图像特征上的列数，高度指的是像素点的在图像或图像特征上的行数。比如：以W*H表示的尺度，W表示宽度，H表示高度，如果W*H是1920*1080，表示像素点的列数为1920，行数为1080。

步骤320：将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图。

其中，分类网络可以包括网格化分类网络和语义分割网络。网格化分类网络可以对每一图像特征进行多粒度网格划分，获得多组网格图像特征，并对每一网格图像特征进行分类计算，获得分类结果图。

语义分割网络，可以包括特征融合网络和像素级回归网络。其中，特征融合网络可将多个尺度的图像特征融合为一个图像特征，并对该图像特征进行像素分割，获得语义分割图。

在一实施例中，服务端可以将多个尺度的图像特征作为网格化分类网络的输入，针对每一尺度的图像特征，通过网格化分类网络将该图像特征依据多种粒度划分为多组网格图像特征。

其中，网格化分类网络被预配置网格划分参数n和粒度参数m。基于该网格划分参数n，对于每一尺度的图像特征，服务端可以将该图像特征划分为n*n个网格图像特征。参见图4，为本申请一实施例提供的图像特征网格化划分的示意图，图4中的网格划分参数为4，实线框表示的图像特征被虚线划分为4*4个网格图像特征。对于一个图像特征，被划分一次产生的多个相同尺度的网格图像特征可作为一组网格图像特征。

粒度参数表示对一个图像特征划分出的网格图像特征的组数。服务端基于网格划分参数n划分出n*n个网格图像特征，还可以基于0.5*n将图像特征划分为0.5*n*0.5*n个网格图像特征，以及，基于0.5*0.5*n将图像特征划分为0.5*0.5*n*0.5*0.5*n个网格图像特征，依此类推，直到获得m组网格图像特征。例如：网格划分参数n为8，粒度参数m为3，服务端需将图像特征划分为3组网格图像特征，每组网格图像特征的数量分别为8*8、4*4、2*2，共获得84个网格图像特征。

服务端通过网格化分类网络对网格图像特征进行分类计算，获得与多个尺度多个粒度对应的多组分类结果图。其中，每一分类结果图为与该分类结果图对应的网格图像特征具有相同尺度，分类结果图中每一像素点的像素值表示在网格图像特征中对应的像素点为目标的置信度，因此，分类结果图中像素值在0到1之间。

本申请实施例可以对多个尺度图像特征划分多粒度的网格图像特征后，对每一网格图像特征进行分类计算，使得本申请的目标检测方法可以适应不同尺度和形状的目标。在检测物体表面缺陷的场景中，可以检测出多样化的缺陷。

在一实施例中，服务端可以将多个尺度的图像特征作为语义分割网络的输入，通过语义分割网络对多个尺度的图像特征进行融合。在对多个尺度的图像特征进行融合时，可以通过上采样或双线性插值等方式增大图像特征的尺度，或者，通过池化或下采样等方式缩小图像特征的尺度，从而统一图像特征的尺度，并可以在通道方向上叠加统一尺度后的多个图像特征，并对叠加形成的图像特征进行卷积计算，最终获得融合后的特征图。

服务端可以通过语义分割网络对融合后的特征图进行计算，获得语义分割图。其中，该语义分割图可以与特征提取网络输出的最大尺度图像特征具有相同尺度，语义分割图中每一像素点表示在最大尺度图像特征中对应的像素点为目标的置信度，因此，语义分割图中像素值在0到1之间。

步骤330：融合所述分类结果图和语义分割图，获得目标置信度得分图；其中，所述目标置信度得分图中每一像素点的像素值，表示该像素点在所述待检测图像中对应的像素点属于目标的置信度。

在获得与每一网格图像特征对应的分类结果图，以及，与最大尺度图像特征对应的语义分割图之后，服务端可以融合所有分类结果图和语义分割图，从而获得目标置信度得分图。其中，该目标置信度得分图与语义分割图的尺度相同。

在一实施例中，若多尺度提取网络输出的最大尺度的图像特征与待检测图像的尺度相同，则目标置信度得分图中每一像素点对应于待检测图像中同一位置的像素点，目标置信度得分图中每一像素点的像素值表示在待检测图像中对应的像素点属于目标的置信度，因此，目标置信度得分图中像素值在0到1之间。

在一实施例中，若最大尺度的图像特征的宽度为待检测图像的宽度的一半、最大尺度的图像特征的高度为待检测图像的高度的一半，则目标置信度得分图的尺度为待检测图像的四分之一。此时，可通过上采样或双线性插值等方式放大目标置信度得分图，使得目标置信度得分图与待检测图像的尺度相同，放大后的目标置信度得分图中每一像素点表示在待检测图像中对应的像素点属于目标的置信度，因此，目标置信度得分图中像素值在0到1之间。

步骤340：筛选所述目标置信度得分图中像素值大于预设第一阈值的像素点，获得检测结果图。

其中，第一阈值可以是经验值，用于区分属于待检测图像上属于目标的像素点。在一实施例中，第一阈值可以是0.5。

检测结果图用于指示待检测图像上目标所处的区域。

服务端筛选出目标置信度得分图中像素点大于第一阈值的像素点，并将其余像素点的像素值更改为0，获得与目标置信度得分图相同尺寸的检测结果图。

步骤350：基于所述检测结果图确定目标在所述待检测图像中的位置信息。

在一实施例中，若检测结果图与待检测图像的尺度相同，则可基于检测结果图中像素值大于0的像素点表示在待检测图像中对应的像素点属于目标，从而确定目标的位置信息。

在一实施例中，若检测结果图与待检测图像的尺度不同，则可以通过上采样的方式将检测结果图放大至与待检测图像的尺度相同。放大后的检测结果图中像素值大于0的像素点表示在待检测图像中对应的像素点属于目标，服务端可以基于检测结果图中像素值大于0的像素点确定目标的位置信息。

服务端确定目标在待检测图像中的位置信息后，还可以计算检测结果图中，像素值大于0的像素点的平均像素值，并将该平均像素值作为该位置信息的置信度。

服务端可以基于目标在待检测图像中的位置信息，确定目标在待检测图像中的目标尺寸。

在一实施例中，目标检测方法的应用场景中，目标尺寸处于一定的尺寸范围。此时，服务端检测出目标后，还可基于目标尺寸进行筛选。

服务端可以从检测结果图中获取目标在待检测图像中的候选位置信息。其中，候选位置信息是未经尺寸限制条件筛选的位置信息，尺寸限制条件限定目标尺寸在预设尺寸范围内。

服务端可以判断上述候选位置信息对应的目标尺寸，是否处于预设尺寸范围内。若否，则可以排除该候选位置信息。若是，则可以确定该候选位置信息为目标的位置信息。

服务端可以从待检测图像中检测出多个候选位置信息，通过该实施例的进一步筛选，可以获得更准确的目标的位置信息。

为更详细地说明步骤330的融合过程，参见图5，为本申请一实施例提供的融合分类结果图和语义分割图的方法的流程示意图，如图5所示，该方法包括步骤331-步骤333。

步骤331：将每一尺度图像特征对应的多个粒度的多组分类结果图进行融合，获得与每一尺度图像特征对应的多粒度融合分类结果图。

其中，多粒度融合分类结果图为一个图像特征对应的多组分类结果图的融合结果，与图像特征具有相同尺度。多粒度融合分类结果图中每一像素点的像素值，用以表示该图像特征中对应的像素点为目标的置信度，因此，多粒度融合分类结果图中像素值在0到1之间。

对于任一尺度的图像特征中每一像素点，服务端可以依照预设权重，将与该像素点对应的多组分类结果图中各像素点的像素值进行加权平均，从而获得多粒度融合分类结果图中与该像素点对应的像素点的像素值。其中，与各组分类结果图对应的权重可以相同，或者，与各组分类结果图对应的权重随组内分类结果图的数量的增大而增大。在一实施例中，若图像特征被划分出的3组网格图像特征的数量分别为64、16、4，相对应的，各组分类结果图的数量分别为64、16、4，则与各组对应的权重可以是1.8、1.5、1。

对于任一尺度的图像特征，服务端计算出与该图像特征的所有像素点对应的多粒度融合分类结果图中像素点的像素值后，获得该图像特征对应的多粒度融合分类结果图。

步骤332：将对应于每一尺度图像特征的多粒度融合分类结果图进行融合，获得多尺度多粒度融合分类结果图。

其中，多尺度多粒度融合分类结果图为所有图像特征的多粒度融合分类结果图的融合结果，与最大尺度的图像特征具有相同尺度，多尺度多粒度融合分类结果图中每一像素点的像素值，用以表示最大尺度的图像特征中对应的像素点为目标的置信度，因此，多尺度多粒度融合分类结果图中像素值在0到1之间。

由于不同尺度图像特征的多粒度融合分类结果图的尺度不同，服务端在融合多个多粒度融合分类结果图时，可以通过上采样的方式放大尺度较小的多粒度融合分类结果图，使得尺度较小的多粒度融合分类结果图与最大尺度的多粒度融合分类结果图的尺度相同。

此时，各多粒度融合分类结果图都与最大尺度的图像特征的尺度相同，各多粒度融合分类结果图中像素点对应于该图像特征中的像素点。

针对最大尺度的图像特征的每一像素点，服务端可以依照预设权重，将与该像素点对应的多个多粒度融合分类结果图中像素点的像素值进行加权平均，从而获得多尺度多粒度融合分类结果图中与该像素点对应的像素点的像素值。其中，与各多粒度融合分类结果图对应的权重可以相同，或者，在放大之前多粒度融合分类结果图越小，则其对应的权重越大。

对于最大尺度的图像特征，服务端计算出与该图像特征的所有的像素点对应的多尺度多粒度融合分类结果图中像素点的像素值后，获得多尺度多粒度融合分类结果图。

步骤333：融合所述多尺度多粒度融合分类结果图和所述语义分割图，获得所述目标置信度得分图。

多尺度多粒度融合分类结果图与最大尺度的图像特征的尺度相同，语义分割图与最大尺度的图像特征的尺度相同，因此，多尺度多粒度融合分类结果图与语义分割图的尺度相同。

对多尺度多粒度融合分类结果图中像素点和语义分割图中的相同位置的像素点，服务端可以依照预设权重对两个像素点的像素值进行加权平均，从而获得目标置信度得分图中相同位置的像素点的像素值。对多尺度多粒度融合分类结果图中每一像素值与语义分割图中对应的每一像素值加权平均后，可以获得目标置信度得分图。

在执行步骤310之前，需对本申请涉及的网络模型进行训练，参见图6，为本申请一实施例提供的网络模型的结构示意图。

如图6所示，本申请涉及的网络模型包括特征提取网络、语义分割网络和网格化分类网络。其中，语义分割网络和网格化分类网络构成分类网络。

特征提取网络包括骨干网络和多尺度提取网络，骨干网络可以包括若干卷积层和池化层，多尺度提取网络可以包括多个卷积层。特征提取网络可从待检测图像中提取出多个尺度的图像特征，并分别输入至语义分割网络和网格化分类网络。

语义分割网络包括特征融合网络和像素级回归网络，特征融合网络可以包括卷积层、上采用层和池化层，像素级回归网络可以包括卷积层和上采样层。语义分割网络可将特征提取网络输入的多个尺度的图像特征进行融合，并对融合后的特征图进行语义分割，获得语义分割图。

网格化分类网络可以对每一尺度的图像特征进行多粒度划分后，获得多组网格图像特征，并分别对每一网格图像特征进行分类计算，获得对应的分类结果图。

参见图7，为本申请一实施例提供的网络模型的训练方法的流程示意图，如图7所示，该方法包括步骤301-步骤307。

步骤301：获取所述样本图像和对应于所述样本图像的弱标注信息；其中，所述弱标注信息指示所述样本图像中目标所在位置。

样本图像与待检测图像的尺度相同，且样本图像中存在与待检测图像中同类型的目标。在一实施例中，目标检测方法应用于检测汽车零部件表面的缺陷，则样本图像为汽车零部件表面的照片，样本图像中的目标为汽车零部件表面的缺陷。后续用于目标检测的待检测图像同样为汽车零部件表面的照片，且待检测图像中可能存在汽车零部件表面的缺陷。

在一实施例中，弱标注信息可以是与样本图像相同尺度的掩膜。掩膜中像素值为1的像素点表示在样本图像中对应的像素点属于目标，像素值为0的像素点表示在样本图像中对应的像素点不属于目标。掩膜标注的目标可以是矩形、椭圆形、不规则图形等。

在一实施例中，掩膜标注的目标所在区域与样本图像中实际的目标所在区域可以存在一定的偏差，换而言之，掩膜标注的目标边缘与样本图像中实际的目标边缘不必完全重合。在这种情况下，可以降低添加弱标注信息的难度，从而降低人工成本。

在一实施例中，样本图像中的目标可能不够突出，或者，样本图像可能不清楚，因此，服务端可以响应于针对样本图像的数据增强指令，采用对比度调整、噪声添加等手段对样本图像进行数据增强处理。处理得到的样本图像用于后续的模型训练过程。

步骤302：对所述弱标注信息进行距离变换和归一化处理，获得对应于所述样本图像的软标签图像。

其中，软标签图像与待检测图像的尺度相同，软标签图像中每一像素点的像素值表示该像素点在待检测图像中对应的像素点属于目标的置信度，因此，软标签图像中像素值在0到1之间。

服务端可以通过距离变换算法，计算弱标注信息中每一像素点到离该像素点最近的目标中心像素点的距离。这里，目标中心像素点指弱标注信息中，与样本图像中目标所在区域中心位置像素点对应的像素点。

距离变换结果为与弱标注信息同尺度的图像，图像中像素点的像素值为该像素点与最接近的目标中心像素点的距离。

服务端可以对距离变换结果进行归一化处理，使得归一化后的距离变换结果中每一像素点的像素值在0到1之间。此时，距离变换结果中像素点与目标中心像素点越接近，则像素点的像素值越小。

服务端可以用数字1减去归一化后距离变换结果的每一像素点的像素值，获得新的像素值，从而将距离变换结果转换为软标签图像。比如：归一化后距离变换结果中第3行第4列的像素点的像素值为0.8，则软标签图像中第3行第4列的像素点的像素值为0.2。将数字1减去距离变换结果中的所有像素值后，获得软标签图像。

软标签图像中的像素点与目标所处区域中心位置像素点越接近，则该像素点的像素值越大，软标签图像中目标中心像素点的像素值为1。而像素点越靠近目标所处区域的边缘，对应的像素值越接近0。目标以外的区域的像素点为0。

上述软标签图像可使训练出的网络模型的泛化能力更强，提升识别边缘模糊的目标的能力。

步骤303：依据所述多个尺度图像特征的尺度、所述多种粒度和所述软标签图像，生成多个尺度多个粒度的多组网格标签图。

其中，网格标签图是网格图像特征对应的标签，网格标签图中像素点的像素值表示在网格图像特征中对应的像素点属于目标的置信度，因此，网格标签图中像素点的像素值在0到1之间。由于网格标签图表示网格图像特征在整体上是否属于目标，网格标签图中像素点的像素值全为1或全为0。

服务端可以基于多种粒度将样本图像划分为多组网格样本图像。这里的多种粒度与前述服务端划分出网格图像特征的多种粒度相同。在一实施例中，在网格化分类网络依据网格划分参数8和粒度参数3，将图像特征划分为3组数量分别为64、16、4的网格图像特征，则可以通过网格划分参数8和粒度参数3划分样本图像，获得3组数量分别64、16、4的网格样本图像。

针对每一网格样本图像，服务端可以基于网格样本图像中像素点在软标签图像对应的像素点的像素值，确定网格样本图像属于目标的网格置信度。其中，网格置信度表示网格样本图像在整体上属于目标的置信度。

针对每一网格样本图像，服务端可以获取该网格样本图像中像素点在软标签图像对应的像素点的像素值，并计算出平均像素值，将该平均像素值作为该网格样本图像对应的网格置信度。服务端可以根据网格置信度为网格样本图像生成网格标签图。

在一实施例中，如果网格样本图像的网格置信度大于0.5，服务端生成的网格标签图中像素点的像素值均为1；如果网格样本图像的网格置信度不大于0.5，服务端生成的网格标签图中像素点的像素值均为0。

在获得多组网格标签图之后，服务端可以根据多个尺度的图像特征的尺度，缩放处理多个粒度的多组网格标签图，获得与每一尺度的图像特征相同尺度的多个粒度的多组网格标签图。

由于样本图像的尺度不小于特征提取网络输出的各个图像特征的尺度，因此，服务端可以依据每一尺度的图像特征划分出的网格图像特征的尺度，通过下采样或池化等方式缩小与网格样本图像对应的网格标签图，从而得到与每一尺度的图像特征相同尺度的多个粒度的多组网格标签图。

在一实施例中，网格划分参数为8和粒度参数为3，每一尺度的图像特征都会被划分为3组数量分别为64、16、4的网格图像特征；样本图像也会被划分为3组数量分别64、16、4的网格样本图像。在获得第一组数量为64的网格样本图像对应的64个网格标签图后，对于任一尺度的图像特征，服务端可以依据样本图像与该图像特征的尺度比值，缩小网格标签图，从而获得与第一组数量为64的网格图像特征对应的64个网格标签图。同理，服务端可以缩小第二组数量为16的网格标签图和第三组数量为4的网格标签图。

步骤304：将样本图像输入至所述特征提取网络，获得所述特征提取网络输出的多个尺度的图像特征；其中，所述样本图像携带软标签图像和多个尺度多个粒度的多组网格标签图。

步骤305：将所述多个尺度的图像特征输入所述分类网络，获得所述分类网络中网格化分类网络输出的多个尺度多个粒度的多组分类结果图，以及，所述分类网络中语义分割网络输出的语义分割图。

服务端通过特征提取网络从样本图像中提取出多个尺度的图像特征，并将多个尺度的图像特征分别输入至网格化分类网络和语义分割网络。

针对每一尺度的图像特征，服务端可以通过网格化分类网络对该图像特征依据多种粒度进行划分，得到多组网格图像特征，并针对每一网格图像特征进行分类计算，获得对应于网格图像特征的分类结果图。

每一尺度每一粒度下每一网格图像特征都有对应的分类结果图，因此，获得多个尺度多个粒度的多组分类结果图。

服务端通过语义分割网络融合多个尺度的图像特征，并对融合后的特征图进行语义分割，获得语义分割图。

步骤306：基于所述软标签图和所述语义分割图之间的差异，以及，多个尺度多个粒度的多组网格标签图与多个尺度多个粒度的多组分类结果图之间的差异，调整所述特征提取网络和所述分类网络的网络参数。

步骤307：重复上述过程，直至所述特征提取网络和所述分类网络收敛。

服务端可以通过计算软标签图和语义分割图之间的距离，来确定两者的差异。这里的距离可以是欧式距离、曼哈顿距离、海明距离等常规距离中的一种。

对于网格标签图和分类结果图，服务端也可以通过计算两者的距离来确定差异。在计算多个尺度多个粒度的多组网格标签图与多个尺度多个粒度的多组分类结果图之间的距离时，服务端可以分别对与每一网格图像特征对应的分类结果图和网格标签图进行计算，从而获得多个距离。

服务端可以依据预配置的损失函数，对网格标签图与分类结果图之间的差异，以及，软标签图与语义分割图之间的差异进行计算，获得函数值。其中，损失函数的函数值随网格标签图与分类结果图之间的差异的减小而减小，随软标签图与语义分割图之间的差异的减小而减小。

服务端可以通过反向传播的方式，更新特征提取网络、语义分割网络和网格化分类网络的网络参数。更新网络参数的方法包括但不限于SGD(Stochastic GradientDescent，随机梯度下降法)、RMSProp(Root MeanSquare Prop，均方根支柱)、Adam(Adaptive Moment Estimation，自适应动量优化)、Nesterov Accelerated Gradient等方法或它们的组合。

服务端调整网络参数后，根据调整参数的特征提取网络、语义分割网络和网格化分类网络重新对样本图像进行计算，并重新获得损失函数的函数值，根据函数值的变化继续调整网络参数。

经过多次迭代训练，服务端可以在达到终止条件时结束训练流程。

在一实施例中，服务端可以在达到预设更新网络参数的次数后，结束训练流程。

在一实施例中，服务端可以在函数值小于预设第二阈值时，结束训练流程。其中，第二阈值可以是经验值，当损失函数的函数值小于该第二阈值时，说明网络模型收敛。

图8是本发明一实施例提供的目标检测装置的框图，如图8所示，该装置包括：提取模块810、分类模块820、融合模块830、筛选模块840和确定模块850。

提取模块810，用于将待检测图像作为特征提取网络的输入，获得所述特征提取网络输出的多个尺度的图像特征。

分类模块820，用于将多个尺度的图像特征作为分类网络的输入，获得所述分类网络输出的分类结果图和语义分割图。

融合模块830，用于融合所述分类结果图和语义分割图，获得目标置信度得分图；其中，所述目标置信度得分图中每一像素点的像素值，表示该像素点在所述待检测图像中对应的像素点属于目标的置信度。

筛选模块840，用于筛选所述目标置信度得分图中像素值大于预设第一阈值的像素点，获得检测结果图。

确定模块850，用于基于所述检测结果图确定目标在所述待检测图像中的位置信息。

在一实施例中，所述分类网络包括网格化分类网络和语义分割网络；分类模块820，进一步用于：

在一实施例中，该装置包括训练模块，用于：

在一实施例中，上述训练模块，进一步用于：

基于所述网格置信度为所述网格样本图像生成网格标签图；

在一实施例中，融合模块830，进一步用于：

在一实施例中，确定模块850，进一步用于：

上述装置中各个模块的功能和作用的实现过程具体详见上述目标检测方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述分类网络包括网格化分类网络和语义分割网络；

3.根据权利要求2所述的方法，其特征在于，所述特征提取网络和所述分类网络通过如下方式训练得到：

4.根据权利要求3所述的方法，其特征在于，在将所述样本图像输入至所述特征提取网络之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述依据所述多个尺度图像特征的尺度、所述多种粒度和所述软标签图像，生成多个尺度多个粒度的多组网格标签图，包括：

基于所述网格置信度为所述网格样本图像生成网格标签图；

6.根据权利要求1所述的方法，其特征在于，所述融合所述分类结果图和语义分割图，获得目标置信度得分图，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述检测结果图确定目标在所述待检测图像中的位置信息，包括：

8.一种目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的目标检测方法。