CN114937086A

CN114937086A - 多图像目标检测的训练方法、检测方法及相关产品

Info

Publication number: CN114937086A
Application number: CN202210847260.7A
Authority: CN
Inventors: 史晓宇; 和超; 张大磊
Original assignee: Beijing Airdoc Technology Co Ltd
Current assignee: Beijing Airdoc Technology Co Ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-08-23
Anticipated expiration: 2042-07-19
Also published as: CN114937086B

Abstract

本申请公开了一种目标检测模型的训练方法、多图像中检测固定位置目标的方法及相关产品。目标检测模型用于对多个图像中固定位置目标进行检测，所述训练方法包括：在训练过程的每次迭代中，接收多个训练图像作为所述目标检测模型的输入；利用所述目标检测模型从所述多个训练图像中提取特征图并输出响应点；在标签分配中，联合所述多个训练图像中固定位置目标的先验信息为所述响应点赋予标签；以及基于赋予的所述标签，计算损失函数。本申请的目标检测模型在训练时以多图像为输入，使得模型能够学习多个图像之间的一致性关系，从而提高检测性能。

Description

多图像目标检测的训练方法、检测方法及相关产品

技术领域

本申请一般地涉及目标检测领域。更具体地，本申请涉及目标检测模型的训练方法、多图像中检测固定位置目标的方法、计算装置和计算机可读存储介质。

背景技术

在工作生活中，经常需要使用图像采集设备采集序列图像、视频或连续多张图像。在此过程中，可能会出现镜头出现污损，光学仪器内部侵入污渍等问题，从而导致成像图像中在某一位置出现固定的脏污干扰。或者在监控场景中，需要判别在一定时间内，某个位置是否出现了遗留物或出现了危险物品等。这些不同场景下的问题本质上都属于同一类问题，称为“多图像中固定位置目标检测”。

利用多图像检测其中的固定位置目标具有很高的实用意义。例如，在医学图像采集过程中，尤其是使用便携式设备采集图像过程中，很容易出现镜头的污损。这种污损可以是镜头表面附着了灰尘、颗粒等物质，从而在成像中形成了某种阴影目标。也可以是操作员误触镜头带来的指纹、油渍等，从而在成像中形成了反光。又或者是仪器制造不够精密，在使用一定时间后，仪器内部进入了灰尘，使得成像光路受到干扰，形成了暗影目标。这些伪影和干扰，在不同的医学场景下，对医疗人员的诊断以及智能设备的识别都形成了不同程度的干扰。有效地通过检测的方式来确定图像中某些疑似伪影的目标是否为真的污损，有着很强的实际意义。

现有的检测方法大多针对单图像输入，在这种使用单图像检测实现多图中固定位置目标的检测方案中，由于训练时检测网络的输入为单图像输入，因此只能通过后处理来确定固定位置目标。这种单图像输入附加后处理的方法受限于单个检测网络的性能以及后处理的超参数设计。当固定位置目标特征非常明显且和其他目标的类间差距很大时，目标检测技术可以轻易地检测得到目标，后处理部分也不会面临复杂的相似目标密集检测或相似目标遮挡等问题。然而，在医疗图像场景中，尤其是眼底照相图像识别疾病的场景中，很容易出现和固定位置目标相似的普通目标，从而使得依赖单图像检测的方式需要非常高的检测精度才能够完成对固定位置目标的定位。

例如，在眼底图像中，深层的出血和杂质的伪影很相似，使得单图像检测很容易造成误检。对于通过两张图像A和B来判断固定位置目标的情形，可能会出现A漏检-B预测固定位置目标，A错检出血为杂质-B没有错检，A预测杂质-B预测出血等多种情况。这些问题是单图像检测本身的问题，而在其附加的后处理中，由于已经脱离了图像特征本身，是无法判断上述几个例子到底应该如何决策的。

因此亟需一种多图像中检测固定位置目标的方案，其能够提高检测精度。进一步地，也期望这种检测方案能够区分固定位置目标和普通目标。

发明内容

为了至少部分地解决背景技术中提到的一个或多个技术问题，本申请的方案提供了一种目标检测模型的训练方法、多图像中检测固定位置目标的方法、计算装置和计算机可读存储介质。

在第一方面中，本申请公开一种目标检测模型的训练方法，所述目标检测模型用于对多个图像中固定位置目标进行检测，其特征在于，所述训练方法包括：在训练过程的每次迭代中，接收多个训练图像作为所述目标检测模型的输入；利用所述目标检测模型从所述多个训练图像中提取特征图并输出响应点；在标签分配中，联合所述多个训练图像中固定位置目标的先验信息为所述响应点赋予标签；以及基于赋予的所述标签，计算损失函数。

在一些实施例中，联合所述多个训练图像中固定位置目标的先验信息为所述响应点赋予标签包括：对于特征图上的每个响应点，根据所述多个训练图像中的固定位置目标类别的标注真值与所述响应点的映射关系，为所述响应点确定分类标签；以及根据所述响应点所映射到的与确定的所述分类标签对应的所有标注真值，确定所述响应点的目标回归位置。

在一些实施例中，根据所述多个训练图像中的固定位置目标类别的标注真值与所述响应点的映射关系，为所述响应点确定分类标签包括：根据所述目标检测模型的检测算法中标注真值的表达方式，使用对应的方式计算所述响应点与所述多个训练图像中的固定位置目标类别的标注真值之间的多个映射关系；以及响应于所述多个映射关系满足预定条件，将所述响应点赋予固定位置目标类别标签。

在一些实施例中，根据所述响应点所映射到的与确定的所述分类标签对应的所有标注真值，确定所述响应点的目标回归位置包括：将所述响应点的目标回归位置设置为所述响应点映射到的所有固定位置目标类别的标注真值的函数。

在一些实施例中，当所述训练图像中还包括非固定位置目标时，所述目标检测模型的头部网络中还包括图层分支，用于指示所预测的固定位置目标所在图像的图层信息，并且在所述标签分配中，还包括：根据为所述响应点分配的分类标签和所述多个训练图像中图层信息的先验信息，为所述响应点赋予图层信息。

在一些实施例中，所述头部网络中还包括分类分支和回归分支，并且所述分类分支采用单个目标多分类识别方式，所述回归分支采用单个位置多目标同时回归，并且每个目标独立地进行回归。

在一些实施例中，响应于所述多个映射关系满足预定条件，将所述响应点赋予固定位置目标类别标签包括：根据所述映射关系确定所述响应点所映射到的所有标注真值，其中所述标注真值包括固定位置目标的标注真值和非固定位置目标的标注真值；以及响应于所映射到的固定位置目标的标注真值个数与所映射到的所有标注真值之间的比例超过预定阈值，将所述响应点赋予固定位置目标类别标签。

在一些实施例中，所述损失函数包括分类损失函数、回归损失函数和图层损失函数的叠加。

在一些实施例中，所述计算损失函数还包括：根据所述比例，对所述损失函数整体进行加权调整。

在第二方面中，本申请公开一种多图像中检测固定位置目标的方法，其特征在于，所述方法包括：目标检测模型接收多个输入图像，其中所述目标检测模型已按照权利要求1-9任一所述的训练方法进行训练；以及所述目标检测模型对所述多个输入图像进行检测并输出预测结果，所述预测结果至少包括所预测目标为固定位置目标的类别输出和位置输出。

在一些实施例中，所述目标检测模型的头部网络中还包括图层分支，并且所述预测结果还包括指示所预测目标所在图像的图层输出，所述方法还包括：根据所述类别输出和所述图层输出，识别所述多个图像中的固定位置目标及其所在的图层。

在一些实施例中，所述方法还包括：在图像层面对所述预测结果进行非极大值抑制处理。

在第三方面中，本申请提供一种计算装置，包括：处理器，其配置用于执行程序指令；以及存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述处理器执行根据本申请第一方面任一实施例的目标检测模型的训练方法或根据本申请第二方面任一实施例的多图像中检测固定位置目标的方法。

在第四方面中，本申请提供一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据本申请第一方面任一实施例的目标检测模型的训练方法或根据本申请第二方面任一实施例的多图像中检测固定位置目标的方法。

通过如上所提供的目标检测模型的训练方案，可以在检测网络的训练中实现固定位置目标的判断，使得判断多个图像中固定位置目标不再仅仅依赖于预测得到的坐标，而是在检测网络中学习多个图像之间的一致性关系。这种训练方式使得检测网络可以通过多图像输入直接检测固定位置目标，避免了现有的单图像检测固定位置目标时的多余的后处理环节，以及单图像检测中可能的背景目标、密集目标干扰问题。进一步地，在一些实施例中，通过加入图层信息，使得在训练和预测中，可以同时进行固定位置目标和普通的非固定位置目标的预测。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，并且相同或对应的标号表示相同或对应的部分其中：

图1示出现有的单图像检测实现多图中固定位置目标的检测方案的示例性流程图；

图2示出了根据本申请实施例的多图像检测实现多图中固定位置目标的检测方案的示例性系统框架；

图3示出了根据本申请实施例的目标检测模型的训练方法的示例性流程图；

图4示出了根据本申请实施例的标签分配示例；

图5示出了根据本申请实施例的多图中固定位置目标的检测方法的示例性流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如背景技术中所提到的，现有的检测方法大部分针对单图像输入。

图1示出现有的单图像检测实现多图中固定位置目标的检测方案的示例性流程图。

如图所示，整个检测流程包括：检测网络110分别对输入图像A 101和B 102进行检测，输出各个图像的候选边界框（Bbox，Bounding box）103和104。接着，利用非极大值抑制（NMS，Non-Maximum Suppression）120，分别对各个图像的候选边界框进行处理，去掉一些冗余框，得到各个图像的输出结果105和106。最后，利用基于位置的后处理130，根据输出结果105和106中预测得到的坐标，确定两个图像中的固定位置目标。

从上述流程可以看出，由于检测模型训练时的输入为单图像输入，因此在实际推理过程中，需要对单个图像分别进行预测得到图像A的候选边界框Bboxes_A以及图像B的Bboxes_B，再通过后处理来确定固定位置目标。进一步地，还可以看出，后处理部分仅仅依赖于预测得到的坐标进行固定位置目标的判断，已经脱离了图像特征本身，因此在面临复杂的相似目标密集或相似目标遮挡等问题中，无法做出决策，而只能提高网络的检测精度。

有鉴于此，本申请第一方面提出一种目标检测模型的训练方法，其在训练阶段即使用多图像输入对检测网络进行训练，使得检测网络能够学习多个图像之间的一致性关系，而无需后面附加后处理来进行固定位置目标的检测。具体地，在训练阶段的标签分配（label assignment）过程中，联合多个训练图像中关于固定位置目标的先验信息来进行标签分配，从而将现有的后处理的位置映射转入到训练端的标签分配中，以供检测网络进行学习。本申请第二方面还提供了一种多图像中检测固定位置目标的方法，其使用按照本申请第一方面提供的训练方法训练的目标检测模型对多个输入图像进行检测以输出预测结果。

图2示出了根据本申请实施例的多图像检测实现多图中固定位置目标的检测方案的示例性系统框架。

如图所示，整个检测系统中的目标检测网络部分200包括骨干（backbone）网络210、颈部（neck）网络220和头部（head）网络230。

骨干网络210用于从图像中提取特征。骨干网络例如可以是各种卷积神经网络，包括但不限于ResNet、AlexNet、VGG等。图中示出了具有4个stage（级）的网络结构，在该网络结构中，每一级在同样大小的特征图上执行若干次卷积后进行一次池化操作。图中示出了每一级的最后一个卷积层，因为每一级的最后一层特征图的语义信息最多。图中将最上面3个stage的最后一层特征图传递给颈部网络220。

颈部网络220可以进行不同尺度的特征融合。颈部网络例如可以包括特征金字塔网络。特征金字塔具有在不同尺度下有不同分辨率的特点，不同大小的目标都可以在相应的尺度下拥有合适的特征表示。通过融合多尺度信息，在不同尺度下对不同大小的目标进行预测，从而很好地提升模型性能。在特征金字塔各级的最后一层进行预测，得到预测的类别子网和边界框子网。

头部网络230可以包括多个分支，用于实现不同任务。

在一些实施例中，目标检测模型可以仅检测固定位置目标，此时头部网络可以包括分类分支和回归分支。分类分支用于接收颈部网络220预测出的类别子网，进行目标识别。回归分支用于接收颈部网络220预测出的边界框子网，实现目标定位。

在另一些实施例中，目标检测模型可以同时检测固定位置目标和普通的非固定位置目标，此时除了分类分支和回归分支之外，头部网络还可以包括图层分支，用于描述所预测的固定位置目标所在的图层信息。图层信息可以用来辅助区分多图像中的固定位置目标和普通的非固定位置目标，从而使得网络能够同时检测固定位置目标和非固定位置目标。图层分支可以采用二分类方式来预测每个维度是否有当前所预测的固定位置目标。

由于同一位置可能同时存在固定位置目标和普通非固定位置目标，因此分类分支需要调整为单个目标多分类识别，而回归分支则需要调整为单个位置多目标同时回归，每个目标独立地进行回归。

需要注意的是，图层分支并不是必须的，如果仅使用2张图像，或者默认知道固定位置目标肯定出现在所有的参与训练和预测的图像上，则可以省略图层分支。

在网络的训练阶段，网络的输出（也即头部网络的输出）通常包括多个预测框、相应的预测类别及置信度等信息。标签分配（label assignment）240可以根据训练图像中预先标注的标注真值（ground truth）250，为网络的预测输出进行标签分配，从而提供网络正负样本让网络进行学习，使网络对相应的输入能够输出正确期望的目标（例如类别、目标位置等）。

在本申请实施例中，在标签分配中，联合多个训练图像中固定位置目标的先验信息进行标签分配，由此使得网络能够学习多个图像之间的一致性关系。

在网络的推理阶段，经过训练的网络可以直接输出对固定位置目标的预测结果，而无需附加后处理来进行固定位置目标的检测。在一些实施例中，还可以附加NMS处理260，以去除一些冗余框。

下面结合流程图来详细描述本申请实施例的方案。

图3示出了根据本申请实施例的目标检测模型的训练方法的示例性流程图。该目标检测模型至少可以用于对多个图像中固定位置目标进行检测。

如图所示，在步骤310中，在训练过程的每次迭代中，接收多个训练图像作为目标检测模型的输入。区别于单图像检测方案中每次迭代中只输入单个图像给模型，在本申请实施例中，在训练过程的每次迭代中，同时提供多个训练图像作为目标检测模型的输入，从而使得网络模型在训练过程中能够学习多个训练图像之间的一致性关系。

在神经网络进行训练的过程中，神经网络每经过一次信号的正向处理的前向传播过程以及对应一次误差的反向传播过程，神经网络中的权值利用梯度进行一次更新，此时称为一次迭代（iteration）。

考虑到目标检测模型在实际推理过程中，需要从多个图像中检测出固定位置目标，因此，在训练的每次迭代中，可以提供与实际推理过程中所需要的图像数量相同的训练图像数量。例如，每次可以使用2张图像、3张图像或其他数量的图像。

接着，在步骤320中，利用目标检测模型从输入的多个训练图像中提取特征图并输出响应点。

目标检测模型可以基于现有的或未来开发的各种目标检测器来实现，这些目标检测器包括但不限于，R-CNN系列、YOLO系列、SSD检测器等。目标检测算法一般可以分为anchor-based、anchor-free、两者融合类，区别在于有没有利用anchor提取候选目标框。Anchor（锚），也称为anchor box（锚框），是在训练之前，在训练集上利用k-means等方法聚类出来的一组矩形框，代表数据集中目标主要分布的长宽尺度。例如，anchor-based类算法代表是Faster R-CNN、SSD、YOLO V2/V3等；anchor-free类算法代表是CornerNet、ExtremeNet、CenterNet、FCOS等；两者融合类算法代表是FSAF、SFace、GA-RPN等。本申请实施例在具体目标检测模型和算法上没有限制。

本文中提到的“响应点”是指特征图上的特定点的特征值。基于所使用的目标检测模型，可能存在多个不同尺度的特征图，例如前面图2所图示的特征金字塔各级的最后一层输出的特征图。这些输出特征图上的特定点的特征值都可以称为响应点，但是会对应原始输入图像上不同尺度的像素区域。响应点所对应的原始输入图像上的像素区域称为该响应点的感兴趣区域（Region of Interest，ROI）。

接着，在步骤330中，在标签分配中，联合多个训练图像中固定位置目标的先验信息为目标检测模型输出的响应点赋予标签。

标签分配（label assignment）是目标检测网络训练的核心问题之一，主要是指检测算法在训练阶段，如何给特征图上的每个响应点进行合适的学习目标的表示，以及如何进行正负样本的分配。在本申请实施例中，在训练过程中利用多个训练图像的固定位置目标的先验信息来共同判断对网络特征图的响应点应当给予什么样的标注真值信息。在标签分配中直接指定哪些响应点应当赋予固定位置目标标签，从而使得网络可以通过多图像输入直接检测固定目标位置，避免了单图像检测固定目标时的多余的后处理环节。

在一些实施例中，例如目标检测模型仅检测固定位置目标，此时标签分配可以包括两方面的内容：分类标签的设定，和目标回归位置的选取。

在设定分类标签时，对于特征图上的每个响应点，可以根据输入的多个训练图像中的固定位置目标类别的标注真值（ground truth）与响应点的映射关系，为响应点确定分类标签。取决于所使用的目标检测算法，标注真值可以有不同形式，相应的映射方式和标签确定方式也有不同。

在一些实施例中，根据目标检测模型的检测算法中标注真值的表达方式，使用对应的方式计算响应点与该多个训练图像中的固定位置目标类别的标注真值之间的多个映射关系；以及响应于多个映射关系满足预定条件，将该响应点赋予固定位置目标类别标签。

对于anchor-based类的检测算法，通常采用边界框Bbox（x,y,w,h）的方式来表示图像中的一个目标。通常，在构建锚框时，需要若干个特定尺度（scale）和长宽比（aspectratio），然后在特征图上以一定的步长滑动生成。在anchor-based类的检测中，其标注真值就是锚框，将锚框作为分类和框回归的基准框。

对于anchor-based类的检测算法，在进行标签分配时，可以采用交并比IoU的方法来计算映射关系，从而确定标签。顾名思义，IoU就是用两个框A和B的交集除以A和B的并集。在一个示例中，可以计算响应点对应的ROI和人工设计的ROI（也即anchor）同多个标注真值之间的交并比（IoU），来确定当前响应点是否应给予某个类别的标签。例如，对于固定位置目标，计算每个图像中对应标注真值和特征图响应点上的anchor ROI的IoU，满足设定阈值后（例如所有图像均满足超过设定阈值的条件），则此特征图响应点被给予该固定位置目标的标签。

对于anchor-free类的检测算法，通常采用目标上的点来表示图像中的一个目标。例如在anchor point类检测器中，采用目标中心点以及边框距中心点的距离或目标宽高或高斯热图来表示图像中的目标。又例如在key point类检测器中，采用图像中目标的边界点（如角点），再将边界点组合成目标的框来表示图像中的目标。在anchor-free类的检测中，其标注真值就是这些点，在点的基础上做分类和回归。

对于anchor-free类的检测算法，在进行标签分配时，可以根据特征图对应的图像映射点与标注真值之间的位置关系来计算映射关系，从而确定标签。在一个示例中，可以计算特征图对应的图像映射点是否落在多个标注真值之间，从而确定当前特征图是否应给予某个类别的标签。例如，以anchor-free框架下使用特征图对应锚中心点和标注真值的位置关系为例，对于固定位置目标，可以计算特征图中心点和每个图像中标注真值的位置关系，如特征图中心点位于某个固定位置目标的多个标注真值内，则给予该特征图该固定位置目标的标签。

在计算特征图响应点和标注真值之间的映射关系的时候，可以同时反向计算每个特征图响应点能够映射到的所有标注真值。

在固定位置目标的目标回归位置选取上，可以根据该响应点所映射到的、与确定的分类标签对应的所有标注真值，来确定该响应点的目标回归位置。例如，可以通过某个函数对多个相应的标注真值进行处理，生成统一的位置标注真值用作训练。该函数处理例如可以是对多个标注真值取平均，或取最小外接矩形等，本申请实施例在此方面没有限制。

在另一些实施例中，例如目标检测模型同时检测固定位置目标和普通的非固定位置目标，此时除了分类标签的设定和目标回归位置的选取之外，标签分配还可以包括分配图层信号。

在这种情况下，分类标签的设定和目标回归位置的选取也可以稍作调整。在一些实现中，当某一响应点处同时存在固定位置目标和非固定位置目标时，可以根据固定位置目标所占所有目标的比例来对标注真值进行加权以用作训练。具体地，可以根据映射关系确定响应点所映射到的所有标注真值，其中标注真值包括固定位置目标的标注真值和非固定位置目标的标注真值；以及响应于所映射到的固定位置目标的标注真值个数与所映射到的所有标注真值之间的比例超过预定阈值，将该响应点赋予固定位置目标类别标签。

如前面所提到的，在计算特征图响应点和标注真值之间的映射关系的时候，可以同时反向计算每个特征图响应点能够映射到的所有标注真值，在此场景下这些标注真值包括固定位置目标和非固定位置目标的标注真值。对不同的情况，可以予以不同权重考虑。例如当仅有1个固定位置目标标签，无任何非固定位置目标标签时，可以放弃该标签。当有m个固定位置目标标签和n个非固定位置目标标签同时映射到一个特征图响应点时，赋予该特征图响应点对应该固定位置目标的标签，同时添加权重r=m/(m+n)。该权重例如可以用来调整置信度。

在固定位置目标的目标回归位置选取上，可以根据该权重r来调整响应点的目标回归位置。例如，在根据映射到的所有固定位置目标类别的标注真值的函数确定目标回归位置时，可以添加此权重。

可以理解，添加权重的操作并不是必须的。即使同一位置同时存在固定位置目标和非固定位置目标，也可以直接按照固定位置目标处理，不做任何加权操作。

增加的图层信号用于指示特征图响应点所赋予的固定位置目标所在的图层标记。在一些实施例中，可以采用01编码的形式来表示图层信号，每个维度对应一张图像。例如，根据训练和预测时输入图像的数量n（n>1），固定位置目标出现在第一、第二张图像中，则图层信号的标注真值标记为11000…。训练中，在网络模型的图层分支（参见图2的示意图）的最后输出n维的n×1向量，采用二分类来预测每个维度是否有当前的特征图响应点的固定位置目标。在标签分配时，则可以根据响应点所分配的分类标签、联合多个训练图像中图层信息的先验信息，为对应的响应点赋予图层信息。

添加图层信号可以监督每个目标是否为固定位置目标，从而确保目的位置目标能够和普通目标同时检测。

继续图3，最后在步骤340中，基于赋予的标签，计算损失函数。

当目标检测模型仅检测固定位置目标时，损失函数包括分类损失函数与回归损失函数的叠加。

当目标检测模型同时检测固定位置目标和普通的非固定位置目标，损失函数包括三个部分：分类损失函数、回归损失函数和图层损失函数，每个损失函数可以有相应的加权系数。可以理解，这些加权系数是加权超参数，根据训练图像集的不同，训练出来的加权系数也可能不同。

在一些实施例中，还可以为整个损失函数添加整体加权系数R，以附加考虑其他因素对损失函数的影响。整体加权系数R例如可以根据前面一些实施例中描述的固定位置目标标签在所有目标标签中的占比r来确定。上述损失函数例如可以表示为：

其中R为整体加权系数，

、

都是加权超参数，对每个特征图响应点计算后，求和得到整体损失函数

。

以上描述了根据本申请实施例的用于在多图像中检测固定位置目标的目标检测模型的训练方法。由于将单图像检测中判断图像固定位置目标的后处理转入到网络训练中完成，因此经过上述训练后的目标检测模型，可以通过多图像输入直接检测固定目标位置，避免了单图像检测固定目标时的多余的后处理环节。

上述方案例如可以应用于便携式眼底照相中，专门检测双眼图像拍摄噪声及杂质。具体地，左右眼图像可以作为双图像输入，镜头杂质和干扰自带对齐特性，在位置上属于固定位置目标。因此，可以按照本文描述的训练方法，训练一个单独的小网络用于专门检测此类杂质，预警设备需要清洁。

进一步地，本申请也提供了能够支持固定位置目标与普通的非固定位置目标一起检测的方案。在固定位置目标与非固定位置目标比较相似，类内距离不大时，也能够有效识别固定位置目标和非固定位置目标。尤其在固定位置目标是干扰噪声的情况下，能够有效定位区分固定位置目标，减少噪声对普通的非固定位置目标识别的干扰。例如，上述杂质类检测可以嵌入在便携式眼底照相的病灶检测中，也即在检测图像中的普通非固定位置目标（病灶检测）的同时，顺带进行镜头脏污的清洁控制。

为了更清楚起见，下面结合示例来阐述本申请实施例的方案。

图4示出了根据本申请实施例的标签分配示例。在此示例中，假设训练的输入图像数为3，例如有A、B、C三个输入图像。以anchor-based框架、使用单个ROI为例来描述标签分配。

图中示出了4个ROI 401~404，分别用虚线框示出。同时还示出了这4个ROI各自映射到的标注真值。可以理解，由于标注的人为因素，不同图像上对于同一固定位置目标的标注真值可能完全相同，也可以有些许差异，或者有可能存在错误。

具体地，ROI 401映射到三个标注真值（如三个实线框411~413所示），并且这三个标注真值都对应固定位置目标标签。也即，三个框411~413表示A、B、C三张图像中对固定位置目标的三个标注真值。ROI 402映射到两个标注真值（如两个实线框421~422所示），这两个标注真值也都对应固定位置目标标签，例如代表A、B两个图像中对固定位置目标的两个标注真值。ROI 403映射到一个标注真值（如实线框431所示），其对应固定位置目标标签，代表仅在一张图像A上出现了固定位置目标的标注真值。ROI 404映射到两个标注真值（如实线框441~442所示），其中一个实线框441代表在图像A中标记了固定位置目标，另一个实线框442代表在图像B中标记了普通非固定位置目标。实线框442的标注可能是将固定位置目标错标为非固定位置目标，也可能是图像B中已经不存在固定位置目标而出现了非固定位置目标。例如在镜头脏污检测场景中，图像A可能是在镜头擦拭前采集的，而图像B可能是在镜头擦拭后采集的。

对于ROI 401，其对三个标注真值同时满足IoU条件，例如与三个标注真值的IoU均大于给定阈值，并且这三个标注真值的标签都属于固定位置目标的标签列表，因此可以将ROI 401对应的特征图响应点训练分类标签置为固定位置目标标签。回归分支对应的目标回归位置可以置为三个实线框411~413的平均值。对应的图层分支的标注真值为111。

对于ROI 402，其对两个固定位置目标类别的标注真值同时满足IoU条件，此时可以将ROI 402对应的特征图响应点训练分类标签置为固定位置目标标签。回归分支对应的目标回归位置可以置为这两个标注真值（实线框421~422）的平均值。对应的图层分支的标注真值为110。

对于ROI 403，其仅有一个固定位置目标类别的标注真值满足IoU条件，此时可以不对相应的特征图响应点分配标签。

对于ROI 404，其对两个标注真值同时满足IoU条件，其中一个是固定位置目标类别（实线框441），另一个是非固定位置目标类别（实线框442）。此时可以将ROI 404对应的特征图响应点训练分类标签置为固定位置标签，同时添加加权系数r=1/2。回归分支对应的目标回归位置可以置为实线框441的位置，对应图层分支的标注真值为100。

上面描述了本申请实施例的训练方法。本申请还提供了基于已经训练的目标检测模型的多图像中检测固定位置目标的方法，也即目标检测模型的推理方法或预测方法。

图5示出了根据本申请实施例的多图像中检测固定位置目标的示例性方法流程图。在检测中使用的目标检测模型已按照本申请实施例提供的训练方法进行训练。

如图所示，在步骤510中，目标检测模型接收多个输入图像。输入图像的数量与目标检测模型训练时使用的数量一致。

接着，在步骤520中，目标检测模型对该多个输入图像进行检测并输出预测结果。由于目标检测模型已经训练成可以直接识别固定位置目标，因此预测结果至少包括所预测目标为固定位置目标的类别输出和位置输出。

当还需要同时检测非固定位置目标的普通目标时，相应的目标检测模型的头部网络中还包括图层分支（参见图2），此时预测结果还包括指示所预测固定位置目标所在图像的图层输出。

此时，可选地，在步骤530中，根据预测结果中的类别输出和图层输出，识别该多个输入图像中的固定位置目标及其所在的图层。例如，目标检测模型接收三个图像为输入图像，某个特征图响应点的分类分支输出预测其为固定位置目标类别A的概率为0.7，回归分支预测位置坐标为(x1,y1,x2,y2)，图层分支输出101。假设设定划分类别输出的阈值为0.5。则该响应点的预测结果为在图像1、图像3的位置(x1,y1,x2,y2)处存在固定位置目标A。综合所有特征图响应点预测信息后，得到整体输出。

可选地或附加地，在步骤540中，在图像层面进行NMS（非极大值抑制）后处理操作。当推理阶段中附加了NMS后处理时，可以在图像层面进行处理，也即以图像为单位进行NMS处理，由此去除一些冗余框。

本申请实施例的上述方案可以借助于程序指令来实现。由此，本申请还提供了一种计算装置，包括处理器，其配置用于执行程序指令；以及存储器，其配置用于存储程序指令，当这些程序指令由上述处理器加载并执行时，使得处理器执行根据前文任一实施例所述的方法。

计算装置可以对应于具有各种处理功能的计算设备。例如，计算装置可以被实现为各种类型的设备，包括但不限于个人计算机（PC）、服务器设备、移动设备等。

处理器配置用于执行程序指令以控制计算装置的所有功能。例如，处理器通过执行计算装置上的存储器中存储的程序，来控制计算装置的所有功能。处理器可以由计算装置中提供的中央处理单元(CPU)、图形处理单元(GPU)、应用处理器(AP)、人工智能处理器芯片（IPU）等来实现。然而，本申请不限于此。

存储器用于存储计算装置中处理的各种数据。例如，存储器可以存储计算装置中的处理过的数据和待处理的数据。存储器可存储处理器已处理或要处理的数据。此外，存储器可以存储要由计算装置驱动的应用、驱动程序等程序指令。例如：存储器可以存储与将由处理器执行的对加密数据进行运算处理等有关的各种程序。存储器可以是DRAM，但是本申请不限于此。存储器可以包括易失性存储器或非易失性存储器中的至少一种。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、相变RAM(PRAM)、磁性RAM(MRAM)、电阻RAM(RRAM)、铁电RAM (FRAM)等。易失性存储器可以包括动态RAM(DRAM)、静态RAM(SRAM)、同步DRAM(SDRAM)、 PRAM、MRAM、RRAM、铁电RAM(FeRAM)等。在实施例中，存储器可以包括硬盘驱动器(HDD)、固态驱动器(SSD)、高密度闪存(CF)、安全数字(SD)卡、微安全数字(Micro-SD)卡、迷你安全数字(Mini-SD)卡、极限数字(xD)卡、高速缓存（caches）或记忆棒中的至少一项。

综上，本说明书实施方式提供的计算装置的存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在本申请实施例中，还提供一种计算机可读存储介质，其中存储有程序指令，当该程序指令由处理器加载并执行时，使得处理器执行本申请实施例中描述的方法。

计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举示例）例如可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标检测模型的训练方法，所述目标检测模型用于对多个图像中固定位置目标进行检测，其特征在于，所述训练方法包括：

在训练过程的每次迭代中，接收多个训练图像作为所述目标检测模型的输入；

利用所述目标检测模型从所述多个训练图像中提取特征图并输出响应点；

在标签分配中，联合所述多个训练图像中固定位置目标的先验信息为所述响应点赋予标签；以及

基于赋予的所述标签，计算损失函数。

2.根据权利要求1所述的训练方法，其特征在于，联合所述多个训练图像中固定位置目标的先验信息为所述响应点赋予标签包括：

对于特征图上的每个响应点，根据所述多个训练图像中的固定位置目标类别的标注真值与所述响应点的映射关系，为所述响应点确定分类标签；以及

根据所述响应点所映射到的与确定的所述分类标签对应的所有标注真值，确定所述响应点的目标回归位置。

3.根据权利要求2所述的训练方法，其特征在于，根据所述多个训练图像中的固定位置目标类别的标注真值与所述响应点的映射关系，为所述响应点确定分类标签包括：

根据所述目标检测模型的检测算法中标注真值的表达方式，使用对应的方式计算所述响应点与所述多个训练图像中的固定位置目标类别的标注真值之间的多个映射关系；以及

响应于所述多个映射关系满足预定条件，将所述响应点赋予固定位置目标类别标签。

4.根据权利要求2所述的训练方法，其特征在于，根据所述响应点所映射到的与确定的所述分类标签对应的所有标注真值，确定所述响应点的目标回归位置包括：

将所述响应点的目标回归位置设置为所述响应点映射到的所有固定位置目标类别的标注真值的函数。

5.根据权利要求3所述的训练方法，其特征在于，当所述训练图像中还包括非固定位置目标时，所述目标检测模型的头部网络中还包括图层分支，用于指示所预测的固定位置目标所在图像的图层信息，并且在所述标签分配中，还包括：

根据为所述响应点分配的分类标签和所述多个训练图像中图层信息的先验信息，为所述响应点赋予图层信息。

6.根据权利要求5所述的训练方法，其特征在于，所述头部网络中还包括分类分支和回归分支，并且所述分类分支采用单个目标多分类识别方式，所述回归分支采用单个位置多目标同时回归，并且每个目标独立地进行回归。

7.根据权利要求5所述的训练方法，其特征在于，响应于所述多个映射关系满足预定条件，将所述响应点赋予固定位置目标类别标签包括：

根据所述映射关系确定所述响应点所映射到的所有标注真值，其中所述标注真值包括固定位置目标的标注真值和非固定位置目标的标注真值；以及

响应于所映射到的固定位置目标的标注真值个数与所映射到的所有标注真值之间的比例超过预定阈值，将所述响应点赋予固定位置目标类别标签。

8.根据权利要求7所述的训练方法，其特征在于，所述损失函数包括分类损失函数、回归损失函数和图层损失函数的叠加。

9.根据权利要求8所述的训练方法，其特征在于，所述计算损失函数还包括：

根据所述比例，对所述损失函数整体进行加权调整。

10.一种多图像中检测固定位置目标的方法，其特征在于，所述方法包括：

目标检测模型接收多个输入图像，其中所述目标检测模型已按照权利要求1-9任一所述的训练方法进行训练；以及

所述目标检测模型对所述多个输入图像进行检测并输出预测结果，所述预测结果至少包括所预测目标为固定位置目标的类别输出和位置输出。

11.根据权利要求10所述的方法，其特征在于，所述目标检测模型的头部网络中还包括图层分支，并且所述预测结果还包括指示所预测目标所在图像的图层输出，所述方法还包括：

根据所述类别输出和所述图层输出，识别所述多个图像中的固定位置目标及其所在的图层。

12.根据权利要求10-11任一所述的方法，其特征在于，所述方法还包括：

在图像层面对所述预测结果进行非极大值抑制处理。

13.一种计算装置，包括：

处理器，其配置用于执行程序指令；以及

存储器，其配置用于存储所述程序指令，当所述程序指令由所述处理器加载并执行时，使得所述处理器执行根据权利要求1-9任一所述的目标检测模型的训练方法或执行权利要求10-12任一所述的多图像中检测固定位置目标的方法。

14.一种计算机可读存储介质，其中存储有程序指令，当所述程序指令由处理器加载并执行时，使得所述处理器执行根据权利要求1-9任一所述的目标检测模型的训练方法或执行权利要求10-12任一所述的多图像中检测固定位置目标的方法。