CN111508019A

CN111508019A - 目标检测方法及其模型的训练方法及相关装置、设备

Info

Publication number: CN111508019A
Application number: CN202010167104.7A
Authority: CN
Inventors: 宋涛
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-08-07
Also published as: TW202135006A; JP2022529838A; KR20210141650A; WO2021179498A1

Abstract

本申请公开了一种目标检测方法及其模型的训练方法及相关装置、设备，其中，目标检测模型的训练方法包括：获取样本图像，其中，样本图像标注有目标所在的实际区域的实际位置信息；以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点；利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，其中，每个正样本点对应的预测区域信息包括正样本点对应的预测区域的预测位置信息；利用实际位置信息与预测区域信息，确定目标检测模型的损失值；基于目标检测模型的损失值，调整目标检测模型的参数。上述方案，能够提高目标检测的准确性。

Description

目标检测方法及其模型的训练方法及相关装置、设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种目标检测方法及其模型的训练方法及相关装置、设备。

背景技术

随着神经网络、深度学习等人工智能技术的发展，对神经网络模型进行训练，并利用经训练的神经网络模型完成目标检测等任务的方式，逐渐受到人们的青睐。

目前，现有的神经网络模型一般是基于锚框(anchor)匹配或者无锚框(anchorfree)策略，以实现目标检测，然而现有策略在实际使用中仍然存在误检率较高的问题。有鉴于此，如何提高目标检测的准确性成为迫切研究的课题。

发明内容

本申请提供一种目标检测方法及其模型的训练方法及相关装置、设备。

本申请第一方面提供了一种目标检测模型的训练方法，包括：获取样本图像，其中，样本图像标注有目标所在的实际区域的实际位置信息；以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点；利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，其中，每个正样本点对应的预测区域信息包括正样本点对应的预测区域的预测位置信息；利用实际位置信息与预测区域信息，确定目标检测模型的损失值；基于目标检测模型的损失值，调整目标检测模型的参数。

因此，通过将样本图像中的若干点作为检测点，并基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点，从而利用目标监测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，并利用样本图像中目标所在的实际区域的实际位置信息和预测区域信息所包括的预测位置信息，确定目标检测模型的损失值，从而基于目标检测模型的损失值，调整目标检测模型的参数，能够基于匹配得到的多个正样本点所对应的预测位置信息进行目标检测模型的训练，从而能够在无需设计锚框的前提下，确保召回率，此外，通过基于与位置信息相关的损失值调整目标检测模型的参数，能够确保准确率，进而能够提高目标检测的准确性。

其中，样本图像中包含多个目标；以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点，包括：对样本图像进行降采样，得到对应不同分辨率的多个特征图；基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组；其中，尺寸越大的实际区域与分辨率越小的特征图作为同一分组；对于同一分组的特征图和目标的实际区域，以特征图中的每个点为检测点，执行基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点的步骤。

因此，通过对样本图像进行降采样，得到对应不同分辨率的多个特征图，从而基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组，且尺寸越大的实际区域和分辨率越小的特征图作为同一分组，从而对同一分组的特征图和目标的实际区域，以特征图的每个点为检测点，执行基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点的步骤，一方面能够使得分辨率高的特征图负责小尺寸的目标，而分辨率低的特征图负责大尺寸的目标，从而有利于实现多尺度的目标检测，另一方面能够以每个分组的特征图的每个点为检测点进行正样本点的选取，从而能够有利于确保产生尽可能多的正样本点，进而有利于确保召回率，进而有利于提高目标检测的准确性。

其中，特征图为m个；基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组，包括：计算每个目标的实际区域的面积，将面积的最大值和最小值之间的范围划分为从小到大排序的m个区间；将m个特征图按照分辨率从大到小排列，并将面积属于第i个区间的目标的实际区域与第i个特征图划分至同一分组；其中，i和m为正整数，且i为0至m之间的值。

因此，通过计算每个目标的实际区域的面积，将面积的最大值和最小值之间的范围划分为从小到大排序的m个区间，且m与特征图的数量相同，并将m个特征图按照分辨率从大到小排序，将面积属于第i个区间的目标的实际区域与第i个特征图划分至同一分组，能够使得尺寸越大的实际区域与分辨率越小的特征图作为同一分组，从而能够有利于实现多尺度的目标检测，进而能够有利于提高目标检测的准确性。

其中，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点，包括：获得每个检测点与实际区域的预设点之间的距离；选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点。

因此，通过获取每个检测点与实际区域的预设点之间的距离，并选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点，能够有利于确保产生尽可能多的正样本点，进而有利于确保召回率，进而有利于提高目标检测的准确性。

其中，选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点，包括：选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点。

因此，通过选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点，能够使得每个实际区域均匹配到数量相同的正样本点，从而能够有利于确保不同大小的目标之间的梯度均衡，进而能够有利于提高目标检测的准确性。

其中，预测区域信息还包括预测区域的预测置信度；利用实际位置信息与预测区域信息，确定目标检测模型的损失值，包括：利用每个目标的实际位置信息与预测位置信息，得到位置损失值；利用预测置信度，得到置信度损失值；基于位置损失值和置信度损失值，得到目标检测模型的损失值。

因此，通过每个目标的实际位置信息与预测位置信息，得到位置损失值，并利用预测置信度得到置信度损失值，从而基于位置损失值和置信度损失值，得到目标检测模型的损失值，能够确保训练过程中损失值计算的准确性，进而能够有利于提高目标检测的准确性。

其中，实际位置信息包括实际区域的实际区域尺寸，预测位置信息包括预测区域的预测区域尺寸；利用每个目标的实际位置信息与预测位置信息，得到位置损失值，包括：利用每个目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值；基于区域尺寸损失值，得到位置损失值。

因此，利用每个目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值，并基于区域尺寸损失值，得到位置损失值，能够提高损失值的准确性，能够进一步确保训练过程中损失值计算的准确性，进而能够有利于提高目标检测的准确性。

其中，实际位置信息还包括实际区域的预设点位置；预测位置信息还包括预测区域的正样本点与实际区域的预设点之间的预测偏移信息；利用每个目标的实际位置信息与预测位置信息，得到位置损失值，还包括：计算目标的实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息；利用实际偏移信息和预测偏移信息，得到偏移损失值；基于区域尺寸损失值，得到位置损失值，包括：基于区域尺寸损失值和偏移损失值，得到位置损失值。

因此，基于预测区域的正样本点与实际区域的预设点之间的预测偏移信息，以及实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息，得到偏移损失值，并基于区域尺寸损失值和偏移损失值，得到位置损失值，能够提高位置损失值的准确性，进而能够提高目标检测的准确性，特别是能够提高小目标的检测准确性。

其中，在基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点之后，还包括：将剩余的检测点作为负样本点；利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，包括：利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息和每个负样本点对应的预测区域信息；利用预测置信度，得到置信度损失值，包括：利用正样本点对应的预测置信度和负样本点对应的预测置信度，得到置信度损失值。

因此，利用每个正样本点对应的预测区域信息和每个负样本点对应的预测区域信息，得到置信度损失值，能够有利于提高置信度损失值的准确性，进而能够有利于提高目标检测的准确性。

其中，样本图像为二维图像或三维图像，实际区域为实际边界框，预测区域为预测边界框。

因此，将样本图像设置为二维图像，能够实现对二维图像进行目标检测，将样本图像设置为三维图像，能够实现对三维图像进行目标检测。

本申请第二方面提供了一种目标检测方法，包括：获取待测图像；利用目标检测模型对待测图像进行目标检测，得到与待测图像中的目标对应的目标区域信息；其中，目标检测模型是通过上述第一方面中的目标检测模型的训练方法得到的。

因此，通过利用上述第一方面中的目标检测模型的训练方法得到的目标检测模型对待测图像进行目标检测，能够提高目标检测的准确性。

本申请第三方面提供了一种目标检测模型的训练装置，包括图像获取模块、样本选取模块、目标检测模块和损失确定模块、参数调整模块，图像获取模块用于获取样本图像，其中，样本图像标注有目标所在的实际区域的实际位置信息；样本选择模块用于以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点；目标检测模块用于利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，其中，每个正样本点对应的预测区域信息包括正样本点对应的预测区域的预测位置信息；损失确定模块用于利用实际位置信息与预测区域信息，确定目标检测模型的损失值；参数调整模块用于基于目标检测模型的损失值，调整目标检测模型的参数。

本申请第四方面提供了一种目标检测装置，包括图像获取模块和目标检测模块，图像获取模块用于获取待测图像；目标检测模块用于利用目标检测模型对待测图像进行目标检测，得到与待测图像中的目标对应的目标区域信息；其中，目标检测模型是通过上述第三方面中的目标检测模型的训练装置得到的。

本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的目标检测模型的训练方法，或实现上述第二方面中的目标检测方法。

本申请第六方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的目标检测模型的训练方法，或实现上述第二方面中的目标检测方法。

上述方案，通过将样本图像中的若干点作为检测点，并基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点，从而利用目标监测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，并利用样本图像中目标所在的实际区域的实际位置信息和预测区域信息所包括的预测位置信息，确定目标检测模型的损失值，从而基于目标检测模型的损失值，调整目标检测模型的参数，能够基于匹配得到的多个正样本点所对应的预测位置信息进行目标检测模型的训练，从而能够在无需设计锚框的前提下，确保召回率，此外，通过基于与位置信息相关的损失值调整目标检测模型的参数，能够确保准确率，进而能够提高目标检测的准确性。

附图说明

图1是本申请目标检测模型的训练方法一实施例的流程示意图；

图2是图1中步骤S12一实施例的流程示意图；

图3是本申请目标检测方法一实施例的流程示意图；

图4是目标检测得到的若干预测区域信息一实施例的示意图；

图5是本申请目标检测模型的训练装置一实施例的框架示意图；

图6是本申请目标检测装置一实施例的框架示意图；

图7是本申请电子设备一实施例的框架示意图；

图8是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请目标检测模型的训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取样本图像。

本实施例中，样本图像标注有目标所在的实际区域的实际位置信息。在一个实施场景中，为了明确实际区域的具体范围，实际区域可以是实际边界框(Bounding Box)，例如，目标的实际边界框，实际边界框具体可以是矩形框，在此不做限定。在一个具体的实施场景中，为了能够唯一表示一个实际边界框，实际位置信息可以包括实际区域的预设点(例如，实际区域的中心点)的位置信息和实际区域的尺寸(例如，实际边界框的长度和宽度)。

在一个实施场景中，为了实现对二维图像进行目标检测，样本图像可以是二维图像。在另一个实施场景中，为了实现对三维图像进行目标检测，样本图像可以是三维图像，在此不做限定。

在一个实施场景中，为了使目标检测应用于医学图像领域，样本图像可以是医学图像，例如，CT(Computed Tomography，计算机断层扫描)图像、MR(Magnetic Resonance，核磁共振)图像，在此不做限定。对应的，样本图像中的目标可以是生物器官等，例如，脑垂体、胰腺等；或者，样本图像中的目标还可以是病变组织等，例如，腔梗、血肿等，在此不做限定。当应用于其他领域时，可以以此类推，在此不再一一举例。

步骤S12：以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点。

在一个实施场景中，为了提高目标检测模型的准确性，以及后续进行目标检测的准确性，可以获取每个检测点与实际区域的预设点之间的距离，从而选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点。具体地，选取与预设点之间的距离小于一预设距离阈值的至少部分检测点，作为目标的正样本点，例如，选取与预设点之间的距离小于5个像素点的至少部分检测点，或者，选取与预设点之间的距离小于8个像素点的至少部分检测点，在此不做限定。在一个具体的实施场景中，为了确保不同大小的目标之间的梯度均衡，还可以选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点，前若干个检测点可以是前10个检测点、前20个检测点、前30个检测点等等，在此不做限定，从而每个实际区域均匹配到数量相同的正样本点，进而能够有利于确保不同大小的目标之间的梯度均衡，进而能够有利于提高目标检测的准确性。

步骤S13：利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息。

本实施例中，每个正样本点对应的预测区域信息包括正样本点对应的预测区域的预测位置信息。在一个实施场景中，为了明确预测区域的具体范围，预测区域可以是预测边界框，预测边界框可以是矩形，在此不做限定。在一个实施场景中，为了能够唯一表示一个预测边界框，预测区域信息可以包括预测区域的预设点(例如，预测区域的中心点)的位置信息和预测区域的尺寸(例如，预测边界框的长度和宽度)。

步骤S14：利用实际位置信息与预测区域信息，确定目标检测模型的损失值。

在一个实施场景中，为了提高损失计算的准确性，从而提高目标检测模型的准确性，进而提高后续目标检测的准确性，预测区域信息还可以包括预测区域的预测置信度，具体地，预测置信度可以表示预测区域的可信度，预测置信度越高，表明预测区域的可信度越高，从而利用每个目标的实际位置信息与预测位置信息，得到位置损失值，并利用预测置信度，得到置信度损失值，基于位置损失值和置信度损失值，得到目标检测模型的损失值。

在一个具体的实施场景中，可以采用二分类交叉熵损失函数、均方误差损失函数、L1损失函数中的至少一种计算损失值，在此不做限定。其中，L1损失函数，也被称为最小绝对值偏差(Least Absolute Deviation，LAD)或最小绝对值误差(Least Absolute Error，LAE)，总的来说就是把目标值y⁽ⁱ⁾和估计值

的绝对差值的总和最小化，具体可以参阅下式：

上式中，m表示正样本点的数量。此外，还可以采用L2损失函数，也被称为最小平方误差(Least Square Error，LSE)，总的来说，就是把m个正样本点的目标值y⁽ⁱ⁾和估计值

的差值平方和最小化，具体可以参阅下式：

在一个具体的实施场景中，实际位置信息还可以包括实际区域的实际区域尺寸，预测区域信息还可以包括预测区域的预测区域尺寸，为了进一步提高后续区域尺寸预测的准确性，还可以利用每个目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值，并基于区域尺寸损失值，得到位置损失值。

在一个具体的实施场景中，实现对位置损失值和置信度损失值在目标检测模型的损失值中各自重要程度，还可以预先设置于位置损失值对应的位置损失权重和与置信度损失值对应的置信度损失权重，并分别利用位置损失权重和置信度损失权重对位置损失值和置信度损失值进行加权处理，从而得到目标检测模型的损失值。

在一个具体的实施场景中，为了提高目标检测模型的准确性，特别是提高对于小目标的检测准确性，实际位置信息还可以包括实际区域的预设点位置，预测位置还可以包括预测区域的正样本点与实际区域的预设点之间的预测偏移信息，从而可以计算目标的实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息，并利用实际偏移信息和预测偏移信息得到偏移损失值，进而可以基于区域尺寸损失值和偏移损失值，得到位置损失值。具体地，可以利用IoU(Intersection over Union，交并比)损失函数或L1损失函数对每个目标的实际区域尺寸和预测区域尺寸进行计算，得到区域尺寸损失值，并利用L1损失函数对实际偏移信息和预测偏移信息进行计算，得到偏移损失值。其中，IoU为实际区域和预测区域之间的交集与并集之间的比值；利用L1损失函数，计算预测边界框的实际边界框之间的长度差，和/或，预测边界框和实际边界框之间的宽度差，具体可以参阅前述相关步骤，在此不再赘述。以样本图像的尺寸是100*100为例，实际区域的预设点(如中心点)位置为(38，37.5)，类别为人，某一正样本点的位置为(37.5,37.5)，利用目标检测模型预测得到的预测区域的尺寸为10*15，预测偏移信息为(offset-x，offset-y)，类别为人的置信度为0.9，类别为猫的置信度为0.2，可以计算目标的实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息为(0.5,0.1)，若目标为小目标，其对应的实际区域的尺寸为0.0.2*0.04，则上述偏移量大于实际区域的尺寸，从而导致目标检测的偏差很大，故对偏移量进行损失计算，并进行训练，能够使得预测出来的偏移量趋近于或等于实际的偏移量。

在一个具体的实施场景中，为了进一步提高置信度损失值的准确性，进而提高目标检测的准确性，还可以将除正样本点之外的检测点作为负样本点，并利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息和每个负样本点对应的预测区域信息，进而利用正样本点对应的预测置信度和负样本点对应的预测置信度，得到置信度损失值。

步骤S15：基于目标检测模型的损失值，调整目标检测模型的参数。

基于计算得到的目标检测模型的损失值，可以对目标检测模型的参数进行调整。具体地，目标检测模型的参数可以包括但不限于：目标检测模型的卷积层的权重。

在一个实施场景中，在对目标检测模型的参数进行调整之后，还可以重新执行上述步骤S13以及后续步骤，直至损失值满足预设训练结束条件为止。在一个具体的实施场景中，预设训练结束条件可以包括：目标检测模型的损失值小于一预设损失阈值，且目标检测模型的损失值不再减小。

请参阅图2，图2是图1中步骤S12一实施例的流程示意图。本实施例中，样本图像中可以包括多个目标，具体地，可以包括如下步骤：

步骤S121：对样本图像进行降采样，得到对应不同分辨率的多个特征图。

在一个实施场景中，具体可以采用FPN(Feature Pyramid Networks，特征金字塔网络)对样本图像进行降采样，从而得到对应不同分辨率的多个特征图。在一个具体的实施场景中，上述FPN可以为目标检测模型的一部分。从而将样本图像输入目标检测模型即可得到对应不同分辨率的多个特征图。以128*128的样本图像为例，对其进行降采样可以得到对应4*4分辨率的特征图、对应8*8的特征图、对应16*16的特征图等等，在此不做限定。在此基础上，4*4分辨率的特征图中每个特征点对应样本图像的32*32像素区域，而8*8分辨率的特征图中每个特征点对应样本图像的16*16像素区域，而16*16分辨率的特征图中每个特征点对应样本图像的8*8像素区域。其他分辨率的特征图可以以此类推，在此不再一一举例。

步骤S122：基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组。

本实施例中，尺寸越大的实际区域与分辨率越小的特征图作为同一分组。实际区域的尺寸越大，说明目标越大，反之，说明目标越小，故可采用小分辨率的特征图负责检测大目标，而采用大分辨率的特征图负责检测小目标。仍以上述128*128的样本图像为例，样本图像中多个目标的实际区域的尺寸分别是16*32、11*22、10*20、5*10，故可以将尺寸为16*32的实际区域与分辨率为4*4的特征图分为同一分组，将尺寸为11*22的实际区域和尺寸为10*20的实际区域与分辨率为8*8的特征图分为同一分组，将尺寸为5*10的实际区域与分辨率为16*16的特征图分为同一分组，在此不做限定。

在一个具体的实施场景中，为了准确地将多个目标的实际区域与多个特征图进行分组，还可以计算每个目标的实际区域的面积，将面积的最大值和最小值间的范围划分为从小到大排序的m个区间，其中，m为特征图的数量，将m个特征图按照分辨率从大到小的顺序排列，并将面积属于第i个区间的目标的实际区域与第i个特征图划分至同一分组，其中，i和m为正整数，且i为0至m之间的值。仍以上述128*128的样本图像为例，不同分辨率的特征图的数量m为3，样本图像中多个目标的实际区域的尺寸分别是16*32、11*22、10*20、5*10，面积分别为512、242、200、50，其最大值512和最小值50之间划分3个区间，分别为50～204、204～358、358～512，将4*4分辨率的特征图、8*8的特征图、16*16的特征图按照分辨率从大到小排序为：16*16分辨率的特征图、8*8分辨率的特征图、4*4分辨率的特征图，面积属于第1个区间(即50～204)的目标的实际区域为10*20的实际区域和5*10的实际区域，故将两者与第1个特征图(即分辨率为16*16的特征图)划分至同一分组；面积属于第2个区间(即204～358)的目标的实际区域为11*22的实际区域，故将其与第2个特征图(即分辨率为8*8的特征图)划分至同一分组；面积属于第3个区间(即358～512)的目标的实际区域为16*32的实际区域，故将其与第3个特征图(即分辨率为4*4的特征图)划分至同一分组。其他样本图像可以以此类推，在此不再一一举例。

步骤S123：对于同一分组的特征图和目标的实际区域，以特征图中的每个点为检测点，执行基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点的步骤。

本实施例中，具体可以根据检测点在特征图中的位置坐标和特征图的分辨率，确定检测点在样本图像中的位置坐标，从而根据检测点在样本图像中的位置坐标计算检测点与实际区域的预设点之间的距离。具体地，以16*32的实际区域和分辨率为4*4的特征图为例，将4*4特征图中的每个特征点分别作为检测点，由于分辨率为4*4的特征图每个特征点对应128*128样本图像中的32*32，故检测点(1,1)对应于样本图像中的(16,16)，检测点(1,2)对应于样本图像中的(16,48)，检测点(1,3)对应于样本图像中的(16,80)，检测点(1,4)对应于样本图像中的(16,112)检测点(2,1)对应于样本图像中的(48,16)，检测点(2,2)对应于样本图像中的(48,48)，检测点(2,3)对应于样本图像中的(48,80)，检测点(2,4)对应于样本图像中的(48,112)，若16*32的实际区域的预设点在样本图像中位置为(16,32)，利用欧氏距离，可以计算上述检测点距离实际区域的预设点的距离分别为：16、16、48、80、35.78、35.78、57.69、86.16，其他检测点以此类推，在此不再一一举例。具体地，当选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点时，若上述前若干个检测点为4个检测点，则实际区域的尺寸为16*32的目标的正样本点可以是分辨率为4*4的特征图中的特征点(1,1)、(1,2)和(2,1)、(2,2)，其他情况可以以此类推，在此不再一一举例。

区别于前述实施例，通过对样本图像进行降采样，得到对应不同分辨率的多个特征图，从而基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组，且尺寸越大的实际区域和分辨率越小的特征图作为同一分组，从而对同一分组的特征图和目标的实际区域，以特征图的每个点为检测点，执行基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点的步骤，一方面能够使得分辨率高的特征图负责小尺寸的目标，而分辨率低的特征图负责大尺寸的目标，从而有利于实现多尺度的目标检测，另一方面能够以每个分组的特征图的每个点为检测点进行正样本点的选取，从而能够有利于确保产生尽可能多的正样本点，进而有利于确保召回率，进而有利于提高目标检测的准确性。

请参阅图3，图3是本申请目标检测方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S31：获取待测图像。

在一个实施场景中，为了实现对二维图像进行目标检测，待测图像可以是二维图像。在另一个实施场景中，为了实现对三维图像进行目标检测，待测图像可以是三维图像，在此不做限定。

在一个实施场景中，为了使目标检测应用于医学图像领域，待测图像可以是医学图像，例如，CT(Computed Tomography，计算机断层扫描)图像、MR(Magnetic Resonance，核磁共振)图像，在此不做限定。对应的，待测图像中的目标可以是生物器官等，例如，脑垂体、胰腺等；或者，待测图像中的目标还可以是病变组织等，例如，腔梗、血肿等，在此不做限定。当应用于其他领域时，可以以此类推，在此不再一一举例。

步骤S32：利用目标检测模型对待测图像进行目标检测，得到与待测图像中的目标对应的目标区域信息。

本实施例中，目标检测模型是通过上述任一目标检测模型的训练方法实施例中的步骤得到的。具体可以参阅前述任一目标检测模型的训练方法实施例中的步骤，在此不再赘述。

在一个实施场景中，为了提高目标检测的准确性，可以以待测图像中的若干点为检测点，并利用目标检测模型对待测图像进行目标检测，得到每个检测点对应的预测区域信息，其中，每个检测点对应的预测区域信息包括检测点对应的预测区域的预测置信度和预测区域位置信息，并基于每个检测点对应的预测区域的预测置信度和预测区域位置信息，采用非极大值抑制(Non-Maximum Suppression，NMS)得到与待测图像中的目标对应的目标区域信息。请结合参阅图4，图4是目标检测得到的若干预测区域信息一实施例的示意图，如图4所示，预测区域01～预测区域05分别是与每个检测点对应的预测区域，且检测得到预测01的预测置信度为0.6、预测区域02的预测置信度为0.9、预测区域03的预测置信度为0.8、预测区域04的置信度为0.9、预测区域05的置信度为0.8，将上述预测区域按照预测置信度从小到大排列为：预测区域01、预测区域03、预测区域05、预测区域02、预测区域04，选取预测置信度最大的预测区域04，利用预测位置信息，分别判断预测区域01、预测区域03、预测区域05、预测区域02与预测区域04的IoU是否大于一预设交并比阈值(例如，60％)，若是，则丢弃，如图4所示，预测区域05与预测区域04的交并比较大，假设为85％，则将预测区域05丢弃，而预测区域01～预测区域03与预测区域04的交并比为0，故保留，此时将预测区域04作为与目标对应的目标区域，从剩下的预测区域01～预测区域03中选取预测置信度最大的预测区域02，并基于预测位置信息，判断预测区域01和预测区域03与预测区域02的IoU是否大于一预设交并比阈值(例如，60％)，若是，则丢弃，假设预测区域01和预测区域03与预测区域02的IoU分别为65％、70％，则将预测区域01和预测区域03丢弃，并保留预测区域02作为与目标对应的目标区域。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，为了实现对待测图像的多尺度检测，从而尽可能全面地检测出待测图像中的目标，特别是小目标，还可以对待测图像进行降采样，得到对应不同分辨率的多个特征图，并将多个特征图中的若干特征点作为检测点，并利用目标检测模型对待测图像进行目标检测，得到每个检测点对应的预测区域信息，并基于每个检测点对应的预测区域的预测置信度和预测区域位置信息，采用非极大值抑制(Non-Maximum Suppression，NMS)从若干检测点对应的预测区域信息中，确定得到与待测图像中的目标对应的目标区域信息。具体可以参阅前述相关步骤，在此不再赘述。

在一个实施场景中，在目标检测模型的训练过程中，为了提高目标检测模型的准确性，特别是提高对于小目标的检测准确性，预测位置还可以包括预测区域的正样本点与实际区域的预设点之间的预测偏移信息，从而可以计算目标的实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息，并利用实际偏移信息和预测偏移信息得到偏移损失值，进而可以基于区域尺寸损失值和偏移损失值，得到位置损失值，以利用位置损失值对目标检测模型的参数进行调整，故在对待测图像进行目标检测时所得到的目标区域信息还可以包括目标区域与检测点(x0，y0)之间的偏移信息(offset-x，offset-y)，故目标在待测图像中的位置可以表示为(x0+offset-x，y0+offset-y)，并基于检测得到的类别置信度确定目标的类别，例如，检测到目标为人的类别置信度为0.9，目标为猫的类别置信度为0.1，故可以确定检测到的目标为人。此外，目标区域信息还可以包括目标区域的尺寸(例如，长度和宽度)。

上述方案，通过利用上述第一方面中的目标检测模型的训练方法得到的目标检测模型对待测图像进行目标检测，能够提高目标检测的准确性。

请参阅图5，图5是本申请目标检测模型的训练装置50一实施例的框架示意图。目标检测模型的训练装置50包括：图像获取模块51、样本选取模块52、目标检测模块53、损失确定模块54和参数调整模块55，图像获取模块51用于获取样本图像，其中，样本图像标注有目标所在的实际区域的实际位置信息；样本选择模块52用于以样本图像中的若干点为检测点，基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点；目标检测模块53用于利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息，其中，每个正样本点对应的预测区域信息包括正样本点对应的预测区域的预测位置信息；损失确定模块54用于利用实际位置信息与预测区域信息，确定目标检测模型的损失值；参数调整模块55用于基于目标检测模型的损失值，调整目标检测模型的参数。

在一些实施例中，样本图像中包含多个目标，样本选取模块52包括降采样子模块，用于对样本图像进行降采样，得到对应不同分辨率的多个特征图，样本选取模块52还包括分组子模块，用于基于目标的实际区域的尺寸，将多个目标的实际区域与多个特征图进行分组；其中，尺寸越大的实际区域与分辨率越小的特征图作为同一分组，样本选取模块52还包括样本选取子模块，用于对于同一分组的特征图和目标的实际区域，以特征图中的每个点为检测点，执行基于每个检测点与实际区域的预设点之间的距离，选择至少一个检测点作为目标的正样本点的步骤。

在一些实施例中，特征图为m个，分组子模块包括区间划分单元，用于计算每个目标的实际区域的面积，将面积的最大值和最小值之间的范围划分为从小到大排序的m个区间，分组子模块包括分组划分单元，用于将m个特征图按照分辨率从大到小排列，并将面积属于第i个区间的目标的实际区域与第i个特征图划分至同一分组；其中，i和m为正整数，且i为0至m之间的值。

区别于前述实施例，通过计算每个目标的实际区域的面积，将面积的最大值和最小值之间的范围划分为从小到大排序的m个区间，且m与特征图的数量相同，并将m个特征图按照分辨率从大到小排序，将面积属于第i个区间的目标的实际区域与第i个特征图划分至同一分组，能够使得尺寸越大的实际区域与分辨率越小的特征图作为同一分组，从而能够有利于实现多尺度的目标检测，进而能够有利于提高目标检测的准确性。

在一些实施例中，样本选取模块52还包括距离计算子模块，用于获得每个检测点与实际区域的预设点之间的距离，样本选取模块52还包括距离判断子模块，用于选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点。

区别于前述实施例，通过获取每个检测点与实际区域的预设点之间的距离，并选择与预设点之间的距离满足预设条件的至少一个检测点作为目标的正样本点，能够有利于确保产生尽可能多的正样本点，进而有利于确保召回率，进而有利于提高目标检测的准确性。

在一些实施例中，距离判断子模块，具体用于选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点。

区别于前述实施例，通过选择与预设点之间的距离最近的前若干个检测点作为目标的正样本点，能够使得每个实际区域均匹配到数量相同的正样本点，从而能够有利于确保不同大小的目标之间的梯度均衡，进而能够有利于提高目标检测的准确性。

在一些实施例中，预测区域信息还包括预测区域的预测置信度，损失确定模块54包括位置损失值计算子模块，用于利用每个目标的实际位置信息与预测位置信息，得到位置损失值，损失确定模块54还包括置信度损失值计算子模块，用于利用预测置信度，得到置信度损失值，损失确定模块54还包括模型损失值计算子模块，用于基于位置损失值和置信度损失值，得到目标检测模型的损失值。

区别于前述实施例，通过每个目标的实际位置信息与预测位置信息，得到位置损失值，并利用预测置信度得到置信度损失值，从而基于位置损失值和置信度损失值，得到目标检测模型的损失值，能够确保训练过程中损失值计算的准确性，进而能够有利于提高目标检测的准确性。

在一些实施例中，实际位置信息包括实际区域的实际区域尺寸，预测位置信息包括预测区域的预测区域尺寸，位置损失值计算子模块包括区域尺寸损失值计算单元，用于利用每个目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值，位置损失值计算子模块包括位置损失值计算单元，用于基于区域尺寸损失值，得到位置损失值。

区别于前述实施例，利用每个目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值，并基于区域尺寸损失值，得到位置损失值，能够提高损失值的准确性，能够进一步确保训练过程中损失值计算的准确性，进而能够有利于提高目标检测的准确性。

在一些实施例中，实际位置信息还包括实际区域的预设点位置；预测位置信息还包括预测区域的正样本点与实际区域的预设点之间的预测偏移信息，区域尺寸损失值计算单元具体用于计算目标的实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息，并利用实际偏移信息和预测偏移信息，得到偏移损失值，位置损失值计算单元具体用于基于区域尺寸损失值和偏移损失值，得到位置损失值。

区别于前述实施例，基于预测区域的正样本点与实际区域的预设点之间的预测偏移信息，以及实际区域的预设点位置与对应的正样本点位置之间的实际偏移信息，得到偏移损失值，并基于区域尺寸损失值和偏移损失值，得到位置损失值，能够提高位置损失值的准确性，进而能够提高目标检测的准确性，特别是能够提高小目标的检测准确性。

在一些实施例中，样本选取模块52还包括负样本选取子模块，用于将剩余的检测点作为负样本点，目标检测模块53具体用于利用目标检测模型对样本图像进行目标检测，得到每个正样本点对应的预测区域信息和每个负样本点对应的预测区域信息，置信度损失值计算子模块具体用于利用正样本点对应的预测置信度和负样本点对应的预测置信度，得到置信度损失值。

区别于前述实施例，利用每个正样本点对应的预测区域信息和每个负样本点对应的预测区域信息，得到置信度损失值，能够有利于提高置信度损失值的准确性，进而能够有利于提高目标检测的准确性。

在一些实施例中，样本图像为二维图像或三维图像，实际区域为实际边界框，预测区域为预测边界框。

区别于前述实施例，将样本图像设置为二维图像，能够实现对二维图像进行目标检测，将样本图像设置为三维图像，能够实现对三维图像进行目标检测。

请参阅图6，图6是本申请目标检测装置60一实施例的框架示意图。目标检测装置60包括图像获取模块61和目标检测模块62，图像获取模块61用于获取待测图像；目标检测模块62用于利用目标检测模型对待测图像进行目标检测，得到与待测图像中的目标对应的目标区域信息；其中，目标检测模型是通过上述任一目标检测模型的训练装置实施例中的目标检测模型的训练装置得到的。

上述方案，通过利用上述任一目标检测模型的训练装置实施例中的目标检测模型的训练装置得到的目标检测模型对待测图像进行目标检测，能够提高目标检测的准确性。

请参阅图7，图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72，处理器72用于执行存储器71中存储的程序指令，以实现上述任一目标检测模型的训练方法实施例的步骤，或实现上述任一目标检测方法实施例中的步骤。在一个具体的实施场景中，电子设备70可以包括但不限于：微型计算机、服务器，此外，电子设备70还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器72用于控制其自身以及存储器71以实现上述任一目标检测模型的训练方法实施例的步骤，或实现上述任一目标检测方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

上述方案，能够基于匹配得到的多个正样本点所对应的预测位置信息进行目标检测模型的训练，从而能够在无需设计锚框的前提下，确保召回率，此外，通过基于与位置信息相关的损失值调整目标检测模型的参数，能够确保准确率，进而能够提高目标检测的准确性。

请参阅图8，图8为本申请计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令801，程序指令801用于实现上述任一目标检测模型的训练方法实施例的步骤，或实现上述任一目标检测方法实施例中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

获取样本图像，其中，所述样本图像标注有目标所在的实际区域的实际位置信息；

以所述样本图像中的若干点为检测点，基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点；

利用目标检测模型对所述样本图像进行目标检测，得到每个所述正样本点对应的预测区域信息，其中，每个所述正样本点对应的预测区域信息包括所述正样本点对应的预测区域的预测位置信息；

利用所述实际位置信息与所述预测区域信息，确定所述目标检测模型的损失值；

基于所述目标检测模型的损失值，调整所述目标检测模型的参数。

2.根据权利要求1所述的训练方法，其特征在于，所述样本图像中包含多个所述目标；

所述以所述样本图像中的若干点为检测点，基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点，包括：

对所述样本图像进行降采样，得到对应不同分辨率的多个特征图；

基于所述目标的实际区域的尺寸，将所述多个目标的实际区域与所述多个特征图进行分组；其中，尺寸越大的所述实际区域与分辨率越小的所述特征图作为同一分组；

对于同一分组的特征图和所述目标的实际区域，以所述特征图中的每个点为检测点，执行所述基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点的步骤。

3.根据权利要求2所述的训练方法，其特征在于，所述特征图为m个；

所述基于所述目标的实际区域的尺寸，将所述多个目标的实际区域与所述多个特征图进行分组，包括：

计算每个所述目标的实际区域的面积，将所述面积的最大值和最小值之间的范围划分为从小到大排序的m个区间；

将所述m个特征图按照分辨率从大到小排列，并将面积属于第i个区间的所述目标的实际区域与第i个特征图划分至同一分组；其中，i和m为正整数，且i为0至m之间的值。

4.根据权利要求1至3任一项所述的训练方法，其特征在于，所述基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点，包括：

获得每个所述检测点与所述实际区域的预设点之间的距离；

选择与所述预设点之间的距离满足预设条件的至少一个所述检测点作为所述目标的正样本点。

5.根据权利要求4所述的训练方法，其特征在于，所述选择与所述预设点之间的距离满足预设条件的至少一个所述检测点作为所述目标的正样本点，包括：

选择与所述预设点之间的距离最近的前若干个检测点作为所述目标的正样本点。

6.根据权利要求1所述的训练方法，其特征在于，所述预测区域信息还包括所述预测区域的预测置信度；

所述利用所述实际位置信息与所述预测区域信息，确定所述目标检测模型的损失值，包括：

利用每个目标的所述实际位置信息与所述预测位置信息，得到位置损失值；

利用所述预测置信度，得到置信度损失值；

基于所述位置损失值和所述置信度损失值，得到所述目标检测模型的损失值。

7.根据权利要求6所述的训练方法，其特征在于，所述实际位置信息包括所述实际区域的实际区域尺寸，所述预测位置信息包括所述预测区域的预测区域尺寸；

所述利用每个目标的所述实际位置信息与所述预测位置信息，得到位置损失值，包括：

利用每个所述目标的实际区域尺寸和预测区域尺寸，得到区域尺寸损失值；

基于所述区域尺寸损失值，得到位置损失值。

8.根据权利要求7所述的训练方法，其特征在于，所述实际位置信息还包括所述实际区域的预设点位置；所述预测位置信息还包括所述预测区域的正样本点与所述实际区域的预设点之间的预测偏移信息；

所述利用每个目标的所述实际位置信息与所述预测位置信息，得到位置损失值，还包括：

计算所述目标的实际区域的预设点位置与对应的所述正样本点位置之间的实际偏移信息；

利用所述实际偏移信息和所述预测偏移信息，得到偏移损失值；

所述基于所述区域尺寸损失值，得到位置损失值，包括：

基于所述区域尺寸损失值和所述偏移损失值，得到位置损失值。

9.根据权利要求6所述的训练方法，其特征在于，在所述基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点之后，还包括：

将剩余的所述检测点作为负样本点；

所述利用目标检测模型对所述样本图像进行目标检测，得到每个所述正样本点对应的预测区域信息，包括：

利用目标检测模型对所述样本图像进行目标检测，得到每个所述正样本点对应的预测区域信息和每个所述负样本点对应的预测区域信息；

所述利用所述预测置信度，得到置信度损失值，包括：

利用所述正样本点对应的预测置信度和所述负样本点对应的预测置信度，得到置信度损失值。

10.根据权利要求1所述的训练方法，其特征在于，所述样本图像为二维图像或三维图像，所述实际区域为实际边界框，所述预测区域为预测边界框。

11.一种目标检测方法，其特征在于，包括：

获取待测图像；

利用目标检测模型对所述待测图像进行目标检测，得到与所述待测图像中的目标对应的目标区域信息；

其中，所述目标检测模型是通过权利要求1至10任一项所述的目标检测模型的训练方法得到的。

12.一种目标检测模型的训练装置，其特征在于，包括：

图像获取模块，用于获取样本图像，其中，所述样本图像标注有目标所在的实际区域的实际位置信息；

样本选择模块，用于以所述样本图像中的若干点为检测点，基于每个所述检测点与所述实际区域的预设点之间的距离，选择至少一个所述检测点作为所述目标的正样本点；

目标检测模块，用于利用目标检测模型对所述样本图像进行目标检测，得到每个所述正样本点对应的预测区域信息，其中，每个所述正样本点对应的预测区域信息包括所述正样本点对应的预测区域的预测位置信息；

损失确定模块，用于利用所述实际位置信息与所述预测区域信息，确定所述目标检测模型的损失值；

参数调整模块，用于基于所述目标检测模型的损失值，调整所述目标检测模型的参数。

13.一种目标检测装置，其特征在于，包括：

图像获取模块，用于获取待测图像；

目标检测模块，用于利用目标检测模型对所述待测图像进行目标检测，得到与所述待测图像中的目标对应的目标区域信息；

其中，所述目标检测模型是通过权利要求10所述的目标检测模型的训练装置得到的。

14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至10任一项所述的目标检测模型的训练方法，或实现权利要求11所述的目标检测方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至10任一项所述的目标检测模型的训练方法，或实现权利要求11所述的目标检测方法。