CN112785565B

CN112785565B - 目标检测方法及装置、电子设备和存储介质

Info

Publication number: CN112785565B
Application number: CN202110057241.XA
Authority: CN
Inventors: 王娜; 宋涛; 刘星龙; 黄宁; 张少霆
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2024-01-05
Anticipated expiration: 2041-01-15
Also published as: CN112785565A; WO2022151755A1

Abstract

本公开涉及一种目标检测方法及装置、电子设备和存储介质，所述方法包括：对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中目标类别的第一对象的位置。本公开实施例既提高了目标检测的敏感性，又提高了目标检测的准确性。

Description

目标检测方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种目标检测方法及装置、电子设备和存储介质。

背景技术

肺结节是一种常见病变之一，结节特征往往表明肺病的性质，检测诊断肺结节对确定病变是不是肺癌有重要意义。肺结节的早期发现、诊断、治疗是肺癌的早期诊治、降低肺癌死亡率的关键。电子计算机断层扫描(Computed Tomography，CT)是肺癌早起筛查的重要手段，可以基于CT图像对肺结节进行检测。

发明内容

本公开提出了一种目标检测方法及装置、电子设备和存储介质，既提高了目标检测的敏感性，又提高了目标检测的准确性。

根据本公开的一方面，提供了一种目标检测方法，包括：对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中存在的目标类别的第一对象的位置；其中，所述目标检测网络采用递归的方式进行训练；所述目标检测网络包括分类子网络、回归子网络和分割子网络，所述分类子网络用于确定所述第一图像中是否存在所述第一对象、所述回归子网络用于确定所述第一图像中存在的第一对象的边界框，所述分割子网络用于确定所述第一图像中存在的第一对象的轮廓。

在本公开实施例中，一方面，基于分类、回归和分割的多任务学习进行目标检测网络的训练，利用了任务间的关联性提升了对目标类别的对象的识别能力；另一方面，基于递归式的阶段性训练策略进行目标检测网络的训练，既提高了目标检测的敏感性，又提高了目标检测的准确性。

在一种可能的实现方式中，所述方法还包括：根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，所述第一训练集包括多个样本图像以及所述样本图像的第一标注信息，所述第一标注信息包括所述样本图像中第二对象的真实位置；通过所述第一状态的目标检测网络对所述样本图像进行处理，得到所述样本图像中第二对象的预测位置；根据所述第二对象的预测位置及真实位置，确定所述样本图像中的假阳性区域、假阴性区域及真阳性区域；根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，所述第二训练集包括多个样本图像以及所述样本图像的第二标注信息，所述第二标注信息包括所述样本图像中的假阳性区域、假阴性区域及真阳性区域。

在本公开实施例中，将目标检测网络的训练过程拆分为两个阶段。在第一阶段中，重点关注敏感性，使目标检测网络尽可能获取更多的疑似第一对象；在第二阶段中，重点关注准确性，使目标检测网络在高敏感性的基础上获取较高的准确性。

在一种可能的实现方式中，所述多个样本图像包括正样本图像和负样本图像，所述方法还包括：对已标注的第二图像进行裁剪，得到预设尺寸的正样本图像及负样本图像，所述正样本图像中包括至少一个第二对象，所述负样本图像中不包括第二对象。

这样，可以解决因第二图像包含的数据量大、图像处理器(Graphics ProcessingUnit，GPU)的显存有限等原因而造成的GPU无法直接处理的问题。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的边界框，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：对所述样本图像进行特征提取，得到所述样本图像的多个尺度的第二特征图；根据所述多个尺度的第二特征图及预设的多个锚框，确定所述样本图像中的多个第一参考框；根据所述样本图像中第二对象的边界框，从所述多个第一参考框中确定出预设数量的训练样本，所述训练样本包括标注信息为属于目标类别的正样本，以及标注信息为不属于目标类别的负样本；根据所述训练样本，训练所述分类子网络。

这样，可以平衡正负样本，避免过拟合，提高分类子网络的分类准确性。

在一种可能的实现方式中，所述根据所述样本图像中第二对象的边界框，从所述多个第一参考框中确定出预设数量的训练样本，包括：将所述样本图像中的边界框划分至多个边界框集合中，每个边界框集合中边界框的尺寸处于预设的尺寸区间内；针对任一边界框集合，从所述多个第一参考框中去除已被确定为训练样本的第一参考框，得到与所述边界框集合对应的参考框集合；针对所述边界框集合中的任一边界框，根据所述边界框与对应的参考框集合中的各个第一参考框之间的交并比，确定与所述边界框对应的正样本和负样本，所述正样本的数量与所述边界框集合的尺寸区间负相关；根据尺寸区间由小到大的顺序依次处理各个边界框集合，得到所述预设数量的训练样本。

这样，可以兼顾尺寸较大的第二对象和尺寸较小的第二对象。

在一种可能的实现方式中，所述根据所述训练样本，训练所述分类子网络，包括：对所述第二特征图进行裁剪，得到所述训练样本对应的第三特征图；将所述第三特征图输入所述分类子网络，得到所述训练样本属于目标类别的第一概率；根据所述训练样本属于目标类别的第一概率及所述训练样本的标注信息，确定所述分类子网络的第一损失；根据所述第一损失，调整所述分类子网络的网络参数。

这样，可以使第二对象的分类更准确。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的边界框，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图；根据所述多个尺度的第四特征图及预设的多个锚框，确定所述正样本图像中的多个第二参考框；针对所述样本图像中第二对象的任一边界框：确定所述边界框与所述多个第二参考框的交并比，并将交并比最大的第二参考框确定为与所述边界框对应的匹配框；将所述匹配框对应的第五特征图输入所述回归子网络，得到所述匹配框的预测框；根据所述边界框与所述预测框之间的差异，确定所述回归子网络的第二损失；根据所述第二损失，调整所述回归子网络的网络参数。

这样，可以使第二对象的位置更准确。

在一种可能的实现方式中，所述根据所述边界框与所述预测框之间的差异，确定所述回归子网络的第二损失，包括：根据所述边界框与所述预测框之间的坐标偏移量及交并比，确定所述匹配框的第一回归损失；根据所述边界框与所述预测框之间的交集、并集及最小闭区域，确定所述匹配框的第二回归损失；根据所述第一回归损失及所述第二回归损失，确定所述回归子网络的第二损失。

这样，通过利用预测框和对应边界框的交并比为指导，给交并比较小的预测框更大的损失值，使采用该预测框对应的匹配框训练回归子网络时，回归子网络的参数更新力度更大。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的轮廓，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图；将所述多个尺度的第四特征图输入所述分割子网络，得到所述正样本图像各个像素点属于目标类别的第二概率；根据所述正样本图像的像素点数量、所述正样本图像中第二对象的轮廓以及各个像素点属于目标类别的第二概率，确定所述分割子网络的第三损失；根据所述第三损失，调整所述分割子网络的网络参数。

这样可以使第二对象的定位更加准确。

在一种可能的实现方式中，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，确定假阳性区域、假阴性区域及真阳性区域对应的第五特征图；将所述第五特征图输入所述分类子网络，得到假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率；根据假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率，以及假阳性区域、假阴性区域及真阳性区域的真实类别，确定所述分类子网络的第四损失；根据所述第四损失，调整所述分类子网络的网络参数。

在一种可能的实现方式中，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，得到真阳性区域和假阴性区域对应的第六特征图；确定与所述真阳性区域和假阴性区域匹配的边界框；将所述第六特征图输入所述回归子网络，得到所述真阳性区域和假阴性区域的预测框；根据所述真阳性区域和假阴性区域的预测框和对应的边界框之间的差异，确定所述回归子网络的第五损失；根据所述第五损失，调整所述回归子网络的网络参数。

在一种可能的实现方式中，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：将所述真阳性区域和假阴性区域对应的第六特征图输入所述分割子网络，得到所述真阳性区域和假阴性区域中各个像素点属于目标类别的第四概率；根据所述真阳性区域和假阴性区域的像素点数量、所述真阳性区域和假阴性区域中第二对象的轮廓以及各个像素点属于目标类别的第四概率，确定所述分割子网络的第六损失；根据所述第六损失，调整所述分割子网络的网络参数。

在一种可能的实现方式中，所述第一图像包括2D医学影像和/或3D医学影像，所述目标类别包括结节和/或囊肿。

根据本公开的一方面，提供了一种目标检测装置，包括：提取模块，用于对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；第一处理模块，用于通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中存在的目标类别的第一对象的位置；其中，所述目标检测网络采用递归的方式进行训练；所述目标检测网络包括分类子网络、回归子网络和分割子网络，所述分类子网络用于确定所述第一图像中是否存在所述第一对象、所述回归子网络用于确定所述第一图像中存在的第一对象的边界框，所述分割子网络用于确定所述第一图像中存在的第一对象的轮廓。

在一种可能的实现方式中，所述装置还包括：

第一训练模块，用于根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，所述第一训练集包括多个样本图像以及所述样本图像的第一标注信息，所述第一标注信息包括所述样本图像中第二对象的真实位置；

第二处理模块，用于通过所述第一状态的目标检测网络对所述样本图像进行处理，得到所述样本图像中第二对象的预测位置；

确定模块，用于根据所述第二对象的预测位置及真实位置，确定所述样本图像中的假阳性区域、假阴性区域及真阳性区域；

第二训练模块，用于根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，所述第二训练集包括多个样本图像以及所述样本图像的第二标注信息，所述第二标注信息包括所述样本图像中的假阳性区域、假阴性区域及真阳性区域。

在一种可能的实现方式中，所述多个样本图像包括正样本图像和负样本图像，所述装置还包括：裁剪模块，用于对已标注的第二图像进行裁剪，得到预设尺寸的正样本图像及负样本图像，所述正样本图像中包括至少一个第二对象，所述负样本图像中不包括第二对象。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的边界框，所述第一训练模块还用于：对所述样本图像进行特征提取，得到所述样本图像的多个尺度的第二特征图；根据所述多个尺度的第二特征图及预设的多个锚框，确定所述样本图像中的多个第一参考框；根据所述样本图像中第二对象的边界框，从所述多个第一参考框中确定出预设数量的训练样本，所述训练样本包括标注信息为属于目标类别的正样本，以及标注信息为不属于目标类别的负样本；根据所述训练样本，训练所述分类子网络。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的边界框，所述第一训练模块还用于：对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图；根据所述多个尺度的第四特征图及预设的多个锚框，确定所述正样本图像中的多个第二参考框；针对所述样本图像中第二对象的任一边界框：确定所述边界框与所述多个第二参考框的交并比，并将交并比最大的第二参考框确定为与所述边界框对应的匹配框；将所述匹配框对应的第五特征图输入所述回归子网络，得到所述匹配框的预测框；根据所述边界框与所述预测框之间的差异，确定所述回归子网络的第二损失；根据所述第二损失，调整所述回归子网络的网络参数。

在一种可能的实现方式中，所述第二对象的真实位置包括所述第二对象的轮廓，所述第一训练模块还用于：对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图；将所述多个尺度的第四特征图输入所述分割子网络，得到所述正样本图像各个像素点属于目标类别的第二概率；根据所述正样本图像的像素点数量、所述正样本图像中第二对象的轮廓以及各个像素点属于目标类别的第二概率，确定所述分割子网络的第三损失；根据所述第三损失，调整所述分割子网络的网络参数。

在一种可能的实现方式中，所述第二训练模块还用于：按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，确定假阳性区域、假阴性区域及真阳性区域对应的第五特征图；将所述第五特征图输入所述分类子网络，得到假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率；根据假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率，以及假阳性区域、假阴性区域及真阳性区域的真实类别，确定所述分类子网络的第四损失；根据所述第四损失，调整所述分类子网络的网络参数。

在一种可能的实现方式中，所述第二训练模块还用于：按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，得到真阳性区域和假阴性区域对应的第六特征图；确定与所述真阳性区域和假阴性区域匹配的边界框；将所述第六特征图输入所述回归子网络，得到所述真阳性区域和假阴性区域的预测框；根据所述真阳性区域和假阴性区域的预测框和对应的边界框之间的差异，确定所述回归子网络的第五损失；

根据所述第五损失，调整所述回归子网络的网络参数。

在一种可能的实现方式中，所述第二训练模块还用于：将所述真阳性区域和假阴性区域对应的第六特征图输入所述分割子网络，得到所述真阳性区域和假阴性区域中各个像素点属于目标类别的第四概率；根据所述真阳性区域和假阴性区域的像素点数量、所述真阳性区域和假阴性区域中第二对象的轮廓以及各个像素点属于目标类别的第四概率，确定所述分割子网络的第六损失；根据所述第六损失，调整所述分割子网络的网络参数。

根据本公开的一方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开实施例的目标检测方法的流程图；

图2示出根据本公开实施例残差注意力网络的示意图；

图3示出根据本公开实施例的FPN的示意图；

图4示出根据本公开实施例的目标检测架构的示意图；

图5示出在图4所示的目标检测网络为第一状态的目标检测网络的情况下肺结节的预测框的示意图；

图6示出在图4所示的目标检测网络为已训练的目标检测网络的情况下肺结节的预测框的示意图；

图7示出根据本公开实施例的目标检测装置的框图；

图8示出根据本公开实施例的一种电子设备800的框图；

图9示出根据本公开实施例的一种电子设备1900的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开实施例的目标检测方法的流程图。如图1所示，所述方法可以包括：

步骤S11，对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图。

步骤S12，通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中目标类别的第一对象的位置。

其中，所述目标检测网络采用递归的方式进行训练；所述目标检测网络包括分类子网络、回归子网络和分割子网络，所述分类子网络用于确定所述第一图像中是否存在所述第一对象、所述回归子网络用于确定所述第一图像中存在的第一对象的边界框，所述分割子网络用于确定所述第一图像中存在的第一对象的轮廓。

在一种可能的实现方式中，所述目标检测方法可以由终端设备或服务器等电子设备执行，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等，所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者，可通过服务器执行所述方法。

在本公开实施例中，第一对象可以表示目标类别的对象。其中，目标类别可以包括结节(例如，肺结节和乳腺结节等)和囊肿等。第一图像可以表示待进行第一对象检测的图像。第一图像可以包括2D医学影像(例如，X光片等)和/或3D医学影像(例如，CT图像和核磁共振图像等)。本公开对第一图像以及目标类别不做限制。根据本公开实施例提供的目标检测方法，可以对第一图像中是否存在第一对象进行检测，并可以得到第一对象在第一图像中的位置。

在步骤S11中，考虑到不同的第一对象之间的尺寸差异可能较大(例如，肺结节的直径在3mm至30mm之间分布)。在对尺寸较小的第一对象进行目标检测时，需要高分辨率下低阶特征信息(即尺度较小的特征图)，在对尺寸较大的第一对象进行目标检测时，需要大感受野下高阶特征信息(即尺度较大的特征图)。因此，为了兼顾不同尺寸的第一对象，提高目标检测的准确性，本步骤中可以从第一图像中提取多个尺度的第一特征图。这里，第一特征图可以用于表示对第一图像进行特征提取得到的特征图。在一个示例中，对于三维的第一图像，提取的多个尺度的第一特征图的尺度可以包括48*48*48，24*24*24，12*12*12和6*6*6等。对于第二的第一图像，提取的多个尺度的第一特征图的尺度可以包括48*48，24*24，12*12和6*6等。在本公开实施例之后的描述中，以三维的第一图像为示例进行说明，二维的第一图像的处理过程可以参照三维的第一图像，这里不再赘述。

在实施中，可以通过特征提取网络对第一图像进行特征提取，得到第一图像的多个尺度的第一特征图。其中，特征提取网络可以为任何能够进行多尺度特征提取的网络。在一个示例中，特征提取网络可以基于可视化数据库ImageNet中的海量图像训练得到。为了实现多尺度特征提取，本公开实施例中特征提取网络可以包括基础网络和特征金字塔网络(Feature Pyramid Networks，FPN)。

其中，基础网络可以用于提取第一图像的基础特征图。在一个示例中，基础网络可以包括残差网络(Residual Network，ResNet)，例如ResNet18。其中，残差网络的骨干网中每层卷积参数可以设置为：卷积核大小K为3*3*3，步长S为1，扩展P为1，且每层卷积后连接一个批归一化(Batch Normalization，BN)层和线性整流单元(Rectified Linear Unit，ReLU)。

在又一示例中，基础网络可以包括残差网络和注意力模型(Attention Model)结合而成的残差注意力网络(Residual Attention Network)。考虑到残差网络通常是在整个图像范围上提取特征的，而在实际的目标检测中，第一对象的局部特征比远离第一对象的区域特征更具有参考价值。因此，基础网络中引入注意力模型可以使得基础网络能够重点地提取和学习到更具有参考价值的特征信息(即第一对象的局部特征)。也就是说，由残差注意力网络作为基础网络进行基础特征图的提取，可以使得提取到的基础特征图更能够代表第一对象的局部特征，进而提升目标检测的准确性。

图2示出根据本公开实施例残差注意力网络的示意图。如图2所示，残差注意力网络包括：残差网络和注意力模型。通过残差网络可以获取第一图像的主干特征图，通过注意力模型可以获取第一图像的注意力特征图(需要说明的是，注意力特征图的尺度与主干特征图的尺度相同)，将主干特征图和注意力特征图相结合即可得到第一图像的基础特征图。在一个示例中，第一图像的基础特征图＝(1+注意力特征图)*主干特征图。

在一个示例中，如图2所示，注意力模型可以包括全局均值池化单元、全连接修正线性单元和全连接激活单元。

在获取到基础特征图之后，可以通过FPN获取第一图像的多个尺度的特征图。FPN包括下采样处理和上采样处理。其中，下采样处理可以降低特征图的尺度，扩大感受野，但是会丢失尺寸较小的第一对象的特征信息，上采样处理可以提高特征图的尺度，保留尺寸较小的第一对象的特征信息，但是会缩小感受野。

以FPN从基础特征图中获取第一图像的4个尺度(具体为：48*48*48，24*24*24，12*12*12和6*6*6，单位：像素)的第一特征图为例进行说明。图3示出根据本公开实施例的FPN的示意图。如图3所示，C1可以用于表示通过基础网络获取的第一图像的基础特征图。由于最终需要4个尺度的第一特征图，因此，在本公开实施例中，对C1依次进行4次下采样，分别得到C2、C3、C4和C5。将C5与1*1*1的卷积核进行卷积，得到P5；对P5进行上采样，将C4与1*1*1的卷积核进行卷积，P5的上采样结果和C4的卷积结果相加得到P4；对P4上进行上采样，将C3与1*1*1的卷积核进行卷积，P4的上采样结果和C3的卷积结果相加得到P3；对P3进行上采样，将C2与1*1*1的卷积核进行卷积，P3的上采样结果和C2的卷积结果相加得到P2。将P5、P4、P3和P2分别与3*3*3的卷积核进行卷积，可以得到6*6*6、12*12*12、24*24*24和48*48*48的特征图，也就得到了第一图像的4个尺度的第一特征图。

在本公开实施例中，通过FPN将基础网络提取的基础特征图转换为多尺度的特征图，解决了第一对象多尺寸的问题，通过简单的网络连接改变，在基本不增加计算量的情况下，可以有效提升检测小尺寸的第一对象的性能。

在步骤S12中，可以通过已训练的目标检测网络对第一图像的多个尺度的第一特征图进行处理，从而得到第一图像中存在的第一对象的位置。

其中，第一对象的位置可以通过第一对象边界框和第一对象的轮廓表示。目标检测网络包括分类子网络、回归子网络和分割子网络，其中，分类子网络可以用于确定第一图像中是否存在所述第一对象，回归子网络可以用于确定第一图像中存在的第一对象的边界框，分割子网络可以用于确定第一图像中存在的第一对象的轮廓。通过分类、回归和分割多个任务共同训练得到的，利用任务间的关联性可以提升对第一对象的识别能力。同时，在本公开实施例中，上述包括分类子网络、回归子网络和分割子网络的目标检测网络是采用递归的方式训练完成的，在提高目标检测的敏感性的基础上，可以提高目标检测的准确性。

在本公开实施例中，基于多任务学习和递归式训练得到了已训练的目标检测网络。

考虑到对目标检测网络而言：在保持敏感性较高的情况下，存在准确性较低(即存在大量对象被错误分类)的问题；在保持准确性较高的情况下，存在敏感性较低(即存在大量目标类别的对象未被检测出)的问题。举例来说：在敏感性到达95％以上的情况下，存在大量的假阳性样本图像(约为32％)；将假阳性样本图像控制在3％以下的情况下，敏感性较低(约有20％的目标未被检测出)。

因此，在本公开实施例中，将目标检测网络的训练过程拆分为两个阶段。在第一阶段中，重点关注敏感性，使目标检测网络尽可能获取更多的疑似第一对象；在第二阶段中，重点关注准确性，使目标检测网络在高敏感性的基础上获取较高的准确性。

在一种可能的实现方式中，所述方法还包括：根据第一训练集，对目标检测网络进行训练，得到第一状态的目标检测网络；根据第二训练集，对第一状态的目标检测网络进行训练，得到已训练的目标检测网络。

也就是说，在本公开实施例中将目标检测网络的训练过程拆分为两个阶段：第一阶段的训练中，根据第一训练集，对目标检测网络进行训练，得到第一状态的目标检测网络，为第一阶段的训练；在第二阶段的训练中，对第一状态的目标检测网络进行训练，得到已训练的目标检测网络。

在第一阶段中，采用第一训练集进行目标检测网络的训练。其中，第一训练集包括多个样本图像以及所述样本图像的第一标注信息，所述第一标注信息包括所述样本图像中第二对象的真实位置。其中，所述多个样本图像包括正样本图像和负样本图像。这里，正样本图像中包括至少一个第二对象，负样本图像中不包括第二对象。第二对象可以表示训练样本图像中存在的目标类别的对象，第二对象可以参照第一对象，这里不再赘述。

下面对第一训练集的获取过程进行说明。

在一种可能的实现方式中，所述方法还包括：对已标注的第二图像进行裁剪，得到预设尺寸的正样本图像及负样本图像。

第二图像可以用于表示已标注的图像。在一个示例中，第二图像可以为已标注的医学影像。第二图像的标注信息可以用于指示第二图像中每个第二对象真实位置(包括边界框和轮廓)。在一个示例中，第二对象的边界框可以采用二值化长方体表示。在又一示例中，第二对象的边界框可以采用二值化球体表示。可以理解的是，该二值化球体的中心点与第二对象的中心点相同，该二值化球体的半径为根据需要设定的半径。第二对象的轮廓可以采用第二图像中每个像素点的是否为目标类别进行表示。预设尺寸可以根据需要设置，举例来说，预设尺寸可以为96*96*96(单位：像素*像素*像素)。

在实施中，可以按照第二图像的标注信息，从所述第二图像中获取预设尺寸的正样本图像和负样本图像。

在一个示例中，可以按照第二图像的标注信息，确定第二图像中各第二对象的位置(中心点和边界框等)。然后根据第二对象的位置(例如，以第二对象为中心)，从第二图像中裁剪出尺寸为预设尺寸且包括第二对象的图像块，以及裁剪出尺寸为预设尺寸且不包括第二对象的图像块。裁剪出的包括第二对象的图像块可以作为正样本图像，裁剪出的不包括第二对象的图像块可以作为负样本图像。

通过对第二图像进行裁剪获取包括第二对象的图像块和不包括第二对象的图像块，可以解决因第二图像包含的数据量大、图像处理器(Graphics Processing Unit，GPU)的显存有限等原因而造成的GPU无法直接处理的问题。通过裁剪预设尺寸的图像块可以降低第二对象所在区域与非第二对象所在区域的不平衡问题的问题，例如肺部CT图像中肺结节区域的尺寸远小于正常组织区域的尺寸的问题。

在一个示例中，对裁剪出的包括第二对象的图像块和包括第二对象的图像块通过旋转、平移、镜像和缩放等操作进行数据增强，从而实现数据扩充，增加包括第二对象的图像块的数量，以及增加不包括第二对象的图像块的数量。这些通过数据增加得到的包括第二对象的图像块也可以作为正样本图像，这些通过数据增强得到的不包括第二对象的图像块也可以作为负样本图像。通过对裁剪出的包括第二对象的图像块和不包括第二对象的图像块进行数据增强，可以有效的扩增样本图像的数量，并提高目标检测网络的泛化能力。

在一个示例中，获取的正样本图像的数量和负样本图像的数量相同。通过获取相同数量的包括第二对象的图像块和不包括第二对象图像块，可以有效平衡正负样本图像，从而防止过拟合。

在一种可能的实现方式中，可以首先通过对已标注的第二图像进行预处理，然后对预处理后的第二图像进行裁剪，得到预设尺寸的正样本图像及负样本图像。这样，可以提升获取到的正样本图像和负样本图像的图像质量，有利于后续对目标检测网络的训练。对第二图像的预处理可以包括重采样、裁剪和归一化等中的一者或多者。

以肺部CT图像作为第二图像为例，对第二图像的预处理过程进行说明。考虑到肺部CT图像为3D图像，不同CT仪器拍摄得到的CT图像的厚度可能不同(例如肺部CT图像的厚度可以为4mm、2.5mm、1.25mm、1mm和0.7mm等)。通过将肺部CT图像重采样到1*1*1的分辨率下，可以有效消除肺部CT图像之间的厚度差异。在重采样之后，可以裁剪出肺部实质所在的区域。这样，可以使得正样本图像和负样本图像均为肺部区域的组织，可以减少其他器官对训练目标检测网络的干扰。在裁剪出肺部实质所在区域之后，可以将裁剪出的区域中各像素(也可以称为体素)的值归一化到0-1的值域范围内，得到预处理后的肺部CT图像。这样可以有效降低后续的计算量。

需要说明的是，从预处理后的第二图像中裁剪预设尺寸的正样本图像和负样本图像的方式可以参照从第二图像中直接裁剪预设尺寸的正样本图像和负样本图像的方式，这里不再赘述。

至此，完成了正样本图像和负样本图像的获取，也就是完成了第一训练集中样本图像的获取。

可以理解的是，按照第二图像的标注信息，可以确定出第二图像中每个第二对象的位置。因此，按照所述第二图像的标注信息，可以确定每个正样本图像的标注信息以及每个负样本图像的标注信息，也就是确定了第一训练集中每个样本图像的第一标注信息。

至此，获取了第一训练集中的样本图像，确定了每个样本图像的第一标注信息。也就是说，完成了第一训练集的获取。下面对采用该第一训练集，对目标检测网络进行训练，得到第一状态的目标检测网络的过程进行说明。

所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络包括所述根据第一训练集，分别对目标检测网络的分类子网络、回归子网络和分割子网络进行训练。在本公开实施例中，基于分类、回归和分割的多任务学习进行目标检测网络的训练，利用了任务间的关联性提升了对目标类别的对象的识别能力。

在进行分类子网络的训练时，需要使用的样本图像包括：正本图像和负样本图像，需要使用的标注信息包括：第二对象的边界框。

在一种可能的实现方式中，所述根据所述第一训练集，对目标检测网络的分类子网络进行训练可以包括：步骤S21至步骤S24。

在步骤S21中，对所述样本图像进行特征提取，得到所述样本图像的多个尺度的第二特征图。

其中，第二特征图可以表示从样本图像中提取的特征图。对样本图像进行特征提取的过程可以参照通过对第一图像进行特征提取的过程，这里不再赘述。举例来说，第二特征图的尺度可以包括6*6**6、12*12*12、24*24*24和48*48*48等。

在步骤S22中，根据所述多个尺度的第二特征图及预设的多个锚框，确定所述样本图像中的多个第一参考框。

其中，预设的锚框可以用于指示第一参考框的大小。预设的锚框可以根据需要进行预先设置。在一个示例中，肺结节的大小为3mm到30mm，因此预设的锚框的面积可以设置为4、8、16和32(单位：像素*像素)等。预设的同一面积的锚框的形状可以有多个。以预设的锚框的面积为4来说，预设的锚框的形状可以包括：1*4、2*2和4*1(单位：像素*像素)。以预设的锚框的面积为8来说，预设的锚框的形状可以包括：1*8、2*4、4*2和8*1。本公开实施例中，预设的锚框的面积和形状均可以预先根据需要进行设置，本公开实施例对预设的锚框的面积和形状不做限制。

针对样本图像的一个尺度的第二特征图，可以在样本图像中确定出多个第一参考框的中心点。举例来说，假设样本图像的某个尺度的特征图的尺度为3*3*3，则将样本图像平均分为9个区域，每个区域的中心点即为一个第一参考框的中心点。针对一个第一参考框的中心点和一个预设的锚框，可以确定出一个第一参考框。

在步骤S23中，根据所述样本图像中第二对象的边界框，从所述多个第一参考框中确定出预设数量的训练样本。

其中，训练样本包括正样本和负样本，正样本的标注信息为属于目标类别，负样本的标注信息为不属于目标类别。

根据第一参考框和第二对象的边界框的交并比，可以确定第一参考框与第二对象的边界框的差距，从而确定出该第一参考框的标签是目标类别还是非目标类别。在一个第一参考框与一个第二对象的边界框的交并比较大的情况下，表明两者之间的差距较小，此时该第一参考框的标签可能为目标类别，该第一参考框可以作为分类子网络的正样本。在一个第一参考框与一个边界框的交并比较小的情况下，表明两者之间的差距较大，此时该第一参考框可能为非目标类别，该第一参考框可以作为分类子网络的负样本。

在一种可能的实现方式中，步骤S23可以包括：将所述样本图像中的边界框划分至多个边界框集合中，每个边界框集合中边界框的尺寸处于预设的尺寸区间内；针对任一边界框集合，从所述多个第一参考框中去除已被确定为训练样本的第一参考框，得到与所述边界框集合对应的参考框集合；针对所述边界框集合中的任一边界框，根据所述边界框与对应的参考框集合中的各个第一参考框之间的交并比，确定与所述边界框对应的正样本和负样本，所述正样本的数量与所述边界框集合的尺寸区间负相关；根据尺寸区间由小到大的顺序依次处理各个边界框集合，得到所述预设数量的训练样本。

由于第二对象之间的尺寸差距较大，因此，第二对象的边界框之间的尺寸差距也较大。为了兼顾尺寸较大的第二对象和尺寸较小的第二对象，在本公开实施例中，可以按照尺寸将样本图像中的边界框划分至多个边界框集合中，然后对各个边界框集合分别进行处理。

在实施中，可以为每个边界框集合预设一个尺寸区间。当一个边界框的尺寸在某个边界框集对应的尺寸区间内时，该边界框即可划分到该边界框集合中。这样，每个边界框集合中边界框的尺寸都是处于为该边界框集合预设的尺寸区间内。

为边界框集合预设的尺寸区间可以根据需要(例如根据第二对象的大小)进行设置，本公开实施例对尺寸区间不做限制。以肺结节作为第二对象为例进行说明。肺结节的大小在3mm至30mm之间，其中，尺寸小于或者等于6mm的可以称为小结节，尺寸大于6mm且小于12mm之间的称为中结节，尺寸大于或者等于12mm的称为大结节。因此，设置三个边界框集合，并为每个边界框集合设置一个尺寸区间。

在完成边界框集合的划分之后，可以按照尺寸区间由小到大的顺序，依次处理各个边界框集合。

第一边界框集合可以表示划分出的多个边界框集合中的任意一个。处理其他边界框集合的过程可以参考处理第一边界框集合的过程，这里不再赘述。处理第一边界框集合的过程包括：从所述多个第一参考框中去除已被确定为训练样本的第一参考框，得到所述第一边界框集合对应的参考框集合；针对所述第一边界框集合中任意一个边界框：根据该边界框与所述第一边界框集合对应的参考框集合中的各个第一参考框之间的交并比，确定该边界框对应的正样本和负样本。

参考框集合中包括多个第一参考框，参考框集合可以限制选取正样本和负样本的范围。在第一边界框集合为排序后第一个被处理的边界框集合的情况下，表明当前不存在被确定为训练样本(包括正样本和负样本)的第一参考框。此时，针对任意一个样本图像，使用该样本图像中所有的第一参考框组成第一边界框集合对应的参考框集合。在第一边界框集合为排序后非第一个被处理的边界框集合的情况下，表明部分第一参考框可能已经被确定为了训练样本。此时，针对任意一个样本图像，可以将该样本图像的第一参考框中被确定为了训练样本的第一参考框行剔除，使用剩余的第一参考框中组成第一边界框集合对应的参考框集合。这样，可以减少交并比计算次数，降低计算量和工作量。

在本公开实施例中，一个边界框对应的正样本的数量与该边界框所述边界框集合的尺寸区间负相关。也就是说，在一个边界框所属边界框集合的尺寸区间较大的情况下，该边界框对应的正样本的数量较少；在一个边界框所属边界框集合的尺寸区间较小的情况下，该边界框对应的正样本的数量较多。以肺结节作为第二对象为例进行说明，代表小结节边界框集合对应正样本的数量可以为6，代表中结节的边界框对应正样本的数量可以为4，代表大结节的边界框对应正样本的数量可以为2。由于尺寸较小的第二对象的学习难度较高，尺寸较大的第二对象的学习难度较低，这样，给尺寸较小的第二对象确定较多的正样本，给尺寸较大的第二对象确定较少的正样本，可以平衡学习不同尺寸的第二对象的难易程度，从而可以确保各种尺寸的第二对象都有足够的敏感性。

在一种可能的实现方式中，针对所述第一边界框集合中每个边界框，可以按照对应的参考框集合中各第一参考框与该边界框的交并比由小到大的顺序，对该参考框集合中各第一参考框进行排序，将第一个至第N个第一参考框确定为该边界框对应的正样本，将交并比在指定阈值(可以根据需要进行设置，例如可以为大于0.02且小于0.2)内的第一参考框确定为该边界框对应的负样本。同时，为了防止过拟合，可以使一个边界框对应的正样本的数量和负样本的数量相同或相近。

在步骤S24中，根据所述训练样本，训练所述分类子网络。

在一种可能的实现方式中，步骤S24可以包括：对所述第二特征图进行裁剪，得到所述训练样本对应的第三特征图；将所述第三特征图输入所述分类子网络，得到所述训练样本属于目标类别的第一概率；根据所述训练样本属于目标类别的第一概率及所述训练样本的标注信息，确定所述分类子网络的第一损失；根据所述第一损失，调整所述分类子网络的网络参数。

在实施中，针对每个训练样本：可以根据该训练样本在样本图像中的位置，确定该训练样本对应的第三特征图在样本图像对应的第二特征图中的位置，根据第三特征图在第二特征图中的位置，对第二特征图进行裁剪，得到该训练样本对应的第三特征图。可以理解的是，第二特征图有多个尺度，裁剪出来的第三特征图也是多个尺度的。

将训练样本的第三特征图输入目标检测网络的分类子网络中，输出训练样本属于目标类别的第一概率。然后通过公式一，根据第一概率和训练样本的标注信息，可以确定分类子网络的第一损失。

其中，L_ft表示第一损失，y表示训练样本的标注信息，y＝1表示训练样本属于目标类别，y＝0表示训练样本不属于目标类别。y′表示分类子网络输出的第一概率。γ和α为超参数。其中，γ主要用于减少易分类训练样本的权重，使得目标检测网络的分类子网络更注重于难分类的训练样本。在一个示例中，γ的取值可以为2。α主要用于平衡训练样本中正样本和负样本的比例，有效解决目标检测中正负样本比例严重失衡的问题。在一个示例中α的取值可以为0.25。

若一个训练样本属于目标类别且该训练样本的第一概率大于第一阈值时，可以认为该训练样本属于易分类训练样本。若一个训练样本属于非目标类别且该训练样本的第一概率小于第二阈值时，可以认为该训练样本属于易分类训练样本。其中，第一阈值和第二阈值可以根据需要进行设置。第一阈值可以设置为一个较为接近1的值，例如可以设置为0.9或者0.95等。第二阈值可以设置为一个较为接近0的值，例如可以设置为0.05或者0.1等。本公开实施例对第一阈值和第二阈值的设置不做限制。根据公式一可见，针对易分类训练样本得到的L_ft相对较小。也就是说，易分类训练样本带来的第一损失也就比较小，对分类子网络的网络参数的影响比较小。这相当于减少了易分类训练样本的权重。

若一个训练样本属于目标类别且该训练样本的第一概率小于第三阈值时，可以认为该训练样本属于难分类训练样本。若一个训练样本属于非目标类别，该训练样本的第一概率大于第四阈值时，可以认为该训练样本属于难分类训练样本。其中，第三阈值和第四阈值可以根据需要进行设置。第三阈值和第四阈值可以设置为接近0.5的值。例如，第三阈值可以设置为0.55或者0.6等，第四阈值可以设置为0.4或者0.45等。本公开实施例对第三阈值和第四阈值的设置不做限制。根据公式一可见，针对难分类训练样本得到的L_ft相对较大。也就是说，难分类样本带来的第一损失比较大，对分类子网络的网络参数的影响比较大，这就相当于增加了难分类训练样本的权重，使得分类子网络更注重于难分类的训练样本。

需要说明的是，在确定分类损失之前，可以首先对训练样本的标注信息进行的平滑操作，具体地可以将y的取值由0和1软化为0.1和0.9，以此增强目标检测网络的泛化性能。

至此完成了根据第一训练集对目标检测网络的分类子网络的训练。

在进行回归子网络的训练时，需要使用的样本图像包括：正本图像，需要使用的标注信息包括：第二对象的边界框。

在一种可能的实现方式中，根据所述第一训练集，对所述目标检测网络的回归子网络进行训练可以包括：步骤S31至步骤S36。

在步骤S31中，对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图。

第四特征图可以表示正样本图像的特征图。步骤S31可以参照步骤S21，这里不再赘述。

在步骤S32中，根据所述多个尺度的第四特征图及预设的多个锚框，确定所述正样本图像中的多个第二参考框。

步骤S32可以参照步骤S22，这里不再赘述。

在步骤S33中，针对所述样本图像中第二对象的任一边界框，确定所述边界框与所述多个第二参考框的交并比，并将交并比最大的第二参考框确定为与所述边界框对应的匹配框。

在步骤S34中，针对所述样本图像中第二对象的任一边界框，将所述匹配框对应的第五特征图输入所述回归子网络，得到所述匹配框的预测框。

第五特征图可以表示匹配框对应的特征图。获得匹配框对应的第五特征图的方式可以参照步骤S24中获得训练样本对应的第三特征图的方式，这里不再赘述。

在步骤S35中，针对所述样本图像中第二对象的任一边界框，根据所述边界框与对应的匹配框的预测框之间的差异，确定所述回归子网络的第二损失。

在一种可能的实现方式中，步骤S35可以包括：根据所述边界框与所述预测框之间的坐标偏移量及交并比，确定所述匹配框的第一回归损失；根据所述边界框与所述预测框之间的交集、并集及最小闭区域，确定所述匹配框的第二回归损失；根据所述第一回归损失及所述第二回归损失，确定所述回归子网络的第二损失。

在一个示例中，可以通过公式二确定第一回归损失：

其中，可以表示第一回归损失，W_iou表示预测框的权重，W_iou＝(e^-iou+0.4)，iou表示预测框和对应边界框的交并比，x表示预测框相对于对应边界框的坐标偏移量。

通过利用预测框和对应边界框的交并比为指导，根据公式二给交并比较小的预测框更大的损失值，使采用该预测框对应的匹配框训练回归子网络时，回归子网络的参数更新力度更大。

考虑到在第一回归损失相同的情况下，不同预测框的位置有较大差异，因此，在本公开实施例中引入第二回归损失，使得第二对象的定位更加准确。

在一个示例中，可以通过公式三确定第二回归损失；

其中，L_GIoU表示第二回归损失，A和B分别表示预测框和对应边界框，C表示A和B的最小闭区域，A∪B表示预测框和对应边界框的并集，A∩B表示预测框和对应边界框的交集。

通过引入第二回归损失作为辅助，对预测框与对应边界框的重合区域以及非重合区域进行优化，从而更加准确地定位到第二对象所在区域。

在一个示例中，可以将第一回归损失和第二回归损失进行加权求和，得到回归子网络的第二损失。

在步骤S36中，根据所述第二损失，调整所述回归子网络的网络参数。

至此完成了根据第一训练集对目标检测网络的回归子网络的训练。

在进行分割子网络的训练时，需要使用的样本图像包括：正样本图像，需要使用的标注信息包括：第二对象的轮廓。

在一种可能的实现方式中，根据所述第一训练集，对所述目标检测网络的分割子网络进行训练可以包括：步骤S41至步骤S44。

在步骤S41中，对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图。

步骤S41可以参照步骤S31，这里不再赘述。

在步骤S42中，将所述多个尺度的第四特征图输入所述分割子网络，得到所述正样本图像各个像素点属于目标类别的第二概率。

在步骤S43中，根据所述正样本图像的像素点数量、所述正样本图像中第二对象的轮廓以及各个像素点属于目标类别的第二概率，确定所述分割子网络的第三损失。

在一个示例中，可以通过公式四确定分割子网络的第三损失：

其中，L_dice表示第三损失，N为正样本图像的像素点数量，i表示正样本图像中第i个像素，0<i≤N，p_i表示分割子网络输出的正样本图像中第i个像素属于目标类别的第二概率，g_i分别表示正样本图像中第i个像素的真实类别，g_i的取值包括0和1，其中，取值0表示第i个像素的属于非目标类别，取值1表示第i个像素的属于目标类别。g_i可以根据正样本图像中各第二对象的轮廓确定。

考虑到第二对象在第二图像中所在比例较小，存在一定程度的正负样本图像不平衡，本公开实施例中采用分割损失优化分割任务，有利于平衡正负样本图像，从而提升了对尺寸较小的第二对象的分割能力。

在步骤S44中，根据所述第三损失，调整所述分割子网络的网络参数。

至此完成了根据第一训练集对目标检测网络的分割子网络的训练。

在完成了根据第一训练集对目标检测网络的分类子网络、回归子网络和分割子网络的训练时，也就完成了第一阶段的训练，得到了第一状态的目标检测网络。之后，进入第二阶段，在第二阶段中可以根据第二训练集，对第一状态的目标检测网络进行训练，得到已训练的目标检测网络。这里，对对第一状态的目标检测网络进行训练的过程实际上是一个微调的过程。

其中，第二训练集包括多个样本图像以及所述样本图像的第二标注信息，所述第二标注信息包括所述样本图像中的假阳性区域、假阴性区域以及真阳性区域。

下面对第二训练集的获取过程进行说明。

在一种可能的实现方式中，所述方法还包括：通过所述第一状态的目标检测网络对所述样本图像进行处理，得到所述样本图像中第二对象的预测位置；根据所述第二对象的预测位置及真实位置，确定所述样本图像中的假阳性区域、假阴性区域及真阳性区域。

在实施中，假阳性(False Positive，FP)区域表示样本图像中第一标注信息显示为不是第二对象，但第一状态的分类子网络输出结果显示为第二对象的区域；真阳性(Truth Positive，TP)区域表示样本图像中第一标注信息显示为第二对象，且第一状态的分类子网络输出结果也显示为第二对象的区域；假阴性(False Negtive，FN)区域表示样本图像中第一标注信息显示为第二对象，但第一状态的分类子网络的输出结果显示不是第二对象的区域；真阴性(Truth Negtive，TN)区域表示样本图像中第一标注信息显示为不是第二对象，且第一状态的分类子网络输出结果也显示为不是第二对象的样本图像。考虑到假阳性区域实际上不是第二对象，且出现了分类错误，需要进行更正。因此，可以根据假阳性区域确定第二训练集中的负样本图像。考虑到真阳性区域和假阴性区域实际上为第二对象，因此可以根据真阳性区域和假阴性区域确定第二训练集中的正样本图像。在一个示例中，可以将所有的假阳性区域作为第二训练集中的负样本图像；可以对假阴性区域进行三倍数据增强，并从真阳性区域中选取部分(例如选取2/3)作为第二训练集中的正样本图像。

下面对根据第二训练集，对第一状态的目标检测网络进行训练的过程进行说明。

所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络包括：根据第二训练集，分别对第一状态的目标检测网络的分类子网络、回归子网络和分割子网络进行训练。在本公开实施例中，基于分类、回归和分割的多任务学习进行第一状态的目标检测网络的训练，利用了任务间的关联性提升了对目标类别的对象的识别能力。

在进行分类子网络的训练时，使用的样本图像中包括：假阳性区域、假阴性区域及真阳性区域，需要使用的标注信息包括：第二对象的边界框。

在一种可能的实现方式中，所述根据第二训练集，对第一状态的目标检测网络的分类子网络进行训练可以包括：按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，确定假阳性区域、假阴性区域及真阳性区域对应的第五特征图；将所述第五特征图输入所述分类子网络，得到假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率；根据假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率，以及假阳性区域、假阴性区域及真阳性区域的真实类别，确定所述分类子网络的第四损失；根据所述第四损失，调整所述分类子网络的网络参数。

上述过程可以参照步骤S21至步骤S24，这里不再赘述。

在进行回归子网络的训练时，使用的样本图像中包括真阳性区域和假阴性区域，需要使用的标注信息包括：第二对象的边界框。

在一种可能的实现方式中，所述根据第二训练集，对第一状态的目标检测网络的回归子网络进行训练可以包括：确定与所述真阳性区域和假阴性区域匹配的边界框；将所述第六特征图输入所述回归子网络，得到所述真阳性区域和假阴性区域的预测框；根据所述真阳性区域和假阴性区域的预测框和对应的边界框之间的差异，确定所述回归子网络的第五损失；根据所述第五损失，调整所述回归子网络的网络参数。

上述过程可以参照步骤S31至步骤S36，这里不再赘述。

在进行分割子网络的训练时，使用的样本图像中包括真阳性区域和假阴性区域，需要使用的标注信息包括：第二对象的轮廓。

在一种可能的实现方式中，根据所述第二训练集，对第一状态的目标检测网络的分割子网络进行训练可以包括：将所述真阳性区域和假阴性区域对应的第六特征图输入所述分割子网络，得到所述真阳性区域和假阴性区域中各个像素点属于目标类别的第四概率；根据所述真阳性区域和假阴性区域的像素点数量、所述真阳性区域和假阴性区域中第二对象的轮廓以及各个像素点属于目标类别的第四概率，确定所述分割子网络的第六损失；根据所述第六损失，调整所述分割子网络的网络参数。

上述过程可以参照步骤S41至步骤S44，这里不再赘述。

在一种可能的实现方式中，在第二阶段训练过程中，可以根据假阳性区域的第三概率，确定假阳性区域对应损失(包括第四损失)的系数，假阴性区域和真阳性区域的第三概率可以作为该假阴性区域和真阳性区域对应损失(包括第四损失、第五损失和第六损失)的系数。这样，可以加快收敛，节省训练时间。

在一种可能的实现方式中，在第二阶段训练过程中，可以采用困难样本挖掘(online-hardness-minig)方法(例如，每次迭代着重优化损失值最大的10个的区域)，将第一状态的目标检测网络训练为已训练的目标检测网络。这样，可以加快收敛，节省训练时间。

需要说明的是，递归方式的训练过程与多任务学习的训练过程是紧密结合在一起的，不是单独的两个过程。在递归方式训练目标检测网络的过程的每个阶段均与多任务学习进行了结合。

应用示例

图4示出根据本公开实施例的目标检测架构的示意图。如图3所示，所述目标检测架构包括特征提取网络和目标检测网络。其中，特征提取网络包括基础网络和FPN，目标检测网络包括分类子网络、回归子网络和分割子网络。

从图4所示的肺部CT图像中检测肺结节的目标检测网络的过程可以包括：可以首先将该肺部CT图像分割成指定尺寸的图像块，每个图像块即为一个第一图像；然后，分别将各个第一图像输入图4所示的目标检测网络中，得到各个第一图像中肺结节的边界框和轮廓。最后，根据各个第一图像中肺结节的边界框和轮廓，可以确定出肺部CT图像中的肺结节的边界框和轮廓。

针对每个第一图像，将该第一图像输入图4所示的特征提取网络进行处理，获取到该第一图像的多个尺度的第一特征图。将该第一图像的多个尺度的第一特征图分别输入已训练的目标检测网络的分类子网络、回归子网络和分割子网络即可得到该第一图像中是否存在肺结节，以及每个肺结节的边界框和轮廓。

图5示出在图4所示的目标检测网络为第一状态的目标检测网络的情况下肺结节的预测框的示意图。如图5所示，在图4所示的目标检测网络为通过第一阶段训练出的第一状态的目标检测网络的情况下，存在大量的假阳性肺结节和部分假阴性肺结节。

图6示出在图4所示的目标检测网络为已训练的目标检测网络的情况下肺结节的预测框的示意图。如图6所示，在图4所示的目标检测网络为通过第一阶段和第二阶段训练出的已训练的目标检测网络的情况下，减少了假阳性肺结节的数量。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了目标检测装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种目标检测方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图7示出根据本公开实施例的目标检测装置的框图。如图7所示，所述装置700包括：

提取模块701，用于对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；第一处理模块702，用于通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中存在的目标类别的第一对象的位置；其中，所述目标检测网络采用递归的方式进行训练；所述目标检测网络包括分类子网络、回归子网络和分割子网络，所述分类子网络用于确定所述第一图像中是否存在所述第一对象、所述回归子网络用于确定所述第一图像中存在的第一对象的边界框，所述分割子网络用于确定所述第一图像中存在的第一对象的轮廓。

在一种可能的实现方式中，所述装置还包括：

根据所述第五损失，调整所述回归子网络的网络参数。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的目标检测方法的指令。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的目标检测方法的操作。

电子设备可以被提供为终端、服务器或其它形态的设备。

图8示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如互补金属氧化物半导体(CMOS)或电荷耦合装置(CCD)图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如无线网络(WiFi)，第二代移动通信技术(2G)或第三代移动通信技术(3G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图9示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图9，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如微软服务器操作系统(Windows Server^TM)，苹果公司推出的基于图形用户界面操作系统(Mac OSX^TM)，多用户多进程的计算机操作系统(Unix^TM),自由和开放原代码的类Unix操作系统(Linux^TM)，开放原代码的类Unix操作系统(FreeBSD^TM)或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种目标检测方法，其特征在于，包括：

对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；

通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中存在的目标类别的第一对象的位置；

其中，所述目标检测网络采用递归的方式进行训练；所述目标检测网络包括分类子网络、回归子网络和分割子网络，所述分类子网络用于确定所述第一图像中是否存在所述第一对象、所述回归子网络用于确定所述第一图像中存在的第一对象的边界框，所述分割子网络用于确定所述第一图像中存在的第一对象的轮廓；

其中，所述分类子网络根据训练样本训练，所述训练样本的获取方法包括：

将样本图像中的边界框划分至多个边界框集合中，每个边界框集合中边界框的尺寸处于预设的尺寸区间内；

针对任一边界框集合，从多个第一参考框中去除已被确定为训练样本的第一参考框，得到与所述边界框集合对应的参考框集合；

针对所述边界框集合中的任一边界框，根据所述边界框与对应的参考框集合中的各个第一参考框之间的交并比，确定与所述边界框对应的正样本和负样本，所述正样本的数量与所述边界框集合的尺寸区间负相关；

根据尺寸区间由小到大的顺序依次处理各个边界框集合，得到所述预设数量的训练样本。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，所述第一训练集包括多个样本图像以及所述样本图像的第一标注信息，所述第一标注信息包括所述样本图像中第二对象的真实位置；

通过所述第一状态的目标检测网络对所述样本图像进行处理，得到所述样本图像中第二对象的预测位置；

根据所述第二对象的预测位置及真实位置，确定所述样本图像中的假阳性区域、假阴性区域及真阳性区域；

根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，所述第二训练集包括多个样本图像以及所述样本图像的第二标注信息，所述第二标注信息包括所述样本图像中的假阳性区域、假阴性区域及真阳性区域。

3.根据权利要求2所述的方法，其特征在于，所述多个样本图像包括正样本图像和负样本图像，所述方法还包括：

对已标注的第二图像进行裁剪，得到预设尺寸的正样本图像及负样本图像，所述正样本图像中包括至少一个第二对象，所述负样本图像中不包括第二对象。

4.根据权利要求2所述的方法，其特征在于，所述第二对象的真实位置包括所述第二对象的边界框，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：

对所述样本图像进行特征提取，得到所述样本图像的多个尺度的第二特征图；

根据所述多个尺度的第二特征图及预设的多个锚框，确定所述样本图像中的多个第一参考框；

根据所述样本图像中第二对象的边界框，从所述多个第一参考框中确定出预设数量的训练样本，所述训练样本包括标注信息为属于目标类别的正样本，以及标注信息为不属于目标类别的负样本；

根据所述训练样本，训练所述分类子网络。

5.根据权利要求4所述的方法，其特征在于，所述根据所述训练样本，训练所述分类子网络，包括：

对所述第二特征图进行裁剪，得到所述训练样本对应的第三特征图；

将所述第三特征图输入所述分类子网络，得到所述训练样本属于目标类别的第一概率；

根据所述训练样本属于目标类别的第一概率及所述训练样本的标注信息，确定所述分类子网络的第一损失；

根据所述第一损失，调整所述分类子网络的网络参数。

6.根据权利要求3所述的方法，其特征在于，所述第二对象的真实位置包括所述第二对象的边界框，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：

对所述正样本图像进行特征提取，得到所述正样本图像的多个尺度的第四特征图；

根据所述多个尺度的第四特征图及预设的多个锚框，确定所述正样本图像中的多个第二参考框；

针对所述样本图像中第二对象的任一边界框：

确定所述边界框与所述多个第二参考框的交并比，并将交并比最大的第二参考框确定为与所述边界框对应的匹配框；

将所述匹配框对应的第五特征图输入所述回归子网络，得到所述匹配框的预测框；

根据所述边界框与所述预测框之间的差异，确定所述回归子网络的第二损失；

根据所述第二损失，调整所述回归子网络的网络参数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述边界框与所述预测框之间的差异，确定所述回归子网络的第二损失，包括：

根据所述边界框与所述预测框之间的坐标偏移量及交并比，确定所述匹配框的第一回归损失；

根据所述边界框与所述预测框之间的交集、并集及最小闭区域，确定所述匹配框的第二回归损失；

根据所述第一回归损失及所述第二回归损失，确定所述回归子网络的第二损失。

8.根据权利要求3所述的方法，其特征在于，所述第二对象的真实位置包括所述第二对象的轮廓，所述根据第一训练集，对所述目标检测网络进行训练，得到第一状态的目标检测网络，包括：

将所述多个尺度的第四特征图输入所述分割子网络，得到所述正样本图像各个像素点属于目标类别的第二概率；

根据所述正样本图像的像素点数量、所述正样本图像中第二对象的轮廓以及各个像素点属于目标类别的第二概率，确定所述分割子网络的第三损失；

根据所述第三损失，调整所述分割子网络的网络参数。

9.根据权利要求2所述的方法，其特征在于，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：

按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，确定假阳性区域、假阴性区域及真阳性区域对应的第五特征图；

将所述第五特征图输入所述分类子网络，得到假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率；

根据假阳性区域、假阴性区域及真阳性区域属于目标类别的第三概率，以及假阳性区域、假阴性区域及真阳性区域的真实类别，确定所述分类子网络的第四损失；

根据所述第四损失，调整所述分类子网络的网络参数。

10.根据权利要求2所述的方法，其特征在于，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：

按照所述第二标注信息，对所述样本图像的多个尺度的第二特征图进行裁剪，得到真阳性区域和假阴性区域对应的第六特征图；

确定与所述真阳性区域和假阴性区域匹配的边界框；

将所述第六特征图输入所述回归子网络，得到所述真阳性区域和假阴性区域的预测框；

根据所述真阳性区域和假阴性区域的预测框和对应的边界框之间的差异，确定所述回归子网络的第五损失；

根据所述第五损失，调整所述回归子网络的网络参数。

11.根据权利要求2所述的方法，其特征在于，所述根据第二训练集，对所述第一状态的目标检测网络进行训练，得到已训练的目标检测网络，包括：

将所述真阳性区域和假阴性区域对应的第六特征图输入所述分割子网络，得到所述真阳性区域和假阴性区域中各个像素点属于目标类别的第四概率；

根据所述真阳性区域和假阴性区域的像素点数量、所述真阳性区域和假阴性区域中第二对象的轮廓以及各个像素点属于目标类别的第四概率，确定所述分割子网络的第六损失；

根据所述第六损失，调整所述分割子网络的网络参数。

12.根据权利要求1至11中任意一项所述的方法，其特征在于，所述第一图像包括2D医学影像和/或3D医学影像，所述目标类别包括结节和/或囊肿。

13.一种目标检测装置，其特征在于，包括：

提取模块，用于对待检测的第一图像进行特征提取，得到所述第一图像的多个尺度的第一特征图；

第一处理模块，用于通过已训练的目标检测网络对所述第一图像的多个尺度的第一特征图进行处理，得到所述第一图像中存在的目标类别的第一对象的位置；

14.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至12中任意一项所述的方法。

15.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的方法。