CN113283485A

CN113283485A - 目标检测方法及其模型的训练方法和相关装置及介质

Info

Publication number: CN113283485A
Application number: CN202110529645.4A
Authority: CN
Inventors: 宋涛
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-20
Also published as: WO2022237153A1

Abstract

本申请公开了一种目标检测方法及其模型的训练方法和相关装置及介质。该目标检测模型的训练方法包括：利用目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到第一样本图像的第一检测结果和第二样本图像的第二检测结果；基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，其中，第一检测框和第二检测框用于表示目标的位置；基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失；利用第一损失，调整目标检测模型的网络参数。上述方案，能够减少目标检测模型的训练成本。

Description

目标检测方法及其模型的训练方法和相关装置及介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标检测方法及其模型的训练方法和相关装置及介质。

背景技术

一般地，对于网络模型进行训练的方法主要包括以下几个步骤，首先，将样本图像输入网络模型，获取网络模型的输出结果，然后获取输出结果与样本图像中的标注信息之间的误差，然后根据该误差调整网络模型中的参数。这种方式存在的问题是对网络模型的训练需要建立在大量的已标注样本图像。一般都是采用人工对样本图像进行标注，获取大量的已标注样本图像的过程耗时耗力。

发明内容

本申请至少提供一种目标检测方法及其模型的训练方法和相关装置及介质。

本申请提供了一种目标检测模型的训练方法，包括：利用目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到第一样本图像的第一检测结果和第二样本图像的第二检测结果；基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，其中，第一检测框和第二检测框用于表示目标的位置；基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失；利用第一损失，调整目标检测模型的网络参数。

因此，通过获取第一样本图像和第二样本图像对应的包含相同的目标的检测框之间的差异信息，从而得到目标检测模型的第一损失，然后利用第一损失就能够调整目标检测模型的网络参数，无需大量的已标注样本图像，从而减少目标检测模型的训练成本。进一步地，第一检测结果和第二检测结果中可能存在大量无效的信息，本公开实施例是基于第一检测框和第二检测框之间的差异信息获取第一损失，而不是基于第一检测结果和第二检测结果之间的差异信息获取第一损失，能够提高第一损失的准确度。

其中，在基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失之前，方法还包括：将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对，其中，每个匹配框对包括第一检测框和与第一检测框匹配的第二检测框，且不同的匹配框对包括的检测框不同；以及，基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失，包括：利用每个匹配框对中第一检测框和第二检测框之间的差异信息，得到第一损失。

因此，通过将至少一个第一检测框和至少一个第二检测框进行匹配得到匹配框对，从而能够确定表示相同目标的第一检测框和第二检测框，从而利用二者之间的差异信息得到第一损失，使得获取得到的第一损失的准确度更高。

其中，匹配的方式为二部图匹配方式；和/或，将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对，包括：分别将各第一检测框与各第二检测框组成多个候选框对；基于各候选框对的匹配程度，选择部分的候选框对作为匹配框对；和/或，利用每个匹配框对中第一检测框和第二检测框之间的差异信息，得到第一损失，包括：在匹配框对为多个的情况下，将每个匹配框对的差异信息进行累加，以得到第一损失。

因此，可以选择使用多种匹配方式，使得匹配结果中任意检测框最多只有一个检测框与之匹配，从而提高获取表示相同目标的第一检测框和第二检测框的准确度。

其中，第一检测框和第二检测框均对应有关于目标的第一位置信息和/或第一类别信息；差异信息包括以下至少一者：第一检测框和第二检测框之间关于第一位置信息的第一差异和关于第一类别信息的第二差异。

因此，通过获取第一检测框和第二检测框关于位置和类别的差异，作为第一检测框和第二检测框之间的差异，使得获取到的差异更准确。

其中，基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失，包括：利用第一差异得到位置损失，并利用第二差异得到类别损失；基于位置损失和类别损失，得到第一损失，其中，位置损失包括距离损失和/或检测框交并比损失。

因此，将位置损失还分为举例损失和检测框交并比损失，使得获取到的位置损失更准确。

其中，第一样本图像和第二样本图像来自于样本集，样本集中的样本图像包括已标注样本图像和/或未标样本图像，已标注样本图像标注有目标的真实框信息，其中，真实框信息包括关于目标的第二位置信息和第二类别信息；以及，在第一样本图像和第二样本图像为已标注样本图像的情况下，利用第一损失，调整目标检测模型的网络参数，包括：将第一检测框和第二检测框中的至少一者作为目标检测框，利用目标检测框与对应的真实框信息之间的差异，得到第二损失；利用第一损失和第二损失，调整目标检测模型的网络参数。

因此，通过在第一样本图像和第二样本图像为已标注样本图像的情况下，还获取目标检测框和真实框之间的差异，从而确定第二损失，进而根据第二损失和第一损失调整目标检测模型的网络参数，使得对目标检测模型的调整效果更好。

其中，利用第一损失和第二损失，调整目标检测模型的网络参数，包括：利用加权后的第一损失与第二损失得到目标检测模型的总损失，其中，目标检测模型的训练次数越多，第一损失的权重越大；基于总损失，调整目标检测模型的网络参数。

因此，通过根据目标检测模型的训练次数与第一损失的权重，使得目标检测模型的训练初期以全监督训练为主，然后逐渐增大第一损失的权重，以保证训练过程的稳定。

其中，基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，包括：对第一检测结果进行解码，得到若干第一候选检测框，对第二检测结果进行解码，得到若干第二候选检测框；其中，第一候选检测框和第二候选检测框均对应有关于目标的第三位置信息和/或第三类别信息；利用第一候选检测框和第二候选检测框的第三位置信息和/或第三类别信息，对第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。

因此，通过对第一检测结果和第二检测结果进行解码得到第一候选检测框和第二候选检测框，可能出现候选检测框中类别概率较低，且有可能存在多个候选检测框表示同一目标的情况，通过对第一候选检测框和第二候选检测框进行筛选，能够减少检测框相互重叠的情况，以及类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

其中，利用第一候选检测框和第二候选检测框的第三位置信息和/或第三类别信息，对第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框，包括：利用第三类别信息，从若干第一候选检测框中选择类别概率满足第一要求的预设数量个第一候选检测框，以及从若干第二候选检测框中选择类别概率满足第一要求的预设数量个第二候选检测框；基于第三位置信息，利用非极大值抑制方式从预设数量个第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。

因此，通过先利用类别概率对候选检测框进行一次筛选之后，再使用位置信息进行二次筛选，能够减少检测框相互重叠的情况，以及减少类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

其中，第一检测结果包括与第一样本图像对应的第一分类图和第一定位图，第二检测结果包括与第二样本图像对应的第二分类图和第二定位图；和/或，第二样本图像是对第一样本图像处理得到的；和/或，第一样本图像和所述第二样本图像为医学图像。

因此，通过对第一样本图像进行处理得到对应的第二样本图像，从而使得第一样本图像和第二样本图像包括至少一个相同的目标。

本申请提供了一种目标检测方法，包括：获取待检测图像；利用目标检测模型对待检测图像进行目标检测，得到目标检测结果，其中，目标检测模型是由上述目标检测模型的训练方法训练得到的。

因此，通过利用目标检测模型对待检测图像进行目标检测，可以得到关于待检测图像的目标检测结果，无需人工检测，从而提高了对待检测图像的目标检测效率。

本申请提供了一种目标检测模型的训练装置，包括：检测模块，用于利用目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到第一样本图像的第一检测结果和第二样本图像的第二检测结果；检测框获取模块，用于基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，其中，第一检测框和第二检测框用于表示目标的位置；损失获取模块，用于基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失；参数调整模块，用于利用第一损失，调整目标检测模型的网络参数。

本申请提供了一种目标检测装置，包括：图像获取模块，用于获取待检测图像；目标检测模块，用于利用目标检测模型对待检测图像进行目标检测，得到目标检测结果，其中，目标检测模型是由上述目标检测模型的训练方法训练得到的。

本申请提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述目标检测模型的训练方法。

本申请提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述目标检测模型的训练方法。

上述方案，通过获取第一样本图像和第二样本图像对应的包含相同的目标的检测框之间的差异信息，从而得到目标检测模型的第一损失，然后利用第一损失就能够调整目标检测模型的网络参数，无需大量的已标注样本图像，从而减少目标检测模型的训练成本。进一步地，第一检测结果和第二检测结果中可能存在大量无效的信息，本公开实施例是基于第一检测框和第二检测框之间的差异信息获取第一损失，而不是基于第一检测结果和第二检测结果之间的差异信息获取第一损失，能够提高第一损失的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请目标检测模型的训练方法一实施例的流程示意图一；

图2是本申请目标检测模型的训练方法一实施例的流程示意图二；

图3是本申请目标检测方法一实施例的流程示意图；

图4是本申请目标检测模型的训练装置一实施例的结构示意图；

图5是本申请目标检测装置一实施例的结构示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请目标检测模型的训练方法一实施例的流程示意图一。具体而言，目标检测模型的训练方法可以包括如下步骤：

步骤S11：利用目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到第一样本图像的第一检测结果和第二样本图像的第二检测结果。

其中，本公开实施例中需要训练的目标检测模型可以是任意一种能够用于目标检测的网络模型。因此，本申请不对目标检测模型做具体限定。

本公开实施例中，第一样本图像和第二样本图像可以包括至少一个相同的目标。即第一样本图像和第二样本图像可以是针对同一目标拍摄得到。具体地，本公开实施例中，第一样本图像可以是根据第二样本图像进行一系列的图像处理得到，或者第二样本图像是根据第一样本图像进行一系列的图像处理得到。图像处理可以是裁剪、旋转、数据增强等等。关于图像处理的具体方式此处不做具体规定。并且，本公开实施例中的第一样本图像和第二样本图像可以是2D图，也可以是3D图。

步骤S12：基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，其中，第一检测框和第二检测框用于表示目标的位置。

具体地，得到的第一检测框和第二检测框均用于表示目标在第一样本图像或第二样本图像中的位置。

其中，基于第一检测结果确定第一样本图像中的至少一个第一检测框的方式可以是通过对第一检测结果进行解码等操作，得到对应的第一检测框。同理，基于第二检测结果确定第二样本图像中的至少一个第二检测框的方式可以是通过对第二检测结果进行解码等操作，得到对应的第二检测框。

步骤S13：基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失。

一般地，目标检测结果一般包括分类结果和定位结果。也就是需要找到样本图像中目标所属的类别以及目标所在位置。即本公开实施例中所述的表示相同目标的第一检测框和第二检测框之间的差异信息可以是分类差异和定位差异中的一个，也可以是分类差异和定位差异中的两个，因此，此处不对差异信息做具体规定。其中，第一损失还可称之为一致性损失。

步骤S14：利用第一损失，调整目标检测模型的网络参数。

本公开实施例中，因为第一样本图像和第二样本图像之间存在联系，即某一样本图像是根据另一样本图像得到。因此，理论上目标检测模型对第一样本图像和第二样本图像的目标检测结果应该是一样的，或者说二者之间的误差理应小于或等于预设误差。也就是二者之间的损失应该很小，是在可以接受的范围内。如果第一损失较大，不在可接受的范围内时，可以根据第一损失调整目标检测模型的网络参数，使得后续目标检测模型对第一样本图像和第二样本图像之间的损失小于预设损失，即目标检测模型对第一样本图像和第二样本图像之间的目标检测结果基本相同。

一些具体场景中，先使用已标注样本图像对目标检测模型进行训练，然后逐渐加入未标注样本图像对目标检测模型进行训练，也就是使用半监督训练方式对目标检测模型进行训练。一般半监督训练方式包括如下步骤：首先，使用已标注样本图像对目标检测模型进行训练，在训练一段时间后，使用检测网络对未标注样本图像进行预测得到预测结果，然后将标注有预测结果的图像加入其余已标注样本图像中，并输入目标检测模型对目标检测模型进行训练。而本公开实施例提供的技术方案则没有如此麻烦的步骤，若输入目标检测模型中的是未标注样本图像，则直接可以使用未标注样本图像与其包含至少一个目标的样本图像之间的一致性损失对目标检测模型进行训练，即无需将带有预测结果的图像再次输入检测网络中进行训练，从而简化了训练步骤。

一些公开实施例中，第一样本图像和第二样本图像来自于样本集。其中，样本集中的样本图像包括已标注样本图像和/或未标注样本图像。已标注样本图像标注有目标的真实框信息，其中，真实框信息包括关于目标的第二位置信息和第二类别信息。其中，这里的第二位置信息指的是目标在样本图像中的位置信息，其中，第二类别信息指的是目标所属的类别。其中，第一样本图像和第二样本图像为医学图像。例如，可以是CT图，也可以是经过其他医学设备获取的图像。一些具体应用场景中，若样本图像为医学图像，目标所属的类别可以是常见的病变，例如肺结节等。第二样本图像是对第一样本图像处理得到的。例如，对第一样本图像进行裁剪，旋转、调整图像亮度等等。其中，这里的裁剪可以是对第一样本图像任意区域的裁剪，例如可以是对第一样本图像的边缘区域进行裁剪，也可以是对第一样本图像的中间区域进行裁剪。其中，被裁剪的区域可以使用预设像素值进行填充，例如使用0像素进行填充，也可以是使用其他样本图像中的某一区域进行填充，关于如何对被裁剪区域进行填充本公开实施例不做具体规定。通过对第一样本图像进行处理得到对应的第二样本图像，从而使得第一样本图像和第二样本图像包括至少一个相同的目标。

一些公开实施例中，第一检测结果包括与第一样本图像对应的第一分类图和第一定位图，第二检测结果包括与第二样本图像对应的第二分类图和第二定位图。其中，第一分类图和第二分类图中分别包括输出网格的目标分类编号。第一定位图和第二定位图分别包括第一检测框或第二检测框的上边界、下边界、左边界以及右边界。本公开实施例中，每个检测框均可以使用一个四维向量表示。

一些公开实施例中，第一检测框和第二检测框均对应有关于目标的第一位置信息和/或第一类别信息。类别信息还可包括所属类别的概率。例如，假设第一检测框属于第一目标的概率为0.7，属于背景的概率为0.3，此时，第一检测框的第一类别信息中可以包括第一检测框属于第一目标，且属于第一目标的概率为0.7。

其中，基于第一检测结果确定第一样本图像中的至少一个第一检测框，以及基于第二检测结果确定第二样本图像中的至少一个第二检测框的步骤包括：一、对第一检测结果进行解码，得到若干第一候选检测框，以及对第二检测结果进行解码，得到若干第二候选检测框。其中，本公开实施例中的若干可以是1，也可以是2及以上等。其中，第一候选检测框和第二候选检测框均对应有关于目标的第三位置信息和/或第三类别信息。其中，解码的方式可参见一般对目标检测模型的输出结果进行解码的方式，此处不再赘述。二、利用第一候选检测框和第二候选检测框的第三位置信息和/或第三类别信息，对第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。

通过对第一检测结果和第二检测结果进行解码得到第一候选检测框和第二候选检测框，可能出现候选检测框中类别概率较低，且有可能存在多个候选检测框表示同一目标的情况，通过对第一候选检测框和第二候选检测框进行筛选，能够减少检测框相互重叠的情况，以及类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

可选地，可分为两个步骤对第一候选检测框和第二候选检测框进行筛选。具体地，利用第三类别信息，从若干第一候选检测框中选择类别概率满足第一要求的预设数量个第一候选检测框。以及从若干第二候选检测框中选择类别概率满足第一要求的预设数量个第二候选检测框。例如，先根据top-K策略将低置信度的检测框删除，例如，K可以是10、20、25等等。当K等于20时，也就是分别从第一候选检测框和第二候选检测框中选择20个检测框。具体地，第一候选检测框和第二候选检测框分别按照所属类别概率从高到低的顺序排序，分别选择第一候选检测框和第二候选检测框中所属类别的概率中前20的概率对应的第一候选检测框或第二候选检测框。基于第三位置信息，利用非极大值抑制方式从预设数量个第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。继上例，对留下的20个第一候选检测框和第二候选检测框分别按照非极大值抑制方式进行筛选，得到最终的第一检测框和第二检测框。

通过先利用类别概率对候选检测框进行一次筛选之后，再使用位置信息进行二次筛选，能够减少检测框相互重叠的情况，以及减少类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

一些公开实施例中，在基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失之前，需要获取表示相同的目标的第一检测框和第二检测框。可选地，将第一检测框和第二检测框进行匹配，得到用于表示相同的目标的第一检测框和第二检测框。具体地，将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对。其中，每个匹配框对包括第一检测框和与第一检测框匹配的第二检测框，且不同的匹配框对包括的检测框不同。也即是某一检测框最多只有一个检测框与其匹配，不存在一个检测框有多个检测框与之匹配。通过将至少一个第一检测框和至少一个第二检测框进行匹配得到匹配框对，从而能够确定表示相同目标的第一检测框和第二检测框，从而利用二者之间的差异信息得到第一损失，使得获取得到的第一损失的准确度更高。

其中，检测框之间的匹配方式可以是二部图匹配方式。

其中，二部图匹配方式的主要过程如下：令C_i,j为由第一检测框构成的第一检测框组中各第一检测框与由第二检测框构成的第二检测框组中各第二检测框之间的匹配成本。

其中，

如上述，GIOU用于表示两个检测框之间的广义相交重合。

二部图匹配的目标就是为了找到Ci,j的最优布尔匹配矩阵M*，其中M∈{0,1}^N1xN2，其中，N1表示第一检测框的个数，N2表示第二检测框的个数。其中M_i，j＝1表示第一检测框组中的第一检测框b_i和第二检测框组中的第二检测框b_j匹配。最佳匹配矩阵M是通过解决以下固定C的成本最小化问题而获得的：

其中，M*被约束为具有N＝min(N1，N2)个非零值，并且每一行和每一列最多具有一个非零值。对于最佳结果M*，我们将非零值的行和列索引集分别表示为M’和N’。我们以<m，n>的格式将非零值的索引对存储在M*中作为元组，其中m∈M’和n∈N’。从而可以获得N个索引元组，并将其表示为大小为N的集合T，即集合T为若干个匹配框对构成的集合。

当然，将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对的方式还可以是：分别将各第一检测框与各第二检测框组成多个候选框对。基于各候选框对的匹配程度，选择部分的候选框对作为匹配框对。其中，匹配程度可以是第一检测框和第二检测框之间的相似度。例如，若第一检测框和第二检测框均分别包括第一位置信息和第一类别信息，此时，匹配程度可以是第一检测框和第二检测框之间的第一位置信息的相似度和/或第一类别信息的相似度。可选地，为保障第一检测框和第二检测框之间的匹配更为准确，此处可以选择结合第一检测框和第二检测框之间的第一位置信息的相似度和第一类别信息的相似度综合确定最终的相似度。其中，可以分别获取各第一检测框和各第二检测框之间的匹配程度，选择匹配程度高的部分候选框对作为检测框匹配组。当然，这里也同样需要满足一个检测框只存在于一个检测框组中。

基于表示相同目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失的方式包括：利用每个匹配框对中第一检测框和第二检测框之间的差异信息，得到第一损失。可选地，在匹配框对为多个的情况下，将每个匹配框对的差异信息进行累加，以得到第一损失。也就是，将所有匹配框对的差异信息进行累加，然后再根据累加得到的差异信息确定第一损失。当然，在其他实施例中，还可以是分别计算每个匹配框对的第一损失，再将所有匹配框对的第一损失进行累加，得到总的第一损失。其中，第一检测框和第二检测框均对应有关于目标的第一位置信息和/或第一类别信号。每组匹配框对中第一检测框和第二检测框之间的差异信息包括以下至少一者：第一检测框和第二检测框之间关于第一位置信息的第一差异和关于第一类别的第二差异。通过获取第一检测框和第二检测框关于位置和类别的差异，作为第一检测框和第二检测框之间的差异，使得获取到的差异更准确。然后，利用第一差异得到位置损失，并利用第二差异得到类别损失。其中，位置损失包括距离损失和/或检测框交并比损失。通过将位置损失还分为举例损失和检测框交并比损失，使得获取到的位置损失更准确。

具体地，获取类别损失L_cls的公式可以是：

其中，这里的N为检测框匹配组的个数，p_m表示第一检测框所属类别的概率，p_n表示第二检测框所属类别的概率，||·||2是L2范数，T表示检测框匹配组构成的集合。

获取距离损失L_dis的公式可以是：

其中，这里的N为检测框匹配组的个数，b_m表示第一检测框在第一样本图像中的位置，b_n表示第二检测框在第二样本图像中的位置，||·||2是L2范数，T表示检测框匹配组。

获取检测框交并比损失L_giou的公式可以是：

其中，本公开实施例所述的检测框交并比损失具体是检测框之间的广义交并比损失。GIOU(b_m，b_n)用于表示第一检测框m与第二检测框n之间的广义相交重合度。其中，广义交并比的算法如同一般计算广义交并比的算法，此处不做过多叙述。

由此，获取第一损失的公式为：

其中，D为样本集，β₁和β₂为权重。

一些公开实施例中，在第一样本图像和第二样本图像为已标注样本图像的情况下，利用第一损失，调整目标检测模型的网络参数的步骤还包括：将第一检测框和第二检测框中的至少一者作为目标检测框。例如，将第一检测框作为目标检测框，或将第二检测框作为目标检测框，或同时将第一检测框和第二检测框作为目标检测框均可。本公开实施例中选择将第一检测框作为目标检测框。其中，在同时将第一检测框和第二检测框作为目标检测框的情况下，第一检测框对应有真实框信息，第二检测框也有对应的真实框信息。利用目标检测框与对应的真实框信息之间的差异，得到第二损失。其中，第二损失还可称之为全监督损失。具体地，获取第二损失L_sup的公式可以是：

L_loc指的是目标检测框与其对应的真实框之间的位置损失。L_cls指的是目标检测框与其对应的真实框之间的类别损失。L为已标注样本图像集合。其中，这里的P_i表示第i个目标检测框的类别概率，B_i表示第i个目标检测框的位置，

表示第i个目标检测框对应的真实框的类别概率，

表示第i个目标检测框对应的真实框的位置。

利用第一损失和第二损失，调整目标模型的网络参数。通过在第一样本图像和第二样本图像为已标注样本图像的情况下，还获取目标检测框和真实框之间的差异，从而确定第二损失，进而根据第二损失和第一损失调整目标检测模型的网络参数，使得对目标检测模型的调整效果更好。

具体地，利用加权后的第一损失与第二损失得到目标检测模型的总损失。其中，目标检测模型的训练次数越多，第一损失的权重越大。

其中，利用第一损失和第二损失计算总损失的公式可以是：

L_total＝L_sup+σ(t)L_cons；

其中，σ(t)是随时间变化的权重，用于控制L_sup和L_cons之间的平衡。并且，σ(t)是高斯预警函数，具体地，

其中，t表示当前训练步骤以及t_max是最大训练步骤。

基于总损失，调整目标模型的网络参数。通过根据目标检测模型的训练次数与第一损失的权重，使得目标检测模型的训练初期以全监督训练为主，然后逐渐增大第一损失的权重，以保证训练过程的稳定。

为更好理解本公开实施例提出目标检测模型训练的方法，请参考下例。请参见图2，图2是本申请目标检测模型的训练方法一实施例的流程示意图二。

如图2所示，在将第一样本图像输入目标检测模型之前，对第一样本图像进行图像处理，得到第二样本图像。然后将第一样本图像和第二样本图像输入目标检测模型，得到第一检测结果和第二检测结果，其中，第一检测结果包括第一分类图和第一定位图，第二检测结果包括第二分类图和第二定位图。当第一样本图像和第二样本图像为已标注图像的情况下，利用第一分类图和第一定位图计算第二损失，即计算全监督损失。其中，在第一样本图像和第二样本图像为未标注图像的情况下，则不计算全监督损失。当然，其他实施例中，也可以用第二分类图和第二定位图计算第二损失。通过对第一检测结果进行解码，得到若干个第一候选检测框，对第二检测结果进行解码，得到若干个第二候选检测框。然后对若干个第一候选检测框和若干个第二候选检测框进行筛选，得到若干个第一检测框和若干个第二检测框。使用二部图匹配方式对第一检测框和第二检测框进行匹配，得到若干个匹配框对，然后利用匹配框对获取第一损失，即获取一致性损失。然后结合第一损失和第二损失得到总损失。最后，利用总损失调整目标检测模型中的网络参数。当然，如果第一样本图像和第二样本图像为未标注样本图像时，则直接使用第一损失调整目标检测模型中的网络参数。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

目标检测模型的训练方法的执行主体可以是目标检测模型的训练装置，例如，目标检测模型的训练方法可以由终端设备或服务器或其它处理设备执行，其中，终端设备可以为用于医学图像分析的设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备以及自动驾驶汽车，有定位及建图需求的机器人，有配准需求的医疗成像系统，用于增强现实或虚拟现实的眼镜、头盔等产品等。在一些可能的实现方式中，该目标检测模型的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参见图3，图3是本申请目标检测方法一实施例的流程示意图。

具体而言，目标检测方法可以包括如下步骤：

步骤S21：获取待检测图像。

其中，获取待检测图像的方式有多种，例如，通过执行本公开实施例提出的目标检测方法的执行设备拍摄得到，也可以是由其他设备拍摄并以通信的方式传输给执行设备。其中，可以是未经图像处理过的图像，也可以是经过图像处理过的图像。图像处理的方式可以是调整亮度、分辨率等等。

一些应用场景中，待检测图像可以是医学图像。例如，待检测图像可以是CT图像，也可以是X射线图像。待检测图像中的目标可以是肺结节等。

步骤S22：利用目标检测模型对待检测图像进行目标检测，得到目标检测结果。

其中，目标检测模型是由上述目标检测模型的训练方法训练得到的。

上述方案，通过利用目标检测模型对待检测图像进行目标检测，可以得到关于待检测图像的目标检测结果，无需人工检测，从而提高了对待检测图像的目标检测效率。

请参阅图4，图4是本申请目标检测模型的训练装置一实施例的结构示意图。目标检测模型的训练装置30包括检测模块31、检测框获取模块32、损失获取模块33以及参数调整模块34。检测模块31，用于利用目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到第一样本图像的第一检测结果和第二样本图像的第二检测结果；损失获取模块33，用于基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，其中，第一检测框和第二检测框用于表示目标的位置；损失获取模块33，用于基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失；参数调整模块34，用于利用第一损失，调整目标检测模型的网络参数。

一些公开实施例中，损失获取模块33在基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失之前，检测框获取模块32还用于：将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对，其中，每个匹配框对包括第一检测框和与第一检测框匹配的第二检测框，且不同的匹配框对包括的检测框不同；损失获取模块33基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失，包括：利用每个匹配框对中第一检测框和第二检测框之间的差异信息，得到第一损失。

上述方案，通过将至少一个第一检测框和至少一个第二检测框进行匹配得到匹配框对，从而能够确定表示相同目标的第一检测框和第二检测框，从而利用二者之间的差异信息得到第一损失，使得获取得到的第一损失的准确度更高。

一些公开实施例中，匹配的方式为二部图匹配方式；和/或，检测框获取模块32将至少一个第一检测框和至少一个第二检测框进行匹配，得到若干个匹配框对，包括：分别将各第一检测框与各第二检测框组成多个候选框对；基于各候选框对的匹配程度，选择部分的候选框对作为匹配框对；和/或，利用每个匹配框对中第一检测框和第二检测框之间的差异信息，得到第一损失，包括：在匹配框对为多个的情况下，将每个匹配框对的差异信息进行累加，以得到第一损失。

上述方案，可以选择使用多种匹配方式，使得匹配结果中任意检测框最多只有一个检测框与之匹配，从而提高获取表示相同目标的第一检测框和第二检测框的准确度。

一些公开实施例中，第一检测框和第二检测框均对应有关于目标的第一位置信息和/或第一类别信息；差异信息包括以下至少一者：第一检测框和第二检测框之间关于第一位置信息的第一差异和关于第一类别信息的第二差异。

上述方案，通过获取第一检测框和第二检测框关于位置和类别的差异，作为第一检测框和第二检测框之间的差异，使得获取到的差异更准确。

一些公开实施例中，损失获取模块33基于表示相同的目标的第一检测框和第二检测框之间的差异信息，得到目标检测模型的第一损失，包括：利用第一差异得到位置损失，并利用第二差异得到类别损失；基于位置损失和类别损失，得到第一损失，其中，位置损失包括距离损失和/或检测框交并比损失。

上述方案，将位置损失还分为举例损失和检测框交并比损失，使得获取到的位置损失更准确。

一些公开实施例中，第一样本图像和第二样本图像来自于样本集，样本集中的样本图像包括已标注样本图像和/或未标样本图像，已标注样本图像标注有目标的真实框信息，其中，真实框信息包括关于目标的第二位置信息和第二类别信息；以及，在第一样本图像和第二样本图像为已标注样本图像的情况下，损失获取模块33利用第一损失，调整目标检测模型的网络参数，包括：将第一检测框和第二检测框中的至少一者作为目标检测框，利用目标检测框与对应的真实框信息之间的差异，得到第二损失；利用第一损失和第二损失，调整目标检测模型的网络参数。

上述方案，通过在第一样本图像和第二样本图像为已标注样本图像的情况下，还获取目标检测框和真实框之间的差异，从而确定第二损失，进而根据第二损失和第一损失调整目标检测模型的网络参数，使得对目标检测模型的调整效果更好。

一些公开实施例中，参数调整模块34利用第一损失和第二损失，调整目标检测模型的网络参数，包括：利用加权后的第一损失与第二损失得到目标检测模型的总损失，其中，目标检测模型的训练次数越多，第一损失的权重越大；基于总损失，调整目标检测模型的网络参数。

上述方案，通过根据目标检测模型的训练次数与第一损失的权重，使得目标检测模型的训练初期以全监督训练为主，然后逐渐增大第一损失的权重，以保证训练过程的稳定。

一些公开实施例中，检测框获取模块32基于第一检测结果确定第一样本图像中的至少一个第一检测框，基于第二检测结果确定第二样本图像中的至少一个第二检测框，包括：对第一检测结果进行解码，得到若干第一候选检测框，对第二检测结果进行解码，得到若干第二候选检测框；其中，第一候选检测框和第二候选检测框均对应有关于目标的第三位置信息和/或第三类别信息；利用第一候选检测框和第二候选检测框的第三位置信息和/或第三类别信息，对第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。

上述方案，通过对第一检测结果和第二检测结果进行解码得到第一候选检测框和第二候选检测框，可能出现候选检测框中类别概率较低，且有可能存在多个候选检测框表示同一目标的情况，通过对第一候选检测框和第二候选检测框进行筛选，能够减少检测框相互重叠的情况，以及类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

一些公开实施例中，检测框获取模块32利用第一候选检测框和第二候选检测框的第三位置信息和/或第三类别信息，对第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框，包括：利用第三类别信息，从若干第一候选检测框中选择类别概率满足第一要求的预设数量个第一候选检测框，以及从若干第二候选检测框中选择类别概率满足第一要求的预设数量个第二候选检测框；基于第三位置信息，利用非极大值抑制方式从预设数量个第一候选检测框和第二候选检测框进行筛选，得到第一检测框和第二检测框。

上述方案，通过先利用类别概率对候选检测框进行一次筛选之后，再使用位置信息进行二次筛选，能够减少检测框相互重叠的情况，以及减少类别概率较低的检测框参与后续的损失计算，从而提高获取得到的第一损失的准确度。

一些公开实施例中，第一检测结果包括与第一样本图像对应的第一分类图和第一定位图，第二检测结果包括与第二样本图像对应的第二分类图和第二定位图；和/或，第二样本图像是对第一样本图像处理得到的；和/或，第一样本图像和所述第二样本图像为医学图像。

上述方案，通过对第一样本图像进行处理得到对应的第二样本图像，从而使得第一样本图像和第二样本图像包括至少一个相同的目标。

请参阅图5，图5是本申请目标检测装置一实施例的结构示意图。目标检测装置40包括图像获取模块41以及目标检测模块42。其中，图像获取模块41，用于获取待检测图像；目标检测模块42，用于利用目标检测模型对待检测图像进行目标检测，得到目标检测结果，其中，目标检测模型是由目标检测模型的训练方法训练得到的。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。电子设备50包括存储器51和处理器52，处理器52用于执行存储器51中存储的程序指令，以实现上述目标检测模型的训练方法实施例和/或目标检测方法实施例中的步骤。在一个具体的实施场景中，电子设备50可以包括但不限于：微型计算机、服务器，此外，电子设备50还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述目标检测模型的训练方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图7，图7为本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质60存储有能够被处理器运行的程序指令601，程序指令601用于实现上述目标检测模型的训练方法实施例和/或目标检测方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

利用所述目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到所述第一样本图像的第一检测结果和所述第二样本图像的第二检测结果；

基于所述第一检测结果确定所述第一样本图像中的至少一个第一检测框，基于所述第二检测结果确定所述第二样本图像中的至少一个第二检测框，其中，所述第一检测框和所述第二检测框用于表示所述目标的位置；

基于表示相同的目标的所述第一检测框和所述第二检测框之间的差异信息，得到所述目标检测模型的第一损失；

利用所述第一损失，调整所述目标检测模型的网络参数。

2.根据权利要求1所述的方法，其特征在于，在所述基于表示相同的目标的所述第一检测框和所述第二检测框之间的差异信息，得到所述目标检测模型的第一损失之前，所述方法还包括：

将所述至少一个第一检测框和所述至少一个第二检测框进行匹配，得到若干个匹配框对，其中，每个匹配框对包括第一检测框和与所述第一检测框匹配的第二检测框，且不同的匹配框对包括的检测框不同；以及，

所述基于表示相同的目标的所述第一检测框和所述第二检测框之间的差异信息，得到所述目标检测模型的第一损失，包括：

利用所述每个匹配框对中第一检测框和第二检测框之间的差异信息，得到所述第一损失。

3.根据权利要求2所述的方法，其特征在于，所述匹配的方式为二部图匹配方式；和/或，

所述将所述至少一个第一检测框和所述至少一个第二检测框进行匹配，得到若干个匹配框对，包括：

分别将各第一检测框与各第二检测框组成多个候选框对；

基于各候选框对的匹配程度，选择部分的所述候选框对作为所述匹配框对；和/或，

所述利用所述每个匹配框对中第一检测框和第二检测框之间的差异信息，得到所述第一损失，包括：

在所述匹配框对为多个的情况下，将每个所述匹配框对的所述差异信息进行累加，以得到所述第一损失。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述第一检测框和所述第二检测框均对应有关于所述目标的第一位置信息和/或第一类别信息；

所述差异信息包括以下至少一者：所述第一检测框和第二检测框之间关于所述第一位置信息的第一差异和关于所述第一类别信息的第二差异。

5.根据权利要求4所述的方法，其特征在于，所述基于表示相同的目标的所述第一检测框和所述第二检测框之间的差异信息，得到所述目标检测模型的第一损失，包括：

利用所述第一差异得到位置损失，并利用所述第二差异得到类别损失；

基于所述位置损失和类别损失，得到所述第一损失，其中，所述位置损失包括距离损失和/或检测框交并比损失。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述第一样本图像和第二样本图像来自于样本集，所述样本集中的样本图像包括已标注样本图像和/或未标样本图像，所述已标注样本图像标注有所述目标的真实框信息，其中，所述真实框信息包括关于所述目标的第二位置信息和第二类别信息；以及

在所述第一样本图像和第二样本图像为已标注样本图像的情况下，所述利用所述第一损失，调整所述目标检测模型的网络参数，包括：

将所述第一检测框和第二检测框中的至少一者作为目标检测框，利用所述目标检测框与对应的所述真实框信息之间的差异，得到第二损失；

利用所述第一损失和第二损失，调整所述目标检测模型的网络参数。

7.根据权利要求6所述的方法，其特征在于，所述利用所述第一损失和第二损失，调整所述目标检测模型的网络参数，包括：

利用加权后的所述第一损失与所述第二损失得到所述目标检测模型的总损失，其中，所述目标检测模型的训练次数越多，所述第一损失的权重越大；

基于所述总损失，调整所述目标检测模型的网络参数。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述基于所述第一检测结果确定所述第一样本图像中的至少一个第一检测框，基于所述第二检测结果确定所述第二样本图像中的至少一个第二检测框，包括：

对所述第一检测结果进行解码，得到若干第一候选检测框，对所述第二检测结果进行解码，得到若干第二候选检测框；其中，所述第一候选检测框和所述第二候选检测框均对应有关于所述目标的第三位置信息和/或第三类别信息；

利用所述第一候选检测框和所述第二候选检测框的第三位置信息和/或第三类别信息，对所述第一候选检测框和所述第二候选检测框进行筛选，得到所述第一检测框和所述第二检测框。

9.根据权利要求8所述的方法，其特征在于，所述利用所述第一候选检测框和所述第二候选检测框的第三位置信息和/或第三类别信息，对所述第一候选检测框和所述第二候选检测框进行筛选，得到所述第一检测框和所述第二检测框，包括：

利用所述第三类别信息，从所述若干第一候选检测框中选择类别概率满足第一要求的预设数量个第一候选检测框，以及从所述若干第二候选检测框中选择类别概率满足第一要求的预设数量个第二候选检测框；

基于所述第三位置信息，利用非极大值抑制方式从所述预设数量个第一候选检测框和第二候选检测框进行筛选，得到所述第一检测框和所述第二检测框。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述第一检测结果包括与所述第一样本图像对应的第一分类图和第一定位图，第二检测结果包括与所述第二样本图像对应的第二分类图和第二定位图；

和/或，所述第二样本图像是对所述第一样本图像处理得到的；

和/或，所述第一样本图像和所述第二样本图像为医学图像。

11.一种目标检测方法，其特征在于，包括：

获取待检测图像；

利用目标检测模型对所述待检测图像进行目标检测，得到目标检测结果，其中，所述目标检测模型是由权利要求1至10任一项方法训练得到的。

12.一种目标检测模型的训练装置，其特征在于，包括：

检测模块，用于利用所述目标检测模型分别对第一样本图像和第二样本图像中的目标进行检测，得到所述第一样本图像的第一检测结果和所述第二样本图像的第二检测结果；

检测框获取模块，用于基于所述第一检测结果确定所述第一样本图像中的至少一个第一检测框，基于所述第二检测结果确定所述第二样本图像中的至少一个第二检测框，其中，所述第一检测框和第二检测框用于表示所述目标的位置；

损失获取模块，用于基于表示相同的目标的所述第一检测框和所述第二检测框之间的差异信息，得到所述目标检测模型的第一损失；

参数调整模块，用于利用所述第一损失，调整所述目标检测模型的网络参数。

13.一种目标检测装置，其特征在于，包括：

图像获取模块，用于获取待检测图像；

目标检测模块，用于利用目标检测模型对所述待检测图像进行目标检测，得到目标检测结果，其中，所述目标检测模型是由权利要求1至10任一项方法训练得到的。

14.一种电子设备，其特征在于，包括存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至11任一项所述的方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至11任一项所述的方法。