CN117218566A

CN117218566A - 目标检测方法及装置

Info

Publication number: CN117218566A
Application number: CN202210611103.6A
Authority: CN
Inventors: 韩承志; 张亚斌; 陈安伟; 唐强; 庄景宇; 李冠彬; 林倞
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-12

Abstract

一种目标检测方法及装置，涉及AI领域，解决了伪标签的准确性较低导致目标检测的准确性降低的问题。示例性的，服务器可在第一图像的伪标签的基础上，结合第一图像对应的强增强图像获得自适应标签，并根据自适应标签确定第一图像中物体的类别信息，避免了有标记数据和未标记数据的分布不同所导致的未标记数据的伪标签不准确的问题，以及由未标记数据的伪标签不准确所导致的目标检测模型的检测准确性降低，提高了服务器对未标记数据中物体的检测准确性。

Description

目标检测方法及装置

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，尤其涉及一种目标检测方法及装置。

背景技术

深度神经网络(deep neural network，DNN)模型广泛应用于计算机视觉(Computer Vision，CV)、语音识别、自然语言处理(Natural Language Processing，NLP)等领域。以CV领域中的目标检测为例，由于数据集中物体级别的注释数据的收集过程耗时较多且成本较高，因此，服务器采用半监督的目标检测方法来识别图像中的目标物。该半监督的目标检测方法是指为大量未标记的图像确定伪标签(pseudo-label)，并根据这些伪标签对源数据集的DNN模型进行训练，从而提高DNN模型在使用有限的有标记的图像进行训练时的目标检测性能。其中的伪标签是指服务器为未标记的数据添加的预测标签。

然而，由于不同数据集中的数据分布不同，导致未标记的图像的伪标签的准确性较低，因此，应用于源数据集的DNN模型在对目标数据集中的图像进行目标检测时，DNN模型的目标检测性能受到影响，如DNN模型将图像中属于类别1的物体识别为类别2，或者将类别3的物体识别为图像的背景，或者将未知物体识别为已知的类别1等。因此，如何提供一种更为有效的目标检测方法成为目前亟需解决的问题。

发明内容

本申请提供一种目标检测方法及装置，解决了目标检测模型对未标记的数据识别准确率较低的问题。

本申请采用如下技术方案。

第一方面，本申请提供了一种目标检测方法，该方法应用于AI系统，该AI系统包括服务器，或支持实现该服务器实现目标检测方法的物理设备，例如该物理设备包括芯片系统。这里以服务器执行本实施例提供的目标检测方法为例进行说明，该目标检测方法包括：服务器获取第一图像，并将第一图像输入目标检测模型，获取第一待检测物的类别信息。其中的第一图像包括一个或多个待检测物，第一待检测物为一个或多个待检测物中任一个，前述的目标检测模型包括教师-学生网络，所述教师-学生网络用于根据第一待检测物的自适应标签确定第一待检测物的类别信息，自适应标签是由第一图像的伪标签和第一图像的强增强图像确定的。最后，服务器输出第一图像中一个或多个待检测物的类别信息。

在本实施例中，服务器可在第一图像的伪标签的基础上，结合第一图像对应的强增强图像获得自适应标签，并根据自适应标签确定第一图像中物体的类别信息，避免了有标记数据和未标记数据的分布不同所导致的未标记数据的伪标签不准确的问题，以及由未标记数据的伪标签不准确所导致的目标检测模型的检测准确性降低，提高了服务器对未标记数据中物体的检测准确性。

在一种可选的实现方式中，服务器输出第一图像中一个或多个待检测物的类别信息，包括：服务器在第一图像中标记一个或多个待检测物的类别信息，获得并发送标记后的第一图像。如此，服务器可将图像中物体的类别信息标记到图像中，标记后的图像可展示图像中物体的类别，从而使得用户能够快速的从服务器输出的图像中查看到各物体的类别，提高QoE。

在另一种可选的实现方式中，教师-学生网络包括：教师网络和学生网络。服务器将第一图像输入目标检测模型，获取第一待检测物的类别信息，包括：第一，服务器利用教师网络获取第一图像的伪标签。第二，服务器将伪标签和强增强图像输入学生网络，获取第一图像的预测信息；该预测信息用于指示第一待检测物属于第一类别的置信度。第三，服务器利用教师网络确定预测信息指示的第一待检测物的自适应标签。第四，服务器将第一待检测物的自适应标签输入学生网络，确定第一待检测物的类别信息。

在本实施例中，服务器不仅可以利用第一图像的伪标签和第一图像所对应的强增强图像对第一图像进行初始的目标检测，服务器还可以利用教师网络基于第一图像的初始预测信息生成待检测物的自适应标签，进而，服务器利用学生网络对待检测物的自适应标签进行识别，获取到第一图像中待检测物的类别信息。

由于待检测物的自适应标签是服务器基于第一图像的伪标签以及强增强图像确定的，因此，避免了第一图像的伪标签不准确所导致的目标检测准确性降低的问题。而且，在第一图像不存在标记的情况下，服务器可基于教师网络为待检测物确定自适应标签，并由学生网络依据该自适应标签确定待检测物的类别，多个网络协同对未标记的待检测物进行目标检测，避免了单个网络无法准确识别未标记图像的问题，提高了目标检测模型的识别准确率。

在另一种可选的实现方式中，服务器利用教师网络获取第一图像的伪标签，包括：服务器获取第一图像的弱增强图像，并将弱增强图像输入教师网络，获得第一图像的伪标签。其中，弱增强图像与第一图像之间的相似度大于强增强图像与第一图像之间的相似度。

在服务器利用第一图像对应的强增强图像对第一图像进行初始的目标检测之前，服务器还可利用第一图像对应的弱增强图像确定第一图像的伪标签。示例性的，该伪标签由教师-学生网络中的教师网络根据第一图像的弱增强图像进行确定，避免了服务器采用单个网络对第一图像获取伪标签导致的伪标签准确性较低的问题，提高了目标检测模型对第一图像的检测准确性。

在另一种可选的实现方式中，服务器利用教师网络确定预测信息指示的第一待检测物的自适应标签，包括：服务器利用教师网络获取弱增强图像的特征。

若预测信息指示的第一待检测物属于第一类别的置信度达到置信度阈值，服务器将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签。

该置信度阈值用于控制自适应标签的门限，示例性的，当预测信息确定的第一待检测物属于第一类别的置信度(简称：初始置信度)大于或等于置信度阈值时，服务器确定该预测信息为有效信息，并依据弱增强图像的特征和前述的预测信息确定自适应标签，避免了服务器仅根据预测信息指示的类别为待检测物设置标签，导致目标检测模型依据标签确定的类别准确性较低的问题。

此外，若预测信息指示的第一待检测物属于第一类别的置信度未达到置信度阈值，服务器将第一待检测物标记为不属于第一类别。

当初始置信度小于置信度阈值时，服务器确定该预测信息为无效信息，并将第一待检测物标记位为不属于前述的第一类别。也就是说，当初始置信度被判定为不可信任时，服务器无需将该伪标签添加到第一图像中，避免了目标检测模型依据伪标签错误的将第一图像中的待检测物识别为错误的类别，提高目标检测模型对第一图像的检测准确性。

在另一种可选的实现方式中，服务器将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签，包括：首先，服务器获取预测信息指示的一个或多个候选框，其中的一个候选框包括第一待检测物。其次，服务器根据一个候选框和弱增强图像的特征，获取检测框；该检测框包括一个候选框，以及弱增强图像中第一待检测物的特征。最后，服务器将检测框输入教师网络，获得第一待检测物的自适应标签。

示例性的，一副图像中可包含多个待检测物，一个候选框可以是指一个感兴趣区域(region of interst，ROI)，一个ROI可包括一个或多个待检测物，服务器可将弱增强图像的特征与多个候选框进行匹配，从而确定多个候选框中包括第一待检测物的检测框，并基于教师网络确定该检测框对应的自适应标签。由于自适应标签是服务器基于第一图像对应的弱增强图像的特征和第一图像的伪标签确定的，该弱增强图像的特征指示了与第一图像中待检测物的类别一致的信息，由此，服务器根据前述的自适应标签确定的待检测物的类别信息的准确性提高，避免了服务器仅根据伪标签确定的类别信息的准确性较低的问题。

在另一种可选的实现方式中，本实施例提供的目标检测方法还可以包括以下步骤：服务器获取统计周期内多个历史待检测物中属于第一类别的历史待检测物的数量。若数量大于或等于统计阈值，增大置信度阈值；若数量小于统计阈值，减小置信度阈值。在本实施例中，服务器可对一个周期内多帧图像中待检测物的识别信息进行统计，并在目标待检测物属于特定类别(如第一类别)的数量大于或等于统计阈值时，服务器增大该目标待检测物对应的置信度阈值，从而在目标检测的过程中，更为准确的对该目标待检测物进行目标检测，提高目标检测模型对该目标待检测物的识别准确性。

在另一种可选的实现方式中，本实施例提供的目标检测方法还可以包括以下步骤：首先，服务器获取具有标签的第二图像，并将第二图像输入学生网络，获取监督损失值。其次，服务器将第一图像输入学生网络，获取无监督损失值。然后，服务器根据监督损失值和无监督损失值确定模型损失参数。最后，服务器根据模型损失参数训练学生网络，以及，根据训练后的学生网络的模型参数更新教师网络的模型参数。教师-学生网络可在目标检测的过程中，利用目标检测的数据和预测的信息对教师-学生网络的参数进行优化。由于该无监督损失值是由目标检测模型对第一图像的识别结果确定的，因此，服务器在识别多帧图像后，对于已经识别过的待检测物的识别准确性会提高，避免了大规模的目标检测任务中，由目标检测模型的识别准确性较低引起的目标检测效率降低，以及目标检测结果难以满足目标检测的需求，或导致该目标检测任务被重新执行，浪费服务器的算力。

在另一种可选的实现方式中，服务器将第一图像输入学生网络，获取无监督损失值，包括：第一，服务器根据第一图像的伪标签和预测信息，获取区域建议网络(regionproposal network，RPN)分类损失值和RPN回归损失值。第二，服务器将第一图像的伪标签和参考阈值输入学生网络，获取ROI分类损失值；参考阈值包括正参考阈值和负参考阈值。第三，服务器根据RPN分类损失值、RPN回归损失值和ROI分类损失值，确定无监督损失值。

第二方面，提供了一种目标检测装置，该目标检测装置包括用于执行第一方面或第一方面任一种实现方式中的目标检测方法的各个模块。示例性的，该目标检测装置应用于光通信网络中的第一网络设备，如该目标检测装置包括：获取模块、检测模块和输出模块。获取模块，用于获取第一图像；第一图像包括一个或多个待检测物。检测模块，用于将第一图像输入目标检测模型，获取第一待检测物的类别信息；其中，第一待检测物为一个或多个待检测物中任一个，目标检测模型包括教师-学生网络，教师-学生网络用于根据第一待检测物的自适应标签确定第一待检测物的类别信息，自适应标签是由第一图像的伪标签和第一图像的强增强图像确定的。输出模块，用于输出第一图像中一个或多个待检测物的类别信息。

当目标检测装置用于实现上述第一方面中任一方面的方法实施例时，有益效果可以参见第一方面中任一方面的描述，此处不再赘述。所述目标检测装置具有实现上述第一方面中任一方面的方法实例中行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一种可选的实现方式中，输出模块，具体用于：在第一图像中标记一个或多个待检测物的类别信息，获得标记后的第一图像；以及，发送标记后的第一图像。

在另一种可选的实现方式中，教师-学生网络包括：教师网络和学生网络；检测模块，包括：第一标签模块，用于利用教师网络获取第一图像的伪标签；第一预测模块，用于将伪标签和强增强图像输入学生网络，获取第一图像的预测信息；预测信息用于指示第一待检测物属于第一类别的置信度；第二标签模块，用于利用教师网络确定预测信息指示的第一待检测物的自适应标签；第二预测模块，用于将第一待检测物的自适应标签输入学生网络，确定第一待检测物的类别信息。

在另一种可选的实现方式中，第一标签模块，具体用于：获取第一图像的弱增强图像，弱增强图像与第一图像之间的相似度大于强增强图像与第一图像之间的相似度；以及，将弱增强图像输入教师网络，获得第一图像的伪标签。

在另一种可选的实现方式中，第二标签模块，具体用于：利用教师网络获取弱增强图像的特征；以及，若预测信息指示的第一待检测物属于第一类别的置信度达到置信度阈值，将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签。

在另一种可选的实现方式中，第二标签模块，还具体用于：若预测信息指示的第一待检测物属于第一类别的置信度未达到置信度阈值，将第一待检测物标记为不属于第一类别。

在另一种可选的实现方式中，第二标签模块，具体用于：获取预测信息指示的一个或多个候选框，其中的一个候选框包括第一待检测物。第二标签模块，还具体用于根据一个候选框和弱增强图像的特征，获取检测框；检测框包括一个候选框，以及弱增强图像中第一待检测物的特征。第二标签模块，还具体用于将检测框输入教师网络，获得第一待检测物的自适应标签。

在另一种可选的实现方式中，目标检测装置还包括：处理模块，用于获取统计周期内多个历史待检测物中属于第一类别的历史待检测物的数量。处理模块，还用于若数量大于或等于统计阈值，增大置信度阈值；处理模块，还用于若数量小于统计阈值，减小置信度阈值。

在另一种可选的实现方式中，目标检测装置还包括：第一损失模块，用于获取具有标签的第二图像，并将第二图像输入学生网络，获取监督损失值。第二损失模块，用于将第一图像输入学生网络，获取无监督损失值。损失确定模块，用于根据监督损失值和无监督损失值确定模型损失参数。参数更新模块，用于根据模型损失参数训练学生网络，以及，根据训练后的学生网络的模型参数更新教师网络的模型参数。

在另一种可选的实现方式中，第二损失模块，具体用于：根据第一图像的伪标签和预测信息，获取RPN分类损失值和RPN回归损失值。第二损失模块，还具体用于：将第一图像的伪标签和参考阈值输入学生网络，获取ROI分类损失值；参考阈值包括正参考阈值和负参考阈值。第二损失模块，还具体用于：根据RPN分类损失值、RPN回归损失值和ROI分类损失值，确定无监督损失值。

第三方面，提供了一种服务器，包括：存储器，用于存储计算机指令；至少一个处理器，用于调用计算机指令，实现实现如第一方面中任一实现方式所述的方法。

第四方面，提供了一种芯片，包括：控制电路和接口电路。接口电路用于接收来自芯片之外的其它芯片的信号并传输至控制电路或将来自控制电路的信号发送给芯片之外的其它芯片。控制电路和接口电路通过逻辑电路或执行代码指令用于实现如第一方面中任一实现方式所述的方法。

第五方面，提供了一种计算机可读存储介质，该存储介质中存储有计算机程序或指令，当计算机程序或指令被服务器执行时，实现如第一方面中任一实现方式所述的方法。

第六方面，提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行如第一方面中任一实现方式所述的方法。

第七方面，提供了一种目标检测系统，包括至少一个服务器，该服务器可以用于实现如第一方面中任一实现方式所述的方法。示例性的，该目标检测系统可以是一个具有目标检测处理能力的AI系统。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

图1为本申请提供的AI系统的结构示意图；

图2为本申请提供的目标检测的示意图一；

图3为本申请提供的目标检测方法的流程示意图一；

图4为本申请提供的目标检测方法的流程示意图二；

图5为本申请提供的目标检测方法的流程示意图三；

图6为本申请提供的目标检测方法的流程示意图四；

图7为本申请提供的预测信息和自适应标签的比对示意图；

图8为本申请提供的目标检测方法的流程示意图五；

图9为本申请提供的目标检测的示意图二；

图10为本申请提供的相似样本聚类的示意图；

图11为本申请提供的目标检测装置的结构示意图；

图12为本申请提供的服务器的结构示意图。

具体实施方式

在通常的技术方案中，由于未标记数据与有标记数据的分布差距和未标记数据中存在的大量未知目标，在有标记数据上训练的目标检测模型往往对未标记数据有更多的不确定性预测结果。示例性的，目标检测模型对未标记数据中已知目标的预测置信度降低，并且将未知目标识别为已知目标的概率增加。特别是当测试数据也包含相同的未知目标时，由于确认偏差，嘈杂的伪标签将显着增加模型将它们视为已知目标的风险。

因而，本实施例提供了一种目标检测方法，服务器可在第一图像的伪标签的基础上，结合第一图像对应的强增强图像获得自适应标签，并根据自适应标签确定第一图像中物体的类别信息，避免了有标记数据和未标记数据的分布不同所导致的未标记数据的伪标签不准确的问题，以及由未标记数据的伪标签不准确所导致的目标检测模型的检测准确性降低，提高了服务器对未标记数据中物体的检测准确性。

为了下述各实施例的描述清楚简洁，首先给出相关技术的简要介绍。

如图1所示，图1为本申请提供的AI系统的结构示意图。如图1所示，该AI系统包括数据中心和多个终端(如图1所示出的终端111和终端112)，数据中心可以通过网络与终端进行通信，该网络可以是因特网，或其他网络。该网络可以包括一个或多个网络设备，如网络设备可以是路由器或交换机等。

数据中心包括一个或多个服务器，如图1所示出的服务器120，例如支持应用服务的应用服务器，该应用服务器可以提供视频服务、图像服务、游戏服务、基于视频或图像的其他AI处理服务等。在一种可选的情形中，服务器120是指部署有多个服务器的服务器集群，该服务器集群可以具有机架，机架可通过有线连接为该多个服务器建立通信，如通用串行总线(universal serial bus，USB)或快捷外围组件互连(peripheral componentinterconnect express，PCIe)高速总线等。

服务器120还可以从终端获取数据，并对该数据进行AI处理后，向相应的终端发送AI处理的结果。该AI处理可以是指利用AI模型对数据进行对象识别、目标检测、图像分类等任务，还可以是指依据终端所采集的样本获取符合需求的AI模型等。

另外，图1所示出的数据中心还可以包括其他具有AI处理功能的物理设备，如手机、平板电脑或其他设备等。

终端(Terminal)也可以称为终端设备、用户设备(user equipment，UE)、移动台(mobile station，MS)、移动终端(mobile terminal，MT)等。终端可以是手机(如图1所示出的终端111)、具备移动支付功能的刷脸支付设备、具有数据(如图像或视频)采集和处理功能的摄像设备(如图1所示出的终端112)等，终端还可以是平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality，VR)终端设备、增强现实(Augmented Reality，AR)终端设备、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对终端设备所采用的具体技术和具体设备形态不做限定。

值得注意的是，终端可获取服务器120所存储的AI模型等，进而，终端利用该AI模型对图像中所包含的信息执行多种任务。示例的，该AI模型可以是针对数据进行目标检测、对象识别或分类等操作的模型。

例如，终端111中部署的AI模型来实现手机刷脸识别、指纹识别等功能。

又如，终端111中部署的AI模型来实现刷脸支付、物体分类(如商品分类)等功能。

还如，终端112中部署的AI模型可以用于实现对象检测等功能。

图1只是示意图，不应理解为对本申请的限定。本申请的实施例对终端和服务器的应用场景不做限定。例如，终端设备采集的一帧图像包括多个不同类别的事物，如终端可根据图像的信息识别到图1所示出的类1(如人)、类2(如狗)、类3(如猫)、类4(电子设备)等。

由于AI模型的训练过程需要较多具有标记(或标签)的数据以及计算资源，因此，服务器120常将应用于有标记数据的模型迁移到未标记数据中，如图2所示，图2为本申请提供的目标检测的示意图一，其中的数据集1中的数据具有标记(标签)，数据集2中的数据不具有标记。服务器可将应用于数据集1的目标检测模型迁移到数据集2，从而对数据集2中的数据进行目标检测。在一些可选的情形中，服务器还可将数据集1和数据集2进行混合，并利用混合获得的数据集对目标检测模型进行训练等。

这里以数据为图像、服务器120执行的AI处理是目标检测为例进行说明，目标检测是指针对于有标记的图像集或者未标记的图像集所包括的图像中的物体，服务器中部署的目标检测模型对这些物体进行类别检测。如半监督目标检测方法利用大量未标记图像，来提高目标检测模型在使用有限的有标记图像进行训练时的性能。

值得注意的是，目前的半监督目标检测方法都遵循一个假设：有标记和未标记的数据是从相同的分布中采样的，并且具有相同的目标类别。在这种假设下，服务器将一个有标记的训练集分为有标记数据和未标记数据两部分，以验证半监督目标检测方法的有效性。然而，有标记数据和未标记数据具有相同的分布并且两者都只包含相同的目标是不现实的，实际上，未标记数据的分布通常与有标记数据的分布不一致，未标记数据很可能包含从未出现在有标记数据中的未知目标，导致目标检测模型对未标记数据的识别准确率受到影响。

为至少解决上述问题，下面在图1所示出的AI系统的基础上，本实施例提供一种目标检测方法，如图3所示，图3为本申请提供的目标检测方法的流程示意图一，该目标检测方法可应用于图1所示出的AI系统，该目标检测方法可由终端或服务器执行，这里以服务器120执行本实施例提供的目标检测方法为例进行说明。

如图3所示，本实施例提供的目标检测方法包括以下步骤S310至S330。

S310，服务器获取第一图像。

该第一图像可以是指一个图像序列包括的多帧图像中的任意一帧图像，该图像序列可以是指视频，或者待检测的一组图像集合，不予限定。

示例性的，第一图像包括一个或多个待检测物。例如，该待检测物可以是不同类别的物体，如前述图1所示出的4个不同类别的物体。在本申请中，待检测物也可以是指其他类别的物体，图1所示出的4个类别不应理解为对本申请的限定。

S320，服务器将第一图像输入目标检测模型，获取第一待检测物的类别信息。

其中，第一待检测物为一个或多个待检测物中任一个。在一种可能的情形中，S320中的类别信息可以由第一待检测物属于第一类别的预测置信度来表示。在一些可能的情形中，该类别信息还可包括第一待检测物属于其他类别(如第二类别)的预测置信度。

目标检测模型包括教师-学生(teacher-student)网络，该教师-学生网络用于根据第一待检测物的自适应标签确定第一待检测物的类别信息。在一些可选的实现方式中，教师-学生网络也可以称为教师-学生模型等，本申请对此不予限定。

作为一种可能的示例，教师-学生网络包括：教师网络和学生网络。其中的教师网络用于为未标记的数据生成标记，学生网络用于根据这些标记确定未标记的数据的类别信息等。

值得注意的是，目标检测模型不仅可以包括本实施例所提供的教师-学生网络，还可以包括其他的网络层或者算法单元，本申请对此不予限定。

在本实施例中，前述的自适应标签可以是由目标检测模型基于第一图像的伪标签(pseudo label)和第一图像的强增强图像确定的。关于自适应标签和类别信息的详细内容可参照以下图7的相关内容，在此不予赘述。

请继续参见图3，本实施例提供的目标检测方法还包括以下步骤S330。

S330，服务器输出第一图像中一个或多个待检测物的类别信息。

为使用户清晰明了的看到目标检测的结果，作为一种可选的实现方式，服务器输出类别信息的方式可以是将类别信息标记到图像中。如图4所示，图4为本申请提供的目标检测方法的流程示意图二，前述目标检测方法中的S330可以包括以下的步骤S410和S420。

S410，服务器在第一图像中标记一个或多个待检测物的类别信息，获得标记后的第一图像。

示例性的，若第一图像中存在多个待检测物，针对于任一个待检测物，服务器将该待检测物所对应的类别信息标记到图像中该待检测物所在的位置。

S420，服务器发送标记后的第一图像。

例如，服务器可与显示设备连接，该显示设备可以是指AI系统中与该服务器通信的任一个具有显示功能的设备，例如该显示设备是显示屏或者手机等，服务器向该显示设备发送标记后的第一图像，显示设备对该标记后的第一图像进行展示。

在图4所示出的实施例中，服务器可将图像中物体的类别信息标记到图像中，标记后的图像可展示图像中物体的类别，从而使得用户能够快速的从服务器输出的图像中查看到各物体的类别，提高用户体验质量(quality of experience，QoE)。

结合图3和图4所示出的目标检测方法，在本申请提供的实施例中，由于服务器可在第一图像的伪标签的基础上，结合第一图像对应的强增强图像获得自适应标签，并根据自适应标签确定第一图像中物体的类别信息，因此，避免了有标记数据和未标记数据的分布不同所导致的未标记数据的伪标签不准确的问题，以及由未标记数据的伪标签不准确所导致的目标检测模型的检测准确性降低的问题，提高了服务器对未标记数据中物体的检测准确性。

针对于前述服务器利用目标检测模型确定类别信息的过程，本实施例提供一种可能的实现方式，如图5所示，图5为本申请提供的目标检测方法的流程示意图三，目标检测模型包括教师网络和学生网络，以教师网络为例，该教师网络可包括区域建议网络(regionproposal network，RPN)单元和感兴趣区域(region of interst，ROI)单元，该RPN单元用于对图像的区域进行划分获得多个图像检测区域，ROI单元用于从划分获得的多个图像检测区域中选择目标检测过程所需的感兴趣区域(ROI)，并对该ROI进行处理获得图像的标签(或数据的伪标签)等。

如图5所示，目标检测模型对第一图像进行强增强处理，获得第一图像的强增强图像；以及，目标检测模型还对第一图像进行弱增强处理，获得第一图像的弱增强图像。

弱增强处理包括：翻转和平移等操作，例如，随机水平翻转(random horizontalflip)，随机水平和垂直移动等。

强增强处理包括：裁剪(cutout)、自动增强(autoaugment)等操作，其中的自动增强包括随机增强(RandAugment)和CTAugment技术中至少一种。

值得注意的是，前述的弱增强处理和强增强处理中还可以包括其他的图像处理操作。在本实施例中，弱增强图像与第一图像之间的相似度大于强增强图像与第一图像之间的相似度。

在本实施例提供的目标检测方法中，前述的S320可包括以下步骤S510至S540。

S510，服务器利用教师网络获取第一图像的伪标签。

该伪标签用于对目标检测模型进行训练，进而提高目标检测模型对图像的检测准确性。

作为一种可选的实现方式，如图5所示，服务器获取伪标签的方式可以是服务器将第一图像的弱增强图像输入教师网络，从而由教师网络根据该弱增强图像确定第一图像的伪标签。例如，教师网络中的RPN单元对该弱增强图像进行处理获得多个可体现图像中物体的类别信息的图像检测区域，进而由ROI单元对RPN单元确定的多个图像检测区域中选择ROI，并对该ROI进行特征识别和处理后获得伪标签。

S520，服务器将伪标签和强增强图像输入学生网络，获取第一图像的预测信息。

该预测信息用于指示第一待检测物属于第一类别的置信度。在一些情形中，该预测信息也可称为目标检测模型对第一图像进行识别的初始检测结果；该预测信息指示的第一待检测物属于第一类别的置信度也可称为初始置信度。

S530，服务器利用教师网络确定预测信息指示的第一待检测物的自适应标签。

可选的，在图5所示出的S530的基础上，下面结合图6和图7对服务器确定自适应标签的过程进行说明，图6为本申请提供的目标检测方法的流程示意图四，图6示出了图5中S530的可能实现方式，S530可包括以下步骤S531至S534。

S531，服务器利用教师网络获取弱增强图像的特征。

例如，该特征用于指示弱增强图像的纹理信息或者待检测物的信息等。

S532，服务器判断预测信息指示的初始置信度是否达到置信度阈值。

若预测信息指示的第一待检测物属于第一类别的置信度达到置信度阈值，则执行S533；若预测信息指示的第一待检测物属于第一类别的置信度未达到置信度阈值，则执行S534。

若置信度阈值为正值，初始置信度达到置信度阈值是指：初始置信度大于或等于置信度阈值；初始置信度未达到置信度阈值是指：初始置信度小于置信度阈值。

若置信度阈值为负值，初始置信度达到置信度阈值是指：初始置信度小于或等于置信度阈值；初始置信度未达到置信度阈值是指：初始置信度大于置信度阈值。

S533，服务器将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签。

该置信度阈值用于控制自适应标签的门限。示例性的，当预测信息确定的第一待检测物属于第一类别的置信度(简称：初始置信度)大于或等于置信度阈值时，服务器确定该预测信息为有效信息，并依据弱增强图像的特征和前述的预测信息确定自适应标签。如此，避免了服务器仅根据预测信息指示的类别为待检测物设置标签，导致目标检测模型依据标签确定的类别准确性较低。

举例来说，当服务器确定初始置信度达到置信度阈值，则将该预测信息认为是可靠预测，将第一待检测物在自适应标签中的值设置为1；当服务器确定初始置信度未达到置信度阈值，则将该预测信息认为是不可靠预测，将第一待检测物在自适应标签中的值设置为0。前述的1和0仅为本示例提供的自适应标签可能包含的信息，不应理解为对本申请的限定。

S534，服务器将第一待检测物标记为不属于第一类别。

如图7所示出的情况1，置信度阈值包括阈值1和阈值2，预测信息指示第一待检测物分别属于猫、狗、背景的置信度为X1、X2、X3，由于X2大于阈值2，且X1和X3均小于阈值1，因此，服务器为第一待检测物设置自适应标签时，将第一待检测物属于狗的置信度设为1，将第一待检测物属于猫和背景的置信度设为0。

又如图7中的情况2所示，预测信息指示第一待检测物分别属于猫、狗、背景的置信度为X4、X5、X6，由于X4和X5大于阈值1，且X6小于阈值1，因此，服务器为第一待检测物设置自适应标签时，将第一待检测物属于狗的置信度设为X4，第一待检测物属于狗的置信度设为X5，将第一待检测物属于背景的置信度设为0。

也就是说，当初始置信度小于置信度阈值时，服务器确定该预测信息为无效信息，并将第一待检测物标记位为不属于前述的第一类别。换言之，当初始置信度被判定为不可信任时，服务器无需将该伪标签添加到第一图像中，避免了目标检测模型依据伪标签错误的将第一图像中的待检测物识别为错误的类别，提高目标检测模型对第一图像的检测准确性。

请继续参见图5，前述的S320还可包括以下步骤S540。

S540，服务器将第一待检测物的自适应标签输入学生网络，确定第一待检测物的类别信息。

前述的置信度阈值可以是预先设置好的。但在目标检测过程中，较高的置信度阈值可用于保证伪标签的准确性，许多置信度较低的已知目标会被错误地标记为背景，甚至过于低的置信度阈值会导致将未知目标错误地标记为已知目标，使得未标记数据的伪标签准确性较低，从而降低目标检测模型的性能。

可选的，前述的置信度阈值也可以是在目标检测过程中，服务器根据图像序列中各图像所包含的待检测物的标签确定的。示例性的，在图3至图7所示出的实施例的基础上，本申请提供一种确定置信度阈值的可能方式，如图8所示，图8为本申请提供的目标检测方法的流程示意图五，本实施例提供的目标检测方法还可包括以下的步骤S810至S830。

S810，服务器获取统计周期内多个历史待检测物中属于第一类别的历史待检测物的数量。

例如，该统计周期可以是服务器以时间为节点确定的周期，如十秒(second，s)、5分钟(minute，min)或者其他等。

又如，该统计周期还可以是服务器根据待检测的图像的数量确定的，如一个统计周期是指服务器对十万帧图像进行目标检测。

值得注意的是，前述两种统计周期的确定方式仅为本实施例提供的示例，不应理解为对本申请的限定。

S820，若数量大于或等于统计阈值，服务器增大置信度阈值。

示例性的，该统计阈值为20、50、1000或者其他等。

S830，若数量小于统计阈值，服务器减小置信度阈值。

在一种可能的具体示例中，如服务器记录目标检测模型的训练和使用过程中，待检测物属于各种类别的预测(proposal)数量，服务器确定待检测物属于特定类别的目标检测的统计数量，从而，服务器为每一种类别设置一个置信度阈值，数量越多，阈值越高，反之亦然。

假设置信度阈值的最小值为min_thr，最大值为max_thr，以及置信度阈值的调整参数：warmup_step。

在一种情况中，服务器记录目标检测模型的训练过程中所有前景类的proposal数量，设该前景类的proposal数量为num，并获得以下关系：

thr＝min_thr+(max_thr-min_thr)×rate

其中，num_max为目标检测模型在统计周期内获得的待检测物属于某个类别的最大proposal数量，rate为前景类的proposal数量在最大proposal数量中所占的比例，thr为服务器确定的新的置信度阈值。

在另一种情况中，如在目标检测模型的训练初期，目标检测模型难以生成较高的置信度阈值，服务器可为max_thr添加warmup机制：

max_thr＝min_thr+gap×iter

其中，iter是指置信度阈值调整的预设梯度值。

以上服务器调整置信度阈值的方式仅为本实施例提供的示例，不应理解为对本申请的限定。

在本实施例中，服务器可对一个周期内多帧图像中待检测物的识别信息进行统计，并在目标待检测物属于特定类别(如第一类别)的数量大于或等于统计阈值时，服务器增大该目标待检测物对应的置信度阈值，从而在目标检测的过程中，更为准确的对该目标待检测物进行目标检测，提高目标检测模型对该目标待检测物的识别准确性。

在目标检测的过程中，服务器还可以利用有标记数据和无标记数据的检测结果对目标检测模型包含的教师-学生网络进行训练。示例性的，服务器还可以获取具有标签的第二图像，并依据该第二图像获取监督损失值；以及，服务器根据前述无标签的第一图像，并依据该第一图像获取无监督损失值。进而，服务器根据监督损失值和无监督损失值确定模型损失参数。最后，服务器根据模型损失参数训练学生网络，以及，根据训练后的学生网络的模型参数更新教师网络的模型参数。

下面给出一种可能的具体示例来对目标检测模型的训练进行说明。

如图9所示，图9为本申请提供的目标检测的示意图二，在训练过程中，每次对目标检测模型的参数进行迭代时，服务器会有一组标签数据和一组无标签数据被用于训练。其中，N_s是标签数据的数量，N_u是无标签数据的数量。x_i是图像，y_i是图像对应的标签，图像对应的标签包括图像中所有检测框的位置和类别信息。

在Teacher-Student机制下，目标检测模型会读入一组标签数据D_s和一组无标签数据D_u。

对于标签数据D_s，如图9所示出的第二图像，学生网络(或称Student模型)会为标签数据D_s计算监督损失值(loss)。示例性的，对于标签数据监督loss(简称：/>)由RPN分类loss/>RPN回归loss/>ROI分类loss/>ROI回归loss确定，即监督损失/>为：

服务器获得监督损失所需的/>可按照通常的技术方案来获得，本申请对此不予限定。

对于无标签数据D_u，如图9所示出的第一图像，服务器分别对无标签数据D_u进行强弱增强，获得弱增强图像和强增强图像。

请参照图9：教师网络(或称Teacher模型)对弱增强图像进行推理，得到该弱增强图像的类别预测结果，该类别预测结果用于指示弱增强图像中所有的前景物体的位置和类别。以及，服务器根据类别预测结果的TOP-1分值来作为置信度，以阈值σ₁来初步生成伪标签

服务器可根据根据第一图像的伪标签和预测信息，获取RPN分类loss/>和RPN回归loss/>在图9中，/>和/>被统一标记为/>

作为一种可行的实现方式，服务器将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签，可包括：服务器获取预测信息指示的一个或多个候选框，其中的一个候选框包括第一待检测物。其次，服务器根据一个候选框和弱增强图像的特征，获取检测框；该检测框包括前述的一个候选框(该候选框包括第一待检测物)，以及强增强图像中第一待检测物的特征。最后，服务器将检测框输入教师网络，获得第一待检测物的自适应标签。该自适应标签可用于确定ROI分类损失。

教师网络和学生网络都通过各自的RPN生成候选框。首先，教师网络对其候选框进行过滤，选择预测置信度大于或等于置信度阈值(如σ₁)的候选框作为伪标签，输入到学生网络中，就像教师在课堂上向学生传授知识一样。然后，学生网络将其候选框与伪标签进行匹配：在计算出候选框与伪标签之间的交并比(intersection over union，IoU)后，学生网络选择IoU较高的候选框(即前述的检测框)并将其反馈给教师网络，就像学生围绕知识点向教师提问一样。最后，教师网络为这些检测框在弱增强图像的特征上生成自适应标签(与老师要回答学生的问题相似)，以指导学生网络对待检测物的分类。如此，教师网络和学生网络之间的互动教学机制增加了教师网络和学生网络之间的互动，使得教师网络可以根据学生网络最感兴趣的领域，有针对性地引导学生网络，有效提高目标检测模型的训练效率。

示例性的，请继续参照图9：学生网络(或称Student模型)会在伪标签的基础上，使用正参考阈值σ_pos和负参考阈值σ_neg得到自适应标签(adaptive label)/>例如，正参考阈值σ_pos＝0.8，负参考阈值σ_neg＝0.05。该自适应标签/>用于确定ROI分类loss。

由于采用了自适应标签，无监督loss中，ROI的分类loss的计算过程将会发生变化，从传统的one-hot型的交叉熵变为Soft型交叉熵，如下所示：

上式中，N_i是图像中，用于训练的候选框的数量；p_j是学生网络在第j个候选框上的预测结果，/>是教师网络为该候选框对应的待检测物生成的自适应标签。p_j和/>都是(N+1)维向量，N是未标记的数据集中前景类的数量。

如此，无监督损失为RPN分类损失值、RPN回归损失值和ROI分类损失值相加的和：

最终，整体的模型损失参数被定义为监督loss/>和无监督loss/>的加权和：

其中的λ是无监督损失在模型损失参数中的权值，λ可根据标签数据和无标签数据的数量比例进行确定，如无标签数据的数量较多，可取λ＝4，若标签数据和无标签数据的数据量大概为1：1，可取λ＝2。该模型损失参数仅用于训练学生网络；教师网络的模型参数可由服务器按照指数移动平均值(exponential moving average，EMA)策略进行更新。

示例性的，设教师网络的模型参数为θ_t，学生网络的模型参数为θ_s，那么每次模型迭代，θ_t都会以如下方式被θ_s更新：

θ_t＝αθ_t+(1-α)θ_s

其中的α用于指示原教师网络的模型参数在新的教师网络中的模型参数所占的比值。例如，α＝0.999。

此外，在生成伪标签的阶段，无标记数据中的未知目标很可能与已知目标混淆，从而别误认为是某一类已知目标，这就给目标检测模型的训练过程带来了噪声标签，从而影响模型的效果。考虑到这一潜在风险，在特征空间中，所有已知类别目标之间以及已知类别目标与未知类别目标之间的距离都越大越好。这样，目标检测模型就可以有更好地区分已知目标与未知目标，有效降低未知目标被误认为已知目标的风险。

如图10所示，对于每一已知目标类别C_i，服务器都会提取该目标类别在ROI中的特征，统计这一个目标类别在特征空间中的类别中心p_i。在目标检测模型的训练过程中，对于每一个目标待检测物，服务器提取该目标待检测物在ROI中的特征向量f_x，并通过对比损失函数来缩小此目标待检测物到改目标类别中心的距离，增大此目标待检测物到非该目标类别中心的距离。示例性的，该对比损失函数定义如下：

其中c是已知目标类别数，其中的函数l()为：

其中是f_x与p_i之间的欧式距离，Δ是预先定义的不同类别之前距离的大小。

服务器基于对比损失函数对添加了自适应标签的数据集进行聚类，可将相似的样本距离(该样本距离用于指示数据之间的相似度)缩小，将不相似的样本之间距离增大，进一步增大不同类别的待检测物之间的区别，减小了目标检测模型混淆已知目标与未知目标的可能性，提高了在开放场景的半监督目标检测过程中，目标检测模型对目标类别的检测准确性。

可以理解的是，为了实现上述实施例中功能，服务器包括了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的单元及方法步骤，本申请能够以硬件或硬件和计算机软件相结合的形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用场景和设计约束条件。

图11为本申请提供的目标检测装置的结构示意图，该目标检测装置1100可用于实现前述方法实施例中服务器的功能，因此也能实现上述目标检测方法实施例所具备的有益效果。在本申请的实施例中，该目标检测装置1100可以是如图1所示的服务器120，或者应用于服务器的模块(如芯片)。

如图11所示，该目标检测装置1100包括：获取模块1110、检测模块1120、输出模块1130、处理模块1140、第一损失模块1150、第二损失模块1160、损失确定模块1170和参数更新模块1180。该目标检测装置1100用于实现上述图3至图10中服务器的功能。

示例性的，该目标检测装置1100应用于AI系统中的服务器，如该目标检测装置1100包括：获取模块1110、检测模块1120和输出模块1130。获取模块1110，用于获取第一图像；第一图像包括一个或多个待检测物。检测模块1120，用于将第一图像输入目标检测模型，获取第一待检测物的类别信息；其中，第一待检测物为一个或多个待检测物中任一个，目标检测模型包括教师-学生网络，教师-学生网络用于根据第一待检测物的自适应标签确定第一待检测物的类别信息，自适应标签是由第一图像的伪标签和第一图像的强增强图像确定的。输出模块1130，用于输出第一图像中一个或多个待检测物的类别信息。

当目标检测装置1100用于实现上述方法实施例时，有益效果可以参见前述实施例的描述，此处不再赘述。

在一种可选的实现方式中，输出模块1130，具体用于：在第一图像中标记一个或多个待检测物的类别信息，获得标记后的第一图像；以及，发送标记后的第一图像。

在另一种可选的实现方式中，教师-学生网络包括：教师网络和学生网络；检测模块1120，包括：第一标签模块1121，用于利用教师网络获取第一图像的伪标签；第一预测模块1122，用于将伪标签和强增强图像输入学生网络，获取第一图像的预测信息；预测信息用于指示第一待检测物属于第一类别的置信度；第二标签模块1123，用于利用教师网络确定预测信息指示的第一待检测物的自适应标签；第二预测模块1124，用于将第一待检测物的自适应标签输入学生网络，确定第一待检测物的类别信息。

在另一种可选的实现方式中，第一标签模块1121，具体用于：获取第一图像的弱增强图像，弱增强图像与第一图像之间的相似度大于强增强图像与第一图像之间的相似度；以及，将弱增强图像输入教师网络，获得第一图像的伪标签。

在另一种可选的实现方式中，第二标签模块1123，具体用于：利用教师网络获取弱增强图像的特征；以及，若预测信息指示的第一待检测物属于第一类别的置信度达到置信度阈值，将预测信息和弱增强图像的特征输入教师网络，获得第一待检测物的自适应标签。

在另一种可选的实现方式中，第二标签模块1123，还具体用于：若预测信息指示的第一待检测物属于第一类别的置信度未达到置信度阈值，将第一待检测物标记为不属于第一类别。

在另一种可选的实现方式中，第二标签模块1123，具体用于：获取预测信息指示的一个或多个候选框，其中的一个候选框包括第一待检测物。第二标签模块1123，还具体用于根据一个候选框和弱增强图像的特征，获取检测框；检测框包括一个候选框，以及弱增强图像中第一待检测物的特征。第二标签模块1123，还具体用于将检测框输入教师网络，获得第一待检测物的自适应标签。

在另一种可选的实现方式中，目标检测装置1100还包括：处理模块1140，用于获取统计周期内多个历史待检测物中属于第一类别的历史待检测物的数量。处理模块1140，还用于若数量大于或等于统计阈值，增大置信度阈值；处理模块1140，还用于若数量小于统计阈值，减小置信度阈值。

在另一种可选的实现方式中，目标检测装置1100还包括：第一损失模块1150，用于获取具有标签的第二图像，并将第二图像输入学生网络，获取监督损失值。第二损失模块1160，用于将第一图像输入学生网络，获取无监督损失值。损失确定模块1170，用于根据监督损失值和无监督损失值确定模型损失参数。参数更新模块1180，用于根据模型损失参数训练学生网络，以及，根据训练后的学生网络的模型参数更新教师网络的模型参数。

在另一种可选的实现方式中，第二损失模块1160，具体用于：根据第一图像的伪标签和预测信息，获取RPN分类损失值和RPN回归损失值。第二损失模块1160，还具体用于：将第一图像的伪标签和参考阈值输入学生网络，获取ROI分类损失值；参考阈值包括正参考阈值和负参考阈值。第二损失模块1160，还具体用于：根据RPN分类损失值、RPN回归损失值和ROI分类损失值，确定无监督损失值。

有关上述获取模块1110、检测模块1120、输出模块1130、处理模块1140、第一损失模块1150、第二损失模块1160、损失确定模块1170和参数更新模块1180更详细的描述可以直接参考前述附图所示的方法实施例中相关描述直接得到，这里不加赘述。

目标检测装置通过软件实现前述附图中任一所示的目标检测方法时，目标检测装置及其各个单元也可以为软件模块。通过处理器调用该软件模块实现上述的目标检测方法。该处理器可以是中央处理单元(central processing unit，CPU)，特定应用集成电路(application-specific integrated circuit，ASIC)实现，或可编程逻辑器件(programmable logic device，PLD)，上述PLD可以是复杂程序逻辑器件(complexprogrammable logical device，CPLD)、现场可编程门阵列(field programmable gatearray，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合。

可以理解的，前述附图所示出的目标检测装置仅为本实施例提供的示例，根据目标检测过程或者业务的不同目标检测装置可包括更多或更少的单元，本申请对此不予限定。

当目标检测装置通过硬件实现时，该硬件可以通过处理器或芯片实现。芯片包括接口电路和控制电路。接口电路用于接收来自处理器之外的其它设备的数据并传输至控制电路，或将来自控制电路的数据发送给处理器之外的其它设备。

控制电路和接口电路通过逻辑电路或执行代码指令用于实现上述实施例中任一种可能实现方式的方法。有益效果可以参见上述实施例中任一方面的描述，此处不再赘述。

可以理解的是，本申请的实施例中的处理器可以是CPU、神经处理器(neuralprocessing unit，NPU)或图形处理器(graphic processing unit，GPU)，还可以是其它通用处理器、数字信号处理器(digital signal processor，DSP)、ASIC、FPGA或者其它可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

另外，图11所示出的目标检测装置1100也可以通过服务器来实现，如图12所示，图12为本申请提供的服务器的结构示意图，该服务器1200包括：存储器1210和至少一个处理器1220，该处理器1220可以实现上述实施例提供的目标检测方法，该存储器1210用于存储上述目标检测方法对应的软件指令。作为一种可选的实现方式，在硬件实现上，服务器1200可以是指封装有一个或多个处理器1220的芯片或芯片系统。示例的，当服务器1200用于实现上述实施例中方法步骤时，服务器1200包括的处理器1220执行上述方法的步骤及其可能的子步骤。在一种可选的情形中，服务器1200还可以包括通信接口1230，该通信接口1230可以用于收发数据。例如，通信接口1230用于接收注册信号帧、或者发送注册信号帧等；该通信接口1230可通过服务器1200包括的接口电路来实现。

本申请的实施例中，通信接口1230、处理器1220以及存储器1210之间可通过总线1240连接，所述总线1240可以分为地址总线、数据总线、控制总线等。

值得注意的是，服务器1200还可以执行图1所示出的目标检测装置1100的功能，此处不予赘述。

本实施例提供的服务器1200也可以是指其他具有目标检测能力的电子设备，本申请对此不予限定。

本申请的实施例中的方法步骤也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random accessmemory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于网络设备或终端设备中。当然，处理器和存储介质也可以作为分立组件存在于网络设备或终端设备中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时，全部或部分地执行本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备或者其它可编程装置。所述计算机程序或指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如，软盘、硬盘、磁带；也可以是光介质，例如，数字视频光盘(digital video disc，DVD)；还可以是半导体介质，例如，固态硬盘(solid state drive，SSD)。

在本申请的各个实施例中，如果没有特殊说明以及逻辑冲突，不同的实施例之间的术语和/或描述具有一致性、且可以相互引用，不同的实施例中的技术特征根据其内在的逻辑关系可以组合形成新的实施例。在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定。

Claims

1.一种目标检测方法，其特征在于，包括：

获取第一图像；所述第一图像包括一个或多个待检测物；

将第一图像输入目标检测模型，获取第一待检测物的类别信息；

其中，所述第一待检测物为所述一个或多个待检测物中任一个，所述目标检测模型包括教师-学生网络，所述教师-学生网络用于根据所述第一待检测物的自适应标签确定所述第一待检测物的类别信息，所述自适应标签是由所述第一图像的伪标签和所述第一图像的强增强图像确定的；

输出所述第一图像中所述一个或多个待检测物的类别信息。

2.根据权利要求1所述的方法，其特征在于，

输出所述第一图像中所述一个或多个待检测物的类别信息，包括：

在所述第一图像中标记所述一个或多个待检测物的类别信息，获得标记后的第一图像；

发送所述标记后的第一图像。

3.根据权利要求1或2所述的方法，其特征在于，所述教师-学生网络包括：教师网络和学生网络；

所述将第一图像输入目标检测模型，获取第一待检测物的类别信息，包括：

利用所述教师网络获取所述第一图像的伪标签；

将所述伪标签和所述强增强图像输入所述学生网络，获取所述第一图像的预测信息；所述预测信息用于指示所述第一待检测物属于第一类别的置信度；

利用所述教师网络确定所述预测信息指示的所述第一待检测物的自适应标签；

将所述第一待检测物的自适应标签输入所述学生网络，确定所述第一待检测物的类别信息。

4.根据权利要求3所述的方法，其特征在于，

利用所述教师网络获取所述第一图像的伪标签，包括：

获取所述第一图像的弱增强图像，所述弱增强图像与所述第一图像之间的相似度大于所述强增强图像与所述第一图像之间的相似度；

将所述弱增强图像输入所述教师网络，获得所述第一图像的伪标签。

5.根据权利要求4所述的方法，其特征在于，

利用所述教师网络确定所述预测信息指示的所述第一待检测物的自适应标签，包括：

利用所述教师网络获取所述弱增强图像的特征；

若所述预测信息指示的所述第一待检测物属于第一类别的置信度达到置信度阈值，将所述预测信息和所述弱增强图像的特征输入所述教师网络，获得所述第一待检测物的自适应标签。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

若所述预测信息指示的所述第一待检测物属于第一类别的置信度未达到所述置信度阈值，将所述第一待检测物标记为不属于所述第一类别。

7.根据权利要求5或6所述的方法，其特征在于，将所述预测信息和所述弱增强图像的特征输入所述教师网络，获得所述第一待检测物的自适应标签，包括：

获取所述预测信息指示的一个或多个候选框，其中的一个候选框包括所述第一待检测物；

根据所述一个候选框和所述弱增强图像的特征，获取检测框；所述检测框包括所述一个候选框，以及所述弱增强图像中所述第一待检测物的特征；

将所述检测框输入所述教师网络，获得所述第一待检测物的自适应标签。

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述方法还包括：

获取统计周期内多个历史待检测物中属于所述第一类别的历史待检测物的数量；

若所述数量大于或等于统计阈值，增大所述置信度阈值；

若所述数量小于所述统计阈值，减小所述置信度阈值。

9.根据权利要求3至8中任一项所述的方法，其特征在于，所述方法还包括：

获取具有标签的第二图像；

将所述第二图像输入所述学生网络，获取监督损失值；

将所述第一图像输入所述学生网络，获取无监督损失值；

根据所述监督损失值和所述无监督损失值确定模型损失参数；

根据所述模型损失参数训练所述学生网络，以及，根据训练后的学生网络的模型参数更新所述教师网络的模型参数。

10.根据权利要求9所述的方法，其特征在于，

将所述第一图像输入所述学生网络，获取无监督损失值，包括：

根据所述第一图像的伪标签和所述预测信息，获取区域建议网络RPN分类损失值和RPN回归损失值；

将所述第一图像的伪标签和参考阈值输入所述学生网络，获取感兴趣区域ROI分类损失值；所述参考阈值包括正参考阈值和负参考阈值；

根据所述RPN分类损失值、所述RPN回归损失值和所述ROI分类损失值，确定所述无监督损失值。

11.一种目标检测装置，其特征在于，包括：

获取模块，用于获取第一图像；所述第一图像包括一个或多个待检测物；

检测模块，用于将第一图像输入目标检测模型，获取第一待检测物的类别信息；

输出模块，用于输出所述第一图像中所述一个或多个待检测物的类别信息。

12.根据权利要求11所述的装置，其特征在于，所述输出模块，具体用于：在所述第一图像中标记所述一个或多个待检测物的类别信息，获得标记后的第一图像；以及，发送所述标记后的第一图像。

13.根据权利要求11或12所述的装置，其特征在于，所述教师-学生网络包括：教师网络和学生网络；

所述检测模块，包括：

第一标签模块，用于利用所述教师网络获取所述第一图像的伪标签；

第一预测模块，用于将所述伪标签和所述强增强图像输入所述学生网络，获取所述第一图像的预测信息；所述预测信息用于指示所述第一待检测物属于第一类别的置信度；

第二标签模块，用于利用所述教师网络确定所述预测信息指示的所述第一待检测物的自适应标签；

第二预测模块，用于将所述第一待检测物的自适应标签输入所述学生网络，确定所述第一待检测物的类别信息。

14.根据权利要求13所述的装置，其特征在于，所述第一标签模块，具体用于：获取所述第一图像的弱增强图像，所述弱增强图像与所述第一图像之间的相似度大于所述强增强图像与所述第一图像之间的相似度；以及，将所述弱增强图像输入所述教师网络，获得所述第一图像的伪标签。

15.根据权利要求14所述的装置，其特征在于，所述第二标签模块，具体用于：利用所述教师网络获取所述弱增强图像的特征；以及，若所述预测信息指示的所述第一待检测物属于第一类别的置信度达到置信度阈值，将所述预测信息和所述弱增强图像的特征输入所述教师网络，获得所述第一待检测物的自适应标签。

16.根据权利要求15所述的装置，其特征在于，所述第二标签模块，还具体用于：若所述预测信息指示的所述第一待检测物属于第一类别的置信度未达到所述置信度阈值，将所述第一待检测物标记为不属于所述第一类别。

17.根据权利要求15或16所述的装置，其特征在于，所述第二标签模块，具体用于：获取所述预测信息指示的一个或多个候选框，其中的一个候选框包括所述第一待检测物；

所述第二标签模块，还具体用于根据所述一个候选框和所述弱增强图像的特征，获取检测框；所述检测框包括所述一个候选框，以及所述弱增强图像中所述第一待检测物的特征；

所述第二标签模块，还具体用于将所述检测框输入所述教师网络，获得所述第一待检测物的自适应标签。

18.根据权利要求15至17中任一项所述的装置，其特征在于，所述装置还包括：

处理模块，用于获取统计周期内多个历史待检测物中属于所述第一类别的历史待检测物的数量；

所述处理模块，还用于若所述数量大于或等于统计阈值，增大所述置信度阈值；

所述处理模块，还用于若所述数量小于所述统计阈值，减小所述置信度阈值。

19.根据权利要求13至18中任一项所述的装置，其特征在于，所述装置还包括：

第一损失模块，用于获取具有标签的第二图像，并将所述第二图像输入所述学生网络，获取监督损失值；

第二损失模块，用于将所述第一图像输入所述学生网络，获取无监督损失值；

损失确定模块，用于根据所述监督损失值和所述无监督损失值确定模型损失参数；

参数更新模块，用于根据所述模型损失参数训练所述学生网络，以及，根据训练后的学生网络的模型参数更新所述教师网络的模型参数。

20.根据权利要求19所述的装置，其特征在于，所述第二损失模块，具体用于：根据所述第一图像的伪标签和所述预测信息，获取区域建议网络RPN分类损失值和RPN回归损失值；

所述第二损失模块，还具体用于：将所述第一图像的伪标签和参考阈值输入所述学生网络，获取感兴趣区域ROI分类损失值；所述参考阈值包括正参考阈值和负参考阈值；

所述第二损失模块，还具体用于：根据所述RPN分类损失值、所述RPN回归损失值和所述ROI分类损失值，确定所述无监督损失值。

21.一种服务器，其特征在于，包括：

存储器，用于存储计算机指令；

至少一个处理器，用于调用所述计算机指令，实现权利要求1至10中任一项所述的目标检测方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令被处理器或服务器执行时，实现权利要求1至10中任一项所述的目标检测方法。