CN113822302A

CN113822302A - 一种目标检测模型的训练方法及装置

Info

Publication number: CN113822302A
Application number: CN202010559883.5A
Authority: CN
Inventors: 郑磊波; 唐剑波; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2021-12-21
Anticipated expiration: 2040-06-18
Also published as: CN113822302B

Abstract

本申请提供一种目标检测模型的训练方法及装置，其中所述目标检测模型的训练方法包括：获取第一训练图像；将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息；将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型；获取第二训练图像和所述第二训练图像对应的第二候选区域信息；将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型。通过本方法降低了标注样本数据的成本，提高了目标检测的准确率，加快了模型的训练速度。

Description

一种目标检测模型的训练方法及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种目标检测模型的训练方法及装置、图像检测方法及装置、计算设备和计算机可读存储介质。

背景技术

随着人工智能技术的发展，自动标注系统得到了广泛的应用，自动标注系统是基于目标检测模型的应用，将待检测图像输入至目标检测模型后，目标检测模型响应于输入的待检测图片标注相应的检测内容。

现有的目标检测模型在训练过程中，需要人工对训练图像进行标注，标注出训练图像中的检测内容，再将标注好的训练图像输入至目标检测模型中进行训练，但是这种训练方法需要的训练周期较长，而且需要大量的人工标注训练图像进行训练，因此需要花费大量的人力物力，提高了训练模型的成本。

因此如何缩短模型训练周期，降低模型训练成本，就成为技术人员目前亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种目标检测模型的训练方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种目标检测模型的训练方法，包括：

获取第一训练图像；

将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息；

将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型；

获取第二训练图像和所述第二训练图像对应的第二候选区域信息；

将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型。

可选的，所述候选区域检测模型包括特征提取层、候选区域网络层、空间金字塔池化层、池化层；

将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息，包括：

将所述第一训练图像输入至所述特征提取层提取所述第一训练图像的特征图像；

将所述特征图像输入至所述候选区域网络层，获取所述特征图像对应的多个子候选区域；

将所述特征图像和多个子候选区域输入至所述空间金字塔池化层，获得每个所述子候选区域对应的候选特征向量；

将每个所述候选特征向量输入至所述池化层进行池化处理，获得所述第一训练图像对应的第一候选区域信息。

可选的，将每个所述候选特征向量输入至所述池化层进行池化处理，包括：

将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，和/或将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵；

基于所述第一权重系数矩阵和/或所述第二权重系数矩阵进行池化处理。

可选的，将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，包括：

将每个所述候选特征向量做目标识别处理获得每个所述子候选区域中每个类别的权重系数；

根据每个所述子候选区域和每个所述子候选区域中类别的权重系数生成第一权重系数矩阵。

可选的，将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵，包括：

将每个所述候选特征向量做目标检测处理获得每个类别在每个子候选区域中的权重系数；

根据每个类别在每个子候选区域中的权重系数和每个所述子候选区域生成第二权重系数矩阵。

可选的，将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型，包括：

将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型；

所述目标检测模型根据所述第一训练图像生成第一检测区域信息；

根据所述第一检测区域信息与所述第一候选区域信息计算第一损失值；

根据所述第一损失值调整所述待训练目标检测模型的模型参数直至满足训练条件，获得初始目标检测模型。

可选的，将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型，包括：

将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型；

所述初始目标检测模型根据所述第二训练图像生成第二检测区域信息；

根据所述第二检测区域信息与所述第二候选区域信息计算第二损失值；

根据所述第二损失值调整所述初始目标检测模型的模型参数直至满足训练条件，获得目标检测模型。

根据本申请实施例的第二方面，提供了一种图像检测方法，包括：

获取待检测图像；

将所述待检测图像输入至目标检测模型进行目标检测，其中，所述目标检测模型是通过本申请实施例的第一方面中任意一项目标检测模型的训练方法训练得到的；

获取所述目标检测模型输出的所述待检测图像中的检测结果。

根据本申请实施例的第三方面，提供了一种目标检测模型的训练装置，包括：

第一获取模块，被配置为获取第一训练图像；

候选区域信息获取模块，被配置为将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息；

第一训练模块，被配置为将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型；

第二获取模块，被配置为获取第二训练图像和所述第二训练图像对应的第二候选区域信息；

第二训练模块，被配置为将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型。

根据本申请实施例的第四方面，提供了一种图像检测装置，包括：

第三获取模块，被配置为获取待检测图像；

目标检测模块，被配置为将所述待检测图像输入至目标检测模型进行目标检测，所述目标检测模型是通过本申请实施例的第一方面中任意一项目标检测模型的训练方法训练得到的；

第四获取模块，被配置为获取所述目标检测模型输出的所述待检测图像中的检测结果。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述目标检测模型的训练方法或图像检测方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述目标检测模型的训练方法或图像检测方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述目标检测模型的训练方法或图像检测方法的步骤。

本申请实施例提供的目标检测模型的训练方法，首选通过无需标注的第一训练图像进行预训练，获得初始目标检测模型，实现了从零开始标注，降低了标注样本数据的成本，再用第二训练图像继续进行训练，通过增量学习算法优化了目标检测模型的能力，提高了目标检测的准确率，加快了模型训练速度。

图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的目标检测模型的训练方法的流程图；

图3a是本申请实施例提供的第一训练图像；

图3b是本申请实施例提供的候选区域网络输出的多个子候选区域示意图；

图3c是本申请实施例提供的第一训练图像对应的第一候选区域信息示意图；

图4是本申请实施例提供的候选区域检测模型生成第一候选区域信息方法的示意图；

图5是本申请实施例提供的YoloV3网络的结构图；

图6是本申请实施例提供的目标检测模型训练方法的流程示意图；

图7是本申请实施例提供的目标检测模型训练方法的架构示意图；

图8是本申请另一实施例提供的目标检测模型的训练方法流程图；

图9是本申请实施例提供的图像检测方法的流程图；

图10是本申请实施例提供的目标检测模型的训练装饰的结构示意图；

图11是本申请实施例提供的图像检测装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

第一训练图像：目标检测模型的第一类训练图像，不包括训练图像对应的候选区域信息，用于无监督训练。

第一候选区域信息：由候选区域检测模型检测出的第一训练图像对应的候选区域信息。

候选区域检测模型：弱监督学习模型，对第一训练图像进行处理获得第一训练图像对应的候选区域信息。

初始目标检测模型：经过第一训练图像训练的目标检测模型，初始目标检测模型生可以生成候选区域信息，但不够精确。

第二训练图像：目标检测模型的第二类训练图像，包括训练图像对应的候选区域信息，用于有监督训练。

第二候选区域信息：第二训练图像对应的候选区域信息，包括用于目标检测模型训练的标签。

目标检测模型：经过第二训练图像训练后的目标检测模型，具有准确地检测图片中目标的能力。

候选区域网络：全卷积神经网络，该网络用于生成高质量的候选区域。

空间金字塔池化：可以将不同大小的特征图片作为输入，将一个特征图片从不同角度进行特征提取再聚合，生成固定大小的输出。

第一检测区域信息：待训练目标检测模型在训练过程中根据第一训练图像输出的检测区域信息。

第二检测区域信息：初始目标检测模型在训练过程中根据第二训练图像输出的检测区域信息。

监督学习：监督学习算法通过学习大量训练数据来构建预测模型，其中每个训练样本都有其对应的真值输出。

弱监督学习：弱监督学习算法允许使用少量具有真实标签的样本或使用带有粗略标签的样本进行训练，从而得到与监督学习相近的结果。

增量学习：增量学习是指一个学习系统能不断地从新样本中学习新的知识，并能保存大部分以前已经学习到的知识。

在本申请中，提供了一种目标检测模型的训练方法及装置、图像检测方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示目标检测模型的训练方法中的步骤。

图2示出了根据本申请一实施例的目标检测模型的训练方法的流程图，包括步骤202至步骤210。

步骤202：获取第一训练图像。

第一训练图像为目标检测模型的第一类训练图像，第一训练图像不包括训练图像对应的候选区域信息，用于无监督训练。

第一训练图像可以从现有的网络图库中获取，如ImageNet，也可以是自行创建的图库，用于训练，第一训练图像为不带有候选区域信息的图片，即第一训练图像为不带有边界框的图像。

在本申请提供的一实施例中，以一只猫的图像为例对本申请提供的方法做解释说明，参见图3a，图3a示出了本申请一实施例提供的第一训练图像。图像中有一只猫，第一训练图像不带有用于标识猫区域的边界框。

步骤204：将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息。

对将第一训练图像输入至分类网络模型，为第一训练图像打标签，若第一训练图像为一只猫的图像，则第一训练图像的标签为“猫”，若第一训练图像为一只鸟的图像，则第一训练图像的标签为“鸟”。

将第一训练图像输入至候选区域检测模型，候选区域检测模型是弱监督学习模型，用于对第一训练图像进行处理获得第一训练图像对应的候选区域信息。

可选的，候选区域检测模型包括特征提取层、候选区域网络层、空间金字塔池化层、池化层；

可选的，参见图4，步骤204可以通过下述步骤402至步骤408实现。

步骤402：将所述第一训练图像输入至所述特征提取层提取所述第一训练图像的特征图像。

特征提取层用于提取第一训练图像的特征图像，特征提取层可以为移除了全连接层的残差结构的卷积神经网络，残差结构的卷积神经网络可以为ResNet、ResNet18、ResNet50等。

在本申请提供的实施例中，沿用上例，将图3a所示的第一训练图像输入至移除了全连接层的ResNet50卷积神经网络，将第一训练图像输入至ResNet50模型中，ResNet50卷积神经网络包括第一卷积层组、第二卷积层组、第三卷积层组、第四卷积层组和第五卷积层组，提取所述第一训练图像的特征图像。

步骤404：将所述特征图像输入至所述候选区域网络层，获取所述特征图像对应的多个子候选区域。

候选区域网络层(RPN)也是全卷积网络(FCN，fully-convolutional network)，可以针对生成检测建议框的任务端到端地训练，能够同时预测出object的边界和分数，只是在CNN上额外增加了2个卷积层(全卷积层cls和reg)。RPN网络的输入可以是任意大小的图片。将特征图像输入至RPN中，RPN将每个特征图像的位置编码生成一个特征向量，对每一个位置输出一个objectness score和regressedbounds for k个候选区域(regionproposal)，即在每个卷积映射位置输出这个位置上多种尺度(3种)和长宽比(3种)的k个(3*3＝9)区域建议的物体得分和候选区域信息，通过RPN层获取所述特征图像对应的多个子候选区域。

在本申请提供的实施例中，沿用上例，将所述特征图像输入至所述候选区域网络层，获取所述特征图像对应的多个子候选区域，参见图3b，图3b示出了候选区域网络输出的所述特征图像对应的多个子候选区域。

步骤406：将所述特征图像和多个子候选区域输入至所述空间金字塔池化层，获得每个所述子候选区域对应的候选特征向量。

金字塔池化层(Spatial Pyramid Pooling，SPP)可以将不同大小的特征图片作为输入，将一个特征图片从不同角度进行特征提取再聚合，生成固定大小的输出。从多尺度特征中提取出固定大小的特征向量，解决了特征图像大小不一的问题。通过特征向量和多个子候选区域获得每个子候选区域对应固定大小的候选特征向量。

在本申请提供的实施例中，将候选区域网络输出的所述特征图像和对应的多个子候选区域输入至空间金字塔池化层，获得每个子候选区域对应的候选特征向量。

步骤408：将每个所述候选特征向量输入至所述池化层进行池化处理，获得所述第一训练图像对应的第一候选区域信息。

将每个子候选区域对应的候选特征向量进行池化，获得所述第一训练图像对应的第一候选区域信息。

可选的，将每个所述候选特征向量输入至所述池化层进行池化处理，包括：将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，和/或将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵；基于所述第一权重系数矩阵和/或所述第二权重系数矩阵进行池化处理。

在实际应用中，可以仅对每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，或对每个所述候选特征向量做目标检测处理获得第二权重系数矩阵，或对每个所述候选特征向量做目标识别处理获得第一权重系数矩阵和对每个所述候选特征向量做目标检测处理获得第二权重系数矩阵。优选的，对每个所述候选特征向量做目标识别处理获得第一权重系数矩阵和对每个所述候选特征向量做目标检测处理获得第二权重系数矩阵。

可选的，将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，包括：将每个所述候选特征向量做目标识别处理获得每个所述子候选区域中每个类别的权重系数；根据每个所述子候选区域和每个所述子候选区域中类别的权重系数生成第一权重系数矩阵。

第一权重系数矩阵为对每个候选特征向量做目标识别处理获得，对每个候选特征向量做目标识别处理，获得每个子候选区域中每个类别的权重系数，根据每个子候选区域和每个子候选区域中类别的权重系数生成第一权重系数矩阵M*N，其中M为类别，N为子候选区域。

可选的，将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵，包括：将每个所述候选特征向量做目标检测处理获得每个类别在每个子候选区域中的权重系数；根据每个类别在每个子候选区域中的权重系数和每个所述子候选区域生成第二权重系数矩阵。

第二权重系数矩阵为对每个候选特征向量做目标检测处理获得，根据得到的每个候选特征向量做目标检测处理，获得每个类别在每个子候选区域中的权重系数，根据每个类别在每个子候选区域中的权重系数和每个所述子候选区域生成第二权重系数矩阵N*M，其中N为子候选区域，M为类别。

在本申请提供的实施例中，沿用上例，对第一权重系数矩阵和第二权重系数矩阵进行池化处理，第一权重矩阵与第二权重矩阵为转置矩阵。将第一权重矩阵和第二权重矩阵进行对位相乘(element-wise)，得到每个子候选区域的得分。根据每个子候选区域的得分获得第一候选区域信息，第一候选区域信息标识在第一训练图像中的候选框，如图3c所示，图3c示出了第一训练图像经过候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息。

步骤206：将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型。

待训练目标检测模型为不具备目标检测能力的模型，待训练目标检测模型可以为Faster R-CNN，SSD或Yolo模型。

初始目标检测模型为经过第一训练图像训练的目标检测模型，初始目标检测模型生可以生成候选区域信息，但不够精确。

可选的，将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型，包括：将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型；所述目标检测模型根据所述第一训练图像生成第一检测区域信息；根据所述第一检测区域信息与所述第一候选区域信息计算第一损失值；根据所述第一损失值调整所述待训练目标检测模型的模型参数直至满足训练条件，获得初始目标检测模型。

在本申请提供的实施例中，沿用上例，并以YoloV3模型为例，对本申请做进一步解释说明。

YoloV3网络使用的darknet-53网络的网络结构中的前52层，如下图5所示，图5示出了YoloV3网络的结构图。

其中，DBL是YoloV3的基本组件，为卷积+BN+Leaky relu，对于YoloV3来说，BN和Leaky relu已经是和卷积层不可分离的部分，共同构成了最小组件。

resn中的n代表数字，有res1，res2，…，res8等等，表示这个res_block里含有多少个res_unit。是YoloV3的大组件，YoloV3开始借鉴了ResNet的残差结构，使用这种结构可以让网络结构更深。

Concat为张量拼接，将darknet中间层和后面的某一层的上采样进行拼接。拼接的操作和残差层add的操作是不一样的，拼接会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。

如图5所示，YoloV3输出3个不同尺度的特征图像Y1、Y2、Y3，其中Y1、Y2、Y3的深度都为255，边长规律为13:26:52，在每个特征图像中会输出3个，共计9个预测框，再从9个预测框中找到目标存在可能性得分最高的预测框作为第一检测区域信息。

根据第一检测区域信息与第一候选区域信息计算交叉熵损失值，根据所述损失值反向传播调整所述待训练目标检测模型，直至获得初始目标检测模型，此时的初始目标检测模型由于使用的是候选区域检测模型生成的第一候选区域信息作为真值对第一训练模型进行的训练，因此初始目标检测模型的识别不够准确。需要继续训练。

步骤208：获取第二训练图像和所述第二训练图像对应的第二候选区域信息。

第二训练图像：目标检测模型的第二类训练图像，包括训练图像对应的候选区域信息，用于有监督训练，第二训练图像可以是带有精确候选区域信息的图像，也可以是在实际应用中返回的人工审核信息反馈，如初始目标检测模型在使用过程中，用户发现识别的标注信息不够精确，用户对所述标注信息进行交互式修正并将准确标注信息存储，带有准确标注信息的第一训练图像也可以作为第二训练图像。

步骤210：将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型。

将第二训练图像和第二训练图像对应的第二候选区域信息输入至所述初始目标检测模型，此时的第二候选区域信息为所述第二训练图像的边界框。将第二训练图像和第二训练图像对应的第二候选区域信息输入至初始目标检测模型中继续训练，对初始目标检测模型进行增量学习，最终获得目标检测模型。

可选的，将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型，包括：将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型；所述初始目标检测模型根据所述第二训练图像生成第二检测区域信息；根据所述第二检测区域信息与所述第二候选区域信息计算第二损失值；根据所述第二损失值调整所述初始目标检测模型的模型参数直至满足训练条件，获得目标检测模型。

具体的，将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型的操作步骤与将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型的操作步骤类似，具体的操作过程参见将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型的详细解释，在此就不再赘述。

本申请实施例提供的目标检测模型的训练方法，首选通过无需标注的第一训练图像进行预训练，获得初始目标检测模型，实现了从零开始标注，降低了标注样本数据的成本，再用第二训练图像继续进行训练，通过增量学习算法优化了目标检测模型的能力，增强了目标检测的准确率，加快了模型训练速度。

下面结合图6、图7和图8对本申请提供的目标检测模型的训练方法做进一步解释说明，图6示出了本申请实施例提供的目标检测模型训练方法的流程示意图，通过分类模型对用户图像分类，将获得分类标签和所述用户图像输入至目标检测模型进行弱监督训练，并输出用户图像对应的候选区域信息，并将所述候选区域信息展示给用户，若候选区域信息标识正确，则将用户图像和对应的候选区域信息作为正确的标注结果存储，若候选区域标识不正确，则接收用户的交互修正，并根据所述交互修正信息对所述目标检测模型进行增量学习，以使所述目标检测模型继续学习目标检测能力。

图7示出了本申请实施例提供的目标检测模型训练方法的架构示意图，如图所示，根据所述用户图像在弱监督训练模块进行候选区域检测，获得对应的候选区域信息，并将所述候选区域信息和所述用户图像输入至目标检测模型进行强监督训练，获得初始目标检测模型，在后续的第二训练数据继续训练的过程中，弱监督训练模块不再发挥作用。

图8示出了本申请一实施例的目标检测模型的训练方法，以第二训练图像为用户交互修正图像为例，包括步骤802至步骤816。

步骤802：获取用户图像。

在本申请提供的实施例中，获取用户图像为一只狗。

步骤804：将所述用户图像输入至所述特征提取层提取所述用户图像的特征图像。

在本申请提供的实施例中，将所述用户图像输入至移除了全连接层的ResNet卷积神经网络，提取所述用户图像的特征图像。

步骤806：将所述特征图像输入至所述候选区域网络层，获取所述特征图像对应的多个子候选区域。

在本申请提供的实施例中，将所述特征图像输入至候选区域网络层获取所述特征图像对应的多个子候选区域。

步骤808：将所述特征图像和多个子候选区域输入至所述空间金字塔池化层，获得每个所述子候选区域对应的候选特征向量。

在本申请提供的实施例中，将每个所述子候选区域和所述特征图像输入至空间金字塔池化层，获得每个子候选区域对应的固定大小的候选特征向量。从多尺度特征中提取出固定大小的特征向量，解决了特征图像大小不一的问题，

步骤810：对每个所述候选特征向量做目标识别处理生成第一权重系数矩阵，对每个所述候选特征向量做目标检测处理生成第二权重系数矩阵，对所述第一权重稀疏矩阵和所述第二权重系数矩阵进行池化处理，获得所述图像对应的候选区域信息。

在本申请提供的实施例中，对每个所述候选特征向量做目标识别处理，获得每个子候选区域中每个类别的权重系数，根据每个子候选区域和每个子候选区域中类别的权重系数生成第一权重系数矩阵M*N，其中M为类别，N为子候选区域。

对每个所述候选特征向量做目标检测处理，获得每个类别在每个子候选区域中的权重系数，根据每个类别在每个子候选区域中的权重系数和每个所述子候选区域生成第二权重系数矩阵N*M，其中N为子候选区域，M为类别。

对第一权重系数矩阵和第二权重系数矩阵进行队尾相乘，得到每个子候选区域的得分，并根据每个子候选区域的得分获得所述图像对应的候选区域信息。

步骤812：将所述用户图像和所述候选区域信息输入至待训练目标检测模型进行训练，获得目标检测模型。

在本申请提供的实施例中，将所述候选区域信息和所述用户图像输入至待训练的目标检测模型进行训练，获得目标检测模型，此时的检测模型的识别不够准确。需要继续训练。

步骤814：将所述用户图像输入至所述目标检测模型进行处理，获得标注结果，并将所述标注信息展示给用户。

在本申请提供的实施例中，将用户图像输入至目标检测模型进行处理，得到所述目标检测模型输出的标注信息，并将所述标注信息显示给用户，若标注信息准确的情况下，将用户图像和所述标注信息对应存储。

步骤816：在所述标注信息不准确的情况下，接收所述用户的交互修正信息，并根据所述用户图像和所述交互修正信息对所述目标检测模型进行增量学习。

在本申请提供的实施例中，在所述标注信息不准确的情况下，用户主动对所述标注信息进行修改，将修改后的修正信息和所述用户图像输入至目标检测模型继续进行增量学习训练，直至目标检测模型获得准确的目标检测能力。

处理器120可以执行图9所示图像检测方法中的步骤。图9示出了根据本申请一实施例的图像检测方法的流程图，包括步骤902至步骤906。

步骤902：获取待检测图像。

步骤904：将所述待检测图像输入至目标检测模型进行目标检测，其中，所述目标检测模型是通过上述目标检测模型的训练方法训练得到的。

步骤906：获取所述目标检测模型输出的所述待检测图像中的检测结果。

在本申请提供的实施例中，将待检测模型输入至经过上述目标检测模型的训练方法训练获得的目标检测模型中进行检测，获得所述目标检测模型输出的检测结果，使得目标检测模型的检测更加准确。

与上述目标检测模型的训练方法实施例相对应，本申请还提供了目标检测模型的训练装置实施例，图10示出了本申请一个实施例的目标检测模型的训练装置的结构示意图。如图10所示，该装置包括：

第一获取模块1002，被配置为获取第一训练图像。

候选区域信息获取模块1004，被配置为将所述第一训练图像输入至候选区域检测模型，获得所述第一训练图像对应的第一候选区域信息。

第一训练模块1006，被配置为将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型。

第二获取模块1008，被配置为获取第二训练图像和所述第二训练图像对应的第二候选区域信息。

第二训练模块1010，被配置为将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型。

所述候选区域信息获取模块1004，包括：

特征提取子单元，被配置为将所述第一训练图像输入至所述特征提取层提取所述第一训练图像的特征图像；

子候选区域获取子单元，被配置为将所述特征图像输入至所述候选区域网络层，获取所述特征图像对应的多个子候选区域；

金字塔池化子单元，被配置为将所述特征图像和多个子候选区域输入至所述空间金字塔池化层，获得每个所述子候选区域对应的候选特征向量；

池化子单元，被配置为将每个所述候选特征向量输入至所述池化层进行池化处理，获得所述第一训练图像对应的第一候选区域信息。

可选的，所述池化子单元，进一步被配置为将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，和/或将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵；基于所述第一权重系数矩阵和/或所述第二权重系数矩阵进行池化处理。

可选的，所述池化子单元，进一步被配置为将每个所述候选特征向量做目标识别处理获得每个所述子候选区域中每个类别的权重系数；根据每个所述子候选区域和每个所述子候选区域中类别的权重系数生成第一权重系数矩阵。

可选的，所述池化子单元，进一步被配置为将每个所述候选特征向量做目标检测处理获得每个类别在每个子候选区域中的权重系数；根据每个类别在每个子候选区域中的权重系数和每个所述子候选区域生成第二权重系数矩阵。

可选的，所述第一训练模块1006，进一步被配置为将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型；所述目标检测模型根据所述第一训练图像生成第一检测区域信息；根据所述第一检测区域信息与所述第一候选区域信息计算第一损失值；根据所述第一损失值调整所述待训练目标检测模型的模型参数直至满足训练条件，获得初始目标检测模型。

可选的，所述第二训练模块1010，进一步被配置为将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型；所述初始目标检测模型根据所述第二训练图像生成第二检测区域信息；根据所述第二检测区域信息与所述第二候选区域信息计算第二损失值；根据所述第二损失值调整所述初始目标检测模型的模型参数直至满足训练条件，获得目标检测模型。

本申请实施例提供的目标检测模型的训练装置，首选通过无需标注的第一训练图像进行预训练，获得初始目标检测模型，实现了从零开始标注，降低了标注样本数据的成本，再用第二训练图像继续进行训练，通过增量学习算法优化了目标检测模型的能力，增强了目标检测的准确率，加快了模型训练速度。

与上述图像检测方法实施例相对应，本申请还提供了图像检测装置实施例，图11示出了本申请一个实施例的图像检测装置的结构示意图。如图11所示，该装置包括：

第三获取模块1102，被配置为获取待检测图像；

目标检测模块1104，被配置为将所述待检测图像输入至目标检测模型进行目标检测，其中，所述目标检测模型是通过权利要求1-7中任意一项目标检测模型的训练方法训练得到的；

第四获取模块1106，被配置为获取所述目标检测模型输出的所述待检测图像中的检测结果。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的目标检测模型的训练方法或图像检测方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述目标检测模型的训练方法或图像检测方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的目标检测模型的训练方法或图像检测方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述目标检测模型的训练方法或图像检测方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述目标检测模型的训练方法或图像检测方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

获取第一训练图像；

2.如权利要求1所述的目标检测模型的训练方法，其特征在于，所述候选区域检测模型包括特征提取层、候选区域网络层、空间金字塔池化层、池化层；

3.如权利要求2所述的目标检测模型的训练方法，其特征在于，将每个所述候选特征向量输入至所述池化层进行池化处理，包括：

4.如权利要求3所述的目标检测模型的训练方法，其特征在于，将每个所述候选特征向量做目标识别处理获得第一权重系数矩阵，包括：

5.如权利要求3所述的目标检测模型的训练方法，其特征在于，将每个所述候选特征向量做目标检测处理获得第二权重系数矩阵，包括：

6.如权利要求1所述的目标检测模型的训练方法，其特征在于，将所述第一训练图像和所述第一候选区域信息输入至待训练目标检测模型进行训练，获得初始目标检测模型，包括：

7.如权利要求1所述的目标检测模型的训练方法，其特征在于，将所述第二训练图像和所述第二候选区域信息输入至所述初始目标检测模型继续训练，获得目标检测模型，包括：

8.一种图像检测方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入至目标检测模型进行目标检测，其中，所述目标检测模型是通过权利要求1-7中任意一项目标检测模型的训练方法训练得到的；

9.一种目标检测模型的训练装置，其特征在于，包括：

第一获取模块，被配置为获取第一训练图像；

10.一种图像检测装置，其特征在于，包括：

第三获取模块，被配置为获取待检测图像；

目标检测模块，被配置为将所述待检测图像输入至目标检测模型进行目标检测，其中，所述目标检测模型是通过权利要求1-7中任意一项目标检测模型的训练方法训练得到的；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者8任意一项所述方法的步骤。