CN114399629A

CN114399629A - 一种目标检测模型的训练方法、目标检测的方法和装置

Info

Publication number: CN114399629A
Application number: CN202111582867.9A
Authority: CN
Inventors: 刘安; 吕晶晶; 张政; 刘平
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-26
Also published as: WO2023116507A1

Abstract

本发明公开了一种目标检测模型的训练方法、目标检测的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：获取多个图像和每个图像对应的图像标签，图像标签包括图像中目标的位置和类别，根据图像获得图像对应的特征向量和位置编码向量，根据特征向量和位置编码向量获得图像对应的解码向量，采用多个图像对应的解码向量和图像标签进行训练，得到目标检测模型。然后利用该目标检测模型预测待检测图像中目标的位置和类别。该实施方式通过卷积神经网络结合自注意力机制检测图像中目标的位置和类别，提高了目标检测的精度，简化了目标检测的流程。

Description

一种目标检测模型的训练方法、目标检测的方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标检测模型的训练方法、目标检测的方法和装置。

背景技术

目前实现商品检测的方法主要分为两类：一类是使用两阶段目标检测模型在商品场景下进行检测，如以Faster-RCNN为代表的目标检测模型；另一类是使用单阶段目标检测模型进行商品检测，如以YOLO为代表的一系列目标检测模型。但是，卷积神经网络(Convolution Neural Network，CNN)擅长提取局部有效信息而无法提取全局数据之间的长距离特征关系，且计算流程复杂。

基于自注意力机制的目标检测方法主要包括DETR和ViT-FRCNN两个方法，但DETR方法的计算复杂度高、对小目标检测效果不好，ViT-FRCNN存在后处理操作复杂等缺陷。

发明内容

有鉴于此，本发明实施例提供一种目标检测模型的训练方法、目标检测的方法和装置，能够更充分的获取图像中的全局特征信息，丰富特征表达，对小目标具有良好的检测性能，简化了目标检测的流程，提高了目标检测的精度。

为实现上述目的，根据本发明实施例的一个方面，提供了一种目标检测模型的训练方法，包括：

获取多个图像和每个所述图像对应的图像标签，所述图像标签包括所述图像中目标的位置和类别；

根据所述图像获得所述图像对应的特征向量和位置编码向量；

根据所述特征向量和所述位置编码向量获得所述图像对应的解码向量；

采用多个所述图像对应的解码向量和图像标签进行训练，得到所述目标检测模型。

可选地，根据所述图像获得所述图像对应的特征向量和位置编码向量之前，还包括：

从多个图像和每个所述图像对应的图像标签中选择出部分图像和每个图像对应的图像标签；

根据所述部分图像和每个图像对应的图像标签训练得到图像检测模型；

利用所述图像检测模型对所述多个图像和图像标签进行数据清洗，确定出待重新标注的图像标签，对所述待重新标注的图像标签进行重新标注。

根据每个所述图像对应的图像标签确定每个类别对应的图像的数量；

根据每个所述类别对应的图像的数量对部分类别的图像和图像标签进行数据增强。

可选地，根据所述图像获得所述图像对应的特征向量和位置编码向量，包括：

提取所述图像的每个子区域的图像特征，根据各个子区域的图像特征得到所述图像对应的特征向量；

根据各个子区域的图像特征获得所述图像对应的位置编码向量，所述位置编码向量包含所述图像对应的各个子区域的图像特征之间的位置关系。

可选地，提取所述图像的每个子区域的图像特征之前，包括：

采用显著性检测模型检测出所述图像的前景区域；

对所述前景区域按照不同尺度划分，获得所述图像对应的多个子区域。

可选地，提取每个子区域的图像特征，根据各个子区域的图像特征得到所述图像对应的特征向量，包括：

利用包含特征金字塔网络的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据所述图像对应的各个子区域特征向量得到所述图像对应的特征向量。

可选地，根据所述特征向量和所述位置编码向量获得所述图像对应的解码向量，包括：

根据所述特征向量和所述位置编码向量得到融合特征向量；

基于自注意力机制的模型对所述融合特征向量进行特征编码和特征解码，得到所述解码向量。

可选地，采用多个所述图像对应的解码向量和图像标签进行训练，得到所述目标检测模型，包括：

将各个图像对应的解码向量输入到共享前馈网络，得到各个图像对应的预测的目标的位置和类别，根据所述预测的目标的位置和类别以及各个图像的图像标签对损失函数进行迭代训练，得到所述目标检测模型，所述损失函数包括位置损失和类别损失。

可选地，所述目标的位置包括所述目标对应的目标框的中心坐标、宽度和高度，所述位置损失为根据预测目标框和真实目标框的交集面积和并集面积的比值得到的损失，所述类别损失为真实目标框集合和预测目标框集合的二分匹配排列的损失，

所述共享前馈网络由Relu激活函数、多层感知机和线性层构成。

本发明实施例的另一方面提供一种目标检测的方法，包括：

获取待检测图像；

将所述待检测图像输入到训练好的目标检测模型中，确定所述检测图像中目标的位置和类别，所述目标检测模型根据本发明实施例的目标检测模型的训练方法得到。

可选地，确定所述待检测图像中目标的位置和类别，包括：

获取所述待检测图像对应的特征向量和位置编码向量；

根据所述待检测图像对应的特征向量和位置编码向量获得所述待检测图像对应的解码向量；

将所述待检测图像对应的解码向量输入到所述共享前馈网络，得到所述待检测图像中目标的位置和类别。

可选地，获取所述待检测图像对应的特征向量和位置编码向量，包括：

提取所述待检测图像的每个子区域的图像特征，根据各个子区域的图像特征得到所述待检测图像对应的特征向量；

根据各个子区域的图像特征获得所述待检测图像对应的位置编码向量，所述位置编码向量包含所述待检测图像对应的各个子区域的图像特征之间的位置关系。

可选地，提取所述待检测图像的每个子区域的图像特征之前，包括：

采用显著性检测模型检测出所述待检测图像的前景区域；

对所述前景区域按照不同尺度划分，获得所述待检测图像对应的多个子区域。

可选地，提取每个子区域的图像特征，根据各个子区域的图像特征得到所述待检测图像对应的特征向量，包括：

利用包含特征金字塔网络的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据所述待检测图像对应的各个子区域特征向量得到所述待检测图像对应的特征向量。

可选地，根据所述待检测图像对应的特征向量和位置编码向量获得所述待检测图像对应的解码向量，包括：

根据所述特征向量和所述位置编码向量得到所述待检测图像对应的融合特征向量；

基于自注意力机制的模型对所述待检测图像对应的融合特征向量进行特征编码和特征解码，得到所述待检测图像对应的解码向量。

根据本发明实施例的又一个方面，提供一种目标检测模型的训练装置，包括：

获取模块，获取多个图像和每个所述图像对应的图像标签，所述图像标签包括所述图像中目标的位置和类别；

第一确定模块，根据所述图像获得所述图像对应的特征向量和位置编码向量；

第二确定模块，根据所述特征向量和所述位置编码向量获得所述图像对应的解码向量；

训练模块，采用多个所述图像对应的解码向量和图像标签进行训练，得到所述目标检测模型。

根据本发明实施例的再一个方面，提供了一种目标检测的装置，包括：

获取模块，获取待检测图像；

确定模块，将所述待检测图像输入训练好的目标检测模型中，确定所述待检测图像中目标的位置和类别，所述目标检测模型根据本发明实施例的目标检测模型的训练方法得到。

根据本发明实施例的另一个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明提供的目标检测模型的训练方法或目标检测的方法。

根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的目标检测模型的训练方法或目标检测的方法。

上述发明中的一个实施例具有如下优点或有益效果：本发明实施例采用目标检测模型对待检测图像中目标的位置和类别进行预测，目标检测模型的训练过程包括：获取多个图像和每个图像的图像标签，然后获取图像的特征向量和位置编码向量，根据特征向量和位置编码向量获取解码向量，利用解码向量和图像标签训练得到目标检测模型，该目标检测模型基于卷积神经网络提取局部特征，基于自注意力机制的编码-解码结构模型学习全局特征，使得目标检测模型更具有泛化能力。本发明实施例的目标检测的方法能够提高目标检测的精度，简化目标检测的流程。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种目标检测的方法的主要流程的示意图；

图2是根据本发明实施例的一种目标检测模型的训练方法的主要流程的示意图；

图3是根据本发明实施例的另一种目标检测模型的训练方法的主要流程的示意图；

图4是本发明实施例的一种目标检测模型的结构示意图；

图5是根据本发明实施例的目标检测模型的训练装置的主要模块的示意图；

图6是根据本发明实施例的目标检测的装置的主要模块的示意图；

图7是本发明实施例可以应用于其中的示例性系统架构图；

图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的一种目标检测的方法的主要流程的示意图，如图1所示，该目标检测的方法包括以下步骤：

步骤S101：获取待检测图像；

步骤S102：将待检测图像输入到训练好的目标检测模型中，确定待检测图像中目标的位置和类别。

在本发明实施例中，如图2所示，目标检测模型的训练方法包括：

步骤S201：获取多个图像和每个图像对应的图像标签；

步骤S202：根据图像获得图像对应的特征向量和位置编码向量；

步骤S203：根据特征向量和位置编码向量获得图像对应的解码向量；

步骤S204：采用多个图像对应的解码向量和图像标签进行训练，得到目标检测模型。

本发明实施例的待检测图像可以为包含目标的图像，如电商场景中的商品图片，商品图片中的商品即为待检测图像中的目标。

在本发明实施例中，在模型训练时，获取多个图像和每个图像对应的图像标签，其中，图像可以为商品图片，可选为各种各类商品的图片，从而满足不同种类的商品的检测。每个图像对应的图像标签包括图像的高度、宽度，还包括图像中目标的位置和类别，目标的位置包括目标框的中心坐标、目标框的宽度、目标框的高度。类别可以包括不同树层级的类别，如cid1和cid2类目。可选地，图像标签可以为VOC格式，后续可以根据模型的格式进行转换。

在本发明实施例中，如图3所示，在获得多个图像和每个图像对应的图片标签之后，根据所述图像获得所述图像对应的特征向量和位置编码向量之前，包括：

步骤S301：从多个图像和每个图像对应的图像标签中选择出部分图像和每个图像对应的图像标签；

步骤S302：根据部分图像和每个图像对应的图像标签训练得到图像检测模型；

步骤S303：利用图像检测模型对多个图像和图像标签进行数据清洗，确定出待重新标注的图像标签，对待重新标注的图像标签进行重新标注。

在本发明实施例中，在获得多个图像和每个图像对应的图片标签之后，根据所述图像获得所述图像对应的特征向量和位置编码向量之前，还包括：

根据每个图像对应的图像标签确定每个类别对应的图像的数量；

根据每个类别对应的图像的数量对部分类别的图像和图像标签进行数据增强。

在本发明实施例中，获得多个图像和每个图像对应的图像标签后，对图像和图像标签进行数据预处理，数据预处理包括数据清洗和数据增强。其中，数据清洗主要是针对图像标签中存在错标注、漏标注等情况，从多个图像和每个图像对应的图像标签中选择部分图像和部分图像对应的图像标签，构建训练集，其中，部分图像和部分图像对应的图像标签可以通过以下方式得到：从多个图像和每个图像对应的图像标签中随机选择的一定比例(10％)的数据，然后人工校验图像和图像对应的标注是否匹配，剔除不匹配的图像和图像标签，根据剩余的图像和图像对应的图像标签构建训练集。

然后利用该训练集训练得到图像检测模型，图像检测模型可以为YOLO系列(如YOLOv5)的模型，然后使用训练好的图像检测模型对多个图像和每个图像对应的图像标签进行数据清洗，具体地，将多个图像输入到图像检测模型中，得到输出结果，输出结果包括目标框的中心坐标和目标的类别，以及图像检测模型判断该目标属于该类别的概率，以该概率作为置信度，调整较高的置信度可以筛选出少量和图像标注差异较大的图像标签，即待重新标注的图像标签，通过对重新标注的图像标签进行重新标注，可以极大的减少数据清洗的工作量，实现数据清洗。

在多个图像和每个图像标签中，可能会存在不同的类别对应的图像的数量差距较大的情情况，为保证目标检测模型的效果，以及自注意力机制提取特征的非局部性，需要均衡的类间数据的，因此，首先根据每个图像的图像标签确定出每个类别对应的图像的数量，针对类间数量不平衡的类别，即图像数量与其他类别的图像数量差距大于预设阈值的部分类别，对该部分类别对应的图像和图像标签进行数据增强，包括对图像和图像标签进行仿射变换、限制对比度直方图均衡等方式，减少和其他类别的数量差距，从而实现图像增强的效果，进而提升目标检测模型的效果。

在本发明实施例中，获得多个图像和每个图像对应的图像标签之后，可选地，在对多个图像和每个图像对应的图像标签进行数据预处理之后，根据图像获得该图像对应的特征向量和位置编码向量，包括：

可选地，在提取图像的每个子区域对应的子区域特征向量之前，包括：采用显著性检测模型检测出图像的前景区域；对前景区域按照不同尺度划分，获得图像对应的多个子区域。可选地，对前景区域按照不同尺度划分后的多个子区域包括整个前景区域以及对整个前景区域按照不同尺寸划分的尺寸。通过按照不同尺度划分可以获得该图像的丰富的语义信息和位置信息。

在本发明实施例中，电商场景下商品的图片的背景一般比较单一，多为白底图或者透底图且商品目标布局一般集中在图片中间的位置，与通用图像中物体背景较为复杂且目标可能就在图片边缘位置的情况不同。因此，针对背景较为单一的图像，可以采用显著性检测模型从图像中提取出包含目标的前景区域，可以去掉图像中边缘位置大量白底，从而使得白底不会在后续不同尺度子区域的划分及图像特征提取时对模型训练起到负向作用。

可选地，显著性检测模型可以为PFANet模型，子区域可以为patch块，利用显著性检测模型检测出前景区域后，针对前景区域按照不同尺度划分patch块，从而每个图像可以获得多个不同尺度的patch块，例如，将图像的前景区域按照1*1、3*3、5*5的块数均匀划分，可以获得图像对应的35个patch块。

通过对图像进行前景区域检测可以去掉不含有目标的背景，通过子区域划分如patch块划分可以获得更细粒度的图像特征。

在本发明实施例中，提取每个子区域的图像特征，根据各个子区域的图像特征得到所述图像对应的特征向量，包括：

在本发明实施例中，获得图像对应的多个子区域后，提取每个子区域的图像特征，提取图像特征的方法可以为Faster RCNN提取法、骨干网络特征提取法。进一步地，针对电商场景下的图像，采用骨干网络特征提取法提取每个子区域的图像特征。

Faster RCNN提取法主要是先通过残差网络等提取初步的图像特征，再通过候选区域网络(Region Propose Network，RPN)筛选出目标的候选框，进而在初始图像特征上得到候选ROI特征，但是RPN会在相同位置产生大量重复的候选框，因此也会产生大量的ROI特征，但是在电商场景下，针对同一个位置一般不会有大量的目标，因此该方法不适合电商场景。骨干网络特征提取法主要是通过使用类似残差网络、VGG等骨干特征提取网络直接生成特定尺寸大小的特征图。

本发明实施例中，采用骨干网络提取法提取图像的每个子区域的图像特征，即图像的每个patch块的图像特征。可选地，骨干特征提取网络为残差网络ResNet 50，为增强对小目标的检测效果，利用包含特征金字塔网络(FPN)的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据图像的各个子区域特征向量得到图像的特征向量，该图像的特征向量既包含丰富语义信息又包含准确的位置信息。可选地，通过拼接图像的各个子区域特征向量得到图像的特征向量。例如，获得图像对应的35个patch块后，提取每个patch块的图像特征，得到每个patch块的1024维度的patch特征向量，拼接35个patch块的patch特征向量，得到该图像的35*1024维度的特征向量。

可选地，根据各个子区域的图像特征进行位置编码，获得图像对应的位置编码向量，位置编码向量包含图像对应的各个子区域之间的位置关系。其中，位置编码方式为固定位置编码，位置编码向量维度和子区域特征向量某一维度数量相同，可以将位置编码向量设置为可学习参数，从而后续通过学习获取不同子区域特征向量之间的位置关系。例如，给图像的每个patch块一个随机初始化向量，该随机初始化向量包含可学习的参数，随机初始化向量的维度与patch块的特征向量的维度相同，然后让基于自注意力机制的模型去学习每个patch块的图像特征之间的位置关系向量，该位置关系向量即位置编码向量。

在本发明实施例中，根据图像的特征向量和位置编码向量获得图像对应的解码向量，包括：

步骤S401：根据特征向量和位置编码向量得到融合特征向量；

步骤S402：基于自注意力机制的模型对融合特征向量进行特征编码和特征解码，得到解码向量。

在本发明实施例中，根据特征向量和位置编码向量得到融合特征向量，包括：将特征向量进行展平，采用位置编码向量进行特征补充，得到融合特征向量，例如，可以将位置编码向量嵌入到特征向量中，将特征向量与位置编码向量进行加和，或者将特征向量与位置编码向量进行拼接，得到融合特征向量。该融合特征向量既含有语义信息又含有位置信息。

采用基于自注意力机制的模型如基于自注意力机制的Transformer模型的编码-解码结构(encoder-decoder)对融合特征向量进行特征编码和特征解码，得到解码向量。特征解码过程包括：使用多头自编码器和编码器注意力机制对融合特征向量进行转换，在每个解码器层并行解码多个对象。通过融合特征向量的自注意力和编码器-解码器注意力，归结所有对象，实现将整个图像信息贯穿上下文。

在本发明实施例中，采用多个图像对应的解码向量和图像标签进行训练，得到目标检测模型，包括：

将各个图像对应的解码向量输入到共享前馈网络，得到各个图像对应的预测的目标的位置和类别，根据所述预测的目标的位置和类别以及各个图像的图像标签对损失函数进行迭代训练，得到目标检测模型，所述损失函数包括位置损失和类别损失。

在本发明实施例中，共享前馈网络(FFT)由Relu激活函数、多层(如3层)感知机和线性层构成，通过共享前馈网络可以预测出图像中目标的位置和类别，目标的位置包括目标对应的目标框的中心坐标、宽度和高度。

在本发明实施例中，损失函数包括位置损失和类别损失，位置损失和类别损失加权求和得到损失函数。其中，位置损失为根据预测目标框和真实目标框的交集面积和并集面积的比值得到的损失，即IOU(交并比)损失，类别损失为真实目标框集合和预测目标框集合的二分匹配排列的损失，如Hungarian损失，二分匹配排列使用hungarian(匈牙利)算法实现。

通过预测的目标的位置和类别以及各个图像的图像标签对损失函数进行迭代训练，计算损失函数，当损失函数的损失值低于预设阈值或增量低于预设阈值，则停止迭代，得到目标检测模型。

在本发明实施例中，将待检测图像输入到该目标检测模型中，可以输出该待检测图像中目标的位置和类别信息，目标的位置包括目标框的中心坐标、宽度和高度。具体地，包括：获取待检测图像对应的特征向量和位置编码向量；根据待检测图像对应的特征向量和位置编码向量获得待检测图像对应的解码向量；将待检测图像对应的解码向量输入到共享前馈网络，得到待检测图像中目标的位置和类别。

可选地，获取待检测图像对应的特征向量和位置编码向量，包括：提取待检测图像的每个子区域的图像特征，根据各个子区域的图像特征得到待检测图像对应的特征向量；根据各个子区域的图像特征获得待检测图像对应的位置编码向量，位置编码向量包含待检测图像对应的各个子区域的图像特征之间的位置关系。

可选地，提取待检测图像的每个子区域的图像特征之前，包括：采用显著性检测模型检测出待检测图像的前景区域；对前景区域按照不同尺度划分，获得待检测图像对应的多个子区域。

可选地，提取每个子区域的图像特征，根据各个子区域的图像特征得到待检测图像对应的特征向量，包括：

利用包含特征金字塔网络的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据待检测图像对应的各个子区域特征向量得到待检测图像对应的特征向量。

可选地，根据待检测图像对应的特征向量和位置编码向量获得待检测图像对应的解码向量，包括：根据特征向量和位置编码向量得到待检测图像对应的融合特征向量；基于自注意力机制的模型对待检测图像对应的融合特征向量进行特征编码和特征解码，得到待检测图像对应的解码向量。

图4示出了本发明实施例的一种目标检测模型的结构示意图，并示出了采用该目标检测模型对待检测图像进行目标检测的流程，首先将待检测图像进行前景区域检测，按照不同尺度划分为多个patch块，然后采用骨干网络(backbone)特征提取法提取图像特征，具体地，采用结合特征金字塔网络的残差网络(ResNet+FPN)提取每个patch块的图像特征，获得各个patch块的图像特征(set of patches features)，进而获得图像的特征向量，根据各个patch块的图像特征获得图像位置编码向量(positional embedding，位置嵌入向量)，将图像的特征向量和位置编码向量融合后，采用基于自注意力机制的transformer模型的编码(encoder)-解码(decoder)结构进行特征编码和特征解码，得到解码向量，将解码向量输入到共享前馈网络(FFT)中，预测出待检测图像中目标的目标框(bounding box，bbox)和类别(class)。

本发明实施例的目标检测方法，利用训练好的目标检测模型能够对待检测图像中目标的位置和类别进行预测。目标检测模型的训练过程包括：利用多个图像和每个图像对应的图像标签，然后根据图像获得图像对应的特征向量和位置编码向量，然后根据特征向量和位置编码向量获得图像对应的解码向量，根据解码向量和图像标签进行训练得到的目标检测模型。本发明实施例的方法融合卷积神经网络和自注意力机制实现更高精度的目标检测。本发明实施例中，在获得图像的特征向量之前，对多个图像和图像标签进行数据预处理，包括数据清洗和数据增强，然后对多个图像进行前景区域检测及子区域的划分，再采用含有特征金字塔网络的卷积神经网络提取各个子区域的图像特征，得到图像的特征向量，增强了对小目标的检测效果。本发明实施例的目标检测方法简化了目标检测的流程，将目标检测问题由传统的提取特征、锚框生成、非极大值抑制等流程简化为直接集合预测问题，具有泛化性；并且，该方法中的损失函数为基于集合的全局损失函数，该损失函数通过二分匹配和基于自注意力机制的编码-解码结构进行唯一预测，结合了目标与全局图像上下文直接的关系，直接给出预测集合结果；本发明实施例提供的是完全端到端训练的自注意力机制的目标检测模型，极大的简化了检测流程，后续如扩充目标检测类别仅需在训练数据集中添入新数据微调即可完成旧模型到新模型的更新；本发明实施例的方法支持检测任务到分割任务的拓展，如可以将编码部分得到的自注意力map通过几层卷积神经网络复原出一个mask即可实现分割任务。

如图5所示，本发明实施例还提供一种目标检测模型的训练装置500，包括：

获取模块501，获取多个图像和每个所述图像对应的图像标签，所述图像标签包括所述图像中目标的位置和类别；

第一确定模块502，根据所述图像获得所述图像对应的特征向量和位置编码向量；

第二确定模块503，根据所述特征向量和所述位置编码向量获得所述图像对应的解码向量；

训练模块504，采用多个所述图像对应的解码向量和图像标签进行训练，得到所述目标检测模型。

在本发明实施例中，获取模块501，还用于：在根据图像获得图像对应的特征向量和位置编码向量之前，从多个图像和每个图像对应的图像标签中选择出部分图像和每个图像对应的图像标签；根据部分图像和每个图像对应的图像标签训练得到图像检测模型；利用图像检测模型对多个图像和图像标签进行数据清洗，确定出待重新标注的图像标签，对待重新标注的图像标签进行重新标注。

在本发明实施例中，获取模块501，还用于：在根据图像获得图像对应的特征向量和位置编码向量之前，根据每个图像对应的图像标签确定每个类别对应的图像的数量；根据每个类别对应的图像的数量对部分类别的图像和图像标签进行数据增强。

在本发明实施例中，第一确定模块502，进一步用于：提取图像的每个子区域的图像特征，根据各个子区域的图像特征得到图像对应的特征向量；根据各个子区域的图像特征获得图像对应的位置编码向量，位置编码向量包含图像对应的各个子区域的图像特征之间的位置关系。

在本发明实施例中，第一确定模块502，进一步用于：采用显著性检测模型检测出图像的前景区域；对前景区域按照不同尺度划分，获得图像对应的多个子区域。

在本发明实施例中，第一确定模块502，进一步用于：利用包含特征金字塔网络的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据所述图像对应的各个子区域特征向量得到所述图像对应的特征向量。

在本发明实施例中，第二确定模块503，进一步用于：根据特征向量和位置编码向量得到融合特征向量；基于自注意力机制的模型对融合特征向量进行特征编码和特征解码，得到解码向量。

在本发明实施例中，训练模块504，进一步用于：将各个图像对应的解码向量输入到共享前馈网络，得到各个图像对应的预测的目标的位置和类别，根据所述预测的目标的位置和类别以及各个图像的图像标签对损失函数进行迭代训练，得到所述目标检测模型，所述损失函数包括位置损失和类别损失。

在本发明实施例中，目标的位置包括目标对应的目标框的中心坐标、宽度和高度，位置损失为根据预测目标框和真实目标框的交集面积和并集面积的比值得到的损失，类别损失为真实目标框集合和预测目标框集合的二分匹配排列的损失，

共享前馈网络由Relu激活函数、多层感知机和线性层构成。

如图6所示，本发明实施例的又一方面提供一种目标检测的装置600，包括：

获取模块601，获取待检测图像；

确定模块602，将待检测图像输入到训练好的目标检测模型中，确定待检测图像中目标的位置和类别，其中，目标检测模型根据本发明实施例的目标检测模型的训练方法得到。

在本发明实施例中，确定模块602，用于：获取待检测图像对应的特征向量和位置编码向量；根据待检测图像对应的特征向量和位置编码向量获得待检测图像对应的解码向量；将待检测图像对应的解码向量输入到共享前馈网络，得到待检测图像中目标的位置和类别。

在本发明实施例中，确定模块602，进一步用于：提取待检测图像的每个子区域的图像特征，根据各个子区域的图像特征得到待检测图像对应的特征向量；根据各个子区域的图像特征获得待检测图像对应的位置编码向量，位置编码向量包含待检测图像对应的各个子区域的图像特征之间的位置关系。

在本发明实施例中，确定模块602，还用于：提取待检测图像的每个子区域的图像特征之前，采用显著性检测模型检测出待检测图像的前景区域；对前景区域按照不同尺度划分，获得待检测图像对应的多个子区域。

在本发明实施例中，确定模块602，进一步用于：利用包含特征金字塔网络的骨干特征提取网络提取每个子区域的图像特征，得到每个子区域对应的子区域特征向量，根据待检测图像对应的各个子区域特征向量得到待检测图像对应的特征向量。

在本发明实施例中，确定模块602，进一步用于：根据待检测图像对应的特征向量和位置编码向量获得待检测图像对应的解码向量，包括：根据特征向量和位置编码向量得到待检测图像对应的融合特征向量；基于自注意力机制的模型对待检测图像对应的融合特征向量进行特征编码和特征解码，得到待检测图像对应的解码向量。

根据本发明实施例的另一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本发明提供的目标检测模型的训练方法或目标检测的方法。

根据本发明实施例的还一个方面，提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现本发明提供的目标检测模型的训练方法或目标检测的方法。

图7示出了可以应用本发明实施例的目标检测模型的训练方法或目标检测模型的训练装置，目标检测的方法或目标检测的装置的示例性系统架构700。

如图7所示，系统架构700可以包括终端设备701、702、703，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备701、702、703通过网络704与服务器705交互，以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器705可以是提供各种服务的服务器，例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的目标检测模型的训练方法或目标检测的方法一般由服务器705执行，相应地，目标检测模型的训练装置或目标检测的装置一般设置于服务器705中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图8，其示出了适于用来实现本发明实施例的终端设备的计算机系统800的结构示意图。图8示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块和确定模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“获取待检测图像的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取多个图像和每个图像对应的图像标签，图像标签包括图像中目标的位置和类别，根据图像获得图像对应的特征向量和位置编码向量，根据特征向量和位置编码向量获得图像对应的解码向量，采用多个图像对应的解码向量和图像标签进行训练，得到目标检测模型。

根据本发明实施例的技术方案，利用训练好的目标检测模型对待检测图像中目标的位置和类别进行预测。目标检测模型是利用多个图像和每个图像对应的图像标签。然后根据图像获得图像对应的特征向量和位置编码向量，然后根据特征向量和位置编码向量获得图像对应的解码向量，根据解码向量和图像标签进行训练得到的目标检测模型。本发明实施例的方法融合卷积神经网络和自注意力机制实现更高精度的目标检测。获得图像的特征向量之前，对多个图像和图像标签进行数据预处理，包括数据清洗和数据增强，然后对数据预处理后的多个图像进行前景区域检测及子区域的划分，再采用含有特征金字塔网络的卷积神经网络提取各个子区域的图像特征，得到图像的特征向量，增强了对小目标的检测效果。本发明实施例的目标检测方法简化了目标检测的流程，将目标检测问题由传统的提取特征、锚框生成、非极大值抑制等流程简化为直接集合预测问题，具有泛化性；此外，该方法中的损失函数为基于集合的全局损失函数，该损失函数通过二分匹配和基于自注意力机制的编码-解码结构进行预测，结合了目标与全局图像上下文之间的关系，直接给出预测集合结果；本发明实施例提供的是完全端到端训练的自注意力机制的目标检测模型，极大的简化了检测流程，后续如扩充目标检测类别仅需在训练数据集中添入新数据微调即可完成旧模型到新模型的更新；本发明实施例的方法支持检测任务到分割任务的拓展，如可以将编码部分得到的自注意力map通过几层卷积神经网络复原出一个mask即可实现分割任务。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，根据所述图像获得所述图像对应的特征向量和位置编码向量之前，还包括：

3.根据权利要求1所述的训练方法，其特征在于，根据所述图像获得所述图像对应的特征向量和位置编码向量之前，还包括：

4.根据权利要求1所述的训练方法，其特征在于，根据所述图像获得所述图像对应的特征向量和位置编码向量，包括：

5.根据权利要求4所述的训练方法，其特征在于，提取所述图像的每个子区域的图像特征之前，包括：

采用显著性检测模型检测出所述图像的前景区域；

6.根据权利要求4所述的训练方法，其特征在于，提取每个子区域的图像特征，根据各个子区域的图像特征得到所述图像对应的特征向量，包括：

7.根据权利要求1所述的训练方法，其特征在于，根据所述特征向量和所述位置编码向量获得所述图像对应的解码向量，包括：

根据所述特征向量和所述位置编码向量得到融合特征向量；

8.根据权利要求1所述的训练方法，其特征在于，采用多个所述图像对应的解码向量和图像标签进行训练，得到所述目标检测模型，包括：

9.根据权利要求8所述的训练方法，其特征在于，所述目标的位置包括所述目标对应的目标框的中心坐标、宽度和高度，所述位置损失为根据预测目标框和真实目标框的交集面积和并集面积的比值得到的损失，所述类别损失为真实目标框集合和预测目标框集合的二分匹配排列的损失，

10.一种目标检测的方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入到训练好的目标检测模型中，确定所述检测图像中目标的位置和类别，所述目标检测模型根据权利要求1-9任一项所述的目标检测模型的训练方法得到。

11.根据权利要求10所述的方法，其特征在于，确定所述检测图像中目标的位置和类别，包括：

获取所述待检测图像对应的特征向量和位置编码向量；

12.根据权利要求11所述的方法，其特征在于，获取所述待检测图像对应的特征向量和位置编码向量，包括：

13.根据权利要求12所述的方法，其特征在于，提取所述待检测图像的每个子区域的图像特征之前，包括：

采用显著性检测模型检测出所述待检测图像的前景区域；

14.根据权利要求12所述的方法，其特征在于，提取每个子区域的图像特征，根据各个子区域的图像特征得到所述待检测图像对应的特征向量，包括：

15.根据权利要求11所述的方法，其特征在于，根据所述待检测图像对应的特征向量和位置编码向量获得所述待检测图像对应的解码向量，包括：

16.一种目标检测模型的训练装置，其特征在于，包括：

17.一种目标检测的装置，其特征在于，包括：

获取模块，获取待检测图像；

确定模块，将所述待检测图像输入到训练好的目标检测模型中，确定所述待检测图像中目标的位置和类别，所述目标检测模型根据权利要求1-9任一项所述的目标检测模型的训练方法得到。

18.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9或10-15中任一所述的方法。

19.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9或10-15中任一所述的方法。