CN115797706A

CN115797706A - 目标检测方法、目标检测模型训练方法及相关装置

Info

Publication number: CN115797706A
Application number: CN202310044555.5A
Authority: CN
Inventors: 刘世隆; 曾兆阳; 任天和; 李峰; 张�浩; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-03-14
Anticipated expiration: 2043-01-30
Also published as: CN115797706B

Abstract

本发明公开了一种目标检测方法、目标检测模型训练方法及相关装置，先获取待识别图像的图像特征，以及获取待识别图像对应的输入文本的文本特征；将图像特征、文本特征以及待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各预设查询向量的目标查询向量；根据各目标查询向量、图像特征以及文本特征，确定目标查询向量对应的目标检测框以及目标文本；将目标查询向量对应的目标文本，作为目标查询向量对应的目标检测框的物体类别。通过上述方案，实现了非固定类别的目标检测，即实现了开放世界的目标检测。

Description

目标检测方法、目标检测模型训练方法及相关装置

技术领域

本发明涉及图像处理技术领域，尤其涉及目标检测方法、目标检测模型训练方法及相关装置。

背景技术

目标检测是计算机视觉的基础问题，其主要目的是从图片中检测并定位特定的一个或多个目标，其核心问题是对确定检测的内容进行定位和分类。

目前，传统的目标检测固定类别的物体，无法检测非固定类别的物体。也就是说，目前的目标检测局限于固定场景下固定类别的固定类别数据集，训练的分类器只具备识别标注类别的能力，但是在并非固定场景下，无法高效识别已标注类别和未标注类别。并且，对所有场景进行标注也是不现实的。

基于此，如何实现对开放世界的目标检测成为亟需解决的技术问题。

发明内容

本发明的主要目的在于提供一种目标检测方法、目标检测模型训练方法及相关装置，旨在解决现有技术中只能对固定类别的物体进行目标检测的问题。

为了实现上述目的，本发明提供了一种目标检测方法，其包括：

获取待识别图像的图像特征，以及获取所述待识别图像对应的输入文本的文本特征；

将所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各所述预设查询向量的目标查询向量；其中，所述若干包括至少一个；

根据各所述目标查询向量、所述图像特征以及所述文本特征，确定各所述目标查询向量对应的目标检测框以及目标文本；

将所述目标查询向量对应的所述目标文本，作为所述目标查询向量对应的所述目标检测框的物体类别。

可选地，所述图像特征由所述待识别图像的不同尺度的初始图像特征组成。

可选地，在所述获取待识别图像的图像特征之前，所述方法还包括：

将所述待识别图像输入图像特征提取器，以通过所述图像特征提取器的各特征提取阶段，得到所述待识别图像的不同尺度的初始图像特征。

可选地，在将所述待识别图像输入图像特征提取器，以通过所述图像特征提取器的各特征提取阶段，得到所述待识别图像的不同尺度的初始图像特征之后，所述方法还包括：将所述待识别图像的各所述初始图像特征进行降采样或升采样，以得到所述待识别图像的不同尺度的所述初始图像特征。

可选地，所述获取待识别图像的图像特征，具体包括：

按照预设顺序，将所述待识别图像的各所述初始图像特征进行拼接，得到所述待识别图像的图像特征。

可选地，在得到所述待识别图像的图像特征之后，所述方法还包括：

为所述图像特征中的每个初始图像特征标注对应的位置信息和顺序信息。

可选地，所述获取待识别图像对应的输入文本的文本特征，具体包括：

将所述输入文本输入文本特征提取器，并通过所述文本特征提取器中的注意力掩码，得到所述输入文本的文本特征。

可选地，在将所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各所述预设查询向量的目标查询向量之前，所述方法还包括：

将所述图像特征和所述文本特征输入预设特征增强模块，以通过所述预设特征增强模块的文本到图像交叉注意力层、图像到文本交叉注意力层对所述图像特征和所述文本特征进行融合；

将融合后的所述图像特征作为所述待识别图像的图像特征；以及

将融合后的所述文本特征作为所述输入文本的文本特征。

计算所述待识别图像中每个初始图像特征与所述输入文本的各所述文本特征的相似度，作为第一相似度；

根据每个所述初始图像特征对应的多个第一相似度，确定各所述初始图像特征的最大第一相似度；

将大于第一预设阈值的最大第一相似度所对应的初始图像特征，作为所述预设查询向量。

可选地，所述根据各所述目标查询向量、所述图像特征以及所述文本特征，确定所述目标查询向量对应的目标检测框以及目标文本，具体包括：

将每个所述目标查询向量与所述输入文本的各所述文本特征进行点乘，得到所述目标查询向量与各所述文本特征的相似度，作为第二相似度；

根据每个所述目标查询向量与各所述文本特征的第二相似度以及第二预设阈值，确定各所述目标查询向量对应的目标文本特征；

将所述目标文本特征在所述输入文本中对应的文本，作为所述目标查询向量对应的目标文本；以及

根据各所述目标查询向量和所述图像特征，确定各所述目标查询向量对应的目标检测框。

可选地，所述已训练的预设多模态解码器由若干多模态解码器层组成；其中，每个所述多模态解码器层至少由图像交叉注意力层组成；

所述将所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各所述预设查询向量的目标查询向量，具体包括：

将所述预设查询向量作为query，将所述文本特征和所述图像特征分别作为key和value，输入所述图像交叉注意力层，以得到更新后的目标查询向量。

为了实现上述目的，本发明还提供了一种目标检测模型训练方法，其包括：

获取训练样本；

其中，每个所述训练样本包括：样本图像、用于描述所述样本图像的样本文本、所述样本图像的样本图像特征、所述样本文本的样本文本特征、以及所述样本图像的样本相似度图、样本检测框；所述样本图像特征由所述样本图像的不同尺度的初始样本图像特征组成；

将所述样本图像特征、所述样本文本特征以及预设查询向量输入预设多模态解码器，得到各预设查询向量的预测查询向量；

计算每个所述预测查询向量与所述样本文本的各所述文本特征的第一相似度，以得到所述样本图像的预测相似度图；其中，所述预测相似度图由各所述预测查询向量的若干第一相似度组成；

基于所述样本图像的预测相似度图和样本相似度图对所述预设多模态解码器进行参数调整，得到已训练的所述预设多模态解码器；

根据所述已训练的所述预设多模态解码器，组成所述目标检测模型。

可选地，所述基于所述样本图像的预测相似度图和样本相似度图对所述预设多模态解码器进行参数调整，得到已训练的所述预设多模态解码器，具体包括：

根据所述样本图像的预测相似度图和样本相似度图进行损失计算，得到对比损失；以及

根据所述预测查询向量对应的预测检测框和所述样本检测框进行损失计算，得到定位损失；

根据所述对比损失和所述定位损失，确定所述预设多模态解码器的总损失；

根据所述总损失，对所述预设多模态解码器进行参数调整，得到已训练的所述预设多模态解码器。

为了实现上述目的，本发明提供了一种目标检测装置，其包括：图像特征提取器、文本特征提取器、已训练的预设多模态解码器以及生成模块；

所述图像特征提取器用于对待识别图像的进行特征提取，以获取所述待识别图像的图像特征；其中，所述图像特征由所述待识别图像的不同尺度的初始图像特征组成；

所述文本特征提取器用于对所述待识别图像对应的输入文本进行特征提取，得到所述输入文本的文本特征；

所述预设多模态解码器用于根据输入的所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量，确定各所述预设查询向量的目标查询向量；

所述生成模块用于根据各所述目标查询向量、所述图像特征以及所述文本特征，确定各所述目标查询向量对应的目标检测框以及目标文本；以及

用于将所述目标查询向量对应的所述目标文本，作为所述目标查询向量对应的目标检测框的物体类别。

可选地，所述目标检测装置还包括：预设特征增强模块；其中，所述预设特征增强模块包括若干特征增强层，每个所述特征增强层包括文本到图像交叉注意力层、图像到文本交叉注意力层；

所述预设特征增强模块用于根据输入的所述图像特征和所述文本特征，通过所述文本到图像交叉注意力层、图像到文本交叉注意力层对所述图像特征和所述文本特征进行融合。

其中，将融合后的所述图像特征作为所述待识别图像的图像特征；将融合后的所述文本特征作为所述待识别图像的文本特征。

可选地，所述目标检测装置还包括：查询向量初始化模块；

所述查询向量初始化模块用于计算所述待识别图像的每个初始图像特征与所述输入文本的各所述文本特征的相似度，作为第一相似度；

将各所述初始图像特征对应的多个第一相似度中的最大第一相似度，作为所述预设查询向量，以得到若干预设查询向量。

为了实现上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的目标检测方法中的步骤，或者如上所述的目标检测模型训练方法中的步骤。

为了实现上述目的，本发明还提供了一种终端，所述终端包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序是实现如上所述的目标检测方法中的步骤，或者如上所述的目标检测模型训练方法中的步骤。

本发明通过对待识别图像以及待识别图像对应的输入文本进行特征提取，得到对应的图像特征和文本特征；然后，将文本特征、图像特征以及预设查询向量输入已训练的预设多模态解码器，得到对应的目标查询向量，基于目标查询向量即可确定其对应的目标检测框以及目标文本，该目标文本即为该目标检测框的物体类别，从而实现对非固定类别的物体进行目标检测，即实现了对开放世界的目标检测，无需预定义类别即可实现任何物体类别的检测。

附图说明

图1为现有目标检测方法的示意图；

图2为本发明实施例提供的目标检测方法的流程图；

图3为本发明实施例提供的目标检测模型的结构示意图；

图4为本发明实施例提供的步骤S201的流程图；

图5为本发明实施例提供的文本掩码的示意图；

图6为本发明实施例提供的特征增强层的结构示意图；

图7为本发明实施例提供的多模态解码器层的结构示意图；

图8为本发明实施例提供的步骤S206的流程图；

图9为本发明实施例提供的目标检测模型训练方法的流程图；

图10为本发明实施例提供的目标检测方法的示意图；

图11为本发明实施例提供的目标检测装置的结构示意图；

图12为本发明实施例提供的终端的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

传统的目标检测主要是用于固定类别的物体，如图1所示，将输入图像输入传统目标检测模型（模型A）中，检测出输入图像中的物体及对应的物体类别，其中物体类别是提前预定义好的。也就是说，传统目标检测无法检测非固定类别的物体。

基于此，本发明提供了一种目标检测方法，如图2所示，该目标检测方法至少包括以下步骤：

S201，获取待识别图像的图像特征。

其中，图像特征由待识别图像在不同尺度的初始图像特征组成。

具体地，可以按照预设顺序，将待识别图像的各初始图像特征进行拼接，得到待识别图像的图像特征。例如，图像特征记为P×C，其中，

；

其中，

表示图像特征高度，

表示图像特征宽度，

。

上述预设顺序可以是各初始图像特征的尺度大小的顺序，在本发明实施例中不做具体限定。

在本发明实施例中，还可以为图像特征中的每个初始图像特征标注对应的位置信息和顺序信息。

具体地，对于图像特征中的每个初始图像特征，生成其唯一对应的位置信息和顺序信息，并使用位置信息和顺序信息对初始图像特征进行标注。其中，位置信息表示该初始图像特征在图像特征中的位置，可以采用位置编码来表示。顺序信息用于表示该初始图像特征属于第几层的特征，可以采用层级编码来表示。

上述位置编码和层级编码都可以使用正/余弦编码或者可学习编码等编码方式得到。

在本发明实施例中，待识别图像的图像特征由不同尺度的初始图像特征组成，针对待识别图像中的较小的目标也可以进行目标检测，从而进一步提高了目标检测的准确度和完整度。

另外，由于图像特征由待识别图像在不同尺度的初始图像特征组成，因此在步骤S201之前，如图4所示，本发明实施例提供的目标检测方法还包括：

S401，将待识别图像输入图像特征提取器，已通过图像特征提取器的各特征提取阶段，得到待识别图像的不同尺度的初始图像特征。

具体地，可以将待识别图像作为输入项，输入预设的图像特征提取器，该图像特征提取器可以具有多个特征提取阶段，经过多个特征提取阶段进行特征提取，提取出待识别图像最后的特征。例如，一待识别图像的尺寸为H×W×C，H为图像特征高度，W为图像特征宽度，C为图像特征维度。将该待识别图像输入图像特征提取器，一般将经历4个特征提取阶段，每个特征提取阶段提取的特征的尺寸各不相同，则其图像特征提取器的过程如下示例说明：

输入图像(1024×1024×3)→阶段1：256×256×C₁→阶段2：128×128×C₂→阶段3：64×64×C₃→阶段4：32×32×C₄（最后的初始图像特征）。

因此，在本发明实施例中，除了可以将图像特征提取器输出的最后结果作为待识别图像的初始图像特征之外，还可以将图像特征提取器中的各中间阶段的中间结果作为初始图像特征，从而得到待识别图像不同尺度的初始图像特征。由于中间结果的尺寸往往比最后的结果更大，因此对检测小目标更加有利，使得对待识别图像的目标检测更加精确，避免出现待识别图像中小目标的遗漏。

由于不同特征提取阶段的初始图像特征的特征维度各不相同（如前所述图像特征提取器过程中的C₁,C₂,C₃,C₄各不相同），因此可以使用一层线性层将其投影到相同的维度（即C维），使各初始图像特征的特征维度保持一致，从而进一步提高目标检测的准确度。

S402，将待识别图像的各初始图像特征进行降采样或升采样，得到待识别图像不同尺度的初始图像特征。

为了提高目标检测的精度，往往要求初始图像特征的数量较多，而目前的图像特征提取器的特征提取阶段数有限。假设在本发明实施例中对待识别图像共需要提取出S个不同尺度的初始图像特征，分别为

，

，…

。其中，

表示图像特征高度，

表示图像特征宽度，

表示特征维度，

。需要提取出的S个不同尺度一般会大于图像特征提取器的特征提取阶段数，如需要提取到5个不同尺度的初始图像特征，而图像特征提取器的特征提取阶段数仅为4个，不能满足多尺度特征提取的需求。

因此，在步骤S302中对待识别图像的各初始图像特征进行降采样或升采样，从而得到更多不同尺度的初始图像特征，进一步避免出现待识别图像中小目标的遗漏现象，提高目标检测的精度。

例如，可以将图像特征提取器输出的最后一个阶段的初始图像特征进行降采样（例如，92×92×C₄→16×16×C₄），或者第一个阶段的初始图像特征进行升采样（256×256×C₁→512×512×C₁），以获得更多不同分辨率的特征图，即可得到更多不同尺度的初始图像特征。需要说明的是，在上述降采样或升采样处理过程中，图像特征维度不变。

S202，获取待识别图像对应的输入文本的文本特征。

在本发明实施例中，用户可以根据待识别图像提供用于描述该待识别图像的输入文本，即可获取待识别图像对应的输入文本。然后，将待识别图像对应的输入文本输入预设的文本特征提取器（例如，预训练的Transformer编码器作为文本特征提取器，如BERT模型）中进行文本特征提取，从而得到输入文本的文本特征L×C，其中，L为文本特征个数，C为文本特征维度与图像特征维度一致。例如，如图3所示，输入文本A为“A cat sets on atable.”或者输入文本B“cat . person . mouse .”，分别输入文本特征提取器，得到输入文本A的文本特征分别为“ cat ”、“ table”，输入文本B的文本特征分别为“cat”、“person”、“ mouse ”。

可以理解的是，由于文本特征提取器使用的分词器不同，输入文本的文本特征的数量也可能有所不同，可能出现文本特征的个数可能会多于单词数的情况。例如，输入文本“cat refrigerator“可能会被分成三个特征，refrigerator 由于单词较长可能会被切成两部分分别提取特征。

在实际应用场景中，输入文本往往是直接将所有的物体类别拼成一句话，例如：“cat . baseball glove.”，其是由物体类别cat、baseball glove 组成的一句话。如图5所示，“cat”和“baseball glove”本身没有关系，但是在文本特征提取器中计算二者的注意力时信息会互相交互。因此，在本发明实施例中，可以在将文本输入到文本特征提取器时额外加入一组注意力掩码，通过文本特征提取器中的注意力掩码对输入文本进行特征提取，使得无关的词之间不直接计算注意力，减少了本身不存在关系的物体类别之间的影响，从而进一步提高了目标检测的准确度。

可以理解的是，在本发明实施例中可以先执行步骤S201再执行步骤S202，或者先执行步骤S202再执行步骤S201，亦或者步骤S201和步骤S202同时执行。

S203，将所述图像特征和所述文本特征输入预设特征增强模块，以对所述图像特征和文本特征进行融合，得到融合后的图像特征和融合后的文本特征。

本发明实施例中，预设特征增强模块由N（N≥1）层特征增强层组成，用于增强图像和文本的信息，使图像特征和文本特征进行融合。如图6所示，每一层特征增强层可以由图像到文本交叉注意力层和文本到图像交叉注意力层组成。将图像特征（

）和文本特征（

）作为输入项输入第一层特征增强层，经过图像到文本交叉注意力层、文本到图像交叉注意力层进行特征融合。具体地，在图像到文本交叉注意力层中，将文本特征作为query，将图像特征分别作为key和value；在文本到图像交叉注意力层中，将图像特征作为query，将文本特征分别作为key和value，从而对所述图像特征和文本特征进行特征融合。

可选地，每一层特征增强层还可以包括自注意力层、前馈层。前馈层一般由多层线性层、激活函数层以及正则化层交替组成。

如图6所示，以第一层特征增强层为例，将图像特征（

）和文本特征（

）作为输入项输入第一层特征增强层，图像特征和文本特征分别经过各自的自注意力层，分别输入图像到文本交叉注意力层、文本到图像交叉注意力层。具体地，在图像到文本交叉注意力层中，将文本特征作为query，将图像特征分别作为key和value；在文本到图像交叉注意力层中，将图像特征作为query，将文本特征分别作为key和value，从而对所述图像特征和文本特征进行融合，然后分别经过一层前馈层，输出更新的图像特征和文本特征，即融合后的图像特征和文本特征。

上述融合后的图像特征与融合前的图像特征尺寸保持一致，即

；相同地，融合后的文本特征与融合前的文本特征的尺寸也保持一致，即

。并且，可以将融合后的图像特征作为待识别图像的图像特征，将融合后的文本特征作为输入文本的文本特征，以执行下述步骤。

在本发明实施例中，通过预设特征增强模块对文本特征和图像特征进行特征融合，从而增强图像和文本的信息，进一步提高目标检测的准确度。

S204，获取待识别图像的预设查询向量。

在本发明实施例中，可以提前设置Q个预设查询向量，Q一般为300或者900。

具体地，可以通过两种方法获取待识别图像的预设查询向量。

方法1：直接在训练中学习Q个预设查询向量的值。具体地，设置

个可学习参数表示Q个预设查询向量的特征，通过训练优化可学习参数，在数据中进行学习，从而得到Q个预设查询向量。

方法2：文本特征引导的查询向量初始化。具体地，计算待识别图像的每个初始图像特征与输入文本的各文本特征的相似度，作为第一相似度；计算待识别图像的每个初始图像特征与输入文本的各文本特征的相似度，作为第一相似度；确定每个初始图像特征的最大第一相似度，将大于第一预设阈值的最大第一相似度所对应的初始图像特征，作为预设查询向量，从而得到多个预设查询向量。

进一步地，通过上述步骤S201-S203得到P个初始图像特征（

）和L个文本特征（

），将每个初始图像特征分别与各文本特征进行点乘计算（

），将点乘计算得到的值作为初始图像特征和文本特征的相似度，即第一相似度。其中，第一相似度表示初始图像特征所在位置有查询物体的可能性。

在本发明实施例中，每个初始图像特征的第一相似度可以组成1个L维向量，即L个第一相似度。从每个初始图像特征的L个第一相似度中选取最大值，作为初始图像特征的最大第一相似度。从P个初始图像特征中，选择出大于第一预设阈值a的最大第一相似度所对应的初始图像特征（即最有可能有物体的Q个初始图像特征），作为预设查询向量，从而得到若干预设查询向量。

在本发明实施例中，方法2通过文本特征进行引导得到的预设查询向量，相对于方法1来说，进一步考虑了待识别图像的文本特征，从而能够进一步提高目标检测的准确度。

S205，将图像特征、文本特征以及待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各预设查询向量的目标查询向量。

如图7所示，已训练的预设多模态解码器由至少一层多模态解码器层组成。其中，每个多模态解码器层可以包括：图像交叉注意力层。一个预设查询向量经过一层多模态解码器层会输出一个更新后的查询向量，Q个预设查询向量会输出Q个目标查询向量。在本发明实施例中，将预设多模态解码器的最后一层多模态解码器层输出的更新的查询向量设为目标查询向量。

进一步地，以一层多模态解码器层为例，将预设查询向量作为query，将文本特征和图像特征分别作为key和value，输入图像交叉注意力层，以得到更新的预设查询向量。

可选的，每个多模态解码器层还包括：自注意力层、文本交叉注意力层、前馈层。其中，自注意力层可以使得不同的预设查询向量进行交互和信息融合，从而提高多模态解码器的性能和收敛速度。文本交叉注意力层可以考虑待识别图像对应的输入文本的文本特征，将预设查询向量和文本特征进行交互，从而进一步提高目标检测的准确度。前馈层引入了多层变换，从而提高多模态解码器的拟合能力和性能。

S206，根据各目标查询向量、图像特征以及文本特征，确定各目标查询向量对应的目标检测框以及目标文本。

如图8所示，步骤S206至少可以由以下步骤实现：

S801，将每个目标查询向量与所述输入文本的各文本特征进行点乘，得到目标查询向量与文本特征的相似度，作为第二相似度。

在本发明实施例中，将每个目标查询向量与各文本特征进行点乘的值，作为目标查询向量与文本特征的相似度，即第二相似度。也就是说，每个目标查询向量具有L个第二相似度，那么Q个目标查询向量和L个文本特征能够计算得到

个第二相似度，将

个第二相似度可以组成该待识别图像的相似度图。

S802，根据每个目标查询向量与各文本特征的第二相似度和预设阈值，确定各目标查询向量对应的目标文本特征。

具体地，可以先设定第二预设阈值b（如b=0.25），将目标查询向量对应的多个第二相似度与第二预设阈值b进行比较，然后将第二相似度大于b的K个文本特征作为该目标查询向量对应的目标文本特征，从而得到每个目标查询向量的目标文本特征。

在实际使用过程中，一个目标查询向量可能会对应多个文本，比如baseballglove是两个单词，则会有两个目标文本特征，因此，通过第二预设阈值确定目标文本特征可以进一步提高目标检测的准确度。

S803，将目标文本特征在输入文本中对应的文本，作为目标查询向量对应的目标文本。

由上述可知，目标查询向量可能对应有多个目标文本特征。因此，在目标查询向量对应多个目标文本特征的情况下，将多个目标文本特征对应的文本结合起来，作为目标查询向量对应的目标文本。

S804，根据各目标查询向量和图像特征，确定各目标查询向量对应的目标检测框。

在本发明实施例中，将每个目标查询向量回归出一个目标检测框坐标。可选的，将每个目标查询向量和图像特征作为输入项，输入一个前馈层或者线性层，即可输出一个目标检测框的坐标（Q个目标查询向量可输出Q个目标检测框），目标检测框一般用检测框的中心横坐标、中心纵坐标、物体宽度、物体长度四个维度表示。

需要说明的是，可以先执行步骤S801-S803再执行步骤S804，或者先执行步骤S804再执行步骤S801-S803，亦或者步骤S801-S803和步骤S804同时执行，在本发明实施例中不做具体限定。

S207，将目标查询向量对应的目标文本，作为目标查询向量对应的目标检测框的物体类别。

通过上述步骤S201-步骤S207，即可实现对非固定类别的物体的目标检测。

本发明实施例提供的目标检测方法，通过对待识别图像以及该待识别图像的输入文本进行特征提取，并将提取到的图像特征、文本特征以及若干预设查询向量输入已训练的预设多模态解码器，从而得到目标查询向量，基于该目标查询向量即可确定对应的目标检测框及目标文本，该目标文本即为该目标检测框的物体类别，从而实现对非固定类别的物体进行目标检测，即实现了对开放世界的目标检测，可以检测任何类别的物体。

本发明还提供了一种目标检测模型训练方法，应用于目标检测模型的训练，如图3所示，该目标检测模型可以包括：图像特征提取器、文本特征提取器、预设特征增强模块、查询向量初始化模块、已训练的预设多模态解码器、前馈层（或线性层）。可见，对于目标检测模型的训练主要是针对预设多模态解码器的训练。

如图9所示，本发明实施例提供的目标检测模型训练方法至少包括以下步骤：

S901，获取训练样本。

其中，每个训练样本包括：样本图像、用于描述样本图像的样本文本、样本图像的样本图像特征、样本文本的样本文本特征、以及样本图像的样本相似度图、样本检测框以及样本类别。

上述样本图像特征由样本图像在不同尺度下进行特征提取得到的初始样本图像特征组成。在本发明实施例中，可以参照上述步骤S201的方法，获取样本图像的样本图像特征，在此不再加以赘述。

此外，样本文本的样本文本特征也可以由文本特征提取器得到，在此不再加以赘述。

S902，将样本图像特征、样本文本特征以及预设查询向量输入未训练的预设多模态解码器，得到各预设查询向量的预测查询向量。

如图3所示，预设多模态解码器由若干多模态解码器层组成，每个多模态解码器层可以包括：前馈层、文本交叉注意力层、图像交叉注意力层、自注意力层。将样本图像特征、样本文本特征以及预设查询向量作为输入项，输入未训练的预设多模态解码器，得到输出的预测查询向量。

需要说明的是，步骤S902中的样本文本特征和样本图像特征也可以是通过预设特征增强模块对样本文本特征和样本图像特征进行融合，得到的融合后的样本图像特征和样本文本特征。具体融合的过程在上述目标检测方法实施例中已进行阐述，在此不再加以赘述。

此外，步骤S902中的预设查询向量也可以参照上述目标检测方法实施例中方案得到，在此不再加以赘述。

S903，计算每个预测查询向量与样本文本的各样本文本特征的第一相似度。

在本发明实施例中，将每个预测查询向量与各样本文本特征进行点乘，将点乘得到的值作为第一相似度。

S904，根据各第一相似度，组成样本图像的预测相似度图。

其中，预测相似度图由个预测查询向量的若干第一相似度组成。

S905，基于样本图像的预测相似度图和样本相似度图对预设多模态解码器进行参数调整，得到已训练的预设多模态解码器。

具体地，可以根据样本图像的预测相似度图和样本相似度图进行损失计算，得到对比损失。以及，根据预测查询向量对应的预测检测框和样本检测框进行损失计算，得到定位损失。将对比损失和定位损失进行加权求和，得到总损失，根据总损失未训练的预设多模态解码器进行参数调整，从而得到已训练的预设多模态解码器。

S906，根据已训练的预设多模态解码器，组成目标检测模型。

如图10所示，该目标检测模型（模型B）用于通过输入文本对输入图像进行目标检测，得到输入图像中各目标物体的物体类别。

本发明提供的目标检测模型训练方法，可以针对非固定类别也可以进行目标检测的目标检测模型，从而实现对开放世界的目标检测。

本发明还提供了一种目标检测装置，如图11所示，该目标检测装置可以包括：图像特征提取器110、文本特征提取器120、已训练的预设多模态解码器130以及生成模块140。

图像特征提取器110用于对待识别图像的进行特征提取，以获取待识别图像的图像特征。

其中，图像特征由待识别图像在不同尺度下进行特征提取得到的初始图像特征组成。

文本特征提取器120用于对待识别图像对应的输入文本进行特征提取，得到输入文本的文本特征。

需要说明的是，上述图像特征提取器、文本特征提取器在上述实施例中已进行阐述，在此不再加以赘述，具体参照上述实施例中的详细内容。

已训练的预设多模态解码器130用于根据输入的图像特征、文本特征以及待识别图像的若干预设查询向量，确定各预设查询向量的目标查询向量。

生成模块140用于根据各目标查询向量、图像特征以及文本特征，确定各目标查询向量对应的目标检测框以及目标文本；以及用于将目标查询向量对应的目标文本，作为目标查询向量对应的目标检测框的物体类别。

可选地，如图11所示，本发明实施例提供的目标检测装置还可以包括预设特征增强模块150。预设特征增强模块150包括若干特征增强层，如图6所示，每个特征增强层包括文本到图像交叉注意力层、图像到文本交叉注意力层。

预设特征增强模块150用于根据输入的图像特征和文本特征，通过文本到图像交叉注意力层、图像到文本交叉注意力层对图像特征和文本特征进行融合。

可选地，如图11所示，本发明实施例提供的目标检测装置还可以包括查询向量初始化模块160。

查询向量初始化模块160用于计算待识别图像的每个初始图像特征与输入文本的各文本特征的相似度，作为第一相似度；以及用于将各初始图像特征对应的多个第一相似度中的最大第一相似度，作为预设查询向量，以得到若干预设查询向量。

在本发明实施例中，将融合后的图像特征作为待识别图像的图像特征；将融合后的文本特征作为待识别图像的文本特征。如图11所示，在本发明实施例中可以将预设特征增强模块150输出的融合后的图像特征、文本特征，分别输入查询向量初始化模块160以及预设多模态解码器130。

基于上述目标检测方法及目标检测模型训练方法，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的目标检测方法中的步骤，或者目标检测模型训练方法中的步骤。

基于上述目标检测方法及目标检测模型训练方法，本发明还提供了一种终端，如图12所示，其包括至少一个处理器（processor）200；显示屏210；以及存储器（memory）220，还可以包括通信接口（Communications Interface）230和总线240。其中，处理器200、显示屏210、存储器220和通信接口230可以通过总线240完成相互间的通信。显示屏210设置为显示初始设置模式中预设的用户引导界面。通信接口230可以传输信息。处理器200可以调用存储器220中的逻辑指令，以执行上述实施例中目标检测方法中的步骤，或者目标检测模型训练方法中的步骤。

此外，上述的存储器220中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器220作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器200通过运行存储在存储器220中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器220可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器220可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、终端和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、终端和存储介质与方法是一一对应的，因此，装置、终端和存储介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述装置、终端和存储介质的有益技术效果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种目标检测方法，其特征在于，所述目标检测方法包括：

2.根据权利要求1所述的目标检测方法，其特征在于，所述待识别图像的图像特征由所述待识别图像的不同尺度的初始图像特征组成。

3.根据权利要求2所述的目标检测方法，其特征在于，在所述获取待识别图像的图像特征之前，所述方法还包括：

4.根据权利要求3所述的目标检测方法，其特征在于，在将所述待识别图像输入图像特征提取器，以通过所述图像特征提取器的各特征提取阶段，得到所述待识别图像的不同尺度的初始图像特征之后，所述方法还包括：

将所述待识别图像的各所述初始图像特征进行降采样或升采样，以得到所述待识别图像的不同尺度的所述初始图像特征。

5.根据权利要求2所述的目标检测方法，其特征在于，所述获取待识别图像的图像特征，具体包括：

6.根据权利要求5所述的目标检测方法，其特征在于，在得到所述待识别图像的图像特征之后，所述方法还包括：

7.根据权利要求1所述的目标检测方法，其特征在于，所述获取待识别图像对应的输入文本的文本特征，具体包括：

将所述输入文本特征提取器，并通过所述文本特征提取器中的注意力掩码，得到所述输入文本的文本特征。

8.根据权利要求1所述的目标检测方法，其特征在于，在将所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各所述预设查询向量的目标查询向量之前，所述方法还包括：

将融合后的所述文本特征作为所述输入文本的文本特征。

9.根据权利要求1所述的目标检测方法，其特征在于，在将所述图像特征、所述文本特征以及所述待识别图像的若干预设查询向量输入已训练的预设多模态解码器，得到各所述预设查询向量的目标查询向量之前，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述根据各所述目标查询向量、所述图像特征以及所述文本特征，确定所述目标查询向量对应的目标检测框以及目标文本，具体包括：

11.根据权利要求1所述的目标检测方法，其特征在于，所述已训练的预设多模态解码器由若干多模态解码器层组成；其中，每个所述多模态解码器层至少由图像交叉注意力层组成；

12.一种目标检测模型训练方法，其特征在于，所述目标检测模型训练方法包括：

获取训练样本；

其中，每个所述训练样本包括：样本图像、用于描述所述样本图像的样本文本、所述样本图像的样本图像特征、所述样本文本的样本文本特征、以及所述样本图像的样本相似度图、样本检测框；

13.根据权利要求12所述的目标检测模型训练方法，其特征在于，所述基于所述样本图像的预测相似度图和样本相似度图对所述预设多模态解码器进行参数调整，得到已训练的所述预设多模态解码器，具体包括：

14.一种目标检测装置，其特征在于，所述目标检测装置包括：图像特征提取器、文本特征提取器、已训练的预设多模态解码器以及生成模块；

15.根据权利要求14所述的目标检测装置，其特征在于，所述目标检测装置还包括：预设特征增强模块；其中，所述预设特征增强模块包括若干特征增强层，每个所述特征增强层包括文本到图像交叉注意力层、图像到文本交叉注意力层；

所述预设特征增强模块用于根据输入的所述图像特征和所述文本特征，通过所述文本到图像交叉注意力层、图像到文本交叉注意力层对所述图像特征和所述文本特征进行融合；

16.根据权利要求14所述的目标检测装置，其特征在于，所述目标检测装置还包括：查询向量初始化模块；

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-11任意一项所述的目标检测方法中的步骤，或者如权利要求12-13任意一项所述的目标检测模型训练方法中的步骤。

18.一种终端，其特征在于，所述终端包括：处理器和存储器；所述存储器上存储有可被所述处理器执行的计算机可读程序；所述处理器执行所述计算机可读程序是实现如权利要求1-11任意一项所述的目标检测方法中的步骤，或者如权利要求12-13任意一项所述的目标检测模型训练方法中的步骤。