CN116778148A

CN116778148A - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN116778148A
Application number: CN202310694051.8A
Authority: CN
Inventors: 刘志勇; 宋勇; 叶晓舟; 欧阳晔
Original assignee: Guangzhou Yaxin Technology Co ltd
Current assignee: Guangzhou Yaxin Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-09-19

Abstract

本申请实施例提供了一种目标检测方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：获取待检测图像，并获取待查询的目标对象；基于目标对象的目标对象类别构建对应的提示文本；将待检测图像及其对应的提示文本输入至目标检测模型，得到目标检测模型输出的针对提示文本的更新文本；更新文本包括针对目标对象的目标对象数量和目标对象位置。本申请实施例中针对不同的应用场景，可以通过根据实际的应用场景改变提示文本中的目标对象类别，从而使得目标检测模型可以适应于不同的应用场景，即一个模型可以应对不同的场景需求，提高了方法的通用性。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

目标检测作为人工智能的一个重要领域，被广泛应用到生产生活当中，如动物识别、火情监测、闯红灯监测等。目标检测指的是找出图像中感兴趣的目标对象并确定目标对象的位置。

现有技术中通常是采用Anchor-Based(一种基于深度学习的目标检测方法)方法进行目标检测，该方法是基于预设的若干固定大小和长宽比的anchor生成预测框，对于不同的应用场景，该方法中的anchor都需要针对特定的应用场景重新设置大小和长宽比，通用性较低。

发明内容

本申请实施例提供了一种目标检测方法、装置、电子设备及存储介质，可以解决现有的目标检测方法通用性较低的问题。

所述技术方案如下：

根据本申请实施例的一个方面，提供了一种目标检测方法，该方法包括：

获取待检测图像，并获取待查询的目标对象；

基于所述目标对象的目标对象类别构建对应的提示文本；

将所述待检测图像及其对应的提示文本输入至目标检测模型，得到所述目标检测模型输出的针对提示文本的更新文本；

所述更新文本包括针对所述目标对象的目标对象数量和目标对象位置。

可选地，所述基于所述目标对象的目标对象类别构建对应的提示文本，包括：

将所述目标对象类别更新至初始提示文本中，得到所述提示文本；所述提示文本中以预设信息表示目标对象待确定的目标对象数量和目标对象位置；

所述更新文本中以所述目标检测模型所确定的目标对象数量和目标对象位置替换所述预设信息。

可选地，所述目标检测模型是基于如下方式训练得到的：

获取多个样本图像；

针对每个样本图像，获取所述样本图像对应的样本文本；

针对每个样本文本，将所述样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本；

基于各个样本图像及其对应样本文本和样本提示文本对初始目标检测模型进行至少一次训练操作，直至符合预设训练结束条件，将符合预设训练结束条件的初始目标检测模型作为训练好的目标检测模型；

其中，所述训练操作包括：

针对每个样本图像及其对应的样本提示文本，基于所述样本图像对所述样本提示文本进行更新，得到对应的样本更新文本；

基于各个样本文本和各个样本更新文本，确定损失函数；

基于所述损失函数对所述初始目标检测模型的参数进行调整，将调整参数后的初始目标检测模型作为下一次训练操作对应的初始目标检测模型。

可选地，所述将所述样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本，包括：

将所述样本文本中的样本对象数量和样本对象位置均替换为预设信息，得到第一样本提示文本；

将所述样本文本中的样本对象类别替换为预设信息，得到第二样本提示文本；

基于所述第一样本提示文本和所述第二样本提示文本，确定所述样本提示文本。

可选地，所述获取所述样本图像对应的样本文本，包括：

确定所述样本图像包含的至少一个样本对象集；所述样本对象集包括同一类别的至少一个样本对象；

针对每个样本对象集，确定所述样本对象集对应的样本对象类别和样本对象数量；

针对每个样本对象，确定所述样本对象对应的样本对象位置；

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，确定所述样本文本。

可选地，所述方法还包括：

确定与所述样本图像包含的各个样本对象均不同的至少一个其他对象；

基于所述至少一个其他对象，确定其他对象文本；其中，所述其他对象为除样本对象以外的对象；所述其他对象文本为与其他对象有关的样本文本；

所述基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，确定所述样本文本，包括：

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，和所述其他对象文本，确定所述样本文本。

可选地，所述基于所述样本图像对所述样本提示文本进行更新，得到对应的样本更新文本，包括：

确定所述样本图像的初始图像特征；

分别对所述初始图像特征和所述样本提示文本进行编码处理，得到对应的图像特征和文本特征；

基于所述图像特征和所述文本特征，得到所述样本提示文本对应的样本更新文本。

根据本申请实施例的另一个方面，提供了一种目标检测装置，该装置包括：

获取模块，用于获取待检测图像，并获取待查询的目标对象；

提示文本构建模块，用于基于所述目标对象的目标对象类别构建对应的提示文本；

检测模块，用于将所述待检测图像及其对应的提示文本输入至目标检测模型，得到所述目标检测模型输出的针对提示文本的更新文本；

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述任一种目标检测方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种目标检测方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方法通过将包含目标对象类别的提示文本输入至目标检测模型，将目标对象类别作为一种提示信息，提示模型针对目标对象类别的目标对象进行检测。针对不同的应用场景，可以通过根据实际的应用场景改变提示文本中的目标对象类别，从而使得目标检测模型可以适应于不同的应用场景，即一个模型可以应对不同的场景需求，提高了方法的通用性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种目标检测方法的流程示意图；

图2为本申请实施例提供的一种目标检测模型训练方法的流程示意图；

图3为本申请实施例提供的一种样本图像标注过程的示意图；

图4为本申请实施例提供的一种目标检测装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先对本申请涉及的几个名词进行介绍和解释：

Transformer：Transformer本质是一个Encoder-Decoder架构。其中Encoder组件由多层编码器(Encoder)组成，Decoder组件由相同层数的解码器(Decoder)组成。每个编码器由两个子层组成：Self-Attention层(自注意力层)和Position-wise Feed ForwardNetwork(前馈网络，FFN)。每个编码器的结构都是相同的，但是它们使用不同的权重参数。每个解码器由三个子层组成：Self-Attention层(自注意力层)、注意力层(Encoder-Decoder Attention)和Position-wise Feed Forward Network(前馈网络，FFN)，其中注意力层(Encoder-Decoder Attention)用来帮忙解码器关注输入句子的相关部分。

Patch embedding：Patch embedding是一种将2维的图像转换为1维的向量表示的方法。对于一张2维图像x∈R^H×W×C,首先将其表示为其中H和W是原始2维图像在像素维度的高和宽，C是通道数，P²是每个patch的像素值，N＝HW/P²表示用来表示原始图像的patch数目，也是该图像作为transformer输入的有效长度。在transformer中，每一层神经网络的输入维度都是固定的D，因此，对于每一个patch，都通过线性变换将其映射为D维向量。最终，原始的2维图像x∈R^H×W×C经过patch embedding后变为transformer输入可接受的x^′ _P∈R^N×D。

Byte-pair encoding：Byte-pair encoding(字节对编码)能够很好的解决词表中数以万计甚至十万计的token(文本中的一个最小单元)数量带来的庞大计算量以及模型效果降低的问题，是一种简单的数据压缩算法，其每一步都将最常见的一对相邻数据单位替换为该数据中没有出现过的一个新单位，反复迭代直到满足停止条件。

对于待压缩的数据aaabdaaabac。相邻字节对(相邻数据单位在BPE中看作相邻字节对)aa最常出现，因此可用一个新字节Z来替换aa。那么原始数据就变为来ZabdZabac，其中Z＝aa。下一个常见的字节对是ab，这里用Y替换ab，这样就得到了ZYdZYac，其中Z＝aa，Y＝ab。剩下的唯一字节对是ac，且只有一个，所以不对它进行编码。接下来递归地使用字节对编码将ZY编码为X。原始的数据就转换为XdXac，其中X＝ZY，Y＝ab，Z＝aa。它不能被进一步压缩，因为没有出现多次的字节对。所以经过Byte-pair encoding，原始数据aaabdaaabac就被编码为XdXac，节约了大量词表空间。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的一种目标检测方法的流程示意图，如图1所示，该方法包括：

步骤S110，获取待检测图像，并获取待查询的目标对象。

具体地，待检测图像可以为需要进行目标检测的图像，待检测图像可以通过相机、手机、摄像头或平板电脑等图像采集设备得到，也可以是在符合相关规定的前提下通过网络收集得到的，本申请实施例对待检测图像的具体的获取方式不做限定。

目标对象可以为需要在待检测图像中进行查询的对象，针对不同的应用场景以及不同的需求，可以设置不同的目标对象。

步骤S120，基于目标对象的目标对象类别构建对应的提示文本。

具体地，在一些应用场景中，目标对象的类别可以是已知的，例如在火情监测的应用场景下，需要在拍摄的图像中搜索到燃烧点的具体位置，则可以确定目标对象为燃烧点，目标对象的类别为火。

在确定目标对象的类别(即目标对象类别)之后，可以基于目标对象的目标对象类别构建对应的提示文本，提示文本可以包括目标对象类别的信息，提示文本用于提示目标检测模型需要在待检测图像中查询的目标对象的类别。

步骤S130，将待检测图像及其对应的提示文本输入至目标检测模型，得到目标检测模型输出的针对提示文本的更新文本；更新文本包括针对目标对象的目标对象数量和目标对象位置。

具体地，在确定待检测图像及其对应的提示文本之后，可以将待检测图像及其对应的提示文本输入至目标检测模型，通过目标检测模型基于提示文本中的目标对象类别，确定目标对象在待检测图像中的目标对象数量和目标对象位置，并基于目标对象数量和目标对象位置，确定提示文本对应的更新文本。

其中，更新文本可以包括目标对象的目标对象数量和目标对象位置。目标对象数量可以为待检测图像中包括的目标对象的数量，目标对象位置可以为目标对象在待检测图像中的位置，目标对象位置可以表示为坐标信息，当目标对象数量为多个时，目标对象位置可以包括各个目标对象分别对应的坐标。

相较于传统的目标检测方法中输出的预测框，本申请实施例中通过构建包括目标对象类别的提示文本，并通过目标检测模型基于待检测图像和提示文本，输出包括目标对象数量和目标对象位置的更新文本，将更新文本中的目标对象数量和目标对象位置作为目标检测的结果。

对于目标对象类别已知的应用场景中，本申请实施例提供的方法通过将包含目标对象类别的提示文本输入至目标检测模型，将目标对象类别作为一种提示信息，提示模型针对目标对象类别的目标对象进行检测。

针对不同的应用场景，可以通过根据实际的应用场景改变提示文本中的目标对象类别，例如，在火情监测的应用场景下，可以设置目标对象类别为火；在闯红灯监测的应用场景下，可以设置目标对象类别为红灯，从而使得目标检测模型可以适应于不同的应用场景，即一个模型可以应对不同的场景需求，提高了方法的通用性。

作为一种可选实施例，该方法中，基于目标对象的目标对象类别构建对应的提示文本，包括：

将目标对象类别更新至初始提示文本中，得到提示文本；提示文本中以预设信息表示目标对象待确定的目标对象数量和目标对象位置；

更新文本中以目标检测模型所确定的目标对象数量和目标对象位置替换预设信息。

具体地，初始提示文本中目标对象类别、目标对象数量和目标对象位置均表示为预设信息，其中，预设信息可以用于表示预设信息对应位置的信息空缺，预设信息可以不具备任何含义。例如，预设信息可以设置为掩码[MASK]。

将初始提示文本中表示目标对象类别的预设信息替换为确定出的目标对象类别，可以得到对应的提示文本。提示文本可以包括目标对象类别，以及以预设信息表示的目标对象数量和目标对象位置。

将提示文本和待检测图像输入至目标检测模型，通过目标检测模型基于提示文本和待检测图像确定目标对象在待检测图像中的目标对象数量和目标对象位置，并将提示文本中表示目标对象数量和目标对象位置的预设信息替换为确定出的目标对象数量和目标对象位置，得到更新文本。更新文本可以包括目标对象类别、目标对象数量和目标对象位置。

下面结合一个示例对本申请实施例提供的方法进行说明。

初始提示文本可以为：该图包含[MASK]个[MASK]，其中之一的坐标为[MASK]。其中，[MASK]为预设信息，初始提示文本中三个[MASK]依次表示目标对象数量、目标对象类别和目标对象位置。

将目标对象类别A更新至该初始提示文本中，得到提示文本：该图包含[MASK]个A，其中之一的坐标为[MASK]。

将该提示文本和待检测图像输入至目标检测模型中，得到目标检测模型输出的对应的更新文本。当需要判断待检测图像中是否存在目标对象A时，可以通过判断更新文本中第一个[MASK]处的值是否大于0；当需要查找到待检测图像中所有的目标对象A，且更新文本中第一个[MASK]处的值n大于1(假设为n，n>1)时，可以将第二个[MASK]处的检测结果中前n个坐标作为n个目标对象A的目标对象位置。

图2为本申请实施例提供的一种目标检测模型训练方法的流程示意图，如图2所示，目标检测模型是基于如下方式训练得到的：

步骤S210，获取多个样本图像；

步骤S220，针对每个样本图像，获取样本图像对应的样本文本。

具体地，样本图像可以为用于模型训练的图像，样本图像可以是通过图像采集设备采集到的，也可以是在符合相关规定的前提下通过网络收集得到的，本申请实施例对样本图像的具体获取方式不做限定。

在确定多个样本图像之后，可以获取多个样本图像分别对应的标注标签，标注标签可以为与对应样本图像中样本对象相关的数据。针对每个样本图像，可以根据预设的标注规则通过人工标注来获取对应的标注标签；或者样本图像本身可以为带标注的图像，例如将开源的带标注的训练数据作为样本图像。

针对每个样本图像，可以根据该样本图像对应的标注标签，获取该样本图像对应的样本文本。样本文本可以为针对样本图像中样本对象的文本描述，样本文本可以包括针对样本对象的样本对象类别、样本对象数量和样本对象位置。

图3为本申请实施例提供的一种样本图像标注过程的示意图，如图3所示，可以标注出样本图像中样本对象的矩形框，针对每个样本对象，可以通过该样本对象所在矩形框的位置来表示该样本对象的位置，对应的标注信息可以包括样本图像包括的各个样本对象的类别和各个样本对象的位置。其中，可以将矩形框中至少一个顶点的坐标来表示矩形框的位置，也可以将矩形框的中心点的坐标来表示矩形框的位置，本申请实施例对此不做限定。

以图3中的样本图像为例，对应的标注标签可以为图像中的对象为长颈鹿，对象的中心坐标分别为[141，291]，[301，180]。根据该标注标签，可以得到对应的样本文本：该图包含2个长颈鹿，其中之一的坐标为[141，291]；该图包含2个长颈鹿，其中之一的坐标为[301，180]。

步骤S230，针对每个样本文本，将样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本。

具体地，每个样本文本均包含对应样本图像的样本对象类别、样本对象数量和样本对象位置，可以将样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，将替换后得到的包含预设信息的样本文本作为对应的样本提示文本。

需要说明的是，样本提示文本用于提示初始目标检测模型与目标对象有关的信息，因此，样本提示文本中样本对象类别、样本对象数量和样本对象位置至少有一种是已知的，即不能将样本对象类别、样本对象数量和样本对象位置均替换为预设信息。

可选地，将样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本，包括：

将样本文本中的样本对象数量和样本对象位置均替换为预设信息，得到第一样本提示文本；

将样本文本中的样本对象类别替换为预设信息，得到第二样本提示文本；

基于第一样本提示文本和第二样本提示文本，确定样本提示文本。

具体地，可以将样本文本中样本对象数量和样本对象位置均替换为预设信息，将替换后的样本文本作为第一样本提示文本，即第一样本提示文本中样本对象类别是已知的，且样本对象数量和样本对象位置均表示为预设信息。

可以将样本文本中的样本对象类别替换为预设信息，将替换后的样本文本作为第二样本提示文本，即第二样本提示文本中样本对象数量和样本对象位置均是已知的，样本对象类别表示为预设信息。

需要说明的是，在模型训练阶段，输入至初始目标检测模型的样本提示文本包括第一样本提示文本和第二样本提示文本两种形式；在模型应用阶段，针对目标对象类别已知的应用场景，基于目标对象类别构建提示文本并输入至目标检测模型，此种情况下，提示文本可以理解为与第一样本提示文本的形式是一致的。

但是在目标对象数量和目标对象位置已知的应用场景下，也可以基于目标对象数量和目标对象位置构建提示文本，并通过目标检测模型基于提示文本输出目标对象类别，此种情况下，提示文本可以理解为与第二样本提示文本的形式是一致的。

下面结合一个示例对样本提示文本的确定方法进行说明。

以图3为例，样本文本为：

该图包含2个长颈鹿，其中之一的坐标为[141，291]；该图包含2个长颈鹿，其中之一的坐标为[301，180]；

将该样本文本中的样本对象数量和样本对象位置均替换为预设信息，得到的第一样本文本为：

该图包含[MASK]个长颈鹿，其中之一的坐标为[MASK]；

将该样本文本中的样本对象类别替换为预设信息，得到的第二样本文本为：

该图包含2个[MASK]，其中之一的坐标为[141，291]；该图包含2个[MASK]，其中之一的坐标为[301，180]。

本申请实施例中，通过构建将样本对象数量和样本对象位置均表示为预设信息的第一样本提示文本，以及将样本对象类别表示为预设信息的第二样本提示文本对初始目标检测模型进行训练，使得模型在训练过程中可以集中在样本图像中的样本对象上，并能够学习到更多的信息，有利于提升训练好的目标检测模型的性能，提高目标检测的效果。

步骤S240，基于各个样本图像及其对应样本文本和样本提示文本对初始目标检测模型进行至少一次训练操作，直至符合预设训练结束条件，将符合预设训练结束条件的初始目标检测模型作为训练好的目标检测模型；

其中，训练操作包括：

(1)针对每个样本图像及其对应的样本提示文本，基于样本图像对样本提示文本进行更新，得到对应的样本更新文本；

(2)基于各个样本文本和各个样本更新文本，确定损失函数；

(3)基于损失函数对初始目标检测模型的参数进行调整，将调整参数后的初始目标检测模型作为下一次训练操作对应的初始目标检测模型。

具体地，将多个样本图像及其对应的样本提示文本输入至初始检测模型，针对每个样本图像，通过初始检测模型基于该样本图像和样本提示文本确定样本提示文本中预设信息对应位置的预测结果，将样本提示文本中的预设信息替换为对应的预测结果，得到样本更新文本。

针对每个样本图像，可以将该样本图像对应的样本文本作为标签。基于各个样本文本和各个样本更新文本，可以确定初始目标检测模型的损失函数。其中，损失函数可以为交叉熵损失函数。

基于损失函数可以对当前训练操作对应的初始目标检测模型的参数进行调整，并将调整参数后的初始目标检测模型参与下一次训练操作。通过不断地执行上述训练操作，基于损失函数来约束模型的训练，使得初始目标检测模型输出的样本更新文本越来越接近样本图像的样本文本，直至符合预设训练结束条件，并将符合预设训练结束条件的初始目标检测模型作为训练好的分类模型。

其中，训练结束条件可以为损失函数收敛，例如，损失函数小于设定值或者连续设定次数计算得到损失函数均小于设定值；训练结束条件也可以为训练次数达到预设次数，本申请实施例对此不做限定。

本申请实施例中，在模型训练阶段，针对每个样本图像，获取样本图像对应的样本文本，并将样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本，并基于各个样本图像及其对应样本文本和样本提示文本对初始目标检测模型进行训练，使得初始目标检测模型可以学习到基于样本提示文本中的已知信息和样本图像对样本提示文本中的缺失的信息进行预测，进而使得训练好的目标检测模型在模型应用阶段，可以通过改变提示文本来适应不同的应用场景，提高了模型的通用性。

进一步地，由于训练好的目标检测模型具有通用性，即将目标检测模型从一个应用场景迁移到另一个应用场景时，不需要对目标检测模型重新进行训练，也就不需要准备针对另一个应用场景的训练数据；在模型应用阶段，还不需要消耗大量的硬件资源来部署不同的场景的不同模型，节省了大量人力物力成本。

此外，目标检测模型在训练过程中利用了样本图像的图像信息和样本文本的文本信息，通过结合图像和文本两个维度的信息，使得模型能够学习到多个模态的信息，提高了训练好的目标检测模型的准确性。

作为一种可选实施例，获取样本图像对应的样本文本，包括：

确定样本图像包含的至少一个样本对象集；样本对象集包括同一类别的至少一个样本对象；

针对每个样本对象集，确定样本对象集对应的样本对象类别和样本对象数量；

针对每个样本对象，确定样本对象对应的样本对象位置；

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，确定样本文本。

具体地，样本图像中可以包括多种不同类别的样本对象，可以将同一类别的至少一个样本对象作为一个样本对象集，得到样本图像包含的至少一个样本对象集。

每个样本对象集包括的至少一个样本对象的类别是相同的，针对每个样本对象集，可以将该样本对象集中包括的样本对象的类别作为对应的样本对象类别，将该样本对象集中包括的样本对象的数量作为对应的样本对象数量。

针对每个样本对象集，确定该样本对象集中包括的各个样本对象的样本对象位置，进而可以确定样本图像中包括的各个样本对象的样本对象位置。其中，样本对象位置可以表示为样本对象在样本图像中的坐标。

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，可以生成样本文本。

可选地，样本文本的形式可以为：

该图包含m个A，其中之一的坐标为

……

该图包含m个A，其中之一的坐标为

该图包含n个B，其中之一的坐标为

……

该图包含n个B，其中之一的坐标为

其中，m和n分别为样本对象A和样本对象B的数量，m个样本对象A作为一个样本对象集(对应的样本对象类别为A，样本对象数量为m)，n个样本对象B作为一个样本对象集(对应的样本对象类别为B，样本对象数量为n)，样本文本包括m个样本对象A和n个样本对象B分别对应的坐标。

本申请实施例中，基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，确定样本文本，使得生成的样本文本可以覆盖对应样本图像中所有样本对象，样本文本所表征的信息更全面、更完整。

作为一种可选实施例，所述方法还包括：

确定与样本图像包含的各个样本对象均不同的至少一个其他对象；

基于至少一个其他对象，确定其他对象文本；其中，其他对象为除样本对象以外的对象；其他对象文本为与其他对象有关的样本文本；

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，确定样本文本，包括：

基于各个样本对象集分别对应的样本对象类别和样本对象数量，以及各个样本对象分别对应的样本对象位置，和其他对象文本，确定样本文本。

具体地，在样本图像中出现的对象为样本对象，在确定出与样本对象有关的文本之后，还可以将与样本对象无关的文本添加至样本文本中，通过提高样本文本的多样性，提高训练得到的目标检测模型的适应性和鲁棒性。

可以确定出至少一个其他对象，其他对象可以为除样本对象之外的对象，即其他对象与样本图像中包含的各个样本对象均不相同。

基于至少一个其他对象分别对应的类别，确定其他对象文本，其他对象文本可以为与其他对象有关的样本文本。其他对象文本可以理解为该样本图像下的负样本，通过构建其他对象文本能够保证训练数据的正负样本比例在一个合理的状态，有利于模型的训练，提升了模型预测的准确性。

在确定出其他对象文本之后，可以将其他对象文本与包含样本图像中各个样本对象信息的文本进行组合，作为最终的样本文本。

下面结合一个示例对其他对象文本的生成方法进行说明。

以图3为例，与样本对象有关的样本文本为：

在此基础上，可以确定与样本对象(长颈鹿)不同的其他对象，例如将其他对象设置为老虎或者垃圾桶，样本图像不包括其他对象，因此其他对象的数量为0，其他对象的位置可以是随机设置的。

基于上述其他对象确定的其他对象文本可以为：

该图包含0处老虎，其中之一的坐标为[-1，-1]；

该图包含0处垃圾桶，其中之一的坐标为[-1，-1]。

本申请实施例中，通过确定与样本对象无关的其他对象文本，将其他对象文本添加至样本文本中，通过提高样本文本的多样性，增强训练好的目标检测模型的适应性和鲁棒性。

作为一种可选实施例，基于样本图像对样本提示文本进行更新，得到对应的样本更新文本，包括：

确定样本图像的初始图像特征；

分别对初始图像特征和样本提示文本进行编码处理，得到对应的图像特征和文本特征；

基于图像特征和文本特征，得到样本提示文本对应的样本更新文本。

具体地，针对每个样本图像，将样本图像和样本提示文本输入至初始检测模型，通过初始检测模型可以为样本图像进行编码，得到样本图像的初始图像特征。

可选地，可以基于patch embedding对样本图像进行编码处理。例如，对于256×256×3的样本图像，选用P＝16来对图片做patch embedding，得到256×(256×3)的表示向量，随后使用线性变换将表示向量的(256×3)部分映射到维度为1的向量。最终，对于256×256×3的图片，得到了256×1的表示向量，其中256表示原始图像被分为256个patch，1表示每个patch的特征表示向量，该向量与该patch部分强相关。通过采用patch embedding对图像进行特征表示，能够在不明显损失图片信息的前提下极大的减少了图像特征表示所需的空间。

在确定出样本图像的初始图像特征之后，可以采用相同的编码方式分别对初始图像特征和样本提示文本进行编码处理，得到对应的图像特征和文本特征。

通过采用相同的编码方式分别对初始图像特征和样本提示文本进行编码，将初始图像特征和样本提示文本映射至统一的特征空间，实现了多模态信息的统一空间表示，从而结合图像信息和文本信息对模型进行训练，增加了文本维度的信息，使得模型能够学习到更多的信息，提升了模型的准确性。

可选地，可以采用Byte-pair encoding的方式分别对初始图像特征和样本提示文本进行编码。采用Byte-pair encoding对初始图像特征和样本提示文本进行统一编码，可以有效地减少得到的图像特征和文本特征的维度，减少了模型的计算量，提高了模型的收敛速度。

初始目标检测模型在得到图像特征和文本特征之后，可以基于图像特征和文本特征，对样本提示文本中的预设信息对应位置的信息进行预测，得到样本提示文本对应的更新文本。其中，初始目标检测模型可以是基于transformer中的encoder模块构建的。

图4为本申请实施例提供的一种目标检测装置的结构示意图，如图4所示，该装置包括：

获取模块310，用于获取待检测图像，并获取待查询的目标对象；

提示文本构建模块320，用于基于目标对象的目标对象类别构建对应的提示文本；

检测模块330，用于将待检测图像及其对应的提示文本输入至目标检测模型，得到目标检测模型输出的针对提示文本的更新文本；

更新文本包括针对目标对象的目标对象数量和目标对象位置。

作为一种可选实施例，该装置中，提示文本构建模块具体用于：

作为一种可选实施例，该装置还包括训练模块，训练模块包括：

样本图像获取子模块，用于获取多个样本图像；

样本文本获取子模块，用于针对每个样本图像，获取样本图像对应的样本文本；

样本提示文本获取子模块，用于针对每个样本文本，将样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本；

模型训练子模块，用于基于各个样本图像及其对应样本文本和样本提示文本对初始目标检测模型进行至少一次训练操作，直至符合预设训练结束条件，将符合预设训练结束条件的初始目标检测模型作为训练好的目标检测模型；

其中，训练操作包括：

针对每个样本图像及其对应的样本提示文本，基于样本图像对样本提示文本进行更新，得到对应的样本更新文本；

基于各个样本文本和各个样本更新文本，确定损失函数；

基于损失函数对初始目标检测模型的参数进行调整，将调整参数后的初始目标检测模型作为下一次训练操作对应的初始目标检测模型。

作为一种可选实施例，该装置中样本提示文本获取子模块，具体用于：

作为一种可选实施例，该装置中样本文本获取子模块，具体用于：

针对每个样本对象，确定样本对象对应的样本对象位置；

作为一种可选实施例，该装置中训练模块还包括其他对象样本确定子模块，用于：

在此基础上，样本文本获取子模块具体用于：

作为一种可选实施例，该装置中模型训练子模块，具体用于：

确定样本图像的初始图像特征；

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现上述目标检测方法的步骤，与相关技术相比可实现：通过将包含目标对象类别的提示文本输入至目标检测模型，将目标对象类别作为一种提示信息，提示模型针对目标对象类别的目标对象进行检测。针对不同的应用场景，可以通过根据实际的应用场景改变提示文本中的目标对象类别，从而使得目标检测模型可以适应于不同的应用场景，即一个模型可以应对不同的场景需求，提高了方法的通用性。

在一个可选实施例中提供了一种电子设备，如图5所示，图5所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测图像，并获取待查询的目标对象；

基于所述目标对象的目标对象类别构建对应的提示文本；

2.根据权利要求1所述的目标检测方法，其特征在于，所述基于所述目标对象的目标对象类别构建对应的提示文本，包括：

3.根据权利要求1或2所述的目标检测方法，其特征在于，所述目标检测模型是基于如下方式训练得到的：

获取多个样本图像；

针对每个样本图像，获取所述样本图像对应的样本文本；

其中，所述训练操作包括：

基于各个样本文本和各个样本更新文本，确定损失函数；

4.根据权利要求3所述的目标检测方法，其特征在于，所述将所述样本文本中的样本对象类别、样本对象数量和样本对象位置中的至少一种替换为预设信息，基于替换后的样本文本确定对应的样本提示文本，包括：

5.根据权利要求3所述的目标检测方法，其特征在于，所述获取所述样本图像对应的样本文本，包括：

6.根据权利要求5所述的目标检测方法，其特征在于，所述方法还包括：

7.根据权利要求3所述的目标检测方法，其特征在于，所述基于所述样本图像对所述样本提示文本进行更新，得到对应的样本更新文本，包括：

确定所述样本图像的初始图像特征；

8.一种目标检测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。