CN117392379B

CN117392379B - 目标检测的方法和装置

Info

Publication number: CN117392379B
Application number: CN202311705806.6A
Authority: CN
Inventors: 石雅洁
Original assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Jiezi Yuntu Space Technology Co ltd; Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-03-15
Anticipated expiration: 2043-12-13
Also published as: CN117392379A

Abstract

本公开涉及计算机视觉技术领域，提供了一种目标检测的方法和装置。该方法包括：执行提示文本生成任务，生成提示文本的特征向量；基于提示文本的特征向量和待检测图像确定视觉提示特征向量；基于视觉提示特征向量和待检测图像的全局特征向量确定待检测图像的局部特征增强向量；基于待检测图像的局部特征增强向量和提示文本的特征向量确定匹配特征向量；基于上述匹配特征向量和待检测图像的局部特征增强向量确定待检测图像的融合特征向量；基于融合特征向量，确定目标对象的检测框的位置和目标对象的类别解决了现有技术中目标检测模型不能对目标检测训练集中未出现的类别进行通用检测的问题，提高了模型的泛化能力。

Description

目标检测的方法和装置

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种目标检测的方法和装置。

背景技术

随着科技的发展，目标检测模型的应用范围越来越大，目标检测的任务是找出视频或图像中所有感兴趣的目标，并确定它们的类别和位置。当前的目标检测模型主要为关注特定类别的模型，例如，一目标检测模型为对可以对类别A进行目标检测，而不能对类别B进行目标检测，为使上述模型能够对类别B进行目标检测，需要通过相关训练集对上述模型进行重新训练并调整模型的参数，在重新训练的过程中浪费资源。

发明内容

有鉴于此，本公开实施例提供了一种目标检测的方法、装置、电子设备及可读存储介质，以解决现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题。

本公开实施例的第一方面，提供了一种目标检测方法，包括：执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；基于融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

本公开实施例的第二方面，提供了一种目标检测装置，包括：文本生成模块，用于执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；注意力处理模块，用于对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；第一融合模块，用于对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；匹配模块，用于对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；第二融合模块，用于将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；检测模块，用于基于融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：在获取待检测图像后，根据目标检测任务与待检测图像执行文本生成任务生成提示文本的特征向量，得到的提示文本的特征向量与待检测图像中的目标对象相关。学习提示文本的特征向量和待检测图像的全局特征向量之间的关联关系，再结合待检测图像的全局特征向量，得到待检测图像的局部特征增强向量。并将待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到的特征向量即提示文本与待检测图像的匹配特征向量。并将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量进行叠加进行融合处理，实现特征增强，得到待检测图像的融合特征向量。最后将待检测图像的融合特征向量输入目标检测模块的检测头，基于输入检测头中的待检测图像的融合特征向量进行分类和定位，从待检测图像的至少一个待检测对象中确定目标对象的位置和目标对象的类别，最后从目标检测模型输出的为一张带有目标检测框的图像，位于目标检测框中对象的为目标对象，目标对象在待检测图像的位置即目标对象的目标检测框在待检测图像的位置。上述目标检测模型具备文本生成模块并能理解文本的语义信息，可以结合文本信息对多类对象进行目标检测，即使该类对象未在训练上述模型的训练集中出现过，解决了现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题，提高了模型的泛化能力。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种目标检测的方法的流程示意图；

图3是本公开实施例提供的另一种目标检测方法的流程示意图；

图4是本公开实施例提供的再一种目标检测方法的流程示意图；

图5是本公开实施例提供的一种目标检测装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种目标检测的方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上所述的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，服务器4执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；基于融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种目标检测的方法的流程示意图。图2的目标检测方法可以由图1的终端设备或服务器执行。如图2所示，该目标检测的方法包括：

步骤201，执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关。

在一些实施例中，提示文本生成任务可以指基于目标检测的任务生成提示文本的特征向量，生成的提示文本的特征向量与待检测图像相关，例如待检测图像中的待检测的目标对象相关，将生成的提示文本的特征向量与待检测图像的特征向量相结合，用于对待检测图像进行目标检测，使得目标检测模型能够理解文本语义信息，提高目标检测模型的泛化能力。

步骤202，对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量。

在一些实施例中，获取待检测图像后，可以通过图片编码器对待检测图像进行特征提取，得到待检测图像的特征向量。图片编码器可以为ResNet50，也可以为AmoebaNet。对待检测图像的特征向量进行全局池化处理，使得待检测图像的特征向量降维，得到待检测图像的全局特征向量，并使得到的全局特征向量可以为预设维度的特征矩阵，全局池化处理可以为全局平均池化处理也可以为全局最大池化处理。对待检测图像进行特征提取可以提取到图像的特征信息，并将待检测图像的特征向量处理得到待检测图像的全局特征向量，提取出待检测图像的关键信息，并且在全局池化处理的过程中，使得待检测图像的特征向量的维度降低，减少后续计算的计算量，降低待检测模型的复杂度，防止目标检测模型过拟合，同时可以减小输入待检测图像的空间尺寸，使得模型对于待检测图像的大小、位置等变化不敏感，从而提高目标检测模型的鲁棒性。

在一些实施例中，对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理。例如，通过转换器模型Transformer的交叉注意力机制学习待检测图像和提示文本之间的关联关系，将待检测图像的全局特征向量作为查询，提示文本的特征向量作为键和值，首先将待检测图像的全局特征向量与提示文本的特征向量相乘进行相似度计算，得到权值，再将得到的权值进行归一化处理，得到相应的权重，再将权重与提示文本的特征向量进行加权求和，自适应地将语义信息从文本特征传递到视觉特征，得到视觉提示特征向量，上述提示特征向量包含了待检测图像的特征和提示文本的特征。上述视觉提示特征在后续处理过程可以被用于指导目标检测模型进行目标检测任务，从而提高了目标检测模型的性能和准确率。

步骤203，对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量。

在一些实施例中，可以对视觉提示特征向量和待检测图像的全局特征向量分别进行归一化处理，得到视觉提示特征向量的归一化结果和待检测图像的全局特征向量的归一化结果，并将视觉提示特征向量的归一化结果和待检测图像的全局特征向量的归一化结果进行相加，得到待检测图像的局部特征增强向量，可以使得目标检测模型能够将跨模态的特征信息进行融合，增强目标检测模型对于待检测图像中目标对象的感知能力，增强重要特征从而提高目标检测模型的稳定性和泛化能力，提高目标检测的准确率。

步骤204，对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量。

在一些实施例中，可以将待检测图像的局部特征增强向量与提示文本的特征向量相乘得到相似度特征向量，再通过Sigmoid函数将相似度特征向量进行非线性变化，得到提示文本与待检测图像的匹配特征向量，融合待检测图像的局部特征增强向量与提示文本的特征向量之间的信息，增强两者之间共同出现的特征并减弱不重要的特征。还可以通过交叉注意力机制，将待检测图像的局部特征增强向量作为查询，将提示文本的特征向量作为键和值，通过计算查询与键之间的权值，基于权值与值进行加权求和，得到提示文本与待检测图像的匹配特征向量，确认待检测图像中与提示文本最相关的目标对象。

步骤205，将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量。

在一些实施例中，将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量进行相加，计算得到待检测图像的融合特征向量，在此过程中，可以强调提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量之间的共同特征，增强重要特征并减弱噪音，并将所得待检测图像的融合特征向量应用于目标检测模型，有助于提高模型的稳定性和泛化能力。

步骤206，基于待检测图像的融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

在一些实施例中，将待检测图像的融合特征向量输入目标检测模型的检测头中，从待检测图像中定位目标对象的位置和确定目标对象的类别。具体地，将一张包含目标对象A的图像输入目标检测网络，该图像上还可以包含其他对象B，目标对象A的类别可以为上述目标检测模型训练集中不存在的训练对象类别，基于输入的提示词“A”生成相关的提示文本，基于提示文本与待检测图像，最后输出目标检测模型的为一张经过处理的图像，图像中的目标对象A被检测框环绕，并对检测框左上角与右下角的位置进行标注，即定位目标对象在待检测图像的位置，并对目标对象进行分类，得到目标对象的类别结果，例如，目标对象A可以为“猫”，其他对象B可以为“狗”。

在一些实施例中，在获取待检测图像后，根据目标检测任务与待检测图像执行文本生成任务生成提示文本的特征向量，得到的提示文本的特征向量与待检测图像中的目标对象相关。学习提示文本的特征向量和待检测图像的全局特征向量之间的关联关系，再结合待检测图像的全局特征向量，得到待检测图像的局部特征增强向量。并将待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到的特征向量即提示文本与待检测图像的匹配特征向量。并将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量进行叠加进行融合处理，实现特征增强，得到待检测图像的融合特征向量。最后将待检测图像的融合特征向量输入目标检测模块的检测头，基于输入检测头中的待检测图像的融合特征向量进行分类和定位，从待检测图像的至少一个待检测对象中确定目标对象的位置和目标对象的类别，最后从目标检测模型输出的为一张带有目标检测框的图像，位于目标检测框中对象的为目标对象，目标对象在待检测图像的位置即目标对象的目标检测框在待检测图像的位置。上述目标检测模型具备文本生成模块并能理解文本的语义信息，可以结合文本信息对多类对象进行目标检测，即使该类对象未在训练上述模型的训练集中出现过，解决了现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题，提高了模型的泛化能力。

在一些实施例中，执行提示文本生成任务，生成提示文本的特征向量，包括：基于输入的提示词进行词嵌入处理，得到第一提示文本的初步特征向量；将第一提示文本的初步特征向量与预先训练得到的参数相乘，得到第一提示文本的特征向量；将待检测图像的全局特征向量输入文本提示生成器进行文本提示生成，得到第二提示文本的特征向量，文本提示生成器包含两个转换器模型和激活函数；根据第一提示文本的特征向量和第二提示文本的特征向量，确定提示文本的特征向量。

在一些实施例中，基于输入的提示词与待检测图像可得到提示文本的特征向量。基于一目标检测任务，可得到一输入的提示词，根据提示词与预设的提示语可得到第一提示文本，再将第一提示文本进行词嵌入处理，可以得到第一提示文本的初步特征向量。例如，基于一张包括目标对象A的待检测图像与对猫进行目标检测的任务，目标对象A可以为“猫”，输入的提示词为“cat”，关于待检测图像的描述可以为“A Photo Of A Cat”，可以通过WordEmbbing（·）对“A Photo Of A Cat”进行词嵌入处理，得到相应的第一提示文本的初步特征向量。通过目标检测模型中执行文本生成任务的过程中，存在预先训练完成的数个参数，将参数与第一提示文本的初步特征向量相乘，得到第一提示文本的特征向量。

在一些实施例中，执行文本生成任务的过程中还需要利用目标检测模型中的文本提示生成器基于待检测图像的全局特征向量进行文本生成，得到第二提示文本的特征向量，第二提示文本可以是用于描述待检测图像的文本，文本提示生成器可以包含两个归一化的transformer和一个设置于两个归一化的transformer之间的ReLU激活函数。最后根据第一提示文本的特征向量和第二提示文本的特征向量，确定提示文本的特征向量，在上述过程中，使得目标检测模型能够理解文本的语义信息，帮助目标检测模型更好地理解图像，有助于目标检测模型进行多类别对象的目标检测，增强目标检测模型的能力，提高检测精度和鲁棒性。

在一些实施例中，根据第一提示文本的特征向量和第二提示文本的特征向量，确定提示文本的特征向量，包括：对第一提示文本的特征向量和第二提示文本的特征向量进行拼接处理，得到提示文本的初步特征向量；通过文本编码器对提示文本的初步特征向量进行编码处理，得到提示文本的编码结果；对提示文本的编码结果进行归一化处理，得到提示文本的特征向量。

在一些实施例中，将第一提示文本的特征向量和第二提示文本的特征向量进行拼接，得到提示文本的初步特征向量，将第一提示文本的特征向量和第二提示文本的特征向量全部整合在一起，丰富提示文本的信息。并将提示文本的初步特征向量输入目标检测模型的文本编码器，得到提示文本的编码结果，在此过程中，文本编码器模型可以为对比－语言预训练模型（Contrastive Language-Image Pre-Training，CLIP），也可以为双向编码器模型（Bidirectional Encoder Representation from Transformers，BERT）。在文本编码过程中，可以将提示文本的初步特征向量进行标准化处理，将提示文本的初步特征向量转化为具有语义特征的编码结果，有助于目标检测模型理解提示文本的特征向量的含义。对提示文本的编码结果进行归一化处理，得到提示文本的特征向量，将提示文本的编码结果映射到一个较小的范围（如0到1之间），对提示文本的编码结果标准化处理，可以使得后续计算更加稳定，防止过大的数值影响最终的目标检测结果。

在一些实施例中，目标检测模型可以包括图片编码器301、全局池化处理模块302、文本生成模块303、文本编码器304、归一化处理模块305、注意力处理模块306、第一融合处理模块307、匹配处理模块308、第二融合处理模块309、检测头310，其结构如图3所示，将待检测图像输入图片编码器301进行特征提取，得到待检测图像的特征向量输入全局池化处理模块302进行全局池化处理，对待检测图像的特征向量进行降维，得到待检测图像的全局特征向量。通过文本生成模块303将输入的提示词进行词嵌入处理，得到第一提示文本的初步特征向量，再将第一提示文本的初步特征向量与预先训练得到的参数相乘，得到第一提示文本的特征向量，并将待检测图像的全局特征向量输入文本生成模块303进行文本提示生成得到第二提示文本的特征向量，将第一提示文本的特征向量和第二提示文本的特征向量进行拼接处理，得到文本生成模块303的输出提示文本的初步特征向量。将提示文本的初步特征向量输入文本编码器304进行编码处理，得到提示文本的编码结果，并将提示文本的编码结果输入归一化处理模块305，得到提示文本的特征向量。将待检测图像的全局特征向量与提示文本的特征向量输入注意力处理模块306进行交叉注意力处理，得到视觉提示特征向量。将视觉提示特征向量与待检测图像的全局特征向量输入第一融合处理模块307进行融合处理，得到待检测图像的局部特征增强向量，并将待检测图像的局部特征增强向量与提示文本的特征向量输入匹配处理模块308进行匹配处理，得到提示文本与待检测图像的匹配特征向量。将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量输入第二融合处理模块309进行融合处理，输出得到待检测图像的融合特征向量。最后将待检测图像的融合特征向量输入检测头310对待检测图像中的目标对象进行定位和类别确认，得到目标对象的位置和目标对象的类别。上述步骤为该目标模型的使用过程。

在一些实施例中，执行提示文本生成任务，生成提示文本的特征向量之前，包括：获取目标检测训练集和预设提示词集合，目标检测训练集包括多张训练图像和训练图像中训练对象的标签，多张训练图像中可以包含不同类别的训练对象，标签为用于指示训练对象在训练图像中的真实检测框的位置和训练对象的类别，预设提示词集合中的各个预设提示词与对应的训练图像中的训练对象相关联；将各个训练图像和各个训练图像对应的预设提示词输入至目标检测模型，基于各个训练图像和各个训练图像对应的预设提示词执行文本生成任务，确定各个训练图像的提示文本的特征向量；基于各个训练图像的提示文本的特征向量和各个训练图像，确定各个训练图像的局部特征增强向量；基于各个训练图像，确定各个训练图像的语义特征向量；基于各个训练图像的提示文本的特征向量和各个训练图像的局部特征增强向量，确定各个训练图像与训练图像的提示文本的匹配特征向量；基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量，确定各个训练图像对应的融合特征向量；基于各个训练图像对应的融合特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到检测损失函数对应的各个检测损失值；基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到图文匹配损失函数对应的各个图文匹配损失值；基于各个训练图像的语义特征向量各个训练图像的局部特征增强向量，得到蒸馏损失函数对应的各个蒸馏损失值；基于各个检测损失值、各个图文匹配损失值以及各个蒸馏损失值，确定各个目标损失值，并根据各个所目标损失值更新目标检测模型的参数；在目标损失值小于或等于预设值的情况下，得到训练完成的目标检测模型。

在一些实施例中，上述为目标检测模型的训练过程，利用目标检测训练集和预设提示词集合对待训练的目标检测模型进行训练，目标检测训练集可以包括多张训练图像和多张训练图像中训练对象的标签，多张训练图像中包含不同类别的训练对象，标签可以用于指示训练对象在训练图像中的真实检测框的位置和训练对象的类别，在训练图像上包含训练对象和其他对象，训练对象多种类别，在整个训练集中包括多种训练对象，并且在一张训练图像上可能存在多种训练对象，标签为用于指代训练对象在训练图像中的真实检测框的位置，标签用于指代训练对象的类别。得到目标检测训练集后，需要对目标检测训练集进行标注，得到设提示词集合，预设提示词集合中的各个预设提示词与对应的训练图像中的训练对象相关联，例如，一张训练图像上包括训练对象A，该训练图像上还可以包括其他对象B，对应的训练对象A的预设提示词则为“A”，训练对象A可以为类别“猫”。目标检测模型的训练过程如下所示：

在一些实施例中，将各个训练图像输入目标检测模型进行特征提取，得到各个训练图像的特征向量后再进行全局池化处理，得到各个训练图像的全局池化特征向量；将各个训练图像对应的预设提示词与各个训练图像的全局池化特征向量输入文本生成模块进行文本生成，得到各个训练图像的提示文本的初步特征向量，再将各个训练图像的提示文本的初步特征向量进行编码处理，得到各个训练图像的提示文本的编码结果，再对各个训练图像的提示文本的编码结果进行归一化处理，得到各个训练图像的提示文本的特征向量。基于各个训练图像的提示文本的特征向量和各个训练图像的全局池化特征向量，得到各个训练图像的局部特征增强向量。根据各个训练图像的特征向量，经过相应处理后，得到各个训练图像的语义特征向量。对各个训练图像的提示文本的特征向量和各个训练图像的局部特征增强向量进行匹配处理，得到各个训练图像与训练图像的提示文本的匹配特征向量。根据各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量，确定各个训练图像对应的融合特征向量。目标检测模型的训练主要基于目标损失值，根据训练过程中得到的目标损失值进行反向传播更新目标检测模型的参数。在目标损失值小于或等于预设值的情况下，得到训练完成的目标检测模型。预设值可根据具体要求进行设置，本公开不作限制。

在一些实施例中，基于各个检测损失值L_det、各个图文匹配损失值L_aux以及各个蒸馏损失值L_ditillate，确定各个目标损失值L_total，计算公式如下所示：，β和/>均为可训练的参数。基于各个训练图像对应的融合特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到检测损失函数对应的各个检测损失值L_det，并通过训练过程，尽量最小化各个训练图像对应的融合特征向量和各个训练图像中训练对象对应的真实检测框的特征向量之间的距离即检测损失值L_det。基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到图文匹配损失函数对应的各个图文匹配损失值L_aux，图文匹配损失函数可以设置为二元交叉熵损失函数，并通过训练过程，最小化图文匹配损失值L_aux。基于各个训练图像的语义特征向量各个训练图像的局部特征增强向量，将各个训练图像的语义特征向量蒸馏到各个训练图像的局部特征增强向量中，使得各个训练图像的局部特征增强向量尽可能地接近各个训练图像的语义特征向量，最小化各个训练图像的语义特征向量与各个训练图像的局部特征增强向量之间的距离，计算各个训练图像的语义特征向量与各个训练图像的局部特征增强向量之间的损失即蒸馏损失函数对应的各个蒸馏损失值L_ditillate，蒸馏损失函数可以采用L1损失函数。

在一些实施例中，基于各个训练图像，确定各个训练图像的语义特征向量，包括：将各个训练图像输入图片编码器进行特征提取，得到各个训练图像的特征向量；对各个训练图像的特征向量进行候选框提取，得到各个训练图像的候选框；将各个训练图像的候选框输入对比－语言预训练模型进行语义特征提取，得到各个训练图像的语义特征向量。

在一些实施例中，图片编码器可以为ResNet50，也可以为AmoebaNet。得到各个训练图像的特征向量后，通过Faster-RCNN模型中的区域候选框网络对各个训练图像的特征向量进行候选框提取，得到各个训练图像的候选框。Faster-RCNN模型主要包含三个部分：特征提取网络、区域候选框网络和RoI Pooling层。区域候选框网络用于从特征提取网络输出的特征图中通过滑动小窗口在特征图上进行操作，得到候选框，而RoI Pooling层将每个输入候选框映射到一个固定大小的特征图上，并将该区域内的特征进行池化操作，从而得到一个固定大小的区域候选框特征图。这个区域候选框特征图将作为后续分类和回归任务的输入。CLIP模型包含两个主要组成部分：一部分为用于处理图像的卷积神经网络，另一部分为用于处理文本的Transformer模型。通过上述卷积神经网络和Transformer模型能够将输入的信息映射到相同的嵌入空间中，并使得相似的图像和文本在嵌入空间中的距离更近。

获取各个训练图像的候选框后，将各个训练图像的候选框输入对比－语言预训练模型进行语义特征提取，将输入的候选框转化为准确的具有丰富的语义信息的特征向量，即各个训练图像的语义特征向量，各个训练图像的语义特征向量可以表达训练图像中的关键语义信息，可以是训练对象的类别等等。并在训练目标检测模型的过程中，使得各个训练图像的局部特征增强向量尽可能地接近各个训练图像的语义特征向量，最小化各个训练图像的语义特征向量与各个训练图像的局部特征增强向量之间的距离，有助于目标检测模型更好地理解图像的内容，提高目标检测模型的性能。

在一些实施例中，基于各个训练图像的提示文本的特征向量和各个训练图像，确定各个训练图像的局部特征增强向量，包括：对各个训练图像进行特征提取，得到各个训练图像的特征向量；对各个训练图像的特征向量进行降维处理，得到各个训练图像的全局特征向量；对各个训练图像的全局特征向量和各个训练图像的提示文本的特征向量进行注意力处理，得到各个训练图像的视觉提示特征向量；对各个训练图像的视觉提示特征向量和各个训练图像的全局特征向量进行融合处理，得到各个训练图像的局部特征增强向量。

在一些实施例中，通过图片编码器对各个训练图像进行特征提取，得到各个训练图像的特征向量，对各个训练图像的特征向量进行全局池化处理，全局池化处理可以为平均池化处理也可以为最大池化处理，对各个训练图像的特征向量进行降维，得到各个训练图像的全局特征向量，减少后续计算的计算量，降低待检测模型的复杂度，防止目标检测模型过拟合。对各个训练图像的全局特征向量和各个训练图像的提示文本的特征向量进行注意力处理，通过交叉注意力机制学习各个训练图像和各个训练图像的提示文本之间的关联关系，各个训练图像的全局特征向量作为查询，各个训练图像的提示文本的特征向量作为键和值，计算得到各个训练图像的视觉提示特征向量，自适应地将语义信息从文本特征传递到视觉特征中。对各个训练图像的视觉提示特征向量和各个训练图像的全局特征向量分别进行归一化处理，得到相对应的归一化结果，再将对应的归一化结果进行相加，得到各个训练图像的局部特征增强向量，增强目标检测模型对于训练图像中训练对象的感知能力。

在一些实施例中，基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量，确定各个训练图像对应的融合特征向量，包括：将各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量进行融合处理，得到各个训练图像对应的融合特征向量。

在一些实施例中，将各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量进行相加，在此过程中，强调各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量之间的共有特征，增强重要特征，得到各个训练图像对应的融合特征向量，有助于提高目标检测模型的稳定性和泛化能力。

在一些实施例中，在训练上述目标检测模型时，该目标检测模型还可以包括候选框提取模块401、对比－语言预训练模型402、知识蒸馏模块403，结构如图4所示。将各个训练图像输入图片编码器301进行特征提取，得到各个训练图像的特征向量，将各个训练图像的特征向量输入全局池化处理模块302进行降维处理，得到各个训练图像的全局特征向量；将各个训练图像对应的预设提示词与各个训练图像的全局特征向量输入文本生成模块303进行文本生成，得到各个训练图像的提示文本的特征向量；将各个训练图像的提示文本的特征向量输入至文本编码器304进行编码处理，得到各个训练图像的提示文本的编码结果；将各个训练图像的提示文本的编码结果输入至归一化处理模块305进行归一化处理，得到各个训练图像的提示文本的特征向量；将各个训练图像的提示文本的特征向量与各个训练图像的全局特征向量输入至注意力处理模块306进行交叉注意力处理，得到各个训练图像的视觉提示特征向量；将各个训练图像的视觉提示特征向量与各个训练图像的全局特征向量输入至第一融合处理模块307进行融合处理，得到各个训练图像的局部特征增强向量；将各个训练图像的局部特征增强向量与各个训练图像的提示文本的特征向量输入至匹配处理模块308进行匹配处理，得到各个训练图像与训练图像的提示文本的匹配特征向量；基于二元交叉熵损失函数计算各个训练图像与训练图像的提示文本的匹配特征向量与各个训练图像中训练对象对应的真实检测框的特征向量之间的各个图文匹配损失值；将各个训练图像与训练图像的提示文本的匹配特征向量与各个训练图像的局部特征增强向量输入第二融合处理模块309进行融合处理，得到各个训练图像的融合特征向量；基于检测损失函数计算各个训练图像的融合特征向量与各个训练图像中训练对象对应的真实检测框的特征向量之间的各个检测损失值/>；将各个训练图像的特征向量输入候选框提取模块401进行候选框提取，得到各个训练图像的候选框；再将各个训练图像的候选框输入至对比－语言预训练模型402进行语义特征提取，得到各个训练图像的语义特征向量；将各个训练图像的语义特征向量各个训练图像的局部特征增强向量输入至知识蒸馏模块403，将各个训练图像的语义特征向量蒸馏到各个训练图像的局部特征增强向量中，使得各个训练图像的局部特征增强向量尽可能地接近各个训练图像的语义特征向量，减少各个训练图像的语义特征向量与各个训练图像的局部特征增强向量之间的距离，计算各个训练图像的语义特征向量与各个训练图像的局部特征增强向量之间的损失即蒸馏损失函数对应的各个蒸馏损失值L_ditillate，蒸馏损失函数可以采用L1损失函数。基于各个检测损失值/>、各个图文匹配损失值/>以及各个蒸馏损失值L_ditillate，确定各个目标损失值L_total，并根据各个目标损失值L_total更新目标检测模型的参数；在目标损失值小于或等于预设值的情况下，得到训练完成的目标检测模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种装置的示意图。如图5所示，该目标检测装置包括：

文本生成模块501，用于执行提示文本生成任务，生成提示文本的特征向量，提示文本的特征向量与待检测图像相关；

注意力处理模块502，用于对提示文本的特征向量和待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；

第一融合模块503，用于对视觉提示特征向量和待检测图像的全局特征向量进行融合处理，得到待检测图像的局部特征增强向量；

匹配模块504，用于对待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到提示文本与待检测图像的匹配特征向量；

第二融合模块505，用于将提示文本与待检测图像的匹配特征向量和待检测图像的局部特征增强向量进行融合处理，得到待检测图像的融合特征向量；

检测模块506，用于基于待检测图像的融合特征向量，从待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和目标对象的类别。

根据本公开实施例提供的技术方案，在获取待检测图像后，文本生成模块501根据目标检测任务与待检测图像执行文本生成任务生成提示文本的特征向量，得到的提示文本的特征向量与待检测图像中的目标对象相关。注意力处理模块502学习提示文本的特征向量和待检测图像的全局特征向量之间的关联关系，第一融合模块503再结合待检测图像的全局特征向量，得到待检测图像的局部特征增强向量。匹配模块504并将待检测图像的局部特征增强向量和提示文本的特征向量进行匹配处理，得到的特征向量即提示文本与待检测图像的匹配特征向量。第二融合模块505并将提示文本与待检测图像的匹配特征向量与待检测图像的局部特征增强向量进行叠加进行融合处理，实现特征增强，得到待检测图像的融合特征向量。检测模块506最后将待检测图像的融合特征向量输入目标检测模块的检测头，基于输入检测头中的待检测图像的融合特征向量进行分类和定位，从待检测图像的至少一个待检测对象中确定目标对象的位置和目标对象的类别，最后从目标检测模型输出的为一张带有目标检测框的图像，位于目标检测框中对象的为目标对象，目标对象在待检测图像的位置即目标对象的目标检测框在待检测图像的位置。上述目标检测模型具备文本生成模块并能理解文本的语义信息，可以结合文本信息对多类对象进行目标检测，即使该类对象未在训练上述模型的训练集中出现过，解决了现有技术中目标检测模型不能对训练集中未出现的类别进行通用检测，若要使该目标检测模型能够对一个新类别的目标进行检测需要重新训练该模型的问题，提高了模型的泛化能力。

在一些实施例中，文本生成模块501被配置为：基于输入的提示词进行词嵌入处理，得到第一提示文本的初步特征向量；将第一提示文本的初步特征向量与预先训练得到的参数相乘，得到第一提示文本的特征向量；将待检测图像的全局特征向量输入文本提示生成器进行文本提示生成，得到第二提示文本的特征向量，文本提示生成器包含两个转换器模型和激活函数；根据第一提示文本的特征向量和第二提示文本的特征向量，确定提示文本的特征向量。

在一些实施例中，文本生成模块501被配置为：执行提示文本生成任务，生成提示文本的特征向量，包括对第一提示文本的特征向量和第二提示文本的特征向量进行拼接处理，得到提示文本的初步特征向量；通过文本编码器对提示文本的初步特征向量进行编码处理，得到提示文本的编码结果；对提示文本的编码结果进行归一化处理，得到提示文本的特征向量。

在一些实施例中，目标检测装置还可以用于：根据第一提示文本的特征向量和第二提示文本的特征向量，确定提示文本的特征向量，包括执行提示文本生成任务，生成提示文本的特征向量之前，获取目标检测训练集和预设提示词集合，目标检测训练集包括多张训练图像和训练图像中训练对象的标签，多张训练图像中可以包含不同类别的训练对象，标签为用于指示训练对象在训练图像中的真实检测框的位置和训练对象的类别，预设提示词集合中的各个预设提示词与对应的训练图像中的训练对象相关联；将各个训练图像和各个训练图像对应的预设提示词输入至目标检测模型，基于各个训练图像和各个训练图像对应的预设提示词执行文本生成任务，确定各个训练图像的提示文本的特征向量；基于各个训练图像的提示文本的特征向量和各个训练图像，确定各个训练图像的局部特征增强向量；基于各个训练图像，确定各个训练图像的语义特征向量；基于各个训练图像的提示文本的特征向量和各个训练图像的局部特征增强向量，确定各个训练图像与训练图像的提示文本的匹配特征向量；基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量，确定各个训练图像对应的融合特征向量；基于各个训练图像对应的融合特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到检测损失函数对应的各个检测损失值；基于各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像中训练对象对应的真实检测框的特征向量，得到图文匹配损失函数对应的各个图文匹配损失值；基于各个训练图像的语义特征向量各个训练图像的局部特征增强向量，得到蒸馏损失函数对应的各个蒸馏损失值；基于各个检测损失值、各个图文匹配损失值以及各个蒸馏损失值，确定各个目标损失值，并根据各个所目标损失值更新目标检测模型的参数；在目标损失值小于或等于预设值的情况下，得到训练完成的目标检测模型。

在一些实施例中目标检测装置被配置为：将各个训练图像输入图片编码器进行特征提取，得到各个训练图像的特征向量；对各个训练图像的特征向量进行候选框提取，得到各个训练图像的候选框；将各个训练图像的候选框输入对比－语言预训练模型进行语义特征提取，得到各个训练图像的语义特征向量。

在一些实施例中，目标检测装置被配置为：对各个训练图像进行特征提取，得到各个训练图像的特征向量；对各个训练图像的特征向量进行降维处理，得到各个训练图像的全局特征向量；对各个训练图像的全局特征向量和各个训练图像的提示文本的特征向量进行注意力处理，得到各个训练图像的视觉提示特征向量；对各个训练图像的视觉提示特征向量和各个训练图像的全局特征向量进行融合处理，得到各个训练图像的局部特征增强向量。

在一些实施例中，目标检测装置被配置：为将各个训练图像与训练图像的提示文本的匹配特征向量和各个训练图像的局部特征增强向量进行融合处理，得到各个训练图像对应的融合特征向量。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图6是本公开实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质（例如计算机可读存储介质）中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种目标检测的方法，其特征在于，包括：

执行提示文本生成任务，生成提示文本的特征向量，所述提示文本的特征向量与待检测图像相关；

对所述提示文本的特征向量和所述待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；

对所述视觉提示特征向量和所述待检测图像的全局特征向量进行融合处理，得到所述待检测图像的局部特征增强向量；

对所述待检测图像的局部特征增强向量和所述提示文本的特征向量进行匹配处理，得到所述提示文本与所述待检测图像的匹配特征向量；

将所述提示文本与所述待检测图像的匹配特征向量和所述待检测图像的局部特征增强向量进行融合处理，得到所述待检测图像的融合特征向量；

基于所述待检测图像的融合特征向量，从所述待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和所述目标对象的类别；

所述执行提示文本生成任务，生成提示文本的特征向量，包括：

基于输入的提示词进行词嵌入处理，得到第一提示文本的初步特征向量；

将第一提示文本的初步特征向量与预先训练得到的参数相乘，得到第一提示文本的特征向量；

将所述待检测图像的全局特征向量输入文本提示生成器进行文本提示生成，得到第二提示文本的特征向量，所述文本提示生成器包含两个转换器模型和激活函数；

根据所述第一提示文本的特征向量和所述第二提示文本的特征向量，确定所述提示文本的特征向量；

所述根据所述第一提示文本的特征向量和所述第二提示文本的特征向量，确定所述提示文本的特征向量，包括：

对所述第一提示文本的特征向量和所述第二提示文本的特征向量进行拼接处理，得到所述提示文本的初步特征向量；

通过文本编码器对所述提示文本的初步特征向量进行编码处理，得到所述提示文本的编码结果；

对所述提示文本的编码结果进行归一化处理，得到所述提示文本的特征向量。

2.根据权利要求1所述的方法，其特征在于，所述执行提示文本生成任务，生成提示文本的特征向量之前，所述方法还包括：

获取目标检测训练集和预设提示词集合，所述目标检测训练集包括多张训练图像和多张所述训练图像中训练对象的标签，多张所述训练图像中可以包含不同类别的训练对象，所述标签为用于指示所述训练对象在所述训练图像中的真实检测框的位置和所述训练对象的类别，所述预设提示词集合中的各个预设提示词与对应的所述训练图像中的所述训练对象相关联；

将各个所述训练图像和各个所述训练图像对应的预设提示词输入至目标检测模型，基于各个所述训练图像和各个所述训练图像对应的预设提示词执行文本生成任务，确定各个所述训练图像的提示文本的特征向量；

基于各个所述训练图像的提示文本的特征向量和各个所述训练图像，确定各个所述训练图像的局部特征增强向量；

基于各个所述训练图像，确定各个所述训练图像的语义特征向量；

基于各个所述训练图像的提示文本的特征向量和各个所述训练图像的局部特征增强向量，确定各个所述训练图像与所述训练图像的提示文本的匹配特征向量；

基于各个所述训练图像与所述训练图像的提示文本的匹配特征向量和各个所述训练图像的局部特征增强向量，确定各个所述训练图像对应的融合特征向量；

基于各个所述训练图像对应的融合特征向量和各个所述训练图像中训练对象对应的真实检测框的特征向量，得到检测损失函数对应的各个检测损失值；

基于各个所述训练图像与所述训练图像的提示文本的匹配特征向量和各个所述训练图像中训练对象对应的真实检测框的特征向量，得到图文匹配损失函数对应的各个图文匹配损失值；

基于各个所述训练图像的语义特征向量各个所述训练图像的局部特征增强向量，得到蒸馏损失函数对应的各个蒸馏损失值；

基于各个所述检测损失值、各个所述图文匹配损失值以及各个所述蒸馏损失值，确定各个目标损失值，并根据各个所述目标损失值更新所述目标检测模型的参数；

在所述目标损失值小于或等于预设值的情况下，得到训练完成的目标检测模型。

3.根据权利要求2所述的方法，其特征在于，所述基于各个所述训练图像，确定各个所述训练图像的语义特征向量，包括：

将各个所述训练图像输入图片编码器进行特征提取，得到各个所述训练图像的特征向量；

对各个所述训练图像的特征向量进行候选框提取，得到各个所述训练图像的候选框；

将各个所述训练图像的候选框输入对比－语言预训练模型进行语义特征提取，得到各个所述训练图像的语义特征向量。

4.根据权利要求2所述的方法，其特征在于，所述基于各个所述训练图像的提示文本的特征向量和各个所述训练图像，确定各个所述训练图像的局部特征增强向量，包括：

对各个所述训练图像进行特征提取，得到各个所述训练图像的特征向量；

对各个所述训练图像的特征向量进行降维处理，得到各个所述训练图像的全局特征向量；

对各个所述训练图像的全局特征向量和各个所述训练图像的提示文本的特征向量进行注意力处理，得到各个所述训练图像的视觉提示特征向量；

对各个所述训练图像的视觉提示特征向量和各个所述训练图像的全局特征向量进行融合处理，得到各个所述训练图像的局部特征增强向量。

5.根据权利要求4所述的方法，所述基于各个所述训练图像与所述训练图像的提示文本的匹配特征向量和各个所述训练图像的局部特征增强向量，确定各个所述训练图像对应的融合特征向量，包括：

将各个所述训练图像与所述训练图像的提示文本的匹配特征向量和各个所述训练图像的局部特征增强向量进行融合处理，得到各个所述训练图像对应的融合特征向量。

6.一种目标检测装置，用于实现权利要求1至5任一项所述的方法，其特征在于，包括：

文本生成模块，用于执行提示文本生成任务，生成提示文本的特征向量，所述提示文本的特征向量与待检测图像相关；

注意力处理模块，用于对所述提示文本的特征向量和所述待检测图像的全局特征向量进行注意力处理，得到视觉提示特征向量；

第一融合模块，用于对所述视觉提示特征向量和所述待检测图像的全局特征向量进行融合处理，得到所述待检测图像的局部特征增强向量；

匹配模块，用于对所述待检测图像的局部特征增强向量和所述提示文本的特征向量进行匹配处理，得到所述提示文本与所述待检测图像的匹配特征向量；

第二融合模块，用于将所述提示文本与所述待检测图像的匹配特征向量和所述待检测图像的局部特征增强向量进行融合处理，得到所述待检测图像的融合特征向量；

检测模块，用于基于所述待检测图像的融合特征向量，从所述待检测图像的至少一个待检测对象中确定目标对象的检测框的位置和所述目标对象的类别。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述方法的步骤。

8.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述方法的步骤。