CN116664604A

CN116664604A - 图像的处理方法及装置、存储介质及电子设备

Info

Publication number: CN116664604A
Application number: CN202310951714.XA
Authority: CN
Inventors: 晁银银; 梁玲燕; 董刚; 赵雅倩
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-08-29
Anticipated expiration: 2043-07-31
Also published as: CN116664604B

Abstract

本申请实施例提供了一种图像的处理方法及装置、存储介质及电子设备，该图像的处理方法包括：获取与待检测图像对应的背景文本特征，以及目标图像特征，背景文本特征与待检测图像中的图像背景的描述信息对应，目标图像特征从待检测图像中提取出；根据背景文本特征和目标图像特征，生成与待检测图像对应的目标背景掩膜；使用目标背景掩膜删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像；根据目标滤波器对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框，目标滤波器为根据描述目标对象的信息生成的滤波器，目标检测框用于对待检测图像之后的图像进行目标追踪。

Description

图像的处理方法及装置、存储介质及电子设备

技术领域

本申请实施例涉及计算机领域，具体而言，涉及一种图像的处理方法及装置、存储介质及电子设备。

背景技术

目前，超大场景高分辨率相机在近几年来发展较快，在遥感、医学、安防领域都有重要应用。特别是在安防领域，由于可以整合全视角的全局信息对于提升目标追踪的性能具有重要意义。

然而，由于超大场景高分辨率相机的拍摄范围较广，相比普通相机，超大场景高分辨率相机拍摄到的图像中，物体数目更多，对图像处理的时间更长。由此可见，相关技术中的图像的处理方法，存在对于高分辨率图像的处理效率较低的问题。

发明内容

本申请实施例提供了一种图像的处理方法及装置、存储介质及电子设备，以至少解决相关技术中的图像的处理方法存在对于高分辨率图像的处理效率较低的问题。

根据本申请的一个实施例，提供了一种图像的处理方法，包括：获取与待检测图像对应的背景文本特征，以及获取与所述待检测图像对应的目标图像特征，其中，所述背景文本特征是与所述待检测图像中的图像背景的描述信息对应的文本特征，所述目标图像特征是从所述待检测图像中提取出的图像特征；根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜；使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，所述待检测图像的图像块是对所述待检测图像进行图像切分所得到的图像块；根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，其中，所述目标滤波器为根据描述所述目标对象的信息生成的滤波器，所述目标检测框用于对所述待检测图像之后的图像进行目标追踪。

根据本申请的又一个实施例，提供了一种图像的处理装置，包括：第一获取单元，用于获取与待检测图像对应的背景文本特征，以及获取与所述待检测图像对应的目标图像特征，其中，所述背景文本特征是与所述待检测图像中的图像背景的描述信息对应的文本特征，所述目标图像特征是从所述待检测图像中提取出的图像特征；生成单元，用于根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜；删除单元，用于使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，所述待检测图像的图像块是对所述待检测图像进行图像切分所得到的图像块；第一检测单元，用于根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，其中，所述目标滤波器为根据描述所述目标对象的信息生成的滤波器，所述目标检测框用于对所述待检测图像之后的图像进行目标追踪。

根据本申请的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请的又一个实施例，还提供了一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，采用根据待检测图像生成背景掩膜并利用背景掩膜对图像中无用的区域进行删除的方式，由于在对待检测图像进行目标检测前先根据背景掩膜对待检测图像进行区域删除，在保留与目标对象相关的区域的同时，可以有效去除待检测图像中无用的区域，达到了提高图像的处理效率的技术效果，进而解决了相关技术中的图像的处理方法存在对于高分辨率图像的处理效率较低的问题。

附图说明

图1是根据本申请实施例的一种图像的处理方法的硬件环境示意图；

图2是根据本申请实施例的一种图像的处理方法的流程图；

图3是根据本申请实施例的一种图像的处理方法的示意图；

图4是根据本申请实施例的另一种图像的处理方法的流程图；

图5是根据本申请实施例的一种图像的处理方法的示意图；

图6是根据本申请实施例的又一种图像的处理方法的流程图；

图7是根据本申请实施例的又一种图像的处理方法的流程图；

图8是根据本申请实施例的一种图像的处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请的实施例。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是根据本申请实施例的一种图像的处理方法的硬件环境示意图。如图1所示，计算机终端可以包括一个或多个（图1中仅示出一个）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）和用于存储数据的存储器104，其中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本申请实施例中的图像的处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

根据本申请实施例的一个方面，提供了一种图像的处理方法，以由计算机终端来执行本实施例中的图像的处理方法为例，图2是根据本申请实施例的一种图像的处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取与待检测图像对应的背景文本特征，以及获取与待检测图像对应的目标图像特征，其中，背景文本特征是与待检测图像中的图像背景的描述信息对应的文本特征，目标图像特征是从待检测图像中提取出的图像特征。

本实施例中的图像的处理方法可以应用到根据高分辨率视频图像进行目标追踪的场景中。高分辨率视频图像可以是超大场景高分辨率相机拍摄到的多帧图像。对于目标追踪而言，往往并不需要对图像中的所有的目标进行追踪，更具有实际应用的场景是指定特定对象，通过快速处理输入视频，将特定对象都标记出来。而高分辨率大视角场景中人物更多，更拥挤，更适用于搜索追踪特定对象。

然而，由于超大场景高分辨率相机的拍摄范围较广，相比普通相机，超大场景高分辨率相机拍摄到的图像中，物体数目更多，在搜索追踪特定对象时，对图像处理的时间更长。

为了至少解决部分上述问题，在本实施例中，对于待检测图像，可以先生成对应的背景掩膜，以去除图像中与目标无关的无用区域，再根据与目标对应的提示，在图像中进行目标追踪，从而实现缩短高分辨率图像的处理时间的目的。

在本实施例中，对于待检测图像，在生成背景掩膜时，可以先获取与待检测图像对应的背景文本特征，以及获取与待检测图像对应的目标图像特征。这里，背景文本特征可以是与待检测图像中的图像背景的描述信息对应的文本特征。目标图像特征可以是从待检测图像中提取出的图像特征。

上述图像背景可以是指在图像当中占取大片像素，但目标通常不会出现在此区域的图像区域，例如天空，高层建筑物等。上述图像背景的描述信息，可以是描述与视频或者图像对应的环境的词语，例如蓝天和高楼、天空和白云和超市、阴天和湖水等。上述目标图像特征可以是与待检测图像对应的图像特征。

可选地，考虑到高分辨率图像的像素一般上亿，为了缩短获取目标图像特征的处理时间，可以先将待检测图像的分辨率降低，再对缩小后的待检测图像进行目标图像特征的获取。

步骤S204，根据背景文本特征和目标图像特征，生成与待检测图像对应的目标背景掩膜。

根据获取到的背景文本特征和目标图像特征，可以生成与待检测图像对应的目标背景掩膜。这里，目标背景掩膜的生成可以是通过相关模型中的图像编码器完成的。

可选地，通过图像编码器直接得到的背景掩膜，可以是与待检测图像的背景对应的掩膜，即，1值区域为背景，0值区域为非背景。为了将背景掩膜用于删除待检测图像中的背景区域，可以对得到的背景掩膜进行取反操作，即0取反为1，1取反为0，从而得到可以用于删除图像背景的目标背景掩膜。

步骤S206，使用目标背景掩膜删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像，其中，待检测图像的图像块是对待检测图像进行图像切分所得到的图像块。

在获得目标背景掩膜之后，可以对待检测图像进行图像切分，以得到与待检测图像对应的图像块。将目标背景掩膜与切分好的待检测图像一一对应，通过使用目标背景掩膜，可以删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像。

上述仅包含背景信息的图像块，可以是指该图像块中的所有像素点在目标背景掩膜中均为0。上述删除图像块可以是指删除图像块。

步骤S208，根据目标滤波器，对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框，其中，目标滤波器为根据描述目标对象的信息生成的滤波器，目标检测框用于对待检测图像之后的图像进行目标追踪。

在基于目标背景掩膜删除部分图像块之后，可以对删除后的待检测图像进行目标对象检测。检测过程中，可以基于描述目标对象的信息，生成用于辅助识别目标对象的目标滤波器，根据目标滤波器对删除后的待检测图像进行目标对象的识别，并得到与目标对象对应的目标检测框。

如图3所示，利用视频首帧（进行目标对象检测的第一帧图像）和场景提示，可以生成背景掩膜（即，目标背景掩膜），结合目标提示（即，前述描述目标对象的信息），在经背景掩膜处理的图像中进行目标检测，并根据检测结果确定是否检测正确，在检测正确的情况下，进行目标匹配和追踪，在检测错误的情况下，重新根据目标提示进行目标检测。

需要说明的是，在检测错误的情况下，重新进行目标检测时，可以将识别错误的结果与目标提示结合，以避免再次检测为同一错误结果的对象类型，从而提高检测的准确性。

考虑到相机的前后帧图像之间的时间差较短，在待检测图像中检测到目标对象、且根据目标对象确定目标检测框的情况下，可以根据确定的目标检测框，确定在待检测图像的下一帧图像中、对目标对象的搜索范围，即，上述目标检测框可以用于对待检测图像之后的图像进行目标追踪所使用的检测框。

通过上述步骤，获取与待检测图像对应的背景文本特征，以及获取与所述待检测图像对应的目标图像特征，其中，所述背景文本特征是与所述待检测图像中的图像背景的描述信息对应的文本特征，所述目标图像特征是从所述待检测图像中提取出的图像特征；根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜；使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，所述待检测图像的图像块是对所述待检测图像进行图像切分所得到的图像块；根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，其中，所述目标滤波器为根据描述所述目标对象的信息生成的滤波器，所述目标检测框用于对所述待检测图像之后的图像进行目标追踪，可以解决相关技术中的图像的处理方法存在对于高分辨率图像的处理效率较低的问题，达到提高图像的处理效率的技术效果。

在一个示范性实施例中，获取与所述待检测图像对应的目标图像特征，包括：对所述待检测图像执行下采样操作，得到与所述待检测图像对应的下采样图像；将所述下采样图像输入到预训练模型的第一图像编码器，得到所述第一图像编码器输出的所述目标图像特征，其中，所述预训练模型是基于注意力机制的神经网络模型。

考虑从到待检测图像的像素较高，在获取与待检测图像对应的图像特征时，可以对待检测图像先执行下采样操作，以降低图像的分辨率，得到与待检测图像对应的下采样图像，再根据下采样图像得到图像特征。

上述下采样操作可以是将待检测图像的大小缩小到指定的大小，如，640*640。下采样可以是通过OpenCV（Open Source Computer Vision Library，一个跨平台的计算机视觉库）的resize（调整数组大小）函数或者其它常用手段实现的。

对于获取到的下采样图像，可以将下采样图像输入到预训练模型的图像编码器，得到图像编码器输出的目标图像特征。这里，预训练模型可以是基于注意力机制的神经网络模型，如，常用的MAE（Masked Auto Encoder，掩码自编码器）预训练的ViT（VisionTransformer，视觉转换器，即，将Transformer应用在图像分类）模型。

如图4所示，将输入图像（即，待检测图像）降采样（即，上述下采样）为640*640大小，再提取图像编码特征，采用图像编码器提取图像特征I_e∈R^C。

通过本实施例，对待检测图像先进行下采样操作，以降低图像分辨率，再提取图像特征，可以有效降低对待检测图像的处理时间，从而提高进行目标对象检测的效率。

在一个示范性实施例中，根据背景文本特征和目标图像特征，生成与待检测图像对应的目标背景掩膜，包括：根据背景文本特征生成查询向量，以及根据目标图像特征生成关键向量和赋值向量；将查询向量、关键向量和赋值向量输入到预训练模型的解码器中，得到解码器输出的交叉注意力特征；根据交叉注意力特征，确定与下采样图像中的每个像素点对应的背景置信度，其中，与每个像素点对应的背景置信度用于表示每个像素点属于图像背景的可能性；根据与每个像素点对的背景置信度，生成目标背景掩膜。

根据背景文本特征和目标图像特征生成目标背景掩膜的过程，可以是由预训练模型（如，Transformer模型）的解码器完成的。预训练模型的解码器可以由常用的crossattention（交叉注意力）层和layer norm（即Layer normalization，层归一化，即对输入数据进行归一化）层组成，层数可以为6。

由于在包含注意力机制的解码器中，一般以query向量表示当前需要关注的信息，以Key向量表示输入序列中每个元素的信息，以Value向量表示输入序列中每个元素的实际信息。在本实施例中，可以根据背景文本特征生成查询向量（即query向量），根据目标图像特征生成关键向量（即key向量）和赋值向量（即value向量）。

将查询向量、关键向量和赋值向量输入到预训练模型的解码器中，可以得到解码器输出的交叉注意力特征。例如，利用文本特征B_e生成query向量，利用图像特征I_e生成key和value向量，将query，key和value向量输入到transformer的解码器中，可以提取文本和图像的交叉注意力特征。

由于query向量是根据背景文本特征生成的，根据输出的交叉注意力特征，可以进一步确定与下采样图像中的每个像素点对应的背景置信度。与每个像素点对应的背景置信度可以用于表示每个像素点属于图像背景的可能性。

由于掩膜主要由0和1组成，根据与每个像素点对应的背景置信度，可以确定每个像素点的值，进而生成目标背景掩膜。

通过本实施例，以背景文本特征确定query向量，结合图像特征确定的key向量和value向量，生成与待检测图像对应的背景掩膜，可以提高背景掩膜与待检测图像的图像背景的关联度。

在一个示范性实施例中，根据交叉注意力特征，确定与下采样图像中的每个像素点对应的背景置信度，包括：将交叉注意力特征输入到预训练模型的预测头中，得到预测头输出的与每个像素点对应的背景置信度。

在根据交叉注意力特征确定背景置信度时，可以将交叉注意力特征输入到预训练模型的预测头中，得到预测头输出的与每个像素点对应的背景置信度。预测头可以由常用的全连接层构成，层数可以是3。

在一个示范性实施例中，根据与每个像素点对应的背景置信度，生成目标背景掩膜，包括：将对应的背景置信度大于或者等于置信度阈值的像素点，确定为属于图像背景的像素点，得到一组背景像素点；将一组背景像素点的值置为1，将下采样图像中除了一组背景像素点以外的其他像素点的值置为0，得到初始背景掩膜；对初始背景掩膜执行上采样操作，并对得到的上采样图像中的像素点执行取反操作，得到目标背景掩膜，其中，取反操作为将像素点的像素值由1转换为0、由0转换为1的操作。

在根据与每个像素点对应的背景置信度，生成目标背景掩膜时，可以将对应的背景置信度大于或者等于置信度阈值的像素点，确定为属于图像背景的像素点。这里，置信度阈值可以预先设定的阈值，可以为小于1的数值，如0.5。

在本实施例中，可以将确定出的一组背景像素点的值置为1，将下采样图像中除了一组背景像素点以外的其他像素点的值置为0，得到初始背景掩膜，并对初始背景掩膜执行上采样操作。

由于提取背景仅是为了去除冗余信息，上述上采样操作可以是简单的上采样操作，通过简单上采样，将初始背景掩膜的分辨率放大到原图的分辨率大小，从而得到粗略的背景信息。上采样操作可以是与前述下采样相同的方式，通过OpenCV的resize或者其它常用手段实现的。

由于在初始背景掩膜中，可以被保留的1值区域为背景，可以被屏蔽的0值区域为非背景，在本实施例中，可以对得到的上采样图像中的像素点执行取反操作，即，将像素点的像素值由1转换为0、由0转换为1。从而得到1值区域为非背景，0值区域为背景的目标背景掩膜。

如图4所示，对于预测头输出的每个像素的背景可能性，可以通过阈值划分得到背景掩膜，背景可能性高于0.5则为1，代表是背景，反之则是0。再将背景掩膜上采样到原图并取反，将背景对应的像素取反为0，其余取反为1，得到原图的背景掩膜（即，目标背景掩膜）。

通过本实施例，对于根据置信度确定的背景掩膜，通过简单的上采样和取反操作，从而得到目标背景掩膜，可以在保证得到的背景掩膜与图像背景关联度较高的情况下，提高背景掩膜的生成效率。

在一个示范性实施例中，使用目标背景掩膜删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像，包括：按照一组预设尺度中的每个预设尺度分别对待检测图像执行图像切分操作，得到一组候选图像块，其中，一组预设尺度互不相同；使用目标背景掩膜删除一组候选图像块中仅包含背景信息的候选图像块，得到删除后的待检测图像。

为了提取不同粒度的图像信息，对于待检测图像，可以按照一组预设尺度中的每个预设尺度分别对待检测图像执行图像切分操作，得到一组候选图像块。这里，一组预设尺度可以互不相同。

对于不同预设尺度切分出的一组候选图像块，可以使用目标背景掩膜删除一组候选图像块中仅包含背景信息的候选图像块，得到删除后的待检测图像。删除后的待检测图像可以有多个，多个删除后的待检测图像中的图像块的大小可以是互不相同的，所保留的图像块对应的图像也可以是不完全相同的。

通过本实施例，按照不同的预设尺度分别切分待检测图像，可以得到不同粒度的图像信息，尽可能的保留待检测图像的细节，从而提高目标检测的准确性。

在一个示范性实施例中，按照一组预设尺度中的每个预设尺度分别对待检测图像执行图像切分操作，得到一组候选图像块，包括：依次将一组预设尺度中的每个预设尺度作为当前预设尺度执行以下的操作，得到一组候选图像块：按照当前预设尺度对待检测图像执行图像切分操作，得到一组当前图像块；在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，按照与当前预设尺度匹配的当前图像块数从一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块，其中，一组候选图像块包括至少一个当前候选图像块，当前图像块数与当前预设尺度负相关。

为了减少待检测图像的切分数量，从而提高对待检测图像的处理效率，在本实施例中，可以通过间隔选取图像块的方式，从切分的待检测图像中选取图像块。即，依次将一组预设尺度中的每个预设尺度作为当前预设尺度切分操作，得到一组候选图像块。

上述切分操作可以是，按照当前预设尺度对待检测图像执行图像切分操作，得到一组当前图像块，并在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，按照与当前预设尺度匹配的当前图像块数从一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块。这里，上述一组候选图像块可以包括至少一个当前候选图像块。

由于尺度越小，切分出的图像块数量越多、图像块大小越小，上述当前图像块数可以与当前预设尺度负相关，即预设尺度越小，间隔的当前图像块数越大。

可选地，在当前预设尺度是一组预设尺度中的最大预设尺度的情况下，由于切分出的图像块数量较少，可以不进行上述间隔切分操作，直接选取全部的图像块。

通过本实施例，采用间隔选取图像块的方式，可以在不影响目标检测结果的情况下，减少待检测图像的切分数量，从而提高对待检测图像的处理效率。

在一个示范性实施例中，在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，按照与当前预设尺度匹配的当前图像块数从一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块，包括：在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，分别对一组当前图像块中属于同一行的当前图像块每间隔当前图像块数的图像块选取一次图像块，得到至少一个当前候选图像块，其中，属于同一列的当前图像块每间隔当前图像块数的图像块被选取一次。

在按照与当前预设尺度匹配的当前图像块数从一组当前图像块中间隔选取候选图像块时，可以是分别对一组当前图像块中属于同一行的当前图像块每间隔当前图像块数的图像块选取一次图像块，得到至少一个当前候选图像块。属于同一列的当前图像块每间隔当前图像块数的图像块被选取一次。

例如，如图5所示，以待检测图像为视频的首帧超高分辨率原图为例，可以将视频的首帧超高分辨率原图H*W划分为L*L个无重叠的图像块，L可以是2，并选取所有切分的图像块。再将原图划分为2L*2L个无重叠的图像块，并且每一行都是每隔1个选取1个，每行的选择的第一个图像块序号是1，2，1，2…轮流选择。再将原图划分为4L*4L个无重叠的图像块，并且每一行都是每隔3个选取1个，每行的选择的第一个图像块序号是1，2，3，4，1，2，3，4…轮流选择，图5中的白色块代表选取的图像块。

通过本实施例，同一列的图像块可以每间隔当前图像块数的图像块被选取一次，相比随机选取图像块，可以在保证选取图像块的效率的同时，避免因目标对象出现在未选取的图像块中导致目标对象的检测失败的情况发生。

在一个示范性实施例中，使用目标背景掩膜删除一组候选图像块中仅包含背景信息的候选图像块，得到删除后的待检测图像，包括：使用目标背景掩膜删除至少一个当前候选图像块中仅包含背景信息的图像块，得到删除后的待检测图像，其中，按照当前预设尺度的下一个预设尺度执行图像切分操作是对删除后的待检测图像执行的。

对于按照不同预设尺度切分的图像块的删除，可以是对不同尺度的图像块分别进行的（即，按照如图5所示的不同尺度切分出图像块后，分别使用目标背景掩膜删除图像块），也可以是在按照一个预设尺度切分出图像块后，先进行图像块删除，再对删除后的图像块进行另一预设尺度的切分和删除。

在本实施例中，可以使用目标背景掩膜删除至少一个当前候选图像块中仅包含背景信息的图像块，得到删除后的待检测图像。对应地，按照当前预设尺度的下一个预设尺度执行图像切分操作是对删除后的待检测图像执行的。

需要说明的是，对于按照当前预设尺度的下一个预设尺度执行图像切分操作是对删除后的待检测图像执行的情况，一组预设尺度可以是按照尺度大小由大到小一次排列的，即，当前预设尺度的下一预设尺度一定比当前预设尺度小。

通过本实施例，对按照当前预设尺度切分并删除后的待检测图像，按照当前预设尺度的下一个预设尺度执行图像切分操作，可以提高图像切分的效率。

在一个示范性实施例中，使用目标背景掩膜删除一组候选图像块中仅包含背景信息的候选图像块，得到删除后的待检测图像，包括：使用目标背景掩膜，删除一组候选图像块中在目标背景掩膜中对应的掩膜区域均为0的候选图像块，得到删除后的待检测图像，其中，对应的掩膜区域均为0的候选图像块为仅包含背景信息的候选图像块。

由于目标背景掩膜中0值区域为背景区域，在本实施例中，可以使用目标背景掩膜，删除一组候选图像块中在目标背景掩膜中对应的掩膜区域均为0的候选图像块，得到删除后的待检测图像。这里，对应的掩膜区域均为0的候选图像块为仅包含背景信息的候选图像块。

可选地，对于对应的掩膜区域不全为0的候选图像块，以及对应的掩膜区域全为1的候选图像块，可以进行保留。此外，还可以记录保留的图像块在原图的左上角位置（x_i,y_i）和划分大小k。

通过本实施例，删除对应的掩膜区域全为0的图像块，以去除待检测图像中无用的区域，可以提高对待检测图像进行目标对象识别的效率。

在一个示范性实施例中，删除后的待检测图像包括删除后的一组目标图像块；根据目标滤波器，对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框，包括：将一组目标图像块中的每个目标图像块分别映射为长度相同的一维向量，并将得到的一组一维向量组合为二维特征图像；对二维特征图像进行离散傅里叶变换，得到与二维特征图像对应的目标图像频谱；使用目标滤波器执行以下的对象检测操作，得到目标检测框，其中，目标滤波器用于基于目标对象的频谱特征进行滤波处理的滤波器：使用目标滤波器对目标图像频谱进行调制处理，得到调制图像频谱；对调制图像频谱进行逆快速傅里叶变换，得到与调制图像频谱对应的目标空域图像；对目标空域图像进行二值化处理，得到与目标空域图像对应的二值化图像；提取二值化图像中的显著性区域，得到目标检测框，其中，目标检测框用于指示待检测图像中与显著性区域对应的图像区域。

由于删除后的待检测图像中包含了大小不同的多个图像块，在本实施例中，可以将一组目标图像块中的每个目标图像块分别映射为长度相同的一维向量，并将得到的一组一维向量组合为二维特征图像。

例如，以删除后剩余的图像块数量为P，将保留的每个图像块统一映射为长度为D的一维向量，再concatenate（连接）所有图像块对应的一维向量，可以得到二维特征P*D。

在本实施例中，对组合得到的二维特征图像，可以进行离散傅里叶变换，得到与二维特征图像对应的目标图像频谱，并使用目标滤波器执行对象检测操作，得到目标检测框。这里，目标滤波器可以为用于基于目标对象的频谱特征进行滤波处理的滤波器。

例如，以二维特征图像为x为例，使用二维离散傅里叶变换，可以将图像从空域x转换到频域X，从频域X中可以提取出频谱的振幅谱A和相位谱，具体变换公式如公式（1）、（2）、（3）所示：

其中，公式（1）中fft2(x)表示对矩阵x进行二位离散傅里叶变换，公式（2）中abs表示求变换结果中复数的模，公式（3）中angle表示求每个频率分量的相位角度。

上述对象检测操作可以是，使用目标滤波器对目标图像频谱进行调制处理，得到调制图像频谱，对调制图像频谱进行逆快速傅里叶变换，得到与调制图像频谱对应的目标空域图像，再对目标空域图像进行二值化处理，得到与目标空域图像对应的二值化图像，最后提取二值化图像中的显著性区域，得到目标检测框。对应地，目标检测框可以用于指示待检测图像中与显著性区域对应的图像区域。

上述二值化处理，即将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的操作过程。上述显著性区域可以是检测到目标对象的区域。

例如，对使用目标滤波器进行调制处理后的得到调制图像频谱，可以使用逆快速傅里叶变换IFFT（Inverse Fast Fourier Transform，即快速傅里叶变换）将调制后的频谱X`转换回空域x`，转换公式可以如公式（4）所示，再将空域x`图像进行二值化处理，提取像素灰度值为255的图像块，并映射到对应原图中，得到目标区域ROI（Region Of Interest，感兴趣区域，即显著性区域），将目标区域ROI输入预测头中，可以得到目标检测框和目标类别。

通过本实施例，将删除后的图像块转换为二位特征图像，并结合滤波器进行目标对象的识别，可以提高目标对象识别的效率。

在一个示范性实施例中，使用目标滤波器对目标图像频谱进行调制处理，得到调制图像频谱，包括：从目标图像频谱中提取出目标图像频谱的图像振幅谱、以及目标图像频谱的图像相位谱；通过将目标滤波器与图像振幅谱进行点乘对图像振幅谱进行调制处理，得到调制后的图像振幅谱；将调制后的图像振幅谱和图像相位谱组合为调制图像频谱。

在使用目标滤波器对目标图像频谱进行调制处理，得到调制图像频谱时，可以从目标图像频谱中提取出目标图像频谱的图像振幅谱、以及目标图像频谱的图像相位谱。再通过将目标滤波器与图像振幅谱进行点乘对图像振幅谱进行调制处理，得到调制后的图像振幅谱。调制后的图像振幅谱和图像相位谱可以组合为调制图像频谱。

点乘的公式可以如公式（5）所示：

其中，公式（5）中exp表示将函数分解成一系列复指数的和，A和与公式（2）（3）中的意思相同，K表示滤波器的大小。

通过本实施例，通过目标滤波器与图像振幅谱的点乘计算得到调制后的图像频谱，可以提高从待检测图像中确定目标对象的效率。

在一个示范性实施例中，在使用目标滤波器对目标图像频谱进行调制处理之前，上述方法还包括：对与目标对象对应的第一对象特征进行映射处理，得到目标滤波器，其中，目标滤波器的大小与目标图像频谱的图像振幅谱的大小相同。

目标滤波器的确定方式可以是通过对与目标对象对应的第一对象特征进行映射处理得到的。可以通过前述ViT模型的全连接层，对第一对象特征进行映射得到目标滤波器，全连接层可以是3层。这里的第一对象特征可以是根据前述描述目标对象的信息确定的特征，可以是与目标对象对应的文本特征，也可以是与目标对象对应的图像特征，本实施例在此不做限定。

为了保证目标滤波器可以有效用于目标图像频谱中进行目标对象的识别，目标滤波器的大小可以与目标图像频谱的图像振幅谱的大小相同。在本实施例中，目标滤波器可以是长度为D的一维向量，与每个图像块映射的向量大小一致。对于得到的目标滤波器，通过将其复制P次，扩展为P*D的矩阵，从而使得目标滤波器的大小与目标图像频谱的图像振幅谱的大小相同。

需要说明的是，目标滤波器的生成与目标图像频谱的生成可以是同步开始的，但目标滤波器的生成需要等待目标图像频谱生成之后才能完成。

通过本实施例，基于目标对象的第一对象特征得到目标滤波器，可以提高目标滤波器与目标对象的关联性，从而提高目标对象识别的准确性。

在一个示范性实施例中，在对与目标对象对应的第一对象特征进行映射处理，得到目标滤波器之前，上述方法还包括：获取与目标对象对应的第一对象描述信息，其中，第一对象描述信息用于描述目标对象；在第一对象描述信息为文本信息的情况下，按照预设对象模板对第一对象描述信息进行模板化处理，得到模板化的第一对象描述信息；将模板化的第一对象描述信息的每个字符串转换为对应的张量，得到与模板化的第一对象描述信息对应的对象描述张量序列，其中，对象描述张量序列包含与模板化的第一对象描述信息的每个字符串转换为的对象描述张量；将对象描述张量序列输入到第一文本编辑器中，得到第一文本编辑器输出的第一对象特征；在第一对象描述信息为对象图像的情况下，将第一对象描述信息输入到第二图像编码器，得到第二图像编码器输出的第一对象特征。

在本实施例中，第一对象特征可以是根据与目标对象对应的第一对象描述信息（即，前述描述目标对象的信息）确定的，第一对象描述信息可以是文本信息，也可以是对象图像，还可以是涂鸦标记等其他模态的描述信息。对象图像可以包括相机拍摄的图像，也可以包括手绘图像。在对与目标对象对应的第一对象特征进行映射处理，得到目标滤波器之前，可以先获取与目标对象对应的第一对象描述信息。这里，第一对象描述信息可以用于描述目标对象。

可选地，在生成滤波器时，可以同时输入多个描述信息，每个描述信息分别代表需要检测的多个不同对象，对象数目可以不设限制，可以追踪任意数目的对象。多个检测目标以循环的形式，逐一进行检测。

在第一对象描述信息为文本信息的情况下，可以按照预设对象模板对第一对象描述信息进行模板化处理，得到模板化的第一对象描述信息。这里的预设对象模板可以是预先设定的用于辅助生成对象描述信息的固定描述，如，“一张有{***}的图像”，其中，***为文本信息。

对于获取到的模板化的第一对象描述信息，可以将模板化的第一对象描述信息的每个字符串转换为对应的张量，得到与模板化的第一对象描述信息对应的对象描述张量序列，再将对象描述张量序列输入到第一文本编辑器中，得到第一文本编辑器输出的第一对象特征。这里，对象描述张量序列可以包含与模板化的第一对象描述信息的每个字符串转换为的对象描述张量。

上述第一文本编辑器可以是如CLIP（Contrastive Language-Image Pre-Training，对比语言-图像预训练）等用于匹配图像和文本的预训练神经网络模型的文本编辑器。

在第一对象描述信息为对象图像的情况下，可以将第一对象描述信息输入到第二图像编码器，得到第二图像编码器输出的第一对象特征。第二图像编码器可以是前述ViT模型的图像编码器。

例如，以第一对象描述信息为输入提示为例，如果输入提示是文本，例如“站在超市门口的男人”，首先给目标描述添加模板生成固定目标描述，例如“一张{***}的图像”，其中***代表目标描述。然后使用CLIP自带tokenize（标记化）方法将固定目标描述的每一个字符串转化为张量t得到目标提示张量。再分别在句首加上CLS标志，在句末加上SEP标志，即生成一个序列tokens T={CLS,t₁,t₂,…t_M,SEP}，其中M是目标提示张量的个数。再将序列tokens T输入到CLIP的文本编码器中得到目标文本特征T_i∈R^C×(M+2)，其中C是输出向量的维度。如果输入提示是图像，同样的，采用图像编码器提取目标图像特征T_i∈R^C，其中编码器是采用常用的MAE预训练的ViT模型。

通过本实施例，通过与目标对象对应的文本信息或图像生成对应的对象描述信息，无论是文本信息还是图像都可以用于滤波器的生成，可以丰富对象描述信息生成的方式，进而增加滤波器生成的效率。

在一个示范性实施例中，提取二值化图像中的显著性区域，得到目标检测框，包括：提取二值化图像中的显著性区域，得到候选检测框；对待检测图像中与候选检测框对应的图像区域进行目标识别，得到与候选检测框对应的目标识别结果，其中，目标识别结果用于指示从待检测图像中与候选检测框对应的图像区域识别到的对象类别；在目标识别结果所指示的对象类别为目标对象的对象类别的情况下，将候选检测框确定为目标检测框。

在获取二值化图像之后，可以提取二值化图像中的显著性区域，得到候选检测框。通过对待检测图像中与候选检测框对应的图像区域进行目标识别，可以得到与候选检测框对应的目标识别结果。这里，目标识别结果可以用于指示从待检测图像中与候选检测框对应的图像区域识别到的对象类别。目标识别结果可以是识别到目标对象以及目标对象的对象类型，也可以是未识别到目标对象。

在目标识别结果所指示的对象类别为目标对象的对象类别的情况下，可以将候选检测框确定为目标检测框。需要说明的是，目标对象可以是指定的需要进行对象追踪的对象，故目标对象的对象类别可以是在指定待追踪的目标对象的同时输入的。根据预先输入目标对象的对象类别，可以确定目标识别结果指示的对象类别是否为目标对象的对象类别。

通过本实施例，在识别出对象类别为目标对象类别的情况下，将确定的检测框用于后续的目标追踪，可以提高目标追踪的效率。

在一个示范性实施例中，上述方法还包括：在目标识别结果所指示的对象类别不是目标对象的对象类别的情况下，使用第二对象描述信息对目标滤波器进行更新，得到更新后的目标滤波器，其中，第二对象描述信息用于指示目标对象的对象类别不是目标识别结果所指示的对象类别；使用更新后的目标滤波器重新执行对象检测操作，直到确定出目标检测框。

在目标识别结果所指示的对象类别不是目标对象的对象类别的情况下，可以确定目标检测失败，需要重新进行目标对象的检测。为了提高检测结果的准确性，可以通过多轮迭代更新目标特征滤波器的方法优化检测结果。

在本实施例中，在目标识别结果所指示的对象类别不是目标对象的对象类别的情况下，可以使用第二对象描述信息对目标滤波器进行更新，得到更新后的目标滤波器。这里，第二对象描述信息可以用于指示目标对象的对象类别不是目标识别结果所指示的对象类别。

使用更新后的目标滤波器重新执行对象检测操作，可以直到确定出目标检测框为止。

上述多轮目标检测的过程可以如图6所示，输入目标描述，可以对图像进行预处理，得到滤波器，根据背景掩膜和图像完成图像块的切分和删除，经过FFT（Fast FourierTransformation，快速傅里叶变换）变换得到的图像，结合滤波器，可以得到调制后的频谱，再经过逆FFT变换，可以得到目标区域的坐标，以及与目标对象对应的候选框，经过预测头，在输出的cls（即classification，类别）正确的情况下，直接输出目标检测框用于目标追踪。如果输出类别错误，则将模板“并且不是”与输出类别cls连结（即，结合为“不是cls”），再与目标描述合并后，重新执行滤波器生成，直到检测结果正确停止迭代，得到最终的目标检测框r=[x,y,w,h]，和检测框对应的表观特征。

通过本实施例，在目标识别结果所指示的对象类别不是目标对象的对象类别的情况下，重新更新滤波器，并根据更新的滤波器重新目标对象的检查，可以实现对检测结果的优化，提高对象识别的准确性。

在一个示范性实施例中，在根据目标滤波器，对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框之后，上述方法还包括：根据目标检测框设置待检测图像的下一帧图像的目标搜索范围，其中，目标搜索范围包含目标检测框、且大于目标检测框；对待检测图像中与目标检测框内对应的图像区域进行特征提取，得到目标对象的第二对象特征；对第二对象特征与目标对象特征执行合并操作，得到与目标对象对应的目标对象模板；使用目标对象模板对下一帧图像中与目标搜索范围对应的图像区域进行对象检测，得到与目标对象对应的目标检测结果，其中，目标检测结果用于指示在下一帧图像中与目标搜索范围对应的图像区域是否检测到目标对象。

为了提高目标追踪的效率，在得到与目标对象对应的目标检测框之后，可以根据目标检测框设置待检测图像的下一帧图像的目标搜索范围。同时，可以对待检测图像中与目标检测框内对应的图像区域进行特征提取，得到目标对象的第二对象特征，并对第二对象特征与目标对象特征执行合并操作，得到与目标对象对应的目标对象模板。通过使用目标对象模板对下一帧图像中与目标搜索范围对应的图像区域进行对象检测，得到与目标对象对应的目标检测结果。

上述目标搜索范围可以包含目标检测框、且大于目标检测框，目标搜索范围的大小可以是目标检测框的倍数，如5倍。上述目标检测结果可以用于指示在下一帧图像中与目标搜索范围对应的图像区域是否检测到目标对象。

如图7所示，在检测到目标对象、且目标对象的对象类型识别正确的情况下，可以根据上一帧t的追踪目标来设置t+1帧的目标搜索范围，采取将目标框扩大5倍的搜索区间划分策略。同时，提取上一帧t的追踪目标的目标表观特征，并与上一帧最终的目标提示特征合并得到关联模板，通过关联模块执行关联过程，输出t+1帧的检测目标。如果目标移动范围较大导致追踪结果不正确，则在当前帧重新开展前述目标对象的相关检测操作（包括图像的切分和删除、滤波器的生成以及目标对象的检测）。如果目标对应的视频场景发生变化，则重新开展背景掩膜生成以及后续的目标对象的相关检测操作。

通过本实施例，根据检测目标设定搜索区域，可以缩短剩余帧的目标追踪时间，提高目标追踪的效率。

在一个示范性实施例中，获取与待检测图像对应的背景文本特征，包括：获取与待检测图像对应的背景描述信息，其中，背景描述信息是待检测图像中的图像背景的描述信息；对背景描述信息进行文本特征提取，得到背景文本特征。

在获取与待检测图像对应的背景文本特征时，可以获取与待检测图像对应的背景描述信息。背景描述信息可以是与待检测图像中的图像背景对应的描述信息，可以是人为输入的信息，也可以是通过对应的识别模型对待检测图像进行识别所识别到背景，如前述的蓝天和高楼等。

对获取到的背景描述信息，进行文本特征提取，可以得到背景文本特征。文本特征的提取，可以是由相关模型根据背景描述信息中的字符串进行的提取。

通过本实施例，根据与图像背景对应的背景描述信息生成背景文本特征，可以提高生成的背景掩膜与待检测图像的背景的关联度，避免因背景掩膜与待检测图像中实际的背景相差较大导致的对待检测图像的删除错误，进而影响目标对象的检测。

在一个示范性实施例中，对背景描述信息进行文本特征提取，得到背景文本特征，包括：按照预设背景模板对背景描述信息进行模板化处理，得到模板化的背景描述信息；将模板化的背景描述信息的每个字符串转换为对应的张量，得到与模板化的背景描述信息对应的背景描述张量序列，其中，背景描述张量序列包含与模板化的背景描述信息的每个字符串转换为的背景描述张量；将背景描述张量序列输入到第二文本编辑器中，得到第二文本编辑器输出的背景文本特征。

考虑到在背景描述信息为简单的单词（如，前述蓝天和高楼等）的情况下，直接根据背景描述信息生成的背景文本特征中特征信息较少，可能影响到背景掩膜的生成。在本实施例中，对于获取到的背景描述信息，可以先按照预设背景模板对背景描述信息进行模板化处理，得到与背景描述信息对应的模板化的背景描述信息，再根据生成的模板化的背景描述信息，生成与背景描述信息对应的背景文本特征。这里的预设背景模板可以是预先设定的用于辅助生成背景掩膜的固定描述，如，“一张有{***}的图像”，其中，***为背景描述信息。

在本实施例中，可以由如CLIP等用于匹配图像和文本的预训练神经网络模型来进行背景文本特征的提取。如图4所示，对输入的背景描述，进行模板化处理，再根据CLIP文本编码器进行背景文本特征的提取。

可以先将模板化的背景描述信息的每个字符串转换为对应的张量，得到与模板化的背景描述信息对应的背景描述张量序列，再将背景描述张量序列输入到第二文本编辑器中，得到第二文本编辑器输出的背景文本特征。这里，背景描述张量序列可以包含与每个字符串转换为的背景描述张量。第二文本编辑器可以是CLIP模型中的文本编辑器。

可选地，在将模板化的背景描述信息的一组字符串的每个字符串转换为对应的张量之后，可以在与背景描述张量对应的句首和句尾分别添加对应的标志，以帮助模型区分背景描述的开头和结尾，得到与模板化的背景描述信息对应的背景描述张量序列中也可以包含分别与句首和句尾对应的标志。

以CLIP模型进行背景文本特征的提取为例，在给背景描述添加模板生成固定背景描述之后，可以使用CLIP自带的tokenize（标记化）方法将固定背景描述的每一个字符串转化为张量t得到背景提示张量。再分别在句首加上CLS（即，classification，分类，用于表示句子或文档的开头）标志，在句末加上SEP（即separator，分离，用于表示句子或文档的结尾）标志，即生成一个序列tokens T={CLS,t₁,t₂,…t_N,SEP}，其中N是背景提示张量的个数。再将序列tokens T输入到CLIP的文本编码器中得到背景提示特征B_e∈R^C×(N+2)，其中C是输出向量的维度。

通过本实施例，按照预设背景模板对背景描述信息生成固定的背景描述，可以丰富背景文本特征，提高生成的背景掩膜与待检测图像的图像背景的关联度。

下面结合可选示例对本申请实施例中的图像的处理方法进行解释说明。

本可选示例中提供了一种高分辨率视频图像处理方法，根据具体视频图像生成背景掩膜，可以去除无用区域。通过多尺度切分间隔提取图像块，在提取全局特征的同时，可以保留细节并且大大减少切分数量。在目标检测前通过频域处理，可以加快高分辨率图像的检测时间。最后再根据检测目标设定搜索区域，可以有效缩短剩余帧的目标追踪时间。

本可选示例中的图像的处理方法可以包括以下步骤：

步骤1，通过构建场景提示，并借助CLIP文本编码器来生成图像背景掩膜，用于去除后续的空白图像块。

步骤2，通过多尺度切分间隔提取高分辨率图像块，并根据图像背景掩膜删除部分图像块。

步骤3，对删除后的图像，进行频谱域与目标特征滤波器的点乘，生成目标显著性区域。

步骤4，根据目标显著性区域的识别结果和检测框，设定下一帧图像的搜索区域。

通过本可选示例，通过构建场景描述，可对任意场景提取背景掩膜，具有较强泛化性。除此之外，通过多尺度切分间隔提取和由粗到细迭代检测的方法，相比传统采用切图方法对图像的每一处都进行细致检测，可以大大缩短检测时间。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

根据本申请实施例的又一方面，还提供了一种图像的处理装置，该装置用于实现上述实施例中所提供的图像的处理方法，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是根据本申请实施例的一种图像的处理装置的结构框图，如图8所示，该装置包括：

第一获取单元802，用于获取与待检测图像对应的背景文本特征，以及获取与待检测图像对应的目标图像特征，其中，背景文本特征是与待检测图像中的图像背景的描述信息对应的文本特征，目标图像特征是从待检测图像中提取出的图像特征；

生成单元804，用于根据背景文本特征和目标图像特征，生成与待检测图像对应的目标背景掩膜；

删除单元806，用于使用目标背景掩膜删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像，其中，待检测图像的图像块是对待检测图像进行图像切分所得到的图像块；

第一检测单元808，用于根据目标滤波器，对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框，其中，目标滤波器为根据描述目标对象的信息生成的滤波器，目标检测框用于对待检测图像之后的图像进行目标追踪。

通过本申请实施例，获取与待检测图像对应的背景文本特征，以及获取与待检测图像对应的目标图像特征，其中，背景文本特征是与待检测图像中的图像背景的描述信息对应的文本特征，目标图像特征是从待检测图像中提取出的图像特征；根据背景文本特征和目标图像特征，生成与待检测图像对应的目标背景掩膜；使用目标背景掩膜删除待检测图像中仅包含背景信息的图像块，得到删除后的待检测图像，其中，待检测图像的图像块是对待检测图像进行图像切分所得到的图像块；根据目标滤波器，对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框，其中，目标滤波器为根据描述目标对象的信息生成的滤波器，目标检测框用于对待检测图像之后的图像进行目标追踪，可以解决相关技术中的图像的处理方法存在对于高分辨率图像的处理效率较低的问题，提高图像的处理效率。

可选地，第一获取单元包括：

第一执行模块，用于对待检测图像执行下采样操作，得到与待检测图像对应的下采样图像；

第一输入模块，用于将下采样图像输入到预训练模型的第一图像编码器，得到第一图像编码器输出的目标图像特征，其中，预训练模型是基于注意力机制的神经网络模型。

可选地，生成单元包括：

第一生成模块，用于根据背景文本特征生成查询向量，以及根据目标图像特征生成关键向量和赋值向量；

第二输入模块，用于将查询向量、关键向量和赋值向量输入到预训练模型的解码器中，得到解码器输出的交叉注意力特征；

确定模块，用于根据交叉注意力特征，确定与下采样图像中的每个像素点对应的背景置信度，其中，与每个像素点对应的背景置信度用于表示每个像素点属于图像背景的可能性；

第二生成模块，用于根据与每个像素点对应的背景置信度，生成目标背景掩膜。

可选地，确定模块包括：

第一输入子模块，用于将交叉注意力特征输入到预训练模型的预测头中，得到预测头输出的与每个像素点对应的背景置信度。

可选地，第二生成模块包括：

第一确定子模块，用于将对应的背景置信度大于或者等于置信度阈值的像素点，确定为属于图像背景的像素点，得到一组背景像素点；

第一执行子模块，用于将一组背景像素点的值置为1，将下采样图像中除了一组背景像素点以外的其他像素点的值置为0，得到初始背景掩膜；

第二执行子模块，用于对初始背景掩膜执行上采样操作，并对得到的上采样图像中的像素点执行取反操作，得到目标背景掩膜，其中，取反操作为将像素点的像素值由1转换为0、由0转换为1的操作。

可选地，删除单元包括：

第二执行模块，用于按照一组预设尺度中的每个预设尺度分别对待检测图像执行图像切分操作，得到一组候选图像块，其中，一组预设尺度互不相同；

删除模块，用于使用目标背景掩膜删除一组候选图像块中仅包含背景信息的候选图像块，得到删除后的待检测图像。

可选地，第二执行模块包括：

第三执行子模块，用于依次将一组预设尺度中的每个预设尺度作为当前预设尺度执行以下的切分操作，得到一组候选图像块：

按照当前预设尺度对待检测图像执行图像切分操作，得到一组当前图像块；

在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，按照与当前预设尺度匹配的当前图像块数从一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块，其中，一组候选图像块包括至少一个当前候选图像块，当前图像块数与当前预设尺度负相关。

可选地，第三执行子模块包括：

选取子单元，用于在当前预设尺度不是一组预设尺度中的最大预设尺度的情况下，分别对一组当前图像块中属于同一行的当前图像块每间隔当前图像块数的图像块选取一次图像块，得到至少一个当前候选图像块，其中，属于同一列的当前图像块每间隔当前图像块数的图像块被选取一次。

可选地，删除模块包括：

第一删除子模块，用于使用目标背景掩膜删除至少一个当前候选图像块中仅包含背景信息的图像块，得到删除后的待检测图像，其中，按照当前预设尺度的下一个预设尺度执行图像切分操作是对删除后的待检测图像执行的。

可选地，删除模块包括：

第二删除子模块，用于使用目标背景掩膜，删除一组候选图像块中在目标背景掩膜中对应的掩膜区域均为0的候选图像块，得到删除后的待检测图像，其中，对应的掩膜区域均为0的候选图像块为仅包含背景信息的候选图像块。

可选地，删除后的待检测图像包括删除后的一组目标图像块；第一检测单元包括：

映射模块，用于将一组目标图像块中的每个目标图像块分别映射为长度相同的一维向量，并将得到的一组一维向量组合为二维特征图像；

变换模块，用于对二维特征图像进行离散傅里叶变换，得到与二维特征图像对应的目标图像频谱；

第三执行模块，用于使用目标滤波器执行以下的对象检测操作，得到目标检测框，其中，目标滤波器用于基于目标对象的频谱特征进行滤波处理的滤波器：

使用目标滤波器对目标图像频谱进行调制处理，得到调制图像频谱；

对调制图像频谱进行逆快速傅里叶变换，得到与调制图像频谱对应的目标空域图像；

对目标空域图像进行二值化处理，得到与目标空域图像对应的二值化图像；

提取二值化图像中的显著性区域，得到目标检测框，其中，目标检测框用于指示待检测图像中与显著性区域对应的图像区域。

可选地，第三执行模块包括：

第一提取子模块，用于从目标图像频谱中提取出目标图像频谱的图像振幅谱、以及目标图像频谱的图像相位谱；

第四执行子模块，用于通过将目标滤波器与图像振幅谱进行点乘对图像振幅谱进行调制处理，得到调制后的图像振幅谱；

组合子模块，用于将调制后的图像振幅谱和图像相位谱组合为调制图像频谱。

可选地，上述装置还包括：

映射单元，用于在使用目标滤波器对目标图像频谱进行调制处理之前，对与目标对象对应的第一对象特征进行映射处理，得到目标滤波器，其中，目标滤波器的大小与目标图像频谱的图像振幅谱的大小相同。

可选地，上述装置还包括：

第二获取单元，用于在对与目标对象对应的第一对象特征进行映射处理，得到目标滤波器之前，获取与目标对象对应的第一对象描述信息，其中，第一对象描述信息用于描述目标对象；

第一执行单元，用于在第一对象描述信息为文本信息的情况下，按照预设对象模板对第一对象描述信息进行模板化处理，得到模板化的第一对象描述信息；将模板化的第一对象描述信息的每个字符串转换为对应的张量，得到与模板化的第一对象描述信息对应的对象描述张量序列，其中，对象描述张量序列包含与模板化的第一对象描述信息的每个字符串转换为的对象描述张量；将对象描述张量序列输入到第一文本编辑器中，得到第一文本编辑器输出的第一对象特征；

输入单元，用于在第一对象描述信息为对象图像的情况下，将第一对象描述信息输入到第二图像编码器，得到第二图像编码器输出的第一对象特征。

可选地，第三执行模块包括：

第二提取子模块，用于提取二值化图像中的显著性区域，得到候选检测框；

识别子模块，用于对待检测图像中与候选检测框对应的图像区域进行目标识别，得到与候选检测框对应的目标识别结果，其中，目标识别结果用于指示从待检测图像中与候选检测框对应的图像区域识别到的对象类别；

第二确定子模块，用于在目标识别结果所指示的对象类别为目标对象的对象类别的情况下，将候选检测框确定为目标检测框。

可选地，上述装置还包括：

更新单元，用于在目标识别结果所指示的对象类别不是目标对象的对象类别的情况下，使用第二对象描述信息对目标滤波器进行更新，得到更新后的目标滤波器，其中，第二对象描述信息用于指示目标对象的对象类别不是目标识别结果所指示的对象类别；

第二执行单元，用于使用更新后的目标滤波器重新执行对象检测操作，直到确定出目标检测框。

可选地，上述装置还包括：

设置单元，用于在对删除后的待检测图像进行目标对象检测，得到与目标对象对应的目标检测框之后，根据目标检测框设置待检测图像的下一帧图像的目标搜索范围，其中，目标搜索范围包含目标检测框、且大于目标检测框；

提取单元，用于对待检测图像中与目标检测框内对应的图像区域进行特征提取，得到目标对象的第二对象特征；

第三执行单元，用于对第二对象特征与目标对象特征执行合并操作，得到与目标对象对应的目标对象模板；

第二检测单元，用于使用目标对象模板对下一帧图像中与目标搜索范围对应的图像区域进行对象检测，得到与目标对象对应的目标检测结果，其中，目标检测结果用于指示在下一帧图像中与目标搜索范围对应的图像区域是否检测到目标对象。

可选地，第一获取单元包括：

获取模块，用于获取与待检测图像对应的背景描述信息，其中，背景描述信息是待检测图像中的图像背景的描述信息；

提取模块，用于对背景描述信息进行文本特征提取，得到背景文本特征。

可选地，提取模块包括：

第五执行子模块，用于按照预设背景模板对背景描述信息进行模板化处理，得到模板化的背景描述信息；

转换子模块，用于将模板化的背景描述信息的每个字符串转换为对应的张量，得到与模板化的背景描述信息对应的背景描述张量序列，其中，背景描述张量序列包含与模板化的背景描述信息的每个字符串转换为的背景描述张量；

第二输入子模块，用于将背景描述张量序列输入到第二文本编辑器中，得到第二文本编辑器输出的背景文本特征。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本申请实施例的又一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器（Read-Only Memory，简称为ROM）、随机存取存储器（Random Access Memory，简称为RAM）、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请实施例，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请实施例的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种图像的处理方法，其特征在于，包括：

获取与待检测图像对应的背景文本特征，以及获取与所述待检测图像对应的目标图像特征，其中，所述背景文本特征是与所述待检测图像中的图像背景的描述信息对应的文本特征，所述目标图像特征是从所述待检测图像中提取出的图像特征；

根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜；

使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，所述待检测图像的图像块是对所述待检测图像进行图像切分所得到的图像块；

根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，其中，所述目标滤波器为根据描述所述目标对象的信息生成的滤波器，所述目标检测框用于对所述待检测图像之后的图像进行目标追踪。

2.根据权利要求1所述的方法，其特征在于，所述获取与所述待检测图像对应的目标图像特征，包括：

对所述待检测图像执行下采样操作，得到与所述待检测图像对应的下采样图像；

将所述下采样图像输入到预训练模型的第一图像编码器，得到所述第一图像编码器输出的所述目标图像特征，其中，所述预训练模型是基于注意力机制的神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜，包括：

根据所述背景文本特征生成查询向量，以及根据所述目标图像特征生成关键向量和赋值向量；

将所述查询向量、所述关键向量和所述赋值向量输入到所述预训练模型的解码器中，得到所述解码器输出的交叉注意力特征；

根据所述交叉注意力特征，确定与所述下采样图像中的每个像素点对应的背景置信度，其中，与所述每个像素点对应的背景置信度用于表示所述每个像素点属于所述图像背景的可能性；

根据与所述每个像素点对应的背景置信度，生成所述目标背景掩膜。

4.根据权利要求3所述的方法，其特征在于，所述根据所述交叉注意力特征，确定与所述下采样图像中的每个像素点对应的背景置信度，包括：

将所述交叉注意力特征输入到所述预训练模型的预测头中，得到所述预测头输出的与所述每个像素点对应的背景置信度。

5.根据权利要求3所述的方法，其特征在于，所述根据与所述每个像素点对应的背景置信度，生成所述目标背景掩膜，包括：

将对应的背景置信度大于或者等于置信度阈值的像素点，确定为属于所述图像背景的像素点，得到一组背景像素点；

将所述一组背景像素点的值置为1，将所述下采样图像中除了所述一组背景像素点以外的其他像素点的值置为0，得到初始背景掩膜；

对所述初始背景掩膜执行上采样操作，并对得到的上采样图像中的像素点执行取反操作，得到所述目标背景掩膜，其中，所述取反操作为将像素点的像素值由1转换为0、由0转换为1的操作。

6.根据权利要求1所述的方法，其特征在于，所述使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，包括：

按照一组预设尺度中的每个预设尺度分别对所述待检测图像执行图像切分操作，得到一组候选图像块，其中，所述一组预设尺度互不相同；

使用所述目标背景掩膜删除所述一组候选图像块中仅包含背景信息的候选图像块，得到删除后的所述待检测图像。

7.根据权利要求6所述的方法，其特征在于，所述按照一组预设尺度中的每个预设尺度分别对所述待检测图像执行图像切分操作，得到一组候选图像块，包括：

依次将所述一组预设尺度中的每个预设尺度作为当前预设尺度执行以下的切分操作，得到所述一组候选图像块：

按照所述当前预设尺度对所述待检测图像执行图像切分操作，得到一组当前图像块；

在所述当前预设尺度不是所述一组预设尺度中的最大预设尺度的情况下，按照与所述当前预设尺度匹配的当前图像块数从所述一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块，其中，所述一组候选图像块包括所述至少一个当前候选图像块，所述当前图像块数与所述当前预设尺度负相关。

8.根据权利要求7所述的方法，其特征在于，所述在所述当前预设尺度不是所述一组预设尺度中的最大预设尺度的情况下，按照与所述当前预设尺度匹配的当前图像块数从所述一组当前图像块中间隔选取候选图像块，得到至少一个当前候选图像块，包括：

在所述当前预设尺度不是所述一组预设尺度中的最大预设尺度的情况下，分别对所述一组当前图像块中属于同一行的当前图像块每间隔所述当前图像块数的图像块选取一次图像块，得到所述至少一个当前候选图像块，其中，属于同一列的当前图像块每间隔所述当前图像块数的图像块被选取一次。

9.根据权利要求7所述的方法，其特征在于，所述使用所述目标背景掩膜删除所述一组候选图像块中仅包含背景信息的候选图像块，得到删除后的所述待检测图像，包括：

使用所述目标背景掩膜删除所述至少一个当前候选图像块中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，按照所述当前预设尺度的下一个预设尺度执行图像切分操作是对删除后的所述待检测图像执行的。

10.根据权利要求6所述的方法，其特征在于，所述使用所述目标背景掩膜删除所述一组候选图像块中仅包含背景信息的候选图像块，得到删除后的所述待检测图像，包括：

使用所述目标背景掩膜，删除所述一组候选图像块中在所述目标背景掩膜中对应的掩膜区域均为0的候选图像块，得到删除后的所述待检测图像，其中，对应的掩膜区域均为0的候选图像块为仅包含背景信息的候选图像块。

11.根据权利要求1所述的方法，其特征在于，删除后的所述待检测图像包括删除后的一组目标图像块；所述根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，包括：

将所述一组目标图像块中的每个目标图像块分别映射为长度相同的一维向量，并将得到的一组一维向量组合为二维特征图像；

对所述二维特征图像进行离散傅里叶变换，得到与所述二维特征图像对应的目标图像频谱；

使用所述目标滤波器执行以下的对象检测操作，得到所述目标检测框，其中，所述目标滤波器用于基于所述目标对象的频谱特征进行滤波处理的滤波器：

使用所述目标滤波器对所述目标图像频谱进行调制处理，得到调制图像频谱；

对所述调制图像频谱进行逆快速傅里叶变换，得到与所述调制图像频谱对应的目标空域图像；

对所述目标空域图像进行二值化处理，得到与所述目标空域图像对应的二值化图像；

提取所述二值化图像中的显著性区域，得到所述目标检测框，其中，所述目标检测框用于指示所述待检测图像中与所述显著性区域对应的图像区域。

12.根据权利要求11所述的方法，其特征在于，所述使用所述目标滤波器对所述目标图像频谱进行调制处理，得到调制图像频谱，包括：

从所述目标图像频谱中提取出所述目标图像频谱的图像振幅谱、以及所述目标图像频谱的图像相位谱；

通过将所述目标滤波器与所述图像振幅谱进行点乘对所述图像振幅谱进行调制处理，得到调制后的所述图像振幅谱；

将调制后的所述图像振幅谱和所述图像相位谱组合为所述调制图像频谱。

13.根据权利要求11所述的方法，其特征在于，在所述使用所述目标滤波器对所述目标图像频谱进行调制处理之前，所述方法还包括：

对与所述目标对象对应的第一对象特征进行映射处理，得到所述目标滤波器，其中，所述目标滤波器的大小与所述目标图像频谱的图像振幅谱的大小相同。

14.根据权利要求13所述的方法，其特征在于，在所述对与所述目标对象对应的第一对象特征进行映射处理，得到所述目标滤波器之前，所述方法还包括：

获取与所述目标对象对应的第一对象描述信息，其中，所述第一对象描述信息用于描述所述目标对象；

在所述第一对象描述信息为文本信息的情况下，按照预设对象模板对所述第一对象描述信息进行模板化处理，得到模板化的所述第一对象描述信息；将模板化的所述第一对象描述信息的每个字符串转换为对应的张量，得到与模板化的所述第一对象描述信息对应的对象描述张量序列，其中，所述对象描述张量序列包含与模板化的所述第一对象描述信息的每个字符串转换为的对象描述张量；将所述对象描述张量序列输入到第一文本编辑器中，得到所述第一文本编辑器输出的所述第一对象特征；

在所述第一对象描述信息为对象图像的情况下，将所述第一对象描述信息输入到第二图像编码器，得到所述第二图像编码器输出的所述第一对象特征。

15.根据权利要求11所述的方法，其特征在于，所述提取所述二值化图像中的显著性区域，得到所述目标检测框，包括：

提取所述二值化图像中的显著性区域，得到候选检测框；

对所述待检测图像中与所述候选检测框对应的图像区域进行目标识别，得到与所述候选检测框对应的目标识别结果，其中，所述目标识别结果用于指示从所述待检测图像中与所述候选检测框对应的图像区域识别到的对象类别；

在所述目标识别结果所指示的对象类别为所述目标对象的对象类别的情况下，将所述候选检测框确定为所述目标检测框。

16.根据权利要求15所述的方法，其特征在于，所述方法还包括：

在所述目标识别结果所指示的对象类别不是所述目标对象的对象类别的情况下，使用第二对象描述信息对所述目标滤波器进行更新，得到更新后的所述目标滤波器，其中，所述第二对象描述信息用于指示所述目标对象的对象类别不是所述目标识别结果所指示的对象类别；

使用更新后的所述目标滤波器重新执行所述对象检测操作，直到确定出所述目标检测框。

17.根据权利要求1所述的方法，其特征在于，在所述根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框之后，所述方法还包括：

根据所述目标检测框设置所述待检测图像的下一帧图像的目标搜索范围，其中，所述目标搜索范围包含所述目标检测框、且大于所述目标检测框；

对所述待检测图像中与所述目标检测框内对应的图像区域进行特征提取，得到所述目标对象的第二对象特征；

对所述第二对象特征与目标对象特征执行合并操作，得到与所述目标对象对应的目标对象模板；

使用所述目标对象模板对所述下一帧图像中与所述目标搜索范围对应的图像区域进行对象检测，得到与所述目标对象对应的目标检测结果，其中，所述目标检测结果用于指示在所述下一帧图像中与所述目标搜索范围对应的图像区域是否检测到所述目标对象。

18.根据权利要求1所述的方法，其特征在于，所述获取与待检测图像对应的背景文本特征，包括：

获取与所述待检测图像对应的背景描述信息，其中，所述背景描述信息是所述待检测图像中的图像背景的描述信息；

对所述背景描述信息进行文本特征提取，得到所述背景文本特征。

19.根据权利要求18所述的方法，其特征在于，所述对所述背景描述信息进行文本特征提取，得到所述背景文本特征，包括：

按照预设背景模板对所述背景描述信息进行模板化处理，得到模板化的所述背景描述信息；

将模板化的所述背景描述信息的每个字符串转换为对应的张量，得到与模板化的所述背景描述信息对应的背景描述张量序列，其中，所述背景描述张量序列包含与模板化的所述背景描述信息的每个字符串转换为的背景描述张量；

将所述背景描述张量序列输入到第二文本编辑器中，得到所述第二文本编辑器输出的所述背景文本特征。

20.一种图像的处理装置，其特征在于，包括：

第一获取单元，用于获取与待检测图像对应的背景文本特征，以及获取与所述待检测图像对应的目标图像特征，其中，所述背景文本特征是与所述待检测图像中的图像背景的描述信息对应的文本特征，所述目标图像特征是从所述待检测图像中提取出的图像特征；

生成单元，用于根据所述背景文本特征和所述目标图像特征，生成与所述待检测图像对应的目标背景掩膜；

删除单元，用于使用所述目标背景掩膜删除所述待检测图像中仅包含背景信息的图像块，得到删除后的所述待检测图像，其中，所述待检测图像的图像块是对所述待检测图像进行图像切分所得到的图像块；

第一检测单元，用于根据目标滤波器，对删除后的所述待检测图像进行目标对象检测，得到与所述目标对象对应的目标检测框，其中，所述目标滤波器为根据描述所述目标对象的信息生成的滤波器，所述目标检测框用于对所述待检测图像之后的图像进行目标追踪。

21.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述权利要求1至19任一项中所述的方法的步骤。

22.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述权利要求1至19任一项中所述的方法的步骤。