CN117541971A

CN117541971A - 一种目标检测方法、装置、存储介质和电子设备

Info

Publication number: CN117541971A
Application number: CN202311502747.2A
Authority: CN
Inventors: 聂聪冲; 刘俊; 汪铖杰; 王剑武
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-09

Abstract

本申请涉及人工智能领域，具体涉及一种目标检测方法、装置、存储介质和电子设备，可应用于工业检测、云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法中，基于预设的多种特征图尺寸，分别对待检测图像提取相应的颜色特征图和深度特征图，并基于多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图以及待检测图像的初始目标特征，采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征，再基于融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得目标检测结果，从而提高检测精度和稳定性。

Description

一种目标检测方法、装置、存储介质和电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种目标检测方法、装置、存储介质和电子设备。

背景技术

随着图像处理技术在各工业领域的广泛应用，衍生出依托图像处理技术，以实现对工业物体的目标检测；例如，在锂电池质检领域，可以依托图像处理技术，通过识别锂电池的缺陷类别，实现对锂电池的目标检测。

相关技术中，在对锂电池进行目标检测时，通常采用以下方式：针对包含锂电池的待检测图像，至少基于该待检测图像的颜色特征，获得锂电池的目标特征，再基于该目标特征完成对锂电池的形态分析，识别锂电池的缺陷类别，从而获得锂电池的目标检测结果。

然而，受采集设备、采集光线、采集距离等采集环境因素的影响，在不同采集环境下，实体空间的同一锂电池在两张不同的待检测图像中可以显示不同的形态(如，大小，颜色、纹理等)；因此，采用上述方案进行目标检测时，会因采集环境因素的影响，而难以获得稳定的目标特征，从而严重降低目标检测结果的准确性。

发明内容

本申请提供一种目标检测方法、装置、存储介质和电子设备，用于提高目标检测的稳定性和准确性。

第一方面，本申请提供了一种目标检测方法，所述方法包括：

基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图；

基于所述多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得所述多种特征图尺寸各自对应的至少一张融合特征图；

获取所述待检测图像的初始目标特征，所述初始目标特征表征：针对所述待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；

采用获得的各融合特征图，对所述初始目标特征进行特征交互处理，获得融合目标特征；

基于所述融合目标特征，在所述N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得所述待检测图像的目标检测结果。

第二方面，本申请提供了一种目标检测装置，所述装置包括：

提取单元，用于基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图；

融合单元，用于基于所述多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得所述多种特征图尺寸各自对应的至少一张融合特征图；

交互单元，用于获取所述待检测图像的初始目标特征，所述初始目标特征表征：针对所述待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；采用获得的各融合特征图，对所述初始目标特征进行特征交互处理，获得融合目标特征；

获得单元，用于基于所述融合目标特征，在所述N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得所述待检测图像的目标检测结果。

可选地，所述待检测图像包括：针对同一目标场景采集的待检测颜色图和待检测深度图；

则所述提取单元，具体用于：

分别基于预设的多种特征图尺寸，对所述待检测颜色图和所述待检测深度图执行如下操作：

基于预设的一种特征图尺寸，分别对所述待检测颜色图和所述待检测深度初始图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图；

对所述初始颜色特征图和所述初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图。

可选地，所述提取单元，用于基于预设的一种特征图尺寸，分别对所述待检测颜色图和所述待检测深度图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图，具体用于：

基于预设的一种特征图尺寸，对所述待检测颜色图和所述待检测深度图这两张待检测属性图，分别执行如下操作：

基于一张待检测属性图的图尺寸与所述一种特征图尺寸之间的尺寸差异值，将所述一张待检测属性图分为多个待检测图块；

分别将所述多个待检测图块各自包含的至少一个初始像素点，映射到相应的特征空间中，获得相应的初始属性特征图，所述初始属性特征图为初始颜色特征图或初始深度特征图。

可选地，所述提取单元，用于对所述初始颜色特征图和所述初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图，具体用于：

对所述初始颜色特征图和所述初始深度特征图这两张初始属性特征图，分别执行如下操作：

基于预设的窗口尺寸，将一张初始属性特征图分为多个窗口图块；其中，每个窗口图块包含所述一张初始属性特征图中的至少一个候选像素点；

分别对所述多个窗口图块各自包含的至少一个候选像素点，进行自注意力特征交互处理，并且，至少对所述多个窗口图块之间进行交叉注意力特征交互处理，获得相应的属性特征图，所述属性特征图为颜色特征图或深度特征图。

可选地，所述融合单元，具体用于：

针对每种特征图尺寸，分别执行如下操作：

获取与所述特征图尺寸匹配的颜色特征图和深度特征图；

在所述颜色特征图中，分别基于所述深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图；

在所述深度特征图中，分别基于所述颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图；

将所述第一融合特征图和所述第二融合特征图，均作为所述特征图尺寸对应的融合特征图。

可选地，所述融合单元，用于在所述颜色特征图中，分别基于所述深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图，具体用于：

针对所述颜色特征图中的每个颜色像素点，分别执行如下操作：

基于所述颜色像素点，分别与所述深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重；其中，每个第一融合权重表征：相应深度像素点与所述颜色像素点之间的关联关系；

基于获得的K个第一融合权重，对所述K个深度像素点和所述颜色像素点进行融合处理，获得所述颜色像素点对应的第一融合点；

基于所述每个颜色像素点各自对应的第一融合点，获得相应的第一融合特征图。

可选地，所述融合单元，用于基于所述颜色像素点，分别与所述深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重，具体用于：

基于第一关系预测参数，获得所述各个深度像素点各自与所述颜色像素点之间的第一关联信息；其中，所述第一关系预测参数表征：所述颜色像素点与所述深度特征图中的各个深度像素点之间的关联关系；

在获得的各第一关联信息中，选取满足第一关联条件的K个第一关联信息，并获得相应的K个深度像素点；

基于第一权重预测参数，分别计算每个深度像素点对所述颜色像素点的影响程度，获得所述K个深度像素点各自对应的第一融合权重；其中，所述第一权重预测参数表征：所述颜色像素点与所述K个深度像素点之间的关联关系。

可选地，所述融合单元，用于在所述深度特征图中，分别基于所述颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图，具体用于：

针对所述深度特征图中的每个深度像素点，分别执行如下操作：

基于所述深度像素点，分别与所述颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重；其中，每个第二融合权重表征：相应颜色像素点与所述深度像素点之间的关联关系；

基于获得的K个第二融合权重，对所述K个颜色像素点和所述深度像素点进行融合处理，获得所述深度像素点对应的第二融合点；

基于所述每个深度像素点各自对应的第二融合点，获得相应的第二融合特征图。

可选地，所述融合单元，用于基于所述深度像素点，分别与所述颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重，具体用于：

基于第二关系预测参数，获得所述各个颜色像素点各自与所述深度像素点之间的第二关联信息；其中，所述第二关系预测参数表征：所述深度像素点与所述颜色特征图中的各个颜色像素点之间的关联关系；

在获得的各第二关联信息中，选取满足第二关联条件的K个第二关联信息，并获得相应的K个颜色像素点；

基于第二权重预测参数，分别计算每个颜色像素点对所述深度像素点的影响程度，获得所述K个颜色像素点各自对应的第二融合权重；其中，所述第二权重预测参数表征：所述深度像素点与所述K个颜色像素点之间的关联关系。

可选地，所述交互单元，具体用于：

采用获取的各融合特征图，依次对所述初始目标特征执行迭代的更新处理，获得相应的更新目标特征；其中，在一次更新过程中，获取一张融合特征图与所述初始目标特征之间的特征关联信息，并基于所述特征关联信息对所述初始目标特征的正向影响，更新所述初始目标特征；

基于所述更新目标特征表征的N个候选物体之间的物体关联信息，调整所述更新目标特征，获得融合目标特征。

可选地，所述交互单元，用于获取一张融合特征图与所述初始目标特征之间的特征关联信息，并基于所述特征关联信息对所述初始目标特征的正向影响，更新所述初始目标特征，具体用于：

针对所述初始目标特征中的每个初始特征点，分别执行如下操作：基于所述初始特征点，分别与一张融合特征图中的各个融合像素点之间的关联关系，获得满足融合关联条件的J个融合像素点及其相应的融合关联权重；其中，每个融合关联权重表征：相应融合像素点与所述初始特征点之间的关联关系；

基于获得的J个融合关联权重，对所述J个融合像素点和所述初始特征点进行融合处理，获得所述初始特征点对应的更新特征点。

可选地，所述交互单元，用于基于所述更新目标特征表征的N个候选物体之间的物体关联信息，调整所述更新目标特征，获得融合目标特征，具体用于：

针对所述更新目标特征表征的N个候选物体，基于每个候选物体与所述N个候选物体之间的物体关联关系，获得所述N个候选物体各自对应的物体权重；

采用获得的N个物体权重，对所述更新目标特征进行加权求和处理，获得融合目标特征。

可选地，所述获得单元，具体用于：

获取所述各目标检测类别各自关联的检测参数；其中，每个检测参数表征：各历史物体与相应目标检测类别之间的关联程度；

基于获取的各检测参数，对所述融合目标特征进行特征分析处理，获得所述N个候选物体各自属于所述各目标检测类别的检测概率；

针对所述N个候选物体，分别执行如下操作：当个所述候选物体关联的最大检测概率满足预设检测概率，确定所述候选物体为归属于所述最大检测概率对应的目标检测类别的目标物体。

第三方面，本申请提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任意一种目标检测方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机可读存储介质内存储有计算机程序指令，所述计算机程序指令被处理器执行上述第一方面中任意一种目标检测方法。

第五方面，本申请实施例提供的一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器执行时实现上述第一方面中任意一种目标检测方法。

本申请有益效果如下：

本申请实施例中，提供一种目标检测方法，用以提高目标检测结果的准确率和稳性定。具体来说，计算设备首先基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图，并基于这多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图。如此，对于每张融合特征图来说，都融合了深度特征图，而深度特征图能够较好地表征物体的立体形态，这样，在一些不佳或不稳定的采集环境下，能够解决单基于颜色特征图表征物体形态不稳定，导致后续目标检测结果不佳的问题，以挺高目标检测结果的准确性；对于每种特征图尺寸来说，其对应的融合特征图都是基于相应颜色特征图和深度特征图融合生成的，能够更好挖掘二者之间的关联关系，以保留更多有效的物体细节信息；对于不同特征图尺寸来说，能够全面地反映物体的形态信息，从而提高后续目标检测的检测性能。

其次，计算设备通过获取待检测图像的初始目标特征，并采用获得的各融合特征图，对该初始目标特征进行特征交互处理，获得融合目标特征。其中，初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；如此，引入一个可更新的初始目标特征，将各融合特征图之间的结合问题变换为对于初始目标特征的更新问题，从而基于该初始目标特征，对获得的各融合特征图进行特征交互处理，实现对于初始目标特征的更新，这样，获得的融合目标特征能够保留不同特征图尺寸的特征融合图的有效信息，也即全面保留了不同特征图尺寸的颜色特征图的有效信息和不同特征图尺寸的深度特征图的有效信息，保证后续基于融合特征图进行目标检测的稳定性和准确度。

再次，计算设备基于融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果。容易理解地，融合目标特征是更新后的初始目标特征，初始目标特征中包含N个候选物体与各目标检测类别之间的初始关联关系，换言之，融合目标特征中包含N个候选物体与各目标检测类别之间的预测关联关系，且每个预测关联关系都是基于各融合特征图获得的，这样，基于融合目标特征中的各预测关联关系，能够在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果，实现目标检测结果的精度及检测的稳定性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中可选的应用场景的示意图；

图2为本申请实施例中可选的实体物体的目标检测应用场景示意图；

图3为本申请实施例提供的目标检测方法的流程示意图；

图4A为本申请实施例中一种可能的初始颜色特征图的获得过程示意图；

图4B为本申请实施例中一种可能的属性特征图的获得过程示意图；

图5为本申请实施中多种特征图尺寸各自对应的第一融合特征图和第二融合特征图的生成示意图；

图6A为本申请实施例中获取第一融合特征图的过程示意图；

图6B为本申请实施例中获取第二融合特征图的过程示意图；

图7为本申请实施例中对初始目标特征进行特征交互处理的过程示意图；

图8为本申请实施例提供的缺陷检测示意图；

图9为本申请实施例提供的目标检测装置的结构示意图；

图10为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本申请实施例涉及人工智能技术，主要涉及工智能技术中的计算机视觉技术、自然语言处理技术。

人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，SwinT(Swin-Transformer，也即一种基于Transformer的深度学习模型)，ViT(Vision Transformer，视觉自注意力模型)，V-MOE(Vision MoE，视觉模型)，MAE(Masked Autoencoders，掩码自编码器)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学和数学。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model，LLM)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

自动驾驶技术，指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景，目前的领域为物流、公共交通、出租车、智慧交通领域外，未来将得到进一步发展。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的人工智能生成内容(Artificial Intelligence Generated Content，AIGC)、对话式交互、智能医疗、智能客服、游戏AI、智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

在本申请实施例中，将人工智能技术应用于图像处理技术领域，具体用于实现目标检测，以提高目标检测结果的准确率和稳定性。

为便于理解本申请实施例提供的技术方案，首先对本申请实施例使用的一些关键名词进行解释。

目标检测：用于识别待检测图像中的目标物体，以解决目标物体存在性的问题；以及，用于判定识别出的目标物体在待检测图像中的具体位置，以解决目标物体在哪里的问题。

下面对本申请实施例的设计思想进行简要介绍。

在工业领域，主流基于待检测图像实现目标检测的方法，可概括为如下几种：

方式一，基于待检测图像的颜色特征实现目标检测(即背景技术中的检测方式)。

该方式下，将待检测图像的颜色特征作为目标特征，从而基于目标特征实现目标检测；然而，发明人经创造性劳动发现，颜色特征易受采集设备、采集光线、采集距离等采集环境因素的影响，在实际目标检测过程中，因采集环境因素的影响，而难以获得稳定的目标特征，从而严重降低目标检测结果的准确性。

方式二，针对待检测图像，基于颜色特征和深度特征的拼接特征，实现目标检测。

该方式下，针对待检测图像，将其颜色特征和其深度特征的拼接特征作为目标特征，从而基于目标特征实现目标检测；然而，发明人经创造性劳动发现，拼接特征中的颜色特征和深度特征通常表征物体的单一形态，从而忽略了不同形态之间的关联关系，这样获得的目标特征难以表征出物体的整体形态，从而降低了目标检测结果的准确性。

方式三，针对待检测图像，基于颜色特征和深度特征的融合特征，实现目标检测。

该方式下，针对待检测图像，将其颜色特征和其深度特征的特征维度均变换到指定特征维度，再对指定特征维度的颜色特征和深度特征进行特征融合，将获得的融合特征作为目标特征，从而基于目标特征实现目标检测；然而，发明人经创造性劳动发现，在针对待检测图像中小物体进行目标检测时，容易在特征维度变换的过程中损失该小物体的有效信息，导致基于此获得的融合特征中缺乏该小物体的有效信息，从而严重降低目标检测结果的稳定性和准确性。

鉴于此，本申请实施例提供了一种目标检测方法，用以提高目标检测结果的准确率和稳性定。

在该方法中，提供一种多特征图尺寸的融合特征图的获得方式，基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图，并基于这多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图。如此，对于每张融合特征图来说，都融合了深度特征图，而深度特征图能够较好地表征物体的立体形态，这样，在一些不佳或不稳定的采集环境下，能够解决单基于颜色特征图表征物体形态不稳定，导致后续目标检测结果不佳的问题，以提高目标检测结果的准确性；对于每种特征图尺寸来说，其对应的融合特征图都是基于相应颜色特征图和深度特征图融合生成的，能够更好挖掘二者之间的关联关系，以保留更多有效的物体细节信息；对于不同特征图尺寸来说，能够全面地反映物体的形态信息，从而提高后续目标检测的检测性能。

在该方法中，提供一种多特征图尺寸的融合特征图的结合方式，通过获取待检测图像的初始目标特征，并采用获得的各融合特征图，对该初始目标特征进行特征交互处理，获得融合目标特征。其中，初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；如此，引入一个可更新的初始目标特征，将各融合特征图之间的结合问题变换为对于初始目标特征的更新问题，从而基于该初始目标特征，对获得的各融合特征图进行特征交互处理，实现对于初始目标特征的更新，这样，获得的融合目标特征能够保留不同特征图尺寸的特征融合图的有效信息，也即全面保留了不同特征图尺寸的颜色特征图的有效信息和不同特征图尺寸的深度特征图的有效信息，保证后续基于融合特征图进行目标检测的稳定性和准确度。

在该方法中，提供了一种多特征尺寸的目标检测方式，基于融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果。容易理解地，融合目标特征是更新后的初始目标特征，初始目标特征中包含N个候选物体与各目标检测类别之间的初始关联关系，换言之，融合目标特征中包含N个候选物体与各目标检测类别之间的预测关联关系，且每个预测关联关系都是基于各融合特征图获得的，这样，基于融合目标特征中的各预测关联关系，能够在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果，实现目标检测结果的精度及检测的稳定性。

下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数实体物体的目标检测场景中；例如，工业质检场景下，针对锂电池的缺陷检测；例如，智能驾驶场景下，针对道路的障碍物检测；再例如，机器人导航领域下，针对道路的类别检测。

参考图1所示，为本申请实施例提供的一种应用场景示意图，在该场景中，可以包括终端设备110和服务器120。

在本申请实施例中，终端设备110包括但不限于采集设备、摄像头、颜色采集设备、深度采集设备、手机、电脑、平板电脑、笔记本电脑、台式电脑、车载终端电脑、电子书阅读器、智能语音交互设备、智能家电、车载终端、飞行器等等设备；终端设备上可以安装有用于目标检测的客户端(例如：目标检测平台)，该客户端可以是软件(例如浏览器、图像处理软件等)，也可以是网页、小程序等，服务器120则是与软件或是网页、小程序等相对应的后台服务器，或者是专门用于进行图像处理的服务器，本申请不做具体限定。服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请各实施例中的目标检测方法、颜色特征图和深度特征图的提取方法、融合特征图的提取方法、初始目标特征的获取方法、融合目标特征的获得方法、目标检测结果的获得方法可以由电子设备执行，该电子设备可以为终端设备110或者服务器120，即，该方法可以由终端设备110或者服务器120单独执行，也可以由终端设备110和服务器120共同执行。比如由终端设备110和服务器120共同执行时，通过终端设备110获取待检测图像，并将该待检测图像发送给服务器120，或者，将待检测图像的统一资源定位符(Uniform Resource Locator，URL)发送给服务器120，由服务器120自行下载，等等；进而，经过服务器120上部署的目标检测平台，基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图，并基于多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图；以及，获取待检测图像的初始目标特征，该初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；然后，采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征，并基于该融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果；继而，通过服务器120将目标检测结果发送给终端设备110。最终，由终端设备110进行可视化展示。

示例性地，本申请实施例提供的方案可适用于各种实体物体的目标检测应用场景中，例如：锂电池质检的应用场景、障碍物识别的应用场景、道路识别的应用场景等。

参考图2所示，为本申请实施例提供的一种实体物体的目标检测应用场景示意图，在该场景中，以服务器120作为目标检测平台的后台服务器，以终端设备110作为目标检测平台与使用对象进行交互的主体。使用对象可以在终端设备110上使用目标检测平台，通过向目标检测平台发送待检测图像；相应地，终端设备110在获取到待检测图像后，将该待检测图像转发给服务器120；当然，也可通过终端设备110针对实体物体进行采集处理，获得相应的待检测图像发送给服务器120；相应地，服务器120在接收待检测图像，并提取相应的颜色特征图和深度特征图，基于多种特征图尺寸对提取的特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图；以及，获取待检测图像的初始目标特征，该初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；然后，采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征，并基于该融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果。

需要说明的是，上述客户端可以为小程序客户端和浏览器客户端等，并且小程序客户端和浏览器客户端可以分别部署在不同的后台服务器中。

当然，本申请实施例提供的方法并不限用于图1或图2所示的应用场景中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1或图2所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

另外，上述所列举的由终端设备110和服务器120共同执行该多媒体信息的标签生成方法的过程只是一种可行的实施方式，实际上，任何一种由终端设备110、服务器120执行该方法的过程都适用于本申请实施例，本文不再逐一赘述。

在一种可选的实施方式中，终端设备110与服务器120之间可以通过一个或者多个网络130进行直接或间接的通信连接。该网络130可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(Wireless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本发明实施例对此不做限制。

需要说明的是，在本申请实施例中，终端设备110的数量可以为一个，也可以为多个，同样的，服务器120的数量也可以为一个，也可以为多个，也就是说对于，终端设备110或者服务器120的数量并不进行限制。

在一种可能的应用场景中，为了便于降低检索的通信时延，可以在各个地区部署服务器120，或为了负载均衡，可以由不同的服务器120分别去服务不同地区的终端设备110，例如，终端设备110位于地点a，与服务地点a的服务器120建立通信连接，终端设备110位于地点b，与服务地点b的服务器120建立通信连接，多个服务器120组成一数据共享系统，通过区块链实现数据的共享。

对于数据共享系统中的每个服务器120，均具有与该服务器120对应的节点标识，数据共享系统中的每个服务器120均可以存储有数据共享系统中其他服务器120的节点标识，以便后续根据其他服务器120的节点标识，将生成的区块广播至数据共享系统中的其他服务器120。每个服务器120中可维护一个节点标识列表，将服务器120名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网络之间互联的协议(Internet Protocol，IP)地址以及其他任一种能够用于标识该节点的信息。

示例性地，本申请实施例中，当服务器的数量为多个时，多个服务器可组成为一区块链，而服务器为区块链上的节点；如本申请实施例所公开的目标检测方法，其中所涉及的多种特征图尺寸、待检测图像对应的颜色特征图和深度特征图、各张融合特征图、初始目标特征、融合目标特征、目标检测结果等都可保存于区块链上。

此外，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶、自动驾驶等场景。

下面，结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。且需要说明的是，下述的方法可以由上述终端设备或者服务器执行，也可以由终端设备和服务器共同执行，这里具体是以服务器执行为例进行示出的。

参阅图3所示，为本申请实施例提供的一种多媒体信息的标签生成方法的实施流程图，以表征为终端设备或服务器的计算设备为执行主体为例，该方法的具体实施流程如下：

步骤301：基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图。

其中，预设的多种特征图尺寸之间各不相同，特征图尺寸越小，则相应的颜色特征图和深度特征图保留待检测图像的更少信息，特征图尺寸越大，则相应的颜色特征图和深度特征图保留待检测图像的更多信息。

经发明人实践发现，无论针对小物体采集的待检测图像、针对大物体采集的待检测图像、抑或针对小物体和大物体采集的待检测图像，基于单一特征图尺寸，提取的颜色特征图和深度特征图，难以在捕捉小物体的细节信息的同时，捕捉大物体的全局信息，导致后续基于单一特征图尺寸的颜色特征图和深度特征图，无法对待检测图像中的有效信息进行准确分析，获得的目标检测结果不稳定且准确性较低。

较优的，本申请实施例中，为提高目标检测的泛用性，预设的多种特征图尺寸之间的尺寸差异大于预设差异值，以在捕捉小物体细节信息的同时，更好捕捉大物体的全局特征，提高目标检测的性能。

进一步，基于预设的多种特征图尺寸，分别对待检测图像提取相应的颜色特征图和深度特征图。

在一种可选的实现方式中，上述待检测图像包括：针对同一目标场景采集的待检测颜色图和待检测深度图，则分别基于预设的多种特征图尺寸，对待检测颜色图和待检测深度图执行如下操作：基于预设的一种特征图尺寸，分别对待检测颜色图和待检测深度初始图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图，然后，对初始颜色特征图和初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图。

其中，目标场景下包含至少一个待检测物体，待检测颜色图可以是颜色采集设备采集获得的RGB(Red Green Blue，红绿蓝)图，待检测深度图可以是深度采集设备采集获得的深度(depth)图，或者，待检测深度图可以通过同一采集设备在不同采集时刻针对同一目标场景进行采集获得的两张采集深度图进行距离计算获得，或者，待检测深度图还可以通过不同采集设备在不同采集位置针对同一目标场景进行采集获得的两张采集深度图进行距离计算获得。

在一种可选的具体实现方式中，为实现对待检测颜色图和待检测深度图的图尺寸变换处理，以预设的一种特征图尺寸为例，基于一种特征图尺寸，对待检测颜色图和待检测深度图这两张待检测属性图，分别执行如下操作：基于一张待检测属性图的图尺寸与一种特征图尺寸之间的尺寸差异值，将一张待检测属性图分为多个待检测图块，然后分别将多个待检测图块各自包含的至少一个初始像素点，映射到相应的特征空间中，获得相应的初始属性特征图，该初始属性特征图为初始颜色特征图或初始深度特征图。

示例性地，以初始颜色特征图为例，参阅图4A所示，为本申请实施例中一种可能的初始颜色特征图的获得过程示意图，若待检测颜色图的高为H、宽为W、通道数为3(RGB三通道)，其中H和W构成待检测颜色图的图尺寸，且预设的一种特征图尺寸为H/4和W/4，则待检测颜色图的图尺寸与一种特征图尺寸之间的尺寸差异值为4，以4x4个相邻像素点为一个小块，将待检测颜色图分为多个待检测图块，然后针对每个待检测图块，将其中的每个像素点在通道(channel)方向展平(flatten)，在此每个待检测图块经展平处理后在单个通道有16个像素点，则对应RGB三通道有48个像素点，此时待检测颜色图的高为H/4、宽W/4、通道数为48，为保证不同特征图尺寸变换获得的初始颜色特征图的通道数一致，将每个待检测图块中的至少一个初始像素点映射到相应的特征空间中，实现对于每个初始像素点的通道数据的线性变换处理，获得高为H/4、宽W/4、通道数为C(指定通道数)的初始颜色特征图。

需要说明的是，初始深度特征图也可通过上述方式针对待检测深度图进行转换处理后获得，可选地，将待检测深度图的维度数由1变换为3，也即将待检测深度图的深度维度拷贝三次，则其处理方式与上述待检测颜色图的处理方式完全一致，当然，前述维度拷贝操作并非必须，基于类似思想对待检测深度图进行转换处理也可以获得相应的初始颜色特征图。

另外，上述过程可基于深度学习思想，例如应用Swin Transformer实现上述初始颜色特征图或初始深度图的转换过程，在此不对具体实现方式做具体限制。

在一种可选的具体实现方式中，为基于各初始颜色特征图和初始深度特征图，获得相应的颜色特征图和深度特征图，在此，以预设的一种特征图尺寸为例，对相应的初始颜色特征图和相应的初始深度特征图这两张初始属性特征图，分别执行如下操作：基于预设的窗口尺寸，将一张初始属性特征图分为多个窗口图块，其中每个窗口图块包含一张初始属性特征图中的至少一个候选像素点，然后，分别对多个窗口图块各自包含的至少一个候选像素点，进行自注意力特征交互处理，并且，至少对多个窗口图块之间进行交叉注意力特征交互处理，获得相应的属性特征图，该属性特征图为颜色特征图或深度特征图。

示例性地，以一张初始特征图为例，参阅图4B所示，为本申请实施例中一种可能的属性特征图的获得过程示意图，若预设的窗口尺寸为2x2(窗口单位：像素点)，则从初始属性特征图的左上角起，从左至右、从上至下遍历初始属性图中的每个候选像素点，将一张初始特征图分为多个窗口图块，对每个窗口图块包含的四个候选像素点进行自注意力特征交互处理，以及，针对相邻的两个窗口图块进行交叉注意力特征交互处理，获得相应的属性特征图。

另外，上述过程可基于深度学习思想，例如应用win Transformer Block实现上述属性特征图的获得过程，在此不对实现方式做具体限制。

可选地，在上述特征交互处理获得相应的属性特征图的过程中，将相邻的经过特征交互处理的窗口图块进行合并操作，同时对合并结果进行特征(通道)维度的转换处理，也即将相应通道数转换为指定通道数，实现对待检测图像中有用的关联信息的挖掘。

容易理解地，上述窗口图块的处理过程中，引入transformer的思想实现窗口图块内部的自注意力(W-MSA)特征交互处理，以及，引入卷积移位思想实现窗口图块之间的交叉注意力特征交互处理，加强属性特征图中各像素点与相邻像素点之间的关联关系的挖掘，有助于提升后续的目标检测结果的准确性和稳定性。

步骤302：基于多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图。

一般来说，针对每种特征图尺寸，对相应的一张颜色特征图和一张深度特征图进行特征融合处理，获得该特征图尺寸对应的一张融合特征图；由于颜色特征图和深度特征图都是挖掘相应待检测图像中各像素点之间的关联关系生成的，因此相应的融合特征图不仅能够更好保留待检测图像中物体的形态信息，还能有效保留其中各像素点之间的关联关系，例如物体与物体之间、物体与非物体、物体与背景之间的关联关系等。

在本申请实施例中，还提供一种基于像素点级的特征图融合方式，该方式中，针对每种特征图尺寸，分别执行如下操作：获取与一种特征图尺寸匹配的颜色特征图和深度特征图，在前述颜色特征图中，分别基于前述深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图；以及，在前述深度特征图中，分别基于前述颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图，然后，将第一融合特征图和第二融合特征图，均作为特征图尺寸对应的融合特征图。

其中，第一融合特征图为以颜色特征图为主导、结合深度特征图生成的融合特征图，第二融合特征图为以深度特征图为主导、结合颜色特征图生成的融合特征图。

示例性地，参阅图5所示，为本申请实施中多种特征图尺寸各自对应的第一融合特征图和第二融合特征图的生成示意图，其一，分别以多张颜色特征图为主导，其与相应的深度特征图进行融合，生成多张第一融合特征图；其二，分别以多张深度特征图为主导，其与相应的颜色特征图进行融合，生成多张第二融合特征图。

为便于理解，下面分为两个部分，分别阐述第一融合特征图和第二融合特征图的生成方式。

第一部分：第一融合特征图的生成方式。

具体地，在颜色特征图中，分别基于深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图。

参见图6A所示，为本申请实施例中获取第一融合特征图的过程示意图，以单个颜色像素点为例，针对每个颜色像素点，分别执行如下操作：基于颜色像素点，分别与深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重，并基于获得的K个第一融合权重，对K个深度像素点和颜色像素点进行融合处理，获得颜色像素点对应的第一融合点。然后，再基于每个颜色像素点各自对应的第一融合点，获得相应的第一融合特征图。

其中，每个第一融合权重表征：相应深度像素点与颜色像素点之间的关联关系，且第一关联条件用于评估关联关系的相似程度，当然，此处关联关系包括但不限于：前述二者之间的距离相似关系以及语义关联关系。

示例性地，针对预设的一种预设图尺寸，相应的颜色特征图F_rgb的尺寸和维度为h×w×c，相应的深度特征图F_depth的尺寸和颜色为h×w×c，则对于一个颜色像素点q对应的第一融合点与K个深度像素点及其相应的第一融合权重之间的关联关系可表征为：

其中，为颜色像素点q对应的第一融合点，/>为颜色像素点q，W_qk为颜色像素点q对应的第k个第一融合权重，/>为颜色像素点q对应的第k个深度像素点；对于来说，Δ_qk表征第k个深度像素点相较于颜色像素点起的位置偏移量。

进一步，在第一种可选的具体实现方式中，还提出一种获得K个深度像素点及其相应的第一融合权重的方式，该方式中，首先基于第一关系预测参数，获得各个深度像素点各自与颜色像素点之间的第一关联信息，然后在获得的各第一关联信息中，选取满足第一关联条件的K个第一关联信息，并获得相应的K个深度像素点，再基于第一权重预测参数，分别计算每个深度像素点对颜色像素点的影响程度，获得K个深度像素点各自对应的第一融合权重；

其中，第一关系预测参数表征：颜色像素点与深度特征图中的各个深度像素点之间的关联关系，第一权重预测参数表征：颜色像素点与K个深度像素点之间的关联关系。

示例性地，上述K个深度像素点及其相应的第一融合权重的获得过程可基于深度学习，采用全连接层预测得到，上述第一关系预测参数、第一权重预测参数为全连接层训练过程中的学习参数，则K个深度像素点及其相应的第一融合权重，与颜色像素点q之间的关联关系可表征为：

其中，W_qk为颜色像素点q对应的第k个第一融合权重，Δ_qk为第k个深度像素点相较于颜色像素点起的位置偏移量，为颜色像素点q对应的第一融合点，MLP()为全连接层处理方式。

值得说明的是，上述K个第一融合权重之间的和值满足预设阈值，例如当预设阈值为1时，K个第一融合权重之间的关联关系可表征如下：

其中，W_qk为颜色像素点q对应的第k个第一融合权重，K为大于或等于1的整数。

第二部分：第二融合特征图的生成方式。

具体地，在深度特征图中，分别基于颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图。

参见图6B所示，为本申请实施例中获取第二融合特征图的过程示意图，以单个深度像素点为例，针对每个深度像素点，分别执行如下操作：基于深度像素点，分别与颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重，然后，基于获得的K个第二融合权重，对K个颜色像素点和深度像素点进行融合处理，获得深度像素点对应的第二融合点。然后，再基于每个深度像素点各自对应的第二融合点，获得相应的第二融合特征图。

其中，每个第二融合权重表征：相应颜色像素点与深度像素点之间的关联关系，且第二关联条件用于评估关联关系的相似程度，当然，此处关联关系包括但不限于：前述二者之间的距离相似关系以及语义关联关系。

示例性地，针对预设的一种预设图尺寸，相应的颜色特征图F_rgb的尺寸和维度为h×w×c，相应的深度特征图F_depth的尺寸和颜色为h×w×c，则对于一个深度像素点q对应的第一融合点与K个颜色像素点及其相应的第二融合权重之间的关联关系可表征为：

其中，为深度像素点q对应的第二融合点，/>为深度像素点q，W_qk为深度像素点q对应的第k个第二融合权重，/>为深度像素点q对应的第k个颜色像素点；对于/>来说，Δ_qk表征第k个颜色像素点相较于深度像素点起的位置偏移量。

进一步，在一种可选的具体实现方式中，还提出一种获得K个颜色像素点及其相应的第二融合权重的方式，该方式中，首先基于第二关系预测参数，获得各个颜色像素点各自与深度像素点之间的第二关联信息，然后在获得的各第二关联信息中，选取满足第二关联条件的K个第二关联信息，并获得相应的K个颜色像素点，再基于第二权重预测参数，分别计算每个颜色像素点对深度像素点的影响程度，获得K个颜色像素点各自对应的第二融合权重。

其中，第二关系预测参数表征：深度像素点与颜色特征图中的各个颜色像素点之间的关联关系，第二权重预测参数表征：深度像素点与K个颜色像素点之间的关联关系。

示例性地，上述K个颜色像素点及其相应的第二融合权重的获得过程可基于深度学习，采用全连接层预测得到，上述第二关系预测参数、第二权重预测参数为全连接层训练过程中的学习参数，则K个颜色像素点及其相应的第二融合权重，与深度像素点q之间的关联关系可表征为：

其中，W_qk为深度像素点q对应的第k个第二融合权重，Δ_qk为第k个颜色像素点相较于深度像素点起的位置偏移量，为深度像素点q对应的第二融合点，MLP()为全连接层处理方式。

值得说明的是，上述K个第二融合权重之间的和值满足预设阈值，例如当预设阈值为1时，K个第二融合权重之间的关联关系可表征如下：

其中，W_qk为深度像素点q对应的第k个第二融合权重，K为大于或等于1的整数。

还需要说明的是，本步骤上述实现过程可采用深度学习，基于相同的实现思想，通过DTCA(Deformable Transformer Cross Attention)模块来执行实现，在此不做赘述。

综上所述，本步骤基于像素级实现对于特征图的融合，并提出以颜色特征图或深度特征图为主导的特征图融合方式，具体针对单一颜色像素点或深度像素点，通过采样相应K个深度像素点或颜色像素点，实现对于稀疏空间的采样和像素级的交互建模，并且，对于每个颜色像素点或深度像素点来说，相应的K个深度像素点或颜色像素点并不相同，而是根据基于像素点之间的关联关系来确定选择的K个深度像素点的位置及其对应的融合权重(第一融合权重或第二融合权重)，使得特征图的融合过程更加灵活，能够更好适应不同特征图尺寸，并有效融合颜色的有效信息和深度的有效信息，以提高后续目标检测结果的稳定性和准确性。

步骤303：获取待检测图像的初始目标特征，初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系。

其中，初始目标特征可以是一组可学习/待更新的随机初始化特征，初始关联关系可以根据实际情况进行预设，例如预设每种初始关联关系都是等同的，等等。

示例性地，初始目标特征可表征一个经过随机初始化处理的可学习的目标模板object quries其中，/>为实数，N为预设的N个候选物体，C为各候选物体对应的特征维度(通道数)。

步骤304：采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征。

其中，融合目标特征表征：N个候选物体与各目标检测类别之间的目标关联关系。

参阅图7所示，为本申请实施例中对初始目标特征进行特征交互处理的过程示意图。可以看到，以预设有4种特征图尺寸为例，采用其对应的4张第一融合特征图和4张第二融合特征图对初始目标特征进行特征交互处理，获得融合目标特征。

具体地，本申请实施中，采用获取的各融合特征图，依次对初始目标特征执行迭代的更新处理，获得相应的更新目标特征。

针对上述更新处理，在一次更新过程中，获取一张融合特征图与初始目标特征之间的特征关联信息，并基于特征关联信息对初始目标特征的正向影响，更新初始目标特征。

在一种可选的实现方式中，在更新上述初始目标特征的过程中，以更新初始目标特征中的单个初始特征点为例，针对每个初始特征点，分别执行如下操作：基于一个初始特征点，分别与一张融合特征图中的各个融合像素点之间的关联关系，获得满足融合关联条件的J个融合像素点及其相应的融合关联权重，然后基于获得的J个融合关联权重，对J个融合像素点和初始特征点进行融合处理，获得初始特征点对应的更新特征点。

其中，每个融合关联权重表征：相应融合像素点与初始特征点之间的关联关系，该关联关系表征相应融合像素点与初始特征点之间的距离关系、语义关系等。

作为一种示例，多种预设的特征图尺寸对应的多张第一融合特征图，采用这多张第一融合特征图对初始目标特征进行更新，以采用一张第一融合特征图更新初始目标特征中的一个初始特征点i为例，则该第一融合特征图与初始特征点i之间的关联关系可表征如下：

其中，i∈[1,N]，N为预设的候选目标总数，Q_i为初始目标特征中的一个初始特征点i，W_ij为初始特征点i对应的第j个融合关联权重，且J为大于或等于1的整数，为初始特征点Q_i对应的第j个融合像素点(也即第j个融合像素点的特征)；对于/>来说，ref表征针对初始特征点Q_i预测的参考点(也即锚点)，Δij表征第j个融合像素点相较于参考点ref的位置偏移量，W_ij表征一个初始特征点Q_i与参考点ref之间的相关性。

值得说明的是，上述J个融合关联权重之间的和值满足预设阈值，例如当预设阈值为1时，J个融合关联权重之间的关联关系可表征如下：

其中，W_ij为第j个融合像素点对应的融合关联权重，K为大于或等于1的整数。

作为另一种示例，多种预设的特征图尺寸对应的多张第二融合特征图，采用这多张第二融合特征图对初始目标特征进行更新，以采用一张第二融合特征图更新初始目标特征中的一个初始特征点i为例，则该第二融合特征图与初始特征点i之间的关联关系可表征如下：

后续，在基于多种特征图尺寸各自对应的第一融合特征图和第二融合特征图，更新初始目标特征，获得更新目标特征后，基于该更新目标特征表征的N个候选物体之间的物体关联信息，调整更新目标特征，获得融合目标特征。

在一种可选的实现方式中，在调整上述更新目标特征的过程中，针对更新目标特征表征的N个候选物体，基于每个候选物体与N个候选物体之间的物体关联关系，获得N个候选物体各自对应的物体权重，然后采用获得的N个物体权重，对更新目标特征进行加权求和处理，获得融合目标特征。

示例性地，针对更新目标特征Q，获取更新目标特征的矩阵倒置Q^T，对更新目标特征Q及其矩阵倒置Q^T进行点乘处理(Q·Q^T)，再对点成结果(Q·Q^T)进行归一化处理，则可将归一化处理结果作为N个候选物体各自对应的物体权重。可选地，基于激活函数(如：softmax)实现前述归一化处理，则N个候选物体各自对应的物体权重可表征为：softmax(Q·Q^T)。相应地，融合目标特征与N个物体权重、更新目标特征之间的关联关系可表征为：

Q_update＝softmax(Q·Q^T)·Q

其中，Q_update为融合目标特征，softmax(Q·Q^T)为N个候选物体各自对应的物体权重，Q为更新目标特征(其中至少包含N个候选物体)。

综上所述，通过本步骤，引入初始目标特征，用以与多个特征图尺寸各自对应的至少一张融合特征图进行融合个处理，使得获得的融合目标特征能够表征不同特征图尺寸(也即不同尺度)的融合特征表示，更加全面地捕捉真实物体在不同尺寸(尺度)下的细节信息和语义信息(上下文信息)，提高了目标检测的表达能力和准确性。

步骤305：基于融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果。

其中，基于已训练的两个MLP全连接层，将融合目标特征分别输入这两个MLP全连接层，基于这两个MLP全连接层，分别确定归属于相应目标检测类别的至少一个目标物体，以及，确定至少一个目标物体各自在相应待检测图像中的位置信息(例如：检测框等)。

在一种可选的实现方式中，已训练的MLP全连接层中预存各目标检测类别各自关联的检测参数，则其内部执行流程可包括：获取各目标检测类别各自关联的检测参数，其中每个检测参数表征：各历史物体与相应目标检测类别之间的关联程度，然后基于获取的各检测参数，对融合目标特征进行特征分析处理，获得N个候选物体各自属于各目标检测类别的检测概率，再针对N个候选物体，分别执行如下操作：当个候选物体关联的最大检测概率满足预设检测概率，确定候选物体为归属于最大检测概率对应的目标检测类别的目标物体，以及，确认目标物体在相应待检测图像中的位置信息(例如：检测框)。

需要说明的是，上述执行流程采用已训练的MLP全连接层执行为一种可能的情况，本申请实施例并不对执行主体或执行场景做具体限制，还可以是其他已训练的检测模型或检测架构。

综上所述，本申请实施例提供一种目标检测方法，可广泛应用于各种针对实体物体的目标检测场景下，用以提升目标检测的准确性，减少误检和漏检的情况发生。

如图8所示，为本申请实施例提供的缺陷检测示意图，简单来说，基于颜色采集设备针对目标场景采集待检测颜色图、基于深度采集设备针对目标场景采集待检测深度图，将待检测颜色图和待检测深度图均作为待检测图像，将起输入双流编码器(也即两个SwinTransformer编码器)中，基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图，基于多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图，以及获取待检测图像的初始目标特征，采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征；再将融合目标特征输入解码器中，基于融合目标特征，在其表征的N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果，以检测框标识出待检测图像中发生故障的目标物体(如：目标锂电池)的位置，以及确定目标物体的故障类别。

参见图9所示，基于同一发明构思，本申请实施例还提供了一种目标检测装置900，该装置包括：

提取单元901，用于基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图；

融合单元902，用于基于多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得多种特征图尺寸各自对应的至少一张融合特征图；

交互单元903，用于获取待检测图像的初始目标特征，初始目标特征表征：针对待检测图像预设的，N个候选物体与各目标检测类别之间的初始关联关系；采用获得的各融合特征图，对初始目标特征进行特征交互处理，获得融合目标特征；

获得单元904，用于基于融合目标特征，在N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，以获得待检测图像的目标检测结果。

可选地，待检测图像包括：针对同一目标场景采集的待检测颜色图和待检测深度图；

则提取单元901，具体用于：

分别基于预设的多种特征图尺寸，对待检测颜色图和待检测深度图执行如下操作：

基于预设的一种特征图尺寸，分别对待检测颜色图和待检测深度初始图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图；

对初始颜色特征图和初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图。

可选地，提取单元901，用于基于预设的一种特征图尺寸，分别对待检测颜色图和待检测深度图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图，具体用于：

基于预设的一种特征图尺寸，对待检测颜色图和待检测深度图这两张待检测属性图，分别执行如下操作：

基于一张待检测属性图的图尺寸与一种特征图尺寸之间的尺寸差异值，将一张待检测属性图分为多个待检测图块；

分别将多个待检测图块各自包含的至少一个初始像素点，映射到相应的特征空间中，获得相应的初始属性特征图，初始属性特征图为初始颜色特征图或初始深度特征图。

可选地，提取单元901，用于对初始颜色特征图和初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图，具体用于：

对初始颜色特征图和初始深度特征图这两张初始属性特征图，分别执行如下操作：

基于预设的窗口尺寸，将一张初始属性特征图分为多个窗口图块；其中，每个窗口图块包含一张初始属性特征图中的至少一个候选像素点；

分别对多个窗口图块各自包含的至少一个候选像素点，进行自注意力特征交互处理，并且，至少对多个窗口图块之间进行交叉注意力特征交互处理，获得相应的属性特征图，属性特征图为颜色特征图或深度特征图。

可选地，融合单元902，具体用于：

针对每种特征图尺寸，分别执行如下操作：

获取与特征图尺寸匹配的颜色特征图和深度特征图；

在颜色特征图中，分别基于深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图；

在深度特征图中，分别基于颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图；

将第一融合特征图和第二融合特征图，均作为特征图尺寸对应的融合特征图。

可选地，融合单元902，用于在颜色特征图中，分别基于深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图，具体用于：

针对颜色特征图中的每个颜色像素点，分别执行如下操作：

基于颜色像素点，分别与深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重；其中，每个第一融合权重表征：相应深度像素点与颜色像素点之间的关联关系；

基于获得的K个第一融合权重，对K个深度像素点和颜色像素点进行融合处理，获得颜色像素点对应的第一融合点；

基于每个颜色像素点各自对应的第一融合点，获得相应的第一融合特征图。

可选地，融合单元902，用于基于颜色像素点，分别与深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重，具体用于：

基于第一关系预测参数，获得各个深度像素点各自与颜色像素点之间的第一关联信息；其中，第一关系预测参数表征：颜色像素点与深度特征图中的各个深度像素点之间的关联关系；

基于第一权重预测参数，分别计算每个深度像素点对颜色像素点的影响程度，获得K个深度像素点各自对应的第一融合权重；其中，第一权重预测参数表征：颜色像素点与K个深度像素点之间的关联关系。

可选地，融合单元902，用于在深度特征图中，分别基于颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图，具体用于：

针对深度特征图中的每个深度像素点，分别执行如下操作：

基于深度像素点，分别与颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重；其中，每个第二融合权重表征：相应颜色像素点与深度像素点之间的关联关系；

基于获得的K个第二融合权重，对K个颜色像素点和深度像素点进行融合处理，获得深度像素点对应的第二融合点；

基于每个深度像素点各自对应的第二融合点，获得相应的第二融合特征图。

可选地，融合单元902，用于基于深度像素点，分别与颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重，具体用于：

基于第二关系预测参数，获得各个颜色像素点各自与深度像素点之间的第二关联信息；其中，第二关系预测参数表征：深度像素点与颜色特征图中的各个颜色像素点之间的关联关系；

基于第二权重预测参数，分别计算每个颜色像素点对深度像素点的影响程度，获得K个颜色像素点各自对应的第二融合权重；其中，第二权重预测参数表征：深度像素点与K个颜色像素点之间的关联关系。

可选地，交互单元903，具体用于：

采用获取的各融合特征图，依次对初始目标特征执行迭代的更新处理，获得相应的更新目标特征；其中，在一次更新过程中，获取一张融合特征图与初始目标特征之间的特征关联信息，并基于特征关联信息对初始目标特征的正向影响，更新初始目标特征；

基于更新目标特征表征的N个候选物体之间的物体关联信息，调整更新目标特征，获得融合目标特征。

可选地，交互单元903，用于获取一张融合特征图与初始目标特征之间的特征关联信息，并基于特征关联信息对初始目标特征的正向影响，更新初始目标特征，具体用于：

针对初始目标特征中的每个初始特征点，分别执行如下操作：基于初始特征点，分别与一张融合特征图中的各个融合像素点之间的关联关系，获得满足融合关联条件的J个融合像素点及其相应的融合关联权重；其中，每个融合关联权重表征：相应融合像素点与初始特征点之间的关联关系；

基于获得的J个融合关联权重，对J个融合像素点和初始特征点进行融合处理，获得初始特征点对应的更新特征点。

可选地，交互单元903，用于基于更新目标特征表征的N个候选物体之间的物体关联信息，调整更新目标特征，获得融合目标特征，具体用于：

针对更新目标特征表征的N个候选物体，基于每个候选物体与N个候选物体之间的物体关联关系，获得N个候选物体各自对应的物体权重；

采用获得的N个物体权重，对更新目标特征进行加权求和处理，获得融合目标特征。

可选地，获得单元904，具体用于：

获取各目标检测类别各自关联的检测参数；其中，每个检测参数表征：各历史物体与相应目标检测类别之间的关联程度；

基于获取的各检测参数，对融合目标特征进行特征分析处理，获得N个候选物体各自属于各目标检测类别的检测概率；

针对N个候选物体，分别执行如下操作：当个候选物体关联的最大检测概率满足预设检测概率，确定候选物体为归属于最大检测概率对应的目标检测类别的目标物体。

该装置可以用于执行本申请各实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考前述实施例的描述，不多赘述。

请参见图10所示，基于同一技术构思，本申请实施例还提供了一种计算机设备1000，该计算机设备1000可以为图1或图2所示的终端设备或服务器，该计算机设备1000可以包括存储器1001和处理器1002。

所谓存储器1001，用于存储处理器1002执行的计算机程序。存储器1001可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1002，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本申请实施例中不限定上述存储器1001和处理器1002之间的具体连接介质。本申请实施例在图10中以存储器1001和处理器1002之间通过总线1003连接，总线1003在图10中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所谓总线1003可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1001可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1001也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器1001是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1001可以是上述存储器的组合。

处理器1002，用于调用所谓存储器1001中存储的计算机程序时执行本申请各实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所谓程序产品在计算机设备上运行时，所谓程序代码用于使所谓计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所谓计算机设备可以执行本申请各实施例中设备所执行的方法。

所谓程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标检测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述待检测图像包括：针对同一目标场景采集的待检测颜色图和待检测深度图；

则所述基于预设的多种特征图尺寸，分别针对待检测图像提取相应的颜色特征图和深度特征图，包括：

3.如权利要求2所述的方法，其特征在于，所述基于预设的一种特征图尺寸，分别对所述待检测颜色图和所述待检测深度图进行图尺寸的变换处理，获得相应的初始颜色特征图和初始深度特征图，包括：

4.如权利要求2所述的方法，其特征在于，所述对所述初始颜色特征图和所述初始深度特征图，分别进行图内像素点的交互处理，获得相应的颜色特征图和深度特征图，包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述多种特征图尺寸，分别对相应的颜色特征图和深度特征图进行特征融合处理，获得所述多种特征图尺寸各自对应的至少一张融合特征图，包括：

针对每种特征图尺寸，分别执行如下操作：

获取与所述特征图尺寸匹配的颜色特征图和深度特征图；

6.如权利要求5所述的方法，其特征在于，所述在所述颜色特征图中，分别基于所述深度特征图中的K个深度像素点，对每个颜色像素点进行特征融合处理，获得相应的第一融合特征图，包括：

7.如权利要求6所述的方法，其特征在于，所述基于所述颜色像素点，分别与所述深度特征图中的各个深度像素点之间的关联关系，获得满足第一关联条件的K个深度像素点及其相应的第一融合权重，包括：

8.如权利要求5所述的方法，其特征在于，所述在所述深度特征图中，分别基于所述颜色特征图中的K个颜色像素点，对每个深度像素点进行特征融合处理，获得相应的第二融合特征图，包括：

9.如权利要求8所述的方法，其特征在于，所述基于所述深度像素点，分别与所述颜色特征图中的各个颜色像素点之间的关联关系，获得满足第二关联条件的K个颜色像素点及其相应的第二融合权重，包括：

10.如权利要求1～9任一项所述的方法，其特征在于，所述采用获得的各融合特征图，对所述初始目标特征进行特征交互处理，获得融合目标特征，包括：

11.如权利要求10所述的方法，其特征在于，所述获取一张融合特征图与所述初始目标特征之间的特征关联信息，并基于所述特征关联信息对所述初始目标特征的正向影响，更新所述初始目标特征，包括：

12.如权利要求10所述的方法，其特征在于，所述基于所述更新目标特征表征的N个候选物体之间的物体关联信息，调整所述更新目标特征，获得融合目标特征，包括：

13.如权利要求1～9任一项所述的方法，其特征在于，所述基于所述融合目标特征，在所述N个候选物体中，确定归属于相应目标检测类别的至少一个目标物体，包括：

14.一种目标检测装置，其特征在于，包括：

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至13任一项所述方法的步骤。

16.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

所述计算机程序指令被处理器执行时实现权利要求1至13任一项所述方法的步骤。

17.一种计算机程序产品，包括计算机程序指令，其特征在于，