CN114462490A

CN114462490A - 图像目标的检索方法、检索设备、电子设备和存储介质

Info

Publication number: CN114462490A
Application number: CN202111636768.4A
Authority: CN
Inventors: 宋忠浩
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-05-10

Abstract

本申请公开了一种图像目标的检索方法、检索设备、电子设备和存储介质，其中检索方法包括：对预处理图像进行特征提取，得到多尺度特征图像；对多尺度特征图像进行自适应加权融合，得到增强图像；基于增强图像，输出原始图像的目标特征，以检索图像目标。通过上述方式，本申请通过对多尺度特征图像进行自适应加权融合，提高了图像目标的检测精度。

Description

图像目标的检索方法、检索设备、电子设备和存储介质

技术领域

本申请涉及监控技术领域，特别是涉及一种图像目标的检索方法、检索设备、电子设备以及可读存储介质。

背景技术

通常，遥感图像的目标检测是从给定图像中提取感兴趣目标的类别和位置信息的技术，在侦查监视、武器制导、资源勘探、灾害检测、城市规划等军事和民用领域有着广泛的应用。近年来，随着卫星和遥感技术的不断发展，遥感图像的时间分辨率、空间分辨率和图像质量都有了很大的提高，同时对目标检测模型的检测精度和实时性也有了更高的要求。因此遥感图像的目标检测技术一直是遥感技术领域的研究热点，具有非常重要的理论研究意义和实践应用价值。

随着深度学习的迅速发展，目标检测技术也在不断进步。现阶段结合深度学习技术进行遥感图像的目标检测成为主流的发展趋势。目前，遥感图像中的图像目标的尺寸有大有小，数量分布方面也呈现多样性，而对遥感图像进行分层处理时直接采用特征拼接，导致不同尺寸的图像特征被损失，使得图像目标的检索不准确，从而进行多次检索使得检索效率低。

发明内容

为解决上述技术问题，本申请第一方面采用的技术方案是提供一种图像目标的检索方法，该检索方法包括：对预处理图像进行特征提取，得到多尺度特征图像；对多尺度特征图像进行自适应加权融合，得到增强图像；基于增强图像，输出原始图像的目标特征，以检索图像目标。

为解决上述技术问题，本申请第二方面采用的技术方案是提供一种检索设备，包括：

提取模块，用于对预处理图像进行特征提取，得到多尺度特征图像；

自适应加权融合模块，用于对多尺度特征图像进行自适应加权融合，得到增强图像；

输出模块，用于基于增强图像，输出原始图像的目标特征，以检索图像目标。

为解决上述技术问题，本申请第三方面采用的技术方案是提供一种电子设备，该电子设备包括：处理器和存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现如本申请第一方面的检索方法。

为解决上述技术问题，本申请第四方面采用的技术方案是提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序能够被处理器执行时实现本申请第一方面的检索方法。

本申请的有益效果是：本申请通过对预处理图像进行特征提取，再者对得到的多尺度特征图像进行自适应加权融合，一方面可以增强图像目标，另一方面通过自适应加权融合可以挖掘多层特征图像的特征表征能力，综合利用多尺度特征提高图像目标的检测精度，从而提升图像目标的检索效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是图像目标的检索方法流程框架示意图；

图2是本申请图像目标的检索方法第一实施例流程示意图；

图3是图2中步骤S11之前预处理的一具体实施流程示意图；

图4是图2中步骤S11的一具体实施流程示意图；

图5是图4中图像特征提取流程示意图；

图6是图5中图像特征提取流程中采用的残差块结构示意图；

图7是图2中步骤S12的一具体实施流程示意图；

图8是图7中图像特征增强一具体实施例的网络结构示意图；

图9是图7中步骤S43的一具体实施流程示意图；

图10是图9中步骤S51的一具体实施流程示意图；

图11是图7中步骤S43的另一具体实施流程示意图；

图12是图2中步骤S13的检测器模块网络结构示意图；

图13是图2中步骤S13的一具体实施例流程示意图；

图14是本申请检索设备实施例的结构示意框图；

图15是本申请电子设备实施例的结构示意框图；

图16是本申请计算机可读存储介质实施例的电路示意框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了说明本申请的技术方案，请参阅图1，图1是图像目标的检索方法流程框架示意图，本申请主要针对原始图像的目标检测任务进行检索执行，比如遥感图像，如图1所示，构建的目标检测方案主要采用的模块主要包括数据预处理模块11、特征提取模块12、特征增强模块12、检测器模块14以及后处理模块15五个部分组成，其中，原始图像经过这五个模块的处理，则得到结果输出。

下面通过具体实施例来进行说明本申请提供一种图像目标的检测方法，请参阅图2，图2是本申请图像目标的检索方法第一实施例流程示意图，该检索方法具体包括以下步骤：

S11：对预处理图像进行特征提取，得到多尺度特征图像；

对于尺寸较大的原始图像，比如遥感图像，通常所涉及的范围有几十公里，而原始图像上的一些图像目标往往以集中的形式出现，比如港口的船只货箱等，而另一些图像目标又以分散的形式出现，比如行人、车辆、动物等。

为了对原始图像中的图像目标进行提取，可以通过将预处理图像进行分割，将尺寸较大的原始图像进行分割，可以得到尺寸较小的图像，以便于更为集中地在小范围内进行图像目标搜索。

具体地，通过对预处理图像进行特征提取的方式以对预处理图像进行尺寸分割，从而得到多尺度特征图像，进而使得后续对多尺度特征图像分别进行分层处理，剔除无用的图像碎片，保留有图像目标的图像碎片，利于提升方案的实现性。

S12：对多尺度特征图像进行自适应加权融合，得到增强图像；

多尺度特征图像也即是不同尺寸的图像特征信息，可以利用不同的分辨率特征来对图像目标来进行表示，而特征融合阶段目的是为了提高提取特征的利用率。

在特征融合阶段，低分辨率特征具有较强的语义信息，能够区分目标和背景，但细节信息较少；而高分辨率特征具有较丰富的细粒度信息，相应的其语义信息较弱，因此如何充分的利用语义信息和细粒度信息是提高特征融合效率的关键。

具体地，通过在由细粒度信息和语义信息决定的加权节点上，使用自适应加权融合的方案对多尺度特征图像进行特征增强，其中自适应加权融合最主要体现在加权节点对应的加权系数通过不断更新迭代决定，因此在特征融合阶段进行优化，设计多尺度特征图像自适应加权融合，通过挖掘特征提取网络的表征能力，综合利用多尺度特征提高了图像目标的检测精度。

S13：基于增强图像，输出原始图像的目标特征，以检索图像目标。

具体地，比如，YOLOv3对多个尺度的提取特征进行预测输出，不同尺度特征具有不同的感受野，用于检测不同尺寸的目标。对于多尺度检测来说，如果可以利用更多的高分辨率特征信息，则图像检测会更有利于小目标的检测。

基于增强图像，对融合后的图像特征进行预测输出，具体地可以得到多尺度特征图像输出的预测信息，并且输出增强图像的目标特征，由此输出原始图像的目标特征，从而实现对图像目标的检索。

因此，本申请过对原始图像进行预处理和特征提取，再者对得到的多尺度特征图像进行自适应加权融合，一方面可以增强图像目标，另一方面通过自适应加权融合可以挖掘多层特征图像的特征表征能力，综合利用多尺度特征提高图像目标的检测精度，从而提升图像目标的检索效率。

更进一步地，对获取的原始图像进行预处理，得到预处理图像，请参阅图3，图3是图2中步骤S11之前预处理的一具体实施流程示意图，具体包括以下步骤：

S21：获取原始图像；

具体地，检索系统中设有摄像头等图像拍摄装置，用于拍摄图像或视频，并且可以在检索设备中设置存储模块，用于存储拍摄的图像或视频文件，因此，原始图像的获取可以是直接通过图像拍摄装置，也可以通过从存储模块中进行获取，当然，本领域相关技术人员还可以使用其他方式获取原始图像，此处不作限定。

S22：对原始图像的图片数量、标注的目标类别以及目标数量进行数据分析、数据清洗以及数据增强，得到预处理图像；

目前，基于深度学习的目标检测算法可以分为基于区域的两阶段和基于回归的单阶段。两阶段检测算法的检测精度高，但对目标的检测实时性较低，单阶段算法可以满足实时性需求，并且有一定的检测精度。

因为原始图像中包含有采集到的各类信息，比如目标类别标注错误、目标位置标注错误以及不相关的标注信息等数据，而这类信息往往对图像目标存在一定影响。

为了消除这些标类别标注错误、目标位置标注错误以及不相关的标注信息等数据对图像目标的影响，可以采用数据清洗的预处理方式对获取的原始图像进行处理，以得到的预处理图像进行后续操作，更有利于对图像目标的提取。

对于深度检索来说，训练数据的有效性对图像目标的性能有着很大的影响，因此构建均衡完备的数据集具有非常重要的作用。

具体地，首先对原始图像进行数据分析，包括图片数量、标注目标类别及数量；然后根据实际业务需要进行数据清洗，去除不干净的脏数据，主要包括目标类别标注错误、目标位置标注错误以及不相关的标注信息等数据；接着评估数据的均衡性和完备性，在此阶段主要对原始图片做数据增强的操作，其中，数据增强包括几何增强和色彩增强。

其中，均衡性是指数据类型，比如一万辆车，而只有2个人，则不具备均衡性；完备性是指数据种类，比如需要有人，但没有，则不具备完备性。

考虑到遥感图像覆盖的范围广阔，所需要的采集数据不够设定需求的样本个数，比较单一，不够丰富，容易导致适应性低。由于一般不对像素进行更改，而进行改变尺寸、进行翻转、旋转、拉伸和变换等操作，从而增强数据的复杂度，数据涵盖范围接近真实情况；而色彩增强是通过RGB通道来进行操作，改变图像的对比度、透明度、去降噪和去噪。

更进一步地，对预处理图像进行特征提取，得到多尺度特征图像，请参阅图4，图4是图2中步骤S11的一具体实施流程示意图，具体包括以下步骤：

S31：将预处理图像输入预设卷积神经网络模块中进行特征提取，得到第一特征图像；

具体地，可以采用卷积神经网络(Convolutional Neural Networks，CNN)模型DarkNet-53对输入的预处理图像进行特征提取。其中，预设卷积神经网络模块包括输入层模块、卷积层(Convolution)模块、降采样层模块、反卷积层模块、输出层模块，这是网络结构中的基本组成部分。其中，卷积层模块至少可以执行卷积、批量归一化(BatchNormalization)、激活(Leaky Relu)函数中的一种操作，这是网络结构中的基本组成部分。

具体地，请参阅图5，图5是图4中图像特征提取流程示意图，可以如图5所示，首先将原始图像重新定义到416×416的尺寸大小，然后输入DarkNet-53进行特征提取，得到第一特征图像。

S32：对第一特征图像进行多次降采样，得到多尺度特征图像，其中降采样采用预设残差模块。

具体请参阅图6，图6是图5中图像特征提取流程中采用的残差块结构示意图。如图5所示，将第一特征图像依次经过5次降采样操作，总共可以得到6个不同大小的特征图feature map，每一次降采样后特征通道数目增加一倍，目的是为了保留原始图像中更加有效的信息。res表示残差网络块，N表示残差单元的个数。

值得注意的是，比如feature map1中416×416×32的32表示采用一个32层卷积核，DBL或res1、res2、res4以及res8是一个固定模块。

如图6所述，在每次卷积计算后不一定得到规定尺寸的图像特征，可能体现在行列式上有所不同，所以可以采用补0的方式对图像特征的空白处进行0填充，以得到合理的行列式，以便后续继续提取特征，另外N是res1、res2、res4、res8后面的这些数字，比如1、2、4、8等。

更进一步地，对多尺度特征图像进行自适应加权融合，得到增强图像，可以基于加权节点以及加权节点对应的加权系数，对多尺度特征图像进行加权融合，以得到增强图像。比如，可以在加权节点处对不同尺度特征图像按照对应的加权系数进行加权融合，从而得到不同尺度特征图像对应的增强图像。

具体地，请参阅图7和图8，图7是图2中步骤S12的一具体实施流程示意图，图8是图7中图像特征增强一具体实施例的网络结构示意图，具体包括以下步骤：

S41：获取加权节点和加权系数，其中，加权节点由特征图像的细粒度信息和特征图像的语义信息决定；

如图8所示，其中feature map2-6代表特征提取阶段每次降采样后得到的不同分辨率的特征图像，C1、C2和C3是特征融合阶段设置的3个加权点，W1-W9表示不同的加权系数。

S42：将多尺度特征图像处理成多个相同分辨率的特征图像；

通常，来自不同层的特征图像首先经过卷积和反卷积操作达到相同的分辨率大小，节点不同，使得卷积或反卷积的次数也不一样。如图8所示，这里的特征叠加操作，相邻特征进行叠加。DeConv表示反卷积，图像特征尺寸由小到大；Conv表示卷积，图像特征尺寸由大到小。

具体地，针对节点C1，对来自feature map5的特征图像则不需要进行尺寸处理；而对来自feature map6的特征图像则需要进行反卷积操作来增大尺寸，生成与feature map5的特征图像的相同尺寸；并且对来自feature map4的特征图像则需要进行卷积操作来减小尺寸，生成与feature map5的特征图像的相同尺寸，同样节点C2和节点C3也进行向相类似的操作，如此，针对需要进行尺寸处理的特征图像，经过卷积或者反卷积，可以得到多个相同分辨率的特征图像。

S43：基于加权节点以及加权系数，对相同分辨率的特征图像进行加权融合，其中加权系数不断迭代更新得到。

具体地，在加权节点处以不同的权重系数W1-W9进行加权融合，这种特征融合方法将不同层次的特征信息区别对待，它们对模型的最终输出具有不同的贡献表达。

更进一步地，加权系数不断迭代更新得到，请参阅图9，图9是图7中步骤S43的一具体实施流程示意图，具体包括以下步骤：

S51：获取加权系数的估计目标值以及实际值；

该加权系数迭代模型建立过程，其训练过程分为初始化权重、前向传播、计算损失以及反向误差传播等四个框架步骤。如同神经网络结构中的其他参数一样，首先给加权系数W1-W9设定一个初始值，比如这里可以设定为1.0，即在模型训练开始时不同层的特征图像对于最终输出结果具有相同的贡献。

通过获取加权系数的估计目标值以及实际值之间的比对，则可以确定是否需要对加权系数进行不断迭代更新。

S52：将估计目标值和实际值进行相比，得到误差值；

具体地，可以通过估计目标值和实际值进行相减，得到误差值。根据设定的损失函数公式计算loss函数的值，即目标估计值与实际值之间的误差值，该误差表示了当前模型参数的推理结果与真实值的差异程度。

S53：基于误差值，利用梯度下降算法对多个加权系数求偏导，得到多个加权系数分别对应的多个参数更新值；

具体地，根据反向传播算法(BP算法)对模型参数求偏导，得到每个参数W1～W9的参数更新值。比如+0.2，-0.1等9个数，系统则利用9个更新值对W1～W9进行相加更新，以迭代加权系数。

S54：利用多个更新值对多个加权系数进行相加更新，以迭代前一次获取的多个加权系数，直至误差值小于预设值。

损失越大则越需要反馈调节预设初始值，损失越小则说明设置的预设初始值是最优解。

神经网络模型根据参数更新值来动态更新每一个权重系数、神经网络模型在训练过程中通过不断的迭代更新，加权系数W1-W9在向着loss函数减小的方向不断进行优化，达到自适应学习的目的。

更进一步的，由于神经网络模型中包括特征增强模块12，特征增强模块12包括多个特征图像对应的加权层，如图8所示，其中，除第一层和最后一层以外的每个加权层均加权融合其他加权层的特征图像。

具体地，除第一层和最后一层以外的每个加权层均可以加权融合相邻的上下两层对应的加权层的特征图像。比如在feature map3此加权层的C3加权点处，对应将featuremap2的特征图像以及feature map4的特征图像进行加权融合；在feature map4此加权层的C2加权点处，对应将feature map3的特征图像以及feature map5的特征图像进行加权融合；在feature map5此加权层的C1加权点处，对应将feature map4的特征图像以及featuremap6的特征图像进行加权融合。

此外，在加权层也可以加权融合其他跨层加权层的特征图像，比如在featuremap4此加权层的C2加权点处，也可以对应将feature map2的特征图像以及feature map5的特征图像进行加权融合；也即是在可以进行加权融合的加权层中，可以近邻层进行特征图像加权融合，还可以跨层进行特征图像加权融合，具体根据需求而定，此处不作限定。

当然，本领域相关技术人员为保证至少有一个加权层，特征增强模块12是至少包括3个特征图像以上对应的加权层，也即至少有1个加权层，实际上为了加权效果更好，可以设置6个特征图像以上对应的加权层，例如如图8所示的feature map2至feature map6。

更进一步地，获取估计目标值以及实际值，请参阅图10，图10是图9中步骤S51的一具体实施流程示意图，具体包括以下步骤：

S61：基于神经网络模型，对多个加权系数进行推理，得到估计目标值；

具体地，在给定图像输入后，按照设计的网络结构连接方式通过前向传播算法计算神经网络的输出，这个输出作为模型的目标估计值，假设为y。

S62：基于多个加权节点和加权节点对应的加权系数，对多个相同分辨率的图像特征进行加权融合，得到多个融合特征值；

具体地，每个加权节点(c1、c2、c3)的3个加权系数分别与对应的特征图进行加权计算，然后进行融合，得到多个融合特征值，分别得到融合特征图像作为下一层卷积神经网络的输入特征。

S63：将多个融合特征值分别进行卷积，得到多个目标特征；

每一个节点处加权融合后得到加权节点对应的一个融合特征值，该融合特征值仍是矩阵，对应三个节点则有3个目标特征输入到3个融合特征值。将多个融合特征值分别进行卷积，得到多个目标特征，此时目标特征仍是矩阵。

S64：将多个目标特征输入损失函数中进行处理，得到实际值。

具体地，采用的损失函数为：

1.具体地反向传播更新参数，假设模型是回归模型，使用均方误差计算首次前向传播总误差如式(2)所示，如下所示：

所以得到式(3)：

2.假设激活函数使用的是Sigmoid函数，即可以得到式(4)如下所示：

则得到式(5)：

σ'(t)＝σ(t)[1-σ(t)] (5)

3.以权重系数

为例，若想知道

对整体产生了多少影响，则可以利用整体误差

对

求偏导求出，由链式法则可以求出如式(6)所示：

4.更新权重系数

可设定学习速率η＝0.1，0.5，…；

5.同理更新

6.当权重系数W，截距项b迭代前后的差值小于一定阈值时，停止迭代。此时得到的F(w，b)便是最终的模型。

更进一步地，对相同分辨率的特征图像进行加权融合，请参阅图11，图11是图7中步骤S43的一具体实施流程示意图，具体包括以下步骤：

S71：判断特征图像的节点的细粒度信息是否满足细粒度信息预设值，以及特征图像的语义信息是否满足语义信息预设值；

若是，则进入步骤S72，也即确定节点为加权节点，以获取加权节点对应的多个加权系数，并进行步骤S73，也即采用多个加权系数对相同分辨率的特征图像进行加权融合。

若否，则进入步骤S74，也即跳到下一个节点，继续如步骤S71的判断，此处不再赘述。

更进一步地，基于增强图像，输出原始图像的目标特征，以检索图像目标，具体包括：

基于增强图像和检测尺度，输出候选框的目标类别信息、目标位置信息以及置信度得分。具体地，基于增强图像，按检测尺度输出候选框的目标类别信息、目标位置信息以及置信度得分，其中检测尺度至少大于等于4。其中采用的4个检测尺度分别可以为：13×13、26×26、52×52以及104×104特征图像的检测输出分支。请参阅图12，图12是图2中步骤S13的检测器模块网络结构示意图。

如图13所示，检测器模块14在特征融合阶段之后，用于对融合后的特征也即增强图像进行预测输出，包括目标类别信息、目标位置信息以及置信度得分等信息。

y1-y4代表4种不同尺度特征图像输出的预测信息，Channel代表预测输出的特征通道维度，其计算方式如式(7)所示：

Channel＝n×(t_x,t_y,t_w,t_h,t_o,n_class) (7)

其中，n代表每个尺度先验框的个数，t_x,t_y,t_w,t_h,t_o是训练中要学习的参数，用来预测边框的中心点坐标、宽高以及置信度得分等信息，n_class代表预测的目标类别数量。

一般来说，检测尺度为3即可，但是在遥感图像领域，检测尺度至少为4，能够对小目标进行更深化的检索，可以利用更多的高分辨率特征信息，从而提高了对小目标的检测能力，展现了良好的应用效果。

其中，基于增强图像，输出原始图像的目标特征，以检索图像目标，请参阅图13，图13是图2中步骤S13的一具体实施流程示意图，具体包括以下步骤：

S81：判断置信度得分对应的候选框的交并比是否大于交并比预设值；

后处理模块15是对目标检测模型的检测器模块输出的结果进行二次处理的过程，目的是为了去除重复目标检测框，优化检测输出结果，根据任务需求得到最优的期望输出。

若是，则进入步骤S82，也即去除候选框；具体地，在此阶段经常使用的操作是非极大值抑制NMS(Non-maximum suppression，NMS)，对每个类别而言首先设置IoU(Intersection over Union，IoU)阈值，也即交并比阈值。对候选框依据类别得分进行排序，选中类别得分最高的候选框，遍历其余的候选框，如果和当前类别得分最高的候选框的IoU大于IoU阈值，将其剔除。

并且从未处理的边框中继续选一个类别得分最高的，重复上述过程，直到处理完所有的边框为止。保留下来的候选框即为检测结果。

若否，则进入步骤S83，也即按权重函数对候选框进行衰减，得到检索结果。

其中，NMS算法在处理目标检测框时的做法过于简单粗暴，如果一个物体在另一个物体重叠区域出现，即当两个目标框接近时，分数更低的框就会因为与之重叠面积过大而被删掉，从而导致对该物体的检测失败并降低了算法的平均检测率。因此本申请还使用Soft-NMS算法对结果进行后处理操作。

在Soft-NMS算法中，具体地，B代表初始检测框结果的集合，S代表检测的置信度得分，N_t代表设定的IoU的阈值，D为空表示无目标需保存。argmax S表示最高分数，则M代表得分最高的检测框。DUM表示储存，B-M表示取出或剔除。s_i表示一个高斯权重函数，其数学表达式如式(8)所示。Soft-NMS算法将当前检测框的置信度得分乘以权重函数，这个权重函数会衰减与最高得分的检测框M有重叠的相邻检测框分数，越是与M检测框高度重叠的检测框，其得分衰减越严重。

因此，本申请一方面通过在特征融合阶段进行改进和优化，提出了一种多尺度特征图像自适应加权融合方法，通过挖掘特征提取网络的表征能力，综合利用多尺度特征提高了目标检测精度。另一方面在YOLOv3算法的基础上，将检测尺度提高到4个，即增加了104×104特征图像的检测输出分支，提高了对小目标的检测能力。相比于现有技术中采用3个检测尺度，提高了模型的检测能力集。

为了说明本申请的技术方案，本申请还提供一种检索设备，请参阅图14，图14本申请监控设备检索设备实施例的结构示意框图，该检索设备7包括：预处理模块71、提取模块72、自适应加权融合模块73以及输出模块74。

其中，预处理模块71，用于对获取的原始图像进行预处理，得到预处理图像；

提取模块72，用于对预处理图像进行特征提取，得到多尺度特征图像；

自适应加权融合模块73，用于对多尺度特征图像进行自适应加权融合，得到增强图像；

输出模块74，用于基于增强图像，输出原始图像的目标特征，以检索图像目标。

因此，本申请通过预处理模块71以及提取模块72分别对原始图像进行预处理和特征提取，再者通过自适应加权融合模块73对得到的多尺度特征图像进行自适应加权融合，一方面可以增强图像目标，另一方面通过自适应加权融合可以挖掘多层特征图像的特征表征能力，综合利用多尺度特征提高图像目标的检测精度，从而提升图像目标的检索效率。

为了说明本申请的技术方案，本申请还提供一种电子设备，请参阅图15，图15是本申请电子设备实施例的结构示意框图，该电子设备8包括：处理器81和存储器82，存储器82中存储有计算机程序821，处理器81用于执行计算机程序821以实现如本申请实施例第一方面的方法，在此不再赘述。

此外，本申请还提供一种计算机可读存储介质，请参阅图16，图16是本申请计算机可读存储介质实施例的电路示意框图，该计算机可读存储介质9存储有计算机程序91，计算机程序91能够被处理器执行时实现如本申请实施例第一方面的方法，在此不再赘述。

如果以软件功能单元的形式实现并作为独立的产品销售或使用时，还可以存储在具有存储功能的装置中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储装置中，包括若干指令(程序数据)用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。

关于具有存储功能的装置中的程序数据的执行过程的阐述可以参照上述本申请图像目标的检索方法实施例中阐述，在此不再赘述。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种图像目标的检索方法，其特征在于，所述检索方法包括：

对所述预处理图像进行特征提取，得到多尺度特征图像；

对所述多尺度特征图像进行自适应加权融合，得到增强图像；

基于所述增强图像，输出所述原始图像的目标特征，以检索所述图像目标。

2.根据权利要求1所述的检索方法，其特征在于，

所述对所述多尺度特征图像进行自适应加权融合，得到增强图像，包括：

基于所述加权节点以及所述加权节点对应的加权系数，对所述多尺度特征图像进行加权融合，以得到所述增强图像。

3.根据权利要求2所述的检索方法，其特征在于，

所述基于所述加权节点以及所述加权节点对应的加权系数，对所述多尺度特征图像进行加权融合，以得到所述增强图像，包括：

获取加权节点和所述加权系数，其中，所述加权节点由特征图像的细粒度信息和所述特征图像的语义信息决定；

将所述多尺度特征图像处理成多个相同分辨率的特征图像；

基于所述加权节点以及所述加权系数，对所述相同分辨率的特征图像进行加权融合，其中所述加权系数不断迭代更新得到。

4.根据权利要求3所述的检索方法，其特征在于，

所述加权系数不断迭代更新得到，包括：

获取所述加权系数的估计目标值以及实际值；

将所述估计目标值和所述实际值进行相比，得到误差值；

基于所述误差值，利用梯度下降算法对多个所述加权系数求偏导，得到多个所述加权系数分别对应的多个参数更新值；

利用多个所述更新值对多个所述加权系数进行相加更新，以迭代前一次获取的多个所述加权系数，直至所述误差值小于预设值。

5.根据权利要求4所述的检索方法，其特征在于，

所述获取所述加权系数的估计目标值以及实际值，包括：

基于神经网络模型，对多个所述加权系数进行推理，得到所述估计目标值；

基于多个所述加权节点和所述加权节点对应的加权系数，对所述多个相同分辨率的图像特征进行加权融合，得到多个融合特征值；

将多个所述融合特征值分别进行卷积，得到多个目标特征；

将多个所述目标特征输入损失函数中进行处理，得到所述实际值。

6.根据权利要求3所述的检索方法，其特征在于，

所述对所述相同分辨率的特征图像进行加权融合，包括：

判断所述特征图像的节点的细粒度信息是否满足细粒度信息预设值，以及所述特征图像的语义信息是否满足语义信息预设值；

若是，则确定所述节点为所述加权节点，以获取所述加权节点对应的多个所述加权系数，并采用多个所述加权系数对所述相同分辨率的特征图像进行加权融合。

7.根据权利要求6所述的检索方法，其特征在于，

所述基于所述增强图像，输出所述原始图像的目标特征，以检索所述图像目标，包括：

基于所述增强图像和检测尺度，输出候选框的目标类别信息、目标位置信息以及置信度得分，其中，所述检测尺度至少大于或等于4。

8.根据权利要求7所述的检索方法，其特征在于，

判断置信度得分对应的所述候选框的交并比是否大于交并比预设值；

若是，则去除所述候选框；

若否，则按权重函数对所述候选框进行衰减，得到检索结果。

9.根据权利要求1所述的检索方法，其特征在于，

所述对所述预处理图像进行特征提取，得到多尺度特征图像，包括：

将所述预处理图像输入预设卷积神经网络模块中进行特征提取，得到第一特征图像，其中所述预设卷积神经网络模块包括输入层模块、卷积层模块、降采样层模块、反卷积层模块以及输出层模块，所述卷积层模块至少执行卷积、批量归一化以及激活函数中的一种操作；

对所述第一特征图像进行多次降采样，得到所述多尺度特征图像，其中降采样采用预设残差模块。

10.根据权利要求5所述的检索方法，其特征在于，

所述神经网络模型包括特征增强模块，所述特征增强模块包括多个所述特征图像对应的加权层，其中，除第一层和最后一层以外的每个所述加权层均加权融合其他加权层的所述特征图像。

11.根据权利要求10所述的检索方法，其特征在于，

所述除第一层和最后一层以外的每个所述加权层均加权融合其他加权层的所述特征图像，包括：

除第一层和最后一层以外的每个所述加权层均加权融合相邻的上下两层对应的加权层的所述特征图像。

12.一种检索设备，其特征在于，所述检索设备包括：

提取模块，用于对所述预处理图像进行特征提取，得到多尺度特征图像；

自适应加权融合模块，用于对所述多尺度特征图像进行自适应加权融合，得到增强图像；

输出模块，用于基于所述增强图像，输出所述原始图像的目标特征，以检索所述图像目标。

13.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-11任一项所述的检索方法。

14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储有计算机程序，计算机程序能够被处理器执行时实现如权利要求1-11任一项所述的检索方法。