CN113962332A

CN113962332A - 基于自优化融合反馈的显著目标识别方法

Info

Publication number: CN113962332A
Application number: CN202111436202.7A
Authority: CN
Inventors: 张光建; 吴双
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-01-21

Abstract

本发明涉及计算机目标识别技术领域，具体涉及基于自优化融合反馈的显著目标识别方法，包括：获取待识别目标的图像数据；将待识别目标的图像数据输入构建的目标识别模型中；首先基于图像数据提取多层次的特征信息，并对特征信息进行整合优化，得到包含多尺度感受野信息的优化特征图；然后对最高层特征信息进行全局特征优化，生成对应的全局特征图；最后进行最高层优化特征图到最低层优化特征图的渐进式融合，并加入全局特征图参与特征融合，以生成对应的显著图；基于目标识别模型输出的显著图完成显著目标识别。本发明的显著目标识别方法能够控制特征融合过程并优化粗糙特征信息，从而提升显著目标的准确性和效果。

Description

基于自优化融合反馈的显著目标识别方法

技术领域

本发明涉及计算机目标识别技术领域，具体涉及基于自优化融合反馈的显著目标识别方法。

背景技术

显著目标识别是近年来计算机视觉领域的研究热点。显著目标识别旨在评估出图像或者视频中的显著性区域，提取目标场景的关键信息，通常用于视觉任务的预处理部分。显著目标识别作为计算机视觉任务中的一种，它模拟了人眼对图像的认知，用于提取图像中最显著即最引起人注意的部分。由于这些显著部分一般包含了图片中的绝大部分有用信息，在用图片数据做某些计算机视觉任务时就可以只处理图片中的显著部分，能够在取得更高的任务性能的同时极大减少运算量。目前，显著目标识别已经被应用到许多计算机视觉任务。

近年来，卷积神经网络在计算机视觉方面的广泛应用显示出卷积神经网络在特征信息提取方面的强大能力。许多基于卷积神经网络的模型的相继提出，使得显著目标识别领域取得了巨大进步。例如，公开号为CN112036446A的中国专利就公开了《一种目标识别特征融合的方法、系统、介质及装置》，其方法包括：获取训练数据；根据随机参数生成法对RNN网络的全部权重进行随机赋值；将每个数据包含的特征按照预设输入规则输入RNN网络获得输出特征；当一个目标的所有特征都输入RNN网络获得输出特征后，进行loss计算，按照更新规则基于loss值对RNN网络的全部权重进行更新；按照更新规则基于loss值对RNN网络的全部权重进行更新。该方案能够在融合新的目标识别特征的同时，减少因融合特征带来的识别错误。

现有的目标识别模型一般包括编码器和解码器，编码器基于骨干网络提取特征信息，解码器基于提取的特征信息生成显著图完成显著目标识别。但是，现有方案仅是将骨干网络提取的特征信息机械的融合，而未对融合过程进行控制。一方面，骨干网络提取的低层特征具有丰富的细节信息，但是充满了背景噪声；高层特征具有丰富的语义信息，但是缺乏准确的位置信息，现有机械融合的方式使得低层特征的噪声信息和高层特征的粗糙边界信息容易被引入解码器，导致显著目标识别的性能降低。另一方面，骨干网络提取的特征信息本身具有很多噪声，特征映射之后的各层结果虽然包含了丰富的特征信息，但就每一层特征而言，特征图并没有太多的尺度信息，此时粗糙的特征信息使得目标识别的结果更加偏向于像素级别单点预测，即显著目标识别的准确性不高。因此，如何设计一种能够控制特征融合过程并优化粗糙特征信息的显著目标识别方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种能够控制特征融合过程并优化粗糙特征信息的显著目标识别方法，从而提升显著目标的准确性和效果。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于自优化融合反馈的显著目标识别方法，包括以下步骤：

S1：获取待识别目标的图像数据；

S2：将待识别目标的图像数据输入构建的目标识别模型中；

目标识别模型基于图像数据提取多层次的特征信息，并对特征信息进行整合优化，得到包含多尺度感受野信息的优化特征图；然后对最高层特征信息进行全局特征优化，生成对应的全局特征图；最后进行最高层优化特征图到最低层优化特征图的渐进式融合，并加入全局特征图参与特征融合，以生成对应的显著图；

S3：基于目标识别模型输出的显著图完成显著目标识别。

优选的，目标识别模型包括：

自优化模块，用于对特征信息进行整合优化，以在特征信息中生成对应的维度信息和尺度特征信息，进而映射得到并输出包含多尺度感受野信息的优化特征图；

全局优化模块，用于对最高层特征信息进行全局特征优化，以生成并输出全局特征图；

特征融合模块，用于实现相邻层优化特征图的特征融合，并能够加入全局特征图参与特征融合，以生成并输出对应的融合特征图；

通过多个特征融合模块的依次串联，能够实现最高层优化特征图到最低层优化特征图的渐进式融合，将最后一个特征融合模块输出的融合特征图作为对应的显著图；

反馈模块，用于获取反馈信息来参与最高层优化特征图到最低层优化特征图的渐进式融合，以辅助生成对应的显著图。

优选的，目标识别模型包括两个特征融合的阶段；

第一阶段：通过自优化模块对各个层次的特征信息进行整合优化，得到对应的优化特征图；然后通过全局优化模块对最高层特征信息进行全局特征优化，生成全局特征图；最后通过串联的特征融合模块进行最高层优化特征图到最低层优化特征图的渐进式融合，并加入全局特征图参与特征融合，生成第一阶段显著图；

第二阶段：通过反馈模块将第一阶段显著图作为反馈信息，然后通过串联的特征融合模块进行最高层优化特征图到最低层优化特征图的渐进式融合，并加入全局特征图和第一阶段显著图参与特征融合，生成用于实现显著目标识别的最终的显著图。

优选的，自优化模块首先通过卷积核从特征信息中获取横向和纵向的特征，然后通过多个不同膨胀率的膨胀卷积获取并输出不同感受野下图像特征信息的特征图，最后将多个膨胀卷积输出的特征图进行拼接和融合得到对应的优化特征图。

优选的，自优化模块通过如下公式生成优化特征图：

T₀＝Convd₃(Conv₁(p_in))；

T₁＝Convd₃(Conv₃(Conv₁(p_in)))；

T₂＝Convd₃(Conv₃(Conv₃(Conv₁(p_in))))；

T₃＝Convd₃(Conv_7*1(Conv_1*7(Conv₁(p_in))))；

p_out＝Conv₁(Cat(T₀,T₁,T₂,T₃)+Conv₁(p_in))；

上述式中：p_out表示生成的优化特征图，p_in表示输入自优化模块的特征信息，Conv_j表示j*j的卷积以及对应的Batch Normalization和Relu激活操作，Conv_m*n表示m*n的卷积以及对应的Batch Normalization和Relu激活操作，Convd_s表示s*s的膨胀卷积操作，+表示像素级别相加。

优选的，第一阶段和第二阶段中的特征融合模块分别对应，并且相对应的两个特征融合模块输入的优化特征图的层次对应；

第一阶段的特征融合模块生成融合特征图时，还能够生成用于更新第二阶段中对应特征融合模块输入的新优化特征图。

优选的，特征融合模块通过如下步骤实现特征融合：

相邻层的两个优化特征图中，高层次的定义为高层特征图，低层次的定义为低层特征图；

S201：将高层特征图和低层特征图采样成相同分辨率的特征图，并对两个特征图进行相乘融合得到对应的初步融合图；

S202：将初步融合图分别采样至高层特征图和低层特征图对应的分辨率；

S203：将全局特征图分别采样至高层特征图和低层特征图对应的分辨率；

S204：基于初步融合图，加入全局特征信息进行降采样得到高层融合特征图，即融合特征图；

S205：基于初步融合图，加入全局特征信息进行上采样得到低层融合特征图，即新优化特征图。

优选的，基于第一阶段的特征融合模块输出的新优化特征图更新第二阶段中对应特征融合模块输入的低层次的优化特征图。

优选的，特征融合模块通过如下公式生成高层融合特征图和低层融合特征图：

p′_h＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_h)+Conv(p_g))；

p′_l＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_l)+Conv(p_g))；

上述式中：p_h、p_l、p_g分别表示输入特征融合模块的高层特征图、低层特征图和全局特征图，p′_h表示高层融合特征图，p′_l表示低层融合特征图，Conv表示执行卷积、BatchNormalization和Relu激活操作，*表示像素级别相乘，+表示像素级别相加。

优选的，通过加权损失函数训练目标识别模型；加权损失函数通过如下公式表示：

上述式中：L_total表示总的损失函数，

表示加权二元交叉熵函数，

表示加权IOU损失函数，e是自然常数。

本发明中的显著目标识别方法与现有技术相比，具有如下有益效果：

1、本发明通过对特征信息进行整合优化的方式，能够补充缺失像素，去除冗余像素，进而在特征信息中生成维度信息和尺度特征信息，能够映射得到包含多尺度感受野信息的优化特征图，使得特征图中的特征信息不论是前景信息还是背景信息的定位区域都更加准确，从而能够辅助提升后续显著目标识别的准确性。

2、本发明通过对最高层特征信息进行全局特征优化的方式，使得最高层特征信息能够具有更为丰富的语义信息，进而更有利于显著图的定位。

3、本发明通过渐进式融合结合全局特征图生成显著图的方式，一方面，将全局特征信息融合到相邻层的特征图中，能够去除特征图中的冗余特征信息，使得有用特征信息的权值更高，从而有利于得到更加精细和准确的显著图；另一方面，渐进式融合的方式能够得到相邻层的关键特征信息，进而能够有效的区分前景与背景信息，从而能够更加精确的优化显著特征区域的整体性。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为显著目标识别方法的逻辑框图；

图2为目标识别模型的网络结构图；

图3为加入自优化(SRM)模块后特征图的效果变化示意图；

图4为自优化模块的网络结构图；

图5为特征融合模块的网络结构图；

图6为本发明模型与其他模型的对比示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于自优化融合反馈的显著目标识别方法。

如图1所示，基于自优化融合反馈的显著目标识别方法，包括以下步骤：

S1：获取待识别目标的图像数据；

S2：将待识别目标的图像数据输入构建的目标识别模型中；

S3：基于目标识别模型输出的显著图完成显著目标识别。本发明的方案着重应用于显著图的生成和获取。基于显著图完成显著目标识别是现有技术中的成熟手段，这里不再详述。

结合图2所示，目标识别模型包括：

自优化(SRM)模块，用于对特征信息进行整合优化，以在特征信息中生成对应的维度信息和尺度特征信息，进而映射得到并输出包含多尺度感受野信息的优化特征图；加入自优化(SRM)模块后，特征图的效果变化如图3(a)和(b)所示(图中，Ground Truth表示真实标签)。

全局优化(GOM)模块，用于对最高层特征信息进行全局特征优化，以生成并输出全局特征图；

特征融合(FFM)模块，用于实现相邻层优化特征图的特征融合，并能够加入全局特征图参与特征融合，以生成并输出对应的融合特征图；通过多个特征融合模块的依次串联，能够实现最高层优化特征图到最低层优化特征图的渐进式融合，将最后一个特征融合模块输出的融合特征图作为对应的显著图。

反馈(FM)模块，用于获取反馈信息来参与最高层优化特征图到最低层优化特征图的渐进式融合，以辅助生成对应的显著图。

本发明通过对特征信息进行整合优化的方式，能够补充缺失像素，去除冗余像素，进而在特征信息中生成维度信息和尺度特征信息，能够映射得到包含多尺度感受野信息的优化特征图，使得特征图中的特征信息不论是前景信息还是背景信息的定位区域都更加准确，从而能够辅助提升后续显著目标识别的准确性。同时，本发明通过对最高层特征信息进行全局特征优化的方式，使得最高层特征信息能够具有更为丰富的语义信息，进而更有利于显著图的定位。其次，本发明通过渐进式融合结合全局特征图生成显著图的方式，一方面，将全局特征信息融合到相邻层的特征图中，能够去除特征图中的冗余特征信息，使得有用特征信息的权值更高，从而有利于得到更加精细和准确的显著图；另一方面，渐进式融合的方式能够得到相邻层的关键特征信息，进而能够有效的区分前景与背景信息，从而能够更加精确的优化显著特征区域的整体性。

具体实施过程中，目标识别模型包括两个特征融合的阶段；

第一阶段和第二阶段中的特征融合模块分别对应，并且相对应的两个特征融合模块输入的优化特征图的层次对应；第一阶段的特征融合模块生成融合特征图时，还能够生成用于更新第二阶段中对应特征融合模块输入的新优化特征图。基于第一阶段的特征融合模块输出的新优化特征图更新第二阶段中对应特征融合模块输入的低层次的优化特征图。

本发明将第一阶段显著图作为反馈信息加入到第二阶段的渐进式融合中，使得能够基于反馈机制迭代细化多层次特征，进而有效的改进显著目标预测的边界信息；同时，第一阶段显著图能够用于修正、预测得到更准确的显著图，从而能够进一步提升显著目标识别的准确性。此外，通过第一阶段的特征融合模块更新第二阶段特征融合模块的输入，使得能够融合得到更准确的显著图。

具体实施过程中，自优化模块首先通过卷积核从特征信息中获取横向和纵向的特征(7*7的卷积核被分为1*7的卷积核和7*1的卷积核，以获取横向和纵向的特征)，然后通过多个不同膨胀率的膨胀卷积(3*3膨胀卷积块)获取并输出代表不同感受野下图像特征信息的特征图，最后将多个膨胀卷积输出的特征图进行拼接和融合得到对应的优化特征图。

结合图4所示，自优化模块通过如下公式生成优化特征图：

T₀＝Convd₃(Conv₁(p_in))；

T₁＝Convd₃(Conv₃(Conv₁(p_in)))；

T₂＝Convd₃(Conv₃(Conv₃(Conv₁(p_in))))；

T₃＝Convd₃(Conv_7*1(Conv_1*7(Conv₁(p_in))))；

p_out＝Conv₁(Cat(T₀,T₁,T₂,T₃)+Conv₁(p_in))；

本发明通过获取横向和纵向的特征，使得提取的特征多样性更加丰富；同时，通过膨胀卷积能够生成更大分辨率图像，并且能够在不增加计算量的情况下增大感受野。

具体实施过程中，结合图5所示，特征融合模块通过如下步骤实现特征融合：

具体实施过程中，特征融合模块通过如下公式生成高层融合特征图和低层融合特征图：

p′_h＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_h)+Conv(p_g))；

p′_l＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_l)+Conv(p_g))；

上述式中：p_h、p_l、p_g分别表示输入的高层特征图、低层特征图和全局特征图，p′_h表示高层融合特征图，p′_l表示低层融合特征图，Conv表示执行卷积、Batch Normalization和Relu激活操作，*表示像素级别相乘，+表示像素级别相加。

本发明的特征融合模块将全局特征信息融合到相邻层的特征图中，能够去除冗余的特征信息，使得有用特征信息的权值更高，从而有利于得到更加精细和准确的显著图；同时，渐进式融合能够得到相邻层的关键特征信息，能够有效的区分前景与背景信息，能够较好的保留块状特征信息，从而能够更加精确的优化显著特征区域的整体性。

具体实施过程中，目标识别模型基于现有神经网络模型的训练方法训练，过加权损失函数辅助完成训练；加权损失函数通过如下公式表示：

式中：L_total表示总的损失函数，

表示加权二元交叉熵函数，

表示加权IOU损失函数，e是自然常数。

在显著目标识别领域，二元交叉熵函数(BCE)和交并比函数(IOU)是应用最为广泛的损失函数。二元交叉熵函数和IoU损失函数都是平等对待所有像素，在进行加权之后，两个损失函数会对于特殊场景下的目标给予不同的权重，例如给予狭长、杂乱场景的物体更高的权重，给予天空草地或者山脉等更低的权重。但是，两个损失函数一个偏向于局部像素预测，一个偏向于全局像素预测，虽然两者作用互补，但是不能完全采用相同权重的值来进行相加得到损失函数的结果。因此，本发明提出采用softmax函数方法在训练过程中动态调整两个不同损失函数的权重值，进而能够更好的保证目标识别模型的训练效果。

为了更好的说明本发明显著目标识别方法的优势，本实施例中公开了如下实验。

一、消融实验：

为了研究本发明目标识别模型中的各个模块的必要性，本实验在DUTS、DUT-OMRON、HKU-IS三个数据集上做了一系列消融实验。用DUTS-TR中的10553张图片进行训练，其他数据集里的图片用于测试，采用的评价指标分别有MAE、adpF和wfm。所有的消融实验基于同一设备和同一实验环境。

首先训练Baseline(基线模型)得到如表1中第一行“Baseline”所示的结果。为了验证全局特征信息对图片的引导作用，将骨干网络的最高层的输出作为全局信息，该全局信息没有经过SRM的优化，加入GOM模块(全局信息)的结果如“Baseline_GOM”行所示。然后在骨干网络每一层后面加入SRM模块之后得到的结果如表1中“Baseline_GOM_SRM”行所示。最后对损失函数进行优化得到的模型结果如最后一行“Baseline_GOM_SRM_Loss”所示。从表1的结果可以看出，伴随着每个模块的加入，指标的性能都有所提升，这也证明了本发明提出的每一个模块都对网络性能的提升起到了重要作用，当所有的模块组合起来，模型才达到了最佳的性能，所以所有的模块对于我们提出的模型都是必要的。

表1消融实验

二、性能对比实验

将本发明模型的性能在五个流行的数据集上进行评估，包括ECSSD，包含1000幅图像；Pascal-S，有850张图片；DUT-OMRON，有5168张图片；HKU-IS，有4447张图片；DUT，有15,572张图片。所有数据集都以像素为单位进行人工标记，以便进行定量评估。DUTS是目前最大的SOD数据集，分为10,553个训练图像(DUTS-TR)和5,019个测试图像(DUTS-TE)。由于先前大多数显著目标识别工作中采用DUTS-TR作为训练数据集，其他所有数据集作为测试数据集，我们采用与他们同样的数据集的划分方式。

为了证明本发明所提出的模型的算法有效性，我们将其与11种最先进的SOD算法进行了比较，包括BASNet、PoolNet、AFNet、CAGNet、EGNet、GateNet、GCPANet、MINet、DFINet、MLMSNet。为了公平比较，我们使用的所有显著图是统一的，并使用相同的评估代码对其进行评估。如表2所示，与其他方法相比，本发明的方法(Ours)在五个数据集上获得了关于六个度量的优秀的分数指标。它展示了所提出的网络结构的优越性能。采用MAE(越小越好)、wfm、maxf、adpf、avgf、avge(越大越好)来衡量模型的性能，最佳的结果、次好的结果和第三好的结果均以粗体突出显示。可以看到我们的模型在所有数据集和指标上都具有先进的性能。

表2在五个数据集上与11种最先进的方法的性能比较

为了对本发明的模型进行评估，在图6中可视化本发明目标检测模型(Ours)和其他方法生成的显著图。可以观察到，本发明提出的目标检测模型不仅突出了显著的目标区域，而且很好地抑制了背景噪声。擅长处理各种具有挑战性的场景，包括杂乱的背景(第4排、第5排、第6排和第7排)、小物体(第10排)、水中的倒影(第8排和第9排)、背景干扰(第2排、第11排和第12排)和局部细节处理(第1排、第3排、第6排、第12-15排)。与其他方法相比，本发明模型得到的结果更加直观更加准确，更重要的是本发明模型是在没有任何后处理的情况下实现了这样的效果。

需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管通过参照本发明的优选实施例已经对本发明进行了描述，但本领域的普通技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离所附权利要求书所限定的本发明的精神和范围。同时，实施例中公知的具体结构及特性等常识在此未作过多描述。最后，本发明要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.基于自优化融合反馈的显著目标识别方法，其特征在于，包括以下步骤：

S1：获取待识别目标的图像数据；

S2：将待识别目标的图像数据输入构建的目标识别模型中；

S3：基于目标识别模型输出的显著图完成显著目标识别。

2.如权利要求1所述的基于自优化融合反馈的显著目标识别方法，其特征在于，目标识别模型包括：

3.如权利要求2所述的基于自优化融合反馈的显著目标识别方法，其特征在于，目标识别模型包括两个特征融合的阶段；

4.如权利要求3所述的基于自优化融合反馈的显著目标识别方法，其特征在于：自优化模块首先通过卷积核从特征信息中获取横向和纵向的特征，然后通过多个不同膨胀率的膨胀卷积获取并输出不同感受野下图像特征信息的特征图，最后将多个膨胀卷积输出的特征图进行拼接和融合得到对应的优化特征图。

5.如权利要求4所述的基于自优化融合反馈的显著目标识别方法，其特征在于，自优化模块通过如下公式生成优化特征图：

T₀＝Convd₃(Conv₁(p_in))；

T₁＝Convd₃(Conv₃(Conv₁(p_in)))；

T₂＝Convd₃(Conv₃(Conv₃(Conv₁(p_in))))；

T₃＝Convd₃(Conv_7*1(Conv_1*7(Conv₁(p_in))))；

p_out＝Conv₁(Cat(T₀,T₁,T₂,T₃)+Conv₁(p_in))；

6.如权利要求2所述的基于自优化融合反馈的显著目标识别方法，其特征在于：第一阶段和第二阶段中的特征融合模块分别对应，并且相对应的两个特征融合模块输入的优化特征图的层次对应；

7.如权利要求6所述的基于自优化融合反馈的显著目标识别方法，其特征在于，特征融合模块通过如下步骤实现特征融合：

8.如权利要求7所述的基于自优化融合反馈的显著目标识别方法，其特征在于：基于第一阶段的特征融合模块输出的新优化特征图更新第二阶段中对应特征融合模块输入的低层次的优化特征图。

9.如权利要求7所述的基于自优化融合反馈的显著目标识别方法，其特征在于：特征融合模块通过如下公式生成高层融合特征图和低层融合特征图：

p′_h＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_h)+Conv(p_g))；

p′_l＝Conv(Conv(Conv(p_h))*Conv(Conv(p_l))+Conv(p_l)+Conv(p_g))；

10.如权利要求7所述的基于自优化融合反馈的显著目标识别方法，其特征在于，通过加权损失函数训练目标识别模型；加权损失函数通过如下公式表示：

上述式中：L_total表示总的损失函数，

表示加权二元交叉熵函数，

表示加权IOU损失函数，e是自然常数。