CN113191373A

CN113191373A - 一种基于中心先验与U-Net网络相结合的显著性检测方法

Info

Publication number: CN113191373A
Application number: CN202110512226.XA
Authority: CN
Inventors: 蹇木伟; 鲁祥伟; 王芮; 崔超然; 林培光; 董良; 董波; 黄振; 何为凯; 陈振学
Original assignee: Linyi University; Shandong University of Finance and Economics
Current assignee: Linyi University; Shandong University of Finance and Economics
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-07-30
Anticipated expiration: 2041-05-11
Also published as: CN113191373B

Abstract

本发明提供了基于中心先验与U‑Net网络相结合的显著性检测方法,S1：利用U‑net编码器对对输入图像提取特征，通过卷积和池化的方式得到输入图像的高级特征信息；S2：背景噪声抑制优化模块的设计，并对高层特征信息进行优化，根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图；S3：网络的解码部分对信息进行五层解码，在上采样解码的过程中采用跨层传播的方式并构建了信息传播模块；S4:自适应损失函数机制维持网络结构的稳定；S5：最后通过sigmoid激活函数生成最终的显著性概率图。通过本发明的技术方案，本发明针对显著性检测领域中的背景抑制问题，将传统的中心先验思想与深度学习框架U‑Net相结合，提出了一种基于中心先验的显著性检测方法。

Description

一种基于中心先验与U-Net网络相结合的显著性检测方法

技术领域

本发明涉及人工智能技术领域，具体而言，特别涉及一种基于中心先验与U-Net网络相结合的显著性检测方法。

背景技术

显著性目标检测指的是模拟人眼的视觉特点，从图像中筛选出人类最感兴趣区域的一种技术。在计算机视觉领域，显著性目标检测是很多计算机视觉研究，如图像压缩、场景分类、目标跟踪等的基础工作，因此它对于计算机视觉领域的研究有着重要意义。

在1998年Itti等人将显著性目标检测这一概念提出后，显著性目标检测就一直备受关注，但是受限于较弱的学习能力，传统方法不能很好地模拟人眼的注意力机制。进入深度学习时代后，卷积神经网络在图像分类领域取得了不俗成绩，例如：VGG、ResNet等，同时人们发现将这些卷积神经网络作为显著性目标检测的骨干网络能够有效地提升检测效果，显著性目标检测也再次为人们所关注。以卷积神经网络为主体构建的显著性目标检测模型极大地提升了检测水准，促进了显著性目标检测领域的发展。

U-Net就是一个典型的卷积神经网络。U-Net在医学图像分割方面取得了极大的成功。它通过编码器和解码器对图像信息处理，同时通过跳跃连接的方式将编码和解码后的数据进行融合，实现了对背景噪声的过滤。但是用于显著性目标检测的自然图像要更加复杂，在显著性目标检测的自然图像中，背景中的物体往往具有很强的迷惑性，比如对比度差异很大的像素块、显著性物体的倒影等，因此背景和显著性物体的分割需要更加强力的手段来解决。

以上述挑战为出发点，本发明提出了一个基于中心先验知识的编码解码网络。根据研究表明，中心先验现象在自然图像中普遍存在，人类对处于图像中心位置的物体会更加感兴趣，距离图像中心越近，物体目标越显著。同时在编码解码的U-Net网络中，编码器最终输出的高层特征信息最具可靠性，因此我们将最终在网络底部编码出的特征信息作为构建中心先验概率图的依据，同时利用中心先验概率图构建对应的背景抑制模块，并通过信息传播模块将中心先验的影响力覆盖到整个网络。在后续的工作中我们发现由于大量底部特征信息和解码出的信息进行融合容易造成网络结构的不稳定，使得最终效果差异过大。因此我们又设计分支网络模块和协调各个分支网络之间关系的自适应参数，保证了底层网络在信息特征提取上的稳定性。

发明内容

为了弥补现有技术的不足，本发明针对自然图像在复杂背景下显著性检测效果明显下降的问题，采用图像分割领域应用比较广泛的U-Net模型与中心先验知识相结合的方式来改进这一问题。本发明提供了一种基于中心先验与U-Net网络相结合的显著性检测方法。

本发明是通过如下技术方案实现的：一种基于中心先验与U-Net网络相结合的显著性检测方法，其特征在于,具体包括以下步骤：

S1：利用U-net编码器对对输入图像提取特征，U-net编码器对图像进行编码处理，通过卷积和池化的方式得到输入图像的高级特征信息；

S2：背景噪声抑制优化模块的设计，并对编码器最后输出的高层特征信息进行优化，根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图；

S3：网络解码部分对信息进行解码，网络的解码部分对信息进行五层解码，在上采样解码的过程中采用跨层传播的方式并构建了信息传播模块；

S4:自适应损失函数机制维持网络结构的稳定：根据多分支上采样网络结构所构成的多个损失函数设计其对应的自适应损失函数机制，根据其损失函数的波动情况来设计对应参数，如果波动比较大，就增大其损失函数所占比例；

S5：最后通过sigmoid激活函数生成最终的显著性概率图。

作为优选方案，步骤S1的具体步骤如下：

S1-1：输入图像通过python中的Rezise函数将尺寸统一为224×224×3(宽×高×通道数)

S1-2：然后通过5层的编码提取高层特征信息，得到14×14×512(w×h×c)的高层特征信息，所谓的编码其实就是通过池化卷积进行下采样的过程：

第一层编码：224×224×3到224×224×64，卷积操作：将通道数由3扩展为64；

第二层编码：224×224×64到112×112×128，先使用MaxPool函数来最大池化：将宽和高的尺寸由224×224降为112×112，再使用卷积操作将通道数由64扩展为128；

第三层到第五层编码参考第二层；112×112×128(第三层编码)56×56×256(第四层编码)28×28×512(第五层编码)14×14×512。

作为优选方案，步骤S2的具体步骤如下：

S2-1：根据python中的torch库里的mean函数(求平均)将14×14×512的通道数由512平均化为1个通道。

S2-2：根据S2-1得到的14×14×1的信息利用公式1来求其显著性物体在该概率图上的中心点；

式中：W，H分别代表宽和高；G(x，y)代表在以宽高为x，y的坐标系上该坐标被判定为显著性物体的概率；(x，y)代表这里的坐标；(W，H)代表最大尺寸坐标；lceter代表中心点坐标；

S2-3：根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径，在这个半径内的中心先验概率图的概率为1，超过了这个区域，概率的计算方式为S2-4中的公式(3)；

式中：W*H：概率图的面积；c：常数0.5；

S2-4：根据S2-1得到的14×14×1的信息利用公式(2)来求其中心先验概率图中预估显著性物体区域的半径；

式中：S_i∈(S_LU,S_LD,S_RU,S_RD)；

SLU代表以Step2中公式1求得的中心点为中心的概率图的左上区域的面积；

SLD代表以Step2中公式1求得的中心点为中心的概率图的左下区域的面积；

SRU代表以Step2中公式1求得的中心点为中心的概率图的右上区域的面积；

SRD代表以Step2中公式1求得的中心点为中心的概率图的右下区域的面积；

Si(x,y)代表这里(x,y)所处的位置的面积；

p(x,y)代表中心先验概率图中的概率，离中心区域越远，p(x,y)越小；

S2-5：通过中心先验概率图与高级语义信息(14×14×114×14×512)进行点乘的方式对底层网络编码后生成的信息进行处理。

作为优选方案，步骤S3的具体步骤如下：

S3-1：网络的解码部分对信息进行五层解码，通过先上采样、级联、后卷积的方式逐层解码；

第一层解码：第五层编码后并中心化处理和上采样后的信息级联第四层编码后的信息进行卷积得到第一层解码信息，

即：(14×14×512)_{第五层编码信息中心化后的信息}->(上采样)(28×28×512)_{第五层信息}；

(28×28×512)_{第五层信息}+(28×28×512)_{第四层信息}->(级联)(28×28×1024)；

(28×28×1024)->(卷积)(28×28×256)_{第一层解码信息}；

第二层解码：第一层解码信息上采样后级联第三层编码后的信息进行卷积得到第二层解码信息，

即：(28×28×256)_{第一层解码信息}->(上采样)(56×56×256)_{第一层解码信息}；

(56×56×256)_{第一层解码信息}+(56×56×256)_{第四层编码后信息}->(级联)(56×56×512)；

(56×56×512)->(卷积)(56×56×128)_{第二层解码信息}

第三层到第五层的解码过程和第二层的过程相同；

S3-2：在解码过程中，第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中；中心化的数据通过平均化通道信息的方式减少通道数，并在减少通道后上采样到对应层数的宽高尺寸，在级联该层原始数据后将数据卷积为原始数据相同的通道数。

作为优选方案，步骤S4的具体步骤如下：

自适应损失函数机制的调节过程如下：

S4-1：设计该网络损失函数的计算公式，通过公式中的参数：λ0、λ1、λ2、λ3来调节各分支网络模块的损失函数在总损失函数中所占比例。公式如下

loss＝λ₀*loss1+λ₁*loss2+λ₂*loss3+λ₃*loss4

λ₀＝0.25，λ₁＝0.25，λ₂＝0.25，λ₃＝0.25 (4)

参数初始值都设定为0.25，loss1，loss2，loss3，loss4分别代表了主解码网络和其他3各分支解码网络部分。

S4-2：根据网络波动情况在每一个周期(20个迭代)结束时更新参数。

λ_i＝0.125+Δλ_i (6)

根据每个解码网络一个周期内20个迭代内前10次loss平均值减去后10次loss平均值得到△lossi，再根据公式(5)得到对应的△λi，根据公式(6)调节对应的λi并更新原有参数。

本发明由于采用了以上技术方案，与现有技术相比使其具有以下有益效果：本发明针对显著性检测领域中的背景抑制问题，将传统的中心先验思想与深度学习框架U-Net相结合，提出了一种基于中心先验的显著性检测方法。该方法首先利用基于中心先验思想设计的背景抑制模块对网络高层特征的提取进行优化，然后利用信息传播模块通过跨层传播的方式将优化后的高层特征与低层特征进行高效融合，最后添加分支网络模块提升了网络的稳定性，改善了U-Net网络在复杂背景图像上检测效果不佳的问题。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的流程图；

图2为本公开具体实施时整体网络框架的模型示意图；

图3为本公开具体整体网络框架模型中的信息传播模块。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面结合图1至图3对本发明的实施例的基于中心先验与U-Net网络相结合的显著性检测方法进行具体说明。

如图1所示，本发明提出了本发明是通过如下技术方案实现的：一种基于中心先验与U-Net网络相结合的显著性检测方法，其特征在于,具体包括以下步骤：

S1：利用U-net编码器对对输入图像提取特征，U-net编码器对图像进行编码处理，通过卷积和池化的方式得到输入图像的高级特征信息；具体步骤如下：

S1-1：如图2所示，输入图像通过python中的Rezise函数将尺寸统一为224×224×3(方便接下来的卷积和池化操作)(宽×高×通道数)

S2：背景噪声抑制优化模块的设计，并对编码器最后输出的高层特征信息进行优化，根据底层信息中像素块占整个图像的位置和比例生成对应的中心先验概率图；具体步骤如下：

式中：W*H：概率图的面积；c：常数0.5；

式中：S_i∈(S_LU,S_LD,S_RU,S_RD)；

Si(x,y)代表这里(x,y)所处的位置的面积；

S3：网络解码部分对信息进行解码，网络的解码部分对信息进行五层解码，为防止底层信息在向上传递的过程中被消耗，扩大背景抑制模块的影响力，在上采样解码的过程中采用跨层传播的方式并为之专门构建了信息传播模块，如图3所示具体步骤如下：

(28×28×1024)->(卷积)(28×28×256)_{第一层解码信息}；

(56×56×512)->(卷积)(56×56×128)_{第二层解码信息}

第三层到第五层的解码过程和第二层的过程相同；

S3-2：在解码过程中，图2中第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中，如图3所示：中心化的数据通过平均化通道信息的方式减少通道数，并在减少通道后上采样到对应层数的宽高尺寸，在级联该层原始数据后将数据卷积为原始数据相同的通道数。；

S4:自适应损失函数机制维持网络结构的稳定：在该网络中，底部特征信息的稳定性尤其重要，因为整个网络的设计理念的基础都是基于底部网络中心先验概率图的构建，因此在网络解码的过程中，专门构建了多分支解码网络模块，通过神经网络的反向传播机制，保证了底部高层特征信息的稳定性，但是多分支解码网络模块的存在也影响原本网络结构的稳定性，针对这一问题，专门设计了自适应损失函数机制来维持网络结构的稳定。根据多分支上采样网络结构所构成的多个损失函数设计其对应的自适应损失函数机制，根据其损失函数的波动情况来设计对应参数，如果波动比较大，就增大其损失函数所占比例；以达到增强网络结构稳定性的目的；具体步骤如下：

自适应损失函数机制的调节过程如下：

loss＝λ₀*loss1+λ₁*loss2+λ₂*loss3+λ₃*loss4

λ₀＝0.25，λ₁＝0.25，λ₂＝0.25，λ₃＝0.25 (4)

λ_i＝0.125+Δλ_i (6)

S5：最后通过sigmoid激活函数生成最终的显著性概率图。

在本发明的描述中，术语“多个”则指两个或两个以上，除非另有明确的限定，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“连接”、“安装”、“固定”等均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于中心先验与U-Net网络相结合的显著性检测方法，其特征在于,具体包括以下步骤：

S5：最后通过sigmoid激活函数生成最终的显著性概率图。

2.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S1的具体步骤如下：

3.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S2的具体步骤如下：

S2-1：根据python中的torch库里的mean函数(求平均)将14×14×512的通道数由512平均化为1个通道；

式中：W*H：概率图的面积；c：常数0.5；

式中：S_i∈(S_LU,S_LD,S_RU,S_RD)；

Si(x,y)代表这里(x,y)所处的位置的面积；

4.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S3的具体步骤如下：

(28×28×1024)->(卷积)(28×28×256)_{第一层解码信息}；

(56×56×512)->(卷积)(56×56×128)_{第二层解码信息}

第三层到第五层的解码过程和第二层的过程相同；

S3-2：在解码过程中，第五层编码的模块3中的中心化的信息直接跨层传播到第三层编码的模块2中，中心化的数据通过平均化通道信息的方式减少通道数，并在减少通道后上采样到对应层数的宽高尺寸，在级联该层原始数据后将数据卷积为原始数据相同的通道数。

5.根据权利要求1所述的一种基于中心先验与U-Net网络相结合的显著性检测方法,其特征在于,所述步骤S4的具体步骤如下：

自适应损失函数机制的调节过程如下：

S4-1：设计该网络损失函数的计算公式，通过公式中的参数：λ0、λ1、λ2、λ3来调节各分支网络模块的损失函数在总损失函数中所占比例，公式如下loss＝λ₀*loss1+λ₁*loss2+λ₂*loss3+λ₃*loss4

λ₀＝0.25，λ₁＝0.25，λ₂＝0.25，λ₃＝0.25 (4)

参数初始值都设定为0.25，loss1，loss2，loss3，loss4分别代表了主解码网络和其他3各分支解码网络部分；

S4-2：根据网络波动情况在每一个周期(20个迭代)结束时更新参数，

λ_i＝0.125+Δλ_i (6)