CN110598610A

CN110598610A - 一种基于神经选择注意的目标显著性检测方法

Info

Publication number: CN110598610A
Application number: CN201910824670.8A
Authority: CN
Inventors: 赵丹培; 苑博; 史振威; 姜志国
Original assignee: Beijing University of Aeronautics and Astronautics
Current assignee: Beihang University; Beijing University of Aeronautics and Astronautics
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2019-12-20
Anticipated expiration: 2039-09-02
Also published as: CN110598610B

Abstract

本发明公开了一种基于神经选择注意的目标显著性检测方法。一、将显著性图像集一输入卷积神经网络，以显著性目标掩膜作为监督信息进行训练，构建视觉显著性检测网络；二、将包含目标掩膜与类别信息的图像集二输入卷积神经网络，以目标分割结果与类别作为监督信息进行训练，构建目标分割与轮廓提取网络；三、将待检测图像输入视觉显著性检测网络生成视觉显著性图；四、将待检测图像输入目标分割与轮廓提取网络生成掩膜与类别信息并由掩膜提取轮廓；五、根据检测任务的目标类别筛选出任务相关的目标轮廓并作用于视觉显著性图，得到特定类别目标的视觉显著性图；六、将任务相关目标掩膜与特定类别目标的视觉显著性图按权值相加，输出最终的检测结果。

Description

一种基于神经选择注意的目标显著性检测方法

技术领域

本发明涉及计算机视觉与图像处理技术领域，更具体的说是涉及一种基于神经选择注意的目标显著性检测方法。

背景技术

人类视觉系统在面对不同环境下的场景时能够对视野内的感兴趣目标进行快速地搜寻与定位，这种视觉注意机制可以帮助人们快速获取并处理人眼获取的视觉信息，并将其转化为电信号送入神经系统进行处理。随着计算机技术与网络通信的迅速发展、成像技术的进步和各种网络设备的普及带来了海量数据的传播，从大范围的图像和视频数据中快速地获取感兴趣信息具有极为重要的应用价值。得益于计算机技术和图像处理相关理论的快速发展，深度学习技术得到了极大开拓与发展，并且在显著性检测领域，深度学习技术的应用使得检测结果的精度得到较大提升。

视觉显著性检测是通过研究人类视觉系统的注意机制，利用计算机去预测图像或视频中更容易受到人类视觉系统注意的部分的过程。视觉显著性检测可以提升图像信息处理任务的效率和效果，对于计算机视觉的相关任务具有重要的应用价值。其一，它可以合理分配有限的注意力资源，以从大量信息中快速筛选出高价值信息；其二，它可以模仿人类视觉注意机制，满足人类视觉系统对于图像的认知需求。显著性目标检测在目标探测与跟踪、图像视频压缩等领域有重要的实用价值。

目前典型的显著性检测方法主要包括：基于图像底层特征的传统方法和基于深度学习的方法。传统方法无需训练过程，利用图像的底层特征如颜色、亮度和形状特征等提取显著区域，此类方法节省了用于人工标注和样本训练的时间，对简单图像的检测效果较好，但对复杂图像的检测效果较差，鲁棒性较差。基于深度学习的方法需要大量人工标注的数据集对网络进行训练，标注和时间成本较高，但其检测的鲁棒性较强，对于不同复杂图像也具有良好的检测效果。

并且，目前的显著性检测模型大多只针对图像本身，即只根据图像本身的特征对图像中的“显著”目标进行检测，并不区分目标类别。而人类的神经与视觉系统可以在复杂环境中有选择地关注视野中的特定目标而忽略其他目标。神经注意机制是指神经系统将注意力资源进行分配，优先选择视野范围内的感兴趣区域,抑制其他无关区域，由此实现对视觉空间中的重要信息进行优先处理的过程。

因此，如何实现根据检测任务的需要有选择地针对特定类别目标进行准确的显著性检测是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于神经选择注意的目标显著性检测方法，采用的是深度学习技术，图像数据集的学习，使得网络具有检测图像中显著区域的能力，通过模仿人类神经注意机制，在人工神经网络中建立选择注意机制，将注意力集中于图像中的某个或某类目标，与视觉显著性检测相结合，实现根据检测任务的需要有选择地针对图像中特定类别目标的显著性检测，提高检测效率和精确度。

为了实现上述目的，本发明采用如下技术方案：

一种基于神经选择注意的目标显著性检测方法，包括：

步骤1：将包含原始图像与人工标注的显著性目标掩膜的图像集一输入VGG16卷积神经网络进行特征提取，通过所述VGG16卷积神经网络中的两个全连接层将卷积特征聚合生成特征图，将生成的所述特征图通过反卷积生成视觉显著性图，并训练得到视觉显著性检测网络；

步骤2：将包含所述原始图像以及目标分割结果和目标类别信息的图像集二输入ResNet卷积神经网络进行特征提取，获得目标分割与轮廓提取网络；

步骤21：将包含所述原始图像与所述目标分割结果与所述目标类别信息的所述图像集二送入所述ResNet卷积神经网络提取卷积特征，采用RPN网络提取区域提议；

步骤22：对所述区域提议采用RoI Align机制获取坐标为浮点数的目标候选区域，其中所述RoI Align机制采用双线性插值方法将所述区域提议映射到所述原始图像中，在所述原始图像中获取精确的目标候选区域；

步骤23：获取所述目标候选区域后，对所述目标候选区域采用全卷积网络FCN生成掩膜，并在所述全卷积网络FCN的所述全连接层获取类别信息；通过所述全卷积网络FCN将特征图映射回所述原始图像，并获取所述原始图像中的目标掩膜；所述RoI Align机制的反向传播公式为：

其中，d(·)表示两点之间的距离，x_i表示池化前所述特征图上的像素点，y_rj代表池化后的第r个所述目标候选区域的第j个点，i^*(r,j)表示最大池化时选出的最大像素值所在点所述y_rj的坐标，Δh和Δw分别表示x_i和横纵坐标之间的差值，为所述目标候选区域的所述浮点数的坐标位置。

步骤3：将待检测图像输入步骤1中的经过训练的所述视觉显著性检测网络中进行特征提取，生成所述视觉显著性图S；

步骤4：将待检测图像输入步骤2中的经过训练的所述目标分割与轮廓生成网络中，提取所述待检测图像中各个目标的所述目标掩膜与所述类别信息，利用Canny算子提取所述目标掩膜的边缘生成目标轮廓；

步骤41：将所述待检测图像输入所述目标分割与轮廓提取网络进行特征提取，采用所述RPN网络生成所述区域提议；

步骤42：对所述区域提议采用所述RoI Align机制获取所述待检测图像的所述目标候选区域，之后利用所述全卷积网络FCN获取所述目标掩膜，利用所述全连接层获取所述类别信息；

步骤43：依据所述类别信息对所述待测图像中存在的不同目标进行分割，分别输出各所述目标的所述目标掩膜M_i,i∈{1,2,...,N}；

步骤44：用Canny算子对所述目标掩膜M_i进行边缘检测获取各所述目标的所述目标轮廓C_i,i∈{1,2,...,N}；

步骤5：根据检测任务的要求，结合所述类别信息，筛选出所述步骤4中与所述检测任务相关的所述目标掩膜和所述目标轮廓作为任务相关目标掩膜和任务相关目标轮廓，将所述任务相关目标轮廓结合所述步骤3中生成的所述视觉显著性图得到与所述检测任务相关的目标视觉显著性图；所述检测任务包含着检测目标的所述类别信息；

步骤51：以所述检测目标的所述类别信息为依据，输出对应的所述任务相关目标掩膜M_T与所述任务相关目标轮廓C_T；

步骤52：将所述任务相关目标轮廓C_T作用于所述步骤3中的所述视觉显著性图S，保留所述任务相关目标轮廓C_T对应的所述视觉显著性图S区域，去除其余区域，生成与所述检测任务对应的所述目标视觉显著性图S_T，

S_T＝C_T∩S (2)

∩表示利用与所述检测任务相关的所述任务相关目标轮廓C_T选择的所述视觉显著性图S中的相应区域；

步骤6：将所述任务相关目标掩膜与所述步骤5中的所述目标视觉显著性图按权值相加，输出与所述检测任务相关的目标显著性检测结果。

优选的，所述步骤1中所述卷积神经网络包括编码层和解码层两部分，所述编码层采用VGG16卷积神经网络结合输入的所述图像集一进行训练，其中输入的所述图像集一中的图像大小为224×224，使得网络具有提取显著特征的能力；所述卷积神经网络包含5个卷积层，卷积核大小均为3×3，所述卷积层之间采用最大池化层连接，设置第4池化层和第5池化层的池化步长为1，在第5卷积层即C5_3卷积层引入尺寸为2的膨胀操作增大所述卷积层输出的特征图的分辨率；所述卷积神经网络还包括全连接层，所述全连接层包括FC1和FC2，所述FC1采用1024个尺寸为3×3的核，所述FC2使用1024个尺寸为1×1的核；所述特征图输入所述全连接层获得的深层特征图，尺寸为28×28；

设第i个所述卷积层输出的所述特征图为Eⁱ,i∈{1,2,3,4,5}，在所述解码层，采用反卷积方法将所述深层特征图映射成所述原始图像大小。

优选的，在所述步骤3中，将所述待检测图像大小设置为224×224，输入所述视觉显著性检测网络，其中所述视觉显著性检测网络中最后一层所述卷积层输出的所述特征图尺寸为28×28，经过两个所述全连接层进行特征聚合得到所述深层特征图，通过反卷积层即所述解码层将提取的所述深层特征图反卷积为224×224的所述视觉显著性图。

优选的，所述步骤6中将所述目标视觉显著性图S_T与所述任务相关目标掩膜M_T按权值相加，生成优化后的所述目标显著性检测结果S_final，

S_final＝λ₁·M_T+λ₂·S_T (3)

其中λ₁和λ₂分别为所述任务相关目标掩膜M_T和所述目标视觉显著性图S_T的权重系数，所述权重系数人为设定，λ₁＝0.7，λ₂＝0.3。

优选的，采用交叉熵损失函数监督所述视觉显著性检测网络训练，公式如下：

其中L_S表示所述视觉显著性检测网络训练的损失函数，y表示真值，表示预测值。

优选的，所述双线性插值方法的求解模型为：

假设求函数f在点P＝(x,y)的值，已知函数f在Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)，Q₂₂＝(x₂,y₂)处的值，在x方向插值得到：

其中R₁＝(x,y₁)(5)

其中R₂＝(x,y₂)(6)

然后在y方向插值得到：

得到坐标为浮点数的P点坐标，实现特征点与所述原始图像中位置的精确对应，所述特征点为所述目标候选区域的像素点。

优选的，采用损失函数L_M监督所述目标分割与轮廓提取网络的训练过程，所述损失函数L_M包含分类误差L_cls和分割误差L_mask两部分：

L_M＝L_cls+L_mask (8)

其中，目标类别p_i与非目标类别之间的分类误差L_cls为二分类的交叉熵损失：

输入的所述原始图像包含K个所述目标类别，共生成K个分辨率为m×m的二值化掩膜区域，计算所述掩膜区域中的每个所述像素点的所述交叉熵损失函数，取均值得到所述分割误差L_mask：

其中，y_i表示真实值，表示预测值。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于神经选择注意的目标显著性检测方法，首先将图像集输入卷积神经网络，以人工标注的显著性目标掩膜作为监督信息进行训练获得视觉显著性检测网络，以人工标注的目标分割结果与对应类别作为监督信息进行训练获得目标分割与轮廓提取网络；其次，将待检测图像输入视觉显著性检测网络生成视觉显著性图，将待检测图像输入目标分割与轮廓提取网络生成视觉显著性图中各目标的目标掩膜与类别信息，并由目标掩膜提取目标轮廓；然后，根据检测任务携带的目标类别信息，筛选出与检测任务相关的任务相关目标轮廓并作用于视觉显著性图，得到与任务相关的目标视觉显著性图；最后，将与检测任务相关的任务相关目标掩膜与目标视觉显著性图按权值相加，输出最终的检测结果。本发明的目标显著性检测融入人类主观感知机制，可以根据不同检测任务的需要有选择地输出特定类别目标的显著性检测结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种基于神经选择注意的目标显著性检测方法流程结构示意图；

图2附图为本发明提供的RoI Align机制提取目标掩膜示意图；

图3附图为本发明提供的双线性插值计算方法示意图；

图4附图为本发明提供的目标显著性检测效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于神经选择注意的目标显著性检测方法，包括：

S1：将包含原始图像与人工标注显著性目标掩膜图像的图像集一输入到VGG16卷积神经网络进行特征提取，通过VGG16卷积神经网络中的两个全连接层将卷积特征聚合生成特征图，将生成的特征图通过反卷积生成视觉显著性图，并训练得到视觉显著性检测网络；

S2：将包含原始图像以及目标分割结果和目标类别信息的图像集二输入到ResNet卷积神经网络进行特征提取，获得目标分割与轮廓提取网络；

S21：将包含原始图像与目标分割结果与目标类别信息的图像集二送入ResNet卷积神经网络提取卷积特征，采用RPN网络提取区域提议；

S22：对区域提议采用RoI Align机制获取坐标为浮点数的目标候选区域，其中RoIAlign机制采用双线性插值方法将区域提议映射到原始图像中，在原始图像中获取精确的目标候选区域；

S23：获取目标获选区域后，对目标获选区域采用全卷积网络FCN生成掩膜，并在全卷积网络FCN的全连接层获取目标候选区域的类别信息；通过全卷积网络FCN将特征图映射回原始图像，并获取原始图像中目标掩膜；RoI Align机制的反向传播公式为：

其中，d(·)表示两点之间的距离，x_i表示池化前特征图上的像素点，y_rj代表池化后的第r个目标候选区域的第j个点，i^*(r,j)表示最大池化时选出的最大像素值所在点所述y_rj的坐标，Δh和Δw分别表示x_i和横纵坐标之间的差值，为目标候选区域的浮点数的坐标位置；

S3：将待检测图像输入S1中的经过训练的视觉显著性检测网络中进行特征提取，生成视觉显著性图；

S4：将待检测图像输入S2中的经过训练的目标分割与轮廓生成网络中，提取待检测图像中各个目标的目标掩膜与类别信息，利用Canny算子提取目标掩膜的边缘生成目标轮廓；

S41：将待检测图像输入目标分割与轮廓提取网络进行特征提取，采用RPN网络生成区域提议；

S42：对区域提议采用RoI Align机制获取待检测图像的目标候选区域，之后利用全卷积网络FCN获取目标掩膜，利用全连接层获取类别信息；

S43：依据类别信息对待测图像中存在的不同目标进行分割，分别输出各目标的目标掩膜M_i,i∈{1,2,...,N}；

S44：用Canny算子对目标掩膜M_i进行边缘检测获取各目标的目标轮廓C_i,i∈{1,2,...,N}；

S5：根据检测任务的要求，结合类别信息，筛选出S4中与检测任务相关的目标掩膜和目标轮廓作为任务相关目标掩膜和任务相关目标轮廓，将任务相关目标轮廓结合S3中生成的视觉显著性图得到与检测任务相关的目标视觉显著性图；检测任务包含着检测目标的类别信息；

S51：以检测目标的类别信息为依据，输出对应的任务相关目标掩膜M_T与任务相关目标轮廓C_T；

S52：将任务相关目标轮廓C_T作用于S3中的视觉显著性图S，保留任务相关目标轮廓C_T对应的视觉显著性图S区域，去除其余区域，生成与检测任务对应的目标视觉显著性图S_T，

S_T＝C_T∩S (2)

∩表示利用与检测任务相关的任务相关目标轮廓C_T选择的视觉显著性图S中的相应区域；

S6：将任务相关目标掩膜与S5中的目标视觉显著性图按权值相加，输出与检测任务相关的目标显著性检测结果。

为了进一步优化上述技术方案，S1中卷积神经网络包括编码层和解码层两部分，编码层采用VGG16卷积神经网络结合输入的图像集一进行训练，其中输入的图像集一中的图像大小为224×224，使得网络具有提取显著特征的能力；卷积神经网络包含5个卷积层，卷积核大小均为3×3，卷积层之间采用最大池化层连接，设置第4池化层和第5池化层的池化步长为1，在第5卷积层即C5_3卷积层引入尺寸为2的膨胀操作增大卷积层输出的特征图的分辨率；卷积神经网络还包括全连接层，全连接层包括FC1和FC2，FC1采用1024个尺寸为3×3的核，FC2使用1024个尺寸为1×1的核；特征图输入全连接层获得的深层特征图，尺寸为28×28；

设第i个卷积层输出的特征图为Eⁱ,i∈{1,2,3,4,5}，在解码层，采用反卷积方法将深层特征图映射成原始图像大小。

为了进一步优化上述技术方案，在S3中，将待检测图像大小设置为224×224，输入视觉显著性检测网络，其中视觉显著性检测网络中最后一层卷积层输出的特征图尺寸为28×28，经过两个全连接层进行特征聚合得到深层特征图，通过解码层将提取的深层特征图反卷积为224×224的视觉显著性图。

为了进一步优化上述技术方案，S6中将目标视觉显著性图S_T与任务相关目标掩膜M_T按权值相加，生成优化后的目标显著性检测结果S_final，

S_final＝λ₁·M_T+λ₂·S_T (3)

其中λ₁和λ₂分别为任务相关目标掩膜M_T和目标视觉显著性图S_T的权重系数，权重系数人为设定，λ₁＝0.7，λ₂＝0.3。

为了进一步优化上述技术方案，采用交叉熵损失函数监督视觉显著性检测网络训练，公式如下：

其中L_S表示视觉显著性检测网络训练的损失函数，y表示真值，表示预测值。

为了进一步优化上述技术方案，双线性插值方法的求解模型为：

其中R₁＝(x,y₁) (5)

其中R₂＝(x,y₂) (6)

然后在y方向插值得到：

得到坐标为浮点数的P点坐标，实现特征点与原始图像中位置的精确对应，特征点为目标候选区域的像素点。

为了进一步优化上述技术方案，采用损失函数L_M监督目标分割与轮廓提取网络的训练过程，损失函数L_M包含分类误差L_cls和分割误差L_mask两部分：

L_M＝L_cls+L_mask (8)

输入的原始图像包含K个目标类别，共生成K个分辨率为m×m的二值化掩膜区域，计算掩膜区域中的每个像素点的交叉熵损失函数，取均值得到分割误差L_mask：

其中，y_i表示真实值，表示预测值。

实施例

如图1所示为本发明基于神经选择注意的目标显著性检测方法的结构流程示意图，分为视觉显著性检测模块、目标选择模块、优化整合模块。其中视觉显著性模块用于获取视觉显著性图，目标选择模块用于目标分割与筛选、优化整合模块用于检测结果优化。其具体实施步骤如下：

步骤1：构建视觉显著性检测网络。利用VGG16网络，通过5个卷积层提取高层语义特征，卷积核大小均为3×3，卷积层之间使用最大池化层，设置第4和第5池化层的池化步长为1，在C5_3卷积层引入尺寸为2的膨胀操作增大特征图的分辨率，全连接层的FC1使用1024个尺寸为3×3的核，全连接层的FC2使用1024个尺寸为1×1的核。对于224×224的原始图像，经过5个卷积层后输出的特征图尺寸为28×28；通过两个全连接层聚合卷积特征输出深层特征图，通过反卷积层即解码层将深层特征图映射到原图大小。将包含原始图像与人工标注显著性掩膜图像的图像集一送入上述网络进行训练，使得网络具备提取显著区域特征的能力。

步骤2：构建目标分割与轮廓提取网络。利用ResNet卷积神经网络提取卷积特征，利用RPN网络提取区域提议，将包含原始图像、图像目标分割结果与目标类别信息的图像集送入网络进行训练，使得网络具备提取目标掩膜与对应类别的能力；

将区域提议传输至RoI Align机制，RoI Align机制最早应用于实例分割(Instance Segmentation)，是用来生成图像中各目标的二值化掩膜的方法，将RoI Align机制获取的图像中各目标掩膜来引导特定目标的显著性检测；

RoI Align的运算模型，对于一幅800×800的图像，通过步长为32的卷积神经网络VGG16提取到的最后一层卷积特征图尺寸为25×25，对于原图中尺寸为655×655的区域提议，其映射到特征图中的尺寸为20.78×20.78，当池化尺寸为7×7时，经过池化后固定为尺寸为7×7的特征图，故将映射到特征图中的区域提议划分为49个同等大小的子区域，每个子区域的尺寸为2.97×2.97。假定采样点数为4，则将每个子区域均分为四份，每一份取其中心点位置，采用双线性插值法进行计算得到四个中心点的像素值。最后，取四个像素值中的最大值作为图像子区域的像素值。由49个子区域得到49个像素值，构成尺寸为7×7的特征图，最后通过全卷积网络将特征图映射回原图获取图像中目标掩膜RoI Align的反向传播公式为：

其中，d(·)表示两点之间的距离，x_i表示池化前特征图上的像素点，y_rj代表池化后的第r个目标候选区域的第j个点，i^*(r,j)表示最大池化时选出的最大像素值所在点所述y_rj的坐标，Δh和Δw分别表示x_i和横纵坐标之间的差值，为目标候选区域的浮点数的坐标位置。

步骤3：将待检测图像输入视觉显著性网络进行检测生成视觉显著性图。首先将待检测图像的RGB图像置为224×224大小，经过5层卷积层提取卷积特征，每个卷积层均采用3×3大小的卷积核，最底层卷积特征图尺寸为28×28，为原图尺寸的1/64。通过两个全连接层聚合特征信息，再通过反卷积层对卷积特征图进行插值，直至原图大小，即224×224，便可得到视觉显著性图。

步骤4：将待检测图像输入目标分割与轮廓提取网络，在ResNet网络提取卷积特征，利用RPN网络提取区域提议。首先通过RPN生成约20000个维度为40×60×9的锚点，进行第一次边框修正，得到修订边框后的区域提议；将所有区域提议按照前景分数从高到低排序，选取前6000个区域提议，使用阈值为0.7的非极大值抑制算法排除掉重叠的区域提议，之后选取前300个区域提议进行分类和第二次边框修正。对于获取的区域提议，利用RoIAlign机制将其映射到原图相应位置，之后通过全卷积网络(FCN)获取目标掩膜，通过全连接层获取类别信息，并利用Canny算子根据目标掩膜得到目标轮廓。

步骤5：根据检测任务的要求，以目标的类别信息为依据，输出步骤4中与检测任务相关的任务相关目标掩膜与任务相关目标轮廓，将得到的任务相关目标轮廓作用于步骤3中生成的视觉显著性图得到与检测任务相关目标的目标视觉显著性图。

检测任务的内容为任务目标的类别信息，则根据目标选择模块提取的各类目标掩膜与对应的类别信息，根据检测任务有选择地输出任务相关的任务相关目标掩膜M_T及由Canny算子获取的任务相关目标轮廓C_T。将任务相关目标轮廓C_T作用于视觉显著性图S，保留任务相关目标轮廓内区域对应的视觉显著性图S，去除其余区域，进而获取任务相关目标的目标视觉显著性图S_T：

S_T＝C_T∩S (2)

其中∩表示利用与任务相关的任务相关目标轮廓C_T选择视觉显著性图中的相应区域S。

步骤6：将与任务相关目标掩膜M_T和与任务相关目标的目标视觉显著性图S_T按权值相加，输出最终的与任务相关目标的目标显著性检测结果S_final。

S_final＝λ₁·M_T+λ₂·S_T (3)

其中λ₁和λ₂分别为任务相关目标掩膜和目标视觉显著性图的权重系数，权重系数人为设定，λ₁＝0.7，λ₂＝0.3。

图2是RoI Align机制的检测结果示例。对于待检测图像，利用卷积神经网络提取特征区域提议，利用双线性插值法获取坐标为浮点数的特征候选区域，通过池化操作获取固定大小的特征图，之后通过全卷积网络便可生成目标掩膜。

图3是双线性插值计算方法示意图。要求函数f在点P＝(x,y)的值，已知函数f在Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)，Q₂₂＝(x₂,y₂)处的值。分别在x方向和y方向插值得到坐标为浮点数的P点坐标。

图4是本发明中基于神经选择注意的目标显著性检测方法检测效果图。图4(a)是视觉显著性检测和目标掩膜与轮廓检测效果图，从检测结果可以看出，本发明提出的这种基于神经选择注意的目标显著性检测方法可以较好地获取视觉显著性结果与图像中各目标的掩膜与轮廓，并且能够较好地压制周围背景区域的干扰。图4(b)是目标选择与优化效果图，从检测结果可以看出，本发明中的目标选择模块可以较好地实现不同目标的分割，优化整合模块可以较好地提升显著性目标检测效果。

本发明具有如下的优点和有益效果：

(1)本发明是基于神经选择注意的显著性检测方法，在视觉显著性检测基础上，融入人类主观感知，建立神经选择注意机制，有选择地对图像中特定类别目标进行显著性检测，使得网络具备根据需要输出不同类别目标的显著性检测结果的能力。

(2)本发明采用深度学习技术。通过人工神经网络构建检测模型，利用图像集对网络模型进行训练，使其具备检测图像的视觉显著性结果、图像中目标掩膜与类别标签的能力，对于复杂图像具有较好的检测鲁棒性。

(3)本发明利用图像中目标标签引导目标选择机制，用目标掩膜引导特定目标的显著性检测。通过检测图像中各目标标签及对应掩膜，筛选出与任务相关目标掩膜。

(4)本发明采用图像目标掩膜与视觉显著性结合的方法优化检测效果。利用检测到的目标掩膜获取目标轮廓，利用特定类别的目标轮廓作用于视觉显著性检测结果中得到该类别目标的视觉显著性结果，将其与目标掩膜按权值相加得到优化后的检测结果。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于神经选择注意的目标显著性检测方法，其特征在于，包括：

步骤1：将包含原始图像与人工标注显著性目标掩膜图像的图像集一输入VGG16卷积神经网络进行特征提取，通过所述VGG16卷积神经网络中的两个全连接层将卷积特征聚合生成特征图，将生成的所述特征图通过反卷积生成视觉显著性图，并训练得到视觉显著性检测网络；

步骤3：将待检测图像输入步骤1中的所述视觉显著性检测网络中进行特征提取，生成所述视觉显著性图；

步骤4：将待检测图像输入步骤2中的所述目标分割与轮廓生成网络中，提取所述待检测图像中各个目标的目标掩膜与类别信息，利用Canny算子提取所述目标掩膜的边缘生成目标轮廓；

步骤5：根据检测任务的要求，结合所述类别信息，筛选出所述步骤4中与所述检测任务相关的所述目标掩膜和所述目标轮廓作为任务相关目标掩膜和任务相关目标轮廓，将所述任务相关目标轮廓结合所述步骤3中生成的所述视觉显著性图得到与所述检测任务相关的目标视觉显著性图；

2.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述步骤1中所述卷积神经网络包括编码层和解码层两部分，所述编码层采用所述VGG16卷积神经网络结合输入的所述图像集一进行训练；卷积层之间采用最大池化层连接，每一层所述卷积层均输出特征图；所述VGG16卷积神经网络还包括全连接层，将最后一层所述卷积层的所述特征图输入所述全连接层获得深层特征图；在所述解码层，采用反卷积方法将所述深层特征图映射成所述原始图像大小。

3.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述步骤2进行所述目标分割与轮廓提取网络训练的具体过程如下：

步骤22：对所述区域提议采用RoIAlign机制获取坐标为浮点数的目标候选区域，其中所述RoIAlign机制采用双线性插值方法将所述区域提议映射到所述原始图像中，在所述原始图像中获取精确的所述目标候选区域；

步骤23：获取所述目标候选区域后，对所述目标候选区域采用全卷积网络FCN生成所述掩膜，并在所述全连接层获取所述类别信息；通过所述全卷积网络FCN将所述特征图映射回所述原始图像，并获取所述原始图像中的所述目标掩膜；所述RoIAlign机制的反向传播公式为：

4.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，在所述步骤3中，设置所述待检测图像大小，并输入所述视觉显著性检测网络，其中所述视觉显著性检测网络中最后一层所述卷积层输出所述特征图，经过两个所述全连接层进行特征聚合得到深层特征图，通过反卷积层将提取的所述深层特征图反卷积为所述视觉显著性图。

5.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述步骤4具体过程如下：

步骤42：对所述区域提议利用所述RoIAlign机制、所述全卷积网络FCN和所述全连接层获取所述待检测图像的所述目标掩膜与所述类别信息；

步骤44：用Canny算子对所述目标掩膜M_i进行边缘检测获取各所述目标的所述目标轮廓C_i,i∈{1,2,...,N}。

6.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述步骤5中，所述检测任务包含着检测目标的所述类别信息，根据所述检测任务，所述步骤5的具体实现过程为：

S_T＝C_T∩S (2)

∩表示利用与所述检测任务相关的所述任务相关目标轮廓C_T选择的所述视觉显著性图S中的相应区域。

7.根据权利要求1所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述步骤6中将所述目标视觉显著性图S_T与所述任务相关目标掩膜M_T按权值相加，生成优化后的所述目标显著性检测结果S_final，

S_final＝λ₁·M_T+λ₂·S_T (3)

其中λ₁和λ₂分别为所述任务相关目标掩膜M_T和所述目标视觉显著性图S_T的权重系数。

8.根据权利要求2所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，采用交叉熵损失函数监督所述视觉显著性检测网络训练，公式如下：

9.根据权利要求3所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，所述双线性插值方法的求解模型为：

然后在y方向插值得到：

10.根据权利要求3所述的一种基于神经选择注意的目标显著性检测方法，其特征在于，采用损失函数L_M监督所述目标分割与轮廓提取网络的训练过程，所述损失函数L_M包含分类误差L_cls和分割误差L_mask两部分：

L_M＝L_cls+L_mask (8)

其中，y_i表示真实值，表示预测值。