CN110175974A

CN110175974A - 图像显著性检测方法、装置、计算机设备和存储介质

Info

Publication number: CN110175974A
Application number: CN201810200525.8A
Authority: CN
Inventors: 何盛烽; 张怀东
Original assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Current assignee: South China University of Technology SCUT; Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-12
Filing date: 2018-03-12
Publication date: 2019-08-27
Anticipated expiration: 2038-03-12
Also published as: CN110175974B

Abstract

本申请涉及一种图像显著性检测方法、装置、计算机设备和存储介质，方法包括：获取待检测图像；运用超像素分割算法，将待检测图像分割成多尺度下的超像素，得到待检测图像各尺度的超像素分割图像；提取各超像素分割图像的特征，得到各超像素分割图像的特征向量；将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果；融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。该方法能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。

Description

图像显著性检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像显著性检测方法、装置、计算机设备和存储介质。

背景技术

图像显著性是指，图像中的像素点能够区别于其他像素点吸引视觉注意的能力，通常为图像内容的主体，例如一张图像的人物等。

传统地图像显著性检测方法，通过将图像使用超像素分割，超像素是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，很大程度上降低了图像后处理的复杂度，所以通常作为分割算法的预处理步骤。基于超像素分割图像，进一步提取显著区域即可得到显著图。

然而，基于单一的超像素分割图像对图像的显著性进行检测，受超像素分割的尺度的影响，超像素分割尺度大，则检测结果越准确，检测时间长导致效率低，而超像素分割尺寸小，检测时间短，但检测结果不准确。

发明内容

基于此，有必要针对检测结果不准确且效率低的问题，提供一种图像显著性检测方法、装置、计算机设备和存储介质。

一种图像显著性检测方法，包括：

获取待检测图像；

运用超像素分割算法，将所述待检测图像分割成多尺度下的超像素，得到所述待检测图像各尺度的超像素分割图像；

提取各超像素分割图像的特征，得到各超像素分割图像的特征向量；

将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各所述神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果；

融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。

一种图像显著性检测装置，所述装置包括：

图像获取模块，用于获取待检测图像；

超像素处理模块，用于运用超像素分割算法，将所述待检测图像分割成多尺度下的超像素，得到所述待检测图像各尺度的超像素分割图像；

特征提取模块，用于提取各超像素分割图像的特征，得到各超像素分割图像的特征向量；

检测模块，用于将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各所述神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果；

融合模块，用于融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

上述图像显著性检测方法、装置、计算机设备和存储介质，通过对图像在不同尺度的超像素分割图像，利用递归神经网络对各超像素分割图像的显著性进行检测，得到各超像素分割图像的显著图，融合各超像素分割图像的显著图，得到图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息，另一方面利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。

附图说明

图1为一个实施例中图像显著性检测方法的流程示意图；

图2为一个实施例中得到各超像素分割图像的显著图步骤的流程图；

图3为一个实施例中递归神经网络的结构示意图；

图4为一个实施例中LSTM单元的处理示意图；

图5为一个实施例中融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图的步骤的流程图；

图6为一个实施例中图像显著性检测方法的流程图；

图7为一个实施例中递归神经网络的结构示意图；

图8为另一个实施例中图像显著性检测方法的流程图；

图9为另一个实施例中递归神经网络的结构示意图；

图10为一实施例中图像显著性检测装置的结构框图；

图11为一实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，在一个实施例中，提供了一种图像显著性检测方法，该方法应用于终端设备，终端设备可以为具有拍摄功能的终端，例如手机、照相机、平板电脑，笔记本电脑等，终端设备还可以为具有图像处理功能的终端，例如笔记本电脑，个人PC等。参照图1，该图像显著性检测方法具体包括如下步骤：

S102，获取待检测图像。

图像是显著性检测的对象，显著性检测利用图像的特征模拟人类视觉对图像的理解，即检测出图像中人类视觉比较关注的部分。图像具体可以为用户输入的待处理图像，也可以为终端设备拍照即时得到的图像。其中，在识别得到图像中的显著性区域后，根据具体的应用场景及显著性检测结果，可对图像进行自动裁剪，图像压缩，图像分割和目标识别等。

S104，运用超像素分割算法，将待检测图像分割成多尺度下的超像素，得到待检测图像各尺度的超像素分割图像。

超像素是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组，用少量的超像素代替大量的像素来表达图片特征，很大程度上降低了图像后处理的复杂度，所以通常作为分割算法的预处理步骤。超像素由一系列位置相邻且颜色、亮度、纹理等特征相似的像素点组成的小区域。这些小区域大多保留了进一步进行图像分割的有效信息，且一般不会破坏图像中物体的边界信息。

本申请可采用常用的超像素分割算法，将图像分割成多尺度下的超像素，例如SLIC超像素分割算法。

本申请中设定了多种尺度对图像进行超像素分割，尺度即超像素分割算法分割后，图像分割成超像数的数量。一个实施例中，设置的多尺度包括100，200， 300和400，则将利用超像素分割算法，将图像分割成包括100个超像素区域的图像，包括200超像素区域的图像，包括300个超像素区域的图像和包括400 个超像素区域的图像。其中，超像素的尺度数量超大，图像分割地越精细。

S106，提取各超像素分割图像的特征，得到各超像素分割图像的特征向量。

具体地，各超像素分割图像的特征提取，可以超像素为单位，提取超像素的亮度信息和RGB分量值信息等。具体地，可利用深度学习训练模型进行超像素分割图像的特征提取，得到每一个超像素分割图像的特征向量，即用特征向量表示每一超像素区域的特征。

S108，将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果。

其中，递归神经网络(Recurrent Neural Networks，RNN)包括输入单元、输出单元和隐含层，隐含层的输入还包括上一隐含层的状态。常用的递归神经网络包括LSTM(LongShort-Term Memory，长短期记忆网络)。可以理解的是，递归神经网络结构的参数通过对大量标记样本训练得到。

本实施例中，各超像素分割图像分别对应一个递归神经单元，各超像素分割图像的特征向量依次输入对应的神经网络单元。各神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果。基于递归经网络的特性，当前尺度的超像素分割图像的特征向量以及第N个时间序列的隐含层的输出输入第N+1时间序列的神经网络单元(例如LSTM单元)。利用神经网络单元检测每个超像素分割图像中的显著的超像素，得到每个超像素分割图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息。另一方面，由于利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即下一时刻对对应尺度的超像素分割图像的检测还考虑上一尺度的超像素，例如，相比当前尺度分割更粗糙的超像素分割图像，或者相比当前尺度分割更精细的超像素分割图像，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。

S110，融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。

具体地，通过递归神经网络，得到同一图像的不同尺度的超像素分割图像的显著图，因此，各显著图来自于不同尺度，粗糙和精细程度不同，因此具有互补的作用。具体的融合方式可以为线性叠加，即将各尺度的超像素分割图像的显著图叠加，得到该图像的显著图。其它的融合方式还可以利用卷积神经网络融合。可以理解的是，卷积神经网络的参数通过预先对大量的图像的不同尺度的超像素分割图像的显著图以及图像的显著图进行训练得到，利用卷积神经网络进行融合，速度快，效果好。

上述的图像显著性检测方法，通过对图像在不同尺度的超像素分割图像，利用递归神经网络对各超像素分割图像的显著性进行检测，得到各超像素分割图像的显著图，融合各超像素分割图像的显著图，得到图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息，另一方面利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。

一个实施例中，用于图像显著性检测的递归神经网络采用LSTM网。Long ShortTerm Memory网络，简称LSTM，是一种递归神经网络(RNN)的特殊类型，可以学习长期依赖信息。具体地，LSTM网络通过增加遗忘门，能够更好的协调输入和上一隐含层的信息分配，并且RNN网络的历史信息会随着时间递减，而LSTM具有保留信息的能力。故使用LSTM网络具有较好的检测效果。本实施以递归神经网络采用LSTM网络，对图像显著性检测进行说明。

图2为一个实施例的得到各超像素分割图像的显著图步骤的流程图。如图2 所示，将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果的步骤，包括以下步骤S202至步骤S206：

S202，将各超像素分割图像的特征向量按尺度大小的顺序依次输入递归神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出。

一个实施例的递归神经网络的结构如图3所示，包括M层神经网络单元，具体为LSTM单元。其中LSTM传播方向为上一时间序列的隐含层的输出的向下一时间序列的神经网络单元传播方向。

按尺度大小的顺序依次输入预先训练得到的递归神经网络模型。神经网络单元的各时间序列的层次关系与各超像素分割图像的尺度大小的顺序相关，将各超像素分割图像的特征向量按尺度大小的顺序依次输入对应层级的时间序列的LSTM单元具体地，第一尺度大小对应的超像素分割图像输入第一时间序列的神经网络单元，第二尺度大小对应的超像素分割图像输入第二时间序列的神经网络单元，依此类推。其中，尺度大小是指超像素分割的尺度大小，具体为尺度的数值，例如100的尺度，200的尺度等。在具体的实现方式上，可以按照尺度大小由小至大(或由大至小)的顺序依次将对应的超像素分割图像输入递归神经网络结构，例如，最小尺度(例如100)的超像素分割图像的特征向量输入第一个时间序列的神经网络单元(例如LSTM单元)，基于递归经网络的特性，下一尺度(例如200)的超像素分割图像的特征向量以及第一个时间序列的隐含层的输出输入第二个时间序列的神经网络单元(例如LSTM单元)，依此类推。排序为第N+1对应尺度的超像素分割图像的特征向量以及第N个时间序列的隐含层的输出输入第N+1时间序列的神经网络单元(例如LSTM单元)。利用神经网络单元检测每个超像素分割图像中的显著的超像素，得到每个超像素分割图像的显著图。

S204，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测。

具体地，由LSTM单元分别检测各超像素分割图像中每个超像素的显著性，得到各超像素是否显著的检测结果，即该超像素是否显著的判断结果。一个实施例中，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测的步骤，包括：各时间序列的神经网络单元随机选择对应的超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测；按照设定的遍历规则，更新当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

图4为一个实施例的LSTM单元的处理示意图。如图4所示，对于超像素分割图像的各超像素，根据各超像素的特征(例如，颜色的相似程度等)建立各超像素的网络拓扑，形成与超像素分割图像对应的网络拓扑图，该网络拓扑图能够表示各超像素之间的关系，例如，根据网络拓扑图能够确定一超像素的相邻超像素。基于该网络拓扑图，随机选择一个超像素作为当前节点，根据该超像素的特征向量，相邻超像素的特征向量以及上一时间序列的隐含层的输出，对该超像素是否显著进行检测，得到该超像素的显著性检测结果。按照设定的遍历规则，将下一超像素做为当前节点，依次遍历各超像素，得到该超像素分割图像的所有超像素的显著性检测结果。具体地遍历规则，可依据实际情况设置，本实施例中不做限定。可以理解的是，对于第一时间序列的LSTM单元，仅根据超像素的特征向量和相邻超像素的特征向量，对该超像素是否显著进行检测。

S206，基于各超像素的检测结果，得到超像素分割图像的显著图检测结果。

具体地，超像素分割图像的显著图由超像素分割图像中显著的超像素组成。

图5为一个实施例的融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图的步骤的流程图。如图5所示，该步骤包括：

S502，将各超像素分割图像的显著图检测结果输入至第一卷积神经网络，得到各超像素分割图像的特征图。

每一LSTM单元输出的超像素的显著图结果来自不同尺度，从而会有互补的作用。因为每一层的预测尺度不同，得到的显著性结果也不同。针对这一现象，对每一LSTM单元后显著图后增加一个简单的卷积神经网络，将显著图结果转换为特征图。具体地，第一卷积神经网络与各时间序列的LSTM单元连接，第一卷积神经网络的输入为各LSTM单元输出的各超像素分割图像的显著图检测结果，通过第一卷积神经网络，将不同尺度的超像素分割图像的显著图检测结果转换为特征图。

S504，将超像素分割图像的特征图输入至第二卷积神经网络，通过第二卷积神经网络融合不同尺度的特征图，得到图像的显著图。

利用一个简单的卷积神经网络将不同尺度的特征图融合起来，得到单个图像的显著图。具体地，第二卷积神经网络与第一卷积神经网络连接，第二卷积神经网络的输入为不同尺度的特征图，通过第二卷积神经网络将不同尺度的特征图融合，得到图像的显著图。

本申请的图像显著性检测方法，还可用于对视频的显著性进行检测。图6 为一个实施例的图像显著性检测方法的流程图，如图6所示，该方法包括以下步骤：

S602，获取输入的视频。

其中，输入的视频可以为已预先拍摄完成的视频，通过对视频的显著性进行检测，可用于根据显著性检测结果，对视频进行分类。输入的视频还可以即时采集的视频，通过对视频的显著性进行检测，可将非显著的区域作为背景，进行虚化处理，以达到较好的视觉效果。

S604，对视频进行分帧处理，得到每一视频帧对应的待检测图像。

具体地，通过对视频进行分帧处理，得到每一视频帧，将每一视频帧作为待检测图像。分帧处理可采用传统的分帧处理技术，此处不作限定。

S606，运用超像素分割算法，将待检测图像分割成多尺度下的超像素，得到待检测图像各尺度的超像素分割图像。

具体地，对每一视频帧，运行超像素分割算法，得到每一视频帧多尺度的超像素分割图像。

S608，提取各超像素分割图像的特征，得到各超像素分割图像的特征向量。

具体地，各超像素分割图像的特征提取，可以超像素为单位，提取超像素的亮度信息和RGB分量值信息等。

S610，根据视频帧的数量，建立对应数量的神经网络结构。

一个实施例的递归神经网络的结构如图7所示，包括与视频帧数量相同的T 个神经网络结构，各神经网络结构分别用于处理一个视频帧的图像。应当理解的是，各神经网络结构相同，神经网络结构的参数基于大量标注样本训练得到。

S612，根据视频帧的先后顺序，将各视频帧对应的待检测图像的特征向量输入对应的神经网络结构；其中，待检测图像的特征向量包括待检测图像的各超像素分割图像的特征向量。

具体地，各神经网络结构处理一视频帧对应的待检测图像的各超像素分割图像。即每一神经网络结构对一视频帧对应的待检测图像的显著性进行检测。

S614，将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果。

具体地，该步骤为神经网络结构对视频帧对应的待检测图像的显著性进行检测的具体步骤。该包括：将各超像素分割图像的特征向量按尺度大小的顺序依次输入递归神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测，基于各超像素的检测结果，得到超像素分割图像的显著图检测结果。

通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测的步骤，包括：各时间序列的神经网络单元随机选择对应的超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测；按照设定的遍历规则，更新当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

S616，融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。

通过各神经网络结构，得到各视频帧对应的图像的显著图检测得到，即，得到视频的每一帧的显著图。

S618，融合各神经网络结构输出的各视频帧对应图像的显著图，得到视频的显著图。

具体地，将各神经网络结构输出的各视频帧对应的图像的显著图，输入第三卷积神经网络，通过所述第三卷积神经网络融合各视频帧的显著图，得到所述视频的显著图。可以理解的是，第三卷积神经网络的参数预先通过训练得到。

上述的图像显著性检测方法，通过将视频拆分成多个视频帧对应的待检测图像，每一待检测图像利用一个神经网络结构对待检测图像的显著性进行检测，将每一待分割图像在不同尺度进行分割，得到待分割图像的多尺度超像素分割图像，利用递归神经网络对各超像素分割图像的显著性进行检测，得到各超像素分割图像的显著图，融合各超像素分割图像的显著图，得到图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息，另一方面利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。融合各视频帧的显著图，得到该视频精确的显著图。

实时视频编辑应用与图像处理应用不同，还需要考虑视频效果的时空一致性，即前后帧的效果不能变化太大，为此，本申请提供一种图像显著性检测方法，加入前后帧的依赖关系，让前后帧的背景虚化效果维持一致。因此本技术可加入到智能手机中，给手机应用带来准确的实时背景虚化效果。图8为一个实施例的图像显著性检测方法的流程图，如图8所示，该方法包括以下步骤：

S802，获取输入的视频。

S804，对视频进行分帧处理，得到每一视频帧对应的待检测图像。

S806，运用超像素分割算法，将待检测图像分割成多尺度下的超像素，得到待检测图像各尺度的超像素分割图像。

S808，提取各超像素分割图像的特征，得到各超像素分割图像的特征向量。

S810，根据视频帧的数量，建立对应数量的神经网络结构。其中，各神经网络结构的相同时间序列的神经网络单元依次连接。

一个实施例的递归神经网络的结构如图9所示，包括与视频帧数量相同的T 个神经网络结构，各神经网络结构包括M个分割模型(LSTM单元)，各分割模型具体为如图4所示的结构。各神经网络结构分别用于处理一个视频帧的图像。其中，各神经网络结构的相同时间序列的神经网络单元依次连接。应当理解的是，各神经网络结构相同，神经网络结构的参数基于大量标注样本训练得到。

Long Short Term Memory网络，简称LSTM，是一种递归神经网络(RNN) 的特殊类型，可以学习长期依赖信息，视频的时序性质非常符合LSTM的长短时记忆模型。本申请中同一神经网络结构LSTM的作用在于探索相邻像素之间的依赖性。通过各神经网络结构的相同时间序列的神经网络单元依次连接，探索帧间依赖性，该方法把时间、空间信息都包含在一个树状结构内，从而可以更快速、准确地对视频帧进行显著性预测。

S812，根据视频帧的先后顺序，将各视频帧对应的待检测图像的特征向量输入对应的神经网络结构；其中，待检测图像的特征向量包括待检测图像的各超像素分割图像的特征向量。

S814，同一神经网络结构中，将各超像素分割图像的特征向量按尺度大小的顺序依次输入神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出。

S816，第T+1神经网络结构的第N神经网络单元还输入第T神经网络结构的第N神经网络单元的隐含层的输出。

S818，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测。

应当理解的是，各神经网络结构相同，同一时间序列的神经网络单元用于输入相同尺度的超像素分割图像。

具体地，各时间序列的神经网络单元，根据神经网络单元的输入，对超像素分割图像中的各超像素的显著性进行检测。对于第一神经网络结构，第一时间序列的神经网络单元随机选择对应的超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测；按照设定的遍历规则，更新当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

对于第T+1神经网络结构，第一时间序列的神经网络单元随机选择对应的超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量和第T神经网络结构的第一时间序列的隐含层的输出，对当前超像素的显著性进行检测；按照设定的遍历规则，更新当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。第N+1时间序列的神经网络单元随机选择对应的超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、(第T+1神经网络结构的)第 N时间序列的神经网络单元的隐含层的输出和第T神经网络结构的第N时间序列的隐含层的输出，对当前超像素的显著性进行检测；按照设定的遍历规则，更新当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

本实施例中，帧内的图像的显著性检测，通过对图像的不同尺度的超像素分割图像进行，利用LSTM网络，将同一帧里面相邻超像素之间的依赖性扩展到多尺度依赖性，而通过连接各LSTM神经网络结构，在建立多尺度表达的同时，同一尺度不同帧之间亦建立LSTM连接，考虑了视频帧之间的依赖性。

S820，基于各超像素的检测结果，得到超像素分割图像的显著图检测结果。

S822，融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图。

S824，融合各神经网络结构输出的各视频帧对应图像的显著图，得到视频的显著图。

上述的图像显著性检测方法，通过各神经网络结构的相同时间序列的神经网络单元依次连接，在同一尺度的超像素中，建立不同帧之间的关系。在帧T 的预测当中，会得到来自帧T-1的LSTM的参数。在不同LSTM的信息传递当中，神经网络可以建立帧间依赖性。得到前面帧的信息后，进行超像素遍历预测，从而让检测结果保持时空一致性。

在视频拍摄过程中，对于利用上述方法得到的视频的显著图，可将显著图作为前景重要物体，从而达到准确的背景虚化的效果。本申请的技术方案运用超像素作为基本运算单位，大大缩减了运算量的同时亦增加了对物体边缘的准确提取。通过运用LSTM，加入了超像素之间的类间依赖性，使得前景预测基于周边超像素的预测，增加了预测的可靠性。

应该理解的是，虽然图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

一种图像显著性检测装置，如图10所示，图像显著性检测装置包括：

图像获取模块101，用于获取待检测图像。

超像素处理模块102，用于运用超像素分割算法，将所述待检测图像分割成多尺度下的超像素103，得到所述待检测图像各尺度的超像素分割图像。

特征提取模块104，用于提取各超像素分割图像的特征，得到各超像素分割图像的特征向量。

检测模块105，用于将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各所述神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果。

上述的图像显著性检测装置，通过对图像在不同尺度的超像素分割图像，利用递归神经网络对各超像素分割图像的显著性进行检测，得到各超像素分割图像的显著图，融合各超像素分割图像的显著图，得到图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息，另一方面利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。

在另一个实施例中，所述检测模块包括：

输入模块，用于将各超像素分割图像的特征向量按尺度大小的顺序依次输入递归神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出。

超像素检测模块，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测。

显著结果获取模块，用于基于各超像素的检测结果，得到所述超像素分割图像的显著图检测结果。

具体地，所述超像素检测模块包括：

超像素显著检测模块，用于各时间序列的神经网络单元随机选择对应的所述超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测。

遍历模块，用于按照设定的遍历规则，更新所述当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

具体地，所述融合模块包括：

转换模块，用于将各超像素分割图像的显著图检测结果输入至第一卷积神经网络，得到各超像素分割图像的特征图。

融合处理模块，用于将超像素分割图像的特征图输入至第二卷积神经网络，通过所述第二卷积神经网络融合不同尺度的特征图，得到所述图像的显著图。

在一个实施例中，图像显著性检测装置还包括视频获取模块，用于获取输入的视频；

所述图像获取模块，用于对所述视频进行分帧处理，得到每一视频帧对应的待检测图像。

所述装置还包括：神经网络建立模块，用于根据视频帧的数量，建立对应数量的神经网络结构。

网络输入模块，用于根据视频帧的先后顺序，将各视频帧对应的待检测图像的特征向量输入对应的神经网络结构；其中，所述待检测图像的特征向量包括所述待检测图像的各超像素分割图像的特征向量。

视频融合模块，用于融合各神经网络结构输出的各视频帧对应图像的显著图，得到所述视频的显著图。

上述的图像显著性检测装置，通过将视频拆分成多个视频帧对应的待检测图像，每一待检测图像利用一个神经网络结构对待检测图像的显著性进行检测，将每一待分割图像在不同尺度进行分割，得到待分割图像的多尺度超像素分割图像，利用递归神经网络对各超像素分割图像的显著性进行检测，得到各超像素分割图像的显著图，融合各超像素分割图像的显著图，得到图像的显著图。一方面，通过基于对各尺度的超像素分割图像的显著图检测结果，得到图像的显著图，扩大了检测的来源信息，另一方面利用了递归神经网络，上一神经网络单元的隐含层的输入还将作为下一时刻的输入，即考虑了同一图像用不同尺度分割的超像素分割图像之间的依赖关系，对当前时刻的超像素分割图像的显著超像素进行预测，能够高效的把全部或更更大的局部信息加入到对当前的超像素的显著性的判断，从而得到更加准确的检测结果。融合各视频帧的显著图，得到该视频精确的显著图。

在另一实施例中，所述输入模块，用于同一神经网络结构中，将各超像素分割图像的特征向量按尺度大小的顺序依次输入所述神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出；第T+1神经网络结构的第N神经网络单元还输入第T神经网络结构的第N神经网络单元的隐含层的输出。

上述的图像显著性检测装置，通过各神经网络结构的相同时间序列的神经网络单元依次连接，在同一尺度的超像素中，建立不同帧之间的关系。在帧T 的预测当中，会得到来自帧T-1的LSTM的参数。在不同LSTM的信息传递当中，神经网络可以建立帧间依赖性。得到前面帧的信息后，进行超像素遍历预测，从而让检测结果保持时空一致性。

图11示出了一个实施例中计算机设备的内部结构图。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图像显著性检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图像显著性检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像显著性检测装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像显著性检测装置的各个程序模块，比如，图10所示的图像获取模块、超像素处理模块和特征提取模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像显著性检测方法中的步骤。

例如，图11所示的计算机设备可以通过如图10所示的图像显著性检测装置中的图像获取模块执行获取待检测图像的步骤。计算机设备可通过超像素处理模块执行运用超像素分割算法，将所述待检测图像分割成多尺度下的超像素，得到所述待检测图像各尺度的超像素分割图像的步骤。计算机设备可通过特征提取模块执行提取各超像素分割图像的特征，得到各超像素分割图像的特征向量的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM (EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM 以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM (SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM (RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像显著性检测方法，包括：

获取待检测图像；

2.根据权利要求1所述的方法，其特征在于，所述将各超像素分割图像的特征向量依次输入递归神经网络结构的各神经网络单元，通过各所述神经网络单元检测对应的超像素分割图像，得到各超像素分割图像的显著图检测结果的步骤，包括：

将各超像素分割图像的特征向量按尺度大小的顺序依次输入递归神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出；

通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测；

基于各超像素的检测结果，得到所述超像素分割图像的显著图检测结果。

3.根据权利要求2所述的方法，其特征在于，所述通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测的步骤，包括：

各时间序列的神经网络单元随机选择对应的所述超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测；

按照设定的遍历规则，更新所述当前超像素，对各超像素分割图像中所有的超像素的显著性进行检测。

4.根据权利要求1或权利要求2所述的方法，其特征在于，所述融合各尺度的超像素分割图像的显著图检测结果，得到所述图像的显著图的步骤，包括：

将各超像素分割图像的显著图检测结果输入至第一卷积神经网络，得到各超像素分割图像的特征图；

将超像素分割图像的特征图输入至第二卷积神经网络，通过所述第二卷积神经网络融合不同尺度的特征图，得到所述图像的显著图。

5.根据权利要求1或权利要求2所述的方法，其特征在于，所述方法还包括：获取输入的视频；

所述获取待检测图像的步骤，包括：对所述视频进行分帧处理，得到每一视频帧对应的待检测图像；

所述方法，还包括：

根据视频帧的数量，建立对应数量的神经网络结构；

根据视频帧的先后顺序，将各视频帧对应的待检测图像的特征向量输入对应的神经网络结构；其中，所述待检测图像的特征向量包括所述待检测图像的各超像素分割图像的特征向量；

在所述融合各尺度的超像素分割图像的显著图检测结果，得到图像的显著图步骤之后，还包括：

融合各神经网络结构输出的各视频帧对应图像的显著图，得到所述视频的显著图。

6.根据权利要求5所述的方法，其特征在于，各神经网络结构的相同时间序列的神经网络单元依次连接；

所述将各超像素分割图像的特征向量按尺度大小的顺序依次输入所述神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出的步骤，包括：

同一神经网络结构中，将各超像素分割图像的特征向量按尺度大小的顺序依次输入所述神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出；

第T+1神经网络结构的第N神经网络单元还输入第T神经网络结构的第N神经网络单元的隐含层的输出。

7.根据权利要求5所述的方法，其特征在于，所述融合各神经网络结构输出的各视频帧对应图像的显著图，得到所述视频的显著图的步骤，包括：

将各神经网络结构输出的各视频帧对应的图像的显著图，输入第三卷积神经网络，通过所述第三卷积神经网络融合各视频帧的显著图，得到所述视频的显著图。

8.一种图像显著性检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

9.根据权利要求8所述的装置，其特征在于，所述检测模块包括：

输入模块，用于将各超像素分割图像的特征向量按尺度大小的顺序依次输入递归神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出；

超像素检测模块，通过各时间序列的神经网络单元，对各超像素分割图像中各超像素的显著性进行检测；

10.根据权利要求9所述的装置，其特征在于，所述超像素检测模块包括：

超像素显著检测模块，用于各时间序列的神经网络单元随机选择对应的所述超像素分割图像的一个超像素作为当前超像素，根据当前超像素的特征向量、相邻超像素的特征向量、以及上一时间序列的隐含层的输出，对当前超像素的显著性进行检测；

11.根据权利要求8或权利要求9所述的装置，其特征在于，所述融合模块包括：

转换模块，用于将各超像素分割图像的显著图检测结果输入至第一卷积神经网络，得到各超像素分割图像的特征图；

12.根据权利要求8或权利要求9所述的装置，其特征在于，所述装置还包括视频获取模块，用于获取输入的视频；

所述图像获取模块，用于对所述视频进行分帧处理，得到每一视频帧对应的待检测图像；

所述装置还包括：神经网络建立模块，用于根据视频帧的数量，建立对应数量的神经网络结构；

网络输入模块，用于根据视频帧的先后顺序，将各视频帧对应的待检测图像的特征向量输入对应的神经网络结构；其中，所述待检测图像的特征向量包括所述待检测图像的各超像素分割图像的特征向量；

13.根据权利要求12所述的装置，其特征在于，所述输入模块，用于同一神经网络结构中，将各超像素分割图像的特征向量按尺度大小的顺序依次输入所述神经网络结构中各时间序列的神经网络单元，其中，第N+1神经网络单元还输入第N神经网络单元的隐含层的输出；第T+1神经网络结构的第N神经网络单元还输入第T神经网络结构的第N神经网络单元的隐含层的输出。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

15.一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。