CN111666954A

CN111666954A - 一种显著区域的联合学习提取方法及系统

Info

Publication number: CN111666954A
Application number: CN202010505520.3A
Authority: CN
Inventors: 梁晔; 马楠; 范莉丽
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-09-15

Abstract

本发明提供一种显著区域的联合学习提取方法及系统，其中方法包括准备训练集，还包括以下步骤：搭建深度学习网络，所述深度学习网络分为第一分支和第二分支；对所述第一个分支进行图像外观显著性特征的提取，并设置交叉熵函数L^S；对所述第二个分支进行对象标签语义特征的提取，并设置目标函数L^T；将所述交叉熵函数L^S和所述目标函数L^T整合，生成所述深度学习网络的损失函数L；将所述深度学习网络的全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。本发明提出的一种显著区域的联合学习提取方法及系统，为将对象标签语义特征和图像外观特征提取统一在同一个框架里，通过深度学习网络将二者进行联合训练和显著区域的提取。

Description

一种显著区域的联合学习提取方法及系统

技术领域

本发明涉及计算机视觉的技术领域，具体地说是一种显著区域的联合学习提取方法及系统。

背景技术

注意机制是人类信息加工过程中的一项重要心理调节机制，能够对有限的信息资源进行分配，使感知具备选择能力。若能将这种机制引入图像分析领域，将计算资源优先分配给容易引起观察者注意的区域，必将极大提高现有图像处理分析方法的工作效率。因此，显著性检测已经受到国内外学者的广泛关注，是目前研究的热点。

传统的显著性检测方法通常会使用多种显著性线索或先验信息，例如局部或全局对比度，边界先验。这些方法由于使用低级的人工设计特征和模型，不能识别和理解图像中的语义对象概念。近来，深度卷积神经网络已经在视觉模式识别方法取得了令人瞩目的成绩，已经越来越多的应用于显著区域的检测。只要提供足够的训练数据，深度卷积神经网络能够较准确的识别复杂图像中的显著对象，性能超过大多数的传统的基于人工设计特征的方法，取得了很好的检测效果。

随着网络和社交平台的迅猛发展，涌现了大量的社交图片，而且带有标签信息。标签的语义虽然在图像标注领域已经得到了广泛应用，但是，应用在显著对象提取上的工作并不多。文献[Wen Wang，Congyan Lang，Songhe Feng.Contextualizing Tag RankingandSaliency Detection for Social Images.Advances in Multimedia ModelingLectureNotes inComputer Science Volume 7733，2013，pp 428-435.]将标签排序任务和显著性检测任务整合在一起，迭代地进行标签排序和显著性检测任务。文献[Zhu，G.，Wang，Q.，Yuan，Y.Tag-saliency：Combining bottom-up andtop-down information for saliencydetection.Computer Vision and ImageUnderstanding，2014，118(1)：40-49.]提出Tag-Saliency模型，通过基于层次的过分割和自动标注技术进行多媒体数据的标注。目前大部分的工作都是将标签信息和显著区域提取任务分开处理，没有将二者融为一体共同进行显著区域的提取。

申请号为CN107967480A的发明申请公开一种基于标签语义的显著对象提取方法，包括以下步骤：进行训练，进行测试，得到最终的显著图，所述训练包括以下子步骤，输入训练集，对图像I进行超像素分割。该方法的缺点是在对图像的外观特征进行提取的时候没有采用深度学习的方法，这将直接影响显著区域的提取效果。

发明内容

为了解决上述的技术问题，本发明提出的一种显著区域的联合学习提取方法及系统，为将对象标签语义特征和图像外观特征提取统一在同一个框架里，通过深度学习网络将二者进行联合训练和显著区域的提取。

本发明的第一目的是提供一种显著区域的联合学习提取方法，包括准备训练集，还包括以下步骤：

搭建深度学习网络，所述深度学习网络分为第一分支和第二分支；对所述第一个分支进行图像外观显著性特征的提取，并设置交叉熵函数L^S；

对所述第二个分支进行对象标签语义特征的提取，并设置目标函数L^T；将所述交叉熵函数L^S和所述目标函数L^T整合，生成所述深度学习网络的损失函数L；

将所述深度学习网络的全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。

优选的是，所述训练集包括原图像、原图像对应的二值标注显著区域的显著图和对原图像中的对象进行标注的标注文件。

在上述任一方案中优选的是，所述第一分支的深度学习网络包括5组13个卷积层和相应的映射单元，5个池化层通过ReLU线性修正单元进行非线性映射和最大池化操作。

在上述任一方案中优选的是，将训练图片输入所述第一分支的深度学习网络进行图像外观显著性特征的提取。

在上述任一方案中优选的是，所述第二分支的深度神经网络采用52个卷积层，每个卷积层后都会跟一个BN层和一个LeakyReLU层。

在上述任一方案中优选的是，将训练图片输入所述第二分支的深度学习网络进行对象标签语义特征的提取。

在上述任一方案中优选的是，所述交叉熵函数L^S的计算公式为：

其中，(x，y)代表输入图像的坐标，S(x，y)表示基准标注的显著值，

表示预测的显著值。

在上述任一方案中优选的是，所述目标函数L^T的计算公式为：

其中，N表示要预测的对象类别的个数，M表示预测过程中矩形框的个数，D_ij代表标注的矩形框的位置，

代表预测的矩形框的位置；C_ij表示标注为对象的概率，

表示预测为对象的概率；p_ij表示标注为某种类别的概率；

表示预测为某种类别的概率，i表示第i个矩形框，1≤i≤M，j表示第j种对象类别，1≤j≤N。

在上述任一方案中优选的是，所述深度学习网络的损失函数L的计算公式为：

L＝L^S+αL^T

其中，α参数用于平衡两种损失值。

本发明的第二目的是提供一种显著区域的联合学习提取系统，包括训练集和深度神经网络搭建模块，包括以下模块：

拆分模块：用于将深度学习网络分为第一分支和第二分支；

函数设置模块：用于对所述第一个分支进行图像外观显著性特征的提取，并设置交叉熵函数L^S；还用于对所述第二个分支进行对象标签语义特征的提取，并设置目标函数L^T；

整合模块：用于将所述交叉熵函数L^S和所述目标函数L^T整合，生成所述深度学习网络的损失函数；

预测模块：用于将所述深度学习网络的全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。

表示预测的显著值。

代表预测的矩形框的位置；C_ij表示标注为对象的概率，

表示预测为对象的概率；p_ij表示标注为某种类别的概率；

L＝L^S+αL^T

其中，α参数用于平衡两种损失值。

本发明提出了一种显著区域的联合学习提取方法及系统，能够更好的将标签的语义信息与图像自身特征进行更好的融合，提高显著区域的提取效果。

附图说明

图1为按照本发明的显著区域的联合学习提取方法的一优选实施例的流程图。

图2为按照本发明的显著区域的联合学习提取系统的一优选实施例的模块图。

图3为按照本发明的显著区域的联合学习提取方法的一优选实施例的网络结构图。

图4为按照本发明的显著区域的联合学习提取方法的第一分支深度学习网络的一优选实施例的结构图。

图5为按照本发明的显著区域的联合学习提取方法的第二分支深度学习网络的一优选实施例的结构图。

图6为按照本发明的显著区域的联合学习提取方法的显著区域标注的一优选实施例的示意图。

图7为按照本发明的显著区域的联合学习提取方法的显著区域检测的一优选实施例的结果示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，准备训练集。训练集包括原图像、原图像对应的二值标注显著区域的显著图和对原图像中的对象进行标注的标注文件。

执行步骤110，搭建深度学习网络，所述深度学习网络分为第一分支和第二分支。第一分支的深度学习网络包括5组13个卷积层和相应的映射单元，5个池化层通过ReLU线性修正单元进行非线性映射和最大池化操作。第二分支的深度神经网络采用52个卷积层，每个卷积层后都会跟一个BN层和一个LeakyReLU层。

执行步骤120，对所述第一个分支进行图像外观显著性特征的提取，并设置交叉熵函数L^S。将训练图片输入所述第一分支的深度学习网络进行图像外观显著性特征的提取，交叉熵函数L^S的计算公式为：

表示预测的显著值。

执行步骤130，对所述第二个分支进行对象标签语义特征的提取，并设置目标函数L^T。将训练图片输入所述第二分支的深度学习网络进行对象标签语义特征的提取，目标函数L^T的计算公式为：

代表预测的矩形框的位置；C_ij表示标注为对象的概率，

表示预测为对象的概率；p_ij表示标注为某种类别的概率；

执行步骤140，将所述交叉熵函数L^S和所述目标函数L^T整合，生成所述深度学习网络的损失函数L。深度学习网络的损失函数L的计算公式为：

L＝L^S+αL^T

其中，α参数用于平衡两种损失值。

执行步骤150，将所述深度学习网络的全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。

在本实施例中，步骤120和步骤130不分先后，可先执行步骤120再执行步骤130，或先执行步骤130再执行步骤120，或同时执行步骤120和步骤130。

实施例二

如图2所示，一种显著区域的联合学习提取系统，包括训练集200、深度神经网络搭建模块210、拆分模块220、函数设置模块230、整合模块240和预测模块250。

训练集200包括原图像、原图像对应的二值标注显著区域的显著图和对原图像中的对象进行标注的标注文件。

拆分模块220：用于将深度学习网络210分为第一分支和第二分支；第一分支的深度学习网络包括5组13个卷积层和相应的映射单元，5个池化层通过ReLU线性修正单元进行非线性映射和最大池化操作；第二分支的深度神经网络采用52个卷积层，每个卷积层后都会跟一个BN层和一个LeakyReLU层。

函数设置模块230：用于对所述第一个分支进行图像外观显著性特征的提取，并设置交叉熵函数L^S，将训练图片输入所述第一分支的深度学习网络进行图像外观显著性特征的提取，交叉熵函数L^S的计算公式为：

表示预测的显著值。

函数设置模块230：还用于对对所述第二个分支进行对象标签语义特征的提取，并设置目标函数L^T，将训练图片输入所述第二分支的深度学习网络进行对象标签语义特征的提取，目标函数L^T的计算公式为：

代表预测的矩形框的位置；C_ij表示标注为对象的概率，

表示预测为对象的概率；p_ij表示标注为某种类别的概率；

整合模块240：用于将所述交叉熵函数L^S和所述目标函数L^T整合，生成所述深度学习网络的损失函数，深度学习网络的损失函数L的计算公式为：L＝L^S+αL^T，其中，α参数用于平衡两种损失值。

预测模块250：用于将所述深度学习网络的全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。

实施例三

本发明提出了图像标签语义信息和图像自身特征联合学习的显著区域提取方法。本发明的深度网络由两个分支组成：一个分支用于图像外观显著性特征的提取，另一个分支用于对象标签语义特征的提取，并通过全连接层将两个分支的特征进行联合，通过支持向量机对网络进行联合训练，进而对显著性进行预测。下面为联合学习的方法过程。

1.训练集的准备

训练集包括原图像及其对应的二值标注显著区域的显著图，还包括对原图像中的对象进行标注的标注文件，标注的信息包括目标的坐标/大小、目标类型，用(left，top，width，height，class)来表示。

2.深度学习网络的设计

本发明的深度网络由两个分支组成：一个分支用于图像外观显著性特征的提取，另一个分支用于对象标签语义特征的提取，并通过全连接层将两个分支的特征进行全连接，通过支持向量机对网络进行联合训练，进而对显著性进行预测。整体的网络结构如图3所示。

(1)用于图像外观显著性特征的分支结构

深度学习网络的一个分支用于图像外观显著性特征的提取，如图4所示，这个分支包括5组13个卷积层和相应的映射单元，5个池化层通过ReLU线性修正单元进行非线性映射和最大池化操作。将训练图片输入网络进行图像外观显著性特征的提取。

(2)用于标签语义特征提取的分支结构

深度学习网络的第二个分支用于对象标签语义的提取，如图5所示，这个分支采用52个卷积层，每个卷积层后都会跟一个BN层和一个LeakyReLU层。训练图片输入网络进行对象标签语义特征的提取。

3.深度网络的训练

(1)用于图像外观显著性预测的深度学习网络目标函数的设计

用于图像外观显著性预测的深度学习网络的交叉熵函数为：

表示预测的显著值。

(2)用于对象标签语义特征提取的的深度学习网络目标函数的设计用于对象标签语义特征提取的的深度学习网络目标函数为：

代表预测的矩形框的位置；C_ij表示标注为第j种对象的概率，

表示预测为第j种对象的概率；p_ij表示标注为第j种类别的概率；

表示预测为第j种类别的概率。

(3)整个深度学习网络的目标函数的设计

将预测损失函数L^S和L^T整合在一起作为整个深度网络的损失函数，

L＝L^S+αL^T

其中，α参数用于平衡两种损失值。

4.显著性的预测

本发明的深度学习网络的最后两层为全连接层，将全连接层得到的特征输入到支持向量机进行训练，并预测图像的显著图。

实施例四

如图6所示，(a)是原始图像。(b)是图像中显著区域的标准二值标注，在训练图像集的标签里面选择20个对象标签，包括bear，birds，boats，buildings，cars，cat，computer，coral，cow，dog，elk，fish，flowers，fox，horses，person，plane，tiger，train，zebra，原图像的标签为cat，所以图像中的对象的类别标识为6。(c)是图像中对象的矩形框标注，矩形框的位置信息为(100，0，230，400)。

实施例五

本实施例展示了显著区域检测结果。如图7所示，(a)是原始图像。(b)是显著区域的检测结果。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。