CN105205504A

CN105205504A - 一种基于数据驱动的图像关注区域质量评价指标学习方法

Info

Publication number: CN105205504A
Application number: CN201510642743.3A
Authority: CN
Inventors: 李甲; 陈小武; 赵沁平; 夏长群; 宋亚斐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2015-10-04
Filing date: 2015-10-04
Publication date: 2015-12-30
Anticipated expiration: 2035-10-04
Also published as: CN105205504B

Abstract

本发明涉及一种基于数据驱动的图像关注区域质量评价指标学习方法。现存的评价指标，大都是通过启发式设计而来，在进行图像关注区域质量评价的时候，常常会得到有冲突的结论。因此，选择何种指标将新得到的模型与已有模型进行性能比较，常常会让人很困惑。为了解决这个问题，本发明首先进行大量的主观测试，通过人眼来做图像的显著性观测；基于此测试，得到大量的用户评测数据，然后本发明提出一个基于数据驱动的图像关注区域质量评价指标学习方法，并首次使用卷积神经网络设计得到评价指标，指标性能与人眼观测性能具有很高的一致性。

Description

一种基于数据驱动的图像关注区域质量评价指标学习方法

技术领域

本发明涉及计算机视觉关注和图像场景理解领域，具体地说是基于数据驱动的图像关注区域质量评价指标学习方法。

背景技术

在过去十年间，由于视觉显著模型的兴起，模型的基准判定成为计算机视觉领域中一个重要的研究问题。通过一个大规模的基准需要多个评价指标从多个视角来同时对图像关注区域质量进行评价，即评测一个显著模型，特别是评价视点预测模型。然而，当用不同的启发式评价指标进行评价时，显著模型的性能会随着评价指标的不同发生显著的变化。因此，选择何种评价指标进行对图像关注区域质量进行评价以及采用何种显著模型进行新的评价指标设计时常常会让人很困惑。

实际上，这种现象已经被很多研究者知悉，并且也花了很多时间精力来完善现有的评价指标。对每一种评价指标，提出多种变种形式来强化它的评价性能，但不幸的是，常常会让该评价指标表现更差。例如，KLD评价指标可被用来计算以下三种情况的相关熵：一是记录视点与随机视点之间的显著直方图；二是记录视点与不同图像中随机获得的混乱视点之前的显著直方图；三是估计显著图与基准显著图之间的视点分布。值得注意的是，KLD的计算要么采用对称形式，要么采用非对称形式。对这些变式的指标的实现细节未知的情况下，直接对图像关注区域质量进行评价是非常困难的，即便采用同一种评价指标在同一数据集上进行评价。

发明内容

根据上述需求，为了克服现有技术的不足，本发明的目的在于：提供基于数据驱动的图像关注区域质量评价指标学习方法，该方法通过使用卷积神经网络来学习出一种具有综合性能的评价指标。为完成发明目的，本发明采用的技术方案是：基于数据驱动的图像关注区域质量评价指标学习方法，该方法包含以下步骤：

步骤(1)利用人眼来观测图像的显著结果，构建主观测试数据并记录多个测试主体的测试结果；

步骤(2)对测试得到的用户测试数据进行整理，分析不同测试主体之间的结果一致性以及歧义性；

步骤(3)构建卷积神经网络结构，利用主观测试数据，学习出一个基于数据驱动的综合性的图像关注区域质量评价指标。

在构建主观测试数据时，每一个主观测试题有一对估计显著图和其对应的视点密度图组成。每一个测试者在不知道估计显著图和显著模型对应的前提下，被要求在两个估计显著图之间选出哪一个和对应的视点密度图更相似。从公开数据集中选择测试图像，用现存的经典显著模型来生成估计显著图。

测试结束之后，下一步就是分析测试后的用户数据，每一道测试题的结果为二进制式，即用0或1表示。总共有3个因素影响观察者的决定：图中最显著的位置、视点能力分布以及显著区域的数量和形状。测试后得到的用户数据中，其中一部分为具有一致性的测试结果，即对同一道测试题有一半以上的测试主体的测试结果相同，还有一部分为具有歧义性的测试结果，即对同一道测试题没有一半以上的相同测试结果。

本发明的重点是利用测试的用户数据，提出一种新的图像关注区域质量评价指标，使其性能与人眼评测具有很高的一致性。不同于现有的评价指标，该学习指标关注于两个估计显著图的排序结果。更具体地说，就是本发明引入卷积神经网络参与评价指标的学习，将基于卷积神经网络的评价指标当做一个二值分类器，通过优化它的参数，使其分类的准确率达到最大。通过使用这种评价指标，两个显著模型的性能比较则可表示为对应的估计显著图的结果比较。

与现有的技术相比，本发明有益的特点是：

1、本发明首次进行主观显著测试，收集了大量的用户的数据，为设计出一个有效且鲁棒的图像关注区域质量评价指标奠定了基础。

2、本发明首次使用卷积神经网络，提出一个基于数据驱动的图像关注区域质量评价指标，该指标与人观测得到的结果具有很高的一致性。

附图说明

图1是卷积神经网络的学习结构；

图2是视点深度图的平均值；

图3是主观测试题的组成示意；

图4是具有一致性的测试结果示意；

图5是具有歧义性的测试结果示意。

具体实施方式

下面结合附图对本发明作详细说明。

在过去十年间，数以百计的显著性模型被提出用于视点预测，数十个图像关注区域评价指标也随之被提出来。但是，这些现存的指标，大都是通过启发式设计而来，在进行图像关注区域质量评价的时候，常常会得到有冲突的结论。因此，将新得到的模型与当前存在的模型进行性能比较时，在选择何种指标时常常会很迷惑。为了解决这个问题，本发明提出一个基于数据驱动的图像关注区域质量综合评价指标。区别于启发式的评价指标设计方法，本发明在设计评价指标过程中，我们先进行大量的主观测试，通过人眼观测图像的显著结果。测试者被要求在两个估计显著图之间选出哪一个和基准显著图更相似。基于得到的观测者数据，我们使用卷积神经网络来学习一个综合性的评价指标。相比较于启发式设计的评价指标，基于数据驱动的评价指标在衡量显著图和显著模型的性能时与人眼观测结果保存很高的一致性。卷积神经网络的学习结构如图1所示。卷积神经网络的结构总共包含8层，第一层为输入层，包括2张需要比较的估计显著图S¹和S²以及对应的视点密度图G。第二层和第四层为卷积层，卷积核的大小分别为11×11和7×7。第三层和第五层为最大池层，通过4×4的非重叠窗口对输入数据进行降采样。最后三层为全连接层，卷积神经网络输出一个2维的向量特征。最终，通过soft-max函数生成一个二值化标签0或1。

本发明中进行大量主观测试的目的是为了通过人眼来观测图像的显著结果，并且基于此测试过程中收集的用户数据，来分析测试结果的一致性。为了进行这项测试，本发明从两个公开数据集中选择300张图像，其中120张图像来自于数据集Toronto，另外180张图像来自于数据集MIT。对于每张图像，本发明用7个显著模型来生成7个对应的估计显著图，估计显著图分别用来表示，7个对应的显著模型分别为AVG(分别求取Toronto和MIT数据集的视点深度图的平均值)、IT、GB、CA、BMS、HFT、SP。对300张图像中的任意一张，7个估计显著图共生成个估计显著图对。AVG的结果示意如图2所示。

基于估计显著图对，本发明总共有300×21＝6300个主观测试题。如图3所示，每一个主观测试题有一对估计显著图和其对应的视点密度图组成。每一个测试者在不知道估计显著图和显著模型对应的前提下，被要求在两个估计显著图之间选出哪一个和对应的视点密度图更相似。在该测试中，总共有22个主体参加。其中4个主体每个人都回答了全部的主观测试题；另外18个人总共回答了4套全部主观测试题，当中每个人回答的题数没有固定限制。最后22个人总共完成了8套主观测试题，得到6300×8＝50400个测试结果，测试结果为二进制式，即或0或1。为了简便，我们用如下式子表达用户观测数据：

{(S_{k}^{g}, S_{k}^{p}, G_{k}), n_{k} | k &Element; I I},

其中，Ⅱ＝{1,...,6300}是每套主观测试题的标记集；和表示第k个测试题中的估计显著图，其中表示测试结果中和视点密度图G_k更相似的一方，表示未被选择的一方；整数标签n_k∈{4,5,6,7,8}表示对第k个测试题，总共有多少个测试者选择估计显著图为更相似的一方。在测试中，观测者被要求回答选择特定结果的原因。归结起来，总共有3个因素影响观察者的决定：图中最显著的位置、视点能力分布以及显著区域的数量和形状。测试后得到的用户数据中，其中一部分为具有一致性的测试结果，还有一部分为具有歧义性的测试结果，分别如图4和图5所示，其中第一行为视点深度图，第二和第三行为估计显著图，在图4中，第二行的性能优于第三行。

得到用户数据后，本发明提出一种新的图像关注区域质量评价指标，使其性能与人眼评测具有很高的一致性。为此，本发明通过用户数据学习得到一种综合性的评价指标φ_L(S¹,S²,G)，其中输入为估计显著图S¹和S²以及对应的视点密度图G，输出为0或1,若为1，则代表S¹优于S²，否则相反。不同于现有的评价指标，该学习指标关注于两个估计显著图的排序结果。更具体地说，就是本发明引入卷积神经网络参与评价指标的学习，将基于卷积神经网络的评价指标当做一个二值分类器，通过优化它的参数，使其分类的准确率达到最大。通过使用这种评价指标，两个显著模型的性能比较则可表示为对应的估计显著图的结果比较。

卷积神经网络的结构总共包含8层。第一层为输入层，包括2张需要比较的估计显著图S¹和S²以及对应的视点密度图G。值得注意的是，本发明将输入图通过线性插值归一化为128×128大小。第二层和第四层为卷积层，卷积核的大小分别为11×11和7×7。第三层和第五层为最大池层，通过4×4的非重叠窗口对输入数据进行降采样。最后三层为全连接层，卷积神经网络输出一个2维的向量特征。最终，通过soft-max函数生成一个二值化标签，如果S¹的性能优于S²，则为1，否则为0。

为了训练卷积神经网络，本发明采用了6300套测试题中所有测试者测试结果一致的4536套题为训练用户数据，即其中C为结果一致的结合，将所有数据标签设为1。此外，为了扩展用户数据，将估计显著图兑换，二值化标签设为0，即为了避免过拟合的风险，我们将全连接层中的每一个隐神经元的输出值为0的概率设为0.5。在具体的实现中，本发明通过80次的前向传导和后向传播的迭代来优化参数。

Claims

1.一种基于数据驱动的图像关注区域质量评价指标学习方法，其特征在于：该方法包括以下步骤：

步骤(1)利用人眼来观测图像的显著结果，构建主观测试数据集并记录多个测试主体的测试结果；

2.根据权利要求1所述的基于数据驱动的图像关注区域质量评价指标学习方法，其特征在于：步骤(1)中构建主观测试数据集，其中主观测试数据集包含若干个主观测试题，每一个主观测试题由一对估计显著图和其对应的视点密度图组成；每一个测试者在不知道估计显著图和显著模型对应关系的前提下，被要求在两个估计显著图之间选出哪一个和对应的视点密度图更相似；每一个主观测试题都对应一张测试图像，测试图像来自于公开的数据集MIT1003和Toronto，并用显著模型来生成估计显著图，分别为AVG、IT、GB、CA、BMS、HFT、SP。

3.根据权利要求1所述的基于数据驱动的图像关注区域质量评价指标学习方法，其特征在于：步骤(2)分析测试后的用户数据，每一道测试题的结果为二进制式，即用0或1表示，总共有3个因素影响观察者的决定：图中最显著的位置、视点能力分布以及显著区域的数量和形状；测试后得到的用户数据中，其中一部分为具有一致性的测试结果，即对同一道测试题有一半以上的测试主体的测试结果相同，还有一部分为具有歧义性的测试结果，即对同一道测试题没有一半以上的相同测试结果。

4.根据权利要求1所述的基于数据驱动的图像关注区域质量评价指标学习方法，其特征在于：步骤(3)中采用一种图像关注区域质量评价指标，该指标的输入为两个估计显著图以及对应的视点密度图，该评价指标关注于两个估计显著图的排序结果，输出结果为1或者0，若为1，则表示输入两个估计显著图中前者比后者更接近视点密度图；更具体地说，就是引入卷积神经网络参与评价指标的学习，将基于卷积神经网络的评价指标当做一个二值分类器，通过优化它的参数，使其分类的准确率达到最大，通过使用这种评价指标，两个显著模型的性能比较则能表示为对应的估计显著图的结果比较。

5.根据权利要求1所述的基于数据驱动的图像关注区域质量评价指标学习方法，其特征在于：步骤(3)中利用卷积神经网络学习出一种新的综合性的显著性评价指标，首先设计用于训练的卷积神经网络的结构，设计输入层、卷积层、最大池层、池化层、输出层，然后根据步骤(2)的主观测试数据分析结果，选出具有一致性的测试结果，作为该新指标的训练数据，最终训练已设计好的卷积神经网络模型。