CN108664967B

CN108664967B - 一种多媒体页面视觉显著性预测方法及系统

Info

Publication number: CN108664967B
Application number: CN201810343404.9A
Authority: CN
Inventors: 张娅; 常杰; 王延峰
Original assignee: Shanghai Media Intelligence Co ltd
Current assignee: Shanghai Media Intelligence Technology Co., Ltd.
Priority date: 2018-04-17
Filing date: 2018-04-17
Publication date: 2020-08-25
Anticipated expiration: 2038-04-17
Also published as: CN108664967A

Abstract

本发明提供一种多媒体页面显著性预测方法和系统，所述系统包括：元素特征网络：提取多媒体页面不同元素的表征；先验学习网络：用来对人眼视觉偏好导致的位置先验信息进行建模；预测网络：用来生成最终的显著性图。上述所述的元素特征网络包含三个分支，一个整体的特征提取分支，一个多决定性区域检测分支和一个文本区域检测分支。上述先验学习网络利用基于变分自编码器的位置先验学习算法来自动学习人类视觉行为中的位置偏好信息。整个系统是一个可以端到端训练的深度生成模型。本发明能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。

Description

一种多媒体页面视觉显著性预测方法及系统

技术领域

本发明涉及人类认知科学计算机视觉领域，具体地，涉及一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测方法及系统。

背景技术

视觉认知领域中“bottom-up”的注意力机制决定了人类在没有任务驱动的情况下观察一幅图像时，总会趋向于关注某些特定的区域而不是同等概率地随机观察任意区域。对这一人类视觉注意力机制进行建模具有重要的意义，比如可以用来评估多媒体页面是否准确合适地传达信息，从而促进更为合理的页面设计和布局。众多研究尝试基于收集到的眼动点数据建立计算模型来预测视觉显著性图。

目前大部分研究关注关注于预测自然图片上的视觉显著性。基于在认知和神经科学领域所发现的生理证据，一些低层次的特征(如颜色、对比度、亮度、边缘方向、光照强度等)被众多视觉显著性预测模型所采用。同时，为了兼顾语义信息的影响，一些表征特定语义内涵的高层特征(如人脸、物体等)也被用来进一步地提高视觉显著性预测模型的准确度。近年来，以深度神经网络为最主要特点的深度学习(Deep Learning)在很多领域得到广泛应用，极大地推动了如图像识别、物体检测、视频预测、自然语言处理等领域的发展。一些视觉显著性预测模型开始利用深度神经网络来同时学习特征表达和显著性预测模型。

尽管大量研究着力于在自然图片上建立显著性预测模型，但是多余多媒体页面，比如网页、海报等，这方面的研究还很有限。不同于自然图片，多媒体页面中分散分布着非常丰富的激励元素，如标志(logo)、文本、表格、图片等。这些激励元素对于人眼在短时间内的注意力起着并不均衡的影响。因此，针对多媒体页面构建人眼显著性模型更为困难：不仅需要学习更为复杂的特征，还需要考虑多媒体页面的空间布局所带来的影响。已有关于此类的研究都集中在如何学习更好的特征表达上，但是却没有仔细考虑多媒体页面显著性的特性。首先，页面布局对于影响这人眼凝视点的分布，由此产生了多样的浏览模式，如“F-型”、“Layer-cake-型”、“spotted-型”、“commitment-型”等。多样的浏览模式导致了“基于位置的视觉偏好”(以下简称视觉偏好)。已有的研究利用预先构建好的简单的位置偏好特征图来对某几类典型的视觉偏好建模，这种方法对于具有丰富的布局多媒体页面来说是不足够的。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测方法及系统。

不同于现有多媒体页面显著性预测技术，本发明利用基于变分自编码器的位置先验学习算法来自动学习人眼在浏览页面时的各种视觉偏好。除此之外，本发明分别对多媒体页面中最为影响人眼注意力的显著文本和显著物体区域进行特征提取，从而提高了最终的显著性预测准确度。最后，不同于以往技术利用基于SVM的模型优化方法，本发明利用可以端到端训练的深度生成模型来生成最终的显著性图。

根据本发明的第一方面，提供一种多媒体页面视觉显著性预测方法，

基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图；

利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图，再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图；

利用上述的一系列元素特征图和所述位置偏好特征图，采用一系列卷积/解卷积操作，生成最终的显著性图。

优选地，所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图，其中包括：

特征提取：利用空洞卷积，对原始多媒体页面提取基于空洞卷积的特征图；

多决定性区域检测：利用预训练的VGG16-CAM模型，对原始多媒体页面进行类别预测，对预测得到的各类别得分从高到低排列，取前K个类别，对前K个类别中的每一类，进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图，对所有K个单类别决定性区域特征图，进行特征图融合，得到最终的多类别决定性区特征图；

文本区域检测：利用基于文本/背景的二元分类器网络，对原始多媒体页面在不同尺度上进行滑窗操作，对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图，对多个表征文本区域的特征图进行滤波和融合操作，得到最终的文本显著性图；

所述基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图融合后构成一系列元素特征图。

优选地，对每张多媒体页面所对应的真实显著性图，变分自编码器将对其进行隐空间编码学习，并将该隐空间表征为多元高斯分布的形式；变分自编码器中的编码器E将对生成的先验图进行编码，得到的隐空间也表征为另一多元高斯分布的形式，利用KL散度来衡量上述两个多元高斯分布之间的偏差，并将该偏差作为损失函数用来训练先验学习算法。

优选地，所述最终的显著性图与该原始多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数

和KL散度损失函数

具体为:

上述公式中：

S分别为对某一特定多媒体页面预测得到的最终显著性图和其对应的真实显著性图，

为对方括号内所计算数值取期望，

S_i分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引；∈为正则化常数，i表示显著性图中第i个像素点。

根据本发明的第二方面，提供一种多媒体页面视觉显著性预测系统，包括：

元素特征网络：基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图；

先验学习网络：利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图，再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图；

预测网络:利用上述元素特征网络得到的所述一系列元素特征图和所述先验学习网络得到的所述位置偏好特征图，采用一系列卷积和解卷积操作，生成最终的显著性图。

优选地，所述元素特征网络包括三个并列子分支：基于空洞卷积的主分支，多决定性区域检测次分支和文本区域检测次分支，其中：

基于空洞卷积的主分支：利用空洞卷积，对原始多媒体页面提取一系列特征图；

多决定性区域检测次分支：利用预训练的VGG16-CAM模型，对原始多媒体页面进行类别预测，对预测得到的各类别得分从高到低排列，取前K个类别，对前K个类别中的每一类，进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图，对所有K个单类别决定性区域特征图，进行特征图融合，得到最终的多类别决定性区特征图；

文本区域检测次分支：利用基于文本/背景的二元分类器网络，对原始多媒体页面在不同尺度上进行滑窗操作，对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图，对多个表征文本区域的特征图进行滤波和融合操作，得到最终的文本显著性图；

上述三个子分支得到的基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图，融合后得到一系列元素特征图。

本发明中，所述基于空洞卷积的主分支采用空洞卷积，可以图片感受野增大的同时，维持尽量少的待优化参数，从而提高模型训练速度。

本发明中，所述多决定性区域检测次分支拓展了类别激活映射(CAM)到多类别的情况，能够准确地提取出多媒体页面中显著性的物体区域。

本发明中，所述文本区域检测次分支中基于文本/背景的二元分类器网络C_f是在公开的英文字符数据上与训练得到的，可以准确提取多媒体页面中显著性的文本区域，如标志，主标题，次标题区域等。

优选地，所述先验学习网络包含一个bottle-neck结构的先验图生成网络和一个基于变分自编码器VAE的位置先验学习网络，其中bottle-neck结构的先验图生成网络从原始多媒体页面中生成先验图，并将所得到的先验图输入所述基于变分自编码器VAE的位置先验学习网络，所述基于变分自编码器VAE的位置先验学习网络自动学习原始多媒体页面中的位置偏好特征图；整个先验学习网络能够自动学习人眼视觉偏好导致的位置偏好信息，生成一张位置先验偏好特征图。

更优选地，对每张原始多媒体页面所对应的真实显著性图，所述基于变分自编码器VAE的位置先验学习网络中的变分自编码器将对其进行隐空间编码学习，并将该隐空间表征为多元高斯分布的形式；变分自编码器中的编码器E将对生成的先验图进行编码，得到的隐空间也表征为另一多元高斯分布的形式，利用KL散度来衡量上述两个多元高斯分布之间的偏差，并将该偏差作为损失函数用来训练先验学习网络。

更优选地，所述预测网络最终生成的显著性预测图与该多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数

和KL散度损失函数

具体为:

更优选地，两类损失函数将通过随机梯度下降法联合训练所述元素特征网络和所述预测网络：

在所述系统中，利用如下损失函数对系统进行端到端训练：

其中θ^*为元素特征网络EF-Net和预测网络P-Net中待优化的参数，α和β为平衡L₁项和L₂的系数。

和

定义如下，L₁为交叉熵损失：

L₂为KL散度损失：

其中，∈为正则化常数，i表示显著性图中第i个像素点。

上述公式中：

为对方括号内所计算数值取期望，

S_i分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引。

对每张多媒体页面所对应的真实显著性图S，变分自编码器将对其进行隐空间编码学习，并将该隐空间表征为多元高斯分布的形式N(z；μ,σ²I|S)，其中z为从真实显著性图S中学到的隐变量，μ和σ²分别为该隐变量表征为多元高斯分布时的均值和方差；变分自编码器中的编码器E将对先验学习网络中基于bottle-neck生成的位置偏好特征图S′进行编码，多得到的隐空间也表表征为另一多元高斯分布的形式N(z；μ,σ²I|S′)，其中z为从预测得到的显著性图

中学到的隐变量，μ和σ²分别该隐变量表征为多元高斯分布时的均值和方差；我们利用KL散度来衡量N(z；μ,σ²I|S)和N(z；μ,σ²I|S′)之间的偏差，并将该偏差作为损失函数用来训练先验学习网络。

与现有技术相比，本发明具有如下的有益效果：

本发明利用元素特征网络对原始多媒体页面进行元素特征提取；利用先验学习网络对多媒体页面中的人眼视觉偏好进行建模；最后结合元素特征网络和先验学习网络的结果，利用预测网络生成最终针对该多媒体页面的视觉显著图，能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。

进一步的，考虑到文本和图片是其中两类占主导因素的激励元素，本发明上述元素特征网络可以包含三个分支，从而能够准确地提取出多媒体页面中显著性区域。

进一步的，上述的先验学习网络利用基于变分自编码器的位置先验学习(PPL)算法来自动学习人类视觉行为中的位置偏好信息，整个系统是一个可以端到端训练的深度生成模型。本发明能够预测多媒体页面中人眼更关注的区域，即视觉显著性热度图，能很好满足丰富的布局多媒体页面的应用。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的方法流程图；

图2为本发明一实施例的系统原理图；

图3为本发明一实施例的元素特征网络图；

图4为本发明一实施例的多决定性区域检测分支原理图；

图5为本发明一实施例的文本区域检测分支原理图；

图6为本发明一实施例的文本/背景二元分类器原理图；

图7为本发明一实施例的位置先验学习算法流程图；

图8-图10为本发明一实施例对多媒体页面进行显著性预测的结果图，其中：(a)为原始多媒体页面，(b)预测的显著性图，(c)为金标准。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明探索从大量数据中直接学习视觉偏好，同时，多媒体页面中的不同激励元素往往对人眼注意力分布有着不同的影响，考虑到文本和图片是其中两类占主导因素的激励元素，分别独立地对这两类元素提取高层次语义特征，提取到的这类特征比已有的方法更好。

如图1所示，一种多媒体页面视觉显著性预测方法的实施例流程图，包括：

S100：基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图,即不同元素各自对应的元素特征图；

S200：利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图，再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图；

S300：利用上述一系列元素特征图和所述位置偏好特征图，采用一系列卷积/解卷积操作，生成最终的显著性图。

上述S100、S200之间部分先后顺序，可以根据需要操作。

在部分优选实施例中，所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图，其中包括：

特征提取：利用空洞卷积，对原始多媒体页面提取一系列特征图；

如图2所示，对应于上述的方法，一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测系统实施例的流程图，其中：所述系统包括：

元素特征网络EF-Net：基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图F_e；

先验学习网络PL-Net：基于bottle-neck结构的卷积神经网络从原始多媒体页面I中生成先验图

再结合提出的位置先验学习算法PPL，自动学习多媒体页面中的位置偏好特征图F_p；

预测网络P-Net：利用EF-Net产生的元素特征图F_e和PL-Net所产生的位置偏好特征图F_p，基于一系列CNN操作，生成最终的显著性图S。

由此可见，该系统中的元素特征网络EF-Net用来对原始多媒体页面I进行特征提取；该系统中的先验学习网络PL-Net利用位置先验学习算法PPL对多媒体页面中的人眼视觉偏好进行建模；该系统中的预测网络P-Net结合元素特征网络和先验学习网络产生的结果，利用一系列堆叠的卷积层生成最终针对该多媒体页面的视觉显著图S。整个网络通过构建的多种损失函数进行端到端参数优化，使之能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。

在部分优选实施例中，所述元素特征网络EF-Net包含如下三个分支：

基于空洞卷积的主分支：对原始多媒体页面I，利用一系列堆叠的空洞卷积，将其映射成三维特征图f(I)；

多决定性区域检测次分支MDRD：对原始多媒体页面I，利用在公开的自然图片数据ImageNet上预训练好的VGG16-CAM模型对其进行类别预测，再借助类别激活映射(ClassActivation Mapping)方法得到最终的多类别决定性区域特征图M；

文本区域检测次分支TRD：对原始多媒体页面I，利用基于文本/背景的二元分类器网络C_f，对原始多媒体页面I提取文本显著性图T。

上述的方法和系统中，所述方法的S100、S200、S300分别对应于所述系统中的三个网络：元素特征网络EF-Net、先验学习网络PL-Net、预测网络P-Net。它们具体实现也可以采用对应的相同技术。以下实施例对各个步骤和模块的具体实现进行详细的描述，以便理解本发明技术方案。以下为了更好说明，以所述系统具体实现来描述。

如图3所示，为一具体的优选实施例中元素特征网络EF-Net原理图，所述EF-Net包含如下三个分支：

基于空洞卷积的主分支：对原始多媒体页面I，基于空洞卷积的主分支一共采用了三组空洞卷积和两次最大值池化操作：{atrousconv1-1,atrousconv1-2}，maxpooling1,{atrousconv2-1,atrousconv2-2},maxpooling2,{atrousconv3-1,atrousconv3-2}。所有空洞卷积的稀疏系数为2，卷积核大小为5×5，最大值池化的接受野为2×2。基于空洞卷积的主分支将分辨率为1360×768的原始多媒体页面映射为340×192×512的三维特征向量。

多决定性区域检测次分支MDRD：对原始多媒体页面I，利用在公开的自然图片数据ImageNet上预训练好的VGG16-CAM模型对其进行类别预测，再借助类别激活映射(CAM)方法得到最终的多类别决定性区域特征图；

文本区域检测次分支TRD：对原始多媒体页面I，利用基于文本/背景的二元分类器网络C_f，对其提取文本显著性图T。

如上三个分支各自对原始多媒体页面提取的特征融合成该元素特征网络的输出，输入给下一模块，即预测网络P-Net。

更具体的，如图4所示，在优选实施例中，所述多决定性区域检测次分支MDRD利用VGG16-CAM模型对原始多媒体页面I进行类别预测。该VGG16-CAM是已公开的模型并且已经在自然图片数据集ImageNet上预先训练。

VGG16-CAM对原始多媒体页面会产生一系列类别预测得分，取得分排在前K名的类别集合{c₁,c₂,c₃,…,c_k}，然后对每一类别k∈C，C＝{c₁,c₂,c₃,…,c_k}，取出与该类别相关的全连接层权重集合

该全连接权重集位于VGG16-CAM模型中全局平均池化层GAP与类别输出层之间。

然后，将该权重集

映射到最后卷积层输出f_l(x,y)，从而生成该类别下的单类别激活特征图S_k(x,y)：

其中f_l(x,y)代表VGG16-CAM模型最后卷积层的输出中与激活单元l有关的特征图。

最后，定义平均函数将所有K个单类别激活特征图S_k(x,y)融合成最终的多决定性区域特征图M(x,y)，并且利用高斯滤波对其进行模糊：

更具体的，如图5所示，文本区域检测次分支TRD利用预训练好的文本/背景分类器C_f提取原始多媒体页面中的文本显著性图。如图6所示，在一具体实施例中，文本/背景分类器C_f在公开的英文字符数据集(ICDAR，SVT)上预训练得到。从ICDAR和SVT中剪裁带有字符的32×32图片作为正训练样本，不带字符的32×32图片作为负训练样本，整个训练样本构成C_f的全部训练集。该文本/背景分类器的结构是基于一系列卷积层搭建。各层的参数如图6所示。通过优化如下的损失函数来训练改文本/背景分类器：

其中t是正负训练样本，c∈{text,backgroud}可以用{1,0}表示，p(c|t)是C_f的概率输出，

是C_f中待优化的参数。

为对其后计算值取期望。

如图5所示，预训练好的C_f将对多尺度下的多媒体页面进行滑窗操作。所使用的多媒体页面分辨率分别为2720×1536，1360×768，680×384，340×192，低分辨率由原始分辨率1360×768降采样得到，高分辨率由原始分辨率1360×768通过双线性插值上采样得到。文本/背景分类器C_f对每个尺度下的多媒体页面进行滑窗，计算32×32范围中存在文本信息的概率，最终得到多媒体页面在每个尺度下的文本概率分布图，每个概率分布图经过高斯模糊后被规范到同一分辨率340×192，最后进行融合操作，得到最终的文本显著性图T。

基于空洞卷积的主分支对原始多媒体页面提取的三维特征向量，多决定性区域检测次分支MDRD对原始多媒体页面提取的多类别决定性区域特征图和文本区域检测次分支TRD对底多媒体页面提取的文本显著性图按照如图3所示的方式直接拼接，构成了元素特征网络的输出F_e。

如图2所示，所述先验学习网络PL-Net基于bottle-neck结构的卷积神经网络从原始多媒体页面I中生成先验图

再结合提出的位置先验学习算法PPL，自动学习多媒体页面中的位置偏好特征图F_p。

在一具体实施例中，所述bottle-neck结构基于堆叠的空洞卷积、卷积和解卷积层搭建，具体的设置为：atrousconv1-1(340×192),atrousconv1-2(340×192),conv1(170×96),atrousconv2-1(170×96),atrousconv2-2(170×96),conv1(85×48),atrousconv3-1(85×48),atrousconv3-2(85×48),conv3(42×24),deconv1(85×48),conv4(85×48),deconv2(170×96),conv5(170×96),deconv3(340×192)。其中atrousconv层的卷积核为3×3，稀疏系数为2；conv层卷积核为3×3，步长为1；deconv层的卷积核为3×3，步长为2。每层后的括号里为盖层输出的特征图的尺寸大小。deconv3将输出基于原图预测得到的先验图

上述生成的先验图

将和金标准S一起输入给位置先验学习算法PPL，通过拟合两者的KL分布，更新bottle-neck网络中的参数，达到优化先验图的目标。

如图7所示，所述位置先验学习算法PPL基于变分自编码器VAE实现。变分自编码器训练流通过重建金标准和拟合后验概率q(z|S)来训练优化变分自编码器，这一训练过程通过优化如下损失函数实现：

其中θ和φ为VAE中编码器E和解码器D中的参数，p(z)为标准正太分布，N(0,I)，λ₁和λ₂为L(θ,φ；S)中期望项和KL散度像的平衡系数。

与此同时，由bottle-neck生成的先验图S′由编码器E通过前项推理流，计算后验概率q(z|S′)。q(z|S)和q(z|S′)均可以用多元高斯分布来表示：

q_φ(z|S)＝N(z；μ,σ²I|S)，

q_φ(z|S′)＝N(z；μ,σ²I|S′)，

其中，S为真实显著性图，S′为先验学习网络中基于bottle-neck生成的位置偏好特征图，μ为多元高斯分布的均值向量，σ为多元高斯分布的对角协方差矩阵，z为从真实显著性图S和预测得到的显著性图

中学到的隐变量。

通过计算q(z|S)和q(z|S′)两者的KL散度来衡量两者的偏差，并将通过更新bottle-neck结构中的参数来最小化此偏差，达到学习位置先验的目的：

L(θ_pl)＝D_KL(N(z；μ,σ²I|S)||N(z；μ,σ²I|S′))，

其中，θ_pl为先验学习网络PL-Net中的参数。D_KL为对取KL散度符号。

如图2所示，EF-Net产生的元素特征图F_e和PL-Net所产生的位置偏好特征图F_p在通道channel维进行拼接，然后输入预测网络P-Net给一系列堆叠的卷积层，生成预测的最终显著性图

生成的显著性图

和金标准S构成如下的损失函数用来更新优化元素特征网络和预测网络，直至整个模型收敛：

和

定义如下，L₁为交叉熵损失：

L₁为KL散度损失：

其中，∈为正则化常数，i表示显著性图中第i个像素点。

图8-图10为本发明一实施例对多媒体页面进行显著性预测的结果图，其中：(a)为原始多媒体页面，(b)预测的显著性图，(c)为金标准。从图中可以看出：利用本发明实施例提出的基于敏感元素和位置先验学习的多媒体页面预测方法，能够预测得到十分逼近“金标准”的视觉显著性图。

综上，本发明利用元素特征网络EF-Net对原始多媒体页面I进行元素特征提取；利用先验学习网络PL-Net对多媒体页面中的人眼视觉偏好进行建模；最后结合元素特征网络和先验学习网络的结果，利用预测网络P-Net生成最终针对该多媒体页面的视觉显著图S。整个网络通过构建的多种损失函数进行端到端参数优化，使之能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程，即，所述系统中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种多媒体页面视觉显著性预测方法，其特征在于：包括：

利用上述一系列元素特征图和所述位置偏好特征图，采用一系列卷积和解卷积操作，生成最终的显著性图；

所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图，其中包括：

多决定性区域检测：利用预训练的VGG16-CAM模型，对原始多媒体页面进行类别预测，对预测得到的各类别得分从高到低排列，取前K个类别，对前K个类别中的每一类，进行类别决定性区域映射得到单类别决定性区域特征图，对所有K个单类别决定性区域特征图，进行特征图融合，得到最终的多类别决定性区特征图；

2.根据权利要求1所述的多媒体页面视觉显著性预测方法，其特征在于：对每张多媒体页面所对应的真实显著性图，变分自编码器将对其进行隐空间编码学习，并将该隐空间表征为多元高斯分布的形式；变分自编码器中的编码器将对生成的先验图进行编码，得到的隐空间也表征为另一多元高斯分布的形式，利用KL散度来衡量这两个多元高斯分布之间的偏差，并将该偏差作为损失函数用来训练先验学习算法。

3.根据权利要求1-2任一项所述的多媒体页面视觉显著性预测方法，其特征在于：所述最终的显著性图与该原始多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数

和KL散度损失函数

具体为:

上述公式中：

为对方括号内所计算数值取期望，

4.一种多媒体页面视觉显著性预测系统，其特征在于：包括：

预测网络:利用上述元素特征网络得到的所述一系列元素特征图和所述先验学习网络得到的所述位置偏好特征图，采用一系列卷积和解卷积操作，生成最终的显著性图；

所述元素特征网络包括三个并列的子分支：基于空洞卷积的主分支，多决定性区域检测次分支和文本区域检测次分支，其中：

5.根据权利要求4所述的多媒体页面视觉显著性预测系统，其特征在于：所述先验学习网络包含一个bottle-neck结构的先验图生成网络和一个基于变分自编码器VAE的位置先验学习网络，其中bottle-neck结构的先验图生成网络从原始多媒体页面中生成先验图，并将所得到的先验图输入所述基于变分自编码器VAE的位置先验学习网络，所述基于变分自编码器VAE的位置先验学习网络自动学习原始多媒体页面中的位置偏好特征图；整个先验学习网络能够自动学习人眼视觉偏好导致的位置偏好信息，生成一张位置偏好特征图。

6.根据权利要求5所述的多媒体页面视觉显著性预测系统，其特征在于：对每张原始多媒体页面所对应的真实显著性图，所述基于变分自编码器VAE的位置先验学习网络中的变分自编码器将对其进行隐空间编码学习，并将该隐空间表征为多元高斯分布的形式；变分自编码器中的编码器E将对生成的先验图进行编码，得到的隐空间也表征为另一多元高斯分布的形式，利用KL散度来衡量以上两个多元高斯分布之间的偏差，并将该偏差作为损失函数用来训练先验学习网络。

7.根据权利要求6所述的多媒体页面视觉显著性预测系统，其特征在于：所述预测网络最终生成的显著性预测图与该多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数

和KL散度损失函数

具体为:

上述公式中：

为对方括号内所计算数值取期望，

8.根据权利要求7所述的多媒体页面视觉显著性预测系统，其特征在于：两类损失函数将通过随机梯度下降法联合训练所述元素特征网络和所述预测网络：

其中θ^*为元素特征网络和预测网络中待优化的参数，α和β为平衡L₁项和L₂的系数，L₁为交叉熵损失，L₂为KL散度损失。