CN108664967B - 一种多媒体页面视觉显著性预测方法及系统 - Google Patents

一种多媒体页面视觉显著性预测方法及系统 Download PDF

Info

Publication number
CN108664967B
CN108664967B CN201810343404.9A CN201810343404A CN108664967B CN 108664967 B CN108664967 B CN 108664967B CN 201810343404 A CN201810343404 A CN 201810343404A CN 108664967 B CN108664967 B CN 108664967B
Authority
CN
China
Prior art keywords
multimedia page
network
map
saliency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810343404.9A
Other languages
English (en)
Other versions
CN108664967A (zh
Inventor
张娅
常杰
王延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Media Intelligence Technology Co., Ltd.
Original Assignee
Shanghai Media Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Media Intelligence Co ltd filed Critical Shanghai Media Intelligence Co ltd
Priority to CN201810343404.9A priority Critical patent/CN108664967B/zh
Publication of CN108664967A publication Critical patent/CN108664967A/zh
Application granted granted Critical
Publication of CN108664967B publication Critical patent/CN108664967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明提供一种多媒体页面显著性预测方法和系统,所述系统包括:元素特征网络:提取多媒体页面不同元素的表征;先验学习网络:用来对人眼视觉偏好导致的位置先验信息进行建模;预测网络:用来生成最终的显著性图。上述所述的元素特征网络包含三个分支,一个整体的特征提取分支,一个多决定性区域检测分支和一个文本区域检测分支。上述先验学习网络利用基于变分自编码器的位置先验学习算法来自动学习人类视觉行为中的位置偏好信息。整个系统是一个可以端到端训练的深度生成模型。本发明能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。

Description

一种多媒体页面视觉显著性预测方法及系统
技术领域
本发明涉及人类认知科学计算机视觉领域,具体地,涉及一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测方法及系统。
背景技术
视觉认知领域中“bottom-up”的注意力机制决定了人类在没有任务驱动的情况下观察一幅图像时,总会趋向于关注某些特定的区域而不是同等概率地随机观察任意区域。对这一人类视觉注意力机制进行建模具有重要的意义,比如可以用来评估多媒体页面是否准确合适地传达信息,从而促进更为合理的页面设计和布局。众多研究尝试基于收集到的眼动点数据建立计算模型来预测视觉显著性图。
目前大部分研究关注关注于预测自然图片上的视觉显著性。基于在认知和神经科学领域所发现的生理证据,一些低层次的特征(如颜色、对比度、亮度、边缘方向、光照强度等)被众多视觉显著性预测模型所采用。同时,为了兼顾语义信息的影响,一些表征特定语义内涵的高层特征(如人脸、物体等)也被用来进一步地提高视觉显著性预测模型的准确度。近年来,以深度神经网络为最主要特点的深度学习(Deep Learning)在很多领域得到广泛应用,极大地推动了如图像识别、物体检测、视频预测、自然语言处理等领域的发展。一些视觉显著性预测模型开始利用深度神经网络来同时学习特征表达和显著性预测模型。
尽管大量研究着力于在自然图片上建立显著性预测模型,但是多余多媒体页面,比如网页、海报等,这方面的研究还很有限。不同于自然图片,多媒体页面中分散分布着非常丰富的激励元素,如标志(logo)、文本、表格、图片等。这些激励元素对于人眼在短时间内的注意力起着并不均衡的影响。因此,针对多媒体页面构建人眼显著性模型更为困难:不仅需要学习更为复杂的特征,还需要考虑多媒体页面的空间布局所带来的影响。已有关于此类的研究都集中在如何学习更好的特征表达上,但是却没有仔细考虑多媒体页面显著性的特性。首先,页面布局对于影响这人眼凝视点的分布,由此产生了多样的浏览模式,如“F-型”、“Layer-cake-型”、“spotted-型”、“commitment-型”等。多样的浏览模式导致了“基于位置的视觉偏好”(以下简称视觉偏好)。已有的研究利用预先构建好的简单的位置偏好特征图来对某几类典型的视觉偏好建模,这种方法对于具有丰富的布局多媒体页面来说是不足够的。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测方法及系统。
不同于现有多媒体页面显著性预测技术,本发明利用基于变分自编码器的位置先验学习算法来自动学习人眼在浏览页面时的各种视觉偏好。除此之外,本发明分别对多媒体页面中最为影响人眼注意力的显著文本和显著物体区域进行特征提取,从而提高了最终的显著性预测准确度。最后,不同于以往技术利用基于SVM的模型优化方法,本发明利用可以端到端训练的深度生成模型来生成最终的显著性图。
根据本发明的第一方面,提供一种多媒体页面视觉显著性预测方法,
基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图;
利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图,再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图;
利用上述的一系列元素特征图和所述位置偏好特征图,采用一系列卷积/解卷积操作,生成最终的显著性图。
优选地,所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图,其中包括:
特征提取:利用空洞卷积,对原始多媒体页面提取基于空洞卷积的特征图;
多决定性区域检测:利用预训练的VGG16-CAM模型,对原始多媒体页面进行类别预测,对预测得到的各类别得分从高到低排列,取前K个类别,对前K个类别中的每一类,进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图,对所有K个单类别决定性区域特征图,进行特征图融合,得到最终的多类别决定性区特征图;
文本区域检测:利用基于文本/背景的二元分类器网络,对原始多媒体页面在不同尺度上进行滑窗操作,对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图,对多个表征文本区域的特征图进行滤波和融合操作,得到最终的文本显著性图;
所述基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图融合后构成一系列元素特征图。
优选地,对每张多媒体页面所对应的真实显著性图,变分自编码器将对其进行隐空间编码学习,并将该隐空间表征为多元高斯分布的形式;变分自编码器中的编码器E将对生成的先验图进行编码,得到的隐空间也表征为另一多元高斯分布的形式,利用KL散度来衡量上述两个多元高斯分布之间的偏差,并将该偏差作为损失函数用来训练先验学习算法。
优选地,所述最终的显著性图与该原始多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数
Figure GDA0002560903920000031
和KL散度损失函数
Figure GDA0002560903920000032
具体为:
Figure GDA0002560903920000033
Figure GDA0002560903920000034
上述公式中:
Figure GDA0002560903920000035
S分别为对某一特定多媒体页面预测得到的最终显著性图和其对应的真实显著性图,
Figure GDA0002560903920000036
为对方括号内所计算数值取期望,
Figure GDA0002560903920000037
Si分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引;∈为正则化常数,i表示显著性图中第i个像素点。
根据本发明的第二方面,提供一种多媒体页面视觉显著性预测系统,包括:
元素特征网络:基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图;
先验学习网络:利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图,再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图;
预测网络:利用上述元素特征网络得到的所述一系列元素特征图和所述先验学习网络得到的所述位置偏好特征图,采用一系列卷积和解卷积操作,生成最终的显著性图。
优选地,所述元素特征网络包括三个并列子分支:基于空洞卷积的主分支,多决定性区域检测次分支和文本区域检测次分支,其中:
基于空洞卷积的主分支:利用空洞卷积,对原始多媒体页面提取一系列特征图;
多决定性区域检测次分支:利用预训练的VGG16-CAM模型,对原始多媒体页面进行类别预测,对预测得到的各类别得分从高到低排列,取前K个类别,对前K个类别中的每一类,进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图,对所有K个单类别决定性区域特征图,进行特征图融合,得到最终的多类别决定性区特征图;
文本区域检测次分支:利用基于文本/背景的二元分类器网络,对原始多媒体页面在不同尺度上进行滑窗操作,对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图,对多个表征文本区域的特征图进行滤波和融合操作,得到最终的文本显著性图;
上述三个子分支得到的基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图,融合后得到一系列元素特征图。
本发明中,所述基于空洞卷积的主分支采用空洞卷积,可以图片感受野增大的同时,维持尽量少的待优化参数,从而提高模型训练速度。
本发明中,所述多决定性区域检测次分支拓展了类别激活映射(CAM)到多类别的情况,能够准确地提取出多媒体页面中显著性的物体区域。
本发明中,所述文本区域检测次分支中基于文本/背景的二元分类器网络Cf是在公开的英文字符数据上与训练得到的,可以准确提取多媒体页面中显著性的文本区域,如标志,主标题,次标题区域等。
优选地,所述先验学习网络包含一个bottle-neck结构的先验图生成网络和一个基于变分自编码器VAE的位置先验学习网络,其中bottle-neck结构的先验图生成网络从原始多媒体页面中生成先验图,并将所得到的先验图输入所述基于变分自编码器VAE的位置先验学习网络,所述基于变分自编码器VAE的位置先验学习网络自动学习原始多媒体页面中的位置偏好特征图;整个先验学习网络能够自动学习人眼视觉偏好导致的位置偏好信息,生成一张位置先验偏好特征图。
更优选地,对每张原始多媒体页面所对应的真实显著性图,所述基于变分自编码器VAE的位置先验学习网络中的变分自编码器将对其进行隐空间编码学习,并将该隐空间表征为多元高斯分布的形式;变分自编码器中的编码器E将对生成的先验图进行编码,得到的隐空间也表征为另一多元高斯分布的形式,利用KL散度来衡量上述两个多元高斯分布之间的偏差,并将该偏差作为损失函数用来训练先验学习网络。
更优选地,所述预测网络最终生成的显著性预测图与该多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数
Figure GDA0002560903920000041
和KL散度损失函数
Figure GDA0002560903920000042
具体为:
Figure GDA0002560903920000043
Figure GDA0002560903920000044
更优选地,两类损失函数将通过随机梯度下降法联合训练所述元素特征网络和所述预测网络:
在所述系统中,利用如下损失函数对系统进行端到端训练:
Figure GDA0002560903920000045
其中θ*为元素特征网络EF-Net和预测网络P-Net中待优化的参数,α和β为平衡L1项和L2的系数。
Figure GDA0002560903920000051
Figure GDA0002560903920000052
定义如下,L1为交叉熵损失:
Figure GDA0002560903920000053
L2为KL散度损失:
Figure GDA0002560903920000054
其中,∈为正则化常数,i表示显著性图中第i个像素点。
上述公式中:
Figure GDA0002560903920000055
S分别为对某一特定多媒体页面预测得到的最终显著性图和其对应的真实显著性图,
Figure GDA0002560903920000056
为对方括号内所计算数值取期望,
Figure GDA0002560903920000057
Si分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引。
对每张多媒体页面所对应的真实显著性图S,变分自编码器将对其进行隐空间编码学习,并将该隐空间表征为多元高斯分布的形式N(z;μ,σ2I|S),其中z为从真实显著性图S中学到的隐变量,μ和σ2分别为该隐变量表征为多元高斯分布时的均值和方差;变分自编码器中的编码器E将对先验学习网络中基于bottle-neck生成的位置偏好特征图S′进行编码,多得到的隐空间也表表征为另一多元高斯分布的形式N(z;μ,σ2I|S′),其中z为从预测得到的显著性图
Figure GDA0002560903920000058
中学到的隐变量,μ和σ2分别该隐变量表征为多元高斯分布时的均值和方差;我们利用KL散度来衡量N(z;μ,σ2I|S)和N(z;μ,σ2I|S′)之间的偏差,并将该偏差作为损失函数用来训练先验学习网络。
与现有技术相比,本发明具有如下的有益效果:
本发明利用元素特征网络对原始多媒体页面进行元素特征提取;利用先验学习网络对多媒体页面中的人眼视觉偏好进行建模;最后结合元素特征网络和先验学习网络的结果,利用预测网络生成最终针对该多媒体页面的视觉显著图,能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。
进一步的,考虑到文本和图片是其中两类占主导因素的激励元素,本发明上述元素特征网络可以包含三个分支,从而能够准确地提取出多媒体页面中显著性区域。
进一步的,上述的先验学习网络利用基于变分自编码器的位置先验学习(PPL)算法来自动学习人类视觉行为中的位置偏好信息,整个系统是一个可以端到端训练的深度生成模型。本发明能够预测多媒体页面中人眼更关注的区域,即视觉显著性热度图,能很好满足丰富的布局多媒体页面的应用。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的方法流程图;
图2为本发明一实施例的系统原理图;
图3为本发明一实施例的元素特征网络图;
图4为本发明一实施例的多决定性区域检测分支原理图;
图5为本发明一实施例的文本区域检测分支原理图;
图6为本发明一实施例的文本/背景二元分类器原理图;
图7为本发明一实施例的位置先验学习算法流程图;
图8-图10为本发明一实施例对多媒体页面进行显著性预测的结果图,其中:(a)为原始多媒体页面,(b)预测的显著性图,(c)为金标准。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明探索从大量数据中直接学习视觉偏好,同时,多媒体页面中的不同激励元素往往对人眼注意力分布有着不同的影响,考虑到文本和图片是其中两类占主导因素的激励元素,分别独立地对这两类元素提取高层次语义特征,提取到的这类特征比已有的方法更好。
如图1所示,一种多媒体页面视觉显著性预测方法的实施例流程图,包括:
S100:基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图,即不同元素各自对应的元素特征图;
S200:利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图,再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图;
S300:利用上述一系列元素特征图和所述位置偏好特征图,采用一系列卷积/解卷积操作,生成最终的显著性图。
上述S100、S200之间部分先后顺序,可以根据需要操作。
在部分优选实施例中,所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图,其中包括:
特征提取:利用空洞卷积,对原始多媒体页面提取一系列特征图;
多决定性区域检测:利用预训练的VGG16-CAM模型,对原始多媒体页面进行类别预测,对预测得到的各类别得分从高到低排列,取前K个类别,对前K个类别中的每一类,进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图,对所有K个单类别决定性区域特征图,进行特征图融合,得到最终的多类别决定性区特征图;
文本区域检测:利用基于文本/背景的二元分类器网络,对原始多媒体页面在不同尺度上进行滑窗操作,对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图,对多个表征文本区域的特征图进行滤波和融合操作,得到最终的文本显著性图;
所述基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图融合后构成一系列元素特征图。
如图2所示,对应于上述的方法,一种基于敏感元素和位置先验学习的多媒体页面视觉显著性预测系统实施例的流程图,其中:所述系统包括:
元素特征网络EF-Net:基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图Fe
先验学习网络PL-Net:基于bottle-neck结构的卷积神经网络从原始多媒体页面I中生成先验图
Figure GDA0002560903920000071
再结合提出的位置先验学习算法PPL,自动学习多媒体页面中的位置偏好特征图Fp
预测网络P-Net:利用EF-Net产生的元素特征图Fe和PL-Net所产生的位置偏好特征图Fp,基于一系列CNN操作,生成最终的显著性图S。
由此可见,该系统中的元素特征网络EF-Net用来对原始多媒体页面I进行特征提取;该系统中的先验学习网络PL-Net利用位置先验学习算法PPL对多媒体页面中的人眼视觉偏好进行建模;该系统中的预测网络P-Net结合元素特征网络和先验学习网络产生的结果,利用一系列堆叠的卷积层生成最终针对该多媒体页面的视觉显著图S。整个网络通过构建的多种损失函数进行端到端参数优化,使之能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。
在部分优选实施例中,所述元素特征网络EF-Net包含如下三个分支:
基于空洞卷积的主分支:对原始多媒体页面I,利用一系列堆叠的空洞卷积,将其映射成三维特征图f(I);
多决定性区域检测次分支MDRD:对原始多媒体页面I,利用在公开的自然图片数据ImageNet上预训练好的VGG16-CAM模型对其进行类别预测,再借助类别激活映射(ClassActivation Mapping)方法得到最终的多类别决定性区域特征图M;
文本区域检测次分支TRD:对原始多媒体页面I,利用基于文本/背景的二元分类器网络Cf,对原始多媒体页面I提取文本显著性图T。
上述的方法和系统中,所述方法的S100、S200、S300分别对应于所述系统中的三个网络:元素特征网络EF-Net、先验学习网络PL-Net、预测网络P-Net。它们具体实现也可以采用对应的相同技术。以下实施例对各个步骤和模块的具体实现进行详细的描述,以便理解本发明技术方案。以下为了更好说明,以所述系统具体实现来描述。
如图3所示,为一具体的优选实施例中元素特征网络EF-Net原理图,所述EF-Net包含如下三个分支:
基于空洞卷积的主分支:对原始多媒体页面I,基于空洞卷积的主分支一共采用了三组空洞卷积和两次最大值池化操作:{atrousconv1-1,atrousconv1-2},maxpooling1,{atrousconv2-1,atrousconv2-2},maxpooling2,{atrousconv3-1,atrousconv3-2}。所有空洞卷积的稀疏系数为2,卷积核大小为5×5,最大值池化的接受野为2×2。基于空洞卷积的主分支将分辨率为1360×768的原始多媒体页面映射为340×192×512的三维特征向量。
多决定性区域检测次分支MDRD:对原始多媒体页面I,利用在公开的自然图片数据ImageNet上预训练好的VGG16-CAM模型对其进行类别预测,再借助类别激活映射(CAM)方法得到最终的多类别决定性区域特征图;
文本区域检测次分支TRD:对原始多媒体页面I,利用基于文本/背景的二元分类器网络Cf,对其提取文本显著性图T。
如上三个分支各自对原始多媒体页面提取的特征融合成该元素特征网络的输出,输入给下一模块,即预测网络P-Net。
更具体的,如图4所示,在优选实施例中,所述多决定性区域检测次分支MDRD利用VGG16-CAM模型对原始多媒体页面I进行类别预测。该VGG16-CAM是已公开的模型并且已经在自然图片数据集ImageNet上预先训练。
VGG16-CAM对原始多媒体页面会产生一系列类别预测得分,取得分排在前K名的类别集合{c1,c2,c3,…,ck},然后对每一类别k∈C,C={c1,c2,c3,…,ck},取出与该类别相关的全连接层权重集合
Figure GDA0002560903920000091
该全连接权重集位于VGG16-CAM模型中全局平均池化层GAP与类别输出层之间。
然后,将该权重集
Figure GDA0002560903920000092
映射到最后卷积层输出fl(x,y),从而生成该类别下的单类别激活特征图Sk(x,y):
Figure GDA0002560903920000093
其中fl(x,y)代表VGG16-CAM模型最后卷积层的输出中与激活单元l有关的特征图。
最后,定义平均函数将所有K个单类别激活特征图Sk(x,y)融合成最终的多决定性区域特征图M(x,y),并且利用高斯滤波对其进行模糊:
Figure GDA0002560903920000094
更具体的,如图5所示,文本区域检测次分支TRD利用预训练好的文本/背景分类器Cf提取原始多媒体页面中的文本显著性图。如图6所示,在一具体实施例中,文本/背景分类器Cf在公开的英文字符数据集(ICDAR,SVT)上预训练得到。从ICDAR和SVT中剪裁带有字符的32×32图片作为正训练样本,不带字符的32×32图片作为负训练样本,整个训练样本构成Cf的全部训练集。该文本/背景分类器的结构是基于一系列卷积层搭建。各层的参数如图6所示。通过优化如下的损失函数来训练改文本/背景分类器:
Figure GDA0002560903920000095
其中t是正负训练样本,c∈{text,backgroud}可以用{1,0}表示,p(c|t)是Cf的概率输出,
Figure GDA0002560903920000096
是Cf中待优化的参数。
Figure GDA0002560903920000097
为对其后计算值取期望。
如图5所示,预训练好的Cf将对多尺度下的多媒体页面进行滑窗操作。所使用的多媒体页面分辨率分别为2720×1536,1360×768,680×384,340×192,低分辨率由原始分辨率1360×768降采样得到,高分辨率由原始分辨率1360×768通过双线性插值上采样得到。文本/背景分类器Cf对每个尺度下的多媒体页面进行滑窗,计算32×32范围中存在文本信息的概率,最终得到多媒体页面在每个尺度下的文本概率分布图,每个概率分布图经过高斯模糊后被规范到同一分辨率340×192,最后进行融合操作,得到最终的文本显著性图T。
基于空洞卷积的主分支对原始多媒体页面提取的三维特征向量,多决定性区域检测次分支MDRD对原始多媒体页面提取的多类别决定性区域特征图和文本区域检测次分支TRD对底多媒体页面提取的文本显著性图按照如图3所示的方式直接拼接,构成了元素特征网络的输出Fe
如图2所示,所述先验学习网络PL-Net基于bottle-neck结构的卷积神经网络从原始多媒体页面I中生成先验图
Figure GDA0002560903920000101
再结合提出的位置先验学习算法PPL,自动学习多媒体页面中的位置偏好特征图Fp
在一具体实施例中,所述bottle-neck结构基于堆叠的空洞卷积、卷积和解卷积层搭建,具体的设置为:atrousconv1-1(340×192),atrousconv1-2(340×192),conv1(170×96),atrousconv2-1(170×96),atrousconv2-2(170×96),conv1(85×48),atrousconv3-1(85×48),atrousconv3-2(85×48),conv3(42×24),deconv1(85×48),conv4(85×48),deconv2(170×96),conv5(170×96),deconv3(340×192)。其中atrousconv层的卷积核为3×3,稀疏系数为2;conv层卷积核为3×3,步长为1;deconv层的卷积核为3×3,步长为2。每层后的括号里为盖层输出的特征图的尺寸大小。deconv3将输出基于原图预测得到的先验图
Figure GDA0002560903920000102
上述生成的先验图
Figure GDA0002560903920000103
将和金标准S一起输入给位置先验学习算法PPL,通过拟合两者的KL分布,更新bottle-neck网络中的参数,达到优化先验图的目标。
如图7所示,所述位置先验学习算法PPL基于变分自编码器VAE实现。变分自编码器训练流通过重建金标准和拟合后验概率q(z|S)来训练优化变分自编码器,这一训练过程通过优化如下损失函数实现:
Figure GDA0002560903920000104
其中θ和φ为VAE中编码器E和解码器D中的参数,p(z)为标准正太分布,N(0,I),λ1和λ2为L(θ,φ;S)中期望项和KL散度像的平衡系数。
与此同时,由bottle-neck生成的先验图S′由编码器E通过前项推理流,计算后验概率q(z|S′)。q(z|S)和q(z|S′)均可以用多元高斯分布来表示:
qφ(z|S)=N(z;μ,σ2I|S),
qφ(z|S′)=N(z;μ,σ2I|S′),
其中,S为真实显著性图,S′为先验学习网络中基于bottle-neck生成的位置偏好特征图,μ为多元高斯分布的均值向量,σ为多元高斯分布的对角协方差矩阵,z为从真实显著性图S和预测得到的显著性图
Figure GDA0002560903920000105
中学到的隐变量。
通过计算q(z|S)和q(z|S′)两者的KL散度来衡量两者的偏差,并将通过更新bottle-neck结构中的参数来最小化此偏差,达到学习位置先验的目的:
L(θpl)=DKL(N(z;μ,σ2I|S)||N(z;μ,σ2I|S′)),
其中,θpl为先验学习网络PL-Net中的参数。DKL为对取KL散度符号。
如图2所示,EF-Net产生的元素特征图Fe和PL-Net所产生的位置偏好特征图Fp在通道channel维进行拼接,然后输入预测网络P-Net给一系列堆叠的卷积层,生成预测的最终显著性图
Figure GDA0002560903920000111
生成的显著性图
Figure GDA0002560903920000112
和金标准S构成如下的损失函数用来更新优化元素特征网络和预测网络,直至整个模型收敛:
Figure GDA0002560903920000113
其中θ*为元素特征网络EF-Net和预测网络P-Net中待优化的参数,α和β为平衡L1项和L2的系数。
Figure GDA0002560903920000114
Figure GDA0002560903920000115
定义如下,L1为交叉熵损失:
Figure GDA0002560903920000116
L1为KL散度损失:
Figure GDA0002560903920000117
其中,∈为正则化常数,i表示显著性图中第i个像素点。
图8-图10为本发明一实施例对多媒体页面进行显著性预测的结果图,其中:(a)为原始多媒体页面,(b)预测的显著性图,(c)为金标准。从图中可以看出:利用本发明实施例提出的基于敏感元素和位置先验学习的多媒体页面预测方法,能够预测得到十分逼近“金标准”的视觉显著性图。
综上,本发明利用元素特征网络EF-Net对原始多媒体页面I进行元素特征提取;利用先验学习网络PL-Net对多媒体页面中的人眼视觉偏好进行建模;最后结合元素特征网络和先验学习网络的结果,利用预测网络P-Net生成最终针对该多媒体页面的视觉显著图S。整个网络通过构建的多种损失函数进行端到端参数优化,使之能预测更为准确的针对任意多媒体页面的人眼视觉显著性图。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种多媒体页面视觉显著性预测方法,其特征在于:包括:
基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图;
利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图,再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图;
利用上述一系列元素特征图和所述位置偏好特征图,采用一系列卷积和解卷积操作,生成最终的显著性图;
所述基于卷积神经网络CNN提取多媒体页面中的一系列元素特征图,其中包括:
特征提取:利用空洞卷积,对原始多媒体页面提取基于空洞卷积的特征图;
多决定性区域检测:利用预训练的VGG16-CAM模型,对原始多媒体页面进行类别预测,对预测得到的各类别得分从高到低排列,取前K个类别,对前K个类别中的每一类,进行类别决定性区域映射得到单类别决定性区域特征图,对所有K个单类别决定性区域特征图,进行特征图融合,得到最终的多类别决定性区特征图;
文本区域检测:利用基于文本/背景的二元分类器网络,对原始多媒体页面在不同尺度上进行滑窗操作,对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图,对多个表征文本区域的特征图进行滤波和融合操作,得到最终的文本显著性图;
所述基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图融合后构成一系列元素特征图。
2.根据权利要求1所述的多媒体页面视觉显著性预测方法,其特征在于:对每张多媒体页面所对应的真实显著性图,变分自编码器将对其进行隐空间编码学习,并将该隐空间表征为多元高斯分布的形式;变分自编码器中的编码器将对生成的先验图进行编码,得到的隐空间也表征为另一多元高斯分布的形式,利用KL散度来衡量这两个多元高斯分布之间的偏差,并将该偏差作为损失函数用来训练先验学习算法。
3.根据权利要求1-2任一项所述的多媒体页面视觉显著性预测方法,其特征在于:所述最终的显著性图与该原始多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数
Figure FDA0002560903910000013
和KL散度损失函数
Figure FDA0002560903910000014
具体为:
Figure FDA0002560903910000011
Figure FDA0002560903910000012
上述公式中:
Figure FDA0002560903910000022
S分别为对某一特定多媒体页面预测得到的最终显著性图和其对应的真实显著性图,
Figure FDA0002560903910000021
为对方括号内所计算数值取期望,
Figure FDA0002560903910000023
Si分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引;∈为正则化常数,i表示显著性图中第i个像素点。
4.一种多媒体页面视觉显著性预测系统,其特征在于:包括:
元素特征网络:基于卷积神经网络CNN提取原始多媒体页面中的一系列元素特征图;
先验学习网络:利用bottle-neck结构的卷积神经网络从原始多媒体页面中生成先验图,再结合位置先验学习算法自动学习原始多媒体页面中的位置偏好特征图;
预测网络:利用上述元素特征网络得到的所述一系列元素特征图和所述先验学习网络得到的所述位置偏好特征图,采用一系列卷积和解卷积操作,生成最终的显著性图;
所述元素特征网络包括三个并列的子分支:基于空洞卷积的主分支,多决定性区域检测次分支和文本区域检测次分支,其中:
基于空洞卷积的主分支:利用空洞卷积,对原始多媒体页面提取一系列特征图;
多决定性区域检测次分支:利用预训练的VGG16-CAM模型,对原始多媒体页面进行类别预测,对预测得到的各类别得分从高到低排列,取前K个类别,对前K个类别中的每一类,进行类别决定性区域映射(class discriminative region mapping)得到单类别决定性区域特征图,对所有K个单类别决定性区域特征图,进行特征图融合,得到最终的多类别决定性区特征图;
文本区域检测次分支:利用基于文本/背景的二元分类器网络,对原始多媒体页面在不同尺度上进行滑窗操作,对每一尺度下的多媒体页面均能得到一张表征文本区域的特征图,对多个表征文本区域的特征图进行滤波和融合操作,得到最终的文本显著性图;
上述三个子分支得到的基于空洞卷积的特征图、多类别决定性区特征图和文本显著性图,融合后得到一系列元素特征图。
5.根据权利要求4所述的多媒体页面视觉显著性预测系统,其特征在于:所述先验学习网络包含一个bottle-neck结构的先验图生成网络和一个基于变分自编码器VAE的位置先验学习网络,其中bottle-neck结构的先验图生成网络从原始多媒体页面中生成先验图,并将所得到的先验图输入所述基于变分自编码器VAE的位置先验学习网络,所述基于变分自编码器VAE的位置先验学习网络自动学习原始多媒体页面中的位置偏好特征图;整个先验学习网络能够自动学习人眼视觉偏好导致的位置偏好信息,生成一张位置偏好特征图。
6.根据权利要求5所述的多媒体页面视觉显著性预测系统,其特征在于:对每张原始多媒体页面所对应的真实显著性图,所述基于变分自编码器VAE的位置先验学习网络中的变分自编码器将对其进行隐空间编码学习,并将该隐空间表征为多元高斯分布的形式;变分自编码器中的编码器E将对生成的先验图进行编码,得到的隐空间也表征为另一多元高斯分布的形式,利用KL散度来衡量以上两个多元高斯分布之间的偏差,并将该偏差作为损失函数用来训练先验学习网络。
7.根据权利要求6所述的多媒体页面视觉显著性预测系统,其特征在于:所述预测网络最终生成的显著性预测图与该多媒体页面所对应的真实显著性图之间进行构造交叉熵损失函数
Figure FDA0002560903910000034
和KL散度损失函数
Figure FDA0002560903910000035
具体为:
Figure FDA0002560903910000031
Figure FDA0002560903910000032
上述公式中:
Figure FDA0002560903910000038
S分别为对某一特定多媒体页面预测得到的最终显著性图和其对应的真实显著性图,
Figure FDA0002560903910000036
为对方括号内所计算数值取期望,
Figure FDA0002560903910000037
Si分别为预测得到的显著性图中的像素索引和其对应的真实显著性图上的像素索引;∈为正则化常数,i表示显著性图中第i个像素点。
8.根据权利要求7所述的多媒体页面视觉显著性预测系统,其特征在于:两类损失函数将通过随机梯度下降法联合训练所述元素特征网络和所述预测网络:
Figure FDA0002560903910000033
其中θ*为元素特征网络和预测网络中待优化的参数,α和β为平衡L1项和L2的系数,L1为交叉熵损失,L2为KL散度损失。
CN201810343404.9A 2018-04-17 2018-04-17 一种多媒体页面视觉显著性预测方法及系统 Active CN108664967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810343404.9A CN108664967B (zh) 2018-04-17 2018-04-17 一种多媒体页面视觉显著性预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810343404.9A CN108664967B (zh) 2018-04-17 2018-04-17 一种多媒体页面视觉显著性预测方法及系统

Publications (2)

Publication Number Publication Date
CN108664967A CN108664967A (zh) 2018-10-16
CN108664967B true CN108664967B (zh) 2020-08-25

Family

ID=63782221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810343404.9A Active CN108664967B (zh) 2018-04-17 2018-04-17 一种多媒体页面视觉显著性预测方法及系统

Country Status (1)

Country Link
CN (1) CN108664967B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3654248A1 (en) * 2018-11-19 2020-05-20 Siemens Aktiengesellschaft Verification of classification decisions in convolutional neural networks
CN109597906B (zh) * 2018-12-06 2020-11-13 苏州飞搜科技有限公司 图像检索方法及装置
CN109635711A (zh) * 2018-12-07 2019-04-16 上海衡道医学病理诊断中心有限公司 一种基于深度学习网络的病理图像分割方法
CN109740140B (zh) * 2018-12-28 2023-07-11 北京百度网讯科技有限公司 页面排版方法、装置和计算机设备
CN110120009B (zh) * 2019-05-09 2022-06-07 西北工业大学 基于显著物体检测和深度估计算法的背景虚化实现方法
CN110599443A (zh) * 2019-07-02 2019-12-20 山东工商学院 一种使用双向长短期记忆网络的视觉显著性检测方法
CN110443808B (zh) * 2019-07-04 2022-04-01 杭州深睿博联科技有限公司 用于脑中线检测的医疗图像处理方法及装置、设备、存储介质
CN110334685A (zh) * 2019-07-12 2019-10-15 创新奇智(北京)科技有限公司 火焰检测方法、火焰检测模型训练方法、存储介质及系统
CN110929735B (zh) * 2019-10-17 2022-04-01 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法
CN111079532B (zh) * 2019-11-13 2021-07-13 杭州电子科技大学 一种基于文本自编码器的视频内容描述方法
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN113657352A (zh) * 2020-03-19 2021-11-16 支付宝(杭州)信息技术有限公司 一种人脸特征提取方法、装置及设备
CN112488049B (zh) * 2020-12-16 2021-08-24 哈尔滨市科佳通用机电股份有限公司 一种动车组牵引电机及轴间夹挂异物的故障识别方法
CN113066544B (zh) * 2021-04-22 2022-04-15 重庆师范大学 基于CAA-Net与LightGBM的FVEP特征点检测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952083A (zh) * 2015-06-26 2015-09-30 兰州理工大学 一种基于显著性目标背景建模的视频显著性检测算法
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN107316046A (zh) * 2017-03-09 2017-11-03 河北工业大学 一种基于增量补偿动态自适应增强的故障诊断方法
CN107679502A (zh) * 2017-10-12 2018-02-09 南京行者易智能交通科技有限公司 一种基于深度学习图像语义分割的人数估计方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN107833220A (zh) * 2017-11-28 2018-03-23 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法
CN107886533A (zh) * 2017-10-26 2018-04-06 深圳大学 立体图像的视觉显著性检测方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102033411B1 (ko) * 2016-08-12 2019-10-17 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952083A (zh) * 2015-06-26 2015-09-30 兰州理工大学 一种基于显著性目标背景建模的视频显著性检测算法
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN107316046A (zh) * 2017-03-09 2017-11-03 河北工业大学 一种基于增量补偿动态自适应增强的故障诊断方法
CN107679556A (zh) * 2017-09-18 2018-02-09 天津大学 基于变分自动编码器的零样本图像分类方法
CN107679502A (zh) * 2017-10-12 2018-02-09 南京行者易智能交通科技有限公司 一种基于深度学习图像语义分割的人数估计方法
CN107886533A (zh) * 2017-10-26 2018-04-06 深圳大学 立体图像的视觉显著性检测方法、装置、设备及存储介质
CN107833220A (zh) * 2017-11-28 2018-03-23 河海大学常州校区 基于深度卷积神经网络与视觉显著性的织物缺陷检测方法

Also Published As

Publication number Publication date
CN108664967A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664967B (zh) 一种多媒体页面视觉显著性预测方法及系统
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
Wang et al. Hierarchical attention network for image captioning
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
KR101865102B1 (ko) 시각 문답을 위한 시스템 및 방법
Mansimov et al. Generating images from captions with attention
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
DE102016013487A1 (de) Semantischer Vektorraum mit natürlicher Sprache
Pathar et al. Human emotion recognition using convolutional neural network in real time
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN112131345B (zh) 文本质量的识别方法、装置、设备及存储介质
CN113657380A (zh) 融合多模态注意力机制的图像美学质量评价方法
US11941867B2 (en) Neural network training using the soft nearest neighbor loss
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN111598153A (zh) 数据聚类的处理方法、装置、计算机设备和存储介质
Liu et al. Dual-feature-embeddings-based semi-supervised learning for cognitive engagement classification in online course discussions
Rawf et al. A comparative technique using 2D CNN and transfer learning to detect and classify Arabic-script-based sign language
Ouali et al. An augmented reality for an arabic text reading and visualization assistant for the visually impaired
Basiri et al. Dynamic iranian sign language recognition using an optimized deep neural network: an implementation via a robotic-based architecture
Herasymova et al. Development of Intelligent Information Technology of Computer Processing of Pedagogical Tests Open Tasks Based on Machine Learning Approach.
CN117079328A (zh) 一种基于多尺度特征交叉融合和对比分离多头注意力的面部表情识别方法
Kumar et al. A technique for human upper body parts movement tracking
CN111566665B (zh) 在自然语言处理中应用图像编码识别的装置和方法
Kansal et al. Study on Real World Applications of SVM
CN113610080A (zh) 基于跨模态感知的敏感图像识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181016

Address after: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant after: Zhang Ya

Applicant after: Wang Yanfeng

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Shanghai Jiao Tong University

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181121

Address after: Room 387, Building 333, Hongqiao Road, Xuhui District, Shanghai 200030

Applicant after: Shanghai Media Intelligence Technology Co., Ltd.

Address before: 200240 No. 800, Dongchuan Road, Shanghai, Minhang District

Applicant before: Zhang Ya

Applicant before: Wang Yanfeng

GR01 Patent grant
GR01 Patent grant