CN108985377B

CN108985377B - 一种基于深层网络的多特征融合的图像高级语义识别方法

Info

Publication number: CN108985377B
Application number: CN201810788111.1A
Authority: CN
Inventors: 李海芳; 王哲; 邓红霞; 杨晓峰; 姚蓉; 阴桂梅
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2019-06-11
Anticipated expiration: 2038-07-18
Also published as: CN108985377A

Abstract

本发明提供了一种基于深层网络的多特征融合的图像高级语义识别方法，通过将全局颜色直方图提取到图像的颜色特征、LBP算法提取到图像的纹理特征、深层对象网络提取到图像的对象特征和深层情感网络提取图像深层情感特征融合起来识别图像的复合情感以及包含的主体对象，最终对于输入的图像，该网络模型可以生成具有高级语义信息的描述性短语，高级语义包括情感语义和对象语义。本发明从针对小数据集的深度学习方面出发，采用一种数据分别扩充的方式，结合了预先提取出的具有诸如颜色和纹理统计低级特征，并提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型，提高了实验结果的准确性，使实验图像选取更科学。

Description

一种基于深层网络的多特征融合的图像高级语义识别方法

技术领域

本发明涉及计算机图像情感语义识别技术领域，更具体而言，涉及一种基于深层网络的多特征融合的图像高级语义识别方法。

背景技术

图像是一种可以用来传达情感的重要工具，不同形式的图像会带给人不同的直观情感体验。心理学研究表明，人类的情绪会因不同的视觉刺激而异。随着深度学习技术的发展，计算机在处理许多视觉识别任务如图像分类，图像分割，物体检测和场景识别等方面都取得了突破性进展。但是对于图像激发的情感呢？是否也能通过深度学习的方法形成与人类类似的判断。事实上由于情感的主观性以及复杂性，从图像中识别诱发情绪是一项艰巨的任务。而对于情感图像的研究也依旧处于早期阶段。

图像的情感与多种因素有关。为了找出与情绪识别问题相关的重要特征，许多研究人员已经考虑了从颜色统计到艺术以及心理逻辑特征等的各种类型的特征。王伟凝等人在2007年提出了抽取图像的客观底层特征(如颜色、纹理、形状等)来识别图像的情感。赵等人通过探索艺术原则，定义了更稳健和不变的视觉特征，如平衡，变化和渐变。通过手动提取的视觉特征在几个广泛使用的小数据集上得到较好的识别效果，但这很难将所有与图像情感有关的重要因素(即图像语义，图像美学和低级视觉特征等)全部考虑在内。

随着卷积神经网络(CNN)的迅速普及，特别是在许多视觉识别任务都取得了重要突破后，一些研究人员还将CNN应用于图像情感分类。CNN的优势在于，它不是手动设计视觉特征，而是提供了一个端到端的特征学习框架，它可以自动学习图像的特征。近几年，You等人开始利用大数量级的图像情感数据库,使用微调(fine-tune)的方法，在图像物体分类ImageNet数据集上训练好的AlexNet模型，并采用支持向量机(SVM)进行图像情感分类，取得了良好的效果。Rao等人设计了MldrNet，组合了3个AlexNet网络，最终进行情感的预测。Borth等引入了形容词-名词对(ANP)，作为代表图像情感的高级概念，为后续工作提供了大量的数据样本参考。

但是目前的研究并没有充分地体现出图像包含的高级语义信息，再加上目前高质量的情感数据集数量还较少，不能够完全满足深度学习对于训练量的要求。

发明内容

为了克服现有技术中所存在的不足，本发明提供一种基于深层网络的多特征融合的图像高级语义识别方法，针对小数据集的深度学习方面出发，采用数据分别扩充的方式，并提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型。

为了解决上述技术问题，本发明所采用的技术方案为：

一种基于深层网络的多特征融合的图像高级语义识别方法，包括以下步骤：

S1、准备用于训练网络的数据集，将数据集中图像尺寸更改为224*224*3；

S2、对S1中图像中进行特征的提取，并行提取颜色特征x₁，纹理特征x₂，深层情感特征x₃，对象特征x₄，提取特征后维度分别变换为3维、128维、128维和40维，使不同的特征分别为单独的一个分支，有利于不同特征的组合，以便选取出来特征组合使得网络的表现性能最佳；

S3、将x₁,x₂,x₃,x₄连接在一起，用向量X表示。然后将X连接在BN层(BatchNormalization)上，将BN层的输出连接在两层隐含层和一个输出层的神经网络中，通过计算转换为情感概率分布，作为情感语义信息；

S4、运用迁移网络模型的方法，将识别结果中概率最大的对象类别作为该图像的对象语义信息；

S5、整合S3中提取出的情感语义信息和S4中提取出的的对象语义信息，最终得到图像的高级语义信息的描述性短语。

所述S1中数据集的准备步骤具体为：选取国际情感图片系统(IAPS)和日内瓦情感图片数据库(GAPED)作为数据集，根据数据集中图像已有的愉悦度和激活度的标注信息，选用情感维度模型，将数据集中图像在Valence-Arousal二维空间(VA空间)按情感分为9类；对不同的类别图像分别进行不同倍数的扩充，使不同的类别的图像在数量上达到一个均衡的状态。

所述S2中颜色特征采用全局颜色直方图中最大值所对应的基础颜色即主色调作为颜色特征，所述在一幅图主色调颜色通过下式获得：

其中，

式中，整幅图图像颜色由N个级别组成，每一种颜色值用q_i，i＝1,2，...，N表示；H(q_i)为每级颜色出现的频率，H(q₁)...H(q_N)组成该图像的颜色直方图，num(q_i)为颜色q_i的像素值个数，num(total)为图像的像素总数。

所述纹理特征采用环形局部二值模式(LBP，Local Binary Pattern)特征，所述局部二值模式特征通过下式获得：

其中，

式中(x_c,y_c)为中心像素的坐标，P为邻域的第P个像素，i_p为邻域像素的灰度值，i_c为中心像素的灰度值，s(x)为符号函数；

将得到的局部二值模式特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中，其中卷积层kernel_size＝(3,3)，filters＝32，激活层激活函数为“ReLu”，池化层采用MaxPooling，全连接层的神经元个数为128个，最终将得到的128维向量作为图像的纹理特征。

所述深层情感特征采用迁移学习的方法，在ImageNet数据集上预先训练好的VGG19模型中，通过S1中数据集图像输入继续优化网络的训练，截取VGG19网络从输入层到”flatten”层的网络部分，添加神经元随机失活为Dropout＝0.25，然后添加两个全连接层，最后添加”ReLu”激活层，最终训练网络后提取到的特征作为深层情感特征。

所述对象特征在训练阶段采用原数据集中标注好的对象标签作为对象特征；在测试阶段采用图像的对象语义信息转换为独热编码(one-hot)编码，作为图像的对象特征。

所述S3中情感概率分布通过以下计算获得：

F(X,θ)＝f³οg²οf²οg¹οf¹(X)

式中，X是输入的特征向量；θ为一个参数的集合，包括权重w和偏移量b；f³为网络的最终输出；gⁿ代表激活函数，其中g²为softmax，g¹为ReLu；

对于一个在l层的向量代表在该层的神经元，代表在l+1层的神经元j的值，可以通过f^l+1(x^l)来计算：

式中的值就是连接l层的神经元x_i和l+1层的神经元j的权重，n则代表在l层的神经元数量；代表在l+1层神经元j的偏移量，然后神经元j的值还要输入到一个非线性的激活函数σ中：

在神经网络的隐含层使用非线性激活函数ReLu。

σ_ReLu(x)＝max(0,x)

最后一层输出层使用softmax激活函数，这样最后一个全连接层的输出就可以转换为一个八类的概率分布P∈R^m，图像的情感分类概率为:

式中，h_i为最后的完全连接层的输出；

将图像的情感分类概率转换为图像的情感概率分布图，这样使结果不仅仅包含了单一的情感，而且可以得到不同的情感的概率分布，能够反映更加全面的情感蕴含信息。

通过使用SGD优化器来优化网络的权重来实现优化图像情感分类概率损失，所述图像情感分类概率的损失通过下式获得：

式中，yi为该i张图像的真实标签。

所述情感概率超过20％就将该类情感作为最终结果的一部分。

与现有技术相比，本发明所具有的有益效果为：

本发明提供了一种基于深层网络的多特征融合的图像高级语义识别方法，通过将全局颜色直方图提取到图像的颜色特征、LBP算法提取到图像的纹理特征、深层对象网络提取到图像的对象特征和深层情感网络提取图像深层情感特征融合起来识别图像的复合情感以及包含的主体对象，最终对于输入的图像，该网络模型可以生成具有高级语义信息的描述性短语，高级语义包括情感语义和对象语义。本发明从针对小数据集的深度学习方面出发，采用一种数据分别扩充的方式，结合了预先提取出的具有诸如颜色和纹理统计低级特征，并与训练得到的深层网络模型提取的深层特征融合，以获得一组特征情感识别分布，尽可能充分地反映出情感的复杂性。并最终用一个具有情感和对象的短语来表示图像的语义信息，本发明提出一种通过多特征融合的方法识别图像情感和对象的高级语义信息的模型，提高了实验结果的准确性，使实验图像选取更科学。

附图说明

图1为本发明提供的一种基于深层网络的多特征融合的图像高级语义识别方法网络结构模型图；

图2为情感空间分类

图3为纹理特征图

图4为对象识别网络模型

图5为特征表现图

图6为Abstract数据集表现

图7为Artphoto数据集表现

图8为单一情感识别

图9为多情感识别结果

图10为图像高级语义信息。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图像情感识别是与物体检测或图像分类完全不同的复杂任务。在本发明中，结合了预先提取出的具有诸如颜色和纹理统计低级特征，并与训练得到的深层网络模型提取的深层特征融合，以获得一组特征情感识别分布，尽可能充分地反映出情感的复杂性。并最终用一个具有情感和对象的短语来表示图像的语义信息，具体发明网络模型如图1所示。

(一)数据集准备

1.1公共数据的选取：

由于图像激发的情感主观性较强，选取用于训练网络的数据集就十分重要了，它的质量会直接影响到网络的可靠性。因此选取了一个典型的情感公共数据集：国际情感图片系统(IAPS)。该数据集为一组彩色图像提供了情感(愉悦度，激活度，支配度)的规范评级，由947张图像组成，涵盖包括昆虫，小狗，儿童，贫困，疾病和肖像等各种场景，这些场景是由60位参与者使用情感词汇进行评分的。选取的另一个数据集是日内瓦情感图片数据库(GAPED)，它提供了730张图像，包括负面(如蜘蛛，蛇，场景包含侵犯人权的行为)，积极(例如人类和动物婴儿，自然风景)和中性图像。所有的图像都是根据愉悦度，激活度来标注的。

1.2数据集的分类：

本实施例选择已广泛应用于心理学领域的情感维度模型。它由Valence和Arousal两个参数组成。Valance维度1到9代表了从阴性到阳性的愉悦度；Arousal维度从1到9代表了从平静到兴奋的激活度水平。通过使用这两个连续空间的参数，可以表达空间中的任何情感。

如图2所示，基于这个二维空间模型，将情感分为9类，其中对于每一类别的描述如表1所示：

表1情感分类描述

类别	情感描述	Valence	Arousal
				0	抑郁的	0≤V＜3	0≤A＜3
1	平和的	3≤V＜6	0≤A＜3
				2	开心的	6≤V＜9	0≤A＜3
3	沮丧的	0≤V＜3	3≤A＜6
				4	压抑的	3≤V＜6	3≤A＜6
5	高兴的	6≤V＜9	3≤A＜6
				6	愤怒的	0≤V＜3	6≤A＜9
7	害怕的	3≤V＜6	6≤A＜9
				8	兴奋的	6≤V＜9	6≤A＜9

1.3数据增强：

从公共情感数据集IAPS和GAPED上可以得到一共1677张已标注好的图像。在深度学习中，为了避免出现结果的过拟合，往往需要输入充足的数据样本。但是想要获得海量的已标注好V-A值的数据又是极有难度的，因此在本实施例中进行了数据扩充，也称为数据增强。也就是通过图像几何变换(如：随机旋转变换，翻转变换、缩放变换、平移变换等等)的组合，来增加输入数据的量，数据增强方式及数据增强后数据集图像数量如表2所示：

表2数据集图像数量

在数据增强的过程中，进行了两种增强方式的比较：首先对于整个数据集进行了五倍的扩充，如表2中All_extend行所示；第二种方式是对不同的类别图像分别进行不同倍数的扩充，使不同的类别的图像在数量上达到一个均衡的状态，如表2中Part_extend行所示。由表2可以看出，第三类图像原本数据590张，而第六类中只有47张，在进行全部扩充时，第三类图像扩充到了2950张，而第六类图像有235张。虽然与扩充前相比，数量有了提升，但是整体来看，两类图像的数量相差到了2715张。如此大的差量会影响到整体数据集上的训练准确率。因此提出了分别扩充的方法，即将基数比较大的第三类扩充2倍，基数比较小的第六类扩充22倍，结果分别为1180和1034，得到了较为稳定的数量分布。在对整个数据集进行5倍的扩充(All_extend)后，数据分布十分不均，不同类别间的数量相差很大，但如果分别扩充之后，不同类别的数量(Part_extend)达到了一个相对平衡的状态。

(二)图像特征的选择和提取

影响图像情感的特征有很多种，本实施例选取颜色特征、纹理特征、深层情感特征和对象特征：

2.1颜色特征

全局颜色直方图描述不同色彩在整幅图像中占得比例，简单方便，具有平移、尺度、旋转不变性。所以提取全局颜色直方图中的最大值所对应的基础颜色作为图像的颜色特征。

设一幅图像的颜色是由N个级别组成，每一种颜色值用q_i，i＝1,2,...,N表示。则在整幅图像中，主色调颜色由式(1)和式(2)所示:

其中，num(q_i)表示颜色q_i的像素值个数，num(total)表示图像的像素总数。H(q_i)表示每级颜色出现的频率。而这一组颜色统计值H(q_i)，H(q₁)...H(q_N)就是该图像的颜色直方图。取这一组颜色统计值的最大值C，即为整幅图像的主色调。然后将得到的三维向量作为图像的颜色特征，记为x₁。

2.2纹理特征

局部二值模式(LBP，Local Binary Pattern)，在本实施例中，对比了两种不同的LBP算法的效果，如图3所示，由于原始LBP特征使用的是固定邻域内的灰度值，因此当图像的尺度发生变化时，LBP特征的编码将会发生错误，LBP特征将不能正确的反映像素点周围的纹理信息，因此对其进行了改进以后，能够达到灰度和旋转不变性的要求。由于之前对图像进行增强时，对图像进行了旋转、拉伸等变换，因此选取这种环形LBP特征，可以很好地避免由于旋转、拉伸等对于图像的影响。再加上原本LBP特征对于光照的很好的鲁棒性，因此选取LBP特征作为图像的纹理特征。LBP公式如式(3)和式(4)所示。

其中(x_c,y_c)为中心像素的坐标，P为邻域的第P个像素，i_p为邻域像素的灰度值，i_c为中心像素的灰度值，s(x)为符号函数。

将得到的LBP特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中。其中卷积层kernel_size＝(3,3)，filters＝32，激活层激活函数为“ReLu”，池化层采用MaxPooling，全连接层的神经元个数为128个。最终将得到的128维向量作为图像的LBP特征，记为x₂。

2.3深层情感特征

本阶段采取端到端(end-to-end)的方式，自动提取图像的深层情感特征。

基于CNN网络良好的迁移特性，使用了迁移学习的方法，微调在ImageNet数据集上预训练的模型，采用该种方法，避免了由于网络深度的影响，每次随机初始化网络参数后，再进行前向传播、反向传播更新参数，系统开销太大，而且效率也不够高的问题，因此使用在拥有1400多万张图像的数据集——ImageNet上训练好的网络参数，作为网络的初始参数，然后再将原图像重新作为网络的输入，继续优化网络的训练。由于原本的初始权重就是在样本数量足够多的条件下训练出来的结果，所以在此基础上的继续训练不仅可以使训练的结果更加可靠，而且还能够大大提升训练效果，使结果尽快收敛。

在图像预处理阶段将图像的尺寸更改为224*224*3，作为该网络的训练数据。截取VGG19网络从输入层到”flatten”层的网络部分，添加神经元随机失活为Dropout＝0.25，然后添加了两个全连接层，神经元个数分别1000和128，最后添加了”ReLu”激活层。添加Dropout层的原因是为了防止网络的过拟合，设置Dropout＝0.25，即随机去掉25％的神经元，使得网络防止过拟合影响到最终的分类效率。

最终训练网络后提取到的特征作为深层情感特征，记做x₃。

2.4对象特征

在训练阶段，采用原数据集中标注好的488种对象标签，将其作为情感图像的对象特征x₄。

在测试阶段，由于没有对图像中包含主体对象的标注，在此训练一个对象识别网络，以获得图像的对象类别作为对象特征。从情绪图像库中包含的488种主体对象中抽取40种典型的对象，并通过ANP方式对图像数据集进行了扩充，用于识别对象语义的深层网络模型训练。

该阶段运用了迁移网络模型的方法，如图4所示。输入图像的尺寸为224*224*3，冻结选取网络从输入层到输出层的部分，训练两层的完全连接层。第一层节点数为1000，使用“ReLu”激活函数，第二层的节点数为40，使用“Softmax”激活函数，得到40种对象类别的分类概率，将概率最大的对象类别作为该图像的对象语义信息。然后再将该信息转换为one-hot编码，作为图像的对象特征，记作x₄。

(三)多特征融合及其情感分类

步骤一：将(二)中得到的x₁,x₂,x₃,x₄连接在一起，用向量X表示。然后将X连接在BN层(Batch Normalization)上，不仅仅极大提升了训练速度，大大加快模型收敛速度，还能提升分类效果。

步骤二：将步骤一BN层的输出连接在两层隐含层和一个输出层的神经网络上：

F(X,θ)＝f³οg²οf²οg¹οf¹(X) (5)

其中，X是输入的特征向量，θ是一个参数的集合，包括权重w和偏移量b，f³是网络的最终输出，也就是八个类别的概率。gⁿ代表激活函数，其中g²为softmax，g¹为ReLu。

其中的值就是连接l层的神经元x_i和l+1层的神经元j的权重，n则代表在l层的神经元数量；代表在l+1层神经元j的偏移量。然后神经元j的值还要输入到一个非线性的激活函数σ中：

在神经网络的隐含层使用非线性激活函数ReLu。

σ_ReLu(x)＝max(0,x) (8)

最后一层输出层使用softmax激活函数，这样最后一个全连接层的输出就可以转换为一个八类的概率分布P∈R^m。图像的情感分类概率为:

其中h_i就是最后的完全连接层的输出。识别概率的损失函数为多分类的交叉熵损失函数：

其中yi为该i张图像的真实标签。

该损失函数，可以通过使用SGD优化器来优化网络的权重来实现。

步骤四：将步骤三中得到的分类结果，通过概率的计算转换为八类图像的情感概率分布图。这样使结果不仅仅包含了单一的情感，而且可以得到不同的情感的概率分布，能够反映更加全面的情感蕴含信息。

(四)生成对图像的描述性短语

在该阶段，整合(2.4)中提取出来的对象语义信息和(三)中提取出来的情感语义信息，最终得到图像的高级语义信息的描述性短语。

(五)实验过程及结果分析：

1.网络结构表现

本实施例中设计的整体网络结构如表3所示。情感分类网络的输入为尺寸为224*224*3的原图像。在分别提取了颜色特征x₁、图像的LBP纹理特征x₂、深层情感特征x₃和对象特征x₄四种特征后，维度分别变换为3维、128维、128维、和40维，采用这种并行提取特征的方式，可以使不同的特征分别为单独的一个分支，有利于不同特征的组合，以便选取出来特征组合使得网络的表现性能最佳。将选取好的特征组合输入到两个隐含层和一个输出层的完全连接网络中，神经元个数分别为1000、256和8。

表3网络模型结构

在对象分类部分，本专利可以兼容三种对象分类模型，分别是：InceptionV3，InceptionV4和VGG16。将原图像(224*224*3)输入到其中一种网络中，然后再连接一个有一层隐含层和一层输出层的神经网络，节点数分别为1000和40。

2.数据增强及特征表现

在本实施例中，图5对比了不同的特征组合分别在原数据集、全扩充数据集和分别扩充数据集上的准确率表现。该图的横轴表示不同的特征组合，纵轴表示准确率。可以得出，对于一种特征组合，不同的数据集增强方式会对准确率有不同的表现：在没有数据增强时的数据集准确率最低，当对其进行全部扩充时，虽然表现性能有一定的提升，但是当进行分别扩充时的准确率达到最好。而在同一种扩充方式的数据集中，对于不同的特征组合，也展示出了不同的准确率表现。在分别扩充数据集中，当只对原图像提取深层情感特征时，准确率能达到45％左右，但是当分别融入了对象特征和LBP特征时，准确率可以达到52％左右，但是它们的准确率基本接近，将深层情感特征、对象特征和LBP特征这三种特征组合起来时，准确率有了3％左右的提升。在此基础上，又加入了颜色特征，最终能够达到63％左右的准确率。

3.模型验证与比较试验

为证明本实施例方法的可靠性，相应设置了两部分的验证比较试验。对于情感识别网络，将本实施例中训练得到的情感识别网络模型做了领域迁移，即验证本模型在其他分类标准或其他数据集上的性能表现。首先根据V-A值对本实验中用到的数据进行了二分类，验证二分类的分类准确率，然后在Artphoto和Abstract两个公共情感图库上进行实验，并与已有的三种方法得到的结果进行对比，实验表明本实施例方法在一定程度上优于已有方法。对于对象识别网络，比较了三种网络的迁移效果，从而选取表现性能最佳的一种网络。

3.1情感识别网络性能表现

1)基于V-A值的情感二分类的实验结果

为了验证本网络的可靠性，又重新对数据集进行了二分类，分为积极图像和消极图像两部分，分类情况如表4所示。其中pleasure分为1.45--4.59和5--8.34，arousal分为2.63--7.35和2.9--7.35，去除了一些暴力和色情的图像以后。最终消极图像为397张，积极图像为515张。运用本实施例方法进行分类，准确率达到了83.35％。

表4二分类实验结果

	negative	positive
			pleasure	1.45-4.59	5-8.34
arousal	2.63-7.35	2.9-7.35
			pic_num	397	515

2)在Artphoto和Abstract的情感图库上的实验结果

Artphoto和Abstract是现有的公共情感数据库，它们将情感分为八类，分别是：Amusement、Anger、Awe、Contentment、Disgust、Excitement、Fear和Sadness。图6和图7分别展现了本实施例中的方法在这两个数据集上的TPR表现。TPR是真正例率，是一种衡量模型泛化能力的评价标准。由于Abstract数据集中“anger”类别的图像数量太少，因此只对比了七个类别的准确率。由图可知，虽然在某些类别上准确率低于其他方法，但是从总体上看，本方法对于情感图像的分类准确率还是有一定的提升，也证明了本方法的有效性。

3.2对象识别网络性能表现

对于对象语义识别部分，进行了如表5所示三种网络的迁移效果的比较。该实验设置的全连接层数为3层。其中可看出InceptionV4网络的效果最佳。Inception网络最大的好处是，不需要人工来选择使用哪个尺寸的过滤器或池化层，而是由网络自行确定这些参数，只需要给网络添加这些参数的所有可能值，然后连接这些输出，让网络自己学习需要什么样的参数。在增加网络规模的同时，还能够保证计算的高效率。

表5对象识别网络性能表现

迁移网络	准确率(％)
		VGG16	84.13
InceptionV3	88.45
		InceptionV4	90.12

4结果展示

4.1单一情感识别

从图8来看，这两张图像的情感表现较为单一，第一幅图像对于第四类“令人压抑”的识别达到了几乎100％，而第二张图像对于类别“令人害怕的”也达到了88％左右。由此可以看出该类图像的情感表现较为简单，基本不存在多种情感掺杂的情况。因此最终输出的描述性语句为单一情感。

4.2多情感识别

图8所示的图像情感识别值则与图9的情况不同，以第一张楼梯图像为例，63％的可能为“感觉平和的”而30％识别为“令人压抑的”，如果像之前的做法则直接取最大概率值对应的类别作为图像的类别，则有可能会丢失掉一些重要的信息，采取这种分布式的方法则会包含更为丰富的复合情感信息。将阈值设置为0.2，即如果某些类别的概率超过20％就将该类情感作为最终结果的一部分。

4.2图像高级语义提取

本实施例最终可以对输入的图像，产生一个包含情感和对象两种高级语义信息的图像描述性短语，如图10所示。其中对象语义信息是通过对象识别网络产生的，情感语义是由多特征融合的深层网络得到的，最终的情感语义信息可能包含大于阈值的多个情感类别信息。

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，包括以下步骤：

S2、对S1中图像中进行特征的提取，并行提取颜色特征x₁，纹理特征x₂，深层情感特征x₃，对象特征x₄；

S3、将x₁,x₂,x₃,x₄连接在一起，用向量X表示，将X连接在BN层上，将BN层的输出连接在两层隐含层和一个输出层的神经网络中，通过计算转换为情感概率分布，具体计算方法为：

对于一个在l层的向量x^l＝[x_i ^l,...,x_n ^l]^T，x_i ^l代表在该层的神经元，p_j ^l+1代表在l+1层的神经元j的值，可以通过f^l+1(x^l)来计算：

式中的w_ij ^l+1值就是连接l层的神经元x_i和l+1层的神经元j的权重，n则代表在l层的神经元数量；b_j ^l+1代表在l+1层神经元j的偏移量，然后神经元j的值还要输入到一个非线性的激活函数σ中：

在神经网络的隐含层使用非线性激活函数ReLu；

σ_ReLu(x)＝max(0,x)

式中，h_i为最后的完全连接层的输出；

将图像的情感分类概率转换为图像的情感概率分布图，作为图像情感语义信息；

S4、运用迁移网络模型的方法，将识别结果中概率最大的对象类别作为图像对象语义信息；

2.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，所述S1中数据集的准备步骤具体为：选取国际情感图片系统和日内瓦情感图片数据库作为数据集，根据数据集中图像已有的愉悦度和激活度的标注信息，选用情感维度模型，将数据集中图像在VA二维空间模型中按情感分为9类；对不同的类别图像分别进行不同倍数的扩充，使不同的类别的图像在数量上达到一个均衡的状态。

3.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述S2中颜色特征采用全局颜色直方图中最大值所对应的基础颜色即主色调作为颜色特征，一幅图的主色调颜色通过下式获得：

其中，

式中，整幅图图像颜色由N个级别组成，每一种颜色值用q_i，i＝1,2，...，N表示；H(q_i)为每级颜色出现的频率，num(q_i)为颜色q_i的像素值个数，num(total)为图像的像素总数；取颜色统计值最大一组作为整幅图的主色调，然后将三维向量作为图像的颜色特征，记为x₁。

4.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述纹理特征采用环形局部二值模式特征，所述局部二值模式特征通过下式获得：

其中，

将得到的局部二值模式特征连接在有两个卷积层和两个激活层、一个池化层和一个全连接层的网络中，其中卷积层kernel_size＝(3,3)，filters＝32，激活层激活函数为“ReLu”，池化层采用MaxPooling，全连接层的神经元个数为128个，最终将得到的128维向量作为图像的纹理特征，记为x₂。

5.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述深层情感特征采用迁移学习的方法，在ImageNet数据集上预先训练好的VGG19模型中，通过S1中数据集图像输入继续优化网络的训练，截取VGG19网络从输入层到”flatten”层的网络部分，添加神经元随机失活为Dropout＝0.25，然后添加两个全连接层，最后添加”ReLu”激活层，最终训练网络后提取到的特征作为深层情感特征，记为x₃。

6.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述对象特征在训练阶段采用原数据集中标注好的对象标签作为对象特征；在测试阶段采用图像的对象语义信息转换为独热编码，作为图像的对象特征，记为x₄。

7.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于，通过使用SGD优化器来优化网络的权重来实现优化图像情感分类概率损失，所述图像情感分类概率的损失通过下式获得：

式中，y_i为该i张图像的真实标签。

8.根据权利要求1所述的一种基于深层网络的多特征融合的图像高级语义识别方法，其特征在于：所述情感概率超过20％就将该类情感作为最终结果的一部分。