CN109992677B

CN109992677B - 基于Valence-Arousal情感空间的图像-音乐匹配系统

Info

Publication number: CN109992677B
Application number: CN201910192297.9A
Authority: CN
Inventors: 刘洪甫; 李灿晨; 邱兆林; 黄怡璠; 季俊涛; 任宇凡; 张克俊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2021-07-20
Anticipated expiration: 2039-03-14
Also published as: CN109992677A

Abstract

本发明公开了一种基于Valence‑Arousal情感空间的图像‑音乐匹配系统，该图像‑音乐匹配系统应用时，实现以下步骤：将电子乐谱文件渲染成Wav音频文件，并基于Wav音频文件提取电子乐谱的音频特征，将该音频特征输入至音乐V‑A值提取模型中，经计算获得电子乐谱V‑A值；提取输入图像的面部表情特征和美学特征，将面部表情特征和美学特征输入至图像V‑A值提取模型经计算，获得图像V‑A值；根据图像V‑A值对电子乐谱V‑A值进行搜索匹配，以与图像V‑A值相对最接近的至多10个电子乐谱V‑A值对应的电子乐谱作为匹配结果并输出。该图像‑音乐匹配系统实现l为不同情感种类的图像匹配相对应的情感类型的音乐。

Description

基于Valence-Arousal情感空间的图像-音乐匹配系统

技术领域

本发明属于图像与音乐匹配邻域，具体涉及一种基于Valence-Arousal情感空间的图像-音乐匹配系统。

背景技术

随着多媒体信息内容的爆炸式增长，图像、音乐、视频在我们的生活中扮演着越来越重要的作用。在计算机视觉领域，以往图像处理的相关工作主要是集中在理解图像的认知层，但如今越来越多的图像、音乐、视频成为大众表达情感的载体，因此对其情感层的研究也越来越重要。音乐情感技术也成为音乐研究领域的热点问题，且日益受到音乐相关行业的重视。

我们希望使用一个统一的情感表示模型作为情感的量化标准。目前，对于情感的量化模型主要分为类别模型和连续空间模型。前者通常将情感归类为不同的类别，相应的类别由相关领域的专家进行主观划分，目前没有较为标准化的归类方法。类别模型的确能够让情感标签更具有解释力，但是，在相应的实践工作中人们往往会发现过少的标签无法详细的表示情感，而过多的标签会对参与标注数据的实验参与者造成过大的标注负担。同时，之前的工作也表明使用标签表示情感而避免这些标签之间的歧义性是十分困难的。使用连续空间模型由于使用了维度特征而不是专门的标签来表示相应的情感，能够在一定程度上避免类别模型可能会出现的问题。由于避免了在对于标签内容分配上的主观性，连续空间模型相对于类别模型来说数量较少，存在一些主流且值得考虑的连续空间模型。其中由Russell提出的Valence-Arousal(愉悦度-唤醒度)模型是最早提出的连续空间模型之一，Valence-Arousal指标是一种经典而常用的情感量化指标。其将情感分为愉悦和唤醒两个维度，分别用于表示情感带给人的快乐程度与令人感到的兴奋程度。通过将情感以正面/负面(愉悦度)和给人的兴奋程度(唤醒度)从而将不同的情感使用数值表示。在学术界，数值的相应区间并没有严格的要求。

Thayer的模型作为Russell提出模型的变体，将愉悦的维度解释为具有活力的唤醒和紧张的唤醒的组合，本质上来说是对二维的情感空间的一种变换。除二维模型之外，Mehrabian和Russell提出了Pleasure-Arousal-Dominance模型，给出了另一个维度用于衡量相应情感给人带来的自由或控制感。然而，在实际的研究中，研究者也发现Arousal和Dominance指标之间存在着较强的相关性，因此，仅使用Pleasure和Arousal指标的模型更为广泛地被采用。

相对于包括图片在内的其他多媒体信息，音乐情感识别目前拥有较多的研究，其中涉及到与之相应的数据集标注工作，特征提取工作以及回归模型选取工作。在数据集构建上，除了让受试者直接标注Valence-Arousal特征，也有给出解释性形容词让受试者选取，再将相应的标签换算为相应维度的数值的做法以及制作相应的游戏，通过多人协作方式进行标注的做法。这些做法在一定程度上让受试者更为容易地理解情感模型，同时多人协作的做法通过共识机制增加了数据集的准确性。从特征上来说，多个粒度的特征被讨论，例如从音频文件出发的声学特征，从电子乐谱文件(midi)出发的旋律特征以及从歌词文本中提取的情感特征等。声学特征可使用openSMILE、PsySound等软件进行提取，从整体上来说，这些特征大体上可分为音色、旋律、音调几大类。相比于声学特征，电子乐谱的特征通常包含关于音乐的更多抽象信息。事实上，相关的实验证实从情感识别的角度看，效应从高到低的排列分别是歌词特征、电子乐谱特征以及声学特征。

申请公布号CN108920648A公开了一种基于音乐-图像语义关系的跨膜态匹配方法，包括以下步骤：采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；利用训练集特征训练深度神经网络模型得到跨模关系模型；根据跨模关系模型对待预测图像进行音乐推荐。该匹配方法主要是基于语义关系进行匹配的，没有考虑图像和音乐表达的情感，导致匹配得到的结果并不是很和谐，带给人的感受不佳。

发明内容

本发明的目的是提供一种基于Valence-Arousal情感空间的图像-音乐匹配系统，该图像-音乐匹配系统能够实现为不同情感种类的图像匹配相对应的情感类型的音乐。

为实现上述发明目的，本发明提供以下技术方案：

一种基于Valence-Arousal情感空间的图像-音乐匹配系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其中，所述计算机存储器中存有图像V-A值提取模型和音乐V-A值提取模型，所述计算机处理器执行所述计算机程序时实现以下步骤：

将电子乐谱文件渲染成Wav音频文件，并基于Wav音频文件提取电子乐谱的音频特征，将该音频特征输入至音乐V-A值提取模型中，经计算获得电子乐谱V-A值；

提取输入图像的面部表情特征和美学特征，将面部表情特征和美学特征输入至图像V-A值提取模型经计算，获得图像V-A值；

根据图像V-A值对电子乐谱V-A值进行搜索匹配，以与图像V-A值相对最接近的至多10个电子乐谱V-A值对应的电子乐谱作为匹配结果并输出。

本发明提供的图像-音乐匹配系统基于Valence-Arousal情感空间进行图像音乐匹配，这样能够为不同风格的图像匹配相应的音乐，提升了匹配结果的和谐性，进而带给用户很安逸和谐地体验效果，且极大地节省了人工寻找背景音乐的时间，可以广泛应用于图像或者视频的自动配乐中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于Valence-Arousal情感空间的图像-音乐匹配系统的流程框架图；

图2是实施例提供的获取电子乐谱V-A值的流程框架图；

图3是实施例提供的获取图像V-A值的流程框架图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了快速给图像匹配得到非常和谐的音乐，本实施例提供了一种基于Valence-Arousal情感空间的图像-音乐匹配系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有图像V-A值提取模型和音乐V-A值提取模型。

本实施例中，电子乐谱V-A值提取模型主要用于提取电子乐谱的情感值，该情感值用V-A值表示，电子乐谱V-A值提取模型是基于网络模型经训练样本训练得到，具体地，如图2所示，所述电子乐谱V-A值提取模型的构建过程为：

首先，构建带有V-A值标注的训练样本集，具体过程为：

选取包含有音频特征和对应的标准情感打分(V-A值)的音频数据集，其中，每首音频的每个小节都会有对应的音频特征和标准V-A值；

将音频数据集中的每首曲子的音频按照一定的时间区间截取成多干段音频；

计算每段音频包含的所有小节对应的标准V-A值的均值，将该均值作为该段音频的标准V-A值，同时计算每段音频包含的所有小节对应的音频特征的均值，每段音频的音频特征与对应的标准V-A值作为一个训练样本，组成训练样本集；

音频中的小节是一个较小的时间划分区间，可以以1秒作为一个小节，也可以以2秒作为一个小节，在此不受限制。

本实施例中，可以选择开源数据集DEAM，此数据集DEAM中包括了超过2000首歌曲的特征以及相应的连续情感打分，考虑到同一首歌曲中不同部分所蕴含的情感有可能具有较大的差异，而在时间上接近的两个段落情感的差异较为细小。为了增大训练数据量的需要，将经过情感打分的歌曲以5秒为时间单位划分为小段，将每一小段的音频特征和情感标注取平均值，获得一个130维向量和2维向量的对应元组。经过处理后，一共获得超过10,000个这样的元组，供之后的相关分析。

然后，利用训练样本训练选取的回归模型，获得音频V-A提取模型，其中，回归模型为MLR(多元线性回归模型)、SVM(支持向量机)、KNN(K最近邻算法)、或NN(神经网络模型)。

经实验验证，MLR具有较好的拟合度，因此可以优选MLR作为最优的回归模型，利用训练样本对此模型进行训练，获得音频V-A提取模型。

图像V-A值提取模型主要用于提取图像的情感值，该情感值用V-A值表示，具体地，如图3所示，所述图像V-A值提取模型的构建过程为：

选择包含有图像面部表情特征、美学特征以及情感标注(V-A值)的图像作为训练样本；

以图像面部表情特征以及美学特征按照一定的权重组成特征向量，利用特征向量和对应的V-A值训练选取的回归模型，获得图像V-A提取模型，其中，回归模型为MLR、SVM、KNN、或NN。

上述图像V-A值提取模型和音乐V-A值提取模型既可以在线下训练完成，然后存储到计算机存储器中，还可以在线上训练得到，当处于线上训练时，每次应用时获得数据可以作为训练样本对图像V-A值提取模型和音乐V-A值提取模型进行实时更新。

在获得上述图像V-A值提取模型和音乐V-A值提取模型的基础上，如图1所示，上述图像-音乐匹配系统在应用时，也就是计算机处理器执行计算机程序时实现以下步骤：

S101，将电子乐谱文件渲染成Wav音频文件，并基于Wav音频文件提取电子乐谱的音频特征，将该音频特征输入至音乐V-A值提取模型中，经计算获得电子乐谱V-A值。

具体地，可以根据设定的乐器种类，采用开源软件FluidSynth将电子乐谱文件渲染成Wav音频文件。这样格式的音乐能够直接呈现给用户，也能够直接被进一步分析音频特征以供更多用途。

本实施例中，为了适应音乐V-A值提取模型，需要从wav音频文件中提取音乐更高层次的音频特征，例如梅尔频率倒谱系数以及短时傅里叶变换强度，能够从更高层次上认识音乐，同时减少特征数量。具体地，可以采用开源软件OpenSMILE提取电子乐谱的音频特征。

本实施中，采用慕尼黑工业大学所开发的开源软件OpenSMILE结合InterSpeech大赛于2013年所给出的配置文件进行特征提取。并移除了产生特征中的标准差而专注于特征的均值，使用此种方法能够从wav音频文件中获得130个，每秒采样2次的特征。

获得的V-A值是一个量化的值，本实施例中，该V-A值的取值范围为[-1,1]。

S102，提取输入图像的面部表情特征和美学特征，将面部表情特征和美学特征输入至图像V-A值提取模型经计算，获得图像V-A值。

本实施例中，可以采用卷积神经网络提取图像的面部表情特征；具体地，选择9层的卷积神经网络来提取面部表情特征，这里采用了kaggle面部表情识别竞赛所使用的fer2013人脸表情数据库。若识别出则保存识别结果，然后在情感属性上分配一定的权重，用于后面的情感映射，如果没有结果则直接进入下一步。

在识别图像的语义特征的同时，还需要提取图像的美学特征，本实施例选取包括图像高维度和低维度理解在内的共8个像素层面的特征，即美学特征包括平衡度，显著度，丰富度，渐变度，纹理，色调，饱和度，亮度。其中，一共有30维的特征向量。这8个美学特征的提取方法具体包括：

平衡度，反应图像像素的分布的匀称性，主要采用G.Loy提出的检测对称特征的方法，提取了图像的镜像平衡和旋转平衡特征作为图像平衡度的考量。

显著度，主要表示图像突出强调的程度，根据X.Sun关于视觉注意力的研究计算图像的关于显著性的特征图及掩值，然后定义R用来表达图像的显著度特征，其中，W、H分别表示图像的宽度和高度，Saliency(x,y)和Mask(x,y)分别代表了像素点(x,y)的显著特征值和掩值。

丰富度，直观反应图像画面的丰富度，通过统计图像内部色彩种类及各色比例作为丰富度特征。

渐变度，表示了图像像素整体的变化程度，是否柔和亦或是突兀，通过计算图像的垂直和水平梯度来表达，根据L.Xu关于相对全变分的研究定义图像的相对梯度RG；

其中，x，y分别代表水平方向和垂直方向，e为常数，D和L在点p处的定义为

q表示在邻域内一点，g_pq表示p，q两点对应的高斯函数值，

表示图像在p点的梯度值。

纹理特征，根据人类对纹理的视觉感知的心理学研究，采用Tamura纹理特征的粗糙度，对比度，方向度三个分量作为衡量指标。

颜色特征，主要包括色调，饱和度，以及亮度三个视觉领域中常见的颜色特征。

S103，根据图像V-A值对电子乐谱V-A值进行搜索匹配，以与图像V-A值相对最接近的至多10个电子乐谱V-A值对应的电子乐谱作为匹配结果并输出。

为了降低搜索匹配的计算开销，将电子乐谱V-A值和图像V-A值进行空间划分，在与根据图像V-A值所在的空间相同的空间，搜索与该图像V-A值相对最接近的至多10个电子乐谱V-A值对应的电子乐谱，作为匹配结果并输出。

除此之外，搜索匹配时，采用最小堆的方式进行匹配，即以图像V-A值所在最小堆内所有的电子乐谱V-A值对应的电子乐谱，作为匹配结果并输出。

上述基于Valence-Arousal情感空间的图像-音乐匹配系统，以图像和音乐的在Valence-Arousal情感空间上的信息作为桥梁，将不同的图像与不同的音乐对应起来，实现图像与音乐的匹配。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Valence-Arousal情感空间的图像-音乐匹配系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有图像V-A值提取模型和音乐V-A值提取模型，所述计算机处理器执行所述计算机程序时实现以下步骤：

根据图像V-A值对电子乐谱V-A值进行搜索匹配，搜索匹配时，将电子乐谱V-A值和图像V-A值进行空间划分，在与根据图像V-A值所在的空间相同的空间，搜索与该图像V-A值相对最接近的至多10个电子乐谱V-A值对应的电子乐谱，作为匹配结果并输出；或采用最小堆的方式进行匹配，即以图像V-A值所在最小堆内所有的电子乐谱V-A值对应的电子乐谱，作为匹配结果并输出；

其中，所述电子乐谱V-A值提取模型的构建过程为：

首先，构建带有V-A值标注的训练样本集，具体过程为：

然后，利用训练样本训练选取的回归模型，获得音频V-A提取模型，其中，回归模型为MLR、SVM、KNN或NN；

其中，所述图像V-A值提取模型的构建过程为：

2.如权利要求1所述的基于Valence-Arousal情感空间的图像-音乐匹配系统，其特征在于，根据设定的乐器种类，采用开源软件FluidSynth将电子乐谱文件渲染成Wav音频文件。

3.如权利要求1所述的基于Valence-Arousal情感空间的图像-音乐匹配系统，其特征在于，采用开源软件OpenSMILE提取电子乐谱的音频特征。

4.如权利要求1所述的基于Valence-Arousal情感空间的图像-音乐匹配系统，其特征在于，所述美学特征包括平衡度，显著度，丰富度，渐变度，纹理，色调，饱和度，亮度，其中：

平衡度，采用G.Loy提出的检测对称特征的方法，提取了图像的镜像平衡和旋转平衡特征作为图像平衡度的考量；

显著度，根据X.Sun关于视觉注意力的研究计算图像的关于显著性的特征图及掩值，然后定义R用来表达图像的显著度特征，其中，W、H分别表示图像的宽度和高度，Saliency(x,y)和Mask(x,y)分别代表了像素点(x,y)的显著特征值和掩值；

丰富度，通过统计图像内部色彩种类及各色比例作为丰富度特征；

渐变度，通过计算图像的垂直和水平梯度来表达；

纹理特征，采用Tamura纹理特征的粗糙度，对比度，方向度三个分量作为衡量指标。