CN103793447A

CN103793447A - 音乐与图像间语义相识度的估计方法和估计系统

Info

Publication number: CN103793447A
Application number: CN201310148164.4A
Authority: CN
Inventors: 汤晓鸥; 吴希宣; 乔宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2012-10-26
Filing date: 2013-04-25
Publication date: 2014-05-14
Anticipated expiration: 2033-04-25
Also published as: CN103793447B

Abstract

一种音乐与图像间语义相识度的估计方法及系统。该方法包括构建一个具有匹配关系音乐与图像对的数据库；从音乐和图像中分别抽取特征表示；根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型；获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计。上述音乐与图像间语义相识度的估计方法和系统，根据特征表示及匹配关系构建音乐和图像间语义相识度的估计模型，通通过估计模型自动计算目标音乐与目标图像之间的语义相识度，能够较为准确的估算音乐与图像间的关系广泛用于音乐配图、图像配乐、根据音乐自动生成MV以及图像音乐联合检索等音乐图像交互领域。

Description

音乐与图像间语义相识度的估计方法和估计系统

技术领域

本发明涉及计算机应用技术，特别是涉及一种音乐与图像间语义相识度的估计方法和估计系统。

背景技术

人们对图像和音乐的感知和理解具有很强的相关性，可根据图像将对应的音乐关联或根据音乐将对应的图像关联。

传统的算法中往往只能对音乐领域或图像领域进行有限的语义识别。例如在图像领域中，语义信息由文本表示。语义信息主要分为三类：1.具体的物体，譬如马、汽车等；2.情景、景象，譬如自然景观、动物园等；3.属性，主要指描述性词汇，譬如高兴、悲伤、人造的、自然的等。最早的识别算法旨在识别出图片中具体的物体，计算机通过计算不同的颜色特征、纹理特征等来识别不同的物体。基于这个基础，还可根据不同词语相关联的图像集之间的距离来定义语义距离，包括同义词、概念相似性、整体部分关系以及并发性关系等。近年来，人们提出一系列新的特征和方法来识别图像中不同的情景，譬如提出有关图像的几何特性，使用降低维度之后的原始图像等。人们也在尝试定义对图像的描述性语义的定义，但这一任务是主观而困难的。通常的方法是人们首先定义出一系列描述性的词汇，其次雇佣人力来对大量图片是否满足某个词汇而进行标定，大部分标定人员一致同意的词汇可被视为真相，针对描述性词汇的识别算法和分类算法与前两类对应的算法类似。

在音乐领域中，语义信息多由描述性词汇构成，包括情绪类（悲伤，激动等）、事件类（聚会，工作等）、风格类（爵士，蓝调等）等。识别音乐的语义的算法包括两个要素：1.音乐特征的采用：目前人们通常采用频谱特征，譬如MFCC（Mel-frequency cepstral coefficient，美尔倒谱系数），底层音乐特征（节奏、主调、音高等）等；2.识别算法，包括GMM（Gaussian Mixture Model，高斯混合模型），HMM（Hidden Markov Model，隐马尔科夫模型）等。

因音乐和图像属于不同的领域，不同领域的特征和语义属性很难公用，且两个非常复杂的空间，它们之间的关系是非线性的，所以两者之间的关系很难被精准的识别出来。

发明内容

基于此，有必要针对目前音乐和图像之间的关系无法精准识别的问题，提供一种音乐与图像间语义相识度的估计方法，能较为准确的识别出音乐与图像间的关系。

此外，还有必要提供一种音乐与图像间语义相识度的估计系统，能较为准确的识别出音乐与图像间的关系。

一种音乐与图像间语义相识度的估计方法，包括以下步骤：

构建一个具有匹配关系音乐与图像对的数据库；

从音乐和图像中分别抽取特征表示；

根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型；

获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计。

一种音乐与图像间语义相识度的估计系统，包括：

构建模块，用于构建一个具有匹配关系音乐与图像对的数据库；

提取模块，用于从音乐和图像中分别抽取特征表示；

模型构建模块，用于根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型；

相识度计算模块，用于获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计。

上述音乐与图像间语义相识度的估计方法和系统，通过从数据库中抽取音乐和图像的特征表示，根据特征表示及匹配关系构建音乐和图像间语义相识度的估计模型，通过估计模型自动计算目标音乐与目标图像之间的语义相识度，能够较为准确的估算音乐与图像间的关系。

附图说明

图1为一个实施例中音乐与图像间语义相识度的估计方法的流程示意图；

图2为一个实施例中预先标定音乐图像对相识度的比较信息的流程示意图；

图3为音乐录像带被提取分割形成音乐段-图像对示意图；

图4A为选取6个人员标定时的标定准确率示意图；

图4B为选取4个人员标定时的标定准确率示意图；

图5为图1中根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型的流程示意图；

图6为获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计的流程示意图；

图7为一个实施例中实施例中音乐与图像间语义相识度的估计系统的结构示意图；

图8为一个实施例中标定模块的内部结构示意图；

图9为模型构建模块的结构示意图；

图10为一个实施例中相识度计算模块的内部结构示意图；

图11A为三种典型相关分析的标定准确率与音乐聚类的数量之间的关系示意图；

图11B为三种典型相关分析的标定准确率与参考对比例之间的关系示意图。

具体实施方式

下面结合具体的实施例及附图对音乐与图像间语义相识度的估计方法和系统的技术方案进行详细的描述，以使其更加清楚。

如图1所示，在一个实施例中，一种音乐与图像间语义相识度的估计方法，包括：

步骤S110，构建一个具有匹配关系音乐与图像对的数据库。

具体的，构建数据库首先需预先标定音乐图像对相识度的比较信息，根据比较信息构建具有匹配关系的音乐与图像对的数据库。其中，预先标定音乐图像对相识度的比较信息是指哪对音乐图像间的相识度比较高。选出相识度最高的音乐与图像，建立匹配关系。故在数据库中存储中良好的匹配关系的音乐与图像对。

步骤S120，从音乐和图像中分别抽取特征表示。

具体的，对数据库中获取具有匹配关系的音乐和图像对后，抽取音乐和图像的特征表示。该音乐的特征表示可为声学特征表示等。从图像中抽取纹理，色彩等底层特征以及场景等高层特征。

步骤S130，根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型。

具体的，通过抽取的音乐和图像对的特征表示及匹配关系进行学习训练，构建音乐和图像间语义相识度的估计模型。

步骤S140，获取目标图像和目标音乐，利用估计模型对目标图像和目标音乐进行语义相识度估计。

具体的，利用建立好的估计模型估算目标图像和目标音乐之间的语义相识度，实现了对任意图像和音乐之间的语义相识度的估算，得到两者之间的关系。如图2所示，在一个实施例中，所述预先标定音乐图像对相识度的比较信息包括步骤：

步骤S210，获取音视频文件，并从所述音视频文件中提取相对应的音乐和不同场景的图像。

本实施例中，音视频文件为音乐录像带。从1500个专业的涵盖不同的类型和曲风的音乐录像带，且这些录像带属于100个音乐人。将音乐录像带的音乐提取出来，并根据频谱信息对音乐进行分段，本实施例中将每个音乐录像带分割成10到30个音乐段，每个音乐段持续5到60秒。然后提取每个音乐段对应的录像带中的不同场景的图像，与其对应的音乐段共同构成音乐段-图像对。最终，针对1500个音乐录像带，获得47888个音乐段-图像对，其中，25531个音乐段-图像对被用于给标定人员进行标定。如图3所示，图中音乐录像带被提取出音乐和视频，音乐被分割成多个音乐段，并提取与音乐段对应的图像，构成音乐段-图像对，图中s表示秒，frame表示帧。

步骤S220，匹配每一帧图像对应的音乐段。

步骤S230，对图像和音乐段的相识度进行标定，得到音乐图像对相识度的比较信息。

具体的，标定时，提供两个音乐段-图像对，一个来自音乐录像带的音乐段-图像对，一个是相同的音乐配上随机选择的图像构成的音乐段-图像对，统计标定人员从两个音乐段-图像对中选出已被合理匹配的音乐段-图像对的数量，然后计算标定正确率，即标定正确的音乐段-图像对的数量除以总的被标定的音乐段-图像对的数量，将其作为比较信息。

本实施例中，选取6个人员作为标定人员对音乐段-图像对的相识度进行标定，其中3个为有音乐背景的人员，3个无音乐背景的人员，统计得到的平均标定正确率达到86.78%，如图4A所示。选取4个没有音乐背景的人员进行再次标定，其中一个音乐段-图像对来自于不熟悉的音乐录像带，另一个音乐段-图像对来自于不熟悉的音乐录像带的歌手性别相同的其他歌手的音乐录像带，统计得到的平均标定正确率也比较高，如图4B所示。

如图5所示，在一个实施例中，上述根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型包括以下步骤：

步骤S310，根据音乐的语义特征对音乐进行聚类得到音乐类。

具体的，对音乐进行聚类包括：从音乐库获取音乐文件及语义标签属性，计算所述语义标签属性的概率，该语义标签属性的概率作为音乐的语义特征，根据该语义标签属性的概率采用归一化分割法对音乐进行聚类。

音乐库可为音乐网站，语义标签属性是采用音乐网站中已有的语义标签，如表1所示。表1中将语义标签分类，将对应的语义标签划分到对应的类别中。

表1

计算语义标签属性的概率采用“Semantic annotation and retrieval of music andsound effects（音乐和声音效果的语义标注和检索）”（D.Turnbull，L.Barrington，D.Torres and G.Lanckriet.IEEE Transaction on Audio，Speech and LanguageProcessing，2008）中记载的计算概率的方法进行计算，并将该语义标签属性的概率作为音乐的语义特征。采用归一化分割（“Normalized cuts and imagesegmentation，Shi，J.and Malik,J.，IEEE Transactions on Pattern Analysis andMachine Intelligence，2000”）对音乐进行聚类，因该归一化分割方法采用输入距离矩阵的方式，所以分割聚类得到音乐类的速度较快。归一化分割方法通过分析音乐样本间的距离矩阵，将音乐样本集合分割为多个子类。如此，音乐被分成了多个类别，如民谣类、古典类等。

音乐类是指一类音乐的集合，例如中国风的音乐类包含所有该风格的音乐。

步骤S320，根据音乐类对相应的图像进行划分和聚类得到图像类。

具体的，采用normalized cut（归一切割）算法将图片相应地分割为与音乐类对应的类别。

步骤S330，从每个类中选取参考音乐和相应的图像构成参考对。

具体的，从每一个类中分别选取至少一个参考音乐和相应的图像构成参考对，参考对的数量可为多个。参考对可采用

表示，R是参考对的数量，c表示音乐类，I为图像，M为音乐。

步骤S340，获取训练数据，并计算所述训练数据与每个音乐类中参考对之间的语义距离。

具体的，训练数据是指从具有匹配关系的音乐图像对数据库中抽样的一些音乐图像数据。从训练数据中任一选取一图像I和音乐M，首先计算该图像I和音乐M与某一音乐类中参考对的语义距离：

s_{c}^{r} (M) = \exp {- \frac{d_{M} {(M, M_{c}^{r})}^{2}}{σ_{M}^{2}}},

然后得到新的特征表示：

x_{c} (I) = [s_{c}^{1} (I), . . ., s_{c}^{R} (I)],

其中，x_c(M)是指图像相对于音乐类c的R个参考对的语义距离参数，y_c(M)是指音乐相对于音乐类c的R个参考对的语义距离参数。通过上述方式图像和音乐都被转为相同的维度，而且每一个维度都相互对应。

进一步的，计算训练数据与每个音乐类中参考对之间的语义距离的步骤包括：采用相对熵计算所述训练数据中音乐与参考对中音乐之间的语义距离；采用预定义的图像的特征与距离之间的对应关系计算所述训练数据中图像与参考对中图像之间的语义距离。相对熵（relative entropy）又称KL散度，两描述两个概率分布P和Q差别的非对称性的度量，用于表征音乐间的距离。预定义的图像的特征与距离之间的对应关系如表2所示。

表2

步骤S350，根据语义距离及预先标定的音乐图像对相识度的比较信息构建典型相关分析模型。

为了构建典型相关分析模型，首先利用传统的典型相关分析获取音乐和图像的相似性：

S_{c}^{CCA} (x, y) = < Ax, By >

（1）

式（1）中，A和B分别为投影矩阵A=[a₁;a₂;...;a_J]，B=[b₁;b₂;...;b_J]，通过传统的典型相关分析的最优化函数

可以得到最优化的投影矩阵A和B。

将预先标定的音乐图像对相识度的比较信息量化为目标函数：

\min_{A, B} \underset{i}{Σ} f (S (x_{i}, y_{i}) - S ({x_{i}}^{'}, {y_{i}}^{'}));

其中，x,y分别代表音乐和图像的特征，f是一个铰链损失函数，即如果S(x_i,y_i)≥S(x_i',y_i')，则f(S(x_i,y_i)-S(x_i',y_i'))＝0，否则f(S(x_i,y_i)-S(x_i',y_i'))＝1-S(x_i,y_i)+S(x_i',y_i')。因此扩充了传统的典型相关分析模型，将音乐与图像间的相似度函数定义为：

S_{c}^{R - CCA} (x_{i} {, y}_{i}) = x_{i}^{T} A^{T} Σ {By}_{i}

（2）

通过设定Σ的格式，可得到不同的新的目标函数，将Σ设为对角阵，因为经过之前的典型相关分析，得到的映射后的特征Ax和By的每一维都相对独立，Σ＝diag(w₁,w₂,...,w_J)。设

z_{i}^{j} = a_{j} x_{i} b_{j} y_{i},

z_{i} = [z_{i}^{1}, z_{i}^{2}, . . ., z_{i}^{J}],

z_{i}^{j'} = a_{j} {x_{i}}^{'} b_{j} {y_{i}}^{'},

则音乐与图像间的相似度函数转为：

S_{c}^{R - CCA} (x_{i}, y_{i}) = \underset{j}{Σ} w_{j} a_{j} x_{i} b_{j} y_{i} = W^{T} z_{i}

（3）

为此，目标函数可写为：

\min_{A, B} \underset{i}{Σ} f (S (x_{i}, y_{i}) - S ({x_{i}}^{'}, {y_{i}}^{'}))

= \underset{i}{Σ} f (W^{T} z_{i} - W^{T} {z_{i}}^{'})

（4）

式（4）中的目标函数可以直接用有序支持向量机（ordinal SVM）直接优化，优化可转成：

s.t.；ξ_i≥0；

然后通过拉格朗日乘子求解W^T、z_i。根据求解得到的参数构建典型相关分析模型。该典型相关分析模型可为就近排序典型相关分析模型或多排序典型相关分析模型。

如图6所示，在一个实施例中，获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计的步骤包括：

步骤S410，选取一部分具有匹配关系的音乐和图像对作为参考数据。

步骤S420，分别计算目标音乐和目标图像的特征。

步骤S430，利用音乐特征计算目标音乐与各参考音乐之间的距离作为新特征。

步骤S440，利用图像特征计算目标图像与各参考图像之间的距离作为新特征。

步骤S450，通过对参考距离特征进行相关分析或典型相关分析，得到目标音乐与目标图像间的相识度估计函数。

具体的，获取目标音乐与目标图像，通过该典型相关分析模型计算得到所述目标音乐和目标图像的语义距离，将该目标音乐和目标图像的语义距离作为所述目标音乐与目标图像间语义相识度。

当典型相关分析模型为就近排序典型相关分析模型时，计算目标音乐x和目标图像y间的语义距离时，选择目标音乐离的最近的音乐类的语义距离作为所述目标音乐和目标图像的语义距离：

S (x, y) = S_{c^{*}} (x, y)

（5）

式（5）中，S（x,y)是目标音乐与目标图像的语义距离，

（x,y)是目标音乐离的最近的音乐类的语义距离。

该最近的音乐类的语义距离即为目标音乐和目标图像间的相识度估计函数。

当典型相关分析模型为就近排序典型相关分析模型时，计算目标音乐x和目标图像y间的语义距离时，通过加权处理得到语义距离，即计算每个音乐类与目标音乐的语义距离，并进行语义距离的加权处理，将加权所得的语义距离作为目标音乐和目标图像的语义距离：

S (x, y) = Σ_{c = 1}^{C} \frac{\exp ({- d}_{c} / σ^{2})}{Σ_{j = 1}^{C} ({- d}_{j} / σ^{2})} S_{c} (x, y)

（6）

式（6）中，S_c(x,y)表示在音乐类c中音乐x和图像y之间的距离，d_c表示在音乐类c中的距离，σ表示标准差。

由式（6）可知，获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计包括：由各类相识度估计函数加权获得目标音乐与图像间的相识度估计函数。

如图7所示，在一个实施例中，一种音乐与图像间语义相识度的估计系统，包括构建模块110、提取模块120、模型构建模块130和相识度计算模块140。

其中：

构建模块110用于构建一个具有匹配关系音乐与图像对的数据库。具体的，构建数据库首先需预先标定音乐图像对相识度的比较信息，根据比较信息构建具有匹配关系的音乐与图像对的数据库。其中，预先标定音乐图像对相识度的比较信息是指哪对音乐图像间的相识度比较高。选出相识度最高的音乐与图像，建立匹配关系。故在数据库中存储中良好的匹配关系的音乐与图像对。

提取模块120用于从音乐和图像中分别抽取特征表示。具体的，对数据库中获取具有匹配关系的音乐和图像对后，抽取音乐和图像的特征表示。该音乐的特征表示可为声学特征表示等。从图像中抽取纹理，色彩等底层特征以及场景等高层特征。

模型构建模块130用于根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型。具体的，通过抽取的音乐和图像对的特征表示及匹配关系进行学习训练，构建音乐和图像间语义相识度的估计模型。

相识度计算模块140用于获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计。具体的，利用建立好的估计模型估算目标图像和目标音乐之间的语义相识度，实现了对任意图像和音乐之间的语义相识度的估算，得到两者之间的关系。

在一个实施例中，如图8所示，构建模块110包括标定模块210，用于预先标定音乐图像对相识度的比较信息。具体的，让标定人员对数据中音乐图像对间的语义相识度进行比较和评价，以获取人认可的音乐图像对，得到音乐图像对相识度的比较信息。

标定模块210包括提取单元212、匹配单元214和标定单元216。其中：

提取单元212用于获取音视频文件，并从所述音视频文件中提取相对应的音乐和不同场景的图像。本实施例中，音视频文件为音乐录像带。从1500个专业的涵盖不同的类型和曲风的音乐录像带，且这些录像带属于100个音乐人。将音乐录像带的音乐提取出来，并根据频谱信息对音乐进行分段，本实施例中将每个音乐录像带分割成10到30个音乐段，每个音乐段持续5到60秒。然后提取每个音乐段对应的录像带中的不同场景的图像，与其对应的音乐段共同构成音乐段-图像对。最终，针对1500个音乐录像带，获得47888个音乐段-图像对，其中，25531个音乐段-图像对被用于给标定人员进行标定。如图3所示，图中音乐录像带被提取出音乐和视频，音乐被分割成多个音乐段，并提取与音乐段对应的图像，构成音乐段-图像对。

匹配单元214用于匹配每一帧图像对应的音乐段。

标定单元216用于对图像和音乐段的相识度进行标定，得到音乐图像对相识度的比较信息。

在一个实施例中，如图9所示，模型构建模块130包括聚类模块312、参考对选取模块314、获取模块316和相关分析模型构建模块318。其中：

聚类模块312用于根据音乐的语义特征对音乐进行聚类得到音乐类，以及根据音乐类对相应的图像进行划分和聚类得到图像类。

对音乐进行聚类包括：从音乐库获取音乐文件及语义标签属性，计算所述语义标签属性的概率，该语义标签属性的概率作为音乐的语义特征，根据该语义标签属性的概率采用归一化分割法对音乐进行聚类。

其中，音乐库可为音乐网站，语义标签属性是采用音乐网站中已有的语义标签，如表1所示。表1中将语义标签分类，将对应的语义标签划分到对应的类别中。

计算语义标签属性的概率采用“Semantic annotation and retrieval of music andsound effects（音乐和声音效果的语义标注和检索）”（D.Turnbull，L.Barrington，D.Torres and G.Lanckriet.IEEE Transaction on Audio，Speech and LanguageProcessing，2008）中记载的计算概率的方法进行计算，并将该语义标签属性的概率作为音乐的语义特征。采用归一化分割（“Normalized cuts and imagesegmentation，Shi，J.and Malik,J.，IEEE Transactions on Pattern Analysis andMachine Intelligence，2000”）对音乐进行聚类，因该归一化分割方法采用输入距离矩阵的方式，所以分割聚类得到音乐类的速度较快。如此，音乐被分成了多个类别，如民谣类、古典类等。

此外，采用normalized cut（归一切割）算法将图片相应地分割为与音乐类对应的类别。

参考对选取模块314用于从每个类中选取参考音乐和相应的图像构成参考对。

具体的，从每一个音乐类中分别选取至少一个参考音乐和相应的图像构成参考对，参考对的数量可为多个。参考对可采用

表示，R是参考对的数量，c表示音乐类，I为图像，M为音乐。

获取模块316用于获取训练数据，并计算所述训练数据与每个音乐类中参考对之间的语义距离。

具体的，训练数据是指从音乐库中抽样的一些音乐图像数据。从训练数据中任一选取一图像I和音乐M，首先计算该图像I和音乐M与某一音乐类中参考对的语义距离：

s_{c}^{r} (I) = \exp {- \frac{d_{I} {(I, I_{c}^{r})}^{2}}{σ_{I}^{2}}},

s_{c}^{r} (M) = \exp {- \frac{d_{M} {(M, M_{c}^{r})}^{2}}{σ_{M}^{2}}},

然后得到新的特征表示：

x_{c} (I) = [s_{c}^{1} (I), . . ., s_{c}^{R} (I)],

x_{y} (M) = [s_{c}^{1} (M), . . ., s_{c}^{R} (M)],

获取模块314采用相对熵计算所述训练数据中音乐与参考对中音乐之间的语义距离；采用预定义的图像的特征与距离之间的对应关系计算所述训练数据中图像与参考对中图像之间的语义距离。

预定义的图像的特征与距离之间的对应关系如表2所示。

相关分析模型构建模块318用于根据所述语义距离及预先标定的音乐图像对相识度的比较信息构建典型相关分析模型。

S_{c}^{CCA} (x, y) = < Ax, By >

（1）

式（1）中，A和B分别为投影矩阵A=[a₁;a₂;...;a_J]，B=[b₁;b₂;...;b_J]，通过传统的典型相关分析的最优化函数可以得到最优化的投影矩阵A和B。

\min_{A, B} \underset{i}{Σ} f (S (x_{i}, y_{i}) - S ({x_{i}}^{'}, {y_{i}}^{'}));

其中，f是一个铰链损失函数，即如果S(x_i,y_i)≥S(x_i',y_i')，则f(S(x_i,y_i)-S(x_i',y_i'))＝0，否则f(S(x_i,y_i)-S(x_i',y_i'))＝1-S(x_i,y_i)+S(x_i',y_i')。因此扩充了传统的典型相关分析模型，将音乐与图像间的相似度函数定义为：

S_{c}^{R - CCA} (x_{i} {, y}_{i}) = x_{i}^{T} A^{T} Σ {By}_{i}

（2）

z_{i}^{j} = a_{j} x_{i} b_{j} y_{i},

z_{i} = [z_{i}^{1}, z_{i}^{2}, . . ., z_{i}^{J}],

z_{i}^{j'} = a_{j} {x_{i}}^{'} b_{j} {y_{i}}^{'},

则音乐与图像间的相似度函数转为：

S_{c}^{R - CCA} (x_{i}, y_{i}) = \underset{j}{Σ} w_{j} a_{j} x_{i} b_{j} y_{i} = W^{T} z_{i}

（3）

为此，目标函数可写为：

\min_{A, B} \underset{i}{Σ} f (S (x_{i}, y_{i}) - S ({x_{i}}^{'}, {y_{i}}^{'}))

= \underset{i}{Σ} f (W^{T} z_{i} - W^{T} {z_{i}}^{'})

（4）

s.t.；ξ_i≥0；

相识度计算模块140用于获取目标音乐与目标图像，通过所述典型相关分析模型计算得到所述目标音乐和目标图像的语义距离，将所述目标音乐和目标图像的语义距离作为所述目标音乐与目标图像间语义相识度。

如图10所示，相识度计算模块140包括选取模块412、特征计算模块414、参考距离特征获取模块416和估计模块418。其中：

选取模块412用于选取一部分具有匹配关系的音乐和图像对作为参考数据。

特征计算模块414用于分别计算目标音乐和目标图像的特征。

参考距离特征获取模块416用于利用音乐特征计算目标音乐与各参考音乐之间的距离作为新特征，以及利用图像特征计算目标图像与各参考图像之间的距离作为新特征。

估计模块418用于通过对参考距离特征进行相关分析或典型相关分析，得到目标音乐与目标图像间的相识度估计函数。

S (x, y) = S_{c^{*}} (x, y)

（5）

式（5）中，S（x,y)是目标音乐与目标图像的语义距离，

（x,y)是目标音乐离的最近的音乐类的语义距离。

S (x, y) = Σ_{c = 1}^{C} \frac{\exp ({- d}_{c} / σ^{2})}{Σ_{j = 1}^{C} ({- d}_{j} / σ^{2})} S_{c} (x, y)

（6）

由式（6）可知，相识度计算模块140由各类相识度估计函数加权获得目标音乐与图像间的相识度估计函数。

上述音乐与图像间语义相识度的估计方法和系统，通过从数据库中抽取音乐和图像的特征表示，根据特征表示及匹配关系构建音乐和图像间语义相识度的估计模型，通过估计模型自动计算目标音乐与目标图像之间的语义距离，能够较为准确的估算音乐与图像间的关系。

此外，分别从图像和音乐中抽取语义特征，然后利用机器学习的方法，从一组匹配好的音乐和图像对中，学习两者语义相识度的估计函数的语义距离，将所述目标音乐和目标图像的语义距离作为所述目标音乐与目标图像间语义相识度，采用语义距离衡量语义相识度较为方便。

上述音乐与图像间语义相识度的估计方法和系统，创造性地提出图像与音乐之间的联系特征——预参考样本间距离特征，并据此构建典型音乐与图像相识度估计模型，其能自动计算目标音乐与目标图像之间的语义距离，据此得出目标音乐与目标图像间的相识度，显著有效的提高了音乐与图像之间的相识度检索准确率，为音乐与图像间的交互应用提供一种切实可行的方法与应用系统。所述系统能广泛用于音乐配图、图像配乐、根据音乐自动生成MV以及图像音乐联合检索等音乐图像交互领域。

上述音乐与图像间语义相识度的估计方法和系统自动计算音乐和图像之间的语义相识度，为了验证方法的可靠性，实施了两个实验：第一个实验先用了一部分标定人员比较过认可的音乐段-图像对进行训练，得到新模型的系数，其次用电脑计算了剩余的标定人员比较过的所有音乐段-图像对，对比得到电脑的准确率；第二个实验直接选用了未经过标定人员认可过的音乐段-图像对进行训练。设定的参数包括音乐聚类的个数，以及随机选择的参考对数量相对于该音乐类总的音乐数量的比例。图11A为标定准确率与音乐聚类个数之间的关系示意图；图11B为标定准确率与参考对比例之间的关系示意图。图11A和图11B中，MR-CCA为多排序典型相关分析，CR-CCA为就近排序典型相关分析，C-CCA为典型相关分析。

通过图11A和图11B可以看出通过标定人员已标定的音乐段-图像对进行训练，最终的电脑准确率最高，加权语义距离在实验中准确性超过了就近语义距离的准确性，而引入比较信息相较于普通的典型相关分析会提高电脑准确率。以普通的典型相关分析得到的电脑准确率为基线，新的模型提高了电脑的准确率4到5个百分点。也对不同的参数进行了比较实验。固定参考对的选择比例，音乐类的聚类数量越多，算法的准确率越高；固定音乐聚类的数量，最高的算法准确率发生在比例为1/8左右。比较了引入聚类和不引入聚类对于性能的差别，对比结果如表3所示。通过聚类和参考对选择，算法的耗时大大减少，降低了94.66%。

表3

参考对类型	电脑的准确率（一致率）	耗时（秒）
			局部参考对选择	80.35%	46.3999s
全局参考对选择	79.24%	869.2618s

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种音乐与图像间语义相识度的估计方法，包括以下步骤：

构建一个具有匹配关系音乐与图像对的数据库；

从音乐和图像中分别抽取特征表示；

2.根据权利要求1所述的音乐与图像间语义相识度的估计方法，其特征在于，所述构建一个具有匹配关系音乐与图像对的数据库包括步骤：

预先标定音乐图像对相识度的比较信息，包括步骤：

获取音视频文件，并从所述音视频文件中提取相对应的音乐和不同场景的图像；

匹配每一帧图像对应的音乐段；

对图像和音乐段的相识度进行标定，得到音乐图像对相识度的比较信息。

3.根据权利要求1所述的音乐与图像间语义相识度的估计方法，其特征在于，所述获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计的步骤包括：

选取一部分具有匹配关系的音乐和图像对作为参考数据；

分别计算目标音乐和目标图像的特征；

利用音乐特征计算目标音乐与各参考音乐之间的距离作为新特征；

利用图像特征计算目标图像与各参考图像之间的距离作为新特征；

通过对参考距离特征进行相关分析或典型相关分析，得到目标音乐与目标图像间的相识度估计函数。

4.根据权利要求1所述的音乐与图像间语义相识度的估计方法，其特征在于，所述根据所述特征表示和匹配关系，利用机器学习的方法，建立音乐与图像间语义相识度的估计模型的步骤包括：

根据音乐的语义特征对音乐进行聚类得到音乐类；

根据音乐类对相应的图像进行划分和聚类得到图像类；

从每个类中选取参考音乐和相应的图像构成参考对；

计算训练数据与每个类中参考对之间的语义距离；

根据所述语义距离及预先标定的音乐图像对相识度的比较信息构建典型相关分析模型；

所述根据音乐的语义特征对音乐进行聚类的步骤包括：

从音乐库获取音乐文件及语义标签属性，计算所述语义标签属性的概率，所述语义标签属性的概率作为音乐的语义特征，根据所述语义标签属性的概率采用归一化分割法对音乐进行聚类。

5.根据权利要求4所述的音乐与图像间语义相识度的估计方法，其特征在于，所述获取目标图像和目标音乐，利用所述估计模型对目标图像和目标音乐进行语义相识度估计包括：

由各类相识度估计函数加权获得目标音乐与图像间的相识度估计函数。

6.一种音乐与图像间语义相识度的估计系统，其特征在于，包括：

提取模块，用于从音乐和图像中分别抽取特征表示；

7.根据权利要求6所述的音乐与图像间语义相识度的估计系统，其特征在于，所述构建模块包括：

标定模块，用于预先标定音乐图像对相识度的比较信息，包括步骤：

提取单元，用于获取音视频文件，并从所述音视频文件中提取相对应的音乐和不同场景的图像；

匹配单元，用于匹配每一帧图像对应的音乐段；

标定单元，用于对图像和音乐段的相识度进行标定，得到音乐图像对相识度的比较信息。

8.根据权利要求6所述的音乐与图像间语义相识度的估计系统，其特征在于，所述相识度计算模块包括：

选取模块，用于选取一部分具有匹配关系的音乐和图像对作为参考数据；

特征计算模块，用于分别计算目标音乐和目标图像的特征；

参考距离特征获取模块，用于利用音乐特征计算目标音乐与各参考音乐之间的距离作为新特征，以及利用图像特征计算目标图像与各参考图像之间的距离作为新特征；

估计模块，用于通过对参考距离特征进行相关分析或典型相关分析，得到目标音乐与目标图像间的相识度估计函数。

9.根据权利要求6所述的音乐与图像间语义相识度的估计系统，其特征在于，所述模型构建模块包括：

聚类模块，用于根据音乐的语义特征对音乐进行聚类得到音乐类，以及根据音乐类对相应的图像进行划分和聚类得到图像类；

参考对选取模块，用于从每个类中选取参考音乐和相应的图像构成参考对；

获取模块，用于计算训练数据与每个类中参考对之间的语义距离；

相关分析模型构建模块，用于根据所述语义距离及预先标定的音乐图像对相识度的比较信息构建典型相关分析模型；

所述聚类模块还用于从音乐库获取音乐文件及语义标签属性，计算所述语义标签属性的概率，所述语义标签属性的概率作为音乐的语义特征，根据所述语义标签属性的概率采用归一化分割法对音乐进行聚类。

10.根据权利要求9所述的音乐与图像间语义相识度的估计系统，其特征在于，所述相识度计算模块还用于由各类相识度估计函数加权获得目标音乐与图像间的相识度估计函数。