CN108920648B

CN108920648B - 一种基于音乐-图像语义关系的跨模态匹配方法

Info

Publication number: CN108920648B
Application number: CN201810713873.5A
Authority: CN
Inventors: 杨震群; 魏骁勇; 于超; 王泽荣; 张世西; 吕华富
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2021-06-22
Anticipated expiration: 2038-07-03
Also published as: CN108920648A

Abstract

本发明公开一种基于音乐‑图像语义关系的跨模态匹配方法，涉及音乐和图像匹配方法技术领域，包括以下步骤：采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；利用训练集特征训练深度神经网络模型得到跨模关系模型；根据跨模关系模型对待预测图像进行音乐推荐。解决了现有图像音乐匹配关系建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。

Description

一种基于音乐-图像语义关系的跨模态匹配方法

技术领域

本发明涉及音乐和图像匹配方法技术领域，尤其涉及一种基于音乐-图像语义关系的跨模态匹配方法。

背景技术

目前，音乐应用软件，对于音乐的智能推荐多数是根据用户行为数据以及协同过滤方法进行，是一种被动推荐的方式，而对于音乐的主动获取，大多需要输入歌曲相关元信息，如曲名、艺术家或专辑名等。

而基于图像内容进行音乐推荐的方式则可以主动的获取符合实时场景与心情的音乐，能够更能抒发自己内心的情感，例如在旅行的途中，看到震撼人心的自然景色，想给此情此景配上适合的音乐，但是却不知选取怎样的音乐，则可通过图像拍摄，进而进行音乐推荐。上述的推荐过程即音乐与图像的匹配过程，现有的图像和音乐匹配方法主要提取音乐和图像两个模态的传统低层特征，再通过关系模型建立两者的联系，此方法对于音乐和图像的抽象匹配关系来说，存在建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。

发明内容

本发明的目的在于：提供一种基于音乐-图像语义关系的跨模态匹配方法，解决现有图像音乐匹配关系建模效果不佳，推荐的音乐内涵与图像内涵匹配度低的问题。

本发明采用的技术方案如下：

一种基于音乐-图像语义关系的跨模态匹配方法，包括以下步骤：

S1:采集图像和音乐成对数据，并对数据进行特征提取后得到训练集；

S2：利用训练集特征训练深度神经网络模型得到跨模关系模型；

S3:根据跨模关系模型对待预测图像进行音乐推荐。

进一步的，所述步骤S1具体步骤如下：

S101：采集图像数据以及能够表达图像含义的音乐数据；

S102：利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征；

S103：利用AudioSet模型提取音乐数据的音频语义特征；

S104：将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后得到训练集。

进一步的，所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层，每一层神经元的个数是上一层神经元个数的一半，输入层维度为C，输出层维度为M。

进一步的，所述步骤S2具体步骤如下：

S201：将训练集中物体识别语义特征输入到深度神经网络模型1，通过模型前向计算获得预测音频语义特征1；

S202：将训练集中视觉情感语义特征输入到深度神经网络模型2，通过模型前向计算获得预测音频语义特征2；

S203：分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差，通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重；

S204：重复步骤S201～S203，直到深度神经网络模型1和深度神经网络模型2收敛，得到跨模关系模型1和跨模关系模型2。

进一步的，所述步骤S3具体步骤如下：

S301：提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征；

S302：将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征的相似度得分1和相似度得分2；

S303：采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分；

S304：根据平均得分大小对音乐库中音乐进行排序，生成音乐推荐列表。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，采用音乐和图像两个模态的语义特征，通过深度神经网络模型学习两者之间的映射关系，能够实现基于图片的音乐推荐。

2、本发明中，对于图像和音乐分别提取了语义相关的高层次特征，能够更好地表达音乐和图像的语义内涵，从而有助于跨模态关系模型的学习，提高了深度神经网络模型的匹配度。

3、本发明中，对于图像的特征提取方式包括物体识别语义特征提取和视觉情感语义特征两种，能够更好的反应图像的表示含义，更全面地反应图像中物体的语义和情感的内涵。

4、本发明中，通过对深度神经网络模型结构进行合理设计，解决了现有图像音乐匹配关系建模效果不佳的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明深度神经网络模型结构示意图；

图2为本发明图像语义特征的相似度获取流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

具体地，采集一定量的图像数据以及表达图像数据含义的音乐数据，利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征，利用AudioSet模型提取音乐数据的音频语义特征，将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后，得到相应的训练集。

其中，采集的图像数据和音乐数据是一对一的，相同图像数据的物体识别语义特征和视觉情感语义特征对应同一个及音频语义特征。

如图1所示，进一步的，所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层，每一层神经元的个数是上一层神经元个数的一半，输入层维度为C，输出层维度为M。

具体地，将训练集成对的物体识别语义特征和音频语义特征分别输入到深度神经网络模型1的输入层和输出层，同时将训练集成对的视觉情感语义特征和音频语义特征输入到另一个相同的深度神经网络模型2的输入层和输出层，并通过前向计算获得预测音频语义特征1和预测音频语义特征2，然后分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差，通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重，在每层深度神经网络模型1和每层深度神经网络模型2的每层(即一个输入层、3个隐藏层、1个输出层)重复计算误差和更新权重，直到深度神经网络模型1和深度神经网络模型2收敛，得到跨模关系模型1和跨模关系模型2。

S3:根据跨模关系模型对待预测图像进行音乐推荐。

如图2所示，具体地，提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征，并将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征,根据待预测音乐的音频语义特征与音乐库中每首音乐的音频语义特征的相似度得分1和相似度得分2，然后采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分，最后根据平均得分大小对音乐库中音乐进行排序，生成音乐推荐列表。

实施例1

在对一种原创音乐进行自动配图时，首先利用AudioSet模型对原创音乐进行音频语义特征提取，并将音频语义特征输入训练好的的跨模关系模型1或者跨模关系模型2中得到相应的物体识别语义特征和视觉情感语义特征，根据物体识别语义特征和视觉情感语义特征计算与图像库中的相似度大小，并根据相似度大小对图像进行排序，生成图像推荐列表。

其中跨模关系模型1和跨模关系模型2的训练步骤与本发明基本相同，只是音乐的音频语义特征输入到深度神经网络输入层，图像的物体识别语义特征和视觉情感语义特征输入到深度神经网络的输出层。

实施例2

在对视频段落自动搭配合适音乐时，首先提取视频图像的关键帧，将每张关键帧进行特征语义特征和视觉情感语义特征提取，并输入训练好的跨模关系模型1和跨模关系模型2，得到待推荐音乐的音频语义特征，然后计算待推荐音乐的音频语义特征和音乐库中的每首音乐的余弦相似度，最后根据相似度大小对候选音乐进行排序，生成音乐推荐列表。

其中跨模跨模关系模型1和跨模关系模型2的训练步骤与本发明完全相同。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,包括以下步骤：

S2：利用训练集特征训练深度神经网络模型得到跨模关系模型；所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层，每一层神经元的个数是上一层神经元个数的一半，输入层维度为C，输出层维度为M；具体步骤如下：

S201：将训练集中物体识别语义特征输入到深度神经网络模型1，通过深度神经网络模型1前向计算获得预测音频语义特征1；

S202：将训练集中视觉情感语义特征输入到深度神经网络模型2，通过深度神经网络模型2前向计算获得预测音频语义特征2；

S204：重复步骤S201～S203，直到深度神经网络模型1和深度神经网络模型2收敛，得到跨模关系模型1和跨模关系模型2；

S3:根据跨模关系模型对待预测图像进行音乐推荐。

2.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述步骤S1具体步骤如下：

S101：采集图像数据以及能够表达图像内涵的音乐数据；

S103：利用AudioSet模型提取音乐数据的音频语义特征；

3.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法，其特征在于,所述步骤S3具体步骤如下：

S302：将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征1和待预测音乐的音频语义特征2，计算音乐库中每首音乐的音频语义特征与待预测音乐的音频语义特征1和待预测音乐的音频语义特征2的相似度得分1和相似度得分2；