CN108920648B - 一种基于音乐-图像语义关系的跨模态匹配方法 - Google Patents

一种基于音乐-图像语义关系的跨模态匹配方法 Download PDF

Info

Publication number
CN108920648B
CN108920648B CN201810713873.5A CN201810713873A CN108920648B CN 108920648 B CN108920648 B CN 108920648B CN 201810713873 A CN201810713873 A CN 201810713873A CN 108920648 B CN108920648 B CN 108920648B
Authority
CN
China
Prior art keywords
music
semantic features
cross
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810713873.5A
Other languages
English (en)
Other versions
CN108920648A (zh
Inventor
杨震群
魏骁勇
于超
王泽荣
张世西
吕华富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201810713873.5A priority Critical patent/CN108920648B/zh
Publication of CN108920648A publication Critical patent/CN108920648A/zh
Application granted granted Critical
Publication of CN108920648B publication Critical patent/CN108920648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于音乐‑图像语义关系的跨模态匹配方法,涉及音乐和图像匹配方法技术领域,包括以下步骤:采集图像和音乐成对数据,并对数据进行特征提取后得到训练集;利用训练集特征训练深度神经网络模型得到跨模关系模型;根据跨模关系模型对待预测图像进行音乐推荐。解决了现有图像音乐匹配关系建模效果不佳,推荐的音乐内涵与图像内涵匹配度低的问题。

Description

一种基于音乐-图像语义关系的跨模态匹配方法
技术领域
本发明涉及音乐和图像匹配方法技术领域,尤其涉及一种基于音乐-图像语义关系的跨模态匹配方法。
背景技术
目前,音乐应用软件,对于音乐的智能推荐多数是根据用户行为数据以及协同过滤方法进行,是一种被动推荐的方式,而对于音乐的主动获取,大多需要输入歌曲相关元信息,如曲名、艺术家或专辑名等。
而基于图像内容进行音乐推荐的方式则可以主动的获取符合实时场景与心情的音乐,能够更能抒发自己内心的情感,例如在旅行的途中,看到震撼人心的自然景色,想给此情此景配上适合的音乐,但是却不知选取怎样的音乐,则可通过图像拍摄,进而进行音乐推荐。上述的推荐过程即音乐与图像的匹配过程,现有的图像和音乐匹配方法主要提取音乐和图像两个模态的传统低层特征,再通过关系模型建立两者的联系,此方法对于音乐和图像的抽象匹配关系来说,存在建模效果不佳,推荐的音乐内涵与图像内涵匹配度低的问题。
发明内容
本发明的目的在于:提供一种基于音乐-图像语义关系的跨模态匹配方法,解决现有图像音乐匹配关系建模效果不佳,推荐的音乐内涵与图像内涵匹配度低的问题。
本发明采用的技术方案如下:
一种基于音乐-图像语义关系的跨模态匹配方法,包括以下步骤:
S1:采集图像和音乐成对数据,并对数据进行特征提取后得到训练集;
S2:利用训练集特征训练深度神经网络模型得到跨模关系模型;
S3:根据跨模关系模型对待预测图像进行音乐推荐。
进一步的,所述步骤S1具体步骤如下:
S101:采集图像数据以及能够表达图像含义的音乐数据;
S102:利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征;
S103:利用AudioSet模型提取音乐数据的音频语义特征;
S104:将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后得到训练集。
进一步的,所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层,每一层神经元的个数是上一层神经元个数的一半,输入层维度为C,输出层维度为M。
进一步的,所述步骤S2具体步骤如下:
S201:将训练集中物体识别语义特征输入到深度神经网络模型1,通过模型前向计算获得预测音频语义特征1;
S202:将训练集中视觉情感语义特征输入到深度神经网络模型2,通过模型前向计算获得预测音频语义特征2;
S203:分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差,通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重;
S204:重复步骤S201~S203,直到深度神经网络模型1和深度神经网络模型2收敛,得到跨模关系模型1和跨模关系模型2。
进一步的,所述步骤S3具体步骤如下:
S301:提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征;
S302:将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征的相似度得分1和相似度得分2;
S303:采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分;
S304:根据平均得分大小对音乐库中音乐进行排序,生成音乐推荐列表。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,采用音乐和图像两个模态的语义特征,通过深度神经网络模型学习两者之间的映射关系,能够实现基于图片的音乐推荐。
2、本发明中,对于图像和音乐分别提取了语义相关的高层次特征,能够更好地表达音乐和图像的语义内涵,从而有助于跨模态关系模型的学习,提高了深度神经网络模型的匹配度。
3、本发明中,对于图像的特征提取方式包括物体识别语义特征提取和视觉情感语义特征两种,能够更好的反应图像的表示含义,更全面地反应图像中物体的语义和情感的内涵。
4、本发明中,通过对深度神经网络模型结构进行合理设计,解决了现有图像音乐匹配关系建模效果不佳的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明深度神经网络模型结构示意图;
图2为本发明图像语义特征的相似度获取流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
一种基于音乐-图像语义关系的跨模态匹配方法,包括以下步骤:
S1:采集图像和音乐成对数据,并对数据进行特征提取后得到训练集;
具体地,采集一定量的图像数据以及表达图像数据含义的音乐数据,利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征,利用AudioSet模型提取音乐数据的音频语义特征,将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后,得到相应的训练集。
其中,采集的图像数据和音乐数据是一对一的,相同图像数据的物体识别语义特征和视觉情感语义特征对应同一个及音频语义特征。
如图1所示,进一步的,所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层,每一层神经元的个数是上一层神经元个数的一半,输入层维度为C,输出层维度为M。
S2:利用训练集特征训练深度神经网络模型得到跨模关系模型;
具体地,将训练集成对的物体识别语义特征和音频语义特征分别输入到深度神经网络模型1的输入层和输出层,同时将训练集成对的视觉情感语义特征和音频语义特征输入到另一个相同的深度神经网络模型2的输入层和输出层,并通过前向计算获得预测音频语义特征1和预测音频语义特征2,然后分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差,通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重,在每层深度神经网络模型1和每层深度神经网络模型2的每层(即一个输入层、3个隐藏层、1个输出层)重复计算误差和更新权重,直到深度神经网络模型1和深度神经网络模型2收敛,得到跨模关系模型1和跨模关系模型2。
S3:根据跨模关系模型对待预测图像进行音乐推荐。
如图2所示,具体地,提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征,并将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征,根据待预测音乐的音频语义特征与音乐库中每首音乐的音频语义特征的相似度得分1和相似度得分2,然后采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分,最后根据平均得分大小对音乐库中音乐进行排序,生成音乐推荐列表。
实施例1
在对一种原创音乐进行自动配图时,首先利用AudioSet模型对原创音乐进行音频语义特征提取,并将音频语义特征输入训练好的的跨模关系模型1或者跨模关系模型2中得到相应的物体识别语义特征和视觉情感语义特征,根据物体识别语义特征和视觉情感语义特征计算与图像库中的相似度大小,并根据相似度大小对图像进行排序,生成图像推荐列表。
其中跨模关系模型1和跨模关系模型2的训练步骤与本发明基本相同,只是音乐的音频语义特征输入到深度神经网络输入层,图像的物体识别语义特征和视觉情感语义特征输入到深度神经网络的输出层。
实施例2
在对视频段落自动搭配合适音乐时,首先提取视频图像的关键帧,将每张关键帧进行特征语义特征和视觉情感语义特征提取,并输入训练好的跨模关系模型1和跨模关系模型2,得到待推荐音乐的音频语义特征,然后计算待推荐音乐的音频语义特征和音乐库中的每首音乐的余弦相似度,最后根据相似度大小对候选音乐进行排序,生成音乐推荐列表。
其中跨模跨模关系模型1和跨模关系模型2的训练步骤与本发明完全相同。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于音乐-图像语义关系的跨模态匹配方法,其特征在于,包括以下步骤:
S1:采集图像和音乐成对数据,并对数据进行特征提取后得到训练集;
S2:利用训练集特征训练深度神经网络模型得到跨模关系模型;所述深度神经网络模型包括依次设置的1个输入层、3个隐藏层和1个输出层,每一层神经元的个数是上一层神经元个数的一半,输入层维度为C,输出层维度为M;具体步骤如下:
S201:将训练集中物体识别语义特征输入到深度神经网络模型1,通过深度神经网络模型1前向计算获得预测音频语义特征1;
S202:将训练集中视觉情感语义特征输入到深度神经网络模型2,通过深度神经网络模型2前向计算获得预测音频语义特征2;
S203:分别计算预测音频语义特征1和预测音频语义特征2与训练集中的音频语义特征的误差,通过反向传播更新深度神经网络模型1和深度神经网络模型2的权重;
S204:重复步骤S201~S203,直到深度神经网络模型1和深度神经网络模型2收敛,得到跨模关系模型1和跨模关系模型2;
S3:根据跨模关系模型对待预测图像进行音乐推荐。
2.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法,其特征在于,所述步骤S1具体步骤如下:
S101:采集图像数据以及能够表达图像内涵的音乐数据;
S102:利用VGG-16模型和DeepSentiBank模型分别提取图像数据的物体识别语义特征和视觉情感语义特征;
S103:利用AudioSet模型提取音乐数据的音频语义特征;
S104:将物体识别语义特征和视觉情感语义特征以及音频语义特征成对关联后得到训练集。
3.根据权利要求1所述一种基于音乐-图像语义关系的跨模态匹配方法,其特征在于,所述步骤S3具体步骤如下:
S301:提取待预测图像的物体识别语义特征、视觉情感语义特征以及音乐库中每首音乐的音频语义特征;
S302:将物体识别语义特征和视觉情感语义特征分别输入跨模关系模型1和跨模关系模型2得到待预测音乐的音频语义特征1和待预测音乐的音频语义特征2,计算音乐库中每首音乐的音频语义特征与待预测音乐的音频语义特征1和待预测音乐的音频语义特征2的相似度得分1和相似度得分2;
S303:采用加权平均的方法综合相似度得分1和相似度得分2后得到平均得分;
S304:根据平均得分大小对音乐库中音乐进行排序,生成音乐推荐列表。
CN201810713873.5A 2018-07-03 2018-07-03 一种基于音乐-图像语义关系的跨模态匹配方法 Expired - Fee Related CN108920648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810713873.5A CN108920648B (zh) 2018-07-03 2018-07-03 一种基于音乐-图像语义关系的跨模态匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810713873.5A CN108920648B (zh) 2018-07-03 2018-07-03 一种基于音乐-图像语义关系的跨模态匹配方法

Publications (2)

Publication Number Publication Date
CN108920648A CN108920648A (zh) 2018-11-30
CN108920648B true CN108920648B (zh) 2021-06-22

Family

ID=64425149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810713873.5A Expired - Fee Related CN108920648B (zh) 2018-07-03 2018-07-03 一种基于音乐-图像语义关系的跨模态匹配方法

Country Status (1)

Country Link
CN (1) CN108920648B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992677B (zh) * 2019-03-14 2021-07-20 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配系统
CN110188236A (zh) * 2019-04-22 2019-08-30 北京达佳互联信息技术有限公司 一种音乐的推荐方法、装置及系统
CN110209844B (zh) * 2019-05-17 2021-08-31 腾讯音乐娱乐科技(深圳)有限公司 多媒体数据匹配方法、装置和存储介质
CN110278388B (zh) * 2019-06-19 2022-02-22 北京字节跳动网络技术有限公司 展示视频的生成方法、装置、设备及存储介质
EP4198772A4 (en) * 2020-08-31 2023-08-16 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR MAKING A MUSIC RECOMMENDATION
GB2599441B (en) * 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content
CN113094544B (zh) * 2021-03-26 2023-03-24 湖南大学 一种基于dcnn联合特征表示的音乐推荐方法
CN113688621B (zh) * 2021-09-01 2023-04-07 四川大学 一种长短不一的文本在不同粒度下的文本匹配方法及装置
CN114067233B (zh) * 2021-09-26 2023-05-23 四川大学 一种跨模态匹配方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859562A (zh) * 2010-07-01 2010-10-13 无锡骏聿科技有限公司 一种现有图像与卡拉ok旋律实时匹配的方法
CN102256030A (zh) * 2010-05-20 2011-11-23 Tcl集团股份有限公司 可匹配背景音乐的相册演示系统及其背景音乐匹配方法
CN103793447A (zh) * 2012-10-26 2014-05-14 汤晓鸥 音乐与图像间语义相识度的估计方法和估计系统
CN103927366A (zh) * 2014-04-21 2014-07-16 苏州大学 一种根据图片自动播放歌曲的方法及系统
CN104268150A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 一种基于图片内容播放音乐的方法及装置
CN105005777A (zh) * 2015-07-30 2015-10-28 科大讯飞股份有限公司 一种基于人脸的音视频推荐方法及系统
CN105159988A (zh) * 2015-08-28 2015-12-16 广东小天才科技有限公司 一种浏览照片的方法及装置
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN107239482A (zh) * 2017-04-12 2017-10-10 中国科学院光电研究院 一种将图像转换为音乐的处理方法及服务器
CN108037825A (zh) * 2017-12-06 2018-05-15 北京光年无限科技有限公司 一种虚拟偶像技能开启及演绎的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050057578A1 (en) * 2003-09-16 2005-03-17 Shan-Jang Chen Digital photo frame

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256030A (zh) * 2010-05-20 2011-11-23 Tcl集团股份有限公司 可匹配背景音乐的相册演示系统及其背景音乐匹配方法
CN101859562A (zh) * 2010-07-01 2010-10-13 无锡骏聿科技有限公司 一种现有图像与卡拉ok旋律实时匹配的方法
CN103793447A (zh) * 2012-10-26 2014-05-14 汤晓鸥 音乐与图像间语义相识度的估计方法和估计系统
CN103927366A (zh) * 2014-04-21 2014-07-16 苏州大学 一种根据图片自动播放歌曲的方法及系统
CN104268150A (zh) * 2014-08-28 2015-01-07 小米科技有限责任公司 一种基于图片内容播放音乐的方法及装置
CN105005777A (zh) * 2015-07-30 2015-10-28 科大讯飞股份有限公司 一种基于人脸的音视频推荐方法及系统
CN105159988A (zh) * 2015-08-28 2015-12-16 广东小天才科技有限公司 一种浏览照片的方法及装置
CN106202413A (zh) * 2016-07-11 2016-12-07 北京大学深圳研究生院 一种跨媒体检索方法
CN107239482A (zh) * 2017-04-12 2017-10-10 中国科学院光电研究院 一种将图像转换为音乐的处理方法及服务器
CN108037825A (zh) * 2017-12-06 2018-05-15 北京光年无限科技有限公司 一种虚拟偶像技能开启及演绎的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Bridging Music and Image via Cross-Modal Ranking Analysis ";Xixuan Wu 等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20160421;第18卷(第7期);第1305-1318页 *
"基于示例语义的音乐检索模型";秦静 等;《山东大学学报(理学版)》;20170608;第52卷(第6期);第40-48页 *
"视频背景音乐选配的人工神经网络模型";郄子涵 等;《电脑知识与技术》;20170725;第13卷(第21期);第173-180页 *

Also Published As

Publication number Publication date
CN108920648A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
CN108920648B (zh) 一种基于音乐-图像语义关系的跨模态匹配方法
CN110674410B (zh) 用户画像构建、内容推荐方法、装置及设备
CN110704674B (zh) 一种视频播放完整度预测方法及装置
CN106021496A (zh) 视频搜索方法及视频搜索装置
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN111723295B (zh) 一种内容分发方法、装置和存储介质
CN105224581A (zh) 在播放音乐时呈现图片的方法和装置
CN109977382B (zh) 诗句生成模型的训练方法、自动写诗方法及装置
CN109710799B (zh) 语音交互方法、介质、装置和计算设备
CN106302987A (zh) 一种音频推荐方法及设备
CN116542817B (zh) 一种智能数字人律师咨询方法及系统
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN114339450A (zh) 视频评论生成方法、系统、设备及存储介质
WO2023197749A1 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN104766607A (zh) 一种电视节目推荐方法与系统
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
CN109635303B (zh) 特定领域意义改变词的识别方法
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN116958997B (zh) 一种基于异质图神经网络的图文摘要方法及系统
CN115734024A (zh) 音频数据处理方法、装置、设备及存储介质
CN112256864B (zh) 多意图识别的方法、装置、电子设备及可读存储介质
CN111966839A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN116561294A (zh) 手语视频的生成方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210622