CN111460213A - 一种基于多模态学习的音乐情感分类方法 - Google Patents

一种基于多模态学习的音乐情感分类方法 Download PDF

Info

Publication number
CN111460213A
CN111460213A CN202010199527.7A CN202010199527A CN111460213A CN 111460213 A CN111460213 A CN 111460213A CN 202010199527 A CN202010199527 A CN 202010199527A CN 111460213 A CN111460213 A CN 111460213A
Authority
CN
China
Prior art keywords
learning
music
model
data
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010199527.7A
Other languages
English (en)
Other versions
CN111460213B (zh
Inventor
李晓双
韩立新
李景仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010199527.7A priority Critical patent/CN111460213B/zh
Publication of CN111460213A publication Critical patent/CN111460213A/zh
Application granted granted Critical
Publication of CN111460213B publication Critical patent/CN111460213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多模态学习的音乐情感分类方法,包含以下步骤:数据预处理,根据所需模态信息对音乐的音频、歌词、评论分别进行预处理来获取模型的有效输入;表示学习,将每个模态使用不同的建模方式分别映射到各自的表示空间;特征提取,提取不同模态的模型映射后的特征向量,并降维至同一维度;多模态融合,将三种不同模态的特征进行级联早融合,从而建立更全面的特征表示;情感分类决策,使用融合后的特征对音乐进行有监督的情感分类。本发明的音乐情感分类方法,提供了一种基于多模态联合学习的方法,可以有效的减少目前主流的单模态模型方法存在噪声或数据缺失的不足,增加音乐情感分类的准确性和稳定性。

Description

一种基于多模态学习的音乐情感分类方法
技术领域
本发明涉及情感识别领域和多模态学习领域,具体涉及一种基于多模态学习的音乐情感分类方法。
背景技术
情感识别领域中广泛使用的情感特征有基于语句的全局统计特征和基于语音的时序特征,但这两类基于不同时长的情感特征均不能有效的表达情感问题。目前研究最多的是将声学特征作为辅助语义信息进行语音情感识别,将蕴含在语音中的情感信息提取出来并识别其类别。常用的语音特征的提取方式有:基频特征提取、共振峰特征提取、Mel频率倒谱系数(MFCC)提取、基于导数的非个性语音情感特征提取和基于Teager能量算子非线性特征提取等,然后利用传统的机器学习方法对提取到的特征进行有监督学习从而实现语音的情感分类。然而,对于音乐特征来说,歌曲的音频中常掺杂其他乐器产生的噪声或在传播过程中添加的噪声,会对传统的特征数据的提取造成很大的困扰,导致模型的精确度不高。
单模态的学习负责将信息表示为计算机可以处理的数值向量或进一步抽象为更高层次的特征向量。而多模态学习能够处理和关联多种模态信息,是一种联合学习的方式,通过利用多模态之间的互补性,剔除模态间的冗余和单模态存在的噪声,从而学习到更好的特征表示。
随着互联网技术的发展和数据存储技术的进步,音乐资源呈几何式增长,出现了信息过载的问题,但传统的音乐标签(如流派、演唱者、年份等)缺乏开放性,且忽略了音乐本身的特征,有很大的完善空间。而且情感是音乐表达中十分重要的特征之一。将多模态学习引入到情感识别中,在一定程度上减少了单模态噪声所带来的影响,同时可以利用丰富模态的信息来辅助稀缺模态的信息从而建立完善的模型表示。
针对音乐标签缺乏开放性这一弊端以及多模态学习对情感识别的优势,有必要设计一种基于多模态学习的方法来提取音乐本身的情感特征,提高情感识别的准确性,并在一定程度上完善音乐的属性。
发明内容
发明目的:本发明的目的是为音乐添加情感类别标签,为检索或推荐提供基础的数据支持,并克服了现有技术的不足,提出一种基于多模态学习的音乐情感分类方法,通过模态互补,消除了歧义和不确定性。
技术方案:为实现本发明的目的,本发明所采用的技术方案是:一种基于多模态学习的音乐情感分类方法,包括以下步骤:
S1、数据预处理,对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理,依据情感类别构建数据集;所述情感类别包括怀旧、伤感、治愈、放松、孤独、感动、快乐、思念;
S2、表示学习,构建三种模态的表示学习网络模型,将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;
S3、特征提取,通过步骤S2训练后的网络模型分别提取对应模态的特征向量,并降维到K维向量,分别得到三种模态的K维特征向量;
从音乐本身的内容出发,挖掘与音乐关联的不同模态的深层特征,保证特征的全面有效,本发明分别从三个模态建立的网络模型中提取最深层次的表示向量作为每个模态的特征向量,并通过降维操作,使其整合到同一维度,从而提取到更加全面的特征表示;
S4、多模态融合,对步骤S3提取的三类K维特征向量,通过融合模型进行多模态级联融合,建立全面情感特征表示;
单模态的数据容易掺杂一些噪声,会对最终结果产生较大的影响,而且某些音乐会缺失部分模态的信息,因此模态融合通过互补、消除歧义和不确定性,也在一定程度上避免了单一模态数据存在噪声或稀疏的问题;本发明通过决策前对不同模态的特征向量进行级联融合从而得到更全面的特征表示,直接利用提取到的模态特征向量,对多种模态的特征进行融合处理,从而提高模型的分类准确率;
S5、情感分类决策,利用Softmax函数作为分类器对融合后的K维特征进行音乐情感分类的训练,最终生成情感分类器,用于对未分类的歌曲添加情感标签。
进一步地,所述步骤S1,预处理过程如下:
对音频数据以44100赫兹的采样频率将每首歌切分为若干段t秒的音频,通过离散傅里叶变换将其转化为频域信息,保存为语谱图;对歌词数据利用结巴分词进行章、节、词的划分;对用户评论进行过滤清洗,将其序列化并统一长度。
进一步地,所述步骤S2,表示学习具体为:
对音频数据转化后的语谱图利用深度残差网络(ResNet)建立音频-语谱图识别模型;对歌词数据利用双向长短时期记忆网络(BiLSTM)建立歌词-主题模型;对评论数据利用向量空间模型(VSM)建立评论-词向量模型;分别得到不同模态下音乐数据的特征表示。
进一步地,所述步骤S4,融合模型通过增加线性依赖项
Figure BDA0002418872130000021
来实现多模态融合,具体特征融合过程表示为:
Z→Wj
Figure BDA0002418872130000022
其中Z表示一个未知样本,其归属于第j个模式类Wj,该类为在已知条件F(Wj)下后验概率最大的模式类;其后验概率表示为:
Figure BDA0002418872130000031
Figure BDA0002418872130000032
其中xij代表样本的Ni维特征向量的第j个维度,i∈[1,M],j∈[1,N],M是设定的分类器个数,N为样本特征总体维度;
Figure BDA0002418872130000033
表示第i个分类器的依赖权重,
Figure BDA0002418872130000034
是一个极小值;P(wk|xin)表示第k类的后验概率。
有益效果:与现有技术相比,本发明的技术方案具有以下有益的技术效果:
1)本发明利用三个模态的信息数据分别建立模型,从音乐内容本身出发,分类标准统一且具有一定的开放性。
2)本发明通过离散傅里叶变换将音频转换为频域,让数据有了简单紧凑的表示形式,并采用更低的压缩率,保证使用所需的全部音频信息。
3)本发明根据歌词和评论等文本信息特点,选择不同的文本建模方式。对歌词数据更加注重上下文,对评论更加偏重词频倾向,有效的提取文本情感特征。
4)本发明采用特征级联早融合将同样K维的音频特征向量、歌词主题向量和评论倾向向量以串联的方式结合处理后作为音乐的整体特征,后续处理不需要对三类模态信息分别进行训练,大幅提高了操作的效率。
5)本发明将不同模态相互融合作为最后的整体特征,降低了单一模态缺失所带来的影响,在一定程度上提高了模型的鲁棒性。同时多模态信息相互补充,深入挖掘了对不同主题的多角度的情感集合,大幅度提高了音乐情感分类的准确性。
附图说明
图1是本发明实施例的算法流程图;
图2是本发明实施例的示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
本发明所述的一种基于多模态学习的音乐情感分类方法,参见图1,该图中给出了本发明实施例的算法流程,图2是本发明示意图,具体包括以下步骤:
S101、音频预处理:将音频数据由MP3格式转为WAV格式,以44100赫兹的采样频率将每首歌切分为5s一段的音频;对处理后的音频片段利用离散傅里叶变换法将音频信息转化为频域信息,为每首歌保存语谱图,并选取中间的6个片段(30s)作为每首音乐的代表,同时利用香农定理将频率重建到22050赫兹(每像素20毫秒),保证使用全部的音频信息;奈奎斯特-香农采样定理具体公式:
Figure BDA0002418872130000041
其中γ表示采样速率,π/T表示奈奎斯特采样速率,f(t)表示输出的信号,f(kγ)表示输入的连续信号,k为常数因子,x为原信号的最高频率。
S102、歌词预处理:对歌词数据利用结巴分词进行章、节、词的划分,并去除出现频率低于一定值的词和停用词,构建词汇-索引表示。
S103、评论预处理:对用户评论进行过滤清洗,将其序列化并统一长度。
S104、音频-语谱图识别建模:将S101生成的音频语谱图输入到101层的深度残差网络(ResNet101)模型中训练学习。
S105、歌词-主题模型建模:对处理后的词汇-索引映射表经过word2vec预处理后输入到双向长短时期记忆网络(Bi-LSTM)模型中进行训练学习。
S106、评论-词向量建模:将序列化的评论数据结构对应到词语的词向量,利用向量空间模型(VSM)将评论词向量表示成高维空间中的向量,每个词用100维向量表示,建立文本词向量模型。VSM重点在于计算词频-逆文档频率(TF-IDF),TF-IDF公式如下:
Figure BDA0002418872130000042
其中Ni,j表示特征词ti出现在文档dj中次数,N*j表示文档dj中所有词的个数,D表示文档总数,Di表示所有包含特征词ti的文档数。
S107、音频特征向量提取:利用S104中训练好的ResNet101网络提取图片的深层特征,将最后一层的全局平均池化向量作为音乐音频的表示向量,从而提取音频的1*K维的特征向量。
S108、文档主题向量提取:利用Bi-LSTM模型中最后一个时序的输出向量作为歌曲歌词的特征向量,从而提取歌词的1*K维特征向量。
S109、文本向量提取并降维:对于音频处理模型和歌词处理模型,可直接提取1*K维向量特征,但每首歌曲的评论中可能出现数量多于K个特征词,还需对评论信息进行降维,将每首歌的文本词向量利用LDA模型进行降维操作,最终将每首歌的文本词向量维度降至K维。LDA主题模型的公式如下:
Figure BDA0002418872130000043
Figure BDA0002418872130000051
其中p(zm|α)表示βm的后验分布,βm表示第m篇文档的主题分布,α是Dirichlet分布先验参数,Δ(α)为归一化因子,
Figure BDA0002418872130000052
表示第m篇文章中第k主题产生的词的个数;
完成βm的后验分布的求解,即可将高维的文本词向量模型降维到K维。
S110、多模态级联融合:单模态的数据容易掺杂一些噪声,会对最终结果产生较大的影响,而且某些音乐会缺失部分模态的信息,因此模态融合通过互补、消除歧义和不确定性,也在一定程度上避免了单一模态数据存在噪声或稀疏的问题。本发明通过决策前对不同模态的特征向量进行级联融合从而得到更全面的特征表示。融合模型通过增加线性依赖性项
Figure BDA0002418872130000053
来实现多模态融合,具体特征融合过程表示为:
Z→Wj
Figure BDA0002418872130000054
其中Z表示一个未知样本,其归属于第j个模式类Wj,该类为在已知条件F(Wj)下后验概率最大的模式类;其后验概率表示为:
Figure BDA0002418872130000055
Figure BDA0002418872130000056
其中xij代表样本的Ni维特征向量的第j个维度,i∈[1,M],j∈[1,N],M是设定的分类器个数,N为样本特征总体维度;
Figure BDA0002418872130000057
表示第i个分类器的依赖权重,
Figure BDA0002418872130000058
是一个极小值;P(wk|xin)表示第k类的后验概率。
直接利用S107,S108,S109提取到的1*K维特征向量,对多种模态的特征进行融合处理,从而提高模型的分类准确率。
S111、情感分类决策,利用Softmax函数作为分类器对S110融合后的K维特征进行音乐情感分类的训练,最终生成情感分类器,用于对未分类的歌曲添加情感标签。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (4)

1.一种基于多模态学习的音乐情感分类方法,其特征在于:包括以下步骤:
S1、数据预处理,对M首歌的音频数据、歌词数据、用户评论这三种不同模态的信息分别进行预处理,依据情感类别构建数据集;
S2、表示学习,构建三种模态的表示学习网络模型,将每个模态映射到各自的表示空间,分别训练各模态表示学习网络模型;
S3、特征提取,通过步骤S2训练后的网络模型分别提取对应模态的特征向量,并降维到K维向量,分别得到三种模态的K维特征向量;
S4、多模态融合,对步骤S3提取的三类K维特征向量,通过融合模型进行多模态级联融合,建立全面情感特征表示;
S5、情感分类决策,利用Softmax函数作为分类器对融合后的K维特征进行音乐情感分类的训练,最终生成情感分类器,用于对未分类的歌曲添加情感标签。
2.根据权利要求1所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S1,预处理过程如下:
对音频数据以44100赫兹的采样频率将每首歌切分为若干段t秒的音频,通过离散傅里叶变换将其转化为频域信息,保存为语谱图;对歌词数据利用结巴分词进行章、节、词的划分;对用户评论进行过滤清洗,将其序列化并统一长度。
3.根据权利要求2所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S2,表示学习具体为:
对音频数据转化后的语谱图利用深度残差网络ResNet建立音频-语谱图识别模型;对歌词数据利用双向长短时期记忆网络BiLSTM建立歌词-主题模型;对评论数据利用向量空间模型VSM建立评论-词向量模型;分别得到不同模态下音乐数据的特征表示。
4.根据权利要求1-3任一所述的一种基于多模态学习的音乐情感分类方法,其特征在于:所述步骤S4,融合模型通过增加线性依赖项
Figure FDA0002418872120000011
来实现多模态融合,具体特征融合过程表示为:
Z→Wj
Figure FDA0002418872120000012
其中Z表示一个未知样本,其归属于第j个模式类Wj,该类为在已知条件F(Wj)下后验概率最大的模式类;其后验概率表示为:
Figure FDA0002418872120000013
Figure FDA0002418872120000021
其中xij代表样本的Ni维特征向量的第j个维度,i∈[1,M],j∈[1,N],M是设定的分类器个数,N为样本特征总体维度;
Figure FDA0002418872120000022
表示第i个分类器的依赖权重,
Figure FDA0002418872120000023
是一个极小值;P(wk|xin)表示第k类的后验概率。
CN202010199527.7A 2020-03-20 2020-03-20 一种基于多模态学习的音乐情感分类方法 Active CN111460213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199527.7A CN111460213B (zh) 2020-03-20 2020-03-20 一种基于多模态学习的音乐情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199527.7A CN111460213B (zh) 2020-03-20 2020-03-20 一种基于多模态学习的音乐情感分类方法

Publications (2)

Publication Number Publication Date
CN111460213A true CN111460213A (zh) 2020-07-28
CN111460213B CN111460213B (zh) 2023-07-18

Family

ID=71685664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199527.7A Active CN111460213B (zh) 2020-03-20 2020-03-20 一种基于多模态学习的音乐情感分类方法

Country Status (1)

Country Link
CN (1) CN111460213B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN111931795A (zh) * 2020-09-25 2020-11-13 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN112182225A (zh) * 2020-10-14 2021-01-05 上海宝钿科技产业发展有限公司 一种多模态场景目标基于半监督深度学习的知识管理方法
CN112487237A (zh) * 2020-12-14 2021-03-12 重庆邮电大学 基于自适应cnn和半监督自训练模型的音乐分类方法
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN113449085A (zh) * 2021-09-02 2021-09-28 华南师范大学 多模态情感分类方法、装置以及电子设备
CN113673561A (zh) * 2021-07-15 2021-11-19 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
CN113780198A (zh) * 2021-09-15 2021-12-10 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN115064181A (zh) * 2022-06-10 2022-09-16 东北大学 基于深度学习的音乐多模态数据情感识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674339A (zh) * 2019-09-18 2020-01-10 北京工业大学 一种基于多模态融合的中文歌曲情感分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674339A (zh) * 2019-09-18 2020-01-10 北京工业大学 一种基于多模态融合的中文歌曲情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈坤等: "基于音频与歌词的音乐情感分类研究", 《电子测量技术》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858943A (zh) * 2020-07-30 2020-10-30 杭州网易云音乐科技有限公司 音乐情感识别方法及装置、存储介质和电子设备
CN111931795A (zh) * 2020-09-25 2020-11-13 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN111931795B (zh) * 2020-09-25 2020-12-25 湖南大学 基于子空间稀疏特征融合的多模态情感识别方法及系统
CN112182225A (zh) * 2020-10-14 2021-01-05 上海宝钿科技产业发展有限公司 一种多模态场景目标基于半监督深度学习的知识管理方法
CN112487237B (zh) * 2020-12-14 2022-10-18 重庆邮电大学 基于自适应cnn和半监督自训练模型的音乐分类方法
CN112487237A (zh) * 2020-12-14 2021-03-12 重庆邮电大学 基于自适应cnn和半监督自训练模型的音乐分类方法
CN112905835A (zh) * 2021-02-26 2021-06-04 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN112905835B (zh) * 2021-02-26 2022-11-11 成都潜在人工智能科技有限公司 一种多模态乐曲标题生成方法、装置及存储介质
CN113673561A (zh) * 2021-07-15 2021-11-19 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
CN113673561B (zh) * 2021-07-15 2023-08-25 华南理工大学 基于多模态的音乐标签自动分类方法、装置及介质
CN113449085A (zh) * 2021-09-02 2021-09-28 华南师范大学 多模态情感分类方法、装置以及电子设备
CN113780198A (zh) * 2021-09-15 2021-12-10 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN113780198B (zh) * 2021-09-15 2023-11-24 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN115064181A (zh) * 2022-06-10 2022-09-16 东北大学 基于深度学习的音乐多模态数据情感识别方法
CN115064181B (zh) * 2022-06-10 2024-04-19 东北大学 基于深度学习的音乐多模态数据情感识别方法

Also Published As

Publication number Publication date
CN111460213B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN111460213B (zh) 一种基于多模态学习的音乐情感分类方法
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
Ng et al. Subword-based approaches for spoken document retrieval
Wu et al. Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels
Abburi et al. Multimodal Sentiment Analysis of Telugu Songs.
CN106547789B (zh) 一种歌词生成方法及装置
CN101777347B (zh) 一种模型互补的汉语重音识别方法及系统
JP2003036093A (ja) 音声入力検索システム
CN109299272B (zh) 一种用于神经网络输入的大信息量文本表示方法
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Ren et al. Discovering time-constrained sequential patterns for music genre classification
Savargiv et al. Persian speech emotion recognition
CN115422947A (zh) 一种基于深度学习的古诗词配乐方法及系统
CN106951474B (zh) 一种基于lda模型的歌曲分类方法
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
CN113177136A (zh) 基于注意力的音频和歌词的多模态音乐风格分类方法
CN116933782A (zh) 一种电商文本关键词提取处理方法及系统
Mestre et al. Augmenting pre-trained language models with audio feature embedding for argumentation mining in political debates
NithyaKalyani et al. Speech summarization for tamil language
CN115083397A (zh) 歌词声学模型的训练方法、歌词识别方法、设备和产品
Jain et al. Detection of Sarcasm Through Tone Analysis on Video and Audio Files: A Comparative Study on AI Models Performance
Turunen et al. Speech retrieval from unsegmented Finnish audio using statistical morpheme-like units for segmentation, recognition, and retrieval
Zeng et al. Low-resource accent classification in geographically-proximate settings: A forensic and sociophonetics perspective
Wu et al. Research on song sentiment binary classification based on Chinese lyrics
Zhang et al. Research on Music Emotional Expression Based on Reinforcement Learning and Multimodal Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant