CN114446323B - 一种动态多维度的音乐情感分析方法及系统 - Google Patents
一种动态多维度的音乐情感分析方法及系统 Download PDFInfo
- Publication number
- CN114446323B CN114446323B CN202210088071.6A CN202210088071A CN114446323B CN 114446323 B CN114446323 B CN 114446323B CN 202210088071 A CN202210088071 A CN 202210088071A CN 114446323 B CN114446323 B CN 114446323B
- Authority
- CN
- China
- Prior art keywords
- music
- emotion
- given
- local
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 151
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000033001 locomotion Effects 0.000 claims abstract description 20
- 230000002996 emotional effect Effects 0.000 claims abstract description 10
- 238000012916 structural analysis Methods 0.000 claims abstract description 6
- 239000000203 mixture Substances 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000000737 periodic effect Effects 0.000 claims description 4
- 230000008909 emotion recognition Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000009423 ventilation Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000000007 visual effect Effects 0.000 abstract description 3
- 230000004899 motility Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000033764 rhythmic process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 230000037007 arousal Effects 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 230000003340 mental effect Effects 0.000 description 2
- UCJGJABZCDBEDK-UHFFFAOYSA-N bazedoxifene Chemical compound C=1C=C(OCCN2CCCCCC2)C=CC=1CN1C2=CC=C(O)C=C2C(C)=C1C1=CC=C(O)C=C1 UCJGJABZCDBEDK-UHFFFAOYSA-N 0.000 description 1
- 229960000817 bazedoxifene Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
本发明公开了一种动态多维度的音乐情感分析方法及系统,属于人工智能及多媒体领域,所述方法包括:提取给定乐曲的声学结构特征;根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;根据迭代过程输出情感运动变化过程。本发明综合考虑了乐曲声学特征、乐曲结构划分、乐曲内容、人声歌词等因素,多维度对乐曲情感进行综合分析,达到了客观性,同时采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法,保留了乐曲情感的运动性特征,表现出乐曲的局部情感与全局情感之间发展的关系,更加贴近乐曲创作者与听众的直观感受。
Description
技术领域
本发明涉及人工智能及多媒体领域,尤其涉及一种动态多维度的音乐情感分析方法及系统。
背景技术
随着人工智能技术的发展,越来越多的领域与人工智能技术相结合,发展出新的应用。而在多媒体技术领域,可以将人工智能技术用于对音乐片段进行情感分析。音乐情感是指人们在欣赏音乐时根据自己内心心理活动,对音乐产生的主观情感描述,受到个人主观因素与乐曲客观因素的影响。音乐情感具有主观性,其表现在于:对同一首乐曲,不同演奏者可能会演奏成不同的风格;而不同的听众可能因各自的心境、文化背景、社会地位、认知水平等因素,产生不同的情感体验。音乐情感具有客观性,其表现在于:音乐的内容确实与音乐情感之间存在某种确切的稳定联系。
现有的技术方案,大都只能针对某一乐曲给出单一维度的情感分析结果,为每首歌曲标注一个唯一的情感类别。然而,音乐情感除了客观性与主观性,还有运动性、模糊性两大重要特征。模糊性是人心理活动的一种特质,指人们对音乐情感的描述是基于模糊认知的一种主观描述和认知,是对模糊现象的描述。运动性是指音乐情感有着激发、稳定、发展、变化、消失的过程,也指音乐的内容、旋律、节奏等音乐元素随着时间不断变化,其蕴含的乐曲局部情感。因此,利用计算机对音乐情感的分析还有很大的提升空间。
发明内容
本发明的目的在于克服现有技术中乐曲情感分析存在的问题,提供了一种动态多维度的音乐情感分析方法及系统。
本发明的目的是通过以下技术方案来实现的:
提供一种动态多维度的音乐情感分析方法,所述方法包括以下内容:
提取给定乐曲的声学结构特征;
根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;所述自顶向下指的是按照乐曲、乐章、乐段、乐句的顺序;
分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;所述自下向顶指的是按照乐句、乐段、乐章、乐曲的顺序;
根据迭代过程输出情感运动变化过程。
具体地,所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。
具体地,所述根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句,包括:
根据所述声学结构特征将所述给定乐曲划分为乐章;
根据频谱质心、频谱流量、频谱衰减和谱对比度将划分好的乐章划分为乐段;
根据人声停顿、断句、呼吸换气和速度节拍将划分好的乐段划分为乐句。
具体地,所述分析所述给定乐曲局部的情感,包括:
通过模板匹配和机器学习的方法,将乐章、乐段或乐句中的人声与配乐分离;
按照声学特征对所述进行配乐特征分析,并采用语音识别对所述人声进行处理,得到对应乐章、乐段或乐句的歌词;
采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析,输出乐章、乐段或乐句对应的局部情感。
具体地,所述声学特征包括动力学特征、音色特征、和声特征和音区特征。
具体地,若能够找到对应乐曲片段的歌词,则直接采用歌词文本进行文本情感识别。
具体地,所述自下向顶依次迭代出乐段、乐章的和乐曲全局情感,包括:
根据最底层乐句的最细粒度局部情感,迭代出对应乐段的局部情感;
根据乐段的局部情感,迭代出对应乐章的局部情感;
根据乐章的局部情感,迭代出对应乐曲的全局情感。
具体地,所述根据迭代过程输出情感运动变化过程,包括:
逐层分析乐曲情感运动变化路径,迭代输出情感运动变化过程。
本发明还提供一种动态多维度的音乐情感分析系统,所述系统包括:
乐曲特征提取模块,用于提取给定乐曲的声学结构特征:
乐曲结构划分模块,用于根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;
乐曲情感分析模块,用于分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;
所述乐曲情感分析模块还用于根据迭代过程输出情感运动变化过程。
具体地,所述系统还包括乐曲预处理模块,所述乐曲预处理模块用于将给定乐曲转换成44.1khz采样率,16bit的wav音乐文件格式。。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明综合考虑了音乐情感的客观性、主观性、模糊性、运动性,从多维度出发,动态分析乐曲所蕴含情感,采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法,保留了乐曲情感的运动性特征,能够分析乐曲情感运动变化过程,表现出乐曲的局部情感与全局情感之间发展的关系,更加贴近乐曲创作者与听众的直观感受。
(2)本发明综合考虑了乐曲声学特征、乐曲结构划分、乐曲内容、人声歌词等因素,多维度对乐曲情感进行综合分析,客观准确。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例示出的一种动态多维度的音乐情感分析方法的流程示意图;
图2为本发明实施例示出的乐曲结构划分过程示意图;
图3为本发明实施例示出的乐曲结构划分结果示意图;
图4为本发明实施例示出的分析给定乐曲局部情感的示意图;
图5为本发明实施例示出的情感分析模型示意图;
图6为本发明实施例示出的乐曲全局情感分析的示意图;
图7为本发明实施例示出的贝多芬第五交响曲的情感分析过程;
图8为本发明实施例示出的情感分析系统的工作示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明主要通过采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法,实现保留了乐曲情感的运动性特征,能够分析乐曲情感运动变化过程,表现出乐曲的局部情感与全局情感之间发展的关系。
实施例1
在一示例性实施例中,提供一种动态多维度的音乐情感分析方法,如图1所示,所述方法包括以下内容:
提取给定乐曲的声学结构特征;
根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;所述自顶向下指的是按照乐曲、乐章、乐段、乐句的顺序;
分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;所述自下向顶指的是按照乐句、乐段、乐章、乐曲的顺序;
根据迭代过程输出情感运动变化过程。
具体地,一首乐曲通常可以根据其内容与主题划分为不同乐章;而乐章可以根据旋律、节奏划分为不同的乐段,乐段又可以根据旋律或者速度的变化划分为不同的乐句。因此,为了得出音乐情感,先对乐曲的声学结构特征对给定乐曲进行结构解析,所述自顶向下指的是从整首乐曲开始,依次将乐曲划分为乐章、乐段、乐句。
从音乐创作的规律来看,音乐情感与音乐结构之间存在显著的相关性。通常来说,整首乐曲的情感往往会多次变化;而乐章由于有特定主题,其情感也有着一定程度起伏的强弱变化;乐段内的音乐情感通常是稳定的,可能存在同一情感由弱转强或者由强转弱的发展过程;乐句内部的情感几乎总是稳定不变的。
进一步地,逐步从乐曲的局部情感分析出全局情感,利用乐曲结构解析后的分段结果,通过分析乐曲的节奏、旋律、速度、内容等参数,再分离出乐曲的人声与配乐。完成以上操作后,所述自下向顶指的是从乐句开始,依次分析乐句、乐段、乐章的和乐曲的情感,从最细粒度的乐句开始递归的进行情感分析;也就意味着从乐句的局部情感分析开始,递归地丰富分析内容,通过乐曲最细粒度情感的前后动态发展过程,逐渐迭代出全局的乐曲情感及其发展过程。
本发明综合考虑了音乐情感的客观性、主观性、模糊性、运动性,从多维度出发,动态分析乐曲所蕴含情感,采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法,保留了乐曲情感的运动性特征,能够分析乐曲情感运动变化过程,表现出乐曲的局部情感与全局情感之间发展的关系,更加贴近乐曲创作者与听众的直观感受。
实施例2
基于实施例1,提供一种动态多维度的音乐情感分析方法,所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。
所述根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句,包括:
如图2、3所示,根据所述频谱直方图、周期性直方图、波动模式和节奏检测等声学结构特征对乐曲全曲进行声学特征分析,将所述给定乐曲划分为乐章,输出乐章分段;
然后根据频谱质心、频谱流量、频谱衰减和谱对比度将划分好的乐章逐一进行乐章-乐段划分;
接着根据人声停顿、断句、呼吸换气和速度节拍将划分好的乐段划分为乐句。
实施例3
基于实施例1,提供一种动态多维度的音乐情感分析方法,本实施例针对输入乐曲片段,进行局部情感分析,输入的乐曲片段可以是乐章、乐段或乐句,如图4所示,所述分析所述给定乐曲局部的情感,包括:
通过模板匹配和机器学习的方法,将乐章、乐段或乐句中的人声与配乐分离;
按照声学特征对所述进行配乐特征分析,并采用语音识别对所述人声进行处理,得到对应乐章、乐段或乐句的歌词;
采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析,输出乐章、乐段或乐句对应的局部情感。
进一步地,所述声学特征包括动力学特征、音色特征、和声特征和音区特征。具体地,动力学特征包括短时平均能量,音色特征包括MFCC和谱对比度,和声特征包括嘈杂度和调式,音区特征包括半音类图谱和半音类偏差。
进一步地,若能够找到对应乐曲片段的歌词,则直接采用歌词文本进行文本情感识别。
具体地,如图5所示,通过计算乐曲片段对应的音频特征、声学特征,将其转换成二维坐标点。通过Arousal-Valence模型中Arousal维度和Valence维度构建的二维坐标点进行聚类分析。Valence代表愉快和不愉快(即积极和消极)的程度,而Arousal代表兴奋和平静的程度。基于这种表示,任何情感状态都可以表示为VA坐标平面上的一个点。即该坐标平面内的每一个点都代表着一种情感状态。通过这种方式,得到对应乐曲片段的局部情感。
实施例4
基于以上实施例,提供一种动态多维度的音乐情感分析方法,如图6所示,通过乐句、乐段、乐章不同层次的局部情感,自下向顶,得到相对的全局情感。待迭代至乐曲最顶层时,得到最终的全局情感,具体地,自下向顶依次迭代出乐段、乐章的和乐曲全局情感,包括:
根据最底层乐句的最细粒度局部情感,迭代出对应乐段的局部情感;
根据乐段的局部情感,迭代出对应乐章的局部情感;
根据乐章的局部情感,迭代出对应乐曲的全局情感。
进一步地,所述根据迭代过程输出情感运动变化过程,包括:
逐层分析乐曲情感运动变化路径,迭代输出情感运动变化过程。
以贝多芬第五交响曲为例,如图7所示,根据乐段的局部情感,得到对应乐章的情感变化,如乐段1-4与5-6对应的恐惧-亢奋-壮烈-挑战、和缓-沉思情感,可以迭代出第一乐章的恐惧-冷静情感。根据第一乐章到第四乐章的恐惧-冷静-抗争-雄壮-喜悦的情感,可以迭代出全曲的情感变化:恐惧-冷静-抗争-雄壮,可以看到乐曲情感运动变化的过程。
实施例5
在该实施例中,提供一种动态多维度的音乐情感分析系统,所述系统包括:
乐曲特征提取模块,用于提取给定乐曲的声学结构特征:
乐曲结构划分模块,用于根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;
乐曲情感分析模块,用于分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;
所述乐曲情感分析模块还用于根据迭代过程输出情感运动变化过程。
进一步地,所述系统还包括乐曲预处理模块,所述乐曲预处理模块用于将给定乐曲转换成统一格式,如对mp3、flac、wav、ape、iso等格式的音乐文件转换成44.1khz采样率,16bit的wav音乐文件格式。
如图8所示,乐曲预处理模块对乐曲文件进行预处理,其中包括乐曲特征提取模块,提取给定乐曲的声学结构特征。乐曲结构划分模块对预处理后的乐曲进行结构划分,最后通过乐曲情感分析模块进行情感分析。
实施例6
本实施例与实施例1具有相同的发明构思,在实施例1的基础上提供了一种存储介质,其上存储有计算机指令,计算机指令运行时执行实施例1中的一种动态多维度的音乐情感分析方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例7
本实施例还提供一种终端,与实施例1具有相同的发明构思,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行实施例1中的一种动态多维度的音乐情感分析方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (9)
1.一种动态多维度的音乐情感分析方法,其特征在于,所述方法包括以下内容:
提取给定乐曲的声学结构特征;
根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;所述自顶向下指的是按照乐曲、乐章、乐段、乐句的顺序;
分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;所述自下向顶指的是按照乐句、乐段、乐章、乐曲的顺序;所述分析所述给定乐曲局部的情感,包括:
通过模板匹配和机器学习的方法,将乐章、乐段或乐句中的人声与配乐分离;
按照声学特征对所述配乐进行配乐特征分析,并采用语音识别对所述人声进行处理,得到对应乐章、乐段或乐句的歌词;
采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析,输出乐章、乐段或乐句对应的局部情感;
根据迭代过程输出情感运动变化过程。
2.根据权利要求1所述的一种动态多维度的音乐情感分析方法,其特征在于,所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。
3.根据权利要求2所述的一种动态多维度的音乐情感分析方法,其特征在于,所述根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句,包括:
根据所述声学结构特征将所述给定乐曲划分为乐章;
根据频谱质心、频谱流量、频谱衰减和谱对比度将划分好的乐章划分为乐段;
根据人声停顿、断句、呼吸换气和速度节拍将划分好的乐段划分为乐句。
4.根据权利要求1所述的一种动态多维度的音乐情感分析方法,其特征在于,所述声学特征包括动力学特征、音色特征、和声特征和音区特征。
5.根据权利要求1所述的一种动态多维度的音乐情感分析方法,其特征在于,若能够找到对应乐曲片段的歌词,则直接采用歌词文本进行文本情感识别。
6.根据权利要求1所述的一种动态多维度的音乐情感分析方法,其特征在于,所述自下向顶依次迭代出乐段、乐章的和乐曲全局情感,包括:
根据最底层乐句的最细粒度局部情感,迭代出对应乐段的局部情感;
根据乐段的局部情感,迭代出对应乐章的局部情感;
根据乐章的局部情感,迭代出对应乐曲的全局情感。
7.根据权利要求6所述的一种动态多维度的音乐情感分析方法,其特征在于,所述根据迭代过程输出情感运动变化过程,包括:
逐层分析乐曲情感运动变化路径,迭代输出情感运动变化过程。
8.一种动态多维度的音乐情感分析系统,其特征在于,所述系统包括:
乐曲特征提取模块,用于提取给定乐曲的声学结构特征:
乐曲结构划分模块,用于根据所述声学结构特征对给定乐曲进行结构解析,自顶向下的将整首乐曲划分为乐章、乐段、乐句;
乐曲情感分析模块,用于分析所述给定乐曲局部的情感,并自下向顶依次迭代出乐段、乐章的和乐曲全局情感;所述分析所述给定乐曲局部的情感,包括:
通过模板匹配和机器学习的方法,将乐章、乐段或乐句中的人声与配乐分离;
按照声学特征对所述配乐进行配乐特征分析,并采用语音识别对所述人声进行处理,得到对应乐章、乐段或乐句的歌词;
采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析,输出乐章、乐段或乐句对应的局部情感;
所述乐曲情感分析模块还用于根据迭代过程输出情感运动变化过程。
9.根据权利要求8所述的一种动态多维度的音乐情感分析系统,其特征在于,所述系统还包括乐曲预处理模块,所述乐曲预处理模块用于将给定乐曲转换成44.1khz采样率,16bit的wav音乐文件格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088071.6A CN114446323B (zh) | 2022-01-25 | 2022-01-25 | 一种动态多维度的音乐情感分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210088071.6A CN114446323B (zh) | 2022-01-25 | 2022-01-25 | 一种动态多维度的音乐情感分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114446323A CN114446323A (zh) | 2022-05-06 |
CN114446323B true CN114446323B (zh) | 2023-03-10 |
Family
ID=81369396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210088071.6A Active CN114446323B (zh) | 2022-01-25 | 2022-01-25 | 一种动态多维度的音乐情感分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114446323B (zh) |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5321058B2 (ja) * | 2006-05-26 | 2013-10-23 | 日本電気株式会社 | 情報付与システム、情報付与方法、情報付与プログラム及び情報付与プログラム記録媒体 |
CN101853668B (zh) * | 2010-03-29 | 2014-10-29 | 北京中星微电子有限公司 | 一种将midi音乐生成动画的方法和系统 |
CN101901595B (zh) * | 2010-05-05 | 2014-10-29 | 北京中星微电子有限公司 | 一种根据音频音乐生成动画的方法和系统 |
US10698951B2 (en) * | 2016-07-29 | 2020-06-30 | Booktrack Holdings Limited | Systems and methods for automatic-creation of soundtracks for speech audio |
WO2019001458A1 (zh) * | 2017-06-30 | 2019-01-03 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN108305643B (zh) * | 2017-06-30 | 2019-12-06 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
US11004461B2 (en) * | 2017-09-01 | 2021-05-11 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
CN108648767B (zh) * | 2018-04-08 | 2021-11-05 | 中国传媒大学 | 一种流行歌曲情感综合与分类方法 |
CN109299312B (zh) * | 2018-10-18 | 2021-11-30 | 湖南城市学院 | 基于大数据的音乐节奏分析方法 |
CN109299318A (zh) * | 2018-11-13 | 2019-02-01 | 百度在线网络技术(北京)有限公司 | 音乐推荐的方法、装置、存储介质和终端设备 |
CN110675859B (zh) * | 2019-09-05 | 2021-11-23 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN112614511A (zh) * | 2020-12-10 | 2021-04-06 | 央视国际网络无锡有限公司 | 一种歌曲情感检测的方法 |
CN112767969B (zh) * | 2021-01-29 | 2022-10-04 | 思必驰科技股份有限公司 | 用于语音信息的情感倾向性确定方法及系统 |
CN113626635A (zh) * | 2021-08-10 | 2021-11-09 | 功夫(广东)音乐文化传播有限公司 | 一种歌曲乐句划分方法、系统、电子设备及介质 |
-
2022
- 2022-01-25 CN CN202210088071.6A patent/CN114446323B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114446323A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Murthy et al. | Content-based music information retrieval (cb-mir) and its applications toward the music industry: A review | |
CN108806656B (zh) | 歌曲的自动生成 | |
CN108806655B (zh) | 歌曲的自动生成 | |
Rocamora et al. | Comparing audio descriptors for singing voice detection in music audio files | |
Gao et al. | Speech emotion recognition using local and global features | |
Watanabe et al. | Modeling structural topic transitions for automatic lyrics generation | |
Pachet et al. | Analytical features: a knowledge-based approach to audio feature generation | |
Nakano et al. | Vocal timbre analysis using latent Dirichlet allocation and cross-gender vocal timbre similarity | |
Savery et al. | Shimon the rapper: A real-time system for human-robot interactive rap battles | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
Tsunoo et al. | Music mood classification by rhythm and bass-line unit pattern analysis | |
Zaidan et al. | MFCC global features selection in improving speech emotion recognition rate | |
Ibrahim et al. | Intelligibility of Sung Lyrics: A Pilot Study. | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
CN114446323B (zh) | 一种动态多维度的音乐情感分析方法及系统 | |
Loni et al. | Robust singer identification of Indian playback singers | |
Van Balen | Audio description and corpus analysis of popular music | |
Waghmare et al. | Raga identification techniques for classifying indian classical music: A survey | |
Khunarsa | Single‐signal entity approach for sung word recognition with artificial neural network and time–frequency audio features | |
Kroher | The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings | |
CN112270929A (zh) | 一种歌曲识别的方法及装置 | |
Trisyanto et al. | Emotion Recognition Based on Voice Using Combination of Long Short Term Memory (LSTM) and Recurrent Neural Network (RNN) for Automation Music Healing Application | |
Yang | Structure analysis of beijing opera arias | |
Tiple et al. | An efficient framework for recommendation of Hindustani Art Music | |
Duan | Construction of Vocal Timbre Evaluation System Based on Classification Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |