CN114446323B

CN114446323B - 一种动态多维度的音乐情感分析方法及系统

Info

Publication number: CN114446323B
Application number: CN202210088071.6A
Authority: CN
Inventors: 李晓瑜; 陈建谟; 向文嘉; 钱伟中; 田宇轩
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-03-10
Anticipated expiration: 2042-01-25
Also published as: CN114446323A

Abstract

本发明公开了一种动态多维度的音乐情感分析方法及系统，属于人工智能及多媒体领域，所述方法包括：提取给定乐曲的声学结构特征；根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句；分析所述给定乐曲局部的情感，并自下向顶依次迭代出乐段、乐章的和乐曲全局情感；根据迭代过程输出情感运动变化过程。本发明综合考虑了乐曲声学特征、乐曲结构划分、乐曲内容、人声歌词等因素，多维度对乐曲情感进行综合分析，达到了客观性，同时采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法，保留了乐曲情感的运动性特征，表现出乐曲的局部情感与全局情感之间发展的关系，更加贴近乐曲创作者与听众的直观感受。

Description

一种动态多维度的音乐情感分析方法及系统

技术领域

本发明涉及人工智能及多媒体领域，尤其涉及一种动态多维度的音乐情感分析方法及系统。

背景技术

随着人工智能技术的发展，越来越多的领域与人工智能技术相结合，发展出新的应用。而在多媒体技术领域，可以将人工智能技术用于对音乐片段进行情感分析。音乐情感是指人们在欣赏音乐时根据自己内心心理活动，对音乐产生的主观情感描述，受到个人主观因素与乐曲客观因素的影响。音乐情感具有主观性，其表现在于：对同一首乐曲，不同演奏者可能会演奏成不同的风格；而不同的听众可能因各自的心境、文化背景、社会地位、认知水平等因素，产生不同的情感体验。音乐情感具有客观性，其表现在于：音乐的内容确实与音乐情感之间存在某种确切的稳定联系。

现有的技术方案，大都只能针对某一乐曲给出单一维度的情感分析结果，为每首歌曲标注一个唯一的情感类别。然而，音乐情感除了客观性与主观性，还有运动性、模糊性两大重要特征。模糊性是人心理活动的一种特质，指人们对音乐情感的描述是基于模糊认知的一种主观描述和认知，是对模糊现象的描述。运动性是指音乐情感有着激发、稳定、发展、变化、消失的过程，也指音乐的内容、旋律、节奏等音乐元素随着时间不断变化，其蕴含的乐曲局部情感。因此，利用计算机对音乐情感的分析还有很大的提升空间。

发明内容

本发明的目的在于克服现有技术中乐曲情感分析存在的问题，提供了一种动态多维度的音乐情感分析方法及系统。

本发明的目的是通过以下技术方案来实现的：

提供一种动态多维度的音乐情感分析方法，所述方法包括以下内容：

提取给定乐曲的声学结构特征；

根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句；所述自顶向下指的是按照乐曲、乐章、乐段、乐句的顺序；

分析所述给定乐曲局部的情感，并自下向顶依次迭代出乐段、乐章的和乐曲全局情感；所述自下向顶指的是按照乐句、乐段、乐章、乐曲的顺序；

根据迭代过程输出情感运动变化过程。

具体地，所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。

具体地，所述根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句，包括：

根据所述声学结构特征将所述给定乐曲划分为乐章；

根据频谱质心、频谱流量、频谱衰减和谱对比度将划分好的乐章划分为乐段；

根据人声停顿、断句、呼吸换气和速度节拍将划分好的乐段划分为乐句。

具体地，所述分析所述给定乐曲局部的情感，包括：

通过模板匹配和机器学习的方法，将乐章、乐段或乐句中的人声与配乐分离；

按照声学特征对所述进行配乐特征分析，并采用语音识别对所述人声进行处理，得到对应乐章、乐段或乐句的歌词；

采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析，输出乐章、乐段或乐句对应的局部情感。

具体地，所述声学特征包括动力学特征、音色特征、和声特征和音区特征。

具体地，若能够找到对应乐曲片段的歌词，则直接采用歌词文本进行文本情感识别。

具体地，所述自下向顶依次迭代出乐段、乐章的和乐曲全局情感，包括：

根据最底层乐句的最细粒度局部情感，迭代出对应乐段的局部情感；

根据乐段的局部情感，迭代出对应乐章的局部情感；

根据乐章的局部情感，迭代出对应乐曲的全局情感。

具体地，所述根据迭代过程输出情感运动变化过程，包括：

逐层分析乐曲情感运动变化路径，迭代输出情感运动变化过程。

本发明还提供一种动态多维度的音乐情感分析系统，所述系统包括：

乐曲特征提取模块，用于提取给定乐曲的声学结构特征：

乐曲结构划分模块，用于根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句；

乐曲情感分析模块，用于分析所述给定乐曲局部的情感，并自下向顶依次迭代出乐段、乐章的和乐曲全局情感；

所述乐曲情感分析模块还用于根据迭代过程输出情感运动变化过程。

具体地，所述系统还包括乐曲预处理模块，所述乐曲预处理模块用于将给定乐曲转换成44.1khz采样率，16bit的wav音乐文件格式。。

需要进一步说明的是，上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。

与现有技术相比，本发明有益效果是：

(1)本发明综合考虑了音乐情感的客观性、主观性、模糊性、运动性，从多维度出发，动态分析乐曲所蕴含情感，采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法，保留了乐曲情感的运动性特征，能够分析乐曲情感运动变化过程，表现出乐曲的局部情感与全局情感之间发展的关系，更加贴近乐曲创作者与听众的直观感受。

(2)本发明综合考虑了乐曲声学特征、乐曲结构划分、乐曲内容、人声歌词等因素，多维度对乐曲情感进行综合分析，客观准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例示出的一种动态多维度的音乐情感分析方法的流程示意图；

图2为本发明实施例示出的乐曲结构划分过程示意图；

图3为本发明实施例示出的乐曲结构划分结果示意图；

图4为本发明实施例示出的分析给定乐曲局部情感的示意图；

图5为本发明实施例示出的情感分析模型示意图；

图6为本发明实施例示出的乐曲全局情感分析的示意图；

图7为本发明实施例示出的贝多芬第五交响曲的情感分析过程；

图8为本发明实施例示出的情感分析系统的工作示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明主要通过采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法，实现保留了乐曲情感的运动性特征，能够分析乐曲情感运动变化过程，表现出乐曲的局部情感与全局情感之间发展的关系。

实施例1

在一示例性实施例中，提供一种动态多维度的音乐情感分析方法，如图1所示，所述方法包括以下内容：

提取给定乐曲的声学结构特征；

根据迭代过程输出情感运动变化过程。

具体地，一首乐曲通常可以根据其内容与主题划分为不同乐章；而乐章可以根据旋律、节奏划分为不同的乐段，乐段又可以根据旋律或者速度的变化划分为不同的乐句。因此，为了得出音乐情感，先对乐曲的声学结构特征对给定乐曲进行结构解析，所述自顶向下指的是从整首乐曲开始，依次将乐曲划分为乐章、乐段、乐句。

从音乐创作的规律来看，音乐情感与音乐结构之间存在显著的相关性。通常来说，整首乐曲的情感往往会多次变化；而乐章由于有特定主题，其情感也有着一定程度起伏的强弱变化；乐段内的音乐情感通常是稳定的，可能存在同一情感由弱转强或者由强转弱的发展过程；乐句内部的情感几乎总是稳定不变的。

进一步地，逐步从乐曲的局部情感分析出全局情感，利用乐曲结构解析后的分段结果，通过分析乐曲的节奏、旋律、速度、内容等参数，再分离出乐曲的人声与配乐。完成以上操作后，所述自下向顶指的是从乐句开始，依次分析乐句、乐段、乐章的和乐曲的情感，从最细粒度的乐句开始递归的进行情感分析；也就意味着从乐句的局部情感分析开始，递归地丰富分析内容，通过乐曲最细粒度情感的前后动态发展过程，逐渐迭代出全局的乐曲情感及其发展过程。

本发明综合考虑了音乐情感的客观性、主观性、模糊性、运动性，从多维度出发，动态分析乐曲所蕴含情感，采用的自顶向下乐曲结构分解与自下向顶乐曲情感分析方法，保留了乐曲情感的运动性特征，能够分析乐曲情感运动变化过程，表现出乐曲的局部情感与全局情感之间发展的关系，更加贴近乐曲创作者与听众的直观感受。

实施例2

基于实施例1，提供一种动态多维度的音乐情感分析方法，所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。

所述根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句，包括：

如图2、3所示，根据所述频谱直方图、周期性直方图、波动模式和节奏检测等声学结构特征对乐曲全曲进行声学特征分析，将所述给定乐曲划分为乐章，输出乐章分段；

然后根据频谱质心、频谱流量、频谱衰减和谱对比度将划分好的乐章逐一进行乐章-乐段划分；

接着根据人声停顿、断句、呼吸换气和速度节拍将划分好的乐段划分为乐句。

实施例3

基于实施例1，提供一种动态多维度的音乐情感分析方法，本实施例针对输入乐曲片段，进行局部情感分析，输入的乐曲片段可以是乐章、乐段或乐句，如图4所示，所述分析所述给定乐曲局部的情感，包括：

进一步地，所述声学特征包括动力学特征、音色特征、和声特征和音区特征。具体地，动力学特征包括短时平均能量，音色特征包括MFCC和谱对比度，和声特征包括嘈杂度和调式，音区特征包括半音类图谱和半音类偏差。

进一步地，若能够找到对应乐曲片段的歌词，则直接采用歌词文本进行文本情感识别。

具体地，如图5所示，通过计算乐曲片段对应的音频特征、声学特征，将其转换成二维坐标点。通过Arousal-Valence模型中Arousal维度和Valence维度构建的二维坐标点进行聚类分析。Valence代表愉快和不愉快(即积极和消极)的程度，而Arousal代表兴奋和平静的程度。基于这种表示，任何情感状态都可以表示为VA坐标平面上的一个点。即该坐标平面内的每一个点都代表着一种情感状态。通过这种方式，得到对应乐曲片段的局部情感。

实施例4

基于以上实施例，提供一种动态多维度的音乐情感分析方法，如图6所示，通过乐句、乐段、乐章不同层次的局部情感，自下向顶，得到相对的全局情感。待迭代至乐曲最顶层时，得到最终的全局情感，具体地，自下向顶依次迭代出乐段、乐章的和乐曲全局情感，包括：

根据乐段的局部情感，迭代出对应乐章的局部情感；

根据乐章的局部情感，迭代出对应乐曲的全局情感。

进一步地，所述根据迭代过程输出情感运动变化过程，包括：

以贝多芬第五交响曲为例，如图7所示，根据乐段的局部情感，得到对应乐章的情感变化，如乐段1-4与5-6对应的恐惧-亢奋-壮烈-挑战、和缓-沉思情感，可以迭代出第一乐章的恐惧-冷静情感。根据第一乐章到第四乐章的恐惧-冷静-抗争-雄壮-喜悦的情感，可以迭代出全曲的情感变化：恐惧-冷静-抗争-雄壮，可以看到乐曲情感运动变化的过程。

实施例5

在该实施例中，提供一种动态多维度的音乐情感分析系统，所述系统包括：

乐曲特征提取模块，用于提取给定乐曲的声学结构特征：

进一步地，所述系统还包括乐曲预处理模块，所述乐曲预处理模块用于将给定乐曲转换成统一格式，如对mp3、flac、wav、ape、iso等格式的音乐文件转换成44.1khz采样率，16bit的wav音乐文件格式。

如图8所示，乐曲预处理模块对乐曲文件进行预处理，其中包括乐曲特征提取模块，提取给定乐曲的声学结构特征。乐曲结构划分模块对预处理后的乐曲进行结构划分，最后通过乐曲情感分析模块进行情感分析。

实施例6

本实施例与实施例1具有相同的发明构思，在实施例1的基础上提供了一种存储介质，其上存储有计算机指令，计算机指令运行时执行实施例1中的一种动态多维度的音乐情感分析方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例7

本实施例还提供一种终端，与实施例1具有相同的发明构思，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机指令，处理器运行计算机指令时执行实施例1中的一种动态多维度的音乐情感分析方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.一种动态多维度的音乐情感分析方法，其特征在于，所述方法包括以下内容：

提取给定乐曲的声学结构特征；

分析所述给定乐曲局部的情感，并自下向顶依次迭代出乐段、乐章的和乐曲全局情感；所述自下向顶指的是按照乐句、乐段、乐章、乐曲的顺序；所述分析所述给定乐曲局部的情感，包括：

按照声学特征对所述配乐进行配乐特征分析，并采用语音识别对所述人声进行处理，得到对应乐章、乐段或乐句的歌词；

采用Valence-Arousal模型对所述配乐特征和歌词进行乐曲情感分析，输出乐章、乐段或乐句对应的局部情感；

根据迭代过程输出情感运动变化过程。

2.根据权利要求1所述的一种动态多维度的音乐情感分析方法，其特征在于，所述声学结构特征包括频谱直方图、周期性直方图、波动模式和节奏检测。

3.根据权利要求2所述的一种动态多维度的音乐情感分析方法，其特征在于，所述根据所述声学结构特征对给定乐曲进行结构解析，自顶向下的将整首乐曲划分为乐章、乐段、乐句，包括：

根据所述声学结构特征将所述给定乐曲划分为乐章；

4.根据权利要求1所述的一种动态多维度的音乐情感分析方法，其特征在于，所述声学特征包括动力学特征、音色特征、和声特征和音区特征。

5.根据权利要求1所述的一种动态多维度的音乐情感分析方法，其特征在于，若能够找到对应乐曲片段的歌词，则直接采用歌词文本进行文本情感识别。

6.根据权利要求1所述的一种动态多维度的音乐情感分析方法，其特征在于，所述自下向顶依次迭代出乐段、乐章的和乐曲全局情感，包括：

根据乐段的局部情感，迭代出对应乐章的局部情感；

根据乐章的局部情感，迭代出对应乐曲的全局情感。

7.根据权利要求6所述的一种动态多维度的音乐情感分析方法，其特征在于，所述根据迭代过程输出情感运动变化过程，包括：

8.一种动态多维度的音乐情感分析系统，其特征在于，所述系统包括：

乐曲特征提取模块，用于提取给定乐曲的声学结构特征：

乐曲情感分析模块，用于分析所述给定乐曲局部的情感，并自下向顶依次迭代出乐段、乐章的和乐曲全局情感；所述分析所述给定乐曲局部的情感，包括：

9.根据权利要求8所述的一种动态多维度的音乐情感分析系统，其特征在于，所述系统还包括乐曲预处理模块，所述乐曲预处理模块用于将给定乐曲转换成44.1khz采样率，16bit的wav音乐文件格式。