CN117668285B

CN117668285B - 一种基于声学特征的音乐情绪匹配方法

Info

Publication number: CN117668285B
Application number: CN202410131236.2A
Authority: CN
Inventors: 叶蕾; 黄子璇; 李劲松; 康勤; 王子妍
Original assignee: Hefei Normal University
Current assignee: Hefei Normal University
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-09
Anticipated expiration: 2044-01-31
Also published as: CN117668285A

Abstract

本发明涉及音乐推荐技术领域，公开了一种基于声学特征的音乐情绪匹配方法，包括：对原始音频数据进行预处理后，将得到的预处理后的音频数据划分为若干段；对于每段音频数据，使用梅尔谱来获得频率特征；利用Transformer模型的编码器结构对所述频率特征进行编码，为每段音频数据生成音频特征向量；将多段音频数据对应的音频特征向量组合为音频特征序列通过双向长短期记忆网络模型捕获音频特征序列中的时间依赖关系，并输出每段音频数据对应的情绪类别；实现音乐情绪的综合理解建模，精准匹配音乐所能唤起的情绪类别。

Description

一种基于声学特征的音乐情绪匹配方法

技术领域

本发明涉及音乐推荐技术领域，具体涉及一种基于声学特征的音乐情绪匹配方法。

背景技术

音乐作为一种艺术形式，是人类文化的重要组成部分。随着信息技术的发展和互联网应用的普及，音乐产业也在不断地发生变革，在这个信息爆炸的时代，人们可以通过各种渠道轻松地获取到来自世界各地的音乐作品。然而，面对如此庞大的音乐资源，如何筛选出用户感兴趣的音乐作品，成为了许多音乐平台面临的问题。

音乐推荐、搜索系统的研究应运而生，在音乐搜索领域有许多不同的方法和技术被应用。首先，基于关键词的搜索引擎是最常见和最基本的音乐搜索方式，用户通过输入关键词或歌词等相关信息进行搜索。其次，语义分析技术的应用进一步提高了音乐搜索的智能化，根据用户的搜索意图和上下文提供相对准确和个性化的搜索结果。此外，许多其他领域（例如电商、广告）的推荐算法，如协同过滤、基于内容的推荐以及深度学习等，也被应用到了音乐推荐领域。这些技术的应用，使得音乐推荐系统能够更加精准地捕捉到用户的兴趣点，为用户提供更加个性化的推荐服务。这些技术的应用，不仅节省了用户寻找感兴趣音乐的时间和精力，还有助于为用户发现更多优秀的音乐作品。

然而，其他领域的个性化搜索、推荐系统生效的原因是假设用户的兴趣的相对稳定的，通过基于用户的历史交互记录进行用户兴趣建模，进而进行提供个性化搜索和推荐。有别于其他领域，在音乐搜索和推荐场景下，这个假设往往不成立，因为受情绪等影响，用户有时候需要悲伤的音乐，有时候需要欢快的音乐。因此，需要对音乐本身进行更加精准的情绪理解建模。

音乐情绪匹配的心理应用场景广泛。例如，心理治疗师可以使用这种技术为受访者选择合适的音乐，帮助他们释放情绪或引导他们进入特定的情绪状态。健身教练也可以根据这种技术为课程选择合适的音乐，以激发学员的运动动力。此外，电影制作人也可以使用此技术为场景选择恰当的背景音乐，增强观众的情绪体验。

现有的方案主要有基于人工匹配的方法、基于特征工程的方法和基于歌词文本特征匹配的方法。

其中，基于人工标注的方法通常是由专业的标注人员试听歌曲，然后根据自己的感受和理解来标注歌曲的情绪类别。这些标注人员通常会基于给定的情绪分类体系，带着情绪相关的问题听完歌曲，例如：“这首歌的感受是什么？”或者“这首歌令人感到高兴、悲伤、愤怒等等吗？”然后他们会在歌曲的标签体系基础上匹配选择相应的情绪标签。

基于特征工程的方法，通常通过标注或者规模化收集的方式收集歌曲情绪相关的相关特征，例如作者、作者创作风格、创作时间、词频、TF-IDF值等等，再通过浅层的分类器，例如朴素贝叶斯分类器、支持向量机（SVM）、逻辑回归等进行情绪分类匹配。

基于歌词文本特征匹配的算法，利用歌词文本中的语义信息进行音乐情绪匹配，通常借助深度神经网络来表示歌词文本，然后使用神经网络算法对歌曲进行分类。常用的神经网络模型包括卷积神经网络、循环神经网络、注意力机制等。常用的神经网络算法包括反向传播算法、随机梯度下降算法、Adam算法等。

现有的技术方案在音乐情绪匹配上取得了一定的效果，但均有一定的局限性。例如，基于人工标注的方法受到标注人员的主观情绪、经验和背景知识的影响，导致结果可能存在较大的差异性。此外，此方法效率低下，因为人工标注需要大量的时间和人力，而且在面对大量的音乐资源时，它的扩展性非常有限。每当有新的歌曲或内容添加，都需要再次进行人工标注。此外，由于需要雇佣和培训专业的标注人员，成本也相对较高。基于特征工程的方法面临的一个主要问题是特征选择。确定哪些特征是最有意义的，并为它们分配恰当的权重是一个巨大的挑战，并且可能需要大量的领域专业知识。仅仅使用预定义的特征集可能会忽略某些音乐或文本中的关键信息。此外，由于该方法通常使用浅层分类器，例如朴素贝叶斯、SVM等，它们可能无法捕捉到复杂的音乐情绪特征。对于不完整或低质量的特征数据，这种方法的分类效果也可能受到严重影响。对于基于歌词文本特征匹配的方法，它很大程度上依赖于歌词来判断音乐的情绪，可能会忽略音乐本身的旋律、节奏和和声等非文本元素对情绪的影响。而音乐的情绪表达往往是旋律和歌词共同作用的结果。同时其也无法在纯音乐场景下使用。

音乐中的情绪往往由旋律、节奏、和声等声学元素共同决定。声学特征如音高、音色、力度和节奏等，能够更加直接和准确地反映歌曲所表达的情绪。例如，快速的节奏和高音高可能与快乐或兴奋的情绪相对应，而缓慢的节奏和低音高可能与悲伤或平静的情绪相匹配。因此，通过集成声学特征，能够更加全面和准确地理解和分类歌曲的情绪。

与视音乐为一个静态整体的方法不同，按时域切分可以把音乐看作是一个动态的、时间上连续的序列。这种切分方法可以捕捉歌曲中的情绪变化和转折，从而更好地理解其整体情绪走势。例如，一首歌可能从悲伤开始，然后转为愤怒，最后达到一个快乐的高潮。只有通过时域切分和序列分析，才能完整捕捉到这种复杂的情绪变化。

传统的分类方法往往独立地看待每一首歌或每一段歌词，而忽视了其内部的时间连续性。基于序列的分类方法，例如循环神经网络或长短时记忆网络，可以有效地处理音乐的时间序列数据。这些模型可以记住序列中早期的信息，并将其与后续信息相结合，从而做出更准确地情绪判断。

发明内容

为解决上述技术问题，本发明提供一种基于声学特征的音乐情绪匹配方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于声学特征的音乐情绪匹配方法，包括以下步骤：

步骤一：对原始音频数据进行预处理后，将得到的预处理后的音频数据划分为N段；对于每段音频数据，使用梅尔谱来获得频率特征，得到频率特征序列；

步骤二：通过为所述频率特征添加位置编码获得频域特征，利用Transformer模型的多头自注意力对所述频域特征进行编码，通过捕捉各频域特征之间的关联性，为每段音频数据生成一个向量表征，记为音频特征向量；将N段音频数据对应的音频特征向量组合为音频特征序列，/>表示音频特征序列/>中第t个的音频特征向量；

步骤三，通过双向长短期记忆网络模型捕获音频特征序列中的时间依赖关系，并输出每段音频数据对应的情绪类别，具体包括：

双向长短期记忆网络模型包括正向层和反向层，正向层从读取到/>，反向层从读取到/>；

正向层第t个时间步的隐藏状态为：/>；

反向层第t个时间步的隐藏状态为：/>；

其中，表示双向长短期记忆网络模型的正向层；/>表示双向长短期记忆网络模型的反向层；将每个时间步的正向层隐藏状态和反向层隐藏状态串联起来，得到音频特征序列的综合表示/>：/>；/>表示串联；

将传递给全连接层，并使用softmax函数或回归方法，得到每段音频数据的情绪类别。

进一步地，步骤一中，对原始音频数据进行预处理包括去噪和规范化。

进一步地，步骤一中，将得到的预处理后的音频数据划分为N段时，按照时间窗口将音频数据切分为段，每个时间窗口包含固定时间长度的音频数据，相邻时间窗口之间无间隔。

进一步地，步骤二具体包括：

所述频率特征序列，/>表示频率特征序列/>中的第/>个频率特征；

为中每个频率特征/>添加位置编码，得到频域特征/>：；/>为第/>个位置的位置编码；

每个频域特征通过多头自注意力进行编码，每个频域特征赋予不同的注意力权重，得到多头自注意力的输出/>：

；

为与频率特征/>对应的频域特征，/>为注意力权重：

；

为与频率特征/>对应的频域特征，中间变量；/>均为Transformer模型中的可学习参数，上标T表示转置；

将多头自注意力的输出输入到前馈神经网络来捕获特征之间的非线性关系，得到前馈神经网络的输出/>：

；

表示激活函数，/>均为权重矩阵，/>均为偏置项；

Transformer模型包括多个子层，所述子层包括所述的多头自注意力和前馈神经网络，子层中前馈神经网络的输出，通过残差连接和层标准化进行增强，得到第t段音频数据的音频特征向量：

；

表示层标准化。

进一步地，步骤三中使用softmax函数得到每段音频数据的情绪类别时，第t段音频数据的情绪类别的概率分布为：

；

和/>分别为要学习的权重参数和偏置参数，/>表示softmax函数。

与现有技术相比，本发明的有益技术效果是：

本发明基于音乐的声学特征和全局特征综合分析音乐情绪，通过对音乐进行声学特征的提取、序列化建模，实现音乐情绪的综合理解建模，精准匹配音乐所能唤起的情绪类别。不仅为音乐平台提供了一个创新的推荐策略，也为心理治疗、健身训练和电影制作等多个领域开辟了新的应用前景。

附图说明

图1为本发明的整体流程图；

图2为本发明使用梅尔谱来获得频率特征的示意图；

图3为本发明进行音乐序列表征的流程示意图；

图4为本发明进行音乐情绪匹配的流程示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

如图1所示，本发明提出一种基于声学特征的音乐情绪匹配方法，包括以下步骤：

S1，声学特征提取：对原始音频数据进行去噪和规范化操作，确保音频数据的清晰度和一致性，从而为后续分析提供更好的基础。音频文件被划分为多个段，每段音频数据通常代表音乐的某个特定时长，例如一个节拍。对于每段音频数据，本发明使用Mel谱来获得频率特征。

声学特征提取的具体过程如下：

声学特征提取是数字音频处理领域的一个核心步骤，它涉及从音频信号中提取关于声音结构和属性的关键信息。此过程对于许多应用，如语音识别、音乐推荐和情绪分析都是至关重要的。

原始的音频信号首先经过预处理步骤，包括去噪和规范化。去噪确保了从环境噪声中分离出纯净的音频信号，而规范化则确保了音频信号在统一的强度范围内，这对后续的特征提取至关重要。在经过预处理之后，音频信号按照时间窗口被切分成多个小段。每个时间窗口通常包含固定时间长度的数据，并可能与相邻的时间窗口重叠，以捕获连续的音频信息。

如图2所示，梅尔谱（Mel谱）基于人类听觉感知的频率刻度，与普通的线性或对数频率刻度不同，它更加强调对人类听觉尤为重要的频率范围。这种特性使其在音频和语音处理中成为一个重要的工具，特别是当涉及到与人类听觉经验和感知相关的任务时，如情绪分析或音乐风格分类。

转换公式如下：

；

其中，是Mel频率，而/>是实际频率（以赫兹为单位）。

例如，如果一个特定的音符在物理频率中为1000Hz，使用上述公式，它在Mel刻度上的表示大约是m(1000)，这会给出一个与人的听觉经验更为一致的表示。

这种转换的重要性在于，它考虑了人耳对不同频率的不同感知。在低频和高频之间，即使物理上的频率变化很小，人耳也可能感知到很大的变化。Mel刻度能够捕捉这种非线性关系。

在音乐处理中，这意味着本发明可以更准确地获取和描述音频的细节，这些细节在普通的线性或对数频率刻度上可能被忽略或不太明显。这也是为什么Mel谱在声学模型和音频分析中如此重要，尤其是在需要深入理解和分类声音内容的任务中。

S2，音乐序列表征：通过为频率特征添加位置编码获得频域特征，利用Transformer模型的编码器结构对所述频域特征进行编码，通过捕捉各频域特征之间的关联性，为每段音频数据生成一个向量表征，记为音频特征向量；将多段音频数据对应的音频特征向量组合为音频特征序列。

音乐序列表征的具体过程如下：

对于任何音乐分析，正确地抓住各个小段音频的特性是关键。每段音频都携带有音乐的某种信息，例如旋律、和声或节奏的一部分。对这些信息进行准确地编码将大大增强情绪匹配的准确性。Transformer模型在自然语言处理领域取得了显著的成功，特别是其编码器（encoder）部分，由于编码器的自注意机制能够捕捉特征之间的任意距离的关系，因此它特别适合处理具有丰富内部结构的数据，如音频数据。

将步骤S1中获得的每段音频数据的频率特征转换为频域特征，分别输入到Transformer模型的encoder中，从而为每段音频数据得到一个音频特征向量。

如图3所示，首先，N段音频数据的频率特征组成的频率特征序列记为。

由于Transformer模型不具有固有的顺序感知能力，本发明需要为每个频率特征添加位置编码。定义位置/>的位置编码为/>，则频域特征/>为：

；

Transformer模型的核心是自注意力机制，它允许模型为输入的每个特征分配权重，从而捕获音频中的局部和全局信息。多头机制意味着这个过程会在不同的表示空间中进行多次，从而捕获更多的上下文信息。每个频域特征通过多头自注意力层进行编码。多头自注意力层使Transformer模型能够为每个频域特征赋予不同的注意力权重，得到多头自注意力输出/>：

；

注意力权重通过以下方式计算：

；

中间变量；/>是Transformer模型中的可学习参数。

多头自注意力的输出，进一步通过前馈神经网络来捕获特征之间的非线性关系，得到前馈神经网络的输出：

。

Transformer模型的一个重要特点是其内部的每个子层（包括多头自注意力和前馈神经网络）都有一个残差连接。这确保了梯度可以直接反向传播，有助于缓解梯度消失问题，特别是在深层网络中。另外，层标准化也在每个子层的输出上应用，以确保网络的每一层都有稳定的激活值。这促进了更快和更稳定地训练。每个子层（如多头自注意力和前馈神经网络）的输出都通过残差连接和层标准化进行增强，得到音频特征向量：

。

经过上述流程，每段音频数据的频域特征都被单独编码为一个高维度的向量，这个向量充分捕获了该小段的音乐信息。对于整首音乐，本发明可以得到一系列这样的向量，组成音频特征序列，每个向量代表了音乐的一个小段，从而为后续的情绪匹配任务提供了丰富的表征。

S3，音乐情绪匹配：通过双向长短期记忆网络（Bi-LSTM）模型捕获音频特征序列中的时间依赖关系，并输出每段音频数据对应的情绪类别。双向结构确保了信息可以在序列中的任何方向上流动，从而更准确地捕获音乐的情绪变化和节奏。Bi-LSTM模型输出每段音频数据对应的情绪类别。

音乐情绪匹配的具体过程如下：

在步骤S3中，本发明利用Bi-LSTM来捕获音频特征序列中的时间依赖关系。Bi-LSTM则是长短期记忆网络（LSTM）的扩展，它考虑了音频特征序列中的过去和未来信息。这意味着，对于音频特征序列中的每个点，Bi-LSTM不仅查看该点之前的信息，还查看该点之后的信息。这对于音乐情绪匹配尤为重要，因为音乐的某个片段的情绪可能受到前后片段的影响。

具体来说，给定一个通过步骤S2产生的音频特征序列，其中/>是第t个音频特征向量。Bi-LSTM包括两个层：一个正向层和一个反向层。正向层从/>读取到/>，反向层从/>读取到/>。

正向层第t个时间步的隐藏状态为：/>；

反向层第t个时间步的隐藏状态为：/>；

其中，上标和/>分别代表正向和反向。

为了得到音频特征序列的一个综合表示，本发明可以将每个时间步的正向层隐藏状态和反向层隐藏状态串联起来，得到音频特征序列的综合表示：/>；其中/>代表串联。这种表示形式的好处是，它捕获了在时间/>之前和之后的所有相关信息，使得对情绪的预测更为准确。

最后，为了预测每段音频的情绪类别或情绪分数，可以将双向LSTM的输出传递给一个或多个全连接层，并使用softmax函数或回归方法来进行预测：

；

其中，和/>分别是要学习的权重参数和偏置参数，/>是预测的情绪类别的概率分布。

总的来说，Bi-LSTM通过考虑音频序列中的过去和未来信息，为音乐情绪匹配提供了一个强大且灵活的工具。它不仅捕获了音乐中的情绪变化和节奏，还能够考虑到不同部分之间的相互关系和依赖性，从而使预测更为准确。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于声学特征的音乐情绪匹配方法，包括以下步骤：

双向长短期记忆网络模型包括正向层和反向层，正向层从读取到/>，反向层从/>读取到/>；

正向层第t个时间步的隐藏状态为：/>；

反向层第t个时间步的隐藏状态为：/>；

2.根据权利要求1所述的基于声学特征的音乐情绪匹配方法，其特征在于，步骤一中，对原始音频数据进行预处理包括去噪和规范化。

3.根据权利要求1所述的基于声学特征的音乐情绪匹配方法，其特征在于，步骤一中，将得到的预处理后的音频数据划分为N段时，按照时间窗口将音频数据切分为段，每个时间窗口包含固定时间长度的音频数据，相邻时间窗口之间无间隔。

4.根据权利要求1所述的基于声学特征的音乐情绪匹配方法，其特征在于，步骤二具体包括：

为中每个频率特征/>添加位置编码，得到频域特征/>：/>；/>为第/>个位置的位置编码；

；

为与频率特征/>对应的频域特征，/>为注意力权重：

；

为与频率特征/>对应的频域特征，中间变量/>；均为Transformer模型中的可学习参数，上标T表示转置；

；

表示激活函数，/>均为权重矩阵，/>均为偏置项；

；

表示层标准化。

5.根据权利要求1所述的基于声学特征的音乐情绪匹配方法，其特征在于：步骤三中使用softmax函数得到每段音频数据的情绪类别时，第t段音频数据的情绪类别的概率分布为：

；