CN117828537B

CN117828537B - 一种基于cba模型的音乐情感识别方法和装置

Info

Publication number: CN117828537B
Application number: CN202410243382.4A
Authority: CN
Inventors: 周若华; 马思涵
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-17
Anticipated expiration: 2044-03-04
Also published as: CN117828537A

Abstract

本申请提供一种基于CBA模型的音乐情感识别方法和装置，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述方法包括：利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征；利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息；其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序；基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。本申请提供的基于CBA模型的音乐情感识别方法和装置，提供了一种专门用于音乐情感识别的音乐情感识别模型，可以实现音乐情感的准确识别。

Description

一种基于CBA模型的音乐情感识别方法和装置

技术领域

本申请涉及音乐情感识别技术领域，尤其涉及一种基于CBA模型的音乐情感识别方法和装置。

背景技术

随着数字音乐市场的蓬勃生命力，数字音乐数据的大量增长，和音乐信息检索的需求逐步加大，根据音乐的情感属性来进行音乐检索的需求也日益增长。在进行音乐检索时，通常需要构建音乐情感识别模型，以基于音乐情感识别模型进行音乐情感识别。

现有技术中的音乐情感识别模型，重点关注于局部的特征，识别出的情感易受到局部情感的影响，准确率低，因此，亟需一种方法，提供一种专门用于音乐情感识别的音乐情感识别模型，以实现音乐情感的准确识别。

发明内容

有鉴于此，本申请提供一种基于CBA模型的音乐情感识别方法和装置，提供一种专门用于音乐情感识别的音乐情感识别模型，以实现音乐情感的准确识别。

具体地，本申请是通过如下技术方案实现的：

本申请第一方面提供一种基于CBA模型的音乐情感识别方法，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述方法包括：

利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征；

利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息；

其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序；

基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。

本申请第二方面提供一种基于CBA模型的音乐情感识别装置，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述装置包括：提取模块、处理模块和预测模块；其中，

所述提取模块，用于利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征；

所述处理模块，用于利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息；

所述预测模块，用于基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。

本申请提供的基于CBA模型的音乐情感识别方法和装置，通过利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征，并利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息，其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序，进而基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。这样，通过将CNN模型、BiGRU模型和Attention模型组合训练得到CBA模型，并基于CBA模型预测得到待识别音乐片段的情感标签，避免从局部出发识别音乐的情感，考虑了音乐的全局情感，提高了音乐情感识别的准确性。

附图说明

图1为本申请提供的基于CBA模型的音乐情感识别方法实施例一的流程图；

图2为本申请一示例性实施例示出的CBA模型的结构示意图；

图3为本申请一示例性实施例示出的CNN模型的结构示意图；

图4为本申请一示例性实施例示出的BiGRU模型的结构示意图；

图5为本申请一示例性实施例示出的BiGRU模型中门控循环单元的结构示意图；

图6为本申请一示例性实施例示出的Attention模型的结构示意图；

图7为本申请提供的基于CBA模型的音乐情感识别装置实施例一的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请提供一种基于CBA模型的音乐情感识别方法和装置，提供一种专门用于音乐情感识别的音乐情感识别模型，以实现音乐情感的准确识别。

下面给出具体的实施例，用以详细介绍本申请的技术方案。

图1为本申请提供的基于CBA模型的音乐情感识别方法实施例一的流程图。请参照图1，本实施例提供的方法，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述方法包括：

S101、利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征。

具体的，图2为本申请一示例性实施例示出的CBA模型的结构示意图。请参照图2，所述CBA（CNN-BiGRU-Attention，用于文本分类的深度学习）模型包括CNN（ConvolutionalNeural Network，卷积神经网络）模型、BiGRU（Bidirectional Gated Recurrent Unit，双向门控循环神经网络）模型和Attention（注意力）模型。其中，CNN模型与BiGRU模型相连接，BiGRU模型与Attention模型相连接，Attention模型与全连接层（FC）相连接。请继续参照图2，CNN模型的输入为待识别音乐片段的Mel图，CNN模型的输出为待识别音乐片段的待识别特征矩阵（即图2中的Reshape）。CNN模型的输出作为BiGRU模型的输入，BiGRU模型和Attention模型共同输出综合待识别音乐时序。输出的综合待识别音乐时序经过全连接层，全连接层输出待识别音乐片段的情感标签（从Arousal唤醒和Valance效价两个维度）。

进一步的，所述CBA模型的训练过程至少包括：

基于带有情感标签的音乐数据集训练所述CBA模型，计算训练周期的损失函数，循环训练所述CBA模型直至损失函数值小于预设阈值；

其中，所述损失函数为平均绝对误差，平均绝对误差是目标值与预测值之差绝对值和的均值。

具体的，带有情感标签的音乐数据集指的是具有情感标签（例如快乐、伤感或紧张）的音乐数据集。预设阈值是根据实际需要设定的，本实施例中，不对预设阈值的具体值进行限定。例如，一实施例中，预设阈值的具体值为1。

进一步的，使用平均绝对误差(MAE)作为损失函数，平均绝对误差是目标值与预测值之差绝对值和的均值。由于乐器在演奏时动态范围广，从非常柔和的声音到非常响亮的声音都能完美的表达，因此，巨大的动态范围和连贯的音色转变需要所述CBA模型能准确预测更复杂的情感变化。平均绝对误差对所有的预测误差提供了一个均匀的权重，这意味着它不会对预测的异常值有过于强烈的反应，可以减小被异常值干扰，使得所述CBA模型对预测错误的惩罚程度不因误差大小的不同而有较大波动的期望。所述平均绝对误差的计算公式如下：

，

其中，N为待识别音乐片段的数量；为待识别音乐片段情感的真实值；/>为待识别音乐片段情感的预测值。

需要说明的是，所述带有情感标签的音乐数据集的获取方法，包括：

（1）录制多种情感对应的音乐片段。

具体的，多种情感是根据实际需要选择的，本实施例中，不对此进行限定。例如，一实施例中，多种情感可以包括快乐、伤感、紧张或悲伤。

具体实现时，由三名演奏者来录制音乐片段。录制的音乐片段包括中外古典乐曲、民歌、流行乐曲等，其涵盖了广泛的情感谱系。每位演奏者的录音是在20到50天的时间内收集的。演奏者根据乐谱所标注的情感，用手机或专业设备在安静的环境中录制乐曲。每位歌手使用的音频文件格式为.m4a/.wav/.mp3。

（2）对所述音乐片段进行音频采样和去噪处理，得到处理好的音乐数据集。

具体实现时，可使用适当的采样率对所述音乐片段进行音频采样，例如，本实施例中，采用44.1kHz到48kHz之间的采样率对所述音乐片段进行音频采样。进一步的，使用去噪算法（例如谱减法、小波降噪和维纳滤波）对经过音频采样后的音乐片段进行去噪处理，得到处理好的音乐数据集。

（3）基于情感模型对所述处理好的音乐数据集进行情感评价，得到带有情感标签的音乐数据集。

具体的，情感模型为效价唤醒（Valence-Arousal,VA）连续情感模型，其能够在连续的时间序列中预测音频中的情感效价（valence）和唤醒度（arousal），其中，效价表示情感的正负程度，唤醒度表示情感的激活程度。

具体实现时，在进行情感评价前，将播放10个代表极端情绪的音乐片段(分别是效价和唤醒值的极大值和极小值)以确保评价者能理解并熟悉情感分类的标准。每个片段有4人注释。每段标有一个静态VA值。效价评分范围为1-5，1为不开心，5为极度开心；唤醒度评分范围为1-5，1为唤醒程度很低（失落），5为唤醒程度非常高（激动）。在评价者冲分理解评价指标后，评价者基于评价指标对所述处理好的音乐数据集进行情感评价，得到带有情感标签的音乐数据集。

本申请提供的方法，一方面基于感情评价的方法得到带有情感标签的音乐数据集，避免了因为个人直觉或专业音乐家的主观判断，导致的情感标签的不一致性，提高了CBA模型的识别准确度。另一方面，解决了数据集缺乏多样性和音频质量和噪声对情感识别造成的不准确的问题。

进一步的，待识别音乐片段指的是待识别特征的音乐片段，待识别特征矩阵指的是对待识别音乐片段进行特征提取后得到的特征矩阵，其包括多个维度的音乐特征（例如音高、音强、音色和节奏）。图3为本申请一示例性实施例示出的CNN模型的结构示意图。请参照图3，所述CNN模型包括输入层、卷积层、归一层、激活函数和池化层；其中，

输入层输入的为所述待识别音乐片段；

卷积层对所述待识别音乐片段进行特征提取，提取出音频特征图；

归一层对卷积层提取到的音频特征图进行归一化处理；

激活函数将归一层输出的音频特征图转化为矩阵形式；

池化层降低音频特征图对应的矩阵的维度，得到所述待识别特征矩阵。

具体实现时，将所述CNN模型的卷积层作为特征提取器，使所述CNN模型的输出是卷积层提取到的音频特征图而不是分类结果。CNN模型的卷积层将输入层输入的待识别音乐片段输入到一个二维卷积层,该卷积层使用K个大小为3×3的滤波器，归一层对卷积层输出的音频特征图进行归一化处理。接下来，将经过归一化的音频特征图传入ReLU（Rectified Linear Unit）激活函数中。最后，通过池化层MaxPooling（最大池化）操作降低矩阵的维度，保留音乐情感特征中的关键信息，从而得到待识别特征矩阵。

作为一种可选的实施例，基于CNN模型从待识别音乐中抽取音高、音强、音色和节奏的特征。每个特征可以构成一个特征矩阵，将各个特征矩阵拼接，即可构成待识别特征矩阵；每个特征也可以构成待识别特征矩阵中的n行m列元素。作为另一种可选的实施例，根据节奏变化对所述待识别音乐进行片段分割，得到分割后的音乐片段的节奏特征，其中，每个音乐片段的节奏类似，节奏相似度大于预设阈值；以分割后的音乐片段为基准，利用时间信息将音高、音强和音色特征对齐至节奏特征，得到每个片段的复合特征，所述复合特征中至少包括节奏特征、音高特征、音强特征和音色特征；对于每个复合特征，根据特征的变化程度计算融合权重，根据融合权重融合节奏特征、音高特征、音强特征和音色特征。

其中，融合权重计算具体为：以待识别音乐的平均特征为参考，以特征相对于平均特征的差值与平均特征的比值作为变化率，以预设权重与变化率的乘积作为特征对应的融合权重，其中，不同特征的预设权重不同，节奏特征的预设权重远大于其他特征的权重。例如，计算待识别音乐的平均节奏特征，以当前复合特征中的节奏特征与平均节奏特征之间的差值占平均节奏特征的比重作为节奏特征变化率，以节奏特征变化率与预设节奏权重的乘积作为节奏特征的融合权重；同样地，分别计算音高特征的融合权重、音强特征的融合权重和音色特征的融合权重，将复合特征中各个特征与对应的融合权重相乘后，以矩阵形式表示复合特征，得到融合后的复合特征。

仅通过每个特征的独立识别，融合识别结果的方式识别音乐的情感，难以综合利用各个特征进行校验，降低了音乐情感识别的准确性。本发明为了利用音乐的多个特征进行互相提示，在特征提取阶段将每个特征进行有利于情感识别的融合，提高了信息的全面利用率和音乐情感识别的准确率。进一步的，音乐具有起伏变化的特点，即情感也会发生变化，根据节奏的变化将音乐进行分割，以对在后的片段情感进行识别能够准确识别音乐的情感变化，避免受到情感变化的影响导致整体情感识别的有误，例如在悲伤、激动、释怀的整个情感变化过程中，难以使用一个词表达整个音乐的情感，此时分段对音乐情感进行识别能够提高识别的准确度。对此，在后的待识别特征矩阵等可以为整个音乐对应的信息，也可以为分割后音乐的片段信息。

S102、利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息；其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序。

具体的，序列化处理指的是将待识别特征矩阵转化为可存储和可传输的格式的过程，以实现数据的持久化和跨系统的数据交换。各个时间周期的音频信息不一定相同，得到各个时间周期的音频信息包括各个时间周期的音频信息的音乐特征。

进一步的，图4为本申请一示例性实施例示出的BiGRU模型的结构示意图。请参照图4，所述BiGRU模型包括重置门、更新门和合并门；

其中，重置门接收输入的所述待识别特征矩阵的前向信息，并生成对应的前向隐藏状态序列；

更新门接收输入的所述待识别特征矩阵的反向信息，并生成对应的后向隐藏状态序列；

合并门将前向隐藏状态序列和后向隐藏状态序列拼接在一起，得到各个时间周期的音频信息。

具体的，前向信息指的是在BiGRU模型的前向传播过程中，从输入到输出的信息流动。前向隐藏状态序列指的是从输入的所述待识别特征矩阵的开始到结束的每个时间步中，通过前向计算得到的隐藏状态的序列。反向信息指的是在所述BiGRU模型的训练过程中，通过反向传播算法计算得到的关于损失函数对各个参数的梯度信息，反应了损失函数变化对模型中每个参数的影响程度，即参数的调整方向和幅度。后向隐藏状态序列指的是从输入的所述待识别特征矩阵的结束到开始的每个时间步中，通过反向计算得到的隐藏状态的序列。

进一步的，图5为本申请一示例性实施例示出的BiGRU模型中门控循环单元的结构示意图。请参照图5，其中，假设t时刻的外部状态为，/> 为当前时刻的待识别特征矩阵,它会经过一个线性变换（与权重矩阵 /> 相乘）,而/>为上一时刻的外部状态, 同样也会经过一个线性变换。更新门将这两部分信息相加并投入到 Sigmoid 激活函数中（公式1），因此将激活结果压缩到0到1之间。/> 和 /> 先经过一个线性变换，再相加投入Sigmoid 激活函数以输出激活值（公式2）。计算重置门 /> 与/>的Hadamard乘积，即与/>的对应元素乘积。该Hadamard乘积将确定所要保留与遗忘的以前信息（公式3）。最终记忆的计算过程中，更新门决定了当前记忆内容/>和前一时间步/>中需要收集的信息。/>为更新门的激活结果，它以门控的形式控制了信息的流入。/>与/>的Hadamard乘积表示前一时间步保留到最终记忆的信息，该信息加上当前记忆保留至最终记忆的信息就等于最终门控循环单元输出的内容（公式4）。BiGRU模型不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。相关计算公式如下所示：

，

其中，为权重矩阵；/>为当前时刻的待识别特征矩阵；/>为上一时刻的外部状态；/>为更新门的递归权重矩阵；/>为更新门的偏置项；/>为更新门的激活结果；为权重矩阵；/>为重置门的递归权重矩阵；/>为重置门的偏置项；/>为重置门的激活结果；/>为候选隐藏状态的偏置项；/>为当前记忆内容；/>为合并门的激活结果。

本申请提供的BiGRU模型，与只能处理单向序列的GRU模型相比，BiGRU模型对于音乐片段的每一个时间点上都有一个更丰富的、结合了来自未来和过去信息的隐藏状态表达，可以提供更深层次的音乐情感特征表示，能够帮助模型更准确地识别出音乐片段中富有表现力的情感内容。BiGRU通过使模型同时考虑前后文信息，更好地捕捉并综合这种情感动态，从而在这种复杂情感判断中表现更佳。

作为一种可选的实施例，所述合并门将前向隐藏状态序列和后向隐藏状态序列拼接在一起之前，还包括：提取所述待识别音乐的场景特征和歌词语义特征；合并门以所述场景特征和歌词语义特征作为提示，从所述前向隐藏状态序列和后向隐藏状态序列中过滤干扰序列，所述干扰序列与场景特征和歌词语义特征相关度低于预设阈值；拼接过滤后的前向隐藏状态序列和后向隐藏状态序列，得到各个时间周期的音频信息。进一步的，得到各个时间周期的音频信息之后，还包括：

基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序。作为一种可选的实施例，可以将attention模型作为外接模块，在attention模型中进行加权求和处理，简化对BiGRU模型的调整和训练，提高了模型搭建的效率。另一方面，可以将attention的输出权重反馈至BiGRU模型，从而利用BiGRU模型进行加权求和的计算。

具体的，各个时间周期的音乐特征权重表示不同时间周期的音乐特征对整体音乐的重要程度，某个时间周期的音乐特征权重越大，表示该时期的音乐特征对整体音乐的重要程度越高。

进一步的，图6为本申请一示例性实施例示出的Attention模型的结构示意图。请参照图6，所述Attention模型根据音乐特征的情绪价值对BiGRU模型输出的各个时间周期的音乐特征计算权重，所述权重表示音乐特征与情绪价值的相关程度，根据权重对各个时间周期的音频信息进行加权求和，得到综合待识别音乐时序，输出至全连接层。

具体的，可根据如下公式对各个时间周期的音乐特征进行加权求和，得到综合待识别音乐时序：

，

其中，表示时间周期为t时的音乐特征所对应的注意力分数；W和b为模型需要学习的参数；/>为输入的第i个元素的隐藏状态；/>为计算每个元素的权重；/>表示时间周期为t时的音乐特征所对应的权重；/>表示Attention模型在n时刻经过加权后的综合待识别音乐时序。

S103、基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。

具体的，全连接层选用Sigmoid为激活函数，全连接层与Attention模型相连接，用以接收Attention模型输出的综合待识别音乐时序，对接收到的综合待识别音乐时序进行回归预测，得到所述待识别音乐片段的情感标签。

具体实现时，可按照如下公式对所述综合待识别音乐时序进行回归预测：

，

其中，表示第t首待识别音乐片段的VA值；/>为权重矩阵；/>为偏置项；/>为所述综合待识别音乐时序。

进一步的，根据待识别音乐片段的VA值，可以得到待识别音乐片段的情感标签。

作为一种优选的实施例，所述基于全连接层，对所述综合待识别音乐时序进行回归预测之前，还包括：提取所述综合待识别音乐时序中的场景特征和歌词语义特征，利用提示模型识别所述场景特征和歌词语义特征，获得音乐情感范围，基于音乐情感范围调整所述全连接层的输出通道，基于调整后的输出通道对所述综合待识别音乐时序进行回归预测。

本发明提供的方法，为了实现较高的识别准确度，同时提高识别的速度，基于整个音乐的场景和氛围作为提示，筛选了部分可能的情感，从而调整了全连接层的输出通道，即每次识别时全连接层的输出通道都是适配性变化的，能够完成当前识别场景下的最高效的识别任务，无需对其他情感进行识别计算，提高了识别的速度。

本实施例提供的基于CBA模型的音乐情感识别方法，通过利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征，并利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息，其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序，进而基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。这样，通过将CNN模型、BiGRU模型和Attention模型组合训练得到CBA模型，并基于CBA模型预测得到待识别音乐片段的情感标签，避免从局部出发识别音乐的情感，考虑了音乐的全局情感，提高了音乐情感识别的准确性。

与前述一种基于CBA模型的音乐情感识别方法的实施例相对应，本申请还提供了一种基于CBA模型的音乐情感识别装置的实施例。

图7为本申请提供的基于CBA模型的音乐情感识别装置实施例一的结构示意图。请参照图7，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述装置包括：提取模块710、处理模块720和预测模块730；其中，

所述提取模块710，用于利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征；

所述处理模块720，用于利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息；

所述预测模块730，用于基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。

本实施例提供的基于CBA模型的音乐情感识别装置，通过利用CNN模型从待识别音乐片段中提取待识别特征矩阵，所述待识别特征矩阵包括多个维度的音乐特征，并利用BiGRU模型对所述待识别特征矩阵进行序列化处理，得到各个时间周期的音频信息，其中，基于Attention模型计算各个时间周期的音乐特征权重，根据所述权重对各个时间周期的音频信息加权求和，得到综合待识别音乐时序，进而基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签。这样，通过将CNN模型、BiGRU模型和Attention模型组合训练得到CBA模型，并基于CBA模型预测得到待识别音乐片段的情感标签，避免从局部出发识别音乐的情感，考虑了音乐的全局情感，提高了音乐情感识别的准确性。

本实施例的装置，可用于执行图1所示方法实施例的步骤，具体实现原理和实现过程类似，此处不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于CBA模型的音乐情感识别方法，其特征在于，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述方法包括：

基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签；

所述利用CNN模型从待识别音乐片段中提取待识别特征矩阵，具体包括：

根据节奏变化对所述待识别音乐进行片段分割，得到分割后的音乐片段的节奏特征；

以分割后的音乐片段为基准，利用时间信息将音高、音强和音色特征对齐至节奏特征，得到每个片段的复合特征，所述复合特征中至少包括节奏特征、音高特征、音强特征和音色特征；

对于每个复合特征，根据特征的变化程度计算融合权重，根据融合权重融合节奏特征、音高特征、音强特征和音色特征；

所述根据特征的变化程度计算融合权重，根据融合权重融合节奏特征、音高特征、音强特征和音色特征，具体包括：

以待识别音乐的平均特征为参考，以特征相对于平均特征的差值与平均特征的比值作为变化率，以预设权重与变化率的乘积作为特征对应的融合权重；

将复合特征中各个特征与对应的融合权重相乘后，以矩阵形式表示复合特征，得到融合后的复合特征；

所述基于全连接层，对所述综合待识别音乐时序进行回归预测之前，包括：

提取所述综合待识别音乐时序中的场景特征和歌词语义特征；

利用提示模型识别所述场景特征和歌词语义特征，获得音乐情感范围；

基于音乐情感范围调整所述全连接层的输出通道，基于调整后的输出通道对所述综合待识别音乐时序进行回归预测。

2.根据权利要求1所述的方法，其特征在于，所述CNN模型包括输入层、卷积层、归一层、激活函数和池化层；其中，

输入层输入的为所述待识别音乐片段；

归一层对卷积层提取到的音频特征图进行归一化处理；

激活函数将归一层输出的音频特征图转化为矩阵形式；

3.根据权利要求1所述的方法，其特征在于，所述BiGRU模型包括重置门、更新门和合并门；

4.根据权利要求1所述的方法，其特征在于，所述Attention模型根据音乐特征的情绪价值对BiGRU模型输出的各个时间周期的音频信息的音乐特征计算权重，所述权重表示音乐特征与情绪价值的相关程度，根据权重对各个时间周期的音频信息进行加权求和，得到综合待识别音乐时序，输出至全连接层。

5.根据权利要求1所述的方法，其特征在于，所述CBA模型的训练过程至少包括：

6.根据权利要求5所述的方法，其特征在于，所述带有情感标签的音乐数据集的获取方法，包括：

录制多种情感对应的音乐片段；

对所述音乐片段进行音频采样和去噪处理，得到处理好的音乐数据集；

基于情感模型对所述处理好的音乐数据集进行情感评价，得到带有情感标签的音乐数据集。

7.一种基于CBA模型的音乐情感识别装置，其特征在于，所述CBA模型包括CNN模型、BiGRU模型和Attention模型；所述装置包括：提取模块、处理模块和预测模块；其中，

所述预测模块，用于基于全连接层，对所述综合待识别音乐时序进行回归预测，预测所述待识别音乐片段的情感标签；