CN117390216A

CN117390216A - 音乐数据处理方法、装置

Info

Publication number: CN117390216A
Application number: CN202311318000.1A
Authority: CN
Inventors: 潘栗; 李心竹; 郝润华; 王鹤然; 田野
Original assignee: Mudanjiang Normal University
Current assignee: Mudanjiang Normal University
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-12
Anticipated expiration: 2043-10-12
Also published as: CN117390216B

Abstract

本发明涉及音乐音频处理领域，具体涉及一种音乐数据处理方法、装置，方法包括预先构建若干个目标音乐的情绪标签；然后构建每一种情绪标签对应的二分类模型，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，当目标音乐获得多个情绪标签的数量超过第一阈值，则提取目标音乐的每一个情绪标签的分类概率分布，并且对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，给多维度分类向量分配对应的空间坐标位置并存储多维度分类向量对应的空间坐标位置形成空间数据集；以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类。

Description

音乐数据处理方法、装置

技术领域

本发明属于音乐音频处理领域，具体涉及一种音乐数据处理方法、装置。

背景技术

在为媒体内容添加背景音乐技术之中，为便于为媒体内容添加背景音乐，内容平台会提供带有情绪标签的音乐库，通过情绪标签来标识音乐可能让用户感受到情绪，为媒体内容进行背景音乐添加时，一般通过参考音乐的情绪标签从音乐库中确定与该媒体内容对应的背景音乐，因为相关现有技术为音乐分配的情绪标签并不准确，为此相关现有技术，比如专利文献CN202111107521.3即公开了一种背景音乐添加方法，该技术提出通过多分类模型识别目标音乐在多个情绪标签下的概率分布，然后确定包括基于人类情绪确定的1个情绪标签和基于目标内容平台中内容所涉及主题确定的1个情绪标签，共计两个情绪标签，然后根据目标音乐的2个情绪标签，确定目标媒体内容对应的背景音乐。

这种现有技术核心在于通过多分类模型识别目标音乐的情绪标签并具体在分类上，比如其通常采用二分类方法，对于每一种情绪类型设置一种对应的情绪二分类模块，比如采用具体的神经网络激活函数采用softmax函数实现分类，这种分类最终能够获得每一种音乐的情绪标签下目标音乐拥有该情绪标签的概率分布参数，比如能够确定，对高兴这种音乐的情绪标签，目标音乐拥有高兴标签的概率为x，目标音乐不拥有高兴标签的概率为1-x，显然这种二分类方法只能确定目标音乐属于某一个特定情绪的概率，这样可能出现某一种目标音乐获得多种音乐标签的情况，也即比如目标音乐经过若干情绪二分类模块处理之后可能出现目标音乐同时拥有多个标签的概率均大于0.5，这种情况下目标音乐就很难具有确定的标签分类，一般的超过2个分类标签对于整个目标音乐的分类就非常困难，所以现有技术中基于多个情绪标签对目标音乐的情绪标签分类判断还不够精准。

发明内容

本发明目的在于提供一种音乐数据处理方法、装置，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：

一种音乐数据处理方法包括步骤，

S1预先构建若干个目标音乐的情绪标签；

S2然后构建每一种情绪标签对应的二分类模型，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，当目标音乐获得多个情绪标签的数量超过第一阈值，则提取目标音乐的每一个情绪标签的分类概率分布，并且对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，给多维度分类向量分配对应的空间坐标位置并存储多维度分类向量对应的空间坐标位置形成空间数据集；

S3循环步骤S2若干次，每一次循环之前更换不同的目标音乐，每一次循环均获得对应的多维度分类向量对应的空间坐标位置，实现对空间数据集的更新；

S4以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类。

进一步，构建每一种情绪标签对应的二分类模型具体采用基于卷积神经网络构建的分类模型。

进一步，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，具体包括在特定情绪标签对应的二分类模型之中输入目标音乐对应数据输出目标音乐对应情绪标签的分类概率分布。

进一步，提取目标音乐的每一个情绪标签的分类概率分布，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，提取情绪标签的分类概率分布，即包括，提取目标音乐拥有该类情绪的概率。

进一步，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，对情绪标签的分类概率分布归一化处理，即包括，对目标音乐拥有若干个情绪标签的概率归一化处理，形成多维度分类向量具体指，多维度分类向量的每一个分量均由一个情绪标签的概率归一化获取。

进一步，空间数据集包括多个多维度分类向量对应的空间坐标位置，每一个空间坐标位置即对应一个多维度分类向量，空间坐标位置与对应多维度分类向量的数学表征形式一致，空间数据集之中存储的空间坐标定义为标准空间坐标，每一个标准空间坐标拥有一个复合情绪标签。

进一步，以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类，具体指，在对目标音乐进行分类之前首先基于每一种情绪标签对应的二分类模型对目标音乐进行分类，然后，提取目标音乐的每一个情绪标签的分类概率分布，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，并且将该多维度分类向量作为待测向量，然后计算待测向量与空间数据集之中每一个标准空间坐标的距离，确定距离最近的一个标准空间坐标并且提取该距离最近标准空间坐标的复合情绪标签，然后给目标音乐附加该复合情绪标签作为唯一性分类标签对目标音乐进行分类。

本申请还公开了音乐数据处理装置，包括神经网络单元、控制单元、循环控制单元；

神经网络单元，用于构建每一种情绪标签对应的二分类模型，基于每一种情绪标签对应的二分类模型对目标音乐进行分类；

控制单元，用于当目标音乐获得多个情绪标签的数量超过第一阈值，则提取目标音乐的每一个情绪标签的分类概率分布，并且对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，给多维度分类向量分配对应的空间坐标位置并存储多维度分类向量对应的空间坐标位置形成空间数据集；

循环控制单元，用于循环控制，每一次循环之前更换不同的目标音乐，每一次循环均获得对应的多维度分类向量对应的空间坐标位置，实现对空间数据集的更新；

控制单元，还用于以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类。

音乐数据处理装置功能通过程序代码实现，相应的程序代码存储在机器可读介质。

有益效果

本申请实现了基于多个情绪标签对目标音乐的情绪标签分类的唯一化，分类更加的精准，具体的在数据处理上首先即通过单独的空间坐标位置对音乐分类并且能够实现基于多个情绪标签对目标音乐的情绪标签分类唯一化，实际上每一个分类本质又是多个情绪分量的复合，所以这种分类不仅仅实现了唯一化，又巧妙保留了多情绪的多元化，在分类之中即通过单独的空间坐标位置对音乐分类并且能够实现基于多个情绪标签对目标音乐的情绪标签分类唯一化。

附图说明

图1为本申请一种音乐数据处理方法的流程图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中基于多个情绪标签对目标音乐的情绪标签分类判断还不够精准的问题，本申请公开了一种音乐数据处理方法，参考图1，包括步骤:

S1预先构建若干个目标音乐的情绪标签；比如有，喜、怒、乐等等10个情绪标签。

S2构建每一种情绪标签对应的二分类模型，构建每一种情绪标签对应的二分类模型具体可以采用基于卷积神经网络构建的分类模型，卷积神经网络是近年发展起来，20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(ConvolutionalNeuralNetworks-简称CNN)。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。基于卷积神经网络构建分类模型具体为现有技术不再赘述。基于每一种情绪标签对应的二分类模型对目标音乐进行分类，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，具体包括在特定情绪标签对应的二分类模型之中输入目标音乐对应数据输出目标音乐对应情绪标签的分类概率分布，比如特定情绪标签为A类情绪标签，则具体包括在A类情绪标签对应的二分类模型之中输入目标音乐对应数据，输出目标音乐拥有A类情绪标签的分类概率分布，拥有A类情绪标签的分类概率分布包括目标音乐拥有A类情绪的概率X，还包括目标音乐不拥有A类情绪的概率1-X，当目标音乐获得多个情绪标签的数量超过第一阈值，比如第一阈值为2个，则提取目标音乐的每一个情绪标签的分类概率分布，提取目标音乐的每一个情绪标签的分类概率分布，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，提取情绪标签的分类概率分布，即包括，提取目标音乐拥有该类情绪的概率，并且对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，对情绪标签的分类概率分布归一化处理，即包括，对目标音乐拥有若干个情绪标签的概率归一化处理，形成多维度分类向量具体指，多维度分类向量的每一个分量均由一个情绪标签的概率归一化获取，给多维度分类向量分配对应的空间坐标位置并存储多维度分类向量对应的空间坐标位置形成空间数据集，空间数据集包括多个多维度分类向量对应的空间坐标位置，每一个空间坐标位置即对应一个多维度分类向量，空间坐标位置与对应多维度分类向量的数学表征形式一致，空间数据集之中存储的空间坐标定义为标准空间坐标，每一个标准空间坐标拥有一个复合情绪标签，给标准空间坐标附加复合情绪标签也可以通过人工标注。

S3循环步骤S2若干次，每一次循环之前更换不同的目标音乐，每一次循环均获得对应的多维度分类向量对应的空间坐标位置，实现对空间数据集的更新，实际上可以理解的，经过若干次循环空间数据集的存储数据增加，每一个增加的空间坐标位置即对应一个音乐的分类，可见本申请在数据处理上首先即通过单独的空间坐标位置对音乐分类并且能够实现基于多个情绪标签对目标音乐的情绪标签分类唯一化，实际上每一个分类本质又是多个情绪分量的复合，所以这种分类不仅仅实现了唯一化，又巧妙保留了多情绪的多元化。

S4以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类；以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类，具体指，在对目标音乐进行分类之前首先基于每一种情绪标签对应的二分类模型对目标音乐进行分类，然后，提取目标音乐的每一个情绪标签的分类概率分布，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，并且将该多维度分类向量作为待测向量，然后计算待测向量与空间数据集之中每一个标准空间坐标的距离，这里计算的距离包括曼哈顿距离、欧式距离等，确定距离最近的一个标准空间坐标并且提取该距离最近标准空间坐标的复合情绪标签，然后给目标音乐附加该复合情绪标签作为唯一性分类标签对目标音乐进行分类，可以理解的，可见本申请在分类之中即通过单独的空间坐标位置对音乐分类并且能够实现基于多个情绪标签对目标音乐的情绪标签分类唯一化。

本申请需要保护的实施例包括：

一种音乐数据处理方法，如图1，包括步骤，

S1预先构建若干个目标音乐的情绪标签；

优选地，构建每一种情绪标签对应的二分类模型具体采用基于卷积神经网络构建的分类模型。

优选地，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，具体包括在特定情绪标签对应的二分类模型之中输入目标音乐对应数据输出目标音乐对应情绪标签的分类概率分布。

优选地，提取目标音乐的每一个情绪标签的分类概率分布，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，提取情绪标签的分类概率分布，即包括，提取目标音乐拥有该类情绪的概率。

优选地，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，对情绪标签的分类概率分布归一化处理，即包括，对目标音乐拥有若干个情绪标签的概率归一化处理，形成多维度分类向量具体指，多维度分类向量的每一个分量均由一个情绪标签的概率归一化获取。

优选地，空间数据集包括多个多维度分类向量对应的空间坐标位置，每一个空间坐标位置即对应一个多维度分类向量，空间坐标位置与对应多维度分类向量的数学表征形式一致，空间数据集之中存储的空间坐标定义为标准空间坐标，每一个标准空间坐标拥有一个复合情绪标签。

优选地，以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类，具体指，在对目标音乐进行分类之前首先基于每一种情绪标签对应的二分类模型对目标音乐进行分类，然后，提取目标音乐的每一个情绪标签的分类概率分布，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，并且将该多维度分类向量作为待测向量，然后计算待测向量与空间数据集之中每一个标准空间坐标的距离，确定距离最近的一个标准空间坐标并且提取该距离最近标准空间坐标的复合情绪标签，然后给目标音乐附加该复合情绪标签作为唯一性分类标签对目标音乐进行分类。

可以理解的，本申请这里的音乐数据处理方法功能实现需要对应的音乐数据处理装置，音乐数据处理装置包括神经网络单元，用于构建每一种情绪标签对应的二分类模型，基于每一种情绪标签对应的二分类模型对目标音乐进行分类；

可以理解的，本申请这里的音乐数据处理装置功能也可以通过程序代码实现，相应的程序代码存储在机器可读介质，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。为了提供与用户的交互，可以在计算机上实施此处描述的音乐数据处理装置单元功能，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

以上所述实施例仅表达了本发明的部分实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种音乐数据处理方法，其特征在于，包括步骤：

S1预先构建若干个目标音乐的情绪标签；

2.根据权利要求1所述的一种音乐数据处理方法，其特征在于，构建每一种情绪标签对应的二分类模型具体采用基于卷积神经网络构建的分类模型。

3.根据权利要求1所述的一种音乐数据处理方法，其特征在于，基于每一种情绪标签对应的二分类模型对目标音乐进行分类，具体包括在特定情绪标签对应的二分类模型之中输入目标音乐对应数据输出目标音乐对应情绪标签的分类概率分布。

4.根据权利要求1所述的一种音乐数据处理方法，其特征在于，提取目标音乐的每一个情绪标签的分类概率分布，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，提取情绪标签的分类概率分布，即包括，提取目标音乐拥有该类情绪的概率。

5.根据权利要求1所述的一种音乐数据处理方法，其特征在于，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，这里的每一个情绪标签，均指，被目标音乐拥有该类情绪的概率大于0.5的情绪标签，对情绪标签的分类概率分布归一化处理，即包括，对目标音乐拥有若干个情绪标签的概率归一化处理，形成多维度分类向量具体指，多维度分类向量的每一个分量均由一个情绪标签的概率归一化获取。

6.根据权利要求1所述的一种音乐数据处理方法，其特征在于，空间数据集包括多个多维度分类向量对应的空间坐标位置，每一个空间坐标位置即对应一个多维度分类向量，空间坐标位置与对应多维度分类向量的数学表征形式一致，空间数据集之中存储的空间坐标定义为标准空间坐标，每一个标准空间坐标拥有一个复合情绪标签。

7.根据权利要求1所述的一种音乐数据处理方法，其特征在于，以多维度分类向量对应的空间坐标位置作为唯一性分类标签对目标音乐进行分类，具体指，在对目标音乐进行分类之前首先基于每一种情绪标签对应的二分类模型对目标音乐进行分类，然后，提取目标音乐的每一个情绪标签的分类概率分布，对目标音乐的每一个情绪标签的分类概率分布归一化处理形成多维度分类向量，并且将该多维度分类向量作为待测向量，然后计算待测向量与空间数据集之中每一个标准空间坐标的距离，确定距离最近的一个标准空间坐标并且提取该距离最近标准空间坐标的复合情绪标签，然后给目标音乐附加该复合情绪标签作为唯一性分类标签对目标音乐进行分类。

8.一种用于执行权利要求1所述方法的音乐数据处理装置，其特征在于，包括神经网络单元、控制单元、循环控制单元；

9.一种用于执行权利要求1所述方法的音乐数据处理装置，其特征在于，音乐数据处理装置功能通过程序代码实现，相应程序代码存储在机器可读介质。