CN108877838A

CN108877838A - 音乐特效匹配方法及装置

Info

Publication number: CN108877838A
Application number: CN201810787419.4A
Authority: CN
Inventors: 车君怡; 任续超; 张学斌
Original assignee: Black Box Technology (beijing) Co Ltd
Current assignee: Black Box Technology (beijing) Co Ltd
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-11-23
Anticipated expiration: 2038-07-17
Also published as: CN108877838B

Abstract

本发明提供了一种音乐特效匹配方法及装置，涉及音乐识别技术领域，该方法包括：获取待匹配的音频数据，检测音频数据的节拍；判断该节拍是否为音频数据的节奏变化点，如果是，将节拍标记为可选音乐段落起始点，生成起始点列表；按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；设置每个音乐段落的情感标签，计算每个情感标签的情感分数；在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果并与音乐段落关联存储，以使音频数据被读取时，播放视觉表达效果。本发明提供的音乐特效匹配方法及装置，助于用户与音乐的情感交互，提升了用户的体验度。

Description

音乐特效匹配方法及装置

技术领域

本发明涉及音乐识别的技术领域，尤其是涉及一种音乐特效匹配方法及装置。

背景技术

目前很多便携式设备都可以进行音乐播放，而在音乐播放的过程中，人们开始追求个性化的播放模式以及强调与音乐的情感交互过程。现有技术中，对音乐进行识别时大部分是对整首歌的曲风或情感进行识别，并将整首音乐与音乐特效进行匹配，其分类类别一般较少，匹配单调，无法满足用户追求个性化的要求，导致用户的体验度较差等问题。

针对上述音乐识别单一、匹配单调，导致用户体验度较差的问题，目前尚未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种音乐特效匹配方法及装置，以缓解上述音乐识别单一、匹配单调的技术问题。

第一方面，本发明实施例提供了一种音乐特效匹配方法，该方法包括：获取待匹配的音频数据，检测所述音频数据的节拍；判断检测到的节拍是否为音频数据的节奏变化点，如果是，将节拍标记为可选音乐段落起始点，生成起始点列表，其中，起始点列表包括多个可选音乐段落起始点；按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的分数；在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，检测音频数据的节拍的步骤包括：按照预先设置的分段间隔，将音频数据划分成等长段落；根据音频数据的PCM数据计算每个等长段落的音频能量值；将高于预先设置的能量阈值的音频能量值标记为峰值，峰值对应的等长段落标记为峰值段落；获取预先存储的BPM集合，从小到大依次遍历BPM集合中的每个BPM值；计算每个BPM值与峰值分布的重合度；根据重合度最高的BPM值确定音频数据的节拍。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，判断检测到的节拍是否为音频数据的节奏变化点的步骤包括：获取节拍，按照预先设置的采样频率与段落长度选取节拍的采样点集合；根据采样点集合对节拍进行图片编码，生成节拍对应的第一编码图片，其中，每个采样点集合包括当前采样点集合的左右声道数据，第一编码图片为三通道RGB图片；将第一编码图片输入预先训练好的第一图片标记模型，计算第一编码图片的标记等级；获取标记等级，当标记等级与节奏变化标记一致时，确定该节拍为音频数据的节奏变化点；当标记等级与节奏变化标记不一致时，确定该节拍为音频数据的非节奏变化点。

结合第一方面的第一种可能性，本发明实施例提供了第一方面的第三种可能的实施方式，其中，起始点选取规则包括：可选音乐段落起始点为音频数据对应歌词语句的起始点对应的节拍；音频能量值超过峰值指定倍数对应的可选音乐段落起始点；按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落的步骤包括：当可选音乐段落起始点满足起始点选取规则之一时，确定可选音乐段落起始点为音乐段落起始点；按照音频数据的播放顺序，音乐段落的结束点为近邻的下一个音乐段落起始点，将音频数据划分成多个不等长的音乐段落。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的情感分数的步骤包括：获取每个音乐段落，按照预先设置的采样频率与子段落长度，将音乐段落划分成多个等长子段落，并删除末尾长度不足的子段落；对每个等长子段落进行图片编码，生成每个等长子段落对应的第二编码图片，其中，每个音乐段落的采样点包括当前每个音乐段落的采样点的左右声道数据，第二编码图片为三通道RGB图片；将第二编码图片输入预先训练好的第二图片标记模型，在预先存储的标签数据库中查找第二编码图片对应的情感标签，以及情感标签对应的情感分数；统计每个等长子段落对应的情感分数，计算每个音乐段落的情感分数。

结合第一方面的第四种可能性，本发明实施例提供了第一方面的第五种可能的实施方式，计算每个音乐段落的情感分数的步骤包括：按照预先设置的权重，依次对音乐段落包含的等长子段落对应的情感分数进行加权平均求和计算；将计算的结果标记为音乐段落的情感分数。

结合第一方面的第三种可能性，本发明实施例提供了第一方面的第六种可能的实施方式，将音频数据划分成多个不等长的音乐段落之后，该方法还包括：将每个音乐段落起始点标记为视觉表达效果的切换点；当监听到音频数据被读取时，监测音频数据的播放时间点；当该时间点与切换点重合时，播放视觉表达效果。

结合第一方面的第二种可能性，本发明实施例提供了第一方面的第七种可能的实施方式，该方法还包括：获取音频数据以及音频数据的节拍；根据该节拍生成指定长度的音频文件，对音频文件进行图片编码，生成第一音频文件编码图片；接收用户输入的音频文件的标记等级，将该标记等级与第一音频文件编码图片关联保存；根据保存的第一音频文件编码图片对第一图片标记模型进行训练。

结合第一方面的第四种可能性，本发明实施例提供了第一方面的第八种可能的实施方式，该方法还包括：获取多个等长子段落以及标准音频段落，其中，标准音频段落携带有情感标签以及情感标签对应的情感分数；情感标签包括多个标签维度，该维度至少包括BPM的快慢程度、节奏点的强弱程度和情感积极度；获取用户根据标签维度选择的等长子段落匹配的情感标签；对等长子段落进行图片编码，生成第二音频文件编码图片；将情感标签与第二音频文件编码图片关联保存；根据保存的所述第二音频文件编码图片对第二图片标记模型进行训练。

第二方面，本发明实施例还提供了一种音乐特效匹配装置，包括：音频获取模块，用于获取待匹配的音频数据，检测音频数据的节拍；判断模块，用于判断检测到的节拍是否为音频数据的节奏变化点；标记模块，用于当判断模块的判断结果为是时，将节拍标记为可选音乐段落起始点，生成起始点列表，其中，起始点列表包括多个可选音乐段落起始点；划分模块，用于按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；计算模块，用于设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的情感分数；匹配模块，用于在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果。

本发明实施例提供的音乐特效匹配方法及装置，通过获取待匹配的音频数据，检测该音频数据的节奏变化点，将音频数据划分成多个音乐段落，进而通过设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的分数，以便于在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的所述视觉表达效果，实现了音乐的个性化播放，有助于用户与音乐的情感交互，提升了用户的体验度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音乐特效匹配方法的流程图；

图2为本发明实施例提供的另一种音乐特效匹配方法的流程图；

图3为本发明实施例提供的一种机器学习过程的流程图；

图4为本发明实施例提供的一种音乐特效匹配装置的结构示意图。

图标：400-音频获取模块；402-判断模块；404-标记模块；406-划分模块；408-计算模块；410-匹配模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前在音乐播放过程中，播放程序是对整首音乐进行识别，并将整首音乐与音乐特效进行匹配，其分类类别一般较少，匹配单调，无法满足用户追求个性化的要求，导致用户的体验度较差等问题，基于此，本发明实施例提供的一种音乐匹配方法及装置，下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种音乐匹配方法进行详细介绍，

实施例一：

本发明实施例提供了一种音乐特效匹配方法，该方法可以应用于音乐特效匹配设备的服务器，参见图1所示的一种音乐特效匹配方法的流程图，该方法包括如下步骤：

步骤S102，获取待匹配的音频数据，检测该音频数据的节拍。

通常，获取得匹配的音频数据时，其音频数据可以为特定的音乐文件，如预先存储的一个完整的音频数据，也可以为实时的音频数据流，如实时录播的音频数据。

步骤S104，判断检测到的节拍是否为该音频数据的节奏变化点；

通常，该节奏变化点为音频数据的节奏发生变化的节拍对应的时间点，具体实现时，该节奏变化点包括但不限于乐器声的明显变化、人声的明显变化、音量的明显变化、音调的明显变化等。

步骤S106，如果是，将该节拍标记为可选音乐段落起始点，生成起始点列表，其中，该起始点列表包括多个可选音乐段落起始点；

具体实现时，该起始点列表中的多个可选音乐段落起始点可以按照音频时间的播放顺序存储。

步骤S108，按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；

通常，该多个音乐段落的起始点为起始点列表中的音乐段落起始点，按照音频数据的播放顺序，音乐段落的结束点为近邻的下一个音乐段落起始点，进而将音频数据划分成多个不等长的音乐段落。

步骤S110，设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的分数；

通常，情感标签有三个维度，如，节奏的快慢程度、节奏点的强弱程度和情感积极度等，以一定的间隔在这些维度中取点，可以得到多个标签，设置每个标签对应的分数可以计算出情感分数。

对一些特定的音乐，例如rap、爵士、摇滚等，情感标签可以分为两个维度：特定音乐类型、音乐情感的积极度，具体的标签设置方式可以根据实际情况进行设置，本发明实施例对此不进行限制。

步骤S112，在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果。

通常，该特效数据库存储有多个视觉表达效果，每个视觉表达效果都有对应的分数，该分数与上述情感分数有对应关系，以便于进行匹配。

当该音频数据被应用程序读取并进行播放时，可以在音频数据播放到节奏变化点对应的节拍时，播放匹配的视觉表达效果。

具体地，上述匹配的视觉表达效果可以有多个种类，其对应的特效数量可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

本发明实施例提供的音乐特效匹配方法，通过获取待匹配的音频数据，检测该音频数的节奏变化点，将音频数据划分成多个音乐段落，进而设置每个音乐段落的情感标签，并计算每个音乐段落对应的情感标签的分数，以便于在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果，实现了音乐的个性化播放，有助于用户与音乐的情感交互，提升了用户的体验度。

在实际使用过程中，上述检测音频数据的节拍的过程，可以采用传统的FFT(FastFourier Transformation快速傅里叶变换)音乐分析算法实现。

具体地，当对音频数据的节拍进行检测时，可以先按照预先设置的分段间隔，将音频数据划分成等长段落，如可以将段落长度设置为2的幂次进行划分等，然后根据音频数据的PCM(Pulse Code Modulation，脉冲编码调制)数据计算每个等长段落的音频能量值，将高于预先设置的能量阈值的音频能量值标记为峰值，并将该峰值对应的等长段落标记为峰值段落，其中，上述音频能量值可以定义为在等长段落上选取指定的采样点上，计算PCM数据的幅值的平方和。

在实际使用时，对于完整的音频数据，选取指定的采样点通常位于1秒长度音频数据的中间，对于实时的音频数据流，选取指定的采样点通常位于1秒长度音频数据的结尾，且峰值段落对应的音频能量值通常为极大值点。

当标记完峰值后，继续获取预先存储的BPM(Besat Per Minute，每分钟节拍数量)集合，从小到大依次遍历该BPM集合中的每个BPM值，计算每个BPM值与峰值分布的重合度，以便于根据重合度最高的BPM值确定音频数据的节拍。

在本发明实施例中，根据人体对音乐节奏的感知程度，该BPM集合的下限值通常设置为15，上限值通常设置为240，在整个歌曲长度上与峰值的重合度对比，并对BPM值为15到30的部分进行全遍历，遍历时间间隔为0.25，而第一拍的遍历选择范围为第一个峰值出现后3秒范围内的所有峰值。

重合度的衡量标准通常定位为根据BPM值预测的节拍与最近的节拍的时间差的平方和，平方和越低，重合度越高，在BPM值为15到30进行全遍历的部分，在其中取重合度最高的前三个BPM值，在其2倍附近(正负1范围)进行遍历搜索，并取重合度最高的前三个BPM值，取距离这些位置最近的峰值作为该音乐的节拍。

若BPM值与峰值的重合度过低，则对音频数据进行FFT(Fast FourierTransformation，快速傅氏变换)变换，转化为分频数据，在每个频率段上重复上述过程，找出BPM值。

其具体音乐分析算法可以参考相关资料实现，本发明实施例对此不进行限制。

当通过上述节拍检测到音频数据的节拍后，继续执行节奏变化点的判断过程，通常，为了增加判断的普适性，该判断过程可以基于神经网络模型进行，因此，需要预先采用机器学习的方式对该神经网络模型进行训练，进一步，考虑到神经网络模型对图片比较敏感，为了便于进行机器学习，以增加判断的准确性，在具体实现时，先对上述节拍进行图片编码，输出编码图片后，再输入到训练好的图片标记模型(即训练好的神经网络模型)进行判断。

基于此，在上述实施例的基础上，本发明实施例还提供了另一种音乐特效匹配方法，如图2所示的流程图，该方法包括如下步骤：

步骤S202，获取待匹配的音频数据，检测音频数据的节拍；

其中，检测音频数据的节拍的过程，可以参考上述音乐分析算法实现。当检测出节拍后，继续执行下述步骤S204～步骤S210的过程，以判断该节拍是否为节奏变化点。

步骤S204，获取上述节拍，按照预先设置的采样频率与段落长度，选取节拍对应的采样点集合；

对于完整的音频数据，通常，选择以节拍为中点，取65536个采样点，若音频数据为实时音频数据流，则选节拍的末端点为中点进行采样。其中，每个采样点集合包括该节拍点的左右声道，如果是单声道，则认为左右声道数据相同。

步骤S206，根据采样点对节拍进行图片编码，生成节拍对应的第一编码图片；

具体的，第一编码图片为三通道RGB(red green blue，红绿蓝)图片，图片编码方式为将左声道数据赋予给一个颜色通道，右声道数据赋予给另一个颜色通道，第三个颜色通道为前两个声道数据的平均值，具体实现时，如果取65536个采样点，编码成该节点所对应的图片的大小为256乘256，其中，上述采样频率可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

步骤S208，将第一编码图片输入预先训练好的第一图片标记模型，计算第一编码图片的标记等级；

通常，该标记等级可以在对神经网络模型进行训练时获得，具体地，在对神经网络模型进行训练时，可以采用标准的音频数据，并且，该标准的音频数据的节拍是已知的，因此，上述对神经网络模型进行训练，得到第一图片标记模型的过程可以包括：

(1)获取音频数据，以及音频数据的节拍；

(2)根据节拍生成指定长度的音频文件，对音频文件进行图片编码，生成第一音频文件编码图片；其中，该指定长度的音频文件，可以是长度为1～2秒的音乐文件。标记者听到该音乐文件时，对于明显节奏变化的节拍进行标记，如，有明显变化标记为1，否则标记为0。

(3)接收用户输入的音频文件的标记等级，将标记等级与第一音频文件编码图片关联保存；由此，可以得出节奏变化、第一音频文件编码图片和指定长度的音频文件的对应关系，以此生成机器学习的训练数据。

具体实现时，明显节奏变化包括但不限于乐器声的明显变化、人声的明显变化、音量的明显变化、音调的明显变化等。

(4)根据保存的第一音频文件编码图片对第一图片标记模型进行训练。

通过上述训练方式，可以对第一图片标记模型进行训练，应该理解，上述训练方式仅仅是本发明实施例的其中一种实施方式，在其他实施例中，还可以有其他的机器学习的训练方式，上述图片编码的方式也可以根据实际使用情况进行设置，本发明实施例对此不进行限制。

步骤S210，获取标记等级，当标记等级与节奏变化标记一致时，确定该节拍为音频数据的节奏变化点，不一致时为非节奏变化点。

其中，上述节奏变化标记可以是上述第一图片标记模型的标准标记，当通过第一图片标记模型计算出第一编码图片的标记等级后，再与该标准标记进行比对，以判断是否为节奏变化点。

步骤S212，将该节拍标记为可选音乐段落起始点，生成起始点列表，其中，起始点列表包括多个可选音乐段落起始点；

步骤S214，按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落：

具体的，上述起始点选取规则可以包括：(1)可选音乐段落起始点为音频数据对应歌词语句的起始点对应的节拍；(2)音频能量值超过峰值指定倍数对应的可选音乐段落起始点；通常，该倍数的选区范围为音频能量值平均值的1.5倍以上。

此时，上述步骤S214的具体过程可以包括：当可选音乐段落起始点满足起始点选取规则之一时，确定可选音乐段落起始点为音乐段落起始点；按照音频数据的播放顺序，音乐段落的结束点为近邻的下一个音乐段落起始点，以此将音频数据划分成多个不等长的音乐段落。

划分完成后，可以通过下述步骤S216～S224的过程，计算上述每个音乐段落的情感分数。

步骤S216，获取每个音乐段落，按照预先设置的采样频率与子段落长度，将音乐段落划分成多个等长子段落；

其中，该步骤中的采用频率可以参考前述步骤S204的过程，如将每个音乐段落切成65536个采样点长的等长子段落，每个等长子段落的起始点为音乐段落的起始点，并将末尾长度不够的部分舍弃，这样，每个音乐段落可以得到数量不同的等长子段落。

步骤S218，对每个等长子段落进行图片编码，生成每个等长子段落对应的第二编码图片；

其中，这些等长子段落编码成图片的方法与前述步骤S206中的图片编码方法相同，每个音乐段落的所有等长子段落代表这一个音乐段落。如，每个音乐段落的采样点也可以包括当前每个音乐段落的采样点的左右声道数据，所述第二编码图片为三通道RGB图片；

步骤S220，将第二编码图片输入预先训练好的第二图片标记模型；

步骤S222，在预先存储的标签数据库中查找第二编码图片对应的情感标签，以及情感标签对应的情感分数；

步骤S224，统计每个等长子段落对应的情感分数，计算每个音乐段落的情感分数；

具体地，通过上述过程，得到了所有不等长音乐段落包含的等长子段落的情感分数，而每个不等长音乐段落的情感分数应为其所包含的等长音乐段落分数的加权平均和。因此，计算每个音乐段落的情感分数的过程包括按照预先设置的权重，依次对音乐段落包含的等长子段落对应的情感分数进行加权平均求和计算；将计算的结果标记为音乐段落的情感分数。

其中，上述权重的分配为靠前的段落权重较高，靠后的段落权重较低，权重降低的方式为线性下降，以对情感分数进行修正。最终的分数需要进行归一化。

步骤S226，在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果。

通常，可以通过计算非正交多维空间点距离的过程查找与音乐段落匹配的视觉表达效果，其中，设定音乐段落的情感分数以及视觉表达效果都位于非正交线性空间的单位球面上，通过设定该空间的度规，计算音乐段落的情感分数与视觉表达效果的情感分数之间的距离，选取距离最短的视觉表达效果作为该音乐段落的视觉表达效果。

具体实现时，为了保证上述视觉表达效果能够在节奏变化时进行播放，通过上述步骤S214将音频数据划分成多个不等长的音乐段落之后，上述方法还包括将每个音乐段落起始点标记为视觉表达效果的切换点；当监听到音频数据被读取时，监测音频数据的播放时间点；当时间点与切换点重合时，播放视觉表达效果。

在实际使用时，该音频数据可以是指定场景的背景音乐，如游戏、舞台等指定场景，当指定场景进行呈现时，可以通过应用程度读取上述音频数据，并监测音频数据的播放时间点，以便于在播放时间点到达切换点时，获取上述视觉表达效果进行播放和呈现。

其中，上述视觉表达效果的切换效果切换的内容包括但不限于视觉效果的种类、控制视觉效果的参数、视觉效果的表现形式等。

对于完整的音频数据，可以按照上述方式，找出切换点并匹配音乐特效，若针对实时音频数据流，按照上述相同的方式，找出切换点后，需要等待至少一定的采样点，如65536个采样点后，以该小段的情感分数作为该段落的情感分数，进而匹配视觉表达效果。如果计算的情感分数，与待匹配的音频数据的实际效果相差较远，可进行修正，或者保持原来的视觉效果。

在实际使用时，上述计算第二编码图片的情感标签，以及查找情感标签对应的情感分数的过程，也可以基于神经网络模型进行，同样也需要将音乐段落进行图片编码，通过训练好的神经网络模型对编码后的图片进行设置和计算，同时编码后的图片也可以作为神经网络模型的机器学习的训练数据。

因此，本发明实施例还提供了一种机器学习过程，具体地，可以对上述第二图片标记模型进行训练，如图3所示的一种机器学习过程的流程图，包括以下步骤：

步骤S302，获取多个等长子段落，以及标准音频段落；

其中，标准音频段落携带有情感标签，以及，情感标签对应的情感分数；情感标签包括多个标签维度，该维度至少包括BPM的快慢程度、节奏点的强弱程度和情感积极度；

具体实现时，上述等长子段落，可以是输入的多个不等长音乐段落划分后得到的，每个音乐段落的所有等长子段落代表这一个音乐段落，其具体划分过程，可以参考前述步骤S216的过程。

进一步，上述标准音频段落携带的情感标签，以及情感标签的多个标签维度，可以预先进行设置，通常，标签维度可以分为三个维度：音乐BPM的快慢、音乐低音节奏点的强弱和音乐情感的积极度，每个标签维度都可以以一定的间隔在维度空间中取点，进而将每个标签维度划分成多个程度不同的标签，如根据音乐BPM的快慢程度，划分成快速、中速和慢速三个梯度，每个梯度给出相应的分数，在例如，将音乐情感的积极度划分成欢乐、平静和悲伤等，每个不同的积极度，也可以给出相应的分数，以得到多个通用的歌曲标签。

对于某些特定音乐，如，rap、爵士、摇滚等，情感标签可以分为两个维度，如特定音乐类型、音乐情感的积极度，同样以一定的间隔在这些维度中取点，也可以得到多个情感标签。

当获取到上述多个等长子段落，以及标准音频段落后，可以依次播放每个等长子段落，以及标准音频段落，标记者可以依次听取每个等长子段落后，并匹配标签维度最接近的标准音频段落，将该标准音频段落携带的情感标签标记为等长子段落的情感标签。

步骤S304，接收用户根据标签维度选择的等长子段落匹配的情感标签；

步骤S306，对等长子段落进行图片编码，生成第二音频文件编码图片；将情感标签与第二音频文件编码图片关联保存；

由此，可以得出等长子段落、情感标签和第二音频文件编码图片的对应关系，以此生成机器学习的训练数据。

步骤S308，根据保存的第二音频文件编码图片对第二图片标记模型进行训练。

具体训练过程，可以参考相关训练神经网络模型的资料实现，本发明实施例对此不进行限制。

本发明实施例提供的音乐特效匹配方法，通过获取待匹配的音频数据的节拍，按照预先设置的采样频率选取节拍的采样点，根据采样点对节拍进行图片编码，生成第一编码图片，并将该图片输入到预先训练好的第一图片标记模型中计算第一编码图片的标记等级，根据标记等级与节奏变化标记的一致性判断音频的节奏变化点，进而将音频数据划分成多个音乐段落，通过设置每个音乐段落的情感标签，计算每个情感标签的情感分数，以便于在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果，通过对音频数据的具体分段匹配，实现用户与音乐的多样性的情感交互，提升了用户的体验度。

实施例二：

在上述实施例的基础上，本发明实施例还提供了一种音乐特效匹配装置，如图4所示的一种音乐特效匹配装置的结构示意图，该装置包括如下模块：

音频获取模块400，用于获取待匹配的音频数据，检测音频数据的节拍；

判断模块402，用于判断检测到的节拍是否为音频数据的节奏变化点；

标记模块404，用于当判断模块的判断结果为是时，将节拍标记为可选音乐段落起始点，生成起始点列表，其中，起始点列表包括多个可选音乐段落起始点；

划分模块406，用于按照预先设置的起始点选取规则，在起始点列表中选取音乐段落起始点，将音频数据划分成多个音乐段落；

计算模块408，用于设置每个音乐段落的情感标签，计算每个音乐段落对应的情感标签的情感分数；

匹配模块410，用于在预先存储的特效数据库中查找与情感分数匹配的视觉表达效果，将视觉表达效果的标识与音乐段落关联存储，以使音频数据被读取时，播放音乐段落对应的视觉表达效果。

本发明实施例提供的音乐特效匹配装置，与上述实施例提供的音乐特效匹配方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的音乐特效匹配方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种音乐特效匹配方法，其特征在于，所述方法包括：

获取待匹配的音频数据，检测所述音频数据的节拍；

判断检测到的所述节拍是否为所述音频数据的节奏变化点；

如果是，将所述节拍标记为可选音乐段落起始点，生成起始点列表，其中，所述起始点列表包括多个所述可选音乐段落起始点；

按照预先设置的起始点选取规则，在所述起始点列表中选取音乐段落起始点，将所述音频数据划分成多个音乐段落；

设置每个所述音乐段落的情感标签，计算每个所述音乐段落对应的所述情感标签的分数；

在预先存储的特效数据库中查找与所述情感分数匹配的视觉表达效果，将所述视觉表达效果的标识与所述音乐段落关联存储，以使所述音频数据被读取时，播放所述音乐段落对应的所述视觉表达效果。

2.根据权利要求1所述的方法，其特征在于，所述检测所述音频数据的节拍的步骤包括：

按照预先设置的分段间隔，将所述音频数据划分成等长段落；

根据所述音频数据的PCM数据计算每个所述等长段落的音频能量值；

将高于预先设置的能量阈值的所述音频能量值标记为峰值，所述峰值对应的等长段落标记为峰值段落；

获取预先存储的BPM集合，从小到大依次遍历所述BPM集合中的每个BPM值；

计算每个所述BPM值与所述峰值分布的重合度；

根据所述重合度最高的所述BPM值确定所述音频数据的节拍。

3.根据权利要求1所述的方法，其特征在于，所述判断检测到的所述节拍是否为所述音频数据的节奏变化点的步骤包括：

获取所述节拍，按照预先设置的采样频率与段落长度，选取所述节拍对应的采样点集合；

根据所述采样点集合对所述节拍进行图片编码，生成所述节拍对应的第一编码图片，其中，每个所述采样点集合包括当前所述采样点集合的左右声道数据，所述第一编码图片为三通道RGB图片；

将所述第一编码图片输入预先训练好的第一图片标记模型，计算所述第一编码图片的标记等级；

获取所述标记等级，当所述标记等级与节奏变化标记一致时，确定所述节拍为所述音频数据的节奏变化点；当所述标记等级与节奏变化标记不一致时，确定所述节拍为所述音频数据的非节奏变化点。

4.根据权利要求2所述的方法，其特征在于，所述起始点选取规则包括：

所述可选音乐段落起始点为所述音频数据对应歌词语句的起始点对应的节拍；

所述音频能量值超过所述峰值指定倍数对应的所述可选音乐段落起始点；

所述按照预先设置的起始点选取规则，在所述起始点列表中选取音乐段落起始点，将所述音频数据划分成多个音乐段落的步骤包括：

当所述可选音乐段落起始点满足所述起始点选取规则之一时，确定所述可选音乐段落起始点为音乐段落起始点；

按照所述音频数据的播放顺序，所述音乐段落的结束点为近邻的下一个所述音乐段落起始点，将所述音频数据划分成多个不等长的音乐段落。

5.根据权利要求1所述的方法，其特征在于，所述设置每个所述音乐段落的情感标签，计算每个所述音乐段落对应的所述情感标签的情感分数的步骤包括：

获取每个所述音乐段落，按照预先设置的采样频率与子段落长度，将所述音乐段落划分成多个等长子段落；

对每个所述等长子段落进行图片编码，生成每个所述等长子段落对应的第二编码图片，其中，每个所述音乐段落的采样点包括当前每个所述音乐段落的采样点的左右声道数据，所述第二编码图片为三通道RGB图片；

将所述第二编码图片输入预先训练好的第二图片标记模型，在预先存储的标签数据库中查找所述第二编码图片对应的情感标签，以及所述情感标签对应的情感分数；

统计每个所述等长子段落对应的所述情感分数，计算每个所述音乐段落的情感分数。

6.根据权利要求5所述的方法，其特征在于，所述计算每个所述音乐段落的情感分数的步骤包括：

按照预先设置的权重，依次对所述音乐段落包含的所述等长子段落对应的所述情感分数进行加权平均求和计算；

将计算的结果标记为所述音乐段落的情感分数。

7.根据权利要求4所述的方法，其特征在于，所述将所述音频数据划分成多个不等长的音乐段落之后，所述方法还包括：

将每个所述音乐段落起始点标记为视觉表达效果的切换点；

当监听到所述音频数据被读取时，监测所述音频数据的播放时间点；

当所述时间点与所述切换点重合时，播放所述视觉表达效果。

8.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取音频数据，以及所述音频数据的节拍；

根据所述节拍生成指定长度的音频文件，对所述音频文件进行图片编码，生成第一音频文件编码图片；

接收用户输入的所述音频文件的标记等级，将所述标记等级与所述第一音频文件编码图片关联保存；

根据保存的所述第一音频文件编码图片对第一图片标记模型进行训练。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取多个所述等长子段落，以及标准音频段落，其中，所述标准音频段落携带有情感标签，以及，所述情感标签对应的情感分数；所述情感标签包括多个标签维度，所述维度至少包括BPM的快慢程度、节奏点的强弱程度和情感积极度；

获取用户根据所述标签维度选择的所述等长子段落匹配的情感标签；

对所述等长子段落进行图片编码，生成第二音频文件编码图片；将所述情感标签与所述第二音频文件编码图片关联保存；

根据保存的所述第二音频文件编码图片对第二图片标记模型进行训练。

10.一种音乐特效匹配装置，其特征在于，所述装置包括：

音频获取模块，用于获取待匹配的音频数据，检测所述音频数据的节拍；

判断模块，用于判断检测到的所述节拍是否为所述音频数据的节奏变化点；

标记模块，用于当所述判断模块的判断结果为是时，将所述节拍标记为可选音乐段落起始点，生成起始点列表，其中，所述起始点列表包括多个所述可选音乐段落起始点；

划分模块，用于按照预先设置的起始点选取规则，在所述起始点列表中选取音乐段落起始点，将所述音频数据划分成多个音乐段落；

计算模块，用于设置每个所述音乐段落的情感标签，计算每个所述音乐段落对应的所述情感标签的情感分数；

匹配模块，用于在预先存储的特效数据库中查找与所述情感分数匹配的视觉表达效果，将所述视觉表达效果的标识与所述音乐段落关联存储，以使所述音频数据被读取时，播放所述音乐段落对应的所述视觉表达效果。