CN112037764A

CN112037764A - 一种音乐结构的确定方法、装置、设备及介质

Info

Publication number: CN112037764A
Application number: CN202010783244.7A
Authority: CN
Inventors: 张凯翔; 朱一闻; 曹偲; 郑博
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-04

Abstract

本发明实施例提供一种音乐结构的确定方法、装置、设备及介质，用以提高确定出的音乐结构的准确性。所述音乐结构的确定方法，包括：获取待检测音乐的音频内容和歌词内容；对所述音频内容进行分析，确定所述音频内容的边界分割信息；对所述歌词内容进行分析，确定所述歌词内容的边界分割时间信息；对所述边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息；对所述融合边界信息进行聚类，确定所述待检测音乐中每个段落的段落类别以及所述待检测音乐的结构。

Description

一种音乐结构的确定方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种音乐结构的确定方法、装置、设备及介质。

背景技术

流行歌曲一般来说结构简单，形式活泼，易于传唱。从作曲和编曲的角度，流行歌曲通常包含以下几个部分：主歌、副歌、桥段。主歌可以说是内容，是每首音乐的主干，副歌是指内容区别于主歌、发展与概括性比较强的且在节奏情感曲调上与主歌形成对比的段落。副歌是歌曲感情最强烈抒发的部分，乐器使用多且音量较大、饱满，概括性很强，并且对于每一首流行歌曲，其副歌都具有至少2次的旋律重复，因此它通常是每首流行歌曲中最先为听众熟知的部分。

随着数字音乐行业的发展，音乐内容大量增长，越来越多的用户喜欢直接试听副歌，来选择自己喜欢的歌曲，或者将歌曲的副歌截取出来作为手机铃声或背景音。因此，如果能够准确确定音乐的结构，并直接将歌曲的副歌位置检测出来展现给用户，无疑会给用户带来很大的便利。

发明内容

本发明实施例提供一种音乐结构的确定方法、装置、设备及介质，用以提高确定出的音乐结构的准确性。

第一方面，本发明实施例提供一种音乐结构的确定方法，该方法包括：

获取待检测音乐的音频内容和歌词内容；

对音频内容进行分析，确定音频内容的边界分割信息；

对歌词内容进行分析，确定歌词内容的边界分割时间信息；

对边界分割信息和边界分割时间信息进行融合，得到融合边界信息；

对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

本发明实施例提供的音乐结构的确定方法，获取待检测音乐的音频内容和歌词内容之后，首先对音频内容进行分析，确定音频内容的边界分割信息，然后对歌词内容进行分析，确定歌词内容的边界分割时间信息，然后在边界分割信息的基础上，融合边界分割时间信息，得到融合边界信息，并基于融合边界信息，确定待检测音乐的结构，使得音乐结构位置的确定结果更加精准。

在一种可能的实施方式中，本发明实施例提供的上述方法中，对音频内容进行分析，确定音频内容的边界分割信息，包括：

对音频内容进行常Q变换谐波转换离散(Constant Q Transform，CQT)变换，得到音频内容的CQT特征；

提取音频内容的梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)特征；

基于CQT特征和MFCC特征确定音频内容的音频特征图；

计算音频特征图的拉普拉斯矩阵，并对拉普拉斯矩阵进行奇异值分解，得到分解结果；

对分解结果进行聚类，得到音频内容的第一类边界分割信息。

提取音频内容的音级轮廓(Pitch Class Profiles，PCP)特征；

基于PCP特征，计算音频内容的音频相似度矩阵，对音频相似度矩阵进行时滞变换，并对时滞变换的变换结果进行平滑处理，对平滑处理结果进行累加滤波处理，得到用于表征音频内容边界点重复度的频率统计曲线；

将频率统计曲线中统计值大于预设阈值的时刻作为分割点，得到音频内容的第二类边界分割信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，对歌词内容进行分析，确定歌词内容的边界分割时间信息，包括：

基于歌词内容的文本信息和句长信息，确定歌词内容的相似度矩阵；

对歌词内容的相似度矩阵进行线性变换，得到歌词内容的时滞矩阵，时滞矩阵中包括多条表征歌词内容中重复句子的线段；

对歌词内容的时滞矩阵进行分割，得到歌词内容中部分或全部分割点，将分割点作为初步边际信息，分割点为时滞矩阵中不同线段的分界点；

计算初步边际信息中每个分割点的连续性得分；

基于初步边际信息中每个分割点的连续性得分，调整每个分割点的位置，并将所有分割点的连续性得分之和最大时每个分割点的位置，确定为歌词内容中重复歌词的边界分割时间信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，计算初步边际信息中每个分割点的连续性得分，包括：

剔除初步边际信息中的无效分割点，无效分割点位未处于时滞矩阵中线段端点处的分割点；

计算剔除无效分割点之后的初步边际信息中每个分割点的连续性得分。

在一种可能的实施方式中，本发明实施例提供的上述方法中，基于歌词内容的文本信息和句长信息，确定歌词内容的相似度矩阵，包括：

利用编辑距离对歌词内容的文本信息进行划分，确定歌词内容的编辑距离相似度矩阵；

利用歌词内容所包含的句子时间信息，句长时间差相似度矩阵；

将编辑距离相似度矩阵和句长时间差相似度矩阵以预设权重值加权求和，得到歌词内容的相似度矩阵。

在一种可能的实施方式中，本发明实施例提供的上述方法中，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息，包括：

分别计算边界分割信息的置信度和边界分割时间信息的置信度；

基于边界分割信息的置信度和边界分割时间信息的置信度，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，若边界分割信息仅包括第一类边界分割信息，基于边界分割信息的置信度和边界分割时间信息的置信度，对边界分割信息和边界分割时间信息进行融合，包括：

分别计算第一类边界分割信息的置信度和边界分割时间信息的置信度；

基于第一类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，若边界分割信息包括第一类边界分割信息和第二类边界分割信息，基于边界分割信息的置信度和边界分割时间信息的置信度，对边界分割信息和边界分割时间信息进行融合，包括：

分别计算第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度；

基于第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息、第二类边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，基于第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息、第二类边界分割信息和边界分割时间信息进行融合，得到融合边界信息，包括：

基于第一类边界分割信息的置信度和第二类边界分割信息的置信度，对第一类边界分割信息和第二类边界分割信息进行融合，得到中间融合信息；

基于边界分割时间信息的置信度，对中间融合信息和边界分割时间信息进行融合，得到融合边界信息。

在一种可能的实施方式中，本发明实施例提供的上述方法中，基于第一类边界分割信息的置信度和第二类边界分割信息的置信度，对第一类边界分割信息和第二类边界分割信息进行融合，得到中间融合信息，包括：

基于第一类边界分割信息的置信度和第二类边界分割信息的置信度，采用如下公式对第一类边界分割信息和第二类边界分割信息进行融合：

a＝(C_lsi×tS)/(C_sfj+C_lsi×tS)

tS＝(abs(S_lsi-S_sfj)/time_threshold)

其中，S_musick为中间融合信息，S_lsi为第一类边界分割信息，S_sfj为第二类边界分割信息，C_lsi为第一边界分割信息的置信度，C_sfj为第二边界分割信息的置信度，abs()为计算绝对值函数，time_threshold为预先设置的阈值。

在一种可能的实施方式中，本发明实施例提供的上述方法中，基于边界分割时间信息的置信度，对中间融合信息和边界分割时间信息进行融合，得到融合边界信息，包括：

基于边界分割时间信息的置信度，采用如下公式对中间融合信息和边界分割时间信息进行融合：

其中，S_final为融合边界信息，S_musick为中间融合信息，S_lyricsq为边界分割时间信息，C_lyrics为边界分割时间信息的置信度，abs()为计算绝对值函数，diff()为差异函数，b为预设参数值，time_threshold为预先设置的阈值。

在一种可能的实施方式中，本发明实施例提供的上述方法中，对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构，包括：

对融合边界信息进行聚类，确定待检测音乐中每一段落的段落类别；

根据确定出的段落类别、待检测音乐中的时长和音频脉冲信号的幅值，确定待检测音乐的结构。

在一种可能的实施方式中，本发明实施例提供的上述方法中，对融合边界信息进行聚类，确定待检测音乐中每一段落的段落类别，包括：

利用预先配置的CQT矩阵对融合边界信息进行处理，得到N个特征矩阵，其中，N为融合边界信息中的边界数量；

利用主成分分析PCA算法对特征矩阵中的每个元素进行降维处理，得到特征集合；

使用K均值聚类算法对特征集合进行聚类，得到聚类结果；

基于聚类结果，确定待检测音乐中每一段落的段落类别。

第二方面，本发明实施例提供一种音乐结构的确定装置，装置包括：

获取单元，用于获取待检测音乐的音频内容和歌词内容；

音频分析单元，用于对音频内容进行分析，确定音频内容的边界分割信息；

歌词分析单元，用于对歌词内容进行分析，确定歌词内容中重复歌词的边界分割时间信息；

融合单元，用于对边界分割信息和边界分割时间信息进行融合，得到融合边界信息；

处理单元，用于对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

在一种可能的实施方式中，本发明实施例提供的上述装置中，音频分析单元，具体用于：

对音频内容进行常Q变换谐波转换离散CQT变换，得到音频内容的CQT特征；

提取音频内容的梅尔倒谱系数MFCC特征；

基于CQT特征和MFCC特征确定音频内容的音频特征图；

提取音频内容的音级轮廓PCP特征；

在一种可能的实施方式中，本发明实施例提供的上述装置中，歌词分析单元，具体用于：

计算初步边际信息中每个分割点的连续性得分；

在一种可能的实施方式中，本发明实施例提供的上述装置中，融合单元，具体用于：

若边界分割信息仅包括第一类边界分割信息，分别计算第一类边界分割信息的置信度和边界分割时间信息的置信度；

若边界分割信息包括第一类边界分割信息和第二类边界分割信息，分别计算第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度；

a＝(C_lsi×tS)/(C_sfj+C_lsi×tS)

tS＝(abs(S_lsi-S_sfj)/time_threshold)

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元，具体用于：

利用预先配置的常Q变换谐波转换离散CQT矩阵对融合边界信息进行处理，得到N个特征矩阵，其中，N为融合边界信息中的边界数量；

使用K均值聚类算法对特征集合进行聚类，得到聚类结果；

基于聚类结果，确定待检测音乐中每一段落的段落类别。

第三方面，本发明实施例提供一种音乐结构的确定设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现本发明实施例第一方面提供的音乐结构的确定方法。

第四方面，本发明实施例还提供一种存储介质，当存储介质中的指令由音乐结构的确定设备的处理器执行时，使得音乐结构的确定设备能够执行本发明实施例第一方面提供的音乐结构的确定方法。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理，并不构成对本发明的不当限定。

图1是本发明实施例提供的应用场景示意图；

图2是本发明实施例提供的一种音乐结构的确定方法的示意流程图；

图3是本发明实施例提供的一种基于拉普拉斯分解算法对音频内容进行分析的示意流程图；

图4是本发明实施例提供的一种基于结构分割算法对音频内容进行分析的示意流程图；

图5是本发明实施例提供的一种音频相似度矩阵的示意图；

图6是本发明实施例提供的一种音频相似度矩阵经过时滞变换后得到的时滞矩阵的示意图；

图7是本发明实施例提供的一种频率统计曲线的示意图；

图8是本发明实施例提供的一种对歌词内容进行分析确定边界分割时间信息的示意流程图；

图9是本发明实施例提供的一种歌词内容的相似度矩阵的示意图；

图10是本发明实施例提供的一种歌词内容的相似度矩阵经过时滞变换后得到的时滞矩阵的示意图；

图11是本发明实施例提供的包含最优分割的分割线的时滞矩阵的示意图；

图12是本发明实施例提供的一种音乐结构的确定装置的结构示意图；

图13是本发明实施例提供的另一种音乐结构的确定装置的结构示意图；

图14是本发明实施例提供的一种音乐结构的确定的程序产品示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种音乐结构的确定方法、装置、设备及介质。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，随着数字音乐行业的发展，音乐内容大量增长，越来越多的用户喜欢直接试听副歌，来选择自己喜欢的歌曲，或者将歌曲的副歌截取出来作为手机铃声或背景音。

现有技术中提出了以下几种方式以确定歌曲中副歌的位置，具体来说：

方式一、基于不同频带能量匹配相似性进行副歌分析，利用每一帧在不同频带上的能量分布来获取相似匹配得分，并选择连续匹配的部分作为副歌。此种方式一方面只考虑频带能量包络分布并不能很好的区分歌曲的结构特性，特别是当歌曲整体旋律变化较大时，相似性较低，可能出现分段细碎的情况；另一方面，连续性匹配无法定位副歌主歌相似的情况，也无法对副歌和主歌中的重复段落划分开来，同时选择频段抽样能量包络的方式所获得的音乐细节有限，可能出现各种误差和错误。

方式二、使用梅尔谱和MFCC谱，对几个限定频带的极值，过零率等进行相似度测量，可以识别出合唱以外如引子，尾声，过渡等结构段落。此种方式一方面，使用了人为限定的频带，无法精准描述一些频率细节；另一方面，同样使用匹配最高分作为副歌，无法解决副歌变化，或主歌重复度高的情况。

方式三、以深度学习模型学习歌曲的结构信息，可以输出一个目标段落的概率值，概率值越高则此部分是目标的可能性越高，经过大量数据的训练可以较好的获取段落信息。此种方式一方面，需要大量的人工标注进行学习，前期数据准备成本高；另一方面，对于更加模糊的段落结构，无法人为定义，深度学习模型也就无法学习，所以可分解的音乐结构有限，主要集中在副歌，break段落，以及其他(默认其它就是主歌，但事实上主歌仍然也有更细的划分)。

有鉴于此，本发明实施例提供了一种音乐结构的确定方案，获取待检测音乐的音频内容和歌词内容，对音频内容进行分析，确定音频内容的边界分割信息，对歌词内容进行分析，确定歌词内容中重复歌词的边界分割时间信息，然后在边界分割信息的基础上，融合边界分割时间信息，得到融合边界信息，并基于融合边界信息，确定待检测音乐的结构，与现有技术中单纯依据歌词内容或者单纯依据音频内容进行音乐结构划分相比，使得音乐结构位置的确定结果更加精准。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1，其为本发明实施例的应用场景示意图。用户10通过用户设备11中安装的客户端登录网络服务器12，其中，客户端可以为网页的浏览器，也可以为安装于移动用户设备，如手机，平板电脑等中的应用客户端。

用户设备11与网络服务器12之间通过网络进行通信连接，该网路可以为局域网、广域网等。用户设备11可以为便捷设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，网络服务器12可以为任何能够提供互联网服务的设备。

其中，用户10利用用户设备11选中歌曲A后，向网络服务器12发送歌曲A的试听请求或者将歌曲A制作为来电铃声的制作请求，网络服务器12接收到请求后，获取歌曲A的音频内容和歌词内容，对音频内容进行分析，确定音频内容的边界分割信息，对歌词内容进行分析，确定歌词内容中重复歌词的边界分割时间信息，并基于边界分割信息和边界分割时间信息，确定歌曲A的结构，进而确定歌曲A中副歌的位置，进而通过用户设备11播放歌曲A的副歌部分响应用户10的试听请求，或者截取歌曲A的副歌部分作为铃声通过用户设备11反馈给用户10。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的音乐结构的确定方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出的，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于使用的任何场景。

如图2所示，本发明实施例提供的一种音乐结构的确定方法的示意流程图，其可以包括以下步骤：

步骤201，获取待检测音乐的音频内容和歌词内容。

具体实施时，获取待检测音乐的音频内容和歌词内容，可以直接基于待检测音乐的音频文件获取，也可以采用现有的其它方式(例如，从第三方网站或者服务器)获取，本发明实施例对此不做限定。

步骤202，对音频内容进行分析，确定音频内容的边界分割信息。

本发明实施例在具体对音频内容进行分析，确定音频内容的边界分割信息时，可以采用下述实施方式一，也可以采用下述实施方式一和实施方式二结合的方式，本发明实施例对此不做限定。

实施方式一、基于拉普拉斯分解算法对音频内容进行分析

需要说明的是，拉普拉斯算法是使用图论中拉普拉斯矩阵的性质，通过数学推导出图论中的k类谱聚类问题的最优解和拉普拉斯矩阵的前k个特征值，特征向量相同，所以可以简单快速的求解出一个图的k聚类问题，从而将音乐特征图的结构分割为k个不同的子图，从而达到音乐结构分析的目的。

具体实施时，如图3所示，对音频内容进行CQT变换，得到音频内容的CQT特征，并提取音频内容的MFCC特征，使用CQT特征和MFCC特征作为音频特征图的分割原图，基于CQT特征和MFCC特征确定音频内容的音频特征图(即特征矩阵)，然后计算音频特征图的拉普拉斯矩阵，并对拉普拉斯矩阵进行奇异值分解，得到分解结果，最后对分解结果通过K均值聚类算法进行聚类，得到音频内容的第一类边界分割信息。

其中，基于CQT特征和MFCC特征确定音频内容的音频特征图(或者特征矩阵)时，可以计算CQT特征的图递归矩阵，并对图递归矩阵进行中值滤波，对MFCC特征进行差分路径计算并进行中值滤波，然后将滤波结果进行融合。

实施方式二、基于结构分割算法对音频内容进行分析

具体实施时，如图4所示，首先提取音频内容的PCP特征，对提取得到的PCP特征进行延迟坐标嵌入处理，并基于处理后的PCP特征，计算音频内容的音频相似度矩阵，例如，使用递归算法计算音频内容的图递归矩阵，并以该图递归矩阵来描述音频内容的相似度，所得到的音频相似度矩阵如图5所示。然后对音频相似度矩阵进行时滞变换，并对时滞变换的变换结果进行高斯滤波处理，得到更加平滑的时滞矩阵，如图6所示，图6中的白色水平亮线可以用于描述音频内容中的重复段落。对平滑处理后的时滞矩阵中每一时刻的重复点进行累加，得到用于表征音频内容边界点重复度的频率统计曲线如图7所示，将频率统计曲线中统计值大于预设阈值的时刻作为分割点，得到音频内容的第二类边界分割信息。其中，预设阈值可以是统计值的平均值，当然，也可以根据经验值设定，本发明实施例对此不做限定。

在一种可能的实施方式中，本发明实施例还可以限定不同分割点之间的时间之差大于预设时长，例如，预设时长可以取值为5秒。

需要说明的是，音频内容的边界分割信息，可以仅包括第一类边界分割信息，也可以包括第一类边界分割信息和第二类边界分割信息。

如图4所示，结构分割算法输入音频的PCP特征，近似于CHROMA特征，可以描述音频内容在十二平均律中每个音的总能量占比，因此，可以获取音频内容的和弦信息。根据音乐的先验知识，和弦的循环关系可以很好的表示歌曲的段落结构信息，节奏信息等。因此，结构分割法使用的就是近似和弦的特征来表征音乐段落，对提取得到的PCP特征进行延迟坐标嵌入处理，通过延迟坐标嵌入计算PCP特征的图递归矩阵，通过图递归矩阵作为相似度描述，最后使用时滞变换将斜线转换为直线，得到时滞矩阵，再通过高斯滤波对时滞矩阵进行平滑处理，并对时滞矩阵中每一时刻的重复点进行累加得到频率统计曲线，取频率统计曲线中一部分高于阈值的顶点作为分割点。

上述实施方式中通过提取音频内容的PCP特征，能够保留音频中的音色、和弦等信息，增加音频结构确定过程中所结合的参考要素，使得音频结构分割的结果虽然粒度粗但分割点的精确度得到提升。

步骤203，对歌词内容进行分析，确定歌词内容的边界分割时间信息。

具体实施时，对歌词内容进行分析，确定歌词内容的边界分割时间信息的具体流程，如图8所示，其主要包括三个部分，第一部分利用歌词的文本信息和句长信息通过编辑距离求取相似度矩阵，并进行线性变换。第二部分构建一个利用句长信息，相似度信息，边界可信度的评分函数，第三部分利用动态规划算法搜索评分结果的全局最优解，最后输出歌词内容中重复歌词的边界分割时间信息。

具体来说，相似度矩阵分为两个部分组成。第一部分使用编辑距离对歌词内容的文本信息进行划分。其中，编辑距离的规则用公式描述如下：

lev_a,b(i,j)用于描述歌词中句子a的前i个字符和句子b的前j个字符之间的距离，根据需要进行添加，删减，替换进行分类，最终动态规划的方式，获得句子a和句子b之间差距。

最终的编辑距离lev_a,b(i,j)与句子a和b中字数较多的一句的长度之比，作为句子a的相对边际距离R_lev_a，最后使用1减去整个距离矩阵，获得编辑距离相似度矩阵ED_ssm(i,j)，其表达式如下，其中，使用0.85作为判定阈值：

利用歌词所带的句子时间信息计算句长信息，句长信息可以使用阈值L作为判断，该阈值L的取值范围不做限定，本实施例中优选取值为平均句子长度Lyrics_len的四分之一作为阈值。如果两句时间之差超出此阈值，则视为两句不同，否则认为两句时间长度相同，依此得到歌词内容的句长时间差相似度矩阵。具体表达式如下：

其中，LL_ssm(i,j)为句长时间差相似度矩阵中(i,j)位置处元素值，len_long和len_short为两句歌词的长度。

在计算得到歌词内容的编辑距离相似度矩阵和句长时间差相似度矩阵之后，将编辑距离相似度矩阵和句长时间差相似度矩阵以预设权重值加权求和，得到歌词内容的相似度矩阵。其中权重a满足以下条件：

其中坐标(q，p)表示编辑距离相似度矩阵中值等于1的点。

最终歌词内容的相似度矩阵SSM为编辑距离相似度矩阵和句长时间差相似度矩阵的加权，其表达式为：ED_ssm(i,j)*a+LL_ssm(i,j)(1-a)。在一具体示例中，歌曲“成都”的歌词内容的相似度矩阵SSM如图9所示，图9中多个菱形方块连接构成的斜线段表示重复的歌词。

在获得歌词内容的相似度矩阵SSM后先对矩阵进行线性变换，转换为时滞矩阵，以将斜线变为水平直线，更便于计算。如图10所示，该时滞矩阵中水平线段依然表示重复的歌词；竖直线为分割线，用于表示重复歌词的边界分割位置。

通过对时滞矩阵中的线段进行分割，获取所有可能的分割线S{1,2,3…n}，然后过滤掉其中小于分割阈值的分割点，得到初步边际信息，其中，分割阈值是根据总句数采用如下公式进行计算的：

lyrics_count＝lyrics_all/lrics_count_threshold lrics_count_threshold＝40

其中，lyrics_count为分割阈值，lyrics_all为总句数。

然后，通过判断分割线是否存在于时滞矩阵中的线段端点处，去除初步边际信息中一批影响连续性的分割候选值，再利用连续性得分函数评价每两个段落之间的边界得分情况。其中，段落得分Seg表示为段落之间完整线数占总长的比值减去其中不完整线数占总长的比值。用公式表示如下：

其中，seg为段落得分，len(line_q)为完整线数，len(line_q)为不完整的线数，len(seg_num)为线段总长度。

此评分规则目的在于提高将长句/完整句子分割出来的概率，降低将短句/短词分割出来的概率，避免一些歌曲中会有反复出现的单句/短句被分割出来干扰目标分割结果，从而提高精确分割出副歌部分的概率。此时获得的每一条分割线都可以使用前一个seg和后一个seg得分的平均值作为此分割点的得分，最终获得的分数就是当前分割线的连续性得分。

具体实施时，计算得到每个分割线的连续性得分后，使用动态规划算法，调整每个分割线的位置，以获得全局最优解。具体来说，使用g(i,j)描述第j个分割线位于第i个句子上的全局得分。其中有如下几条限定规则：

规则一、有限性。即所有候选边界位置数量为N，总集S’为S’＝{1,2,3…N}。

规则二、单调性。即候选集顺序固定，不发生交叉，重叠。所以对于路径矩阵g(i,j)，总有总和递增的增加。因为分割越多，则全局连续性得分就越多，最终第j个分割线一定能使全局获得最优最大值解。

用公式描述优化矩阵为g(i,j)＝max(g(i',j')+score(j))最终可获得最优分割，具体实施时，图10所示出的时滞矩阵中多条分割线的最优分割结果如图11所示，得到最优分割结果后将所有分割点的连续性得分之和最大时每个分割点的位置，确定为歌词内容中重复歌词的边界分割时间信息。

此时获得的分割线就是根据歌词内容和时间信息获得的段落分割线，作为输出其还可记录歌词中，空隙较长(可能为间奏)的歌词信息的位置，以及相似度矩阵中水平线的边界(反复重复)作为其它段落的一些确定性划分，给予较高的权重水平。对于其它的则获取第j个分割线和第j+1个分割线间在相似度矩阵上的相似度平均值。具体公式描述如下：

其中，j是边界分割点的下标，i是全部歌词的下标。w_j表示了第j个分割线的权重(置信度)，SSM_segj表示为第j个分割线到第j+1个分割线中间段落的SSM均值。由此可以作为和其它特征结合时的凭证，同时也可以将连续性得分最高的一部分片段，作为副歌的起始参考点。

步骤204，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

具体实施时，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息，包括：分别计算边界分割信息的置信度和边界分割时间信息的置信度，并基于边界分割信息的置信度和边界分割时间信息的置信度，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

具体来说，若边界分割信息仅包括第一类边界分割信息，则分别计算第一类边界分割信息的置信度和边界分割时间信息的置信度，基于第一类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息和边界分割时间信息进行融合，得到融合边界信息；若边界分割信息包括第一类边界分割信息和第二类边界分割信息，则分别计算第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度，并基于第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息、第二类边界分割信息和边界分割时间信息进行融合，得到融合边界信息。

其中，边界分割时间信息的置信度采用如下规则计算：(1)两句歌词间隔超过4秒的置信度为1；(2)连续歌词相同的置信度为1；(3)其余情况置信度使用段落平均相似度作为参考。

第一类边界分割信息的置信度，使用谱差法对边界集合进行置信度考量。

其中，置信度为所有边界点所在CQT谱帧的相对谱差值SDi，其计算公式如下：

所有边界的置信度合集C满足C_sf{c_i}＝SD_i。

第二类边界分割信息的置信度，在获取边界分割集合后，再通过其频率统计曲线描述置信度集合，该置信度集合通过如下公式计算：

C_sf{c_i}＝r_i/max(r_{i＝1,2,3...n})

其中，r为频率统计曲线归一化后的参考值，max(r_{i＝1,2,3…n})全局最大重复度，c_i为获得置信度。

具体基于第一类边界分割信息的置信度、第二类边界分割信息的置信度和边界分割时间信息的置信度，对第一类边界分割信息、第二类边界分割信息和边界分割时间信息进行融合，得到融合边界信息时，首先，基于第一类边界分割信息的置信度和第二类边界分割信息的置信度，对第一类边界分割信息和第二类边界分割信息进行融合，得到中间融合信息，然后基于边界分割时间信息的置信度，对中间融合信息和边界分割时间信息进行融合，得到融合边界信息。

具体实施时，基于第一类边界分割信息的置信度和第二类边界分割信息的置信度，采用如下公式对第一类边界分割信息和第二类边界分割信息进行融合：

a＝(C_lsi×tS)/(C_sfj+C_lsi×tS)

tS＝(abs(S_lsi-S_sfj)/time_threshold)

a用此描述两个算法之简的权重比例，a的目的为平衡时间关系和权重关系的综合考虑。当时间间隔越小，两个边界的置信度所占比重应该越小，因为两个边界极可能是一种表示的误差所导致的，因此更加偏向于使用谱差法计算置信度的方式，反之亦然。

具体实施时，基于边界分割时间信息的置信度，采用如下公式对中间融合信息和边界分割时间信息进行融合：

其中，b的参数设置和歌词置信度相同，设为0.85。此部分除了歌词中权重为1的部分，其余部分均更偏重于音频信息，歌词信息只作为一部分的辅助作用，最终获得了所有边界可能性集合，然后根据时间的低通滤波，滤除频率过高的内容，即可获得融合边界信息S_final。

步骤205，对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

具体实施时，对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构，包括：对融合边界信息进行聚类，确定待检测音乐中每一段落的段落类别；根据确定出的段落类别、待检测音乐中的时长和音频脉冲信号的幅值，确定待检测音乐的结构。

具体对融合边界信息进行聚类，确定待检测音乐中每一段落的段落类别，包括：利用预先配置的CQT矩阵对融合边界信息进行处理，得到N个特征矩阵，其中，N为融合边界信息中的边界数量；利用主成分分析PCA算法对特征矩阵中的每个元素进行降维处理，得到特征集合；使用K均值聚类算法对特征集合进行聚类，得到聚类结果；基于聚类结果，确定待检测音乐中每一段落的段落类别。

具体来说，步骤204中最终计算得到的融合边界信息S_final，可以继续使用拉普拉斯降维进行聚类求解。

假设S_final＝{sl₁,sl₂,sl₃…sl_N}，将融合边界信息带入到预先配置的CQT矩阵中，得到N个特征矩阵，即为

上述N个特征矩阵的长为段落时间长度的帧数F，宽为CQT矩阵的频带个数Bin，其中，Bin＝84，继续用主成分分析(Principle component analysis，PCA)算法对特征矩阵进行降维处理，得到集合fv＝{fv₁,fv₂,fv₃...fv_N}，具体利用如下公式进行降维处理：

fv_i＝PCA(F_sli)，其中，fv_i为降维后的特征值，PCA()为主成分分析算法，F_sli为特征矩阵中的元素值。

最终使用K均值聚类方法对fv拼接的FV降维特征矩阵进行聚类，每一段的标签取每一聚类内部标签最多的作为段落标签。

具体实施时，确定音频内容中每一段落的段落标签后，即可划分音频内容的结构，确定出音频中的主歌部分和副歌部分。

示例性装置

在介绍了本发明示例性实施方式的方式之后，接下来，参考图6对本发明示例性实施方式的音乐结构的确定装置。

如图12所示，基于相同的发明构思，本发明实施例还提供了一种音乐结构的确定装置，包括：

获取单元1201，用于获取待检测音乐的音频内容和歌词内容；

音频分析单元1202，用于对音频内容进行分析，确定音频内容的边界分割信息；

歌词分析单元1203，用于对歌词内容进行分析，确定歌词内容的边界分割时间信息；

融合单元1204，用于对边界分割信息和边界分割时间信息进行融合，得到融合边界信息；

处理单元1205，用于对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

在一种可能的实施方式中，本发明实施例提供的上述装置中，音频分析单元1202，具体用于：

提取音频内容的梅尔倒谱系数MFCC特征；

基于CQT特征和MFCC特征确定音频内容的音频特征图；

提取音频内容的音级轮廓PCP特征；

在一种可能的实施方式中，本发明实施例提供的上述装置中，歌词分析单元1203，具体用于：

计算初步边际信息中每个分割点的连续性得分；

在一种可能的实施方式中，本发明实施例提供的上述装置中，融合单元1204，具体用于：

a＝(C_lsi×tS)/(C_sfj+C_lsi×tS)

tS＝(abs(S_lsi-S_sfj)/time_threshold)

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元1205，具体用于：

使用K均值聚类算法对特征集合进行聚类，得到聚类结果；

基于聚类结果，确定待检测音乐中每一段落的段落类别。

在介绍了本发明示例性实施方式的音乐结构的确定方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的音乐结构的确定装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的音乐结构的确定装置可以包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音乐结构的确定方法中的各种步骤。例如，所述处理单元可以执行如图2中所示的步骤201，获取待检测音乐的音频内容和歌词内容；步骤202，对音频内容进行分析，确定音频内容的边界分割信息；步骤203，对歌词内容进行分析，确定歌词内容中重复歌词的边界分割时间信息，步骤204，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息，以及步骤205，对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

下面参照图13来描述根据本发明的这种实施方式的音乐结构的确定装置130。图13显示的音乐结构的确定装置仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，音乐结构的确定装置130可以以通用计算设备的形式表现，例如其可以为终端设备。音乐结构的确定装置130的组件可以包括但不限于：上述至少一个处理单元131、上述至少一个存储单元132、连接不同系统组件(包括存储单元132和处理单元131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储单元132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

音乐结构的确定装置130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与该音乐结构的确定装置130交互的设备通信，和/或与使得该音乐结构的确定装置130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，音乐结构的确定装置130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与音乐结构的确定装置130的其它模块通信。应当明白，尽管图中未示出，可以结合音乐结构的确定装置130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的音乐结构的确定方法中的步骤，例如，所述终端设备可以执行如图2中所示的步骤201，获取待检测音乐的音频内容和歌词内容；步骤202，对音频内容进行分析，确定音频内容的边界分割信息；步骤203，对歌词内容进行分析，确定歌词内容中重复歌词的边界分割时间信息，步骤204，对边界分割信息和边界分割时间信息进行融合，得到融合边界信息，以及步骤205，对融合边界信息进行聚类，确定待检测音乐中每个段落的段落类别以及待检测音乐的结构。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图14所示，描述了根据本发明的实施方式的用于确定音乐结构的程序产品140，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音乐结构的确定方法，其特征在于，所述方法包括：

获取待检测音乐的音频内容和歌词内容；

对所述音频内容进行分析，确定所述音频内容的边界分割信息；

对所述歌词内容进行分析，确定所述歌词内容的边界分割时间信息；

对所述边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息；

对所述融合边界信息进行聚类，确定所述待检测音乐中每个段落的段落类别以及所述待检测音乐的结构。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频内容进行分析，确定所述音频内容的边界分割信息，包括：

对所述音频内容进行常Q变换谐波转换离散CQT变换，得到所述音频内容的CQT特征；

提取所述音频内容的梅尔倒谱系数MFCC特征；

基于所述CQT特征和所述MFCC特征确定所述音频内容的音频特征图；

计算所述音频特征图的拉普拉斯矩阵，并对所述拉普拉斯矩阵进行奇异值分解，得到分解结果；

对所述分解结果进行聚类，得到所述音频内容的第一类边界分割信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述音频内容进行分析，确定所述音频内容的边界分割信息，包括：

提取所述音频内容的音级轮廓PCP特征；

基于所述PCP特征，计算所述音频内容的音频相似度矩阵，对所述音频相似度矩阵进行时滞变换，并对所述时滞变换的变换结果进行平滑处理，对所述平滑处理结果进行累加滤波处理，得到用于表征所述音频内容边界点重复度的频率统计曲线；

将所述频率统计曲线中统计值大于预设阈值的时刻作为分割点，得到所述音频内容的第二类边界分割信息。

4.根据权利要求1所述的方法，其特征在于，所述对所述边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息，包括：

分别计算所述边界分割信息的置信度和所述边界分割时间信息的置信度；

基于所述边界分割信息的置信度和所述边界分割时间信息的置信度，对所述边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息。

5.根据权利要求4所述的方法，其特征在于，若所述边界分割信息仅包括第一类边界分割信息，所述基于所述边界分割信息的置信度和所述边界分割时间信息的置信度，对所述边界分割信息和所述边界分割时间信息进行融合，包括：

分别计算所述第一类边界分割信息的置信度和所述边界分割时间信息的置信度；

基于所述第一类边界分割信息的置信度和所述边界分割时间信息的置信度，对所述第一类边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息。

6.根据权利要求4所述的方法，其特征在于，若所述边界分割信息包括第一类边界分割信息和第二类边界分割信息，所述基于所述边界分割信息的置信度和所述边界分割时间信息的置信度，对所述边界分割信息和所述边界分割时间信息进行融合，包括：

分别计算所述第一类边界分割信息的置信度、所述第二类边界分割信息的置信度和所述边界分割时间信息的置信度；

基于所述第一类边界分割信息的置信度、所述第二类边界分割信息的置信度和所述边界分割时间信息的置信度，对所述第一类边界分割信息、所述第二类边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息。

7.根据权利要求6所述的方法，其特征在于，所述基于所述第一类边界分割信息的置信度、所述第二类边界分割信息的置信度和所述边界分割时间信息的置信度，对所述第一类边界分割信息、所述第二类边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息，包括：

基于所述第一类边界分割信息的置信度和所述第二类边界分割信息的置信度，对所述第一类边界分割信息和所述第二类边界分割信息进行融合，得到中间融合信息；

基于所述边界分割时间信息的置信度，对所述中间融合信息和所述边界分割时间信息进行融合，得到融合边界信息。

8.一种音乐结构的确定装置，其特征在于，所述装置包括：

获取单元，用于获取待检测音乐的音频内容和歌词内容；

音频分析单元，用于对所述音频内容进行分析，确定所述音频内容的边界分割信息；

歌词分析单元，用于对所述歌词内容进行分析，确定所述歌词内容的边界分割时间信息；

融合单元，用于对所述边界分割信息和所述边界分割时间信息进行融合，得到融合边界信息；

处理单元，用于对所述融合边界信息进行聚类，确定所述待检测音乐中每个段落的段落类别以及所述待检测音乐的结构。

9.一种音乐结构的确定设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的音乐结构的确定方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由音乐结构的确定设备的处理器执行时，使得音乐结构的确定设备能够执行如权利要求1至7中任一项所述的音乐结构的确定方法。