CN113140228A

CN113140228A - 一种基于图神经网络的声乐打分方法

Info

Publication number: CN113140228A
Application number: CN202110402798.2A
Authority: CN
Inventors: 李风环; 李轶; 吴缺; 梁爽; 黄浩诚; 陈铭钧
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-07-20

Abstract

本发明公开了一种基于图神经网络的声乐打分方法，包括以下步骤：S1：将歌曲音频通过librosa声音处理库转换成声音图形，分析声音图形获取歌曲音频的声音特征；S2：根据得到的声音特征利用图卷积神经网络进行男女声分类；S3：将分类后的歌曲音频利用异质图注意力网络进行打分。本发明利用librosa库提取大量的声音特征，然后借助于图卷积神经网络对局部结构的建模能力及图上普遍存在的节点依赖关系，使用图卷积神经网络和异质图注意力网络来进行打分，以使打分结果更加精确。

Description

一种基于图神经网络的声乐打分方法

技术领域

本发明涉及语音识别和数据挖掘技术领域，更具体地，涉及一种基于图神经网络的声乐打分方法。

背景技术

近年来，计算机智能化程度得到极大的提高，具备一定的决策判断能力，达到模拟人的行为的目标。而实时演唱打分算法便是模拟真人对演唱进行评价而推出的一种评分概念。它通过特征提取比对和演唱评价两个过程对演唱者进行评价，不仅能够用于唱歌软件的等级评定和演唱比赛的选手评级中，还能广泛运用在音乐初学者的音乐节奏、音准的校正，演唱方式学习等方面。同时，演唱打分算法也能帮助音乐设备进行调音校准，为其他媒体设备诸如数字电视等产品提供辅助功能，达到相辅相成的效果。在未来，演唱打分算法能够更大地激发人们对于唱歌的热情和兴趣，推动娱乐消遣模式的转型发展，为人们的音乐生活增添色彩。可以说，实时演唱打分算法对人们的未来生活具有重大意义，能极大的丰富人们的日常生活。

过去几年，深度学习快速发展，并借由其强大的建模能力引起广泛关注。深度学习的引入给图像处理和自然语言处理等领域带来了很大的提升，如机器翻译、图像识别和语音识别等，但是，传统的深度学习方法只能处理欧氏空间数据(如图像、文本和语言)，这些领域的数据具有平移不变性。而本专利需要提取多维度的特征，变成图的结构，是非欧氏空间数据，所以采用图神经网络的方法。图卷积神经网络(Graph Convolutional Network,GCN)具有深度学习的层级结构、非线性变换和端对端训练的性质，是卷积神经网络在图域中的推广，能够实现参数共享、感受充分的特征和结构信息。图注意力网络(Graphattention network,GAT)可以处理任意大小输入的问题，并且关注最具有影响能力的输入，注意力机制在RNN与CNN之中，都取得了不错的效果。librosa库是用于音乐和音频分析的python软件包。它提供了提取音乐信息所必需的接口。

现有技术中，公开号为CN109271550A中国发明专利，于2019年1月25日公开了一种基于深度学习的音乐个性化分类推荐方法，包括对乐库中用户操作多的音乐建立向量模型来推荐相似音乐，同时训练一个深度网络模型分析音乐频谱图使用户操作数少的音乐也能有效地按用户喜好分类推荐。本方法主要利用了用户操作反馈和音乐频谱，能有效地避免人工建立复杂的音乐标签，同时对不同操作数的音乐区分操作，可以解决音乐新加入乐库的冷启动问题，该方案虽然是使用深度学习模型，但其是对音乐的个性化分类，没有实现声乐打分。

发明内容

本发明为克服上述现有技术中声乐打分方法精确度低的缺陷，提供一种基于图神经网络的声乐打分方法。

本发明的首要目的是为解决上述技术问题，本发明的技术方案如下：

本发明提供了一种基于图神经网络的声乐打分方法，包括以下步骤：

S1：将歌曲音频通过librosa声音处理库转换成声音图形，分析声音图形获取歌曲音频的声音特征；

S2：根据得到的声音特征利用图卷积神经网络进行男女声分类；

S3：将分类后的歌曲音频利用异质图注意力网络进行打分。

进一步的，步骤S1中获取的声音特征包括：色谱图、局部自相关、节奏、频谱图。

进一步的，步骤S1中声音特征提取的具体步骤为：

S101：利用librosa库的librosa.load函数，提取歌曲的音频；

S102：利用librosa库的librosa.feature.chroma_stft函数，计算歌曲音频的色谱图，其中利用音频时间序列y，y的采样率sr，产生的色度仓数n_chroma，fft窗口大小n_fft；

S103：利用librosa库的librosa.feature.tempogram函数，计算起始强度包络的局部自相关，其中利用可选的预先计算的起始强度包络onset_envelope，y的采样率sr，连续测量之间的音频样本数量hop_length；

S104：利用librosa库的librosa.feature.tempo函数，计算节奏，其中利用了可选的预先计算的起始强度包络onset_envelope，y的采样率sr，连续测量之间的音频样本数量hop_length

S105：利用librosa库的librosa.display.specshow函数，显示频谱图，其中利用了用于确定x轴时间刻度的采样率，y的采样率sr，连续测量之间的音频样本数量hop_length，自动颜色图检测cmap。

进一步的，步骤S2中图卷积神经网络的数学表达式为：

其中，X是声音特征，A是对称邻接矩阵，W是权重矩阵。

进一步的，步骤S3所述的异质图注意力网络包括两部分：特征级注意力和语义级注意力，

所述特征级注意力用于计算每个实例的不同特征之间的相关性，以捕捉特征对当前实例的影响，计算方法如公式(2)：

Z_i＝σ(∑_j∈Nα_ijX_j) (2)

其中，X_j是上述过程经过歌曲数字化和男女声分类后的第i个特征，α_ij是特征j对当前实例的影响力权重，Z_i是经过特征级注意力机制后的实例表示；

所述语义级注意力捕捉异质图上的实例邻居对当前实例的影响，经过语义级注意力机制，计算出每个实例邻居的影响即计算出实例权重，从而得到当前实例的全面表示；

要得到每个实例之间的权重，首先使用一层的MLP将实例表示Z_i进行非线性变换，通过实例级的注意力矩阵q来衡量多个实例之间的相似性，如公式(3)所示：

其中，m表示实例个数，b表示偏置；

将多个实例之间的相似性经过softmax函数，得到实例权重，如公式(4)所示：

将特征级注意力下的实例表示与实例权重结合得到语义层的实例表示，如公式(5)所示：

最后构建损失函数，利用全连接网络进行打分。

与现有技术相比，本发明技术方案的有益效果是：

本发明利用librosa库提取大量的声音特征，然后借助于图卷积神经网络对局部结构的建模能力及图上普遍存在的节点依赖关系，使用图卷积神经网络和异质图注意力网络来进行打分，以使打分结果更加精确。

附图说明

图1为本发明一种基于图神经网络的声乐打分方法流程图。

图2为本发明利用异质图注意力网络进行打分示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

如图1所示，本发明提供了一种基于图神经网络的声乐打分方法，包括以下步骤：

在一个具体的实施例中，所述的声音特征包括有：：色谱图、局部自相关、节奏、频谱图。更具体的获取声音特征的具体流程如下：

S101：利用librosa库的librosa.load函数，提取歌曲的音频；

需要说明的是，因为男女生理结构不一样，导致男声普遍低于女声一个八度，因此会对打分效果产生影响，所以本发明打分之前，利用上述提取的声音特征对男女声进行分类，以研究男女声对打分的影响。因为不同特征具有一定的相关性，而且不同的图像特征之间不满足平移不变性，但同时需要有效的提取空间特征来进行男女声分类，图卷积神经网络本质目的是用来提取拓扑图的空间特征，因此在本发明采用图卷积神经网络，公式如下：

其中，X是声音特征，A是对称邻接矩阵，W是权重矩阵。

S3：将分类后的歌曲音频利用异质图注意力网络进行打分。

需要说明的是，本发明结合声音特征和男女声特征进行歌曲打分。因为不同特征之间具有丰富的相关性，对于打分具有不同的影响，而且不同的实例(即不同的音频)之间具有一定的关联，因此本发明采用全连接图结构去建模声音特征，以为打分提供合理的数据模型。图注意力网络能够在图的结构上捕捉到实例之间复杂的结构信息和丰富的语义信息，关注最具有影响力的特征和实例，因此打分过程中本专利采用异质图注意力机制，以捕捉每个实例的不同特征之间的关联，以及不同特征之间的相互关系，同时该方法可以并行运算，体现打分系统的高效性。基于异质图注意力网络进行打分的过程，如图2所示。该过程中包含了两层注意力：特征级注意力和语义级注意力。

其中，所述特征级注意力用于计算每个实例的不同特征之间的相关性，以捕捉特征对当前实例的影响，计算方法如公式(2)：

Z_i＝σ(∑_j∈Nα_ijX_j) (2)

其中，m表示实例个数，b表示偏置；

最后构建损失函数，利用全连接网络进行打分(即分数预测)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图神经网络的声乐打分方法，其特征在于，包括以下步骤：

S3：将分类后的歌曲音频利用异质图注意力网络进行打分。

2.根据权利要求1所述的一种基于图神经网络的声乐打分方法，其特征在于，步骤S1中获取的声音特征包括：色谱图、局部自相关、节奏、频谱图。

3.根据权利要求2所述的一种基于图神经网络的声乐打分方法，其特征在于，步骤S1中声音特征提取的具体步骤为：

S101：利用librosa库的librosa.load函数，提取歌曲的音频；

4.根据权利要求1所述的一种基于图神经网络的声乐打分方法，其特征在于，步骤S2中图卷积神经网络的数学表达式为：

其中，X是声音特征，A是对称邻接矩阵，W是权重矩阵。

5.根据权利要求1所述的一种基于图神经网络的声乐打分方法，其特征在于，步骤S3所述的异质图注意力网络包括两部分：特征级注意力和语义级注意力，

Z_i＝σ(∑_j∈Nα_ijX_j) (2)

其中，m表示实例个数，b表示偏置；

最后构建损失函数，利用全连接网络进行打分。