CN112201226A

CN112201226A - 一种发声方式判别方法及系统

Info

Publication number: CN112201226A
Application number: CN202011044151.9A
Authority: CN
Inventors: 李伟; 江益靓; 孙校珩; 钱家乐
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-08
Anticipated expiration: 2040-09-28
Also published as: CN112201226B

Abstract

本发明属于声音识别技术领域，具体为一种发声方式判别方法及系统。本发明方法包括：获取各发声方式对应的音频数据；采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据，相邻样本数据有设定量的重叠；对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波，得到各样本数据的梅尔谱；对样本数据的梅尔谱进行标准化，以样本数据标准化后的梅尔谱为输入，以Adam为优化函数，以交叉熵为损失函数训练神经网络；采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明简化了发声方式的判别方法，降低了成本。本发明在相关源任务即歌声技巧分类的任务上做了预训练，加快了神经网络的训练速度。

Description

一种发声方式判别方法及系统

技术领域

本发明属于声音识别技术领域，具体涉及一种发声方式判别方法及系统。

背景技术

现有的发声方式判别研究中，大多采用空气动力学特征或声学特征对发声方式进行判别。其中，空气动力学特征主要由声门气压和声门气流决定，可以通过空气动力检测仪收集。空气动力检测仪主要包含信号收集、传输、放大、计算等组成装置，受试者通过面罩向气流计速器中呼气或发音，反映声门气流率的气流信号传导至压力传感器，再经过放大、滤波处理输入计算机中。机器通常接连显示器，展示出平均气流信号、声门上下压信号，计算得到声门阻力和发声效率等指标，能在一定程度上区分发声方式。使用声学特征进行判别，主要分为语音发声场景和歌唱发声场景。语音发声场景下，采用归一化振幅商、最大峰值处值、频谱1000Hz上下的能量比等声学特征进行发声方式区分，与专家判断结果有一定的一致性；歌唱发声场景下，有研究采用谱质心、谱通量、梅尔频率倒谱系数等频域特征结合MDQ、NAQ等声音质量特征对四种发声方式进行判别。

然而，采用空气动力学特征进行发声方式的判断，需要采用空气动力检测仪等设备辅助进行，且需要测试人佩戴相应的设备做出呼气、发音等操作，过程较为繁琐。采用声学特征进行发声方式的判断，需要在众多的声学特征中人工筛选合适的特征，这需要大量的实验测试，耗费大量的人力物力。

发明内容

本发明的目的是提供一种操作简便、成本较低的发声方式判别方法及系统。

本发明提供的发声方式判别方法，具体步骤包括：

(1)获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；

(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；

(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；

(4)基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化；其中，所述训练集由各样本数据的梅尔谱组成；

(5)以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练一个用于发声方式判别的卷积神经网络，得到训练好的神经网络模型；

(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。

可选的，步骤(4)所述基于训练集的梅尔谱均值与方差，对降采样后的各样本数据进行标准化，具体包括：

根据

对降采样后的各样本数据进行标准化，其中，S_origin为样本数据标准化前的梅尔谱，S_standard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值。

可选的，步骤(4)中所述神经网络包括卷积模块和分类模块；其中，所述卷积模块包括四个卷积层、最大池化层和丢弃层，所述分类模块包括三个全连接层。

可选的，采用歌声技巧分类模型中前三个卷积层的权重参数对所述发声方式判别神经网络中的前三个卷积层(即卷积模块中的前三个卷积层)的权重参数进行初始化，所述歌声技巧分类模型采用卷积神经网络的架构，包括五个卷积层和四个全连接层。该歌声技巧分类模型见参考文献“Kumar A,Khadkevich M,Fügen C.Knowledge transfer fromweakly labeled audio using convolutional neural network for sound events andscenes[C]//2018IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2018:326-330”。

可选的，神经网络训练中批处理的每批数据大小为64、72、80、…、128个样本(是8的倍数)。优选每批数据大小为128个样本。

可选的，神经网络训练中的学习率为0.001-0.002。优选学习率为0.001。

可选的，神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。优选随机丢弃概率为0.25。

可选的，神经网络训练中的训练轮数为200-300。训练轮数为200。

相应于上述发声方式判别方法，本发明还提供一种发声方式判别系统，该系统包括：

音频数据获取模块，用于获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；

样本数据截取模块，用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；

梅尔谱计算模块，用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；

标准化模块，用于基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化，其中，所述训练集由各样本数据的梅尔谱组成；

神经网络训练模块，用于以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练卷积神经网络，得到训练好的神经网络模型；

判别模块，用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。

可选的，所述标准化模块，具体包括：

标准化单元，用于根据

系统中的六个模块执行判别方法中对应六个步骤的操作。

本发明提供的发声方式判别方法及系统，结合计算机听觉技术深度学习中的卷积神经网络，自动提取了发声方式的高层特征，完成了发声方式的分类。简化了发声方式的判别，节省了相应的检测设备成本以及声学特征筛选试验成本。而且，由于本发明在相关源任务即歌声技巧分类的任务上做了预训练，即采用了迁移学习技术，加快了神经网络的训练速度。

附图说明

图1为本发明实施例1提供的发声方式判别方法的流程图；

图2为本发明实施例2提供的发声方式判别系统的结构示意图。

具体实施方式

下面将结合实施例和附图，对本发明进行进一步具体描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，本实施例提供了一种发声方式判别方法，该方法包括：

步骤101：获取各发声方式对应的音频数据，所述发声方式包括但不限于呼气式发声、自然式发声、抖动式发声以及挤压式发声。具体可以为：采用来自Polina、Rouas和Ioannides以及庞培法布拉大学提供的数据集，该数据集一共包含了三位专业女高音歌手和一位专业男中音歌手录制的元音发声，共计2151条录音数据，并标注了四种歌声发声方式：呼气式发声，自然式发声，抖动式发声以及挤压式发声。

步骤102：采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠。具体可以为：利用滑窗的方式，在各音频数据上连续截取设定长度的样本，优选的，设定长度可以为500ms，相邻样本之间可以存在少量重叠，从而多保留一些样本信息。可选的，样本数据的具体截取方式可以为：去除音频数据头部和尾部可能不稳定的128ms，以500ms窗长，128ms为重叠部分对音频进行切割，数据集中1s左右的音频大约能切割出2段0.5s训练数据，样本数据数量扩充了近两倍。

步骤103：对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱。其中，降采样的采样率可以为16kHz，以减少计算量。比如，对500ms的音频样本进行分帧，帧长为2048个采样点(46.44ms)，帧移为256个采样点(11.61ms)。接着对每一个帧的音频进行加窗处理，再做傅立叶变换，公式如下：

其中，w(k,τ)为汉明窗函数，x(k)是音频信号的时间序列。完成傅立叶变换后就得到了时频谱，在时频谱的基础上点乘梅尔滤波函数，得到梅尔谱，再将功率谱转化为分贝尺度，公式如下：

S_db＝10*log₁₀S；

步骤104：基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化，其中，所述训练集由各样本数据的梅尔谱组成。具体可以为：根据

对各样本数据的梅尔谱进行标准化，其中，S_origin为样本数据标准化前的梅尔谱，S_standard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值。

步骤105：以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练卷积神经网络，得到训练好的神经网络模型。其中，神经网络的结构设计如下：设置包括4个卷积层的卷积模块，每个卷积层都进行补0操作，使得输入特征图与输出特征图大小一致。其中，第一个卷积层的滤波器的形状为3*3*16，三个数字分别对应于频率、时间、信道。第二个卷积层的滤波器在频率、时间上的尺度不变，通道加深一倍，即32个通道。第三个卷积层的滤波器与第二个卷积层一致，第四个卷积层滤波器的个数增加一倍。每个卷积操作后，都会进行批标准化操作，再通过修正线性单元(ReLU)，之后再经过最大池化与丢弃层，其目的是进行下采样，去除冗余信息，增加网络的泛化性。以上卷积模块从输入梅尔谱中提取出发声方式的高层特征，再经过三个全连接层进行分类，最后一层加上Softmax函数，最终的输出为四种发声方式的概率，其中概率最大的类别为最终的判断类别。

作为一种优选实施方式，采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络中的前三个卷积层的权重参数进行初始化，以提高训练速度以及保障模型的有效性。所述歌声技巧分类模型采用卷积神经网络的架构，包括五个卷积层和四个全连接层。

步骤106：采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。

在本实施例中，神经网络结构采用的超参数中，批处理的每批数据大小为128个样本，学习率为0.001，最大池化与丢弃层的随机丢弃概率为0.25，最大训练轮数(Epoch)为200，使用Adam作为优化函数和交叉熵(Cross Entropy)作为损失函数训练神经网络。交叉熵损失函数定义如下：

其中，p(x_i)为期望概率分布，q(x_i)为Softmax层输出的概率分布，n是类别数。

使用Adam作为优化函数，根据损失函数值训练神经网络。

在测试方面，本实施例采用机器学习分类算法的测试指标，主要包含了正确率、精确率、召回率和F1值。测试试验分别对所有的数据集进行了测试，对四种发声方式结果做了精确率、召回率、F1值的测试。其中整体数据集的实验结果达到了86.14％的准确率与89.23％的F1值。

模型解释方面，本发明采用Grad-CAM技术，对卷积神经网络学习到的深层特征做可视化的呈现，结果发现卷积神经网络提取出来的特征即网络的关注点与人们对不同发声方式频谱的理解相近。四种发声方式的Grad-CAM可视化结果与发声方式常识的比较，具体表现为：

1.抖动式发声，从低频到高频，神经网络的关注点较为均匀，而这种发声方式实际上抖动发生为基频规律振动，可以推测出卷积网络关注的是基频以及谐波的抖动情况。

2.自然式发声，网络在低频以及高频区域高亮，这也与普通歌唱发音常识相吻合：在低频段能量较高，在高频段谐波的倍数处会有能量聚集现象。

3.呼气式发声，可视化的结果中网络关注的是高频部分，实际上呼气式发声会带有粗糙感，其本质上也是高频噪声能量较大。

4.对于按压式发声，卷积网络关注其低频能量，结合按压式发声的原理，声门下压力大，共鸣较少，能量在低频较集中。

实施例2

参见图2，本实施例提供了一种发声方式判别系统，该系统包括：

音频数据获取模块201，用于获取各发声方式对应的音频数据，所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声；

样本数据截取模块202，用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据，相邻所述样本数据有设定量的重叠；

梅尔谱计算模块203，用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换，通过梅尔滤波器组，得到各样本数据的梅尔谱；

标准化模块204，用于基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化，其中，所述训练集由各样本数据的梅尔谱组成；

神经网络训练模块205，用于以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练卷积神经网络，得到训练好的神经网络模型；

判别模块206，用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别

作为本实施例的一种实施方式，标准化模块204，具体包括：

标准化单元，用于根据

本发明首次提出了基于卷积神经网络的对发声方式的判别方法。利用卷积网络，能够在有精确发声方式标签的音频片段上学习表征发声方式的高层特征，从而省去了以往工作中人工提取特征的大量繁琐工作。解决了训练数据不足的问题，对源训练数据集扩充了近两倍，使得深度学习网络能够更充分地学习到数据规律，提升了网络的性能。应用了迁移学习技术，利用在相关源任务(歌唱技巧分类)中学习到的知识来改进目标任务的方法，提高了训练速度和模型有效性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种发声方式判别方法，其特征在于，具体步骤为：

(5)以标准化后的各样本数据的梅尔谱作为输入，以Adam为优化函数，以交叉熵为损失函数训练一个卷积神经网络，得到训练好的神经网络模型；

2.根据权利要求1所述的发声方式判别方法，其特征在于，步骤(4)所述基于训练集的梅尔谱均值与方差，对降采样后的各样本数据进行标准化，具体包括：

根据

3.根据权利要求2所述的发声方式判别方法，其特征在于，步骤(4)中所述神经网络包括卷积模块和分类模块；其中，所述卷积模块包括四个卷积层、最大池化层和丢弃层，所述分类模块包括三个全连接层。

4.根据权利要求3所述的发声方式判别方法，其特征在于，所述神经网络的结构设计如下：对于4个卷积层，每个卷积层都进行补0操作，使得输入特征图与输出特征图大小一致；其中，第一个卷积层的滤波器的形状为3*3*16，三个数字分别对应于频率、时间、信道；第二个卷积层的滤波器在频率、时间上的尺度不变，通道加深一倍，即32个通道；第三个卷积层的滤波器与第二个卷积层一致，第四个卷积层滤波器的个数增加一倍；每个卷积操作后，都会进行批标准化操作，再通过修正线性单元，之后再经过最大池化与丢弃层，其目的是进行下采样，去除冗余信息，增加网络的泛化性；以上卷积层模块从输入梅尔谱中提取出发声方式的高层特征，再经过三个全连接层进行分类，最后一层加上Softmax函数，最终的输出为四种发声方式的概率，其中概率最大的类别为最终的判断类别。

5.根据权利要求4所述的发声方式判别方法，其特征在于，采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络中的前三个卷积层的权重参数进行初始化，所述歌声技巧分类模型采用卷积神经网络的架构，包括五个卷积层和四个全连接层。

6.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中批处理的每批数据大小为64、72、80、…、或128个样本。

7.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中的学习率为0.001-0.002；神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。

8.根据权利要求3所述的发声方式判别方法，其特征在于，神经网络训练中的训练轮数为200-300。

9.一种相应于权利要求1-8之一所述方法的发声方式判别系统，其特征在于，包括：

标准化模块，用于基于训练集的梅尔谱均值与方差，对各样本数据的梅尔谱进行标准化，其中，所述训练集由各样本数据的梅尔谱组成；具体包括：标准化单元，用于根据

对降采样后的各样本数据进行标准化，其中，S_origin为样本数据标准化前的梅尔谱，S_standard为样本数据标准化后的梅尔谱，s为训练集中梅尔谱的方差，μ为训练集中梅尔谱的均值；