CN112201226A - 一种发声方式判别方法及系统 - Google Patents
一种发声方式判别方法及系统 Download PDFInfo
- Publication number
- CN112201226A CN112201226A CN202011044151.9A CN202011044151A CN112201226A CN 112201226 A CN112201226 A CN 112201226A CN 202011044151 A CN202011044151 A CN 202011044151A CN 112201226 A CN112201226 A CN 112201226A
- Authority
- CN
- China
- Prior art keywords
- sample data
- sound production
- neural network
- mel spectrum
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000012850 discrimination method Methods 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 7
- 238000001125 extrusion Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 210000004704 glottis Anatomy 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明属于声音识别技术领域,具体为一种发声方式判别方法及系统。本发明方法包括:获取各发声方式对应的音频数据;采用滑窗方式在各音频数据上连续截取设定长度的音频作为样本数据,相邻样本数据有设定量的重叠;对各样本数据进行降采样、分帧加窗、傅立叶变换以及梅尔滤波,得到各样本数据的梅尔谱;对样本数据的梅尔谱进行标准化,以样本数据标准化后的梅尔谱为输入,以Adam为优化函数,以交叉熵为损失函数训练神经网络;采用训练好的神经网络对待识别音频数据进行发声方式的判别。本发明简化了发声方式的判别方法,降低了成本。本发明在相关源任务即歌声技巧分类的任务上做了预训练,加快了神经网络的训练速度。
Description
技术领域
本发明属于声音识别技术领域,具体涉及一种发声方式判别方法及系统。
背景技术
现有的发声方式判别研究中,大多采用空气动力学特征或声学特征对发声方式进行判别。其中,空气动力学特征主要由声门气压和声门气流决定,可以通过空气动力检测仪收集。空气动力检测仪主要包含信号收集、传输、放大、计算等组成装置,受试者通过面罩向气流计速器中呼气或发音,反映声门气流率的气流信号传导至压力传感器,再经过放大、滤波处理输入计算机中。机器通常接连显示器,展示出平均气流信号、声门上下压信号,计算得到声门阻力和发声效率等指标,能在一定程度上区分发声方式。使用声学特征进行判别,主要分为语音发声场景和歌唱发声场景。语音发声场景下,采用归一化振幅商、最大峰值处值、频谱1000Hz上下的能量比等声学特征进行发声方式区分,与专家判断结果有一定的一致性;歌唱发声场景下,有研究采用谱质心、谱通量、梅尔频率倒谱系数等频域特征结合MDQ、NAQ等声音质量特征对四种发声方式进行判别。
然而,采用空气动力学特征进行发声方式的判断,需要采用空气动力检测仪等设备辅助进行,且需要测试人佩戴相应的设备做出呼气、发音等操作,过程较为繁琐。采用声学特征进行发声方式的判断,需要在众多的声学特征中人工筛选合适的特征,这需要大量的实验测试,耗费大量的人力物力。
发明内容
本发明的目的是提供一种操作简便、成本较低的发声方式判别方法及系统。
本发明提供的发声方式判别方法,具体步骤包括:
(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;
(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个用于发声方式判别的卷积神经网络,得到训练好的神经网络模型;
(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
可选的,步骤(4)所述基于训练集的梅尔谱均值与方差,对降采样后的各样本数据进行标准化,具体包括:
可选的,步骤(4)中所述神经网络包括卷积模块和分类模块;其中,所述卷积模块包括四个卷积层、最大池化层和丢弃层,所述分类模块包括三个全连接层。
可选的,采用歌声技巧分类模型中前三个卷积层的权重参数对所述发声方式判别神经网络中的前三个卷积层(即卷积模块中的前三个卷积层)的权重参数进行初始化,所述歌声技巧分类模型采用卷积神经网络的架构,包括五个卷积层和四个全连接层。该歌声技巧分类模型见参考文献“Kumar A,Khadkevich M,Fügen C.Knowledge transfer fromweakly labeled audio using convolutional neural network for sound events andscenes[C]//2018IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP).IEEE,2018:326-330”。
可选的,神经网络训练中批处理的每批数据大小为64、72、80、…、128个样本(是8的倍数)。优选每批数据大小为128个样本。
可选的,神经网络训练中的学习率为0.001-0.002。优选学习率为0.001。
可选的,神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。优选随机丢弃概率为0.25。
可选的,神经网络训练中的训练轮数为200-300。训练轮数为200。
相应于上述发声方式判别方法,本发明还提供一种发声方式判别系统,该系统包括:
音频数据获取模块,用于获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
样本数据截取模块,用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
梅尔谱计算模块,用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
标准化模块,用于基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成;
神经网络训练模块,用于以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型;
判别模块,用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
可选的,所述标准化模块,具体包括:
标准化单元,用于根据对降采样后的各样本数据进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。
系统中的六个模块执行判别方法中对应六个步骤的操作。
本发明提供的发声方式判别方法及系统,结合计算机听觉技术深度学习中的卷积神经网络,自动提取了发声方式的高层特征,完成了发声方式的分类。简化了发声方式的判别,节省了相应的检测设备成本以及声学特征筛选试验成本。而且,由于本发明在相关源任务即歌声技巧分类的任务上做了预训练,即采用了迁移学习技术,加快了神经网络的训练速度。
附图说明
图1为本发明实施例1提供的发声方式判别方法的流程图;
图2为本发明实施例2提供的发声方式判别系统的结构示意图。
具体实施方式
下面将结合实施例和附图,对本发明进行进一步具体描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1,本实施例提供了一种发声方式判别方法,该方法包括:
步骤101:获取各发声方式对应的音频数据,所述发声方式包括但不限于呼气式发声、自然式发声、抖动式发声以及挤压式发声。具体可以为:采用来自Polina、Rouas和Ioannides以及庞培法布拉大学提供的数据集,该数据集一共包含了三位专业女高音歌手和一位专业男中音歌手录制的元音发声,共计2151条录音数据,并标注了四种歌声发声方式:呼气式发声,自然式发声,抖动式发声以及挤压式发声。
步骤102:采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠。具体可以为:利用滑窗的方式,在各音频数据上连续截取设定长度的样本,优选的,设定长度可以为500ms,相邻样本之间可以存在少量重叠,从而多保留一些样本信息。可选的,样本数据的具体截取方式可以为:去除音频数据头部和尾部可能不稳定的128ms,以500ms窗长,128ms为重叠部分对音频进行切割,数据集中1s左右的音频大约能切割出2段0.5s训练数据,样本数据数量扩充了近两倍。
步骤103:对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱。其中,降采样的采样率可以为16kHz,以减少计算量。比如,对500ms的音频样本进行分帧,帧长为2048个采样点(46.44ms),帧移为256个采样点(11.61ms)。接着对每一个帧的音频进行加窗处理,再做傅立叶变换,公式如下:
其中,w(k,τ)为汉明窗函数,x(k)是音频信号的时间序列。完成傅立叶变换后就得到了时频谱,在时频谱的基础上点乘梅尔滤波函数,得到梅尔谱,再将功率谱转化为分贝尺度,公式如下:
Sdb=10*log10S;
步骤104:基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成。具体可以为:根据对各样本数据的梅尔谱进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值。
步骤105:以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型。其中,神经网络的结构设计如下:设置包括4个卷积层的卷积模块,每个卷积层都进行补0操作,使得输入特征图与输出特征图大小一致。其中,第一个卷积层的滤波器的形状为3*3*16,三个数字分别对应于频率、时间、信道。第二个卷积层的滤波器在频率、时间上的尺度不变,通道加深一倍,即32个通道。第三个卷积层的滤波器与第二个卷积层一致,第四个卷积层滤波器的个数增加一倍。每个卷积操作后,都会进行批标准化操作,再通过修正线性单元(ReLU),之后再经过最大池化与丢弃层,其目的是进行下采样,去除冗余信息,增加网络的泛化性。以上卷积模块从输入梅尔谱中提取出发声方式的高层特征,再经过三个全连接层进行分类,最后一层加上Softmax函数,最终的输出为四种发声方式的概率,其中概率最大的类别为最终的判断类别。
作为一种优选实施方式,采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络中的前三个卷积层的权重参数进行初始化,以提高训练速度以及保障模型的有效性。所述歌声技巧分类模型采用卷积神经网络的架构,包括五个卷积层和四个全连接层。
步骤106:采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
在本实施例中,神经网络结构采用的超参数中,批处理的每批数据大小为128个样本,学习率为0.001,最大池化与丢弃层的随机丢弃概率为0.25,最大训练轮数(Epoch)为200,使用Adam作为优化函数和交叉熵(Cross Entropy)作为损失函数训练神经网络。交叉熵损失函数定义如下:
其中,p(xi)为期望概率分布,q(xi)为Softmax层输出的概率分布,n是类别数。
使用Adam作为优化函数,根据损失函数值训练神经网络。
在测试方面,本实施例采用机器学习分类算法的测试指标,主要包含了正确率、精确率、召回率和F1值。测试试验分别对所有的数据集进行了测试,对四种发声方式结果做了精确率、召回率、F1值的测试。其中整体数据集的实验结果达到了86.14%的准确率与89.23%的F1值。
模型解释方面,本发明采用Grad-CAM技术,对卷积神经网络学习到的深层特征做可视化的呈现,结果发现卷积神经网络提取出来的特征即网络的关注点与人们对不同发声方式频谱的理解相近。四种发声方式的Grad-CAM可视化结果与发声方式常识的比较,具体表现为:
1.抖动式发声,从低频到高频,神经网络的关注点较为均匀,而这种发声方式实际上抖动发生为基频规律振动,可以推测出卷积网络关注的是基频以及谐波的抖动情况。
2.自然式发声,网络在低频以及高频区域高亮,这也与普通歌唱发音常识相吻合:在低频段能量较高,在高频段谐波的倍数处会有能量聚集现象。
3.呼气式发声,可视化的结果中网络关注的是高频部分,实际上呼气式发声会带有粗糙感,其本质上也是高频噪声能量较大。
4.对于按压式发声,卷积网络关注其低频能量,结合按压式发声的原理,声门下压力大,共鸣较少,能量在低频较集中。
实施例2
参见图2,本实施例提供了一种发声方式判别系统,该系统包括:
音频数据获取模块201,用于获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
样本数据截取模块202,用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
梅尔谱计算模块203,用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
标准化模块204,用于基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成;
神经网络训练模块205,用于以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型;
判别模块206,用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别
作为本实施例的一种实施方式,标准化模块204,具体包括:
本发明首次提出了基于卷积神经网络的对发声方式的判别方法。利用卷积网络,能够在有精确发声方式标签的音频片段上学习表征发声方式的高层特征,从而省去了以往工作中人工提取特征的大量繁琐工作。解决了训练数据不足的问题,对源训练数据集扩充了近两倍,使得深度学习网络能够更充分地学习到数据规律,提升了网络的性能。应用了迁移学习技术,利用在相关源任务(歌唱技巧分类)中学习到的知识来改进目标任务的方法,提高了训练速度和模型有效性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种发声方式判别方法,其特征在于,具体步骤为:
(1)获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
(2)采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
(3)对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
(4)基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化;其中,所述训练集由各样本数据的梅尔谱组成;
(5)以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练一个卷积神经网络,得到训练好的神经网络模型;
(6)采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
3.根据权利要求2所述的发声方式判别方法,其特征在于,步骤(4)中所述神经网络包括卷积模块和分类模块;其中,所述卷积模块包括四个卷积层、最大池化层和丢弃层,所述分类模块包括三个全连接层。
4.根据权利要求3所述的发声方式判别方法,其特征在于,所述神经网络的结构设计如下:对于4个卷积层,每个卷积层都进行补0操作,使得输入特征图与输出特征图大小一致;其中,第一个卷积层的滤波器的形状为3*3*16,三个数字分别对应于频率、时间、信道;第二个卷积层的滤波器在频率、时间上的尺度不变,通道加深一倍,即32个通道;第三个卷积层的滤波器与第二个卷积层一致,第四个卷积层滤波器的个数增加一倍;每个卷积操作后,都会进行批标准化操作,再通过修正线性单元,之后再经过最大池化与丢弃层,其目的是进行下采样,去除冗余信息,增加网络的泛化性;以上卷积层模块从输入梅尔谱中提取出发声方式的高层特征,再经过三个全连接层进行分类,最后一层加上Softmax函数,最终的输出为四种发声方式的概率,其中概率最大的类别为最终的判断类别。
5.根据权利要求4所述的发声方式判别方法,其特征在于,采用歌声技巧分类模型中前三个卷积层的权重参数对所述神经网络中的前三个卷积层的权重参数进行初始化,所述歌声技巧分类模型采用卷积神经网络的架构,包括五个卷积层和四个全连接层。
6.根据权利要求3所述的发声方式判别方法,其特征在于,神经网络训练中批处理的每批数据大小为64、72、80、…、或128个样本。
7.根据权利要求3所述的发声方式判别方法,其特征在于,神经网络训练中的学习率为0.001-0.002;神经网络训练中丢弃层的随机丢弃概率为0.25-0.5。
8.根据权利要求3所述的发声方式判别方法,其特征在于,神经网络训练中的训练轮数为200-300。
9.一种相应于权利要求1-8之一所述方法的发声方式判别系统,其特征在于,包括:
音频数据获取模块,用于获取各发声方式对应的音频数据,所述发声方式包括呼气式发声、自然式发声、抖动式发声以及挤压式发声;
样本数据截取模块,用于采用滑窗方式在各所述音频数据上连续截取设定长度的音频作为样本数据,相邻所述样本数据有设定量的重叠;
梅尔谱计算模块,用于对各所述样本数据进行降采样、分帧加窗、傅立叶变换,通过梅尔滤波器组,得到各样本数据的梅尔谱;
标准化模块,用于基于训练集的梅尔谱均值与方差,对各样本数据的梅尔谱进行标准化,其中,所述训练集由各样本数据的梅尔谱组成;具体包括:标准化单元,用于根据对降采样后的各样本数据进行标准化,其中,Sorigin为样本数据标准化前的梅尔谱,Sstandard为样本数据标准化后的梅尔谱,s为训练集中梅尔谱的方差,μ为训练集中梅尔谱的均值;
神经网络训练模块,用于以标准化后的各样本数据的梅尔谱作为输入,以Adam为优化函数,以交叉熵为损失函数训练卷积神经网络,得到训练好的神经网络模型;
判别模块,用于采用训练好的神经网络模型对待识别音频数据进行发声方式的判别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011044151.9A CN112201226B (zh) | 2020-09-28 | 2020-09-28 | 一种发声方式判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011044151.9A CN112201226B (zh) | 2020-09-28 | 2020-09-28 | 一种发声方式判别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112201226A true CN112201226A (zh) | 2021-01-08 |
CN112201226B CN112201226B (zh) | 2022-09-16 |
Family
ID=74008414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011044151.9A Active CN112201226B (zh) | 2020-09-28 | 2020-09-28 | 一种发声方式判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201226B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112857767A (zh) * | 2021-01-18 | 2021-05-28 | 中国长江三峡集团有限公司 | 基于卷积神经网络的水轮发电机组转子故障声学判别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN110085218A (zh) * | 2019-03-26 | 2019-08-02 | 天津大学 | 一种基于特征金字塔网络的音频场景识别方法 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
-
2020
- 2020-09-28 CN CN202011044151.9A patent/CN112201226B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190110939A (ko) * | 2018-03-21 | 2019-10-01 | 한국과학기술원 | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 |
US20190304480A1 (en) * | 2018-03-29 | 2019-10-03 | Ford Global Technologies, Llc | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data |
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
CN110148400A (zh) * | 2018-07-18 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 发音类型的识别方法、模型的训练方法、装置及设备 |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
CN109308901A (zh) * | 2018-09-29 | 2019-02-05 | 百度在线网络技术(北京)有限公司 | 歌唱者识别方法和装置 |
CN110085218A (zh) * | 2019-03-26 | 2019-08-02 | 天津大学 | 一种基于特征金字塔网络的音频场景识别方法 |
Non-Patent Citations (3)
Title |
---|
孙凌山: "《基于卷积神经网络的音频场景分类方法研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
孙校珩 等: "《Residual Attention Based Network for Automatic Classification of Phonation Modes》", 《2020 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 * |
王天锐等: "基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法", 《计算机应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112857767A (zh) * | 2021-01-18 | 2021-05-28 | 中国长江三峡集团有限公司 | 基于卷积神经网络的水轮发电机组转子故障声学判别方法 |
CN112857767B (zh) * | 2021-01-18 | 2022-03-11 | 中国长江三峡集团有限公司 | 基于卷积神经网络的水轮发电机组转子故障声学判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112201226B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827837B (zh) | 一种基于深度学习的鲸鱼活动音频分类方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN111816218A (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN103531206B (zh) | 一种结合局部与全局信息的语音情感特征提取方法 | |
CN112397074A (zh) | 基于mfcc和向量元学习的声纹识别方法 | |
CN117095694A (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
Fan et al. | Deep neural network based environment sound classification and its implementation on hearing aid app | |
Ramashini et al. | Robust cepstral feature for bird sound classification | |
CN114352486A (zh) | 一种基于分类的风电机组叶片音频故障检测方法 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
CN112927723A (zh) | 基于深度神经网络的高性能抗噪语音情感识别方法 | |
Murugaiya et al. | Probability enhanced entropy (PEE) novel feature for improved bird sound classification | |
CN112201226B (zh) | 一种发声方式判别方法及系统 | |
CN117292693B (zh) | 融入自注意力机制的crnn珍稀动物识别与定位方法 | |
Valero et al. | Narrow-band autocorrelation function features for the automatic recognition of acoustic environments | |
Li et al. | Research on environmental sound classification algorithm based on multi-feature fusion | |
Dhakal et al. | Detection and identification of background sounds to improvise voice interface in critical environments | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning | |
CN112908343B (zh) | 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统 | |
Akram et al. | Design of an Urdu Speech Recognizer based upon acoustic phonetic modeling approach | |
CN111210845B (zh) | 一种基于改进自相关特征的病理语音检测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |