CN113539293B - 基于卷积神经网络和联合优化的单通道语音分离方法 - Google Patents
基于卷积神经网络和联合优化的单通道语音分离方法 Download PDFInfo
- Publication number
- CN113539293B CN113539293B CN202110911979.8A CN202110911979A CN113539293B CN 113539293 B CN113539293 B CN 113539293B CN 202110911979 A CN202110911979 A CN 202110911979A CN 113539293 B CN113539293 B CN 113539293B
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- convolutional neural
- mixed
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 80
- 238000000926 separation method Methods 0.000 title claims abstract description 72
- 238000005457 optimization Methods 0.000 title claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims abstract description 123
- 230000004927 fusion Effects 0.000 claims abstract description 30
- 230000000873 masking effect Effects 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 40
- 238000000034 method Methods 0.000 claims description 30
- 238000011176 pooling Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 22
- 210000002569 neuron Anatomy 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种基于卷积神经网络和联合优化的单通道语音分离方法,属于语音分离技术领域,包括对语音信号进行预处理,提取单个信号和混合语音信号的幅度谱特征,并计算多通道特征和目标信号的理想浮值掩蔽;将多通道特征输入卷积神经网络,并提取深度特征;将深度特征和多通道特征进行融合,作为全连接层的输入,输出为目标信号的理想浮值掩蔽,并进行参数寻优以训练卷积神经网络;将混合语音信号输入训练后的卷积神经网络,以实现对混合语音信号进行分离。本发明通过将混合幅度谱特征与深度特征在融合层进行融合来训练分离模型,使输入特征所包含的语音信息更加的丰富;对网络参数进行联合优化,使得分离语音的清晰度和可懂度大幅提高。
Description
技术领域
本发明涉及一种基于卷积神经网络和联合优化的单通道语音分离方法,属于语音分离技术领域。
背景技术
日常生活中,语音作为人类进行沟通的媒介,其重要性是不容忽视的。当有两个说话人同时在讲话时,对于人类来说可以很容易地知道他们各自说了哪些话;而对于智能机器来说不能轻松地分辨出两个说话人各自的语音语句,这可能会导致人机交互的体验变得极差。单通道语音分离是为了解决将多个目标语音从单个通道的混合语音信号中分离出来。
随着AI席卷全球学术研究的各个领域,深度学习得到了迅猛的发展。近年来,人工神经网络以其优秀的建模能力、高度抽象的预测能力以及优秀的关系映射能力,成为当下计算机领域的宠儿。基于深度学习的单通道语音分离算法在语音分离领域中被广泛的应用和研究。
根据预测训练目标的不同,基于深度学习的语音分离方法可分为基于时频(T-F)掩蔽的方法和基于频谱映射的方法。基于掩蔽的方法旨在学习从混合信号到时频掩蔽的映射,然后使用估计的掩蔽和混合信号计算得到分离之后的语音。理想二值掩蔽(IdealBinary Mask,IBM)将语音分离问题抽象为一个二分类问题。如果一个时频单元的信噪比超过了阈值,那么就判定为1,否则为0。由于IBM是一种硬判据,很多时候会将目标语音的信息丢失,人们又提出了一种比值型的理想浮值掩蔽(Ideal Ratio Mask,IRM)。比值可以基于能量、幅度、功率等,研究发现IRM能够更好地保留目标语音的信息成分。现在主流的基于深度神经网络的单通道语音分离算法当中,基于掩蔽的方法是最主要的方法,而基于频谱映射的方法是一种从混合语音当中直接学习目标语音频谱的估计方法,在一般场景中性能要比基于掩蔽的方法要差一点。本发明使用基于掩蔽的方法训练卷积神经网络。
传统的基于掩蔽的语音分离算法的损失函数只考虑了预测掩蔽值和真实值的误差,这使得分离后的语音与纯净语音之间误差较大。除此之外,单一频谱特征并不能提供语音信号的全部信息。因此,本发明提供了一种基于卷积神经网络和联合优化的单通道分离语音信号,为提升人机交互体验感提供了可行性方案。
发明内容
本发明的目的在于提供一种基于卷积神经网络和联合优化的单通道语音分离方法,该方法丰富了输入特征,使其更能够表征语音信号,语音分离模型的准确性得到了改进,同时提升了语音的可懂度和清晰度。
为实现上述目的,本发明提供一种基于卷积神经网络和联合优化的单通道语音分离方法,包括以下步骤:
步骤1、对多个语音信号进行预处理,分别提取单个语音信号和混合语音信号的幅度谱特征,并根据所述幅度谱特征计算混合语音信号的多通道特征和目标信号的理想浮值掩蔽;
步骤2、将所述多通道特征输入卷积神经网络,并提取深度特征;
步骤3、将所述多通道特征和所述深度特征进行融合,并作为卷积神经网络中的全连接层的输入,将所述目标信号的理想浮值掩蔽作为全连接层的输出,并通过联合约束损失函数进行参数寻优以训练所述卷积神经网络;
步骤4、将用于测试的混合语音信号的多通道特征输入寻优训练后的卷积神经网络,以实现对混合语音信号进行分离。
作为本发明的进一步改进,步骤1中的预处理包括分帧、加窗和预加重。
作为本发明的进一步改进,所述多通道特征包括混合幅度谱特征、功率谱特征和对数功率谱特征,步骤1具体为:将预处理后的多个语音信号进行短时傅里叶变换并提取单个语音信号和混合语音信号的幅度谱特征,根据所述幅度谱特征计算得到目标信号的理想浮值掩蔽、混合幅度谱特征、功率谱特征和对数功率谱特征,再对所述混合幅度谱特征、功率谱特征和对数功率谱特征进行归一化处理。
作为本发明的进一步改进,所述混合幅度谱特征Ytrain取平方后得到所述功率谱特征||Ytrain||2,对所述功率谱特征||Ytrain||2取对数操作后,得到所述对数功率谱特征ln||Ytrain||2,所述目标信号的理想浮值掩蔽的表达式为:
其中,Mi(t,f)是第i个目标信号的理想浮值掩蔽,是第i个混合语音信号在时间t和频率f处的功率谱特征,N表示混合语音信号的个数,ε为正数。
作为本发明的进一步改进,步骤2中的卷积神经网络包括两个卷积层和两个池化层,具体的:第一个卷积层中三个卷积核的大小是3×3,第一个池化层的池化核大小是2×2,步长是1,采用填充操作,得到第一输出特征的大小为1×32×32;第二个卷积层的卷积核大小是1×1,第二个池化层的池化核大小是2×2,步长是2,得到第二输出特征的大小为1×16×16,将所述第二输出特征进行拉平操作,得到大小为256×1的深度特征。
作为本发明的进一步改进,步骤3具体为:所述卷积神经网络还包括融合层,将所述深度特征和所述混合幅度谱特征输入所述融合层进行融合,得到融合特征,所述融合特征输入所述全连接层,所述目标信号的理想浮值掩蔽作为所述全连接层的输出。
作为本发明的进一步改进,所述全连接层包括输入层、两个隐层和输出层,所述全连接层的网络结构设计为768-1024-1024-512,所述输入层及两个隐层的激活层函数是ReLU,所述输出层的激活函数是Sigmoid。
作为本发明的进一步改进,所述卷积神经网络的参数寻优在所述全连接层分为前向传播阶段和反向传播阶段,所述前向传播阶段用于随机初始化每层神经元的权重和偏置;所述反向传播阶段用于通过整合优化使得联合约束损失函数最小,迭代更新每层神经元的权重和偏置,基于最小均方误差准则,所述全连接层的联合约束损失函数的表达式为:
其中,x和y表示全连接层的输入和输出; 表示第L层的预测输出,σ(·)是激活函数;Y表示混合幅度谱特征;S表示单个语音信号的幅度谱特征;⊙为哈达玛乘积;α为正则化系数,取值范围是0≤α≤1,用于平衡所述联合约束损失函数的约束关系。
作为本发明的进一步改进,迭代更新每层神经元的权重和偏置的表达式为:
其中,l=L,L-1,…,1,表示第l层第j个神经元与前一层第i个神经元之间的权重,/>表示第l层第j个神经元的偏置,β表示学习率。
作为本发明的进一步改进,步骤4具体为:对用于测试的混合语音信号进行预处理,提取混合语音信号的幅度谱特征和相位谱特征,根据幅度谱特征计算得到混合幅度谱特征、功率谱特征和对数功率谱特征,并输入寻优训练后的卷积神经网络,得到预测理想浮值掩蔽,将所述预测理想浮值掩蔽与所述混合幅度谱特征相乘得到目标幅度谱,将所述目标幅度谱与所述相位谱特征结合并通过逆短时傅里叶变换以重构语音信号,完成混合语音信号的分离。
本发明的有益效果是:
1、本发明提出的一种基于卷积神经网络和联合优化的单通道语音分离方法具有一定的理论研究价值和实际应用价值。该方法充分利用卷积神经网络在提取特征时的出色能力,提取了多通道特征的深度特征,再将混合幅度谱特征与深度特征在融合层进行融合来训练分离模型,使输入特征所包含的语音信息更加的丰富,分离语音的性能进一步得到了提升。
2、本发明针对输入单一特征时基于传统损失函数训练分离模型时,分离语音质量提升有限的问题,在传统的损失函数上,加上了一个正则项,对网络参数进行联合优化,不仅使得预测的浮值掩蔽接近理想值,而且恢复出的目标信号幅度谱也和实际的幅度谱接近,从而提高了分离模型的准确性,使得分离语音的清晰度和可懂度提高。
附图说明
图1是包括融合层的卷积神经网络的语音分离模型。
图2是图1中卷积核的提取过程。
图3是图1的均值池化过程。
图4是图1中不同卷积层数的性能对比图。
图5是图1中不同池化方式的性能对比图。
图6是本发明中不同正则化系数对应的客观语音质量评估。
图7是本发明多通道多特征和单通道单特征的性能对比图。
图8是本发明中有无融合层的语音分离效果对比图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明提供了一种基于卷积神经网络和联合优化的单通道语音分离方法,利用卷积神经网络(Convolutional Neural Network,CNN)提取多通道语音信号的深度特征再与混合幅度谱进行特征融合的方法,训练分离模型。通过使用CNN来设计语音分离算法,主要从输入特征和特征融合等方面进行改进,实现了基于CNN的单通道语音分离。
请参阅图1所示,本发明的基于卷积神经网络和联合优化的单通道语音分离方法包括训练阶段和分离阶段,在训练之前,首先对每条训练样本语音信号进行预处理,分别提取每帧语音信号的幅度谱特征,并根据幅度谱特征计算混合语音信号的多通道特征和目标信号的理想浮值掩蔽,其中多通道特征包括混合幅度谱特征、功率谱特征和对数功率谱特征;在训练阶段,使用混合语音的多通道特征来提取混合语音的深度特征,并且在特征融合层将深度特征与混合幅度谱特征进行融合,目标信号的理想浮值掩蔽(Ideal Ratio Mask,IRM)作为输出,通过训练网络权重和偏置,得到训练完成的用于分离语音信号的卷积神经网络;在分离阶段,提取测试混合语音信号相关的多通道特征,输入前述训练完成的卷积神经网络,得到分离后混合信号的理想浮值掩蔽,再利用混合信号的理想浮值掩蔽来重构目标语音的语音信号,以实现对混合语音信号进行分离。
在本实施例中,多通道特征包括混合幅度谱特征、功率谱特征和对数功率谱特征,当然,在其他实施例中,多通道特征还可以包括其它数量和类别的特征,此处对多通道特征的数量和类别不作任何限制。
本发明在卷积神经网络(CNN)的结构下融合构成的分离特征含有丰富的语音信息,在联合约束损失函数的指导下,分离语音的清晰度和可懂度得到提高,能够更有效地分离出目标语音。本发明具体实施方式的步骤如下:
步骤1:对多个语音信号进行预处理,分别提取单个语音信号和混合语音信号的幅度谱特征,并根据幅度谱特征计算混合语音信号的多通道特征和目标信号的理想浮值掩蔽。
步骤1.1、对多个语音信号进行预处理。
预处理技术在数字语音处理领域中具有一定的重要性。由于语音信号具有短时平稳的特性,因此,在对语音信号进行快速傅里叶变换(Fast Fourier Fransform,FFT)之前,要先对语音进行预处理。常见的预处理手段包括分帧、加窗、预加重等操作,在语音信号增强技术中,预处理技术可以在一定程度上提高语音增强的效果。
本实施例中,对两条语音信号进行预处理,每条语音信号的采样率为25kHz,下采样率为16kHz,当然,在其他实施例中,语音信号的数量可以设置为其他数值,且每条语音信号的采样率可以设置为其他数值,只要能够实现对语音信号的预处理即可,此处不作限制。
步骤1.2、提取预处理后语音信号的多通道特征。
对预处理后多个语音信号进行短时傅里叶变换(Short-Time FourierTransform,STFT),并提取单个语音信号的幅度谱特征,并根据幅度谱特征计算出目标信号的理想浮值掩蔽、混合幅度谱特征、功率谱特征和对数功率谱特征,其中,混合幅度谱特征的大小为512×1。
具体为:混合幅度谱特征为两个语音信号幅度谱特征之和,由于混合语音信号幅度的变化范围很大,为了计算方便,首先对混合幅度谱特征Ytrain取平方操作后得到功率谱特征||Ytrain||2,此时所有的值都是正值,但功率谱特征||Ytrain||2的变化范围依旧很大,为了压缩范围,对功率谱特征||Ytrain||2取对数操作后,可以得到对数功率谱特征ln||Ytrain||2。根据幅度谱特征计算目标信号的理想浮值掩蔽,其中,目标信号的理想浮值掩蔽的表达式为:
其中,Mi(t,f)是第i个目标信号的理想浮值掩蔽(IRM);是第i个混合语音信号在时间t和频率f处的功率谱特征;N表示语音信号的个数;本计算公式中分母表示所有分路信号的功率谱特征的总和,为了防止分母为零加上了一个很小的正数ε。
CNN对于符合标准分布的样本处理效果较佳,因此,有时也需要计算方差和均值进行标准化操作。最后对混合幅度谱特征、功率谱特征和对数功率谱特征进行归一化处理,以更好的训练CNN分离模型,实现对混合语音的高效分离。
步骤2:将多通道特征输入卷积神经网络,并提取深度特征。
具体的,对多通道特征采用相应的多组卷积核,就可以得到相应的深度特征。
本发明采用的CNN结构包括输入层、两个卷积层、两个池化层、特征融合层、全连接层及输出层。多通道特征通过卷积神经网络后得到深度特征,其中第一个卷积层的三个卷积核的大小是3×3,第一个池化层的池化核的大小是2×2,步长是1,采用填充(padding)操作,得到第一输出特征的大小为1×32×32。第二个卷积层的卷积核大小是1×1,第二个池化层的池化核大小是2×2,步长是2,得到第二输出特征大小为1×16×16,并将第二输出特征进行拉平(flatten)操作转化得到大小为256×1的深度特征。
请参阅图2和图3所示,多通道特征通过第一个卷积层中三个3×3的卷积核的过程,可以看出大致的卷积操作和单通道的卷积过程相同,不同之处在于:得到每个通道的新的特征之后,将所有的特征进行加法运算,得到基于多通道特征提取的深度特征。与单通道特征相比,多通道提取的深度特征中含有了三种输入特征的信息,这样的深度特征包含的语音信息更加的全面。进一步的,本申请采用均值池化对特征进行降维处理。其中,多通道特征的均值池化与单通道特征的均值池化过程相同,此处不再详细描述。
步骤3:将多通道特征和深度特征进行融合,并作为卷积神经网络中的全连接层的输入,将目标信号的理想浮值掩蔽作为全连接层的输出,并通过联合约束损失函数进行参数寻优以训练卷积神经网络。
步骤3.1、特征融合。
在融合层,将大小为256×1的深度特征和512×1的混合语音幅度谱特征进行融合得到768×1的融合特征,将融合特征输入全连接层,目标信号的IRM作为全连接层的输出。
步骤3.2、全连接层的网络设置。
全连接层的网络结构设计为768-1024-1024-512,包括输入层、两个隐层和输出层,其中,除了输出层的激活函数是Sigmoid之外,其余的激活函数都是ReLU,用来加深每个隐层之间的非线性映射关系,使模型关系更加符合实际。
步骤3.3、训练卷积神经网络的权重和偏置。
卷积神经网络的参数寻优过程分为前向传播阶段和反向传播阶段,前向传播(Forward propagation,FP)阶段用于随机初始化每层神经元的权重和偏置;反向传播(Back propagation,BP)阶段用于通过整合优化使得联合约束损失函数最小,迭代更新调整每层神经元的权重和偏置。控制BP与FP阶段的主体是损失函数,通过梯度下降算法对损失函数进行寻优,使其尽可能接近最小值。基于最小均方误差(Minimum Mean SquaredError,MMSE)准则,全连接层中联合约束损失函数的表达式为:
其中,x和y表示该层的输入和输出;表示第L层的预测输出;σ(·)是激活函数,Y表示混合幅度谱特征;S表示单个语音信号的幅度谱特征;⊙为哈达玛乘积;α为正则化系数,用于平衡联合约束损失函数的约束关系,α的取值范围是0≤α≤1,取值按照实验结果的最优值来设置;
当α=0时,联合约束的约束力度为0,此时当α≠0时,通过正则项加大对IRM的约束效力,使得恢复出的分离语音的IRM不仅与实际的输出目标接近,而且还使分离语音的幅度谱更贴合实际目标语音的幅度谱。
训练卷积神经网络权重和偏置的具体步骤如下:
A.对全连接层的权值和偏重进行随机的初始化,输入特征从输入层开始和每一层的网络参数进行线性加权运算,然后在激活函数的作用下,得到每一层的输出值,再依次往后面的网络传播,得到网络的实际输出值。
B.反向传播阶段,通过计算实际输出值与网络的训练目标值之间的loss函数,根据整合优化器来最小化损失函数,直到损失函数达到一个最优值,其中,整合优化器将RAdam作为LookAhead优化器的内部优化器。
C.依次计算每层的误差,更新每层神经元的权值和偏置,在每个训练的周期中,不断重复A到C的操作,调整每层神经元的权重和偏置,直至使loss函数达到一个可接受的范围。
迭代更新每层神经元的权值和偏重的表达式为:
其中,l=L,L-1,…,1,表示第l层第j个神经元与前一层第i个神经元之间的权重,/>表示第l层第j个神经元的偏置,β表示学习率。
最终,得到训练完成的用于分离语音信号的卷积神经网络。
步骤4:将用于测试的混合语音信号的多通道特征输入寻优训练后的卷积神经网络,以实现对混合语音信号进行分离。
4.1、测试阶段。
首先对测试的混合语音信号做预处理,之后进行STFT,提取测试混合语音信号的幅度谱特征和相位谱特征,根据幅度谱特征计算得到混合幅度谱特征Ytest、功率谱特征||Ytest||2以及对数功率谱特征ln||Ytest||2,将多通道特征作为训练完成的卷积神经网络的输入特征,得到预测理想浮值掩蔽
4.2、重构语音时域信号。
在重构语音时域信号阶段,将测试阶段得到的预测IRM与混合幅度谱特征相乘得到目标幅度谱,表达式为:
其中,表示估计的第i个目标语音的幅度谱,/>代表第i个信号的理想浮值掩蔽估计值,Yt表示混合幅度谱特征,⊙表示哈达玛乘积。
将目标幅度谱和相位谱特征结合,并通过逆短时傅里叶变换以重构语音信号,以得到目标语音信号的时域信号,完成混合语音信号的分离。
4.3、性能评估。
实验数据集采用的语音库是GRID。GRID语料库的语种是英文,该语料库由34个说话人(18位男性和16位女性)组成,从整个语料库中选取2位男性和2位女性的语音进行实验数据的生成。基于性别划分为男-男组合(F-F)、男-女组(F-M)、女-女组合(M-M)。每个说话人有1000条语句,随机选取500条语句作为训练集,然后在余下的500条语句中选择100条语句作为验证集,剩下的400条语句中选择50条语句作为测试集,实验结果是50条语句结果的平均值。每条语音的采样率为25kHZ,这里将语音的采样率下采样到16kHz,通过512点STFT获得语音的幅度谱,STFT的窗长为512,帧移为1/2的窗长。
本发明采用多个语音指标来衡量所提算法的准确性和有效性,其中包括语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、信号失真比(Signal toDistortion Ratio,SDR)和短时目标可懂度(Short-Time Objective Intelligibility,STOI),这些指标的数值与语音分离性能都是正相关的。
请参阅图4所示,首先,为了得到分离性能最佳的正则化系数α,以分离后语音的PESQ为例讨论正则项系数α对三种性别组合的影响程度。由于不同性别组合语音的特征的差异性,α的约束力度不会相同。因此在不同的性别组合分离实验当中,设置不同的正则化系数,在F-M和M-M性别组合分离实验时α取0.5,F-F分离实验时α取0.7。
请参阅图5所示,从卷积层的个数分析CNN的超参数设置。将CNN卷积层的个数分别为1、2和3时的实验结果进行对比,当含有2个卷积层时,语音分离的效果较好,后续实验中的CNN结构都使用两个卷积层来提取深度特征。
请参阅图6所示,考察池化层池化方式对分离语音性能的影响,将均值池化和最大值池化的实验结果进行对比,可以看到,在使用均值池化的分离语音的效果比使用最大值池化时分离语音的效果要好,在SDR、PESQ和STOI指标上分别高了0.70dB、0.15和0.08,后续对比实验使用均值池化作为下采样方式。
请参阅图7和图8所示,为了验证含有特征融合层的CNN架构性能更好,本发明分别与单通道单一特征的CNN和不含融合层的CNN进行对比。首先,与单通道单一输入特征的CNN分离算法进行性能对比,多通道的多输入特征在每个性别组合实验中的分离性能都表现得比单通道的单一输入特征的分离性能要好,其中,最明显的差异是在SDR这个指标上,在M-M、F-M和F-F这三个性别组合中分别高了1.14dB、1.76dB和0.80dB;其次,与没有进行特征融合的CNN分离算法进行性能对比,不含融合层的CNN结构在每种性别组合下的分离效果都非常地不理想,其中在F-M组合实验两者差距最大,在SDR、PESQ、STOI上分别相差4.45dB、1.01、0.27,说明256维的深度特征不能完全地代表混合语音信号。因此,验证了在传统的CNN结构中加入融合层的有效性。
为了验证在联合约束下使用CNN来提取语音信号的融合特征是可行的,将本发明方法与其他算法进行对比。首先在相同的loss函数下,采用深度神经网络(DNN)架构进行单通道语音分离,输入的特征为单一的幅度谱特征。实验结果如表1所示,基于CNN特征融合的方法相比基于DNN的方法的分离性能,在SDR、PESQ以及STOI指标均有提升。这说明,利用CNN提取的语音信号深度特征和幅度谱特征的融合起了效果,使得分离语音的质量得到了提升。最后,在不同损失函数和不同训练目标下,比较算法的性能。从表2可以观察到不同的损失函数对于本发明所提算法的分离性能的影响是很大的,当以IRM为目标时,基于联合约束损失函数的分离效果比基于传统损失函数的分离效果要突出一些,并且以IRM为训练目标也比以目标幅度谱(Target Magnitude Spectrum,TMS)为训练目标的分离效果要好些。
表1基于CNN的方法和基于DNN的方法相对比
表2不同损失函数和训练目标对比
综上所示,本发明提供了一种基于卷积神经网络和联合优化的单通道语音分离方法,通过CNN提取多通道特征的深度特征,再将混合信号的幅度谱特征与深度特征在融合层进行融合来训练分离模型,使输入特征所包含的语音信息更加的丰富,提升了分离语音的性能。同时,在传统的损失函数上,加上了一个正则项,对网络参数进行联合优化,不仅使得预测的浮值掩蔽接近理想值,而且恢复出的目标信号幅度谱也和实际的幅度谱接近,从而提高了分离模型的准确性,使得分离语音的清晰度和可懂度提高。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于,包括以下步骤:
步骤1、对多个语音信号进行预处理,分别提取单个语音信号和混合语音信号的幅度谱特征,并根据所述幅度谱特征计算混合语音信号的多通道特征和目标信号的理想浮值掩蔽,所述多通道特征包括混合幅度谱特征、功率谱特征和对数功率谱特征;
步骤2、将所述多通道特征输入卷积神经网络,并提取深度特征;
步骤3、将所述多通道特征和所述深度特征进行融合,所述卷积神经网络还包括融合层,将所述深度特征和所述混合幅度谱特征输入所述融合层进行融合,得到融合特征,并作为卷积神经网络中的全连接层的输入,所述融合特征输入所述全连接层,将所述目标信号的理想浮值掩蔽作为全连接层的输出,并通过联合约束损失函数进行参数寻优以训练所述卷积神经网络;
步骤4、将用于测试的混合语音信号的多通道特征输入寻优训练后的卷积神经网络,以实现对混合语音信号进行分离。
2.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:步骤1中的预处理包括分帧、加窗和预加重。
3.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:步骤1具体为:将预处理后的多个语音信号进行短时傅里叶变换并提取单个语音信号和混合语音信号的幅度谱特征,根据所述幅度谱特征计算得到目标信号的理想浮值掩蔽、混合幅度谱特征、功率谱特征和对数功率谱特征,再对所述混合幅度谱特征、功率谱特征和对数功率谱特征进行归一化处理。
4.根据权利要求3所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:所述混合幅度谱特征Ytrain取平方后得到所述功率谱特征||Ytrain||2,对所述功率谱特征||Ytrain||2取对数操作后,得到所述对数功率谱特征ln||Ytrain||2,所述目标信号的理想浮值掩蔽的表达式为:
其中,Mi(t,f)是第i个目标信号的理想浮值掩蔽,是第i个混合语音信号在时间t和频率f处的功率谱特征,N表示混合语音信号的个数,ε为正数。
5.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:步骤2中的卷积神经网络包括两个卷积层和两个池化层,具体的:第一个卷积层中三个卷积核的大小是3×3,第一个池化层的池化核大小是2×2,步长是1,采用填充操作,得到第一输出特征的大小为1×32×32;第二个卷积层的卷积核大小是1×1,第二个池化层的池化核大小是2×2,步长是2,得到第二输出特征的大小为1×16×16,将所述第二输出特征进行拉平操作,得到大小为256×1的深度特征。
6.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:所述全连接层包括输入层、两个隐层和输出层,所述全连接层的网络结构设计为768-1024-1024-512,所述输入层及两个隐层的激活层函数是ReLU,所述输出层的激活函数是Sigmoid。
7.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:所述卷积神经网络的参数寻优在所述全连接层分为前向传播阶段和反向传播阶段,所述前向传播阶段用于随机初始化每层神经元的权重和偏置;所述反向传播阶段用于通过整合优化使得联合约束损失函数最小,迭代更新每层神经元的权重和偏置,基于最小均方误差准则,所述全连接层的联合约束损失函数的表达式为:
其中,W和b表示每层网络的权重和偏置;x和y表示全连接层的输入和输出;表示第L层的预测输出,σ(·)是激活函数,zL表示第L层的神经元值,WL表示第L层的网络权重,bL表示第L层的网络偏置;M表示目标说话人的理想浮值掩蔽值;Y表示混合幅度谱特征;S表示单个语音信号的幅度谱特征;⊙为哈达玛乘积;α为正则化系数,取值范围是0≤α≤1,用于平衡所述联合约束损失函数的约束关系。
8.根据权利要求7所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于:迭代更新每层神经元的权重和偏置的表达式为:
其中,l=L,L-1,…,1,表示第l层第j个神经元与前一层第i个神经元之间的权重,表示第l层第j个神经元的偏置,J(W,b)=J(W,b;x,y)为损失函数,β表示学习率。
9.根据权利要求1所述的基于卷积神经网络和联合优化的单通道语音分离方法,其特征在于,步骤4具体为:对用于测试的混合语音信号进行预处理,提取混合语音信号的幅度谱特征和相位谱特征,根据幅度谱特征计算得到混合幅度谱特征、功率谱特征和对数功率谱特征,并输入寻优训练后的卷积神经网络,得到预测理想浮值掩蔽,将所述预测理想浮值掩蔽与所述混合幅度谱特征相乘得到目标幅度谱,将所述目标幅度谱与所述相位谱特征结合并通过逆短时傅里叶变换以重构语音信号,完成混合语音信号的分离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110911979.8A CN113539293B (zh) | 2021-08-10 | 2021-08-10 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110911979.8A CN113539293B (zh) | 2021-08-10 | 2021-08-10 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113539293A CN113539293A (zh) | 2021-10-22 |
CN113539293B true CN113539293B (zh) | 2023-12-26 |
Family
ID=78091379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110911979.8A Active CN113539293B (zh) | 2021-08-10 | 2021-08-10 | 基于卷积神经网络和联合优化的单通道语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539293B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903355B (zh) * | 2021-12-09 | 2022-03-01 | 北京世纪好未来教育科技有限公司 | 语音获取方法、装置、电子设备及存储介质 |
CN114446316B (zh) * | 2022-01-27 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 音频分离方法、音频分离模型的训练方法、装置及设备 |
CN115359304B (zh) * | 2022-10-17 | 2023-02-21 | 山东建筑大学 | 一种面向单幅图像特征分组的因果不变性学习方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN111261145A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音处理装置、设备及其训练方法 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
CN111899756A (zh) * | 2020-09-29 | 2020-11-06 | 北京清微智能科技有限公司 | 一种单通道语音分离方法和装置 |
CN112116921A (zh) * | 2020-09-10 | 2020-12-22 | 南京邮电大学 | 一种基于整合优化器的单声道语音分离方法 |
WO2021078010A1 (zh) * | 2019-10-21 | 2021-04-29 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
WO2021143327A1 (zh) * | 2020-01-16 | 2021-07-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
US10812915B2 (en) * | 2017-10-27 | 2020-10-20 | Starkey Laboratories, Inc. | Electronic device using a compound metric for sound enhancement |
-
2021
- 2021-08-10 CN CN202110911979.8A patent/CN113539293B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
WO2021078010A1 (zh) * | 2019-10-21 | 2021-04-29 | 珠海市杰理科技股份有限公司 | 语音降噪处理方法、装置、计算机设备及存储介质 |
CN111261145A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音处理装置、设备及其训练方法 |
WO2021143327A1 (zh) * | 2020-01-16 | 2021-07-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和计算机可读存储介质 |
CN111833896A (zh) * | 2020-07-24 | 2020-10-27 | 北京声加科技有限公司 | 融合反馈信号的语音增强方法、系统、装置和存储介质 |
CN112116921A (zh) * | 2020-09-10 | 2020-12-22 | 南京邮电大学 | 一种基于整合优化器的单声道语音分离方法 |
CN111899756A (zh) * | 2020-09-29 | 2020-11-06 | 北京清微智能科技有限公司 | 一种单通道语音分离方法和装置 |
Non-Patent Citations (1)
Title |
---|
Po-Sen Huang.Joint Optimization of Masks and Deep Recurrent Neural Networks for Monaural Source Separation.IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING.2015,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113539293A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113539293B (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110600047A (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN109599091B (zh) | 基于STARWGAN-GP和x向量的多对多说话人转换方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
CN113129897B (zh) | 一种基于注意力机制循环神经网络的声纹识别方法 | |
CN110060657B (zh) | 基于sn的多对多说话人转换方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN110060701A (zh) | 基于vawgan-ac的多对多语音转换方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN109036470B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Wang et al. | Enhanced Spectral Features for Distortion-Independent Acoustic Modeling. | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Matsuura et al. | Generative adversarial training data adaptation for very low-resource automatic speech recognition | |
CN110600046A (zh) | 基于改进的STARGAN和x向量的多对多说话人转换方法 | |
JPH09507921A (ja) | ニューラルネットワークを使用した音声認識システムおよびその使用方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |