CN113035217A - 一种基于声纹嵌入的低信噪比条件下的语音增强方法 - Google Patents
一种基于声纹嵌入的低信噪比条件下的语音增强方法 Download PDFInfo
- Publication number
- CN113035217A CN113035217A CN202110226118.6A CN202110226118A CN113035217A CN 113035217 A CN113035217 A CN 113035217A CN 202110226118 A CN202110226118 A CN 202110226118A CN 113035217 A CN113035217 A CN 113035217A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- data set
- speaking user
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 85
- 239000000203 mixture Substances 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 238000002156 mixing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 27
- 230000003595 spectral effect Effects 0.000 claims description 18
- 238000005457 optimization Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 230000002708 enhancing effect Effects 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims description 4
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出了一种基于声纹嵌入的低信噪比条件下的语音增强方法。本发明将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;提取中文语音数据集的梅尔倒谱系数;构建优化通用高斯混合背景模型;根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;提取带噪语音数据集的幅度谱和相位谱;生成带噪语音中说话用户的相关频谱特征;构建增强神经网络;波形重构得到增强后的带噪语音。本发明将用户语音的声纹特征进行嵌入,提升低信噪比条件下语音增强系统的性能,改善智能语音设备在嘈杂环境下的性能表现。
Description
技术领域
本发明涉及语音增强领域,具体涉及一种基于声纹嵌入的低信噪比条件下的语音增强方法。
背景技术
近年来,人工智能技术的热度居高不下,语音增强技术也得到了飞速的发展,各种语音增强技术层出不穷。这些语音增强方案主要分为:传统语音增强方案和基于深度学习的语音增强方案。
传统语音增强方案主要包括:谱减法、基于统计模型的增强算法和子空间增强算法。谱减法假设噪声为加性噪声,然后从带噪语音的语音谱中减去对噪声谱的估计,最后的到干净语音。维纳滤波算法和最小均方误差算法是基于统计模型增强算法的代表,相对于谱减法,维纳滤波法算法处理后的语音信号中的残留噪声类似白噪声,听觉上让人更加舒适。最小均方误差算法利用语音信号的短时频谱振幅在感知中的重要作用,并利用最小均方误差的短时频谱振幅估计器来增强带噪语音。子空间增强算法主要源自于线性代数理论,其原理是在欧式空间中,纯净信号的分布局限在带走按信号的子空间中。所以只要将带噪信号的向量空间分解到两个子空间就可以完成语音增强的任务。
传统的语音增强算法大多假设语音信号是平稳的。但是,在现实生活中,这种假设条件根本无法满足。基于深度学习的语音增强算法以其强大的非线性拟合能力能有效解决这个问题。根据训练目标的不同,基于深度学习的语音增强算法可以分为两类:一是基于掩模的增强网络,二是基于映射的增强网络。基于掩模的增强网络是将理想比例掩模或者相位掩模等作为神经网络的训练目标。基于映射的增强网络利用神经网络的拟合能力,将带噪语音的对数谱或者功率谱直接映射到干净语音的功率谱。根据网络模型的不同,基于深度学习的语音增强网络可以分为DNN增强网络、CNN增强网络、RNN增强网络和GAN增强网络。
其中,对语谱图的特征处理是基于深度学习语音增强网络的关键。所以,CNN网络较其他网络模型更契合语音增强任务。
本申请发明人在实施本发明过程中,发现现有技术方法至少存在以下和技术问题:
虽然基于CNN网络的语音增强算法在高信噪比条件性能表现良好,但是在低信噪比条件下性能会急速下降,性能表现不尽人意。语音增强算法作为语音信号处理的一项基本研究,常被用作语音前端处理模块。目前,智能语音技术发展迅速,在安静环境下,各语音系统都能达到很好的性能。但是,现实生活中,安静的语音条件几乎不存在,嘈杂、喧闹等低信噪比环境随处可见,这也是智能语音技术落地困难的重要原因。
由此可见,现有技术的方法中,低信噪比条件下的语音增强还存在难点,对低信噪比条件下语音增强技术的研究具有重要的实际意义。
发明内容
本发明提出基于声纹嵌入的CNN语音增强算法,用于解决低信噪比条件下语音增强效果不佳的问题,推动智能语音技术更快更好的落地。
为解决上述问题,本发明提供了一种基于声纹嵌入的低信噪比条件下的语音增强方法,包括:
步骤1:将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;
步骤2:提取中文语音数据集的梅尔倒谱系数;
步骤3:构建优化通用高斯混合背景模型;
步骤4:根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;
步骤5:提取带噪语音数据集的幅度谱和相位谱;
步骤6:将干净语音数据集的声纹特征与带噪语音数据集的频谱特征通过拼接生成带噪语音中说话用户的相关频谱特征;
步骤7:构建增强神经网络,将第s个说话用户第h段语音第k帧语音信号的相关谱特征输入至增强神经网络,通过增强神经网络预测得到增强后的第s个说话用户第h段语音第k帧语音信号,以干净语音集的频谱作为标签构建增强神经网络的损失函数,通过Adam优化算法进一步优化训练得到优化后增强神经网络;
步骤8:将带噪语音数据集中带噪语音经过特征提取之后得到带噪语音的说话用户相关频谱特征,将带噪语音的说话用户相关频谱特征输入到优化后的增强神经网络中得到增强后说话用户相关频谱;将增强后的说话用户相关频谱和步骤5中的相位谱通过傅里叶反变换,进一步进行波形重构得到增强之后的待检测用户语音。
作为优选,步骤1所述干净中文语音数据集为:
CleanDatas,h
s∈{1,2....,S},h∈{1,2....,H}
其中,CleanDatas,h表示第s个说话用户第h段语音,S为说话用户的数量,H为每个说话用户的音频数量;
步骤1所述带噪语音数据集为:
NoiseDatas,h
s∈{1,2....,S},h∈{1,2....,H}
其中,NoiseDatas,h表示第s个说话用户第h段带噪语音,S为说话用户的数量,H为每个说话用户的音频数量;
作为优选,步骤2具体如下:
步骤2.1,将步骤1中的干净中文语音数据集通过高通滤波器滤波,得到预加重之后的干净语音信号;
步骤2.2,对经过预加重之后的干净语音信号进行分帧加窗得到中文语音数据集的多帧语音信号;
所述中文语音数据集的多帧语音信号为:
CleanDataFrames,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanDataFrames,h表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤2.3,对中文语音数据集的每帧语音信号即CleanDataFrames,h,k进行快速傅里叶变换,得到中文语音数据集的每帧语音信号的频谱、中文语音数据集的每帧语音信号能量谱;
步骤2.4,将中文语音数据集的每帧语音信号能量谱通过梅尔尺度的三角形滤波器组,进一步经过离散余弦变换得到干净中文语音的梅尔倒谱系数;
所述干净中文语音的梅尔倒谱系数为:
CleanMFCCs,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
作为优选,步骤3具体如下:
步骤3.1,随机初始化高斯分量均值向量、方差向量;
所述初始化的均值向量的定义为:μ,μ={μ1,...,μi,...,μM};
所述初始化的方差向量的定义为:θ,θ={θ1,...,θi,...,θM};
其中,M表示混合高斯模型的高斯分量个数,μi表示第i个高斯分量的均值,θi表示第i个高斯分量的方差;
步骤3.2,结合均值向量、方差向量构建通用高斯混合背景概率密度模型;
通用高斯混合背景概率密度模型如下:
其中,λ是高斯混合模型参数集合{λ1,...,λi,...,λM},λi=(wi,μi,θi),i∈(1,...,M),wi是第i个高斯分量的混合权重分量,g(CleanMFCCs,h,k|μi,θi)是第i个高斯分量的概率密度函数;
步骤3.3,将通用高斯混合背景概率密度模型作为最大期望算法目标优化模型,进一步通过最大期望算法依次迭代计算均值向量和方差向量,直至p(CleanMFCCs,h,k|λ)的期望达到最大值,得到优化均值向量即μ*和优化方向量差即θ*;
通过μ*、θ*构建优化后的高斯混合模型的概率密度;
所述优化后的高斯混合模型的概率密度为:
其中,μ*为优化后的均值向量,μ*={μ*1,...,μ*i,...,μ*M},θ*为优化后的方差向量,θ*={θ*1,...,θ*i,...,θ*M},μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差;
作为优选,步骤4具体如下:
步骤4.1,根据干净语音集的梅尔倒谱系数、优化高斯混合背景概率密度模型,计算干净语音数据集的Baum-Welch统计量;
所述干净语音数据集的Baum-Welch统计量包括:
第s个说话用户第h段语音的权值Baum-Welch统计量、干净语音数据集的均值矢量Baum-Welch统计量、干净语音数据集的一阶中心Baum-Welch统计量;
所述第s个说话用户第h段语音的权值Baum-Welch统计量为:
μ*={μ*1,…,μ*i,...,μ*M}
θ*={θ*1,...,θ*i,...,θ*M}
w*={w*1,...,w*i,...,w*M}
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
其中,P*优化后的高斯混合模型的概率密度模型,μ*为优化后的均值向量,θ*为优化后的方差向量,μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差,w*i表示优化后第i个高斯分量的混合权重,g(CleanMFCCs,h,k|μ*i,θ*i)是优化后第i个高斯分量的概率密度函数,p(c|CleanMFCCs,h,k,p*)表示CleanMFCCs,h,k对于第c个高斯分量的状态占有率;
其中,Nc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量混合权值对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为:
其中,Fc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量,均值矢量对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为:
步骤4.2,根据干净语音数据集的Baum-Welch统计量,分别计算每个说话用户每段语音的声纹特征的方差、每个说话用户每段语音的声纹特征的均值;
所述每个说话用户每段语音的声纹特征的方差为:
lτ(s,h)=I+τT(θ*)-1Nc(s,h)Matrix
其中,lτ(s,h)表示第s个说话用户第h段语音的声纹特征的方差,I表示单位矩阵;
所述每个说话用户每段语音的声纹特征的均值为:
步骤4.3,通过期望最大化算法对全局差异空间矩阵进行更新;
所述全局差异空间矩阵进行更新的具体公式为:
c∈[1,M]
其中,Matrix为全局差异空间矩阵,反映不同说话用户之间的差异,Nc表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量的和,Ac表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量与声纹特征方差的乘积,C表示一阶中心Baum-Welch统计量与声纹特征均值的乘积;
步骤4.4,循重复执行步骤4.2、4.3,直到每个说话用户每段语音的声纹特征的期望达到最大值,得到优化后全局差异空间矩阵,优化后全局差异空间矩阵的定义为:Matrix*
步骤4.5,根据优化后全局差异空间矩阵估计每个说话用户每段语音的声纹特征;
s∈{0,1,2....,S},h∈{0,1,2....,H}
其中,ws,h表示第s个说话用户第h段语音的声纹特征,S为说话用户的数量,H为每个说话用户的音频数量;
作为优选,步骤5具体如下:
步骤5.1,对带噪语音数据集NoiseDatas,h进行分帧加窗得到带噪语音数据集的多帧语音信号;
所述带噪语数据集的多帧语音信号为:
NoiseDataFreams,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,noiseDataFreams,h,k表示带噪语音数据集第s个说话用户第h段语音的第k帧语音信号,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤5.2,对带噪语音数据集的每帧语音信号即noiseDataFrames,h,k进行快速傅里叶变换,得到带噪语音数据集的每帧语音信号的频谱特征、带噪语音数据集的每帧语音信号的相位谱;
所述频谱特征为:
noiseMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中noiseMags,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的频谱特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
所述相位谱为:
noisePhas,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中noisePhas,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
作为优选,步骤6所述带噪语音中说话用户的相关频谱特征为:
Speaker_Mags,h,k={noiseMags,h,k,ws,h}
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,Speaker_Mags,h,k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征,ws,h表示第s个说话用户第h段语音的声纹特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
作为优选,步骤7所述增强网络模型由编码器、解码器级联构成;
所述编码器,由X层编码卷积模块依次级联构成;
所述第1层编码卷积模块至第X-1层编码卷积模块均由卷积层、LeakyReLu函数激活层、Maxpooling池化层依次级联构成
所述第X层编码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成;
所述解码器,由Y层解码卷积模块依次级联构成;
所述第1层解码卷积模块至第Y-1层解码卷积模块均由卷积层、LeakyReLu函数激活层和Maxpooling池化层依次级联构成
所述第Y层解码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成
步骤7所述干净语音的频谱定义为:
干净语音的频谱由干净中文语音数据集即CleanDatas,h进过傅里叶变换得到:
CleanMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,CleanMags,h,k表示干净语音数据集中说话用户s的第h段语音第k帧语音信号的频谱特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述增强神经网络的损失函数为:
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,lossMSE表示神经网络损失函数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述优化训练得到优化后增强神经网络为:
通过Adam算法控制学习率的变化,再由学习率控制卷积层中待估参数的优化,最终使得lossMSE达到预期值或最小值,得到优化后增强神经网络;
作为优选,步骤8所述特征提取包括如下步骤:
首先带噪语音数据集中带噪语音经过傅里叶变换得到带噪语音的频谱;然后通过步骤4提取干净语音的声纹特征;最后将带噪语音的频谱和干净语音的声纹特征进行拼接得到说话用户相关的频谱。
与现有语音增强技术相比,本发明具有以下优点和有益效果:将用户语音的声纹特征进行嵌入,提升低信噪比条件下语音增强系统的性能,改善智能语音设备在嘈杂环境下的性能表现。
附图说明
图1:为本发明方法流图;
图2:为本发明中CNN语音增强网络结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面结合图1以及图2介绍本发明的具体实施方式为一种基于声纹嵌入的低信噪比条件下的语音增强方法,具体如下:
步骤1:将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;
本实例干净中文语音数据集选取Aishell干净语音数据集和中文语音噪声数据集选取Musan噪声数据集进行训练与测试。
步骤1所述干净中文语音数据集为:
CleanDatas,h
s∈{1,2....,S},h∈{1,2...·,H}
其中,CleanDatas,h表示第s个说话用户第h段语音,S=400为说话用户的数量,H=360为每个说话用户的音频数量;
步骤1所述带噪语音数据集为:
NoiseDatas,h
s∈{1,2....,S},h∈{1,2....,H}
其中,NoiseDatas,h表示第s个说话用户第h段带噪语音,S=400为说话用户的数量,H=360为每个说话用户的音频数量;
步骤2:提取中文语音数据集的梅尔倒谱系数;
实施步骤2具体如下:
步骤2.1,将步骤1中的干净中文语音数据集通过高通滤波器滤波,得到预加重之后的干净语音信号;
步骤2.2,对经过预加重之后的干净语音信号进行分帧加窗得到中文语音数据集的多帧语音信号;
所述中文语音数据集的多帧语音信号为:
CleanDataFrames,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanDataFrames,h表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号,S=400为说话用户的数量,H=360为每个说话用户的音频数量;,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
所述分帧加窗的窗口尺寸设为20ms,窗口重叠率为50%,若语音信号采样率为16k,则步长为160;
步骤2.3,对中文语音数据集的每帧语音信号即CleanDataFrames,h,k进行快速傅里叶变换,得到中文语音数据集的每帧语音信号的频谱、中文语音数据集的每帧语音信号能量谱;
步骤2.4,将中文语音数据集的每帧语音信号能量谱通过梅尔尺度的三角形滤波器组,进一步经过离散余弦变换得到干净中文语音的梅尔倒谱系数;
所述干净中文语音的梅尔倒谱系数为:
CleanMFCCs,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤3:构建优化通用高斯混合背景模型;
步骤3.1,随机初始化高斯分量均值向量、方差向量;
所述初始化的均值向量的定义为:μ,μ={μ1,...,μi,...,μM};
所述初始化的方差向量的定义为:θ,θ={θ1,...,θi,...,θM};
其中,M=1024表示混合高斯模型的高斯分量个数,μi表示第i个高斯分量的均值,θi表示第i个高斯分量的方差;
步骤3.2,结合均值向量、方差向量构建通用高斯混合背景概率密度模型;
通用高斯混合背景概率密度模型如下:
其中,λ是高斯混合模型参数集合{λ1,...,λi,...,λM},λi=(wi,μi,θi),i∈(1,...,M),wi是第i个高斯分量的混合权重分量,g(CleanMFCCs,h,k|μi,θi)是第i个高斯分量的概率密度函数;
步骤3.3,将通用高斯混合背景概率密度模型作为最大期望算法目标优化模型,进一步通过最大期望算法依次迭代计算均值向量和方差向量,直至p(CleanMFCCs,h,k|λ)的期望达到最大值,得到优化均值向量即μ*和优化方向量差即θ*;
通过μ*、θ*构建优化后的高斯混合模型的概率密度;
所述优化后的高斯混合模型的概率密度为:
其中,μ*为优化后的均值向量,μ*={μ*1,...,μ*i,...,μ*M},θ*为优化后的方差向量,θ*={θ*1,...,θ*i,...,θ*M},μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差;
步骤4:根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征。
步骤4.1,根据干净语音集的梅尔倒谱系数、优化高斯混合背景概率密度模型,计算干净语音数据集的Baum-Welch统计量;
所述干净语音数据集的Baum-Welch统计量包括:
第s个说话用户第h段语音的权值Baum-Welch统计量、干净语音数据集的均值矢量Baum-Welch统计量、干净语音数据集的一阶中心Baum-Welch统计量;
所述第s个说话用户第h段语音的权值Baum-Welch统计量为:
μ*={μ*1,...,μ*i,...,μ*M}
θ*={θ*1,...,θ*i,...,θ*M}
w*={w*1,...,w*i,...,w*M}
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
其中,P*优化后的高斯混合模型的概率密度模型,μ*为优化后的均值向量,θ*为优化后的方差向量,μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差,w*i表示优化后第i个高斯分量的混合权重,g(CleanMFCCs,h,k|μ*i,θ*i)是优化后第i个高斯分量的概率密度函数,p(c|CleanMFCCs,h,k,p*)表示CleanMFCCs,h,k对于第c个高斯分量的状态占有率;
其中,Nc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量混合权值对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为:
其中,Fc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量,均值矢量对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为:
步骤4.2,根据干净语音数据集的Baum-Welch统计量,分别计算每个说话用户每段语音的声纹特征的方差、每个说话用户每段语音的声纹特征的均值;
所述每个说话用户每段语音的声纹特征的方差为:
lτ(s,h)=I+τT(θ*)-1Nc(s,h)Matrix
其中,lτ(s,h)表示第s个说话用户第h段语音的声纹特征的方差,I表示单位矩阵;
所述每个说话用户每段语音的声纹特征的均值为:
步骤4.3,通过期望最大化算法对全局差异空间矩阵进行更新;
所述全局差异空间矩阵进行更新的具体公式为:
c∈[1,M]
其中,Matrix为全局差异空间矩阵,反映不同说话用户之间的差异,Nc表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量的和,Ac表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量与声纹特征方差的乘积,C表示一阶中心Baum-Welch统计量与声纹特征均值的乘积;
步骤4.4,循重复执行步骤4.2、4.3,直到每个说话用户每段语音的声纹特征的期望达到最大值,得到优化后全局差异空间矩阵,优化后全局差异空间矩阵的定义为:Matrix*
步骤4.5,根据优化后全局差异空间矩阵估计每个说话用户每段语音的声纹特征;
s∈{0,1,2....,S},h∈{0,1,2....,H}
其中,ws,h表示第s个说话用户第h段语音的声纹特征,S=400为说话用户的数量,H=360为每个说话用户的音频数量;
步骤5:提取带噪语音数据集的幅度谱和相位谱;
进一步的,提取带噪语音幅度谱信息的具体实施方案如下:
步骤5.1,对带噪语音数据集NoiseDatas,h进行分帧加窗得到带噪语音数据集的多帧语音信号。
所述分帧加窗处理的窗口尺寸设为20ms,窗口重叠率为50%,若语音信号采样率为16k,则步长为160。
所述带噪语数据集的多帧语音信号为:
NoiseDataFreams,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,noiseDataFreams,h,k表示带噪语音数据集第s个说话用户第h段语音的第k帧语音信号,S=400为说话用户的数量,H=360为每个说话用户的音频数量,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤5.2,对带噪语音数据集的每帧语音信号即noiseDataFrames,h,k进行快速傅里叶变换,得到带噪语音数据集的每帧语音信号的频谱特征、带噪语音数据集的每帧语音信号的相位谱;
所述频谱特征为:
noiseMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中noiseMags,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的频谱特征,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
所述相位谱为:
noisePhas,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中noisePhas,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤6:将干净语音数据集的声纹特征与带噪语音数据集的频谱特征通过拼接生成带噪语音中说话用户的相关频谱特征;
步骤6所述带噪语音中说话用户的相关频谱特征为:
Speaker_Mags,h,k={noiseMags,h,k,ws,h}
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,Speaker_Mags,h,k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征,ws,h表示第s个说话用户第h段语音的声纹特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7:构建增强神经网络,将第s个说话用户第h段语音第k帧语音信号的相关谱特征输入至增强神经网络,通过增强神经网络预测得到增强后的第s个说话用户第h段语音第k帧语音信号,以干净语音集的频谱作为标签构建增强神经网络的损失函数,通过Adam优化算法进一步优化训练得到优化后增强神经网络;
步骤7所述增强网络模型由编码器、解码器级联构成;
所述编码器,由X层编码卷积模块依次级联构成;
所述第1层编码卷积模块至第X-1层编码卷积模块均由卷积层、LeakyReLu函数激活层、Maxpooling池化层依次级联构成
所述第X层编码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成;
所述解码器,由Y层解码卷积模块依次级联构成;
所述第1层解码卷积模块至第Y-1层解码卷积模块均由卷积层、LeakyReLu函数激活层和Maxpooling池化层依次级联构成
所述第Y层解码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成
步骤7所述干净语音的频谱定义为:
干净语音的频谱由干净中文语音数据集即CleanDatas,h进过傅里叶变换得到:
CleanMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,CleanMags,h,k表示干净语音数据集中说话用户s的第h段语音第k帧语音信号的频谱特征,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述增强神经网络的损失函数为:
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,lossMSE表示神经网络损失函数,S=400为说话用户的数量,H=360为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述优化训练得到优化后增强神经网络为:
通过Adam算法控制学习率的变化,再由学习率控制卷积层中待估参数的优化,最终使得lossMSE达到预期值或最小值,得到优化后增强神经网络;
步骤8:将带噪语音数据集中带噪语音经过特征提取之后得到带噪语音的说话用户相关频谱特征,将带噪语音的说话用户相关频谱特征输入到优化后的增强神经网络中得到增强后说话用户相关频谱;将增强后的说话用户相关频谱和步骤5中的相位谱通过傅里叶反变换,进一步进行波形重构得到增强之后的待检测用户语音。
步骤8所述特征提取包括如下步骤:
首先带噪语音数据集中带噪语音经过傅里叶变换得到带噪语音的频谱;然后通过步骤4提取干净语音的声纹特征;最后将带噪语音的频谱和干净语音的声纹特征进行拼接得到说话用户相关的频谱。
如图1所示,本实施例基于CNN语音增强网络模型,和现有算法的结果进行比较,具体包括以下步骤:
步骤(1),数据仿真。下载干净语音数据集Aishell作为干净语音数据集,Musan作为噪声集;利用Kaldi工具wav-reverberate进行噪声语音数据的仿真用于语音增强网络的训练;
步骤(2),提取干净语音的声纹特征I-Vector;
步骤(3),提取带噪语音的语音幅度谱和相位谱;
步骤(4),将干净语音的声纹特征嵌入到对应带噪语音的幅度谱特征中得到说话用户相关的频谱特征;
步骤(5),搭建预训练的CNN语音增强网络,如图2所示;
步骤(6),网络训练。将步骤(4)中得到的融合特征输入到步骤(5)搭建的预训练模型中,训练语音增强网络。
步骤(7),波形重构。结合步骤(6)中经过模型增强的频谱特征和步骤(3)中的相位谱波形重构得到增强之后的语音。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,包括以下步骤:
步骤1:将干净中文语音数据集、中文语音噪声数据集通过sox混合干净语音和随机噪声,得到带噪语音数据集;
步骤2:提取中文语音数据集的梅尔倒谱系数;
步骤3:构建优化通用高斯混合背景模型;
步骤4:根据干净中文语音的梅尔倒谱系数、优化高斯混合背景概率密度模型,提取干净中文语音数据集的声纹特征;
步骤5:提取带噪语音数据集的幅度谱和相位谱;
步骤6:将干净语音数据集的声纹特征与带噪语音数据集的频谱特征通过拼接生成带噪语音中说话用户的相关频谱特征;
步骤7:构建增强神经网络,将第s个说话用户第h段语音第k帧语音信号的相关谱特征输入至增强神经网络,通过增强神经网络预测得到增强后的第s个说话用户第h段语音第k帧语音信号,以干净语音集的频谱作为标签构建增强神经网络的损失函数,通过Adam优化算法进一步优化训练得到优化后增强神经网络;
步骤8:将带噪语音数据集中带噪语音经过特征提取之后得到带噪语音的说话用户相关频谱特征,将带噪语音的说话用户相关频谱特征输入到优化后的增强神经网络中得到增强后说话用户相关频谱;将增强后的说话用户相关频谱和步骤5中的相位谱通过傅里叶反变换,进一步进行波形重构得到增强之后的待检测用户语音。
2.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
步骤1所述干净中文语音数据集为:
CleanDatas,h
s∈{1,2....,S},h∈{1,2....,H}
其中,CleanDatas,h表示第s个说话用户第h段语音,S为说话用户的数量,H为每个说话用户的音频数量;
步骤1所述带噪语音数据集为:
NoiseDatas,h
s∈{1,2....,S},h∈{1,2....,H}
其中,NoiseDatas,h表示第s个说话用户第h段带噪语音,S为说话用户的数量,H为每个说话用户的音频数量。
3.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
所述步骤2具体如下:
步骤2.1,将步骤1中的干净中文语音数据集通过高通滤波器滤波,得到预加重之后的干净语音信号;
步骤2.2,对经过预加重之后的干净语音信号进行分帧加窗得到中文语音数据集的多帧语音信号;
所述中文语音数据集的多帧语音信号为:
CleanDataFrames,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanDataFrames,h表示干净语音数据集第s个说话用户第h段语音的第k帧语音信号,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤2.3,对中文语音数据集的每帧语音信号即CleanDataFrames,h,k进行快速傅里叶变换,得到中文语音数据集的每帧语音信号的频谱、中文语音数据集的每帧语音信号能量谱;
步骤2.4,将中文语音数据集的每帧语音信号能量谱通过梅尔尺度的三角形滤波器组,进一步经过离散余弦变换得到干净中文语音的梅尔倒谱系数;
所述干净中文语音的梅尔倒谱系数为:
CleanMFCCs,h,k
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。
4.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
所述步骤3具体如下:
步骤3.1,随机初始化高斯分量均值向量、方差向量;
所述初始化的均值向量的定义为:μ,μ={μ1,...,μi,...,μM};
所述初始化的方差向量的定义为:θ,θ={θ1,...,θi,...,θM};
其中,M表示混合高斯模型的高斯分量个数,μi表示第i个高斯分量的均值,θi表示第i个高斯分量的方差;
步骤3.2,结合均值向量、方差向量构建通用高斯混合背景概率密度模型;
通用高斯混合背景概率密度模型如下:
其中,λ是高斯混合模型参数集合{λ1,...,λi,...,λM},λi=(wi,μi,θi),i∈(1,...,M),wi是第i个高斯分量的混合权重分量,g(CleanMFCCs,h,k|μi,θi)是第i个高斯分量的概率密度函数;
步骤3.3,将通用高斯混合背景概率密度模型作为最大期望算法目标优化模型,进一步通过最大期望算法依次迭代计算均值向量和方差向量,直至p(CleanMFCCs,h,k|λ)的期望达到最大值,得到优化均值向量即μ*和优化方向量差即θ*;
通过μ*、θ*构建优化后的高斯混合模型的概率密度;
所述优化后的高斯混合模型的概率密度为:
其中,μ*为优化后的均值向量,μ*={μ*1,...,μ*i,...,μ*M},θ*为优化后的方差向量,θ*={θ*1,...,θ*i,...,θ*M},μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差。
5.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
所述步骤4具体如下:
步骤4.1,根据干净语音集的梅尔倒谱系数、优化高斯混合背景概率密度模型,计算干净语音数据集的Baum-Welch统计量;
所述干净语音数据集的Baum-Welch统计量包括:
第s个说话用户第h段语音的权值Baum-Welch统计量、干净语音数据集的均值矢量Baum-Welch统计量、干净语音数据集的一阶中心Baum-Welch统计量;
所述第s个说话用户第h段语音的权值Baum-Welch统计量为:
μ*={μ*1,…,μ*i,…,μ*M}
θ*={θ*1,...,θ*i,...,θ*M}
w*={w*1,...,w*i,...,w*M}
s∈{1,2....,S},h∈{1,2....,H},k∈{1,2....,Kh,s}
其中,CleanMFCCs,h,k表示第s个说话用户第h段语音第k帧的梅尔倒谱系数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
其中,P*优化后的高斯混合模型的概率密度模型,μ*为优化后的均值向量,θ*为优化后的方差向量,μ*i表示第i个优化后高斯分量的均值,θ*i表示第i个优化后高斯分量的方差,w*i表示优化后第i个高斯分量的混合权重,g(CleanMFCCs,h,k|μ*i,θ*i)是优化后第i个高斯分量的概率密度函数,p(c|CleanMFCCs,h,k,p*)表示CleanMFCCs,h,k对于第c个高斯分量的状态占有率;
其中,Nc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量混合权值对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的均值矢量Baum-Welch统计量为:
其中,Fc(s,h)表示第s个说话用户第h段语音的梅尔倒谱系数对于第c个高斯分量,均值矢量对应的Baum-Welch统计量;
所述第s个说话用户第h段语音的一阶中心Baum-Welch统计量为:
步骤4.2,根据干净语音数据集的Baum-Welch统计量,分别计算每个说话用户每段语音的声纹特征的方差、每个说话用户每段语音的声纹特征的均值;
所述每个说话用户每段语音的声纹特征的方差为:
lτ(s,h)=I+τT(θ*)-1Nc(s,h)Matrix
其中,lτ(s,h)表示第s个说话用户第h段语音的声纹特征的方差,I表示单位矩阵;
所述每个说话用户每段语音的声纹特征的均值为:
步骤4.3,通过期望最大化算法对全局差异空间矩阵进行更新;
所述全局差异空间矩阵进行更新的具体公式为:
c∈[1,M]
其中,Matrix为全局差异空间矩阵,反映不同说话用户之间的差异,Nc表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量的和,Ac表示所有说话用户第c个高斯分量混合权重对应的Baum-Welch统计量与声纹特征方差的乘积,C表示一阶中心Baum-Welch统计量与声纹特征均值的乘积;
步骤4.4,循重复执行步骤4.2、4.3,直到每个说话用户每段语音的声纹特征的期望达到最大值,得到优化后全局差异空间矩阵,优化后全局差异空间矩阵的定义为:Matrix*
步骤4.5,根据优化后全局差异空间矩阵估计每个说话用户每段语音的声纹特征;
其中,ws,h表示第s个说话用户第h段语音的声纹特征,S为说话用户的数量,H为每个说话用户的音频数量。
6.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
步骤5具体如下:
步骤5.1,对带噪语音数据集NoiseDatas,h进行分帧加窗得到带噪语音数据集的多帧语音信号;
所述带噪语数据集的多帧语音信号为:
NoiseDataFreams,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,noiseDataFreams,h,k表示带噪语音数据集第s个说话用户第h段语音的第k帧语音信号,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤5.2,对带噪语音数据集的每帧语音信号即noiseDataFrames,h,k进行快速傅里叶变换,得到带噪语音数据集的每帧语音信号的频谱特征、带噪语音数据集的每帧语音信号的相位谱;
所述频谱特征为:
noiseMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中noiseMags,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的频谱特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
所述相位谱为:
noisePhas,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,noisePhas,h,k表示带噪语音中说话用户s的第h段语音第k帧语音信号的相位谱,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。
7.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
步骤6所述带噪语音中说话用户的相关频谱特征为:
Speaker_Mags,h,k={noiseMags,h,k,ws,h}
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,Speaker_Mags,h,k表示带噪语音中第s个说话用户第h段语音第k帧语音信号的相关谱特征,ws,h表示第s个说话用户第h段语音的声纹特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数。
8.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
步骤7所述增强网络模型由编码器、解码器级联构成;
所述编码器,由X层编码卷积模块依次级联构成;
所述第1层编码卷积模块至第X-1层编码卷积模块均由卷积层、LeakyReLu函数激活层、Maxpooling池化层依次级联构成
所述第X层编码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成;
所述解码器,由Y层解码卷积模块依次级联构成;
所述第1层解码卷积模块至第Y-1层解码卷积模块均由卷积层、LeakyReLu函数激活层和Maxpooling池化层依次级联构成
所述第Y层解码卷积模块由卷积层、tanh函数激活层和Maxpooling池化层依次级联构成
步骤7所述干净语音的频谱定义为:
干净语音的频谱由干净中文语音数据集即CleanDatas,h进过傅里叶变换得到:
CleanMags,h,k
s∈{0,1,2....,S},h∈{0,1,2....,H},k∈{0,1,2....,Kh,s}
其中,CleanMags,h,k表示干净语音数据集中说话用户s的第h段语音第k帧语音信号的频谱特征,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述增强神经网络的损失函数为:
其中,lossMSE表示神经网络损失函数,S为说话用户的数量,H为每个说话用户的音频数量,k表示每段语音的语音帧数,Kh,s表示干净语音数据集第s个说话用户第h段语音的语音信号帧数;
步骤7所述优化训练得到优化后增强神经网络为:
通过Adam算法控制学习率的变化,再由学习率控制卷积层中待估参数的优化,最终使得lossMSE达到预期值或最小值,得到优化后增强神经网络。
9.根据权利要求1所述的基于声纹嵌入的低信噪比条件下的语音增强方法,其特征在于,
步骤8所述特征提取包括如下步骤:
首先带噪语音数据集中带噪语音经过傅里叶变换得到带噪语音的频谱;然后通过步骤4提取干净语音的声纹特征;最后将带噪语音的频谱和干净语音的声纹特征进行拼接得到说话用户相关的频谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226118.6A CN113035217B (zh) | 2021-03-01 | 2021-03-01 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110226118.6A CN113035217B (zh) | 2021-03-01 | 2021-03-01 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035217A true CN113035217A (zh) | 2021-06-25 |
CN113035217B CN113035217B (zh) | 2023-11-10 |
Family
ID=76465021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110226118.6A Active CN113035217B (zh) | 2021-03-01 | 2021-03-01 | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035217B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
US20170092268A1 (en) * | 2015-09-28 | 2017-03-30 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN110120227A (zh) * | 2019-04-26 | 2019-08-13 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
CN111986679A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
-
2021
- 2021-03-01 CN CN202110226118.6A patent/CN113035217B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
US8639502B1 (en) * | 2009-02-16 | 2014-01-28 | Arrowhead Center, Inc. | Speaker model-based speech enhancement system |
US20170092268A1 (en) * | 2015-09-28 | 2017-03-30 | Trausti Thor Kristjansson | Methods for speech enhancement and speech recognition using neural networks |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN110120227A (zh) * | 2019-04-26 | 2019-08-13 | 天津大学 | 一种深度堆叠残差网络的语音分离方法 |
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN111653288A (zh) * | 2020-06-18 | 2020-09-11 | 南京大学 | 基于条件变分自编码器的目标人语音增强方法 |
CN111986679A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
王群;曾庆宁;谢先明;郑展恒: "低信噪比环境下的语音识别方法研究", 声学技术, vol. 36, no. 1 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117174105A (zh) * | 2023-11-03 | 2023-12-05 | 深圳市龙芯威半导体科技有限公司 | 一种基于改进型深度卷积网络的语音降噪与去混响方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113035217B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN111223493B (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
CN105321525B (zh) | 一种降低voip通信资源开销的系统和方法 | |
Shi et al. | Deep Attention Gated Dilated Temporal Convolutional Networks with Intra-Parallel Convolutional Modules for End-to-End Monaural Speech Separation. | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111899750B (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
Zezario et al. | Self-supervised denoising autoencoder with linear regression decoder for speech enhancement | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN112927709B (zh) | 一种基于时频域联合损失函数的语音增强方法 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
JPH08123484A (ja) | 信号合成方法および信号合成装置 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN114360571A (zh) | 基于参考的语音增强方法 | |
Jiang et al. | An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals | |
Xian et al. | Multi-scale residual convolutional encoder decoder with bidirectional long short-term memory for single channel speech enhancement | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Yang et al. | RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement | |
CN113035217B (zh) | 一种基于声纹嵌入的低信噪比条件下的语音增强方法 | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
Wu et al. | Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |