CN108573698B - 一种基于性别融合信息的语音降噪方法 - Google Patents
一种基于性别融合信息的语音降噪方法 Download PDFInfo
- Publication number
- CN108573698B CN108573698B CN201710139644.2A CN201710139644A CN108573698B CN 108573698 B CN108573698 B CN 108573698B CN 201710139644 A CN201710139644 A CN 201710139644A CN 108573698 B CN108573698 B CN 108573698B
- Authority
- CN
- China
- Prior art keywords
- dnn
- voice
- speaker
- training data
- nmf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000004927 fusion Effects 0.000 title claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 97
- 238000001228 spectrum Methods 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 15
- 238000000354 decomposition reaction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于性别融合信息的语音降噪方法,所述方法包括:步骤1)采集大量语音训练数据,训练得到男性说话人DNN‑NMF模型和女性说话人DNN‑NMF模型;步骤2)提取测试语音的频谱,确定测试语音说话人的性别;步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN‑NMF模型,得到降噪后的语音。本发明的方法将引入性别信息,提出了一种新的性别鉴定算法,并且针对不同性别的训练语音训练不同的DNN‑NMF模型,提高的模型的学习能力;而且模型结合DNN和NMF的优点,能够同时利用DNN的学习优势以及NMF对于语音频谱的描述能力,提高了降噪效果。
Description
技术领域
本发明涉及一种语音降噪方法,更具体地说,本发明涉及一种基于性别融合信息的语音降噪方法。
背景技术
在很多应用场景中(如语音通信,自动语音识别,助听器)语音信号不可避免地受到周围干扰的影响,如路噪,周围非目标说话人干扰等,因此需要对设备采集到的带噪语音信号进行降噪处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号,算法需要从一个混合语音中去除噪声信号,进一步增加了问题的解决难度。近年来,基于数据驱动的算法已经被提出来解决单传声器语音降噪问题,如基于非负矩阵分解(non-negative matrix factorization,NMF)的语音降噪算法和基于深度神经网络(deepneural networks,DNN)的降噪算法等。在基于NMF的降噪算法中,NMF首先被用于语音和噪声训练数据得到对应的字典描述语音和噪声的频谱结构;然后在降噪阶段,混合语音幅度谱被分解为字典矩阵和权重矩阵的乘积;最后,通过语音字典和对应权重矩阵的乘积来重构增强后的语音信号。然而在很多实际场景中,语音和噪声字典张成的子空间可能会重叠,导致很难准确估计权重矩阵以及有效抑制噪声信号。而在基于DNN的语音降噪算法中,语音降噪被当做是一个有监督的学习问题,通过监督学习的算法训练DNN模型预测目标语音。由于人类发声的机理,语音频谱具有很强的时频结构特性,如浊音的谐波结构等。然而很多基于DNN的降噪算法并没有考虑这种语音频谱结构特性。
发明内容
本发明的目的在于克服传统的基于NMF降噪算法和基于DNN降噪算法存在的问题,提出了一种新的融合性别信息的基于DNN-NMF的单传声器降噪方法,提高了降噪效果。
为了实现上述目的,本发明提供了一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;
步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN-NMF模型,得到降噪后的语音。
上述技术方案中,所述步骤1)具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换提取语音训练数据的频谱;
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN;
步骤105)训练女性说话人DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型。
上述技术方案中,所述步骤105)具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型。
上述技术方案中,所述步骤106)具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
上述技术方案中,所述步骤2)具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别。
上述技术方案中,所述步骤202)具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
其中,.*表示逐点相乘;
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
上述技术方案中,所述步骤3)具体包括:
步骤302)结合降噪后的语音谱XS和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。
本发明的优点在于:
1、本发明的方法引入性别信息,提出了一种新的性别鉴定算法,并且针对不同性别的训练语音训练不同的DNN-NMF模型,提高的模型的学习能力;
2、本发明的方法能够同时结合DNN和NMF的优点,能够同时利用DNN的学习优势,以及NMF对于语音频谱的描述能力,提高了降噪效果。
附图说明
图1是本发明提出基于性别融合信息的语音降噪方法的流程图;
图2是本发明所使用的DNN-NMF模型图。
具体实施方式
现结合附图和具体实施例对本发明作进一步的描述。
如图1所示,一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换(FFT)提取语音训练数据的频谱;
所述对语音训练数据预处理包括:对每一帧语音训练数据先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数据进行加窗或预加重处理,加窗函数采用汉明窗(hamming)或哈宁窗(hanning)。
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN;
步骤105)训练女性说话人DNN-NMF模型;具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
DNN-NMF模型的结构如图2所示。
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;表示NMF的权重向量;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型;具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;按照性别分别输入相应的DNN-NMF模型,得到降噪后的语音;具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别;具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
其中,.*表示逐点相乘;
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
步骤3)根据步骤2)确定的性别,将测试语音幅度谱X输入相应的DNN-NMF模型,得到降噪后的语音;具体包括:
步骤302)结合降噪后的语音谱XS和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。
最后所应说明的是,以上实施例仅用于说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。
Claims (5)
1.一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;
步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN-NMF模型,得到降噪后的语音;
所述步骤2)具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别;
所述步骤202)具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
其中,.*表示逐点相乘;
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
2.根据权利要求1所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤1)具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换提取语音训练数据的频谱;
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN;
步骤105)训练女性说话人DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型。
3.根据权利要求2所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤105)具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型。
4.根据权利要求2所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤106)具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,和是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710139644.2A CN108573698B (zh) | 2017-03-09 | 2017-03-09 | 一种基于性别融合信息的语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710139644.2A CN108573698B (zh) | 2017-03-09 | 2017-03-09 | 一种基于性别融合信息的语音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573698A CN108573698A (zh) | 2018-09-25 |
CN108573698B true CN108573698B (zh) | 2021-06-08 |
Family
ID=63578261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710139644.2A Active CN108573698B (zh) | 2017-03-09 | 2017-03-09 | 一种基于性别融合信息的语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108573698B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110766479B (zh) * | 2019-10-31 | 2020-11-17 | 北京微瑞思创信息科技股份有限公司 | 采用视频logo分析进行广告投放评估的方法 |
CN115331689A (zh) * | 2022-08-11 | 2022-11-11 | 北京声智科技有限公司 | 语音降噪模型的训练方法、装置、设备、存储介质及产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
CN103714812A (zh) * | 2013-12-23 | 2014-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN105513597A (zh) * | 2015-12-30 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
-
2017
- 2017-03-09 CN CN201710139644.2A patent/CN108573698B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
CN103714812A (zh) * | 2013-12-23 | 2014-04-09 | 百度在线网络技术(北京)有限公司 | 一种语音识别方法及装置 |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
CN105513597A (zh) * | 2015-12-30 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | 声纹认证处理方法及装置 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
Non-Patent Citations (5)
Title |
---|
Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition;Thanh T. Vu etc.;《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;全文 * |
Exploiting spectro-temporal structures using NMF for DNN-based supervised speech separation;Shuai Nie etc.;《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;第469-472页 * |
Jointly Optimizing Activation Coefficients of Convolutive NMF Using DNN;Hao Li etc.;《INTERSPEECH》;20160912;全文 * |
基于联合字典学习和稀疏表示的语音降噪算法研究;罗友;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160915;第39-63页 * |
深度学习理论及其应用专题讲座(四)第8讲 深度学习方法在语音增强中的应用;时文华 等;《军事通信技术》;20160930;第37卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108573698A (zh) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
CN110634502B (zh) | 基于深度神经网络的单通道语音分离算法 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111261183B (zh) | 一种语音去噪的方法及装置 | |
Zhao et al. | A two-stage algorithm for noisy and reverberant speech enhancement | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Cui et al. | Speech enhancement based on simple recurrent unit network | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
Saleem et al. | Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
Girirajan et al. | Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network. | |
Zhang et al. | Complex image generation swintransformer network for audio denoising | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
CN108574911B (zh) | 一种无监督单传声器语音降噪方法及系统 | |
Meutzner et al. | A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition | |
Radha et al. | Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Razani et al. | A reduced complexity MFCC-based deep neural network approach for speech enhancement | |
Srinivasarao | Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |