CN108573698B - 一种基于性别融合信息的语音降噪方法 - Google Patents

一种基于性别融合信息的语音降噪方法 Download PDF

Info

Publication number
CN108573698B
CN108573698B CN201710139644.2A CN201710139644A CN108573698B CN 108573698 B CN108573698 B CN 108573698B CN 201710139644 A CN201710139644 A CN 201710139644A CN 108573698 B CN108573698 B CN 108573698B
Authority
CN
China
Prior art keywords
dnn
voice
speaker
training data
nmf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710139644.2A
Other languages
English (en)
Other versions
CN108573698A (zh
Inventor
李军锋
李煦
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201710139644.2A priority Critical patent/CN108573698B/zh
Publication of CN108573698A publication Critical patent/CN108573698A/zh
Application granted granted Critical
Publication of CN108573698B publication Critical patent/CN108573698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于性别融合信息的语音降噪方法,所述方法包括:步骤1)采集大量语音训练数据,训练得到男性说话人DNN‑NMF模型和女性说话人DNN‑NMF模型;步骤2)提取测试语音的频谱,确定测试语音说话人的性别;步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN‑NMF模型,得到降噪后的语音。本发明的方法将引入性别信息,提出了一种新的性别鉴定算法,并且针对不同性别的训练语音训练不同的DNN‑NMF模型,提高的模型的学习能力;而且模型结合DNN和NMF的优点,能够同时利用DNN的学习优势以及NMF对于语音频谱的描述能力,提高了降噪效果。

Description

一种基于性别融合信息的语音降噪方法
技术领域
本发明涉及一种语音降噪方法,更具体地说,本发明涉及一种基于性别融合信息的语音降噪方法。
背景技术
在很多应用场景中(如语音通信,自动语音识别,助听器)语音信号不可避免地受到周围干扰的影响,如路噪,周围非目标说话人干扰等,因此需要对设备采集到的带噪语音信号进行降噪处理。而且很多听力设备(或仪器)通常只有一个传声器来拾取语音信号,算法需要从一个混合语音中去除噪声信号,进一步增加了问题的解决难度。近年来,基于数据驱动的算法已经被提出来解决单传声器语音降噪问题,如基于非负矩阵分解(non-negative matrix factorization,NMF)的语音降噪算法和基于深度神经网络(deepneural networks,DNN)的降噪算法等。在基于NMF的降噪算法中,NMF首先被用于语音和噪声训练数据得到对应的字典描述语音和噪声的频谱结构;然后在降噪阶段,混合语音幅度谱被分解为字典矩阵和权重矩阵的乘积;最后,通过语音字典和对应权重矩阵的乘积来重构增强后的语音信号。然而在很多实际场景中,语音和噪声字典张成的子空间可能会重叠,导致很难准确估计权重矩阵以及有效抑制噪声信号。而在基于DNN的语音降噪算法中,语音降噪被当做是一个有监督的学习问题,通过监督学习的算法训练DNN模型预测目标语音。由于人类发声的机理,语音频谱具有很强的时频结构特性,如浊音的谐波结构等。然而很多基于DNN的降噪算法并没有考虑这种语音频谱结构特性。
发明内容
本发明的目的在于克服传统的基于NMF降噪算法和基于DNN降噪算法存在的问题,提出了一种新的融合性别信息的基于DNN-NMF的单传声器降噪方法,提高了降噪效果。
为了实现上述目的,本发明提供了一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;
步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN-NMF模型,得到降噪后的语音。
上述技术方案中,所述步骤1)具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换提取语音训练数据的频谱;
步骤103)对不含噪声的语音训练数据按照性别进行分类:男性说话人训练数据和女性说话人训练数据,然后分别对男性说话人训练数据幅度谱
Figure GDA0002987977510000021
和女性说话人训练数据幅度谱和
Figure GDA0002987977510000022
进行非负矩阵分解:
Figure GDA0002987977510000023
从中得到男性说话人和女性说话人对应的字典矩阵
Figure GDA0002987977510000024
Figure GDA0002987977510000025
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN
步骤105)训练女性说话人DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型。
上述技术方案中,所述步骤105)具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
Figure GDA0002987977510000026
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,
Figure GDA0002987977510000031
Figure GDA0002987977510000032
是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型。
上述技术方案中,所述步骤106)具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
Figure GDA0002987977510000033
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,
Figure GDA0002987977510000034
Figure GDA0002987977510000035
是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
上述技术方案中,所述步骤2)具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别。
上述技术方案中,所述步骤202)具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
Figure GDA0002987977510000041
其中,W=[WS WN],
Figure GDA0002987977510000042
H=[HS T HN T]T,以及
Figure GDA0002987977510000043
Figure GDA0002987977510000044
目标函数的第二项为稀疏惩罚函数,β为系数,
Figure GDA0002987977510000045
Figure GDA0002987977510000046
ε1为系数;
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
Figure GDA0002987977510000047
其中,.*表示逐点相乘;
步骤202-1-3)对
Figure GDA0002987977510000048
中的语音权重矩阵HS进行稀惩罚,更新
Figure GDA0002987977510000049
Figure GDA00029879775100000410
λ2和ε2为系数;
Figure GDA00029879775100000420
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
Figure GDA00029879775100000413
Figure GDA00029879775100000414
步骤202-1-5)判断步骤202-1-4)
Figure GDA00029879775100000415
是否收敛;如果判断结果是肯定的,转入步骤202-2);否则,令
Figure GDA00029879775100000416
转入步骤202-1-1);
步骤202-2)通过比较权重矩阵
Figure GDA00029879775100000417
Figure GDA00029879775100000418
的大小判断该说话人的性别;
如果
Figure GDA00029879775100000419
||·||1表示矩阵的第一范式;判断该说话人为男性,反之则判断为女性。
上述技术方案中,所述步骤3)具体包括:
步骤301)将测试语音幅度谱X输入对应性别的DNN-NHF模型,利用前向传播算法得到DNN模型输出的
Figure GDA0002987977510000051
Figure GDA0002987977510000052
然后通过NMF层和Wiener filtering得到最终降噪后的语音谱XS
Figure GDA0002987977510000053
步骤302)结合降噪后的语音谱XS和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。
本发明的优点在于:
1、本发明的方法引入性别信息,提出了一种新的性别鉴定算法,并且针对不同性别的训练语音训练不同的DNN-NMF模型,提高的模型的学习能力;
2、本发明的方法能够同时结合DNN和NMF的优点,能够同时利用DNN的学习优势,以及NMF对于语音频谱的描述能力,提高了降噪效果。
附图说明
图1是本发明提出基于性别融合信息的语音降噪方法的流程图;
图2是本发明所使用的DNN-NMF模型图。
具体实施方式
现结合附图和具体实施例对本发明作进一步的描述。
如图1所示,一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换(FFT)提取语音训练数据的频谱;
所述对语音训练数据预处理包括:对每一帧语音训练数据先补零到N点,N=2i,i为整数,且i≥8;然后,对每一帧的数据进行加窗或预加重处理,加窗函数采用汉明窗(hamming)或哈宁窗(hanning)。
步骤103)对不含噪声的语音训练数据按照性别进行分类:男性说话人训练数据和女性说话人训练数据,然后分别对男性说话人训练数据幅度谱
Figure GDA0002987977510000061
和女性说话人训练数据幅度谱和
Figure GDA0002987977510000062
进行非负矩阵分解:
Figure GDA0002987977510000063
从中得到男性说话人和女性说话人对应的字典矩阵
Figure GDA0002987977510000064
Figure GDA0002987977510000065
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN
步骤105)训练女性说话人DNN-NMF模型;具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
DNN-NMF模型的结构如图2所示。
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
Figure GDA0002987977510000066
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,
Figure GDA0002987977510000067
Figure GDA0002987977510000068
是DNN模型的输出,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;表示NMF的权重向量;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型;具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
Figure GDA0002987977510000071
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,
Figure GDA0002987977510000072
Figure GDA0002987977510000073
是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;按照性别分别输入相应的DNN-NMF模型,得到降噪后的语音;具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别;具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
Figure GDA0002987977510000074
其中,W=[WS WN],
Figure GDA0002987977510000075
H=[HS T HN T]T,以及
Figure GDA0002987977510000076
Figure GDA0002987977510000077
目标函数的第二项为稀疏惩罚函数,β为系数,
Figure GDA0002987977510000078
i=f,m;ε1为系数;
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
Figure GDA0002987977510000081
其中,.*表示逐点相乘;
步骤202-1-3)对
Figure GDA0002987977510000082
中的语音权重矩阵HS进行稀惩罚,更新
Figure GDA0002987977510000083
Figure GDA0002987977510000084
λ2和ε2为系数;
Figure GDA0002987977510000085
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
Figure GDA0002987977510000086
Figure GDA0002987977510000087
步骤202-1-5)判断步骤202-1-4)
Figure GDA0002987977510000088
是否收敛;如果判断结果是肯定的,转入步骤202-2);否则,令
Figure GDA0002987977510000089
转入步骤202-1-1);
在本实例中,一般迭代50次则确认
Figure GDA00029879775100000810
已经收敛,然后停止迭代。
步骤202-2)通过比较权重矩阵
Figure GDA00029879775100000811
Figure GDA00029879775100000812
的大小来判断该说话人的性别;
如果
Figure GDA00029879775100000813
||·||1表示矩阵的第一范式;判断该说话人为男性,反之则判断为女性。
步骤3)根据步骤2)确定的性别,将测试语音幅度谱X输入相应的DNN-NMF模型,得到降噪后的语音;具体包括:
步骤301)将测试语音幅度谱X输入对应性别的DNN-NHF模型,利用前向传播算法得到DNN模型输出的
Figure GDA00029879775100000814
Figure GDA00029879775100000815
然后通过NMF层和Wiener filtering得到最终降噪后的语音谱XS
Figure GDA00029879775100000816
步骤302)结合降噪后的语音谱XS和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。
最后所应说明的是,以上实施例仅用于说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围内。

Claims (5)

1.一种基于性别融合信息的语音降噪方法,所述方法包括:
步骤1)采集大量语音训练数据,训练得到男性说话人DNN-NMF模型和女性说话人DNN-NMF模型;
步骤2)提取测试语音的频谱,确定测试语音说话人的性别;
步骤3)根据步骤2)确定的性别,将测试语音的幅度谱输入相应的DNN-NMF模型,得到降噪后的语音;
所述步骤2)具体包括:
步骤201)对测试语音进行预处理,提取其频谱;
步骤202)根据测试语音幅度谱X,利用性别鉴定算法确定测试语音说话人的性别;
所述步骤202)具体包括:
步骤202-1)对测试语音幅度谱X进行无监督非负矩阵分解,解决如下最优化问题:
Figure FDA0002987977500000019
其中,W=[Ws WN],
Figure FDA0002987977500000011
H=[HS T HN T]T,以及
Figure FDA0002987977500000012
Figure FDA0002987977500000013
目标函数的第二项为稀疏惩罚函数,β为系数,
Figure FDA0002987977500000014
Figure FDA0002987977500000015
ε1为系数;
在进行分解时,步骤202-1)具体包括:
步骤202-1-1)计算X和WH的相似度V:
V=X./(WH)
其中,./表示逐点相除;
步骤202-1-2)更新权重向量H:
Figure FDA0002987977500000016
其中,.*表示逐点相乘;
步骤202-1-3)对
Figure FDA0002987977500000017
中的语音权重矩阵HS进行稀惩罚,更新
Figure FDA0002987977500000018
Figure FDA0002987977500000021
λ2和ε2为系数;
Figure FDA0002987977500000022
步骤202-1-4)更新噪声矩阵WN,并对其进行归一化:
Figure FDA0002987977500000023
Figure FDA0002987977500000024
步骤202-1-5)判断步骤202-1-4)
Figure FDA0002987977500000025
是否收敛;如果判断结果是肯定的,转入步骤202-2);否则,令
Figure FDA0002987977500000026
转入步骤202-1-1);
步骤202-2)通过比较权重矩阵
Figure FDA0002987977500000027
Figure FDA0002987977500000028
的大小判断该说话人的性别;
如果
Figure FDA0002987977500000029
||·||1表示矩阵的第一范式;判断该说话人为男性,反之则判断为女性。
2.根据权利要求1所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤1)具体包括:
步骤101)采集大量语音训练数据,所述语音训练数据包括:不含噪声的语音训练数据和纯噪声语音训练数据;
步骤102)对语音训练数据进行预处理,然后通过快速傅里叶变换提取语音训练数据的频谱;
步骤103)对不含噪声的语音训练数据按照性别进行分类:男性说话人训练数据和女性说话人训练数据,然后分别对男性说话人训练数据幅度谱
Figure FDA00029879775000000210
和女性说话人训练数据幅度谱
Figure FDA00029879775000000211
进行非负矩阵分解:
Figure FDA00029879775000000212
从中得到男性说话人和女性说话人对应的字典矩阵
Figure FDA00029879775000000213
Figure FDA00029879775000000214
步骤104)对纯噪声语音训练数据的幅度谱进行非负矩阵分解,得到噪声字典WN
步骤105)训练女性说话人DNN-NMF模型;
步骤106)训练男性说话人DNN-NMF模型。
3.根据权利要求2所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤105)具体包括:
步骤105-1)随机初始化女性说话人DNN-NMF模型参数;
步骤105-2)将不含噪声的女性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为女性说话人DNN-NMF模型的输入x;
步骤105-3)根据前向传播算法计算女性说话人DNN-NMF模型最终的目标函数:
Figure FDA0002987977500000031
其中,xS是步骤105-2)中的不含噪声的女性说话人训练数据的幅度谱,xN是步骤105-2)中的纯噪声训练数据的幅度谱,
Figure FDA0002987977500000032
Figure FDA0002987977500000033
是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ1为系数;
步骤105-4)计算步骤105-3)中目标函数关于女性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计女性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到女性说话人的DNN-NMF模型。
4.根据权利要求2所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤106)具体包括:
步骤106-1)随机初始化男性说话人DNN-NMF模型参数;
步骤106-2)将不含噪声的男性说话人训练数据和纯噪声训练数据进行混合,形成混合训练数据,对混合训练数据进行快速傅里叶变换,提取其幅度谱,作为男性说话人DNN-NMF模型的输入y;
步骤105-3)根据前向传播算法计算男性说话人DNN-NMF模型最终的目标函数:
Figure FDA0002987977500000034
其中,yS是步骤106-2)中的不含噪声的男性说话人训练数据的幅度谱,yN是步骤106-2)中的纯噪声训练数据的幅度谱,
Figure FDA0002987977500000041
Figure FDA0002987977500000042
是DNN模型的输出,表示NMF的权重向量,通过DNN前向传播算法得到,是模型的一个中间变量,用于和字典相乘重构语音和噪声信号;λ为系数;
步骤106-4)计算步骤106-3)中目标函数关于男性说话人DNN-NMF模型参数的导数,然后采用后向传播算法估计男性说话人DNN-NMF的参数,参数包括模型层与层之间的权重矩阵和偏置向量,得到男性说话人的DNN-NMF模型。
5.根据权利要求4所述的基于性别融合信息的语音降噪方法,其特征在于,所述步骤3)具体包括:
步骤301)将测试语音幅度谱X输入对应性别的DNN-NMF模型,利用前向传播算法得到DNN模型输出的
Figure FDA0002987977500000043
Figure FDA0002987977500000044
然后通过NMF层和Wiener filtering得到最终降噪后的语音谱XS
Figure FDA0002987977500000045
步骤302)结合降噪后的语音谱XS和混合信号的相位信息通过逆傅里叶变换恢复出降噪后的语音的时域波形。
CN201710139644.2A 2017-03-09 2017-03-09 一种基于性别融合信息的语音降噪方法 Active CN108573698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710139644.2A CN108573698B (zh) 2017-03-09 2017-03-09 一种基于性别融合信息的语音降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710139644.2A CN108573698B (zh) 2017-03-09 2017-03-09 一种基于性别融合信息的语音降噪方法

Publications (2)

Publication Number Publication Date
CN108573698A CN108573698A (zh) 2018-09-25
CN108573698B true CN108573698B (zh) 2021-06-08

Family

ID=63578261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710139644.2A Active CN108573698B (zh) 2017-03-09 2017-03-09 一种基于性别融合信息的语音降噪方法

Country Status (1)

Country Link
CN (1) CN108573698B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766479B (zh) * 2019-10-31 2020-11-17 北京微瑞思创信息科技股份有限公司 采用视频logo分析进行广告投放评估的方法
CN115331689A (zh) * 2022-08-11 2022-11-11 北京声智科技有限公司 语音降噪模型的训练方法、装置、设备、存储介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
WO2016050725A1 (en) * 2014-09-30 2016-04-07 Thomson Licensing Method and apparatus for speech enhancement based on source separation
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9666183B2 (en) * 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103714812A (zh) * 2013-12-23 2014-04-09 百度在线网络技术(北京)有限公司 一种语音识别方法及装置
WO2016050725A1 (en) * 2014-09-30 2016-04-07 Thomson Licensing Method and apparatus for speech enhancement based on source separation
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
CN105513597A (zh) * 2015-12-30 2016-04-20 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition;Thanh T. Vu etc.;《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;全文 *
Exploiting spectro-temporal structures using NMF for DNN-based supervised speech separation;Shuai Nie etc.;《2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20160519;第469-472页 *
Jointly Optimizing Activation Coefficients of Convolutive NMF Using DNN;Hao Li etc.;《INTERSPEECH》;20160912;全文 *
基于联合字典学习和稀疏表示的语音降噪算法研究;罗友;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160915;第39-63页 *
深度学习理论及其应用专题讲座(四)第8讲 深度学习方法在语音增强中的应用;时文华 等;《军事通信技术》;20160930;第37卷(第3期);全文 *

Also Published As

Publication number Publication date
CN108573698A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
CN110634502B (zh) 基于深度神经网络的单通道语音分离算法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN111261183B (zh) 一种语音去噪的方法及装置
Zhao et al. A two-stage algorithm for noisy and reverberant speech enhancement
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
Cui et al. Speech enhancement based on simple recurrent unit network
Yuliani et al. Speech enhancement using deep learning methods: A review
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
Girirajan et al. Real-Time Speech Enhancement Based on Convolutional Recurrent Neural Network.
Zhang et al. Complex image generation swintransformer network for audio denoising
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN108574911B (zh) 一种无监督单传声器语音降噪方法及系统
Meutzner et al. A generative-discriminative hybrid approach to multi-channel noise reduction for robust automatic speech recognition
Radha et al. Enhancing speech quality using artificial bandwidth expansion with deep shallow convolution neural network framework
TWI749547B (zh) 應用深度學習的語音增強系統
Razani et al. A reduced complexity MFCC-based deep neural network approach for speech enhancement
Srinivasarao Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant