CN110060704A - 一种改进的多目标准则学习的语音增强方法 - Google Patents

一种改进的多目标准则学习的语音增强方法 Download PDF

Info

Publication number
CN110060704A
CN110060704A CN201910233182.XA CN201910233182A CN110060704A CN 110060704 A CN110060704 A CN 110060704A CN 201910233182 A CN201910233182 A CN 201910233182A CN 110060704 A CN110060704 A CN 110060704A
Authority
CN
China
Prior art keywords
training
speech
test data
neural network
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910233182.XA
Other languages
English (en)
Inventor
张涛
邵洋洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910233182.XA priority Critical patent/CN110060704A/zh
Publication of CN110060704A publication Critical patent/CN110060704A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L21/0202
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一种改进的多目标准则学习的语音增强方法,包括:信号预处理,包括获取训练数据集和测试数据集,并对训练数据集和测试数据集的数据进行分帧及加窗,分别确定窗函数类型、分帧时长和帧移参数;计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱;计算多目标训练的目标函数;训练深度神经网络;测试网络,用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征,输入到深度神经网络中进行神经网络的测试;将语音可懂度、主观语音质量评估和语音质量分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。本发明消除了带噪语音信号的相位信息对增强语音的可懂度和语音质量的不利影响,实施较为方便容易。

Description

一种改进的多目标准则学习的语音增强方法
技术领域
本发明涉及一种语音增强方法。特别是涉及一种改进的多目标准则学习的语音增强方法。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中尽可能提取有用的语音信号(即纯净语音),同时抑制、降低噪声干扰的技术。近年来,多种语音增强方法已被提出,主要包括基于信号处理的方法、基于统计模型的方法和基于模型训练的方法等。在这些方法中,基于信号处理的方法,谱减法和维纳滤波法是两种最具有代表性的算法,当正确估计背景噪声时,该类方法能取得较好的语音增强性能,然而,在现实环境中,尤其是在低信噪比的条件下,由于噪声的随机性和突变性,使得噪声很难被准确估计,导致增强性能大大下降,同时易引入“音乐噪声”;基于统计模型的方法,虽然在低信噪比的条件下也可以取得比较好的增强性能,但是考虑到噪声与语音间的相互关系非常复杂,需要一些信号间的独立性假设以及对特征分布的高斯性假设,然而这些假设通常是理想的,在未知的不匹配噪声条件下,其性能恶化;基于模型训练的语音增强方法在低信噪比、复杂背景噪声条件下表现出了更好的效果。
基于深度神经网络(DNN)的语音增强就是近年来兴起的一种基于模型训练的方法。基于深度神经网络(DNN)的语音增强方法主要涉及特征、模型和目标三个方面的内容,与特征一样,对目标函数的研究也非常有价值,在相同的训练数据特征和学习模型的前提下,通过更优的目标函数能使得模型训练地更好。基于DNN的语音增强常用的目标函数有最小均方误差、Kullback-Leibler散度、Itakura-Saito距离等。其中,研究表明,最小均方误差目标函数取得了更好的性能。
但由于直接对目标函数的优化很难取得实质性的进展,所以许多研究开始针对于训练目标这个对象展开。所以,基于单目标准则的学习方法首先被提出来。总结起来,单个训练目标可以分为三类:二值掩蔽、浮值掩蔽和纯净语音的频谱包络。研究发现,就增强语音的质量和可懂度而言,基于浮值掩蔽的训练目标要优于基于二值掩蔽的训练目标,然而基于频谱包络的训练目标效果最差。
基于以上单目标准则的学习方法,一种多目标学习框架被Xu等人提出。该方法以纯净语音的对数功率谱(Log Power Spectrum,LPS)特征作为主要训练目标,将梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、理想二值掩蔽(Ideal BinaryMask,IBM)等放在深度神经网络(DNN)的输出端,作为辅助训练目标,同时在深度神经网络(DNN)的输入端拼接带噪语音的梅尔频率倒谱系数(MFCC)特征作为互补特征。实验证明其性能要优于以上的单目标准则学习。
然而为了使得基于深度神经网络(DNN)的增强语音的可懂度和语音质量相较于单目标准则学习方法和已提出的多目标准则学习方法仍有所提高,从而间接地对目标函数进行优化,那么探索一种更优的多目标准则学习方法就成了目前基于深度神经网络(DNN)的语音增强方法的一个新挑战。
发明内容
本发明所要解决的技术问题是,提供一种能够提高增强语音的可懂度和语音质量的改进的多目标准则学习的语音增强方法。
本发明所采用的技术方案是:一种改进的多目标准则学习的语音增强方法,包括如下步骤:
1)信号预处理,包括获取训练数据集和测试数据集,并对训练数据集和测试数据集的数据进行分帧及加窗,分别确定窗函数类型、分帧时长和帧移参数;
2)计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱;
3)计算多目标训练的目标函数;
4)训练深度神经网络;
5)测试网络,用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征,输入到深度神经网络中进行神经网络的测试;将语音可懂度、主观语音质量评估和语音质量分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。
步骤1)所述的获取训练数据集和测试数据集,是从TIMIT标准语料库中选取部分语句作为训练语音,再选取作为训练语音以外的部分语句作为测试语音;从噪声库中选取设定的噪声分别作为训练噪声和测试噪声;分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合,得到实验所需要的训练数据集和测试数据集。
步骤2)包括:
(2.1)利用经典的周期图法通过分别计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的短时离散傅里叶变换求得第i帧信号在频率f的功率谱Sx(i,f):
式中,NW表示每帧数据长度,NSH表示每帧数据移动长度,h(l)表示长度为NW的窗函数,l表示每帧数据的NW个点中的第l个点,x代表第i帧信号;
(2.2)取功率谱Sx(i,f)的对数,进而得到分帧加窗后的训练数据集和测试数据集中带噪语音的每帧信号的对数功率谱。
步骤3)是采用如下公式计算:
式中表达了有n个训练目标的情况,而式中第一项表达了单目标训练归一化后的目标函数;式中,MSE表示最小均方误差,W表示权重矩阵,b表示偏置,M表示输入到深度神经网络的所有训练数据集中的数据样本数,m是样本索引号,分别表示估计语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;Sm、Sm1、Sm2和Smn分别表示纯净语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;α、β和γ分别表示第一个、第二个和第n个辅助训练目标的加权系数。
步骤4)包括:
(4.1)设置参数:
预先设置深度神经网络语音增强系统的隐藏层数,隐藏层节点数以及学习率;
(4.2)用所述的训练数据集的带噪语音的每帧信号的对数功率谱作为特征输入到深度神经网络,输出层为多个训练目标的组合,进行网络训练。
本发明的一种改进的多目标准则学习的语音增强方法,以纯净语音的理想浮值掩蔽(IRM)作为深度神经网络的主训练目标,相较于已提出的多目标准则学习方法中以纯净语音的对数功率谱作为深度神经网络的主训练目标而言,免去了由于重构语音增强信号时需要用到带噪语音信号的相位信息的过程,从而消除了带噪语音信号的相位信息对增强语音的可懂度和语音质量的不利影响;在重构语音增强信号时,只需使主训练目标理想浮值掩蔽(IRM)和带噪语音信号进行加权乘积运算即可得到语音增强信号,实施较为方便容易;进行深度神经网络的训练时除了主训练目标理想浮值掩蔽(IRM),还将理想二值掩蔽、对数功率谱、Gammatone域的功率谱、梅尔频率倒谱系数和Gammatone域倒谱系数作为,对深度神经网络的参数更新起到了更好的限制作用;相比于单目标准则学习方法和已提出的以纯净语音的对数功率谱作为主训练目标,以梅尔频率倒谱系数(MFCC),理想浮值掩蔽(IBM)作为辅助训练目标的多目标准则学习方法,在短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)方面上均有很大的提升,从而间接地优化了深度神经网络的目标函数。
附图说明
图1是本发明一种改进的多目标准则学习的语音增强方法的结构示意图。
具体实施方式
下面结合实施例和附图对本发明的一种改进的多目标准则学习的语音增强方法做出详细说明。
如图1所示,本发明的一种改进的多目标准则学习的语音增强方法,包括如下步骤:
1)信号预处理,包括获取训练数据集和测试数据集,并对训练数据集和测试数据集的数据进行分帧及加窗,分别确定窗函数类型、分帧时长和帧移参数;
所述的获取训练数据集和测试数据集,是从TIMIT标准语料库中选取部分语句作为训练语音,再选取作为训练语音以外的部分语句作为测试语音;从噪声库中选取设定的噪声分别作为训练噪声和测试噪声;分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合,得到实验所需要的训练数据集和测试数据集。
2)计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱(LPS);包括:
(2.1)利用经典的周期图法通过分别计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的短时离散傅里叶变换求得第i帧信号在频率f的功率谱Sx(i,f):
式中,NW表示每帧数据长度,NSH表示每帧数据移动长度,h(l)表示长度为NW的窗函数,,l表示每帧数据的NW个点中的第l个点,x代表第i帧信号;
(2.2)取功率谱Sx(i,f)的对数,进而得到分帧加窗后的训练数据集和测试数据集中带噪语音的每帧信号的对数功率谱。
3)计算多目标训练的目标函数;是要用如下公式计算:
式中表达了有n个训练目标的情况,而式中第一项则表达了单目标训练归一化后的目标函数。式中,MSE表示最小均方误差,W表示权重矩阵,b表示偏置,M表示深度神经网络输入的所有训练数据集中的数据样本数,m是样本索引号,分别表示估计语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;Sm,Sm1,Sm2,Smn分别表示纯净语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;α、β和γ分别表示第一个、第二个和第n个辅助训练目标的加权系数。
4)训练深度神经网络(DNN);包括:
(4.1)设置参数:
预先设置深度神经网络语音增强系统的隐藏层数,隐藏层节点数以及学习率;
(4.2)用所述的训练数据集的带噪语音的每帧信号的对数功率谱(LPS)作为特征输入到深度神经网络,输出层为多个训练目标的组合,进行网络训练。
5)测试网络,用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征,输入到深度神经网络中进行神经网络的测试;将短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。
下面给出具体实例:
(一)信号预处理
1、选取数据:
从TIMIT标准语料库中选取600条语句作为训练纯净语音,采样频率均为16KHz;从Noisex-92标准噪声库中选取Factory,F16,White和Pink四种噪声作为训练噪声,纯净语音与噪声分别以混合信噪比-5dB,-2dB,0dB和2dB混合得到训练数据集。
从TIMIT剩余语句中选取120条语句作为测试集纯净语音,采样率仍为16KHz;从Noisex-92标准噪声库中选取Factory作为测试噪声,分别以-5dB,-2dB,0dB和2dB的混合信噪比与纯净语音进行混合,得到测试数据集。
2、分帧及加窗
语音信号分帧时帧长为320点,帧移为160点,窗函数为汉明窗。
(二)计算训练数据集和测试数据集中的带噪语音信号的对数功率谱(LPS)。
(三)计算多目标训练的目标函数:
本实例以纯净语音的理想浮值掩蔽(IRM)为主训练目标,以纯净语音的频谱包络、理想二值掩蔽(IBM)、对数功率谱(LPS)、Gammatone域的功率谱(GF_POW)、梅尔频率倒谱系数(MFCC)和Gammatone域倒谱系数(GFCC)作为辅助训练目标。具体用到的多训练目标的组合有:理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)、理想浮值掩蔽+对数功率谱(IRM+LPS)、理想浮值掩蔽+对数功率谱+理想二值掩蔽(IRM+LPS+IBM)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+Gammatone域倒谱系数(IRM+LPS+IBM+GFCC)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数(IRM+LPS+IBM+MFCC)和理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC+GFCC)。
根据深度神经网络(DNN)的以最小均方误差为目标函数的多目标训练归一化后的目标函数定义式,
分别计算上述多个目标组合的目标函数。
(四)训练DNN网络
1、设置参数:
DNN语音增强系统隐藏层数设为4层,每层1024个节点,学习率为0.01。
2、用所述的训练数据集的带噪语音的每帧信号的对数功率谱LPS作为特征输入到DNN网络,输出层为所述多个训练目标的组合,对DNN网络进行训练。
(五)测试网络
用所述测试数据集的对数功率谱作为特征输入到深度神经网络(DNN),进行网络的测试。将短时客观可懂度(STOI)、感知语音质量(PESQ)和信噪比(SNR)分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。
如表1、表2、表3所示,本发明所提出的一种改进的以(理想浮值掩蔽)IRM为主训练目标,以纯净语音的频谱包络、理想二值掩蔽(IBM)、对数功率谱(LPS)、Gammatone域的功率谱(GF_POW)、梅尔频率倒谱系数(MFCC)和Gammatone域倒谱系数(GFCC)作为辅助训练目标的多目标准则学习的语音增强方法,平均来讲,1)在短时客观可懂度(STOI)指标上,除理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)、理想浮值掩蔽+对数功率谱+理想二值掩蔽+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC)和理想浮值掩蔽+对数功率谱+理想二值掩蔽+梅尔域倒谱系数+Gammatone域倒谱系数(IRM+LPS+IBM+MFCC+GFCC)三个多目标组合的得分低于以IRM为训练目标的单目标准则学习方法的得分,其余所有本发明提出的多目标准则学习方法的STOI得分均高于4种单目标准则学习方法和已提出的对数功率谱+梅尔频率倒谱系数+理想二值掩蔽(LPS+MFCC+IBM)多目标组合学习方法;2)在语音感知效果(PESQ)以及信噪比(SNR)两个指标上,除理想浮值掩蔽+Gammatone域的功率谱(IRM+GF_POW)的多目标组合以1.9379的得分低于以理想浮值掩蔽(IRM)为训练目标的单目标训练的方法,本发明中提出的以IRM为主训练目标的所有多目标组合准则学习方法均优于4种单目标准则学习方法和已提出的LPS+MFCC+IBM多目标组合学习方法。
表1利用不同训练目标语音增强后的STOI值
表2利用不同训练目标语音增强后的PESQ值
表3利用不同训练目标语音增强后的SNR值dB

Claims (5)

1.一种改进的多目标准则学习的语音增强方法,其特征在于,包括如下步骤:
1)信号预处理,包括获取训练数据集和测试数据集,并对训练数据集和测试数据集的数据进行分帧及加窗,分别确定窗函数类型、分帧时长和帧移参数;
2)计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的对数功率谱;
3)计算多目标训练的目标函数;
4)训练深度神经网络;
5)测试网络,用所述的测试数据集的带噪语音的每帧信号的对数功率谱作为特征,输入到深度神经网络中进行神经网络的测试;将语音可懂度、主观语音质量评估和语音质量分别作为语音增强后可懂度、感知效果以及语音质量的评价指标。
2.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法,其特征在于,步骤1)所述的获取训练数据集和测试数据集,是从TIMIT标准语料库中选取部分语句作为训练语音,再选取作为训练语音以外的部分语句作为测试语音;从噪声库中选取设定的噪声分别作为训练噪声和测试噪声;分别将训练语音和训练噪声及测试语音和测试噪声按设定的混合信噪比进行混合,得到实验所需要的训练数据集和测试数据集。
3.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法,其特征在于,步骤2)包括:
(2.1)利用经典的周期图法通过分别计算分帧加窗后的训练数据集和测试数据集中的带噪语音的每帧信号的短时离散傅里叶变换求得第i帧信号在频率f的功率谱Sx(i,f):
式中,NW表示每帧数据长度,NSH表示每帧数据移动长度,h(l)表示长度为NW的窗函数,l表示每帧数据的NW个点中的第l个点,x代表第i帧信号;
(2.2)取功率谱Sx(i,f)的对数,进而得到分帧加窗后的训练数据集和测试数据集中带噪语音的每帧信号的对数功率谱。
4.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法,其特征在于,步骤3)是采用如下公式计算:
式中表达了有n个训练目标的情况,而式中第一项表达了单目标训练归一化后的目标函数;式中,MSE表示最小均方误差,W表示权重矩阵,b表示偏置,M表示输入到深度神经网络的所有训练数据集中的数据样本数,m是样本索引号,分别表示估计语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;Sm、Sm1、Sm2和Smn分别表示纯净语音的主训练目标、第一个辅助训练目标、第二个辅助训练目标和第n个辅助训练目标;α、β和γ分别表示第一个、第二个和第n个辅助训练目标的加权系数。
5.根据权利要求1所述的一种改进的多目标准则学习的语音增强方法,其特征在于,步骤4)包括:
(4.1)设置参数:
预先设置深度神经网络语音增强系统的隐藏层数,隐藏层节点数以及学习率;
(4.2)用所述的训练数据集的带噪语音的每帧信号的对数功率谱作为特征输入到深度神经网络,输出层为多个训练目标的组合,进行网络训练。
CN201910233182.XA 2019-03-26 2019-03-26 一种改进的多目标准则学习的语音增强方法 Pending CN110060704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910233182.XA CN110060704A (zh) 2019-03-26 2019-03-26 一种改进的多目标准则学习的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910233182.XA CN110060704A (zh) 2019-03-26 2019-03-26 一种改进的多目标准则学习的语音增强方法

Publications (1)

Publication Number Publication Date
CN110060704A true CN110060704A (zh) 2019-07-26

Family

ID=67316344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910233182.XA Pending CN110060704A (zh) 2019-03-26 2019-03-26 一种改进的多目标准则学习的语音增强方法

Country Status (1)

Country Link
CN (1) CN110060704A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN110931038A (zh) * 2019-11-25 2020-03-27 西安讯飞超脑信息科技有限公司 一种语音增强方法、装置、设备及存储介质
CN111091847A (zh) * 2019-12-09 2020-05-01 北京计算机技术及应用研究所 基于并改进的深度聚类语音分离方法
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111613211A (zh) * 2020-04-17 2020-09-01 云知声智能科技股份有限公司 特定词语音的处理方法及装置
CN111863007A (zh) * 2020-06-17 2020-10-30 国家计算机网络与信息安全管理中心 一种基于深度学习的语音增强方法及系统
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN113241083A (zh) * 2021-04-26 2021-08-10 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN113763976A (zh) * 2020-06-05 2021-12-07 北京有竹居网络技术有限公司 音频信号的降噪方法、装置、可读介质和电子设备
CN114283830A (zh) * 2021-12-17 2022-04-05 南京工程学院 基于深度学习网络的麦克风信号回声消除模型构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING WANG: "A Multiobjective Learning and Ensembling Approach to High-Performance Speech Enhancement With Compact Neural Network Architectures", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
YONG XU: "Multi-objective Learning and Mask-based Post-processing for Deep Neural Network based Speech Enhancement", 《INTERSPEECH》 *
张卫强,郭璁,张乔: "一种基于计算听觉场景分析的语音增强算法", 《天津大学学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110867181B (zh) * 2019-09-29 2022-05-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN110867181A (zh) * 2019-09-29 2020-03-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN110931038A (zh) * 2019-11-25 2020-03-27 西安讯飞超脑信息科技有限公司 一种语音增强方法、装置、设备及存储介质
CN110931038B (zh) * 2019-11-25 2022-08-16 西安讯飞超脑信息科技有限公司 一种语音增强方法、装置、设备及存储介质
CN111091847A (zh) * 2019-12-09 2020-05-01 北京计算机技术及应用研究所 基于并改进的深度聚类语音分离方法
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111192598A (zh) * 2020-01-07 2020-05-22 哈尔滨理工大学 一种跳变连接深度神经网络的语音增强方法
CN111613211A (zh) * 2020-04-17 2020-09-01 云知声智能科技股份有限公司 特定词语音的处理方法及装置
CN113763976A (zh) * 2020-06-05 2021-12-07 北京有竹居网络技术有限公司 音频信号的降噪方法、装置、可读介质和电子设备
CN113763976B (zh) * 2020-06-05 2023-12-22 北京有竹居网络技术有限公司 音频信号的降噪方法、装置、可读介质和电子设备
CN111863007A (zh) * 2020-06-17 2020-10-30 国家计算机网络与信息安全管理中心 一种基于深度学习的语音增强方法及系统
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112735456B (zh) * 2020-11-23 2024-01-16 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN113241083A (zh) * 2021-04-26 2021-08-10 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN113241083B (zh) * 2021-04-26 2022-04-22 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN114283830A (zh) * 2021-12-17 2022-04-05 南京工程学院 基于深度学习网络的麦克风信号回声消除模型构建方法

Similar Documents

Publication Publication Date Title
CN110060704A (zh) 一种改进的多目标准则学习的语音增强方法
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Ming et al. A corpus-based approach to speech enhancement from nonstationary noise
Chai et al. A cross-entropy-guided measure (CEGM) for assessing speech recognition performance and optimizing DNN-based speech enhancement
Zão et al. Speech enhancement with EMD and hurst-based mode selection
Wu et al. Improved MFCC-based feature for robust speaker identification
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
Xia et al. Speech enhancement with weighted denoising auto-encoder.
CN111369982A (zh) 音频分类模型的训练方法、音频分类方法、装置及设备
CN109448726A (zh) 一种语音控制准确率的调整方法及系统
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN111128209A (zh) 一种基于混合掩蔽学习目标的语音增强方法
Kim et al. Mask classification for missing-feature reconstruction for robust speech recognition in unknown background noise
Jin et al. Speech enhancement using harmonic emphasis and adaptive comb filtering
Venturini et al. On speech features fusion, α-integration Gaussian modeling and multi-style training for noise robust speaker classification
CN113744749A (zh) 一种基于心理声学域加权损失函数的语音增强方法及系统
Han et al. Perceptual weighting deep neural networks for single-channel speech enhancement
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Nair et al. Mfcc based noise reduction in asr using kalman filtering
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
Sivakumaran et al. Sub-band based text-dependent speaker verification
Fukuda et al. Implicit Transfer of Privileged Acoustic Information in a Generalized Knowledge Distillation Framework.
Karbasi et al. Blind Non-Intrusive Speech Intelligibility Prediction Using Twin-HMMs.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190726

RJ01 Rejection of invention patent application after publication