CN110070887B - 一种语音特征重建方法及装置 - Google Patents
一种语音特征重建方法及装置 Download PDFInfo
- Publication number
- CN110070887B CN110070887B CN201810065070.3A CN201810065070A CN110070887B CN 110070887 B CN110070887 B CN 110070887B CN 201810065070 A CN201810065070 A CN 201810065070A CN 110070887 B CN110070887 B CN 110070887B
- Authority
- CN
- China
- Prior art keywords
- time
- voice signal
- frequency domain
- neural network
- power spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000011159 matrix material Substances 0.000 claims abstract description 126
- 238000003062 neural network model Methods 0.000 claims abstract description 60
- 239000002131 composite material Substances 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 32
- 230000000873 masking effect Effects 0.000 claims abstract description 28
- 238000001228 spectrum Methods 0.000 claims description 84
- 238000013528 artificial neural network Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 41
- 238000009432 framing Methods 0.000 claims description 9
- 238000000926 separation method Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000006872 improvement Effects 0.000 description 11
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种语音特征重建方法及装置,该方法包括:基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;将第一有效语音信号转换为第一时频域特征;根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
Description
技术领域
本发明涉及信号处理技术领域,特别涉及一种语音特征重建方法及装置。
背景技术
针对受到噪声干扰的单通道语音信号,以借助于理想二值掩蔽的语音分离进行语音增强是较为有效的处理方法。通过理想二值掩蔽,可以将时频域内带噪声的语音信号成分进行分类,区分开被噪声遮蔽的成分,保留语音信号能量较强的成分。分离出的语音信号成分带有重要的语音信息,常常被用于后续的语音识别和语音感知处理。但是,被噪声遮蔽的语音成分,同样带有语音信息,缺少了这些成分的语音信号不可避免地表现出感知质量的下降和识别正确率的降低,严重阻碍了对语音信的分析和利用。因而,针对语音分离信号的语音特征重建方法,在研究和应用层面都具有独到的重要性。
现阶段的语音信号语音特征重建技术,主要依据对纯净语音信号的时频域特征进行统计,根据统计量来估计缺失的特征。这样的统计量是在用于统计的语音信号的平均化结果,虽然在统计意义上可以表达语音信号成分的分布,但是在局部意义上缺少特异性。同时,基于统计量的语音特征重建,需要选取参照特征,依据待重建成分周围的参照特征进行重建,因而受到参照范围的限制。这些属性导致经过重建得到的语音信号质量提升有限。
深度神经网络适用于图像、语音信号处理,通常被用来构建复杂的、高度非线性的相关关系。同时,深度神经网络可以扩大参考范围,在更大的时频空间上建立从参考成分到待重建成分的映射关系。不过,由于深度神经网络对输入特征不加区分,因而无法充分利用分离语音信号的掩蔽信息。从而导致语音特征重建带来更大的难度,从而导致语音信号质量的提升更加成为比较困难的问题。
发明内容
本发明的目的在于,克服现阶段语音信号语音特征重建技术所存在的缺陷,包括语音信号缺少特异性,以及语音信号质量提升有限的问题,提供一种语音特征重建方法及装置。
为解决上述技术问题,本发明的技术方案所提供的一种语音特征重建方法,该方法包括:
基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
将第一有效语音信号转换为第一时频域特征;
根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;
将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明提供的一种语音特征重建方法,优点在于:通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
作为上述方法的一种改进,将第一有效语音信号转换为第一时频域特征,具体包括:
对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
采用上述进一步方案的有益效果是:通过对有效信号进行分帧和加窗处理,获取处理后的语音信号,然后对处理后的语音信号进行傅里叶变换,进而获取功率谱,对功率谱对对数,从而可以获取第一时频域特征。
作为上述方法的又一种改进,第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,具体包括:
利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
采用上述进一步方案的有益效果是:通过上述方式,可以通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,即通过分离出的语音信号推测出掩蔽信息。
作为上述方法的再一种改进,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征之前,方法还包括:
基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
采用上述进一步方案的有益效果是:为了将具有噪音的原始语音信号的所有语音特征提取成功,则需要利用最优深度神经网络模型,因此需要事先利用大量的样本数据对深度神经网络模型进行训练,继而获取最优深度神经网络模型。
作为上述方法的还一种改进,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,具体包括:
设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
采用上述进一步方案的有益效果是:通过对样本信号的权重系数进行不断重复的训练,最终获取最优权重系数。根据该最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值,确定当前深度神经网络模型为最优深度神经网络模型。
本发明的技术方案还提供了一种语音特征重建装置,该装置包括:
分离单元,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元,用于将第一有效语音信号转换为第一时频域特征;
处理单元,用于根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
语音特征构建单元,用于将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明提供的一种语音特征重建装置,优点在于:通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
作为上述方法进一步的改进,转换单元具体用于,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
采用上述进一步方案的有益效果是:通过对有效信号进行分帧和加窗处理,获取处理后的语音信号,然后对处理后的语音信号进行傅里叶变换,进而获取功率谱,对功率谱对对数,从而可以获取第一时频域特征。
作为上述方法的又一种改进,第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,处理单元具体用于,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
采用上述进一步方案的有益效果是:通过上述方式,可以通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵,即通过分离出的语音信号推测出掩蔽信息。
作为上述方法的再一种改进,分离单元还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
转换单元还用于,将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
处理单元还用于,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
语音特征构建单元还用于,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
采用上述进一步方案的有益效果是:为了将具有噪音的原始语音信号的所有语音特征提取成功,则需要利用最优深度神经网络模型,因此需要事先利用大量的样本数据对深度神经网络模型进行训练,继而获取最优深度神经网络模型。
作为上述方法的还一种改进,语音特征构建单元具体用于,设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
采用上述进一步方案的有益效果是:通过对样本信号的权重系数进行不断重复的训练,最终获取最优权重系数。根据该最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值,确定当前深度神经网络模型为最优深度神经网络模型。
附图说明
图1为本发明实施例提供的一种语音特征重建方法流程示意图;
图2为本发明实施例提供的另一种语音特征重建方法流程示意图;
图3将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征的示意图;
图4为具体的预训练和调优示意图;
图5为本发明实施例提供的一种语音特征重建装置结构示意图。
具体实施方式
以下结合实施例进一步说明本发明所提供的技术方案。
如图1所示,图1为本发明实施提供的一种语音特征重建方法流程示意图,该方法包括:
步骤110,基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号。
根据二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号的方式为现有技术,这两不做过多介绍。
步骤120,将第一有效语音信号转换为第一时频域特征。
步骤130,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。
具体的,预设的第一掩模矩阵的长度和第一时频域特征的长度相同。
步骤140,将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征。
步骤150,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
本发明实施例提供的一种语音特征重建方法,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
为进一步说明本发明实施例的技术方案,本发明实施例还提供了另一种语音特征重建方法,具体如图2所示,该方法包括:
步骤110,基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号。
根据二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号的方式为现有技术,这两不做过多介绍。
步骤120,将第一有效语音信号转换为第一时频域特征。
将第一有效语音信号转换为第一时频域特征时可以采用功率谱。可选的,可以采用如下步骤,利用功率谱,实现将第一有效语音信号转换为第一时频域特征。具体如下:
步骤1201,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号。
实际而言,有效语音信号时序的数字信号。即,本步骤为对时序的数字信号进行分帧和加窗处理,或聘请处理后的语音信号(数值信号)。
步骤1202,将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱。
具体的,对加窗后的信号进行快速傅里叶变换,对每个元素取平方,得到与处理后的信号对应的功率谱。
步骤1203,对功率谱取对数,获取第一时频域特征。
具体的,对功率谱取对数压缩动态范围,得到第一对数功率谱X,其中X为长为T,宽为F的矩阵。而这个对数功率谱实际就是第一时频域特征。
需要说明的是,这里采用的快速傅里叶变换为标准的数字信号处理技术,对数可以以10为底,也可以以其他自然数为底,不同的对数操作改变的是对数功率谱的动态范围,在后续步骤中有相应的处理,因此将不会影响整体效果。
步骤130,根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。
可选的,步骤130可以包括如下执行步骤:
步骤1301,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时。
如步骤1203中所介绍的,第一对数功率谱X长为T,宽为F的矩阵。而预先设定的第一掩模矩阵M的长度和宽度,均与第一对数功率谱X的长度和宽度相同。即预先设定的掩模矩阵M的长度为T,宽度为F。而且,预先设定的第一掩模矩阵M中的所有元素初始值均为0。
首先利用预设长度的滑动窗按照第一对数功率谱的长度轨迹,逐点滑动,这里的逐点实际可以理解为逐个元素滑动,并且从0时刻开始计时,滑动窗的宽度是与第一对数功率谱的宽度相同。
步骤1302,当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素。
具体的,可以设定滑动窗的长度为W,沿着矩阵X的长边逐点滑动滑动窗。当达到预设时刻t0时,则统计窗内的功率谱总和。具体功率谱总和公式如下所示:
其中,Et0为t0时刻滑动窗内的功率谱总和,t的取值范围为[t0,T-W+1],t0取值范围为[1,T-W+1],f为滑动窗的宽度,f的取值范围为[1,F]。
如设定门限因子α,则门限值为ρt0=αEt0。
步骤1303,当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。
具体的,当根据步骤1302遍历滑动窗内的每一个元素值时,其中的一个元素值大于预设阈值,也即是门限值ρt0,则设定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0。即:
当然,因为滑动窗时逐点滑动,那么,X中的元素必然有很多都是重复出现在滑动窗内的。而重复的元素在和其他不同元素组成滑动窗内的元素时,所计算出的功率总和必然是不同的,那么对于M矩阵中的对应位置元素的设定也会受到影响。为了去除这种影响,则可以按照如下方式计算:
步骤1304,当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值。其中,h为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
例如,X中某一位置元素重复出现3次,第一次出现时,M矩阵中对应位置元素设定值为1,第二次出现时,M矩阵中对应位置元素设定值为0,第三次出现时,M矩阵中对应位置元素设定值为1,那么,M矩阵中对应位置元素设定元素最终值为1/3。
通过上述方式,则可以推测出第一掩蔽信息的具体表达矩阵式。
需要说明的是,门限因子α取值在0到1之间,起到调节掩蔽比例的作用,由于输入是经过分离得到的语音信号,因而需要保留大部分能量,宜将α设置为较小值。
步骤140,将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征。
即将M与X拼接成长为T,宽为2F的矩阵,作为复合特征。图3为具体的拼接示意图。
步骤150,将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
进一步可选的,为了建立最优的深度神经网络模型,必然需要通过大量的样本数据对深度神经网络模型进行训练。
因此,该方法步骤150之前,该方法还可以包括步骤160至步骤190。
步骤160,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征。
步骤170,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵。
步骤180,将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征。
步骤190,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型。
其中,i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
实际上而言,步骤160到步骤180与上文所介绍的方法步骤相类似,因此这里不再赘述。
可选的,步骤190可以通过如下步骤实现:
步骤1901,设置深度神经网络的第一初始权重。
步骤1902,根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
步骤1903,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
步骤1904,根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
实际上,以上步骤可以分为预训练和调优两大步骤。
预训练:
按照高斯分布产生随机数作为深度神经网络的初始权重。然后利用训练数据的复合特征,由输入层向输出层,采用受限玻尔兹曼机的训练方式,对每一层的权重系数进行训练。具体地,当输入层与第一个隐含层之间的权重首先训练完成后,由输入特征和第一层权重得到输出值,作为第二个隐含层的输入特征,采用受限玻尔兹曼机的训练方式训练第一个隐含层与第二个隐含层之间的权重。如此重复下去,直到倒数第二个隐含层与最后一个隐含层之间的权重训练完成为止。
调优:
经过预训练得到的权重作为神经网络的初始权重,为神经网络增加一层作为最终的输出,相应增加最后一层隐藏层与输出层之间的权重系数,利用训练数据的复合特征以及对应的监督信息,采用误差反向传播算法,对所有的权重进行优化训练。具体地,首先根据当前权重值,计算出深度神经网络的输出与监督信息之间的误差,然后计算出误差对权重的梯度,最后根据梯度下降算法对权重进行更新。如此重复下去,直到深度神经网络的输出与监督信息之间的误差满足精度要求为止。
该过程为深度神经网络的常用训练流程,受限玻尔兹曼机已有标准操作步骤,按照高斯分布的随机初始化以及梯度下降算法都是通用的方法。针对本发明的实践,只需要安排输入的复合特征和相应的监督信息,不需要创造性劳动即可实现,因而不再详述深度神经网络的具体训练过程。图4为具体的预训练和调优示意图。
本发明实施例提供的一种语音特征重建方法,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
与上述方法相对应的,本发明实施例还提供了一种语音特征重建装置,该装置可以包括:分离单元501、转换单元502、处理单元503以及语音特征构建单元504。
其中,分离单元501,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元502,用于将第一有效语音信号转换为第一时频域特征;
处理单元503,用于根据第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将处理后的第一掩模矩阵与第一时频域特征进行拼接,构成第一复合特征;
语音特征构建单元504,用于将第一复合特征输入至预建立的最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。
可选的,转换单元502具体用于,对第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将处理后的语音信号进行傅里叶变换,获取与处理后的语音信号对应的功率谱;
对功率谱取对数,获取第一时频域特征。
进一步可选的,述第一时频域特征为第一对数功率谱,预设的第一掩模矩阵的长度和宽度,均与第一时频域特征的长度和宽度相同,处理单元503具体用于,利用预设长度的滑动窗按照第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中滑动窗的宽度与第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在预设时刻时的滑动窗内的第二对数功率谱的每个元素;
当确定滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为1,否则,确定第一掩模矩阵中与第k个元素位置相同的元素的元素值为0;
当第一对数功率谱中第h个元素重复出现在滑动窗内时,获取第h个元素每一次出现在滑动窗时,M矩阵中与第h个元素对应位置的元素的设定值,并计算所有M矩阵中与第h个元素对应位置的元素的设定值的平均值,作为M矩阵中与第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于滑动窗内的第二对数功率谱的元素总个数的正整数,第二对数功率谱为第一对数功率谱的一部分。
可选的,分离单元501还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
转换单元502还用于,将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将第i个样本语音信号转换为第三时频域特征;
处理单元503还用于,根据第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中预设的第二掩模矩阵的长度和第i个样本语音信号对应的第二时频域特征的长度相同,且预设的第二掩模矩阵中所有元素值均为0;
将第i个样本语音信号对应的处理后的第二掩模矩阵与第i个样本语音信号对应的第二时频域特征进行拼接,构成与第i个样本语音信号对应的第二复合特征;
语音特征构建单元504还用于,根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
进一步可选的,语音特征构建单元504具体用于,设置深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对神经网络每一层的权重系数进行训练,并获取神经网络每一层的权重系数;
根据第i个样本语音信号对应的第二复合特征以及第i个样本语音信号对应的第三时频域特征,分别对神经网络每一层的权重系数进行优化训练,获取神经网络每一层的最优权重系数;
根据神经网络每一层的最优权重系数,计算深度神经网络的输出值与第三时频域特征之间的误差,且误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
本发明实施例提供的语音特征重建装置中各功能单元所执行的功能均已在上述两个实施例所提供的语音特征重建方法中做了详细介绍,这里不做赘述。
本发明实施例提供的一种语音特征重建装置,通过第一时频域特征和预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵。即通过分离出的语音信号推测出掩蔽信息。利用深度神经网络模型,根据第一掩模矩阵和第一时频域特征进行拼接后,输入至最优深度神经网络模型中,重建与原始语音信号对应的所有语音特征。通过上述方式,可以实现语音信号缺失特征重建,尤其是恢复了被噪音遮蔽的语音成分,提升语音信号质量。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种语音特征重建方法,其特征在于,所述方法包括:
基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
将所述第一有效语音信号转换为第一时频域特征;具体包括:
对所述第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将所述处理后的语音信号进行傅里叶变换,获取与所述处理后的语音信号对应的功率谱;
对所述功率谱取对数,获取所述第一时频域特征;
所述第一时频域特征为第一对数功率谱X,X为长为T,宽为F的矩阵;预设的第一掩模矩阵M的长度和宽度,均与所述第一时频域特征的长度和宽度相同;
根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;具体包括:
利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素;
当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1,否则,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0;
当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时,M矩阵中与所述第h个元素对应位置的元素的设定值,并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值,作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数,所述第二对数功率谱为所述第一对数功率谱的一部分;
将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;
即将处理后的第一掩模矩阵M与第一对数功率谱X拼接成长为T,宽为2F的矩阵,作为第一复合特征;
将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。
2.如权利要求1所述的语音特征重建方法,其特征在于,所述将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征之前,所述方法还包括:
基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将所述第i个样本语音信号转换为第三时频域特征;
根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵;
将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接,构成与所述第i个样本语音信号对应的第二复合特征;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
3.如权利要求2所述的语音特征重建方法,其特征在于,根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,具体包括:
设置所述深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对所述神经网络每一层的权重系数进行训练,并获取所述神经网络每一层的权重系数;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,分别对所述神经网络每一层的权重系数进行优化训练,获取所述神经网络每一层的最优权重系数;
根据所述神经网络每一层的最优权重系数,计算所述深度神经网络的输出值与所述第三时频域特征之间的误差,且所述误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
4.一种语音特征重建装置,其特征在于,所述装置包括:
分离单元,用于基于二值掩蔽算法从待处理的原始语音信号中分离出第一有效语音信号;
转换单元,用于将所述第一有效语音信号转换为第一时频域特征;所述转换单元具体用于,对所述第一有效语音信号进行分帧和加窗处理,获取处理后的语音信号;
将所述处理后的语音信号进行傅里叶变换,获取与所述处理后的语音信号对应的功率谱;
对所述功率谱取对数,获取所述第一时频域特征;
处理单元,用于根据所述第一时频域特征以及预设长度的滑动窗,对预设的第一掩模矩阵进行处理,获取处理后的第一掩模矩阵;将所述处理后的第一掩模矩阵与所述第一时频域特征进行拼接,构成第一复合特征;
所述第一时频域特征为第一对数功率谱X,X为长为T,宽为F的矩阵,所述预设的第一掩模矩阵M的长度和宽度,均与所述第一时频域特征的长度和宽度相同,所述处理单元具体用于,利用预设长度的滑动窗按照所述第一对数功率谱的长度轨迹逐点滑动,并开始计时,其中所述滑动窗的宽度与所述第一对数功率谱的宽度相同;
当达到预设时刻时,遍历在所述预设时刻时的所述滑动窗内的第二对数功率谱的每个元素;
当确定所述滑动窗内的第二对数功率谱的第k个元素值是否大于预设阈值时,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为1,否则,确定所述第一掩模矩阵中与所述第k个元素位置相同的元素的元素值为0;
当所述第一对数功率谱中第h个元素重复出现在所述滑动窗内时,获取所述第h个元素每一次出现在滑动窗时,M矩阵中与所述第h个元素对应位置的元素的设定值,并计算所有所述M矩阵中与所述第h个元素对应位置的元素的设定值的平均值,作为所述M矩阵中与所述第h个元素对应位置的元素的最终元素值,其中k和h均为大于或者等于1,且小于或者等于所述滑动窗内的所述第二对数功率谱的元素总个数的正整数,所述第二对数功率谱为所述第一对数功率谱的一部分;
将处理后的第一掩模矩阵M与第一对数功率谱X拼接成长为T,宽为2F的矩阵,作为第一复合特征;
语音特征构建单元,用于将所述第一复合特征输入至预建立的最优深度神经网络模型中,重建与所述原始语音信号对应的所有语音特征。
5.如权利要求4所述的语音特征重建装置,其特征在于,所述分离单元还用于,基于二值掩蔽算法从至少两个样本语音信号中每一个样本语音信号中分离出与之对应的第二有效语音信号;
所述转换单元还用于,将第i个样本语音信号对应第二有效语音信号转换为第二时频域特征,以及将所述第i个样本语音信号转换为第三时频域特征;
所述处理单元还用于,根据所述第i个样本语音信号对应的第二时频域特征以及预设长度的滑动窗,对预设的第二掩模矩阵进行处理,获取处理后的第二掩模矩阵,其中所述预设的第二掩模矩阵的长度和所述第i个样本语音信号对应的第二时频域特征的长度相同,且所述预设的第二掩模矩阵中所有元素值均为0;
将所述第i个样本语音信号对应的处理后的第二掩模矩阵与所述第i个样本语音信号对应的第二时频域特征进行拼接,构成与所述第i个样本语音信号对应的第二复合特征;
所述语音特征构建单元还用于,根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,对深度神经网络模型进行训练,获取最优深度神经网络模型,其中i为大于或者等于2的正整数,且初始取值为1,i在相邻两次取值时,对应数值之间差值为1。
6.如权利要求5所述的语音特征重建装置,其特征在于,语音特征构建单元具体用于,设置所述深度神经网络的第一初始权重;
根据第i个样本语音信号对应的第二复合特征,采用受限玻尔兹曼机的训练方式,分别对所述神经网络每一层的权重系数进行训练,并获取所述神经网络每一层的权重系数;
根据所述第i个样本语音信号对应的第二复合特征以及所述第i个样本语音信号对应的第三时频域特征,分别对所述神经网络每一层的权重系数进行优化训练,获取所述神经网络每一层的最优权重系数;
根据所述神经网络每一层的最优权重系数,计算所述深度神经网络的输出值与所述第三时频域特征之间的误差,且所述误差小于预设阈值时,确定当前深度神经网络模型为最优深度神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065070.3A CN110070887B (zh) | 2018-01-23 | 2018-01-23 | 一种语音特征重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810065070.3A CN110070887B (zh) | 2018-01-23 | 2018-01-23 | 一种语音特征重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110070887A CN110070887A (zh) | 2019-07-30 |
CN110070887B true CN110070887B (zh) | 2021-04-09 |
Family
ID=67365408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810065070.3A Active CN110070887B (zh) | 2018-01-23 | 2018-01-23 | 一种语音特征重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110070887B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110634502B (zh) * | 2019-09-06 | 2022-02-11 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN111257589B (zh) * | 2020-01-20 | 2021-10-01 | 太原理工大学 | 一种基于crfid标签的风速测量方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
WO2017196929A1 (en) * | 2016-05-10 | 2017-11-16 | Google Llc | Audio processing with neural networks |
-
2018
- 2018-01-23 CN CN201810065070.3A patent/CN110070887B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096961A (zh) * | 2014-05-06 | 2015-11-25 | 华为技术有限公司 | 语音分离方法和装置 |
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
WO2017196929A1 (en) * | 2016-05-10 | 2017-11-16 | Google Llc | Audio processing with neural networks |
CN106847302A (zh) * | 2017-02-17 | 2017-06-13 | 大连理工大学 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Non-Patent Citations (3)
Title |
---|
《Improvement of mask-based speech source separation using DNN》;Ge Zhan et al.;《ISCSLP 2016》;20161020;第1-5页 * |
《一种丢失语音信包重建的新算法》;魏维等;《2005年通信理论与信号处理年会》;20050630;第363-367页 * |
《利用结构特征的语音压缩感知 重建算法》;贾晓立等;《上海交通大学学报》;20170930;第51卷(第9期);第1111-1116页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110070887A (zh) | 2019-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110867181B (zh) | 基于scnn和tcnn联合估计的多目标语音增强方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
Liu et al. | Deep CASA for talker-independent monaural speech separation | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110070887B (zh) | 一种语音特征重建方法及装置 | |
CN111239565B (zh) | 基于分层式去噪模型的充油套管局部放电脉冲信号处理方法及系统 | |
CN114283829B (zh) | 一种基于动态门控卷积循环网络的语音增强方法 | |
CN110970044B (zh) | 一种面向语音识别的语音增强方法 | |
CN113963713A (zh) | 音频降噪方法及装置 | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Saleem et al. | Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence | |
Zhang et al. | FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network | |
CN114401168B (zh) | 适用复杂强噪声环境下短波莫尔斯信号的语音增强方法 | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN113066483B (zh) | 一种基于稀疏连续约束的生成对抗网络语音增强方法 | |
CN115497492A (zh) | 一种基于全卷积神经网络的实时语音增强方法 | |
Heitkaemper et al. | Neural network based carrier frequency offset estimation from speech transmitted over high frequency channels | |
CN112233693A (zh) | 一种音质评估方法、装置和设备 | |
CN114842863B (zh) | 一种基于多分支-动态合并网络的信号增强方法 | |
CN116312582A (zh) | 基于变分自编码网络双向化损失函数的语音转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |