CN114175152A - 用于增强劣化音频信号的系统和方法 - Google Patents
用于增强劣化音频信号的系统和方法 Download PDFInfo
- Publication number
- CN114175152A CN114175152A CN202080054701.7A CN202080054701A CN114175152A CN 114175152 A CN114175152 A CN 114175152A CN 202080054701 A CN202080054701 A CN 202080054701A CN 114175152 A CN114175152 A CN 114175152A
- Authority
- CN
- China
- Prior art keywords
- features
- audio signal
- frequency
- gain
- mlm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 313
- 238000000034 method Methods 0.000 title claims abstract description 141
- 230000002708 enhancing effect Effects 0.000 title claims description 28
- 238000012549 training Methods 0.000 claims abstract description 106
- 238000010801 machine learning Methods 0.000 claims abstract description 21
- 238000009826 distribution Methods 0.000 claims description 72
- 238000001228 spectrum Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 40
- 238000007781 pre-processing Methods 0.000 claims description 32
- 238000012885 constant function Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 description 15
- 230000003595 spectral effect Effects 0.000 description 15
- 239000013598 vector Substances 0.000 description 11
- 230000004913 activation Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000003416 augmentation Effects 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000001629 suppression Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002203 pretreatment Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 206010035148 Plague Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本公开涉及音频增强领域,尤其涉及用于机器学习模型MLM的监督训练的方法、设备和软件,MLM被训练成通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号。本公开还涉及用于这种被训练的MLM的使用的方法、设备和软件。
Description
相关应用的交叉引用
本申请要求2019年8月1日提交的PCT专利申请第PCT/CN2019/098896号、2019年8月21日提交的美国临时专利申请第62/889,748号和2019年11月27日提交的欧洲专利申请第19211731.5号的优先权,这些中的每一个通过引用而全文并入此。
技术领域
本公开涉及音频增强领域,尤其涉及用于机器学习模型MLM的监督训练的方法、设备和软件,MLM被训练成通过计算将被应用于劣化音频信号的频带的增益来增强劣化音频信号。本公开还涉及用于这种被训练的MLM的使用方法、设备和软件。
背景技术
音频信号在被收听之前可以经过各种压缩、转码和处理步骤。这可能导致用户的收听体验降低,其中播放的音频信号的音频质量不令人满意。例如,电话会议服务提供商可能会发现,在电话会议服务接收到音频信号之前,音频质量有显著劣化。例如,移动电话会话可能常常具有GSM编码的语音,该语音在被电话会议服务提供商接收到之前被转码为G.711。
该音频信号因此可以被称为劣化音频信号,并且可以有利地执行这种信号的增强,以减少编解码器伪像并改善收听体验。
这里讨论的劣化音频信号的增强面临三个主要挑战。第一个困难是,在接收到音频信号以对其进行增强之前,可以对其应用各种编码/转码,而这对于增强系统来说往往是未知的。因此,用于增强的算法被期望处理各种编解码器链。另一个问题是,除了由编码/转码导致的失真之外,劣化音频信号中通常还有噪声和混响。第三个困难是,因为算法可以在端点实现,和/或需要实时处理增强,所以算法的复杂性可能是一个问题,并且有利地保持较低。
因此,在此上下文中存在改进需求。
发明内容
鉴于以上所述,因此本发明的目的是克服或减轻上述问题中的至少一些。特别地,本公开的一个目的是提供一种用于增强劣化音频信号的低复杂度方法,其中该方法对于劣化音频信号中的失真的原因是鲁棒的。对于本公开的读者来说,本发明的进一步的和/或替代的目的将是清楚的。
根据本发明的第一方面,提供了一种用于机器学习模型MLM的监督训练的方法,该MLM被训练为通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号。该方法包括以下步骤:
接收用于MLM的训练的劣化音频信号和干净音频信号;
从接收到的劣化音频信号中提取第一组特征,从接收到的干净音频信号中提取第二组特征,各特征对应于相应的接收到的音频信号的频带;
将所述第一组特征中的每个特征与所述第二组特征中的对应特征进行比较以导出一组增益,每个增益对应于所述第一组特征中的相应特征,并且在训练所述MLM时被用作真值;
使用所述第一组特征和所导出的该组增益作为用于训练MLM的训练集。
在本方法中,通过以下中的至少之一来减少被训练的MLM中的过度抑制:
在导出该组增益之前执行的预处理步骤,其中预处理步骤包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本上等于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
在本说明书的上下文中,术语“过度抑制”应该理解为当增强劣化音频信号(例如,减少转码伪像或去除噪声等时),劣化音频信号的一些频带可能被衰减,而不是被放大,或者被衰减比所需程度更高的程度。有利地应该避免这种情况以改善增强音频信号的收听体验。
在本说明书的上下文中,术语“干净音频信号”应该理解为没有或几乎没有降低音频质量的缺陷的音频信号。干净音频信号可以使用高端工作室录制,或者以其他方式录制以具有高质量。
在本说明书的上下文中,术语“劣化音频信号”应该理解为具有诸如编码伪像(由于例如压缩导致)、噪声、混响等会对音频质量产生负面影响的伪像的音频信号。
发明人已经认识到,音频质量劣化的不同原因导致常规的信号处理方法可能不适合于对劣化进行建模。为了使用于增强劣化音频信号的算法对不同的失真原因鲁棒并提高感知质量,如本文所定义的,实现并训练机器学习模型MLM。通过接收干净音频信号(没有失真/具有很少失真)和对应的劣化音频信号(有失真)来训练MLM。从这些音频信号中,从接收的劣化音频信号中提取第一组特征,从接收的干净音频信号中提取第二组特征。每个特征对应于相应的所接收的音频信号的频带。通过将第一组特征的每个特征与第二组特征的对应特征进行比较来导出用于多个频带的增益。第一组特征和增益被输入到MLM,并用于训练MLM。
这些增益因此被用作参考,或作为真值。有利地,通过在训练MLM时使用第一组特征和增益集作为输入/输出,而不是使用劣化音频信号和干净音频信号的脉冲编码调制PCM值作为输入/输出,增强过程中意外错误的风险被降低。如本文所述,使用增益和第一组特征有助于鲁棒地训练MLM。
通过实现以下中的至少一个来避免增强信号中(在一个或多个频带的音频中)的过度抑制:
1)一种预处理方法,用于最小化干净音频和劣化音频的频率能量分布的差异,例如解决音色质量问题(高/低频部分中的过度抑制)或其他类型的过度抑制问题;
2)带有过度抑制惩罚的MLM的损失函数,即惩罚过度抑制更多的损失函数。
为此,该方法有助于通过以下中至少之一来减少被训练的MLM中的过度抑制:
在导出该组增益之前执行的预处理步骤,其中预处理步骤包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本上等于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
干净音频信号和劣化音频信号的频率能量分布往往不同。如果分布不同,这可能会导致过度抑制。例如,如果在干净音频信号中能量倾向于从低频到高频降低,但是对于劣化音频信号,频率能量分布更加平衡(不像干净音频信号降低那么多),这可能导致高频中过度抑制。通过采用这里描述的预处理步骤,可以避免这种过度抑制。
使用MLM(其可能是固有地难以控制和管理细节),训练可能会导致过度抑制。为了避免这种情况,可以定义损失函数,该损失函数具体地被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
根据一些实施例,仅使用预处理步骤和定义的MLM的损失函数之一来减少过度抑制。在其他实施例中,采用预处理步骤和定义的MLM的损失函数两者。本方法的优点是灵活,并且可以根据上下文和例如可用的计算资源、可用的训练数据等不同地处理过度抑制。
根据一些实施例,根据训练集的特征的频带进一步加权损失函数,使得对应于相对较高频带的特征的误差被用相对较高的权重加权。由于编解码器引起的失真更可能发生在高频,这使得避免在这种频带中的过度抑制变得更加重要。例如,与对应于低于6kHz的频带的特征的误差相比,对应于超过6kHz的频带的特征的误差被用更高的权重加权。根据上下文,可以使用其他阈值频率。在一些实施例中,基于根据心理声学模型的感知重要性,对应于在两个阈值频率之间的或高于或低于阈值频率的频带的特征的误差被用相对较高的权重加权。
根据一些实施例,通过将所接收的劣化音频信号和干净音频信号转换到频域来提取第一组特征和第二组特征。例如,可以使用来自以下列表中的一个来执行所述转换:短时傅立叶变换SFTF、修正离散余弦变换MDCT、和移位离散频率变换MDXT。
为了降低计算复杂度,和/或提高质量,由转换到频带产生的复特征(例如,DCT分量)可以被带化(在频带内组合)。为此,通过对于多个频带中的每个频带,对于该频带的频率仓(frequency bin),将对应于频率仓的各音频信号的频域表示的复特征组合成对应于该频带的单个特征,来提取第一组特征和第二组特征。
在一些实施例中,第一组特征和第二组特征中的特征对应于梅尔(Mel)频带功率、巴克标度频带功率、对数频带功率或ERB频带功率。
换句话说,根据一些实施例,通过以下方式提取第一组特征和第二组特征:
将所接收的劣化音频信号和干净音频信号转换到频域,
对于多个频带中的每个频带j
将劣化音频信号的频域表示的频率分量组合成对应于频带的特征f1,j,并将log(f1,j)添加到第一组特征;
将干净音频信号的频域表示的频率分量组合成对应于频带的特征f2,j,并将log(f2,j)添加到第二组特征。
在一些实施例中,将劣化音频信号的频域表示的频率分量组合成特征f1,j的步骤包括用不同的权重来加权频率分量。
根据一些实施例,多个频带在梅尔频率上等距分布。因此,与使用线性间隔的频带相比,所提取的特征可以有利地更接近地近似于人类听觉系统的响应。
根据一些实施例,第一组特征和第二组特征是通过组合从相应音频信号的多个音频帧中提取的特征而被提取的。有利的是,MLM可以获得更多的输入数据来进行工作。
根据一些实施例,所提取的第一组特征和第二组特征在用于导出该组增益之前被进一步归一化。有利的是,被训练的MLM可能对不同声学场景中不同麦克风引起的语音水平和均衡中的差异不太敏感。
根据一些实施例,预处理步骤包括将第二组特征的频率能量分布平衡化为在所接收的干净音频信号的整个频带上基本均匀地分布。在一些实施例中,特别是在音频会议服务的上下文中,劣化音频信号的频率能量分布可以更平衡,或者不像干净音频信号典型的那样减少那么多。因此,可以平衡化第二组特征的频率能量分布,以避免过度抑制。与将第一组特征的频率能量分布调整为更类似于干净音频信号的频率能量形状相比,平衡化频率能量分布在计算上可以更不复杂。
根据一些实施例,预处理包括:将多项式曲线拟合到第二组特征,基于多项式曲线和常数函数之间的差定义滤波器,并且将滤波器应用于第二组特征。有利地,这是用于调整频率能量分布以使得第一组特征的频率能量分布基本上等于第二组特征的频率能量分布的低复杂度实施例。
根据一些实施例,仅当第二组特征的频率能量分布的形状满足某些要求时,才进行第二组特征的频率能量分布的调整。因此,避免了不必要的调整,并且可以节省计算资源。为此,在这些实施例中,预处理包括:
将多项式曲线拟合到第二组特征,
计算多项式曲线的最小值和最大值之间的差值,
在确定差值超过阈值时:基于多项式曲线和常数函数之间的差定义滤波器,并且将滤波器应用于第二组特征。所述阈值可对应于在所接收的干净音频信号的整个频带上所述第二组特征的频率能量分布的3dB差异。
根据一些实施例,常数函数的值被设置为多项式曲线的最大值。在其他实施例中,选择平均值。
根据一些实施例,多项式曲线是以下列表中的一种:线性曲线、二次曲线和三次曲线。
在一些实施例中,使用MLM的损失函数来避免过度抑制。因此,在一些实施例中,损失函数被配置为通过以下方式对低于真值增益的预测增益比高于真值增益的预测增益进行更多惩罚:将预测增益和真值之间的距离度量乘以权重,在预测增益低于真值增益、以及预测的增益是负的时该权重相对较高,在预测增益高于或等于真值增益、或预测增益为正时该权重相对较低。
在一些实施例中,相对较高权重和相对较低权重之间的比率在3-7之间。在一些实施例中,相对较高权重和相对较低权重之间的比率是5。
为了进一步提高MLM训练的鲁棒性,根据一些实施例,该方法还包括向第一组特征和第二组特征添加人工特征对,其中人工特征对包括添加到所述第一组特征的第一特征和添加到所述第二组特征的第二特征,所述第一特征和第二特征具有相同的值并且对应于同一频带。
为了进一步提高MLM训练的鲁棒性,根据一些实施例,噪声被添加到第一组特征。当训练MLM时,噪声可以仅针对第一阈值数量的代被添加。因此,在整个MLM训练期间,同一对劣化音频信号和对应的干净音频信号可能对于相同频带导致稍微不同的增益,从而有助于稳健的MLM,减少了用于训练的音频信号的数量。
根据一些实施例,从所接收的干净音频信号生成所接收的劣化音频信号。因此,同一干净音频信号可以用于产生多个劣化音频信号,模拟不同的转码链。因而,训练MLM可需要减少数量的干净音频信号。
根据一些实施例,劣化音频信号的生成包括对干净音频信号应用至少一个编解码器。
根据一些实施例,至少一个编解码器包括语音编解码器。因此,针对电话会议系统训练的MLM可以被有利地训练。
根据一些实施例,该方法还包括以下步骤:在将第一组特征的每个特征与第二组特征的对应特征进行比较以导出一组增益之前,调整所述第一组特征和/或所述第二组特征,其中所述调整包括在所述MLM的训练循环中的每一通训练、每一代训练和/或每一小批量训练期间使用不同的调整参数。有利地,可以增加被训练的MLM的鲁棒性,并且可以避免或减少MLM的训练过程的过拟合问题。
根据一些实施例,从多个概率分布中提取调整参数。有利的是,鲁棒性可以进一步提高。
根据一些实施例,第一组特征的调整包括以下列表中的至少一个:添加固定频谱平稳噪声、添加可变频谱平稳噪声、添加混响、添加非平稳噪声、添加模拟回声残差、模拟麦克风均衡、模拟麦克风关断、以及改变宽带水平。
根据一些实施例,劣化音频信号的生成包括对干净音频信号应用中间参考系统(IRS)滤波器。
根据一些实施例,劣化音频信号的生成包括对干净音频信号应用低通滤波器。
根据一些实施例,劣化音频信号的生成包括将所生成的劣化音频信号与窄带脉冲响应卷积。因此,可以有利地模拟劣化音频信号中的混响。
根据一些实施例,MLM是以下列表中的一个:人工神经网络ANN、决策树、支持向量机、混合模型和贝叶斯网络。ANN可以是深度神经网络DNN、浅层神经网络、卷积神经网络CNN等。混合模型可以是高斯混合模型。贝叶斯网络可以是隐马尔可夫模型HMM。
在本发明的第二方面,提供了一种被配置用于机器学习模型MLM的监督训练的设备,MLM被训练成通过计算将被应用于劣化音频信号的频带的增益来减少劣化音频信号中的编解码器伪像,该设备包括被配置成执行根据第一方面的任何实施例的方法的电路。
在本发明的第三方面,提供了一种计算机程序产品,包括具有指令的非暂时性计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时实行第一方面的方法。
第二和第三方面总体上可以具有与第一方面相同的特征和优点。
根据本发明的第四方面,提供了一种用于增强劣化音频信号的方法,包括以下步骤:
接收劣化音频信号;
从所接收的劣化音频信号中提取第一组特征;
将所提取的第一组特征输入到根据第一方面的任何实施例训练的机器学习模型MLM中;和
使用来自MLM的输出增益来增强所接收的劣化音频信号
该增强可以包括减少所接收的劣化音频信号的编码伪像。
第一组特征有利地以与从MLM训练中使用的劣化音频信号中提取特征相同的方式被提取,不包括任何噪声添加。
根据一些实施例,该方法还包括在使用输出增益来减少所接收的劣化音频信号的编码伪像之前对输出增益进行后处理的步骤。后处理可以有利地有助于输出增益在合理的范围内。
例如,后处理包括以下至少一项:
-将输出增益的范围限制在预定范围内;
-限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的前一音频帧的频带的增益之间的差值;以及
-限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的该音频帧或另一音频帧的相邻频带的增益之间的差值。
根据一些实施例,劣化音频信号是公共交换电话网PSTN呼叫,其中提取第一组特征并将所提取的第一组特征输入到被训练的MLM中的步骤是针对PSTN呼叫的至少一个音频帧执行的。根据一些实施例,每个音频帧用于产生增益。根据一些实施例,每第N个音频帧用于产生增益。在这些实施例中,使用来自已确定其增益的前一音频帧的增益来增强中间帧。
该设备可以实时增强劣化音频信号,即劣化音频信号可以被流式传输到该设备。在其他实施例中,该设备增强由该设备接收的所记录的音频信号。
根据一些实施例,该方法在用于增强传入的音频信号的音频会议系统的端点中实现。
根据一些实施例,该方法在音频会议系统的服务器中实现,用于在传入的音频信号被传输到端点之前增强传入的音频信号。
在本发明的第五方面,提供了一种被配置用于增强劣化音频信号的设备,该设备包括被配置为执行根据第四方面的任何实施例的方法的电路。
在本发明的第六方面,提供了一种计算机程序产品,包括具有指令的非暂时性计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时实行第四方面的方法。
还应注意,本发明涉及所有可能的特征组合,除非另有明确说明。
附图说明
参考附图,通过本发明优选实施例的以下说明性和非限制性详细描述,将更好地理解本发明的上述以及附加目的、特征和优点,其中相同的附图标记将用于相似的元件,其中:
图1示出了根据一些实施例的用于机器学习模型MLM的监督训练的方法,
图2示出了根据一些实施例的用于将第二组特征的频率能量分布平衡化为基本均匀分布的方法,
图3示出了根据一些实施例的被配置用于机器学习模型MLM的监督训练的设备,
图4示出了使用如图1所述训练的MLM来增强劣化音频信号的方法,
图5示出了被配置用于使用如图1所述训练的MLM来增强劣化音频信号的设备,
图6示出了根据一些实施例的用于机器学习模型MLM的多风格训练的设备,
图7是示出根据一些实施例的固定频谱平稳噪声添加(扩充)的示例的图,并且
图8是示出根据一些实施例的麦克风均衡增强的示例的图。
具体实施方式
将参考附图在下文中更全面地描述本发明,在附图中示出了本发明的实施例。这里公开的系统和设备将在操作期间被描述。
本公开总体上涉及增强音频信号的问题。如上所述,由于例如由音频信号的编码和/或转码引起的伪像,以及由于在音频信号的记录和/或传输期间添加到音频信号的噪声,音频信号的质量可能会劣化。在下文中,劣化音频信号有时被示例为公共交换电话网PSTN呼叫。然而,这仅仅是作为示例,并且这里描述的方法和系统可以用于增强任何其他合适类型的音频信号的质量,例如网络电话信号(VoIP)、流媒体中的音频、或者音频的模拟或数字记录。
如本文所述,通过训练机器学习模型MLM有助于劣化音频信号的增强。MLM可以由以下列表中的一个来体现:人工神经网络ANN、决策树、支持向量机SVM、混合模型、和贝叶斯网络。ANN可以是深度神经网络DNN、卷积神经网络CNN、浅层神经网络、或任何其他合适类型的ANN。在下文中,当描述本发明时使用DNN作为例子。
图1以示例的方式示出了用于机器学习模型MLM的监督训练的方法100,以通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号。现在将结合图2和3描述该方法的不同实施例。
方法100包括接收劣化音频信号308和干净音频信号310,以便用于MLM的训练。劣化音频信号308和干净音频信号310因此由设备301接收,设备301被配置为训练MLM,以通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号。设备301包括电路,该电路例如为一个或多个处理器的形式,被配置为接收劣化音频信号308和干净音频信号310。
在一个实施例中,劣化音频信号308是在劣化音频创建器单元312中由干净音频信号310生成的。劣化音频创建器单元312可以是与增强设备301相同的设备300的一部分,或者可以是与增强设备301分离并且有线或无线连接到增强设备301的设备。劣化音频创建器可以使用一个或多个处理器来实现。现在将描述劣化音频创建器单元312的功能。
劣化音频创建器单元312可以被视为体现了多个模拟转码链。劣化音频创建器单元312接收干净音频信号310,并输出一个或多个劣化音频信号308。有利的是,一个干净音频信号可以产生多个干净-劣化音频信号对,其中输入的干净音频信号310是每对的一部分,并且每对中的劣化音频信号308包括不同类型的伪像。
劣化音频创建器单元312中的每个模拟转码链包含一系列编解码器和滤波器。例如,劣化音频信号的生成可以包括将至少一个编解码器(例如,语音编解码器)应用于干净音频信号。劣化音频信号的生成可替代地或附加地可包括将中间参考系统(IRS)滤波器应用于干净音频信号。劣化音频信号的生成可替代地或附加地可包括将低通滤波器应用于干净音频信号。
下面是转码链的11个例子,它们已被证明对于文中描述的MLM训练是有利的。11个转码链的细节如下:
(1)干净音频信号→低通滤波器&IRS8→AMR-NB(5.1)→G.711→VSV→劣化音频信号,
(2)干净音频信号→低通滤波器&IRS8→AMR-NB(12.20)→G.711→劣化音频信号,
(3)干净音频信号→低通滤波器&IRS8→G.729→G.729(延迟12个样本)→G.711→VSV→劣化音频信号,
(4)干净音频信号→低通滤波器&IRS8→动态范围压缩→Opus窄带(6Kbps)→G.711→VSV→劣化音频信号,
(5)干净音频信号→低通滤波器&IRS8→Opus窄带(6kbps)→AMR-NB(6.70)→G.711→VSV→劣化音频信号,
(6)干净音频信号→低通滤波器&IRS8→动态范围压缩→AMR-NB(6.70)→G.711→VSV→劣化音频信号,
(7)干净音频信号→低通滤波器&IRS 8→AMR-NB(5.1)→MNRU→g.711→VSV(MOS=3.0)→劣化音频信号,
(8)干净音频信号→低通滤波器&IRS 8→AMR-NB(5.1)→MNRU→g.711→VSV(MOS=2.5)→劣化音频信号
(9)干净音频信号→低通滤波器&IRS8→CVSD→动态范围压缩→AMR-NB→G.711(在蓝牙上模拟GSM手机)→VSV→劣化音频信号,
(10)干净音频信号→低通滤波器&IRS8→iLBC→G.711(模拟iLBC SIP卡车)→VSV→劣化音频信号,
(11)干净音频信号→低通滤波器&IRS8→speex→G.711(模拟speex SIP轨道)→VSV→劣化音频信号。
在用于训练MLM之前,从11个转码链输出的劣化音频信号可以进一步与窄带脉冲响应卷积以模拟混响。
取决于上下文和要求,动态范围压缩可以由任何合适的压缩器来执行。例如,动态范围可以用来模仿PSTN转码链中的压缩。
现在回到图1。在接收到劣化音频信号308和干净音频信号310之后,方法100包括从所接收的劣化音频信号308提取S104第一组特征,以及从所接收的干净音频信号310提取S106第二组特征。第一组特征和第二组特征中的每个特征对应于相应的所接收的音频信号308、310的频带。
现在将描述特征提取S104、S106的实施例。
所接收的劣化音频信号308和干净音频信号310被转换到频域。频域是指音频信号相对于频率而不是时间的分析。对于转换,可采用任何合适的数学变换(傅立叶变换、小波变换等)。有利的例子包括短时傅立叶变换SFTF、修正离散余弦变换MDCT、和移位离散频率变换MDXT。使用MDXT而不是MDCT或DFT的一个原因是,它提供了MDCT的能量聚集特性和类似于DFT的相位信息。
第一组特征和第二组特征中的特征有利地是带化特征,这意味着特征对应于频带而不是频率仓。这将降低MLM训练的复杂度,因为较少的输入值将用于训练。
为此,根据一些实施例,对于多个频带中的每个频带,对于该频带的频率仓,通过将对应于频率仓的相应音频信号的频域表示的复特征组合成对应于该频带的单个特征,来提取第一组特征和第二组特征。复特征的组合可以包括计算仓的复值的绝对值。然后可以将组合值的对数添加到第一/第二组特征。在一些实施例中,第一组特征和第二组特征中的特征对应于梅尔频带功率、巴克标度频带功率、对数频带功率、或ERB频带功率。
换句话说,可以通过以下方式提取第一组特征和第二组特征:
将接收到的劣化音频信号和干净音频信号转换到频域,
对于多个频带中的每个频带j,
将劣化音频信号的频域表示的频率分量(即,对应于频带j的频率仓)组合成(如上所述)对应于频带的特征f1,j,并将log(f1,j)添加到第一组特征;
将干净音频信号的频域表示的频率分量(即,对应于频带j的频率仓)组合成(如上所述)对应于频带的特征f2,j,并将log(f2,j)添加到第二组特征。
在一些实施例中,将劣化/干净音频信号的频域表示的频率分量组合成特征包括用不同的权重对频率分量进行加权。
频带可以被确定为使得每个频带包括相同数量的仓(例如100、160、200、320等个仓)。
在一个实施例中,例如每10ms计算在梅尔频率中等间隔的多个谱带的功率对数(以下称为“logmelspec”值)。在一个实施例中,音频信号(干净的、劣化的)的最近5-20帧被使用,并且这些特征被“堆积”成扩展的230-460维特征向量(第一组特征和第二组特征)中。换句话说,通过组合从相应音频信号的多个音频帧中提取的特征来提取第一组特征和第二组特征。
现在将描述在多个分析帧上“堆积”的“logmelspec”特征的归一化方法。应当注意,该归一化方案完全是可选地被包括在本文所述的机器学习模型MLM的监督训练方法中。简而言之,可选的标准化技术为:
1)仅在堆积(例如,在音频信号的100-200毫秒时间窗口上)中的特征之中进行归一化。这意味着它有助于准确识别语音或检测特定词语(在语音识别系统中),即使是用户在之前从未听过的声学条件下突然开始说话。
2)将宏观尺度的谱形状与微观尺度的细节分开。这有助于创建对例如具有不同均衡曲线的麦克风或具有不同谱形状的房间脉冲响应鲁棒的系统。这也意味着该系统对背景噪声更加鲁棒。
3)适应特征中的权重(确定性)。这意味着系统可以从预处理系统(如回声抑制器、噪声抑制器和非线性波束形成系统)获取额外的输入,这样极大地有助于鲁棒性。
归一化方案包括下式。
y[f,t]=x[f,t]-L-s[f] ←205
其中,
S=C+ ←208
+表示摩尔-彭罗斯(Moore-Penrose)伪逆
注释:
·式200:在该步骤中,计算堆栈中所有帧的平均频谱。
·式201:在该步骤中,计算输入堆栈108中所有帧的平均水平(在该示例中,通过取所有频率上的频谱的平均值)。
·式202:在该步骤中,计算平均水平无关谱。
·式203:在该步骤中,对于少量倒谱dnabs,计算平均水平无关谱的平滑倒谱近似。除了对应于平坦基函数的倒谱分量之外的倒谱分量(通常,这意味着排除第一倒谱分量)被视为一组倒谱输出分量110B,其以便于语音识别器使用的格式总结了堆栈中音频数据的一般频谱形状。
·式204:在这个步骤中,平滑倒谱近似被变换回平滑频谱。
·式205:在该步骤中,通过从输入中移除平滑的平均频谱来计算归一化的频谱输出。
·x[f,t]是在过去特定时间t(在范围[1,T]内,索引1对应于最近的数据)和特定频带F(在范围[1,F]内)的未归一化输入特征。
·μ是所有帧[1,T]上平均化的频谱
·L是平均宽带水平。
·s[f]是c[b]的谱再合成,其是通过关于IDCT基矩阵S[f,b]取c的截断逆离散余弦变换(IDCT)而得到的。
·y[f,t]是归一化的输出特征
·b>1的c[b](即,不包括第一倒谱dnab)是倒谱输出特征
·归一化方案的输出包括对于[1,F]中f和[1,T]中的t的y[f,t],以及对于[2,B]中b的c[b]
·使用式206和207计算DCT基C[b,f]。
·IDCT基S[f,b]是通过取C[b,f]的摩尔-彭罗斯伪逆来计算的。
在一些实施例中,如果置信度加权w[f,t]对于每个输入特征x[f,t]可用,则时间上的均值(mμ)以及时间和频率上的均值(L)两者都可以被取为加权平均值。这提供了增加的噪声鲁棒性。在该扩展中,式200将被200A代替,式201将被式201A代替。
o 200A:
o 201A:
时间上的均值被实现为IIR(递归)均值,而不是FIR均值,示出为:μ[f,t]=αμ[f,t-1]+(1-α)x[f,t]。例如,α的值为0.96。
应指出,使用术语“倒谱”来表示logmelspec数据的离散余弦变换。为了得到对应于频谱项的倒谱项,通常会颠倒词语的一部分中的字符。例如,在倒频谱域中实现的滤波通常被称为“同态滤波”。因此,在这里把频谱带的倒谱等价称为“dnab”。
用于实现上述归一化方法的系统可以包括对着麦克风说话的扬声器。麦克风记录的音频信号被发送到模数转换器。脉码调制数据(PCM数据)可以被发送到数字预处理单元(例如可以包括回声抑制、噪声抑制、波束形成)。然后,PCM数据被用于特征提取,如上所述。例如,计算在梅尔频率空间中等宽的25个频带中的功率的对数,产生特征向量(例如,25个实数)。来自一个音频帧的特征然后被发送到堆积单元,该堆积单元具有历史缓冲器,并且将多个特征向量存储或“堆积”成时间和频率上的特征的二维阵列。例如,每10ms可以计算新的25个频带特征向量,并且堆积单元保持最近的10个这样的向量,从而其输出是特征历史的25(在频率上)×10(在时间上)的数组。随后,执行上文结合式201-208描述的归一化。归一化特征集包括:
-归一化特征的二维“堆栈”。这个二维数组通常具有与未归一化化特征堆栈相同的大小。
-描述特征堆栈中的总体平均频谱形状的少量倒谱特征。例如,这将包含2个实数。
然后,归一化特征集将被用于MLM的输入(可选地,被预处理以调节如本文所述的频率能量分布),MLM是例如深度神经网络(DNN)、卷积神经网络(CNN)或递归神经网络(RNN)。
再次回到图1。当已经提取了第一组特征和第二组特征S104、S106时,在一些实施例中,预处理被应用于该特征组。预处理适于调整第一和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本上等于第二组特征的频率能量分布。这样做是为了减少当被训练的MLM被用于增强劣化音频信号时某些频带的过度抑制。如上所述,劣化音频信号的编码/转码可能导致音色质量问题,其中例如,劣化音频信号308的高/低频带具有与干净音频信号310明显不同的频率能量分布。在其他实施例中,除了高频或低频部分之外的其他频带可能示出类似的问题。换句话说,劣化音频信号308和干净音频信号310的频率能量分布是不同的。
为了减轻这个问题,用于训练MLM的方法100可以包括预处理步骤S108,其调整第一和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本上等于第二组特征的频率能量分布。该调整可以应用于第一组特征,或第二组特征,或第一组特征和第二组特征。在下文中,以示例的方式描述第二组特征的预处理。
在一些实施例中,预处理包括将第二组特征的频率能量分布平衡化为在接收到的干净音频信号的整个频带上基本均匀地分布。这是可以做到的,因为对于干净音频信号310,能量趋向于从低频向高频降低。但是对于劣化音频信号308,频率能量可以更加平衡,或者不像干净音频信号310降低那么多。这意味着它们的频率能量形状是不同的,如果第一组特征和第二组特征被用来训练MLM,这可能导致高频中的过度抑制。这样的实施例在图2中示出。
第二组特征的频率能量分布的平衡化可以包括:将多项式曲线拟合S202到第二组特征,基于多项式曲线和常数函数之间的差定义S208滤波器,以及将滤波器应用于S210第二组特征。调整后的第二组特征然后可以用于计算S110训练增益(这将在下面进一步描述)。
在一些实施例中,第二组特征的频率能量分布仅在原始频率能量形状满足一些先决条件的情况下才被平衡化。例如,多项式曲线的最小值和最大值之间的差值可能需要超过阈值,例如3dB、5dB或任何其他合适的阈值。该阈值因此可以对应于例如第一组特征在所接收的干净音频信号310的整个频带上的频率能量分布的3dB差异。在这些实施例中,第二组特征的频率能量分布的平衡化可以包括:将多项式曲线拟合S202到第二组特征,计算S204多项式曲线的最小值和最大值之间的差值,在确定(在步骤S206中)差值超过阈值时,基于多项式曲线和常数函数之间的差值定义S208滤波器,以及将滤波器应用于S210第二组特征。调整后的第二组特征然后可以用于计算S110训练增益(这将在下面进一步描述)。在差值没有超过阈值的情况下(如在S206中确定的),第二组特征被原样用于计算S110训练增益(这将在下面进一步描述)。
多项式曲线可以是以下列表中的一个:线性曲线、二次曲线和三次曲线。
常量函数的值可以设置为多项式曲线的最大值、最小值或均值。
应当注意,在其他实施例中,可以使用如上所述的类似过程将第一组特征调整为与第二组特征更相似(在能量分布上)。
还应当注意,在一些实施例中,第一组特征和第二组特征两者都可以被调整以满足目标能量分布。这种目标能量分布可以基于例如不同频带的感知重要性。
再次回到图1。在一些实施例中,采用MLM的多风格训练S109。使用大量数据来训练MLM是有利的,并且数据需要是多种多样的,以确保被训练的MLM是鲁棒的。多风格训练是一种数据扩充方法,其用于使数据多样化。该步骤S109可以包括在第一和/或第二组特征(根据步骤S108调整或不调整)用于计算增益之前,将随机噪声添加到第一和/或第二组特征。在一些实施例中,噪声被添加到第一组特征。噪声可能限制于它所添加到的特征的值的5%、10%、20%等。在一些实施例中,相同量的噪声被添加到第一组特征和第二组特征的特征对(即,来自第一组特征的一个特征和第二组特征的涉及相同频带的对应特征),以模拟对应于该特征对的频带的能量水平的变化。在一些实施例中,当训练MLM时,仅针对第一阈值数量的代(epoch)添加噪声。
在一些实施例中,多风格训练包括在每一代训练(例如,训练循环的或者训练循环中的每一代、每一小批量和/或每一通)期间使用不同的调整/扩充参数,现在将结合图6描述这样的实施例。例如,这样的过程在每一通/代训练上在特征域中高效地添加不同的噪声和混响。这可提高诸如语音识别器、唤醒词检测器和噪声抑制器等语音技术在真实远场条件下工作的能力,而不会出现传统上困扰多风格训练方法的过度拟合问题。
在图6中,特征提取单元602接收劣化音频信号308和干净音频信号310。如上所述,特征提取单元从劣化音频信号308中提取第一组特征604,从干净音频信号310中提取第二组特征。
应当注意,为了简单起见,图6不包括调整第一和/或第二组特征的频率能量分布的可选特征,但是图6的多风格训练的这种扩展将意味着预处理单元将接收第一组特征604和第二组特征606,并如本文所述执行频率能量分布的调整。
第一组特征604和第二组特征606由实现多风格训练的数据扩充单元608接收(图1中的S109)。数据扩充单元608取得第一组特征604和第二组特征606,并通过对一组特征604、606应用扩充(例如,添加混响、添加平稳噪声、添加非平稳噪声、和/或添加模拟回声残差)来对其进行调整,从而生成扩充的一组特征604*、606*。数据扩充单元608可以对所接收的各组特征604、606中的一个或两者进行操作。应当注意,数据扩充单元608操作:
在特征域中。因此,作为深度学习训练过程的一部分,实现可以在GPU上快速有效地实现;和
在MLM 612的训练的通/代循环内,这意味着可以在MLM 612的每一代训练上选择不同的扩充条件(例如,不同的房间/混响模型、不同的噪声水平、不同的噪声频谱、不同的非平稳噪声或音乐残差模式)。
在不满足停止准则616的情况下(即,MLM 612的限定数目的训练代或MLM 612的收敛准则),数据扩充单元将再次扩充各组特征604、606,并且MLM 612将基于新扩充的一组或多组特征604*、606*来训练。在满足停止准则616的情况下,特征提取单元将对劣化音频信号308和干净音频信号310的下一个音频帧(如果有的话)进行操作,以继续MLM的训练。
数据扩充单元608可以在特征域中(对于第一和/或第二组特征604、606)执行的(使用调整参数)扩充的类型的示例包括(但不限于)以下内容:
固定频谱平稳噪声:对于干净和劣化的音频信号308、310中的每个对应话语,从分布(例如,均值为45dB、标准差为10dB的正态分布)中取得随机信噪比(SNR),并在输入语音信号以下的选定水平处施加具有固定频谱的平稳噪声(例如,白噪声、粉红噪声、霍斯噪声)。当输入特性是以dB为单位的频带功率时,添加噪声对应于取噪声功率和信号功率的分频带最大值。将参考图7描述固定频谱平稳噪声扩充的例子;
可变频谱平稳噪声:如固定频谱平稳噪声添加那样取得信噪比,并从分布中取得随机平稳噪声频谱(例如,以dB/倍频为单位的线性斜率值分布,对数梅尔频谱(倒频谱)的DCT值上的分布)。用选定的形状以选定的信噪比施加噪声;
非平稳噪声:添加在时间和/或频率上位于谱图中随机位置的噪声。例如,对于每个训练话语,取得十个矩形,每个矩形具有随机开始时间和结束时间、随机开始频带和结束频带、以及随机信噪比。在每个矩形内,以给定的信噪比添加噪声;
混响:取得混响模型(例如,具有随机RT60、平均自由程、和从声源到麦克风的距离)。将该混响模型应用于输入特征(例如,如美国临时专利申请第62/676,095号中所述);
模拟回声残差:为了模拟音乐通过回声消除器的泄漏(智能扬声器以及一些其他智能音频设备和其他设备必须在从它们的扬声器播放音乐时常规地识别入射到麦克风的语音,并且通常使用回声消除器或回声抑制器来部分消除回声),添加类似音乐的噪声。将参考下面列出的代码描述模拟回声残差扩充的例子;
麦克风均衡:语音识别系统常常需要在不完全知晓其麦克风硬件均衡特性的情况下运行。因此,在训练期间应用一系列麦克风均衡特性可能是有益的。例如,选择以dB/倍频计的随机麦克风倾斜(例如,相对于均值为0dB/倍频、标准偏差为1dB/倍频的正态分布),并应用具有响应的滤波器,该响应具有线性幅度响应。当特征域是对数(例如,dB)频带功率时,这可以对应于向每个频带添加以倍频计的偏移,该偏移与距某个参考频带的距离成比例。将参考图8描述麦克风均衡扩充的示例;
麦克风关断:另一个不一定提前知晓的麦克风频率响应特性是低频截止。例如,一个麦克风可以拾取低至200Hz的信号,而另一个麦克风可以拾取低至50Hz的语音。因此,通过应用随机低频截止(高通)滤波器来扩充输入特性可以提高一系列麦克风上的性能;和/或
水平:另一个参数是水平或音量增益,该参数可能因话筒和声学环境而异。例如,一些麦克风可能对其他麦克风更敏感,一些说话者可能坐得比其他说话者更靠近麦克风。此外,一些说话者可能比其他说话者说话更大声。因此,语音识别系统必须在一定的输入水平范围内处理语音。因此,在训练期间改变输入特征的水平可能是有益的。当特征是以dB为单位的频带功率时,这可以通过从分布(例如,[-20,+20]dB上的均匀分布)取得随机水平偏移并将该偏移添加到所有频带功率上来实现。
因此,使用上述策略中的一个或多个来导出调整/扩充参数。调整/扩充参数可以从一个或多个概率分布中得出。
将参照图7描述本发明的另一个实施例,其包括固定频谱平稳噪声扩充。图7是示出根据本发明实施例的固定频谱平稳噪声添加(扩充)的示例的图。图7的元素包括以下内容:
·210:噪声频谱示例;
·211A:示例频谱210的平坦部分。频谱210在参考频率fpeak以下是平坦的。fpeak的一个示例值是200Hz;
·211B:示例频谱210高于频率fpeak的部分。频谱210的部分211B以dB/倍频计以恒定斜率滚降。根据霍斯的实验(见Hoth,Daniel,The Journal of the Acoustical Societyof America 12,499(1941);https://doi.org/10.1121/1.1916129),代表真实房间中这种噪声滚降的典型均值是5dB/倍频;
·212:参考频率(fpeak),低于该频率,平均频谱被建模为平坦的;
·213:示例平均语音频谱214和示例等效噪声频谱215;
·214:一个训练话语上的示例平均语音频谱;
·215:等效噪声频谱。其是如下地形成的:将噪声频谱210偏移该等效噪声功率,使得等效噪声频谱215的所有频带上的平均功率等于平均语音频谱214的所有频带上的平均功率。等效噪声功率可通过以下公式计算:
xi是波段i的平均语音频谱,单位为分贝(dB),
ni是波段i的原型噪声频谱,单位为分贝(dB),以及
有N个频带;
·216:添加的噪声频谱。这是要添加到训练向量(在特征域中)的噪声频谱。它是通过将等效噪声频谱215按照信噪比下移而形成的,信噪比是从信噪比分布217得出的。一旦被创建,噪声谱216通过在每个时间-频率片中取噪声谱和信号频带功率的最大值而被添加到特征域中的训练向量的所有帧;和
·217:信噪比(SNR)分布。从分布217中为每一代/每一通中的每个训练向量取得信噪比。在该示例中,信噪比分布217是均值为45dB、标准偏差为10dB的正态分布。
将参照图8描述包括麦克风均衡扩充的本发明的另一实施例。图8的元素包括以下内容:
·220:示例麦克风均衡频谱(曲线,指示作为频率的函数的以dB为单位的功率)将被添加到一代训练/一通训练的一个训练向量的所有帧中。在这个例子中,麦克风均衡曲线220以dB/倍频计是线性的;
·221:(曲线220的)参考点。在对应于(即,包括)参考频率fref(例如,fref=1kHz)的频带中,功率(由均衡频谱220指示)为0dB;和
·222:在任意频率f处的曲线220的点。在点222,麦克风均衡曲线220具有增益“g”dB,其中对于以dB/倍频计的随机选择的倾斜T,g=T log2(f–fref)。例如,可以为每一代/每一通的每个训练向量取得T。
以下是参考下面的代码列表提供的模拟回声残差扩充的例子。代码列表(Julia编程语言)实现了音乐残差添加。在这个列表中:
·coef.fband是以Hz为单位的频带中心频率的矢量;
·coef.meandifflog_fband是均值(diff(log.(fband)));以及
·coef.dt_ms是以毫秒为单位的音频帧大小。
示例代码列表如下:
为了提高训练数据的鲁棒性,多风格训练S109可以进一步包括向第一组特征和第二组特征添加人工特征对,其中人工特征对包括添加到第一组特征的第一特征和添加到第二组特征的第二特征,第一和第二特征具有相同的值并且对应于相同的频带。
然后,第一组特征和第二组特征(通过处理和/或多风格训练被调整的,或原始的)被用于导出一组增益。这通过将第一组特征的每个特征与第二组特征的对应特征进行比较S110以导出一组增益来完成的,每个增益对应于第一组特征中的相应特征,并且在训练MLM时用作真值。该比较包括对于每个特征对,从第二组特征的特征值中减去第一组特征的特征值。
在一些实施例中,通过定义S111 MLM的损失函数来减少被训练的MLM中的过度抑制,该损失函数被配置为对低于真值增益的预测增益进行比高于真值增益的预测增益更多的惩罚。现在将描述该实施例。
在一些实施例中,损失函数被配置为通过将预测增益和真值增益之间的距离度量值乘以权重,对低于真值增益的预测增益进行比高于真值增益的预测增益更多的惩罚,在以下情况下增益相对较高:
-预测增益低于真值增益,并且
-预测的增益是负的,
在以下情况下增益相对较低:
-预测增益高于或等于真值增益,或
-预测增益为正。
相对较高权重和相对较低权重之间的比率可以在3-7之间,例如5。
在一个实施例中,损失函数的式子是:
(a)loss=w*|ypre-ytrue|2+|ypre-ytrue|
其中i是帧索引;j是频带索引;a是惩罚系数,根据实验,a=5可以得到最好的结果,但是根据上下文和要求,也可以使用其他值,ypre是来自MLM的预测增益,ytrue是真值增益。可以使用定义损失函数的其他合适的方式,其中对低于真值增益的预测增益进行比高于真值增益的预测增益更大的惩罚。例如,权重w可以与a)中的第二项相乘,或者与第一(L2)项和第二项之和相乘。
在一些实施例中,将另一个权重z添加到式子中,该权重取决于训练集的特征的频带j,使得对应于相对较高频带的特征的误差被用相对较高的权重来加权。损失函数的式子可以是
(a)loss=z*w*|ypre-ytrue|2+|ypre-ytrue|
其中,β>μ。
例如,与对应于低于6kHz的频带的特征的误差相比,对应于超过6kHz的频带的特征的误差被用更高的权重加权。
可以使用其他合适方式来定义损失函数,其中用相对较高的权重对对应于相对较高频带的特征的误差进行加权。例如,权重w可以与a)中的第二项相乘,或者与第一(L2)项和第二项之和相乘。
再次返回图1,方法100通过使用第一组特征和导出的增益集作为训练MLM的训练集继续。
如上所述,MLM可能是DNN。举例来说,现在将描述这种DNN的架构。这种结构已被证明对于出于文中所述的目的训练MLM的任务是有利的。DNN的结构可以是典型的前馈全连接深度神经网络。它可能有一个输入层、六个隐藏层和一个输出层。该架构可总结如下:
(1)层1:输入层,DNN节点的数量是320,包括例如堆叠在一起的8个帧带特征(如上所述),7个历史帧和一个当前帧(9个历史帧和一个当前帧,15个历史帧和一个当前帧,等等)。
(2)层2:隐藏层1,DNN节点数为320,激活函数为LeakyReLU。随后是批量归一化。
(3)层3:隐藏层2,DNN节点数为320,激活函数为LeakyReLU。随后是批量归一化。
(4)层4:隐藏层3,DNN节点数为160,激活函数为LeakyReLU。随后是批量归一化。
(5)层5:隐藏层4,DNN节点数为160,激活函数为LeakyReLU。随后是批量归一化。
(6)层6:隐藏层5,DNN节点数为80,激活函数为LeakyReLU。随后是批量归一化。
(7)层7:隐藏层6,DNN节点数为80,激活函数为LeakyReLU。随后是批量归一化。
(8)层8:输出层,DNN节点数为80,激活函数为LeakyReLU。
然而,可以采用其他层结构、激活函数等。
通过使用来自多于一个帧的第一组特征(以及对应的训练增益)作为DNN(或其他合适的MLM)的输入,网络获得更多的输入数据来工作。当在实时场景中使用训练的DNN来增强劣化的音频(下面将进一步描述)时,使用劣化音频信号中的当前音频帧以及例如7个历史帧(先前帧)来减少增强过程的时延可能是有利的。
如图3所示,设备301可以将被训练的MLM 306存储在存储器304中以备后用,或者将与被训练的MLM 306相关的数据发送到单独的设备以用于增强劣化音频信号。
图4示出了用于增强劣化音频信号的方法400,其将结合描述包括用于执行方法400的电路502的设备500的图5来描述。方法400包括以下步骤:接收S402劣化音频信号510;从接收到的劣化音频信号中提取第一组特征(S404);以及将提取的第一组特征输入S406到如上所述被训练的机器学习模型MLM 306。被训练的MLM 306可以由设备通过有线或无线传输接收,或者从存储器504接收。
方法400通过使用S410来自训练MLM 306的输出增益以用于增强所接收的劣化音频信号510而继续。
从劣化音频信号510中提取第一组特征的步骤S404可以如上所述结合MLM的训练来完成。根据一些实施例,对第一组特征执行零均值、1方差归一化(将第一组特征归一化为具有零均值和单位方差),这可以使MLM更快更容易收敛。
可选地,可以采用来自MLM的输出增益的后处理S410。后处理可以包括增益范围的限制和增益衰减控制。进行增益范围限制是为了确保输出增益在合理的范围内,这意味着劣化的特性不会改变太多,从而降低意外错误的风险。可以应用增益衰减控制来保持音频信号的连续性增强。为此,后处理包括以下中的至少一项:
-将输出增益的范围限制在预定范围内;
-限制所接收的劣化音频信号的音频帧的频带的增益和所接收的劣化音频信号的前一音频帧的频带的增益之间的差值,
-限制所接收的劣化音频信号的音频帧的频带的增益和所接收的劣化音频信号的音频帧或另一音频帧的相邻频带的增益之间的差值。
当从MLM接收到输出增益时,这些增益可以根据以下内容被应用于S412输入的劣化音频信号的频率表示。
首先,计算输出增益的10次方,从对数增益到频带增益。然后,执行频带反转以将频带增益反转为与频率仓相关的增益。然后,与频率仓相关的增益和劣化音频信号的频域表示的相应部分相乘,即,与频率仓相关的增益和MDXT/MDCT/STFT复特征相乘,以获得增强的MDXT/MDCT/STFT特征。最后,执行MDXT/MDCT/STFT逆变换以再次从频域到时域,并且最终结果是增强的音频信号,512。
根据一些实施例,劣化音频信号是公共交换电话网(PSTN)呼叫,其中提取第一组特征并将提取的第一组特征输入到被训练的MLM的步骤是针对PSTN呼叫的至少一个音频帧执行的。设备500因此可以用于在用户听到呼叫之前增强PSTN呼叫的音频质量。设备500可以适于处理离线记录和/或实时增强音频信号。
在一些实施例中,设备500是音频会议系统的端点的一部分,并且用于增强传入的音频信号(例如,PSTN呼叫)。
在一些实施例中,设备500是音频会议系统的服务器的端点的一部分,用于在传入的音频信号(例如,PSTN呼叫)被传输到端点之前增强该音频信号。
在研究了以上描述之后,本公开的进一步实施例对于本领域技术人员将变得显而易见。尽管本说明书和附图公开了实施例和示例,但是本公开不限于这些具体示例。在不脱离由所附权利要求限定的本公开的范围的情况下,可以进行许多修改和变型。权利要求中出现的任何附图标记不应被理解为限制其范围。
此外,通过研究附图、公开内容和所附权利要求,本领域技术人员在实践本公开内容时可以理解并实现所公开实施例的变型。在权利要求中,词语“包括”不排除其他元件或步骤,不定冠词“一个”不排除多个。在相互不同的从属权利要求中引用某些措施的事实并不表示这些措施的组合不能被有利地使用。
上文公开的系统和方法可以实现为软件、固件、硬件或其组合。例如,本申请的各方面可以至少部分地体现在包括多于一个设备的装置、系统、方法、计算机程序产品等中。在硬件实现中,上面描述中提到的功能单元之间的任务划分不一定对应于物理单元的划分;相反,一个物理组件可以具有多个功能,并且一个任务可以由几个物理组件协同执行。某些组件或所有组件可以实现为由数字信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这种软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员所熟知的,术语计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质,用于存储信息,例如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备,或可用于存储所需信息并可由计算机访问的任何其他介质。此外,如本领域技术人员公知的,通信介质通常在诸如载波或其他传输机制的调制数据信号中包含计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传输介质。
从以下的列举示例实施例(EEE)中可以理解本发明的各个方面:
EEE1.一种用于机器学习模型MLM的监督训练的方法,通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号,该方法包括以下步骤:
接收用于MLM的训练的劣化音频信号和干净音频信号;
从接收到的劣化音频信号中提取第一组特征,从接收到的干净音频信号中提取第二组特征,各特征对应于相应的接收到的音频信号的频带;
将所述第一组特征中的每个特征与所述第二组特征中的对应特征进行比较以导出一组增益,每个增益对应于所述第一组特征中的相应特征,并且在训练所述MLM时被用作真值;
使用所述第一组特征和所导出的该组增益作为用于训练MLM的训练集;
其中通过以下中的至少之一来减少训练的MLM中的过度抑制:
在导出该组增益之前执行的预处理步骤,其中预处理步骤包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本等于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
EEE 2.根据EEE1的方法,其中仅使用预处理步骤和定义的MLM损失函数之一来减少过度抑制。
EEE 3.根据EEE1的方法,其中使用预处理步骤和定义的MLM损失函数两者来减少过度抑制。
EEE 4.根据EEE1-3中任一项所述的方法,其中所述损失函数根据所述训练集的特征的频带被进一步加权,使得对应于相对较高频带的特征的误差被用相对较高的权重加权。
EEE 5.根据EEE4所述的方法,其中与对应于低于6kHz的频带的特征的误差相比,对应于超过6kHz的频带的特征的误差被用更高的权重加权。
EEE 6.根据EEE1-5中任一项所述的方法,其中,通过将所接收的劣化音频信号和干净音频信号转换到频域来提取第一组特征和第二组特征。
EEE 7.根据EEE6所述的方法,其中使用来自以下列表中的一个来执行所述转换:短时傅立叶变换SFTF、修正离散余弦变换MDCT、和移位离散频率变换MDXT。
EEE 8.根据EEE7所述的方法,其中,通过对于多个频带中的每个频带,对于该频带的频率仓,将对应于频率仓的各音频信号的频域表示的复特征组合成对应于该频带的单个特征,提取第一组特征和第二组特征。
EEE 9.根据EEE8的方法,其中第一组特征和第二组特征中的特征对应于梅尔频带功率、巴克标度频带功率、对数频带功率或ERB频带功率。
EEE 10.根据EEE1-9中任一项所述的方法,其中预处理步骤包括将第二组特征的频率能量分布平衡化为在所接收的干净音频信号的整个频带上基本均匀分布。
EEE 11.根据EEE10的方法,其中预处理包括:
将多项式曲线拟合到第二组特征,
基于多项式曲线和常数函数之间的差定义滤波器,
将滤波器应用于第二组特征。
EEE 12.根据EEE10的方法,其中预处理包括:
将多项式曲线拟合到第二组特征,
计算多项式曲线的最小值和最大值之间的差值,
在确定差值超过阈值时:
基于多项式曲线和常数函数之间的差定义滤波器,
将滤波器应用于第二组特征。
EEE 13.根据EEE12所述的方法,其中所述阈值对应于在所接收的干净音频信号的整个频带上所述第二组特征的频率能量分布中的3 dB差异。
EEE 14.根据EEE11-13中任一项所述的方法,其中常数函数的值被设置为多项式曲线的最大值。
EEE 15.根据EEE11-14中任一项所述的方法,其中所述多项式曲线是以下列表中的一种:线性曲线、二次曲线和三次曲线。
EEE 16.根据EEE1-15中任一项所述的方法,其中,所述损失函数被配置为通过以下方式对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚:
将预测增益和真值之间的距离度量乘以权重,在以下情况下该权重相对较高:
预测增益低于真值增益,并且
预测的增益是负的,
在以下情况下该权重相对较低:
预测增益高于或等于真值增益,或
预测增益为正。
EEE 17.根据EEE16的方法,其中相对较高的权重和相对较低的权重之间的比率在3-7之间。
EEE 18.根据EEE17所述的方法,其中相对较高权重和相对较低权重之间的比率为5。
EEE 19.根据EEE1-18中任一项所述的方法,其中所述第一组特征和第二组特征通过以下方式被提取:
将接收到的劣化音频信号和干净音频信号转换到频域,
对于多个频带中的每个频带j
将劣化音频信号的频域表示的频率分量组合成对应于频带的特征f1,j,并将log(f1,j)添加到第一组特征;
将干净音频信号的频域表示的频率分量组合成对应于频带的特征f2,j,并将log(f2,j)添加到第二组特征。
EEE 20.根据EEE19所述的方法,其中将劣化音频信号的频域表示的频率分量组合成特征f1,j的步骤包括用不同的权重来加权频率分量,其中将干净音频信号的频域表示的频率分量组合成特征f2,j的步骤包括用所述不同的权重来加权频率分量。
EEE 21.根据EEE19-20中任一项所述的方法,其中所述多个频带在梅尔频率上等距分布。
EEE 22.根据EEE21所述的方法,其中,第一组特征和第二组特征是通过组合从相应音频信号的多个音频帧中提取的特征而被提取的。
EEE 23.根据EEE22所述的方法,其中所提取的第一组特征和第二组特征在用于导出该组增益之前被进一步归一化。
EEE 24.根据EEE1-23中任一项所述的方法,还包括向所述第一组特征和第二组特征添加人工特征对,其中人工特征对包括添加到所述第一组特征的第一特征和添加到所述第二组特征的第二特征,所述第一特征和第二特征具有相同的值并且对应于同一频带。
EEE 25.根据EEE1-24中任一项所述的方法,还包括以下步骤:在将所述第一组特征的每个特征与所述第二组特征的对应特征进行比较以导出一组增益之前,向所述第一组特征添加噪声。
EEE 26.根据EEE25所述的方法,其中,当训练MLM时,仅对于第一阈值数量的代添加噪声。
EEE 27.根据EEE1-24中任一项所述的方法,还包括以下步骤:在将所述第一组特征的每个特征与所述第二组特征的对应特征进行比较以导出一组增益之前,调整所述第一组特征和/或所述第二组特征,其中所述调整包括在所述MLM的训练循环中的每一通训练、每一代训练和/或每一小批量训练期间使用不同的调整参数。
EEE 28.根据EEE27所述的方法,其中,所述调整参数被从多个概率分布中取得。
EEE 29.根据EEE27-28中任一项所述的方法,其中所述第一组特征的调整包括以下列表中的至少一个:添加固定频谱平稳噪声、添加可变频谱平稳噪声、添加混响、添加非平稳噪声、添加模拟回声残差、模拟麦克风均衡、模拟麦克风关断、以及改变宽带水平。
EEE 30.根据EEE1-29中任一项所述的方法,其中所接收的劣化音频信号是从所接收的干净音频信号生成的。
EEE 31.根据EEE30的方法,其中劣化音频信号的产生包括将至少一个编解码器应用于干净音频信号。
EEE 32.根据EEE31所述的方法,其中所述至少一个编解码器包括语音编解码器。
EEE 33.根据EEE30-32中任一项所述的方法,其中劣化音频信号的产生包括对干净音频信号应用中间参考系统IRS滤波器。
EEE 34.根据EEE30-33中任一项的方法,其中劣化音频信号的产生包括将低通滤波器应用于干净音频信号。
EEE 35.根据EEE30-34中任一项所述的方法,其中劣化音频信号的生成包括将生成的劣化音频信号与窄带脉冲响应卷积。
EEE 36.根据EEE1-35中任一项所述的方法,其中所述MLM是以下列表中的一个:人工神经网络、决策树、支持向量机、混合模型和贝叶斯网络。
EEE 37.一种用于增强劣化音频信号的方法,包括以下步骤:
接收劣化音频信号;
从接收的劣化音频信号中提取第一组特征;
将提取的第一组特征输入到根据EEE1-36中任一项训练的机器学习模型MLM中;和
使用来自MLM的输出增益来增强所接收的劣化音频信号。
EEE 38.根据EEE37所述的方法,还包括在使用增益来减少所接收的劣化音频信号的编码伪像之前对输出增益进行后处理的步骤。
EEE 39.根据EEE38所述的方法,其中所述后处理包括以下中的至少一项:
将输出增益的范围限制在预定范围内,
限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的前一音频帧的频带的增益之间的差值,以及
限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的该音频帧或另一音频帧的相邻频带的增益之间的差值。
EEE 40.根据EEE37-39中任一项所述的方法,其中劣化音频信号是公共交换电话网PSTN呼叫,其中提取第一组特征并将所提取的第一组特征输入到被训练的MLM中的步骤是针对PSTN呼叫的至少一个音频帧执行的。
EEE 41.根据EEE37-40中任一项所述的方法,该方法在音频会议系统的端点中实现以用于增强传入的音频信号。
EEE 42.根据EEE37-41中任一项所述的方法,该方法在音频会议系统的服务器中实现,用于在传入的音频信号被发送到端点之前增强传入的音频信号。
EEE 43.一种被配置用于机器学习模型MLM的监督训练的设备,通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号,该设备包括电路,被配置为:
接收用于MLM的训练的劣化音频信号和干净音频信号;
从接收到的劣化音频信号中提取第一组特征,从接收到的干净音频信号中提取第二组特征,各特征对应于相应的接收到的音频信号的频带;
将所述第一组特征中的每个特征与所述第二组特征中的对应特征进行比较以导出一组增益,每个增益对应于所述第一组特征中的相应特征,并且在训练所述MLM时被用作真值;
使用所述第一组特征和所导出的该组增益作为用于训练MLM的训练集;
其中,该电路进一步被配置为进行以下中的至少之一:
在导出该组增益之前执行预处理,包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布基本等于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
EEE 44.一种被配置用于增强劣化音频信号的设备,该设备包括电路,该电路被配置为:
接收劣化音频信号;
从接收的劣化音频信号中提取第一组特征;
将提取的第一组特征输入到根据EEE1-36中任一项训练的机器学习模型MLM中;和
使用来自MLM的输出增益来增强所接收的劣化音频信号。
EEE 45.一种计算机程序产品,包括具有指令的非暂时性计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时实行根据EEE1-36中任一项的方法。
EEE 46.一种计算机程序产品,包括具有指令的非暂时性计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时实行根据EEE37-42中任一项的方法。
Claims (45)
1.一种用于机器学习模型MLM的监督训练的方法,通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号,该方法包括以下步骤:
接收用于MLM的训练的劣化音频信号和干净音频信号;
从接收到的劣化音频信号中提取第一组特征,从接收到的干净音频信号中提取第二组特征,各特征对应于相应的接收到的音频信号的频带;
将所述第一组特征中的每个特征与所述第二组特征中的对应特征进行比较以导出一组增益,每个增益对应于所述第一组特征中的相应特征,并且在训练所述MLM时被用作真值;
使用所述第一组特征和所导出的该组增益作为用于训练MLM的训练集;
其中该方法还包括以下中的至少之一:
在导出该组增益之前执行的预处理步骤,其中预处理步骤包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布更类似于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚。
2.根据权利要求1的方法,其中仅使用预处理步骤和定义MLM损失函数的步骤之一。
3.根据权利要求1的方法,其中使用预处理步骤和定义MLM损失函数的步骤两者。
4.根据权利要求1-3中任一项所述的方法,其中所述损失函数根据所述训练集的特征的频带被进一步加权,使得对应于相对较高频带的特征的误差被用相对较高的权重加权。
5.根据权利要求4所述的方法,其中与对应于低于6kHz的频带的特征的误差相比,对应于超过6kHz的频带的特征的误差被用更高的权重加权。
6.根据权利要求1-5中任一项所述的方法,其中,通过将所接收的劣化音频信号和干净音频信号转换到频域来提取第一组特征和第二组特征。
7.根据权利要求6所述的方法,其中使用来自以下列表中的一个来执行所述转换:短时傅立叶变换SFTF、修正离散余弦变换MDCT、和移位离散频率变换MDXT。
8.根据权利要求7所述的方法,其中,通过对于多个频带中的每个频带,对于该频带的频率仓,将对应于频率仓的各音频信号的频域表示的复特征组合成对应于该频带的单个特征,提取第一组特征和第二组特征。
9.根据权利要求8的方法,其中第一组特征和第二组特征中的特征对应于梅尔频带功率、巴克标度频带功率、对数频带功率或ERB频带功率。
10.根据权利要求1-9中任一项所述的方法,其中预处理步骤包括在所接收的干净音频信号的整个频带上平衡第二组特征的频率能量分布。
11.根据权利要求10的方法,其中预处理包括:
将多项式曲线拟合到第二组特征,
基于多项式曲线和常数函数之间的差定义滤波器,
将滤波器应用于第二组特征。
12.根据权利要求10的方法,其中预处理包括:
将多项式曲线拟合到第二组特征,
计算多项式曲线的最小值和最大值之间的差值,
在确定差值超过阈值时:
基于多项式曲线和常数函数之间的差定义滤波器,
将滤波器应用于第二组特征。
13.根据权利要求12所述的方法,其中所述阈值对应于在所接收的干净音频信号的整个频带上所述第二组特征的频率能量分布的3dB差异。
14.根据权利要求11-13中任一项所述的方法,其中常数函数的值被设置为多项式曲线的最大值。
15.根据权利要求11-14中任一项所述的方法,其中所述多项式曲线是以下列表中的一种:线性曲线、二次曲线和三次曲线。
16.根据权利要求1-15中任一项所述的方法,其中,所述损失函数被配置为通过以下方式对低于真值增益的预测增益比对高于真值增益的预测增益进行更多惩罚:
将预测增益和真值之间的距离度量乘以权重,在以下情况下该权重相对较高:
预测增益低于真值增益,并且
预测的增益是负的,
在以下情况下该权重相对较低:
预测增益高于或等于真值增益,或
预测增益为正。
17.根据权利要求16的方法,其中相对较高的权重和相对较低的权重之间的比率在3-7之间。
18.根据权利要求17所述的方法,其中相对较高权重和相对较低权重之间的比率为5。
19.根据权利要求1-18中任一项所述的方法,其中所述第一组特征和第二组特征通过以下方式被提取:
将接收到的劣化音频信号和干净音频信号转换到频域,
对于多个频带中的每个频带j
将劣化音频信号的频域表示的频率分量组合成对应于频带的特征f1,j,并将log(f1,j)添加到第一组特征;
将干净音频信号的频域表示的频率分量组合成对应于频带的特征f2,j,并将log(f2,j)添加到第二组特征。
20.根据权利要求19所述的方法,其中将劣化音频信号的频域表示的频率分量组合成特征f1,j的步骤包括用不同的权重来加权频率分量,其中将干净音频信号的频域表示的频率分量组合成特征f2,j的步骤包括用所述不同的权重来加权频率分量。
21.根据权利要求19-20中任一项所述的方法,其中所述多个频带在梅尔频率上等距分布。
22.根据权利要求21所述的方法,其中,第一组特征和第二组特征是通过组合从相应音频信号的多个音频帧中提取的特征而被提取的。
23.根据权利要求22所述的方法,其中所提取的第一组特征和第二组特征在用于导出该组增益之前被进一步归一化。
24.根据权利要求1-23中任一项所述的方法,还包括向所述第一组特征和第二组特征添加人工特征对,其中人工特征对包括添加到所述第一组特征的第一特征和添加到所述第二组特征的第二特征,所述第一特征和第二特征具有相同的值并且对应于同一频带。
25.根据权利要求1-24中任一项所述的方法,还包括以下步骤:在将所述第一组特征的每个特征与所述第二组特征的对应特征进行比较以导出一组增益之前,向所述第一组特征添加噪声。
26.根据权利要求25所述的方法,其中,当训练MLM时,仅对于第一阈值数量的代添加噪声。
27.根据权利要求1-24中任一项所述的方法,还包括以下步骤:在将所述第一组特征的每个特征与所述第二组特征的对应特征进行比较以导出一组增益之前,调整所述第一组特征和/或所述第二组特征,其中所述调整包括在所述MLM的训练循环中的每一通训练、每一代训练和/或每一小批量训练期间使用不同的调整参数。
28.根据权利要求27所述的方法,其中,所述调整参数被从多个概率分布中取得。
29.根据权利要求27-28中任一项所述的方法,其中所述第一组特征的调整包括以下列表中的至少一个:添加固定频谱平稳噪声、添加可变频谱平稳噪声、添加混响、添加非平稳噪声、添加模拟回声残差、模拟麦克风均衡、模拟麦克风关断、以及改变宽带水平。
30.根据权利要求1-29中任一项所述的方法,其中所接收的劣化音频信号是从所接收的干净音频信号生成的。
31.根据权利要求30的方法,其中劣化音频信号的产生包括将至少一个编解码器应用于干净音频信号。
32.根据权利要求31所述的方法,其中所述至少一个编解码器包括语音编解码器。
33.根据权利要求30-32中任一项所述的方法,其中劣化音频信号的产生包括对干净音频信号应用中间参考系统(IRS)滤波器。
34.根据权利要求30-33中任一项的方法,其中劣化音频信号的产生包括将低通滤波器应用于干净音频信号。
35.根据权利要求30-34中任一项所述的方法,其中劣化音频信号的生成包括将生成的劣化音频信号与窄带脉冲响应卷积。
36.根据权利要求1-35中任一项所述的方法,其中所述MLM是以下列表中的一个:人工神经网络、决策树、支持向量机、混合模型和贝叶斯网络。
37.一种用于增强劣化音频信号的方法,包括以下步骤:
接收劣化音频信号;
从接收的劣化音频信号中提取第一组特征;
将提取的第一组特征输入到根据权利要求1-36中任一项训练的机器学习模型MLM中;和
使用来自MLM的输出增益来增强所接收的劣化音频信号。
38.根据权利要求37所述的方法,还包括在使用增益来减少所接收的劣化音频信号的编码伪像之前对输出增益进行后处理的步骤。
39.根据权利要求38所述的方法,其中所述后处理包括以下中的至少一项:
将输出增益的范围限制在预定范围内,
限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的前一音频帧的频带的增益之间的差值,以及
限制用于所接收的劣化音频信号的音频帧的频带的增益和用于所接收的劣化音频信号的该音频帧或另一音频帧的相邻频带的增益之间的差值。
40.根据权利要求37-39中任一项所述的方法,其中劣化音频信号是公共交换电话网PSTN呼叫,其中提取第一组特征并将所提取的第一组特征输入到被训练的MLM中的步骤是针对PSTN呼叫的至少一个音频帧执行的。
41.根据权利要求37-40中任一项所述的方法,该方法在音频会议系统的端点中实现以用于增强传入的音频信号。
42.根据权利要求37-41中任一项所述的方法,该方法在音频会议系统的服务器中实现,用于在传入的音频信号被发送到端点之前增强传入的音频信号。
43.一种被配置用于机器学习模型MLM的监督训练的设备,通过计算要被应用于劣化音频信号的频带的增益来增强劣化音频信号,该设备包括电路,被配置为:
接收用于MLM的训练的劣化音频信号和干净音频信号;
从接收到的劣化音频信号中提取第一组特征,从接收到的干净音频信号中提取第二组特征,各特征对应于相应的接收到的音频信号的频带;
将所述第一组特征中的每个特征与所述第二组特征中的对应特征进行比较以导出一组增益,每个增益对应于所述第一组特征中的相应特征,并且在训练所述MLM时被用作真值;
使用所述第一组特征和所导出的该组增益作为用于训练MLM的训练集;
其中,该电路进一步被配置为进行以下中的至少之一:
在导出该组增益之前执行预处理,包括调整第一组特征和/或第二组特征的频率能量分布,使得第一组特征的频率能量分布更类似于第二组特征的频率能量分布,以及
定义MLM的损失函数,该损失函数被配置为对低于真值增益的预测增益比高于真值增益的预测增益进行更多惩罚。
44.一种被配置用于增强劣化音频信号的设备,该设备包括电路,该电路被配置为:
接收劣化音频信号;
从接收的劣化音频信号中提取第一组特征;
将提取的第一组特征输入到根据权利要求1-36中任一项训练的机器学习模型MLM中;和
使用来自MLM的输出增益来增强所接收的劣化音频信号。
45.一种计算机程序产品,包括具有指令的非暂时性计算机可读存储介质,所述指令适于在由具有处理能力的设备执行时实行根据权利要求1-42中任一项的方法。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2019/098896 | 2019-08-01 | ||
CN2019098896 | 2019-08-01 | ||
US201962889748P | 2019-08-21 | 2019-08-21 | |
US62/889,748 | 2019-08-21 | ||
EP19211731.5 | 2019-11-27 | ||
EP19211731 | 2019-11-27 | ||
PCT/US2020/044324 WO2021022079A1 (en) | 2019-08-01 | 2020-07-30 | System and method for enhancement of a degraded audio signal |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114175152A true CN114175152A (zh) | 2022-03-11 |
Family
ID=72039713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080054701.7A Pending CN114175152A (zh) | 2019-08-01 | 2020-07-30 | 用于增强劣化音频信号的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11996108B2 (zh) |
EP (1) | EP4008002B1 (zh) |
CN (1) | CN114175152A (zh) |
WO (1) | WO2021022079A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114742116A (zh) * | 2022-06-13 | 2022-07-12 | 四川新源生物电子科技有限公司 | 一种模拟采集脑电信号的生成方法和系统 |
WO2024094006A1 (zh) * | 2022-11-01 | 2024-05-10 | 抖音视界有限公司 | 一种音频信号的编码、解码方法及装置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210137146A (ko) * | 2019-03-10 | 2021-11-17 | 카르돔 테크놀로지 엘티디. | 큐의 클러스터링을 사용한 음성 증강 |
US11398216B2 (en) | 2020-03-11 | 2022-07-26 | Nuance Communication, Inc. | Ambient cooperative intelligence system and method |
WO2021226503A1 (en) | 2020-05-08 | 2021-11-11 | Nuance Communications, Inc. | System and method for data augmentation for multi-microphone signal processing |
US20220199103A1 (en) * | 2020-12-23 | 2022-06-23 | Plantronics, Inc. | Method and system for improving quality of degraded speech |
CN113345457B (zh) * | 2021-06-01 | 2022-06-17 | 广西大学 | 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法 |
US20240290341A1 (en) * | 2021-07-02 | 2024-08-29 | Dolby Laboratories Licensing Corporation | Over-suppression mitigation for deep learning based speech enhancement |
CN116189698A (zh) * | 2021-11-25 | 2023-05-30 | 广州视源电子科技股份有限公司 | 语音增强模型的训练方法及装置、存储介质及设备 |
CN113921030B (zh) * | 2021-12-07 | 2022-06-07 | 江苏清微智能科技有限公司 | 一种基于加权语音损失的语音增强神经网络训练方法及装置 |
US20230421701A1 (en) * | 2022-05-20 | 2023-12-28 | Cisco Technology, Inc. | Receiver side noise reduction and speech enhancement for pstn callers |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6549587B1 (en) | 1999-09-20 | 2003-04-15 | Broadcom Corporation | Voice and data exchange over a packet based network with timing recovery |
US6560225B1 (en) | 1999-08-18 | 2003-05-06 | Nortel Networks Limited | Enhanced performance VoDSL |
US7289626B2 (en) | 2001-05-07 | 2007-10-30 | Siemens Communications, Inc. | Enhancement of sound quality for computer telephony systems |
US7158572B2 (en) | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
US7546125B2 (en) | 2005-10-03 | 2009-06-09 | Divitas Networks, Inc. | Enhancing user experience during handoffs in wireless communication |
US8407049B2 (en) | 2008-04-23 | 2013-03-26 | Cogi, Inc. | Systems and methods for conversation enhancement |
US8863256B1 (en) | 2011-01-14 | 2014-10-14 | Cisco Technology, Inc. | System and method for enabling secure transactions using flexible identity management in a vehicular environment |
US9881631B2 (en) * | 2014-10-21 | 2018-01-30 | Mitsubishi Electric Research Laboratories, Inc. | Method for enhancing audio signal using phase information |
US10872602B2 (en) | 2018-05-24 | 2020-12-22 | Dolby Laboratories Licensing Corporation | Training of acoustic models for far-field vocalization processing systems |
CN110085249B (zh) | 2019-05-09 | 2021-03-16 | 南京工程学院 | 基于注意力门控的循环神经网络的单通道语音增强方法 |
-
2020
- 2020-07-30 US US17/632,220 patent/US11996108B2/en active Active
- 2020-07-30 EP EP20754125.1A patent/EP4008002B1/en active Active
- 2020-07-30 CN CN202080054701.7A patent/CN114175152A/zh active Pending
- 2020-07-30 WO PCT/US2020/044324 patent/WO2021022079A1/en unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114742116A (zh) * | 2022-06-13 | 2022-07-12 | 四川新源生物电子科技有限公司 | 一种模拟采集脑电信号的生成方法和系统 |
CN114742116B (zh) * | 2022-06-13 | 2022-09-02 | 四川新源生物电子科技有限公司 | 一种模拟采集脑电信号的生成方法和系统 |
WO2024094006A1 (zh) * | 2022-11-01 | 2024-05-10 | 抖音视界有限公司 | 一种音频信号的编码、解码方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20220270625A1 (en) | 2022-08-25 |
EP4008002A1 (en) | 2022-06-08 |
WO2021022079A1 (en) | 2021-02-04 |
US11996108B2 (en) | 2024-05-28 |
EP4008002B1 (en) | 2024-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114175152A (zh) | 用于增强劣化音频信号的系统和方法 | |
Braun et al. | Towards efficient models for real-time deep noise suppression | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
KR101228398B1 (ko) | 향상된 명료도를 위한 시스템, 방법, 장치 및 컴퓨터 프로그램 제품 | |
US20120263317A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
TWI463817B (zh) | 可適性智慧雜訊抑制系統及方法 | |
CN111048119B (zh) | 通话音频混音处理方法、装置、存储介质和计算机设备 | |
JP5706513B2 (ja) | 空間オーディオプロセッサおよび音響入力信号に基づいて空間パラメータを提供する方法 | |
JP6169849B2 (ja) | 音響処理装置 | |
WO2017049397A1 (en) | Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels | |
US20160189707A1 (en) | Speech processing | |
CA3124017C (en) | Apparatus and method for source separation using an estimation and control of sound quality | |
JPH0566795A (ja) | 雑音抑圧装置とその調整装置 | |
WO2006059567A1 (ja) | ステレオ符号化装置、ステレオ復号装置、およびこれらの方法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
Tashev et al. | DNN-based causal voice activity detector | |
US20080219457A1 (en) | Enhancement of Speech Intelligibility in a Mobile Communication Device by Controlling the Operation of a Vibrator of a Vibrator in Dependance of the Background Noise | |
CN117321681A (zh) | 嘈杂环境中的语音优化 | |
GB2456297A (en) | Impulsive shock detection and removal | |
AU6063600A (en) | Coded domain noise control | |
CN112634912B (zh) | 丢包补偿方法及装置 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
Li et al. | Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement | |
CN114402388A (zh) | 上下文感知语音可懂度增强 | |
US20230326475A1 (en) | Apparatus, Methods and Computer Programs for Noise Suppression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |