CN112750451A - 一种提升语音听感的降噪方法 - Google Patents
一种提升语音听感的降噪方法 Download PDFInfo
- Publication number
- CN112750451A CN112750451A CN202011497927.2A CN202011497927A CN112750451A CN 112750451 A CN112750451 A CN 112750451A CN 202011497927 A CN202011497927 A CN 202011497927A CN 112750451 A CN112750451 A CN 112750451A
- Authority
- CN
- China
- Prior art keywords
- voice
- spectrum
- reduction method
- noise reduction
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000009467 reduction Effects 0.000 title claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 60
- 230000000873 masking effect Effects 0.000 claims abstract description 24
- 238000009432 framing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims abstract description 9
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 3
- 238000012549 training Methods 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000007480 spreading Effects 0.000 abstract description 8
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 230000035807 sensation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种提升语音听感的降噪方法,通过对语音流信号进行分帧、加窗处理后,经傅里叶变换转换到频域X(n,k),n、k分别为时、频坐标;然后通过提取该语音帧特征,通过深度学习网络计算获得该帧各频点增益GainNN(n,k),估计的干净语音谱Snn;进而通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展到整个频谱T;再通过频谱T计算最终增益的参数,及最终的估计谱S;最终经过傅里叶反变换及重叠相加法恢复出语音音频信号,以提升听感。
Description
技术领域
本发明涉及语音识别领域,具体涉及一种提升语音听感的降噪方法。
背景技术
音流中可分为噪声阶段与语音加噪声阶段,深度神经网络降噪方法对于纯噪声阶段与语音加噪声阶段处理特性并不一致,表现为噪声阶段处理很干净,但语音阶段出于保护语音包络机制,对噪声抑制偏弱,频谱中可见峰谷值之间差异并不显著,听感上语音阶段噪声突起顿挫,严重影响主官感受。
发明内容
本发明提供一种提升语音听感的降噪方法,能够解决如上所述的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明提供一种提升语音听感的降噪方法,包括:
S100获取带噪语音信号,对带噪语音信号进行预处理得到所述带噪语音信号频域X(n,k)特征;
S200通过提取所述带噪语音信号频域X(n,k)特征,结合深度学习网络得到预估的干净语音谱Snn;
S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark得到扩展频谱T;
S400通过扩展频谱T计算最终的估计谱S;
S500将所述估计谱S恢复出语音输出信号。
进一步地,所述预处理包括对所述带噪语音信号进行分帧加窗处理得到训练语音数据。
进一步地,所述预处理还包括对所述训练语音数据进行傅里叶变换转换到语音帧频域X(n,k),其中n、k分别为时、频坐标。
进一步地,所述分帧加窗处理采用汉明窗。
进一步地,所述干净语音谱Snn通过提取所述语音帧频域X(n,k)特征,以及深度学习网络计算获得该帧各频点增益GainNN(n,k),进而获得。
进一步地,所述扩展频谱T基于预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展得到。
进一步地,通过扩展频谱T计算最终增益的参数α和参数β,从而得到最终的估计谱S。
进一步地,所述语音输出信号基于估计谱S进行傅里叶反变换及重叠相加法将得出。
据本发明实施例的另一个方面,提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行前述提升语音听感的降噪方法。
从而,基于上述方案,不仅使听感有比较明显提升,而且经测试客观指标PESQ、SNR均普遍提升。
附图说明
图1为本发明实施例提供的一种提升语音听感的降噪方法示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
S100获取带噪语音信号,进行预处理。
对带噪语音信号进行分帧、加窗处理后,经傅里叶变换转换到频域X(n,k),n、k分别为时、频坐标。
在一些实施例中,计算设备(例如降噪芯片),由数字麦克风采集带噪语音信号。带噪语音信号是指,带有背景噪声的语音信号,是一种混合由讲话者语音信号与噪声的混合语音信号。本发明的语音增强目的是就是增强带噪语音信号中的讲话者的语音信号。
分帧是指将整段的语音信号切分成若干段的语音处理技术。对训练语音数据进行分帧处理能够将训练语音数据分成若干段的语音数据,可以细分训练语音数据,便于训练语音特征的提取。
S110对分帧处理后的训练语音数据进行加窗处理。
语音信号是非平稳信号,采集的带噪语音信号进行加窗处理和快速傅里叶变换(FFT)。
在一些实施例中,采用汉明窗做分帧加窗处理。
在对训练语音数据进行分帧处理后,每一帧的起始段和末尾端都会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。采用加窗能够解决这个问题,可以使分帧处理后的训练语音数据变得连续,并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对训练语音数据进行处理,窗函数可以选择汉明窗。服务端通过对训练语音数据进行加窗处理,能够使得分帧处理后的训练语音数据在时域上的信号变得连续,有助于提取训练语音数据的训练语音特征。
S120对预处理后的训练语音数据作快速傅里叶变换,获取训练语音数据的初始频谱,并根据初始频谱获取训练语音数据的功率谱。即,经傅里叶变换转换到语音帧频域X(n,k),n、k分别为时、频坐标。
其中,快速傅里叶变换(Fast Fourier Transformation,简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种计算方法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数越多,FFT算法计算量的节省就越显著。
对预处理后的训练语音数据作快速傅里叶变换具体包括如下过程:首先,采用计算初始频谱的公式对预处理后的训练语音数据进行计算,获取训练语音数据的初始频谱。该计算初始频谱的公式为
1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度,s(n)为时域上的信号幅度,n为时间,i为复数单位。然后,采用计算功率谱的公式对获取到的训练语音数据的初始频谱进行计算,求得训练语音数据的功率谱。该计算功率谱的公式为
1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度。通过将训练语音数据从时域上的信号幅度转换为频域上的信号幅度,再根据该频域上的信号幅度获取训练语音数据的功率谱,为从训练语音数据的功率谱中提取训练语音特征提供重要的技术前提。
S200通过提取该语音帧频域X(n,k)特征,以及既有的深度学习网络计算即可获得该帧各频点增益GainNN(n,k),进而得到预估的干净语音谱Snn。
根据本发明的实施例,经过预处理,采集带噪语音信号,通过深度学习网络计算获得该帧各频点增益GainNN(n,k)。并基于该帧各频点增益GainNN(n,k)得到预估的干净语音谱Snn。
S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展到整个扩展频谱T。
实施例中,采用bark刻度来实现将线性频率映射到人的听觉感知域,在这种映射中,频率f和线性bark刻度z的函数关系为:
z=13arctan(0.76×10-3f)+3.5arctan(f/7500)。
根据上式对频率划分,求得每个bark带在一帧信号中的能量分布,得到临界能量:
其中,n表示语音信号的帧号,bli和bhi分别表示临界带宽i的下限和上限。
bli和bhi通过频率划分和采样率求出:
N表示傅里叶变换的点数,i表示临界带宽号,取值与采样频率有关。
掩蔽音的中心频率在某个临界带内,对其他相近临界带内的被掩蔽音的掩蔽阈值有一定的影响。扩展函数就是临界带之间Bark谱对扩展谱定量的描述,扩展函数的定义:
Δ=i-j表示两个临界带频带号的差值,且Δ≤imax。
扩展Bark域的能量表述为:
Cj表示第j个临界带的扩展功率谱。
根据本发明的实施例,由于噪声和纯音的掩蔽特性的不同,需要对经过处理后的带噪语音信号进行噪声特性判断:
在确定了相对掩蔽阈值的偏移量之后,对扩展掩蔽阈值进行估计:
计算绝对听阈:
其中,f为带噪语音信号频率。
计算掩蔽阈值:T=max(T′i,Ta)。
S400通过扩展频谱T计算最终增益的参数α和参数β,从而得到最终的估计谱S。
计算得到掩蔽阈值后,并通过掩蔽阈值确定谱减参数。根据本发明的实施例,通过掩蔽阈值自使用对谱减系数进行调整。在一些实施例中,按照如下方法确定谱减参数。
其中,参数α的计算过程为:
参数β的计算过程为:
根据本发明的实施例,利用所噪声功率谱的估计值,以及所确定的谱减参数对纯净语音信号进行增强。
在一些实施例中,通过如下方法计算纯净语音信号增强后的功率谱。由此得到的估计谱S的计算过程为:
其中,S(m,k)为增强后纯净语音信号的功率谱,Y(m,k)和D(m,k)分别表示带噪语音信号的功率谱和估计的噪声信号功率谱,m为信号帧数,k为采样点序号,参数α和参数β为谱减参数。
上述对纯净语音信号进行增强过程中,增加谱减参数可以增大背景噪声的消除,同时也加大了增强后语音失真的程度。谱减参数β的作用是为了掩蔽残余的噪声而加的背景噪声。增加β会起到减少噪声的目的,但同时也加大了增强语音信号中的背景噪声水平。
随着噪声强度的增加,在不增加语音失真的前提下,掩蔽阈值不能完全掩蔽残留噪声,影响了增强语音的清晰度。
S500再经过傅里叶反变换及重叠相加法将估计谱S恢复出语音输出信号。
对估计谱S做快速傅里叶反变换IFFT,得到增强过后的时域语音信号,采用重叠相加法输出最终增强后的语音。从而不仅使听感有比较明显提升,而且经测试客观指标PESQ、SNR均普遍提升。
本发明实施例提供的一种提升语音听感的降噪方法可以软件功能模块的形式实现并作为独立的产品销售或使用,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种提升语音听感的降噪方法,其特征在于,包括:
S100获取带噪语音信号,对带噪语音信号进行预处理得到所述带噪语音信号频域X(n,k)特征;
S200通过提取所述带噪语音信号频域X(n,k)特征,结合深度学习网络得到预估的干净语音谱Snn;
S300通过预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark得到扩展频谱T;
S400通过扩展频谱T计算最终的估计谱S;
S500将所述估计谱S恢复出语音输出信号。
2.根据权利要求1所述的降噪方法,其特征在于,
所述预处理包括对所述带噪语音信号进行分帧加窗处理得到训练语音数据。
3.根据权利要求2所述的降噪方法,其特征在于,
所述预处理还包括对所述训练语音数据进行傅里叶变换转换到语音帧频域X(n,k),其中n、k分别为时、频坐标。
4.根据权利要求2所述的降噪方法,其特征在于,
所述分帧加窗处理采用汉明窗。
5.根据权利要求1所述的降噪方法,其特征在于,
所述干净语音谱Snn通过提取所述语音帧频域X(n,k)特征,以及深度学习网络计算获得该帧各频点增益GainNN(n,k),进而获得。
6.根据权利要求1所述的降噪方法,其特征在于,
所述扩展频谱T基于预估的干净语音谱Snn和听觉掩蔽模型计算Bark域掩蔽阈值Tbark,并通过扩展函数扩展得到。
7.根据权利要求1所述的降噪方法,其特征在于,
通过扩展频谱T计算最终增益的参数α和参数β,从而得到最终的估计谱S。
8.根据权利要求1-7任一项所述的降噪方法,其特征在于,
所述语音输出信号基于估计谱S进行傅里叶反变换及重叠相加法将得出。
9.一种存储介质,其特征在于,
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-8任一项所述的提升语音听感的降噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497927.2A CN112750451A (zh) | 2020-12-17 | 2020-12-17 | 一种提升语音听感的降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497927.2A CN112750451A (zh) | 2020-12-17 | 2020-12-17 | 一种提升语音听感的降噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750451A true CN112750451A (zh) | 2021-05-04 |
Family
ID=75647984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497927.2A Pending CN112750451A (zh) | 2020-12-17 | 2020-12-17 | 一种提升语音听感的降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750451A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226592A1 (zh) * | 2022-05-25 | 2023-11-30 | 青岛海尔科技有限公司 | 噪音信号的处理方法和装置、存储介质及电子装置 |
WO2024139120A1 (zh) * | 2022-12-26 | 2024-07-04 | 恒玄科技(上海)股份有限公司 | 一种用于带噪语音信号的处理恢复方法和控制系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
US20200202869A1 (en) * | 2018-12-24 | 2020-06-25 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
-
2020
- 2020-12-17 CN CN202011497927.2A patent/CN112750451A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200202869A1 (en) * | 2018-12-24 | 2020-06-25 | Google Llc | Targeted voice separation by speaker conditioned on spectrogram masking |
CN110310656A (zh) * | 2019-05-27 | 2019-10-08 | 重庆高开清芯科技产业发展有限公司 | 一种语音增强方法 |
Non-Patent Citations (1)
Title |
---|
韩伟等: "基于感知掩蔽深度神经网络的单通道语音增强方法", 《自动化学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226592A1 (zh) * | 2022-05-25 | 2023-11-30 | 青岛海尔科技有限公司 | 噪音信号的处理方法和装置、存储介质及电子装置 |
WO2024139120A1 (zh) * | 2022-12-26 | 2024-07-04 | 恒玄科技(上海)股份有限公司 | 一种用于带噪语音信号的处理恢复方法和控制系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10580430B2 (en) | Noise reduction using machine learning | |
US9064498B2 (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
CN101593522B (zh) | 一种全频域数字助听方法和设备 | |
CN101976566B (zh) | 语音增强方法及应用该方法的装置 | |
JP5127754B2 (ja) | 信号処理装置 | |
EP2905779B1 (en) | System and method for dynamic residual noise shaping | |
KR100304666B1 (ko) | 음성 향상 방법 | |
US8352257B2 (en) | Spectro-temporal varying approach for speech enhancement | |
Kim et al. | Nonlinear enhancement of onset for robust speech recognition. | |
US20100067710A1 (en) | Noise spectrum tracking in noisy acoustical signals | |
CN110310656A (zh) | 一种语音增强方法 | |
CN105679330B (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN113160845A (zh) | 基于语音存在概率和听觉掩蔽效应的语音增强算法 | |
JP6764923B2 (ja) | 音声処理方法、装置、デバイスおよび記憶媒体 | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
CN112750451A (zh) | 一种提升语音听感的降噪方法 | |
CN106653004A (zh) | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 | |
CN102314883B (zh) | 一种判断音乐噪声的方法以及语音消噪方法 | |
JP5443547B2 (ja) | 信号処理装置 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN110197657B (zh) | 一种基于余弦相似度的动态音声特征提取方法 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN106997766B (zh) | 一种基于宽带噪声的同态滤波语音增强方法 | |
Zorila et al. | On the Quality and Intelligibility of Noisy Speech Processed for Near-End Listening Enhancement. | |
Srinivas et al. | Notice of Violation of IEEE Publication Principles: A new approach for robust speech recognition using minimum variance distortionless response |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |
|
RJ01 | Rejection of invention patent application after publication |