CN106340292A - 一种基于连续噪声估计的语音增强方法 - Google Patents

一种基于连续噪声估计的语音增强方法 Download PDF

Info

Publication number
CN106340292A
CN106340292A CN201610812074.4A CN201610812074A CN106340292A CN 106340292 A CN106340292 A CN 106340292A CN 201610812074 A CN201610812074 A CN 201610812074A CN 106340292 A CN106340292 A CN 106340292A
Authority
CN
China
Prior art keywords
voice
noise
spectrum
amplitude
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610812074.4A
Other languages
English (en)
Other versions
CN106340292B (zh
Inventor
吕勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Saturn Information Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201610812074.4A priority Critical patent/CN106340292B/zh
Publication of CN106340292A publication Critical patent/CN106340292A/zh
Application granted granted Critical
Publication of CN106340292B publication Critical patent/CN106340292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于连续噪声估计的语音增强方法,在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计,利用估得的噪声均值恢复纯净语音。首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱,并利用预先训练得到的对数谱域语音模型从含噪语音的对数谱特征向量中实时提取噪声参数。最后,利用估得的噪声参数对含噪语音进行加权幅度谱减,并对增强语音的幅度和含噪语音的相位进行逆傅里叶变换和重叠相加,得到增强后的语音。本发明在含噪语音中对噪声参数按帧连续估计,实时跟踪噪声的变化。

Description

一种基于连续噪声估计的语音增强方法
技术领域
本发明涉及到在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计,利用估得的噪声均值恢复纯净语音的语音增强方法,属于语音信号处理技术领域。
背景技术
在语音通信中,输入语音通常会受到背景噪声的干扰,因此有必要采用语音增强算法抑制噪声干扰,从含噪语音中尽可能恢复纯净语音,增加语音的可懂度。
在语音增强中,通常需要采用端点检测算法判断语音段的起点和终点,从而将含噪语音划分为语音段和噪声段。在噪声段,利用不含语音的纯噪声谱估计背景噪声的均值;在语音段的每一帧,利用估得的噪声均值对含噪语音的幅度谱进行谱减,得到纯净语音幅度谱的估计值。噪声估计是语音增强的关键技术之一,对语音间隙期的纯噪声谱进行平滑,可以得到较为准确的噪声参数。然而,实际环境中的背景噪声往往是非平稳的,当语音段较长时,如果不及时更新噪声参数,就有可能导致语音增强的结果出现较大的偏差,因此有必要在语音段也对噪声的参数进行更新。目前,逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值,用含噪语音频谱的最小值代表噪声频谱的大小。该方法虽然可以在语音段估计噪声的参数,但是也存在较长的延迟,即在噪声的类型或强度发生变化后,通常在2~3秒之后才能检测出噪声的变化,得到新的噪声参数。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于连续噪声估计的语音增强方法。
技术方案:一种基于连续噪声估计的语音增强方法,首先,对输入语音进行声学预处理和快速傅里叶变换(FFT:Fast Fourier Transform),得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱。如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型(GMM:Gaussian Mixture Model);如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值。得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱。最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT(Inverse Fast Fourier Transform)运算,恢复时域信号,并用重叠相加法得到增强后的语音。
训练阶段的具体步骤包括:
(1)在语音预处理阶段对纯净训练语音进行加窗、分帧,将训练语音分解为若干帧信号;
(2)对每一帧训练语音进行FFT运算,得到每帧信号的幅度谱;
(3)将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带,并将每个子带内的幅度谱相加,得到子带谱;
(4)对训练语音的子带谱进行对数变换,得到训练语音的对数谱;
(5)对训练语音的对数谱进行聚类,训练,得到纯净训练语音的GMM;
语音增强阶段的具体步骤包括:
(6)在语音预处理阶段对含噪输入语音进行加窗、分帧,将含噪输入语音分解为若干帧信号;
(7)对每一帧含噪语音进行FFT运算,得到每帧含噪语音的幅度谱和相位谱;
(8)采用与训练阶段相同的子带划分方法,将每个子带内的幅度谱相加,得到子带谱;
(9)对含噪语音的子带谱进行对数变换,得到含噪语音的对数谱;
(10)利用训练阶段得到的GMM从含噪语音的对数谱中估计噪声的均值;
(11)利用估得的噪声均值,对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(12)对每帧信号增强后的幅度谱和含噪语音的相位谱进行IFFT运算,得到每帧时域信号;
(13)对语音全部帧的时域信号进行重叠相加,得到增强后的语音。
附图说明
图1为基于连续噪声估计的语音增强框架图,主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加9个模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于连续噪声估计的语音增强方法,首先,对输入语音进行声学预处理和快速傅里叶变换(FFT:Fast Fourier Transform),得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱。如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型(GMM:Gaussian Mixture Model);如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值。得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱。最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT(InverseFast Fourier Transform)运算,恢复时域信号,并用重叠相加法得到增强后的语音。
噪声估计在语音的对数谱域完成,噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。
在噪声估计时,不区分含噪语音的语音段和非语音段,而是按帧连续估计噪声,因而可以实时跟踪噪声的变化。
假设每个子带内所有数字频率处的噪声特性相同,且每个子带内所有数字频率处的过减系数也相同。
每个子带的过减系数由该子带预增强语音的对数谱值决定,对数谱值越大,过减系数就越小;反之,过过减系数就越大。
如图1所示,基于连续噪声估计的语音增强方法主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加等模块。下面逐一详细说明附图中主要模块的具体实施方案。
1、语音预处理:
在语音预处理阶段,对纯净训练语音或待增强的含噪输入语音进行加窗,分帧,得到帧信号。窗函数采用海明窗;分帧时,帧移长度为帧长的一半,即前后帧之间一半采样点重叠。
2、FFT:
FFT的点数由采样频率决定,使每帧信号的持续时间在20毫秒左右。对纯净训练语音,只需要保留幅度谱,丢弃相位谱;对于待增强的含噪输入语音,需要同时保留幅度谱和相位谱,幅度谱用于噪声估计和幅度谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
3、子带滤波:
将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带,并将每个子带内的幅度谱相加,得到子带谱。
假设语音信号的采样频率为32kHz,语音信号的有效频带在20Hz~15.5kHz之间,则每个子带的中心频率和频率范围如下表所示:
表1子带的中心频率和频率范围
子带序号 中心频率(Hz) 频率范围(Hz) 子带序号 中心频率(Hz) 频率范围(Hz)
1 50 20~100 13 1850 1720~2000
2 150 100~200 14 2150 2000~2320
3 250 200~300 15 2500 2320~2700
4 350 200~400 16 2900 2700~3150
5 450 400~510 17 3400 3150~3700
6 570 510~630 18 4000 3700~4400
7 700 630~770 19 4800 4400~5300
8 840 770~920 20 5800 5300~6400
9 1000 920~1080 21 7000 6400~7700
10 1170 1080~1270 22 8500 7700~9500
11 1370 1270~1480 23 10500 9500~12000
12 1600 1480~1720 24 13500 12000~15500
4、取对数:
对每帧子带谱,按下式进行取对数操作:
x t = l o g ( B t x ) - - - ( 1 )
其中,和xt分别表示第t帧纯净训练语音的子带谱和对数谱。
5、模型训练:
在训练阶段,用纯净训练语音的对数谱训练生成一个GMM:
b ( x t ) = Σ m = 1 M c m { ( 2 π ) - D / 2 | Σ x , m | - 1 / 2 exp [ - 1 2 ( x t - μ x , m ) T Σ x , m - 1 ( x t - μ x , m ) ] } - - - ( 2 )
其中,cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D表示语音频谱的子带数目,即向量xt的维数。
6、噪声估计:
首先利用训练阶段得到的GMM从含噪语音的对数谱yt中估计对数谱域的噪声均值μn
其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率;和Um为:
U m = d i a g ( exp ( μ n 0 - μ x , m ) 1 + exp ( μ n 0 - μ x , m ) ) - - - ( 5 )
式(4)中,μn0表示μn的初值;式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵。
得到对数谱域的噪声均值μn后,用下式将其变换回幅度谱域:
N ( l ) = exp ( μ n , l ) D l - - - ( 6 )
其中,μn,l是μn的第l个元素,即第l个子带上的分量,Dl是第l个子带包含的频点的个数,N(l)是第l个子带上所有频点的噪声均值。这里假设每个子带上所有频点的噪声均值相同,这样就可以得到每个频点处的噪声均值N(k)(k为FFT的数字频率序号)。
7、幅度谱减:
设|Y(k)|为含噪语音的幅度谱,先用下式对含噪语音进行预增强:
| X ‾ ( k ) | 2 = | Y ( k ) | 2 - | N ( k ) | 2 - - - ( 7 )
对预增强后的语音幅度谱进行子带滤波和取对数运算,得到预增强语音的对数谱有D个元素:将这D个元素的最小值和最大值分别记为幅度谱减的过减系数α(l)用下式计算:
α ( l ) - α m a x ( x ‾ t , l - x ‾ t , min ) = α m a x - α min x ‾ t , min - x ‾ t , max - - - ( 8 )
其中,αmin和αmax分别表示过减系数α(l)的最小值和最大值,通常可取0.5和6。假设每个子带内的所有频点具有相同的过减系数,这样就可以得到每个数字频率处的过减系数α(k)。因此,可以用下式估计纯净语音的幅度谱
| X ^ ( k ) | 2 = | Y ( k ) | 2 - &alpha; ( k ) N ( k ) , | Y ( k ) | 2 &GreaterEqual; &alpha; ( k ) N ( k ) &beta; ( k ) N ( k ) , | Y ( k ) | 2 < &alpha; ( k ) N ( k ) - - - ( 9 )
其中,β(k)为噪声保留系数,通常可取常数0.01。根据式(7)估得的预增强信号小于阈值,则认为该帧为非语音帧,按下式进行处理:
| X ^ ( k ) | 2 = &beta; ( k ) | Y ( k ) | 2 - - - ( 10 )
9、IFFT:
将含噪语音相位作为纯净语音相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱,并对其进行IFFT运算,得到时域信号。
10、重叠相加:
将IFFT得到的每帧信号的时域信号进行重叠相加,得到增强后的语音。

Claims (7)

1.一种基于连续噪声估计的语音增强方法,其特征在于:首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号;然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱;如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型;如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值;得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱;最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT运算,恢复时域信号,并用重叠相加法得到增强后的语音。
2.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:根据人耳的听觉特性将语音信号的频谱划分为若干个不等宽且互不重叠的子带,并将语音信号在每个子带内的幅度谱相加,得到子带谱;在训练阶段,对纯净训练语音的子带谱特征向量进行聚类,训练,得到纯净训练语音的GMM;利用纯净训练语音的GMM从含噪输入语音的对数谱特征中估计噪声均值,并将其变换回幅度谱域,得到背景噪声的均值向量。
3.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:噪声估计在语音的对数谱域完成,噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。
4.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:在语音预处理阶段,对纯净训练语音或待增强的含噪输入语音进行加窗,分帧,得到帧信号;窗函数采用海明窗;分帧时,帧移长度为帧长的一半,即前后帧之间一半采样点重叠。
5.如权利要求2所述的基于连续噪声估计的语音增强方法,其特征在于:对每帧子带谱,按下式进行取对数操作:
x t = l o g ( B t x ) - - - ( 1 )
其中,和xt分别表示第t帧纯净训练语音的子带谱和对数谱。
6.如权利要求5所述的基于连续噪声估计的语音增强方法,其特征在于:在训练阶段,用纯净训练语音的对数谱训练生成一个GMM:
b ( x t ) = &Sigma; m = 1 M c m { ( 2 &pi; ) - D / 2 | &Sigma; x , m | - 1 / 2 exp &lsqb; - 1 2 ( x t - &mu; x , m ) T &Sigma; x , m - 1 ( x t - &mu; x , m ) &rsqb; } - - - ( 2 )
其中,cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D表示语音频谱的子带数目,即向量xt的维数;利用训练阶段得到的GMM从含噪语音的对数谱yt中估计对数谱域的噪声均值μn
其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率;和Um为:
U m = d i a g ( exp ( &mu; n 0 - &mu; x , m ) 1 + exp ( &mu; n 0 - &mu; x , m ) ) - - - ( 5 )
式(4)中,μn0表示μn的初值;式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵;
得到对数谱域的噪声均值μn后,用下式将其变换回幅度谱域:
N ( l ) = exp ( &mu; n , l ) D l - - - ( 6 )
其中,μn,l是μn的第l个元素,即第l个子带上的分量,Dl是第l个子带包含的频点的个数,N(l)是第l个子带上所有频点的噪声均值;这里假设每个子带上所有频点的噪声均值相同,这样就可以得到每个频点处的噪声均值N(k)(k为FFT的数字频率序号)。
7.如权利要求6所述的基于连续噪声估计的语音增强方法,其特征在于:设|Y(k)|为含噪语音的幅度谱,先用下式对含噪语音进行预增强:
| X &OverBar; ( k ) | 2 = | Y ( k ) | 2 - | N ( k ) | 2 - - - ( 7 )
对预增强后的语音幅度谱进行子带滤波和取对数运算,得到预增强语音的对数谱 有D个元素:将这D个元素的最小值和最大值分别记为幅度谱减的过减系数α(l)用下式计算:
&alpha; ( l ) - &alpha; m a x ( x &OverBar; t , l - x &OverBar; t , m i n ) = &alpha; m a x - &alpha; min x &OverBar; t , min - x &OverBar; t , max - - - ( 8 )
其中,αmin和αmax分别表示过减系数α(l)的最小值和最大值;假设每个子带内的所有频点具有相同的过减系数,这样就可以得到每个数字频率处的过减系数α(k);因此,可以用下式估计纯净语音的幅度谱
| X ^ ( k ) | 2 = | Y ( k ) | 2 - &alpha; ( k ) N ( k ) , | Y ( k ) | 2 &GreaterEqual; &alpha; ( k ) N ( k ) &beta; ( k ) N ( k ) , | Y ( k ) | 2 < &alpha; ( k ) N ( k ) - - - ( 9 )
其中,β(k)为噪声保留系数;根据式(7)估得的预增强信号小于阈值,则认为该帧为非语音帧,按下式进行处理:
| X ^ ( k ) | 2 = &beta; ( k ) | Y ( k ) | 2 - - - ( 10 )
将含噪语音相位作为纯净语音相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱,并对其进行IFFT运算,得到时域信号;
将IFFT得到的每帧信号的时域信号进行重叠相加,得到增强后的语音。
CN201610812074.4A 2016-09-08 2016-09-08 一种基于连续噪声估计的语音增强方法 Active CN106340292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610812074.4A CN106340292B (zh) 2016-09-08 2016-09-08 一种基于连续噪声估计的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610812074.4A CN106340292B (zh) 2016-09-08 2016-09-08 一种基于连续噪声估计的语音增强方法

Publications (2)

Publication Number Publication Date
CN106340292A true CN106340292A (zh) 2017-01-18
CN106340292B CN106340292B (zh) 2019-08-20

Family

ID=57823878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610812074.4A Active CN106340292B (zh) 2016-09-08 2016-09-08 一种基于连续噪声估计的语音增强方法

Country Status (1)

Country Link
CN (1) CN106340292B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481367A (zh) * 2017-08-11 2017-12-15 深圳市益鑫智能科技有限公司 一种基于语音识别的智能家居门禁系统
CN107493118A (zh) * 2017-09-01 2017-12-19 长沙海格北斗信息技术有限公司 信号获取方法及装置
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN109102823A (zh) * 2018-09-05 2018-12-28 河海大学 一种基于子带谱熵的语音增强方法
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN109728860A (zh) * 2018-12-25 2019-05-07 江苏益邦电力科技有限公司 一种基于采集终端检测装置的通讯干扰抑制方法
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN111105810A (zh) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN111613239A (zh) * 2020-05-29 2020-09-01 北京达佳互联信息技术有限公司 音频去噪方法和装置、服务器、存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
WO2021196905A1 (zh) * 2020-04-01 2021-10-07 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4285048A (en) * 1979-06-27 1981-08-18 The United States Of America As Represented By The Secretary Of The Army Space variant signal processor
JPS61234687A (ja) * 1985-04-10 1986-10-18 Victor Co Of Japan Ltd 位相検波回路
CN101477800A (zh) * 2008-12-31 2009-07-08 瑞声声学科技(深圳)有限公司 语音增强的方法
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4285048A (en) * 1979-06-27 1981-08-18 The United States Of America As Represented By The Secretary Of The Army Space variant signal processor
JPS61234687A (ja) * 1985-04-10 1986-10-18 Victor Co Of Japan Ltd 位相検波回路
CN101477800A (zh) * 2008-12-31 2009-07-08 瑞声声学科技(深圳)有限公司 语音增强的方法
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN104464728A (zh) * 2014-11-26 2015-03-25 河海大学 基于gmm噪声估计的语音增强方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481367A (zh) * 2017-08-11 2017-12-15 深圳市益鑫智能科技有限公司 一种基于语音识别的智能家居门禁系统
CN107481367B (zh) * 2017-08-11 2018-10-23 上海明日家居用品有限公司 一种基于语音识别的智能家居门禁系统
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN107493118A (zh) * 2017-09-01 2017-12-19 长沙海格北斗信息技术有限公司 信号获取方法及装置
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN109102823A (zh) * 2018-09-05 2018-12-28 河海大学 一种基于子带谱熵的语音增强方法
CN109102823B (zh) * 2018-09-05 2022-12-06 河海大学 一种基于子带谱熵的语音增强方法
CN108922514A (zh) * 2018-09-19 2018-11-30 河海大学 一种基于低频对数谱的鲁棒特征提取方法
CN109728860B (zh) * 2018-12-25 2021-08-06 江苏益邦电力科技有限公司 一种基于采集终端检测装置的通讯干扰抑制方法
CN109728860A (zh) * 2018-12-25 2019-05-07 江苏益邦电力科技有限公司 一种基于采集终端检测装置的通讯干扰抑制方法
CN110085214A (zh) * 2019-02-28 2019-08-02 北京字节跳动网络技术有限公司 音频起始点检测方法和装置
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN111105810B (zh) * 2019-12-27 2022-09-06 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质
CN111105810A (zh) * 2019-12-27 2020-05-05 西安讯飞超脑信息科技有限公司 一种噪声估计方法、装置、设备及可读存储介质
CN111144347A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111144347B (zh) * 2019-12-30 2023-06-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
WO2021196905A1 (zh) * 2020-04-01 2021-10-07 腾讯科技(深圳)有限公司 语音信号去混响处理方法、装置、计算机设备和存储介质
CN111508519A (zh) * 2020-04-03 2020-08-07 北京达佳互联信息技术有限公司 一种音频信号人声增强的方法及装置
CN111613239A (zh) * 2020-05-29 2020-09-01 北京达佳互联信息技术有限公司 音频去噪方法和装置、服务器、存储介质
CN111613239B (zh) * 2020-05-29 2023-09-05 北京达佳互联信息技术有限公司 音频去噪方法和装置、服务器、存储介质
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113096682B (zh) * 2021-03-20 2023-08-29 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置

Also Published As

Publication number Publication date
CN106340292B (zh) 2019-08-20

Similar Documents

Publication Publication Date Title
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN108831499A (zh) 利用语音存在概率的语音增强方法
CN103440872B (zh) 瞬态噪声的去噪方法
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN102347028A (zh) 双麦克风语音增强装置及方法
WO2015008699A1 (en) Method for processing acoustic signal
Osako et al. Complex recurrent neural networks for denoising speech signals
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
CN101853665A (zh) 语音中噪声的消除方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
EP3182413A1 (en) Adaptive line enhancer based method
Xu et al. U-former: Improving monaural speech enhancement with multi-head self and cross attention
Ambikairajah et al. Wavelet transform-based speech enhancement
CN103971697B (zh) 基于非局部均值滤波的语音增强方法
CN109102823A (zh) 一种基于子带谱熵的语音增强方法
Taşmaz et al. Speech enhancement based on undecimated wavelet packet-perceptual filterbanks and MMSE–STSA estimation in various noise environments
Astudillo et al. Uncertainty propagation
Nabi et al. A dual-channel noise reduction algorithm based on the coherence function and the bionic wavelet
Gupta et al. Speech enhancement using MMSE estimation and spectral subtraction methods
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230327

Address after: 210000 room 325, 3 / F, science and innovation center, No.1 Xiankun Road, Jianye District, Nanjing City, Jiangsu Province

Patentee after: Nanjing Saturn Information Technology Co.,Ltd.

Address before: 211100 No. 8 West Buddha Road, Jiangning District, Jiangsu, Nanjing

Patentee before: HOHAI University