CN106340292B - 一种基于连续噪声估计的语音增强方法 - Google Patents
一种基于连续噪声估计的语音增强方法 Download PDFInfo
- Publication number
- CN106340292B CN106340292B CN201610812074.4A CN201610812074A CN106340292B CN 106340292 B CN106340292 B CN 106340292B CN 201610812074 A CN201610812074 A CN 201610812074A CN 106340292 B CN106340292 B CN 106340292B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- noise
- speech
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 99
- 238000012549 training Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 210000005069 ears Anatomy 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000037433 frameshift Effects 0.000 claims description 2
- 230000014759 maintenance of location Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011541 reaction mixture Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开一种基于连续噪声估计的语音增强方法,在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计,利用估得的噪声均值恢复纯净语音。首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱,并利用预先训练得到的对数谱域语音模型从含噪语音的对数谱特征向量中实时提取噪声参数。最后,利用估得的噪声参数对含噪语音进行加权幅度谱减,并对增强语音的幅度和含噪语音的相位进行逆傅里叶变换和重叠相加,得到增强后的语音。本发明在含噪语音中对噪声参数按帧连续估计,实时跟踪噪声的变化。
Description
技术领域
本发明涉及到在对数谱域用预先训练的语音模型对背景噪声的参数进行连续估计,利用估得的噪声均值恢复纯净语音的语音增强方法,属于语音信号处理技术领域。
背景技术
在语音通信中,输入语音通常会受到背景噪声的干扰,因此有必要采用语音增强算法抑制噪声干扰,从含噪语音中尽可能恢复纯净语音,增加语音的可懂度。
在语音增强中,通常需要采用端点检测算法判断语音段的起点和终点,从而将含噪语音划分为语音段和噪声段。在噪声段,利用不含语音的纯噪声谱估计背景噪声的均值;在语音段的每一帧,利用估得的噪声均值对含噪语音的幅度谱进行谱减,得到纯净语音幅度谱的估计值。噪声估计是语音增强的关键技术之一,对语音间隙期的纯噪声谱进行平滑,可以得到较为准确的噪声参数。然而,实际环境中的背景噪声往往是非平稳的,当语音段较长时,如果不及时更新噪声参数,就有可能导致语音增强的结果出现较大的偏差,因此有必要在语音段也对噪声的参数进行更新。目前,逐帧估计噪声的主要方法是搜索一段时间内含噪语音频谱的最小值,用含噪语音频谱的最小值代表噪声频谱的大小。该方法虽然可以在语音段估计噪声的参数,但是也存在较长的延迟,即在噪声的类型或强度发生变化后,通常在2~3秒之后才能检测出噪声的变化,得到新的噪声参数。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种基于连续噪声估计的语音增强方法。
技术方案:一种基于连续噪声估计的语音增强方法,首先,对输入语音进行声学预处理和快速傅里叶变换(FFT:Fast Fourier Transform),得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱。如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型(GMM:Gaussian Mixture Model);如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值。得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱。最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT(Inverse Fast Fourier Transform)运算,恢复时域信号,并用重叠相加法得到增强后的语音。
训练阶段的具体步骤包括:
(1)在语音预处理阶段对纯净训练语音进行加窗、分帧,将训练语音分解为若干帧信号;
(2)对每一帧训练语音进行FFT运算,得到每帧信号的幅度谱;
(3)将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带,并将每个子带内的幅度谱相加,得到子带谱;
(4)对训练语音的子带谱进行对数变换,得到训练语音的对数谱;
(5)对训练语音的对数谱进行聚类,训练,得到纯净训练语音的GMM;
语音增强阶段的具体步骤包括:
(6)在语音预处理阶段对含噪输入语音进行加窗、分帧,将含噪输入语音分解为若干帧信号;
(7)对每一帧含噪语音进行FFT运算,得到每帧含噪语音的幅度谱和相位谱;
(8)采用与训练阶段相同的子带划分方法,将每个子带内的幅度谱相加,得到子带谱;
(9)对含噪语音的子带谱进行对数变换,得到含噪语音的对数谱;
(10)利用训练阶段得到的GMM从含噪语音的对数谱中估计噪声的均值;
(11)利用估得的噪声均值,对含噪语音的幅度谱进行加权谱减,得到增强后的语音幅度谱;
(12)对每帧信号增强后的幅度谱和含噪语音的相位谱进行IFFT运算,得到每帧时域信号;
(13)对语音全部帧的时域信号进行重叠相加,得到增强后的语音。
附图说明
图1为基于连续噪声估计的语音增强框架图,主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加9个模块。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于连续噪声估计的语音增强方法,首先,对输入语音进行声学预处理和快速傅里叶变换(FFT:Fast Fourier Transform),得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号。然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱。如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型(GMM:Gaussian Mixture Model);如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值。得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱。最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT(InverseFast Fourier Transform)运算,恢复时域信号,并用重叠相加法得到增强后的语音。
噪声估计在语音的对数谱域完成,噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。
在噪声估计时,不区分含噪语音的语音段和非语音段,而是按帧连续估计噪声,因而可以实时跟踪噪声的变化。
假设每个子带内所有数字频率处的噪声特性相同,且每个子带内所有数字频率处的过减系数也相同。
每个子带的过减系数由该子带预增强语音的对数谱值决定,对数谱值越大,过减系数就越小;反之,过过减系数就越大。
如图1所示,基于连续噪声估计的语音增强方法主要包括预处理、FFT、子带滤波、取对数、模型训练、噪声估计、幅度谱减、IFFT和重叠相加等模块。下面逐一详细说明附图中主要模块的具体实施方案。
1、语音预处理:
在语音预处理阶段,对纯净训练语音或待增强的含噪输入语音进行加窗,分帧,得到帧信号。窗函数采用海明窗;分帧时,帧移长度为帧长的一半,即前后帧之间一半采样点重叠。
2、FFT:
FFT的点数由采样频率决定,使每帧信号的持续时间在20毫秒左右。对纯净训练语音,只需要保留幅度谱,丢弃相位谱;对于待增强的含噪输入语音,需要同时保留幅度谱和相位谱,幅度谱用于噪声估计和幅度谱减,相位谱用于在后端恢复时域信号。一般认为相位对听觉系统的影响很小,可以直接用含噪语音的相位作为纯净语音的相位。
3、子带滤波:
将语音信号的频谱按照人耳的听觉特性划分为若干个不等宽且互不重叠的子带,并将每个子带内的幅度谱相加,得到子带谱。
假设语音信号的采样频率为32kHz,语音信号的有效频带在20Hz~15.5kHz之间,则每个子带的中心频率和频率范围如下表所示:
表1子带的中心频率和频率范围
子带序号 | 中心频率(Hz) | 频率范围(Hz) | 子带序号 | 中心频率(Hz) | 频率范围(Hz) |
1 | 50 | 20~100 | 13 | 1850 | 1720~2000 |
2 | 150 | 100~200 | 14 | 2150 | 2000~2320 |
3 | 250 | 200~300 | 15 | 2500 | 2320~2700 |
4 | 350 | 200~400 | 16 | 2900 | 2700~3150 |
5 | 450 | 400~510 | 17 | 3400 | 3150~3700 |
6 | 570 | 510~630 | 18 | 4000 | 3700~4400 |
7 | 700 | 630~770 | 19 | 4800 | 4400~5300 |
8 | 840 | 770~920 | 20 | 5800 | 5300~6400 |
9 | 1000 | 920~1080 | 21 | 7000 | 6400~7700 |
10 | 1170 | 1080~1270 | 22 | 8500 | 7700~9500 |
11 | 1370 | 1270~1480 | 23 | 10500 | 9500~12000 |
12 | 1600 | 1480~1720 | 24 | 13500 | 12000~15500 |
4、取对数:
对每帧子带谱,按下式进行取对数操作:
其中,和xt分别表示第t帧纯净训练语音的子带谱和对数谱。
5、模型训练:
在训练阶段,用纯净训练语音的对数谱训练生成一个GMM:
其中,cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D表示语音频谱的子带数目,即向量xt的维数。
6、噪声估计:
首先利用训练阶段得到的GMM从含噪语音的对数谱yt中估计对数谱域的噪声均值μn:
其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率;和Um为:
式(4)中,μn0表示μn的初值;式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵。
得到对数谱域的噪声均值μn后,用下式将其变换回幅度谱域:
其中,μn,l是μn的第l个元素,即第l个子带上的分量,Dl是第l个子带包含的频点的个数,N(l)是第l个子带上所有频点的噪声均值。这里假设每个子带上所有频点的噪声均值相同,这样就可以得到每个频点处的噪声均值N(k)(k为FFT的数字频率序号)。
7、幅度谱减:
设|Y(k)|为含噪语音的幅度谱,先用下式对含噪语音进行预增强:
对预增强后的语音幅度谱进行子带滤波和取对数运算,得到预增强语音的对数谱有D个元素:将这D个元素的最小值和最大值分别记为和幅度谱减的过减系数α(l)用下式计算:
其中,αmin和αmax分别表示过减系数α(l)的最小值和最大值,通常可取0.5和6。假设每个子带内的所有频点具有相同的过减系数,这样就可以得到每个数字频率处的过减系数α(k)。因此,可以用下式估计纯净语音的幅度谱
其中,β(k)为噪声保留系数,通常可取常数0.01。根据式(7)估得的预增强信号小于阈值,则认为该帧为非语音帧,按下式进行处理:
9、IFFT:
将含噪语音相位作为纯净语音相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱,并对其进行IFFT运算,得到时域信号。
10、重叠相加:
将IFFT得到的每帧信号的时域信号进行重叠相加,得到增强后的语音。
Claims (4)
1.一种基于连续噪声估计的语音增强方法,其特征在于:首先,对输入语音进行声学预处理和快速傅里叶变换,得到每一帧数字语音的幅度和相位,幅度用于噪声估计和幅度谱减,相位用于恢复时域信号;然后,对数字语音的幅度谱进行子带滤波和取对数运算,得到对数谱;如果输入语音是纯净训练语音,则对数谱用于模型训练,得到高斯混合模型;如果输入语音是待增强的含噪语音,则对数谱用于噪声估计,得到噪声的均值;得到噪声均值后,即可对含噪语音进行加权幅度谱减,得到增强后的幅度谱;最后,对含噪语音的相位和估得的纯净语音幅度进行IFFT运算,恢复时域信号,并用重叠相加法得到增强后的语音;
根据人耳的听觉特性将语音信号的频谱划分为若干个不等宽且互不重叠的子带,并将语音信号在每个子带内的幅度谱相加,得到子带谱;在训练阶段,对纯净训练语音的子带谱特征向量进行聚类,训练,得到纯净训练语音的GMM;利用纯净训练语音的GMM从含噪输入语音的对数谱特征中估计噪声均值,并将其变换回幅度谱域,得到背景噪声的均值向量;
对每帧子带谱,按下式进行取对数操作:
其中,和xt分别表示第t帧纯净训练语音的子带谱和对数谱;
在训练阶段,用纯净训练语音的对数谱训练生成一个GMM:
其中,cm,μx,m和Σx,m分别表示该GMM第m个高斯单元的混合系数、均值向量和协方差矩阵;D表示语音频谱的子带数目,即向量xt的维数;利用训练阶段得到的GMM从含噪语音的对数谱yt中估计对数谱域的噪声均值μn:
其中,γm(t)=P(kt=m|yt,λ)表示给定GMM的先验参数λ时,第t帧含噪语音对数向量yt属于GMM第m个高斯单元的后验概率;和Um为:
式(4)中,μn0表示μn的初值;式(5)中,diag()表示以括号中的向量元素为对角元素,生成对角矩阵;
得到对数谱域的噪声均值μn后,用下式将其变换回幅度谱域:
其中,μn,l是μn的第l个元素,即第l个子带上的分量,Dl是第l个子带包含的频点的个数,N(l)是第l个子带上所有频点的噪声均值;这里假设每个子带上所有频点的噪声均值相同,这样就可以得到每个频点处的噪声均值N(k),其中,k为FFT的数字频率序号。
2.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:噪声估计在语音的对数谱域完成,噪声的对数谱域均值向量利用最大期望算法从含噪语音的对数谱特征向量中实时提取。
3.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:在语音预处理阶段,对纯净训练语音或待增强的含噪输入语音进行加窗,分帧,得到帧信号;窗函数采用海明窗;分帧时,帧移长度为帧长的一半,即前后帧之间一半采样点重叠。
4.如权利要求1所述的基于连续噪声估计的语音增强方法,其特征在于:设|Y(k)|为含噪语音的幅度谱,先用下式对含噪语音进行预增强:
对预增强后的语音幅度谱进行子带滤波和取对数运算,得到预增强语音的对数谱 有D个元素:将这D个元素的最小值和最大值分别记为和幅度谱减的过减系数α(l)用下式计算:
其中,αmin和αmax分别表示过减系数α(l)的最小值和最大值;假设每个子带内的所有频点具有相同的过减系数,这样就可以得到每个数字频率处的过减系数α(k);因此,可以用下式估计纯净语音的幅度谱
其中,β(k)为噪声保留系数;根据式(7)估得的预增强信号小于阈值,则认为该帧为非语音帧,按下式进行处理:
将含噪语音相位作为纯净语音相位,与纯净语音幅度谱的估计值相乘,得到纯净语音的完整频谱,并对其进行IFFT运算,得到时域信号;
将IFFT得到的每帧信号的时域信号进行重叠相加,得到增强后的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610812074.4A CN106340292B (zh) | 2016-09-08 | 2016-09-08 | 一种基于连续噪声估计的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610812074.4A CN106340292B (zh) | 2016-09-08 | 2016-09-08 | 一种基于连续噪声估计的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106340292A CN106340292A (zh) | 2017-01-18 |
CN106340292B true CN106340292B (zh) | 2019-08-20 |
Family
ID=57823878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610812074.4A Active CN106340292B (zh) | 2016-09-08 | 2016-09-08 | 一种基于连续噪声估计的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106340292B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481367B (zh) * | 2017-08-11 | 2018-10-23 | 上海明日家居用品有限公司 | 一种基于语音识别的智能家居门禁系统 |
CN109427340A (zh) * | 2017-08-22 | 2019-03-05 | 杭州海康威视数字技术股份有限公司 | 一种语音增强方法、装置及电子设备 |
CN107493118B (zh) * | 2017-09-01 | 2020-01-24 | 长沙海格北斗信息技术有限公司 | 信号获取方法及装置 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN109102823B (zh) * | 2018-09-05 | 2022-12-06 | 河海大学 | 一种基于子带谱熵的语音增强方法 |
CN108922514B (zh) * | 2018-09-19 | 2023-03-21 | 河海大学 | 一种基于低频对数谱的鲁棒特征提取方法 |
CN109728860B (zh) * | 2018-12-25 | 2021-08-06 | 江苏益邦电力科技有限公司 | 一种基于采集终端检测装置的通讯干扰抑制方法 |
CN110085214B (zh) * | 2019-02-28 | 2021-07-20 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
CN109945900A (zh) * | 2019-03-11 | 2019-06-28 | 南京智慧基础设施技术研究院有限公司 | 一种分布式的光纤传感方法 |
CN111105810B (zh) * | 2019-12-27 | 2022-09-06 | 西安讯飞超脑信息科技有限公司 | 一种噪声估计方法、装置、设备及可读存储介质 |
CN111144347B (zh) * | 2019-12-30 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、平台及存储介质 |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN111508519B (zh) * | 2020-04-03 | 2022-04-26 | 北京达佳互联信息技术有限公司 | 一种音频信号人声增强的方法及装置 |
CN111613239B (zh) * | 2020-05-29 | 2023-09-05 | 北京达佳互联信息技术有限公司 | 音频去噪方法和装置、服务器、存储介质 |
CN113096682B (zh) * | 2021-03-20 | 2023-08-29 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN117392979B (zh) * | 2023-10-23 | 2024-07-19 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4285048A (en) * | 1979-06-27 | 1981-08-18 | The United States Of America As Represented By The Secretary Of The Army | Space variant signal processor |
JPS61234687A (ja) * | 1985-04-10 | 1986-10-18 | Victor Co Of Japan Ltd | 位相検波回路 |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103310789A (zh) * | 2013-05-08 | 2013-09-18 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
-
2016
- 2016-09-08 CN CN201610812074.4A patent/CN106340292B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4285048A (en) * | 1979-06-27 | 1981-08-18 | The United States Of America As Represented By The Secretary Of The Army | Space variant signal processor |
JPS61234687A (ja) * | 1985-04-10 | 1986-10-18 | Victor Co Of Japan Ltd | 位相検波回路 |
CN101477800A (zh) * | 2008-12-31 | 2009-07-08 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103310789A (zh) * | 2013-05-08 | 2013-09-18 | 北京大学深圳研究生院 | 一种基于改进的并行模型组合的声音事件识别方法 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106340292A (zh) | 2017-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106340292B (zh) | 一种基于连续噪声估计的语音增强方法 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
CN100543842C (zh) | 基于多统计模型和最小均方误差实现背景噪声抑制的方法 | |
EP2031583B1 (en) | Fast estimation of spectral noise power density for speech signal enhancement | |
CN104464728A (zh) | 基于gmm噪声估计的语音增强方法 | |
CN103021420A (zh) | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 | |
CN106885971A (zh) | 一种用于电缆故障检测定点仪的智能背景降噪方法 | |
US10741194B2 (en) | Signal processing apparatus, signal processing method, signal processing program | |
Osako et al. | Complex recurrent neural networks for denoising speech signals | |
CN102969000A (zh) | 一种多通道语音增强方法 | |
CN101853665A (zh) | 语音中噪声的消除方法 | |
Islam et al. | Speech enhancement based on a modified spectral subtraction method | |
WO2009043066A1 (en) | Method and device for low-latency auditory model-based single-channel speech enhancement | |
Kantamaneni et al. | Speech enhancement with noise estimation and filtration using deep learning models | |
WO2020024787A1 (zh) | 音乐噪声抑制方法及装置 | |
CN109102823B (zh) | 一种基于子带谱熵的语音增强方法 | |
Ambikairajah et al. | Wavelet transform-based speech enhancement | |
Gupta et al. | Speech enhancement using MMSE estimation and spectral subtraction methods | |
CN112233657A (zh) | 一种基于低频音节识别的语音增强方法 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
Kirubagari et al. | Speech enhancement using minimum mean square error filter and spectral subtraction filter | |
Islam et al. | Speech enhancement based on noise compensated magnitude spectrum | |
CN108074580B (zh) | 一种噪声消除方法及装置 | |
Sunnydayal et al. | Speech enhancement using sub-band wiener filter with pitch synchronous analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230327 Address after: 210000 room 325, 3 / F, science and innovation center, No.1 Xiankun Road, Jianye District, Nanjing City, Jiangsu Province Patentee after: Nanjing Saturn Information Technology Co.,Ltd. Address before: 211100 No. 8 West Buddha Road, Jiangning District, Jiangsu, Nanjing Patentee before: HOHAI University |