CN112767962A - 一种语音增强方法及系统 - Google Patents

一种语音增强方法及系统 Download PDF

Info

Publication number
CN112767962A
CN112767962A CN202110225559.4A CN202110225559A CN112767962A CN 112767962 A CN112767962 A CN 112767962A CN 202110225559 A CN202110225559 A CN 202110225559A CN 112767962 A CN112767962 A CN 112767962A
Authority
CN
China
Prior art keywords
noise ratio
estimation
voice
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110225559.4A
Other languages
English (en)
Other versions
CN112767962B (zh
Inventor
文彬
杨涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202110225559.4A priority Critical patent/CN112767962B/zh
Publication of CN112767962A publication Critical patent/CN112767962A/zh
Application granted granted Critical
Publication of CN112767962B publication Critical patent/CN112767962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

本发明提供一种语音增强方法及系统,所述方法包括:对待增强语音进行分帧、加窗、快速傅里叶变换(Fast Fourier Transformation,FFT),将每一帧数据通过FFT转换到频域;采用直接判决法对当前帧先验信噪比进行初次估计;利用初次估计的先验信噪比对当前帧的纯净语音进行初次估计;利用所述当前帧的纯净语音初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;利用二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。本发明采用直接判决法和维纳滤波法结合,得到最终的语音增强结果,降低了混响效应。

Description

一种语音增强方法及系统
技术领域
本发明涉及语音处理技术领域,具体而言,涉及一种语音增强方法及系统。
背景技术
麦克风采集到的语音信号包含多种噪声,如鸣笛声、风扇声等,严重影响采集到的目标语音质量及可懂度,因此,对麦克风采集到的语音信号进行降噪处理至关重要。麦克风语音信号的降噪又称语音增强,根据信道数的不同,语音增强方法可分为单麦克风语音增强方法和多麦克风语音增强方法。其中,单麦克风语音增强技术仅需要一路语音信号即可实现语音增强,对麦克风的尺寸、功耗具有较低的要求。传统的单麦克风语音增强技术有多种,包括谱减法、最小均方误差法、维纳滤波法等,这些方法各有优缺点,在应用过程中需要根据实际需求灵活选取。
在使用单麦克风语音增强方法进行语音增强时,往往需要对不含语音的纯噪声段进行估计,并根据语音段每一帧信号的信噪比进行噪声去除。信噪比包括先验信噪比和后验信噪比,两者都可用于语音增强,但很多实践表明,基于先验信噪比的语音增强方法具有更优的效果。目前,先验信噪比的估计一般采用直接判决法(Decision Directed,DD)进行,但该方法由于在先验信噪比估计过程中使用了当前帧前一帧的数据,因此会引入混响效应。
发明内容
鉴于此,本发明提出一种基于先验信噪比优化估计的单麦克风语音增强方法。在语音增强过程中,首先利用传统的直接判决法对当前帧先验信噪比进行初次估计,并利用维纳滤波器对当前帧纯净语音进行初次估计;之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计,并结合维纳滤波器得到纯净语音的二次估计。最后,将二次估计的纯净语音转换到时域,得到的语音增强结果降低了混响效应。
本发明提供一种语音增强方法,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
Figure BDA0002955777850000021
其中,
Figure BDA0002955777850000022
是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
Figure BDA0002955777850000023
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
Figure BDA0002955777850000024
其中,
Figure BDA0002955777850000025
是初次维纳滤波器增益函数;
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
Figure BDA0002955777850000031
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
利用步骤S3中计算的初次维纳滤波器增益函数
Figure BDA0002955777850000032
对当前帧的后一帧进行先验信噪比估计,并将其作为当前帧的先验信噪比的二次估计值,具体计算公式为:
Figure BDA0002955777850000033
其中,
Figure BDA0002955777850000034
是先验信噪比的二次估计值,β′是第二判决因子;
将β′的值取为1,上式变为:
Figure BDA0002955777850000035
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
Figure BDA0002955777850000041
其中,
Figure BDA0002955777850000042
是二次维纳滤波器增益函数;
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
Figure BDA0002955777850000043
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhonce(t)=ifft(S2nd(p,k)) (9)
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
进一步地,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
本发明还提供一种语音增强系统,使用如上述所述的语音增强方法,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
与现有技术相比,本发明的有益效果是:
采用直接判决法和维纳滤波法结合,在语音增强过程中,首先利用传统的直接判决法对当前帧先验信噪比进行初次估计,并利用维纳滤波器对当前帧纯净语音进行初次估计;之后利用当前帧的纯净语音估计对当前帧先验信噪比进行二次估计,并结合维纳滤波器得到纯净语音的二次估计。最后,将二次估计的纯净语音转换到时域,得到最终的语音增强结果,降低了混响效应。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
在附图中:
图1是本发明实施例的SNR=5dB仿真去噪效果图;
图2是本发明实施例的SNR=10dB仿真去噪效果图;
图3是本发明一种语音增强方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本发明基于证书技术、基于属性的细粒度访问控制技术,针对虚拟机、容器等联合部署的云数据中心,构建云服务统一控制系统,包括密码模块、服务发现模块、安全处理模块、访问代理、访问信息数据库、规则管理模块,以及云数据中心设计部署的服务发现代理,并通过权威的证书颁发机构(Certificate Authority,简称CA)的配合,保障数据中心不同层面的云服务能够被云服务统一控制系统自动发现,且统一控制,只允许被授权用户合法访问,实现云服务统一控制系统与云操作系统的联动。
本发明实施例一种语音增强方法,参见图3所示,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
Figure BDA0002955777850000071
其中,
Figure BDA0002955777850000072
是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
Figure BDA0002955777850000073
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
Figure BDA0002955777850000081
其中,
Figure BDA0002955777850000082
是初次维纳滤波器增益函数;
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
Figure BDA0002955777850000083
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
利用步骤S3中计算的初次维纳滤波器增益函数
Figure BDA0002955777850000084
对当前帧的后一帧进行先验信噪比估计,并将其作为当前帧的先验信噪比的二次估计值,具体计算公式为:
Figure BDA0002955777850000085
其中,
Figure BDA0002955777850000086
是先验信噪比的二次估计值,β′是第二判决因子;
将β′的值取为1,上式变为:
Figure BDA0002955777850000087
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
Figure BDA0002955777850000091
其中,
Figure BDA0002955777850000092
是二次维纳滤波器增益函数;
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
Figure BDA0002955777850000093
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhance(t)=ifft(S2nd(p,k)) (9)
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
本发明还提供一种语音增强系统,使用如上述所述的语音增强方法,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
本实施例为验证上述语音增强方法的实际效果,采用一段2.6s的纯净语音对其去噪性能进行了仿真验证。仿真过程中,分别向纯净语音中添加信噪比(Signal to NoiseRatio,SNR)为5dB、10dB的白噪声,之后采用上述语音增强方法对含噪语音进行语音增强。图1、图2分别展示了5dB、10dB信噪比情况下的纯净语音信号、含噪语音信号以及增强语音信号的时域波形图。由图1和图2可知,在两种信噪比条件下,采用上述语音增强方法得到的增强语音与原始纯净语音具有十分相似的时域波形,验证了该方法的有效性。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种语音增强方法,其特征在于,包括以下步骤:
S1、对待增强语音进行分帧、加窗以及FFT,将每一帧数据通过FFT转换到频域;
S2、采用直接判决法对所述每一帧数据的先验信噪比进行初次估计;
所述每一帧的先验信噪比初次估计的方法为:
Figure FDA0002955777840000011
其中,
Figure FDA0002955777840000012
是先验信噪比的初次估计值,S(p-1,k)为当前帧前一帧的纯净语音估计值,γn(p)为噪声能量谱,p为帧序号,k为频率,β是判决因子,一般取0.98,P代表半波整流算子,SNRpost(p,k)为当前帧的后验信噪比,其计算公式为:
Figure FDA0002955777840000013
其中,X(p,k)为含噪语音信号;
S3、利用步骤S2中初次估计的当前帧的先验信噪比对当前帧的纯净语音进行初次估计;
得到当前帧的纯净语音的初次估计值后,根据式(3)得到对应的初次维纳滤波器增益函数:
Figure FDA0002955777840000014
其中,
Figure FDA0002955777840000015
是初次维纳滤波器增益函数;
根据式(3)得到的初次维纳滤波器增益函数,通过式(4)得到当前帧的纯净语音的初次估计值;
Figure FDA0002955777840000021
其中,S1st(p,k)是纯净语音的初次估计值;
S4、利用所述当前帧的纯净语音的初次估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
利用步骤S3中计算的初次维纳滤波器增益函数
Figure FDA0002955777840000022
对当前帧的后一帧进行先验信噪比估计,并将其作为当前帧的先验信噪比的二次估计值,具体计算公式为:
Figure FDA0002955777840000023
其中,
Figure FDA0002955777840000024
是先验信噪比的二次估计值,β′是第二判决因子;
将β′的值取为1,上式变为:
Figure FDA0002955777840000025
式(6)记为先验信噪比的二次估计公式;
S5、利用步骤S4中二次估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果;
所述二次估计后,根据式(7)得到对应的二次维纳滤波器增益函数:
Figure FDA0002955777840000026
其中,
Figure FDA0002955777840000031
是二次维纳滤波器增益函数;
根据式(7)得到的二次维纳滤波器增益函数,通过式(8)得到纯净语音的二次估计值,作为最终的频域增强语音:
Figure FDA0002955777840000032
其中,S2nd(p,k)是纯净语音的二次估计值;
将所述最终的频域增强语音进行反傅里叶变换转换到时域,通过式(9)得到时域增强语音:
Senhance(t)=ifft(S2nd(p,k)) (9);
其中,Senhance(t)是时域增强语音,ifft是快速傅里叶逆变换。
2.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.95-20.05ms;
帧移:9.95-10.05ms;
窗函数:hanning窗;
FFT点数:1024。
3.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:19.98-20.02ms;
帧移:9.98-10.02ms;
窗函数:hanning窗;
FFT点数:1024。
4.根据权利要求1所述的语音增强方法,其特征在于,所述S1步骤中的所述对待增强语音进行分帧、加窗以及FFT的关键参数为:
帧长:20ms;
帧移:10ms;
窗函数:hanning窗;
FFT点数:1024。
5.一种语音增强系统,使用如权利要求1-4任一项所述的语音增强方法,其特征在于,包括:
预处理模块:用于对待增强语音进行分帧、加窗、FFT,将每一帧数据通过FFT转换到频域;
先验信噪比初次估计模块:用于采用直接判决法对当前帧先验信噪比进行初次估计;
纯净语音初次估计模块:用于利用步骤S2中估计的先验信噪比对当前帧的纯净语音进行初次估计;
先验信噪比二次估计模块:用于利用所述当前帧的纯净语音估计值和后一帧的后验信噪比对当前帧的先验信噪比进行二次估计;
纯净语音二次估计及反傅里叶变换模块:利用步骤S4中估计的先验信噪比对纯净语音进行二次估计,并将二次估计的纯净语音进行反傅里叶变换转换到时域,作为最终的语音增强结果。
CN202110225559.4A 2021-03-01 2021-03-01 一种语音增强方法及系统 Active CN112767962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110225559.4A CN112767962B (zh) 2021-03-01 2021-03-01 一种语音增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110225559.4A CN112767962B (zh) 2021-03-01 2021-03-01 一种语音增强方法及系统

Publications (2)

Publication Number Publication Date
CN112767962A true CN112767962A (zh) 2021-05-07
CN112767962B CN112767962B (zh) 2021-08-03

Family

ID=75704342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110225559.4A Active CN112767962B (zh) 2021-03-01 2021-03-01 一种语音增强方法及系统

Country Status (1)

Country Link
CN (1) CN112767962B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255535A1 (en) * 2004-09-16 2007-11-01 France Telecom Method of Processing a Noisy Sound Signal and Device for Implementing Said Method
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN103187068A (zh) * 2011-12-30 2013-07-03 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法
CN108696791A (zh) * 2017-04-10 2018-10-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种单麦克风的组合感知增益函数语音增强方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255535A1 (en) * 2004-09-16 2007-11-01 France Telecom Method of Processing a Noisy Sound Signal and Device for Implementing Said Method
CN101976566A (zh) * 2010-07-09 2011-02-16 瑞声声学科技(深圳)有限公司 语音增强方法及应用该方法的装置
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN103187068A (zh) * 2011-12-30 2013-07-03 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN108696791A (zh) * 2017-04-10 2018-10-23 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种单麦克风的组合感知增益函数语音增强方法
CN107680609A (zh) * 2017-09-12 2018-02-09 桂林电子科技大学 一种基于噪声功率谱密度的双通道语音增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BW FAN ETC: "The improvement and realization of speech enhancement algorithm based on Wiener filtering", 《INTERNATIONAL CONGRESS ON IMAGE & SIGNAL PROCESSING》 *
张龙: "有监督学习条件下的单通道语音增强算法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Also Published As

Publication number Publication date
CN112767962B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
Mack et al. Deep filtering: Signal extraction and reconstruction using complex time-frequency filters
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
Nakatani et al. Speech dereverberation based on variance-normalized delayed linear prediction
Sawada et al. Blind extraction of dominant target sources using ICA and time-frequency masking
CN112017682B (zh) 一种单通道语音同时降噪和去混响系统
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
Al-Karawi et al. Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions
JP7486266B2 (ja) 深層フィルタを決定するための方法および装置
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Payton et al. Comparison of a short-time speech-based intelligibility metric to the speech transmission index and intelligibility data
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
Wang et al. Deep neural network based supervised speech segregation generalizes to novel noises through large-scale training
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
Xiong et al. Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation.
Xu et al. Learning to separate voices by spatial regions
CN112767962B (zh) 一种语音增强方法及系统
Thiagarajan et al. Pitch-based voice activity detection for feedback cancellation and noise reduction in hearing aids
Lan et al. Research on speech enhancement algorithm of multiresolution cochleagram based on skip connection deep neural network
Miyazaki et al. Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
Zheng et al. SURE-MSE speech enhancement for robust speech recognition
Kodrasi et al. Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization
Hsieh et al. Histogram equalization of real and imaginary modulation spectra for noise-robust speech recognition.
Chazan et al. LCMV beamformer with DNN-based multichannel concurrent speakers detector
Bhatt et al. Secure speech enhancement using LPC based FEM in Wiener filter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant