CN108831499B - 利用语音存在概率的语音增强方法 - Google Patents

利用语音存在概率的语音增强方法 Download PDF

Info

Publication number
CN108831499B
CN108831499B CN201810516685.3A CN201810516685A CN108831499B CN 108831499 B CN108831499 B CN 108831499B CN 201810516685 A CN201810516685 A CN 201810516685A CN 108831499 B CN108831499 B CN 108831499B
Authority
CN
China
Prior art keywords
speech
voice
noise
frame
existence probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810516685.3A
Other languages
English (en)
Other versions
CN108831499A (zh
Inventor
管海清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN201810516685.3A priority Critical patent/CN108831499B/zh
Publication of CN108831499A publication Critical patent/CN108831499A/zh
Application granted granted Critical
Publication of CN108831499B publication Critical patent/CN108831499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种利用语音存在概率的语音增强方法,利用本发明处理后语音质量更高,降噪量更大。本发明通过下述技术方案予以实现:在MIS测度语音增强方法的基础上,利用语音存在概率,对输入带噪语音进行采样、分帧、加窗,再通过快速傅里叶变换FFT获得带噪语音频谱;然后对得到的语音频谱进行噪声估计,基于统计信息的非平稳噪声最小值搜索算法,利用帧间相关性进行前后帧噪声估计值之间的平滑,估计出噪声功率谱;同时平滑前后几帧求得的语音先验信噪比估计值;然后将语音存在概率和MIS测度增益因子结合起来,将求得的带噪语音频谱乘以新增益因子,得到增强过后的语音的频谱;再做快速傅里叶反变换IFFT,得到增强过后时域语音信号。

Description

利用语音存在概率的语音增强方法
技术领域
本发明涉及一种无线通信领域的语音增强方法,特别是语音处理系统中利用语音存在概率的语音增强方法。
背景技术
语言是人类交流的主要媒介之一,而语音则是其重要的表现形式。在日常社会生活中,语音交流的场景随处可见,如电话通信、人工耳蜗和人机交互系统,各种各样的噪声会不可避免地掺杂在语音信号当中,导致语音信号的可懂度降低。语音信号一般可分为无声段、清音段和浊音段。无声段是背景噪声段,平均能量最低;浊音段为声带振动发出对应的语音信号段,平均能量最高;清音段是空气在口腔中的摩擦、冲击或爆破而发出的语音信号段,平均能量居于前两者之间。由于噪声与语音信号在频域中的重叠特性,在消除噪声,提高语音信号的信噪比的同时必然会或多或少地引起原始语音信号的失真。在实际的语音采集设备和语音采集环境下,由于不能得到纯净的语音,语音会被各种背景噪声污染,被污染的语音信号的信噪比和听觉舒适度会有所下降,影响语音在其应用场景中的使用效果,比如语音调制、语音解调、说话人辨识或者语音识别等应用场景。
在实际应用的语音通信系统中,待分析的语音信号通常是被噪声污染的带噪语音,正是由于环境噪声的存在,严重影响了语音通信系统的性能。
语音增强是解决噪声污染、提高语音质量的一种非常有效的方法。语音增强的目的是尽可能地从被污染的语音信号中提取出纯净的语音信号,改善语音质量。语音增强技术广泛应用于各种实际的通信系统中。
语音增强方法众多,已知的语音增强算法从算法理论上可以分为谱减法,基于统计模型和基于信号子空间的语音增强算法。谱减算法是一种传统的语音增强算法,其计算简单、实时性好。谱减法由于其简单有效性已为许多实际数字语音处理系统所采用。传统的谱减法及改进型谱减法虽然实现起来简单,运算量小,确实能在一定程度上抑制噪声,但是当信噪比较低时候,很容易造成语音失真,并可能带来新的噪声,影响听感;由于噪声与语音信号在频域中的重叠特性,在消除噪声,提高语音信号的信噪比的同时必然会引起原始语音信号的失真。常规谱减法还会产生较强的残留音乐噪声。低信噪比下,谱减语音增强法中一直存在的去噪度、残留的音乐噪声和语音畸变度三者间均衡这一关键问题,如何兼顾去噪度,噪声残留和减少语音失真是不少学者致力研究的课题。基于信号子空间的语音增强算法虽然可以显著改善语音增强效果,但是对噪声突然上升时或者噪声突然下降时的估计,存在较大的延时性,且往往需要进行矩阵分解,运算量巨大,不利于工程实现。
国外学者Itakura-satio提出了一种MIS(modified Itakura-satio)测度语音增强方法。该种方法运算量相对较小,可以保证语音增强后的失真度较小,便于工程实现,相比传统的方法,对降噪量也有一定的提升。但是这种方法,对无话段的残留噪声抑制效果不足,往往无话段仍然有较大的噪声残留,对人的听觉体验依旧有一定的影响。
本发明是针对MIS测度语音增强方法的改进。
发明内容
本发明是针对现有技术的不足之处,尤其是针对MIS测度语音增强方法的不足之处,提出一种处理后语音质量更高,降噪量更大的方法。
上述目的可以通过以下措施来达到。本发明提供了一种利用语音存在概率的语音增强方法,其特征在于包括如下步骤:在MIS测度语音增强方法的基础上,利用语音存在概率,对输入带噪语音进行采样、分帧、加窗,再通过快速傅里叶变换FFT获得带噪语音频谱;然后对得到的语音频谱进行噪声估计,基于统计信息的非平稳噪声最小值搜索算法,利用帧间相关性进行前后帧噪声估计值之间的平滑,估计出噪声功率谱,平滑参数由频带语音存在概率自适应调整;得到噪声估计后,根据带噪语音幅度谱与估计的噪声谱求得后验信噪比估计值,再根据语音帧之间的相关性,利用前一帧估计的先验信噪比值平滑和当前帧的后验信噪比值得到当前帧的估计先验信噪比值;根据求得的先验信噪比和先验语音不存在概率,利用MIS的增益因子计算公式得到MIS增益因子G1(k,l);同时平滑前后几帧求得的语音先验信噪比估计值,并利用频带间和帧间相关性求得每帧每个频点的先验语音不存在概率;根据后验信噪比、先验信噪比和先验语音不存在概率求得每帧每个频带的语音存在概率,然后将语音存在概率和MIS测度增益因子结合起来,得到新的增益因子Gnew(k,l);并将求得的带噪语音频谱乘以新增益因子,得到增强过后的语音的频谱;再对求得的频谱做快速傅里叶反变换IFFT,得到增强过后时域语音信号,通过合成窗,采用重叠相加法最终输出语音。
本发明相比于现有技术具有如下有益效果:
本发明采用快速傅里叶变换FTT获的傅里叶变换点数的语音频谱;然后对得到的语音频谱进行噪声估计,从带噪语音中提取出纯净语音,基于统计信息的非平稳噪声自适应算法, 利用帧间相关性估计纯净语音存在概率,控制搜索窗长度,在基于语音存在概率来计算时频平滑参数,估计纯净语音的功率谱;得到噪声估计后,根据带噪语音幅度谱与估计的噪声谱,计算每帧每个频率点的语音存在概率,将语音存在概率引入MIS测度增益函数,通过MIS测度增益函数求得先验信噪比及先验语音信噪比不存在概率,取幅度平方,运算量不大,比较适中。
本发明在MIS测度语音增强方法的基础上,利用语音存在概率即对每一个频带估计一个语音存在概率,可以较好的区分语音频带和噪声频带,能更好的区分有声与无声段,并进行增益因子的求解,能够准确跟踪噪声功率谱、快速跟踪噪声功率谱变化,可以在一定程度上提高增强后语音信号的质量,从而对噪声有更好的抑制,有效地改善了增强后语音的质量,不仅能够进一步提高增强语音的信噪比,而且可以有效减小增强语音的失真度,提高增强语音的主观感知质量。
增强后语音质量更高。本发明在MIS测度语音增强方法的基础上,利用语音存在概率即对每一个频带估计一个语音存在概率,可以较好的区分语音频带和噪声频带,并进行增益因子的求解,可以在一定程度上提高增强后语音信号的质量,从而对噪声有更好的抑制,不仅能够进一步提高增强语音的信噪比,而且可以有效减小增强语音的失真度,提高增强语音的主观感知质量。
降噪量更大。本发明针对强噪声环境下,MIS语音增强算法噪声抑制能力不足做了改进。MIS测度语音增强方法本身可以降低一些噪声,但是残留噪声依然很大。针对噪声波动较大的语音增强场景,残留噪声会更大。利用语音存在概率p(k,l)结合修正MIS测度语音增强算法的增益因子G1(k,l)求得新的增益因子Gnew(k.l),这一过程很好的利用了语音存在概率值的大小调节对频带的衰减程度,这样做能保证在无话段有更大的降噪量。
附图说明
图1是本发明是利用语音存在概率语音增强处理流程示意图。
图2是本发明求解帧语音存在概率Pframe计算框图。
图3是图1的新增益因子求解框图。
下面结合附图及具体实施例,对本发明进行详细说明。
具体实施方式
参阅图1。根据本发明,采用如下步骤:
(1)对输入带噪语音进行采样、分帧、加窗;
(2)通过快速傅里叶变换FFT获得带噪语音频谱Y(k,l),k表示频点数,l表示帧数(后面k和l表示相同含义);
(3)根据MIS测度语音增强方法计算增益因子G1(k,l)及噪声估计谱λd(k,l);
(4)利用噪声估计谱求得先验信噪比,并通过该先验信噪比求得语音存在概率p(k,l);
(5)利用增益因子G1(k,l)和p(k,l),求得新的增益因子Gnew(k,l);
(6)将带噪语音的频谱Y(k,l)与新的增益因子Gnew(k,l)相乘得到增强过后的语音的频谱
Figure RE-GDA0001732259270000041
(7)对频谱
Figure RE-GDA0001732259270000042
做快速傅里叶反变换IFFT,得到增强过后的时域语音信号,采用重叠相加法输出最终增强后的语音。
在上述骤(4)中,根据带噪语音谱Y(k,l)与估计的噪声谱λd(k,l)的比值求得后验信噪比γ(k,l),并通过先验信噪比迭代公式
Figure RE-GDA0001732259270000043
求得先验信噪比
Figure RE-GDA0001732259270000044
其中,α为0.7,max(·)表示取最大值,γ(k,l)是求取的后验信噪比。先验语音不存在概率根据公式
Figure RE-GDA0001732259270000045
计算得到,其中Plocal(k,l)代表局部语音存在概率,Pglobal(k,l)代表全局语音存在概率,Pframe(l)代表帧语音存在概率,最后根据语音存在概率计算公式
Figure RE-GDA0001732259270000046
求得最终的语音存在概率。
所述步骤(5)中,利用的语音存在概率p(k,l),以及最小经验值常数Gmin(0.03)和增益因子G1(k,l),求得新的增益因子Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l))。
在所例示的框图中,在语音输入后,将带噪语音采样、分帧、加窗,采样率8000Hz,量化位数为16位,分帧长度256点,分帧重叠128点;16位量化后的一帧输入带噪语音数据y(l);然后采用快速傅里叶变换FFT求语音频谱Y(k,l),k表示第k个频带,l表示帧数,傅里叶变换点数为256点;根据求得的语音频谱取幅度平方得|Y(k,l)|2,利用MIS的增益因子计算公式得到MIS增益因子G1(k,l)以及噪声估计λd(k,l)后;将语音存在概率和MIS测度增益因子结合起来,利用概率二元模型得到增强后语音的新增益因子 Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l)),其中,Gmin为最小衰减限制,取值0.03;并将上述求取得到的带噪语音频谱Y(k,l)乘以新增益因子Gnew(k,l),得到增强过后的语音频谱
Figure BDA0001673458790000047
再对求得的频谱做快速傅里叶反变换IFFT,得到增强过后时域语音信号,通过合成窗并利用重叠相加法,输出增强后语音
Figure BDA0001673458790000051
其中傅里叶反变换点数为256点,重叠128点。
参阅图2。图2为求语音存在概率步骤中比较重要的一个参数的求解过程,即计算求解一个当前帧语音存在概率参数Pframe(l),语音帧间的当前帧语音存在概率参数Pframe(l)可以根据先验信噪比的递归平均的频带均值来求取。根据先验信噪比
Figure BDA0001673458790000052
的递归平均公式
Figure BDA0001673458790000053
求得先验信噪比
Figure BDA0001673458790000054
的递归平均ζ(k,l),根据公式
Figure BDA0001673458790000055
对ζ(k,l)在频域上做平均求得ζframe(l),其中,k是第k个频点, l表示第l帧,β为一时间常数,M为帧重叠长度。
若分帧加窗的当前帧ζframe(l)≤ζmin,则概率参数Pframe(l)=0,若ζframe(l)>ζmin,则进行当前帧ζframe(l)与上一帧ζframe(l-1)的大小判断,若ζframe(l)大于ζframe(l-1),则计算先验信噪比的递归平均ζframe(l)的极大值ζpeak(l),计算公式为ζpeak(l)=min{max[ζframe(l),ζpmin],ζpmax},其中ζpeak(l)为某一范围内ζframe(l)的峰值, min(·)表示取最小值,max(·)表示取最大值,ζpmin和ζpmax为经验常数。概率参数Pframe(l)=1,若峰值ζframe(l)小于或等于ζframe(l-1),则概率参数Pframe(l)=μ(l),
Figure BDA0001673458790000056
其中ζpeak(l)为某一范围内ζframe(l) 的峰值,ζpmin和ζpmax为经验常数,log(·)表示取对数,μ(k,l)为保存语音帧存在概率的临时值。
参阅图3。得到噪声估计后,根据带噪语音谱Y(k,l)与估计的噪声谱λd(k,l)的比值求得后验信噪比γ(k,l),并通过先验信噪比迭代公式
Figure BDA0001673458790000057
求得先验信噪比
Figure BDA0001673458790000058
其中,α是经验常数,max(·)表示取最大值。根据图2中求得的先验信噪比的递归平均ζ(k,l),并在频域上使用局部和全局平均窗,利用局部以及全局平均加窗公式
Figure BDA0001673458790000061
便可以得到先验信噪比的局部以及全局平均,并根据局部和全局语音频带之间的关系以及语音帧间关系联合求取先验语音不存在概率,其中,hλ为一个长度为2wλ+1的标准窗,λ为状态选择符号,下标λ可以指定为局部或者全局,wλ表示数据长度,k是第k个频点,l表示第l帧,ζ(k,l)表示先验信噪比的递归平均。
为了求得语音存在概率,需要定义两个分别代表第l帧第k个频点上的先验信噪比的局部或者全局平均与语音存在可能性的关系的局部概率参数Plocal(k,l)和全局概率参数Pglobal(k,l),二者的计算方式如下
Figure BDA0001673458790000062
式中,log(·)表示取对数,λ表示状态选择符号,下标λ可以指定为局部或者全局,当参数λ指定为局部时,则Pλ(k,l)=Plocal(k,l),λ指定为全局时,则Pλ(k,l)=Pglobal(k,l);ζλ(k,l) 表示先验信噪比的递归平均,当参数λ指定为局部时,ζλ(k,l)=ζlocal(k,l),当λ指定为全局时,ζλ(k,l)=ζglobal(k,l)。合理地设置最小值经验常数ζmin和最大值经验常数ζmax有利于最大化地减弱噪声并保留微弱的语音分量。为了防止语音的开端或者微弱的语音分量被去除,可通过先验语音不存在概率计算公式
Figure BDA0001673458790000063
求得先验语音不存在概率
Figure BDA0001673458790000064
再根据语音存在概率计算公式
Figure BDA0001673458790000065
求得最终的语音存在概率p(k,l),其中
Figure BDA0001673458790000066
是先验语音不存在概率,
Figure BDA0001673458790000067
表示求得的先验信噪比,k是第k个频点,l表示第l帧,{·}-1表示求倒数。然后利用求得的语音存在概率p(k,l),结合最小经验值常数Gmin和增益因子G1(k,l)求解新的增益因子 Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l))。
以上是向熟悉本发明领域的工程技术人员提供的对本发明及其实施方案的描述,这些描述应被视为是说明性的,而非限定性的。工程技术人员可据此发明权利要求书中的思想做具体的操作实施,在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上做出各种变化。上述这些都应被视为本发明的涉及范围。

Claims (6)

1.一种利用语音存在概率的语音增强方法,其特征在于包括如下步骤:
(1)对输入带噪语音进行采样、分帧、加窗;
(2)通过快速傅里叶变换FFT获得带噪语音频谱Y(k,l),k表示频点数,l表示帧数;
(3)根据MIS测度语音增强方法计算增益因子G1(k,l)及噪声估计谱λd(k,l);
(4)利用噪声估计谱求得先验信噪比,并通过该先验信噪比求得语音存在概率p(k,l);
(5)利用增益因子G1(k,l)和p(k,l),求得新的增益因子Gnew(k,l);
(6)将带噪语音频谱Y(k,l)与新的增益因子Gnew(k,l)相乘得到增强过后的语音的频谱
Figure FDA0002450796190000011
然后对频谱
Figure FDA0002450796190000012
做快速傅里叶反变换IFFT,得到增强过后的时域语音信号,采用重叠相加法输出最终增强后的语音;
在上述步骤(4)中,根据语音存在概率计算公式
Figure FDA0002450796190000013
求得最终的语音存在概率;
所述步骤(5)中,利用的语音存在概率p(k,l),以及最小经验值常数Gmin和增益因子G1(k,l),求得新的增益因子Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l));
其中,在语音输入后,将带噪语音采样、分帧、加窗,采样率8000Hz,量化位数为16位,分帧长度256点,分帧重叠128点;16位量化后的一帧输入带噪语音数据y(l);然后采用快速傅里叶变换FFT求带噪语音频谱Y(k,l),傅里叶变换点数为256点;根据求得的带噪语音频谱取幅度平方得|Y(k,l)|2,利用MIS的增益因子计算公式得到MIS增益因子G1(k,l)以及噪声估计谱λd(k,l)后;将语音存在概率和MIS增益因子结合起来,利用概率二元模型得到增强后语音的新的增益因子Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l)),其中,Gmin取值0.03;其中傅里叶反变换点数为256点,重叠128点;其中,λ为状态选择符号,λd(k,l)中的λd代表噪声估计,p(k,l)表示语音存在概率。
2.如权利要求1所述的利用语音存在概率的语音增强方法,其特征在于:获得带噪语音频谱Y(k,l)后,根据带噪语音频谱Y(k,l)与噪声谱估计λd(k,l)的比值求得后验信噪比γ(k,l),并通过先验信噪比迭代公式
Figure FDA0002450796190000014
求得先验信噪比
Figure FDA0002450796190000015
其中,α为经验常数,max(·)表示取最大值,l为语音帧数,γ(k,l)是求取的后验信噪比。
3.如权利要求1所述的利用语音存在概率的语音增强方法,其特征在于:根据先验语音不存在概率公式
Figure FDA0002450796190000016
计算得到先验语音不存在概率,语音存在概率由语音存在概率计算公式求得语音存在概率
Figure FDA0002450796190000021
其中,
Figure FDA0002450796190000022
是先验语音不存在概率,Plocal(k,l)为局部语音存在概率,Pglobal(k,l)为全局语音存在概率,Pframe(l)为帧语音存在概率。
4.如权利要求1所述的利用语音存在概率的语音增强方法,其特征在于:若分帧加窗的当前帧的先验信噪比的递归平均ζframe(l)≤ζmin,则概率参数Pframe(l)=0,若ζframe(l)>ζmin,则进行当前帧ζframe(l)与上一帧ζframe(l-1)的大小判断,若ζframe(l)大于ζframe(l-1),则计算先验信噪比的递归平均ζframe(l)的极大值ζpeak(l),计算公式为ζpeak(l)=min{max[ζframe(l),ζpmin],ζpmax},其中,ζpeak(l)为某一范围内ζframe(l)的峰值,min(·)表示取最小值,max(·)表示取最大值,ζpmin和ζpmax为经验常数。
5.如权利要求1所述的利用语音存在概率的语音增强方法,其特征在于:根据求得的先验信噪比的递归平均ζ(k,l),并在频域上使用局部和全局平均窗,利用局部以及全局平均加窗公式
Figure FDA0002450796190000023
得到表示先验信噪比的递归平均ζ(k,l)和先验信噪比的局部以及全局平均值ζλ(k,l),并根据局部和全局语音频带之间的关系以及语音帧间关系联合求取先验语音不存在概率,其中,λ为状态选择符号,wλ为数据长度,hλ为一个长度2wλ+1的标准窗。
6.如权利要求5所述的利用语音存在概率的语音增强方法,其特征在于:为了防止语音的开端或者微弱的语音分量被去除,通过先验语音不存在概率计算公式
Figure FDA0002450796190000024
求得先验语音不存在概率
Figure FDA0002450796190000025
再根据语音存在概率计算公式
Figure FDA0002450796190000026
求得最终的语音存在概率p(k,l),然后利用求得的语音存在概率p(k,l),结合最小经验值常数Gmin和增益因子G1(k,l)求解新的增益因子Gnew(k,l)=G1(k,l)*p(k,l)+Gmin*(1-p(k,l)),其中,
Figure FDA0002450796190000027
表示求得的先验信噪比,k是频点,l为语音帧数,{·}-1表示求倒数。
CN201810516685.3A 2018-05-25 2018-05-25 利用语音存在概率的语音增强方法 Active CN108831499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516685.3A CN108831499B (zh) 2018-05-25 2018-05-25 利用语音存在概率的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516685.3A CN108831499B (zh) 2018-05-25 2018-05-25 利用语音存在概率的语音增强方法

Publications (2)

Publication Number Publication Date
CN108831499A CN108831499A (zh) 2018-11-16
CN108831499B true CN108831499B (zh) 2020-07-21

Family

ID=64146150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516685.3A Active CN108831499B (zh) 2018-05-25 2018-05-25 利用语音存在概率的语音增强方法

Country Status (1)

Country Link
CN (1) CN108831499B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10043531B1 (en) * 2018-02-08 2018-08-07 Omnivision Technologies, Inc. Method and audio noise suppressor using MinMax follower to estimate noise
CN109524020B (zh) * 2018-11-20 2023-07-04 上海海事大学 一种语音增强处理方法
CN110081536A (zh) * 2018-11-28 2019-08-02 福建澳尤机电有限公司 一种可移动蒸发式空调扇
CN109798611A (zh) * 2018-11-28 2019-05-24 福建澳尤机电有限公司 一种蒸发式环保空调
CN110164467B (zh) 2018-12-18 2022-11-25 腾讯科技(深圳)有限公司 语音降噪的方法和装置、计算设备和计算机可读存储介质
CN109961799A (zh) * 2019-01-31 2019-07-02 杭州惠耳听力技术设备有限公司 一种基于迭代维纳滤波的助听器多通道语音增强算法
CN109817234B (zh) * 2019-03-06 2021-01-26 哈尔滨工业大学(深圳) 基于连续噪声跟踪的目标语音信号增强方法、系统及存储介质
CN109979478A (zh) * 2019-04-08 2019-07-05 网易(杭州)网络有限公司 语音降噪方法及装置、存储介质及电子设备
CN110012331B (zh) * 2019-04-11 2021-05-25 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
CN110335619A (zh) * 2019-04-30 2019-10-15 同方电子科技有限公司 一种基于机通平台的语音增强算法
WO2021007841A1 (zh) * 2019-07-18 2021-01-21 深圳市汇顶科技股份有限公司 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN110689905B (zh) * 2019-09-06 2021-12-21 西安合谱声学科技有限公司 一种用于视频会议系统的语音活动检测系统
CN110648687B (zh) * 2019-09-26 2020-10-09 广州三人行壹佰教育科技有限公司 一种活动语音检测方法及系统
CN110634500B (zh) * 2019-10-14 2022-05-31 达闼机器人股份有限公司 一种先验信噪比的计算方法、电子设备及存储介质
CN110739005B (zh) * 2019-10-28 2022-02-01 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN110706716B (zh) * 2019-10-30 2022-08-19 歌尔科技有限公司 语音信号的处理方法、语音信号处理装置及存储介质
CN110706719B (zh) * 2019-11-14 2022-02-25 北京远鉴信息技术有限公司 一种语音提取方法、装置、电子设备及存储介质
CN111128215B (zh) * 2019-12-24 2022-06-07 声耕智能科技(西安)研究院有限公司 一种单通道实时降噪方法及系统
CN111144347B (zh) * 2019-12-30 2023-06-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置、平台及存储介质
CN111261197B (zh) * 2020-01-13 2022-11-25 中航华东光电(上海)有限公司 一种复杂噪声场景下的实时语音段落追踪方法
CN111445919B (zh) * 2020-03-13 2023-01-20 紫光展锐(重庆)科技有限公司 结合ai模型的语音增强方法、系统、电子设备和介质
CN111564154B (zh) * 2020-03-23 2023-08-08 北京邮电大学 基于语音增强算法的对抗样本攻击防御方法及装置
CN111899752B (zh) * 2020-07-13 2023-01-10 紫光展锐(重庆)科技有限公司 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN111933165A (zh) * 2020-07-30 2020-11-13 西南电子技术研究所(中国电子科技集团公司第十研究所) 突变噪声快速估计方法
CN111933169B (zh) * 2020-08-20 2022-08-02 成都启英泰伦科技有限公司 一种二次利用语音存在概率的语音降噪方法
CN112233688B (zh) * 2020-09-24 2022-03-11 北京声智科技有限公司 音频降噪方法、装置、设备及介质
CN112151060B (zh) * 2020-09-25 2022-11-25 展讯通信(天津)有限公司 单通道语音增强方法及装置、存储介质、终端
CN112233657B (zh) * 2020-10-14 2024-05-28 河海大学 一种基于低频音节识别的语音增强方法
CN112289337B (zh) * 2020-11-03 2023-09-01 北京声加科技有限公司 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN112967738B (zh) * 2021-02-01 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质
CN113611319B (zh) * 2021-04-07 2023-09-12 珠海市杰理科技股份有限公司 基于语音成分实现的风噪抑制方法、装置、设备及系统
CN113658604A (zh) * 2021-08-27 2021-11-16 上海互问信息科技有限公司 一种利用数理统计和深度网络结合的语音降噪通用方法
CN113973250B (zh) * 2021-10-26 2023-12-08 恒玄科技(上海)股份有限公司 一种噪声抑制方法、装置及辅听耳机
CN114005456A (zh) * 2021-11-04 2022-02-01 深圳万兴软件有限公司 静态噪音的降噪方法、装置、计算机设备及存储介质
CN114385977B (zh) * 2021-12-13 2024-05-28 广州方硅信息技术有限公司 信号的有效频率检测方法、终端设备及存储介质
CN114242103A (zh) * 2021-12-21 2022-03-25 游密科技(深圳)有限公司 语音降噪方法、装置、计算机设备和存储介质
CN116403594B (zh) * 2023-06-08 2023-08-18 澳克多普有限公司 基于噪声更新因子的语音增强方法和装置
CN118398022B (zh) * 2024-04-24 2024-10-01 广东保伦电子股份有限公司 改进的语音增强降噪方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2026289A (en) * 1978-04-12 1980-01-30 Secr Defence Improvements in or relating to self-adaptive linear prediction filters
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2026289A (en) * 1978-04-12 1980-01-30 Secr Defence Improvements in or relating to self-adaptive linear prediction filters
US5274739A (en) * 1990-05-22 1993-12-28 Rockwell International Corporation Product code memory Itakura-Saito (MIS) measure for sound recognition
CN101894563A (zh) * 2010-07-15 2010-11-24 瑞声声学科技(深圳)有限公司 语音增强的方法
CN103165137A (zh) * 2011-12-19 2013-06-19 中国科学院声学研究所 一种非平稳噪声环境下传声器阵列的语音增强方法
CN105427859A (zh) * 2016-01-07 2016-03-23 深圳市音加密科技有限公司 一种用于对说话人识别的前端语音增强方法
CN106971740A (zh) * 2017-03-28 2017-07-21 吉林大学 基于语音存在概率和相位估计的语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A modified Itakura speech distortion measure based on auditory properties;Chen Guo 等;《Applied Acoustics》;20010615;第545-553页 *

Also Published As

Publication number Publication date
CN108831499A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108831499B (zh) 利用语音存在概率的语音增强方法
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
WO2022012367A1 (zh) 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
CN110310656A (zh) 一种语音增强方法
CN102982801A (zh) 一种用于鲁棒语音识别的语音特征提取方法
CN111091833A (zh) 一种降低噪声影响的端点检测方法
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN103544961A (zh) 语音信号处理方法及装置
CN117711419B (zh) 用于数据中台的数据智能清洗方法
CN103594093A (zh) 基于信噪比软掩蔽语音增强方法
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
CN107045874B (zh) 一种基于相关性的非线性语音增强方法
CN109087657B (zh) 一种应用于超短波电台的语音增强方法
WO2020024787A1 (zh) 音乐噪声抑制方法及装置
CN107731242A (zh) 一种广义最大后验的谱幅度估计的增益函数语音增强方法
CN110689905B (zh) 一种用于视频会议系统的语音活动检测系统
CN106340302A (zh) 一种语音数据的去混响方法及装置
CN106997766B (zh) 一种基于宽带噪声的同态滤波语音增强方法
Heese et al. Noise PSD estimation by logarithmic baseline tracing
CN111933169B (zh) 一种二次利用语音存在概率的语音降噪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant