CN111696568B - 一种半监督瞬态噪声抑制方法 - Google Patents
一种半监督瞬态噪声抑制方法 Download PDFInfo
- Publication number
- CN111696568B CN111696568B CN202010548061.7A CN202010548061A CN111696568B CN 111696568 B CN111696568 B CN 111696568B CN 202010548061 A CN202010548061 A CN 202010548061A CN 111696568 B CN111696568 B CN 111696568B
- Authority
- CN
- China
- Prior art keywords
- time
- voice
- noise
- transient noise
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001052 transient effect Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000001629 suppression Effects 0.000 title claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims abstract description 90
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明提供一种半监督瞬态噪声抑制方法。训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法用于提取噪声,基于相关系数的判决获得更干净的噪声,利用稀疏非负矩阵分解获得瞬态噪声的基矩阵;增强阶段,对带噪语音做短时傅里叶变换获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵得到语音和噪声时频谱幅度的初始估计,利用掩码得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。
Description
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种半监督瞬态噪声抑制方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到形形色色噪声的污染,人耳和相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从说话人带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于监督学习的单通道语音增强算法,这些算法利用干净语音和干净噪声在时频域上的稀疏特性,通过学习训练数据样本的结构特征并构造相应的字典,将带噪语音在字典上投影,进而估计出干净语音。
在有些情况下,一时难以同时获得说话人的干净语音和干净噪声,只有干净语音和带噪语音样本可供训练,需要研究新的方法来从说话人带噪语音估计出干净语音。随着科技的发展以及居家办公和学习的社会需求,视频会议和网络教学系统发挥着重要的作用。在视频会议和网络教学等场景中经常会突然出现短促的瞬态噪声,如击键、鼠标点击、敲击,关门产生的声音等,会影响时频会议和教学的效果。瞬态噪声主要表现为在时间上的短脉冲性和频率分布的广泛性,这与语音特征有明显差异。
发明内容
针对只有说话人的干净语音训练样本和在瞬态噪声环境中的带噪语音训练样本,本发明的目的是充分利用瞬态噪声与干净语音时频特征的差异,提供一种半监督瞬态噪声抑制方法。在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
本发明的目的是通过以下技术方案实现的:一种半监督瞬态噪声抑制方法,包括:
步骤一、在训练阶段,首先构建说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集;然后对说话人干净语音做短时傅里叶变换得到其时频谱,提取其幅度,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对说话人带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,计算提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数,并将其与门限比较,剔除提取的瞬态噪声中的剩余语音成分,获得更干净的噪声,利用稀疏非负矩阵分解方法获得其基矩阵。
步骤二、在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,提取其幅度,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,进一步利用掩码得到它们的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
由上述本发明提供的技术方案可以看出,由于瞬态噪声是一类短促噪声,在视频会议和网络教学等场景中经常突然出现,如击键、鼠标点击、敲击等,它与语音特征存在差异,表现在时间上的脉冲性和频率分布的广泛性。在只有说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集的情况下,通过调整最优修正对数谱幅度估计算法(OMLSA)的参数,将其用于提取带噪语音中的瞬态噪声,利用稀疏非负矩阵分解方法获得其基矩阵的估计。这种半监督瞬态噪声抑制方法不仅使其应用场景扩大了,而且可以抑制非平稳的瞬态噪声,性能也能接近监督瞬态噪声抑制方法。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种半监督瞬态噪声抑制方法的流程图。
图2为本发明实验结果,其中横坐标为时间单位为秒(Time(s)),纵坐标为幅度(amplitude),(a)为说话人干净语音波形,(b)为说话人在瞬态噪声环境中的带噪语音,(c)为噪声抑制后的说话人语音波形,可以看出瞬态噪声基本上被抑制了。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音分离算法,充分利用瞬态噪声与干净语音时频特征的差异,提供一种半监督瞬态噪声抑制方法。在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。如图1所示,其主要包括:
步骤一、训练阶段
步骤1、构建语音训练数据集。构建说话人干净语音的训练数据集{str(t)}和说话人在瞬态噪声环境中的带噪语音训练数据集{xtr(t)};击键、鼠标点击、敲击等突然出现的短促声音都属于瞬态噪声。
步骤2、训练说话人干净语音str(t),获得干净语音基矩阵SW(tf,f)。
步骤21、对说话人干净语音的训练数据集{str(t)}中的信号str(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Str(tf,f)=STFT{str(t)},
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Str(tf,f)|为Str(tf,f)的幅度。
步骤22、采用稀疏非负矩阵分解(SNMF)方法学习说话人干净语音时频谱的幅度特征,得到相应的基矩阵SW(tf,f),基矩阵通过如下的分解获得:
|Str(tf,f)|=SW(tf,f)SH(tf,f)+μ|SH(tf,f)|1,
其中,SH(tf,f)是说话人干净语音str(t)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数。
步骤3、训练说话人带噪语音xtr(t)=str(t)+ntr(t),获得瞬态噪声基矩阵NW(tf,f)。
步骤31、对由说话人在瞬态噪声环境中的语音训练数据集{xtr(t)}中的xtr(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Xtr(tf,f)=STFT{xtr(t)},
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度;
步骤32、瞬态噪声与语音相比,时域上变化很快,频域上分布广泛,通过设计参数,将最优修正对数谱幅度估计算法(OMLSA)用于从带噪语音xtr(t)时频谱Xtr(tf,f)中提取瞬态噪声,即:
其中,OMLSA{}为最优修正对数谱幅度估计算子。
其中,CORR{}为相关系数算子。如果相关系数大于预先给定的门限,说明该帧噪声与语音相似度高,则舍弃该帧噪声;如果相关系数小于预先给定的门限,说明该帧噪声与语音相似度低,则保留该帧噪声;这样能够获得更干净的瞬态噪声,记为Ntr(tf,f),|Ntr(tf,f)|为Ntr(tf,f)的幅度。
步骤34、采用稀疏非负矩阵分解(SNMF)方法学习噪声时频谱Ntr(tf,f)的幅度特征,得到相应的基矩阵NW(tf,f),基矩阵通过如下的分解获得:
|Ntr(tf,f)|=NW(tf,f)NH(tf,f)+μ|NH(tf,f)|1,
其中,NH(tf,f)是瞬态噪声Ntr(tf,f)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数。
步骤二、检测阶段
步骤4、抑制说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t)中的瞬态噪声n(t)。
步骤41、说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t),做短时傅里叶变换,得到时频域上的时频谱,即:
Y(tf,f)=STFT{y(t)}=S(tf,f)+N(tf,f),
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Y(tf,f)|为Y(tf,f)的幅度。
步骤42,带噪语音时频谱的幅度|Y(tf,f)|在基矩阵SW(tf,f)和NW(tf,f)上进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
其中,SH(tf,f)和NH(tf,f)分别是|Y(tf,f)|在说话人干净语音基矩阵SW(tf,f)和瞬态噪声基矩阵NW(tf,f)上分解得到的权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤43,对带噪语音中语音和噪声时频谱幅度进行初始估计;
首先,利用在说话人干净语音基矩阵SW(tf,f)分解得到的权矩阵SH(tf,f)估计出说话人干净语音时频谱幅度,如下式所示:
其次,利用瞬态噪声基矩阵NW(tf,f)分解得到的权矩阵NH(tf,f)估计出瞬态噪声时频谱幅度,如下式所示:
步骤45,对干净语音时频谱的最终估计。
依据初始估计结果,计算说话人干净语音的比例掩码:
按下式对干净语音和瞬态噪声时频谱估计:
步骤46,获得噪声抑制后的时域语音信号。
其中,ISTFT{}为短时傅里叶逆变换算子。
步骤47,估计瞬态噪声时频谱用于更新瞬态噪声基矩阵。令:
执行步骤33和步骤34,可以获得更新后的瞬态噪声基矩阵NW(tf,f)。
本发明实施例上述方案,在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
图2给出了本发明提出的一种半监督瞬态噪声抑制方法实验结果,其中横坐标为时间单位为秒(Time(s)),纵坐标为幅度(amplitude),(a)为说话人干净语音波形,(b)为说话人在瞬态噪声环境中的带噪语音,(c)为噪声抑制后的说话人语音波形,可以看出瞬态噪声基本上被抑制了。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (1)
1.一种半监督瞬态噪声抑制方法,其特征在于,包括:
步骤一、在训练阶段,首先构建说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集;然后对说话人干净语音做短时傅里叶变换得到其时频谱,提取其幅度,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对说话人带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法用于从带噪语音中提取瞬态噪声,进一步利用提取的瞬态噪声与连续干净语音的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声,利用稀疏非负矩阵分解方法获得其基矩阵;
步骤二、在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,提取其幅度,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,进一步利用掩码得到它们的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音,另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应;
训练阶段具体包括:
步骤1、构建语音训练数据集;构建说话人干净语音的训练数据集{str(t)}和说话人在瞬态噪声环境中的带噪语音训练数据集{xtr(t)};击键、鼠标点击、敲击等突然出现的短促声音都属于瞬态噪声;
步骤2、训练说话人干净语音str(t),获得干净语音基矩阵SW(tf,f);
步骤21、对说话人干净语音的训练数据集{str(t)}中的信号str(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Str(tf,f)=STFT{str(t)},
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Str(tf,f)|为Str(tf,f)的幅度;
步骤22、采用稀疏非负矩阵分解(SNMF)方法学习说话人干净语音时频谱的幅度特征,得到相应的基矩阵SW(tf,f),基矩阵通过如下的分解获得:
|Str(tf,f)|=SW(tf,f)SH(tf,f)+μ|SH(tf,f)|1,
其中,SH(tf,f)是说话人干净语音str(t)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤3、训练说话人带噪语音xtr(t)=str(t)+ntr(t),获得瞬态噪声基矩阵NW(tf,f);
步骤31、对由说话人在瞬态噪声环境中的语音训练数据集{xtr(t)}中的xtr(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Xtr(tf,f)=STFT{xtr(t)},
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度;
步骤32、瞬态噪声与语音相比,时域上变化很快,频域上分布广泛,通过设计参数,将最优修正对数谱幅度估计算法(OMLSA)用于从带噪语音xtr(t)时频谱Xtr(tf,f)中提取瞬态噪声,即:
其中OMLSA{ }为最优修正对数谱幅度估计算子;
其中,CORR{ }为相关系数算子,如果相关系数大于预先给定的门限,说明该帧噪声与语音相似度高,则舍弃该帧噪声;如果相关系数小于预先给定的门限,说明该帧噪声与语音相似度低,则保留该帧噪声;这样能够获得更干净的瞬态噪声,记为Ntr(tf,f),|Ntr(tf,f)|为Ntr(tf,f)的幅度;
步骤34、采用稀疏非负矩阵分解(SNMF)方法学习噪声时频谱Ntr(tf,f)的幅度特征,得到相应的基矩阵NW(tf,f),基矩阵通过如下的分解获得:
|Ntr(tf,f)|=NW(tf,f)NH(tf,f)+μ|NH(tf,f)|1,
其中,NH(tf,f)是瞬态噪声Ntr(tf,f)的时频谱幅度权矩阵,μ为稀疏参数,|·1表示1范数;
检测阶段具体包括:
步骤4、抑制说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t)中的瞬态噪声n(t);
步骤41、说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t),做短时傅里叶变换,得到时频域上的时频谱,即:
Y(tf,f)=STFT{y(t)}=S(tf,f)+N(tf,f),
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Y(tf,f)|为Y(tf,f)的幅度;
步骤42,带噪语音时频谱的幅度|Y(tf,f)|在基矩阵SW(tf,f)和NW(tf,f)上进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
其中,SH(tf,f)和NH(tf,f)分别是|Y(tf,f)|在说话人干净语音基矩阵SW(tf,f)和瞬态噪声基矩阵NW(tf,f)上分解得到的权矩阵,μ为稀疏参数,|·1表示1范数;
步骤43,对带噪语音中语音和噪声时频谱幅度进行初始估计;
首先,利用在说话人干净语音基矩阵SW(tf,f)分解得到的权矩阵SH(tf,f)估计出说话人干净语音时频谱幅度,如下式所示:
其次,利用瞬态噪声基矩阵NW(tf,f)分解得到的权矩阵NH(tf,f)估计出瞬态噪声时频谱幅度,如下式所示:
步骤45,对干净语音时频谱的最终估计,
依据初始估计结果,计算说话人干净语音的比例掩码:
按下式对干净语音和瞬态噪声时频谱估计:
步骤46,获得噪声抑制后的时域语音信号,
其中,ISTFT{ }为短时傅里叶逆变换算子;
步骤47,估计瞬态噪声时频谱用于更新瞬态噪声基矩阵,令:
执行步骤33和步骤34,可以获得更新后的瞬态噪声基矩阵NW(tf,f)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548061.7A CN111696568B (zh) | 2020-06-16 | 2020-06-16 | 一种半监督瞬态噪声抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010548061.7A CN111696568B (zh) | 2020-06-16 | 2020-06-16 | 一种半监督瞬态噪声抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111696568A CN111696568A (zh) | 2020-09-22 |
CN111696568B true CN111696568B (zh) | 2022-09-30 |
Family
ID=72481369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010548061.7A Active CN111696568B (zh) | 2020-06-16 | 2020-06-16 | 一种半监督瞬态噪声抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111696568B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN113763984B (zh) * | 2021-09-23 | 2023-10-31 | 大连理工大学 | 一种用于分布式多说话人的参数化噪声消除系统 |
CN114023352B (zh) * | 2021-11-12 | 2022-12-16 | 华南理工大学 | 一种基于能量谱深度调制的语音增强方法及装置 |
CN115985337B (zh) * | 2023-03-20 | 2023-09-22 | 全时云商务服务股份有限公司 | 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置 |
CN116484318B (zh) * | 2023-06-20 | 2024-02-06 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
JP2015138100A (ja) * | 2014-01-21 | 2015-07-30 | キヤノン株式会社 | 音処理装置、音処理方法 |
CN108447498A (zh) * | 2018-03-19 | 2018-08-24 | 中国科学技术大学 | 应用于麦克风阵列的语音增强方法 |
CN110060699A (zh) * | 2019-05-21 | 2019-07-26 | 哈尔滨工程大学 | 一种基于深度稀疏展开的单信道语音分离方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755726B2 (en) * | 2015-01-07 | 2020-08-25 | Google Llc | Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone |
-
2020
- 2020-06-16 CN CN202010548061.7A patent/CN111696568B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
JP2015138100A (ja) * | 2014-01-21 | 2015-07-30 | キヤノン株式会社 | 音処理装置、音処理方法 |
CN108447498A (zh) * | 2018-03-19 | 2018-08-24 | 中国科学技术大学 | 应用于麦克风阵列的语音增强方法 |
CN110060699A (zh) * | 2019-05-21 | 2019-07-26 | 哈尔滨工程大学 | 一种基于深度稀疏展开的单信道语音分离方法 |
Non-Patent Citations (4)
Title |
---|
基于字典学习和稀疏表示的单通道语音增强算法综述;叶中付 等;《应用声学》;20190904;645-652 * |
改进的非负矩阵分解语音增强算法;胡永刚等;《信号处理》;20150925(第09期);第81-87页 * |
结合时变滤波和时频掩码的语音增强方法;成帅等;《信号处理》;20190425(第04期);第83-90页 * |
联合稀疏非负矩阵分解和神经网络的语音增强;时文华;《计算机研究与发展》;20190123;第2430-2438页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111696568A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696568B (zh) | 一种半监督瞬态噪声抑制方法 | |
US10614827B1 (en) | System and method for speech enhancement using dynamic noise profile estimation | |
US20150340027A1 (en) | Voice recognition system | |
CN111508518B (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
CN106373559B (zh) | 一种基于对数谱信噪比加权的鲁棒特征提取方法 | |
CN112687276B (zh) | 一种音频信号处理方法、装置及存储介质 | |
KR20190130533A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
Ma et al. | Perceptual Kalman filtering for speech enhancement in colored noise | |
KR20190129805A (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
Bagul et al. | Text independent speaker recognition system using GMM | |
Saleem et al. | Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization | |
Bharti et al. | A new spectral subtraction method for speech enhancement using adaptive noise estimation | |
WO2021127990A1 (zh) | 一种基于语音降噪的声纹识别方法和相关装置 | |
JP4960933B2 (ja) | 音響信号強調装置とその方法と、プログラムと記録媒体 | |
JP2007293059A (ja) | 信号処理装置およびその方法 | |
Chakraborty et al. | Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition. | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Al-Ali et al. | Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions | |
Han et al. | Speech enhancement based on improved deep neural networks with MMSE pretreatment features | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
Hamid et al. | Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT) | |
Han et al. | Reverberation and noise robust feature compensation based on IMM | |
Ullah et al. | Semi-supervised transient noise suppression using OMLSA and SNMF algorithms | |
Chen | Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |