CN111696568B - 一种半监督瞬态噪声抑制方法 - Google Patents

一种半监督瞬态噪声抑制方法 Download PDF

Info

Publication number
CN111696568B
CN111696568B CN202010548061.7A CN202010548061A CN111696568B CN 111696568 B CN111696568 B CN 111696568B CN 202010548061 A CN202010548061 A CN 202010548061A CN 111696568 B CN111696568 B CN 111696568B
Authority
CN
China
Prior art keywords
time
voice
noise
transient noise
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010548061.7A
Other languages
English (en)
Other versions
CN111696568A (zh
Inventor
叶中付
瑞兹万.乌拉赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010548061.7A priority Critical patent/CN111696568B/zh
Publication of CN111696568A publication Critical patent/CN111696568A/zh
Application granted granted Critical
Publication of CN111696568B publication Critical patent/CN111696568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明提供一种半监督瞬态噪声抑制方法。训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法用于提取噪声,基于相关系数的判决获得更干净的噪声,利用稀疏非负矩阵分解获得瞬态噪声的基矩阵;增强阶段,对带噪语音做短时傅里叶变换获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵得到语音和噪声时频谱幅度的初始估计,利用掩码得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。

Description

一种半监督瞬态噪声抑制方法
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种半监督瞬态噪声抑制方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到形形色色噪声的污染,人耳和相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从说话人带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于监督学习的单通道语音增强算法,这些算法利用干净语音和干净噪声在时频域上的稀疏特性,通过学习训练数据样本的结构特征并构造相应的字典,将带噪语音在字典上投影,进而估计出干净语音。
在有些情况下,一时难以同时获得说话人的干净语音和干净噪声,只有干净语音和带噪语音样本可供训练,需要研究新的方法来从说话人带噪语音估计出干净语音。随着科技的发展以及居家办公和学习的社会需求,视频会议和网络教学系统发挥着重要的作用。在视频会议和网络教学等场景中经常会突然出现短促的瞬态噪声,如击键、鼠标点击、敲击,关门产生的声音等,会影响时频会议和教学的效果。瞬态噪声主要表现为在时间上的短脉冲性和频率分布的广泛性,这与语音特征有明显差异。
发明内容
针对只有说话人的干净语音训练样本和在瞬态噪声环境中的带噪语音训练样本,本发明的目的是充分利用瞬态噪声与干净语音时频特征的差异,提供一种半监督瞬态噪声抑制方法。在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
本发明的目的是通过以下技术方案实现的:一种半监督瞬态噪声抑制方法,包括:
步骤一、在训练阶段,首先构建说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集;然后对说话人干净语音做短时傅里叶变换得到其时频谱,提取其幅度,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对说话人带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,计算提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数,并将其与门限比较,剔除提取的瞬态噪声中的剩余语音成分,获得更干净的噪声,利用稀疏非负矩阵分解方法获得其基矩阵。
步骤二、在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,提取其幅度,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,进一步利用掩码得到它们的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
由上述本发明提供的技术方案可以看出,由于瞬态噪声是一类短促噪声,在视频会议和网络教学等场景中经常突然出现,如击键、鼠标点击、敲击等,它与语音特征存在差异,表现在时间上的脉冲性和频率分布的广泛性。在只有说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集的情况下,通过调整最优修正对数谱幅度估计算法(OMLSA)的参数,将其用于提取带噪语音中的瞬态噪声,利用稀疏非负矩阵分解方法获得其基矩阵的估计。这种半监督瞬态噪声抑制方法不仅使其应用场景扩大了,而且可以抑制非平稳的瞬态噪声,性能也能接近监督瞬态噪声抑制方法。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种半监督瞬态噪声抑制方法的流程图。
图2为本发明实验结果,其中横坐标为时间单位为秒(Time(s)),纵坐标为幅度(amplitude),(a)为说话人干净语音波形,(b)为说话人在瞬态噪声环境中的带噪语音,(c)为噪声抑制后的说话人语音波形,可以看出瞬态噪声基本上被抑制了。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音分离算法,充分利用瞬态噪声与干净语音时频特征的差异,提供一种半监督瞬态噪声抑制方法。在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。如图1所示,其主要包括:
步骤一、训练阶段
步骤1、构建语音训练数据集。构建说话人干净语音的训练数据集{str(t)}和说话人在瞬态噪声环境中的带噪语音训练数据集{xtr(t)};击键、鼠标点击、敲击等突然出现的短促声音都属于瞬态噪声。
步骤2、训练说话人干净语音str(t),获得干净语音基矩阵SW(tf,f)。
步骤21、对说话人干净语音的训练数据集{str(t)}中的信号str(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Str(tf,f)=STFT{str(t)},
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Str(tf,f)|为Str(tf,f)的幅度。
步骤22、采用稀疏非负矩阵分解(SNMF)方法学习说话人干净语音时频谱的幅度特征,得到相应的基矩阵SW(tf,f),基矩阵通过如下的分解获得:
|Str(tf,f)|=SW(tf,f)SH(tf,f)+μ|SH(tf,f)|1
其中,SH(tf,f)是说话人干净语音str(t)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数。
步骤3、训练说话人带噪语音xtr(t)=str(t)+ntr(t),获得瞬态噪声基矩阵NW(tf,f)。
步骤31、对由说话人在瞬态噪声环境中的语音训练数据集{xtr(t)}中的xtr(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Xtr(tf,f)=STFT{xtr(t)},
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度;
步骤32、瞬态噪声与语音相比,时域上变化很快,频域上分布广泛,通过设计参数,将最优修正对数谱幅度估计算法(OMLSA)用于从带噪语音xtr(t)时频谱Xtr(tf,f)中提取瞬态噪声,即:
Figure BDA0002541460760000041
其中,OMLSA{}为最优修正对数谱幅度估计算子。
步骤33、用语音活动检测(VAD)算子检测干净语音,裁剪掉静音段,形成连续干净语音,其时频谱记为
Figure BDA0002541460760000051
按下式计算
Figure BDA0002541460760000052
与Str(tf,f)的相关系数:
Figure BDA0002541460760000053
其中,CORR{}为相关系数算子。如果相关系数大于预先给定的门限,说明该帧噪声与语音相似度高,则舍弃该帧噪声;如果相关系数小于预先给定的门限,说明该帧噪声与语音相似度低,则保留该帧噪声;这样能够获得更干净的瞬态噪声,记为Ntr(tf,f),|Ntr(tf,f)|为Ntr(tf,f)的幅度。
步骤34、采用稀疏非负矩阵分解(SNMF)方法学习噪声时频谱Ntr(tf,f)的幅度特征,得到相应的基矩阵NW(tf,f),基矩阵通过如下的分解获得:
|Ntr(tf,f)|=NW(tf,f)NH(tf,f)+μ|NH(tf,f)|1
其中,NH(tf,f)是瞬态噪声Ntr(tf,f)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数。
步骤二、检测阶段
步骤4、抑制说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t)中的瞬态噪声n(t)。
步骤41、说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t),做短时傅里叶变换,得到时频域上的时频谱,即:
Y(tf,f)=STFT{y(t)}=S(tf,f)+N(tf,f),
其中,STFT{}为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Y(tf,f)|为Y(tf,f)的幅度。
步骤42,带噪语音时频谱的幅度|Y(tf,f)|在基矩阵SW(tf,f)和NW(tf,f)上进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
Figure BDA0002541460760000054
其中,SH(tf,f)和NH(tf,f)分别是|Y(tf,f)|在说话人干净语音基矩阵SW(tf,f)和瞬态噪声基矩阵NW(tf,f)上分解得到的权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤43,对带噪语音中语音和噪声时频谱幅度进行初始估计;
首先,利用在说话人干净语音基矩阵SW(tf,f)分解得到的权矩阵SH(tf,f)估计出说话人干净语音时频谱幅度,如下式所示:
Figure BDA0002541460760000061
其次,利用瞬态噪声基矩阵NW(tf,f)分解得到的权矩阵NH(tf,f)估计出瞬态噪声时频谱幅度,如下式所示:
Figure BDA0002541460760000062
步骤45,对干净语音时频谱的最终估计。
依据初始估计结果,计算说话人干净语音的比例掩码:
Figure BDA0002541460760000063
按下式对干净语音和瞬态噪声时频谱估计:
Figure BDA0002541460760000064
Figure BDA0002541460760000065
其中,
Figure BDA0002541460760000066
为矩阵对应元素乘法算子。
步骤46,获得噪声抑制后的时域语音信号。
对估计的语音信号时频谱
Figure BDA0002541460760000067
做短时傅里叶逆变换(ISTFT),得到:
Figure BDA0002541460760000068
其中,ISTFT{}为短时傅里叶逆变换算子。
步骤47,估计瞬态噪声时频谱用于更新瞬态噪声基矩阵。令:
Figure BDA0002541460760000069
执行步骤33和步骤34,可以获得更新后的瞬态噪声基矩阵NW(tf,f)。
本发明实施例上述方案,在训练阶段,首先构建说话人干净语音和在瞬态噪声环境中的带噪语音训练数据集;然后对干净语音做短时傅里叶变换得到其时频谱,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法(OMLSA)用于提取带噪语音中的瞬态噪声,同时用语音活动检测(VAD)算子检测干净语音并形成连续干净语音,利用提取的瞬态噪声时频谱与连续干净语音时频谱的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声时频谱,利用稀疏非负矩阵分解方法获得瞬态噪声的基矩阵;在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,计算掩码,将其与带噪语音时频谱运算,得到语音时频谱的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音。另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应。
图2给出了本发明提出的一种半监督瞬态噪声抑制方法实验结果,其中横坐标为时间单位为秒(Time(s)),纵坐标为幅度(amplitude),(a)为说话人干净语音波形,(b)为说话人在瞬态噪声环境中的带噪语音,(c)为噪声抑制后的说话人语音波形,可以看出瞬态噪声基本上被抑制了。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (1)

1.一种半监督瞬态噪声抑制方法,其特征在于,包括:
步骤一、在训练阶段,首先构建说话人干净语音和说话人在瞬态噪声环境中的带噪语音训练数据集;然后对说话人干净语音做短时傅里叶变换得到其时频谱,提取其幅度,利用稀疏非负矩阵分解方法获得干净语音的基矩阵;接着对说话人带噪语音做短时傅里叶变换得到其时频谱,将最优修正对数谱幅度估计算法用于从带噪语音中提取瞬态噪声,进一步利用提取的瞬态噪声与连续干净语音的相关系数与门限比较,剔除其中的剩余语音成分,获得更干净的噪声,利用稀疏非负矩阵分解方法获得其基矩阵;
步骤二、在检测阶段,对带噪语音做短时傅里叶变换,获得时频谱,提取其幅度,在干净语音基矩阵和瞬态噪声基矩阵上分解得到相应的权矩阵,通过基矩阵和权矩阵的运算,得到语音和噪声时频谱幅度的初始估计,进一步利用掩码得到它们的最终估计,做短时傅里叶逆变换,得到抑制噪声后的时域语音,另外,还利用了估计的瞬态噪声更新其基矩阵,有利于对噪声环境的自适应;
训练阶段具体包括:
步骤1、构建语音训练数据集;构建说话人干净语音的训练数据集{str(t)}和说话人在瞬态噪声环境中的带噪语音训练数据集{xtr(t)};击键、鼠标点击、敲击等突然出现的短促声音都属于瞬态噪声;
步骤2、训练说话人干净语音str(t),获得干净语音基矩阵SW(tf,f);
步骤21、对说话人干净语音的训练数据集{str(t)}中的信号str(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Str(tf,f)=STFT{str(t)},
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Str(tf,f)|为Str(tf,f)的幅度;
步骤22、采用稀疏非负矩阵分解(SNMF)方法学习说话人干净语音时频谱的幅度特征,得到相应的基矩阵SW(tf,f),基矩阵通过如下的分解获得:
|Str(tf,f)|=SW(tf,f)SH(tf,f)+μ|SH(tf,f)|1
其中,SH(tf,f)是说话人干净语音str(t)的时频谱幅度权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤3、训练说话人带噪语音xtr(t)=str(t)+ntr(t),获得瞬态噪声基矩阵NW(tf,f);
步骤31、对由说话人在瞬态噪声环境中的语音训练数据集{xtr(t)}中的xtr(t)做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Xtr(tf,f)=STFT{xtr(t)},
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Xtr(tf,f)|为Xtr(tf,f)的幅度;
步骤32、瞬态噪声与语音相比,时域上变化很快,频域上分布广泛,通过设计参数,将最优修正对数谱幅度估计算法(OMLSA)用于从带噪语音xtr(t)时频谱Xtr(tf,f)中提取瞬态噪声,即:
Figure FDA0003793025180000021
其中OMLSA{ }为最优修正对数谱幅度估计算子;
步骤33、用语音活动检测(VAD)算子检测干净语音,裁剪掉静音段,形成连续干净语音,其时频谱记为
Figure FDA0003793025180000022
按下式计算
Figure FDA0003793025180000023
与Str(tf,f)的相关系数:
Figure FDA0003793025180000024
其中,CORR{ }为相关系数算子,如果相关系数大于预先给定的门限,说明该帧噪声与语音相似度高,则舍弃该帧噪声;如果相关系数小于预先给定的门限,说明该帧噪声与语音相似度低,则保留该帧噪声;这样能够获得更干净的瞬态噪声,记为Ntr(tf,f),|Ntr(tf,f)|为Ntr(tf,f)的幅度;
步骤34、采用稀疏非负矩阵分解(SNMF)方法学习噪声时频谱Ntr(tf,f)的幅度特征,得到相应的基矩阵NW(tf,f),基矩阵通过如下的分解获得:
|Ntr(tf,f)|=NW(tf,f)NH(tf,f)+μ|NH(tf,f)|1
其中,NH(tf,f)是瞬态噪声Ntr(tf,f)的时频谱幅度权矩阵,μ为稀疏参数,|·1表示1范数;
检测阶段具体包括:
步骤4、抑制说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t)中的瞬态噪声n(t);
步骤41、说话人在瞬态噪声环境中的带噪语音y(t)=s(t)+n(t),做短时傅里叶变换,得到时频域上的时频谱,即:
Y(tf,f)=STFT{y(t)}=S(tf,f)+N(tf,f),
其中,STFT{ }为短时傅里叶变换算子,tf和f分别为时间帧和频率点,|Y(tf,f)|为Y(tf,f)的幅度;
步骤42,带噪语音时频谱的幅度|Y(tf,f)|在基矩阵SW(tf,f)和NW(tf,f)上进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
Figure FDA0003793025180000031
其中,SH(tf,f)和NH(tf,f)分别是|Y(tf,f)|在说话人干净语音基矩阵SW(tf,f)和瞬态噪声基矩阵NW(tf,f)上分解得到的权矩阵,μ为稀疏参数,|·1表示1范数;
步骤43,对带噪语音中语音和噪声时频谱幅度进行初始估计;
首先,利用在说话人干净语音基矩阵SW(tf,f)分解得到的权矩阵SH(tf,f)估计出说话人干净语音时频谱幅度,如下式所示:
Figure FDA0003793025180000032
其次,利用瞬态噪声基矩阵NW(tf,f)分解得到的权矩阵NH(tf,f)估计出瞬态噪声时频谱幅度,如下式所示:
Figure FDA0003793025180000033
步骤45,对干净语音时频谱的最终估计,
依据初始估计结果,计算说话人干净语音的比例掩码:
Figure FDA0003793025180000034
按下式对干净语音和瞬态噪声时频谱估计:
Figure FDA0003793025180000035
Figure FDA0003793025180000036
其中,
Figure FDA0003793025180000041
为矩阵对应元素乘法算子;
步骤46,获得噪声抑制后的时域语音信号,
对估计的语音信号时频谱
Figure FDA0003793025180000042
做短时傅里叶逆变换(ISTFT),得到:
Figure FDA0003793025180000043
其中,ISTFT{ }为短时傅里叶逆变换算子;
步骤47,估计瞬态噪声时频谱用于更新瞬态噪声基矩阵,令:
Figure FDA0003793025180000044
执行步骤33和步骤34,可以获得更新后的瞬态噪声基矩阵NW(tf,f)。
CN202010548061.7A 2020-06-16 2020-06-16 一种半监督瞬态噪声抑制方法 Active CN111696568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010548061.7A CN111696568B (zh) 2020-06-16 2020-06-16 一种半监督瞬态噪声抑制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010548061.7A CN111696568B (zh) 2020-06-16 2020-06-16 一种半监督瞬态噪声抑制方法

Publications (2)

Publication Number Publication Date
CN111696568A CN111696568A (zh) 2020-09-22
CN111696568B true CN111696568B (zh) 2022-09-30

Family

ID=72481369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010548061.7A Active CN111696568B (zh) 2020-06-16 2020-06-16 一种半监督瞬态噪声抑制方法

Country Status (1)

Country Link
CN (1) CN111696568B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927709B (zh) * 2021-02-04 2022-06-14 武汉大学 一种基于时频域联合损失函数的语音增强方法
CN113763984B (zh) * 2021-09-23 2023-10-31 大连理工大学 一种用于分布式多说话人的参数化噪声消除系统
CN114023352B (zh) * 2021-11-12 2022-12-16 华南理工大学 一种基于能量谱深度调制的语音增强方法及装置
CN115985337B (zh) * 2023-03-20 2023-09-22 全时云商务服务股份有限公司 一种基于单麦克风的瞬态噪声检测与抑制的方法及装置
CN116484318B (zh) * 2023-06-20 2024-02-06 新励成教育科技股份有限公司 一种演讲训练反馈方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
JP2015138100A (ja) * 2014-01-21 2015-07-30 キヤノン株式会社 音処理装置、音処理方法
CN108447498A (zh) * 2018-03-19 2018-08-24 中国科学技术大学 应用于麦克风阵列的语音增强方法
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755726B2 (en) * 2015-01-07 2020-08-25 Google Llc Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
JP2015138100A (ja) * 2014-01-21 2015-07-30 キヤノン株式会社 音処理装置、音処理方法
CN108447498A (zh) * 2018-03-19 2018-08-24 中国科学技术大学 应用于麦克风阵列的语音增强方法
CN110060699A (zh) * 2019-05-21 2019-07-26 哈尔滨工程大学 一种基于深度稀疏展开的单信道语音分离方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于字典学习和稀疏表示的单通道语音增强算法综述;叶中付 等;《应用声学》;20190904;645-652 *
改进的非负矩阵分解语音增强算法;胡永刚等;《信号处理》;20150925(第09期);第81-87页 *
结合时变滤波和时频掩码的语音增强方法;成帅等;《信号处理》;20190425(第04期);第83-90页 *
联合稀疏非负矩阵分解和神经网络的语音增强;时文华;《计算机研究与发展》;20190123;第2430-2438页 *

Also Published As

Publication number Publication date
CN111696568A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
US20150340027A1 (en) Voice recognition system
CN111508518B (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN106373559B (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN112687276B (zh) 一种音频信号处理方法、装置及存储介质
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
Ma et al. Perceptual Kalman filtering for speech enhancement in colored noise
KR20190129805A (ko) 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법
Bagul et al. Text independent speaker recognition system using GMM
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Bharti et al. A new spectral subtraction method for speech enhancement using adaptive noise estimation
WO2021127990A1 (zh) 一种基于语音降噪的声纹识别方法和相关装置
JP4960933B2 (ja) 音響信号強調装置とその方法と、プログラムと記録媒体
JP2007293059A (ja) 信号処理装置およびその方法
Chakraborty et al. Front-End Feature Compensation and Denoising for Noise Robust Speech Emotion Recognition.
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Al-Ali et al. Enhanced forensic speaker verification using multi-run ICA in the presence of environmental noise and reverberation conditions
Han et al. Speech enhancement based on improved deep neural networks with MMSE pretreatment features
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
Han et al. Reverberation and noise robust feature compensation based on IMM
Ullah et al. Semi-supervised transient noise suppression using OMLSA and SNMF algorithms
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant