CN111508518A - 一种基于联合字典学习和稀疏表示的单通道语音增强方法 - Google Patents

一种基于联合字典学习和稀疏表示的单通道语音增强方法 Download PDF

Info

Publication number
CN111508518A
CN111508518A CN202010454159.6A CN202010454159A CN111508518A CN 111508518 A CN111508518 A CN 111508518A CN 202010454159 A CN202010454159 A CN 202010454159A CN 111508518 A CN111508518 A CN 111508518A
Authority
CN
China
Prior art keywords
speech
clean
time
noise
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010454159.6A
Other languages
English (en)
Other versions
CN111508518B (zh
Inventor
叶中付
绍希杜尔·伊斯兰姆 穆罕默德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Publication of CN111508518A publication Critical patent/CN111508518A/zh
Application granted granted Critical
Publication of CN111508518B publication Critical patent/CN111508518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。

Description

一种基于联合字典学习和稀疏表示的单通道语音增强方法
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种基于联合字典学习和稀疏表示的单通道语音增强方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到形形色色噪声的污染,人耳和相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于字典学习和稀疏表示的单通道语音增强算法,这些算法利用语音信号在时频域上的稀疏特性,通过学习训练数据样本的结构特征并构造相应的字典,将带噪语音在字典上投影,进而估计出干净语音。但大多数算法只利用了语音时频谱的幅度信息,很少利用相位信息,因而语音增强的性能也就受到了限制。
发明内容
本发明的目的是提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,将双树复数小波变换应用于干净语音信号得到一组子带信号,对每个子带信号进行短时傅里叶变换得到其时频谱,充分利用时频谱幅度、实部和虚部以及语音的稀疏性学习训练语音样本的结构特征,构造出干净语音的联合字典,采用同样思路构造出干净噪声的联合字典;针对带噪语音信号,同样采用双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码、权值等进行一系列运算,得到该子带语音时频谱的最终估计,然后进行短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。
本发明的目的是通过以下技术方案实现的:一种基于联合字典学习和稀疏表示的单通道语音增强方法,包括:
训练阶段,构建干净语音和干净噪声的训练数据集;针对干净语音训练数据集,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,采用LARC算法和K-SVD算法学习训练数据样本的结构特征,获得干净语音每个子带的幅度、实部和虚部的联合字典;针对干净噪声训练数据集,采用同样思路获得干净噪声每个子带的幅度、实部和虚部的联合字典;
检测阶段,针对带噪语音信号,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,保留相位信息以及实部、虚部符号,并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码等进行一系列运算,得到该子带语音时频谱的初始估计和更新估计,进一步通过加权得到最终估计,然后进行短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT),得到增强后的语音信号。
本发明与现有技术相比的优点在于:
由上述本发明提供的技术方案可以看出,本方法在训练阶段,首先用双树复数小波变换将单通道干净语音信号分解成一组子信号,增加了信号的时频表征能力;其次用短时傅里叶变换将每个子带信号变换成时频谱,充分利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典;对于干净噪声信号,采用同样过程学习出干净噪声的联合字典;本方法在检测阶段,用双树复数小波变换将带噪语音分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。增强后的语音信号的质量得到了提升。
本发明提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于联合字典学习和稀疏表示的单通道语音增强方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音增强算法,本发明实施例提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,本方法首先将单通道信号分解成一组子信号,增加信号的表征能力;其次充分利用信号各子带时频谱的幅度、实部和虚部信息来学习干净语音的联合字典和干净噪声的联合字典;接着对带噪语音变换后的每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。提高了语音增强能力。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、构建干净语音和干净噪声的训练数据集;
步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声的训练数据集中的干净语音信号str(t)和干净噪声训练信号ntr(t)分解为一组子带信号
Figure BDA0002508731890000041
Figure BDA00025087318900000412
即:
Figure BDA0002508731890000042
Figure BDA0002508731890000043
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
Figure BDA0002508731890000044
Figure BDA0002508731890000045
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure BDA0002508731890000046
分别为
Figure BDA0002508731890000047
幅度、实部和虚部,
Figure BDA0002508731890000048
分别为
Figure BDA0002508731890000049
的幅度、实部和虚部;
步骤14、采用LARC算法和K-SVD算法分别学习干净语音和干净噪声复数谱的幅度、实部和虚部绝对值,得到相应的联合字典
Figure BDA00025087318900000410
Figure BDA00025087318900000411
字典的学习过程如下:
Figure BDA0002508731890000051
其中,
Figure BDA0002508731890000052
分别是干净语音子带信号
Figure BDA0002508731890000053
的幅度、实部和虚部字典;
Figure BDA0002508731890000054
是干净语音子带信号的稀疏表示系数;干净语音子带信号的稀疏表示系数为矩阵形式,
Figure BDA0002508731890000055
Figure BDA0002508731890000056
的第g列;
Figure BDA0002508731890000057
分别是干净噪声子带信号
Figure BDA0002508731890000058
的幅度、实部和虚部字典;
Figure BDA0002508731890000059
是干净噪声子带信号的稀疏表示系数;干净噪声子带信号的稀疏表示系数为矩阵形式,
Figure BDA00025087318900000510
Figure BDA00025087318900000511
的第g列,q为稀疏约束;
Figure BDA00025087318900000512
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数。
步骤2、检测阶段
步骤21、带噪语音信号为x(t)=s(t)+n(t),用双树复数小波变换(DTCWT)将其分解为一组子带信号,即:
Figure BDA00025087318900000513
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对带噪语音信号的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
Figure BDA0002508731890000061
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure BDA0002508731890000062
分别为
Figure BDA0002508731890000063
幅度、实部和虚部,提取相应的幅度、实部和虚部绝对值,并保留相位信息以及实部、虚部符号留待进一步处理;
步骤23,把带噪语音信号的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来,
Figure BDA0002508731890000064
并在干净语音和干净噪声的联合字典
Figure BDA0002508731890000065
Figure BDA0002508731890000067
上分别进行对应投影,获得投影的语音和噪声稀疏表示系数,计算如下:
Figure BDA0002508731890000066
其中,
Figure BDA0002508731890000071
分别为
Figure BDA0002508731890000072
在联合字典
Figure BDA0002508731890000073
上的候选稀疏表示系数,
Figure BDA0002508731890000074
为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,
Figure BDA0002508731890000075
分别为
Figure BDA0002508731890000076
的第g列;
Figure BDA0002508731890000077
分别为
Figure BDA0002508731890000078
在联合字典
Figure BDA0002508731890000079
上的候选稀疏表示系数,
Figure BDA00025087318900000710
为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,
Figure BDA00025087318900000711
分别为
Figure BDA00025087318900000712
的第g列;q为稀疏约束;
步骤24,对带噪语音的每一子带语音信号复数谱的初始估计。
首先,利用稀疏表示系数计算出各个字典重建出的语音和噪声复数谱的幅度、实部和虚部绝对值,如下式所示:
Figure BDA00025087318900000713
Figure BDA00025087318900000714
Figure BDA00025087318900000715
Figure BDA00025087318900000716
Figure BDA00025087318900000717
Figure BDA00025087318900000718
其次,由
Figure BDA00025087318900000719
和保留的
Figure BDA00025087318900000720
相位重建出第一种子带语音信号复数谱
Figure BDA00025087318900000721
Figure BDA00025087318900000722
Figure BDA00025087318900000723
以及保留的
Figure BDA00025087318900000724
Figure BDA00025087318900000725
符号重建出第二种子带语音信号复数谱
Figure BDA00025087318900000726
称之为初始估计;
同样,可以得到两种子带噪声信号复数谱的初始估计:
Figure BDA00025087318900000727
Figure BDA0002508731890000081
步骤25,对带噪语音的每一子带语音信号复数谱的最终估计。
首先,根据带噪语音的每一子带信号的复数谱的两种初始估计,分别计算比例掩码:
Figure BDA0002508731890000082
Figure BDA0002508731890000083
其次,完成带噪语音的每一子带语音信号的复数谱的更新估计:
Figure BDA0002508731890000084
Figure BDA0002508731890000085
其中,
Figure BDA0002508731890000086
为矩阵对应元素乘法算子。
最后采用基尼系数
Figure BDA0002508731890000087
对两种更新估计进行加权,得到带噪语音的每一子带语音信号的复数谱的最终估计:
Figure BDA0002508731890000088
步骤26,获得时域语音信号的估计
Figure BDA0002508731890000089
首先,对每个子带语音信号的复数谱估计进行短时傅里叶逆变换(ISTFT):
Figure BDA00025087318900000810
其中,ISTFT{}为短时傅里叶逆变换算子。
对上述一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到语音信号的估计:
Figure BDA00025087318900000811
其中,IDTCWT{}为双树复数小波逆变换算子。
本发明实施例上述方案,在训练阶段,针对干净语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,充分利用时频谱的幅度、实部和虚部信息以及语音和噪声的稀疏性,学习到干净语音联合字典;针对干净噪声,采用相同的思路学习到干净语音联合字典;在检测阶段,针对带噪语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,得到时频谱的最终估计,最后通过短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT)获得时域语音信号的估计。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (2)

1.一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、构建干净语音和干净噪声的训练数据集;
步骤12、用双树复数小波变换(DTCWT)分别将干净语音和干净噪声训练数据集中的干净语音信号str(t)和干净噪声训练信号ntr(t)分解为一组子带信号
Figure FDA0002508731880000011
Figure FDA0002508731880000012
即:
Figure FDA0002508731880000013
Figure FDA0002508731880000014
其中DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
Figure FDA0002508731880000015
Figure FDA0002508731880000016
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure FDA0002508731880000017
分别为
Figure FDA0002508731880000018
幅度、实部和虚部,
Figure FDA0002508731880000019
分别为
Figure FDA00025087318800000110
的幅度、实部和虚部;
步骤14、采用LARC算法和K-SVD算法分别学习干净语音和干净噪声复数谱的幅度、实部和虚部绝对值,得到相应的联合字典
Figure FDA00025087318800000111
Figure FDA00025087318800000112
字典的学习过程如下:
Figure FDA0002508731880000021
Figure FDA0002508731880000022
Figure FDA0002508731880000023
Figure FDA0002508731880000024
Figure FDA0002508731880000025
Figure FDA0002508731880000026
其中,
Figure FDA0002508731880000027
分别是干净语音子带信号
Figure FDA0002508731880000028
的幅度、实部和虚部字典;
Figure FDA0002508731880000029
是干净语音子带信号的稀疏表示系数;干净语音子带信号的稀疏表示系数为矩阵形式,
Figure FDA00025087318800000210
Figure FDA00025087318800000211
的第g列;
Figure FDA00025087318800000212
分别是干净噪声子带信号
Figure FDA00025087318800000213
的幅度、实部和虚部字典;
Figure FDA00025087318800000214
是干净噪声子带信号的稀疏表示系数;干净噪声子带信号的稀疏表示系数为矩阵形式,
Figure FDA00025087318800000215
Figure FDA00025087318800000216
的第g列,q为稀疏约束;
Figure FDA00025087318800000217
代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
步骤21、带噪语音信号为x(t)=s(t)+n(t),用双树复数小波变换(DTCWT)将其分解为一组子带信号
Figure FDA00025087318800000218
即:
Figure FDA00025087318800000219
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对带噪语音的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
Figure FDA0002508731880000031
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure FDA0002508731880000032
分别为
Figure FDA0002508731880000033
幅度、实部和虚部,提取相应的幅度、实部和虚部绝对值,并保留相位信息以及实部、虚部符号留待进一步处理;
步骤23,把带噪语音的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来,
Figure FDA0002508731880000034
并在干净语音和干净噪声的联合字典
Figure FDA0002508731880000035
Figure FDA0002508731880000036
上分别进行对应投影,获得投影的语音和噪声稀疏表示系数,计算如下:
Figure FDA0002508731880000037
Figure FDA0002508731880000038
Figure FDA0002508731880000039
Figure FDA00025087318800000310
Figure FDA00025087318800000311
Figure FDA00025087318800000312
其中,
Figure FDA0002508731880000041
分别为
Figure FDA0002508731880000042
在联合字典
Figure FDA0002508731880000043
上的候选稀疏表示系数,
Figure FDA0002508731880000044
为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,
Figure FDA0002508731880000045
分别为
Figure FDA0002508731880000046
的第g列;
Figure FDA0002508731880000047
分别为
Figure FDA0002508731880000048
在联合字典
Figure FDA0002508731880000049
上的候选稀疏表示系数,
Figure FDA00025087318800000410
为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,
Figure FDA00025087318800000411
分别为
Figure FDA00025087318800000412
的第g列;q为稀疏约束;
步骤24,对带噪语音的每一子带语音信号复数谱的初始估计;
首先,利用稀疏表示系数计算出各个字典重建出的语音和噪声复数谱的幅度、实部和虚部绝对值,如下式所示:
Figure FDA00025087318800000413
Figure FDA00025087318800000414
Figure FDA00025087318800000415
Figure FDA00025087318800000416
Figure FDA00025087318800000417
Figure FDA00025087318800000418
其次,由
Figure FDA00025087318800000419
和保留的
Figure FDA00025087318800000420
相位重建出第一种子带语音信号复数谱
Figure FDA00025087318800000421
Figure FDA00025087318800000422
Figure FDA00025087318800000423
以及保留的
Figure FDA00025087318800000424
Figure FDA00025087318800000425
符号重建出第二种子带语音信号复数谱
Figure FDA00025087318800000426
称之为初始估计;
同样,可以得到两种子带噪声信号复数谱的初始估计:
Figure FDA00025087318800000427
Figure FDA0002508731880000051
步骤25,对带噪语音的每一子带语音信号复数谱的最终估计;
首先,根据带噪语音的每一子带信号的复数谱的两种初始估计,分别计算比例掩码:
Figure FDA0002508731880000052
Figure FDA0002508731880000053
其次,完成带噪语音的每一子带语音信号的复数谱的更新估计:
Figure FDA0002508731880000054
Figure FDA0002508731880000055
其中,
Figure FDA0002508731880000056
为矩阵对应元素乘法算子;
最后采用基尼系数
Figure FDA0002508731880000057
对两种更新估计进行加权,得到带噪语音的每一子带语音信号的复数谱的最终估计:
Figure FDA0002508731880000058
Figure FDA0002508731880000059
Figure FDA00025087318800000510
步骤26,获得时域语音信号的估计
Figure FDA00025087318800000511
首先,对每个子带语音信号的复数谱估计进行短时傅里叶逆变换(ISTFT):
Figure FDA00025087318800000512
其中ISTFT{}为短时傅里叶逆变换算子;
对上述一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到语音信号的估计:
Figure FDA00025087318800000513
其中IDTCWT{}为双树复数小波逆变换算子。
2.根据权利要求1所述的一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,在训练阶段,针对干净语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,充分利用时频谱的幅度、实部和虚部信息以及语音和噪声的稀疏性,学习到干净语音联合字典;针对干净噪声,采用相同的思路学习到干净语音联合字典;在检测阶段,针对带噪语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,得到时频谱的最终估计,最后通过短时傅里叶逆变换(ISTFT)和双树复数小波变换(IDTCWT)获得时域语音信号的估计。
CN202010454159.6A 2020-05-18 2020-05-26 一种基于联合字典学习和稀疏表示的单通道语音增强方法 Active CN111508518B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010418547 2020-05-18
CN2020104185479 2020-05-18

Publications (2)

Publication Number Publication Date
CN111508518A true CN111508518A (zh) 2020-08-07
CN111508518B CN111508518B (zh) 2022-05-13

Family

ID=71865043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010454159.6A Active CN111508518B (zh) 2020-05-18 2020-05-26 一种基于联合字典学习和稀疏表示的单通道语音增强方法

Country Status (1)

Country Link
CN (1) CN111508518B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968627A (zh) * 2020-08-13 2020-11-20 中国科学技术大学 一种基于联合字典学习和稀疏表示的骨导语音增强方法
CN112185405A (zh) * 2020-09-10 2021-01-05 中国科学技术大学 一种基于差分运算和联合字典学习的骨导语音增强方法
CN112710969A (zh) * 2020-12-18 2021-04-27 武汉大学 一种单相半桥五电平逆变器开关管开路故障诊断方法
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
WO2022110802A1 (zh) * 2020-11-27 2022-06-02 北京搜狗科技发展有限公司 语音处理方法、装置和用于处理语音的装置
CN118032122A (zh) * 2024-04-11 2024-05-14 国网山东省电力公司潍坊供电公司 一种基于gis运行声音的异常检测方法、装置及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
US20130121495A1 (en) * 2011-09-09 2013-05-16 Gautham J. Mysore Sound Mixture Recognition
US20160341814A1 (en) * 2012-03-09 2016-11-24 U.S. Army Research Laboratory Attn: Rdrl-Loc-I Method and system for jointly separating noise from signals
CN109087664A (zh) * 2018-08-22 2018-12-25 中国科学技术大学 语音增强方法
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130121495A1 (en) * 2011-09-09 2013-05-16 Gautham J. Mysore Sound Mixture Recognition
US20160341814A1 (en) * 2012-03-09 2016-11-24 U.S. Army Research Laboratory Attn: Rdrl-Loc-I Method and system for jointly separating noise from signals
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN109087664A (zh) * 2018-08-22 2018-12-25 中国科学技术大学 语音增强方法
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHRISTIAN D. SIGG: "Speech Enhancement Using Generative Dictionary Learning", 《IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING》 *
叶中付等: "基于字典学习和稀疏表示的单通道语音增强算法综述", 《应用声学》 *
王娜等: "双树复小波包变换语音增强新算法", 《传感技术学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968627A (zh) * 2020-08-13 2020-11-20 中国科学技术大学 一种基于联合字典学习和稀疏表示的骨导语音增强方法
CN111968627B (zh) * 2020-08-13 2024-03-29 中国科学技术大学 一种基于联合字典学习和稀疏表示的骨导语音增强方法
CN112185405A (zh) * 2020-09-10 2021-01-05 中国科学技术大学 一种基于差分运算和联合字典学习的骨导语音增强方法
CN112185405B (zh) * 2020-09-10 2024-02-09 中国科学技术大学 一种基于差分运算和联合字典学习的骨导语音增强方法
WO2022110802A1 (zh) * 2020-11-27 2022-06-02 北京搜狗科技发展有限公司 语音处理方法、装置和用于处理语音的装置
CN112710969A (zh) * 2020-12-18 2021-04-27 武汉大学 一种单相半桥五电平逆变器开关管开路故障诊断方法
CN113096682A (zh) * 2021-03-20 2021-07-09 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN113096682B (zh) * 2021-03-20 2023-08-29 杭州知存智能科技有限公司 基于掩码时域解码器的实时语音降噪方法和装置
CN118032122A (zh) * 2024-04-11 2024-05-14 国网山东省电力公司潍坊供电公司 一种基于gis运行声音的异常检测方法、装置及介质

Also Published As

Publication number Publication date
CN111508518B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
CN111508518B (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN107845389B (zh) 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
CN103559888A (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
CN113808602A (zh) 语音增强方法、模型训练方法以及相关设备
CN107248414A (zh) 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
Geng et al. End-to-end speech enhancement based on discrete cosine transform
CN104217730B (zh) 一种基于k‑svd的人工语音带宽扩展方法及装置
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
US20070055519A1 (en) Robust bandwith extension of narrowband signals
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN104240717B (zh) 基于稀疏编码和理想二进制掩膜相结合的语音增强方法
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Zhang et al. FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
Hamid et al. Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT)
Zehtabian et al. A novel speech enhancement approach based on singular value decomposition and genetic algorithm
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
CN116665681A (zh) 一种基于组合滤波的雷声识别方法
CN111429927B (zh) 提升个性化合成语音质量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant