CN111508518A - 一种基于联合字典学习和稀疏表示的单通道语音增强方法 - Google Patents
一种基于联合字典学习和稀疏表示的单通道语音增强方法 Download PDFInfo
- Publication number
- CN111508518A CN111508518A CN202010454159.6A CN202010454159A CN111508518A CN 111508518 A CN111508518 A CN 111508518A CN 202010454159 A CN202010454159 A CN 202010454159A CN 111508518 A CN111508518 A CN 111508518A
- Authority
- CN
- China
- Prior art keywords
- speech
- clean
- time
- noise
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Optimization (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。
Description
技术领域
本发明涉及单通道语音增强领域,尤其涉及一种基于联合字典学习和稀疏表示的单通道语音增强方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。由于受到形形色色噪声的污染,人耳和相关智能装置收到的是带噪语音,语音的质量和可懂度会有明显的下降,影响了人们的主观听觉感受和智能装置的语音识别率。语音增强技术就是解决这类问题的主要方法。如何从带噪语音中恢复出干净语音一直都是信号处理领域的热点问题。近年来研究者相继提出了一些基于字典学习和稀疏表示的单通道语音增强算法,这些算法利用语音信号在时频域上的稀疏特性,通过学习训练数据样本的结构特征并构造相应的字典,将带噪语音在字典上投影,进而估计出干净语音。但大多数算法只利用了语音时频谱的幅度信息,很少利用相位信息,因而语音增强的性能也就受到了限制。
发明内容
本发明的目的是提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,将双树复数小波变换应用于干净语音信号得到一组子带信号,对每个子带信号进行短时傅里叶变换得到其时频谱,充分利用时频谱幅度、实部和虚部以及语音的稀疏性学习训练语音样本的结构特征,构造出干净语音的联合字典,采用同样思路构造出干净噪声的联合字典;针对带噪语音信号,同样采用双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码、权值等进行一系列运算,得到该子带语音时频谱的最终估计,然后进行短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。
本发明的目的是通过以下技术方案实现的:一种基于联合字典学习和稀疏表示的单通道语音增强方法,包括:
训练阶段,构建干净语音和干净噪声的训练数据集;针对干净语音训练数据集,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,采用LARC算法和K-SVD算法学习训练数据样本的结构特征,获得干净语音每个子带的幅度、实部和虚部的联合字典;针对干净噪声训练数据集,采用同样思路获得干净噪声每个子带的幅度、实部和虚部的联合字典;
检测阶段,针对带噪语音信号,用双树复数小波变换(DTCWT)将语音信号分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,提取相应的幅度、实部和虚部绝对值,保留相位信息以及实部、虚部符号,并分别在干净语音联合字典和干净噪声联合字典上进行投影,得到语音和噪声的稀疏表示系数,利用稀疏表示系数、保留的时频谱相位和实部虚部符号以及掩码等进行一系列运算,得到该子带语音时频谱的初始估计和更新估计,进一步通过加权得到最终估计,然后进行短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT),得到增强后的语音信号。
本发明与现有技术相比的优点在于:
由上述本发明提供的技术方案可以看出,本方法在训练阶段,首先用双树复数小波变换将单通道干净语音信号分解成一组子信号,增加了信号的时频表征能力;其次用短时傅里叶变换将每个子带信号变换成时频谱,充分利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典;对于干净噪声信号,采用同样过程学习出干净噪声的联合字典;本方法在检测阶段,用双树复数小波变换将带噪语音分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。增强后的语音信号的质量得到了提升。
本发明提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,对干净语音做双树复数小波变换得到一组子带信号,对子带信号做短时傅里叶变换得到其时频谱,利用其幅度、实部和虚部以及语音稀疏性学习出干净语音的联合字典,同样学习出干净噪声的联合字典;对带噪语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,利用该系数、时频谱相位和实部虚部符号以及掩码、权值等,得到该子带语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到增强后的语音信号,提高了语音增强能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于联合字典学习和稀疏表示的单通道语音增强方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
不同于已有的大多数单通道语音增强算法,本发明实施例提供一种基于联合字典学习和稀疏表示的单通道语音增强方法,本方法首先将单通道信号分解成一组子信号,增加信号的表征能力;其次充分利用信号各子带时频谱的幅度、实部和虚部信息来学习干净语音的联合字典和干净噪声的联合字典;接着对带噪语音变换后的每个子带信号时频谱,保留相位和实部虚部符号,提取幅度、实部和虚部绝对值并分别在干净语音和干净噪声联合字典上投影,得到语音和噪声的稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,这些过程明显降低了估计误差,得到时频谱的最终的精确估计,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的估计。提高了语音增强能力。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、构建干净语音和干净噪声的训练数据集;
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
其中,分别是干净语音子带信号的幅度、实部和虚部字典;是干净语音子带信号的稀疏表示系数;干净语音子带信号的稀疏表示系数为矩阵形式,为的第g列;分别是干净噪声子带信号的幅度、实部和虚部字典;是干净噪声子带信号的稀疏表示系数;干净噪声子带信号的稀疏表示系数为矩阵形式,为的第g列,q为稀疏约束;代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数。
步骤2、检测阶段
步骤21、带噪语音信号为x(t)=s(t)+n(t),用双树复数小波变换(DTCWT)将其分解为一组子带信号,即:
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对带噪语音信号的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
步骤23,把带噪语音信号的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来,
其中,分别为在联合字典上的候选稀疏表示系数,为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,分别为的第g列;分别为在联合字典上的候选稀疏表示系数,为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,分别为的第g列;q为稀疏约束;
步骤24,对带噪语音的每一子带语音信号复数谱的初始估计。
首先,利用稀疏表示系数计算出各个字典重建出的语音和噪声复数谱的幅度、实部和虚部绝对值,如下式所示:
同样,可以得到两种子带噪声信号复数谱的初始估计:
步骤25,对带噪语音的每一子带语音信号复数谱的最终估计。
首先,根据带噪语音的每一子带信号的复数谱的两种初始估计,分别计算比例掩码:
其次,完成带噪语音的每一子带语音信号的复数谱的更新估计:
首先,对每个子带语音信号的复数谱估计进行短时傅里叶逆变换(ISTFT):
其中,ISTFT{}为短时傅里叶逆变换算子。
对上述一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到语音信号的估计:
其中,IDTCWT{}为双树复数小波逆变换算子。
本发明实施例上述方案,在训练阶段,针对干净语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,充分利用时频谱的幅度、实部和虚部信息以及语音和噪声的稀疏性,学习到干净语音联合字典;针对干净噪声,采用相同的思路学习到干净语音联合字典;在检测阶段,针对带噪语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,得到时频谱的最终估计,最后通过短时傅里叶逆变换(ISTFT)和双树复数小波逆变换(IDTCWT)获得时域语音信号的估计。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (2)
1.一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,包括:
步骤1、训练阶段
步骤11、构建干净语音和干净噪声的训练数据集;
其中DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对语音和噪声的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
其中,分别是干净语音子带信号的幅度、实部和虚部字典;是干净语音子带信号的稀疏表示系数;干净语音子带信号的稀疏表示系数为矩阵形式,为的第g列;分别是干净噪声子带信号的幅度、实部和虚部字典;是干净噪声子带信号的稀疏表示系数;干净噪声子带信号的稀疏表示系数为矩阵形式,为的第g列,q为稀疏约束;代表的是弗罗贝尼乌斯范数,||·||1代表的是1-范数;
步骤2、检测阶段
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对带噪语音的每一子带信号分别用短时傅里叶变换得到时频域上的复数谱,即:
步骤23,把带噪语音的每一子带信号的复数谱的幅度、实部和虚部绝对值组织起来,
其中,分别为在联合字典上的候选稀疏表示系数,为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,分别为的第g列;分别为在联合字典上的候选稀疏表示系数,为通过上述式子从候选稀疏表示系数中选出的最优稀疏表示系数;稀疏表示系数为矩阵形式,分别为的第g列;q为稀疏约束;
步骤24,对带噪语音的每一子带语音信号复数谱的初始估计;
首先,利用稀疏表示系数计算出各个字典重建出的语音和噪声复数谱的幅度、实部和虚部绝对值,如下式所示:
同样,可以得到两种子带噪声信号复数谱的初始估计:
步骤25,对带噪语音的每一子带语音信号复数谱的最终估计;
首先,根据带噪语音的每一子带信号的复数谱的两种初始估计,分别计算比例掩码:
其次,完成带噪语音的每一子带语音信号的复数谱的更新估计:
首先,对每个子带语音信号的复数谱估计进行短时傅里叶逆变换(ISTFT):
其中ISTFT{}为短时傅里叶逆变换算子;
对上述一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到语音信号的估计:
其中IDTCWT{}为双树复数小波逆变换算子。
2.根据权利要求1所述的一种基于联合字典学习和稀疏表示的单通道语音增强方法,其特征在于,在训练阶段,针对干净语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱,充分利用时频谱的幅度、实部和虚部信息以及语音和噪声的稀疏性,学习到干净语音联合字典;针对干净噪声,采用相同的思路学习到干净语音联合字典;在检测阶段,针对带噪语音,通过双树复数小波变换(DTCWT)将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换(STFT),获得时频谱的幅度相位、实部和虚部及其符号,将时频谱的幅度、实部和虚部绝对值在干净语音的联合字典和干净噪声的联合字典上投影获得最优稀疏表示系数,结合时频谱的相位、实部和虚部符号得到时频谱的两种初始估计,采用掩码得到时频谱的两种更新估计,进一步对两种更新估计加权平均,得到时频谱的最终估计,最后通过短时傅里叶逆变换(ISTFT)和双树复数小波变换(IDTCWT)获得时域语音信号的估计。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010418547 | 2020-05-18 | ||
CN2020104185479 | 2020-05-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508518A true CN111508518A (zh) | 2020-08-07 |
CN111508518B CN111508518B (zh) | 2022-05-13 |
Family
ID=71865043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010454159.6A Active CN111508518B (zh) | 2020-05-18 | 2020-05-26 | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508518B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968627A (zh) * | 2020-08-13 | 2020-11-20 | 中国科学技术大学 | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 |
CN112185405A (zh) * | 2020-09-10 | 2021-01-05 | 中国科学技术大学 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
CN112710969A (zh) * | 2020-12-18 | 2021-04-27 | 武汉大学 | 一种单相半桥五电平逆变器开关管开路故障诊断方法 |
CN113096682A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
WO2022110802A1 (zh) * | 2020-11-27 | 2022-06-02 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和用于处理语音的装置 |
CN118032122A (zh) * | 2024-04-11 | 2024-05-14 | 国网山东省电力公司潍坊供电公司 | 一种基于gis运行声音的异常检测方法、装置及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
US20130121495A1 (en) * | 2011-09-09 | 2013-05-16 | Gautham J. Mysore | Sound Mixture Recognition |
US20160341814A1 (en) * | 2012-03-09 | 2016-11-24 | U.S. Army Research Laboratory Attn: Rdrl-Loc-I | Method and system for jointly separating noise from signals |
CN109087664A (zh) * | 2018-08-22 | 2018-12-25 | 中国科学技术大学 | 语音增强方法 |
CN110428848A (zh) * | 2019-06-20 | 2019-11-08 | 西安电子科技大学 | 一种基于公共空间语音模型预测的语音增强方法 |
-
2020
- 2020-05-26 CN CN202010454159.6A patent/CN111508518B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121495A1 (en) * | 2011-09-09 | 2013-05-16 | Gautham J. Mysore | Sound Mixture Recognition |
US20160341814A1 (en) * | 2012-03-09 | 2016-11-24 | U.S. Army Research Laboratory Attn: Rdrl-Loc-I | Method and system for jointly separating noise from signals |
CN102915742A (zh) * | 2012-10-30 | 2013-02-06 | 中国人民解放军理工大学 | 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 |
CN109087664A (zh) * | 2018-08-22 | 2018-12-25 | 中国科学技术大学 | 语音增强方法 |
CN110428848A (zh) * | 2019-06-20 | 2019-11-08 | 西安电子科技大学 | 一种基于公共空间语音模型预测的语音增强方法 |
Non-Patent Citations (3)
Title |
---|
CHRISTIAN D. SIGG: "Speech Enhancement Using Generative Dictionary Learning", 《IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING》 * |
叶中付等: "基于字典学习和稀疏表示的单通道语音增强算法综述", 《应用声学》 * |
王娜等: "双树复小波包变换语音增强新算法", 《传感技术学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968627A (zh) * | 2020-08-13 | 2020-11-20 | 中国科学技术大学 | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 |
CN111968627B (zh) * | 2020-08-13 | 2024-03-29 | 中国科学技术大学 | 一种基于联合字典学习和稀疏表示的骨导语音增强方法 |
CN112185405A (zh) * | 2020-09-10 | 2021-01-05 | 中国科学技术大学 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
CN112185405B (zh) * | 2020-09-10 | 2024-02-09 | 中国科学技术大学 | 一种基于差分运算和联合字典学习的骨导语音增强方法 |
WO2022110802A1 (zh) * | 2020-11-27 | 2022-06-02 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和用于处理语音的装置 |
CN112710969A (zh) * | 2020-12-18 | 2021-04-27 | 武汉大学 | 一种单相半桥五电平逆变器开关管开路故障诊断方法 |
CN113096682A (zh) * | 2021-03-20 | 2021-07-09 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN113096682B (zh) * | 2021-03-20 | 2023-08-29 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN118032122A (zh) * | 2024-04-11 | 2024-05-14 | 国网山东省电力公司潍坊供电公司 | 一种基于gis运行声音的异常检测方法、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111508518B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111508518B (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN107845389B (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN111081268A (zh) | 一种相位相关的共享深度卷积神经网络语音增强方法 | |
CN111696568B (zh) | 一种半监督瞬态噪声抑制方法 | |
Zhang et al. | Birdsoundsdenoising: Deep visual audio denoising for bird sounds | |
CN103559888A (zh) | 基于非负低秩和稀疏矩阵分解原理的语音增强方法 | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
CN113808602A (zh) | 语音增强方法、模型训练方法以及相关设备 | |
CN107248414A (zh) | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 | |
Geng et al. | End-to-end speech enhancement based on discrete cosine transform | |
CN104217730B (zh) | 一种基于k‑svd的人工语音带宽扩展方法及装置 | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
US20070055519A1 (en) | Robust bandwith extension of narrowband signals | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN104240717B (zh) | 基于稀疏编码和理想二进制掩膜相结合的语音增强方法 | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Zhang et al. | FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network | |
CN112185405B (zh) | 一种基于差分运算和联合字典学习的骨导语音增强方法 | |
Hamid et al. | Speech enhancement using EMD based adaptive soft-thresholding (EMD-ADT) | |
Zehtabian et al. | A novel speech enhancement approach based on singular value decomposition and genetic algorithm | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN113571074B (zh) | 基于多波段结构时域音频分离网络的语音增强方法及装置 | |
CN116665681A (zh) | 一种基于组合滤波的雷声识别方法 | |
CN111429927B (zh) | 提升个性化合成语音质量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |