CN110428848B - 一种基于公共空间语音模型预测的语音增强方法 - Google Patents

一种基于公共空间语音模型预测的语音增强方法 Download PDF

Info

Publication number
CN110428848B
CN110428848B CN201910539327.9A CN201910539327A CN110428848B CN 110428848 B CN110428848 B CN 110428848B CN 201910539327 A CN201910539327 A CN 201910539327A CN 110428848 B CN110428848 B CN 110428848B
Authority
CN
China
Prior art keywords
dictionary
public space
noise
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910539327.9A
Other languages
English (en)
Other versions
CN110428848A (zh
Inventor
张军英
刘建东
王洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910539327.9A priority Critical patent/CN110428848B/zh
Publication of CN110428848A publication Critical patent/CN110428848A/zh
Application granted granted Critical
Publication of CN110428848B publication Critical patent/CN110428848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

本发明属于语音信号处理技术领域,公开了一种基于公共空间语音模型预测的语音增强方法。所述基于公共空间语音模型预测的语音增强方法包括:通过声源字典间相互进行非负矩阵分解(NMF,Non‑negative Matrix Factorization),判定出字典内容间是否可以互相表达,形成公共空间;将相互表达的成分,从两字典中分离出来,使用一个公共空间字典额外保存,并通过机器学习工具对公共空间部分的成分进行预测。本发明在没有明显提升算法复杂度的前提下,以修改字典为手段,解决了两个声源字典之间公共空间内数据点无法准确处理的问题,提高了输出语音的质量。

Description

一种基于公共空间语音模型预测的语音增强方法
技术领域
本发明属于语音信号处理技术领域,尤其涉及一种公共空间语音模型预测的语音增强方法。
背景技术
国内外众多研究者经过研究,针对非负矩阵分解(NMF,Non-negative MatrixFactorization)的相关理论,结合语音信号处理的相关知识,提出了多种有监督单通道语音增强算法。为了解决基于NMF方法中语音与噪声字典之间的互表达问题,研究者主要通过设计联合训练的方式,将互相干系数等参数加入矩阵分解的目标函数。使用联合训练的思路处理字典间互表达问题,将会降低方法实施的灵活性,提高计算成本。
目前,最接近的现有技术为基于非负矩阵分解的单通道音频有监督语音增强方法,具体流程如下:在训练阶段中,需要对纯净噪声与纯净语音信号的同种训练数据进行拼接整理,得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time Fourier Transform)并取幅度值,可以得到两段音频的幅度谱矩阵。将两幅度谱矩阵送入NMF工具进行迭代,可以得到代表声源发声常见模式的字典矩阵作为声源特征。将两个字典矩阵合并保存为一个联合字典,即W=[WsWn]。
在进入增强阶段之后,对要处理的输入数据执行预处理,获得幅度谱矩阵V。随后使用训练过程中得到的联合字典W,对V进行分解,获得系数矩阵H=[HsHn]T。其中,Hs为语音部分对应的系数,Hn为噪声部分对应的系数。可以利用WsHs估计得到纯净语音的幅度谱。将待处理语音STFT获得时频谱的相位信息加入估计的幅度谱,执行STFT逆变换以获得增强后的语音时域信号。
NMF分解方法的结果中,认为分解得到两个矩阵是满秩的。因此在使用合并后的字典W对获得带噪语音的谱进行处理时也使用了这一性质。在严格的数学讨论中,字典间的互表达能力十分有限,因此众多算法并没有针对这一问题进行改进。但在具体的工程条件下,由于多种误差的影响下,字典间的互表达问题被明显放大。使用非满秩字典对输入幅度谱进行分解时,会导致解的唯一性与合法性出现问题,导致语音增强结果的随机性。分解结果的随机性反应在一段输出语音中,就体现为降噪不彻底或者语音失真等问题。本发明首先以数据空间的角度,将字典相互表达的非满秩问题以公共空间的形式进行处理。综上所述,现有技术存在的问题是:
(1)大部分现有算法从数学角度认为语音与噪声合并形成的字典具有满秩性质,并没有以实际工程角度进行检查。
(2)现有方法解决字典互表达问题的联合训练思路约束了算法实施的灵活性,受限于数据采集以及工程实施时的种种限制,难以联合处理这两部分数据。
解决上述技术问题的难度:
本问题主要涉及语音字典与噪声字典,两字典间可互表达的内容极大影响了语音增强的效果。直接去除导致互表达问题的部分内容,将会导致现有方法无法准确判断某些数据是否属于噪声。因此,需要引入一个额外的模型对公共空间内的内容成分进行预测。
解决上述技术问题的意义:
本发明NMF分解提取字典作为声源特性,通过对字典间的互表达问题进行检查,可以在少量提升运算量的情况下避免由字典内容互表达产生的一系列问题。同时这一解决思路,在不使用已有的联合训练解决方案的前提下,可以保证训练语音与训练噪声的采集分解过程相互独立,保障了实施时的灵活性。该专利工作是在混响环境下双耳声源定位的研究及应用,项目批准号:11674352的支持下完成的。
发明内容
针对现有技术存在的问题,本发明提供了一种基于公共空间语音模型预测的语音增强方法。
本发明是这样实现的:通过两个字典间相互进行非负矩阵分解,判定出字典内容间是否可以互相表达,形成公共空间;将相互表达的成分,从两字典中分离出来,使用一个公共空间字典额外保存,并通过机器学习工具对公共空间部分的成分进行预测。
进一步,所述基于公共空间语音模型预测的语音增强方法包括:
第一步,对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理,得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform),得到分别对应噪声与语音的两个时频域谱矩阵;随后将每一个声源的复数时频谱矩阵数据取幅度值,将复数数据转换为实数数据;将两实数矩阵送入NMF工具进行迭代,经过迭代分解之后,得到两个代表声源发声常见模式的字典矩阵Ws与Wn作为声源的个性特征;
第二步,对第一步中得到的语音与噪声字典Ws与Wn,先使用字典Ws对Wn字典进行NMF分解。通过判断每一个列向量的重构误差是否大于接受阈值0.03,将重构误差小于阈值的内容从Wn字典中移入公共空间字典Wcs
第三步,训练公共空间内容预测模型,将现有的所有系数进行汇总,作为范例保存;在使用时,以一个最近邻算法选择需要模仿的系数对;
第四步,对输入的带噪语音进行STFT工具变换,并取幅度值得到待处理非负矩阵V;随后使用联合字典W=[WsWn],对V进行分解,获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测,得到一个完整的系数矩阵,估计出全部的噪声部分即WnHn,并将其在混合语音的幅度谱中进行去除,得到估计的纯净语音谱Vs
第五步,将待处理语音谱的相位信息加入谱Vs,得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。
进一步,第二步的提取公共空间字典对得到的两个字典Ws与Wn;先使用字典Ws与Wn进行分解,并重构一个字典
Figure BDA0002102090050000031
通过计算求一个误差矩阵
Figure BDA0002102090050000032
Figure BDA0002102090050000033
对E中的每一个列向量,取2-范数,生成一个误差向量;通过判断每一个误差是否大于接受阈值0.03,将误差向量转换为布尔类型变量形成的向量;通过向量,标记出字典内部哪些向量导致了公共空间,需要划分进入Wcs字典。
进一步,所述第三步的训练公共空间内容预测模型具体包括:训练阶段,使用字典W=[WcsWn]对噪声数据的幅度谱进行分解,得到两个部分的系数Hcs与Hn。将这两部分系数对应保存,作为模型。
对于输入的一组待处理特征空间系数hx,通过搜索查表,在Hn找到一个余弦距离最近的最相似系数hy;由表中记录的对应关系,在Hcs中获得hy所对应的公共空间内部成分系数hyc,放缩系数计算如下:
Figure BDA0002102090050000041
求得用于放缩的比例α后,与待输出的结果系数hyc计算得到一个声源公共空间内成分的系数预测hres=αhyc
综上所述,本发明的优点及积极效果为:通过两个字典间相互进行非负矩阵分解,可以判定出字典内容间是否可以互相表达,形成公共空间;将可以相互表达的成分,从两字典中分离出来,使用一个公共空间字典额外保存,并通过机器学习工具对公共空间部分的成分进行预测。本发明在技术上首先从数据空间的角度,完善了传统算法中空间所产生的误差,使用机器学习工具预测公共空间内的内容,实现了纯净语音的预测。对一段语音的时域信号序列,使用本发明进行处理后,可以得到估计的纯净语音序列。通过一段实测数据使用本发明处理前后的波形图可以看到,图4中的带噪信号包含了大量的噪声。而下图所展示的由本发明处理后的语音信号,包含噪声内容明显减少,已经可以明显的辨认语音波形。
为了客观的评价本发明对带噪语音质量的提升。通过相同数据集训练测试,统计输出音频的PESQ评分指标(-0.5到4.5,越高越好)如图5所示。可以看到相较于输入带噪语音的PESQ评分,现有相关方法与本发明均能有效提高其语音质量,而本发明在去除字典互表达情况后,获得了高于现有相关方法的语音质量。
本发明在保证算法复杂度上限的前提下,以对字典的修改为手段,解决了传统算法中声源直接字典内容互表达的问题,提高了输入带噪语音的质量。
附图说明
图1是本发明实施例提供的基于公共空间语音模型预测的语音增强方法流程图。
图2是本发明实施例提供的基于公共空间语音模型预测的语音增强方法实现流程图。
图3是本发明实施例提供的布尔向量与字典内容对应关系示意图。
图4是本发明实施例提供的处理前后的波形图。
图5是本发明实施例提供的统计输出音频的PESQ评分指标示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有相关算法认为语音与噪声合并形成的字典具有满秩性质,但未进行检查,导致了两字典直接内容相互表达的问题;以数据成分所属于的字典划分噪声成分时,字典的非满秩性质导致了两个数据空间之间具有公共成分,导致语音处理去噪不彻底以及语音失真的问题。本发明能够解决现有技术无法处理字典间互表达导致的语音增强效果差的问题,并避免使用联合训练处理字典互表达问题所带来的复杂度提升。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于公共空间语音模型预测的语音增强方法包括以下步骤:
S101:对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理,得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform),得到分别对应噪声与语音的两个时频域谱矩阵;随后将每一个声源的复数时频谱矩阵数据取幅度值,将复数数据转换为实数数据;将两实数矩阵送入NMF工具进行迭代,经过迭代分解之后,得到两个代表声源发声常见模式的字典矩阵Ws与Wn作为声源的个性特征;
S102:对第一步中得到的语音与噪声字典Ws与Wn,先使用字典Ws对Wn字典进行NMF分解。通过判断每一个列向量的重构误差是否大于接受阈值0.03,将重构误差小于阈值的内容从Wn字典中移入公共空间字典Wcs
S103:训练公共空间内容预测模型,将现有的所有系数进行汇总,作为范例保存;在使用时,以一个最近邻算法选择需要模仿的系数对;
S104:对输入带噪音频进行STFT工具变换,并取幅度值得到待处理非负矩阵V;随后使用联合字典W=[WsWn],对V进行分解,获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测,得到一个完整的系数矩阵,估计出全部的噪声部分即WnHn,并将其在混合语音的幅度谱中进行去除,得到估计的纯净语音谱Vs
S105:将待处理语音谱的相位信息加入谱Vs,得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的基于公共空间语音模型预测的语音增强方法包括以下步骤:
(1)训练环节
对纯净噪声与纯净语音信号两种训练数据分别进行拼接整理,得到两条包含所有同类数据的长音频。对长音频进行短时傅里叶变换(STFT,Short-time FourierTransform),得到分别对应噪声与语音的两个时频域谱矩阵;随后将每一个声源的复数时频谱矩阵数据取幅度值,将复数数据转换为实数数据;将两实数矩阵送入NMF工具进行迭代,经过迭代分解之后,得到两个代表声源发声常见模式的字典矩阵Ws与Wn作为声源的个性特征;
(2)提取公共空间字典
对第二步的提取公共空间字典对得到的两个字典Ws与Wn;先使用字典Ws与Wn字典进行分解,并重构一个字典
Figure BDA0002102090050000071
通过计算求一个误差矩阵
Figure BDA0002102090050000072
Figure BDA0002102090050000073
对E中的每一个列向量,取2-范数,生成一个误差向量;通过判断每一个误差是否大于接受阈值0.03,将误差向量转换为布尔类型变量形成的向量;通过向量,标记出字典内部哪些向量导致了公共空间,该部分向量需要划分进入Wcs字典。
(3)训练公共空间内容预测模型
使用字典W=[WcsWn]对噪声数据的幅度谱进行分解,得到两个部分的系数Hcs与Hn。将这两部分系数对应保存,作为模型。
(4)去除噪声
对待输入带噪音频进行STFT工具变换,并取幅度值得到待处理非负矩阵V;随后使用联合字典W=[WsWn],对V进行分解,获得系数矩阵H。将H中噪声字典部分内容送入模型对相应公共空间内容进行预测。
对于输入的一组待处理特征空间系数hx,通过搜索查表,在Hn找到一个余弦距离最近的最相似系数hy;由表中记录的对应关系,在Hcs中获得hy所对应的公共空间内部成分系数hyc,放缩系数计算如下:
Figure BDA0002102090050000074
求得用于放缩的比例α后,与输出的结果系数hyc计算得到一个声源公共空间内成分的系数预测hres=αhyc
估计出全部的噪声部分即WnHn,并将其在混合语音的幅度谱中进行去除,得到估计的纯净语音谱Vs
(5)还原输出语音
将待处理语音谱的相位信息加入谱Vs,得到复数的时频谱。对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于公共空间语音模型预测的语音增强方法,其特征在于:通过声源特征字典间相互进行非负矩阵分解NMF,判定出字典内容间是否可以互相表达,形成公共空间;将字典中相互表达的成分,从两字典中分离出来,使用一个公共空间字典额外保存,并通过机器学习工具对公共空间部分的成分进行预测,完善噪声的去除流程;
所述基于公共空间语音模型预测的语音增强方法包括:
第一步,对纯净噪声与纯净语音信号两种训练数据分别进行整理拼接,得到两条包含所有类数据的长音频;对长音频进行短时傅里叶变换STFT,得到分别对应噪声与语音的两个时频域谱矩阵;随后将每一个声源的复数时频谱矩阵数据取幅度值,将复数数据转换为实数数据;将两实数矩阵送入NMF工具进行迭代,经过迭代分解之后,得到两个代表声源发声常见模式的字典矩阵,语音字典Ws、噪声字典Wn作为声源的个性特征;
第二步,对第一步中得到的语音字典Ws、噪声字典Wn,先使用字典Ws对Wn字典进行NMF分解;通过判断每一个列向量的重构误差是否大于接受阈值0.03,将重构误差小于阈值的内容从Wn字典中移入公共空间字典Wcs;具体包括:
先使用字典Ws对字典Wn进行分解,并重构一个字典
Figure FDA0003269003510000011
通过计算求一个误差矩阵
Figure FDA0003269003510000012
对E中的每一个列向量,取2-范数,生成一个误差向量;通过判断每一个误差是否大于接受阈值0.03,将误差向量转换为布尔类型变量形成的向量;通过向量,标记出字典内部哪些向量导致了公共空间,该部分向量需要划分进入Wcs字典;
第三步,训练公共空间内容预测模型,将现有的所有系数进行汇总,作为范例保存;在使用时,以一个最近邻算法选择需要模仿的系数对;
训练公共空间内容预测模型具体包括:
训练阶段,使用字典W=[WcsWn]对噪声数据的幅度谱进行分解,得到两个部分的系数Hcs与Hn,将这两部分系数对应保存,作为模型;
对于输入的一组待处理特征空间系数hx,通过搜索查表,在Hn找到一个余弦距离最近的最相似系数hy;由表中记录的对应关系,在Hcs中获得hy所对应的公共空间内部成分系数hyc,放缩系数计算如下:
Figure FDA0003269003510000021
求得用于放缩的比例α后,与待输出的结果系数hyc求得一个声源公共空间内成分的系数预测hres=ahyc
第四步,对输入的带噪音频进行STFT工具变换,并取幅度值得到待处理非负矩阵V;随后使用联合字典w=[WsWn],对V进行分解,获得系数矩阵H;将H中噪声字典部分内容送入模型对相应公共空间内容进行预测,得到一个完整的系数矩阵,估计出全部的噪声部分,并将其从混合语音的幅度谱中进行去除,得到估计的纯净语音谱Vs;对H中噪声字典部分内容,使用模型对其对应的公共空间内容进行预测,得到一个系数矩阵Hcs;利用WnHn+WcsHcs可以估计出噪声部分的幅度谱,在混合语音幅度谱中进行去除;
第五步,将待处理语音谱的相位信息加入谱Vs,得到复数的时频谱;对复数时频谱执行STFT逆变换以获得估计的纯净语音信号。
CN201910539327.9A 2019-06-20 2019-06-20 一种基于公共空间语音模型预测的语音增强方法 Active CN110428848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539327.9A CN110428848B (zh) 2019-06-20 2019-06-20 一种基于公共空间语音模型预测的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539327.9A CN110428848B (zh) 2019-06-20 2019-06-20 一种基于公共空间语音模型预测的语音增强方法

Publications (2)

Publication Number Publication Date
CN110428848A CN110428848A (zh) 2019-11-08
CN110428848B true CN110428848B (zh) 2021-10-29

Family

ID=68408472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539327.9A Active CN110428848B (zh) 2019-06-20 2019-06-20 一种基于公共空间语音模型预测的语音增强方法

Country Status (1)

Country Link
CN (1) CN110428848B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402909B (zh) * 2020-03-02 2023-07-07 东华大学 一种基于恒定常数频域变换下的语音增强方法
CN111508518B (zh) * 2020-05-18 2022-05-13 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN111724806B (zh) * 2020-06-05 2022-09-06 太原理工大学 一种基于深度神经网络的双视角单通道语音分离方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014079484A1 (en) * 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN108573711A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种基于nmf算法的单传声器语音分离方法
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014079484A1 (en) * 2012-11-21 2014-05-30 Huawei Technologies Co., Ltd. Method for determining a dictionary of base components from an audio signal
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN108573711A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种基于nmf算法的单传声器语音分离方法
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Exploring the Relationship between Conic Affinity of NMF Dictionaries and Speech Enhancement Metrics》;Papadopoulos, P et al.;《19th Annual Conference of the International-Speech-Communication-Association (INTERSPEECH 2018)》;20180906;第1-6卷;全文 *
《基于NMF的语音增强算法研究》;蒋茂松;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第12期);全文 *

Also Published As

Publication number Publication date
CN110428848A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
Luo et al. Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation
CN110428848B (zh) 一种基于公共空间语音模型预测的语音增强方法
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
CN111081268A (zh) 一种相位相关的共享深度卷积神经网络语音增强方法
Wang et al. Recurrent deep stacking networks for supervised speech separation
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
Zhang et al. Multi-channel multi-frame ADL-MVDR for target speech separation
Wu et al. The theory of compressive sensing matching pursuit considering time-domain noise with application to speech enhancement
Yuliani et al. Speech enhancement using deep learning methods: A review
CN104505100A (zh) 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
Wu et al. Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques
CN108764184B (zh) 一种心肺音信号的分离方法、装置、设备及存储介质
Saito et al. Unsupervised vocal dereverberation with diffusion-based generative models
Han et al. DPCCN: Densely-connected pyramid complex convolutional network for robust speech separation and extraction
CN110491412B (zh) 声音分离方法和装置、电子设备
CN115410589A (zh) 一种基于联合感知损失的注意力生成对抗语音增强方法
CN113782044A (zh) 一种语音增强方法及装置
Joy et al. Deep Scattering Power Spectrum Features for Robust Speech Recognition.
Hao et al. Optimizing the perceptual quality of time-domain speech enhancement with reinforcement learning
Kashani et al. Image to image translation based on convolutional neural network approach for speech declipping
Ernawan et al. Efficient discrete tchebichef on spectrum analysis of speech recognition
Südholt et al. Pruning deep neural network models of guitar distortion effects
Lee et al. Two-stage refinement of magnitude and complex spectra for real-time speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant