CN111710343B - 一种在双变换域上的单通道语音分离方法 - Google Patents

一种在双变换域上的单通道语音分离方法 Download PDF

Info

Publication number
CN111710343B
CN111710343B CN202010492043.1A CN202010492043A CN111710343B CN 111710343 B CN111710343 B CN 111710343B CN 202010492043 A CN202010492043 A CN 202010492043A CN 111710343 B CN111710343 B CN 111710343B
Authority
CN
China
Prior art keywords
voice
time
speech
sub
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010492043.1A
Other languages
English (en)
Other versions
CN111710343A (zh
Inventor
叶中付
穆罕默德·伊姆兰·侯赛因
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202010492043.1A priority Critical patent/CN111710343B/zh
Publication of CN111710343A publication Critical patent/CN111710343A/zh
Application granted granted Critical
Publication of CN111710343B publication Critical patent/CN111710343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

本发明提供一种在双变换域上的单通道语音分离方法,对每一个说话人的训练语音做双树复数小波变换得到一组子带信号,对每一个子带信号做短时傅里叶变换得到其时频谱,并利用稀疏非负矩阵分解方法获得该语音的基矩阵;对多个说话人的混合语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,提取其幅度,并在各个说话人语音的基矩阵上分解得到相应的权矩阵,通过各个说话人语音的基矩阵和权矩阵,得到该子带各个语音时频谱幅度的初始分离,进一步利用掩码得到该子带各个语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到分离后的各个语音信号。

Description

一种在双变换域上的单通道语音分离方法
技术领域
本发明涉及语音分离领域,尤其涉及一种在双变换域上的单通道语音分离方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。针对对话和讨论场景,人耳和相关智能装 置收到的是多个说话人的混合语音,语音的质量和可懂度会有明显的下降,影响了人们的主 观听觉感受和智能装置的语音识别率,也会影响智能会议系统的转写性能。语音分离技术就 是解决这类问题的主要方法。如何从混合语音中分离出各个语音一直都是信号处理领域的热 点问题。近年来研究者相继提出了一些在短时傅里叶变换域基于非负矩阵分解的单通道语音 分离算法,这些算法利用各个说话人语音在时频域上的稀疏特性,通过学习训练数据样本的 结构特征并构造相应的基矩阵,将混合语音在基矩阵上分解,获得相应的权系数,进而分离 出各个语音。但大多数算法只利用了单通道语音时频谱的幅度,语音分离性能就受到了一定 限制。
发明内容
本发明的目的是提供一种在双变换域上的单通道语音分离方法,将双树复数小波变换应 用于每一个说话人语音信号得到一组子带信号,对每个子带信号进行短时傅里叶变换得到其 时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征,得到相应的基矩 阵;针对多个说话人混合语音信号,通过双树复数小波变换将其分解为一组子带信号,对每 个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音基矩阵上分解, 得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果, 采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时 域语音信号的分离结果。
本发明的目的是通过以下技术方案实现的:一种在双变换域上的单通道语音分离方法, 包括:
训练阶段,对于多个说话人,构建每一个说话人语音的训练数据集;针对语音训练数据 集的每一个说话人语音,用双树复数小波变换将语音信号分解为一组子带信号,对每个子带 信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频 谱的幅度特征,得到相应的基矩阵;
检测阶段,针对多个说话人混合语音信号,用双树复数小波变换将语音信号分解为一组 子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音 基矩阵上分解,得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的 初始分离结果,采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小 波逆变换获得时域语音信号的分离结果。
本发明与现有技术相比的优点在于:
由上述本发明提供的技术方案可以看出,用双树复数小波变换将单通道语音信号分解成 一组子信号,接着用短时傅里叶变换将每个子带信号变换成时频谱,稀疏非负矩阵分解方法 具有分解的非负性和稀疏性,综合利用以上几点,增加了信号的时频表征能力和各个语音的 区分性,使得分离后的语音信号的质量得到了提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图 作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种在双变换域上的单通道语音分离方法的流程图。
图2为本发明提出的方法与其它几种方法对比的一个实验结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于 本发明的保护范围。
不同于已有的大多数单通道语音分离算法,本发明实施例提供一种在双变换域上的单通 道语音分离方法,本方法首先用双树复数小波变换将单通道语音信号分解成一组子信号,接 着用短时傅里叶变换将每个子带信号变换成时频谱,充分利用稀疏非负矩阵分解方法具有分 解的非负性和稀疏性,增加了信号的时频表征能力和各个语音的区分性,提升了语音分离信 号性能。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、对于多个说话人,构建每一个说话人语音的训练数据集。现在以两个说话人为 例,第一个说话人语音(以下简称第一个语音)的训练数据集为{xtr(t)},第二个说话人语 音(以下简称第二个语音)的训练数据集为{ytr(t)};
步骤12、用双树复数小波变换(DTCWT)将第一个语音训练数据集中的语音信号xtr(t) 分解为一组子带信号
Figure BDA0002521432300000031
即:
Figure BDA0002521432300000032
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
同样,用双树复数小波变换将第二个语音训练信号ytr(t)分解为一组子带信号
Figure BDA0002521432300000033
即:
Figure BDA0002521432300000034
步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT),得到时频域上的 时频谱,即:
Figure BDA0002521432300000035
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点;
同样,对第二个语音的每一子带信号做短时傅里叶变换,得到时频域上的时频谱,即:
Figure BDA0002521432300000036
Figure BDA0002521432300000037
的幅度,
Figure BDA0002521432300000038
的幅度;
步骤14、采用稀疏非负矩阵分解(SNMF)方法分别学习第一个语音时频谱的幅度特征, 得到相应的基矩阵
Figure BDA0002521432300000039
基矩阵通过如下的分解获得:
Figure BDA00025214323000000310
其中,
Figure BDA0002521432300000041
分别是第一个语音子带信号
Figure BDA0002521432300000042
的幅度 权矩阵,μ为稀疏参数,|·|1表示1范数;
同样,采用稀疏非负矩阵分解方法分别学习第二个语音时频谱的幅度特征,得到相应的 基矩阵
Figure BDA0002521432300000043
基矩阵通过如下的分解获得:
Figure BDA0002521432300000044
其中,
Figure BDA0002521432300000045
分别是第二个语音子带信号
Figure BDA0002521432300000046
的幅度 权矩阵;
进一步形成复合基矩阵:
Figure BDA0002521432300000047
步骤2、检测阶段
步骤21、混合语音信号为z(t)=x(t)+y(t),记录了两个说话人的混合语音。用双树复数 小波变换将其分解为一组子带信号
Figure BDA0002521432300000048
即:
Figure BDA0002521432300000049
Figure BDA00025214323000000410
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对混合语音的每一子带信号分别做短时傅里叶变换,得到时频域上的时频谱, 即:
Figure BDA00025214323000000411
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure BDA00025214323000000412
分别为
Figure BDA00025214323000000413
的幅度;
步骤23,把混合语音的每一子带信号的时频谱的幅度
Figure BDA00025214323000000414
在复合基矩阵
Figure BDA00025214323000000415
上分别进行稀疏非负矩阵分解,获得相应的权 矩阵,计算如下:
Figure BDA0002521432300000051
进一步表示为:
Figure BDA0002521432300000052
其中,
Figure BDA0002521432300000053
分别是
Figure BDA0002521432300000054
在复合基矩阵
Figure BDA0002521432300000055
上分解得到的复合权矩阵,
Figure BDA0002521432300000056
分别 是
Figure BDA0002521432300000057
在第一个语音基矩阵
Figure BDA0002521432300000058
上分解得到的 权矩阵,
Figure BDA0002521432300000059
分别是
Figure BDA00025214323000000510
在第二个语音基矩阵
Figure BDA00025214323000000511
上分解得到的权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤24,对混合语音的每一子带语音信号时频谱幅度进行初始分离;
首先,利用在第一个语音基矩阵
Figure BDA00025214323000000512
分解得到的权矩阵
Figure BDA00025214323000000513
分离出第一个语音信号时频谱幅度,如下式所示:
Figure BDA00025214323000000514
其次,利用在第二个语音基矩阵
Figure BDA00025214323000000515
分解得到的权矩阵
Figure BDA00025214323000000516
分离出第二个语音信号时频谱幅度,如下式所示:
Figure BDA00025214323000000517
步骤25,对混合语音中的每一个语音的每一子带语音信号时频谱进行分离;
首先,依据初始分离结果,计算第一个语音的每一子带语音信号时频谱的比例掩码:
Figure BDA00025214323000000518
对混合语音中的第一个语音的每一子带语音信号时频谱完成分离:
Figure BDA0002521432300000061
其中,
Figure BDA0002521432300000062
为矩阵对应元素乘法算子。
其次,依据初始分离结果,计算第二个语音的每一子带语音信号时频谱的比例掩码:
Figure BDA0002521432300000063
对混合语音中的第二个语音的每一子带语音信号时频谱完成分离:
Figure BDA0002521432300000064
步骤26,获得分离后的时域的各个语音信号;
首先,对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT), 得到:
Figure BDA0002521432300000065
其中,ISTFT{}为短时傅里叶逆变换算子;
同样,对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换,得到:
Figure BDA0002521432300000066
其次,对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到 分离后的第一个语音:
Figure BDA0002521432300000067
其中,IDTCWT{}为双树复数小波逆变换算子;
同样,对第二个语音的一组语音子信号估计做双树复数小波逆变换,得到分离后的第二 个语音:
Figure BDA0002521432300000068
本发明实施例上述方案,在训练阶段,对于多个说话人,构建每一个说话人语音的训练 数据集;针对语音训练数据集的每一个说话人语音,用双树复数小波变换将语音信号分解为 一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解 方法分别学习各个语音时频谱的幅度特征,得到相应的基矩阵;在检测阶段,针对多个说 话人混合语音信号,用双树复数小波变换将语音信号分解为一组子带信号,对每个子带信号 进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音基矩阵上分解,得到相应的 权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果,采用掩码得 到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号 的分离结果。
从网格视听语料库(GRID audio-visual corpus)中采集语音作为训练和测试数据(包括 不同的男性语音和女性语音)。有34个说话人(18男、16女)说了1000句话。随机抽取500个话 语进行训练,并选用每个说话人200个话语进行测试。在仿真实验中,使用了两种类型的语 音组合,一种是同性(男性-男性或女性-女性)语音分离,另一种是异性(男性-女性)语音分离。 在同性语音分离中,用8个同性说话人的话语组成一个实验组,用另外8个不同的同性说话人 的话语组成另一个实验组。对于异性语音分离,选择16名男性说话人的话语组成一个实验组, 16名女性说话人的话语组成另一个实验组。训练语音的长度约为60秒,测试语音的长度约为 10秒。语音信号的采样率为8000Hz,使用50%重叠的512点STFT将信号转换为时频域。
首先,给出本发明提出的方法与其它几种方法对比的一个实验结果,如图2所示。图中, 水平坐标为时间单位为秒,记为Time(s);垂直坐标为频率,记为Frequency。原始的男性语 音谱图(Origina lMale Speech)和原始的女性语音图谱(Original FemaleSpeech)分别如图2(a) 和图2(b)所示,将它们直接相加起来形成混合语音;采用离散小波变换-短时傅里叶变换-稀 疏非负矩阵分解方法(DWT-STFT-SNMF)分离出的男性语音谱图(Male Speech Estimated by DWT-STFT-SNMF)和女性语音谱图(Female SpeechEstimated by DWT-STFT-SNMF)分别如 图2(c)和图2(d)所示;采用平稳小波变换-稀疏非负矩阵分解方法(SWT-SNMF)分离出的男 性语音谱图(Male Speech Estimated by SWT-SNMF)和女性语音谱图(Female Speech Estimated by SWT-SNMF)分别如图2(e)和图2(f)所示;采用本专利提出的方法分离出的男性语音谱图 (Male Speech Estimated byProposed Method)和女性语音谱图(Female Speech Estimated by Proposed Method)分别如图2(g)和图2(h)所示。从图中可以看出,本方法分离出的男性和女性 语音谱图与原始的男性和女性语音谱图最相似。
然后分别用SIR、SDR、fwsegSNR、STOI、PESQ、HASPI、HASQI指标对各组实验进 行评价,结果如表1所示(M:男,F:女):
表1各组实验结果
Figure BDA0002521432300000071
Figure BDA0002521432300000081
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过 软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实 施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储 介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (1)

1.一种在双变换域上的单通道语音分离方法,其特征在于,包括:在训练阶段,针对每一个说话人的语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征,得到相应的基矩阵;在检测阶段,针对多个说话人的混合语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个说话人语音基矩阵上分解,得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果,采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果;
该方法具体包括:
步骤1、训练阶段
步骤11、对于多个说话人,构建每一个说话人语音的训练数据集;现在以两个说话人为例,第一个说话人语音以下简称第一个语音的训练数据集为{xtr(t)},第二个说话人语音以下简称第二个语音的训练数据集为{ytr(t)};
步骤12、用双树复数小波变换(DTCWT)将第一个语音训练数据集中的语音信号xtr(t)分解为一组子带信号
Figure FDA0003768029670000011
即:
Figure FDA0003768029670000012
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
同样,用双树复数小波变换将第二个语音训练信号ytr(t)分解为一组子带信号
Figure FDA0003768029670000013
即:
Figure FDA0003768029670000014
步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
Figure FDA0003768029670000015
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点;
同样,对第二个语音的每一子带信号做短时傅里叶变换,得到时频域上的时频谱,即:
Figure FDA0003768029670000021
Figure FDA0003768029670000022
分别为
Figure FDA0003768029670000023
的幅度,
Figure FDA0003768029670000024
分别为
Figure FDA0003768029670000025
的幅度;
步骤14、采用稀疏非负矩阵分解(SNMF)方法分别学习第一个语音时频谱的幅度特征,得到相应的基矩阵
Figure FDA0003768029670000026
基矩阵通过如下的分解获得:
Figure FDA0003768029670000027
其中,
Figure FDA0003768029670000028
分别是第一个语音子带信号
Figure FDA0003768029670000029
的幅度权矩阵,μ为稀疏参数,|·|1表示1范数;
同样,采用稀疏非负矩阵分解方法分别学习第二个语音时频谱的幅度特征,得到相应的基矩阵
Figure FDA00037680296700000210
基矩阵通过如下的分解获得:
Figure FDA00037680296700000211
其中,
Figure FDA00037680296700000212
分别是第二个语音子带信号
Figure FDA00037680296700000213
的幅度权矩阵;
进一步形成复合基矩阵:
Figure FDA00037680296700000214
步骤2、检测阶段
步骤21、混合语音信号为z(t)=x(t)+y(t),记录了两个说话人的混合语音,用双树复数小波变换将其分解为一组子带信号
Figure FDA00037680296700000215
即:
Figure FDA00037680296700000216
Figure FDA00037680296700000217
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对混合语音的每一子带信号分别做短时傅里叶变换,得到时频域上的时频谱,即:
Figure FDA0003768029670000031
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点,
Figure FDA0003768029670000032
分别为
Figure FDA0003768029670000033
的幅度;
步骤23,把混合语音的每一子带信号的时频谱的幅度
Figure FDA0003768029670000034
在复合基矩阵
Figure FDA0003768029670000035
上分别进行稀疏非负矩阵分解,获得相应的权矩阵,计算如下:
Figure FDA0003768029670000036
进一步表示为:
Figure FDA0003768029670000037
其中,
Figure FDA0003768029670000038
分别是
Figure FDA0003768029670000039
在复合基矩阵
Figure FDA00037680296700000310
上分解得到的复合权矩阵,
Figure FDA00037680296700000311
分别是
Figure FDA00037680296700000312
在第一个语音基矩阵
Figure FDA00037680296700000313
上分解得到的权矩阵,
Figure FDA00037680296700000314
分别是
Figure FDA00037680296700000315
在第二个语音基矩阵
Figure FDA00037680296700000316
上分解得到的权矩阵,μ为稀疏参数,|·|1表示1范数;
步骤24,对混合语音的每一子带语音信号时频谱幅度进行初始分离;
首先,利用在第一个语音基矩阵
Figure FDA00037680296700000317
分解得到的权矩阵
Figure FDA00037680296700000318
分离出第一个语音信号时频谱幅度,如下式所示:
Figure FDA00037680296700000319
其次,利用在第二个语音基矩阵
Figure FDA0003768029670000041
分解得到的权矩阵
Figure FDA0003768029670000042
分离出第二个语音信号时频谱幅度,如下式所示:
Figure FDA0003768029670000043
步骤25,对混合语音中的每一个语音的每一子带语音信号时频谱进行分离;
首先,依据初始分离结果,计算第一个语音的每一子带语音信号时频谱的比例掩码:
Figure FDA0003768029670000044
对混合语音中的第一个语音的每一子带语音信号时频谱完成分离:
Figure FDA0003768029670000045
其中,
Figure FDA0003768029670000046
为矩阵对应元素乘法算子;
其次,依据初始分离结果,计算第二个语音的每一子带语音信号时频谱的比例掩码:
Figure FDA0003768029670000047
对混合语音中的第二个语音的每一子带语音信号时频谱完成分离:
Figure FDA0003768029670000048
步骤26,获得分离后的时域的各个语音信号;
首先,对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT),得到:
Figure FDA0003768029670000049
其中,ISTFT{}为短时傅里叶逆变换算子;
同样,对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换,得到:
Figure FDA00037680296700000410
其次,对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到分离后的第一个语音:
Figure FDA00037680296700000411
其中,IDTCWT{}为双树复数小波逆变换算子;
同样,对第二个语音的一组语音子信号估计做双树复数小波逆变换,得到分离后的第二个语音:
Figure FDA0003768029670000051
CN202010492043.1A 2020-06-03 2020-06-03 一种在双变换域上的单通道语音分离方法 Active CN111710343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010492043.1A CN111710343B (zh) 2020-06-03 2020-06-03 一种在双变换域上的单通道语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010492043.1A CN111710343B (zh) 2020-06-03 2020-06-03 一种在双变换域上的单通道语音分离方法

Publications (2)

Publication Number Publication Date
CN111710343A CN111710343A (zh) 2020-09-25
CN111710343B true CN111710343B (zh) 2022-09-30

Family

ID=72538436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010492043.1A Active CN111710343B (zh) 2020-06-03 2020-06-03 一种在双变换域上的单通道语音分离方法

Country Status (1)

Country Link
CN (1) CN111710343B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091104A (zh) * 2014-07-02 2014-10-08 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
WO2016050725A1 (en) * 2014-09-30 2016-04-07 Thomson Licensing Method and apparatus for speech enhancement based on source separation
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104091104A (zh) * 2014-07-02 2014-10-08 兰州理工大学 多格式音频感知哈希认证的特征值提取及认证方法
WO2016050725A1 (en) * 2014-09-30 2016-04-07 Thomson Licensing Method and apparatus for speech enhancement based on source separation
CN104751855A (zh) * 2014-11-25 2015-07-01 北京理工大学 基于非负矩阵分解的音乐背景下语音增强方法
CN105957537A (zh) * 2016-06-20 2016-09-21 安徽大学 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Investigating Single Channel Source Separation Using Non-Negative Matrix Factorization and Its Variants for Overlapping Speech Signal;Nandini C Nag et al.;《IEEE》;20200102;全文 *
一种基于非负矩阵分解的改进FastICA盲源分离方法;王艳芳等;《江苏科技大学学报(自然科学版)》;20180415(第02期);第82-86页 *
基于字典学习和稀疏表示的单通道语音增强算法综述;叶中付 等;《应用声学》;20190904;第645-652页 *
基于深度神经网络的音频信号分离的研究;徐金才;《中国优秀硕士学位论文全文数据库(电子期刊)》;20181115;I136-40 *
基于稀疏卷积非负矩阵分解的语音转换方法研究;马振等;《军事通信技术》;20130625(第02期);第3-9页 *
基于非负矩阵分解与时频掩蔽估计的语音增强技术研究;晏博芳;《中国优秀硕士学位论文全文数据库(电子期刊)》;20200315;I136-172 *

Also Published As

Publication number Publication date
CN111710343A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
Sarikaya et al. Wavelet packet transform features with application to speaker identification
CN102129456B (zh) 去相关稀疏映射音乐流派有监督自动分类方法
CN111696568B (zh) 一种半监督瞬态噪声抑制方法
CN111508518B (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
CN111128214A (zh) 音频降噪方法、装置、电子设备及介质
CN109215671B (zh) 基于MFrSRRPCA算法的语音增强系统及方法
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN111128209A (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN102664010A (zh) 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN111986660A (zh) 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
Chaudhary et al. Fourier-Bessel representation for signal processing: A review
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
Hou et al. Domain adversarial training for speech enhancement
Saleem et al. Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence
CN111710343B (zh) 一种在双变换域上的单通道语音分离方法
JP7315087B2 (ja) 信号処理装置、信号処理方法、および、信号処理プログラム
Mazumder et al. Feature extraction techniques for speech processing: A review
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
Rao et al. Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration
CN110060699A (zh) 一种基于深度稀疏展开的单信道语音分离方法
Yamamoto et al. Speech Intelligibility Prediction Based on the Envelope Power Spectrum Model with the Dynamic Compressive Gammachirp Auditory Filterbank.
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
Shu-Guang et al. Isolated word recognition in reverberant environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant