CN111710343B - 一种在双变换域上的单通道语音分离方法 - Google Patents
一种在双变换域上的单通道语音分离方法 Download PDFInfo
- Publication number
- CN111710343B CN111710343B CN202010492043.1A CN202010492043A CN111710343B CN 111710343 B CN111710343 B CN 111710343B CN 202010492043 A CN202010492043 A CN 202010492043A CN 111710343 B CN111710343 B CN 111710343B
- Authority
- CN
- China
- Prior art keywords
- voice
- time
- speech
- sub
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
- G10L19/0216—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Abstract
本发明提供一种在双变换域上的单通道语音分离方法,对每一个说话人的训练语音做双树复数小波变换得到一组子带信号,对每一个子带信号做短时傅里叶变换得到其时频谱,并利用稀疏非负矩阵分解方法获得该语音的基矩阵;对多个说话人的混合语音做双树复数小波变换和短时傅里叶变换,获得每个子带信号时频谱,提取其幅度,并在各个说话人语音的基矩阵上分解得到相应的权矩阵,通过各个说话人语音的基矩阵和权矩阵,得到该子带各个语音时频谱幅度的初始分离,进一步利用掩码得到该子带各个语音时频谱的最终估计,做短时傅里叶逆变换和双树复数小波逆变换,得到分离后的各个语音信号。
Description
技术领域
本发明涉及语音分离领域,尤其涉及一种在双变换域上的单通道语音分离方法。
背景技术
在人们的交流活动中,语音发挥着主导作用。针对对话和讨论场景,人耳和相关智能装 置收到的是多个说话人的混合语音,语音的质量和可懂度会有明显的下降,影响了人们的主 观听觉感受和智能装置的语音识别率,也会影响智能会议系统的转写性能。语音分离技术就 是解决这类问题的主要方法。如何从混合语音中分离出各个语音一直都是信号处理领域的热 点问题。近年来研究者相继提出了一些在短时傅里叶变换域基于非负矩阵分解的单通道语音 分离算法,这些算法利用各个说话人语音在时频域上的稀疏特性,通过学习训练数据样本的 结构特征并构造相应的基矩阵,将混合语音在基矩阵上分解,获得相应的权系数,进而分离 出各个语音。但大多数算法只利用了单通道语音时频谱的幅度,语音分离性能就受到了一定 限制。
发明内容
本发明的目的是提供一种在双变换域上的单通道语音分离方法,将双树复数小波变换应 用于每一个说话人语音信号得到一组子带信号,对每个子带信号进行短时傅里叶变换得到其 时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征,得到相应的基矩 阵;针对多个说话人混合语音信号,通过双树复数小波变换将其分解为一组子带信号,对每 个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音基矩阵上分解, 得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果, 采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时 域语音信号的分离结果。
本发明的目的是通过以下技术方案实现的:一种在双变换域上的单通道语音分离方法, 包括:
训练阶段,对于多个说话人,构建每一个说话人语音的训练数据集;针对语音训练数据 集的每一个说话人语音,用双树复数小波变换将语音信号分解为一组子带信号,对每个子带 信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频 谱的幅度特征,得到相应的基矩阵;
检测阶段,针对多个说话人混合语音信号,用双树复数小波变换将语音信号分解为一组 子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音 基矩阵上分解,得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的 初始分离结果,采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小 波逆变换获得时域语音信号的分离结果。
本发明与现有技术相比的优点在于:
由上述本发明提供的技术方案可以看出,用双树复数小波变换将单通道语音信号分解成 一组子信号,接着用短时傅里叶变换将每个子带信号变换成时频谱,稀疏非负矩阵分解方法 具有分解的非负性和稀疏性,综合利用以上几点,增加了信号的时频表征能力和各个语音的 区分性,使得分离后的语音信号的质量得到了提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图 作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种在双变换域上的单通道语音分离方法的流程图。
图2为本发明提出的方法与其它几种方法对比的一个实验结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实 施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于 本发明的保护范围。
不同于已有的大多数单通道语音分离算法,本发明实施例提供一种在双变换域上的单通 道语音分离方法,本方法首先用双树复数小波变换将单通道语音信号分解成一组子信号,接 着用短时傅里叶变换将每个子带信号变换成时频谱,充分利用稀疏非负矩阵分解方法具有分 解的非负性和稀疏性,增加了信号的时频表征能力和各个语音的区分性,提升了语音分离信 号性能。如图1所示,其主要包括:
步骤1、训练阶段
步骤11、对于多个说话人,构建每一个说话人语音的训练数据集。现在以两个说话人为 例,第一个说话人语音(以下简称第一个语音)的训练数据集为{xtr(t)},第二个说话人语 音(以下简称第二个语音)的训练数据集为{ytr(t)};
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT),得到时频域上的 时频谱,即:
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点;
同样,对第二个语音的每一子带信号做短时傅里叶变换,得到时频域上的时频谱,即:
进一步形成复合基矩阵:
步骤2、检测阶段
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对混合语音的每一子带信号分别做短时傅里叶变换,得到时频域上的时频谱, 即:
步骤23,把混合语音的每一子带信号的时频谱的幅度
进一步表示为:
步骤24,对混合语音的每一子带语音信号时频谱幅度进行初始分离;
步骤25,对混合语音中的每一个语音的每一子带语音信号时频谱进行分离;
首先,依据初始分离结果,计算第一个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第一个语音的每一子带语音信号时频谱完成分离:
其次,依据初始分离结果,计算第二个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第二个语音的每一子带语音信号时频谱完成分离:
步骤26,获得分离后的时域的各个语音信号;
首先,对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT), 得到:
其中,ISTFT{}为短时傅里叶逆变换算子;
同样,对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换,得到:
其次,对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到 分离后的第一个语音:
其中,IDTCWT{}为双树复数小波逆变换算子;
同样,对第二个语音的一组语音子信号估计做双树复数小波逆变换,得到分离后的第二 个语音:
本发明实施例上述方案,在训练阶段,对于多个说话人,构建每一个说话人语音的训练 数据集;针对语音训练数据集的每一个说话人语音,用双树复数小波变换将语音信号分解为 一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解 方法分别学习各个语音时频谱的幅度特征,得到相应的基矩阵;在检测阶段,针对多个说 话人混合语音信号,用双树复数小波变换将语音信号分解为一组子带信号,对每个子带信号 进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个语音基矩阵上分解,得到相应的 权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果,采用掩码得 到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号 的分离结果。
从网格视听语料库(GRID audio-visual corpus)中采集语音作为训练和测试数据(包括 不同的男性语音和女性语音)。有34个说话人(18男、16女)说了1000句话。随机抽取500个话 语进行训练,并选用每个说话人200个话语进行测试。在仿真实验中,使用了两种类型的语 音组合,一种是同性(男性-男性或女性-女性)语音分离,另一种是异性(男性-女性)语音分离。 在同性语音分离中,用8个同性说话人的话语组成一个实验组,用另外8个不同的同性说话人 的话语组成另一个实验组。对于异性语音分离,选择16名男性说话人的话语组成一个实验组, 16名女性说话人的话语组成另一个实验组。训练语音的长度约为60秒,测试语音的长度约为 10秒。语音信号的采样率为8000Hz,使用50%重叠的512点STFT将信号转换为时频域。
首先,给出本发明提出的方法与其它几种方法对比的一个实验结果,如图2所示。图中, 水平坐标为时间单位为秒,记为Time(s);垂直坐标为频率,记为Frequency。原始的男性语 音谱图(Origina lMale Speech)和原始的女性语音图谱(Original FemaleSpeech)分别如图2(a) 和图2(b)所示,将它们直接相加起来形成混合语音;采用离散小波变换-短时傅里叶变换-稀 疏非负矩阵分解方法(DWT-STFT-SNMF)分离出的男性语音谱图(Male Speech Estimated by DWT-STFT-SNMF)和女性语音谱图(Female SpeechEstimated by DWT-STFT-SNMF)分别如 图2(c)和图2(d)所示;采用平稳小波变换-稀疏非负矩阵分解方法(SWT-SNMF)分离出的男 性语音谱图(Male Speech Estimated by SWT-SNMF)和女性语音谱图(Female Speech Estimated by SWT-SNMF)分别如图2(e)和图2(f)所示;采用本专利提出的方法分离出的男性语音谱图 (Male Speech Estimated byProposed Method)和女性语音谱图(Female Speech Estimated by Proposed Method)分别如图2(g)和图2(h)所示。从图中可以看出,本方法分离出的男性和女性 语音谱图与原始的男性和女性语音谱图最相似。
然后分别用SIR、SDR、fwsegSNR、STOI、PESQ、HASPI、HASQI指标对各组实验进 行评价,结果如表1所示(M:男,F:女):
表1各组实验结果
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过 软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实 施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储 介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (1)
1.一种在双变换域上的单通道语音分离方法,其特征在于,包括:在训练阶段,针对每一个说话人的语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,通过稀疏非负矩阵分解方法分别学习各个语音时频谱的幅度特征,得到相应的基矩阵;在检测阶段,针对多个说话人的混合语音,通过双树复数小波变换将其分解为一组子带信号,对每个子带信号进行短时傅里叶变换,获得时频谱,将时频谱的幅度在各个说话人语音基矩阵上分解,得到相应的权矩阵,利用每个语音的基矩阵和权矩阵,得到其时频谱幅度的初始分离结果,采用掩码得到时频谱的最终分离,最后通过短时傅里叶逆变换和双树复数小波逆变换获得时域语音信号的分离结果;
该方法具体包括:
步骤1、训练阶段
步骤11、对于多个说话人,构建每一个说话人语音的训练数据集;现在以两个说话人为例,第一个说话人语音以下简称第一个语音的训练数据集为{xtr(t)},第二个说话人语音以下简称第二个语音的训练数据集为{ytr(t)};
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤13、对第一个语音的每一子带信号做短时傅里叶变换(STFT),得到时频域上的时频谱,即:
其中,STFT{}为短时傅里叶变换算子,tf,f分别为时间帧和频率点;
同样,对第二个语音的每一子带信号做短时傅里叶变换,得到时频域上的时频谱,即:
进一步形成复合基矩阵:
步骤2、检测阶段
其中,DTCWT{}为双树复数小波变换算子,J,b,tl分别表示DTCWT的层数、子带数和树层数;
步骤22,对混合语音的每一子带信号分别做短时傅里叶变换,得到时频域上的时频谱,即:
步骤23,把混合语音的每一子带信号的时频谱的幅度
进一步表示为:
步骤24,对混合语音的每一子带语音信号时频谱幅度进行初始分离;
步骤25,对混合语音中的每一个语音的每一子带语音信号时频谱进行分离;
首先,依据初始分离结果,计算第一个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第一个语音的每一子带语音信号时频谱完成分离:
其次,依据初始分离结果,计算第二个语音的每一子带语音信号时频谱的比例掩码:
对混合语音中的第二个语音的每一子带语音信号时频谱完成分离:
步骤26,获得分离后的时域的各个语音信号;
首先,对第一个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换(ISTFT),得到:
其中,ISTFT{}为短时傅里叶逆变换算子;
同样,对第二个语音的每个子带语音信号的时频谱估计做短时傅里叶逆变换,得到:
其次,对第一个语音的一组语音子信号估计做双树复数小波逆变换(IDTCWT),得到分离后的第一个语音:
其中,IDTCWT{}为双树复数小波逆变换算子;
同样,对第二个语音的一组语音子信号估计做双树复数小波逆变换,得到分离后的第二个语音:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010492043.1A CN111710343B (zh) | 2020-06-03 | 2020-06-03 | 一种在双变换域上的单通道语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010492043.1A CN111710343B (zh) | 2020-06-03 | 2020-06-03 | 一种在双变换域上的单通道语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111710343A CN111710343A (zh) | 2020-09-25 |
CN111710343B true CN111710343B (zh) | 2022-09-30 |
Family
ID=72538436
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010492043.1A Active CN111710343B (zh) | 2020-06-03 | 2020-06-03 | 一种在双变换域上的单通道语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111710343B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091104A (zh) * | 2014-07-02 | 2014-10-08 | 兰州理工大学 | 多格式音频感知哈希认证的特征值提取及认证方法 |
CN104751855A (zh) * | 2014-11-25 | 2015-07-01 | 北京理工大学 | 基于非负矩阵分解的音乐背景下语音增强方法 |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN108417219A (zh) * | 2018-02-22 | 2018-08-17 | 武汉大学 | 一种适应于流媒体的音频对象编解码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
-
2020
- 2020-06-03 CN CN202010492043.1A patent/CN111710343B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091104A (zh) * | 2014-07-02 | 2014-10-08 | 兰州理工大学 | 多格式音频感知哈希认证的特征值提取及认证方法 |
WO2016050725A1 (en) * | 2014-09-30 | 2016-04-07 | Thomson Licensing | Method and apparatus for speech enhancement based on source separation |
CN104751855A (zh) * | 2014-11-25 | 2015-07-01 | 北京理工大学 | 基于非负矩阵分解的音乐背景下语音增强方法 |
CN105957537A (zh) * | 2016-06-20 | 2016-09-21 | 安徽大学 | 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统 |
CN107248414A (zh) * | 2017-05-23 | 2017-10-13 | 清华大学 | 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 |
CN108417219A (zh) * | 2018-02-22 | 2018-08-17 | 武汉大学 | 一种适应于流媒体的音频对象编解码方法 |
Non-Patent Citations (6)
Title |
---|
Investigating Single Channel Source Separation Using Non-Negative Matrix Factorization and Its Variants for Overlapping Speech Signal;Nandini C Nag et al.;《IEEE》;20200102;全文 * |
一种基于非负矩阵分解的改进FastICA盲源分离方法;王艳芳等;《江苏科技大学学报(自然科学版)》;20180415(第02期);第82-86页 * |
基于字典学习和稀疏表示的单通道语音增强算法综述;叶中付 等;《应用声学》;20190904;第645-652页 * |
基于深度神经网络的音频信号分离的研究;徐金才;《中国优秀硕士学位论文全文数据库(电子期刊)》;20181115;I136-40 * |
基于稀疏卷积非负矩阵分解的语音转换方法研究;马振等;《军事通信技术》;20130625(第02期);第3-9页 * |
基于非负矩阵分解与时频掩蔽估计的语音增强技术研究;晏博芳;《中国优秀硕士学位论文全文数据库(电子期刊)》;20200315;I136-172 * |
Also Published As
Publication number | Publication date |
---|---|
CN111710343A (zh) | 2020-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sarikaya et al. | Wavelet packet transform features with application to speaker identification | |
CN102129456B (zh) | 去相关稀疏映射音乐流派有监督自动分类方法 | |
CN111696568B (zh) | 一种半监督瞬态噪声抑制方法 | |
CN111508518B (zh) | 一种基于联合字典学习和稀疏表示的单通道语音增强方法 | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
CN111128214A (zh) | 音频降噪方法、装置、电子设备及介质 | |
CN109215671B (zh) | 基于MFrSRRPCA算法的语音增强系统及方法 | |
CN111863015A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
CN111128209A (zh) | 一种基于混合掩蔽学习目标的语音增强方法 | |
CN102664010A (zh) | 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法 | |
CN111986660A (zh) | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 | |
Chaudhary et al. | Fourier-Bessel representation for signal processing: A review | |
Saleem et al. | Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization | |
Barros et al. | Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets | |
Hou et al. | Domain adversarial training for speech enhancement | |
Saleem et al. | Low rank sparse decomposition model based speech enhancement using gammatone filterbank and Kullback–Leibler divergence | |
CN111710343B (zh) | 一种在双变换域上的单通道语音分离方法 | |
JP7315087B2 (ja) | 信号処理装置、信号処理方法、および、信号処理プログラム | |
Mazumder et al. | Feature extraction techniques for speech processing: A review | |
Hossain et al. | Dual-transform source separation using sparse nonnegative matrix factorization | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN110060699A (zh) | 一种基于深度稀疏展开的单信道语音分离方法 | |
Yamamoto et al. | Speech Intelligibility Prediction Based on the Envelope Power Spectrum Model with the Dynamic Compressive Gammachirp Auditory Filterbank. | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Shu-Guang et al. | Isolated word recognition in reverberant environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |