CN113077810A - 一种基于β-VAE算法的声源分离方法 - Google Patents

一种基于β-VAE算法的声源分离方法 Download PDF

Info

Publication number
CN113077810A
CN113077810A CN202110298299.3A CN202110298299A CN113077810A CN 113077810 A CN113077810 A CN 113077810A CN 202110298299 A CN202110298299 A CN 202110298299A CN 113077810 A CN113077810 A CN 113077810A
Authority
CN
China
Prior art keywords
beta
vae
separation
sound source
mixed audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110298299.3A
Other languages
English (en)
Inventor
杨予诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110298299.3A priority Critical patent/CN113077810A/zh
Publication of CN113077810A publication Critical patent/CN113077810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于β‑VAE算法的声源分离方法,属于声源分离技术领域,该分离方法具体步骤如下:(1)混合音频采集及频谱生成;(2)构建分离网络模型;(3)声源分离;(4)重构混合音频频谱图生成;(5)频谱对比验证;本发明通过在可变自动编码器框架的基础上加入超参数β,改进得到β‑VAE分离网络模型;并将混和音频输入β‑VAE分离网络模型进行分离重构,得到重构混合音频,相较于传统的变分自编码器或无监督因子(InfoGAN)和半监督(DC‑IGN),本发明显著提高了学习的潜在表示中的解缠度,进而使得其计算复杂度降低,并且分离得到的音频质量更好,进而有利于应用于目标识别、语音识别和助听辅助等听觉领域中。

Description

一种基于β-VAE算法的声源分离方法
技术领域
本发明涉及声源分离技术领域,尤其涉及一种基于β-VAE算法的声源分离方法。
背景技术
经检索,中国专利号CN111370019A公开了声源分离方法及装置、神经网络的模型训练方法及装置,该发明虽然结构简单,但其计算方式较为复杂,并且其分离质量较低;声源分离是指从混合在一起的多个声源发出的语音信号中,分离出每个声源对应的独立语音信号的过程,声源分离可应用于回声消除、应答词消除、目标识别和语音识别等听觉场景分析中,如何提高目标检测与识别类系统的抗噪声性能有十分重要的意义,目前针对声源分离方法大致可以分为两类:盲分离方法和基于模型的分离方法,但现有对声源分离的研究课题较少,使得现有方法的分离质量较低;因此,发明出一种基于β-VAE算法的声源分离方法变得尤为重要;
现有的声源分离方法,大多是利用神经网络对声源特征进行模型训练,但神经网络中数据层结构较为复杂,控制参数相对较多,容易产生较大的计算量,并且随着网络层数的加深,神经网络在训练过程中的前传信号和梯度信号在经过很多层之后会出现衰减,造成梯度消失和数据特征传播减弱等问题,因而容易导致训练得到的模型在进行声源分离时,分离质量较低;为此,我们提出一种基于β-VAE算法的声源分离方法。
发明内容
本发明的目的是为了解决现有技术中存在的缺陷,而提出的一种基于β-VAE算法的声源分离方法。
为了实现上述目的,本发明采用了如下技术方案:
一种基于β-VAE算法的声源分离方法,该分离方法具体步骤如下:
(1)混合音频采集及频谱生成:在复杂环境下,通过收集器采集混合音频信号,并根据数学变换算法构建频谱图,得到混合音频频谱图;
(2)构建分离网络模型:构建包括单个和多个超参数β,并扩展可变自动编码器框架,形成β-VAE分离网络模型;
(3)声源分离:将混合语音信号输入整个β-VAE分离网络模型中,将混合音频信号中的每一段语音进行编码与解码,生成对应的预测源信号;若生成的预测源信号对应的源信号是存在的,则令h=1,否则令h=0,最后根据各预测源信号进行重构,得到重构混合音频信号;
(4)重构混合音频频谱图生成:根据步骤(1)所述数学变换算法对重构混合音频信号进行频谱图构建,得到重构混合音频频谱图;
(5)频谱对比验证:将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较,若频谱越接近,则说明分离效果越好。
进一步地,所述数学变换算法具体为短时傅里叶变换。
进一步地,所述β-VAE分离网络模型包括编码器和解码器,其具体分离过程如下:
步骤一:编码部分,
S1:输入混合音频信号设为X,将其输入β-VAE分离网络模型的编码器中;得到输出向量集{gφ1(X)、gφ2(X)、…、gφK(X)},
S2:确定β,同时假设输出向量集呈泊松分布,通过计算输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)};
步骤二:解码部分,
SS1:将隐藏层的输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)}通过逆变换得到与输入样本集相同维度的数据集,即预测源信号{S1h1、S1h1、…、S1h1},
SS2:若生成的预测源信号与对应的源信号是存在的,则令h=1,否则令h=0;
SS3:若h=1,根据预测源信号{S1h1、S1h1、…、S1h1}进行重构,得到重构混合音频信号
Figure BDA0002985129550000041
所述β为声源的类别标签,若β=1,则该β-VAE分离网络模型对应于原始的VAE框架;当β>1时,模型被推动以学习数据更有效的潜在表示,若数据至少包含一些独立的潜在变化因素,则可以将其解开。
进一步地,所述泊松分布的具体公式如下:
Figure BDA0002985129550000042
进一步地,所述分离网络模型的损失函数如下:
Figure BDA0002985129550000043
式中:k表示类别;
j表示潜在单元;
μ(i)与σ(i)均表示编码器的输出;
DGKL表示高斯散度。
相比于现有技术,本发明的有益效果在于:
1、该基于β-VAE算法的声源分离方法,相较于NMF算法,使用了添加成分β去分解混合音频,并使用非线性并且表达能力更强的神经网络模型表示组件,并且本发明的分离模型中每一个编码器都只关心与自己相关的源信号的影响因子而不关心在这一混合音频中与其它源信号相关的影响因子,解码器也是同样学习去重构与之相关的源信号,从而有利于提高混合音频的分离精度;
2、该基于β-VAE算法的声源分离方法,通过在可变自动编码器框架的基础上加入超参数β,改进得到β-VAE分离网络模型;并将混和音频输入β-VAE分离网络模型进行分离重构,得到重构混合音频,相较于传统的变分自编码器或无监督因子(InfoGAN)和半监督(DC-IGN),本发明显著提高了学习的潜在表示中的解缠度,进而使得其计算复杂度降低,并且分离得到的音频质量更好,进而有利于应用于目标识别、语音识别和助听辅助等听觉领域中。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提出的一种基于β-VAE算法的声源分离方法的整体流程图;
图2为本发明VAE的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
参照图1-2,一种基于β-VAE算法的声源分离方法,该分离方法具体步骤如下:
(1)混合音频采集及频谱生成:在复杂环境下,通过收集器采集混合音频信号,并根据数学变换算法构建频谱图,得到混合音频频谱图;
(2)构建分离网络模型:构建包括单个和多个超参数β,并扩展可变自动编码器框架,形成β-VAE分离网络模型;
(3)声源分离:将混合语音信号输入整个β-VAE分离网络模型中,将混合音频信号中的每一段语音进行编码与解码,生成对应的预测源信号;若生成的预测源信号对应的源信号是存在的,则令h=1,否则令h=0,最后根据各预测源信号进行重构,得到重构混合音频信号;
(4)重构混合音频频谱图生成:根据步骤(1)数学变换算法对重构混合音频信号进行频谱图构建,得到重构混合音频频谱图;
(5)频谱对比验证:将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较,若频谱越接近,则说明分离效果越好。
数学变换算法具体为短时傅里叶变换。
β-VAE分离网络模型包括编码器和解码器,其具体分离过程如下:
步骤一:编码部分,
S1:输入混合音频信号设为X,将其输入β-VAE分离网络模型的编码器中;得到输出向量集{gφ1(X)、gφ2(X)、…、gφK(X)},
S2:确定β,同时假设输出向量集呈泊松分布,通过计算输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)};
步骤二:解码部分,
SS1:将隐藏层的输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)}通过逆变换得到与输入样本集相同维度的数据集,即预测源信号{S1h1、S1h1、…、S1h1},
SS2:若生成的预测源信号与对应的源信号是存在的,则令h=1,否则令h=0;
SS3:若h=1,根据预测源信号{S1h1、S1h1、…、S1h1}进行重构,得到重构混合音频信号
Figure BDA0002985129550000071
β为声源的类别标签,若β=1,则该β-VAE分离网络模型对应于原始的VAE框架;当β>1时,模型被推动以学习数据更有效的潜在表示,若数据至少包含一些独立的潜在变化因素,则可以将其解开。
泊松分布的具体公式如下:
Figure BDA0002985129550000081
分离网络模型的损失函数如下:
Figure BDA0002985129550000082
式中:k表示类别;
j表示潜在单元;
μ(i)与σ(i)均表示编码器的输出;
DGKL表示高斯散度。
本发明的工作原理及使用流程:该基于β-VAE算法的声源分离方法,在使用时,首先需要在复杂环境下,通过收集器采集混合音频信号,并根据数学变换算法构建频谱图,得到混合音频频谱图;然后构建包括单个和多个超参数β,并扩展可变自动编码器框架,形成β-VAE分离网络模型;此时输入混合音频信号设为X,将其输入β-VAE分离网络模型的编码器中;得到输出向量集{gφ1(X)、gφ2(X)、…、gφK(X)},然后确定β,同时假设输出向量集呈泊松分布,通过计算输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)},之后确定β,同时假设输出向量集呈泊松分布,通过计算输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)},若生成的预测源信号与对应的源信号是存在的,则令h=1,否则令h=0,若h=1,根据预测源信号{S1h1、S1h1、…、S1h1}进行重构,得到重构混合音频信号
Figure BDA0002985129550000091
然后根据所述数学变换算法对重构混合音频信号进行频谱图构建,得到重构混合音频频谱图;最后将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较,若频谱越接近,则说明分离效果越好;本发明通过在可变自动编码器框架的基础上加入超参数β,改进得到β-VAE分离网络模型;并将混和音频输入β-VAE分离网络模型进行分离重构,得到重构混合音频,相较于传统的变分自编码器或无监督因子(InfoGAN)和半监督(DC-IGN),本发明显著提高了学习的潜在表示中的解缠度,进而使得其计算复杂度降低,并且分离得到的音频质量更好,进而有利于应用于目标识别、语音识别和助听辅助等听觉领域中。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于β-VAE算法的声源分离方法,其特征在于,该分离方法具体步骤如下:
(1)混合音频采集及频谱生成:在复杂环境下,通过收集器采集混合音频信号,并根据数学变换算法构建频谱图,得到混合音频频谱图;
(2)构建分离网络模型:构建包括单个和多个超参数β,并扩展可变自动编码器框架,形成β-VAE分离网络模型;
(3)声源分离:将混合语音信号输入整个β-VAE分离网络模型中,将混合音频信号中的每一段语音进行编码与解码,生成对应的预测源信号;若生成的预测源信号对应的源信号是存在的,则令h=1,否则令h=0,最后根据各预测源信号进行重构,得到重构混合音频信号;
(4)重构混合音频频谱图生成:根据步骤(1)所述数学变换算法对重构混合音频信号进行频谱图构建,得到重构混合音频频谱图;
(5)频谱对比验证:将重构混合音频频谱图与混合音频频谱图进行频率和幅度比较,若频谱越接近,则说明分离效果越好。
2.根据权利要求1所述的一种基于β-VAE算法的声源分离方法,其特征在于,所述数学变换算法具体为短时傅里叶变换。
3.根据权利要求1所述的一种基于β-VAE算法的声源分离方法,其特征在于,所述β-VAE分离网络模型包括编码器和解码器,其具体分离过程如下:
步骤一:编码部分,
S1:输入混合音频信号设为X,将其输入β-VAE分离网络模型的编码器中;得到输出向量集{gφ1(X)、gφ2(X)、…、gφK(X)},
S2:确定β,同时假设输出向量集呈泊松分布,通过计算输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)};
步骤二:解码部分,
SS1:将隐藏层的输出向量集{fφ1(Z1)、fφ2(Z2)、…、fφk(Zk)}通过逆变换得到与输入样本集相同维度的数据集,即预测源信号{S1h1、S1h1、…、S1h1},
SS2:若生成的预测源信号与对应的源信号是存在的,则令h=1,否则令h=0;
SS3:若h=1,根据预测源信号{S1h1、S1h1、…、S1h1}进行重构,得到重构混合音频信号
Figure FDA0002985129540000021
所述β为声源的类别标签,若β=1,则该β-VAE分离网络模型对应于原始的VAE框架;当β>1时,模型被推动以学习数据更有效的潜在表示,若数据至少包含一些独立的潜在变化因素,则可以将其解开。
4.根据权利要求3所述的一种基于β-VAE算法的声源分离方法,其特征在于,所述泊松分布的具体公式如下:
Figure FDA0002985129540000031
5.根据权利要求3所述的一种基于β-VAE算法的声源分离方法,其特征在于,所述分离网络模型的损失函数如下:
Figure FDA0002985129540000032
式中:k表示类别;
j表示潜在单元;
μ(i)与σ(i)均表示编码器的输出;
DGKL表示高斯散度。
CN202110298299.3A 2021-03-19 2021-03-19 一种基于β-VAE算法的声源分离方法 Pending CN113077810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110298299.3A CN113077810A (zh) 2021-03-19 2021-03-19 一种基于β-VAE算法的声源分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110298299.3A CN113077810A (zh) 2021-03-19 2021-03-19 一种基于β-VAE算法的声源分离方法

Publications (1)

Publication Number Publication Date
CN113077810A true CN113077810A (zh) 2021-07-06

Family

ID=76613032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110298299.3A Pending CN113077810A (zh) 2021-03-19 2021-03-19 一种基于β-VAE算法的声源分离方法

Country Status (1)

Country Link
CN (1) CN113077810A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
KR102095132B1 (ko) * 2018-11-29 2020-03-30 한국과학기술원 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치
CN111540375A (zh) * 2020-04-29 2020-08-14 全球能源互联网研究院有限公司 音频分离模型的训练方法、音频信号的分离方法及装置
US20200402527A1 (en) * 2019-06-21 2020-12-24 Hitachi, Ltd. Abnormal Sound Detection System, Artificial Sound Creation System, and Artificial Sound Creating Method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102095132B1 (ko) * 2018-11-29 2020-03-30 한국과학기술원 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치
CN110085254A (zh) * 2019-04-22 2019-08-02 南京邮电大学 基于beta-VAE和i-vector的多对多语音转换方法
US20200402527A1 (en) * 2019-06-21 2020-12-24 Hitachi, Ltd. Abnormal Sound Detection System, Artificial Sound Creation System, and Artificial Sound Creating Method
CN111540375A (zh) * 2020-04-29 2020-08-14 全球能源互联网研究院有限公司 音频分离模型的训练方法、音频信号的分离方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ERTU˘G KARAMATLI ET AL.: "《Audio Source Separation Using Variational Autoencoders and Weak Class Supervision》", 《 IEEE SIGNAL PROCESSING LETTERS》 *
ERTU˘G KARAMATLI ET AL.: "《Weak Label Supervision for Monaural Source Separation Using Non-negative Denoising Variational Autoencoders》", 《2019 27TH SIGNAL PROCESSING AND COMMUNICATIONS APPLICATIONS CONFERENCE (SIU)》 *
HAO DUC DO: "《Speech Source Separation Using Variational Autoencoder and Bandpass Filter》", 《IEEE ACCESS》 *
田昊洋等: "基于稀疏自动编码器的特高压变压器可听噪声分析", 《高压电器》 *
高利剑: "《环境辅助的混合声音事件检测方法研究》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Similar Documents

Publication Publication Date Title
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Fan et al. SVSGAN: singing voice separation via generative adversarial network
Mimilakis et al. Monaural singing voice separation with skip-filtering connections and recurrent inference of time-frequency mask
CN110600047A (zh) 基于Perceptual STARGAN的多对多说话人转换方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN110060657B (zh) 基于sn的多对多说话人转换方法
CN111583954A (zh) 一种说话人无关单通道语音分离方法
CN109243429B (zh) 一种语音建模方法及装置
Sun et al. A model compression method with matrix product operators for speech enhancement
Du et al. A joint framework of denoising autoencoder and generative vocoder for monaural speech enhancement
Shahin Novel third-order hidden Markov models for speaker identification in shouted talking environments
Saito et al. Unsupervised vocal dereverberation with diffusion-based generative models
Lim et al. Harmonic and percussive source separation using a convolutional auto encoder
Ueda et al. Single-channel dereverberation for distant-talking speech recognition by combining denoising autoencoder and temporal structure normalization
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Khattak et al. Regularized sparse features for noisy speech enhancement using deep neural networks
CN111312270B (zh) 语音增强方法及装置、电子设备和计算机可读存储介质
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
Hepsiba et al. Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN
CN115881156A (zh) 基于多尺度的多模态时域语音分离方法
CN113077810A (zh) 一种基于β-VAE算法的声源分离方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
Ho et al. Non-parallel voice conversion with controllable speaker individuality using variational autoencoder
Zhang et al. Complex image generation swintransformer network for audio denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210706