CN111968669B - 一种多元混合声信号分离方法及装置 - Google Patents

一种多元混合声信号分离方法及装置 Download PDF

Info

Publication number
CN111968669B
CN111968669B CN202010738065.1A CN202010738065A CN111968669B CN 111968669 B CN111968669 B CN 111968669B CN 202010738065 A CN202010738065 A CN 202010738065A CN 111968669 B CN111968669 B CN 111968669B
Authority
CN
China
Prior art keywords
signal
amplitude spectrum
separation
mixed
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010738065.1A
Other languages
English (en)
Other versions
CN111968669A (zh
Inventor
宋广伟
鲍明
许耀华
王翊
蒋芳
胡艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202010738065.1A priority Critical patent/CN111968669B/zh
Publication of CN111968669A publication Critical patent/CN111968669A/zh
Application granted granted Critical
Publication of CN111968669B publication Critical patent/CN111968669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种多元混合声信号分离方法及装置,所述多元混合声信号分离方法至少包括:通过短时傅里叶变换,获得混合声信号和真实源信号的幅度谱和相位谱;通过生成器对所述混合声信号幅度谱进行训练,获得所述估计分离信号幅度谱;通过判别器对所述估计分离信号幅度谱与所述真实源信号幅度谱进行训练,并判断所述估计分离信号幅度谱是否为真实输出,若是,通过所述估计分离信号幅度谱与所述混合声信号相位谱,获得分离声信号,同时获得生成器优化函数对所述生成器进行优化直至到达最大迭代次数。本发明公开的多元混合声信号分离方法及装置提高了所述分离声信号的可懂度,且算法的泛化能力好,具有很强的抗干扰性。

Description

一种多元混合声信号分离方法及装置
技术领域
本发明涉及声信号分离技术领域,具体来说是一种多元混合声信号分离方法及装置。
背景技术
传统的信号处理方法包括谱减法、维纳滤波法等,均是在假定目标声源与噪声先验分布的条件下,估计目标声源的短时傅里叶系数,为了更好地表述噪声的先验分布,通常假设噪声是平稳的或者是慢变的,然而实际情况下该假设条件很难满足,即在低信噪比条件下分离性能会严重下降。
随着人工智能及大数据时代的到来,声信号的采集量越来越多,如何利用大量的已知混合多元声信号及单目标声信号的真实数据提高分离性能,使得分离算法更具有实用性,从而提高声信号监测系统对声学事件的检测率成为了多元声信号分离领域的迫切的目标。
发明内容
本发明的目的在于提供一种多元混合声信号分离方法及装置,解决现有技术中声信号分离模型收敛困难、实用性差能量损失严重问题。实现多源声音信号的分离。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供的一种多元混合声信号分离方法,其至少包括以下步骤:
S1:采集混合声信号与真实源信号;
S2:通过所述混合声信号与真实源信号,获得混合声信号幅度谱、混合声信号相位谱和真实源信号幅度谱;
S3:通过生成器对所述混合声信号幅度谱进行训练,获得所述估计分离信号幅度谱;
S4:通过判别器对所述估计分离信号幅度谱与所述真实源信号幅度谱进行训练,并判断所述估计分离信号幅度谱是否为真实输出,若是,则输出所述估计分离信号幅度谱,并执行步骤S5,若否,则执行步骤S6;
S5:通过所述估计分离信号幅度谱与所述混合声信号相位谱,获得分离声信号;
S6:通过所述判别器对所述生成器进行更新处理,对此步骤进行迭代,并判断迭代次数是否达到预设最大迭代次数,若是,则结束,若否,则迭代次数增加,并继续执行步骤S3。
在本发明一实施例中,所述多元混合声信号分离方法包括混合声信号模型的建立,所述混合声信号模型为:
其中,x(t)为混合声信号,Si(t)为第i个真实源信号,hi(t)第i个真实源信号到传感器间传递函数,e(t)为噪声,K为真实源信号个数,i为真实源信号序号,t为时间,T为信号时间长度。
在本发明一实施例中,所述多元混合声信号分离方法包括分离信号的分析模型的建立,其建立方法包括:将所述混合声信号幅度谱作为生成器的输入,获得所述估计分离信号幅度谱,将其与真实源信号幅度谱一同输入判别器,同时将判别器的判别结果反馈给生成器。
在本发明一实施例中,所述多元混合声信号分离方法包括构建生成对抗网络模型,通过所述生成对抗网络模型对所述分离信号的分析模型求解,其中所述生成对抗网络模型包括生成器和判别器。
在本发明一实施例中,判断所述估计分离信号是否为真实输出的条件是:所述生成对抗网络模型是否收敛,若所述生成对抗网络模型收敛,则所述估计分离信号为真实输出,若否,则所述估计分离信号为非真实输出。
在本发明一实施例中,所述多元混合声信号分离方法包括:利用判别器生成的生成器优化函数对所述生成器进行优化,所述生成器优化函数为:
其中,t为时间,f为频率,x(t,f)为混合声信号幅度谱,q(x(t,f))为x(t,f)满足的概率密度函数,为第i个估计分离信号幅度谱,K为真实源信号个数,i为真实源信号序号,/>表示期望,D(·)表示判别器函数,λ表示增益,||·||表示范数。
在本发明一实施例中,获得所述估计分离信号幅度谱后,将所述估计分离信号幅度谱与所述混合声信号相位谱结合得到所述分离声信号。
在本发明一实施例中,通过生成器的训练,在混合声信号中分离出多个源声音信号的估计分离信号幅度谱,采用多个判别器对所述多个源声音信号的估计分离信号幅度谱同时进行训练。
在本发明一实施例中,对所述分离声信号进行评估的指标包括:信失比、信干比和信伪比;其中信失比反映分离整体性能;信干比反映恢复源信号中由其它信号未移除残留引入干扰误差;信伪比为分离算法本身引起计算误差。
本发明还提供一种多元声音信号的分离装置,其特征在于,所述多元声音信号的分离装置包括:
存储器:用于存储所述多元混合声信号分离方法;
处理器:用于执行所述存储器中的所述多元混合声信号分离方法。
如上所述本发明提供的一种多元混合声信号分离方法及装置,采用生成器和判断器形成生成对抗网络模型,以多元混合声信号的短时傅里叶幅度谱为生成器的输入先验特征,得到分离后的目标声信号,并通过判别器进行纳什平衡,以联合概率分布KL散度(Kullback-Leibler Divergence)最小为真实声信号与生成器分离的估计声信号的衡量准则,导出设计了基于能量约束项的生成器改进代价函数,从而实现声信号分离。本专利基于联合概率分布KL散度变分多元分离算法在生成对抗网络上的应用极大地提高了分离后声信号的可懂度,且算法的泛化能力好,具有很强的抗干扰性。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种多元混合声信号分离方法流程图。
图2为对抗网络生成原理框图。
图3为多判别器并行训练原理框图。
图4为生成器设计框图。
图5为判别器设计框图。
图6为本发明算法流程图。
图7为本发明提出的算法与其他分离算法结果的SDR、SIR、SAR比较图。
图8为本发明提供的一种真实信号时域波形图。
图9为本发明提供的另一种真实信号时域波形图。
图10为本发明提供的混合声信号时域波形图。
图11为本发明提供的一种真实信号短时傅里叶变换语谱图。
图12为本发明提供的另一种真实信号短时傅里叶变换语谱图。
图13为本发明提供的混合声信号短时傅里叶变换语谱图。
图14为原始FT1000生成对抗网络结果图。
图15为原始GAN对于FT1000生成对抗网络结果图。
图16为本发明提出的算法对于FT1000生成对抗网络结果图。
图17为原始FT1400生成对抗网络结果图。
图18为原始GAN对于FT1400生成对抗网络结果图。
图19为本发明提出的算法对于FT1400生成对抗网络结果图。
图20为一种多元声音信号的分离装置结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
多元声信号分离模型起源于“鸡尾酒会”问题,在多个声信号同时存在的情况下分离出目标声信号,即假设混合多元声信号已知,利用算法分离出目标声信号。随着人工智能及大数据时代的到来,声信号的采集量越来越多,如何利用大量的已知混合多元声信号及单目标声信号的真实数据提高分离性能,使得分离算法更具有实用性,从而提高声信号监测系统对声学事件的检测率成为了多元声信号分离领域的迫切的目标。本发明基于深度学习处理技术的提出,逐渐弱化强模型分析的手段,通过神经元网络的强非线性处理与函数逼近的形式对目标信息复杂性进行分析。分离信息通过代价函数优化的手段引入到深度学习网络,真正实现了利用机器学习的手段,融合学习推理与基础物理规律两类分析方法,对目标信号的复杂性进行有效分析。
请参阅图1所示,在本发明的一实施例中,所述多元混合声信号分离方法至少包括以下步骤:
S1:采集混合声信号与真实源信号;
S2:通过所述混合声信号与真实源信号,获得混合声信号幅度谱、混合声信号相位谱和真实源信号幅度谱;
S3:通过生成器对所述混合声信号幅度谱进行训练,获得所述估计分离信号幅度谱;
S4:通过判别器对所述估计分离信号幅度谱与所述真实源信号幅度谱进行训练,并判断所述估计分离信号幅度谱是否为真实输出,若是,则输出所述估计分离信号幅度谱,并执行步骤S5,若否,则执行步骤S6;
S5:通过所述估计分离信号幅度谱与所述混合声信号相位谱,获得分离声信号,并执行步骤S6;
S6:通过所述判别器对所述生成器进行更新处理,对此步骤进行迭代,并判断迭代次数是否达到预设最大迭代次数,若是,则结束,若否,则迭代次数增加,并继续执行步骤S3。
在本发明一实施例中,步骤S2还包括:通过对所述混合声信号与真实源信号进行短时傅里叶变换得到所述混合声信号幅度谱、所述混合声信号相位谱、所述真实源信号幅度谱和所述真实源信号相位谱,并以时间段T将所述混合声信号的幅度谱一以批量大小batchsize=M/T分割为子频带群B,剩余帧以0补充,使得时间维度扩充为T。
请参阅图2,在本发明的一实施例中,对所述混合声信号进行处理得到所述混合声信号幅度谱,其包括,混合声信号模型和估计分离信号模型的建立。混合声信号模型如下:
其中,x(t)为混合声信号,Si(t)为第i个真实源信号,hi(t)第i个真实源信号到传感器间传递函数,e(t)为噪声,K为真实源信号个数,i为真实源信号序号,t为时间,T为信号时间长度。
简化传递函数,并通过短时傅里叶变换获得混合声信号的频域模型:
其中,x(t,f)为混合声信号幅度谱,Si(t,f)为第i个真实源信号幅度谱,e(t,f)为噪声信号的频域表达式,K为真实源信号个数,i为真实源信号序号,t为时间,T为信号时间长度,f为频率,F为信号带宽。
所述估计分离信号模型如下:
其中,为信源分离逆函数,/>为第i个估计分离信号,Si(t)为第i个真实源信号,K为真实源信号个数。
请参阅图8、图9所示,图8、图9为分别为两种所述真实源信号的时域波形,图10为混合声信号的时域波形,图11、图12分别是图8、图9两种所述真实源信号的短时傅里叶变换语谱图,图13是图10中混合声信号的短时傅里叶变换语谱图。
请参阅图1所示,在本发明一实施例中,所述多元混合声信号分离方法包括分离信号的分离模型建立,在本发明一实施例中,所述分离信号的分离模型为联合概率分布贝叶斯变分分离分析模型,其方法为通过将多个源信号真实幅度谱作为隐变量形式,将传统网络中边缘概率分布的KL散度,转变为包含目标特征信息隐变量的基于联合概率分布的KL散度极值优化问题。
请参阅图1所示,在本发明一实施例中,获得联合概率分布贝叶斯变分分离分析模型包括以下步骤:
依据贝叶斯定理,将混合声信号中的真实源信号幅度谱作为隐变量形式,获得真实源信号{si(t,f)}i=1,...,K的后验概率表达为:
变分贝叶斯估计是在给定的变分族Q内,求解隐变量后验分布的最优近似变分贝叶斯求解最优近似概率密度分布,可通过最小化KL(Kullback-Leibler divergence)散度获得,从而将问题转化为:
式中,q(si(t,f))取第i个真实源信号si(t,f)对混合信号x(t,f)的边缘分布;
q(s(t,f))=∫q(x(t,f))q(s(t,f)|x(t,f))d(x(t,f));
混合信号分别包含源信号与环境噪声的复杂信息,针对多源信号环境复杂性分析及优化求解,设计将混合声信号x(t,f)与真实源信号s(t,f)的真实联合概率分布与后验联合概率分布最优逼近:
p(s(t,f))=∫p(s(t,f),x(t,f))d(x(t,f));
q(s(t,f))=∫q(s(t,f),x(t,f))d(x(t,f));
式中,p(s(t,f))为源信号的真实边缘概率分布,q(s(t,f))为生成器生成的估计分离信号概率密度分布,p(s(t,f),x(t,f))为真实源信号的联合概率分布,q(s(t,f),x(t,f))为估计分离信号的联合概率分布。
问题转化为p(s(t,f),x(t,f))与q(s(t,f),x(t,f))之间的联合分布KL散度极值优化问题:
KL(p(s(t,f),x(t,f))|q(s(t,f),x(t,f)))=KL(p(s(t,f))|q(s(t,f)))+∫p(s(t,f))KL(p(x(t,f)|s(t,f))|q(x(t,f)|s(t,f)))d(x(t,f))≥KL(p(s(t,f))|q(s(t,f)));
由此可知,联合分布条件下的KL散度较边缘分布条件下的KL散度存在增量信息,在求解过程中,结合信号本征物理参数表达及概率参数建模,并通过变分求解算法设计,可更好的逼近混合源信号的信号与环境的复杂度信息,并由于引入了先验分布,分离求解是建立在联合概率分布解的条件上,通过考虑了联合概率密度KL散度与边缘概率密度KL散度大小关系,包含了更多信息能够使信号损失达到最小,更优地获得复杂环境条件下信号分离。
构建联合概率分布贝叶斯变分分离分析模型的益处:对于一个特定的模型,传统的变分贝叶斯方法通常是给出观测混合声信号的边缘似然函数(或称为证据,evidence)的下界。主要用于模型的选择,认为模型的边缘似然值越高,则模型对目标声拟合程度越好,该模型产生目标声信号的概率也越高。基于联合概率分布贝叶斯变分分离模型假设目标声信号的真实数据样本存在,以混合声信号特征信息为隐变量,构建目标声信号与隐变量之间的联合概率分布,该算法具有比传统的变分贝叶斯方法具有更高的上界,从而减小分离过程中的能量损失。
请参阅图2所示,基于联合概率分布贝叶斯变分分离分析模型建立,变分求解可以通过非共轭变分求解:随机梯度法(SGD),Blackbox,Laplace近似,再参数化近似等方法求解,本申请采用在生成对抗网络下的求解。
请参阅图2所示,在本发明一实施例中,构建生成对抗网络对所述联合概率分布贝叶斯变分分离分析模型求解,生成对抗模型以内脑机制为原型,以博弈平衡为处理原则,通过生成与判别两个过程对目标函数分布迭代逼近。生成过程是极大似然估计,可产生逼近目标信息的指定分布数据。判别过程是二分类,对生成数据与真实源信号进行判别,通过判别过程迭代优化目标函数逼近性能。针对声源分离问题,基于生成对抗模型基础,设计将混合声信号以隐变量的形式作为生成过程输入,起到引入混合信号复杂信息作用,强化生成器模型拓扑结构的对混合信号复杂度的适应性,通过目标声源信号判别约束,提升生成与判别过程的分析能力,实现声信号的分离。
请参阅图2所示,在本发明一实施例中,生成对抗网络对对所述联合概率分布贝叶斯变分分离分析模型求解方法包括:通过短时傅里叶变换分别得混合声信号与真实源信号的幅度谱和相位谱,包括混合声信号幅度谱、混合声信号相位谱、真实源信号幅度谱和真实源信号相位谱;混合声信号幅度谱x(t,f)作为生成器的输入,通过生成器非线性映射,得到估计分离信号幅度谱;将估计分离信号幅度谱x(t,f)和真实源信号幅度谱{si(t,f)}i=1,…,K作为判别器输入;将判别器输出判别结果并反馈给生成器(如图中虚线所示,形成联合概率分布贝叶斯变分分离分析模型),使生成器输出的估计分离信号幅度谱更加逼近真实幅度谱;对于真实源信号恢复,本申请直接采用混合声信号相位谱作为恢复源信号相位谱,从而更好地保存混合声源信号中的源信号相位信息。其中,用G(·)表示生成器的输出,即估计声信号幅度谱。D(·)表示判别器的输出,即对输入判别器声信号幅度谱为真实源信号幅度谱的判断概率。设真实源信号满足的分布为p(s(t,f)),通过生成器输出的估计分离信号幅度谱满足的分布为q(s(t,f)),整个网络的优化目标函数设计为:
上式表明,判别器优化目标是使得上式的值更大,从而能够正确区分生成器分离估计源信号和真实源信号。生成器的优化目标是使得上式值更小,即让判别器有更大概率地将分离估计源信号判别为真实源信号。最终使得估计的概率分布更加逼近于真实源信号的概率分布。
联合概率分布变分分离表明:联合分布KL散度值更能体现真实源信号与分离信号细节差异,通过引入源信号与混合信号联合分布KL散度,可以细化解决混合信号分离复杂性问题。
请参阅图2所示,在本发明一实施例中,通过能量约束项生成对抗网络声信号分离模型,其具体包括:
针对声信号分离模型,源信号联合分布逼近为:
在生成对抗网络中,生成分布估计函数为:
q(s(t,f)|x(t,f))=δ(s(t,f)-G(x(t,f)));
q(s(t,f))=∫q(s(t,f)|x(t,f))q(x(t,f))d(x(t,f));
其中,δ(·)为狄拉克函数,q(s(t,f)|x(t,f))为已知混合信号的前提下真实源信号的概率密度估计,q(x(t,f))为x(t,f)满足的概率密度函数。
引入判别器输出二元隐变量σ,得到其与q(s(t,f))的联合分布:
其中,p1=p0=1/2。s(t,f)与σ的联合分布为:
p(s(t,f),σ)=p(s(t,f))p(σ|s(t,f));
采用计算q(s(t,f),σ)与p(s(t,f),σ)的KL散度来对生成器进行优化:
利用q(s(t,f),σ)逼近p(s(t,f),σ):
p(s(t,f))p1+q(s(t,f))p0=∑σq(s(t,f),σ)≈∑σp(s(t,f),σ)=p(s(t,f));
q(s(t,f))可近似估计源信号真实分布p(s(t,f)),即生成器输出即为目标源信号估计,即估计分离信号。其中p(1|s(t,f))为判别器D(s(t,f))为真的输出,p(0|s(t,f))为判别器D(s(t,f))为假的输出。基于上述推理,优化过程转变为以q(s(t,f))为先验条件,优化判别器D(s(t,f))的输出p(0|s(t,f)):
固定判别器D(s(t,f)),生成器G(x(t,f))优化函数为:
最优解为:
式中,q0(s(t,f))为上一次生成器最大似然迭代输出,arg(·)为取边界。基于联合分布的变分分解手段,将判别器的最优解带入生成器优化函数得:
计算混合声信号与源信号联合分布KL散度:
将:
带入上式得:
KL(q(s(t,f),x(t,f))|q0(s(t,f),x(t,f)))≈λ∫q(x(t,f))||G(x(t,f))-G0(x(t,f))||2d(x(t,f));
上式物理意义为,对于生成器的优化函数,每一次迭代需考虑输出与输入之间的能量损失差距,得最终生成器优化代价函数:
其中,G0(x(t,f))=x(t,f),G0(x(t,f))为上次迭代生成器的输出。
请参阅图2,针对声学信号,先考虑幅度优化,因此采用生成对抗网络(GenerativeAdversarial Network,GAN)优化方法先估计目标音频信号的幅度谱,相位信息通过Griffin-Lim算法重构,将估计幅度谱与混合音频信号相位结合,得到目标音频信号复数谱估计。但模型仍然存在生成器输入输出能量差异评估能力弱的问题,导致分离的信号性能存在损失。针对该问题,通过约束函数配置能量差异项,实现能量损失差异约束,提升信号恢复的性能,得生成器优化函数为:
其中,t为时间,f为频率,x(t,f)为混合声信号幅度谱,q(x(t,f))为x(t,f)满足的概率密度函数,为第i个估计分离信号幅度谱,K为真实源信号个数,i为真实源信号序号,/>表示期望,D(·)表示判别器函数,λ表示增益,||·||表示范数,在本申请一实施例中,λ例如可以选取常数0.01。
其中,所述Griffin-Lim算法是在仅已知幅度谱、不知道相位谱的条件下重建语音的算法。它是一个迭代算法,迭代过程如下:
1、先随机初始化一个相位谱;
2、用相位谱和已知的幅度谱经过短时傅里叶变换合成新语音;
3、对合成的语音做短时傅里叶变换,得到新的幅度谱和相位谱;
4、丢弃新的幅度谱,用相位谱和已知的幅度谱合成语音,如此重复。
请参阅图3所示,在本发明一实施例中,采用多判别器G并行训练的方式,可以提升训练速度。在混合声信号中,包含多个估计源声音信号。通过生成器G的训练,可以在混合声信号中分离出多个源声音信号的估计分离信号幅度谱。采用多个判别器D对所述多个源声音信号的估计分离信号幅度谱并行训练,可提升训练速度。
请参阅图4所示,在本发明一实施例中,生成器设计包括:依据分割网络UNet网络模型,构建编码阶段与解码阶段生成器。其中,每个灰色框对应一个多通道特征图,其通道数在框顶标注,在本实施例中,初始特征图的通道数例如为16;白色框表示复制的特征图;箭头表示不同的操作。编码阶段是常规卷积网络,它包含重复两个卷积核为3×3卷积层,紧接着是一个线性整流单元ReLU,一个最大池化层(步长为2),实现降采样,每次降采样,特征图变为原来一半,在卷积部分特征通道数会增大一倍。解码阶段由卷积操作、上采样及跳跃连接组成。对进行四次下采样后的特征图,进行两次无填充卷积操作后,将特征图通道数减半,并进行上采样,即卷积核大小为2×2解卷积,并将与之对应编码过程中的特征图取相同通道数进行跳跃连接,并进行线性整流,得到下一层的特征图,共四次上采样操作,最后一次进行1×1卷积,将每16个特征图映射到目标音频种类,即得到估计分离音频幅度谱。
请参阅图5所示,在本发明一实施例中,判别器设计包括:可区分输入为生成器分离估计源信号与真实源信号并给出判别概率,本质上为分类器。本算法选取深度比生成器高的VGG网络模型,并在网络输出前加Sigmoid函数,控制输出在0~1上。为了模型灵活性,能够分离出更准确目标音频,针对不同生成器分离估计源信号,使用多个识别器并行区分,其损失函数为最终各个子识别器损失函数加权和,具体过程见如图6所示。
请参阅图7所示,在本发明一实施例中,通过实验验证本发明技术方案的技术效果。分离声音信号的评估在多个目标声信号与混合声信号已知以及单通道麦克风的传递函数一致的情况下进行,包括训练集以及测试数据的评估;分离声音信号的核心评价指标包括:信失比(Source to Distortion Ratio,SDR);信干比(the Source to InterferencesRatio,SIR)和信伪比(the Source to Artifacts Ratio,SAR);其中信失比反映分离整体性能;信干比反映恢复源信号中由其它信号未移除残留引入干扰误差;信伪比为分离算法本身引起计算误差;SDR、SIR、SAR计算值与分离算法性能成正比。其公式定义如下:
信失比:
信干比:
信伪比:
其中,starget表示目标声信号,einterf表示干扰信号误差,enoise表示噪声信号误差,eartif表示算法及器材误差。
请参阅图20,本发明还提供一种多元声音信号的分离装置,其特征在于,所述多元声音信号的分离装置包括:
存储器100:用于存储所述多元混合声信号分离方法;
处理器101:其与存储器100连接,用于执行所述存储器100中的所述多元混合声信号分离方法。
请参阅图7所示,在本发明一实施例中,仿真结果根据真实环境下采集的多类别无人机声信号整理的多元无人机声信号数据库,其中训练集包含120个混合声信号以及对应的目标声信号,每个信号长度1min,采样率为10KHz,测试集为真实多元无人机双飞声信号,共60个,用于测试本发明的实用性能。仿真结果表明,使用本发明提出的方法,分离后的目标声信号在SDR、SAR、SIR上与其他分离算法相比,均有较大的提升。
请参阅图14至图19,图14为原始FT1000生成对抗网络结果,图15为原始GAN生成对抗网络结果,图16为本申请提出的算法生成对抗网络结果;图17为原始FT1400生成对抗网络结果,图18为原始GAN生成对抗网络结果,图19为本申请提出的算法生成对抗网络结果。本发明提出的一种多元混合声信号分离方法,与现有研究相比大大减小了能量损失,提升了分离性能,且加速算法收敛能力节约了训练时间,为声学监测系统提供了高效可靠的多元声信号分离方案,推进声学监测技术的发展。
本发明基于深度学习处理技术的提出,逐渐弱化强模型分析的手段,通过神经元网络的强非线性处理与函数逼近的形式对目标信息复杂性进行分析。深度学习网络的分离信息,理论上是通过KL散度分析实现的,采用学习技术进行智能信号处理,将目标的特征模型,转变为可以求解的信息量,据此,我们提出通过构造与目标特征强相关的隐变量集,并将传统网络中边缘概率分布的KL散度,转变为包含目标特征信息隐变量的基于联合概率分布的KL散度,并利用证明的联合概率散度大于边缘概率散度的性质,将声信号的复杂性采用参数集的模式表达,并通过采用隐变量组的形式,通过代价函数优化的手段引入到深度学习网络,真正实现了利用机器学习的手段,融合学习推理与基础物理规律两类分析方法,对目标信号的复杂性进行有效分析。
以上公开的本发明实施例只是用于帮助。
阐述本发明。实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种多元混合声信号分离方法,其特征在于,其至少包括以下步骤:
S1:采集混合声信号与真实源信号;
S2:通过所述混合声信号与真实源信号,获得混合声信号幅度谱、混合声信号相位谱和真实源信号幅度谱;
S3:通过生成器对所述混合声信号幅度谱进行训练,获得估计分离信号幅度谱;
S4:通过判别器对所述估计分离信号幅度谱与所述真实源信号幅度谱进行训练,并判断所述估计分离信号幅度谱是否为真实输出,若是,则输出所述估计分离信号幅度谱,并执行步骤S5,若否,则执行步骤S6;
S5:通过所述估计分离信号幅度谱与所述混合声信号相位谱,获得分离声信号,并执行步骤S6;
S6:通过所述判别器对所述生成器进行更新处理,对此步骤进行迭代,并判断迭代次数是否达到预设最大迭代次数,若是,则结束,若否,则迭代次数增加,并继续执行步骤S3。
2.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,所述多元混合声信号分离方法包括混合声模型的建立,所述混合声模型的建立方法为:
其中,x(t)为混合声信号,Si(t)为第i个真实源信号,hi(t)第i个真实源信号到传感器间传递函数,e(t)为噪声,K为真实源信号个数,i为真实源信号序号,t为时间,T为信号时间长度。
3.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,所述多元混合声信号分离方法包括分离信号的分析模型的建立,其建立方法包括:将所述混合声信号幅度谱作为生成器的输入,获得所述估计分离信号幅度谱,将其与真实源信号幅度谱一同输入判别器,同时将判别器的判别结果反馈给生成器。
4.根据权利要求3所述一种多元混合声信号分离方法,其特征在于,所述多元混合声信号分离方法包括构建生成对抗网络模型,通过所述生成对抗网络模型对所述分离信号的分析模型求解,其中所述生成对抗网络模型包括生成器和判别器。
5.根据权利要求4所述一种多元混合声信号分离方法,其特征在于,判断所述估计分离信号是否为真实输出的条件是:所述生成对抗网络模型是否收敛,若所述生成对抗网络模型收敛,则所述估计分离信号为真实输出,若否,则所述估计分离信号为非真实输出。
6.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,所述多元混合声信号分离方法包括:利用判别器生成的生成器优化函数对所述生成器进行优化,所述生成器优化函数为:
其中,t为时间,f为频率,x(t,f)为混合声信号幅度谱,q(x(t,f))为x(t,f)满足的概率密度函数,为第i个估计分离信号幅度谱,K为真实源信号个数,i为真实源信号序号,表示期望,D(·)表示判别器函数,λ表示增益,||·||表示范数。
7.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,获得所述估计分离信号幅度谱后,将所述估计分离信号幅度谱与所述混合声信号相位谱结合得到所述分离声信号。
8.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,通过生成器的训练,在混合声信号中分离出多个源声音信号的估计分离信号幅度谱,采用多个判别器对所述多个源声音信号的估计分离信号幅度谱同时进行训练。
9.根据权利要求1所述一种多元混合声信号分离方法,其特征在于,对所述分离声信号进行评估的指标包括:信失比、信干比和信伪比;其中信失比反映分离整体性能;信干比反映恢复源信号中由其它信号未移除残留引入干扰误差;信伪比为分离算法本身引起计算误差。
10.一种多元声音信号的分离装置,其特征在于,所述多元声音信号的分离装置包括:
存储器:用于存储根据权利要求1所述的多元混合声信号分离方法;
处理器:其与所述存储器连接,用于执行所述存储器中的所述多元混合声信号分离方法。
CN202010738065.1A 2020-07-28 2020-07-28 一种多元混合声信号分离方法及装置 Active CN111968669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010738065.1A CN111968669B (zh) 2020-07-28 2020-07-28 一种多元混合声信号分离方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010738065.1A CN111968669B (zh) 2020-07-28 2020-07-28 一种多元混合声信号分离方法及装置

Publications (2)

Publication Number Publication Date
CN111968669A CN111968669A (zh) 2020-11-20
CN111968669B true CN111968669B (zh) 2024-02-20

Family

ID=73362930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010738065.1A Active CN111968669B (zh) 2020-07-28 2020-07-28 一种多元混合声信号分离方法及装置

Country Status (1)

Country Link
CN (1) CN111968669B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380270B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN114783459B (zh) * 2022-03-28 2024-04-09 腾讯科技(深圳)有限公司 一种语音分离方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120130908A (ko) * 2011-05-24 2012-12-04 한국전자통신연구원 음성 신호 분리 장치
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170061978A1 (en) * 2014-11-07 2017-03-02 Shannon Campbell Real-time method for implementing deep neural network based speech separation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120130908A (ko) * 2011-05-24 2012-12-04 한국전자통신연구원 음성 신호 분리 장치
CN110867191A (zh) * 2018-08-28 2020-03-06 洞见未来科技股份有限公司 语音处理方法、信息装置与计算机程序产品
CN110739002A (zh) * 2019-10-16 2020-01-31 中山大学 基于生成对抗网络的复数域语音增强方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CBLDNN-Based Speaker-Independent Speech Separation Via Generative Adversarial Training;Chenxing Li et al.;2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP);全文 *
基于时频稀疏约束的多通道声源分离算法;黄镒东;应忍冬;;信息技术(第01期);全文 *

Also Published As

Publication number Publication date
CN111968669A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN110136731B (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN110246510B (zh) 一种基于RefineNet的端到端语音增强方法
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112259120B (zh) 基于卷积循环神经网络的单通道人声与背景声分离方法
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN111968669B (zh) 一种多元混合声信号分离方法及装置
CN113405825B (zh) 一种基于声音信号的带式输送机故障诊断方法
CN113191178B (zh) 一种基于听觉感知特征深度学习的水声目标识别方法
CN111201569A (zh) 电子装置及其控制方法
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN113611293B (zh) 一种蒙古语数据集扩充方法
CN112562698B (zh) 一种基于声源信息与热成像特征融合的电力设备缺陷诊断方法
CN115826042B (zh) 一种边云端结合的分布式地震数据处理方法与装置
CN116898455B (zh) 一种基于深度学习模型的睡眠脑电信号检测方法及系统
Xu et al. Self-supervised learning–based underwater acoustical signal classification via mask modeling
CN114898773A (zh) 基于深度自注意力神经网络分类器的合成语音检测方法
CN117473414A (zh) 一种基于少噪声时频图像的轴承故障位置识别方法
Zhou et al. An attention-based multi-scale convolution network for intelligent underwater acoustic signal recognition
CN115910091A (zh) 引入基频线索的生成式语音分离方法和装置
CN115563480A (zh) 基于峭度比系数筛选辛几何模态分解的齿轮故障辨识方法
Wang et al. Multi-speaker Speech Separation under Reverberation Conditions Using Conv-Tasnet
CN111274989A (zh) 一种基于深度学习的野外车辆识别方法
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及系统
CN118051831B (zh) 基于CNN-Transformer合作网络模型的水声目标识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant