CN112951264B - 一种基于混合式概率模型的多通道声源分离方法 - Google Patents

一种基于混合式概率模型的多通道声源分离方法 Download PDF

Info

Publication number
CN112951264B
CN112951264B CN201911257725.8A CN201911257725A CN112951264B CN 112951264 B CN112951264 B CN 112951264B CN 201911257725 A CN201911257725 A CN 201911257725A CN 112951264 B CN112951264 B CN 112951264B
Authority
CN
China
Prior art keywords
sound source
vector
time
probability
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257725.8A
Other languages
English (en)
Other versions
CN112951264A (zh
Inventor
张鹏远
陈航艇
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201911257725.8A priority Critical patent/CN112951264B/zh
Publication of CN112951264A publication Critical patent/CN112951264A/zh
Application granted granted Critical
Publication of CN112951264B publication Critical patent/CN112951264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。

Description

一种基于混合式概率模型的多通道声源分离方法
技术领域
本发明涉及语音分离领域,特别涉及一种基于混合式概率模型的多通道声源分离方法。
背景技术
多通道语音分离是从输入的包含有多个说话人的多通道音频中分离出不同的说话人,能够直接地提升语音的可懂度,有利于包括语音识别在内的后端处理。
传统的多通道语音分离方法一般是基于空间信息,当说话人稀疏地分布在空间中的不同位置,可以有效地分离不同方向的声源,但是无法分离聚集在一起的说话人。
发明内容
本发明的目的在于克服传统多通道声源分离中过度依赖于空间信息,无法分离分布于同一位置说话人的问题,通过引入混合式概率模型,同时建模说话人频谱信息和空间信息,提出了一种基于混合式概率模型的多通道声源分离方法,在遇到未出现过的说话人时也能起到分离的效果。
为了实现上述目的,本发明提供了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:
计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;
计算波束形成系数;
利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
作为上述方法的一种改进,所述深度聚类网络包括2层双向长短时记忆网络,1层随机失活,1层线性层和1层非线性层;该网络的输入为音频信号的对数能量谱声学特征,所述双向长短时记忆网络每个方向包括600个神经元,随机失活的系数为0.5,线性层输入为1200维,输出为20维,最后一层的非线性层输出嵌入向量,使用双曲正切函数,其表达式为:
Figure BDA0002310747920000021
其中,x是非线性层的输入;
将嵌入向量归一化为单位向量,其表达式为:
Figure BDA0002310747920000022
其中,
Figure BDA0002310747920000023
为归一化前的向量,
Figure BDA0002310747920000024
Figure BDA0002310747920000025
为计算
Figure BDA0002310747920000026
的2范数,
Figure BDA0002310747920000027
为输出的归一化后的嵌入向量。
作为上述方法的一种改进,所述方法还包括对深度聚类网络进行训练的步骤,具体包括
构建训练深度聚类网络的训练样本集;
提取训练样本集的音频信号的对数能量谱声学特征,并计算均值方差系数,对其做归一化:
对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠;此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,等于傅里叶变换长度的一半加1;
深度聚类网络的学习目标为关联矩阵U=(uij)1≥i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0;深度聚类网络的输出为V=(vij)1≤i<TF,1≤j<TF,其中
Figure BDA0002310747920000028
Figure BDA0002310747920000029
Figure BDA00023107479200000210
分别为第i个和第j个时频点对应的嵌入向量,(·)T为矩阵转置;
深度聚类网络的损失函数为:
Figure BDA00023107479200000211
根据上述损失函数更新深度聚类网络的参数;不断迭代直至深度聚类网络收敛;得到训练好的深度聚类网络。
作为上述方法的一种改进,所述计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
利用已经训练好的深度聚类网络,提取每一个时频点f,t对应的声源嵌入向量
Figure BDA00023107479200000212
和相应的短时傅里叶频谱
Figure BDA0002310747920000031
1≤t<T,1≤f<F;其中声源嵌入向量
Figure BDA0002310747920000032
是大小为20维的实数向量,短时傅里叶频谱
Figure BDA0002310747920000033
是大小的M维的复数向量。
5、根据权利要求4所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述混合概率模型包括冯米塞斯费舍尔混合模型和复数高斯混合模型,其中冯米塞斯费舍尔混合模型的表达式为:
Figure BDA0002310747920000034
Figure BDA0002310747920000035
Figure BDA0002310747920000036
为米塞斯费舍尔混合模型的输出值,
Figure BDA0002310747920000037
为修改后的贝塞尔函数,d为向量维度:d=20;
Figure BDA0002310747920000038
代表聚合度,
Figure BDA0002310747920000039
代表聚类中心,C是混合模型的聚类数量,为声源的个数,f代表频率;
所述复数高斯混合模型的表达式为:
Figure BDA00023107479200000310
其中,
Figure BDA00023107479200000311
为复数高斯混合模型的输出值,
Figure BDA00023107479200000312
为音频信号的强度,
Figure BDA00023107479200000313
为空间关联矩阵,
Figure BDA00023107479200000314
为复数高斯分布;
则混合式概率模型的表达式为:
Figure BDA00023107479200000315
其中,
Figure BDA00023107479200000316
为混合式概率模型的输出值,
Figure BDA00023107479200000317
是先验系数,v是插值系数,取值为0.2。
作为上述方法的一种改进,所述将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;具体包括:
每一次迭代包括期望和最大化两个步骤,其中期望步骤的表达式为:
Figure BDA0002310747920000041
其中,
Figure BDA0002310747920000042
为估计的声源在时频点上的概率;
最大化步骤的表达式为:
Figure BDA0002310747920000043
Figure BDA0002310747920000044
Figure BDA0002310747920000045
Figure BDA0002310747920000046
Figure BDA0002310747920000047
其中,
Figure BDA0002310747920000048
为归一化前的聚类中心,
Figure BDA0002310747920000049
为归一化后的聚类中心,
Figure BDA00023107479200000410
代表聚合度,
Figure BDA00023107479200000411
为语音的方差,
Figure BDA00023107479200000412
为空间关联矩阵,tr(·)为求矩阵的迹,(·)H为厄密转置;
迭代完成后,输出的每个时频点的声源出现概率为
Figure BDA00023107479200000413
作为上述方法的一种改进,所述利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,具体包括:
利用各声源出现概率
Figure BDA00023107479200000414
计算噪声能量密度矩阵
Figure BDA00023107479200000415
Figure BDA00023107479200000416
c=噪声
目标声源导向矢量rf
Figure BDA00023107479200000417
的对应于特征值分解最大的特征向量,其中c=目标声源。
作为上述方法的一种改进,所述计算波束形成系数,具体为:
利用以下公式计算最小方差无失真滤波器的系数,作为波束形成系数ωf
Figure BDA00023107479200000418
作为上述方法的一种改进,利用短时傅里叶频谱、各声源出现概率和波束形成系数还原增强后信号的频谱,具体包括:
计算目标指向的信号yft
Figure BDA0002310747920000051
将各声源出现概率作为后滤波的滤波器,得到增强后的频谱:
Figure BDA0002310747920000052
c=目标声源
然后通过逆傅里叶变换和重叠相加法恢复语音信号,此语音信号即为还原的目标声源信号。
本发明还提出了一种基于混合式概率模型的多通道声源分离系统,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
本发明的优点在于:
1、本发明的方法通过混合式概率模型同时建模空间信息和说话人的频谱强度信息,通过期望最大化算法完成聚类,然后利用波束形成和后滤波实现不同说话人的分离;
2、在本发明的方法中,不仅空间信息被建模,也建模了说话人的频谱强度信息,同时引入了多通道的空间信息和多说话人的频谱信息,组成了一种冗余的表示,使用混合式概率模型,能够较好地预测不同说话人的语音出现概率。结合波束形成和后滤波,能够得到较为干净的分离后的说话人语音。
附图说明
图1是本发明的基于混合式概率模型的多通道声源分离方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的描述。
本发明提出一种基于混合式概率模型的多通道声源分离方法,包括:提取对数能量谱特征,并对其做归一化;训练深度聚类网络;计算短时傅里叶频谱和利用深度聚类网络提取声源嵌入向量;搭建混合式概率模型;利用期望最大化算法更新混合式概率模型的参数,输出每一个频点的声源出现概率;计算能量密度矩阵和目标声源导向矢量;计算波束形成系数;最后利用波束形成系数和声源出现概率还原增强后的频谱。
如图1所示,一种基于混合式概率模型的多通道声源分离方法,包括以下步骤:
步骤101)、对用来训练深度聚类的音频提取对数能量谱声学特征,并计算均值方差系数,对其做归一化;
提取对数能量谱声学特征的步骤为:对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠。此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,一般为傅里叶变换长度的一半加1。
步骤102)、构建深度聚类网络,以归一化的声学特征作为输入,以频点间的关联矩阵作为训练目标,训练神经网络。
深度聚类网络包括2层双向长短时记忆网络(BLSTM),1层随机失活(dropout),1层线性层和1层非线性层。其中网络输入为T×M×F,双向长短时记忆网络每个方向包括600个神经元,随机失活的系数为0.5,线性层输入为1200维,输出为20维,最后一层的非线性函数输出嵌入向量,使用双曲正切函数,其表达式为
Figure BDA0002310747920000061
最后网络将嵌入向量归一化为单位向量,其表达式为
Figure BDA0002310747920000062
其中||·||为计算2范数,
Figure BDA0002310747920000063
最后输出的归一化的嵌入向量。
深度聚类网络的学习目标为关联矩阵U=(uij)1≤i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0。深度聚类网络的输出为V=(vij)1≤i<TF,0≤j<TF,其中
Figure BDA0002310747920000071
(·)T为矩阵转置。网络的损失函数为
Figure BDA0002310747920000072
Figure BDA0002310747920000073
Figure BDA0002310747920000074
分别为第i个和第j个时频点对应的嵌入向量,(·)T为矩阵转置;
神经网络根据此损失函数更新参数。
步骤103)、计算短时傅里叶频谱,并且基于步骤102)的深度聚类网络提取每个时频点的声源嵌入向量;
利用已经训练好的深度聚类提取每一个时频点对应的声源嵌入向量
Figure BDA0002310747920000075
和相应的短时傅里叶频谱
Figure BDA0002310747920000076
其中前者是大小为20维的实数向量,后者是大小的M维的复数向量,M为通道数。
步骤104)、构建混合式概率模型,以步骤103)中获得的向量作为混合冯米塞斯费舍尔模型和复数混合高斯模型的输入;
其中冯米塞斯费舍尔混合模型的表达式为
Figure BDA0002310747920000077
Figure BDA0002310747920000078
Figure BDA0002310747920000079
为米塞斯费舍尔混合模型的输出值,
Figure BDA00023107479200000710
为修改后的贝塞尔函数,d为向量维度:d=20;
Figure BDA00023107479200000711
代表聚合度,
Figure BDA00023107479200000712
代表聚类中心,C是混合模型的聚类数量,为声源的个数,f代表频率;
所述复数高斯混合模型的表达式为:
Figure BDA00023107479200000713
其中,
Figure BDA00023107479200000714
为复数高斯混合模型的输出值,
Figure BDA00023107479200000715
为音频信号的强度,
Figure BDA00023107479200000716
为空间关联矩阵,
Figure BDA00023107479200000717
为复数高斯分布;
那么混合式概率模型的表达式为
Figure BDA0002310747920000081
其中,
Figure BDA0002310747920000082
为混合式概率模型的输出值,
Figure BDA0002310747920000083
是先验系数,一般可以设置为1或者预先由神经网络生成,v是插值系数,取值为0.2。
步骤105)、利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的声源(说话人)出现概率。
每一个迭代包括期望和最大化两个步骤,其中期望步骤的表达式
Figure BDA0002310747920000084
其中,
Figure BDA0002310747920000085
为估计的声源在时频点上的概率;
其中最大化步骤的表达式为
Figure BDA0002310747920000086
Figure BDA0002310747920000087
Figure BDA0002310747920000088
Figure BDA0002310747920000089
Figure BDA00023107479200000810
其中,
Figure BDA00023107479200000811
为归一化前的聚类中心,
Figure BDA00023107479200000812
为归一化后的聚类中心,
Figure BDA00023107479200000813
代表聚合度,
Figure BDA00023107479200000814
为语音的方差,
Figure BDA00023107479200000815
为空间关联矩阵,tr(·)为求矩阵的迹,(·)H为厄密转置;
最后输出的每个时频点的声源出现概率为期望步骤的输出
Figure BDA00023107479200000816
步骤106)、利用步骤105)的概率计算噪声能量密度矩阵和目标声源导向矢量。
利用步骤105)的声源出现概率计算能量密度矩阵
Figure BDA0002310747920000091
Figure BDA0002310747920000092
c=噪声
导向矢量rf
Figure BDA0002310747920000093
的对应于特征值分解最大的特征向量,c=目标声源。
步骤107)、计算波束形成系数。
利用以下公式计算最小方差无失真滤波器(MVDR)的系数,作为波束形成系数ωf
Figure BDA0002310747920000094
步骤108)、利用步骤107)的波束形成系数、步骤105)的声源出现概率和步骤103)的短时傅里叶频谱还原增强后的频谱;
计算目标指向的信号yft
Figure BDA0002310747920000095
将各声源出现概率作为后滤波的滤波器,得到增强后的频谱:
Figure BDA0002310747920000096
c=目标声源
然后通过逆傅里叶变换和重叠相加法恢复语音信号,此语音信号即为还原的目标声源信号。
本发明还提出了一种基于混合式概率模型的多通道声源分离系统,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于混合式概率模型的多通道声源分离方法,所述方法包括:
计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;
计算波束形成系数;
利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
2.根据权利要求1所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述深度聚类网络包括2层双向长短时记忆网络,1层随机失活,1层线性层和1层非线性层;该网络的输入为音频信号的对数能量谱声学特征,所述双向长短时记忆网络每个方向包括600个神经元,随机失活的系数为0.5,线性层输入为1200维,输出为20维,最后一层的非线性层输出嵌入向量,使用双曲正切函数,其表达式为:
Figure FDA0002310747910000011
其中,x是非线性层的输入;
将嵌入向量归一化为单位向量,其表达式为:
Figure FDA0002310747910000012
其中,
Figure FDA0002310747910000013
为归一化前的向量,
Figure FDA0002310747910000014
Figure FDA0002310747910000015
为计算
Figure FDA0002310747910000016
的2范数,
Figure FDA0002310747910000017
为输出的归一化后的嵌入向量。
3.根据权利要求2所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述方法还包括对深度聚类网络进行训练的步骤,具体包括
构建训练深度聚类网络的训练样本集;
提取训练样本集的音频信号的对数能量谱声学特征,并计算均值方差系数,对其做归一化:
对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠;此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,等于傅里叶变换长度的一半加1;
深度聚类网络的学习目标为关联矩阵U=(uij)1≤i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0;深度聚类网络的输出为V=(vij)1≤i<TF,1≤j<TF,其中
Figure FDA0002310747910000021
Figure FDA0002310747910000022
Figure FDA0002310747910000023
分别为第i个和第j个时频点对应的嵌入向量,(·)T为矩阵转置;
深度聚类网络的损失函数为:
Figure FDA0002310747910000024
根据上述损失函数更新深度聚类网络的参数;不断迭代直至深度聚类网络收敛;得到训练好的深度聚类网络。
4.根据权利要求3所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
利用已经训练好的深度聚类网络,提取每一个时频点f,t对应的声源嵌入向量
Figure FDA0002310747910000025
和相应的短时傅里叶频谱
Figure FDA0002310747910000026
1≤t<T,1≤f<F;其中声源嵌入向量
Figure FDA0002310747910000027
是大小为20维的实数向量,短时傅里叶频谱
Figure FDA0002310747910000028
是大小的M维的复数向量。
5.根据权利要求4所述的基于混合式概率模型的多通道声源分离方法,其特征在于,混合概率模型包括冯米塞斯费舍尔混合模型和复数高斯混合模型,其中冯米塞斯费舍尔混合模型的表达式为:
Figure FDA0002310747910000029
Figure FDA00023107479100000210
Figure FDA00023107479100000211
为米塞斯费舍尔混合模型的输出值,
Figure FDA00023107479100000212
为修改后的贝塞尔函数,d为向量维度:d=20;
Figure FDA0002310747910000031
代表聚合度,
Figure FDA0002310747910000032
代表聚类中心,C是混合模型的聚类数量,为声源的个数,f代表频率;
所述复数高斯混合模型的表达式为:
Figure FDA0002310747910000033
其中,
Figure FDA0002310747910000034
为复数高斯混合模型的输出值,
Figure FDA0002310747910000035
为音频信号的强度,
Figure FDA0002310747910000036
为空间关联矩阵,
Figure FDA0002310747910000037
为复数高斯分布;
则混合式概率模型的表达式为:
Figure FDA0002310747910000038
其中,
Figure FDA0002310747910000039
为混合式概率模型的输出值,
Figure FDA00023107479100000310
是先验系数,v是插值系数,取值为0.2。
6.根据权利要求5所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;具体包括:
每一次迭代包括期望和最大化两个步骤,其中期望步骤的表达式为:
Figure FDA00023107479100000311
其中,
Figure FDA00023107479100000312
为估计的声源在时频点上的概率;
最大化步骤的表达式为:
Figure FDA00023107479100000313
Figure FDA00023107479100000314
Figure FDA0002310747910000041
Figure FDA0002310747910000042
Figure FDA0002310747910000043
其中,
Figure FDA0002310747910000044
为归一化前的聚类中心,
Figure FDA0002310747910000045
为归一化后的聚类中心,
Figure FDA0002310747910000046
代表聚合度,
Figure FDA0002310747910000047
为语音的方差,
Figure FDA0002310747910000048
为空间关联矩阵,tr(·)为求矩阵的迹,(·)H为厄密转置;
迭代完成后,输出的每个时频点的声源出现概率为
Figure FDA0002310747910000049
7.根据权利要求6所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,具体包括:
利用各声源出现概率
Figure FDA00023107479100000410
计算噪声能量密度矩阵
Figure FDA00023107479100000411
Figure FDA00023107479100000412
c=噪声
目标声源导向矢量rf
Figure FDA00023107479100000413
的对应于特征值分解最大的特征向量,其中c=目标声源。
8.根据权利要求7所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述计算波束形成系数,具体为:
利用以下公式计算最小方差无失真滤波器的系数,作为波束形成系数ωf
Figure FDA00023107479100000414
9.根据权利要求8所述的基于混合式概率模型的多通道声源分离方法,其特征在于,利用短时傅里叶频谱、各声源出现概率和波束形成系数还原增强后信号的频谱,具体包括:
计算目标指向的信号yft
Figure FDA00023107479100000415
将各声源出现概率作为后滤波的滤波器,得到增强后的频谱:
Figure FDA0002310747910000051
c=目标声源
然后通过逆傅里叶变换和重叠相加法恢复语音信号,此语音信号即为还原的目标声源信号。
10.一种基于混合式概率模型的多通道声源分离系统,其特征在于,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
CN201911257725.8A 2019-12-10 2019-12-10 一种基于混合式概率模型的多通道声源分离方法 Active CN112951264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257725.8A CN112951264B (zh) 2019-12-10 2019-12-10 一种基于混合式概率模型的多通道声源分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257725.8A CN112951264B (zh) 2019-12-10 2019-12-10 一种基于混合式概率模型的多通道声源分离方法

Publications (2)

Publication Number Publication Date
CN112951264A CN112951264A (zh) 2021-06-11
CN112951264B true CN112951264B (zh) 2022-05-17

Family

ID=76225391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257725.8A Active CN112951264B (zh) 2019-12-10 2019-12-10 一种基于混合式概率模型的多通道声源分离方法

Country Status (1)

Country Link
CN (1) CN112951264B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN109979476A (zh) * 2017-12-28 2019-07-05 电信科学技术研究院 一种语音去混响的方法及装置
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110544490A (zh) * 2019-07-30 2019-12-06 南京林业大学 一种基于高斯混合模型和空间功率谱特征的声源定位方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130294611A1 (en) * 2012-05-04 2013-11-07 Sony Computer Entertainment Inc. Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation
EP2893532B1 (en) * 2012-09-03 2021-03-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for providing an informed multichannel speech presence probability estimation
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109979476A (zh) * 2017-12-28 2019-07-05 电信科学技术研究院 一种语音去混响的方法及装置
CN110047478A (zh) * 2018-01-16 2019-07-23 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN109830245A (zh) * 2019-01-02 2019-05-31 北京大学 一种基于波束成形的多说话者语音分离方法及系统
CN110544490A (zh) * 2019-07-30 2019-12-06 南京林业大学 一种基于高斯混合模型和空间功率谱特征的声源定位方法
CN110459240A (zh) * 2019-08-12 2019-11-15 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于RJMCMC方法的水下被动目标声源数和方位联合估计;陈钊等;《鱼雷技术》;20111215(第06期);全文 *
差分传声器阵列期望最大化多声源方位估计方法;丁少为等;《声学学报》;20160915(第05期);全文 *
非线性混合模式的语音盲分离算法;胡亚龙等;《应用声学》;20060330(第02期);全文 *

Also Published As

Publication number Publication date
CN112951264A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
US7895038B2 (en) Signal enhancement via noise reduction for speech recognition
Zhao et al. A two-stage algorithm for noisy and reverberant speech enhancement
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN112735460B (zh) 基于时频掩蔽值估计的波束成形方法及系统
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
CN109192200B (zh) 一种语音识别方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN111816200B (zh) 一种基于时频域二值掩膜的多通道语音增强方法
Soe Naing et al. Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System.
Alam et al. Use of multiple front-ends and i-vector-based speaker adaptation for robust speech recognition
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
Nakagome et al. Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation.
Jiang et al. An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals
Sheeja et al. Speech dereverberation and source separation using DNN-WPE and LWPR-PCA
Fan et al. Deep attention fusion feature for speech separation with end-to-end post-filter method
CN111681649B (zh) 语音识别方法、交互系统及包括该系统的成绩管理系统
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN112951264B (zh) 一种基于混合式概率模型的多通道声源分离方法
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
Wang et al. Robust speech recognition from ratio masks
CN113241090B (zh) 一种基于最小体积约束的多通道盲声源分离方法
Zorilă et al. An investigation into the multi-channel time domain speaker extraction network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant