CN112951264B - 一种基于混合式概率模型的多通道声源分离方法 - Google Patents
一种基于混合式概率模型的多通道声源分离方法 Download PDFInfo
- Publication number
- CN112951264B CN112951264B CN201911257725.8A CN201911257725A CN112951264B CN 112951264 B CN112951264 B CN 112951264B CN 201911257725 A CN201911257725 A CN 201911257725A CN 112951264 B CN112951264 B CN 112951264B
- Authority
- CN
- China
- Prior art keywords
- sound source
- vector
- time
- probability
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000001228 spectrum Methods 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 4
- 230000009849 deactivation Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
Description
技术领域
本发明涉及语音分离领域,特别涉及一种基于混合式概率模型的多通道声源分离方法。
背景技术
多通道语音分离是从输入的包含有多个说话人的多通道音频中分离出不同的说话人,能够直接地提升语音的可懂度,有利于包括语音识别在内的后端处理。
传统的多通道语音分离方法一般是基于空间信息,当说话人稀疏地分布在空间中的不同位置,可以有效地分离不同方向的声源,但是无法分离聚集在一起的说话人。
发明内容
本发明的目的在于克服传统多通道声源分离中过度依赖于空间信息,无法分离分布于同一位置说话人的问题,通过引入混合式概率模型,同时建模说话人频谱信息和空间信息,提出了一种基于混合式概率模型的多通道声源分离方法,在遇到未出现过的说话人时也能起到分离的效果。
为了实现上述目的,本发明提供了一种基于混合式概率模型的多通道声源分离方法,所述方法包括:
计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;
计算波束形成系数;
利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
作为上述方法的一种改进,所述深度聚类网络包括2层双向长短时记忆网络,1层随机失活,1层线性层和1层非线性层;该网络的输入为音频信号的对数能量谱声学特征,所述双向长短时记忆网络每个方向包括600个神经元,随机失活的系数为0.5,线性层输入为1200维,输出为20维,最后一层的非线性层输出嵌入向量,使用双曲正切函数,其表达式为:
其中,x是非线性层的输入;
将嵌入向量归一化为单位向量,其表达式为:
作为上述方法的一种改进,所述方法还包括对深度聚类网络进行训练的步骤,具体包括
构建训练深度聚类网络的训练样本集;
提取训练样本集的音频信号的对数能量谱声学特征,并计算均值方差系数,对其做归一化:
对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠;此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,等于傅里叶变换长度的一半加1;
深度聚类网络的学习目标为关联矩阵U=(uij)1≥i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0;深度聚类网络的输出为V=(vij)1≤i<TF,1≤j<TF,其中
深度聚类网络的损失函数为:
根据上述损失函数更新深度聚类网络的参数;不断迭代直至深度聚类网络收敛;得到训练好的深度聚类网络。
作为上述方法的一种改进,所述计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
5、根据权利要求4所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述混合概率模型包括冯米塞斯费舍尔混合模型和复数高斯混合模型,其中冯米塞斯费舍尔混合模型的表达式为:
所述复数高斯混合模型的表达式为:
则混合式概率模型的表达式为:
作为上述方法的一种改进,所述将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;具体包括:
每一次迭代包括期望和最大化两个步骤,其中期望步骤的表达式为:
最大化步骤的表达式为:
作为上述方法的一种改进,所述利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,具体包括:
作为上述方法的一种改进,所述计算波束形成系数,具体为:
利用以下公式计算最小方差无失真滤波器的系数,作为波束形成系数ωf:
作为上述方法的一种改进,利用短时傅里叶频谱、各声源出现概率和波束形成系数还原增强后信号的频谱,具体包括:
计算目标指向的信号yft:
将各声源出现概率作为后滤波的滤波器,得到增强后的频谱:
然后通过逆傅里叶变换和重叠相加法恢复语音信号,此语音信号即为还原的目标声源信号。
本发明还提出了一种基于混合式概率模型的多通道声源分离系统,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
本发明的优点在于:
1、本发明的方法通过混合式概率模型同时建模空间信息和说话人的频谱强度信息,通过期望最大化算法完成聚类,然后利用波束形成和后滤波实现不同说话人的分离;
2、在本发明的方法中,不仅空间信息被建模,也建模了说话人的频谱强度信息,同时引入了多通道的空间信息和多说话人的频谱信息,组成了一种冗余的表示,使用混合式概率模型,能够较好地预测不同说话人的语音出现概率。结合波束形成和后滤波,能够得到较为干净的分离后的说话人语音。
附图说明
图1是本发明的基于混合式概率模型的多通道声源分离方法的流程图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的描述。
本发明提出一种基于混合式概率模型的多通道声源分离方法,包括:提取对数能量谱特征,并对其做归一化;训练深度聚类网络;计算短时傅里叶频谱和利用深度聚类网络提取声源嵌入向量;搭建混合式概率模型;利用期望最大化算法更新混合式概率模型的参数,输出每一个频点的声源出现概率;计算能量密度矩阵和目标声源导向矢量;计算波束形成系数;最后利用波束形成系数和声源出现概率还原增强后的频谱。
如图1所示,一种基于混合式概率模型的多通道声源分离方法,包括以下步骤:
步骤101)、对用来训练深度聚类的音频提取对数能量谱声学特征,并计算均值方差系数,对其做归一化;
提取对数能量谱声学特征的步骤为:对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠。此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,一般为傅里叶变换长度的一半加1。
步骤102)、构建深度聚类网络,以归一化的声学特征作为输入,以频点间的关联矩阵作为训练目标,训练神经网络。
深度聚类网络包括2层双向长短时记忆网络(BLSTM),1层随机失活(dropout),1层线性层和1层非线性层。其中网络输入为T×M×F,双向长短时记忆网络每个方向包括600个神经元,随机失活的系数为0.5,线性层输入为1200维,输出为20维,最后一层的非线性函数输出嵌入向量,使用双曲正切函数,其表达式为
最后网络将嵌入向量归一化为单位向量,其表达式为
深度聚类网络的学习目标为关联矩阵U=(uij)1≤i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0。深度聚类网络的输出为V=(vij)1≤i<TF,0≤j<TF,其中
(·)T为矩阵转置。网络的损失函数为
神经网络根据此损失函数更新参数。
步骤103)、计算短时傅里叶频谱,并且基于步骤102)的深度聚类网络提取每个时频点的声源嵌入向量;
步骤104)、构建混合式概率模型,以步骤103)中获得的向量作为混合冯米塞斯费舍尔模型和复数混合高斯模型的输入;
其中冯米塞斯费舍尔混合模型的表达式为
所述复数高斯混合模型的表达式为:
那么混合式概率模型的表达式为
步骤105)、利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的声源(说话人)出现概率。
每一个迭代包括期望和最大化两个步骤,其中期望步骤的表达式
其中最大化步骤的表达式为
步骤106)、利用步骤105)的概率计算噪声能量密度矩阵和目标声源导向矢量。
步骤107)、计算波束形成系数。
利用以下公式计算最小方差无失真滤波器(MVDR)的系数,作为波束形成系数ωf:
步骤108)、利用步骤107)的波束形成系数、步骤105)的声源出现概率和步骤103)的短时傅里叶频谱还原增强后的频谱;
计算目标指向的信号yft:
将各声源出现概率作为后滤波的滤波器,得到增强后的频谱:
然后通过逆傅里叶变换和重叠相加法恢复语音信号,此语音信号即为还原的目标声源信号。
本发明还提出了一种基于混合式概率模型的多通道声源分离系统,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于混合式概率模型的多通道声源分离方法,所述方法包括:
计算待分离的多声源信号的短时傅里叶频谱,基于预先建立的深度聚类网络提取每个时频点的声源嵌入向量;
将声源嵌入向量输入混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量;
计算波束形成系数;
利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
3.根据权利要求2所述的基于混合式概率模型的多通道声源分离方法,其特征在于,所述方法还包括对深度聚类网络进行训练的步骤,具体包括
构建训练深度聚类网络的训练样本集;
提取训练样本集的音频信号的对数能量谱声学特征,并计算均值方差系数,对其做归一化:
对每个通道的语音分别分帧加窗、对每一帧计算傅里叶变换得到频谱、计算频谱的对数能量、将各个通道的特征堆叠;此特征的维度为T×M×F,其中M为通道数,T为帧数,由窗长和窗移决定,F为频点数,等于傅里叶变换长度的一半加1;
深度聚类网络的学习目标为关联矩阵U=(uij)1≤i<TF,1≤j<TF,其每个元素uij代表第i个和第j个时频点是否属于同一个声源,如果属于同一个声源则等于1,否则为0;深度聚类网络的输出为V=(vij)1≤i<TF,1≤j<TF,其中
深度聚类网络的损失函数为:
根据上述损失函数更新深度聚类网络的参数;不断迭代直至深度聚类网络收敛;得到训练好的深度聚类网络。
10.一种基于混合式概率模型的多通道声源分离系统,其特征在于,所述系统包括:深度聚类网络、混合式概率模型、声源嵌入向量提取模块、各声源出现概率计算模块和声源分离模块;
所述声源嵌入向量提取模块,用于计算待分离的多声源信号的短时傅里叶频谱,基于所述深度聚类网络提取每个时频点的声源嵌入向量;
所述各声源出现概率计算模块,用于将声源嵌入向量输入所述混合式概率模型,利用期望最大化算法迭代混合式概率模型,模型收敛后输出每个时频点的各声源出现概率;
所述声源分离模块,用于利用各声源出现概率计算噪声能量密度矩阵和目标声源导向矢量,计算波束形成系数;利用短时傅里叶频谱、各声源出现概率和波束形成系数,还原各声源对应的增强后信号的频谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257725.8A CN112951264B (zh) | 2019-12-10 | 2019-12-10 | 一种基于混合式概率模型的多通道声源分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257725.8A CN112951264B (zh) | 2019-12-10 | 2019-12-10 | 一种基于混合式概率模型的多通道声源分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951264A CN112951264A (zh) | 2021-06-11 |
CN112951264B true CN112951264B (zh) | 2022-05-17 |
Family
ID=76225391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911257725.8A Active CN112951264B (zh) | 2019-12-10 | 2019-12-10 | 一种基于混合式概率模型的多通道声源分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951264B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN109979476A (zh) * | 2017-12-28 | 2019-07-05 | 电信科学技术研究院 | 一种语音去混响的方法及装置 |
CN110047478A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
CN110544490A (zh) * | 2019-07-30 | 2019-12-06 | 南京林业大学 | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130294611A1 (en) * | 2012-05-04 | 2013-11-07 | Sony Computer Entertainment Inc. | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation |
EP2893532B1 (en) * | 2012-09-03 | 2021-03-24 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
JP2014219467A (ja) * | 2013-05-02 | 2014-11-20 | ソニー株式会社 | 音信号処理装置、および音信号処理方法、並びにプログラム |
-
2019
- 2019-12-10 CN CN201911257725.8A patent/CN112951264B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979476A (zh) * | 2017-12-28 | 2019-07-05 | 电信科学技术研究院 | 一种语音去混响的方法及装置 |
CN110047478A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110544490A (zh) * | 2019-07-30 | 2019-12-06 | 南京林业大学 | 一种基于高斯混合模型和空间功率谱特征的声源定位方法 |
CN110459240A (zh) * | 2019-08-12 | 2019-11-15 | 新疆大学 | 基于卷积神经网络和深度聚类的多说话人语音分离方法 |
Non-Patent Citations (3)
Title |
---|
基于RJMCMC方法的水下被动目标声源数和方位联合估计;陈钊等;《鱼雷技术》;20111215(第06期);全文 * |
差分传声器阵列期望最大化多声源方位估计方法;丁少为等;《声学学报》;20160915(第05期);全文 * |
非线性混合模式的语音盲分离算法;胡亚龙等;《应用声学》;20060330(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112951264A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
CN108766419B (zh) | 一种基于深度学习的非常态语音区别方法 | |
US7895038B2 (en) | Signal enhancement via noise reduction for speech recognition | |
Zhao et al. | A two-stage algorithm for noisy and reverberant speech enhancement | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN112735460B (zh) | 基于时频掩蔽值估计的波束成形方法及系统 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
CN109192200B (zh) | 一种语音识别方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN111816200B (zh) | 一种基于时频域二值掩膜的多通道语音增强方法 | |
Soe Naing et al. | Discrete Wavelet Denoising into MFCC for Noise Suppressive in Automatic Speech Recognition System. | |
Alam et al. | Use of multiple front-ends and i-vector-based speaker adaptation for robust speech recognition | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
Jiang et al. | An improved unsupervised single-channel speech separation algorithm for processing speech sensor signals | |
Sheeja et al. | Speech dereverberation and source separation using DNN-WPE and LWPR-PCA | |
Fan et al. | Deep attention fusion feature for speech separation with end-to-end post-filter method | |
CN111681649B (zh) | 语音识别方法、交互系统及包括该系统的成绩管理系统 | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
CN112951264B (zh) | 一种基于混合式概率模型的多通道声源分离方法 | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
Wang et al. | Robust speech recognition from ratio masks | |
CN113241090B (zh) | 一种基于最小体积约束的多通道盲声源分离方法 | |
Zorilă et al. | An investigation into the multi-channel time domain speaker extraction network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |