CN112216301A - 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 - Google Patents
基于对数幅度谱和耳间相位差的深度聚类语音分离方法 Download PDFInfo
- Publication number
- CN112216301A CN112216301A CN202011285987.8A CN202011285987A CN112216301A CN 112216301 A CN112216301 A CN 112216301A CN 202011285987 A CN202011285987 A CN 202011285987A CN 112216301 A CN112216301 A CN 112216301A
- Authority
- CN
- China
- Prior art keywords
- phase difference
- spectrum
- clustering
- coding layer
- interaural phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 49
- 238000000926 separation method Methods 0.000 title claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000012360 testing method Methods 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 12
- 238000003064 k means clustering Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 14
- 238000009432 framing Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000005316 response function Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 208000009205 Tinnitus Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。
Description
技术领域
本发明属于语音分离技术领域,涉及一种基于对数幅度谱和耳间相位差的深度聚类双耳语音分离方法。
背景技术
语音分离,指的是从复杂的声学环境中,提取中目标说话人的语音信号,同时尽可能减少对原始语音的改变。语音分离技术可以提高语音信号处理系统的整体性能。
语音分离作为语音学术界的重要领域,一直以来都受到广大学者的重点关注。在嘈杂的环境中,人类能够轻易地辨别出自己感兴趣的语音,这就是著名的“鸡尾酒会”问题。“鸡尾酒会”问题自1953年由Cherry提出以来,很多的学者都为此付出大量的努力,希望能够研究出一种适用范围很广的语音分离技术。而按照研究算法的不同,可以主要分为盲源分离和计算听觉场景分析两个方向。近年来,深度学习技术因其出色的学习学习能力也被引入到了语音分离任务中来。过往的研究中往往仅利用了当前帧的特征信息进行语音分离,没有考虑到语音信号在时序上的相关性和声源空间位置的短时稳定性。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,利用深度聚类网络对混合双耳语音进行分离。考虑语音信号在时序上具有相关性,因此本发明选取了长短时记忆网络LSTM(Long Short-TermMemory)作为聚类前的编码层主要部分,编码层将测试混合双耳语音信号的特征图映射到高维空间,对高维特征图的矢量进行聚类,从而实现语音分离。利用多种信噪比和混响条件下的数据进行训练,从而保证了深度聚类网络的鲁棒性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。
步骤2,对步骤1得到的混合双耳语音信号进行预处理,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱:
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位。
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,得到对数幅度谱。
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,得到耳间相位差函数:
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数。
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。
每T帧特征参数进行组合,得到特征图C。
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图。聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类。将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层。
得到训练好的深度聚类网络模型的编码层的方法:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数。
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重。
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束。
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图。
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图。
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到二值掩膜矩阵,利用测试混合双耳语音信号和二值掩膜矩阵实现语音分离。
优选的:步骤2中的预处理包括分帧、加窗操作。
优选的:步骤3中对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算:log10|XL(τ,ω)|。
优选的:所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。
本发明相比现有技术,具有以下有益效果:
本发明充分地利用了语音信号的谱信息和空间信息,分离性能良好,且算法的泛化性能好,具有较强的鲁棒性。本发明在各信噪比、混响环境下的SAR、SIR、SDR、PESQ性能指标整体提升,本发明提出的方法对噪声和混响具有一定的鲁棒性和泛化性。
附图说明
图1为本发明整体算法流程图;
图2为语音信号对数幅度谱;
图3为混合语音信号的耳间相位差函数示意图;
图4为深度聚类网络的结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,如图1所示,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。将两个在不同方位角的声源对应的双耳语音信号进行混合,得到训练混合双耳语音信号,计算公式为:
xL(n)=s1(n)*h1,L+s2(n)*h2,L+vL(n)
xR(n)=s1(n)*h1,R+s2(n)*h2,R+vR(n)
其中,xL(n)、xR(n)分别表示加入混响和噪声后的左、右耳语音信号,s1(n)、s2(n)表示两个在不同方位角的单声源语音信号,h1,L、h1,R表示方位角一对应声源的双耳房间脉冲响应函数,h2,L、h2,R表示方位角二对应声源的双耳房间脉冲响应函数,h1,L、h1,R、h2,L、h2,R中包含了混响,vL(n)、vR(n)表示指定信噪比下的左、右耳噪声信号,n表示样本点序号,*为卷积运算。
本例中的语音数据来自TIMIT语音数据库,主要针对两说话人的场景进行训练,两个声信号的方位角设定在[-90°,90°]之间,且两声源的方位角不重合,计算可得一共有37*36/2=种组合。训练时将两个不同声源的不同语句进行混合。训练设置的信噪比有4种情况,分别为0dB,10dB,20dB和无噪声。本例中同时考虑了混响对语音信号的影响,在训练集中设置混响为200ms和600ms,混响包含在双耳房间脉冲响应函数中。
步骤2,对步骤1得到的混合双耳语音信号进行预处理,包括分帧、加窗操作,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱。
分帧和加窗操作为:
xL(τ,n)=wH(n)xL(τ·N/2+n),0≤n<N
xR(τ,n)=wH(n)xR(τ·N/2+n),0≤n<N
其中,xL(τ,n)、xR(τ,n)表示分帧后第τ帧的左、右耳语音信号,n表示样本点序号,wH(n)为窗函数,N为帧长。
每一帧信号的短时傅立叶变换为:
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位。
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,即log10|XL(τ,ω)|,得到对数幅度谱,如图2所示。
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,如图3所示,得到耳间相位差
函数:
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数。
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。
每T帧特征参数进行组合,得到特征图C:
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图。聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类。将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层。
如图4所示,搭建的深度聚类主要由编码层和聚类层组成,其中训练时只用到编码层,测试时,测试混合语音信号的特征图经过编码层映射为高维特征图,通过聚类层完成对每一帧各频点的分类。
编码层由双向LSTM、Dropout层及全连接层组成,隐藏层设置为600个神经元,全连接层则将每帧、每个频点的特征参数映射为20维的特征向量,训练过程如下:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数。
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重。
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束。
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图。
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图。
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到各频点的二值掩膜矩阵,从而实现了对每一帧各频点的分类,结合输入的测试混合双耳语音信号即可分离目标语音。
仿真
本例采用SAR、SIR、SDR、PESQ来评估分离语音信号的感知质量,将基于前后帧信息的CNN算法、IBM-DNN算法和本例基于深度聚类的算法进行了对比。
表1、表2、表3和表4分别比较了三种方法的SAR、SIR、SDR值和PESQ值,指标数值越高,表明语音分离的效果就越好。
表1三种方法SAR值比较
SNR(dB) | IBM-DNN | 前后帧-CNN | 深度聚类 |
0 | 0.07 | 2.02 | 1.57 |
5 | 2.71 | 4.54 | 4.02 |
10 | 6.02 | 6.95 | 7.15 |
15 | 7.81 | 8.01 | 8.54 |
20 | 8.34 | 8.77 | 9.12 |
Noiseless | 8.85 | 9.03 | 9.44 |
表2三种方法SIR值比较
SNR(dB) | IBM-DNN | 前后帧-CNN | 深度聚类 |
0 | 14.42 | 15.19 | 14.79 |
5 | 15.14 | 16.01 | 16.18 |
10 | 15.98 | 16.45 | 16.92 |
15 | 16.41 | 16.70 | 17.01 |
20 | 16.71 | 16.87 | 17.35 |
Noiseless | 17.14 | 17.02 | 17.58 |
表3三种方法SDR值比较
SNR(dB) | IBM-DNN | 前后帧-CNN | 深度聚类 |
0 | -0.77 | 1.54 | 0.79 |
5 | 3.02 | 4.41 | 4.16 |
10 | 5.31 | 6.02 | 7.41 |
15 | 6.95 | 7.21 | 8.15 |
20 | 7.52 | 7.85 | 9.02 |
Noiseless | 7.96 | 8.31 | 9.79 |
表4三种算法PESQ值比较
SNR(dB) | IBM-DNN | 前后帧-CNN | 深度聚类 |
0 | 1.42 | 1.85 | 1.67 |
5 | 1.7 | 2.07 | 1.94 |
10 | 1.79 | 2.17 | 2.11 |
15 | 1.95 | 2.24 | 2.25 |
20 | 2.21 | 2.45 | 2.39 |
Noiseless | 2.41 | 2.57 | 2.52 |
根据性能比较,在低信噪比条件下,本实例基于深度聚类的语音分离方法性能与前后帧-CNN较为接近,并显著优于IBM-DNN方法;在信噪比较高时,其性能则优于其余两种方法。
同时我们对基于深度聚类算法的泛化性进行分析。训练集为200ms、600ms的混响数据,测试集为300ms的混响数据,本例基于深度聚类的分离效果与CNN的对比结果如表5、6、7所示。
表5 300ms混响环境下两种算法SAR比较
SNR(dB) | 前后帧-CNN | 深度聚类 |
0 | 1.89 | 1.32 |
5 | 4.07 | 3.95 |
10 | 6.61 | 6.70 |
15 | 7.45 | 7.79 |
20 | 8.26 | 8.71 |
表6 300ms混响环境下两种算法SIR比较
SNR(dB) | 前后帧-CNN | 深度聚类 |
0 | 14.77 | 14.51 |
5 | 15.82 | 15.94 |
10 | 15.91 | 16.41 |
15 | 16.54 | 16.63 |
20 | 16.68 | 16.72 |
表7 300ms混响环境下两种算法SDR比较
SNR(dB) | 前后帧-CNN | 深度聚类 |
0 | 1.02 | 0.34 |
5 | 3.57 | 3.46 |
10 | 5.21 | 6.71 |
15 | 6.57 | 7.35 |
20 | 7.25 | 8.07 |
本例基于深度聚类的语音分离算法在非匹配混响下的分离性能优于CNN方法,表明本例提出的基于深度聚类的分离方法具有一定的泛化性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声;
步骤2,对步骤1得到的混合双耳语音信号进行预处理,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱:
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位;
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,得到对数幅度谱;
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,得到耳间相位差函数:
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数;
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)];
每T帧特征参数进行组合,得到特征图C:
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图;聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类;将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层;
得到训练好的深度聚类网络模型的编码层的方法:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数;
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重;
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束;
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图;
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图;
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到二值掩膜矩阵,利用测试混合双耳语音信号和二值掩膜矩阵实现语音分离。
2.根据权利要求1所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:步骤2中的预处理包括分帧、加窗操作。
3.根据权利要求2所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:步骤3中对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算:log10|XL(τ,ω)|。
4.根据权利要求3所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285987.8A CN112216301B (zh) | 2020-11-17 | 2020-11-17 | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011285987.8A CN112216301B (zh) | 2020-11-17 | 2020-11-17 | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112216301A true CN112216301A (zh) | 2021-01-12 |
CN112216301B CN112216301B (zh) | 2022-04-29 |
Family
ID=74057104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011285987.8A Active CN112216301B (zh) | 2020-11-17 | 2020-11-17 | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112216301B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1705980A (zh) * | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
EP2426951A1 (en) * | 2009-04-28 | 2012-03-07 | Panasonic Corporation | Hearing aid device and hearing aid method |
US20160234610A1 (en) * | 2015-02-11 | 2016-08-11 | Oticon A/S | Hearing system comprising a binaural speech intelligibility predictor |
CN110491410A (zh) * | 2019-04-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
-
2020
- 2020-11-17 CN CN202011285987.8A patent/CN112216301B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1705980A (zh) * | 2002-02-18 | 2005-12-07 | 皇家飞利浦电子股份有限公司 | 参数音频编码 |
EP2426951A1 (en) * | 2009-04-28 | 2012-03-07 | Panasonic Corporation | Hearing aid device and hearing aid method |
US20160234610A1 (en) * | 2015-02-11 | 2016-08-11 | Oticon A/S | Hearing system comprising a binaural speech intelligibility predictor |
CN110491410A (zh) * | 2019-04-12 | 2019-11-22 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110728989A (zh) * | 2019-09-29 | 2020-01-24 | 东南大学 | 一种基于长短时记忆网络lstm的双耳语音分离方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
CN117711423B (zh) * | 2024-02-05 | 2024-05-10 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112216301B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mandel et al. | Model-based expectation-maximization source separation and localization | |
CN110728989B (zh) | 一种基于长短时记忆网络lstm的双耳语音分离方法 | |
CN110517705B (zh) | 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统 | |
CN109830245A (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
CN110718232B (zh) | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 | |
CN109164415B (zh) | 一种基于卷积神经网络的双耳声源定位方法 | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
CN109410976A (zh) | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN113936681B (zh) | 一种基于掩膜映射和混合空洞卷积网络的语音增强方法 | |
CN109767760A (zh) | 基于振幅和相位信息的多目标学习的远场语音识别方法 | |
CN108091345A (zh) | 一种基于支持向量机的双耳语音分离方法 | |
Dadvar et al. | Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target | |
CN112216301B (zh) | 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN110333484A (zh) | 基于环境背景声感知与分析的室内区域级定位方法 | |
CN113870893A (zh) | 一种多通道双说话人分离方法及系统 | |
CN112037813B (zh) | 一种针对大功率目标信号的语音提取方法 | |
Zhou et al. | Binaural speech separation algorithm based on long and short time memory networks | |
CN111707990A (zh) | 一种基于密集卷积网络的双耳声源定位方法 | |
Ghalamiosgouei et al. | Robust Speaker Identification Based on Binaural Masks | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
CN115713943A (zh) | 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法 | |
CN112731291B (zh) | 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |