CN112216301A - 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 - Google Patents

基于对数幅度谱和耳间相位差的深度聚类语音分离方法 Download PDF

Info

Publication number
CN112216301A
CN112216301A CN202011285987.8A CN202011285987A CN112216301A CN 112216301 A CN112216301 A CN 112216301A CN 202011285987 A CN202011285987 A CN 202011285987A CN 112216301 A CN112216301 A CN 112216301A
Authority
CN
China
Prior art keywords
phase difference
spectrum
clustering
coding layer
interaural phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011285987.8A
Other languages
English (en)
Other versions
CN112216301B (zh
Inventor
周琳
冯坤
王天仪
许越
林震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011285987.8A priority Critical patent/CN112216301B/zh
Publication of CN112216301A publication Critical patent/CN112216301A/zh
Application granted granted Critical
Publication of CN112216301B publication Critical patent/CN112216301B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,通过提取混合双耳语音信号的对数幅度谱、耳间相位差函数作为输入特征参数,利用深度聚类网络的编码层将特征参数映射为高维特征,实现深度聚类网络编码层的训练。测试时,将测试混合双耳语音信号的特征参数通过训练好的深度聚类网络的编码层映射为高维特征图,再通过K均值聚类方法完成对各频点的分类,得到各频点的二值掩膜矩阵,从而实现混合语音的分离。本发明分离性能良好,且具有较强的鲁棒性。

Description

基于对数幅度谱和耳间相位差的深度聚类语音分离方法
技术领域
本发明属于语音分离技术领域,涉及一种基于对数幅度谱和耳间相位差的深度聚类双耳语音分离方法。
背景技术
语音分离,指的是从复杂的声学环境中,提取中目标说话人的语音信号,同时尽可能减少对原始语音的改变。语音分离技术可以提高语音信号处理系统的整体性能。
语音分离作为语音学术界的重要领域,一直以来都受到广大学者的重点关注。在嘈杂的环境中,人类能够轻易地辨别出自己感兴趣的语音,这就是著名的“鸡尾酒会”问题。“鸡尾酒会”问题自1953年由Cherry提出以来,很多的学者都为此付出大量的努力,希望能够研究出一种适用范围很广的语音分离技术。而按照研究算法的不同,可以主要分为盲源分离和计算听觉场景分析两个方向。近年来,深度学习技术因其出色的学习学习能力也被引入到了语音分离任务中来。过往的研究中往往仅利用了当前帧的特征信息进行语音分离,没有考虑到语音信号在时序上的相关性和声源空间位置的短时稳定性。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,利用深度聚类网络对混合双耳语音进行分离。考虑语音信号在时序上具有相关性,因此本发明选取了长短时记忆网络LSTM(Long Short-TermMemory)作为聚类前的编码层主要部分,编码层将测试混合双耳语音信号的特征图映射到高维空间,对高维特征图的矢量进行聚类,从而实现语音分离。利用多种信噪比和混响条件下的数据进行训练,从而保证了深度聚类网络的鲁棒性。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。
步骤2,对步骤1得到的混合双耳语音信号进行预处理,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱:
Figure BDA0002782407270000021
Figure BDA0002782407270000022
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位。
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,得到对数幅度谱。
耳间相位差
Figure BDA0002782407270000023
定义为左、右耳语音信号频谱的相位差值为:
Figure BDA0002782407270000024
其中,
Figure BDA0002782407270000025
表示左耳语音信号频谱的相位,
Figure BDA0002782407270000026
表示右耳语音信号频谱的相位,其计算分别为:
Figure BDA0002782407270000027
Figure BDA0002782407270000028
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,得到耳间相位差函数:
Figure BDA0002782407270000029
Figure BDA00027824072700000210
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数。
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。
每T帧特征参数进行组合,得到特征图C。
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图。聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类。将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层。
得到训练好的深度聚类网络模型的编码层的方法:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数。
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
其中,
Figure BDA0002782407270000031
表示每帧、每个频点归属的矩阵,当第τ帧、第ω个频点对应的第m个说话人的幅值大于其他说话人时,
Figure BDA0002782407270000032
否则
Figure BDA0002782407270000033
H表示转置运算。
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重。
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束。
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图。
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图。
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到二值掩膜矩阵,利用测试混合双耳语音信号和二值掩膜矩阵实现语音分离。
优选的:步骤2中的预处理包括分帧、加窗操作。
优选的:步骤3中对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算:log10|XL(τ,ω)|。
优选的:所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。
本发明相比现有技术,具有以下有益效果:
本发明充分地利用了语音信号的谱信息和空间信息,分离性能良好,且算法的泛化性能好,具有较强的鲁棒性。本发明在各信噪比、混响环境下的SAR、SIR、SDR、PESQ性能指标整体提升,本发明提出的方法对噪声和混响具有一定的鲁棒性和泛化性。
附图说明
图1为本发明整体算法流程图;
图2为语音信号对数幅度谱;
图3为混合语音信号的耳间相位差函数示意图;
图4为深度聚类网络的结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,如图1所示,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声。将两个在不同方位角的声源对应的双耳语音信号进行混合,得到训练混合双耳语音信号,计算公式为:
xL(n)=s1(n)*h1,L+s2(n)*h2,L+vL(n)
xR(n)=s1(n)*h1,R+s2(n)*h2,R+vR(n)
其中,xL(n)、xR(n)分别表示加入混响和噪声后的左、右耳语音信号,s1(n)、s2(n)表示两个在不同方位角的单声源语音信号,h1,L、h1,R表示方位角一对应声源的双耳房间脉冲响应函数,h2,L、h2,R表示方位角二对应声源的双耳房间脉冲响应函数,h1,L、h1,R、h2,L、h2,R中包含了混响,vL(n)、vR(n)表示指定信噪比下的左、右耳噪声信号,n表示样本点序号,*为卷积运算。
本例中的语音数据来自TIMIT语音数据库,主要针对两说话人的场景进行训练,两个声信号的方位角设定在[-90°,90°]之间,且两声源的方位角不重合,计算可得一共有37*36/2=种组合。训练时将两个不同声源的不同语句进行混合。训练设置的信噪比有4种情况,分别为0dB,10dB,20dB和无噪声。本例中同时考虑了混响对语音信号的影响,在训练集中设置混响为200ms和600ms,混响包含在双耳房间脉冲响应函数中。
步骤2,对步骤1得到的混合双耳语音信号进行预处理,包括分帧、加窗操作,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱。
分帧和加窗操作为:
xL(τ,n)=wH(n)xL(τ·N/2+n),0≤n<N
xR(τ,n)=wH(n)xR(τ·N/2+n),0≤n<N
其中,xL(τ,n)、xR(τ,n)表示分帧后第τ帧的左、右耳语音信号,n表示样本点序号,wH(n)为窗函数,N为帧长。
每一帧信号的短时傅立叶变换为:
Figure BDA0002782407270000051
Figure BDA0002782407270000052
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位。
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,即log10|XL(τ,ω)|,得到对数幅度谱,如图2所示。
耳间相位差
Figure BDA0002782407270000053
定义为左、右耳语音信号频谱的相位差值为:
Figure BDA0002782407270000054
其中,
Figure BDA0002782407270000055
表示左耳语音信号频谱的相位,
Figure BDA0002782407270000056
表示右耳语音信号频谱的相位,其计算分别为:
Figure BDA0002782407270000057
Figure BDA0002782407270000058
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,如图3所示,得到耳间相位差
函数:
Figure BDA0002782407270000059
Figure BDA00027824072700000510
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数。
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)]。
每T帧特征参数进行组合,得到特征图C:
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图。聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类。将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层。
如图4所示,搭建的深度聚类主要由编码层和聚类层组成,其中训练时只用到编码层,测试时,测试混合语音信号的特征图经过编码层映射为高维特征图,通过聚类层完成对每一帧各频点的分类。
编码层由双向LSTM、Dropout层及全连接层组成,隐藏层设置为600个神经元,全连接层则将每帧、每个频点的特征参数映射为20维的特征向量,训练过程如下:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数。
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
其中,
Figure BDA0002782407270000061
表示每帧、每个频点归属的矩阵,当第τ帧、第ω个频点对应的第m个说话人的幅值大于其他说话人时,
Figure BDA0002782407270000062
否则
Figure BDA0002782407270000063
H表示转置运算。
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重。
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束。
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图。
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图。
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到各频点的二值掩膜矩阵,从而实现了对每一帧各频点的分类,结合输入的测试混合双耳语音信号即可分离目标语音。
仿真
本例采用SAR、SIR、SDR、PESQ来评估分离语音信号的感知质量,将基于前后帧信息的CNN算法、IBM-DNN算法和本例基于深度聚类的算法进行了对比。
表1、表2、表3和表4分别比较了三种方法的SAR、SIR、SDR值和PESQ值,指标数值越高,表明语音分离的效果就越好。
表1三种方法SAR值比较
SNR(dB) IBM-DNN 前后帧-CNN 深度聚类
0 0.07 2.02 1.57
5 2.71 4.54 4.02
10 6.02 6.95 7.15
15 7.81 8.01 8.54
20 8.34 8.77 9.12
Noiseless 8.85 9.03 9.44
表2三种方法SIR值比较
SNR(dB) IBM-DNN 前后帧-CNN 深度聚类
0 14.42 15.19 14.79
5 15.14 16.01 16.18
10 15.98 16.45 16.92
15 16.41 16.70 17.01
20 16.71 16.87 17.35
Noiseless 17.14 17.02 17.58
表3三种方法SDR值比较
SNR(dB) IBM-DNN 前后帧-CNN 深度聚类
0 -0.77 1.54 0.79
5 3.02 4.41 4.16
10 5.31 6.02 7.41
15 6.95 7.21 8.15
20 7.52 7.85 9.02
Noiseless 7.96 8.31 9.79
表4三种算法PESQ值比较
SNR(dB) IBM-DNN 前后帧-CNN 深度聚类
0 1.42 1.85 1.67
5 1.7 2.07 1.94
10 1.79 2.17 2.11
15 1.95 2.24 2.25
20 2.21 2.45 2.39
Noiseless 2.41 2.57 2.52
根据性能比较,在低信噪比条件下,本实例基于深度聚类的语音分离方法性能与前后帧-CNN较为接近,并显著优于IBM-DNN方法;在信噪比较高时,其性能则优于其余两种方法。
同时我们对基于深度聚类算法的泛化性进行分析。训练集为200ms、600ms的混响数据,测试集为300ms的混响数据,本例基于深度聚类的分离效果与CNN的对比结果如表5、6、7所示。
表5 300ms混响环境下两种算法SAR比较
SNR(dB) 前后帧-CNN 深度聚类
0 1.89 1.32
5 4.07 3.95
10 6.61 6.70
15 7.45 7.79
20 8.26 8.71
表6 300ms混响环境下两种算法SIR比较
SNR(dB) 前后帧-CNN 深度聚类
0 14.77 14.51
5 15.82 15.94
10 15.91 16.41
15 16.54 16.63
20 16.68 16.72
表7 300ms混响环境下两种算法SDR比较
SNR(dB) 前后帧-CNN 深度聚类
0 1.02 0.34
5 3.57 3.46
10 5.21 6.71
15 6.57 7.35
20 7.25 8.07
本例基于深度聚类的语音分离算法在非匹配混响下的分离性能优于CNN方法,表明本例提出的基于深度聚类的分离方法具有一定的泛化性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于,包括以下步骤:
步骤1,获取包含不同方位角声源的混合双耳语音信号,且混合双耳语音信号中加入不同混响时间的混响和不同信噪比的噪声;
步骤2,对步骤1得到的混合双耳语音信号进行预处理,并根据预处理后的混合双耳语音信号计算混合双耳语音信号的短时傅里叶变换得到短时频谱:
Figure FDA0002782407260000011
Figure FDA0002782407260000012
其中,xL(τ,n)表示分帧后第τ帧的左耳语音信号,xR(τ,n)表示分帧后第τ帧的右耳语音信号,n表示样本点序号,N为帧长,XL(τ,ω)表示傅里叶变换后的左耳语音信号的频谱,XR(τ,ω)表示傅里叶变换后的右耳语音信号的频谱,ω表示频点,j表示虚数单位;
步骤3,对于步骤2得到的短时频谱提取对数幅度谱和耳间相位差函数,并进行组合:
对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算,得到对数幅度谱;
耳间相位差
Figure FDA0002782407260000013
定义为左、右耳语音信号频谱的相位差值为:
Figure FDA0002782407260000014
其中,
Figure FDA0002782407260000015
表示左耳语音信号频谱的相位,
Figure FDA0002782407260000016
表示右耳语音信号频谱的相位,其计算分别为:
Figure FDA0002782407260000017
Figure FDA0002782407260000018
得到耳间相位差后,对耳间相位差进行余弦、正弦变换,得到耳间相位差函数:
Figure FDA0002782407260000019
Figure FDA00027824072600000110
其中,cosIPD(τ,ω)表示耳间相位差余弦函数,sinIPD(τ,ω)表示耳间相位差正弦函数;
将对数幅度谱和耳间相位差函数组成一个新的矢量,作为第τ帧的特征参数C(τ):
C(τ)=[log10|XL(τ,ω)|,cosIPD(τ,ω),sinIPD(τ,ω)];
每T帧特征参数进行组合,得到特征图C:
C=[C(1),C(2),...,C(T)]
步骤4,建立深度聚类网络模型,深度聚类网络模型包括编码层和聚类层,编码层将输入的特征图映射为高维特征图;聚类层则利用K均值聚类方法对映射后的高维特征图中各矢量进行分类;将步骤3得到的特征图序列,作为深度聚类网络模型的输入参数进行训练,得到训练好的深度聚类网络模型的编码层;
得到训练好的深度聚类网络模型的编码层的方法:
步骤41,将特征图C送入编码层,得到映射后的高维特征图V:
V=f(C)
其中,f表示编码层的映射函数;
步骤42,根据高维特征图V和频点归属矩阵Y之间的范数最小原则对编码层进行训练,网络的损失函数定义为:
J=|VVH-YYH|2
其中,
Figure FDA0002782407260000021
表示每帧、每个频点归属的矩阵,当第τ帧、第ω个频点对应的第m个说话人的幅值大于其他说话人时,
Figure FDA0002782407260000022
否则
Figure FDA0002782407260000023
H表示转置运算;
步骤43,使用反向传播方法,计算损失函数J对网络权重的偏导,并修正权重;
步骤44,若当前迭代次数小于预设总迭代次数,则返回至步骤41,继续输入特征图C进行计算,直至达到预设迭代次数时迭代结束,则深度聚类网络模型的编码层训练结束;
步骤5,获取测试混合双耳语音信号,测试混合双耳语音信号根据步骤2、步骤3提取特征参数,得到测试特征图;
步骤6,将步骤5得到的测试特征图输入到训练好的深度聚类网络模型的编码层,将测试特征图映射为高维测试特征图;
步骤7,将步骤6得到的高维测试特征图中各个特征矢量通过深度聚类网络模型的聚类层进行分类,得到二值掩膜矩阵,利用测试混合双耳语音信号和二值掩膜矩阵实现语音分离。
2.根据权利要求1所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:步骤2中的预处理包括分帧、加窗操作。
3.根据权利要求2所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:步骤3中对傅里叶变换后的左耳语音信号的频谱XL(τ,ω)做对数运算:log10|XL(τ,ω)|。
4.根据权利要求3所述基于对数幅度谱和耳间相位差的深度聚类语音分离方法,其特征在于:所述步骤4中编码层包括依次连接的双向LSTM网络、Dropout层及全连接层。
CN202011285987.8A 2020-11-17 2020-11-17 基于对数幅度谱和耳间相位差的深度聚类语音分离方法 Active CN112216301B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011285987.8A CN112216301B (zh) 2020-11-17 2020-11-17 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011285987.8A CN112216301B (zh) 2020-11-17 2020-11-17 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Publications (2)

Publication Number Publication Date
CN112216301A true CN112216301A (zh) 2021-01-12
CN112216301B CN112216301B (zh) 2022-04-29

Family

ID=74057104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011285987.8A Active CN112216301B (zh) 2020-11-17 2020-11-17 基于对数幅度谱和耳间相位差的深度聚类语音分离方法

Country Status (1)

Country Link
CN (1) CN112216301B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705980A (zh) * 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
EP2426951A1 (en) * 2009-04-28 2012-03-07 Panasonic Corporation Hearing aid device and hearing aid method
US20160234610A1 (en) * 2015-02-11 2016-08-11 Oticon A/S Hearing system comprising a binaural speech intelligibility predictor
CN110491410A (zh) * 2019-04-12 2019-11-22 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1705980A (zh) * 2002-02-18 2005-12-07 皇家飞利浦电子股份有限公司 参数音频编码
EP2426951A1 (en) * 2009-04-28 2012-03-07 Panasonic Corporation Hearing aid device and hearing aid method
US20160234610A1 (en) * 2015-02-11 2016-08-11 Oticon A/S Hearing system comprising a binaural speech intelligibility predictor
CN110491410A (zh) * 2019-04-12 2019-11-22 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110728989A (zh) * 2019-09-29 2020-01-24 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711423A (zh) * 2024-02-05 2024-03-15 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法
CN117711423B (zh) * 2024-02-05 2024-05-10 西北工业大学 联合听觉场景分析与深度学习的混合水声信号分离方法及系统

Also Published As

Publication number Publication date
CN112216301B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Mandel et al. Model-based expectation-maximization source separation and localization
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110517705B (zh) 一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
CN109830245A (zh) 一种基于波束成形的多说话者语音分离方法及系统
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
CN109164415B (zh) 一种基于卷积神经网络的双耳声源定位方法
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
CN109410976A (zh) 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN113936681B (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN109767760A (zh) 基于振幅和相位信息的多目标学习的远场语音识别方法
CN108091345A (zh) 一种基于支持向量机的双耳语音分离方法
Dadvar et al. Robust binaural speech separation in adverse conditions based on deep neural network with modified spatial features and training target
CN112216301B (zh) 基于对数幅度谱和耳间相位差的深度聚类语音分离方法
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN110333484A (zh) 基于环境背景声感知与分析的室内区域级定位方法
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
Zhou et al. Binaural speech separation algorithm based on long and short time memory networks
CN111707990A (zh) 一种基于密集卷积网络的双耳声源定位方法
Ghalamiosgouei et al. Robust Speaker Identification Based on Binaural Masks
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
CN115713943A (zh) 基于复空间角中心高斯混合聚类模型和双向长短时记忆网络的波束成形语音分离方法
CN112731291B (zh) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant