CN112017686A - 基于门控递归融合深度嵌入式特征的多通道语音分离系统 - Google Patents

基于门控递归融合深度嵌入式特征的多通道语音分离系统 Download PDF

Info

Publication number
CN112017686A
CN112017686A CN202010985342.9A CN202010985342A CN112017686A CN 112017686 A CN112017686 A CN 112017686A CN 202010985342 A CN202010985342 A CN 202010985342A CN 112017686 A CN112017686 A CN 112017686A
Authority
CN
China
Prior art keywords
module
training
embedded
deep
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010985342.9A
Other languages
English (en)
Other versions
CN112017686B (zh
Inventor
范存航
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd filed Critical Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Priority to CN202010985342.9A priority Critical patent/CN112017686B/zh
Publication of CN112017686A publication Critical patent/CN112017686A/zh
Application granted granted Critical
Publication of CN112017686B publication Critical patent/CN112017686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练。

Description

基于门控递归融合深度嵌入式特征的多通道语音分离系统
技术领域
本发明涉及信号处理技术领域,尤其是涉及了基于门控递归融合深度嵌入式特征的多通道语音分离系统。
背景技术
语音作为人类交流信息的主要手段之一,语音分离一直在语音信号处理中占据着重要的地位。语音分离又被称为鸡尾酒会议问题其目标是从含有多个混合说话人的语音信号中将每个目标源语音信号分离出来。当一段语音中同时含有多个说话人时,会严重影响语音识别、说话人识别和助听器等系统的性能,因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中,目前很多基于深度学习的语音分离方法取得了很好的效果,比如深度聚类算法、排列不变性训练准则和Conv-TasNet等。但是这些都是单通道的语音分离方法,他们没有办法利用语音的空间信息。对于麦克风阵列,他们包含了每个源信号的方向信息。所以,对于多通道语音分离来说,可以利用麦克风阵列提供的空间信息来进一步提升语音分离的性能。
为了利用空间信息,也有很多工作去处理解决多通道语音分离问题,比如多通道深度聚类算法(MDC)。MDC是将单通道的深度聚类算法(DC)给扩展到多通道领域。MDC首先利用通道间的相位差(IPDs)作为附属空间信息,然后将其与幅值谱特征拼接到一起作为多通道语音分离的输入特征。然后,通过深度神经网络将输入特征映射到一个高维的深度嵌入式空间中。此时,深度神经网络相当于一个映射函数,对于任意输入的混合语音信号都可以通过该映射函数来输出高维的深度嵌入式向量。最后,利用K-均值(K-means)聚类算法对该深度嵌入式向量进行聚类,以此来估计出目标语音信号的二值掩蔽值(IBM)。尽管MDC可以很好的将混合语音分离出来,但是它还是会存在两个主要的缺点。第一,MDC仅将空间信息作为一个附属特征拼接到幅值谱特征上,这样做很难学习到空间和幅值谱之间的互信息,并且IPDs和幅值谱特征的分布不同,这样做也不利于网络的学习和优化。第二,MDC的训练目标函数是定义在深度嵌入式向量上,而不是在真正的分离目标上,这些深度嵌入式向量并不能很完美的表示目标语音,因此会损害语音分离的性能。
发明内容
为解决现有技术的不足,实现多人和多通道下高质量语音分离的目的,本发明采用如下的技术方案:
基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数,从而达到区分训练和提升语音分离性能的目的;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块,进一步提高语音分离的音质和可懂度。
所述门控递归融合模块,使用通道间的相位差的正弦和余弦值作为空间信息特征,具体流程为:
Figure BDA0002688981230000021
Figure BDA0002688981230000022
h′p=r⊙hp
Figure BDA0002688981230000023
Figure BDA0002688981230000024
r是重置门,z是更新门,σ表示sigmoid函数,Wr和Wz是重置门和更新门的权重,hp是隐状态,
Figure BDA00026889812300000211
是空间信息特征,⊙表示元素间的乘积,
Figure BDA00026889812300000210
是记忆细胞,Wh是权重,hq即fGRF表示门控递归融合特征:
fGRF=GRF(rθ,ry)
混合语音的幅值谱经深度神经网络提取得到幅值谱特征ry,空间信息特征
Figure BDA00026889812300000213
和幅值谱特征ry交替利用门控递归融合模块完成深度的结合。
所述深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Figure BDA00026889812300000212
Nm表示麦克风阵列的通道数,训练损失目标函数为:
Figure BDA0002688981230000025
JDC表示深度嵌入式特征的损失目标函数,V是深度嵌入式特征,
Figure BDA0002688981230000026
表示实数,B表示每一个时频块的源对应关系,TF指经过傅里叶变换后的时频块,C是混合说话人的个数,
Figure BDA0002688981230000027
表示平方Frobenius范数。
所述语音分离模块,利用深度嵌入式特征V进行语音分离,分离的输出为估计的理想相位敏感掩蔽值
Figure BDA0002688981230000028
Figure BDA0002688981230000029
fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Figure BDA0002688981230000031
Jφ(s)表示对应排列组合的损失函数,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值
Figure BDA0002688981230000032
相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,优化整个网络,训练目标函数为:
Figure BDA0002688981230000033
P表示所有可能的排列组合,φ*表示最优的排列组合。
所述区分性训练模块,其损失目标函数为:
Figure BDA0002688981230000034
α≥0表示区分性学习的正则化参数。
所述联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
训练完成后,将麦克风阵列提供的空间信息和幅值谱信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
本发明的优势和有益效果在于:
本发明中利用门控递归融合算法去深度的融合空间信息和幅值谱信息,将二者看成两个模态,从而更好的学习二者之间的互信息,充分利用麦克风提供的空间信息进行语音分离;利用深度聚类算法训练一个深度嵌入式特征提取器,获得一个具有区分性的深度特征,从而提升语音分离系统对每个说话人的区分性;在区分性训练模块,利用区分性学习,增大不同说话人之间的距离,同时减小相同说话人之间的距离,从而降低了分离后的语音再次混合的目的,提高了语音分离系统的性能;在联合训练模块,采用联合优化深度嵌入式特征提取模块与基于句子级别的排列不变性训练准则的语音分离模块,在获得具有区分性的深度嵌入式特征的同时也保证了语音分离的性能,使分离后的语音比单独基于深度聚类和排列不变性训练准则的方法更加清晰、易懂,音质更好。
附图说明
图1是本发明的系统流程图。
图2是本发明中门控递归融合模块的输入输出流程图。
图3是本发明中深度嵌入式特征提取模块的输入输出流程图。
图4是本发明中语音分离模块的输入输出流程图。
图5是本发明中区分性训练模块的输入输出流程图。
图6是本发明中联合训练模块的输入输出流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合(GRF,Gated recurrent fusion)模块,将麦克风阵列提供的空间信息和幅值谱信息作为两个模态,用于深度融合空间信息和幅值谱特征,输出门控递归融合特征;深度嵌入式特征提取模块,与门控递归融合模块通信连接,作为深度嵌入式特征的提取器,从深度融合后的特征中获得更具有区分性的深度特征表示;语音分离模块,与深度嵌入式特征提取模块通信连接,基于句子级别的排列不变性训练准则(uPIT)进行语音分离,将深度嵌入式特征分离得到每个源目标语音信号;区分性训练模块,与语音分离模块通信连接,用于区分训练不同的说话人,即减小相同说话人之间的距离,增大不同说话人之间的距离,从而达到区分训练和提升语音分离性能的目的;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块,进一步提高语音分离的音质和可懂度。训练完成后,将麦克风阵列提供的信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
如图2所示,门控递归融合模块,使用通道间的相位差(IPDs)的正弦和余弦值作为空间信息,具体流程为:
Figure BDA0002688981230000041
Figure BDA0002688981230000051
h′p=r⊙hp
Figure BDA0002688981230000052
Figure BDA0002688981230000053
其中,r为重置门,z为更新门,σ代表sigmoid函数,Wr和Wz是重置门和更新门的权重,hp是隐状态,
Figure BDA0002688981230000054
是空间信息特征(即IPDs的正弦和余弦值),⊙表示元素间的乘积,
Figure BDA0002688981230000055
是记忆细胞,Wh代表相应的权重,门控递归融合特征fGRF表示如下:
Figure BDA0002688981230000056
hq=fGRF,混合语音的幅值谱|Y|经深度神经网络提取得到幅值谱特征ry,空间信息特征
Figure BDA0002688981230000057
和幅值谱特征ry交替利用门控递归融合模块来完成深度的结合。
如图3所示,深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Figure BDA0002688981230000058
Nm表示麦克风阵列的通道数,训练损失目标函数为:
Figure BDA0002688981230000059
其中,JDC表示深度嵌入式特征的损失目标函数,V是深度嵌入式特征,
Figure BDA00026889812300000510
Figure BDA00026889812300000511
表示实数,B表示每一个时频块的源对应关系,TF指经过傅里叶变换后的时频块,C是混合说话人的个数,例如:如果源c在时频块tf比其他源的能量都大,那么Btf,c=1,否则Btf,c=0,
Figure BDA00026889812300000512
表示平方Frobenius范数。
如图4所示,语音分离模块,利用深度嵌入式特征V进行语音分离,分离的输出为估计的理想相位敏感掩蔽值(IPSM)
Figure BDA00026889812300000513
Figure BDA00026889812300000514
其中,fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Figure BDA0002688981230000061
其中,Jφ(s)表示对应排列组合的损失函数,
Figure BDA0002688981230000062
Figure BDA0002688981230000063
的简写,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值
Figure BDA0002688981230000064
相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
句子级别的排列不变性训练准则是指对神经网络BLSTM输出的各个源信号,即目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,优化整个网络,训练目标函数为:
Figure BDA0002688981230000065
其中,P表示所有可能的排列组合,φ*表示最优的排列组合。
如图5所示,区分性训练模块,在损失目标函数层面,减小相同说话人之间的均方误差,增大不同说话人之间的均方误差,其损失目标函数为:
Figure BDA0002688981230000066
其中,α≥0表示区分性学习的正则化参数。
如图6所示,联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
其中,λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (7)

1.基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块。
2.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述门控递归融合模块,使用通道间的相位差的正弦和余弦值作为空间信息特征,具体流程为:
Figure FDA0002688981220000017
Figure FDA0002688981220000018
h′p=r⊙hp
Figure FDA0002688981220000011
Figure FDA0002688981220000012
r是重置门,z是更新门,σ表示sigmoid函数,Wr和Wz是重置门和更新门的权重,hp是隐状态,
Figure FDA0002688981220000013
是空间信息特征,⊙表示元素间的乘积,
Figure FDA0002688981220000014
是记忆细胞,Wh是权重,hq即fGRF表示门控递归融合特征:
Figure FDA0002688981220000015
混合语音的幅值谱经深度神经网络提取得到幅值谱特征ry,空间信息特征
Figure FDA0002688981220000016
和幅值谱特征ry交替利用门控递归融合模块完成深度的结合。
3.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Figure FDA0002688981220000019
Nm表示麦克风阵列的通道数,训练损失目标函数为:
Figure FDA0002688981220000021
JDC表示深度嵌入式特征的损失目标函数,V是深度嵌入式特征,
Figure FDA0002688981220000022
Figure FDA0002688981220000023
表示实数,B表示每一个时频块的源对应关系,TF指经过傅里叶变换后的时频块,C是混合说话人的个数,
Figure FDA0002688981220000024
表示平方Frobenius范数。
4.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述语音分离模块,利用深度嵌入式特征V进行语音分离,分离的输出为估计的理想相位敏感掩蔽值
Figure FDA0002688981220000025
Figure FDA0002688981220000026
fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Figure FDA0002688981220000027
Jφ(s)表示对应排列组合的损失函数,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值
Figure FDA0002688981220000028
相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,训练目标函数为:
Figure FDA0002688981220000029
P表示所有可能的排列组合,φ*表示最优的排列组合。
5.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述区分性训练模块,其损失目标函数为:
Figure FDA00026889812200000210
α≥0表示区分性学习的正则化参数。
6.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
7.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于训练完成后,将麦克风阵列提供的空间信息和幅值谱信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
CN202010985342.9A 2020-09-18 2020-09-18 基于门控递归融合深度嵌入式特征的多通道语音分离系统 Active CN112017686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010985342.9A CN112017686B (zh) 2020-09-18 2020-09-18 基于门控递归融合深度嵌入式特征的多通道语音分离系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010985342.9A CN112017686B (zh) 2020-09-18 2020-09-18 基于门控递归融合深度嵌入式特征的多通道语音分离系统

Publications (2)

Publication Number Publication Date
CN112017686A true CN112017686A (zh) 2020-12-01
CN112017686B CN112017686B (zh) 2022-03-01

Family

ID=73521654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010985342.9A Active CN112017686B (zh) 2020-09-18 2020-09-18 基于门控递归融合深度嵌入式特征的多通道语音分离系统

Country Status (1)

Country Link
CN (1) CN112017686B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113271272A (zh) * 2021-05-13 2021-08-17 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
CN113593534A (zh) * 2021-05-28 2021-11-02 思必驰科技股份有限公司 针对多口音语音识别的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110544482A (zh) * 2019-09-09 2019-12-06 极限元(杭州)智能科技股份有限公司 一种单通道语音分离系统
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110970053A (zh) * 2019-12-04 2020-04-07 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
US20200184985A1 (en) * 2018-12-06 2020-06-11 Synaptics Incorporated Multi-stream target-speech detection and channel fusion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189730A1 (en) * 2014-12-30 2016-06-30 Iflytek Co., Ltd. Speech separation method and system
US20200184985A1 (en) * 2018-12-06 2020-06-11 Synaptics Incorporated Multi-stream target-speech detection and channel fusion
CN110459237A (zh) * 2019-04-12 2019-11-15 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备
CN110634502A (zh) * 2019-09-06 2019-12-31 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN110544482A (zh) * 2019-09-09 2019-12-06 极限元(杭州)智能科技股份有限公司 一种单通道语音分离系统
CN110970053A (zh) * 2019-12-04 2020-04-07 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIANG FU: "Blind DOA Estimation in a Reverberant Environment Based on Hybrid Initialized Multichannel Deep 2-D Convolutional NMF With Feedback Mechanism", 《IEEEACCESS》 *
刘庆峰: "语音识别技术研究进展与挑战", 《数据与计算发展前沿》 *
刘镇等: "基于深度学习的多声源并行化声纹辨别方法", 《江苏科技大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113271272A (zh) * 2021-05-13 2021-08-17 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
CN113271272B (zh) * 2021-05-13 2022-09-13 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
CN113593534A (zh) * 2021-05-28 2021-11-02 思必驰科技股份有限公司 针对多口音语音识别的方法和装置
CN113593534B (zh) * 2021-05-28 2023-07-14 思必驰科技股份有限公司 针对多口音语音识别的方法和装置

Also Published As

Publication number Publication date
CN112017686B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Fujita et al. End-to-end neural speaker diarization with permutation-free objectives
Chen et al. Deep attractor network for single-microphone speaker separation
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
Wu et al. An end-to-end deep learning approach to simultaneous speech dereverberation and acoustic modeling for robust speech recognition
CN111128197B (zh) 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN110600047B (zh) 基于Perceptual STARGAN的多对多说话人转换方法
Nakatani et al. Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming
Chen et al. Progressive joint modeling in unsupervised single-channel overlapped speech recognition
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
Drude et al. Integration of neural networks and probabilistic spatial models for acoustic blind source separation
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
Cai et al. Within-sample variability-invariant loss for robust speaker recognition under noisy environments
CN110459240A (zh) 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111243620A (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
CN112017686B (zh) 基于门控递归融合深度嵌入式特征的多通道语音分离系统
CN110544482B (zh) 一种单通道语音分离系统
Wang et al. Integrating Spectral and Spatial Features for Multi-Channel Speaker Separation.
CN108520756B (zh) 一种说话人语音分离的方法及装置
Togami et al. Unsupervised training for deep speech source separation with Kullback-Leibler divergence based probabilistic loss function
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
CN110047478A (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
Nakagome et al. Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation.
Huang et al. Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019.
Fan et al. Utterance-level permutation invariant training with discriminative learning for single channel speech separation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant