CN112017686A - 基于门控递归融合深度嵌入式特征的多通道语音分离系统 - Google Patents
基于门控递归融合深度嵌入式特征的多通道语音分离系统 Download PDFInfo
- Publication number
- CN112017686A CN112017686A CN202010985342.9A CN202010985342A CN112017686A CN 112017686 A CN112017686 A CN 112017686A CN 202010985342 A CN202010985342 A CN 202010985342A CN 112017686 A CN112017686 A CN 112017686A
- Authority
- CN
- China
- Prior art keywords
- module
- training
- embedded
- deep
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 68
- 230000004927 fusion Effects 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000001228 spectrum Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 41
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练。
Description
技术领域
本发明涉及信号处理技术领域,尤其是涉及了基于门控递归融合深度嵌入式特征的多通道语音分离系统。
背景技术
语音作为人类交流信息的主要手段之一,语音分离一直在语音信号处理中占据着重要的地位。语音分离又被称为鸡尾酒会议问题其目标是从含有多个混合说话人的语音信号中将每个目标源语音信号分离出来。当一段语音中同时含有多个说话人时,会严重影响语音识别、说话人识别和助听器等系统的性能,因此语音分离技术就显得尤其重要。在语音分离技术的发展过程中,目前很多基于深度学习的语音分离方法取得了很好的效果,比如深度聚类算法、排列不变性训练准则和Conv-TasNet等。但是这些都是单通道的语音分离方法,他们没有办法利用语音的空间信息。对于麦克风阵列,他们包含了每个源信号的方向信息。所以,对于多通道语音分离来说,可以利用麦克风阵列提供的空间信息来进一步提升语音分离的性能。
为了利用空间信息,也有很多工作去处理解决多通道语音分离问题,比如多通道深度聚类算法(MDC)。MDC是将单通道的深度聚类算法(DC)给扩展到多通道领域。MDC首先利用通道间的相位差(IPDs)作为附属空间信息,然后将其与幅值谱特征拼接到一起作为多通道语音分离的输入特征。然后,通过深度神经网络将输入特征映射到一个高维的深度嵌入式空间中。此时,深度神经网络相当于一个映射函数,对于任意输入的混合语音信号都可以通过该映射函数来输出高维的深度嵌入式向量。最后,利用K-均值(K-means)聚类算法对该深度嵌入式向量进行聚类,以此来估计出目标语音信号的二值掩蔽值(IBM)。尽管MDC可以很好的将混合语音分离出来,但是它还是会存在两个主要的缺点。第一,MDC仅将空间信息作为一个附属特征拼接到幅值谱特征上,这样做很难学习到空间和幅值谱之间的互信息,并且IPDs和幅值谱特征的分布不同,这样做也不利于网络的学习和优化。第二,MDC的训练目标函数是定义在深度嵌入式向量上,而不是在真正的分离目标上,这些深度嵌入式向量并不能很完美的表示目标语音,因此会损害语音分离的性能。
发明内容
为解决现有技术的不足,实现多人和多通道下高质量语音分离的目的,本发明采用如下的技术方案:
基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数,从而达到区分训练和提升语音分离性能的目的;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块,进一步提高语音分离的音质和可懂度。
所述门控递归融合模块,使用通道间的相位差的正弦和余弦值作为空间信息特征,具体流程为:
h′p=r⊙hp
fGRF=GRF(rθ,ry)
所述深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Nm表示麦克风阵列的通道数,训练损失目标函数为:
fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Jφ(s)表示对应排列组合的损失函数,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,优化整个网络,训练目标函数为:
P表示所有可能的排列组合,φ*表示最优的排列组合。
所述区分性训练模块,其损失目标函数为:
α≥0表示区分性学习的正则化参数。
所述联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
训练完成后,将麦克风阵列提供的空间信息和幅值谱信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
本发明的优势和有益效果在于:
本发明中利用门控递归融合算法去深度的融合空间信息和幅值谱信息,将二者看成两个模态,从而更好的学习二者之间的互信息,充分利用麦克风提供的空间信息进行语音分离;利用深度聚类算法训练一个深度嵌入式特征提取器,获得一个具有区分性的深度特征,从而提升语音分离系统对每个说话人的区分性;在区分性训练模块,利用区分性学习,增大不同说话人之间的距离,同时减小相同说话人之间的距离,从而降低了分离后的语音再次混合的目的,提高了语音分离系统的性能;在联合训练模块,采用联合优化深度嵌入式特征提取模块与基于句子级别的排列不变性训练准则的语音分离模块,在获得具有区分性的深度嵌入式特征的同时也保证了语音分离的性能,使分离后的语音比单独基于深度聚类和排列不变性训练准则的方法更加清晰、易懂,音质更好。
附图说明
图1是本发明的系统流程图。
图2是本发明中门控递归融合模块的输入输出流程图。
图3是本发明中深度嵌入式特征提取模块的输入输出流程图。
图4是本发明中语音分离模块的输入输出流程图。
图5是本发明中区分性训练模块的输入输出流程图。
图6是本发明中联合训练模块的输入输出流程图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,基于门控递归融合深度嵌入式特征的多通道语音分离系统,包括门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合(GRF,Gated recurrent fusion)模块,将麦克风阵列提供的空间信息和幅值谱信息作为两个模态,用于深度融合空间信息和幅值谱特征,输出门控递归融合特征;深度嵌入式特征提取模块,与门控递归融合模块通信连接,作为深度嵌入式特征的提取器,从深度融合后的特征中获得更具有区分性的深度特征表示;语音分离模块,与深度嵌入式特征提取模块通信连接,基于句子级别的排列不变性训练准则(uPIT)进行语音分离,将深度嵌入式特征分离得到每个源目标语音信号;区分性训练模块,与语音分离模块通信连接,用于区分训练不同的说话人,即减小相同说话人之间的距离,增大不同说话人之间的距离,从而达到区分训练和提升语音分离性能的目的;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块,进一步提高语音分离的音质和可懂度。训练完成后,将麦克风阵列提供的信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
如图2所示,门控递归融合模块,使用通道间的相位差(IPDs)的正弦和余弦值作为空间信息,具体流程为:
h′p=r⊙hp
其中,r为重置门,z为更新门,σ代表sigmoid函数,Wr和Wz是重置门和更新门的权重,hp是隐状态,是空间信息特征(即IPDs的正弦和余弦值),⊙表示元素间的乘积,是记忆细胞,Wh代表相应的权重,门控递归融合特征fGRF表示如下:
如图3所示,深度嵌入式特征提取模块,对输入的混合语音信号进行短时傅里叶变换,将时域信号变换到频域信号,然后对其进行建模,获得更具有区分性的深度嵌入式特征,深度嵌入式特征采用深度神经网络训练得到:
Nm表示麦克风阵列的通道数,训练损失目标函数为:
其中,JDC表示深度嵌入式特征的损失目标函数,V是深度嵌入式特征, 表示实数,B表示每一个时频块的源对应关系,TF指经过傅里叶变换后的时频块,C是混合说话人的个数,例如:如果源c在时频块tf比其他源的能量都大,那么Btf,c=1,否则Btf,c=0,表示平方Frobenius范数。
其中,fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
其中,Jφ(s)表示对应排列组合的损失函数,是的简写,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
句子级别的排列不变性训练准则是指对神经网络BLSTM输出的各个源信号,即目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,优化整个网络,训练目标函数为:
其中,P表示所有可能的排列组合,φ*表示最优的排列组合。
如图5所示,区分性训练模块,在损失目标函数层面,减小相同说话人之间的均方误差,增大不同说话人之间的均方误差,其损失目标函数为:
其中,α≥0表示区分性学习的正则化参数。
如图6所示,联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
其中,λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (7)
1.基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于包括:门控递归融合模块、深度嵌入式特征提取模块、语音分离模块、区分性训练模块和联合训练模块,门控递归融合模块,将空间信息和幅值谱信息进行深度融合,输出门控递归融合特征;深度嵌入式特征提取模块,通过深度嵌入式特征损失目标函数,从门控递归融合特征中提取更具有区分性的深度嵌入式特征;语音分离模块,基于句子级别的排列不变性训练准则进行语音分离,将深度嵌入式特征分离,得到每个源目标语音信号;区分性训练模块,通过区分后的源目标语音信号得到区分性损失目标函数;联合训练模块,通过对区分性损失目标函数和深度嵌入式特征损失目标函数的联合训练,优化门控递归融合模块、深度嵌入式特征提取模块和语音分离模块。
fγ(*)表示基于深度神经网络的非线性映射函数,对于语音分离模块的训练方向为:
Jφ(s)表示对应排列组合的损失函数,|Y|表示混合语音的幅值谱,|Xs|表示目标源s的幅值谱,θy和θs分别表示混合语音和目标源s的相位,利用混合的幅值谱|Y|与相位敏感掩蔽值相乘得到估计的目标语音的幅值谱,在估计的幅值谱和真实的幅值谱之间计算均方误差;
所述句子级别的排列不变性训练准则是指对神经网络输出的各个目标语音信号Xs进行排列组合,分别计算对应的均方误差,选择最小的作为训练的目标函数,训练目标函数为:
P表示所有可能的排列组合,φ*表示最优的排列组合。
6.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于所述联合训练模块,总的训练目标函数为:
J=λJDC+(1-λ)JDL
λ表示深度嵌入式特征提取模块和语音分离模块的权重,最终通过联合训练的方式优化整个语音分离系统。
7.如权利要求1所述的基于门控递归融合深度嵌入式特征的多通道语音分离系统,其特征在于训练完成后,将麦克风阵列提供的空间信息和幅值谱信息作为输入,依次通过门控递归融合模块和深度嵌入式特征提取模块,由语音分离模块输出分离后的语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985342.9A CN112017686B (zh) | 2020-09-18 | 2020-09-18 | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010985342.9A CN112017686B (zh) | 2020-09-18 | 2020-09-18 | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112017686A true CN112017686A (zh) | 2020-12-01 |
CN112017686B CN112017686B (zh) | 2022-03-01 |
Family
ID=73521654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010985342.9A Active CN112017686B (zh) | 2020-09-18 | 2020-09-18 | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112017686B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271272A (zh) * | 2021-05-13 | 2021-08-17 | 侯小琪 | 一种基于残差神经网络的单通道时频混叠信号盲分离方法 |
CN113593534A (zh) * | 2021-05-28 | 2021-11-02 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
CN110459237A (zh) * | 2019-04-12 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110544482A (zh) * | 2019-09-09 | 2019-12-06 | 极限元(杭州)智能科技股份有限公司 | 一种单通道语音分离系统 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
US20200184985A1 (en) * | 2018-12-06 | 2020-06-11 | Synaptics Incorporated | Multi-stream target-speech detection and channel fusion |
-
2020
- 2020-09-18 CN CN202010985342.9A patent/CN112017686B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160189730A1 (en) * | 2014-12-30 | 2016-06-30 | Iflytek Co., Ltd. | Speech separation method and system |
US20200184985A1 (en) * | 2018-12-06 | 2020-06-11 | Synaptics Incorporated | Multi-stream target-speech detection and channel fusion |
CN110459237A (zh) * | 2019-04-12 | 2019-11-15 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及相关设备 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN110544482A (zh) * | 2019-09-09 | 2019-12-06 | 极限元(杭州)智能科技股份有限公司 | 一种单通道语音分离系统 |
CN110970053A (zh) * | 2019-12-04 | 2020-04-07 | 西北工业大学深圳研究院 | 一种基于深度聚类的多通道与说话人无关语音分离方法 |
Non-Patent Citations (3)
Title |
---|
QIANG FU: "Blind DOA Estimation in a Reverberant Environment Based on Hybrid Initialized Multichannel Deep 2-D Convolutional NMF With Feedback Mechanism", 《IEEEACCESS》 * |
刘庆峰: "语音识别技术研究进展与挑战", 《数据与计算发展前沿》 * |
刘镇等: "基于深度学习的多声源并行化声纹辨别方法", 《江苏科技大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113271272A (zh) * | 2021-05-13 | 2021-08-17 | 侯小琪 | 一种基于残差神经网络的单通道时频混叠信号盲分离方法 |
CN113271272B (zh) * | 2021-05-13 | 2022-09-13 | 侯小琪 | 一种基于残差神经网络的单通道时频混叠信号盲分离方法 |
CN113593534A (zh) * | 2021-05-28 | 2021-11-02 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
CN113593534B (zh) * | 2021-05-28 | 2023-07-14 | 思必驰科技股份有限公司 | 针对多口音语音识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112017686B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fujita et al. | End-to-end neural speaker diarization with permutation-free objectives | |
Chen et al. | Deep attractor network for single-microphone speaker separation | |
CN110600018B (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
Wu et al. | An end-to-end deep learning approach to simultaneous speech dereverberation and acoustic modeling for robust speech recognition | |
CN111128197B (zh) | 基于声纹特征与生成对抗学习的多说话人语音分离方法 | |
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
Nakatani et al. | Integrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming | |
Chen et al. | Progressive joint modeling in unsupervised single-channel overlapped speech recognition | |
CN111179911B (zh) | 目标语音提取方法、装置、设备、介质和联合训练方法 | |
Drude et al. | Integration of neural networks and probabilistic spatial models for acoustic blind source separation | |
CN110675891B (zh) | 一种基于多层注意力机制的语音分离方法、模块 | |
Cai et al. | Within-sample variability-invariant loss for robust speaker recognition under noisy environments | |
CN110459240A (zh) | 基于卷积神经网络和深度聚类的多说话人语音分离方法 | |
CN111243620A (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
CN112017686B (zh) | 基于门控递归融合深度嵌入式特征的多通道语音分离系统 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
Wang et al. | Integrating Spectral and Spatial Features for Multi-Channel Speaker Separation. | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
Togami et al. | Unsupervised training for deep speech source separation with Kullback-Leibler divergence based probabilistic loss function | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN110047478A (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
Huang et al. | Intel Far-Field Speaker Recognition System for VOiCES Challenge 2019. | |
Fan et al. | Utterance-level permutation invariant training with discriminative learning for single channel speech separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |