CN112331218B - 一种针对多说话人的单通道语音分离方法和装置 - Google Patents

一种针对多说话人的单通道语音分离方法和装置 Download PDF

Info

Publication number
CN112331218B
CN112331218B CN202011057899.2A CN202011057899A CN112331218B CN 112331218 B CN112331218 B CN 112331218B CN 202011057899 A CN202011057899 A CN 202011057899A CN 112331218 B CN112331218 B CN 112331218B
Authority
CN
China
Prior art keywords
amplitude
spectrum
voice
training
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011057899.2A
Other languages
English (en)
Other versions
CN112331218A (zh
Inventor
史慧宇
欧阳鹏
尹首一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qingwei Intelligent Technology Co ltd
Original Assignee
Beijing Qingwei Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qingwei Intelligent Technology Co ltd filed Critical Beijing Qingwei Intelligent Technology Co ltd
Priority to CN202011057899.2A priority Critical patent/CN112331218B/zh
Publication of CN112331218A publication Critical patent/CN112331218A/zh
Application granted granted Critical
Publication of CN112331218B publication Critical patent/CN112331218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明为一种针对多说话人的单通道语音分离方法和装置,包括:获取混合语音的频谱幅值和频谱相位。将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型的多个估计幅值掩蔽。根据多个估计幅值掩蔽和混合语音的频谱幅值,获取多个目标频谱幅值。逐个重构多个目标频谱幅值和频谱相位,生成多个目标语音。本发明能得到每一个说话人对应的目标语音分离结果,快速判断出混合语音中的说话人数目,提高分离的准确度,降低语音的失真率,有效地提高了分离出每一个说话人对应的目标语音的可懂度。

Description

一种针对多说话人的单通道语音分离方法和装置
技术领域
本发明涉及语音信号处理领域,具体为一种针对多说话人的单通道语音分离方法和装置。
背景技术
随着语音交互的发展,语音分离技术作为语音信号处理的关键环节得到重点研究。在智能音箱、助听器、会议记录等应用设备中,麦克风接收到的语音信号常常伴随着背景噪音或者其他说话人声的干扰,若是不能将其中的目标语音分离出来,将会严重影响到后端的应用,出现语义识别不准或记录不准确的问题,因此研究语音分离技术从而对混合语音中的目标语音正确分离至关重要。语音分离算法中研究和应用最广泛的是单通道语音分离。单通道语音分离主要利用单个麦克风采集的信号,借助目标语音和干扰信号之间的时频域声学和统计特性的差异进行建模,相比多通道语音分离任务,硬件要求和成本较低,运算量较小,但是难度更高。
目前运用深度学习的单通道语音分离算法主要有深度聚类算法(DPCL)、置换不变训练(PIT)和深度提取算法(DANet)等。其中深度聚类算法(DPCL)将语音分离的回归问题转化为时频域单元的聚类问题,深度聚类的利用深度神经网络提取出每一个时频域点的嵌入向量,设计相应的聚类代价函数,在高维的嵌入输出空间上使属于同一说话人的嵌入向量聚为一类。
目前的深度聚类算法多是在先验信息条件下,将重点放在语音分离后的准确程度,无法正确辨别混合语音中每个说话人的语音。
发明内容
本发明的目的是提供一种针对多说话人的单通道语音分离方法和装置,能够分离得到每一个说话人对应的目标语音。
为了实现上述目的,采用的技术方案为:一种针对多说话人的单通道语音分离方法,包括:
S101:获取训练语音样本集,训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本。
S102:对训练语音样本的时域信号采样,分别获取混合语音样本时域信号和每个说话人的语音样本时域信号。
S103:对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱,对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱。
S104:根据混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,将合并的多个理想幅值掩蔽作为训练目标。
S105:将混合语音的幅度谱和训练目标输入生成式对抗网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至生成式对抗网络模型收敛。
S106:麦克风接收端接收待分离的混合语音。获取混合语音的频谱幅值和频谱相位。
S107:将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型的多个估计幅值掩蔽。
S108:根据多个估计幅值掩蔽和混合语音的频谱幅值,获取多个目标频谱幅值。
S109:逐个重构多个目标频谱幅值和频谱相位,生成多个目标语音。
与现有技术相比,本发明的技术效果为:将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型输出的每路语音对应一个估计幅值掩蔽,然后将估计幅值掩蔽与最初混合语音的幅度谱相乘,再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到每一个说话人对应的目标语音分离结果。
相比现有的单通道语音分离算法,本发明能得到每一个说话人对应的目标语音分离结果,快速判断出混合语音中的说话人数目,提高分离的准确度,降低语音的失真率,有效地提高了分离出每一个说话人对应的目标语音的可懂度。
附图说明
图1为本发明针对多说话人的单通道语音分离方法的流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述。
本发明一实施例为一种针对多说话人的单通道语音分离方法,包括S101至S109。
S101:获取训练语音样本集,训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本。
训练语音样本集中包含大量的训练语音样本,在单个训练语音样本中可以包括第一说话人和第二说话人的混合语音样本、第一说话人的语音样本和第二说话人的语音样本。
单个训练语音样本中也可以是三个说话人的混合语音样本和每个说话人的语音样本。
S102:对训练语音样本的时域信号采样,分别获取混合语音样本时域信号和每个说话人的语音样本时域信号。
对训练语音样本的时域信号进行16kHz下采样。
S103:对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱,对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱。
通过加窗分帧和短时傅里叶变换分别得到混合语音样本时域信号y(t)和干净语音样本时域信号xi(t),(i=1,2,…,N)的幅度谱Y(t,f)和Xi(t,f)(i=1,2,…,N)、相位谱及幅度最大值。
语音信号是一个准稳态的信号,若把它分成较短的帧,每帧中可将其看作稳态信号,可用处理稳态信号的方法来处理。为了使一帧与另一帧之间的参数能够平稳过渡,应在相邻两帧之间互相有部分重叠。一般情况下,帧长取10~30ms,所以每秒的帧数约为33~100帧。帧移与帧长的比值一般取0~1/2。
将语音信号分帧后,需要对每一帧信号进行分析处理。窗函数一般具有低通特性,加窗函数的目的是减少频域中的泄漏。在语音信号分析中常用的窗函数有矩形窗、汉明窗和汉宁窗,可根据不同的情况选择不同的窗函数。本发明选择汉宁窗进行计算。
S104:根据混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,将合并的多个理想幅值掩蔽作为训练目标。
比如第一说话人的语音样本对应第一理想幅值掩蔽,第二说话人的语音样本对应第二理想幅值掩蔽,当然也可以为三个说话人的语音样本,或者更多。
理想幅值掩蔽可以理解为,在的混合的频谱幅值中既存在噪声信号又存在干净语音信号,因此,将频谱幅值中噪声信号的幅值掩蔽掉,而剩下的就是干净语音信号。
沿用上例,在混合语音样本中通过第一理想幅值掩蔽可以将第二说话人的语音信号掩蔽,而得到的就是第一说话人的语音信号。
具体地,本步骤中对混合语音和每个说话人的语音样本的幅度谱归一化处理。根据归一化处理后的混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽。
S105:将混合语音的幅度谱和训练目标输入生成式对抗网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至生成式对抗网络模型收敛。
S106:麦克风接收端接收待分离的混合语音。获取混合语音的频谱幅值和频谱相位。
S107:将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型输出的多个估计幅值掩蔽。
估计幅值掩蔽即为生成式对抗网络模型根据混合语音的频谱幅值预测的幅值掩蔽。
S108:根据多个估计幅值掩蔽和混合语音的频谱幅值,获取多个目标频谱幅值。
S109:逐个重构多个目标频谱幅值和频谱相位,生成多个目标语音。
将多个估计幅值掩蔽与混合语音的频谱幅值相乘获取多个目标频谱幅值。将多个目标频谱幅值分别和目标频谱相位结合,通过短时傅里叶逆变换和帧重叠恢复得到多个目标语音。
具体地,将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型输出的每路语音对应一个估计幅值掩蔽,然后将估计幅值掩蔽与最初混合语音的幅度谱相乘,再与相位谱结合经短时傅里叶逆变换和重叠帧的恢复后得到每一个说话人对应的目标语音分离结果。
相比现有的单通道语音分离算法,本发明能得到每一个说话人对应的目标语音分离结果,快速判断出混合语音中的说话人数目,提高分离的准确度,降低语音的失真率,有效地提高了分离出每一个说话人对应的目标语音的可懂度。
生成式对抗网络模型的训练具体过程如下。
S105包括:随机初始化生成式对抗网络模型的参数。神经网络模型的训练阶段包括前向传播阶段和反向传播阶段。
前向传播阶段包括初始化生成式对抗网络模型中神经元节点之间的权重和偏置。反向传播阶段中,计算神经网络模型的损失函数。通过梯度下降法更新生成式对抗网络模型的参数。
生成式对抗网络整体上包含两部分结构分别为生成器和分辨器。因此,生成式对抗网络使用梯度下降法对模型参数进行交替更新。生成式对抗网络的实际使用过程中只包括生成器部分。
构建生成式对抗网络的生成器和分辨器。生成器能够根据单个训练数据输出多个数据。生成器包括输入层、三个隐藏层和输出层。分辨器包括输入层、两个隐藏层和输出层。
生成器的参数更新后固定设定的一段时间,计算分辨器输出层损失函数的梯度。根据分辨器的输出层损失函数的梯度,计算每一层所对应的梯度。更新分辨器的权重和偏置。
固定分辨器的权重和偏置,计算生成器输出层损失函数的梯度。根据生成器输出层损失函数的梯度,计算生成器每一层所对应的梯度,更新生成器的权重和偏置,整个过程重复多次,以使所述生成器和分辨器的参数交替更新。
公式(1)为分辨器训练时的代价函数,公式(2)为生成器训练时的代价函数。
Figure BDA0002711372880000071
Figure BDA0002711372880000072
其中,G(z)是生成器输出的估计频谱。D是一个用来判断生成器的输出是真还是假的分类器。
生成器的输入层为深度嵌入式特征提取层,深度嵌入式特征提取层能够提取混合语音的幅度谱以生成深度嵌入式特征。
深度嵌入式特征提取层的损失函数如下所示。
Figure BDA0002711372880000073
其中,V表示深度嵌入式特征,Y表示理想幅值掩蔽,|| ||F为弗罗贝尼乌斯范数,T为转置。
生成器输出层的损失函数为:
Figure BDA0002711372880000074
其中,|Y|为混合语音的幅度谱,|X|i为第i个说话人幅度谱,M~为理想幅值掩蔽,i=1,2,…,N。
本发明另一实施例还提供一种针对多说话人的单通道语音分离装置,包括:
样本集获取模块,其被配置为获取训练语音样本集,训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本。
第一处理模块,其被配置为对训练语音样本的时域信号采样,分别获取混合语音样本时域信号和每个说话人的语音样本时域信号。
第二处理模块,其被配置为对混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱,对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱。
获取模块,其被配置为根据混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,将合并的多个理想幅值掩蔽作为训练目标。
模型训练模块,其被配置为将混合语音的幅度谱和训练目标输入生成式对抗网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至生成式对抗网络模型收敛。
接收模块,其被配置为麦克风接收端接收待分离的混合语音。获取混合语音的频谱幅值和频谱相位。
估计幅值掩蔽获取模块,其被配置为将混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取生成式对抗网络模型的多个估计幅值掩蔽。
目标频谱幅值获取模块,其被配置为根据多个估计幅值掩蔽和混合语音的频谱幅值,获取多个目标频谱幅值。
目标语音生模块,其被配置为逐个重构多个目标频谱幅值和频谱相位,生成多个目标语音。
本实施例的针对多说话人的单通道语音分离装置与上述针对多说话人的单通道语音分离装置方法为同一发明构思,具体参见上述针对多说话人的单通道语音分离装置方法的具体说明,此处不再赘述。

Claims (7)

1.一种针对多说话人的单通道语音分离方法,其特征在于,包括:
S101:获取训练语音样本集,所述训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本;
S102:对所述训练语音样本的时域信号采样,分别获取混合语音样本时域信号和每个说话人的语音样本时域信号;
S103:对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱,对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱;
S104:根据所述混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,将合并的多个所述理想幅值掩蔽作为训练目标;
S105:将所述混合语音的幅度谱和所述训练目标输入生成式对抗网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至所述生成式对抗网络模型收敛;
S106:麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
S107:将所述混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取所述生成式对抗网络模型的多个估计幅值掩蔽;
S108:根据多个所述估计幅值掩蔽和所述混合语音的频谱幅值,获取多个目标频谱幅值;
S109:逐个重构多个所述目标频谱幅值和所述频谱相位,生成多个目标语音。
2.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,所述S104中根据所述混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,包括:
对所述混合语音和每个说话人的语音样本的幅度谱归一化处理;根据归一化处理后的混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽。
3.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,所述S105包括:
随机初始化所述生成式对抗网络模型的参数;
所述对抗网络模型的训练阶段包括前向传播阶段和反向传播阶段;
所述前向传播阶段包括初始化所述生成式对抗网络模型中神经元节点之间的权重和偏置;
所述反向传播阶段中,计算神经网络模型的损失函数;通过梯度下降法更新所述生成式对抗网络模型的参数。
4.根据权利要求3所述的针对多说话人的单通道语音分离方法,其特征在于,包括:
构建生成式对抗网络的生成器和分辨器;所述生成器能够根据单个训练数据输出多个数据;所述生成器包括输入层、三个隐藏层和输出层;所述分辨器包括输入层、两个隐藏层和输出层;
所述生成器的参数更新后固定设定的一段时间,计算所述分辨器输出层损失函数的梯度;
根据所述分辨器的输出层损失函数的梯度,计算每一层所对应的梯度;更新所述分辨器的权重和偏置;
固定所述分辨器的权重和偏置,计算所述生成器输出层损失函数的梯度;
根据所述生成器输出层损失函数的梯度,计算所述生成器每一层所对应的梯度,更新所述生成器的权重和偏置,整个过程重复多次,以使所述生成器和分辨器的参数交替更新。
5.根据权利要求4所述的针对多说话人的单通道语音分离方法,其特征在于,所述生成器的输入层为深度嵌入式特征提取层,所述深度嵌入式特征提取层能够提取所述混合语音的幅度谱以生成深度嵌入式特征;
所述深度嵌入式特征提取层的损失函数如下所示;
Figure FDA0003930314740000031
其中,V表示深度嵌入式特征,Y表示理想幅值掩蔽,|| ||F为弗罗贝尼乌斯范数,T为转置。
6.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,S109中逐个重构多个所述目标频谱幅值和所述频谱相位,生成多个目标语音,包括:
将多个所述估计幅值掩蔽与所述混合语音的频谱幅值相乘获取多个目标频谱幅值;
将多个所述目标频谱幅值分别和目标频谱相位结合,通过短时傅里叶逆变换和帧重叠恢复得到多个目标语音。
7.一种针对多说话人的单通道语音分离装置,其特征在于,包括:
样本集获取模块,其被配置为获取训练语音样本集,所述训练语音样本集中单个训练语音样本包括至少两个说话人的混合语音样本和每个说话人的语音样本;
第一处理模块,其被配置为对所述训练语音样本的时域信号采样,分别获取混合语音样本时域信号和每个说话人的语音样本时域信号;
第二处理模块,其被配置为对所述混合语音样本时域信号加窗分帧和短时傅里叶变换得到混合语音的幅度谱,对每个说话人的语音样本时域信号加窗分帧和短时傅里叶变换得到幅度谱;
获取模块,其被配置为根据所述混合语音样本和每个说话人的语音样本的幅度谱,获取每个说话人的语音样本分别对应的一个理想幅值掩蔽,将合并的多个所述理想幅值掩蔽作为训练目标;
模型训练模块,其被配置为将所述混合语音的幅度谱和所述训练目标输入生成式对抗网络模型中进行当次有监督训练,完成当次有监督训练后继续进行下一次训练,直至所述生成式对抗网络模型收敛;
接收模块,其被配置为麦克风接收端接收待分离的混合语音;获取所述混合语音的频谱幅值和频谱相位;
估计幅值掩蔽获取模块,其被配置为将所述混合语音的频谱幅值输入至训练好的生成式对抗网络模型中,获取所述生成式对抗网络模型的多个估计幅值掩蔽;
目标频谱幅值获取模块,其被配置为根据多个所述估计幅值掩蔽和所述混合语音的频谱幅值,获取多个目标频谱幅值;
目标语音生模块,其被配置为逐个重构多个所述目标频谱幅值和所述频谱相位,生成多个目标语音。
CN202011057899.2A 2020-09-29 2020-09-29 一种针对多说话人的单通道语音分离方法和装置 Active CN112331218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011057899.2A CN112331218B (zh) 2020-09-29 2020-09-29 一种针对多说话人的单通道语音分离方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011057899.2A CN112331218B (zh) 2020-09-29 2020-09-29 一种针对多说话人的单通道语音分离方法和装置

Publications (2)

Publication Number Publication Date
CN112331218A CN112331218A (zh) 2021-02-05
CN112331218B true CN112331218B (zh) 2023-05-05

Family

ID=74313371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011057899.2A Active CN112331218B (zh) 2020-09-29 2020-09-29 一种针对多说话人的单通道语音分离方法和装置

Country Status (1)

Country Link
CN (1) CN112331218B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053407A (zh) * 2021-02-06 2021-06-29 南京蕴智科技有限公司 一种针对多说话人的单通道语音分离方法及系统
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104167214B (zh) * 2014-08-20 2017-06-13 电子科技大学 一种双麦克风盲声源分离的快速源信号重建方法
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN110164469B (zh) * 2018-08-09 2023-03-10 腾讯科技(深圳)有限公司 一种多人语音的分离方法和装置
CN109584903B (zh) * 2018-12-29 2021-02-12 中国科学院声学研究所 一种基于深度学习的多人语音分离方法
CN110459240B (zh) * 2019-08-12 2021-01-12 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN111128211B (zh) * 2019-12-02 2022-04-12 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111128197B (zh) * 2019-12-25 2022-05-13 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法

Also Published As

Publication number Publication date
CN112331218A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN112331218B (zh) 一种针对多说话人的单通道语音分离方法和装置
EP3776535B1 (en) Multi-microphone speech separation
Basu et al. Emotion recognition from speech using convolutional neural network with recurrent neural network architecture
Zhang et al. A speech enhancement algorithm by iterating single-and multi-microphone processing and its application to robust ASR
CN111899756B (zh) 一种单通道语音分离方法和装置
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Li et al. Sams-net: A sliced attention-based neural network for music source separation
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
Do et al. Speech source separation using variational autoencoder and bandpass filter
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
Haridas et al. A novel approach to improve the speech intelligibility using fractional delta-amplitude modulation spectrogram
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Wang et al. Enhanced Spectral Features for Distortion-Independent Acoustic Modeling.
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
Gul et al. Integration of deep learning with expectation maximization for spatial cue-based speech separation in reverberant conditions
Devi et al. Automatic speech emotion and speaker recognition based on hybrid gmm and ffbnn
Patel et al. Optimize approach to voice recognition using iot
Hamsa et al. Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG
Agrawal et al. Unsupervised modulation filter learning for noise-robust speech recognition
Sose et al. Sound Source Separation Using Neural Network
Shareef et al. Comparison between features extraction techniques for impairments arabic speech
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
Chen et al. Overlapped Speech Detection Based on Spectral and Spatial Feature Fusion.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Shi Huiyu

Inventor after: OuYang Peng

Inventor before: Shi Huiyu

Inventor before: OuYang Peng

Inventor before: Yin Shouyi

CB03 Change of inventor or designer information