CN109830245B - 一种基于波束成形的多说话者语音分离方法及系统 - Google Patents

一种基于波束成形的多说话者语音分离方法及系统 Download PDF

Info

Publication number
CN109830245B
CN109830245B CN201910001150.7A CN201910001150A CN109830245B CN 109830245 B CN109830245 B CN 109830245B CN 201910001150 A CN201910001150 A CN 201910001150A CN 109830245 B CN109830245 B CN 109830245B
Authority
CN
China
Prior art keywords
speaker
mixed voice
spectrum
voice
mixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910001150.7A
Other languages
English (en)
Other versions
CN109830245A (zh
Inventor
曲天书
吴玺宏
彭超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910001150.7A priority Critical patent/CN109830245B/zh
Publication of CN109830245A publication Critical patent/CN109830245A/zh
Application granted granted Critical
Publication of CN109830245B publication Critical patent/CN109830245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于波束成形的多说话者语音分离方法及系统。本方法为:采集混合语音信号,得到多通道的多说话者混合语音信号并对其进行扫描,得到MUSIC能量谱;从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;对S个波束分别进行增强,得到S个方向上的混合语音;对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱并将其分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。

Description

一种基于波束成形的多说话者语音分离方法及系统
技术领域
本发明属于语音分离技术领域,涉及波束成形和深度神经网络模型,具体涉及一种基于波束成形的语音分离方法及系统。
背景技术
在一个具有噪声或者多说话人等干扰的复杂声学场景中,拾取出目标说话人的语音一直是语音领域的难题,这个问题被称作“鸡尾酒会问题”。正常人得益于自身听觉上的注意机制,将注意力聚焦在混合声音中的目标声音,从而能在这种复杂环境下进行对话交流。然而对于机器来说,“鸡尾酒会问题”却是一个困难的任务。尽管现在自动语音识别的识别率在干净语音下能够做到接近甚至超过常人,但是在含有多个说话人的语音识别中,自动语音识别的识别率会大幅度的下降。而这首先要解决的一个问题就是多说话人语音的分离。
传统的方法比如隐马尔科夫模型(HMM)、非负矩阵分解(NMF)、独立成分分析(ICA)等等方法已经很早被提出来解决多说话人语音分离的问题,但是效果并不是那么理想。最近几年,一种叫做听觉计算场景分析的方法(CASA,Computational Auditory SceneAnalysis)被提出来,在语音分离方便取得了不错的效果。CASA模仿人类的听觉感知机理,增强目标声音而抑制其余干扰。与此同时,随着深度学习技术的发展,它已经成功应用到很多领域,尤其是语音领域,比如语音识别、去混响和增强。
基于深度学习的有监督的多说话人语音分离的思路主要有两类。
一类是深度聚类(Deep Clustering)和深度吸引子网络(Deep AttractorNetwork),其主要思想是对混合语音幅度谱图的时频单元进行嵌入(Embedding)训练,将每一个时频单元映射到一个高维向量,然后对这些时频向量的高维表示进行聚类,各聚类中心代表着分离语音的某个独立成分,接着生成时频掩模,得出分离语音的谱估计,最后使用混合语音的相位谱恢复语音的时序信号。该策略假设每个时频点只有一个源占主导地位,并且属于同一源的时频点在嵌入空间中彼此靠近。因此,通过使用聚类算法,可以分离多个讲话者的语音。但是,每个时频点可以同时属于不同的目标。同时,两者还需要额外的聚类算法来处理,相对较复杂。
另外一种思路是置换不变训练方法(PIT,Permutation Invariant Training)。其基本思路就是首先通过短时傅里叶变换将时序信号转换为一个具有上下文信息的多帧幅度谱,通过DNN、CNN或者LSTM的深度模型,得到多个说话人语音的时频掩模(Mask)的估计,掩模分别乘上原混合信号的谱图就得到对应说话人幅度谱的估计,其分别与真实说话人的幅度谱做均方误差,然后加权求和得到总的均方误差。而在进行预测时,输入混合语音的幅度谱得到分离语音幅度谱的估计后,使用混合语音的相位谱一起恢复分离语音的时域表示。但这里边就存在一个被称作“标签置换”的问题。举例来说,对于给定两个说话人幅度谱的标签[s1,s2],而网络输出的幅度谱估计为[a1,a2],在网络计算损失值的时候,可以用[s1,s2]去对应[a1,a2],也可以用[s2,s1]去对应[a1,a2],这就存在一个标签以何种排列去对应模型输出的问题。而PIT训练方法则每次在输出的幅度谱估计和给定的标签幅度谱信息之间两两计算一个均方误差,最终模型只按照最小均方误差的那一个排列方式去进行优化训练。但是从理论上来说,匹配计算的时间复杂度是阶乘级的。
然而,两种思路及其以之为基础的多通道分离方法都存在两个问题,一是说话人越多,分离越难,分离后的语音的可懂度也越差;而且它们都必须提前人为设置说话人数目或者说话人数目的最大值,即使后来有改进的方法,在未知说话人的分离上也表现得较差。
发明内容
针对现有技术存在的技术问题,本发明提出了一种基于波束成形和深度神经网络的多说话者语音分离方法及系统,本发明首先通过声源定位算法估计说话者的数量,然后在空域中利用波束形成来增强目标语音。在时频域上提取完目标说话者的短时傅里叶特征后,使用监督的深度模型恢复出目标说话者的语音,从而完成多个说话者的语音分离。
本发明的重要创新之处在于它将空间信息引入到分离方法中,将稀疏假设从时频域扩展到空时频域;同时此系统没有必要事先知道说话人的数量,而是通过多重信号分类(MUSIC,Multiple Signal Classification)算法的能谱中的峰值数来获知。
本发明的技术方案为:
一种基于波束成形的多说话者语音分离方法,其步骤包括:
1)首先,利用麦克风阵列采集混合语音信号,得到多通道的多说话者混合语音信号;
2)在得到多通道数据后,使用MUSIC算法的空间谱函数在所有的方向上进行扫描,得到MUSIC能量谱;
3)利用步骤二得到的MUSIC能量谱可获得多个峰值,假设为S,可以判断混合音频是S个说话者语音的混合,也就是该多通道音频数据是S个说话者同时说话采集得到的;
4)根据步骤三得到的S个方向,使用最小方差无失真响应(MVDR,MinimumVariance Distortionless Response)波束形成器在S个波束上进行增强,得到S个方向上的混合语音,对于每一个混合语音,存在一个能量最大的目标说话人,其余是能量较低的其他说话人;
5)对得到的S个方向上的混合语音分别进行短时傅里叶变换(STFT,Short TimeFourier Transform),获得S个目标说话者方向混合语音的短时傅里叶幅度谱;
6)基于短时傅里叶幅度谱利用深度神经网络强大的非线性建模能力估计波束增强语音的相位感知掩模(PSM,Phase Sensitive Mask);
7)最后,通过估计的掩模与混合语音的幅度谱的逐元素相乘来获得S个目标说话者的幅度谱,并利用步骤3)得到的S个方向上混合语音的相位谱通过逆短时傅立叶变换恢复目标说话者的时域信号。
本发明提出的基于波束成形的多说话者语音分离技术的基本框架如图1所示,该方法是一种多通道方法,其中主要包括以下几个部分:
多通道数据获取单元,用于采集混合语音信号,得到多通道的多说话者混合语音信号;
说话者数目获知单元,用于使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;并从该MUSIC能量谱中获得S个峰值,即S个目标说话者;其中每一峰值对应一波束方向;
波束增强单元,用于对确定的S个波束分别进行增强,得到S个方向上的混合语音,并计算其短时傅里叶幅度谱;
PSM掩模估计单元,用于利用深度神经网络对各短时傅里叶幅度谱分别进行估计,得到每一目标说话者对应的相位感知掩模;
目标说话人语音恢复单元,用于将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
与现有技术相比,本发明的积极效果为:
本发明充分利用了时间、频率和空间域的信息,同时不需要提前人为设定说话人数目或者最大值,克服了现有分离方法依赖说话人数量这一先验知识的不足,理论上来说能够较好的分离任意多个混合说话人语音。
附图说明
图1为本发明提出的提出的多说话人语音分离框架;
图2为本发明所用的深度神经网络结构;
图3为本发明中多通道数据采集所用的麦克风阵列。
具体实施方式
下面参照本发明的附图,更详细地描述本发明的最佳实施例。图1所示为本发明提出的基于波束成形的多说话人语音分离框图,本发明方法的具体实现步骤包括多通道数据获取、说话人数目获知、波束增强、PSM掩模估计和目标说话人语音恢复。各步骤的具体实现过程如下:
1.多通道数据获取
设计麦克风阵列,可以是线阵等一维麦克风阵列,可以是等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形/矩形面阵等二维麦克风阵列,也可以是四面体阵、正方体阵、长方体阵、球型阵等三维麦克风阵列。利用这些麦克风阵列采集多说话人的混合语音数据。
2.说话人数目获知
在获得多通道混合语音数据后,通过MUSIC谱搜索峰值个数,具体算法实现如下:
假设第M个阵元的输出信号为:
Figure BDA0001933694130000041
其中,D为声源数量,aMk)是第m个麦克风对第k个信号源的响应函数,Sk(t)是第k个信号源在麦克风阵列上产生的信号,nM(t)为噪声响应。矩阵形式表达为:
X=AS+N
对阵列输出作相关处理,得到其协方差矩阵:
Rx=E[XXH]
假设信号与噪声互不相关、且噪声为零均值白噪声,可以得到:
Rx=E[(AS+N)(AS+N)H]
=AE[SSH]AH+E[NNH]
=ARsAH+RN
其中Rs=E[SSH]称为信号的相关矩阵,RN=σ2I是噪声的相关矩阵,σ2是噪声功率,I是M*M阶的单位矩阵。
将矩阵Rx的特征值进行从小到大排列,其中D个较大的特征值对应于信号,M-D个较小的特征值对应于噪声。矩阵Rx的属于这些特征值的特征向量也分别对应于信号与噪声,因此,可以把Rx的特征值(特征向量)划分为信号特征值(特征向量)与噪声特征值(特征向量)。
设λi是矩阵Rx的第i个特征向量,vi是与λi对应的特征向量,则有:
Rxvi=λivi
再设λi=σ2是Rx的最小特征值,则:
Rxvi=σ2vi,i=D+1,D+2,...,M
将Rx=ARsAH2I带入上式可得:
σ2vi=(ARsAH2I)vi
将上式右边展开与左边比较可得:
ARsAHvi=0
因为AHA是D*D维的满秩矩阵,(AHA)-1存在;而Rs -1同样存在,则上式两边分别乘以Rs -1(AHA)-1AH后变成:
Figure BDA0001933694130000051
于是有:
AHvi=0,i=D+1,D+2,...,M
上式表明噪声特征值所对应的特征向量vi与矩阵A的列向量正交。用各噪声特征向量为列,构造一个噪声矩阵En
En=[vD+1,vD+2,...,vM]
定义MUSIC空间谱Pmusic(θ):
Figure BDA0001933694130000052
该式中分母是噪声向量和噪声矩阵的内积,当α(θ)和En的各列正交时,该分母为0,但由于噪声的存在它实际上为一个最小值,因此Pmusic(θ)有一个尖峰。由该式,使θ变化,通过寻找峰值来得到波达方向的估计值。最后有多少个峰值就有多少个说话人所在的方向。
3.波束增强
在获得说话人数目及其所在的方向后,使用MVDR波束成形来增强相应方向上的目标说话人语音,在每个波束上得到一个混合说话人语音,其中存在一个能量最大的目标说话人。MVDR波束形成算法计算如下:
MVDR波束形成器的目标是在不使目标信号失真的情况下最小化噪声能量:
Figure BDA0001933694130000053
其中W是阵列的权重向量,Rni是噪声和干扰的方差矩阵,则最佳权重向量是:
Figure BDA0001933694130000054
最后,目标说话人s的增强信号是:
Figure BDA0001933694130000061
其中|Xs(t,f)|,|Y(t,f)|分别表示单通道目标说话人增强后的和原多通道混合语音的短时傅里叶幅度谱。
4.PSM掩模估计
在得到目标说话人的短时傅里叶幅度谱|Xs(t,f)|后,将其馈送至深度神经网络中,其中深度神经网络本发明使用三层BLSTM和一层全连接层,如图2所示。最后深度神经网络估计出目标说话人语音的PSM掩模。PSM是一种考虑了源信号和混合信号之间相位差的掩模,其定义为:
Figure BDA0001933694130000062
其中θy和θs分别表示混合信号和源信号的相位信息,|Xs|,|Y|分别表示目标说话人和混合语音的幅度谱。这里要说明的是,虽然PSM考虑了相位信息,但是并不是说模型能够估计出源信号的相位,而是在幅度谱上模型估计的是源信号幅度在混合信号方向上的投影,最后预测时仍然使用的是混合信号的相位信息。
由于深度神经网络的估计是直接对掩膜进行估计,因而模型训练的目标是使估计掩膜与目标掩膜之间尽可能的接近,故在使用PSM时,神经网络训练时的损失函数被修改定义为::
Figure BDA0001933694130000063
其中B是时频单元的个数,而对于某些静音片段Xs(t,f)=0,Y(t,f)=0的情况,Ms(t,f)没有定义,因此常常将损失函数修正为:
Figure BDA0001933694130000064
而在使用PSM时,损失函数被定义为:
Figure BDA0001933694130000065
式中,
Figure BDA0001933694130000066
表示估计的掩模,
Figure BDA0001933694130000067
表示点乘运算,|Xs|,|Y|分别表示目标说话人和混合语音的幅度谱。
5.目标说话人语音恢复
最后,通过估计的掩模与混合语音的幅度谱的相乘来获得目标说话者的幅度谱,并利用混合语音的相位谱通过逆短时傅立叶变换恢复目标说话人的时域信号。
Figure BDA0001933694130000071
其中φ是混合语音的相位谱。
仿真数据与结果
实验仿真数据使用的是华尔街日报(WSJ0)语料库。我们创建了2个、3个和4个说话人的单通道混合语音数据集,每个说话人的数据集又被分成了训练集(20000条,约30小时)、验证集(5000条,约10小时)和测试集(3000条,约5小时)。训练集(tr)和验证集(cv)都是从si_tr_s文件夹中音频文件随机混合产生,测试集(tt)则是从剩下两个文件夹中的音频文件随机混合产生。所有音频数据都被下采样到8kHz,以降低计算和内存成本,且0dB随机混合。
1.深度神经网络结构
本实验是双向长短期记忆网络(BLSTM),BLSTM一共三层,每层分别有496个前向和后向节点。同时使用Adam学习算法,初始学习率为0.0005,dropout比率为0.8。网络训练时输入特征是语音混合的幅度谱,短时傅里叶(STFT)窗口长度为32ms,窗移为16ms。在比较所有分离方法的分离性能时,所有参数均设置一致。
2.麦克风阵列及说话人候选位置
本实验直接利用采样点延迟的方式生成多通道仿真数据,具体参数如图3所示。麦克风阵列式一个带有6个传感器的环形均匀阵列,阵列半径是0.1m,一共有8个候选位置,从-180度到180度,相邻位置之间的角度是45度,且位于距离麦克风阵列中心2m的圆弧上。麦克风阵列中心和说话人位于同一高度。
3.评估准则
实验结果评估利用的是信号失真比(SDR,Source to Distortion Ratio),短时目标可懂度(STOI,Short Time Objective Intelligibility)和语音质量感知评估(PESQ,Perceptual Evaluation of Speech Quality),SDR越高表示分离效果越好,后两个是语音可懂度的指标,越高表示分离后的语音可懂度越高。
4.对比方法
本实验的基线方法是单通道PIT和多通道PIT。单通道和本实验方法输入给深度神经网络的都是目标说话人语音的幅度谱。对于多通道PIT而言,输入特征除了幅度谱信息外,还加入了空间特征信息,这里使用的是麦克风间相位差信息(IPD)。使用第一个麦克风作为参考,以下IPD作为模型训练的空间特征:
cosIPD(t,f,p,q)=cos(∠xt,f,p-∠xt,f,q)
5.实验结果
在两个说话人的数据集上,我们探究了不同性别组合对于分离效果的影响,同时还比较了另外两种分离方法,分别是单通道和多通道的置换不变训练方法,如表1所示。两说话人混合的单通道和多通道数据原来的SDR是0.1481dB。从表1中可以看到,由于男生和女生声音特质的不同,异性说话人混合音频的分离效果比同性说话人混合音频的分离效果好。同时,可以看到,本发明提出的语音分离系统除了在异性混合时的SDR提升(SDR Imp.)比单通道PIT低以外,其分离的效果(SDR Imp.)和语音可懂度(STOI和PESQ)均比单通道和多通道PIT方法要好。
表1本发明所提出的方法与另外两种分离方法在两个说话人数据集上分离表现
Figure BDA0001933694130000081
为了进一步验证本发明提出的多说话人语音分离系统的优越性,我们又在三个和四个说话人上做了同样的实验,如表2所示。三个和四个说话人数据集的原始SDR(SDROri.)分别是-2.8122dB和-4.5772dB。可以看到,随着说话人数目的增加,单通道和多通道的PIT方法分离越困难,分离的效果越差,而本发明的SDR Imp.却能一直保持在10dB左右。对比单通道和多通道的PIT方法,单通道PIT在3个和4个说话人上的SDR Imp.为6.45dB和5.20dB,而多通道PIT可以达到7.70dB和6.03dB,可以看出空间特征有助于语音分离。与此同时,本发明提出的多说话人语音分离系统的STOI和PESQ两个语音可懂度指标也均比PIT要好,这再一次证明了本文提出的语音分离系统的优越性。
表2本发明所提出的方法与另外两种分离方法在3/4个说话人数据集上分离表现
Figure BDA0001933694130000082
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。

Claims (10)

1.一种基于波束成形的多说话者语音分离方法,其步骤包括:
1)采集混合语音信号,得到多通道的多说话者混合语音信号;
2)使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;
3)从该MUSIC能量谱中获得S个峰值,其中每一峰值对应一波束方向;
4)对步骤3)确定的S个波束分别进行增强,得到S个方向上的混合语音;
5)对每一方向对应的混合语音进行短时傅里叶变换,获得S个目标说话者语音的短时傅里叶幅度谱;
6)将各短时傅里叶幅度谱分别输入深度神经网络,估计每一目标说话者对应的相位感知掩模;
7)将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
2.如权利要求1所述的方法,其特征在于,使用最小方差无失真响应波束形成器对步骤3)确定的S个波束进行增强,得到S个方向上的混合语音。
3.如权利要求1所述的方法,其特征在于,所述深度神经网络的损失函数为
Figure FDA0002605544630000011
Figure FDA0002605544630000012
其中,B是时频单元的个数,
Figure FDA0002605544630000013
表示估计的掩模,⊙表示点乘运算,|Xs|、|Y|分别表示目标说话者语音的幅度谱和混合语音的幅度谱。
4.如权利要求3所述的方法,其特征在于,所述深度神经网络包括依次连接的三层BLSTM和一层全连接层。
5.如权利要求1所述的方法,其特征在于,利用麦克风阵列采集混合语音信号,得到多通道的多说话人混合语音信号。
6.如权利要求5所述的方法,其特征在于,所述麦克风阵列为一维麦克风阵列、二维麦克风阵列或三维麦克风阵列。
7.一种基于波束成形的多说话者语音分离系统,其特征在于,包括
多通道数据获取单元,用于采集混合语音信号,得到多通道的多说话者混合语音信号;
说话者数目获知单元,用于使用MUSIC算法的空间谱函数在所有的方向上对该多说话人混合语音信号进行扫描,得到MUSIC能量谱;并从该MUSIC能量谱中获得S个峰值,即S个目标说话者;其中每一峰值对应一波束方向;
波束增强单元,用于对确定的S个波束分别进行增强,得到S个方向上的混合语音,并计算其短时傅里叶幅度谱;
相位感知掩模估计单元,用于利用深度神经网络对各短时傅里叶幅度谱分别进行估计,得到每一目标说话者对应的相位感知掩模;
目标说话人语音恢复单元,用于将每一目标说话者的相位感知掩模与对应混合语音的幅度谱进行逐元素相乘,获得该目标说话者的幅度谱,并利用对应混合语音的相位谱通过逆短时傅立叶变换恢复出该目标说话者的时域信号。
8.如权利要求7所述的系统,其特征在于,使用最小方差无失真响应波束形成器对确定的S个波束进行增强,得到S个方向上的混合语音。
9.如权利要求7所述的系统,其特征在于,所述深度神经网络包括依次连接的三层BLSTM和一层全连接层;所述深度神经网络的损失函数为
Figure FDA0002605544630000021
Figure FDA0002605544630000022
其中,B是时频单元的个数,
Figure FDA0002605544630000023
表示估计的掩模,⊙表示点乘运算,|Xs|、|Y|分别表示目标说话者语音的幅度谱和混合语音的幅度谱。
10.如权利要求7所述的系统,其特征在于,所述多通道数据获取单元利用麦克风阵列采集混合语音信号,得到多通道的多说话人混合语音信号;所述麦克风阵列为一维麦克风阵列、二维麦克风阵列或三维麦克风阵列。
CN201910001150.7A 2019-01-02 2019-01-02 一种基于波束成形的多说话者语音分离方法及系统 Active CN109830245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910001150.7A CN109830245B (zh) 2019-01-02 2019-01-02 一种基于波束成形的多说话者语音分离方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910001150.7A CN109830245B (zh) 2019-01-02 2019-01-02 一种基于波束成形的多说话者语音分离方法及系统

Publications (2)

Publication Number Publication Date
CN109830245A CN109830245A (zh) 2019-05-31
CN109830245B true CN109830245B (zh) 2021-03-12

Family

ID=66861419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910001150.7A Active CN109830245B (zh) 2019-01-02 2019-01-02 一种基于波束成形的多说话者语音分离方法及系统

Country Status (1)

Country Link
CN (1) CN109830245B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111696572B (zh) * 2019-03-13 2023-07-18 富士通株式会社 语音分离装置、方法及介质
CN110428848B (zh) * 2019-06-20 2021-10-29 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN110473564B (zh) * 2019-07-10 2021-09-24 西北工业大学深圳研究院 一种基于深度波束形成的多通道语音增强方法
CN110392273B (zh) * 2019-07-16 2023-08-08 北京达佳互联信息技术有限公司 音视频处理的方法、装置、电子设备及存储介质
CN110400575B (zh) 2019-07-24 2024-03-29 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
CN110491409B (zh) * 2019-08-09 2021-09-24 腾讯科技(深圳)有限公司 混合语音信号的分离方法、装置、存储介质及电子装置
CN110400572B (zh) * 2019-08-12 2021-10-12 思必驰科技股份有限公司 音频增强方法及系统
CN110459240B (zh) * 2019-08-12 2021-01-12 新疆大学 基于卷积神经网络和深度聚类的多说话人语音分离方法
CN110634502B (zh) * 2019-09-06 2022-02-11 南京邮电大学 基于深度神经网络的单通道语音分离算法
CN111128211B (zh) * 2019-12-02 2022-04-12 云知声智能科技股份有限公司 一种语音分离方法及装置
CN110970053B (zh) * 2019-12-04 2022-03-15 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN112951264B (zh) * 2019-12-10 2022-05-17 中国科学院声学研究所 一种基于混合式概率模型的多通道声源分离方法
CN111179959B (zh) * 2020-01-06 2022-08-05 北京大学 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN111370031B (zh) * 2020-02-20 2023-05-05 厦门快商通科技股份有限公司 语音分离方法、系统、移动终端及存储介质
CN111227820A (zh) * 2020-02-21 2020-06-05 孙磊 多维通道传感器的胎心检测传感器矩阵、胎心检测设备
CN111317500B (zh) * 2020-02-21 2021-05-07 孙磊 基于胎心胎动信号的智能穿戴系统
CN111265243A (zh) * 2020-02-21 2020-06-12 孙磊 基于多维通道传感器的胎儿胎心监护系统、设备及方法
CN111227819B (zh) * 2020-02-21 2021-05-07 孙磊 多维通道传感器的胎心检测传感器矩阵的信号处理方法
CN111265239A (zh) * 2020-02-21 2020-06-12 孙磊 基于邻近计算的胎心检测信号处理及信息提取系统及方法
CN111265242A (zh) * 2020-02-21 2020-06-12 孙磊 胎儿胎心监护系统、设备及方法
CN111265238A (zh) * 2020-02-21 2020-06-12 孙磊 基于多维通道信号处理的胎心监护系统、设备及方法
CN111265240A (zh) * 2020-02-21 2020-06-12 孙磊 胎心监护仪及胎心测量方法
CN111265241B (zh) * 2020-02-21 2021-10-22 孙磊 多维通道传感器的胎儿胎心数据可视化方法及系统
CN111265237A (zh) * 2020-02-21 2020-06-12 孙磊 基于邻近计算的胎儿胎心监护系统、设备及方法
CN111429905B (zh) * 2020-03-23 2024-06-07 北京声智科技有限公司 语音信号处理方法、装置、语音智能电梯、介质和设备
CN111862987B (zh) 2020-07-20 2021-12-28 北京百度网讯科技有限公司 语音识别方法和装置
CN111883168B (zh) * 2020-08-04 2023-12-22 上海明略人工智能(集团)有限公司 一种语音处理方法及装置
CN112116920B (zh) * 2020-08-10 2022-08-05 北京大学 一种说话人数未知的多通道语音分离方法
CN111986690A (zh) * 2020-08-27 2020-11-24 三星电子(中国)研发中心 一种视频的语音降噪方法和装置
CN112259119B (zh) * 2020-10-19 2021-11-16 深圳市策慧科技有限公司 基于堆叠沙漏网络的音乐源分离方法
CN112562715A (zh) * 2020-11-27 2021-03-26 上海容大数字技术有限公司 一种保险双录场景语音角色分离平板系统
CN113571082B (zh) * 2021-01-21 2024-06-14 腾讯科技(深圳)有限公司 语音通话的控制方法、装置、计算机可读介质及电子设备
CN112634935B (zh) * 2021-03-10 2021-06-11 北京世纪好未来教育科技有限公司 语音分离方法、装置、电子设备和可读存储介质
CN113380262B (zh) * 2021-05-13 2022-10-18 重庆邮电大学 一种基于注意力机制与扰动感知的声音分离方法
CN113257271B (zh) * 2021-05-17 2023-01-10 浙江大学 多发声者发声运动特征波形的获取方法及装置、电子设备
CN113314136A (zh) * 2021-05-27 2021-08-27 西安电子科技大学 基于定向降噪与干声提取技术的语音优化方法
CN113644947A (zh) * 2021-10-14 2021-11-12 西南交通大学 一种自适应波束形成方法、装置、设备及可读存储介质
CN114114140B (zh) * 2021-10-26 2024-05-17 深圳大学 阵列信号doa估计方法、装置、设备及可读存储介质
CN113903355B (zh) * 2021-12-09 2022-03-01 北京世纪好未来教育科技有限公司 语音获取方法、装置、电子设备及存储介质
CN113936687B (zh) * 2021-12-17 2022-03-15 北京睿科伦智能科技有限公司 一种实时语音分离语音转写的方法
CN114220453B (zh) * 2022-01-12 2022-08-16 中国科学院声学研究所 基于频域卷积传递函数的多通道非负矩阵分解方法及系统
CN114464206A (zh) * 2022-04-11 2022-05-10 中国人民解放军空军预警学院 一种单通道盲源分离方法及系统
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN115171716B (zh) * 2022-06-14 2024-04-19 武汉大学 一种基于空间特征聚类的连续语音分离方法、系统及电子设备
CN115691541B (zh) * 2022-12-27 2023-03-21 深圳元象信息科技有限公司 语音分离方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009218663A (ja) * 2008-03-07 2009-09-24 Sanyo Electric Co Ltd 音響信号処理装置
JP2012215606A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音源分離装置、プログラム及び方法
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009218663A (ja) * 2008-03-07 2009-09-24 Sanyo Electric Co Ltd 音響信号処理装置
JP2012215606A (ja) * 2011-03-31 2012-11-08 Oki Electric Ind Co Ltd 音源分離装置、プログラム及び方法
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN108831495A (zh) * 2018-06-04 2018-11-16 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
人类听皮层在语音分离中对频率线索和空间线索的线性整合;李量,杜忆,吴玺宏,Claude Alain;《中国心理学会成立90周年纪念大会暨第十四届全国心理学学术会议》;20111021;全文 *

Also Published As

Publication number Publication date
CN109830245A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及系统
Yoshioka et al. Multi-microphone neural speech separation for far-field multi-talker speech recognition
Zhang et al. Deep learning based binaural speech separation in reverberant environments
EP3707716B1 (en) Multi-channel speech separation
Gu et al. Neural Spatial Filter: Target Speaker Speech Separation Assisted with Directional Information.
Vecchiotti et al. End-to-end binaural sound localisation from the raw waveform
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
Saruwatari et al. Blind source separation combining independent component analysis and beamforming
Chazan et al. Multi-microphone speaker separation based on deep DOA estimation
Wang et al. On spatial features for supervised speech separation and its application to beamforming and robust ASR
Wang et al. Integrating Spectral and Spatial Features for Multi-Channel Speaker Separation.
Varzandeh et al. Exploiting periodicity features for joint detection and DOA estimation of speech sources using convolutional neural networks
Yin et al. Multi-talker Speech Separation Based on Permutation Invariant Training and Beamforming.
CN111179959A (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
Peng et al. Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding Space.
Zhang et al. Binaural Reverberant Speech Separation Based on Deep Neural Networks.
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Yu et al. Automatic beamforming for blind extraction of speech from music environment using variance of spectral flux-inspired criterion
Youssef et al. From monaural to binaural speaker recognition for humanoid robots
Hammer et al. FCN approach for dynamically locating multiple speakers
Murakami et al. Real-Time Distant Sound Source Suppression Using Spectral Phase Difference
Green et al. Acoustic scene classification using higher-order ambisonic features
Wang et al. Real-Time Independent Vector Analysis Using Semi-Supervised Nonnegative Matrix Factorization as a Source Model.
Youssef et al. Binaural speaker recognition for humanoid robots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant