CN112201276B - 基于TC-ResNet网络的麦克风阵列语音分离方法 - Google Patents

基于TC-ResNet网络的麦克风阵列语音分离方法 Download PDF

Info

Publication number
CN112201276B
CN112201276B CN202011251485.3A CN202011251485A CN112201276B CN 112201276 B CN112201276 B CN 112201276B CN 202011251485 A CN202011251485 A CN 202011251485A CN 112201276 B CN112201276 B CN 112201276B
Authority
CN
China
Prior art keywords
array
time
network
characteristic parameters
frequency unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011251485.3A
Other languages
English (en)
Other versions
CN112201276A (zh
Inventor
周琳
许越
王天仪
冯坤
陈俐源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202011251485.3A priority Critical patent/CN112201276B/zh
Publication of CN112201276A publication Critical patent/CN112201276A/zh
Application granted granted Critical
Publication of CN112201276B publication Critical patent/CN112201276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于TC‑ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率GSRP‑PHAT参数,同时为了引入上下文信息,将前、后时频单元的GSRP‑PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC‑ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC‑ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号。本发明语音可懂度更高,在高噪声和强混响情况下性能更为优越。

Description

基于TC-ResNet网络的麦克风阵列语音分离方法
技术领域
本发明属于语音分离技术领域,涉及一种基于TC-ResNet网络的麦克风阵列语音分离方法。
背景技术
实际生活环境中,因为噪声混响以及干扰的存在,机器难以分辨目标语音。语音分离作为语音信号系统的前端,分离后的语音信号质量对后续的语音信号处理模块会有很大的影响。
语音分离技术所涉领域很广,包括但不限于声学、数字信号处理、信息通讯、听觉心理与生理学等。多通道的语音分离技术利用阵列麦克风收集语音信号,然后从收集到的带有噪声、混响和其他说话人干扰的多通道语音信号中提取出说话人的语音。
多通道的传统语音分离主要使用独立成分分析以及波束成形。独立成分分析利用源信号的独立性,在信号瞬间混合的情况下有不错的分离性能。而波束成形则通过配置麦克风的空间结构,利用不同声源信号到不同麦克风的时延,提升选定方向的信号,削弱其他方向的信号。波束成形可分为固定波束成形与自适应波束成形,该类型算法有多种优化准则来调整滤波器的参数,常见的有最大信噪比(MSNR),最小方差无失真(MVDR),最小均方误差(MMSE) 等。独立成分分析和波束成形两种方法在有混响时,分离性能会大幅度下降。此外,波束成形在目标声源与干扰声源非常近时也会变得难以分离。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于TC-ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人语音信号,使用改进的相位变换加权的可控响应功率(GSRP-PHAT)作为时频单元的特征,多帧拼接为特征参数对TC-ResNet 进行训练;测试过程中计算出测试语音的GSRP-PHAT,利用训练好的网络估计出时频单元的掩码,从而分离出单说话人语音信号。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于TC-ResNet网络的麦克风阵列语音分离方法,针对带有噪声与混响的多说话人测试语音信号,提取每个时频单元的改进相位变换加权的可控响应功率(GSRP-PHAT)参数,同时为了引入上下文信息,将前、后时频单元的GSRP-PHAT参数进行拼接,作为当前时频单元的特征参数,输入TC-ResNet网络进行训练;测试过程中,提取包含多个说话人的测试语音当前时频单元的特征参数,利用训练好的TC-ResNet网络估计出当前时频单元的掩码,从而分离出各个说话人的语音信号,具体包括以下步骤:
步骤1,获取包含不同方位角、多个声源的混合麦克风阵列信号,阵列信号中同时包含混响和噪声;
步骤2,对步骤1获得的阵列信号进行子带滤波、分帧和加窗,得到各个子带分帧后的阵列语音信号;
步骤3,针对步骤2得到的子带分帧后的阵列语音信号,提取每个时频单元的改进GSRP-PHAT特征,同时引入前、后各3个时频单元共7个时频单元的GSRP-PHAT特征,融合为一个二维特征参数,作为TC-ResNet网络的输入特征参数。
步骤4,利用训练阵列语音信号的特征参数训练TC-ResNet网络,TC-ResNet网络包括输入层、若干个卷积层和池化层、全连接层、输出层,输入层的输入特征参数为步骤3中特征参数,卷积层后面为池化层,若干个卷积层和池化层依次排列,将最后一个池化层的多维输出展开成一维输出,网络的输出为输入特征对应的时频单元的掩码;TC-ResNet网络的训练过程具体包括:
步骤4-1,基于Kaiming初始化随机设置所有卷积层和全连接层的权值;
步骤4-2,随机取一些特征参数构成一批数据输入训练样本,训练样本为(Z(k,f),Y),其中, Z(k,f)是根据步骤3获得的特征参数,k为帧序号,f为子带序号;Y=(y0,y1,y2,…,yMout),ym表示网络第m个输出神经元的预期输出值,下标0对应噪声,1,2,…,Mout为方位角编号,Mout为方位角个数,每个神经元的预期输出值由IRM给定,其公式如下:
Figure BDA0002771728840000021
其中,M表示共有M个说话人,Si(k,f)2表示第i个说话人语音信号在(k,f)时频单元内的能量,Noise(k,f)2表示(k,f)时频单元内的噪声能量;i=0表示噪声;设第i个说话人所在方位角编号为m,则对应方位角神经元的期望输出值为ym=IRMi,y0设为IRM0
步骤4-3,根据前向传播算法,依次计算每层网络的实际输出值,直到计算出每个Softmax 单元的实际输出Y′=y′0,y′1,y′2,...,y′Mout
步骤4-4,计算当前训练特征参数的代价函数,使用均方误差函数作为代价函数,则代价函数J的计算公式如下:
Figure BDA0002771728840000031
步骤4-5,使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重;
步骤4-6,若当前迭代次数小于预设总迭代次数,则返回至步骤4-2,继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练网络结束;
步骤5,训练好的TC-ResNet网络,对测试阵列语音信号对应的GSRP-PHAT特征参数进行计算,得到测试阵列语音信号的各时频单元的掩码,根据掩码和测试混合阵列信号,分离得到各个说话人的语音。
优选的:步骤3中GSRP-PHAT特征的计算公式为:
Figure BDA0002771728840000032
式中,GSRP-PHATk,f(θ)表示第k帧、第f个子带的时频单元在声源方向角为θ时的特征值;N为阵列麦克风的总数;θ表示声源相对于阵列中心的方位角;ωfL、ωfH代表第f 个子带的频率下限和上限;Xu(k,ω)、Xv(k,ω)表示第u个、第v个麦克风信号第k帧的频谱; W(ω)是矩形窗的频谱,()*表示共轭运算,j表示虚数单位,ω表示频点,τ(θ,u,v)表示声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差。
优选的:声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差τ(θ,u,v):
Figure BDA0002771728840000033
式中,R表示阵列半径,c表示声速,
Figure BDA0002771728840000034
分别表示第u个和第v个麦克风的方位角。
θ方位角每隔10°计算一次GSRP-PHATk,f(θ)参数,这样对每个时频单元,GSRP-PHATk,f(θ) 为1*36维的矢量,然后将该时频单元前、后各3帧同子带的时频单元GSRP-PHAT进行拼接,就得到了7*36的二维特征参数,作为TC-ResNet网络的输入特征参数。
优选的:所述步骤5的使用网络输出作为IRM掩码来恢复语音信号,先使用均值平滑处理掩码再用于进行语音分离,掩码滑动平均处理的计算公式如下:
Figure BDA0002771728840000041
其中,k0为当前帧的帧序号,d为正整数,将网络输出Y’进行平滑处理之后,利用滑动均值P对混合测试语音进行分离,得到单个声源对应的声信号。
优选的:正整数d取1或2或3。
本发明相比现有技术,具有以下有益效果:
本发明提出的基于TC-ResNet网络的麦克风阵列语音分离方法,语音可懂度更好,在高噪声和强混响情况下性能更为优越,优于现有技术中的经典算法。
附图说明
图1为本发明整体流程示意图;
图2为本发明特征参数的计算过程;
图3为本发明提供的实施例中TC-ResNet网络结构示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于时序卷积残差网络(TC-ResNet)的麦克风阵列语音分离方法,如图1所示,包括以下步骤:
步骤一、单个麦克风阵列语音信号的计算公式为:
Figure BDA0002771728840000042
式中,xn(t)表示第n个麦克风接收到的声信号,t表示时间,麦克风总数为N;si(t)表示第i个说话人的源信号,说话人总数为M;τin表示第n个麦克风接收到的第i个说话人直达声的延迟,ain表示直达声的衰减系数,δ(t)表示单脉冲信号,hin(t)表示第i个说话人到第n个麦克风的混响,noisen(t)是第n个麦克风接收的白噪声信号,每个麦克风之间的噪声不相关,而且噪声与信号之间也不相关,*为卷积运算。
本例中,单声道源信号采用从TIMIT库中随机抽取的语音信号。房间冲激响应采用Image 法生成。方位角的范围为[0°,350°],间隔10°取值,总计36个方位角。采取三种混响时间, 0s(无混响),0.2s,0.6s。采取3种信噪比,0dB,10dB,20dB。
步骤一生成的是噪声、混响环境下的混合阵列声信号,是为了能让TC-ResNet能够学习到噪声、混响环境下的空间特征参数的分布规律。
步骤二、对步骤一得到的训练阵列语音信号进行去直流分量、幅度归一化、分帧加窗,得到分帧的训练阵列语音信号,具体步骤如下:
(1)去直流分量:消除直流分量对后续处理的干扰,计算公式如下:
xn=xn-mean(x)
其中,xn表示第n个麦克风的信号向量,x表示所有麦克风信号向量构成的矩阵(x1,x2,…,xN),mean(x)表示均值;
(2)幅度归一化:降低多通道语音幅度范围的差异,计算公式如下:
Figure BDA0002771728840000051
(3)分帧加窗:对每一个通道的信号进行分帧加窗,窗函数使用矩形窗w(l),计算公式如下:
xn(k,l)=w(l)xn(kL+l),0≤l<T
Figure BDA0002771728840000052
其中xn(k,l)表示第n个麦克风在第k帧的信号,l是一帧内的采样点序号,T表示一帧长度时间序号,L是帧移。
步骤三、从每帧信号中提取每个子带的GSRP-PHAT,计算公式为:
Figure BDA0002771728840000053
式中,GSRP-PHATk,f(θ)表示第k帧、第f个子带的时频单元在声源方向角为θ时的特征值;N为阵列麦克风的总数;θ表示声源相对于阵列中心的方位角;ωfL、ωfH代表第f个子带的频率下限和上限;Xu(k,ω)、Xv(k,ω)表示第u个、第v个麦克风信号第k帧的频谱;W(ω)是矩形窗的频谱,()*表示共轭运算,j表示虚数单位,ω表示频点,τ(θ,u,v)表示声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差:
Figure BDA0002771728840000061
式中,R表示阵列半径,c表示声速,
Figure BDA0002771728840000062
分别表示第u个和第v个麦克风的方位角。 Xu(k,ω)、Xv(k,ω)的计算为:
Figure BDA0002771728840000063
Figure BDA0002771728840000064
xu(k,l)、xv(k,l)表示第u个、第v个麦克风接收到的第k帧时域信号。
针对每个时频单元,假定声源来自0°到360°,取θ值每10°一个间隔计算一个GSRP-PHATk,f(θ),形成一个36维的向量;然后将该时频单元前后各3帧同子带的时频单元拼接,就得到了7*36的二维特征参数,作为网络输入,如图2所示;
步骤四、TC-ResNet网络基于卷积神经网络(CNN),且使用了步骤三中所述的输入以增加对于时间上下文的使用,可认为进行了时序卷积,另外还引入了残差块。其中CNN包括输入层、若干卷积层和池化层、全连接层、输出层,输入层的输入特征参数为步骤(3)中特征参数矩阵,卷积层后面为池化层,若干个卷积层和池化层依次排列,将最后一个池化层的多维输出展开成一维输出。ResNet的残差块是附加在CNN上的,如图3所示是本文所用的残差结构,将某一层的输入直接进行线性映射调整维度后,直接传给下面某一层,而不经过CNN 的卷积池化,这种方法可以避免梯度消失,并且能将不同分辨率的特征相融合。另外网络引入批次归一化以降低过拟合的风险,使用参数L2正则化抑制过大参数。网络的输出为输入特征对应的时频单元的掩码,包含角度标签值和噪声标签值;
步骤五、训练好的TC-ResNet网络,对测试阵列语音信号对应的GSRP-PHAT特征参数进行计算,得到测试阵列语音信号的各时频单元的掩码,根据掩码和测试混合阵列信号,分离得到各个说话人的语音。网络输出作为IRM掩码来恢复语音信号,先使用均值平滑处理掩码再用于进行语音分离,掩码滑动平均处理的计算公式如下:
Figure BDA0002771728840000065
其中,k0为当前帧的帧序号,d为正整数,可取1或2或3,将网络输出Y’进行平滑处理之后,利用滑动均值P对混合测试语音进行分离,得到单个声源对应的声信号。
对以上方法进行仿真验证,采用信源失真比SDR、信源干扰比SIR评估分离算法性能。为了比较本算法与其他算法的优劣,此处也引入了主流的基于IBM与IRM的DNN方法,比较它们在测试数据下的分离性能。SDR与SIR如下表1、表2所示。
表1多环境下不同算法SDR值比较
Figure BDA0002771728840000071
表2多环境下不同算法SIR值比较
Figure BDA0002771728840000072
通过表1、表2中可以看出,本专利基于TC-ResNet模型的分离性能SIR和SDR要优于DNN-IBM算法。与DNN-IRM模型相比,高混响环境下,本专利算法的SDR、SIR高于 DNN-IRM模型,低混响条件下,本专利算法的SDR、SIR略低于DNN-IRM模型。
除了SIR、SDR评估算法分离性能外,还采用STOI客观可懂度指标评估分离语音的质量,其结果如表3所示。可以看出,本专利基于TC-ResNet模型的分离算法在无混响、低噪声情况下STOI略低于DNN-IRM模型,在高混响环境中STOI高于其余算法。噪声对算法STOI指标影响不大。混响对算法的STOI指标影响比较大,混响时间越长,性能下降越严重。
表3多环境下不同算法STOI值比较
Figure BDA0002771728840000081
同时为了研究本专利基于TC-ResNet模型的分离算法对噪声和混响的泛化性,即测试数据与训练数据不相同时,分析不同算法的分离性能,表4给出了TC-ResNet模型、DNN-IRM 模型在混响时间RT60为800ms,不同信噪比环境下语音分离性能指标。在此测试数据下,本专利基于TC-ResNet模型的SDR、SIR指标在不同信噪比下都比DNN-IRM模型高,STOI指标两个模型比较接近。这说明,TC-ResNet在高混响环境下有着更好的泛化性。
表4 800ms混响不同信噪比下TC-ResNet算法和DNN-IRM算法分离性能比较
Figure BDA0002771728840000082
实验结果表明,在不同声学环境下,本发明提出的基于TC-ResNet网络的麦克风阵列语音分离方法,语音可懂度更好,在高噪声和强混响情况下性能更为优越,优于现有技术中的经典算法。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于,包括以下步骤:
步骤1,获取包含不同方位角、多个声源的混合麦克风阵列信号,阵列信号中同时包含混响和噪声;
步骤2,对步骤1获得的阵列信号进行子带滤波、分帧和加窗,得到各个子带分帧后的阵列语音信号;
步骤3,针对步骤2得到的子带分帧后的阵列语音信号,提取每个时频单元的改进GSRP-PHAT特征,同时引入前、后各3个时频单元共7个时频单元的GSRP-PHAT特征,融合为一个二维特征参数,作为TC-ResNet网络的输入特征参数;
步骤4,利用训练阵列语音信号的特征参数训练TC-ResNet网络,TC-ResNet网络包括输入层、若干个卷积层和池化层、全连接层、输出层,输入层的输入特征参数为步骤3中特征参数,卷积层后面为池化层,若干个卷积层和池化层依次排列,将最后一个池化层的多维输出展开成一维输出,网络的输出为输入特征对应的时频单元的掩码;TC-ResNet网络的训练过程具体包括:
步骤4-1,基于Kaiming初始化随机设置所有卷积层和全连接层的权值;
步骤4-2,随机取一些特征参数构成一批数据输入训练样本,训练样本为(Z(k,f),Y),其中,Z(k,f)是根据步骤3获得的特征参数,k为帧序号,f为子带序号;Y=(y0,y1,y2,…,yMout),ym表示网络第m个输出神经元的预期输出值,下标0对应噪声,1,2,…,Mout为方位角编号,Mout为方位角个数,每个神经元的预期输出值由IRM给定,其公式如下:
Figure FDA0002771728830000011
其中,M表示共有M个说话人,Si(k,f)2表示第i个说话人语音信号在(k,f)时频单元内的能量,Noise(k,f)2表示(k,f)时频单元内的噪声能量;i=0表示噪声;设第i个说话人所在方位角编号为m,则对应方位角神经元的期望输出值为ym=IRMi,y0设为IRM0
步骤4-3,根据前向传播算法,依次计算每层网络的实际输出值,直到计算出每个Softmax单元的实际输出Y′=y′0,y′1,y′2,...,y′Mout
步骤4-4,计算当前训练特征参数的代价函数,使用均方误差函数作为代价函数,则代价函数J的计算公式如下:
Figure FDA0002771728830000021
步骤4-5,使用反向传播算法,计算代价函数J对网络权重的偏导,并修正权重;
步骤4-6,若当前迭代次数小于预设总迭代次数,则返回至步骤4-2,继续输入训练样本进行计算,直至得到达到预设迭代次数时迭代结束,训练网络结束;
步骤5,训练好的TC-ResNet网络,对测试阵列语音信号对应的GSRP-PHAT特征参数进行计算,得到测试阵列语音信号的各时频单元的掩码,根据掩码和测试混合阵列信号,分离得到各个说话人的语音。
2.根据权利要求1所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:步骤3中GSRP-PHAT特征的计算公式为:
Figure FDA0002771728830000022
式中,GSRP-PHATk,f(θ)表示第k帧、第f个子带的时频单元在声源方向角为θ时的特征值;N为阵列麦克风的总数;θ表示声源相对于阵列中心的方位角;ωfL、ωfH代表第f个子带的频率下限和上限;Xu(k,ω)、Xv(k,ω)表示第u个、第v个麦克风信号第k帧的频谱;
W(ω)是矩形窗的频谱,()*表示共轭运算,j表示虚数单位,ω表示频点,τ(θ,u,v)表示声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差。
3.根据权利要求2所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:声源相对于阵列中心的方位角为θ时,声信号到第u个和第v个麦克风的时延差τ(θ,u,v):
Figure FDA0002771728830000023
式中,R表示阵列半径,c表示声速,
Figure FDA0002771728830000024
分别表示第u个和第v个麦克风的方位角,方位角θ每隔10°计算一次GSRP-PHATk,f(θ)参数,这样对每个时频单元,GSRP-PHATk,f(θ)为1*36维的矢量,然后将该时频单元前、后各3帧同子带的时频单元GSRP-PHAT进行拼接,就得到了7*36的二维特征参数,作为TC-ResNet网络的输入特征参数。
4.根据权利要求3所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:所述步骤5的使用网络输出作为IRM掩码来恢复语音信号,先使用均值平滑处理掩码再用于进行语音分离,掩码滑动平均处理的计算公式如下:
Figure FDA0002771728830000031
其中,k0为当前帧的帧序号,d为正整数,将网络输出Y’进行平滑处理之后,利用滑动均值P对混合测试语音进行分离,得到单个声源对应的声信号。
5.根据权利要求4所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:正整数d取1或2或3。
6.根据权利要求5所述基于TC-ResNet网络的麦克风阵列语音分离方法,其特征在于:声源相对于阵列中心的方位角θ取值范围为[0°360°]。
CN202011251485.3A 2020-11-11 2020-11-11 基于TC-ResNet网络的麦克风阵列语音分离方法 Active CN112201276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011251485.3A CN112201276B (zh) 2020-11-11 2020-11-11 基于TC-ResNet网络的麦克风阵列语音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011251485.3A CN112201276B (zh) 2020-11-11 2020-11-11 基于TC-ResNet网络的麦克风阵列语音分离方法

Publications (2)

Publication Number Publication Date
CN112201276A CN112201276A (zh) 2021-01-08
CN112201276B true CN112201276B (zh) 2022-04-29

Family

ID=74034019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011251485.3A Active CN112201276B (zh) 2020-11-11 2020-11-11 基于TC-ResNet网络的麦克风阵列语音分离方法

Country Status (1)

Country Link
CN (1) CN112201276B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643714B (zh) * 2021-10-14 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序
CN114446316B (zh) * 2022-01-27 2024-03-12 腾讯科技(深圳)有限公司 音频分离方法、音频分离模型的训练方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6981417B2 (ja) * 2016-09-09 2021-12-15 ソニーグループ株式会社 音源分離装置および方法、並びにプログラム
WO2019016494A1 (en) * 2017-07-19 2019-01-24 Cedar Audio Ltd ACOUSTIC SOURCE SEPARATION SYSTEMS
CN110970053B (zh) * 2019-12-04 2022-03-15 西北工业大学深圳研究院 一种基于深度聚类的多通道与说话人无关语音分离方法
CN111583954B (zh) * 2020-05-12 2021-03-30 中国人民解放军国防科技大学 一种说话人无关单通道语音分离方法

Also Published As

Publication number Publication date
CN112201276A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
Pedersen et al. Convolutive blind source separation methods
CN109490822B (zh) 基于ResNet的语音DOA估计方法
CN110728989B (zh) 一种基于长短时记忆网络lstm的双耳语音分离方法
Koldovsky et al. Time-domain blind separation of audio sources on the basis of a complete ICA decomposition of an observation space
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN109164415B (zh) 一种基于卷积神经网络的双耳声源定位方法
Zhang et al. On end-to-end multi-channel time domain speech separation in reverberant environments
CN112151059A (zh) 面向麦克风阵列的通道注意力加权的语音增强方法
WO2009110574A1 (ja) 信号強調装置、その方法、プログラム及び記録媒体
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN113936681A (zh) 一种基于掩膜映射和混合空洞卷积网络的语音增强方法
CN112904279A (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN108091345A (zh) 一种基于支持向量机的双耳语音分离方法
CN113823316B (zh) 一种针对位置靠近声源的语音信号分离方法
CN112331181A (zh) 一种基于多说话人条件下目标说话人语音提取方法
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
Mazur et al. Robust room equalization using sparse sound-field reconstruction
CN114339539A (zh) 一种采用麦克风阵列拾音的多通道语音增强方法
CN114203194A (zh) 一种基于复数门控循环单元的波束形成方法
CN114242104A (zh) 语音降噪的方法、装置、设备及存储介质
Ukai et al. Multistage SIMO-model-based blind source separation combining frequency-domain ICA and time-domain ICA
Zhang et al. Binaural Reverberant Speech Separation Based on Deep Neural Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant