CN116612779A - 一种基于深度学习的单通道语音分离的方法 - Google Patents
一种基于深度学习的单通道语音分离的方法 Download PDFInfo
- Publication number
- CN116612779A CN116612779A CN202310620353.0A CN202310620353A CN116612779A CN 116612779 A CN116612779 A CN 116612779A CN 202310620353 A CN202310620353 A CN 202310620353A CN 116612779 A CN116612779 A CN 116612779A
- Authority
- CN
- China
- Prior art keywords
- module
- separation
- output
- feature
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 136
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000000873 masking effect Effects 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000009825 accumulation Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000903 blocking effect Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 32
- 238000012360 testing method Methods 0.000 description 16
- 230000006872 improvement Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000652 homosexual effect Effects 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于深度学习的单通道语音分离的方法,包括以下步骤:步骤1,编码阶段:接收单个麦克风采集的混合语音信号,并将所接收的混合语音信号的时域波形划分为多个短段,再将多个短段转换为中间特征空间中对应的高维特征表示输出到下一步骤;步骤2,分离阶段:接收步骤1的高维特征表示并输出每个源信号对应的掩蔽估计,进而在特征空间中得到分离源的特征表示,以实现分离,从而得到分离特征,将分离特征输出到下一步骤;步骤3,解码阶段:接收步骤2输出的分离特征并将其转换为对应源信号的时域波形估计。本发明的有益效果是:1.本发明方法提升了语音分离的性能。
Description
技术领域
本发明涉及语音分离技术领域,尤其涉及一种基于深度学习的单通道语音分离的方法。
背景技术
目前主流的语音分离模型大多是时域上的分离网络,它们通过编码、分离和解码三个阶段来实现混合语音的分离。为对长序列输入进行全局建模,一般使用双路径的结构,往往忽略了局部信息对语音分离的重要作用。
在复杂的声学环境中,人类通过一种听力选择机制将注意力集中在感兴趣的声音信号上,以此解决鸡尾酒会问题。如何基于机器设计一个通用的听觉模型来灵活处理鸡尾酒会问题是近年来的研究热点,其可作为一个前端处理模块,将目标信号从背景噪声和其他说话人的干扰中提取出来,语音分离在自动会议转录、自动语音识别和助听器设计等领域都有重要应用。
经过半个多世纪的研究,语音分离在说话人依赖的情况下能达到较优的分离效果,但在更为一般的场景下,往往无法得到有关说话人的先验知识,此时语音分离仍然是一个具有挑战性的任务。然而为了取得更鲁棒的性能和得到更广泛的应用,这又是必须解决的问题。
在深度学习出现之前,主要有三种算法来解决语音分离问题:基于模型的方法、基于分解的方法和基于规则方法。基于模型的方法对语音信号及其统计信息进行建模,如因子隐马尔可夫模型(Factorial hidden Markov model,FHMM)将语音信号的历史信息用隐藏状态来表示以对时间序列进行建模,或者独立成分分析(Independent componentanalysis,ICA)通过假设纯净信号统计独立从而实现分离。基于分解的方法假设语音可以由基矩阵来表示,如非负矩阵分解(Non-negative matrix factorization,NMF)将语音的幅度谱分解为两个非负矩阵的乘积,并通过固定混合物幅度谱的基矩阵来求得目标源信号。基于规则的方法通过手工设定的一些分组规则来进行语音分离,如计算机听觉场景分析(Computational auditory scene analysis,CASA)通过基音或音调等声音特征作为分组线索对属于不同源的听觉流进行分离.而以上的方法带有严苛的假设且模型过于简单,在复杂的听觉环境下效果欠佳,与此同时,巨大的计算量也限制了其应用场景。
随着深度学习在图像和自然语言处理领域取得巨大的成功,基于深度学习的语音分离方法也被广泛研究。一般来说,用于单通道语音分离的深度学习技术可以分为两类:频域上的语音分离方法和时域上的语音分离方法。但由于存在标签排列问题和输出维度不匹配,其在说话人独立情况下的语音分离任务中效果不佳。前者通常由混合语音中各源无序而输出有序导致,错误的安排在正确分离时也会产生较大的损失,从而导致网络往错误的方向更新参数;后者指固定输出维度的网络无法处理说话人变化的情况。
基于频域的语音分离方法通常利用短时傅里叶变换(Short time Fouriertransform,STFT)来对语音进行特征表示,通过对纯净语音的幅度谱进行估计来实现分离。如深度聚类(Deep clustering,DC)利用神经网络为每个时频点分配一个嵌入向量,利用亲和矩阵构成的目标函数进行训练,在测试阶段通过聚类操作得到说话人的时频掩蔽。因为亲和矩阵具有置换不变性,所以该方法不存在标签排列问题.而深度吸引子网络(Deepattractor network,DANet)以DC为基础,通过在嵌入空间中估计代表每个源信号的吸引子向量来将网络输出与目标语音对应,由此避免了标签排列的问题.这两类方法在测试阶段都是通过聚类操作来进行掩蔽估计,因此可通过设置不同的簇个数来解决输出维度不匹配的问题。帧级置换不变训练(Permutation invariant training,PIT)计算所有输出与说话人安排之间的帧级损失,并利用最小的损失进行参数更新以此来解决标签排列的问题,但该方法需要额外的说话人跟踪步骤。为进一步解决最优安排在不同帧之间频繁切换的问题,提出话语级置换不变训练(Utterance-level permutation invariant training,uPIT)。uPIT使用话语级的目标函数强制要求所有帧都使用相同的排列,解决了说话人跟踪的问题。
基于频域的方法通常在混合物的幅度谱上进行操作,这样普遍的做法可能会引发以下问题:次优的特征表示、相位重构问题和高分辨率频率分解带来的高延时。而基于时域的语音分离方法直接将混合语音的时域波形作为输入,网络输出每个源信号的波形估计,端到端的操作避免了频域方法存在的诸多问题,往往能取得更优的分离效果。全卷积时域音频分离网络(Fully convolutional time-domain audio separation network,Conv-TasNet)是基于时域的语音分离网络的先驱,该模型通过编码、分离和解码三个步骤来实现端到端的语音分离。具体来说,线性编码器用于得到自学习的特征表示,分离模块输出各个源的掩蔽估计,将其作用于编码器的输出可得到源信号在特征空间中的估计,最后通过解码器返回时域。在Conv-TasNet的基础上,双路径循环神经网络(Dual-path recurrentneural network,DPRNN)通过交替使用块间RNN和块内RNN对长序列进行建模,在极小的模型尺寸上达到了更好的分离性能。随后,双路径变换器网络(Dual-path transformernetwork,DPTNet)在双路径的结构下将原来的RNN替换成改进的变换器编码模块,使输入元素可以直接交互且并行处理,避免了原始模型需要大量中间状态进行信息传递带来次优的分离效果。
基于时域的语音分离方法自出现以来便引起了广泛的关注,并逐渐成为主流的方法。以往的时域分离网络往往聚焦于如何对长序列输入进行有效建模,忽略了局部信息对语音分离的重要作用。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于深度学习的单通道语音分离的方法。本发明提供了一种基于深度学习的单通道语音分离的方法,包括以下步骤:
步骤1,编码阶段:接收单个麦克风采集的混合语音信号,并将所接收的混合语音信号的时域波形划分为多个短段,再将多个短段转换为中间特征空间中对应的高维特征表示输出到下一步骤;
步骤2,分离阶段:接收步骤1的高维特征表示并输出每个源信号对应的掩蔽估计,进而在特征空间中得到分离源的特征表示,以实现分离,从而得到分离特征,并将分离特征输出到下一步骤;
步骤3,解码阶段:接收步骤2输出的分离特征并将其转换为对应源信号的时域波形估计。作为本发明的进一步改进,所述步骤1具体为:将混合信号的时域波形表示以重叠的方式划分为多个长度为L短段,每个短段表示为/>其中t=1,2,…,/>表示短段的索引,/>表示输入信号生成的特征向量总数,采用一维卷积模块作为编码器,将xt转换为N维向量表示,并利用ReLU激活函数将特征表示中的每一个元素都限制在[0,+∞):
其中为编码器输出,/>为一维卷积模块中滤波器的参数。作为本发明的进一步改进,所述步骤2中,所述分离阶段具体包括:步骤20,首先对接收到的编码器输出进行层标准化的操作,再将标准化后的特征表示输入瓶颈层;
步骤21,将瓶颈层的输出Z输入由基于Conformer的双路径多尺度时延模块堆叠而成的分离结构,其中每个DP-MSTD-Conformer模块都通过整合全局信息和不同尺度的局部信息来形成DP-MSTD-Conformer模块的输出;
步骤22,利用一维门控卷积层来得到每个源信号在特征空间中对应的掩蔽估计,将其作用于混合物的高维特征表示即得到对应的特征估计。作为本发明的进一步改进,所述步骤20中,层标准化的操作公式如下:
其中,为W的第t列,/>为放缩因子,ε为极小的正数,可以取值为10-8,其通过避免分母出现取值为零的情况来维持数值稳定,E[·]和Var[·]分别表示计算向量的均值和方差。
作为本发明的进一步改进,所述DP-MSTD-Conformer模块的底层与顶层各为一个前馈模块,所述前馈模块将层标准化的操作提前,并使用Swish激活函数进行非线性变换,在Swish激活函数和第二个线性层之后分别增加dropout操作,以提升网络的泛化性,为了学习到位置信息,将所述前馈模块的第一个线性层替换为循环神经网络;
所述DP-MSTD-Conformer模块最后通过一个标准化层对特征维度进行标准化以得到整个DP-MSTD-Conformer模块的输出,整个DP-MSTD-Conformer模块的输出将作为下一个DP-MSTD-Conformer模块的输入继续进行特征学习。
作为本发明的进一步改进,所述DP-MSTD-Conformer模块使用改进的双路径变换器模块对长序列的全局特征进行学习,具体步骤如下:
步骤S1,分段步骤:以P个时间步为间隔将长序列输入分割成长度为K的短块;
步骤S2,处理步骤:将步骤S1分段后的特征输入双路径结构分别进行块内特征处理和块间特征处理以获取全局特征;
步骤S3,重叠累加步骤:将块间改进的变换器的输出按照分段的规律排列成重叠的短段,并且在相同的时间步上进行累加操作,最后删去最开始零填充位置对应的特征向量,得到DPTi模块的输出,在此基础上进行残差连接得到整个模块的输出。
作为本发明的进一步改进,在所述步骤S1中,为保证没有多余的样本剩余且每个样本出现在不同短块中的次数一样,在分段前对输入序列进行零填充,具体步骤如下:
第一步,在序列的末尾填充M个时间步的全零特征向量,其中M的计算方式如下:
其中%表示取余操作;
第二步,在输入序列的一头一尾都填充P个时间步的全零特征向量。
作为本发明的进一步改进,所述步骤S2中,还包括:
步骤S20,块内特征处理步骤:块内改进的变换器处理模块对S个短块中的每个短块单独建模,即在Dr的第二个维度上展开特征学习,公式如下:
其中为块内子模块的输出,fr(·)为改进的Transformer编码器定义的映射函数;
步骤S21,块间特征处理步骤:块间改进的变换器处理模块在的最后一个维度上进行特征学习便可关联所有短块的信息,最后得到基于全局信息的输出:
其中为块间子模块的输出,hr(·)表示改进的Transformer编码器作用的映射函数。
作为本发明的进一步改进,所述DP-MSTD-Conformer模块使用多尺度时延下的多自头注意力模块作为局部特征学习模块放入Conformer的结构中以提升语音分离的效果,具体步骤如下:
步骤Y1,分段步骤:在分段前对长序列输入先进行零填充,零填充完毕后,将长序列输入分割成长度为K·2r-1,重叠率为长度一半的短段;
步骤Y2,多尺度时延采样步骤:在每个短段中分别进行多尺度时延采样,将每个短段时延采样后的所有结果沿一个新的维度拼接在一起得到采样后的输出;
步骤Y3,序列特征学习步骤:在每个长度为K的短块中都使用MHSA模块进行序列特征的学习,以此来捕获当前尺度下采样时间步之间的关系:
Q=[yr(H[:,:,s]),s=1,2,…,Sr] (3-14)
其中为为序列特征学习的输出,/>为第s个短块,yr(.)为MHSA模块对应的映射函数;为返回短段,沿着输出Q的最后一个维度以2r-1为间隔进行分块,共得到S′r个三维矩阵:
Qi=Q[:,:,(i-1)·2r-1+1:i·2r-1],i=1,2,…,S′r (3-15)
其中为第i个分块构成的三维矩阵;在第二个维度上,将K个长度为2r-1的特征进行拼接,得到/>
步骤Y4,按照重叠累加的方式得到长序列输出。
作为本发明的进一步改进,所述步骤3中,在解码阶段,使用一维转置卷积模块根据估计的源信号特征来重构对应的分离信号的时域波形,以第k个输入信号为例,经过一维转置卷积操作之后的输出为:
其中为转置卷积模块中的可学习参数,/>为分离模块产生的第k个输出,最后根据一维转置卷积操作中设置的滤波器长度和步长,通过重叠累加的方式得到时域波形的估计/>具体的计算方式如下:
其中为被初始化为全零向量,l为转置卷积的步长。
本发明的有益效果是:1.本发明方法提出MSTD的方法对长序列输入进行采样,能够用于局部特征的学习;2.本发明能够使用改进后的双路径模块进行全局特征学习;3.本发明方法提出基于Conformer的双路径多尺度时延网络,该网络基于Conformer的结构整合全局特征与多尺度局部特征,可以得到每个源信号在特征空间中对应的掩蔽估计;4.实验结果表明,在多个性能指标的评价下,本发明方法提出的模型都取得了较大的性能提升(在TIMIT-2mix数据集上SI-SNRi、SDRi、PESQ和STOI分别达到了19.09dB、19.27dB、3.5789和0.9638),并且该模型具有一定的跨数据集测试的能力。
附图说明
图1是本发明DP-MSTD-CNet的原理框图;
图2是本发明DP-MSTD-Conformer模块的整体结构原理框图;
图3是本发明FFM原理框图;
图4是本发明DPTi模块具体操作原理框图;
图5是本发明DPTNet中Transformer编码器结构原理框图;
图6是本发明DPTi模块中Transformer编码器结构原理框图;
图7是本发明MHSA-MSTD模块的操作示意图;
图8是本发明TIMIT-2mix数据集上的分离示例图;
图9是本发明Libri2Mix数据集上的分离示例图。
具体实施方式
如图1所示,本发明公开了一种基于深度学习的单通道语音分离的方法,包括以下步骤:
步骤1,编码阶段;接收单个麦克风采集的混合语音信号,并将所接收的混合语音信号的时域波形划分为多个短段,再将多个短段转换为中间特征空间中对应的高维特征表示输出到下一步骤;
步骤2,分离阶段;接收步骤1的高维特征表示并输出每个源信号对应的掩蔽估计,进而在特征空间中得到分离源的特征表示,以实现分离,从而得到分离特征,并将分离特征输出到下一步骤;
步骤3,解码阶段;接收步骤2输出的分离特征并将其转换为对应源信号的时域波形估计。
本发明中提出了一种基于Conformer的双路径多尺度时延网络,该网络在使用改进后的双路径模块对全局信息进行学习的基础上,通过引入一个多尺度时延模块来对不同粗细的局部信息进行学习,并基于Conformer网络的结构组织各个部分。实验表明,本发明的方法在说话人独立情况下的两说话人混合语音分离任务中不仅取得了明显的效果提升,而且也具备一定的跨数据集测试的能力。
下面对本发明方案进行详细介绍:
1.基于Conformer的双路径多尺度时延网络的总体结构
DP-MSTD-CNet由编码器、分离模块和解码器三个部分组成,与主流的时域分离网络一致。首先,编码器模块通过自我学习的方式将混合波形的短段转换为中间特征空间中对应的高维表示。然后,分离阶段接收混合语音信号的特征并输出每个源信号对应的掩蔽估计以实现分离。最后,解码阶段为编码阶段的逆变换,用于返回每个源信号的时域波形估计。整个网络的具体设计如图1所示,其中每个部分的详细介绍将在后续部分给出。
1.1单通道语音分离
考虑C个说话人混合的单通道语音分离任务,在不考虑混响和噪声干扰的情况下,该问题可以描述为:
其中x(t)为麦克风采集到的t时刻的混合语音信号,sk(t)为t时刻的第k个纯净语音信号,C为混合语音中声源的总个数。单通道语音分离的目标是:根据公式(2-1)描述的模型,对单个麦克风接收到的混合语音信号x(t)进行处理,最终得到C个纯净语音信号的时域波形估计。其中,估计的语音信号与纯净语音信号越接近越好。
1.2编码器与解码器
编码器与解码器在结构和功能上都是对称的,前者主要用于对输入的时域信号进行特征表示;后者主要用于将输出的分离特征转换成对应源信号的时域波形估计。这两者的存在一方面保证了网络可以自己决定特征表示的方式,另一方面使得网络的输入输出都为时域波形,为网络进行端到端的训练创造了条件。
编码器与解码器的具体设计如图1所示。在编码阶段,将混合信号的时域波形表示以重叠的方式划分为多个长度为L短段,每个短段表示为/>其中t=1,2,…,/>表示短段的索引,/>表示输入信号生成的特征向量总数,采用一维卷积模块作为编码器,将xt转换为N维向量表示,并利用ReLU激活函数将特征表示中的每一个元素都限制在[0,+∞):
其中为编码器输出,/>为一维卷积模块中滤波器的参数,可以将其描述为一个具有N个长度为L的滤波器的滤波器组。在解码阶段,使用一维转置卷积模块根据估计的源信号特征来重构对应的分离信号的时域波形。以第k个输入信号为例,经过一维转置卷积操作之后的输出为:
其中为转置卷积模块中的可学习参数,/>为分离模块产生的第k个输出,最后根据一维转置卷积操作中设置的滤波器长度和步长,通过重叠累加的方式得到时域波形的估计/>具体的计算方式如下:
其中为被初始化为全零向量,l为转置卷积的步长。可以将整个解码模块看作是前述卷积编码模块的逆变换过程。
1.3分离模块
Transformer中级联的多头自注意力(Multi-head self-attention,MHSA)模块善于捕获长距离依赖,能有效的对全局信息进行建模,但其往往忽略了局部信息的重要作用;而CNN网络因其接受域固定无法进行全局建模,但其对局部信息的提取十分有效。Conformer网络结构取长补短,将二者进行结合以利用自注意力机制和卷积操作来增强特征学习,并在ASR领域成功运用。本发明借鉴Conformer网络的思想对时域分离模型进行设计,并在此基础上对全局特征学习模块和局部特征学习模块进行改进,最后总结两种特征的学习结果实现最终的分离。
具体来说,分离模块采用基于Conformer的网络结构,主要有两方面的改进。其一,将其中MHSA模块替换成改进的双路径Transformer(Dual-path transformer,DPT)模块,通过交替使用块内Transformer和块间Transformer来进行全局的特征学习。双路径的形式解决了在时域语音分离中常面临的对长序列输入建模困难的问题,并且在短段间进行特征学习也在一定程度上获取了局部信息。其二,将其中的CNN网络替换成多尺度时延下的MHSA模块,以进行局部特征的学习。在该模块中,提出了一种多尺度时延采样的分段方法,该方法保证了在不同的堆叠层上可以提取出不同时间间隔的局部信息。最后利用一维门控卷积层来得到每个源信号在特征空间中对应的掩蔽估计,将其作用于混合物的高维特征表示即可得到对应的特征估计。具体的网络结构如图1所示,其中的每个模块将在第2节中进行详细的介绍。
2基于Conformer的双路径多尺度时延网络的分离模块
在DP-MSTD-CNet模型中,分离模块的主要作用是为每个源信号输出一个掩蔽估计进而在特征空间中得到分离源的特征表示。具体来说,包括以下步骤:
步骤20,首先对接收到的编码器输出进行层标准化的操作:
其中,为W的第t列,/>为放缩因子,ε为极小的正数,一般取值为10-8,其通过避免分母出现取值为零的情况来维持数值稳定,E[·]和Var[·]分别表示计算向量的均值和方差,具体的计算方式如下:
将标准化后的特征表示输入一层由11×卷积层构成的瓶颈层,该层可以决定后续输入的特征维度,其滤波器的个数一般设置为较小的数字以起到减少计算量的作用。
步骤21,接下来将瓶颈层的输出Z输入由基于Conformer的双路径多尺度时延(Dual-path multiscale time-delay with conformer,DP-MSTD-Conformer)模块堆叠而成的分离结构,其中每个DP-MSTD-Conformer模块都通过整合全局信息和不同尺度的局部信息来形成该模块的输出,它是整个DP-MSTD-CNet分离模型的关键,将在接下来的小节中进行详细的介绍。
最后一个DP-MSTD-Conformer模块的输出为ZR+1首先通过PReLU激活函数来进行非线性变换,然后输入1×1卷积层,用于为每个源信号分配相应的掩蔽估计并将得到的掩蔽估计记为/>以第k个掩蔽估计为例进行说明,/>经过一维门控卷积层的处理后得到/>
其中U,为1×1卷积操作的参数,Tanh表示tanh激活函数,其用于对输入进行变换以将其限制在[-1,1]范围内,σ为sigmoid激活函数,在此处执行门控操作,用于对输入进行选择性输出。最后一个1×1卷积层将估计的掩蔽变回原始的特征维度,紧接着使用ReLU激活函数来确保掩蔽估计的结果非负。将所得的掩蔽估计作用于编码器输出,得到每个源在特征空间中对应的估计物。
接下来,首先在2.1节介绍DP-MSTD-Conformer模块的整体结构,然后再分别介绍中间的重要组成部分。其中,将在第2.2节中介绍前馈模块,在第2.3节中介绍改进后的双路径变换器模块,在第2.4节中介绍多尺度时延采样模块。最后,将在第2.5节中介绍该网络训练使用的损失函数。
2.1基于Conformer的双路径多尺度时延模块
DP-MSTD-Conformer模块的主要组成部分如图2所示,在整体上其遵循Conformer模型的体系结构。具体来说,该模块的底层与顶层为一个前馈模块,中间夹着一个改进后的DPT模块和一个多尺度时延下的MHSA模块。每个DP-MSTD-Conformer模块都对应着一个时延因子tf=2r-1,其中r表示该模块堆叠的次数。最后通过一个标准化层对特征维度进行标准化以得到整个模块的输出。为了避免深层神经网络在训练过程中出现退化的问题,每一层之间都使用残差连接,其中一头一尾两个前馈模块使用半步残差连接。对于第r个DP-MSTD-Conformer模块的输入Zr来说,该模块的输出可以计算为:
Zr″=Zr′+DPTi(Zr′) (3-6)
Zr″′=Zr″+MHSA|-MSTD(Zr″) (3-7)
其中FFM代表前馈模块,DPTi代表改进的双路径Transformer模块,MHSA-MSTD代表多尺度时延采样下的多头自注意力模块,LN表示进行层标准化的操作。整个模块的输出将作为下一个DP-MSTD-Conformer模块的输入继续进行特征学习。
2.2前馈模块
在Transformer编码器架构中,MHSA模块之后部署了一个前馈模块(Feed forwardmodule,FFM),其由两个线性层和中间的一个非线性激活函数组成。将整个FFM进行残差连接,并紧跟一个层标准化操作以得到最终的输出。在DP-MSTD-Conformer模块中,FFM遵循在Conformer中的结构,其将层标准化的操作提前,并使用Swish激活函数进行非线性变换。Swish激活函数可以在一定的程度上防止梯度饱和的情况出现,有助于网络的优化,其计算公式如下:
f(x)=x· sigmoid(βx) (3-9)
其中β可以取不同的值,在本发明中β=1。除此之外,在激活函数和线性层之后分别增加dropout操作,以提升网络的泛化性。
在DP-MSTD-Conformer模块中,利用MHSA进行多尺度局部特征的学习,但是模块的输入并没有增加位置编码,也没有像Conformer中的多头自注意力模块一样集成相对正弦位置编码的方案。为了学习到位置信息,将FFM的第一个线性层替换成循环神经网络。最终DP-MSTD-Conformer模块中的FFM设计如图3所示。
2.3改进后的双路径变换器模块
在DP-MSTD-Conformer模块中,使用改进的双路径变换器(Improved Dual-PathTransformer,DPTi)结构对长序列的全局特征进行学习。如图4所示所示,DPTi由三个部分组成:分段、改进后的双路径变换器处理和重叠累加。其整体结构与DPTNet的分离模块大致相同,唯一的区别就是本发明中不直接在此处重复堆叠多个DPT模块,而是在分段后只进行一次块内和块间的特征学习,随后立即通过重叠累加返回原始输入大小,并将其作为下个模块的输入。
以第r个DPTi模块为例对整个过程进行说明,具体步骤如下:
步骤S1,分段步骤:首先,分段阶段以P个时间步为间隔将长序列输入分割成长度为K的短块。为保证没有多余的样本剩余且每个样本出现在不同短块中的次数一样,需要在分段前对输入序列进行零填充。整个填充分为两个步骤:第一步,在序列的末尾填充M个时间步的全零特征向量,其中M的计算方式如下:
其中%表示取余操作;第二步,在输入序列的一头一尾都填充P个时间步的全零特征向量。经过上述两次填充之后,输入序列共有个的特征向量。将输入特征分段后生成了S个形状相同的短块/>s=1,,…,S,将所有的短块拼接在一起可以得到一个三维矩阵/>
步骤S2,处理步骤:将分段后的特征输入一个双路径的结构,该结构利用两个改进的变换器分别进行块内局部特征的学习和块间全局信息的整合。改进的变换器的设计基于Transformer的编码器,主要由MHSA模块和FFM组成。
MHSA相较于传统的RNN和CNN具有众多优点,一方面,注意力计算中的点积操作可以直接关联两个任意间隔的输入信息,从而能轻松捕获序列中的长期依赖关系;另一方面,由于每一步的计算结果都是独立的,所以多个时间步的计算可以并行处理,减少了模型训练的时间。但是MHSA也有一个明显的缺点:不同顺序的输入序列可能产生相同的输出。导致这一问题存在的主要原因是该模块没有利用输入的位置信息,而位置信息对于语音分离任务来说又十分重要。为了解决这个问题,DPTNet模型将前馈神经网络中的第一个线性层更换为RNN用于学习位置信息,修改后的Transformer编码器结构如图5所示。
在Macaron-Net中,将MHSA后面的FFM替换为两个半步的FFM,分别位于注意力层的前面和后面,该模型在机器翻译中取得比一般Transformer更优的效果。受启发于Macaron-Net和DPTNet,本发明提出一种新的Transformer编码器结构。如图6所示,该结构分别在MHSA模块的前面和后面设置了FFM,并在每个FFM中进行半步残差连接,将特征学习的结果经过层标准化的处理后得到整个模块的输出。整个编码器结构中的FFM与2.2节中介绍的一致,此处将原始的第一个线性层替换为RNN也是为了学习位置信息。
步骤S20,块内特征处理步骤:在整个双路径块处理过程中,分段后的特征会依次进行块内特征处理和块间特征处理。由于使用注意力机制进行块内特征建模,每个时间步的输出都是值向量的加权和,其包含了整个短块中全部的输入信息,因此通过块间建模即可对整个长序列的特征进行学习,最终实现全局建模。
首先,块内改进的变换器处理模块对S个短块中的每个短块单独建模,即在Dr的第二个维度上展开特征学习,公式如下:
其中为块内子模块的输出,fr(·)为改进的Transformer编码器定义的映射函数。经过块内Transformer的处理后,短块中的每一个时间步都携带了来自整个短块的信息。
步骤S21,块间特征处理步骤:块间改进的变换器处理模块在的最后一个维度上进行特征学习便可关联所有短块的信息,最后得到基于全局信息的输出:
其中为块间子模块的输出,hr(·)表示改进的Transformer编码器作用的映射函数。
为得到序列特征,将块间改进的变换器的输出Dinterr按照分段的规律排列成重叠的短段,并且在相同的时间步上进行累加操作。此处重叠累加的具体操作与解码器中的相同,最后删去最开始零填充位置对应的特征向量,得到DPTi模块的输出,在此基础上进行残差连接即可得到
2.4多尺度时延下的多头自注意力模块
人类对事物的认知一般是分层抽象的,首先会关注到小的、细微的局部特征,然后再逐层深入,最后建立起对整体的认知。在基于双路径的网络结构中,虽然可以通过在两个方向上进行扫描来获取全局特征,能有效地对长序列输入建模,但其对于局部特征的学习仅限于每个固定长度的短块中,因此无法捕获到不同层次的局部信息。在DP-MSTD-Conformer模块中,使用多尺度时延采样模块来进行分块操作,这种类似于膨胀卷积(Dilated Convolution,DC)扩张接受域的采样方式通过设置指数增长的时延因子可以在相同长度的短块中对不同尺度的局部信息进行关注。在DP-MSTD-Conformer模块中,使用MHSA机制为每个短块中携带的信息建模,随着该模块的不断堆叠,整个模型进行由细到粗的特征学习。将多尺度时延下的多头自注意力(Multi-headed self-attention withmultiscale time-delay,MHSA-MSTD)模块作为局部特征学习模块放入Conformer的结构中可提升语音分离的效果。
MHSA-MSTD模块主要由四个部分组成,分别为分段、多尺度时延采样、序列特征学习和特征合并。每个部分具体的操作如图7所示,具体包括如下步骤:
步骤Y1,分段步骤:为保证在分段时没有样本剩余,且对于不同的时延因子多尺度时延采样后得到的短块总数都相同,需要在分段前对长序列输入进行零填充。零填充完毕后,将长序列输入分割成长度为K·2r-1,重叠率为长度一半的短段。整个过程共产生S′r个短段,分别记为
步骤Y2,多尺度时延采样步骤:分段完毕后,在每个短段中分别进行多尺度时延采样。以第i个短段来说,以时延因子tf=2r-1为间隔,等间隔地提取短段中的特征向量,并将提取出来的特征向量拼接在一起以形成该时延尺度下的一个短块,每个短段都能形成2r-1个短块:
hi,j=Hi[:,j::2r-1],j=1,2,...,2r-1 (3-13)
其中表示由第i个短段采样所得的第j个短块,j::2r-1表示从j开始,以2r-1为间隔取到最后。将S′r个短段时延采样后的所有结果沿一个新的维度拼接在一起得到采样后的输出/>
步骤Y3,序列特征学习步骤:随后,在每个长度为K的短块中都使用MHSA模块进行序列特征的学习,以此来捕获当前尺度下采样时间步之间的关系:
Q=[yr(H[:,:,s]),s=1,2,...,Sr] (3-14)
其中为为序列特征学习的输出,/>为第s个短块,yr(.)为MHSA模块对应的映射函数;为返回短段,沿着输出Q的最后一个维度以2r-1为间隔进行分块,共得到S′r个三维矩阵:
Qi=Q[:,;,(i-1)·2r-1+1:i·2r-1],i=1,2,…,S′r (3-15)
其中为第i个分块构成的三维矩阵;
在第二个维度上,将K个长度为2r-1的特征进行拼接,得到
步骤Y4,按照重叠累加的方式得到长序列输出。此处因为每个时间步使用的次数不一定相等,因此需要除以相应的系数。将分段前零填充位置的特征向量删除后得到整个MHSA-MSTD模块的输出,残差连接后可得到
2.5网络的损失函数
在时域分离网络中,常使用SI-SNR指标作为损失函数,该指标通过对第k个纯净语音的时域波形估计进行正交分解来避免输出大小对指标结果的影响,能更正确地衡量损失的大小。第k个分离信号的SI-SNR指标的具体计算方式如下:
本发明在SI-SNR的基础上,增加分离信号之和与原始混合语音信号之间差异的衡量:
在训练过程中,使用话语级别的置换不变训练来解决说话人独立情况下存在的标签排列问题。
由公式(3-18)计算的损失函数在实验中取得了更好的结果,它在一定程度上要求分离信号的总和与原始混合信号尽可能接近,这与事实相符。具体来说,公式(3-18)中的第二项取值较小并不会主导总的损失,只是起到一定的辅助作用。
3 实验结果
3.1 数据集
本发明基于TIMIT数据集和Libri2Mix数据集来评估本发明的模型在两说话人混合的单通道语音分离任务中的性能。
TIMIT语料库是由德州仪器、麻省理工学院等机构合作构建的声学—音素连续语音语料库,整个语料库使用的基本语言是英语。该数据集在美国完成,由来自8个主要方言地区的438位男性和192位女性所录制的6300条语句组成,其中每条语句使用的采样率都为16kHz。在TIMIT语料库的基础上,本发明构建了两个说话人混合的数据集(TIMIT-2mix),该数据集由训练集,验证集和测试集三个部分组成,其中每个部分分别包含了10000条、5000条、3000条混合语音和与之对应的纯净语音。混合语音具体的构造方法如下:从TIMIT训练集中随机挑选两条语音,以较短段为基础将语音截取为相同长度,再以-5dB到5dB之间的随机信噪比进行混合,得到训练集和验证集中的语音。而测试集则以相同的方式从168名之前从未出现过的说话人中产生。最后,将验证集作为封闭条件下的测试数据(即说话人依赖的情况),将测试集作为开放条件下的测试数据(即说话人独立的情况),用于对比两种不同情况下性能的差异。为减少计算量,将所有音频都降采样为8kHZ。
使用Libri2Mix数据集中纯净的train-100子集作为网络的训练数据,该训练集共有13900条语句,总时长约58个小时。验证集和测试集都由3000条语句构成,总时长约为11个小时。Libri2Mix数据集中的每一条语句都来自于LibriSpeech数据集中对应的train-clean-100子集、dev-clean子集和test-clean子集,这包含了331个说话人大约110个小时的音频数据,其中男性和女性说话人的个数基本相同。随机选择两个不同说话人的话语进行混合,使用满量程响度单位(Loudness Units relative to Full Scale,LUFS)来对单个话语进行缩放,保持每个话语的响度在-25到-33LUFS之间均匀分布。在混合过程中,每条话语只使用一次,并且混合后的长度与混合前较短的话语长度相同,所有的音频数据的采样率均为8kHz。
3.2实验配置
设置两种不同长度的滤波器进行编码和解码的操作,以滤波器长度的一般作为步长。根据编码后得到的序列输入的长度,对应设置分段操作中的短段长度,并采用半重叠的方式进行分段。整个模型中的所有MHSA模块的头数都设置为4,并将整个DP-MSTD-Conformer模块堆叠6次以进行不同尺度的特征学习。网络中各个参数的符号、描述及取值由表3-1给出。
表3-1网络参数设置
实验中,将TIMIT-2mix数据集中的训练集和验证集语句裁剪为2秒的长度再进行训练,设置两个不同的训练代数:70代或者100代,以观察不同训练代数对分离性能的影响。对于Libri2Mix数据集则将语句裁剪为长度为2.5秒的数据再进行训练,一共训练70代。使用Adam作为网络的优化器,并采用最大2L范数为5的梯度裁剪。网络训练的过程中,若在验证集上的损失连续10代都没有减小则停止训练。学习率在前4000个训练步骤中线性增长,在之后的训练过程中则每相隔两代便将其降为当前学习率的0.98倍:
其中n为训练步数,en为训练代数。
3.3评价指标
本发明从两个方面对语音分离的性能进行了评价。具体来说,使用信号失真比的提升(Signal-to-Distortion Ratio Improvement,SDRi)和尺度不变信噪比的提升(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)来衡量语音分离得到的信号相较于原始纯净信号的失真程度;使用短时客观可懂度(Short-Time ObjectiveIntelligibility,STOI)和语音质量感知评估(Perceptual Evaluation of SpeechQuality,PESQ)来对分离后的语音质量进行客观评价。以上所列举的所有语音评价指标都是值越大分离效果越好。
3.4结果
图8为在TIMIT-2mix数据集下使用DP-MSTD-CNet模型进行两说话人混合语音分离的一个例子。通过对比发现,网络得到的两个分离信号与对应的目标纯净信号的时域波形图都基本一致。为做进一步的验证,将纯净信号与对应的分离信号做差,结果显示差值也在零值附近波动,证明了本发明提出的模型能成功实现混合语音的分离,并取得了较好的分离表现。
图9展示了DP-MSTD-CNet模型在Libri2Mix数据集上进行单通道语音分离的分离示例。根据展示的结果可知,两个分离信号与对应纯净信号的时域波形图形状都基本一致,体现出该模型在不同的数据集上都具有良好的分离效果。同样将对应信号做差,由差值绘制的波形反映出纯净信号2与分离信号2之间存在着较大的差异,但观察发现二者之间的差值与纯净信号2的波形较为相似,这说明差值的产生只是因为它们之间存在着倍数关系,这并不影响语音分离的效果。
表3-2展示了在不同实验配置下,DP-MSTD-CNet模型和时域分离代表模型在单通道语音分离任务中性能比较的结果。对于基于双路径结构的模型,分别在编码滤波器长度为8和16的情况下进行实验,并提供了训练70代和100代之后的结果。所有的模型都在TIMIT-2mix数据集上进行评估,且均采用文献中最优的参数配置进行复现。在CC和OC下分别进行分离结果的测试,结果显示所有实验在这两种情况下得到的SI-SNR值都相差不大,这表明所列的模型在说话人独立的情况下均有效。此外,L的取值越小对应着越好的分离表现,因此在条件允许的情况下可以通过持续减小编码阶段滤波器的长度来提升整个模型的总体性能。进一步比较训练70代和100代对应的分离效果,发现Conv-TasNet模型的性能增加不大,而基于双路径的模型通过继续训练却能使分离信号的SI-SNR有较大的提升。对比可以看出,DP-MSTD-CNet模型的性能表现远远优于最原始的时域分离网络,且与近期分离效果较为突出的DPTNet模型相比也有显著的提升。具体来说,DP-MSTD-CNet模型在CC和OC下的SI-SNR值分别达到了19.17dB和19.10dB,与DPTNe模型对应结果相比有接近1.8dB的提升。进一步对比DP-MSTD-CNet模型训练70代和其余模型训练100代的分离结果,发现DP-MSTD-CNet模型仍有超过1.3dB的性能提升,表明本发明提出的网络模型可通过较少的训练代数就产生比其余模型更好的结果,具有明显的优势。
表3-2不同配置下各模型的分离结果
为探究性别对分离效果的影响,表3-3给出了基于TIMIT-2mix数据集,各模型在同性混合和异性混合情况下的分离效果。根据表3-3所列数据发现,异性混合情况下的分离效果往往优于同性混合情况下的分离效果,考虑可能是因为同性说话人的语音更为接近导致分离难度增加才造成了这种现象。对比所有模型在同性混合和异性混合情况下SI-SNR指标的绝对差值和差值百分比,发现本发明提出的DP-MSTD-CNet模型在整体提升分离效果的同时降低了两种情况下分离效果之间的差异。
表3-3各模型在同性混合与异性混合下的分离结果
将同性混合情况与异性混合情况做进一步拆分,以探讨不同模型在所有混合情况下的平均分离效果。具体结果如表3-4所示,在所有模型中,构成异性混合的两种情况对应的分离效果差别都不大,而在同性混合情况下,(女性-女性)混合的分离效果却显著低于(男性-男性)混合条件下的结果,这可能是混合数据分布不均造成的,后续可尝试通过增加(女性-女性)混合的样本数目来改善这个现象。
表3-4各模型不同混合情况下的分离结果
为了证明本发明提出的算法在其他数据集上也有效,本发明在Libri2Mix数据集上也进行了相关的实验。使用额外的四个评价指标SI-SNRi、SDRi、PESQ和STOI对所有模型在测试集上的分离结果进行量化。实验结果由表3-5给出,经过比较发现本节提出的改进模型在四个指标的衡量下仍能取得最优的分离性能,且较次优的模型有明显的提升。具体来说,DP-MSTD-CNet模型取得了14.69dB的SI-SNRi、15.13dB的SDRi、2.8734的PESQ和0.9241的STOI。
表3-5LibriMix数据集上分离效果
最后,在Libri2Mix数据集上分别保存基于Conv-TasNet、DPTNet和DP-MSTD-CNet系统训练所得的模型,并在没有进行任何微调的情况下将其用于测试TIMIT-2mix数据集中混合语音的分离效果,以验证各个模型跨数据集测试的效果。表3-6展示了对应实验的结果,根据测试得到的SI-SNR值可以发现,DP-MSTD-CNet模型在跨数据集测试中也取得了最好的分离效果。
表3-6各模型跨数据集测试能力的比较
本发明在时域分离模型的框架下对分离模块进行改进,提出多尺度时延(Multiscale time-delay,MSTD)的分段方法,用于在相同的时间步中学习不同尺度的局部信息。
本发明的有益效果是:1.本发明提出MSTD的方法对长序列输入进行采样,能够用于局部特征的学习;2.本发明能够使用改进后的双路径模块进行全局特征学习;3.本发明提出基于Conformer的双路径多尺度时延网络,该网络基于Conformer的结构整合全局特征与多尺度局部特征,可以得到每个源信号在特征空间中对应的掩蔽估计;4.实验结果表明,在多个性能指标的评价下,本发明提出的模型都取得了较大的性能提升(在TIMIT-2mix数据集上SI-SNRi、SDRi、PESQ和STOI分别达到了19.09dB、19.27dB、3.5789和0.9638),并且该模型具有一定的跨数据集测试的能力。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于深度学习的单通道语音分离的方法,其特征在于,包括以下步骤:
步骤1,编码阶段:接收单个麦克风采集的混合语音信号,并将所接收的混合语音信号的时域波形划分为多个短段,再将多个短段转换为中间特征空间中对应的高维特征表示输出到下一步骤;
步骤2,分离阶段:接收步骤1的高维特征表示并输出每个源信号对应的掩蔽估计,进而在特征空间中得到分离源的特征表示,以实现分离,从而得到分离特征,并将分离特征输出到下一步骤;
步骤3,解码阶段:接收步骤2输出的分离特征并将其转换为对应源信号的时域波形估计。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体为:将混合信号的时域波形表示以重叠的方式划分为多个长度为L短段,每个短段表示为/>其中t=1,2,…,/>表示短段的索引,/>表示输入信号生成的特征向量总数,采用一维卷积模块作为编码器,将xt转换为N维向量表示,并利用ReLU激活函数将特征表示中的每一个元素都限制在[0,+∞):
其中为编码器输出,/>为一维卷积模块中滤波器的参数。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中,所述分离阶段具体包括:
步骤20,首先对接收到的编码器输出进行层标准化的操作,再将标准化后的特征表示输入瓶颈层;
步骤21,将瓶颈层的输出Z输入由基于Conformer的双路径多尺度时延模块堆叠而成的分离结构,其中每个DP-MSTD-Conformer模块都通过整合全局信息和不同尺度的局部信息来形成DP-MSTD-Conformer模块的输出;
步骤22,利用一维门控卷积层来得到每个源信号在特征空间中对应的掩蔽估计,将其作用于混合物的高维特征表示即得到对应的特征估计。
4.根据权利要求3所述的方法,其特征在于,所述步骤20中,层标准化的操作公式如下:
其中,为W的第t列,/>为放缩因子,ε为极小的正数,可以取值为10-8,其通过避免分母出现取值为零的情况来维持数值稳定,E[·]和Var[·]分别表示计算向量的均值和方差。
5.根据权利要求3所述的方法,其特征在于,所述DP-MSTD-Conformer模块的底层与顶层各为一个前馈模块,所述前馈模块将层标准化的操作提前,并使用Swish激活函数进行非线性变换,在Swish激活函数和第二个线性层之后分别增加dropout操作,以提升网络的泛化性,为了学习到位置信息,将所述前馈模块的第一个线性层替换为循环神经网络;
所述DP-MSTD-Conformer模块最后通过一个标准化层对特征维度进行标准化以得到整个DP-MSTD-Conformer模块的输出,整个DP-MSTD-Conformer模块的输出将作为下一个DP-MSTD-Conformer模块的输入继续进行特征学习。
6.根据权利要求3所述的方法,其特征在于,所述DP-MSTD-Conformer模块使用改进的双路径变换器模块对长序列的全局特征进行学习,具体步骤如下:
步骤S1,分段步骤:以P个时间步为间隔将长序列输入分割成长度为K的短块;
步骤S2,处理步骤:将步骤S1分段后的特征输入双路径结构分别进行块内特征处理和块间特征处理以获取全局特征;
步骤S3,重叠累加步骤:将块间改进的变换器的输出按照分段的规律排列成重叠的短段,并且在相同的时间步上进行累加操作,最后删去最开始零填充位置对应的特征向量,得到DPTi模块的输出,在此基础上进行残差连接得到整个模块的输出。
7.根据权利要求6所述的方法,其特征在于,在所述步骤S1中,为保证没有多余的样本剩余且每个样本出现在不同短块中的次数一样,在分段前对输入序列进行零填充,具体步骤如下:
第一步,在序列的末尾填充M个时间步的全零特征向量,其中M的计算方式如下:
其中%表示取余操作;
第二步,在输入序列的一头一尾都填充P个时间步的全零特征向量。
8.根据权利要求6所述的方法,其特征在于,所述步骤S2中,还包括:
步骤S20,块内特征处理步骤:块内改进的变换器处理模块对S个短块中的每个短块单独建模,即在Dr的第二个维度上展开特征学习,公式如下:
其中为块内子模块的输出,fr(·)为改进的Transformer编码器定义的映射函数;
步骤S21,块间特征处理步骤:块间改进的变换器处理模块在的最后一个维度上进行特征学习便可关联所有短块的信息,最后得到基于全局信息的输出:
其中为块间子模块的输出,hr(·)表示改进的Transformer编码器作用的映射函数。
9.根据权利要求3所述的方法,其特征在于,所述DP-MSTD-Conformer模块使用多尺度时延下的多自头注意力模块作为局部特征学习模块放入Conformer的结构中以提升语音分离的效果,具体步骤如下:
步骤Y1,分段步骤:在分段前对长序列输入先进行零填充,零填充完毕后,将长序列输入分割成长度为K·2r-1,重叠率为长度一半的短段;
步骤Y2,多尺度时延采样步骤:在每个短段中分别进行多尺度时延采样,将每个短段时延采样后的所有结果沿一个新的维度拼接在一起得到采样后的输出;
步骤Y3,序列特征学习步骤:在每个长度为K的短块中都使用MHSA模块进行序列特征的学习,以此来捕获当前尺度下采样时间步之间的关系:
Q=[yr(H[:,:,s]),s=1,2,...,Sr] (3-14)
其中为为序列特征学习的输出,/>为第s个短块,yr(.)为MHSA模块对应的映射函数;为返回短段,沿着输出Q的最后一个维度以2r-1为间隔进行分块,共得到S′r个三维矩阵:
Qi=q[:,:,(i-1)·2r-1+1:i·2r-1],i=1,2,...,S′r (3-15)
其中为第i个分块构成的三维矩阵;在第二个维度上,将K个长度为2r-1的特征进行拼接,得到/>
步骤Y4,按照重叠累加的方式得到长序列输出。
10.根据权利要求1所述的方法,其特征在于,所述步骤3中,在解码阶段,使用一维转置卷积模块根据估计的源信号特征来重构对应的分离信号的时域波形,以第k个输入信号为例,经过一维转置卷积操作之后的输出为:
其中为转置卷积模块中的可学习参数,/>为分离模块产生的第k个输出,最后根据一维转置卷积操作中设置的滤波器长度和步长,通过重叠累加的方式得到时域波形的估计/>具体的计算方式如下:
其中为被初始化为全零向量,l为转置卷积的步长。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620353.0A CN116612779A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的单通道语音分离的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620353.0A CN116612779A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的单通道语音分离的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612779A true CN116612779A (zh) | 2023-08-18 |
Family
ID=87683325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310620353.0A Pending CN116612779A (zh) | 2023-05-29 | 2023-05-29 | 一种基于深度学习的单通道语音分离的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612779A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
-
2023
- 2023-05-29 CN CN202310620353.0A patent/CN116612779A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
CN117711423B (zh) * | 2024-02-05 | 2024-05-10 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vasquez et al. | Melnet: A generative model for audio in the frequency domain | |
Wang et al. | TSTNN: Two-stage transformer based neural network for speech enhancement in the time domain | |
Li et al. | Large-scale domain adaptation via teacher-student learning | |
Li et al. | An overview of noise-robust automatic speech recognition | |
EP1279165B1 (en) | Speech recognition | |
US6868380B2 (en) | Speech recognition system and method for generating phonotic estimates | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
CN116612779A (zh) | 一种基于深度学习的单通道语音分离的方法 | |
Ideli et al. | Visually assisted time-domain speech enhancement | |
Kumar et al. | Hindi speech recognition using time delay neural network acoustic modeling with i-vector adaptation | |
Hagen | Robust speech recognition based on multi-stream processing | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Zhou et al. | A novel BNMF-DNN based speech reconstruction method for speech quality evaluation under complex environments | |
Gupta et al. | High‐band feature extraction for artificial bandwidth extension using deep neural network and H∞ optimisation | |
Li et al. | A Convolutional Neural Network with Non-Local Module for Speech Enhancement. | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
Zhao et al. | Time Domain Speech Enhancement using self-attention-based subspace projection | |
Ali et al. | Enhancing Embeddings for Speech Classification in Noisy Conditions. | |
Hidayat et al. | Feature extraction of the Indonesian phonemes using discrete wavelet and wavelet packet transform | |
Sailor et al. | Unsupervised learning of temporal receptive fields using convolutional RBM for ASR task | |
Zhao | Control system and speech recognition of exhibition hall digital media based on computer technology | |
Xu et al. | Dual-path cross-modal attention for better audio-visual speech extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |