CN114023350A - 基于浅层特征重激活和多阶段混合注意力的声源分离方法 - Google Patents
基于浅层特征重激活和多阶段混合注意力的声源分离方法 Download PDFInfo
- Publication number
- CN114023350A CN114023350A CN202111318379.7A CN202111318379A CN114023350A CN 114023350 A CN114023350 A CN 114023350A CN 202111318379 A CN202111318379 A CN 202111318379A CN 114023350 A CN114023350 A CN 114023350A
- Authority
- CN
- China
- Prior art keywords
- sound source
- attention
- feature
- network model
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 96
- 230000007420 reactivation Effects 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000004580 weight loss Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 230000000873 masking effect Effects 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000005284 excitation Effects 0.000 claims description 8
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 244000141353 Prunus domestica Species 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开基于浅层特征重激活和多阶段混合注意力的声源分离方法,包括以下步骤:采集单通道混合信号和干净目标声源信号,其中,单通道混合信号与干净目标声源信号相对应,处理单通道混合信号,获得单通道混合信号时域嵌入向量;基于干净目标声源信号,计算权重损失函数;构建分离网络模型,将单通道混合信号时域嵌入向量输入初始分离网络模型,利用权重损失函数对分离网络模型进行训练,获得训练好的分离网络模型;利用训练好的分离网络模型,对单通道混合信号进行声源分离。本发明采用的多阶段网络模式和多监督训练方式改善网络的拟合能力,参数量小、运算效率高,进一步提高声源分离的性能。
Description
技术领域
本发明涉及单通道声源分离领域,特别是涉及基于浅层特征重激活和多阶段混合注意力的声源分离方法。
背景技术
声源分离旨在从混合信号中提取目标声源。在鸡尾酒会问题中,表示为从包含多个说话人的混合语音中分离出干净的目标说话人语音,这种特定的声源分离有许多后续的应用,例如说话人验证、声纹识别、说话人语音识别等。在带有强背景噪声的条件下,去噪任务可视做声源分离的另一种情况,噪声对于自动语音识别等任务的性能有很大影响。在音乐信号处理中,从歌曲中分离出干净的唱声源信号与各个乐器演奏信号,可应用于乐器类型检测、唱声基频估计、自动歌词识别、自动歌手识别等。
近些年声源分离任务的研究在学术界和工业界都得到巨大的发展,早期传统机器学习的方法与现在广为流行的深度学习的研究都取得一定的成功。尤其是针对有监督方式的声源分离任务,如今声源分离模型的分离性能已经达到一定的高度,但对于实际应用的需求,当前的技术仍然需要不断地革新以趋于成熟。尽管人们可以轻易地感知混合信号中的某个独立源,但对于计算机来说学会认知某种特征却是困难的,尤其是当系统只存在单通道混合信号时。
得益于深度学习的快速发展,声源分离技术在近几年有很大程度的进步,但当前的分离模型仍存在一些限制。对于普遍使用的CNN,对局部特征有较好的学习能力,但缺少时序性的概念。相比较而言,循环神经网络可以捕获较长的上下文关系,但又需要花费较长的训练时间,这对于模型参数的优化是不利的。
发明内容
本发明的目的是提供一种基于浅层特征重激活和多阶段混合注意力的声源分离方法,以解决上述现有技术存在的问题,采用的多阶段网络模式和多监督训练方式改善网络的拟合能力,参数量小、运算效率高,进一步提高声源分离的性能。
为实现上述目的,本发明提供了如下方案:基于浅层特征重激活和多阶段混合注意力的声源分离方法,包括以下步骤:
采集单通道混合信号和干净目标声源信号,其中,所述单通道混合信号与所述干净目标声源信号相对应,对所述单通道混合信号进行处理,获得单通道混合信号时域嵌入向量;
基于所述干净目标声源信号,计算权重损失函数;
构建分离网络模型,将所述单通道混合信号时域嵌入向量输入所述分离网络模型,利用所述权重损失函数对所述分离网络模型进行训练,获得训练好的分离网络模型;
利用所述训练好的分离网络模型,对所述单通道混合信号进行声源分离。
可选地,在处理所述单通道混合信号的过程中,将所述单通道混合信号送入编码器,采用一维卷积神经网络处理所述单通道混合信号,获得所述单通道混合信号嵌入向量。
可选地,获得所述训练好的分离网络模型的过程包括:
将所述单通道混合信号时域嵌入向量输入所述分离网络模型,结合浅层特征重激活机制,获取多个目标声源的估计特征掩蔽矩阵,基于所述多个目标声源的估计特征掩蔽矩阵,利用所述权重损失函数,更新所述分离网络模型的参数,获得分离网络模型,其中,所述浅层特征重激活机制,利用不同阶段产生的时域特征向量所包含特征信息的差异,对浅层的特征与深层特征进行剪枝和融合,提取时域特征。
可选地,利用所述训练好的分离网络模型,对所述单通道混合信号进行声源分离包括:
基于所述多个目标声源的估计特征掩蔽矩阵和所述单通道混合信号时域嵌入向量获得多个目标声源信号的特征向量,进行解码,得到多个目标声源信号的波形信号,完成分离。
可选地,所述分离网络模型包括混合注意力模块,所述混合注意力模块用于对所述单通道混合信号时域嵌入向量获取更优的细粒度特征表示。
可选地,所述混合注意力模块包括多头自注意力子单元、元素注意力子单元和自适应压缩激励子单元。
可选地,获取所述更优的细粒度特征表示包括:通过所述多头自注意力子单元获取混合信号时间序列上的相关性,结合所述元素注意力子单元和自适应压缩激励子单元获取混合信号点与点之间以及通道之间特征相关性,获得所述更优的细粒度特征表示。
可选地,基于权重损失函数更新所述分离网络模型的参数时,还包括基于所述细粒度的时域细节特征和所述更优的细粒度特征表示对所述分离网络模型的参数进行优化。
可选地,所述目标声源的估计特征掩蔽矩阵利用阶段混合注意力机制网络获取,其中,所述多阶段混合注意力机制网络中包括多个阶段混合注意力子模块,获取过程包括:选取最后一个阶段混合注意力子模块的输出,作为所述多个目标声源的特征掩蔽估计矩阵。
可选地,所述多个阶段混合注意力子模块中单个阶段混合注意力模块提取特征向量包括:通过所述单个阶段混合注意力模块中不同类型的注意力机制,获取时域特征,其中,所述时域特征包括局部时域特征和全局时域特征,根据所述时域特征获得局部特征和全局特征,将所述局部特征和全局特征进行融合,得到所述单个阶段混合注意力子模块的特征向量。
本发明公开了以下技术效果:
本发明提供的基于浅层特征重激活和多阶段混合注意力的声源分离方法,
(1)采用浅层特征重激活机制为网络获取更优的特征表示,经过不同阶段特征剪枝融合操作,结合多阶段的混合注意力模块汇总不同类型的上下文信息,可以提取不同声源更加精细的时域特征。本发明采用的多阶段网络模式和多监督训练方式改善网络的拟合能力,进一步提高声源分离的性能。
(2)通过实验结果表明,本发明采用的分离模型可以很好地应用在多说话人分离任务中,也可应用在音乐源分离以及背景嘈杂条件下的目标语音增强任务中,模型更具伸缩性。
(3)本发明采用的分离网络将CNN和RNN相结合,参数量小、运算效率高,在保证网络模型的较低计算复杂度的同时获取到较长范围上下文信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于浅层特征重激活和多阶段混合注意力的声源分离方法流程示意图;
图2为发明实施例的整体方案示意图;
图3为本发明实施例的混合注意力网络模型示意图;
图4为本发明实施例的自适应压缩激励注意力单元网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提供了一种基于浅层特征重激活和多阶段混合注意力的声源分离方法,如图1所示,在实施时包括以下步骤:
S1、采集单通道混合信号和干净目标声源信号,处理所述单通道混合信号,获得单通道混合信号时域嵌入向量;基于干净目标声源信号,计算权重损失函数。
获得一定数量的单通道混合信号及其对应的干净目标声源(即干净的每个说话人语音),具体为,对于单通道混合信号,要有干净的目标声源样本匹配。
将单通道混合时域信号送入编码器进行处理,获得单通道混合信号时域嵌入向量。其中,编码器处理为:通过一维卷积神经网络将单通道混合信号处理得到单通道混合信号的时域嵌入向量。
S2、构建分离网络模型,将单通道混合信号时域嵌入向量输入分离网络模型,利用权重损失函数对分离网络模型进行训练,获得训练好的分离网络模型。
构建并训练分离网络模型是实现混合信号中的目标声源分离的基础。如图2所示的浅层特征重激活机制和多阶段混合注意力机制网络模型图,训练和测试时均使用该分离网络模型,在训练网络模型时需要根据损失函数并结合优化函数更新网络参数,另外,在训练分离网络时,网络的输出包含多个阶段的输出,网络梯度的更新由多阶段输出共同决定,在执行声源分离时,网络的输出仅包含最后一个阶段的输出。
训练该基于浅层特征重激活机制和多阶段混合注意力机制的声源分离网络模型(也即是训练神经网络参数)时,具体按照以下步骤实施:
步骤train1:将单通道混合信号时域嵌入向量作为分离网络模型的输入,将干净目标声源的波形信号用于计算损失函数,进行神经网络模型训练,训练的速度取决于机器硬件的配置和样本的规模。
具体为,利用浅层特征重激活机制和多阶段混合注意力机制网络模型搭建神经网络,将网络设置为可训练状态(即网络参数会随着训练迭代不断的更新)。基于多阶段混合注意力模块和浅层特征重激活机制获得多个目标声源的估计特征掩蔽矩阵,将混合信号时域波形信号x(t)作为分离网络的输入,同时将干净目标声源对应的时域波形信号s1(t)、s2(t)、…、sl(t)用作多阶段网络输出端的监督来训练神经网络模型,通过网络模型学习和区分时域特征。混合源信号x(t)在时域中的表示如式(1)所示:
其中,I的值表示为预分离目标声源的个数,si(t)表示为干净目标声源对应的时域波形信号。x(t)也即是对于要分离的目标声源,理论上应满足混合源的波形信号等于目标声源对应波形信号的相加之和。
具体来说,输入的混合信号的时域波形经过编码器得到混合信号的时域嵌入向量,并通过分离模型得到多个阶段的网络输出,将最后一个阶段输出的多个声源估计特征掩蔽矩阵分别与经过编码器的混合信号时域嵌入向量相乘,经过解码器得到分离的多个目标声源时域波形,本实施例采用基于浅层特征重激活机制和多阶段混合注意力机制的声源分离网络来实现训练和分离,基于浅层特征重激活机制和多阶段混合注意力机制的声源分离网络模型如图2所示。
在本实施例中分离网络模型包括混合注意力模块,混合注意力模块作为主要的特征提取子网络,采用混合注意力模块能够实现对局部和全局上下文关系的获取,使网络获得更优的特征表示,混合注意力模块结构如图3所示。为获取长时间序列之间的上下文信息,通常采用RNN或者CNN结构。一种方法是使用循环神经网络获取上下文信息,通常采用长短时记忆结构,但是这种结构需要相当长度的时序信号作为输入,且计算复杂度高,时间花费较大。另一种方法使用带有扩张因子的卷积神经网络,但一味增大扩张率会使得权重矩阵过于稀疏,导致特征信息丢失。或是增大卷积核尺寸,但会导致计算负荷和训练时间增加。另外一种方式是增加网络深度,但这会降低计算效率,并通常导致梯度消失、网络退化等问题。为了有效解决这一问题,本实施例中采用一种混合注意力模块,通过循环神经网络和自注意力机制对原始分辨率下的不同维度特征获取全局上下文相关性,使用卷积神经网络获取局部信息。通过结合已建立的全局相关性,随后的特征提取模块能够更好地学习局部时域特征。
混合注意力模块的输入是经过分块之后的时域特征,经过多个阶段特征提取,深层特征会丢失部分特征信息,因此需要将浅层特征与深层特征进行融合以补充原始特征信息。本发明实施例中所述多阶段浅层特征重激活机制的描述如下:
在深度神经网络中通常使用密集连接来实现特征复用,但是随着网络中的连接密度过高,会存在较多冗余特征,如果直接将浅层特征参与本层的新的特征计算会引入冗余计算,为了解决这一问题,在本发明中我们使用分组卷积的方式,对可能产生的冗余特征进行剪枝,并且对具有价值的冗余特征进行重激活,以提高特征利用率,增强网络的特征提取能力,提取更加丰富且有效的时域特征。浅层特征重激活机制的计算过程如式(2)所示:
yp=Mp(concat[y0,y1,...,yp-1]) (2)
其中,y0,y1,...,yp-1表示p层之前每层的特征,Mp(·)表示第p层的特征提取操作,yp表示经过Mp(·)后所得到的特征,concat[]表示拼接操作。将p层之前的所有特征,y0,y1,...,yp-1,经过拼接后输入到第p层进行特征提取,生成该层的新特征yp。再经过特征进行重激活操作得到如式(3)所示:
其中,y0,y1,...,yp-1表示p层及之前层的特征,R(·)表示特征重激活层,表示经过特征重激活后的特征。这里特征重激活层R(·)为可学习的分组卷积,卷积核大小为1×1,设权重矩阵为F∈RO×N×1×1,其中O为输出通道数,N表示输入通道数。并将权重划分为g个组,F1,...,Fg,其中每个权重的维度Fg∈RO×(N/g)。选择性的挑选出重要的浅层特征来参与新的特征融合,可以有效地减小网络的计算开销,同时对浅层的特征进行重激活,提高深层网络中的特征利用率。
本实施例中混合注意力模块结构包括多头自注意力(Multi-head self-attention)子单元、元素注意力(Element-wise attention)子单元和自适应压缩激励(Squeeze and Excitaion,SE)子单元三种不同单元结构,混合注意力模块获取更优的细粒度特征表示的方法具体为:通过多头自注意力子单元获取混合信号时间序列上的相关性,结合所述元素注意力子单元和自适应压缩激励子单元获取混合信号点与点之间以及通道之间特征相关性,获得所述更优的特征表示。多阶段混合注意力机制和浅层特征重激活机制还基于特征信息间的差异获得细粒度的时域细节特征。
多头自注意力(Multi-head self-attention)子单元、元素注意力(Element-wiseattention)子单元和自适应压缩激励(Squeeze and Excitaion,SE)子单元具体为:
1.多头自注意力(Multi-head self-attention)子单元
多头自注意力单元旨在利用任意两个位置特征之间的关联关系,来获取长时间序列上各帧之间相互关系以相互增强各自位置特征的表达。自注意力机制通过对输入的时间帧序列自身求取权重值,来获取每一帧在时间帧序列中所占的权重,进而获取当前帧在时间帧序列中的上下文关系。给定一个输入H∈RC×K×S,分别经过两个卷积核为1×1大小的卷积层分别产生两组特征Q和K,这里Q和K维度相等,而且Q,K∈RN×K×S,N表示输出通道数,K表示每一帧的长度,S表示特征向量的维度。对于Q上的任意一个通道u,可以得到向量Qu∈RK ×S,同理可以获得在K上同一通道u特征向量集合Ku∈RK×S。进一步地,通过Affinity仿射变换操作结合Q与K的特征向量得到注意力权重矩阵。仿射变换操作定义为如式(4)所示:
这里获得的Wu表示Qu和Ku的相关程度的权重矩阵,W∈RK×K。得到的相关性通过一个Softmax层得到归一化后的权重矩阵A∈RK×K。除此之外,输入H同时经过一个卷积核为1×1大小的卷积层产生V,V∈RN×K×S。基于此,Attention操作定义为如式(5)所示:
这里的dk为特征向量的维度,QKT为Q和K的相关程度的权重矩阵,softmax()为Softmax层。多头自注意力是将输入数据切分成h份对每一份数据执行自注意力操作,将得到的权重矩阵进行拼接与原始输入相乘得到每一帧在全局上下文的关系如式(6)-(7)所示。
Multi Head(Q,K,V)=Concat(head1,...,headh) (7)
这里headi中的i为多头的个数,i=[1,…,h],为经过切分后Q,K,V所对应的权重,Multi Head(Q,K,V)为经过最后的拼接得到最终输出特征。经过多头自注意力操作使得结合了全局上下文的局部特征有更优的空间位置表达。
2.元素注意力(Element-wise attention)子单元
RNN可以对长时间序列的上下文关系进行建模,进而捕获全局特征,但是没有考虑到点与点间的重要性与相关性。于是,本发明采用了一种使用门控机制的循环神经网络单元,对点与点间的关系进行补充。对于给定的输入H∈RN×K×S,分别通过两个双向长短时记忆(Bi-directional Long Short-Term Memory,BLSTM)层捕获上下文关系,而后其中一路通过Sigmoid层后与另一路相乘得到注意力特征矩阵A∈RN×K×S,表征特征序列中元素级别相关性。门控循环神经网络的计算过程如式(8)所示所示:
A=σ(BLSTM(H))×BLSTM(H)+H (8)
这里的BLSTM(·)指的是双向长短时记忆层的操作,σ为Sigmoid层,A为经过最后的残差连接将输入与得到的特征加和。通过结合多头自注意力获得的特征与门控神经网络得到的特征,帧与帧间相关性和点与点间的相关性被同时捕获到,网络得到了更优的特征表示。
3.自适应压缩激励(Squeeze and Excitaion,SE)子单元
通道注意力网络是从通道的角度对特征的上下文关系进行建模,但是没有考虑到特征时间帧之间的重要性与相关性。于是,本发明采用了一种专门的自适应压缩激励卷积神经网络针对特征通道间和时间帧间的关系进行同时建模,如图4所示。对于给定的输入H∈RN×K×S,上半部分通过一个全局平均池化层压缩特征图的空间依赖性,而后通过一个1×1大小的卷积层和Sigmoid层缩放特征通道并赋予通道之间各自的重要程度,得到权重矩阵Ach∈RN×1×1。通道注意力的计算过程如式(9)所示所示:
Ach=σ(WC(δWC/r(fGap(H)))) (9)
这里的指的是全局平均池化层的操作,WC/r和WC为两个1×1大小的卷积层的权重矩阵,δ指的是非线性激活单元ReLU,σ为Sigmoid层。获得的权重矩阵Ach与输入H相乘即可得到通道注意力网络的输出。下半部分采用相似的操作针对K维度进行,时间注意力的计算过程如式(10)所示所示:
At=σ(WN(δWN/r(fGap(H))) (10)
将的得到原始输入特征、通道注意力特征和时间注意力特征分别经过三个1×1大小的卷积层,获得不同程度的自适应加权,将得到特征相加获得最终的输出特征。自适应加权的计算过程如式(11)所示所示:
Output=Wα·Ach·H+Wβ·At·H+Wγ·H (11)
这里Wα,Wβ,Wγ分别为卷积的权重矩阵,Ach和At分别为通道注意力和时间注意力的权重矩阵。通过结合得到的时间注意力特征与通道注意力特征,时间相关性和通道间的相关性被同时捕获到,网络得到了更优的特征表示。
在图2中所述的多阶段(Multi-stage)网络中不同阶段的输出所包含的特征尺度并不相同,因此对不同阶段输出的估计特征赋予不同的权重值,分别与参考值进行损失函数计算。
本发明实施例中多阶段多尺度权重损失函数细节如式(12)所示。
其中,i为阶段数,loss为si-snr尺度不变信噪比,为权重值。在损失计算中,较深的层被赋予较大的权重,也即是在损失计算中分配较大的权重,给较深的层一个较大的损失权重可以稳定训练过程。基于权重损失函数更新分离网络模型的参数时,还包括基于细粒度的时域细节特征和更优的特征表示对所述分离网络模型的参数进行优化。
在分离网络模型训练过程中,将混合源时域信号作为分离网络的输入,干净目标声源的波形信号用于网络的多阶段监督。并且,用于训练的样本要尽可能是高质量并且多样化的,这样才能保证网络对数据有较好的泛化性。
步骤train2:保存训练好的网络模型参数,即获得训练好的分离网络模型。
S3、利用训练好的分离网络模型,对单通道混合信号进行声源分离。
单通道声源分离的目标是将单通道混合信号中的目标声源信号孤立出来。
具体过程为:根据多个目标声源的估计特征掩蔽矩阵和单通道混合信号的嵌入向量获得多个目标声源信号的特征向量,经过解码器得到多个目标声源信号的波形信号,完成分离。其中,多个目标声源的估计特征掩蔽矩阵获取过程为:在多阶段混合注意力机制网络中包括多个阶段混合注意力子模块,选取多个阶段混合注意力网络中最后一个阶段混合注意力子模块的输出为多个目标声源的特征掩蔽估计矩阵。多个阶段混合注意力子模块中单个阶段混合注意力模块提取特征向量过程为:通过混合注意力模块中不同类型的注意力机制获取局部和全局时域特征,根据局部和全局时域特征获得局部特征和全局特征,将局部特征和全局特征进行融合,得到经过此阶段混合注意力子模块的特征向量。
综上所述,本发明实施例的优点在于:实现了从单通道混合信号中分离多个目标声源信号,相较于目前主流的单通道多声源分离模型,提高了声源分离的性能和模型的泛化性,并优化了网络模型参数,缩短运算时间,减轻训练负担,以及为包含不同声源的场景提供可扩展性(同样的模型可以应用在多个不同的任务场景)。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (10)
1.基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,包括以下步骤:
采集单通道混合信号和干净目标声源信号,其中,所述单通道混合信号与所述干净目标声源信号相对应,对所述单通道混合信号进行处理,获得单通道混合信号时域嵌入向量;
基于所述干净目标声源信号,计算权重损失函数;
构建分离网络模型,将所述单通道混合信号时域嵌入向量输入所述分离网络模型,利用所述权重损失函数对所述分离网络模型进行训练,获得训练好的分离网络模型;
利用所述训练好的分离网络模型,对所述单通道混合信号进行声源分离。
2.根据权利要求1所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,在处理所述单通道混合信号的过程中,将所述单通道混合信号送入编码器,采用一维卷积神经网络处理所述单通道混合信号,获得所述单通道混合信号嵌入向量。
3.根据权利要求1所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,获得所述训练好的分离网络模型的过程包括:
将所述单通道混合信号时域嵌入向量输入所述分离网络模型,结合浅层特征重激活机制,获取多个目标声源的估计特征掩蔽矩阵,基于所述多个目标声源的估计特征掩蔽矩阵,利用所述权重损失函数,更新所述分离网络模型的参数,获得分离网络模型,其中,所述浅层特征重激活机制,利用不同阶段产生的时域特征向量所包含特征信息的差异,对浅层的特征与深层特征进行剪枝和融合,提取时域特征。
4.根据权利要求3所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,利用所述训练好的分离网络模型,对所述单通道混合信号进行声源分离包括:
基于所述多个目标声源的估计特征掩蔽矩阵和所述单通道混合信号时域嵌入向量获得多个目标声源信号的特征向量,进行解码,得到多个目标声源信号的波形信号,完成分离。
5.根据权利要求3所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,所述分离网络模型包括混合注意力模块,所述混合注意力模块用于对所述单通道混合信号时域嵌入向量获取更优的细粒度特征表示。
6.根据权利要求5所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,所述混合注意力模块包括多头自注意力子单元、元素注意力子单元和自适应压缩激励子单元。
7.根据权利要求6所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,获取所述更优的细粒度特征表示包括:通过所述多头自注意力子单元获取混合信号时间序列上的相关性,结合所述元素注意力子单元和自适应压缩激励子单元获取混合信号点与点之间以及通道之间特征相关性,获得所述更优的细粒度特征表示。
8.根据权利要求7所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,基于权重损失函数更新所述分离网络模型的参数时,还包括基于所述细粒度的时域细节特征和所述更优的细粒度特征表示对所述分离网络模型的参数进行优化。
9.根据权利要求3所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,所述目标声源的估计特征掩蔽矩阵利用阶段混合注意力机制网络获取,其中,所述多阶段混合注意力机制网络中包括多个阶段混合注意力子模块,获取过程包括:选取最后一个阶段混合注意力子模块的输出,作为所述多个目标声源的特征掩蔽估计矩阵。
10.根据权利要求9所述的基于浅层特征重激活和多阶段混合注意力的声源分离方法,其特征在于,所述多个阶段混合注意力子模块中单个阶段混合注意力模块提取特征向量包括:通过所述单个阶段混合注意力模块中不同类型的注意力机制,获取时域特征,其中,所述时域特征包括局部时域特征和全局时域特征,根据所述时域特征获得局部特征和全局特征,将所述局部特征和全局特征进行融合,得到所述单个阶段混合注意力子模块的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318379.7A CN114023350A (zh) | 2021-11-09 | 2021-11-09 | 基于浅层特征重激活和多阶段混合注意力的声源分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111318379.7A CN114023350A (zh) | 2021-11-09 | 2021-11-09 | 基于浅层特征重激活和多阶段混合注意力的声源分离方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114023350A true CN114023350A (zh) | 2022-02-08 |
Family
ID=80062558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111318379.7A Pending CN114023350A (zh) | 2021-11-09 | 2021-11-09 | 基于浅层特征重激活和多阶段混合注意力的声源分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114023350A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117388893A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市移联通信技术有限责任公司 | 一种基于gps的多设备定位系统 |
-
2021
- 2021-11-09 CN CN202111318379.7A patent/CN114023350A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117388893A (zh) * | 2023-12-11 | 2024-01-12 | 深圳市移联通信技术有限责任公司 | 一种基于gps的多设备定位系统 |
CN117388893B (zh) * | 2023-12-11 | 2024-03-12 | 深圳市移联通信技术有限责任公司 | 一种基于gps的多设备定位系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Guirguis et al. | SELD-TCN: Sound event localization & detection via temporal convolutional networks | |
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Cao et al. | Polyphonic sound event detection and localization using a two-stage strategy | |
CN113035227B (zh) | 一种多模态语音分离方法及系统 | |
He et al. | Neural network adaptation and data augmentation for multi-speaker direction-of-arrival estimation | |
CN110503971A (zh) | 用于语音处理的基于神经网络的时频掩模估计和波束形成 | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
Ren et al. | CAA-Net: Conditional atrous CNNs with attention for explainable device-robust acoustic scene classification | |
Lam et al. | Effective low-cost time-domain audio separation using globally attentive locally recurrent networks | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
Eskimez et al. | GAN-Based Data Generation for Speech Emotion Recognition. | |
CN113241092A (zh) | 基于双注意力机制和多阶段混合卷积网络声源分离方法 | |
Xiong et al. | Look&listen: Multi-modal correlation learning for active speaker detection and speech enhancement | |
CN115240702B (zh) | 基于声纹特征的语音分离方法 | |
CN112259119B (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
CN114528762A (zh) | 一种模型训练方法、装置、设备和存储介质 | |
Tan et al. | Selinet: a lightweight model for single channel speech separation | |
Wang et al. | The dku post-challenge audio-visual wake word spotting system for the 2021 misp challenge: Deep analysis | |
CN112180318A (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN114023350A (zh) | 基于浅层特征重激活和多阶段混合注意力的声源分离方法 | |
Xiang et al. | Distributed Microphones Speech Separation by Learning Spatial Information With Recurrent Neural Network | |
CN118155654A (zh) | 模型训练方法、音频成分缺失识别方法、装置及电子设备 | |
Wan | Research on speech separation and recognition algorithm based on deep learning | |
CN114550047B (zh) | 一种行为速率引导的视频行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |