CN113380262A - 一种基于注意力机制与扰动感知的声音分离方法 - Google Patents
一种基于注意力机制与扰动感知的声音分离方法 Download PDFInfo
- Publication number
- CN113380262A CN113380262A CN202110519845.1A CN202110519845A CN113380262A CN 113380262 A CN113380262 A CN 113380262A CN 202110519845 A CN202110519845 A CN 202110519845A CN 113380262 A CN113380262 A CN 113380262A
- Authority
- CN
- China
- Prior art keywords
- signal
- feature
- sound
- channel
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 60
- 230000007246 mechanism Effects 0.000 title claims abstract description 12
- 230000008447 perception Effects 0.000 title claims abstract description 9
- 230000005236 sound signal Effects 0.000 claims abstract description 109
- 230000006870 function Effects 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000004913 activation Effects 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 23
- 230000004927 fusion Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 19
- 238000007906 compression Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明属于声音信号分离技术领域,特别涉及一种基于注意力机制与扰动感知的声音分离方法,包括获取声音信号数据集,对该数据集的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集;将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号;利用验证集数据验证每次单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;将待分离的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号;本发明能够进一步学习区分混合信号中的噪声信号,解决了单通道语音分离网络对噪声鲁棒性不足的问题。
Description
技术领域
本发明属于声音信号分离技术领域,特别涉及一种基于注意力机制与扰动感知的声音分离方法。
背景技术
语音分离是信号处理领域中的一项基础任务,并且在各项声音处理任务中有着广泛地应用,包括移动通信、语音识别以及情感识别等任务。单通道语音分离(SingleChannel Speech Separation,SCSS)指从一维混合语音信号中恢复出多个独立源语音信号的过程。单通道语音分离通常难以利用源声音信号的空域信息。缺乏足够先验信息的指导使得单通道语音分离成为语音分离任务中亟待解决的重要课题之一。
随着深度学习技术的发展,神经网络也逐渐被广泛地应用于不同的声音信号处理任务中,传统的信号处理方法通常包含多个相互依赖的子步骤,当前步骤处理结果的好坏往往会影响下一步骤的处理结果。而深度学习可以将多个具有依赖关系的处理模块整合到一个神经网络中,大大降低了信号处理方法的实现复杂度,同时神经网络具有强大的拟合性能及映射能力,使得其在不同的信号处理任务中都获得了不俗的效果。
对于单通道语音分离任务而言,传统的U-Net结构无法得到多个分离后的独立源声音信号,需要对U-Net网络结构进行进一步改进,同时由于传统U-Net缺少对信号输入的充分学习,没有充分利用信号特征的一维空间信息,并且现有的深度学习方法缺乏对单通道语音中背景噪声的有效学习,导致相关方法得到的分离后声音信号准确率偏低。
发明内容
为了提高单通道语音的分离效果,本发明提出一种基于注意力机制与扰动感知的声音分离方法,包括以下步骤:
S1、获取声音信号数据集,对该数据集的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集;
S2、将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号;
S3、利用验证集数据验证每次单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;
S4、将待分离的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号。
进一步的,对声音信号进行预处理得到混合声音信号具体包括:
将多份独立源声音信号进行裁剪,每份信号裁剪后得到多段时长为N秒的声音信号切片;
将每份裁剪后的声音信号进行重采样,采样频率为8000hz;
将采样后的声音信号进行归一化处理;
将归一化处理后属于不同独立源信号的声音片段进行逐位相加,随后与一段时长为N秒、采样率为8000hz的噪声片段再次逐位相加,得到最终的混合声音信号。
优选的本发明将信号裁剪为2秒每段。
进一步的,单通道语音分离网络模型包括编码器网络、解码器网络以及注意力融合的掩模分离模块,单通道语音分离网络模型将混合声音信号分离得到独立声音信号的过程包括以下步骤:
编码器网络对输入的混合声音信号进行特征提取及降维,得到混合声音信号的深度特征;
注意力融合的掩模分离模块对深度特征进行过滤,并生成独立源信号掩膜和噪音掩膜;
令深度特征分别与每个掩膜进行向量间的逐元素相乘,得到每个独立源信号的特征以及噪音信号特征;
解码器网络对根据掩膜得到的每个信号特征进行数据重构,得到分离的每个独立信号。
进一步的,编码器网络包括4个级联的特征提取模块,即除第一个特征模块以混合声音信号作为输入外其他特征提取模块均以上一个特征模块的输出作为输入,每个特征分模块包括一个卷积核为1×w′×C的卷积操作、一个批标准化层以及一个ReLU激活函数,混合声音信号原始通道为1,四个特征提取模块按照级联顺序每个的通道数依次为16、32、64、128;其中,w′为输入特征提取模块信号的长度,C为当前信号的通道数。
进一步的,注意力融合的掩模分离模块对深度特征进行过滤包括:
对输入的深入特征使用全局平均池化进行基于通道上的压缩,得到一个1×1×C的压缩特征,随后依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及同样卷积核大小的卷积操作,将得到的激活特征使用sigmoid函数进行数值约束得到维度为1×1×C的特征图,其中C为当前信号的通道数;
将得到的维度为1×1×C的特征图与输入的深度特征相乘得到基于通道注意力过滤的深度特征;
使用大小为1×w的卷积核对深度特征;
进行基于空间的特征压缩并使用ReLU激活函数进行激活处理,随后将得到的激活特征依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及sigmoid函数得到维度为1×w×1的特征图;
将得到的维度为1×w×1的特征图与输入的深度特征相乘得到基于空间注意力过滤的深度特征;
将基于通道注意力过滤的深度特征和基于空间注意力过滤的深度特征进行拼接,得到大小为1×w×2*C的拼接特征,随后使用大小为1×1的卷积核进行卷积融合操作,得到注意力融合特征。
进一步的,生成独立源信号掩膜和噪音掩膜,即对得到的1×w×C的注意力融合特征使用大小为1×1的卷积进行通道压缩,随后使用sigmoid函数得到大小为1×w×1的信号掩模。
进一步的,解码器网络包括4个级联的信号重构模块,深度特征分别与每个掩膜进行向量间的逐元素相乘得到的每个独立源信号的特征以及噪音信号特征作为第一个信号重构模块的输入,其他信号重构模块均以上一个特征模块的输出作为输入,每个特征提取模块包括上采样操作、一个卷积核大小为1×1×C的卷积操作、一个批标准化层以及一个ReLU激活函数,其中C为当前模块设计的通道数大小,第一个信号重构模块的输入信号通道数为128,信号重构模块依照级联顺序每个的通道数C依次为64、32、16、1。
本发明的有益效果在于:
1)本发明基于端到端的神经网络,相比于传统方法的分步骤处理,本发明将特征提取、信号分离以及信号重构的步骤整合到一个网络中进行,在降低处理过程的复杂性的同时提升了分离音频信号的时间效率。
2)本发明针对声音信号分离的神经网络中的信号分离模块提出了改进,使用了基于通道的注意力机制以及基于空间的注意力机制分别对提取得到的信号特征进行特征过滤,随后将不同机制过滤的特征进行特征融合以获得更鲁棒的特征表示。
本发明针对单通道语音分离网络对噪声鲁棒性不足的问题,在网络输入信号中添加一段额外的噪声信号,使得网络在学习目标信号分离的同时,能够进一步学习区分混合信号中的噪声信号。
附图说明
图1为本发明基于注意力机制与扰动感知的语音分离整体网络结构示意图;
图2为本发明的语音特征分离结构示意图;
图3为本发明的注意力融合结构示意图;
图4为编码器模块结构示意图;
图5为解码器模块结构示意图;
图6为一个合成混合声音信号的示意图;
图7为实施例中声音信号1的真实值;
图8为实施例中声音信号1的预测值;
图9为实施例中声音信号2的真实值;
图10为实施例中声音信号2的预测值;
图11为实施例中声音信号3的真实值;
图12为实施例中声音信号3的预测值。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于注意力机制与扰动感知的声音分离方法,包括以下步骤:
S1、获取声音信号数据集,对该数据集的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集;
S2、将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号;
S3、利用验证集数据验证每次单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;
S4、将待分离的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号。
实施例1
S1、获取声音信号数据集,对当前的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集以及测试集;
作为一种实现方式,声音信号的获取方式包括相关设备现场采集、视频,音频声音截取以及人工合成声音信号。通过以上方法获取三份独立的声音样本,随后对当前的声音样本进行预处理。
具体的,声音样本预处理包括对声音样本进行裁剪,每份声音样本经过裁剪后得到多段时长为2秒的声音信号切片,若最后一段切片信号长度不足2秒,填充0样本直至时长达到2秒。随后对得到的声音切片重采样到指定采样率(如8000hz),根据原始声音信号采样率的不同,重采样的方法可以采用降采样、增采样、内插滤波采样以及非整数因子重采样方法。随后对采样后的各个声音切片进行归一化处理,具体归一化方法包括最小值-最大值标准化、z-score标准化等。
将属于不同源声音样本的三份归一化处理后的声音切片进行叠加,随后将叠加后的声音样本与一段时长为2秒,采样率为8000hz的噪声片段再次进行叠加,得到最终得混合声音样本。本实施例中选择为2秒长度的,但是实际操作过程中可以不限制剪裁长度,只需要保证每段音源以及噪音的剪裁长度一致即可。
将叠加后的混合声音样本划分为训练集、验证集以及测试集,具体划分比率为70%的数据为训练集,10%的数据为验证机,20%的数据为测试集。训练集用于训练网络,验证集用于在训练过程中测试网络性能,测试集用于测试训练后的网络性能;训练集数据中包括混合信号和混合信号中各个信号的独立音源信号和噪音信号,利用神经网络反向传播对掩膜中各个参数进行优化,直到其损失函数达到规定范围,掩膜参数是根据神经网络在训练阶段进行固定的,在训练过程中,将每段独立音源与掩膜音源的之间的损失进行反向传播优化掩膜,直到损失小于阈值,保存掩膜。
S2、将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号。如图1所示,单通道语音分离网络包括编码器网络、注意力融合的掩模分离模块以及解码器网络,混合声音信号首先输入至编码器网络中进行特征提取,随后将提取的深度特征送入注意力融合的掩模分离模块生成不同的声音特征掩模,将编码器得到的声音特征分别与不同的声音掩模进行逐元素相乘得到用于还原不同声音信号的重构特征。最后将不同的重构特征输入至解码器网络生成分离的声音信号。
具体的,注意力融合的掩模分离模块的整体结构如图2所示。将编码器网络生成的深度特征分别输入至四个相互独立的注意力融合模块中,得到四个不同的声音掩模,随后将编码器网络生成的深度特征与不同的掩模进行逐元素相乘,得到用于重构不同声音信号的重构特征。随后将不同的重构特征输入至解码器网络中。
具体的,掩模分离模块中的注意力融合结构如图3所示。对于形如1×w×C的深度特征y,其中C为通道数。首先对深入特征y使用全局平均池化进行基于通道上的压缩,得到一个1×1×C的压缩特征,随后依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及同样卷积核大小的卷积操作,将得到的激活特征使用sigmoid函数进行数值约束得到维度为1×1×C的特征图。将此特征图与输入特征y相乘得到基于通道注意力过滤的深度特征yc;随后我们使用大小为1×w的卷积核对输入特征y进行基于空间的特征压缩并使用ReLU激活函数进行激活处理,随后将得到的激活特征依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及sigmoid函数得到维度为1×w×1的特征图,将此特征图与输入特征y相乘得到基于空间注意力过滤的深度特征ys。在分别得到基于通道注意力的深度特征yc以及基于空间注意力过滤的深度特征ys后,本模块随后将yc与ys在通道维度上进行拼接,得到大小为1×w×2*C的拼接特征,随后使用大小为1×1的卷积核进行卷积融合操作,得到注意力融合特征yi′。随后本模块将大小为1×w×C的声音特征y′i转换为对应的声音掩模mi,首先使用大小为1×1的卷积进行通道压缩,随后使用sigmoid函数得到大小为1×w×1的信号掩模mi。
具体的,编码器网络的编码模块与解码器网络的解码模块分别如图4与图5所示。每个编码模块包含一个卷积层、一个批标准化层以及一个ReLU激活函数。每个解码模块包含一个上采样层,具体上采样方法可以选用反卷积、双线性插值,三次线性插值以及临近插值等,一个卷积层,一个批标准化层以及一个ReLU激活函数。
在得到重构特征后,本方法使用交叉熵计算网络损失。首先分别计算原始声音信号与还原声音信号的交叉熵损失,随后将不同的还原声音信号进行叠加再与还原后的噪声信号进行叠加得到还原混合信号,将网络输入的混合信号与还原混合信号计算交叉熵损失。
S3、利用验证集数据验证每次迭代后单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;
具体的,验证集与测试集的正确率计算方式包括计算平均峰值误差以及计算分离后声音信号与源声音信号的相关系数。平均峰值误差首先计算各个样本源声音信号峰值频率与分离后声音信号的峰值频率的差值绝对值,随后将误差绝对值除以真实峰值强度,然后所有样本求平均得到最终的平均峰值误差。分离后声音信号与源声音信号的相关系数计算方法如下:
其中s表示源声音信号,x表示分离后的声音信号。
S4、将测试集中的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号。
实施例2
本实施例给出单通道语音分离网络模型的结构以及其处理流程。
单通道语音分离网络模型包括编码器网络,解码器网络、注意力融合的掩模分离模块,其中,整体网络处理流程如下:
将混有三个独立音源信号s1,s2,s3以及一段噪声音频n1的混合音频x输入至网络中,网络首先通过编码器网络E对输入数据信号特征提取及降维,得到提炼后的深度特征y:
y=E(x);
随后网络注意力融合的掩模分离模块对深度特征y进行进一步的特征过滤,并生成三分特征掩模m1~m4,其中,m1,m2,m3分别表示待分离的三个独立源声音信号的特征掩模,m4表示噪声片段的特征掩模。在得到不同的掩模后,网络将深度特征y与不同的特征掩模进行向量间的逐元素相乘,得到表示不同分离声音信号的特征fi:
fi=y⊙mi;
其中f1,f2,f3分别表示待分离的三个独立源声音的信号特征,f4表示噪声片段的信号特征。随后使用解码器网络D对四个声音特征进行数据重构,得到还原后的声音信号s′i:
s′i=D(fi);
最后通过对原始声音信号si与s′i计算交叉熵损失函数来指导网络训练。
编码器网络负责对输入的混合声音信号进行特征提取,其中包含四个特征提取模块,每个模块以上一层模块的输出结果为输入,其中第一层模块的输入为混合声音信号x。每个特征提取模块包含一个卷积核大小为1×w′×C的卷积操作,其中C为当前模块设计的通道数大小、一个批标准化层(Batch Normalization)以及一个ReLU激活函数。原始输入的通道数为1,随后四个特征提取模块每个的通道数C依次为16,32,64,128。经过编码器网络的处理后,网络输入的混合音频x被转化成了深度特征y,随后交由注意力融合的掩模分离模块进行处理。
注意力融合的掩模分离模块首先对输入的深度特征y进行基于注意力机制的特征过滤。对于形如1×w×C的深度特征y,其中C为通道数,本模块分别对其进行通道注意力过滤以及空间注意力过滤,并将两者的结果进行融合。具体操作如下:首先对深入特征y使用全局平均池化进行基于通道上的压缩,得到一个1×1×C的压缩特征,随后依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及同样卷积核大小的卷积操作,将得到的激活特征使用sigmoid函数进行数值约束得到维度为1×1×C的特征图。将此特征图与输入特征y相乘得到基于通道注意力过滤的深度特征yc;随后我们使用大小为1×w的卷积核对输入特征y进行基于空间的特征压缩并使用ReLU激活函数进行激活处理,随后将得到的激活特征依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及sigmoid函数得到维度为1×w×1的特征图,将此特征图与输入特征y相乘得到基于空间注意力过滤的深度特征ys。在分别得到基于通道注意力的深度特征yc以及基于空间注意力过滤的深度特征ys后,本模块随后将yc与ys在通道维度上进行拼接,得到大小为1×w×2*C的拼接特征,随后使用大小为1×1的卷积核进行卷积融合操作,得到注意力融合特征y′i,对于不同的独立音源信号s1,s2,s3以及噪声片段n1,本网络会采用独立的注意力融合模块进行单独处理,因此最终会得到用于生成音源信号掩模的声音特征y′1,y′2,y′3和生成噪声信号掩模的声音特征y′n。
随后本模块将大小为1×w×C的声音特征y′i转换为对应的声音掩模mi,首先使用大小为1×1的卷积进行通道压缩,随后使用sigmoid函数得到大小为1×w×1的信号掩模mi,并约束各个掩模遵循:将输入特征y与不同掩模mi逐元素相乘得到用于重新生成独立音源信号s1,s2,s3的重构特征f1,f2,f3以及还原噪声信号的特征fn。
在得到不同的重构特征fi后,本网络将其送入解码器网络中进行信号重构。解码器网络包含四个信号重构模块,其处理顺序与编码器网络相反:由底层模块依次向上执行处理,每个模块以下一层模块的输出结果为输入,其中最底层模块的输入为重构特征fi。每个特征提取模块包含上采样操作、一个卷积核大小为1×1×C的卷积操作,其中C为当前模块设计的通道数大小、一个批标准化层(Batch Normalization)以及一个ReLU激活函数。最底层处理模块的通道数为128,随后四个特征提取模块每个的通道数C依次为64,32,16,1。不同的重构特征fi依次经过编码器网络处理生成还原后的独立声音信号s′1,s′2,s′3以及噪声信号n′1。
最后网络使用交叉熵损失函数进行loss计算,首先分别计算原始声音信号与还原声音信号的相似度损失,即分别计算s1与s′1,s2与s′2,s3与s′3的交叉熵损失lossi:
lossi=-∑silog(s′i)+(1-si)log(1-s′i)
随后将s′1,s′2,s′3与n′1进行叠加得到还原后的混合信号x′,并计算x′与网络输入混合信号x的交叉熵损失:
lossn=-∑xlog(x′)+(1-x)log(1-x′)
最终的损失函数由三独立音源信号的损失函数以及混合信号的损失函数相加组成:
sumloss=loss1+loss2+loss3+lossn。
以上是独立音源为3个时训练网络时的过程,因此类推可以得到多个独立音源的训练过程,本实施例不再赘述。
在编码器模块中进行的操作包括:
201:将大小为1×w×C1的特征图输入到卷积核大小为1×w′且输出通道数为C2的卷积层中;
202:将201中的卷积结果输入到批标准化处理函数中
203:将202的结果输入到ReLU激活函数,得到大小为1×w′×C2的信号特征;
其中,w表示输入特征的宽度,w′表示输出特征的宽度,C1表示输入特征的通道数,C2表示输出特征的通道数。
在注意力融合的掩模分离模块的操作包括:
211:对于来自编码器生成得到的大小为1×w×C的信号特征y,使用全局平局池化层进行通道压缩。
212:将211的处理结果依次输入到卷积核大小为1×1的卷积层,ReLU激活函数以及卷积核大小为1×1的卷积层;
213:将212的处理结果输入到sigmoid函数中,得到一个维度为1×1×C的激活向量,其中C为特征的通道数;
214:将213的激活向量与信号特征y进行逐元素相乘,到基于通道注意力过滤的深度特征yc;
215:对于来自编码器生成得到的大小为1×w×C的信号特征y,使用1×w的卷积核对以及ReLU激活函数对输入特征y进行基于空间的特征压缩;
216:将215的压缩特征依次经过卷积核大小为1×1的卷积层、ReLU激活函数以及sigmoid函数得到维度为1×w×1的激活特征;
217:将216的激活向量与信号特征y进行逐元素相乘,到基于空间注意力过滤的深度特征ys;
218:将214以及216得到的深度特征yc与ys在通道的维度上进行拼接得到大小为1×w×2*C的拼接特征;
219:将218的拼接特征输入至卷积核大小为1×1,输出通道数为C的卷积层,得到大小为1×w×C的融合特征y′i。
221:将输入特征y分别与不同的信号掩模mi相乘得到用于重构不同声音信号的重构特征fi。
进一步的,在解码器模块中进行的操作包括:
231:将大小为1×w×C1重构特征输入至上采样层,得到大小为1×w′×C2的重构信号;
232:将231得到的重构特征输入到卷积核大小为1×1且输出通道数为C2的卷积层中;
233:将232中的卷积结果输入到批标准化处理函数中
234:将233的结果输入到ReLU激活函数,得到大小为1×w′×C2的信号特征;
其中,w表示输入特征的宽度,w′表示上采样后输出特征的宽度,C1表示输入特征的通道数,C2表示输出特征的通道数。
实施例3
本实施例采样人工合成声音信号构成数据集,采用三个小型音响模拟三个声源,分别编号为1号、2号和3号,1号、2号和3号声源信号分别为:
PS1=R11(t)sin(2πf11t)+R12(t)sin(2πf12t)
PS2=R21(t)sin(2πf21t)+R22(t)sin(2πf22t)
PS3=R31(t)sin(2πf31t)+R32(t)sin(2πf32t)
其中,R1i(t),R2i(t)和R3i(t)(i=1,2)均为(0.7,1)区间中的随机数,代表声源振幅的随机波动。f11=300Hz,f12=600Hz,f21=500Hz,f22=1000Hz,f31=700Hz,f32=1400Hz。采样的声音时间长度为2秒。
项目组将以下实验1、实验2、实验3中不同声源的特征数据输入网络进行统一训练。具体来说,基于仿真实验中训练获得的基础网络模型,基于迁移学习算法,将实验中不同声源的特征数据构造相应的(混合信号,声音信号1,声音信号2,声音信号3)数据集,进行100轮的参数调优,从而能够自适应实验环境,基于一个综合网络模型,同时对于三个实验中具有不同随机扰动的声音进行智能分离,获得相应的独立声音分量。
图7~12为3个声音的真实值和预测值。
在本组实验中,重复进行了30次实验,最终统计得到:
1.全部的测试样本中,其分离得到的单源声音信号和真实单源声音信号的峰值频率一致,按照相应实验设置即可完全准确划分,达到了任务书指标:通过分离算法计算的声音源信号频谱特征(即突出线谱数量和位置)与源信号频谱特征一致;
2.对于所有的测试样本,峰值平均相对误差为:6.08%,分离后的声音源与实际声音源信号相关系数大于0.9,分离后的声音源信号线谱峰值与源信号线谱峰值的估计误差不超过25%。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于注意力机制与扰动感知的声音分离方法,其特征在于,包括以下步骤:
S1、获取声音信号数据集,对该数据集的声音信号进行预处理得到混合声音信号,随后将混合声音信号划分为训练集、验证集;
S2、将训练集中的混合声音信号输入单通道语音分离网络模型,在交叉熵损失函数的指导下输出得到分离后的独立源信号;
S3、利用验证集数据验证每次单通道语音分离网络模型的正确率,并且保存正确率最高时的网络参数;
S4、将待分离的混合声音信号数据输入单通道语音分离网络模型,即可得到分割后的独立源声音信号。
2.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,对声音信号进行预处理得到混合声音信号具体包括:
将多份独立源声音信号进行裁剪,每份信号裁剪后得到多段时长为N秒的声音信号切片;
将每份裁剪后的声音信号进行重采样,采样频率为8000hz;
将采样后的声音信号进行归一化处理;
将归一化处理后属于不同独立源信号的声音片段进行逐位相加,随后与一段时长为N秒、采样率为8000hz的噪声片段再次逐位相加,得到最终的混合声音信号。
3.根据权利要求1所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,单通道语音分离网络模型包括编码器网络、解码器网络以及注意力融合的掩模分离模块,单通道语音分离网络模型将混合声音信号分离得到独立声音信号的过程包括以下步骤:
编码器网络对输入的混合声音信号进行特征提取及降维,得到混合声音信号的深度特征;
注意力融合的掩模分离模块对深度特征进行过滤,并生成独立源信号掩膜和噪音掩膜;
令深度特征分别与每个掩膜进行向量间的逐元素相乘,得到每个独立源信号的特征以及噪音信号特征;
解码器网络对根据掩膜得到的每个信号特征进行数据重构,得到分离的每个独立信号。
4.根据权利要求3所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,编码器网络包括4个级联的特征提取模块,即除第一个特征模块以混合声音信号作为输入外其他特征提取模块均以上一个特征模块的输出作为输入,每个特征分模块包括一个卷积核为1×w′×C的卷积操作、一个批标准化层以及一个ReLU激活函数,混合声音信号原始通道为1,四个特征提取模块按照级联顺序每个的通道数依次为16、32、64、128;其中,w′为输入特征提取模块信号的长度,C为当前信号的通道数。
5.根据权利要求3所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,注意力融合的掩模分离模块对深度特征进行过滤包括:
对输入的深入特征使用全局平均池化进行基于通道上的压缩,得到一个1×1×C的压缩特征,随后依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及同样卷积核大小的卷积操作,将得到的激活特征使用sigmoid函数进行数值约束得到维度为1×1×C的特征图,其中C为当前信号的通道数;
将得到的维度为1×1×C的特征图与输入的深度特征相乘得到基于通道注意力过滤的深度特征;
使用大小为1×w的卷积核对深度特征;
进行基于空间的特征压缩并使用ReLU激活函数进行激活处理,随后将得到的激活特征依次经过卷积核大小为1×1的卷积操作、ReLU激活函数以及sigmoid函数得到维度为1×w×1的特征图;
将得到的维度为1×w×1的特征图与输入的深度特征相乘得到基于空间注意力过滤的深度特征;
将基于通道注意力过滤的深度特征和基于空间注意力过滤的深度特征进行拼接,得到大小为1×w×2*C的拼接特征,随后使用大小为1×1的卷积核进行卷积融合操作,得到注意力融合特征。
6.根据权利要求5所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,生成独立源信号掩膜和噪音掩膜,即对得到的1×w×C的注意力融合特征使用大小为1×1的卷积进行通道压缩,随后使用sigmoid函数得到大小为1×w×1的信号掩模。
7.根据权利要求3所述的一种基于注意力机制与扰动感知的声音分离方法,其特征在于,解码器网络包括4个级联的信号重构模块,深度特征分别与每个掩膜进行向量间的逐元素相乘得到的每个独立源信号的特征以及噪音信号特征作为第一个信号重构模块的输入,其他信号重构模块均以上一个特征模块的输出作为输入,每个特征提取模块包括上采样操作、一个卷积核大小为1×1×C的卷积操作、一个批标准化层以及一个ReLU激活函数,其中C为当前模块设计的通道数大小,第一个信号重构模块的输入信号通道数为128,信号重构模块依照级联顺序每个的通道数C依次为64、32、16、1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519845.1A CN113380262B (zh) | 2021-05-13 | 2021-05-13 | 一种基于注意力机制与扰动感知的声音分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110519845.1A CN113380262B (zh) | 2021-05-13 | 2021-05-13 | 一种基于注意力机制与扰动感知的声音分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113380262A true CN113380262A (zh) | 2021-09-10 |
CN113380262B CN113380262B (zh) | 2022-10-18 |
Family
ID=77572598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110519845.1A Active CN113380262B (zh) | 2021-05-13 | 2021-05-13 | 一种基于注意力机制与扰动感知的声音分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113380262B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550743A (zh) * | 2022-02-23 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN114626372A (zh) * | 2022-02-25 | 2022-06-14 | 华南理工大学 | 基于扰动改良的自注意力机制社交网络文本情感分析方法 |
WO2023207193A1 (zh) * | 2022-04-29 | 2023-11-02 | 哲库科技(上海)有限公司 | 音频分离方法、训练方法、装置、设备、存储介质及产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191454A1 (en) * | 2011-01-26 | 2012-07-26 | TrackThings LLC | Method and Apparatus for Obtaining Statistical Data from a Conversation |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
US10360894B1 (en) * | 2018-11-28 | 2019-07-23 | International Business Machines Corporation | Direction-aware cross talk management |
CN110675891A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111370032A (zh) * | 2020-02-20 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
-
2021
- 2021-05-13 CN CN202110519845.1A patent/CN113380262B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120191454A1 (en) * | 2011-01-26 | 2012-07-26 | TrackThings LLC | Method and Apparatus for Obtaining Statistical Data from a Conversation |
US10360894B1 (en) * | 2018-11-28 | 2019-07-23 | International Business Machines Corporation | Direction-aware cross talk management |
CN109830245A (zh) * | 2019-01-02 | 2019-05-31 | 北京大学 | 一种基于波束成形的多说话者语音分离方法及系统 |
CN110675891A (zh) * | 2019-09-25 | 2020-01-10 | 电子科技大学 | 一种基于多层注意力机制的语音分离方法、模块 |
CN111179961A (zh) * | 2020-01-02 | 2020-05-19 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、电子设备及存储介质 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111312292A (zh) * | 2020-02-18 | 2020-06-19 | 北京三快在线科技有限公司 | 基于语音的情绪识别方法、装置、电子设备及存储介质 |
CN111370032A (zh) * | 2020-02-20 | 2020-07-03 | 厦门快商通科技股份有限公司 | 语音分离方法、系统、移动终端及存储介质 |
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN112071330A (zh) * | 2020-09-16 | 2020-12-11 | 腾讯科技(深圳)有限公司 | 一种音频数据处理方法、设备以及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
YANLIANG JIN: ""Multi-Head Self-attention-based Deep clustering for single-channel speech separation", 《ICASSP》 * |
黄宏展: ""基于双向注意力机制的多模态情感分类方法"", 《计算机工程与应用》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550743A (zh) * | 2022-02-23 | 2022-05-27 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN114550743B (zh) * | 2022-02-23 | 2024-05-28 | 平安科技(深圳)有限公司 | 一种语音增强方法、装置、计算机设备及存储介质 |
CN114626372A (zh) * | 2022-02-25 | 2022-06-14 | 华南理工大学 | 基于扰动改良的自注意力机制社交网络文本情感分析方法 |
CN114626372B (zh) * | 2022-02-25 | 2024-06-04 | 华南理工大学 | 基于扰动改良的自注意力机制社交网络文本情感分析方法 |
WO2023207193A1 (zh) * | 2022-04-29 | 2023-11-02 | 哲库科技(上海)有限公司 | 音频分离方法、训练方法、装置、设备、存储介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113380262B (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113380262B (zh) | 一种基于注意力机制与扰动感知的声音分离方法 | |
TW546630B (en) | Optimized local feature extraction for automatic speech recognition | |
CN110246510B (zh) | 一种基于RefineNet的端到端语音增强方法 | |
CN111261186B (zh) | 基于改进自注意力机制与跨频带特征的音频音源分离方法 | |
US10621969B2 (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
CN112567459B (zh) | 声音分离装置、声音分离系统、声音分离方法以及存储介质 | |
CN113470671B (zh) | 一种充分利用视觉与语音联系的视听语音增强方法及系统 | |
Pascual et al. | Time-domain speech enhancement using generative adversarial networks | |
Abouzid et al. | Signal speech reconstruction and noise removal using convolutional denoising audioencoders with neural deep learning | |
CA3004700C (en) | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system | |
Nguyen et al. | Tunet: A block-online bandwidth extension model based on transformers and self-supervised pretraining | |
CN112420065A (zh) | 音频降噪处理方法和装置及设备 | |
EP1385150B1 (en) | Method and system for parametric characterization of transient audio signals | |
Lagrange et al. | Bandwidth extension of musical audio signals with no side information using dilated convolutional neural networks | |
CN116013297A (zh) | 一种基于多模态门控提升模型的视听语音降噪方法 | |
CN115691539A (zh) | 基于视觉导引的两阶段语音分离方法及系统 | |
CN113593588A (zh) | 一种基于生成对抗网络的多唱歌人歌声合成方法和系统 | |
WO2023241222A1 (zh) | 音频处理方法、装置、设备、存储介质及计算机程序产品 | |
Xu et al. | A multi-scale feature aggregation based lightweight network for audio-visual speech enhancement | |
CN114596876B (zh) | 声源分离方法及装置 | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
Zheng et al. | SuperCodec: A Neural Speech Codec with Selective Back-Projection Network | |
Wang et al. | Combined Generative and Predictive Modeling for Speech Super-resolution | |
CN113222113B (zh) | 一种基于反缩放卷积层的信号生成方法及装置 | |
RU2823015C1 (ru) | Генератор аудиоданных и способы формирования аудиосигнала и обучения генератора аудиоданных |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |