CN112992172B - 一种基于注意力机制的单通道时域鸟鸣声分离方法 - Google Patents
一种基于注意力机制的单通道时域鸟鸣声分离方法 Download PDFInfo
- Publication number
- CN112992172B CN112992172B CN202110116884.7A CN202110116884A CN112992172B CN 112992172 B CN112992172 B CN 112992172B CN 202110116884 A CN202110116884 A CN 202110116884A CN 112992172 B CN112992172 B CN 112992172B
- Authority
- CN
- China
- Prior art keywords
- bird song
- channel
- bird
- audio
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 238000000926 separation method Methods 0.000 title claims description 56
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000006073 displacement reaction Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 31
- 239000012634 fragment Substances 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 229940060587 alpha e Drugs 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 241000894007 species Species 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于注意力机制的单通道时域鸟鸣声分离方法,包括:S1,在野外采集待分离的混叠鸟鸣声信号,并进行预处理;S2,将预处理后的混叠鸟鸣声信号输入到预先建立并训练完毕的基于注意力机制的时域单通道鸟鸣声分离模型,时域单通道鸟鸣声分离模型输出分离后的鸟鸣声音频。本发明构建并训练了基于注意力机制的单通道鸟鸣声分离模型,使用网络估计的源音频与干净源音频的尺度不变的信噪比和均方误差作为联合训练目标,采用句子级的置换不变训练方法进行训练,从而使得单通道鸟鸣声分离和后续的鸟鸣声识别得到很好的结果。
Description
技术领域
本发明涉及智能语音信号分离技术领域,具体涉及一种基于注意力机制的单通道时域鸟鸣声分离方法。
背景技术
由于鸟类的鸣声和形态特征一样,具有独特性。因此,鸟类的鸣声是识别鸟类的重要依据。国内外对这种方法越来越重视,很多生态专家会通过这种方法对生态多样性进行监测。通过采集设备拾取到的鸟鸣声一般为单声道(用一个传声器拾取声音),信号较为复杂,伴随着环境噪声和其他物种的声音,经常是混叠信号。而现有的鸟鸣声识别算法只对只包含单个物种的音频进行识别,并不支持对混叠鸟鸣声音频进行识别。因此在进行鸟鸣声识别的步骤之前,需要对混叠鸟鸣声进行分离。目前并没有专门针对鸟鸣声混叠进行分离的方法,一般都是采用语音分离的方法。传统的单通道语音分离方法有以下三种。
(1)独立成分分析(ICA)方法可以通过某个对比函数(Contrast Function)的目标函数达到极大值来消除观察信号中的高阶统计关联,实现盲源分离。然而,对于某些模型,不能保证估计或提取的信号与源信号具有完全相同的波形,因此有时要求放宽到提取的波形是源信号的失真或滤波版本。2004年,Hoyer根据源语音信号的稀疏性等其他特性提出非负矩阵分解算法(NMF)。
(2)NMF基本思想是:对于任意给定的一个非负矩阵V,NMF算法能够寻找到一个非负矩阵W和一个非负矩阵H,使得满足V≈W×H,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积。NMF把混合信号分解成一系列的非负元素构成的基矩阵及权重矩阵,然后对测试语音通过求解基矩阵的权重系数进而恢复目标信号。
(3)计算听觉场景分析(CASA)就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。CASA起源于Bregman在1990年对人的听觉系统的感知机理的研究,他将听觉场景分析分成分割和组织两个步骤,并在频域上进行的同时组织和时域上进行的顺序组织两种方式解释了人类对声学场景进行重组的机理。
随着深度学习在图像处理、语音识别中取得很好的进展,近些年来研究者们也采用深度学习来解决语音分离问题。目前主流的基于深度学习的单通道语音分离有两种,分别是基于频域的和基于时域的单通道语音分离方法。一方面,频域方法的优点在于可以与传统的信号处理方法(如频域波束形成)更好的相融,可以得到更加稀疏和结构化的声学特征表征。同时缺点也比较明显,如精准的相位重建比较困难、需要较长的窗长满足频率分辨率的要求而导致的长时延等。另一方面,基于时域的语音分离近两年来受到了更多关注。基于时域的方法避免了相位重建带来的退化和高分辨率谱图带来的延迟,同时认为短时傅里叶变换(STFT)不一定适合做语音分离任务。其缺点就是mask的可解释性较差。
Herskey等提出了一种深度聚类的单通道语音分离算法,系统可以从训练数据中学习到每个时频单元转换到高维可分离空间的映射关系。通过约束条件,使得同属于一个说话人时频单元,它们在高维嵌入空间中的距离较小;属于不同说话人的时频单元,它们在高维嵌入空间中的距离很大。俞栋等提出置换不变训练的单通道语音分离算法,该方法将分离误差直接最小化。以两个说话人分离为例,如果我们将每个输出分配给训练数据中的一个参考说话人,则有两个可能的分配方式,每个分配方式与均分误差有关。神经网络的目标是最小化估计掩码(mask)和理想掩码的均方误差(MSE)。
时域上建模的方法以哥伦比亚大学Yi Luo等人提出的时域音频网络(TasNet)为代表。TasNet使用编解码框架直接在时域对信号进行建模,并对非负编码器输出进行语音分离。这种方法省去了频率分解步骤,并将分离问题减少到估计编码器输出上的语音掩码,然后由解码器对其进行合成。2020年,Yi Luo等提出一种双路径递归神经网络(DPRNN)。DPRNN分为分割、块处理和重叠相加三步,分割把输入序列分割成互相重叠的块并拼接为3D向量,接着把向量传给堆叠的DPRNN块来反复执行局部和全局建模,最后一层输出通过重叠相加转化为输出序列。
上述现有技术主要还是以人类语音的分离为主,缺少在生物声学方面的应用。由于人类正常说话的频率范围在300Hz-3kHz之间,而鸟鸣声的频率范围在500Hz-10kHz之间。为了满足奈奎斯特采样定理,一般的鸟鸣声音频采样频率≥32kHz,比人声(一般为8kHz或16kHz)高了很多,因此计算复杂度增加了很多。
因此,行业内急需研发一种基于深度学习的且适用生物声学的,能降低计算复杂度的单通道语音分离方法。
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种适用生物声学的,能降低计算复杂度的基于注意力机制的单通道时域鸟鸣声分离方法。
本发明的目的通过以下的技术方案实现:
一种基于注意力机制的单通道时域鸟鸣声分离方法,包括:
S1,在野外采集待分离的混叠鸟鸣声信号,并进行预处理;
S2,将预处理后的混叠鸟鸣声信号输入到预先建立并训练完毕的基于注意力机制的时域单通道鸟鸣声分离模型,时域单通道鸟鸣声分离模型输出分离后的鸟鸣声音频。
优选地,建立并训练基于注意力机制的时域单通道鸟鸣声分离模型包括:S21,在野外采集混叠鸟鸣声信号,并进行预处理;将预处理后的鸟鸣声信号分成训练集和验证集;S22,建立基于注意力机制的时域单通道鸟鸣声分离模型,将训练集输入时域单通道鸟鸣声分离模型进行语句级的置换不变性训练。S23,将验证集的混合鸟鸣声输入到训练完毕的模型进行鸟鸣声分离,模型从输入的混合鸟鸣声中估计出对应声源的mask,将对应声源的mask和输入的混合鸟鸣声信号相乘,得到分离后的鸟鸣声音频,验证模型的性能。
优选地,步骤S21包括:通过鸟鸣声采集设备收集鸟鸣声音频;确定鸟鸣声音频对应的真正的鸟鸣声种类,并鸟鸣声音频上添加真正的鸟鸣声种类标签;设置鸟鸣声音频的采样率和量化精度;对鸟鸣声音频进行端点检测,筛选出鸟鸣声片段和非鸟鸣声片段;将鸟鸣声片段进行降噪处理,去掉背景噪声;将已降噪后的鸟鸣声片段和随机的已知鸟种类的鸟鸣声片段进行混合;将混合音频划分为训练集和验证集。
优选地,设置鸟鸣声音频文件的采样率为32kHz,量化精度为16位;鸟鸣声片段的长度统一为1秒。
优选地,基于注意力机制的时域单通道鸟鸣声分离模型包括编码器、分离网络和解码器;步骤S22包括:S221,编码器将混合音频通过非线性变化转换到潜在空间中的对应特征向量;S222,在分离网络的潜在空间进行特征学习,并估计出每个声源的掩码;其中分离网络以时间卷积网络为基本框架,其中时间卷积网络由堆叠的一维卷积模块组成;每个一维卷积块使用了残差路径和跳跃连接路径;S223,解码器对每个声源的特征进行逆变换,重构源波形。
优选地,步骤S221包括:
将输入的混合鸟鸣声音频分成一系列片段xk,其中
xk∈R1×L,k=1,2,…,T,T为片段的总数目,L为片段的长度;
片段xk通过一维卷积操作转换成N维的非负特征向量w;
其中,U∈RN×L为编码器的基函数,为非线性函数;w∈R1×N为转换后的N维非负特征向量。
优选地,在步骤S222中,每个声源的特征di通过估计C个掩码mi乘以编码器的输出w得到;
di=w⊙mi
其中,mi∈R1×N,i=1,…,C,C为混合鸟鸣声音频中鸟类的数目。
优选地,步骤S223中,重构源波形的公式为:
其中,V∈RN×L为解码器的基函数,为重构后的C个声源的波形,i=1,…,C。
优选地,每一卷积块使用的非线性函数为Mish。
优选地,在分离网络中加入卷积块注意力模块,卷积块注意力模块包括:通道注意力模块和空间注意力模块;通道注意力模块的公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,特征F是通道注意力模块的输入,MLP为一个两层的神经网络,这两层的神经网络是共享的;AvgPool和MaxPool分别为平均池化层和最大池化层;σ为激活函数,Mc(F)为通道注意力模块的输出;
空间注意力模块的公式如下:
Ms(F)=σ(f7*7([AvgPool(F`),MaxPool(F`)]))
其中,特征F`是空间注意力模块的输入,AvgPool和MaxPool分别为平均池化层和最大池化层;f7*7为一个7×7的卷积层,σ为激活函数,Ms(F)为空间注意力模块的输出。
优选地,在步骤S22中,对时域单通道鸟鸣声分离模型进行语句级的置换不变性训练时,时域单通道鸟鸣声分离网络的损失函数包括:最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比、最小化网络重构的源音频和干净的源音频之间的均方误差;
其中,最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比的计算方式为:
时域单通道鸟鸣声分离模型的损失函数J为:
其中,SN代表所有排列方式的集合,N为声源数目,为网络估计的源音频,si为干净的源音频;通过β调整网络重构的源音频和干净的源音频之间的均方误差对整个模型的影响,(0<β<1)。
本发明相对于现有技术具有如下优点:
1、由于鸟鸣声音频采样频率≥32kHz,为了减少计算复杂度,本发明使用了基于卷积时域音频网络(Conv-TasNet)为基础框架。Conv-TasNet里的跳跃连接、深度可分离卷积都能有效的减少计算量。
2、本发明引入了注意力机制,即通过自上而下的信息选择机制来过滤掉大量的无关信息,使模型能够把“注意力”放在更有用的信息上,提高模型的鲁棒性。
3、修改了损失函数,在尺度不变的信噪比(SI-SNR)的基础上增加计算网络估计的音频与原始音频的均方误差,以句子级的置换不变训练(uPIT)方法进行联合优化训练神经网络,提升网络分离的性能。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于注意力机制的单通道时域鸟鸣声分离方法的流程示意图。
图2为本发明的基于注意力机制的时域单通道鸟鸣声分离模型的结构图。
图3为本发明的一维卷积块的结构图。
图4为本发明的CBAM模块的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
参见图1,一种基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,包括:
S1,在野外采集待分离的混叠鸟鸣声信号,并进行预处理;可以将待分离的混叠鸟鸣声信号作为测试集。
S2,将预处理后的混叠鸟鸣声信号输入到预先建立并训练完毕的基于注意力机制的时域单通道鸟鸣声分离模型,时域单通道鸟鸣声分离模型输出分离后的鸟鸣声音频。
在本实施例,建立并训练基于注意力机制的时域单通道鸟鸣声分离模型包括:
S21,在野外采集混叠鸟鸣声信号,并进行预处理;将预处理后的鸟鸣声信号分成训练集和验证集;具体地,步骤S21包括:通过鸟鸣声采集设备收集鸟鸣声音频;确定鸟鸣声音频对应的真正的鸟鸣声种类,并鸟鸣声音频上添加真正的鸟鸣声种类标签;设置鸟鸣声音频的采样率和量化精度;通过鸟鸣声采集设备拾取到的鸟鸣声音频文件一般采样率(fs)≥32kHz,量化精度(nbits)≥16位。在预处理开始阶段,将鸟鸣声音频文件的fs设置为32kHz,nbits设置为16位。对鸟鸣声音频进行端点检测,筛选出鸟鸣声片段和非鸟鸣声片段;其中鸟鸣声片段的长度统一为1秒,方便输入到后续的神经网络(时域单通道鸟鸣声分离模型)。将鸟鸣声片段进行降噪处理,去掉背景噪声;将已降噪后的鸟鸣声片段和随机的两种已知鸟种类的鸟鸣声片段进行混合;混合时两个片段的信噪比范围是0dB-5dB,具体信噪比值为随机选择。将混合音频划分为训练集和验证集鸟鸣声片段的长度统一为1秒。最后将混合音频划分为训练集和验证集,占比分别为90%和10%。训练集用来训练和拟合模型,验证集调整模型参数使效果最佳。
需要说明的是,步骤S1和上述在野外采集混叠鸟鸣声信号,并进行预处理的步骤完全一样。
S22,建立基于注意力机制的时域单通道鸟鸣声分离模型,将训练集输入时域单通道鸟鸣声分离模型进行语句级的置换不变性训练。在本实施例,本发明提出一个新的单通道鸟鸣声分离网络模型,如图2所示,基于注意力机制的时域单通道鸟鸣声分离网络模型包括以下三个部分:包括编码器、分离网络和解码器;分离网络在这个潜在空间进行特征学习并估计出每个声源的掩码,最后使用解码器模块对每个声源的掩码进行变换,重构源波形。
具体地,步骤S22包括:
S221,编码器将混合音频通过非线性变化转换到潜在空间中的对应特征向量;具体地步骤S221包括:
将输入的混合鸟鸣声音频分成一系列片段xk,其中xk∈R1×L,k=1,2,…,T,T为片段的总数目,L为片段的长度;
片段xk通过一维卷积操作转换成N维的非负特征向量w;(N为512)
其中,U∈RN×L为编码器的基函数,为非线性函数,通常使用整流线性单元(ReLU)确保特征向量为非负的;w∈R1×N为转换后的N维非负特征向量。
S222,在分离网络的潜在空间进行特征学习,并估计出每个声源的掩码;其中分离网络以时间卷积网络(TCN)为基本框架,其中时间卷积网络由堆叠的一维卷积模块组成;每个一维卷积块如图3所示,使用了残差路径和跳跃连接路径;为了减少参数量,每一块中的标准卷积操作都替换为深度可分离卷积。每一卷积块使用的非线性函数为Mish。Mish是一个平滑的曲线,平滑的激活函数允许更好的信息深入神经网络,从而得到更好的准确性和泛化;在负值的时候并不是完全截断,允许比较小的负梯度流入。
y=x*tanh(ln(1+exp(x)))
具体地,在步骤S222中,每个声源的特征di通过估计C个掩码mi乘以编码器的输出w得到;
di=w⊙mi
其中,mi∈R1×N,i=1,…,C,C为混合鸟鸣声音频中鸟类的数目。
S223,解码器对每个声源的特征进行逆变换,重构源波形。具体地,步骤S223中,重构源波形的公式为:
其中,V∈RN×L为解码器的基函数,为重构后的C个声源的波形,i=1,…,C。
在本实施例,在分离网络中加入卷积块注意力模块(CBAM),这能使网络选择性地关注突出部分,以便更好地捕捉到有用的特征。CBAM如图4所示,分为通道注意力模块和空间注意力模块。通道注意力模块的公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,特征F是通道注意力模块的输入,MLP为一个两层的神经网络,这两层的神经网络是共享的;AvgPool和MaxPool分别为平均池化层和最大池化层;σ为激活函数,Mc(F)为通道注意力模块的输出;
空间注意力模块的公式如下:
Ms(F)=σ(f7*7([AvgPool(F`),MaxPool(F`)]))
其中,特征F`是空间注意力模块的输入,AvgPool和MaxPool分别为平均池化层和最大池化层;f7*7为一个7×7的卷积层,σ为激活函数,Ms(F)为空间注意力模块的输出。
在步骤S22中,对时域单通道鸟鸣声分离模型进行语句级的置换不变性训练时,时域单通道鸟鸣声分离网络的损失函数包括:最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比(SI-SNR)、最小化网络重构的源音频和干净的源音频之间的均方误差(MSE);
其中,最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比(SI-SNR)的计算方式为:
时域单通道鸟鸣声分离模型的损失函数J为:
其中,SN代表所有排列方式的集合,N为声源数目,为网络估计的源音频,si为干净的源音频;通过β调整网络重构的源音频和干净的源音频之间的均方误差对整个模型的影响,(0<β<1)。
在训练阶段,混合鸟鸣声音频的片段长度L为16,所用的编码器和解码器都是一维卷积,分离网络有3组TCN结构,每组有8个一维卷积块和一个CBAM模块,β设置为0.5。训练所选取的样本数(batch size)为4,迭代次数为100,使用Adam优化算法来对模型进行优化,初始学习速率为1e-3,如果在连续三个epoch内验证集的准确率没有提高,则学习率减半。当学习率低于1e-8时,训练过程自动终止。在训练完成后,保存此时的网络参数。
在本实施例,步骤S22之后还包括:将验证集的混合鸟鸣声输入到训练完毕的模型进行鸟鸣声分离。在测试阶段,直接将测试集的混合鸟鸣声输入到已经训练完毕的网络模型里。模型从输入的混合鸟鸣声中估计出对应声源的mask,将对应声源的mask和输入的混合鸟鸣声信号相乘,得到分离后的鸟鸣声音频,验证模型的性能。
本发明采用SI-SNR作为评价指标来评估本发明方法在提升语音分离性能方面的潜力。如表1所示,本发明方法在混叠鸟鸣声场景下得到了比其他方法更好的分离性能。由于加入了注意力机制CBAM模块和更好的非线性函数Mish,相比于其他分离方法(如Chimera++、Conv-TasNet)都有相应的提升。此外,相比于常规的损失函数SI-SNR,增加网络重构的源音频和干净的源音频之间的均方误差会使网络分离出的鸟鸣声与干净的鸟鸣声相似度更高,提高了后续鸟鸣声识别环节的识别率。
表1实验结果分析
综上,本发明构建并训练了基于注意力机制的单通道鸟鸣声分离模型,使用网络估计的源音频与干净源音频的尺度不变的信噪比和均方误差作为联合训练目标,采用句子级的置换不变训练方法进行训练,从而使得单通道鸟鸣声分离和后续的鸟鸣声识别得到很好的结果,解决了现有技术主要还是以人类语音的分离为主,缺少在生物声学方面的应用。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。
Claims (5)
1.一种基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,包括:
S1,在野外采集待分离的混叠鸟鸣声信号,并进行预处理;
S2,将预处理后的混叠鸟鸣声信号输入到预先建立并训练完毕的基于注意力机制的时域单通道鸟鸣声分离模型,时域单通道鸟鸣声分离模型输出分离后的鸟鸣声音频;
建立并训练基于注意力机制的时域单通道鸟鸣声分离模型包括:
S21,在野外采集混叠鸟鸣声信号,并进行预处理;将预处理后的鸟鸣声信号分成训练集和验证集;
S22,建立基于注意力机制的时域单通道鸟鸣声分离模型,将训练集输入时域单通道鸟鸣声分离模型进行语句级的置换不变性训练;
S23,将验证集的混合鸟鸣声输入到训练完毕的模型进行鸟鸣声分离,模型从输入的混合鸟鸣声中估计出对应声源的掩码,将对应声源的掩码和输入的混合鸟鸣声信号相乘,得到分离后的鸟鸣声音频,验证模型的性能;
步骤S21包括:
通过鸟鸣声采集设备收集鸟鸣声音频;
确定鸟鸣声音频对应的真正的鸟鸣声种类,并在鸟鸣声音频上添加真正的鸟鸣声种类标签;
设置鸟鸣声音频的采样率和量化精度;
对鸟鸣声音频进行端点检测,筛选出鸟鸣声片段和非鸟鸣声片段;
将鸟鸣声片段进行降噪处理,去掉背景噪声;将已降噪后的鸟鸣声片段和随机的已知鸟种类的鸟鸣声片段进行混合;
将混合音频划分为训练集和验证集;
基于注意力机制的时域单通道鸟鸣声分离模型包括编码器、分离网络和解码器;步骤S22包括:
S221,编码器将混合音频通过非线性变化转换到潜在空间中的对应特征向量;
S222,在分离网络的潜在空间进行特征学习,并估计出每个声源的掩码;其中分离网络以时间卷积网络为基本框架,其中时间卷积网络由堆叠的一维卷积模块组成;每个一维卷积模块使用了残差路径和跳跃连接路径;每个一维卷积模块使用的非线性函数为Mish;
在分离网络中加入卷积块注意力模块,卷积块注意力模块包括:通道注意力模块和空间注意力模块;通道注意力模块的公式如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,特征F是通道注意力模块的输入,MLP为一个两层的神经网络,这两层的神经网络是共享的;AvgPool和MaxPool分别为平均池化层和最大池化层;σ为激活函数,Mc(F)为通道注意力模块的输出;
空间注意力模块的公式如下:
Ms(F`)=σ(f7*7([AvgPool(F`),MaxPool(F`)]))
其中,特征F`是空间注意力模块的输入,AvgPool和MaxPool分别为平均池化层和最大池化层;f7*7为一个7×7的卷积层,σ为激活函数,Ms(F`)为空间注意力模块的输出;
在步骤S22中,对时域单通道鸟鸣声分离模型进行语句级的置换不变性训练时,时域单通道鸟鸣声分离网络的损失函数包括:最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比、最小化网络重构的源音频和干净的源音频之间的均方误差;
其中,最大化网络重构的源音频和干净的源音频的尺度不变的源信噪比的计算方式为:
时域单通道鸟鸣声分离模型的损失函数J为:
其中,SC代表所有排列方式的集合,α∈SC指所有排列组合方式中的其中一种方式为α,C为混合鸟鸣声音频中鸟类的数目,为网络估计的源音频,si为干净的源音频;通过β调整网络重构的源音频和干净的源音频之间的均方误差对整个模型的影响;
S223,解码器对每个声源的特征进行逆变换,重构源波形。
2.根据权利要求1所述的基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,设置鸟鸣声音频文件的采样率为32kHz,量化精度为16位;鸟鸣声片段的长度统一为1秒。
3.根据权利要求1所述的基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,步骤S221包括:
将输入的混合鸟鸣声音频分成一系列片段xk,其中xk∈R1×L,k=1,2,…,T,T为片段的总数目,L为片段的长度;
片段xk通过一维卷积操作转换成N维的非负特征向量w;
其中,U∈RL×N为编码器的基函数,为非线性函数;w∈R1×N为转换后的N维非负特征向量。
4.根据权利要求3所述的基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,在步骤S222中,每个声源的特征di通过估计C个掩码mi乘以编码器的输出w得到;
di=w⊙mi
其中,mi∈R1×N,i=1,…,C,C为混合鸟鸣声音频中鸟类的数目。
5.根据权利要求4所述的基于注意力机制的单通道时域鸟鸣声分离方法,其特征在于,步骤S223中,重构源波形的公式为:
其中,V∈RN×L为解码器的基函数,为重构后的C个声源的波形,i=1,…,C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116884.7A CN112992172B (zh) | 2021-01-28 | 2021-01-28 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116884.7A CN112992172B (zh) | 2021-01-28 | 2021-01-28 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992172A CN112992172A (zh) | 2021-06-18 |
CN112992172B true CN112992172B (zh) | 2023-09-15 |
Family
ID=76345708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110116884.7A Active CN112992172B (zh) | 2021-01-28 | 2021-01-28 | 一种基于注意力机制的单通道时域鸟鸣声分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992172B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11756570B2 (en) * | 2021-03-26 | 2023-09-12 | Google Llc | Audio-visual separation of on-screen sounds based on machine learning models |
CN113488063B (zh) * | 2021-07-02 | 2023-12-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于混合特征及编码解码的音频分离方法 |
CN117109726A (zh) * | 2023-08-11 | 2023-11-24 | 广东省生态环境监测中心 | 一种单通道噪声检测方法及装置 |
CN117727313B (zh) * | 2024-02-18 | 2024-04-23 | 百鸟数据科技(北京)有限责任公司 | 用于野外鸟类声音数据的智能降噪方法 |
CN117746871B (zh) * | 2024-02-21 | 2024-07-16 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于云端检测鸟类鸣声的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504762A (zh) * | 2016-11-04 | 2017-03-15 | 中南民族大学 | 鸟类群落数量估计系统及其方法 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108109619B (zh) * | 2017-11-15 | 2021-07-06 | 中国科学院自动化研究所 | 基于记忆和注意力模型的听觉选择方法和装置 |
US12062369B2 (en) * | 2020-09-25 | 2024-08-13 | Intel Corporation | Real-time dynamic noise reduction using convolutional networks |
-
2021
- 2021-01-28 CN CN202110116884.7A patent/CN112992172B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504762A (zh) * | 2016-11-04 | 2017-03-15 | 中南民族大学 | 鸟类群落数量估计系统及其方法 |
CN111261186A (zh) * | 2020-01-16 | 2020-06-09 | 南京理工大学 | 基于改进自注意力机制与跨频带特征的音频音源分离方法 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112992172A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112992172B (zh) | 一种基于注意力机制的单通道时域鸟鸣声分离方法 | |
Shon et al. | Voiceid loss: Speech enhancement for speaker verification | |
CN111243620B (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
Feng et al. | Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition | |
CN107077860B (zh) | 用于将有噪音频信号转换为增强音频信号的方法 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
Yuliani et al. | Speech enhancement using deep learning methods: A review | |
Agrawal et al. | Modulation filter learning using deep variational networks for robust speech recognition | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN106128477B (zh) | 一种口语识别校正系统 | |
CA2051386A1 (en) | Method for spectral estimation to improve noise robustness for speech recognition | |
CN112633175A (zh) | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 | |
Adiga et al. | Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN. | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Ochiai et al. | Does speech enhancement work with end-to-end ASR objectives?: Experimental analysis of multichannel end-to-end ASR | |
Wang et al. | Enhanced Spectral Features for Distortion-Independent Acoustic Modeling. | |
CN115881156A (zh) | 基于多尺度的多模态时域语音分离方法 | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
Chowdhury et al. | Extracting sub-glottal and supra-glottal features from MFCC using convolutional neural networks for speaker identification in degraded audio signals | |
CN110544485A (zh) | 一种利用cnn的se-ed网络进行远场语音去混响的方法 | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
CN109644304B (zh) | 混响环境的源分离 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |