CN115731924A - 单通道时域鸟声分离方法、装置以及计算机可读存储介质 - Google Patents
单通道时域鸟声分离方法、装置以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115731924A CN115731924A CN202211354718.1A CN202211354718A CN115731924A CN 115731924 A CN115731924 A CN 115731924A CN 202211354718 A CN202211354718 A CN 202211354718A CN 115731924 A CN115731924 A CN 115731924A
- Authority
- CN
- China
- Prior art keywords
- bird sound
- separation
- bird
- birdsound
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种单通道时域鸟声分离方法、装置以及计算机可读存储介质,方法包括:构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;构建分离模型损失函数,并且配置优化器、学习率和学习率策略;根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。本发明的运算量小、效率高且成本低,可广泛应用于人工智能技术领域。
Description
技术领域
本发明涉及人工智能技术领域,尤其是一种单通道时域鸟声分离方法、装置以及计算机可读存储介质。
背景技术
近年来,声学监测在鸟类监测、研究和保护方面得到了广泛的应用。这种方法不侵入或破坏自然环境,可以减少人类干扰对鸟类的影响。声学监测中收集的音频文件可以作为追踪鸟类群落分布随时间变化的重要数据。通过深度学习技术,记录下的鸟声数据可以用来对鸟类进行自动分类,快速了解当前环境中鸟类的物种组成和数量。有很多研究提出了各种方法来提高基于声音的鸟类分类的准确性。然而,野外现场环境非常复杂,影响基于声音的鸟类物种分类准确性的因素很多,如噪声干扰、记录的鸟声太小、鸟声重叠等。在野外采集鸟类声音时,鸟声重叠是一个常见的问题,因为鸟类是社会性动物,通常会一起鸣叫,鸟声重叠是影响鸟类物种分类精度的重要因素之一。面对鸟类声音的重叠,人们在识别鸟类物种方面做了很多努力,如多标签方法,当一段音频中同时出现多种鸟类声音时,识别模型被训练为分配多个标签来识别多种鸟类。与传统的单标签方法相比,这种方法提高了识别精度,但当鸟声在时域和频域重叠时,识别精度并不高。近年来,由于深度学习的快速发展,在声源分离方面取得了重大进展。然而,关于鸟类声音分离的研究却很少。声源分离的方法能否直接用于鸟声分离还有待研究,但这为鸟声重叠的分离提供了参考。
在相关技术中,基于深度学习的单声道声源分离可以用“编码器-分离器-解码器”框架来描述。编码器将输入音频转化为高维的特征;分离器学习不同声源的掩码并与输入的高维特征相乘,实现不同声源特征的分离;解码器将分离后的高维特征转换成一维的时域信号。该框架可应用于频域和时域的声源分离。大多数编码器通过短时傅里叶变换将时域的混合音频转化为另外的特征表示。在基于深度学习的声源分离中,人们更喜欢以数据驱动的方式学习编码器的系数,其中一维卷积通常被用作编码器。
在目前的时域分离法中,通过网络学习得到的编码器将输入的混合信号变成高维特征,分离器再从这个混合的高位特征中分离出各个声源的高维特征,解码器将各个声源的高维特征还原成对应声源的声音信号。
目前的时域分离方法中编码器编码得到的特征维数较高,长度较大,而且需要经过分离器中的多个transformer块,导致分离器在分离不同声源的特征时运算量、内存等需求较大,对运行设备的要求较高,训练分离模型的时间较长。
发明内容
有鉴于此,本发明实施例提供一种运算量小、效率高且成本低的,单通道时域鸟声分离方法、装置以及计算机可读存储介质。
本发明实施例的一方面提供了一种单通道时域鸟声分离方法,包括:
构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
可选地,所述构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集,包括:
获取不同类别的鸟声数据;其中,每种类别的鸟声数据的音频播放时长不低于1200秒;每个音频文件中的鸟声存在时长不小于音频文件总时长的50%;音频文件中连续的非鸟声音频段不大于整个音频文件总时长的25%;
对获取到的鸟声数据进行归一化处理,将鸟声数据统一音频格式、采样频率和音频通道数进行统一;
采用分层抽样策略将归一化处理后的鸟声数据划分为训练集和验证集;
对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集。
可选地,所述对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集,包括:
配置网络的输入鸟声长度为4秒,获取对应信号长度的采样点;
随机选取两种不同的鸟声信号,如果选取的鸟声信号采样点数小于64000、音频时间小于4秒,则对鸟声信号进行补0操作,将鸟声信号补成64000个点数;如果选取的鸟声信号采样点数大于64000、音频时间大于4秒,则随机选取其中64000个采样点;
得到两个相等长度的鸟声信号后,将两个鸟声信号进行混合处理,直至完成对所述训练集和所述验证集中任意两个种类的任意两个鸟声信号的混合处理;
其中,所述混合处理的表达式为:
s(t)=s1(t)+α·s2(t)
其中,s(t)为混合后的鸟声信号,s1(t)和s2(t)为两种不同种类的鸟声信号,α为混合过程中s2(t)的增益系数。
可选地,所述方法还包括对鸟声数据集进行数据增强的步骤,该步骤具体包括以下至少之一:
按照设定的信噪比范围把噪声切片数据叠加到鸟声数据集上,向所述鸟声数据集加入噪声数据;
或者,将切片数据在时间轴上等距离划分成若干等份,对各个等份的数据进行随机顺序的拼接,完成对鸟声数据集进行时间区间位移变换;
或者,将鸟声数据集的鸟声信号的所有采样点的幅度值乘以设定的幅度增益因子,对鸟声信号进行随机幅度范围的音量调节,完成对鸟声数据集上的鸟声信号进行音量变换。
可选地,所述构建鸟声分离网络,包括:
构建鸟声分离网络的编码器;其中,所述编码器由一层一维卷积层和ReLU激活函数构成;所述一维卷积层的卷积核个数N设置为256,卷积核大小设置为16,卷步长设置为8;
构建鸟声分离网络的分离器;其中,所述分离器由特征分割模块、DPTTNet块、双路径块和重叠相加模块四个部分组成;
构建鸟声分离网络的解码器。
可选地,
所述构建鸟声分离网络的分离器,包括:
将鸟声信号中的特征分割为若干个重叠块,将分割后的所有重叠块拼接成一个三维张量;其中,相邻两个重叠块之间有50%的重叠;
通过一维卷积层将特征长度减半处理,然后进行多头注意力计算,再接归一化层和ReLU激活层的处理,最后通过反一维卷积层恢复特征长度;
通过局部transformer处理和全局transformer处理完成序列建模过程,得到目标特征;
对所述目标特征进行重叠相加处理,得到不同声源估计的掩膜,完成鸟声分离网络的分离器的构建;
所述构建鸟声分离网络的解码器,包括:
把高维特征向量重构成鸟声音频信号;
使用一个转置卷积层作为解码器,通过分离器得到不同声源估计的掩膜后,再将所述掩膜和编码器的输出进行点乘,得到不同声源的估计特征,然后通过解码器获得声音信号。
本发明实施例的另一方面还提供了一种单通道时域鸟声分离装置,包括:
第一模块,用于构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
第二模块,用于构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
第三模块,用于构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
第四模块,用于根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
第五模块,用于根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例首先构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;构建分离模型损失函数,并且配置优化器、学习率和学习率策略;根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。本发明的运算量小、效率高且成本低。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体步骤流程图;
图2为本发明实施例提供的特征分割示意图;
图3为本发明实施例提供的DPTTNet块的运算结构和流程示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
针对现有技术存在的问题,本发明实施例的一方面提供了一种单通道时域鸟声分离方法,包括:
构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
可选地,所述构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集,包括:
获取不同类别的鸟声数据;其中,每种类别的鸟声数据的音频播放时长不低于1200秒;每个音频文件中的鸟声存在时长不小于音频文件总时长的50%;音频文件中连续的非鸟声音频段不大于整个音频文件总时长的25%;
对获取到的鸟声数据进行归一化处理,将鸟声数据统一音频格式、采样频率和音频通道数进行统一;
采用分层抽样策略将归一化处理后的鸟声数据划分为训练集和验证集;
对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集。
可选地,所述对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集,包括:
配置网络的输入鸟声长度为4秒,获取对应信号长度的采样点;
随机选取两种不同的鸟声信号,如果选取的鸟声信号采样点数小于64000、音频时间小于4秒,则对鸟声信号进行补0操作,将鸟声信号补成64000个点数;如果选取的鸟声信号采样点数大于64000、音频时间大于4秒,则随机选取其中64000个采样点;
得到两个相等长度的鸟声信号后,将两个鸟声信号进行混合处理,直至完成对所述训练集和所述验证集中任意两个种类的任意两个鸟声信号的混合处理;
其中,所述混合处理的表达式为:
s(t)=s1(t)+α·s2(t)
其中,s(t)为混合后的鸟声信号,s1(t)和s2(t)为两种不同种类的鸟声信号,α为混合过程中s2(t)的增益系数。
可选地,所述方法还包括对鸟声数据集进行数据增强的步骤,该步骤具体包括以下至少之一:
按照设定的信噪比范围把噪声切片数据叠加到鸟声数据集上,向所述鸟声数据集加入噪声数据;
或者,将切片数据在时间轴上等距离划分成若干等份,对各个等份的数据进行随机顺序的拼接,完成对鸟声数据集进行时间区间位移变换;
或者,将鸟声数据集的鸟声信号的所有采样点的幅度值乘以设定的幅度增益因子,对鸟声信号进行随机幅度范围的音量调节,完成对鸟声数据集上的鸟声信号进行音量变换。
可选地,所述构建鸟声分离网络,包括:
构建鸟声分离网络的编码器;其中,所述编码器由一层一维卷积层和ReLU激活函数构成;所述一维卷积层的卷积核个数N设置为256,卷积核大小设置为16,卷步长设置为8;
构建鸟声分离网络的分离器;其中,所述分离器由特征分割模块、DPTTNet块、双路径块和重叠相加模块四个部分组成;
构建鸟声分离网络的解码器。
可选地,
所述构建鸟声分离网络的分离器,包括:
将鸟声信号中的特征分割为若干个重叠块,将分割后的所有重叠块拼接成一个三维张量;其中,相邻两个重叠块之间有50%的重叠;
通过一维卷积层将特征长度减半处理,然后进行多头注意力计算,再接归一化层和ReLU激活层的处理,最后通过反一维卷积层恢复特征长度;
通过局部transformer处理和全局transformer处理完成序列建模过程,得到目标特征;
对所述目标特征进行重叠相加处理,得到不同声源估计的掩膜,完成鸟声分离网络的分离器的构建;
所述构建鸟声分离网络的解码器,包括:
把高维特征向量重构成鸟声音频信号;
使用一个转置卷积层作为解码器,通过分离器得到不同声源估计的掩膜后,再将所述掩膜和编码器的输出进行点乘,得到不同声源的估计特征,然后通过解码器获得声音信号。
本发明实施例的另一方面还提供了一种单通道时域鸟声分离装置,包括:
第一模块,用于构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
第二模块,用于构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
第三模块,用于构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
第四模块,用于根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
第五模块,用于根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本发明的具体实施过程进行详细描述:
参考图1的整体方法流程图,本发明实施例提供的一种基于深度学习在复杂声学场景下鸟声识别模型训练测试方法,包括以下步骤:
S1、构建鸟声数据集,并对数据集进行格式统一,训练集验证集划分;
S2、对数据集进行数据增强;
S3、构建鸟声分离网络,即编码器、分离器和解码器;
S4、构建分离模型损失函数;
S5、设置优化器,学习率,学习率策略。训练完成后使用验证集的混合鸟声数据进行分离验证。
具体地,S1具体实施步骤包括:
1)、鸟声数据集的构建要求:鸟声类别数为NS,各个类别的鸟声数据总时长Ksi,i=1,2,…NS,要求鸟声数据集内的每个类别数据总时长Ksi不低于1200秒,每个类别的数据可以包括若干个音频文件,各个类别中音频文件的时长不能短于10秒,各个音频文件中的鸟声时长不得小于音频文件总时长的50%,音频文件中连续的非鸟声段不能大于整个音频文件总时长的百分之25%。
2)、对以上数据集进行数据格式统一化处理,音频格式:wav,采样频率:16000Hz,音频通道数:单通道。数据格式统一化处理的要求如下面表1所示:
表1数据集构建要求
3)、采用分层抽样策略将数据集划分为训练集和验证集,比例为7:3。
4)、分别对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集。混合过程如下:
①、设置网络的输入鸟声长度为4秒,因为采样率为16000Hz,所以需要的信号长度为4*16000=64000个采样点。然后随机选取两种不同的鸟声信号,如果选取的鸟声信号采样点数小于64000,既音频时间小于4秒,则需要对信号补0,使短的信号补成64000个点数;如果选取的鸟声信号采样点数大于64000,既音频时间大于4秒,则随机选取其中64000个采样点。
②、得到两个相等长度的鸟声信号后,按照公式1进行混合
其中,s(t)为混合后的鸟声信号,s1(t)和s2(t)为两种不同种类的鸟声信号,α为混合过程中s2(t)的增益系数,q表示两种鸟声信号的大小水品,用分贝来衡量,q的取值为-5~+5。合成混合鸟声信号时,q为一个范围在-5~+5内的随机数。
③、分别对训练集和验证集中的每两个种类的每两个鸟声音频进行混合。
具体地,S2的具体实施步骤包括:
1)、对鸟声信号加入噪声数据。噪声类型为白噪声,粉红噪声,棕色噪声,每次加入的噪声都为以上的随机一种,按照设定的信噪比范围(min_dB,max_dB)把噪声切片数据叠加到鸟声信号上。信噪比范围门限需事先设置,例如min_dB=3,max_dB=15。
2)、对鸟声信号进行时间区间位移变换。即将切片数据在时间轴上等距离划分成n等份(n小于等于3),对n等份数据进行随机顺序的拼接,形成新的鸟声信号。
3)、对鸟声信号进行音量变换。即将鸟声信号的所有采样点的幅度值乘以设定的幅度增益因子a=10(b/20)对其进行随机幅度范围的音量调节,其中b=(min_dB,max_dB),最大最小分贝门限需事先设置,例如min_dB=-12,max_dB=12。
4)、以上步骤S2中的1)、2)、3)的增强方式按概率p(例如p=0.5)进行随机发生组合作为鸟声信号的数据增强方法。
对已经完成时域数据增强方法的混合鸟声信号保存为新的数据集用于后续的模型训练。
具体地,对于上述S3,鸟声分离网络结构包括编码器、分离器和解码器三个部分,需要依次进行构建,步骤S3包括以下步骤1)-3):
1)、构建鸟声分离网络的编码器。编码器由一层一维卷积层和ReLU激活函数构成。一维卷积层的卷积核个数N设置为256,卷积核大小设置为16,卷步长设置为8。编码器过程的公式可以表示为:
w=ReLU(conv1d(x))
其中,w表示编码器编码输出的特征。
2)、构建鸟声分离网络的分离器。分离器是整个鸟声分离网络的核心部分,主要由特征分割、DPTTNet块、双路径块处理和重叠相加四个部分组成。其中DPTTNet块对整个分离网络的计算量和参数量的降低起着重要作用。
上述步骤2)具体包括以下(1)-(4):
(1)特征分割
如图2所示,这个步骤将特征w分割为长度为K=120的S=136个重叠块,相邻两个块之间有50%的重叠以保持不同块之间的关联,然后将分割后所有的块拼接成一个三维张量D∈RN×K×S,方便后面从两个维度对输入特征进行整体建模。若输入特征的长度不满足分割条件,需要对输入特征用0填充。
(2)DPTTNet块
参考图3,为了解决输入长的特征时计算多头注意力的运算量过大、内存需求高,DPTTNet块中使用一维卷积层来降低特征长度,一维卷积层的卷积核个数和输入特征维度一致,卷积核长度为4,卷积步长为2。特征经过一维卷积层后特征长度减半,然后进行计算多头注意力,再接层归一化和ReLU激活。为了恢复特征长度,需要一个反一维卷积层。反一维卷积层的参数设置和一维卷积层一样。
(3)双路径处理过程
在双路径处理阶段,每次完整的序列建模包括局部transformer处理和全局transformer处理,一共需要重复B次完整的序列建模。局部transformer处理的运算过程如下:
Db intra=IntraTransformerb[Db-1 inter]
=[DPTTNet block(Db tnter[:,:,i]),i=1,...,S]
分割阶段输出的特征D首先传递给局部transformer处理,局部transformer处理作用与特征D的第二个维度。接下来又到全局transformer处理,局部transformer处理后的特征传到全局transformer处理后再作用于特征的最后一个维度,全局transformer处理的运算过程如下:
Db inter=InterTransformerb[Db-1 intra]
=[transformer(Db intra[:,j,:]),j=1,...,K]
其中,b=0,1,…,B-1表示的是第几次双路径处理过程,当b=O时,D0 intra表示分割后的输入特征D。还需要注意的是每个局部transformer处理和全局transformer处理的层归一化应用于所有维度。
双路径处理过程中的一个全局建模运算过程可以总结为如下:
Db+1=finter(ρ(fintra(Db)))
其中,finter(·)和fintra(·)分别表示inter-transformer和intra-transformer,ρ表示对Db∈RN×K×S的最后两个维度进行交换。在进行完B次完整的双路径处理后得到输出DB,然后接一个一维卷积层,将输出通道变成C*N,C表示声源个数,过程如下所示:
Doutput=ψ-1(foutput(ψ(DB)))
其中,DB∈RN×K×S,Doutput∈RC×N×K×S,foutput(·)表示一维卷积。ψ表示的是对输入特征进行重塑特征形状,因为一维卷积不能直接对DB∈RN×K×S进行操作,需要后面两个维度合并成一个维度,经过一维卷积之后再反变换回来
(4)重叠相加
在B次双路径处理完后得到的Doutput需要通过重叠相加的方法转换成和分割前一样的形状,计算过程为前面特征分割的反向操作,再经过一维卷积层和激活函数后得到C个声源的掩膜估计。
mi=max(0,conv1d(OverlapAdd(Doutput)))
其中,OverlapAdd表示对Doutput进行重叠相加的操作,相加时每一小段特征有50%的重叠部分。
3)、构建解码器
解码器把高维特征向量重构成鸟声音频信号。我们使用一个转置卷积层作为解码器,它的卷积核大小和步长和编码器一样。通过分离器得到不同声源估计的掩膜后,再和编码器的输出w点乘得到不同声源的估计特征,然后通过解码器就能获得声音信号。解码器的变换可以表示为:
具体地,上述S4的步骤中,训练过程中用比例不变信噪比(SI-SNR)来做为损失函数,因为它通常被用作源分离的评估指标。本实施例中使用话语级置换不变训练(uPIT)对所提出的模型进行训练,以最大化SI-SNR。SI-SNR的计算过程如下:
具体地,上述S5具体包括以下步骤:
1)、设置epoch次数与设置batchsize个数,分别为100和8。
2)、优化器选取。采用Adam优化器作为随机批量梯度下降优化器,设置初始学习率为Initial_Ir为0.00015。
3)、学习率策略选择。采用余弦退火学习率策略,策略具体如下式所示:
其中,new_Ir是各个epoch训练开始时得到的新的学习率,Initial_Ir是初始的学习率,eta_min是参数eta_min表示最小学习率,T_max表示cos的周期的1/4。例如可设置Initial_Ir=1e-3,eta_min=1e-5,T_max=epoch。
4)、在训练过程中,当观测到验证集损失值经过10个epoch都没有下降时完成模型训练。
下面,本实施例对本发明提供的单通道时域鸟声分离方法与相关方法的比较进行说明:
本实施例在20种不同鸟类的混合鸟声数据集中取得了和其他声源分离模型相似的性能,但是运算量、参数量和内存需求却大大降低。
不同分离模型的分离性能表现如表2所示,不同分离模型的浮点操作数、运行时间和内存占用如表3所示:
表2
Network | SI-SNRi(dB) | SDRi(dB) | Params(M) | FLOPs(G) |
DPRNN | 19.3 | 20 | 2.6 | 60.016 |
DPTNet | 21.5 | 22.1 | 2.639 | 42.961 |
Ours | 19.3 | 20.1 | 0.444 | 5.893 |
表3
Network | FLOPs(G) | CPU Time(s) | GPU Time(ms) | F/B GPU Memory(GB) |
DPRNN | 60.016 | 2.047 | 54.994 | 0.890/1390 |
DPTNet | 42.961 | 2.256 | 52.001 | 0.844/1.996 |
Ours | 5.893 | 0.316 | 13.507 | 0.602/1.002 |
其中,SI-SNRi和SDRi都是衡量鸟声分离性能的指标,越大越好。Params表示模型参数量大小,FLOPs表示浮点操作数,CPU Time表示模型在CPU上运行时分离一段4秒的混合鸟声时做花费的时间,GPU Time表示模型在GPU上运行时分离一段4秒的混合鸟声时做花费的时间,F/B GPU Memory表示模型在GPU上运行时所消耗的前向推断和方向传播所消耗的显存大小。
综上所述,本发明能够减少时域声源分离模型的运算量和内存需求,加快分离速度,使得分离模型更好的运用在各种性能不高的设备当中,缩短分离模型的训练时间,解决了时域分离模型运算速度慢、运算量大、内存需求高的问题。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种单通道时域鸟声分离方法,其特征在于,包括:
构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
2.根据权利要求1所述的一种单通道时域鸟声分离方法,其特征在于,所述构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集,包括:
获取不同类别的鸟声数据;其中,每种类别的鸟声数据的音频播放时长不低于1200秒;每个音频文件中的鸟声存在时长不小于音频文件总时长的50%;音频文件中连续的非鸟声音频段不大于整个音频文件总时长的25%;
对获取到的鸟声数据进行归一化处理,将鸟声数据统一音频格式、采样频率和音频通道数进行统一;
采用分层抽样策略将归一化处理后的鸟声数据划分为训练集和验证集;
对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集。
3.根据权利要求2所述的一种单通道时域鸟声分离方法,其特征在于,所述对训练集和验证集的鸟声数据进行混合,得到混合的训练集和验证集,包括:
配置网络的输入鸟声长度为4秒,获取对应信号长度的采样点;
随机选取两种不同的鸟声信号,如果选取的鸟声信号采样点数小于64000、音频时间小于4秒,则对鸟声信号进行补0操作,将鸟声信号补成64000个点数;如果选取的鸟声信号采样点数大于64000、音频时间大于4秒,则随机选取其中64000个采样点;
得到两个相等长度的鸟声信号后,将两个鸟声信号进行混合处理,直至完成对所述训练集和所述验证集中任意两个种类的任意两个鸟声信号的混合处理;
其中,所述混合处理的表达式为:
s(t)=s1(t)+α·s2(t)
其中,s(t)为混合后的鸟声信号,s1(t)和s2(t)为两种不同种类的鸟声信号,α为混合过程中s2(t)的增益系数。
4.根据权利要求1所述的一种单通道时域鸟声分离方法,其特征在于,所述方法还包括对鸟声数据集进行数据增强的步骤,该步骤具体包括以下至少之一:
按照设定的信噪比范围把噪声切片数据叠加到鸟声数据集上,向所述鸟声数据集加入噪声数据;
或者,将切片数据在时间轴上等距离划分成若干等份,对各个等份的数据进行随机顺序的拼接,完成对鸟声数据集进行时间区间位移变换;
或者,将鸟声数据集的鸟声信号的所有采样点的幅度值乘以设定的幅度增益因子,对鸟声信号进行随机幅度范围的音量调节,完成对鸟声数据集上的鸟声信号进行音量变换。
5.根据权利要求1所述的一种单通道时域鸟声分离方法,其特征在于,所述构建鸟声分离网络,包括:
构建鸟声分离网络的编码器;其中,所述编码器由一层一维卷积层和ReLU激活函数构成;所述一维卷积层的卷积核个数N设置为256,卷积核大小设置为16,卷步长设置为8;
构建鸟声分离网络的分离器;其中,所述分离器由特征分割模块、DPTTNet块、双路径块和重叠相加模块四个部分组成;
构建鸟声分离网络的解码器。
6.根据权利要求5所述的一种单通道时域鸟声分离方法,其特征在于,
所述构建鸟声分离网络的分离器,包括:
将鸟声信号中的特征分割为若干个重叠块,将分割后的所有重叠块拼接成一个三维张量;其中,相邻两个重叠块之间有50%的重叠;
通过一维卷积层将特征长度减半处理,然后进行多头注意力计算,再接归一化层和ReLU激活层的处理,最后通过反一维卷积层恢复特征长度;
通过局部transformer处理和全局transformer处理完成序列建模过程,得到目标特征;
对所述目标特征进行重叠相加处理,得到不同声源估计的掩膜,完成鸟声分离网络的分离器的构建;
所述构建鸟声分离网络的解码器,包括:
把高维特征向量重构成鸟声音频信号;
使用一个转置卷积层作为解码器,通过分离器得到不同声源估计的掩膜后,再将所述掩膜和编码器的输出进行点乘,得到不同声源的估计特征,然后通过解码器获得声音信号。
7.一种单通道时域鸟声分离装置,其特征在于,包括:
第一模块,用于构建鸟声数据集,并对所述鸟声数据集进行数据划分,得到训练集和验证集;其中,所述鸟声数据集为单通道鸟声数据;
第二模块,用于构建鸟声分离网络,所述鸟声分离网络包括编码器、分离器和解码器;
第三模块,用于构建分离模型损失函数,并且配置优化器、学习率和学习率策略;
第四模块,用于根据所述分离模型损失函数、所述优化器、所述学习率和所述学习率策略,通过所述鸟声分离网络对所述训练集进行模型训练,得到鸟声分离模型;
第五模块,用于根据所述鸟声分离模型对混合鸟声数据进行分离处理,得到鸟声分离结果。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354718.1A CN115731924A (zh) | 2022-11-01 | 2022-11-01 | 单通道时域鸟声分离方法、装置以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211354718.1A CN115731924A (zh) | 2022-11-01 | 2022-11-01 | 单通道时域鸟声分离方法、装置以及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115731924A true CN115731924A (zh) | 2023-03-03 |
Family
ID=85294277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211354718.1A Pending CN115731924A (zh) | 2022-11-01 | 2022-11-01 | 单通道时域鸟声分离方法、装置以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115731924A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
CN117746871A (zh) * | 2024-02-21 | 2024-03-22 | 南方科技大学 | 一种基于云端检测鸟类鸣声的方法及系统 |
-
2022
- 2022-11-01 CN CN202211354718.1A patent/CN115731924A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711423A (zh) * | 2024-02-05 | 2024-03-15 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法 |
CN117711423B (zh) * | 2024-02-05 | 2024-05-10 | 西北工业大学 | 联合听觉场景分析与深度学习的混合水声信号分离方法及系统 |
CN117746871A (zh) * | 2024-02-21 | 2024-03-22 | 南方科技大学 | 一种基于云端检测鸟类鸣声的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Conv-tasnet: Surpassing ideal time–frequency magnitude masking for speech separation | |
Huang et al. | Deep learning for monaural speech separation | |
Hummersone et al. | On the ideal ratio mask as the goal of computational auditory scene analysis | |
CN115731924A (zh) | 单通道时域鸟声分离方法、装置以及计算机可读存储介质 | |
CN107564513A (zh) | 语音识别方法及装置 | |
CN108899047B (zh) | 音频信号的掩蔽阈值估计方法、装置及存储介质 | |
US11810586B2 (en) | Methods and apparatuses for noise reduction based on time and frequency analysis using deep learning | |
Bandela et al. | Unsupervised feature selection and NMF de-noising for robust Speech Emotion Recognition | |
JP2018031967A (ja) | 音源強調装置、その方法、及びプログラム | |
Mukhutdinov et al. | Deep learning models for single-channel speech enhancement on drones | |
CN113299298A (zh) | 残差单元及网络及目标识别方法及系统及装置及介质 | |
Zhang et al. | Discriminative frequency filter banks learning with neural networks | |
Du et al. | A tristimulus-formant model for automatic recognition of call types of laying hens | |
CN113707172B (zh) | 稀疏正交网络的单通道语音分离方法、系统、计算机设备 | |
US20220254364A1 (en) | Method and apparatus for noise reduction of full-band signal | |
Bach et al. | Classifying marine mammals signal using cubic splines interpolation combining with triple loss variational auto-encoder | |
Roma et al. | Improving single-network single-channel separation of musical audio with convolutional layers | |
Grzywalski et al. | Speech enhancement using U-nets with wide-context units | |
Chen et al. | CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application | |
Atkins et al. | Visualization of Babble–Speech Interactions Using Andrews Curves | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
CN114302301A (zh) | 频响校正方法及相关产品 | |
CN111832596B (zh) | 数据处理方法、电子设备及计算机可读介质 | |
CN115206347A (zh) | 肠鸣音的识别方法、装置、存储介质及计算机设备 | |
Ozamoto et al. | Noise-Tolerant Time-Domain Speech Separation with Noise Bases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |