CN117727307A

CN117727307A - 基于特征融合的鸟类声音智能识别方法

Info

Publication number: CN117727307A
Application number: CN202410179263.7A
Authority: CN
Inventors: 白莹; 张晓东; 蔡宪文
Original assignee: Bainiao Data Technology Beijing Co ltd
Current assignee: Bainiao Data Technology Beijing Co ltd
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-03-19
Anticipated expiration: 2044-02-18
Also published as: CN117727307B

Abstract

本申请涉及语音处理技术领域，提出了基于特征融合的鸟类声音智能识别方法，包括：采集生态区内不同鸟类的鸟鸣数据；基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量；基于每个鸟鸣数据的频谱向量在自编码器潜在空间每个维度上的投影长度确定音频信息相关系数；基于频谱向量与相同潜在空间维度之间的音频信息相关系数确定维度区分系数；根据频谱向量以及维度区分系数确定鸟鸣特征向量；基于鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。本申请能够利用不同维度作为坐标系维度，并通过维度递增的方式对相似度较高的鸟鸣数据准确区分，提高鸟类声音的识别准确率。

Description

基于特征融合的鸟类声音智能识别方法

技术领域

本申请涉及语音处理技术领域，具体涉及基于特征融合的鸟类声音智能识别方法。

背景技术

鸟类是自然生态系统中的重要成员，通过对鸟类鸟叫数据的监测能够从一定程度生反应生态区域内生态系统的循环流畅程度和生态平衡的稳定性。因此通过对生态区内鸟鸣数据的识别与监测，能够反应生态区内的生态适宜性，辅助生态区的管理人员更好的维护生态区内的生态环境。

鸟鸣识别的过程涉及多个步骤，包括采集鸟鸣数据、鸟鸣数据的预处理、数据特征的提取、鸟鸣识别等。数据特征的提取是指从鸟鸣信号中提取有意义的特征来表示语音，对鸟类声音的识别至关重要，现阶段常用的音频特征包括梅尔倒谱系数MFCC(Mel FrequencyCepstral Coefficients)、线性预测倒谱系数LPCC(Linear Predictive CepstralCoefficients)、谱线频率LSF(Line Spectral Frequencies)等等，每种音频特征对音频数据的表达能力不同，例如的优点是具有很好的人类感知属性，能够有效地抽取语音信号的关键特征，LPCC与MFCC相比，在抗噪能力和特征表达能力方面具有一定优势，但是MFCC反映的是通常是语音信号的静态特征，不能反映鸟鸣过程中的动态特征；而LPCC易受到噪声的干扰，因此需要从鸟鸣信号中提取不同的特征进行融合，提高鸟类智能识别的精度。

发明内容

本申请提供基于特征融合的鸟类声音智能识别方法，以解决单一音频特征不能充分反映鸟鸣过程中动态变化的问题，所采用的技术方案具体如下：

本申请一个实施例提供了基于特征融合的鸟类声音智能识别方法，该方法包括以下步骤：

采集生态区内不同鸟类的鸟鸣数据；

基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量；基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数；

基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数；

根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量；

基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。

优选的，所述基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量的方法为：

将每个鸟鸣数据的频谱图上所有相邻振幅峰值之间时间间隔的均值作为每个鸟鸣数据的频谱图上的分割时长；

利用所述分割时长将每个鸟鸣数据的频谱图划分为不同的图像块，利用预设尺度的滑动窗口以预设滑动步长在每个图像块内沿着频率上升的方向滑动，将每个滑动窗口内所有采样点的能量值组成的矩阵作为每个滑动窗口的能量矩阵；

利用局部二值算法获取每个滑动窗口的能量矩阵中每个元素的LBP值，将每个图像块内每种不相等的LBP值作为一类LBP值，将每个图像块内所有类LBP值按照每类LBP出现频率降序顺序排列得到的向量作为每个图像块的能力二值向量；

将每个鸟鸣数据的频谱图上所有图像块的能力二值向量按照时间顺序组成的向量作为每个鸟鸣数据的频谱向量。

优选的，所述基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数的方法为：

基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量；

将每个鸟鸣数据的频谱向量与每个潜在空间维度的显著向量之间的度量距离与预设参数之和作为分母；

将每个鸟鸣数据的频谱向量在每个潜在空间维度上的投影长度与分母的比值作为每个鸟鸣数据与每个潜在空间维度之间的音频信息相关系数。

优选的，所述基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量的方法为：

将每种鸟类下每个鸟鸣数据的频谱向量作为矩阵的一个行向量，将所有种鸟类下所有鸟鸣数据的频谱向量按照种类排列组成的矩阵作为多种类频谱矩阵；

利用生态区数据中心已有鸟鸣信号的声音数据对应的频谱向量训练神经网络自编码器，提取训练后的神经网络自编码器中的编码器部分，将多种类频谱矩阵作为输入，采用所述编码部分将多种类频谱矩阵中每个行向量都映射为相应的低维表示；

将神经网络自编码器中潜在空间中距离每个维度欧式距离最小的低维数据点组成的向量作为每个潜在空间维度的显著向量。

优选的，所述基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数的方法为：

根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度；

根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度；

将两种鸟类下两个鸟鸣数据的信息成分区分度在量子鸟类下所有鸟鸣数据上累加结果的均值作为每个潜在空间维度关于两种鸟类的维度区分系数。

优选的，所述根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度的方法为：

将所有鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数作为输入，采用数据聚类算法获取所述音频信息相关系数的聚类结果；

将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中元素的数量作为分母；

将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中对应同种鸟类的元素数量与分母的比值作为每种鸟类下每个鸟鸣数据的同类映射密度。

优选的，所述根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度的方法为：

式中，是第1个潜在空间维度对a、b两种鸟类中第c、p个鸟鸣数据之间的信息成分区分度，/>是第a种鸟类中第c个鸟鸣数据的同类映射密度，/>是删除第b种鸟类与第1个潜在空间维度之间的音频信息相关系数后第a种鸟类中第c个鸟鸣数据的同类映射密度；/>是第b种鸟类中第p个鸟鸣数据的同类映射密度、/>是删除第a种鸟类与第1个潜在空间维度之间的音频信息相关系数后，第b种鸟类中第p个鸟鸣数据的同类映射密度；/>是调参因子。

优选的，所述根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量的方法为：

将关于两种鸟类的维度区分系数中最大值对应的潜在空间维度组成的坐标系作为两种鸟类鸟鸣数据的目标映射坐标系；

根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量；

将每种鸟类的类代表向量与所述目标映射坐标系的维度数量的乘积作为每种鸟类关于其余任意一种鸟类的鸟鸣特征向量。

优选的，所述根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量的方法为：

获取两种鸟类下每个鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标上的映射结果作为每个鸟鸣数据的映射向量；

将每种鸟类下任意一个鸟鸣数据的映射向量作为一个目标向量，将每种鸟类下所有鸟鸣数据的映射向量与其余任意一种鸟类下所有目标向量之间度量距离的最大值对应的映射向量作为每种鸟类的类代表向量。

优选的，所述基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果的方法为：

将每种鸟类关于其余任意一种鸟类的鸟鸣特征向量作为一个行向量，将利用每种鸟类关于其余所有种鸟类的鸟鸣特征向量组成的矩阵作为每种鸟类的区分特征矩阵；

利用神经网络模型分别获取每种鸟类下每个鸟鸣数据Mel语谱图、Chirplet语谱图的图像特征向量；

采用首尾拼接的方式将所述图像特征向量分别与每种鸟类的区分特征矩阵中每个行向量进行拼接得到多维鸟鸣融合向量，将多维鸟鸣融合向量输入分类器得到鸟类识别结果。

本申请的有益效果是：本申请利用神经网络自编码器对多种鸟类的频谱向量组成的多种类频谱矩阵进行维度分析确定每个鸟的频谱向量与每个潜在空间维度之间的音频信息相关系数，根据音频信息相关系数构建不同维度的坐标系以及维度区分系数，用于评估不同潜在空间维度对不同鸟类的区分能力；并基于不同种鸟类的目标映射坐标系确定每种鸟类相较于其余种鸟类的鸟鸣特征向量，其有益效果在于能够利用不同潜在空间维度作为坐标系维度，并通过维度递增的方式对相似度较高的鸟鸣数据准确区分；并通过与ResNet50网络提取的图像特征向量拼接完成特征融合，提高分类器输入数据的质量，使得识别模型对鸟鸣声音的识别结果更准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例所提供的基于特征融合的鸟类声音智能识别方法的流程示意图；

图2为本申请一个实施例所提供的第一自编码器潜在空间中每个维度方向、第二自编码器潜在空间中每个维度方向为横纵坐标构建二维坐标系的示意图；

图3为本申请一个实施例所提供的特征融合的示意图；

图4为本申请一个实施例所提供的神经网络自编码器结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，其示出了本申请一个实施例提供的基于特征融合的鸟类声音智能识别方法流程图，该方法包括以下步骤：

步骤S001，采集生态区内不同鸟类的鸟鸣信号，并对采集信号进行预处理。

利用生态区内布置的AI声纹感知设备，该设备是由四路拾音器组成的麦克风阵列，能够采集大小为200m*200m范围内的音频数据，其次可通过物联网将所采集的鸟鸣数据实时传回数据中心，由数据中心进行后续的鸟类声音识别。需要说明的是，本申请中在每种鸟类的领地内均布置一个AI声纹感知设备，使得每个AI声纹感知设备只采集一种鸟类的声音，采集频率为22.05Khz。

每个鸟鸣信号中包含一种鸟类的一次鸣叫声，不同种鸟类的鸣叫声有明显的差异，例如林莺的鸣叫声节奏缓慢且富有规律，燕子鸣叫节奏较为轻快，但是一次鸟鸣的时长一般小于300ms，为了降低不同种鸣声特征维度不一致对鸟鸣识别的影响。对所采集的所有音频段的时长，将每一段鸟鸣多次复制后进行首尾拼接，截取拼接后前3s的信号。进一步地，由于每种鸟类鸣叫信号采集条件与环境的差异，同一类别不同鸟鸣数据的幅值存在显著差异，为了减少鸣声信号幅值差异对特征提取的影响，对每一段音频去均值归一化处理，音频信号的去均值归一化为公知技术，具体过程不再赘述。将每个采集的鸟鸣信号经过上述步骤处理后得到的音频数据作为一个鸟鸣数据，需要说明的是任意一个鸟鸣数据均以时域信号的方式存储。

至此，得到不同鸟类的鸟鸣数据，用于后续确定每个鸟鸣数据的频谱向量。

步骤S002，基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数。

鸟鸣数据具有阶段性的特点，鸣叫声往往从低频逐渐过滤到高频，随着频率的增大，高频信号在传输的过程中会有一定的受损，因此，需要通过一阶高通滤波器来消除低频干扰，对高频部分的频谱进行提升，增加频谱的平滑性。鸟类鸣声富有节奏并且有一定的间隔，在一小段时间内可以看做是稳定的信号，对鸟类鸣声进行分帧能够避免在处理鸣声信号时计算量太大或时变特征不明显的问题。因此对于任意一个鸟鸣数据，依次进行预加重、分帧加窗等处理，得到每个鸟鸣数据的频谱图，语音信号频谱图的获取为公知技术，具体过程不再赘述。

对于任意一个鸟鸣数据，以第a种鸟类的第c个鸟鸣数据的鸟鸣数据x(t)为例，获取x(t)上所有振幅峰值以及时间点，将所有相邻振幅峰值之间时间间隔的均值作为分割时长，在以分割时长将x(t)的时频图划分为不同的图像块，在每个图像块内，沿着频率上升的方向滑动大小为5*5的滑动窗口，滑动步长为1，获取每个滑动窗口内所有点的能量，将所有点的能量按照每个滑动窗口内点的位置排列组成的矩阵作为每个滑动窗口的能量矩阵，基于局部二值算法获取所述能量矩阵中每个点的LBP（Local Binary Patterns）值，即分别对比每个点八邻域内点的能量值与每个点的能量值的大小，对于每个滑动窗口的边缘点采用向四周补0的方式进行计算，局部二值算法为公知技术，具体过程不再赘述，需要说明的是，滑动窗口的大小实施者可根据采集鸟鸣数据的时长长短设置合理的值。其次，统计每个图像块内所有点的LBP值，将每种不相等的LBP值作为一类，并按照每类LBP出现频率降序的顺序进行排序，得到每个图像块内的能量二值向量，将所有图像块内的能量二值向量按照时间顺序排列组成的向量作为鸟鸣数据x(t)的频谱向量，这样做的有益效果在于考虑鸟鸣的周期性，将分割成多个图像块的形式，可以更好的表达鸟鸣信号中的局部特征。

进一步地，分别获取每种鸟类下所有鸟鸣数据的频谱向量，并将每种鸟下每个鸟鸣数据的频谱向量作为矩阵的一个行向量，将所有种类下所有鸟鸣数据的频谱向量按照种类排序组成的矩阵作为多种类频谱矩阵，多种类频谱矩阵维度为，N为每个频谱向量的长度，A是矩阵中频谱向量的数量。其次，为了降低鸟鸣数据中冗余数据，例如干扰噪声、静音段等对后续鸟鸣特征向量的影响，本申请中考虑使用神经网络自编码器获取多种类频谱特征矩阵对应的低维表示。具体流程如下：设计包含编码器（Encoder）和解码器（Decoder）两个部分的神经网络自编码器模型，神经网络自编码器结构示意图如图4所示，其中缩影层（Bottleneck）充当了潜在空间（Latent Space），本申请中采用Matlab的深度学习工具箱Deep learning toolbox进行构建，其次从生态区的数据中心获取/>个鸟鸣信号的声音数据，根据上述流程分别获取每个鸟鸣信号声音数据的频谱向量，将/>个所述声音数据的频谱向量作为输入，编码输出为频谱向量的重构结果，以均方误差损失MSE(MeanSquared Error)函数为本申请中神经网络自编码器的损失函数，将随机梯度下降算法作为本申请中的优化算法，迭代次数设置为100，神经网络的训练为公知技术，具体过程不再赘述。需要说明的是，神经网络自编码器的构建方式以及从数据中心获取的声音数据数量可由实施者根据生态区数据中心数据留存的具体情况选择合适的构建方式、数量。

其次，自编码器训练完成后，从训练好的自编码器中提取编码器部分，将多种类频谱矩阵作为输入，采用所提取的编码部分将多种类频谱矩阵中每个行向量都映射为相应的低维表示。进一步地，对于潜在空间Latent Space内K个维度中的任意一个维度，将LatentSpace中距离每个维度欧式距离最小的低维数据点组成的向量作为每个潜在空间维度的显著向量。对于每个潜在空间维度而言，如果多种类频谱矩阵中一个频谱向量在某个维度上的投影长度较大，则说明此频谱向量更倾向于自编码器在该维度捕获的特征。因此考虑基于每个频谱向量在每个潜在空间维度上的投影长度以及每个潜在空间维度的显著向量评估每个频谱向量与每个潜在空间维度的相关程度。

基于上述分析，此处构建音频信息相关系数，用于表征每个频谱向量与每个潜在空间维度的相关程度。计算第a种鸟类下第c个鸟鸣数据的频谱向量与第K个潜在空间维度之间的音频信息相关系数：

式中，是第a种鸟类下第c个鸟鸣数据的频谱向量与第K个潜在空间维度之间的音频信息相关系数，/>是第a种鸟类下第c个鸟鸣数据的频谱向量在第K个潜在空间维度上的投影长度，/>、/>分别是第a种鸟类下第c个鸟鸣数据的频谱向量、第K个潜在空间维度的显著向量，/>是向量/>、/>之间的DTW(Dynamic Time Warping)距离，/>是调参因子，用于防止分母为0，/>的大小取经验值0.01，DTW距离为公知技术，具体过程不再赘述。

至此，得到每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数，用于后续确定潜在空间中每个潜在空间维度关于不同种鸟类的维度区分系数。

步骤S003，基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定每个潜在空间维度关于不同种鸟类的维度区分系数。

根据上述步骤，分别获取多种类频谱矩阵中每个频谱向量与任意一个潜在空间维度之间的音频信息相关系数，将每个频谱向量与每个潜在空间维度之间的音频信息相关系数作为每个频谱向量在每个潜在空间维度对应坐标轴上的坐标信息。例如，获取第a种鸟类下第c个鸟鸣数据的频谱向量与第K-1个潜在空间维度、第K个潜在空间维度之间的音频信息相关系数后，就可以确定第a种鸟类下第c个鸟鸣数据的频谱向量在第K-1个潜在空间维度、第K个潜在空间维度形成二维坐标中的位置信息，其中，/>是第a种鸟类下第c个鸟鸣数据的频谱向量与第K-1个潜在空间维度之间的音频信息相关系数。

进一步地，分别获取每个鸟鸣数据的频谱向量与第1个潜在空间维度之间的音频信息相关系数，如果两种鸟类的鸟鸣数据频谱向量在第1个潜在空间维度方向上聚集到一块，则说明第1个潜在空间维度对两种鸟类区分能力较弱。如果添加自编码器潜在空间中第二个维度后，即分别将第一个潜在空间维度、第二个潜在空间维度为横、纵坐标构建二维坐标系，两种鸟类的鸟鸣数据频谱向量在所述二维坐标系上形成明显的两个聚集区域，如图2所示，则认为自编码器潜在空间中第二个维度对两种鸟类区分能力较强。

进一步地，分别获取所有鸟鸣数据的频谱向量与第一个潜在空间维度之间的音频信息相关系数，其次将所有鸟鸣数据的频谱向量与第一个潜在空间维度之间的音频信息相关系数作为输入，利用K-means聚类算法获取鸟鸣数据的聚类结果。需要说明的是，如果是多个潜在空间维度形成的多维坐标系，则根据每个鸟鸣数据的频谱向量与多个潜在空间维度之间的音频信息相关系数确定每个鸟鸣数据在多维坐标系中的对应的数据点，将所有鸟鸣数据在多维坐标系中的对应的数据点作为输入，利用K-means聚类算法获取鸟鸣数据的聚类结果，K-means聚类为公知技术，具体过程不再赘述。对于每个聚类簇，聚类簇内的元素的数量不同，每个鸟鸣数据的频谱向量的局部密度不同，与其属于同一种鸟类的元素数量也是不同的，即自编码器潜在空间中每个维度对不同种鸟类鸟鸣数据的区分能力不同。

基于上述分析，此处构建维度区分系数，用于表征每个潜在空间维度在任意两种鸟类鸣叫数据之间区分能力的强弱。计算第1个潜在空间维度关于a、b两种鸟类的维度区分系数：

式中，是第a种鸟类中第c个鸟鸣数据的同类映射密度，/>是第c个鸟鸣数据的频谱向量与第1个潜在空间维度之间的音频信息相关系数所在聚类簇内属于第a种鸟类鸟鸣数据的元素数量，/>是第a种鸟类中第c个鸟鸣数据的频谱向量与第1个潜在空间维度之间的音频信息相关系数所在聚类簇内元素总量；

是第1个潜在空间维度对a、b两种鸟类中第c、p个鸟鸣数据之间的信息成分区分度，/>是第a种鸟类中第c个鸟鸣数据的同类映射密度，/>是删除第b种鸟类与第1个潜在空间维度之间的音频信息相关系数后第a种鸟类中第c个鸟鸣数据的同类映射密度；/>是第b种鸟类中第p个鸟鸣数据的同类映射密度、/>是删除第a种鸟类与第1个潜在空间维度之间的音频信息相关系数后，第b种鸟类中第p个鸟鸣数据的同类映射密度；/>是调参因子，用于防止分母为0，/>的大小取经验值0.01；

是第1个潜在空间维度关于a、b两种鸟类的维度区分系数，/>是a、b两种鸟类种所选鸟的数量。

至此，得到自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数，用于后续确定不同种鸟类的目标映射坐标系。

步骤S004，根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量。

进一步地，随着自编码器潜在空间中维度的增加，潜在空间维度构成的坐标系的维度也在增加，需要说明的是本申请中按照第一个维度、第二个维度至第K个维度的顺序进行增加。不同类型鸟鸣数据的频谱向量在潜在空间维度构成的坐标系上的聚类程度也随之变化，如果两种鸟鸣数据需要越高维度的坐标系才能有明显区分，则认为两种鸟鸣数据之间的相似程度越高，越难以区分。因此，从第一个潜在空间维度开始，根据上述步骤，分别获取任意两种鸟类在潜在空间维度构成的不同维度的坐标系上对应维度区分系数。

根据上述步骤，分别获取每个潜在空间维度关于任意两种鸟类的维度区分系数。分别筛选任意一个潜在空间维度关于任意两种鸟类的维度区分系数中的最大值，举例而言，假设第1个潜在空间维度关于a、b两种鸟类的维度区分系数是所有K个潜在空间维度关于a、b两种鸟类时对应维度区分系数中的最大值，则认为在智能识别a、b两种鸟类时，应该用a、b两种鸟类对应的频谱向量在自编码器潜在空间中第1个维度上的映射结果进行区分，将自编码器潜在空间中第1个维度对应的坐标系，即第1个维度所在的直线作为a、b两种鸟类鸟鸣数据的目标映射坐标系；而如果第二个潜在空间维度后，即分别将自编码器潜在空间中第一个潜在空间维度、第二个潜在空间维度为横、纵坐标构建二维坐标系关于a、b两种鸟类的维度区分系数是所有K个潜在空间维度关于a、b两种鸟类时对应维度区分系数中的最大值，则认为在智能识别a、b两种鸟类时，应该用a、b两种鸟类对应的频谱向量在所述二维坐标系上的映射结果进行区分，将所述二维坐标系作为a、b两种鸟类鸟鸣数据的目标映射坐标系。

进一步地，对于任意一类鸟类，以第a种鸟类为例，分别获取第a种鸟类与其余每种鸟类的维度区分系数最大值对应的坐标系，即第a种鸟类与其余任意一种鸟类鸟鸣数据的目标映射坐标系。其次根据第a种鸟类与其余任意一种鸟类下M个频谱向量在目标映射坐标系上的映射结果确定第a种鸟类与其余任意一种鸟类之间的区分映射向量，并根据第a种鸟类与其余所有鸟类之间的区分映射向量构建第a种鸟类的鸟鸣特征向量。

基于上述分析，此处构建鸟鸣特征向量，用于区分不同种鸟类鸟鸣数据。构建第a种鸟类关于第b种鸟类的鸟鸣特征向量：

式中，是第a种鸟类下第c个鸟鸣数据与第b种鸟类下第g个鸟鸣数据的频谱向量之间的映射距离，/>、/>分别是第a种鸟类下第c个鸟鸣数据的频谱向量、第b种鸟类下第g个鸟鸣数据的频谱向量在a、b两种鸟类对应的目标映射坐标系上的映射向量，是映射向量/>、/>之间的DTW距离；

是第a种鸟类对应的类代表向量，max()是取最大值函数，/>、/>分别是a、b两种鸟类下所有个鸟鸣数据的集合，/>的含义是取a、b两种鸟类对应的目标映射坐标系上a、b两种鸟类下两个映射向量的映射距离的最大值，/>的含义为将a、b两种鸟类对应的目标映射坐标系上的映射距离最远的两个映射向量中属于第a种鸟类的向量作为第a种鸟类对应的类代表向量；

是第a种鸟类关于第b种鸟类的鸟鸣特征向量，/>是a、b两种鸟类对应的目标映射坐标系的维度数量。

其中，第a种鸟类下第c个鸟鸣数据的频谱向量、第b种鸟类下第g个鸟鸣数据的频谱向量在a、b两种鸟类对应的目标映射坐标系上的映射向量之间的距离越远，则从距离较远的映射向量中学习鸟鸣特征越容易区分a、b两种鸟类；a、b两种鸟类的鸟鸣数据中携带的音频特征信息越相似，想要准确区分a、b两种鸟类的鸟鸣数据需要添加自编码器潜在空间中的维度数量越多，进行更细致的映射区分，a、b两种鸟类对应的目标映射坐标系的维度数量越大，的值越大，对第a、b种鸟类对应的类代表向量之间差异的放大程度越高，利用识别a、b种鸟类的精度越高。

至此，得到每种鸟类关于其余种鸟类的鸟鸣特征向量，用于后续进行特征融合。

步骤S005，基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。

进一步地，分别获取第a种鸟类关于其余任意一种鸟类的鸟鸣特征向量，将所有所述鸟鸣特征向量构成的矩阵作为第a种鸟类鸟鸣数据的区分特征矩阵，，其中，m是生态区内鸟的种类，/>、/>分别是第a种鸟类关于第1种、第m种鸟类的鸟鸣特征向量。

根据上述步骤，分别获取每种鸟类鸟鸣数据的区分特征矩阵。其次，分别获取每种鸟类下每个鸟鸣数据的Mel语谱图、Chirplet语谱图，Mel语谱图、Chirplet语谱图的获取为公知技术，具体过程不再赘述。将每种鸟类的所有鸟鸣数据的Mel语谱图、Chirplet语谱图分别作为图像识别模型的输入，图像识别模型的结构为ResNet50，以交叉熵为损失函数，以Adam为优化算法，利用ResNet50模型学习每个鸟鸣数据的Mel语谱图、Chirplet语谱图的图像特征向量，并与每种鸟类鸟鸣数据的区分特征矩阵进行融合，特征融合的整个流程如图3所示。

本申请中将图像特征向量与每种鸟类的区分特征矩阵中每个行向量依次进行首尾拼接实现特征融合，将每个拼接得到的向量作为一个多维鸟鸣融合向量，将所有多维鸟鸣融合向量作为鸟鸣智能识别模型中分类器的输入，以循环神经网络RNN(RecurrentNeural Network)为分类器，以交叉熵函数为损失函数，以RSMProp算法为优化算法，分类器的输出作为鸟鸣数据的识别结果，神经网络的训练为公知技术，具体过程不再赘述。进一步地，将数据中心实时接收到每个AI声纹感知设备采集的鸟鸣数据输入训练好的鸟鸣智能识别模型得到相应的鸟类识别结果。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于特征融合的鸟类声音智能识别方法，其特征在于，该方法包括以下步骤：

采集生态区内不同鸟类的鸟鸣数据；

2.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量的方法为：

3.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数的方法为：

4.根据权利要求3所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量的方法为：

5.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数的方法为：

6.根据权利要求5所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度的方法为：

7.根据权利要求5所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度的方法为：

8.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量的方法为：

9.根据权利要求8所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量的方法为：

10.根据权利要求1所述的基于特征融合的鸟类声音智能识别方法，其特征在于，所述基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果的方法为：