CN112687280B

CN112687280B - 一种具有频谱-时间空间界面的生物多样性监测系统

Info

Publication number: CN112687280B
Application number: CN202011566057.XA
Authority: CN
Inventors: 田元; 刘妙燕
Original assignee: Zhejiang Nongchaoer Wisdom Technology Co ltd
Current assignee: Zhejiang Nongchaoer Wisdom Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-09-12
Anticipated expiration: 2040-12-25
Also published as: CN112687280A

Abstract

本发明涉及一种具有频谱‑时间空间界面的生物多样性监测系统，包括业务层、数据层、展示层，业务层包括用户系统、业务系统、算法系统三大系统，业务系统通过音频提取设备获取岛上的各种生物音频并提供频谱‑时间空间界面进行录制、定位、分析、注解、分类，算法系统作为后台系统通过人工智能音频识别实现相应的功能，人工智能音频识别包括噪声去除、多音频分离、自动分类、单一识别，业务系统实现了生物音频采集，使用音频提取设备提取声源以及方向，音频提取设备包括麦克风阵列和数据处理设备。本发明的生物多样性监测系统基于生态数据分析提供了一个完整的框架，结合特征映射技术，实现了注释工具，有助于提取必要的声源，减少分类的时间成本，有助于了解麦克风阵列周围的声景，有助于更详细地了解生物发声和行为的作用。

Description

一种具有频谱-时间空间界面的生物多样性监测系统

技术领域

本发明属于智能识别系统领域，特别涉及一种具有频谱-时间空间界面的生物多样性监测系统。

背景技术

生物音频是一种重要的生物学特征，包含有重要的丰富的生物学含义，如：物种鉴定交配繁殖模式，社群等级，气质特征，净化适应性等等，基于音频的识别技术可以解决一些生物物种识别问题；生物音频可以用来进行生物多样性监测，生境中生空间的竞争性和异质性性能能够代表生物多样性，对音频的分析可以提供个体、物种、种群、群落、景观水平的多样性信息，快速音频调查：通过音频只数提取技术，可以快实现快速长期大范围生物多样性评价监测，通过送完可以分析种群的结构，包括年龄，性别比例，分析事物生存状态，包括情绪、病害、打斗；声景生态学：获得音频民生指数，代表一种新的物种多样性指标，声景生态学提供重要的数据支持。目前针对生物音频的采集、检测、去噪、音频分离、分类、识别等缺少有效的方法。

识别生物音频必要澄清它们的特征(如频谱特性或叫声类型)和行为上下文(如方向、位置、相邻关系)之间的精细和详细的关系，使用常规记录或通过人类观察获得这些数据需要花费大量的时间和精力，由于硬件和软件的限制，很多识别方法并不容易实现，而新的无创记录设备的应用则是生态声学的重点。

大多数栖息地中存在的噪声以及许多生物群落中同时鸣叫，如何实现生物种的识别是很困难的，需要做更多的工作来解决识别所有物种以及它们在多只生物的嘈杂录音中发声的准确时间的问题。目前的技术都是要通过最多的人工干预来完成，尤其是需要手动将录音分割成生物音频音节。小的音频数据的处理通常是手动去噪噪声和/或手动分割实现，并且只有少量物种，这些技术仅用于标记记录，不足以检测发声的确切时间。

大多数生物音频的识别技术都是基于对音频频谱图的视觉检查。由人类专家连续识别大量生物音频的频谱图是一项极其费时费力的任务。因此，急需自动识别生物叫声。

生物音频的识别在生物声学和生态学中越来越重要，作为一种工具，可以促进无人值守的监测、公民科学和其他具有大量音频数据的应用。对于生物音频，研究的任务包括识别物种和个体，许多研究只考虑单声道的情况，使用的是孤立或低背景干扰的单个生物的记录。从混合音频中分离出单一的生物音频是一项具有挑战性的任务，生物音频通常包含快速的音调调制，这些调制携带的信息可能在自动识别中有用。

生物音频复杂多变、单调、简短、重复、固定，通常由一连串的音符组成。生物音频通常分为四个层次：音符、音节、短语和生物叫声，其中音节在生物物种识别中起着重要作用。音节被用来解决多种生物声音波形重叠的问题。目前所有的相关技术都是提取单个音节的特征，而不是提取生物叫声的一段特征来进行生物物种识别，并且识别不够准确。

发明内容

针对上述问题，尤其是使用常规记录或通过人类观察获得这些数据需要花费大量的时间和精力，由于硬件和软件的限制，很多识别方法并不容易实现的问题，提出了一种具有频谱-时间空间界面的生物多样性监测系统。技术方案为：

一种具有频谱-时间空间界面的生物多样性监测系统，包括业务层、数据层、展现层，

业务层包括用户系统、业务系统、算法系统三大系统组成，用户系统主要用来管理平台用户操作行为及信息管理；业务系统用于管理整个平台模块之间的业务，包括如音频地址管理、生物音频采集、生物音频识别信息等；算法系统通过人工智能音频识别检测音频中的生物的类型并给出合理的检测反馈信息。

数据层用于数据存储，分为数据中心、系统数据库、音频数据库，数据中心用于存储各种业务数据，包括生物识别种类、数量、日期、位置等；系统数据库存储系统模块之间的业务关系数据，包括音频、音频存放地址等；音频数据库存储所有生物音频数据。

展现层通过WEB端输出各功能模块之间交互返回的结果，开放API接口调用方法开发者可通过相关开放接口地址按照提供的调用规则进行调用。

业务系统通过音频提取设备获取岛上的各种生物音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类，算法系统作为后台系统通过人工智能音频识别实现相应的功能，人工智能音频识别包括噪声去除、多音频分离、自动分类、单一识别，业务系统实现了生物音频采集，使用音频提取设备提取声源以及方向，音频提取设备包括麦克风阵列和数据处理设备，在数据处理设备上使用频谱-时间空间界面来编辑采集到的音频文件，能够观察声源在二维特征空间上的分布，了解录音中的声音种类，从而了解声音景观的组成部分，通过在空间上分组相似的声音来对其进行分类；用户在可视化的频谱-时间空间界面上对声源进行录制、定位、分析、注解、分类，用户可以在窗口左侧择要操作的文件或文件夹，在右侧更改操作设置或执行各项功能。

在录制部分，用户使用麦克风阵列以16kHz和16位格式开始录制，并回放或分割录音，系统支持连接到数据处理设备的多个麦克风阵列同时录制，支持二维定位进行同步记录，通过设置文件的分区数或每个文件的记录时间，将一个记录文件分成若干个记录文件，以便在分析长期记录之前找到适合本地化的参数设置；

在定位部分，基于多信号分类方法使用具有短时傅立叶变换的多个频谱图进行声源定位，并提取分离的声音作为每个本地化声音的波形文件，在右边的列表中设置与生物音频定位和分离相关的基本参数值，通过在网络文件中定义参数名称和相应的标记来将附加参数添加到列表中，有助于根据环境和目标声音的声学特性更恰当地定位声源，定位和声音分离的整体结果输出到一个文件夹中并保存在音频数据库。

在分析部分，直观地分析声音的时间分布和方向性，通过导出文件按钮，以指定总页数的PDF格式输出频谱图和定位结果，有助于以适当的时间尺度概述结果，所有声源的数据，包括它们的方向和持续时间等，都以数据交换格式文件的形式输出，加载到注释工具并保存在音频数据库。

在注解部分，注解窗口顶部面板显示记录的频谱图，在x轴显示时间刻度和焦点时间段，焦点时间段和显示时间刻度可以调整，y轴显示在方向上对应的音频和声源，注解窗口中的x轴的每个框表示开始(左边缘)和结束(右边缘)时间以及y轴则显示相应源开始时间的方向，每个框的颜色代表其类，单击每个本地化声音的框，右侧显示声音本地化信息，可手动编辑信息，回放原录音中分离声音或持续时间的对应文件，支持编辑操作的撤消过程，通过拖动相应的框来修改每个源的位置，将修改后的数据以数据交换格式文件形式保存在音频数据库。

在分类部分，以使用所有分离声音的频谱图(100×64像素)作为数据集，对局部声源进行降维，采用学习库以降低数据维数，并绘制在二维平面上，可视化分布，通过参数设置进行网格搜索，对局部声音进行分类，参数包括复杂度、学习率、迭代次数等，在提取出合适的降维结果后，使用一个接口在特征空间上对声源进行可视化，在用于分类工具的界面，以节点的形式显示分离的声源，通过单击每个节点，频谱图将显示在另一个窗口中，并回放分离的声音，一组节点可以被划分为一个类，用一个框架包围，并指定，这个分组可以通过简单的键盘操作和鼠标操作完成，允许用户一次对相似的声音进行分类，用户在编辑频谱图时还可以选择噪声去除，通过关闭窗口，分类数据以数据交换格式文件形式保存在音频数据库。

频谱-时间空间界面基于生态数据分析提供了一个完整的框架,结合特征映射技术，实现了注释工具,有助于提取必要的声源，减少分类的时间成本，有助于了解麦克风阵列周围的声景，有助于更详细地了解生物鸣叫和行为的作用。

本发明的有益效果：

(1)本发明利用深度学习技术，自动识别湿地的生物物种，依托全景监测，音频识别数据，应用智能技术，结合大数据训练集提取识别因子；本发明通过生物多样性监测系统，将生物音频的采集、检测、去噪、音频分离、分类、识别集合在一个系统上实现了生物的智能识别；

(2)本发明中，频谱-时间空间界面基于生态数据分析提供了一个完整的框架,结合特征映射技术，实现了注释工具,有助于提取必要的声源，减少分类的时间成本，有助于了解麦克风阵列周围的声景，有助于更详细地了解生物鸣叫和行为的作用。

(3)本发明中，噪声去除通过两步实现，第一步片段分割，频谱图片段分割实现了一种完全自动的方法，从每一个录音中提取出相应的音频，事件检测利用一组录音的弱标签所提供的信息，即使用标记的生物叫声自动检测到每只生物的叫声，然后将其分类到这些标记中，实现了精确的发声注释，；

(4)本发明中，噪声去除的第二步事件检测，该方法得到的良好生物分类结果，被用来在单位水平上对记录进行完整的注释，而不是寻找存在的物种并利用互相关来找到一个发声的最佳可见匹配，通过多次匹配实现了基于在整个数据集中寻找一个片段的最佳视觉相似匹配并演绎地细化其可能的标签的分类过程，从而减少每个检测到的发声的可能标签，通过实验表明，根据正确分类的评估，在合成生物音频数据集中，检测的成功率高达75.4％。

(5)本发明中，自动分类方法利用特征集二维梅谱系数和动态二维梅谱系数作为发声特征，对连续生物音频录音中的每个音节进行分类，从不同的录音中分割出测试音节和训练音节。将二维梅谱系数和动态二维梅谱系数结合起来，对28种生物的分类精度可达84.06％，生物的种类很容易被识别出来。

(6)在本发明中，使用了改进的谱图表示方法提高生物音频分离的性能，该方法跟踪发声模式，在相同的范式下工作，并证明对底层表示的改进可以提高跟踪的质量。使用了一个简单的生物音频字典来分析信号，强大的参数技术来估计非平稳信号的特性，精确表示可以改善对多种生物的跟踪，本发明开发的特定技术变体。通过多重追踪技术推断包含多只生物音频记录中的序列结构，将此追踪程序应用于生物音频记录的数据集，通过标准谱图进行分析，表明该方法有利于生物音频的分析。

(7)本发明中，本发明提出了一种小波变换的多音节生物音频特征提取方法，该方法不仅提取了单个音节的特征，而且提取了音节的变化，不使用单个音节，而是使用包含一个音节周期的生物音频片段来提取特征向量，结果表明，与传统方法相比，该方法明显提高了识别率。

附图说明

图1为本发明的生物多样性监测系统构成框图；

图2为本发明的噪声去除中事件检测的流程图；

图3为本发明的自动分类的流程图；

图4为本发明的音频分离的流程图；

图5为本发明的模型匹配的流程图；

图6为本发明的小波变换的流程图；

具体实施方式

下面结合附图与实施例对本发明作进一步的说明。

本发明的实施例参考图1-6所示。

业务层包括用户系统、业务系统、算法系统三大系统组成，用户系统主要用来管理平台用户操作行为及信息管理；业务系统用于管理整个平台模块之间的业务，包括如音频地址管理、生物音频采集、生物音频识别信息等；算法系统通过人工智能音频识别检测音频中的生物的类型并给出合理的检测反馈信息；

数据层用于数据存储，分为数据中心、系统数据库、音频数据库，数据中心用于存储各种业务数据，包括生物识别种类、数量、日期、位置等；系统数据库存储系统模块之间的业务关系数据，包括音频、音频存放地址等；音频数据库存储所有生物音频数据；

业务系统通过音频提取设备获取岛上的各种生物音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类，算法系统作为后台系统通过人工智能音频识别实现相应的功能，人工智能音频识别包括噪声去除、多音频分离、自动分类、单一识别。

其中，系统服务采用轻量级Flask Web应用框架，其WSGI工具箱采用Werkzeug，Flask拥有内置服务器和单元测试，适配RESTful，支持安全的cookies。机器深度学习算法Keras人工神经网络和Open CV机器学习算法，实时捕捉动态音频进行识别。自动采集数据音频，实现准确智能识别。

其中，业务系统实现了生物音频采集，使用音频提取设备提取声源以及方向，音频提取设备包括麦克风阵列和数据处理设备，在数据处理设备上使用频谱-时间空间界面来编辑采集到的音频文件，能够观察声源在二维特征空间上的分布，了解录音中的声音种类，从而了解声音景观的组成部分，通过在空间上分组相似的声音来对其进行分类；用户在可视化的频谱-时间空间界面上对声源进行录制、定位、分析、注解、分类，用户可以在窗口左侧择要操作的文件或文件夹，在右侧更改操作设置或执行各项功能。

在注解部分，注解窗口顶部面板显示记录的频谱图，在x轴显示时间刻度和焦点时间段，焦点时间段和显示时间刻度可以调整，y轴显示在方向上对应的音频和声源，注解窗口中的x轴的每个框表示开始(左边缘)和结束(右边缘)时间以及y轴则显示相应源开始时间的方向，每个框的颜色代表其类，单击每个本地化声音的框，右侧显示声音本地化信息，可手动编辑信息，回放原录音中分离声音或持续时间的对应文件，支持编辑操作的撤消过程，通过拖动相应的框来修改每个源的位置，将修改后的数据以数据交换格式文件形式保存在音频数据库；

在分类部分，以使用所有分离声音的频谱图(100×64像素)作为数据集，对局部声源进行降维，采用学习库以降低数据维数，并绘制在二维平面上，可视化分布，通过参数设置进行网格搜索，对局部声音进行分类，参数包括复杂度、学习率、迭代次数等，在提取出合适的降维结果后，使用一个接口在特征空间上对声源进行可视化，在用于分类工具的界面，以节点的形式显示分离的声源，通过单击每个节点，频谱图将显示在另一个窗口中，并回放分离的声音，一组节点可以被划分为一个类，用一个框架包围，并指定，这个分组可以通过简单的键盘操作和鼠标操作完成，允许用户一次对相似的声音进行分类，用户在编辑频谱图时还可以选择噪声去除，通过关闭窗口，分类数据以数据交换格式文件形式保存在音频数据库；

其中，噪声去除包括片段分割和事件检测的具体过程如下：

片段分割具体为：

步骤1、通过短时傅里叶变换对音频数据进行处理；

步骤2、分割检测，

步骤3、依据绝对最大值进行归一化，

步骤4、移除高于20kHz和低于340kHz的频率赫兹得音频。自然界中这些

频率中没有生物叫声发生，因此是噪声予以滤出；

步骤5、通过对每一频率和每一时间帧的频谱图进行中值剪切得到二值图像，以消除噪声，具体为：如果频谱图中的像素值大于其对应行和列中值的3倍，则将像素设为1，否则设为0；

步骤6、应用闭合运算以填充当前功能任何小孔，闭合运算应用于大小为(3,3)的矩形邻域；

步骤7、移除小于5像素的连接组件；

步骤8、在大小为(7,7)的矩形邻域中应用膨胀扩张，膨胀算法将位于(i，

j)处的像素设置为以(i，j)为中心的邻域中所有像素的最大值，扩张是为了扩大包含特征的区域(即发声)，并去除可以被认为是噪声的小物体；

步骤9、使用中值滤波器对图像滤波；

步骤10、移除小于150像素部分，从而将二值频谱图像切分；

步骤11、在半径为3的圆形区域重新进行扩张；

步骤12、将所有连接的像素定义为一个片段，进行片段分割；

步骤13、计算每个片段的大小和位置。

上述方法产生的噪声片段更少，发声片段更大。

事件检测具体为：

在一个单独的训练集合中，没有一个单独的训练需要分类。这种方法的性能随着每种物种记录数量的增加而增加。分类过程中找到一个片段匹配的机会随着每个物种发声的变化而增加。这一过程分为三个不同的过程，即第一道、第二道和第三道，这三种方法都按顺序应用于记录，如下所述：

步骤1、第一次匹配

为每个片段创建一组记录来查找匹配，表示由初始化列表生成的不同标签组合，录制在其弱标签中存在标签，对于需要标签的每个片段，将搜索记录列表，增加弱标签的数量，直到找到匹配项或不再有剩余的记录，匹配模板返回响应图像中的最大峰值，当匹配模板返回的相似率为0.4或更大时，为找到匹配。

步骤2、第二次匹配

第二次匹配解决第一次匹配未匹配片段，音频记录的所有标签至少分配给一个片段，当音频记录中有未匹配片段和没有对应段的标签时，将未分配的标签分配给所有未匹配片段。

步骤3、第三次匹配，

在减少两次匹配后，音频记录中可能仍有未分配的标签，需要将音频记录的所有标签分配给至少一个片段，在所有片段段都有标签但某些弱标签没有分配给任何段的记录中，必须有一些标签被分配到多个段(很可能是错误的)，可能不止一个段有这个标签，但是当一个标签未被分配时，假设与同一个标签匹配的其中一个片段被错误分类，在其余标签的多个片段中搜索任何未分配标签的最佳匹配。如果找到匹配项，则从其派生的段的标签将更改为未分配的标签。

通过上述三次匹配实现了对频谱图的标记，并去除了噪音以及非生物叫声。

其中，自动分类具体为：

步骤1、特征提取

对于大多数生物叫声，在每个音节内，相邻的分析帧之间或多或少存在时间上的变化，在音节识别中，具有最大频谱转换的音频部分包含了最重要的信息，动态二维梅谱系数被用来描述音节内的急变；

步骤1.1、计算二维梅谱系数：

二维梅谱以矩阵形式隐式表示语音信号的静态特征和动态特征，二维梅谱矩阵T(q,n)可通过对连续对数谱序列应用二维离散余弦变换来获得，二维梅谱矩阵T(q,n)的第一维q表示倒谱，第二维n表示每个倒谱系数的时间变化，采用二维梅谱系数对生物叫声的每个音节进行建模，将二维离散余弦变换应用于根据人类听觉感知模型定义的梅谱尺度带通滤波器的对数能量，得到二维梅谱系数矩阵C(q,n)：

式中，E_t(b)是第t帧的第b个梅谱尺度带通滤波器的能量，q是频率指数，n是调制频率指数，B是梅谱尺度带通滤波器的数量，L是一个音节内的帧数，二维离散余弦变换分解为两个一维离散余弦变换，C(q,n)将一维离散余弦变换应用于沿时间轴的连续的L个MFCC系数序列，表示为：

频率指数q＝0的二维梅谱系数矩阵的第一行保持了短时能量的时间变化，调制频率指数n＝0的第一列中的每个元素表示所有分析帧的倒谱系数的平均值，在频率轴上，较低的系数代表频谱包络，较高的系数代表基音和激励，在时间轴上，较低的系数表示频率的整体变化，而较高的系数表示频率的局部变化；

由于不同音节的持续时间不尽相同，所分析的帧数因音节而异，C(q,n)中的列数因音节不同而不同，沿频率轴q和时间轴n的下半部分的系数比较高部分的系数为音频识别提供了更多有用的信息，将C(q,n)的前15行和前5列的系数，不包括系数C(0,0)作为音节的初始发音特征，从二维梅谱系数矩阵C(q,n)中选取74个系数，构成音节的二维梅谱系数特征向量，特征向量的维数是固定的，二维梅谱系数特征向量F_TD表示为：

F_TD＝[C(0,1),...,C(0,4),C(1,0),...,C(1,4),...,C(14,0),...,C(14,4)]^T；

步骤1.2、计算动态二维梅谱系数：

动态二维梅谱系数用于强调音节内的尖锐过渡。动态二维梅谱系数是一种基于语音频谱瞬时特征和动态特征相结合的的识别方法，在所有音节中，频谱转换最大的部分承载着最重要的语音信息，将回归系数的动态特征定义为一阶正交多项式系数，用于孤立词识别，回归系数表示被测语音段内每个倒谱系数的时间函数的斜率，提取动态二维梅谱系数来突出音节内最大频谱跃迁的部分，那么第t帧的第b个梅谱尺度的回归系数r_t(b)为：

式中，n₀是测量过渡信息的间隔长度，r_t(b)反映第t帧周围的能量转移对于第b个梅谱尺度的带通滤波器输出，将每个回归系数r_t(b)加到E_t(b)中，以获得增强的能量

对对数强调能量应用二维离散余弦变换得到余弦变换矩阵/>

从C(q,n)的前15行和前5列中选择的系数(不包括系数C(0,0))作为音节的动态二维梅谱系数特征，动态二维梅谱系数特征向量F_DT表示为

步骤1.3、特征向量组合：

为了获得更好的分类结果，我们将上述两个特征向量(F_DT和F_TD)结合在一起，得到一个更大的特征向量，即组合特征向量F_SD，用于描述音节内的静态、动态和频谱过渡信息，F_SD由F_DT和F_TD级联而成，即，

步骤1.4、特征值标准化：

在不损失通用性的前提下，用F表示计算出的音节特征向量(F_DT，F_TD和F_SD)，对每个特征值进行归一化，使每个特征值的范围在0到1之间，表达为：

其中F(m)为第m个特征值，x(m)为归一化的第m个特征值，Q₁(m)和Q₃(m))表示第一个和第三个的四分位数，定义为所有训练音节的第m个特征值的25％(或75％)小于或等于该值，极高和极低的特征值被归一化为1和0，使得归一化的特征值不受噪声的影响。计算每个特征值的第一个四分位数Q₁(m)和第三个四分位数Q₃(m)，在分类阶段，对于实际的归一化，从输入音节中提取的每个特征值使用参考四分位值(Q₁(m)和Q₃(m))进行修改，以获得标准化值。

步骤2、主成分分析，其定义为数据在低维向量空间上的正交投影，使得投影数据的方差最大化；

步骤2.1、计算D维训练向量集X＝{x_j,j＝1,...,N}的D维均值向量μ和D×D方差矩阵Γ，

步骤2.2、计算协方差矩阵Γ的特征向量和相应的特征值，并按特征值的降序排序，特征向量v_i与特征值λ_i，1≤i≤D相关联，具有最大特征值的第一个特征向量d是D×d变换矩阵A_PCA的列，

A_PCA＝[v₁,v₂,...,v_d]

特征向量d的数量通过找到满足以下标准的最小整数来确定，

其中，α为决定需要保留的信息百分比，根据变换矩阵A_PCA计算出投影矢量x_PCA

步骤3、原型向量生成

每只生物的音频都由若干音节组成，音节具有不同的特点，从相同的生物叫声中分割出的任何两个音节都可能有很大的不同，原型向量通过将来自同一生物的音节分类为若干子类别，从而将具有相似特征向量的音节聚类在一起，具体包括如下步骤：

步骤3.1、模型选择，

生物的高斯-贝斯模型如下：

其中X＝{x_j|1≤j≤N}是训练向量集，是高斯参数集，/>表示由高斯使用训练向量集X建模的训练集/>的对数似然，M是混合分量的个数，d是每个特征向量的维数，N是训练向量的个数；混合权重的分配方式相同计算各高斯分量的协方差矩阵替换为所有生物高斯的平均协方差矩阵Γ_EVQ：

S表示生物物种的总类数，N_S为第s种生物物种选择的高斯分量，是第s种生物物种的第j个高斯分量的协方差矩阵，平均协方差矩阵模型的贝斯计算如下：

其中，M个高斯分量和一个公共对角协方差矩阵的d维均值向量被计数，如果将被选为生物的最佳模型；否则，/>将是被选中的模型，当训练数据有限时，将选择基于/>的模型。如果有大量的训练数据，/>有望被选中。

步骤3.2、组件编号选择

将每个训练样本分配给最有可能产生训练样本的高斯分量，将训练数据分组成簇，用于模拟不同生物音频的聚类数必须因物种而异，取决于每种生物的声学变化来确定集群数量，用于模拟每种生物音频的聚类数的选择会影响分类精度，从一个单一的高斯分量开始，然后依次将一个选定的分量分解成两个新的高斯分量，重复选择和拆分过程，直到找到最合适数量的组件，使用贝斯模型用于查找要拆分的组件并确定适当的组件数目；

步骤4、线性判别分析

线性判别分析被用来在各种生物之间提供更高的可区分性，进一步提高低维特征空间的分类精度，线性判别分析试图最小化类内距离，同时最大化类间距离，在线性判别分析中，确定对应于从d维特征空间到k维空间的映射的最佳变换矩阵，其中k<d，最大化的线性映射J_F(A)为：

J_F(A)＝tr((A^TS_WA)^-1(A^TS_BA))

其中，A为映射矩阵，S_W和S_B分别表示类内散布矩阵和类间散布矩阵，类内散布矩阵S_W为：

其中,S表示生物物种的总类数，C_s分配给第s种生物物种的特征向量，μ_s是第s种生物物种的平均向量；

类间散布矩阵S_B为：

其中，N_s表示第s种生物物种中的特征向量数，μ是所有训练向量的平均向量，将训练向量集的多元正态分布转化为球面正态分布，特征向量及其对应的特征值S_W是经过计算的。设Φ表示变换矩阵，其列是S_W的正交特征向量，Λ表示相应特征值的对角矩阵，从而得到，每个训练向量x通过进行变换得到x'，

白化矢量的类内散布矩阵S'_W成为一个单位矩阵，

白化矢量的类间散布矩阵包含所有的鉴别信息，变换矩阵Φ通过寻找S'_B的特征向量来确定，假设特征值按降序排列，对应于最大k＝(S-1)个特征值的特征向量将构成变换矩阵Ψ的列，最优变换矩阵A_LDA被定义为：

A_LDA用于将每个主成分分析变换的d维特征向量变换为低维向量，x_PCA表示一个d维主成分分析变换向量，线性判别分析变换的k维特征向量通过以下方式计算

步骤5、分类，

基于最近邻分类器对每个音节进行分类，计算每个输入音节的特征向量，对每个特征值应用相同的规范化，利用主成分分析变换矩阵A_PCA和线性判别分析变换矩阵A_LDA对归一化特征向量进行变换，得到最终的特征矢量f，

每种生物的原型向量之间的距离用欧几里德距离来度量，sc代表分类生物种类的标准向量，是通过找到距离f最短的原型向量来确定，表示为：

sc＝arg mind(f,f_s,j),1≤s≤S,1≤j≤N_s

f_s,j表示第s种生物物种的第j个原型向量，N_s是第s种生物物种的原型向量的数量，通过sc确定音频的生物的种类。

上述方法为通过音频对生物进行分类或区分提供了一种新的工具，生物音频在不同物种之间是不同的，即使是同一物种也可能发出许多不同类型的音频，上述自动分类方法利用特征集二维梅谱系数和动态二维梅谱系数作为发声特征，对连续生物音频录音中的每个音节进行分类，从不同的录音中分割出测试音节和训练音节。将二维梅谱系数和动态二维梅谱系数结合起来，对28种生物的分类精度可达84.06％，生物的种类很容易被识别出来。

其中，分离的具体过程如下：

步骤1，傅里叶变换，

对于一个任意分布函数x和一个测试函数ψ，在内积<,>上满足：<x',ψ>＝-<x,ψ'>,则对于生物音频信号s视为一个分布，其满足：

<s',we^jω>＝-<s',w'e^jω>+jω<s,we^jω>

其中<,>表示内积，'表示导数，w为有限时间窗函数，s为生物音频信号；

具有频率ω傅里叶变换函数S_w(ω)写成：S_w(ω)＝<s,we^jω>，

步骤2，转换正弦曲线函数：

s(t)表示正弦曲线函数，t表示时间，r(t)表示非平稳函数，r_k表示非平稳参数，k表示阶数，C正整数，

以下等式：

其中：

对于任何有限时间窗函数w，可用于定义相对于非平稳参数r_k,k>0的线性方程组；

步骤3，参数估计，

估计出非平稳参数r_k,k>0，估计出复平稳参数r₀，根据得到/>

其中，表示对非平稳函数r(t)的估计函数，

步骤4，估算生物音频的频率变化，

用估计值k>0代替参数r_k,k>0，得到/>的估计值/>线性系统以不同频率下的值S_w，S_w’，S_tw形成，最宽的主瓣宽度为w(t)t，总共5个部分，将典型的生物音频的频率变化从真实记录中估算出来；

步骤5，分离音频，

频率下限ω_L和频率上限ω_H的频率和幅度估计值对S_w，S_w’，S_tw的频谱进行划分，从而得到分离的单一的生物音频，下面进行识别。

其中，单一的生物音频的识别方法包括模型匹配和小波识别两种，

其中，模型匹配的具体过程如下：

步骤1、采集数据，

获取生物在不同地点和不同时期的单独音频记录，并提交给音频数据库，按照44.1kHz采样率、1024帧以及50％有限时间窗的标准进行数据处理，获取标准频谱；

步骤2、匹配模型识别声场中的多个声源的任务使用已建立的多识别范例来完成，为了识别不同数量的生物音频源，引入了一个多重识别模型，

多个声源观测值的当前状态随机决定以下状态以及它们之间的时间间隔如下表示：

P(τ_n+1≤t,X_n+1＝Y_i|(X₁,T₁),...,(X_n,T_n))＝P(τ_n+1≤t,X_n+1＝Y_i|X_n)

其中，P表示条件概率，t表示特定时间，Y_i表示第i个标准频谱，(X_n,T_n)表示观测值序列，X_n表示第n种状态，T_n表示第n种的时间，τ_n+1表示T_n+1-T_n时差，C表示正整数，

观测值代表单个序列，则τ_n+1是已知的且固定，但如果观测值可能代表多个序列以及杂波噪声，则因果结构未知，τ_n+1被隐藏，在这种情况下，通过选择将数据划分为K个簇加上H个噪声事件来估计结构，从而使可能性最大化，即

式中，L表示估计结构，p_MRP(k)表示由单个MRP生成的第k组中观测子序列的可能性，p_NOISE(η)表示第η个噪声数据的可能性；

步骤3、音频识别，

使用互相关模板匹配范式来检测生物音频的单个音节，从标准频谱中检测音节，求取最大似然解从而实现对生物音频的识别，

上述技术从改进的基本谱图表示使用一系列的频谱库来推断有关调制正弦波的详细信息，这在生物音频尤其适用，实现了快速的音频识别。

其中，小波变换的过程包括预处理、特征提取和识别，具体如下所述，步骤1、预处理，

通过预处理对一段音节进行适当的分割以提取特征，具体为：

步骤1.1、音节端点检测，如下所述：

步骤1.1.1、计算帧大小为N＝512的x[n]的短时傅里叶变换X[m,k]，

/>

其中，m是帧编号，用于短时分析的汉明窗口w_m[n]有以下形式；

步骤1.1.2、通过对齐所有帧的频谱，形成信号的频谱图，X[m,k],m＝1,2,...,M，其中M是x[n]的帧数；

步骤1.1.3、对于每一帧m，找到具有最大幅度的频率仓bin_m，

步骤1.1.4、初始化音节j，j＝1

步骤1.1.5、计算出现最大幅度的帧t，

音节j幅度为A_j，则

A_j＝20log₁₀|X[m,bin_m]|(dB)

步骤1.1.6、从第t帧开始，向后和向前移动到第h_j帧和第t_j帧，如果二者的幅度和/>都小于(A_j-20)，那么第h_j帧和第t_j帧被称为音节j的头帧和尾帧；

步骤1.1.7、设置|X[m,bin_m]|＝0,m＝h_j,h_j+1,...,t_j-1,t_j；

步骤1.1.8、j＝j+1；

步骤1.1.9、返回步骤1.1.6，直到A_j<A_j-1-20，通过以上步骤，得到每个音节的边界；

步骤1.2、标准化和预增强

通过标准化过程调节由于记录环境的多样性而引起的语音幅度的差异，幅度线性归一化到[-1，1]区域，由于高频信号的幅度通常比低频信号的幅度小得多，因此采用了预相位技术来增强高频信号，增通过一个有限脉冲响应(FIR)滤波器H(z)实现的，其形式如下：

H(z)＝a·z^-1，

H(z)使得信号x(n)的滤波处理后的信号具有以下性质x

其中，a是相似度，介于0.9和1之间，本发明将其设为0.95。

步骤1.3、分段

以一段音节为中心进行切分，而不是单个音节的切分，由于生物音频的音节通常是重复的，提取一段音节的特征向量对于生物音频识别是很有实用价值的。在端点检测、归一化和预加重之后，通过检测音节的重复来完成切分过程；

步骤1.3.1、将i＝1设为分段的第一个音节的索引；

步骤1.3.2、找出音节i和j之间的相似度a小于sim_ij的音节j好，其中j是分段的最后一个音节；

步骤1.3.3、设置分段长度l＝j；

步骤1.3.4、设置k＝j+1；

步骤1.3.5、设定i＝1，l＝j；

步骤1.3.6、计算音节k和音节i之间的相似性sim_ki；

步骤1.3.7、如果sim_ki>a(同类型)，并且l＝k-j，则停止分段,分段是从音节1到音节l。

如果i＝j，则j＝j+1转到步骤1.3.5；

否则，设置i＝i+1和k＝k+1，然后转到步骤1.3.6；

步骤1.3.8、如果i＝i+1，则j＝j+1，转到步骤1.3.5；

步骤1.3.9、设置k1，1，l 1，然后转到步骤1.3.6；

两个音节之间的相似性是通过计算相应频率仓的幅度之间的差异来确定的，由于生物音频的音节类型通常在6以内，a被设置为使l满足2<l<8的值，分段后，对分段后的音节进行对齐以进行特征提取。

步骤2、特征提取，

音节分段后，计算生物音频的特征向量对齐音节，获取特征向量小波倒谱变换具体为：

步骤2.1、计算每个帧的倒谱系数，计算每个帧的倒谱系数的步骤如下：

步骤2.1.1、计算每个帧信号的快速傅立叶变换，

步骤2.1.2、计算每个三角形滤波器带的能量，

式中，φ_j[k]表示第j个三角形滤波器在频率k处的幅度，E_j表示第j个滤波器带的能量，J是三角形滤波器的数量。

步骤2.1.3、用余弦变换计算倒谱系数，

其中c_i(m)表示第i帧的m阶倒谱系数。

步骤2.2、使用小波倒谱变换形成的特征向量，在获得对齐生物音频信号每帧的倒谱系数后，通过计算小波倒谱变换来获得生物音频的特征向量，如下所述：

步骤2.2.1、采集对齐信号所有帧的倒谱系数，

{c₁(0),c₁(1),...,c₁(L-1),...,c_i(0),...,c_i(L-1),...}，

式中，L是倒谱系数的总阶数；

步骤2.2.2、对齐相同顺序的倒谱系数，

s_m[n]＝[c₁(m),c₂(m),...,c_i(m),...],m＝0,...,L-1，

步骤2.2.3、计算s_m[n]的三级小波变换，

/>

其中，δ[n]和d[n]表示s_m[n]的低频和高频分量，h₀[k]和h₁[k]是变换中应用的低通和高通滤波器，为：

h₀[k]＝[0.3327,0.8069,0.4599,-0.1350,-0.0854,0.0352]

h₁[k]＝[0.0352,0.0854,-0.1350,-0.4599,0.8069,-0.3327]

s_m[n]的六个序列进行小波倒谱变换转换，表示为

步骤2.2.4、计算六个序列中每个序列的平均值，表示为

步骤2.2.5、利用所有前五阶倒谱系数序列的六个平均值形成特征向量

步骤3、使用BP神经网络进行识别

在训练过程中，训练音节的特征向量作为输入，对应的生物物种作为期望输出，输入层的节点数等于训练向量的维数，而输出层的节点数等于生物种的数量。隐藏层中的节点数被设置为另外两层的平均值，隐藏节点和输出节点使用激活函数，一个测试生物音频是通过与训练部分相同的过程获得的。将特征向量输入到bp神经网络后，网络的输出表明了测试生物叫声所属的物种类别。

目前的生物叫声识别技术大多数是利用单个音节的特征来构成每种生物的特征向量，本发明不使用单个音节，而是使用包含一个音节周期的生物音频片段来提取特征向量。实验结果表明，与传统方法相比，该方法明显提高了识别率。该方法在检测每个音节的范围后，对包含一个音节周期的生物音频片段进行分割。

以上所述实施方式仅表达了本发明的一种实施方式，但并不能因此而理解为对本发明范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种具有频谱-时间空间界面的生物多样性监测系统，其特征在于，包括业务层、数据层、展示层，业务层由用户系统、业务系统、算法系统三大系统组成，用户系统用来管理平台用户操作行为及信息管理；业务系统用于管理整个平台模块之间的业务，包括音频地址管理、生物音频采集、生物音频识别信息；算法系统通过人工智能音频识别检测音频中的生物的类型并给出检测反馈信息；数据层用于数据存储，分为数据中心、系统数据库、音频数据库，数据中心用于存储各种业务数据，包括生物识别种类、数量、日期、位置；系统数据库存储系统模块之间的业务关系数据，包括音频、音频存放地址；音频数据库存储所有生物音频数据；展示层通过WEB端输出各功能模块之间交互返回的结果，开放API接口调用方法开发者通过相关开放接口地址按照提供的调用规则进行调用；业务系统通过音频提取设备获取岛上的各种生物音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类，算法系统作为后台系统执行人工智能音频识别，人工智能音频识别包括噪声去除、多音频分离、自动分类、单一识别，业务系统对生物音频进行采集，使用音频提取设备提取声源以及方向，音频提取设备包括麦克风阵列和数据处理设备，在数据处理设备上使用频谱-时间空间界面来编辑采集到的音频文件，观察声源在二维特征空间上的分布和录音中的声音种类，获取声音景观的组成部分，并通过在空间上分组相似的声音来对其进行分类；通过在可视化的频谱-时间空间界面上对声源进行录制、定位、分析、注解、分类，通过在窗口左侧选择要操作的文件或文件夹，在窗口右侧更改操作设置;

在定位部分，基于多信号分类方法使用具有短时傅立叶变换的多个频谱图进行声源定位，并提取分离的声音作为每个本地化声音的波形文件，通过在窗口右边的列表中设置与生物音频定位和分离相应的基本参数值，通过在网络文件中定义参数名称和相应的标记将附加参数添加到列表中，根据环境和目标声音的声学特性定位声源，定位和声音分离的整体结果输出到一个文件夹中并保存在音频数据库；

在分析部分，分析声音的时间分布和方向性，通过导出文件按钮，以指定总页数的PDF格式输出频谱图和定位结果，以时间尺度概述所有声源的数据，包括方向和持续时间，以数据交换格式文件的形式输出，加载到注释工具并保存在音频数据库；在注解部分，注解窗口顶部面板显示记录的频谱图，在x轴显示时间刻度和焦点时间段，焦点时间段和显示时间刻度能够进行调整，在y轴显示对应的音频和声源；注解窗口中的x轴的每个框表示开始和结束时间以及y轴则显示相应源开始时间的方向，每个框的颜色代表其类；窗口右侧显示可手动编辑的声音本地化信息，通过回放原录音分离声音或持续时间的对应文件，通过拖动相应的框来修改每个源的位置，将修改后的数据以数据交换格式文件形式保存在音频数据库；

在分类部分，以使用所有分离声音的频谱图作为数据集，对局部声源进行降维，采用学习库以降低数据维数，并绘制在二维平面上，通过参数设置进行网格搜索，对局部声音进行分类，其中参数包括复杂度、学习率、迭代次数，在提取出相应的降维结果后，使用一个接口在特征空间上对声源进行可视化；在用于分类工具的界面，以节点的形式显示分离的声源，通过单击每个节点，频谱图将显示在另一个窗口中，并回放分离的声音，一组节点被划分为一个类，用一个框架包围，并指定这个分组通过简单的键盘操作和鼠标操作完成，通过对相似的声音进行分类，在编辑频谱图时对噪声进行去除，通过关闭窗口将分类数据以数据交换格式文件形式保存在音频数据库；噪声去除包括片段分割和事件检测，片段分割具体为：

步骤1、通过短时傅里叶变换对音频数据进行处理；

步骤2、分割检测；

步骤3、依据绝对最大值进行归一化；

步骤4、移除频率高于20kHz且低于340kHz的音频；上述频率在自然界中没有生物叫声发生，断定为噪声予以滤出；

步骤7、移除小于5像素的连接组件；

步骤8、在大小为(7,7)的矩形邻域中应用膨胀扩张，膨胀算法将位于(i，j)处的像素设置为以(i，j)为中心的邻域中所有像素的最大值，扩张是为了扩大包含特征的区域，并去除被认为是噪声的小物体；

步骤9、使用中值滤波器对图像滤波；

步骤10、移除小于150像素部分，从而将二值频谱图像切分；

步骤11、在半径为3的圆形区域重新进行扩张；

步骤13、计算每个片段的大小和位置。

2.根据权利要求1所述的一种具有频谱-时间空间界面的生物多样性监测系统，其特征在于事件检测具体为：在一个单独的训练集合中，对一个单独的训练进行分类，分类过程中找到一个片段匹配的机会随着每个物种发声的变化而增加；所述分类过程分为三个不同的过程，即第一道、第二道和第三道，且都按顺序应用于记录，如下所述：

步骤1、第一次匹配，为每个片段创建一组记录来查找匹配，表示由初始化列表生成的不同标签组合，录制在其弱标签中存在标签，对于需要标签的每个片段，将搜索记录列表，增加弱标签的数量，直到找到匹配项或不再有剩余的记录，匹配模板返回响应图像中的最大峰值，当匹配模板返回的相似率为0.4或更大时，为找到匹配；

步骤2、第二次匹配，第二次匹配解决第一次匹配未匹配片段，音频记录的所有标签至少分配给一个片段，当音频记录中有未匹配片段和没有对应段的标签时，将未分配的标签分配给所有未匹配片段；

步骤3、第三次匹配，在两次匹配后，音频记录中可能仍有未分配的标签，需要将音频记录的所有标签分配给至少一个片段，在所有片段都有标签但某些弱标签没有分配给任何段的记录中，必须有一些标签被分配到多个段，不止一个段有这个标签，但是当一个标签未被分配时，假设与同一个标签匹配的其中一个片段被错误分类，在其余标签的多个片段中搜索任何未分配标签的最佳匹配；如果找到匹配项，则从其派生的段的标签将更改为未分配的标签。

3.根据权利要求1所述的一种具有频谱-时间空间界面的生物多样性监测系统，其特征在于自动分类具体为：

步骤1、特征提取，对于大多数生物叫声，在每个音节内，相邻的分析帧之间或多或少存在时间上的变化，在音节识别中，具有最大频谱转换的音频部分包含了最重要的信息，动态二维梅谱系数被用来描述音节内的急变；

步骤3、原型向量生成，每种生物的音频都由若干音节组成，音节具有不同的特点，从相同的生物叫声中分割出的任何两个音节都可能有很大的不同，原型向量通过将来自同一生物的音节分类为若干子类别，从而将具有相似特征向量的音节聚类在一起；

步骤4、线性判别分析，线性判别分析被用来在各种生物之间提供更高的可区分性，进一步提高低维特征空间的分类精度，线性判别分析试图最小化类内距离，同时最大化类间距离，在线性判别分析中，确定对应于从d维特征空间到k维空间的映射的最佳变换矩阵；

步骤5、分类，基于最近邻分类器对每个音节进行分类，计算每个输入音节的特征向量，对每个特征值应用相同的规范化，利用主成分分析变换矩阵和线性判别分析变换矩阵对归一化特征向量进行变换，得到最终的特征矢量。