CN110931024B

CN110931024B - 基于音频的圈养大熊猫自然交配结果的预测方法及系统

Info

Publication number: CN110931024B
Application number: CN202010096926.0A
Authority: CN
Inventors: 赵启军; 陈鹏; 侯蓉; 闫蔚然; 汤茂林; 张志和
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan University
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; Sichuan University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-05-22
Anticipated expiration: 2040-02-18
Also published as: CN110931024A

Abstract

本发明公开了一种基于音频的圈养大熊猫自然交配结果的预测方法和系统，包括：采集圈养大熊猫自然交配时的叫声数据，得到原始音频数据；对采集到的原始音频数据进行预处理，得到预处理后的音频片段；对预处理后的音频片段提取梅尔倒谱系数特征；利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率；统计输入神经网络模型中的音频片段中的多个音频帧的预测概率，根据统计数据得到大熊猫交配结果的预测判断。该方法通过对大熊猫交配时的叫声进行分析，实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。

Description

基于音频的圈养大熊猫自然交配结果的预测方法及系统

技术领域

本发明涉及大熊猫自然交配结果预测的技术领域，具体涉及一种基于音频的圈养大熊猫自然交配结果的预测方法及系统。

背景技术

大熊猫，英文名Giant Panda，学名Ailuropoda melanoleuca，一般称为“熊猫”或“猫熊”，属于食肉目熊科的一种哺乳动物，体色为黑白两色。熊猫是中国特有物种，现存的主要栖息地是中国中西部四川盆地周边的山区和陕西南部的秦岭地区。全世界野生大熊猫现存大约有2060头（2016年数据）。2016年末，世界自然保护联盟（IUCN）将大熊猫的受威胁等级从“濒危级”降为“易危级”。由于生育率低，大熊猫在中国濒危动物红皮书等级中评为濒危物种，为中国国宝。大熊猫被誉为生物界的活化石。

增加大熊猫种群数量是挽救大熊猫的重要途径，然而有关研究表明，大熊猫每年最适合交配的时间只有一天。因此如何在有限的时间内最合理的安排圈养大熊猫的交配至关重要。这需要针对性的对圈养大熊猫的自然繁育结果采取科学合理的预测分析以辅助研究人员对交配过程进行合理干预。气味是大熊猫交配过程中至关重要的感官形式。然而，在繁殖季节，发声也显著增加，这表明声音信号对协调生殖也很重要。雄性和雌性大熊猫一旦有了亲密的接触，声音的交流在表达个体的兴奋和交配意愿方面起着至关重要的作用。一方面，它达到了交配的目的，另一方面，它克服了大熊猫物种的自然回避和攻击倾向。传统的大熊猫发情状况评估方法主要是基于其分泌物中的激素水平测定来完成，这种方法操作复杂、成本较高、稳定性较差，且伴有无法避免的延迟。不能用于实时评估预测圈养大熊猫的自然交配结果，无法辅助研究人员基于繁育结果及时干预其繁育过程。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种基于音频的圈养大熊猫自然交配结果的预测方法及系统，通过对大熊猫交配时的叫声特性进行分析，自动预测自然交配的结果。

第一方面，本发明实施例提供的基于音频的圈养大熊猫自然交配结果的预测方法，包括：

采集圈养大熊猫自然交配时的叫声数据，得到原始音频数据；

对采集到的原始音频数据进行预处理，得到预处理后的音频片段；

对预处理后的音频片段提取梅尔倒谱系数特征；

利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率；

统计输入神经网络模型中的音频片段中的多个音频帧的预测概率，根据统计数据得到大熊猫交配结果的预测判断。

可选地，所述对采集到的原始音频数据进行预处理的具体方法包括：

将所述原始音频数据分割为2秒固定长度的音频片段，不足2秒的音频片段采用静音填充到2秒的长度；

计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系，将每个音频片段中的每个采样点按照该缩放关系进行缩放。

可选地，所述对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括：

将预处理后的音频片段根据采样窗口进行分帧处理，分帧后进行加窗处理；

对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱；

将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度；

在每个梅尔刻度上提取对数能量；

对所述对数能量进行离散傅里叶反变换，变换到倒频谱域，提取得到每一帧的梅尔倒谱系数特征。

可选地，所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层，所述卷积模块包括3个相同的卷积层和批量归一化层。

可选地，所述利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括：

将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后，通过ReLU激活函数输出第一输出特征；

将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理，得到第二输出特征；

将第二输出特征输入到双向GRU模块中进行双向的时序信息学习，输出第三输出特征；

将所述第三输出特征依次经过全连通层和合并层处理，得到输出结果；

将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。

第二方面，本发明实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统，包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块，

所述音频采集装置采集圈养大熊猫自然交配时的叫声数据，得到原始音频数据；

所述音频预处理模块对采集到的原始音频数据进行预处理，得到预处理后的音频片段；

所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征；

所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率；

所述预测判断模块统计输入神经网络模型中的音频片段中的多个音频帧的预测概率，根据统计数据得到大熊猫交配结果的预测判断。

可选地，所述音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括：

可选地，所述述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括：

将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度；

在每个梅尔刻度上提取对数能量；

可选地，所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括：

本发明的有益效果：

本实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测方法，通过对大熊猫交配时的叫声进行分析，实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。

本实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统，通过对大熊猫交配时的叫声进行分析，实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明第一实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测方法的流程图；

图2示出了本发明第一实施例中梅尔尺度的三角形滤波器组示意图；

图3示出了本发明第一实施例中使用的神经网络模型结构示意图；

图4示出了本发明第二实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，示出了本发明第一实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测方法的流程图，该方法包括以下步骤：

步骤S1:采集圈养大熊猫自然交配时的叫声数据，得到原始音频数据。

具体地，采用麦克风等设备收集圈养大熊猫交配时的叫声，得到长度不一的双声道音频数据作为原始音频数据。

步骤S2:对采集到的原始音频数据进行预处理，得到预处理后的音频片段。

对原始音频数据的长度和音频信号强度归一化处理，得到相同的长度和大小。由于神经网络模型只接受固定长度的音频片段，因此需要对强度归一化之后的音频进行长度归一化的处理，使用静音将部分长度不足的音频填充到固定长度。具体方法包括：

步骤S21:将原始音频数据分割成2秒固定长度的音频片段，对不足2秒的音频采用静音填充到2秒的长度。

步骤S22：计算每一个音频片段的音频最大强度值和理论最大信号强度值的缩放关系，按照该缩放关系，将整个音频片段按照该缩放关系进行缩放。依次类推，完成每个音频片段的强度归一化。音频信号强度归一化过程中缩放关系的计算公式定义为：

，

其中，

是理论最大强度，

是待处理音频片段中的最大强度。得到

之后再将整个待处理音频片段按照该缩放关系进行缩放即可实现整个音频片段的强度归一化。

步骤S3:对预处理后的音频片段提取梅尔倒谱系数特征。

具体地，提取梅尔倒谱系数特征需要进行快速傅立叶变化，由于长时间的音频信号不再具有平稳性，所以需要对长时间的音频进行分帧处理。在单个声道上，将1024个采样点集合成一个观测单位，称为帧，则双声道的总采样窗口长度为2048。本实施方法的采样频率是44100赫兹，因此，一个音频片段中的单个声道上，每一秒顺序采样可以得到43个具有短时平稳性的语音帧。

分帧之后还需要加窗，将每一帧乘以汉明窗，以增加一帧的左端和右端的连续性，同时也能减少频谱泄漏。假设分帧处理后的信号为

，其中

为帧的数量，乘上汉明窗后的信号

为：

，

，

a为调控参数，不同的a值会产生不同的汉明窗，本实施方式中设置

。由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。因此，在乘上汉明窗后，每帧还必须再经过快速傅里叶变换以得到频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。则语音信号的快速傅里叶变换为：

，

其中，

为输入的语音信号，

表示傅里叶变换的点数，本实施方式中设置

。

将经过快速傅里叶变换得到的能量谱通过一组梅尔尺度的三角形滤波器组，定义一个有

个三角滤波器的滤波器组，中心频率为

，本实施方式中

为40。各f

之间的间隔随着

值的减小而缩小，随着

值的增大而增宽，如图2所示。三角滤波器的频率响应定义为:

，

其中，

，

使用三角形滤波器组的主要目的是消除谐波的作用，对频谱进行平滑化，突显原先音频的共振峰，去除了音频音调变化的影响。此外，还可以降低运算量。

在将快速傅里叶变换得到的能量谱映射到梅尔刻度上之后，在每个梅尔刻度，即每个滤波器组上提取对数能量。

对上面提取的对数能量应用离散余弦变换（DCT）产生滤波器组的压缩表示。

其中的M是三角滤波器个数，L阶指梅尔倒谱有系数阶数，本实施方法中设置L为20。这一步的运算结果就是提取得到的用于神经网络训练和预测的梅尔倒谱系数特征F_in。

步骤S4:利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率。

基于收集得到的圈养大熊猫自然交配时的叫声及其对应的交配成功与否的结果，制作用于深度学习模型训练的数据集。设计一个适用于圈养大熊猫交配结果预测的深度神经网络模型，本实施例中使用的神经网络结构示意图如图3所示，神经网络一次接收一个音频段的音频帧进行训练以及预测，令

为神经网络训练或测试的输入。该神经网络主要由卷积模块1（Convolution Module）、双向GRU模块（GRU Module）2、注意力模块3等三个部分组成。卷积模块1由三个相同的部分顺序连接组成，每个部分由卷积层和批量归一化层构成，输入的梅尔倒谱系数特征在经过卷积之后经过ReLU激活函数输出。卷积层会从输入的初始梅尔倒谱系数特征中抽取一些浅层信息，而批量归一化层则会将数据映射到指定范围，去除输入数据在量纲上的差异，增加了可比性。F_in经过卷积模块之后得到了卷积层输出的特征

。

卷积模块1之后是max-pooling 层、Drop Out层以及Reshape层。max-pooling层会降低输入特征的维度，去除一部分冗余信息。Drop Out层主要是为了随机抑制固定比例的神经元，防止参数过分依赖训练数据，增加网络对数据集的泛化能力。Reshape层将输出特征的形状重新设置为特定形状再输入到后续网络中。

Reshape层后面是由两个双向GRU层组成的双向GRU模块2。门控递归单元(units,GRUs)是循环神经网络中的一种门控机制，双向GRU模块在Drop out层输出的基础上进行双向的时序信息学习，提高网络对音频中时序信息的理解能力。

双向GRU模块2由两层GRU组成，第一个GRU层会接收卷积层输出的86个特征，产生 86个32维的特征

。第二个双向GRU层将基于第一个双向GRU层的输出生成另外86个 32维特征为双向GRU模块的最终输出

。具体计算过程如下，变量

表示输入序列中各个帧的中间状态。第一层双向GUR层以

为初始状态，沿着正方向传播。从

到

的任意一帧的

其对应的正方向输出

可以用以下公式表示：

，

，

，

，

，

其中，

是指更新门控信号，作用是决定上一层隐藏层状态

多少信息传递到当前隐藏状态

中，

是重置门控信号，决定上一时刻隐藏状态

的信息中有多少是需要被遗忘的，

是计算结果和输入

的权重矩阵，

是计算结果和前一个隐藏态

的权重矩阵，⊙是逐元素乘法，

是hard sigmoid函数，其计算公式如下：

第一层双向GRU接收

作为输入并通过沿着两个方向传播产生了两个中间层特征

和

，则输入序列的任意一帧

对应的输出

为：

其中的

是同维度的元素的相加，

。第二层双向GRU接收

为输入，设置和第一个双向GRU层一样的输出维度为32。经过和第一个双向GRU类似的计算过程之后，得到双向GRU模块最终的输出

。

在一个单独的段中，不同位置的帧的重要性是不同的。利用双向GRU模块后的注意力模块，使模型对输入段的每个位置赋予不同的权重，以提取更多的关键信息。一方面，注意力模块提高了的预测准确性。另一方面，它不会给计算和存储带来太多额外的成本。注意力模块包括全连接层和合并层。具体计算如下：

其中，

是为音频特征元素计算权重的全连通层，⊙是一种逐元素乘法。全连通层决定了对段中不同帧的关注程度。合并层通过逐元素相乘的方式将来自双向GRU模块的特征和来自全连接层的权重的乘起来在再输出。注意力模块3的最终输出是

。得到

之后，通过一个soft-max层计算一个段中86个帧为交配正确和交配失败的概率。计算结果是一个概率矩阵

，矩阵的每一行是一个帧的预测结果，第一列和第二列分别代表该帧预示着交配成功的概率和交配失败的概率。整个训练过程我们使用了交叉熵损失函数进行分类:

，

其中，

为特征F_in的对应的标签，为独热码形式，（1,0）代表该音频帧为交配成功的情况下采集的样本，（0,1）代表该音频帧为交配失败情况下采集的样本。在成都大熊猫繁育基地收集了过去9年（2011年-2019年）的13头成年大熊猫的自然交配音频，总时长为138分钟，交配成功情况下采集的音频为72分钟，交配失败情况下采集的音频为66 分钟。经过预处理之后得到2016个交配成功的音频段和1859个交配失败的音频段。将这批数据进行了五折交叉验证，进行了训练和测试。

步骤S5:统计输入神经网络模型中的音频片段中的多个音频帧的预测概率，根据统计数据得到大熊猫交配结果的预测判断。

神经网络模型一次接收一个音频段的所有帧的梅尔倒谱系数特征

作为输入，并输出该输入对应的预测概率矩阵

。预测概率矩阵

的每一行为一个帧预测自然交配结果为成功和失败的概率对，第一列就是所有帧各自预测为成功的概率，第二列就是所有帧各自预测为失败的概率。统计概率矩阵

第一列和第二列的结果：

，

当预测自然交配成功的总概率大于预测自然交配失败的总概率时

，可以认为该输入音频段预示着此次圈养大熊猫自然交配将成功，反之为失败。在成都大熊猫繁育基地收集得到的数据集上，采用本实施例提出的方法，取得了89.9%的五折交叉验证平均识别准确率。

本实施例提供的基于音频的圈养大熊猫自然交配结果的预测方法，通过对大熊猫交配时的叫声进行分析，实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。该预测方法具有非入侵、可持续、易实现、成本低、可迭代等优点。非入侵：本方法具有非接触性，只需要采集音频数据即可，不会对大熊猫造成心理或生理伤害；b、可持续：对采集的音频数据进行分析预测是一个持续过程，分析结果能够保存留档，以供研究人员的后续分析；c、易使用：本方法可以集成到手机、平板电脑、笔记本电脑、台式机等多种电子设备上，使用时只需要打开相应设备的麦克风即可，也不需要额外的设备辅助；d、成本低：一旦开发完成，可以永久使用，在不同繁殖期间使用也不会增加额外成本。e、可迭代：本发明的使用的神经网络算法，可以在不改变数据预处理方式和网络结构的前提下，在新收集的增量数据上继续训练调优，进一步迭代改进，提升预测性能。

在上述的第一实施例中，提供了一种基于音频的圈养大熊猫自然交配结果的预测方法，与之相对应的，本申请还提供一种基于音频的圈养大熊猫自然交配结果的预测系统。请参考图4，其为本发明第二实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示，示出了本发明第二实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图，该系统包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块，

音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括：

特征提取模块对特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括：

将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度；

在每个梅尔刻度上提取对数能量；

神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层，所述卷积模块包括3个相同的卷积层和批量归一化层。

数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括：

本实施例提供的基于音频的圈养大熊猫自然交配结果的预测系统，通过对大熊猫交配时的叫声进行分析，实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。该预测系统具有非入侵、可持续、易实现、成本低、可迭代等优点。非入侵：具有非接触性，只需要采集音频数据即可，不会对大熊猫造成心理或生理伤害；b、可持续：对采集的音频数据进行分析预测是一个持续过程，分析结果能够保存留档，以供研究人员的后续分析；c、易使用：系统可以集成到手机、平板电脑、笔记本电脑、台式机等多种电子设备上，使用时只需要打开相应设备的麦克风即可，也不需要额外的设备辅助；d、成本低：一旦开发完成，可以永久使用，在不同繁殖期间使用也不会增加额外成本。e、可迭代：本发明的使用的神经网络算法，可以在不改变数据预处理方式和网络结构的前提下，在新收集的增量数据上继续训练调优，进一步迭代改进，提升预测性能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于音频的圈养大熊猫自然交配结果的预测方法，其特征在于，包括：

对预处理后的音频片段提取梅尔倒谱系数特征；

2.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法，其特征在于，所述对采集到的原始音频数据进行预处理的具体方法包括：

将所述原始音频数据分割为2秒固定长度的音频片段，不足2秒的音频片段采用静音填充到2秒的长度；计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系，将每个音频片段中的每个采样点按照该缩放关系进行缩放。

3.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法，其特征在于，所述对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括：

将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度；

在每个梅尔刻度上提取对数能量；

4.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法，其特征在于，所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层，所述卷积模块包括3个相同的卷积层和批量归一化层，所述注意力模块包括全连接层和合并层。

5.如权利要求4所述的基于音频的圈养大熊猫自然交配结果的预测方法，其特征在于，所述利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括：

6.一种基于音频的圈养大熊猫自然交配结果的预测系统，其特征在于，包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块，

7.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统，其特征在于，所述音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括：

8.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统，其特征在于，所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括：

将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度；

在每个梅尔刻度上提取对数能量；

9.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统，其特征在于，所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层，所述卷积模块包括3个相同的卷积层和批量归一化层，所述注意力模块包括全连接层和合并层。

10.如权利要求9所述的基于音频的圈养大熊猫自然交配结果的预测系统，其特征在于，所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断，分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括：