CN110931024B - 基于音频的圈养大熊猫自然交配结果的预测方法及系统 - Google Patents

基于音频的圈养大熊猫自然交配结果的预测方法及系统 Download PDF

Info

Publication number
CN110931024B
CN110931024B CN202010096926.0A CN202010096926A CN110931024B CN 110931024 B CN110931024 B CN 110931024B CN 202010096926 A CN202010096926 A CN 202010096926A CN 110931024 B CN110931024 B CN 110931024B
Authority
CN
China
Prior art keywords
audio
layer
module
pandas
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010096926.0A
Other languages
English (en)
Other versions
CN110931024A (zh
Inventor
赵启军
陈鹏
侯蓉
闫蔚然
汤茂林
张志和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Sichuan University
Original Assignee
CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING, Sichuan University filed Critical CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Priority to CN202010096926.0A priority Critical patent/CN110931024B/zh
Publication of CN110931024A publication Critical patent/CN110931024A/zh
Application granted granted Critical
Publication of CN110931024B publication Critical patent/CN110931024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; CARE OF BIRDS, FISHES, INSECTS; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K29/00Other apparatus for animal husbandry
    • A01K29/005Monitoring or measuring activity, e.g. detecting heat or mating
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; CARE OF BIRDS, FISHES, INSECTS; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K67/00Rearing or breeding animals, not otherwise provided for; New breeds of animals
    • A01K67/02Breeding vertebrates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Abstract

本发明公开了一种基于音频的圈养大熊猫自然交配结果的预测方法和系统,包括:采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;对采集到的原始音频数据进行预处理,得到预处理后的音频片段;对预处理后的音频片段提取梅尔倒谱系数特征;利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。该方法通过对大熊猫交配时的叫声进行分析,实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。

Description

基于音频的圈养大熊猫自然交配结果的预测方法及系统
技术领域
本发明涉及大熊猫自然交配结果预测的技术领域,具体涉及一种基于音频的圈养大熊猫自然交配结果的预测方法及系统。
背景技术
大熊猫,英文名Giant Panda,学名Ailuropoda melanoleuca,一般称为“熊猫”或“猫熊”,属于食肉目熊科的一种哺乳动物,体色为黑白两色。熊猫是中国特有物种,现存的主要栖息地是中国中西部四川盆地周边的山区和陕西南部的秦岭地区。全世界野生大熊猫现存大约有2060头(2016年数据)。2016年末,世界自然保护联盟(IUCN)将大熊猫的受威胁等级从“濒危级”降为“易危级”。由于生育率低,大熊猫在中国濒危动物红皮书等级中评为濒危物种,为中国国宝。大熊猫被誉为生物界的活化石。
增加大熊猫种群数量是挽救大熊猫的重要途径,然而有关研究表明,大熊猫每年最适合交配的时间只有一天。因此如何在有限的时间内最合理的安排圈养大熊猫的交配至关重要。这需要针对性的对圈养大熊猫的自然繁育结果采取科学合理的预测分析以辅助研究人员对交配过程进行合理干预。气味是大熊猫交配过程中至关重要的感官形式。然而,在繁殖季节,发声也显著增加,这表明声音信号对协调生殖也很重要。雄性和雌性大熊猫一旦有了亲密的接触,声音的交流在表达个体的兴奋和交配意愿方面起着至关重要的作用。一方面,它达到了交配的目的,另一方面,它克服了大熊猫物种的自然回避和攻击倾向。传统的大熊猫发情状况评估方法主要是基于其分泌物中的激素水平测定来完成,这种方法操作复杂、成本较高、稳定性较差,且伴有无法避免的延迟。不能用于实时评估预测圈养大熊猫的自然交配结果,无法辅助研究人员基于繁育结果及时干预其繁育过程。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种基于音频的圈养大熊猫自然交配结果的预测方法及系统,通过对大熊猫交配时的叫声特性进行分析,自动预测自然交配的结果。
第一方面,本发明实施例提供的基于音频的圈养大熊猫自然交配结果的预测方法,包括:
采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;
对采集到的原始音频数据进行预处理,得到预处理后的音频片段;
对预处理后的音频片段提取梅尔倒谱系数特征;
利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;
统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
可选地,所述对采集到的原始音频数据进行预处理的具体方法包括:
将所述原始音频数据分割为2秒固定长度的音频片段,不足2秒的音频片段采用静音填充到2秒的长度;
计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系,将每个音频片段中的每个采样点按照该缩放关系进行缩放。
可选地,所述对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括:
将预处理后的音频片段根据采样窗口进行分帧处理,分帧后进行加窗处理;
对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱;
将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度;
在每个梅尔刻度上提取对数能量;
对所述对数能量进行离散傅里叶反变换,变换到倒频谱域,提取得到每一帧的梅尔倒谱系数特征。
可选地,所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层,所述卷积模块包括3个相同的卷积层和批量归一化层。
可选地,所述利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括:
将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后,通过ReLU激活函数输出第一输出特征;
将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理,得到第二输出特征;
将第二输出特征输入到双向GRU模块中进行双向的时序信息学习,输出第三输出特征;
将所述第三输出特征依次经过全连通层和合并层处理,得到输出结果;
将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。
第二方面,本发明实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统,包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块,
所述音频采集装置采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;
所述音频预处理模块对采集到的原始音频数据进行预处理,得到预处理后的音频片段;
所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征;
所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;
所述预测判断模块统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
可选地,所述音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括:
将所述原始音频数据分割为2秒固定长度的音频片段,不足2秒的音频片段采用静音填充到2秒的长度;
计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系,将每个音频片段中的每个采样点按照该缩放关系进行缩放。
可选地,所述述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括:
将预处理后的音频片段根据采样窗口进行分帧处理,分帧后进行加窗处理;
对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱;
将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度;
在每个梅尔刻度上提取对数能量;
对所述对数能量进行离散傅里叶反变换,变换到倒频谱域,提取得到每一帧的梅尔倒谱系数特征。
可选地,所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层,所述卷积模块包括3个相同的卷积层和批量归一化层。
可选地,所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括:
将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后,通过ReLU激活函数输出第一输出特征;
将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理,得到第二输出特征;
将第二输出特征输入到双向GRU模块中进行双向的时序信息学习,输出第三输出特征;
将所述第三输出特征依次经过全连通层和合并层处理,得到输出结果;
将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。
本发明的有益效果:
本实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测方法,通过对大熊猫交配时的叫声进行分析,实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。
本实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统,通过对大熊猫交配时的叫声进行分析,实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明第一实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测方法的流程图;
图2示出了本发明第一实施例中梅尔尺度的三角形滤波器组示意图;
图3示出了本发明第一实施例中使用的神经网络模型结构示意图;
图4示出了本发明第二实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1所示,示出了本发明第一实施例所提供的一种基于音频的圈养大熊猫自然交配结果的预测方法的流程图,该方法包括以下步骤:
步骤S1:采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据。
具体地,采用麦克风等设备收集圈养大熊猫交配时的叫声,得到长度不一的双声道音频数据作为原始音频数据。
步骤S2:对采集到的原始音频数据进行预处理,得到预处理后的音频片段。
对原始音频数据的长度和音频信号强度归一化处理,得到相同的长度和大小。由于神经网络模型只接受固定长度的音频片段,因此需要对强度归一化之后的音频进行长度归一化的处理,使用静音将部分长度不足的音频填充到固定长度。具体方法包括:
步骤S21:将原始音频数据分割成2秒固定长度的音频片段,对不足2秒的音频采用静音填充到2秒的长度。
步骤S22:计算每一个音频片段的音频最大强度值和理论最大信号强度值的缩放关系,按照该缩放关系,将整个音频片段按照该缩放关系进行缩放。依次类推,完成每个音频片段的强度归一化。音频信号强度归一化过程中缩放关系的计算公式定义为:
Figure 427758DEST_PATH_IMAGE003
其中,
Figure 854377DEST_PATH_IMAGE005
是理论最大强度,
Figure 618251DEST_PATH_IMAGE008
是待处理音 频片段中的最大强度。得到
Figure 335857DEST_PATH_IMAGE010
之后再将整个待处理音频片段按照该缩放关系进 行缩放即可实现整个音频片段的强度归一化。
步骤S3:对预处理后的音频片段提取梅尔倒谱系数特征。
具体地,提取梅尔倒谱系数特征需要进行快速傅立叶变化,由于长时间的音频信号不再具有平稳性,所以需要对长时间的音频进行分帧处理。在单个声道上,将1024个采样点集合成一个观测单位,称为帧,则双声道的总采样窗口长度为2048。本实施方法的采样频率是44100赫兹,因此,一个音频片段中的单个声道上,每一秒顺序采样可以得到43个具有短时平稳性的语音帧。
分帧之后还需要加窗,将每一帧乘以汉明窗,以增加一帧的左端和右端的连续性, 同时也能减少频谱泄漏。假设分帧处理后的信号为
Figure 125139DEST_PATH_IMAGE013
,其中
Figure 276634DEST_PATH_IMAGE015
为帧的数 量,乘上汉明窗后的信号
Figure 296860DEST_PATH_IMAGE017
为:
Figure 587213DEST_PATH_IMAGE020
Figure 57DEST_PATH_IMAGE023
a为调控参数,不同的a值会产生不同的汉明窗,本实施方式中设置
Figure 948607DEST_PATH_IMAGE026
。由于信 号在时域上的变换通常很难看出信号的特性,所以通常将它转换为频域上的能量分布来观 察,不同的能量分布,就能代表不同语音的特性。因此,在乘上汉明窗后,每帧还必须再经过 快速傅里叶变换以得到频谱上的能量分布。对分帧加窗后的各帧信号进行快速傅里叶变换 得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。则语音信号的快 速傅里叶变换为:
Figure 19648DEST_PATH_IMAGE029
其中,
Figure 626396DEST_PATH_IMAGE031
为输入的语音信号,
Figure 355635DEST_PATH_IMAGE033
表示傅里叶变换的点数,本实施方式中设置
Figure 355001DEST_PATH_IMAGE036
将经过快速傅里叶变换得到的能量谱通过一组梅尔尺度的三角形滤波器组,定义 一个有
Figure 630124DEST_PATH_IMAGE038
个三角滤波器的滤波器组,中心频率为
Figure 77603DEST_PATH_IMAGE041
,本实施方式中
Figure 665579DEST_PATH_IMAGE038
为40。 各f
Figure 711213DEST_PATH_IMAGE043
之间的间隔随着
Figure 951701DEST_PATH_IMAGE045
值的减小而缩小,随着
Figure 26973DEST_PATH_IMAGE046
值的增大而增宽,如图2所示。三角滤波器 的频率响应定义为:
Figure 465225DEST_PATH_IMAGE049
其中,
Figure 266828DEST_PATH_IMAGE051
使用三角形滤波器组的主要目的是消除谐波的作用,对频谱进行平滑化,突显原先音频的共振峰,去除了音频音调变化的影响。此外,还可以降低运算量。
在将快速傅里叶变换得到的能量谱映射到梅尔刻度上之后,在每个梅尔刻度,即每个滤波器组上提取对数能量。
Figure 439183DEST_PATH_IMAGE053
对上面提取的对数能量应用离散余弦变换(DCT)产生滤波器组的压缩表示。
Figure 594221DEST_PATH_IMAGE055
其中的M是三角滤波器个数,L阶指梅尔倒谱有系数阶数,本实施方法中设置L为20。这一步的运算结果就是提取得到的用于神经网络训练和预测的梅尔倒谱系数特征Fin
步骤S4:利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率。
基于收集得到的圈养大熊猫自然交配时的叫声及其对应的交配成功与否的结果, 制作用于深度学习模型训练的数据集。设计一个适用于圈养大熊猫交配结果预测的深度神 经网络模型,本实施例中使用的神经网络结构示意图如图3所示,神经网络一次接收一个音 频段的音频帧进行训练以及预测,令
Figure 660266DEST_PATH_IMAGE057
为神经网络训练或测试的输入。该 神经网络主要由卷积模块1(Convolution Module)、双向GRU模块(GRU Module)2、注意力模 块3等三个部分组成。卷积模块1由三个相同的部分顺序连接组成,每个部分由卷积层和批 量归一化层构成,输入的梅尔倒谱系数特征在经过卷积之后经过ReLU激活函数输出。卷积 层会从输入的初始梅尔倒谱系数特征中抽取一些浅层信息,而批量归一化层则会将数据映 射到指定范围,去除输入数据在量纲上的差异,增加了可比性。Fin经过卷积模块之后得到了 卷积层输出的特征
Figure 242557DEST_PATH_IMAGE059
卷积模块1之后是max-pooling 层、Drop Out层以及Reshape层。max-pooling层会降低输入特征的维度,去除一部分冗余信息。Drop Out层主要是为了随机抑制固定比例的神经元,防止参数过分依赖训练数据,增加网络对数据集的泛化能力。Reshape层将输出特征的形状重新设置为特定形状再输入到后续网络中。
Reshape层后面是由两个双向GRU层组成的双向GRU模块2。门控递归单元(units,GRUs)是循环神经网络中的一种门控机制,双向GRU模块在Drop out层输出的基础上进行双向的时序信息学习,提高网络对音频中时序信息的理解能力。
双向GRU模块2由两层GRU组成,第一个GRU层会接收卷积层输出的86个特征,产生 86个32维的特征
Figure 902208DEST_PATH_IMAGE061
。第二个双向GRU层将基于第一个双向GRU层的输出生成另外86个 32维特征为双向GRU模块的最终输出
Figure 860937DEST_PATH_IMAGE063
。具体计算过程如下,变量
Figure 781489DEST_PATH_IMAGE065
表示输入序列中各 个帧的中间状态。第一层双向GUR层以
Figure 800260DEST_PATH_IMAGE067
为初始状态,沿着正方向传播。从
Figure 806262DEST_PATH_IMAGE069
Figure 37524DEST_PATH_IMAGE071
的任意一帧的
Figure 953527DEST_PATH_IMAGE073
其对应的正方向输出
Figure 267834DEST_PATH_IMAGE075
可以用以下公式表示:
Figure 902077DEST_PATH_IMAGE077
Figure 937029DEST_PATH_IMAGE079
Figure 832173DEST_PATH_IMAGE081
Figure 192747DEST_PATH_IMAGE083
Figure 314287DEST_PATH_IMAGE085
其中,
Figure 11985DEST_PATH_IMAGE087
是指更新门控信号,作用是决定上一层隐藏层状态
Figure 902580DEST_PATH_IMAGE089
多少信息传递到 当前隐藏状态
Figure 168476DEST_PATH_IMAGE091
中,
Figure 636367DEST_PATH_IMAGE093
是重置门控信号,决定上一时刻隐藏状态
Figure 278701DEST_PATH_IMAGE094
的信息中有多少是需 要被遗忘的,
Figure 23803DEST_PATH_IMAGE096
是计算结果和输入
Figure 850814DEST_PATH_IMAGE097
的权重矩阵,
Figure 681366DEST_PATH_IMAGE099
是计算结果和前一个隐藏态
Figure 596233DEST_PATH_IMAGE089
的权重矩阵,⊙是逐元素乘法,
Figure 586054DEST_PATH_IMAGE101
是hard sigmoid函数,其计算公式如下:
Figure 193753DEST_PATH_IMAGE103
第一层双向GRU接收
Figure 511602DEST_PATH_IMAGE105
作为输入并通过沿着两个方向传播产生了两个中间层 特征
Figure 620372DEST_PATH_IMAGE107
Figure 74487DEST_PATH_IMAGE109
,则输入序列的任意一帧
Figure 118667DEST_PATH_IMAGE097
对应的输出
Figure 48446DEST_PATH_IMAGE111
为:
Figure 836273DEST_PATH_IMAGE113
其中的
Figure 410474DEST_PATH_IMAGE115
是同维度的元素的相加,
Figure 625554DEST_PATH_IMAGE117
。第二层双向GRU接收
Figure 788769DEST_PATH_IMAGE119
为输入,设置和第一个双向GRU层一样的输出维度为32。经过和第一个双向GRU类 似的计算过程之后,得到双向GRU模块最终的输出
Figure 114708DEST_PATH_IMAGE121
在一个单独的段中,不同位置的帧的重要性是不同的。利用双向GRU模块后的注意力模块,使模型对输入段的每个位置赋予不同的权重,以提取更多的关键信息。一方面,注意力模块提高了的预测准确性。另一方面,它不会给计算和存储带来太多额外的成本。注意力模块包括全连接层和合并层。具体计算如下:
Figure 543415DEST_PATH_IMAGE123
Figure 54031DEST_PATH_IMAGE125
其中,
Figure 833768DEST_PATH_IMAGE127
是为音频特征元素计算权重的全连通层,⊙是一种逐元素乘法。全连通层 决定了对段中不同帧的关注程度。合并层通过逐元素相乘的方式将来自双向GRU模块的特 征和来自全连接层的权重的乘起来在再输出。注意力模块3的最终输出是
Figure 963398DEST_PATH_IMAGE129
。得到
Figure 246612DEST_PATH_IMAGE131
之后,通过一个soft-max层计算一个段中86个帧为交配 正确和交配失败的概率。计算结果是一个概率矩阵
Figure 193708DEST_PATH_IMAGE133
,矩阵的每一行是一个帧 的预测结果,第一列和第二列分别代表该帧预示着交配成功的概率和交配失败的概率。整 个训练过程我们使用了交叉熵损失函数进行分类:
Figure 195162DEST_PATH_IMAGE135
其中,
Figure 128483DEST_PATH_IMAGE137
为特征Fin的对应的标签,为独热码形式,(1,0)代表该音频 帧为交配成功的情况下采集的样本,(0,1)代表该音频帧为交配失败情况下采集的样本。在 成都大熊猫繁育基地收集了过去9年(2011年-2019年)的13头成年大熊猫的自然交配音频, 总时长为138分钟,交配成功情况下采集的音频为72分钟,交配失败情况下采集的音频为66 分钟。经过预处理之后得到2016个交配成功的音频段和1859个交配失败的音频段。将这批 数据进行了五折交叉验证,进行了训练和测试。
步骤S5:统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
神经网络模型一次接收一个音频段的所有帧的梅尔倒谱系数特征
Figure 531783DEST_PATH_IMAGE139
作为输入, 并输出该输入对应的预测概率矩阵
Figure 384201DEST_PATH_IMAGE141
。预测概率矩阵
Figure 607372DEST_PATH_IMAGE141
的每一行为一个帧预测自然交配结 果为成功和失败的概率对,第一列就是所有帧各自预测为成功的概率,第二列就是所有帧 各自预测为失败的概率。统计概率矩阵
Figure 609963DEST_PATH_IMAGE142
第一列和第二列的结果:
Figure 867769DEST_PATH_IMAGE144
当预测自然交配成功的总概率大于预测自然交配失败的总概率时
Figure 766455DEST_PATH_IMAGE146
, 可以认为该输入音频段预示着此次圈养大熊猫自然交配将成功,反之为失败。在成都大熊 猫繁育基地收集得到的数据集上,采用本实施例提出的方法,取得了89.9%的五折交叉验证 平均识别准确率。
本实施例提供的基于音频的圈养大熊猫自然交配结果的预测方法,通过对大熊猫交配时的叫声进行分析,实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。该预测方法具有非入侵、可持续、易实现、成本低、可迭代等优点。非入侵:本方法具有非接触性,只需要采集音频数据即可,不会对大熊猫造成心理或生理伤害;b、可持续:对采集的音频数据进行分析预测是一个持续过程,分析结果能够保存留档,以供研究人员的后续分析;c、易使用:本方法可以集成到手机、平板电脑、笔记本电脑、台式机等多种电子设备上,使用时只需要打开相应设备的麦克风即可,也不需要额外的设备辅助;d、成本低:一旦开发完成,可以永久使用,在不同繁殖期间使用也不会增加额外成本。e、可迭代:本发明的使用的神经网络算法,可以在不改变数据预处理方式和网络结构的前提下,在新收集的增量数据上继续训练调优,进一步迭代改进,提升预测性能。
在上述的第一实施例中,提供了一种基于音频的圈养大熊猫自然交配结果的预测方法,与之相对应的,本申请还提供一种基于音频的圈养大熊猫自然交配结果的预测系统。请参考图4,其为本发明第二实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图4所示,示出了本发明第二实施例提供的一种基于音频的圈养大熊猫自然交配结果的预测系统的结构示意图,该系统包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块,
所述音频采集装置采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;
所述音频预处理模块对采集到的原始音频数据进行预处理,得到预处理后的音频片段;
所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征;
所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;
所述预测判断模块统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括:
将所述原始音频数据分割为2秒固定长度的音频片段,不足2秒的音频片段采用静音填充到2秒的长度;
计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系,将每个音频片段中的每个采样点按照该缩放关系进行缩放。
特征提取模块对特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括:
将预处理后的音频片段根据采样窗口进行分帧处理,分帧后进行加窗处理;
对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱;
将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度;
在每个梅尔刻度上提取对数能量;
对所述对数能量进行离散傅里叶反变换,变换到倒频谱域,提取得到每一帧的梅尔倒谱系数特征。
神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层,所述卷积模块包括3个相同的卷积层和批量归一化层。
数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括:
将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后,通过ReLU激活函数输出第一输出特征;
将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理,得到第二输出特征;
将第二输出特征输入到双向GRU模块中进行双向的时序信息学习,输出第三输出特征;
将所述第三输出特征依次经过全连通层和合并层处理,得到输出结果;
将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。
本实施例提供的基于音频的圈养大熊猫自然交配结果的预测系统,通过对大熊猫交配时的叫声进行分析,实现自动预测大熊猫自然交配的结果。辅助大熊猫繁育科研人员在大熊猫短暂的最佳交配期间实现最优的自然交配配对选择。该预测系统具有非入侵、可持续、易实现、成本低、可迭代等优点。非入侵:具有非接触性,只需要采集音频数据即可,不会对大熊猫造成心理或生理伤害;b、可持续:对采集的音频数据进行分析预测是一个持续过程,分析结果能够保存留档,以供研究人员的后续分析;c、易使用:系统可以集成到手机、平板电脑、笔记本电脑、台式机等多种电子设备上,使用时只需要打开相应设备的麦克风即可,也不需要额外的设备辅助;d、成本低:一旦开发完成,可以永久使用,在不同繁殖期间使用也不会增加额外成本。e、可迭代:本发明的使用的神经网络算法,可以在不改变数据预处理方式和网络结构的前提下,在新收集的增量数据上继续训练调优,进一步迭代改进,提升预测性能。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种基于音频的圈养大熊猫自然交配结果的预测方法,其特征在于,包括:
采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;
对采集到的原始音频数据进行预处理,得到预处理后的音频片段;
对预处理后的音频片段提取梅尔倒谱系数特征;
利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;
统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
2.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法,其特征在于,所述对采集到的原始音频数据进行预处理的具体方法包括:
将所述原始音频数据分割为2秒固定长度的音频片段,不足2秒的音频片段采用静音填充到2秒的长度;计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系,将每个音频片段中的每个采样点按照该缩放关系进行缩放。
3.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法,其特征在于,所述对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括:
将预处理后的音频片段根据采样窗口进行分帧处理,分帧后进行加窗处理;
对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱;
将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度;
在每个梅尔刻度上提取对数能量;
对所述对数能量进行离散傅里叶反变换,变换到倒频谱域,提取得到每一帧的梅尔倒谱系数特征。
4.如权利要求1所述的基于音频的圈养大熊猫自然交配结果的预测方法,其特征在于,所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层,所述卷积模块包括3个相同的卷积层和批量归一化层,所述注意力模块包括全连接层和合并层。
5.如权利要求4所述的基于音频的圈养大熊猫自然交配结果的预测方法,其特征在于,所述利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括:
将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后,通过ReLU激活函数输出第一输出特征;
将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理,得到第二输出特征;
将第二输出特征输入到双向GRU模块中进行双向的时序信息学习,输出第三输出特征;
将所述第三输出特征依次经过全连通层和合并层处理,得到输出结果;
将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。
6.一种基于音频的圈养大熊猫自然交配结果的预测系统,其特征在于,包括音频采集装置、音频预处理模块、特征提取模块、数据处理模块和预测判断模块,
所述音频采集装置采集圈养大熊猫自然交配时的叫声数据,得到原始音频数据;
所述音频预处理模块对采集到的原始音频数据进行预处理,得到预处理后的音频片段;
所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征;
所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率;
所述预测判断模块统计输入神经网络模型中的音频片段中的多个音频帧的预测概率,根据统计数据得到大熊猫交配结果的预测判断。
7.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统,其特征在于,所述音频预处理模块对采集到的原始音频数据进行预处理的具体方法包括:
将所述原始音频数据分割为2秒固定长度的音频片段,不足2秒的音频片段采用静音填充到2秒的长度;计算每个音频片段的音频强度最大值和理论强度最大值的缩放关系,将每个音频片段中的每个采样点按照该缩放关系进行缩放。
8.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统,其特征在于,所述特征提取模块对预处理后的音频片段提取梅尔倒谱系数特征的具体步骤包括:
将预处理后的音频片段根据采样窗口进行分帧处理,分帧后进行加窗处理;
对分帧加窗处理后的各帧音频信号进行快速傅里叶变换得到各帧的频谱;
将所述各帧的频谱通过一个梅尔滤波器组映射到梅尔刻度;
在每个梅尔刻度上提取对数能量;
对所述对数能量进行离散傅里叶反变换,变换到倒频谱域,提取得到每一帧的梅尔倒谱系数特征。
9.如权利要求6所述的基于音频的圈养大熊猫自然交配结果的预测系统,其特征在于,所述神经网络模型包括卷积模块、max-pooling层、Drop Out层、Reshape层、双向GRU模块、注意力模块和soft-max层,所述卷积模块包括3个相同的卷积层和批量归一化层,所述注意力模块包括全连接层和合并层。
10.如权利要求9所述的基于音频的圈养大熊猫自然交配结果的预测系统,其特征在于,所述数据处理模块利用神经网络模型对提取的梅尔倒谱系数特征进行判断,分析预测音频片段中每一帧所预示的交配结果的预测概率的具体方法包括:
将提取的每一帧梅尔倒谱系数特征依次经过卷积层、批量归一化层、卷积层、批量归一化层、卷积层和批量归一化层后,通过ReLU激活函数输出第一输出特征;
将第一输出特征依次经过max-pooling层、Drop Out层和Reshape层处理,得到第二输出特征;
将第二输出特征输入到双向GRU模块中进行双向的时序信息学习,输出第三输出特征;
将所述第三输出特征依次经过全连通层和合并层处理,得到输出结果;
将输出结果经过soft-max层计算出每一个音频段的每一帧代表大熊猫交配成功和失败的概率。
CN202010096926.0A 2020-02-18 2020-02-18 基于音频的圈养大熊猫自然交配结果的预测方法及系统 Active CN110931024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010096926.0A CN110931024B (zh) 2020-02-18 2020-02-18 基于音频的圈养大熊猫自然交配结果的预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010096926.0A CN110931024B (zh) 2020-02-18 2020-02-18 基于音频的圈养大熊猫自然交配结果的预测方法及系统

Publications (2)

Publication Number Publication Date
CN110931024A CN110931024A (zh) 2020-03-27
CN110931024B true CN110931024B (zh) 2020-05-22

Family

ID=69854803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010096926.0A Active CN110931024B (zh) 2020-02-18 2020-02-18 基于音频的圈养大熊猫自然交配结果的预测方法及系统

Country Status (1)

Country Link
CN (1) CN110931024B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666881B (zh) * 2020-06-08 2023-04-28 成都大熊猫繁育研究基地 一种大熊猫踱步、吃竹子、发情行为跟踪分析方法
CN112765393B (zh) * 2020-12-31 2022-05-24 中国大熊猫保护研究中心 大熊猫发情数据管理方法、装置和计算机设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104344847A (zh) * 2014-11-05 2015-02-11 中国林业科学研究院大熊猫研究中心 动物行为的检测方法、装置和系统
CN108064745A (zh) * 2016-11-17 2018-05-25 南京国雅信息科技有限公司 动物嚎叫监测系统以及基于机器学习的嚎叫状态识别方法
CN108522342B (zh) * 2018-01-23 2020-09-11 北京师范大学 一种基于动作和叫声的动物行为监测、分析及预警系统及其工作方法
CN110826358B (zh) * 2018-08-08 2022-12-06 杭州海康威视数字技术股份有限公司 动物情绪的识别方法、装置及存储介质
CN110111815A (zh) * 2019-04-16 2019-08-09 平安科技(深圳)有限公司 动物异常声音监控方法及装置、存储介质、电子设备
CN110322894B (zh) * 2019-06-27 2022-02-11 电子科技大学 一种基于声音的波形图生成及大熊猫检测方法
CN110189757A (zh) * 2019-06-27 2019-08-30 电子科技大学 一种大熊猫个体识别方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN110931024A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
Alim et al. Some commonly used speech feature extraction algorithms
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN108877775B (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN108369813B (zh) 特定声音识别方法、设备和存储介质
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN110459241B (zh) 一种用于语音特征的提取方法和系统
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN108520753A (zh) 基于卷积双向长短时记忆网络的语音测谎方法
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN110931023B (zh) 性别识别方法、系统、移动终端及存储介质
CN110931024B (zh) 基于音频的圈养大熊猫自然交配结果的预测方法及系统
CN111179910A (zh) 语速识别方法和装置、服务器、计算机可读存储介质
CN102496366B (zh) 一种与文本无关的说话人识别方法
CN114863937A (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
Ghezaiel et al. Hybrid network for end-to-end text-independent speaker identification
CN109545226B (zh) 一种语音识别方法、设备及计算机可读存储介质
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN115064175A (zh) 一种说话人识别方法
CN108962249B (zh) 一种基于mfcc语音特征的语音匹配方法及存储介质
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
Dutta et al. Robust language identification using power normalized cepstral coefficients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant