CN110189757A

CN110189757A - 一种大熊猫个体识别方法、设备及计算机可读存储介质

Info

Publication number: CN110189757A
Application number: CN201910568207.1A
Authority: CN
Inventors: 胡绍湘; 陈鹏; 侯蓉; 路红坤; 杨恒毅; 廖志武; 齐敦武; 吴蔚; 朱荣华; 张志和
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; University of Electronic Science and Technology of China
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING; University of Electronic Science and Technology of China
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-08-30

Abstract

本发明公开了一种大熊猫个体识别方法，涉及声纹识别技术领域，包括以下步骤：基于声音数据源，获取大熊猫的原始声音信号；对原始声音信号依次采用采样量化、预加重、分帧加窗和端点检测的预处理，得到只保留声音数据的纯净信号；基于纯净信号提取短时能量特征、线性预测系数特征、梅尔频率倒谱系数特征和一阶差分梅尔频率倒谱系数特征的联合特征作为待识别个体的声纹特征；将待识别个体的声纹特征带入预设的卷积神经网络，得到大熊猫个体身份的识别结果。本发明还同时公开了一种大熊猫个体识别设备及计算机可读存储介质。本发明只需声音数据就可以对大熊猫个体进行识别，与现有技术相比操作简单、性能稳定、适用性强、识别率高。

Description

一种大熊猫个体识别方法、设备及计算机可读存储介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种大熊猫个体识别方法、设备及计算机可读存储介质。

背景技术

大熊猫是我国特有的保护动物，并且作为国宝，其物种价值和国家属性价值都十分高昂，由于大熊猫数量稀少，物种繁衍困难，因此也是我国重点的保护对象和研究对象，在此基础上，对于大熊猫的个体识别研究具有十分重要的意义。

目前常用的针对动物的个体识别方法有观察法、DNA指纹图谱法、身体标记法、图像识别法等。观察法主要通过肉眼观察被测动物的体型毛色等特性，辨别不同个体，对饲养、管理或科研人员的相关经验过于依赖，普适性差；DNA指纹图谱法是准确度最高的个体识别方式，但是获取被测动物的DNA时需要借助精密的仪器设备，分析和操作过程也较为复杂，不够便捷；图像识别法，是利用红外摄像机或摄像头采集含有动物脸部的图像或视频流后，进行相关预处理、特征提取、匹配识别等操作，其受布置设备和成本的限制较多，不易实施；而身体标记法由于需要在动物身上做标记，并不适用于珍稀物种。由此可见，由于大熊猫属于一种濒危的珍稀物种，现有技术的个体识别方法，都具有一定的局限性和实施困难度。

发明内容

针对现有大熊猫个体识别方法的不足，本发明提出一种基于声纹特征识别的大熊猫个体识别方法。只要获取到大熊猫的声音数据，就可以基于预先建立的卷积神经网路对其身份进行识别。

本发明为了实现上述目的具体采用以下技术方案：

第一方面，本发明公开一种检测方法，包括以下步骤：

基于声音数据源，获取大熊猫的原始声音信号；

对原始声音信号依次采用采样量化、预加重、分帧加窗和端点检测的预处理，得到只保留声音数据的纯净信号；

基于纯净信号提取短时能量特征、线性预测系数特征、梅尔频率倒谱系数特征和一阶差分梅尔频率倒谱系数特征的联合特征作为待识别个体的声纹特征；

将待识别个体的声纹特征带入预设的卷积神经网络，得到大熊猫个体身份的识别结果。

进一步地，声音数据源，具体包括：

数据加载方式的声音数据源，或实时录音方式的声音数据源。

进一步地，采样量化、预加重、分帧加窗和端点检测的处理过程，分别包括：

采样量化的采样率为44.1KHz、量化位数为16-bit；

预加重是采用一阶FIR高通数字滤波器进行预加重系数为0.95的高频增益处理；

分帧加窗是根据音频采样率设置帧长为440个数据点，设置帧移为150个数据点，设置汉明窗作为窗函数；

端点检测是采用双门限检测法基于帧数据的短时能量和过零率这两项指标进行检测，提取只保留声音数据的纯净信号。

进一步地，双门限检测法，具体包括：

针对分帧加窗处理后的音频数据，对其帧数据上的短时能量和过零率都设置高门限和低门限；

若帧数据的短时能量或过零率高于高门限，则将帧数据标记为语音段；

若帧数据的短时能量和过零率都位于低门限和高门限之间，则将帧数据标记为过渡段；

若帧数据的短时能量或过零率低于低门限，则将帧数据标记为静音端；

最后只提取语音段作为纯净信号输出。

进一步地，卷积神经网络的组成结构和训练过程，具体包括：

卷积神经网络由四组卷积池化单元、三层全连接层和一层归一化指数函数分类层构成；

卷积神经网络的训练采用批训练处理，分批次将已知大熊猫声纹特征及其身份信息作为训练样本输入至卷积神经网络中，并采用随机梯度下降的反向传播方式对卷积神经网络的参数权重进行迭代优化，当迭代次数达到N次时停止迭代，得到训练完毕的神经网络模型；其中，N的取值范围为18000～20000。

进一步地，待识别大熊猫个体身份的识别过程，包括：

将待识别大熊猫个体的声纹特征输入卷积神经网络，计算待识别大熊猫数据与训练样本数据之间的最大相似度；

若最大相似度大于等于预设阈值C，则输出与待识别大熊猫个体具有最大相似度的训练样本作为大熊猫的个体识别结果；其中，阈值C的取值范围为0.5≤C＜1。

第二方面，本发明公开一种检测设备，包括：

处理器、存储器和通信总线；

其中，通信总线，用于实现处理器和存储器之间的通信连接；

存储器，用于存储能够在处理器上运行的大熊猫个体识别程序；

处理器，用于：

基于声音数据源，获取大熊猫的原始声音信号；

第三方面，本发明公开一种计算机可读存储介质，所述可读存储介质中存储有一个或者多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现第一方面中任意一项大熊猫个体识别方法的步骤。

采用上述方案后，本发明的有益效果如下：

1、本发明方案基于声纹特征实现对大熊猫个体进行识别，由于声音在时域和频域上都包含着丰富的个性信息，因此识别效率高、效果好；与此同时，声音数据与图像数据等数据类型相比，占空间更小，易于提取和保存，在神经网络的训练阶段便于迭代更多的训练次数，从而可以提升网络模型识别过程的稳定性和准确性。

2、本发明方案在识别之前对大熊猫声音数据的原始数据进行了采样量化、预加重、分帧加窗和端点检测等预处理，消除了噪声和无用帧数据，最终的待检测数据是只包含有声音数据帧的纯净信息，从而可以提高后续识别速率和准确性。

3、本发明方案针对声纹特征提取是包括提取短时能量(E_n)特征、线性预测(LPC)系数特征、梅尔倒谱频率系数(MFCC)特征和一阶差分梅尔倒谱频率系数(△MFCC)特征的多特征提取，相较于只利用一种声纹特征进行识别的方案，在识别准确率上了较大幅度的提升。并且由于熊猫叫声的频域较广，MFCC等方法无法有效针对其高频部分进行声纹提取，经实验，单基于LPC提取特征的方法其识别准确率为70％，而单基于MFCC提取特征的方法其识别准确率为75.5％，作为对比，本发明基于多声纹提取特征的方法其识别准确率能够达到89.2％，在动物个体识别领域达到了较高水平。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例1提供的一种大熊猫个体识别方法流程图；

图2为本发明实施例1提供的预处理流程图；

图3为本发明实施例1提供的多声纹特征提取示意图；

图4为本发明实施例1提供的短时平均能量特征提取流程图；

图5为本发明实施例1提供的线性预测系数特征提取流程图；

图6为本发明实施例1提供的梅尔频率倒谱系数特征提取流程图；

图7为本发明实施例1提供的神经网络示意图；

图8为本发明实施例1提供的识别准确率对比表；

图9为本发明实施例2提供的一种大熊猫个体识别设备的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图和实施例对本发明实施例作详细说明。

实施例1

参照图1所示，本发明实施例提供一种大熊猫个体识别方法，包括以下步骤：

S101、基于声音数据源，获取大熊猫的原始声音信号；

S102、对原始声音信号依次采用采样量化、预加重、分帧加窗和端点检测的预处理，得到只保留声音数据的纯净信号；

S103、基于纯净信号提取短时能量特征、线性预测系数特征、梅尔频率倒谱系数特征和一阶差分梅尔频率倒谱系数特征的联合特征作为待识别个体的声纹特征；

S104、将待识别个体的声纹特征带入预设的卷积神经网络，得到大熊猫个体身份的识别结果。

可以理解地，与现有技术中基于图像、身体标识、DNA检测、直接观测等方法进行生物个体识别的方法不同，本发明实施例是基于声音数据对大熊猫的个体进行识别。

可以理解地，大熊猫声音数据的获取过程，可以是采用麦克风、拾音器等专业录音设备，对大熊猫的声音进行采集，并就归类、命名和格式等方面进行适当规范化整理和操作，最终得到包含大熊猫数据的声音格式文件。相对应地，S101中的声音数据源，可以是数据加载方式的声音数据源，也可以是实时录音方式的声音数据源。

具体地，声音数据源的文件格式包括CD、WAVE、AIFF、MPEG、MP3、MPEG-4、WMA、AMR、APE、FLAC、AAC等音频格式，此处不再赘述。

显而易见地，由于音频数据与图像数据等数据类型相比，占空间更小，在相同存储空间下可以保存更多数量的数据，并且易于提取和保存。

可以理解地，为了提高准确率，S101中的原始声音信号，是至少来源于两个声音数据源的同一大熊猫个体。

可以理解地，S102中的预处理主要针对原始数据中的非声音帧进行消除，从而得到只保留大熊猫声音数据的信号进入后续的识别过程，从而有效降低识别系统的负担，提升识别准确率。

优选地，由图2所示，本发明实施例中的预处理过程具体包括：对原始声音信号依次采用采样量化、预加重、分帧加窗和端点检测的预处理。

此处，首先对原始声音信号进行采样和量化处理，设置采样率为44.1KHz，设置量化位数为16-bits，并将转换后的文件保存为WAV格式文件。采样率定义了每秒从连续信号中提取并组成离散信号的采样个数，其倒数即是采样周期(也称采样时间)，量化位数决定了模拟信号数字化以后的动态范围，一般来说，采样率和量化位数越高，数据越丰富，播放出的音频清晰度和细节越高，但是随之也会造成文件所需的存储空间成倍数级增加。本实施例中的这种设置具有较好的通用性，方便于文件在硬盘、数字解码播放器等设备之间传递和播放，同时具有较好的失真度，能够提升本实施例方案的实用性和适用性。

进一步地，对于经采样量化处理后的数据，本发明实施例对其进行预加重处理，能够有效弥补声音采集时因口鼻辐射造成的高频能量衰减。可以理解地，此处的预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。一般来说，随着信号速率的增加，信号在传输过程中受损很大，为了在接收终端能得到比较好的信号波形，就需要对受损的信号进行补偿，预加重技术通过在传输线的始端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减，同时对噪声并没有影响，因此能有效提高输出信噪比。

优选地，本发明实施例中采用一阶非递归型高通数字滤波器(Finite ImpulseResponse，FIR)进行预加重处理，该数字滤波器可以在保证任意幅频特性的同时具有严格的线性相频特性，从而具有系统稳定性。

本发明实施例中，数字滤波器的传递函数H(z)如下式(1)所示：

H(z)＝1-αz^-1…………………………(1)

其中，α为预加重系数，其取值范围为0.9<α<1。

进一步地，对于预加重处理后的数据进行分帧和加窗处理。

因为语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(10-30ms内可以认为语音信号近似不变)，而为了实现音频的傅里叶变换，将离散频谱转换为周期连续频谱进行处理，就需要分帧和加窗。具体地，先把语音信号分为帧信号，若后续需要加窗，则在分帧时，不要背靠背地截取，而是相互重叠一部分。相邻两帧的起始位置的时间差叫做帧移(STRIDE)，最后将分帧后的信号与预设的窗函数相乘实现傅里叶展开。

可以理解地，窗函数包括矩形窗、汉明窗、三角窗、海宁窗、布莱克曼窗和凯瑟窗等，分别应用于不同的信号处理情景，此处不再赘述。

优选地，本发明实施例中，帧长根据音频的采样速率设置为440个数据点，帧移设置为150个数据点，使得两帧语音可以平稳相接；选择汉明窗(Hanmming)作为加窗处理的窗函数，该窗函数对于声音信号具有良好的通用性。

进一步地，对于分帧和加窗处理后的数据采用双门限检测法基于帧数据的短时能量和过零率这两项指标进行检测，提取只保留声音数据的纯净信号。

可以理解地，本发明实施例中的双门限检测法，具体包括：针对分帧加窗处理后的音频数据，对其帧数据上的短时能量和过零率都设置高门限和低门限；若帧数据的短时能量或过零率高于高门限，则将帧数据标记为语音段；若帧数据的短时能量和过零率都位于低门限和高门限之间，则将帧数据标记为过渡段；若帧数据的短时能量或过零率低于低门限，则将帧数据标记为静音端；最后只提取语音段作为纯净信号输出。

进一步地，第n帧语音数据x(m)的短时能量E_n的计算公式如下式(2)所示：

其中，w(n)是前述内容中的汉明窗函数。

进一步地，第n帧语音数据x(m)的过零率Z_n的计算公式如下式(3)所示：

其中sgn为符号函数，其定义如下式(4)所示：

由此可见，本发明实施例通过采样量化、预加重、分帧加窗和端点检测等预处理过程可以有效提高原始音频信号的通用性，弥补声音采集时因口鼻辐射造成的高频能量衰减，方便傅里叶处理，只提取含有音频的帧数据进行后续处理，从而提高识别准确率。

进一步地，本发明实施例中采用多声纹特征同时提取的方法提取待识别大熊猫的声纹特征。

可以理解地，现有技术中针对人声音检测的特征，可以利用梅尔频率倒谱系数(MFCC)特征或是线性预测系数特征(LPC)特征，其中MFCC特征可以较好得表征低频部分的特征，对应地，人的声音频率也较多集中在低频部分，因此MFCC特征对人的声音表征较好。但是，大熊猫的叫声的频率从20Hz-20000Hz都有分布，其叫声含有较多高频成分，而MFCC无法表征出高频特征，可见现有的特征提取方法对大熊猫并不适用。本方案采用多声纹特征提取的方案，可以克服这一缺陷。

需要注意的是，在提取多声纹特征之前，需要先计算待处理信号的线性频谱，方便进行特征计算。假设原始声音信号s(n)经前述内容的预处理之后，变为纯净的时域信号x(n)，可以基于下式(5)进行变换得到对应的线性频谱X(k)：

其中，k为与原始语音信号各点对应的时域频率。

优选地，如图3所示，本发明实施例中的多声纹特征包括：短时能量特征、线性预测系数特征、梅尔频率倒谱系数特征和一阶差分梅尔频率倒谱系数特征。以下对于这些特征一一做阐述和说明。

可以理解地，短时能量特征作为一维特征主要用于区分清音和浊音。如图4所示，考虑各语音段在短时平均能量上的特点和分布情况，本发明实施例中，基于单帧数据中各样点值的平方和计算单帧数据的短时平均能量E_n，其计算公式如下式(6)所示：

对由公式(6)得到的短时平均能量进行归一化操作和处理，然后取其对数量值，可以得到短时能量特征计算公式如下式(7)所示：

可以理解地，线性预测特征(LPC)用于表示声道的模型参数，从而充分反映发声对象的个性特征，其基本思想是用过去采样点的值来线性预测未来时刻采样点的值，然后进行预测值与真实值之间的误差计算得到线性预测系数，基于该系统反映特征。如图5所示，本发明实施例中，假设原始语音信号为s(n)，则其预测值的计算公式如下式(8)所示：

其中，假设{a_k}为p阶线性预测系数，p为用于预测的语音时刻数量，则预测误差e(n)的计算公式为：

对e(n)进行z变换，得到参数A(z)，计算公式如下：

根据p阶线性预测的定义，该语音帧的所有预测误差的平方和E为：

由LPC的定义可知，可以基于E取最小值时的条件求解预测系数{a_k}。

可以理解地，梅尔频率倒谱系数(MFCC)是将人耳的听觉感知特性和语音的产生机理相结合进行提取的声纹特征，由于人耳对声音的敏感程度并不是线性的，而是随频率的变化而变化(对低频比对高频敏感度提升)，因此梅尔倒谱系数特征能够充分反应人类听觉系统的感知特性。

图6示出了本发明实施获取MFCC特征的过程。一般来说，可以用一组三角形滤波器组成的梅尔频率滤波器组，对线性频谱进行滤波和过滤处理，得到Mel频谱，再对其对数能量进行求取，得到声音信号的对数能量S(m)。一组三角带通滤波器组合，即构成了Mel滤波器组，其中0≤m≤M，M为Mel滤波器组内三角形滤波器的总个数。这些滤波器中心频率为f(m)，每个滤波器的传递函数如下公式(12)所示：

求取对数频谱S(m)的公式如下所示：

将上述对数能量S(m)代入离散余弦变换(DCT)，即可求出L阶的Mel倒谱参数C(n)，计算离散余弦变换的公式如下式(14)所示：

其中L为MFCC系数阶数，M为Mel滤波器个数。具体地，本发明中取L为48。

可以理解地，标准MFCC参数反映的是语音各帧内部的静态特性，而差分MFCC(△MFCC)参数则可以反映音频的动态特性，差分特征引入在人声识别领域应用范围广泛且效果良好，因此现有技术中也常使用单△MFCC法进行声音特征的提取和识别。

以前述的MFCC提取为基础，在得到MFCC参数后，可以利用下式(15)提取MFCC的一阶差分参数△MFCC。

其中，Dt表示第t个△MFCC，T是倒谱系数的阶数，Θ为一阶导的时间差，取值为1或2，C_t表示第t个倒谱系数。

可以理解地，针对纯净信号的所有类型特征在提取后，会基于同一熊猫个体被作为联合特征，用于卷积神经网络模型的训练和识别过程，对于基于分类特征获取联合特征的方式，可以利用相关功能的函数定义实现，此处不再赘述。

可以理解地，由于熊猫的样本数据和音频数据是巨量的，本发明实施例采用卷积神经网络进行识别过程。一般来说，在输入未知参数进行识别之前，需要先基于已知数据对建立的神经网络模型进行训练，通过迭代过程获得稳定的神经网络模型。

进一步地，本发明实施例中的神经网络模型如图7所示，其结构由四组卷积池化单元、三层全连接层和一层归一化指数函数(softmax)分类层构成。

具体地，四组卷积池化单元的结构及卷积核设置如下：

第一组卷积池化单元：卷积层conv1_1，卷积核3×3×64，卷积层conv1_2，卷积核3×3×64，池化层pool1，滤波器大小2×2，步长为2，使用最大池化。

第二组卷积池化单元：卷积层conv2_1，卷积核3×3×128，卷积层conv2_2，卷积核3×3×128，卷积层conv2_3，卷积核3×3×128，池化层pool2，滤波器大小，2×2，步长为2，使用最大池化。

第三组卷积池化单元：卷积层conv3_1，卷积核3×3×256，卷积层conv3_2，卷积核3×3×256，卷积层conv3_3，卷积核3×3×256，池化层pool3，滤波器大小2×2，步长为2，使用最大池化。

第四组卷积池化单元：卷积层conv4_1，卷积核3×3×512，卷积层conv4_2，卷积核3×3×512，卷积层conv4_3，卷积核3×3×512，池化层pool4，滤波器大小2×2，步长为2，使用最大池化。

四组卷积池化单元后连接三层全连接层，最后连接softmax分类层。

可以理解地，本发明实施例中的每一卷积池针对一种类型的声纹特征建立，从而使神经网络模型可以对联合声纹特征进行处理。对于神经网络模型的训练过程采用批训练处理，分批次将已知大熊猫的联合声纹特征及对应的身份信息作为训练样本输入至卷积神经网络中，并采用随机梯度下降的反向传播方式对卷积神经网络的参数权重进行迭代优化，当迭代次数达到N次时停止迭代，得到训练完毕的神经网络模型；其中，N的取值范围为18000～20000。采用随机梯度下降的反向传播方式的优势在于优化神经网络的权重，能够使损失函数的值减小。

进一步地，通过训练好的神经网络模型基于声纹特征进行识别的过程主要基于计算待识别数据与训练样本数据之间的最大相似度；若最大相似度大于等于预设阈值C，则输出与待识别大熊猫个体具有最大相似度的训练样本作为大熊猫的个体识别结果；其中，阈值C的取值范围为0.5≤C＜1，而本发明实施例中根据softmax函数的特性，将阈值C设置为0.5。

为体现本发明中多声纹特征对个体识别准确率的提升，本发明设置了对比试验，对比基于多特征的个体识别方法和单一声纹特征在个体识别准确率方面的表现，试验数据为20只大熊猫个体的声音，每只熊猫个体包含6个1s的测试声音原始数据，将正确识别数量与总测试数量求比值，统计正确识别率。可见本发明实施例方法基于多种声纹特征同时提取，相较于只利用一种声纹特征进行识别的方案，在识别准确率上了较大幅度的提升。由图8所示的识别准确率对比表，可见经有效实验，单LPC提取特征法的识别准确率为70％，单MFCC提取特征法的识别准确率为75.5％，MFCC与△MFCC结合的方法也只能达到80.1％；而作为对比，本发明基于多声纹提取特征的方法可以使识别准确率达到89.2％，这在动物个体识别领域达到了较高水平。

可以理解地，本实施例方法不仅仅适用于大熊猫，还适用于其他具有叫声的动物个体识别，此处不再赘述。

实施例2

基于前述实施例1，参照图9所示，本发明实施例2提供了一种大熊猫个体识别设备的具体硬件结构，该个体识别设备9可以包括：存储器92和处理器93；各个组件通过通讯总线91耦合在一起。可理解，通讯总线91用于实现这些组件之间的连接通信。通讯总线91除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图9中将各种总线都标为通讯总线91。

存储器92，用于存储能够在处理器93上运行的定位方法程序；

处理器93，用于在运行定位方法程序时，执行以下步骤：

基于声音数据源，获取大熊猫的原始声音信号；

进一步地，声音数据源，具体包括：

采样量化的采样率为44.1KHz、量化位数为16-bit；

进一步地，双门限检测法，具体包括：

最后只提取语音段作为纯净信号输出。

进一步地，待识别大熊猫个体身份的识别过程，包括：

可以理解，本发明实施例中的存储器92可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的系统和方法的存储器92旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器93可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器93中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器93可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器92，处理器93读取存储器92中的信息，结合其硬件完成上述方法的步骤。

基于前述实施例，本发明实施例提供一种计算机可读介质，该计算机可读介质存储有大熊猫个体识别程序，大熊猫个体识别程序被至少一个处理器执行时实现上述任一实施例中定位方法的步骤。

可以理解地，以上实施例中的方法步骤，可以存储在计算机可读取存储介质中，基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本发明实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的模块(例如过程、函数等)来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体来说，用户终端中的处理器93还配置为运行计算机程序时，执行前述实施例中的方法步骤，这里不再进行赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是：本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上实施例，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大熊猫个体识别方法，其特征在于，包括以下步骤：

基于声音数据源，获取大熊猫的原始声音信号；

2.根据权利要求1所述的大熊猫个体识别方法，其特征在于，所述声音数据源，具体包括：

3.根据权利要求1所述的大熊猫个体识别方法，其特征在于，所述采样量化、预加重、分帧加窗和端点检测的处理过程，分别包括：

所述采样量化的采样率为44.1KHz、量化位数为16-bit；

所述预加重是采用一阶FIR高通数字滤波器进行预加重系数为0.95的高频增益处理；

所述分帧加窗是根据音频采样率设置帧长为440个数据点，设置帧移为150个数据点，设置汉明窗作为窗函数；

所述端点检测是采用双门限检测法基于帧数据的短时能量和过零率这两项指标进行检测，提取只保留声音数据的纯净信号。

4.根据权利要求3所述的大熊猫个体识别方法，其特征在于，所述双门限检测法，具体包括：

最后只提取语音段作为所述纯净信号输出。

5.根据权利要求1所述的大熊猫个体识别方法，其特征在于，所述卷积神经网络的组成结构和训练过程，具体包括：

所述卷积神经网络由四组卷积池化单元、三层全连接层和一层归一化指数函数分类层构成；

所述卷积神经网络的训练采用批训练处理，分批次将已知大熊猫声纹特征及其身份信息作为训练样本输入至所述卷积神经网络中，并采用随机梯度下降的反向传播方式对所述卷积神经网络的参数权重进行迭代优化，当迭代次数达到N次时停止迭代，得到训练完毕的神经网络模型；其中，N的取值范围为18000～20000。

6.根据权利要求5所述的大熊猫个体识别方法，其特征在于，所述待识别大熊猫个体身份的识别过程，包括：

将待识别大熊猫个体的声纹特征输入所述卷积神经网络，计算待识别大熊猫数据与训练样本数据之间的最大相似度；

若所述最大相似度大于等于预设阈值C，则输出与待识别大熊猫个体具有最大相似度的训练样本作为大熊猫的个体识别结果；其中，阈值C的取值范围为0.5≤C＜1。

7.一种大熊猫个体识别设备，其特征在于，包括：

处理器、存储器和通信总线；

其中，所述通信总线，用于实现所述处理器和所述存储器之间的通信连接；

所述存储器，用于存储能够在所述处理器上运行的大熊猫个体识别程序；

所述处理器，用于：

基于声音数据源，获取大熊猫的原始声音信号；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至6中任一项所述大熊猫个体识别方法的步骤。