CN109409308A - 一种基于鸟类鸣声的鸟类物种识别的方法 - Google Patents

一种基于鸟类鸣声的鸟类物种识别的方法 Download PDF

Info

Publication number
CN109409308A
CN109409308A CN201811307322.5A CN201811307322A CN109409308A CN 109409308 A CN109409308 A CN 109409308A CN 201811307322 A CN201811307322 A CN 201811307322A CN 109409308 A CN109409308 A CN 109409308A
Authority
CN
China
Prior art keywords
signal
birdvocalization
erb
frequency
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811307322.5A
Other languages
English (en)
Inventor
张纯
许枫
张巧花
王静宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS filed Critical Institute of Acoustics CAS
Priority to CN201811307322.5A priority Critical patent/CN109409308A/zh
Publication of CN109409308A publication Critical patent/CN109409308A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Abstract

本发明公开了一种基于鸟类鸣声的鸟类物种识别的方法,包括:步骤1)将训练集中的带噪声的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;步骤2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;步骤3)将所述听觉域信号变换到临界带域,获得时间‑‑临界带的响度谱;步骤4)提取响度谱的线性预测倒谱系数作为特征识别量,输入隐马尔科夫—深度神经网络分类器进行训练,得到训练好的鸟类鸣声分类器;步骤5)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的识别。本发明模拟人耳对声音处理过程,解决了复杂背景噪声环境下的鸟类鸣声自动识别的技术瓶颈。

Description

一种基于鸟类鸣声的鸟类物种识别的方法
技术领域
本发明涉及鸟类学和鸟类鸣声远程自动监测信息技术领域;具体而言,特别涉及一种基于鸟类鸣声的鸟类物种识别的方法。
技术背景
海岛是鸟类重要的栖息地,也是鸟类生态环境保护和利用的重要场所。美国、英国等发达国家己经建立了国家尺度的鸟类监测网络,并取得了很好的效果。我国也开展了大量的鸟类调查与监测工作,主要集中于对一个地区的陆地鸟类种类、数量和分布的研究。为推动我国鸟类监测工作,2011年,环保部南京环境科学研究所组织开展了生物多样性(鸟类)示范监测,通过开展试点研究,探索构建我国生物多样性监测网络。海岛及滨海湿地鸟类的研究在我国基础相对薄弱,目前仅对中华凤头燕鸥、红脚鲣鸟、黄嘴白鹭等海岛鸟类开展过有限的研究。湿地鸟类监测工作主要包括在长江中下游湿地和东部沿海湿地开展的越冬水鸟调查、环鄱阳湖越冬水鸟同步调查以及自2005年开展全国沿海水鸟调查。仅鄱阳湖保护区总面积达22400 公顷,年生态经济价值大于1500亿元,因此实现对重要生态区生态信息的大尺度、高精度、快速准确获取意义十分重大。
传统的鸟类监测方法主要以人力为基础,劳动强度大,观察范围小,受天气影响大,且无法实时记录和分析飞鸟活动情况,另外在野外调查和数据分析上需要花费大量时间和人力物力,成本较高但效率较低。对海岛/湿地而言,还存在地理环境特殊、交通不便、气候恶劣多变等问题,导致传统鸟类调查方法难以适用于海岛鸟类的监测。远程自动监测技术的应用不仅能够减小野外实地调查的人力劳动,获取野外连续的观测数据,还可以作为其他数据的补充,而且能够降低成本,提高监测的精度和准确性。但是由于远程自动监测系统远离人的观测范围,且在野外复杂环境,其鸣声信噪比一般较低,给鸟类鸣声的识别带来了较大困难。因此,鸟类物种自动分类和识别是鸟类远程监测系统急需解决的问题。
发明内容
本发明的目的在于解决在海岛/湿地等野外复杂环境下无人值守监测等远程监测过程中的鸟类物种识别和分类困难的问题。
为实现上述目的,本发明提出一种基于鸟类鸣声的鸟类物种识别的方法,包括:
步骤1)将训练集中的带噪声的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;
步骤2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;
步骤3)将所述听觉域信号变换到临界带域,获得时间--临界带的响度谱;
步骤4)提取响度谱的线性预测倒谱系数作为特征识别量,输入隐马尔科夫—深度神经网络分类器进行训练,得到训练好的鸟类鸣声分类器;
步骤5)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的识别。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)将训练集中带噪声的鸟类鸣声信号进行加窗和分帧,对每帧测试信号采用离散傅里叶变换,将鸟类鸣声分解为周期性的短时功率谱信号Sp(k,l)和非周期的短时功率谱信号Sa(k,l),得到第l帧测试信号短时功率谱S(k,l)为:
S(k,l)=Sp(k,l)+Sa(k,l) (1)
其中k为第l帧测试信号的频率点,k和l均为自然数;
步骤1-2)计算每帧测试信号的功率P(l):
其中,K为一帧中的频率总数,K为自然数。
步骤1-3)分别提取每一帧测试信号的基频,经过中值滤波获得第l帧测试信号的最优的基频f0(l);
步骤1-4)将第l帧测试信号的功率P(l)分解为周期性的功率Pp(l)和非周期性功率Pa(l)两部分,得到:
其中有v(l)为第l帧测试信号的谐波个数,mf0(l)为第l帧信号的第m个谐波信号,η为计算系数,取值0~1之间;
步骤1-5)计算周期Pp(l)和非周期Pa(l)的似然函数Γ(l)和似然比u(l)为:
Hl为第l帧测试信号的活动鸣声是否存在的状态函数,Hl=1表示鸣声存在, Hl=0表示鸣声不存在,当α=β=1时,得到似然比u(l);
步骤1-6)设定一个阈值,当所述似然比u(l)大于该阈值,则Sp(k,l)为活动信号,否则不存在活动信号。
作为上述方法的一种改进,所述步骤2)将活动信号输入外耳和中耳滤波器模型,具体包括将活动信号Sp(k,l)输入外耳和中耳滤波器,以采用二次多项式插值的方法获得的每个频率点的频率函数作为外耳和中耳滤波器的传递函数,得到适合于听觉感知的鸟鸣声听觉域信号。
作为上述方法的一种改进,所述步骤3)具体包括:
步骤3-1)将适合于听觉感知的听觉域信号进行分帧,每一帧至少包含鸟鸣声的一个音节长度,两帧之间有50%的长度重叠,对每一帧听觉域信号取汉明窗作为窗函数,得到加窗后鸟鸣声信号Sw(n),n为数字信号的按时间顺序采样的序列号,n 为自然数;
步骤3-2)对Sw(n)进行短时功率谱估计变换,获得短时功率谱P(f):
P(f)=abs{FFT(sw(n))} (7)
FFT是快速傅里叶变换算子,abs为绝对值算子,f为输入信号的频率,单位为Hz;
步骤3-3)将P(f)从频域变换到ERB临界带域,得到ERB和ERBrate
ERB=24.7(4.37f+1) (8)
ERBrate=21.4×log10(4.37f+1) (9)
其中,ERB为临界频带,ERBrate为间隔滤波器带宽,在实际听觉响度模型计算 ERB时,f常取1/3倍频程的频率点;
步骤3-4)在ERB临界带听觉域内,将所述适合于听觉感知的听觉域信号输入x 个滤波器组进行滤波处理,所述滤波器组以0.1ERBrate为间隔,以ERB为等矩形带宽,将20~20000Hz的信号频率分为x段。
作为上述方法的一种改进,所述步骤3-4)具体包括:
步骤3-4-1)确定每个0.1ERBrate间隔滤波器组形状,gi和p为滤波器系数:
(a)如果i<F
(b)如果i>F
F为每个ERB的中心频率,i为频率值,FERB_Level为i频率对应于处的ERB级;
步骤3-4-2)在ERB听觉域内,计算ERB听觉域带宽内i频率的加权值W(gi):
步骤3-4-3)根据W(gi)计算每帧信号每个ERB临界带宽内相应频率处的ERB级FERB_Level
其中,FERB_Level为某频率成分对应的ERB级,Pi 2为ERB带宽内i频率处的有效声功率,P0 2为参考声压,为2×10-5Pa;
步骤3-4-4)计算每个滤波器的有效激励输出Ej
其中,Ej为第j个滤波器的有效激励输出,W(gji)为第j个滤波器在i频率处的响应值,E0为强度为0dB的纯音频率为1kHz听觉滤波器的激励输出;
步骤3-4-5)计算每帧信号的特征响度谱SL(h):
其中,SL(h)为第h帧信号的特征响度谱,h取值为自然数,C=0.047为常数, ETHRQ为强度达到绝对听阈纯音产生的激励,A为与频率有关的常量,G为耳蜗滤波器增益,α为激励转换为响度的指数关系。
作为上述方法的一种改进,所述步骤4)具体包括:
步骤4-1)计算每帧信号特征响度谱的q阶线性预测系数ai,当前时刻音频信号可以用前q个信号预测,设信号为每帧信号的特征响度当前取值用s(h)表示,则有
ai-为预测系数,用Levinson-Durbin递归算法求解。
步骤4-2)将ai变换成其倒谱系数ch
q表示阶数,取值为自然数;
步骤4-3)将ch作为输入识别特征量输入隐马尔科夫—深度神经网络分类器的分类器,根据训练集的数据标签进行迭代反馈,由此得到训练好的鸟类鸣声分类器。
作为上述方法的一种改进,所述步骤5)具体包括:
步骤5-1)将待识别的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;
步骤5-2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;将所述听觉域信号变换到ERB尺度的临界带域,获得时间--临界带尺度的响度谱;
步骤5-3)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的准确识别。
本发明的优势在于:
1、本发明基于鸟类鸣声的鸟类物种识别的方法,模拟人耳对声音处理过程,能够在海岛/湿地等复杂背景下,对鸟类鸣声监测系统采集的带噪声的鸟类鸣声进行分析和处理,转换到听觉域;
2、本发明基于鸟类鸣声的鸟类物种识别的方法,在听觉域进行识别特征量提取,听觉特征量具有更好的可识别性;
3、本发明基于鸟类鸣声的鸟类物种识别的方法,能够区分鸟类鸣声的细微差异;
4、本发明基于鸟类鸣声的鸟类物种识别的方法,为鸟类鸣声的准确识别提供了有效的方法,具备很好的抗噪声能力,突破了复杂背景噪声环境下的鸟类鸣声自动识别的技术瓶颈;
5、本发明基于鸟类鸣声的鸟类物种识别的方法,可以用于海岛、湿地等特殊环境下鸟类及其生态环境的监测,有效的提升了监测和识别的准确性和自动化程度;
6、本发明基于鸟类鸣声的鸟类物种识别的方法,能够实现对鸟类物种的多样性进行评估,适合大范围无人值守的鸟类生态监测。
附图说明
图1为本发明基于鸟类鸣声识别的鸟类物种识别的方法的听觉感知线性预测系数特征提取过程;
图2(a)为本发明方法的外耳插值后的传递函数;
图2(b)为本发明方法的中耳插值后的传递函数;
图3(a)为本发明方法的鸟类鸣声时域信号;
图3(b)为本发明方法的时间—临界带(Time--ERB)域听觉响度谱;
图4为本发明方法的鸟类鸣声识别框图。
具体实施方式
人耳对声音鉴别的能力十分灵敏,而且具有很强的声音分辨能力和抗噪声能力,能够区分声音的细微差异,因此利用人耳的听觉特性对鸟类鸣声进行识别,准确率很高。
本发明模拟人耳对声音的处理过程,将声音在客观上的强度表示量转换成人耳在听觉上的主观感知量,在听觉感知域对鸟类鸣声信号进行处理,可以区分鸟类鸣声的细微差异,同时该方法具备很好的抗噪声能力,有效解决了在海岛/湿地等无人值守环境下,鸟类鸣声识别和监测困难的问题。
本发明提出一种基于鸟类鸣声识别的鸟类物种识别方法,所述方法模拟人耳对声音信号的处理过程,将采集到的带噪声的鸟类鸣声信号首先进行活动信号检测,所述活动信号检测即检测信号中是否含有鸟类鸣声的信号,然后将检测到的活动信号分帧和加窗处理,进行短时频谱估计变换,将活动信号从频域变换到ERB尺度的临界带域,获得时间--临界带(Time-ERB)尺度的响度谱,得到听觉感知域的鸣声,更好的反映鸟类鸣声信号在听觉域的感知特征,从而提取响度谱的线性倒谱预测系数作为特征识别量,实现鸟类鸣声的准确识别。
如图1所示,所述一种基于鸟类鸣声识别的鸟类物种识别方法的步骤如下:
步骤1)利用鸟类鸣声的周期性,将野外监测装置采集到带噪声鸟鸣声分解成周期和非周期信号,根据活动检测算法,检测并筛选出鸟鸣声活动信号,同时建立鸟类鸣声的训练集;
对训练集的鸟类鸣声活动信号进行分帧和加窗处理,采用短时功率谱变换将活动信号变换到时域和频域,并将频域信号进行频带划分;
步骤2)将不同频带的活动信号输入外耳和中耳滤波器模型,输出增强的听觉域信号,使活动信号更适合于听觉感知。
外、中耳的滤波器系数采用2007年的美国国家标准《稳态声响度的计算过程》的测量数据。
步骤3)根据人耳的耳蜗听觉感知特征,将听觉域信号从频率域变换到临界带(ERB)域,并将所述听觉域信号的物理强度变换到临界带域的响度,获得短时的时间—临界带域的听觉响度谱,所述听觉响度谱反映听觉域信号的人耳听觉域的特征;
步骤4)在时间—临界带域听觉响度谱上提取响度谱的线性预测倒谱系数作为特征识别量,所述特征量反映声音信号在听觉感知域的细微差异,输入隐马尔科夫—深度神经网络分类器进行训练,得到训练好的鸟类鸣声分类器;
步骤5)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现利用鸟鸣声对鸟类物种进行自动分类和识别。
上述方法中,由于其应用场合主要是海岛/湿地等复杂环境,鸟类鸣声中常常带有多种噪声信号,步骤1)要从带噪声的采集的声信号中检测出鸟类鸣声的活动信号、静音信号及噪声信号。
采用音频信号周期分解的语音信号活动检测算法,主要解决传统方法中的对信噪比敏感的问题,因为鸟鸣声信号具有明显的周期性,是区别一般噪声的稳定特征,而该特征受背景噪声类型和信噪比的影响较小,不随背景噪声而变化,同时不需要噪声的先验知识,利用鸟鸣声信号的周期性特征能够较准确的检测出鸟类鸣声和非鸟类鸣声信号。其具体步骤如下:
步骤1-1)对训练集的带噪声鸟类鸣声信号进行加窗和分帧,对每帧信号进行离散傅里叶变换,进行鸟类鸣声信号的周期分解,并获得周期功率谱估计Sp(k,l)和非周期的功率谱估计Sa(k,l),其中k为第l帧的频率点,第l帧测试信号短时功率谱 S(k,l)为:
S(k,l)=Sp(k,l)+Sa(k,l) (1)
其中,K为一帧中的频率总数,K为自然数。
步骤1-2)计算每帧信号的功率P(l):
其中,K为一帧中的频率总数,K为自然数。
步骤1-3)采用自相关函数法,循环均值幅度差分函数法和YIN方法分别提取每帧的基频,然后用中值滤波方法,获得每帧信号的最优的基频f0(l),可以有效的降低基频计算的误差。
步骤1-4)鸟鸣信号的功率分解为周期Pp(l)和非周期Pa(l)两部分,可以表示为:
P(l)=Pp(l)+Pa(l) (3)
设第l帧信号的基频为f0(l),第l帧信号有v(l)个谐波信号,第m个谐波信号为[mf0(l)],则:
其中,η为计算系数,取值0~1之间。
步骤1-5)分别对信号的傅里叶变换计算其活动信号和非活动信号的似然比,设Hl为第l帧测试信号的活动鸣声是否存在的状态函数,Hl=1表示鸣声存在,Hl=0 则鸣声不存在。似然函数为:
以α=β=1为例,计算得到u(l)。
步骤1-6)设定一个阈值,通过似然比u(l)是否大于该阈值来判断鸣声是否存在,所述似然比u(l)大于阈值为活动信号,否则为非活动信号。
上述方法中,需要对存在的鸟鸣声信号进行进一步处理,以便后续完成鸣声的识别工作。
所述步骤2)存在的鸟鸣声信号的短时功率谱信号经过外耳和中耳滤波器进行处理,以实现对鸟鸣声的听觉域信号的增强处理,使处理后的信号更适合于听觉感知。
如图2(a)和图2(b)所示,外、中耳滤波器系数采用2007年美国国家标准《稳态声响度的计算过程》的测量数据,采用二次多项式插值的方法获得外耳和中耳滤波器在每个频率点的传递函数,对每帧信号输入外耳和中耳器进行滤波处理。
如图3(a)和图3(b)所示,所述步骤3)根据人耳听觉感知特征,将鸟类鸣声时域信号变换到听觉临界带域,获得时间—临界带域的响度谱,其具体计算步骤如下:
步骤3-1)将适合于听觉感知听觉域信号进行分帧,每帧的长度可选择10~40ms,本例取20ms,取汉明窗作为窗函数,两帧之间有50%的长度重叠,至少包含鸟鸣声的一个音节长度,并对每一帧信号加适当的窗函数进行处理,得到加窗后鸟鸣声数字化信号Sw(n),n为数字信号的按时间顺序采样的序列号,取值为自然数;
步骤3-2)对Sw(n)进行短时功率谱估计变换,获得其短时功率谱P(f);
P(f)=abs{FFT(sw(n))} (7)
FFT为快速傅里叶变换算子,abs为绝对值算子,f为输入信号的频率,单位为Hz;
步骤3-3)根据人耳的听觉特征,将信号从频域变换到ERB表示临界带域,ERB 带宽与声频率的关系为:
ERB=24.7(4.37f+1) (8)
ERB为等矩形带宽(临界频带),在实际听觉响度模型计算ERB时,f常取1/3 倍频程的频率点;
步骤3-4)将鸟类鸣声在ERB听觉域内,ERBrate为间隔滤波器带宽,以0.1ERBrate为间隔,以ERB为带宽,将20~20000Hz的信号用若干个滤波器组对鸣声信号进行滤波处理,本实施例采用372个滤波器组,计算ERBrate
ERBrate=21.4×log10(4.37f+1) (9)
计算每个临界域的特征响度,得到时间—临界带域(Time--ERB)听觉响度谱。上述方法中,所述步骤3-4)将鸟鸣声信号从客观强度表示变换到主观感知的响度表示,通过计算每帧鸟鸣声信号的时间—临界带听觉响度谱实现,其计算步骤如下:
步骤3-4-1)确定每个0.1ERBrate间隔滤波器组形状,gi和p为滤波器系数:
(a)如果i<F
(b)如果i>F
F为每个ERB的中心频率,i为频率值,FERB_Level为i频率对应于处的ERB级;
步骤3-4-2)在ERB听觉域内,计算ERB听觉域带宽内i频率的加权值W(gi):
步骤3-4-3)根据W(gi)计算每帧信号每个ERB临界带宽内相应频率处的ERB级FERB_Level
其中,FERB_Level为某频率成分对应的ERB级,Pi 2为ERB带宽内i频率处的有效声功率,P0 2为参考声压,为2×10-5Pa;
步骤3-4-4)计算每个滤波器的有效激励输出Ej
其中,Ej为第j个滤波器的有效激励输出,W(gji)为第j个滤波器在i频率处的响应值,E0为强度为0dB的纯音频率为1kHz听觉滤波器的激励输出;
步骤3-4-5)计算每帧信号的特征响度谱SL(h):
其中,h为第h帧,h取值为自然数,C=0.047为常数,ETHRQ为强度达到绝对听阈纯音产生的激励,A为与频率有关的常量,G为耳蜗滤波器增益,α为激励转换为响度的指数关系。其取值参考2007年美国国家标准《稳态声响度的计算过程》。
从而将声信号的客观表示转换成感知信号的主观表示。
根据上述步骤3)的各计算步骤和方法,采用Visual C++2015为开发工具, window10为开发平台,完成上述步骤,以布谷鸟的一段鸣声信号为例,获得其在 Time-ERB尺度上的听觉感知响度谱。
上述方法中,所述步骤4)听觉感知域的时间—临界带域响度谱线性预测倒谱系数特征量提取过程,其步骤如下:
步骤4-1)根据任何时间序列可以用其过去时间序列的线性组合表示,q阶线性组合的系数ai可以作为该时间序列的重要特征,采用常规的Levinson-Durbin递归算法获得;
计算每帧信号特征响度谱的q阶线性预测系数ai,当前时刻音频信号用前q个信号预测,q一般取12,设信号为每帧信号的特征响度当前取值用s(h)表示,则有
s(h)表示第h帧信号的特征响度,ai-为预测系数,用Levinson-Durbin递归算法求解。
步骤4-2)将ai变换成其倒谱系数ch
q表示阶数,取值为自然数;
步骤4-3)将ch作为输入识别特征量输入隐马尔科夫—深度神经网络分类器的分类器,根据训练集的数据标签进行迭代反馈,由此得到训练好的鸟类鸣声分类器。
提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现利用鸟鸣声对鸟类物种进行自动分类和识别。
所述步骤5)具体包括:
步骤5-1)将待识别的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;
步骤5-2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;将所述听觉域信号变换到ERB尺度的临界带域,获得时间--临界带尺度的响度谱;
步骤5-3)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的准确识别。
如图4所示,在训练和识别过程中用隐马尔科夫(HMM)—深度神经网络(DNN) 分类器对提取的感知域响度谱的线性预测倒谱系数(PLPCC)进行建模分类,实现利用鸟鸣声对鸟类物种进行自动分类和识别,并将分类后特征鸟鸣声写入鸟类鸣声特征数据库。
本发明模拟人耳对声音处理过程,通过鸟类鸣声的辨识来获得鸟类物种的信息,在海岛/湿地等复杂背景下,对鸟类鸣声监测系统采集的带噪声的鸟类鸣声进行分析和处理,转换到听觉域,用响度谱表示,在听觉域进行识别特征量提取,听觉特征量具有更好的可识别性,同时具有良好的抗噪声性能,为鸟类鸣声的准确识别提供有效的方法,突破复杂背景噪声环境下的鸟类鸣声自动识别的技术瓶颈,可以用于海岛、湿地等特殊环境下鸟类及其生态环境的长期监测,有效的提升了监测和识别的准确性和自动化程度,能够实现对鸟类物种的多样性进行评估,对鸟类活动、种类及分布进行监测,适合无人值守的大范围的鸟类生态监测。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于鸟类鸣声的鸟类物种识别的方法,包括:
步骤1)将训练集中的带噪声的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;
步骤2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;
步骤3)将所述听觉域信号变换到临界带域,获得时间--临界带的响度谱;
步骤4)提取响度谱的线性预测倒谱系数作为特征识别量,输入隐马尔科夫—深度神经网络分类器进行训练,得到训练好的鸟类鸣声分类器;
步骤5)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的识别。
2.根据权利要求1所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤1)具体包括:
步骤1-1)将训练集中带噪声的鸟类鸣声信号进行加窗和分帧,对每帧测试信号采用离散傅里叶变换,将鸟类鸣声分解为周期性的短时功率谱信号Sp(k,l)和非周期的短时功率谱信号Sa(k,l),得到第l帧测试信号短时功率谱S(k,l)为:
S(k,l)=Sp(k,l)+Sa(k,l) (1)
其中k为第l帧测试信号的频率点,k和l均为自然数;
步骤1-2)计算每帧测试信号的功率P(l):
其中,K为一帧中的频率总数,K为自然数;
步骤1-3)分别提取每一帧测试信号的基频,经过中值滤波获得第l帧测试信号的最优的基频f0(l);
步骤1-4)将第l帧测试信号的功率P(l)分解为周期性的功率Pp(l)和非周期性功率Pa(l)两部分,得到:
其中有v(l)为第l帧测试信号的谐波个数,mf0(l)为第l帧信号的第m个谐波信号,η为计算系数,取值0~1之间;
步骤1-5)计算周期Pp(l)和非周期Pa(l)的似然函数Γ(l)和似然比u(l)为:
Hl为第l帧测试信号的活动鸣声是否存在的状态函数,Hl=1表示鸣声存在,Hl=0表示鸣声不存在,当α=β=1时,得到似然比u(l);
步骤1-6)设定一个阈值,当所述似然比u(l)大于该阈值,则Sp(kl,)为活动信号,否则不存在活动信号。
3.根据权利要求2所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤2)将活动信号输入外耳和中耳滤波器模型,具体包括将活动信号Sp(k,l)输入外耳和中耳滤波器,以采用二次多项式插值的方法获得的每个频率点的频率函数作为外耳和中耳滤波器的传递函数,得到适合于听觉感知的鸟鸣声听觉域信号。
4.根据权利要求3所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤3)具体包括:
步骤3-1)将适合于听觉感知的听觉域信号进行分帧,每一帧至少包含鸟鸣声的一个音节长度,两帧之间有50%的长度重叠,对每一帧听觉域信号取汉明窗作为窗函数,得到加窗后鸟鸣声信号Sw(n),n为数字信号的按时间顺序采样的序列号,n为自然数;
步骤3-2)对Sw(n)进行短时功率谱估计变换,获得短时功率谱P(f):
P(f)=abs{FFT(sw(n))} (7)
FFT是快速傅里叶变换算子,abs为绝对值算子,f为输入信号的频率,单位为Hz;
步骤3-3)将P(f)从频域变换到ERB临界带域,得到ERB和ERBrate
ERB=24.7(4.37f+1) (8)
ERBrate=21.4×log10(4.37f+1) (9)
其中,ERB为临界频带,ERBrate为间隔滤波器带宽,在实际听觉响度模型计算ERB时,f常取1/3倍频程的频率点;
步骤3-4)在ERB临界带听觉域内,将所述适合于听觉感知的听觉域信号输入x个滤波器组进行滤波处理,所述滤波器组以0.1ERBrate为间隔,以ERB为等矩形带宽,将20~20000Hz的信号频率分为x段。
5.根据权利要求4所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤3-4)具体包括:
步骤3-4-1)确定每个0.1ERBrate间隔滤波器组形状,gi和p为滤波器系数:
(a)如果i<F
(b)如果i>F
F为每个ERB的中心频率,i为频率值,FERB_Level为i频率对应于处的ERB级;
步骤3-4-2)在ERB听觉域内,计算ERB听觉域带宽内i频率的加权值W(gi):
步骤3-4-3)根据W(gi)计算每帧信号每个ERB临界带宽内相应频率处的ERB级FERB_Level
其中,FERB_Level为某频率成分对应的ERB级,Pi 2为ERB带宽内i频率处的有效声功率,为参考声压,为2×10-5Pa;
步骤3-4-4)计算每个滤波器的有效激励输出Ej
其中,Ej为第j个滤波器的有效激励输出,W(gji)为第j个滤波器在i频率处的响应值,E0为强度为0dB的纯音频率为1kHz听觉滤波器的激励输出;
步骤3-4-5)计算每帧信号的特征响度谱SL(h):
其中,SL(h)为第h帧信号的特征响度谱,h取值为自然数,C=0.047为常数,ETHRQ为强度达到绝对听阈纯音产生的激励,A为与频率有关的常量,G为耳蜗滤波器增益,α为激励转换为响度的指数关系。
6.根据权利要求5所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤4)具体包括:
步骤4-1)计算每帧信号特征响度谱的q阶线性预测系数ai,当前时刻音频信号可以用前q个信号预测,设信号为每帧信号的特征响度当前取值用s(h)表示,则有
ai-为预测系数,用Levinson-Durbin递归算法求解;
步骤4-2)将ai变换成其倒谱系数ch
q表示阶数,取值为自然数;
步骤4-3)将ch作为输入识别特征量输入隐马尔科夫—深度神经网络分类器的分类器,根据训练集的数据标签进行迭代反馈,由此得到训练好的鸟类鸣声分类器。
7.根据权利要求1-6之一所述的基于鸟类鸣声的鸟类物种识别的方法,其特征在于,所述步骤5)具体包括:
步骤5-1)将待识别的鸟类鸣声信号进行短时功率谱变换,检测并筛选出活动信号;
步骤5-2)将活动信号输入外耳和中耳滤波器模型,得到增强的听觉域信号;将所述听觉域信号变换到ERB尺度的临界带域,获得时间--临界带尺度的响度谱;
步骤5-3)提取待识别的鸟类鸣声的响度谱的线性预测倒谱系数作为特征识别量,输入训练好的鸟类鸣声分类器,实现鸟类鸣声的准确识别。
CN201811307322.5A 2018-11-05 2018-11-05 一种基于鸟类鸣声的鸟类物种识别的方法 Pending CN109409308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811307322.5A CN109409308A (zh) 2018-11-05 2018-11-05 一种基于鸟类鸣声的鸟类物种识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811307322.5A CN109409308A (zh) 2018-11-05 2018-11-05 一种基于鸟类鸣声的鸟类物种识别的方法

Publications (1)

Publication Number Publication Date
CN109409308A true CN109409308A (zh) 2019-03-01

Family

ID=65471558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811307322.5A Pending CN109409308A (zh) 2018-11-05 2018-11-05 一种基于鸟类鸣声的鸟类物种识别的方法

Country Status (1)

Country Link
CN (1) CN109409308A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716179A (zh) * 2019-09-29 2020-01-21 浙江海洋大学 一种基于鸣声的鸟类定位系统及方法
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112735442A (zh) * 2020-12-25 2021-04-30 刘添忻 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN112908343A (zh) * 2019-11-19 2021-06-04 中国科学院声学研究所 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统
CN113129907A (zh) * 2021-03-23 2021-07-16 中国科学院声学研究所 一种野外鸟类鸣声自动检测装置及方法
CN113707159A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN114974268A (zh) * 2022-06-08 2022-08-30 江苏麦克马尼生态科技有限公司 一种基于物联网的鸟类鸣声识别监测系统及方法
CN117727330A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于音频分解的生物多样性预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101644768A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种基于倒谱分析的水雷目标识别方法
CN103323532A (zh) * 2012-03-21 2013-09-25 中国科学院声学研究所 一种基于心理声学参量的鱼类识别方法及系统
CN106205606A (zh) * 2016-08-15 2016-12-07 南京邮电大学 一种基于语音识别的动态定位监控方法及系统
CN106228976A (zh) * 2016-07-22 2016-12-14 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101644768A (zh) * 2008-12-30 2010-02-10 中国科学院声学研究所 一种基于倒谱分析的水雷目标识别方法
CN103323532A (zh) * 2012-03-21 2013-09-25 中国科学院声学研究所 一种基于心理声学参量的鱼类识别方法及系统
CN106228976A (zh) * 2016-07-22 2016-12-14 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106205606A (zh) * 2016-08-15 2016-12-07 南京邮电大学 一种基于语音识别的动态定位监控方法及系统
CN107393542A (zh) * 2017-06-28 2017-11-24 北京林业大学 一种基于双通道神经网络的鸟类物种识别方法
CN108630209A (zh) * 2018-04-24 2018-10-09 中国科学院深海科学与工程研究所 一种基于特征融合与深度置信网络的海洋生物识别方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
JUAN JOSE BURRED等: "On the Use of Auditory Representations for Sparsity-Based Sound Source Separation", 《ICICS 2005》 *
RAED S.H. AL-MOUSSAWY: "低码率音频编码研究", 《中国博士学位论文全文数据库 (信息科技辑)》 *
任芳: "鸟类鸣声特征提取及音素分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
刘海波等: "用于周期分解语音活动检测的基频提取方法研究", 《中国科学技术大学学报》 *
张伟豪等: "基于ERB尺度的心理声学模型及其数值计算", 《声学技术》 *
张文娟: "基于听觉仿生的目标声音识别系统研究", 《中国博士学位论文全文数据库信息科技辑》 *
曾向阳: "《智能水中目标识别》", 31 March 2016 *
李德毅等: "《中国科协新一代信息技术系列丛书 人工智能导论》", 31 August 2018 *
李燕萍等: "基于 PLAR 特征补偿的鲁棒性说话人识别仿真研究", 《系统仿真学报》 *
马元锋等: "Moore响度模型的数值计算方法", 《声学技术》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716179A (zh) * 2019-09-29 2020-01-21 浙江海洋大学 一种基于鸣声的鸟类定位系统及方法
CN112908343B (zh) * 2019-11-19 2022-10-04 中国科学院声学研究所 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统
CN112908343A (zh) * 2019-11-19 2021-06-04 中国科学院声学研究所 一种基于倒谱语谱图的鸟类物种数量的获取方法及系统
CN111626093A (zh) * 2020-03-27 2020-09-04 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112735442A (zh) * 2020-12-25 2021-04-30 刘添忻 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN112735442B (zh) * 2020-12-25 2024-01-30 刘添忻 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
CN113129907B (zh) * 2021-03-23 2022-08-23 中国科学院声学研究所 一种野外鸟类鸣声自动检测装置及方法
CN113129907A (zh) * 2021-03-23 2021-07-16 中国科学院声学研究所 一种野外鸟类鸣声自动检测装置及方法
CN113707159A (zh) * 2021-08-02 2021-11-26 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN114974268A (zh) * 2022-06-08 2022-08-30 江苏麦克马尼生态科技有限公司 一种基于物联网的鸟类鸣声识别监测系统及方法
CN114974268B (zh) * 2022-06-08 2023-09-05 江苏麦克马尼生态科技有限公司 一种基于物联网的鸟类鸣声识别监测系统及方法
CN117727330A (zh) * 2024-02-18 2024-03-19 百鸟数据科技(北京)有限责任公司 基于音频分解的生物多样性预测方法
CN117727330B (zh) * 2024-02-18 2024-04-16 百鸟数据科技(北京)有限责任公司 基于音频分解的生物多样性预测方法

Similar Documents

Publication Publication Date Title
CN109409308A (zh) 一种基于鸟类鸣声的鸟类物种识别的方法
Jiang et al. Whistle detection and classification for whales based on convolutional neural networks
CN104167207B (zh) 一种基于变电站巡检机器人的设备声音识别方法
CN102324229B (zh) 语音输入设备使用异常的检测方法及系统
CN103117061B (zh) 一种基于语音的动物识别方法及装置
CN106816158B (zh) 一种语音质量评估方法、装置及设备
CN108630209B (zh) 一种基于特征融合与深度置信网络的海洋生物识别方法
CN101452698B (zh) 一种自动嗓音谐噪比分析方法
CN102881289B (zh) 一种基于听觉感知特性的语音质量客观评价方法
CN106941005A (zh) 一种基于语音声学特征的声带异常检测方法
CN109034046A (zh) 一种基于声学检测的电能表内异物自动识别方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN105825852A (zh) 一种英语口语朗读考试评分方法
Gopalan et al. A comparison of speaker identification results using features based on cepstrum and Fourier-Bessel expansion
CN104089699B (zh) 一种变电站设备声音重建算法
CN105448291A (zh) 基于语音的帕金森症检测方法及检测系统
CN113298134B (zh) 一种基于bpnn的风机叶片远程非接触健康监测系统和方法
Padhy et al. Emergency signal classification for the hearing impaired using multi-channel convolutional neural network architecture
CN106205635A (zh) 语音处理方法及系统
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN113466616A (zh) 一种电缆故障点快速定位方法以及装置
Mercado et al. Classification of humpback whale vocalizations using a self-organizing neural network
Dong Characterizing resonant component in speech: A different view of tracking fundamental frequency
Towsey et al. Technical Report: Acoustic analysis of the natural environment
CN104102834A (zh) 录音地点的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190301