CN107393542B - 一种基于双通道神经网络的鸟类物种识别方法 - Google Patents

一种基于双通道神经网络的鸟类物种识别方法 Download PDF

Info

Publication number
CN107393542B
CN107393542B CN201710509545.9A CN201710509545A CN107393542B CN 107393542 B CN107393542 B CN 107393542B CN 201710509545 A CN201710509545 A CN 201710509545A CN 107393542 B CN107393542 B CN 107393542B
Authority
CN
China
Prior art keywords
bird
signal
layer
pooling
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710509545.9A
Other languages
English (en)
Other versions
CN107393542A (zh
Inventor
谢将剑
李文彬
丁长青
刘文定
冯郁茜
张博闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Forestry University
Original Assignee
Beijing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Forestry University filed Critical Beijing Forestry University
Priority to CN201710509545.9A priority Critical patent/CN107393542B/zh
Publication of CN107393542A publication Critical patent/CN107393542A/zh
Application granted granted Critical
Publication of CN107393542B publication Critical patent/CN107393542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于双通道神经网络的鸟类物种识别方法,包括:采集已知种类的鸟鸣声信号并采用滤波、预加重、分割处理,得到预处理鸟鸣声信号;基于线性调频小波变换生成信号语图;截取符合预设帧长范围的鸟鸣声信号作为鸟鸣声时域信号;将信号语图作为第一通道的输入信号、鸟鸣声时域信号作为第二通道的输入信号、鸟鸣声信号对应的鸟类物种作为识别结果对构建的初步识别模型进行训练得到鸟类物种识别模型;将待识别的鸟鸣声信号经过同样处理得到的信号代入鸟类物种识别模型中进行识别,得到识别结果。所述基于双通道神经网络的鸟类物种识别方法充分利用鸣声信号的时域特征和时频特征,能够提高鸟类物种识别的效率和准确性。

Description

一种基于双通道神经网络的鸟类物种识别方法
技术领域
本发明涉及物种识别技术领域,特别是指一种基于双通道神经网络的鸟类物种识别方法。
背景技术
鸟类是生物多样性监测和生态环境影响评价的重要指标。通过鸟类物种的调查与监测可以了解鸟类资源现状,归纳鸟类物种的组成、数量和多样性等特征,利用这些特征能直接反映栖息地的环境质量、生态系统的健康程度、生物多样性状况、人类活动对生态系统的干扰程度以及土地利用和景观改变对生态系统的影响程度等。传统的鸟类调查方法主要是人工调查法,包括样线法、样点法和直接计数法。此类方法需要耗费大量人力、物力和财力,而且调查效果容易受到调查人员的视力、听力等主观因素的影响。近年来,红外相机技术在国内外野生动物调查与监测中得到了广泛应用。但是许多鸟类由于体型小、飞行速度快、活动区离地面较远,难以被红外相机捕获到清晰图像,增加了调查和监测结果的不确定性。因此红外相机技术更适用于大、中型地栖鸟类的监测,对于非地栖鸟类的监测效果并不理想。综上所述,传统的鸟类物种调查与监测方法存在不同的弊端,有必要研究新的方法弥补以上不足。
研究发现,在物种的水平上,鸟类鸣声有一定的稳定性和明显的物种鉴别特征,是识别其物种的主要方式之一。以此为理论依据,利用声音采集设备以及鸟类识别软件,基于鸣声识别鸟类物种,实现鸟类物种调查与监测的方法,不仅可以克服上述缺点,而且是高效率、非损伤、低干扰、大范围的监测方法,具有巨大的应用前景。
目前常用的鸟鸣声分类识别方法包括:1、基于模板匹配的分类方法,最具代表性的就是动态时间规整算法,该方法虽然识别精度较高,但是运算量太大,影响识别效率。2、建立基于特征的分类模型实现分类,常用的模型或方法有隐马尔可夫模型、高斯混合模型、支持向量机、随机森林、自主神经网络、k最近邻以及集成学习等,该类方法中手动提取合适的差异特征仍是一大瓶颈。
因此,在实现本申请的过程中,发明人发现现有技术至少存在以下技术缺陷:当前的鸟类物种识别的方法需要耗费海量的人力物力,而且识别的结果准确度也不高,难以得到较好的识别效果。
发明内容
有鉴于此,本发明的目的在于提出一种基于双通道神经网络的鸟类物种识别方法,能够提高鸟类物种识别的效率和准确性。
基于上述目的本发明提供的一种基于双通道神经网络的鸟类物种识别方法,包括:
构建具有两个通道的初步识别模型,其中,第一通道针对于鸟鸣声信号的时频特征设定模型结构及参数,第二通道针对于鸟鸣声信号的时域特征设定模型结构及参数;
采集已知种类的鸟鸣声信号并且对鸟鸣声信号采用滤波处理、预加重补偿处理、分割处理中的一种或者多种方式进行处理,得到预处理鸟鸣声信号;
将所述预处理鸟鸣声信号基于线性调频小波变换生成信号语图;同时对所述预处理鸟鸣声信号截取符合预设帧长范围的鸟鸣声信号区段作为鸟鸣声时域信号;
将信号语图作为第一通道的输入信号、鸟鸣声时域信号作为第二通道的输入信号、鸟鸣声信号对应的鸟类物种作为识别结果对初步识别模型进行训练,得到鸟类物种识别模型;
将待识别的鸟鸣声信号经过滤波、预加重补偿以及分割处理,然后经过线性调频小波变换生成信号语图作为第一通道的输入信号、截取时间长度符合预设帧长范围的鸟鸣声信号作为第二通道的输入信号,代入所述鸟类物种识别模型中进行识别,得到鸟类物种识别结果。
可选的,所述预加重补偿处理时的处理计算公式为:
Figure BDA0001335432640000021
其中,
Figure BDA0001335432640000022
为预加重补偿处理后的第n个采样值和x(n)为预加重补偿处理前的第n个采样值,λ为预加重系数。
可选的,所述分割处理包括:
利用希尔伯特变化提取出鸟鸣声信号的包络;
判断包络的幅值是否小于预设的阈值;
若是,则删除该段鸟鸣声信号,否则,保留该段鸟鸣声信号。
可选的,所述将所述预处理鸟鸣声信号基于线性调频小波变换生成信号语图的步骤还包括:
对预处理鸟鸣声信号进行分帧;
利用汉明窗加窗弥补截断信号产生的频谱泄露,得到预设帧长的鸟鸣声信号;
对每一帧鸟鸣声信号进行线性调频小波变换,将每一帧鸟鸣声信号展开成一系列线性调频小波基函数的线性组合;
利用小波系数生成鸟鸣声信号对应的信号语图。
可选的,所述线性调频小波基函数的计算表达式为:
Figure BDA0001335432640000031
其中,t为时间、tc为时间中心、fc为频率中心、△t为持续时间、c为线性调频率。
可选的,第二通道时域特性对应的预设帧长范围为5s-10s。
可选的,所述第一通道中的模型结构包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层;
所述第二通道中的模型结构包括:第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第三全连接层、第四全连接层;
所述第二全连接层与第四全连接层连接到融合输出层。
可选的,所述第一卷积层的卷积核大小为8×20,步长为2×1;第一池化层的池化核大小为2×2;第二卷积层的卷积核大小为8×20,步长为2×1;第二池化层的池化核大小为2×2;第一全连接层的节点数为200,Dropout为0.4;第二全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。
可选的,所述第三卷积层的卷积核大小为64,步长为2;第三池化层的池化核大小为8,步长为2;所述第四卷积层的卷积核大小为32,步长为2;第四池化层的池化核大小为8,步长为2;所述第五卷积层的卷积核大小为16,步长为2;第五池化层的池化核大小为8,步长为2;所述第六卷积层的卷积核大小为8,步长为2;所述第七卷积层的卷积核大小为16,步长为2;第三全连接层的节点数为200,Dropout为0.4;第四全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。
可选的,所述融合输出层的节点数为10且采用交叉熵损失函数。
从上面所述可以看出,本发明提供的基于双通道神经网络的鸟类物种识别方法,通过构建具有两个通道的识别模型,使得能够同时对鸟类的时域特征和时频特征通过两个通道实现鸟类声音的综合识别。同时,本申请所述方法还通过对鸟鸣声信号进行预处理得到符合要求的初始声音数据,然后基于预处理鸟鸣声信号分别进行基于时频特征的语图变换以及基于时域特征的信号处理。所以,本申请基于双通道神经网络的鸟类物种识别方法通过采用鸟鸣声信号的两个特征进行物种识别,同时通过信号特征的融合提高识别的准确性。因此,本申请所述基于双通道神经网络的鸟类物种识别方法能够提高鸟类物种识别的效率和准确性。
附图说明
图1为本发明提供的一种基于双通道神经网络的鸟类物种识别方法的一个实施例的流程示意图;
图2为本发明提供的鸟鸣声信号分割处理的一个实施例的效果示意图;
图3为本发明提供的基于双通道神经网络的鸟类物种识别方法另一个实施例的流程示意图;
图4为本发明提供的双通道深度卷积神经网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
针对于当前鸟类识别中存在识别效果不佳的问题,发明人认为虽然实际应用中的鸟鸣声复杂多变,但存在鸣叫和鸣唱两种主要类型。因此,有必要研究一种能够基于鸣叫和鸣唱均能实现高准确率识别鸟类物种的方法,进而更好地实现基于鸣声识别的野生鸟类物种调查与监测。而如何更好地获取物种或者之间的差异特征,提高识别的准确率仍有待进一步研究。
另一方面,深度卷积神经网络(Deep Convolutional Neural Network,DCNN)作为一种深度学习模型,具有局部连接、权值共享及池化操作等特性,可以有效地降低网络的复杂度,减少训练参数的数目,并具有强鲁棒性和容错能力,在图像分类、语音识别、音频检索以及人脸识别等方面得到广泛的应用。将DCNN引入鸟鸣声识别中,利用神经网络优异的学习能力可以解决目前存在的一些难题,从而突破手动提取鸟鸣声差异特征的瓶颈。
基于DCNN的鸟类识别方法通过设计合理的网络结构、选择合适的输入特征,可以得到相比其它分类方法更高的识别准确率。但是,现有的识别方法,输入特征的类型单一,或者采用时域特征或者采用语图图像特征,而且输入大小固定,导致基于鸣叫和鸣唱的识别不能同时达到最优效果。如何设计基于DCNN的识别模型,实现不同鸣声类型下鸟类物种的高准确率、高效自动识别,仍是具有挑战性的任务。
因此,经过发明人研究,认为可以充分利用鸟鸣声的时频特征和时域特征,利用深度卷积神经网络优异的特征学习能力,设计双通道深度卷积神经网络,一路通道适用于鸣叫的识别,另一路通道适用于鸣唱的识别,并选择合适的特征输入,最后对识别的结果进行融合,以实现不同鸣声类型的高准确率识别。
参照图1所示,为本发明提供的一种基于双通道神经网络的鸟类物种识别方法的一个实施例的流程示意图。所述基于双通道神经网络的鸟类物种识别方法包括:
步骤101,构建具有两个通道的初步识别模型,其中,第一通道针对于鸟鸣声信号的时频特征设定模型结构及参数,第二通道针对于鸟鸣声信号的时域特征设定模型结构及参数;这里所述的识别模型并不限于深度卷积神经网络,也可以利用其它类型的深度学习网络,例如:循环神经网络(RNN)等等。这里的两个通道是指在识别模型中用于对输入数据进行处理的单元,而且两者一般均对同样的输入信号进行数据处理。
步骤102,采集已知种类的鸟鸣声信号并且对鸟鸣声信号采用滤波处理、预加重补偿处理、分割处理中的一种或者多种方式进行处理,得到预处理鸟鸣声信号;
可选的,所述滤波处理优选采用维纳滤波进行滤波处理,不仅能够有效滤除背景噪音,而且能够提高滤波处理的效率和稳定性。
可选的,所述预加重补偿处理时的处理计算公式为:
Figure BDA0001335432640000061
其中,
Figure BDA0001335432640000062
为预加重补偿处理后的第n个采样值和x(n)为预加重补偿处理前的第n个采样值,λ为预加重系数。通过预加重补偿处理,能够补偿信号在高频能量上的损失。优选的,可以基于实际的信号或者识别的结果调整预加重系数,从而使得处理后的信号更加准确,可靠、稳定。
可选的,所述分割处理包括:利用希尔伯特变化提取出鸟鸣声信号的包络;判断包络的幅值是否小于预设的阈值;若是,则删除该段鸟鸣声信号,否则,保留该段鸟鸣声信号。其中,包络是指信号振幅随着时间变化的曲线。通过分割处理能够去除声音信号中的静音区。参照图2所示,分割后只留下图中矩形框所标注的时间区间内的信号。也即,可以利用希尔伯特变化提取鸟鸣声信号的包络,提前设定一个阈值,如果提取的包络幅值小于预设的阈值,则认为该段信号属于静音区,便可以去除对应的信号区域,实现信号的分割处理。所以,通过分割处理可以排除信号中的无用特征,进而提高识别的准确性。
可选的,基于识别效率以及处理过程的考虑,也可以不经过步骤102的处理过程。同样的,在进行待识别鸟鸣声信号输入前同样不经过该处理过程。
步骤103,将所述预处理鸟鸣声信号基于线性调频小波变换(ChirpletTransform,CT)生成信号语图;同时对所述预处理鸟鸣声信号截取符合预设帧长范围的鸟鸣声信号区段作为鸟鸣声时域信号;其中,信号语图是指鸟鸣声信号的时频图,而采用线性调频小波变换来描述鸟鸣声信号的特征具有较好的效果,有利于后续的特征学习以及识别。
可选的,所述将所述预处理鸟鸣声信号基于线性调频小波变换生成信号语图的步骤还包括:
对预处理鸟鸣声信号进行分帧;其中,基于语音信号具有短时平稳性,这样就可以把语音信号分为一些短段信号来进行处理,也就是就是分帧处理。
利用汉明窗加窗弥补截断信号产生的频谱泄露,得到预设帧长的鸟鸣声信号;其中,可选的预设帧长为25ms。语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的,也即在分帧时通过加窗处理,能够弥补频谱泄露,对信号进行优化。
对每一帧鸟鸣声信号进行线性调频小波变换,将每一帧鸟鸣声信号展开成一系列线性调频小波基函数的线性组合;
利用小波系数生成鸟鸣声信号对应的信号语图。
进一步优选的,通道1,帧长是20-30ms,汉明加窗,重叠50%;通道2,帧长是5-10s,汉明加窗,重叠20%。对通道1的每帧计算语图作为模型输入;通道2以每帧时域信号直接作为输入。
步骤104,将信号语图作为第一通道的输入信号、鸟鸣声时域信号作为第二通道的输入信号、鸟鸣声信号对应的鸟类物种作为识别结果对初步识别模型进行训练,得到鸟类物种识别模型;其中,基于构建的初步识别模型具有两个通道,因此对应的可以将步骤103中处理得到的两种鸟鸣声信号分别输入到初步识别模型,同时基于这些信号对应的鸟类物种是已知的,也即这些属于已标记的数据,因此可以对初步识别模型进行训练,得到更为准确的鸟类物种识别模型。
步骤105,将待识别的鸟鸣声信号经过滤波、预加重补偿以及分割处理,然后经过线性调频小波变换生成信号语图作为第一通道的输入信号、截取时间长度符合预设帧长范围的鸟鸣声信号作为第二通道的输入信号,代入所述鸟类物种识别模型中进行识别,得到鸟类物种识别结果。
由上述实施例可知,所述基于双通道神经网络的鸟类物种识别方法通过构建具有两个通道的识别模型,使得能够同时对鸟类的时域特征和时频特征通过两个通道实现鸟类声音的综合识别。同时,本申请所述方法还通过对鸟鸣声信号进行预处理得到符合要求的初始声音数据,然后基于预处理鸟鸣声信号分别进行基于时频特征的语图变换以及基于时域特征的信号处理。所以,本申请基于双通道神经网络的鸟类物种识别方法通过采用鸟鸣声信号的两个特征进行物种识别,同时通过信号特征的融合提高识别的准确性。因此,本申请所述基于双通道神经网络的鸟类物种识别方法能够提高鸟类物种识别的效率和准确性。
需要说明的是,上述步骤只是本申请方法中一个优选的方案,而实际上并不限定上述步骤之间的顺序,只需要步骤的设定符合本申请的设计思路即可。例如:上述步骤101可以设置在步骤102和103之后。
在本申请一些可选的实施例中,所述线性调频小波基函数的计算表达式为:
Figure BDA0001335432640000071
其中,t为时间、tc为时间中心、fc为频率中心、△t为持续时间,c为线性调频率。
在本申请一些可选的实施例中,所述第二通道时域特性对应的预设帧长范围为5s-10s。基于大部分鸟鸣唱持续的时间一般不会超过5s,因此,这个时间长度可以获取鸟类鸣唱信号中的所有特征。也即在不损失信号特征的基础上,可以选用时间长度更短的信号作为输入,可以提高识别的速率。优选的,所述预设帧长范围为5s,也即选定帧长长度为5s的鸟鸣声信号作为第二通道的输入。
参照图3所示,为本发明提供的基于双通道神经网络的鸟类物种识别方法另一个实施例的流程示意图。由图可知,对于已标记的鸟鸣声信号以及待识别的鸟鸣声信号来说,前期的处理过程是完全一样的,只不过,已标记的鸟鸣声信号由于对应鸟类物种结果已知,所以其作为训练数据用于前期对模型的训练,以使得模型根据训练结果不断更新学习,最终得到一个识别准确的鸟类物种识别模型。而待识别的鸟鸣声信号通过同样的处理后输入训练后的鸟类物种识别模型中,即可得到准确的识别结果。因此,所述基于双通道神经网络的鸟类物种识别方法考虑到鸟鸣声包括鸣叫和鸣唱两种类型,两种类型的鸣声在时间和结构上存在差异,采用单一、固定大小的输入特征进行识别,无法同时达到最优识别效果。而且输入特征的选择直接影响到深度卷积神经网络训练和识别的时间长短,进而影响识别效率。因此,提出基于双通道神经网络的鸟类物种识别方法,充分利用鸣声信号的时域特征和时频特征,并且通过融合提升识别准确率,可以克服单一种类特征识别准确率不高的问题。
参照图4所示,为本发明提供的双通道深度卷积神经网络的结构示意图。由图可知,所述双通道深度卷积神经网络包含两个数据处理通道。所述第一通道,也即通道1中的模型结构包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层;其中,第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层分别对应图中通道1中的卷积层1、池化层1、卷积层2、池化层2、全连接层1、全连接层2。
所述第二通道中的模型结构包括:第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第三全连接层、第四全连接层;分别对应图中通道2中的卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、卷积层4、卷积层5、全连接层1、全连接层2。
所述第二全连接层与第四全连接层连接到融合输出层。也即两个通道最后通过融合输出层进行融合处理,充分利用两个通道中信号的特征处理,最终提高识别准确性。
在本申请一些可选的实施例中,所述第一卷积层的卷积核大小为8×20,步长为2×1;第一池化层的池化核大小为2×2;第二卷积层的卷积核大小为8×20,步长为2×1;第二池化层的池化核大小为2×2;第一全连接层的节点数为200,Dropout为0.4;第二全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。所述第三卷积层的卷积核大小为64,步长为2;第三池化层的池化核大小为8,步长为2;所述第四卷积层的卷积核大小为32,步长为2;第四池化层的池化核大小为8,步长为2;所述第五卷积层的卷积核大小为16,步长为2;第五池化层的池化核大小为8,步长为2;所述第六卷积层的卷积核大小为8,步长为2;所述第七卷积层的卷积核大小为16,步长为2;第三全连接层的节点数为200,Dropout为0.4;第四全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。所述融合输出层的节点数为10且采用交叉熵损失函数。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于双通道神经网络的鸟类物种识别方法,其特征在于,包括:
构建具有两个通道的初步识别模型,其中,第一通道针对于鸟鸣声信号的时频特征设定模型结构及参数,第二通道针对于鸟鸣声信号的时域特征设定模型结构及参数;
采集已知种类的鸟鸣声信号并且对鸟鸣声信号采用滤波处理、预加重补偿处理、分割处理中的一种或者多种方式进行处理,得到预处理鸟鸣声信号;
将所述预处理鸟鸣声信号基于线性调频小波变换生成信号语图;同时对所述预处理鸟鸣声信号截取符合预设帧长范围的鸟鸣声信号区段作为鸟鸣声时域信号;
将信号语图作为第一通道的输入信号、鸟鸣声时域信号作为第二通道的输入信号、鸟鸣声信号对应的鸟类物种作为识别结果对初步识别模型进行训练,得到鸟类物种识别模型;
将待识别的鸟鸣声信号经过滤波、预加重补偿以及分割处理,然后经过线性调频小波变换生成信号语图作为第一通道的输入信号、截取时间长度符合预设帧长范围的鸟鸣声信号作为第二通道的输入信号,代入所述鸟类物种识别模型中进行识别,得到鸟类物种识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预加重补偿处理时的处理计算公式为:
Figure FDA0002332527680000011
其中,
Figure FDA0002332527680000012
为预加重补偿处理后的第n个采样值和x(n)为预加重补偿处理前的第n个采样值,λ为预加重系数。
3.根据权利要求1所述的方法,其特征在于,所述分割处理包括:
利用希尔伯特变化提取出鸟鸣声信号的包络;
判断包络的幅值是否小于预设的阈值;
若是,则删除该段鸟鸣声信号,否则,保留该段鸟鸣声信号。
4.根据权利要求1所述的方法,其特征在于,所述将所述预处理鸟鸣声信号基于线性调频小波变换生成信号语图的步骤还包括:
对预处理鸟鸣声信号进行分帧;
利用汉明窗加窗弥补截断信号产生的频谱泄露,得到预设帧长的鸟鸣声信号;
对每一帧鸟鸣声信号进行线性调频小波变换,将每一帧鸟鸣声信号展开成一系列线性调频小波基函数的线性组合;
利用小波系数生成鸟鸣声信号对应的信号语图。
5.根据权利要求4所述的方法,其特征在于,所述线性调频小波基函数的计算表达式为:
Figure FDA0002332527680000021
其中,t为时间、tc为时间中心、fc为频率中心、Δt为持续时间,c为线性调频率。
6.根据权利要求1所述的方法,其特征在于,第二通道时域特性对应的预设帧长范围为5s-10s。
7.根据权利要求1所述的方法,其特征在于,所述第一通道中的模型结构包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第一全连接层、第二全连接层;
所述第二通道中的模型结构包括:第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、第五池化层、第六卷积层、第七卷积层、第三全连接层、第四全连接层;
所述第二全连接层与第四全连接层连接到融合输出层。
8.根据权利要求7所述的方法,其特征在于,所述第一卷积层的卷积核大小为8×20,步长为2×1;第一池化层的池化核大小为2×2;第二卷积层的卷积核大小为8×20,步长为2×1;第二池化层的池化核大小为2×2;第一全连接层的节点数为200,Dropout为0.4;第二全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。
9.根据权利要求7所述的方法,其特征在于,所述第三卷积层的卷积核大小为64,步长为2;第三池化层的池化核大小为8,步长为2;所述第四卷积层的卷积核大小为32,步长为2;第四池化层的池化核大小为8,步长为2;所述第五卷积层的卷积核大小为16,步长为2;第五池化层的池化核大小为8,步长为2;所述第六卷积层的卷积核大小为8,步长为2;所述第七卷积层的卷积核大小为16,步长为2;第三全连接层的节点数为200,Dropout为0.4;第四全连接层的节点数为50,Dropout为0.2;池化方式为最大池化,激活函数为Relu。
10.根据权利要求7所述的方法,其特征在于,所述融合输出层的节点数为10且采用交叉熵损失函数。
CN201710509545.9A 2017-06-28 2017-06-28 一种基于双通道神经网络的鸟类物种识别方法 Active CN107393542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710509545.9A CN107393542B (zh) 2017-06-28 2017-06-28 一种基于双通道神经网络的鸟类物种识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710509545.9A CN107393542B (zh) 2017-06-28 2017-06-28 一种基于双通道神经网络的鸟类物种识别方法

Publications (2)

Publication Number Publication Date
CN107393542A CN107393542A (zh) 2017-11-24
CN107393542B true CN107393542B (zh) 2020-05-19

Family

ID=60334306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710509545.9A Active CN107393542B (zh) 2017-06-28 2017-06-28 一种基于双通道神经网络的鸟类物种识别方法

Country Status (1)

Country Link
CN (1) CN107393542B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033777A (zh) * 2018-01-11 2019-07-19 深圳市诚壹科技有限公司 鸟类识别方法、装置、终端设备及计算机可读存储介质
CN108231067A (zh) * 2018-01-13 2018-06-29 福州大学 基于卷积神经网络与随机森林分类的声音场景识别方法
CN108053836B (zh) * 2018-01-18 2021-03-23 成都嗨翻屋科技有限公司 一种基于深度学习的音频自动化标注方法
CN108197591A (zh) * 2018-01-22 2018-06-22 北京林业大学 一种基于多特征融合迁移学习的鸟类个体识别方法
CN110293550B (zh) * 2018-03-21 2021-06-18 北京猎户星空科技有限公司 机械臂移动控制方法、装置和智能设备
CN108898164A (zh) * 2018-06-11 2018-11-27 南京理工大学 一种基于特征融合的鸟鸣自动识别方法
CN108986798B (zh) * 2018-06-27 2019-11-26 百度在线网络技术(北京)有限公司 语音数据的处理方法、装置及设备
CN109117732A (zh) * 2018-07-16 2019-01-01 国网江西省电力有限公司电力科学研究院 一种输电线路涉鸟故障鸟种图音识别及防治方法
CN109409308A (zh) * 2018-11-05 2019-03-01 中国科学院声学研究所 一种基于鸟类鸣声的鸟类物种识别的方法
CN109741759B (zh) * 2018-12-21 2020-07-31 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN109979441A (zh) * 2019-04-03 2019-07-05 中国计量大学 一种基于深度学习的鸟类识别方法
CN110246506A (zh) * 2019-05-29 2019-09-17 平安科技(深圳)有限公司 人声智能检测方法、装置及计算机可读存储介质
CN110289004B (zh) * 2019-06-18 2021-09-07 暨南大学 一种基于深度学习的人工合成声纹检测系统及方法
CN110797033A (zh) * 2019-09-19 2020-02-14 平安科技(深圳)有限公司 基于人工智能的声音识别方法、及其相关设备
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112686293A (zh) * 2020-12-25 2021-04-20 广东电网有限责任公司中山供电局 一种基于gmm识别模型的鸟类智能识别方法及系统
CN112908344B (zh) * 2021-01-22 2023-08-08 广州大学 一种鸟鸣声智能识别方法、装置、设备和介质
CN112749760A (zh) * 2021-01-22 2021-05-04 淮阴师范学院 一种基于深度卷积网络的水鸟图像识别特征融合模型系统及方法
CN113223507B (zh) * 2021-04-14 2022-06-24 重庆交通大学 基于双输入互干扰卷积神经网络的异常语音识别方法
CN113707159B (zh) * 2021-08-02 2024-05-03 南昌大学 一种基于Mel语图与深度学习的电网涉鸟故障鸟种识别方法
CN113624279B (zh) * 2021-08-03 2023-10-24 中国科学院城市环境研究所 基于声景大数据的生物多样性实时监测和分析系统
CN114863938A (zh) * 2022-05-24 2022-08-05 西南石油大学 一种基于注意力残差和特征融合的鸟语识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976564A (zh) * 2010-10-15 2011-02-16 中国林业科学研究院森林生态环境与保护研究所 昆虫声音识别方法
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
CN105976821A (zh) * 2016-06-17 2016-09-28 北京小米移动软件有限公司 动物语言识别方法和装置
CN106782501A (zh) * 2016-12-28 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10448152B2 (en) * 2015-09-21 2019-10-15 Northeastern University Systems and methods for monitoring and classifying marine animals based on acoustic signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101976564A (zh) * 2010-10-15 2011-02-16 中国林业科学研究院森林生态环境与保护研究所 昆虫声音识别方法
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
CN105976821A (zh) * 2016-06-17 2016-09-28 北京小米移动软件有限公司 动物语言识别方法和装置
CN106782501A (zh) * 2016-12-28 2017-05-31 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法和装置

Also Published As

Publication number Publication date
CN107393542A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
CN107393542B (zh) 一种基于双通道神经网络的鸟类物种识别方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN112509564B (zh) 基于连接时序分类和自注意力机制的端到端语音识别方法
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
CN110718235B (zh) 异常声音检测的方法、电子设备及存储介质
CN105788603A (zh) 一种基于经验模态分解的音频识别方法及系统
CN107622773B (zh) 一种音频特征提取方法与装置、电子设备
CN106653047A (zh) 一种音频数据的自动增益控制方法与装置
CN108197669B (zh) 卷积神经网络的特征训练方法及装置
CN108597505A (zh) 语音识别方法、装置及终端设备
CN114863937B (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN112183107A (zh) 音频的处理方法和装置
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN109036470A (zh) 语音区分方法、装置、计算机设备及存储介质
CN110544482A (zh) 一种单通道语音分离系统
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN111009259B (zh) 一种音频处理方法和装置
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN110299133A (zh) 基于关键字判定非法广播的方法
CN110136741A (zh) 一种基于多尺度上下文的单通道语音增强方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant