CN112289326B - 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法 - Google Patents

一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法 Download PDF

Info

Publication number
CN112289326B
CN112289326B CN202011562195.0A CN202011562195A CN112289326B CN 112289326 B CN112289326 B CN 112289326B CN 202011562195 A CN202011562195 A CN 202011562195A CN 112289326 B CN112289326 B CN 112289326B
Authority
CN
China
Prior art keywords
bird
audio
segment
syllables
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011562195.0A
Other languages
English (en)
Other versions
CN112289326A (zh
Inventor
田元
刘妙燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Nongchaoer Wisdom Technology Co ltd
Original Assignee
Zhejiang Nongchaoer Wisdom Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Nongchaoer Wisdom Technology Co ltd filed Critical Zhejiang Nongchaoer Wisdom Technology Co ltd
Priority to CN202011562195.0A priority Critical patent/CN112289326B/zh
Publication of CN112289326A publication Critical patent/CN112289326A/zh
Application granted granted Critical
Publication of CN112289326B publication Critical patent/CN112289326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

一种具有噪音去除的鸟类识别综合管理系统,包括业务层、数据层、展示层,业务层包括用户系统、业务系统、算法系统三大系统组成,用户系统主要用来管理平台用户操作行为及信息管理;业务系统用于管理整个平台模块之间的业务,包括如音频地址管理、鸟类声纹采集、鸟类音频识别信息等;算法系统通过人工智能声纹识别检测音频中的鸟类的类型并给出合理的检测反馈信息;业务系统通过音频提取设备获取岛上的各种鸟类音频并提供频谱‑时间空间界面进行录制、定位、分析、注解、分类,算法系统作为后台系统通过人工智能声纹识别实现相应的功能,人工智能声纹识别包括噪声去除、多音频分离、自动分类、单一识别,噪声去除包括片段分割和事件检测。

Description

一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除 方法
技术领域
本发明属于鸟类声纹人工智能识别领域,特别涉及一种具有噪音去除的鸟类识别综合管理系统及其噪音去除方法。
背景技术
数据已成为国民经济和社会发展的基础性、战略性资源。随着信息采集技术的不断发展,海域资源环境本底数据、管理业务数据、监视监测数据等各类基础数据快速增长,逐步呈现大数据特征。各级海洋管理部门对海洋空间相关数据的实时、直观展示和分析的需求日渐强烈。海洋中存在多种海鸟,鸟类声纹是一种重要的鸟类学特征,包含有重要的丰富的鸟类学含义,如:物种鉴定交配繁殖模式,社群等级,气质特征,净化适应性等等,基于音频的识别技术可以解决一些鸟类物种识别问题;鸟类声纹可以用来进行鸟类多样性监测,生境中生空间的竞争性和异质性性能能够代表鸟类多样性,对音频的分析可以提供个体、物种、种群、群落、景观水平的多样性信息,快速声纹调查:通过音频只数提取技术,可以快实现快速长期大范围鸟类多样性评价监测,通过送完可以分析种群的结构,包括年龄,性别比例,分析事物生存状态,包括情绪、病害、打斗;声景生态学:获得音频民生指数,代表一种新的物种多样性指标,声景生态学提供重要的数据支持。目前针对鸟类声纹的采集、检测、去噪、音频分离、分类、识别等缺少有效的方法。
识别鸟类声纹必要澄清它们的特征(如频谱特性、歌曲或叫声类型)和行为上下文(如方向、位置、相邻关系)之间的精细和详细的关系,使用常规记录或通过人类观察获得这些数据需要花费大量的时间和精力,由于硬件和软件的限制,很多识别方法并不容易实现,而新的无创记录设备的应用则是生态声学的重点。
大多数栖息地中存在的噪声以及许多鸟类群落中同时鸣叫,如何实现鸟类种的识别是很困难的,需要做更多的工作来解决识别所有物种以及它们在多只鸟的嘈杂录音中发声的准确时间的问题。目前的技术都是要通过最多的人工干预来完成,尤其是需要手动将录音分割成鸟类音频音节。小的音频数据的处理通常是手动去噪噪声和/或手动分割实现,并且只有少量物种,这些技术仅用于标记记录,不足以检测发声的确切时间。
大多数鸟类音频的识别技术都是基于对音频频谱图的视觉检查。由人类专家连续识别大量鸟类音频的频谱图是一项极其费时费力的任务。因此,急需自动识别鸟叫声。
鸟类音频的识别在鸟类声学和生态学中越来越重要,作为一种工具,可以促进无人值守的监测、公民科学和其他具有大量音频数据的应用。对于鸟类音频,研究的任务包括识别物种和个体,许多研究只考虑单声道的情况,使用的是孤立或低背景干扰的单个鸟类的记录。从混合音频中分离出单一的鸟类音频是一项具有挑战性的任务,鸟类音频通常包含快速的音调调制,这些调制携带的信息可能在自动识别中有用。
鸟类音频复杂多变、单调、简短、重复、固定,通常由一连串的音符组成,鸟类音频通常分为四个层次:音符、音节、短语和鸟声,其中音节在鸟类物种识别中起着重要作用。音节被用来解决多种鸟类声音波形重叠的问题。目前所有的相关技术都是提取单个音节的特征,而不是提取鸟叫声的一段特征来进行鸟类物种识别。识别不够准确。
发明内容
针对上述问题,尤其是实现鸟类种的识别是很困难的,需要做更多的工作来解决识别所有物种以及它们在多只鸟的嘈杂录音中发声的准确时间的问题,提出了一种具有噪音去除的鸟类识别综合管理系统及其噪音去除方法。
技术方案为:
一种具有噪音去除的鸟类识别综合管理系统,包括业务层、数据层、展示层,
业务层包括用户系统、业务系统、算法系统三大系统组成,用户系统主要用来管理平台用户操作行为及信息管理;业务系统用于管理整个平台模块之间的业务,包括如音频地址管理、鸟类声纹采集、鸟类音频识别信息等;算法系统通过人工智能声纹识别检测音频中的鸟类的类型并给出合理的检测反馈信息;
数据层用于数据存储,分为数据中心、系统数据库、声纹数据库,数据中心用于存储各种业务数据,包括鸟类识别种类、数量、日期、位置等;系统数据库存储系统模块之间的业务关系数据,包括声纹、音频存放地址等;声纹数据库存储所有鸟类音频数据;
展示层通过WEB端输出各功能模块之间交互返回的结果,开放API接口调用方法开发者可通过相关开放接口地址按照提供的调用规则进行调用;
业务系统通过音频提取设备获取岛上的各种鸟类音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类,算法系统作为后台系统通过人工智能声纹识别实现相应的功能,人工智能声纹识别包括噪声去除、多音频分离、自动分类、单一识别,噪声去除包括片段分割和事件检测。
一种鸟类识别综合管理系统的噪音去除方法,
片段分割具体为:
步骤1、通过短时傅里叶变换对音频数据进行处理;
步骤2、分割检测,
步骤3、依据绝对最大值进行归一化,
步骤4、移除高于20 kHz和低于340 kHz的频率赫兹得音频。自然界中这些频率中没有鸟叫声发生,因此是噪声予以滤出;
步骤5、通过对每一频率和每一时间帧的频谱图进行中值剪切得到二值图像,以消除噪声,具体为:如果频谱图中的像素值大于其对应行和列中值的3倍,则将像素设为1,否则设为0;
步骤6、应用闭合运算以填充当前功能任何小孔,闭合运算应用于大小为(3,3)的矩形邻域;
步骤7、移除小于5像素的连接组件;
步骤8、 在大小为(7,7)的矩形邻域中应用膨胀扩张,膨胀算法将位于(i,j)处的像素设置为以(i,j)为中心的邻域中所有像素的最大值,扩张是为了扩大包含特征的区域(即发声),并去除可以被认为是噪声的小物体;
步骤9、使用中值滤波器对图像滤波;
步骤10、移除小于150像素部分,从而将二值频谱图像切分;
步骤11、在半径为3的圆形区域重新进行扩张;
步骤12、将所有连接的像素定义为一个片段,进行片段分割;
步骤13、计算每个片段的大小和位置。
上述方法产生的噪声片段更少,发声片段更大。
事件检测具体为:
对于每个片段,创建可标签列表,初始化为包含该片段的记录的弱标签,分类过程将通过演绎消除该片段中不太可能出现的标签,将该片段的列表缩短为一个或多个标签,每个需要标记的片段通过匹配模板函数进行归一化相关,与不同的记录进行匹配,以获得所有可能的标签匹配,归一化相关用于将模板(发声)与二维目标图像(录音的谱图)匹配,与目标图像大小相同的响应图像,模板和目标图像之间的相关系数在-1、0和1、0之间,通过搜索响应图像中的最大峰值,找到片段与特定记录之间的匹配值,相似的鸟叫声应该出现在相似的频率上,将匹配模板应用于较小的频率范围(片段频率以下或段频以上5个频点),从而减少了计算量;
在一个单独的训练集合中,没有一个单独的训练需要分类。这种方法的性能随着每种物种记录数量的增加而增加。分类过程中找到一个片段匹配的机会随着每个物种发声的变化而增加。这一过程分为三个不同的过程,即第一道、第二道和第三道,这三种方法都按顺序应用于记录,如下所述:
步骤1、第一次匹配
为每个片段创建一组记录来查找匹配,表示由初始化列表生成的不同标签组合,录制在其弱标签中存在标签,对于需要标签的每个片段,将搜索记录列表,增加弱标签的数量,直到找到匹配项或不再有剩余的记录,匹配模板返回响应图像中的最大峰值,当匹配模板返回的相似率为0、4或更大时,为找到匹配;
步骤2、第二次匹配
第二次匹配解决第一次匹配未匹配片段,音频记录的所有标签至少分配给一个片段,当音频记录中有未匹配片段和没有对应段的标签时,将未分配的标签分配给所有未匹配片段;
步骤3、第三次匹配,
在两次匹配后,音频记录中可能仍有未分配的标签,需要将音频记录的所有标签分配给至少一个片段,在所有片段段都有标签但某些弱标签没有分配给任何段的记录中,必须有一些标签被分配到多个段(很可能是错误的),可能不止一个段有这个标签,但是当一个标签未被分配时,假设与同一个标签匹配的其中一个片段被错误分类,在其余标签的多个片段中搜索任何未分配标签的最佳匹配。如果找到匹配项,则从其派生的段的标签将更改为未分配的标签。
本发明的有益效果:
(1)本发明通过鸟类人工智能识别系统,将鸟类音频的采集、检测、去噪、音频分离、分类、识别集合在一个系统上实现了鸟类的智能识别;
(2)本发明中,频谱-时间空间界面基于生态数据分析提供了一个完整的框架,结合特征映射技术,实现了注释工具,有助于提取必要的声源,减少分类的时间成本,有助于了解麦克风阵列周围的声景,有助于更详细地了解鸟类鸣叫和行为的作用;
(3)本发明中,噪声去除通过两步实现,第一步片段分割,频谱图片段分割实现了一种完全自动的方法,从每一个录音中提取出相应的音频,事件检测利用一组录音的弱标签所提供的信息,即使用标记的鸟叫声自动检测到每只鸟的叫声,然后将其分类到这些标记中,实现了精确的发声注释;
(4)本发明中,噪声去除的第二步事件检测,该方法得到的良好鸟类分类结果,被用来在单位水平上对记录进行完整的注释,而不是寻找存在的物种并利用互相关来找到一个发声的最佳可见匹配,通过多次匹配实现了基于在整个数据集中寻找一个片段的最佳视觉相似匹配并演绎地细化其可能的标签的分类过程,从而减少每个检测到的发声的可能标签,通过实验表明,根据正确分类的评估,在合成鸟类音频数据集中,检测的成功率高达75.4%;
(5)本发明中,自动分类方法利用特征集二维梅谱系数和动态二维梅谱系数作为发声特征,对连续鸟类音频录音中的每个音节进行分类,从不同的录音中分割出测试音节和训练音节。将二维梅谱系数和动态二维梅谱系数结合起来,对28种鸟类的分类精度可达84、06%,鸟类的种类很容易被识别出来;
(6)在本发明中,使用了改进的谱图表示方法提高鸟类音频分离的性能,该方法跟踪发声模式,在相同的范式下工作,并证明对底层表示的改进可以提高跟踪的质量。使用了一个简单的鸟类音频字典来分析信号,强大的参数技术来估计非平稳信号的特性,精确表示可以改善对多种鸟类的跟踪,本发明开发的特定技术变体。通过多重追踪技术推断包含多只鸟类音频记录中的序列结构,将此追踪程序应用于鸟类音频记录的数据集,通过标准谱图进行分析,表明该方法有利于鸟类音频的分析;
(7)本发明中,本发明提出了一种小波变换的多音节鸟类音频特征提取方法,该方法不仅提取了单个音节的特征,而且提取了音节的变化,不使用单个音节,而是使用包含一个音节周期的鸟类音频片段来提取特征向量,结果表明,与传统方法相比,该方法明显提高了识别率。
附图说明
图1为本发明的鸟类人工智能识别系统构成框图。
图2为本发明的噪声去除中片段分割的流程图。
图3为本发明的噪声去除中事件检测的流程图。
图4为本发明的音频分离的流程图。
图5为本发明的模型匹配的流程图。
图6为本发明的小波变换的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步的说明。
本发明的实施例参考图1-6所示。
参见图1 所示,一种具有噪音去除的鸟类识别综合管理系统,包括业务层、数据层、展示层。
业务层包括用户系统、业务系统、算法系统三大系统组成,用户系统主要用来管理平台用户操作行为及信息管理;业务系统用于管理整个平台模块之间的业务,包括如音频地址管理、鸟类声纹采集、鸟类音频识别信息等;算法系统通过人工智能声纹识别检测音频中的鸟类的类型并给出合理的检测反馈信息。
数据层用于数据存储,分为数据中心、系统数据库、声纹数据库,数据中心用于存储各种业务数据,包括鸟类识别种类、数量、日期、位置等;系统数据库存储系统模块之间的业务关系数据,包括声纹、音频存放地址等;声纹数据库存储所有鸟类音频数据。
展示层通过WEB端输出各功能模块之间交互返回的结果,开放API接口调用方法开发者可通过相关开放接口地址按照提供的调用规则进行调用。
业务系统通过音频提取设备获取岛上的各种鸟类音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类,算法系统作为后台系统通过人工智能声纹识别实现相应的功能,人工智能声纹识别包括噪声去除、多音频分离、自动分类、单一识别。
其中,系统服务采用轻量级 Flask Web应用框架,其WSGI工具箱采用 Werkzeug,Flask拥有内置服务器和单元测试,适配RESTful,支持安全的cookies。机器深度学习算法Keras人工神经网络和Open CV机器学习算法,实时捕捉动态声纹进行识别。自动采集数据声纹,实现准确智能识别。
其中,业务系统实现了鸟类声纹采集,使用音频提取设备提取声源以及方向,音频提取设备包括麦克风阵列和数据处理设备,在数据处理设备上使用频谱-时间空间界面来编辑采集到的音频文件,能够观察声源在二维特征空间上的分布,了解录音中的声音种类,从而了解声音景观的组成部分,通过在空间上分组相似的声音来对其进行分类;用户在可视化的频谱-时间空间界面上对声源进行录制、定位、分析、注解、分类,用户可以在窗口左侧择要操作的文件或文件夹,在右侧更改操作设置或执行各项功能。
在录制选部分,用户使用麦克风阵列以16kHz和16位格式开始录制,并回放或分割录音,系统支持连接到数据处理设备的多个麦克风阵列同时录制,支持二维定位进行同步记录,通过设置文件的分区数或每个文件的记录时间,将一个记录文件分成若干个记录文件,以便在分析长期记录之前找到适合本地化的参数设置。
在定位部分,基于多信号分类方法使用具有短时傅立叶变换的多个频谱图进行声源定位,并提取分离的声音作为每个本地化声音的波形文件,在右边的列表中设置与鸟类音频定位和分离相关的基本参数值,通过在网络文件中定义参数名称和相应的标记来将附加参数添加到列表中,有助于根据环境和目标声音的声学特性更恰当地定位声源,定位和声音分离的整体结果输出到一个文件夹中并保存在声纹数据库。
在分析部分,直观地分析声音的时间分布和方向性,通过导出文件按钮,以指定总页数的PDF格式输出频谱图和定位结果,有助于以适当的时间尺度概述结果,所有声源的数据,包括它们的方向和持续时间等,都以JSON文件的形式输出,加载到注释工具并保存在声纹数据库。
在注解部分,注解窗口顶部面板显示记录的频谱图,在x轴显示时间刻度和焦点时间段,焦点时间段和显示时间刻度可以调整,y轴显示在方向上对应的音频和声源,注解窗口中的x轴的每个框表示开始(左边缘)和结束(右边缘)时间以及y轴则显示相应源开始时间的方向,每个框的颜色代表其类,单击每个本地化声音的框,右侧显示声音本地化信息,可手动编辑信息,回放原录音中分离声音或持续时间的对应文件,支持编辑操作的撤消过程,通过拖动相应的框来修改每个源的位置,将修改后的数据以JSON文件形式保存在声纹数据库。
在分类部分,以使用所有分离声音的频谱图(100×64像素)作为数据集,对局部声源进行降维,采用学习库以降低数据维数,并绘制在二维平面上,可视化分布,通过参数设置进行网格搜索,对局部声音进行分类,参数包括复杂度、学习率、迭代次数等,在提取出合适的降维结果后,使用一个接口在特征空间上对声源进行可视化,在用于分类工具的界面,以节点的形式显示分离的声源,通过单击每个节点,频谱图将显示在另一个窗口中,并回放分离的声音,一组节点可以被划分为一个类,用一个框架包围,并指定,这个分组可以通过简单的键盘操作和鼠标操作完成,允许用户一次对相似的声音进行分类,用户在编辑频谱图时还可以选择噪声去除,通过关闭窗口,分类数据以JSON文件形式保存在声纹数据库。
频谱-时间空间界面基于生态数据分析提供了一个完整的框架,结合特征映射技术,实现了注释工具,有助于提取必要的声源,减少分类的时间成本,有助于了解麦克风阵列周围的声景,有助于更详细地了解鸟类鸣叫和行为的作用。
其中,噪声去除包括片段分割和事件检测的具体过程如下:
参见图2 所示,片段分割具体为:
步骤1、通过短时傅里叶变换对音频数据进行处理;
步骤2、分割检测,
步骤3、依据绝对最大值进行归一化,
步骤4、移除高于20 kHz和低于340 kHz的频率赫兹得音频。自然界中这些频率中没有鸟叫声发生,因此是噪声予以滤出;
步骤5、通过对每一频率和每一时间帧的频谱图进行中值剪切得到二值图像,以消除噪声,具体为:如果频谱图中的像素值大于其对应行和列中值的3倍,则将像素设为1,否则设为0;
步骤6、应用闭合运算以填充当前功能任何小孔,闭合运算应用于大小为(3,3)的矩形邻域;
步骤7、移除小于5像素的连接组件;
步骤8、 在大小为(7,7)的矩形邻域中应用膨胀扩张,膨胀算法将位于(i,j)处的像素设置为以(i,j)为中心的邻域中所有像素的最大值,扩张是为了扩大包含特征的区域(即发声),并去除可以被认为是噪声的小物体;
步骤9、使用中值滤波器对图像滤波;
步骤10、移除小于150像素部分,从而将二值频谱图像切分;
步骤11、在半径为3的圆形区域重新进行扩张;
步骤12、将所有连接的像素定义为一个片段,进行片段分割;
步骤13、计算每个片段的大小和位置。
上述方法产生的噪声片段更少,发声片段更大。
事件检测具体为:
参见图3所示,对于每个片段,创建可标签列表,初始化为包含该片段的记录的弱标签,分类过程将通过演绎消除该片段中不太可能出现的标签,将该片段的列表缩短为一个或多个标签,每个需要标记的片段通过匹配模板函数进行归一化相关,与不同的记录进行匹配,以获得所有可能的标签匹配,归一化相关用于将模板(发声)与二维目标图像(录音的谱图)匹配,与目标图像大小相同的响应图像,模板和目标图像之间的相关系数在-1、0和1、0之间,通过搜索响应图像中的最大峰值,找到片段与特定记录之间的匹配值,相似的鸟叫声应该出现在相似的频率上,将匹配模板应用于较小的频率范围(片段频率以下或段频以上5个频点),从而减少了计算量。
在一个单独的训练集合中,没有一个单独的训练需要分类。这种方法的性能随着每种物种记录数量的增加而增加。分类过程中找到一个片段匹配的机会随着每个物种发声的变化而增加。这一过程分为三个不同的过程,即第一道、第二道和第三道,这三种方法都按顺序应用于记录,如下所述:
步骤1、第一次匹配
为每个片段创建一组记录来查找匹配,表示由初始化列表生成的不同标签组合,录制在其弱标签中存在标签,对于需要标签的每个片段,将搜索记录列表,增加弱标签的数量,直到找到匹配项或不再有剩余的记录,匹配模板返回响应图像中的最大峰值,当匹配模板返回的相似率为0、4或更大时,为找到匹配。
步骤2、第二次匹配
第二次匹配解决第一次匹配未匹配片段,音频记录的所有标签至少分配给一个片段,当音频记录中有未匹配片段和没有对应段的标签时,将未分配的标签分配给所有未匹配片段。
步骤3、第三次匹配
在两次匹配后,音频记录中可能仍有未分配的标签,需要将音频记录的所有标签分配给至少一个片段,在所有片段段都有标签但某些弱标签没有分配给任何段的记录中,必须有一些标签被分配到多个段(很可能是错误的),可能不止一个段有这个标签,但是当一个标签未被分配时,假设与同一个标签匹配的其中一个片段被错误分类,在其余标签的多个片段中搜索任何未分配标签的最佳匹配。如果找到匹配项,则从其派生的段的标签将更改为未分配的标签。
通过上述三次匹配实现了对频谱图的标记,并去除了噪音以及非鸟类叫声。
其中,自动分类具体为:
步骤1、特征提取
对于大多数鸟叫声,在每个音节内,相邻的分析帧之间或多或少存在时间上的变化,在音节识别中,具有最大频谱转换的音频部分包含了最重要的信息,动态二维梅谱系数被用来描述音节内的急变。
步骤1.1、计算二维梅谱系数:
二维梅谱以矩阵形式隐式表示语音信号的静态特征和动态特征,二维梅谱矩阵
Figure 294445DEST_PATH_IMAGE001
可通过对连续对数谱序列应用二维离散余弦变换来获得,二维梅谱矩阵
Figure 86952DEST_PATH_IMAGE002
的第一维
Figure 929006DEST_PATH_IMAGE003
表示倒谱,第二维
Figure 698117DEST_PATH_IMAGE004
表示每个倒谱系数的时间变化,采用二维梅谱系数对鸟叫声的每个音节进行建模,将二维离散余弦变换应用于根据人类听觉感知模型定义的梅谱尺度带通滤波器的对数能量,得到二维梅谱系数矩阵
Figure 325538DEST_PATH_IMAGE005
Figure 524832DEST_PATH_IMAGE007
式中,
Figure 854182DEST_PATH_IMAGE008
是第
Figure 928448DEST_PATH_IMAGE009
帧的第
Figure 971228DEST_PATH_IMAGE010
个梅谱尺度带通滤波器的能量,
Figure 839958DEST_PATH_IMAGE011
是频率指数,
Figure 971119DEST_PATH_IMAGE012
是调制频率指数,
Figure 521180DEST_PATH_IMAGE013
是梅谱尺度带通滤波器的数量,
Figure 418467DEST_PATH_IMAGE014
是一个音节内的帧数,二维离散余弦变换分解为两个一维离散余弦变换,
Figure 910628DEST_PATH_IMAGE005
将一维离散余弦变换应用于沿时间轴的连续的
Figure 27619DEST_PATH_IMAGE015
个MFCC系数序列,表示为:
Figure 679574DEST_PATH_IMAGE016
频率指数
Figure 136094DEST_PATH_IMAGE017
的二维梅谱系数矩阵的第一行保持了短时能量的时间变化,调制频率指数
Figure 845162DEST_PATH_IMAGE018
的第一列中的每个元素表示所有分析帧的倒谱系数的平均值,在频率轴上,较低的系数代表频谱包络,较高的系数代表基音和激励,在时间轴上,较低的系数表示频率的整体变化,而较高的系数表示频率的局部变化。
由于不同音节的持续时间不尽相同,所分析的帧数因音节而异,
Figure 636401DEST_PATH_IMAGE005
中的列数因音节不同而不同,沿频率轴
Figure 590581DEST_PATH_IMAGE011
和时间轴
Figure 391354DEST_PATH_IMAGE012
的下半部分的系数比较高部分的系数为音频识别提供了更多有用的信息,将
Figure 38367DEST_PATH_IMAGE005
的前15行和前5列的系数,不包括系数
Figure 51323DEST_PATH_IMAGE019
作为音节的初始发音特征,从二维梅谱系数矩阵
Figure 307729DEST_PATH_IMAGE005
中选取74个系数,构成音节的二维梅谱系数特征向量,特征向量的维数是固定的,二维梅谱系数特征向量
Figure 473262DEST_PATH_IMAGE020
表示为:
Figure 792642DEST_PATH_IMAGE021
步骤1.2、计算动态二维梅谱系数:
动态二维梅谱系数用于强调音节内的尖锐过渡。动态二维梅谱系数是一种基于语音频谱瞬时特征和动态特征相结合的的识别方法,在所有音节中,频谱转换最大的部分承载着最重要的语音信息,将回归系数的动态特征定义为一阶正交多项式系数,用于孤立词识别,回归系数表示被测语音段内每个倒谱系数的时间函数的斜率,提取动态二维梅谱系数来突出音节内最大频谱跃迁的部分,那么第
Figure 105943DEST_PATH_IMAGE009
帧的第
Figure 588876DEST_PATH_IMAGE010
个梅谱尺度的回归系数
Figure 435347DEST_PATH_IMAGE022
为:
Figure 361846DEST_PATH_IMAGE023
式中,
Figure 663908DEST_PATH_IMAGE024
是测量过渡信息的间隔长度,
Figure 950533DEST_PATH_IMAGE022
反映第
Figure 887396DEST_PATH_IMAGE009
帧周围的能量转移对于第
Figure 483331DEST_PATH_IMAGE010
个梅谱尺度的带通滤波器输出,将每个回归系数
Figure 771224DEST_PATH_IMAGE022
加到
Figure 176054DEST_PATH_IMAGE008
中,以获得增强的能量:
Figure 419954DEST_PATH_IMAGE025
Figure 484993DEST_PATH_IMAGE026
对对数强调能量
Figure 696400DEST_PATH_IMAGE027
应用二维离散余弦变换得到余弦变换矩阵
Figure 137877DEST_PATH_IMAGE028
Figure 501862DEST_PATH_IMAGE029
Figure 250986DEST_PATH_IMAGE028
的前15行和前5列中选择的系数(不包括系数
Figure 451155DEST_PATH_IMAGE019
)作为音节的动态二维梅谱系数特征,动态二维梅谱系数特征向量
Figure 194857DEST_PATH_IMAGE030
表示为:
Figure 147770DEST_PATH_IMAGE031
步骤1.3、特征向量组合:
为了获得更好的分类结果,我们将上述两个特征向量(
Figure 820191DEST_PATH_IMAGE030
Figure 743541DEST_PATH_IMAGE020
)结合在一起,得到一个更大的特征向量,即组合特征向量
Figure 792399DEST_PATH_IMAGE032
,用于描述音节内的静态、动态和频谱过渡信息,
Figure 865398DEST_PATH_IMAGE032
Figure 207255DEST_PATH_IMAGE030
Figure 178753DEST_PATH_IMAGE020
级联而成,即,
Figure 267188DEST_PATH_IMAGE033
步骤1.4、特征值标准化:
在不损失通用性的前提下,用F表示计算出的音节特征向量(
Figure 945425DEST_PATH_IMAGE030
Figure 458184DEST_PATH_IMAGE020
Figure 103929DEST_PATH_IMAGE032
),对每个特征值进行归一化,使每个特征值的范围在0到1之间,表达为:
Figure 229011DEST_PATH_IMAGE034
其中
Figure 528799DEST_PATH_IMAGE035
为第
Figure 713924DEST_PATH_IMAGE036
个特征值,
Figure 158549DEST_PATH_IMAGE037
为归一化的第
Figure 274273DEST_PATH_IMAGE036
个特征值,
Figure 989419DEST_PATH_IMAGE038
Figure 772874DEST_PATH_IMAGE039
)表示第一个和第三个的四分位数,定义为所有训练音节的第
Figure 940682DEST_PATH_IMAGE036
个特征值的25%(或75%)小于或等于该值,极高和极低的特征值被归一化为1和0,使得归一化的特征值不受噪声的影响。计算每个特征值的第一个四分位数
Figure 860096DEST_PATH_IMAGE038
和第三个四分位数
Figure 928284DEST_PATH_IMAGE040
,在分类阶段,对于实际的归一化,从输入音节中提取的每个特征值使用参考四分位值(
Figure 392894DEST_PATH_IMAGE038
Figure 815042DEST_PATH_IMAGE040
)进行修改,以获得标准化值。
步骤2、主成分分析,其定义为数据在低维向量空间上的正交投影,使得投影数据的方差最大化。
步骤2.1、计算D维训练向量集
Figure 272568DEST_PATH_IMAGE041
的D维均值向量μ和
Figure 696727DEST_PATH_IMAGE042
方差矩阵
Figure 158670DEST_PATH_IMAGE043
Figure 238753DEST_PATH_IMAGE044
Figure 814484DEST_PATH_IMAGE045
步骤2.2、计算协方差矩阵
Figure 280101DEST_PATH_IMAGE043
的特征向量和相应的特征值,并按特征值的降序排序,特征向量
Figure 414410DEST_PATH_IMAGE046
与特征值
Figure 480324DEST_PATH_IMAGE047
Figure 92702DEST_PATH_IMAGE048
相关联,具有最大特征值的第一个特征向量d是
Figure 678404DEST_PATH_IMAGE049
变换矩阵
Figure 485079DEST_PATH_IMAGE050
的列,
Figure 336492DEST_PATH_IMAGE051
特征向量d的数量通过找到满足以下标准的最小整数来确定,
Figure 188779DEST_PATH_IMAGE052
其中,α为决定需要保留的信息百分比,根据变换矩阵
Figure 707616DEST_PATH_IMAGE050
计算出投影矢量
Figure 431332DEST_PATH_IMAGE053
Figure 222571DEST_PATH_IMAGE054
步骤3、原型向量生成
每只鸟的音频都由若干音节组成,音节具有不同的特点,从相同的鸟叫声中分割出的任何两个音节都可能有很大的不同,原型向量通过将来自同一鸟类的音节分类为若干子类别,从而将具有相似特征向量的音节聚类在一起,具体包括如下步骤:
步骤3.1、模型选择,
鸟类的高斯-贝斯模型如下:
Figure 176751DEST_PATH_IMAGE055
其中
Figure 986313DEST_PATH_IMAGE056
是训练向量集,
Figure 367747DEST_PATH_IMAGE057
是高斯参数集,
Figure 960796DEST_PATH_IMAGE058
表示由高斯使用训练向量集X建模的训练集
Figure 905618DEST_PATH_IMAGE059
的对数似然,M是混合分量的个数,d是每个特征向量的维数,N是训练向量的个数;混合权重的分配方式相同
Figure 133468DEST_PATH_IMAGE060
,计算各高斯分量的协方差矩阵替换为所有鸟类高斯的平均协方差矩阵
Figure 387601DEST_PATH_IMAGE061
Figure 700902DEST_PATH_IMAGE062
S表示鸟类物种的总类数,NS为第s种鸟类物种选择的高斯分量,
Figure 498350DEST_PATH_IMAGE063
是第s种鸟类物种的第j个高斯分量的协方差矩阵,平均协方差矩阵模型的贝斯计算如下:
Figure 846286DEST_PATH_IMAGE064
其中,M个高斯分量和一个公共对角协方差矩阵的d维均值向量被计数,如果
Figure 756473DEST_PATH_IMAGE065
Figure 55605DEST_PATH_IMAGE066
将被选为鸟类的最佳模型;否则,
Figure 92962DEST_PATH_IMAGE067
将是被选中的模型,当训练数据有限时,将选择基于
Figure 796869DEST_PATH_IMAGE067
的模型。如果有大量的训练数据,
Figure 956586DEST_PATH_IMAGE066
有望被选中。
步骤3.2、组件编号选择
将每个训练样本分配给最有可能产生训练样本的高斯分量,将训练数据分组成簇,用于模拟不同鸟类音频的聚类数必须因物种而异,取决于每种鸟类的声学变化来确定集群数量,用于模拟每种鸟类音频的聚类数的选择会影响分类精度,从一个单一的高斯分量开始,然后依次将一个选定的分量分解成两个新的高斯分量,重复选择和拆分过程,直到找到最合适数量的组件,使用贝斯模型用于查找要拆分的组件并确定适当的组件数目。
步骤4、线性判别分析
线性判别分析被用来在各种鸟类之间提供更高的可区分性,进一步提高低维特征空间的分类精度,线性判别分析试图最小化类内距离,同时最大化类间距离,在线性判别分析中,确定对应于从d维特征空间到k维空间的映射的最佳变换矩阵,其中k<d,最大化的线性映射
Figure 431430DEST_PATH_IMAGE068
为:
Figure 567751DEST_PATH_IMAGE069
其中,A为映射矩阵,SW和SB分别表示类内散布矩阵和类间散布矩阵,类内散布矩阵SW为:
Figure 562383DEST_PATH_IMAGE070
其中, S表示鸟类物种的总类数,Cs是分配给第s种鸟类物种的特征向量,μs是第s种鸟类物种的平均向量;
类间散布矩阵SB为:
Figure 382748DEST_PATH_IMAGE071
其中,Ns表示第s种鸟类物种中的特征向量数,μ是所有训练向量的平均向量,将训练向量集的多元正态分布转化为球面正态分布,特征向量及其对应的特征值SW是经过计算的。设Φ表示变换矩阵,其列是SW的正交特征向量,∧表示相应特征值的对角矩阵,从而得到,
Figure 344887DEST_PATH_IMAGE072
,每个训练向量
Figure 786364DEST_PATH_IMAGE073
通过进行变换得到
Figure 196355DEST_PATH_IMAGE074
Figure 635557DEST_PATH_IMAGE075
白化矢量的类内散布矩阵
Figure 84993DEST_PATH_IMAGE076
成为一个单位矩阵,
白化矢量的类间散布矩阵
Figure 566046DEST_PATH_IMAGE077
包含所有的鉴别信息,变换矩阵Φ通过寻找
Figure 535271DEST_PATH_IMAGE078
的特征向量来确定,假设特征值按降序排列,对应于最大
Figure 706227DEST_PATH_IMAGE079
个特征值的特征向量将构成变换矩阵Ψ的列,最优变换矩阵ALDA被定义为:
Figure 190429DEST_PATH_IMAGE080
ALDA用于将每个主成分分析变换的d维特征向量变换为低维向量,
Figure 426238DEST_PATH_IMAGE053
表示一个d维主成分分析变换向量,线性判别分析变换的k维特征向量通过以下方式计算
Figure 813750DEST_PATH_IMAGE081
步骤5、分类,
基于最近邻分类器对每个音节进行分类,计算每个输入音节的特征向量,对每个特征值应用相同的规范化,利用主成分分析变换矩阵
Figure 594756DEST_PATH_IMAGE050
和线性判别分析变换矩阵ALDA对归一化特征向量进行变换,得到最终的特征矢量f,
Figure 64789DEST_PATH_IMAGE082
每种鸟类的原型向量之间的距离用欧几里德距离来度量,sc代表分类鸟类种类的标准向量,是通过找到距离f最短的原型向量来确定,表示为:
Figure 573131DEST_PATH_IMAGE083
fs,j表示第s种鸟类物种的第j个原型向量,Ns是第s种鸟类物种的原型向量的数量,通过sc确定音频的鸟类的种类。
上述方法为通过音频对鸟类进行分类或区分提供了一种新的工具,鸟类音频在不同物种之间是不同的,即使是同一物种也可能发出许多不同类型的音频,上述自动分类方法利用特征集二维梅谱系数和动态二维梅谱系数作为发声特征,对连续鸟类音频录音中的每个音节进行分类,从不同的录音中分割出测试音节和训练音节。将二维梅谱系数和动态二维梅谱系数结合起来,对28种鸟类的分类精度可达84.06%,鸟类的种类很容易被识别出来。
其中,分离的具体过程如下:
参见图4 所示,步骤1,傅里叶变换,
对于一个任意分布函数x和一个测试函数ψ,在内积<,>上满足:
Figure 579264DEST_PATH_IMAGE084
,
则对于鸟类音频信号s视为一个分布,其满足:
Figure 32636DEST_PATH_IMAGE085
其中<,>表示内积,'表示导数,w为有限时间窗函数,s为鸟类音频信号;
具有频率ω傅里叶变换函数Sw(ω)写成:
Figure 491430DEST_PATH_IMAGE086
步骤2,转换正弦曲线函数:
Figure 803463DEST_PATH_IMAGE087
s(t)表示正弦曲线函数,t表示时间,r(t)表示非平稳函数,rk表示非平稳参数,k表示阶数,C表示正整数,
以下等式:
Figure 162637DEST_PATH_IMAGE089
其中:
Figure 285445DEST_PATH_IMAGE090
对于任何有限时间窗函数w,可用于定义相对于非平稳参数rk,k>0的线性方程组。
步骤3,参数估计,
估计出非平稳参数rk,k>0,估计出复平稳参数r0,根据
Figure 744719DEST_PATH_IMAGE091
,得到
Figure 860443DEST_PATH_IMAGE092
其中,
Figure 575589DEST_PATH_IMAGE093
表示对非平稳函数
Figure 367833DEST_PATH_IMAGE094
的估计函数。
步骤4,估算鸟类音频的频率变化,
用估计值
Figure 535641DEST_PATH_IMAGE095
,k>0代替参数rk,k>0,得到
Figure 455055DEST_PATH_IMAGE096
的估计值
Figure DEST_PATH_IMAGE097
,线性系统以不同频率下的值
Figure 339222DEST_PATH_IMAGE098
形成,最宽的主瓣宽度为
Figure 364685DEST_PATH_IMAGE099
,总共5个部分,将典型的鸟类音频的频率变化从真实记录中估算出来。
步骤5,分离音频,
频率下限ωL和频率上限ωH的频率和幅度估计值对
Figure 472318DEST_PATH_IMAGE098
的频谱进行划分,从而得到分离的单一的鸟类音频,下面进行识别。
其中,单一的鸟类音频的识别方法包括模型匹配和小波识别两种,
其中,模型匹配的具体过程如下:
参见图5 所示,步骤1、采集数据,
获取鸟类在不同地点和不同时期的单独音频记录,并提交给声纹数据库,按照44.1kHz采样率、1024帧以及50%有限时间窗的标准进行数据处理,获取标准频谱。
步骤2、匹配模型
识别声场中的多个声源的任务使用已建立的多识别范例来完成,为了识别不同数量的鸟类音频源,引入了一个多重识别模型。
多个声源观测值的当前状态随机决定以下状态以及它们之间的时间间隔如下表示:
Figure 742893DEST_PATH_IMAGE101
其中,P表示条件概率,t表示特定时间,Yi表示第i个标准频谱,
Figure 668518DEST_PATH_IMAGE102
表示观测值序列,Xn表示第n种状态,Tn表示第n种的时间,
Figure 569609DEST_PATH_IMAGE103
表示
Figure 210543DEST_PATH_IMAGE104
时差,C表示正整数,
观测值代表单个序列,则
Figure 19230DEST_PATH_IMAGE103
是已知的且固定,但如果观测值可能代表多个序列以及杂波噪声,则因果结构未知,
Figure 750426DEST_PATH_IMAGE103
被隐藏,在这种情况下,通过选择将数据划分为K个簇加上H个噪声事件来估计结构,从而使可能性最大化,即
Figure 386200DEST_PATH_IMAGE105
式中,L表示估计结构,
Figure 750316DEST_PATH_IMAGE106
表示由单个MRP生成的第k组中观测子序列的可能性,
Figure 64492DEST_PATH_IMAGE107
表示第η个噪声数据的可能性。
步骤3、音频识别,
使用互相关模板匹配范式来检测鸟类音频的单个音节,从标准频谱中检测音节,求取最大似然解从而实现对鸟类音频的识别。
上述技术从改进的基本谱图表示使用一系列的频谱库来推断有关调制正弦波的详细信息,这在鸟类音频尤其适用,实现了快速的音频识别。
其中,小波变换的过程包括预处理、特征提取和识别,具体如下所述,
参见图6 所示,步骤1、预处理,
通过预处理对一段音节进行适当的分割以提取特征,具体为:
步骤1.1、音节端点检测,如下所述:
步骤1.1.1、计算帧大小为N=512的
Figure 463243DEST_PATH_IMAGE108
的短时傅里叶变换
Figure 689825DEST_PATH_IMAGE109
Figure 296563DEST_PATH_IMAGE110
其中,m是帧编号,用于短时分析的汉明窗口
Figure 712632DEST_PATH_IMAGE111
有以下形式:
Figure 402108DEST_PATH_IMAGE112
步骤1.1.2、通过对齐所有帧的频谱,形成信号的频谱图,
Figure 878220DEST_PATH_IMAGE113
,其中M是
Figure 403879DEST_PATH_IMAGE108
的帧数。
步骤1.1.3、对于每一帧m,找到具有最大幅度的频率仓
Figure 125104DEST_PATH_IMAGE114
Figure 436131DEST_PATH_IMAGE115
步骤1.1.4、初始化音节j,j=1。
步骤1.1.5、计算出现最大幅度的帧t,
Figure 316100DEST_PATH_IMAGE116
音节j幅度为Aj,则
Figure 407684DEST_PATH_IMAGE117
步骤1.1.6、从第t帧开始,向后和向前移动到第hj帧和第tj帧,如果二者的幅度
Figure 352506DEST_PATH_IMAGE118
Figure 81821DEST_PATH_IMAGE119
都小于
Figure 571839DEST_PATH_IMAGE120
,那么第hj帧和第tj帧被称为音节j的头帧和尾帧。
步骤1.1.7、设置
Figure 383675DEST_PATH_IMAGE121
步骤1.1.8、
Figure 132189DEST_PATH_IMAGE122
步骤1.1.9、返回步骤1.1.6,直到
Figure 214545DEST_PATH_IMAGE123
,通过以上步骤,得到每个音节的边界。
步骤1.2、标准化和预增强
通过标准化过程调节由于记录环境的多样性而引起的语音幅度的差异,幅度线性归一化到[-1,1]区域,由于高频信号的幅度通常比低频信号的幅度小得多,因此采用了预相位技术来增强高频信号,增通过一个有限脉冲响应(FIR)滤波器H(z)实现的,其形式如下:
Figure 642509DEST_PATH_IMAGE124
H(z)使得信号
Figure 443106DEST_PATH_IMAGE125
的滤波处理后的信号
Figure 729731DEST_PATH_IMAGE126
具有以下性质:
Figure 430708DEST_PATH_IMAGE127
其中,a是相似度,介于0、9和1之间,本发明将其设为0.95。
步骤1.3、分段
以一段音节为中心进行切分,而不是单个音节的切分,由于鸟类音频的音节通常是重复的,提取一段音节的特征向量对于鸟类音频识别是很有实用价值的。在端点检测、归一化和预加重之后,通过检测音节的重复来完成切分过程。
步骤1.3.1、将设为分段的第一个音节的索引。
步骤1.3.2、找出音节i和j之间的相似度a小于
Figure 528108DEST_PATH_IMAGE128
的音节j好,其中j是分段的最后一个音节。
步骤1.3.3、设置分段长度
Figure 63606DEST_PATH_IMAGE129
步骤1.3.4、设置
Figure 153921DEST_PATH_IMAGE130
步骤1.3.5、设定
Figure 210870DEST_PATH_IMAGE131
Figure 977707DEST_PATH_IMAGE132
步骤1.3.6、计算音节k和音节i之间的相似性
Figure 752896DEST_PATH_IMAGE133
步骤1.3.7、如果
Figure 381323DEST_PATH_IMAGE134
(同类型),并且
Figure 794244DEST_PATH_IMAGE135
,则停止分段,分段是从音节1到音节l;
如果
Figure 233446DEST_PATH_IMAGE136
,则
Figure 728887DEST_PATH_IMAGE137
转到步骤1.3.5;
否则,设置
Figure 161006DEST_PATH_IMAGE138
Figure 192547DEST_PATH_IMAGE139
,然后转到步骤1.3.6。
步骤1.3.8、如果
Figure 366433DEST_PATH_IMAGE140
,则
Figure 850635DEST_PATH_IMAGE137
,转到步骤1.3.5。
步骤1.3.9、设置k1,1,l 1,然后转到步骤1.3.6。
两个音节之间的相似性是通过计算相应频率仓的幅度之间的差异来确定的,由于鸟类音频的音节类型通常在6以内,a被设置为使l满足
Figure 70132DEST_PATH_IMAGE141
的值,分段后,对分段后的音节进行对齐以进行特征提取。
步骤2、特征提取,
音节分段后,计算鸟类音频的特征向量对齐音节,获取特征向量小波倒谱变换具体为:
步骤2.1、计算每个帧的倒谱系数,计算每个帧的倒谱系数的步骤如下:
步骤2.1.1、计算每个帧信号的快速傅立叶变换,
Figure 956180DEST_PATH_IMAGE142
步骤2.1.2、计算每个三角形滤波器带的能量,
Figure 300967DEST_PATH_IMAGE143
式中,
Figure 459416DEST_PATH_IMAGE144
表示第j个三角形滤波器在频率k处的幅度,Ej表示第j个滤波器带的能量,J是三角形滤波器的数量。
步骤2.1.3、用余弦变换计算倒谱系数,
Figure 46386DEST_PATH_IMAGE145
其中
Figure 488738DEST_PATH_IMAGE146
表示第i帧的m阶倒谱系数。
步骤2.2、使用小波倒谱变换形成的特征向量,在获得对齐鸟类音频信号每帧的倒谱系数后,通过计算小波倒谱变换来获得鸟类音频的特征向量,如下所述:
步骤2.2.1、采集对齐信号所有帧的倒谱系数,
Figure 502961DEST_PATH_IMAGE147
式中,L是倒谱系数的总阶数。
步骤2.2.2、对齐相同顺序的倒谱系数,
Figure 185922DEST_PATH_IMAGE148
步骤2.2.3、计算
Figure 763534DEST_PATH_IMAGE149
的三级小波变换,
Figure 624174DEST_PATH_IMAGE150
Figure 245517DEST_PATH_IMAGE151
其中,δ[n]和d[n]表示
Figure 988345DEST_PATH_IMAGE149
的低频和高频分量,h0[k]和h1[k]是变换中应用的低通和高通滤波器,为:
Figure 356266DEST_PATH_IMAGE152
Figure 71412DEST_PATH_IMAGE153
Figure 988290DEST_PATH_IMAGE149
六个序列进行小波倒谱变换转换,表示为
Figure 359360DEST_PATH_IMAGE154
Figure 327709DEST_PATH_IMAGE155
Figure 349892DEST_PATH_IMAGE156
Figure 876819DEST_PATH_IMAGE157
Figure 968141DEST_PATH_IMAGE158
Figure 238716DEST_PATH_IMAGE159
步骤2.2.4、计算六个序列中每个序列的平均值,表示为
Figure 115405DEST_PATH_IMAGE160
Figure 314699DEST_PATH_IMAGE161
Figure 394782DEST_PATH_IMAGE162
Figure 967583DEST_PATH_IMAGE163
Figure 698779DEST_PATH_IMAGE164
Figure DEST_PATH_IMAGE165
步骤2.2.5、利用所有前五阶倒谱系数序列的六个平均值形成特征向量
Figure DEST_PATH_IMAGE166
步骤3、使用BP神经网络进行识别
在训练过程中,训练音节的特征向量作为输入,对应的鸟类物种作为期望输出,输入层的节点数等于训练向量的维数,而输出层的节点数等于鸟种的数量。隐藏层中的节点数被设置为另外两层的平均值,隐藏节点和输出节点使用激活函数,一个测试鸟类音频是通过与训练部分相同的过程获得的。将特征向量输入到bp神经网络后,网络的输出表明了测试鸟叫声所属的物种类别。
目前的鸟叫声识别技术大多数是利用单个音节的特征来构成每种鸟类的特征向量,本发明不使用单个音节,而是使用包含一个音节周期的鸟类音频片段来提取特征向量。实验结果表明,与传统方法相比,该方法明显提高了识别率。该方法在检测每个音节的范围后,对包含一个音节周期的鸟类音频片段进行分割。
以上所述实施方式仅表达了本发明的一种实施方式,但并不能因此而理解为对本发明范围的限制。应当指出,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (6)

1.一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法,所述具有噪音去除的鸟类识别综合管理系统,包括业务层、数据层、展示层,
业务层包括用户系统、业务系统、算法系统三大系统组成,用户系统用来管理平台用户操作行为及信息管理;业务系统用于管理整个平台模块之间的业务,包括音频地址管理、鸟类声纹采集、鸟类音频识别信息;算法系统通过人工智能声纹识别检测音频中的鸟类的类型并给出合理的检测反馈信息;
数据层用于数据存储,分为数据中心、系统数据库、声纹数据库,数据中心用于存储各种业务数据,包括鸟类识别种类、数量、日期、位置;系统数据库存储系统模块之间的业务关系数据,包括声纹、音频存放地址;声纹数据库存储所有鸟类音频数据;
展示层通过WEB端输出各功能模块之间交互返回的结果,开放API接口调用方法开发者通过相关开放接口地址按照提供的调用规则进行调用;
业务系统通过音频提取设备获取岛上的各种鸟类音频并提供频谱-时间空间界面进行录制、定位、分析、注解、分类,算法系统作为后台系统通过人工智能声纹识别实现相应的功能,人工智能声纹识别包括噪声去除、多音频分离、自动分类、单一识别,噪声去除包括片段分割和事件检测;
其特征在于片段分割具体为:
步骤1、通过短时傅里叶变换对音频数据进行处理;
步骤2、分割检测,
步骤3、依据绝对最大值进行归一化,
步骤4、移除高于20 kHz和低于340 kHz的频率赫兹得音频;自然界中这些频率中没有鸟叫声发生,因此是噪声予以滤出;
步骤5、通过对每一频率和每一时间帧的频谱图进行中值剪切得到二值图像,以消除噪声,具体为:如果频谱图中的像素值大于其对应行和列中值的3倍,则将像素设为1,否则设为0;
步骤6、应用闭合运算以填充当前功能任何小孔,闭合运算应用于大小为(3,3)的矩形邻域;
步骤7、移除小于5像素的连接组件;
步骤8、 在大小为(7,7)的矩形邻域中应用膨胀扩张,膨胀算法将位于(i,j)处的像素设置为以(i,j)为中心的邻域中所有像素的最大值,扩张是为了扩大包含特征的区域,并去除被认为是噪声的小物体;
步骤9、使用中值滤波器对图像滤波;
步骤10、移除小于150像素部分,从而将二值频谱图像切分;
步骤11、在半径为3的圆形区域重新进行扩张;
步骤12、将所有连接的像素定义为一个片段,进行片段分割;
步骤13、计算每个片段的大小和位置。
2.根据权利要求1所述的噪音去除方法,其特征在于事件检测具体为:
对于每个片段,创建可标签列表,初始化为包含该片段的记录的弱标签,分类过程将通过演绎消除该片段中不太可能出现的标签,将该片段的列表缩短为一个或多个标签,每个需要标记的片段通过匹配模板函数进行归一化相关,与不同的记录进行匹配,以获得所有可能的标签匹配,归一化相关用于将模板与二维目标图像匹配,与目标图像大小相同的响应图像,模板和目标图像之间的相关系数在-1、0和1、0之间,通过搜索响应图像中的最大峰值,找到片段与特定记录之间的匹配值,相似的鸟叫声应该出现在相似的频率上,将匹配模板应用于较小的频率范围;
在一个单独的训练集合中,没有一个单独的训练需要分类,分类过程中找到一个片段匹配的机会随着每个物种发声的变化而增加,这一过程分为三个不同的过程,如下所述:
步骤1、第一次匹配
为每个片段创建一组记录来查找匹配,表示由初始化列表生成的不同标签组合,录制在其弱标签中存在标签,对于需要标签的每个片段,将搜索记录列表,增加弱标签的数量,直到找到匹配项或不再有剩余的记录,匹配模板返回响应图像中的最大峰值,当匹配模板返回的相似率为0、4或更大时,为找到匹配;
步骤2、第二次匹配,
第二次匹配解决第一次匹配未匹配片段,音频记录的所有标签至少分配给一个片段,当音频记录中有未匹配片段和没有对应段的标签时,将未分配的标签分配给所有未匹配片段;
步骤3、第三次匹配,
在两次匹配后,音频记录中仍有未分配的标签,需要将音频记录的所有标签分配给至少一个片段,在所有片段都有标签但某些弱标签没有分配给任何段的记录中,必须有一些标签被分配到多个段,不止一个段有这个标签,但是当一个标签未被分配时,假设与同一个标签匹配的其中一个片段被错误分类,在其余标签的多个片段中搜索任何未分配标签的最佳匹配;如果找到匹配项,则从其派生的段的标签将更改为未分配的标签。
3.根据权利要求1所述的噪音去除方法,其特征在于自动分类具体为:
步骤1、特征提取,对于大多数鸟叫声,在每个音节内,相邻的分析帧之间或多或少存在时间上的变化,在音节识别中,具有最大频谱转换的音频部分包含了最重要的信息,动态二维梅谱系数被用来描述音节内的急变;
步骤2、主成分分析,
其定义为数据在低维向量空间上的正交投影,使得投影数据的方差最大化;
步骤3、原型向量生成,每只鸟的音频都由若干音节组成,音节具有不同的特点,从相同的鸟叫声中分割出的任何两个音节都可能有很大的不同,原型向量通过将来自同一鸟类的音节分类为若干子类别,从而将具有相似特征向量的音节聚类在一起;
步骤4、线性判别分析,线性判别分析被用来在各种鸟类之间提供更高的可区分性,进一步提高低维特征空间的分类精度,线性判别分析试图最小化类内距离,同时最大化类间距离,在线性判别分析中,确定对应于从d维特征空间到k维空间的映射的最佳变换矩阵;
步骤5、分类,基于最近邻分类器对每个音节进行分类,计算每个输入音节的特征向量,对每个特征值应用相同的规范化,利用主成分分析变换矩阵和线性判别分析变换矩阵对归一化特征向量进行变换,得到最终的特征矢量。
4.根据权利要求1所述的噪音去除方法,其特征在于多音频分离的过程如下:
步骤1,傅里叶变换;
步骤2,转换正弦曲线函数;
步骤3,参数估计;
步骤4,估算鸟类音频的频率变化;
步骤5,分离音频。
5.根据权利要求4所述的噪音去除方法,其特征在于单一的鸟类音频的模型匹配识别方法包括如下步骤:
步骤1、采集数据;
步骤2、匹配模型;
步骤3、音频识别。
6.根据权利要求4所述的噪音去除方法,其特征在于单一的鸟类音频的小波变换识别方法包括如下步骤:
步骤1、预处理,通过预处理对一段音节进行适当的分割以提取特征,具体为:
步骤1.1、音节端点检测;
步骤1.2、标准化和预增强,通过标准化过程调节由于记录环境的多样性而引起的语音幅度的差异,幅度线性归一化到[-1,1]区域,由于高频信号的幅度比低频信号的幅度小得多,预相位技术来增强高频信号,通过一个有限脉冲响应滤波器实现;
步骤1.3、分段,以一段音节为中心进行切分,而不是单个音节的切分,鸟类音频的音节是重复的,提取一段音节的特征向量对于鸟类音频识别,在端点检测、归一化和预加重之后,通过检测音节的重复来完成切分过程;
步骤2、特征提取,音节分段后,计算鸟类音频的特征向量对齐音节,获取特征向量小波倒谱变换,具体为:
步骤2.1、计算每个帧的倒谱系数;
步骤2.2、使用小波倒谱变换形成的特征向量,在获得对齐鸟类音频信号每帧的倒谱系数后,通过计算小波倒谱变换来获得鸟类音频的特征向量;
步骤3、使用BP神经网络进行识别,在训练过程中,训练音节的特征向量作为输入,对应的鸟类物种作为期望输出,输入层的节点数等于训练向量的维数,而输出层的节点数等于鸟种的数量;隐藏层中的节点数被设置为另外两层的平均值,隐藏节点和输出节点使用激活函数,一个测试鸟类音频是通过与训练部分相同的过程获得的;将特征向量输入到BP神经网络后,网络的输出表明了测试鸟叫声所属的物种类别。
CN202011562195.0A 2020-12-25 2020-12-25 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法 Active CN112289326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011562195.0A CN112289326B (zh) 2020-12-25 2020-12-25 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011562195.0A CN112289326B (zh) 2020-12-25 2020-12-25 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法

Publications (2)

Publication Number Publication Date
CN112289326A CN112289326A (zh) 2021-01-29
CN112289326B true CN112289326B (zh) 2021-04-06

Family

ID=74426342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011562195.0A Active CN112289326B (zh) 2020-12-25 2020-12-25 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法

Country Status (1)

Country Link
CN (1) CN112289326B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643689B (zh) * 2021-07-02 2023-08-18 北京华捷艾米科技有限公司 一种数据滤波方法和相关设备
CN115299428A (zh) * 2022-08-04 2022-11-08 国网江苏省电力有限公司南通供电分公司 一种基于深度学习的物联网智能驱鸟系统
CN117095694B (zh) * 2023-10-18 2024-02-23 中国科学技术大学 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN117746871A (zh) * 2024-02-21 2024-03-22 南方科技大学 一种基于云端检测鸟类鸣声的方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US7454334B2 (en) * 2003-08-28 2008-11-18 Wildlife Acoustics, Inc. Method and apparatus for automatically identifying animal species from their vocalizations
US20110058676A1 (en) * 2009-09-07 2011-03-10 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dereverberation of multichannel signal
US9177559B2 (en) * 2012-04-24 2015-11-03 Tom Stephenson Method and apparatus for analyzing animal vocalizations, extracting identification characteristics, and using databases of these characteristics for identifying the species of vocalizing animals
CN104700829B (zh) * 2015-03-30 2018-05-01 中南民族大学 动物声音情绪识别系统及其方法
JP2018179523A (ja) * 2017-04-03 2018-11-15 アジア航測株式会社 物標識別装置及び物標識別プログラム
CN109427017A (zh) * 2017-08-24 2019-03-05 中兴通讯股份有限公司 一种提示方法及装置
CN110730331B (zh) * 2019-09-29 2020-11-17 浙江海洋大学 一种联合影像与声学识别技术的鸟类在线监测系统及方法
CN111862993A (zh) * 2020-08-10 2020-10-30 江苏叁拾柒号仓智能科技有限公司 一种基于卷积神经网络的野生动物优化的识别算法

Also Published As

Publication number Publication date
CN112289326A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN112289326B (zh) 一种利用具有噪音去除的鸟类识别综合管理系统的噪音去除方法
Priyadarshani et al. Automated birdsong recognition in complex acoustic environments: a review
Barchiesi et al. Acoustic scene classification: Classifying environments from the sounds they produce
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
Tzanetakis et al. Marsyas: A framework for audio analysis
Stowell Computational bioacoustic scene analysis
Kvsn et al. Bioacoustics data analysis–A taxonomy, survey and open challenges
Xie et al. Adaptive frequency scaled wavelet packet decomposition for frog call classification
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
Allen et al. Using self-organizing maps to classify humpback whale song units and quantify their similarity
Fagerlund et al. New parametric representations of bird sounds for automatic classification
Ranjard et al. Integration over song classification replicates: Song variant analysis in the hihi
Wang et al. Playing technique recognition by joint time–frequency scattering
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
CN112735444B (zh) 一种具有模型匹配的中华凤头燕鸥识别系统及其模型匹配方法
Ruiz-Muñoz et al. Enhancing the dissimilarity-based classification of birdsong recordings
CN112735442B (zh) 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法
Mohammed Overlapped speech and music segmentation using singular spectrum analysis and random forests
Marck et al. Identification, analysis and characterization of base units of bird vocal communication: The white spectacled bulbul (Pycnonotus xanthopygos) as a case study
CN112735443A (zh) 一种具有自动分类的海洋空间资源管理系统及其自动分类方法
Fagerlund Studies on bird vocalization detection and classification of species
Sunouchi et al. Diversity-Robust Acoustic Feature Signatures Based on Multiscale Fractal Dimension for Similarity Search of Environmental Sounds
Hasan Bird Species Classification And Acoustic Features Selection Based on Distributed Neural Network with Two Stage Windowing of Short-Term Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant