CN111276151A - 一种鸟声识别系统及识别方法 - Google Patents

一种鸟声识别系统及识别方法 Download PDF

Info

Publication number
CN111276151A
CN111276151A CN202010068386.5A CN202010068386A CN111276151A CN 111276151 A CN111276151 A CN 111276151A CN 202010068386 A CN202010068386 A CN 202010068386A CN 111276151 A CN111276151 A CN 111276151A
Authority
CN
China
Prior art keywords
sound
bird
sound source
bird sound
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010068386.5A
Other languages
English (en)
Other versions
CN111276151B (zh
Inventor
范雪环
娄丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZEHO WATERFRONT ECOLOGICAL ENVIRONMENT TREATMENT CORP
Original Assignee
BEIJING ZEHO WATERFRONT ECOLOGICAL ENVIRONMENT TREATMENT CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING ZEHO WATERFRONT ECOLOGICAL ENVIRONMENT TREATMENT CORP filed Critical BEIJING ZEHO WATERFRONT ECOLOGICAL ENVIRONMENT TREATMENT CORP
Priority to CN202010068386.5A priority Critical patent/CN111276151B/zh
Publication of CN111276151A publication Critical patent/CN111276151A/zh
Application granted granted Critical
Publication of CN111276151B publication Critical patent/CN111276151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种鸟声识别系统及识别方法,其采用了特定的定向收音方法,对目标鸟声进行高精度追踪识别,缩小了接收音源的范围,可在较大程度上降低背景噪声干扰,提升了检测识别精度,并实现了精准定位识别。同时针对鸟声的声音谱率较高,鸟声具有多个短促高音连续或是不连续高频发声的特点,指定了后续强化处理方案,其利用神经网络模型,可实现实现高精度分别识别处理,从而显著提升了鸟类鸟声识别精度,为鸟类种群研究提供了良好的技术支持。

Description

一种鸟声识别系统及识别方法
技术领域
本发明涉及鸟类种群识别技术领域,尤其涉及一种鸟声识别系统及识别方法。
背景技术
种群指在一定时间内占据一定空间的同种生物的所有个体。种群中的个体并不是机械地集合在一起,而是彼此可以交配,并通过繁殖将各自的基因传给后代。种群是进化的基本单位,同一种群的所有生物共用一个基因库。对种群的研究主要是其数量变化与种内关系,种间关系的内容已属于生物群落的研究范畴。
种群特征研究一般包括种群的数量特征(种群密度)、年龄结构、性别比例、迁入率和迁出率、空间特征等。其中种群密度是指在单位面积或体积中的个体数,种群密度是种群最基本的数量特征。在现有技术中,生态学中鸟类的种群特征研究部分采用基于声学的方式对鸟类种类进行识别。
但是现有技术中的基于声学对鸟类种类进行识别的方式,检测识别精度较差,因此现有技术中所处环境样本背景噪音较大,很难保障声音特征识别的精准度;通常情况下,识别方法主要为录取声音样本-样本背景降噪-声音特征识别的方法进行辨别,该情况下通常存在背景噪声较大、声音种类繁杂等问题,导致需要识别鸟类声音识别率低下。同时鸟声的声音谱率较高,鸟声具有多个短促高音连续或是不连续高频发声的特点,因此基于此现象很难实现精准的鸟声识别。
综上,如何克服传统技术中的上述技术缺陷是本领域技术人员急需解决的技术问题。
发明内容
本发明的目的在于提供一种鸟声识别系统及识别方法,以解决上述问题。
为了达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种鸟声识别系统,包括初级声源识别装置、预处理装置,控制单元、执行机构、定向定位收音装置和后处理声音识别单元,其中:
初级声源识别装置,监听现场的混合声音信息;
预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录所述当前鸟声声源的位置信息和所述音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进而实现对目标鸟声声源进行追踪;
定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
所述控制单元对目标鸟声声源的强化识别数据进行存储。
优选的,作为一种可实施方案;所述预处理装置包括第一麦克风阵列模块;第一麦克风阵列模块,用于全方向监听现场的混合声音信息。
优选的,作为一种可实施方案;所述预处理装置包括第一处理子模块、预处理MCU模块和第二处理子模块;
第一处理子模块,用于对监听现场的混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
预处理MCU模块,用于首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
第二处理子模块,用于根据所述声音有效帧确定当前鸟声声源。
优选的,作为一种可实施方案;所述控制单元包括解析子单元、控制计算子单元和转角控制子单元,其中;
解析子单元,用于初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
控制计算子单元,用于根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
转角控制子单元,用于将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
优选的,作为一种可实施方案;所述定向定位收音装置包括第二麦克风阵列模块和声呐阵列采集设备,其中;
第二麦克风阵列模块对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;当第二麦克风阵列模块对再次位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
优选的,作为一种可实施方案;所述定向定位收音装置还用于对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度;
所述后处理声音识别单元,包括划分单元、搜集单元、分析单元、神经网络建模单元、测试识别单元;
划分单元,用于将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
搜集单元,用于预先搜集鸟声发声的声音信号,并对声音信号进行预处理;即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;
分析单元,用于利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
神经网络建模单元,用于计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
测试识别单元,用于将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。
一种鸟声识别方法,利用上述鸟声识别系统实施鸟声声源精准定位和识别操作,包括如下操作方法:
步骤S1:初级声源识别装置,监听现场的混合声音信息;
步骤S2:预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录所述当前鸟声声源的位置信息和所述音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
步骤S3:控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置,进而实现对目标鸟声声源进行追踪;
步骤S4:定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
步骤S5:后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
步骤S6:所述控制单元对目标鸟声声源的强化识别数据进行存储。
优选的,作为一种可实施方案;在执行步骤S1中,初级声源识别装置中的第一麦克风阵列模块实现全方向监听现场的混合声音信息。
在执行步骤S2中,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,具体包括如下操作步骤:
步骤S21:对混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
步骤S22:预处理MCU模块首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
步骤S23:根据所述声音有效帧确定当前鸟声声源。
优选的,作为一种可实施方案;在执行步骤S3中:根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,具体包括如下技术操作:
步骤S31:初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
步骤S32:根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
步骤S33:将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
优选的,作为一种可实施方案;在执行步骤S4中,定向定位收音装置,持续监听追踪到的目标鸟声声源,包括如下操作步骤:
步骤S41:第二麦克风阵列模块对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;
步骤S42:当第二麦克风阵列模块对再次位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
优选的,作为一种可实施方案;在执行步骤S4中,定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,具体包括如下操作步骤:
步骤S43:定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度;
步骤S5中,所述后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,具体包括如下操作步骤:
步骤S51:将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
步骤S52:预先搜集鸟声发声的声音信号,并对声音信号进行预处理;即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;
步骤S53:利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
步骤S54:计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
步骤S55:将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。
与现有技术相比,本发明实施例的优点在于:
本发明提供的一种鸟声识别系统及识别方法,分析上述的鸟声识别方法主要技术内容可知:上述鸟声识别方法,主要实施了如下操作步骤:
初级声源识别装置,监听现场的混合声音信息;
预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录当前鸟声声源的位置信息和音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使定向定位收音装置的收音方向始终朝向当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进而实现对目标鸟声声源进行追踪;
定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;控制单元对目标鸟声声源的强化识别数据进行存储。
分析上述鸟声识别系统可知,从声音前处理角度就开始介入,利用初级声源识别装置中的第一麦克风阵列模块全方向广泛收集采集声音信号的方式;从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置;在控制单元解析定位位置后,控制单元根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使定向定位收音装置的收音方向始终朝向当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进行定向声音采样,并将采样的目标声源信息传递给控制单元便于其后续进行后处理强化识别;此时定向定位收音装置利用第二麦克风阵列模块和声呐阵列采集设备再次对鸟类声源进行高精度定位,此时定向定位收音装置也只能收取一定夹角范围内的音源鸟类移动时(此时可理解为鸟声声源也在移动);这样在后处理强化识别之前,就将接收音源的范围缩小了,可在较大程度上降低背景噪声干扰,减少了识别大量复杂声源的数量,实现了精准定位识别。然而在后处理声音识别单元进行强化识别时(即对目标鸟声声源的声音信号进行真正的强化识别处理,即二次识别),具体针对鸟声短促高音频谱的特点采用了特定的识别方法,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元。
很显然,上述鸟声识别系统及识别方法,从声音前处理角度就开始介入,从声音前处理角度就开始介入,利用初级声源识别装置中的第一麦克风阵列模块全方向广泛收集采集声音信号的方式;从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置(即一次识别和定位操作);在控制单元解析定位位置后,控制单元根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使定向定位收音装置的收音方向始终朝向当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进行定向声音采样,并将采样的目标声源信息传递给控制单元便于其后续进行后处理强化识别;此时定向定位收音装置利用第二麦克风阵列模块和声呐阵列采集设备再次对鸟类声源进行高精度定位(即二次定位操作),此时定向定位收音装置也只能收取一定夹角范围内的音源鸟类移动时(此时可理解为鸟声声源也在移动);这样在后处理强化识别之前,就将接收音源的范围缩小了,可在较大程度上降低背景噪声干扰,减少了识别大量复杂声源的数量,实现了精准定位识别。这种处理方式相比较传统不转动,不定向追踪的采样方式,其背景噪声小的多,背景噪声的复杂性也会降低。
然而在后处理声音识别单元进行强化识别时(即对目标鸟声声源的声音信号进行真正的强化识别处理,即二次识别操作),具体针对鸟声短促高音频谱的特点采用了特定的识别方法,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元。同时上述鸟声识别系统建立了高分辨率的神经网络算法模型,大大提高识别工作效率。在具体实施时,按照如下操作步骤执行:将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;利用能量检测算法对当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;将采集的目标鸟声声源的一段声音信号的高音频谱片段信号作为测试集,利用神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的鸟声识别系统的主要原理结构示意图;
图2为本发明实施例提供的鸟声识别系统中的初级声源识别装置结构原理示意图;
图3为本发明实施例提供的鸟声识别系统中的预处理装置结构原理示意图;
图4为本发明实施例提供的鸟声识别系统中的控制单元结构原理示意图;
图5为本发明实施例提供的鸟声识别系统中的定向定位收音装置结构原理示意图;
图6为本发明实施例提供的鸟声识别系统中的后处理声音识别单元结构原理示意图;
图7为本发明实施例提供的鸟声识别方法的流程示意图。
标号:
初级声源识别装置10;第一麦克风阵列模块11;
预处理装置20;第一处理子模块21;预处理MCU模块22;第二处理子模块23;
控制单元30;解析子单元31;控制计算子单元32;转角控制子单元33;
执行机构40;
定向定位收音装置50;第二麦克风阵列模块51;声呐阵列采集设备52;
后处理声音识别单元60;划分单元61;搜集单元62;分析单元63;神经网络建模单元64;测试识别单元65。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,某些指示的方位或位置关系的词语,其仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。
实施例一
参见图1,本发明实施例一提供了一种鸟声识别系统,包括初级声源识别装置10、预处理装置20,控制单元30、执行机构40、定向定位收音装置50和后处理声音识别单元60,其中:
初级声源识别装置10,监听现场的混合声音信息;
预处理装置20,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录当前鸟声声源的位置信息和音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
控制单元30,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使定向定位收音装置的收音方向始终朝向当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进而实现对目标鸟声声源进行追踪;
定向定位收音装置50,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
后处理声音识别单元60,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
控制单元30对目标鸟声声源的强化识别数据进行存储。
分析上述鸟声识别系统可知,从声音前处理角度就开始介入,利用初级声源识别装置中的第一麦克风阵列模块全方向广泛收集采集声音信号的方式;从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置;在控制单元解析定位位置后,控制单元根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使定向定位收音装置的收音方向始终朝向当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进行定向声音采样,并将采样的目标声源信息传递给控制单元便于其后续进行后处理强化识别;此时定向定位收音装置利用第二麦克风阵列模块和声呐阵列采集设备再次对鸟类声源进行高精度定位,此时定向定位收音装置也只能收取一定夹角范围内的音源鸟类移动时(此时可理解为鸟声声源也在移动);这样在后处理强化识别之前,就将接收音源的范围缩小了,可在较大程度上降低背景噪声干扰,减少了识别大量复杂声源的数量,实现了精准定位识别。然而在后处理声音识别单元进行强化识别时(即对目标鸟声声源的声音信号进行真正的强化识别处理,即二次识别),具体针对鸟声短促高音频谱的特点采用了特定的识别方法,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元。
因此说,根据上述实施例可以确定,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,同时通过上述位置信息和音强信息可以判断上述目标鸟声声源,进行持续识别和定位追踪;这样在定位追踪之后,利用上述定向定位收音装置始终高精度定位追踪目标鸟声声源,这样再对特定的目标鸟声声源实施真正意义上的特定后识别处理;这样识别出来的声源信息,不会是多种混合声源的声场,声源信息更有利于精准识别,更有利于对目标鸟声声源进行强化识别。
参见图2,所述预处理装置10包括第一麦克风阵列模块11;第一麦克风阵列模块11,用于全方向监听现场的混合声音信息。上述第一麦克风阵列模块可以实施现场全方向的混合声音信息收集,其是一种粗放的混合声源信息收集操作。
参见图3,所述预处理装置20包括第一处理子模块21、预处理MCU模块22和第二处理子模块23;
第一处理子模块21,用于对监听现场的混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
预处理MCU模块22,用于首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
第二处理子模块23,用于根据所述声音有效帧确定当前鸟声声源。
需要说明的是,在本发明实施例的具体方案中,从声音前处理角度就开始介入,摒弃了传统大范围收集采集声音信号的方式;其利用预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;上述第一处理子模块实施的获取疑似声源有效帧的工作;然而预处理MCU模块则可以通过音强信息匹配,判断声音有效帧。然后由第二处理子模块根据所述声音有效帧确定这个单一的当前鸟声声源,便于后续处理模块对特定的单一当前鸟声声源进行追踪。
参见图4,所述控制单元30包括解析子单元31、控制计算子单元32和转角控制子单元33,其中;
解析子单元31,用于初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
控制计算子单元32,用于根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
转角控制子单元33,用于将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
需要说明的是,在本发明实施例的具体方案中,上述控制单元主要由解析子单元、控制计算子单元和转角控制子单元构成;解析子单元,用于解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;然后由控制计算子单元根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;这样可以计算得到一个转角数值,便于执行机构(例如伺服电机等实施转动预定角度从而便于对目标鸟类进行追踪);转角控制子单元将上述相对转角发送给执行机构;最后执行机构控制定向定位收音装置转动动作使其到达上述相对转角,进而使定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
参见图5,所述定向定位收音装置50包括第二麦克风阵列模块51和声呐阵列采集设备52,其中;
第二麦克风阵列模块51对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;注意上述第二麦克风阵列模块51,此次实施定向识别收音操作,上述第二麦克风阵列模块51可实施方向性辨别、频率分析等功能。
当第二麦克风阵列模块51对再次位置识别成功后,再由声呐阵列采集设备52重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
需要说明的是,在本发明实施例的具体方案中,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,同时通过上述位置信息和音强信息可以判断上述目标鸟声声源,进行持续识别和定位追踪;这样在定位追踪之后,再对目标鸟声声源实施真正意义上的识别处理;一般来讲,鸟声发声短促,该声源应该还没有断裂之前就应该完成快速定位;然后再进行定向的收音;因此为了保障定位速度,本发明实施例中的定向定位收音装置,采用了第二麦克风阵列模块结合声呐阵列采集设备进行鸟声生源再次高精度定位。
上述第二麦克风阵列模块,其利用第二该麦克风阵列接收现场的定向声源语音信号,对定向接收的语音信号进行采集、滤波、加窗、谱减、倒谱处理;再利用相位变换加权广义互相关方法GCC-PHAT,得各麦克风之间的时间延迟;运用三维空间定位方法与坐标旋转数字式计算机方法,精确确定声源位置。即由于鸟类可能会一边飞行一边鸣叫,因此使用上述麦克风阵列模块实施移动的鸟声定位,由于不同位置处的鸟声到麦克风阵列的距离不同,该技术通过计算从鸟声发声位置发出的声音传播到麦克风阵列的时间差来对鸟声位置进行精确地定位。上述麦克风阵列模块在噪声干扰信号存在的生态环境下,能准确确定声源位置,实时性强、准确性高,在语音信号处理领域有广泛的应用。
上述定向定位收音装置50还用于对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度。
很显然上述定向定位收音装置还用于对目标鸟声声源进行定向方向的收音操作,但是该定向定位收音装置不仅仅能够实现转动随动收音,而且该收音范围也有限制,这是基于本发明实施例技术完全可以实现高精度定位基础上,所以只需一定约束角范围内收音便可以识别到特定的目标鸟声声源了。
参见图6,上述后处理声音识别单元60,包括划分单元61、搜集单元62、分析单元63、神经网络建模单元64、测试识别单元65;
划分单元61,用于将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
搜集单元62,用于预先搜集鸟声发声的声音信号,并对声音信号进行预处理。即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;需要说明的是,采用后处理声音识别单元预先采集鸟声发生的声音信号,然后进行预处理,上述预处理包括滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;该当前信号是后续进行高音频谱高峰的信号片段识别的基础信号;即在这之后利用能量检测算法提取当前信号的每个鸟声发声动作的高音频谱高峰的信号片段;
分析单元63,用于利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
神经网络建模单元64,用于计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
测试识别单元65,用于将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。需要说明的是,计算每个鸟声发声动作的短时能量归一化值,高音频谱高峰的信号片段并结合幅度对应的频率作为特征进行分类。为了将分类匹配算法更为准确,引入性能更优支持向量机的神经网络算法进行分类匹配,识别出每次的鸟声发声。
如图7所示,本发明提供了一种鸟声识别方法,利用上述鸟声识别系统实施鸟声声源精准定位和识别操作,包括如下操作方法:
步骤S1:初级声源识别装置,监听现场的混合声音信息;
步骤S2:预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录所述当前鸟声声源的位置信息和所述音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
步骤S3:控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置(即定向定位收音装置将会与当前鸟声声源位置进行随动),进而实现对目标鸟声声源进行追踪;
步骤S4:定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
步骤S5:后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
步骤S6:所述控制单元对目标鸟声声源的强化识别数据进行存储。
在执行步骤S1中,初级声源识别装置中的第一麦克风阵列模块实现全方向监听现场的混合声音信息。
在执行步骤S2中,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,具体包括如下操作步骤:
步骤S21:对混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
步骤S22:预处理MCU模块首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
步骤S23:根据所述声音有效帧确定当前鸟声声源。
在执行步骤S2中,所述实时初步识别得到当前鸟声声源的位置信息,具体包括如下操作步骤:
步骤S24:利用麦克风阵列模块结合声呐阵列采集设备对识别得到当前鸟声声源的位置信息;
步骤S25:同时麦克风阵列模块对识别得到当前鸟声声源的位置信息进行初步位置麦克声源位置识别;当麦克风阵列模块对初步位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
需要说明的是,关于上述麦克风阵列模块,其利用该麦克风阵列接收现场的声源语音信号,对接收的语音信号进行采集、滤波、加窗、谱减、倒谱处理;再利用相位变换加权广义互相关方法GCC-PHAT,得各麦克风之间的时间延迟;运用三维空间定位方法与坐标旋转数字式计算机方法,确定声源位置。即由于鸟类可能会一边飞行一边鸣叫,因此使用上述麦克风阵列模块实施移动的鸟声定位,由于不同位置处的鸟声到麦克风阵列的距离不同,该技术通过计算从鸟声发声位置发出的声音传播到麦克风阵列的时间差来对鸟声位置进行精确地定位。
上述麦克风阵列模块在噪声干扰信号存在的生态环境下,能准确确定声源位置,实时性强、准确性高,在语音信号处理领域有广泛的应用。
在执行步骤S3中:根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,具体包括如下技术操作:
步骤S31:初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
步骤S32:根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
步骤S33:将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
在执行步骤S4中,定向定位收音装置,持续监听追踪到的目标鸟声声源,包括如下操作步骤:
步骤S41:第二麦克风阵列模块对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;
步骤S42:当第二麦克风阵列模块对再次位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
在执行步骤S4中,定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,具体包括如下操作步骤:
步骤S43:定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度。
所述后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,具体包括如下操作步骤:
步骤S51:将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
步骤S52:预先搜集鸟声发声的声音信号,并对声音信号进行预处理。即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;采用后处理声音识别单元预先采集鸟声发生的声音信号,然后进行预处理,上述预处理包括滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;该当前信号是后续进行高音频谱高峰的信号片段识别的基础信号;即在这之后利用能量检测算法提取当前信号的每个鸟声发声动作的高音频谱高峰的信号片段;
步骤S53:利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
步骤S54:计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
步骤S55:将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。计算每个鸟声发声动作的短时能量归一化值,高音频谱高峰的信号片段并结合幅度对应的频率作为特征进行分类。为了将分类匹配算法更为准确,引入性能更优支持向量机的神经网络算法进行分类匹配,识别出每次的鸟声发声。
在上述技术方案中,采用声音搜集装置搜集鸟声发声产生的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号。利用能量检测算法并提取出每个鸟声发声动作的高音频谱高峰的信号片段;使用能量检测算法检测出一个鸟声发声动作产生的音频信号中所要分析的、能量值最大的鸟声发声波峰;对识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点。计算每个鸟声发声动作的短时能量归一化值,高音频谱高峰的信号片段并结合幅度对应的频率作为特征进行分类。为了将分类匹配算法更为准确,引入性能更优支持向量机的神经网络算法进行分类匹配,识别出每次的鸟声发声;将采集的信号一部分作为测试,作出实际分类和预测分类视图,并且计算得到正确识别率。
上述声音信号预处理:1对每个麦克风采集并输出的信号,分别进行巴特沃斯滤波方法进行滤波;2将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号。
上述巴特沃斯滤波:设计的buttord滤波器通带Wp的最大衰减为Rp,Ws处,阻带达到最小衰减为As。程序中设计的值为wp=2*20/fs;ws=2*30/fs;Rp=1;As=30;输出N的阶数为11。
上述环境背景信号:测试环境是安静环境,是一段无鸟声发声动作发生时采集的生态环境中的声音信号。
对于上述多个鸟声发声信号(即鸟声发声动作),分析信号的归一化信号的幅值,短时能量,过零率,来作为信号的特征进行分析。每个鸟声发声信号的频率大致相似,但峰值区间的归一化能量不同,以此短时能量作为不同鸟声发声信号的特征向量的组成部分。语音信号的频率主要集中于0-150Hz,同时在此区间的能量最大,所以对于语音信号在实际环境中的鸟声发声信号可以采用滤波器将其与其他声音信号分离开,从而得到更加准确的鸟声发声信号的特征值。
上述鸟声发声信号特征值提取:
采用鸟声发声信号的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量。采用声音搜集装置搜集鸟声发声产生的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号。利用能量检测算法并提取出每个鸟声发声动作的高音频谱高峰的信号片段;使用能量检测算法检测出一个鸟声发声动作产生的音频信号中所要分析的、能量值最大的鸟声发声波峰;对识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点。计算每个鸟声发声动作的短时能量归一化值,高音频谱高峰的信号片段并结合幅度对应的频率作为特征进行分类。每一个样本取513个能量幅度值,频谱中100个峰值及其对应的频率,和时域50个峰值,每个样本中包含763个数值,组成特征向量。为了将分类匹配算法更为准确,引入性能更优支持向量机的神经网络算法进行分类匹配,识别出每次的鸟声发声;
上述提取高音频谱高峰信号片段,目的是为后续进行特征值提取及分类;例如在某次提取高音频谱高峰信号片段分析中,可知对于数组中16000到16200中值包含振动信号从起振,达到峰值,到回振中的值,取窗函数宽度为200,窗函数的值为峰值附近的200值。
然后再进行特征值提取及分类:得到N(例如:900)个样本对应的时域图和上述样本对应的频谱图(即上述内容已阐述每个样本中包含763个数值)。按照上述方法做成N(900)xM(763)的样本矩阵,作为神经网络的训练和测试数据。然后对数据预测结果进行分析,实现高精度鸟声识别。
综上,本发明提供的鸟声识别系统及识别方法,采用了特定的定向收音方法,对目标鸟声进行高精度追踪识别,缩小了接收音源的范围,可在较大程度上降低背景噪声干扰,提升了检测识别精度,并实现了精准定位识别。同时针对鸟声的声音谱率较高,鸟声具有多个短促高音连续或是不连续高频发声的特点,指定了后续强化处理方案,其利用神经网络模型,可实现实现高精度分别识别处理,从而显著提升了鸟类鸟声识别精度,为鸟类种群研究提供了良好的技术支持。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种鸟声识别系统,包括初级声源识别装置、预处理装置,控制单元、执行机构、定向定位收音装置和后处理声音识别单元,其中:
初级声源识别装置,监听现场的混合声音信息;
预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录所述当前鸟声声源的位置信息和所述音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置,进而实现对目标鸟声声源进行追踪;
定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
所述控制单元对目标鸟声声源的强化识别数据进行存储。
2.如权利要求1所述的鸟声识别系统,其特征在于,所述预处理装置包括第一麦克风阵列模块;
第一麦克风阵列模块,用于全方向监听现场的混合声音信息;
所述预处理装置包括第一处理子模块、预处理MCU模块和第二处理子模块;
第一处理子模块,用于对监听现场的混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
预处理MCU模块,用于首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
第二处理子模块,用于根据所述声音有效帧确定当前鸟声声源。
3.如权利要求2所述的鸟声识别系统,其特征在于,所述控制单元包括解析子单元、控制计算子单元和转角控制子单元,其中;
解析子单元,用于初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
控制计算子单元,用于根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
转角控制子单元,用于将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
4.如权利要求3所述的鸟声识别系统,其特征在于,所述定向定位收音装置包括第二麦克风阵列模块和声呐阵列采集设备,其中;
第二麦克风阵列模块对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;当第二麦克风阵列模块对再次位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
5.如权利要求4所述的鸟声识别系统,其特征在于,所述定向定位收音装置还用于对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度;
所述后处理声音识别单元,包括划分单元、搜集单元、分析单元、神经网络建模单元、测试识别单元;
划分单元,用于将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
搜集单元,用于预先搜集鸟声发声的声音信号,并对声音信号进行预处理;即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;
分析单元,用于利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
神经网络建模单元,用于计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
测试识别单元,用于将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。
6.一种鸟声识别方法,利用上述如权利要求1-5任一项所述的鸟声识别系统实施鸟声声源精准定位和识别操作,包括如下操作方法:
步骤S1:初级声源识别装置,监听现场的混合声音信息;
步骤S2:预处理装置,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,实时初步识别得到当前鸟声声源的位置信息和音强信息;同时同步记录所述当前鸟声声源的位置信息和所述音强信息;根据上述前鸟声声源的位置信息和音强信息得到当前鸟声声源的位置并进行记录,将上述前鸟声声源的位置发送给控制单元;
步骤S3:控制单元,根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置,进而实现对目标鸟声声源进行追踪;
步骤S4:定向定位收音装置,持续监听追踪到的目标鸟声声源,然后对目标鸟声声源进行定向方向的收音操作并持续识别;
步骤S5:后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,将最后识别到的目标鸟声声源的强化识别数据进行传回至控制单元;
步骤S6:所述控制单元对目标鸟声声源的强化识别数据进行存储。
7.如权利要求6所述的鸟声识别方法,其特征在于,在执行步骤S1中,初级声源识别装置中的第一麦克风阵列模块实现全方向监听现场的混合声音信息。
在执行步骤S2中,从混合声音信息中初步筛选识别到鸟声声源的声音有效帧,具体包括如下操作步骤:
步骤S21:对混合声音信息的背景噪声进行预处理过滤掉,得到多个疑似声源有效帧;
步骤S22:预处理MCU模块首先预设有关鸟声声源的音强信息;然后从混合声音信息中初步筛选匹配识别到与所述预设有关鸟声声源的音强信息相关的鸟声声源的声音帧,判定该声音帧为声音有效帧;
步骤S23:根据所述声音有效帧确定当前鸟声声源。
8.如权利要求7所述的鸟声识别方法,其特征在于,在执行步骤S3中:根据当前鸟声声源的位置,然后触发控制执行机构,利用执行机构驱动定向定位收音装置转向,具体包括如下技术操作:
步骤S31:初级解析当前鸟声声源的位置,该位置为当前鸟声声源相对定向定位收音装置的空间相对坐标信息;定向定位收音装置与预处理装置、控制单元均为同一个坐标位置上;
步骤S32:根据所述空间相对坐标信息计算定向定位收音装置的位置与当前鸟声声源的位置相对转角;
步骤S33:将上述相对转角发送给执行机构,所述执行机构控制所述定向定位收音装置转动动作使其到达上述相对转角,进而使所述定向定位收音装置的收音方向始终朝向所述当前鸟声声源的位置。
9.如权利要求8所述的鸟声识别方法,其特征在于,在执行步骤S4中,定向定位收音装置,持续监听追踪到的目标鸟声声源,包括如下操作步骤:
步骤S41:第二麦克风阵列模块对识别得到当前鸟声声源的位置信息进行再次位置麦克声源位置识别,且此次识别为定向鸟声声源位置识别操作;
步骤S42:当第二麦克风阵列模块对再次位置识别成功后,再由声呐阵列采集设备重复对当前鸟声声源的位置信息进行声呐位置识别,只有在第二麦克风阵列模块和声呐阵列采集设备对当前鸟声声源的位置信息识别结果一致时才能确定当前鸟声声源的位置信息。
10.如权利要求9所述的鸟声识别方法,其特征在于,在执行步骤S4中,定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,具体包括如下操作步骤:
步骤S43:定向定位收音装置,对目标鸟声声源进行定向方向的收音操作,接受预设夹角范围内的目标鸟声声源;所述预设夹角范围即为水平面上定向定位收音装置接收声音的夹角范围,所述水平面上定向定位收音装置接收声音的夹角范围大于23度小于40度;
步骤S5中,所述后处理声音识别单元,最后对持续定向追踪的目标鸟声声源再进行真正的强化识别处理,具体包括如下操作步骤:
步骤S51:将目标鸟声声源的一段声音信号进行划分分段,划分后得到多个高音频谱片段;
步骤S52:预先搜集鸟声发声的声音信号,并对声音信号进行预处理;即预先搜集鸟声发声的声音信号,并对声音信号进行巴特沃斯滤波方法进行滤波预处理;将上述经过滤波得到的信号减去环境背景信号,得到当前信号;其中,所述环境背景信号是一段无鸟声发声动作发生时采集的环境中的声音信号;
步骤S53:利用能量检测算法对所述当前信号进行处理并提取出每个鸟声发声动作产生的音频信号中所能量值最大的鸟声发声波峰;在识别出的鸟声发声波峰后,通过将该波峰波形的能量值与一个设定的阈值比较,得到该鸟声发声波峰的起始点和终止点;
步骤S54:计算每个鸟声发声动作的短时能量归一化值并结合峰值片段的幅度和频率作为特征进行分类,构建神经网络算法模型;以鸟声发声动作的短时能量及峰值片段的幅度及各个幅度对应的频率作为特征向量;
步骤S55:将采集的目标鸟声声源的一段声音信号的所述高音频谱片段信号作为测试集,利用所述神经网络算法进行分类匹配,识别出每次的发声的鸟声声源。
CN202010068386.5A 2020-01-20 2020-01-20 一种鸟声识别系统及识别方法 Active CN111276151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010068386.5A CN111276151B (zh) 2020-01-20 2020-01-20 一种鸟声识别系统及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010068386.5A CN111276151B (zh) 2020-01-20 2020-01-20 一种鸟声识别系统及识别方法

Publications (2)

Publication Number Publication Date
CN111276151A true CN111276151A (zh) 2020-06-12
CN111276151B CN111276151B (zh) 2023-04-07

Family

ID=71001839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010068386.5A Active CN111276151B (zh) 2020-01-20 2020-01-20 一种鸟声识别系统及识别方法

Country Status (1)

Country Link
CN (1) CN111276151B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113225400A (zh) * 2021-05-08 2021-08-06 南京林业大学 一种基于鸣禽鸣唱的鸟类种群密度监测系统及方法
WO2021228059A1 (zh) * 2020-05-14 2021-11-18 华为技术有限公司 一种固定声源识别方法及装置
CN114202934A (zh) * 2022-02-15 2022-03-18 浙江高信技术股份有限公司 一种用于高速公路的定向高音喇叭控制方法及服务器

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150920A1 (en) * 2005-01-11 2006-07-13 Patton Charles M Method and apparatus for the automatic identification of birds by their vocalizations
CN102524237A (zh) * 2012-01-11 2012-07-04 桂林电子科技大学 一种飞机场鸟情监控驱鸟系统及方法
US20150106095A1 (en) * 2008-12-15 2015-04-16 Audio Analytic Ltd. Sound identification systems
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
CN108398689A (zh) * 2018-01-26 2018-08-14 广东容祺智能科技有限公司 一种基于无人机的鸟类识别引导装置及其引导方法
US20190088271A1 (en) * 2017-09-21 2019-03-21 Dong Whan LEE Service provision method and apparatus related to electronic harmonic algorithm capable of comparing,distinguishing, and identifying sounds of individuals infected with animal diseases, including avian influenza,by means of frequency peak detect technique
CN109658948A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种面向候鸟迁徙活动的声学监测方法
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN110033777A (zh) * 2018-01-11 2019-07-19 深圳市诚壹科技有限公司 鸟类识别方法、装置、终端设备及计算机可读存储介质
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110214773A (zh) * 2019-06-20 2019-09-10 广东省生物资源应用研究所 一种驱鸟装置
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060150920A1 (en) * 2005-01-11 2006-07-13 Patton Charles M Method and apparatus for the automatic identification of birds by their vocalizations
US20150106095A1 (en) * 2008-12-15 2015-04-16 Audio Analytic Ltd. Sound identification systems
CN102524237A (zh) * 2012-01-11 2012-07-04 桂林电子科技大学 一种飞机场鸟情监控驱鸟系统及方法
CN104658538A (zh) * 2013-11-18 2015-05-27 中国计量学院 一种基于鸟鸣声的移动式鸟类识别方法
US20190088271A1 (en) * 2017-09-21 2019-03-21 Dong Whan LEE Service provision method and apparatus related to electronic harmonic algorithm capable of comparing,distinguishing, and identifying sounds of individuals infected with animal diseases, including avian influenza,by means of frequency peak detect technique
CN110033777A (zh) * 2018-01-11 2019-07-19 深圳市诚壹科技有限公司 鸟类识别方法、装置、终端设备及计算机可读存储介质
CN108398689A (zh) * 2018-01-26 2018-08-14 广东容祺智能科技有限公司 一种基于无人机的鸟类识别引导装置及其引导方法
CN109658948A (zh) * 2018-12-21 2019-04-19 南京理工大学 一种面向候鸟迁徙活动的声学监测方法
CN109741759A (zh) * 2018-12-21 2019-05-10 南京理工大学 一种面向特定鸟类物种的声学自动检测方法
CN110120224A (zh) * 2019-05-10 2019-08-13 平安科技(深圳)有限公司 鸟声识别模型的构建方法、装置、计算机设备及存储介质
CN110246504A (zh) * 2019-05-20 2019-09-17 平安科技(深圳)有限公司 鸟类声音识别方法、装置、计算机设备和存储介质
CN110214773A (zh) * 2019-06-20 2019-09-10 广东省生物资源应用研究所 一种驱鸟装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONG SUN: "Wavelet transform digital sound processing to identify wild bird species", 《2013 INTERNATIONAL CONFERENCE ON WAVELET ANALYSIS AND PATTERN RECOGNITION》 *
刘昊天: "多标记迁移学习算法研究以及在鸟声识别中的应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021228059A1 (zh) * 2020-05-14 2021-11-18 华为技术有限公司 一种固定声源识别方法及装置
CN113225400A (zh) * 2021-05-08 2021-08-06 南京林业大学 一种基于鸣禽鸣唱的鸟类种群密度监测系统及方法
CN114202934A (zh) * 2022-02-15 2022-03-18 浙江高信技术股份有限公司 一种用于高速公路的定向高音喇叭控制方法及服务器
CN114202934B (zh) * 2022-02-15 2022-05-03 浙江高信技术股份有限公司 一种用于高速公路的定向高音喇叭控制方法及服务器

Also Published As

Publication number Publication date
CN111276151B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111276151B (zh) 一种鸟声识别系统及识别方法
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及系统
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN112349297B (zh) 一种基于麦克风阵列的抑郁症检测方法
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
EP3387648B1 (en) Localization algorithm for sound sources with known statistics
US8271200B2 (en) System and method for acoustic signature extraction, detection, discrimination, and localization
US9264806B2 (en) Apparatus and method for tracking locations of plurality of sound sources
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN106504763A (zh) 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN108109617A (zh) 一种远距离拾音方法
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
CN109473119B (zh) 一种声学目标事件监控方法
JPH09251299A (ja) マイクロホンアレイ入力型音声認識装置及び方法
CN110858476B (zh) 一种基于麦克风阵列的声音采集方法及装置
Chakraborty et al. Sound-model-based acoustic source localization using distributed microphone arrays
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
Hemavathi et al. Voice conversion spoofing detection by exploring artifacts estimates
Yen et al. Multi-sensory sound source enhancement for unmanned aerial vehicle recordings
EP2745293B1 (en) Signal noise attenuation
JP2000148184A (ja) 音声認識装置
CN117169812A (zh) 一种基于深度学习和波束形成的声源定位方法
CN114927141B (zh) 异常水声信号的检测方法及系统
CN113314127B (zh) 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant