CN116884416A - 野生动物音频采集检测系统、方法、存储介质及电子设备 - Google Patents
野生动物音频采集检测系统、方法、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116884416A CN116884416A CN202310447437.9A CN202310447437A CN116884416A CN 116884416 A CN116884416 A CN 116884416A CN 202310447437 A CN202310447437 A CN 202310447437A CN 116884416 A CN116884416 A CN 116884416A
- Authority
- CN
- China
- Prior art keywords
- audio
- data
- module
- animal
- wild
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241001465754 Metazoa Species 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 239000012634 fragment Substances 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000012800 visualization Methods 0.000 claims abstract description 5
- 238000005520 cutting process Methods 0.000 claims abstract description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000008054 signal transmission Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 241000894007 species Species 0.000 description 15
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000036039 immunity Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000037072 sun protection Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了野生动物音频采集检测系统、方法、存储介质及电子设备,本发明的系统包括:拾音器模块,被配置为获取野生环境下的野生动物音频以及关于所述野生动物音频的时间数据和地理数据;音频数据处理模块,被配置为预处理所述野生动物音频,所述预处理包括将所述野生动物音频剪切为音频片段;音频标注及分类模块,被配置为分类所述音频片段并对所述音频片段进行标注;可视化模块,被配置将标注后的所述音频片段按照所述时间数据和所述地理数据可视化;AI识别模块,被配置为存储至少一种算法模型,提取并识别所述音频片段中的动物音频类别。本发明实现了对野生动物音频的采集与分类,有利于对野生动物的保护和观察。
Description
技术领域
本发明属于音频检测领域,具体涉及野生动物音频采集检测系统、方法、存储介质及电子设备。
背景技术
伴随社会的发展,社会生产活动已经严重影响到野外物种的生存状态,导致它们的栖息地受到了破坏,也逐渐导致一系列的野生动物濒临灭绝。针对野外物种的保护工作,常用的方式有通过光学摄像头拍摄、红外摄像头拍摄等方式去采集目标物种在野外的生存和活动痕迹,但是对于对应的物种如何利用音频进行采集则是发展较为薄弱的环节。
为了更好地保护野生动物,采用更为丰富的方式对保护地的物种进行检测。在保护地范围内安装拾音器,监听鸟类等物种的声音,从而判断物种在野生的生存状态以及物种组成。采用在保护地范围内设定点位,对应点位安装上野生拾音器,监听的声音通过基站网络回传到云端系统上,并且能实现实时检测拾音器状态,将拾音器状态及时反馈到相关的设备管理员。该方式不仅提高了工作效率,同时也能自动检测到目标物种。
鉴于此,目前亟待提出一种野生动物音频采集检测系统及方法。
发明内容
为此,本发明提供一种野生动物音频采集检测系统及方法,通过生物声学的监测方式发现野生物种。
本发明的上述技术目的是通过如下方案实现的:
一种野生动物音频采集检测系统,包括:
拾音器模块,被配置为获取野生环境下的野生动物音频以及关于所述野生动物音频的时间数据和地理数据;
音频数据处理模块,被配置为预处理所述野生动物音频,所述预处理包括将所述野生动物音频剪切为音频片段;
音频标注及分类模块,被配置为分类所述音频片段并对所述音频片段进行标注;
可视化模块,被配置将标注后的所述音频片段按照所述时间数据和所述地理数据可视化;
AI识别模块,被配置为存储至少一种算法模型,提取并识别所述音频片段中的动物音频类别。
进一步的,所述拾音模块包括拾音器本体,以及
电源模块,被配置为向所述拾音器本体供电;
信号传输模块,被配置为接受来自拾音器本体传输的数据并传输至终端和/或云端;
数据存储模块,被配置为存储来自拾音器本体传输的数据至存储介质内。
进一步的,所述音频数据处理模块包括
音频轨迹呈现模块,被配置为将所述拾音模块获取的野生动物音频、时间数据和地理数据,按照音频产生时的时间和地理位置标记并匹配,然后生成可视化图形和/或文字信息;
音频轨迹切分模块,被配置为将所述音频轨迹呈现模块中处理后的野生动物音频按照动物音频分类切分为音频片段。
进一步的,所述AI识别模块包括
算法模型训练模块,被配置为存储至少一种算法,以人工分类的预训练数据作为第一数据执行训练与学习;
音频智能识别模块,被配置为利用至少一种经所述算法训练模块训练后的算法,且其算法以音频片段为输入,输出动物音频的识别匹配结果。
进一步的,所述第一数据通过音频标注与分类模块获得,具体为,
人工标注音频片段的动物音频类别,将标注后的音频片段作为第一数据。
本发明还提供一种野生动物音频检测方法,包括如下步骤:
S1、获取野生环境下的音频数据;
S2、预处理所述音频数据,得到去噪后的音频数据切片;
S3、提取所述音频数据切片中的声段特征;
S4、识别并匹配所述声段特征对应的动物类别。
进一步的,所述预处理具体包括:
S201、预加重所述音频数据令其频谱平坦化且各峰值幅度相近;
S202、分帧处理所述音频数据,得到音频数据切片;
S203、对各所述音频数据切片执行加窗处理;
S204、执行端点测试后筛选出动物声段和非动物声段。
进一步的,所述匹配识别,具体为,
通过时态序列匹配算法和/或多段有序时态序列匹配算法执行匹配。
本发明还提供一种计算机存储介质,其上存储有计算机程序,,该程序被处理器执行时实现如本发明所述的方法的功能。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本发明所述的方法的功能。
本发明的上述技术方案,相比现有技术具有以下优点:
(1)本发明所述的野生动物音频采集检测系统、方法,实现智能化处理野生动物音频,有效的减少各项成本,发挥人工智能+物联网功能,充分提高野生动物音频物种的识别分类准确率。
(2)本发明采用更为便捷的方式记录并分类野外所存在的各种物种,并通过算法模型有效的进行识别,丰富野生动物保护与检测方式。
附图说明
图1是本发明实施例提供的系统的模块连接示意图;
图2是本发明实施例提供的方法的流程示意图;
图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供一种用于野生动物音频采集检测系统,如图1所示,包括拾音器模块,被配置为获取野生环境下的野生动物音频以及关于所述野生动物音频的时间数据和地理数据;
音频数据处理模块,被配置为预处理所述野生动物音频,所述预处理包括将所述野生动物音频剪切为音频片段;为了提升识别系统的性能降低噪声对识别率的影响,提高系统的抗噪性和有更好的鲁棒性。需要对采集到的声音信号做降噪处理。特征提取模块是对声音识别时需要对提取动物的特征让计算机能够识别到;音频识别模块是在特征提取出来后需要设计分类器利用提取到的动物特征进行训练建模。
音频标注及分类模块,被配置为分类所述音频片段并对所述音频片段进行标注;更具体地,所述音频标注及分类模块包括有两个模块:音频标注(人工)模块、音频类别划分模块;所述音频标注(人工)模块就是根据所切分得到的音频数据进行标注,确定所对应的类别;所述音频类别划分模块是根据音频标注(人工)模块所得到确定的类别,按照四个不同级别进行划分,一级分类为哪种物种,二级分类为哪个目,三级分类为哪个科,四级分类为对应具体物种名称。
可视化模块,被配置将标注后的所述音频片段按照所述时间数据和所述地理数据可视化;具体包括音频采集设备信息模块、经纬度呈现模块;所述音频采集设备信息模块是将所采集音频对应的设备信息进行呈现并记录,包括拾音器基本信息、当前设备状态、设备电量、设备待机时长、设备存储空间情况等。
AI识别模块,被配置为存储至少一种算法模型,提取并识别所述音频片段中的动物音频类别。
作为本实施例的一种优选方式,所述拾音模块包括拾音器本体,以及
电源模块,被配置为向所述拾音器本体供电;具体地,电源模块处于工作状态时进行电能的供应,具备有防水、防晒、防爆等功能,且不仅限于锂电池、铅酸电池、纽扣电池等。在本实施例中,电源模块还连接太阳能模块,由太阳能模块向所述电源模块供电。
信号传输模块,被配置为接受来自拾音器本体传输的数据并传输至终端和/或云端;具体地,终端为个人计算机,云端则为云端计算机或租用服务器,信号传输的方式不限于蜂窝数据、WIFI、有线通信和卫星通信。
数据存储模块,被配置为存储来自拾音器本体传输的数据至介质内。本实施例用于数据存储模块的介质包括寄存器、硬盘、软盘、磁带等可擦写存储设备,同时不限于可拆卸和固定的安装方式。
作为本实施例的一种优选方式,所述音频数据处理模块包括
音频轨迹呈现模块,被配置为将所述拾音模块获取的野生动物音频、时间数据和地理数据,按照音频产生时的时间和地理位置标记并匹配,然后生成可视化图形和/或文字信息;
音频轨迹切分模块,被配置为将所述音频轨迹呈现模块中处理后的野生动物音频按照动物音频分类切分为音频片段。
作为本实施例的一种优选方式,所述AI识别模块包括
算法模型训练模块,被配置为存储至少一种算法,以人工分类的预训练数据作为第一数据执行训练与学习;
音频智能识别模块,被配置为利用至少一种经所述算法训练模块训练后的算法,且其算法以音频片段为输入,输出动物音频的识别匹配结果。
作为本实施例的一种优选方式,所述第一数据通过音频标注与分类模块获得,具体为,
人工标注音频片段的动物音频类别,将标注后的音频片段作为第一数据。
作为本实施例的进一步优选方式,本实施例的地图可视化模块包括两个模块:音频采集设备信息模块、经纬度呈现模块;所述音频采集设备信息模块是将所采集音频对应的设备信息进行呈现并记录,包括拾音器基本信息、当前设备状态、设备电量、设备待机时长、设备存储空间情况等。所述经纬度呈现模块则用来展示地理数据。
本实施例还提供一种用于野生动物音频采集检测方法,如图2所示。
包括如下步骤:
S1、获取野生环境下的音频数据;
S2、预处理所述音频数据,得到去噪后的音频数据切片;
S3、提取所述音频数据切片中的声段特征;
S4、识别并匹配所述声段特征对应的动物类别。
所述预处理具体包括:
S201、预加重所述音频数据令其频谱平坦化且各峰值幅度相近;
S202、分帧处理所述音频数据,得到音频数据切片;
S203、对各所述音频数据切片执行加窗处理;
S204、执行端点测试后筛选出动物声段和非动物声段。
在本实施例,预处理是为了提升识别系统的性能降低噪声对识别率的影响,提高系统的抗噪性和有更好的鲁棒性。需要对采集到的声音信号做降噪处理。所述预加重让整段声音信号的频谱变得平坦并且各共峰值幅度相接近;是使用数字滤波器对信号进行预加重,滤波器的传递函数为:
H(z)=1-uz-1
其中,u为对应的音频,z为预加重的系数。
所述分帧把一段语音信号划分为很多片段来进行处理;所述加窗设置一个窗函数对语音帧内的信号进行二次处理,减少阶段后的语音信号在进行频谱后的能量泄露;本算法采用的窗函数是矩形窗:
其中,式中N为窗口长度。所述端点测试是用于区别出动物声段和非动物声段。
作为本实施例的进一步优选方式,本实施例的S3中进行特征提取时,通过梅尔倒谱系数和/或翻转梅尔倒谱系数提取动物声段的特征。
所述梅尔倒谱系数是人耳与声音梅尔域的感知近似于线性关系;所述翻转梅尔倒谱系数是将声音信号的能量谱通过梅尔滤波器组进行滤波。
梅尔倒谱系数特征参数的流程为:
(1)对语音信号经过分帧,加窗等预处理,将一段语音信号分成一系列的语音帧,将这些音段进行快速傅里叶变换:
其中yi(n)为预处理之后的第i帧鸟声信号,N是表示语音信号的长度,k表示为快速傅里叶变换的点数。
(2)在语音信号由时域信号经过傅里叶变换转到频域信号后,通过对频域信号每一帧鸟声信号取平方值的形式进行谱线能量计算P(i,k)=[Y(i,k)]2
其中i代表第i帧语音信号,k代表第k条谱线,Y(i,k)代表经过傅里叶变换后的频域信号,P(i,k)代表第i帧语音信号的第k条谱线能量。
(3)将(2)的离散功率谱通过梅尔滤波器组进行滤波,其Mel滤波能量为:
其中m代表第几个梅尔滤波器,M代表使用的梅尔滤波器的个数,Hm(k)代表梅尔滤波器的频率响应,将频域信号中每一帧的能量谱与梅尔滤波器组加权求和即可求出相应的梅尔滤波能量。
(4)对数变换和离散余弦变换,通过梅尔滤波器组求出梅尔滤波能量之后需要对梅尔滤波能量进行对数变换,语音频谱的这种表示为给定帧分析提供了良好的信号频谱特性,然后再进行离散余弦变换,就可求出梅尔频率倒谱系数:
其中MFCC(i,n)代表的是一个i,m维的矩阵向量,i代表的是第i帧语音信号,n代表的是经过离散余弦变换后的谱线,m代表的是滤波器的个数,L代表的是梅尔频率倒谱系数的阶数。
在本实施例中,经过滤波和预处理后得到动物声段的特征。
所述匹配识别,具体为,
通过时态序列匹配算法和/或多段有序时态序列匹配算法执行匹配。
需要的说明的是,本实施例的方法中的模型是经过预训练的算法。
在本实施例中,时态序列匹配算法是基于最长公共子串算法,形成有序多段式的匹配序列,多段有序时态序列匹配算法是采用多段式有序的最长公共子串模型进行匹配识别。
最长公共子串是两个序列之间的连续的最长相同字符串,即对于给定的两个序列,长度为m的序列O和长度为n的序列T,最长公共字串即O和T的共同连续子串为X。对于两个序列之间求最长公共子串的解法有多种,应该针对实时的环境采用合适的求解方法。
本实施的时态序列匹配算法包括如下步骤:
(1)动态规划求解。
假设两个序列的任意前缀字串为O[1:i]和T[1:j],假设前缀子串的求解如下:
则根据前缀子串公式求得最长公共子串公式如下所示:
其中1≤i≤m,1≤j≤n。
(2)广义后缀树解法。
广义后缀树即采用压缩的trie树保存给定序列的所有后缀的数据树。
(3)异或解法。
由于鸣声模板是由0和1元素组成的模板,因此可以采用处理器最擅长的基本运算进行求解。通过以最长序列O为基本模板,滑动长度较小的序列T,对两个序列的共同序列进行异或,得到的结果序列C同样是0和1组成的模板序列,再对该序列求元素连续为0的最长串,记录索引x,y,取即序列T的下标索引为x,y的序列。
采用异或解法对序列求最长公共子串的方法具有较佳的时间复杂度,对于实时识别鸣声模板序列的情况是适用的。而如果单单采用一段式序列的最长公共子串作为鸣声模板间的匹配序列会忽略时域上的特征,如在满足时态序列的情况下可能存在第二段最长公共子串。因此采用多段有序时态序列匹配算法:
其中,0≤ki≤len(O),0≤kj≤len(T),即训练样本和测试样本的序列长度范围。式中len(O)为序列O的长度,MSOLCS(O,T)为序列O和序列T的匹配长度,GetLCS(O,T)为通过异或解法求得的序列O和序列T的最长公共子串长度。
结合图3所示,本公开实施例提供的野生动物音频采集检测系统及方法,包括处理器(processor)30和存储器(memory)31。可选地,该电子设备还可以包括通信接口(CommunicationInterface)32和总线33。其中,处理器30、通信接口32、存储器31可以通过总线33完成相互间的通信。通信接口32可以用于信息传输。处理器30可以调用存储器31中的逻辑指令,以执行上述实施例的野外动物音频检测系统。
本公开实施例提供了一种存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为执行上述野外动物音频检测系统。
上述的存储介质可以是暂态计算机可读存储介质,也可以是非暂态计算机可读存储介质。非暂态存储介质,包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
以上描述和附图充分地示出了本公开的实施例,以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求,否则单独的部件和作用是可选的,并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且,本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的,除非上下文清楚地表明,否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地,如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外,当用于本申请中时,术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素,和/或组件的存在,但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中,每个实施例重点说明的可以是与其他实施例的不同之处,各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言,如果其与实施例公开的方法部分相对应,那么相关之处可以参见方法部分的描述。
本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些作用究竟以硬件还是软件方式来执行,可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的作用,但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
附图中的流程图和框图显示了根据本公开实施例装置、方法和计算机程序产品的可能实现的体系架构、作用和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑作用的可执行指令。在有些作为替换的实现中,方框中所标注的作用也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行的执行,它们有时也可以按相反的顺序执行,这可以依所涉及的作用而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行的执行,它们有时也可以按相反的顺序执行,这可以依所涉及的作用而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的作用或动作的专用的基于硬件装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
Claims (10)
1.一种用于野生动物音频的采集检测系统,其特征在于,包括:
拾音器模块,被配置为获取野生环境下的野生动物音频以及关于所述野生动物音频的时间数据和地理数据;
音频数据处理模块,被配置为预处理所述野生动物音频,所述预处理包括将所述野生动物音频剪切为音频片段;
音频标注及分类模块,被配置为分类所述音频片段并对所述音频片段进行标注;
可视化模块,被配置将标注后的所述音频片段按照所述时间数据和所述地理数据可视化;
AI识别模块,被配置为存储至少一种算法模型,提取并识别所述音频片段中的动物音频类别。
2.根据权利要求1所述的用于野生动物音频的采集检测系统,其特征在于,所述拾音模块包括拾音器本体,以及
电源模块,被配置为向所述拾音器本体供电;
信号传输模块,被配置为接受来自拾音器本体传输的数据并传输至终端和/或云端;
数据存储模块,被配置为存储来自拾音器本体传输的数据至存储介质内。
3.根据权利要求2所述的用于野生动物音频的采集检测系统,其特征在于,所述音频数据处理模块包括
音频轨迹呈现模块,被配置为将所述拾音模块获取的野生动物音频、时间数据和地理数据,按照音频产生时的时间和地理位置标记并匹配,然后生成可视化图形和/或文字信息;
音频轨迹切分模块,被配置为将所述音频轨迹呈现模块中处理后的野生动物音频按照动物音频分类切分为音频片段。
4.根据权利要求3所述的用于野生动物音频的采集检测系统,其特征在于,所述AI识别模块包括
算法模型训练模块,被配置为存储至少一种算法,以人工分类的预训练数据作为第一数据执行训练与学习;
音频智能识别模块,被配置为利用至少一种经所述算法训练模块训练后的算法,且其算法以音频片段为输入,输出动物音频的识别匹配结果。
5.根据权利要求4所述的用于野生动物音频的采集检测系统,其特征在于,所述第一数据通过音频标注与分类模块获得,具体为,
人工标注音频片段的动物音频类别,将标注后的音频片段作为第一数据。
6.一种用于野生动物音频的采集检测方法,其特征在于,包括如下步骤:
S1、获取野生环境下的音频数据;
S2、预处理所述音频数据,得到去噪后的音频数据切片;
S3、提取所述音频数据切片中的声段特征;
S4、识别并匹配所述声段特征对应的动物类别。
7.根据权利要求6所述的用于野生动物音频的采集检测方法,其特征在于,所述预处理具体包括:
S201、预加重所述音频数据令其频谱平坦化且各峰值幅度相近;
S202、分帧处理所述音频数据,得到音频数据切片;
S203、对各所述音频数据切片执行加窗处理;
S204、执行端点测试后筛选出动物声段和非动物声段。
8.根据权利要求7所述的用于野生动物音频的采集检测方法,其特征在于,所述匹配识别,具体为,
通过时态序列匹配算法和/或多段有序时态序列匹配算法执行匹配。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求6-8中任一项的系统的功能。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求6-8中任一项的系统的功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310447437.9A CN116884416A (zh) | 2023-04-23 | 2023-04-23 | 野生动物音频采集检测系统、方法、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310447437.9A CN116884416A (zh) | 2023-04-23 | 2023-04-23 | 野生动物音频采集检测系统、方法、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116884416A true CN116884416A (zh) | 2023-10-13 |
Family
ID=88266763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310447437.9A Pending CN116884416A (zh) | 2023-04-23 | 2023-04-23 | 野生动物音频采集检测系统、方法、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884416A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711411A (zh) * | 2023-12-15 | 2024-03-15 | 百鸟数据科技(北京)有限责任公司 | 一种声音监测与识别设备、系统、计算机设备和存储介质 |
-
2023
- 2023-04-23 CN CN202310447437.9A patent/CN116884416A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711411A (zh) * | 2023-12-15 | 2024-03-15 | 百鸟数据科技(北京)有限责任公司 | 一种声音监测与识别设备、系统、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN105957531B (zh) | 基于云平台的演讲内容提取方法及装置 | |
Esfahanian et al. | On contour-based classification of dolphin whistles by type | |
CN108694953A (zh) | 一种基于Mel子带参数化特征的鸟鸣自动识别方法 | |
CN115170942B (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
Abbasi et al. | A large-scale benchmark dataset for anomaly detection and rare event classification for audio forensics | |
CN116884416A (zh) | 野生动物音频采集检测系统、方法、存储介质及电子设备 | |
Himawan et al. | Deep Learning Techniques for Koala Activity Detection. | |
CN113707175B (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN111859010A (zh) | 一种基于深度互信息最大化的半监督音频事件识别方法 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN112183582A (zh) | 一种多特征融合的水下目标识别方法 | |
CN115830436A (zh) | 一种基于深度学习的海洋生物智能检测方法 | |
CN116386649A (zh) | 一种基于云边协同的野外鸟类监测系统和方法 | |
Babalola et al. | Detection of Bryde's whale short pulse calls using time domain features with hidden Markov models | |
CN107910006A (zh) | 语音识别方法、装置和多信源语音区分识别系统 | |
CN117275491B (zh) | 基于音频转换与时间注意力图神经网络的叫声分类方法 | |
Sharma et al. | Bioacoustics Monitoring of Wildlife using Artificial Intelligence: A Methodological Literature Review | |
CN117390413B (zh) | 分布式电力光纤振动信号降噪与时序特征提取的识别方法 | |
CN112185396B (zh) | 一种基于被动声学的海上风电场生物监测方法及系统 | |
Bergler et al. | ORCA-SLANG: An Automatic Multi-Stage Semi-Supervised Deep Learning Framework for Large-Scale Killer Whale Call Type Identification. | |
Xie et al. | Multi-label classification of frog species via deep learning | |
Wang et al. | Underwater acoustic target recognition combining multi-scale features and attention mechanism | |
CN116259313A (zh) | 一种基于时域卷积网络的声音事件定位和检测方法 | |
Dema et al. | An investigation into acoustic analysis methods for endangered species monitoring: A case of monitoring the critically endangered White-bellied heron in Bhutan |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |