CN114049899A - 一种声音识别方法、装置、电子设备及存储介质 - Google Patents
一种声音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114049899A CN114049899A CN202111390367.5A CN202111390367A CN114049899A CN 114049899 A CN114049899 A CN 114049899A CN 202111390367 A CN202111390367 A CN 202111390367A CN 114049899 A CN114049899 A CN 114049899A
- Authority
- CN
- China
- Prior art keywords
- gibbon
- recording data
- classified
- mel
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 241000282620 Hylobates sp. Species 0.000 claims abstract description 248
- 238000013145 classification model Methods 0.000 claims abstract description 52
- 230000003595 spectral effect Effects 0.000 claims abstract description 30
- 239000012634 fragment Substances 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 abstract description 9
- 238000004364 calculation method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 241000004253 Nomascus hainanus Species 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000001681 protective effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 229910052710 silicon Inorganic materials 0.000 description 2
- 239000010703 silicon Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 241000288906 Primates Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004720 fertilization Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及声音识别技术领域,具体提供一种声音识别方法、装置、电子设备及存储介质,对获取的长臂猿录音数据进行预处理、提取Mel谱特征,通过将Mel谱特征训练好的长臂猿声音分类模型得到待分类长臂猿录音数据中的长臂猿音频片段,并对长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,进而记录长臂猿在目标区域的鸣叫时间,实现对长臂猿的高效监测。由于采用的长臂猿声音分类模型更为轻量化,能够快速识别出长臂猿录音数据中的长臂猿音频片段,实现对长臂猿的实时监测。
Description
技术领域
本申请涉及声音识别技术领域,具体而言,涉及一种声音识别方法、装置、电子设备及存储介质。
背景技术
海南长臂猿是海南热带雨林国家公园的旗舰物种之一,属于国家1级保护物种,已被世界自然保护联盟红皮书列为“全球最濒危灵长动物”之一,具有重要研究意义与保护价值,实现对海南长臂猿高效监测是对其保护的前提,也是加强保护的必要手段。
由于长臂猿科动物鸣声独特,因此目前对于长臂猿的监测方法主要以声音监测为主,该方法的关键性问题是如何快速准确地对长臂猿声音进行识别。目前关于长臂猿声音识别方法多由专业人员声音解译为主,通过专业人员跟踪录音,或是通过布置的设备采集声音数据再人工解译的方式来识别。专业人员跟踪录音的方法虽然可以实现精细的数据获取,但无法确保数据的持续性和完整度;布置设备采集声音数据的方法虽然可以弥补数据获取持续性和完整度方面的不足,但定期取回的数据仍需要花费大量的人力物力进行筛选识别。总体而言,受限于两种方法的局限性,实现对海南长臂猿的高效监测仍是一个亟待解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种声音识别方法、装置、电子设备及存储介质,能够实现对长臂猿的高效监测。
本申请实施例提供的一种声音识别方法,包括以下步骤:
获取长臂猿录音数据;
对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
提取所述待分类长臂猿录音数据的Mel谱特征;
基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
在一些实施例中,所述获取长臂猿录音数据,包括以下步骤:
在长臂猿群中通过录音设备实时采集长臂猿录音数据,所述长臂猿录音数据包括含有长臂猿音频的片段和不含有长臂猿音频的片段。
在一些实施例中,所述对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据,包括以下步骤:
对所述长臂猿录音数据进行采样量化;
对采样量化后的长臂猿录音数据进行预加重;
对预加重后的长臂猿录音数据进行分帧;
对分帧后的长臂猿录音数据进行加窗,得到待分类长臂猿录音数据。
在一些实施例中,所述提取所述待分类长臂猿录音数据的Mel谱特征,包括以下步骤:
对所述待分类长臂猿录音数据进行快速傅里叶变换得到信号频谱;
对所述信号频谱进行Mel频率转换得到Mel频率;
将所述Mel频率进行Mel滤波得到Mel谱特征。
在一些实施例中,所述基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频,包括以下步骤:
对所述Mel谱特征进行维度扩张,并将维度扩张后的Mel谱特征输入训练好的长臂猿声音分类模型的卷积层得到特征数据;其中,所述训练好的长臂猿声音分类模型包括卷积核均为3*3的五个卷积层;
对所述特征数据进行数据增强处理,并将数据增强处理后的特征数据输入所述训练好的长臂猿声音分类模型的全连接层,以输出所述待分类长臂猿录音数据中的长臂猿音频片段。
在一些实施例中,所述输出所述得到所述待分类长臂猿录音数据中的长臂猿音频片段之后,还包括以下步骤:
对所述长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,并记录长臂猿的鸣叫时间。
在一些实施例中,根据F-Score指标评价训练的长臂猿声音分类模型的泛化能力。
本申请实施例提供的一种声音识别装置,包括:
获取模块,用于获取长臂猿录音数据;
预处理模块,用于对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
提取模块,用于提取所述待分类长臂猿录音数据的Mel谱特征;
分类模块,用于基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一项所述的声音识别方法的步骤。
本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项所述的声音识别方法的步骤。
本申请所述的一种声音识别方法、装置、电子设备及存储介质,对获取的长臂猿录音数据进行预处理得到待分类长臂猿录音数据;进而提取待分类长臂猿录音数据的Mel谱特征;通过将Mel谱特征输入训练好的长臂猿声音分类模型中,得到待分类长臂猿录音数据中的长臂猿音频片段。其中采用的长臂猿声音分类模型更加轻量化,识别速度快,并且提前进行预处理识别效果准确,可以实现对长臂猿声音的实时高效监测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的声音识别方法的流程图;
图2示出了本申请实施例提供的对长臂猿录音数据进行预处理的流程图;
图3示出了本申请实施例提供的提取待分类长臂猿录音数据Mel谱特征的流程图;
图4示出了本申请实施例提供的基于训练好的长臂猿声音分类模型得到长臂猿音频的流程图;
图5示出了本申请实施例提供的声音识别装置的结构框图;
图6示出了本申请实施例提供的电子设备的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
随着大数据与人工智能技术的蓬勃发展,深度学习方法在声音识别领域得到了广泛应用。深度学习能够自动提取特征,具有学习能力强,鲁棒性好,泛化能力强等优势,适用于大量数据的高效处理,在减少人力物力的同时还能确保结果的准确性。但复杂神经网络模型在计算方面需要花费大量时间,且随着层数的增加往往伴随着梯度弥散与梯度消失的情况,因此难以保证结果的实时性。基于此,本文提出了一种声音识别方法、装置、电子设备及存储介质,基于轻量级网络模型的深度学习方法实时、高效地识别长臂猿的声音。
如说明书附图1所示,本申请实施例提供一种声音识别方法,包括以下步骤:
S1、获取长臂猿录音数据;
S2、对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
S3、提取所述待分类长臂猿录音数据的Mel谱特征;
S4、基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
步骤S1中,通过在长臂猿群中放置录音设备实时采集长臂猿录音数据,其中,采集的长臂猿录音数据包括含有长臂猿音频的片段和不含有长臂猿音频的片段。
进一步的,为了提升录音设备的录音质量,录音设备可以采用多个降噪硅麦;进一步的,录音设备具备通信功能,如4G/5G模块,从而能够从录音设备中实时获取所采集的长臂猿录音数据;进一步的,录音设备具备定位功能,如GPS模块,从而能够实时确定获取的长臂猿录音数据的目标区域,便于对长臂猿追踪和监测。
在该实施例中,长臂猿录音数据采集区域位于海南热带雨林国家公园的长臂猿C群(109°14′38.16″E,19°5′49.48″N)和E群(109°14′18.53″E,19°11′13.80″N)。长臂猿录音数据采集时长共计36.16小时,采集时间分布于2021年3月24日—2021年7月31日,采用带4G传输功能的GPS录音定位器采集数据,设备录音部分采用3个降噪硅麦来保证录音质量,设备获取的长臂猿录音数据的采样率为16KHz,采样精度为16bit,文件类型为wav格式。
需要说明的是,获取长臂猿录音数据并不局限于放置在长臂猿群中的录音设备所实时采集的长臂猿录音数据,长臂猿录音数据也可以是从第三方获取,这里并不构成对本申请的限定。
步骤S2中,在获取长臂猿录音数据后,需要对获取的长臂猿录音数据进行预处理,具体的,如说明书附图2所示,对获取的长臂猿录音数据进行预处理,得到待分类长臂猿录音数据,包括以下步骤:
S201、对所述长臂猿录音数据进行采样量化;
S202、对采样量化后的长臂猿录音数据进行预加重;
S203、对预加重后的长臂猿录音数据进行分帧;
S204、对分帧后的长臂猿录音数据进行加窗,得到待分类长臂猿录音数据。
在该实施例中,先以16KHz采样率对获取的长臂猿录音数据进行采样量化;再输入高通滤波器完成对采样后长臂猿录音数据的预加重,采用的高通滤波器为:
H(z)=1-αz-1
其中,z-1表示滤波器H(z)为一阶滤波器,α为一个常数,在此取α为0.95。
然后,将预加重后的长臂猿录音数据进行分帧,其中,以400个采样点(25ms)作为帧长,200个采样点(12.5ms)作为帧移,帧长帧移重叠率为50%,以确保声音的连续性;最后,进行加窗处理以解决分帧后长臂猿录音数据所存在的两端不连续的问题,得到待分类长臂猿录音数据。采用的窗函数计算公式为:
其中,n表示采样点,N表示帧长。
步骤S3中,在得到待分类长臂猿录音数据后,需要提取待分类长臂猿录音数据的Mel谱特征。如说明书附图3所示,提取所述待分类长臂猿录音数据的Mel谱特征,包括以下步骤:
S301、对所述待分类长臂猿录音数据进行快速傅里叶变换得到信号频谱;
S302、对所述信号频谱进行Mel频率转换得到Mel频率;
S303、将所述Mel频率进行Mel滤波得到Mel谱特征。
在该实施例中,先将待分类长臂猿录音数据进行快速傅里叶变换得到信号频谱,计算公式为:
其中,X(i,k)表示信号频谱,i表示分帧下标,0≤k≤N-1。
然后,将快速傅里叶变换得到的线性频率结果即信号频谱转换为Mel频率,计算公式为:
其中,Mel(f)表示Mel频率,f表示线性频率。
最后,将Mel频率输入到Mel滤波器组中进行Mel滤波得到Mel谱特征,计算公式为:
其中,m表示滤波器编号,0≤m≤M,M表示滤波器个数,选取80个Mel滤波器进行滤波。
步骤S4中,为了达到长臂猿声音分类模型的轻量化以及识别效果,本申请中所训练的长臂猿声音分类模型基于ResNet34进行改进。
其中,为了使所训练的长臂猿声音分类模型更加轻量化,所训练的长臂猿声音分类模型相比ResNet34的卷积核大小和数量做了缩减。所训练的长臂猿声音分类模型将第一层的卷积核大小由7x7减小为3x3,将第二层的卷积核个数设置为原来的四分之一,步长设为(2,1),将第三层、第四层、第五层的卷积核个数分别设置为原来的四分之一,步长均为(2,2);为了使所训练的长臂猿声音分类模型达到更好的识别效果,对通过卷积处理得到的特征数据进行均值和方差计算,将计算的特征数据的均值和方差进行级联作为全连接层的输入。由于均值可以反应特征数据的平均水平,方差可以反应特征数据的离散程度,以特征数据的方差和均值作为全连接层的输入可以使得识别效果更优异,因此为在输入全连接层前,计算特征数据的方差与均值,将均值与方差进行纵向拼接处理再输入至全连接层做分类。其中,所训练的长臂猿声音分类模型与ResNet34网络结构的对比如
表1所示。
表1
在训练长臂猿声音分类模型时,以获取的3s时长的长臂猿录音数据为例,经预处理、提取Mel谱特征后可以得到80*24的Mel谱特征,再对Mel谱特征进行维度扩张,扩张后的Mel谱特征尺寸变为10*1*80*241,将扩张后的结果输入到长臂猿声音分类模型中,首先通过第一卷积层Conv1可以得到10*16*42*123的特征图;再通过第二卷积层Conv2_x可以得到10*16*21*123的特征图;再通过第三卷积层Conv3_x可以得到10*32*11*62的特征图;再通过第四卷积层Conv4_x可以得到10*64*6*31的特征图;最后再通过第五卷积层Conv5_x可以得到10*128*3*16的特征图。对第五卷积层Conv5_x结果的第三维度做均值和方差计算,得到的特征图尺寸均为10*128*1*16,将方差与均值进行第四维度的拼接处理,得到特征图尺寸为10x*128*1*32;调换特征图的第二三维度,得到特征图尺寸为10*128*1*32;再缩减第三维度并交换二三维度,得到特征图10*32*128;最后对上述尺寸为10*32*128特征图的第二维度做求和再展平输入到全连接层中,得到分类结果。
另外,在训练长臂猿声音分类模型时,需要获取的样本数据可以按照步骤S1所述的方式进行获取,并将样本数据集划分为训练集和测试集,在划分训练集和测试集时,需要进行权衡,测试集数据越小,对模型得泛化误差得估计越不准确。在该实施例中,基于人工标注的数据集按照8:1:1的比例随机划分为训练集、验证集和测试集以获取最佳训练轮数。
由于所训练的长臂猿声音分类模型为二分类模型,即从长臂猿录音数据中识别出含有长臂猿音频的片段和不含有长臂猿音频的片段,而单一的准确率指标不能很好地反应模型的泛化能力,因此在本申请中采用F-Score指标作为评价长臂猿声音分类模型泛化能力的指标。其中,F-Score是一个综合评价指标,受精确率和召回率影响,是二者的调和平均,计算方式为:
其中,Pre表示精确率,Re表示召回率,β表示平衡系数,Pre与Re的计算公式为:
其中,TP表示长臂猿声音分类模型输出为真,标签为真;FP表示长臂猿声音分类模型输出为真,标签为假;FN表示长臂猿声音分类模型输出为假,标签为真。β用来平衡Pre与Re在F-Score计算中的重要性,当β=1时,Pre与Re重要性相当;当β<1时,Pre对结果影响更大;当β>1时,Re对结果影响更大,在该实施例中β=1。
其中训练长臂猿声音分类模型的步骤应属于本领域技术人员所熟知的技术手段,在此不做赘述。
如说明书附图4所示,基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频,包括以下步骤:
S401、对所述Mel谱特征进行维度扩张,并将维度扩张后的Mel谱特征输入训练好的长臂猿声音分类模型的卷积层得到特征数据;其中,所述训练好的长臂猿声音分类模型包括卷积核均为3*3的五个卷积层;
S402、对所述特征数据进行数据增强处理,并将数据增强处理后的特征数据输入所述训练好的长臂猿声音分类模型的全连接层,以输出所述待分类长臂猿录音数据中的长臂猿音频片段。
该步骤与上述训练长臂猿声音分类模型时,长臂猿声音分类模型处理Mel谱特征的步骤一样,在此不做赘述。
进一步的,在得到所述待分类长臂猿录音数据中的长臂猿音频片段之后,对所述长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,并记录长臂猿的鸣叫时间。
则本申请提供的一种声音识别方法,对获取的长臂猿录音数据进行预处理、提取Mel谱特征,通过将Mel谱特征训练好的长臂猿声音分类模型得到待分类长臂猿录音数据中的长臂猿音频片段,并对长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,进而记录长臂猿在目标区域的鸣叫时间,实现对长臂猿的高效监测。由于采用的长臂猿声音分类模型更为轻量化,能够快速识别出长臂猿录音数据中的长臂猿音频片段,实现对长臂猿的实时监测。
基于本发明的同一构思,本申请实施例还提供一种声音识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述声音识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如说明书附图5所示,为本申请实施例提供的一种声音识别装置,包括:
获取模块501,用于获取长臂猿录音数据;
预处理模块502,用于对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
提取模块503,用于提取所述待分类长臂猿录音数据的Mel谱特征;
分类模块504,用于基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
在一种可能的实施方式中,获取模块501在获取长臂猿录音数据,包括:在长臂猿群中通过录音设备实时采集长臂猿录音数据,所述长臂猿录音数据包括含有长臂猿音频的片段和不含有长臂猿音频的片段。
在一种可能的实施方式中,预处理模块502对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据,包括:
对所述长臂猿录音数据进行采样量化;
对采样量化后的长臂猿录音数据进行预加重;
对预加重后的长臂猿录音数据进行分帧;
对分帧后的长臂猿录音数据进行加窗,得到待分类长臂猿录音数据。
在一种可能的实施方式中,提取模块503提取所述待分类长臂猿录音数据的Mel谱特征,包括:
对所述待分类长臂猿录音数据进行快速傅里叶变换得到信号频谱;
对所述信号频谱进行Mel频率转换得到Mel频率;
将所述Mel频率进行Mel滤波得到Mel谱特征。
在一种可能的实施方式中,分类模块504基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段,包括:
对所述Mel谱特征进行维度扩张,并将维度扩张后的Mel谱特征输入训练好的长臂猿声音分类模型的卷积层得到特征数据;其中,所述训练好的长臂猿声音分类模型包括卷积核均为3*3的五个卷积层;
对所述特征数据进行数据增强处理,并将数据增强处理后的特征数据输入所述训练好的长臂猿声音分类模型的全连接层,以输出所述待分类长臂猿录音数据中的长臂猿音频片段。
在一种可能的实施方式中,所述装置还包括:
拼接裁剪模块,用于对所述长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,并记录长臂猿的鸣叫时间。
本申请实施例提供的一种声音识别装置,对获取的长臂猿录音数据进行预处理得到待分类长臂猿录音数据;进而提取待分类长臂猿录音数据的Mel谱特征;通过将Mel谱特征输入训练好的长臂猿声音分类模型中,得到待分类长臂猿录音数据中的长臂猿音频片段。其中采用的长臂猿声音分类模型更加轻量化,识别速度快,并且提前进行预处理识别效果准确,可以实现对长臂猿声音的实时高效监测。
基于本发明的同一构思,说明书附图6所示,本申请实施例提供的一种电子设备600,包括:处理器601、存储器602和总线,所述存储器602存储有所述处理器601可执行的机器可读指令,当电子设备运行时,所述处理器601与所述存储器602之间通过总线通信,所述处理器601执行所述机器可读指令,以执行如上述声音识别方法的步骤。
具体地,上述存储器602和处理器601能够为通用的存储器和处理器,这里不做具体限定,当处理器601运行存储器602存储的计算机程序时,能够执行上述声音识别方法。
对应于上述游戏中信息处理方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述声音识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种声音识别方法,其特征在于,包括以下步骤:
获取长臂猿录音数据;
对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
提取所述待分类长臂猿录音数据的Mel谱特征;
基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
2.根据权利要求1所述一种声音识别方法,其特征在于,所述获取长臂猿录音数据,包括以下步骤:
在长臂猿群中通过录音设备实时采集长臂猿录音数据,所述长臂猿录音数据包括含有长臂猿音频的片段和不含有长臂猿音频的片段。
3.根据权利要求2所述一种声音识别方法,其特征在于,所述对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据,包括以下步骤:
对所述长臂猿录音数据进行采样量化;
对采样量化后的长臂猿录音数据进行预加重;
对预加重后的长臂猿录音数据进行分帧;
对分帧后的长臂猿录音数据进行加窗,得到待分类长臂猿录音数据。
4.根据权利要求3所述一种声音识别方法,其特征在于,所述提取所述待分类长臂猿录音数据的Mel谱特征,包括以下步骤:
对所述待分类长臂猿录音数据进行快速傅里叶变换得到信号频谱;
对所述信号频谱进行Mel频率转换得到Mel频率;
将所述Mel频率进行Mel滤波得到Mel谱特征。
5.根据权利要求4所述一种声音识别方法,其特征在于,所述基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频,包括以下步骤:
对所述Mel谱特征进行维度扩张,并将维度扩张后的Mel谱特征输入训练好的长臂猿声音分类模型的卷积层得到特征数据;其中,所述训练好的长臂猿声音分类模型包括卷积核均为3*3的五个卷积层;
对所述特征数据进行数据增强处理,并将数据增强处理后的特征数据输入所述训练好的长臂猿声音分类模型的全连接层,以输出所述待分类长臂猿录音数据中的长臂猿音频片段。
6.根据权利要求5所述一种声音识别方法,其特征在于,所述输出所述得到所述待分类长臂猿录音数据中的长臂猿音频片段之后,还包括以下步骤:
对所述长臂猿音频片段进行拼接裁剪得到完整的长臂猿音频,并记录长臂猿的鸣叫时间。
7.根据权利要求1所述一种声音识别方法,其特征在于,根据F-Score指标评价训练的长臂猿声音分类模型的泛化能力。
8.一种声音识别装置,其特征在于,包括:
获取模块,用于获取长臂猿录音数据;
预处理模块,用于对所述长臂猿录音数据进行预处理,得到待分类长臂猿录音数据;
提取模块,用于提取所述待分类长臂猿录音数据的Mel谱特征;
分类模块,用于基于训练好的长臂猿声音分类模型,根据所述Mel谱特征对所述待分类长臂猿录音数据进行分类,得到所述待分类长臂猿录音数据中的长臂猿音频片段。
9.一种电子设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1至7任一项所述的声音识别方法的步骤。
10.一种计算机可读存储介质,其特征在于:该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1至7任一项所述的声音识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390367.5A CN114049899A (zh) | 2021-11-23 | 2021-11-23 | 一种声音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111390367.5A CN114049899A (zh) | 2021-11-23 | 2021-11-23 | 一种声音识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114049899A true CN114049899A (zh) | 2022-02-15 |
Family
ID=80210809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111390367.5A Pending CN114049899A (zh) | 2021-11-23 | 2021-11-23 | 一种声音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114049899A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129914A (zh) * | 2023-04-04 | 2023-05-16 | 中国林业科学研究院资源信息研究所 | 声音识别模型的训练方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
WO2020006935A1 (zh) * | 2018-07-05 | 2020-01-09 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及计算机可读存储介质 |
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
US20200322377A1 (en) * | 2019-04-08 | 2020-10-08 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN113436634A (zh) * | 2021-07-30 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
-
2021
- 2021-11-23 CN CN202111390367.5A patent/CN114049899A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020006935A1 (zh) * | 2018-07-05 | 2020-01-09 | 平安科技(深圳)有限公司 | 动物声纹特征提取方法、装置及计算机可读存储介质 |
US20200322377A1 (en) * | 2019-04-08 | 2020-10-08 | Pindrop Security, Inc. | Systems and methods for end-to-end architectures for voice spoofing detection |
CN110246504A (zh) * | 2019-05-20 | 2019-09-17 | 平安科技(深圳)有限公司 | 鸟类声音识别方法、装置、计算机设备和存储介质 |
CN110827837A (zh) * | 2019-10-18 | 2020-02-21 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN113436634A (zh) * | 2021-07-30 | 2021-09-24 | 中国平安人寿保险股份有限公司 | 基于声纹识别的语音分类方法、装置及相关设备 |
Non-Patent Citations (1)
Title |
---|
刘娟宏;胡彧;黄鹤宇;: "端到端的深度卷积神经网络语音识别", 计算机应用与软件, no. 04, 12 April 2020 (2020-04-12) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129914A (zh) * | 2023-04-04 | 2023-05-16 | 中国林业科学研究院资源信息研究所 | 声音识别模型的训练方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111477250A (zh) | 音频场景识别方法、音频场景识别模型的训练方法和装置 | |
CN107274916A (zh) | 基于声纹信息对音频/视频文件进行操作的方法及装置 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
WO2020140607A1 (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
Liu et al. | Fast copy-move detection of digital audio | |
CN110728996A (zh) | 一种实时语音质检方法、装置、设备及计算机存储介质 | |
CN111429943B (zh) | 音频中音乐及音乐相对响度的联合检测方法 | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
CN108021635A (zh) | 一种音频相似度的确定方法、装置和存储介质 | |
CN113269244A (zh) | 针对工商登记信息中跨企业人员重名实现消歧处理方法、系统、装置、处理器及其存储介质 | |
CN114049899A (zh) | 一种声音识别方法、装置、电子设备及存储介质 | |
Dong et al. | A novel representation of bioacoustic events for content-based search in field audio data | |
CN111508524A (zh) | 语音来源设备的识别方法和系统 | |
CN111145726A (zh) | 基于深度学习的声场景分类方法、系统、装置及存储介质 | |
CN114065809A (zh) | 一种乘用车异响识别方法、装置、电子设备以及存储介质 | |
CN113707173A (zh) | 基于音频切分的语音分离方法、装置、设备及存储介质 | |
CN114420108A (zh) | 一种语音识别模型训练方法、装置、计算机设备及介质 | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN116741159A (zh) | 音频分类及模型的训练方法、装置、电子设备和存储介质 | |
CN115273904A (zh) | 一种基于多特征融合的愤怒情绪识别方法及装置 | |
CN117292693B (zh) | 融入自注意力机制的crnn珍稀动物识别与定位方法 | |
CN116771662A (zh) | 一种基于多特征融合的机泵故障诊断方法 | |
CN116884416A (zh) | 野生动物音频采集检测系统、方法、存储介质及电子设备 | |
CN116542783A (zh) | 基于人工智能的风险评估方法、装置、设备及存储介质 | |
Yu | Research on music emotion classification based on CNN-LSTM network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |