CN113314127A - 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 - Google Patents
基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 Download PDFInfo
- Publication number
- CN113314127A CN113314127A CN202110446379.9A CN202110446379A CN113314127A CN 113314127 A CN113314127 A CN 113314127A CN 202110446379 A CN202110446379 A CN 202110446379A CN 113314127 A CN113314127 A CN 113314127A
- Authority
- CN
- China
- Prior art keywords
- signal
- bird
- slice
- bird sound
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 230000005236 sound signal Effects 0.000 claims abstract description 112
- 238000003491 array Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 238000013145 classification model Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 69
- 238000001228 spectrum Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 28
- 239000012634 fragment Substances 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000007500 overflow downdraw method Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 description 22
- 230000000694 effects Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 102100028082 Tapasin Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 108010059434 tapasin Proteins 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种基于空间方位的鸟鸣识别方法、系统、计算机设备与介质,所述方法包括通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果。本发明不仅有效识别鸟声类别、数量和空间方位,还提高了识别的效率和精确度。
Description
技术领域
本发明涉及声学信号处理与生态监测技术领域,特别是涉及一种基于空间方位的鸟鸣识别方法、系统、计算机设备和存储介质。
背景技术
鸟类的数量、种类和生存状态是评价生态环境好坏的重要指标,相关研究对于生态环境的监控和保护具有重要意义。具体而言,确定鸟群在目标生态环境中的种类、空间分布、生活习性等,是生态多样性监测的重要内容。相关监测结果不仅可以反映出目标区域的生态环境状况,还可以为评估生态保护方案的有效性提供依据。鸣声作为鸟类的一类重要的生物特征,成为众多鸟类学家辨识鸟群种类、统计鸟群数量、以及回溯鸟类活动轨迹的重要研究依据,且随着科技的进步,鸟类学家已经基于鸟鸣研究,获取了大量鸟类生物学信息。
现有的鸟鸣识别方法主要有两类:(1)基于模板匹配的识别方法,比如,将训练集提取的鸟声特征作为模板存入模板库,提取待识别鸟声特征后,采用动态时间规整算法(DTW,Dynamic Time Warping)或其改进的DTW(Derivative Dynamic Time Warping)算法,将待识别鸟声特征与模板库中的所有模板进行匹配,计算距离,找到最短距离对应的鸟声类别,作为识别的鸟声类别;(2)基于特征深度学习的识别方法,比如采用高斯混合模型(GMM)、支持向量机(SVM)、随机森林模型(Random Forests)、隐马尔可夫模型(HMM)和深度神经网络(DNN)模型等对鸟声特征进行训练识别得到分类结果。虽然上述两类方法基于鸟鸣的研究都取得了一定的成果,但它们仍有不足:首先,二者都存在自身的应用缺陷,如基于模板匹配的识别方法因需要预先采用对应的算法把采集到的鸟鸣时间序列进行一定程度的缩放至同等长度才能进行相似性的比较,其运算量代价非常大,严重影响识别效率,不利于实际应用的推广;基于特征深度学习的识别方法中采用的特征提取方法大多基于人类语音发声原理和听觉模型进行构建,没有充分考虑鸟鸣频谱的特性;其次,二者均未在鸟鸣数据采集中考虑空间域信号特征,未考虑使用传感器阵列进行采集且未在鸟鸣数据的预处理上引入空间滤波和声源定位,在一定程度上限制了基于鸟鸣数据的研究效果和应用范围;再次,二者均未涉及鸟类的空间方位信息,不能有效处理遮挡物后面和距离较远处的鸟类进行监测,也不能有效支持对鸟类进行定位与追踪的要求,以及在实际应用中难以区分采集的鸟声是否来自同一只鸟,不能获得完整和全面的生态监测信息。
显然,一种能有效识别鸟类鸣声类别、数量和空间方位的基于空间方位的鸟鸣识别方法,可以更好地满足全面的生态监测要求,还能提高识别的效率和精确度,提升监测效果和应用范围,对于基于动物声纹的生态多样性监测具有重要意义。
发明内容
本发明的目的是提供一种不仅能有效识别鸟声类别、数量和空间方位,满足生态监测的完整性和全面性要求,还能提高识别的效率和精确度的鸟鸣识别方法。
为了实现上述目的,有必要针对上述技术问题,提供一种基于空间方位的鸟鸣识别方法、系统、计算机设备和存储介质。
第一方面,本发明实施例提供了一种基于空间方位的鸟鸣识别方法,所述方法包括以下步骤:
通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
进一步地,所述通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号的步骤包括:
根据所述定位算法的Cramer-Rao下界,配置所述特定数量的无线声音传感器阵列,并采用无线传感器网络同步技术,定期对所述无线声音传感器阵列中的无线传感器进行同步校准;
通过前置放大器将所述无线传感器采集的信号放大,并进行模数转换和信号筛选,得到所述鸟声信号。
进一步地,所述通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息的步骤包括:
采用空间滤波对所述鸟声信号进行滤波处理,得到目标鸟声信号;
通过双门限算法对所述目标鸟声信号进行端点检测,得到有鸟声片段和无鸟声片段;
将所述有鸟声片段和所述无鸟声片段分别进行频域变换,得到与之分别对应的带噪鸟声谱和噪声谱估计;
根据所述带噪鸟声谱和所述噪声谱估计,得到所述降噪鸟声信号;
根据若干个所述无线声音传感器阵列的所述降噪鸟声信号,通过所述定位算法,结合所述若干个无线声音传感器阵列的几何结构,得到所述空间方位信息。
进一步地,所述预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片的步骤包括:
统计分析所述降噪鸟声信号的基本信息,得到期望切片长度;
根据所述期望切片长度对所述降噪鸟声信号进行切片,得到与之对应的鸟声切片。
进一步地,所述根据所述期望切片长度对所述降噪鸟声信号进行切片,得到与之对应的鸟声切片的步骤包括:
根据所述降噪鸟声信号,得到每帧信号后验信噪比;
根据所述每帧信号后验信噪比,通过引导判决法,得到每帧信号先验信噪比估计,并根据所述每帧信号先验信噪比估计,得到每帧信号鸟声先验概率;
判断所述每帧信号鸟声先验概率是否大于预设阈值,若大于预设阈值,则将与之对应的每帧信号判定为有效鸟声帧;
将所述有效鸟声帧合成为有声段信号,并按照所述期望切片长度对所述有声段信号进行切片,得到所述鸟声切片;或统计分析所述每帧信号鸟声先验概率,得到切片阈值,并判断所述降噪鸟声信号中是否存在连续若干个所述每帧信号鸟声先验概率大于所述切片阈值,若存在,则以对应的连续若干个帧信号为中心对称读取至所述期望切片长度的方法,得到所述鸟声切片。
进一步地,所述采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征的步骤包括:
通过高通滤波器对所述空间鸟声切片进行预加重处理,得到预加重空间鸟声切片;
将所述预加重空间鸟声切片进行分帧处理,得到帧信号,并对所述帧信号,依次通过加窗和快速傅里叶变换,得到每帧鸟声功率谱;
根据所述每帧鸟声功率谱,通过带通滤波器组,得到每帧平滑鸟声功率谱;
根据所述每帧平滑鸟声功率谱,采用对数变换和反离散余弦变换,得到每帧鸟声特征。
进一步地,所述通过预先根据地域信息进行分块训练得到的鸟声分类模型,对所述切片鸟声特征进行分类识别,得到识别结果的步骤包括:
预先根据深度卷积神经网络和双向长短时记忆网络,建立分块训练模型,并将所述切片鸟声特征按照预定比例划分为训练集和测试集;
根据所述训练集和预设类别,以及所述训练集和预设空间分组,分别训练所述分块训练模型,分别得到与之对应的所述类别识别模型和所述空间方位模型;
通过所述类别识别模型和所述空间方位模型对所述测试集分别进行分类识别,得到与之对应的类别分块识别结果和空间分块识别结果;所述类别分块识别结果包括所述空间方位鸟声切片判定为任一预设类别的类别分类概率;所述空间分块识别结果包括所述空间方位鸟声切片判定为任一预设空间分组的空间分类概率;
将同一预设类别的所述类别分类概率,以及同一预设空间分组的所述空间分类概率,分别按照预设地域权重进行加权平均,得到与之对应的类别识别概率值和空间识别概率值,并分别选取所述类别识别概率值和所述空间识别概率值对应的最大值,作为所述类别识别结果和空间识别结果;
根据同一所述鸟声信号对应的所述空间识别结果,通过判决融合方法,得到所述空间判决结果。
第二方面,本发明实施例提供了一种基于空间方位的鸟鸣识别系统,所述系统包括:
信号采集模块,用于通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
方位识别模块,用于通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
切片处理模块,用于预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
特征提取模块,用于采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
分类识别模块,用于通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述本申请提供了一种基于空间方位的鸟鸣识别方法、系统、计算机设备和存储介质,通过所述方法,实现了通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号,通过空间滤波和定位算法对鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息后,进行有效声段提取和确定期望切片长度,对降噪鸟声信号进行切片处理得到鸟声切片,及进行空间方位信息标注,并采用梅尔倒谱系数法对空间鸟声切片进行特征提取,得到切片鸟声特征,再通过预先根据地域信息进行分块训练得到的鸟声分类模型对切片鸟声特征进行有效地分类识别,得到精准的类别识别结果和空间判决结果的效果。与现有技术相比,该方法有效地解决了现有鸟鸣识别方法中因空间方位信息缺失而导致鸟鸣信号采集的不合理,不能真正实现对遮挡物后面和距离较远处的鸟类进行监测,不能对鸟类进行很好的定位与追踪,以及在实际场景应用中难以区分采集的鸟声是否来自同一只鸟等问题,不仅能有效识别鸟声类别、数量和空间分布,满足生态监测全面性要求,而且能提高识别的效率和精确度的鸟鸣识别方法。
附图说明
图1是本发明实施例中基于空间方位的鸟鸣识别方法应用场景示意图;
图2是本发明实施例中基于空间方位的鸟鸣识别方法的流程示意图;
图3是图2中步骤S11鸟声信号采集的流程示意图;
图4是图2中步骤S12得到降噪鸟声信号和空间方位信息的流程示意图;
图5是本发明实施例中单声源-远场模型的示意图;
图6是本发明实施例中单声源鸟声广义互相关时延计算的示意图;
图7是本发明实施例中单声源远场模型到达方位角计算的示意图;
图8是图2中步骤S13得到空间鸟声切片的流程示意图;
图9是图2中步骤S14提取鸟声特征的流程示意图;
图10是图2中步骤S15训练识别得到识别结果的流程示意图;
图11是本发明实施例中用于分类识别训练的DenseNet网络结构示意图;
图12是本发明实施例中用于分类识别训练的LSTM网络结构示意图;
图13是本发明实施例中基于空间方位的鸟鸣识别系统的结构示意图;
图14是本发明实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于空间方位的鸟鸣识别方法、系统、计算机设备和存储介质,可以应用于如图1所示的,本发明提供的基于空间方位的鸟鸣识别方法,可以应用于如图1所示的终端或服务器上。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可生成最终的识别结果,将生成的识别结果发送至终端,终端接收到识别结果后,供终端的使用者查看分析。
在一个实施例中,如图2所示,提供了一种基于空间方位的鸟鸣识别方法,包括以下步骤:
S11、通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
其中,无线声音传感器阵列的设置是基于鸟声信号为空间传播的空间域信号而专门设置的,对于空间域信号的采集若使用单个无线声音传感器可能会遗漏很多重要的信息,选用无线声音传感器阵列代替单个无线声音传感器来采集鸟声信号,可以获取更多时间和空间上的信息,从而保证鸟声信号的真实和全面。无线声音传感器阵列可采用多个高灵敏无线声音传感器构成的线性或环形的空间无线声音传感阵列,且每个无线声音传感器阵列使用的无线声音传感器数目及无线声音传感器阵列的特定数量可分别根据后续具体使用的定位算法推导出其Cramer-Rao下界的方式确定。其中,无线声音传感器和无线声音传感器阵列的类型和数量均可根据实际的应用需求进行设定,本实例中为了满足后续基于鸟声信号精确定位的要求,所采用的高灵敏无线声音传感器是指满足监听范围可达50m2,监听频响范围为200Hz-16KHz等要求的无线声音传感器,且无线声音传感器阵列的特定数量采用由监测区域的面积除以每个阵列的监听范围的方式确定,每个阵列中传感器的数量是成对出现,由定位性能的Cramer-Rao界可知,其数量大于4对。通常,多个传感器阵列的平均结果可减少任何一个传感器误差带来的影响,基于鸟声信号的定位精度随着所用传感器和传感器阵列的数量的增加而有所提高,因此,在实际应用中可在条件允许的情况下增加传感器阵列的数量及每个传感器阵列中的传感器的数量,以保证所需的定位效果和精度。需要说明的是,上述传感器类型和数量,以及传感器阵列的形状和数量仅为示例性说明,可根据实际情况进行选择使用。
如图3所示,所述通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号的步骤S11包括:
S111、根据所述定位算法的Cramer-Rao下界,配置所述特定数量的无线声音传感器阵列,并采用无线传感器网络同步技术,定期对所述无线声音传感器阵列中的无线传感器进行同步校准;
其中,无线声音传感器阵列按照上述方法确定后,为了准确地测量声音到达无线声音传感器阵列中每个传感器的时间上的轻微延迟,对传感器进行同步校准是必不可少的操作。因为,即便是同时开始录音的传感器,如果不定期重新同步,最终也会导致误差的放大。本实施例对无线传感器网络同步技术的类型不作具体限制,采用现有的可实现传感器网络同步校准技术,如传感器网络时间同步协议(TPSN)机制等即可方便地实现传感器的网络同步校准,保证后续用于对传感器阵列中的传感器时延数据的有效性,便于精准定位。
S112、通过前置放大器将所述无线传感器采集的信号放大,并进行模数转换和信号筛选,得到所述鸟声信号。
其中,前置放大器可根据实际需要对传感器信号放大的需求进行选择。为了保证前置放大器实现放大效果的同时不引入额外的噪声,本实施例中优选的前置放大器必须有足够的功率增益,且器件本身产生的噪声小,至少对采集的信号增益在10dB以上,匹配电路在200-600Ω,常采用MOS-FET场效三极管;通过前置放大器处理过的鸟声信号需要进行模数转换,即使用音频编解码芯片将不同阵列不同通道的模电信号转为一定采样率和量化精度的数字信号;为了保证采集到的声音信号的有效性、提高数据采集的效率,以及减少采集前端的存储需求和传输拥塞,在得到数字信号后,会进行初步的信号筛选,以减轻后续预处理的复杂性。
本实例的信号筛选是基于能量阈值进行的有效声音判断,并将判断方法写入了数据采集设备,具体的判断方法为:根据实际需求,预先设定能量阈值Th1,对规定时间内采集的鸟声信号进行检测,计算采集的鸟声信号能量,并判断鸟声信号能量是否大于预设的能量阈值,当大于时,则判定为鸟声信号为有效声音并存储,反之,则丢弃。其中,能量阈值的设置可根据实际需求、经验值或通过实验标定等方法设定,如可先采集多段超过2s的鸟声信号,并分别计算其各自能量Xk,k=1,…,K,同时测量同时长的环境噪声片段,并计算其能量E1,则能量阈值Th1可表示为:
其中,能量Xk与E1的计算公式一样,以E1为例进行说明:
ei(n)是时域环境噪声e(n)在进行加窗、分帧处理后得到的第i帧的噪声信号数据,
ei(n)=ω(n)*e((i-1)*inc+n),1≤n≤L,1≤i≤fn
式中,ω(n)为汉明窗函数,L=200为帧的长度,inc=100为帧移长度,fn为分帧后的总帧数。
通过上述能量阈值进行信号筛选得到的鸟声信号,采用缓存技术对多通道单片机采集的声音数据进行缓存,并采用分布式缓存实时调度策略进行数据调度传输,优选的当缓存数据占1/3存储容量大小时,便向服务器传输数据,且采用通信网关对存储的有效鸟声数据进行发送和接收,最终传送到相应的服务器上,以供后续分析使用。
S12、通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
其中,降噪鸟声信号和空间方位信息是保证后续鸟鸣识别方法效果的关键信息,在实际应用中,为了实现精准定位的效果,除了前期数据采集阶段对无线声音传感器的选择,其组成的传感器阵列的形状和数量的布置,以及传感器的定期同步校准配置外,还需要需要对采集的鸟声信号在保证时序信息不变的前提下进行降噪处理,如图4所示,所述通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息的步骤S12包括:
S121、采用空间滤波对所述鸟声信号进行滤波处理,得到目标鸟声信号;
其中,空间滤波最常见的是波速形成,能提高微弱信号监测性能,当多个源信号处于同一时间段和频带,且来自不同的方位时,可以使用空间滤波器实现对方位角的选择,将多个源信号分开,得到更为纯洁的源信号,特别适合应用在阵列信号的处理中抑制噪声和干扰信号,用于提高后续分析的效率和精度。
基于多通道声音传感器阵列采集的鸟声信号,大多情况下信噪比低,多种信号混叠,难以准确地对目标鸟声进行特征提取和信源分离。本实施例中采用空间滤波器,将采集到的鸟声信号构造出解析信号来抑制虚像,使用波束形成算法实现方位角的选择,基于不同方向角的空间方位信息,获得不同的目标鸟声信号,即单声源鸟声信号或多声源鸟声信号,同时也可以获得鸟声信号中包含的声源数量,即鸟类数量。通过空间滤波器对鸟声信号进行预处理,可以有效地抑制噪声,并有效区分处于同一时间段、同一频段的多个源信号估算出鸟声数量,相较于当下只针对单一、干净的鸟声识别系统,更贴近真实环境的需求,且空间滤波处理后的信号与源信号保持很好的相似度,在不影响实际鸟声信号应用效果的同时,还能解决时频域很难处理的问题,进而提高了后续分类识别的精度。
S122、通过双门限算法对所述目标鸟声信号进行端点检测,得到有鸟声片段和无鸟声片段;
其中,双门限算法为短时平均幅度与短时平均过零率结合的算法。使用双门限算法对空间滤波处理后的带噪鸟声信号进行端点检测,可以得到一段音频中的有鸟声片段和无鸟声片段,且在无鸟声片段中包含了这段音频录制期间的所有噪声信息,可用于对带噪鸟声信号进行一定的降噪处理。
S123、将所述有鸟声片段和所述无鸟声片段分别进行频域变换,得到与之分别对应的带噪鸟声谱和噪声谱估计;
S124、根据所述带噪鸟声谱和所述噪声谱估计,得到所述降噪鸟声信号;
其中,降噪鸟声信号通过将带噪鸟声谱减去噪声谱估计得到,降噪后鸟声信号完整保留了原鸟声信号的时序信息,即满足鸟声的空间方位定位要求,又提升了定位的精度。另外,经简单的初步降噪处理后,更有利于后续的有效鸟声片段的信息估计。
S125、根据若干个所述无线声音传感器阵列的所述降噪鸟声信号,通过所述定位算法,结合所述若干个无线声音传感器阵列的几何结构,得到所述空间方位信息。
其中,定位算法包括波束形成算法、到达时延差算法和能量定位算法等,在实际定位场景中,如上所述降噪鸟声信号可以分为单声源和多声源的情况,本实施例仅以如图5所示的单声源远场模型采用到达时延差算法,即计算不同的无线声音传感器阵列接收到同一鸟声的到达时延差,从而确定到达方位角,使用广义互相关法中的相位变换法(PHAT)对鸟声源定位为例进行说明,具体定位方法如下:
(1)单声源-远场模型的确定:经过上述空间滤波处理后,可以得到鸟声信号中的单声源,结合实际生态监测环境通常为远场情形,确定如图5所示的模型。模型中将声波看作平面波(Plane wavefont),第n个声音传感器在时序k接收到的鸟声yn(k)可表示为:
其中,s(k)是未知声源,t是未知声源s(k)传播到传感器1(参考传感器)所需的时间,αn为s(k)传播到第n个声音传感器的衰减因子,通常αn∈[0,1];τn1=Fn(τ)表示声源传输到传感器n时相较于参考传感器1的延时,对于均匀线性阵列而言,Fn(τ)=(n-1)τ,n=2,...,N;vn(k)则是传感器n所接收到的背景噪声。
(2)计算时延差Fn(τ):通过对不同传感器接收的鸟声信号yn(k)与参考传感器1的接收鸟声信号y1(k)作广义互相关,便可估计出时延差,以第二个接收传感器为例,此时F2(τ)=τ;
其中,
Ψy1y2(f)为广义互相关谱:为相关谱:Yn(f)=∑kyn(k)e-j2πfk,n=1,2;是频域权重函数,不同的可得出不同的广义互相关方法,如相位变换法(PHAT)设置基于广义互相关便可求出时延差τ,实测仿真如下图6所示。
(3)计算达到方位角θ:根据上述基于广义互相关算法求出的时延差τ,结合单源-远场模型可知鸟声源的到达方位角与时延差满足公式:
其中,d是相邻传感器之间的距离,C为声音传播速度,常温空气中C取为341m/s。由此,如图7所示,即可确定该无线声音传感器阵列测得的声源到达方向角θ为:
(4)确定空间方位:在特定数量的无线声音传感器阵列中选择若干个(至少大于三个)无线声音传感器阵列重复以上步骤(1)-(3),求出每个无线声音传感器阵列的到达方位角θi,i=1,...,n,多个到达方位角延长线的交点便是声源位置。
可见,通过上述4个步骤就可实现对经过空间滤波处理后的鸟声信号中的单声源的定位。如果经过空间滤波处理得到是多声源的情况,则需对鸟声信号进行时频域变换,并基于“每个时频点仅包含一个声源信号”的准则,先利用通道间的相位信息作为特征进行处理,后续即可采用与上述单声源相同的方法流程实施声源定位。
本实施例基于无线声音传感器阵列采集的有效鸟声信号,依次经过空间滤波、初步频谱降噪及鸟声定位的处理,获取到精准的被识别鸟声的空间方位信息的方法,相较于现有的鸟鸣识别系统,提供的空间方位信息使得生态监控的适用范围更广,不仅能识别鸟的种类,更能提供鸟群的分布信息,更符合生态监测的实际需要,而且定位的引入为后续追踪、声音事件检测等更完善的生态监测研究提供了一个可行的切入点。
S13、预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
其中,鸟声切片的获取是在实际鸟鸣识别工程中的必要步骤,通常需要对采集到的每段鸟声信号进行等长片段的切片处理后,再进行特征提取和机器学习训练,那么,切片长度的选取是否合理有效,对后续的特征提取及机器学习效果会产生直接的影响。为了给后续的鸟鸣识别效果提供很好的保障,本实施例给出了期望切片长度的确定方法,根据有效鸟声先验信息给出鸟声信号中每帧数据判别为鸟声的概率,以及如何按照期望切片长度对上述获得的降噪鸟声信号进行合理有效的切片处理,并为每个切片打上空间方位标签便于后续的空间方位信息的识别训练。如图8所示,所述预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片的步骤S13包括:
S131、统计分析所述降噪鸟声信号的基本信息,得到期望切片长度;
其中,期望切片长度基于降噪鸟声信号的鸟声时序片段、共振峰等基本信息进行统计分析确定,即测量鸟声片段中这些基本信息的时长,再对多个时长进行统计平均得到,基于上述方法确定期望切片长度的范围可为[0.4,2]S,分析并验证了常见的30种鸟类的期望切片长度为0.4S。
S132、根据所述期望切片长度对所述降噪鸟声信号进行切片,得到与之对应的鸟声切片。
其中,鸟声切片的获取方法可根据实际需求按照上述得到的期望切片长度对降噪鸟声信号进行简单等分处理得到。虽然上述得到的降噪鸟声信号虽能已去掉了大部分的噪声,但对于鸟声信号采集过程中突发出现的幅值较大的干扰声却无法去除,如动物的啸叫声、物体的碰撞声等,且端点检测对于这种较低信噪比情况下应用效果不佳,为了保证后续特征提取的合理有效,本实施例中在实际的切片处理中,引入了基于先验概率的有效鸟声片段判断,具体的切片方法分为以下4个步骤:
(1)根据所述降噪鸟声信号,得到每帧信号后验信噪比。
上述滤波器组H(b,k)为以频率FC为中心设置的滤波器组,在其左侧设置LC个滤波器,右侧设置RC个滤波器,每个滤波器的编号用b表示,共计M=(LC+1+RC)个滤波器,即b=1,…,M,所覆盖的线性频率范围为FL~FH。以上参数需先验设定,对于无特定鸟类的声音信号,200≤FL<FC<FH≤8000,2<LC<12,2<RC<12,通常FC=3500、FL=200、FH=8000、LC=8、RC=5,而对于特定鸟声,则根据该鸟声的实际频谱分布规律调整参数。
(2)根据所述每帧信号后验信噪比,通过引导判决法,得到每帧信号先验信噪比估计μH(λ,b),并根据所述每帧信号先验信噪比估计,得到每帧信号鸟声先验概率pH(λ)。
由引导判决法,可得:
其中,βH(λ,b)为权重因子,可表示为:
CH为常数因子,默认为0.1,即表示当瞬时信噪比越大,则增加当前信噪比估值的权重βH(λ,b),从而定位出突发出现的幅值较大的干扰声的所属帧。
因此,根据先验信噪比估计求得该帧信号含有鸟声的先验概率pH(λ)为:
(3)判断所述每帧信号鸟声先验概率是否大于预设阈值,若大于预设阈值,则将与之对应的每帧信号判定为有效鸟声帧。
其中,预设阈值可根据实际需求、经验值或通过实验调节,如可根据经验设定选范围为0.5-0.85区间,在该区间内,以0.2为步长,分别取值进行效果测试,直到最终识别结果最佳为准。当先验概率pH(λ)大于预设阈值时,该帧判断为有效鸟声帧,反之判断为噪声帧,进行有效鸟声帧判断后,可将连续r帧有声帧对应的输入yr(λ)合成得到有声段信号。
(4)将所述有效鸟声帧合成为有声段信号,并按照所述期望切片长度对所述有声段信号进行切片,得到所述鸟声切片;或统计分析所述每帧信号鸟声先验概率,得到切片阈值,并判断所述降噪鸟声信号中是否存在连续若干个所述每帧信号鸟声先验概率大于所述切片阈值,若存在,则以对应的连续若干个帧信号为中心对称读取至所述期望切片长度的方法,得到所述鸟声切片。
基于先验概率的有效鸟声帧的判断完成后,可以采用如上所述两种方法得到鸟声切片。第一种为直接切片法,将判定为有效鸟声帧的帧合成为有声段信号,直接按照期望切片长度对其进行切片处理,即可得到鸟声切片;第二种方法为自适应切片法,对每一段录音返回的每帧信号鸟声先验概率进行统计计算,以得到切片阈值Th,再从头到尾依次比较每帧信号的先验概率值与切片阈值Th的大小。为了避免切片后有效鸟声片段的特征信息不足,同时又为了防止舍弃数据过多导致可用数据量小,当连续多帧的先验信息概率大于给定的切片阈值Th时,则以该多帧数据为中心,依次向两边对称地再读取适量数据帧,组成满足期望切片长度的一个切片,如实验过程中,在期望切片长度为0.4s,每帧长度为10ms,若判断连续4帧的先验信息概率大于切片阈值,则以这4帧数据为中心,依次向两边取18帧数据,便得到满足要求的一个期望切片数据。其中切片阈值Th的统计计算,可以通过求均值等方式得到。如,
其中,Nt为每段录音包含的帧数。需要说明的是,自适应切片方法中扩展读取的数值仅为示例性说明,并不对本实例的范围进行限定,实际应用中可根据使用需求进行合理的选择。
采用上述方法得到鸟声切片后,使用之前根据鸟声信号得到的空间方位信息对得到的鸟声切片进行标注,得到空间鸟声切片后,进行后续的特征提取。
S14、采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
其中,梅尔倒谱系数(MFCC)是一种在语音识别和说话人识别中广泛使用的特征,它也适用于鸟声信号处理。在实际应用中,需要根据鸟声的频谱特性改进梅尔滤波器组,以便更好地应用于鸟声特征的提取,如图9所示,所述采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征的步骤S14包括:
S141、通过高通滤波器对所述空间鸟声切片进行预加重处理,得到预加重空间鸟声切片;
其中,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,预加重技术的思想就是在传输线的始端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减,而预加重对噪声并没有影响,因此有效地提高了输出信噪比。将上述得到的空间方位鸟声切片通过一个高通滤波器H(z)提升其高频部分,使得鸟声信号的频谱变得平坦,保持在低频到高频的整个频带中,便于用同样的信噪比求频谱。本实施例中的高通滤波器H(z)可采用:
H(z)=1-μz-1
其中,μ∈[0.9,1.0],通常取0.97。
S142、将所述预加重空间鸟声切片进行分帧处理,得到帧信号,并对所述帧信号,依次通过加窗和快速傅里叶变换,得到每帧鸟声功率谱;
其中,分帧处理就是将N个采样点集合成一帧,N的取值通常为256或512。为了保持鸟声信号的平稳性,本实施例优选地,让两相邻帧间有一段M个采样点的重叠,即帧移M,其值常取为N的1/2,即M=N/2。分帧处理后会出现每帧两端的不连续,为了解决这个问题,需要采用加窗处理,原则上现有的加窗方式都可以实现,本实施例仅以汉明窗为例进行示范性说明,假设分帧后的帧信号为x(n),n=0,1…,N-1,N为帧的总数,则乘上汉明窗w(n)后为x′(n)=x(n)·w(n)。
快速傅里叶变换(fast Fourier transform),即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称,简称FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数N越多,FFT算法计算量的节省就越显著。本实施例为了提升特征提取效率,对加窗后的每帧信号采用快速傅里叶变换得到频谱上的能量分布,通过不同的能量分布代表不同鸟声特征,再对每帧鸟声信号的频谱取模的平方,得到每帧鸟声信号的功率谱X′(k),k为频域的频域点索引。
S143、根据所述每帧鸟声功率谱,通过带通滤波器组,得到每帧平滑鸟声功率谱;
其中,带通滤波器组为根据鸟声的频谱特性,设计三角形滤波器组H(b,k),参见上述鸟声信号切片处理过程中使用的滤波器,此处不再赘述。将上述得到的每帧鸟声功率谱通过该滤波器组,即可进行平滑化,消除谐波作用,得到每帧平滑鸟声功率谱:X(k)=X′(k)H(b,k)。
S144、根据所述每帧平滑鸟声功率谱,采用对数变换和反离散余弦变换,得到每帧鸟声特征。
其中,每帧鸟声特征即为梅尔倒谱系数MFCC,得到每帧平滑鸟声功率谱X(k)后,将其先进行对数变换得到相应频带的对数功率谱,再进行反离散余弦变换,取变换后的第2到第13个系数(共12个系数)作为MFCC,即:
本实施例中基于鸟声的频谱特性对梅尔倒谱系数进行改进,采用梅尔滤波器组对鸟声信号进行提取,使得得到的鸟声特征更加合理有效,为后续的分类识别有效性和精准性提供了可靠的保障。
S15、通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
其中,根据地域信息进行分块训练是基于不同地区同一种鸟的鸣叫声存在差异方面的考虑而进行创新性设计,不仅能够使得鸟鸣识别更具有针对性,更能够提高分类识别的精确度,而且对于后续新增采样数据的分类训练,只需重新训练对应区域的模块即可,大大节省了训练所需的算力和时间。原则上鸟声分类模型只与地域信息一一对应即可,具体实际训练中采用的类别识别模型和空间方位模型的类型不作限制,也不会影响本实施例分块训练创新的应用效果。如图10所示,所述通过预先根据地域信息进行分块训练得到的鸟声分类模型,对所述切片鸟声特征进行分类识别,得到识别结果的步骤S15包括:
S151、预先根据深度卷积神经网络和双向长短时记忆网络,建立分块训练模型,并将所述切片鸟声特征按照预定比例划分为训练集和测试集;
其中,深度卷积神经网络(DenseNet)和双向长短时记忆网络(BLSTM)的结构分别如图11-12所示,训练集和测试集的比例在此不作限制,可以根据实际的应用需求进行合理的设定。
深度卷积神经网络的优点是网络更窄,参数更少,能更有效地利用特征数据。其中每个深模块(Dense Block)包括一个批归一化(Batch Normalization)、一个激活函数ReLU和3×3的卷积。卷积层(Convolution)是一个1×1的卷积,池化层(Pooling)是一个2×2均值池化。将上述3种操作的组合记为Hi(*),并将第i层的输出记为Xi。对于DenseNet而言,第i层的输入不仅与i-1层的输出相关,还与之前所有层的输出有关。记作:
Xi=Hi([X0,X1,…,Xi-1])
其中,[]表示将之前所有层的输出拼接在一起,即将X0到Xi-1层的所有输出按通道组合在一起。
双向长短时记忆网络(BLSTM)由两个长短时记忆网络(LSTM)左右地组合在一起。LSTM由多个LSTM单元组成,每一个单元包括输入门it,遗忘门ft、长记忆Ct,短记忆ht和输出门ot组成。其中,激活函数为双曲正切函数(tanh);输入门为it=σ(Wi·[ht-1,xt]+bi);遗忘门为ft=σ(Wf·[ht-1,xt]+bf),输出门为ot=σ(Wo·[ht-1,xt]+bo);长记忆为短记忆为ht=ot*tanh(Ct);上述式中,Xt与Yt分别为神经网络的输入与输出,Wi、Wf、WC、Wo分别为各门中神经元对应的权重,bi,bf,bC,bo分别为各门中网络对应的偏移,网络中的权重与偏移初始值均随机初始化设置。σ(·)为sigmod函数,双曲正切函数
在实际的训练过程中,将如图上述深度卷积神经网络和双向长短时记忆网络结合使用,得到分块训练模型,即将深度卷积神经网络的输出作为双向长短时记忆网络的输入,最终以双向长短时记忆网络的输出作为分类预测结果。
S152、根据所述训练集和预设类别,以及所述训练集和预设空间分组,分别训练所述分块训练模型,分别得到与之对应的所述类别识别模型和所述空间方位模型;
其中,分块训练模型可以同时用于类别识别和空间方位识别,具体的应用区别仅在于分类器的设置,即不同内容的识别采用对应不同的预设分类,训练识别的结果为预设分类中任一类型的概率分布。
具体训练得到类别识别模型和空间方位模型的方法为:将基于无线声音传感器阵列采集到的空间鸟声切片特征,根据地域信息进行分组,分别训练分块训练模型,即一个分块训练模型对应一个地域,每个地域的分类训练模型采用对应地域的数据进行训练以得到该地域的类别识别模型和空间方位模型。需要说明的是,虽然不同地域用于类别识别模型和空间方位模型训练的最初的分块训练模型是相同的,但由于要得到的识别模型不同,采用训练集的使用要分别与预设类别和预设空间分组相对应:使用训练集的鸟类类别特性及预设类别对分块训练模型进行训练,得到类别识别模型;使用训练集的空间方位信息及预设空间分组对分块训练模型进行训练,得到空间方位模型。由于不同地域的数据信息不同,最终训练得到的每个地域的类别识别模型和空间方位模型都是不同的。此外,对每个地域的分块训练模型,以下训练参数均采用相同设置:批次大小(BatchSize)为32,隐藏单元个数为64,学习速率为0.001,损失函数为交叉熵,优化算法为随机梯度下降,迭代次数为60。
S153、通过所述类别识别模型和所述空间方位模型对所述测试集分别进行分类识别,得到与之对应的类别分块识别结果和空间分块识别结果;所述类别分块识别结果包括所述空间方位鸟声切片判定为任一预设类别的类别分类概率;所述空间分块识别结果包括所述空间方位鸟声切片判定为任一预设空间分组的空间分类概率;
其中,类别分块识别结果和空间分块识别结果的个数与地域信息的个数相对应,即使用每个地域对应的类别识别模型和空间方位模型给出一个对应的识别结果,且该结果不并不是最终的识别结果,即与通常的模型识别不同的是此处不是选择空间方位鸟声切片判定为某一预设类别的类别分类概率的最大值作为最终的类别结果,同样,也不是选择空间方位鸟声切片判定为某一预设空间分组的空间分类概率的最大值作为最终的空间方位的识别结果,而是需要结合各地域的权重进行最终判决。
S154、将同一预设类别的所述类别分类概率,以及同一预设空间分组的所述空间分类概率,分别按照预设地域权重进行加权平均,得到与之对应的类别识别概率值和空间识别概率值,并分别选取所述类别识别概率值和所述空间识别概率值对应的最大值,作为所述类别识别结果和空间识别结果;
类别分块识别结果包含不同地域信息对应的属于不同预设类别的类别分类概率,同理,空间分块识别结果也包含不同地域信息对应的属于不同预设空间分组的空间分类概率。使用类别分块识别结果和空间分块识别结果得到最终的判决结果时,需要对不同地域信息鸟声分类模型对应的分类器结果根据鸟类的生活和迁移习性进行合理的权重设置,当鸟出现在某一地域时,它常驻该地域的概率则越大,当然也有可能从周围相邻的地域迁徙至此,因此离出现的地域越近的地域理应权重值就越大,即每个地域的分类器的权重大小与该地域与待识别鸟声所属区域的远近程度成正比,待识别鸟声所在地域对应的类别分块识别结果(分类器结果)的权重值最大,并以该地域为中心,四周地域的类别分块识别结果的权重值依次递减。需要说明的是上述不同地域权重设置的约束条件为,所有类别识别模型的预设地域权重之和,以及所有空间方位模型的预设地域权重之和都为1。
本实施例中类别识别结果和空间识别结果的获取方法是类似的,不同之处仅在于用于训练识别得到类别分块识别结果和空间分块识别结果所依赖的数据集和分类器具体设置上的区别。下面仅以类别识别结果的生成方式进行举例说明:假设有M个地域信息,记各类别识别模型ci下,输出未知鸟声切片为类别y的一段概率为p(y|Ci),该概率由每个类别识别模型的最后一层网络(分类器)输出,即预设类别有多少种则最后一层网络就有多少个神经元,对应的输出则为该分类器下分别判决为预设类别中每一类鸟的概率值。λ(Ci)为各类别识别模型的预设地域权重,则判决融合得到类别识别结果Φ为,
其中M表示与地域信息对应的分类器的个数,判决融合规则为:将M个类别识别模型对各类鸟的类别分类概率加权求和,所得结果最大值对应的鸟类即为最终的类别识别结果。同理,可得到空间识别结果,此处不再赘述。需要说明的是,由于一段实际采集的鸟声信号如前文所述会被切分成多个鸟声切片,而此处得到的空间识别结果只是某个鸟声切片对应的结果,最终的空间判决结果需要根据同一鸟声信号的所有鸟声切片的结果综合判断得到。
S155、根据同一所述鸟声信号对应的所述空间识别结果,通过判决融合方法,得到所述空间判决结果。
其中,空间识别结果如上所述为按照前文所述预处理时标注的空间方位信息分组训练后得到的对应与某个空间鸟声切片的结果,即一个鸟声信号对应的多个空间识别结果可能会不一致,需要对同一鸟声信号对应的所有空间鸟声切片的空间识别结果进行判断融合,才能保证得到的最终的鸟声信号对应的空间判决结果的合理性和有效性。具体的判决融合方法可根据实际情况进行选择,如使用多票表决或者贝叶斯判决融合等方法都可以实现。
本实施例的权重设置方式充分考虑了鸟类的生活习性,给出的权重合理有效,进而保证了基于统计学原理,对各地域信息对应的识别结果采用加权平均法进行判决融合,得到类别识别结果和空间判决结果的合理性和准确性,同时,根据同一鸟声信号对应的所有的类别识别结果还可以推算出该鸟声信号中包含的鸟的数量信息。
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
在一个实施例中,如图13所示,提供了一种基于空间方位的鸟鸣识别系统,所述系统包括:
信号采集模块1,用于通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
方位识别模块2,用于通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
切片处理模块3,用于预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
特征提取模块4,用于采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
分类识别模块5,用于通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
关于一种基于空间方位的鸟鸣识别系统的具体限定可以参见上文中对于一种基于空间方位的鸟鸣识别方法的限定,在此不再赘述。上述一种基于空间方位的鸟鸣识别系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图14示出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图14所示,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示器和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于空间方位的鸟鸣识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域普通技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比途中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
综上,本发明实施例提供的一种基于空间方位的鸟鸣识别方法、系统、计算机设备和存储介质,其通过通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号,通过空间滤波和定位算法对鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息后,进行有效声段提取和确定期望切片长度,对降噪鸟声信号进行切片处理得到鸟声切片,及进行空间方位信息标注,并采用梅尔倒谱系数法对空间鸟声切片进行特征提取,得到切片鸟声特征,再通过预先根据地域信息进行分块训练得到的鸟声分类模型对切片鸟声特征进行有效地分类识别,得到精准的类别识别结果和空间判决结果的基于空间方位的鸟鸣识别方法,有效地解决了现有鸟鸣识别方法中因空间方位信息缺失而导致鸟鸣信号采集的不合理,不能真正实现对遮挡物后面和距离较远处的鸟类进行监测,不能对鸟类进行很好的定位与追踪,以及在实际场景应用中难以区分采集的鸟声是否来自同一只鸟等一系列问题,通过优化布置传感器阵列,引入空间滤波、鸟声定位、期望切片长度获取、以及鸟声信号的自适应切片等预处理方法,结合深卷积神经网络(DenseNet)和双向长短时记忆网络(BLSTM),不仅能科学有效的识别出鸟声类别、数量和空间分布,满足生态监测全面性要求,而且能提升研究效果和应用范围,还能提高鸟鸣识别的效率和精确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。
本说明书中的各个实施例均采用递进的方式描述,各个实施例直接相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、计算机设备和存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。需要说明的是,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本申请的保护范围。因此,本申请专利的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于空间方位的鸟鸣识别方法,其特征在于,所述方法包括以下步骤:
通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
2.如权利要求1所述的基于空间方位的鸟鸣识别方法,其特征在于,所述通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号的步骤包括:
根据所述定位算法的Cramer-Rao下界,配置所述特定数量的无线声音传感器阵列,并采用无线传感器网络同步技术,定期对所述无线声音传感器阵列中的无线传感器进行同步校准;
通过前置放大器将所述无线传感器采集的信号放大,并进行模数转换和信号筛选,得到所述鸟声信号。
3.如权利要求1所述的基于空间方位的鸟鸣识别方法,其特征在于,所述通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息的步骤包括:
采用空间滤波对所述鸟声信号进行滤波处理,得到目标鸟声信号;
通过双门限算法对所述目标鸟声信号进行端点检测,得到有鸟声片段和无鸟声片段;
将所述有鸟声片段和所述无鸟声片段分别进行频域变换,得到与之分别对应的带噪鸟声谱和噪声谱估计;
根据所述带噪鸟声谱和所述噪声谱估计,得到所述降噪鸟声信号;
根据若干个所述无线声音传感器阵列的所述降噪鸟声信号,通过所述定位算法,结合所述若干个无线声音传感器阵列的几何结构,得到所述空间方位信息。
4.如权利要求1所述的基于空间方位的鸟鸣识别方法,其特征在于,所述预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片的步骤包括:
统计分析所述降噪鸟声信号的基本信息,得到期望切片长度;
根据所述期望切片长度对所述降噪鸟声信号进行切片,得到与之对应的鸟声切片。
5.如权利要求4所述的基于空间方位的鸟鸣识别方法,其特征在于,所述根据所述期望切片长度对所述降噪鸟声信号进行切片,得到与之对应的鸟声切片的步骤包括:
根据所述降噪鸟声信号,得到每帧信号后验信噪比;
根据所述每帧信号后验信噪比,通过引导判决法,得到每帧信号先验信噪比估计,并根据所述每帧信号先验信噪比估计,得到每帧信号鸟声先验概率;
判断所述每帧信号鸟声先验概率是否大于预设阈值,若大于预设阈值,则将与之对应的每帧信号判定为有效鸟声帧;
将所述有效鸟声帧合成为有声段信号,并按照所述期望切片长度对所述有声段信号进行切片,得到所述鸟声切片;或统计分析所述每帧信号鸟声先验概率,得到切片阈值,并判断所述降噪鸟声信号中是否存在连续若干个所述每帧信号鸟声先验概率大于所述切片阈值,若存在,则以对应的连续若干个帧信号为中心对称读取至所述期望切片长度的方法,得到所述鸟声切片。
6.如权利要求1所述的基于空间方位的鸟鸣识别方法,其特征在于,所述采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征的步骤包括:
通过高通滤波器对所述空间鸟声切片进行预加重处理,得到预加重空间鸟声切片;
将所述预加重空间鸟声切片进行分帧处理,得到帧信号,并对所述帧信号,依次通过加窗和快速傅里叶变换,得到每帧鸟声功率谱;
根据所述每帧鸟声功率谱,通过带通滤波器组,得到每帧平滑鸟声功率谱;
根据所述每帧平滑鸟声功率谱,采用对数变换和反离散余弦变换,得到每帧鸟声特征。
7.如权利要求1所述的基于空间方位的鸟鸣识别方法,其特征在于,所述通过预先根据地域信息进行分块训练得到的鸟声分类模型,对所述切片鸟声特征进行分类识别,得到识别结果的步骤包括:
预先根据深度卷积神经网络和双向长短时记忆网络,建立分块训练模型,并将所述切片鸟声特征按照预定比例划分为训练集和测试集;
根据所述训练集和预设类别,以及所述训练集和预设空间分组,分别训练所述分块训练模型,分别得到与之对应的所述类别识别模型和所述空间方位模型;
通过所述类别识别模型和所述空间方位模型对所述测试集分别进行分类识别,得到与之对应的类别分块识别结果和空间分块识别结果;所述类别分块识别结果包括所述空间方位鸟声切片判定为任一预设类别的类别分类概率;所述空间分块识别结果包括所述空间方位鸟声切片判定为任一预设空间分组的空间分类概率;
将同一预设类别的所述类别分类概率,以及同一预设空间分组的所述空间分类概率,分别按照预设地域权重进行加权平均,得到与之对应的类别识别概率值和空间识别概率值,并分别选取所述类别识别概率值和所述空间识别概率值对应的最大值,作为所述类别识别结果和空间识别结果;
根据同一所述鸟声信号对应的所述空间识别结果,通过判决融合方法,得到所述空间判决结果。
8.一种基于空间方位的鸟鸣识别系统,其特征在于,所述系统包括:
信号采集模块,用于通过预先配置的特定数量的无线声音传感器阵列采集鸟声信号;
方位识别模块,用于通过空间滤波和定位算法对所述鸟声信号进行空间方位识别,得到降噪鸟声信号和空间方位信息;
切片处理模块,用于预处理所述降噪鸟声信号,得到与之对应的鸟声切片,并采用所述空间方位信息对所述鸟声切片进行标注,得到空间鸟声切片;
特征提取模块,用于采用梅尔倒谱系数法对所述空间鸟声切片进行特征提取,得到切片鸟声特征;
分类识别模块,用于通过鸟声分类模型对所述切片鸟声特征进行分类识别,得到识别结果;所述鸟声分类模型根据地域信息分块训练得到且与所述地域信息一一对应;所述鸟声分类模型包括类别识别模型和空间方位模型;所述识别结果包括类别识别结果和空间判决结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446379.9A CN113314127B (zh) | 2021-04-23 | 2021-04-23 | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110446379.9A CN113314127B (zh) | 2021-04-23 | 2021-04-23 | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314127A true CN113314127A (zh) | 2021-08-27 |
CN113314127B CN113314127B (zh) | 2023-10-10 |
Family
ID=77371083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110446379.9A Active CN113314127B (zh) | 2021-04-23 | 2021-04-23 | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314127B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690448A (zh) * | 2022-11-09 | 2023-02-03 | 广东省科学院动物研究所 | 一种基于ai的鸟类物种识别方法及装置 |
CN117789731A (zh) * | 2023-12-29 | 2024-03-29 | 百鸟数据科技(北京)有限责任公司 | 一种鸟鸣识别方法、装置、计算机设备及存储介质 |
CN118173102A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 一种复杂场景下鸟类声纹识别方法 |
CN118522309A (zh) * | 2024-07-22 | 2024-08-20 | 浙江交科环境科技有限公司 | 利用卷积神经网络进行公路沿线噪声源识别的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922548A (zh) * | 2018-08-20 | 2018-11-30 | 深圳园林股份有限公司 | 一种基于深度学习的鸟、蛙智能监测方法 |
CN109741759A (zh) * | 2018-12-21 | 2019-05-10 | 南京理工大学 | 一种面向特定鸟类物种的声学自动检测方法 |
US20200077218A1 (en) * | 2018-09-04 | 2020-03-05 | Honda Motor Co., Ltd. | Audio processing device, audio processing method, and program |
CN111063338A (zh) * | 2018-09-29 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 音频信号识别方法、装置、设备、系统和存储介质 |
CN111540368A (zh) * | 2020-05-07 | 2020-08-14 | 广州大学 | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 |
CN111540375A (zh) * | 2020-04-29 | 2020-08-14 | 全球能源互联网研究院有限公司 | 音频分离模型的训练方法、音频信号的分离方法及装置 |
-
2021
- 2021-04-23 CN CN202110446379.9A patent/CN113314127B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922548A (zh) * | 2018-08-20 | 2018-11-30 | 深圳园林股份有限公司 | 一种基于深度学习的鸟、蛙智能监测方法 |
US20200077218A1 (en) * | 2018-09-04 | 2020-03-05 | Honda Motor Co., Ltd. | Audio processing device, audio processing method, and program |
CN111063338A (zh) * | 2018-09-29 | 2020-04-24 | 阿里巴巴集团控股有限公司 | 音频信号识别方法、装置、设备、系统和存储介质 |
CN109741759A (zh) * | 2018-12-21 | 2019-05-10 | 南京理工大学 | 一种面向特定鸟类物种的声学自动检测方法 |
CN111540375A (zh) * | 2020-04-29 | 2020-08-14 | 全球能源互联网研究院有限公司 | 音频分离模型的训练方法、音频信号的分离方法及装置 |
CN111540368A (zh) * | 2020-05-07 | 2020-08-14 | 广州大学 | 一种稳健的鸟声提取方法、装置及计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115690448A (zh) * | 2022-11-09 | 2023-02-03 | 广东省科学院动物研究所 | 一种基于ai的鸟类物种识别方法及装置 |
CN117789731A (zh) * | 2023-12-29 | 2024-03-29 | 百鸟数据科技(北京)有限责任公司 | 一种鸟鸣识别方法、装置、计算机设备及存储介质 |
CN118173102A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 一种复杂场景下鸟类声纹识别方法 |
CN118522309A (zh) * | 2024-07-22 | 2024-08-20 | 浙江交科环境科技有限公司 | 利用卷积神经网络进行公路沿线噪声源识别的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113314127B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
CN112349297B (zh) | 一种基于麦克风阵列的抑郁症检测方法 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN113314127B (zh) | 基于空间方位的鸟鸣识别方法、系统、计算机设备与介质 | |
EP3387648B1 (en) | Localization algorithm for sound sources with known statistics | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
US20150228277A1 (en) | Voiced Sound Pattern Detection | |
CN110400571B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN102884575A (zh) | 话音活动检测 | |
JP7564117B2 (ja) | キューのクラスター化を使用した音声強化 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN110120230A (zh) | 一种声学事件检测方法及装置 | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
Venkatesan et al. | Binaural classification-based speech segregation and robust speaker recognition system | |
Martinez et al. | DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
Sahidullah et al. | Robust speaker recognition with combined use of acoustic and throat microphone speech | |
CN112397093A (zh) | 一种语音检测方法与装置 | |
Hemavathi et al. | Voice conversion spoofing detection by exploring artifacts estimates | |
Al-Karawi et al. | Model selection toward robustness speaker verification in reverberant conditions | |
CN113113048B (zh) | 语音情绪识别方法、装置、计算机设备及介质 | |
Mirbeygi et al. | RPCA-based real-time speech and music separation method | |
CN117935789A (zh) | 语音识别方法及系统、设备、存储介质 | |
Parada et al. | Reverberant speech recognition exploiting clarity index estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |