CN113870870B - 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 - Google Patents

一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 Download PDF

Info

Publication number
CN113870870B
CN113870870B CN202111456006.6A CN202111456006A CN113870870B CN 113870870 B CN113870870 B CN 113870870B CN 202111456006 A CN202111456006 A CN 202111456006A CN 113870870 B CN113870870 B CN 113870870B
Authority
CN
China
Prior art keywords
signal
neural network
convolutional neural
time
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111456006.6A
Other languages
English (en)
Other versions
CN113870870A (zh
Inventor
吕连港
段德鑫
姜莹
刘宗伟
杨春梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Institute of Oceanography MNR
Original Assignee
First Institute of Oceanography MNR
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Institute of Oceanography MNR filed Critical First Institute of Oceanography MNR
Priority to CN202111456006.6A priority Critical patent/CN113870870B/zh
Publication of CN113870870A publication Critical patent/CN113870870A/zh
Application granted granted Critical
Publication of CN113870870B publication Critical patent/CN113870870B/zh
Priority to JP2022113523A priority patent/JP7180838B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于一种卷积神经网络的海洋哺乳动物发声实时识别方法,属于信号处理领域,首先将一段信号进行标准化处理后通过快速傅里叶变化产生信号的时频彩色图像,随后对时频图像中的动物声信号进行标注。最后将数据送入卷积神经网络进行训练以得到一个识别模型。本发明采用卷积神经网络构建的识别模型一步式识别水下声数据中的海洋哺乳动物声信号。本发明方法能够拥有较高的召回率和准确率的同时有较快的处理速度,能够满足实时识别的需求。

Description

一种基于卷积神经网络的海洋哺乳动物发声实时识别方法
技术领域
本发明属于信号处理领域,涉及一种基于卷积神经网络的海洋哺乳动物发声实时识别方法。
背景技术
海洋哺乳动物的通讯交流叫声是是一种调频信号,信号频率随时间变化形式多样,主要用于个体或群体之间的互相联络、情感表达、信息传递等。利用动物的通讯交流叫声开展声学监测是调查海洋动物的种群分布、出现情况最重要方式。因此需要开发海洋哺乳动物发声的检测和分类算法。目前大部分算法通过边缘检测、连通域识别和局部最大值等方式检测时频图中的曲线追踪动物声信号,一部分算法提取特征并使用类似于随机森林的分类算法对信号分类。这些算法的缺点在于特征提取困难,计算时间长,而不能用于实时监测系统中。
发明内容
为克服现有方法存在的问题,本发明提供了一种基于卷积神经网络的海洋哺乳动物发声实时识别方法。该方法将海洋哺乳动物叫声的检测和分类一步完成,实现了动物叫声的一步识别,不仅准确率高而且具有实时性。
本发明通过如下技术方案来实现的:
一种基于卷积神经网络的海洋哺乳动物发声实时识别方法,所述方法具体步骤如下:
(1)信号处理,将一段水下声音信号标准化处理,然后分成均等长度N段,采用快速傅里叶变化进行时频处理得到每段数据的时频图,存为三通道 (RGB)彩色时频图像;
(2)信号标注,检查每一张三通道彩色时频图像,使用矩形框将出现的海洋哺乳动物叫声信号的轮廓包围住,并标注物种类别,通过程序自动获得矩形框的中心坐标及宽高,将这部分标注信息写入标注文件;
(3)识别模型的设计,识别模型使用卷积神经网络,卷积神经网络的输入为三通道彩色时频图像矩阵,卷积神经网络的输出为一个识别矩阵;
(4)识别模型训练,将三通道彩色时频图像与标注文件输入卷积神经网络进行训练,根据损失函数计算网络输出与标注信号的损失,在训练过程中不断优化此损失,在达到预定轮次后结束训练,训练完成后得到识别模型;
卷积神经网络输出与真实标注信号的损失由函数计算:
Figure 851374DEST_PATH_IMAGE001
其中x i ,y i ,w i ,h i 分别为神经网络输出的检测框的中心横坐标,中心纵坐标,检测 框的宽,检测框的高;
Figure 156584DEST_PATH_IMAGE002
分别为标注图像中真实信号标注框的中心横坐标,中心纵 坐标,标注框的宽,标注框的高; C i 是该检测单元是否包含信号的置信度,
Figure 303269DEST_PATH_IMAGE003
是标注图像中 对应检测单元是否包含信号的置信度,若有信号为1,无信号为0; p i 为模型预测的信号所 属物种的分类标签;
Figure 955224DEST_PATH_IMAGE004
为标注图像中对应的物种真实分类标签;
(5)首先将待检测的数据经过与步骤(1)相同的处理得到彩色时频图像,随后将待检测数据的时频图像输入步骤(4)训练好的模型,模型经过计算输出一个输出矩阵,对输出矩阵的信息进行转换与筛选,得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果,中心坐标与长宽构成的矩形框代表了模型检测到的信号,置信度与分类标签则给出了物种分类。
进一步,所述的标准化处理的步骤为首先去掉信号的直流分量:St=S-mean(s),其中mean()表示取均值操作;将信号的功率归一化:St=St/Std(St),其中Std()表示取标准差操作。
进一步,所述步骤(3)中的识别模型使用的卷积神经网络为24层卷积层、2层池化层与2层全连接层。
本发明与现有技术相比的有益效果是:
本方法使用卷积神经网络,将时频图像中哺乳动物的声信号进行一步式识别,不仅保持了较高准确率和召回率,提高了数据处理速率,整个识别过程能够实时完成。
附图说明
图1是一段数据的原始时域图;
图2是一段数据的时频彩色图;
图3是识别模型过程示意图;
图4是经过识别检测模型后的结果示意图;
图5本发明识别模型构建步骤示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案做进一步描述,但本发明的保护范围不受实施例任何形式上的限制。
实施例1
本发明提出了一种基于卷积神经网络的哺乳动物叫声识别方法。该方法将待检测时频图像划分为若干个检测单元,在每个单元内输出一组检测框的坐标、该单元包含信号的置信度以及信号所属物种的分类。模型将所有检测单元的预测结果过滤筛选,得到最终的检测与分类结果。每张时频图像的所有检测单元同时进行处理,且每个检测单元内检测与分类同时进行,提高了处理速度,使得模型能够对数据进行实时识别处理。
首先建立识别模型,流程如图5所示,然后应用所建立的模型进行数据处理。具体步骤如下:
第一步,将一段水下声音数据S执行标准化操作得到标准化数据信号。标准化操作的步骤为首先去掉信号的直流分量:St=S-mean(s),其中mean()表示取均值操作;将信号的功率归一化:St=St/Std(St),其中Std()表示取标准差操作。然后对信号进行分段,Sd=St/N将信号分成N段,每段长约1.2s(图1)。随后,对信号Sd进行时频处理得到信号的彩色时频图(图2)。
第二步,标注信号。逐张检查生成的彩色时频图,将发现的哺乳动物叫声信号用矩形框包围,通过程序自动获取矩形框的中心坐标与宽高,同时将将信号分为所属的物种。将以上标注信息写入标注文件。
第三步,设计识别模型。识别模型使用的卷积神经网络共24层,包含24层卷积层、2层池化层与2层全连接层。第一层的输入为尺寸为(456,456,3)的彩色时频图像,卷积神经网络的输出为(7,7,8)的三维输出矩阵。卷积神经网络输出与真实标注信号的损失由函数计算:
Figure 178788DEST_PATH_IMAGE001
其中x i ,y i ,w i ,h i 分别为神经网络输出的检测框的中心横坐标,中心纵坐标,检测 框的宽,检测框的高;
Figure 982796DEST_PATH_IMAGE005
分别为标注图像中真实信号标注框的中心横坐标,中心纵 坐标,标注框的宽,标注框的高; C i 是该检测单元是否包含信号的置信度,
Figure 649401DEST_PATH_IMAGE006
是标注图像中 对应检测单元是否包含信号的置信度,若有信号为1,无信号为0; p i 为模型预测的信号所 属物种的分类标签;
Figure 570958DEST_PATH_IMAGE007
为标注图像中对应的物种真实分类标签。
第四步,识别模型训练。将时频图像与标注文件一并输入卷积神经网络,使用定义的损失函数计算损失并优化。达到预定轮次后结束训练得到一个识别模型。模型应用时,输入一张三通道彩色时频图像,输出若干个带有物种分类标签与置信度的检测框作为检测识别结果。
在实际应用时,首先将待检测的数据经过与第一步相同的步骤处理得到时频图像。随后将待检测数据的时频图像输入训练好的模型,模型经过计算输出一个输出矩阵,对输出矩阵的信息进行转换与筛选,得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果。中心坐标与长宽构成的矩形框代表了模型检测到的信号,置信度与分类标签则给出了物种分类。至此,模型一步式完成了动物声信号的检测和分类两项任务(图3)。
为进一步表明本发明方法的性能,使用包含有瓶鼻海豚的哨声信号、儒艮的啁啾声信号和中华白海豚的哨声信号的水下声数据构建识别模型并进行实验(图4)。实验结果表明,模型对三种动物叫声信号的平均召回率达到84.82%,平均准确率为91.28%。使用Intel(R) Core(TM) i7-8565U CPU的笔记本电脑作为测试平台,模型识别时频图像所对应的每1秒数据用时为0.7063秒,能够满足实时识别的需求。

Claims (2)

1.一种基于卷积神经网络的海洋哺乳动物发声实时识别方法,其特征在于所述方法具体步骤如下:
1)信号处理,将一段水下声音信号标准化处理,然后分成均等长度N段,采用快速傅里叶变化进行时频处理得到每段数据的时频图,存为三通道(RGB)彩色时频图像;
2)信号标注,检查每一张三通道彩色时频图像,使用矩形框将出现的海洋哺乳动物叫声信号的轮廓包围住,并标注物种类别,通过程序自动获得矩形框的中心坐标及宽高,将这部分标注信息写入标注文件;
3)识别模型的设计,识别模型使用卷积神经网络,卷积神经网络的输入为三通道彩色时频图像矩阵,卷积神经网络的输出为一个识别矩阵;
4)识别模型训练,将三通道彩色时频图像与标注文件输入卷积神经网络进行训练,根据损失函数计算网络输出与标注信号的损失,在训练过程中不断优化此损失,在达到预定轮次后结束训练,训练完成后得到识别模型;
卷积神经网络输出与真实标注信号的损失由函数计算:
Figure FDA0003516958190000011
Figure FDA0003516958190000021
其中xi,yi,wi,hi分别为神经网络输出的检测框的中心横坐标,中心纵坐标,检测框的宽,检测框的高;
Figure FDA0003516958190000022
分别为标注图像中真实信号标注框的中心横坐标,中心纵坐标,标注框的宽,标注框的高;Ci是该检测框是否包含信号的置信度,
Figure FDA0003516958190000023
是标注图像中对应检测框是否包含信号的置信度,若有信号为1,无信号为0;pi为模型预测的信号所属物种的分类标签;
Figure FDA0003516958190000024
为标注图像中对应的物种真实分类标签;
5)将待检测的数据经过与步骤1)相同的处理得到彩色时频图像,随后将待检测数据的时频图像输入步骤4)训练好的模型,模型经过计算输出一个输出矩阵,对输出矩阵的信息进行转换与筛选,得到若干组包含中心坐标、长宽、置信度与分类标签的识别结果,中心坐标与长宽构成的矩形框代表了模型检测到的信号,置信度与分类标签则给出了物种分类。
2.根据权利要求1所述的方法,其特征在于所述步骤3)中的识别模型使用的卷积神经网络为24层卷积层、2层池化层与2层全连接层。
CN202111456006.6A 2021-12-02 2021-12-02 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 Active CN113870870B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111456006.6A CN113870870B (zh) 2021-12-02 2021-12-02 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法
JP2022113523A JP7180838B1 (ja) 2021-12-02 2022-07-14 畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111456006.6A CN113870870B (zh) 2021-12-02 2021-12-02 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法

Publications (2)

Publication Number Publication Date
CN113870870A CN113870870A (zh) 2021-12-31
CN113870870B true CN113870870B (zh) 2022-04-05

Family

ID=78985489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111456006.6A Active CN113870870B (zh) 2021-12-02 2021-12-02 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法

Country Status (2)

Country Link
JP (1) JP7180838B1 (zh)
CN (1) CN113870870B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116660876A (zh) * 2023-05-26 2023-08-29 吉林大学 一种中华白海豚回声定位信号自动检测和定位方法
CN117174109B (zh) * 2023-11-03 2024-02-02 青岛科技大学 基于特征提取的仿海洋哺乳动物叫声信号隐蔽性评分方法
CN117275491B (zh) * 2023-11-17 2024-01-30 青岛科技大学 基于音频转换与时间注意力图神经网络的叫声分类方法
CN118098249B (zh) * 2024-04-26 2024-06-21 青岛科技大学 基于ipso-chrfa模型的海洋哺乳动物叫声分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011114084A1 (de) * 2011-09-18 2013-03-21 Stiftung Alfred-Wegener-Institut Für Polar- Und Meeresforschung Verfahren zur automatisierten Echtzeit-Erfassung von marinen Säugern
CN110991435A (zh) * 2019-11-27 2020-04-10 南京邮电大学 一种基于深度学习的快递运单关键信息定位方法和装置
CN113345443A (zh) * 2021-04-22 2021-09-03 西北工业大学 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2546680B1 (en) * 2011-07-13 2014-06-04 Sercel Method and device for automatically detecting marine animals
US9705607B2 (en) * 2011-10-03 2017-07-11 Cornell University System and methods of acoustic monitoring
US10448152B2 (en) * 2015-09-21 2019-10-15 Northeastern University Systems and methods for monitoring and classifying marine animals based on acoustic signals
WO2018165753A1 (en) * 2017-03-14 2018-09-20 University Of Manitoba Structure defect detection using machine learning algorithms
CN108520114B (zh) * 2018-03-21 2020-05-19 华中科技大学 一种纺织布疵点检测模型及其训练方法和应用
CN108805070A (zh) * 2018-06-05 2018-11-13 合肥湛达智能科技有限公司 一种基于嵌入式终端的深度学习行人检测方法
CN109147254B (zh) * 2018-07-18 2021-05-18 武汉大学 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法
CN110765844B (zh) * 2019-09-03 2023-05-26 华南理工大学 一种基于对抗学习的非感应式餐盘图像数据自动标注方法
CN110942446A (zh) * 2019-10-17 2020-03-31 付冲 一种基于ct影像的肺结节自动检测方法
CN110827837B (zh) * 2019-10-18 2022-02-22 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
CN111160372B (zh) * 2019-12-30 2023-04-18 沈阳理工大学 一种基于高速卷积神经网络的大目标识别方法
CN111414807B (zh) * 2020-02-28 2024-02-27 浙江树人学院(浙江树人大学) 一种基于yolo技术的潮水识别与危机预警方法
CN111444832A (zh) * 2020-03-25 2020-07-24 哈尔滨工程大学 基于卷积神经网络的鲸鱼叫声分类方法
CN112419258B (zh) * 2020-11-18 2024-05-14 西北工业大学 基于时频分割及卷积神经网络的鲁棒环境声音识别方法
CN113409250A (zh) * 2021-05-26 2021-09-17 杭州电子科技大学 一种基于卷积神经网络的焊点检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011114084A1 (de) * 2011-09-18 2013-03-21 Stiftung Alfred-Wegener-Institut Für Polar- Und Meeresforschung Verfahren zur automatisierten Echtzeit-Erfassung von marinen Säugern
CN110991435A (zh) * 2019-11-27 2020-04-10 南京邮电大学 一种基于深度学习的快递运单关键信息定位方法和装置
CN113345443A (zh) * 2021-04-22 2021-09-03 西北工业大学 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SSD算法的茶叶嫩芽检测研究;王子钰等;《微处理机》;20200815(第04期);全文 *

Also Published As

Publication number Publication date
JP7180838B1 (ja) 2022-11-30
CN113870870A (zh) 2021-12-31
JP2023082651A (ja) 2023-06-14

Similar Documents

Publication Publication Date Title
CN113870870B (zh) 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法
CN111680614B (zh) 一种基于视频监控中的异常行为检测方法
KR100442834B1 (ko) 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템
CN109840523B (zh) 一种基于图像处理的城轨列车车号识别方法
JP6798614B2 (ja) 画像認識装置、画像認識方法および画像認識プログラム
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN110610165A (zh) 一种基于yolo模型的船舶行为分析方法
TW202147156A (zh) 對象再識別方法、儲存介質及電腦設備
CN115049966A (zh) 一种基于GhostNet的轻量化YOLO宠物识别方法
CN105893941B (zh) 一种基于区域图像的人脸表情识别方法
CN113516146A (zh) 一种数据分类方法、计算机及可读存储介质
CN117197904A (zh) 人脸活体检测模型的训练方法、人脸活体检测方法及装置
CN112149612A (zh) 一种基于深度神经网络的海洋生物识别系统及识别方法
CN110555125A (zh) 一种基于局部特征的车辆检索方法
CN107688822A (zh) 基于深度学习的新增类别识别方法
CN111738062B (zh) 一种基于嵌入式平台的自动再识别系统
CN112215066A (zh) 家畜脸部图像识别方法及装置
CN110363240B (zh) 一种医学影像分类方法与系统
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
Yang et al. Character recognition using parallel bp neural network
CN113947780B (zh) 一种基于改进卷积神经网络的梅花鹿面部识别方法
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN110968735B (zh) 一种基于球面相似度层次聚类的无监督行人重识别方法
CN114283319A (zh) 一种机车轮对踏面剥离识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant