JP7180838B1 - 畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法 - Google Patents
畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法 Download PDFInfo
- Publication number
- JP7180838B1 JP7180838B1 JP2022113523A JP2022113523A JP7180838B1 JP 7180838 B1 JP7180838 B1 JP 7180838B1 JP 2022113523 A JP2022113523 A JP 2022113523A JP 2022113523 A JP2022113523 A JP 2022113523A JP 7180838 B1 JP7180838 B1 JP 7180838B1
- Authority
- JP
- Japan
- Prior art keywords
- time
- convolutional neural
- model
- signal
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 15
- 241000283153 Cetacea Species 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 241000894007 species Species 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 241001465754 Metazoa Species 0.000 abstract description 7
- 230000005236 sound signal Effects 0.000 abstract 1
- 230000009466 transformation Effects 0.000 abstract 1
- 238000010606 normalization Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 241001147101 Dugong Species 0.000 description 1
- 241001479123 Sousa chinensis Species 0.000 description 1
- 241000283311 Tursiops truncatus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
Description
1つの水中音響信号セグメントを標準化処理して、等長さのNセグメントに分割し、高速フーリエ変換によって時間周波数処理を行い、データセグメント毎の時間周波数図を取得し、3チャンネル(RGB)カラー時間周波数画像として記憶する、信号処理のステップ1)と、
3チャンネルカラー時間周波数画像のそれぞれをチェックして、現れた海洋哺乳類鳴音信号の輪郭を矩形ボックスで囲み、種のカテゴリを注釈し、プログラムによって矩形ボックスの中心座標、幅及び高さを自動的に取得して、この注釈情報を注釈ファイルに書き込む、信号注釈のステップ2)と、
識別モデルには、3チャンネルカラー時間周波数画像マトリックスを入力、識別マトリックスを出力とした畳み込みニューラルネットワークを使用する、識別モデルを設計するステップ3)と、
3チャンネルカラー時間周波数画像と注釈ファイルとを畳み込みニューラルネットワークに入力して訓練を行い、損失関数によってネットワークの出力及び注釈信号の損失を算出し、訓練中にこの損失を絶えずに最適化させて、所定の回数に達すると訓練を終了し、識別モデルを得るステップであって、
畳み込みニューラルネットワークの出力及び実際の注釈信号の損失は、以下の関数:
まず、検出対象データにステップ1)と同様な処理をしてカラー時間周波数画像を得て、次に、検出対象データの時間周波数画像をステップ4)で訓練されたモデルに入力し、モデルによって計算を行って出力マトリックスを出力し、出力マトリックスの情報について変換及びスクリーニングを行い、中心座標、長さ、幅、信頼度及びカテゴリラベルを含む複数組の識別結果を得るステップであって、中心座標、長さ、及び幅で構成される矩形ボックスはモデルによって検出された信号を表し、信頼度及びカテゴリラベルは種の分類を表す、ステップ5)とを含む。
本方法では、畳み込みニューラルネットワークによって、時間周波数画像内の哺乳動物の音響信号がさらにワンステップで識別されることで、高い精度及びリコール率を維持しながら、データ処理速度を速め、識別全体はリアルタイムで行われる。
本発明は、畳み込みニューラルネットワークに基づく哺乳動物鳴音識別方法を提案している。該方法は、検出対象時間周波数画像を複数の検出ユニットに分割し、各ユニット内に1組の検出枠の座標、該ユニットに信号が含まれる信頼度及び信号の属する種のカテゴリを出力する。モデルは全ての検出ユニットの予測結果をフィルタリングしてスクリーニングをし、最終的な検出・分類結果得る。時間周波数画像毎の全ての検出ユニットを同時に処理し、かつ各検出ユニット内の検出と分類を同時に行うことで、処理速度を速め、モデルがデータをリアルタイムで識別処理することを可能とする。
Claims (2)
- 畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法であって、
1つの水中音響信号セグメントを標準化処理して、等長さのNセグメントに分割し、高速フーリエ変換によって時間周波数処理を行い、データセグメント毎の時間周波数図を取得し、3チャンネル(RGB)カラー時間周波数画像として記憶する、信号処理のステップ1)と、
3チャンネルカラー時間周波数画像のそれぞれをチェックして、現れた海洋哺乳類鳴音信号の輪郭を矩形ボックスで囲み、種のカテゴリを注釈し、プログラムによって矩形ボックスの中心座標、幅及び高さを自動的に取得して、この注釈情報を注釈ファイルに書き込む、信号注釈のステップ2)と、
識別モデルには、3チャンネルカラー時間周波数画像マトリックスを入力、識別マトリックスを出力とする畳み込みニューラルネットワークを使用する、識別モデルを設計するステップ3)と、
3チャンネルカラー時間周波数画像と注釈ファイルとを畳み込みニューラルネットワークに入力して訓練を行い、損失関数によってネットワークの出力及び注釈信号の損失を算出し、訓練中にこの損失を絶えずに最適化させて、所定の回数に達すると訓練を終了し、識別モデルを得るステップであって、
畳み込みニューラルネットワークの出力及び実際の注釈信号の損失は以下の関数:
5)検出対象データにステップ1)と同様な処理をしてカラー時間周波数画像を得て、次に、検出対象データの時間周波数画像をステップ4)で訓練されたモデルに入力し、モデルによって計算を行って出力マトリックスを出力し、出力マトリックスの情報について変換及びスクリーニングを行い、中心座標、長さ、幅、信頼度及びカテゴリラベルを含む複数組の識別結果を得るステップであって、中心座標、長さ、及び幅で構成される矩形ボックスはモデルによって検出された信号を表し、信頼度及びカテゴリラベルは種の分類を表すステップとを含む、方法。 - 前記ステップ3)における識別モデルに使用される畳み込みニューラルネットワークは24個の畳み込み層、2個のプーリング層及び2個の完全接続層を有する、ことを特徴とする請求項1に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111456006.6 | 2021-12-02 | ||
CN202111456006.6A CN113870870B (zh) | 2021-12-02 | 2021-12-02 | 一种基于卷积神经网络的海洋哺乳动物发声实时识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7180838B1 true JP7180838B1 (ja) | 2022-11-30 |
JP2023082651A JP2023082651A (ja) | 2023-06-14 |
Family
ID=78985489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022113523A Active JP7180838B1 (ja) | 2021-12-02 | 2022-07-14 | 畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7180838B1 (ja) |
CN (1) | CN113870870B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275491A (zh) * | 2023-11-17 | 2023-12-22 | 青岛科技大学 | 一种基于音频转换与时间图神经网络的叫声分类方法 |
CN118098249A (zh) * | 2024-04-26 | 2024-05-28 | 青岛科技大学 | 基于ipso-chrfa模型的海洋哺乳动物叫声分类方法 |
CN118098248A (zh) * | 2024-04-19 | 2024-05-28 | 青岛科技大学 | 基于仿真海洋水声信道的海洋哺乳动物叫声数据增强方法 |
CN118367884A (zh) * | 2024-06-14 | 2024-07-19 | 深圳市君威科技有限公司 | 一种低噪声放大变频器设备的精细控制方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116660876B (zh) * | 2023-05-26 | 2024-07-30 | 吉林大学 | 一种中华白海豚回声定位信号自动检测和定位方法 |
CN117174109B (zh) * | 2023-11-03 | 2024-02-02 | 青岛科技大学 | 基于特征提取的仿海洋哺乳动物叫声信号隐蔽性评分方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805070A (zh) * | 2018-06-05 | 2018-11-13 | 合肥湛达智能科技有限公司 | 一种基于嵌入式终端的深度学习行人检测方法 |
CN111444832A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 基于卷积神经网络的鲸鱼叫声分类方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2546680B1 (en) * | 2011-07-13 | 2014-06-04 | Sercel | Method and device for automatically detecting marine animals |
DE102011114084B4 (de) * | 2011-09-18 | 2015-07-16 | Alfred-Wegener-Institut Helmholtz-Zentrum für Polar- und Meeresforschung | Verfahren zur automatisierten Echtzeit-Erfassung von marinen Säugern |
US9705607B2 (en) * | 2011-10-03 | 2017-07-11 | Cornell University | System and methods of acoustic monitoring |
US10448152B2 (en) * | 2015-09-21 | 2019-10-15 | Northeastern University | Systems and methods for monitoring and classifying marine animals based on acoustic signals |
EP3596449A4 (en) * | 2017-03-14 | 2021-01-06 | University of Manitoba | DETECTION OF STRUCTURAL DEFECTS USING AUTOMATIC LEARNING ALGORITHMS |
CN108520114B (zh) * | 2018-03-21 | 2020-05-19 | 华中科技大学 | 一种纺织布疵点检测模型及其训练方法和应用 |
CN109147254B (zh) * | 2018-07-18 | 2021-05-18 | 武汉大学 | 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法 |
CN110765844B (zh) * | 2019-09-03 | 2023-05-26 | 华南理工大学 | 一种基于对抗学习的非感应式餐盘图像数据自动标注方法 |
CN110942446A (zh) * | 2019-10-17 | 2020-03-31 | 付冲 | 一种基于ct影像的肺结节自动检测方法 |
CN110827837B (zh) * | 2019-10-18 | 2022-02-22 | 中山大学 | 一种基于深度学习的鲸鱼活动音频分类方法 |
CN110991435A (zh) * | 2019-11-27 | 2020-04-10 | 南京邮电大学 | 一种基于深度学习的快递运单关键信息定位方法和装置 |
CN111160372B (zh) * | 2019-12-30 | 2023-04-18 | 沈阳理工大学 | 一种基于高速卷积神经网络的大目标识别方法 |
CN111414807B (zh) * | 2020-02-28 | 2024-02-27 | 浙江树人学院(浙江树人大学) | 一种基于yolo技术的潮水识别与危机预警方法 |
CN112419258B (zh) * | 2020-11-18 | 2024-05-14 | 西北工业大学 | 基于时频分割及卷积神经网络的鲁棒环境声音识别方法 |
CN113345443A (zh) * | 2021-04-22 | 2021-09-03 | 西北工业大学 | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 |
CN113409250A (zh) * | 2021-05-26 | 2021-09-17 | 杭州电子科技大学 | 一种基于卷积神经网络的焊点检测方法 |
-
2021
- 2021-12-02 CN CN202111456006.6A patent/CN113870870B/zh active Active
-
2022
- 2022-07-14 JP JP2022113523A patent/JP7180838B1/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108805070A (zh) * | 2018-06-05 | 2018-11-13 | 合肥湛达智能科技有限公司 | 一种基于嵌入式终端的深度学习行人检测方法 |
CN111444832A (zh) * | 2020-03-25 | 2020-07-24 | 哈尔滨工程大学 | 基于卷积神经网络的鲸鱼叫声分类方法 |
Non-Patent Citations (4)
Title |
---|
Jiang,j.-j. et al.,Whistle detection and classification for whales based on convolutional neural networks,Applied Acoustics,150,2019年07月,pp.169-178 |
JIANG,J.-J. ET AL.: "Whistle detection and classification for whales based on convolutional neural networks", APPLIED ACOUSTICS, vol. 150, JPN6022043802, July 2019 (2019-07-01), pages 169 - 178, ISSN: 0004899274 * |
Yankun Chen et al.,Real-time Detection and Classification for Targeted Marine Mammals,2021 IEEE/OES China Ocean Acoustics,2021年07月14日,pp.1027-1031 |
YANKUN CHEN ET AL.: "Real-time Detection and Classification for Targeted Marine Mammals", 2021 IEEE/OES CHINA OCEAN ACOUSTICS, JPN6022043801, 14 July 2021 (2021-07-14), pages 1027 - 1031, XP033965618, ISSN: 0004899273, DOI: 10.1109/COA50123.2021.9519906 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275491A (zh) * | 2023-11-17 | 2023-12-22 | 青岛科技大学 | 一种基于音频转换与时间图神经网络的叫声分类方法 |
CN117275491B (zh) * | 2023-11-17 | 2024-01-30 | 青岛科技大学 | 基于音频转换与时间注意力图神经网络的叫声分类方法 |
CN118098248A (zh) * | 2024-04-19 | 2024-05-28 | 青岛科技大学 | 基于仿真海洋水声信道的海洋哺乳动物叫声数据增强方法 |
CN118098249A (zh) * | 2024-04-26 | 2024-05-28 | 青岛科技大学 | 基于ipso-chrfa模型的海洋哺乳动物叫声分类方法 |
CN118367884A (zh) * | 2024-06-14 | 2024-07-19 | 深圳市君威科技有限公司 | 一种低噪声放大变频器设备的精细控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113870870B (zh) | 2022-04-05 |
JP2023082651A (ja) | 2023-06-14 |
CN113870870A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7180838B1 (ja) | 畳み込みニューラルネットワークに基づく海洋哺乳類鳴音のリアルタイム識別方法 | |
US11487995B2 (en) | Method and apparatus for determining image quality | |
CN109446990B (zh) | 用于生成信息的方法和装置 | |
CN103793447B (zh) | 音乐与图像间语义相似度的估计方法和估计系统 | |
CN110163079A (zh) | 视频检测方法及装置、计算机可读介质和电子设备 | |
CN113806609B (zh) | 一种基于mit和fsm的多模态情感分析方法 | |
CN111401169A (zh) | 基于监控视频信息的供电营业厅服务人员行为识别方法 | |
CN112528058B (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN112734741A (zh) | 一种肺炎ct影像的图像处理方法和系统 | |
CN109300479A (zh) | 一种回放语音的声纹识别方法、装置及存储介质 | |
WO2023000253A1 (zh) | 攀爬行为预警方法和装置、电子设备、存储介质 | |
CN108831506A (zh) | 基于gmm-bic的数字音频篡改点检测方法及系统 | |
CN113592862A (zh) | 钢板表面缺陷的点云数据分割方法、系统、设备、介质 | |
Dagnes et al. | 3D geometry-based face recognition in presence of eye and mouth occlusions | |
CN112151067B (zh) | 一种基于卷积神经网络的数字音频篡改被动检测方法 | |
CN109922311A (zh) | 基于音视频联动的监控方法、装置、终端及存储介质 | |
CN115035450A (zh) | 确定动物种类的方法及装置 | |
CN113159049A (zh) | 弱监督语义分割模型的训练方法及装置、存储介质、终端 | |
JP6651085B1 (ja) | 属性認識システム、学習サーバ、及び属性認識プログラム | |
CN111382760B (zh) | 图片类别的识别方法、装置及计算机可读存储介质 | |
CN111163332A (zh) | 视频色情度检测方法、终端及介质 | |
CN116127400A (zh) | 基于异构计算的敏感数据识别系统、方法及存储介质 | |
CN109271974A (zh) | 一种轻量化人脸联合检测与识别方法及其系统 | |
CN116150313A (zh) | 数据扩充处理方法及装置 | |
CN114333786A (zh) | 语音情感识别方法及相关装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220719 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7180838 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |