CN115578678A - 一种鱼类摄食强度分类方法及系统 - Google Patents
一种鱼类摄食强度分类方法及系统 Download PDFInfo
- Publication number
- CN115578678A CN115578678A CN202211389429.5A CN202211389429A CN115578678A CN 115578678 A CN115578678 A CN 115578678A CN 202211389429 A CN202211389429 A CN 202211389429A CN 115578678 A CN115578678 A CN 115578678A
- Authority
- CN
- China
- Prior art keywords
- fish
- audio data
- ingestion
- feeding
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 241000251468 Actinopterygii Species 0.000 claims abstract description 114
- 230000037406 food intake Effects 0.000 claims abstract description 55
- 238000013145 classification model Methods 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 230000001360 synchronised effect Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 235000013305 food Nutrition 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000009360 aquaculture Methods 0.000 abstract description 9
- 244000144974 aquaculture Species 0.000 abstract description 9
- 238000011156 evaluation Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 241000238557 Decapoda Species 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 241000143060 Americamysis bahia Species 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 230000003031 feeding effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036528 appetite Effects 0.000 description 1
- 235000019789 appetite Nutrition 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000004634 feeding behavior Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Biophysics (AREA)
- Discrete Mathematics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种鱼类摄食强度分类方法及系统。该方法包括对当前时刻的音频数据进行梅尔频率倒谱系数的提取;根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;鱼类摄食强度分类模型的训练过程为:获取鱼类不同摄食阶段的视频数据和音频数据;对视频数据和音频数据进行数据对齐处理;根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,提取音频段的梅尔频率倒谱系数;利用音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。本发明能够提高当前水产养殖过程中对鱼群摄食强度评估的准确性和效率。
Description
技术领域
本发明涉及鱼类摄食强度分类领域,特别是涉及一种鱼类摄食强度分类方法及系统。
背景技术
全球鱼类的需求量从1998年至2018年的20年间,人均活鱼消费量从15.6kg/年增加到20.4kg/年。增加的鱼类消费将会丰富饮食中的微量元素。为了满足全球对高质量蛋白质日益增长的需求,解决现有传感器对循环水养殖车间鱼类行为信息获取不全面的问题,亟需应用新技术手段实现水产养殖精细尺度管理。声学技术在研究鱼群自动饲喂系统方面具有显著优势,为提供自需式投喂方案,提高水产养殖产量方面发挥了重要作用。
现有投喂决策中,主要可分为人工观察决策投喂、定时定量投喂系统和基于机器视觉的投喂决策。通过人工观察评估鱼类的摄食强度,常常受观察者个人经验等因素的影响,易造成过投喂或者投喂不足,尤其是在商业规模的养殖场,人工观察法大幅提高了劳动和时间成本。定时定量投喂是基于鱼群数量和长期经验积累的基础上,为一定数量的鱼群按时投喂一定量的饲料,这种方法在一定的程度上解决了劳动力不足的问题,但仍存在过量投喂和投喂不足的风险。机器视觉是一种自动非入侵式且经济的监控方法。在以往研究中,已有学者通过利用机器视觉监控了鱼群的摄食行为和饲料消耗程度,进而评估了鱼群摄食情况。采用机器视觉技术评估鱼群摄食强度是一种可行且有效的手段,但是,机器视觉仅适用于光照条件较好的场合,比如实验室、网箱、池塘等。然而,在很多设施水产养殖现场都存在光照条件不足和不均匀的问题,导致采集到的大多数图像的噪声比较严重,使得准确率显著降低。
鱼虾在进食过程中产生脉冲声波信号,可以作为进食活动的有效代理,使用被动声学的方法对鱼虾摄食环境以及摄食行为进行探测不会产生负面影响,还能有效反馈鱼虾摄食情况。即使用水听器检测到声音并传送到计算机系统进行分析,计算机和喂食软件利用这些信息来决定何时喂食以及喂食多少。鱼类声学特征的表达是行为理论研究中的重要部分,可将不同条件下的鱼虾行为与声学特征建立联系。现有研究多数是通过圈养水生生物并搭建水下声音检测平台的方式对鱼虾发声进行监测,水听器检测到的声信号是一个复杂的混合信号,环境中的背景噪声和鱼虾发声的重叠较大,检测到的声音信号与鱼类食欲、行为的关系也会存在误差,并不能反映鱼虾真实的行为声学特征。因此,建立并揭示鱼类发声机制与行为表现之间的关联关系对精准的智能算法开发提出了更高的要求。
发明内容
本发明的目的是提供一种鱼类摄食强度分类方法及系统,用以解决当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。
为实现上述目的,本发明提供了如下方案:
一种鱼类摄食强度分类方法,包括:
获取鱼类当前时刻的音频数据;
对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
可选地,所述对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取,具体包括:
对当前时刻的音频数据进行预加重、分帧和加窗处理;
对处理后的音频数据进行傅里叶变化;
采用三角频率滤波器组对傅里叶变换后的音频数据进行频谱转换;
对频谱转换后的音频数据取对数;
对取对数后的音频数据进行离散余弦变换,确定梅尔频率倒谱系数。
可选地,所述获取鱼类不同摄食阶段的视频数据和音频数据,具体包括:
利用海康威视视觉相机获取视频数据;
利用全向水听器获取音频数据。
可选地,所述对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据,具体包括:
利用海康威视中的VSPlayer视频处理软件以及音频处理软件Audition分别对视频数据和音频数据进行同步对齐处理。
可选地,所述注意力机制包括:通道注意力机制和空间注意力机制。
可选地,所述鱼类摄食强度分类模型的损失函数为:
其中,Lbias为损失函数,N为样本数,k为设施强度类型的数量,yij为第i个样本的真实标签为j,fj(xi;θ)为第i个样本预测为第j个标签值的概率,θ为鱼类摄食强度分类模型的参数,z(vi)为非线性函数,随着缩放方差vi的增加以及数据点的影响,z(vi)的值呈指数增长。
一种鱼类摄食强度分类系统,包括:
音频数据获取模块,用于获取鱼类当前时刻的音频数据;
梅尔频率倒谱系数提取模块,用于对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
分类结果确定模块,用于根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
一种鱼类摄食强度分类系统,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述的一种鱼类摄食强度分类方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明所提供的一种鱼类摄食强度分类方法及系统,通过对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据,并利用视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,即根据视频数据对应的摄食强度对相同时间段的音频数据进行标注,并利用标注的音频数据对的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型,进而利用鱼类摄食强度分类模型进行分类。本发明将发声机制与行为表现进行充分关联,解决了当前水产养殖过程中对鱼群摄食强度评估不准确、效率低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种鱼类摄食强度分类方法流程示意图;
图2为本发明所提供的一种鱼类摄食强度分类方法整体流程图;
图3为本发明实施例的实验数据获取系统结构示意图;
图4为本发明实施例的鱼类摄食强度视频图像分类示意图;
图5为本发明实施例的鱼类摄食强度梅尔倒谱系数示意图;
图6为本发明实施例的网络结构示意图;
图7为本发明实施例的无梅尔滤波器组梅尔频率语谱图(强摄食声音);
图8为本发明实施例的增加梅尔滤波器组梅尔频率语谱图(强摄食声音)。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种鱼类摄食强度分类方法及系统,能够提高当前水产养殖过程中对鱼群摄食强度评估的准确性和效率。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种鱼类摄食强度分类方法流程示意图,图2为本发明所提供的一种鱼类摄食强度分类方法整体流程图,如图1和图2所示,本发明所提供的一种鱼类摄食强度分类方法,包括:
S101,获取鱼类当前时刻的音频数据;
S102,对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
S102具体包括:
对当前时刻的音频数据进行预加重、分帧和加窗处理;
对处理后的音频数据进行傅里叶变化;
采用三角频率滤波器组对傅里叶变换后的音频数据进行频谱转换;
对频谱转换后的音频数据取对数;
对取对数后的音频数据进行离散余弦变换,确定梅尔频率倒谱系数。
S103,根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;在循环水养殖池系统(RAS)中,使用一台海康威视彩色摄像机(型号:DS-2SC3Q140MY-TE)和一个全向的LST-DH01数字水听器分别获取鱼类摄食前、摄食过程、摄食后视频数据和音频数据,并如图3所示。
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;使用海康威视中的VSPlayer视频处理软件和音频处理软件Audition分别对视频数据和音频数据进行了同步对齐处理,使得同一时间段内获得同步的鱼摄食视频和音频数据。
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
上述步骤为数据分类标注,即根据水产养殖技术人员的经验以及现有的摄食强度划分标准,并如图4所示,图4中从左向右依次为“强”、“中”、“弱”,具体请参见表1。通过回看视频,将鱼的摄食强度视频分成了“强”、“中”、“弱”3种类型。然后依据视频的分类强度和时间段,对同步的音频数据进行了同样的裁剪处理获得了3种摄食强度类型的音频段,并如图5所示,从左向右依次为“强”、“中”、“弱”。
表1鱼类摄食活动强度分类标准
对于每一类时间片段,通过随机选择音频片段创建一个训练集和一个测试集。按照训练集和测试机8:2的比例关系,8055个3s音频片段用于训练,1151个片段用于测试。具体的分类如表2所示:
表2数据集划分
梅尔频率倒谱系数是利用频率尺度模拟人类感知系统的特征,通过三角滤波器组将声音的频率转换成梅尔(Mel)刻度上的频率。MFCC是比较常用且高效的音频特征。
MFCC特征提取过程包括音频预加重、分帧、加窗、离散傅里叶变化、Mel带通滤波、离散余弦变换等步骤。
MFCC特征提取过程具体步骤包含(a)-(e):
(a)对输入的语音信号进行预加重、分帧和加窗。本研究选择幅频特性旁瓣衰减较大的汉明窗作为加窗函数。
(b)对每一个短时分析窗,通过Fast Fourier Transform(FFT)将信号从时域转换成频域,得到对应的线性频谱。
(c)将FFT得到的频谱通过Mel滤波器组得到Mel频谱。三角频率滤波器组由64个带通滤波器Hm(k)组成。其传递函数为公式(1)所示:
其中:0≤m≤M,M是梅尔滤波器的数量,M=64,∑Hm(k)=1,f(m)是滤波器的中心频率。梅尔滤波器组参数设置如表3所示,如图7和图8所示,分别为无梅尔滤波器组和增加梅尔滤波器组的梅尔频率语谱图,其中图8的(a)部分为n_mels=128,fmin=0Hz,fmax=80000Hz,图8的(b)部分为n_mels=128,fmin=1500Hz,fmax=48500Hz,图8的(c)部分为n_mels=64,fmin=1500Hz,fmax=48500Hz,图8的(d)部分为n_mels=32,fmin=1500Hz,fmax=48500Hz。
表3梅尔滤波器组参数设置
其中,y代表音频时间序列,sr是采样率,hope-length代表连续帧之间的样本数,n-mel是要生成的Mel波段数,fmin代表最低频率,fmax代表最高频率。
(d)对所有滤波器输出的频谱作对数运算,得到对数频谱图S(m)。
(e)将S(m)经过离散余弦变换(DCT)得到倒谱频域,即可得到MFCC。
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
采用了注意力机制的神经网络是在mobilenent_V3_Small网络结构的基础上,替换了部分Squeeze-and-Excitation block(SENet),使用Convolution block AttentionModule(CBAM)注意力机制代替,CBAM融合了通道注意力机制和空间注意力机制,能两方兼顾,获得更好的效果。改进后的整体网络结构如附图6所示。
通道注意力部分:给定输入,让F∈RH×W×C,同时经过全局平均池化(GAP)和全局最大池化操作(GMP),分别得到不同的空间语义描述算子。然后,这两个描述算子通过一个共享网络,产生我们的通道注意力特征图Mc∈RC×1×1,该共享网络由多层感知器(MLP)组成,有一个隐藏层随后将两个通道注意力特征向量使用相加方式进行融合,最后经过激活函数,得到通道注意力向量Mc∈R1×1×C,详细描述如下:
空间注意力部分:给定输入:Let F∈RH×W×C,沿着通道维度,同时经过全局平均池化(GAP)和全局最大池化(GMP)操作,分别得到两种不同的通道特征描述算子,将二者进行拼接,然后经过一个卷积核为7×7的卷积操作,再经过激活函数,最后得到空间注意力向量,Ms∈R1×H×W,详细描述如下:
其中,σ代表sigmoid函数,f7×7代表一个卷积操作,过滤器大小为代表7×7。
在多分类问题中,广泛应用的损失函数为交叉熵损失函数。让X∈Rc×h×w为特征空间,and Y={1,...,k}为标签空间,其中k为类的数量。在公式(4)中,yij表示第i个样本的真实标签为j,共有k个标签值N个样本,fj(xi;θ)表示第i个样本预测为第j个标签值的概率,其中θ表示模型参数。传统上,训练的目的是通过最小化训练集的预期损失来学习一个模型。一般来说,一个分类问题的交叉熵损失为:
交叉熵损失函数(cross-entropy loss)擅长学习类间的信息,因为它采用了类间竞争机制,只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散。如果数据点不能提供足够数量的独特特征来描述对象,将会迫使模型产生随机预测,即在缺乏特征多样性的情况下做出不精准的预测。对此,采用新的损失函数,即偏差损失。偏差损失是一种动态缩放的交叉熵损失,其中缩放随着数据点方差的减小而衰减。
z(vi)=exp(vi*α)-β (6)
其中,α和β为可调贡献参数,z(vi)为非线性函数,随着缩放方差vi的增加以及数据点的影响,z(vi)的值呈指数增长,v为卷积层输出的缩放方差。此外,方差被缩放到[0,1]的范围,以便在损失函数中进一步使用,即:
其中,在每次迭代中,max和min是该批特征映射中激活的最大值和最小值。这样做是为了确保方差值中的异常值不会导致损失的大变化,也不会使模型不稳定。
采用准确率、精确率、召回率和F1值(accuracy,precision,recall and F1-score)对鱼类摄食活动强度分类进行评价。准确率是指正确分类的样本占样本总数的比例,准确率越高表明模型对鱼类摄食活动强度分类效果越好。精确率是指真阳性样本占所有预测阳性样本的比例。召回率表示正确预测的阳性样本占所有真实阳性样本的比例。F1值为精确率和召回率的调和平均值,用于评价模型的整体分类性能。四个评估指标定义如下:
其中,真阳性(TP)表示阳性类被判定为阳性类,假阳性(FP)代表阴性类被判定为阳性类,假阴性(FN)表示阳性类被判定为阴性类,而真阴性(TN)代表被正确分类的阴性样本的数量。
根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果。结果如表4所示本发明在鱼类摄食强度分类方面准确率可达到79%,具有良好的分类效果。
表4鱼类摄食强度分类结果
其中,Acc表示Accuracy,p表示Precision,r表示Recall
本发明还提供一种鱼类摄食强度分类系统,包括:
音频数据获取模块,用于获取鱼类当前时刻的音频数据;
梅尔频率倒谱系数提取模块,用于对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
分类结果确定模块,用于根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,本发明还提供一种鱼类摄食强度分类系统,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述的一种鱼类摄食强度分类方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种鱼类摄食强度分类方法,其特征在于,包括:
获取鱼类当前时刻的音频数据;
对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
2.根据权利要求1所述的一种鱼类摄食强度分类方法,其特征在于,所述对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取,具体包括:
对当前时刻的音频数据进行预加重、分帧和加窗处理;
对处理后的音频数据进行傅里叶变化;
采用三角频率滤波器组对傅里叶变换后的音频数据进行频谱转换;
对频谱转换后的音频数据取对数;
对取对数后的音频数据进行离散余弦变换,确定梅尔频率倒谱系数。
3.根据权利要求1所述的一种鱼类摄食强度分类方法,其特征在于,所述获取鱼类不同摄食阶段的视频数据和音频数据,具体包括:
利用海康威视视觉相机获取视频数据;
利用全向水听器获取音频数据。
4.根据权利要求3所述的一种鱼类摄食强度分类方法,其特征在于,所述对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据,具体包括:
利用海康威视中的VSPlayer视频处理软件以及音频处理软件Audition分别对视频数据和音频数据进行同步对齐处理。
5.根据权利要求1所述的一种鱼类摄食强度分类方法,其特征在于,所述注意力机制包括:通道注意力机制和空间注意力机制。
7.一种鱼类摄食强度分类系统,其特征在于,包括:
音频数据获取模块,用于获取鱼类当前时刻的音频数据;
梅尔频率倒谱系数提取模块,用于对所述当前时刻的音频数据进行梅尔频率倒谱系数的提取;
分类结果确定模块,用于根据提取的梅尔频率倒谱系数,采用鱼类摄食强度分类模型,确定分类结果,并根据分类结果进行投喂;所述鱼类摄食强度分类模型的训练过程为:
获取鱼类不同摄食阶段的视频数据和音频数据;摄食阶段包括:摄食前、摄食过程以及摄食后;
对不同摄食阶段的视频数据和音频数据进行数据对齐处理,确定同步的鱼摄食视频和音频数据;
根据视频数据确定的摄食强度以及时间段对同步的音频数据进行了同样的裁剪处理,确定不同摄食强度的音频段,并提取音频段的梅尔频率倒谱系数;
利用不同摄食强度的音频段的梅尔频率倒谱系数对采用了注意力机制的神经网络进行训练,确定鱼类摄食强度分类模型。
8.一种鱼类摄食强度分类系统,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-6中任一项所述的一种鱼类摄食强度分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211389429.5A CN115578678A (zh) | 2022-11-08 | 2022-11-08 | 一种鱼类摄食强度分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211389429.5A CN115578678A (zh) | 2022-11-08 | 2022-11-08 | 一种鱼类摄食强度分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115578678A true CN115578678A (zh) | 2023-01-06 |
Family
ID=84588814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211389429.5A Pending CN115578678A (zh) | 2022-11-08 | 2022-11-08 | 一种鱼类摄食强度分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578678A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052064A (zh) * | 2023-04-03 | 2023-05-02 | 北京市农林科学院智能装备技术研究中心 | 鱼群摄食强度识别方法、装置、电子设备及投饵机 |
CN116665701A (zh) * | 2023-06-06 | 2023-08-29 | 中国农业大学 | 一种鱼群摄食强度分类方法、系统及设备 |
CN118097391A (zh) * | 2024-03-04 | 2024-05-28 | 中国农业大学 | 多模态融合的鱼群摄食强度分类方法、系统、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980336A (zh) * | 2010-10-18 | 2011-02-23 | 福州星网视易信息系统有限公司 | 一种基于隐马尔可夫模型的汽车声音识别方法 |
CN110476839A (zh) * | 2019-07-24 | 2019-11-22 | 中国农业大学 | 一种基于鱼类生长的优化调控方法及系统 |
CN111240200A (zh) * | 2020-01-16 | 2020-06-05 | 北京农业信息技术研究中心 | 鱼群投饵控制方法、鱼群投饵控制装置及投饵船 |
CN111436386A (zh) * | 2020-04-07 | 2020-07-24 | 玉林师范学院 | 一种游泳型养殖鱼基于摄食强度测量的养殖方法及系统 |
CN111528143A (zh) * | 2020-05-26 | 2020-08-14 | 大连海洋大学 | 一种鱼群摄食行为量化方法、系统、装置和存储介质 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN112883861A (zh) * | 2021-02-07 | 2021-06-01 | 同济大学 | 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法 |
CN114333901A (zh) * | 2021-12-24 | 2022-04-12 | 西交利物浦大学 | 呼吸异常分类模型的训练、呼吸异常检测方法及电子设备 |
CN114612454A (zh) * | 2022-03-21 | 2022-06-10 | 玉林师范学院 | 一种鱼类摄食状态检测方法 |
-
2022
- 2022-11-08 CN CN202211389429.5A patent/CN115578678A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980336A (zh) * | 2010-10-18 | 2011-02-23 | 福州星网视易信息系统有限公司 | 一种基于隐马尔可夫模型的汽车声音识别方法 |
CN110476839A (zh) * | 2019-07-24 | 2019-11-22 | 中国农业大学 | 一种基于鱼类生长的优化调控方法及系统 |
CN111240200A (zh) * | 2020-01-16 | 2020-06-05 | 北京农业信息技术研究中心 | 鱼群投饵控制方法、鱼群投饵控制装置及投饵船 |
CN111436386A (zh) * | 2020-04-07 | 2020-07-24 | 玉林师范学院 | 一种游泳型养殖鱼基于摄食强度测量的养殖方法及系统 |
CN111528143A (zh) * | 2020-05-26 | 2020-08-14 | 大连海洋大学 | 一种鱼群摄食行为量化方法、系统、装置和存储介质 |
CN112883861A (zh) * | 2021-02-07 | 2021-06-01 | 同济大学 | 一种基于鱼群摄食状态细粒度分类的反馈式投饵控制方法 |
CN112802484A (zh) * | 2021-04-12 | 2021-05-14 | 四川大学 | 一种混合音频下的大熊猫声音事件检测方法及系统 |
CN114333901A (zh) * | 2021-12-24 | 2022-04-12 | 西交利物浦大学 | 呼吸异常分类模型的训练、呼吸异常检测方法及电子设备 |
CN114612454A (zh) * | 2022-03-21 | 2022-06-10 | 玉林师范学院 | 一种鱼类摄食状态检测方法 |
Non-Patent Citations (4)
Title |
---|
L ABRAHMYAN等: ""Bias Loss for Mobile Neural Network"", 《2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION》, 17 October 2021 (2021-10-17), pages 6536 - 6546 * |
曲蕊等: ""水产养殖中摄食声学研究进展"", 《渔业现代化》, vol. 47, no. 4, 14 August 2020 (2020-08-14), pages 1 - 6 * |
月来客栈: ""多标签分类中的损失函数与评估指标"", pages 1 - 9, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/385475273> * |
爱学习的小美: ""梅尔频率倒谱系数(MFCC)"", pages 1 - 5, Retrieved from the Internet <URL:https://blog.csdn.net/m0_60116633/article/details/122615835> * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052064A (zh) * | 2023-04-03 | 2023-05-02 | 北京市农林科学院智能装备技术研究中心 | 鱼群摄食强度识别方法、装置、电子设备及投饵机 |
CN116665701A (zh) * | 2023-06-06 | 2023-08-29 | 中国农业大学 | 一种鱼群摄食强度分类方法、系统及设备 |
CN118097391A (zh) * | 2024-03-04 | 2024-05-28 | 中国农业大学 | 多模态融合的鱼群摄食强度分类方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Underwater target recognition using convolutional recurrent neural networks with 3-D Mel-spectrogram and data augmentation | |
CN115578678A (zh) | 一种鱼类摄食强度分类方法及系统 | |
Smith et al. | The use of passive acoustics to measure feed consumption by Penaeus monodon (giant tiger prawn) in cultured systems | |
Kvsn et al. | Bioacoustics data analysis–A taxonomy, survey and open challenges | |
Ibrahim et al. | Transfer learning for efficient classification of grouper sound | |
Dufour et al. | First automatic passive acoustic tool for monitoring two species of procellarides (Pterodroma baraui and Puffinus bailloni) on Reunion Island, Indian Ocean | |
Bravo et al. | Species-specific audio detection: a comparison of three template-based detection algorithms using random forests | |
CN115170942B (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
CN116311001B (zh) | 鱼群行为识别方法、装置、系统、设备及介质 | |
Beslin et al. | Automatic acoustic estimation of sperm whale size distributions achieved through machine recognition of on-axis clicks | |
Du et al. | Feeding intensity assessment of aquaculture fish using Mel Spectrogram and deep learning algorithms | |
Schneider et al. | Counting fish and dolphins in sonar images using deep learning | |
Chalmers et al. | Modelling animal biodiversity using acoustic monitoring and deep learning | |
Schröter et al. | Segmentation, classification, and visualization of orca calls using deep learning | |
Wei et al. | Study on feeding activity of Litopenaeus vannamei based on passive acoustic detection | |
CN115830436A (zh) | 一种基于深度学习的海洋生物智能检测方法 | |
Wang et al. | A lightweight CNN-based model for early warning in sow oestrus sound monitoring | |
CN115048984A (zh) | 一种基于深度学习的母猪发情声识别方法 | |
Cui et al. | Fish feeding intensity assessment in aquaculture: A new audio dataset AFFIA3K and a deep learning algorithm | |
Wei et al. | Recognition of behavior state of Penaeus vannamei based on passive acoustic technology | |
Wang et al. | A hierarchical birdsong feature extraction architecture combining static and dynamic modeling | |
Hu et al. | An features extraction and recognition method for underwater acoustic target based on ATCNN | |
Charef et al. | Classification of fish schools based on evaluation of acoustic descriptor characteristics | |
Du et al. | A tristimulus-formant model for automatic recognition of call types of laying hens. | |
Tong et al. | Automatic single fish detection with a commercial echosounder using YOLO v5 and its application for echosounder calibration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |