CN115170942B - 一种声音与视觉多级融合的鱼类行为识别方法 - Google Patents
一种声音与视觉多级融合的鱼类行为识别方法 Download PDFInfo
- Publication number
- CN115170942B CN115170942B CN202210880013.7A CN202210880013A CN115170942B CN 115170942 B CN115170942 B CN 115170942B CN 202210880013 A CN202210880013 A CN 202210880013A CN 115170942 B CN115170942 B CN 115170942B
- Authority
- CN
- China
- Prior art keywords
- feature map
- sound
- fusion
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 136
- 238000000034 method Methods 0.000 title claims abstract description 75
- 241000251468 Actinopterygii Species 0.000 claims abstract description 140
- 230000006399 behavior Effects 0.000 claims abstract description 129
- 230000000694 effects Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims description 100
- 230000000007 visual effect Effects 0.000 claims description 91
- 230000005236 sound signal Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 19
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 19
- 230000009182 swimming Effects 0.000 claims description 16
- 241001582957 Sebastes schlegelii Species 0.000 claims description 14
- 230000037406 food intake Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 230000007613 environmental effect Effects 0.000 claims description 6
- 239000011152 fibreglass Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000004634 feeding behavior Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 241001481818 Sebastes Species 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 4
- 235000019688 fish Nutrition 0.000 description 103
- 238000002474 experimental method Methods 0.000 description 22
- 238000011160 research Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 238000002679 ablation Methods 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 5
- 239000013505 freshwater Substances 0.000 description 5
- 238000009360 aquaculture Methods 0.000 description 4
- 244000144974 aquaculture Species 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 208000024827 Alzheimer disease Diseases 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 230000002902 bimodal effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 229910052760 oxygen Inorganic materials 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000003945 visual behavior Effects 0.000 description 2
- 241000277263 Salmo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003031 feeding effect Effects 0.000 description 1
- 235000012631 food intake Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/05—Underwater scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A40/00—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
- Y02A40/80—Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
- Y02A40/81—Aquaculture, e.g. of fish
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种声音与视觉多级融合的鱼类行为识别方法,属于机器学习领域,解决依靠单一模态特征识别鱼类行为往往难以得到较好的效果的问题,要点是所述跳跃连接融合网络包括若干融合阶段网络,对应阶段的融合阶段网络将对应阶段的视觉特征提取阶段网络和声音特征提取阶段网络的输出特征图融合得到融合特征图,效果是充分挖掘模态关联信息,使各模态潜在表示交互信息最大化。
Description
技术领域
本发明属于机器学习领域,涉及一种声音与视觉多级融合的鱼类行为识别方法
背景技术
鱼类行为是鱼类对环境变化的外在反应,它可以反应鱼类的日常状态和生长情况,是养殖技术人员判断鱼类健康状况的重要依据。鱼类游泳、摄食等行为的自动识别是鱼类活动规律和生活习性研究的基础,是精准投喂、智慧养殖等研究的支撑。
目前鱼类行为识别研究大多采用基于计算机视觉的方法,张重阳等用多特征融合与机器学习相结合的方法识别鱼类摄食行为,有效地增强了识别网络的鲁棒性;黄志涛等用鱼体运动特征和图像纹理特征识别大西洋鲑的摄食活动,能有效提高识别的精确度。但真实生产条件下光线昏暗导致基于计算机视觉的方法无法准确识别鱼类行为,进而导致识别准确率和召回率不高。考虑到声音信号不受光线的影响,学者们对基于被动水声信号的鱼类分类和行为分析进行了研究,黄汉英等建立基于主成分分析的支持向量机实现了淡水鱼混合比例识别,提升了混合比例识别的准确率;李路等采用概率神经网络分类器实现淡水鱼种类的快速识别,将深度学习引进了被动声学的检测技术中,能自动高效识别淡水鱼种类。研究表明鱼类的摄食和游泳行为拥有不同的声音特征;但真实养殖环境下存在各种噪声干扰了对鱼类行为声音特征的提取效果,导致采用基于被动声学方法识别鱼类行为的准确率和召回率也难以满足需求。通过观察人类在复杂条件下进行目标识别时,大脑会利用听觉和视觉的互补性,综合两个模态信息进行预测,两种模态互为补充互为强化,弥补了单一模态预测的不足,提升目标识别的准确性。因此提出一种基于声音与视觉融合的鱼类行为识别方法。
在多模态融合研究中已证明多个模态信息的共同协作、交互能得到关联信息,为各领域的信息服务提供支撑。从技术上讲,多模态融合是将来自多种模态的信息集成在一起,目的是通过分类方法来预测一个类。范习健等提出一种融合听觉模态和视觉模态信息的双模态情感识别方法,利用卷积神经网络和长短期记忆循环神经网络对融合后的听觉视觉双模态特征进行情感识别。Janani等利用深度学习结合成像、电子健康记录和基因组数据判断是否有潜在的阿尔兹海默症,使用不同的融合策略融合数据,证明深度融合策略优于浅层融合策略。Nagrani等提出一种基于Transformer模型的方法,使用“融合瓶颈”进行多层模态融合,提高了视听融合的性能,降低了计算成本。上述研究表明,多模态融合在各领域得到广泛应用并取得丰硕研究成果。但在鱼类行为识别领域中,未考虑到鱼类在摄食、游泳时声音信号特征差异小,特征难学习的特点,所以不能直接使用上述方法进行识别。
发明内容
鉴于以上分析,依靠单一模态特征识别鱼类行为往往难以得到较好的效果,因此本发明提出一种声音与视觉多级融合的鱼类行为识别方法,应用于声音与视觉多级融合的鱼类行为识别网络模型,所述网络模型包括视觉特征提取网络、声音特征提取网络、跳跃连接融合网络、注意力机制网络、全连接层和softmax层;
所述方法包括:
所述视觉特征提取网络响应于鱼类行为的图像对鱼类行为的视觉特征提取,所述视觉特征提取网络包括若干视觉特征提取阶段网络;
所述声音特征提取网络响应于鱼类行为的声音对鱼类行为的声音特征提取,所述声音特征提取网络包括若干声音特征提取阶段网络;
所述跳跃连接融合网络包括若干融合阶段网络,对应阶段的融合阶段网络将对应阶段的视觉特征提取阶段网络和声音特征提取阶段网络的输出特征图融合得到融合特征图;
所述注意力机制网络通过学习特征权重,获取每个融合特征图的重要程度,根据所述重要程度对每一个特征通道赋予一个权重,通过归一化函数输出融合特征图的权重向量,并将所述权重向量与对应融合特征图进行乘法操作,得到具有权重信息的融合特征图,并对其进行平均池化,再送入全连接层;
所述全连接层的全连接之间使用激活函数对送入全连接层的融合特征图进行非线性处理,再对融合特征图进行降维处理,整合融合特征图的信息;
所述softmax层用于根据全连接层整合的融合特征图的信息进行鱼类行为的识别分类操作。
在一种实施例中:视觉特征提取网络包括Resnet50网络,视觉特征提取网络的Resnet50网络包括:视觉特征提取阶段网络RGBstage1,视觉特征提取阶段网络RGBstage2,视觉特征提取阶段网络RGBstage3,视觉特征提取阶段网络RGBstage4,视觉特征提取阶段网络RGBstage5;
声音特征提取网络包括Resnet50网络,声音特征提取网络的的Resnet50网络包括:声音特征提取阶段网络Soundstage1,声音特征提取阶段网络Soundstage2,声音特征提取阶段网络Soundstage3,声音特征提取阶段网络Soundstage4,声音特征提取阶段网络Soundstage5;
跳跃连接融合网络包括融合阶段网络Skip-Concat1,融合阶段网络Skip-Concat2,融合阶段网络Skip-Concat3,融合阶段网络Skip-Concat4,融合阶段网络Skip-Concat5。
在一种实施例中:鱼类行为的声音信号经过MFCC变换,使用MFCC系数表示鱼类行为声音特征。
在一种实施例中:所述跳跃连接融合网络的融合阶段网络Skip-Concat,由Up-sample、Concat、1×1卷积、Down-sample、element-wise add组成;所述Up-sample,用于统一不同模态的特征图尺度,得到尺度相同的声音与视觉特征图;所述Concat,用于对不同维度特征进行融合;所述1×1卷积,用于将融合得到N+M维特征进行卷积,用于特征跨通道的交互和信息整合,获取不同层级模态间的交互信息;所述Down-sample,用于统一不同阶段的融合特征;所述element-wise add,用于实现多尺度的特征融合,融合多个阶段信息特征;
其中:所述Concat基于如下方式实现:设有N维鱼类行为视觉特征,M维鱼类行为声音特征,N维视觉特征与M维声音特征进行拼接操作,融合成N+M维的特征,如公式(1)-(3)所示:
N=[x1,x2,x3,...,xn] (1)
M=[y1,y2,y3,...,yn] (2)
N+M=[x1,x2,x3,...,xn,y1,y2,y3,...,yn] (3)
x表示鱼类行为视觉特征样本,y表示鱼类行为声音特征样本,n表示第n个特征样本。
在一种实施例中:鱼类行为的图像由视觉特征提取阶段网络RGBstage1对视觉特征提取,视觉特征提取阶段网络RGBstage1输出特征图feature map RGBstage1,鱼类行为的声音由声音特征提取阶段网络Soundstage1对声音特征提取,声音特征提取阶段网络Soundstage1输出特征图feature map Soundstage1,所述特征图feature map RGBstage1和所述特征图feature map Soundstage1由融合阶段网络Skip-Concat1融合,得到融合特征图feature map concat1;
鱼类行为图像的特征图feature map RGBstage1由视觉特征提取阶段网络RGBstage2对视觉特征提取,视觉特征提取阶段网络RGBstage2输出特征图featuremapRGBstage2,鱼类行为声音的特征图feature map Soundstage1由声音特征提取阶段网络Soundstage2对声音特征提取,声音特征提取阶段网络Soundstage2输出特征图featuremap Soundstage2,所述特征图feature map RGBstage2和所述特征图feature mapSoundstage2由融合阶段网络Skip-Concat2融合,得到融合特征图feature map concat2,将所述融合特征图feature map concat1和融合特征图feature map concat2进行元素相加操作,使其融合成一张融合特征图feature map concat12。
鱼类行为图像的特征图feature map RGBstage2由视觉特征提取阶段网络RGBstage3对视觉特征提取,视觉特征提取阶段网络RGBstage3输出特征图featuremapRGBstage3,鱼类行为声音的特征图feature map Soundstage2由声音特征提取阶段网络Soundstage3对声音特征提取,声音特征提取阶段网络Soundstage3输出特征图featuremap Soundstage3,所述特征图feature map RGBstage3和所述特征图feature mapSoundstage3由融合阶段网络Skip-Concat3融合,得到融合特征图feature map concat3,将所述融合特征图feature map concat12和融合特征图feature map concat3进行元素相加操作,使其融合成一张融合特征图feature map concat123;
鱼类行为图像的特征图feature map RGBstage3由视觉特征提取阶段网络RGBstage4对视觉特征提取,视觉特征提取阶段网络RGBstage4输出特征图featuremapRGBstage4,鱼类行为声音的特征图feature map Soundstage3由声音特征提取阶段网络Soundstage4对声音特征提取,声音特征提取阶段网络Soundstage4输出特征图featuremap Soundstage4,所述特征图feature map RGBstage4和所述特征图feature mapSoundstage4由融合阶段网络Skip-Concat4融合,得到融合特征图feature map concat4,将所述融合特征图feature map concat123和融合特征图feature map concat4进行元素相加操作,使其融合成一张融合特征图feature map concat1234;
鱼类行为图像的特征图feature map RGBstage4由视觉特征提取阶段网络RGBstage5对视觉特征提取,视觉特征提取阶段网络RGBstage5输出特征图featuremapRGBstage5,鱼类行为声音的特征图feature map Soundstage4由声音特征提取阶段网络Soundstage5对声音特征提取,声音特征提取阶段网络Soundstage5输出特征图featuremap Soundstage5,所述特征图feature map RGBstage5和所述特征图feature mapSoundstage5由融合阶段网络Skip-Concat5融合,得到融合特征图feature map concat5,将所述融合特征图feature map concat1234和融合特征图feature map concat5进行元素相加操作,使其融合成一张融合特征图feature map concat12345。
在一种实施例中:注意力机制网络SENet通过学习特征权重,获取到每个featuremap的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,增强有效信息,抑制不相关信息,使模型达到更好的效果,计算如公式(4)-(6)所示:
S=Fex(z,W)=σ(W2δ(W1,z)) (5)
xc=Fsacle(uc,s)=siuc (6)
i,j代表鱼类行为融合特征图上的位置坐标,zn为融合特征图每一层的通道均值,Fsq()表示压缩通道的函数,H,W为特征通道的宽高,uc代表每一个特征通道,uc(i,j)表示每一层通道的特征,S为通道权重,Fex(z,W)表示求取通道权重的函数,z表示每一层的通道均值,W1和W2为全连接操作的权重,全连接之间使用激活函数δ(ReLU)来进行非线性处理,最后通过归一化函数σ(Sigmoid)来输出权重向量,σ(W2δ(W1,z))表示全连接网络层,Fsacle(uc,s)表示将通道权重赋予每一个通道的函数,si表示每一个通道的权重,并与原融合特征图对应进行乘法操作得到xc含有权重信息的融合特征图,最后进行平均池化、送入全连接整合融合特征图,再通过softmax函数进行鱼类行为的识别分类操作。
在一种实施例中:鱼类行为的图像的采集基于如下方式实现:使用摄像头实时监控鱼类行为的视觉数据,摄像头架设在高于水面1米远的养殖池旁,摄像头的另一端连接计算机存储数据,数据格式为MP4视频文件;
鱼类行为的声音的采集基于如下方式实现:使用水听器连接功率放大器,将声音信号放大并进行AD转换,通过数字式录音机将信号存储为WAV声音文件,养殖池采用直径1m、高1.2m的玻璃钢水槽进行鱼类养殖,水温15-20℃,pH值为8.0-8.5,水听器位于水面下20cm处,水听器采样频率20-20000Hz;
将三种不同规格的许氏平鲉分别放入不同的玻璃钢水槽,静置2-3天,待鱼类状态稳定后进行数据采集,需要确保室内安静无噪音,同步采集许氏平鲉摄食行为和游泳行为,每个行为样本的采集时长为120s,将采集到的声音信号和视频按照6s一段进行切分;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声;
收集不同时间段的实验数据并反复进行上述采集过程,采集许氏平鲉摄食行为声音信号样本321个,游泳行为声音信号样本491个,共计声音样本812个;视频数据进行抽帧处理,为得到视频内所有的视频帧,抽帧的time rate设为0.4,得到许氏平鲉摄食行为图片4967张,游泳行为图片7317张,共计视频样本12284张图片,训练、验证、测试集按照正负样本比例随机划分,比例为7:2:1。
有益效果:本发明首先开展多模态鱼类行为数据采集,在分析声音与视觉模态不同特征时发现特征具有互补性,并展开提出声音与视觉融合的多模态识别网络模型和方法,在此基础上为了充分挖掘模态关联信息,使各模态潜在表示交互信息最大化,提出多级融合网络,通过实验验证该方法的有效性。
附图说明
图1多级融合的U-FusionNet网络。
图2Skip-Concat模块图。
图3视觉数据合成处理图,其中(a)原图,(b)高斯噪声,(c)亮度调整。
图4声音数据合成处理图,其中(a)高斯白噪声,(b)随机白噪声。
图5单模态识别与多模态识别的对比图。
图6鱼类行为数据采集系统图。
具体实施方式
1.声音与视觉多级融合网络
声音与视觉多级融合的鱼类行为识别模型的本质是利用鱼类在游泳、摄食等行为时发出的声音信号和视觉信息,综合两者去实现鱼类行为的分类,为了精准区分鱼类的摄食和游泳行为,需要对不同模态的特征提取方法进行研究,获取它们在高维空间上的共性。然后进行鱼类行为声音和视觉融合模型的研究。
1.1多级融合U-FusionNet的鱼类行为识别模型
为了充分挖掘模态关联,使各模态潜在表示交互信息最大化,提出多级融合的U-FusionNet网络,多级融合的U-FusionNet网络的框架如图1所示。
为更好的提取鱼类行为的视觉特征和声音特征,采用深度学习模型ResNet50(Residual Neural Network,残差网络)来提取相应特征,因为ResNet50可以解决网络退化的问题,并且具有“短路”连接,可以保留原始输入信息直接传到后面的层中,更好地保证特征完整性、提高识别效果。考虑到声音信号具有差异小、特征学习难等特点,在提取高维特征前使用较强特征表达能力的MFCC(Mel-frequency cepstral coefficient,MFCC)特征系数表示鱼类行为声音特征,再送入特征提取器中获取高维特征。然后分别固定它们的卷积部分作为图像与声音的特征提取器,为获取不同感受野下的潜在模态信息,设计了U型融合架构,由编码解码模式的U型对称架构改进将特征提取不同阶段的模态特征通过跳跃连接融合(Skip-Concat)模块进行融合,因不同模态特征尺度不同,为得到尺度相同的声音与视觉特征图,通过上采样的方式统一不同模态的特征图尺度。使用Concat对不同维度特征进行融合,以增加channel的方式实现融合效果,保证了融合特征的完整性。Concat的详细过程:设有N维视觉特征,N维视觉特征与M维声音特征进行拼接操作,融合成N+M维的特征,如公式(1)-(3)所示:
N=[x1,x2,x3,...,xn] (1)
M=[y1,y2,y3,...,yn] (2)
N+M=[x1,x2,x3,...,xn,y1,y2,y3,...,yn] (3)
将融合得到N+M维特征进行1×1卷积,实现跨通道的交互和信息整合,为获取不同层级模态间的交互信息,通过下采样统一不同阶段的融合特征,element-wise add实现多尺度的特征融合,融合多个阶段信息特征。Skip-Concat模块的详细结构如图2所示。
为凝练融合信息的同时最大程度地保留局部信息,引入通道注意力机制—SENet为各个特征通道的重要程度建模,为每个通道上的信号都增加一个权重,来代表该通道与关键信息的相关度,这个权重越大,则表示相关度越高。通过通道注意力机制,增加channel之间的信息交互,选取特征明显的音频或视频特征,进一步提高融合准确性。
SENet通过学习特征权重,获取到每个feature map的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,增强有效信息,抑制不相关信息,使模型达到更好的效果,计算如公式(4)-(6)所示。
S=Fex(z,W)=σ(W2δ(W1,z)) (5)
xc=Fsacle(uc,s)=siuc (6)
其中uc代表每一个特征通道,W1和W2为全连接操作的权重,全连接之间使用激活函数δ(ReLU)来进行非线性处理,最后通过归一化函数σ(Sigmoid)来输出权重向量,并与原特征图对应进行乘法操作。最后将得到权重信息的feature map进行平均池化、送入全连接整合特征图,再通过softmax函数进行鱼类行为的识别分类操作。
2.实验及结果
2.1数据集构建
2.1.1数据采集
实验采用的数据集是在大连海洋大学鱼类行为学实验室采集完成,考虑到许氏平鲉等鱼类习惯生活在网箱底部,为了更好分析这些鱼类的行为,实验选用许氏平鲉作为实验用鱼,为了消除不同规格的鱼对实验造成的误差,选取了50g,100g,200g三种不同规格的许氏平鲉各30条。为采集不同鱼类行为的声音信号和视觉信息,需使用水下声学测量系统和视觉行为测量系统,如图6所示;水下声学测量系统对信号进行采集,利用水听器(AQH20k-1062)连接功率放大器将声音信号放大并进行AD转换,通过专业数字式录音机(Roland quad-capture UA-55)将信号存储为WAV声音文件。视觉行为测量系统对鱼类行为的视觉数据进行采集,利用摄像头(海康威视网络摄像机)实时监控鱼类行为的视觉数据。摄像头架设在高于水面1米远的养殖池旁,摄像头的另一端连接计算机来存储数据,数据格式为MP4视频文件。养殖池采用直径1m、高1.2m的玻璃钢水槽进行鱼类养殖,水温15-20℃,pH值为8.0-8.5,水听器位于水面下20cm处,水听器采样频率20-20000Hz。
将三种不同规格的许氏平鲉分别放入不同的玻璃钢水槽,静置2-3天,待鱼类状态稳定后进行数据采集,需要确保室内安静无噪音,同步采集许氏平鲉摄食行为和游泳行为,每个行为样本的采集时长为120s,将采集到的声音信号和视频按照6s一段进行切分;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声。收集不同时间段的实验数据并反复进行上述采集过程,采集许氏平鲉摄食声音信号样本321个,游泳声音信号样本491个,共计声音样本812个;视频数据进行抽帧处理,为得到视频内所有的视频帧,抽帧的time rate设为0.4,得到许氏平鲉摄食图片4967张,游泳图片7317张,共计视频样本12284张图片,训练、验证、测试集按照正负样本比例随机划分,比例为7:2:1。
2.1.2数据合成
由于多模态鱼类行为数据集是在可控的实验室条件下采集得到,在采集视觉数据和声音数据过程中并未受到过多噪声干扰,但在真实生产环境中,会出现光线昏暗、杂声过多的情况,所以为了模拟真实场景下的鱼类行为分析,将多模态鱼类行为数据集人工添加噪声,对数据进行进一步合成操作。
为模拟昏暗条件下采集到的视觉数据,通过观察发现,昏暗条件下会导致亮度变暗,且拍摄的数据会出现模糊不清等情况。经研究发现亮度调节操作可以模拟昏暗条件下采集到的图像。其次为了模拟拍摄的数据模糊不清的情况,可以采用因场景不明亮、亮度不均匀引起的传感器噪声—高斯噪声模拟数据模糊不清的情况。鉴于以上分析,将视觉数据进行亮度调节和添加高斯噪声的操作,如图3所示。
为模拟真实场景下的有噪声干扰的声音数据,通过实地调研发现,真实生产场景下氧泵、循环水系统会有较大噪声可以覆盖掉鱼类行为发出的声音,且当氧泵和循环水关闭时,也会有环境噪音与声音信号混合在一起。通过比较发现,高斯白噪声是通信中的主要噪声源,可以用来模拟真实场景下普遍存在环境噪声。随机白噪声能覆盖鱼类摄食、游泳时发出的声音,可以模拟真实生产环境中,氧泵、循环水系统带来的噪声干扰,如图4所示。
2.3实验环境
实验环境为Intel Core 17-9700CPU 3.00GHz 3.00处理器,RTX3090显卡,32GB内存,操作系统为Windows10,运行环境python 3.7,开源深度学习框架pytorch,版本为1.7.1+cu110。训练参数设置如下:学习率为0.01,Dropout为0.5,batch_size为32,epoch为50。
2.4实验方案设计
为验证所提出方法对鱼类行为的识别结果,利用召回率、F1值、准确率作为实验评价指标,设计了以下实验:(1)视觉方法的对比实验;在图像算法中,不同特征提取网络对整体网络性能有较大影响,为验证ResNet50能有效地提取鱼类行为视觉部分特征,与其他方法进行比较。比较方法包括张重阳等(张重阳,陈明,冯国富,等.基于多特征融合与机器学习的鱼类摄食行为的检测[J].湖南农业大学学报(自然科学版),2019,45(01):97-102.)和黄志涛等(黄志涛,何佳,宋协法.基于鱼体运动特征和图像纹理特征的鱼类摄食行为识别与量化[J].中国海洋大学学报(自然科学版),2022,52(01):32-41.)提出的方法。(2)声音方法的对比实验;因鱼类行为的声音信号特征差异小、特征难学习等特点,不同的提取声音特征网络对后续融合网络性能有较大影响,为验证MFCC+ResNet50的声音特征提取方法的有效性,设计了对比实验,对比方法为黄汉英等(黄汉英,杨咏文,李路,等.基于被动水声信号的淡水鱼混合比例识别[J].农业机械学报,2019,50(10):215-221.)和李路等(李路,涂群资,等.基于被动水声信号的淡水鱼种类识别[J].农业机械学报,2017,48(08):166-171.)提出的方法。(3)单模态识别与多模态识别的对比实验;为验证多模态识别效果的有效性,设计了对比实验。(4)消融实验;为验证通道注意力机制在网络中的作用,设计了消融实验。(5)模型实验;为验证U-FusionNet模型的能有效解决单模态鱼类行为识别准确率和召回率不高的问题,与其他方法进行对比,对比方法有:范习健等(范习健,杨绪兵,张礼,等.一种融合视觉和听觉信息的双模态情感识别算法[J].南京大学学报(自然科学),2021,57(02):309-317.)、Janani等(Venugopalan,J,Tong L,Hassanzadeh H R,etal.Multimodal deep learning models for early detection of Alzheimer’s diseasestage[J].Scientific Reports,2021,11(01):3254.)、Nagrani等(Nagrani A,Yang S,Arnab A,et al.Attention Bottlenecks for Multimodal Fusion[C].//NeurIPS.2021)提出的方法。
2.5实验结果分析
2.5.1视觉方法的对比实验
使用多模态鱼类行为数据集对基于视觉的特征提取方法进行比较,对比结果如表1所示。
表1视觉方法的对比Table 1Contrast visual methods
方法 | 召回率/% | F1值/% | 准确率/% |
张重阳等 | 75.32 | 67.41 | 78.66 |
黄志涛等 | 79.29 | 68.11 | 79.05 |
ResNet50 | 82.77 | 80.79 | 85.09 |
对比发现,张重阳等和黄志涛等的方法都是采用人工特征选择方法,而ResNet50则采用深度学习模型自动筛选视觉特征,由表1可以看出,使用ResNet50提取视觉特征的方法的准确率、F1值和召回率均优于其他方法。
2.4.2声音方法的对比实验
为验证声音特征提取方法的有效性,对基于频域和时域的不同特征提取方法和不同分类器的识别效果进行了比较,对比结果如表2所示。对比得出,基于MFCC和ResNet152的鱼类声音特征提取方法优于其他方法,是由于采用MFCC特征系数能更加突出地表征鱼类行为的声音信号特征,并采用ResNet的“短路”连接保留一定比例输入,接力学习,从而提高识别效果。从实验结果可推断,识别鱼类行为声音信号也可采用深度学习框架通过端到端的方式自发学习信号特征。
表2声音方法的对比Table 2Contrast ofsound methods
方法 | 召回率% | F1值% | 准确率% |
黄汉英等 | 63.17 | 70.08 | 71.59 |
李路等 | 67.05 | 71.89 | 75.13 |
MFCC+ResNet50 | 74.48 | 80.18 | 80.70 |
2.5.3单模态识别与多模态识别的对比实验
为验证多模态鱼类行为识别效果,将单模态识别效果与多模态识别效果进行对比,实验结果如图5所示,由图Accuracy曲线可以看出,依靠单一模态特征识别鱼类行为没有得到较好的效果,基于多模态融合的鱼类行为识别可以充分挖掘模态关联信息,使各模态潜在表示交互信息最大化,使得多模态网络的分类效果优于其他两个单模态的分类效果。
2.5.4消融实验
为验证通道注意力机制—SENet在网络中的作用,分别在有注意力机制的多模态鱼类行为识别方法和无注意力机制的多模态鱼类行为识别方法进行实验,实验结果如表3所示。
表3消融实验
Table 3 Ablation experiments
方法 | 召回率/% | F1值/% | 准确率/% |
U-FusionNet | 81.65 | 89.90 | 89.07 |
U-FusionNet-SENet | 92.56 | 89.12 | 90.78 |
对比得出,SENet的加入为网络提升了1.71%的准确率,10.91%的召回率,这是因为SENet在凝练融合信息的同时保留了局部信息,并且增强了有效信息,抑制了不相关信息。说明了通道注意力机制有效地提升了鱼类行为识别的整体效果。
2.5.5模型实验
为验证所提出网络模型的有效性,对不同多模态融合方法和网络模型进行对比,对比结果如表4所示。
表4模型实验
Table 4 model experiment
方法 | 召回率/% | F1值/% | 准确率/% |
范习健等 | 67.15 | 80.18 | 70.70 |
Janani等 | 91.41 | 83.92 | 89.38 |
Nagrani等 | 75.64 | 86.78 | 85.49 |
U-FusionNet | 92.56 | 89.12 | 90.78 |
对比得出,所提出网络与效果较好Janani等提出的方法相比,召回率提升了1.15%,F1值提升5.20%,准确率提升了1.40%,范习健等提出的情感识别方法采用不同模态特征拼接的融合方法,并未深层次地挖掘模态间的潜在信息,所以在识别鱼类行为时效果不够理想;Janani等提出的识别潜在阿尔兹海默症方法,重点在识别视觉图像上的特征,所以在融合声音特征时,效果不理想。Nagrani等提出的使用“融合瓶颈”进行多层模态融合的方法,未充分发挥模态间的互补性,因此在鱼类行为识别数据集上的效果不显著。所提模型在不同阶段融合特征,并将融合特征相加,更充分地挖掘模态间的关联信息,使模态特征互为关联互为补充,因此所提出的多级融合U-FusionNet网络可以有效识别鱼类的游泳、摄食等行为。
综上所述,从实验结果可以看出,本研究所提出的方法对实验室采集的许氏平鲉游泳、摄食行为识别精度可达90.78%,表明了该识别方法是一种自动化、高准确度的鱼类行为识别方法。但由于实验室采集数据量不够大,未能包含真实水产养殖环境下所有的样本信息,需要进一步扩大样本数量以及样本多样性,使其能在未来应用于真实水产养殖环境下的鱼类行为识别。
3.结论
为了解决单模态鱼类行为识别准确率和召回率不高的问题,提出声音与视觉多级融合的U-FusionNet网络,U-FusionNet改进了编码解码模式的U型对称架构,同时引入SENet构成关注通道信息的特征融合网络,基于这些改进,U-FusionNet对鱼类行为的识别效果有较大的提升,较传统的单模态方法识别效果更加精准。为今后的鱼类行为分析工作提供了一种新的解决方法,但本工作依然有改进空间,首先实验室采集数据量不够大,数据集大小有待扩充;此外数据集内未能包含真实水产养殖环境下所有的样本信息,需要进一步扩大样本数量以及样本多样性,使其能在未来应用于真实水产养殖环境。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (7)
1.一种声音与视觉多级融合的鱼类行为识别方法,其特征在于,应用于声音与视觉多级融合的鱼类行为识别网络模型,所述网络模型包括视觉特征提取网络、声音特征提取网络、跳跃连接融合网络、注意力机制网络、全连接层和softmax层;
所述方法包括:
所述视觉特征提取网络响应于鱼类行为的图像对鱼类行为的视觉特征提取,所述视觉特征提取网络包括若干视觉特征提取阶段网络;
所述声音特征提取网络响应于鱼类行为的声音对鱼类行为的声音特征提取,所述声音特征提取网络包括若干声音特征提取阶段网络;
所述跳跃连接融合网络包括若干融合阶段网络,对应阶段的融合阶段网络将对应阶段的视觉特征提取阶段网络和声音特征提取阶段网络的输出特征图融合得到融合特征图;
所述注意力机制网络通过学习特征权重,获取每个融合特征图的重要程度,根据所述重要程度对每一个特征通道赋予一个权重,通过归一化函数输出融合特征图的权重向量,并将所述权重向量与对应融合特征图进行乘法操作,得到具有权重信息的融合特征图,并对其进行平均池化,再送入全连接层;
所述全连接层的全连接之间使用激活函数对送入全连接层的融合特征图进行非线性处理,再对融合特征图进行降维处理,整合融合特征图的信息;
所述softmax层用于根据全连接层整合的融合特征图的信息进行鱼类行为的识别分类操作。
2.根据权利要求1所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,
视觉特征提取网络包括Resnet50网络,视觉特征提取网络的Resnet50网络包括:视觉特征提取阶段网络RGBstage1,视觉特征提取阶段网络RGBstage2,视觉特征提取阶段网络RGBstage3,视觉特征提取阶段网络RGBstage4,视觉特征提取阶段网络RGBstage5;
声音特征提取网络包括Resnet50网络,声音特征提取网络的的Resnet50网络包括:声音特征提取阶段网络Soundstage1,声音特征提取阶段网络Soundstage2,声音特征提取阶段网络Soundstage3,声音特征提取阶段网络Soundstage4,声音特征提取阶段网络Soundstage5;
跳跃连接融合网络包括融合阶段网络Skip-Concat1,融合阶段网络Skip-Concat2,融合阶段网络Skip-Concat3,融合阶段网络Skip-Concat4,融合阶段网络Skip-Concat5。
3.根据权利要求2所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,鱼类行为的声音信号经过MFCC变换,使用MFCC系数表示鱼类行为声音特征。
4.根据权利要求3所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,所述跳跃连接融合网络的融合阶段网络Skip-Concat,由Up-sample、Concat、1×1卷积、Down-sample、element-wise add组成;所述Up-sample,用于统一不同模态的特征图尺度,得到尺度相同的声音与视觉特征图;所述Concat,用于对不同维度特征进行融合;所述1×1卷积,用于将融合得到N+M维特征进行卷积,用于特征跨通道的交互和信息整合,获取不同层级模态间的交互信息;所述Down-sample,用于统一不同阶段的融合特征;所述element-wiseadd,用于实现多尺度的特征融合,融合多个阶段信息特征;
其中:所述Concat基于如下方式实现:设有N维鱼类行为视觉特征,M维鱼类行为声音特征,N维视觉特征与M维声音特征进行拼接操作,融合成N+M维的特征,如公式(1)-(3)所示:
N=[x1,x2,x3,...,xn] (1)
M=[y1,y2,y3,...,yn] (2)
N+M=[x1,x2,x3,...,xn,y1,y2,y3,...,yn] (3)
x表示鱼类行为视觉特征样本,y表示鱼类行为声音特征样本,n表示第n个特征样本。
5.根据权利要求4所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,
鱼类行为的图像由视觉特征提取阶段网络RGBstage1对视觉特征提取,视觉特征提取阶段网络RGBstage1输出特征图feature map RGBstage1,鱼类行为的声音由声音特征提取阶段网络Soundstage1对声音特征提取,声音特征提取阶段网络Soundstage1输出特征图feature map Soundstage1,所述特征图feature map RGBstage1和所述特征图featuremap Soundstage1由融合阶段网络Skip-Concat1融合,得到融合特征图feature mapconcat1;
鱼类行为图像的特征图feature map RGBstage1由视觉特征提取阶段网络RGBstage2对视觉特征提取,视觉特征提取阶段网络RGBstage2输出特征图feature map RGBstage2,鱼类行为声音的特征图feature map Soundstage1由声音特征提取阶段网络Soundstage2对声音特征提取,声音特征提取阶段网络Soundstage2输出特征图feature mapSoundstage2,所述特征图feature map RGBstage2和所述特征图feature mapSoundstage2由融合阶段网络Skip-Concat2融合,得到融合特征图feature map concat2,将所述融合特征图feature map concat1和融合特征图feature map concat2进行元素相加操作,使其融合成一张融合特征图feature map concat12;
鱼类行为图像的特征图feature map RGBstage2由视觉特征提取阶段网络RGBstage3对视觉特征提取,视觉特征提取阶段网络RGBstage3输出特征图feature map RGBstage3,鱼类行为声音的特征图feature map Soundstage2由声音特征提取阶段网络Soundstage3对声音特征提取,声音特征提取阶段网络Soundstage3输出特征图feature mapSoundstage3,所述特征图feature map RGBstage3和所述特征图feature mapSoundstage3由融合阶段网络Skip-Concat3融合,得到融合特征图feature map concat3,将所述融合特征图feature map concat12和融合特征图feature map concat3进行元素相加操作,使其融合成一张融合特征图feature map concat123;
鱼类行为图像的特征图feature map RGBstage3由视觉特征提取阶段网络RGBstage4对视觉特征提取,视觉特征提取阶段网络RGBstage4输出特征图feature map RGBstage4,鱼类行为声音的特征图feature map Soundstage3由声音特征提取阶段网络Soundstage4对声音特征提取,声音特征提取阶段网络Soundstage4输出特征图feature mapSoundstage4,所述特征图feature map RGBstage4和所述特征图feature mapSoundstage4由融合阶段网络Skip-Concat4融合,得到融合特征图feature map concat4,将所述融合特征图feature map concat123和融合特征图feature map concat4进行元素相加操作,使其融合成一张融合特征图feature map concat1234;
鱼类行为图像的特征图feature map RGBstage4由视觉特征提取阶段网络RGBstage5对视觉特征提取,视觉特征提取阶段网络RGBstage5输出特征图feature map RGBstage5,鱼类行为声音的特征图feature map Soundstage4由声音特征提取阶段网络Soundstage5对声音特征提取,声音特征提取阶段网络Soundstage5输出特征图feature mapSoundstage5,所述特征图feature map RGBstage5和所述特征图feature mapSoundstage5由融合阶段网络Skip-Concat5融合,得到融合特征图feature map concat5,将所述融合特征图feature map concat1234和融合特征图feature map concat5进行元素相加操作,使其融合成一张融合特征图feature map concat12345。
6.根据权利要求5所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,
注意力机制网络SENet通过学习特征权重,获取到每个feature map的重要程度,然后用这个重要程度去给每一个特征通道赋予一个权重值,增强有效信息,抑制不相关信息,使模型达到更好的效果,计算如公式(4)-(6)所示:
S=Fex(z,W)=σ(W2δ(W1,z)) (5)
xc=Fsacle(uc,s)=siuc (6)
i,j代表鱼类行为融合特征图上的位置坐标,zn为融合特征图每一层的通道均值,Fsq()表示压缩通道的函数,H,W为特征通道的宽高,uc代表每一个特征通道,uc(i,j)表示每一层通道的特征,S为通道权重,Fex(z,W)表示求取通道权重的函数,z表示每一层的通道均值,W1和W2为全连接操作的权重,全连接之间使用激活函数δ(ReLU)来进行非线性处理,最后通过归一化函数σ(Sigmoid)来输出权重向量,σ(W2δ(W1,z))表示全连接网络层,Fsacle(uc,s)表示将通道权重赋予每一个通道的函数,si表示每一个通道的权重,并与原融合特征图对应进行乘法操作得到xc含有权重信息的融合特征图,最后进行平均池化、送入全连接整合融合特征图,再通过softmax函数进行鱼类行为的识别分类操作。
7.根据权利要求6所述的声音与视觉多级融合的鱼类行为识别方法,其特征在于,
鱼类行为的图像的采集基于如下方式实现:使用摄像头实时监控鱼类行为的视觉数据,摄像头架设在高于水面1米远的养殖池旁,摄像头的另一端连接计算机存储数据,数据格式为MP4视频文件;
鱼类行为的声音的采集基于如下方式实现:使用水听器连接功率放大器,将声音信号放大并进行AD转换,通过数字式录音机将信号存储为WAV声音文件,养殖池采用直径1m、高1.2m的玻璃钢水槽进行鱼类养殖,水温15-20℃,pH值为8.0-8.5,水听器位于水面下20cm处,水听器采样频率20-20000Hz;
将三种不同规格的许氏平鲉分别放入不同的玻璃钢水槽,静置2-3天,待鱼类状态稳定后进行数据采集,需要确保室内安静无噪音,同步采集许氏平鲉摄食行为和游泳行为,每个行为样本的采集时长为120s,将采集到的声音信号和视频按照6s一段进行切分;另设一组噪声对照组同步采集背景噪声,以便获取环境噪声;
收集不同时间段的实验数据并反复进行上述采集过程,采集许氏平鲉摄食行为声音信号样本321个,游泳行为声音信号样本491个,共计声音样本812个;视频数据进行抽帧处理,为得到视频内所有的视频帧,抽帧的time rate设为0.4,得到许氏平鲉摄食行为图片4967张,游泳行为图片7317张,共计视频样本12284张图片,训练、验证、测试集按照正负样本比例随机划分,比例为7:2:1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210880013.7A CN115170942B (zh) | 2022-07-25 | 2022-07-25 | 一种声音与视觉多级融合的鱼类行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210880013.7A CN115170942B (zh) | 2022-07-25 | 2022-07-25 | 一种声音与视觉多级融合的鱼类行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115170942A CN115170942A (zh) | 2022-10-11 |
CN115170942B true CN115170942B (zh) | 2023-10-17 |
Family
ID=83496605
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210880013.7A Active CN115170942B (zh) | 2022-07-25 | 2022-07-25 | 一种声音与视觉多级融合的鱼类行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115170942B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052064B (zh) * | 2023-04-03 | 2023-06-27 | 北京市农林科学院智能装备技术研究中心 | 鱼群摄食强度识别方法、装置、电子设备及投饵机 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3316220A1 (en) * | 2016-10-26 | 2018-05-02 | Balfegó & Balfegó S.L. | Method for determining tuna biomass in a water zone and corresponding system |
CN108492323A (zh) * | 2018-01-18 | 2018-09-04 | 天津大学 | 融合机器视觉与听觉的水下运动物体检测与识别方法 |
KR101970303B1 (ko) * | 2018-07-31 | 2019-04-19 | 대한민국 | 어군탐지기에서의 수심별 어류유영패턴 분석을 통한 사료 자동 공급방법 |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
CN111401308A (zh) * | 2020-04-08 | 2020-07-10 | 蚌埠学院 | 一种基于光流效应的鱼类行为视频识别方法 |
CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
CN114463675A (zh) * | 2022-01-11 | 2022-05-10 | 北京市农林科学院信息技术研究中心 | 一种水下鱼类群组活动强度识别方法及装置 |
CN114724022A (zh) * | 2022-03-04 | 2022-07-08 | 大连海洋大学 | 融合SKNet与YOLOv5的养殖鱼群检测方法、系统和介质 |
-
2022
- 2022-07-25 CN CN202210880013.7A patent/CN115170942B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3316220A1 (en) * | 2016-10-26 | 2018-05-02 | Balfegó & Balfegó S.L. | Method for determining tuna biomass in a water zone and corresponding system |
CN108492323A (zh) * | 2018-01-18 | 2018-09-04 | 天津大学 | 融合机器视觉与听觉的水下运动物体检测与识别方法 |
KR101970303B1 (ko) * | 2018-07-31 | 2019-04-19 | 대한민국 | 어군탐지기에서의 수심별 어류유영패턴 분석을 통한 사료 자동 공급방법 |
CN111209952A (zh) * | 2020-01-03 | 2020-05-29 | 西安工业大学 | 基于改进ssd和迁移学习的水下目标检测方法 |
CN111401308A (zh) * | 2020-04-08 | 2020-07-10 | 蚌埠学院 | 一种基于光流效应的鱼类行为视频识别方法 |
CN113537106A (zh) * | 2021-07-23 | 2021-10-22 | 仲恺农业工程学院 | 一种基于YOLOv5的鱼类摄食行为识别方法 |
CN114463675A (zh) * | 2022-01-11 | 2022-05-10 | 北京市农林科学院信息技术研究中心 | 一种水下鱼类群组活动强度识别方法及装置 |
CN114724022A (zh) * | 2022-03-04 | 2022-07-08 | 大连海洋大学 | 融合SKNet与YOLOv5的养殖鱼群检测方法、系统和介质 |
Non-Patent Citations (2)
Title |
---|
Underwater Image Based Fish Detection and Recognition Using Deep Learning Algorithm;M.Dalvin Marno Putra;硕士电子期刊(第1期);全文 * |
运用超声波标志法分析水槽养殖条件下大黄鱼行为特性;宋炜等;水产学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115170942A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN115878832B (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN115170942B (zh) | 一种声音与视觉多级融合的鱼类行为识别方法 | |
Xu et al. | Real-time object detection method of melon leaf diseases under complex background in greenhouse | |
CN115830436A (zh) | 一种基于深度学习的海洋生物智能检测方法 | |
CN115713715A (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
WO2021179198A1 (zh) | 图像特征可视化方法、图像特征可视化装置及电子设备 | |
CN112989932A (zh) | 基于改进原型网络的少样本森林火灾烟雾识别方法及装置 | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
Zhao et al. | Cross-modal knowledge distillation for fine-grained one-shot classification | |
CN115620050A (zh) | 一种基于气候室环境下改进的YOLOv5蚜虫识别计数方法 | |
CN115240647A (zh) | 声音事件检测方法、装置、电子设备及存储介质 | |
CN114566184A (zh) | 音频识别方法及相关装置 | |
CN114241376A (zh) | 行为识别模型训练和行为识别方法、装置、系统及介质 | |
CN114283301A (zh) | 一种基于Transformer的自适应医学影像分类方法及系统 | |
CN115700880A (zh) | 一种行为监测方法、装置、电子设备及存储介质 | |
CN110555342B (zh) | 一种图像识别方法、装置和图像设备 | |
Stanski et al. | Flower detection using object analysis: new ways to quantify plant phenology in a warming tundra biome | |
Duc | Development of artificial intelligence methods for marine mammal detection and classification of underwater sounds in a weak supervision (but) Big Data-Expert context | |
CN113793602B (zh) | 一种未成年人的音频识别方法和系统 | |
CN112861798B (zh) | 基于生理信号的分类识别方法、介质及电子设备 | |
CN114863939B (zh) | 一种基于声音的大熊猫属性识别方法及系统 | |
Suryavanshi et al. | FishNet: A Hybrid Deep Learning and Machine Learning Framework for Precise Fish Species Identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |