CN115170942B

CN115170942B - 一种声音与视觉多级融合的鱼类行为识别方法

Info

Publication number: CN115170942B
Application number: CN202210880013.7A
Authority: CN
Inventors: 于红; 胥婧雯; 张鹏; 谷立帅; 李海清; 郑国伟; 殷雷明
Original assignee: Dalian Ocean University
Current assignee: Dalian Ocean University
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2023-10-17
Anticipated expiration: 2042-07-25
Also published as: CN115170942A

Abstract

一种声音与视觉多级融合的鱼类行为识别方法，属于机器学习领域，解决依靠单一模态特征识别鱼类行为往往难以得到较好的效果的问题，要点是所述跳跃连接融合网络包括若干融合阶段网络，对应阶段的融合阶段网络将对应阶段的视觉特征提取阶段网络和声音特征提取阶段网络的输出特征图融合得到融合特征图，效果是充分挖掘模态关联信息，使各模态潜在表示交互信息最大化。

Description

一种声音与视觉多级融合的鱼类行为识别方法

技术领域

本发明属于机器学习领域，涉及一种声音与视觉多级融合的鱼类行为识别方法

背景技术

鱼类行为是鱼类对环境变化的外在反应，它可以反应鱼类的日常状态和生长情况，是养殖技术人员判断鱼类健康状况的重要依据。鱼类游泳、摄食等行为的自动识别是鱼类活动规律和生活习性研究的基础，是精准投喂、智慧养殖等研究的支撑。

目前鱼类行为识别研究大多采用基于计算机视觉的方法，张重阳等用多特征融合与机器学习相结合的方法识别鱼类摄食行为，有效地增强了识别网络的鲁棒性；黄志涛等用鱼体运动特征和图像纹理特征识别大西洋鲑的摄食活动，能有效提高识别的精确度。但真实生产条件下光线昏暗导致基于计算机视觉的方法无法准确识别鱼类行为，进而导致识别准确率和召回率不高。考虑到声音信号不受光线的影响，学者们对基于被动水声信号的鱼类分类和行为分析进行了研究，黄汉英等建立基于主成分分析的支持向量机实现了淡水鱼混合比例识别，提升了混合比例识别的准确率；李路等采用概率神经网络分类器实现淡水鱼种类的快速识别，将深度学习引进了被动声学的检测技术中，能自动高效识别淡水鱼种类。研究表明鱼类的摄食和游泳行为拥有不同的声音特征；但真实养殖环境下存在各种噪声干扰了对鱼类行为声音特征的提取效果，导致采用基于被动声学方法识别鱼类行为的准确率和召回率也难以满足需求。通过观察人类在复杂条件下进行目标识别时，大脑会利用听觉和视觉的互补性，综合两个模态信息进行预测，两种模态互为补充互为强化，弥补了单一模态预测的不足，提升目标识别的准确性。因此提出一种基于声音与视觉融合的鱼类行为识别方法。

在多模态融合研究中已证明多个模态信息的共同协作、交互能得到关联信息，为各领域的信息服务提供支撑。从技术上讲，多模态融合是将来自多种模态的信息集成在一起，目的是通过分类方法来预测一个类。范习健等提出一种融合听觉模态和视觉模态信息的双模态情感识别方法，利用卷积神经网络和长短期记忆循环神经网络对融合后的听觉视觉双模态特征进行情感识别。Janani等利用深度学习结合成像、电子健康记录和基因组数据判断是否有潜在的阿尔兹海默症，使用不同的融合策略融合数据，证明深度融合策略优于浅层融合策略。Nagrani等提出一种基于Transformer模型的方法，使用“融合瓶颈”进行多层模态融合，提高了视听融合的性能，降低了计算成本。上述研究表明，多模态融合在各领域得到广泛应用并取得丰硕研究成果。但在鱼类行为识别领域中，未考虑到鱼类在摄食、游泳时声音信号特征差异小，特征难学习的特点，所以不能直接使用上述方法进行识别。

发明内容

鉴于以上分析，依靠单一模态特征识别鱼类行为往往难以得到较好的效果，因此本发明提出一种声音与视觉多级融合的鱼类行为识别方法，应用于声音与视觉多级融合的鱼类行为识别网络模型，所述网络模型包括视觉特征提取网络、声音特征提取网络、跳跃连接融合网络、注意力机制网络、全连接层和softmax层；

所述方法包括：

所述视觉特征提取网络响应于鱼类行为的图像对鱼类行为的视觉特征提取，所述视觉特征提取网络包括若干视觉特征提取阶段网络；

所述声音特征提取网络响应于鱼类行为的声音对鱼类行为的声音特征提取，所述声音特征提取网络包括若干声音特征提取阶段网络；

所述跳跃连接融合网络包括若干融合阶段网络，对应阶段的融合阶段网络将对应阶段的视觉特征提取阶段网络和声音特征提取阶段网络的输出特征图融合得到融合特征图；

所述注意力机制网络通过学习特征权重，获取每个融合特征图的重要程度，根据所述重要程度对每一个特征通道赋予一个权重，通过归一化函数输出融合特征图的权重向量，并将所述权重向量与对应融合特征图进行乘法操作，得到具有权重信息的融合特征图，并对其进行平均池化，再送入全连接层；

所述全连接层的全连接之间使用激活函数对送入全连接层的融合特征图进行非线性处理，再对融合特征图进行降维处理，整合融合特征图的信息；

所述softmax层用于根据全连接层整合的融合特征图的信息进行鱼类行为的识别分类操作。

在一种实施例中：视觉特征提取网络包括Resnet50网络，视觉特征提取网络的Resnet50网络包括：视觉特征提取阶段网络RGBstage1，视觉特征提取阶段网络RGBstage2，视觉特征提取阶段网络RGBstage3，视觉特征提取阶段网络RGBstage4，视觉特征提取阶段网络RGBstage5；

声音特征提取网络包括Resnet50网络，声音特征提取网络的的Resnet50网络包括：声音特征提取阶段网络Soundstage1，声音特征提取阶段网络Soundstage2，声音特征提取阶段网络Soundstage3，声音特征提取阶段网络Soundstage4，声音特征提取阶段网络Soundstage5；

跳跃连接融合网络包括融合阶段网络Skip-Concat1，融合阶段网络Skip-Concat2，融合阶段网络Skip-Concat3，融合阶段网络Skip-Concat4，融合阶段网络Skip-Concat5。

在一种实施例中：鱼类行为的声音信号经过MFCC变换，使用MFCC系数表示鱼类行为声音特征。

在一种实施例中：所述跳跃连接融合网络的融合阶段网络Skip-Concat，由Up-sample、Concat、1×1卷积、Down-sample、element-wise add组成；所述Up-sample，用于统一不同模态的特征图尺度，得到尺度相同的声音与视觉特征图；所述Concat，用于对不同维度特征进行融合；所述1×1卷积，用于将融合得到N+M维特征进行卷积，用于特征跨通道的交互和信息整合，获取不同层级模态间的交互信息；所述Down-sample，用于统一不同阶段的融合特征；所述element-wise add，用于实现多尺度的特征融合，融合多个阶段信息特征；

其中：所述Concat基于如下方式实现：设有N维鱼类行为视觉特征，M维鱼类行为声音特征，N维视觉特征与M维声音特征进行拼接操作，融合成N+M维的特征，如公式(1)-(3)所示：

N＝[x₁,x₂,x₃,...,x_n] (1)

M＝[y₁,y₂,y₃,...,y_n] (2)

N+M＝[x₁,x₂,x₃,...,x_n,y₁,y₂,y₃,...,y_n] (3)

x表示鱼类行为视觉特征样本，y表示鱼类行为声音特征样本，n表示第n个特征样本。

在一种实施例中：鱼类行为的图像由视觉特征提取阶段网络RGBstage1对视觉特征提取，视觉特征提取阶段网络RGBstage1输出特征图feature map RGBstage1，鱼类行为的声音由声音特征提取阶段网络Soundstage1对声音特征提取，声音特征提取阶段网络Soundstage1输出特征图feature map Soundstage1，所述特征图feature map RGBstage1和所述特征图feature map Soundstage1由融合阶段网络Skip-Concat1融合，得到融合特征图feature map concat1；

鱼类行为图像的特征图feature map RGBstage1由视觉特征提取阶段网络RGBstage2对视觉特征提取，视觉特征提取阶段网络RGBstage2输出特征图featuremapRGBstage2，鱼类行为声音的特征图feature map Soundstage1由声音特征提取阶段网络Soundstage2对声音特征提取，声音特征提取阶段网络Soundstage2输出特征图featuremap Soundstage2，所述特征图feature map RGBstage2和所述特征图feature mapSoundstage2由融合阶段网络Skip-Concat2融合，得到融合特征图feature map concat2，将所述融合特征图feature map concat1和融合特征图feature map concat2进行元素相加操作，使其融合成一张融合特征图feature map concat12。

鱼类行为图像的特征图feature map RGBstage2由视觉特征提取阶段网络RGBstage3对视觉特征提取，视觉特征提取阶段网络RGBstage3输出特征图featuremapRGBstage3，鱼类行为声音的特征图feature map Soundstage2由声音特征提取阶段网络Soundstage3对声音特征提取，声音特征提取阶段网络Soundstage3输出特征图featuremap Soundstage3，所述特征图feature map RGBstage3和所述特征图feature mapSoundstage3由融合阶段网络Skip-Concat3融合，得到融合特征图feature map concat3，将所述融合特征图feature map concat12和融合特征图feature map concat3进行元素相加操作，使其融合成一张融合特征图feature map concat123；

鱼类行为图像的特征图feature map RGBstage3由视觉特征提取阶段网络RGBstage4对视觉特征提取，视觉特征提取阶段网络RGBstage4输出特征图featuremapRGBstage4，鱼类行为声音的特征图feature map Soundstage3由声音特征提取阶段网络Soundstage4对声音特征提取，声音特征提取阶段网络Soundstage4输出特征图featuremap Soundstage4，所述特征图feature map RGBstage4和所述特征图feature mapSoundstage4由融合阶段网络Skip-Concat4融合，得到融合特征图feature map concat4，将所述融合特征图feature map concat123和融合特征图feature map concat4进行元素相加操作，使其融合成一张融合特征图feature map concat1234；

鱼类行为图像的特征图feature map RGBstage4由视觉特征提取阶段网络RGBstage5对视觉特征提取，视觉特征提取阶段网络RGBstage5输出特征图featuremapRGBstage5，鱼类行为声音的特征图feature map Soundstage4由声音特征提取阶段网络Soundstage5对声音特征提取，声音特征提取阶段网络Soundstage5输出特征图featuremap Soundstage5，所述特征图feature map RGBstage5和所述特征图feature mapSoundstage5由融合阶段网络Skip-Concat5融合，得到融合特征图feature map concat5，将所述融合特征图feature map concat1234和融合特征图feature map concat5进行元素相加操作，使其融合成一张融合特征图feature map concat12345。

在一种实施例中：注意力机制网络SENet通过学习特征权重，获取到每个featuremap的重要程度，然后用这个重要程度去给每一个特征通道赋予一个权重值，增强有效信息，抑制不相关信息，使模型达到更好的效果，计算如公式(4)-(6)所示：

S＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (5)

x_c＝F_sacle(u_c,s)＝s_iu_c (6)

i，j代表鱼类行为融合特征图上的位置坐标，z_n为融合特征图每一层的通道均值，F_sq()表示压缩通道的函数，H,W为特征通道的宽高，u_c代表每一个特征通道，u_c(i,j)表示每一层通道的特征，S为通道权重，F_ex(z,W)表示求取通道权重的函数，z表示每一层的通道均值，W₁和W₂为全连接操作的权重，全连接之间使用激活函数δ(ReLU)来进行非线性处理，最后通过归一化函数σ(Sigmoid)来输出权重向量，σ(W₂δ(W₁,z))表示全连接网络层，F_sacle(u_c,s)表示将通道权重赋予每一个通道的函数，s_i表示每一个通道的权重，并与原融合特征图对应进行乘法操作得到x_c含有权重信息的融合特征图，最后进行平均池化、送入全连接整合融合特征图，再通过softmax函数进行鱼类行为的识别分类操作。

在一种实施例中：鱼类行为的图像的采集基于如下方式实现：使用摄像头实时监控鱼类行为的视觉数据，摄像头架设在高于水面1米远的养殖池旁，摄像头的另一端连接计算机存储数据，数据格式为MP4视频文件；

鱼类行为的声音的采集基于如下方式实现：使用水听器连接功率放大器，将声音信号放大并进行AD转换，通过数字式录音机将信号存储为WAV声音文件，养殖池采用直径1m、高1.2m的玻璃钢水槽进行鱼类养殖，水温15-20℃，pH值为8.0-8.5，水听器位于水面下20cm处，水听器采样频率20-20000Hz；

将三种不同规格的许氏平鲉分别放入不同的玻璃钢水槽，静置2-3天，待鱼类状态稳定后进行数据采集，需要确保室内安静无噪音，同步采集许氏平鲉摄食行为和游泳行为，每个行为样本的采集时长为120s，将采集到的声音信号和视频按照6s一段进行切分；另设一组噪声对照组同步采集背景噪声，以便获取环境噪声；

收集不同时间段的实验数据并反复进行上述采集过程，采集许氏平鲉摄食行为声音信号样本321个，游泳行为声音信号样本491个，共计声音样本812个；视频数据进行抽帧处理，为得到视频内所有的视频帧，抽帧的time rate设为0.4，得到许氏平鲉摄食行为图片4967张，游泳行为图片7317张，共计视频样本12284张图片，训练、验证、测试集按照正负样本比例随机划分，比例为7:2:1。

有益效果：本发明首先开展多模态鱼类行为数据采集，在分析声音与视觉模态不同特征时发现特征具有互补性，并展开提出声音与视觉融合的多模态识别网络模型和方法，在此基础上为了充分挖掘模态关联信息，使各模态潜在表示交互信息最大化，提出多级融合网络，通过实验验证该方法的有效性。

附图说明

图1多级融合的U-FusionNet网络。

图2Skip-Concat模块图。

图3视觉数据合成处理图，其中(a)原图，(b)高斯噪声，(c)亮度调整。

图4声音数据合成处理图，其中(a)高斯白噪声，(b)随机白噪声。

图5单模态识别与多模态识别的对比图。

图6鱼类行为数据采集系统图。

具体实施方式

1.声音与视觉多级融合网络

声音与视觉多级融合的鱼类行为识别模型的本质是利用鱼类在游泳、摄食等行为时发出的声音信号和视觉信息，综合两者去实现鱼类行为的分类，为了精准区分鱼类的摄食和游泳行为，需要对不同模态的特征提取方法进行研究，获取它们在高维空间上的共性。然后进行鱼类行为声音和视觉融合模型的研究。

1.1多级融合U-FusionNet的鱼类行为识别模型

为了充分挖掘模态关联，使各模态潜在表示交互信息最大化，提出多级融合的U-FusionNet网络，多级融合的U-FusionNet网络的框架如图1所示。

为更好的提取鱼类行为的视觉特征和声音特征，采用深度学习模型ResNet50(Residual Neural Network，残差网络)来提取相应特征，因为ResNet50可以解决网络退化的问题，并且具有“短路”连接，可以保留原始输入信息直接传到后面的层中，更好地保证特征完整性、提高识别效果。考虑到声音信号具有差异小、特征学习难等特点，在提取高维特征前使用较强特征表达能力的MFCC(Mel-frequency cepstral coefficient，MFCC)特征系数表示鱼类行为声音特征，再送入特征提取器中获取高维特征。然后分别固定它们的卷积部分作为图像与声音的特征提取器，为获取不同感受野下的潜在模态信息，设计了U型融合架构,由编码解码模式的U型对称架构改进将特征提取不同阶段的模态特征通过跳跃连接融合(Skip-Concat)模块进行融合，因不同模态特征尺度不同，为得到尺度相同的声音与视觉特征图，通过上采样的方式统一不同模态的特征图尺度。使用Concat对不同维度特征进行融合，以增加channel的方式实现融合效果，保证了融合特征的完整性。Concat的详细过程：设有N维视觉特征，N维视觉特征与M维声音特征进行拼接操作，融合成N+M维的特征，如公式(1)-(3)所示：

N＝[x₁,x₂,x₃,...,x_n] (1)

M＝[y₁,y₂,y₃,...,y_n] (2)

N+M＝[x₁,x₂,x₃,...,x_n,y₁,y₂,y₃,...,y_n] (3)

将融合得到N+M维特征进行1×1卷积，实现跨通道的交互和信息整合，为获取不同层级模态间的交互信息，通过下采样统一不同阶段的融合特征，element-wise add实现多尺度的特征融合，融合多个阶段信息特征。Skip-Concat模块的详细结构如图2所示。

为凝练融合信息的同时最大程度地保留局部信息，引入通道注意力机制—SENet为各个特征通道的重要程度建模，为每个通道上的信号都增加一个权重，来代表该通道与关键信息的相关度，这个权重越大，则表示相关度越高。通过通道注意力机制，增加channel之间的信息交互，选取特征明显的音频或视频特征，进一步提高融合准确性。

SENet通过学习特征权重，获取到每个feature map的重要程度，然后用这个重要程度去给每一个特征通道赋予一个权重值，增强有效信息，抑制不相关信息，使模型达到更好的效果，计算如公式(4)-(6)所示。

S＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (5)

x_c＝F_sacle(u_c,s)＝s_iu_c (6)

其中u_c代表每一个特征通道，W₁和W₂为全连接操作的权重，全连接之间使用激活函数δ(ReLU)来进行非线性处理，最后通过归一化函数σ(Sigmoid)来输出权重向量，并与原特征图对应进行乘法操作。最后将得到权重信息的feature map进行平均池化、送入全连接整合特征图，再通过softmax函数进行鱼类行为的识别分类操作。

2.实验及结果

2.1数据集构建

2.1.1数据采集

实验采用的数据集是在大连海洋大学鱼类行为学实验室采集完成，考虑到许氏平鲉等鱼类习惯生活在网箱底部，为了更好分析这些鱼类的行为，实验选用许氏平鲉作为实验用鱼，为了消除不同规格的鱼对实验造成的误差，选取了50g，100g，200g三种不同规格的许氏平鲉各30条。为采集不同鱼类行为的声音信号和视觉信息，需使用水下声学测量系统和视觉行为测量系统，如图6所示；水下声学测量系统对信号进行采集，利用水听器(AQH20k-1062)连接功率放大器将声音信号放大并进行AD转换，通过专业数字式录音机(Roland quad-capture UA-55)将信号存储为WAV声音文件。视觉行为测量系统对鱼类行为的视觉数据进行采集，利用摄像头(海康威视网络摄像机)实时监控鱼类行为的视觉数据。摄像头架设在高于水面1米远的养殖池旁，摄像头的另一端连接计算机来存储数据，数据格式为MP4视频文件。养殖池采用直径1m、高1.2m的玻璃钢水槽进行鱼类养殖，水温15-20℃，pH值为8.0-8.5，水听器位于水面下20cm处，水听器采样频率20-20000Hz。

将三种不同规格的许氏平鲉分别放入不同的玻璃钢水槽，静置2-3天，待鱼类状态稳定后进行数据采集，需要确保室内安静无噪音，同步采集许氏平鲉摄食行为和游泳行为，每个行为样本的采集时长为120s，将采集到的声音信号和视频按照6s一段进行切分；另设一组噪声对照组同步采集背景噪声，以便获取环境噪声。收集不同时间段的实验数据并反复进行上述采集过程，采集许氏平鲉摄食声音信号样本321个，游泳声音信号样本491个，共计声音样本812个；视频数据进行抽帧处理，为得到视频内所有的视频帧，抽帧的time rate设为0.4，得到许氏平鲉摄食图片4967张，游泳图片7317张，共计视频样本12284张图片，训练、验证、测试集按照正负样本比例随机划分，比例为7:2:1。

2.1.2数据合成

由于多模态鱼类行为数据集是在可控的实验室条件下采集得到，在采集视觉数据和声音数据过程中并未受到过多噪声干扰，但在真实生产环境中，会出现光线昏暗、杂声过多的情况，所以为了模拟真实场景下的鱼类行为分析，将多模态鱼类行为数据集人工添加噪声，对数据进行进一步合成操作。

为模拟昏暗条件下采集到的视觉数据，通过观察发现，昏暗条件下会导致亮度变暗，且拍摄的数据会出现模糊不清等情况。经研究发现亮度调节操作可以模拟昏暗条件下采集到的图像。其次为了模拟拍摄的数据模糊不清的情况，可以采用因场景不明亮、亮度不均匀引起的传感器噪声—高斯噪声模拟数据模糊不清的情况。鉴于以上分析，将视觉数据进行亮度调节和添加高斯噪声的操作，如图3所示。

为模拟真实场景下的有噪声干扰的声音数据，通过实地调研发现，真实生产场景下氧泵、循环水系统会有较大噪声可以覆盖掉鱼类行为发出的声音，且当氧泵和循环水关闭时，也会有环境噪音与声音信号混合在一起。通过比较发现，高斯白噪声是通信中的主要噪声源，可以用来模拟真实场景下普遍存在环境噪声。随机白噪声能覆盖鱼类摄食、游泳时发出的声音，可以模拟真实生产环境中，氧泵、循环水系统带来的噪声干扰，如图4所示。

2.3实验环境

实验环境为Intel Core 17-9700CPU 3.00GHz 3.00处理器，RTX3090显卡，32GB内存，操作系统为Windows10，运行环境python 3.7，开源深度学习框架pytorch，版本为1.7.1+cu110。训练参数设置如下：学习率为0.01，Dropout为0.5，batch_size为32，epoch为50。

2.4实验方案设计

为验证所提出方法对鱼类行为的识别结果，利用召回率、F1值、准确率作为实验评价指标，设计了以下实验：(1)视觉方法的对比实验；在图像算法中，不同特征提取网络对整体网络性能有较大影响，为验证ResNet50能有效地提取鱼类行为视觉部分特征，与其他方法进行比较。比较方法包括张重阳等(张重阳,陈明,冯国富,等.基于多特征融合与机器学习的鱼类摄食行为的检测[J].湖南农业大学学报(自然科学版),2019,45(01):97-102.)和黄志涛等(黄志涛,何佳,宋协法.基于鱼体运动特征和图像纹理特征的鱼类摄食行为识别与量化[J].中国海洋大学学报(自然科学版),2022,52(01):32-41.)提出的方法。(2)声音方法的对比实验；因鱼类行为的声音信号特征差异小、特征难学习等特点，不同的提取声音特征网络对后续融合网络性能有较大影响，为验证MFCC+ResNet50的声音特征提取方法的有效性，设计了对比实验，对比方法为黄汉英等(黄汉英,杨咏文,李路,等.基于被动水声信号的淡水鱼混合比例识别[J].农业机械学报,2019,50(10):215-221.)和李路等(李路,涂群资,等.基于被动水声信号的淡水鱼种类识别[J].农业机械学报,2017,48(08):166-171.)提出的方法。(3)单模态识别与多模态识别的对比实验；为验证多模态识别效果的有效性，设计了对比实验。(4)消融实验；为验证通道注意力机制在网络中的作用，设计了消融实验。(5)模型实验；为验证U-FusionNet模型的能有效解决单模态鱼类行为识别准确率和召回率不高的问题，与其他方法进行对比，对比方法有：范习健等(范习健,杨绪兵,张礼,等.一种融合视觉和听觉信息的双模态情感识别算法[J].南京大学学报(自然科学),2021,57(02):309-317.)、Janani等(Venugopalan,J,Tong L,Hassanzadeh H R,etal.Multimodal deep learning models for early detection of Alzheimer’s diseasestage[J].Scientific Reports,2021,11(01):3254.)、Nagrani等(Nagrani A,Yang S,Arnab A,et al.Attention Bottlenecks for Multimodal Fusion[C].//NeurIPS.2021)提出的方法。

2.5实验结果分析

2.5.1视觉方法的对比实验

使用多模态鱼类行为数据集对基于视觉的特征提取方法进行比较，对比结果如表1所示。

表1视觉方法的对比Table 1Contrast visual methods

方法	召回率/％	F1值/％	准确率/％
				张重阳等	75.32	67.41	78.66
黄志涛等	79.29	68.11	79.05
				ResNet50	82.77	80.79	85.09

对比发现，张重阳等和黄志涛等的方法都是采用人工特征选择方法，而ResNet50则采用深度学习模型自动筛选视觉特征，由表1可以看出，使用ResNet50提取视觉特征的方法的准确率、F1值和召回率均优于其他方法。

2.4.2声音方法的对比实验

为验证声音特征提取方法的有效性，对基于频域和时域的不同特征提取方法和不同分类器的识别效果进行了比较，对比结果如表2所示。对比得出，基于MFCC和ResNet152的鱼类声音特征提取方法优于其他方法，是由于采用MFCC特征系数能更加突出地表征鱼类行为的声音信号特征，并采用ResNet的“短路”连接保留一定比例输入，接力学习，从而提高识别效果。从实验结果可推断，识别鱼类行为声音信号也可采用深度学习框架通过端到端的方式自发学习信号特征。

表2声音方法的对比Table 2Contrast ofsound methods

方法	召回率％	F1值％	准确率％
				黄汉英等	63.17	70.08	71.59
李路等	67.05	71.89	75.13
				MFCC+ResNet50	74.48	80.18	80.70

2.5.3单模态识别与多模态识别的对比实验

为验证多模态鱼类行为识别效果，将单模态识别效果与多模态识别效果进行对比，实验结果如图5所示，由图Accuracy曲线可以看出，依靠单一模态特征识别鱼类行为没有得到较好的效果，基于多模态融合的鱼类行为识别可以充分挖掘模态关联信息，使各模态潜在表示交互信息最大化，使得多模态网络的分类效果优于其他两个单模态的分类效果。

2.5.4消融实验

为验证通道注意力机制—SENet在网络中的作用，分别在有注意力机制的多模态鱼类行为识别方法和无注意力机制的多模态鱼类行为识别方法进行实验，实验结果如表3所示。

表3消融实验

Table 3 Ablation experiments

方法	召回率/％	F1值/％	准确率/％
				U-FusionNet	81.65	89.90	89.07
U-FusionNet-SENet	92.56	89.12	90.78

对比得出，SENet的加入为网络提升了1.71％的准确率，10.91％的召回率，这是因为SENet在凝练融合信息的同时保留了局部信息，并且增强了有效信息，抑制了不相关信息。说明了通道注意力机制有效地提升了鱼类行为识别的整体效果。

2.5.5模型实验

为验证所提出网络模型的有效性，对不同多模态融合方法和网络模型进行对比，对比结果如表4所示。

表4模型实验

Table 4 model experiment

方法	召回率/％	F1值/％	准确率/％
				范习健等	67.15	80.18	70.70
Janani等	91.41	83.92	89.38
				Nagrani等	75.64	86.78	85.49
U-FusionNet	92.56	89.12	90.78

对比得出，所提出网络与效果较好Janani等提出的方法相比，召回率提升了1.15％，F1值提升5.20％，准确率提升了1.40％，范习健等提出的情感识别方法采用不同模态特征拼接的融合方法，并未深层次地挖掘模态间的潜在信息，所以在识别鱼类行为时效果不够理想；Janani等提出的识别潜在阿尔兹海默症方法，重点在识别视觉图像上的特征，所以在融合声音特征时，效果不理想。Nagrani等提出的使用“融合瓶颈”进行多层模态融合的方法，未充分发挥模态间的互补性，因此在鱼类行为识别数据集上的效果不显著。所提模型在不同阶段融合特征，并将融合特征相加，更充分地挖掘模态间的关联信息，使模态特征互为关联互为补充，因此所提出的多级融合U-FusionNet网络可以有效识别鱼类的游泳、摄食等行为。

综上所述，从实验结果可以看出，本研究所提出的方法对实验室采集的许氏平鲉游泳、摄食行为识别精度可达90.78％，表明了该识别方法是一种自动化、高准确度的鱼类行为识别方法。但由于实验室采集数据量不够大，未能包含真实水产养殖环境下所有的样本信息，需要进一步扩大样本数量以及样本多样性，使其能在未来应用于真实水产养殖环境下的鱼类行为识别。

3.结论

为了解决单模态鱼类行为识别准确率和召回率不高的问题，提出声音与视觉多级融合的U-FusionNet网络，U-FusionNet改进了编码解码模式的U型对称架构，同时引入SENet构成关注通道信息的特征融合网络，基于这些改进，U-FusionNet对鱼类行为的识别效果有较大的提升，较传统的单模态方法识别效果更加精准。为今后的鱼类行为分析工作提供了一种新的解决方法，但本工作依然有改进空间，首先实验室采集数据量不够大，数据集大小有待扩充；此外数据集内未能包含真实水产养殖环境下所有的样本信息，需要进一步扩大样本数量以及样本多样性，使其能在未来应用于真实水产养殖环境。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种声音与视觉多级融合的鱼类行为识别方法，其特征在于，应用于声音与视觉多级融合的鱼类行为识别网络模型，所述网络模型包括视觉特征提取网络、声音特征提取网络、跳跃连接融合网络、注意力机制网络、全连接层和softmax层；

所述方法包括：

2.根据权利要求1所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，

视觉特征提取网络包括Resnet50网络，视觉特征提取网络的Resnet50网络包括：视觉特征提取阶段网络RGBstage1，视觉特征提取阶段网络RGBstage2，视觉特征提取阶段网络RGBstage3，视觉特征提取阶段网络RGBstage4，视觉特征提取阶段网络RGBstage5；

3.根据权利要求2所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，鱼类行为的声音信号经过MFCC变换，使用MFCC系数表示鱼类行为声音特征。

4.根据权利要求3所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，所述跳跃连接融合网络的融合阶段网络Skip-Concat，由Up-sample、Concat、1×1卷积、Down-sample、element-wise add组成；所述Up-sample，用于统一不同模态的特征图尺度，得到尺度相同的声音与视觉特征图；所述Concat，用于对不同维度特征进行融合；所述1×1卷积，用于将融合得到N+M维特征进行卷积，用于特征跨通道的交互和信息整合，获取不同层级模态间的交互信息；所述Down-sample，用于统一不同阶段的融合特征；所述element-wiseadd，用于实现多尺度的特征融合，融合多个阶段信息特征；

N＝[x₁,x₂,x₃,...,x_n] (1)

M＝[y₁,y₂,y₃,...,y_n] (2)

N+M＝[x₁,x₂,x₃,...,x_n,y₁,y₂,y₃,...,y_n] (3)

5.根据权利要求4所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，

鱼类行为的图像由视觉特征提取阶段网络RGBstage1对视觉特征提取，视觉特征提取阶段网络RGBstage1输出特征图feature map RGBstage1，鱼类行为的声音由声音特征提取阶段网络Soundstage1对声音特征提取，声音特征提取阶段网络Soundstage1输出特征图feature map Soundstage1，所述特征图feature map RGBstage1和所述特征图featuremap Soundstage1由融合阶段网络Skip-Concat1融合，得到融合特征图feature mapconcat1；

鱼类行为图像的特征图feature map RGBstage1由视觉特征提取阶段网络RGBstage2对视觉特征提取，视觉特征提取阶段网络RGBstage2输出特征图feature map RGBstage2，鱼类行为声音的特征图feature map Soundstage1由声音特征提取阶段网络Soundstage2对声音特征提取，声音特征提取阶段网络Soundstage2输出特征图feature mapSoundstage2，所述特征图feature map RGBstage2和所述特征图feature mapSoundstage2由融合阶段网络Skip-Concat2融合，得到融合特征图feature map concat2，将所述融合特征图feature map concat1和融合特征图feature map concat2进行元素相加操作，使其融合成一张融合特征图feature map concat12；

鱼类行为图像的特征图feature map RGBstage2由视觉特征提取阶段网络RGBstage3对视觉特征提取，视觉特征提取阶段网络RGBstage3输出特征图feature map RGBstage3，鱼类行为声音的特征图feature map Soundstage2由声音特征提取阶段网络Soundstage3对声音特征提取，声音特征提取阶段网络Soundstage3输出特征图feature mapSoundstage3，所述特征图feature map RGBstage3和所述特征图feature mapSoundstage3由融合阶段网络Skip-Concat3融合，得到融合特征图feature map concat3，将所述融合特征图feature map concat12和融合特征图feature map concat3进行元素相加操作，使其融合成一张融合特征图feature map concat123；

鱼类行为图像的特征图feature map RGBstage3由视觉特征提取阶段网络RGBstage4对视觉特征提取，视觉特征提取阶段网络RGBstage4输出特征图feature map RGBstage4，鱼类行为声音的特征图feature map Soundstage3由声音特征提取阶段网络Soundstage4对声音特征提取，声音特征提取阶段网络Soundstage4输出特征图feature mapSoundstage4，所述特征图feature map RGBstage4和所述特征图feature mapSoundstage4由融合阶段网络Skip-Concat4融合，得到融合特征图feature map concat4，将所述融合特征图feature map concat123和融合特征图feature map concat4进行元素相加操作，使其融合成一张融合特征图feature map concat1234；

鱼类行为图像的特征图feature map RGBstage4由视觉特征提取阶段网络RGBstage5对视觉特征提取，视觉特征提取阶段网络RGBstage5输出特征图feature map RGBstage5，鱼类行为声音的特征图feature map Soundstage4由声音特征提取阶段网络Soundstage5对声音特征提取，声音特征提取阶段网络Soundstage5输出特征图feature mapSoundstage5，所述特征图feature map RGBstage5和所述特征图feature mapSoundstage5由融合阶段网络Skip-Concat5融合，得到融合特征图feature map concat5，将所述融合特征图feature map concat1234和融合特征图feature map concat5进行元素相加操作，使其融合成一张融合特征图feature map concat12345。

6.根据权利要求5所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，

注意力机制网络SENet通过学习特征权重，获取到每个feature map的重要程度，然后用这个重要程度去给每一个特征通道赋予一个权重值，增强有效信息，抑制不相关信息，使模型达到更好的效果，计算如公式(4)-(6)所示：

S＝F_ex(z,W)＝σ(W₂δ(W₁,z)) (5)

x_c＝F_sacle(u_c,s)＝s_iu_c (6)

7.根据权利要求6所述的声音与视觉多级融合的鱼类行为识别方法，其特征在于，

鱼类行为的图像的采集基于如下方式实现：使用摄像头实时监控鱼类行为的视觉数据，摄像头架设在高于水面1米远的养殖池旁，摄像头的另一端连接计算机存储数据，数据格式为MP4视频文件；