CN117809169A - 一种小样本水下声呐图像分类方法及其模型搭建方法 - Google Patents
一种小样本水下声呐图像分类方法及其模型搭建方法 Download PDFInfo
- Publication number
- CN117809169A CN117809169A CN202410231320.1A CN202410231320A CN117809169A CN 117809169 A CN117809169 A CN 117809169A CN 202410231320 A CN202410231320 A CN 202410231320A CN 117809169 A CN117809169 A CN 117809169A
- Authority
- CN
- China
- Prior art keywords
- image
- data
- network
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000013145 classification model Methods 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 238000013526 transfer learning Methods 0.000 claims description 11
- 238000013508 migration Methods 0.000 claims description 8
- 230000005012 migration Effects 0.000 claims description 8
- 230000002787 reinforcement Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 239000012467 final product Substances 0.000 claims description 2
- 238000003860 storage Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种小样本水下声呐图像分类方法及其模型搭建方法,属于水下目标检测模型学习方法技术领域,该方法使用预训练的神经网络模型对图像进行特征提取,并采用过采样技术处理数据集不平衡问题,设计了一种孪生网络增强训练策略用于小样本学习,采用差分形式的损失函数来计算图像的相似度,最后设计了一个三重网络用于小样本学习,其采用三元组进行训练,并设计了三重损失函数,获取更为丰富的信息,从而得到更为准确的分类结果。通过引入孪生网络增强训练策略及三重网络训练策略,可以在小样本数据集上取得较高的分类准确性。
Description
技术领域
本发明属于水下目标检测模型学习方法技术领域,尤其涉及一种小样本水下声呐图像分类方法及其模型搭建方法。
背景技术
水下图像分类在生态和经济方面拥有巨大的价值,它包括了海洋生物的识别、水下物体的数量估计以及水下地形的研究等方面的重要应用。尤其在光学系统无法完成任务时,声学成像系统成为水下监视和调查的最佳选择。此外,水下声纳图像分类也服务于各种民用和军事应用,包括使用自主式水下机器人进行海上反水雷行动。水下图像分类面临诸多挑战,包括场景感知困难、图像分辨率差、低信噪比、样本量少等。设计一种高效准确的水下图像分类方法,可以有效地支持海洋生态研究和海洋资源的开发利用。
现存的水下图像分类主要可分为以下三种方法:
传统图像处理方法:包括两步检测法、模板匹配技术和特征提取法。这些方法主要依赖于手工提取的特征,如形状、大小、纹理、明亮和阴影区域等。但是传统图像处理方法依赖于手动提取的特征,可能无法充分捕捉图像的复杂性,而且分类效果可能会受到噪声和图像质量的影响。
基于机器学习方法:通过训练神经网络以对图像进行分类。此方法虽然可以自动提取特征,但是需要大量的标注数据进行训练,数据收集和标注的过程既耗时又昂贵。
使用合成数据的方法:由于收集和标记大量水下数据集用于训练神经网络可能是耗时且昂贵的,因此许多研究人员使用合成或半合成数据来训练网络。此外,还有通过风格转换生成合成图像的方法。但合成数据与真实数据之间可能存在一定的差距,可能会影响模型的泛化能力。
总的来说,现有的水下图像分类技术在克服光学光学水下成像系统失效、数据可用性不足,图像分辨率差、低信噪比等方面仍然存在不足。需要进一步解决上述问题,提高水下图像分类方法的准确率以及可泛化性。
发明内容
针对上述问题,本发明第一方面提供了一种小样本水下声呐图像分类模型搭建方法,包括以下步骤:
步骤1,收集水下待检测目标的基础声呐图像数据,并预处理获得水下图像数据集Dataset;
步骤2,建立图像特征提取网络模型以及基于迁移学习的基础图像分类模型;其中,利用预训练的VGG19模型进行迁移学习模型训练,得到基础图像分类模型;
步骤3,基于基础图像分类模型,通过基于孪生网络的增强训练策略,对图像分类模型进行一次增强,并训练得到一阶增强的图像分类网络模型;
步骤4,通过构建的三重网络训练策略,对一阶增强的图像分类网络模型进行二次增强,训练得到最终图像分类模型;所述三重网络训练策略使用多批三元组进行训练,每个三元组由三个图像组成,即一个输入锚图像、来自与锚图像的类别相同的类别的正图像以及来自与锚图像的类别不同的类别的负图像。
优选的,所述步骤1的具体过程为:
S1,收集水下待检测目标的基础声呐图像数据;
S2,将收集图像切分成像素大小为224*244的图像,并对图像中的水下物体进行类别标签/>;
S3,收集的图像与类别/>构成一组数据/>;
S4,重复执行步骤S2和S3,并对每组数据按照所属类别进行分组,最终得到个类别水下声呐图像数据集/>,其中/>表示第i个类别的数据,对应共组数据,即/>。
优选的,所述步骤2具体为:
将完整的预训练VGG19网络作为图像分类的初始网络模型,并基于该网络参数进行迁移学习;
设为域,/>为特征空间,/>为边缘概率分布,其中,则/>;设/>为任务,其中/>表示标签空间,/>为目标预测函数;
迁移学习为:设和/>为源域和相应的学习任务,/>和/>分别为目标域和学习任务;/>,/>是源域数据的元素,其中每个表示数据点,/>给出其类标签;
设定学习任务为,目标是帮助增强目标预测函数/>利用/>和/>中的信息学习任务/>中的/>,其中/> ,/>;
以预训练模型的参数作为初始参数,利用步骤1中图像数据集Dataset中的训练集进行模型训练,以微调整个网络参数使其更适用于水下分类场景;其中每组训练数据集包括输入图像和对应类别,并采用随机梯度下降动量用于优化模型。
优选的,所述图像特征提取网络模型基于预训练的DenseNet网络模型,并移除了原始网络的全连接层,将224*244的图像作为特征提取模型的输入,最终得到输出维度为1024的特征向量。
优选的,针对图像数据集不平衡问题进行处理;对图像总数量少于70张的类别数据,使用类感知过采样技术来避免分类模型的过拟合;根据特定类中的样本数量为每个类分配权重,随后基于该分配的类权重获取数据样本用于训练。
优选的,所述步骤3中基于孪生网络的增强训练策略具体为:
训练策略包含两个并行且相同的迁移训练后的VGG19网络架构;两个并行网络之间共享的权重和偏置参数,每个网络同时接受一个输入图像并计算相似性度量;该网络的训练数据集为N个类别的水下图像数据集,其中每个数据由输入图像/>和对应的类别标签/>组成;
对于并行网络的两个输入,采用从数据集中随机抽样的方法来确定这两个输入;首先,基于两个图像对应的类别确定网络的期望输出标签;如果两个原始图像数据属于同一类别,则标签为1;反之为0;接着,将这两个数据的图像分别作为两个网络的输入,得到两张水下声呐图像的映射特征向量;通过差分层计算两个特征向量的特征差异;然后,经过全连接层和Sigmoid层的运算,得到了两个图像的相似系数;将相似系数与期望标签0或1计算均方误差MSE,并以最小化该误差作为训练目标,利用梯度下降来训练模型;最终得到具有初步预测能力的一阶增强的图像分类网络模型;该输入大小为105×105像素的图像,并将图像映射到嵌入空间,以便计算这些嵌入之间的距离,使用欧氏距离来计算相似度。
优选的,设定了差分形式的对比损失函数,学习从输入特征映射到紧凑欧几里得空间的映射,这个空间中的接近度代表了相似性的度量,设输入图像对为和/>;对比损失函数定义如下式所示:
其中,,为欧几里得空间中并行网络输出之间的距离,/>是这些网络中的一个输出;变量/>是0或1,表示图像相似性;如果输入图像来自不同的类,/>值为0,否则/>值为1,余量值/>是大于0的常数;边距为/>周围的半径;两幅不相似的图像只有在欧几里得空间中的距离低于边缘/>时才会导致对比度损失;上述等式的两个部分被定义为降低相似图像的能量和提高不相似图像的能量。
优选的,所述步骤4中的三重网络训练策略,所使用的训练数据集的获取过程为:
基于原始个类别水下图像数据集/>,从相同类别中随机抽取2个数据,并从相异类别中抽取1个数据的原则进行数据选择,得到数据:,其中/>和/>为同类别数据,为异类别数据;
将中/>作为锚数据,/>作为正数据,/>作为负数据,得到一组训练数据集;
重复上述过程共K次,最终获取K组三重网络训练数据集。
优选的,所述三重网络训练策略的学习过程为:
令表示图像/>嵌入到/>维欧氏空间/>中;该设计的目标为确保锚图像/>更接近同一类别中的所有其他正图像/>和远离其他类别的所有负图像/>;如下式所示:
其中是所有三元组的集合,/>是嵌入空间中不同类别的特征向量之间的最小间隔;最小化损失/>如下式所示:
对于每个锚图像与正图像和锚图像与负图像的对,计算欧几里得距离,并且如果正距离小于负距离,则将预测视为正确的预测。
本发明第二方面还提供了一种小样本水下声呐图像分类方法,包括以下过程:
获取水下待检测目标的声呐图像;
将声呐图像输入到如第一方面所述的搭建方法所搭建的最终图像分类模型中;
输出相应的分类检测结果。
本发明第三方面还提供了一种小样本水下声呐图像分类设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的最终图像分类模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种小样本水下声呐图像分类方法。
本发明第四方面还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如第一方面所述的搭建方法所搭建的最终图像分类模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以使处理器执行一种小样本水下声呐图像分类方法。
与现有技术相比,本发明具有如下有益效果:
(1)抗干扰能力:声学成像系统可以克服港口、河口等水体浑浊的水域,光电传感器无法精确感知的问题,无需依赖照明设备,具有一定的抗干扰能力。
(2)较高的分类准确性:通过引入孪生网络增强训练策略及三重网络训练策略,可以在小样本数据集上取得较高的分类准确性。
(3)良好的可泛化性:应用预训练的方法,仅需要微调模型即可应用于不同场景的的图像分类。
附图说明
图1为本发明水下声呐图像分类方法整体逻辑框图。
图2为本发明图像特征提取网络架构图。
图3为本发明孪生网络架构图。
图4为实施例1中用于孪生网络训练的样本批次对示意图。
图5为本发明三重网络图像学习策略示意图。
图6为本发明三重网络架构示意图。
图7为实施例1中实验分类结果特征向量可视化图。
图8为实施例2中水下声呐图像分类设备结构简图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
为提高水下图像分类的准确性和可泛化性,发明提出了一种基于迁移学习和小样本学习的水下声呐图像分类方法。该方法使用预训练的神经网络模型对图像进行特征提取,并采用过采样技术处理数据集不平衡问题。设计了一种孪生网络模型用于小样本学习,采用差分形式的损失函数来计算图像的相似度。然后设计了一个三重网络用于小样本学习,其采用三元组进行训练,并设计了三重损失函数,获取更为丰富的信息,从而得到更为准确的分类结果。
本发明的整体思路如图1所示;首先提出了一种一种小样本水下声呐图像分类模型搭建方法,包括以下步骤:
步骤1,收集水下待检测目标的基础声呐图像数据,并预处理获得水下图像数据集Dataset;
步骤2,建立图像特征提取网络模型以及基于迁移学习的基础图像分类模型;其中,利用预训练的VGG19模型进行迁移学习模型训练,得到基础图像分类模型;
步骤3,基于基础图像分类模型,通过基于孪生网络的增强训练策略,对图像分类模型进行一次增强,并训练得到一阶增强的图像分类网络模型;
步骤4,通过构建的三重网络训练策略,对一阶增强的图像分类网络模型进行二次增强,训练得到最终图像分类模型;所述三重网络训练策略使用多批三元组进行训练,每个三元组由三个图像组成,即一个输入锚图像、来自与锚图像的类别相同的类别的正图像以及来自与锚图像的类别不同的类别的负图像。
1.用于训练的数据集的收集与制作
(1)数据集Dataset的收集与制作:
收集水下待检测目标的基础声呐图像数据;
将收集图像切分成像素大小为224*244的图像,并对图像中的水下物体进行类别标签/>;
收集的图像与类别/>构成一组数据/>;
重复执行上述步骤,并对每组数据按照所属类别进行分组,最终得到个类别水下声呐图像数据集/>,其中/>表示第i个类别的数据,对应共/>组数据,即/>。
同时,针对图像数据集不平衡问题进行处理;对图像总数量少于70张的类别数据,使用类感知过采样技术来避免分类模型的过拟合;根据特定类中的样本数量为每个类分配权重,随后基于该分配的类权重获取数据样本用于训练。
(2)三重网络训练策略,所使用的训练数据集的获取过程为:
基于原始个类别水下图像数据集/>,从相同类别中随机抽取2个数据,并从相异类别中抽取1个数据的原则进行数据选择,得到数据:,其中/>和/>为同类别数据,为异类别数据;
将中/>作为锚数据,/>作为正数据,/>作为负数据,得到一组训练数据集;
重复上述过程共K次,最终获取K组三重网络训练数据集。
2.建立图像特征提取网络以及基于迁移学习的基础图像分类模型
首先,图像特征提取模型基于预训练的DenseNet网络模型,并移除了原始网络的全连接层;因此,将224*244的图像作为特征提取模型的输入,最终得到输出维度为1024的特征向量。特征提取模型结构如图2所示。
其次,将完整的预训练VGG 19网络作为图像分类的初始网络模型,并基于该网络参数进行迁移学习。
设为域,/>为特征空间,/>为边缘概率分布,其中,则/>。设/>为任务,其中/>表示标签空间,/>为目标预测函数。
迁移学习方式为:设和/>为源域和相应的学习任务,/>和/>分别为目标域和学习任务。/>是源域数据的元素,其中每个表示数据点,/>给出其类标签。
让学习任务是,目标是帮助增强目标预测函数/>利用/>和/>中的信息学习任务/>中的/>,其中/>,/>。
具体地,以预训练模型的参数作为初始参数,利用S1建立的完整水下图像数据集进行模型训练,以微调整个网络参数使其更适用于水下分类场景。其中每组训练数据集包括输入图像和对应类别。采用随机梯度下降动量(SGD with Momentum, SGDM)用于优化模型。此外,学习率初始化为0.001,每7个epoch之后,该值乘以因子0.1。动量初始化为0.9,批量(batchsize)大小设置为8。整个网络训练200个epoch,并使用早停来防止过拟合的发生。
最终得到基于预训练VGG 19模型迁移学习的基础图像分类模型,该模型以224*224的水下图像作为输入,得到对应的分类检测结果为输出。
3.基于孪生网络的增强训练策略对图像分类模型进行一次增强
该过程基于基础图像分类模型,通过对图像分类模型进行一次增强,训练得到一阶增强的图像分类网络。
具体地,该训练策略包含两个并行且相同的迁移训练后的VGG19网络架构,如图3所示。两个并行网络之间共享的权重和偏置参数,每个网络同时接受一个输入图像并计算相似性度量。该网络的训练数据集为N个类别的水下图像数据集。其中每个数据由输入图像/>和对应的类别标签/>组成。
对于这个网络的两个输入,本技术采用了从数据集中随机抽样的方法来确定这两个输入,以提高网络的鲁棒性。首先,基于两个图像对应的类别确定了网络的期望输出标签。如果两个原始图像数据属于同一类别,则标签为1;反之为0。接着,将这两个数据的图像分别作为两个网络的输入,得到两张水下图像的映射特征向量。通过差分层计算两个特征向量的特征差异。然后,经过全连接层和sigmoid层的运算,得到了两个图像的相似系数。因此,将相似系数与期望标签(0或1)计算均方误差(MSE),并以最小化该误差作为训练目标,利用梯度下降来训练模型。最终得到了具有初步预测能力的分类网络模型。
该网络输入大小为105×105像素的图像,并将图像映射到嵌入空间,以便计算这些嵌入之间的距离。使用欧氏距离来计算相似度。在本方法中,学习率设置为0.0001,阈值设定为0.8。如果最终计算的相似性度大于阈值,代表两幅图像来自相同类别。用于孪生网络训练的样本批次对如图4所示。
设计的差分形式的对比损失函数:
设计了一种差分形式的损失函数:对比损失。其学习从输入特征映射到紧凑欧几里得空间的映射。这个空间中的接近度代表了相似性的度量。设输入图像对为和/>。对比损失函数定义如下式所示:
其中,是欧几里得空间中并行网络输出之间的距离,/>是这些网络中的一个输出。变量/>是0或1,表示图像相似性。如果输入图像来自不同的类,/>值为0,否则/>值为1,余量值/>是大于0的常数。边距为/>周围的半径。两幅不相似的图像只有在它们在欧几里得空间中的距离低于边缘/>时才会导致对比度损失。上述等式的两个部分被定义为:1)降低相似图像的能量; 2)提高不相似图像的能量。只有相似的图像被编码为更接近的表示,而不相似的示例被编码为特征空间中更远的表示时,损失才是低的。
4.三重网络训练策略进行二次增强
基于一阶增强的图像分类网络,设计三重网络训练策略对一阶分类模型进行增强,得到最终的图像分类模型。如图5所示,该网络使用多批三元组进行训练,每个三元组由三个图像组成:一个输入锚图像、来自与锚图像的类别相同的类别的一个图像(称为正图像)、以及来自与锚图像的类别不同的类别的图像(称为负图像)。基于该原则设计网络训练的数据集获取过程如1中所述。
三重网络训练策略的三重网络架构如图6所示,学习过程为:
令表示图像/>嵌入到/>维欧氏空间/>中;该设计的目标为确保锚图像/>更接近同一类别中的所有其他正图像/>和远离其他类别的所有负图像/>;(例如/>和为同类别数据,/>和/>为不同类别数据)如下式所示:
其中是所有三元组的集合,/>是嵌入空间中不同类别的特征向量之间的最小间隔;最小化损失/>如下式所示:
对于每个锚图像与正图像和锚图像与负图像的对,计算欧几里得距离,并且如果正距离小于负距离,则将预测视为正确的预测。
5.分类结果说明:
本发明的目标检测模型首先基于预训练的VGG 19模型进行迁移学习得到基础的图像分类模型;其次,利用基于孪生网络的增强训练机制对基础分类模型进行一阶增强;之后,通过构建三重网络训练策略对分类模型进行再次增强;得到最终图像分类模型。
针对被检测水下图像,将其缩放为224*224的标准图像后输入最终图像分类模型,得到对应的分类检测结果。此外,本技术对检测结果进行了特征向量的可视化,具体的结果如图7所示。其中,每个点都代表一组被检测的图像。观察结果发现,同一类别的数据分布比较紧密,而相似类别的数据则更接近。这表明检测结果显示出数据具有较高的相似度。因此,本技术在水下图像分类方面表现出了较高的检测合理性和分类准确性。该结果进一步验证了本发明所提出技术方法的实际可行性。该方法在处理水下图像分类问题上具有良好的性能,为实际应用提供了可靠的支持。
实施例2:
如图8所示,本发明同时提供了一种小样本水下声呐图像分类设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的最终图像分类模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行一种小样本水下声呐图像分类方法。其中内部总线可以是工业标准体系结构(IndustryStandard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图8是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
实施例3:
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有如实施例1所述搭建方法所搭建的最终图像分类模型的计算机执行程序,所述计算机执行程序被处理器执行时,可以使处理器执行一种小样本水下声呐图像分类方法。
具体地,可以提供配有可读存储介质的系统、装置或设备,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统、装置或设备的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘(如 CD-ROM、CD-R、CD-RW、DVD- 20 ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带等。存储介质可以是通用或专用计算机能够存取的任何可用介质。
应理解存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于终端或服务器中。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种小样本水下声呐图像分类模型搭建方法,其特征在于,包括以下步骤:
步骤1,收集水下待检测目标的基础声呐图像数据,并预处理获得水下图像数据集Dataset;
步骤2,建立图像特征提取网络模型以及基于迁移学习的基础图像分类模型;其中,利用预训练的VGG19模型进行迁移学习模型训练,得到基础图像分类模型;
步骤3,基于基础图像分类模型,通过基于孪生网络的增强训练策略,对图像分类模型进行一次增强,并训练得到一阶增强的图像分类网络模型;
步骤4,通过构建的三重网络训练策略,对一阶增强的图像分类网络模型进行二次增强,训练得到最终图像分类模型;所述三重网络训练策略使用多批三元组进行训练,每个三元组由三个图像组成,即一个输入锚图像、来自与锚图像的类别相同的类别的正图像以及来自与锚图像的类别不同的类别的负图像。
2.如权利要求1所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于,所述步骤1的具体过程为:
S1,收集水下待检测目标的基础声呐图像数据;
S2,将收集图像切分成像素大小为224*244的图像,并对图像中的水下物体进行类别标签/>;
S3,收集的图像与类别/>构成一组数据/>;
S4,重复执行步骤S2和S3,并对每组数据按照所属类别进行分组,最终得到个类别水下声呐图像数据集/>,其中/>表示第i个类别的数据,对应共/>组数据,即/>。
3.如权利要求1所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于,所述步骤2具体为:
将完整的预训练VGG19网络作为图像分类的初始网络模型,并基于该网络参数进行迁移学习;
设为域,/>为特征空间,/>为边缘概率分布,其中/>,则;设/>为任务,其中/>表示标签空间,/>为目标预测函数;
迁移学习为:设和/>为源域和相应的学习任务,/>和/>分别为目标域和学习任务;,/>是源域数据的元素,其中每个表示数据点,/>给出其类标签;
设定学习任务为,目标是帮助增强目标预测函数/>利用/>和/>中的信息学习任务/>中的/>,其中/> ,/>;
以预训练模型的参数作为初始参数,利用步骤1中图像数据集Dataset中的训练集进行模型训练,以微调整个网络参数使其更适用于水下分类场景;其中每组训练数据集包括输入图像和对应类别,并采用随机梯度下降动量用于优化模型。
4.如权利要求3所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于:
所述图像特征提取网络模型基于预训练的DenseNet网络模型,并移除了原始网络的全连接层,将224*244的图像作为特征提取模型的输入,最终得到输出维度为1024的特征向量。
5.如权利要求2所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于:针对图像数据集不平衡问题进行处理;对图像总数量少于70张的类别数据,使用类感知过采样技术来避免分类模型的过拟合;根据特定类中的样本数量为每个类分配权重,随后基于该分配的类权重获取数据样本用于训练。
6.如权利要求1所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于,所述步骤3中基于孪生网络的增强训练策略具体为:
训练策略包含两个并行且相同的迁移训练后的VGG19网络架构;两个并行网络之间共享的权重和偏置参数,每个网络同时接受一个输入图像并计算相似性度量;该网络的训练数据集为N个类别的水下图像数据集,其中每个数据由输入图像/>和对应的类别标签/>组成;
对于并行网络的两个输入,采用从数据集中随机抽样的方法来确定这两个输入;首先,基于两个图像对应的类别确定网络的期望输出标签;如果两个原始图像数据属于同一类别,则标签为1;反之为0;接着,将这两个数据的图像分别作为两个网络的输入,得到两张水下声呐图像的映射特征向量;通过差分层计算两个特征向量的特征差异;然后,经过全连接层和Sigmoid层的运算,得到了两个图像的相似系数;将相似系数与期望标签0或1计算均方误差MSE,并以最小化该误差作为训练目标,利用梯度下降来训练模型;最终得到具有初步预测能力的一阶增强的图像分类网络模型;该输入大小为105×105像素的图像,并将图像映射到嵌入空间,以便计算这些嵌入之间的距离,使用欧氏距离来计算相似度。
7.如权利要求6所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于:设定了差分形式的对比损失函数,学习从输入特征映射到紧凑欧几里得空间的映射,这个空间中的接近度代表了相似性的度量,设输入图像对为和/>;对比损失函数定义如下式所示:
其中,,为欧几里得空间中并行网络输出之间的距离,/>是这些网络中的一个输出;变量/>是0或1,表示图像相似性;如果输入图像来自不同的类,/>值为0,否则/>值为1,余量值/>是大于0的常数;边距为/>周围的半径;两幅不相似的图像只有在欧几里得空间中的距离低于边缘/>时才会导致对比度损失;上述等式的两个部分被定义为降低相似图像的能量和提高不相似图像的能量。
8.如权利要求2所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于,所述步骤4中的三重网络训练策略,所使用的训练数据集的获取过程为:
基于原始个类别水下图像数据集/>,从相同类别中随机抽取2个数据,并从相异类别中抽取1个数据的原则进行数据选择,得到数据:,其中/>和/>为同类别数据,为异类别数据;
将中/>作为锚数据,/>作为正数据,/>作为负数据,得到一组训练数据集;
重复上述过程共K次,最终获取K组三重网络训练数据集。
9.如权利要求1所述的一种小样本水下声呐图像分类模型搭建方法,其特征在于,所述三重网络训练策略的学习过程为:
令表示图像/>嵌入到/>维欧氏空间/>中;该设计的目标为确保锚图像/>更接近同一类别中的所有其他正图像/>和远离其他类别的所有负图像/>;如下式所示:
其中是所有三元组的集合,/>是嵌入空间中不同类别的特征向量之间的最小间隔;最小化损失/>如下式所示:
对于每个锚图像与正图像和锚图像与负图像的对,计算欧几里得距离,并且如果正距离小于负距离,则将预测视为正确的预测。
10.一种小样本水下声呐图像分类方法,其特征在于,包括以下过程:
获取水下待检测目标的声呐图像;
将声呐图像输入到如权利要求1至9任意一项所述的搭建方法所搭建的最终图像分类模型中;
输出相应的分类检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410231320.1A CN117809169B (zh) | 2024-03-01 | 2024-03-01 | 一种小样本水下声呐图像分类方法及其模型搭建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410231320.1A CN117809169B (zh) | 2024-03-01 | 2024-03-01 | 一种小样本水下声呐图像分类方法及其模型搭建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117809169A true CN117809169A (zh) | 2024-04-02 |
CN117809169B CN117809169B (zh) | 2024-04-30 |
Family
ID=90422017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410231320.1A Active CN117809169B (zh) | 2024-03-01 | 2024-03-01 | 一种小样本水下声呐图像分类方法及其模型搭建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809169B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368633A (zh) * | 2020-01-18 | 2020-07-03 | 中国海洋大学 | 一种基于auv的侧扫声呐图像识别方法 |
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
US20220147768A1 (en) * | 2020-11-12 | 2022-05-12 | The University Court Of The University Of Edinburgh | Image data processing apparatus and method, a model training apparatus and a training method |
CN115187784A (zh) * | 2022-05-25 | 2022-10-14 | 西北工业大学 | 一种基于孪生网络与集成增强决策的启发式对抗样本防御方法 |
US20230162023A1 (en) * | 2021-11-25 | 2023-05-25 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Automated Transfer Learning with Domain Disentanglement |
CN116468995A (zh) * | 2022-07-21 | 2023-07-21 | 西北工业大学深圳研究院 | 一种联合slic超像素和图注意力网络的声呐图像分类方法 |
CN117115447A (zh) * | 2023-09-25 | 2023-11-24 | 浙江工业大学 | 基于元迁移学习的前视声呐图像分割方法和装置 |
-
2024
- 2024-03-01 CN CN202410231320.1A patent/CN117809169B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285896A1 (en) * | 2019-03-09 | 2020-09-10 | Tongji University | Method for person re-identification based on deep model with multi-loss fusion training strategy |
CN111368633A (zh) * | 2020-01-18 | 2020-07-03 | 中国海洋大学 | 一种基于auv的侧扫声呐图像识别方法 |
US20220147768A1 (en) * | 2020-11-12 | 2022-05-12 | The University Court Of The University Of Edinburgh | Image data processing apparatus and method, a model training apparatus and a training method |
US20230162023A1 (en) * | 2021-11-25 | 2023-05-25 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for Automated Transfer Learning with Domain Disentanglement |
CN115187784A (zh) * | 2022-05-25 | 2022-10-14 | 西北工业大学 | 一种基于孪生网络与集成增强决策的启发式对抗样本防御方法 |
CN116468995A (zh) * | 2022-07-21 | 2023-07-21 | 西北工业大学深圳研究院 | 一种联合slic超像素和图注意力网络的声呐图像分类方法 |
CN117115447A (zh) * | 2023-09-25 | 2023-11-24 | 浙江工业大学 | 基于元迁移学习的前视声呐图像分割方法和装置 |
Non-Patent Citations (3)
Title |
---|
吕永强;闵巍庆;段华;蒋树强;: "融合三元卷积神经网络与关系网络的小样本食品图像识别", 计算机科学, no. 01, 31 December 2020 (2020-12-31) * |
张婧;袁细国;: "基于小样本学习的高光谱遥感图像分类算法", 聊城大学学报(自然科学版), no. 06, 4 August 2020 (2020-08-04) * |
程锦盛;杜选民;周胜增;曾赛;: "基于目标MFCC特征的监督学习方法在被动声呐目标识别中的应用研究", 舰船科学技术, no. 17, 8 September 2018 (2018-09-08) * |
Also Published As
Publication number | Publication date |
---|---|
CN117809169B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN109743642B (zh) | 基于分层循环神经网络的视频摘要生成方法 | |
CN112150493A (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN109741340B (zh) | 基于fcn-aspp网络的冰盖雷达图像冰层精细化分割方法 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN111062423B (zh) | 基于自适应特征融合的点云图神经网络的点云分类方法 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
CN114092793A (zh) | 适用于复杂水下环境的端到端生物目标检测方法 | |
Wu et al. | Research on insulator defect detection algorithm of transmission line based on CenterNet | |
CN115131747A (zh) | 基于知识蒸馏的输电通道工程车辆目标检测方法及系统 | |
CN116486408A (zh) | 遥感图像跨域语义分割方法及装置 | |
CN117217368A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN111126155A (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Cheng et al. | Water quality monitoring method based on TLD 3D fish tracking and XGBoost | |
CN114926826A (zh) | 场景文本检测系统 | |
Pang et al. | Over-sampling strategy-based class-imbalanced salient object detection and its application in underwater scene | |
CN116994068A (zh) | 一种基于知识蒸馏的目标检测方法及装置 | |
CN117727046A (zh) | 新型山洪前端仪器仪表读数自动识别方法及系统 | |
CN113569081A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN112560925A (zh) | 一种复杂场景目标检测数据集构建方法及系统 | |
CN117809169B (zh) | 一种小样本水下声呐图像分类方法及其模型搭建方法 | |
Zhang | Image enhancement method based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |