CN117437409A - 基于多视角声图的深度学习目标自动识别方法及系统 - Google Patents
基于多视角声图的深度学习目标自动识别方法及系统 Download PDFInfo
- Publication number
- CN117437409A CN117437409A CN202311720304.0A CN202311720304A CN117437409A CN 117437409 A CN117437409 A CN 117437409A CN 202311720304 A CN202311720304 A CN 202311720304A CN 117437409 A CN117437409 A CN 117437409A
- Authority
- CN
- China
- Prior art keywords
- view
- target
- sonar
- image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000003416 augmentation Effects 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000019771 cognition Effects 0.000 abstract description 3
- 238000004590 computer program Methods 0.000 description 16
- 238000003860 storage Methods 0.000 description 9
- 238000003384 imaging method Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多视角声图的深度学习目标自动识别方法及系统,其方法包括以下步骤:获取待测目标在同一声呐的多视角观测下的多视角声图数据集;对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性。本发明利用多个观测视角的声纳图像,能够为目标识别提供更加完整的特征信息,有利于目标的精细认知和识别。
Description
技术领域
本发明涉及声纳图像识别技术领域,特别涉及一种基于多视角声图的深度学习目标自动识别方法及系统。
背景技术
声纳图像自动目标识别能够从大场景声纳图像中自动检测出感兴趣的目标,并准确识别其类别属性,实现由图像数据到情报信息的转化,是当前国际上亟待解决的前沿热点问题。
卷积神经网络(Convolutional Neural Network, CNN)最早是为单视角图像目标识别任务所设计的机器学习模型,最早的实用CNN结构是由LeCun设计的LeNet-5,以LeNet-5为代表的经典的CNN结构一般比较简单,只适合处理小尺寸的图像;后来的AlexNet是首个在千万级规模数据量的大尺寸图像组成的数据集上训练的CNN结构。继AlexNet之后,VGGNet、ResNet、InceptionNet、DenseNet等现代CNN结构不断刷新图像的分类准确度,并取得了超越人类的图像分类性能。尽管CNN的结构设计越来越复杂,但CNN结构并不具有视角不变性。也就是说,利用一个视角图像所训练的CNN难以识别其他视角图像。这是由于,从不同视角获取的目标声纳图像仅能获取目标部分的结构信息,不同视角图像所训练的CNN所提取出的不同视角特征之间差异较大。
因此,要利用CNN识别对同一目标的多视角声图还需要使用特定的识别方案。由于直接使用CNN处理多视角声图的研究较为缺乏,因此需要设计一种基于多视角声图的深度学习目标自动识别方案,而利用多个观测视角的声纳图像,能够为目标识别提供更加完整的特征信息,有利于目标的精细认知和识别,是声纳图像目标识别技术的重要发展方向。
发明内容
本发明提供一种基于多视角声图的深度学习目标自动识别方法及系统,利用多个观测视角的声纳图像,能够为目标识别提供更加完整的特征信息,有利于目标的精细认知和识别。
第一方面,提供一种基于多视角声图的深度学习目标自动识别方法,其特征在于,包括以下步骤:
获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;
利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性。
根据第一方面,在第一方面的第一种可能的实现方式中,所述按预设条件对所述多视角声图数据集进行样本增广,得到声呐图像训练样本步骤,具体包括以下步骤:
在所述多视角声图数据集中获取包括同一视角类目标声呐图像的所有视角声图组合数如下:
;
在包括同一视角类目标声呐图像的每一视角声图组合中,按方位角进行排序;
选取满足如下条件的每一视角声图组合中的声呐图像训练样本:
;
式中,为每一视角声图组合中包括的同一视角类目标声呐图像;/>为每一视角声图组合中的单视角目标声呐图像/>对应的方位角;/>为声呐视角区间;k为视角数;/>为多视角声图数据集中样本数量。
根据第一方面,在第一方面的第二种可能的实现方式中,所述基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络步骤,具体包括以下步骤:
基于误差反向传播算法,利用所述声呐图像训练样本对卷积神经网络进行迭代训练,并利用交叉熵代价函数根据每一次迭代训练结果优化卷积神经网络;
当检测到交叉熵代价函数取得全局最小值时,得到对应的多视角并行深度卷积神经网络。
根据第一方面的第二种可能的实现方式中,在第一方面的第三种可能的实现方式中,所述交叉熵代价函数的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>分别为多视角并行深度卷积神经网络的待训练参数;/>为Softmax分类器的输入。
根据第一方面,在第一方面的第四种可能的实现方式中,所述利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性步骤,具体包括以下步骤:
顺次利用所述多视角并行深度卷积神经网络的卷积层、池化层及全连接层对所述多视角声图数据集进行识别,得到待测目标的类别属性。
根据第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述卷积层的计算公式如下:
;
其中,;
式中,为卷积运算;/>为非线性激活函数;/>为第/>层卷积层中的第/>个特征图;/>为神经网络中第/>个特征图与第/>层卷积层中的第/>个特征图的卷积核,/>为第层卷积层中的第/>个特征图的偏置;/>为第/>层卷积层中的第/>个特征图的Softmax分类器输入。
根据第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述池化层的计算公式如下:
;
式中,和/>为池化窗尺寸;/>分别为第/>层卷积层中的第/>个特征图的x轴和y轴坐标;/>、/>分别为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为最大池化窗函数。
根据第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述全连接层设置为Softmax分类器,所述Softmax分类器的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>为Softmax分类器的输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入。
根据第一方面,在第一方面的第八种可能的实现方式中,在所述获取待测目标在同一声呐的多视角观测下的多视角声图数据集步骤之后,具体包括以下步骤:
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行方位旋转:
;
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行图像灰度增强处理:
;
式中,为相对于目标方向的待测目标方位旋转角度,/>为声呐图像中目标像素的原始坐标,/>为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为幂变换因子。
第二方面,提供了一种基于多视角声图的深度学习目标自动识别系统,包括:
多视角获取模块,用于获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
样本选取模块,与所述多视角获取模块通信连接,用于对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
训练模块,与所述样本选取模块通信连接,用于基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;以及,
识别模块,与所述多视角获取模块及所述训练模块通信连接,用于利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性。
与现有技术相比,本发明的优点如下:首先利用多视角样本增广方法,对原始声图样本进行扩充,得到充足的训练数据。在此基础上,基于误差反向传播算法及交叉熵代价函数,建立多视角并行深度卷积神经网络,对多视角声呐图像训练样本进行深度渐进学习,在有限的原始声图样本条件下,实现了目标的准确分类识别。
附图说明
图1是本发明一种基于多视角声图的深度学习目标自动识别方法的一实施例的流程示意图;
图2是本发明的多视角水下目标成像几何模型的示意图;
图3是本发明的多视角声图数据集进行样本增广的示意图;
图4是本发明一种基于多视角声图的深度学习目标自动识别系统的结构示意图。
具体实施方式
现在将详细参照本发明的具体实施例,在附图中例示了本发明的例子。尽管将结合具体实施例描述本发明,但将理解,不是想要将本发明限于所述的实施例。相反,想要覆盖由所附权利要求限定的在本发明的精神和范围内包括的变更、修改和等价物。应注意,这里描述的方法步骤都可以由任何功能块或功能布置来实现,且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
注意:接下来要介绍的示例仅是一个具体的例子,而不作为限制本发明的实施例必须为如下具体的步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本发明的构思来构造本说明书中未提到的更多实施例。
参见图1,本发明实施例提供一种基于多视角声图的深度学习目标自动识别方法,包括以下步骤:
S100,获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
在实际水下目标探测任务中,大多以同一俯仰角、不同成像方位视角对同一目标进行成像。此时,俯仰角定义为声纳与待测目标连线、并与地理正北方向的夹角。单个声纳一次航过只能采集到待测目标一个视角的图像。同时参见图2,给定视角区间和视角数/>,,在声纳变化的视角上获取一系列水下目标的多视角声纳图像。
多视角声图数据集为,其中/>,声图尺寸/>,/>为任意一个属于视角区间/>的单视角声图样本。因此本发明需判断多视角声图数据集/>的类别属性。
S200,对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
S300,基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;
S400,利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性。
具体地,本实施例中,本发明首先利用多视角样本增广方法,对原始声图样本进行扩充,得到充足的训练数据。在此基础上,基于误差反向传播算法及交叉熵代价函数,建立多视角并行深度卷积神经网络,对多视角声呐图像训练样本进行深度渐进学习,在有限的原始声图样本条件下,实现了目标的准确分类识别。
优选地,在本申请另外的实施例中,所述“S200,按预设条件对所述多视角声图数据集进行样本增广,得到声呐图像训练样本”步骤,具体包括以下步骤:
在所述多视角声图数据集中获取包括同一视角类目标声呐图像的所有视角声图组合;
在所述多视角声图数据集中获取包括同一视角类目标声呐图像的所有视角声图组合数如下:
;
在包括同一视角类目标声呐图像的每一视角声图组合中,按方位角进行排序,并选取属于预设声呐视角区间内的声呐图像训练样本;
式中,k为视角数;为多视角声图数据集中样本数量。
具体地,本实施例中,由于理论上在图2所示的成像模型中可以有无限多个多视角样本组合产生的可能。然而,实际中受声纳数据采集条件和成本的限制,很难直接基于上述模型获取大量的多视角声图数据集。因此为了解决这一问题,本发明需要对多视角声图数据集进行样本增广,用于产生大量的多视角声图数据集作为后续的网络深度学习训练样本。
设为采集的原始多视角声图数据集,样本集/>为属于类别标签/>的声图水下目标图像,声呐检测各目标时对应的方位角为/>,其中为样本类别标签,/>为目标样本类别数,即每个视角采集到的一个声呐图像对应于一个目标样本类别。
给定视角数,可以获得包括同一视角类目标声呐图像的所有视角声图组合,其视角声图组合数量为/>。对每一个视角声图组合中的目标声纳图像,按目标方位角进行排序:/>或/>。最后,处于同一视角区间/>中的/>类多视角声图目标样本组合,即/>,被保留作为深度神经网络的训练样本。同时参见图3所示,能够将六个原始声图数据集增广为九个三视角声呐图像训练样本组合。随着视角数和视角区间的增大,本发明可以从有限的各类原始声图样本中得到大量的多视角声图样本组合,以满足深度神经网络的有效训练。
由于单视角声图目标识别性能会随视角变化而产生起伏波动,而样本增广后的多视角声图可以补充单视角声图中识别信息的波动或缺失,增加了目标识别的信息量,与原始声图相比具有较强的不相关性。因此,目标的分类识别信息在不同的观测视角组合中得到了增强。
优选地,在本申请另外的实施例中,所述“S300,基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络”步骤,具体包括以下步骤:
基于误差反向传播算法,利用所述声呐图像训练样本对卷积神经网络进行迭代训练,并利用交叉熵代价函数根据每一次迭代训练结果优化卷积神经网络;
当检测到交叉熵代价函数取得全局最小值时,得到对应的多视角并行深度卷积神经网络。
优选地,在本申请另外的实施例中,所述交叉熵代价函数的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>分别为多视角并行深度卷积神经网络的待训练参数;/>为Softmax分类器的输入。
具体地,本实施例中,在深度网络训练阶段,通过不断的更新网络参数和/>,代价函数逐步达到收敛,最终使得整个深度网络的待求参数/>和/>得到最优取值,从而输出训练完成的多视角并行深度卷积神经网络/>。
通过使用误差反向传播算法和所述声图样本中的训练样本对卷积神经网络进行迭代训练,误差反向传播算法的目的是计算全连接层梯度并迭代更新待训练的网络参数,最终使得交叉熵代价函数取得全局最小值。具体的迭代训练与网络参数更新过程为:
公式(一);
其中,和/>为多视角并行深度卷积神经网络的待训练参数,/>为学习率。
误差反向传播算法首先计算深度网络各层中神经元的中间误差。其中,中间误差/>与交叉熵代价函数对待训练网络参数的偏导数相关。输出层误差项的表达式为:
;
然后,计算误差项,并将误差反向传播至深度网络的各层中。对于卷积层,第层的误差项可以由卷积核与第/>层的误差项求得:
;
其中,函数表示对矩阵进行/>的旋转操作,符号/>表示矩阵各元素间相乘。
对于最大池化层,第层的误差项可以表示为:
;
其中,函数表示上采样操作,即将误差反向传播至取得最大池化的对应元素位置上,其余元素值为零。
当多视角并行深度卷积神经网络各层的误差项求得之后,计算偏导数和/>,计算公式为:
;
利用这两个公式求得代价函数对网络参数的偏导数。代入至上面的公式(一)中,更新待训练的网络参数。循环以上步骤,直到代价函数达到收敛,即取得全局最小值时结束循环,得到此时对应的多视角并行深度卷积神经网络。
优选地,在本申请另外的实施例中,所述利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性步骤,具体包括以下步骤:
顺次利用所述多视角并行深度卷积神经网络的卷积层、池化层及全连接层对所述多视角声图数据集进行识别,得到待测目标的类别属性。
优选地,在本申请另外的实施例中,所述卷积层的计算公式如下:
;
其中,;
式中,为卷积运算;/>为非线性激活函数;/>为第/>层卷积层中的第/>个特征图;/>为神经网络中第/>个特征图与第/>层卷积层中的第/>个特征图的卷积核/>为第层卷积层中的第/>个特征图的偏置;/>为第/>层卷积层中的第/>个特征图的Softmax分类器输入。
具体地,本实施例中,卷积层利用特定尺寸的卷积核与前一层的特征图进行卷积运算,得到多个特征图,实现对输入多视角声图目标样本的特征学习,是整个多视角并行深度卷积神经网络的核心部分。此外,卷积层中所有的空间位置共享相同的卷积核,有效地减少了待学习的网络参数数量。
在卷积层中有四个需要确定的网络超参数:特征图个数、卷积核尺寸、卷积步长和特征图边缘填充尺寸。一般的,随着网络层级的加深,后端的特征图个数要大于前端特征图个数。此外,各卷积核的尺寸与卷积步长会直接影响输出特征图的尺寸与网络的学习性能。同时较小的卷积核尺寸与较短的卷积步长可以使深度网络获得更好的学习效果。对于任意卷积层来说,如果输入特征图的尺寸为,卷积核尺寸为/>,卷积步长为/>,特征图边缘填充尺寸为/>,则输出特征图的尺寸为/>。
需要说明的是,卷积层连接的非线性激活函数旨在增加多视角并行深度卷积神经网络的非线性特性,进而增强深度网络的非线性信息处理能力。常用的非线性激活函数有Sigmoid 函数、双曲正切函数、修正线性单元(Rectified Linear Units, ReLUs)等。其中,ReLUs 是目前深度神经网络中使用最广泛的非线性激活函数。它可以简化深度网络的信息处理过程,不需要额外的预训练过程即可使得深度网络达到优化收敛。因此,多视角并行深度卷积神经网络在各卷积层之后使用 ReLUs 作为非线性激活函数,以增加深度网络的信息处理和表达能力。ReLUs 的具体表达式为:
。
优选地,在本申请另外的实施例中,所述池化层的计算公式如下:
;
式中,和/>为池化窗尺寸;/>分别为第/>层卷积层中的第/>个特征图的x轴和y轴坐标;/>、/>分别为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为最大池化窗函数。
具体地,本实施例中,池化层对特征图不同位置上的特征进行聚合处理,逐步实现多视角声图低层次到高层次的特征表达。此外,池化操作可以降低输入声图或特征图的维数,降低深度网络的计算复杂度,防止网络过拟合。常用的池化操作有最大池化(MaxPooling)和平均池化(Average Pooling)。最大池化通过选择池化窗中对应特征图的最大值作为返回值,平均池化计算池化窗对应特征图的数值平均来得到池化结果。本发明使用的为最大池化操作。
需要说明的是,池化操作是一种对多视角声图或特征图的局部处理,使用太大的池化窗会丢失多视角声图的局部信息,不利于图像信息的发掘。
实际中可用的多视角声图样本有限,较少的训练样本会导致深度神经网络的过拟合,严重影响网络的泛化能力。随机失活操作是防止深度网络过拟合的一种有效的手段。在深度网络的每次训练中,随机失活通过随机的将隐层网络的神经元设置为零,使用剩下的神经元进行网络参数更新,以达到增强网络泛化能力的目的。因此可对最后一个卷积层进行随机失活操作,以达到增强深度网络泛化能力的目的。
优选地,在本申请另外的实施例中,所述全连接层设置为Softmax分类器,所述Softmax分类器的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>为Softmax分类器的输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入。
具体地,本实施例中,输入多视角声图样本组合在经过并行深度卷积神经网络的卷积和池化处理后,形成了一个高维的特征向量,并与后端的全连接层相连。全连接层设置为Softmax分类器,通过Softmax分类器得到输入样本组合的类别后验概率,最终判断出待测目标的类别属性。
优选地,在本申请另外的实施例中,在所述“S100,获取待测目标在同一声呐的多视角观测下的多视角声图数据集”步骤之后,具体包括以下步骤:
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行方位旋转:
;
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行图像灰度增强处理:
;
式中,为相对于目标方向的待测目标方位旋转角度,/>为声呐图像中目标像素的原始坐标,/>为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为幂变换因子。
具体地,本实施例中,在得到多视角声图数据集后,需要对齐进行预处理。通常,目标的声纳图像切片主要由目标区域、阴影区域和杂波区域三个部分构成。声纳成像结果对视角变化具有高度敏感性,目标的方位趋向和散射特性在多视角声纳图像中易变性明显。为了减少多视角声纳图像中目标方位的差异对识别结果造成的不利影响,同时保留目标的多视角散射特性,根据目标方位角大小,在图像中对各训练和测试声图目标旋转特定的角度,使得所有目标在图像中具有相同的方位趋向。
此外图像灰度增强方面,可以利用基于Gamma变换的图像处理技术对多视角声图进行增强处理。
虽然本发明是基于多视角声图的深度学习目标自动识别方法,其训练阶段的计算复杂度与普通的深度卷积神经网络处于相同的量级。
在测试阶段,各卷积层中的计算复杂度为,其中/>为特征图的大小,/>为卷积核的尺寸,/>为卷积核的个数,/>为输入特征图的个数。各池化层中的计算复杂度为/>,远小于各卷积层中的计算复杂度。假设多视角并行深度卷积神经网络中共有/>个卷积层与/>个池化层,则深度网络中总的计算复杂度为。在大多数情况下,/>和/>的值远小于输入特征图的尺寸。因此,多视角并行深度卷积神经网络总的计算复杂度为/>,其中/>为输入多视角声图尺寸。因此,相比普通的深度卷积神经网络,本发明提出的多视角并行深度网络并没有增加额外的计算复杂度,可以有效地应用于多视角声图目标识别。
同时参见图4所示,本发明实施例还提供了一种基于多视角声图的深度学习目标自动识别系统,包括:
多视角获取模块,用于获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
样本选取模块,与所述多视角获取模块通信连接,用于对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
训练模块,与所述样本选取模块通信连接,用于基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;以及,
识别模块,与所述多视角获取模块及所述训练模块通信连接,用于利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性。
因此,本发明首先利用多视角样本增广方法,对原始声图样本进行扩充,得到充足的训练数据。在此基础上,基于误差反向传播算法及交叉熵代价函数,建立多视角并行深度卷积神经网络,对多视角声呐图像训练样本进行深度渐进学习,在有限的原始声图样本条件下,实现了目标的准确分类识别。
具体的,本实施例与上述方法实施例一一对应,各个模块的功能在相应的方法实施例中已经进行详细说明,因此不再一一赘述。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的所有方法步骤或部分方法步骤。
本发明实现上述方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
基于同一发明构思,本申请实施例还提供一种电子设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述方法中的所有方法步骤或部分方法步骤。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(例如声音播放功能、图像播放功能等);存储数据区可存储根据手机的使用所创建的数据(例如音频数据、视频数据等)。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、服务器和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种基于多视角声图的深度学习目标自动识别方法,其特征在于,包括以下步骤:
获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;
利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性;
所述对所述多视角声图数据集进行样本增广,得到声呐图像训练样本步骤,具体包括以下步骤:
在所述多视角声图数据集中获取包括同一视角类目标声呐图像的所有视角声图组合数如下:
;
在包括同一视角类目标声呐图像的每一视角声图组合中,按方位角进行排序,并选取属于预设声呐视角区间内的声呐图像训练样本;
式中,k为视角数;为多视角声图数据集中样本数量。
2.如权利要求1所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络步骤,具体包括以下步骤:
基于误差反向传播算法,利用所述声呐图像训练样本对卷积神经网络进行迭代训练,并利用交叉熵代价函数根据每一次迭代训练结果优化卷积神经网络;
当检测到交叉熵代价函数取得全局最小值时,得到对应的多视角并行深度卷积神经网络。
3.如权利要求2所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述交叉熵代价函数的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>分别为多视角并行深度卷积神经网络的待训练参数;/>为Softmax分类器的输入。
4.如权利要求1所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性步骤,具体包括以下步骤:
顺次利用所述多视角并行深度卷积神经网络的卷积层、池化层及全连接层对所述多视角声图数据集进行识别,得到待测目标的类别属性。
5.如权利要求4所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述卷积层的计算公式如下:
;
其中,;
式中,为卷积运算;/>为非线性激活函数;/>为第/>层卷积层中的第/>个特征图;/>为神经网络中第/>层卷积层中的第/>个特征图与第/>个特征图的卷积核,/>为第/>层卷积层中的第/>个特征图的偏置;/>为第/>层卷积层中的第/>个特征图的Softmax分类器输入。
6.如权利要求4所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述池化层的计算公式如下:
;
式中,和/>为池化窗尺寸;/>,/>分别为第/>层卷积层中的第/>个特征图的x轴和y轴坐标;/>、/>分别为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为最大池化窗函数。
7.权利要求4所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,所述全连接层设置为Softmax分类器,所述Softmax分类器的计算公式如下:
;
式中,为待测目标的声呐图像视角类别标签,/>为待测目标的声呐图像视角类别数;/>为Softmax分类器的输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入;/>为第L层卷积层中的第/>个特征图的Softmax分类器输入。
8.如权利要求1所述的基于多视角声图的深度学习目标自动识别方法,其特征在于,在所述获取待测目标在同一声呐的多视角观测下的多视角声图数据集步骤之后,具体包括以下步骤:
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行方位旋转:
;
对所述多视角声图数据集中的每个单视角目标声呐图像通过如下公式进行图像灰度增强处理:
;
式中,为相对于目标方向的待测目标方位旋转角度,/>为声呐图像中目标像素的原始坐标,/>为原始坐标经方位旋转后对应的声呐图像中目标像素坐标;/>为幂变换因子。
9.一种基于多视角声图的深度学习目标自动识别系统,其特征在于,包括:
多视角获取模块,用于获取待测目标在同一声呐的多视角观测下的多视角声图数据集;
样本选取模块,与所述多视角获取模块通信连接,用于对所述多视角声图数据集进行样本增广,得到声呐图像训练样本;
训练模块,与所述样本选取模块通信连接,用于基于误差反向传播算法及交叉熵代价函数,并利用所述声呐图像训练样本对卷积神经网络进行迭代训练,得到多视角并行深度卷积神经网络;以及,
识别模块,与所述多视角获取模块及所述训练模块通信连接,用于利用所述多视角并行深度卷积神经网络对所述多视角声图数据集进行识别,得到待测目标的类别属性;
所述样本选取模块,还用于在所述多视角声图数据集中获取包括同一视角类目标声呐图像的所有视角声图组合数如下:
;
在包括同一视角类目标声呐图像的每一视角声图组合中,按方位角进行排序,并选取属于预设声呐视角区间内的声呐图像训练样本;
式中,k为视角数;为多视角声图数据集中样本数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311720304.0A CN117437409A (zh) | 2023-12-14 | 2023-12-14 | 基于多视角声图的深度学习目标自动识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311720304.0A CN117437409A (zh) | 2023-12-14 | 2023-12-14 | 基于多视角声图的深度学习目标自动识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117437409A true CN117437409A (zh) | 2024-01-23 |
Family
ID=89551777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311720304.0A Pending CN117437409A (zh) | 2023-12-14 | 2023-12-14 | 基于多视角声图的深度学习目标自动识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437409A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038445A (zh) * | 2017-12-11 | 2018-05-15 | 电子科技大学 | 一种基于多视角深度学习框架的sar自动目标识别方法 |
US20200379104A1 (en) * | 2018-10-10 | 2020-12-03 | Farsounder, Inc. | Three-dimensional forward-looking sonar target recognition with machine learning |
CN113505833A (zh) * | 2021-07-12 | 2021-10-15 | 电子科技大学 | 基于多视角可变卷积神经网络的雷达自动目标识别方法 |
CN113807324A (zh) * | 2021-11-02 | 2021-12-17 | 中国人民解放军32021部队 | 一种声呐图像识别方法、装置、电子设备和储存介质 |
US20230052727A1 (en) * | 2019-12-17 | 2023-02-16 | Abyss Solutions Pty Ltd | Method and system for detecting physical features of objects |
CN115993602A (zh) * | 2022-11-11 | 2023-04-21 | 航天科工深圳(集团)有限公司 | 一种基于前视声呐的水下目标检测及定位方法 |
CN116778341A (zh) * | 2023-07-21 | 2023-09-19 | 电子科技大学 | 一种雷达图像多视角特征提取与鉴别方法 |
-
2023
- 2023-12-14 CN CN202311720304.0A patent/CN117437409A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038445A (zh) * | 2017-12-11 | 2018-05-15 | 电子科技大学 | 一种基于多视角深度学习框架的sar自动目标识别方法 |
US20200379104A1 (en) * | 2018-10-10 | 2020-12-03 | Farsounder, Inc. | Three-dimensional forward-looking sonar target recognition with machine learning |
US20230052727A1 (en) * | 2019-12-17 | 2023-02-16 | Abyss Solutions Pty Ltd | Method and system for detecting physical features of objects |
CN113505833A (zh) * | 2021-07-12 | 2021-10-15 | 电子科技大学 | 基于多视角可变卷积神经网络的雷达自动目标识别方法 |
CN113807324A (zh) * | 2021-11-02 | 2021-12-17 | 中国人民解放军32021部队 | 一种声呐图像识别方法、装置、电子设备和储存介质 |
CN115993602A (zh) * | 2022-11-11 | 2023-04-21 | 航天科工深圳(集团)有限公司 | 一种基于前视声呐的水下目标检测及定位方法 |
CN116778341A (zh) * | 2023-07-21 | 2023-09-19 | 电子科技大学 | 一种雷达图像多视角特征提取与鉴别方法 |
Non-Patent Citations (1)
Title |
---|
刘建平PINARD: "卷积神经网络反向传播算法", pages 1 - 5, Retrieved from the Internet <URL:https://www.cnblogs.com/pinard/p/6494810.html> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
Li et al. | Improved point-voxel region convolutional neural network: 3D object detectors for autonomous driving | |
CN111199214B (zh) | 一种残差网络多光谱图像地物分类方法 | |
Guo et al. | Multiview high dynamic range image synthesis using fuzzy broad learning system | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
Kashyap | Breast cancer histopathological image classification using stochastic dilated residual ghost model | |
CN112529146B (zh) | 神经网络模型训练的方法和装置 | |
CN111340077B (zh) | 基于注意力机制的视差图获取方法和装置 | |
CN110516803A (zh) | 将传统计算机视觉算法实现为神经网络 | |
CN111680755B (zh) | 医学图像识别模型构建及医学图像识别方法、装置、介质及终端 | |
CN111126385A (zh) | 一种可变形活体小目标的深度学习智能识别方法 | |
Shu et al. | LVC-Net: Medical image segmentation with noisy label based on local visual cues | |
CN113743417B (zh) | 语义分割方法和语义分割装置 | |
Zeng et al. | Sese-net: Self-supervised deep learning for segmentation | |
US20220076062A1 (en) | Image processing device and operation method thereof | |
US20210272295A1 (en) | Analysing Objects in a Set of Frames | |
CN112465909A (zh) | 基于卷积神经网络的类激活映射目标定位方法及系统 | |
Tian et al. | Context-aware dynamic feature extraction for 3D object detection in point clouds | |
Fan et al. | A novel sonar target detection and classification algorithm | |
CN115861617A (zh) | 语义分割模型训练方法、装置、计算机设备和存储介质 | |
Janneh et al. | Multi-level feature re-weighted fusion for the semantic segmentation of crops and weeds | |
Madessa et al. | A deep learning approach for specular highlight removal from transmissive materials | |
Haque et al. | Image-based identification of maydis leaf blight disease of maize (Zea mays) using deep learning | |
Shi et al. | Synthetic aperture radar SAR image target recognition algorithm based on attention mechanism | |
Wang et al. | Fused adaptive receptive field mechanism and dynamic multiscale dilated convolution for side-scan sonar image segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |