CN116206248A - 一种基于机器学习引导深度学习的目标检测方法 - Google Patents

一种基于机器学习引导深度学习的目标检测方法 Download PDF

Info

Publication number
CN116206248A
CN116206248A CN202310473636.7A CN202310473636A CN116206248A CN 116206248 A CN116206248 A CN 116206248A CN 202310473636 A CN202310473636 A CN 202310473636A CN 116206248 A CN116206248 A CN 116206248A
Authority
CN
China
Prior art keywords
convolution
feature map
layer
network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310473636.7A
Other languages
English (en)
Other versions
CN116206248B (zh
Inventor
狄丹阳
高江林
刘达
白渝
孙斌
孙军红
徐利剑
王全
李萌
王锦辉
陈良捷
陈芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center
Original Assignee
Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center filed Critical Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center
Priority to CN202310473636.7A priority Critical patent/CN116206248B/zh
Publication of CN116206248A publication Critical patent/CN116206248A/zh
Application granted granted Critical
Publication of CN116206248B publication Critical patent/CN116206248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

发明公开了一种基于机器学习引导深度学习的目标检测方法,包括以下步骤:对输入的“气‑液”交界面图像数据集进行数据增强处理;在主干网络中的瓶颈层引入初始模块;在初始模块中采用分组卷积;在主干网络中的瓶颈层引入全局注意力机制;采用选择性舍弃神经元进行隐藏部分特征节点操作;进行随机纠正线性单元激活函数激活处理;对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理。本发明的有益效果是:将机器学习和深度学习的优势互补,优化基于区域推荐网络的实时目标检测方法的网络结构,提升排水管道“气‑液”交界面目标检测的平均精度。

Description

一种基于机器学习引导深度学习的目标检测方法
技术领域
本发明属于市政排水管道目标检测技术、数据处理技术以及人工智能技术领域,具体涉及一种基于机器学习引导深度学习的目标检测方法。
背景技术
目标检测是计算机视觉研究的重点问题之一,是理解图像高层语义信息的重要基础。目标检测的主要任务是根据输入图像定位感兴趣的目标并给出类别信息,输出结果通常是在输入图像的基础上,以边界框的形式标识目标的具体位置并在矩形框的上方显示类别信息和置信度分数。随着深度学习和人工智能技术的蓬勃发展,将深度学习技术应用到图像处理领域已经成为当代科学计算机技术的趋势。深度学习的发展推动了图像目标检测技术的进步,本发明基于深度学习实现排水管道“气-液”交界面的检测,对原有算法进行改进,提高“气-液”交界面识别的准确率和速率。
区域推荐网络是一种常见的目标检测算法,其中舍弃神经元是卷积神经网络中避免深度网络过拟合的重要技术之一。其思想来源于生物神经科学的研究:人脑中的神经元并不是同时被激活,而是一直处于稀疏激活的状态。舍弃神经元的主要思想是:在当前批样本的训练过程中,随机让网络中某些隐层节点的权值置为0,这些节点可以理解为暂时不工作,不属于网络结构的一部分。待下一批样本输入网络训练时,若该节点没有被随机置为0,则更新节点的权值,使其重新纳入网络结构中。
然而,舍弃神经元时权值置0的操作是随机的,这是一种“平均模型”思想的体现。但对于视觉神经中,并不是所有的卷积核都是等同价值的。对于“气-液”交界面检测而言,“气-液”的边缘特征提取的卷积核作用要大于平面特征提取的卷积核。所以,在舍弃神经元中随机置0并非最优的方案,而需要根据权值的重要性有选择的置为0。即是,在“气-液”交界面检测中交界面的卷积核置为0的概率要小于非交界面的卷积核。因此,如何考虑在训练中将某些节点置为0的概率提升是影响最后“气-液”交界面检测结果的重要问题。
区域推荐网络中的感兴趣区域池化层采用的是一个单层的下采样层,使不同大小的特征映射通过下采样归一化到相同的尺寸。但大物体检测在低分辨率特征图上预测效果较好,也就是低分辨率特征图具有深层特征,和全局的感受野。小物体在底层高分辨率特征图上的预测较好,因为一些细节比如边缘在放大后预测的结果更好。在“气-液”交界面检测中,交界面情况是较为复杂的,既存在明显的边缘特征,也有微小的边缘特征,所以原有的感兴趣区域池化层采用单层的下采样层对“气-液”交界面特征图进行提取,极有可能丢失一些物体信息,影响交界面识别效果。所以,如何实现多尺度特征提取和融合是提高 “气-液”交界面识别能力的关建问题之一。
以深度残差网络-101为主干网络提取“气-液”交界面的特征图时,原瓶颈层采用的是3×3的卷积核。在提取特征时容易导致一些特征的缺失。同时采用3×3的卷积核,所计算的参数量非常巨大,造成网络的训练时间较长。因此改变卷积的方式也是提高 “气-液”交界面识别能力的关建问题之一。
深度残差网络-101网络中的激活函数采用了整流线性单元,虽然具备更好的稀疏激活(单侧抑制)特性和宽阔的兴奋边界,但对于负信号整流线性单元函数却采取了完全抑制的方式。所以,采用整流线性单元函数作为激活函数,极有可能导致“气-液”交界面信息的缺失,从而影响到深度学习网络对“气-液”交界面识别能力。因此,选择其他激活函数或者对整流线性单元函数进行改进,使得网络对负信号也有响应,也是提高区域推荐网络识别“气-液”交界面的能力的关键要素之一。
在视觉神经中,很多图片所含的一些信息是无用的特征,这些特征信息可能会影响到深度学习网络的性能。所以,让深度学习网络更注重于目标区域,主动学习有用的特征,同时尽可能的忽略其他特征,使得网络对有用的特征给予较大的权重,对无用的特征给予较小的权重。在“气-液”交界面识别过程,要给予深度学习网络主动学习“气-液”交界面两侧特征差异的能力,这也是提高区域推荐网络识别“气-液”交界面精度的关键要素之一。
综上,如何改进舍弃神经元、网络构造、激活函数、卷积方式以及引入全局注意力机制模块是进一步提高区域推荐网络的“气-液”交界识别能力的关键,同时也是目前改进区域推荐网络需要考虑的核心问题。
发明内容
针对以上问题,本发明的目的在于提供一种基于机器学习引导深度学习的目标检测方法,通过改进的选择性舍弃神经元、金字塔感兴趣池化层、随机纠正线性单元激活,以及引入全局注意力机制、数据增强、分组卷积以及初始模块,增加网络的人工导向性,提高区域推荐网络对“气-液”交界面的识别能力,提高识别精度。
本发明采用的技术方案如下:一种基于机器学习引导深度学习的目标检测方法,对排水管道“气-液”交界面进行目标检测,包括以下步骤:
步骤一,对输入的“气-液”交界面图像数据集进行数据增强处理,增加“气-液”交界面图像数据集的多样性以及数量;
步骤二,在主干网络中的瓶颈层引入初始模块,初始模块会对数据增强后的“气-液”交界面图像数据集进行进一步处理;
步骤三,在初始模块的5×5卷积和3×3卷积的卷积操作中采用分组卷积;
步骤四,再次在主干网络中的瓶颈层引入全局注意力机制;
步骤五,采用选择性舍弃神经元进行隐藏部分特征节点操作,得到主干网络和初始模块卷积操作时所需要的权值;
步骤六,将步骤五中输出的结果进行随机纠正线性单元激活函数激活处理,提高目标检测的准确性;
步骤七,对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理,提高目标检测的精度;
步骤一对输入的“气-液”交界面图像数据集进行数据增强处理,该处理操作包括整合数据增强和直方图均衡化数据增强两部分内容,具体如下:
步骤S11:整合数据增强方法,具体步骤如下:
从输入的“气-液”交界面图像数据集中随机选择4张图像作为整合操作的输入;对随机选择的每张图像进行裁剪和缩放,将处理后的4张图像再随机排列拼接成一张图像;
步骤S12:直方图均衡化数据增强方法,具体步骤如下:
根据直方图计算累积分布函数,即每个像素值及其以下像素值出现的概率;根据累积分布函数计算映射表,用于快速查找每个像素值的新值;遍历图像中的每个像素,使用映射表查找每个像素值的新值,并更新像素值。
进一步的,步骤二,在主干网络中的瓶颈层引入初始模块,初始模块会对数据增强后的“气-液”交界面图像数据集进行进一步处理,具体步骤包括:
步骤S21:数据增强后的“气-液”交界面特征图经瓶颈层的第一个1×1的卷积层后,形成的64维的特征图F以四条路径进入初始模块;
步骤S22:第一条路径:设置卷积核个数为16,特征图F的维度降为16,得到特征图G;
步骤S23:第二条路径:特征图F先经过第一个1×1的卷积层,降低特征图维度,得到特征图H;第二个卷积层的卷积核个数设置为32,并且3×3的卷积采用分组卷积,对输入特征图H进行特征提取,得到特征图I;
步骤S24:第三条路径:特征图F先经过第一个1×1的卷积层,降低特征图维度,得到特征图J;第二个卷积层的卷积核个数设置为8,并且5×5的卷积采用分组卷积,对输入特征图J进行特征提取,得到特征图K;
步骤S25:第四条路径:特征图F先经过3×3的池化层得到特征图L;再经过卷积核为8,高宽为1×1的卷积层,得到特征图M;
步骤S26:四条路径分别得到高宽不变,维度分别为16、32、8、8的特征图G、I、K、M;将这四个特征图G、I、K、M进行拼接形成64维的特征图N。
进一步的,步骤三,在初始模块的5×5卷积和3×3卷积的卷积操作中采用分组卷积;具体步骤包括:
步骤S31:初始模块中第二条路径的特征图H和第三条路径中的特征图J分别设置为g份;
步骤S32:3×3、5×5的卷积核也设置为g份,卷积核大小保持不变;
步骤S33:被分组的卷积核对对应的特征图H以及特征图J进行特征提取。
进一步的,步骤四,再次在主干网络中的瓶颈层引入全局注意力机制,具体步骤包括:
步骤S41:在瓶颈层的第三个卷积层后面加入全局注意力机制中的通道注意力机制模块,特征图F在初始模块中形成特征图N将经过1×1的卷积层后进入全局注意力机制中的通道注意力机制模块,最后得到特征图O;
步骤S42:将特征图O输入全局注意力机制中的空间注意力机制模块,特征图O经过全局注意力机制中的空间注意力机制模块处理后得到特征图P;
步骤S43:将特征图P与上一瓶颈层的输出特征图相加得到特征图Q,并作为结果输出传入主干网络的下一层。
进一步的,步骤五,采用选择性舍弃神经元进行隐藏部分特征节点操作,得到主干网络和初始模块卷积操作时所需要的权值;具体步骤包括:
S51:进行第一次排水管道“气-液”交界面图像识别训练;使用选择性舍弃神经元,在主干网络的瓶颈层以及初始模块进行卷积操作时将有部分权值随机置为0,记录下该部分权值所对应的节点位置;
S52:将主干网络中所有随机置0的权值对应节点位置所处的特征映射和未被置0的权值对应节点位置所处的特征映射分别作为正负样本值,正样本为有“气-液”交界面的图像区域,负样本为不含“气-液”交界面的图像区域;
S53:将所有随机置0的权值和未被置0的权值作为正负样本标签,送入支持向量机进行训练;
S54:进行第二次排水管道 “气-液”交界面图像识别训练;将主干网络中每一隐含层中的每个节点都使用一个支持向量机判断该节点的权值是否置0,对分类判断为正样本的节点即置0的权值节点,将其置0的概率提高
Figure SMS_1
倍;
S55:再次对主干网络每一隐含层进行舍弃神经元操作,每个节点的置0的权值概率将不同,最终主干网络每一隐含层得到经过选择性舍弃神经元后筛选的权值,该权值即为主干网络瓶颈层以及初始模块卷积运算时的权值。
进一步的,步骤六,将步骤五中输出的结果进行随机纠正线性单元激活函数激活处理;具体包括:
激活函数放置于主干网络中卷积处理后的位置,将卷积层中的随机纠正线性单元激活函数定义为公式(1):
Figure SMS_2
(1)
其中,f(x)表示随机纠正线性单元激活函数,x表示输入的待处理数据,α表示参数,由均匀分布U随机产生,
Figure SMS_3
表示区间为/>
Figure SMS_4
的均匀分布,l和u表示均匀分布的上下边界。
进一步的,步骤七,对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理,提高目标检测的精度;随机纠正线性单元激活函数的输出结果即深度残差网络-101提取的特征图和区域候选网络生成的目标候选框,具体步骤包括:
步骤S71:深度残差网络-101对数据增强后的“气-液”交界面图像数据集进行特征提取后形成特征图Q,特征图Q经随机纠正线性单元激活形成维度为2048的特征图R;
步骤S72:特征图R在区域候选网络生成目标候选框;
步骤S73:步骤S72处理得到的目标候选框在步骤S71特征图R上提取得到目标特征图,对目标特征图采用三种卷积核4×4×n、2×2×n和1×1×n进行下采样,分别形成三种不同尺度的特征图,n为特征图维度;
步骤S74:将下采样形成的三种尺度的特征图按首尾相接为(16+4+1)×n维的特征向量;
步骤S75:将步骤S74中处理的特征向量用计算机视觉处理库OpenCV中的展开函数处理形成(16+4+1)×n的一维向量;
步骤S76:将步骤S75中展开函数处理的一维特征向量输入全连接层,实现“气-液”交界面的识别。
本发明的有益效果是:通过采用选择性舍弃神经元、金字塔感兴趣池化层、随机纠正线性单元激活函数、全局注意力机制、分组卷积和初始模块等方法,将机器学习和深度学习优势互补,优化了区域推荐网络的网络结构,提出了一种基于机器学习引导深度学习的目标检测方法,该网络具备更好的学习性能和抗过拟合能力,同时能提高特征提取能力,增加了数据集数量和图片清晰度,提高了网络的训练能力提升了排水管道“气-液”交界面目标检测的平均精度。
附图说明
图1为本发明检测方法流程图。
图2为本发明中深度残差网络-101网络结构示意图。
图3为本发明中初始模块示意图。
图4为本发明分组卷积示意图。
图5为本发明全局注意力机制插入位置与初始模块替换位置示意图。
图6为本发明选择性舍弃神经元示意图。
图7为本发明金字塔感兴趣池化层示意图。
具体实施方式
如图1所示,本发明是这样来工作和实施的,一种基于机器学习引导深度学习的目标检测方法,其步骤为:
步骤一,对输入的“气-液”交界面图像数据集进行数据增强处理,增加“气-液”交界面图像数据集的多样性以及数量;
步骤二,在主干网络中的瓶颈层引入初始模块,初始模块会对数据增强后的“气-液”交界面图像数据集进行进一步处理;
步骤三,在初始模块的5×5卷积和3×3卷积的卷积操作中采用分组卷积;
步骤四,再次在主干网络中的瓶颈层引入全局注意力机制;
步骤五,采用选择性舍弃神经元进行隐藏部分特征节点操作,得到主干网络和初始模块卷积操作时所需要的权值;
步骤六,将步骤五中输出的结果进行随机纠正线性单元激活函数激活处理,提高目标检测的准确性;
步骤七,对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理,提高目标检测的精度;
本发明计算方法包括:
主干网络:即特征提取网络,用于提取特征,通过一组卷积、激活函数以及池化层来提取图像的特征图像,用于后续的区域候选网络层。
区域候选网络:该网络结构用于生成候选框。这里任务有两部分,一个是分类:判断所有预设锚框是属于正样本还是负样本,即锚框内是否有目标;还有一个边界框回归:修正锚框得到较为准确的候选区域。区域候选网络的作用相当于提前做部分检测,即判断是否有目标,以及修正锚框使候选框更准一些。
兴趣域池化层:用于收集区域候选网络生成的候选区域,并从卷积层中的特征图像中提取出来,生成候选区域特征图像送入后续全连接层继续做分类和回归。
分类和回归,利用候选区域特征图像计算出具体类别,同时再做一次边界框回归获得检测框最终的精确位置。
舍弃神经元:是作为缓解卷积过程中过拟合而被提出的一种正则化方法,它会使网络在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作,可以使模型泛化性更强。
激活函数:对数据进行非线性计算,提高网络的处理非线性问题的能力。
舍弃神经元改进包括:所述基于支持向量机引导的选择性舍弃神经元的训练方法,利用机器学习的方法提升了前一次训练时未被权置0的节点在新的训练中权置为0的概率,增加网络学习的学习能力,使得网络学习性能提高。
兴趣域池化层改进包括:所述改进的基于兴趣域池化层的金字塔感兴趣池化层,使得卷积形成的特征图在金字塔感兴趣池化层中形成多尺度的下采样特征图,而后将多尺度的特征进行融合,提高了网络识别物体的能力,进一步提高了识别精度。
激活函数改进包括:改进的基于整流线性单元激活函数的随机纠正线性单元,在原有整流线性单元函数
Figure SMS_5
的基础上,改进的随机纠正线性单元函数为
Figure SMS_6
,随机纠正线性单元对负信号不是采用强制抑制的方式,而是平稳下降,降低了小规模的数据的过拟合,极大的提高了训练成果。
为使得网络能够更注重于“气-液”交界面的分界区域,主动学习有用的特征,同时尽可能忽略其他无用特征,将全局注意力机制模块引入主干网络,使得网络在训练过程中能够提取到更多所感兴趣的特征即“气-液”交界面的分界区域,减少无用特征的提取,从而提高网络的性能。
本发明采用的注意力机制是全局注意力机制;其中通道注意力机制模块使用三维排列来在三个维度上保留信息,然后用一个两层的多层感知机放大跨维通道-空间依赖性;在空间注意力机制模块中,为了关注空间信息,使用两个卷积层进行空间信息融合,全局注意力机制在减少信息弥散的情况下,放大全局维交互特征,从而提升了网络的整体性能。
对标记排水管道的“气-液”交界面的数据集进行随机翻转、裁剪缩放等增加训练集的数量;排水管道中较为昏暗,会影响网络的学习“气-液”交界面的能力,数据增强也可随机改变亮度、对比度、饱和度和色调,在增加数据集时提高对交界面的识别精度。因此,数据增强方法可以进一步提高网络对“气-液”交界面的能力。
所述初始模块,其方法包括:在初始模块中,分别含有1×1、3×3、5×5卷积和池化层,在使用卷积核进行分组卷积操作与池化层进行池化操作时都会使用边缘填充以保证输出都是同尺寸大小,经过这些操作后输出的结果也就是所有“气-液”交界面的特征图像再全部整合在一起。该模块的特性就是在同一层中,分别通过使用上述不同尺寸的卷积核进行分组卷积与进行池化操作收集到了上一层输入的不同特征。这样就增加了网络的宽度,用这些不同尺寸的卷积核和池化操作去提取上一层的不同特征。
所述分组卷积,其方法包括:对输入特征图进行分组,分为g组;同时把卷积核也设置为相同的组分,保持卷积核大小保持不变。被分组的卷积核对对应的特征图进行特征提取,最后将各组处理的特征图进行拼接,输出得到最后的交界面特征图。
分组卷积不仅能得到和原来卷积一样大小的特征图,也能极大的降低了原网络的参数量,加速了网络的收敛速度,提高了对“气-液”加界面识别的速度。
本发明通过选择性舍弃神经元、金字塔感兴趣池化层、随机纠正线性单元激活函数、全局注意力机制、分组卷积和初始模块等方法提升目标检测的精度,各个模块均以修改源代码进行改进,具体步骤如下:
S1:搭建神经网络模型,具体步骤如下:
S11:搭建数据增强模块:调用整合数据增强方法的开源代码,该模块会对“气-液”交界面的数据图片采用旋转、剪切、拼接的方法增加训练图片的数量;同时直接调用直方图均衡化数据增强方法的函数,该方法可增强图像的对比度和亮度,提高排水管道曝光度,在提高“气-液”交界面图片的清晰度时,也增加数据的数量。
S12:搭建初始模块,具体步骤如下:
在图2所示以深度残差网络-101为主体的主干网络中,每个瓶颈层中的特征图经第一个卷积层形成的64维的“气-液”交界面特征图以四条路径进入初始模块(详见图3)。
第一条路径:设置卷积核个数为16,将特征图的维度降为16。
第二条路径:先经过第一个1×1的卷积层,降低特征图维度,第二个卷积层的卷积核个数设置为32,并且卷积采用分组卷积的方法,对输入特征图进行提取。
第三条路径:先经过第一个1×1的卷积层,降低特征图维度,第二个卷积层的卷积核个数设置为8,并且卷积采用分组卷积的方法,对输入特征图进行提取。
第四条路径:先经过3×3卷积层对特征图进行提取,再经过卷积核为8,高宽为1×1的卷积层。
四条路径形成高宽不变,维度分别为16、32、8、8的特征图,将这四个特征图进行拼接形成64维的特征图。
S13:搭建瓶颈层模块,该模块包含卷积、激活函数和全局注意力机制,具体功能如下:
卷积:原瓶颈层中的3×3卷积核以S12中的初始模块代替;以及初始模块中的3×3和5×5的卷积方式采用分组卷积(详见图4),分组卷积特征图和卷积核设置为g份,被分组的卷积核对对应的特征图进行特征提取,极大的降低了参数数量。
激活函数:将卷积层当中原有的整流线性单元激活函数更换为随机纠正线性单元激活函数,重新构建卷积网络中的激活函数。
全局注意力机制:全局注意力机制模块引入到深度残差网络-101的每一个瓶颈层中,且位置都相同(详见图5)。
选择性舍弃神经元:将机器学习的支持向量机模型镶嵌到舍弃神经元函数模块中,组成选择性舍弃神经元。再将选择性舍弃神经元嵌入到深度残差网络-101的每一个瓶颈层以及初始模块中,选择性舍弃神经元示意图见图6。
S2:将数据增强模块、7×7卷积以及新瓶颈层组成全新的主干网络,即深度残差网络-101。
S3:将改进的金字塔感兴趣池化层(见图7)替换原有区域推荐网络中的单层的感兴趣区域池化层,将原排水管道图经卷积形成维度为218的特征图。然后,采用4×4×n、2×2×n和1×1×n进行下采样,将下采样的特征图按首位相接为(16+4+1)×n使得区域推荐网络能适应更多的尺度和形变,实现多尺度特征的提取和融合。
S4:新的主干网络、区域候选网络、金字塔感兴趣池化层、分类和回归四个模块组合形成引导性区域生成网络,即为基于机器学习引导深度学习的目标检测方法。
S5:通过公开数据对所述网络模型进行训练,得到“气-液”交界面识别模型。具体步骤如下:
S51:训练区域候选网络:先使用“气-液”交界面数据集,对深度残差网络-101的预训练权重初始化区域候选网络的共享卷积层,然后训练区域候选网络。
S52:训练区域推荐网络:利用上一步的区域候选网络和更新后的卷积层生成的目标推荐框,以及再次使用深度残差网络-101和初始化共享卷积,共同训练得到区域推荐网络。
S53:重新训练区域候选网络:再次利用区域推荐网络初始化区域候选网络,然后重新训练得到候选区域网络。区域候选网络和区域推荐网络的训练过程是两个单独的过程,二者的联系仅限于将区域候选网络的输出推荐框作为区域推荐网络的输入。利用上一步训练好的区域推荐网络检测网络来初始化区域候选网络,然后重新训练得到区域候选网络。
S54:微调区域推荐网络:重新训练时固定区域候选网络全部卷积层用于共享特征,只微调特有部分权重,即区域候选网络后半部独有的感兴趣区域池化层、分类层和回归层网络层,最终得到训练完成的区域候选网络以及区域推荐网络。
S55:训练之后得到最终完整的“气-液”交界面识别模型。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (7)

1.一种基于机器学习引导深度学习的目标检测方法,对排水管道“气-液”交界面进行目标检测,其特征在于:包括以下步骤:
步骤一,对输入的“气-液”交界面图像数据集进行数据增强处理,增加“气-液”交界面图像数据集的多样性以及数量;
步骤二,在主干网络中的瓶颈层引入初始模块,初始模块会对数据增强后的“气-液”交界面图像数据集进行进一步处理;
步骤三,在初始模块的5×5卷积和3×3卷积的卷积操作中采用分组卷积;
步骤四,再次在主干网络中的瓶颈层引入全局注意力机制;
步骤五,采用选择性舍弃神经元进行隐藏部分特征节点操作,得到主干网络和初始模块卷积操作时所需要的权值;
步骤六,将步骤五中输出的结果进行随机纠正线性单元激活函数激活处理,提高目标检测的准确性;
步骤七,对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理,提高目标检测的精度;
步骤一对输入的“气-液”交界面图像数据集进行数据增强处理,该处理操作包括整合数据增强和直方图均衡化数据增强两部分内容,具体如下:
步骤S11:整合数据增强方法,具体步骤如下:
从输入的“气-液”交界面图像数据集中随机选择4张图像作为整合操作的输入;对随机选择的每张图像进行裁剪和缩放,将处理后的4张图像再随机排列拼接成一张图像;
步骤S12:直方图均衡化数据增强方法,具体步骤如下:
根据直方图计算累积分布函数,即每个像素值及其以下像素值出现的概率;根据累积分布函数计算映射表,用于快速查找每个像素值的新值;遍历图像中的每个像素,使用映射表查找每个像素值的新值,并更新像素值。
2.根据权利要求1所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤二,在主干网络中的瓶颈层引入初始模块,初始模块会对数据增强后的“气-液”交界面图像数据集进行进一步处理,具体步骤包括:
步骤S21:数据增强后的“气-液”交界面特征图经瓶颈层的第一个1×1的卷积层后,形成的64维的特征图F以四条路径进入初始模块;
步骤S22:第一条路径:设置卷积核个数为16,特征图F的维度降为16,得到特征图G;
步骤S23:第二条路径:特征图F先经过第一个1×1的卷积层,降低特征图维度,得到特征图H;第二个卷积层的卷积核个数设置为32,并且3×3的卷积采用分组卷积,对输入特征图H进行特征提取,得到特征图I;
步骤S24:第三条路径:特征图F先经过第一个1×1的卷积层,降低特征图维度,得到特征图J;第二个卷积层的卷积核个数设置为8,并且5×5的卷积采用分组卷积,对输入特征图J进行特征提取,得到特征图K;
步骤S25:第四条路径:特征图F先经过3×3的池化层得到特征图L;再经过卷积核为8,高宽为1×1的卷积层,得到特征图M;
步骤S26:四条路径分别得到高宽不变,维度分别为16、32、8、8的特征图G、I、K、M;将这四个特征图G、I、K、M进行拼接形成64维的特征图N。
3.根据权利要求2所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤三,在初始模块的5×5卷积和3×3卷积的卷积操作中采用分组卷积;具体步骤包括:
步骤S31:初始模块中第二条路径的特征图H和第三条路径中的特征图J分别设置为g份;
步骤S32:3×3、5×5的卷积核也设置为g份,卷积核大小保持不变;
步骤S33:被分组的卷积核对对应的特征图H以及特征图J进行特征提取。
4.根据权利要求3所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤四,再次在主干网络中的瓶颈层引入全局注意力机制,具体步骤包括:
步骤S41:在瓶颈层的第三个卷积层后面加入全局注意力机制中的通道注意力机制模块,特征图F在初始模块中形成特征图N将经过1×1的卷积层后进入全局注意力机制中的通道注意力机制模块,最后得到特征图O;
步骤S42:将特征图O输入全局注意力机制中的空间注意力机制模块,特征图O经过全局注意力机制中的空间注意力机制模块处理后得到特征图P;
步骤S43:将特征图P与上一瓶颈层的输出特征图相加得到特征图Q,并作为结果输出传入主干网络的下一层。
5.根据权利要求4所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤五,采用选择性舍弃神经元进行隐藏部分特征节点操作,得到主干网络和初始模块卷积操作时所需要的权值;具体步骤包括:
S51:进行第一次排水管道“气-液”交界面图像识别训练;使用选择性舍弃神经元,在主干网络的瓶颈层以及初始模块进行卷积操作时将有部分权值随机置为0,记录下该部分权值所对应的节点位置;
S52:将主干网络中所有随机置0的权值对应节点位置所处的特征映射和未被置0的权值对应节点位置所处的特征映射分别作为正负样本值,正样本为有“气-液”交界面的图像区域,负样本为不含“气-液”交界面的图像区域;
S53:将所有随机置0的权值和未被置0的权值作为正负样本标签,送入支持向量机进行训练;
S54:进行第二次排水管道 “气-液”交界面图像识别训练;将主干网络中每一隐含层中的每个节点都使用一个支持向量机判断该节点的权值是否置0,对分类判断为正样本的节点即置0的权值节点,将其置0的概率提高
Figure QLYQS_1
倍;
S55:再次对主干网络每一隐含层进行舍弃神经元操作,每个节点的置0的权值概率将不同,最终主干网络每一隐含层得到经过选择性舍弃神经元后筛选的权值,该权值即为主干网络瓶颈层以及初始模块卷积运算时的权值。
6.根据权利要求5所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤六,将步骤五中输出的结果进行随机纠正线性单元激活函数激活处理;具体包括:
激活函数放置于主干网络中卷积处理后的位置,将卷积层中的随机纠正线性单元激活函数定义为公式(1):
Figure QLYQS_2
(1)
其中,f(x)表示随机纠正线性单元激活函数,x表示输入的待处理数据,α表示参数,由均匀分布U随机产生,
Figure QLYQS_3
表示区间为/>
Figure QLYQS_4
的均匀分布,l和u表示均匀分布的上下边界。
7.根据权利要求6所述的一种基于机器学习引导深度学习的目标检测方法,其特征在于:
步骤七,对随机纠正线性单元激活函数的输出结果进行金字塔感兴趣池化层处理,提高目标检测的精度;随机纠正线性单元激活函数的输出结果即深度残差网络-101提取的特征图和区域候选网络生成的目标候选框,具体步骤包括:
步骤S71:深度残差网络-101对数据增强后的“气-液”交界面图像数据集进行特征提取后形成特征图Q,特征图Q经随机纠正线性单元激活形成维度为2048的特征图R;
步骤S72:特征图R在区域候选网络生成目标候选框;
步骤S73:步骤S72处理得到的目标候选框在步骤S71特征图R上提取得到目标特征图,对目标特征图采用三种卷积核4×4×n、2×2×n和1×1×n进行下采样,分别形成三种不同尺度的特征图,n为特征图维度;
步骤S74:将下采样形成的三种尺度的特征图按首尾相接为(16+4+1)×n维的特征向量;
步骤S75:将步骤S74中处理的特征向量用计算机视觉处理库OpenCV中的展开函数处理形成(16+4+1)×n的一维向量;
步骤S76:将步骤S75中展开函数处理的一维特征向量输入全连接层,实现“气-液”交界面的识别。
CN202310473636.7A 2023-04-28 2023-04-28 一种基于机器学习引导深度学习的目标检测方法 Active CN116206248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310473636.7A CN116206248B (zh) 2023-04-28 2023-04-28 一种基于机器学习引导深度学习的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310473636.7A CN116206248B (zh) 2023-04-28 2023-04-28 一种基于机器学习引导深度学习的目标检测方法

Publications (2)

Publication Number Publication Date
CN116206248A true CN116206248A (zh) 2023-06-02
CN116206248B CN116206248B (zh) 2023-07-18

Family

ID=86513264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310473636.7A Active CN116206248B (zh) 2023-04-28 2023-04-28 一种基于机器学习引导深度学习的目标检测方法

Country Status (1)

Country Link
CN (1) CN116206248B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824467A (zh) * 2023-08-30 2023-09-29 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种排水管道流量智能测量方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635835A (zh) * 2018-11-08 2019-04-16 深圳蓝韵医学影像有限公司 一种基于深度学习与迁移学习的乳腺病变区域检测方法
CN111695633A (zh) * 2020-06-12 2020-09-22 桂林电子科技大学 基于rpf-cam的低照度目标检测方法
US20200394458A1 (en) * 2019-06-17 2020-12-17 Nvidia Corporation Weakly-supervised object detection using one or more neural networks
CN113076842A (zh) * 2021-03-26 2021-07-06 烟台大学 一种用于提升极端天气与环境下交通标志识别精度的方法
CN113361528A (zh) * 2021-08-10 2021-09-07 北京电信易通信息技术股份有限公司 一种多尺度目标检测方法及系统
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
WO2023034043A1 (en) * 2021-09-01 2023-03-09 The Board Of Regents Of The University Of Texas System Methods and systems for deep distilling

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635835A (zh) * 2018-11-08 2019-04-16 深圳蓝韵医学影像有限公司 一种基于深度学习与迁移学习的乳腺病变区域检测方法
US20200394458A1 (en) * 2019-06-17 2020-12-17 Nvidia Corporation Weakly-supervised object detection using one or more neural networks
CN111695633A (zh) * 2020-06-12 2020-09-22 桂林电子科技大学 基于rpf-cam的低照度目标检测方法
CN113076842A (zh) * 2021-03-26 2021-07-06 烟台大学 一种用于提升极端天气与环境下交通标志识别精度的方法
CN113361528A (zh) * 2021-08-10 2021-09-07 北京电信易通信息技术股份有限公司 一种多尺度目标检测方法及系统
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
WO2023034043A1 (en) * 2021-09-01 2023-03-09 The Board Of Regents Of The University Of Texas System Methods and systems for deep distilling

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AKI KOIVU等: "Quality of randomness and node dropout regularization for fitting neural networks", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 207, pages 1 - 10 *
ZHAOCHENG WANG等: "Visual Attention-Based Target Detection and Discrimination for High-Resolution SAR Images in Complex Scenes", 《IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING》, vol. 56, no. 4, pages 1855 - 1872 *
方玉明等: "聚合细粒度特征的深度注意力自动裁图", 《中国图象图形学报》, vol. 27, no. 2, pages 586 - 601 *
金侠挺等: "基于贝叶斯CNN和注意力网络的钢轨表面缺陷检测系统", 《自动化学报》, vol. 45, no. 12, pages 2312 - 2327 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116824467A (zh) * 2023-08-30 2023-09-29 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种排水管道流量智能测量方法
CN116824467B (zh) * 2023-08-30 2023-11-07 江西省水利科学院(江西省大坝安全管理中心、江西省水资源管理中心) 一种排水管道流量智能测量方法

Also Published As

Publication number Publication date
CN116206248B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
Yuan et al. Gated CNN: Integrating multi-scale feature layers for object detection
CN112150493B (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110929577A (zh) 一种基于YOLOv3的轻量级框架改进的目标识别方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN113609896B (zh) 基于对偶相关注意力的对象级遥感变化检测方法及系统
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN116206248B (zh) 一种基于机器学习引导深度学习的目标检测方法
CN114220154A (zh) 一种基于深度学习的微表情特征提取与识别方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN116704357A (zh) 基于YOLOv7的堤坝边坡滑坡智能识别与预警方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
Fan et al. A novel sonar target detection and classification algorithm
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115222998A (zh) 一种图像分类方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN112883930A (zh) 基于全连接网络的实时真假运动判断方法
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
Deepan et al. Comparative analysis of scene classification methods for remotely sensed images using various convolutional neural network
CN114187440A (zh) 一种基于动态分类器的小样本目标检测系统及方法
CN114387489A (zh) 电力设备识别方法、装置和终端设备
CN112927250A (zh) 一种基于多粒度注意力分层网络的边缘检测系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant