CN114463614A - 使用生成式参数的层次性显著建模的显著性目标检测方法 - Google Patents

使用生成式参数的层次性显著建模的显著性目标检测方法 Download PDF

Info

Publication number
CN114463614A
CN114463614A CN202210087655.1A CN202210087655A CN114463614A CN 114463614 A CN114463614 A CN 114463614A CN 202210087655 A CN202210087655 A CN 202210087655A CN 114463614 A CN114463614 A CN 114463614A
Authority
CN
China
Prior art keywords
saliency
hierarchical
significance
layer
color image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210087655.1A
Other languages
English (en)
Inventor
张文虎
郑良立
李玺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210087655.1A priority Critical patent/CN114463614A/zh
Publication of CN114463614A publication Critical patent/CN114463614A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种使用生成式参数的层次性显著建模的显著性目标检测方法,用于在给定彩色图像的情况下,对彩色图像中的显著物体做像素级的细粒度分割。该方法具体包括如下步骤:获取训练该任务的图像数据集;建立用于提取彩色图像的主干深度神经网络;建立使显著性层次建模策略对于输入图片更有适应性的层次信号生成模块;建立用于对输入图像进行显著性层次建模的显著性层次模块;基于前述模型结构进行预测模型训练,并得到最终的训练好的神经网络模型。本发明适用于RGB场景下的显著性目标检测,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

使用生成式参数的层次性显著建模的显著性目标检测方法
技术领域
本发明涉及计算机视觉领域,特别地涉及一种使用生成式参数的层次性显著建模的显著性目标检测方法。
背景技术
在人类的感知中,对于给定的图像,观察者对于不同的区域的显著程度有不同的感受。因此,对于人类可以在图像中根据显著性层级快速有效地提取场景中有用的区域。然而,对于机器学习而言,直接学习一个将不同显著程度的区域映射到真实标签中相同的像素值的函数是十分困难的。传统机器学习难以自适应性地掌握不同图像中显著性的学习模式,无法很好地适应不同场景下对显著性目标检测模型的要求。
发明内容
针对以上问题,本发明提供了一种使用生成式参数的层次性显著建模的显著性目标检测方法。本发明具体采用的技术方案如下:
一种使用生成式参数的层次性显著建模的显著性目标检测方法,其包括以下步骤:
S1、获取用于训练显著性目标检测网络的彩色图像数据集,并对其梯度响应图进行划分;
S2、基于主干深度神经网络、层次信号生成模块、以及多个显著性层次模块,构建形成显著性目标检测网络,其中所述主干深度神经网络用于提取输入的RGB彩色图像的图像特征,所述层次信号生成模块用于根据所述图像特征生成使显著性层次建模策略对于输入的彩色图像更有适应性的层次信号,所述多个显著性层次模块级联连接,用于结合所述图像特征和所述层次信号对输入的彩色图像进行显著性层次建模,从而最终输出显著性目标分割图;
S3、基于所述彩色图像数据集对构建的显著性目标检测网络进行模型训练,并利用最终训练好的显著性目标检测网络对待检测的彩色图像进行显著性目标检测。
作为优选,所述S1的具体实现步骤包括:
S11、获取彩色图像数据集作为显著性目标检测网络的训练数据,其中的每一个训练样本均包括单帧彩色图像Itrain以及对应人工标注的显著目标分割图Ptrain
S12、对于每一帧彩色图像Itrain,将其输入在ImageNet上预训练过的ResNet-50模型中,获取其对应的梯度响应图Gsal,根据预设的阈值将Gsal划分为互不重叠的N部分{p1,p2,…,pN},其中N为彩色图像Itrain的显著性层级的数量。
作为优选,所述S2中,用于提取图像特征的主干深度神经网络由K层卷积块级联而成,所述卷积块采用ResNet-50或VGG-16,其中第k层卷积块的输出经过编码层编码后得到图像特征Fk,所有K层卷积块对应的图像特征组成{F1,F2,…,FK}。
作为优选,所述S2中,所述层次信号生成模块中的具体流程如下:
S211、层次信号生成模块中先使用一个transformer解码器来生成层次信号,transformer解码器包含L个transformer解码层,每一层transformer解码层均按照顺序计算输入的图像特征FK与可学习的查询变量Q0的相似度,任意第l层transformer解码层中的计算过程为:
Ql=MLP(MCA(MSA(Ql-1),FK)),l=1,2,…,L
其中:Ql-1、Ql分别为第l-1层、第l层transformer解码层输出的计算结果,MSA(·),MCA(·),MLP(·)分别表示多头自注意力模块,多层互注意力模块和多层感知机模块;
S212、在获得最后一层transformer解码层的输出QL后,使用一个所有显著性层级共享的MLP层将其映射成层次信号:
Figure BDA0003487660390000021
其中sn为第n层显著性层级的显著性信号,
Figure BDA0003487660390000022
是QL的第n项;最终将所有显著性层级的显著性信号组合形成层次信号为{s1,s2,…,sN}。
作为优选,所述S2中,显著性目标检测网络中共包含K个显著性层次模块,每个所述显著性层次模块包含N个分支,对应于N个显著性层级;K个显著性层次模块按照级联顺序反序编号,位于最前端的为第K个显著性层次模块,位于最末端的为第1个显著性层次模块;对于任意第k个显著性层次模块,其中的流程具体如下:
S221、显著性层次模块中先将输入的特征使用分类器生成副语义掩码:
Figure BDA0003487660390000031
其中,Hk为第k个显著性层次模块的输入特征,其中级联于最前端的显著性层次模块以图像特征Fk为输入特征,其余显著性层次模块以上一个显著性层次模块的输出Hk-1为输入特征;
Figure BDA0003487660390000032
是副语义掩码,softmax(·)是通道维度上的softmax计算,Conv3x3(·)是可学习的3×3卷积层;
再将
Figure BDA0003487660390000033
展开为N个不同语义层级对应的副语义掩码
Figure BDA0003487660390000034
每一个掩码
Figure BDA0003487660390000035
都代表着输入图像的不同语义层级;利用副语义掩码将Hk划分为N部分
Figure BDA0003487660390000036
其中:
Figure BDA0003487660390000037
其中,
Figure BDA0003487660390000038
表示逐元素相乘,
Figure BDA0003487660390000039
表示第n个语义层级对应的特征;
S222、基于S221中获得的特征
Figure BDA00034876603900000310
以及S212中获得的层次信号{s1,s2,…,sN},分别用每一个显著性信号sn处理对应的第n个语义层级,通过将信号被转化为网络的卷积核并与特征进行计算:
Figure BDA00034876603900000311
其中*为2D卷积操作,
Figure BDA00034876603900000312
为对显著性信号sn使用转化层
Figure BDA00034876603900000313
生成的卷积核,
Figure BDA00034876603900000314
为计算获得的特征;
S223、将主干深度神经网络输出的特征Fk-1与S222中获得的特征
Figure BDA00034876603900000315
聚合到一起:
Figure BDA00034876603900000316
其中,Hk-1表示第k个显著性层次模块的最终输出,Concat(·)表示连接操作,k=1时F0为空矩阵;第1个显著性层次模块的最终输出H1经过3×3卷积层后输出输入图像的显著性目标分割图
Figure BDA00034876603900000317
作为优选,所述S3中,基于所述彩色图像数据集对构建的显著性目标检测网络进行模型训练的具体方法如下:
S31、针对每一个训练样本,基于S223中预测得到的彩色图像Itrain的显著性目标分割图
Figure BDA0003487660390000041
Figure BDA0003487660390000042
并使用
Figure BDA0003487660390000043
和人工标注的显著目标分割图Ptrain计算第一loss函数Lppa
Figure BDA0003487660390000044
其中l为衡量两种分割图差异的指标;
S32、针对每一个训练样本,基于S221中得到的副语义掩码
Figure BDA0003487660390000045
与S12中得到的{p1,p2,…,pN}计算第二loss函数
Figure BDA0003487660390000046
Figure BDA0003487660390000047
其中,ypos为位于pn范围内的坐标点集合;
S53、针对每一个训练样本,计算每个最终的损失函数为:
Figure BDA0003487660390000048
其中,ρ为超参数,控制两种损失函数的权重;使用Adam优化方法和反向传播算法在损失函数Ltotal下训练整个显著性目标检测网络,直到网络收敛。
作为优选,所述衡量两种分割图差异的指标为均方误差。
作为优选,所述K设置为5。
作为优选,所述N设置为3。
作为优选,所述L设置为6。
作为优选,所述ρ设置为0.1。
本方法基于深度神经网络,探索RGB图像中的显著性差异,建立图像中的显著性层级,并采用深度学习技术自适应性地掌握不同图像中显著性的学习模式,为模型提供显著性层级信息作为先验,能够更好地适应不同场景下对显著性目标检测模型的要求。相比于现有技术中的方法,本发明具有如下有益效果:
首先,本发明提出了一种将显著性检测中使用的各个区域的像素值相同的真实标签根据显著性差异转化为一系列副语义标签的方法,从而能够为模型提供层次化的指导。
其次,本发明采用transformer技术探索RGB图像中的显著性差异,并生成用于提取不同显著性区域特征的网络参数。通过改进这个部分,可以大幅提高模型对于不同样本间显著性层级的适应能力,提升模型的鲁棒性。
最后,本发明显式地建模显著性物体的在样本中的层次差异,对于不同显著性区域使用不同的参数进行处理,将特征解构成多个副语义掩码,为模型预测提供了先验知识的指导,得到更好的显著性目标检测模型。
本方法在显著性目标检测任务中,能够有效提高对场景中显著物体的分割精度与区域相似度,具有良好的应用价值。例如,可以快速地辨别出一幅自然图像中包含有用信息的显著性部分为后续图像检索、视觉追踪、行人重识别等任务提供更精细的物体分割图样,做了良好的铺垫。
附图说明
图1为本发明方法的基本步骤示意图;
图2为本发明的显著性目标检测网络结构示意图;
图3为本发明实施例展示的部分实验效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的一个较佳实施例中,提供了一种使用生成式参数的层次性显著建模的显著性目标检测方法,用于在给定彩色图像的情况下,对彩色图像中的显著物体做像素级的细粒度分割。该方法具体包括以下步骤:
S1、获取用于训练显著性目标检测网络的彩色图像数据集,并对其梯度响应图进行划分。
在本实施例中,上述步骤S1的具体实现步骤包括:
S11、获取彩色图像数据集作为显著性目标检测网络的训练数据,其中的每一个训练样本均包括单帧彩色图像Itrain以及对应人工标注的显著目标分割图Ptrain
S12、对于每一帧彩色图像Itrain,将其输入在ImageNet上预训练过的ResNet-50模型中,获取其对应的梯度响应图Gsal,根据预设的阈值将Gsal的值区间等分为N个区间,进而按照这N个区间将梯度响应图Gsal划分为互不重叠的N部分{p1,p2,…,pN},其中N为彩色图像Itrain的显著性层级的数量。
S2、基于主干深度神经网络、层次信号生成模块、以及多个显著性层次模块,构建形成显著性目标检测网络,其中所述主干深度神经网络用于提取输入的RGB彩色图像的图像特征,所述层次信号生成模块用于根据所述图像特征生成使显著性层次建模策略对于输入的彩色图像更有适应性的层次信号,所述多个显著性层次模块级联连接,用于结合所述图像特征和所述层次信号对输入的彩色图像进行显著性层次建模,从而最终输出显著性目标分割图。
在本实施例中,上述步骤S2中,显著性目标检测网络的结构如图2所示,其中所包含的主干深度神经网络、层次信号生成模块、显著性层次模块各自的结构以及内部的具体数据处理流程如下:
在本实施例中,对于主干深度神经网络而言,用于提取图像特征的主干深度神经网络由K层卷积块级联而成,其中卷积块可以采用ResNet-50或VGG-16,其中第k层卷积块的输出经过编码层编码后得到图像特征Fk,所有K层卷积块对应的图像特征组成{F1,F2,…,FK}。
在本实施例中,对于层次信号生成模块而言,该模块中的具体流程如下:
S211、层次信号生成模块中先使用一个transformer解码器来生成层次信号,transformer解码器包含L个transformer解码层,单层transformer解码层中包含了级联的多头自注意力(multi-head self-attention,MSA)模块,多层互注意力(multi-head crossattention,MCA)模块和多层感知机(multilayer perceptron)模块;每一层transformer解码层均按照顺序计算输入的图像特征FK与可学习的查询变量Q0的相似度,任意第l层transformer解码层中的计算过程为:
Ql=MLP(MCA(MSA(Ql-1),FK)),l=1,2,…,L
其中:Ql-1、Ql分别为第L-1层、第l层transformer解码层输出的计算结果,MSA(·),MCA(·),MLP(·)分别表示多头自注意力模块,多层互注意力模块和多层感知机模块;
S212、在获得最后一层transformer解码层的输出QL后,使用一个所有显著性层级共享的MLP层将其映射成层次信号:
Figure BDA0003487660390000071
其中sn为第n层显著性层级的显著性信号,
Figure BDA0003487660390000072
是QL的第n项;最终将所有显著性层级的显著性信号组合形成层次信号为{s1,s2,…,sN}。
在本实施例中,对于显著性层次模块而言,整个显著性目标检测网络中共包含K个显著性层次模块,每个显著性层次模块包含N个分支,对应于N个显著性层级;K个显著性层次模块按照级联顺序反序编号,位于最前端的为第K个显著性层次模块,位于第K个显著性层次模块下游的是第K-1个显著性层次模块,以此类推,位于最末端的为第1个显著性层次模块。对于任意第k个显著性层次模块,k=1,2,…,K,其中的流程具体如下:
S221、显著性层次模块中先将输入的特征使用分类器生成副语义掩码:
Figure BDA0003487660390000073
其中,Hk为第k个显著性层次模块的输入特征,其中级联于最前端的显著性层次模块以图像特征Fk为输入特征,其余显著性层次模块以上一个显著性层次模块的输出Hk-1为输入特征;
Figure BDA0003487660390000074
是副语义掩码,softmax(·)是通道维度上的softmax计算,Conv3x3(·)是可学习的3×3卷积层;
再将
Figure BDA0003487660390000075
展开为N个不同语义层级对应的副语义掩码
Figure BDA0003487660390000076
每一个掩码
Figure BDA0003487660390000077
都代表着输入图像的不同语义层级;利用副语义掩码将Hk划分为N部分
Figure BDA0003487660390000078
其中:
Figure BDA0003487660390000079
其中,
Figure BDA00034876603900000710
表示逐元素相乘,
Figure BDA00034876603900000711
表示第n个语义层级对应的特征;
S222、基于S221中获得的特征
Figure BDA00034876603900000712
以及S212中获得的层次信号{s1,s2,…,sN},分别用每一个显著性信号sn处理对应的第n个语义层级,通过将信号被转化为网络的卷积核并与特征进行计算:
Figure BDA00034876603900000713
其中*为2D卷积操作,
Figure BDA00034876603900000714
为对显著性信号sn使用转化层
Figure BDA00034876603900000715
生成的卷积核,
Figure BDA0003487660390000081
为计算获得的特征;
S223、将主干深度神经网络输出的特征Fk-1与S222中获得的特征
Figure BDA0003487660390000082
聚合到一起:
Figure BDA0003487660390000083
其中,Hk-1表示第k个显著性层次模块的最终输出,Concat(·)表示连接操作,k=1时F0为空矩阵;第1个显著性层次模块的最终输出H1经过3×3卷积层后输出输入图像的显著性目标分割图
Figure BDA0003487660390000084
需要说明的是,本发明中的上述K、N、L可根据实际的需要调整,本实施例中K设置为5,N设置为3,L设置为6。因此,如图2所示,整个显著性目标检测网络中,包含了一个由5层卷积块级联而成的主干深度神经网络,一个具有6层transformer解码层的层次信号生成模块,以及5个显著性层次模块,主干深度神经网络中5层卷积块各自输出特征经过编码层后输出的编码特征作为不同层次信号生成模块的输入。同时,最后1层卷积块输出的特征还作为层次信号生成模块的输入,用于生成层次信号,层次信号以及编码特征同时作为5个显著性层次模块的输入。最后1个显著性层次模块输出的特征在输出层经过3×3卷积后,即可得到显著性目标分割图。
S3、基于所述彩色图像数据集对构建的显著性目标检测网络进行模型训练,并利用最终训练好的显著性目标检测网络对待检测的彩色图像进行显著性目标检测。
在本实施例中,上述步骤S3中基于彩色图像数据集对构建的显著性目标检测网络进行模型训练的具体方法如下:
S31、针对每一个训练样本,基于S223中预测得到的彩色图像Itrain的显著性目标分割图
Figure BDA0003487660390000085
Figure BDA0003487660390000086
并使用
Figure BDA0003487660390000087
和人工标注的显著目标分割图Ptrain计算第一loss函数Lppa:
Figure BDA0003487660390000088
其中l为衡量两种分割图差异的指标,本实施例中可采用均方误差MSE;
S32、针对每一个训练样本,基于S221中得到的副语义掩码
Figure BDA0003487660390000089
与S12中得到的{p1,p2,…,pN}计算第二loss函数
Figure BDA0003487660390000091
Figure BDA0003487660390000092
其中,ypos为位于pn范围内的坐标点集合;
S53、针对每一个训练样本,计算每个最终的损失函数为:
Figure BDA0003487660390000093
其中,ρ为超参数,控制两种损失函数的权重,本实施例中可设置为0.1;使用Adam优化方法和反向传播算法在损失函数Ltotal下训练整个显著性目标检测网络,直到网络收敛。
经过上述训练后收敛的显著性目标检测网络即可用于对实际的RGB彩色图像进行显著性目标检测。应用时只需要将待检测的RGB彩色图像输入显著性目标检测网络,即可输出显著性目标分割图。下面将上述S1~S3所述的方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
本实施例的实现方法如前S1~S3所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在五个具有真值标注的数据集上实施,分别为:
DUTS数据集:该数据集包含15572个图像,以及其显著性标签。
ECSSD数据集:该数据集包含1000个图像,以及其显著性标签。
HKU-IS数据集:该数据集包含4447个图像,以及其显著性标签。
DUT-OMRON数据集:该数据集包含5168个图像,以及其显著性标签。
PASCAL数据集:该数据集包含850个图像,以及其显著性标签。
本实例从DUTS数据集中选择10553个图像-标签对,作为训练集,其他作为测试集,通过前述方法建立深度学习模型并进行训练。
如图3所示,图中GT表示真实标注的显著物体分割图标签,本发明的方法得到的显著物体分割图与真实的显著物体分割图基本一致。
本实施例检测结果的检测精度如下表1所示,主要采用平均F-measure以及M两个指标对各种方法的预测精度进行比较,其中平均F-measure指标用于衡量预测的显著分割图与真实的显著分割图的区域相似性,值越大代表预测结果与真实结果越相似;M是预测的显著分割图中每个像素点的结果差距,值越小代表预测结果越接近真实分割图。如表1中所示,本发明的方法(记为Our network)与其它方法相比,平均F-measure和M指标均存在明显优势。
表1
Figure BDA0003487660390000101
上述实施例中,本发明的RGB显著性目标检测方法首先将真实标签转化为一系列副语义标签。在此基础上,采用transformer技术探索RGB图像中的显著性差异,并生成用于提取不同显著性区域特征的网络参数。最后,对于不同显著性区域使用不同的参数进行处理,将特征解构成多个副语义掩码,为模型预测提供了先验知识的指导,得到更好的显著性目标检测模型。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种使用生成式参数的层次性显著建模的显著性目标检测方法。本发明可以对RGB样本的显著性差异层级进行建模,将显著性差异作为先验知识指导深度模型学习,能够更好适应不同复杂场景下的显著性目标检测任务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于包括以下步骤:
S1、获取用于训练显著性目标检测网络的彩色图像数据集,并对其梯度响应图进行划分;
S2、基于主干深度神经网络、层次信号生成模块、以及多个显著性层次模块,构建形成显著性目标检测网络,其中所述主干深度神经网络用于提取输入的RGB彩色图像的图像特征,所述层次信号生成模块用于根据所述图像特征生成使显著性层次建模策略对于输入的彩色图像更有适应性的层次信号,所述多个显著性层次模块级联连接,用于结合所述图像特征和所述层次信号对输入的彩色图像进行显著性层次建模,从而最终输出显著性目标分割图;
S3、基于所述彩色图像数据集对构建的显著性目标检测网络进行模型训练,并利用最终训练好的显著性目标检测网络对待检测的彩色图像进行显著性目标检测。
2.根据权利要求1所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述S1的具体实现步骤包括:
S11、获取彩色图像数据集作为显著性目标检测网络的训练数据,其中的每一个训练样本均包括单帧彩色图像Itrain以及对应人工标注的显著目标分割图Ptrain
S12、对于每一帧彩色图像Itrain,将其输入在ImageNet上预训练过的ResNet-50模型中,获取其对应的梯度响应图Gsal,根据预设的阈值将Gsal划分为互不重叠的N部分{p1,p2,…,pN},其中N为彩色图像Itrain的显著性层级的数量。
3.根据权利要求2所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述S2中,用于提取图像特征的主干深度神经网络由K层卷积块级联而成,所述卷积块采用ResNet-50或VGG-16,其中第k层卷积块的输出经过编码层编码后得到图像特征Fk,所有K层卷积块对应的图像特征组成{F1,F2,…,FK}。
4.根据权利要求3所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述S2中,所述层次信号生成模块中的具体流程如下:
S211、层次信号生成模块中先使用一个transformer解码器来生成层次信号,transformer解码器包含L个transformer解码层,每一层transformer解码层均按照顺序计算输入的图像特征FK与可学习的查询变量Q0的相似度,任意第l层transformer解码层中的计算过程为:
Ql=MLP(MCA(MSA(Ql-1),FK)),l=1,2,…,L
其中:Ql-1、Ql分别为第l-1层、第l层transformer解码层输出的计算结果,MSA(·),MCA(·),MLP(·)分别表示多头自注意力模块,多层互注意力模块和多层感知机模块;
S212、在获得最后一层transformer解码层的输出QL后,使用一个所有显著性层级共享的MLP层将其映射成层次信号:
Figure FDA0003487660380000021
其中sn为第n层显著性层级的显著性信号,
Figure FDA0003487660380000022
是QL的第n项;最终将所有显著性层级的显著性信号组合形成层次信号为{s1,s2,…,sN}。
5.根据权利要求4所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述S2中,显著性目标检测网络中共包含K个显著性层次模块,每个所述显著性层次模块包含N个分支,对应于N个显著性层级;K个显著性层次模块按照级联顺序反序编号,位于最前端的为第K个显著性层次模块,位于最末端的为第1个显著性层次模块;对于任意第k个显著性层次模块,其中的流程具体如下:
S221、显著性层次模块中先将输入的特征使用分类器生成副语义掩码:
Figure FDA0003487660380000023
其中,Hk为第k个显著性层次模块的输入特征,其中级联于最前端的显著性层次模块以图像特征Fk为输入特征,其余显著性层次模块以上一个显著性层次模块的输出Hk-1为输入特征;
Figure FDA0003487660380000024
是副语义掩码,softmax(·)是通道维度上的softmax计算,Conv3x3(·)是可学习的3×3卷积层;
再将
Figure FDA0003487660380000025
展开为N个不同语义层级对应的副语义掩码
Figure FDA0003487660380000026
每一个掩码
Figure FDA0003487660380000027
都代表着输入图像的不同语义层级;利用副语义掩码将Hk划分为N部分
Figure FDA0003487660380000028
其中:
Figure FDA0003487660380000031
其中,
Figure FDA0003487660380000032
表示逐元素相乘,
Figure FDA0003487660380000033
表示第n个语义层级对应的特征;
S222、基于S221中获得的特征
Figure FDA0003487660380000034
以及S212中获得的层次信号{s1,s2,…,sN},分别用每一个显著性信号sn处理对应的第n个语义层级,通过将信号被转化为网络的卷积核并与特征进行计算:
Figure FDA0003487660380000035
其中*为2D卷积操作,
Figure FDA0003487660380000036
为对显著性信号sn使用转化层
Figure FDA0003487660380000037
生成的卷积核,
Figure FDA0003487660380000038
为计算获得的特征;
S223、将主干深度神经网络输出的特征Fk-1与S222中获得的特征
Figure FDA0003487660380000039
聚合到一起:
Figure FDA00034876603800000310
其中,Hk-1表示第k个显著性层次模块的最终输出,Conc3t(·)表示连接操作,k=1时F0为空矩阵;第1个显著性层次模块的最终输出H1经过3×3卷积层后输出输入图像的显著性目标分割图
Figure FDA00034876603800000318
6.根据权利要求5所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述S3中,基于所述彩色图像数据集对构建的显著性目标检测网络进行模型训练的具体方法如下:
S31、针对每一个训练样本,基于S223中预测得到的彩色图像Itrain的显著性目标分割图
Figure FDA00034876603800000311
Figure FDA00034876603800000312
并使用
Figure FDA00034876603800000313
和人工标注的显著目标分割图Ptrain计算第一loss函数Lppa
Figure FDA00034876603800000314
其中l为衡量两种分割图差异的指标;
S32、针对每一个训练样本,基于S221中得到的副语义掩码
Figure FDA00034876603800000315
与S12中得到的{p1,p2,…,pN}计算第二loss函数
Figure FDA00034876603800000316
Figure FDA00034876603800000317
其中,ypos为位于pn范围内的坐标点集合;
S53、针对每一个训练样本,计算每个最终的损失函数为:
Figure FDA0003487660380000041
其中,ρ为超参数,控制两种损失函数的权重;使用Adam优化方法和反向传播算法在损失函数Ltotal下训练整个显著性目标检测网络,直到网络收敛。
7.根据权利要求6所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述衡量两种分割图差异的指标为均方误差。
8.根据权利要求6所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述K设置为5,所述N设置为3。
9.根据权利要求6所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述L设置为6。
10.根据权利要求6所述的使用生成式参数的层次性显著建模的显著性目标检测方法,其特征在于所述ρ设置为0.1。
CN202210087655.1A 2022-01-25 2022-01-25 使用生成式参数的层次性显著建模的显著性目标检测方法 Pending CN114463614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210087655.1A CN114463614A (zh) 2022-01-25 2022-01-25 使用生成式参数的层次性显著建模的显著性目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210087655.1A CN114463614A (zh) 2022-01-25 2022-01-25 使用生成式参数的层次性显著建模的显著性目标检测方法

Publications (1)

Publication Number Publication Date
CN114463614A true CN114463614A (zh) 2022-05-10

Family

ID=81412117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210087655.1A Pending CN114463614A (zh) 2022-01-25 2022-01-25 使用生成式参数的层次性显著建模的显著性目标检测方法

Country Status (1)

Country Link
CN (1) CN114463614A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758026A (zh) * 2023-06-13 2023-09-15 河海大学 一种基于双目遥感图像显著性分析的大坝渗水区域测量方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758026A (zh) * 2023-06-13 2023-09-15 河海大学 一种基于双目遥感图像显著性分析的大坝渗水区域测量方法
CN116758026B (zh) * 2023-06-13 2024-03-08 河海大学 一种基于双目遥感图像显著性分析的大坝渗水区域测量方法

Similar Documents

Publication Publication Date Title
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN111612807B (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
Lata et al. Image-to-image translation using generative adversarial network
CN111523546A (zh) 图像语义分割方法、系统及计算机存储介质
CN114186672A (zh) 一种用于脉冲神经网络的高效高精度训练算法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN115619743A (zh) Oled新型显示器件表面缺陷检测模型的构建方法及其应用
CN111340011B (zh) 一种自适应时序移位神经网络时序行为识别方法
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN115222998A (zh) 一种图像分类方法
CN116740439A (zh) 一种基于跨尺度金字塔Transformer的人群计数方法
CN114170154A (zh) 基于Transformer的遥感VHR图像变化检测方法
CN114463614A (zh) 使用生成式参数的层次性显著建模的显著性目标检测方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN113450313B (zh) 一种基于区域对比学习的图像显著性可视化方法
CN113537240B (zh) 一种基于雷达序列图像的形变区智能提取方法及系统
Ling et al. Real-time water area segmentation for usv using enhanced u-net
CN113255666A (zh) 一种基于计算机视觉的个性化答疑系统与方法
Niu et al. Underwater Waste Recognition and Localization Based on Improved YOLOv5.
Suvetha et al. Automatic Traffic Sign Detection System With Voice Assistant
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination