CN116452793A - 一种基于多视角和多层级的绿色编解码显著目标检测方法 - Google Patents
一种基于多视角和多层级的绿色编解码显著目标检测方法 Download PDFInfo
- Publication number
- CN116452793A CN116452793A CN202310349872.8A CN202310349872A CN116452793A CN 116452793 A CN116452793 A CN 116452793A CN 202310349872 A CN202310349872 A CN 202310349872A CN 116452793 A CN116452793 A CN 116452793A
- Authority
- CN
- China
- Prior art keywords
- level
- features
- loss
- attention
- contour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000012937 correction Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 230000035945 sensitivity Effects 0.000 claims abstract description 5
- 230000002776 aggregation Effects 0.000 claims description 19
- 238000004220 aggregation Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 210000000857 visual cortex Anatomy 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 239000003607 modifier Substances 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于多视角和多层级的绿色编解码显著目标检测方法,涉及一种显著目标检测方法,为了解决针对复杂场景,完整且精细地提取特征和精确地表征非连通区域及精细轮廓,所述方法模拟人类视觉机制,构造自顶向下的意识关注前景置信度、边界和正负样本主观结构,映射到自底向上的前景、轮廓和背景客观特征,最大化分离非连通区域及轮廓等感知内容;再采用修正区域和对象间差异实现感知内容的误差度量敏感;最后通过追踪并行邻域的辨识性信息,实现主客观交互最大化,从而输出复杂精细化的显著预测,它用于复杂场景非连通区域的显著目标检测。
Description
技术领域
本发明属于人工智能领域,具体涉及一种基于多视角和多层级的绿色编解码显著目标检测方法。
背景技术
人类视觉机制能够捕获最相关区域从而锁定目标,具有自底向上和自顶向下两种模式,前者取决于内容特性,后者受先验知识影响。显著目标检测(Salient ObjectDetection,SOD)模拟人类视觉系统提取感兴趣区域,应用于对象分割、视觉跟踪等,是实现可靠无人驾驶汽车、智能/智慧监控及智慧交通等多种应用的最关键技术之一。
传统显著检测模型通过简单的对比度等底层特征的统计分析,为显著性元素分配高概率值,无法胜任复杂环境下的显著检测任务。深度学习模型基于卷积神经网络可实现多尺度底层客观信息的充分挖掘,并且可以通过设计有效的损失函数为系统提供必要的主观指导,成为显著目标检测体系结构的主流。基于区域全卷机网络(Region-based fullyconvolutional networks,RFCN)根据循环全卷积网络生成对象映射,标记每个像素为前景/背景,并根据前景条件概率定义损失函数;深度监督显著目标检测(Deeply supervisedsalient object detection,DSS)自上而下地从深层侧输出到浅层侧输出建立短连接,关注全局信息和细节,采用交叉熵最小化侧输出和融合图损失。像素级上下文关注网络(Pixel-wise contextual attention network,PiCANet)通过平均交叉熵损失关注全局和局部上下文特征。级联部分解码器(Cascaded partial decoder,CPD)则认为浅层大分辨率特征存在冗余,提出整合更深层次特征并采用sigmoid型交叉熵损失监督。RA从侧输出特征中减去预测区域来探索缺失细节内容进行反向显著化,并采用图像级类平衡交叉熵损失对不同尺度深度监督;基于内容感知指导的显著性目标检测(Cotent-aware guidance,CAGNet)通过低级特征和高级特征相互引导捕获精细空间信息和集中特征,采用精度、召回率和MAE误差构造损失函数指导多层次特征。
边界轮廓具有高语义信息,对区域分割具备指导意义。基于边界感知的显著目标检测(Boundary-aware salient object detection,BASNet)通过桥连接捕获全局信息,基于局部上下文细化粗显著图和边界缺陷,应用混合损失学习侧输出和细化输出。Attentivefeedback network(AFNet)通过全局卷积和局部邻域特征探索对象结构,设计1:10权重的交叉熵和欧几里得损失学习精细的边界。基于边界指导的检测(Edge guidance network,EGNet)利用局部边缘和全局位置信息结合得到显著边缘特征,与不同分辨率显著目标融合进行分割定位,采用交叉熵损失指导融合图与侧路径输出之和。基于净化机制的显著性目标检测(Purificatory mechanism,PurNet)在空间和通道权值上关注显著物体特征,设计结构相似性损失建立超像素显著和真值图结构矩阵校准显著值。基于交互式双流解码器显著性检测,(Interactive two-stream decoder,ITSD)关注显著图、轮廓图及它们间的相关性,并将这些线索添加到自适应轮廓目标函数中。基于边缘感知多尺度特征集成网络(Edge-aware multiscale feature integration network,EMFINet)将三种不同分辨率的光学遥感图像作为输入,采用边缘监督生成具有边缘感知约束的特征,引入混合损失推断具有形状边界的显著对象。
理想的显著目标检测系统可通过充分发挥高性能算力和人类主观综合判断能力来挖掘多源特征,实现超越人类主观检测的性能。主观判断的正确性奠定了客观内容表征的可靠性,底层特征的精确提取也辅助提升结构相似性,二者是相互影响相互补充的关系。然而,现有研究工作中,主观先验和底层可辨识特征间的结构对应关系利用不充分。
基于以上分析,本发明结合主观先验的结构性分析,提出了一种主观结构损失函数,在多级结构关联下自顶向下地指导对应底层的前景、轮廓及背景内容,实现复杂结构下多级感知内容分离提取。在此基础上,引入改进的二值交叉熵损失关注底层偏差内容,使得分离特征误差敏感。另一方面,为了实现多元特征融合,提出了双向聚合模块,融合有效的可辨识特征,实现主客观充分交互的可靠精细显著目标检测。
发明内容
本发明的目的是利用编解码器结构,在复杂场景中构建具有较大差异可辨识性特征的完整、精细的显著目标的检测模型。为此,本发明提出了一种基于多视角和多层级的绿色编解码显著目标检测方法,它包括如下步骤:
步骤S1:基于优化全局池化层和全连接层的ResNet-50,输入图像进入编码器结构,通过更精细、更底层的特征逐步优化粗糙的、上层的估计,增强高级语境特征和底层空间结构特征,输出粗糙的显著源特征;
步骤S2:利用步骤S1中输出的粗糙特征,输入多层解码器实现多视角解码:感知内容匹配解码器、修正解码器和双向聚合解码器;
步骤S3:感知内容匹配解码器通过在前景、轮廓、背景和图像级运用通道注意和空间注意关注图像中可辨识特征及其位置信息,净化源特征;
步骤S4:修正解码器在非连通和轮廓等误差区域添加约束权重,元素级加权融合以修正预测显著图,实现度量误差敏感;
步骤S5:针对复杂编解码结构中一元像素级融合特征未充分交互聚合的问题,提出了双向聚合解码器,在纵向和横向邻域上追踪融合步骤S3、S4中得到的感知内容特征和修正特征,同时定位突出显著对象和修正偏差特征;
步骤S6:基于视皮层选择性机理,提出关注底层对应因子的损失函数,监督度量预测输出和先验指导之间的结构相似性。
本发明的有益成果
本发明的特点在于,通过多视角、多层级的编码-多解码器,输出了一个基于多层级通道注意权重和空间注意权重的特征张量,学习不同层级显著辨识性特征,建模复杂场景下完整的自底向上显著性计算模块,接着构建了一个自顶向下的关注底层因子的主观结构损失函数,最终实现多视角多层级特征的绿色计算。
此处存在问题:
优选地,所述步骤S1中的采用优化过的编码器结构,为了获得更大的特征图,将卷积神经网络中的最后一个剩余模块中的卷积步长都设为stride=1。对于步骤S1输出的粗糙特征encoder表示编码器,block∈{1,2,3,4,5}表示编码模块的序号,Channelblock∈{64,256,1024,2048}为图像的通道数,Nature表示自然图像,Height、Width和Channel分别表示其高、宽和通道。
所述步骤S2中分别将S1输出的多尺度显著特征分别输入到三个解码器中进行学习:和
优选地,所述步骤S3中采用通道和空间注意权重学习不同层级间的显著辨识性特征,建模复杂场景下完整的自底向上显著性计算模块的方法为:
首先在通道轴上应用全局最大池化并通过通道级乘法净化源粗糙特征,
使得其聚合特征映射的通道级信息其中,featureCA表示通道特征,CA为通道注意力,Θ为通道级乘法。接着通过并行的空间注意分别生成Attentionforeground和Attentioncontour分别为前景空间注意图和轮廓空间注意图,轮廓空间注意图经过上采样输出多尺度轮廓图其中,轮廓空间注意图是在轮廓真值的监督下以学习的方式输出,最小化模型轮廓损失表示为:
其中,上采样,Gcontour为轮廓真值。
表示二进制交叉熵损失函数,计算为:
S(PixelNumberI)∈[0,1]、G(PixelNumberI)∈{0,1}分别表示第PixelNumberI个像素的轮廓预测值和真值,PixelNumberI为像素数,先对每个像素单独使用交叉熵损失,再求整体。
接着,通过前景空间注意图与轮廓空间注意图元素级求和得到前景轮廓空间注意图为进一步减少不确定信息,与源特征相乘,在特征层级上突出显著区域。背景空间注意图的建模采用反向注意 提供互补信息,与源特征元素级相乘,在特征层级标记非显著性区域。最后,与在信道级合并,隐式地提取互补信息。图像级特征能够分析全局空间位置信息,完整表达显著对象。首先,在源特征上应用全局平均池化得到粗糙的图像特征,接着,采用1×1卷积平滑,上采样重构获得可以映射整体特征基调的显著性信息,再通过图像空间注意将重建的图像级特征压缩成一个响应图
最后,使用
表示特征层级整体基调。最终,前景、轮廓、背景与图像级特征在信道级融合后经过1×1卷积聚合,最后采用短连接相加保留原始特征输出多层级注意力的特征张量
优选地,所述步骤S6中构建基于自顶向下绿色计算的主观结构损失函数为:
基于视皮层选择性机理,主观描述受到上下文内容、位置、前景/背景,轮廓、人等的高层因素影响,IOU损失通过预测目标与真值标注的交并比关注前景区域,SSIM损失考虑每个像素的局部邻域,给边分配更高的权值以关注轮廓。考虑到背景部分占比远大于前景,导致优化时会趋向于将未知像素预测成背景,采用F-m损失可以自动抵消正负样本不平衡,使前/背景被清晰地分离,在应用中,收敛速度快,且最优阈值在不同数据集、网络都较接近。基于特征图级的IOU损失、像素块级的SSIM损失和感知度量的F-m损失,构建了一个LossSSL衡量预测显著图的前景、轮廓、背景与真值图对应结构的逼近程度:
LossSSL=LIOU(S,G)+LSSIM(S,G)+LF-m(S,G) (6)
LossSSL表示主观结构损失,S和G分别表示显著图和真值图,LossIOU、LossSSIM、LossF-m为:
其中,S(PixelNumberI)和G(PixelNumberI)表示第PixelNumberI个像素的显著预测和真值标注。x,y分别为显著预测和真值标注的N×N像素块的像素值,μx、μy和σx、σy为x,y的均值和标准差,σxy是x和y协方差,其中C1=0.012,C2=0.032来避免零作为除数。β2根据经验设置为0.3, P为查准率,R为查全率,TP、FP和FN分别为正样本被正确识别的数量,误报的负样本数量和漏报的正样本数量。主观结构损失模拟视觉关注机制解读系统的预测输出,在多层级结构上更接近真值图,对精度敏感。
自然图像显著目标检测在颜色、纹理等强对比区域与背景类显著区域存在视觉掩盖效应,误差量度不敏感。首先,源特征经过通道数为128的3×3和1×1两个卷积层,分别得到和其中,表示显著区域特征,表示显著对象特征,差异值表示偏差特征,通过回归输出偏差映射。接着,偏差特征经过tanh函数将特征映射到[-1,1],得到偏差注意在相邻特征块间,采用邻域追踪机制进行偏差注意的交互迭代,进一步关注误差区域。接着,在显著对象特征上给予偏差注意严格权重,元素级加权融合以修正高对比及类显著信息,输出修正子网的显著性映射相应地,以学习的方式采用深度监督最小化优化目标,其中,Losscorect表示修正损失。深度监督最小化优化目标。
为了提升显著图,引入改进的二值交叉熵损失能够在偏差区域像素添加额外的约束,从而达到更好的修正:
其中,PixelNumberI为像素数,Sfinal为聚合后输出的多尺度显著图,E表示偏差映射,IBCE(·)改进的二值交叉熵损失函数表示为:
改进的二值交叉熵损失加权预测图中偏差区域每个像素处的交叉熵损失,使得预测与真值标注误差最小。最终,模型的目标函数通过主观结构损失与改进二值交叉熵损失联合学习,计算如下:
其中,block为模块的编号,表示主观结构损失,为改进的二值交叉熵损失。
通过有效的自顶向下整体指导,系统的主观意识关注预测图与真值图间的多层级对应结构特征和偏差结构特征,最终使得显著性映射无限逼近真值,方法效果达到最佳。
本发明提出了一种基于多视角和多层级的绿色编解码显著目标检测系统方法。面对类显著性、非连通区域及边界精细检测的困难,模拟人类视觉系统,建模对应的前景轮廓及背景结构的多级内容以及修正偏差区域。将前景图和轮廓图集成到完整的突出区域,然后自适应地补充其他层级特征,最大化分离可感知内容。接着,通过偏差注意提取偏差图进行添补和修减校准,再利用横纵向交互提取有效内容和邻域显著信息。最终,建立了一个有效的自底向上客观驱动与自顶向下先验指导的显著性计算系统,输出复杂结构下精细检测显著性和清晰轮廓,具有有效性和优越性。本发明在5个公共数据集上进行了广泛的实验,结果表明了系统的鲁棒性和较强的泛化能力,并且在处理256×256图像时,以27fps的实时速度快速运行,利于实际应用。
附图说明
图1为本发明所述的基于多视角和多层级的绿色编解码显著目标检测系统的流程示意图。
图2为本发明具体实施方式二所述的多层级注意权重的特征张量的结构示意图。
图3为本发明具体实施方式二所述的各个层级结构特征的张量分析示意图。
图4为采用本发明所述的基于多视角和多层级的绿色编解码器输出的特征示意图,其中(a)(b)(c)(d)分别表示图像、感知解码器、修正解码器和双向聚合解码器。
图5为采用本发明所述的基于自顶向下绿色计算的主观结构损失结构示意图。
图6为采用本发明所述的基于多视角和多层级的绿色编解码显著目标检测系统在显著目标检测数据集上对比的实验结果。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式所述的基于多视角和多层级的绿色编解码显著目标检测系统,它包括如下步骤:
步骤S1:基于优化全局池化层和全连接层的ResNet-50,输入图像进入编码器结构,通过更精细、更底层的特征逐步优化粗糙的、上层的估计,增强高级语境特征和底层空间结构特征,输出粗糙的显著源特征;
步骤S2:利用步骤S1中输出的粗糙特征,输入多层解码器实现多视角解码:感知内容匹配解码器、修正解码器和双向聚合解码器;
步骤S3:感知内容匹配解码器通过在前景、轮廓、背景和图像级运用通道注意和空间注意关注图像中可辨识特征及其位置信息,净化源特征;
步骤S4:修正解码器在非连通和轮廓等误差区域添加约束权重,元素级加权融合以修正预测显著图,实现度量误差敏感;
步骤S5:针对复杂编解码结构中一元像素级融合特征未充分交互聚合的问题,提出了双向聚合解码器,在纵向和横向邻域上追踪融合步骤S3、S4中得到的感知内容特征和修正特征,同时定位突出显著对象和修正偏差特征;
步骤S6:基于视皮层选择性机理,提出关注底层对应因子的主观结构损失函数,监督度量预测输出和先验指导之间的结构相似性。
具体实施方式二:本实施方式是对具体实施方式一所述的基于多视角和多层级的绿色编解码显著目标检测系统的进一步限定,
步骤一中采用基于优化全局池化和全连接层Resnet-50的编码器的方法为:
系统采用优化过全局池化层和全连接层的ResNet-50,便于执行像素级任务、扩大高级特征感受野。对于输入图像Image∈NatureHeight×Width×Channel,提取的特征表示为输出大小为(Height×Width)/16,Channelblock属于{64,256,1024,2048}。系统具有基于u型结构的自顶向下的横向连接,以自上而下的细化方式进行多尺度显著性推理,通过更精细、更下层的特征逐步优化粗糙的、上层的估计,增强高级语境特征和低层次的空间结构特征。特征提取子网与其他三个子网各自形成编码-解码结构,传递多尺度特征信息,便于感知、修正、追踪特征。
具体实施方式三:
本实施方式是对具体实施方式一所述的基于多视角和多层级的绿色编解码显著目标检测系统的进一步限定,
对步骤三中感知内容匹配解码器,多层级注意权重的特征张量的结构示意图如图2所示,方法为:
通道注意和空间注意关注图像可辨识特征及其位置信息。源特征如图3(a),首先经过通道注意,沿着信道轴应用全局最大池化来聚合特征映射的信道信息,并用通道级乘法净化源特征:去除冗余,其中,featureCA表示通道注意特征,CA表示通道注意,Θ为通道级乘法。接着,通过并行的空间注意分别生成 和分别表示前景空间注意图(如图3(b))和轮廓空间注意图(如图3(c))轮廓空间注意图经过上采样输出多尺度轮廓图
在自然图像空间中背景占比远大于前景,视皮层选择机制会趋向于将未知像素预测成背景,预测模型通过模拟人脑内在推导机理,提取背景空间注意图,结合前景、轮廓空间注意图,在背景空间中最大化分离出感知内容,尤其表现在孔洞和非连通复杂区域。背景图的生成与前景-轮廓图密切相关,通过前景空间注意图与轮廓空间注意图元素级求和得到前景轮廓空间注意图如图3(d),为进一步减少不确定信息,与源特征相乘,在特征层级上突出显著区域。背景空间注意图的建模采用反向注意提供互补信息,如图3(e),表示反向注意。同样地,与源特征元素级相乘,在特征层级标记非显著性区域。最后,与在信道级合并,隐式地提取互补信息。
可辨识特征关注可感知细节信息,对空间中邻接、重叠和包容关系敏感,不能预测完整显著对象。图像级特征能够分析全局空间位置信息,完整表达显著对象。首先,在源特征上应用全局平均池化得到粗糙的图像特征,如图3(f),接着,采用1×1卷积平滑,上采样重构获得可以映射整体特征基调的显著性信息,再通过图像空间注意将重建的图像级特征压缩成一个响应图
最后,使用
来表示特征层级整体基调。最终,前景、轮廓、背景与图像级特征在信道级融合后经过1×1卷积聚合,如图3(g)所示,最后采用短连接相加保留原始特征输出感知内容注意神经-中枢-大脑的工作是一个不断迭代、不断抽象的过程,可感知信息的提取将原始信息从低级向高级抽象。本文采用邻域追踪机制模拟轮廓图及感知内容显著图不断迭代的过程,在相邻特征块间进行元素级净化融合
其中,ContourPerceptualContent表示感知内容解码器的输出轮廓,SalientPerceptualContent表示感知内容解码器输出的显著图,bilinear2为双线性插值。最终输出追踪后的轮廓图及感知内容显著图传递邻域感知信息,增强特征交互多元化,完成向高级抽象迭代,如图4(b)所示。
具体实施方式四:
本实施方式是对具体实施方式一所述的基于多视角和多层级的绿色编解码显著目标检测系统的进一步限定,
对步骤四中实现误差度量敏感的修正解码器方法为:
首先,源特征经过通道数为128的3×3和1×1两个卷积层,分别得到和其中,表示显著区域特征,表示显著对象特征,差异值表示偏差特征,通过回归输出偏差映射。接着,偏差特征经过tanh函数将特征映射到[-1,1],得到偏差注意在相邻特征块间,采用邻域追踪机制进行偏差注意的交互迭代,进一步关注误差区域。接着,在显著对象特征上给予偏差注意严格权重,元素级加权融合以修正高对比及类显著信息,输出修正子网的显著性映射相应地,以学习的方式采用深度监督最小化优化目标,其中,Losscorect表示修正损失。如图4(c)所示,修正模块能够在强对比区域、精细结构等易出错区域同时实现正向添补和反向修正,如图4(1)(2)和(3)(4),映证了修正模块的有效性。
具体实施方式五:
本实施方式是对具体实施方式一所述的基于多视角和多层级的绿色编解码显著目标检测系统的进一步限定,
对步骤五中基于复杂编解码器追踪的双向聚合解码器方法为:
感知内容注意和偏差注意分别定位突出显著对象及修正偏差区域,源特征首先输入纵向感知内容通道追踪定位主观结构损失对应的前景、背景和轮廓特征,最大化分离出可感知显著对象,其中,BiFPerceptualContent为双向聚合感知内容特征。便于在强对比及类显著域准确输出显著性映射,接着输入纵向并联的修正通道其中,BiFPerceptualContent为双向聚合修正特征。纠正偏差特征,使得纵向融合进一步增强。显著检测方法在特定分辨率的特征模块间缺乏信息传递导致输出分辨率低、轮廓不清晰,邻域追踪机制聚合模型横向邻域分辨率特征从而提高特征表征能力。基于ResNet-50残差模块尺寸,当残差块b=1,2时,横向追踪邻块特征间元素级之和;当b=3,4时,横向追踪邻块特征经过双线性插值的元素级之和,最终输出聚合后的多尺度显著图如图4(d)所示,双向聚合通过横纵交叉融合双模块注意特征及邻块显著信息,有效保留原始特征信息,在不增加冗余的情况下多元聚合以输出高分辨率显著图。
为了提升显著图,引入改进的二值交叉熵损失能够在偏差区域像素添加额外的约束,从而达到更好的修正:
其中,PixelNumberI为像素数,Sfinal为聚合后输出的多尺度显著图,G为真值图,E表示偏差映射,IBCE(·)表示为:
改进的二值交叉熵损失加权预测图中偏差区域每个像素处的交叉熵损失,使得预测与真值标注误差最小。
具体实施方式六:
本实施方式是对具体实施方式一所述的基于多视角和多层级的绿色编解码显著目标检测系统的进一步限定,
对步骤五中关注底层对应因子的主观结构损失函数方法为:
主观判断的正确性奠定了客观内容表征的可靠性,底层特征的精确提取也辅助提升结构相似性,二者是相互影响相互补充的关系,如图5所示,为此,主观先验和底层结构特征需要充分利用。IOU损失通过预测目标与真值标注的交并比关注前景区域,SSIM损失考虑每个像素的局部邻域,给边分配更高的权值以关注轮廓。考虑到背景部分占比远大于前景,导致优化时会趋向于将未知像素预测成背景,采用F-m损失可以自动抵消正负样本不平衡,使前/背景被清晰地分离,在应用中,收敛速度快,且最优阈值在不同数据集、网络都较接近。基于特征图级的IOU损失、像素块级的SSIM损失和感知度量的F-m损失,构建了一个LossSSL衡量预测显著图的前景、轮廓、背景与真值图对应结构的逼近程度:
LossSSL=LIOU(S,G)+LSSIM(S,G)+LF-m(S,G) (6)
LossSSL表示主观结构损失,S和G分别表示显著图和真值图,LossIOU、LossSSIM、LossF-m分别为:
其中,S(PixelNumberI)和G(PixelNumberI)表示第PixelNumberI个像素的显著预测和真值标注。x,y为显著预测和真值标注的N×N像素块的像素值,μx、μy和σx、σy为x,y的均值和标准差,σxy是它们的协方差,设置C1=0.012,C2=0.032为避免除零。β2根据经验设置为0.3,主观结构损失模拟视觉关注机制解读系统的预测输出,在多层级结构上更接近真值图,对精度敏感。最终,通过公式(1)(7),系统的目标函数通过主观结构损失与改进二值交叉熵损失联合学习,计算如下:
通过有效的自顶向下整体指导,模型的主观意识关注预测图与真值图间的多层级对应结构特征和偏差结构特征,最终使得显著性映射无限逼近真值,模型效果达到最佳。
针对本发明的显著目标检测系统,在5个典型数据集上进行实验。DUTS包含来自ImageNet DET的训练评估集的10553张训练图片(DUTS-TR)和来自ImageNet测试集和SUN数据集的5019张测试图片(DUTS-TE)。采用DUTS-TR作为训练集,DUTS-TE和其他4个数据集用作测试验证;ECSSD包含1000张在语义上有意义但在结构上复杂的自然图像;DUT-OMRON具有5168张复杂背景和高质量多样性图像;PASCAL-S由850张具有挑战性的图像组成;HKU-IS包含4447张复杂场景下空间分布不同的强非连通域多对象图像。为了保证对比实验的客观性,采用平均绝对误差MAE、F测量评价Fβ、加权F测量评价和F-measure曲线客观评估算法模型。
为了网络各组件对于显著性映射的有效性,本文在DUT-OMRON和HKU-IS两个具有挑战性的数据集上进行全面的实验,如表1所示:
表1消融实验
主观结构损失与感知内容匹配模块的结构内容对应,表2对比验证了客观内容与主观指导的对应关系,本文对应关系能够降低MAE,均衡提升查准率和查全率,证明了主观结构损失能够有效地提供自顶向下的主观指导,也证明了主观感知和客观细化在结构上对应关系的有效性。
表2对应关系消融实验
表3与12种先进方法定量对比(最优和次优方法用1,2标记)
将本系统与12种先进显著目标检测方法在5个数据集上进行量化分析,如表3所示,由表可得本系统在所有指标上表现优异,误差小,整体性能高,个别指标位列第三。尤其在推理图像数量大、场景复杂以及具有非连通域多目标的DUT-OMRON和HKU-IS数据集上,误差及性能都优于最先进方法,较次优方法Fβ分数提高了3.5%。受益于主观损失感知与客观特征驱动的有效对应关系,Fβ在所有数据集上使得精度和召回率达到均衡最佳。在强语义数据集ECSSD上,ITSD利用显著图及轮廓语义高度相关表现优秀,本系统达到次佳。在PASCAL和DUTS-TE上,MAE值达到次佳,根据权重分配排名第三,整体性能最佳。如图6为本发明所述的基于多视角和多层级的绿色编解码显著目标检测系统在显著目标检测数据集上对比方法的实验结果
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所给出的技术范围内,可理解想到的变换或替换,都应该涵盖在本发明的权利要求书的保护范围之内。
本发明对基于传统统计分析和深度学习的显著检测方法中无法同时实现特征的完整提取和精确表征非连通区域及精细轮廓这一问题,通过模拟人类视觉系统,提出了基于多视角和多层级的绿色编解码显著目标检测系统,建模对应的前景轮廓及背景结构的多级内容以及修正偏差区域。感知内容匹配解码器将前景图和轮廓图集成到完整的突出区域,然后自适应地补充其他层级特征,最大化分离可感知内容。修正解码器通过偏差注意提取偏差图进行添补和修减校准。双向聚合解码器则横纵向交互提取有效内容和邻域显著信息。最终,建立了一个有效的自底向上客观驱动与自顶向下先验指导的显著性计算模型,输出复杂结构下精细检测显著性和清晰轮廓,具有有效性和优越性。方法在5个公共数据集上进行了广泛的实验,结果表明了方法的鲁棒性和较强的泛化能力,并且算法在处理256×256图像时,以27FPS的实时速度快速运行,利于实际应用。
Claims (5)
1.基于多视角和多层级的绿色编解码显著目标检测系统,其特征在于,作为编码-多级解码器结构,在多级结构关联下自顶向下地指导对应底层的前景、轮廓、背景特征内容以及复杂场景下多对象、非连通区域。它包括如下步骤:
步骤S1:基于优化全局池化层和全连接层的ResNet-50,输入图像进入编码器结构,通过更精细、更底层的特征逐步优化粗糙的、上层的估计,增强高级语境特征和底层空间结构特征,输出粗糙的显著源特征;
步骤S2:利用步骤S1中输出的粗糙特征,输入多层解码器实现多视角解码:感知内容匹配解码器、修正解码器和双向聚合解码器;
步骤S3:感知内容匹配解码器通过在前景、轮廓、背景和图像级运用通道注意和空间注意关注图像中可辨识特征及其位置信息,净化源特征;
步骤S4:修正解码器在非连通和轮廓等误差区域添加约束权重,元素级加权融合以修正预测显著图,实现度量误差敏感;
步骤S5:针对复杂编解码结构中一元像素级融合特征未充分交互聚合的问题,提出了双向聚合解码器,在纵向和横向邻域上追踪融合步骤S3、S4中得到的感知内容特征和修正特征,同时定位突出显著对象和修正偏差特征;
步骤S6:基于视皮层选择性机理,提出关注底层对应因子的主观结构损失函数,监督度量预测输出和先验指导之间的结构相似性。
2.根据权利要求1所述的基于多视角和多层级的绿色编解码显著性检测系统,其特点在于,步骤S1中的采用优化过的编码器结构,为了获得更大的特征图,将卷积神经网络中的最后一个剩余模块中的卷积步长都设为stride=1。对于步骤S1输出的粗糙特征encoder表示编码器,block∈{1,2,3,4,5}表示编码模块的序号,Channelblock∈{64,256,1024,2048}为图像的通道数,Nature表示自然图像,Height、Width和Channel分别表示其高、宽和通道。
3.根据权利要求1所述的基于多视角和多层级的绿色编解码显著性检测系统,其特点在于,步骤S2中分别将S1输出的多尺度显著特征分别输入到三个解码器中进行学习:
和
4.根据权利要求1所述的基于多视角和多层级的绿色编解码显著性检测系统,其特点在于,所述步骤S3中采用通道和空间注意权重学习不同层级间的显著辨识性特征,建模复杂场景下完整的自底向上显著性计算模块的方法为:
首先在通道轴上应用全局最大池化并通过通道级乘法净化源粗糙特征,
使得其聚合特征映射的通道级信息其中,featureCA表示通道特征,CA为通道注意,Θ为通道级乘法。接着通过并行的空间注意分别生成Attentionforeground和Attentioncontour分别为前景空间注意图和轮廓空间注意图,轮廓空间注意图经过上采样输出多尺度轮廓图其中,轮廓空间注意图是在轮廓真值的监督下以学习的方式输出,最小化模型轮廓损失表示为:
其中,上采样,Gcontour为轮廓真值。
表示二进制交叉熵损失函数,计算为:
S(PixelNumberI)∈[0,1]、G(PixelNumberI)∈{0,1}分别表示第PixelNumberI个像素的轮廓预测值和真值,PixelNumberI为像素数,先对每个像素单独使用交叉熵损失,再求整。
通过前景空间注意图与轮廓空间注意图元素级求和得到前景轮廓空间注意图为进一步减少不确定信息,与源特征相乘,在特征层级上突出显著区域。背景空间注意图的建模采用反向注意1一提供互补信息,与源特征元素级相乘,在特征层级标记非显著性区域。最后,与在信道级合并,隐式地提取互补信息。图像级特征能够分析全局空间位置信息,完整表达显著对象。首先,在源特征上应用全局平均池化得到粗糙的图像特征,接着,采用1×1卷积平滑,上采样重构获得可以映射整体特征基调的显著性信息,再通过图像空间注意将重建的图像级特征压缩成一个响应图
最后,使用
表示特征层级整体基调。最终,前景、轮廓、背景与图像级特征在信道级融合后经过1×1卷积聚合,最后采用短连接相加保留原始特征输出多层级注意力的特征张量
5.根据权利要求1所述的基于多视角和多层级的绿色编解码显著性检测系统,其特点在于,在步骤S6中构建了一个自顶向下的关注底层因子的主观结构损失函数,能够实现多视角特征的绿色计算。
基于视皮层选择性机理,主观描述受到上下文内容、位置、前景/背景,轮廓、人等的高层因素影响,IOU损失通过预测目标与真值标注的交并比关注前景区域,SSIM损失考虑每个像素的局部邻域,给边分配更高的权值以关注轮廓。考虑到背景部分占比远大于前景,导致优化时会趋向于将未知像素预测成背景,采用F-m损失可以自动抵消正负样本不平衡,使前/背景被清晰地分离,在应用中,收敛速度快,且最优阈值在不同数据集、网络都较接近。基于特征图级的IOU损失、像素块级的SSIM损失和感知度量的F-m损失,构建了一个LossSSL衡量预测显著图的前景、轮廓、背景与真值图对应结构的逼近程度:
LossSSL=LIOU(S,G)+LSSIM(S,G)+LF-m(S,G)
LossSSL表示主观结构损失,S和G分别表示显著图和真值图,LossIOU、LossSSIM、LossF-m为:
其中,S(PixelNumberI)和G(PixelNumberI)表示第PixelNumberI个像素的显著预测和真值标注。x,y分别为显著预测和真值标注的N×N像素块的像素值,μx、μy和σx、σy为x,y的均值和标准差,σxy是x和y协方差,其中C1=0.012,C2=0.032来避免零作为除数。β2根据经验设置为0.3, P为查准率,R为查全率,TP、FP和FN分别为正样本被正确识别的数量,误报的负样本数量和漏报的正样本数量。主观结构损失模拟视觉关注机制解读系统的预测输出,在多层级结构上更接近真值图,对精度敏感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349872.8A CN116452793A (zh) | 2023-04-04 | 2023-04-04 | 一种基于多视角和多层级的绿色编解码显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310349872.8A CN116452793A (zh) | 2023-04-04 | 2023-04-04 | 一种基于多视角和多层级的绿色编解码显著目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452793A true CN116452793A (zh) | 2023-07-18 |
Family
ID=87119527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310349872.8A Pending CN116452793A (zh) | 2023-04-04 | 2023-04-04 | 一种基于多视角和多层级的绿色编解码显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452793A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392135A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市普朗医疗科技发展有限公司 | 基于图像的注射剂量分析方法及系统 |
-
2023
- 2023-04-04 CN CN202310349872.8A patent/CN116452793A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392135A (zh) * | 2023-12-12 | 2024-01-12 | 深圳市普朗医疗科技发展有限公司 | 基于图像的注射剂量分析方法及系统 |
CN117392135B (zh) * | 2023-12-12 | 2024-03-01 | 深圳市普朗医疗科技发展有限公司 | 基于图像的注射剂量分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
Li et al. | Multitask semantic boundary awareness network for remote sensing image segmentation | |
CN114120102A (zh) | 边界优化的遥感图像语义分割方法、装置、设备及介质 | |
CN107239730B (zh) | 智能汽车交通标志识别的四元数深度神经网络模型方法 | |
CN111612807A (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
Li et al. | A review of deep learning methods for pixel-level crack detection | |
Ma et al. | A multilevel multimodal fusion transformer for remote sensing semantic segmentation | |
CN114897914A (zh) | 基于对抗训练的半监督ct图像分割方法 | |
CN113450313B (zh) | 一种基于区域对比学习的图像显著性可视化方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN116740439A (zh) | 一种基于跨尺度金字塔Transformer的人群计数方法 | |
CN110827265A (zh) | 基于深度学习的图片异常检测方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
Shen et al. | Digging into uncertainty-based pseudo-label for robust stereo matching | |
Sang et al. | Small-object sensitive segmentation using across feature map attention | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN116452793A (zh) | 一种基于多视角和多层级的绿色编解码显著目标检测方法 | |
CN116486408A (zh) | 遥感图像跨域语义分割方法及装置 | |
Tang et al. | SDRNet: An end-to-end shadow detection and removal network | |
Zuo et al. | A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
Chen et al. | Semantic segmentation of mechanical assembly using selective kernel convolution UNet with fully connected conditional random field | |
de Silva et al. | RipViz: Finding Rip Currents by Learning Pathline Behavior |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |