CN111914852A - 一种基于编解码结构的多模态显著性对象检测方法 - Google Patents
一种基于编解码结构的多模态显著性对象检测方法 Download PDFInfo
- Publication number
- CN111914852A CN111914852A CN202010494739.8A CN202010494739A CN111914852A CN 111914852 A CN111914852 A CN 111914852A CN 202010494739 A CN202010494739 A CN 202010494739A CN 111914852 A CN111914852 A CN 111914852A
- Authority
- CN
- China
- Prior art keywords
- contrast
- branch
- salient object
- learning
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于编解码结构的多模态显著性对象检测方法。本发明在已有的彩色图像算法模型的基础之上,将深度图像作为先验信息,补充到算法之中。本发明方法可分为两部分:一部分以彩色图像为输入,基于编解码结构的深度学习技术,实现显著性检测;另一部分用于处理深度图像,用轻量级的神经网络学习深度特征,并将特征信息补充到第一部分,从而提高整体模型的识别精度。本发明方法能够简单高效的利用深度图像,从中学习特征,增强算法的识别精度和稳定性,能够为现有部署的显著性检测算法提供快捷、低廉的更新手段。
Description
技术领域
本发明属于计算机视觉技术领域,尤其针对图像显著性对象检测任务,具体涉及一种基于编解码结构的,联合彩色图像与深度图像的多模态显著性对象检测算法。
背景技术
计算机视觉技术是人工智能领域的重要分支,随着神经网络、深度学习的快速发展,计算机视觉领域的诸多难题,例如:图像分类、目标检测、图像分割任务,取得了巨大进展,算法的准确性、实时性得到大幅增强。目前,计算机视觉技术已广泛应用于实际生产生活中,尤其是安防监控领域、支付领域、智能制造领域,推动社会生产降本提效,提高公民生活水平。基于深度学习的图像分割,是计算机视觉的关键技术,显著性对象检测为图像分割的子问题之一。显著性对象检测是由人类的注意力机制演变而来,目的在于识别出图像或视频数据中较为突出的物体,广泛应用于智能手机、安防监控、图像处理领域中。
现有的显著性对象检测算法主要基于深度学习技术,可分为单物体、多物体检测,大多数被提出的算法都以彩色图像为输入。近年来,随着激光雷达、深度相机等硬件设备的发展,使智能手机、汽车等设备拥有了感知深度信息的能力,因此,对于显著性检测算法来说,正确、有效的利用深度信息至关重要,联合彩色图像和深度图像作为输入,提高算法精度、稳定性有待研究。目前,主要的挑战分为两点,一方面,需要重新研发新的算法,来共同处理彩色图像和深度图像;另一方面,需要简单有效的策略,将深度信息融合到已有的算法中去。在生产生活中,前者的做法往往成本较高,因此,后者的做法更应该被采纳,这样既能利用好深度信息,提高算法精度与鲁棒性,也能控制成本,使算法的更新换代更方便快捷。
本发明主要考虑随着激光雷达、深度相机等硬件设备的发展进步,越来越多的设备将具有获取环境中物体深度信息的能力。如何更好的利用深度信息,从而提高显著性对象检测算法的准确率和鲁棒性是值得探讨的问题。
发明内容
针对现有技术中存在的不足,本发明提供一种基于编解码结构的多模态显著性对象检测方法。
本发明针对联合彩色图像与深度图像共同进行显著性对象检测的问题,在已有的彩色图像算法模型的基础之上,将深度图像作为先验信息,补充到算法之中。本发明提出的显著性检测方法,可分为两部分:一部分以彩色图像为输入,基于编解码结构的深度学习技术,实现显著性检测;另一部分用于处理深度图像,用轻量级的神经网络学习深度特征,并将特征信息补充到第一部分,从而提高整体模型的识别精度。具体按照以下步骤实施:
步骤1、根据应用的真实环境选择合适的数据集,确定数据的格式、分布、数量,划分训练集和测试集。
步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数。
步骤3、设置参数,选择优化器,训练模型,得到模型参数。
步骤4、使用测试集对训练后的模型进行测试。
本发明方法具有的优点及有益结果为:
1、随着深度感知设备的快速发展,传统设备端获得了获取环境中深度信息的能力,本发明方法能够简单高效的利用深度图像,从中学习特征,增强算法的识别精度和稳定性。
2、本发明方法能够为现有部署的显著性检测算法提供快捷、低廉的更新手段,在算法框架上使用本专利发明的算法,仅增加少量的计算开销和内存占用,就可以在带有深度感知硬件的新设备上完成算法的更新换代,降低重复开发成本,促进计算机视觉技术的产业化应用发展。
附图说明
图1是本发明提出的网络模型结构图;
图2是本发明提出的对比度引导的多模态特征混合解码器的结构;
图3是本发明提出的算法的使用效果图。
具体实施方式
下面结合具体实施方式对本发明进行详细的说明。
本发明提出一种基于编解码结构的多模态显著性对象检测方法,按照以下步骤实施。
步骤1、选择合适的数据集,并进行预处理,划分训练集和测试集。
彩色图像采用RGB颜色空间的格式,深度图像采用0-255灰度值表达深度信息的格式,数据集中深度图像的像素值含义要与深度感知设备保持一致。数据集可以从公开的五个数据集:NJU2K、LFSD、NLPR、STERE、DES中进行选择,本实施例从NJU2K数据集中随机选择1400张彩色图像及对应的深度图像、从NLPR数据集中随机选择650张彩色图像及对应的深度图像,并进行水平镜像翻转、旋转90°、旋转180°、旋转270°,从而实现五倍的数据集扩增,并将数据集中深度图像的像素值进行线性变换,像素值0代表深度为0,像素值255代表深度为255。
步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数。
如图1所示,网络模型分为显著性对象预测分支和对比度特征学习分支;
显著性对象预测分支以彩色图像为输入的,基于编解码结构,用于完成显著性对象预测任务。编码部分使用ResNet-34网络,解码部分为对比度引导的多模态特征混合解码器,所述的对比度引导的多模态特征混合解码器对彩色特征和对比度特征进行充分融合,首先使用拼接操作,将对比度特征中的信息补充到显著性对象预测过程中,然后再次使用彩色特征与对比度特征生成特征滤波器,对颜色特征进行增强,如附图2所示。在解码部分每个阶段均有损失函数进行监督,损失函数如公式(1)所示,采用最后一个阶段的输出作为最终的显著性对象预测结果;
显著性对象预测分支的损失函数:
Lrgb=YlogP+(1-Y)log(1-P) (1)
该损失函数为交叉熵损失函数,Y代表显著性结果真值,P代表算法预测的结果。
对比度特征学习分支以深度图像为输入,采用编解码结构,用于从深度图像中学习对比度特征,并作为先验信息补偿到显著性对象预测分支,在对比度特征学习分支解码部分的最后一个阶段使用对比度损失函数进行监督,对比度损失函数如公式(2)所示。
对比度特征学习分支的损失函数:
Ldepth=a*(Lfore+Lback)+b*Lboth (2)
Lfore=-log(1-4*Dfore)
Lback=-log(1-4*Dback)
Lboth=-log(Dfore-Dback)2
其中,a、b为超参数,设置为a=1,b=10。Dfore代表深度图像中,前景区域即显著性对象区域的像素方差,Dback代表深度图像中,背景区域即非显著性对象区域的像素方差。
具体执行流程:
4)取显著性对象预测分支最后一个解码器的输出结果作为显著性对象检测的预测结果。
中:F代表特征,d代表特征来自对比度特征学习分支,i代表是对比度特征学习分支解码端第i个层级的特征层。中:F代表特征,R代表特征来自显著性对象预测分支,j代表是显著性对象预测分支编码器第j个层级的特征层。中:F代表特征,f代表特征是经过融合的,n代表是显著性对象预测分支解码端第n个层级的特征层。
步骤3、设置训练参数,选择优化器,将训练集输入模型中进行训练,得到模型参数。
1)训练参数设置:训练迭代次数18000次,每次训练使用8张图片;
分置学习率策略:显著性对象预测分支学习率设置为1e-4,对比度特征学习分支学习率设置为1e-6;
使用学习率衰减策略:当迭代次数为13000次时,显著性对象预测分支学习率减小为1e-5。
2)优化器:使用Adam优化器。
3)将训练集输入模型中进行训练,得到模型参数。
步骤4、使用测试集对训练后的模型进行测试。
本发明提出的新型显著性对象检测算法的效果图参照图3.
本发明提出的算法的精确度评估:
本发明提出的新型显著性对象检测算法,在五个公开数据集上均能完成显著性检测任务,并取得较高的性能结果。
Claims (4)
1.一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤如下:
步骤1、根据应用的真实环境选择合适的数据集,确定数据的格式、分布、数量,划分训练集和测试集;
步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数;
步骤3、设置参数,选择优化器,训练模型,得到模型参数;
步骤4、使用测试集对训练后的模型进行测试。
2.根据权利要求1所述的一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤1选择合适的数据集,并进行预处理,划分训练集和测试集,具体操作如下;
彩色图像采用RGB颜色空间的格式,深度图像采用0-255灰度值表达深度信息的格式,数据集中深度图像的像素值含义要与深度感知设备保持一致;对选取的数据采用水平镜像翻转、旋转90°、旋转180°、旋转270°,从而实现五倍的数据集扩增,并将数据集中深度图像的像素值进行线性变换,像素值0代表深度为0,像素值255代表深度为255。
3.根据权利要求2所述的一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤2、确定网络模型的组成部分,设计执行流程,选择合适的损失函数,具体操作如下;
网络模型分为显著性对象预测分支和对比度特征学习分支;
显著性对象预测分支以彩色图像为输入的,基于编解码结构,用于完成显著性对象预测任务;编码部分使用ResNet-34网络,解码部分为对比度引导的多模态特征混合解码器,所述的对比度引导的多模态特征混合解码器对彩色特征和对比度特征进行充分融合,首先使用拼接操作,将对比度特征中的信息补充到显著性对象预测过程中,然后再次使用彩色特征与对比度特征生成特征滤波器,对颜色特征进行增强;在解码部分每个阶段均有损失函数进行监督,损失函数如公式(1)所示,采用最后一个阶段的输出作为最终的显著性对象预测结果;
显著性对象预测分支的损失函数:
Lrgb=YlogP+(1-Y)log(1-P) (1)
该损失函数为交叉熵损失函数,Y代表显著性结果真值,P代表算法预测的结果;
对比度特征学习分支以深度图像为输入,采用编解码结构,用于从深度图像中学习对比度特征,并作为先验信息补偿到显著性对象预测分支,在对比度特征学习分支解码部分的最后一个阶段使用对比度损失函数进行监督,对比度损失函数如公式(2)所示;
对比度特征学习分支的损失函数:
Ldepth=a*(Lfore+Lback)+b*Lboth (2)
Lfore=-log(1-4*Dfore)
Lback=-log(1-4*Dback)
Lboth=-log(Dfore-Dback)2
其中,a、b为超参数,设置为a=1,b=10;Dfore代表深度图像中,前景区域即显著性对象区域的像素方差,Dback代表深度图像中,背景区域即非显著性对象区域的像素方差;
具体执行流程:
4)取显著性对象预测分支最后一个解码器的输出结果作为显著性对象检测的预测结果;
4.根据权利要求3所述的一种基于编解码结构的多模态显著性对象检测方法,其特征在于,步骤3设置训练参数,选择优化器,将训练集输入模型中进行训练,得到模型参数,具体操作如下;
1)训练参数设置:训练迭代次数18000次,每次训练使用8张图片;
分置学习率策略:显著性对象预测分支学习率设置为1e-4,对比度特征学习分支学习率设置为1e-6;
使用学习率衰减策略:当迭代次数为13000次时,显著性对象预测分支学习率减小为1e-5;
2)优化器:使用Adam优化器;
3)将训练集输入模型中进行训练,得到模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494739.8A CN111914852B (zh) | 2020-06-03 | 2020-06-03 | 一种基于编解码结构的多模态显著性对象检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010494739.8A CN111914852B (zh) | 2020-06-03 | 2020-06-03 | 一种基于编解码结构的多模态显著性对象检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914852A true CN111914852A (zh) | 2020-11-10 |
CN111914852B CN111914852B (zh) | 2023-10-03 |
Family
ID=73237982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010494739.8A Active CN111914852B (zh) | 2020-06-03 | 2020-06-03 | 一种基于编解码结构的多模态显著性对象检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914852B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274419A (zh) * | 2017-07-10 | 2017-10-20 | 北京工业大学 | 一种基于全局先验和局部上下文的深度学习显著性检测方法 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
-
2020
- 2020-06-03 CN CN202010494739.8A patent/CN111914852B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107274419A (zh) * | 2017-07-10 | 2017-10-20 | 北京工业大学 | 一种基于全局先验和局部上下文的深度学习显著性检测方法 |
CN110909594A (zh) * | 2019-10-12 | 2020-03-24 | 杭州电子科技大学 | 一种基于深度融合的视频显著性检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914852B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Golts et al. | Unsupervised single image dehazing using dark channel prior loss | |
CN112347859B (zh) | 一种光学遥感图像显著性目标检测方法 | |
CN108171701B (zh) | 基于u网络和对抗学习的显著性检测方法 | |
CN108875935B (zh) | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN114187450A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN115619743A (zh) | Oled新型显示器件表面缺陷检测模型的构建方法及其应用 | |
CN113033454B (zh) | 一种城市视频摄像中建筑物变化的检测方法 | |
CN115713679A (zh) | 基于多源信息融合、热红外和三维深度图的目标检测方法 | |
CN113822951A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112651333B (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
Maslov et al. | Online supervised attention-based recurrent depth estimation from monocular video | |
CN112163490A (zh) | 一种基于场景图片的目标检测方法 | |
Zhang et al. | LiSeg: Lightweight road-object semantic segmentation in 3D LiDAR scans for autonomous driving | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN114463340B (zh) | 一种边缘信息引导的敏捷型遥感图像语义分割方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN113205102B (zh) | 一种基于忆阻神经网络的车辆标志识别方法 | |
CN114299305A (zh) | 聚合密集和注意力多尺度特征的显著性目标检测算法 | |
Sabater et al. | Event Transformer+. A multi-purpose solution for efficient event data processing | |
CN111914852B (zh) | 一种基于编解码结构的多模态显著性对象检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |