CN112115864B - 红外图像及深度图像双模态目标分割方法及装置 - Google Patents
红外图像及深度图像双模态目标分割方法及装置 Download PDFInfo
- Publication number
- CN112115864B CN112115864B CN202010987023.1A CN202010987023A CN112115864B CN 112115864 B CN112115864 B CN 112115864B CN 202010987023 A CN202010987023 A CN 202010987023A CN 112115864 B CN112115864 B CN 112115864B
- Authority
- CN
- China
- Prior art keywords
- depth image
- depth
- fuse
- image
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Abstract
本发明公开了一种红外图像及深度图像双模态目标分割方法及装置,方法包括:将红外图像及深度图像分别送入卷积神经网络,红外图像经过第i个卷积层后生成红外特征图序列Ri,深度图像经过第i个卷积层后生成深度特征图序列Di;将Di经过若干次卷积与线性修正后,与Ri相加得到Ti,将Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;将Di经过池化和卷积后进行softmax处理得到深度引导向量VF。相比于现有技术,本发明技术方案将深度图像进行HHA编码,更利于卷积神经网络特征的学习;将红外特征图序列和深度特征图序列进行逐级融合,并提出了采用分层累加多尺度特征融合方式,促进了目标特征提取,从而提升了目标分割的效能。
Description
技术领域
本发明涉及目标检测技术领域,特别是涉及一种红外图像及深度图像双模态目标分割方法。
背景技术
在现有技术中,图像中的目标分割通常基于颜色、形状和纹理的特征进行分割,相应的分割方法包括大津阈值分割、水域分割、背景减除法等。随着深度学习技术的快速发展,使用深度学习方法进行目标分割已成为图像分割领域的主流算法。相比于传统手工提取特征,卷积神经网络利用自身多层网络结构学习更高级复杂的特征,可实现更为精确的分割结果。
可见光图像在弱光照下无法清晰成像,使得红外图像成为进行全天候目标检测的手段。红外图像信噪比低、亮度分布不均匀,因此利用红外图像分割出的目标可能会存在明显的问题,比如人体部位不连贯、人体边缘不清晰等。深度图像可提供场景外的几何特征,将深度信息融入红外图像的目标分割,可以缓解单纯利用红外图像分割所产生的问题。
鉴于此,本发明提出一种红外图像及深度图像双模态目标分割方法,融合红外图像及深度图像两种模态的特征进行目标分割,以缓解现有技术的不足。
发明内容
第一方面,本发明提供了一种红外图像及深度图像双模态目标分割方法,包括:将红外图像及深度图像分别送入卷积神经网络,卷积神经网络包含5个卷积层,红外图像经过第i个卷积层后生成红外特征图序列Ri,深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;将Di经过若干次卷积与线性修正后,与Ri相加得到Ti,将Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;将Di经过池化和卷积后进行softmax处理得到深度引导向量VF;将Fi进行像素级相加得到融合特征图Ffuse;将VF作为DMSW模块的引导向量,将Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。
进一步地,将深度图像送入卷积神经网络前,还包括:对深度图像进行HHA编码,形成编码后的深度图像。
第二方面,本发明提供了一种红外图像及深度图像双模态目标分割装置,包括:卷积神经网络,将红外图像及深度图像分别送入卷积神经网络,卷积神经网络包含5个卷积层,红外图像经过第i个卷积层后生成红外特征图序列Ri,深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;中间级融合模块,将Di经过若干次卷积与线性修正后,与Ri相加得到Ti,将Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;引导模块,将Di经过池化和卷积后进行softmax处理得到深度引导向量VF;后端融合模块,将Fi进行像素级相加得到融合特征图Ffuse;分割模块,将VF作为DMSW模块的引导向量,将Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。
进一步地,还包括HHA编码模块,将深度图像送入卷积神经网络前,对深度图像进行HHA编码,形成编码后的深度图像。
本发明的有益效果如下:
本发明提供的技术方案可以包括以下有益效果:提出了一种红外图像及深度图像双模态目标分割方法,将红外图像及深度图像分别送入卷积神经网络,提取图像特征,利用DMSW模块与RAM模块进行目标分割。将深度图像进行HHA编码,更利于卷积神经网络特征的学习;将红外特征图序列和深度特征图序列进行逐级融合,并提出了采用分层累加多尺度特征融合方式,促进了目标特征提取,从而提升了目标分割的效能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一种实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例一种红外图像及深度图像双模态目标分割方法流程示意图;
图2为本发明第二实施例一种红外图像及深度图像双模态目标分割装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
实施例一:
图1是本发明第一实施例一种红外图像及深度图像双模态目标分割方法流程示意图,如图1所示,该方法包括如下四个步骤。
步骤S101:对深度图像进行HHA编码。
需要进行说明的是,深度图像的分辨率远不及可见光图像,成像质量也并不高,存在区域信息缺失。将深度图像送入卷积神经网络前进行HHA编码,可以丰富深度图像的信息。
具体地,深度图像编码HHA首先由深度图像和相机内参矩阵得到深度点云数据,其后计算每个像素点对应空间三维点的法向方向以及偏移量,再由两个阈值45°和15°分别做五次迭代,根据阈值找到“平行边”与“垂直边”的集合,然后最优化中立方向函数,计算旋转矩阵并配准,最后构造HHA数据。第一块H代表水平差异,是三维点的Z轴上的数据;第二块的H代表了三维点相对于地面的高度,是三维点Y轴上的数据;第三块的A,则代表了像素局部表面和推断重力方向之间的倾角。HHA这种对额外信息进行单独编码的方式可以有效提高深度图像使用的效果。
步骤S102:提取红外图像和深度图像的特征。具体地,将红外图像及深度图像分别送入卷积神经网络,卷积神经网络包含5个卷积层,红外图像经过第i个卷积层后生成红外特征图序列Ri,深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;将Di经过若干次卷积与线性修正后,与Ri相加得到Ti,将Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi。
在一个具体的实施例中,深度图像与原始红外图像分别送入卷积神经网络,在送入前统一裁剪成256*256大小,通过五个卷积层提取图像特征。由于每个卷积层的卷积核数量不同,通过第i个卷积层后的通道数也不相同。Ri和Di通过卷积层后的维度分别是:256*256*64、128*128*128、64*64*256、32*32*512、16*16*512,其中前两个维度代表图像大小,最后一个维度代表通道数。深度特征图序列Di经过若干次卷积与线性修正,与Ri相加得到Ti。可选地,将Di通过两次3*3卷积及一次线性修正。需要进行说明的是,线性修正在现有技术中为使用深度学习的Relu层进行数据处理,属于本领域技术人员公知常识范畴。将Ti经过池化操作或线性插值后得到分辨率均为64*64的图像序列Fi。具体地,前两个卷积层输出的特征图(维度为:256*256*64、128*128*128)通过池化操作降低分辨率,最后两个卷积层输出特征图(维度为:32*32*512、16*16*512)通过线性插值操作提高分辨率。需要进行说明的是,池化过程是一个降采样的过程。
步骤S103:分层累加进行特征融合。具体地,将Fi进行像素级相加得到融合特征图Ffuse的步骤包括:计算F12、F22、F32及F42,其中 计算F13、F23及F33,其中 计算F14及F24,Ffuse=F14+F24。
需要进行说明的是,分层累加不同尺度下的融合特征更多交互,有助于多尺度下的特征兼容,直接累加Fi得到融合特征图Ffuse则达不到上述技术效果。
步骤S104:送入DMSW模块与RAM模块进行目标分割。具体地,将Di经过池化和卷积后进行softmax处理得到深度引导向量VF;将VF作为DMSW模块的引导向量,将Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。
需要进行说明的是,softmax在深度学习中有广泛的应用,softmax将多分类的输出数值转化为相对概率。DMSW的全称为Depth-induced Multi-Scale Weighting Module,在深度引导向量VF的引导下获取多尺度特征图。RAM模块的全称为Recurrent AttentionModule,RAM可以搜索以前记忆来协助当下的决策,它迭代地学习不同语义之间的时空依赖关系,并通过面向内存的场景理解逐步优化分割细节,这一模块有效提升了目标分割边缘清晰性。最后,经softmax处理生成最终目标分割结果。
实施例二:
图2为本发明第二实施例一种红外图像及深度图像双模态目标分割装置结构示意图,如图2所示,该装置包括:
HHA编码模块,将深度图像送入卷积神经网络前,对深度图像进行HHA编码,形成编码后的深度图像。
卷积神经网络,将红外图像及深度图像分别送入卷积神经网络,卷积神经网络包含5个卷积层,红外图像经过第i个卷积层后生成红外特征图序列Ri,深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;
中间级融合模块,将Di经过若干次卷积与线性修正后,与Ri相加得到Ti,将Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;
引导模块,将Di经过池化和卷积后进行softmax处理得到深度引导向量VF;
后端融合模块,将Fi进行像素级相加得到融合特征图Ffuse;
分割模块,将VF作为DMSW模块的引导向量,将Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。分割模块中包含DMSW模块与RAM模块。
需要进行说明的是,红外图像及深度图像通过不同的输入端进入卷积神经网络。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (4)
1.一种红外图像及深度图像双模态目标分割方法,其特征在于,包括:
将所述红外图像及深度图像分别送入卷积神经网络,所述卷积神经网络包含5个卷积层,所述红外图像经过第i个卷积层后生成红外特征图序列Ri,所述深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;
将所述Di经过若干次卷积与线性修正后,与所述Ri相加得到Ti,将所述Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;
将所述Di经过池化和卷积后进行softmax处理得到深度引导向量VF;
将所述Fi进行像素级相加得到融合特征图Ffuse;
将所述VF作为DMSW模块的引导向量,将所述Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。
2.根据权利要求1所述的方法,其特征在于,将所述深度图像送入卷积神经网络前,还包括:
对所述深度图像进行HHA编码,形成编码后的深度图像。
3.一种红外图像及深度图像双模态目标分割装置,其特征在于,包括:
卷积神经网络,将所述红外图像及深度图像分别送入卷积神经网络,所述卷积神经网络包含5个卷积层,所述红外图像经过第i个卷积层后生成红外特征图序列Ri,所述深度图像经过第i个卷积层后生成深度特征图序列Di,其中i=1…5;
中间级融合模块,将所述Di经过若干次卷积与线性修正后,与所述Ri相加得到Ti,将所述Ti经过池化操作或线性插值后得到分辨率相同的融合特征图序列Fi;
引导模块,将所述Di经过池化和卷积后进行softmax处理得到深度引导向量VF;
后端融合模块,将所述Fi进行像素级相加得到融合特征图Ffuse,将所述Fi进行像素级相加得到融合特征图Ffuse的步骤,包括计算F12、F22、F32、F42、F13、F23、F33、F14、F24及Ffuse,其中 Ffuse=F14+F24;
分割模块,将所述VF作为DMSW模块的引导向量,将所述Ffuse送入DMSW模块与RAM模块,再经softmax处理生成目标分割结果。
4.根据权利要求3所述的装置,其特征在于,还包括:
HHA编码模块,将所述深度图像送入卷积神经网络前,对所述深度图像进行HHA编码,形成编码后的深度图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987023.1A CN112115864B (zh) | 2020-09-18 | 2020-09-18 | 红外图像及深度图像双模态目标分割方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010987023.1A CN112115864B (zh) | 2020-09-18 | 2020-09-18 | 红外图像及深度图像双模态目标分割方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115864A CN112115864A (zh) | 2020-12-22 |
CN112115864B true CN112115864B (zh) | 2022-05-17 |
Family
ID=73800276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010987023.1A Active CN112115864B (zh) | 2020-09-18 | 2020-09-18 | 红外图像及深度图像双模态目标分割方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115864B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3343507B1 (en) * | 2016-12-30 | 2022-08-10 | Dassault Systèmes | Producing a segmented image of a scene |
CN107403430B (zh) * | 2017-06-15 | 2020-08-07 | 中山大学 | 一种rgbd图像语义分割方法 |
CN108171212A (zh) * | 2018-01-19 | 2018-06-15 | 百度在线网络技术(北京)有限公司 | 用于检测目标的方法和装置 |
CN108830819B (zh) * | 2018-05-23 | 2021-06-18 | 青柠优视科技(北京)有限公司 | 一种深度图像与红外图像的图像融合方法及装置 |
CN109684924B (zh) * | 2018-11-21 | 2022-01-14 | 奥比中光科技集团股份有限公司 | 人脸活体检测方法及设备 |
-
2020
- 2020-09-18 CN CN202010987023.1A patent/CN112115864B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112115864A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN109035253A (zh) | 一种语义分割信息指导的深度学习自动图像抠图方法 | |
CN110197505B (zh) | 基于深度网络及语义信息的遥感图像双目立体匹配方法 | |
CN111899295A (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN113033432A (zh) | 一种基于渐进监督的遥感影像居民区提取方法 | |
CN114897738A (zh) | 一种基于语义不一致性检测的图像盲修复方法 | |
CN112288788A (zh) | 单目图像深度估计方法 | |
CN113850900A (zh) | 三维重建中基于图像和几何线索恢复深度图的方法及系统 | |
CN115272437A (zh) | 一种基于全局与局部特征的图像深度估计方法及装置 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN115063463A (zh) | 一种基于无监督学习的鱼眼相机场景深度估计方法 | |
CN109816781B (zh) | 一种基于图像细节和结构增强的多视图立体几何方法 | |
CN112508821B (zh) | 一种基于定向回归损失函数的立体视觉虚拟图像空洞填补方法 | |
CN113421210A (zh) | 一种基于双目立体视觉的表面点云重建方法 | |
Zhang et al. | Mffe: Multi-scale feature fusion enhanced net for image dehazing | |
CN112115864B (zh) | 红外图像及深度图像双模态目标分割方法及装置 | |
CN113011438A (zh) | 基于节点分类和稀疏图学习的双模态图像显著性检测方法 | |
CN116485867A (zh) | 一种面向自动驾驶的结构化场景深度估计方法 | |
CN115147709B (zh) | 一种基于深度学习的水下目标三维重建方法 | |
CN113506230B (zh) | 一种基于机器视觉的光伏电站航拍影像匀光处理方法 | |
CN116310095A (zh) | 一种基于深度学习的多视图三维重建方法 | |
CN115035193A (zh) | 一种基于双目视觉与图像分割技术的散装粮随机扦样方法 | |
Kim et al. | Layered depth refinement with mask guidance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |