CN112016478A - 一种基于多光谱图像融合的复杂场景识别方法及系统 - Google Patents
一种基于多光谱图像融合的复杂场景识别方法及系统 Download PDFInfo
- Publication number
- CN112016478A CN112016478A CN202010895905.5A CN202010895905A CN112016478A CN 112016478 A CN112016478 A CN 112016478A CN 202010895905 A CN202010895905 A CN 202010895905A CN 112016478 A CN112016478 A CN 112016478A
- Authority
- CN
- China
- Prior art keywords
- image
- scene
- data set
- training
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 16
- 230000003014 reinforcing effect Effects 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 16
- 238000003384 imaging method Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于多光谱图像融合的复杂场景识别方法,包括:将场景数据集的图像划分为训练数据集和测试数据集,场景数据集的图像为将红外光和可见光融合后的图像;根据训练数据集构建场景识别的DL‑FME卷积神经网络,利用DL‑FME卷积神经网络对融合后的图像进行分割,得到分割后的图像;利用DL‑FME卷积神经网络对分割后的图像进行训练以生成场景识别训练模型;将测试数据集的图像输入训练模型以生成场景识别模型;利用场景识别模型对待识别的场景进行识别。本发明还公开了一种基于多光谱图像融合的复杂场景识别系统。本发明的计算成本降低、场景识别的准确率高。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种基于多光谱图像融合的复杂场景识别方法及系统。
背景技术
复杂环境下,对典型目标进行识别和提取是机载光电侦查领域的中一个重要领域,在军事监视、目标探测、毁伤评估以及目标导航等方面都有广泛的应用。
目前机载光电侦查设备往往需要搭载多台不同光谱的传感器,这种组合后的传感器极大地丰富了人们对地面的观察与测量,能够帮助人民更加有效地认知地面目标物。
多谱段传感器的共同使用获取到的航拍图像具有更加丰富的光谱特征信息、空间结构和几何纹理等信息。比如在光电侦查领域,通过可见光相机所获得图像下并不容易区分军事伪装;而在长波/中波红外相机下,生命体和伪装物体的成像却非常明显。但是由于中波和长波红外成像的纹理缺失严重,如果在侦查中单独依靠热红外图像时,会给后续图像中场景的精确识别带来极大的困难。
因此,针对航拍侦查场景的应用需求,需要通过一定的图像融合手段来合理地处理这些图像,并结合人工智能的方法对场景进行识别以获取感兴趣的信息,这已经成为机载光电侦查的重要应用方向。
在机载图像融合和复杂环境识别应用中,现有技术中的图像融合方法对于图像细节特征的保留较少。
由于镜头材料和探测器靶面的限制,可见光镜头和红外镜头的焦距往往是不同的探测器成像像素数也是不同的,这就给图像高效快速地融合带来了极大地困难。在航拍图像中,包含的地物种类繁多,其中,道路、建筑物、水体等信息是重要的基础地理信息以及生命体、伪装等是重要的场景信息。
目前,由于影像分辨率的提高,影像中包含的地物变得越发丰富,图像的细节特征也越来越丰富。现有技术中对颜色空间的色彩融合方法为了保持自然感的彩色图像,在彩色初始化中,主要是将目标场景纹理信息较为丰富的可见光图像(灰度化处理后)送到Y通道,将白热红外图像主要送到V通道,将黑热红外图像(即红外图像的正片)主要送到U通道,受制于机载平台上图像处理硬件的计算能力,这就给不同波段图像的快速匹配和融合带来较大的困难。同时,为了图像后期图像识别的方便,保留更丰富的图像信息也逐渐成为图像融合的关注的主要问题。
在对图像信息进行地理及场景信息的识别时,现有技术中利用SVM、K-means分割定位算法受到场景信息的干扰往往比较大,如场景中树木与建筑物的阴影、车辆及路面上的临时施工区都会影响到信息的准确提取;并且现有技术中的Mask-RCNN、Deeplab等神经网络算法受到机载平台计算能力的影响,面临着计算耗时长,特征提取能力差的问题。
发明内容
本发明提出了一种基于多光谱图像融合的复杂场景识别方法及系统,利用DeepLabv3--Feature Map Enhancement(DL-FME)卷积神经网络,以解决上述现有技术中存在的至少一个技术问题。
为了达到上述目的,本发明采用的技术方案为:
第一方面,本发明实施例提供一种基于多光谱图像融合的复杂场景识别方法,该方法包括以下步骤:
将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
根据所述训练数据集构建场景识别的DL-FME卷积神经网络,利用所述DL-FME卷积神经网络对所述融合后的图像进行分割,得到分割后的图像;
利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
将所述测试数据集的图像输入所述训练模型以生成场景识别模型;
利用所述场景识别模型对待识别的场景进行识别。
进一步的,所述训练数据集和测试数据集通过以下子步骤获得:
对所述融合后的图像进行预处理以获得场景数据集;
标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集。
进一步的,所述融合后的图像通过以下子步骤获得:
对相机的摄像头进行畸变校正;
将校正后的摄像头所拍摄的红外光图像和可见光图像进行配准操作;
将配准后的红外光和可见光图像进行融合以获得所述融合后的图像。
进一步的,所述配准操作包括以下子步骤,
采用计算标定板法计算所述红外光图像和可见光图像之间的像素差,根据所述像素差得到图像尺度因子;
根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置,以获得标定板中的圆心在红外和可见光图像的偏移距离;
根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。
进一步的,所述将配准后的红外光和可见光图像进行融合以获得融合后的图像包括以下子步骤获得:
将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加;
根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像。
进一步的,所述网络架构DL-FME以Xception网络作为该网络架构的骨架网络。
进一步的,所述分割后的图像通过以下子步骤获得:
将融合后的图像输入所述网络架构DL-FME中,以获得第一批特征图,
利用特征增强函数对所述第一批特征图的特征进行增强以得到第二批特征图;
将所述第一特征图的特征与第二批特征图连接,以得到所述分割后的图像。
进一步的,所述场景识别训练模型是通过以下子步骤获得的:
在训练初期,采用Warmup策略对所述分割后的图像进行训练;
在训练后期,采用余弦衰减策略对所述分割后的图像进行训练;
逐层对所述DL-FME卷积神经网络进行微调,以获得所述场景识别训练模型。
第二方面,本发明实施例提供一种,包括:
划分模块,用于将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
分割模块,用于根据所述训练数据集构建场景识别的DL-FME卷积神经网络,利用所述DL-FME卷积神经网络对所述融合后的图像进行分割,得到分割后的图像;
训练模块,用于利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
生成模块,用于将所述测试数据集的图像输入所述训练模型以生成场景识别模型;
识别模块,用于利用所述场景识别模型对待识别的场景进行识别。
本发明的有益效果是:
本发明通过将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加,然后根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像,这样在卷积神经网络中,可以保留更多细节特征,使得YUV空间图像能够快速融合;
本发明利用构建好的构建场景识别的DL-FME卷积神经网络来获得所述融合后的图像的特征图,使得计算成本降低,且丰富了DL-FME卷积神经网络提取融合后的图像的细节特征,从而也就增加了场景识别的准确率。
本发明利用DL-FME卷积神经网络可以通过浅层特征图的线性或者二次变换等简单的运算进行近似,可以快速的丰富特征图的数量;
准确且高效地增强DL-FME卷积神经网络的提取能力,解决复杂环境下场景智能识别的问题。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别方法的流程示意图;
图2本发明的一个实施例的提供的一种获得融合后的图像流程示意图;
图3(a)为多光谱相机的安装方式示意图;
图3(b)为多光谱相机在未校正前的成像区域示意图;
图3(c)为多光谱相机在矫正后的成像区域示意图;
图4(a)为本发明的一个实施例的提供的可见光原图的光谱图像示意图;
图4(b)为本发明的一个实施例的提供的红外光原图的光谱图像示意图;
图4(c)为本发明的一个实施例的提供的将可见光和红外光融合后的光谱图像示意图。
图5为本发明的一个实施例利用DL-FME卷积神经网络对所述融合后的图像进行图像分割的流程示意图;
图6为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别系统的结构示意图。
具体实施方式
以下描述用于公开本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变形。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。
可以理解的是,术语“一”应理解为“至少一”或“一个或多个”,即在一个实施例中,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个,术语“一”不能理解为对数量的限制。
在这里使用的术语仅用于描述各种实施例的目的且不意在限制。如在此使用的,单数形式意在也包括复数形式,除非上下文清楚地指示例外。另外将理解术语“包括”和/或“具有”当在该说明书中使用时指定所述的特征、数目、步骤、操作、组件、元件或其组合的存在,而不排除一个或多个其它特征、数目、步骤、操作、组件、元件或其组的存在或者附加。
实施例一
参见图1,图1为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别方法的流程示意图;
该方法包括以下步骤:
S100:将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
S200:根据所述训练数据集构建场景识别的DL-FME卷积神经网络,利用所述DL-FME卷积神经网络对所述融合后的图像进行分割,得到分割后的图像;
S300:利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
S400:将所述测试数据集的图像输入所述场景识别训练模型以生成场景识别模型;
S500:利用所述场景识别模型对待识别的场景进行识别。
上述DL-FME卷积神经网络是指基于深度学习的特征图增强神经网络。
进一步的,S100中的场景数据集来源于将红外光和可见光融合后的图像集,所述S100包括以下子步骤:
S110:对融合后的图像进行预处理以获得场景数据集;例如,可以对所述融合后的图像进行筛选以去除模糊不清的图像或对部分包含无关背景的图像进行裁剪,从而保留清晰且有效的图像;其中,融合后的图像的分辨率大小可以为1920×1080。
S120:标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集;例如,本实施例可以选取场景数据集中的10000张图像作为训练数据集,1500张图像作为测试数据集;所述场景包括道路、建筑、水体、森林、草地等。
进一步的,参见图2,在S110中,融合后的图像通过以下子步骤S111-S113获得,参见图3(a)-3(c);其中,图3(a)为多光谱相机的安装方式示意图,图3(b)为多光谱相机在未校正前的成像区域示意图,图3(c)为多光谱相机在矫正后的成像区域示意图;
S111:对相机的摄像头进行畸变校正;
具体的,可以首先建立像平面坐标到物空间坐标的严密几何映射关系,以消除相机的摄像头的畸变的影响。理论上,针孔相机的理想成像模型中物方坐标和像方坐标(x’,y’,z’)之间完全符合线性变换关系。在考虑光学畸变的情况下,根据物方坐标(x,y,z)和像方坐标(x’,y’,z’)之间的线性变换关系,来消除相机的摄像头的畸变。
优选的,本实施例可采用张氏校正法对各个相机的摄像头进行畸变校正,并通过Opencv软件集成的单目标标定定方法和相应函数Calibra-camera()对各个相机拍摄的图像进行畸变校正,以消除初始的红外光图像和可见光图像边缘的畸变。
S112:将校正后的相机的摄像头所拍摄的红外光图像和可见光图像进行配准操作;
一般情况下,本实施例中的相机为多光谱相机,将多个多光谱相机安装于一个相机系统平台上,各个多光谱相机的光轴是平行安装的。
将不同的多光谱相机所拍摄的图像变换到全局统一的像平面坐标系下,进而实现多同步影像的几何配准。
配准时主要考虑两个因素:图像尺度因子和图像偏移。
进一步的,所述S112包括以下子步骤S11和S12;其中,
S11:采用计算标定板法计算所述红外光图像和可见光图像之间的像素差,根据所述像素差得到图像尺度因子,以将空间物体在红外和可见光图像的空间分辨率缩放为统一大小。
具体的,由于红外光的焦距f=12mm,而可见光的焦距f=12mm,因此红外光和可见光的焦距不完全一致,导致空间物体在两种图像上成像大小不一样,也就是说图像的空间分辨率不同。图像尺度因子可以由相机的摄像头的光学参数计算得到,也可以通过实验测得到。单纯应用光学试验检参数时会引入的误差(光学加工误差),本实施采用计算标定板法,该方法通过计算标定板在两两圆心之间在红外和可见光图像间的像素差,根据像素差得到红外和可见光图像的缩放比例,从而将红外和可见光图像的空间分辨率(单像素对应的实际空间尺寸)统一起来;其中,本实施例中,标定板距离为100米,红外光图像的原始大小为:640×512;可见光的图像的原始大小为:1920×1080。将红外光图像的空间分辨率统一升采样到1920×1536的分辨率,可见光图像的分辨率保持1920×1080的分辨率;
所述图像尺度因子通过以下公式获得:
其中,TPn(Thermal Point)为第n个圆心的红外图像的x或y像素坐标值,
VPn(Visible Point)为第n个圆心的可见光图像的x或者y像素坐标值,其中n≥2。
S12:根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置,以获得标定板中的圆心在红外和可见光图像的偏移距离;
具体的,可以将红外图像移动到可见光图像上并以调整红外图像和可见光图像图像偏移,从而抵消在系统平台上的安装位置所带来的平移,从而将红外与可见光像素对齐;
其中,所述偏移距离通过以下公式获得:
Xdiff,Ydiff为标定板的同一个圆心在红外和可见光图像中的像素坐标值。但是由于缺少红外图像和可见光图像的深度信息,上述求出的偏移距离只能将空间距离与标定板距离接近的物体对齐。
S13:根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。
本实施例的相机的摄像头的光学结构和安装结构,标定板中的圆心在红外和可见光图像在x方向的偏移像素数为18像素,在y方向上的偏移像素数为21像素。
S113:将配准后的红外光和可见光图像进行融合以获得所述融合后的图像,即将多谱图像的YUV色彩空间的图像进行快速融合;
上述YUV色彩空间的“Y”表示明亮度(Luminance或Luma),也就是灰阶值;而“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。
本实施例的颜色空间的色彩融合方法中,主要是将目标场景纹理信息较为丰富的可见光的Y通道图像和白热红外图在Y通道进行融合,U和V通道不在进行红外热白或者热黑的融合,仅进行适当的增强以减少计算量,尽管在复杂环境智能识别中,对于图像的视觉效果关注较少,更加注重卷积神经网络的场景分类和识别精度。
参见图4(a)、4(b)和4(c),本实施例中的S113通过以下子步骤将配准后的可见光和红外光图像进行融合:
S21:将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加,其中,融合系数α1=0.67,α2=0.33,α3=0.91,α4=0.95。其中Ys,Us,Vs分别是融合后图像的Y,U,V颜色通道,VY是可见光图像的Y通道,IR是热红外图像,VU是可见光图像的U通道,VV是可见光图像的V通道。
S22:然后根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像;其中,U通道预设的填充系数为:α3=0.91,预设的补强强度为22;V通道预设的填充系数为:α3=0.95。这样既充分保证可见光图像丰富的细节,又很好地利用了特定场景下红外通道的亮度特性,将配准后的可见光和红外光图像进行融合后的效果如图4(c)所示。
进一步的,所述S200中,所述网络架构DL-FME以Xception 65稀疏卷积网络作为该网络架构DL-FME的骨架网络。
进一步的,参见图5,图5为本发明的一个实施例利用所述DL-FME卷积神经网络获得所述分割后的图像的流程示意图;
在S200中,所述分割后的图像是通过以下子步骤获得的:
S210:将融合后的图像输入所述网络架构DL-FME的编码器中,以获得第一特征图;
具体的,在一个实施例中,所述第一批特征图通过以下子步骤获得:
S211:利用DCNN网络对融合后的图像进行浅层特征的提取;
S212:通过Xception65稀疏卷积网络对图像特征进行提取,以获得所述第一批特征图;
S213:同时对浅层特征图进行最大池化,以作为所述第一批特征图的补充。
在另一个实施例中,还可以通过增加卷积神经网络层数,如采用残差网络(Res-net)等对图像的多层信息进行精确提取。
S220:利用特征增强函数对所述第一批特征图进行增强以得到第二批特征图;本实施例中,可以利用特征图增强器(Feature Map Enhancement,FME)对所述第一批特征图进行增强以获得所述第二批特征图;特征图增强器可以依据特征增强函数将第一批特征图的每张特征图产生一张或多张同分辨率的特征图,以形成第二批特征图。
具体的,所述特征增强函数包括以下一个或多个函数:
(1)线性增强函数:y=kx+c,
(2)二次增强函数:y=ax2+bx,
(3)ReLu非线性增强函数。
其中,所述线性增强函数和/或ReLU非线性增强函数主要用于对低扩张率得到的第二批特征图的部分特征图进行增强;
二次增强函数主要用于高扩张率得到的第二批特征图的另一部分特征图进行增强。
S230:将所述第一批特征图的特征与第二批特征图的特征进行融合连接,以得到融合后的图像的特征图;
利用48通道的1×1卷积对融合后的特征图进行卷积以得到第三批特征图,以减少融合后的特征图的通道数。
S240:利用解码器对所述第三批特征图进行解码,以获得所述分割后的图像,具体包括以下步骤:
S241:采用1×1的卷积核对DCNN网络提取的浅层特征进行卷积以得到第四批特征图;即采用1×1的卷积核卷积网络提取DCNN网络提取的浅层特征的特征图,以得到压缩后的特征图,从而可以使得后面的解码部分对于编码网络得到的高纬特征通道有一个偏重,可以保留融合后的图像的更多的深层次语义信息。
S242:利用4倍放大的双线性内插上采样方法对所述第三批特征图进行卷积获得第五批特征图,该第五批特征图为高层次特征图;
S243:将所述第四批特征图与第五批特征图进行特征融合得到第六特征图;
S244:对所述第六批特征图进行3×3卷积,以获得第七批特征图;
S245:利用4倍放大的双线性内插上采样方法将所述第七批特征图的分辨率恢复至融合后的图像的分辨率,以将第七批特征图与融合后的图像进行等大的分割以获得所述分割后的图像。
该分割方法在训练初期(即Epoch迭代次数较少时),其平均重叠面积(MIOU)较现有技术的分割方法中的MIOU略有降低;但是随着训练次数的增加,MIOU的增长将超过现有技术的分割方法中的MIOU增长,能够提高约7%左右。
进一步的,DL-FME卷积网络可以看作是特征提取器,多以浅层卷积提取的基本是图像轮廓、纹理、边缘等信息,这对于图像来说通用的,所以训练采用训练迁移的方法进行以减少训练时间。
具体的,将分割后的图像输入FME-DL网络,并采用训练迁移的方法分割后的图像进行训练以获得场景识别训练模型。
进一步的,其中,所述场景识别训练模型是通过以下子步骤获得的,以得到更好的训练结果:
S310:在训练初期,采用Warmup策略对所述分割后的图像进行训练,使DL-FME卷积神经网络在训练初期更加稳定;
S320:在训练后期,采用余弦衰减策略对所述分割后的图像进行训练,这样可以使得场景识别训练模型的学习率更加平滑,同时能使学习率跳出局部最优。
S330:逐层对所述DL-FME卷积神经网络进行微调,以获得所述场景识别训练模型;
具体的,在一个实施例中,在训练中,可以对ASPP网络3*3和5*5扩张卷积层和特征增强模块中的DL-FME的RELU非线性增强函数和二次增强函数进行微调,对5特征层的中小区域的检测和识别进行训练,参见下表1,可将ASPP网络对中小物体的MIOU的检测精度由62%提高至75%以上。
下面通过表1,来说明本实施例与现有技术中采用Deeplabv3+分割算法或仅采用线性增强模块或采用线性+二次增强模块在不同的迭代次数下,各种分割算法所获得的MIOU。
表1
优选的,在获得所述场景识别训练模型后,还通过冻结调到最优的ASPP网络和特征增强网络层,对其他部分进行单独优化的方法进行调优。这样可以减小网络的搜索空间,从而降低对网络的优化难度,以得到能够准确识别场景的场景识别训练模型。
上述ASPP(Atrous Spatial Pyramid Pooling)是DeepLab中用于语义分割的一个模块,提出将不同扩张率下的atrous convolution生成的feature map串联起来,使得输出feature map中的神经元包含多个接受域大小,对多尺度信息进行编码,最终提高性能。
实施例二
参见图6,图6为本发明的一个实施例提供的一种基于多光谱图像融合的复杂场景识别系统的结构示意图,包括
融合模块,用于将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
训练模块,用于利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
提取模块,提取模块是训练环节的重要模块,位于根据所述训练数据集构建场景识别的DL-FME卷积神经网络中,利用所述DL-FME卷积神经网络对所述融合后的图像进行特征提取,得到融合后图像的特征;
增强模块,用于将所述测试数据集的图像输入所述训练模型以生成场景识别模型,增强模块用于特征图的进一步丰富;
识别模块,用于利用所述场景识别模型对待识别的场景进行识别。
进一步的,所述划分模块包括预处理模块和标记模块,其中,
所述预处理模块,用于对所述融合后的图像进行预处理以获得场景数据集;
所述标记模块,用于标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集。
进一步的,所述复杂场景识别系统还包括:
校正模块,用于对相机的摄像头进行畸变校正;
配准模块,用于将校正后的摄像头所拍摄的红外光图像和可见光图像进行配准操作;
融合模块,用于将配准后的红外光和可见光图像进行融合以获得所述融合后的图像。
进一步的,所述配准模块用于执行以下操作:
采用计算标定板法计算所述红外光图像和可见光图像之间的像素差,根据所述像素差得到图像尺度因子;
根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置,以获得标定板中的圆心在红外和可见光图像的偏移距离;
根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。
进一步的,所述融合模块用于执行以下操作:
将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加;
根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像。
进一步的,所述网络架构DL-FME以Xception网络作为该网络架构的骨架网络。
进一步的,所述分割模块用于执行以下操作:
将融合后的图像输入所述网络架构DL-FME中,以获得第一批特征图,
利用特征增强函数对所述第一批特征图的特征进行增强以得到第二批特征图;
将所述第一特征图的特征与第二批特征图连接,以得到所述分割后的图像。
进一步的,所述生成模块用于执行以下操作:
在训练初期,采用Warmup策略对所述分割后的图像进行训练;
在训练后期,采用余弦衰减策略对所述分割后的图像进行训练;
逐层对所述DL-FME卷积神经网络进行微调,以获得所述场景识别训练模型。
本实施例中的复杂场景识别系统与上述实施例一的复杂场景识别方法的工作过程基本一致,在此不再赘述。
与现有技术相比,本发明具有以下几个优点:
本发明基于无人机载平台对于目标识别的需求,提出了一种基于多光谱图像融合的复杂场景识别方法和系统,包括以下几个优点:
本发明通过将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加,然后根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像,这样在卷积神经网络中,可以保留更多细节特征,使得YUV空间图像能够快速融合;
本发明利用构建好的构建场景识别的DL-FME卷积神经网络来获得所述融合后的图像的特征图,使得计算成本降低,且丰富了DL-FME卷积神经网络提取融合后的图像的细节特征,从而也就增加了场景识别的准确率。
本领域普通技术人员可以意识到,结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于多光谱图像融合的复杂场景识别方法,该方法包括以下步骤:
将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
根据所述训练数据集构建场景识别的DL-FME卷积神经网络,利用所述DL-FME卷积神经网络对所述融合后的图像进行分割,得到分割后的图像;
利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
将所述测试数据集的图像输入所述训练模型以生成场景识别模型;
利用所述场景识别模型对待识别的场景进行识别。
2.根据权利要求1所述的复杂场景识别方法,其特征在于,所述训练数据集和测试数据集通过以下子步骤获得:
对所述融合后的图像进行预处理以获得场景数据集;
标记并划分所述场景数据集中的图像以获得所述训练数据集和测试数据集。
3.根据权利要求2所述的复杂场景识别方法,其特征在于,所述融合后的图像通过以下子步骤获得:
对相机的摄像头进行畸变校正;
将校正后的摄像头所拍摄的红外光图像和可见光图像进行配准操作;
将配准后的红外光和可见光图像进行融合以获得所述融合后的图像。
4.根据权利要求3所述的复杂场景识别方法,其特征在于,所述配准操作包括以下子步骤,
采用计算标定板法计算所述红外光图像和可见光图像之间的像素差,根据所述像素差得到图像尺度因子;
根据标定板中圆形的坐标位置在红外图像中的像素坐标位置以及标定板中圆形的坐标位置在可见光图像中的像素坐标位置,以获得标定板中的圆心在红外和可见光图像的偏移距离;
根据所述偏移距离将红外光图像与可见光图像进行对齐以完成所述配准操作。
5.根据权利要求3所述的复杂场景识别方法,所述将配准后的红外光和可见光图像进行融合以获得融合后的图像包括以下子步骤获得:
将含有多个细节特征的可见光图像和含有多个伪装目标图像强度特征的红外光图像在Y通道进行融合叠加;
根据预设的填充系数对可见光图像的U通道或V通道进行填充,并根据预设的补强强度对填充后的可见光图像进行补强以获得所述融合后的图像。
6.根据权利要求1所述的复杂场景识别方法,其特征在于,所述网络架构DL-FME以Xception网络作为该网络架构的骨架网络。
7.根据权利要求1所述的复杂场景识别方法,其特征在于,所述分割后的图像通过以下子步骤获得:
将融合后的图像输入所述网络架构DL-FME中,以获得第一批特征图,
利用特征增强函数对所述第一批特征图的特征进行增强以得到第二批特征图;
将所述第一特征图的特征与第二批特征图连接,以得到所述分割后的图像。
8.根据权利要求1所述的复杂场景识别方法,其特征在于,所述场景识别训练模型是通过以下子步骤获得的:
在训练初期,采用Warmup策略对所述分割后的图像进行训练;
在训练后期,采用余弦衰减策略对所述分割后的图像进行训练;
逐层对所述DL-FME卷积神经网络进行微调,以获得所述场景识别训练模型。
9.一种基于多光谱图像融合的复杂场景识别系统,包括:
划分模块,用于将场景数据集的图像划分为训练数据集和测试数据集,所述场景数据集的图像为将红外光和可见光融合后的图像;
分割模块,用于根据所述训练数据集构建场景识别的DL-FME卷积神经网络,利用所述DL-FME卷积神经网络对所述融合后的图像进行分割,得到分割后的图像;
训练模块,用于利用所述DL-FME卷积神经网络对所述分割后的图像进行训练以生成场景识别训练模型;
生成模块,用于将所述测试数据集的图像输入所述训练模型以生成场景识别模型;
识别模块,用于利用所述场景识别模型对待识别的场景进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895905.5A CN112016478B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多光谱图像融合的复杂场景识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010895905.5A CN112016478B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多光谱图像融合的复杂场景识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016478A true CN112016478A (zh) | 2020-12-01 |
CN112016478B CN112016478B (zh) | 2024-04-16 |
Family
ID=73502494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010895905.5A Active CN112016478B (zh) | 2020-08-31 | 2020-08-31 | 一种基于多光谱图像融合的复杂场景识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016478B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733731A (zh) * | 2021-01-12 | 2021-04-30 | 北京深睿博联科技有限责任公司 | 基于单目多模态深度图生成方法、系统、设备和存储介质 |
CN113076953A (zh) * | 2021-03-01 | 2021-07-06 | 深圳市捷顺科技实业股份有限公司 | 一种黑色车检测方法、系统、装置以及存储介质 |
CN113688947A (zh) * | 2021-10-11 | 2021-11-23 | 国网智能科技股份有限公司 | 一种配电设备红外图像故障识别方法及系统 |
CN115170810A (zh) * | 2022-09-08 | 2022-10-11 | 南京理工大学 | 一种可见光红外图像融合目标检测实例分割方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021548A (zh) * | 2014-05-16 | 2014-09-03 | 中国科学院西安光学精密机械研究所 | 一种获取场景4d信息的方法 |
CN104364798A (zh) * | 2012-06-26 | 2015-02-18 | 高通股份有限公司 | 用于面部验证的系统及方法 |
EP2980730A1 (en) * | 2014-07-30 | 2016-02-03 | Toshiba TEC Kabushiki Kaisha | Object recognition apparatus that performs object recognition based on infrared image and visible image |
CN109934793A (zh) * | 2019-01-30 | 2019-06-25 | 绵阳慧视光电技术有限责任公司 | 一种基于整数dct变换的实时图像融合方法 |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110287939A (zh) * | 2018-12-29 | 2019-09-27 | 中国科学院软件研究所 | 天基智能图像处理方法 |
CN110493583A (zh) * | 2018-08-03 | 2019-11-22 | 杭州海康威视数字技术股份有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110956581A (zh) * | 2019-11-29 | 2020-04-03 | 南通大学 | 一种基于双通道生成-融合网络的图像模态变换方法 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN111539247A (zh) * | 2020-03-10 | 2020-08-14 | 西安电子科技大学 | 一种超光谱人脸识别方法、装置、电子设备及其存储介质 |
CN111582280A (zh) * | 2020-05-11 | 2020-08-25 | 吉林省森祥科技有限公司 | 一种面向多光谱救援机器人的数据深层融合图像分割方法 |
-
2020
- 2020-08-31 CN CN202010895905.5A patent/CN112016478B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104364798A (zh) * | 2012-06-26 | 2015-02-18 | 高通股份有限公司 | 用于面部验证的系统及方法 |
CN104021548A (zh) * | 2014-05-16 | 2014-09-03 | 中国科学院西安光学精密机械研究所 | 一种获取场景4d信息的方法 |
EP2980730A1 (en) * | 2014-07-30 | 2016-02-03 | Toshiba TEC Kabushiki Kaisha | Object recognition apparatus that performs object recognition based on infrared image and visible image |
CN110493583A (zh) * | 2018-08-03 | 2019-11-22 | 杭州海康威视数字技术股份有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
CN111209810A (zh) * | 2018-12-26 | 2020-05-29 | 浙江大学 | 向可见光与红外图像准确实时行人检测的边界框分割监督深度神经网络架构 |
CN110287939A (zh) * | 2018-12-29 | 2019-09-27 | 中国科学院软件研究所 | 天基智能图像处理方法 |
CN109934793A (zh) * | 2019-01-30 | 2019-06-25 | 绵阳慧视光电技术有限责任公司 | 一种基于整数dct变换的实时图像融合方法 |
CN110147794A (zh) * | 2019-05-21 | 2019-08-20 | 东北大学 | 一种基于深度学习的无人车室外场景实时分割方法 |
CN110956581A (zh) * | 2019-11-29 | 2020-04-03 | 南通大学 | 一种基于双通道生成-融合网络的图像模态变换方法 |
CN111539247A (zh) * | 2020-03-10 | 2020-08-14 | 西安电子科技大学 | 一种超光谱人脸识别方法、装置、电子设备及其存储介质 |
CN111582280A (zh) * | 2020-05-11 | 2020-08-25 | 吉林省森祥科技有限公司 | 一种面向多光谱救援机器人的数据深层融合图像分割方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733731A (zh) * | 2021-01-12 | 2021-04-30 | 北京深睿博联科技有限责任公司 | 基于单目多模态深度图生成方法、系统、设备和存储介质 |
CN113076953A (zh) * | 2021-03-01 | 2021-07-06 | 深圳市捷顺科技实业股份有限公司 | 一种黑色车检测方法、系统、装置以及存储介质 |
CN113688947A (zh) * | 2021-10-11 | 2021-11-23 | 国网智能科技股份有限公司 | 一种配电设备红外图像故障识别方法及系统 |
CN113688947B (zh) * | 2021-10-11 | 2024-03-15 | 国网智能科技股份有限公司 | 一种配电设备红外图像故障识别方法及系统 |
CN115170810A (zh) * | 2022-09-08 | 2022-10-11 | 南京理工大学 | 一种可见光红外图像融合目标检测实例分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112016478B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220044375A1 (en) | Saliency Map Enhancement-Based Infrared and Visible Light Fusion Method | |
CN112016478B (zh) | 一种基于多光谱图像融合的复杂场景识别方法及系统 | |
CN110969670B (zh) | 基于显著特征的多光谱相机动态立体标定方法 | |
CN111080709B (zh) | 基于轨迹特征配准的多光谱立体相机自标定算法 | |
CN110969669B (zh) | 基于互信息配准的可见光与红外相机联合标定方法 | |
CN110969667A (zh) | 基于边缘特征的多光谱相机外参自校正算法 | |
CN109376641B (zh) | 一种基于无人机航拍视频的运动车辆检测方法 | |
CN110992409B (zh) | 基于傅里叶变换配准的多光谱立体相机动态配准方法 | |
CN114972748B (zh) | 一种可解释边缘注意力和灰度量化网络的红外语义分割方法 | |
CN112419374A (zh) | 一种基于图像配准的无人机定位方法 | |
CN110956661A (zh) | 基于双向单应矩阵的可见光与红外相机动态位姿计算方法 | |
CN110880191B (zh) | 基于直方图均衡化的红外立体相机动态外参计算方法 | |
CN111536970B (zh) | 一种用于低能见度大尺度场景的红外惯性组合导航方法 | |
CN110910456B (zh) | 基于Harris角点互信息匹配的立体相机动态标定方法 | |
CN115861591B (zh) | 基于transformer关键纹理编码匹配的无人机定位方法 | |
CN106846249A (zh) | 一种全景视频拼接方法 | |
CN115170810B (zh) | 一种可见光红外图像融合目标检测实例分割方法 | |
CN112907493A (zh) | 无人机蜂群协同侦察下的多源战场图像快速镶嵌融合算法 | |
CN106204507B (zh) | 一种无人机图像拼接方法 | |
CN111899345A (zh) | 一种基于2d视觉图像的三维重建方法 | |
Liu et al. | A general relative radiometric correction method for vignetting and chromatic aberration of multiple CCDs: Take the Chinese series of Gaofen satellite Level-0 images for example | |
CN111833384B (zh) | 一种可见光和红外图像快速配准方法及装置 | |
CN110910457B (zh) | 基于角点特征的多光谱立体相机外参计算方法 | |
CN117073669A (zh) | 一种飞行器定位方法 | |
CN115410014A (zh) | 一种鱼眼图像的自监督特征点匹配方法及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |