CN110070022A - 一种基于图像的自然场景材料识别方法 - Google Patents

一种基于图像的自然场景材料识别方法 Download PDF

Info

Publication number
CN110070022A
CN110070022A CN201910302391.5A CN201910302391A CN110070022A CN 110070022 A CN110070022 A CN 110070022A CN 201910302391 A CN201910302391 A CN 201910302391A CN 110070022 A CN110070022 A CN 110070022A
Authority
CN
China
Prior art keywords
material identification
network
natural scene
loss
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910302391.5A
Other languages
English (en)
Inventor
蒋晓悦
杜浚娜
冯晓毅
夏召强
吴俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910302391.5A priority Critical patent/CN110070022A/zh
Publication of CN110070022A publication Critical patent/CN110070022A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene

Abstract

本发明涉及一种基于图像的自然场景材料识别方法,首先设计跳跃空洞卷积网络提取自然场景图片中的材料特征,并且实现一个端到端的材料识别,然后又利用全连接条件随机场对网络识别的结果进行修正优化,避免材料识别结果边缘过度平滑。本发明不需要其他设备,同时不需要实地检测,只需要自然场景中拍摄得到的一些图像,就可以完成材料识别。

Description

一种基于图像的自然场景材料识别方法
技术领域
本发明属于图像处理、材料识别领域,具体为一种基于跳跃空洞卷积网络和全连接条件随机场结合识别自然场景图像材料方法。
背景技术
材料是物体的本质特性之一,材料的属性会直接影响到物体的物理性质和化学性质。通过对材料的准确认知,可以实现对场景的准确理解。随着交叉学科的不断兴起,通过计算机视觉识别材料已成为当今图像理解领域一个重要的课题。在自然场景中,每幅图像中通常包含了许多类别的材料,并且相同的材料也会呈现出不同的姿态与外观。因此,为了实现对自然场景的准确理解,满足实际工程使用的需求,需要对图像中每个像素进行材料识别。目前国内还未有相关的基于图像进行自然场景材料识别的研究发明。
1、与本发明相关的现有技术一
在维特公司罗曼·鲁申请的于2015年6月10号公开,公开号为CN104704346A,发明名称为“用于识别场景中的材料的方法和装置”的中国发明专利申请中,首先需要光源点亮场景,然后针对光分开的偏振状态通过使用定位在所述场景的法线上的倾斜的方向上的两个测量装置来取得所述场景的光振幅的至少两个同时测量,并且从此推断材料的识别。
该专利使用了材料的物理性质进行材料识别,具体为利用了不同材料对光偏振的不同来识别场景材料。该专利需要严格的装置设备在实地场景中采集材料的物理特征信息,操作比较复杂。
2、与本发明相关的现有技术二
在南京理工大学李彧晟等申请的于2017年9月15号公开,公开号为CN107169469A,发明名称为“一种基于机器学习的MIMO雷达的材料识别方法”的中国发明专利申请中,首先用MIMO雷达采集样本材料回波信号,接着对回波进行特征提取,得出能够区分不同材料的特征参数,之后利用机器学习算法确定不同材料和特征参数之间的映射关系。最后根据所得到的映射关系,判决MIMO雷达探测的物体属于何种材料。
该专利也是使用了材料的物理性质进行材料识别,具体为利用不同材料对MIMO雷达的回波信号不同,并且使用了机器学习的方法学习了回波信号的特征来识别材料。该专利在应用时需要使用到MIMO雷达装置一个个采集回波信号,对于自然场景同时存在很多种材料的情况下,方法的适用性不强。
由上述专利可见,针对材料识别的方法操作复杂,需要特殊的设备采集信息并进行分析。针对于材料种类繁多,外观形态多变的自然场景,上述材料识别方法可操作性及推广性不强。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于图像的自然场景材料识别方法。
技术方案
一种基于图像的自然场景材料识别方法,其特征在于步骤如下:
步骤1:设计跳跃空洞卷积网络:
步骤11:采用Vgg16网络提取底层的材料特征,使用图像金字塔对材料特征进行多尺度描述,包括3次下采样,特征大小变为原始图像的1/8;
步骤12:舍弃VGG16网络的最后两个池化层,改用空洞卷积级联来替代;所述的空洞卷积就是在传统的卷积核参数四周插0,而插0的间隔由扩张率参数决定;
步骤13:采用1个卷积核大小为1*1的卷积层提取特征的深度信息;
步骤14:使用跳跃连接将步骤11提取到的特征和步骤13提取到的特征进行加法融合,得到新的特征;
步骤15:对融合后的特征使用双线性插值的方式上采样,变为原始图像的大小;
步骤16:采用SoftmaxWithLoss损失函数完成每个像素点的材料类别预测,这样就完成了一个端到端的材料识别结果;
步骤2:使用自然场景材料数据集训练步骤1中的跳跃空洞卷积网络,得到训练好的网络模型:
步骤21:对自然场景材料数据集进行数据预处理:首先设定基准尺寸512*512,其次对原始的自然场景材料数据集进行缩放,裁剪到基准尺寸大小,并分别左右翻转、上下翻转、顺时针旋转180度,扩充至原始数据集的8倍,最后扩充后的数据集作为网络训练使用的数据,该数据集总共有23种材料类别;
步骤22:使用步骤21中数据预处理得到的数据作为跳跃空洞卷积网络的输入,进行卷积、池化、空洞卷积、双线性插值,得到材料识别结果图;
步骤23:采用SoftmaxWithLoss损失函数,计算材料识别结果图与材料识别数据标签的损失;计算SoftmaxwithLoss损失时,首先要计算softmax的概率;设有n个类别,为训练标签值,形式如[0 0 0 0 0 0 1 0 ... 0 0 0]T,softmax输出为[f(z1),f(z2),...,f(zk),...f(zn)]T k∈[1,n],zk表示第k类的softmax的输入特征量,f(zk)是softmax的输出,f(zk)计算如式(1)所示:
而SoftmaxwithLoss损失为loss,其中i表示第i类,则loss计算如式(2)所示:
步骤24:使用随机梯度下降算法优化跳跃空洞卷积网络,直到网络收敛,损失达到最低值,得到利用自然场景数据集训练好的网络模型;
步骤3:使用步骤2中训练好的网络模型对未经训练过的自然场景图片进行预测,输出材料识别的结果图;
步骤4:使用全连接条件随机场对步骤3得到的材料识别结果图进行优化修正,避免材料识别结果的局部区域标记偏置及边缘过渡平滑,得到更加准确的材料识别结果。
有益效果
本发明从语义分割角度进行自然场景材料识别研究,提出了一种跳跃空洞卷积网络与全连接条件随机场结合方法识别材料。本发明首先设计跳跃空洞卷积网络提取自然场景图片中的材料特征,并且实现一个端到端的材料识别,然后又利用全连接条件随机场对网络识别的结果进行修正优化,避免材料识别结果边缘过度平滑。本发明不需要其他设备,同时不需要实地检测,只需要自然场景中拍摄得到的一些图像,就可以完成材料识别。
附图说明
图1是本发明自然场景图像材料识别算法流程图。
图2是跳跃空洞卷积网络图。
图3是空洞卷积核示意图。
图4是自然场景材料识别图例,其中(a)原始场景图,(b)仅使用跳跃空洞卷积网络得到的材料识别结果图,(c)全连接条件随机场得到的最终材料识别结果图。
具体实施方式
现结合实施例、附图对本发明作进一步描述:
如图1所示,针对自然场景图像的材料识别的问题,首先设计出跳跃空洞卷积网络进行粗糙的材料识别,然后又使用全连接条件随机场对网络输出的材料识别结果进行优化修正,避免某些局部区域标记偏置及边缘过渡平滑等问题,提高材料识别准确度。具体步骤如下:
步骤1:设计跳跃空洞卷积网络,如图2所示。
步骤2:使用自然场景材料数据集训练步骤1中的跳跃空洞卷积网络,得到训练好的网络模型。
步骤3:使用步骤2中训练好的网络模型对未经训练过的自然场景图片进行预测,输出材料识别的结果图。
步骤4:使用全连接条件随机场对步骤3得到的材料识别结果图进行优化修正,避免材料识别结果的局部区域标记偏置及边缘过渡平滑,得到更加准确的材料识别结果,如图3所示。
进一步地,步骤1中设计跳跃空洞卷积网络的具体步骤如下:
(1-1)采用Vgg16网络提取底层的材料特征,使用图像金字塔对材料特征进行多尺度描述,包括3次下采样,特征大小变为原始图像的1/8。
(1-2)作为发明的进一步改进,舍弃VGG16网络的最后两个池化层,改用空洞卷积级联来替代。空洞卷积就是在传统的卷积核参数四周插0,而插0的间隔由扩张率参数决定,如下图3所示。采用3个扩张率为2的空洞卷积进行级联,然后再使用一个扩张率为4的空洞卷积,能增大卷积感受野范围,快速聚合图像上下文特征信息,提取到更抽象高级材料特征。该过程虽然提取到高级特征,但是也造成了对特征采样点不连续,局部信息缺失的问题。
(1-3)采用1个卷积核大小为1*1的卷积层提取特征的深度信息,该卷积核不会破坏局部领域信息,训练参数非常小,同时能够降低特征的维度,融合特征深度信息。
(1-4)作为发明的进一步改进,提出使用跳跃连接将(1-1)提取到的特征和(1-3)提取到的特征进行加法融合,得到新的特征。该特征不仅包含了位置、细节信息,还具有鲁棒性,更加高级抽象。同时通过特征融合,还能改善(2)中级联空洞卷积带来的特征采样点不连续,局部信息损失严重的问题。
(1-5)对融合后的特征使用双线性插值的方式上采样,变为原始图像的大小。
(1-6)采用SoftmaxWithLoss损失函数完成每个像素点的材料类别预测,这样就完成了一个端到端的材料识别结果。
进一步地,步骤2中使用自然场景数据集训练跳跃空洞卷积网络的具体步骤如下:
(2-1)对自然场景材料数据集进行数据预处理。首先设定基准尺寸512*512,其次对原始的自然场景材料数据集进行缩放,裁剪到基准尺寸大小,并分别左右翻转、上下翻转、顺时针旋转180度,扩充至原始数据集的8倍,最后扩充后的数据集作为网络训练使用的数据,该数据集总共有23种材料类别。
(2-2)使用(2-1)中数据预处理得到的数据作为网络的输入,进行卷积、池化、空洞卷积、双线性插值等运算,得到材料识别结果图。
(2-3)采用SoftmaxWithLoss损失函数,计算材料识别结果图与材料识别数据标签的损失。计算SoftmaxwithLoss损失时,首先要计算softmax的概率。总共有23个类别,为训练标签值,形式如[0 0 0 0 0 0 1 0 ...0 0 0]T,softmax输出为[f(z1),f(z2),...,f(zk),...f(zn)]T k∈[1,23],zk表示第k类的softmax的输入特征量,f(zk)是softmax的输出,f(zk)计算如式(1)所示:
而SoftmaxwithLoss损失为loss,其中i表示第i类,则loss计算如式(2)所示:
(2-4)使用随机梯度下降算法优化跳跃空洞卷积网络,直到网络收敛,损失达到最低值,就可以得到利用自然场景数据集训练好的网络模型。
进一步地,步骤4中使用全连接条件随机场对步骤3得到的材料识别结果图进行优化修正,主要是求解最小能量项的问题。全连接条件随机场的能量函数主要是由一元能量函数和二元能量函数组成,x=(1,2,3...23)表示每个像素被标记的材料类别,总共23种材料。每个像素属于x类材料的能量如式(3)所示:
其中i和j表示了第i和j个像素,xi表示第i个像素被分为x的材料类别,如式(4)所示:
P(xi)表示的第i个像素被分为x的材料类别的概率。而是二元能量函数,它表示像素之间的成对的势能,如式(5)和式(6)所示:
μ(xi,xj)是标签互换性函数,当xi=xj时取1,当xi≠xj取0。k(fi,fj)表示高斯核,ω1、ω2表示高斯权重,fi,fj指像素i,j在特征空间的特征向量。k(fi,fj)包含两个高斯核,第一个高斯核表示了像素颜色和位置信息。可以理解为像素i,j颜色相近并且位置相近,则被标记为同一标签的概率会更大。第二个高斯核仅包含位置信息,起到平滑作用。其中Pi表示像素i的位置,而Ii表示像素i的颜色。σα、σβ、σγ分别控制着像素之间的距离相近程度和颜色相似程度及边缘平滑程度。
全连接条件随机场优化是由两个部分组成,分别是概率图和原始图。
(4-1)概率图来自于步骤3中空洞卷积跳跃结构网路得到的材料识别结果,该图提供了一元能量函数项,给出了像素概率值。
(4-2)原始图来自于原始场景图像,该图提供二元能量函数项,包含了像素颜色信息及像素空间位置等信息。
(4-3)采用了平均场近似算法求解最小能量项。一元能量和二元能量通过平均场近似算法迭代,学习优化能量项参数,直到能量值最小,从而输出准确的材料识别结果。

Claims (1)

1.一种基于图像的自然场景材料识别方法,其特征在于步骤如下:
步骤1:设计跳跃空洞卷积网络:
步骤11:采用Vgg16网络提取底层的材料特征,使用图像金字塔对材料特征进行多尺度描述,包括3次下采样,特征大小变为原始图像的1/8;
步骤12:舍弃VGG16网络的最后两个池化层,改用空洞卷积级联来替代;所述的空洞卷积就是在传统的卷积核参数四周插0,而插0的间隔由扩张率参数决定;
步骤13:采用1个卷积核大小为1*1的卷积层提取特征的深度信息;
步骤14:使用跳跃连接将步骤11提取到的特征和步骤13提取到的特征进行加法融合,得到新的特征;
步骤15:对融合后的特征使用双线性插值的方式上采样,变为原始图像的大小;
步骤16:采用SoftmaxWithLoss损失函数完成每个像素点的材料类别预测,这样就完成了一个端到端的材料识别结果;
步骤2:使用自然场景材料数据集训练步骤1中的跳跃空洞卷积网络,得到训练好的网络模型:
步骤21:对自然场景材料数据集进行数据预处理:首先设定基准尺寸512*512,其次对原始的自然场景材料数据集进行缩放,裁剪到基准尺寸大小,并分别左右翻转、上下翻转、顺时针旋转180度,扩充至原始数据集的8倍,最后扩充后的数据集作为网络训练使用的数据,该数据集总共有23种材料类别;
步骤22:使用步骤21中数据预处理得到的数据作为跳跃空洞卷积网络的输入,进行卷积、池化、空洞卷积、双线性插值,得到材料识别结果图;
步骤23:采用SoftmaxWithLoss损失函数,计算材料识别结果图与材料识别数据标签的损失;计算SoftmaxwithLoss损失时,首先要计算softmax的概率;设有n个类别,为训练标签值,形式如[0 0 0 0 0 0 1 0...0 0 0]T,softmax输出为[f(z1),f(z2),...,f(zk),...f(zn)]T k∈[1,n],zk表示第k类的softmax的输入特征量,f(zk)是softmax的输出,f(zk)计算如式(1)所示:
而SoftmaxwithLoss损失为loss,其中i表示第i类,则loss计算如式(2)所示:
步骤24:使用随机梯度下降算法优化跳跃空洞卷积网络,直到网络收敛,损失达到最低值,得到利用自然场景数据集训练好的网络模型;
步骤3:使用步骤2中训练好的网络模型对未经训练过的自然场景图片进行预测,输出材料识别的结果图;
步骤4:使用全连接条件随机场对步骤3得到的材料识别结果图进行优化修正,避免材料识别结果的局部区域标记偏置及边缘过渡平滑,得到更加准确的材料识别结果。
CN201910302391.5A 2019-04-16 2019-04-16 一种基于图像的自然场景材料识别方法 Pending CN110070022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910302391.5A CN110070022A (zh) 2019-04-16 2019-04-16 一种基于图像的自然场景材料识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910302391.5A CN110070022A (zh) 2019-04-16 2019-04-16 一种基于图像的自然场景材料识别方法

Publications (1)

Publication Number Publication Date
CN110070022A true CN110070022A (zh) 2019-07-30

Family

ID=67367771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910302391.5A Pending CN110070022A (zh) 2019-04-16 2019-04-16 一种基于图像的自然场景材料识别方法

Country Status (1)

Country Link
CN (1) CN110070022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837320A (zh) * 2021-01-29 2021-05-25 武汉善睐科技有限公司 一种基于并行空洞卷积的遥感影像语义分割方法
CN113116361A (zh) * 2021-03-09 2021-07-16 山东大学 一种基于单导脑电的睡眠分期方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108876796A (zh) * 2018-06-08 2018-11-23 长安大学 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN109344883A (zh) * 2018-09-13 2019-02-15 西京学院 一种基于空洞卷积的复杂背景下果树病虫害识别方法
CN109446951A (zh) * 2018-10-16 2019-03-08 腾讯科技(深圳)有限公司 三维图像的语义分割方法、装置、设备及存储介质
CN109461157A (zh) * 2018-10-19 2019-03-12 苏州大学 基于多级特征融合及高斯条件随机场的图像语义分割方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN108876796A (zh) * 2018-06-08 2018-11-23 长安大学 一种基于全卷积神经网络和条件随机场的道路分割系统及方法
CN109344883A (zh) * 2018-09-13 2019-02-15 西京学院 一种基于空洞卷积的复杂背景下果树病虫害识别方法
CN109446951A (zh) * 2018-10-16 2019-03-08 腾讯科技(深圳)有限公司 三维图像的语义分割方法、装置、设备及存储介质
CN109461157A (zh) * 2018-10-19 2019-03-12 苏州大学 基于多级特征融合及高斯条件随机场的图像语义分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIAOYUE JIANG等: "Deep Dilated Convolutional Network for Material Recognition", 《2018 EIGHTH INTERNATIONAL CONFERENCE ON IMAGE PROCESSING THEORY, TOOLS AND APPLICATIONS (IPTA)》 *
孙海川: "基于全卷积网络的图像语义分割算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
黄孝平, 成都:电子科技大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837320A (zh) * 2021-01-29 2021-05-25 武汉善睐科技有限公司 一种基于并行空洞卷积的遥感影像语义分割方法
CN112837320B (zh) * 2021-01-29 2023-10-27 华中科技大学 一种基于并行空洞卷积的遥感影像语义分割方法
CN113116361A (zh) * 2021-03-09 2021-07-16 山东大学 一种基于单导脑电的睡眠分期方法

Similar Documents

Publication Publication Date Title
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN107358257B (zh) 一种大数据场景下可增量学习的图像分类训练方法
CN110135366A (zh) 基于多尺度生成对抗网络的遮挡行人重识别方法
Xue et al. Remote sensing scene classification based on multi-structure deep features fusion
CN110533084A (zh) 一种基于自注意力机制的多尺度目标检测方法
CN109816012A (zh) 一种融合上下文信息的多尺度目标检测方法
CN110176027A (zh) 视频目标跟踪方法、装置、设备及存储介质
CN107292246A (zh) 基于hog‑pca和迁移学习的红外人体目标识别方法
CN108446662A (zh) 一种基于语义分割信息的行人检测方法
Chen et al. Lctr: On awakening the local continuity of transformer for weakly supervised object localization
CN108364032A (zh) 一种基于卷积神经网络的宫颈癌细胞图片识别算法
CN105005798B (zh) 一种基于局部相似结构统计匹配的目标识别方法
CN108537121A (zh) 气象环境参数与图像信息融合的自适应遥感场景分类方法
Liu et al. Coastline extraction method based on convolutional neural networks—A case study of Jiaozhou Bay in Qingdao, China
CN112950477A (zh) 一种基于双路径处理的高分辨率显著性目标检测方法
Xu et al. Robust self-ensembling network for hyperspectral image classification
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN110070022A (zh) 一种基于图像的自然场景材料识别方法
Li et al. Pose anchor: A single-stage hand keypoint detection network
CN108830172A (zh) 基于深度残差网络与sv编码的飞机遥感图像检测方法
CN111914726A (zh) 基于多通道自适应注意力机制的行人检测方法
Zhang et al. Vehicle object detection based on improved retinanet
Sheng et al. An edge-guided method to fruit segmentation in complex environments
CN105513042A (zh) 一种基于多层分析和分层推理的显著性检测方法
CN115661673A (zh) 一种基于YOLOv4和注意力机制的图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190730