CN118015299A - 一种基于改进深度残差收缩网络的图像纹理预测方法 - Google Patents

一种基于改进深度残差收缩网络的图像纹理预测方法 Download PDF

Info

Publication number
CN118015299A
CN118015299A CN202410157446.9A CN202410157446A CN118015299A CN 118015299 A CN118015299 A CN 118015299A CN 202410157446 A CN202410157446 A CN 202410157446A CN 118015299 A CN118015299 A CN 118015299A
Authority
CN
China
Prior art keywords
image
texture prediction
image texture
prediction model
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410157446.9A
Other languages
English (en)
Inventor
宋月
安治国
黄晓红
白丽娟
刘彦平
严文谨
刘丽君
刘艳丽
韩贺祝
兰兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Hegang Material Technology Research Institute Co ltd
HBIS Co Ltd
Original Assignee
Hebei Hegang Material Technology Research Institute Co ltd
HBIS Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Hegang Material Technology Research Institute Co ltd, HBIS Co Ltd filed Critical Hebei Hegang Material Technology Research Institute Co ltd
Priority to CN202410157446.9A priority Critical patent/CN118015299A/zh
Publication of CN118015299A publication Critical patent/CN118015299A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/54Extraction of image or video features relating to texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进深度残差收缩网络的图像纹理预测方法,包括以下步骤为:a.原图像预处理;b.将预处理后的图像按照设定的比例划分成训练集和测试集;c.图像纹理预测模型的搭建;d.图像纹理预测模型的训练:将训练集放入搭建好的图像纹理预测模型中进行训练;e.图像纹理预测模型的测试:将测试集输入到图像纹理预测模型中,测试图像纹理预测模型的有效性;f.图像纹理的预测。本发明将Resnet50残差神经网络与注意力机制相结合用于纹理特征的提取,通过软阈值法对权重进行收缩去除冗余信息,形成深度残差收缩预测模型,利用该模型对图像纹理的种类进行预测。实现了物体纹理种类的智能化预测,提高了预测精度和效率。

Description

一种基于改进深度残差收缩网络的图像纹理预测方法
技术领域
本发明涉及一种基于改进深度残差收缩网络的图像纹理预测方法,属于数据处理技术领域。
背景技术
纹理是一种重要的视觉线索,广泛存在于自然界各种物体的表面。纹理分类是计算机视觉和模式识别领域的一个重要的基本问题,也是图像分割、物体识别、场景理解等其他视觉任务的基础,同时被广泛应用于视觉导航、人脸识别、遥感图像分析、工业检测、医学图像分析等各个领域。如果一个人工智能模型能够准确预测出物体的纹理类别,那么它在分类任务中的应用将会是一个额外的优势。根据物体的视觉效果来理解和分类物体可以使人工智能模型更加高效和可靠。
目前纹理分析的难点主要有三个,一是存在较大的类内差异,即属于同一类的纹理表观特征差别比较大;二是类间模糊性,即不同类别的纹理实例具有一定的相似性;三是噪声的干扰,在实际场景下,可能出现模糊和随机噪声以及雨雾雪的影响等。这些使得识别问题的难度大大增加,现有的纹理预测方法很难保证纹理分类的准确性,因此有必要探索新的纹理预测方法。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种基于改进深度残差收缩网络的图像纹理预测方法,以实现物体纹理种类的智能化精准预测。
为实现上述目的,本发明采用如下技术方案:
一种基于改进深度残差收缩网络的图像纹理预测方法,所述方法包括以下步骤为:
a.原图像预处理:将采集到的单通道物体纹理灰度图像转换为三通道的RGB图像;
b.建立数据集:将预处理后的图像按照设定的比例划分成训练集和测试集;
c.图像纹理预测模型的搭建:在Resnet50残差神经网络的每个块中的每个瓶颈中加入注意力机制模块用来学习一组权重阈值,再将注意力模块中的重新加权代替为软阈值函数,得到图像纹理预测模型;所述注意力机制模块有两条线路,第一条线路求瓶颈输入信号经三层卷积运算所得的所有特征的绝对值,然后经过全局均值池化和平均,获得一个特征A;在第二条线路中,特征A依次经过一个全连接层、批量正则化、Relu激活函数、Sigmoid函数,将Sigmoid函数的输出归一化到0和1之间,获得一个系数α,系数α与特征A相乘后的绝对值的平均与瓶颈中三层卷积运算结果同时输入到软阈值函数,软阈值函数的输出与瓶颈输入信号或经卷积网络降维后的瓶颈输入信号一起进入相加求和模块,求和模块的输出经Relu激活函数后形成输出信号;
S4、图像纹理预测模型的训练:将建立好的训练集放入搭建好的图像纹理预测模型中进行训练;
S5、图像纹理预测模型的测试:将测试集中的图像输入到图像纹理预测模型中,利用训练好的权重对其进行预测,将预测得到的分类标签与真实标签进行比较,测试图像纹理预测模型的有效性;
S6、图像纹理的预测:将待预测物体纹理灰度图像转换为三通道的RGB图像后输入到图像纹理预测模型中,得到预测结果。
上述基于改进深度残差收缩网络的图像纹理预测方法,所述软阈值函数是一种非线性变换函数,其表达式为:
其中,η(ω,λ)是软阈值函数,ω是变量,λ为非负数的阈值。
上述基于改进深度残差收缩网络的图像纹理预测方法,将Sigmoid函数的输出归一化到0和1之间时,批量归一化的输入为数值集合B={x1...m}、可训练参数γ、β,xi为数值集合B中的第i个数据,i=1,2,…,m,m是数值集合B中的数据个数,
其中,m是批大小,μB是输入的均值,是输入的方差,∈为输入的极小数,/>为归一化后的数值,yi为一定幅度的放缩和平移后的输出。
上述基于改进深度残差收缩网络的图像纹理预测方法,将建立好的训练集放入搭建好的图像纹理预测模型中进行训练时,通过预测得到的分类标签概率与真实标签构建多分类损失函数categorical crossentropy,不断地更新迭代模型的参数直至收敛,具体的损失函数categorical crossentropy为:
其中,Loss表示损失函数,outputsize表示输出大小,zi表示真实的标签向量,表示输出向量经过归一化指数函数后的概率向量。
上述基于改进深度残差收缩网络的图像纹理预测方法,原图像预处理过程中,利用PIL图像处理标准库中的conver()变换器函数,参数设置为RGB,将图片统一转换为三通道图像。
本发明将Resnet50残差神经网络与注意力机制相结合用于纹理特征的提取,通过软阈值法对权重进行收缩去除冗余信息,形成深度残差收缩预测模型,利用该模型对图像纹理的种类进行预测。实现了物体纹理种类的智能化预测,大大提高了预测精度和预测效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明的实施例的流程图;
图2为Resnet50残差神经网络的结构图;
图3为Resnet50残差神经网络的两种瓶颈结构图;
图4为本发明的实施例中Resnet50残差神经网络的两种瓶颈与注意力机制、软阈值化相结合的结构图;
图5为本发明的实施例中模型的精度变化趋势图。
文中各符号如下:η(ω,λ)是软阈值函数,ω是变量,λ为非负数的阈值,B={x1...m}为数值集合,γ、β为可训练参数,xi为数值集合B中的第i个数据,μB是输入的均值,是输入的方差,∈为输入的极小数,/>为归一化后的数值,Loss表示损失函数,output size表示输出大小,yi为一定幅度的放缩和平移后的输出,zi表示真实的标签向量,/>表示输出向量经过归一化指数函数后的概率向量。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实例在如下配置的计算器上运行测试:基于Tensorflow开发框架,Intel i9-10900K的CPU,32G运行内存,Win10操作系统,24G显存,GPU为NVIDIA GeForce RTX 3090ti。
如图1所示,本实施例提供的一种基于改进的残差神经网络的物体纹理预测方法的具体步骤为:
S1、原图像预处理:将采集到的单通道物体纹理灰度图像转换为三通道的RGB图像。
本实施例采用的数据集包含28个纹理分类,每个类有160张图像,每张图像的像素尺寸为672×672,文件格式为8位单通道的PNG格式。利用PIL图像处理标准库中的conver()变换器函数,参数设置为RGB,将图片统一转换为三通道图像。
S2、建立数据集:将S1步骤预处理后的图像按照9:1的比例划分成训练集和测试集,训练集用于模型训练过程中特征的提取,测试集用于模型的预测分类,实现对训练后模型的测试。
本实施例所采用的数据集有4480张图像,其中随机选取4032张图像作为训练集,448张图像作为测试集。
S3、图像纹理预测模型的搭建:以Resnet50残差神经网络为基础,在瓶颈中引入注意力模块用来学习一组阈值,再将注意力模块中的重新加权代替为软阈值函数,从而使特征值进行收缩,达到去除中间冗余信息的目的,得到图像纹理预测模型。
纹理预测选用的Resnet50残差神经网络为深层神经网络,深层次的网络容易出现精度趋于饱和并迅速退化的问题,因此采用深度残差学习框架,通过对瓶颈的改进解决此问题。Resnet50残差神经网络输入图片调整为672×672×3,也就是三通道,图片尺寸为672×672。
参看图2,Resnet50残差神经网络包括依次连接的五个块(block),每个块包括一个或多个瓶颈(卷积层),例如在块1中有一个瓶颈,输入图像首先进入该瓶颈,卷积核大小为7×7,卷积核个数为64,步长为2;然后经过批量归一化的正则方法Batch Normalization后采用Relu激活函数;最后经过一层最大池化下采样层,核大小为3×3,步长为2。在块2、块3、块4、块5中分别有3、4、6、3个瓶颈。
瓶颈分为两种,分别称为Conv Block和Identity Block,传统的瓶颈如图3所示,其中Indentity Block为实线连接,不经过卷积网络降维,直接将输入加到最后的卷积输出上。Conv Block输入和输出的维度是不一样的,是将输入通过卷积对其升维后加到最后的卷积输出上,用于不同块(Block)之间的连接。
改进后的Resnet50残差神经网络是在瓶颈中加入注意力机制模块(一个小型子网络),如图4所示。注意力机制模块是一个小型子网络,可将注意力集中在局部关键信息中,通过加入一个小型子网络模块自动学习得到一组权重阈值,减少了人为设置和调整参数的成本,对特征图的各个通道进行加权,从而增强有用特征通道,削弱冗余特征通道。注意力机制模块中有两条线路,第一条线路求瓶颈输入信号经三层卷积运算所得的所有特征的绝对值,然后经过全局均值池化和平均,获得一个特征,记为A;在第二条线路中,全局均值池化和平均之后的特征A依次经过一个全连接层、批量正则化、Relu激活函数、Sigmoid函数,将Sigmoid函数的输出归一化到0和1之间,获得一个系数,记为α,两条线路最终的阈值可以表示为α×A,这个阈值就是系数α与特征A相乘后的绝对值的平均。摒弃原本注意力机制中的重新加权方式,加入软阈值函数,系数α与特征A相乘后的绝对值的平均与瓶颈中三层卷积运算结果同时输入到软阈值函数,软阈值函数的输出与瓶颈输入信号或经卷积网络降维后的瓶颈输入信号一起进入相加求和模块,软阈值函数是一种非线性变换函数,能够根据注意力层学到的权重阈值把图像中噪声的所在的特征值范围去除。软阈值的函数表达式为:
其中,ω是变量,λ为非负数的阈值。
Resnet50残差神经网络随着网络深度的增加会伴随出现梯度爆炸或消失的问题,所以采用批量归一化(Batch Normalization)方法,使深层网络收敛,并使用反向传播进行随机梯度下降。
批量归一化的输入为数值集合B={x1...m}、可训练参数γ、β,输出为:
其中,m是批大小,μB是输入的均值,是输入的方差,∈为输入的极小数。
S4、图像纹理预测模型的训练:将S2步骤中建立好的训练集放入S3步骤中搭建好的图像纹理预测模型中进行训练。
本实施例共训练300代,批大小设置为16,学习率设置为0.0001。通过预测得到的分类标签概率与真实标签构建多分类损失函数categorical crossentropy,不断地更新迭代模型的参数直至收敛。
损失函数categorical crossentropy用来评估当前训练得到的概率分布与真实分布的差异情况,具体函数为:
其中,Loss表示损失函数,outputsize表示输出大小,zi表示真实的标签向量,表示输出向量经过归一化指数函数后的概率向量。
S5、图像纹理预测模型的测试:将测试集中的图像输入到图像纹理预测模型中,利用S4步骤中训练好的权重对其进行预测,将预测得到的分类标签与真实标签进行比较,测试图像纹理预测模型的有效性。本发明中的图像纹理预测模型在此数据集上的准确率达到100%,由模型的精度折线图(如图5)可知,模型整体精度随世代次数的增加而升高,在第4代时初次达到100%,于第18代时趋于平稳,图中虚线为拟合的准确率升高趋势,测试结果充分证明了本图像纹理预测模型的有效性。
S6、图像纹理的预测:将待预测物体纹理灰度图像转换为三通道的RGB图像后输入到图像纹理预测模型中,得到预测结果。

Claims (5)

1.一种基于改进深度残差收缩网络的图像纹理预测方法,其特征是,所述方法包括以下步骤为:
a.原图像预处理:将采集到的单通道物体纹理灰度图像转换为三通道的RGB图像;
b.建立数据集:将预处理后的图像按照设定的比例划分成训练集和测试集;
c.图像纹理预测模型的搭建:在Resnet50残差神经网络的每个块中的每个瓶颈中加入注意力机制模块用来学习一组权重阈值,再将注意力模块中的重新加权代替为软阈值函数,得到图像纹理预测模型;所述注意力机制模块有两条线路,第一条线路求瓶颈输入信号经三层卷积运算所得的所有特征的绝对值,然后经过全局均值池化和平均,获得一个特征A;在第二条线路中,特征A依次经过一个全连接层、批量正则化、Relu激活函数、Sigmoid函数,将Sigmoid函数的输出归一化到0和1之间,获得一个系数α,系数α与特征A相乘后的绝对值的平均与瓶颈中三层卷积运算结果同时输入到软阈值函数,软阈值函数的输出与瓶颈输入信号或经卷积网络降维后的瓶颈输入信号一起进入相加求和模块,求和模块的输出经Relu激活函数后形成输出信号;
d.图像纹理预测模型的训练:将建立好的训练集放入搭建好的图像纹理预测模型中进行训练;
e.图像纹理预测模型的测试:将测试集中的图像输入到图像纹理预测模型中,利用训练好的权重对其进行预测,将预测得到的分类标签与真实标签进行比较,测试图像纹理预测模型的有效性;
f.图像纹理的预测:将待预测物体纹理灰度图像转换为三通道的RGB图像后输入到图像纹理预测模型中,得到预测结果。
2.根据权利要求1所述的图像纹理预测方法,其特征是,所述软阈值函数是一种非线性变换函数,其表达式为:
其中,η(ω,λ)是软阈值函数,ω是变量,λ为非负数的阈值。
3.根据权利要求1或2所述的图像纹理预测方法,其特征是,将Sigmoid函数的输出归一化到0和1之间时,批量归一化的输入为数值集合B={x1...m}、可训练参数γ、β,xi为数值集合B中的第i个数据,i=1,2,…,m,m是数值集合B中的数据个数,
其中,m是批大小,μB是输入的均值,是输入的方差,∈为输入的极小数,/>为归一化后的数值,yi为一定幅度的放缩和平移后的输出。
4.根据权利要求3所述的图像纹理预测方法,其特征是,将建立好的训练集放入搭建好的图像纹理预测模型中进行训练时,通过预测得到的分类标签概率与真实标签构建多分类损失函数categorical crossentropy,不断地更新迭代模型的参数直至收敛,具体的损失函数categorical crossentropy为:
其中,Loss表示损失函数,output size表示输出大小,zi表示真实的标签向量,表示输出向量经过归一化指数函数后的概率向量。
5.根据权利要求4所述的图像纹理预测方法,其特征是,原图像预处理过程中,利用PIL图像处理标准库中的conver()变换器函数,参数设置为RGB,将图片统一转换为三通道图像。
CN202410157446.9A 2024-02-04 2024-02-04 一种基于改进深度残差收缩网络的图像纹理预测方法 Pending CN118015299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410157446.9A CN118015299A (zh) 2024-02-04 2024-02-04 一种基于改进深度残差收缩网络的图像纹理预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410157446.9A CN118015299A (zh) 2024-02-04 2024-02-04 一种基于改进深度残差收缩网络的图像纹理预测方法

Publications (1)

Publication Number Publication Date
CN118015299A true CN118015299A (zh) 2024-05-10

Family

ID=90953770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410157446.9A Pending CN118015299A (zh) 2024-02-04 2024-02-04 一种基于改进深度残差收缩网络的图像纹理预测方法

Country Status (1)

Country Link
CN (1) CN118015299A (zh)

Similar Documents

Publication Publication Date Title
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN108133188B (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
CN109886121B (zh) 一种遮挡鲁棒的人脸关键点定位方法
CN111191583B (zh) 基于卷积神经网络的空间目标识别系统及方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110633708A (zh) 一种基于全局模型和局部优化的深度网络显著性检测方法
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN112950780B (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN111079847A (zh) 一种基于深度学习的遥感影像自动标注方法
CN112801029B (zh) 基于注意力机制的多任务学习方法
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN115631369A (zh) 一种基于卷积神经网络的细粒度图像分类方法
CN111401156A (zh) 基于Gabor卷积神经网络的图像识别方法
CN114332075A (zh) 基于轻量化深度学习模型的结构缺陷快速识别与分类方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN118114734A (zh) 基于稀疏正则化理论的卷积神经网络优化方法及系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN115424275B (zh) 一种基于深度学习技术的渔船船牌号识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination