CN114419081B - 一种图像语义分割方法、系统及可读存储介质 - Google Patents

一种图像语义分割方法、系统及可读存储介质 Download PDF

Info

Publication number
CN114419081B
CN114419081B CN202210312991.1A CN202210312991A CN114419081B CN 114419081 B CN114419081 B CN 114419081B CN 202210312991 A CN202210312991 A CN 202210312991A CN 114419081 B CN114419081 B CN 114419081B
Authority
CN
China
Prior art keywords
image
edge extraction
neural network
trained
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210312991.1A
Other languages
English (en)
Other versions
CN114419081A (zh
Inventor
郭波
张渴望
王家辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202210312991.1A priority Critical patent/CN114419081B/zh
Publication of CN114419081A publication Critical patent/CN114419081A/zh
Application granted granted Critical
Publication of CN114419081B publication Critical patent/CN114419081B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种图像语义分割方法、系统及可读存储介质,该方法包括如下步骤:获取待训练图像,对待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;然后构建融合神经网络模型,利用第一数据集对融合神经网络模型进行训练以得到训练后的融合神经网络模型;最后将预测区域图像输入至训练后的融合神经网络模型中进行预测,以得到模型预测结果。本发明提升了卷积神经网络对细节轮廓的提取能力,提高了分割区域的识别效果。

Description

一种图像语义分割方法、系统及可读存储介质
技术领域
本发明涉及计算机图像处理技术领域,特别涉及一种图像语义分割方法、系统及可读存储介质。
背景技术
在计算机图像处理领域中,图像语义分割融合了传统图像分割以及图像分类两个任务,目的是为了识别图像每个像素区域的类别,以最终获得具有标注的图像。
当前图像语义分割神经网络主要包括全卷积神经网络(Fully convolutionalnetworks,FCN)以及递归神经网络(Recurrent Neural Networks,RNN)。传统语义分割受限于计算机的计算能力,只能提取出图像的一些低级特征,无法得到广泛应用。在全卷积神经网络理论诞生之后,语义分割得到了巨大的突破,众多模型也逐渐应用于语义分割之中。例如,卷积神经网络VGG16、残差网络ResNet以及轻量化网络MobileNet等。其中,残差网络ResNet解决了深层网络梯度爆炸与消失的问题,轻量化网络MobileNet提出了一种轻量化的可应用于移动设备的模型。
然而,对于一些复杂工业环境中拍摄的图像,其灰度分布不均、噪声点较多。通过上述模型分割出的图像结果精度低、偏移大、线条间断、无法满足实时性要求等问题,难以应用于实际工业领域之中。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种图像语义分割方法、系统及可读存储介质,以解决现有模型分割出的图像结果精度低、偏移大、线条间断、无法满足实时性要求等问题。
本发明实施例提出一种图像语义分割方法,其中,所述方法包括如下步骤:
步骤一、获取待训练图像;
步骤二、对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;
步骤三、构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型;
步骤四、将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果;
在所述步骤二中,对所述待训练图像进行特征提取的方法包括:
对所述待训练图像进行预处理操作,其中预处理操作包括灰度变换以及高斯滤波变换;
对预处理操作后的所述待训练图像,采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像,其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log;
根据四张所述边缘提取图像计算得到灰度均值图像
Figure 886649DEST_PATH_IMAGE001
根据所述灰度均值图像
Figure 288811DEST_PATH_IMAGE001
计算得到每个所述边缘提取图像对应的标准差
Figure 426531DEST_PATH_IMAGE002
以及变差系数
Figure 685475DEST_PATH_IMAGE003
本发明提出一种图像语义分割方法,获取待训练图像,对待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;然后构建融合神经网络模型,利用第一数据集对融合神经网络模型进行训练以得到训练后的融合神经网络模型;最后将预测区域图像输入至训练后的融合神经网络模型中进行预测,以得到模型预测结果。本发明提升了卷积神经网络对细节轮廓的提取能力,提高了分割区域的识别效果。
所述图像语义分割方法,其中,所述灰度均值图像
Figure 643066DEST_PATH_IMAGE001
表示为:
Figure 114499DEST_PATH_IMAGE004
Figure 903463DEST_PATH_IMAGE005
分别表示四张边缘提取图像;
所述标准差
Figure 548289DEST_PATH_IMAGE002
表示为:
Figure 993177DEST_PATH_IMAGE006
Figure 799459DEST_PATH_IMAGE007
表示任一个边缘提取图像,
Figure 646192DEST_PATH_IMAGE008
表示边缘提取图像的行数,
Figure 450200DEST_PATH_IMAGE009
表示边缘提取图像的列数,
Figure 179121DEST_PATH_IMAGE010
表示对边缘提取图像的图像灰度值进行求和操作;
所述变差系数
Figure 992357DEST_PATH_IMAGE003
表示为:
Figure 428017DEST_PATH_IMAGE011
Figure 668506DEST_PATH_IMAGE012
表示对边缘提取图像中各像素值求解得到的像素均值;
Figure 884723DEST_PATH_IMAGE013
所述图像语义分割方法,其中,在所述步骤二中,在计算得到了每个所述边缘提取图像的变差系数
Figure 970491DEST_PATH_IMAGE003
之后,所述方法还包括:
根据所述变差系数
Figure 588554DEST_PATH_IMAGE003
计算得到中间变差系数
Figure 999944DEST_PATH_IMAGE014
根据所述中间变差系数
Figure 641141DEST_PATH_IMAGE014
进行归一化以得到每个边缘提取算子的权重
Figure 796179DEST_PATH_IMAGE015
,并根据每个边缘提取算子的权重
Figure 268748DEST_PATH_IMAGE015
计算得到最终权重参数
Figure 585460DEST_PATH_IMAGE016
其中,中间变差系数
Figure 979532DEST_PATH_IMAGE014
表示为:
Figure 469419DEST_PATH_IMAGE017
每个边缘提取算子的权重
Figure 999758DEST_PATH_IMAGE015
表示为:
Figure 487371DEST_PATH_IMAGE018
其中,
Figure 165477DEST_PATH_IMAGE019
为边缘提取算子Canny的权重,
Figure 396738DEST_PATH_IMAGE020
为边缘提取算子Sobel的权重,
Figure 47162DEST_PATH_IMAGE021
为边缘提取算子Prewitt的权重,
Figure 767994DEST_PATH_IMAGE022
为边缘提取算子Log的权重;
所述最终权重参数
Figure 871079DEST_PATH_IMAGE016
表示为:
Figure 640452DEST_PATH_IMAGE023
其中,
Figure 207699DEST_PATH_IMAGE024
表示边缘提取图像中像素点的位置,
Figure 302694DEST_PATH_IMAGE025
Figure 627497DEST_PATH_IMAGE026
C、S、P、L的数值由边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt、边缘提取算子Log处理边缘提取图片在
Figure 262877DEST_PATH_IMAGE024
处的灰度值决定;当灰度值大于0时,C、S、P、L的数值取值均为2;当灰度值小于0时,C、S、P、L的数值取值均为1。
所述图像语义分割方法,其中,在所述步骤二中,在计算得到了最终权重参数
Figure 887894DEST_PATH_IMAGE016
之后,所述方法还包括:
当判断到所述最终权重参数
Figure 888211DEST_PATH_IMAGE016
大于等于零,则确定像素点
Figure 965888DEST_PATH_IMAGE024
为1;
当判断到所述最终权重参数
Figure 139380DEST_PATH_IMAGE016
小于零,则确定像素点
Figure 353324DEST_PATH_IMAGE024
为0;
在完成像素点
Figure 790122DEST_PATH_IMAGE024
的检测判断之后,对其它每一像素点进行遍历检测判断,以最终确定得到图像分辨率
Figure 151833DEST_PATH_IMAGE027
,并在
Figure 66699DEST_PATH_IMAGE028
位置的像素点处结束,以得到所述待训练特征区域。
所述图像语义分割方法,其中,在所述步骤三中,所述融合神经网络模型包括ResNet50神经网络模型以及MobileNetV2神经网络模型,所述方法还包括如下步骤:
分别从所述ResNet50神经网络模型以及所述MobileNetV2神经网络模型中提取5层特征,其中ResNet50神经网络模型与MobileNetV2神经网络模型中的5层特征均用于多尺度特征融合;
对ResNet50神经网络模型中的5层特征以及MobileNetV2神经网络模型中的5层特征依次进行上采样、卷积以及多尺度特征融合,直至融合完所有底层特征,以得到训练后的融合神经网络模型。
所述图像语义分割方法,其中,训练后的融合神经网络模型的训练流程的公式表示为:
Figure 400729DEST_PATH_IMAGE029
其中,
Figure 805165DEST_PATH_IMAGE030
表示从ResNet50神经网络模型以及MobileNetV2神经网络模型中提取出的5层特征,
Figure 857435DEST_PATH_IMAGE031
表示上采样操作,
Figure 575992DEST_PATH_IMAGE032
表示卷积操作,
Figure 561266DEST_PATH_IMAGE033
表示多尺度特征融合操作。
所述图像语义分割方法,其中,对所述融合神经网络模型进行训练的方法中,包括前向传播以及反向传播两部分;
其中在反向传播时,对上采样层、卷积层以及多尺度特征融合层进行权重更新,进行权重更新的权重值公式表示为:
Figure 74287DEST_PATH_IMAGE034
其中,
Figure 613852DEST_PATH_IMAGE035
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元,
Figure 932838DEST_PATH_IMAGE036
代表在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的当前权重值,
Figure 241460DEST_PATH_IMAGE037
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的下一个权重值,
Figure 925382DEST_PATH_IMAGE038
代表学习率,
Figure 952244DEST_PATH_IMAGE039
表示人工标注标签处的灰度值,
Figure 809341DEST_PATH_IMAGE040
表示经融合神经网络模型处理得到的图像的灰度值,
Figure 706890DEST_PATH_IMAGE041
表示偏微分操作。
本发明还提出一种图像语义分割系统,其中,所述系统执行如上所述的方法,所述系统包括:
图像获取模块,用于获取待训练图像;
特征提取模块,用于对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;
模型训练模块,用于构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型;
结果输出模块,用于将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果;
其中,所述特征提取模块还用于:
对所述待训练图像进行预处理操作,其中预处理操作包括灰度变换以及高斯滤波变换;
对预处理操作后的所述待训练图像,采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像,其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log;
根据四张所述边缘提取图像计算得到灰度均值图像
Figure 889610DEST_PATH_IMAGE001
根据所述灰度均值图像
Figure 138189DEST_PATH_IMAGE001
计算得到每个所述边缘提取图像对应的标准差
Figure 736660DEST_PATH_IMAGE002
以及变差系数
Figure 19874DEST_PATH_IMAGE003
本发明还提出一种可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的图像语义分割方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明第一实施例提出的图像语义分割方法的流程图;
图2为本发明中带有动态权重分配机制的边缘提取方法的原理示意图;
图3为本发明中使用的带有动态权重分配机制的边缘提取方法与使用Canny边缘提取算子处理结果的对比图;
图4为本发明中Conv Block模块与Identity Block模块的结构示意图;
图5为本发明中Res-Mobile Net模型的结构示意图;
图6为本发明第二实施例提出的图像语义分割方法的流程图;
图7为本发明第二实施例中焊接图像使用带有动态权重分配机制的边缘提取方法后的结果对比图;
图8为本发明训练过程中准确率与损失函数值的变化曲线;
图9为本发明第二实施例中使用不同模型对焊接图像进行预测的对比图;
图10为本发明第二实施例中数据集标签图像示例图;
图11为本发明第三实施例中图像语义分割系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
实施例一:
请参阅图1至图5,本发明第一实施例提出一种图像语义分割方法,其中,所述方法包括如下步骤:
S101、获取待训练图像。
具体地,待训练图像一般是指由相机拍摄出的图像。日常生活中相机拍摄出来的图像一般是彩色RGB图像,RGB图像由三个通道R、G、B(red、green、blue)所组成,每个通道根据人眼所能识别的范围设为256个数值,即0~255。
S102、对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集。
其中,对所述待训练图像进行特征提取的方法包括:
S1021a、对所述待训练图像进行预处理操作,其中预处理操作包括灰度变换以及高斯滤波变换。
需要说明的是,当上述待训练图像属于RGB图像时,若直接放入融合神经网络模型中进行训练将产生大量的运算量。因此可通过灰度变换的方式来减小运算量。
其中,灰度图像使用不同的亮度来表示,能够保存原始RGB图像的信息。灰度变换对原图进行从上到小、从左到右的逐像素计算,将每个像素点的三通道数值代入灰度变换公式之中进行计算,得到的结果即为灰度值。具体的,灰度变化公式包括分量法、最大值法、平均值法以及加权平均法。最常用的方法为加权平均法,加权平均法根据人眼对不同颜色的敏感程度,对不同通道的数值赋予不同大小的系数,相乘后叠加便得到灰度值。
另一方面,在实际拍摄的图像中,或多或少都存在着一些噪声点,尤其对于一些不良的拍摄条件下的图像。而一些噪声点的灰度值又与目标物体较为接近,可能对最终的结果产生影响,因此需要对图像进行降噪处理。
其中,常用的降噪方式一般包括中值滤波、均值滤波、高斯滤波以及双边滤波等。高斯滤波采用3*3的模板对图像进行卷积,以模板中点为原点赋予模板内其他各点坐标,将坐标带入二维正态分布函数内求得系数矩阵。在对系数矩阵进行归一化处理后,与图像模板覆盖位置灰度值相乘,叠加后的数值便为高斯滤波处理后中心点的灰度值。
S1021b、对预处理操作后的所述待训练图像,采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像,其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log。
在此需要说明的是,边缘提取算子往往利用灰度值不连续的性质,在灰度值突变的地方分割出边缘。通常分为一阶算子与二阶算子,其中一阶算子包括Sobel、Canny以及Prewitt等,二阶算子包括Laplace与Log。但是每种算子并不是适用所有场合的,例如Canny算子在一些情况复杂的图像中容易识别出许多无关的区域,影响到最后的精度、Sobel算子有时检测不出一些复杂的边。
在本实施例中,所采用的边缘提取算子为带有动态权值分配机制的边缘提取算子。
S1021c、根据四张所述边缘提取图像计算得到灰度均值图像
Figure 107916DEST_PATH_IMAGE001
具体的,灰度均值图像
Figure 578211DEST_PATH_IMAGE001
表示为:
Figure 245953DEST_PATH_IMAGE004
其中,
Figure 180411DEST_PATH_IMAGE005
分别表示四张边缘提取图像。
S1021d、根据所述灰度均值图像
Figure 377037DEST_PATH_IMAGE001
计算得到每个所述边缘提取图像对应的标准差
Figure 600208DEST_PATH_IMAGE002
以及变差系数
Figure 602799DEST_PATH_IMAGE003
具体的,上述的标准差
Figure 595026DEST_PATH_IMAGE002
表示为:
Figure 228133DEST_PATH_IMAGE006
其中,
Figure 735337DEST_PATH_IMAGE007
表示任一个边缘提取图像,
Figure 479302DEST_PATH_IMAGE008
表示边缘提取图像的行数,
Figure 326036DEST_PATH_IMAGE009
表示边缘提取图像的列数,
Figure 926781DEST_PATH_IMAGE010
表示对边缘提取图像的图像灰度值进行求和操作;
上述的变差系数
Figure 124544DEST_PATH_IMAGE003
表示为:
Figure 406621DEST_PATH_IMAGE011
其中,
Figure 170178DEST_PATH_IMAGE012
表示对边缘提取图像中各像素值求解得到的像素均值;
Figure 410666DEST_PATH_IMAGE013
进一步的,在计算得到了每个所述边缘提取图像的变差系数
Figure 564567DEST_PATH_IMAGE003
之后,所述方法还包括:
S1022a、根据所述变差系数
Figure 712652DEST_PATH_IMAGE003
计算得到中间变差系数
Figure 533977DEST_PATH_IMAGE014
其中,中间变差系数
Figure 679788DEST_PATH_IMAGE014
表示为:
Figure 383302DEST_PATH_IMAGE017
S1022b、根据所述中间变差系数
Figure 272760DEST_PATH_IMAGE014
进行归一化以得到每个边缘提取算子的权重
Figure 948592DEST_PATH_IMAGE015
,并根据每个边缘提取算子的权重
Figure 530883DEST_PATH_IMAGE015
计算得到最终权重参数
Figure 721693DEST_PATH_IMAGE016
每个边缘提取算子的权重
Figure 149263DEST_PATH_IMAGE015
表示为:
Figure 679602DEST_PATH_IMAGE018
其中,
Figure 229532DEST_PATH_IMAGE019
为边缘提取算子Canny的权重,
Figure 845321DEST_PATH_IMAGE020
为边缘提取算子Sobel的权重,
Figure 342161DEST_PATH_IMAGE021
为边缘提取算子Prewitt的权重,
Figure 789323DEST_PATH_IMAGE022
为边缘提取算子Log的权重。
最终权重参数
Figure 447838DEST_PATH_IMAGE016
表示为:
Figure 550923DEST_PATH_IMAGE023
其中,
Figure 382613DEST_PATH_IMAGE024
表示边缘提取图像中像素点的位置,
Figure 153123DEST_PATH_IMAGE025
Figure 716959DEST_PATH_IMAGE026
C、S、P、L的数值由边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt、边缘提取算子Log处理边缘提取图片在
Figure 369657DEST_PATH_IMAGE024
处的灰度值决定;当灰度值大于0时,C、S、P、L的数值取值均为2;当灰度值小于0时,C、S、P、L的数值取值均为1。
请参阅图2所示,为一种带有动态权重分配机制的边缘提取算子的方法原理图。作为更清晰的阐述,将
Figure 196582DEST_PATH_IMAGE042
分别设定为0.4、0.2、0.2、0.2。图2中分析可知:
若四种算子处理图像时,在1位置处均存在边缘,则:
Figure 290440DEST_PATH_IMAGE043
,故该点为边缘;
若四种算子处理图像时,在2位置处时,四张图像均不存在边缘,则:
Figure 353073DEST_PATH_IMAGE044
,故该点非边缘;
若四种算子处理图像时,在8位置处时,三张图像存在边缘而一张图像不存在边缘,则:
Figure 430751DEST_PATH_IMAGE045
,该点仍为边缘;
最后,若四种算子处理图像时,在9位置处时,权重最大的Canny算子处理图像存在边缘,而其它三种算子均显示无边缘存在,则:
Figure 807506DEST_PATH_IMAGE046
,该点不存在边缘,因此避免了Canny边缘提取算子的误判。
进一步的,在计算得到了最终权重参数
Figure 83766DEST_PATH_IMAGE016
之后,所述方法还包括:
S1023a、当判断到所述最终权重参数
Figure 520564DEST_PATH_IMAGE016
大于等于零,则确定像素点
Figure 819958DEST_PATH_IMAGE024
为1;
S1023b、当判断到所述最终权重参数
Figure 404DEST_PATH_IMAGE016
小于零,则确定像素点
Figure 131171DEST_PATH_IMAGE024
为0;
S1023c、在完成像素点
Figure 473290DEST_PATH_IMAGE024
的检测判断之后,对其它每一像素点进行遍历检测判断,以最终确定得到图像分辨率
Figure 525560DEST_PATH_IMAGE027
,并在
Figure 40855DEST_PATH_IMAGE028
位置的像素点处结束,以得到所述待训练特征区域。
请参阅图3所示,为使用该边缘提取方法与使用Canny算子分别对一张蘑菇图像进行处理后的结果。从图3中可以看出:Canny算子将环境中的一些不属于目标边缘像素点也误判为边缘,使用该方法后在保留边缘信息的同时减少了非边缘点数量,提高了图像的精度。
当前已有的图像语义分割模型与方法,往往通过训练由预处理图像和人工标注标签所组成的数据集来求得模型参数。但图像中大量的复杂信息会增大模型训练的难度,最后分割出的图像也存在精度低、线条间断的缺点。本发明将图像输入特征提取系统,得到包含有待训练特征区域的图像,能够减少大量的无用信息。此外,将含有待训练特征区域的图像与对应的标签图像作为数据集放入模型之中进行训练,最后能够取得到高精度的结果。
S103、构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型。
在本步骤中,融合神经网络模型包括ResNet50神经网络模型以及MobileNetV2神经网络模型,该方法包括如下步骤:
S1031、分别从所述ResNet50神经网络模型以及所述MobileNetV2神经网络模型中提取5层特征,其中ResNet50神经网络模型与MobileNetV2神经网络模型中的5层特征均用于多尺度特征融合。
S1032、对ResNet50神经网络模型中的5层特征以及MobileNetV2神经网络模型中的5层特征依次进行上采样、卷积以及多尺度特征融合,直至融合完所有底层特征,以得到训练后的融合神经网络模型。
训练后的融合神经网络模型的训练流程的公式表示为:
Figure 229391DEST_PATH_IMAGE029
其中,
Figure 414516DEST_PATH_IMAGE030
表示从ResNet50神经网络模型以及MobileNetV2神经网络模型中提取出的5层特征,
Figure 750819DEST_PATH_IMAGE031
表示上采样操作,
Figure 7488DEST_PATH_IMAGE032
表示卷积操作,
Figure 112847DEST_PATH_IMAGE033
表示多尺度特征融合操作。
需要指出的是,在融合神经网络模型进行训练的方法中,包括前向传播以及反向传播两部分;
其中在反向传播时,对上采样层、卷积层以及多尺度特征融合层进行权重更新,进行权重更新的权重值公式表示为:
Figure 62349DEST_PATH_IMAGE047
其中,
Figure 558052DEST_PATH_IMAGE035
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元,
Figure 883991DEST_PATH_IMAGE036
代表在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的当前权重值,
Figure 843857DEST_PATH_IMAGE037
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的下一个权重值,
Figure 698681DEST_PATH_IMAGE038
代表学习率,
Figure 212838DEST_PATH_IMAGE039
表示人工标注标签处的灰度值,
Figure 873627DEST_PATH_IMAGE040
表示经融合神经网络模型处理得到的图像的灰度值,
Figure 625682DEST_PATH_IMAGE041
表示偏微分操作。
具体地,Res-Mobile Net神经网络模型以ResNet50神经网络模型与MobileNetV2神经网络模型为基础(参阅图5)。
其中,ResNet50为一种残差网络,将靠前若干层的某一层输出数据跳过多层直接连接到后面数据层的输入部分,有效解决了由于网络深度加深而产生的学习效率变低和准确度无法提升的问题。ResNet50中主要存在两种卷积方式:Conv Block与Identity Block,其中Conv Block用于改变网络的维度,Identity Block用于增加网络的深度。
请参阅图4,Conv Block模块对输入层进行两次连续的卷积、BN算法(BatchNormalization)优化以及ReLu激活,并再一次进行卷积与BN算法优化得到特征图形A。同时输入层再次进行一次卷积与BN算法优化后与特征图形A进行跳级相加得到特征图像B,特征图像B再次激活后输出结果;Identity Block流程与Conv Block类似,但输入没有进行卷积等操作而是直接通过shortcut连接。
需要注意的是,shortcut与下面所述的跳级结构相似但并不相同,跳级结构为不同层之间进行多尺度特征融合,而shortcut为ResNet与MobileNet模型中同一层中的连接。
ResNet50神经网络模型首先对输入进行补零、卷积、BN算法优化、ReLu函数激活以及最大池化,然后中间夹杂着四个层。四个层均由Conv Block与Identity Block所组成,首先第一个层在Conv Block后进行两次连续的Identity Block增加深度、第二个层在ConvBlock后进行三次连续的Identity Block、第三个层在Conv Block后进行五次连续的Identity Block、第四个层在Conv Block后进行两次连续的Identity Block。
进一步的,对于轻量化的MobileNetV2神经网络模型,其深度可分离卷积减少了大量的模型参数。在残差结构的基础上引入了倒残差结构,先升高维度后降低维度以增强梯度的传播,显著减少内存的占用。在每一层之间采用BN算法进行优化后使用ReLu6激活函数进行激活。但在模型最后采用Linear代替ReLu6,防止特征被破坏。
在倒残差结构中,不同于ResNet50神经网络模型的先降低维度后升高维度,先使用1*1卷积升高维度,后使用1*1卷积降低维度,能够减少丢失的信息。1*1卷积升高维度和3*3卷积提取特征后均使用BN算法进行优化,接着使用ReLu6激活函数进行激活。最后,升高维度的卷积只需要进行BN算法优化,然后输出结果。当strides为1且输入与输出大小相同时需要将本层输出与输入进行shortcut连接。
具体地,MobileNettV2神经网络模型中使用了ReLu6激活函数以保证足够的精度。因为MobileNetV2在移动端等低精度(常为float16与int8)设备中,如果不对激活函数ReLu加以限制,低精度的移动端设备将无法精确描述大范围数值。因此采用ReLu6激活函数进行激活,其改进在于对传统ReLu函数增加了一个限制,当大于一定数值时限制为6。但在本发明模型中的上采样过程为计算机训练,因此将上采样中的激活函数改为ReLu,可获得更高精度的预测图像。
上述ResNet与MobileNet中均使用到了BN算法,BN属于一种归一化网络层,能够加速梯度下降算法训练的速度以及提高网络的泛化能力。
综上,ResNet50神经网络模型具有网络层数深以及特征提取能力强的特点。MobileNetV2具有轻量化的特点,Res-Mobile Net模型将两个模型进行了融合,使最后分割的结果能够结合两种模型各自的优点。
请参阅图5,Res-Mobile Net模型训练过程分为前向传播和反向传播。前向传播过程首先赋予ResNet50模型与MobileNetV2模型一个初始的权重并将其锁定不改变,两个模型分别通过上采样操作不断恢复原图像的尺寸,同时借助跳级结构补充细节,实现多层多尺度特征的融合。最后恢复至原图尺寸后进行融合操作结合两个模型的优点,输出一张预测的图像。
具体的,Res-Mobile Net神经网络模型结构如下:
首先提取ResNet50模型中post_relu、conv4_block6_1_relu、conv3_block4_ 1_relu、conv2_block3_1_relu、conv1_conv五个层;
对ResNet50模型中post_relu层上采样得到x1:Conv2D Transpose3 *3*720 -Padding-relu-strides=2;
在x1层进行卷积,得到x2:
Conv2D3*3*512-Padding-relu-strides=3;
在x2层与ResNet50模型中conv4_block6_1_relu进行融合操作,得到x3层:
Add(x2,conv4_block6_1_relu)
在x3层进行上采样得到x4:
Conv2DTranspose3*3*256-Padding-relu-strides=2;
在x4层进行卷积得x5:
Conv2D3*3*128-Padding-relu-strides=3;
在x5层与ResNet50模型中conv3_block4_1_relu进行融合操作,得到x6层:
Add(x5,conv3_block4_1_relu)
在x6层进行上采样得到x7:
Conv2DTranspose3*3*144-Padding-relu-strides=2;
在x6层进行卷积得x7:
Conv2D3*3*256-Padding-relu-strides=3;
在x7层进行上采样得到x8:
Conv2DTranspose3*3*96-Padding-relu-strides=2;
在x8层进行卷积得x9:
Conv2D3*3*64-Padding-relu-strides=3;
在x9层与ResNet50模型中conv1_conv进行融合操作,得到x10层:
Add(x5,conv1_conv)
在x10层进行上采样得到x11:
Conv2DTranspose3*3*3-Padding-relu-strides=2;
提取MobileNetV2模型中block_1_expand_relu、block_3_expand_relu、block_6_expand_relu、block_13_expand_relu、block_16_project五个层;
对MobileNetV2模型中block_16_project层上采样得到x12:Conv2DTranspose3*3*576-Padding-relu-strides=2;
在x12层进行卷积,得到x13:
Conv2D3*3*576-Padding-relu-strides=3;
在x13层与MobileNetV2模型中block_13_expand_relu进行融合操作,得到x14层:
Add(x14,block_13_expand_relu)
在x14层进行上采样得到x15:
Conv2DTranspose3*3*192-Padding-relu-strides=2;
在x15层与MobileNetV2模型中block_6_expand_relu进行融合操作,得到x16层:
Add(x15,block_6_expand_relu)
在x16层进行上采样得到x17:
Conv2DTranspose3*3*144-Padding-relu-strides=2;
在x17层进行卷积得x18:
Conv2D3*3*114-Padding-relu-strides=3;
在x18层与MobileNetV2模型中block_3_expand_relu进行融合操作,得到x19层:
Add(x18,block_3_expand_relu)
在x19层进行上采样得到x20:
Conv2DTranspose3*3*96-Padding-relu-strides=2;
在x20层进行卷积得x21:
Conv2D3*3*96-Padding-relu-strides=3;
在x21层进行上采样得到x22:
Conv2DTranspose3*3*3-Padding-relu-strides=2;
在x22层x11层进行融合操作,得到x23层:
Add(x22,x11)
在x23层进行上采样得到preditcion层:
Conv2DTranspose3*3*3-Padding-softmax-strides=1;
其中relu代表激活函数:线性整流函数,softmax代表激活函数:归一化指数函数,strides=3代表步长为3,strides=2代表步长为2,strides=1代表步长为1,Padding代表补零操作,Conv2DTranspose(a*b*c)代表上采样卷积核为a*b*c的上采样层,Conv2D(a*b*c)代表卷积核为a*b*c的卷积层。
S104、将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果。
在本步骤中,将目标图像放大/缩小到指定大小。放入步骤S103已训练好的模型中得到最终结果。
本发明提出一种图像语义分割方法,获取待训练图像,对待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;然后构建融合神经网络模型,利用第一数据集对融合神经网络模型进行训练以得到训练后的融合神经网络模型;最后将预测区域图像输入至训练后的融合神经网络模型中进行预测,以得到模型预测结果。本发明提升了卷积神经网络对细节轮廓的提取能力,提高了分割区域的识别效果。
实施例二:
请参阅图6至图10,本发明第二实施例提出一种图像语义分割方法,以从焊接图像中分割焊缝图像为例来具体阐述本发明的方法,该方法具体包括步骤S201至步骤S204。
S201、利用工业相机在焊接过程采集图像,以获得待训练图像。
其中,所获得的待训练图像为彩色RGB图像,大小为550*156。
S202、对所述待训练图像进行特征提取,以得到包含焊缝区域的特征区域图像数据集。
其中,进行特征提取的操作包括预处理以及边缘提取两个过程,预处理包括灰度变换以及高斯滤波变换。
灰度变换具体指对一张图像进行从上到下、从左到右的逐像素的运算,通过灰度变换公式对每一个像素点的三通道数值进行乘积求和。其中灰度变换采用的是加权平均法,具体公式如下:
Figure 182566DEST_PATH_IMAGE048
其中,
Figure 715178DEST_PATH_IMAGE049
分别为图像在第
Figure 117341DEST_PATH_IMAGE050
位置处的像素点红色、绿色、蓝色三个通道的数值,
Figure 989482DEST_PATH_IMAGE051
为图像在
Figure 514004DEST_PATH_IMAGE050
处的灰度值。
高斯滤波处理是指用一个高斯核对图像进行平面卷积,将高斯核内相对坐标带入二维高斯分布函数中求得系数矩阵,归一化后与对应灰度值相乘,得到高斯滤波处理后的图像。
其中,高斯核一般为3*3的矩阵,二维高斯分布函数具体公式如下:
Figure 471596DEST_PATH_IMAGE052
式中,
Figure 677449DEST_PATH_IMAGE053
为二维高斯分布函数,
Figure 466413DEST_PATH_IMAGE054
分别为高斯核所选中图像区域内以中心为原点的相对坐标数值,
Figure 99520DEST_PATH_IMAGE055
为方差。
进一步的,边缘提取方法首先分别使用Canny、Sobel、Prewitt、Log四种算子对图像进行初步边缘提取,然后利用变差系数
Figure 544408DEST_PATH_IMAGE056
值计算得到四种算子的权重,再逐像素点遍历后确定出最终的边缘图像。
在焊接图像中焊缝区域比较微弱,使用Sobel等算子无法识别出部分边缘,也无法直接分割出焊缝区域。通过该方法得到的四种算子的权重分别为:0.4124(Canny)、0.1316(Sobel)、0.1339(Prewitt)、0.3221(Log)。
请参阅图7所示,为使用一种带有动态权值分配机制的边缘提取方法对焊缝图像进行边缘提取的结果。从图7中分析可知:使用Sobel算子与Prewitt算子无法对目标边缘右侧焊缝进行精准识别,而Canny算子能够较好的识别。通过计算后Canny算子被赋予了最高的权重,而Sobel算子得到了最低的权重。因此,最终得到的边缘图像能够保留所需要的特征区域,同时去除较多的噪声点,有利于最终焊缝的识别。
S203、构建融合神经网络模型,并利用包含焊缝区域的特征区域图像数据集对融合神经网络模型进行训练以得到训练好的融合神经网络模型。
请参阅图5所示,为本发明所使用的模型结构。其中,图中b1、b2、b3、b4、b5分别代表ResNet50中的post_relu、conv4_block6_1_relu、conv3_block4_1_relu、conv2_block3_1_relu、conv1_conv五个层;b11、b12、b13、b14、b15分别代表MobileNetV2中的block_1_expand_relu、block_3_expand_relu、block_6_expand_relu、block_13_expand_relu、block_16_project五个层。
融合神经网络模型由ResNet50和MobileNetV2两个主要的模块所组成,通过融合将两个模型的结构进行优化。其中,ResNet50模块与MobileNetV2模块同时开始训练,其训练过程分为前向传播与反向传播两个过程,前向传播通过预设参数进行输出,反向传播根据损失函数及优化器进行参数调整。
MobileNetV2前向传播过程主要由17个bottleneck层所组成,每个层都含有一个倒残差结构。首先,升高维度后尺寸大小的公式如下:
Figure 350690DEST_PATH_IMAGE057
对升高维度后图像进行卷积后的大小公式如下:
Figure 197423DEST_PATH_IMAGE058
最后降低维度后尺寸大小的公式如下:
Figure 1431DEST_PATH_IMAGE059
式中,
Figure 995932DEST_PATH_IMAGE060
为升高维度后的输出结果,
Figure 543588DEST_PATH_IMAGE061
为卷积后的输出结果,
Figure 244828DEST_PATH_IMAGE062
为降低维度后的输出结果,
Figure 16475DEST_PATH_IMAGE063
为ReLu6激活函数,
Figure 701534DEST_PATH_IMAGE064
为图像的高、宽以及通道数,
Figure 787302DEST_PATH_IMAGE065
为维度升高的倍数,
Figure 405365DEST_PATH_IMAGE066
为维度降低的倍数,
Figure 816754DEST_PATH_IMAGE067
表示卷积核步长。
在倒残差结构中,在进行1*1卷积升高维度和3*3卷积提取特征后使用BN算法优化,接着使用ReLu6激活函数进行激活。最后升高维度的卷积只需要进行BN算法优化,然后输出结果。
其中,ReLu6的表达公式如下:
Figure 457951DEST_PATH_IMAGE068
Figure 144148DEST_PATH_IMAGE069
式中
Figure 85559DEST_PATH_IMAGE070
为取
Figure 136691DEST_PATH_IMAGE071
中的最大值,
Figure 530764DEST_PATH_IMAGE072
为ReLu激活函数的值,
Figure 20651DEST_PATH_IMAGE073
表示激活函数。
BN算法通过变换重构思想引入可学习参数
Figure 550989DEST_PATH_IMAGE074
Figure 304182DEST_PATH_IMAGE075
,在前向传播中求得均值与方差后,通过归一化操作将均值变为0,方差变为1。需要注意的是,反向传播中的BN算法相比更为复杂,但在本发明中模型参数是锁定的,因此反向传播修改的是上采样过程中的参数。
上采样过程需要从融合神经网络模型中抽出指定的层,其中必须包括模型的输出层,然后将输出层进行不断地上采样操作恢复尺寸,同时融合其它的层以提高预测图像的精度。
ResNet50模型内部主要由四个层组成,每一个层均首先由Conv Block模块改变大小,然后使用若干个连续的Identity Block模块加深模型。其中,Conv Block公式如下:
Figure 982288DEST_PATH_IMAGE076
Identity Block公式如下:
Figure 947970DEST_PATH_IMAGE077
式中,
Figure 598394DEST_PATH_IMAGE078
分别表示Conv Block模块的两个输出,
Figure 319225DEST_PATH_IMAGE079
表示Conv Block模块的最后输出,
Figure 422310DEST_PATH_IMAGE080
为BN算法优化,
Figure 457263DEST_PATH_IMAGE081
表示卷积操作,
Figure 758931DEST_PATH_IMAGE082
表示连续的卷积操作、BN算法优化以及ReLu激活过程,
Figure 588347DEST_PATH_IMAGE083
为求和函数,
Figure 444307DEST_PATH_IMAGE084
表示对操作重复2次,
Figure 814109DEST_PATH_IMAGE085
分别表示Identity Block模块的两个输出,
Figure 173546DEST_PATH_IMAGE086
表示IdentityBlock模块的最后输出,
Figure 439442DEST_PATH_IMAGE087
表示输入。
MobileNetV2的上采样过程与上述ResNet50相同,最终上采样结束后模型输出
Figure 313857DEST_PATH_IMAGE088
前向传播过程中最后需要将上述两个模块的输出结果进行融合,得到Res-MobileNet最终的输出结果,融合公式如下:
Figure 956191DEST_PATH_IMAGE089
式中,
Figure 170135DEST_PATH_IMAGE090
通过Res-Mobile Net模块进行特征融合后的输出结果,
Figure 403670DEST_PATH_IMAGE091
表示ResNet50模型部分对应输出的特征图像,
Figure 968643DEST_PATH_IMAGE092
表示MobileNetV2模型部分对应输出的特征图像。
进一步的,对反向传播而言,反向传播中的权重更新只发生在除ResNet50,MobileNetV2神经网络模型以外的上采样层、卷积层以及多尺度特征融合层中。
反向传播中的损失函数表示为:
Figure 617931DEST_PATH_IMAGE093
式中,
Figure 14277DEST_PATH_IMAGE094
为图像的尺寸,
Figure 621976DEST_PATH_IMAGE095
分别表示预测值与实际值。
计算出损失函数值后,利用Adam优化器进行梯度下降寻求全局最优解,以对权重值进行更新。
其中,Adam优化器的优化流程如下:
初始化学习率
Figure 408666DEST_PATH_IMAGE096
=0.001、平滑常数
Figure 127223DEST_PATH_IMAGE097
=0.9,0.999、可学习参数
Figure 378076DEST_PATH_IMAGE098
不断按照公式更新参数,直至可学习参数
Figure 891097DEST_PATH_IMAGE099
收敛,具体公式如下:
Figure 430663DEST_PATH_IMAGE100
式中,
Figure 749649DEST_PATH_IMAGE101
为循环更新的次数,
Figure 792691DEST_PATH_IMAGE102
为计算梯度,
Figure 742193DEST_PATH_IMAGE103
为梯度求解,
Figure 300213DEST_PATH_IMAGE104
Figure 626152DEST_PATH_IMAGE105
均为累计梯度,
Figure 523701DEST_PATH_IMAGE106
Figure 440841DEST_PATH_IMAGE107
均为累计梯度的平方,
Figure 954999DEST_PATH_IMAGE108
为带参数的随机目标函数;
接下来求解更新参数所需要的偏差纠正数值,公式如下:
Figure 4338DEST_PATH_IMAGE109
最后利用
Figure 225234DEST_PATH_IMAGE110
Figure 516539DEST_PATH_IMAGE111
去更新参数,公式如下:
Figure 252413DEST_PATH_IMAGE112
式中,
Figure 451313DEST_PATH_IMAGE113
的数值为
Figure 323455DEST_PATH_IMAGE114
Figure 254501DEST_PATH_IMAGE110
表示累计梯度中间值,
Figure 946514DEST_PATH_IMAGE111
表示累积梯度的平方的中间值,
Figure 355630DEST_PATH_IMAGE115
表示权重值。
最后,待训练到达一定次数后停止训练并且保存权重。
请参阅图8所示,为训练过程中的损失函数数值以及精确度变化曲线。损失函数在前15次训练中下降十分缓慢,但是训练在15次到22次之间开始快速的下降。在第23次到40次开始损失函数缓慢逐渐减少并趋于稳定,最终在0.062左右维持稳定;准确度数值与损失函数类似,也即在刚开始训练的15次中稳定在一个数值,在15次训练到23次之间快速上升,最终在97.41%附近收敛。可以得出本发明提出的Res-Mobile Net模型具有精度高的特点。
S204、将预测区域图像输入训练好的融合神经网络模型之中,获得模型预测结果。
请参阅图9所示为预测的结果图,分别展示了使用Res-Mobile Net、ResNet50、MobileNetV2、VGG16四个模型使用同样的数据集训练相同的次数后的预测结果。从图9中可以看出:
使用MobileNetV2分割的图像线条间断现象严重;ResNet50分割的图像对焊缝分割不够完整,仍有部分未进行分离、存在弯曲现象,大幅度降低了精度;VGG16模型线条不够连续、错误分割的点也较多,并且部分图像右侧焊缝没有分割出来;使用Res-Mobile Net分割的图像线条连续、焊缝图像完整、并且没有错误分割的点影响精度,能够有效精确分割出焊缝边缘图像。图像预测时间平均为0.123秒,能够满足工业实时性的要求。
请参阅图10所示,为本发明数据集标签图像示例。数据集标签图像制作是对若干待训练特征区域进行人工标注标签,人工标注标签指人工逐像素绘制待训练特征区域目标精确轮廓;
每个目标轮廓可以由直线、曲线进行勾画,得到封闭的区域;
人工标注后将标注的封闭区域数据进行栅格化,其中目标轮廓颜色为红色(255,0,0),封闭区域内部为绿色(0,255,0),封闭区域外部为蓝色(0,0,255)。
综上,焊接图像是本发明所述的一种拍摄于非理想环境的图像,该类型图像灰度值分布不均匀、噪声点较多,使用传统的边缘提取算子无法获得精确的焊缝图像。而用一些模型如VGG16、ResNet50、MobileNetV2也无法精确的得到焊缝图像,因此无法应用于实际工业领域之中。本发明使用一种新的数据集,即边缘提取图像与对应标签所组成的数据集;通过Res-Mobile Net进行训练,得到了高精度、线条连续的焊缝图像,预测速度也能够满足实时性的要求。
实施例三:
请参阅图11,本发明第三实施例提出一种图像语义分割系统,其中,所述系统执行如上所述的方法,所述系统包括:
图像获取模块,用于获取待训练图像;
特征提取模块,用于对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;
模型训练模块,用于构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型;
结果输出模块,用于将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种图像语义分割方法,其特征在于,所述方法包括如下步骤:
步骤一、获取待训练图像;
步骤二、对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;
步骤三、构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型;
步骤四、将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果;
在所述步骤二中,对所述待训练图像进行特征提取的方法包括:
对所述待训练图像进行预处理操作,其中预处理操作包括灰度变换以及高斯滤波变换;
对预处理操作后的所述待训练图像,采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像,其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log;
根据四张所述边缘提取图像计算得到灰度均值图像
Figure 337349DEST_PATH_IMAGE001
根据所述灰度均值图像
Figure 875646DEST_PATH_IMAGE001
计算得到每个所述边缘提取图像对应的标准差
Figure 759288DEST_PATH_IMAGE002
以及变差系数
Figure 108361DEST_PATH_IMAGE003
所述灰度均值图像
Figure 77454DEST_PATH_IMAGE001
表示为:
Figure 655329DEST_PATH_IMAGE004
Figure 659057DEST_PATH_IMAGE005
分别表示四张边缘提取图像;
所述标准差
Figure 179031DEST_PATH_IMAGE002
表示为:
Figure 635420DEST_PATH_IMAGE006
Figure 515520DEST_PATH_IMAGE007
表示任一个边缘提取图像,
Figure 108175DEST_PATH_IMAGE008
表示边缘提取图像的行数,
Figure 799051DEST_PATH_IMAGE009
表示边缘提取图像的列数,
Figure 945998DEST_PATH_IMAGE010
表示对边缘提取图像的图像灰度值进行求和操作;
所述变差系数
Figure 505156DEST_PATH_IMAGE003
表示为:
Figure 841066DEST_PATH_IMAGE011
Figure 561897DEST_PATH_IMAGE012
表示对边缘提取图像中各像素值求解得到的像素均值;
Figure 868245DEST_PATH_IMAGE013
在所述步骤二中,在计算得到了每个所述边缘提取图像的变差系数
Figure 965514DEST_PATH_IMAGE003
之后,所述方法还包括:
根据所述变差系数
Figure 922974DEST_PATH_IMAGE003
计算得到中间变差系数
Figure 814707DEST_PATH_IMAGE014
根据所述中间变差系数
Figure 608351DEST_PATH_IMAGE014
进行归一化以得到每个边缘提取算子的权重
Figure 509310DEST_PATH_IMAGE015
,并根据每个边缘提取算子的权重
Figure 557163DEST_PATH_IMAGE015
计算得到最终权重参数
Figure 885376DEST_PATH_IMAGE016
其中,中间变差系数
Figure 900737DEST_PATH_IMAGE014
表示为:
Figure 605388DEST_PATH_IMAGE017
每个边缘提取算子的权重
Figure 271861DEST_PATH_IMAGE015
表示为:
Figure 770976DEST_PATH_IMAGE018
其中,
Figure 273632DEST_PATH_IMAGE019
为边缘提取算子Canny的权重,
Figure 781974DEST_PATH_IMAGE020
为边缘提取算子Sobel的权重,
Figure 541769DEST_PATH_IMAGE021
为边缘提取算子Prewitt的权重,
Figure 477364DEST_PATH_IMAGE022
为边缘提取算子Log的权重;
所述最终权重参数
Figure 467317DEST_PATH_IMAGE016
表示为:
Figure 248191DEST_PATH_IMAGE023
其中,
Figure 889257DEST_PATH_IMAGE024
表示边缘提取图像中像素点的位置,
Figure 730174DEST_PATH_IMAGE025
Figure 207423DEST_PATH_IMAGE026
C、S、 P、L的数值由边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt、边缘提取算子Log处理边缘提取图片在
Figure 791988DEST_PATH_IMAGE024
处的灰度值决定;当灰度值大于0时,C、S、P、L的数值取值均为2;当灰度值小于0时,C、S、P、L的数值取值均为1;
在计算得到了最终权重参数
Figure 789025DEST_PATH_IMAGE016
之后,所述方法还包括:
当判断到所述最终权重参数
Figure 4106DEST_PATH_IMAGE016
大于等于零,则确定像素点
Figure 827705DEST_PATH_IMAGE024
为1;
当判断到所述最终权重参数
Figure 888065DEST_PATH_IMAGE016
小于零,则确定像素点
Figure 316773DEST_PATH_IMAGE024
为0;
在完成像素点
Figure 624126DEST_PATH_IMAGE024
的检测判断之后,对其它每一像素点进行遍历检测判断,以最终确定得到图像分辨率
Figure 200601DEST_PATH_IMAGE027
,并在
Figure 2335DEST_PATH_IMAGE028
位置的像素点处结束,以得到所述待训练特征区域。
2.根据权利要求1所述的一种图像语义分割方法,其特征在于,在所述步骤三中,所述融合神经网络模型包括ResNet50神经网络模型以及MobileNetV2神经网络模型,所述方法还包括如下步骤:
分别从所述ResNet50神经网络模型以及所述MobileNetV2神经网络模型中提取5层特征,其中ResNet50神经网络模型与MobileNetV2神经网络模型中的5层特征均用于多尺度特征融合;
对ResNet50神经网络模型中的5层特征以及MobileNetV2神经网络模型中的5层特征依次进行上采样、卷积以及多尺度特征融合,直至融合完所有底层特征,以得到训练后的融合神经网络模型。
3.根据权利要求2所述的一种图像语义分割方法,其特征在于,训练后的融合神经网络模型的训练流程的公式表示为:
Figure 82286DEST_PATH_IMAGE029
其中,
Figure 324655DEST_PATH_IMAGE030
表示从ResNet50神经网络模型以及MobileNetV2神经网络模型中提取出的5层特征,
Figure 122847DEST_PATH_IMAGE031
表示上采样操作,
Figure 728272DEST_PATH_IMAGE032
表示卷积操作,
Figure 662730DEST_PATH_IMAGE033
表示多尺度特征融合操作。
4.根据权利要求3所述的一种图像语义分割方法,其特征在于,对所述融合神经网络模型进行训练的方法中,包括前向传播以及反向传播两部分;
其中在反向传播时,对上采样层、卷积层以及多尺度特征融合层进行权重更新,进行权重更新的权重值公式表示为:
Figure 577465DEST_PATH_IMAGE034
其中,
Figure 128532DEST_PATH_IMAGE035
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元,
Figure 272069DEST_PATH_IMAGE036
代表在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的当前权重值,
Figure 326612DEST_PATH_IMAGE037
表示在多尺度特征融合操作、卷积操作或上采样操作中第m层第n个神经元的下一个权重值,
Figure 913714DEST_PATH_IMAGE038
代表学习率,
Figure 420919DEST_PATH_IMAGE039
表示人工标注标签处的灰度值,
Figure 368146DEST_PATH_IMAGE040
表示经融合神经网络模型处理得到的图像的灰度值,
Figure 542775DEST_PATH_IMAGE041
表示偏微分操作。
5.一种图像语义分割系统,其特征在于,所述系统执行如上述权利要求1至4任意一项所述的方法,所述系统包括:
图像获取模块,用于获取待训练图像;
特征提取模块,用于对所述待训练图像进行特征提取以得到多个待训练特征区域,根据多个所述待训练特征区域以及对应的人工标注标签组成第一数据集;
模型训练模块,用于构建融合神经网络模型,利用所述第一数据集对所述融合神经网络模型进行训练以得到训练后的融合神经网络模型;
结果输出模块,用于将预测区域图像输入至所述训练后的融合神经网络模型中进行预测,以得到模型预测结果;
其中,所述特征提取模块还用于:
对所述待训练图像进行预处理操作,其中预处理操作包括灰度变换以及高斯滤波变换;
对预处理操作后的所述待训练图像,采用带有动态权值分配机制的边缘提取算子分别进行边缘提取以得到四张边缘提取图像,其中所述带有动态权值分配机制的边缘提取算子包括边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt以及边缘提取算子Log;
根据四张所述边缘提取图像计算得到灰度均值图像
Figure 533734DEST_PATH_IMAGE001
根据所述灰度均值图像
Figure 793814DEST_PATH_IMAGE001
计算得到每个所述边缘提取图像对应的标准差
Figure 279153DEST_PATH_IMAGE002
以及变差系数
Figure 308289DEST_PATH_IMAGE003
所述灰度均值图像
Figure 986262DEST_PATH_IMAGE001
表示为:
Figure 733638DEST_PATH_IMAGE004
Figure 22668DEST_PATH_IMAGE005
分别表示四张边缘提取图像;
所述标准差
Figure 906311DEST_PATH_IMAGE002
表示为:
Figure 583280DEST_PATH_IMAGE006
Figure 473744DEST_PATH_IMAGE007
表示任一个边缘提取图像,
Figure 300886DEST_PATH_IMAGE008
表示边缘提取图像的行数,
Figure 304614DEST_PATH_IMAGE009
表示边缘提取图像的列数,
Figure 309741DEST_PATH_IMAGE010
表示对边缘提取图像的图像灰度值进行求和操作;
所述变差系数
Figure 766131DEST_PATH_IMAGE003
表示为:
Figure 396963DEST_PATH_IMAGE011
Figure 255198DEST_PATH_IMAGE012
表示对边缘提取图像中各像素值求解得到的像素均值;
Figure 195341DEST_PATH_IMAGE013
在所述特征提取模块中,在计算得到了每个所述边缘提取图像的变差系数
Figure 342288DEST_PATH_IMAGE003
之后,所述特征提取模块还用于:
根据所述变差系数
Figure 635866DEST_PATH_IMAGE003
计算得到中间变差系数
Figure 223974DEST_PATH_IMAGE014
根据所述中间变差系数
Figure 210384DEST_PATH_IMAGE014
进行归一化以得到每个边缘提取算子的权重
Figure 264535DEST_PATH_IMAGE015
,并根据每个边缘提取算子的权重
Figure 361804DEST_PATH_IMAGE015
计算得到最终权重参数
Figure 804417DEST_PATH_IMAGE016
其中,中间变差系数
Figure 961729DEST_PATH_IMAGE014
表示为:
Figure 4640DEST_PATH_IMAGE017
每个边缘提取算子的权重
Figure 905600DEST_PATH_IMAGE015
表示为:
Figure 202721DEST_PATH_IMAGE018
其中,
Figure 530934DEST_PATH_IMAGE019
为边缘提取算子Canny的权重,
Figure 297027DEST_PATH_IMAGE020
为边缘提取算子Sobel的权重,
Figure 267257DEST_PATH_IMAGE021
为边缘提取算子Prewitt的权重,
Figure 684463DEST_PATH_IMAGE022
为边缘提取算子Log的权重;
所述最终权重参数
Figure 183577DEST_PATH_IMAGE016
表示为:
Figure 935501DEST_PATH_IMAGE023
其中,
Figure 912685DEST_PATH_IMAGE024
表示边缘提取图像中像素点的位置,
Figure 449976DEST_PATH_IMAGE025
Figure 119992DEST_PATH_IMAGE026
C、S、 P、L的数值由边缘提取算子Canny、边缘提取算子Sobel、边缘提取算子Prewitt、边缘提取算子Log处理边缘提取图片在
Figure 863607DEST_PATH_IMAGE024
处的灰度值决定;当灰度值大于0时,C、S、P、L的数值取值均为2;当灰度值小于0时,C、S、P、L的数值取值均为1;
在计算得到了最终权重参数
Figure 644481DEST_PATH_IMAGE016
之后,所述特征提取模块还用于:
当判断到所述最终权重参数
Figure 36279DEST_PATH_IMAGE016
大于等于零,则确定像素点
Figure 80459DEST_PATH_IMAGE024
为1;
当判断到所述最终权重参数
Figure 682341DEST_PATH_IMAGE016
小于零,则确定像素点
Figure 391540DEST_PATH_IMAGE024
为0;
在完成像素点
Figure 762479DEST_PATH_IMAGE024
的检测判断之后,对其它每一像素点进行遍历检测判断,以最终确定得到图像分辨率
Figure 649663DEST_PATH_IMAGE027
,并在
Figure 473263DEST_PATH_IMAGE028
位置的像素点处结束,以得到所述待训练特征区域。
6.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至4任意一项所述的图像语义分割方法。
CN202210312991.1A 2022-03-28 2022-03-28 一种图像语义分割方法、系统及可读存储介质 Active CN114419081B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210312991.1A CN114419081B (zh) 2022-03-28 2022-03-28 一种图像语义分割方法、系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210312991.1A CN114419081B (zh) 2022-03-28 2022-03-28 一种图像语义分割方法、系统及可读存储介质

Publications (2)

Publication Number Publication Date
CN114419081A CN114419081A (zh) 2022-04-29
CN114419081B true CN114419081B (zh) 2022-06-21

Family

ID=81262749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210312991.1A Active CN114419081B (zh) 2022-03-28 2022-03-28 一种图像语义分割方法、系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN114419081B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116503417B (zh) * 2023-06-29 2023-09-08 武汉纺织大学 一种超长焊缝与典型缺陷自动识别、定位及尺寸计算方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN103530878A (zh) * 2013-10-12 2014-01-22 北京工业大学 一种基于融合策略的边缘提取方法
CN108665440A (zh) * 2018-03-14 2018-10-16 重庆邮电大学 一种基于改进Sobel算子的不规则烟包图像融合边缘检测算法
CN111311666A (zh) * 2020-05-13 2020-06-19 南京晓庄学院 一种融合边缘特征和深度学习的单目视觉里程计方法
CN111402264A (zh) * 2020-03-11 2020-07-10 南京三百云信息科技有限公司 图像区域分割方法、装置及其模型训练方法及计算机设备
CN112734774A (zh) * 2021-01-28 2021-04-30 依未科技(北京)有限公司 一种高精度眼底血管提取方法、装置、介质、设备和系统
CN113191979A (zh) * 2021-04-30 2021-07-30 云南师范大学 一种分区域sar图像非局部均值去噪方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9668699B2 (en) * 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
CN113256623B (zh) * 2021-06-29 2021-10-26 南昌工程学院 一种基于改进mask rcnn的fpc缺陷检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719979A (zh) * 2009-11-27 2010-06-02 北京航空航天大学 基于时域定区间记忆补偿的视频对象分割方法
CN103530878A (zh) * 2013-10-12 2014-01-22 北京工业大学 一种基于融合策略的边缘提取方法
CN108665440A (zh) * 2018-03-14 2018-10-16 重庆邮电大学 一种基于改进Sobel算子的不规则烟包图像融合边缘检测算法
CN111402264A (zh) * 2020-03-11 2020-07-10 南京三百云信息科技有限公司 图像区域分割方法、装置及其模型训练方法及计算机设备
CN111311666A (zh) * 2020-05-13 2020-06-19 南京晓庄学院 一种融合边缘特征和深度学习的单目视觉里程计方法
CN112734774A (zh) * 2021-01-28 2021-04-30 依未科技(北京)有限公司 一种高精度眼底血管提取方法、装置、介质、设备和系统
CN113191979A (zh) * 2021-04-30 2021-07-30 云南师范大学 一种分区域sar图像非局部均值去噪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Vehicle image edge detection using image fusion at pixel level;Xinnan Fan;《2008 IEEE International Conference on Automation and Logistics》;20080930;全文 *
面向PolSAR影像异质区细节保持的相干斑抑制研究;任烨仙;《中国优秀硕士学位论文全文数据库》;20210615;全文 *

Also Published As

Publication number Publication date
CN114419081A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN107578418B (zh) 一种融合色彩和深度信息的室内场景轮廓检测方法
CN110688987B (zh) 一种行人位置检测与跟踪方法及系统
CN113658132B (zh) 基于计算机视觉的结构件焊缝检测方法
CN111741211B (zh) 图像显示方法和设备
CN107066916B (zh) 基于反卷积神经网络的场景语义分割方法
CN111814867A (zh) 缺陷检测模型的训练方法、缺陷检测方法及相关装置
CN109035273B (zh) 一种免疫层析试纸卡的图像信号快速分割方法
CN112330593A (zh) 基于深度学习网络的建筑物表面裂缝检测方法
CN112819772A (zh) 一种高精度快速图形检测识别方法
CN115841447A (zh) 一种磁瓦表面缺陷的检测方法
CN111178121B (zh) 基于空间特征和深度特征强化技术的害虫图像定位识别方法
CN111882555B (zh) 基于深度学习的网衣检测方法、装置、设备及存储介质
CN114419081B (zh) 一种图像语义分割方法、系统及可读存储介质
CN113409355A (zh) 一种基于fpga的运动目标识别系统及方法
CN110472640B (zh) 一种目标检测模型预测框处理方法及装置
CN117391987A (zh) 基于多阶段联合增强机制的暗光图像处理方法
CN117197064A (zh) 一种无接触眼红程度自动分析方法
JP5080416B2 (ja) 入力画像から検出対象物の像を検出する画像処理装置
CN116309307A (zh) 焊缝缺陷检测方法、装置、可读存储介质及电子设备
KR101881795B1 (ko) 퍼지 이론에 기초한 컬러 이미지의 에지 검출 방법
Chaczko et al. A preliminary investigation on computer vision for telemedicine systems using OpenCV
CN116917954A (zh) 图像检测方法、装置和电子设备
CN110070094A (zh) 一种ai数字识别系统及方法
Tang et al. Image edge detection based on interval type-2 fuzzy similarity
Desiani et al. A combination of image enhancement and U-Net architecture for segmentation in identifying brain tumors on CT-SCAN Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant