CN113361654A - 一种基于机器学习的图像识别方法和系统 - Google Patents

一种基于机器学习的图像识别方法和系统 Download PDF

Info

Publication number
CN113361654A
CN113361654A CN202110782676.0A CN202110782676A CN113361654A CN 113361654 A CN113361654 A CN 113361654A CN 202110782676 A CN202110782676 A CN 202110782676A CN 113361654 A CN113361654 A CN 113361654A
Authority
CN
China
Prior art keywords
image
machine learning
training set
training
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110782676.0A
Other languages
English (en)
Inventor
陆广林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tianpeng Computer Technology Co ltd
Original Assignee
Guangzhou Tianpeng Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tianpeng Computer Technology Co ltd filed Critical Guangzhou Tianpeng Computer Technology Co ltd
Priority to CN202110782676.0A priority Critical patent/CN113361654A/zh
Publication of CN113361654A publication Critical patent/CN113361654A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于机器学习的图像识别方法,包括:在步骤S1中,获取待识别的图像;在步骤S2中,按一定比例将获取的图像分为训练集和测试集;在步骤S3中,对训练集进行预处理;在步骤S4中,对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;在步骤S5中,基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法。该方法能够避免过拟合并提高图像信息识别效率。

Description

一种基于机器学习的图像识别方法和系统
技术领域
本发明通常涉及计算机数据安全领域,更具体而言,涉及一种基于机器学习的图像识别方法。
背景技术
近年来,随着计算机计算能力的不断提高,以及机器学习技术的快速发展,机器学习已成为对数据进行处理的主流技术,特别是利用各种机器学习模型来对图像进行识别。其中以卷积神经网络为例,其作为机器学习的代表算法在计算机图像识别方面获得广泛应用,但是其性能在网络结构比较复杂、训练样本数足够多的情况下才能体现出优点,而当训练样本较少时,模型容易出现过拟合等现象,即模型在训练集的准确率很高,在验证集的准确率很低,模型内部表现模型泛化能力差,参数过多拟合某一个或多个方向。而且对于高精度的图像样本,通常存在数量缺失引起的识别问题。当使用较少样本数量的图像进行训练时,容易使网络陷入局部最优点,导致在测试集上的泛化能力差,无法满足要求。而且利用训练数据集对机器学习模型进行训练时,机器学习模型容易陷入局部最优解,利用此时的机器学习模型进行图像信息的识别,会影响对图像信息识别的准确性,导致图像信息识别效率较低,从而影响机器学习的图像识别效果。因此如何避免过拟合和提高图像信息识别效率,成为本领域中解决的问题。
发明内容
本发明的目的之一是提供一种基于机器学习的图像识别方法,包括:在步骤S1中,获取待识别的图像;在步骤S2中,按一定比例将获取的图像分为训练集和测试集;在步骤S3中,对训练集进行预处理;在步骤S4中,对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;在步骤S5中,基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法。该方法能够避免过拟合并提高图像信息识别效率。
根据本发明的另一个方面,获取的图像中80%为训练集,20%为测试集。
根据本发明的另一个方面,对训练集进行预处理包括:特征标准化和归一化处理,以及图像数据集的扩充。
根据本发明的另一个方面,特征标准化和归一化处理包括:对全部训练集的图像像素进行标准化处理,将尺寸不一致的图像标准化为a×b的尺寸,并将全部训练集的图像的灰度值编码为0-255范围之内的整数,在将预处理的数据输入到网络前,对其进行归一化处理;其中对训练集的处理包括:
Figure DEST_PATH_IMAGE001
Figure 174618DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
表示训练集中图像第i个像素点的值;n表示像素点的总数;μ表示均值;σ表示方差;归一化方式为:
Figure 281639DEST_PATH_IMAGE004
,其中
Figure DEST_PATH_IMAGE005
表示训练集中图像第i个像素点归一化后的像素值,ε为常数值。
根据本发明的另一个方面,对训练集进行预处理包括特征标准化和归一化处理,其中特征标准化和归一化处理包括:对全部训练集的图像像素进行标准化处理,将尺寸不一致的图像标准化为a×b的尺寸,并将全部训练集的图像的灰度值编码为0-255范围之内的整数,在将预处理的数据输入到网络前,对其进行归一化处理;其中对训练集的处理包括:
Figure 186010DEST_PATH_IMAGE001
Figure 643536DEST_PATH_IMAGE002
Figure 582542DEST_PATH_IMAGE003
表示训练集中图像第i个像素点的值;n表示像素点的总数;μ表示均值;σ表示方差;归一化方式为:
Figure 467321DEST_PATH_IMAGE004
,其中
Figure 629679DEST_PATH_IMAGE005
表示训练集中图像第i个像素点归一化后的像素值,ε为常数值。
根据本发明的另一个方面,机器学习网络模型包含13个卷积层,均为3×3大小、步长为1的卷积核;3个池化层,均为2×2大小,步长为2的池化窗口;3个全连接层,以及1个softmax;其中网络模型的网络结构具体为:输入数据输入到卷积核数量为64的卷积层,池化层,卷积核数量为128的卷积层,池化层,卷积核数量为256的卷积层,卷积核数量为256的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,神经元个数为512的全连接层,神经元个数为128的全连接层,神经元个数为3的全连接层;即机器学习网络模型第1-2层卷积核个数为64个,第3-4层的卷积核个数为128个,第5-7层的卷积核个数为256个,第8-13层的卷积核个数为512个,第14-16层的全连接层的神经元个数为512、128、3;
根据本发明的另一个方面,训练和测试的过程包括:输入预处理之后的具有符合要求的分辨率的图像,并初始化网络权重、偏置项和学习率值;设置训练样本batch的值为第一预设值,最大迭代次数为第二预设值,使用随机梯度下降算法更新;基于反向传播算法,计算输出值与真实值之间的误差值,并进行调整;直到迭代次数达到第二预设值时结束本次训练;重复执行前述训练模型,直到参数达到最优;将训练好的模型在测试集上做分类测试,验证其识别效果。
根据本发明的另一个方面,调整过程还包括权重值的调整,包括:WVt+1=a*WVt-b*∂WVt,其中WVt表示t时刻的权重值,WVt+1表示t+1时刻的权重值,而b表示迭代过程中的学习系数,a表示常数,∂WVt表示对t时刻的权重值的偏导值;在上述计算输出值与真实值之间的误差值,并调整权重值的过程中,将误差值与权重值分别乘以比例系数得到结果,以实现此次调整,直到迭代次数达到第二预设值时结束本次训练。
根据本发明的另一个方面,识别效果的验证包括损失函数的计算,
Figure 890896DEST_PATH_IMAGE006
,其中m是训练过程中的样本的数目,p是训练集中的类数,xi是第i个样本的特征,yi是对应于xi的标签,W和b是Softmax损失之前的最后内积层的权重矩阵和偏置向量,T表示向量的转置,j表示训练集中的类编号。
根据本发明的另一个方面,识别效果的验证还包括相似度度量值的判定过程,该判定过程包括:计算每个训练样本图像与标准图像的相似度值,并统计其相似度值的总和,将该总和与预设阈值进行比较,如果大于预设阈值,则表明识别效果处于优良的第一等级;否则处于非优良的第二等级;其中相似度值的计算过程为:
Figure DEST_PATH_IMAGE007
,其中M表示训练样本图像和标准图像的维度,
Figure 684409DEST_PATH_IMAGE008
表示训练样本图像的M维特征向量,而
Figure DEST_PATH_IMAGE009
表示训练样本图像的M维特征向量。
根据本发明的另一个方面,识别效果的验证进一步包括图像的评价,该评价过程包括:计算每个训练样本图像与标准图像的关联度值,并统计其关联度值的总和,将该总和与预设阈值进行比较,如果大于预设阈值,则表明识别效果处于优良的第一等级;否则处于非优良的第二等级;其中关联度值的计算过程为:首先计算训练样本图像的M维特征向量和标准图像的M维特征向量的协方差,然后计算二者的均方差的乘积,将该协方差除以该乘积进而得到一个训练样本图像与标准图像的关联度值。
根据本发明的另一个方面,图像数据集的扩充包括:对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪,以增加训练集数据的多样性,防止过拟合。
根据本发明的另一个方面,图像数据集的扩充包括:对训练集进行图像旋转、平移、适当裁剪、灰度变换,以增加训练集数据的多样性,防止过拟合。
根据本发明的另一个方面,图像数据集的扩充包括:将训练集的图像的特征图的步长进行变更,将特征图的输出尺寸扩大,以增加训练集数据的多样性,防止过拟合。
根据本发明的另一个方面,图像数据集的扩充包括:将训练集的图像进行随机旋转,随机平移,随机错切,随机缩放,以增加训练集数据的多样性,防止过拟合。
根据本发明的另一个方面,图像数据集的扩充包括:针对训练集的图像,使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换,使用上下左右翻转方式将数据集进行扩充。
根据本发明的另一个方面,图像数据集的扩充进一步包括:在图像的HSV颜色空间中,改变饱和度S和亮度V分量,保持色调H不变,对每个像素的S和V分量进行指数运算以增加光照变化。优选地,指数因子介于0.25至4之间。
根据本发明的另一个方面,图像数据集的扩充进一步包括:改变训练集的图像中RGB通道的强度,对所有RGB像素值执行PCA,得到3*3的协方差矩阵;对特征值进行波动,乘以一个服从均值为0、标准差为0.1高斯分布的随机变量,得到新的协方差矩阵。
根据本发明的另一个方面,输入到机器学习网络模型的图像为224×224×3大小的RGB图像。
根据本发明的另一实施例,还公开一种基于机器学习的图像识别系统,包括:获取模块,用于获取待识别的图像;划分模块,用于按一定比例将获取的图像分为训练集和测试集;处理模块,用于对训练集进行预处理;处理模块,用于对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;确定模块,用于基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法;其中对训练集进行预处理包括特征标准化和归一化处理,其中特征标准化和归一化处理包括:对全部训练集的图像像素进行标准化处理,将尺寸不一致的图像标准化为a×b的尺寸,并将全部训练集的图像的灰度值编码为0-255范围之内的整数,在将预处理的数据输入到网络前,对其进行归一化处理;其中对训练集的处理包括:
Figure 740090DEST_PATH_IMAGE001
Figure 681370DEST_PATH_IMAGE002
Figure 483628DEST_PATH_IMAGE003
表示训练集中图像第i个像素点的值;n表示像素点的总数;μ表示均值;σ表示方差;归一化方式为:
Figure 69330DEST_PATH_IMAGE004
,其中
Figure 561491DEST_PATH_IMAGE005
表示训练集中图像第i个像素点归一化后的像素值,ε为常数值;机器学习网络模型包含13个卷积层,均为3×3大小、步长为1的卷积核;3个池化层,均为2×2大小,步长为2的池化窗口;3个全连接层,以及1个softmax;其中网络模型的网络结构具体为:输入数据输入到卷积核数量为64的卷积层,池化层,卷积核数量为128的卷积层,池化层,卷积核数量为256的卷积层,卷积核数量为256的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,神经元个数为512的全连接层,神经元个数为128的全连接层,神经元个数为3的全连接层;即机器学习网络模型第1-2层卷积核个数为64个,第3-4层的卷积核个数为128个,第5-7层的卷积核个数为256个,第8-13层的卷积核个数为512个,第14-16层的全连接层的神经元个数为512、128、3;训练和测试的过程包括:输入预处理之后的具有符合要求的分辨率的图像,并初始化网络权重、偏置项和学习率值;设置训练样本batch的值为第一预设值,最大迭代次数为第二预设值,使用随机梯度下降算法更新;基于反向传播算法,计算输出值与真实值之间的误差值,并进行调整;直到迭代次数达到第二预设值时结束本次训练;重复执行前述训练模型,直到参数达到最优;将训练好的模型在测试集上做分类测试,验证其识别效果;调整过程还包括权重值的调整,包括:WVt+1=a*WVt-b*∂WVt,其中WVt表示t时刻的权重值,WVt+1表示t+1时刻的权重值,而b表示迭代过程中的学习系数,a表示常数,∂WVt表示对t时刻的权重值的偏导值;在上述计算输出值与真实值之间的误差值,并调整权重值的过程中,将误差值与权重值分别乘以比例系数得到结果,以实现此次调整,直到迭代次数达到第二预设值时结束本次训练。
根据本发明的另一实施例,还公开一种存储有计算机程序的计算机可读存储介质,程序被处理器执行时实现基于机器学习的图像识别方法。
附图说明
在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例,其中相同的附图标记表示相同的元件,其中:
根据本发明的示范性实施例,图1图示一种基于机器学习的图像识别方法的流程图。
具体实施方式
在下面的描述中,参考附图并以图示的方式示出几个具体的实施例。将理解的是:可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此,以下详细描述不应被认为具有限制意义。
根据本发明的示范性实施例,图1图示一种基于机器学习的图像识别方法的流程图。
所述基于机器学习的图像识别方法包括:
在步骤S1中,获取待识别的图像;
在步骤S2中,按一定比例将获取的图像分为训练集和测试集;
在步骤S3中,对训练集进行预处理;
在步骤S4中,对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;
在步骤S5中,基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法。
具体地,获取的图像中80%为训练集,20%为测试集。
具体地,对训练集进行预处理包括:特征标准化和归一化处理,以及图像数据集的扩充。
具体地,其中特征标准化和归一化处理包括:对全部训练集的图像像素进行标准化处理,将尺寸不一致的图像标准化为a×b的尺寸,并将全部训练集的图像的灰度值编码为0-255范围之内的整数,在将预处理的数据输入到网络前,对其进行归一化处理;其中对训练集的处理包括:
Figure 927751DEST_PATH_IMAGE001
Figure 265191DEST_PATH_IMAGE002
Figure 970979DEST_PATH_IMAGE003
表示训练集中图像第i个像素点的值;n表示像素点的总数;μ表示均值;σ表示方差;归一化方式为:
Figure 368462DEST_PATH_IMAGE004
,其中
Figure 156771DEST_PATH_IMAGE005
表示训练集中图像第i个像素点归一化后的像素值,ε为常数值。
具体地,图像数据集的扩充包括:对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪,以增加训练集数据的多样性,防止过拟合。
替代地,图像数据集的扩充包括:对训练集进行图像旋转、平移、适当裁剪、灰度变换,以增加训练集数据的多样性,防止过拟合。
替代地,图像数据集的扩充包括:将训练集的图像的特征图的步长进行变更,将特征图的输出尺寸扩大,以增加训练集数据的多样性,防止过拟合。
替代地,图像数据集的扩充包括:将训练集的图像进行随机旋转,随机平移,随机错切,随机缩放,以增加训练集数据的多样性,防止过拟合。
优选地,所述对训练集进行图像旋转和平移包括:将训练集的图像围绕坐标的原点进行顺时针旋转达角度α,并且使用的矩阵为:
Figure 297902DEST_PATH_IMAGE010
,旋转后的像素坐标为:
Figure DEST_PATH_IMAGE011
;将图像沿着(x,y)方向移动的距离分别是(dx,dy),使用的矩阵为:
Figure 920514DEST_PATH_IMAGE012
,平移后的像素坐标为:
Figure DEST_PATH_IMAGE013
替代地,图像数据集的扩充包括:针对训练集的图像,使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换,使用上下左右翻转方式将数据集进行扩充。
具体地,图像数据集的扩充进一步包括:在图像的HSV颜色空间中,改变饱和度S和亮度V分量,保持色调H不变,对每个像素的S和V分量进行指数运算以增加光照变化。优选地,指数因子介于0.25至4之间。
具体地,图像数据集的扩充进一步包括:改变训练集的图像中RGB通道的强度,对所有RGB像素值执行PCA,得到3*3的协方差矩阵;对特征值进行波动,乘以一个服从均值为0、标准差为0.1高斯分布的随机变量,得到新的协方差矩阵。
具体地,机器学习网络模型包含13个卷积层,均为3×3大小、步长为1的卷积核;3个池化层,均为2×2大小,步长为2的池化窗口;3个全连接层,以及1个softmax。其中网络模型的网络结构具体为:输入数据输入到卷积核数量为64的卷积层,池化层,卷积核数量为128的卷积层,池化层,卷积核数量为256的卷积层,卷积核数量为256的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,神经元个数为512的全连接层,神经元个数为128的全连接层,神经元个数为3的全连接层;即机器学习网络模型第1-2层卷积核个数为64个,第3-4层的卷积核个数为128个,第5-7层的卷积核个数为256个,第8-13层的卷积核个数为512个,第14-16层的全连接层的神经元个数为512、128、3。
优选地,输入到机器学习网络模型的图像为224×224×3大小的RGB图像。
具体地,训练和测试的过程包括:输入预处理之后的具有符合要求的分辨率的图像,并初始化网络权重、偏置项和学习率值;设置训练样本batch的值为第一预设值,最大迭代次数为第二预设值,使用随机梯度下降算法更新;基于反向传播算法,计算输出值与真实值之间的误差值,并进行调整;直到迭代次数达到第二预设值时结束本次训练;重复执行前述训练模型,直到参数达到最优;将训练好的模型在测试集上做分类测试,验证其识别效果。
进一步地,上述调整过程还包括权重值的调整,包括:WVt+1=a*WVt-b*∂WVt,其中WVt表示t时刻的权重值,WVt+1表示t+1时刻的权重值,而b表示迭代过程中的学习系数,a表示常数,∂WVt表示对t时刻的权重值的偏导值;在上述计算输出值与真实值之间的误差值,并调整权重值的过程中,将误差值与权重值分别乘以比例系数得到结果,以实现此次调整,直到迭代次数达到第二预设值时结束本次训练。
具体地,识别效果的验证包括损失函数的计算,
Figure 879111DEST_PATH_IMAGE006
,其中m是训练过程中的样本的数目,p是训练集中的类数,xi是第i个样本的特征,yi是对应于xi的标签,W和b是Softmax损失之前的最后内积层的权重矩阵和偏置向量,T表示向量的转置,j表示训练集中的类编号。
进一步地,识别效果的验证还可以包括相似度度量值的判定过程,该判定过程包括:计算每个训练样本图像与标准图像的相似度值,并统计其相似度值的总和,将该总和与预设阈值进行比较,如果大于预设阈值,则表明识别效果处于优良的第一等级;否则处于非优良的第二等级;其中相似度值的计算过程为:
Figure 957313DEST_PATH_IMAGE007
,其中M表示训练样本图像和标准图像的维度,
Figure 902135DEST_PATH_IMAGE008
表示训练样本图像的M维特征向量,而
Figure 379253DEST_PATH_IMAGE009
表示训练样本图像的M维特征向量。
进一步地,识别效果的验证还可以包括图像的评价,该评价过程包括:计算每个训练样本图像与标准图像的关联度值,并统计其关联度值的总和,将该总和与预设阈值进行比较,如果大于预设阈值,则表明识别效果处于优良的第一等级;否则处于非优良的第二等级;其中关联度值的计算过程为:首先计算训练样本图像的M维特征向量和标准图像的M维特征向量的协方差,然后计算二者的均方差的乘积,将该协方差除以该乘积进而得到一个训练样本图像与标准图像的关联度值。
根据本发明的另一实施例,还公开一种基于机器学习的图像识别系统,包括:
获取模块,用于获取待识别的图像;
划分模块,用于按一定比例将获取的图像分为训练集和测试集;
预处理模块,用于对训练集进行预处理;
处理模块,用于对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;
确定模块,用于基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法;
其中对训练集进行预处理包括特征标准化和归一化处理,其中特征标准化和归一化处理包括:对全部训练集的图像像素进行标准化处理,将尺寸不一致的图像标准化为a×b的尺寸,并将全部训练集的图像的灰度值编码为0-255范围之内的整数,在将预处理的数据输入到网络前,对其进行归一化处理;其中对训练集的处理包括:
Figure 446435DEST_PATH_IMAGE001
Figure 9003DEST_PATH_IMAGE002
Figure 551325DEST_PATH_IMAGE003
表示训练集中图像第i个像素点的值;n表示像素点的总数;μ表示均值;σ表示方差;归一化方式为:
Figure 86211DEST_PATH_IMAGE004
,其中
Figure 324294DEST_PATH_IMAGE005
表示训练集中图像第i个像素点归一化后的像素值,ε为常数值;
机器学习网络模型包含13个卷积层,均为3×3大小、步长为1的卷积核;3个池化层,均为2×2大小,步长为2的池化窗口;3个全连接层,以及1个softmax;其中网络模型的网络结构具体为:输入数据输入到卷积核数量为64的卷积层,池化层,卷积核数量为128的卷积层,池化层,卷积核数量为256的卷积层,卷积核数量为256的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,卷积核数量为512的卷积层,卷积核数量为512的卷积层,池化层,神经元个数为512的全连接层,神经元个数为128的全连接层,神经元个数为3的全连接层;即机器学习网络模型第1-2层卷积核个数为64个,第3-4层的卷积核个数为128个,第5-7层的卷积核个数为256个,第8-13层的卷积核个数为512个,第14-16层的全连接层的神经元个数为512、128、3;
训练和测试的过程包括:输入预处理之后的具有符合要求的分辨率的图像,并初始化网络权重、偏置项和学习率值;设置训练样本batch的值为第一预设值,最大迭代次数为第二预设值,使用随机梯度下降算法更新;基于反向传播算法,计算输出值与真实值之间的误差值,并进行调整;直到迭代次数达到第二预设值时结束本次训练;重复执行前述训练模型,直到参数达到最优;将训练好的模型在测试集上做分类测试,验证其识别效果;
调整过程还包括权重值的调整,包括:WVt+1=a*WVt-b*∂WVt,其中WVt表示t时刻的权重值,WVt+1表示t+1时刻的权重值,而b表示迭代过程中的学习系数,a表示常数,∂WVt表示对t时刻的权重值的偏导值;在上述计算输出值与真实值之间的误差值,并调整权重值的过程中,将误差值与权重值分别乘以比例系数得到结果,以实现此次调整,直到迭代次数达到第二预设值时结束本次训练。
此外,上述各个模块还用于对应执行基于机器学习的图像识别的对应操作。
根据本发明的另一实施例,还公开一种存储有计算机程序的计算机可读存储介质,程序被处理器执行时实现基于机器学习的图像识别方法。
综上,在本发明的技术方案中,通过采用了一种基于机器学习的图像识别方法,能够避免过拟合并提高图像信息识别效率。
将理解的是:可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述,可存储任何执行这种方法的主体,以挥发性或非挥发性存储的形式,例如存储设备,像ROM,无论可抹除或可重写与否,或者以存储器的形式,诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上,诸如例如CD、DVD、磁盘或磁带。将理解的是:存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例,当被执行时,所述一个或多个程序实现本发明的示例。经由任何介质,诸如通过有线或无线耦合载有的通信信号,可以电子地传递本发明的示例,并且示例适当地包含相同内容。
应当注意的是:因为本发明解决了避免过拟合并提高图像信息识别效率的技术问题,采用了计算机技术领域中技术人员在阅读本说明书之后根据其教导所能理解的技术手段,并获得了有益技术效果,所以在所附权利要求中要求保护的方案属于专利法意义上的技术方案。另外,因为所附权利要求要求保护的技术方案可以在工业中制造或使用,因此该方案具备实用性。
以上所述,仅为本发明的较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应包涵在本发明的保护范围之内。除非以其他方式明确陈述,否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种基于机器学习的图像识别方法,包括:
在步骤S1中,获取待识别的图像;
在步骤S2中,按一定比例将获取的图像分为训练集和测试集;
在步骤S3中,对训练集进行预处理;
在步骤S4中,对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;
在步骤S5中,基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法。
2.如权利要求1所述的基于机器学习的图像识别方法,其中获取的图像中80%为训练集,20%为测试集。
3.如权利要求2所述的基于机器学习的图像识别方法,其中对训练集进行预处理包括:特征标准化和归一化处理,以及图像数据集的扩充。
4.如权利要求3所述的基于机器学习的图像识别方法,其中图像数据集的扩充包括:对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪,以增加训练集数据的多样性,防止过拟合。
5.如权利要求3所述的基于机器学习的图像识别方法,其中图像数据集的扩充包括:对训练集进行图像旋转、平移、适当裁剪、灰度变换,以增加训练集数据的多样性,防止过拟合。
6.如权利要求3所述的基于机器学习的图像识别方法,其中图像数据集的扩充包括:将训练集的图像的特征图的步长进行变更,将特征图的输出尺寸扩大,以增加训练集数据的多样性,防止过拟合。
7.如权利要求3所述的基于机器学习的图像识别方法,其中图像数据集的扩充包括:将训练集的图像进行随机旋转,随机平移,随机错切,随机缩放,以增加训练集数据的多样性,防止过拟合。
8.如权利要求3所述的基于机器学习的图像识别方法,其中图像数据集的扩充包括:针对训练集的图像,使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换,使用上下左右翻转方式将数据集进行扩充。
9.一种基于机器学习的图像识别系统,包括:
获取模块,用于获取待识别的图像;
划分模块,用于按一定比例将获取的图像分为训练集和测试集;
预处理模块,用于对训练集进行预处理;
处理模块,用于对机器学习神经网络中的卷积层和池化层的参数进行初始化,并进行训练、优化和测试;
确定模块,用于基于测试的结果,调整最大迭代次数,并重复执行步骤S4,最终选择测试结果最佳的设置为最终确定的识别方法。
10.一种存储有计算机程序的计算机可读存储介质,该程序在被处理器执行时实现权利要求1-8中任一项所述的基于机器学习的图像识别方法。
CN202110782676.0A 2021-07-12 2021-07-12 一种基于机器学习的图像识别方法和系统 Pending CN113361654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110782676.0A CN113361654A (zh) 2021-07-12 2021-07-12 一种基于机器学习的图像识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110782676.0A CN113361654A (zh) 2021-07-12 2021-07-12 一种基于机器学习的图像识别方法和系统

Publications (1)

Publication Number Publication Date
CN113361654A true CN113361654A (zh) 2021-09-07

Family

ID=77539102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110782676.0A Pending CN113361654A (zh) 2021-07-12 2021-07-12 一种基于机器学习的图像识别方法和系统

Country Status (1)

Country Link
CN (1) CN113361654A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899579A (zh) * 2015-06-29 2015-09-09 小米科技有限责任公司 人脸识别方法和装置
CN107315999A (zh) * 2017-06-01 2017-11-03 范衠 一种基于深度卷积神经网络的烟草植株识别方法
CN108492297A (zh) * 2017-12-25 2018-09-04 重庆理工大学 基于深度级联卷积网络的mri脑肿瘤定位与瘤内分割方法
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
CN109635643A (zh) * 2018-11-01 2019-04-16 暨南大学 一种基于深度学习的快速人脸识别方法
CN111008562A (zh) * 2019-10-31 2020-04-14 北京城建设计发展集团股份有限公司 一种特征图深度融合的人车目标检测方法
CN111134664A (zh) * 2019-12-18 2020-05-12 武汉工程大学 一种基于胶囊网络的癫痫放电识别方法、系统和存储介质
CN111325152A (zh) * 2020-02-19 2020-06-23 北京工业大学 一种基于深度学习的交通标志识别方法
CN111476283A (zh) * 2020-03-31 2020-07-31 上海海事大学 基于迁移学习的青光眼眼底图像识别方法
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN111767860A (zh) * 2020-06-30 2020-10-13 阳光学院 一种通过卷积神经网络实现图像识别的方法及终端
CN113034483A (zh) * 2021-04-07 2021-06-25 昆明理工大学 基于深度迁移学习的烟支缺陷检测方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899579A (zh) * 2015-06-29 2015-09-09 小米科技有限责任公司 人脸识别方法和装置
CN107315999A (zh) * 2017-06-01 2017-11-03 范衠 一种基于深度卷积神经网络的烟草植株识别方法
CN108492297A (zh) * 2017-12-25 2018-09-04 重庆理工大学 基于深度级联卷积网络的mri脑肿瘤定位与瘤内分割方法
CN109508655A (zh) * 2018-10-28 2019-03-22 北京化工大学 基于孪生网络的不完备训练集的sar目标识别方法
CN109635643A (zh) * 2018-11-01 2019-04-16 暨南大学 一种基于深度学习的快速人脸识别方法
CN111008562A (zh) * 2019-10-31 2020-04-14 北京城建设计发展集团股份有限公司 一种特征图深度融合的人车目标检测方法
CN111134664A (zh) * 2019-12-18 2020-05-12 武汉工程大学 一种基于胶囊网络的癫痫放电识别方法、系统和存储介质
CN111325152A (zh) * 2020-02-19 2020-06-23 北京工业大学 一种基于深度学习的交通标志识别方法
CN111476283A (zh) * 2020-03-31 2020-07-31 上海海事大学 基于迁移学习的青光眼眼底图像识别方法
CN111553193A (zh) * 2020-04-01 2020-08-18 东南大学 一种基于轻量级深层神经网络的视觉slam闭环检测方法
CN111767860A (zh) * 2020-06-30 2020-10-13 阳光学院 一种通过卷积神经网络实现图像识别的方法及终端
CN113034483A (zh) * 2021-04-07 2021-06-25 昆明理工大学 基于深度迁移学习的烟支缺陷检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
于勇 等: "《互联网电视概论》", 30 June 2020, 吉林出版社 *
刘忠雨 等: "《深入浅出图神经网络GNN原理解析》", 31 January 2020, 机械工业出版社 *
张鸿: "《基于人工智能的多媒体数据挖掘和应用实例》", 31 January 2018, 武汉大学出版社 *

Similar Documents

Publication Publication Date Title
CN109685115B (zh) 一种双线性特征融合的细粒度概念模型及学习方法
CN110210313B (zh) 基于多尺度pca-3d-cnn空谱联合的高光谱遥感影像分类方法
CN108764195B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN107578007A (zh) 一种基于多特征融合的深度学习人脸识别方法
CN109086653B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN112800876B (zh) 一种用于重识别的超球面特征嵌入方法及系统
Rana et al. Learning-based tone mapping operator for efficient image matching
CN111242841A (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN107862680B (zh) 一种基于相关滤波器的目标跟踪优化方法
CN111553438A (zh) 一种基于卷积神经网络的图像识别方法
CN110543906A (zh) 基于数据增强和Mask R-CNN模型的肤质自动识别方法
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN112836671A (zh) 一种基于最大化比率和线性判别分析的数据降维方法
CN112634171A (zh) 基于贝叶斯卷积神经网络的图像去雾方法及存储介质
CN113239839A (zh) 基于dca人脸特征融合的表情识别方法
CN109934835B (zh) 基于深度强化网络邻接连接的轮廓检测方法
CN109508670B (zh) 一种基于红外摄像头的静态手势识别方法
CN116416441A (zh) 基于多层次变分自动编码器的高光谱图像特征提取方法
Faghih et al. Multi-objective optimization based color constancy
CN113536986A (zh) 一种基于代表特征的遥感图像中的密集目标检测方法
Song et al. Using dual-channel CNN to classify hyperspectral image based on spatial-spectral information
CN112613354A (zh) 一种基于稀疏降噪自编码器的异质遥感图像变化检测方法
CN116503376A (zh) 生态挡土墙砌块及其智能化制备方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210907