CN113361654A

CN113361654A - 一种基于机器学习的图像识别方法和系统

Info

Publication number: CN113361654A
Application number: CN202110782676.0A
Authority: CN
Inventors: 陆广林
Original assignee: Guangzhou Tianpeng Computer Technology Co ltd
Current assignee: Guangzhou Tianpeng Computer Technology Co ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-09-07

Abstract

本发明提供一种基于机器学习的图像识别方法，包括：在步骤S1中，获取待识别的图像；在步骤S2中，按一定比例将获取的图像分为训练集和测试集；在步骤S3中，对训练集进行预处理；在步骤S4中，对机器学习神经网络中的卷积层和池化层的参数进行初始化，并进行训练、优化和测试；在步骤S5中，基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法。该方法能够避免过拟合并提高图像信息识别效率。

Description

一种基于机器学习的图像识别方法和系统

技术领域

本发明通常涉及计算机数据安全领域，更具体而言，涉及一种基于机器学习的图像识别方法。

背景技术

近年来，随着计算机计算能力的不断提高，以及机器学习技术的快速发展，机器学习已成为对数据进行处理的主流技术，特别是利用各种机器学习模型来对图像进行识别。其中以卷积神经网络为例，其作为机器学习的代表算法在计算机图像识别方面获得广泛应用，但是其性能在网络结构比较复杂、训练样本数足够多的情况下才能体现出优点，而当训练样本较少时，模型容易出现过拟合等现象，即模型在训练集的准确率很高，在验证集的准确率很低，模型内部表现模型泛化能力差，参数过多拟合某一个或多个方向。而且对于高精度的图像样本，通常存在数量缺失引起的识别问题。当使用较少样本数量的图像进行训练时，容易使网络陷入局部最优点，导致在测试集上的泛化能力差，无法满足要求。而且利用训练数据集对机器学习模型进行训练时，机器学习模型容易陷入局部最优解，利用此时的机器学习模型进行图像信息的识别，会影响对图像信息识别的准确性，导致图像信息识别效率较低，从而影响机器学习的图像识别效果。因此如何避免过拟合和提高图像信息识别效率，成为本领域中解决的问题。

发明内容

本发明的目的之一是提供一种基于机器学习的图像识别方法，包括：在步骤S1中，获取待识别的图像；在步骤S2中，按一定比例将获取的图像分为训练集和测试集；在步骤S3中，对训练集进行预处理；在步骤S4中，对机器学习神经网络中的卷积层和池化层的参数进行初始化，并进行训练、优化和测试；在步骤S5中，基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法。该方法能够避免过拟合并提高图像信息识别效率。

根据本发明的另一个方面，获取的图像中80%为训练集，20%为测试集。

根据本发明的另一个方面，对训练集进行预处理包括：特征标准化和归一化处理，以及图像数据集的扩充。

根据本发明的另一个方面，特征标准化和归一化处理包括：对全部训练集的图像像素进行标准化处理，将尺寸不一致的图像标准化为a×b的尺寸，并将全部训练集的图像的灰度值编码为0-255范围之内的整数，在将预处理的数据输入到网络前，对其进行归一化处理；其中对训练集的处理包括：

，

，

表示训练集中图像第ｉ个像素点的值；ｎ表示像素点的总数；μ表示均值；σ表示方差；归一化方式为：

，其中

表示训练集中图像第ｉ个像素点归一化后的像素值，ε为常数值。

根据本发明的另一个方面，对训练集进行预处理包括特征标准化和归一化处理，其中特征标准化和归一化处理包括：对全部训练集的图像像素进行标准化处理，将尺寸不一致的图像标准化为a×b的尺寸，并将全部训练集的图像的灰度值编码为0-255范围之内的整数，在将预处理的数据输入到网络前，对其进行归一化处理；其中对训练集的处理包括：

，

，

，其中

根据本发明的另一个方面，机器学习网络模型包含13个卷积层，均为3×3大小、步长为1的卷积核；3个池化层，均为2×2大小，步长为2的池化窗口；3个全连接层，以及1个softmax；其中网络模型的网络结构具体为：输入数据输入到卷积核数量为64的卷积层，池化层，卷积核数量为128的卷积层，池化层，卷积核数量为256的卷积层，卷积核数量为256的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，神经元个数为512的全连接层，神经元个数为128的全连接层，神经元个数为3的全连接层；即机器学习网络模型第1-2层卷积核个数为64个，第3-4层的卷积核个数为128个，第5-7层的卷积核个数为256个，第8-13层的卷积核个数为512个，第14-16层的全连接层的神经元个数为512、128、3；

根据本发明的另一个方面，训练和测试的过程包括：输入预处理之后的具有符合要求的分辨率的图像，并初始化网络权重、偏置项和学习率值；设置训练样本batch的值为第一预设值，最大迭代次数为第二预设值，使用随机梯度下降算法更新；基于反向传播算法，计算输出值与真实值之间的误差值，并进行调整；直到迭代次数达到第二预设值时结束本次训练；重复执行前述训练模型，直到参数达到最优；将训练好的模型在测试集上做分类测试，验证其识别效果。

根据本发明的另一个方面，调整过程还包括权重值的调整，包括：WVt+1=a*WVt-b*∂WVt，其中WVt表示t时刻的权重值，WVt+1表示t+1时刻的权重值，而b表示迭代过程中的学习系数，a表示常数，∂WVt表示对t时刻的权重值的偏导值；在上述计算输出值与真实值之间的误差值，并调整权重值的过程中，将误差值与权重值分别乘以比例系数得到结果，以实现此次调整，直到迭代次数达到第二预设值时结束本次训练。

根据本发明的另一个方面，识别效果的验证包括损失函数的计算，

，其中m是训练过程中的样本的数目，p是训练集中的类数，xi是第i个样本的特征，yi是对应于xi的标签，W和b是Softmax损失之前的最后内积层的权重矩阵和偏置向量，T表示向量的转置，j表示训练集中的类编号。

根据本发明的另一个方面，识别效果的验证还包括相似度度量值的判定过程，该判定过程包括：计算每个训练样本图像与标准图像的相似度值，并统计其相似度值的总和，将该总和与预设阈值进行比较，如果大于预设阈值，则表明识别效果处于优良的第一等级；否则处于非优良的第二等级；其中相似度值的计算过程为：

，其中M表示训练样本图像和标准图像的维度，

表示训练样本图像的M维特征向量，而

表示训练样本图像的M维特征向量。

根据本发明的另一个方面，识别效果的验证进一步包括图像的评价，该评价过程包括：计算每个训练样本图像与标准图像的关联度值，并统计其关联度值的总和，将该总和与预设阈值进行比较，如果大于预设阈值，则表明识别效果处于优良的第一等级；否则处于非优良的第二等级；其中关联度值的计算过程为：首先计算训练样本图像的M维特征向量和标准图像的M维特征向量的协方差，然后计算二者的均方差的乘积，将该协方差除以该乘积进而得到一个训练样本图像与标准图像的关联度值。

根据本发明的另一个方面，图像数据集的扩充包括：对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪，以增加训练集数据的多样性，防止过拟合。

根据本发明的另一个方面，图像数据集的扩充包括：对训练集进行图像旋转、平移、适当裁剪、灰度变换，以增加训练集数据的多样性，防止过拟合。

根据本发明的另一个方面，图像数据集的扩充包括：将训练集的图像的特征图的步长进行变更，将特征图的输出尺寸扩大，以增加训练集数据的多样性，防止过拟合。

根据本发明的另一个方面，图像数据集的扩充包括：将训练集的图像进行随机旋转，随机平移，随机错切，随机缩放，以增加训练集数据的多样性，防止过拟合。

根据本发明的另一个方面，图像数据集的扩充包括：针对训练集的图像，使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换，使用上下左右翻转方式将数据集进行扩充。

根据本发明的另一个方面，图像数据集的扩充进一步包括：在图像的HSV颜色空间中，改变饱和度S和亮度V分量，保持色调H不变，对每个像素的S和V分量进行指数运算以增加光照变化。优选地，指数因子介于0.25至4之间。

根据本发明的另一个方面，图像数据集的扩充进一步包括：改变训练集的图像中RGB通道的强度，对所有RGB像素值执行PCA，得到3*3的协方差矩阵；对特征值进行波动，乘以一个服从均值为0、标准差为0.1高斯分布的随机变量，得到新的协方差矩阵。

根据本发明的另一个方面，输入到机器学习网络模型的图像为224×224×3大小的RGB图像。

根据本发明的另一实施例，还公开一种基于机器学习的图像识别系统，包括：获取模块，用于获取待识别的图像；划分模块，用于按一定比例将获取的图像分为训练集和测试集；处理模块，用于对训练集进行预处理；处理模块，用于对机器学习神经网络中的卷积层和池化层的参数进行初始化，并进行训练、优化和测试；确定模块，用于基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法；其中对训练集进行预处理包括特征标准化和归一化处理，其中特征标准化和归一化处理包括：对全部训练集的图像像素进行标准化处理，将尺寸不一致的图像标准化为a×b的尺寸，并将全部训练集的图像的灰度值编码为0-255范围之内的整数，在将预处理的数据输入到网络前，对其进行归一化处理；其中对训练集的处理包括：

，

，

，其中

表示训练集中图像第ｉ个像素点归一化后的像素值，ε为常数值；机器学习网络模型包含13个卷积层，均为3×3大小、步长为1的卷积核；3个池化层，均为2×2大小，步长为2的池化窗口；3个全连接层，以及1个softmax；其中网络模型的网络结构具体为：输入数据输入到卷积核数量为64的卷积层，池化层，卷积核数量为128的卷积层，池化层，卷积核数量为256的卷积层，卷积核数量为256的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，神经元个数为512的全连接层，神经元个数为128的全连接层，神经元个数为3的全连接层；即机器学习网络模型第1-2层卷积核个数为64个，第3-4层的卷积核个数为128个，第5-7层的卷积核个数为256个，第8-13层的卷积核个数为512个，第14-16层的全连接层的神经元个数为512、128、3；训练和测试的过程包括：输入预处理之后的具有符合要求的分辨率的图像，并初始化网络权重、偏置项和学习率值；设置训练样本batch的值为第一预设值，最大迭代次数为第二预设值，使用随机梯度下降算法更新；基于反向传播算法，计算输出值与真实值之间的误差值，并进行调整；直到迭代次数达到第二预设值时结束本次训练；重复执行前述训练模型，直到参数达到最优；将训练好的模型在测试集上做分类测试，验证其识别效果；调整过程还包括权重值的调整，包括：WVt+1=a*WVt-b*∂WVt，其中WVt表示t时刻的权重值，WVt+1表示t+1时刻的权重值，而b表示迭代过程中的学习系数，a表示常数，∂WVt表示对t时刻的权重值的偏导值；在上述计算输出值与真实值之间的误差值，并调整权重值的过程中，将误差值与权重值分别乘以比例系数得到结果，以实现此次调整，直到迭代次数达到第二预设值时结束本次训练。

根据本发明的另一实施例，还公开一种存储有计算机程序的计算机可读存储介质，程序被处理器执行时实现基于机器学习的图像识别方法。

附图说明

在附图中通过实例的方式而不是通过限制的方式来示出本发明的实施例，其中相同的附图标记表示相同的元件，其中：

根据本发明的示范性实施例，图1图示一种基于机器学习的图像识别方法的流程图。

具体实施方式

在下面的描述中，参考附图并以图示的方式示出几个具体的实施例。将理解的是：可设想并且可做出其他实施例而不脱离本公开的范围或精神。因此，以下详细描述不应被认为具有限制意义。

所述基于机器学习的图像识别方法包括：

在步骤S1中，获取待识别的图像；

在步骤S2中，按一定比例将获取的图像分为训练集和测试集；

在步骤S3中，对训练集进行预处理；

在步骤S4中，对机器学习神经网络中的卷积层和池化层的参数进行初始化，并进行训练、优化和测试；

在步骤S5中，基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法。

具体地，获取的图像中80%为训练集，20%为测试集。

具体地，对训练集进行预处理包括：特征标准化和归一化处理，以及图像数据集的扩充。

具体地，其中特征标准化和归一化处理包括：对全部训练集的图像像素进行标准化处理，将尺寸不一致的图像标准化为a×b的尺寸，并将全部训练集的图像的灰度值编码为0-255范围之内的整数，在将预处理的数据输入到网络前，对其进行归一化处理；其中对训练集的处理包括：

，

，

，其中

具体地，图像数据集的扩充包括：对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪，以增加训练集数据的多样性，防止过拟合。

替代地，图像数据集的扩充包括：对训练集进行图像旋转、平移、适当裁剪、灰度变换，以增加训练集数据的多样性，防止过拟合。

替代地，图像数据集的扩充包括：将训练集的图像的特征图的步长进行变更，将特征图的输出尺寸扩大，以增加训练集数据的多样性，防止过拟合。

替代地，图像数据集的扩充包括：将训练集的图像进行随机旋转，随机平移，随机错切，随机缩放，以增加训练集数据的多样性，防止过拟合。

优选地，所述对训练集进行图像旋转和平移包括：将训练集的图像围绕坐标的原点进行顺时针旋转达角度α，并且使用的矩阵为：

，旋转后的像素坐标为：

；将图像沿着(x,y)方向移动的距离分别是(dx,dy)，使用的矩阵为：

，平移后的像素坐标为：

。

替代地，图像数据集的扩充包括：针对训练集的图像，使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换，使用上下左右翻转方式将数据集进行扩充。

具体地，图像数据集的扩充进一步包括：在图像的HSV颜色空间中，改变饱和度S和亮度V分量，保持色调H不变，对每个像素的S和V分量进行指数运算以增加光照变化。优选地，指数因子介于0.25至4之间。

具体地，图像数据集的扩充进一步包括：改变训练集的图像中RGB通道的强度，对所有RGB像素值执行PCA，得到3*3的协方差矩阵；对特征值进行波动，乘以一个服从均值为0、标准差为0.1高斯分布的随机变量，得到新的协方差矩阵。

具体地，机器学习网络模型包含13个卷积层，均为3×3大小、步长为1的卷积核；3个池化层，均为2×2大小，步长为2的池化窗口；3个全连接层，以及1个softmax。其中网络模型的网络结构具体为：输入数据输入到卷积核数量为64的卷积层，池化层，卷积核数量为128的卷积层，池化层，卷积核数量为256的卷积层，卷积核数量为256的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，神经元个数为512的全连接层，神经元个数为128的全连接层，神经元个数为3的全连接层；即机器学习网络模型第1-2层卷积核个数为64个，第3-4层的卷积核个数为128个，第5-7层的卷积核个数为256个，第8-13层的卷积核个数为512个，第14-16层的全连接层的神经元个数为512、128、3。

优选地，输入到机器学习网络模型的图像为224×224×3大小的RGB图像。

具体地，训练和测试的过程包括：输入预处理之后的具有符合要求的分辨率的图像，并初始化网络权重、偏置项和学习率值；设置训练样本batch的值为第一预设值，最大迭代次数为第二预设值，使用随机梯度下降算法更新；基于反向传播算法，计算输出值与真实值之间的误差值，并进行调整；直到迭代次数达到第二预设值时结束本次训练；重复执行前述训练模型，直到参数达到最优；将训练好的模型在测试集上做分类测试，验证其识别效果。

进一步地，上述调整过程还包括权重值的调整，包括：WVt+1=a*WVt-b*∂WVt，其中WVt表示t时刻的权重值，WVt+1表示t+1时刻的权重值，而b表示迭代过程中的学习系数，a表示常数，∂WVt表示对t时刻的权重值的偏导值；在上述计算输出值与真实值之间的误差值，并调整权重值的过程中，将误差值与权重值分别乘以比例系数得到结果，以实现此次调整，直到迭代次数达到第二预设值时结束本次训练。

具体地，识别效果的验证包括损失函数的计算，

进一步地，识别效果的验证还可以包括相似度度量值的判定过程，该判定过程包括：计算每个训练样本图像与标准图像的相似度值，并统计其相似度值的总和，将该总和与预设阈值进行比较，如果大于预设阈值，则表明识别效果处于优良的第一等级；否则处于非优良的第二等级；其中相似度值的计算过程为：

，其中M表示训练样本图像和标准图像的维度，

表示训练样本图像的M维特征向量，而

表示训练样本图像的M维特征向量。

进一步地，识别效果的验证还可以包括图像的评价，该评价过程包括：计算每个训练样本图像与标准图像的关联度值，并统计其关联度值的总和，将该总和与预设阈值进行比较，如果大于预设阈值，则表明识别效果处于优良的第一等级；否则处于非优良的第二等级；其中关联度值的计算过程为：首先计算训练样本图像的M维特征向量和标准图像的M维特征向量的协方差，然后计算二者的均方差的乘积，将该协方差除以该乘积进而得到一个训练样本图像与标准图像的关联度值。

根据本发明的另一实施例，还公开一种基于机器学习的图像识别系统，包括：

获取模块，用于获取待识别的图像；

划分模块，用于按一定比例将获取的图像分为训练集和测试集；

预处理模块，用于对训练集进行预处理；

处理模块，用于对机器学习神经网络中的卷积层和池化层的参数进行初始化，并进行训练、优化和测试；

确定模块，用于基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法；

其中对训练集进行预处理包括特征标准化和归一化处理，其中特征标准化和归一化处理包括：对全部训练集的图像像素进行标准化处理，将尺寸不一致的图像标准化为a×b的尺寸，并将全部训练集的图像的灰度值编码为0-255范围之内的整数，在将预处理的数据输入到网络前，对其进行归一化处理；其中对训练集的处理包括：

，

，

，其中

表示训练集中图像第ｉ个像素点归一化后的像素值，ε为常数值；

机器学习网络模型包含13个卷积层，均为3×3大小、步长为1的卷积核；3个池化层，均为2×2大小，步长为2的池化窗口；3个全连接层，以及1个softmax；其中网络模型的网络结构具体为：输入数据输入到卷积核数量为64的卷积层，池化层，卷积核数量为128的卷积层，池化层，卷积核数量为256的卷积层，卷积核数量为256的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，卷积核数量为512的卷积层，卷积核数量为512的卷积层，池化层，神经元个数为512的全连接层，神经元个数为128的全连接层，神经元个数为3的全连接层；即机器学习网络模型第1-2层卷积核个数为64个，第3-4层的卷积核个数为128个，第5-7层的卷积核个数为256个，第8-13层的卷积核个数为512个，第14-16层的全连接层的神经元个数为512、128、3；

训练和测试的过程包括：输入预处理之后的具有符合要求的分辨率的图像，并初始化网络权重、偏置项和学习率值；设置训练样本batch的值为第一预设值，最大迭代次数为第二预设值，使用随机梯度下降算法更新；基于反向传播算法，计算输出值与真实值之间的误差值，并进行调整；直到迭代次数达到第二预设值时结束本次训练；重复执行前述训练模型，直到参数达到最优；将训练好的模型在测试集上做分类测试，验证其识别效果；

调整过程还包括权重值的调整，包括：WVt+1=a*WVt-b*∂WVt，其中WVt表示t时刻的权重值，WVt+1表示t+1时刻的权重值，而b表示迭代过程中的学习系数，a表示常数，∂WVt表示对t时刻的权重值的偏导值；在上述计算输出值与真实值之间的误差值，并调整权重值的过程中，将误差值与权重值分别乘以比例系数得到结果，以实现此次调整，直到迭代次数达到第二预设值时结束本次训练。

此外，上述各个模块还用于对应执行基于机器学习的图像识别的对应操作。

综上，在本发明的技术方案中，通过采用了一种基于机器学习的图像识别方法，能够避免过拟合并提高图像信息识别效率。

将理解的是：可以硬件、软件或硬件和软件的组合的形式实现本发明的示例和实施例。如上所述，可存储任何执行这种方法的主体，以挥发性或非挥发性存储的形式，例如存储设备，像ROM，无论可抹除或可重写与否，或者以存储器的形式，诸如例如RAM、存储器芯片、设备或集成电路或在光或磁可读的介质上，诸如例如CD、DVD、磁盘或磁带。将理解的是：存储设备和存储介质是适合于存储一个或多个程序的机器可读存储的示例，当被执行时，所述一个或多个程序实现本发明的示例。经由任何介质，诸如通过有线或无线耦合载有的通信信号，可以电子地传递本发明的示例，并且示例适当地包含相同内容。

应当注意的是：因为本发明解决了避免过拟合并提高图像信息识别效率的技术问题，采用了计算机技术领域中技术人员在阅读本说明书之后根据其教导所能理解的技术手段，并获得了有益技术效果，所以在所附权利要求中要求保护的方案属于专利法意义上的技术方案。另外，因为所附权利要求要求保护的技术方案可以在工业中制造或使用，因此该方案具备实用性。

以上所述，仅为本发明的较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应包涵在本发明的保护范围之内。除非以其他方式明确陈述，否则公开的每个特征仅是一般系列的等效或类似特征的一个示例。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于机器学习的图像识别方法，包括：

在步骤S1中，获取待识别的图像；

在步骤S3中，对训练集进行预处理；

2.如权利要求1所述的基于机器学习的图像识别方法，其中获取的图像中80%为训练集，20%为测试集。

3.如权利要求2所述的基于机器学习的图像识别方法，其中对训练集进行预处理包括：特征标准化和归一化处理，以及图像数据集的扩充。

4.如权利要求3所述的基于机器学习的图像识别方法，其中图像数据集的扩充包括：对训练集进行图像多尺度剪裁放大、图像平移、图像旋转、图像镜像、图像加噪，以增加训练集数据的多样性，防止过拟合。

5.如权利要求3所述的基于机器学习的图像识别方法，其中图像数据集的扩充包括：对训练集进行图像旋转、平移、适当裁剪、灰度变换，以增加训练集数据的多样性，防止过拟合。

6.如权利要求3所述的基于机器学习的图像识别方法，其中图像数据集的扩充包括：将训练集的图像的特征图的步长进行变更，将特征图的输出尺寸扩大，以增加训练集数据的多样性，防止过拟合。

7.如权利要求3所述的基于机器学习的图像识别方法，其中图像数据集的扩充包括：将训练集的图像进行随机旋转，随机平移，随机错切，随机缩放，以增加训练集数据的多样性，防止过拟合。

8.如权利要求3所述的基于机器学习的图像识别方法，其中图像数据集的扩充包括：针对训练集的图像，使用OpenCV中的getAffineTransform函数、getPerspectiveTransform函数和warpPerspective函数进行变换，使用上下左右翻转方式将数据集进行扩充。

9.一种基于机器学习的图像识别系统，包括：

获取模块，用于获取待识别的图像；

预处理模块，用于对训练集进行预处理；

确定模块，用于基于测试的结果，调整最大迭代次数，并重复执行步骤S4，最终选择测试结果最佳的设置为最终确定的识别方法。

10.一种存储有计算机程序的计算机可读存储介质，该程序在被处理器执行时实现权利要求1-8中任一项所述的基于机器学习的图像识别方法。