CN116524317A

CN116524317A - 一种图像切割及预测频率统计的方法、装置、设备及介质

Info

Publication number: CN116524317A
Application number: CN202310236111.1A
Authority: CN
Inventors: 陈悟果; 汪健; 王腾腾; 赵岩; 黄荣亚
Original assignee: Chongqing Innovation Center of Beijing University of Technology
Current assignee: Chongqing Innovation Center of Beijing University of Technology
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-08-01

Abstract

本发明提供了一种图像切割及预测频率统计的方法，本发明通过在前处理端，对图像数据均匀切割，增加了卷积神经网络模型需要的训练数据量，此方式显著提升了卷积神经网络模型解决图像分类问题的识别精度；在后处理端，对每一张子图像进行模型结果预测验证，统计每一张子图像的预测标签，将出现频率最高的预测标签，作为原数据图像的预测标签。此方式在模型预测阶段，进一步提高了模型识别精度。

Description

一种图像切割及预测频率统计的方法、装置、设备及介质

技术领域

本发明涉及神经网络图像处理的技术领域，具体涉及一种图像切割及预测频率统计的方法。

背景技术

随着2010年后深度学习的崛起，神经网络逐渐成为人工智能研究方向的主流。过去几年，深度学习在解决诸如图像目标识别、语音识别和自然语言处理等很多问题方面都表现出色。在各种类型的神经网络当中，卷积神经网络是得到最深入研究的。在训练过程中，如何提升卷积神经网络模型的识别精度，是模型优化的首要目标。多数情况下，除了对模型架构进行设计调整以外，改进前处理端和后处理端，从而实现数据优化，也是一种有效地提升模型精度的方式。

但是，发明人发现，搭建卷积神经网络实现图像分类，对于图像数据量的需求较大，在训练数据不充分的情况下，模型表现效果不理想。如何在现有条件下，提升训练数据的数量，从而提高模型识别精度，同时，针对后处理端，是否有优化方法可以对训练结果进行分析，是需要解决的一项难题。

发明内容

针对现有技术中所存在的不足，本发明提供了一种图像切割及预测频率统计的方法、装置、设备及介质，以解决现有技术中模型识别精度不够且无法对训练结果进行分析的技术问题。

本发明提供了一种图像切割及预测频率统计的方法，包括：

S1、将同一类别的数据图像分别分类为训练集和测试集；

S2、对训练集和测试集的每一张所述数据图像进行归一化处理，且以滑动窗口的形式，对所述数据图像进行均匀尺寸的切割并获得子图像；

S3、对所述子图像至少进行图像灰度化、零中心化及数据序列随机化的预处理；

S4、将预处理过后的子图像，进行数据矩阵格式的重塑，使格式符合卷积神经网络的输入；

S5、调用所述训练集的数据，输入卷积神经网络模型加以训练；

S6、调用所述测试集的数据，输入完成训练的卷积神经网络模型，输出预测结果；

S7、基于所述预测结果，输出每一张子图像的最高预测概率对应的预测标签，并统计在同一类别原图像中，所有子图像的预测标签结果，将出现频率最高的预测标签，作为原数据图像的预测标签。

可选地，所述使格式符合卷积神经网络的输入之后，还包括：

将经重塑后的数据转换成二进制格式进行储存。

可选地，所述对训练集和测试集的每一张所述数据图像进行归一化处理，包括：

对每一张所述数据图像进行归一化处理，采用最大最小标准化公式，表示如下：

将所述数据图像中的每一个像素点从0-255的范围，缩放至0-1的范围内。

可选地，所述且以滑动窗口的形式，对所述数据图像进行均匀尺寸的切割并获得子图像，包括：

设置滑动窗口尺寸，所述滑动窗口尺寸等于所述子图像尺寸的大小，按照从左到右，从上到下的顺序对所述数据图像进行依次切分，所述数据图像边缘部分的尺寸若小于滑动窗口尺寸，则判定为不足以进行切割，进行舍弃，反之则进行切割。

可选地，所述调用所述训练集的数据，输入卷积神经网络模型加以训练，包括：

所述卷积神经网络模型包括至少四层卷积层，每层卷积层通过relu函数激活后，都需要通过一次2x2尺寸的最大池化层进行降采样处理；在最后一次降采样后，数据通过全球平均池化，最后通过全连接层，利用softmax函数实现多分类结果输出。

可选地，所述至少四层卷积层，包括：

第一层卷积层采用5x5的卷积核大小，总共64个神经元；

第二层卷积层采用3x3的卷积核大小，总共128个神经元；

第三层卷积层采用3x3的卷积核大小，总共256个神经元；

第四层卷积层采用3x3的卷积核大小，总共512个神经元。

本发明还提供了一种图像切割及预测频率统计的装置，包括：

图像分类模块，用于将同一类别的数据图像分别分类为训练集和测试集；

图像切割模块，用于对训练集和测试集的每一张所述数据图像进行归一化处理，且以滑动窗口的形式，对所述数据图像进行均匀尺寸的切割并获得子图像；

图像预处理模块，用于对所述子图像至少进行图像灰度化、零中心化及数据序列随机化的预处理；

图像格式处理模块，用于将预处理过后的子图像，进行数据矩阵格式的重塑，使格式符合卷积神经网络的输入；

图像模型训练模块，用于调用所述训练集的数据，输入卷积神经网络模型加以训练；

图像模型测试模块，用于调用所述测试集的数据，输入完成训练的卷积神经网络模型，输出预测结果；

图像结果筛选模块，用于基于所述预测结果，输出每一张子图像的最高预测概率对应的预测标签，并统计在同一类别原图像中，所有子图像的预测标签结果，将出现频率最高的预测标签，作为原数据图像的预测标签。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述任一项所述的方法的步骤。

相比于现有技术，本发明具有如下有益效果：

本发明在前处理端，通过对图像数据均匀切割，增加了卷积神经网络模型需要的训练数据量，此方式显著提升了卷积神经网络模型解决图像分类问题的识别精度；在后处理端，对每一张子图像进行模型结果预测验证，统计每一张子图像的预测标签，将出现频率最高的预测标签，作为原数据图像的预测标签。此方式在模型预测阶段，进一步提高了模型识别精度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程示意图；

图2为本发明中的卷积神经网络模型的构架示意图；

图3为发明中一实施例的统计输出结果示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。本发明实例中相同标号的功能单元具有相同和相似的结构和功能。

参见图1，本发明提供了本发明提供了一种图像切割及预测频率统计的方法，包括：

S1、将同一类别的数据图像分别分类为训练集和测试集；

本实施例中，所述数据图像横向的像素数为X列，纵向的像素数为Y行，因此数据图像的总像素为X*Y，S1中，将每一张数据图像进行拆分，一张数据图像总共拆分数量为N张，将其按照N-1：1的比例分别拆分训练集和测试集；S2中，对训练集和测试集的每一张所述数据图像进行归一化处理，采用最大最小标准化公式，表示如下：

将所述数据图像中的每一个像素点从0-255的范围，缩放至0-1的范围内。图像归一化的方式，不会改变数据的分布和信息存储，同时加速了后续卷积神经网络的计算。在python环境里，利用numpy库来完成的话，可参考如下代码：

x＝(x-numpy.min(x))/(numpy.max(x)-numpy.min(x))；

以滑动窗口的形式，对所述数据图像进行均匀尺寸的切割并获得子图像，对滑动窗口尺寸进行设置，所述滑动窗口尺寸等于所述子图像尺寸的大小，按照从左到右，从上到下的顺序对所述数据图像(分别对训练集和测试集)进行依次切分，所述数据图像边缘部分的尺寸若小于滑动窗口尺寸，则判定为不足以进行切割，进行舍弃，反之则进行切割。

S3中，对所述子图像至少进行图像灰度化、零中心化及数据序列随机化的预处理；图像灰度化的目的是简化矩阵，提高运算速度。在python环境里，利用cv2库来完成的话，可参考如下代码：

x＝cv2.cvtColor(x,cv2.COLOR_RGB2GRAY)；

进行零中心化处理(零均值化)。零均值化并没有消除像素之间的相对差异(交流信息)，仅仅是去掉了直流信息的影响，其目的是有效避免Z型更新，加速网络的收敛速度。实现方式通过对于每一个像素减去图像像素的均值即可，即E(X-E(X))＝0。在python环境里，利用numpy库来完成的话，可参考如下代码：

x-＝numpy.mean(x,axis＝0)；

进行数据序列随机化处理，目的是将训练模型的数据集进行打乱，可以防止训练过程中的模型抖动，有利于模型的健壮性，提升模型训练的快速收敛，防止过拟合，并且使得模型学到更加正确的特征。在python环境里，利用random库来完成的话，可参考代码如下：

x＝random.shuffle(x)。

S4中，将预处理过后的子图像，进行数据矩阵格式的重塑，使格式符合卷积神经网络的输入，目的是将数据格式处理成可带入卷积神经网络的格式。在python环境里，利用numpy库来完成的话，可参考代码如下：

x＝numpy.array(x).reshape(-1,x[0].shape[0],x[0].shape[1],1)；

将数据转换成二进制格式进行储存，目的是进行规范化的数据管理，便于后续随时进行预处理完毕的训练数据调用。在python环境里，利用pickle库来完成的话，可参考代码如下：

withopen(“file_name”,'wb')asFile:

pickle.dump(x,File)；

S5中，调用所述训练集的数据，输入卷积神经网络模型加以训练；在python环境里，利用pickle库来完成调用之前存储的训练集，可参考代码如下：

withopen(“file_name”,'rb')asFile:

x＝pickle.load(File)；

参见图2，并带入训练的神经网络为自主设计的4层卷积神经网络，目的是实现134种图像分类；

第一层卷积层采用5x5的卷积核大小，总共64个神经元；

第二层卷积层采用3x3的卷积核大小，总共128个神经元；

第三层卷积层采用3x3的卷积核大小，总共256个神经元；

第四层卷积层采用3x3的卷积核大小，总共512个神经元。

每层卷积层通过relu函数激活后，都需要通过一次2x2尺寸的最大池化层进行降采样处理；在最后一次降采样后，数据通过全球平均池化(GAP)，最后通过全连接层，利用softmax函数实现多分类结果输出；其中，卷积神经网络模型优化器选用Adam，设置学习率为0.001，可参考代码如下：

Optimizer＝tf.optimizers.Adam(learning_rate＝1e-3,decay＝1e-5)；

利用tensorflow中的ModelCheckpoint模块，实现自动储存训练过程中最优的迭代模型。可参考代码如下：

Checkpoint＝ModelCheckpoint("{epoch:02d}-acc_{val_accuracy:4f}-loss_{val_loss:4f}.h5",monitor＝'val_loss',verbose＝1,

save_best_only＝True,save_weights_only＝False)；

基于S6，调用所述测试集的数据，输入完成训练的卷积神经网络模型，输出预测结果；

通过S2中实现的数据图像均匀切割，大幅度提升了训练集数据量，卷积神经网络模型的验证集准确率相比进行图像切割和预测频率统计之前，提升到了95％以上。

S7中，基于所述预测结果，输出每一张子图像的最高预测概率对应的预测标签，并统计在同一类别原图像中，所有子图像的预测标签结果，将出现频率最高的预测标签，作为原数据图像的预测标签。例如，在测试阶段，带入100号图像进行预测(总共切割成了272张子图像)，统计后的结果参见图3，可以发现，出现频率最高的预测类别为100，预测结果与100号图像相符。同时，预测正确的比例为93.01％左右。通过统计的方式，将出现频次最大的类别视为原图像的标签，可以进一步提升对于原图像的预测准确率。

进一步解释：假设如下情况，在数据量十分充足的情况下，数据图像不经过切割进行训练，模型验证准确率为90％，那么对于1000张同类型的原数据图像进行预测，从模型效果来看，应该会是接近900张图像预测准确，而剩余接近100张图像预测错误的情况；而数据图像切割后进行训练，如果模型验证准确率依然是90％，那么即使需要预测1000张原数据图像，通过每张原数据图像切割后的子图像进行预测，可能正确比例接近90％(一般测试阶段准确率会比验证准确率再低一点)，通过统计每张子图像的预测频次，这种情况下，可以将每张原数据图像的预测标签进一步优化提升，即如果每张原数据图像的子图像中有接近90％都预测准确，那么出现频率最高的标签也是预测准确的，将其作为原图像的预测结果，可以实现每一张原图像的预测准确率几乎达到100％，即1000张原图像都会识别准确。

由此可见，本发明在前处理端，通过对图像数据均匀切割，增加了卷积神经网络模型需要的训练数据量，此方式显著提升了卷积神经网络模型解决图像分类问题的识别精度；在后处理端，对每一张子图像进行模型结果预测验证，统计每一张子图像的预测标签，寻找出现频率最高的标签元素，作为原数据图像的预测标签结果，此方式不光对训练结果进行了优化，还进一步提高了模型识别精度。

本发明还提供了本发明还提供了一种图像切割及预测频率统计的装置，包括：

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图像切割及预测频率统计的方法，其特征在于，包括：

S1、将同一类别的数据图像分别分类为训练集和测试集；

2.如权利要求1所述的图像切割及预测频率统计的方法，其特征在于，所述使格式符合卷积神经网络的输入之后，还包括：

将经重塑后的数据转换成二进制格式进行储存。

3.如权利要求2所述的图像切割及预测频率统计的方法，其特征在于，所述对训练集和测试集的每一张所述数据图像进行归一化处理，包括：

4.如权利要求3所述的图像切割及预测频率统计的方法，其特征在于，所述且以滑动窗口的形式，对所述数据图像进行均匀尺寸的切割并获得子图像，包括：

5.如权利要求4所述的图像切割及预测频率统计的方法，其特征在于，所述调用所述训练集的数据，输入卷积神经网络模型加以训练，包括：

6.如权利要求5所述的图像切割及预测频率统计的方法，其特征在于，所述至少四层卷积层，包括：

第一层卷积层采用5x5的卷积核大小，总共64个神经元；

第二层卷积层采用3x3的卷积核大小，总共128个神经元；

第三层卷积层采用3x3的卷积核大小，总共256个神经元；

第四层卷积层采用3x3的卷积核大小，总共512个神经元。

7.一种图像切割及预测频率统计的装置，其特征在于，包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。