CN113657240A

CN113657240A - 一种基于多视角图像扩增的类不平衡珍珠分类方法

Info

Publication number: CN113657240A
Application number: CN202110923016.XA
Authority: CN
Inventors: 刘毅; 马正阳; 余清; 刘凯新
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-16

Abstract

本发明公开了一种基于多视角图像扩增的类不平衡珍珠分类方法，具体包括如下步骤：获取多视角珍珠图像数据；多视角珍珠图像数据的预处理及数据集划分；生成多视角珍珠图像数据集中的少数类样本，建立多视角生成对抗网络，并训练模型，平衡多视角珍珠图像数据集；将平衡后的多视角珍珠图像数据作为训练集，训练多流卷积神经网络模型，引入错误率和相对提高率的评价指标对模型进行评估。本发明利用多视角生成对抗网络强大的数据生成能力，将不平衡的多视角珍珠图像数据集重新平衡，解决了多流卷积神经网络训练过程中存在的不平衡学习问题，提升了模型的分类准确性。

Description

一种基于多视角图像扩增的类不平衡珍珠分类方法

技术领域

本发明涉及类不平衡学习领域，特别涉及一种基于多视角图像扩增的类不平衡珍珠分类方法。

背景技术

近年来深度神经网络快速发展，深度学习被广泛应用于图像分类、语义分割、目标检测、自然语言处理等任务中。深度学习在图像识别领域尤其引人注目，其表现已经能够达到甚至超越人类水平。正是因为它出色的表现以及工业4.0、智能制造等概念的提出，深度学习越来越多地被应用于工业领域，提升行业的智能化与自动化。

珍珠的价值有高有低，取决于它的材质、光泽度、形状、大小等特征。传统的珍珠制造公司通过人工观察对珍珠进行分类，这样的方法耗时耗力，成本很高。同时由于珍珠具有多样化特征，珍珠的价值需要结合多个特征进行判断，人工存在主观的原因，无法保证每个人具有相同的判断标准，所以无法对珍珠准确分类。利用深度学习技术，训练一个能够准确分类珍珠的神经网络，不仅能够节约成本，提高效率，还能提高分类的准确率。

为了能够使神经网络能够更准确地分类珍珠，使用单颗珍珠的多个视角，增加信息量。因此可以训练一个多流卷积神经网络 (Multi-stream Convolutional NeuralNetwork,MS-CNN)对单颗珍珠的多个视角提取特征并进行分类。处理这些多视图图像时，每个流处理一个特定视角的图像，不同的流共享部分权值，从而融合高阶特征而不会丢失太多的多样性。

训练MS-CNN需要使用平衡的数据，即每一类的训练样本数量一致。然而现实生活中采集到的数据集是不平衡的，这给神经网络的训练带来了困难。不平衡数据是指数据集中各个类别的样本数量不一致。样本数量少的类别称为少数类，样本数量多的类别称为多数类。直接在不平衡数据集上训练的模型表现不佳，因为数据量少的类别容易被数据量大的类别所淹没，因此模型很难准确地把握特征来识别不同的类别。

生成对抗网络(Generative Adversarial Networks,GAN)是一种强大的样本生成方法。GAN通过鉴别器和生成器的对抗训练，从训练数据中学习到数据的分布，能够生成与训练数据相似的数据。利用 GAN生成少数类样本、平衡数据集，是解决不平衡学习问题的一种可行方法。

发明内容

为解决多流卷积神经网络训练时存在的不平衡学习问题，本发明提出一种基于多视角图像扩增的类不平衡珍珠分类方法。通过利用多视角生成对抗网络(Multi-viewGenerative Adversarial Network With Wasserstein distance and GradientPenalty,MVWGAN-GP)生成不平衡数据中少数类的多视角图像，得到一个新的平衡数据集，然后利用新的平衡数据集训练MS-CNN模型，以提升模型的分类准确率。

本发明解决其技术问题所采用的技术方案是：

一种基于多视角图像扩增的类不平衡珍珠分类方法，所述方法包括以下步骤：

1)获取多视角珍珠图像数据

对不同珍珠进行人工分类，并在分类后采集不同类别珍珠的不同视角的图像以形成数据集；

2)多视角珍珠图像数据的预处理以及数据集划分

为加快模型收敛速度，提升模型训练速度，首先需要进行数据归一化处理；其次，将数据集划分为训练集和测试集；

3)生成多视角珍珠图像数据集中的少数类样本

建立多视角生成对抗网络MVWGAN-GP模型，将多视角珍珠图像数据集中的少数类图像作为训练样本，训练模型，MVWGAN-GP 模型训练完成，利用生成器生成少数类样本，平衡多视角珍珠图像数据集；

4)建立并训练多流卷积神经网络MS-CNN模型

建立MS-CNN模型，将平衡后的多视角珍珠图像数据集作为训练集，训练MS-CNN模型，并引入评价指标错误率E和相对提高率 RIMP来对模型进行评估。

进一步地，所述步骤1)的过程为：

收集一批珍珠，根据珍珠的形状大小和光泽度特点，利用人工将珍珠分类；使用高清摄像头拍摄珍珠的俯视图、左视图、右视图、主视图和后视图，形成多视角珍珠图像数据集。

进一步地，所述步骤2)的过程为：

步骤2.1：数据归一化处理

为加快模型收敛速度，提升训练速度，对数据进行归一化处理，公式如下：

式中，x为归一化处理后的数据；d为采集的原始数据；d_min为原始数据中的最小值；d_max为原始数据中的最大值；

步骤2.2：划分数据集

将归一化处理后的多视角珍珠图像数据集按8:2的比例划分为训练集和测试集。

进一步地，所述步骤3)的过程为：

步骤3.1：建立多视角生成对抗网络MVWGAN-GP模型

根据珍珠图像数据多视角的特点，建立MVWGAN-GP模型， MVWGAN-GP模型由生成器G和判别器D两部分组成，生成器用于生成使判别器难辨真假的多视角图像，判别器则用于识别其输入是真实样本还是生成样本；

MVWGAN-GP所有的隐藏层都设置为卷积层，并去除了所有的池化层，以加快收敛速度，判别器D和生成器G的损失函数如下：

式中：P_data(x)表示真实数据的概率分布；P_z(z)表示潜变量的概率分布；G(z)表示生成器生成的数据；

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出；

表示判别器梯度2 范数；E表示期望；λ表示惩罚系数；

步骤3.2：使用少数类样本训练多视角生成对抗网络，并生成新的样本

将原始训练集中的少数类样本作为训练集，训练MVWGAN-GP 模型，通过生成器G和判别器D的博弈训练，最终生成器能够生成使判别器无法判别真假的样本，此时生成器已经学习到了真实样本的分布，能够产生以假乱真的样本；

在MVWGAN-GP模型训练完成之后，使用生成器生成一定数量的样本，与原始数据集混合后，使得数据集中各类样本数量相同或者相近。

进一步地，所述步骤4)的过程为：

步骤4.1：建立多流卷积神经网络MS-CNN模型

根据珍珠图像多视角的特点，建立MS-CNN模型，MS-CNN拥有多个分支，每个分支对应于输入图像的其中一个视图，用于提取特征，各分支之间参数共享，减少训练参数，以减少存储空间和加快训练速度，将各个分支提取的特征向量相加后，通过多个全连接层得到类别的概率分布。

步骤4.2：训练多流卷积神经网络MS-CNN模型

使用MVWGAN-GP平衡后的珍珠数据集训练MS-CNN模型；

错误率E指分类错误的样本占样本总数的比例，定义如下：

式中：N表示测试集样本总量；f(x_i)表示输入样本x_i的预测类别； y_i表示输入样本x_i的真实类别；I(.)表示指示函数，当预测类别与真实类别一致时，指示函数值为1，否则为0，错误率越低，说明模型分类准确率越高，模型性能更好；

相对提高率可表示为：

式中：E_base表示模型提升前的分类错误率；E_imp表示模型提升后的分类错误率；相对提高率越高，模型性能提升越强，能够说明该方法的优劣。

本发明的有益效果主要表现在：本发明利用多视角生成对抗网络强大的数据生成能力，将不平衡的多视角珍珠图像数据集重新平衡，解决了多流卷积神经网络训练过程中存在的不平衡学习问题，提升了模型的分类准确率。

附图说明

图1是本发明的方法的流程图；

图2是本发明建立的MVWGAN-GP模型的生成器；

图3是本发明提出的MVWGAN-GP模型的判别器。

具体实施方式

以下结合说明书附图及实施例，对本发明作进一步描述。

参照图1～图3，一种基于多视角图像扩增的类不平衡珍珠分类方法，所述方法包括以下步骤：

1)获取多视角珍珠图像数据

收集一批珍珠，根据珍珠的形状大小和光泽度特点，利用人工将珍珠分类，使用高清摄像头拍摄珍珠的俯视图、左视图、右视图、主视图和后视图，形成多视角珍珠图像数据集。

2)多视角珍珠图像数据的预处理以及数据集划分

步骤2.1：数据归一化处理

步骤2.2：划分数据集

将多视角珍珠图像数据集按8:2的比例划分为训练集和测试集，之后找到少数类，即训练集中某一类别的样本数量明显少于其他类别。

3)生成多视角珍珠图像数据集中的少数类样本

步骤3.1：建立多视角生成对抗网络模型

根据珍珠图像数据多视角的特点，建立MVWGAN-GP模型， MVWGAN-GP模型由生成器G和判别器D两部分组成，生成器用于生成使判别器难辨真假的多视角图像，判别器则用于识别其输入是真实样本还是生成样本。

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出；

表示判别器梯度2 范数；E表示期望；λ表示惩罚系数。

步骤3.2：使用少数类样本训练多视角生成对抗网络，并生成新的样本，

将原始训练集中的少数类样本作为训练集，训练MVWGAN-GP 模型，通过生成器和判别器的博弈训练，最终生成器能够生成使判别器无法判别真假的样本，此时生成器已经学习到了真实样本的分布，能够产生以假乱真的样本。

4)建立并训练多流卷积神经网络MS-CNN模型

建立MS-CNN模型，将平衡后的多视角珍珠图像数据集作为训练集，训练MS-CNN模型，并引入评价指标错误率(Error,E)和相对提高率(Relative Improvement,RIMP)来对模型进行评估。

具体做法是：

步骤4.1：建立多流卷积神经网络模型

根据珍珠图像多视角的特点，建立多流卷积神经网络MS-CNN 模型，MS-CNN拥有多个分支，每个分支对应于输入图像的其中一个视图，用于提取特征。各分支之间参数共享，减少训练参数，以减少存储空间和加快训练速度。将各个分支提取的特征向量相加后，通过多个全连接层可得到类别的概率分布。

步骤4.2：训练多流卷积神经网络模型

使用MVWGAN-GP平衡后的珍珠数据集训练多流卷积神经网络模型，

错误率E指分类错误的样本占样本总数的比例，定义如下：

式中：N表示测试集样本总量；f(x_i)表示输入样本x_i的预测类别； y_i表示输入样本x_i的真实类别；I(.)表示指示函数，当预测类别与真实类别一致时，指示函数值为1，否则为0，错误率越低，说明模型分类准确率越高，模型性能更好。

相对提高率可表示为：

式中：E_base表示模型提升前的分类错误率；E_imp表示模型提升后的分类错误率。相对提高率越高，模型性能提升越强，能够说明该方法的优劣。

实施例：

(1)获取多视角珍珠图像数据

根据珍珠的形状大小和光泽度特点，使用人工将珍珠分成七类。七类珍珠主要由扁平或有明显瑕疵的珍珠和轻微或无瑕疵的珍珠两大类组成。扁平或有明显瑕疵的珍珠又可细分为三类：多个面都是扁平的珍珠、形状对称的珍珠以及其余的扁平或有明显瑕疵的珍珠。轻微或无瑕疵的珍珠可细分为四类：短长半径之比在0.7以上的珍珠、其余的轻微瑕疵的珍珠、其余的隐含瑕疵的珍珠以及其余珍珠。

依次将各类珍珠放入珍珠分类机中，珍珠通过进料装置和输送装置，进入视觉检测装置，在视觉检测装置中，使用高清摄像头依次获取单颗珍珠的俯视图、左视图、右视图、主视图和后视图。

(2)多视角珍珠图像数据的预处理以及数据集划分

步骤2.1：数据归一化处理

式中，x为归一化处理后的数据；d为采集的原始数据；d_min为原始数据中的最小值；d_max为原始数据中的最大值。

步骤2.2：划分数据集

(3)生成多视角珍珠图像数据集中的少数类样本

步骤3.1：建立多视角生成对抗网络模型

根据珍珠图像数据多视角的特点，建立MVWGAN-GP模型。 MVWGAN-GP模型由生成器G和判别器D两部分组成，生成器用于生成使判别器难辨真假的多视角图像，判别器则用于识别其输入是真实样本还是生成样本。

MVWGAN-GP所有的隐藏层都设置为卷积层，并去除了所有的池化层，以加快收敛速度，判别器和生成器的损失函数如下：

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出；

表示判别器梯度2 范数；E表示期望；λ表示惩罚系数。

MVWGAN-GP的生成器和判别器结构分别如图2和图3所示，生成器由4个反卷积层组成，其输入是一个100维的向量，输入向量被投影到一个小的空间，经过四次反卷积，得到250×250×15大小的输出。生成器的输出是珍珠俯视图、左视图、右视图、主视图和后视图按次序的排列。将生成器250×250×15的输出依次拆分为5张 250×250×3的图片，得到珍珠五个视角的图片。再将五个视角的图片尺寸放大到300×300×3，即可用于训练MS-CNN，生成器第一个反卷积层包含256个卷积核，第二个反卷积层包含128个卷积核，第三个反卷积层包含64个卷积核，第四个反卷积层包含15个卷积核。

判别器由4个卷积层，1个全连接层组成，其输入是珍珠俯视图、左视图、右视图、主视图和后视图按顺序叠加在一起的向量，大小为 250×250×15，输入向量经过四次卷积以及一次全连接后输出概率，判别器的第一个卷积层包含64个卷积核，第二个卷积层包含128个卷积核，第三个卷积层包含256个卷积核，第四个卷积层包含512个卷积核，所有反卷积层和卷积层的卷积核尺寸为5×5，步长为2。生成器隐藏层的激活函数为ReLU，判别器隐藏层的激活函数为 Leaky-ReLU，生成器使用批量归一化，判别器使用层归一化。

选取原始训练集中的少数类样本作为训练集，训练 MVWGAN-GP模型。优化器选择Adam，学习率设置为0.0002。通过交替训练生成器和判别器，最终生成器能够生成使判别器无法判别真假的样本，此时生成器已经学习到了真实样本的分布，能够产生以假乱真的样本。

在MVWGAN-GP训练完成之后，使用生成器生成一定数量的样本，与原始数据集混合后，得到各类样本数量相同或者相近的平衡数据集。

(4)建立并训练多流卷积神经网络模型

步骤4.1：建立多流卷积神经网络MS-CNN模型

根据珍珠图像多视角的特点，建立多流卷积神经网络MS-CNN 模型，MS-CNN共有5个输入，对应于珍珠的五个视角，特征提取器，由5个卷积层、2个池化层和1个全连接层组成，五个分支可看作五个特征提取器，分别对应于五个视角的输入图像。各分支之间参数共享，减少训练参数，以减少存储空间和加快训练速度。包含珍珠多视角信息的向量，由特征提取器提取的五个特征向量相加得到。将网络中的全连接层的输出用Softmax函数进行映射，即可得到类别的概率分布。除最后一层全连接层外，所有卷积层和全连接层均使用ReLU激活函数。

步骤4.2：训练多流卷积神经网络模型

使用MVWGAN-GP平衡后的多视角珍珠数据集训练多流卷积神经网络模型，优化器选择Momentum，学习率设置为0.001。

错误率E指分类错误的样本占样本总数的比例，定义如下：

式中：N表示测试集样本总量；f(x_i)表示输入样本x_i的预测类别； y_i表示输入样本x_i的真实类别；I(.)表示指示函数，当预测类别与真实类别一致时，指示函数值为1，否则为0。错误率越低，说明模型分类准确率越高，模型性能更好。

相对提高率可表示为：

将使用MVWGAN-GP平衡后的珍珠数据集训练的MS-CNN模型、在原始不平衡数据集上训练的MS-CNN以及随机过采样方法训练的MS-CNN模型性能进行对比(随机过采样即对不平衡数据中样本量较少的数据类别进行随机反复采样，使得原本样本量较少的数据类别在数据上达到原本样本量较多的数据类别的程度)，得到如表1 所示的结果。其中7类珍珠分别为多个面都是扁平的珍珠、形状对称的珍珠、其余的扁平或有明显瑕疵的珍珠、短长半径之比在0.7以上的珍珠、其余的轻微瑕疵的珍珠、其余的隐含瑕疵的珍珠以及其余珍珠。

表1

实验结果表明，使用MVWGAN-GP扩充数据集训练的MS-CNN 的分类错误率明显降低。与其他两种方法相比，在不同的少数类别下， MVWGAN-GP扩充数据都使MS-CNN拥有最低的分类错误率，说明本发明所提方法的有效性和优越性。

本发明方法采用多视角生成对抗网络对数据集中少数类的多视角图像进行扩充，平衡数据集，提高了模型对多视角图像的分类准确率，具有普遍性和通用性。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于多视角图像扩增的类不平衡珍珠分类方法，其特征在于，所述方法包括以下步骤：

1)获取多视角珍珠图像数据

2)多视角珍珠图像数据的预处理以及数据集划分

3)生成多视角珍珠图像数据集中的少数类样本

建立多视角生成对抗网络MVWGAN-GP模型，将多视角珍珠图像数据集中的少数类图像作为训练样本，训练模型，MVWGAN-GP模型训练完成，利用生成器生成少数类样本，平衡多视角珍珠图像数据集；

4)建立并训练多流卷积神经网络MS-CNN模型

建立MS-CNN模型，将平衡后的多视角珍珠图像数据集作为训练集，训练MS-CNN模型，并引入评价指标错误率E和相对提高率RIMP来对模型进行评估。

2.如权利要求1所述的一种基于多视角图像扩增的类不平衡珍珠分类方法，其特征在于，所述步骤1)的过程为：收集一批珍珠，根据珍珠的形状大小和光泽度特点，利用人工将珍珠分类；使用高清摄像头拍摄珍珠的俯视图、左视图、右视图、主视图和后视图，形成多视角珍珠图像数据集。

3.如权利要求1所述的一种基于多视角图像扩增的类不平衡珍珠分类方法，其特征在于，所述步骤2)的过程为：

步骤2.1：数据归一化处理

步骤2.2：划分数据集

4.如权利要求1所述的一种基于多视角图像扩增的类不平衡珍珠分类方法，其特征在于，所述步骤3)的过程为：

步骤3.1：建立多视角生成对抗网络MVWGAN-GP模型

根据珍珠图像数据多视角的特点，建立MVWGAN-GP模型，MVWGAN-GP模型由生成器G和判别器D两部分组成，生成器用于生成使判别器难辨真假的多视角图像，判别器则用于识别其输入是真实样本还是生成样本；

表示采样分布，

ε表示插值参数；D(.)表示判别器的输出；

表示判别器梯度2范数；E表示期望；λ表示惩罚系数；

将原始训练集中的少数类样本作为训练集，训练MVWGAN-GP模型，通过生成器G和判别器D的博弈训练，最终生成器能够生成使判别器无法判别真假的样本，此时生成器已经学习到了真实样本的分布，能够产生以假乱真的样本；

5.如权利要求1所述的一种基于多视角图像扩增的类不平衡珍珠分类方法，其特征在于，所述步骤4)的过程为：

步骤4.1：建立多流卷积神经网络MS-CNN模型

根据珍珠图像多视角的特点，建立MS-CNN模型，MS-CNN拥有多个分支，每个分支对应于输入图像的其中一个视图，用于提取特征，各分支之间参数共享，减少训练参数，以减少存储空间和加快训练速度，将各个分支提取的特征向量相加后，通过多个全连接层得到类别的概率分布；

步骤4.2：训练多流卷积神经网络MS-CNN模型

使用MVWGAN-GP平衡后的珍珠数据集训练MS-CNN模型；

错误率E指分类错误的样本占样本总数的比例，定义如下：

式中：N表示测试集样本总量；f(x_i)表示输入样本x_i的预测类别；y_i表示输入样本x_i的真实类别；I(.)表示指示函数，当预测类别与真实类别一致时，指示函数值为1，否则为0，错误率越低，说明模型分类准确率越高，模型性能更好；

相对提高率可表示为：