CN111582337A

CN111582337A - 基于小样本细粒度图像分析的草莓畸形状态检测方法

Info

Publication number: CN111582337A
Application number: CN202010331181.1A
Authority: CN
Inventors: 阳媛; 陈昊星; 柳军; 蔡昊天; 李潍
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-08-25

Abstract

针对草莓栽培智能监测及采摘状态识别和品质评估的需求，本发明提供一种基于小样本细粒度图像分析的草莓畸形状态检测方法，包括基于RGB摄像头草莓图像数据集采集、草莓目标检测及标记、图像划分及预处理、将小样本草莓图像细微特征获取、草莓图像细粒度畸变级别的训练分类。该细粒度级别的草莓图像识别方法，与传统的作物生长监测分类方法相比，可以大幅降低训练识别所需的图像数量和标记类型，完成对具有小样本草莓图像通过前向推理得出辨别性语义细微特征样本集和训练查询集图像的特征信息，从而完成草莓目标检测、草莓畸变级别判断、植株病况分析、生长建模及预测。

Description

基于小样本细粒度图像分析的草莓畸形状态检测方法

技术领域

本发明涉及模式识别领域，尤其是一种基于小样本细粒度图像分析的草莓畸形状态检测方法。

背景技术

利用人工智能技术来进行草莓畸变识别是农业智能化的一部分，是利用植物病理学、模式识别等技术来对草莓畸变的程度进行分析、建模，得到一个能够识别草莓畸变情况的模型，从而快速、精确地完成对草莓畸变的情况分析，为农民提供相关信息，以防止草莓畸变造成严重的经济损失。

以图像识别为主要应用对机器学习领域发展十分迅速，但用传统的机器学习技术来进行草莓畸变识别存在以下两个问题：一是传统机器学习方法需要人为选择特征，泛化性不强，例如，对于草莓畸变来说，畸变出现的位置、畸变的形状等很多因素会导致特征提取十分复杂；二是传统的方法识别步骤复杂，需要对原始图片样本进行预处理、分割、特征提取以及分类识别，其中任何一步的失误都可能影响最终的结果。近年来，以卷积神经网络为代表的深度学习方法都可以很好的解决这类问题，不需要人为选择特征，都由卷积神经网络自动完成提取。但是，卷积神经网络需要大量的标注数据来进行训练，在真实世界里，由于草莓畸变的样本量很少，我们往往面临着样本数据不足的问题，也就是小样本问题。

在解决小样本问题时常用的方法有：基于对抗生成网络的方法、基于优化的方法、基于度量学习的方法。基于对抗生成网络的方法需要大量的运算资源、并且可能会造成过拟合，基于优化的方法的训练步骤繁杂，其具有复杂的推理机制会消耗很多的时间和计算成本。而基于度量学习的方法旨在学习样本间的度量或距离函数，在小样本学习领域取得了很好的效果。但现有方法都只是将支持集图像和查询图像独立输入卷积神经网络得到特征表示，随后用于距离度量和分类，由于主要对象可能位于图像中的任何位置，因此可能会造成严重的歧义。

发明内容

本发明的目的在于克服上述不足，提供一种基于深度学习的小样本草莓畸变识别方法，能够有效的将支持集图像和查询图像进行语义对齐，摆脱了以往方法可能造成歧义的危险，从而实现高可靠度、所需样本数少的草莓畸变识别。

技术方案

基于小样本细粒度的草莓畸形状态检测方法，其特征在于，包括如下步骤：

(1)获取各类草莓畸变的彩色图像，并对每张图像中的草莓畸变级别进行标记；

(2)将(1)中的所有图像裁剪到84×84，并归一化到[-1,1]之间，以归一化后的图像及其对应标记的草莓畸变级别构成训练集，并将训练集分为训练支撑集和训练查询集，训练支撑集中将对应标记的草莓畸变级别相同的图像归为一类；

(3)基于(2)中的训练集对草莓畸变检测模型进行训练，所述草莓畸变检测模型由特征嵌入模块、语义对齐模块以及距离度量模块构成：

所述特征嵌入模块分别提取训练支撑集和训练查询集中每张图像的特征信息；

所述语义对齐模块对训练查询集中图像的特征信息和训练支撑集中某一类图像的特征信息进行语义对齐，得到两者之间的关系矩阵；

所述距离度量模块计算训练支撑集中某一类图像和训练查询集中图像之间的相似度；

(4)将待识别的草莓畸变图像输入到(3)中训练好的草莓畸变检测模型中，得出该图像的畸变级别。

进一步，(3)中基于训练集对草莓畸变检测模型进行训练，具体为：

(3.1)建立包括四个卷积块的特征嵌入模块，进行特征提取：

(3.1.1)每个卷积块中都含有一个卷积层，卷积核的大小均设置为3×3；第一个卷积块中卷积层的输入为训练集中的图像，输出的特征图通道数为64，填充为0，步长为1；第二、三、四个卷积层的输入均为64通道特征图，输出的特征图通道数为64，填充为0，步长为1；

(3.1.2)第一个和第二个卷积块中，卷积层的输出再依次经过批标准化、最大值池化层和ReLU激活函数进行处理；第三和第四个卷积块中，卷积层的输出再依次经过批标准化和ReLU激活函数进行处理；其中批标准化的参数动量的值设为1，最大值池化层的核大小设为2×2、步长为2；

(3.1.3)利用平均池化层对第四个卷积块输出的特征图进行处理，核大小设为5×5，步长为5；

(3.2)利用语义对齐模块，计算训练查询集中图像的特征信息和训练支撑集中某一类图像的特征信息之间的关系矩阵：

(3.2.1)初始关系矩阵R的第(i,j)个元素r_i,j定义为特征嵌入模块提取的训练查询集中图像的特征图的第i个局部特征描述子

和第m类训练支撑集中图像的特征图的第j个局部特征描述子

在余弦距离度量下的计算结果：

其中，

H和W分别代表特征图的长和宽，

θ_i,j代表bⁱ和

之间的角度；

(3.2.2)对R进行重加权，得到关系矩阵R′，其第(i,j)个元素r′_i,j为：

其中，

(3.3)建立包括4层全连接层和softmax函数的距离度量模块，计算查询集中图像属于训练支撑集中某一类图像的概率：

(3.3.1)将HW×HW的二维关系矩阵R′展平为大小是HW*HW的一维向量作为第一层全连接层的输入，第一次全连接层输出的神经元个数为1024，随后用ReLU激活函数对神经元进行处理；

(3.3.2)第二层全连接层的输入神经元个数是1024，输出神经元个数为256，随后用ReLU激活函数对神经元进行处理；

(3.3.3)第三层全连接层的输入神经元个数是256，输出神经元个数为64，随后用ReLU激活函数对神经元进行处理；

(3.3.4)第四层全连接层的输入神经元个数是64，输出神经元个数为1，得到查询集中图像和训练支撑集中某一类图像之间的相似性得分；

(3.3.5)查询集中图像和训练支撑集中各个类别图像之间的相似性得分构成一个向量，输入softmax函数计算查询集中图像属于某一类的概率：

其中，p_m代表查询集中图像属于第m类的概率，m,m′∈{1,…,M}，c_m、c_m′分别表示查询集中图像和训练支撑集中第m类、第m′类图像之间的相似性得分，M表示训练支撑集中图像的类别数；

(3.4)建立草莓畸变检测模型的损失函数：

其中，I(·)是指示函数，当“·”为真时I(·)值为1，反之为0；对于查询集中任意一张查询集中的图像x_n，y_n代表x_n的真实标签，T代表查询集中每个类别的图像的数目；

(3.5)在训练的过程中，采用Adam学习策略，根据损失函数L值的大小，反复更新(3.1)中的卷积块和(3.3)中的全连接层的网络权值参数，设置学习率为λ，网络需要训练迭代的次数为e，当网络迭代e次后结束训练。网络训练的过程中会不断优化各部分的权重参数，最终使得loss逐渐的变小最终趋于0，使网络能够对同一类别的图像输出的概率为1或趋近于1，不同类别图像输出的概率为0或趋近于0。

技术效果

与现有技术相比本发明的有益效果是：

本发明为基于深度学习的小样本草莓畸变识别方法。利用本发明提供的方案，通过特征嵌入表示模块进行图像特征信息提取，然后将提取的查询图像的特征信息分别与每个类别支持集图像的特征进行交互，从而对齐语义相关的主要对象，最后通过距离度量模块进行网络的非线性度量学习，通过4层MLP将语义对齐模块的输出映射到相应的相似度评分，最后通过比较查询图像和每个类别支持集之间生成的相似度评分的大小，确定查询图像所属的草莓畸变级别。本发明的方法相比其他算法对输入的查询图像和已有的样本的特征进行了语义对齐，提高了识别的准确率，同时，由于本发明的方法为小样本学习算法，因此缓解了真实世界中草莓畸变样本数据量小的问题，具有更好的应用前景和适应性。

附图说明：

图1为基于深度学习的小样本草莓畸变识别算法实施过程示意图；

图2为基于深度学习的小样本草莓畸变识别算法结构示意图；

图3为特征嵌入模块示意图；

图4为语义对齐模块示意图；

图5为距离度量模块示意图。

具体实施方式：

下面对本发明进行进一步说明。

本发明方法实现的是一种基于度量学习的端到端的网络模型，将模型分为特征嵌入表示模块、语义对齐模块和距离度量模块三部分，第一部分特征嵌入表示的作用是进行图像特征信息提取，本发明在此采用四层卷积块的方式实现对图像对特征提取。第二部分是将提取的查询图像的特征信息分别与每个类别支持集图像的特征进行交互，从而对齐语义相关的主要对象。第三部分距离度量模块进行网络的非线性度量学习，通过三层MLP将语义对齐模块的输出映射到相应的相似度评分，最后通过比较查询图像和每个类别支持集之间生成的相似度评分的大小，确定查询图像所属的类别。

基于小样本细粒度图像分析的草莓畸形状态检测方法，如图2所示，具体步骤如下：

(1)图像采集，本发明主要针对的是图像数据的分类，因此在训练模型时需要对数据集进行获取。我们采用彩色摄像头获取各类草莓畸变的图像，同时对每张图像中草莓畸变级别进行标记。

(2)将标记好的数据集分成三个数据集，分别为:训练集(占总数据集的60％左右)，测试集(占总数据集的20％左右)，以及验证集(占总数据集的20％左右)。为了更好的进行模型的训练，本发明进一步将已标记的训练集图像分为训练样本集S和训练查询集Q。在训练时，从训练集图像中随机抽取C个类别，每个类别抽取K张图片组成训练样本集S，然后将这C个类别剩余的图像作为训练查询集Q，从C个类别选取K张已标记的图像的训练任务称为C类K样本(C-way K-shot)任务。

(3)图像预处理，将所有的图像都裁剪到84×84，并进行归一化到[-1,1]之间。

(4)基于训练集对草莓畸变检测模型进行训练。

(4.1)建立特征嵌入模块，提取得到训练样本集和训练查询集图像的特征信息，特征嵌入模块的结构如图3所示。卷积神经网络具有很强的特征表示能力，因此在基于深度学习的图像任务中被广泛使用。本发明建立的特征嵌入模块利用卷积神经网络实现对少量有标签样本的图像特征进行提取。

具体实施时，本发明所建立的特征嵌入模块包括四个卷积块。特征嵌入模块的具体构建步骤如下：

特征嵌入模块的四个卷积块中，每个卷积块都含有一个卷积层。四个卷积块都含有的操作有卷积层运算、批标准化以及ReLU激活函数层，此外前两个卷积块在批标准化后还含有最大值池化操作。在最后一个卷积块后，我们加入了一个平均池化操作，下面将在步骤(4.1.1)-步骤(4.1.5)对上述的5种操作进行介绍：

(4.1.1)卷积层：第一卷积模块的卷积层的输入是训练集图像x_t，若训练集数据为RGB图像，则输入特征图通道数为3；若训练集数据为灰色图像，则输入特征图通道数为1；卷积核(kernel size)大小设置为3×3,输出的特征图通道数为64，填充(padding)为0，步长为1。第二、三、四卷积模块的卷积层设置相同，输入为64通道特征图，卷积核小设置为3×3,输出的特征图通道数为64，填充为0，步长为1。

(4.1.2)利用批标准化对卷积层的输出进行处理，其中批标准化的参数动量的值设为1。

(4.1.3)利用ReLU激活函数对批标准化或最大值池化层的输出进行处理，ReLU激活函数的表示如下：

(4.1.4)对于第一卷积块和第二卷积块需要加入最大值池化层，核大小设为2×2，步长为2。第三卷积块和第四卷积块不设置最大池化层。

(4.1.5)在第四卷积块后，利用平均池化层对特征图进行处理，核大小设为5×5，步长为5。

通过特征嵌入模块对每一张查询图像x_t进行卷积运算，我们可以得到每张图片的特征表示

其中

是卷积神经网络的函数表示，

是卷积神经网络中的所有参数，C，H和W分别代表所提取出的特征表示的通道数、特征图(feature map)的长和宽。通过特征嵌入模块我们将所有的图像映射到一个表示空间，每张图像的特征表示都有H×W个C维的元，每个元可以看作一个局部特征描述子(LRF)。考虑C-way K-shot设定下的图像识别任务，当K>1时，每个类别的支持集都含有1个以上的样本，这时我们需要从每类的K个样本中抽取出这一类的特征表示，在这里，我们采用K个样本的特征平均值来表示这一类样本的特征：

其中，P^m是第m类支持集的特征表示，S^m是第m类支持集的样本，x_t,y_t分别表示第i张图像和它对应的标记。和单张图像一样，支持集的特征表示P^m也属于表示空间：

特征表示P^m也可看做由H×W个C维的局部特征描述子构成。

为了表示方便，我们记P^m的H×W个局部特征描述子为

的H×W个局部特征描述子为

(4.2)利用语义对齐模块将提取的查询图像的特征信息分别与每个类别支持集图像的特征进行交互，从而对齐语义相关的主要对象，语义对齐模块的结构如图4所示。

(4.2.1)计算经过步骤2所提取出的支持集和查询图像特征的所有特征描述子组成的特征描述子对的距离。所有距离组成的矩阵称为关系矩阵R(Relation Matrix,RM)，并根据空间索引进行排列。例如，R的第(i,j)个元素r_i,j定义为查询图像的第i个局部特征描述子

和第m类支撑集的第j个局部特征描述子

在余弦距离度量g下的计算结果：

其中r_i,j是描述两个局部特征描述子之间相似度的标量，余弦距离度量g定义为两个特征之间角度的余弦：

(4.2.2)对关系矩阵R进行重加权。R包含了语义相关的局部区域的距离，同时也包含了语义上不相关的局部区域的距离，而注意力机制可以增强关键对象，同时抑制无关背景。通过使用注意力机制，我们可以更加关注语义相关的局部特征描述子对，在这里，我们选择了基于激活的注意力机制，其中每个局部特征描述子对应的注意力值a被定义为：

我们将距离r_i,j重定义为：

这样，可以抑制语义上不相关局部区域的距离，同时增强语义相关区域的距离，从而实现语义对齐。

(4.3)通过语义对齐模块，我们得到重加权的关系矩阵R′，在距离度量模块，我们将通过关系矩阵计算出某一类支持集图像和查询图像之间的相似度，距离度量模块的结构如图5所示。本发明具体实施时，距离度量模块由4层全连接层和softmax函数构成，各层的设置如下：

(4.3.1)FC1层是距离度量模块的全连接层的第一层，该层的输入是将大小为HW×HW的二维关系矩阵R∶展平后的大小为HW*HW的一维向量，H和W分别为经过特征嵌入模块后特征图的长和宽，输出神经元个数为1024，随后用ReLU激活函数对神经元进行处理。

(4.3.2)FC2层是距离度量模块的全连接层的第二层，该层的输入神经元个数是1024，输出神经元个数为256，随后用ReLU激活函数对神经元进行处理。

(4.3.3)FC3层是距离度量模块的全连接层的第三层，该层的输入神经元个数是256，输出神经元个数为64，随后用ReLU激活函数对神经元进行处理。

(4.3.4)FC4层是距离度量模块的全连接层的第四层，该层的输入神经元个数是64，输出神经元个数为1，通过FC4我们得到了第m类支持集图像和查询图像之间的相似性得分c_m。

(4.3.5)对于每一个查询图像x_t，有M个相似度得分c_m分别代表各个类别支持集和该查询图像的相似度。连接所有M个相似度得分以构成一个向量，再输入softmax函数计算查询x_t属于第m类的概率：

其中，p_m代表查询集中图像属于第m类，m,m′＝1,…,M，c_m、c_m′分别表示查询集中图像和训练支撑集中第m类、第m′类图像之间的相似性得分，M表示训练支撑集中图像的类别数.

(4.4)建立草莓畸变检测模型的损失函数

基于(4.3.5)中的概率，我们定义损失函数(loss function)为：

其中，I(·)是指示函数，当其中的内容为真时值为1，反之为0，对于查询集中任意一张查询图像x_n，y_n代表x_n的真实标记，T代表查询集中图像的数目。

网络在训练的过程中，采用Adam学习策略，根据loss值的大小，反复更新步骤(4.1)中的卷积块和(4.3)中的全连接层中的网络权值参数，设置学习率为λ，网络需要训练迭代的次数为e，当网络迭代e次后结束训练。网络训练的过程中会不断优化各部分的权重参数，最终使得loss逐渐的变小最终趋于0，使网络能够对同一类别的图像输出的概率为1或趋近于1，不同类别图像输出的概率为0或趋近于0。

(5)将待识别的草莓畸变图像输入到训练好的草莓畸变检测模型中，通过前向推理得出该图像的畸变级别。

本发明实施过程及实施例如下：

(1)图像采集，本发明主要针对的是图像数据的分类，因此在训练模型时需要对数据集进行获取。我们采用彩色摄像头获取各类草莓畸变的图像，然后对图像进行重命名，如00001.jpg,00002.jpg,…,20000.jpg，同时对每张图像中草莓畸变级别进行标记，一共包含15个级别。

(2)图像划分，将图像划分为训练集、验证集和测试集三部分，其中训练集10类、验证集2类，测试集3类。

(4)基于训练集对模型进行训练。具体实施中，共设置40个迭代周期，每个迭代周期含有100个C-way K-shot的子任务，我们分别进行5-way 1-shot和5-way 5-shot两种子任务的学习，在每个5-way 1-shot的子任务学习中，从训练集中随机抽取5个畸变级别，支持集中每个级别只有1个样本，查询集每个级别包含15个样本，则每个子任务包含80张图片，在每个5-way1-shot的子任务学习中，从训练集中随机抽取5个畸变级别，支持集中每个级别有5个样本，查询集每个级别包含15个样本，则每个子任务包含100张图片，学习率初始化为0.001，每10个迭代周期衰减10倍。训练结束后，保存训练好的模型。

(5)草莓畸变检测，将测试集中待识别的草莓畸变图像输入到训练好的草莓畸变检测模型中，通过前向推理得出该图像的草莓畸变级别。