CN114511849B

CN114511849B - 一种基于图注意力网络的葡萄疏果识别方法

Info

Publication number: CN114511849B
Application number: CN202111666428.6A
Authority: CN
Inventors: 苏家仪; 韦光亮; 王筱东; 张玉国; 申智辉; 顾小宁
Original assignee: Guangxi Talentcloud Information Technology Co ltd
Current assignee: Guangxi Talentcloud Information Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2024-05-17
Anticipated expiration: 2041-12-30
Also published as: CN114511849A

Abstract

本发明属于及葡萄图像识别领域，特别涉及一种基于图注意力网络的葡萄疏果识别方法。本发明通过实例分割算法得到葡萄果粒的分割结果，根据葡萄果粒自身特征与果粒之间的关联特征建立图结构，其中，果粒的自身特征用果粒位置与尺寸信息表示，通过图注意力网络学习得到大小一致性特征，果粒之间的关联特征用果粒距离表示，通过图注意力网络学习得到果粒间隙特征，使用图注意力网络进行葡萄疏果整图分类，挖掘果粒图结构与是否疏果的判断之间存在的关联性，实现葡萄疏果识别。与现有葡萄疏果识别做法相比，提高了葡萄疏果自动识别的准确性。

Description

一种基于图注意力网络的葡萄疏果识别方法

技术领域

本发明属于及葡萄图像识别领域，特别涉及一种基于图注意力网络的葡萄疏果识别方法。

背景技术

葡萄疏果是葡萄种植过程中一项非常重要的农事操作，通常在开花坐果期进行疏果，使用剪刀除去病虫害、畸形、尺寸较小的果粒，因为这些果粒消耗养分，影响其它果粒正常生长，导致果粒大小不一，果形不整齐，最终影响果品，降低经济效益。

判断园区葡萄的疏果情况对于规模化葡萄种植企业非常重要，传统的做法是人工巡园，统计果穗的疏果率，这种方式费时费力，效率较低。随着智能农机的发展，无人巡园车可替代人工巡园，通过摄像头采集葡萄图片，进行疏果识别与统计分析。

基于通用图像分类的疏果识别方法，将葡萄果穗图像分为已疏果与未疏果两类，标注人员通过观察果粒大小一致性与果粒间隙进行二分类标注，但基于通用卷积神经网络的模型难以学习果粒大小一致性与果粒间隙这两个关键的非量化特征，识别正确率较低。

发明内容

为了解决上述问题，本发明提供了一种基于图注意力网络的葡萄疏果识别方法，通过实例分割算法得到葡萄果粒的分割结果，根据葡萄果粒自身特征与果粒之间的关联特征建立图结构，其中，果粒的自身特征用果粒位置与尺寸信息表示，通过图注意力网络学习得到大小一致性特征，果粒之间的关联特征用果粒距离表示，通过图注意力网络学习得到果粒间隙特征，使用图注意力网络进行葡萄疏果整图分类，挖掘果粒图结构与是否疏果的判断之间存在的关联性，实现葡萄疏果识别。具体技术方案如下：

一种基于图注意力网络的葡萄疏果识别方法，包括以下步骤：

步骤S1，实例分割数据集制作：采集葡萄果穗图片数据，并对果粒进行实例分割标注，用标注工具标注葡萄果穗图片中每颗果粒的多边形区域，将采集的葡萄果穗图片数据划分为训练集、验证集与测试集；

步骤S2，图注意力网络数据集制作：对步骤S1中的训练集、验证集分别进行疏果分类标注，标注人员对葡萄果穗图片进行分析判断，标注为已疏果或未疏果，并建立图结构，得到图注意力网络模型的训练集与验证集；所述葡萄果穗图片为一个完全图，设该完全图包括N个顶点，所有顶点由一条边相互连接，每个顶点代表一个果粒；

步骤S3，实例分割模型训练：将步骤S1中的训练集输入实例分割模型中进行训练，训练过程中，将步骤S1中的验证集输入至训练好的实例分割中间模型进行验证；当训练好的实例分割中间模型的识别正确率大于等于预设值时，则将训练好的实例分割中间模型作为最终的实例分割模型输出，若是实例分割中间模型的识别正确率小于预设值，则重复步骤S3，直至训练好的实例分割中间模型的识别正确率大于等于预设值；

步骤S4，图注意力网络构建：构建图注意力网络模型，所述图注意力网络包括输入层、图注意力模块、输出层；所述输入层为包含顶点特征的图结构，每个顶点包含F个特征，所述特征至少包括归一化后的果粒中心点的横坐标、归一化后的果粒中心点的纵坐标、归一化后的果粒像素面积；通过归一化后的果粒像素面积表征果粒大小一致性，通过归一化后的果粒之间的距离表征果粒间隙；所述归一化后的果粒之间的距离通过归一化后的果粒中心点的横坐标、归一化后的果粒中心点的纵坐标计算得到；

所述图注意力模块通过多头注意力机制加权求和的方式实现特征学习；所述输出层用于对葡萄是否疏果进行识别；

步骤S5，图注意力网络损失函数构建：采用交叉熵作为整图分类训练的损失函数；

步骤S6，图注意力网络模型训练：将步骤S2中处理好的图注意力网络训练集输入至步骤S4中构建的图注意力网络模型，并采用步骤S5构建的损失函数进行监督训练，训练过程中，将步骤S2中的图注意力网络验证集输入至训练好的图注意力网络中间模型进行验证；

当训练好的图注意力网络中间模型的识别正确率大于等于预设值时，则将训练好的图注意力网络中间模型作为最终的图注意力网络模型输出，若是图注意力网络中间模型的识别正确率小于预设值，则重复步骤S6，直至训练好的图注意力网络中间模型的识别正确率大于等于预设值；

步骤S7，模型推理：将步骤S1中的测试集的葡萄果穗图片输入至步骤S3中训练好的实例分割模型进行推理，得到实例分割结果；对实例分割结果进行图结构的特征选择，最后将图结构及其特征输入至步骤S6中训练好的图注意力网络模型进行判断是否疏果，最终得到葡萄疏果整图分类结果。

优选地，所述步骤S1中将采集的葡萄果穗图片数据按照0.8：0.1：0.1的比例划分为训练集、验证集与测试集。

优选地，所述步骤S2中图注意力网络数据集制作具体包括：采用opencv的convexHull函数对步骤S1中每张葡萄果穗图片对应的实例分割标注计算出果穗轮廓，通过contourArea函数得到果穗轮廓的面积A，通过minAreaRect函数计算得到果穗轮廓的宽w和果穗轮廓的高h；通过opencv的moments函数计算得到果粒中心点横坐标x；通过opencv的moments函数计算得到果粒中心点纵坐标y；通过opencv的contourArea函数计算得到单个果粒的像素面积a。

优选地，所述步骤S3中采用的实例分割模型选择ResNet-50的Mask R-CNN模型。

优选地，所述步骤S4中输入层的特征通过以下方式计算，具体为：

所述归一化后的果粒中心点的横坐标通过以下公式计算：

其中，x为葡萄果穗图片中果粒中心的横坐标，w为葡萄果穗图片中果穗轮廓的宽；

所述归一化后的果粒中心点的纵坐标通过以下公式计算：

其中，y为葡萄果穗图片中果粒中心的纵坐标，h为葡萄果穗图片中果穗轮廓的高；

所述归一化后的果粒像素面积通过以下公式计算：

其中，a为葡萄果穗图片中单个果粒的像素面积，A为葡萄果穗图片中果穗轮廓的面积。

优选地，所述步骤S4中图注意力模块包括L个堆叠的图注意力层，第l+1个图注意力层第i个顶点维度为F^l+1的新特征向量采用以下公式计算得到：

其中，K表示多头注意力机制的头数；N_i表示第i个顶点的邻居顶点的集合，为第l个图注意力层第k个头中顶点i和顶点j的注意力系数；W^lk表示第l个图注意力层第k个头的权重矩阵；/>表示第l个图注意力层第j个顶点维度为F^l的特征向量；

所述第k个头中顶点i和顶点j的注意力系数通过以下公式计算得到：

其中，表示第l个图注意力层第i个顶点维度为F^l的特征向量；/>表示注意力权重向量；运算符||表示特征拼接；λ_ij表示第i个果粒和第j个果粒归一化后的距离；

所述第i个果粒和第j个果粒归一化后的距离λ_ij通过以下公式计算：

其中，x_i、x_j分别表示葡萄果穗图片中第i个果粒中心点和第j个果粒中心点的横坐标；y_i、y_j分别表示葡萄果穗图片中第i个果粒中心点和第j个果粒中心点的纵坐标。

优选地，所述步骤S4中输出层包括1个用于分类的全连接层，类别数为C，葡萄疏果识别为二分类任务，C＝2，将图注意力模块的最后一个图注意力层的输出特征与全连接层的权重矩阵进行矩阵相乘运算，并通过sigmoid激活函数σ归一化到0～1，最终得到葡萄已疏果与未疏果的概率，计算方式如下：

p_c＝σ(W_fcM)； (7)

其中，p_c表示识别为类别c的概率，范围是0～1，c＝1,2；W_fc表示全连接权重矩阵；M表示图注意力模块的最后一个图注意力层的输出特征所有顶点的特征均值向量。

优选地，所述步骤S5中的损失函数具体如下：

其中，C表示类别数，C＝2，c＝1,2；q_c表示第c个类别的one-hot编码的分类标签，q_c∈{0,1}，当c为真实类别时q_c＝1，否则q_c＝0；p_c表示识别为类别c的概率，范围是0～1。

本发明的有益效果为：本发明提供了一种基于图注意力网络的葡萄疏果识别方法，与现有葡萄疏果识别做法相比，利用实例分割与图注意力网络整图分类算法，通过归一化后的果粒像素面积表征果粒大小一致性，通过归一化后的果粒之间的距离表征果粒间隙，挖掘果粒图结构与是否疏果的判断之间存在的关联性，提高葡萄疏果自动识别的准确性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明的流程示意图；

图2为本发明的图注意力网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，本发明的具体实施方式提供了一种基于图注意力网络的葡萄疏果识别方法，包括以下步骤：

步骤S1，实例分割数据集制作：采集葡萄果穗图片数据，并对果粒进行实例分割标注，用标注工具标注葡萄果穗图片中每颗果粒的多边形区域，将采集的葡萄果穗图片数据划分为训练集、验证集与测试集；具体将采集的葡萄果穗图片数据按照0.8：0.1：0.1的比例划分为训练集、验证集与测试集。

步骤S2，图注意力网络数据集制作：对步骤S1中的训练集、验证集分别进行疏果分类标注，标注人员对葡萄果穗图片进行分析判断，标注为已疏果或未疏果，对步骤S1中每张葡萄果穗图片对应的实例分割标注建立果穗图结构，得到图注意力网络模型的训练集与验证集。所述葡萄果穗图片为一个完全图，所有顶点由一条边相互连接，每个顶点代表一个果粒；设该完全图包括N个顶点，E表示边数，边数E通过以下公式计算得到：

图注意力网络数据集制作具体包括：采用opencv的convexHull函数对步骤S1中每张葡萄果穗图片对应的实例分割标注计算出果穗轮廓，通过contourArea函数得到果穗轮廓的面积A，通过minAreaRect函数计算得到果穗轮廓的宽w和果穗轮廓的高h；通过opencv的moments函数计算得到果粒中心点横坐标x；通过opencv的moments函数计算得到果粒中心点纵坐标y；通过opencv的contourArea函数计算得到单个果粒的像素面积a。

步骤S3，实例分割模型训练：将步骤S1中的训练集输入实例分割模型中进行训练，训练过程中，将步骤S1中的验证集输入至训练好的实例分割中间模型进行验证；当训练好的实例分割中间模型的识别正确率大于等于预设值时，则将训练好的实例分割中间模型作为最终的实例分割模型输出，若是实例分割中间模型的识别正确率小于预设值，则重复步骤S3，直至训练好的实例分割中间模型的识别正确率大于等于预设值。具体采用的实例分割模型选择ResNet-50的Mask R-CNN模型。

步骤S4，图注意力网络构建：构建图注意力网络模型，所述图注意力网络包括输入层、图注意力模块、输出层；所述输入层为包含顶点特征的图结构，每个顶点包含F个特征，所述特征至少包括归一化后的果粒中心点的横坐标、归一化后的果粒中心点的纵坐标、归一化后的果粒像素面积；通过归一化后的果粒像素面积表征果粒大小一致性，通过归一化后的果粒之间的距离表征果粒间隙；所述归一化后的果粒之间的距离通过归一化后的果粒中心点的横坐标、归一化后的果粒中心点的纵坐标计算得到。

输入层的特征通过以下方式计算，具体为：

所述归一化后的果粒中心点的横坐标通过以下公式计算：

所述归一化后的果粒中心点的纵坐标通过以下公式计算：

所述归一化后的果粒像素面积通过以下公式计算：

所述图注意力模块通过多头注意力机制加权求和的方式实现特征学习；具体如下：

图注意力模块包括L＝3个堆叠的图注意力层，第l+1个图注意力层第i个顶点维度为F^l+1的新特征向量通过多头注意力机制加权求和的方式实现特征学习，将ELU激活函数作用于多头注意力机制，引入非线性，具体采用以下公式计算得到：

其中，l∈{1,…,L}，K表示多头注意力机制的头数，在本实施例中K＝8；N_i表示第i个顶点的邻居顶点的集合，因步骤S2中构建的葡萄果穗图结构为完全图，故顶点i的邻居顶点为图结构上的所有顶点；/>为第l个图注意力层第k个头中顶点i和顶点j的注意力系数，/>W^lk表示第l个图注意力层第k个头的权重矩阵，/> 表示第l个图注意力层第j个顶点维度为F^l的特征向量，/>F^l表示第l个图注意力层的输入维度，F^l+1表示第l+1个图注意力层的输出维度。

第l个图注意力层第k个头中顶点i和顶点j的注意力系数通过以下公式计算得到：

其中，表示第l个图注意力层第i个顶点维度为F^l的特征向量，/> 表示注意力权重向量，/>运算符||表示特征拼接；λ_ij表示第i个果粒和第j个果粒之间的权重，通过归一化后的果粒之间的距离表示，为针对葡萄果粒间隙特征引入的先验知识；顶点i和顶点j之间的相关性，/>LeakyReLU激活函数为相关性学习引入非线性，且使用softmax进行归一化操作，即公式(6)中的exp部分。

其中，x_i、x_j分别表示第i个果粒中心点和第j个果粒中心点的横坐标；y_i、y_j分别表示第i个果粒中心点和第j个果粒中心点的纵坐标。

图注意力模块如图2所示，输入层的输出尺寸为(B,N,F¹)，B表示单次迭代的样本批次数量，N表示葡萄果穗图片的完全图的顶点数，在本实施例中F¹＝3，即在第一个图注意力层中，每个顶点包含3个特征，分别为归一化后的果粒中心点的横坐标、归一化后的果粒中心点的纵坐标、归一化后的果粒像素面积，当然也可以包括其他特征，即F¹＞3，则：

第1个图注意力层的输入尺寸为(B,N,F¹)，第1个图注意力层的权重矩阵W¹尺寸为(F¹,F²K)，第1个图注意力层的输出尺寸为(B,N,F²K)；

第2个图注意力层的输入尺寸为(B,N,F²K)，第2个图注意力层的权重矩阵W²尺寸为(F²K,F³K)，第2个图注意力层的输出尺寸为(B,N,F³K)；

第3个图注意力层的输入尺寸为(B,N,F³K)，第3个图注意力层的权重矩阵W³尺寸为(F³K,F³K)，第3个图注意力层的输出尺寸为(B,N,F³K)；

在本实施例中，F²＝256，F³＝256，表示图注意力网络模型自主学习的隐层特征维度，最后一层的输入尺寸与输出尺寸相同。

所述输出层用于对葡萄是否疏果进行识别；输出层包括1个用于分类的全连接层，类别数为C，葡萄疏果识别为二分类任务，C＝2，将图注意力模块的最后一个图注意力层，即第3个图注意力层的输出特征与全连接层的权重矩阵进行矩阵相乘运算，并通过sigmoid激活函数σ归一化到0～1，最终得到葡萄已疏果与未疏果的概率，计算方式如下：

p_c＝σ(W_fcM)； (8)

其中，p_c表示识别为类别c的概率，范围是0～1，c＝1,2；W_fc表示线性变换层权重矩阵，M表示图注意力模块的最后一个图注意力层的输出特征所有顶点的特征均值向量，通过dgl.mean_nodes函数对图注意力模块的最后一个图注意力层的输出特征计算所有顶点的特征均值得到，/>最终经过矩阵相乘以及激活函数计算得到尺寸为(B,C)的分类结果p_c。

步骤S5，图注意力网络损失函数构建：采用交叉熵作为整图分类训练的损失函数；损失函数具体如下：

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的实施例中，应该理解到，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元可结合为一个单元，一个单元可拆分为多个单元，或一些特征可以忽略等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于图注意力网络的葡萄疏果识别方法，其特征在于：包括以下步骤：

所述图注意力模块通过多头注意力机制加权求和的方式实现特征学习；所述输出层用于对葡萄是否疏果进行识别；所述步骤S4中图注意力模块包括L个堆叠的图注意力层，第l+1个图注意力层第i个顶点维度为F^l+1的新特征向量采用以下公式计算得到：

其中，x_i、x_j分别表示葡萄果穗图片中第i个果粒中心点和第j个果粒中心点的横坐标；y_i、y_j分别表示葡萄果穗图片中第i个果粒中心点和第j个果粒中心点的纵坐标；

所述步骤S4中输出层包括1个用于分类的全连接层，类别数为C，葡萄疏果识别为二分类任务，C＝2，将图注意力模块的最后一个图注意力层的输出特征与全连接层的权重矩阵进行矩阵相乘运算，并通过sigmoid激活函数σ归一化到0～1，最终得到葡萄已疏果与未疏果的概率，计算方式如下：

p_c＝σ(W_fcM)； (7)

其中，p_c表示识别为类别c的概率，范围是0～1，c＝1,2；W_fc表示全连接权重矩阵；M表示图注意力模块的最后一个图注意力层的输出特征所有顶点的特征均值向量；

2.根据权利要求1所述的一种基于图注意力网络的葡萄疏果识别方法，其特征在于：所述步骤S1中将采集的葡萄果穗图片数据按照0.8：0.1：0.1的比例划分为训练集、验证集与测试集。

3.根据权利要求1所述的一种基于图注意力网络的葡萄疏果识别方法，其特征在于：所述步骤S2中图注意力网络数据集制作具体包括：采用opencv的convexHull函数对步骤S1中每张葡萄果穗图片对应的实例分割标注计算出果穗轮廓，通过contourArea函数得到果穗轮廓的面积A，通过minAreaRect函数计算得到果穗轮廓的宽w和果穗轮廓的高h；通过opencv的moments函数计算得到果粒中心点横坐标x；通过opencv的moments函数计算得到果粒中心点纵坐标y；通过opencv的contourArea函数计算得到单个果粒的像素面积a。

4.根据权利要求1所述的一种基于图注意力网络的葡萄疏果识别方法，其特征在于：所述步骤S3中采用的实例分割模型选择ResNet-50的Mask R-CNN模型。

5.根据权利要求1所述的一种基于图注意力网络的葡萄疏果识别方法，其特征在于：所述步骤S4中输入层的特征通过以下方式计算，具体为：

所述归一化后的果粒中心点的横坐标通过以下公式计算：

其中，x为葡萄果穗图片中果粒中心点的横坐标，w为葡萄果穗图片中果穗轮廓的宽；

所述归一化后的果粒中心点的纵坐标通过以下公式计算：

其中，y为葡萄果穗图片中果粒中心点的纵坐标，h为葡萄果穗图片中果穗轮廓的高；

所述归一化后的果粒像素面积通过以下公式计算：

6.根据权利要求1所述的一种基于图注意力网络的葡萄疏果识别方法，其特征在于：所述步骤S5中的损失函数具体如下：