CN114399108A

CN114399108A - 一种基于多模态信息的茶园产量预测方法

Info

Publication number: CN114399108A
Application number: CN202210037420.1A
Authority: CN
Inventors: 丁洁; 李旭芬
Original assignee: Beijing Zhijin Future Technology Co ltd
Current assignee: Beijing Zhijin Future Technology Co ltd
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-26

Abstract

本发明公开了一种基于多模态信息的茶园产量预测方法，其步骤包括：1)获取或生成茶园数据集，其中每一个样本包含茶园图像、茶园环境数据以及产量；2)利用数据集训练茶园产量预测模型；其中，茶园产量预测模型包括茶园图像特征学习模块、环境特征学习模块、特征融合模块和全连接层；茶园图像特征学习模块用于从茶园图像中获取茶园的图像特征

环境特征学习模块用于从茶园环境数据中获取茶园的环境特征F_ω；特征融合模块将图像特征

环境特征F_ω进行融合得到特征F_C，并将特征F_C输入全连接层预测茶园的茶叶产量；3)对于一待预测茶园，将其图像数据、环境数据输入到训练好的茶园产量预测模型，得到该待预测茶园的茶叶产量。

Description

一种基于多模态信息的茶园产量预测方法

技术领域

本发明属于茶叶生产领域，特别涉及一种基于多模态信息的茶园产量预测方法。用于对茶的产量进行预测和估计。

背景技术

目前，茶叶的需求越来越大，从事茶叶生产加工的人也越来越多。茶叶产量的精准预测一直是一个待解决的问题，有经验的茶农凭借经验可以做到大致的预测，而更多的人是很难去评估茶叶产量的。精准的预测茶叶产量，可以为后续的茶叶采摘和生产提供较为合适的规划依据。因此，一种更加精准和智能化的茶叶产量预测技术，可以为茶叶加工生产提供极大的便利。

目前针对茶叶产量预测的研究是非常少的，研究者们一般采用统计分析的方法对茶叶产量进行预测。朱秀红等人对茶叶产量的气候因子进行分析，建立了多元回归模型进行茶叶产量预测。胡克满等人提出了一种使用基于灰色神经网络的茶叶产量预测算法。刘春涛等人通过对数据筛选分析得到气温、降水量、日照时数、空气相对湿度等是影响崂山茶产量的关键气象因子。这些方法在一定程度上解决了茶叶产量预测问题，但是仍然没有充分利用茶园和茶叶的信息，在实际使用中不能够快速、方便、准确的预测茶叶产量。

深度学习由于其独特的强大学习能力已经被广泛的应用在作物生产和加工过程中，并且取得非常出色的效果。利用深度学习进行茶叶产量预测，可以使该过程更加快捷和精准。光照、温度、湿度等环境因素影响茶叶的产量，通过视觉的观察又可以直观了解茶叶的长势，因此利用多模态信息(环境因素、图像)进行茶叶产量预测，会更加的合理和准确。

发明内容

基于现有技术中存在的技术问题，本发明提出了一种基于多模态信息的茶园产量预测方法。本发明从茶园自身的基本信息出发，结合深度学习技术，从而判断出茶园的产量。本发明对于茶园产量预测更有针对性，本发明并不依靠区域性的专业数据，只需要从茶园中获取相关信息，并利用深度学习技术，即可精准、高效预测茶园的茶叶产量。更重要的是，本发明考虑实际情况，不仅考虑环境因素，也把茶园图像信息结合进去，对多模态信息进行学习，使预测结果更加合理和准确。

为了达到上述目的，本发明技术方案如下：

一种基于多模态信息的茶园产量预测方法，其步骤包括：

1)获取或生成茶园数据集，所述茶园数据集中每一个样本包含茶园图像、茶园环境数据以及对应的产量标签；

2)利用所述茶园数据集训练茶园产量预测模型；其中，所述茶园产量预测模型包括茶园图像特征学习模块、环境特征学习模块、特征融合模块和全连接层；所述茶园图像特征学习模块用于从茶园图像中获取茶园的图像特征

所述环境特征学习模块用于从茶园环境数据中获取茶园的环境特征F_ω；所述特征融合模块将所述样本的图像特征

环境特征F_ω进行融合得到特征F_C，并将特征F_C输入所述全连接层进行全连接非线性学习，预测茶园的茶叶产量；

3)对于一待预测茶园，将其图像数据、环境数据输入到训练好的茶园产量预测模型，得到该待预测茶园的茶叶产量。

进一步的，训练所述茶园产量预测模型所采用的损失函数为Loss＝L(p，q)+θL₁；其中，L₁为模态间度量损失函数，L(p，q)为产量预测损失函数，θ为超参数，p表示预测的茶叶产量，q表示实际的茶叶产量。

进一步的，所述模态间度量损失函数为

所述产量预测损失函数为L(p，q)＝-∑_x(p(x)log(q(x))+(1-p(x))log(1-q(x)))；其中，图像特征

与环境特征F_ω的特征通道数均为N，x为茶园产量预测模型的输入数据。

进一步的，每一个样本所包含的茶园图像包括一张能够获取整个茶园的全局信息的俯瞰图像和若干张获取茶园的细节信息的图像。

进一步的，所述茶园环境数据包括茶叶成熟前一个月的光照、温度、湿度、昼夜温差、空气含氧量和土壤肥力。

进一步的，茶叶成熟前一个月每六天采集一次茶园环境数据；对其取平均值作为最终的所述茶园环境数据。

进一步的，基于AlexNet网络构建所述茶园图像特征学习模块。

进一步的，所述AlexNet网络包括多个卷积层，其中将第一卷积层的卷积核大小由3×11×11调整为3m×11×11，m为样本所包含的茶园图像数量；将同一样本的m张茶园图像在通道上进行拼接后输入所述AlexNet网络的第一卷积层。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有的技术相比，本发明的积极效果如下：

一般对于作物产量预测技术，需要对作物历史产量进行建模，从而预测出产量，没有很好的使用与茶叶生长相关的信息，预测结果不够精准。本发明依托茶园的历史数据，从茶园自身信息中挖掘到与茶园产量相关的关系；本发明不仅使用深度学习的方式，快速准确的预测茶园产量，同时为了挖掘到更多信息，本发明使用多模态数据，进行模型训练，使结果更加准确、合理。本发明对于茶园产量预测更具有针对性，预测结果也具有可解释性。

附图说明

图1是本发明方案的整体流程示意图。

图2是本发明的模型架构示意图。

具体实施方式

为使本技术领域的人员更好地理解本发明的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图和事例对本发明中的技术核心作进一步的详细说明。

本发明主要针对茶园产量提出了一种更加合理和可解释性的预测方法。首先利用卷积神经网络(CNN)对复杂的茶园信息进行学习，从而挖掘到与产量相关的规律。该方法对茶园信息进行学习，对于茶园产量预测更具有针对性。与此同时，利用CNN进行特征学习，更能挖掘到深层次的信息。除此之外，本发明不仅仅注重单个模态的信息学习，而是使用多模态协同学习方法，从多个模态数据中发现与产量相关的规律。因此本发明不仅让可使用的信息更加丰富，同时让不同模态数据产生协同作用，促进特征的学习。最终，促进本发明的效果提升，同时也使得过程更具可解释性。具体来说，本发明使用CNN对茶园图像进行学习，挖掘图像模态的信息；同时对相应的茶园环境数据进行深度学习，挖掘文本模态的信息。然后对两个不同模态的数据进行融合学习，使用模态间的特征度量损失和产量预测损失协同约束模型训练。

本发明提供一种基于多模态信息的茶园产量预测方法，本发明的流程如图1所示，包含以下步骤：

步骤100，对数据进行获取和处理，产生训练模型的数据集。所使用的数据来源于同一区域内茶园的历史信息。对于图像数据，本发明从茶园中选取5个具有代表性的位置，进行拍照。其中包含一张俯瞰照片，用来获取整个茶园的全局信息。其余四张图像是任意选取4个不同位置对茶树拍照，用来获取茶园的细节信息。全局信息结合细节部分，可以很好的反映整个茶园的情况。照片使用2K分辨率，高质量的图像可以获取更多的细节信息。对于环境信息，本发明选用6个影响茶叶生长的重要因素，分别为：光照、温度、湿度、昼夜温差、空气含氧量和土壤肥力。统计的环境信息为茶叶成熟前一个月的数据，每6天统计一次，取平均值。对每个环境因素划分6个类别，并进行one-hot编码。最终6类环境信息被编码成6×6的特征矩阵，每个环境因素对应其中的1×6向量。最终每一条数据都为一个三元组，包含5张图像数据、环境数据以及产量标签。

模型构建以及模型训练如图2所示，过程如下：

本发明构建了茶园产量预测模型，其包括茶园图像特征学习模块、环境特征学习模块、特征融合模块和全连接层，各单元的功能如下：

步骤200，图像特征学习模块。本发明以经典的AlexNet网络的卷积层作为图像特征提取的基础，利用卷积等操作，提取图像的深度特征。步骤包括：

步骤201，为了使网络可以适应多张图像的输入，本发明对AlexNet网络的第一个卷积层进行了修改。本发明的图像输入为5张彩色图像，包含的信息各不相同。按照通常做法需要将图像水平尺寸调整为224×224，每一图像又包含3个通道，因此每张图像的大小为3×224×224。本发明将5张图像在通道上进行拼接，因此最终的图像的输入大小为15×224×224。为了适应变化的输入尺寸，本发明把AlexNet第一个卷积层的卷积核大小由3×11×11调整为15×11×11。

步骤202，为了让学习到的图像特征和环境特征维度一致，本发明对AlexNet最后一个卷积层进行修改，将卷积核的数量从256个调整成128个。因此最终的输出为

整个过程如下所示：

其中，G_I(·)表示图像特征提取模块，I表示输入的图像，

表示对输入的5张图像进行通道维度上的拼接。

步骤300，环境特征学习模块。每一个样本的环境编码特征为F_μ∈R^1×6×6，为了适应该特征的学习，本发明设计如表1的网络结构。其中包含4个卷积层，层与层之间使用ReLu函数进行激活。该过程如下所示：

F_ω＝G_H(F_μ)

其中，G_H(·)表示环境特征学习模块，F_ω表示最终输出的环境特征。

表1环境特征学习网络结构表

结构类型	卷积核大小/步长	输出尺寸
			卷积层	1×1/1	64×6×6
卷积层	3×3/1	64×6×6
			卷积层	3×3/1	128×6×6
卷积层	1×1/1	128×6×6

步骤400，特征融合模块对所得特征进行特征融合，并将融合后的特征输入全连接层进行全连接非线性学习。特征融合模块将图像特征学习模块的输出和环境特征学习模块的输出进行通道维度的拼接，该过程如下：

其中F_C∈R^256×6×6表示拼接后的特征。之后，将F_C送入全连接层学习。本发明采用的全连接层进行全连接学习主要包含3层全连接映射(FC)，其中层与层之间采用ReLu函数激活和Dropout学习，按照层的先后顺序，具体为FC₁ ReLu Dropout FC₂ ReLu Dropout FC₃。全连接层最终输出茶园产量的预测信息。

步骤500，进行模型训练。本发明注重多模态的学习，不仅提取了图像特征也学习了环境特征。不同模态间存在较大差异，特征图的分布也不相同。因此简单的进行特征融合会损害特征图的质量，因此本发明使用一个约束函数解决上述问题。在进行步骤400中的特征融合前，本发明对两个模态的特征图间距离进行约束，使特征图在特征空间上的分布尽可能一致。所采用的度量损失函数如下：

其中

和F_ω分别表示卷积层提取的图像特征和环境特征，即步骤200和步骤300的输出，N表示特征通道数，即128。不仅如此，L₁也使两个模态的特征互相学习，协同约束图像特征学习模块和环境特征学习模块的训练。除此之外，为了让模型可以进行精准的产量预测，对于最后全连接的输出，本发明使用如下产量预测损失函数进行模型的整体优化：

其中p(x)表示期望的概率输出(即预测的茶叶产量)；q(x)表示实际的概率输出(标注的茶叶产量，即真实值)；x泛指整个模型的输入，包含图像和环境数据。最终，模型的损失函数如下：

Loss＝L(p，q)+θL₁

其中θ为超参数，在实际训练中需要根据训练情况调整值，从而让模型达到最优。

步骤600，应用训练好的模型。整个模型包含图像特征学习、环境特征学习、特征融合、全连接学习，最终输出茶园产量信息。训练好的模型具备茶园产量预测能力，首先利用图像特征学习模型和环境特征学习模型提取图像和环境特征，然后将两种特征进行融合，融合后的特征输入全连接层，最终输出茶园产量信息。方便对茶叶后续处理和加工工作进行规划。

最后所应说明的是，以上实施案例仅用以说明本发明的技术方案而非限制，尽管使用事例对本发明进行了详细说明，本领域的普通技术人员应当理解，可对本发明的技术方案进行修改或者等价替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多模态信息的茶园产量预测方法，其步骤包括：

2.根据权利要求1所述的方法，其特征在于，训练所述茶园产量预测模型所采用的损失函数为Loss＝L(p,q)+θL₁；其中，L₁为模态间度量损失函数，L(p,q)为产量预测损失函数，θ为超参数，p表示预测的茶叶产量，q表示实际的茶叶产量。

3.根据权利要求2所述的方法，其特征在于，所述模态间度量损失函数为

所述产量预测损失函数为L(p,q)＝-∑_x(p(x)log(q(x))+(1-p(x))log(1-q(x)))；其中，图像特征

4.根据权利要求1或2或3所述的方法，其特征在于，每一个样本所包含的茶园图像包括一张能够获取整个茶园的全局信息的俯瞰图像和若干张获取茶园的细节信息的图像。

5.根据权利要求1或2或3所述的方法，其特征在于，所述茶园环境数据包括茶叶成熟前一个月的光照、温度、湿度、昼夜温差、空气含氧量和土壤肥力。

6.根据权利要求5所述的方法，其特征在于，茶叶成熟前一个月每六天采集一次茶园环境数据；对其取平均值作为最终的所述茶园环境数据。

7.根据权利要求1所述的方法，其特征在于，基于AlexNet网络构建所述茶园图像特征学习模块。

8.根据权利要求7所述的方法，其特征在于，所述AlexNet网络包括多个卷积层，其中将第一卷积层的卷积核大小由3×11×11调整为3m×11×11，m为样本所包含的茶园图像数量；将同一样本的m张茶园图像在通道上进行拼接后输入所述AlexNet网络的第一卷积层。

9.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至8任一所述方法中各步骤的指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一所述方法的步骤。