CN115965245B

CN115965245B - 一种基于机器学习的山地果园冻害风险预测方法

Info

Publication number: CN115965245B
Application number: CN202310231182.2A
Authority: CN
Inventors: 黄招娣; 周新兴; 王龙
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-05-30
Anticipated expiration: 2043-03-13
Also published as: CN115965245A

Abstract

本申请提供一种基于机器学习的山地果园冻害风险预测方法，包括：获取山地果园区域在过去

天的天气数据，进一步生成输入数据；将所述输入数据输入至训练好的冻害风险预测模型中，得到所述冻害风险预测模型输出的冻害风险预测结果；基于所述冻害风险预测结果，生成冻害风险提示信息。

Description

一种基于机器学习的山地果园冻害风险预测方法

技术领域

本申请涉及冻害风险监测领域，具体而言，涉及一种基于机器学习的山地果园冻害风险预测方法。

背景技术

山地果园的环境监测对于山地果园的管理来说是极为重要的，例如对山地果园内果树生长涉及的各项环境指标（例如温度、湿度、光照、风力、病虫害、土壤营养成分等）的长期监测。除了上述基本环境的监测外，还需要对山地果园内果树的冻害进行监测，一旦冻害发生，将严重影响果实的产量。

而果树发生冻害的常见原因有：1.温度骤降：在秋末冬初（初冬时）和冬末春初（初春时）时，这两个阶段处于季节交替期，天气变化无常、温度变化剧烈且规律性较差，比如说初冬时寒流来袭所带来的急剧性降温，比如说初春时发生倒春寒，都非常容易导致果树发生枝干冻伤或花芽冻死的问题。2.持续低温：果树在越冬休眠期内，在遇到长时间的低温或低温强度过大时，如果咱们果农没能提前做好防护管理，也容易造成果树发生低温冻害。3.昼夜温差过大：在秋季时，较大的温差有利于果树的膨大、增甜和转色，但在冬季时，昼夜较大的温差就容易导致树体枝干受冻受害。

因此，如何对山地果园进行有效的冻害风险预测并进行警示，以便提前做好果树的防冻措施，是保障果实产量，避免严重减产的重要手段。

发明内容

本申请实施例的目的在于提供一种基于机器学习的山地果园冻害风险预测方法，以对山地果园的冻害风险进行预警。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于机器学习的山地果园冻害风险预测方法，包括：获取山地果园区域在过去

结合第一方面，在第一方面的第一种可能的实现方式中，构建所述冻害风险预测模型的方法为：获取天气数据集，其中，所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据；基于同一冻害风险时期内连续

天的天气数据，生成一个数据样本，从而得到包含所有数据样本的样本集合/>

，其中，/>

，每个数据样本中前/>

天的天气数据作为预测部分，后/>

天的天气数据作为验证部分；基于每个数据样本的预测部分或验证部分，将样本集合/>

划分为多个样本子集；基于样本抽样策略对每个样本子集进行抽样，以抽样样本构建新的样本集合/>

；利用样本集合/>

作为机器学习模型的训练集，训练得到冻害风险预测模型。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息和当日风速信息，基于每个数据样本的预测部分或验证部分，将样本集合

划分为多个样本子集，包括：针对所述样本集合/>

中的每个数据样本：判断数据样本的验证部分是否存在当日最低温度低于设定温度的I类天气特征；若存在I类天气特征，将此数据样本划分为I类样本；若不存在I类天气特征，进一步判断数据样本的预测部分是否存在至少连续/>

天的当日低温持续时长达到设定时长的II类天气特征；若存在II类天气特征，将此数据样本划分为II类样本；若不存在II类天气特征，将此数据样本划分为III类样本；将所有I类样本合并为一个I类样本子集，所有II类样本合并为一个II类样本子集，以及，将所有III类样本合并为一个III类样本子集。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，基于样本抽样策略对每个样本子集进行抽样，以抽样样本构建新的样本集合

，包括：对所述I类样本子集进行过抽样，得到/>

个I类抽样样本；对所述II类样本子集进行过抽样，得到/>

个II类抽样样本；对所述III类样本子集进行欠抽样，得到/>

个III类抽样样本；将/>

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本进行合并，得到新的样本集合/>

。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述I类样本子集包含

个样本，对所述I类样本子集进行过抽样，得到/>

个I类抽样样本，包括：

对所述I类样本子集进行k-means聚类，聚类为

个簇；

针对

个簇中的每个簇/>

：

从簇

中进行/>

次“一带一”样本抽取，并将每次“一带一”抽取的样本进行融合，得到一个新的样本，共计得到/>

个新样本，其中，“一带一”样本抽取为：从簇/>

中抽取一个基准样本，以及，从簇/>

中抽取一个附加样本，其中，/>

次基准样本按照遍历的方式进行抽取，附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本；

从簇

中进行/>

次“多合一”样本抽取，并将每次“多合一”样本抽取的样本进行融合，得到一个新的样本，共计得到/>

个新样本，其中，“多合一”样本抽取为：从簇/>

中按照随机的方式抽取多个样本；

最终得到

个I类抽样样本，其中，

，

其中，

为所述I类样本子集的样本数量，/>

为“一带一”新样本数量，

为“多合一”新样本数量。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，簇

中的“一带一”样本抽取过程中，抽取附加样本时，每个样本被抽取的概率，以及，“多合一”样本抽取过程中，每个样本被抽取的概率满足：

，

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量；

簇

中两个样本之间的距离计算公式为：

，

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

结合第一方面的第三种可能的实现方式，在第一方面的第六种可能的实现方式中，所述II类样本子集包含

个样本，对所述II类样本子集进行过抽样，得到/>

个II类抽样样本，包括：

对所述II类样本子集进行k-means聚类，聚类为

个簇；

针对

个簇中的每个簇/>

：

从簇

中进行/>

次“一带多”样本抽取，并将每次“一带多”抽取的样本进行融合，得到一个新的样本，共计得到/>

个新样本，其中，“一带多”样本抽取为：从簇/>

中抽取一个基准样本，以及，从簇/>

中抽取多个附加样本，其中，/>

次基准样本按照遍历的方式进行抽取，多个附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本；

最终得到

个II类抽样样本，其中，

，

其中，

为所述II类样本子集的样本数量，/>

为“一带多”新样本数量。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，簇

中的“一带多”样本抽取过程中，抽取附加样本时，每个样本被抽取的概率满足：

，

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量；

簇

中两个样本之间的距离计算公式为：/>

，

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

结合第一方面的第三种可能的实现方式，在第一方面的第八种可能的实现方式中，所述III类样本子集包含

个样本，对所述III类样本子集进行欠抽样，得到/>

个III类抽样样本，包括：

对所述III类样本子集进行k-means聚类，聚类为

个簇；

针对

个簇中的每个簇/>

：

从簇

中进行/>

次“多合一”样本抽取，并将每次“多合一”样本抽取的样本进行融合，得到一个新的样本，并丢弃抽取的样本，共计得到/>

个新样本，其中，“多合一”样本抽取为：从簇/>

剩余的样本中按照随机的方式抽取多个样本；

最终得到

个III类抽样样本，其中，

，

其中，

为“多合一”新样本数量。

结合第一方面的第三种可能的实现方式，在第一方面的第九种可能的实现方式中，在将

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本进行合并之前，所述方法还包括：

对

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本的权重随迭代次数进行更新：

，

其中，

、/>

分别为第/>

次、第/>

次迭代得到的样本/>

的权重，

为I类抽样样本的总量，/>

为样本/>

在I类抽样样本中所属的簇的样本总量，/>

为II类抽样样本的总量，/>

为样本/>

在II类抽样样本中所属的簇的样本总量，/>

为III类抽样样本的总量；

而

定义如下：/>

，

初始时刻所有样本的权重为：

，

每次迭代完成后对所有样本的权重进行归一化。

有益效果：1.本方案利用山地果园区域在过去

天的天气数据生成输入数据；利用冻害风险预测模型输出的冻害风险预测结果，从而生成冻害风险提示信息。构建冻害风险预测模型时，利用天气数据集（包含山地果园区域在多年的冻害风险时期内每天的天气数据），处理得到数据样本的样本集合/>

，数据样本基于同一冻害风险时期内连续/>

天的天气数据生成（前/>

天的天气数据作为预测部分，后/>

天的天气数据作为验证部分）；考虑到数据样本的不平衡（无冻害风险的数据样本多，而有冻害风险的数据样本少），因此，将样本集合/>

划分为多个样本子集，针对不同类型的数据样本采用不同的样本抽样策略进行抽样，构建新的样本集合/>

，以平衡数据样本，利用样本集合/>

作为机器学习模型的训练集，训练得到冻害风险预测模型，能够尽可能保证对冻害风险预测的准确性。

2.利用当日最低温度低于设定温度的I类天气特征、数据样本的预测部分至少连续

天的当日低温持续时长达到设定时长的II类天气特征，对样本集合/>

进行中的样本进行I类样本、II类样本和III类样本的划分，可以将样本集合/>

划分为I类样本子集、II类样本子集和III类样本子集。这样可以基于样本的冻害风险对样本进行一个初步的划分，然后对I类样本子集进行过抽样，采取“一带一”、“多合一”的抽样模式，可以使得I类样本子集（大概率存在冻害风险的样本集合）更加丰富（综合了I类样本子集的原本数据样本，“一带一”抽样得到的样本、“多合一”抽样得到的样本），且具有层次性（“一带一”和“多合一”保证了这点，“一带一”能够避免簇中外围样本与聚类中心的断层，而“多合一”则提高了聚类中心的样本密度）。对II类样本子集（可能存在冻害风险的样本集合）采取过抽样策略（主要采用“一带多”的样本抽取模式），能够更好地考虑到此类样本的特性，丰富样本的同时，也能在一定程度上减轻样本断层问题。对III类样本子集（几乎不存在冻害风险的样本，样本占比高）采用欠抽样处理，采用“多合一”的模式，合并样本时舍弃原样本，能够尽可能保留原样本的信息，且能够大幅减少样本，使得I类样本、II类样本和III类样本趋于平衡，从而保证训练集中各类样本的平衡性，便于训练冻害风险预测模型，提高冻害风险预测模型对冻害风险的预测能力。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的构建冻害风险预测模型的流程图。

图2为本申请实施例提供的一种基于机器学习的山地果园冻害风险预测方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

由于本方案实现冻害风险预测的核心在于冻害风险预测模型，为了便于对本方案的理解，此处先对冻害风险预测模型的构建进行介绍。

请参阅图1，图1为本申请实施例提供的构建冻害风险预测模型的流程图。

在本实施例中，构建冻害风险预测模型可以包括步骤S11、步骤S12、步骤S13、步骤S14和步骤S15。

首先，可以进行步骤S11。

步骤S11：获取天气数据集，其中，所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据。

在本实施例中，可以从综合气象信息共享平台获取天气数据集，天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据，共

个天气数据（例如3000条天气数据）。每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息（可以为雨或雪）和当日风速信息。

获得天气数据集后，可以进一步执行步骤S12。

步骤S12：基于同一冻害风险时期内连续

，其中，/>

，每个数据样本中前/>

天的天气数据作为预测部分，后/>

天的天气数据作为验证部分。

为了便于预测，本方案对天气数据集中的天气数据进行处理，处理为数据样本，便于机器学习模型的训练，从而构建冻害风险预测模型。

在本实施例中，可以基于同一冻害风险时期内连续

，其中，/>

，每个数据样本中前/>

天的天气数据作为预测部分，后/>

天的天气数据作为验证部分。

例如，利用7天的历史天气数据，预测后续3天的天气数据，那么，

，

，/>

，当然此处仅是举例说明，可以根据实际需要进行设计，不作为对本申请的限定。而每个数据样本就包含前/>

天的天气数据作为预测部分，后/>

天的天气数据作为验证部分，每个数据样本都可用于训练。

得到样本集合

后，可以执行步骤S13。/>

步骤S13：基于每个数据样本的预测部分或验证部分，将样本集合

划分为多个样本子集。

在本实施例中，针对样本集合

中的每个数据样本：

可以先判断数据样本的验证部分是否存在当日最低温度低于设定温度（例如-3℃，-4℃，-2℃等，根据山地果园内果树的不同，这个设定温度可以有浮动，根据实际需要设定）的I类天气特征。

若存在I类天气特征，将此数据样本划分为I类样本。

若不存在I类天气特征，可以进一步判断数据样本的预测部分是否存在至少连续

天（例如连续3天，连续5天等）的当日低温持续时长达到设定时长（例如12小时）的II类天气特征。而低温持续时长的低温可以约定为当日最低温度加3℃的温度区间。

若存在II类天气特征，将此数据样本划分为II类样本。

若不存在II类天气特征，则将此数据样本划分为III类样本。

然后，可以将所有I类样本合并为一个I类样本子集，所有II类样本合并为一个II类样本子集，以及，将所有III类样本合并为一个III类样本子集。由于冻害天气相对较少，本方案中I类样本子集、II类样本子集和III类样本子集之间的比例大致为1.5：2.5：16。因此，I类样本子集、II类样本子集和III类样本子集之间存在非常明显的样本失衡。

为了尽可能减少样本失衡的影响，可以进行步骤S14。

步骤S14：基于样本抽样策略对每个样本子集进行抽样，以抽样样本构建新的样本集合

。

在本实施例中，为了减少样本失衡带来的影响，需要增加I类样本子集中样本的数量，因此，可以对I类样本子集进行过抽样，得到

个I类抽样样本。

示例性的，I类样本子集包含

个样本，那么，可以对I类样本子集进行k-means聚类，聚类为/>

个簇（k-means聚类的过程非本方案重点，可直接采用现有k-means聚类方法，此处不做赘述）。

针对

个簇中的每个簇/>

：

从簇

中进行/>

个新样本。

“一带一”样本抽取具体为：从簇

中抽取一个基准样本，以及，从簇/>

中抽取一个附加样本。其中，/>

次基准样本按照遍历的方式进行抽取，附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本，/>

即簇/>

中样本的数量。“一带一”样本的融合方式为计算两个样本的均值，得到新样本。

以及，可以从簇

中进行/>

次“多合一”样本抽取，并将每次“多合一”样本抽取的样本进行融合（计算多个样本的均值），得到一个新的样本，共计得到/>

个新样本，其中，“多合一”样本抽取为：从簇/>

中按照随机的方式抽取多个样本，/>

为设定的次数，/>

取

的0.8~2.5倍是比较合适的，本实施例取1.4倍，不作限定。

在本实施例中，簇

中的“一带一”样本抽取过程中，抽取附加样本时，每个样本被抽取的概率，以及，“多合一”样本抽取过程中，每个样本被抽取的概率被设计为满足：

，（1）

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量。

为了提高区分度，从而提高聚类效果，簇

中两个样本之间的距离计算公式设计为：

，（2）

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。需要说明的是，/>

为内积，对应/>

为行向量的情况，当/>

为列向量时，此处则对应转换为/>

。

这样，最终得到

个I类抽样样本：

，（3）

其中，

为I类样本子集的样本数量，/>

为“一带一”新样本数量，

为“多合一”新样本数量。整体数量约为/>

。

在本实施例中，为了减少样本失衡带来的影响，同样需要增加II类样本子集中样本的数量，因此，可以对II类样本子集进行过抽样，得到

个II类抽样样本。

示例性的，II类样本子集可以包含

个样本，那么，可以对II类样本子集进行k-means聚类，聚类为/>

个簇。

针对

个簇中的每个簇/>

：

可以从簇

中进行/>

个新样本。其中，“一带多”样本抽取为：从簇/>

中抽取一个基准样本，以及，从簇/>

中抽取多个附加样本，/>

次基准样本按照遍历的方式进行抽取，多个附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本。此处的多个附加样本可以设计为2~3个附加样本，以2个附加样本为例。“一带多”样本的融合方式为计算一个基准样本和多个附加样本的均值，得到新样本。

簇

中的“一带多”样本抽取过程中，抽取附加样本时，每个样本被抽取的概率满足：/>

，（4）

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量。

簇

中两个样本之间的距离计算公式为：

，（5）

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

这样，最终得到

个II类抽样样本：

，（6）

其中，

为II类样本子集的样本数量，/>

为“一带多”新样本数量。整体数量约为/>

。

在本实施例中，由于III类样本子集中数据样本的数量较多，可以对III类样本子集进行欠抽样，得到

个III类抽样样本。

示例性的，III类样本子集包含

个样本，那么，可以对III类样本子集进行k-means聚类，聚类为/>

个簇。

针对

个簇中的每个簇/>

：

从簇

中进行/>

次“多合一”样本抽取，并将每次“多合一”样本抽取的样本进行融合（计算多个样本的均值），得到一个新的样本，并丢弃抽取的样本，共计得到/>

个新样本，其中，“多合一”样本抽取为：从簇/>

剩余的样本中按照随机的方式抽取多个样本。本实施例中，此处取“三合一”。

簇

中的“多合一”样本抽取过程中，每个样本被抽取的概率满足：

，（7）

其中，

表示簇/>

中剩余的第/>

个样本被抽取的概率，/>

表示簇/>

中剩余的样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中剩余的样本总量，此处簇/>

中剩余的样本表示簇/>

中还未被抽取到的样本。

簇

中两个样本之间的距离计算公式为：

，（8）/>

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

最终得到

个III类抽样样本：

，（9）

其中，

为“多合一”新样本数量，最后一次抽样不足3个样本的，则以零值样本填充，整体约为/>

。

那么，经过对I类样本子集、II类样本子集和III类样本子集的抽样后，得到的I类抽样样本（约3.4

）、II类抽样样本（约2/>

）、III类抽样样本（约/>

），而/>

：/>

：/>

约为1.5：2.5：16，那么，I类抽样样本、II类抽样样本和III类抽样样本之间的数量比约为5.1：5.0：5.3，大致相当。

之后，为了提升对冻害风险的识别准确性，可以对

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本的权重随迭代次数进行更新：

，（10）

其中，

、/>

分别为第/>

次、第/>

次迭代得到的样本/>

的权重，

为I类抽样样本的总量，/>

为样本/>

在I类抽样样本中所属的簇的样本总量，/>

为II类抽样样本的总量，/>

为样本/>

在II类抽样样本中所属的簇的样本总量，/>

为III类抽样样本的总量。

而

定义如下：

，（11）

初始时刻所有样本的权重为：

，（12）

每次迭代完成后对所有样本的权重进行归一化。

之后，可以将

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本进行合并，得到新的样本集合/>

。

得到样本集合

后，可以执行步骤S15。

步骤S15：利用样本集合

作为机器学习模型的训练集，训练得到冻害风险预测模型。

在本实施例中，可以利用样本集合

作为机器学习模型的训练集，训练得到冻害风险预测模型。具体可以使用Keras（开源人工神经网络库），具体的参数设计（例如激活函数的选择、权重与偏置参数的初始化方法、正则化、神经元个数等），可以根据需要进行选择和设置，此处不做赘述。利用样本集合/>

进行训练，训练完成即可得到冻害风险预测模型。

基于此，可以运行基于机器学习的山地果园冻害风险预测方法。

请参阅图2，图2为本申请实施例提供的一种基于机器学习的山地果园冻害风险预测方法的流程图。基于机器学习的山地果园冻害风险预测方法可以包括步骤S21、步骤S22和步骤S23。

为了实现对山地果园的冻害风险预测，可以执行步骤S21。

步骤S21：获取山地果园区域在过去

天的天气数据，进一步生成输入数据。

示例性的，可以从综合气象信息共享平台山地果园区域在过去

天的天气数据，然后基于/>

天的天气数据，组成一个输入数据（例如形成一个数据组，适配训练好的冻害风险预测模型即可）。

之后，可以执行步骤S22。

步骤S22：将所述输入数据输入至训练好的冻害风险预测模型中，得到所述冻害风险预测模型输出的冻害风险预测结果。

在本实施例中，可以将输入数据输入至训练好的冻害风险预测模型中，而冻害风险预测模型可以基于输入数据进行冻害风险预测，得到冻害风险预测结果并输出。

得到冻害风险预测结果后，可以执行步骤S23。

步骤S23：基于所述冻害风险预测结果，生成冻害风险提示信息。

在本实施例中，如果冻害风险预测结果显示存在冻害风险，可以生成提示信息（例如信息、声光提示等）；如果冻害风险预测结果显示不存在冻害风险，即可提示用户，不存在冻害风险。

综上所述，本方案提供一种基于机器学习的山地果园冻害风险预测方法：

1.本方案利用山地果园区域在过去

，数据样本基于同一冻害风险时期内连续/>

天的天气数据生成（前/>

天的天气数据作为预测部分，后/>

，以平衡数据样本，利用样本集合/>

作为机器学习模型的训练集，训练得到冻害风险预测模型，能够尽可能保证对冻害风险预测的准确性。/>

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于机器学习的山地果园冻害风险预测方法，其特征在于，包括：

获取山地果园区域在过去

天的天气数据，进一步生成输入数据；

将所述输入数据输入至训练好的冻害风险预测模型中，得到所述冻害风险预测模型输出的冻害风险预测结果；

基于所述冻害风险预测结果，生成冻害风险提示信息；

其中，构建所述冻害风险预测模型的方法为：获取天气数据集，其中，所述天气数据集中包含山地果园区域在多年的冻害风险时期内每天的天气数据；基于同一冻害风险时期内连续

，其中，/>

，每个数据样本中前/>

天的天气数据作为预测部分，后/>

；利用样本集合/>

作为机器学习模型的训练集，训练得到冻害风险预测模型；

其中，每天的天气数据包含当日最高温度、当日最低温度、当日高温持续时长、当日低温持续时长、当日湿度信息、当日光照信息、当日雨量信息和当日风速信息，基于每个数据样本的预测部分或验证部分，将样本集合

划分为多个样本子集，包括：

针对所述样本集合

中的每个数据样本；判断数据样本的验证部分是否存在当日最低温度低于设定温度的I类天气特征；若存在I类天气特征，将此数据样本划分为I类样本；若不存在I类天气特征，进一步判断此数据样本的预测部分是否存在至少连续/>

天的当日低温持续时长达到设定时长的II类天气特征；若存在II类天气特征，将此数据样本划分为II类样本；若不存在II类天气特征，将此数据样本划分为III类样本；将所有I类样本合并为一个I类样本子集，所有II类样本合并为一个II类样本子集，以及，将所有III类样本合并为一个III类样本子集；

其中，基于样本抽样策略对每个样本子集进行抽样，以抽样样本构建新的样本集合

，包括：对所述I类样本子集进行过抽样，得到/>

个I类抽样样本；对所述II类样本子集进行过抽样，得到/>

个II类抽样样本；对所述III类样本子集进行欠抽样，得到/>

个III类抽样样本；将/>

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本进行合并，得到新的样本集合/>

；

所述I类样本子集包含

个样本，对所述I类样本子集进行过抽样，得到/>

个I类抽样样本，包括：对所述I类样本子集进行k-means聚类，聚类为/>

个簇；针对/>

个簇中的每个簇、/>

：从簇/>

中进行/>

个新样本，其中，“一带一”样本抽取为：从簇/>

中抽取一个基准样本，以及，从簇/>

中抽取一个附加样本，其中，/>

次基准样本按照遍历的方式进行抽取，附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本；从簇

中进行/>

个新样本，其中，“多合一”样本抽取为：从簇/>

中按照随机的方式抽取多个样本；最终得到/>

个I类抽样样本，其中，

，

其中，

为所述I类样本子集的样本数量，/>

为“一带一”新样本数量，

为“多合一”新样本数量；

所述II类样本子集包含

个样本，对所述II类样本子集进行过抽样，得到/>

个II类抽样样本，包括：对所述II类样本子集进行k-means聚类，聚类为/>

个簇；针对/>

个簇中的每个簇/>

：从簇/>

中进行/>

个新样本，其中，“一带多”样本抽取为：从簇/>

中抽取一个基准样本，以及，从簇/>

中抽取多个附加样本，其中，/>

次基准样本按照遍历的方式进行抽取，多个附加样本按照随机的方式进行抽取，且附加样本与基准样本非同一样本；最终得到/>

个II类抽样样本，其中，

，

其中，

为所述II类样本子集的样本数量，/>

为“一带多”新样本数量；

所述III类样本子集包含

个样本，对所述III类样本子集进行欠抽样，得到/>

个III类抽样样本，包括：对所述III类样本子集进行k-means聚类，聚类为/>

个簇；针对

个簇中的每个簇/>

：从簇/>

中进行/>

个新样本，其中，“多合一”样本抽取为：从簇/>

剩余的样本中按照随机的方式抽取多个样本；最终得到/>

个III类抽样样本，其中，

，

其中，

为“多合一”新样本数量。

2.根据权利要求1所述的基于机器学习的山地果园冻害风险预测方法，其特征在于，簇

，

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量；

簇

中两个样本之间的距离计算公式为：

，

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，/>

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

3.根据权利要求1所述的基于机器学习的山地果园冻害风险预测方法，其特征在于，簇

，

其中，

表示簇/>

中第/>

个样本被抽取的概率，/>

表示簇/>

中样本与簇中心之间的最远距离，/>

表示簇/>

中第/>

个样本与簇中心之间的距离，/>

为簇/>

中样本除基准样本之外的总量；

簇

中两个样本之间的距离计算公式为：/>

，

其中，

表示两个样本之间的距离，/>

为尺度参数，/>

为样本的属性总数，/>

为样本/>

的第/>

个属性，/>

为样本/>

的第/>

个属性，/>

为/>

的转置。

4.根据权利要求1所述的基于机器学习的山地果园冻害风险预测方法，其特征在于，在将

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本进行合并之前，所述方法还包括：

对

个I类抽样样本、/>

个II类抽样样本和/>

个III类抽样样本的权重随迭代次数进行更新：

，

其中，

、/>

分别为第/>

次、第/>

次迭代得到的样本/>

的权重，

为I类抽样样本的总量，/>

为样本/>

在I类抽样样本中所属的簇的样本总量，/>

为II类抽样样本的总量，/>

为样本/>

在II类抽样样本中所属的簇的样本总量，/>

为III类抽样样本的总量；

而

定义如下：

，

初始时刻所有样本的权重为：

，

每次迭代完成后对所有样本的权重进行归一化。