CN113822495B

CN113822495B - 基于机器学习模型的长势预测方法、装置、设备及介质

Info

Publication number: CN113822495B
Application number: CN202111223299.3A
Authority: CN
Inventors: 包承鸣; 徐伟; 张天祥; 姜凯英; 刘志勇; 乔善昭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2023-12-19
Anticipated expiration: 2041-10-20
Also published as: CN113822495A

Abstract

本发明涉及人工智能技术领域，提出一种基于机器学习模型的长势预测方法、装置、设备及介质，该方法通过第一样本数据集训练若干个不同类别的预设基础模型，得到至少两个机器学习模型，将第二样本数据集的第二长势影响向量分别输入各机器学习模型，以确定各机器学习模型对应的总识别准确率和长势识别准确率，将目标长势影响向量分别输入各机器学习模型得到若干个目标预测长势，根据各目标预测长势、总识别准确率和长势识别准确率确定目标长势影响向量所对应的最终预测长势及最终预测长势可信度。本发明还提出一种基于机器学习模型的长势预测装置、设备及介质，不需要依赖过多的历史长势数据就能够实现长势预测，且长势预测的准确性更佳，误差更低。

Description

基于机器学习模型的长势预测方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，提供一种基于机器学习模型的长势预测方法、装置、设备及介质。

背景技术

作物的长势可以表征作物生长的状态及趋势，通过对作物等植被的长势的监测，可以及时知晓作物的生长情况、苗情等相关信息，以便及时作出相关决策，以减少灾害的影响。

相关技术中，对于作物长势的预测，往往是基于历史长势数据与当前长势数据进行对比，得到最接近当前长势状态的年份的历史长势数据中预测时期的长势作为预测长势，该方案一方面需要预测区域大量的历史长势数据，对历史长势数据的依赖程度高，另一方面，所得到的预测长势误差较大，准确性差。

发明内容

本发明提供一种基于机器学习模型的长势预测方法、装置、设备及介质，其主要目的在于提供一种通过训练多个用于预测长势的机器学习模型，并基于该机器学习模型的预测结果进行筛选以确定最终预测长势，实现对长势的预测的方法，以解决相关技术中作物长势预测需要预测区域大量历史长势数据，过于依赖所预测区域的历史长势数据，预测长势误差大，准确性差的技术问题。

为实现上述目的，本发明提供一种基于机器学习模型的长势预测方法，所述方法包括：

获取第一样本数据集，所述第一样本数据集包括若干组第一实际长势和第一长势影响向量；

根据所述第一样本数据集分别训练若干个不同类别的预设基础模型，得到多个机器学习模型；

获取第二样本数据集，所述第二样本数据集包括若干组第二长势影响向量和第二实际长势，将所述第二长势影响向量分别输入各所述机器学习模型，输出若干个样本预测长势；

根据所述样本预测长势和所述第二实际长势分别确定多个所述机器学习模型对应的总识别准确率，以及各所述机器学习模型对应的长势识别准确率；

获取目标长势影响向量，将所述目标长势影响向量分别输入各所述机器学习模型，分别得到若干个目标预测长势；

根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度。

可选的，根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度包括：

获取各所述机器学习模型对应的预设影响因子；

将所述预设影响因子和总识别准确率中最小值作为所述机器学习模型的可信因子；

通过预设的计算公式对所述长势识别准确率，可信因子，各所述机器学习模型的长势识别准确率，以及各所述机器学习模型对应的预设影响因子进行处理，得到可信度；

根据各机器学习模型对应的可信度确定可信模型，并将所述可信模型输出的目标预测长势作为最终预测长势，将所述可信模型的可信度作为最终预测长势可信度。

可选的，所述方法还包括：

获取预设长势，并根据所述预设长势与最终预测长势确定关注参数；

所述关注参数的确定方式包括：

K＝(S_预测-S_预设)/S_预设

其中，K为关注参数，S_预设为预设长势，S_预测为最终预测长势。

可选的，所述第一长势影响向量包括第一长势影响数据，所述目标长势影响向量包括目标长势影响数据，所述方法还包括：

将第一样本数据集中的第一长势影响数据根据第一实际长势划分为若干个长势小组，对每一个所述长势小组中的所述第一长势影响数据分别进行聚类处理，得到若干个聚类小组；

将包括数据量排名前N个的聚类小组中长势影响数据作为各第一实际长势所对应的相关长势影响数据，生成长势-相关长势影响数据映射集；

获取目标长势影响向量所对应的预设理想长势；

若所述预设理想长势优于最终预测长势，根据所述预设理想长势和长势-相关长势影响数据映射集确定预设理想长势所对应的相关长势影响数据作为理想长势影响数据；

根据所述目标长势影响数据和理想长势影响数据确定长势调整方案。

可选的，所述第一实际长势和/或第二实际长势的确定方式包括：

获取若干个区域的若干张卫星遥感拍摄图像，并基于所述卫星遥感拍摄图像中不可见波段确定若干采样点的实际植被覆盖指数，所述采样点分属于不同的区域；

根据各所述实际植被覆盖指数确定总平均值及标准差；

根据所述区域中所述采样点的实际植被覆盖指数确定区域平均值；

根据所述总评均值、标准差和区域平均值确定所述第一实际长势和/或第二实际长势。

可选的，所述机器学习模型的训练方式包括：

将所述第一样本数据集划分为训练集和验证集；

通过所述训练集对预设基础模型进行训练，通过所述验证集对训练后所述预设基础模型进行验证，直到训练后所述预设基础模型输出结果的准确率达到预设准确率，获取机器学习模型；

其中，所述将所述第一样本数据集划分为训练集和验证集包括以下任意之一，

按照预设比例将所述第一样本数据集划分为训练集和验证集；

将所述第一样本数据集划分为训练小组和验证小组，将所述验证小组划分为至少两个验证子小组，依次将至少一个所述验证子小组作为验证集，将其余的所述验证子小组和训练小组作为训练集，生成若干对训练集和验证集，其中，各对训练集和验证集之间的验证集不相同。

可选的，所述预设基础模型包括朴素贝叶斯模型和非线性支持向量机模型中至少之一；

所述朴素贝叶斯模型包括，

其中，x_i为长势i，y_k为第一长势影响数据，n为长势的分级数量；

所述非线性支持向量机模型包括，

其中，w为超平面法向量，C为惩罚系数，表示模型对错误预测长势的惩罚程度，δ_i为惩罚项，表示对每一个样本得出错误预测长势的惩罚，N为训练非线性支持向量机的训练集中样本数据的总数量，Xi为输入到非线性支持向量机的第一长势影响向量，y_i为第一实际长势，b为调整系数。

此外，为实现上述目的，本发明还提供一种基于机器学习模型的长势预测装置，所述装置包括：

第一样本数据集获取模块，用于获取第一样本数据集，所述第一样本数据集包括若干组第一实际长势和第一长势影响向量；

训练模块，用于根据所述第一样本数据集分别训练若干个不同类别的预设基础模型，获取至少两个机器学习模型；

样本预测长势生成模块，用于获取第二样本数据集，所述第二样本数据集包括若干组第二长势影响向量和第二实际长势，将所述第二长势影响向量分别输入各所述机器学习模型，输出若干个样本预测长势；

识别准确率确定模块，用于根据所述样本预测长势和第二实际长势分别确定所述机器学习模型对应的总识别准确率，以及所述机器学习模型对应的长势识别准确率；

目标预测长势确定模块，用于获取目标长势影响向量，将所述目标长势影响向量分别输入各所述机器学习模型，分别获取若干个目标预测长势；

最终预测长势确定模块，用于根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度。

此外，为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本发明提出的基于机器学习模型的长势预测方法、装置、设备及介质，该方法通过获取第一样本数据集，并以此训练若干个不同类别的预设基础模型，获取至少两个机器学习模型，获取第二样本数据集，并将其中的第二长势影响向量分别输入各机器学习模型，输出若干个样本预测长势，根据样本预测长势和第二实际长势分别确定机器学习模型对应的总识别准确率，以及机器学习模型对应的长势识别准确率，将目标长势影响向量分别输入各机器学习模型，分别获取若干个目标预测长势，根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度，不需要依赖于过多的目标长势影响向量所在的目标区域的历史长势数据就能够实现长势预测，且该长势预测的准确性更佳，误差更低。

附图说明

图1为本发明一个实施例中提供的基于机器学习模型的长势预测方法的一种流程示意图；

图2为本发明一个实施例中提供的基于机器学习模型的长势预测方法的另一种流程示意图；

图3为本发明一个实施例中提供的基于机器学习模型的长势预测方法的另一种流程示意图；

图4为本发明一个实施例中提供的遮基于机器学习模型的长势预测的另一种具体的流程示意图；

图5为本发明一个实施例中提供的基于机器学习模型的长势预测装置的一种结构示意图；

图6为发明一个实施例中提供的计算机设备的一种结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在一个实施例中，提供一种遮挡场景下目标对象的追踪方法，参照图1所示，该方法包括以下步骤：

步骤S101：获取第一样本数据集。

其中，第一样本数据集包括若干组第一实际长势和第一长势影响向量。

本实施例中的长势包括但不限于农作物或其他动植物的长势情况等。

可选的，第一长势影响向量根据第一历史长势和第一长势影响数据生成。具体的向量生成方式可以采用本领域技术人员所知晓的方式实现，在此不再赘述。

第一样本数据集可以是针对若干个目标区域所采集的数据，如将该方法应用于农业作物理赔的场景下，则目标区域可以为可投保区域。

第一长势影响数据包括第一实际长势所在时间对应的地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况等可能影响作物长势的因素中至少之一，该第一长势影响数据的获取方式可以采用网络数据收集、现场监测记录等方式实现。

可选的，第一历史长势包括以下至少之一：

第一实际长势所在监测时间之前的若干个时间段内，第一实际长势所在第一样本区域内的第一历史长势，该第一历史长势的确定方式可以采用本领域技术人员所知晓的方式实现；

第一样本区域的周围区域中第一实际长势所在监测时间的第一周围长势；

第一样本区域的周围区域中第一实际长势所在监测时间之前的第一周围长势。

换句话说，该第一历史长势可以是与第一实际长势同一时间的周围区域的长势情况(第一周围长势)，和/或，与第一实际长势所在区域内，之前若干时间段的长势情况(第一历史长势)。

训练后的机器学习模型能够实现通过某一区域的历史长势和/或其周围区域的历史长势，以及长势影响数据来预测该区域的本期长势。这样，就可以通过某一区域的历史长势和长势影响数据来预测该区域本期长势。

例如，第一样本数据集包括第一实际长势a和第一长势影响向量a，第一实际长势b和第一长势影响向量b等，其中，第一实际长势a可以是区域M在2020年6月的长势情况，第一长势影响向量a包括第一历史长势a和第一长势影响数据a，其中，第一历史长势a包括区域M在2020年5月的长势情况、区域M在2020年4月的长势情况、区域M在2020年3月的长势情况、区域M在2020年2月的长势情况、区域M在2019年6月的长势情况、区域M在2018年6月的长势情况、区域N在2020年6月的长势情况、区域O在2020年6月的长势情况等中至少之一，区域N、区域O为区域M的周围区域，第一长势影响数据a包括区域M在2020年6月的地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况等中至少之一。第一实际长势b可以是区域M在2020年5月的长势情况，第一长势影响向量b包括第一历史长势b和第一长势影响数据b，其中，第一历史长势b包括区域M在2020年4月的长势情况、区域M在2020年3月的长势情况、区域M在2020年2月的长势情况、区域M在2019年5月的长势情况、区域M在2018年5月的长势情况、区域N在2020年5月的长势情况、区域O在2020年5月的长势情况等中至少之一，区域N、区域O为区域M的周围区域，第一长势影响数据b包括区域M在2020年5月的地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况等中至少之一。由上述例子可以看出，若得到某一区域的若干历史长势及该历史长势的长势影响数据，则可以构成若干组第一实际长势和第一长势影响向量。

步骤S102：根据第一样本数据集分别训练若干个不同类别的预设基础模型，得到多个机器学习模型。

由于不同类别的预设基础模型所训练得到的机器学习模型的训练效果存在一定差异，故可以分别训练得到若干个不同类别的机器学习模型，进而同时对待预测样本进行长势预测，以进一步提升长势预测的准确性。

在一些实施例中，参见图2，机器学习模型的训练方式包括：

步骤S201：将第一样本数据集划分为训练集和验证集；

步骤S202：通过训练集对预设基础模型进行训练，通过验证集对训练后预设基础模型进行验证，直到训练后预设基础模型输出结果的准确率达到预设准确率，获取机器学习模型。

其中，将第一样本数据集划分为训练集和验证集包括以下任意之一：

按照预设比例将第一样本数据集划分为训练集和验证集；

将第一样本数据集划分为训练小组和验证小组，将验证小组划分为至少两个验证子小组，依次将至少一个验证子小组作为验证集，将其余的验证子小组和训练小组作为训练集，生成若干对训练集和验证集，其中，各对训练集和验证集之间的验证集不相同。

预设比例可以由本领域技术人员根据需要进行设定，按照预设比例划分训练集和验证集时可以采取随机分配的方式实现。将第一样本数据集划分为训练小组和验证小组时也可以采用随机分配的方式实现。

下面通过一个示例，具体的说明若干对训练集和验证集的生成方式，将第一样本数据集中的数据划分为训练小组和验证小组，将训练小组划分为若干个训练子小组，多次对验证小组拆分为新增训练小组和剩余验证小组，根据得到的新增训练小组与训练子小组生成训练集，根据剩余验证小组生成验证集，每一次初始验证子小组拆分所得到的剩余验证子小组不同。又例如，将第一样本数据集中的数据划分为训练小组和验证小组，将训练小组划分为M个初始训练子小组，将验证小组划分为N个初始验证子小组，轮流进行初始验证子小组拆分，得到新增训练子小组和剩余验证子小组，根据得到的新增训练子小组与初始训练子小组生成训练集，根据剩余验证子小组生成验证集，每一次初始验证子小组拆分所得到的剩余验证子小组不同，其中，轮流进行初始验证子小组拆分得到新增训练子小组和剩余验证子小组包括，取(N-1)个验证子小组作为第(M+1)个训练子小组，剩余的一个剩余验证子小组作为验证集。通过上述实施方式，可以得到多对存在一定差异的训练集和验证集的组合，可以对预设基础模型的训练次数更多，以提升训练得到的机器学习模型的准确率。

在一些实施例中，预设基础模型包括朴素贝叶斯模型和非线性支持向量机模型中至少之一。

可选的，朴素贝叶斯模型包括：

其中，x_i为长势i，y_k为第一长势影响数据，n为长势的分级数量。

可选的，非线性支持向量机模型包括：

在一些实施例中，长势的一种可选的确定方式包括：

获取若干个区域的若干张卫星遥感拍摄图像，并基于卫星遥感拍摄图像中不可见波段确定若干采样点的实际植被覆盖指数，采样点分属于不同的区域；

根据各实际植被覆盖指数确定总平均值及标准差；

根据区域中采样点的实际植被覆盖指数确定区域平均值；

根据总评均值、标准差和区域平均值确定长势。

上述长势确定方法可以用于确定第一实际长势、第二实际长势、第一周围长势、第一历史长势中至少之一。

其中，卫星遥感拍摄图像的获取方式可以采用本领域技术人员所知晓的方式实现，基于卫星遥感拍摄图像中不可见波段确定实际植被覆盖指数(NDVI)的方式也可以采用本领域技术人员所知晓的方式实现，在此不做限定。

总平均值的确定方式为将所采集到的全部实际植被覆盖指数进行加总后，求得平均值，作为总平均值。

区域平均值为某一区域中各个采样点所对应的实际植被覆盖指数加总求和后，得到的平均值作为区域平均值。

标准差的确定方式如下：

其中，σ为标准差，n为所采集到的采样点总数量，x_i为区域i的区域平均值，为总平均值。

可选的，根据总评均值、标准差和区域平均值确定第一实际长势、第二实际长势、第一周围长势、第一历史长势中至少之一包括：

确定区域平均值与总评均值之间的区域差值；

将该区域差值作为长势参考因子；

根据所述长势参考因子和预设长势映射关系确定第一实际长势、第二实际长势、第一周围长势、第一历史长势中至少之一。

当然，关于第一实际长势、第二实际长势、第一周围长势、第一历史长势中至少之一的确定，也可以通过方差的方式进行确定，其具体实现方式与上述采用标准差的方式类似，在此不再赘述。

一种示例性的预设长势映射关系如下：

10—长势参考因子小于-3*标准差；

9—长势参考因子位于-3*标准差到-2*标准差之间；

8—长势参考因子位于-2*标准差到-1*标准差之间；

7—长势参考因子位于-1*标准差到-0.5*标准差之间；

6—长势参考因子位于0.5*标准差到0之间；

5—长势参考因子位于0到0.5*标准差之间；

4—长势参考因子位于0.5*标准差到1*标准差之间；

3—长势参考因子位于1*标准差到2*标准差之间；

2—长势参考因子位于2*标准差到3*标准差之间；

1—长势参考因子大于3*标准差。

步骤S103：获取第二样本数据集，将第二长势影响向量分别输入各机器学习模型，输出若干个样本预测长势。

其中，第二样本数据集包括若干组第二长势影响向量和第二实际长势，第二长势影响向量的生成方式与第一长势相应向量相似，在此不做赘述。

第二样本数据集可以是第一样本数据集中的一部分数据，或者与第一样本数据部分相同或完全不相同的数据。

每一个第二长势影响向量输入到一个机器学习模型均能够输出一个样本预测长势，故每一个机器学习模型均存在一个与一第二长势影响向量对应的样本预测长势。

步骤S104：根据样本预测长势和第二实际长势分别确定多个机器学习模型对应的总识别准确率，以及各机器学习模型对应的长势识别准确率。

由于第二实际长势与第二长势影响向量存在映射关系，故由各机器学习模型基于某第二长势影响向量所输出的样本预测长势也将与第二实际长势存在映射关系，基于上述映射关系，可以评价样本预测长势的准确性，若样本预测长势与第二实际长势一致，则预测准确，否则预测不准确。

分别统计每一个机器学习模型所输出的样本预测长势的总体的总识别准确率，以及机器学习模型基于不同长势下的长势识别准确率，以后后续分析。

在一些实施例中，总识别准确率的确定方式包括：

分别获取第二长势影响向量的向量总数量，一机器学习模型输出样本预测长势与第二实际长势相同的第一相同数量，根据向量总数量和第一相同数量确定一机器学习模型的总识别准确率。

其中，某一机器学习模型M的总识别准确率确定方式包括：

Z_i＝R_i/R₀ 公式(4)；

Z_i为总识别准确率，R_i为机器学习模型M输出的样本预测长势与其所对应的第二实际长势相同的样本的数第一相同数量，R₀为第二长势影响向量的向量总数量。

在一些实施例中，长势识别准确率的确定方式包括：

按照第二实际长势分别获取不同长势对应第二长势影响向量的长势数量，不同长势下一机器学习模型输出样本预测长势中与第二实际长势相同的第二相同数量，根据第二相同数量和长势数量确定一机器学习模型的长势识别准确率。

其中，某一机器学习模型M的长势识别准确率确定方式包括：

S_x＝R_x/R_y 公式(5)；

S_x为长势为x时，长势识别准确率，R_x为机器学习模型M输出的样本预测长势与其所对应的第二实际长势均为x的样本的第二相同数量，R_y为第二实际长势为x的长势数量。

通过上述实施方式，通过第二样本数据集来判断步骤S102所训练的各机器学习模型的长势预测效果，通过各模型总的长势预测准确性以及各个长势级别下个模型的长势预测准确性两个维度来综合评价模型预测效果。

步骤S105：获取目标长势影响向量，将目标长势影响向量分别输入各机器学习模型，分别获取若干个目标预测长势。

目标长势影响向量为当前需要预测的目标区域的目标历史长势数据和目标长势影响数据生成。

可选的，目标长势影响数据包括目标时间对应的地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况等可能影响作物长势的因素中至少之一，该目标长势影响数据的获取方式可以采用网络数据收集、现场监测记录等方式实现。

可选的，目标历史长势包括以下至少之一：

目标时间之前的若干个时间段内，目标区域内的目标历史长势，该目标历史长势的确定方式可以采用本领域技术人员所知晓的方式实现；

目标区域的周围区域中目标时间的目标周围长势；

目标区域的周围区域中目标时间之前的目标周围长势。

此时，每一个机器学习模型均输出一个目标预测长势，由于各机器学习模型所对应的预设基础模型不同，故机器学习模型所输出的目标预测长势可能存在不一致的情况，故可以通过步骤S106的方式进一步确定最终预测长势。

可选的，此时可以先对各目标预测长势进行判断，若得到的所有目标预测长势均一致，则直接将目标预测长势作为最终预测长势，否则则执行步骤S106。

步骤S106:根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度。

若各机器学习模型所输出的目标预测正式存在不一致的情形，此时可以通过步骤S106的方式加以判断，以提升最终预测长势的可信度。

在一些实施例中，根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度包括：

将各机器学习模型的总识别准确率从高到低进行排序，得到总识别准确率排序；

将各机器学习模型的长势识别准确率从高到低进行排序，得到长势识别准确率排序；

根据总识别准确率排序和长势识别准确率排序确定该机器学习模型的综合排序；

取综合排序最高的机器学习模型所输出的目标预测长势作为最终预测长势，并将该综合排序最高的机器学习模型所对应的总识别准确率和长势识别准确率中较小的一方作为最终预测长势可信度。

获取各机器学习模型对应的预设影响因子；

将预设影响因子和总识别准确率中最小值作为机器学习模型的可信因子；

根据长势识别准确率，可信因子，各机器学习模型的长势识别准确率，以及各机器学习模型对应的预设影响因子确定可信度；

根据各机器学习模型对应的可信度确定可信模型，并将可信模型输出的目标预测长势作为最终预测长势，将可信模型的可信度作为最终预测长势可信度。

预设影响因子可以由本领域技术人员根据不同类别的预设基础模型来对应设置。其中，预设影响因子大于0且小于1。

可选的，可信度的确定方式(预设的计算公式)包括：

A_i＝S_i*w_i/max(S_b*w_b) 公式(6)；

其中，A_i为可信度，S_i为第i个机器学习模型所输出目标预测长势的长势识别准确率，w₁为第i个机器学习模型的预设影响因子，S_b为第b个机器学习模型的目标预测长势下长势识别准确率，w_b为第b个机器学习模型的预设影响因子，i∈[1，n]，b＝{1……n}，n为机器学习模型的数量，n≥2。

其中，max(S_b*w_b)为各机器学习模型的预设影响因子与长势识别准确率乘积中最大的一个数值。

可选的，可信模型为可信度最大的机器学习模型。

在一些实施例中，该方法还包括：

获取预设长势，并根据预设长势与最终预测长势确定关注参数；

关注参数的确定方式包括：

K＝(S_预测-S_预设)/S_预设

其中，预设长势可以是由本领域技术人员所确定的长势值，也可以是当前目标长势影响向量所在目标区域的去年同期长势，通过将预测长势与去年同期长势进行比对，确定关注参数，该关注参数表征该目标区域需要被关注的程度，以实现预判长势是否会出现异常。

可选的，若关注参数高于预设参数，则可以发出预警，提示该目标区域存在长势异常风险，以便相关作物保险工作人员提前准备。

在一些实施例中，该方法还包括：

当获取到包括若干个区域的新增实际长势数据时，根据各区域所对应的关注参数来确定数据处理顺序。

新增实际长势数据为包括目标区域在内的若干个步骤S106中所预测时间的实际长势数据。若某一个区域的关注参数较高，则说明该区域的预测长势较为不理想，此时优先处理该区域的新增实际长势数据，可以及时的知晓该区域的实际情况，满足相关工作人员的关注。

在一些实施例中，参见图3，第一长势影响向量包括第一长势影响数据，目标长势影响向量包括目标长势影响数据，该方法还包括：

步骤S301：将第一样本数据集中的第一长势影响数据根据第一实际长势划分为若干个长势小组，对每一个长势小组中的第一长势影响数据分别进行聚类处理，得到若干个聚类小组；

步骤S302：将包括数据量排名前N个的聚类小组中长势影响数据作为各第一实际长势所对应的相关长势影响数据，生成长势-相关长势影响数据映射集；

步骤S303：获取目标长势影响向量所对应的预设理想长势；

步骤S304：若预设理想长势优于最终预测长势，根据预设理想长势和长势-相关长势影响数据映射集确定预设理想长势所对应的相关长势影响数据作为理想长势影响数据；

步骤S305：根据目标长势影响数据和理想长势影响数据确定长势调整方案。

其中，预设理想长势为本领域技术人员对目标区域的期望长势。若最终预测长势没有达到预设理想长势，则说明该区域可能存在自然灾害或其他因素导致作物长势不佳，故可以通过对各个长势下的影响因素进行分析，得到预设理想长势所对应的理想长势影响数据，将该理想长势影响数据与目标长势影响数据加以比对，得到两者之间的差异，则可以对应设置长势调整方案，以便影响提升后续长势。

例如，目标长势影响数据和理想长势影响数据均包括地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况中至少之一，根据目标长势影响数据与理想长势影响数据确定长势调整方案包括：

若目标长势影响数据中的降雨量高于理想长势影响数据中的降雨量，增加排水渠；

若目标长势影响数据中的降雨量低于理想长势影响数据中的降雨量，人工降雨或加强灌溉；

若目标长势影响数据中的施肥量低于理想长势影响数据中的施肥量，追肥；

若目标长势影响数据中的虫害量高于理想长势影响数据中的施肥量，喷洒农药或生物驱虫。

将第一样本数据集中的第一长势影响数据根据第一实际长势划分为若干个长势小组，对每一个长势小组中的第一长势影响数据分别进行聚类处理之前，还包括：

获取第一长势影响数据的属性信息，属性信息可以预先进行设定，属性信息包括种类和可调性，可调性包括可调和不可调；

对属性信息包括可调的第一长势影响数据按照种类进行聚类处理。

例如，第一长势数据的种类可能为地貌信息、作物种类、降雨量、气温、施肥情况、虫害情况等，其中地貌信息、作物种类的数据不可调，降雨量、气温、施肥情况、虫害情况的数据可调。

通过对各个长势的主要影响因素进行归纳总结，以知晓若最终预测长势比预设理想长势要差时，则可以根据主要影响因素进行对应的调整，以减少灾害的影响。

本实施例提供了一种基于机器学习模型的长势预测方法，通过获取第一样本数据集，并以此训练若干个不同类别的预设基础模型，获取至少两个机器学习模型，获取第二样本数据集，并将其中的第二长势影响向量分别输入各机器学习模型，输出若干个样本预测长势，根据样本预测长势和第二实际长势分别确定机器学习模型对应的总识别准确率，以及机器学习模型对应的长势识别准确率，将目标长势影响向量分别输入各机器学习模型，分别获取若干个目标预测长势，根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度，不需要依赖于过多的目标长势影响向量所在的目标区域的历史长势数据就能够实现长势预测，且该长势预测的准确性更佳，误差更低。

可选的，通过对预设基础模型进行训练，得到若干个机器学习模型，可以满足各种情况下的长势预测需求，长势预测不再受限于样本数据量的梯度与数量的影响，且通过对机器学习模型的一系列验证，以得到各个机器学习模型的可信度，进而选择相对更加可信的预测长势作为最终预测长势，同时能够提供该最终预测长势的可信度供相关工作人员参考，降低了长势预测的误差，提升了长势预测的准确性，同时有利于对于灾害的有效应对，进而降低灾害的危害程度。

下面通过一个具体的实施例，示例性的说明本实施例提供的遮基于机器学习模型的长势预测方法。

目前，如果某地出现灾害(如干旱、虫灾、暴雨等)，则对该地区的作物长势会存在非常大的影响，而该影响程度往往需要等灾害过后人工实地勘察后才能确定，并进行后续相关操作，在时效性上非常落后。本实施例提供了一种长势预测方法，可以及时的对所需要的预测区域的长势进行预测，以供相关工作人员进行预先准备，避免由于长势波动较大造成的一系列问题(如大面积的保险理赔等)。参见图4，该具体的基于机器学习模型的长势预测方法包括：

步骤S401：长势确定。

长势的确定方式可以通过对每个区域当期长势进行分类，以1-10这是个级别来表示长势最小到长势最大。长势的确定方式为先求出当期所有区域的总平均值以及标准差，算出区域平均值与总平均值的差值作为区域差值，并根据区域差值与标准差的关系确定长势级别。其中，长势可以通过ndvi(植被覆盖指数)确定。植被覆盖指数是通过卫星遥感拍摄的影像中的不可见波段计算得出的。卫星遥感影像可以通过第三方开放平台而获取。也可商业购买获取。

一种示例性的长势分类标注如下：

10—区域差值小于-3*标准差；

9—区域差值落入-3*标准差到-2*标准差之间；

8—区域差值落入-2*标准差到-1*标准差之间；

7—区域差值落入-1*标准差到-0.5*标准差之间；

6—区域差值落入0.5*标准差到0之间；

5—区域差值落入0到0.5*标准差之间；

4—区域差值落入0.5*标准差到1*标准差之间；

3—区域差值落入1*标准差到2*标准差之间；

2—区域差值落入2*标准差到3*标准差之间；

1—区域差值大于3*标准差。

步骤S402：构建第一样本数据集。

第一样本数据包括若干组第一实际长势和第一长势影响向量。

以一组第一实际长势和第一长势影响向量为例，假设同一区域在一年间不会发生剧烈的地理地质变化。其中第一实际长势将会为地点A在2020年7月的实际长势，第一长势影响向量包括但不限于地点A在2020年6月的农作物长势，地点A周边地点在2020年6月的农作物长势，地点A近期(2020年6月之前)的农作物长势，以及宏观参数，例如作物种类，降雨量，气温，施肥，以及虫害等，由上述数据生成第一长势影响向量。

通过若干组上述第一实际长势和第一长势影响向量形成第一样本数据集。

步骤S403：切分第一样本数据集，得到训练集和验证集。

训练集和测试集的生成方式可以参见前述实施例的描述，在此不再赘述。

步骤S404：根据训练集和验证集对预设基础模型进行训练，生成机器学习模型。

可选的，预设基础模型包括但不限于朴素贝叶斯模型和/或非线性支持向量机模型。上述模型的具体公式可见前述实施例，在此不做赘述。

步骤S405：获取目标长势影响向量，并将其输入至机器学习模型，得到目标预测长势。

假设预测区域A在2021年7月的农作物长势，根据现有数据全部地点在2021年6月的农作物长势以及往期数据生成目标长势影响向量。通过机器学习模型来预测某一地点未来的农作物长势，输出一个1-10的长势分类。

可选的，在步骤S404中，可以通过训练集和验证集对不同类型的多个预设基础模型进行训练，得到若干个机器学习模型，在对目标长势影响向量对应的长势进行预测时，可以将该目标长势影响向量输入到多个机器学习模型中，分别得到各机器学习模型的目标预测长势。通过对多个目标预测长势进行判断，若存在至少一个目标预测长势的数值与其他目标预测长势的数值不同，则可以通过以下方式确定最终预测长势：

获取第二样本数据集，该第二样本数据集可以包括第一样本数据集中的至少一部分数据。

将第二样本数据集中的若干个第二长势影响向量分别输入到各机器学习模型中，得到样本预测长势。

基于第二样本数据集中的第二实际长势来统计各机器学习模型的总识别准确率和长势识别准确率；

获取各机器学习模型的预设影响因子，并将预设影响因子和总识别准确率中较小的值作为该机器学习模型的可信因子；

根据长势识别准确率和可信因子确定该机器学习模型的可信参数；

分别确定各机器学习模型的可信参数，并将其中最大的可信参数作为评判参数；

根据评判参数和某机器学习模型的可信参数确定该机器学习模型的可信度；

将各机器学习模型的可信度中最大的值所对应的机器学习模型作为可信模型；

将可信模型输出的目标预测长势作为最终预测长势。

可选的，还可以将可信模型的可信度作为该最终预测长势的最终预测长势可信度。

在一些实施例中，可以将若干个区域的目标长势影响向量输入到机器学习模型中，得到若干个区域的最终预测长势，该方法还包括步骤S406：获取若干个区域的预设长势，并根据预设长势和最终预测长势确定异常区域。

其中，预设长势为目标长势影响向量所对应区域的上期长势，如目标长势影响向量是2020年5月所预测长势对应的数据，则预设长势为2019年5月的实际长势。根据预设长势与最终预测长势进行对比，可以知晓哪些区域的数据存在较大差异，则将这些区域作为异常区域。

在一些实施例中，由于长势监测时往往是针对于很多个区域的长势进行监测，由于数据量巨大，则可以向将预测时发现的异常区域对应的数据优先处理，进而可以尽早的知晓异常区域的实际长势情况。

可选的，对于异常区域，当该方法应用于保险领域是，可以实现想异常区域提前并更有针对性地调动人力和资源。

通过上述方法，对于长势预测不再依靠于海量的历史长势数据，通过机器学习模型更加准确快捷的实现长势预测。还可以实现对于目标长势影响向量所对应的目标区域的长势的预测，可以提前预知目标区域的农作物长势，能够实现预警某些区域农作物长势的剧变，实现异常区域的确定，不仅可以当获取下一期数据之后优先处理这些异常区域对应的数据，提高相关统计计算的优先级，而且可以提前并更有针对性地调动人力和资源。

在一个实施例中，本发明还提供了一种基于机器学习模型的长势预测装置500，参见图5，该装置包括：

第一样本数据集获取模块501，用于获取第一样本数据集，第一样本数据集包括若干组第一实际长势和第一长势影响向量；

训练模块502，用于根据第一样本数据集分别训练若干个不同类别的预设基础模型，获取至少两个机器学习模型；

样本预测长势生成模块503，用于获取第二样本数据集，第二样本数据集包括若干组第二长势影响向量和第二实际长势，将第二长势影响向量分别输入各机器学习模型，输出若干个样本预测长势；

识别准确率确定模块504，用于根据样本预测长势和第二实际长势分别确定机器学习模型对应的总识别准确率，以及机器学习模型对应的长势识别准确率；

目标预测长势确定模块505，用于获取目标长势影响向量，将目标长势影响向量分别输入各机器学习模型，分别获取若干个目标预测长势；

最终预测长势确定模块506，用于根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度。

本实施例中的基于机器学习模型的长势预测装置，通过获取第一样本数据集，并以此训练若干个不同类别的预设基础模型，获取至少两个机器学习模型，获取第二样本数据集，并将其中的第二长势影响向量分别输入各机器学习模型，输出若干个样本预测长势，根据样本预测长势和第二实际长势分别确定机器学习模型对应的总识别准确率，以及机器学习模型对应的长势识别准确率，将目标长势影响向量分别输入各机器学习模型，分别获取若干个目标预测长势，根据各目标预测长势，各目标预测长势所对应机器学习模型的总识别准确率，以及各目标预测长势所对应机器学习模型的长势识别准确率确定目标长势影响向量所对应的最终预测长势，并确定最终预测长势的最终预测长势可信度，不需要依赖于过多的目标长势影响向量所在的目标区域的历史长势数据就能够实现长势预测，且该长势预测的准确性更佳，误差更低。

应当知晓的是，上述基于机器学习模型的长势预测装置实质上是设置了多个模块用以执行上述任一实施例中的基于机器学习模型的长势预测方法，具体功能和技术效果参照上述实施例即可，此处不再赘述。

在一个实施例中，参见图6，本实施例还提供了一种计算机设备700，包括存储器701、处理器702及存储在存储器上并可在处理器上运行的计算机程序，所述处理器702执行所述计算机程序时实现如上任一项实施例所述方法的步骤。

在一个实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项实施例所述方法的步骤。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习模型的长势预测方法，其特征在于，所述方法包括：

根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度；其中，根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度包括，

获取各所述机器学习模型对应的预设影响因子；

2.如权利要求1所述的基于机器学习模型的长势预测方法，其特征在于，所述方法还包括：

所述关注参数的确定方式包括：

K＝(S_预测-S_预设)/S_预设

3.如权利要求1-2任一项所述的基于机器学习模型的长势预测方法，其特征在于，所述第一长势影响向量包括第一长势影响数据，所述目标长势影响向量包括目标长势影响数据，所述方法还包括：

获取目标长势影响向量所对应的预设理想长势；

4.如权利要求1-2任一项所述的基于机器学习模型的长势预测方法，其特征在于，所述第一实际长势和/或第二实际长势的确定方式包括：

根据各所述实际植被覆盖指数确定总平均值及标准差；

根据所述总平均值、标准差和区域平均值确定所述第一实际长势和/或第二实际长势。

5.如权利要求1-2任一项所述的基于机器学习模型的长势预测方法，其特征在于，所述机器学习模型的训练方式包括：

将所述第一样本数据集划分为训练集和验证集；

6.如权利要求1-2任一项所述的基于机器学习模型的长势预测方法，其特征在于，所述预设基础模型包括朴素贝叶斯模型和非线性支持向量机模型；

所述朴素贝叶斯模型包括，

所述非线性支持向量机模型包括，

7.一种基于机器学习模型的长势预测装置，其特征在于，所述装置包括：

最终预测长势确定模块，用于根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度；其中，根据各所述目标预测长势，各所述目标预测长势所对应机器学习模型的总识别准确率，以及各所述目标预测长势所对应机器学习模型的长势识别准确率确定所述目标长势影响向量所对应的最终预测长势，并确定所述最终预测长势的最终预测长势可信度包括，

获取各所述机器学习模型对应的预设影响因子；

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。