CN118036785A - 模型训练方法及模型训练装置、存储介质、电子设备 - Google Patents
模型训练方法及模型训练装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN118036785A CN118036785A CN202211414463.3A CN202211414463A CN118036785A CN 118036785 A CN118036785 A CN 118036785A CN 202211414463 A CN202211414463 A CN 202211414463A CN 118036785 A CN118036785 A CN 118036785A
- Authority
- CN
- China
- Prior art keywords
- data
- crop
- index
- prediction model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 title claims abstract description 85
- 238000003860 storage Methods 0.000 title claims abstract description 25
- 230000012010 growth Effects 0.000 claims abstract description 128
- 238000004088 simulation Methods 0.000 claims abstract description 107
- 238000012544 monitoring process Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 64
- 238000012217 deletion Methods 0.000 claims description 47
- 230000037430 deletion Effects 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 35
- 238000010276 construction Methods 0.000 claims description 27
- 238000005259 measurement Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 18
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000000926 separation method Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 7
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 244000037666 field crops Species 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 6
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 38
- 229910002092 carbon dioxide Inorganic materials 0.000 description 19
- 239000001569 carbon dioxide Substances 0.000 description 18
- 239000002689 soil Substances 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000012876 topography Methods 0.000 description 9
- 241000196324 Embryophyta Species 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000009418 agronomic effect Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 239000003337 fertilizer Substances 0.000 description 4
- 238000003973 irrigation Methods 0.000 description 4
- 230000002262 irrigation Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000005507 spraying Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 230000004720 fertilization Effects 0.000 description 3
- 235000013305 food Nutrition 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 239000000575 pesticide Substances 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009313 farming Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 239000004016 soil organic matter Substances 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 229930002875 chlorophyll Natural products 0.000 description 1
- 235000019804 chlorophyll Nutrition 0.000 description 1
- ATNHDLDRLWWWCB-AENOIHSZSA-M chlorophyll a Chemical compound C1([C@@H](C(=O)OC)C(=O)C2=C3C)=C2N2C3=CC(C(CC)=C3C)=[N+]4C3=CC3=C(C=C)C(C)=C5N3[Mg-2]42[N+]2=C1[C@@H](CCC(=O)OC\C=C(/C)CCC[C@H](C)CCC[C@H](C)CCCC(C)C)[C@H](C)C2=C5 ATNHDLDRLWWWCB-AENOIHSZSA-M 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009333 weeding Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开涉及智慧农业技术领域,提供了一种模型训练方法、模型训练装置、计算机存储介质、电子设备,其中,模型训练方法包括:获取关于农业大田的第一仿真数据集和第一实测数据集;利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型。本公开能够解决相关技术中理想化状态所得到的经验模型无法完全适用于大田作物的生长监测之中的技术问题,降低了模型的预测误差,提升了模型的预测准确度与模型适用度。
Description
技术领域
本公开涉及智慧农业技术领域,特别涉及一种模型训练方法、模型训练装置、计算机存储介质及电子设备。
背景技术
随着现代农业由机械化自动化向数字化智能化方向的转型,依托于农业物联网的智慧农业平台越来越多的应用于农场的日常运营活动中,以进行作物的日常生长监测与农场的运营决策。
目前针对于大田作物的相关指标预测模型往往是通过实验室培育的形式,或者是基于传统经验模型的要素驱动的形式,然而,通过上述方案所获得的模型预测准确度较低。
鉴于此,本领域亟需开发一种新的模型训练方法及装置。
需要说明的是,上述背景技术部分公开的信息仅用于加强对本公开的背景的理解。
发明内容
本公开的目的在于提供一种模型训练方法、模型训练装置、计算机存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的模型可参考价值低的技术问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种模型训练方法,包括:获取关于农业大田的第一仿真数据集和第一实测数据集;所述第一仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括对所述农业大田进行实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
在本公开的示例性实施例中,所述作物物候期预测模型通过以下方式训练得到:获取关于所述农业大田的第二仿真数据集和第二实测数据集;所述第二仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息;所述第二实测数据集包括对所述农业大田进行实地跟踪监测得到作物关联数据及作物物候期信息;利用所述第二仿真数据集对第二待训练模型进行预训练,生成简易作物物候期预测模型;利用所述第二实测数据集对所述简易作物物候期预测模型进行再训练,生成所述作物物候期预测模型;其中,所述作物物候期预测模型用于根据采集到的作物生长参数预测出作物的物候期预测信息。
在本公开的示例性实施例中,所述农业大田包括预先划分好的多个子区域,每个子区域中分布有多种传感器,所述作物生长环境数据包括分布于所述每个子区域的多种传感器所采集到的多种指标数据序列;在获取到所述第一实测数据集之后,所述方法还包括:对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列;将所述多个子区域所对应的每种标准化序列进行加权融合,得到每种指标对应的融合序列;根据所述多种指标对应的多种融合序列更新所述作物生长环境数据,以更新所述第一实测数据集;利用更新后的所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成所述作物产量预测模型。
在本公开的示例性实施例中,所述对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列,包括:对所述指标数据序列中所包含的每个指标数据进行索引构建处理;对所述索引构建处理之后的指标数据序列进行异常值剔除处理;对所述异常值剔除处理之后的指标数据序列进行缺失值重构处理;对所述缺失值重构处理之后的指标数据序列进行噪声分离处理,获得所述标准化序列。
在本公开的示例性实施例中,所述对所述指标数据序列中所包含的每个指标数据进行索引构建处理,包括:按照每种传感器所对应的预设采集天数和预设采集间隔时长,判断所述指标数据序列中所包含的数据量是否满足等于预设数据量;响应于所述数据量等于预设数据量,按照所述每个指标数据的采集时间或所述指标数据序列的总数据量构建每个指标数据对应的时间索引;响应于所述数据量不等于所述预设数据量,按照所述每个指标数据的采集时间构建所述每个指标数据对应的时间索引。
在本公开的示例性实施例中,所述对所述索引构建处理之后的指标数据序列进行异常值剔除处理,包括:判断所述索引构建处理之后的指标数据序列中是否存在异常值;响应于所述指标数据序列中存在所述异常值,剔除所述异常值。
在本公开的示例性实施例中,所述判断所述索引构建处理之后的指标数据序列中是否存在异常值,包括:按照所述时间索引由小到大的顺序,遍历所述指标数据序列中的指标数据;计算相邻两个指标数据序列之间的差值;计算所述差值与所述相邻两个指标数据序列中时间索引较小的指标数据序列之间的比值;若所述比值小于预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列不是所述异常值;若所述比值大于或等于所述预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列为所述异常值。
在本公开的示例性实施例中,所述对所述异常值剔除处理之后的指标数据序列进行缺失值重构处理,包括:定位所述异常值剔除处理之后的指标数据序列中的缺失值;根据所述缺失值所对应的时间索引确定数据缺失类型;所述数据缺失类型包括单个数据缺失和片状数据缺失;根据所述数据缺失类型,重构所述缺失值。
在本公开的示例性实施例中,所述根据所述数据缺失类型,重构所述缺失值,包括:响应于所述数据缺失类型为所述单个数据缺失,根据与所述缺失值的时间索引相邻的指标数据确定所述缺失值,以对所述缺失值进行重构处理;响应于所述数据缺失类型为所述片状数据缺失,利用所述缺失值的关联值和训练好的数据重构模型预测出所述缺失值,以对所述缺失值进行重构处理;其中,所述缺失值的关联值包括所述位于缺失值中时间索引最小的缺失值之前的N个指标数据序列,以及,位于所述缺失值中时间索引最大的缺失值之后的N个指标数据序列;N为大于1的整数。
在本公开的示例性实施例中,所述数据重构模型通过以下方式训练得到:确定M个目标传感器,所述目标传感器与所述传感器的分布位置满足预设位置关系,并且,所述目标传感器所采集的目标指标数据序列中所包含的数据量满足预设数据量条件;M为大于1的整数;利用所述M个目标传感器采集到的目标指标数据序列训练第三待训练模型,生成所述数据重构模型。
在本公开的示例性实施例中,所述对所述缺失值重构后的指标数据序列进行噪声分离处理,获得所述标准化序列,包括:利用小波变换对所述缺失值重构后的指标数据序列进行噪声分离,得到所述标准化序列。
在本公开的示例性实施例中,在对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列之后,所述方法还包括:按照时间索引对每种指标对应的标准化序列进行数据分割,得到多个第一数据片段;对所述第一仿真数据集中的每种指标数据序列进行数据分割,得到多个第二数据片段;计算各所述第一数据片段与各所述第二数据片段之间的相似度;将所述相似度小于预设相似度阈值的第二数据片段从所述第一仿真数据集中剔除,以更新所述第一仿真数据集;利用更新后的所述第一仿真数据集对所述第一待训练模型进行预训练,生成所述简易作物产量预测模型。
在本公开的示例性实施例中,所述利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型,包括:保留所述简易作物产量预测模型中的部分参数,利用所述第一实测数据集对所述简易作物产量预测模型中的剩余参数进行再训练,生成所述作物产量预测模型。
在本公开的示例性实施例中,在生成作物产量预测模型之后,所述方法还包括:将利用作物物候期预测模型预测出的物候期预测信息以及采集到的作物生长环境数据输入至所述作物产量预测模型中,根据所述作物产量预测模型的输出,得到作物产量预测值;获取作物产量实际值,并计算所述作物产量预测值和所述作物产量实际值之间的损失值;响应于所述损失值大于预设损失值阈值,对所述作物产量预测模型进行重新训练。
根据本公开的第二方面,提供一种模型训练装置,包括:数据获取模块,用于获取第一仿真数据集和第一实测数据集;所述第一仿真数据集包括历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括基于实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;预训练模块,用于利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;再训练模块,用于利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
根据本公开的第三方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的模型训练方法。
根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面所述的模型训练方法。
由上述技术方案可知,本公开示例性实施例中的模型训练方法、模型训练装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的一些实施例所提供的技术方案中,本公开通过获取关于农业大田的第一仿真数据集和第一实测数据集,利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型,利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型。一方面,通过利用历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量,本公开能够解决相关技术中缺乏模型训练数据的问题,提出了一种新的训练数据的生成解决方案。另一方面,通过先利用仿真数据集对模型进行预训练,再利用实测数据集对模型进行再训练,本公开能够解决相关技术中理想化状态所得到的经验模型无法完全适用于大田作物的生长监测之中的技术问题,降低了模型的预测误差,提升了模型的预测准确度与模型适用度。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开实施例中模型训练方法的流程示意图;
图2示出本公开实施例中作物物候期预测模型的训练过程示意图;
图3示出本公开实施例中另一种获得作物产量预测模型的流程示意图;
图4示出本公开实施例中对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列的流程示意图;
图5示出本公开实施例中对指标数据序列中所包含的每个指标数据进行索引构建处理的流程示意图;
图6示出本公开实施例中对索引构建处理之后的指标数据序列进行异常值剔除处理的流程示意图;
图7示出本公开实施例中对异常值剔除处理之后的指标数据序列进行缺失值重构处理的流程示意图;
图8示出本公开实施例中根据数据缺失类型,重构缺失值的流程示意图;
图9示出本公开实施例中如何训练得到上述数据重构模型的流程示意图;
图10示出本公开实施例中另一种生成简易作物产量预测模型的流程示意图;
图11示出本公开实施例中根据作物产量预测模型的损失值确定是否对该作物产量预测模型进行重新训练的流程示意图;
图12示出本公开实施例中如何得到农业大田中每种指标的融合序列的流程示意图;
图13示出本公开实施例中如何获取并更新仿真数据集的流程示意图;
图14示出本公开实施例中如何利用仿真数据集和实测数据集训练模型的流程示意图;
图15示出本公开实施例中一种模型训练系统的示意图;
图16示出本公开示例性实施例中模型训练装置的结构示意图;
图17示出本公开示例性实施例中电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
目前,针对于大田作物的相关指标预测模型往往是通过实验室培育的形式,通过控制作物生长环境数据的变量而获取的理想模型,或者是基于传统经验模型的要素驱动的方法(又称要素模型驱动的作物生长模型生成方法)生成的,例如:以CO2驱动的WOFOST(World Food Studies,世界粮食研究)、EPIC(Environmental Policy-IntegratedClimate,一个定量评价“气候-土壤-作物-管理”系统的综合动力学模型)、以光能驱动的SAFY(Simple algorithm for yield estimates,产量估计的简单算法)、CERES(作物生长模型)、以水分驱动的AquaCrop(作物-水生产力模型)、以植物属性(如禾本植物的WheatGrow等)为基础的大田作物区域作物模型。
然而,上述方案具有以下缺陷:
第一,针对于具体农场的大田作物而言,由于其生长的地域范围往往很大,地势地形(洼地、高地、平地)差别明显,其所依赖的气象环境、土壤墒情、农业管理(施肥、喷药)决策等因素之间的联系复杂且多变,且无法针对单株作物进行生长监测,上述原因使得理想化状态所得到的经验模型无法完全适用于大田作物的生长监测之中;
第二,大多数作物所生长的环境极为复杂,无法通过准确的实验来得到不变的作物模型;
第三,上述模型由于对变量间的约束关系较多,故在实际的大田作物生长中往往误差会很大;
第四,由于作物的生命周期很长,其生长数据的获取需要一个很漫长的过程,而基于深度学习神经网络等方法又需要大量数据的训练,因而,纯粹的基于机器学习的方法也无法得到农场级别区域尺度范围内的大田作物生长的个性化作物模型。
综上,现有的作物生长模型构建方法或者纯粹的基于机器学习的方法都无法得到农场级别区域的大尺度范围的大田作物生长的个性化作物模型。
本公开旨在将实验室或是传统经验模型中的作物知识与实时采集的农业物联网数据(例如:作物相关的图像数据、地面传感器数据、卫星遥感数据等)相结合用于大田作物模型的训练生成中。
在本公开的实施例中,首先提供了一种模型训练方法,至少在一定程度上克服相关技术中预测准确度较低的缺陷。
图1示出本公开实施例中模型训练方法的流程示意图,该模型训练方法的执行主体可以是对作物产量预测模型进行训练的服务器。
参考图1,根据本公开的一个实施例的模型训练方法包括以下步骤:
步骤S110,获取关于农业大田的第一仿真数据集和第一实测数据集;第一仿真数据集包括农业大田在历史时段的作物生长环境数据以及基于历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;第一实测数据集包括对农业大田进行实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;作物关联数据至少包括作物生长环境数据;
步骤S120,利用第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;
步骤S130,利用第一实测数据集对简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
在图1所示实施例所提供的技术方案中,一方面,本公开通过获取关于农业大田的第一仿真数据集和第一实测数据集,利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型,利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型。一方面,通过利用历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量,本公开能够解决相关技术中缺乏模型训练数据的问题,提出了一种新的训练数据的生成解决方案。另一方面,通过先利用仿真数据集对模型进行预训练,再利用实测数据集对模型进行再训练,本公开能够解决相关技术中理想化状态所得到的经验模型无法完全适用于大田作物的生长监测之中的技术问题,降低了模型的预测误差,提升了模型的预测准确度与模型适用度。
以下对图1中的各个步骤的具体实现过程进行详细阐述:
在步骤S110中,获取关于农业大田的第一仿真数据集和第一实测数据集。
本步骤中,可以获取关于农业大田的第一仿真数据集X和第一实测数据集Y。农业大田指的是种植区域面积广而且地势平坦,以连片的平原为主,非常适合大规模的机械化作业,种植区域内气候复杂多变的大片田地。
上述第一仿真数据集可以包括农业大田在历史时段的作物生长环境数据以及基于历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量。
上述历史时段的作物生长环境数据可以是过去某个时间段农业大田的作物生长环境数据,也可以是过去某一年农业大田的作物生长环境数据,还可以是过去某几年(例如:5年,可以根据实际情况自行设定)农业大田的作物生长环境数据的加权数据等,均可以根据实际情况自行设定,本公开对此不作特殊限定。
作物生长环境数据即与作物生长环境密切相关的指标数据序列,示例性的,可以包括通过分布于农业大田内不同位置的传感器所采集到的多种指标数据序列,例如:空气温湿度数据、土壤温湿度数据、降雨量数据、二氧化碳浓度数据、光照强度数据等,还可以包括土壤质地(例如:土壤有机质含量、土壤厚度、土壤含水量、土壤温湿度等)及土壤墒情数据,还可以包括农业大田的高程坡度数据等,可以根据实际情况自行设定,本公开对此不作特殊限定。其中,上述传感器可以包括以下任意一个或多个:空气温湿度传感器、土壤温湿度传感器、二氧化碳浓度传感器、光强传感器、降水量传感器和风速传感器,可以根据实际情况自行设定,本公开对此不作特殊限定。
需要说明的是,在获取到历史时段大田的作物生长环境数据之后,为了保证获取到的数据粒度尽可能的小,本公开可以根据农业大田的农事作业数据或农业大田的地形地势信息等,预先将上述农业大田划分为多个子区域(举例而言,若该农业大田包含300亩,设置了300个水肥一体机,每个水肥一体机控制1亩地的灌溉,则可以将该农业大田划分为300个子区域;或者,农业大田中包含地势不同的多块小区域,例如:洼地、高地等,进而,可以根据所处的不同地势,将农业大田划分为多个子区域),进而,根据不同传感器所处的子区域,划分出每个子区域所分布的每种传感器所对应的指标数据序列。
可选的,可以通过以下方式获得基于历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量:
第一,构建一作物实验-理化模型数据库,该数据库中可以包括海量作物生长实验知识以及多种传统的理化参数模型,例如:以CO2驱动的WOFOST(World Food Studies)、EPIC(Environmental Policy-Integrated Climate)、光能驱动的SAFY(Simple algorithmfor yield estimates)、CERES;以水分驱动的AquaCrop、以植物属性如禾本植物的WheatGrow等,可以根据实际情况自行设定,本公开对此不作特殊限定。
第二,根据上述农业大田中所种植的作物的类别,为该作物选取合适的理化参数模型,例如:WOFOST模型。
第三,将上述历史时段的作物生长环境数据输入上述理化参数模型中,模拟关于作物生长的多个回合的生长过程,以获得作物生长数据、作物物候期信息和作物产量。当选取出的合适的理化参数模型的数量为一个时,则可以直接得到上述作物生长数据、作物物候期信息和作物产量。而当选取出的合适的理化参数模型的数量为多个时,则需要进行数据的归类、整理等,以得到上述作物生长数据、作物物候期信息和作物产量。
物候期是指动植物的生长、发育、活动等规律与生物的变化对节候的反应,正在产生这种反应的时候叫物候期。以作物玉米为例,上述物候期可以包括:播种、发芽、拔节、抽穗、结果、果实膨大、果实成熟、叶片发黄、休眠(枯萎)出苗等节点,上述作物物候期信息可以是不同节点的到来时间、持续时间等。
作物产量即按作物栽培目的所收获的主产品的干物质总量。
上述第一实测数据集包括对农业大田进行实地跟踪检测所得到的作物关联数据、作物物候期信息及作物产量。
其中,上述作物关联数据可以包括以下任意一个或多个:
作物生长环境数据:即与作物生长环境数据相关的数据。可以包括通过分布于农业大田内不同位置的传感器所采集到的多种指标数据序列,例如:空气温湿度数据、土壤温湿度数据、降雨量数据、二氧化碳浓度数据、光照强度数据等,还可以包括土壤质地(例如:土壤有机质含量、土壤厚度、土壤含水量、土壤温湿度等)及土壤墒情数据,还可以包括农业大田的高程坡度数据等,可以根据实际情况自行设定,本公开对此不作特殊限定。其中,上述传感器可以包括以下任意一个或多个:空气温湿度传感器、土壤温湿度传感器、二氧化碳浓度传感器、光强传感器、降水量传感器和风速传感器,可以根据实际情况自行设定,本公开对此不作特殊限定。
作物生长数据:即反映作物在不同时期的生长状况的相关数据,例如:叶片宽度、叶片面积、叶绿素含量、株高、叶面积指数等;
作物种植数据:即农业大田中所种植的作物信息,例如:作物种类、作物种植面积等;
传感器分布数据:即农业大田中所设置的多种传感器的分布信息,例如:分布位置、不同位置的分布数量等。
农事设施分布数据:即农业大田中所安装的各种农事设施的分布信息,例如:分布位置、分布数目等,其中,农事设施指的是农事作业所用到的设施,例如:施肥机器、农药喷洒机器等。
农事作业数据:即例如:除草次数、施肥次数、施肥量、灌溉量、灌溉次数、农药喷洒次数、农药喷洒量等。
在步骤S120中,利用第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型。
本步骤中,可以利用上述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型。
示例性的,可以将上述第一仿真数据集输入至上述第一待训练模型中,不断调整参数以对上述第一待训练模型进行迭代训练,直至上述待训练模型的损失函数趋于收敛,得到上述简易作物产量预测模型。
其中,上述第一待训练模型可以是神经网络模型,例如:CNN(ConvolutionalNeural Networks,卷积神经网络,)、RNN(Recurrent Neural Network,循环神经网络,)、LSTM(Long Short Term Memory,长短期记忆)等,可以根据实际情况自行设定,本公开对此不作特殊限定。
在训练得到简易作物产量预测模型之后,可以进入步骤S130中,利用第一实测数据集对简易作物产量预测模型进行再训练,生成作物产量预测模型。
本步骤中,可以将上述第一实测数据集输入至上述简易作物产量预测模型中,并不断调整参数对上述简易作物产量预测模型进行迭代训练,直至上述简易作物产量预测模型的损失函数趋于收敛,得到上述作物产量预测模型。
需要说明的是,在对上述简易作物产量预测模型进行迭代训练的时候,可以选取靠近网络层的参数进行冻结,即保持这些参数不变,而只对简易作物产量预测模型中的部分参数进行调整,以实现对简易作物产量预测模型的迭代训练,以此实现对作物生长知识的保留共享。
其中,上述作物产量预测模型的作用可以是:根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
需要说明的是,上述作物物候期预测模型可以用于根据采集到的作物生长参数预测出作物的物候期预测信息。示例性的,参考图2,图2示出本公开实施例中作物物候期预测模型的训练过程示意图,包含步骤S201-步骤S203:
在步骤S201中,获取关于农业大田的第二仿真数据集和第二实测数据集。
本步骤中,第二仿真数据集Z可以包括农业大田在历史时段的作物生长环境数据以及基于历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息。第二实测数据集W可以包括对农业大田进行实地跟踪监测得到作物关联数据及作物物候期信息。上述数据的具体含义及类型可以参考上述步骤S110的相关解释,此处不再赘述。
在步骤S202中,利用第二仿真数据集对第二待训练模型进行预训练,生成简易作物物候期预测模型。
本步骤中,可以将上述第二仿真数据集输入上述第二待训练模型中,不断调整参数以对上述第二待训练模型进行迭代训练,直至上述待训练模型的损失函数趋于收敛,得到上述简易作物物候期预测模型。
其中,上述第二待训练模型可以是神经网络模型,例如:CNN(ConvolutionalNeural Networks,卷积神经网络,)、RNN(Recurrent Neural Network,循环神经网络,)、LSTM(Long Short Term Memory,长短期记忆)等,可以根据实际情况自行设定,本公开对此不作特殊限定。
在训练得到简易作物物候期预测模型之后,可以进入步骤S203中,利用第二实测数据集对简易作物物候期预测模型进行再训练,生成作物物候期预测模型。
本步骤中,可以将上述第二实测数据集输入至上述简易作物物候期预测模型中,并不断调整参数对上述简易作物物候期预测模型进行迭代训练,直至上述简易作物物候期预测模型的损失函数趋于收敛,得到上述作物物候期预测模型。
需要说明的是,在对上述简易作物物候期预测模型进行迭代训练的时候,可以选取靠近网络层的参数进行冻结,即保持这些参数不变,而只对简易作物物候期预测模型中的部分参数进行调整,以实现对简易作物物候期预测模型的迭代训练,以此实现对作物生长知识的保留共享。
参照上述步骤的相关解释,为了保证获取到的数据粒度尽可能的小,本公开可以根据农业大田的农事作业数据或农业大田的地形地势信息等,预先将上述农业大田划分为多个子区域(举例而言,若该农业大田包含300亩,设置了300个水肥一体机,每个水肥一体机控制1亩地的灌溉,则可以将该农业大田划分为300个子区域;或者,农业大田中包含地势不同的多块小区域,例如:洼地、高地等,进而,可以根据所处的不同地势,将农业大田划分为多个子区域),进而,在每个子区域中设置多个用于采集不同指标的一个或多个传感器,以通过每个子区域的多种传感器采集多种指标数据序列。在获取到上述第一实测数据集之后,可以对指标数据序列进行标准化处理,以更新第一实测数据集,进而,可以利用更新后的第一实测数据集对上述简易作物产量预测模型进行再训练,生成作物产量预测模型。
具体的,参考图3,图3示出本公开实施例中另一种获得作物产量预测模型的流程示意图,包含步骤S301-步骤S304:
在步骤S301中,对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列。
本步骤中,针对每个子区域的每种传感器所采集到的指标数据序列,可以对其进行标准化处理,以得到标准化序列。需要说明的是,步骤S301的相关处理过程同样适用于以下场景:对第二实测数据集W中所包含的每个子区域的每种传感器所采集到的指标数据序列进行标准化处理,得到每种指标对应的标准化序列。
通过数据标准化处理,能够保证数据准确度,同时还能使得数据更加有序化,解决相关技术中直接利用传感器采集的数据进行模型训练过程所导致的模型训练速度较慢,并且训练误差较大等问题,提升的训练速度和模型准确度。
其中,上述标准化处理可以包括:索引构建处理处理、异常值剔除处理、缺失值重构处理和噪声分离处理。
具体的,参考图4,图4示出本公开实施例中对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列的流程示意图,包含步骤S401-步骤S404:
在步骤S401中,对指标数据序列中所包含的每个指标数据进行索引构建处理。
本步骤中,索引构建处理即构建指标数据序列中每个指标数据对应的时间索引。参考图5,图5示出本公开实施例中对指标数据序列中所包含的每个指标数据进行索引构建处理的流程示意图,包含步骤S501-步骤S503:
在步骤S501中,按照每种传感器所对应的预设采集天数和预设采集间隔时长,判断每种传感器采集到的指标数据序列中所包含的数据量是否满足等于预设数据量。
本步骤中,可以按照每个子区域的每种传感器所对应的预设采集天数(例如:100天,可以根据实际情况自行设定,本公开对此不作特殊限定)和预设采集间隔时长(例如:1小时,可以根据实际情况自行设定,本公开对此不作特殊限定),判断指标数据序列中所包含的数据量是否等于预设数据量。以分布在任一子区域S的某一二氧化碳浓度传感器,以其预设采集天数为100天,预设采集间隔时长为1小时(即每天采集24个指标数据序列)为例进行说明,则该二氧化碳浓度传感器所采集的指标数据序列中包含的预设数据量应为:100*24=2400个指标数据。从而,可以将该指标数据序列中实际所包含的数据量与上述预设数据量2400进行比较,以确定该指标数据序列中所包含的数据量是否等于2400。
在步骤S502中,响应于数据量等于预设数据量,按照每个指标数据的采集时间或指标数据序列的总数据量构建每个指标数据对应的时间索引。
本步骤中,若上述传感器所采集到的数据量等于上述预设数据量,则可以按照每个指标数据的采集时间构建每个指标数据对应的时间索引,即参照上述步骤S501的解释,若上述二氧化碳浓度传感器所采集到的指标数据序列为2400个,则可以直接将每个指标数据的采集时间确定为每个指标数据对应的时间索引,或者,也可以按照采集时间由前到后的顺序,将1-2400确定为上述指标数据序列中各个指标数据的时间索引,可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S503中,响应于数据量不等于预设数据量,按照每个指标数据的采集时间构建每个指标数据对应的时间索引。
本步骤中,参照上述步骤S501的相关解释,若上述二氧化碳浓度传感器所采集到的数据量不等于上述2400个,例如:小于2400个或者大于2400个的情况,此时,可以按照每个指标数据的采集时间构建其时间索引。
在完成索引构建处理之后,接着参考图4,在步骤S402中,对索引构建处理之后的指标数据序列进行异常值剔除处理。
本步骤中,异常值可以是重复值或数值明显偏离实际的值。参考图6,图6示出本公开实施例中对索引构建处理之后的指标数据序列进行异常值剔除处理的流程示意图,包含步骤S601-步骤S602:
在步骤S601中,判断索引构建处理之后的指标数据序列中是否存在异常值。
本步骤中,示例性的,以分布于上述子区域S的二氧化碳传感器所对应的索引构建处理之后的指标数据序列为{y1,y2,…,yK-1,yK}为例进行说明,则从y1到yK所对应的时间索引依次增大,从而,可以按照时间索引由小到大的顺序,遍历上述指标数据序列中的指标数据,并计算相邻两个指标数据之间的差值,再计算差值与相邻两个指标数据中时间索引较小的指标数据之间的比值,若比值小于预设比值阈值,确定相邻两个指标数据中时间索引较大的指标数据序列不是异常值,若比值大于或等于预设比值阈值,确定相邻两个指标数据中时间索引较大的指标数据为异常值。
举例而言,可以先遍历y1和y2,针对这两个数据而言,y1为时间索引较小的指标数据,而y2为时间索引较大的指标数据,从而,可以计算进而,将/>与预设比值阈值δ进行比较,若/>小于δ,则可以y2确定不是异常值,若/>大于或等于δ,则可以y2确定是异常值。
接着,可以遍历y2和y3,针对这两个数据而言,y2为时间索引较小的指标数据,而y3为时间索引较大的指标数据,从而,可以计算进而,将/>与预设比值阈值δ进行比较,若/>小于δ,则可以y3确定不是异常值,若/>大于或等于δ,则可以y3确定是异常值。
重复执行上述步骤,直至遍历到yK-1和yK,以确定出yK是否为异常值为止,退出循环。
在步骤S602中,响应于指标数据序列中存在异常值,剔除异常值。
本步骤中,在确定出指标数据序列中的异常值之后,可以直接剔除该异常值。
接着参考图4,在步骤S403中,对异常值剔除处理之后的指标数据序列进行缺失值重构处理。
本步骤中,鉴于在上述步骤S602中,剔除了部分异常值,指标数据序列中可能存在某些时间索引下没有指标数据。参考图7,图7示出本公开实施例中对异常值剔除处理之后的指标数据序列进行缺失值重构处理的流程示意图,包含步骤S701-步骤S703:
在步骤S701中,定位异常值剔除处理之后的指标数据序列中的缺失值。
本步骤中,可以定位异常值剔除处理之后的指标数据序列中的缺失值,示例性的,定位缺失值可以是定位缺失值所对应的时间索引。
在步骤S702中,根据缺失值所对应的时间索引确定数据缺失类型。
本步骤中,示例性的,以按照数据总量构建时间索引为例进行说明,则假设缺失值对应的时间索引为75,25-30为例进行说明,则时间索引为75的数据缺失类型为单个数据缺失,而时间索引为25-30的数据缺失类型为片状数据缺失。
在步骤S703中,根据数据缺失类型,重构缺失值。
本步骤中,参考图8,图8示出本公开实施例中根据数据缺失类型,重构缺失值的流程示意图,包含步骤S801-步骤S802:
在步骤S801中,响应于数据缺失类型为单个数据缺失,根据与缺失值的时间索引相邻的指标数据确定缺失值,以对缺失值进行重构处理。
本步骤中,当数据缺失类型为单个数据缺失时,可以根据与缺失值的时间索引相邻的指标数据确定出缺失值,以对缺失值进行重构处理,示例性的,针对上述时间索引为75的缺失值,则可以获取时间索引为74的指标数据和时间索引为76的指标数据,将这两个数据进行加权平均,得到上述时间索引为75的缺失值。
在步骤S802中,响应于数据缺失类型为片状数据缺失,利用缺失值的关联值和训练好的数据重构模型预测出缺失值,以对缺失值进行重构处理。
本步骤中,当确定出数据缺失类型为片状数据缺失时,可以将位于缺失值中时间索引最小的缺失值之前的N(N为大于1的整数)个指标数据,以及,位于缺失值中时间索引最大的缺失值之后的N个指标数据输入训练好的数据重构模型中,进而,利用上述数据重构模型预测出上述缺失值,以对缺失值进行重构处理。
具体的,以上述缺失值为25-30,以N为24为例进行说明,则可以选取位于时间索引25之前的时间索引为1-24的指标数据,以及,位于时间索引30之后的时间索引为31-54的指标数据序列,将这些指标数据输入训练好的数据重构模型中,根据该数据重构模型的输出,得到上述缺失值的重构结果。
参考图9,图9示出本公开实施例中如何训练得到上述数据重构模型的流程示意图,包含步骤S901-步骤S902:
在步骤S901中,确定M个目标传感器,目标传感器与传感器的分布位置满足预设位置关系,并且,目标传感器所采集的目标指标数据序列中所包含的数据量满足预设数据量条件;M为大于1的整数。
本步骤中,仍以该传感器为上述位于子区域S的二氧化碳浓度传感器为例进行说明,则可以获取与该二氧化碳浓度传感器距离最近,并且,采集到的数据量满足预设数据量条件的M个二氧化碳浓度传感器作为目标传感器。具体的,可以初步确定出R个二氧化碳浓度传感器(R大于M),进而,判断这些传感器所采集到的目标指标数据序列中所包含的数据量是否等于根据这些传感器所对应预设采集天数和预设采集间隔时长计算出来的预设数据量,若等于该预设数据量,则确定满足预设数据量条件,否则,不满足预设数据量条件,以从上述R个二氧化碳浓度传感器中筛选出上述M个目标传感器。示例性的,M可以取4,可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S902中,利用M个目标传感器采集到的目标指标数据序列输入至训练第三待训练模型,生成数据重构模型。
本步骤中,可以将上述M个目标传感器采集到的目标指标数据序列,按照6个时间索引作为长度,1个单位的距离按照滑动时间窗口的方式进行训练数据的构建,进而,将构建好的训练数据投入到双向RNN网络中进行块状数据重构,进而,将重构的块状数据输入至上述第三待训练模型中,以对上述第三待训练模型进行迭代训练,直至上述第三待训练模型的损失函数趋于收敛,得到训练好的数据重构模型。其中,第三待训练模型可以是LSTM或者GRU(Gated Recurrent Unit,门控循环单元),可以根据实际情况自行设定,本公开对此不作特殊限定。
接着参考图4,在步骤S404中,对缺失值重构处理之后的指标数据序列进行噪声分离处理,获得标准化序列。
本步骤中,可以利用小波变换对缺失值重构后的指标数据序列进行噪声分离,得到标准化序列,从而能够得到干净的时间序列。噪声是指数据中存在着错误或异常(偏离期望值)的数据,这些数据对数据的分析造成了干扰。
其中,小波变换(wavelet transform,WT)是一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。它的主要特点是通过变换能够充分突出问题某些方面的特征,能对时间(空间)频率的局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,解决了Fourier变换的困难问题,成为科学方法上的重大突破。
需要说明的是,在步骤S301之后,在步骤S302之前,鉴于广粗粒度的数据集的建立容易造成大田作物生长知识的负迁移,尤其是将农业大田作物以块为单位进行训练时,与此同时大田作物作物所符合的理化模型并非单一,为了避免这种负迁移,可以通过将作物生长的多维度时间序列数据进行分割,通过计算多个数据片段之间的相似度,并根据相似度对第一仿真数据集中的作物生长环境数据中所包含的每种指标数据序列进行筛选,来尽可能的避免第一仿真数据集中的生长知识过于分散。
具体的,可以参考图10,图10示出本公开实施例中另一种生成简易作物产量预测模型的流程示意图,包含步骤S1001-步骤S1005:
在步骤S1001中,按照时间索引对每种指标对应的标准化序列进行数据分割,得到多个第一数据片段。
本步骤中,在得到每种指标对应的融合序列之后,可以按照时间索引将每种指标对应的标准化序列进行数据分割,得到多个第一数据片段,例如:将每24个时间索引所对应的指标数据划分为一个第一数据片段,可以根据实际情况自行设定,本公开对此不作特殊限定。
在步骤S1002中,对第一仿真数据集中的每种指标数据序列进行数据分割,得到多个第二数据片段。
本步骤中,可以对第一仿真数据集中的作物生长环境数据中所包含的每种指标数据序列进行类似上述步骤S1001的数据分割,以得到多个第二数据片段。
在步骤S1003中,计算各第一数据片段与各第二数据片段之间的相似度。
本步骤中,可以利用动态时间规整、余弦相似度等方式计算各个第一数据片段和第二数据片段之间的相似度。
其中,动态时间规整算法主要是计算第一数据片段与第二数据片段之间的距离矩阵,然后寻找一条路径从左上角到右下角的元素之和最小化,该方法用于计算两个时序数据之间轮廓的相似度。
在步骤S1004中,将相似度小于预设相似度阈值的第二数据片段从第一仿真数据集中剔除,以更新第一仿真数据集。
本步骤中,在计算出相似度之后,可以将相似度小于预设相似度阈值的第二数据片段从第一仿真数据集中剔除,以更新上述第一仿真数据集。
在步骤S1005中,利用更新后的第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型。
本步骤中,可以利用更新后的第一仿真数据集对上述第一待训练模型进行预训练,以生成简易作物产量预测模型。从而,提升简易作物产量预测模型中的预测准确度。
需要说明的是,图10中的相关处理过程同样可以适用于以下场景:按照时间索引对第二实测数据集所包含的每个子区域中每种传感器所对应的标准化序列进行数据分割,得到多个第三数据片段,对第二仿真数据集中所包含的每个子区域中每种传感器所采集到的每种指标数据序列进行数据分割,得到多个第四数据片段,进而,根据各个第三数据片段和第四数据片段的相似度,更新第二仿真数据集,并利用更新后的第二仿真数据集对第二待训练模型进行预训练,生成简易物候期预测模型。
接着参考图3,在步骤S302中,将多个子区域所对应的每种标准化序列进行加权融合,得到每种指标对应的融合序列。
本步骤中,示例性的,以农业大田总共被划分为300个子区域,每个子区域中各分布一个二氧化碳浓度为例进行说明,则可以将上述300个子区域所对应的300个二氧化碳所对应的300种标准化序列进行加权融合,得到农业大田的二氧化碳浓度指标对应的融合序列。类似的,可以得到每种指标对应的融合序列。
接着参考图3,在步骤S303中,根据多种指标对应的多种融合序列更新作物生长环境数据,以更新第一实测数据集。
本步骤中,还可以利用多种指标对应的多种标准数据集更新第一实测数据集中的作物生长环境数据,以实现对第一实测数据集的更新。
在步骤S304中,利用更新后的第一实测数据集对简易作物产量预测模型进行再训练,生成作物产量预测模型。
本步骤中,可以利用更新后的第一实测数据集对上述步骤S120中得到的简易作物产量预测模型,或者,上述步骤S1005中所得到的简易作物产量预测模型进行再训练,得到作物产量预测模型。需要说明的是,在再训练的过程中,可以保留简易作物产量预测模型中的部分参数,利用第一实测数据集对简易作物产量预测模型中的剩余参数进行再训练,以保证最终生成的作物产量预测模型能够保留部分生物生长知识。
在生成作物产量预测模型之后,还可以根据该作物产量预测模型的损失值确定是否对该作物产量预测模型进行重新训练,以保证模型的预测准确度。具体的,参考图11,图11示出本公开实施例中根据作物产量预测模型的损失值确定是否对该作物产量预测模型进行重新训练的流程示意图,包括步骤S1101-步骤S1103:
在步骤S1101中,将利用作物物候期预测模型预测出的物候期预测信息以及采集到的作物生长环境数据输入至作物产量预测模型中,根据作物产量预测模型的输出,得到作物产量预测值。
本步骤中,可以先采集待预测作物的作物生长参数,进而,将该作物生长参数输入至上述物候期预测模型中,以利用该物候期预测模型预测出作物的物候期信息。进一步的,可以将实时采集到的作物生长环境数据和上述作物物候期预测模型预测出的物候期预测信息输入至上述作物产量预测模型中,根据上述作物产量预测模型的输出,得到作物产量预测值。
在步骤S1102中,获取作物产量实际值,并计算作物产量预测值和作物产量实际值之间的损失值。
本步骤中,可以在间隔预设时段之后,采集作物产量实际值,进而,计算上述作物产量预测值和作物产量实际值之间的损失值。
在步骤S1103中,响应于损失值大于预设损失值阈值,对作物产量预测模型进行重新训练。
本步骤中,若上述损失值小于或等于预设损失阈值,则可以确定上述作物产量预测模型的误差在可接受范围,其适用度较高,而若上述损失值大于预设损失值阈值,则可以确定上述作物产量预测模型的误差较大,可以对上述作物产量预测模型进行重新训练,或者,可以对上述作物物候期预测模型和上述作物产量预测模型均进行重新训练。
基于以上技术方案,本公开具有以下技术效果:
第一,本公开通过将农业大田划分为更小块的子区域,并通过多个子区域的数据融合得到相比农业大田而言更精准的数据获取。
第二,制约深度学习在智慧农业发展的关键因素便是由于作物生长周期过长故缺乏大量带有作物标签的数据,本公开通过设计融合序列的生成方式,在一定程度上解决了农业数据的缺失问题。
第三,本公开在智慧农业框架下,提出了一种基于数据的作物指标预测模型的训练方法,也在一定程度上弥补了智慧农业下作物指标预测模型的空白。
参考图12,图12示出本公开实施例中如何得到农业大田中每种指标的融合序列的流程示意图,包含步骤S1201-步骤S1214:
在步骤S1201中,开始;
在步骤S1202中,输入农场管理数据:传感器节点布局、作物种植面积、农事作业数据等;
在步骤S1203中,输入农业大田的预期划分数m,通过评级制度将农业大田进行网格化划分,生成多个子区域,每个子区域分布有多种传感器;
在步骤S1204中,输入各子区域的每种传感器的预设采集天数和预设采集间隔时长;
在步骤S1205中,根据每种传感器采集到的数据量重构时间索引;
在步骤S1206中,输入预设比值阈值δ;
在步骤S1207中,判断
若是,则进入步骤S1208中,剔除异常值,作为缺失值处理;进而,执行步骤S1209;
否则,进入步骤S1209中,判断单个数据缺失还是片状数据缺失;
若是单个缺失,进入步骤S1210中,进行差值数据填充,进而,执行步骤S1212;
若是片状缺失,进入步骤S1211中,选取与该传感器空间范围最接近的M个传感器所采集的目标指标数据序列;
在步骤S1212中,利用目标指标数据序列构建数据重构模型进行缺失值数据填充;
在步骤S1213中,小波变换进行去噪,生成清洗后的时间序列数据;
在步骤S1214中,将多个子区域所对应的每种标准化序列进行加权融合,得到每种指标对应的融合序列。
参考图13,图13示出本公开实施例中如何获取并更新仿真数据集(适用于更新第一仿真数据集,也适用于更新第二仿真数据集)的流程示意图,包含步骤S1301-步骤S1309:
在步骤S1301中,开始;
在步骤S1302中,输入农业大田网格划分、历史时段的作物生长环境数据;
在步骤S1303中,输入作物的种类、属性;
在步骤S1304中,在模型数据库中选取符合的理化参数模型;
在步骤S1305中,向模型中输入历史时段的作物生长环境数据,得到仿真数据,包括作物生长数据(其中包括多种传感器采集到的多种指标数据序列)、作物物候期、作物产量等数据;
在步骤S1306中,计算仿真数据集中的数据片段与实测数据集中的数据片段之间的距离。具体的,可以将每种指标对应的标准化序列进行数据分割,得到多个第一数据片段,对第一仿真数据集中的每种指标数据序列进行数据分割,得到多个第二数据片段,各第一数据片段与各第二数据片段之间的相似度;
在步骤S1307中,将距离较大的相关数据片段从仿真数据集中剔除;
在步骤S1308中,小波变换进行去噪,得到更新后的仿真数据集;
在步骤S1309中,结束。
参考图14,图14示出本公开实施例中如何利用仿真数据集和实测数据集训练模型的流程示意图,包含步骤S1401-步骤S1409:
在步骤S1401中,开始;
在步骤S1402中,利用仿真数据集对神经网络模型进行预训练;
在步骤S1403中,利用实测数据集对简易模型进行个性化训练,得到个性化模型;
在步骤S1404中,运用个性化模型生成预测值;
在步骤S1405中,输入实时采集的预测数据集;
在步骤1406中,根据预测值和实测值计算损失值,并判断损失值是否大于预设损失值阈值;
若大于预设损失值阈值,则进入步骤S1407中,重新训练;
若小于或等于预设损失值阈值,则进入步骤S1408中,维持现有模型;
在步骤S1409中,结束。
本公开还提供了一种模型训练系统,参考图15,图15示出本公开实施例中一种模型训练系统的示意图,如图15所示,该模型训练系统主要包括数据获取模块、实测数据集生成模块、仿真数据集生成模块和模型训练模块,其中,
数据获取模块用于获取农事管理数据和传感器指标数据,其中,农事管理数据主要包括:灌溉作业数据、施肥作业数据、补光作业数据、喷洒作业数据、作物面积数据、传感器安装数据、高程坡度数据、作物种类数据、农事设施分布数据;传感器指标数据主要包括:空气温度数据、空气湿度数据、降雨量数据、土壤温度数据、二氧化碳含量数据、风速数据、土壤湿度数据、风向数据和光照强度数据;
实测数据集生成模块主要用于:根据多类型农事作业数据和农场地形地势数据将农业大田划分为子区域,进而,根据子区域划分传感器,进而,根据位于不同子区域的传感器所采集的指标数据序列以及作物生长数据、作物种植数据、传感器分布数据、农事设施分布数据、农事作业数据等生成实测数据集;
仿真数据集生成模块主要用于:将历史时段的作物生长环境数据输入理化参数模型中,得到仿真数据,包括仿真出来的作物生长数据、作物物候期信息和作物产量等,进行子区域划分,生成仿真数据集;
模型训练模块主要用于:基于第一仿真数据集和第二仿真数据集分别训练以产量为标签的简易作物产量预测模型和以物候期为标签的简易作物物候期预测模型;进而,利用第一实测数据集对简易作物产量预测模型进行再训练,得到作物产量预测模型,利用第二实测数据集对简易作物物候期预测模型进行再训练,得到作物物候期预测模型。
本公开还提供了一种模型训练装置,图16示出本公开示例性实施例中模型训练装置的结构示意图;如图16所示,模型训练装置1600可以包括数据获取模块1610、预训练模块1620和再训练模块1630。其中:
数据获取模块1610,用于获取第一仿真数据集和第一实测数据集;所述第一仿真数据集包括历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括基于实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;
预训练模块1620,用于利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;
再训练模块1630,用于利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
在本公开的示例性实施例中,所述再训练模块1630被配置为:通过以下方式训练得到作物物候期预测模型:获取关于所述农业大田的第二仿真数据集和第二实测数据集;所述第二仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息;所述第二实测数据集包括对所述农业大田进行实地跟踪监测得到作物关联数据及作物物候期信息;利用所述第二仿真数据集对第二待训练模型进行预训练,生成简易作物物候期预测模型;利用所述第二实测数据集对所述简易作物物候期预测模型进行再训练,生成所述作物物候期预测模型;其中,所述作物物候期预测模型用于根据采集到的作物生长参数预测出作物的物候期预测信息。
在本公开的示例性实施例中,所述农业大田包括预先划分好的多个子区域,每个子区域中分布有多种传感器,所述作物生长环境数据包括分布于所述每个子区域的多种传感器所采集到的多种指标数据序列;在获取到所述第一实测数据集之后,所述再训练模块1630,被配置为:
对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列;将所述多个子区域所对应的每种标准化序列进行加权融合,得到每种指标对应的融合序列;根据所述多种指标对应的多种融合序列更新所述作物生长环境数据,以更新所述第一实测数据集;利用更新后的所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成所述作物产量预测模型。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
对所述指标数据序列中所包含的每个指标数据进行索引构建处理;对所述索引构建处理之后的指标数据序列进行异常值剔除处理;对所述异常值剔除处理之后的指标数据序列进行缺失值重构处理;对所述缺失值重构处理之后的指标数据序列进行噪声分离处理,获得所述标准化序列。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
按照每种传感器所对应的预设采集天数和预设采集间隔时长,判断所述指标数据序列中所包含的数据量是否满足等于预设数据量;响应于所述数据量等于预设数据量,按照所述每个指标数据的采集时间或所述指标数据序列的总数据量构建每个指标数据对应的时间索引;响应于所述数据量不等于所述预设数据量,按照所述每个指标数据的采集时间构建所述每个指标数据对应的时间索引。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
判断所述索引构建处理之后的指标数据序列中是否存在异常值;响应于所述指标数据序列中存在所述异常值,剔除所述异常值。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
按照所述时间索引由小到大的顺序,遍历所述指标数据序列中的指标数据;计算相邻两个指标数据序列之间的差值;计算所述差值与所述相邻两个指标数据序列中时间索引较小的指标数据序列之间的比值;若所述比值小于预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列不是所述异常值;若所述比值大于或等于所述预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列为所述异常值。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
定位所述异常值剔除处理之后的指标数据序列中的缺失值;根据所述缺失值所对应的时间索引确定数据缺失类型;所述数据缺失类型包括单个数据缺失和片状数据缺失;根据所述数据缺失类型,重构所述缺失值。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
响应于所述数据缺失类型为所述单个数据缺失,根据与所述缺失值的时间索引相邻的指标数据确定所述缺失值,以对所述缺失值进行重构处理;响应于所述数据缺失类型为所述片状数据缺失,利用所述缺失值的关联值和训练好的数据重构模型预测出所述缺失值,以对所述缺失值进行重构处理;其中,所述缺失值的关联值包括所述位于缺失值中时间索引最小的缺失值之前的N个指标数据序列,以及,位于所述缺失值中时间索引最大的缺失值之后的N个指标数据序列;N为大于1的整数。
在本公开的示例性实施例中,所述数据重构模型通过以下方式训练得到:确定M个目标传感器,所述目标传感器与所述传感器的分布位置满足预设位置关系,并且,所述目标传感器所采集的目标指标数据序列中所包含的数据量满足预设数据量条件;M为大于1的整数;利用所述M个目标传感器采集到的目标指标数据序列训练第三待训练模型,生成所述数据重构模型。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
利用小波变换对所述缺失值重构后的指标数据序列进行噪声分离,得到所述标准化序列。
在本公开的示例性实施例中,在对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列之后,所述再训练模块1630,被配置为:
按照时间索引对每种指标对应的标准化序列进行数据分割,得到多个第一数据片段;对所述第一仿真数据集中的每种指标数据序列进行数据分割,得到多个第二数据片段;计算各所述第一数据片段与各所述第二数据片段之间的相似度;将所述相似度小于预设相似度阈值的第二数据片段从所述第一仿真数据集中剔除,以更新所述第一仿真数据集;利用更新后的所述第一仿真数据集对所述第一待训练模型进行预训练,生成所述简易作物产量预测模型。
在本公开的示例性实施例中,所述再训练模块1630,被配置为:
保留所述简易作物产量预测模型中的部分参数,利用所述第一实测数据集对所述简易作物产量预测模型中的剩余参数进行再训练,生成所述作物产量预测模型。
在本公开的示例性实施例中,在生成作物产量预测模型之后,所述再训练模块1630,被配置为:
将利用作物物候期预测模型预测出的物候期预测信息以及采集到的作物生长环境数据输入至所述作物产量预测模型中,根据所述作物产量预测模型的输出,得到作物产量预测值;获取作物产量实际值,并计算所述作物产量预测值和所述作物产量实际值之间的损失值;响应于所述损失值大于预设损失值阈值,对所述作物产量预测模型进行重新训练。
上述模型训练装置中各模块的具体细节已经在对应的模型训练方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的方法。
此外,在本公开实施例中还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图17来描述根据本公开的这种实施方式的电子设备1700。图17显示的电子设备1700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图17所示,电子设备1700以通用计算设备的形式表现。电子设备1700的组件可以包括但不限于:上述至少一个处理单元1710、上述至少一个存储单元1720、连接不同系统组件(包括存储单元1720和处理单元1710)的总线1730以及显示单元1740。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1710执行,使得所述处理单元1710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元1710可以执行如图1中所示的:步骤S110,获取关于农业大田的第一仿真数据集和第一实测数据集;所述第一仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括对所述农业大田进行实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;步骤S120,利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;步骤S130,利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
存储单元1720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)17201和/或高速缓存存储单元17202,还可以进一步包括只读存储单元(ROM)17203。
存储单元1720还可以包括具有一组(至少一个)程序模块17205的程序/实用工具17204,这样的程序模块17205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线1730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备1700也可以与一个或多个外部设备1800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1700交互的设备通信,和/或与使得该电子设备1700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1750进行。并且,电子设备1700还可以通过网络适配器1760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1760通过总线1730与电子设备1700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (17)
1.一种模型训练方法,其特征在于,包括:
获取关于农业大田的第一仿真数据集和第一实测数据集;所述第一仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括对所述农业大田进行实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;
利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;
利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
2.根据权利要求1所述的方法,其特征在于,所述作物物候期预测模型通过以下方式训练得到:
获取关于所述农业大田的第二仿真数据集和第二实测数据集;所述第二仿真数据集包括所述农业大田在历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息;所述第二实测数据集包括对所述农业大田进行实地跟踪监测得到作物关联数据及作物物候期信息;
利用所述第二仿真数据集对第二待训练模型进行预训练,生成简易作物物候期预测模型;
利用所述第二实测数据集对所述简易作物物候期预测模型进行再训练,生成所述作物物候期预测模型;
其中,所述作物物候期预测模型用于根据采集到的作物生长参数预测出作物的物候期预测信息。
3.根据权利要求1所述的方法,其特征在于,所述农业大田包括预先划分好的多个子区域,每个子区域中分布有多种传感器,所述作物生长环境数据包括分布于所述每个子区域的多种传感器所采集到的多种指标数据序列;
在获取到所述第一实测数据集之后,所述方法还包括:
对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列;
将所述多个子区域所对应的每种标准化序列进行加权融合,得到每种指标对应的融合序列;
根据所述多种指标对应的多种融合序列更新所述作物生长环境数据,以更新所述第一实测数据集;
利用更新后的所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成所述作物产量预测模型。
4.根据权利要求3所述的方法,其特征在于,所述对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列,包括:
对所述指标数据序列中所包含的每个指标数据进行索引构建处理;
对所述索引构建处理之后的指标数据序列进行异常值剔除处理;
对所述异常值剔除处理之后的指标数据序列进行缺失值重构处理;
对所述缺失值重构处理之后的指标数据序列进行噪声分离处理,获得所述标准化序列。
5.根据权利要求4所述的方法,其特征在于,所述对所述指标数据序列中所包含的每个指标数据进行索引构建处理,包括:
按照每种传感器所对应的预设采集天数和预设采集间隔时长,判断所述指标数据序列中所包含的数据量是否满足等于预设数据量;
响应于所述数据量等于预设数据量,按照所述每个指标数据的采集时间或所述指标数据序列的总数据量构建每个指标数据对应的时间索引;
响应于所述数据量不等于所述预设数据量,按照所述每个指标数据的采集时间构建所述每个指标数据对应的时间索引。
6.根据权利要求4所述的方法,其特征在于,所述对所述索引构建处理之后的指标数据序列进行异常值剔除处理,包括:
判断所述索引构建处理之后的指标数据序列中是否存在异常值;
响应于所述指标数据序列中存在所述异常值,剔除所述异常值。
7.根据权利要求6所述的方法,其特征在于,所述判断所述索引构建处理之后的指标数据序列中是否存在异常值,包括:
按照所述时间索引由小到大的顺序,遍历所述指标数据序列中的指标数据;
计算相邻两个指标数据序列之间的差值;
计算所述差值与所述相邻两个指标数据序列中时间索引较小的指标数据序列之间的比值;
若所述比值小于预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列不是所述异常值;
若所述比值大于或等于所述预设比值阈值,确定所述相邻两个指标数据序列中时间索引较大的指标数据序列为所述异常值。
8.根据权利要求4所述的方法,其特征在于,所述对所述异常值剔除处理之后的指标数据序列进行缺失值重构处理,包括:
定位所述异常值剔除处理之后的指标数据序列中的缺失值;
根据所述缺失值所对应的时间索引确定数据缺失类型;所述数据缺失类型包括单个数据缺失和片状数据缺失;
根据所述数据缺失类型,重构所述缺失值。
9.根据权利要求8所述的方法,其特征在于,所述根据所述数据缺失类型,重构所述缺失值,包括:
响应于所述数据缺失类型为所述单个数据缺失,根据与所述缺失值的时间索引相邻的指标数据确定所述缺失值,以对所述缺失值进行重构处理;
响应于所述数据缺失类型为所述片状数据缺失,利用所述缺失值的关联值和训练好的数据重构模型预测出所述缺失值,以对所述缺失值进行重构处理;
其中,所述缺失值的关联值包括所述位于缺失值中时间索引最小的缺失值之前的N个指标数据序列,以及,位于所述缺失值中时间索引最大的缺失值之后的N个指标数据序列;N为大于1的整数。
10.根据权利要求9所述的方法,其特征在于,所述数据重构模型通过以下方式训练得到:
确定M个目标传感器,所述目标传感器与所述传感器的分布位置满足预设位置关系,并且,所述目标传感器所采集的目标指标数据序列中所包含的数据量满足预设数据量条件;M为大于1的整数;
利用所述M个目标传感器采集到的目标指标数据序列训练第三待训练模型,生成所述数据重构模型。
11.根据权利要求4所述的方法,其特征在于,所述对所述缺失值重构后的指标数据序列进行噪声分离处理,获得所述标准化序列,包括:
利用小波变换对所述缺失值重构后的指标数据序列进行噪声分离,得到所述标准化序列。
12.根据权利要求3所述的方法,其特征在于,在对每种传感器采集到的指标数据序列进行标准化处理,得到标准化序列之后,所述方法还包括:
按照时间索引对每种指标对应的标准化序列进行数据分割,得到多个第一数据片段;
对所述第一仿真数据集中的每种指标数据序列进行数据分割,得到多个第二数据片段;
计算各所述第一数据片段与各所述第二数据片段之间的相似度;
将所述相似度小于预设相似度阈值的第二数据片段从所述第一仿真数据集中剔除,以更新所述第一仿真数据集;
利用更新后的所述第一仿真数据集对所述第一待训练模型进行预训练,生成所述简易作物产量预测模型。
13.根据权利要求1所述的方法,其特征在于,所述利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型,包括:
保留所述简易作物产量预测模型中的部分参数,利用所述第一实测数据集对所述简易作物产量预测模型中的剩余参数进行再训练,生成所述作物产量预测模型。
14.根据权利要求1所述的方法,其特征在于,在生成作物产量预测模型之后,所述方法还包括:
将利用作物物候期预测模型预测出的物候期预测信息以及采集到的作物生长环境数据输入至所述作物产量预测模型中,根据所述作物产量预测模型的输出,得到作物产量预测值;
获取作物产量实际值,并计算所述作物产量预测值和所述作物产量实际值之间的损失值;
响应于所述损失值大于预设损失值阈值,对所述作物产量预测模型进行重新训练。
15.一种模型训练装置,其特征在于,包括:
数据获取模块,用于获取第一仿真数据集和第一实测数据集;所述第一仿真数据集包括历史时段的作物生长环境数据以及基于所述历史时段的作物生长环境数据进行仿真实验得到的作物生长数据、作物物候期信息和作物产量;所述第一实测数据集包括基于实地跟踪监测得到的作物关联数据、作物物候期信息及作物产量;所述作物关联数据至少包括作物生长环境数据;
预训练模块,用于利用所述第一仿真数据集对第一待训练模型进行预训练,生成简易作物产量预测模型;
再训练模块,用于利用所述第一实测数据集对所述简易作物产量预测模型进行再训练,生成作物产量预测模型;其中,所述作物产量预测模型用于根据作物物候期预测模型预测出的物候期预测信息以及输入的作物生长环境数据预测出作物产量。
16.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~14中任意一项所述的模型训练方法。
17.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~14中任意一项所述的模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211414463.3A CN118036785A (zh) | 2022-11-11 | 2022-11-11 | 模型训练方法及模型训练装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211414463.3A CN118036785A (zh) | 2022-11-11 | 2022-11-11 | 模型训练方法及模型训练装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118036785A true CN118036785A (zh) | 2024-05-14 |
Family
ID=90999141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211414463.3A Pending CN118036785A (zh) | 2022-11-11 | 2022-11-11 | 模型训练方法及模型训练装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118036785A (zh) |
-
2022
- 2022-11-11 CN CN202211414463.3A patent/CN118036785A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902580B (zh) | 一种基于随机森林模型的历史耕地分布重建方法 | |
CN105050385A (zh) | 用于自动化微分灌溉的方法和系统 | |
US20210208307A1 (en) | Training a machine learning algorithm and predicting a value for a weather data variable, especially at a field or sub-field level | |
CN111667183A (zh) | 一种耕地质量监测方法及系统 | |
Liu et al. | Estimating maize seedling number with UAV RGB images and advanced image processing methods | |
Xu et al. | A new clustering-based framework to the stem estimation and growth fitting of street trees from mobile laser scanning data | |
JP2023156493A (ja) | 有害生物圧力ヒートマップのためのシステム及び方法 | |
Balti et al. | Big data based architecture for drought forecasting using LSTM, ARIMA, and Prophet: Case study of the Jiangsu Province, China | |
Kumar et al. | Multiparameter optimization system with DCNN in precision agriculture for advanced irrigation planning and scheduling based on soil moisture estimation | |
Nussbaumer et al. | Reconstructing bird trajectories from pressure and wind data using a highly optimized hidden Markov model | |
US20210279639A1 (en) | Systems and methods for predicting pest pressure using geospatial features and machine learning | |
WO2024059300A1 (en) | Uncertainty prediction models | |
Li et al. | Computer and Computing Technologies in Agriculture II, Volume 1: The Second IFIP International Conference on Computer and Computing Technologies in Agriculture (CCTA2008), October 18-20, 2008, Beijing, China | |
CN118036785A (zh) | 模型训练方法及模型训练装置、存储介质、电子设备 | |
Jiang et al. | Application and evaluation of an improved LSTM model in the soil moisture prediction of southeast chinese tobacco-producing areas | |
Ahn et al. | Evaluating Time-Series Prediction of Temperature, Relative Humidity, and CO2 in the Greenhouse with Transformer-Based and RNN-Based Models | |
Sridharan et al. | Application of statistical machine learning algorithms in precision agriculture | |
CN117932232B (zh) | 基于状态识别rime-delm多变量时间序列预测的风速预测系统 | |
EP4173477A1 (en) | Method and device for optimisation of collection & processing of soil moisture data to be used in automatic instructions generation for optimal irrigation in agriculture | |
Azmat et al. | Forecasting soil moisture using domain inspired temporal graph convolution neural networks to guide sustainable crop management | |
Bobade et al. | Design of Smart Irrigation System Based on MLA | |
Shao et al. | Lightweight Transformer Model for Winter Wheat Yield Prediction Based on Multi-source Data | |
Devi | Chapter-6 Applications of Machine Learning and Deep Learning in Urban Agriculture: An Overview | |
Lu | Application Research of Xception-LSTM Multimodal Neural Network in Intelligent Prediction System | |
CN117911751A (zh) | 一种基于近样本及校正损失函数的遥感监测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |