CN117272209B

CN117272209B - 一种芽苗菜生长数据采集方法及系统

Info

Publication number: CN117272209B
Application number: CN202311540506.7A
Authority: CN
Inventors: 方胜; 赵忠良; 刘雨平; 程琳; 武绍奇; 张晶; 张贺贺; 张新
Original assignee: Jiangsu New Hope Ecological Technology Co ltd
Current assignee: Jiangsu New Hope Ecological Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-02-02
Anticipated expiration: 2043-11-20
Also published as: CN117272209A

Abstract

本发明涉及数据处理技术领域，具体涉及一种芽苗菜生长数据采集方法及系统。本发明以原始采样频率获取芽苗菜在多个生长周期内的历史数据点，获取对生长周期内历史数据点进行聚类的最优参数K值，从最优参数K值中筛选出最终参数K值；基于最终参数K值将当前数据点划分为多种类型的历史数据点；获取每种类型的历史数据点生成孤立树的调整数量，并利用孤立森林算法对每种类型的历史数据点生成孤立树；将基于获取的当前数据集合中当前数据点的异常得分获取调整采样频率，依据调整采样频率获取数据点。本发明基于每种类型的数据点分布离散程度自适应获取每种类型的数据点生成孤立树的数量，提高原始采集频率调整的准确性。

Description

一种芽苗菜生长数据采集方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种芽苗菜生长数据采集方法及系统。

背景技术

在芽苗菜生产过程中需要合适的外界环境，当芽苗菜的生长环境不适合时，会延长芽苗菜的生长周期，因此，需要获取芽苗菜生长过程中的环境数据以判断芽苗菜的生长状况，根据生长状况对环境信息进行调整，以保证芽苗菜达到较好的生长情况，缩短芽苗菜的生长周期。

现有技术利用孤立森林算法对芽苗菜的多个生长周期内的数据点进行异常分析，由于芽苗菜的生长周期的不同生长阶段所需的环境差异较大，则生长周期内不同生长阶段对应的数据点之间的差异较大，容易导致正常的数据点被划分为异常的数据点中，导致调整芽苗菜采集数据点的频率不准确，难以准确观察芽苗菜的生长情况。

发明内容

为了解决芽苗菜的生长周期的不同生长阶段的环境数据差异较大，导致对数据点的采样频率调整不准确的技术问题，本发明的目的在于提供一种芽苗菜生长数据采集方法及系统，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种芽苗菜生长数据采集方法，该方法包括：

以原始采集频率获取芽苗菜在至少两个生长周期内每个时刻下环境数据的历史数据点，以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点，由预设值个当前数据点构成当前数据集合；数据点包含不同维度的环境数据；

结合每个生长周期内任意两个历史数据点对应时刻之间的时间间隔，以及两个历史数据点的同一维度的环境数据之间的差异，获取对每个生长周期内历史数据点进行聚类的最优参数K值；根据同一类别的最优参数K值对应的生长周期内历史数据点的数量，从最优参数K值中筛选出最终参数K值；基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点；

依据每种类型的历史数据点的数量与离散分布程度对生成孤立树的预设数量进行调整，得到每种类型的历史数据点生成孤立树的调整数量；将每种类型的历史数据点生成所述调整数量棵孤立树；

基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率；以调整采样频率获取当前时刻之后的数据点，根据当前时刻之后的数据点更新当前数据集合。

进一步地，所述获取对每个生长周期内历史数据点进行聚类的最优参数K值的方法，包括：

结合每个生长周期内任意两个历史数据点对应的时刻之间的时间间隔，以及两个历史数据点的同一维度的环境数据之间的差异，获取每个生长周期内任意两个历史数据点之间的改进距离；

基于每个生长周期内任意两个历史数据点之间的改进距离，利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值。

进一步地，所述每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下：

式中，为每个生长周期内第i个历史数据点与第j个历史数据点之间的改进距离；/>为每个生长周期内第i个历史数据点对应的时刻；/>每个生长周期内第j个历史数据点对应的时刻；/>为每个生长周期内第i个历史数据点的第一个维度的环境数据；/>每个生长周期内第j个历史数据点的第一个维度的环境数据；/>为每个生长周期内第i个历史数据点的第二个维度的环境数据；/>为每个生长周期内第j个历史数据点的第二个维度的环境数据；/>为绝对值函数。

进一步地，所述根据同一类别的最优参数K值对应的生长周期内历史数据点的数量，从最优参数K值中筛选出最终参数K值的方法，包括：

数值相等的最优参数K值为同一类别的最优参数K值；

判断每个类别的最优参数K值的数量是否为1，若是，将每个类别的每个最优参数K值的有效值设置为预设第一非负数；若否，将每个类别的每个最优参数K值的有效值设置为预设第二非负数；预设第一非负数小于预设第二非负数；

根据每个类别的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值，获取每个类别的最优参数K值的置信度；

将最大的所述置信度对应类型的最优参数K值的数值作为最终参数K值。

进一步地，所述每个类别的最优参数K值的置信度的计算公式如下：

式中，D为每个类别的最优参数K值的置信度；为每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量；/>为每个类别的第k个最优参数K值的有效值；n为每个类别的最优参数K值的数量；exp为以自然常数e为底数的指数函数。

进一步地，所述基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点的方法，包括：

对于每个生长周期内的历史数据点，对生长周期内的历史数据点进行聚类，得到最终参数K值个聚类簇；

将不同生长周期的同一聚类簇中的历史数据点作为同种类型的历史数据点。

进一步地，所述每种类型的历史数据点生成孤立树的调整数量的计算公式如下：

式中，为第r种类型的历史数据点生成孤立树的调整数量；YM为预设数量；/>为第r种类型的历史数据点的数量；/>为第r种类型的历史数据点的分布离散度；/>为第r种类型的第t个历史数据点所处生长周期内第r种类型的历史数据点的数量；/>为第r种类型的第t个历史数据点所处生长周期内历史数据点的数量；/>为第r种类型的第t个历史数据点的第一个维度的环境数据；/>为第r种类型的所有历史数据点的第一维度的环境数据的均值；/>为第r种类型的第t个历史数据点的第二个维度的环境数据；/>为第r种类型的所有历史数据点的第二维度的环境数据的均值；Norm为归一化函数；exp为以自然常数e为底数的指数函数。

进一步地，所述调整采样频率的获取方法，包括：

将当前数据集合内每个当前数据点代入每棵孤立树，利用孤立森林算法获取当前数据集合内每个当前数据点的异常得分；

将当前数据集合内当前数据点的异常得分的最大值进行负相关得到频率调整系数；将频率调整系数与原始采集频率的乘积作为调整采集频率。

进一步地，所述将每种类型的历史数据点生成所述调整数量棵孤立树的方法，包括：

利用孤立森林算法将每种类型的历史数据点生成所述调整数量棵孤立树。

第二方面，本发明另一个实施例提供了一种芽苗菜生长数据采集系统，该系统包括：存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，处理器执行所述计算机程序时，实现上述任意一项方法的步骤。

本发明具有如下有益效果：

本发明实施例中，以原始采样频率获取芽苗菜在多个生长周期内的历史数据点，由于芽苗菜在不同生长周期的生长阶段类似，且生长周期内不同生长阶段对应的数据点的差异较大，为避免对直接对多个生长周期内数据点进行异常点识别，导致正常的数据点被识别为异常的数据点的问题，本发明将生长周期内的数据点划分为多种类型的数据点，具体方法为：芽苗菜所处环境存在差异使不同生长周期的长度不同，则获取的每个生长周期对应的最优参数K值不同，当每个类别的最优参数K值的数量越多时，该类别的最优参数K值为生长周期内历史数据点进行阶段划分时选取的K值的可能性越大，基于同一类别的最优参数K值对应的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值，将生长周期内的历史数据点划分类型；相较于将每种类型的历史数据点生成固定数量的孤立树，本发明基于每种类型的历史数据点的离散分布情况与历史数据点的数量自适应获取每种类型的历史数据点生成孤立树的数量，避免了因孤立树的数量设置不合适，难以区分正常数据与异常数据；将每种类型的历史数据点生成孤立树，根据每次获取的当前数据点代入孤立树获取的异常得分对原始采样频率进行实时调整获取调整采样频率，以调整采样频率获取当前时刻之后的数据点，使每次获取的当前数据集合内的当前数据点准确呈现芽苗菜的生长状况，提高观察芽苗菜的生长情况的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种芽苗菜生长数据采集方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种芽苗菜生长数据采集方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明所针对的具体场景：对芽苗菜生长过程中的环境数据进行监测，分析其异常情况，根据异常情况对采集数据的频率进行调整。

下面结合附图具体的说明本发明所提供的一种芽苗菜生长数据采集方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种芽苗菜生长数据采集方法的步骤流程图，该方法包括：

步骤S1：以原始采集频率获取芽苗菜在至少两个生长周期内每个时刻下环境数据的历史数据点，以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点，由预设值个当前数据点构成当前数据集合；数据点包含不同维度的环境数据。

具体的，通过温度传感器和湿度传感器采集芽苗菜生长过程中外界环境的温度和湿度，将芽苗菜种子种下到收割作为芽苗菜的生长周期，以原始采集频率获取同一种类的至少两个芽苗菜在其生长周期内每个时刻下环境数据的历史数据点。

本发明实施例中原始采集频率为五分钟采集一次环境数据，实施者可根据具体情况自行设置。由于本发明中仅考虑芽苗菜生长环境的温度与湿度，则环境数据包括：温度数据与湿度数据，每种类型的环境数据对应一个维度，数据点包含不同维度的环境数据。

需要说明的是，芽苗菜的生长周期受到其所处环境的影响，同一品种的芽苗菜的生长周期存在差异，环境越适合芽苗菜的生长，则芽苗菜的生长周期越短。

以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点，由预设值个当前数据点构成当前数据集合。需要注意的是，历史数据点与当前数据点分析的芽苗菜为同一品种的芽苗菜。当前数据集合内的当前数据点连续分布。

本发明实施例中预设值取经验值5，实施者可根据具体情况自行设置。

步骤S2：结合每个生长周期内任意两个历史数据点对应时刻之间的时间间隔，以及两个历史数据点的同一维度的环境数据之间的差异，获取对每个生长周期内历史数据点进行聚类的最优参数K值；根据同一类别的最优参数K值对应的生长周期内历史数据点的数量，从最优参数K值中筛选出最终参数K值；基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点。

具体的，本发明选用孤立森林算法基于历史数据点建立孤立树，将历史数据点随机划分以判断样本中的离群点。芽苗菜在生长周期的不同阶段所需的环境不同，导致孤立树中产生离群点，且由不同生长阶段之间的差异导致。因此，在进行孤立树的样本数据划分时，需要将芽苗菜的不同生长周期的同一生长阶段的数据点划分到一起。其中，孤立森林算法为本领域技术人员公知技术，在此不再赘述。

基于每个生长周期内历史数据点的环境数据自身波动情况将生长周期划分为不同的生长阶段；外界环境变化导致芽苗菜的生长周期改变，不同生长周期的同一生长阶段的长度不一致，但是每个生长阶段在生长周期中位置分布是一致的，且不同生长周期的生长阶段的数量一致的。因此，结合生长周期内历史数据点对应时刻之间的时间间隔与同一维度的环境数据之间的差异，分析每个生长周期内历史数据点的聚类结果的最优参数K值，进而从最优参数K值中筛选出适合每个生长周期内历史数据点划分类型的最终参数K值。

优选地，对每个生长周期内历史数据点进行聚类的最优参数K值的获取方法为：结合每个生长周期内任意两个历史数据点对应的时刻之间的时间间隔，以及两个历史数据点的同一维度的环境数据之间的差异，获取每个生长周期内任意两个历史数据点之间的改进距离；基于每个生长周期内任意两个历史数据点之间的改进距离，利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值。

历史数据点的改进距离包含时刻与每个维度的环境数据多方面的影响，更加适合芽苗菜的生长环境分析，提高对每个生长周期内历史数据点进行聚类的最优参数K值的准确性。将手肘法中历史数据点之间的欧式距离替换为改进距离，其他内容均不变，获取每个生长周期对应的最优参数K值。其中，手肘法为本领域技术人员公知技术，在此不再赘述。

每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下：

本发明通过衡量历史数据点之间的距离，当/>越大时，说明每个生长周期内历史数据点之间的改进距离/>越大。/>为每个生长周期内第i个历史数据点与第j个历史数据点的第一维度的环境数据之间的差异，/>为每个生长周期内第i个历史数据点与第j个历史数据点的第二维度的环境数据之间的差异；每个生长周期内同一生长阶段的数据点的环境数据类似，当每个生长周期内第i个历史数据点与第j个历史数据点的同一维度的环境数据之间的差异越大时，即当/>越大时，说明两个历史数据点对应的时刻之间的时间间隔越大，则改进距离/>越大。改进距离/>在考虑历史数据点对应的时刻之间的时间间隔的基础上，添加数据点的同一维度的环境数据之间的差异，衡量历史数据点之间的距离更加准确。

芽苗菜的不同生长周期内生长阶段一致，芽苗菜的生长环境改变可能导致不同生长周期内生长阶段出现差异，即最优参数K值的数值不同。当芽苗菜的生长环境类似时，生长周期的长度接近，即生长周期内历史数据点的数量近似，因此基于长度接近的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值。

优选地，最终参数K值的具体获取方法为：数值相等的最优参数K值为同一类别的最优参数K值；判断每个类别的最优参数K值的数量是否为1，若是，将每个类别的每个最优参数K值的有效值设置为预设第一非负数；若否，将每个类别的每个最优参数K值的有效值设置为预设第二非负数；预设第一非负数小于预设第二非负数；根据每个类别的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值，获取每个类别的最优参数K值的置信度；将最大的置信度对应类型的最优参数K值的数值作为最终参数K值。

当每个类别的最优参数K值的数量越多时，说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越大，将每个类别的每个最优参数K值的有效值设置为预设第一非负数；当每个类别的最优参数K值的数量越少时，说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越小，将每个类别的每个最优参数K值的有效值设置为预设第二非负数。因此，预设第一非负数小于预设第二非负数。

本发明实施例中预设第一非负数取经验值0，预设第二非负数取经验值1，实施者可根据具体情况自行设置。

根据每种的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值，获取每个类别的最优参数K值的置信度，置信度的计算公式如下：

每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量呈现该生长周期的时长，生长周期的长度越短，即/>越小，说明该生长周期内历史数据点的环境数据越符合麦芽苗的生长，该生长周期对应的最优参数K值为生长周期内历史数据点进行阶段划分时选取的K值可能性越大，则置信度D越大。同时还考虑每个类别的第k个最优参数K值的有效值/>，当/>越大时，说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越大，则置信度D越大。

对于每个生长周期内的历史数据点，对生长周期内的历史数据点进行聚类，得到最终参数K值个聚类簇；将不同生长周期的同一聚类簇中的历史数据点作为同种类型的历史数据点。

需要说明的是，每个生长周期内的历史数据点均被分为最终参数K值种类型的历史数据点，由于生长阶段是一个连续的过程，则每个生长周期内同种类型的历史数据点连续分布。若仅存在两个生长周期，则第一个生长周期内第一种类型的历史数据点与第二个生长周期内第一种类型的历史数据点为同种类型的历史数据点。同一生长周期的每种类型的历史数据点的环境数据反映芽苗菜的每个生长阶段所处的环境。

本发明实施例选取K均值聚类算法对每个生长周期内历史数据点进行聚类。其中，K均值聚类算法为本领域技术人员公知技术，在此不再赘述。

步骤S3：依据每种类型的历史数据点的数量与离散分布程度对生成孤立树的预设数量进行调整，得到每种类型的历史数据点生成孤立树的调整数量；将每种类型的历史数据点生成调整数量棵孤立树。

具体的，不同类型的历史数据点包含的信息差异较大，若将每种类型的历史数据点直接设置相同数量的孤立树，若孤立树的数量过多时容易出现过拟合导致正常的数据点被划分为异常的数据点中，若孤立树的数量过小时导致无法区分正常的数据点与异常的数据点。因此，每种类型的历史数据点需要自适应设置孤立树数量。

当每种类型的历史数据点的数量越多时，为保证对历史数据点分析的准确性，则应设置较多的孤立树数量。在对每种类型的数据点生成的孤立树的数量进行调整时，不能仅考虑每种类型的历史数据点的数量，还需考虑每种类型的数据点的离散分布情况；本发明中每种类型的数据点的离散分布情况从每种类型的数据点所处生长周期内该类型的历史数据点在其生长周期中所占的比例，以及每种类型的数据点的每个维度的环境数据的离散情况两个方面进行分析，使每种类型的历史数据点的离散分布情况更加准确。当每种类型的历史数据点分布越离散，该类型的历史数据点越容易被划分生成孤立树，则应设置较少的孤立树数量。

根据每种类型的历史数据点的数量与分布离散分布情况，对预设数量进行调整获取每种类型的历史数据点生成孤立树的调整数据，具体计算公式如下：

式中，为第r种类型的历史数据点生成孤立树的调整数量；YM为预设数量，取经验值100，实施者跟可根据具体情况自行设置；/>为第r种类型的历史数据点的数量；/>为第r种类型的历史数据点的分布离散度；/>为第r种类型的第t个历史数据点所处生长周期内第r种类型的历史数据点的数量；/>为第r种类型的第t个历史数据点所处生长周期内历史数据点的数量；/>为第r种类型的第t个历史数据点的第一个维度的环境数据；/>为第r种类型的所有历史数据点的第一维度的环境数据的均值；/>为第r种类型的第t个历史数据点的第二个维度的环境数据；/>为第r种类型的所有历史数据点的第二维度的环境数据的均值；Norm为归一化函数；exp为以自然常数e为底数的指数函数。

需要说明的是，第r种类型的历史数据点的数量越大时，为保证对历史数据点分析的准确性，则该种类型的历史数据点设置生成的孤立树的数量应越多，则/>越大；当第r种类型的历史数据点的分布离散度/>越大时，说明第r种类型的历史数据点越容易被划分生成孤立树，为保证对历史数据点分析的准确性，则该种类型的历史数据点设置生成孤立树的数量应越少，则/>越小。需要说明的是，r的取值范围为1到最优参数K值之间的整数。

在获取第r种类型的历史数据点的分布离散度时，由于每个生长周期内每种类型的历史数据点通过聚类划分，则同一生长周期内每种类型的历史数据点之间的差异越小，每种类型的历史数据点的差异由不同生长周期的历史数据点之间的差异导致。分布离散度/>通过第r种类型的历史数据点的同一维度的环境数据的差异衡量，当/>越大时，分布离散度/>越大。同时将第r种类型的每个历史数据点所处生长周期内第r种类型的历史数据点在其生长周期中所占的比例/>作为/>的权重，以提高第r种类型的历史数据点的分布离散度的准确性。

基于每种类型的历史数据点生成孤立树的调整数量，利用孤立森林算法，则每种类型的历史数据点可以生成该类型对应的调整数量个孤立树。

步骤S4：基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率；以调整采样频率获取当前时刻之后的数据点，根据当前时刻之后的数据点更新当前数据集合。

将当前数据集合内每个当前数据点代入每棵孤立树，利用孤立森林算法获取当前数据集合内每个当前数据点的异常得分；将当前数据集合内当前数据点的异常得分的最大值进行负相关得到频率调整系数；将频率调整系数与原始采集频率的乘积作为调整采集频率。

本发明实施例中通过常数1与当前数据集合中当前数据点的异常得分的最大值的差值，实现/>进行负相关处理，在本发明其他实施例中也可以通过/>等其他数学运算实现/>的负相关处理，在此不再介绍。

基于当前数据集合中当前数据点的异常得分的最大值对原始采样频率进行调整，得到调整采样频率。调整采样频率的计算公式如下：

式中，为调整采样频率；/>为原始采样频率；/>为当前数据集合中当前数据点的异常得分的最大值。

需要说明的是，当越大时，当前数据点的异常情况越严重，说明当前数据点与正常的数据点的偏离程度越大，需要增加采样的频率以保证数据点数据点分析的准确性，则调整采样频率TP越大；利用/>对原始采样频率YP进行加权，实现对原始采样频率的调整。

利用调整采样频率对芽苗菜的生长数据进行采集的方法为：作为一个示例：从第T时刻开始获取当前数据点，获取第T时刻至第T+4时刻之间每个时刻的当前数据点，当前数据点依次为：，/>为第T时刻的当前数据点，依次类推。由当前数据点/>构成当前数据集合，获取通过该集合获取调整采样频率，以调整采样频率获取第T+4时刻之后的数据点，即以调整采样频率获取第T+5时刻至第T+9时刻之间每个时刻的数据点，数据点依次为：/>，/>为第T+5时刻的数据点，依次类推，根据数据点/>更新当前数据集合。基于通过更新后的当前数据集合获取调整采样频率，相当于对调整采样频率进行更新，以更新后的调整采样频率获取第T+9时刻之后的数据点，即以调整采样频率获取第T+10时刻至第T+14时刻之间每个时刻的数据点，数据点依次为：/>，/>为第T+10时刻的数据点，依次类推，根据数据点/>更新当前数据集合，依次类推，采集第T+14时刻之后的数据点。根据上述获取对芽苗菜的生长数据进行采集。

至此，本发明完成。

综上所述，本发明实施例中，以原始采样频率获取芽苗菜在多个生长周期内的历史数据点，获取对生长周期内历史数据点进行聚类的最优参数K值，基于同种类型的最优参数K值对应的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值；基于最终参数K值将当前数据点划分为多种类型的历史数据点；获取每种类型的历史数据点生成孤立树的调整数量，并利用孤立森林算法对每种类型的历史数据点生成孤立树；将基于获取的当前数据点的异常得分调整原始采样频率获取调整采样频率，依据调整采样频率获取数据点。本发明将生长周期内的数据点划分类型，基于每种类型的数据点分布离散程度自适应获取每种类型的数据点生成孤立树的数量，提高原始采集频率调整的准确性。

基于与上述方法实施例相同的发明构思，本发明实施例还提供了一种芽苗菜生长数据采集系统，该系统包括：存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，处理器执行所述计算机程序时，实现上述一种芽苗菜生长数据采集方法实施例中的步骤，例如图1所示的步骤。该一种芽苗菜生长数据采集方法在上述实施例中已经详细说明，不再赘述。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种芽苗菜生长数据采集方法，其特征在于，该方法包括：

基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率；以调整采样频率获取当前时刻之后的数据点，根据当前时刻之后的数据点更新当前数据集合；

所述获取对每个生长周期内历史数据点进行聚类的最优参数K值的方法，包括：

基于每个生长周期内任意两个历史数据点之间的改进距离，利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值；

所述每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下：

式中，为每个生长周期内第i个历史数据点与第j个历史数据点之间的改进距离；/>为每个生长周期内第i个历史数据点对应的时刻；/>每个生长周期内第j个历史数据点对应的时刻；/>为每个生长周期内第i个历史数据点的第一个维度的环境数据；/>每个生长周期内第j个历史数据点的第一个维度的环境数据；/>为每个生长周期内第i个历史数据点的第二个维度的环境数据；/>为每个生长周期内第j个历史数据点的第二个维度的环境数据；为绝对值函数。

2.根据权利要求1所述的一种芽苗菜生长数据采集方法，其特征在于，所述根据同一类别的最优参数K值对应的生长周期内历史数据点的数量，从最优参数K值中筛选出最终参数K值的方法，包括：

数值相等的最优参数K值为同一类别的最优参数K值；

3.根据权利要求2所述的一种芽苗菜生长数据采集方法，其特征在于，所述每个类别的最优参数K值的置信度的计算公式如下：

4.根据权利要求1所述的一种芽苗菜生长数据采集方法，其特征在于，所述基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点的方法，包括：

5.根据权利要求1所述的一种芽苗菜生长数据采集方法，其特征在于，所述每种类型的历史数据点生成孤立树的调整数量的计算公式如下：

6.根据权利要求1所述的一种芽苗菜生长数据采集方法，其特征在于，所述调整采样频率的获取方法，包括：

7.根据权利要求1所述的一种芽苗菜生长数据采集方法，其特征在于，所述将每种类型的历史数据点生成所述调整数量棵孤立树的方法，包括：

8.一种芽苗菜生长数据采集系统，其特征在于，该系统包括：存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序，处理器执行所述计算机程序时，实现上述权利要求1-7任意一项所述一种芽苗菜生长数据采集方法的步骤。