CN117272209B - 一种芽苗菜生长数据采集方法及系统 - Google Patents

一种芽苗菜生长数据采集方法及系统 Download PDF

Info

Publication number
CN117272209B
CN117272209B CN202311540506.7A CN202311540506A CN117272209B CN 117272209 B CN117272209 B CN 117272209B CN 202311540506 A CN202311540506 A CN 202311540506A CN 117272209 B CN117272209 B CN 117272209B
Authority
CN
China
Prior art keywords
historical data
data points
value
growth
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311540506.7A
Other languages
English (en)
Other versions
CN117272209A (zh
Inventor
方胜
赵忠良
刘雨平
程琳
武绍奇
张晶
张贺贺
张新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu New Hope Ecological Technology Co ltd
Original Assignee
Jiangsu New Hope Ecological Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu New Hope Ecological Technology Co ltd filed Critical Jiangsu New Hope Ecological Technology Co ltd
Priority to CN202311540506.7A priority Critical patent/CN117272209B/zh
Publication of CN117272209A publication Critical patent/CN117272209A/zh
Application granted granted Critical
Publication of CN117272209B publication Critical patent/CN117272209B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Forestry; Mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P60/00Technologies relating to agriculture, livestock or agroalimentary industries
    • Y02P60/20Reduction of greenhouse gas [GHG] emissions in agriculture, e.g. CO2
    • Y02P60/21Dinitrogen oxide [N2O], e.g. using aquaponics, hydroponics or efficiency measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Agronomy & Crop Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Marine Sciences & Fisheries (AREA)
  • Mining & Mineral Resources (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Animal Husbandry (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Cultivation Of Plants (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种芽苗菜生长数据采集方法及系统。本发明以原始采样频率获取芽苗菜在多个生长周期内的历史数据点,获取对生长周期内历史数据点进行聚类的最优参数K值,从最优参数K值中筛选出最终参数K值;基于最终参数K值将当前数据点划分为多种类型的历史数据点;获取每种类型的历史数据点生成孤立树的调整数量,并利用孤立森林算法对每种类型的历史数据点生成孤立树;将基于获取的当前数据集合中当前数据点的异常得分获取调整采样频率,依据调整采样频率获取数据点。本发明基于每种类型的数据点分布离散程度自适应获取每种类型的数据点生成孤立树的数量,提高原始采集频率调整的准确性。

Description

一种芽苗菜生长数据采集方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种芽苗菜生长数据采集方法及系统。
背景技术
在芽苗菜生产过程中需要合适的外界环境,当芽苗菜的生长环境不适合时,会延长芽苗菜的生长周期,因此,需要获取芽苗菜生长过程中的环境数据以判断芽苗菜的生长状况,根据生长状况对环境信息进行调整,以保证芽苗菜达到较好的生长情况,缩短芽苗菜的生长周期。
现有技术利用孤立森林算法对芽苗菜的多个生长周期内的数据点进行异常分析,由于芽苗菜的生长周期的不同生长阶段所需的环境差异较大,则生长周期内不同生长阶段对应的数据点之间的差异较大,容易导致正常的数据点被划分为异常的数据点中,导致调整芽苗菜采集数据点的频率不准确,难以准确观察芽苗菜的生长情况。
发明内容
为了解决芽苗菜的生长周期的不同生长阶段的环境数据差异较大,导致对数据点的采样频率调整不准确的技术问题,本发明的目的在于提供一种芽苗菜生长数据采集方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种芽苗菜生长数据采集方法,该方法包括:
以原始采集频率获取芽苗菜在至少两个生长周期内每个时刻下环境数据的历史数据点,以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点,由预设值个当前数据点构成当前数据集合;数据点包含不同维度的环境数据;
结合每个生长周期内任意两个历史数据点对应时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取对每个生长周期内历史数据点进行聚类的最优参数K值;根据同一类别的最优参数K值对应的生长周期内历史数据点的数量,从最优参数K值中筛选出最终参数K值;基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点;
依据每种类型的历史数据点的数量与离散分布程度对生成孤立树的预设数量进行调整,得到每种类型的历史数据点生成孤立树的调整数量;将每种类型的历史数据点生成所述调整数量棵孤立树;
基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率;以调整采样频率获取当前时刻之后的数据点,根据当前时刻之后的数据点更新当前数据集合。
进一步地,所述获取对每个生长周期内历史数据点进行聚类的最优参数K值的方法,包括:
结合每个生长周期内任意两个历史数据点对应的时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取每个生长周期内任意两个历史数据点之间的改进距离;
基于每个生长周期内任意两个历史数据点之间的改进距离,利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值。
进一步地,所述每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下:
式中,为每个生长周期内第i个历史数据点与第j个历史数据点之间的改进距离;/>为每个生长周期内第i个历史数据点对应的时刻;/>每个生长周期内第j个历史数据点对应的时刻;/>为每个生长周期内第i个历史数据点的第一个维度的环境数据;/>每个生长周期内第j个历史数据点的第一个维度的环境数据;/>为每个生长周期内第i个历史数据点的第二个维度的环境数据;/>为每个生长周期内第j个历史数据点的第二个维度的环境数据;/>为绝对值函数。
进一步地,所述根据同一类别的最优参数K值对应的生长周期内历史数据点的数量,从最优参数K值中筛选出最终参数K值的方法,包括:
数值相等的最优参数K值为同一类别的最优参数K值;
判断每个类别的最优参数K值的数量是否为1,若是,将每个类别的每个最优参数K值的有效值设置为预设第一非负数;若否,将每个类别的每个最优参数K值的有效值设置为预设第二非负数;预设第一非负数小于预设第二非负数;
根据每个类别的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值,获取每个类别的最优参数K值的置信度;
将最大的所述置信度对应类型的最优参数K值的数值作为最终参数K值。
进一步地,所述每个类别的最优参数K值的置信度的计算公式如下:
式中,D为每个类别的最优参数K值的置信度;为每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量;/>为每个类别的第k个最优参数K值的有效值;n为每个类别的最优参数K值的数量;exp为以自然常数e为底数的指数函数。
进一步地,所述基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点的方法,包括:
对于每个生长周期内的历史数据点,对生长周期内的历史数据点进行聚类,得到最终参数K值个聚类簇;
将不同生长周期的同一聚类簇中的历史数据点作为同种类型的历史数据点。
进一步地,所述每种类型的历史数据点生成孤立树的调整数量的计算公式如下:
式中,为第r种类型的历史数据点生成孤立树的调整数量;YM为预设数量;/>为第r种类型的历史数据点的数量;/>为第r种类型的历史数据点的分布离散度;/>为第r种类型的第t个历史数据点所处生长周期内第r种类型的历史数据点的数量;/>为第r种类型的第t个历史数据点所处生长周期内历史数据点的数量;/>为第r种类型的第t个历史数据点的第一个维度的环境数据;/>为第r种类型的所有历史数据点的第一维度的环境数据的均值;/>为第r种类型的第t个历史数据点的第二个维度的环境数据;/>为第r种类型的所有历史数据点的第二维度的环境数据的均值;Norm为归一化函数;exp为以自然常数e为底数的指数函数。
进一步地,所述调整采样频率的获取方法,包括:
将当前数据集合内每个当前数据点代入每棵孤立树,利用孤立森林算法获取当前数据集合内每个当前数据点的异常得分;
将当前数据集合内当前数据点的异常得分的最大值进行负相关得到频率调整系数;将频率调整系数与原始采集频率的乘积作为调整采集频率。
进一步地,所述将每种类型的历史数据点生成所述调整数量棵孤立树的方法,包括:
利用孤立森林算法将每种类型的历史数据点生成所述调整数量棵孤立树。
第二方面,本发明另一个实施例提供了一种芽苗菜生长数据采集系统,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述任意一项方法的步骤。
本发明具有如下有益效果:
本发明实施例中,以原始采样频率获取芽苗菜在多个生长周期内的历史数据点,由于芽苗菜在不同生长周期的生长阶段类似,且生长周期内不同生长阶段对应的数据点的差异较大,为避免对直接对多个生长周期内数据点进行异常点识别,导致正常的数据点被识别为异常的数据点的问题,本发明将生长周期内的数据点划分为多种类型的数据点,具体方法为:芽苗菜所处环境存在差异使不同生长周期的长度不同,则获取的每个生长周期对应的最优参数K值不同,当每个类别的最优参数K值的数量越多时,该类别的最优参数K值为生长周期内历史数据点进行阶段划分时选取的K值的可能性越大,基于同一类别的最优参数K值对应的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值,将生长周期内的历史数据点划分类型;相较于将每种类型的历史数据点生成固定数量的孤立树,本发明基于每种类型的历史数据点的离散分布情况与历史数据点的数量自适应获取每种类型的历史数据点生成孤立树的数量,避免了因孤立树的数量设置不合适,难以区分正常数据与异常数据;将每种类型的历史数据点生成孤立树,根据每次获取的当前数据点代入孤立树获取的异常得分对原始采样频率进行实时调整获取调整采样频率,以调整采样频率获取当前时刻之后的数据点,使每次获取的当前数据集合内的当前数据点准确呈现芽苗菜的生长状况,提高观察芽苗菜的生长情况的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种芽苗菜生长数据采集方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种芽苗菜生长数据采集方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景:对芽苗菜生长过程中的环境数据进行监测,分析其异常情况,根据异常情况对采集数据的频率进行调整。
下面结合附图具体的说明本发明所提供的一种芽苗菜生长数据采集方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种芽苗菜生长数据采集方法的步骤流程图,该方法包括:
步骤S1:以原始采集频率获取芽苗菜在至少两个生长周期内每个时刻下环境数据的历史数据点,以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点,由预设值个当前数据点构成当前数据集合;数据点包含不同维度的环境数据。
具体的,通过温度传感器和湿度传感器采集芽苗菜生长过程中外界环境的温度和湿度,将芽苗菜种子种下到收割作为芽苗菜的生长周期,以原始采集频率获取同一种类的至少两个芽苗菜在其生长周期内每个时刻下环境数据的历史数据点。
本发明实施例中原始采集频率为五分钟采集一次环境数据,实施者可根据具体情况自行设置。由于本发明中仅考虑芽苗菜生长环境的温度与湿度,则环境数据包括:温度数据与湿度数据,每种类型的环境数据对应一个维度,数据点包含不同维度的环境数据。
需要说明的是,芽苗菜的生长周期受到其所处环境的影响,同一品种的芽苗菜的生长周期存在差异,环境越适合芽苗菜的生长,则芽苗菜的生长周期越短。
以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点,由预设值个当前数据点构成当前数据集合。需要注意的是,历史数据点与当前数据点分析的芽苗菜为同一品种的芽苗菜。当前数据集合内的当前数据点连续分布。
本发明实施例中预设值取经验值5,实施者可根据具体情况自行设置。
步骤S2:结合每个生长周期内任意两个历史数据点对应时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取对每个生长周期内历史数据点进行聚类的最优参数K值;根据同一类别的最优参数K值对应的生长周期内历史数据点的数量,从最优参数K值中筛选出最终参数K值;基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点。
具体的,本发明选用孤立森林算法基于历史数据点建立孤立树,将历史数据点随机划分以判断样本中的离群点。芽苗菜在生长周期的不同阶段所需的环境不同,导致孤立树中产生离群点,且由不同生长阶段之间的差异导致。因此,在进行孤立树的样本数据划分时,需要将芽苗菜的不同生长周期的同一生长阶段的数据点划分到一起。其中,孤立森林算法为本领域技术人员公知技术,在此不再赘述。
基于每个生长周期内历史数据点的环境数据自身波动情况将生长周期划分为不同的生长阶段;外界环境变化导致芽苗菜的生长周期改变,不同生长周期的同一生长阶段的长度不一致,但是每个生长阶段在生长周期中位置分布是一致的,且不同生长周期的生长阶段的数量一致的。因此,结合生长周期内历史数据点对应时刻之间的时间间隔与同一维度的环境数据之间的差异,分析每个生长周期内历史数据点的聚类结果的最优参数K值,进而从最优参数K值中筛选出适合每个生长周期内历史数据点划分类型的最终参数K值。
优选地,对每个生长周期内历史数据点进行聚类的最优参数K值的获取方法为:结合每个生长周期内任意两个历史数据点对应的时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取每个生长周期内任意两个历史数据点之间的改进距离;基于每个生长周期内任意两个历史数据点之间的改进距离,利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值。
历史数据点的改进距离包含时刻与每个维度的环境数据多方面的影响,更加适合芽苗菜的生长环境分析,提高对每个生长周期内历史数据点进行聚类的最优参数K值的准确性。将手肘法中历史数据点之间的欧式距离替换为改进距离,其他内容均不变,获取每个生长周期对应的最优参数K值。其中,手肘法为本领域技术人员公知技术,在此不再赘述。
每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下:
式中,为每个生长周期内第i个历史数据点与第j个历史数据点之间的改进距离;/>为每个生长周期内第i个历史数据点对应的时刻;/>每个生长周期内第j个历史数据点对应的时刻;/>为每个生长周期内第i个历史数据点的第一个维度的环境数据;/>每个生长周期内第j个历史数据点的第一个维度的环境数据;/>为每个生长周期内第i个历史数据点的第二个维度的环境数据;/>为每个生长周期内第j个历史数据点的第二个维度的环境数据;/>为绝对值函数。
本发明通过衡量历史数据点之间的距离,当/>越大时,说明每个生长周期内历史数据点之间的改进距离/>越大。/>为每个生长周期内第i个历史数据点与第j个历史数据点的第一维度的环境数据之间的差异,/>为每个生长周期内第i个历史数据点与第j个历史数据点的第二维度的环境数据之间的差异;每个生长周期内同一生长阶段的数据点的环境数据类似,当每个生长周期内第i个历史数据点与第j个历史数据点的同一维度的环境数据之间的差异越大时,即当/>越大时,说明两个历史数据点对应的时刻之间的时间间隔越大,则改进距离/>越大。改进距离/>在考虑历史数据点对应的时刻之间的时间间隔的基础上,添加数据点的同一维度的环境数据之间的差异,衡量历史数据点之间的距离更加准确。
芽苗菜的不同生长周期内生长阶段一致,芽苗菜的生长环境改变可能导致不同生长周期内生长阶段出现差异,即最优参数K值的数值不同。当芽苗菜的生长环境类似时,生长周期的长度接近,即生长周期内历史数据点的数量近似,因此基于长度接近的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值。
优选地,最终参数K值的具体获取方法为:数值相等的最优参数K值为同一类别的最优参数K值;判断每个类别的最优参数K值的数量是否为1,若是,将每个类别的每个最优参数K值的有效值设置为预设第一非负数;若否,将每个类别的每个最优参数K值的有效值设置为预设第二非负数;预设第一非负数小于预设第二非负数;根据每个类别的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值,获取每个类别的最优参数K值的置信度;将最大的置信度对应类型的最优参数K值的数值作为最终参数K值。
当每个类别的最优参数K值的数量越多时,说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越大,将每个类别的每个最优参数K值的有效值设置为预设第一非负数;当每个类别的最优参数K值的数量越少时,说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越小,将每个类别的每个最优参数K值的有效值设置为预设第二非负数。因此,预设第一非负数小于预设第二非负数。
本发明实施例中预设第一非负数取经验值0,预设第二非负数取经验值1,实施者可根据具体情况自行设置。
根据每种的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值,获取每个类别的最优参数K值的置信度,置信度的计算公式如下:
式中,D为每个类别的最优参数K值的置信度;为每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量;/>为每个类别的第k个最优参数K值的有效值;n为每个类别的最优参数K值的数量;exp为以自然常数e为底数的指数函数。
每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量呈现该生长周期的时长,生长周期的长度越短,即/>越小,说明该生长周期内历史数据点的环境数据越符合麦芽苗的生长,该生长周期对应的最优参数K值为生长周期内历史数据点进行阶段划分时选取的K值可能性越大,则置信度D越大。同时还考虑每个类别的第k个最优参数K值的有效值/>,当/>越大时,说明该类型的最优参数K值为每个生长周期内历史数据点进行阶段划分时选取的K值可能性越大,则置信度D越大。
对于每个生长周期内的历史数据点,对生长周期内的历史数据点进行聚类,得到最终参数K值个聚类簇;将不同生长周期的同一聚类簇中的历史数据点作为同种类型的历史数据点。
需要说明的是,每个生长周期内的历史数据点均被分为最终参数K值种类型的历史数据点,由于生长阶段是一个连续的过程,则每个生长周期内同种类型的历史数据点连续分布。若仅存在两个生长周期,则第一个生长周期内第一种类型的历史数据点与第二个生长周期内第一种类型的历史数据点为同种类型的历史数据点。同一生长周期的每种类型的历史数据点的环境数据反映芽苗菜的每个生长阶段所处的环境。
本发明实施例选取K均值聚类算法对每个生长周期内历史数据点进行聚类。其中,K均值聚类算法为本领域技术人员公知技术,在此不再赘述。
步骤S3:依据每种类型的历史数据点的数量与离散分布程度对生成孤立树的预设数量进行调整,得到每种类型的历史数据点生成孤立树的调整数量;将每种类型的历史数据点生成调整数量棵孤立树。
具体的,不同类型的历史数据点包含的信息差异较大,若将每种类型的历史数据点直接设置相同数量的孤立树,若孤立树的数量过多时容易出现过拟合导致正常的数据点被划分为异常的数据点中,若孤立树的数量过小时导致无法区分正常的数据点与异常的数据点。因此,每种类型的历史数据点需要自适应设置孤立树数量。
当每种类型的历史数据点的数量越多时,为保证对历史数据点分析的准确性,则应设置较多的孤立树数量。在对每种类型的数据点生成的孤立树的数量进行调整时,不能仅考虑每种类型的历史数据点的数量,还需考虑每种类型的数据点的离散分布情况;本发明中每种类型的数据点的离散分布情况从每种类型的数据点所处生长周期内该类型的历史数据点在其生长周期中所占的比例,以及每种类型的数据点的每个维度的环境数据的离散情况两个方面进行分析,使每种类型的历史数据点的离散分布情况更加准确。当每种类型的历史数据点分布越离散,该类型的历史数据点越容易被划分生成孤立树,则应设置较少的孤立树数量。
根据每种类型的历史数据点的数量与分布离散分布情况,对预设数量进行调整获取每种类型的历史数据点生成孤立树的调整数据,具体计算公式如下:
式中,为第r种类型的历史数据点生成孤立树的调整数量;YM为预设数量,取经验值100,实施者跟可根据具体情况自行设置;/>为第r种类型的历史数据点的数量;/>为第r种类型的历史数据点的分布离散度;/>为第r种类型的第t个历史数据点所处生长周期内第r种类型的历史数据点的数量;/>为第r种类型的第t个历史数据点所处生长周期内历史数据点的数量;/>为第r种类型的第t个历史数据点的第一个维度的环境数据;/>为第r种类型的所有历史数据点的第一维度的环境数据的均值;/>为第r种类型的第t个历史数据点的第二个维度的环境数据;/>为第r种类型的所有历史数据点的第二维度的环境数据的均值;Norm为归一化函数;exp为以自然常数e为底数的指数函数。
需要说明的是,第r种类型的历史数据点的数量越大时,为保证对历史数据点分析的准确性,则该种类型的历史数据点设置生成的孤立树的数量应越多,则/>越大;当第r种类型的历史数据点的分布离散度/>越大时,说明第r种类型的历史数据点越容易被划分生成孤立树,为保证对历史数据点分析的准确性,则该种类型的历史数据点设置生成孤立树的数量应越少,则/>越小。需要说明的是,r的取值范围为1到最优参数K值之间的整数。
在获取第r种类型的历史数据点的分布离散度时,由于每个生长周期内每种类型的历史数据点通过聚类划分,则同一生长周期内每种类型的历史数据点之间的差异越小,每种类型的历史数据点的差异由不同生长周期的历史数据点之间的差异导致。分布离散度/>通过第r种类型的历史数据点的同一维度的环境数据的差异衡量,当/>越大时,分布离散度/>越大。同时将第r种类型的每个历史数据点所处生长周期内第r种类型的历史数据点在其生长周期中所占的比例/>作为/>的权重,以提高第r种类型的历史数据点的分布离散度的准确性。
基于每种类型的历史数据点生成孤立树的调整数量,利用孤立森林算法,则每种类型的历史数据点可以生成该类型对应的调整数量个孤立树。
步骤S4:基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率;以调整采样频率获取当前时刻之后的数据点,根据当前时刻之后的数据点更新当前数据集合。
将当前数据集合内每个当前数据点代入每棵孤立树,利用孤立森林算法获取当前数据集合内每个当前数据点的异常得分;将当前数据集合内当前数据点的异常得分的最大值进行负相关得到频率调整系数;将频率调整系数与原始采集频率的乘积作为调整采集频率。
本发明实施例中通过常数1与当前数据集合中当前数据点的异常得分的最大值的差值,实现/>进行负相关处理,在本发明其他实施例中也可以通过/>等其他数学运算实现/>的负相关处理,在此不再介绍。
基于当前数据集合中当前数据点的异常得分的最大值对原始采样频率进行调整,得到调整采样频率。调整采样频率的计算公式如下:
式中,为调整采样频率;/>为原始采样频率;/>为当前数据集合中当前数据点的异常得分的最大值。
需要说明的是,当越大时,当前数据点的异常情况越严重,说明当前数据点与正常的数据点的偏离程度越大,需要增加采样的频率以保证数据点数据点分析的准确性,则调整采样频率TP越大;利用/>对原始采样频率YP进行加权,实现对原始采样频率的调整。
利用调整采样频率对芽苗菜的生长数据进行采集的方法为:作为一个示例:从第T时刻开始获取当前数据点,获取第T时刻至第T+4时刻之间每个时刻的当前数据点,当前数据点依次为:,/>为第T时刻的当前数据点,依次类推。由当前数据点/>构成当前数据集合,获取通过该集合获取调整采样频率,以调整采样频率获取第T+4时刻之后的数据点,即以调整采样频率获取第T+5时刻至第T+9时刻之间每个时刻的数据点,数据点依次为:/>,/>为第T+5时刻的数据点,依次类推,根据数据点/>更新当前数据集合。基于通过更新后的当前数据集合获取调整采样频率,相当于对调整采样频率进行更新,以更新后的调整采样频率获取第T+9时刻之后的数据点,即以调整采样频率获取第T+10时刻至第T+14时刻之间每个时刻的数据点,数据点依次为:/>,/>为第T+10时刻的数据点,依次类推,根据数据点/>更新当前数据集合,依次类推,采集第T+14时刻之后的数据点。根据上述获取对芽苗菜的生长数据进行采集。
至此,本发明完成。
综上所述,本发明实施例中,以原始采样频率获取芽苗菜在多个生长周期内的历史数据点,获取对生长周期内历史数据点进行聚类的最优参数K值,基于同种类型的最优参数K值对应的生长周期内历史数据点的数量从最优参数K值中筛选出最终参数K值;基于最终参数K值将当前数据点划分为多种类型的历史数据点;获取每种类型的历史数据点生成孤立树的调整数量,并利用孤立森林算法对每种类型的历史数据点生成孤立树;将基于获取的当前数据点的异常得分调整原始采样频率获取调整采样频率,依据调整采样频率获取数据点。本发明将生长周期内的数据点划分类型,基于每种类型的数据点分布离散程度自适应获取每种类型的数据点生成孤立树的数量,提高原始采集频率调整的准确性。
基于与上述方法实施例相同的发明构思,本发明实施例还提供了一种芽苗菜生长数据采集系统,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述一种芽苗菜生长数据采集方法实施例中的步骤,例如图1所示的步骤。该一种芽苗菜生长数据采集方法在上述实施例中已经详细说明,不再赘述。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种芽苗菜生长数据采集方法,其特征在于,该方法包括:
以原始采集频率获取芽苗菜在至少两个生长周期内每个时刻下环境数据的历史数据点,以原始采集频率获取芽苗菜在当前时刻下环境数据的当前数据点,由预设值个当前数据点构成当前数据集合;数据点包含不同维度的环境数据;
结合每个生长周期内任意两个历史数据点对应时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取对每个生长周期内历史数据点进行聚类的最优参数K值;根据同一类别的最优参数K值对应的生长周期内历史数据点的数量,从最优参数K值中筛选出最终参数K值;基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点;
依据每种类型的历史数据点的数量与离散分布程度对生成孤立树的预设数量进行调整,得到每种类型的历史数据点生成孤立树的调整数量;将每种类型的历史数据点生成所述调整数量棵孤立树;
基于将当前数据集合内的当前数据点代入孤立树获取的异常得分对原始采集频率进行调整获取调整采样频率;以调整采样频率获取当前时刻之后的数据点,根据当前时刻之后的数据点更新当前数据集合;
所述获取对每个生长周期内历史数据点进行聚类的最优参数K值的方法,包括:
结合每个生长周期内任意两个历史数据点对应的时刻之间的时间间隔,以及两个历史数据点的同一维度的环境数据之间的差异,获取每个生长周期内任意两个历史数据点之间的改进距离;
基于每个生长周期内任意两个历史数据点之间的改进距离,利用手肘法获取对每个生长周期内历史数据点进行聚类的最优参数K值;
所述每个生长周期内任意两个历史数据点之间的改进距离的计算公式如下:
式中,为每个生长周期内第i个历史数据点与第j个历史数据点之间的改进距离;/>为每个生长周期内第i个历史数据点对应的时刻;/>每个生长周期内第j个历史数据点对应的时刻;/>为每个生长周期内第i个历史数据点的第一个维度的环境数据;/>每个生长周期内第j个历史数据点的第一个维度的环境数据;/>为每个生长周期内第i个历史数据点的第二个维度的环境数据;/>为每个生长周期内第j个历史数据点的第二个维度的环境数据;为绝对值函数。
2.根据权利要求1所述的一种芽苗菜生长数据采集方法,其特征在于,所述根据同一类别的最优参数K值对应的生长周期内历史数据点的数量,从最优参数K值中筛选出最终参数K值的方法,包括:
数值相等的最优参数K值为同一类别的最优参数K值;
判断每个类别的最优参数K值的数量是否为1,若是,将每个类别的每个最优参数K值的有效值设置为预设第一非负数;若否,将每个类别的每个最优参数K值的有效值设置为预设第二非负数;预设第一非负数小于预设第二非负数;
根据每个类别的每个最优参数K值对应的生长周期内历史数据点的数量与该最优参数K值的有效值,获取每个类别的最优参数K值的置信度;
将最大的所述置信度对应类型的最优参数K值的数值作为最终参数K值。
3.根据权利要求2所述的一种芽苗菜生长数据采集方法,其特征在于,所述每个类别的最优参数K值的置信度的计算公式如下:
式中,D为每个类别的最优参数K值的置信度;为每个类别的第k个最优参数K值对应的生长周期内历史数据点的数量;/>为每个类别的第k个最优参数K值的有效值;n为每个类别的最优参数K值的数量;exp为以自然常数e为底数的指数函数。
4.根据权利要求1所述的一种芽苗菜生长数据采集方法,其特征在于,所述基于最终参数K值将所有生长周期内的历史数据点划分为至少两种类型的历史数据点的方法,包括:
对于每个生长周期内的历史数据点,对生长周期内的历史数据点进行聚类,得到最终参数K值个聚类簇;
将不同生长周期的同一聚类簇中的历史数据点作为同种类型的历史数据点。
5.根据权利要求1所述的一种芽苗菜生长数据采集方法,其特征在于,所述每种类型的历史数据点生成孤立树的调整数量的计算公式如下:
式中,为第r种类型的历史数据点生成孤立树的调整数量;YM为预设数量;/>为第r种类型的历史数据点的数量;/>为第r种类型的历史数据点的分布离散度;/>为第r种类型的第t个历史数据点所处生长周期内第r种类型的历史数据点的数量;/>为第r种类型的第t个历史数据点所处生长周期内历史数据点的数量;/>为第r种类型的第t个历史数据点的第一个维度的环境数据;/>为第r种类型的所有历史数据点的第一维度的环境数据的均值;/>为第r种类型的第t个历史数据点的第二个维度的环境数据;/>为第r种类型的所有历史数据点的第二维度的环境数据的均值;Norm为归一化函数;exp为以自然常数e为底数的指数函数。
6.根据权利要求1所述的一种芽苗菜生长数据采集方法,其特征在于,所述调整采样频率的获取方法,包括:
将当前数据集合内每个当前数据点代入每棵孤立树,利用孤立森林算法获取当前数据集合内每个当前数据点的异常得分;
将当前数据集合内当前数据点的异常得分的最大值进行负相关得到频率调整系数;将频率调整系数与原始采集频率的乘积作为调整采集频率。
7.根据权利要求1所述的一种芽苗菜生长数据采集方法,其特征在于,所述将每种类型的历史数据点生成所述调整数量棵孤立树的方法,包括:
利用孤立森林算法将每种类型的历史数据点生成所述调整数量棵孤立树。
8.一种芽苗菜生长数据采集系统,其特征在于,该系统包括:存储器、处理器以及存储在所述存储器中并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现上述权利要求1-7任意一项所述一种芽苗菜生长数据采集方法的步骤。
CN202311540506.7A 2023-11-20 2023-11-20 一种芽苗菜生长数据采集方法及系统 Active CN117272209B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311540506.7A CN117272209B (zh) 2023-11-20 2023-11-20 一种芽苗菜生长数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311540506.7A CN117272209B (zh) 2023-11-20 2023-11-20 一种芽苗菜生长数据采集方法及系统

Publications (2)

Publication Number Publication Date
CN117272209A CN117272209A (zh) 2023-12-22
CN117272209B true CN117272209B (zh) 2024-02-02

Family

ID=89216358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311540506.7A Active CN117272209B (zh) 2023-11-20 2023-11-20 一种芽苗菜生长数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN117272209B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649059B (zh) * 2024-01-30 2024-05-17 河北省农林科学院农业信息与经济研究所 一种用于数字化育种流程的成果评价优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN115600932A (zh) * 2022-12-12 2023-01-13 杭州原数科技有限公司(Cn) 一种基于大数据的文物储藏环境异常评估方法
CN116955963A (zh) * 2023-09-19 2023-10-27 北京英沣特能源技术有限公司 基于历史数据分析的暖通节能阶梯寻优控制方法
CN117077044A (zh) * 2023-10-18 2023-11-17 深圳市大易电气实业有限公司 一种发电机用真空断路器故障判别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN115600932A (zh) * 2022-12-12 2023-01-13 杭州原数科技有限公司(Cn) 一种基于大数据的文物储藏环境异常评估方法
CN116955963A (zh) * 2023-09-19 2023-10-27 北京英沣特能源技术有限公司 基于历史数据分析的暖通节能阶梯寻优控制方法
CN117077044A (zh) * 2023-10-18 2023-11-17 深圳市大易电气实业有限公司 一种发电机用真空断路器故障判别方法及装置

Also Published As

Publication number Publication date
CN117272209A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN117272209B (zh) 一种芽苗菜生长数据采集方法及系统
CN112906298B (zh) 一种基于机器学习的蓝莓产量预测方法
CN117332283B (zh) 一种中药材生长信息采集分析方法及系统
CN110119767B (zh) 一种基于lvq神经网络的黄瓜温室温度智能化检测装置
CN110874617A (zh) 一种冬小麦叶片氮含量估算模型的建立方法
CN117235548B (zh) 基于激光灼烧的煤质数据处理方法及智能化系统
CN107202784B (zh) 一种水稻浸种催芽过程中工艺节点的检测方法
Baigorria et al. Assessing predictability of cotton yields in the southeastern United States based on regional atmospheric circulation and surface temperatures
CN111461435A (zh) 一种农作物产量的预测方法和系统
CN117313017B (zh) 一种彩叶研发数据处理方法及系统
CN117633697B (zh) 基于物联网的生猪智能监测方法及系统
CN114429238A (zh) 一种基于时空特征提取的风电机组故障预警方法
CN117349664A (zh) 一种芽苗菜生长环境在线监测方法及系统
CN117455062A (zh) 一种基于多源异构农业数据的农作物产量预测算法
JP7208503B2 (ja) 機械学習プログラム、機械学習方法および機械学習装置
CN113933334B (zh) 一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法
CN109520964A (zh) 基于nirs的种子活力测定方法、系统及存储介质
JP2023076905A (ja) 収量予測方法及び収量予測プログラム
Pechrová et al. Modelling the development of the consumer price of sugar
CN111223002A (zh) 一种玉米区域干物质产量或青储产量评估方法和系统
CN117172958B (zh) 一种豆芽生长实时数据管理方法
KR102471743B1 (ko) 스마트팜의 미래 생산량 예측 방법
CN117787510B (zh) 基于时序预测分析的农药残留监测过程的优化方法
CN113349020B (zh) 一种设施蔬菜精准浇水的方法、装置和电子设备
CN117474392B (zh) 一种种植户潜力分析系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant