CN116882850A

CN116882850A - 一种基于大数据的园林数据智能管理方法以及系统

Info

Publication number: CN116882850A
Application number: CN202311152644.8A
Authority: CN
Inventors: 张洁梅; 吴楠
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-10-13
Anticipated expiration: 2043-09-08
Also published as: CN116882850B

Abstract

本申请涉及数据处理领域，提供一种基于大数据的园林数据智能管理方法以及系统，基于大数据的园林数据智能管理方法包括：收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量；计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数；基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果；基于聚类结果评估园林状况。该方法能够有效的管理园林数据，避免人力物力的浪费。

Description

一种基于大数据的园林数据智能管理方法以及系统

技术领域

本申请涉及数据处理领域，特别是涉及一种基于大数据的园林数据智能管理方法以及系统。

背景技术

传统的园林管理方法难以满足发展的需要。由此，逐渐淘汰了人工对园林进行管理的方法，避免人力的消耗。但是，园林数据包含多种参数，如何高效地对多维园林数据进行有效管理成为了一大急需解决的问题。

发明内容

本发明提供一种基于大数据的园林数据智能管理方法以及系统，该方法能够有效的管理园林数据，避免人力物力的浪费。

第一方面，本申请提供一种基于大数据的园林数据智能管理方法，包括：

收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量；

计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数；

基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果；

基于聚类结果评估园林状况。

在一实施例中，计算每一行参数的对应的收缩因子，包括：

对每一行参数进行随机抽样，得到每一行参数对应的随机抽样序列；

计算所述随机抽样序列的收缩因子，其中，随机抽样序列的收缩因子为每一行参数的对应的收缩因子。

在一实施例中，计算所述随机抽样序列的收缩因子，包括：

计算随机抽样序列的天气影响程度系数和随机抽样序列的簇群离散度；

基于天气影响程度系数和簇群离散度计算所述随机抽样序列的收缩因子。

在一实施例中，计算随机抽样序列的天气影响程度系数，包括：

基于随机抽样序列中阶梯的数目以及相邻阶梯的幅度计算随机抽样序列的天气影响程度系数；

其中，随机抽样序列中相邻且相同的多个数据构成一个阶梯。

在一实施例中，基于随机抽样序列中阶梯的数目以及相邻阶梯的幅度计算随机抽样序列的天气影响程度系数，包括：

利用如下公式计算随机抽样序列的天气影响程度系数：

；

其中，表示随机抽样序列中阶梯的数目，/>和/>分别表示随机抽样序列/>中第/>、第/>个阶梯的幅度。

在一实施例中，计算随机抽样序列的簇群离散度，包括：

计算随机抽样序列的序列密集度；

对随机抽样序列进行聚类，得到多个簇；

基于随机抽样序列的序列密集度、随机抽样序列中簇的簇内关系和簇间关系计算随机抽样序列的簇群离散度。

在一实施例中，计算随机抽样序列的序列密集度，包括：

基于随机抽样序列中数据的分布特征计算随机抽样序列的偏态指数；

根据随机抽样序列中的众数和偏态指数计算随机抽样序列的序列密集度。

在一实施例中，根据随机抽样序列中的众数和偏态指数计算随机抽样序列的序列密集度，包括：

利用如下公式计算随机抽样序列的序列密集度：

；

其中，表示随机抽样序列/>的偏态指数，/>表示随机抽样序列/>中最高峰所对应数值的/>范围之内序列数值的数目，/>表示最大峰所对应数值的范围之内第/>种序列数值的频率，/>表示抽样序列/>的总频率，/>表示随机抽样序列/>，计算标准差，/>表示3个标准差。

在一实施例中，基于聚类结果评估园林状况，包括：

利用异常检测算法对聚类结果进行检测，得到每一个聚类结果中异常数据的集合；

基于所述聚类结果以及异常数据的集合评估园林的状况。

第二方面，本申请提供一种基于大数据的园林数据智能管理系统，包括：

收集模块，用于收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量；

计算模块，用于计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数；

聚类模块，用于基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果；

评估模块，用于基于聚类结果评估园林状况。

本申请的有益效果，区别于现有技术，本申请的基于大数据的园林数据智能管理方法包括：收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量；计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数；基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果；基于聚类结果评估园林状况。该方法能够有效的管理园林数据，避免人力物力的浪费。

附图说明

图1为本发明基于大数据的园林数据智能管理方法的一实施例的流程示意图；

图2为图1中步骤S12的一实施例的流程示意图；

图3为本发明基于大数据的园林数据智能管理系统的一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提出一种基于大数据的园林数据智能管理方法以及系统，通过智慧园林大数据平台对多维园林管理参数数据进行收集，对每一维度参数序列进行数据变化区间的划分，对不同数据变化区间的数据采取不同的管理方法，从而有效的对园林数据进行管理，避免人力物力的浪费。下面结合附图和实施例对本申请进行详细的说明。

请参见图1，图1为基于大数据的园林数据智能管理方法的一实施例的流程示意图，具体包括：

步骤S11：收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量。

当园林的健康状况较差时，会严重影响园林的绿化养护与管理经营，从而会造成大量的经济损失。因此，本发明通过智慧园林大数据平台对多维园林管理参数数据进行收集，对每个维度的时序数据进行区域的划分，从而得到园林的健康状况，便于管理员对园林进行健康管理。

本发明通过智慧园林大数据平台对多维园林管理参数数据进行收集，收集的数据参数有土壤pH值、土壤湿度、光照强度、空气温度、空气湿度、风速、降水量以及浓度，获取园林参数的多维时序序列，将其作为园林数据智能管理的基础数据。园林管理的参数有很多，实施者可以自行设定所要管理的参数，包括但不限于本发明所收集的参数，本发明收集园林管理参数的类别为8。需要说明的是，所收集的是某一个智慧园林的多维参数数据，并且每个维度的时序数据中相邻数据之间的时间间隔为t，收集到的每个维度时序序列的长度为n。具体时序序列长度以及时间间隔t，实施者可以自行定义，本发明设置为n=960，t=1h。至此，得到多维园林管理参数数据的时序序列，作为园林数据智能管理的基础数据。

对于收集到的多维园林管理参数数据的时序序列，本发明对多维时序序列进行分析，对多维时序序列中的异常数据进行提取，进而得到园林健康指数，用以实现对园林数据的智能管理。

基于所收集到的多维园林管理参数的时序序列，本发明构建园林数据矩阵，通过多维的时序序列进行整合得到。为避免各个园林参数不同量纲之间的影响，本发明对收集到的不同维度的园林参数的数据序列进行归一化处理。收集园林管理参数数据得到m×n数据矩阵，园林数据矩阵记为：

；

式子中，m表示参数的维度数量，n表示每一维度的参数数量，每行的时序序列表示每个参数的数据序列，每列表示每个时刻的不同参数的数据。

步骤S12：计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数。

对于园林数据矩阵，本发明从不同的维度进行分析，以每个行向量为例，通过CURE聚类算法，对数据区域类别进行划分，进而提取出异常数据的集合，用于评价园林健康质量。但是，针对不同变化的数据，收缩因子的大小会对聚类结果产生不同的影响，传统的CURE聚类算法的收缩因子选择比较困难。因此，本发明基于园林数据的特点，自适应每个维度的参数序列的收缩因子，目的是让聚类结果更加准确，得到的异常数据也更加准确，进而更加科学的评价园林的健康状况。

基于此，本申请计算针对每一行参数计算其对应的收缩因子。

在一实施例中，对每一行参数进行随机抽样，得到每一行参数对应的随机抽样序列；计算随机抽样序列的收缩因子。其中，随机抽样序列的收缩因子为每一行参数的对应的收缩因子。

具体的，以行向量为例，记为，第i行时序数据中每个时刻的数据记为/>，x表示的是时刻。针对时序序列数据，传统的CURE聚类算法先进行随机抽样，本发明利用随机抽样的方式从时序序列数据/>中抽取480个数据进行处理。将抽取的数据作为一个新数据，记为/>。针对随机抽样后的数据，由于每行的时序序列数据的变化规律各不相同。因此，每行的时序数据的收缩因子应贴合数据本身，进而得到较好的聚类结果。根据得到的/>，将采集数据按照从小到大的顺序形成随机抽样序列/>。

本申请中，计算随机抽样序列的收缩因子，随机抽样序列的收缩因子即为每一行参数的对应的收缩因子。具体请结合图2，步骤S12具体包括：

步骤S21：计算随机抽样序列的天气影响程度系数和随机抽样序列的簇群离散度。

具体的，该步骤中需要计算随机抽样序列的天气影响程度系数和随机抽样序列的簇群离散度。

在一实施例中，基于随机抽样序列中阶梯的数目以及相邻阶梯的幅度计算随机抽样序列的天气影响程度系数；其中，随机抽样序列中相邻且相同的多个数据构成一个阶梯。

具体的，天气变化较大属于一般情况，由于收集到的园林参数数据一定程度上都与天气有关，存在的是相关性强弱的问题。如收集到的降水量，由于晴天、小雨、中雨、大雨以暴雨等天气，会导致降水量的分布曲线呈现阶梯式上升。而其他的园林参数同样受到天气的影响会呈现不同的阶梯形状。因此，阶梯分布特征一定程度上可以反映维度数据受天气影响的程度。根据随机抽样序列，由于随机抽样序列从小到大的顺序排过序，所以从随机抽样序列中可以很清楚地得到序列的分布特征。如降水量的随机抽样序列/>；

；

式子中呈现的数据都为归一化数据，避免不同维度数据量纲的影响，多个相邻且相同的数据为一个阶梯，例如,/>，/>，…，为不同的阶梯，按照从左到右的顺序标号，分别为第一阶梯、第二阶梯、第三阶梯等等。通过分析得知，随机抽样序列形成的阶梯越多，说明天气的变化越复杂，因为不同的恶劣天气都会形成不同的阶梯。同时，受天气影响越大，阶梯的上升幅度越大，如小雨和暴雨天气会使降水量的上升幅度较大。

天气影响程度越大，数据之间的联系就越不紧密。由此，基于随机抽样序列的阶梯数目以及相邻阶梯幅度，计算随机抽样序列/>的天气影响程度系数/>。在一实施例中，利用如下公式计算随机抽样序列的天气影响程度系数：

；

其中，表示随机抽样序列中阶梯的数目，/>和/>分别表示随机抽样序列中第/>、第/>个阶梯的幅度。具体的，/>和/>分别表示随机抽样序列/>中第、第/>个阶梯所代表的归一化数值。阶梯的数目/>越大，相邻阶梯幅度越大，说明此维度参数受天气的影响越大，则天气影响程度系数/>越大。

进一步，该步骤还需要计算随机抽样序列的簇群离散度，具体包括：计算随机抽样序列的序列密集度。对随机抽样序列进行聚类，得到多个簇；基于随机抽样序列的序列密集度、随机抽样序列中簇的簇内关系和簇间关系计算随机抽样序列的簇群离散度。

具体的，计算随机抽样序列的序列密集度，包括：基于随机抽样序列中数据的分布特征计算随机抽样序列的偏态指数；根据随机抽样序列中的众数和偏态指数计算随机抽样序列的序列密集度。

在一具体实施例中，根据随机抽样序列中的数值，可以得到频率分布直方图，进而得到频率分布直方图的频率分布拟合曲线。若整体随机抽样序列中数据比较密集，其拟合曲线的峰值必然极为靠近中位数的位置，此时拟合曲线会呈现出正态分布的拟合曲线，中位数数据两侧对称性较高。但是，若整体随机抽样序列中数据较为分散，其拟合曲线会呈现偏态分布的拟合曲线，可能是左偏分布，也可能是右偏分布，但是其随机抽样序列的众数、中位数以及平均数的位置会发生较大的变化。因此，基于整体随机抽样序列中的分布特征，计算随机抽样序列的偏态指数/>，即：

；

式子中，为归一化函数，/>表示随机抽样序列/>中第/>个数据类的偏态指数，/>表示随机抽样序列/>中数据集的数目，/>、/>和/>分别表示随机抽样序列的极大值、极小值和中位数。由于频率分布直方图的频率分布拟合曲线有较大的可能不是单峰分布，则通过将每个峰谷分割开，可以得到每个单峰分布的数据集。由此可以计算每个数据集的偏态指数。

计算得到偏态指数后，根据随机抽样序列中的众数和偏态指数计算随机抽样序列的序列密集度。具体的，数据集的偏态指数的绝对值越大，且数据集的数目越大，序列数据分布就越分散，则偏态指数/>越大。极大值与极小值的中间值与中位数差值的绝对值越大，拟合曲线的偏态程度越大，则偏态指数/>越大。

另外根据拟合曲线，若随机抽样序列数据的密集程度较大，那么最高峰值附近的数据占比较大。比如正态分布数据序列，其拟合曲线呈对称的，根据原则，均值的3个标准差以内的数据占比达到99.73%，此时数据的分布高度密集。因此，根据随机抽样序列/>，计算标准差，记为/>。由此，根据随机抽样序列/>中的众数，同时结合序列的偏态指数，计算随机抽样序列/>的序列密集度/>，即：

；

其中，表示随机抽样序列/>的偏态指数，/>表示随机抽样序列/>中最高峰所对应数值的/>范围之内序列数值的数目，/>表示最大峰所对应数值的/>范围之内第j种序列数值的频率，N表示抽样序列/>的总频率，/>表示随机抽样序列/>，计算标准差，/>表示3个标准差。在频率分布拟合曲线所示，Q表示最高峰所对应数值，最大峰所对应数值的/>范围为/>，/>即为其区域内所包含序列数据的数目，并且其区域内所包含的每一种序列数据都有对应的频率，即/>为其区域内所包含的第j种序列数据的频率，N为整个区间/>的总频率。

随机抽样序列的偏态指数越大，说明序列数据呈现正态分布的可能性就越小，数据的分散程度就越大，则序列密集度/>越大。随机抽样序列/>中众数的/>范围之内序列数值的频数/>越大，说明数据越集中，则序列密集度/>越大。

由于园林数据的多样性，不同维度数据的分布特征不同，有时序列密集度表征序列的特点较弱。本发明收集到了相邻40天的8个维度的时序序列，这40天不能排除下雨、晴天以及阴天等天气不同的情况，因此所收集到的时序序列数据可能呈现整群分布，即数据的分布有多个簇。所以，并不是都是理想状况下，每天天气都一样。考虑天气的影响，为了使数据分析的结果更加准确，对随机抽样序列，进行聚类，得到多个簇。具体的，利用算法，聚类时将欧氏距离作为度量距离，对随机抽样序列进行簇的划分。为了使随机抽样序列中的数据得到较为精细的划分，本发明设置较大的簇类数，本发明设置/>为20，保证相似性较高的数据划分到一个簇内。

因为随机抽样序列的序列密集度较大属于理想情况，即每天的天气几乎相同，但是这种情况存在属于小概率事件。所以，序列密集度越小，越能说明收集到的园林数据的数据复杂程度较大，即天气变化较大。因此，为了避免只考虑小概率事件的情况，根据随机抽样序列的序列密集度，以及其随机抽样序列中的簇内关系，以及簇间关系，计算每个维度序列的簇群离散度/>，即：

；

式子中，表示随机抽样序列/>的序列密集度，/>表示随机抽样序列/>中簇的数目，/>表示随机抽样序列/>的第/>个簇的簇内均值，/>表示随机抽样序列/>的第/>个簇的簇内标准差，/>表示随机抽样序列/>的第/>个簇的簇内均值。

序列密集度越小，说明收集到的园林数据的数据复杂程度较大，即天气变化较大，则序列的簇群离散度/>越大。簇内变异系数越大，簇间均值差异越大，越能说明簇群整体的离散程度越大，则序列的簇群离散度/>越大。

步骤S22：基于天气影响程度系数和簇群离散度计算随机抽样序列的收缩因子。

簇群离散度和天气影响程度系数都可以表示维度参数的离散程度，但是两者是从不同的角度得到的，所以将二者结合起来可以更加清楚的反映数据的分布情况，进而得到收缩因子。

因此，基于随机抽样序列的簇群离散度以及天气影响程度系数，计算随机抽样序列/>的收缩因子/>，即：

；

式子中，为归一化函数，/>为随机抽样序列/>的簇群离散度，/>为随机抽样序列/>的天气影响程度系数。

簇群离散度越大，天气影响程度系数/>越大，说明数据越离散，越不紧密，则收缩因子/>越趋近于1；反之，说明数据越紧密，则收缩因子/>越趋近于0。

步骤S13：基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果。

由此，根据上述步骤计算得到的自适应的收缩因子，簇数目k经验取值为10，代表点个数经验取值为15，利用CURE层次聚类算法对每个维度参数的时序序列，得到10个不同的簇，即10个不同的聚类结果，将这10个不同的簇记为不同的类别。

步骤S14：基于聚类结果评估园林状况。

在一实施例中，利用异常检测算法对聚类结果进行检测，得到每一个聚类结果中异常数据的集合；基于聚类结果以及异常数据的集合评估园林的状况。

具体的，基于每个维度数据所划分的10个类别，对每个类别数据利用LOF异常检测算法，得到每个类别中的异常点的集合。由此，可以得到不同维度参数的时序序列的异常点的集合。因此，根据不同的维度参数所划分的10个类别，以及异常点的集合，结合实际意义，识别每个类别和内部的异常点，是否有利于园林的可持续性发展，评估园林的健康状况，对园林的智能管理提供支持。

具体的，根据划分的十个类别，不同的类别一定程度上反映园林植物的生长状况。以土壤湿度为例，土壤湿度数据序列被划分成十个类别，这十个类别中，平均湿度过高以及平均湿度过低，一定程度上会阻碍园林植物的生长，管理员应进行适当的管控，比如对湿度较低的类别所对应的时刻进行人工喷洒水，保证湿度有益于园林植物的生长。根据得到的异常点的集合，一定程度上反映异常情况的发生，如空气温度，其异常点反映异常情况的发生，温度异常过高或异常过低时，有较大的可能为异常点，对于异常点所对应的时刻，其不利于植物的生长，通过异常点的数目的多少来评定园林的健康状况。即没有异常点时，说明园林植物的生长环境比较稳定，根据不同的类别进行实时的管控，由此对园林的智能管理提供支持。

本发明从不同的维度进行分析，结合数据的偏态指数以及序列密集度，得到簇群离散度。同时，根据随机抽样序列的阶梯式分布规律，计算不同维度的天气影响指数，进而自适应每个维度数据的收缩因子。传统的CURE聚类算法的收缩因子选择比较困难，而本发明基于园林数据的特点，自适应每维参数序列的收缩因子，提高聚类结果的精度和异常数据检测结果的可靠程度，进而更加科学的评价园林的健康状况。

请参见图3，为本发明基于大数据的园林数据智能管理系统的一实施例的结构示意图，该基于大数据的园林数据智能管理系统用于实现上述任一项的基于大数据的园林数据智能管理方法，基于大数据的园林数据智能管理系统包括：收集模块41、计算模块42、聚类模块43以及评估模块44。

其中，收集模块41用于收集园林管理参数数据，得到m×n数据矩阵，m表示参数的维度数量，n表示每一维度的参数数量。计算模块42用于计算每一行参数的对应的收缩因子，其中每一行参数为维度相同的参数。聚类模块43用于基于每一行参数对应的收缩因子对每一行参数进行聚类，得到多个聚类结果。评估模块44用于基于聚类结果评估园林状况。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于大数据的园林数据智能管理方法，其特征在于，包括：

基于聚类结果评估园林状况。

2.根据权利要求1所述的一种基于大数据的园林数据智能管理方法，其特征在于，计算每一行参数的对应的收缩因子，包括：

3.根据权利要求2所述的一种基于大数据的园林数据智能管理方法，其特征在于，计算所述随机抽样序列的收缩因子，包括：

4.根据权利要求3所述的一种基于大数据的园林数据智能管理方法，其特征在于，计算随机抽样序列的天气影响程度系数，包括：

5.根据权利要求4所述的一种基于大数据的园林数据智能管理方法，其特征在于，基于随机抽样序列中阶梯的数目以及相邻阶梯的幅度计算随机抽样序列的天气影响程度系数，包括：

利用如下公式计算随机抽样序列的天气影响程度系数：

；

6.根据权利要求3所述的一种基于大数据的园林数据智能管理方法，其特征在于，计算随机抽样序列的簇群离散度，包括：

计算随机抽样序列的序列密集度；

对随机抽样序列进行聚类，得到多个簇；

7.根据权利要求6所述的一种基于大数据的园林数据智能管理方法，其特征在于，计算随机抽样序列的序列密集度，包括：

8.根据权利要求7所述的一种基于大数据的园林数据智能管理方法，其特征在于，根据随机抽样序列中的众数和偏态指数计算随机抽样序列的序列密集度，包括：

利用如下公式计算随机抽样序列的序列密集度：

；

其中，表示随机抽样序列/>的偏态指数，/>表示随机抽样序列/>中最高峰所对应数值的/>范围之内序列数值的数目，/>表示最大峰所对应数值的/>范围之内第/>种序列数值的频率，/>表示抽样序列/>的总频率，/>表示随机抽样序列，计算标准差，/>表示3个标准差。

9.根据权利要求1所述的一种基于大数据的园林数据智能管理方法，其特征在于，基于聚类结果评估园林状况，包括：

基于所述聚类结果以及异常数据的集合评估园林的状况。

10.一种基于大数据的园林数据智能管理系统，其特征在于，包括：

评估模块，用于基于聚类结果评估园林状况。