CN116796043A

CN116796043A - 一种智能园区数据可视化方法及系统

Info

Publication number: CN116796043A
Application number: CN202311093195.4A
Authority: CN
Inventors: 闫军; 徐磊; 郭庆雷; 赵旭东; 杨玉红; 范婷; 王东晖; 李保东; 王树森; 郭飞
Original assignee: Shandong Tongwei Information Engineering Co ltd
Current assignee: Shandong Tongwei Information Engineering Co ltd
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2023-09-22

Abstract

本发明公开了一种智能园区数据可视化方法及系统，涉及园区管理领域，该可视化方法包括以下步骤：实时采集智能园区内设备、网络和基础设施的多源数据；对多源数据进行预处理，整合为实时园区数据，并存储至消息队列；利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测；基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系；根据实时数据的异常检测结果和历史数据潜在关系挖掘结果。本发明采用时间序列预测模型进行异常检测有效地识别出异常数据，提高了异常检测的准确性，根据不同的数据特征和业务需求，灵活选择合适的时间序列预测模型以及参数调整方法。

Description

一种智能园区数据可视化方法及系统

技术领域

本发明涉及园区管理领域，具体来说，涉及一种智能园区数据可视化方法及系统。

背景技术

智能园区数据是指在园区内部采集、处理、分析和利用的各种数据，这些数据可以包括环境监测、人流监控、物联网设备信息、能源消耗情况、生产运营数据等多种类型。通过对这些数据进行深度挖掘和分析，可以实现对园区运营情况的全面了解和精细化管理，进而提升园区的效率、安全、舒适性和可持续性。智能园区数据的应用可以涉及到智慧园区建设、智慧城市建设、产业发展规划等领域。

随着5G普及和虚拟技术的发展，为智慧园区的落地提供基础支持，智能园区数据可视化的目的是将大量的数据以图形、表格或其他形式呈现出来，让人们更容易理解和分析。通过数据可视化，可以快速地发现关键信息和趋势，从而帮助企业管理者做出更加准确的决策。

但是，现有技术中的可视化技术中通常针对是园区内人员的管理，而人员通常是园区中看得到的，而园区内的数据还存在许多不易看到的数据，如能耗数据、环境监测数据、物联网设备数据等，这些数据如果不能及时有效的挖掘，将无法适应现在的园区管理，不利于推广使用。此外，只有在数据出现明显异常时，才会将该异常数据发送给管理人员进行判断和报警，导致园区管理中的异常检测不够准确化、智能化和全局化。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种智能园区数据可视化方法及系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了一种智能园区数据可视化方法，该可视化方法包括以下步骤：

S1、实时采集智能园区内设备、网络和基础设施的多源数据；

S2、对多源数据进行预处理，整合为实时园区数据，并存储至消息队列；

S3、利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测；

S4、基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系；

S5、根据实时数据的异常检测结果和历史数据潜在关系挖掘结果，设计智能园区的可视化界面，并提供交互界面；并基于历史数据潜在关系挖掘结果，获取与异常检测结果存在潜在关系的相关数据信息，并选择上述相关数据信息中的关键信息与异常检测结果在可视化界面中进行重点联动展示。

进一步的实施例中，所述对多源数据进行预处理，整合为实时园区数据，并存储至消息队列包括以下步骤：

S21、对实时采集的多源数据进行数据清洗，删除无效数据和异常值；

S22、将多源数据的格式转换为统一格式，并进行整合，得到实时园区数据；

S23、将实时园区数据存储至Kafka消息队列。

进一步的实施例中，所述利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测包括以下步骤：

S31、从Kafka消息队列中读取实时园区数据；

S32、使用Spark Streaming对读取到的实时园区数据进行窗口化处理，并划分为一定时间间隔的小批次数据；

S33、将小批次数据按照时间顺序排列，形成一个时间序列数据；

S34、从Spark Streaming处理得到的小批次数据集中，遍历每一条数据，提取需要进行统计分析的数值特征；

S35、在遍历过程中，计算各数值特征的累计值及平方累计值，并记录当前小批次数据集中已处理的数据条数；

S36、在遍历完成后，利用各数值特征的累计值除以数据条数，得到各特征的平均值；

S37、使用各数值特征的平方累计值减去平均值的平方，再除以数据条数，得到方差，并计算方差的平方根，得到标准差；

S38、根据标准差和时间序列预测模型，利用滑动窗口法对每个小批次数据进行异常检测，并识别异常数据。

进一步的实施例中，所述根据标准差和时间序列预测模型，利用滑动窗口法对每个小批次数据进行异常检测，并识别异常数据包括以下步骤：

S381、设定一个系数，将标准差与系数相乘得到阈值；

S382、滑动窗口法将整个时间序列数据分割成若干子窗口；

S383、在每个子窗口内，利用时间序列预测模型计算预测值，并计算实际值与预测值之间的误差；

S384、将计算得到的误差与阈值进行比较；

S385、若误差大于阈值，则判断该实际值是异常值；

S386、将所有被判断为异常值的数据点进行标记，并采取处理措施。

进一步的实施例中，所述在每个子窗口内，利用时间序列预测模型计算预测值，并计算实际值与预测值之间的误差包括以下步骤：

S3831、选定时间序列预测模型，并根据时间序列数据的属性和特征进行参数调整；

S3832、使用子窗口内的连续数据点作为训练数据，并将训练数据输入时间序列预测模型；

S3833、利用训练好的时间序列预测模型预测子窗口后第一个数据点的实际值；

S3834、利用平方误差计算预测值与实际值之间的误差。

进一步的实施例中，所述基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系包括以下步骤：

S41、对收集到的历史园区数据进行数据处理，并提取与关联规则挖掘相关的特征；

S42、根据特征设定关联规则挖掘所需参数，并运用Apriori算法对数据处理后的历史园区数据进行频繁项集挖掘；

S43、根据挖掘得到的频繁项集，生成关联规则，并通过设定的阈值筛选出满足条件的强关联规则；

S44、对挖掘得到的关联规则进行分析，结合历史园区的实际情况，从中提取有价值的信息，将有价值的信息运用到历史园区的管理与运营决策中，并据此制定相应的优化策略，以实现园区的持续改进。

进一步的实施例中，所述根据特征设定关联规则挖掘所需参数，并运用Apriori算法对数据处理后的历史园区数据进行频繁项集挖掘包括以下步骤：

S421、从收集到的历史园区数据中提取与关联规则挖掘相关的特征，并设定最小支持度阈值和最小置信度阈值；

S422、将处理好的历史园区数据转换为Apriori算法的输入格式，同时确定最小支持度阈值和最小置信度阈值；

S423、将单个特征视为候选频繁项集，计算其支持度，根据最小支持度阈值筛选出满足条件的频繁项集；

S424、将筛选出的频繁项集两两组合，计算新生成的候选频繁项集的支持度；

S425、根据最小支持度阈值筛选出满足条件的频繁项集，并进行迭代，直至无法生成新的频繁项集，得到满足最小支持度阈值条件的所有频繁项集；

S426、基于频繁项集生成关联规则，计算每条关联规则的置信度，根据最小置信度阈值筛选出满足条件的强关联规则。

进一步的实施例中，所述基于频繁项集生成关联规则，计算每条关联规则的置信度，根据最小置信度阈值筛选出满足条件的强关联规则包括以下步骤：

S4261、遍历所有的频繁项集，将每一个频繁项集拆分为前件和后件；

S4262、对于每一个前件和后件的组合，计算关联规则的置信度；

S4263、根据最小置信度阈值筛选出满足条件的强关联规则，删除置信度小于最小置信度阈值的关联规则；

S4264、基于频繁项集生成关联规则后，通过计算置信度并根据最小置信度阈值筛选出强关联规则；

S4265、针对筛选出的强关联规则，计算提升度、全置信度和Kulc指标的评估指标，并按照评估指标的高低进行排序，为园区管理者提供参考信息。

进一步的实施例中，所述根据实时数据的异常检测结果和历史数据潜在关系挖掘结果，设计智能园区的可视化界面，并提供交互界面包括以下步骤：

S51、分析智能园区内设备、网络和基础设施的运行状态、异常情况及潜在关系，明确需要展示的关键信息；

S52、选择展示实时数据和历史数据分析结果的可视化工具，并设计可视化界面布局；

S53、针对不同的数据类型和需求选择合适的图表类型；

S54、将实时数据异常检测结果和历史数据潜在关系挖掘结果与相应的图表进行对应，确保数据准确地反映在图表上，并实时更新图表中的数据；

S55、将设计好的可视化界面集成到智能园区的管理系统中，并进行展示。

根据本发明的另一个方面，还提供了一种智能园区数据可视化系统，该系统包括：数据采集模块、数据整合模块、实时异常检测模块、潜在关系挖掘模块及可视化与交互界面模块；

所述数据采集模块，用于实时采集智能园区内设备、网络和基础设施的多源数据；

所述数据整合模块，用于对多源数据进行预处理，整合为实时园区数据，并存储至消息队列；

所述实时异常检测模块，用于利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测；

所述潜在关系挖掘模块，用于基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系；

所述可视化与交互界面模块，用于根据实时数据的异常检测结果和历史数据潜在关系挖掘结果，设计智能园区的可视化界面，并提供交互界面；并基于历史数据潜在关系挖掘结果，获取与异常检测结果存在潜在关系的相关数据信息，并选择上述相关数据信息中的关键信息与异常检测结果在可视化界面中进行重点联动展示。

本发明的有益效果为：

1、本发明Spark Streaming能够实时处理来自Kafka消息队列的数据，这意味着异常检测可以在数据产生的同时进行，提高了系统的响应速度，通过增加资源来应对大量数据的实时处理需求，采用时间序列预测模型进行异常检测有效地识别出异常数据，提高了异常检测的准确性，根据不同的数据特征和业务需求，灵活选择合适的时间序列预测模型以及参数调整方法，实现更为精准的异常检测，基于Spark的分布式计算框架易于维护和升级，有利于实现智能园区长期稳定的运行。

2、本发明关联规则挖掘能够发现数据中存在的潜在关系和模式，帮助分析师了解历史园区数据背后的规律，通过挖掘出有价值的关联规则，为园区管理者提供针对性的参考信息，辅助制定更有效的管理与运营决策，根据关联规则挖掘结果，园区管理者可以不断调整合优化管理策略，实现园区的持续改进，并计算提升度、全置信度和Kulc指标等多个评估指标，从多个角度衡量关联规则的有效性和可靠性。

3、本发明通过可视化界面，可以直观地展示智能园区内设备、网络和基础设施的运行状态及异常情况，便于管理者迅速了解各项数据，针对不同的数据类型和需求选择合适的图表类型，并根据需要设计可视化界面布局，满足园区管理者的个性化需求，通过实时数据异常检测及历史数据潜在关系挖掘结果的可视化展示，有助于提高园区管理者对智能园区的整体把握和管理水平。

4、本发明基于异常检测结果和历史数据潜在关系挖掘结果，获取与异常检测结果存在潜在关系的相关数据信息，并选择上述相关数据信息中的关键信息与异常检测结果在可视化界面中进行重点联动展示，可以让管理者站在全局化的角度更好的评估异常情况的影响因素和影响趋势，更好的进行园区的维护管理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种智能园区数据可视化方法的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种智能园区数据可视化方法及系统。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明的一个实施例，提供了智能园区数据可视化方法，该可视化方法包括以下步骤：

S1、实时采集智能园区内设备、网络和基础设施的多源数据。

具体的，多源数据包括：设备监控数据、环境监测数据、人流量数据、停车场数据及能源管理数据等。

其中，设备监控数据：通过与各类设备（如空调、照明、电梯等）的接口对接，获取实时运行状态、能耗等数据。

环境监测数据：利用温湿度传感器、PM2.5传感器、光照传感器等收集室内外环境指标。

人流量数据：通过摄像头结合人流识别算法，统计各区域的实时人数和进出次数。

停车场数据：通过停车场系统获取占用情况、剩余车位数量等信息。

能源管理数据：收集水、电、燃气等能源使用情况，用于节能分析。

S2、对多源数据进行预处理，整合为实时园区数据，并存储至消息队列。

优选的，所述对多源数据进行预处理，整合为实时园区数据，并存储至消息队列包括以下步骤：

S23、将实时园区数据存储至Kafka消息队列。

具体的，将多源数据中传感器数据转换为数字形式或时间序列数据。

S3、利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测。

优选的，所述利用Spark Streaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测包括以下步骤：

S31、从Kafka消息队列中读取实时园区数据；

优选的，所述根据标准差和时间序列预测模型，利用滑动窗口法对每个小批次数据进行异常检测，并识别异常数据包括以下步骤：

S381、设定一个系数，将标准差与系数相乘得到阈值；

S382、滑动窗口法将整个时间序列数据分割成若干子窗口；

S384、将计算得到的误差与阈值进行比较；

S385、若误差大于阈值，则判断该实际值是异常值；

优选的，所述在每个子窗口内，利用时间序列预测模型计算预测值，并计算实际值与预测值之间的误差包括以下步骤：

S3834、利用平方误差计算预测值与实际值之间的误差。

具体的，执行异常检测的流程如下：步骤1.初始模型参数估计与可能异常点检测：利用已经估计好的模型参数，对小批次数据进行异常点位置和类型的计算。如果没有找出异常点，且异常点总数大于0，则转到下一步；否则，退出异常检测程序。步骤2.可能异常值影响和模型参数的联合估计：利用最小二乘法估计异常点的影响向量，并计算修正后的序列模型及其参数。重复这个过程，直至异常值的影响向量值趋于稳定。然后对异常点进行显著性检验，剔除不显著的异常点，并重新估计影响向量得到新的修正序列。步骤3.基于最终模型参数估计的异常点检测：利用步骤2中得到的模型参数进行迭代，固定使用的模型参数。将步骤2中所得的影响向量作为最终检测出的异常点影响的估计，同时得到的修正序列作为最后的正常序列。

S4、基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系。

优选的，所述基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系包括以下步骤：

优选的，所述根据特征设定关联规则挖掘所需参数，并运用Apriori算法对数据处理后的历史园区数据进行频繁项集挖掘包括以下步骤：

优选的，所述基于频繁项集生成关联规则，计算每条关联规则的置信度，根据最小置信度阈值筛选出满足条件的强关联规则包括以下步骤：

S4261、遍历所有的频繁项集，将每一个频繁项集拆分为前件和后件（例如，若频繁项集为{A，B，C}，则可能的前件和后件组合有：{A}->{B，C}、{B}->{A，C}、{C}->{A，B}、{A，B}->{C}、{A，C}->{B}和{B，C}->{A}；）；

S4262、对于每一个前件和后件的组合，计算关联规则的置信度（置信度(confidence)定义为：置信度(A→B)=支持度(A∪B)/支持度(A)，其中A表示前件，B表示后件）；

具体的，对筛选出的强关联规则计算提升度(Lift)。提升度表示关系A和B同时发生的概率与A、B分别发生的概率的乘积之比，即Lift(A→B)=置信度(A→B)/支持度(B)。提升度大于1表明A和B之间存在正相关关系，等于1表明两者相互独立，小于1表明两者之间存在负相关关系。

计算全置信度(All-confidence)。全置信度表示关联规则A→B的支持度与A、B中支持度较大的项的支持度之比，即All-confidence(A→B)=支持度(A∪B)/max{支持度(A)，支持度(B)}。全置信度有效减少误报的关联规则。

计算Kulczynski(Kulc)指标。Kulc指标表示关联规则A→B和B→A的置信度的平均值，即Kulc(A→B)=[置信度(A→B)+置信度(B→A)]/2。Kulc指标取值范围为[0，1]，值越大表示关联性越强。

优选的，所述根据实时数据的异常检测结果和历史数据潜在关系挖掘结果，设计智能园区的可视化界面，并提供交互界面包括以下步骤：

S53、针对不同的数据类型和需求选择合适的图表类型；

具体的，分析智能园区内设备、网络和基础设施的运行状态、异常情况及潜在关系时，对智能园区内的设备、网络、基础设施进行分类，确保针对不同类别设定不同的监控指标和关键信息，根据展示内容和用户需求，评估各种可视化工具的优缺点，选择最适合项目需求的可视化工具，定期收集用户反馈和需求，依据实际情况优化和完善可视化界面及交互功能，持续提升用户体验。且通过异常检测结果及与该异常检测结果存在潜在关系的相关重要数据的联动展示，可以让管理者站在全局化的角度更好的评估异常情况的影响因素和影响趋势，更好的进行园区的维护管理。

根据本发明的另一个实施例，还提供了一种智能园区数据可视化系统，该系统包括：数据采集模块、数据整合模块、实时异常检测模块、潜在关系挖掘模块及可视化与交互界面模块；

综上所述，借助于本发明的上述技术方案，本发明Spark Streaming能够实时处理来自Kafka消息队列的数据，这意味着异常检测可以在数据产生的同时进行，提高了系统的响应速度，通过增加资源来应对大量数据的实时处理需求，采用时间序列预测模型进行异常检测有效地识别出异常数据，提高了异常检测的准确性，根据不同的数据特征和业务需求，灵活选择合适的时间序列预测模型以及参数调整方法，实现更为精准的异常检测，基于Spark的分布式计算框架易于维护和升级，有利于实现智能园区长期稳定的运行；本发明关联规则挖掘能够发现数据中存在的潜在关系和模式，帮助分析师了解历史园区数据背后的规律，通过挖掘出有价值的关联规则，为园区管理者提供针对性的参考信息，辅助制定更有效的管理与运营决策，根据关联规则挖掘结果，园区管理者可以不断调整合优化管理策略，实现园区的持续改进，并计算提升度、全置信度和Kulc指标等多个评估指标，从多个角度衡量关联规则的有效性和可靠性，本发明通过可视化界面，可以直观地展示智能园区内设备、网络和基础设施的运行状态及异常情况，便于管理者迅速了解各项数据，针对不同的数据类型和需求选择合适的图表类型，并根据需要设计可视化界面布局，满足园区管理者的个性化需求，通过实时数据异常检测及历史数据潜在关系挖掘结果的可视化展示，有助于提高园区管理者对智能园区的整体把握和管理水平。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能园区数据可视化方法，其特征在于，该可视化方法包括以下步骤：

2.根据权利要求1所述的一种智能园区数据可视化方法，其特征在于，所述对多源数据进行预处理，整合为实时园区数据，并存储至消息队列包括以下步骤：

S23、将实时园区数据存储至Kafka消息队列。

3.根据权利要求1所述的一种智能园区数据可视化方法，其特征在于，所述利用SparkStreaming流处理服务对实时园区数据进行分析，并基于时间序列预测模型对实时园区数据进行异常检测包括以下步骤：

S31、从Kafka消息队列中读取实时园区数据；

4.根据权利要求3所述的一种智能园区数据可视化方法，其特征在于，所述根据标准差和时间序列预测模型，利用滑动窗口法对每个小批次数据进行异常检测，并识别异常数据包括以下步骤：

S381、设定一个系数，将标准差与系数相乘得到阈值；

S382、滑动窗口法将整个时间序列数据分割成若干子窗口；

S384、将计算得到的误差与阈值进行比较；

S385、若误差大于阈值，则判断该实际值是异常值；

5.根据权利要求4所述的一种智能园区数据可视化方法，其特征在于，所述在每个子窗口内，利用时间序列预测模型计算预测值，并计算实际值与预测值之间的误差包括以下步骤：

S3834、利用平方误差计算预测值与实际值之间的误差。

6.根据权利要求1所述的一种智能园区数据可视化方法，其特征在于，所述基于关联规则挖掘模型挖掘历史园区数据之间的潜在关系包括以下步骤：

7.根据权利要求6所述的一种智能园区数据可视化方法，其特征在于，所述根据特征设定关联规则挖掘所需参数，并运用Apriori算法对数据处理后的历史园区数据进行频繁项集挖掘包括以下步骤：

8.根据权利要求7所述的一种智能园区数据可视化方法，其特征在于，所述基于频繁项集生成关联规则，计算每条关联规则的置信度，根据最小置信度阈值筛选出满足条件的强关联规则包括以下步骤：

9.根据权利要求1所述的一种智能园区数据可视化方法，其特征在于，所述根据实时数据的异常检测结果和历史数据潜在关系挖掘结果，设计智能园区的可视化界面，并提供交互界面包括以下步骤：

S53、针对不同的数据类型和需求选择合适的图表类型；

10.一种智能园区数据可视化系统，用于实现权利要求1-9中任一项所述的智能园区数据可视化方法，其特征在于，该系统包括：数据采集模块、数据整合模块、实时异常检测模块、潜在关系挖掘模块及可视化与交互界面模块；