CN117493921B - 基于大数据的人工智能节能管理方法及系统 - Google Patents
基于大数据的人工智能节能管理方法及系统 Download PDFInfo
- Publication number
- CN117493921B CN117493921B CN202410004328.4A CN202410004328A CN117493921B CN 117493921 B CN117493921 B CN 117493921B CN 202410004328 A CN202410004328 A CN 202410004328A CN 117493921 B CN117493921 B CN 117493921B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- data set
- correlation
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title claims abstract description 28
- 238000013473 artificial intelligence Methods 0.000 title claims description 22
- 238000012937 correction Methods 0.000 claims abstract description 92
- 238000005259 measurement Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims description 44
- 239000006185 dispersion Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 3
- 238000005265 energy consumption Methods 0.000 abstract description 17
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000007621 cluster analysis Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000001507 sample dispersion Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及能源数据监测及管理技术领域,具体涉及基于大数据的人工智能节能管理方法及系统。该发明根据时间窗口内第一数据集和第二数据集内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;进而获得每个样本对应的时间修正量;根据迭代自组织聚类算法对所有样本进行聚类,获得初始样本簇类;结合第一数据集与第二数据集的相关性,获得初始样本簇类之间对应的距离修正系数;根据距离修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;对初始样本簇类进行聚类,对企业设备的能耗进行检测。本发明通过获得样本簇类之间准确的距离度量,提高聚类结果的精度,优化设备能效改进策略。
Description
技术领域
本发明涉及设备数据监测及管理技术领域,具体涉及基于大数据的人工智能节能管理方法及系统。
背景技术
大数据和人工智能在节能管理领域的应用一直在不断发展,通过大数据实时监控能源使用情况,可以识别到潜在的节能机会,实现自适应控制来最大程度的减小能源浪费。为了可以定制针对性的能效改进策略,可以采用聚类分析将设备或系统进行分类,识别具有相似能源使用模式的设备群或时间段。
现有技术中,采用ISODATA迭代自组织聚类算法,根据两个簇类之间的距离度量对同类型设备的能源使用以及产能等数据进行聚类分析,但在聚类过程中,聚类簇是变化的,距离较近的簇类之间也可能代表的是不同的样本类别,未能确定簇类之间准确的距离度量,导致将不同类型的数据合并为一类,聚类的效果较差,无法对各类设备能源进行有效管理。
发明内容
为了解决未能确定簇类之间准确的距离度量,聚类的效果较差,无法对各类设备能源进行有效管理的技术问题,本发明的目的在于提供一种基于大数据的人工智能节能管理方法及系统,所采用的技术方案具体如下:
本发明提出了一种基于大数据的人工智能节能管理方法,所述方法包括:
获取企业设备在预设历史时间段内每一时刻下多维度的能源使用数据、产能数据以及环境数据,获得每一时刻下的样本;所述能源使用数据作为第一数据集;所述产能数据以及环境数据作为第二数据集;
以每一时刻为中心构建时间窗口;根据第一数据集和第二数据集在所述时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;根据每个样本对应每个时间窗口内的所述样本离散程度,获得每个样本对应的时间修正量;
获得每个时间窗口内第一数据集与第二数据集的相关性;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;根据所述初始样本簇类之间的相对距离,获得初始样本簇类之间的初始距离度量;根据所述初始样本簇类之间每个样本的所述时间修正量和所述时间修正量对应时间窗口内的所述相关性,获得初始样本簇类之间对应不同样本的相关性离散程度;并获得初始样本簇类之间对应的距离修正系数;
根据所述距离修正系数对所述初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;根据所述优化距离度量进行迭代自组织聚类算法,获得聚类结果;
根据所述聚类结果对企业设备的能源使用进行管理。
进一步地,所述样本离散程度的获取方法包括:
计算每一数据集内每个维度数据在相邻时刻之间的差值,获得对应维度数据的一阶差分;
对时间窗口内每个维度下的所有一阶差分进行标准化,并将标准化结果求标准差,作为每个维度离散程度,将所有维度离散程度累加,获得每个数据集的整体离散程度;
计算第一数据集和第二数据集的整体离散程度之和,获得每个样本对应时间窗口内的样本离散程度。
进一步地,所述时间修正量的获取方法包括:
根据所述时间修正量的获取公式获得时间修正量,时间修正量的获取公式为:
;其中,/>表示时刻/>下样本/>对应的时间修正量;/>表示求最小值点函数;/>表示每个样本的时间窗口半径;表示以时刻/>为中心,/>为半径的时间窗口内的离散程度;/>表示时刻/>的偏差值。
进一步地,所述相关性的获取方法包括:
利用典型相关分析算法,获得所述时间修正量对应时间窗口内的第一数据集与第二数据集的预设数量对的典型相关变量;根据每个时间窗口内第一数据集与第二数据集的每对典型相关变量,获得每对典型相关变量中第二数据集对应每个维度下的数据系数;获得每对典型相关变量之间的相关系数;
根据每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数,获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性。
进一步地,所述获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性包括:
计算每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数的乘积,获得每个维度下的相关性;将所有维度下的相关性进行累加,获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性。
进一步地,所述相关性离散程度的获取方法包括:
以样本量为的初始样本簇类为例,根据相关性离散程度的获取公式获得相关性离散程度,相关性离散程度的获取公式为:
;其中,/>表示样本量为/>的初始样本簇类的相关性离散程度;/>表示初始样本簇类中的某一样本;/>表示时刻/>下样本/>对应的时间修正量;/>表示在时刻/>下样本/>的时间修正量对应的时间窗口内,第一数据集与第二数据集在第/>个维度的相关性;/>表示样本量为/>的初始样本簇类;表示求标准差函数;/>表示第二数据集中数据的维度个数;/>表示以自然常数为底的指数函数。
进一步地,所述距离修正系数的获取方法包括:
根据所述初始距离度量对初始样本簇类进行模拟合并,获得新的初始样本簇类;
计算初始样本簇类之间模拟合并前对应样本的相关性离散程度之和,作为第一离散程度;
获得初始样本簇类之间模拟合并后对应样本的相关性离散程度,作为第二离散程度;
根据所述第一离散程度和所述第二离散程度获得距离修正系数;
所述第一离散程度与所述距离修正系数成负相关关系,所述第二离散程度与所述距离修正系数成正相关关系。
进一步地,所述优化距离度量的获取方法包括:
对所述距离修正系数进行归一化,计算归一化结果与初始距离度量的乘积,获得初始样本簇类之间的优化距离度量。
进一步地,所述相关系数为皮尔逊相关系数。
本发明还提出了一种基于大数据的人工智能节能管理系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现任意一项所述一种基于大数据的人工智能节能管理方法的步骤。
本发明具有如下有益效果:
本发明为了分析每个数据的变化情况,避免数据信息丢失,根据第一数据集和第二数据集在时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;根据每个样本对应每个时间窗口内的样本离散程度,获得每个样本对应的时间修正量,得到较为稳定的数据变化范围,样本更有代表性;分析能耗数据对产能数据与环境变化数据的影响情况,获得每个时间窗口内第一数据集与第二数据集的相关性,更好地理解两个数据集之间的关系;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类,使得同一簇类内的样本尽可能相似;根据初始样本簇类之间每个样本的时间修正量和对应时间窗口内的相关性,获得初始样本簇类之间对应不同样本的相关性离散程度,更准确地评估簇类之间的相似性;并获得初始样本簇类之间对应的修正系数,使得能源利用率相近的样本聚为一类的概率更高;根据距离修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量,避免将不同类型数据合并为一类的情况,使聚类结果更加准确;获得聚类结果,有助于判断其能力损耗是否可以进一步降低;对企业设备的能耗进行检测。本发明通过获得样本簇类之间准确的距离度量,提高聚类结果的精度,优化设备能效改进策略。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于大数据的人工智能节能管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的人工智能节能管理方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的人工智能节能管理方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的人工智能节能管理方法的流程图,具体方法包括:
步骤S1:获取企业设备在预设历史时间段内每一时刻下多维度的能源使用数据、产能数据以及环境数据,获得每一时刻下的样本;能源使用数据作为第一数据集;产能数据以及环境数据作为第二数据集。
在本发明的一个实施例中,为了降低企业生产过程中的能源损耗,对企业设备历史时间段内的能耗与产能数据进行监测,获取企业设备在预设历史时间段内每一时刻下多维度的能源使用数据、产能数据以及环境数据,获得每一时刻下的样本;在本发明的一个实施例中,时刻的一个样本表示为/>;其中,/>表示时刻/>下的一个样本;/>表示时刻/>下对应/>维度的数据;/>表示时刻/>下对应维度的数据。
在企业生产过程中,能源消耗越高,对应的产能越高,但不同的能源利用率有所差异,且产量也会随着不同的能源消耗比例等多方面因素的影响,导致能源利用效率有所下降,更高的能源消耗量会对应着更高的环境温湿度数据的变化;故不同设备的能耗数据对于产能以及环境数据的影响,决定着设备在对应时间段内的能源利用情况,所以能源使用数据包括电力、水、燃气体消耗量,作为第一数据集,记为至/>;产能数据以及环境数据包括平均生产速率、环境温度、湿度,作为第二数据集,记为/>至/>;实现对不同能源利用率数据的聚类分析。
需要说明的是,在本发明的一个实施例,以当前时刻的历史时间段3个月内为一个采样周期对企业设备的数据进行采集,采样频率为每5min一个采样点;数据维度和/>取3。在本发明的其他实施例中,采样周期、采样频率和数据维度的大小可根据具体情况具体设置,在此不做限定及赘述。
步骤S2:以每一时刻为中心构建时间窗口;根据第一数据集和第二数据集在时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;根据每个样本对应每个时间窗口内的样本离散程度,获得每个样本对应的时间修正量。
传统的聚类分析仅考虑所获取数据大小的差异信息,忽略数据在不同时间下的变化情况,导致数据信息产生一定的丢失;为了更好地理解数据的动态变化,以每一时刻为中心构建时间窗口;为了分析单个数据点在对应时刻窗口内的数据相关性,需要分析不同维度数据在样本窗口范围内的变化趋势的离散情况,根据时间窗口内第一数据集和第二数据集内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度。
优选地,在本发明的一个实施例中,样本离散程度的获取方法包括:
计算每一数据集内每个维度数据在相邻时刻之间的差值,获得对应维度数据的一阶差分;对时间窗口内每个维度下所有一阶差分进行标准化,并对标准化结果求标准差,作为每个维度离散程度,将所有维度离散程度累加,获得每个数据集的整体离散程度;在本发明的一个实施例中,以第一数据集为例,整体离散程度的公式表示为:
;
其中,表示第一数据集在以时刻/>为中心,/>为半径的时间窗口内的整体离散程度;/>表示第一数据集内第/>个维度在时刻/>下的一阶差分;/>表示第一数据集内第/>个维度在时刻/>下数据大小;/>表示求标准差函数;/>表示以时刻/>为中心,为半径的时间窗口;/>表示第一数据集内包含数据的维度。
在整体离散程度的公式中,表示第一数据集内第/>个维度在时刻/>下一阶差分与时间窗口内的数据标准差的比值,对一阶差分标准化,防止不同维度数据量纲不同导致不同维度的一阶差分相差较大;/>表示第/>个维度在时刻/>与时刻/>对应数据之间的差值,一阶差分之间差异越大,对应的标准差越大,时间窗口内数据波动越大,样本离散程度越大,数据进行分析的可靠性越差。
通过结合分析两个数据集的整体离散程度,可以了解两个数据集的整体波动性;有助于理解数据的总体分布和波动模式。计算第一数据集和第二数据集的整体离散程度之和,获得每个样本对应时间窗口内的样本离散程度。在本发明的一个实施例中,样本离散程度的公式表示为:
;
其中,表示时刻/>下样本/>对应的样本离散程度;/>表示第一数据集在以时刻/>为中心,/>为半径的时间窗口内的整体离散程度;/>表示第二数据集在以时刻/>为中心,/>为半径的时间窗口内的整体离散程度。
在样本离散程度的公式中,第一数据集和第二数据集的整体离散程度越大,对应时刻下的样本离散程度越大,数据越不稳定,越不利于对数据之间相关性的分析。
需要说明的是,在本发明的一个实施例中,时间窗口半径的大小取经验值为6;在本发明的其他实施例中,时间窗口半径的大小可根据具体情况具体设置,在此不做限定及赘述。
由于时间窗口内的数据之间存在一定的关联性,随着时间的不断变化,每个样本在不同时间窗口内的数据是逐渐变化的,不会突然增加或者降低,越稳定的数据变化趋势越能表现出每个时刻下设备的数据情况,对数据相关性分析更具有代表性,所以需要对样本的时间窗口进行调整,根据每个样本对应每个时间窗口内的样本离散程度,获得每个样本对应的时间修正量。
优选地,在本发明的一个实施例中,时间修正量的获取方法包括:
根据时间修正量的获取公式获得时间修正量,时间修正量的获取公式为:
;
其中,表示时刻/>下样本/>对应的时间修正量;/>表示求最小值点函数;/>表示每个样本的时间窗口半径;/>表示以时刻/>为中心,/>为半径的时间窗口内的样本离散程度;/>表示时刻/>的偏差值。
在时间修正量的获取公式中,表示在时刻/>下样本对应所有时间窗口中选择样本离散程度最小时对应的偏差值,时间窗口保持大小不变,不断给予偏差值,调整时间窗口的位置,对应偏差值的时间窗口内的样本离散程度越小,数据的变化趋势相对更加稳定,时间窗口内的样本更具有代表性;偏差值越小,表明时刻/>下时间窗口内的数据越稳定,样本数据之间的相关性越大。
需要说明的是,在本发明的一个实施例中,获得时刻下样本对应的时间修正量,对应的时间窗口为/>,表示以/>为中心,/>为半径的时间窗口。
步骤S3:获得每个时间窗口内第一数据集与第二数据集的相关性;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;根据初始样本簇类之间的相对距离,获得初始样本簇类之间的初始距离度量;根据初始样本簇类之间每个样本的时间修正量和时间修正量对应时间窗口内的相关性,获得初始样本簇类之间对应不同样本的相关性离散程度;并获得初始样本簇类之间对应的距离修正系数。
第二数据集中各维度数据受到第一数据集合变化的影响是不同的,即产能数据与环境变化数据收到能耗数据的影响是不同的;考虑两个数据之间的相关性对于聚类的影响,不同时刻数据之间的相关性代表着不同时刻下能耗数据对于产能以及环境变化的影响;获得每个时间窗口内第一数据集与第二数据集的相关性。
优选地,在本发明的一个实施例中,相关性的获取方法包括:
典型相关分析可以获取局部范围内第一数据集与第二数据集之间的相关性,综合地描述两组变量之间的典型的相关关系;利用典型相关分析算法,获得时间修正量对应时间窗口内的第一数据集与第二数据集的预设数量对的典型相关变量;根据每个时间窗口内第一数据集与第二数据集的每对典型相关变量,获得每对典型相关变量中第二数据集对应每个维度下的数据系数;获得每对典型相关变量之间的相关系数;根据每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数,获得每个时间窗口内第一数据集与第二数据集每个维度下的相关性。
优选地,在本发明的一个实施例中,获得每个时间窗口内第一数据集与第二数据集每个维度下的相关性包括:
计算每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数的乘积,获得每个维度下的相关性;将所有维度下的相关性进行累加,获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性。在本发明的一个实施例中,相关性的公式表示为:
;
其中,表示在时刻/>下样本/>的时间修正量对应的时间窗口内,第一数据集与第二数据集在第/>个维度的相关性;/>表示第/>对典型相关变量中第二数据集对应第/>个维度下的数据系数;/>表示/>表示/>的第/>对典型相关变量对应的相关系数;/>表示典型相关变量的数量。
在相关性的公式中,第对典型相关变量中第二数据集对应每个维度下的数据系数越大,第/>对典型相关变量对应的相关系数越大,对应时间窗口内第一数据集与第二数据集在每个维度下的相关性越大,能源使用情况对于产能数据以及环境数据的影响越大。
需要说明的是,在本发明的一个实施例中,相关系数为皮尔逊相关系数;数据系数为典型相关分析获得的;具体典型相关分析算法为本领域技术人员熟知的技术手段,在此不做限定及赘述。
优选地,在本发明的一个实施例中,典型相关变量的获取方法包括:
利用典型相关分析,获得时间修正量对应时间窗口内的第一数据集与第二数据集的预设数量对的典型相关变量。在本发明的一个实施例中,典型相关变量的公式表示为:
;
;
其中,与/>表示在时刻/>下时间修正量对应时间窗口内,第/>对典型相关变量;/>表示在时刻/>下时间修正量对应时间窗口内,第一数据集中第/>维度的数据序列;/>表示第/>对典型相关变量中第一数据集对应第/>维度的数据系数;/>表示在时刻/>下时间修正量对应时间窗口内,第一数据集中第/>维度的数据序列;/>表示第对典型相关变量中第二数据集对应第/>维度的数据系数。
需要说明的是,在本发明的一个实施例中,预设数量为2;在本发明的其他实施例中,预设数量可根据具体情况具体设置,在此不做限定及赘述。
在聚类过程中,样本点根据其特征相似程度被分配到不同的簇中,以使得每个簇类的样本点尽可能相似,而不同簇类之间的样本点尽可能不同;为了提高聚类的质量和效果,根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;需要说明的是,具体迭代自组织聚类算法为本领域技术人员熟知的技术手段,在此不做赘述。
为了分析初始样本簇类之间的相关性,两者之间的距离越大,是同一类的可能性越小;根据初始样本簇类之间的相对距离,获得初始样本簇类之间的初始距离度量。需要说明的是,在本发明的一个实施例中,相对距离的获取方法包括:通过计算初始样本簇类之间中心的欧氏距离,作为相对距离。
为了更好地理解数据在不同簇类之间的分布情况,评估能耗数据与产能或环境数据之间的关系,分析不同初始样本簇类的相关性离散程度;通过考虑时间修正量,可以更全面地评估样本之间的相关性,捕捉到样本在时间维度上的变化和趋势;如果某对典型相关向量的系数较大,说明第一数据集对第二数据集有较大的影响,在该维度上具有较高的相似性;如果某对典型相关变量的相关系数较大,说明这两个变量之间的线性相关性较大,能耗数据对产能与环境数据的影响越大;样本之间的第一数据集对第二数据集的相关性越不一致,样本越可能是属于不同的类别。所以根据初始样本簇类之间每个样本的时间修正量和时间修正量对应时间窗口内的相关性,获得初始样本簇类之间对应不同样本的相关性离散程度。
优选地,在本发明的一个实施例中,相关性离散程度的获取方法包括:
以样本量为的初始样本簇类为例,根据相关性离散程度的获取公式获得相关性离散程度,相关性离散程度的获取公式为:
;
其中,表示样本量为/>的样本簇类对应的相关性离散程度;/>表示初始样本簇类中的某一样本;/>表示时刻/>下样本/>对应的时间修正量;/>表示在时刻/>下样本/>的时间修正量对应的时间窗口内,第一数据集与第二数据集在第/>个维度的相关性;/>表示样本量为/>的样本簇类;/>表示求标准差函数;/>表示第二数据集中数据的维度个数;/>表示以自然常数为底的指数函数。
在相关性离散程度的获取公式中,作为相关系数的置信度,通过以自然常数为底的指数函数将/>进行负相关映射,不同的样本置信度越一致,对应的相关性离散程度越小,初始样本簇类中样本之间第一数据集与第二数据集之间的相关性越大;不同时刻下第一数据集对第二数据集中各维度数据的相关性越不同,相关性离散程度越大,相似性的差异越大,是一类的可能性较小。
需要说明的是,在本发明的一个实施例中,相关系数为皮尔逊相关系数。本发明的其他实施例中也可通过其他基础数学运算构建正负相关关系,具体手段为本领域技术人员熟知的技术手段,在此不做赘述。
获得初始样本簇类之间合并后对应样本之间的相关性离散程度,相关性离散程度越大,两个簇类之间样本的相关性差异越大,不是同一类的可能性越大,越需要调大簇类之间的距离,避免合并为一类,影响聚类质量;根据初始样本簇类之间合并前和合并后对应样本的相关性离散程度,获得初始样本簇类之间对应的距离修正系数。
优选地,在本发明的一个实施例中,距离修正系数的获取方法包括:
根据初始距离度量对初始样本簇类进行模拟合并,获得新的初始样本簇类;计算初始样本簇类之间模拟合并前对应样本的相关性离散程度之和,作为第一离散程度;获得初始样本簇类之间模拟合并后对应样本的相关性离散程度,作为第二离散程度;根据第一离散程度和所述第二离散程度获得距离修正系数;第一离散程度与距离修正系数成负相关关系,第二离散程度与距离修正系数成正相关关系。在本发明的一个实施例中,距离修正系数的公式表示为:
;
其中,表示样本量为/>与/>的两个初始样本簇类对应的距离修正系数;表示合并后样本量为/>的初始样本簇类之间对应的相关性离散程度;表示样本量为/>的初始样本簇类对应的相关性离散程度;/>表示样本量为/>的初始样本簇类对应的相关性离散程度;/>表示调节参数,取经验值为1。
在修正系数的公式中,初始样本簇类之和对应的相关性离散程度越小,但合并后对应的相关性离散程度越大,表明两个类别之间的相关性差异较大,对应合并的修正系数应当提高,避免合并为一类;反之则应当提高合并的概率,即对应较小的修正系数。
步骤S4:根据修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;根据优化距离度量进行迭代自组织聚类算法,获得聚类结果。
传统的ISODATA聚类算法在聚类过程中,对于样本簇类之间的合并条件仅是通过两个簇类之间的距离度量决定;但由于样本簇类是变化的,两个距离较近的簇类仍可能代表的是不同的样本类别,需要对样本簇类之间的距离进行修正,避免将不同类型数据合并为一类;优化距离度量使得相关性相近的样本有更大的概率聚为一类,降低了算法误判的概率。获取初始样本簇类之间的初始距离度量,根据修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量。
优选地,在本发明的一个实施例中,优化距离度量的获取方法包括:
对修正系数进行归一化,计算归一化结果与初始距离度量的乘积,获得初始样本簇类之间的优化距离度量。在本发明的一个实施例中,优化距离度量的公式表示为:
;
其中,表示样本量为/>与/>的两个初始样本簇类之间的优化距离度量;表示样本量为/>与/>的两个初始样本簇类对应的修正系数;/>表示样本量为/>与/>的两个初始样本簇类之间的初始距离度量;/>表示归一化函数。
在优化距离度量的公式中,初始距离度量越大,初始样本簇类之间的距离越大,是同类别的可能性越小;对初始样本簇类之间的距离度量进行修正,使得样本簇类相近的类别聚为一类的概率更高,修正系数越大,两个簇类之间的相关性差异越大,越需要调大簇类之间的距离,防止簇类合并。
通过优化距离度量进行合并操作,可以将原本距离较近的簇类合并在一起,不断优化聚类结果,使得聚类结果更加准确和稳定;通过迭代过程不断优化聚类结果,可以降低人为干预的影响,提高聚类的质量;根据优化距离度量进行迭代自组织聚类算法,获得聚类结果。
需要说明的是,在本发明的一个实施例中,迭代自组织聚类算法的参数设置为:预期的聚类中心数目;每一个初始样本类簇中最少的样本数目/>;一个初始样本类簇中样本分布的离散程度/>;初始样本类簇合并的阈值/>;在一次迭代运算中可以合并的聚类中心的最多对数/>;最大迭代次数/>。在本发明的其他实施例中,参数的大小可根据具体情况具体设置,在此不做限定及赘述。
其中,当一个初始样本类簇中的样本数目少于时,将不作为一个独立的聚类;当两个初始样本类簇之间的优化距离度量小于/>,则将两个初始样本类簇进行合并;合并获得新的初始样本簇类,利用迭代自组织聚类算法进行迭代聚类,获得聚类结果。
步骤S5:根据聚类结果对企业设备的能源使用进行管理。
聚类分析还可以帮助企业优化设备配置,通过对设备的能耗数据进行聚类分析,可以发现设备的能效特征和分布情况,为设备的配置和选型提供依据,优化设备的能源消耗。聚类结果将能量利用率相近的数据聚为一类,有助于判断其能力损耗是否可以进一步降低;根据聚类结果对企业设备的能源使用进行管理。
在本发明的一个实施例中,获得聚类结果之后,计算后续时刻的对应数据与各簇类之间的距离,即样本与簇类中心点之间的欧氏距离,将此样本归类至距离最小的簇类,随机选取少量该类样本,计算各个簇类对应的平均能源利用率,若对应簇类能源利用率较低,则应当进行适当调整,例如原材料比例或对应的设备的功率大小,可以进一步降低能源的损耗,增加节能管理的效果。
综上所述,本发明根据第一数据集和第二数据集在时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;进而获得每个样本对应的时间修正量;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;结合第一数据集与第二数据集的相关性,获得初始样本簇类之间对应的距离修正系数;根据距离修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;获得聚类结果,对企业设备的能耗进行检测。本发明通过获得样本簇类之间准确的距离度量,提高聚类结果的精度,优化设备能效改进策略。
本发明还提出了一种基于大数据的人工智能节能管理系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现任意一项一种基于大数据的人工智能节能管理方法的步骤。
一种基于大数据的人工智能节能数据聚类方法实施例:
现有技术中,采用ISODATA迭代自组织聚类算法,根据两个簇类之间的距离度量对同类型设备的能源使用以及产能等数据进行聚类分析,但在聚类过程中,聚类簇是变化的,距离较近的簇类之间也可能代表的是不同的样本类别,未能确定簇类之间准确的距离度量,导致将不同类型的数据合并为一类,聚类的效果较差的技术问题。为了解决该技术问题,本实施例提供一种基于大数据的人工智能节能数据聚类方法,包括:
步骤S1:获取企业设备在预设历史时间段内每一时刻下多维度的能源使用数据、产能数据以及环境数据,获得每一时刻下的样本;能源使用数据作为第一数据集;产能数据以及环境数据作为第二数据集。
步骤S2:以每一时刻为中心构建时间窗口;根据第一数据集和第二数据集在时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;根据每个样本对应每个时间窗口内的样本离散程度,获得每个样本对应的时间修正量。
步骤S3:获得每个时间窗口内第一数据集与第二数据集的相关性;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;根据初始样本簇类之间的相对距离,获得初始样本簇类之间的初始距离度量;根据初始样本簇类之间每个样本的时间修正量和时间修正量对应时间窗口内的相关性,获得初始样本簇类之间对应不同样本的相关性离散程度;并获得初始样本簇类之间对应的距离修正系数。
步骤S4:根据修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;根据优化距离度量进行迭代自组织聚类算法,获得聚类结果。
由于步骤S1-S4的具体实现过程在上述一种基于大数据的人工智能节能管理方法中已给出详细说明,不再赘述。
本实施例的技术效果为:
本方法根据第一数据集和第二数据集在时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;进而获得每个样本对应的时间修正量;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;结合第一数据集与第二数据集的相关性,获得初始样本簇类之间对应的距离修正系数;根据距离修正系数对初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;进行迭代自组织聚类算法,获得聚类结果。本方法通过获得样本簇类之间准确的距离度量,提高聚类结果的精度。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种基于大数据的人工智能节能管理方法,其特征在于,所述方法包括:
获取企业设备在预设历史时间段内每一时刻下多维度的能源使用数据、产能数据以及环境数据,获得每一时刻下的样本;所述能源使用数据作为第一数据集;所述产能数据以及环境数据作为第二数据集;
以每一时刻为中心构建时间窗口;根据第一数据集和第二数据集在所述时间窗口内每个维度数据的波动特征,获得每个样本对应时间窗口内的样本离散程度;根据每个样本对应每个时间窗口内的所述样本离散程度,获得每个样本对应的时间修正量;
获得每个时间窗口内第一数据集与第二数据集的相关性;根据迭代自组织聚类算法对所有时刻下的样本进行聚类,获得初始样本簇类;根据所述初始样本簇类之间的相对距离,获得初始样本簇类之间的初始距离度量;根据所述初始样本簇类之间每个样本的所述时间修正量和所述时间修正量对应时间窗口内的所述相关性,获得初始样本簇类之间对应不同样本的相关性离散程度;并获得初始样本簇类之间对应的距离修正系数;
根据所述距离修正系数对所述初始距离度量进行调整,获得初始样本簇类之间的优化距离度量;根据所述优化距离度量进行迭代自组织聚类算法,获得聚类结果;
根据所述聚类结果对企业设备的能源使用进行管理;
所述相关性离散程度的获取方法包括:
以样本量为的初始样本簇类为例,根据相关性离散程度的获取公式获得相关性离散程度,相关性离散程度的获取公式为:
;其中,/>表示样本量为/>的初始样本簇类的相关性离散程度;/>表示初始样本簇类中的某一样本;/>表示时刻/>下样本对应的时间修正量;/>表示在时刻/>下样本/>的时间修正量对应的时间窗口内,第一数据集与第二数据集在第/>个维度的相关性;/>表示样本量为/>的初始样本簇类;表示求标准差函数;/>表示第二数据集中数据的维度个数;/>表示以自然常数为底的指数函数;
所述距离修正系数的获取方法包括:
根据所述初始距离度量对初始样本簇类进行模拟合并,获得新的初始样本簇类;
计算初始样本簇类之间模拟合并前对应样本的相关性离散程度之和,作为第一离散程度;
获得初始样本簇类之间模拟合并后对应样本的相关性离散程度,作为第二离散程度;
根据所述第一离散程度和所述第二离散程度获得距离修正系数;
所述第一离散程度与所述距离修正系数成负相关关系,所述第二离散程度与所述距离修正系数成正相关关系。
2.根据权利要求1所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述样本离散程度的获取方法包括:
计算每一数据集内每个维度数据在相邻时刻之间的差值,获得对应维度数据的一阶差分;
对时间窗口内每个维度下的所有一阶差分进行标准化,并将标准化结果求标准差,作为每个维度离散程度,将所有维度离散程度累加,获得每个数据集的整体离散程度;
计算第一数据集和第二数据集的整体离散程度之和,获得每个样本对应时间窗口内的样本离散程度。
3.根据权利要求1所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述时间修正量的获取方法包括:
根据所述时间修正量的获取公式获得时间修正量,时间修正量的获取公式为:
;其中,/>表示时刻/>下样本/>对应的时间修正量;/>表示求最小值点函数;/>表示每个样本的时间窗口半径;/>表示以时刻/>为中心,/>为半径的时间窗口内的离散程度;/>表示时刻/>的偏差值。
4.根据权利要求1所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述相关性的获取方法包括:
利用典型相关分析算法,获得所述时间修正量对应时间窗口内的第一数据集与第二数据集的预设数量对的典型相关变量;根据每个时间窗口内第一数据集与第二数据集的每对典型相关变量,获得每对典型相关变量中第二数据集对应每个维度下的数据系数;获得每对典型相关变量之间的相关系数;
根据每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数,获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性。
5.根据权利要求4所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性包括:
计算每对典型相关变量中第二数据集对应每个维度下的数据系数和相关系数的乘积,获得每个维度下的相关性;将所有维度下的相关性进行累加,获得每个时间窗口内第一数据集与第二数据集在每个维度下的相关性。
6.根据权利要求1所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述优化距离度量的获取方法包括:
对所述距离修正系数进行归一化,计算归一化结果与初始距离度量的乘积,获得初始样本簇类之间的优化距离度量。
7.根据权利要求4所述的一种基于大数据的人工智能节能管理方法,其特征在于,所述相关系数为皮尔逊相关系数。
8.一种基于大数据的人工智能节能管理系统,所述系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~7任意一项所述一种基于大数据的人工智能节能管理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004328.4A CN117493921B (zh) | 2024-01-03 | 2024-01-03 | 基于大数据的人工智能节能管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410004328.4A CN117493921B (zh) | 2024-01-03 | 2024-01-03 | 基于大数据的人工智能节能管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117493921A CN117493921A (zh) | 2024-02-02 |
CN117493921B true CN117493921B (zh) | 2024-03-19 |
Family
ID=89683423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410004328.4A Active CN117493921B (zh) | 2024-01-03 | 2024-01-03 | 基于大数据的人工智能节能管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493921B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117954115B (zh) * | 2024-03-27 | 2024-06-04 | 天津中医药大学第一附属医院 | 一种血液净化样本分析方法及血液滤器 |
CN117977717B (zh) * | 2024-04-01 | 2024-06-11 | 国网黑龙江省电力有限公司佳木斯供电公司 | 一种寒地风光热储能综合能源协同管理方法及系统 |
CN118068228B (zh) * | 2024-04-24 | 2024-06-21 | 山东泰开电力电子有限公司 | 一种特高压电抗器短路的高效检测方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107121690A (zh) * | 2017-03-31 | 2017-09-01 | 景致惠通工程咨询(武汉)有限公司 | 一种基于多运动参数的停留点识别方法和装置 |
CN108597227A (zh) * | 2018-05-29 | 2018-09-28 | 重庆大学 | 高速公路收费站下道交通流量预测方法 |
CN114722724A (zh) * | 2022-05-07 | 2022-07-08 | 深圳市佳运通电子有限公司 | 一种基于轴向温降机理确定油田上游站出站温度的方法及系统 |
CN114936694A (zh) * | 2022-05-18 | 2022-08-23 | 广西大学 | 一种基于双集成模型的光伏功率预测方法 |
CN116436004A (zh) * | 2023-02-12 | 2023-07-14 | 国网青海省电力公司电力科学研究院 | 基于k-means分群聚类的光伏逆变器谐波抑制方法 |
CN116612896A (zh) * | 2023-03-13 | 2023-08-18 | 中国矿业大学 | 一种基于二元生理系统的动态相互作用网络分析方法 |
CN117113235A (zh) * | 2023-10-20 | 2023-11-24 | 深圳市互盟科技股份有限公司 | 一种云计算数据中心能耗优化方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018087528A1 (en) * | 2016-11-08 | 2018-05-17 | Oxehealth Limited | Method and apparatus for image processing |
-
2024
- 2024-01-03 CN CN202410004328.4A patent/CN117493921B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107121690A (zh) * | 2017-03-31 | 2017-09-01 | 景致惠通工程咨询(武汉)有限公司 | 一种基于多运动参数的停留点识别方法和装置 |
CN108597227A (zh) * | 2018-05-29 | 2018-09-28 | 重庆大学 | 高速公路收费站下道交通流量预测方法 |
CN114722724A (zh) * | 2022-05-07 | 2022-07-08 | 深圳市佳运通电子有限公司 | 一种基于轴向温降机理确定油田上游站出站温度的方法及系统 |
CN114936694A (zh) * | 2022-05-18 | 2022-08-23 | 广西大学 | 一种基于双集成模型的光伏功率预测方法 |
CN116436004A (zh) * | 2023-02-12 | 2023-07-14 | 国网青海省电力公司电力科学研究院 | 基于k-means分群聚类的光伏逆变器谐波抑制方法 |
CN116612896A (zh) * | 2023-03-13 | 2023-08-18 | 中国矿业大学 | 一种基于二元生理系统的动态相互作用网络分析方法 |
CN117113235A (zh) * | 2023-10-20 | 2023-11-24 | 深圳市互盟科技股份有限公司 | 一种云计算数据中心能耗优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
Big data-driven correlation analysis based on clustering for energy-intensive manufacturing industries;Shuaiyin Ma et.al;《Applied Energy》;20230731;1-14 * |
基于非负矩阵分解的同调机群识别方法;吴兴扬 等;《电力系统自动化》;20130725;第37卷(第14期);59-64 * |
Also Published As
Publication number | Publication date |
---|---|
CN117493921A (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117493921B (zh) | 基于大数据的人工智能节能管理方法及系统 | |
CN116186634B (zh) | 一种建筑工程施工数据智能管理系统 | |
CN112115306B (zh) | 用于执行高维传感器数据中的异常事件的自动根本原因分析的方法和系统 | |
CN112381137B (zh) | 新能源电力系统可靠性评估方法、装置、设备及存储介质 | |
CN114114039B (zh) | 一种电池系统的单体电芯一致性的评估方法和装置 | |
CN115933787B (zh) | 基于室内环境监测的室内多末端智能控制系统 | |
CN115081795B (zh) | 多维场景下企业能耗异常成因分析方法及系统 | |
CN116307944B (zh) | 基于人工智能与物联网的配电箱远程监测系统 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN117113235B (zh) | 一种云计算数据中心能耗优化方法及系统 | |
CN111008726B (zh) | 一种电力负荷预测中类图片转换方法 | |
CN116992322B (zh) | 一种智慧城市数据中心管理系统 | |
CN110795690A (zh) | 风电场运行异常数据检测方法 | |
CN118094446B (zh) | 基于机器学习的厌氧系统运行情况智能分析方法 | |
CN118134539B (zh) | 基于智慧厨房多源数据融合的用户行为预测方法 | |
CN113283674A (zh) | 一种基于用户用电特征的基线负荷预测修正方法 | |
CN118051800B (zh) | 基于云边协同的矿内监测数据智能处理方法 | |
CN118378199A (zh) | 一种大数据分析平台中的实时异常检测方法 | |
CN118152836A (zh) | 一种用于电能表运行过程的稳定性评估方法 | |
CN117094478B (zh) | 能量调度管理方法、装置、设备及存储介质 | |
CN116629843B (zh) | 智能化柴油发电机组的远程预警与维护决策支持系统 | |
CN117688362A (zh) | 基于多元数据特征增强的光伏功率区间预测方法及装置 | |
CN113127464A (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN113487080B (zh) | 一种基于风速分类的风速动态场景生成方法、系统及终端 | |
CN115081533A (zh) | 基于两级聚类和mgru-at的客户侧负荷预测方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |