CN115329910A - 一种企业生产排放数据智能处理方法 - Google Patents

一种企业生产排放数据智能处理方法 Download PDF

Info

Publication number
CN115329910A
CN115329910A CN202211264671.XA CN202211264671A CN115329910A CN 115329910 A CN115329910 A CN 115329910A CN 202211264671 A CN202211264671 A CN 202211264671A CN 115329910 A CN115329910 A CN 115329910A
Authority
CN
China
Prior art keywords
data
degree
abnormal
emission data
emission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211264671.XA
Other languages
English (en)
Other versions
CN115329910B (zh
Inventor
王宝凤
马立丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Kunpeng Technology Co ltd
Original Assignee
Nantong Kunpeng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Kunpeng Technology Co ltd filed Critical Nantong Kunpeng Technology Co ltd
Priority to CN202211264671.XA priority Critical patent/CN115329910B/zh
Publication of CN115329910A publication Critical patent/CN115329910A/zh
Application granted granted Critical
Publication of CN115329910B publication Critical patent/CN115329910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种企业生产排放数据智能处理方法,该方法获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块;通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,将数据块划分为混乱区域和正常波动区域;通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;改变预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对排放数据进行聚类压缩。本发明能够使数据的异常信息保存更为完整,同时保证了数据的压缩率。

Description

一种企业生产排放数据智能处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种企业生产排放数据智能处理方法。
背景技术
对于时序数据的压缩,常常通过聚类算法对一串数据进行压缩。对于聚类算法中,基于密度的DBSCAN聚类算法常用于数据压缩场景。在使用DBSCAN聚类进行数据压缩时,需要提前设定邻域半径与邻域密度阈值。在对企业排放数据进行压缩时,对于不同种类的排放数据如果使用统一的邻域半径与邻域密度阈值进行聚类压缩回事的压缩效果不好,并且可能会将重要数据丢失。
发明内容
为了解决上述技术问题,本发明提供一种企业生产排放数据智能处理方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种企业生产排放数据智能处理方法,该方法包括以下步骤:
获取企业的排放数据,并基于时间将所述排放数据进行分段,得到至少两个数据块;
通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;
通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;所述预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;
改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩。
优选的,所述异常程度的获取方法为:
计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过所述余弦相似度和所述偏离程度获取对应排放数据的所述异常程度。
优选的,所述异常阈值的获取方法为:
在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为所述异常阈值。
优选的,所述基于异常阈值将数据块划分为混乱区域和正常波动区域,包括:
将异常程度高于所述异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。
优选的,所述混乱程度的获取方法为:
对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的所述混乱程度;
对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的所述混乱程度。
本发明实施例至少具有如下有益效果:
对于企业排放数据,比较异常的数据是更重要的,期望中对这些重要数据通过聚类可以将其判断为异常点,并且无损压缩,对于重要程度较低的数据可以进行有损压缩。对于时序数据,根据数据的记录方式确定聚类的密度半径。相较于传统的DBSCAN聚类可以使得数据的异常信息保存的更为完整,不会因为压缩而丢失重要数据,对于正常数据将其簇类通过特征值进行保存,既可以存储该时刻的排放信息,根据存储的信息获取排放数据的整体信息,同时保证了数据的压缩率,使得数据更易于存储。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种企业生产排放数据智能处理方法的步骤流程图;
图2为区域划分示意图;
图3为本发明一个实施例提供的一个聚类示意图;
图4为邻域半径过大时的聚类示意图;
图5为正常波动区域编号记录示意图;
图6为簇类编号的代表值记录图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种企业生产排放数据智能处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
在企业的排放数据获取之后需要将数据进行存储,因为数据量大,所以需要对数据进行压缩,在压缩的同时需要保留企业排放的重要数据,对于重要程度低的排放数据进行有损压缩。对于重要数据对其进行无损压缩。下面结合附图具体的说明本发明所提供的一种企业生产排放数据智能处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种企业生产排放数据智能处理方法的步骤流程图,该方法包括以下步骤:
步骤S001,获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块。
具体的步骤包括:
获取企业排放的监测数据,排放数据为不同的排放物种类的数据,常规的排放物如
Figure DEST_PATH_IMAGE001
等。将数据进行分块,在后续的分析过程中需要根据数据块的特征进行分析。
为保证数据压缩过程中对于不同数据采取不同的方式,将数据通过排放物质种类进行单独确定。将每种排放数据都与记录时间进行划分。在进行不同排放物质的排放数据采集之后,将排放数据进行分块,划分数据块的标准以记录的日期进行划分,例如以记录的时间为标准,每小时为间隔进行数据分段,得到至少两个数据块,具体划分过程根据实际情况进行确定。
步骤S002,通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域。
具体的步骤包括:
因为企业排放数据是一个有时序的数据,其时序性体现在每一天的排放量都处于一个相似的波动。这样就可以根据波动的相似性来进行数据点异常程度的衡量。对于每一天的数据块,可以通过衡量每一个数据块中的数据波动来进行波动相似度的判断,那么数据的异常程度一方面是波动的相似度,一方面就是在波动相似的情况下,数据点偏离主波动的距离。通过这两个方面来进行数据点分布异常程度的判断。
计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过余弦相似度和偏离程度获取对应排放数据的异常程度。
将一个数据块中一个排放物的排放数据看作一个多维向量,对比两个数据块中两个多维向量的向量夹角的余弦值,作为两个数据块中数据波动相似度的衡量。获取第
Figure 623122DEST_PATH_IMAGE002
个数据块与标准数据块的波动相似程度
Figure DEST_PATH_IMAGE003
将标准波动数据块的波动作为标准进行数据点异常程度的衡量,将每个排放数据记为数据点,如果数据点的数值超过当地政府规定的排放值,无论其波动相似程度的影响都将这个数据点的异常程度设置为1,如果数据块中的数据量与标准不符合,说明排放数据监测传感器记录缺失,将这个数据块中数据的异常程度都设置为1。
无上述情况则通过待衡量数据块中的数据点与标准数据块的数据点对应位置的数据点进行对比,使用数据值的差值绝对值作为偏离程度的衡量标准,将一个数据块中的差值绝对值记录为一组数值,将这一组数据进行
Figure 956146DEST_PATH_IMAGE004
归一化作为每一个数据点的偏离程度,将第
Figure 146956DEST_PATH_IMAGE002
个数据块中第
Figure DEST_PATH_IMAGE005
个数据的偏离程度记为
Figure 43367DEST_PATH_IMAGE006
对于数据点的异常程度通过两个数据块的波动相似度与数据点偏离程度来进行衡量。其中波动相似度
Figure 370444DEST_PATH_IMAGE003
的数值范围为
Figure DEST_PATH_IMAGE007
其数值离
Figure 123636DEST_PATH_IMAGE008
越近则两个波动越相似。
通过取值范围将
Figure 254272DEST_PATH_IMAGE003
映射到
Figure DEST_PATH_IMAGE009
Figure DEST_PATH_IMAGE011
其中,
Figure 954375DEST_PATH_IMAGE003
表示波动相似度,
Figure 401536DEST_PATH_IMAGE012
表示波动相似度的归一化数值。
对于一个数据点所在波动的波动相似度如果越相似则说明其中数据点的异常程度越低,如果一个数据点的偏离程度越高则说明异常程度越高。
数据点的异常程度
Figure DEST_PATH_IMAGE013
的计算公式为:
Figure DEST_PATH_IMAGE015
其中,
Figure 11116DEST_PATH_IMAGE006
表示第
Figure 379780DEST_PATH_IMAGE002
个数据块中第
Figure 211470DEST_PATH_IMAGE005
个数据点的数值偏离程度,
Figure 716401DEST_PATH_IMAGE012
表示第
Figure 342554DEST_PATH_IMAGE002
个数据块中数据波动与标准波动的相似程度,
Figure 932936DEST_PATH_IMAGE013
表示第
Figure 568316DEST_PATH_IMAGE002
个数据块中第
Figure 911442DEST_PATH_IMAGE005
个数据点的异常程度。
在获取到每一个数据点的异常程度之后需要根据其异常程度来划分出对于一种排放物的排放数据中的混乱区域与正常波动区域。
在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为异常阈值。
通过随机抽取
Figure 974076DEST_PATH_IMAGE016
个异常数据点计算其异常程度,通过这
Figure 51753DEST_PATH_IMAGE016
个异常数据点的异常程度均值作为划分混乱区域的异常阈值,异常阈值计算公式为:
Figure DEST_PATH_IMAGE017
,起这种T表示预设数量,在本发明实施例中为20;
Figure 694087DEST_PATH_IMAGE018
表示第
Figure DEST_PATH_IMAGE019
个数据点的异常程度,
Figure 173610DEST_PATH_IMAGE020
表示计算得到的异常程度阈值。
将异常程度高于异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。
在获取到用于划分混乱区域的异常程度阈值之后,通过阈值
Figure 361140DEST_PATH_IMAGE020
来对所有数据点的异常程度进行划分。异常程度高于阈值
Figure 660534DEST_PATH_IMAGE020
则将这个数据点划分为混乱区域,用以比较在数据压缩之后对于异常数据点的影响。异常程度低于阈值
Figure 637717DEST_PATH_IMAGE020
则将这个数据点划分为正常波动区域,用以比较在数据压缩之后对于正常数据点的压缩效果。
将划分得到的混乱区域数据点集合记为
Figure DEST_PATH_IMAGE021
,将划分得到的正常波动区域数据点集合记为
Figure 175009DEST_PATH_IMAGE022
。在实际数据中混乱区域和正常波动区域的区域划分示意图如图2所示,两条曲线中间的区域为正常波动区域
Figure 579446DEST_PATH_IMAGE022
,两条曲线外的区域为混乱区域
Figure 615404DEST_PATH_IMAGE021
企业排放数据块通过数据异常程度判断处理,得到混乱区域与正常波动区域。
步骤S003,通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;预设参数包括邻域半径、邻域密度阈值和最大可达密度距离。
具体的步骤包括:
通过DBSCAN密度聚类对企业排放数据进行压缩时对于不同的邻域半径参数其压缩效果也不同。为了找到最合适的邻域半径则需要通过对数据压缩的期望来限制邻域半径的选取以确定最优的邻域半径。对于好的邻域半径聚类压缩的效果是将企业排放数据中的正常波动区域数据在保证波动信息的情况下进行压缩,对于混乱区域的数据则需要保证混乱区域的数据无损压缩,也就是期望密度聚类中将混乱区域的数据点识别为噪声点,对于噪声点则是在存储数据时无损存储,以保证可以将排放数据的异常全部保留。
根据如上期望对于混乱区域数据的保留情况则通过混乱区域的混乱程度进行衡量,如果在聚类之后混乱程度降低则说明邻域半径的大小已经将混乱区域的数据点进行了有损压缩。
对于初始邻域半径的确定,可以通过历史排放数据与排放标准进行确定,因为对于不同的排放物质有着不同的标准,所以对于不同的排放物质会有不同的初始邻域半径。本实施例中以
Figure DEST_PATH_IMAGE023
的排放数据为例,根据企业排放数据的历史数据信息,这里建议将初始窗口大小设置为2。
对于邻域密度阈值的确定,需要根据排放物监测传感器的数量与记录时间间隔来确定,对于同一时刻的不同传感器,其监测到的数据理论上偏差不会很大,如果出现较大的偏差也会在聚类中的噪声点识别被识别出,邻域密度阈值则需要根据传感器数量进行设置,如步骤一中的示例数据,有十个传感器进行监测,根据历史数据信息,这里将邻域密度阈值设置为8。
初始邻域半径(
Figure 333961DEST_PATH_IMAGE024
)设置为1.2,邻域密度阈值(
Figure DEST_PATH_IMAGE025
)设置为8。因为在确定初始邻域半径之后还会根据混乱区域的混乱程度与正常波动区域的信息对邻域半径进行迭代修改,所以初始邻域半径根据历史数据来确定初始数值不会影响到最佳邻域半径的确定。
通过初始邻域半径对企业排放数据进行聚类压缩,实际上就是将一种排放物的所有排放数据进行聚类,将同一簇类中的数据点使用一个数值进行代表,聚类之后的数据进行存储时可以将同一簇类的数据点使用该簇类的代表值进行存储,因为只需记录簇类中数据点的代表值所以将同一个数值只记录一次以达到数据压缩的效果。
如图3的聚类示意图所示,从最左侧数据点开始判断其邻域半径是否符合邻域密度阈值的要求,图中箭头代表密度聚类的移动方向,实线圆圈为能够聚类的点,虚线圆圈内的为离散点,代表识别出的噪声点。
通过限制最大密度可达距离来限制簇类的最大范围,来保证整体波动不会被聚为一类,从而使得压缩后的数据还保留着排放数据的波动信息。只要是根据企业排放数据的常规数值分布,将最大可达密度距离设置为5。
在密度聚类之后将原始数据中的数据值替换为聚类所得的代表值。
对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的混乱程度;对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的混乱程度。
对于混乱区域的数据可以使用该区域数据的信息熵来作为该区域混乱程度的衡量。混乱程度的计算方式如下:
Figure DEST_PATH_IMAGE027
其中,
Figure 53655DEST_PATH_IMAGE028
表示混乱区域存在的数据点数值,
Figure DEST_PATH_IMAGE029
表示数据点数值为
Figure 795039DEST_PATH_IMAGE028
的第
Figure 131343DEST_PATH_IMAGE029
个数据点,
Figure 388012DEST_PATH_IMAGE030
表示数据点数值为
Figure 493371DEST_PATH_IMAGE028
的数据点数量,
Figure DEST_PATH_IMAGE031
表示在混乱区域中数据点数值为
Figure 442872DEST_PATH_IMAGE028
中第
Figure 938576DEST_PATH_IMAGE029
个数据值的数据点数量在整个区域中出现的概率。
Figure 61253DEST_PATH_IMAGE031
的获取方法为:
Figure 473648DEST_PATH_IMAGE032
,其中
Figure DEST_PATH_IMAGE033
表示在集合
Figure 594051DEST_PATH_IMAGE021
中数值为
Figure 842630DEST_PATH_IMAGE034
的数据点的数量。
Figure 503418DEST_PATH_IMAGE021
为混乱区域中数据点的数量,所得
Figure DEST_PATH_IMAGE035
为混乱区域的混乱程度。
该公式为信息熵计算公式,所得
Figure 475048DEST_PATH_IMAGE035
表示所计算混乱区域中数据点的信息量,可以将其理解为数据点的混乱程度,因为数据点也不相同也就是越混乱,那么其数值就会越大。以此衡量区域的混乱程度。
在获取到初始混乱区域的混乱程度
Figure 828668DEST_PATH_IMAGE035
之后将其作为一个对比值,用以对比在进行聚类压缩之后混乱区域的混乱程度变化情况。
根据同样的上述计算过程,同样计算正常波动区域的混乱程度
Figure 298964DEST_PATH_IMAGE036
,用于对正常波动区域压缩效果的衡量。
步骤S004,改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩。
具体的步骤包括:
对于初始邻域半径所得的聚类后数据,仍然通过原始数据的混乱区域与正常波动区域来进行新一次的混乱程度确定。计算所得的聚类后数据的混乱区域混乱程度记为
Figure DEST_PATH_IMAGE037
,正常波动区域混乱程度记为
Figure 714509DEST_PATH_IMAGE038
对于邻域半径的确定,期望中是混乱区域的混乱程度尽可能保持不变,而正常波动区域混乱程度降低。如下图中所示,如果邻域半径数值过大就会将混乱区域的异常点进行聚类压缩,从而损失的排放数据的异常信息,如图4所示,实线圆圈为能够聚类的点,虚线圆圈内的数据点邻域半径都会将混乱区域的数据点进行包含,在聚类过程中这些数据点的信息就会缺失。
在这个过程中如果混乱区域的混乱程度没有变化则继续扩大邻域半径,如果混乱区域混乱程度的变化达到了对于重要数据的最低要求,则停止邻域半径的继续扩大。并以此时的邻域半径作为最佳邻域半径。
迭代过程中对于混乱程度最低要求的衡量则需要根据对于数据压缩要求的确定。如果在使用中对于某种物质的排放数据绝对的异常数据无损压缩,那么混乱区域的混乱程度只要发生变化就需要以迭代过程中上一个邻域半径作为最佳邻域半径的选择。对于实际的数据压缩使用,需要给出一个对异常数值的可更改限度,并以此来衡量混乱区域的混乱程度变化。
使用获取到的最佳邻域半径参数,对数据进行密度聚类压缩数据,通过迭代过程寻找到的最佳邻域半径可以使得数据无损保留重要数据并以有损的方式压缩不重要的数据,达到最好的排放数据压缩效果。
在获取到最佳邻域半径参数之后对数据进行聚类处理,将同一簇类中的数据使用该簇类的记录值来对数据进行记录,相同数值的记录可以进行压缩存储。在DBSCAN密度聚类的过程中还可以检测到密度不可达的噪声点,这些噪声点可以理解为一组数据中的异常点,比如某个时刻监测到排放物排放异常,对于这种表述异常的数值则需要保留其数值进行存储。
存储过程中对正常波动区域的数据点记录其所属簇类的编号即可,如图5所示,同时单独记录簇类编号的代表值,如图6所示。
对于每种排放物的排放数据都经过上述过程进行聚类压缩存储。
综上所述,本发明实施例获取企业的排放数据,并基于时间将排放数据进行分段,得到至少两个数据块;通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;改变预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对排放数据进行聚类压缩。本发明实施例能够使得数据的异常信息保存的更为完整,不会因为压缩而丢失重要数据,同时保证了数据的压缩率,使得数据更易于存储。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (5)

1.一种企业生产排放数据智能处理方法,其特征在于,该方法包括以下步骤:
获取企业的排放数据,并基于时间将所述排放数据进行分段,得到至少两个数据块;
通过所有数据块中数据的数值分布情况确定数据块中每个排放数据的异常程度,根据历史排放数据中的异常数据获取异常阈值,基于异常阈值将数据块划分为混乱区域和正常波动区域;
通过预设参数的DBSCAN聚类算法对排放数据进行聚类压缩,获取混乱区域的混乱程度,以及正常波动区域的混乱程度;所述预设参数包括邻域半径、邻域密度阈值和最大可达密度距离;
改变所述预设参数中的邻域半径,得到新的混乱程度,基于混乱程度的变化获取最佳邻域半径;以最优邻域半径对所述排放数据进行聚类压缩。
2.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述异常程度的获取方法为:
计算每个数据块与预先选取的标准波动数据块之间的余弦相似度,以每个数据块中的排放数据与标准波动数据块对应位置的排放数据之间的差值绝对值作为该排放数据的偏离程度,通过所述余弦相似度和所述偏离程度获取对应排放数据的所述异常程度。
3.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述异常阈值的获取方法为:
在历史排放数据中选取预设数量的异常数据,计算选取的异常数据的异常程度并求平均值作为所述异常阈值。
4.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述基于异常阈值将数据块划分为混乱区域和正常波动区域,包括:
将异常程度高于所述异常阈值的排放数据划分为混乱区域,否则划分为正常波动区域。
5.根据权利要求1所述的一种企业生产排放数据智能处理方法,其特征在于,所述混乱程度的获取方法为:
对于混乱区域,获取同一数值的排放数据的数量在混乱区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算混乱区域的所述混乱程度;
对于正常波动区域,获取同一数值的排放数据的数量在正常波动区域包括的所有排放数据中的占比作为该数值的出现概率,基于所有数值的出现概率利用信息熵公式计算正常波动区域的所述混乱程度。
CN202211264671.XA 2022-10-17 2022-10-17 一种企业生产排放数据智能处理方法 Active CN115329910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211264671.XA CN115329910B (zh) 2022-10-17 2022-10-17 一种企业生产排放数据智能处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211264671.XA CN115329910B (zh) 2022-10-17 2022-10-17 一种企业生产排放数据智能处理方法

Publications (2)

Publication Number Publication Date
CN115329910A true CN115329910A (zh) 2022-11-11
CN115329910B CN115329910B (zh) 2023-04-07

Family

ID=83915247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211264671.XA Active CN115329910B (zh) 2022-10-17 2022-10-17 一种企业生产排放数据智能处理方法

Country Status (1)

Country Link
CN (1) CN115329910B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089660A (zh) * 2023-03-16 2023-05-09 西安中创博远网络科技有限公司 一种监测系统的数据存储方法
CN116089846A (zh) * 2023-04-03 2023-05-09 北京智蚁杨帆科技有限公司 一种基于数据聚类的新能源结算数据异常检测与预警方法
CN116166978A (zh) * 2023-04-23 2023-05-26 山东民生集团有限公司 一种用于供应链管理的物流数据压缩存储方法
CN117155401A (zh) * 2023-10-31 2023-12-01 杭州巨奥能源科技有限公司 一种智慧园区能耗优化管理方法及系统
CN117648590A (zh) * 2024-01-30 2024-03-05 山东万洋石油科技有限公司 一种全方位伽马测井数据优化处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004625A1 (en) * 2014-03-20 2017-01-05 Olympus Corporation Image processing apparatus, image processing method, and computer-readable recording medium
CN113542060A (zh) * 2021-07-07 2021-10-22 电子科技大学中山学院 一种基于设备通信数据特征的异常设备检测方法
CN115081795A (zh) * 2022-04-27 2022-09-20 国网山东省电力公司泰安供电公司 多维场景下企业能耗异常成因分析方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170004625A1 (en) * 2014-03-20 2017-01-05 Olympus Corporation Image processing apparatus, image processing method, and computer-readable recording medium
CN113542060A (zh) * 2021-07-07 2021-10-22 电子科技大学中山学院 一种基于设备通信数据特征的异常设备检测方法
CN115081795A (zh) * 2022-04-27 2022-09-20 国网山东省电力公司泰安供电公司 多维场景下企业能耗异常成因分析方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089660A (zh) * 2023-03-16 2023-05-09 西安中创博远网络科技有限公司 一种监测系统的数据存储方法
CN116089660B (zh) * 2023-03-16 2024-08-02 北京睿道网络科技有限公司 一种监测系统的数据存储方法
CN116089846A (zh) * 2023-04-03 2023-05-09 北京智蚁杨帆科技有限公司 一种基于数据聚类的新能源结算数据异常检测与预警方法
CN116166978A (zh) * 2023-04-23 2023-05-26 山东民生集团有限公司 一种用于供应链管理的物流数据压缩存储方法
CN117155401A (zh) * 2023-10-31 2023-12-01 杭州巨奥能源科技有限公司 一种智慧园区能耗优化管理方法及系统
CN117155401B (zh) * 2023-10-31 2024-01-26 杭州巨奥能源科技有限公司 一种智慧园区能耗优化管理方法及系统
CN117648590A (zh) * 2024-01-30 2024-03-05 山东万洋石油科技有限公司 一种全方位伽马测井数据优化处理方法
CN117648590B (zh) * 2024-01-30 2024-04-19 山东万洋石油科技有限公司 一种全方位伽马测井数据优化处理方法

Also Published As

Publication number Publication date
CN115329910B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115329910B (zh) 一种企业生产排放数据智能处理方法
CN117459418B (zh) 一种实时数据采集存储方法及系统
CN115219067B (zh) 一种用于大蒜仓储实时状态监测方法
CN117540238B (zh) 一种工业数字化信息采集装置用数据安全管理方法
CN108667684B (zh) 一种基于局部向量点积密度的数据流异常检测方法
CN117271987B (zh) 一种配电设备环境状态数据智能采集处理方法
CN117235557B (zh) 基于大数据分析的电气设备故障快速诊断方法
CN114969060B (zh) 一种工业设备时序数据压缩存储方法、装置
CN116700630B (zh) 基于物联网的有机无机复混肥料生产数据优化存储方法
CN116975503B (zh) 一种土壤侵蚀信息管理方法及系统
CN116304963B (zh) 一种适用于地质灾害预警的数据处理系统
CN117608499B (zh) 一种基于物联网的智慧交通数据优化存储方法
CN117591836B (zh) 一种管道检测数据分析方法以及相关装置
CN117990041B (zh) 一种无线无源的形变监测方法
CN118134539B (zh) 基于智慧厨房多源数据融合的用户行为预测方法
CN116320042A (zh) 边缘计算的物联终端监测控制系统
CN117131035B (zh) 一种化工染料生产数据智能储存方法及系统
CN118282413B (zh) 一种用于超高层钢结构施工过程的监测数据管理方法
CN118378199A (zh) 一种大数据分析平台中的实时异常检测方法
CN117783745A (zh) 用于换电柜的数据在线监测方法及系统
CN113536066A (zh) 一种数据异常检测算法确定方法、装置及计算机设备
CN117896482B (zh) 一种车辆行车记录仪的数据智能存储方法
US11847619B2 (en) System-state monitoring method and device and storage medium
CN110704408A (zh) 一种基于聚类的时序数据压缩方法及系统
CN117692012A (zh) 一种智能睡袋温度数据远程监测传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant