CN117688410B - 一种对马来酸二乙酯生产数据智能管理方法 - Google Patents
一种对马来酸二乙酯生产数据智能管理方法 Download PDFInfo
- Publication number
- CN117688410B CN117688410B CN202410147597.6A CN202410147597A CN117688410B CN 117688410 B CN117688410 B CN 117688410B CN 202410147597 A CN202410147597 A CN 202410147597A CN 117688410 B CN117688410 B CN 117688410B
- Authority
- CN
- China
- Prior art keywords
- cluster
- analysis
- data
- data points
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- IEPRKVQEAMIZSS-UHFFFAOYSA-N Di-Et ester-Fumaric acid Natural products CCOC(=O)C=CC(=O)OCC IEPRKVQEAMIZSS-UHFFFAOYSA-N 0.000 title claims abstract description 21
- IEPRKVQEAMIZSS-WAYWQWQTSA-N Diethyl maleate Chemical compound CCOC(=O)\C=C/C(=O)OCC IEPRKVQEAMIZSS-WAYWQWQTSA-N 0.000 title claims abstract description 21
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 14
- 238000007726 management method Methods 0.000 title claims abstract description 10
- 239000006185 dispersion Substances 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000009826 distribution Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims description 256
- 230000000875 corresponding effect Effects 0.000 claims description 48
- 230000002159 abnormal effect Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004821 distillation Methods 0.000 claims description 6
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 abstract description 19
- 238000007906 compression Methods 0.000 abstract description 19
- 238000003860 storage Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 description 16
- 239000000203 mixture Substances 0.000 description 7
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 6
- QAOWNCQODCNURD-UHFFFAOYSA-N Sulfuric acid Chemical compound OS(O)(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-N 0.000 description 6
- 206010024769 Local reaction Diseases 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 230000002776 aggregation Effects 0.000 description 5
- 238000009835 boiling Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000002360 preparation method Methods 0.000 description 4
- 239000012535 impurity Substances 0.000 description 3
- FPYJFEHAWHCUMM-UHFFFAOYSA-N maleic anhydride Chemical compound O=C1OC(=O)C=C1 FPYJFEHAWHCUMM-UHFFFAOYSA-N 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000032050 esterification Effects 0.000 description 1
- 238000005886 esterification reaction Methods 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据聚类技术领域,具体涉及一种对马来酸二乙酯生产数据智能管理方法。该方法根据数据点的数量与位置分布获取的最小点数与邻域半径,基于两个参数利用DBSCAN算法对数据点进行聚类得到聚类簇;获取聚类簇的簇内离散度,进而得到聚类簇的综合满意度;结合聚类簇与其相邻簇的综合满意度之间的差异,以及聚类簇的相邻簇的综合满意度之间的差异,对聚类簇的综合满意度进行调整得到聚类簇的最终满意度;基于最终满意度对聚类簇内数据点的温度数据进行压缩存储。本发明获取聚类簇的最终满意度,并基于其对聚类簇内数据点的温度数据进行压缩存储,以减少冗余存储空间,提高压缩效率。
Description
技术领域
本发明涉及数据聚类技术领域,具体涉及一种对马来酸二乙酯生产数据智能管理方法。
背景技术
马来酸二乙酯主要由顺丁烯二酸酐和乙醇在硫酸存在下酯化后分馏得到,通常液体混合物中各成分的沸点不同,通过适当加热可以使其中沸点较低的成分首先蒸发,然后通过冷凝收集从而实现分离混合物。因此,对分馏过程中温度数据的检测与存储意义重大。
目前对于制备马来酸二乙酯中分馏过程中温度传感器的温度数据的存储一般采用无损压缩存储,但是由于反应过程中可能存在温度数据相似情况,采用无损压缩存储可能会占用较多的冗余空间,降低压缩效率。
发明内容
为了解决马来酸二乙酯制备过程中温度数据存在相似情况,采用无损压缩存储占用较多的冗余空间且降低压缩效率的技术问题,本发明的目的在于提供一种对马来酸二乙酯生产数据智能管理方法,所采用的技术方案具体如下:
本发明提出了一种对马来酸二乙酯生产数据智能管理方法,该方法包括:
获取蒸馏塔中不同传感器在历史时间段内每个时刻下温度数据的数据点;
根据历史时间段对应的数据点的数量与位置分布获取最小点数与邻域半径;基于所述最小点数与所述邻域半径,利用DBSCAN算法对数据点进行聚类得到聚类簇;
选取任意一个聚类簇作为分析簇,依据分析簇内数据点位置分布,获取分析簇的簇内离散度;结合分析簇与其余聚类簇的所述簇内离散度之间的差值,获取分析簇的综合满意度;
获取分析聚类簇的相邻簇;结合分析簇与其相邻簇的所述综合满意度之间的差异,以及分析簇的相邻簇的所述综合满意度之间的差异,对分析簇的综合满意度进行调整,得到分析簇的最终满意度;
基于所述最终满意度对聚类簇内数据点的温度数据进行压缩存储。
进一步地,所述获取最小点数与邻域半径的方法,包括:
以时间为横轴、温度数据为纵轴建立直角坐标系;将所有数据点在所述直角坐标系进行标注得到每个数据点的坐标点;获取所有坐标点的凸包;
将坐标点的总数量与所述凸包的面积的比值向上取整,得到最小点数;
选取任意一个数据点作为分析数据点,获取分析数据点与除分析数据点外的其余每个数据点之间的欧式距离,将所述欧式距离从小到大顺序排列得到距离序列,将距离序列中第最小点数个欧式距离作为分析数据点的初始邻域距半径;
将所有数据点的所述初始邻域半径的均值作为邻域半径。
进一步地,所述依据分析簇内数据点位置分布,获取分析簇的簇内离散度的方法,包括:
将分析簇内数据点在所述直角坐标系中对应坐标点作为分析坐标点;获取分析坐标点的最小外接矩形;
选取任意一个分析坐标点作为目标坐标点,将目标坐标点与除目标坐标点外的其余分析坐标点之间的欧式距离的均值作为目标坐标点的初始均距离;将所有分析坐标点的所述初始均距离的均值作为综合均距离;
对分析簇内数据点进行降维分析,获取最大主成分向量与最小主成分向量,将所述最大主成分向量的模长作为第一模长,将最小主成分向量的模长作为第二模长;
获取分析簇内的核心点;结合所述最小外接矩形的长度与宽度、所述综合均距离、所述第一模长、所述第二模长以及所述核心点的数量,获取分析簇的簇内离散度。
进一步地,所述分析簇的簇内离散度的计算公式如下:
;式中,U为分析簇的簇内离散度;L为分析簇内数据点对应的所述最小外接矩阵的长度;H为分析簇内数据点对应的所述最小外接矩阵的宽度;/>为所述综合均距离;HN为分析簇内核心点的总数量;/>为所述第一模长;/>为所述第二模长;c为预设正数;exp为以自然常数e为底数的指数函数。
进一步地,所述获取分析簇的综合满意度的方法,包括:
获取所述分析簇与除分析簇外的其余每个聚类簇的形心之间的欧式距离,将最小的所述欧式距离对应的聚类簇作为分析簇的关联簇;
利用聚类簇的所述簇内离散度的极差,对所述关联簇与分析簇的所述簇内离散度的差值进行归一化,得到分析簇的离散差值;
根据分析簇与其关联簇的形心之间的欧式距离,以及所述离散差值,获取分析簇的综合满意度;分析簇与其关联簇的形心之间的欧式距离与所述离散差值均与所述综合满意度为正相关的关系。
进一步地,所述获取分析簇的相邻簇的方法,包括:
将分析簇的形心在所述直角坐标系中对应坐标点作为分析簇的形心坐标;
选取除分析簇外的其余任意一个聚类簇作为判断簇,在所述直角坐标系中,将连接分析簇与判断簇的所述形心坐标形成的线段作为判断线段;
选取除分析簇与判断簇外的其余任意一个聚类簇作为待定簇,获取待定簇内数据点在所述直角坐标系对应的坐标点的凸包作为待定凸包,若所述判断线段与所述待定凸包不存在交点,则判断线段上不存在待定簇;
若所述判断线段上不存在除分析簇与判断簇外其余的聚类簇,则将判断簇作为分析簇的相邻簇。
进一步地,所述分析簇的最终满意度的获取方法,包括:
根据分析簇与其相邻簇的所述综合满意度之间的差异,以及分析簇的所述相邻簇的综合满意度之间的差异,获取分析簇的局部异常度;
当所述局部异常度大于或者等于预设异常阈值时,将分析簇的相邻簇的所述综合满意度的均值作为分析簇的最终满意度;当所述局部异常度小于预设异常阈值时,将分析簇的综合满意度作为分析簇的最终满意度。
进一步地,所述分析簇的局部异常度的计算公式如下:
;式中,P为分析簇的局部异常度;Z为分析簇的综合满意度;/>为分析簇的第e个相邻簇的综合满意度;E为分析簇的相邻簇的总数量;/>为分析簇的第r个相邻簇的综合满意度;/>为分析簇的第s个相邻簇的综合满意度;c为预设正数;/>为绝对值函数。
进一步地,所述基于所述最终满意度对聚类簇内数据点的温度数据进行压缩存储的方法,包括:
将大于或者等于预设满意阈值的最终满意度对应的聚类簇作为集中型簇,小于预设满意阈值的最终满意度对应的聚类簇作为一般型簇;
将每个集中型簇内数据点的温度数据的均值作为每个集中型簇内每个数据点的修正温度数据,利用游程编码对每个一般型簇内数据点的修正温度数据进行压缩;对每个一般型簇内数据点的温度数据进行无压缩存储。
进一步地,所述对分析簇内数据点进行降维分析的算法为主成分分析算法。
本发明具有如下有益效果:
本发明实施例中,为了提高历史时间段对应的数据点的聚类效果,根据数据点的数量与位置分布获取最小点数与邻域半径,并基于两个参数利用DBSCAN算法对数据点进行聚类得到聚类簇;聚类簇内数据点的位置分布呈现聚类簇内数据点的聚类情况即簇内离散度,单纯通过簇内离散度衡量样本空间中聚类簇的聚类效果不够全面,为了更准确地衡量聚类的满意程度,结合聚类簇之间距离来判断聚类簇之间的分布情况,获取分析簇的综合满意度;由于反应进行中伴随着不同的吸热与放热,导致局部反应温度数据可能存在异常,即可能存在某个时间段内某个聚类簇内数据点较为聚集,但其周围大多数聚类簇内数据点较为分散;或者出现与上述相反的情况;上述两种情况局部的综合满意度异常的情况会导致基于综合满意度分类进行压缩时产生异常,分析簇与其相邻簇的综合满意度的差异以及相邻簇的综合满意度之间的差异均能呈现分析簇内数据点的温度数据的异常情况,结合两种因素对分析簇的综合满意度调整至于周围聚类簇的综合满意度相似的水平,得到最终满意度,从而实现一致压缩方式;基于最终满意度自适应选取对聚类簇内数据点的温度数据进行压缩存储的方式,避免反应过程中存在相似的温度数据占用较多的冗余空间的问题,提高压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种对马来酸二乙酯生产数据智能管理方法的方法流程图;
图2为本发明一个实施例所提供的数据点在直角坐标系中坐标点分布示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种对马来酸二乙酯生产数据智能管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种对马来酸二乙酯生产数据智能管理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种对马来酸二乙酯生产数据智能管理方法的方法流程图,该方法包括:
步骤S1:获取蒸馏塔中不同传感器在历史时间段内每个时刻下温度数据的数据点。
具体的,马来酸二乙酯的其制备方法主要由顺丁烯二酸酐和乙醇在硫酸存在下酯化后分馏得到,在制备马来酸二乙酯时需要通过不同温度将杂质从混合物中进行分馏以得到更纯净的产品,本申请中马来酸二乙酯的制备过程在蒸馏塔中进行,在蒸馏塔中不同位置设置温度传感器,采集马来酸二乙酯进行分馏过程时蒸馏塔中每个温度传感器在历史时间段内每个时刻下温度数据的数据点。
本发明实施例中历史时间段为在蒸馏塔中放置顺丁烯二酸酐、乙醇与硫酸的开始蒸馏时刻到马来酸二乙酯制备完成时刻构成的时间段,历史时间段内温度数据的采样频率为每秒采集一次,实施者可根据具体情况自行设置。
以时间t为横轴,温度数据T为纵轴建立直角坐标系,将历史时间段对应的数据点在中直角坐标系进行标注得到数据点对应的坐标点。图2为本发明一个实施例所提供的数据点在直角坐标系中坐标点分布示意图,如图2所示,图2中叉号代表数据点在直角坐标点中对应的坐标点。在初始时,温度逐渐升高,蒸馏塔内温度接近原料混合物中最低沸点组分的沸点;当混合物中达到某个组分的沸点时,该组分开始蒸发,由于混合物中的这个组分在蒸发的过程中吸收热量,温度不会持续上升,则温度在此期间基本上保持恒定;随着液体中较轻的组分被蒸馏出来,蒸发的组分的比例减小,此时需要提高温度以分离其他杂质;最后所有的杂质都被蒸发后冷却降温,保留下目标产物即马来酸二乙酯。
本申请中由于多个位置的温度传感器采集的温度数据可能存在相似性,在样本空间即直角坐标系中表现为数据点较为聚集,因此可以通过聚类的方式将聚集性数据聚为一类,从而区分压缩方式。
步骤S2:根据历史时间段对应的数据点的数量与位置分布获取最小点数与邻域半径;基于最小点数与邻域半径,利用DBSCAN算法对数据点进行聚类得到聚类簇。
本申请对历史时间段内数据点进行处理得到多个结果簇,由于数据的相似性在样本空间可表现为数据点位置较为接近,则每个聚类簇都代表了一类分布情况较为相似的数据。
本发明实施例中选用DBSCAN算法对历史时间段内的数据点进行聚类,为使聚类效果尽可能准确直观地反应数据点的分布特征,根据数据点的数量与数据点的位置分布自适应获取DBSCAN算法中的两个核心参数:最小点数minPts和邻域半径eps。
优选地,最小点数与邻域半径的获取方法为:以时间为横轴、温度数据为纵轴建立直角坐标系;将所有数据点在直角坐标系进行标注得到每个数据点的坐标点;获取所有坐标点的凸包;将坐标点的总数量与凸包的面积的比值向上取整,得到最小点数;选取任意一个数据点作为分析数据点,获取分析数据点与除分析数据点外的其余每个数据点之间的欧式距离,将欧式距离从小到大顺序排列得到距离序列,将距离序列中第最小点数个欧式距离作为分析数据点的初始邻域半径;将所有数据点的初始邻域半径的均值作为邻域半径。
最小点数minPts反映整体数据点分布的均值情况,本发明实施例中通过数据点的平均密度,即数据点在直角坐标系中对应坐标点的总数量与坐标点形成的凸包的面积比值,并对该数值向上取整,以避免最小点数等于0的情况,得到最小点数。需要说明的是,历史时间段内数据点对应的坐标点在凸包的边上或凸包内;数据点在直角坐标系中对应坐标点的凸包为不规则区域。其中,凸包的获取方法与不规则区域的面积的获取方法为公知技术,在此不再赘述。
根据数据点的初始邻域半径获取DBSCAN算法中输入的邻域半径eps,使邻域半径能更好地衡量数据点的整体分布情况,且与最小点数minPts进行关联,从而实现最优聚类效果。
需要说明的是,在计算数据点之间的欧式距离时,首先,构建数据点的二元组(a,b),其中,a为数据点对应的时刻,b为数据点对应的温度数据;其次,计算两个数据点的二元组之间的欧式距离作为两个数据点之间的欧式距离。在本发明实施例后续计算中涉及到数据点之间的欧式距离时,均采用该方法进行计算。
基于最小点数与邻域半径,利用DBSCAN算法对历史时间段对应的数据点进行聚类得到至少两个聚类簇。需要注意的是,聚类簇过程是依据数据点的时刻与温度数据即数据点的位置进行聚类,是对历史时间段内数据点在直角坐标系中对应的坐标点进行聚类得到初始聚类簇,初始聚类簇内坐标点对应的数据点构成聚类簇。
步骤S3:选取任意一个聚类簇作为分析簇,依据分析簇内数据点位置分布,获取分析簇的簇内离散度;结合分析簇与其余聚类簇的簇内离散度之间的差值,获取分析簇的综合满意度。
聚类簇内数据点的位置分布反映聚类簇内数据点的聚集情况,获取簇内离散度衡量聚类簇内数据点的聚集情况。
优选地,簇内离散度的获取方法为:将分析簇内数据点在直角坐标系中对应坐标点作为分析坐标点;获取分析坐标点的最小外接矩形;选取任意一个分析坐标点作为目标坐标点,将目标坐标点与除目标坐标点外的其余分析坐标点之间的欧式距离的均值作为目标坐标点的初始均距离;将所有分析坐标点的初始均距离的均值作为综合均距离;利用主成分分析算法对分析簇内数据点进行降维分析获取最大主成分向量与最小主成分向量,将最大主成分向量的模长作为第一模长,将最小主成分向量的模长作为第二模长;获取分析簇内的核心点;结合最小外接矩形的长度与宽度、综合均距离、第一模长、第二模长以及核心点的数量,获取分析簇的簇内离散度。其中,最小外接矩形获取方法与主成分分析均为公知技术,在此不再赘述。
需要说明的是,依据步骤S2中获取的最小点数与邻域距离获取分析簇内核心点,核心点的获取方法为本领域人员公知技术,在此不再赘述。
分析簇的簇内离散度的计算公式如下:
式中,U为分析簇的簇内离散度;L为分析簇内数据点对应的最小外接矩阵的长度;H为分析簇内数据点对应的最小外接矩阵的宽度;为综合均距离;HN为分析簇内核心点的总数量;/>为第一模长;/>为第二模长;G为分析簇的分析集合,分析集合由分析簇内所有数据点构成;/>为分析簇的分析集合内第m个数据点与除该数据点外的其余第k个数据点在直角坐标系中对应的分析坐标点之间的欧式距离;K为分析簇的分析集合内数据点的总数量;/>为分析簇的分析集合内第m个数据点对应的分析坐标点的初始均距离;c为预设正数,取经验值0.01,作用为防止HN等于0导致簇内离散度无意义;Avg为平均值函数;exp为以自然常数e为底数的指数函数。
本发明实施例中通过分析簇对应的最小外接矩形的长宽比衡量分析簇的形态特征即分析簇内数据点分布状况,/>;当/>越接近1时,使/>越小,分析簇内数据点对应的最小外接矩阵越接近正方形,说明分析簇内数据点分布越聚集且分析簇形态无明显延伸趋势,接近类圆形,则簇内离散度U越小;当/>越大时,使/>越大,分析簇形态出现明显延伸趋势,说明分析簇内数据点分布较为分散,则簇内离散度U越大。
当越大时,分析簇内第m个数据点与其余数据点之间的距离越远,说明分析簇内第m个数据点离散于其余数据点;若分析簇内所有数据点/>均越大,使得综合均距离/>越大,分析簇内数据点之间的距离越大,说明分析簇内数据点分布越离散,则簇内离散度U越大。
代表分析簇内核心点的数量在分析簇的整体数据范围上的占比情况,核心点代表分析簇内密集的数据点,/>与/>分别反映分析簇在形态上的最大与最小延伸程度,/>衡量分析簇整体的数据范围;当/>越大时,使得/>越小,分析簇内核心点在分析簇的整体数据范围中的占比越大,说明分析簇内数据点的聚集程度越高,则簇内离散度U越小。
数据点被聚为多个聚类簇,单纯通过簇内离散度衡量样本空间中聚类簇的聚类效果满意程度不够全面,为了更准确地衡量聚类的满意程度,结合聚类簇之间欧式距离来判断聚类簇之间的分布情况,获取分析簇的综合满意度。
优选地,综合满意度的获取方法为:获取分析簇与除分析簇外的其余每个聚类簇的形心之间的欧式距离,将最小的欧式距离对应的聚类簇作为分析簇的关联簇;利用聚类簇的簇内离散度的极差,对关联簇与分析簇的簇内离散度的差值进行归一化,得到分析簇的离散差值;根据分析簇与其关联簇的形心之间的欧式距离,以及离散差值,获取分析簇的综合满意度;分析簇与其关联簇的形心之间的欧式距离与离散差值均与综合满意度为正相关的关系。
需要说明的是,聚类簇的形心代表聚类簇的位置,分析簇的形心获取方法为:将分析簇内数据点对应的时刻的均值作为分析簇的形心的二元组的第一个元素,分析簇内数据点对应的温度数据的均值作为分析簇的形心的二元组的第二个元素,构成分析簇的形心的二元组。其余聚类簇的形心的二元组的获取方法与分析簇的形心的二元组获取方法相同。将两个聚类簇的形心的二元组之间的欧式距离作为两个聚类簇的形心之间的欧式距离。
分析簇的综合满意度的计算公式如下:
式中,Z为分析簇的综合满意度;为所有聚类簇的簇内离散度的最大值;为所有聚类簇的簇内离散度的最小值;U为分析簇的簇内离散度;/>为分析簇的关联簇的簇内离散度;/>为分析簇与其关联簇的形心之间的欧式距离;/>为聚类簇的簇内离散度的极差;/>为分析簇的离散差值;sigmoid为归一化函数。
分析簇的关联簇是与其距离最近的聚类簇,当越大时,说明分析簇与其他聚类簇的分布位置越离散,不会出现簇类粘连情况,分析簇的聚类效果越好,则综合满意度Z越大;由于簇内离散簇U越小,聚类簇内数据点越聚集,当/>且越大时,说明相较于分析簇的关联簇而言,分析簇内数据点越集中,分析簇的聚集效果越大,则综合满意度Z越大;当/>且越小时,说明相较于分析簇的关联簇,分析簇内数据点越离散,分析簇内数据点的聚集效果越差,则综合满意度Z越小。
步骤S4:获取分析聚类簇的相邻簇;结合分析簇与其相邻簇的综合满意度之间的差异,以及分析簇的相邻簇的综合满意度之间的差异,对分析簇的综合满意度进行调整,得到分析簇的最终满意度。
由于反应进行中伴随着不同的吸热与放热,导致局部反应温度可能存在异常,即可能存在某个时间段内某个聚类簇内数据点较为聚集,但其周围大多数聚类簇内数据点较为分散;或者出现与上述相反的情况。这种局部的综合满意度异常的情况会导致基于综合满意度分类进行压缩时产生异常,因此需要对上述局部异常的综合满意度进行调整,将其调整至于周围聚类簇的综合满意度相似的水平,从而实现一致压缩方式。
分析簇与其周围聚类簇的簇内离散度之间的差异呈现分析簇内数据点的温度数据的局部异常情况,进而反映聚类簇的局部异常簇。
分析簇的周围聚类簇为分析簇的相邻簇;优选地,分析簇的相邻簇的选取方法为:将分析簇的形心在直角坐标系中对应坐标点作为分析簇的形心坐标;选取除分析簇外的其余任意一个聚类簇作为判断簇,在直角坐标系中,将连接分析簇与判断簇的形心坐标形成的线段作为判断线段;选取除分析簇与判断簇外的其余任意一个聚类簇作为待定簇,获取待定簇内数据点在直角坐标系对应的坐标点的凸包作为待定凸包,若判断线段与待定凸包不存在交点,则判断线段上不存在待定簇;若判断线段上不存在除分析簇与判断簇外其余的聚类簇,则将判断簇作为分析簇的相邻簇。
需要说明的是,分析簇的形心坐标的横坐标等于分析簇的形心的二元组中第一个元素,纵坐标等于分析簇的形心的二元组中第二个元素。
(1)获取分析簇的局部异常度。
根据分析簇与其相邻簇的综合满意度之间的差异,以及分析簇的相邻簇的综合满意度之间的差异,获取分析簇的局部异常度。分析簇的局部异常度的计算公式如下:
式中,P为分析簇的局部异常度;Z为分析簇的综合满意度;为分析簇的第e个相邻簇的综合满意度;E为分析簇的相邻簇的总数量;/>为分析簇的第r个相邻簇的综合满意度;/>为分析簇的第s个相邻簇的综合满意度;c为预设正数,取经验值0.01,作用为防止为0导致局部异常度无意义;/>为绝对值函数。
当越大时,说明分析簇与其周围聚类簇的聚类效果之间差异越大,分析簇内数据点的温度数据为局部反应温度异常的可能性越大,则局部异常度P越大;当越小时,说明分析簇的相邻簇中几乎不存在与分析簇的聚类效果相似的聚类簇,则局部异常度P越大,当/>越大时,说明分析簇的相邻簇中可能存在分布聚类簇与分析簇的聚类效果相似,则局部异常度P越小。因此,需要将与/>综合考虑,在分析簇与其相邻簇的聚类效果之间差异即/>越大的情况下,分析簇与其相邻簇的聚类效果差异较大,分析簇的局部的异常程度的分析更加准确。
(2)获取分析簇的最终满意度。
当局部异常度大于或者等于预设异常阈值时,说明分析簇内数据点的温度数据为局部反应温度异常的可能性越大,将分析簇的相邻簇的综合满意度的均值作为分析簇的最终满意度,以实现将分析簇的综合满意度调整至于周围聚类簇的综合满意度相似的水平;当局部异常度小于预设异常阈值时,说明分析簇内数据点的温度数据为反应温度正常数据,分析簇的综合满意度不用调整。将分析簇的综合满意度作为分析簇的最终满意度。
本发明实施例中预设异常阈值取经验值0.9,实施者可根据具体情况自行设置。
获取每个聚类簇的最终满意度。需要说明的是,每个聚类簇的最终满意度的获取方法与分析簇的最终满意度的获取方法相同。
步骤S5:基于最终满意度选取对聚类簇内数据点的温度数据进行存储的方式。
最终满意度越大说明聚类簇内数据点的聚类效果越好;将大于或者等于预设满意阈值的最终满意度对应的聚类簇作为集中型簇,小于预设满意阈值的最终满意度对应的聚类簇作为一般型簇。本发明实施例中预设满意阈值取经验值0.85,实施者可根据具体情况自行设置。
由于集中型簇内数据点不仅对应时刻较为接近且对应的温度数据较为相似,为减少重复数据并节约存储空间,将每个集中型簇内数据点的温度数据的均值作为每个集中型簇内每个数据点的修正温度数据,利用游程编码对每个集中型簇内数据点的修正温度数据进行有损压缩存储,后续通过压缩后数据值的大小与个数进行解压缩。由于一般型簇内数据点较为离散,则一般型簇内数据点对应的温度数据无分布规律,对每个一般型簇内数据点的温度数据进行无压缩存储。其中,游程编码压缩与解压缩,无压缩存储均为本领域技术人员公知技术,在此不再赘述。
本申请利用游程编码对集中型簇内数据点的温度数据进行压缩存储,对一般型簇内数据点的温度数据进行直接存储,最终达到减少冗余存储空间,提高压缩存储效率的目的。
至此,本发明完成。
综上所述,本发明实施例中,根据数据点的数量与位置分布获取的最小点数与邻域半径,基于两个参数利用DBSCAN算法对数据点进行聚类得到聚类簇;获取聚类簇的簇内离散度,进而得到聚类簇的综合满意度;结合聚类簇与其相邻簇的综合满意度之间的差异,以及聚类簇的相邻簇的综合满意度之间的差异,对聚类簇的综合满意度进行调整得到聚类簇的最终满意度;基于最终满意度对聚类簇内数据点的温度数据进行压缩存储。本发明获取聚类簇的最终满意度,并基于其对聚类簇内数据点的温度数据进行压缩存储,以减少冗余存储空间,提高压缩效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (4)
1.一种对马来酸二乙酯生产数据智能管理方法,其特征在于,该方法包括:
获取蒸馏塔中不同传感器在历史时间段内每个时刻下温度数据的数据点;
根据历史时间段对应的数据点的数量与位置分布获取最小点数与邻域半径;基于所述最小点数与所述邻域半径,利用DBSCAN算法对数据点进行聚类得到聚类簇;
选取任意一个聚类簇作为分析簇,依据分析簇内数据点位置分布,获取分析簇的簇内离散度;结合分析簇与其余聚类簇的所述簇内离散度之间的差值,获取分析簇的综合满意度;
获取分析聚类簇的相邻簇;结合分析簇与其相邻簇的所述综合满意度之间的差异,以及分析簇的相邻簇的所述综合满意度之间的差异,对分析簇的综合满意度进行调整,得到分析簇的最终满意度;
基于所述最终满意度对聚类簇内数据点的温度数据进行压缩存储;
所述获取最小点数与邻域半径的方法,包括:
以时间为横轴、温度数据为纵轴建立直角坐标系;将所有数据点在所述直角坐标系进行标注得到每个数据点的坐标点;获取所有坐标点的凸包;
将坐标点的总数量与所述凸包的面积的比值向上取整,得到最小点数;
选取任意一个数据点作为分析数据点,获取分析数据点与除分析数据点外的其余每个数据点之间的欧式距离,将所述欧式距离从小到大顺序排列得到距离序列,将距离序列中第最小点数个欧式距离作为分析数据点的初始邻域距半径;
将所有数据点的所述初始邻域半径的均值作为邻域半径;
所述依据分析簇内数据点位置分布,获取分析簇的簇内离散度的方法,包括:
将分析簇内数据点在所述直角坐标系中对应坐标点作为分析坐标点;获取分析坐标点的最小外接矩形;
选取任意一个分析坐标点作为目标坐标点,将目标坐标点与除目标坐标点外的其余分析坐标点之间的欧式距离的均值作为目标坐标点的初始均距离;将所有分析坐标点的所述初始均距离的均值作为综合均距离;
对分析簇内数据点进行降维分析,获取最大主成分向量与最小主成分向量,将所述最大主成分向量的模长作为第一模长,将最小主成分向量的模长作为第二模长;
获取分析簇内的核心点;结合所述最小外接矩形的长度与宽度、所述综合均距离、所述第一模长、所述第二模长以及所述核心点的数量,获取分析簇的簇内离散度;
所述获取分析簇的综合满意度的方法,包括:
获取所述分析簇与除分析簇外的其余每个聚类簇的形心之间的欧式距离,将最小的所述欧式距离对应的聚类簇作为分析簇的关联簇;
利用聚类簇的所述簇内离散度的极差,对所述关联簇与分析簇的所述簇内离散度的差值进行归一化,得到分析簇的离散差值;
根据分析簇与其关联簇的形心之间的欧式距离,以及所述离散差值,获取分析簇的综合满意度;分析簇与其关联簇的形心之间的欧式距离与所述离散差值均与所述综合满意度为正相关的关系;
所述获取分析簇的相邻簇的方法,包括:
将分析簇的形心在所述直角坐标系中对应坐标点作为分析簇的形心坐标;
选取除分析簇外的其余任意一个聚类簇作为判断簇,在所述直角坐标系中,将连接分析簇与判断簇的所述形心坐标形成的线段作为判断线段;
选取除分析簇与判断簇外的其余任意一个聚类簇作为待定簇,获取待定簇内数据点在所述直角坐标系对应的坐标点的凸包作为待定凸包,若所述判断线段与所述待定凸包不存在交点,则判断线段上不存在待定簇;
若所述判断线段上不存在除分析簇与判断簇外其余的聚类簇,则将判断簇作为分析簇的相邻簇;
所述分析簇的最终满意度的获取方法,包括:
根据分析簇与其相邻簇的所述综合满意度之间的差异,以及分析簇的所述相邻簇的综合满意度之间的差异,获取分析簇的局部异常度;
当所述局部异常度大于或者等于预设异常阈值时,将分析簇的相邻簇的所述综合满意度的均值作为分析簇的最终满意度;当所述局部异常度小于预设异常阈值时,将分析簇的综合满意度作为分析簇的最终满意度;
所述基于所述最终满意度对聚类簇内数据点的温度数据进行压缩存储的方法,包括:
将大于或者等于预设满意阈值的最终满意度对应的聚类簇作为集中型簇,小于预设满意阈值的最终满意度对应的聚类簇作为一般型簇;
将每个集中型簇内数据点的温度数据的均值作为每个集中型簇内每个数据点的修正温度数据,利用游程编码对每个一般型簇内数据点的修正温度数据进行压缩;对每个一般型簇内数据点的温度数据进行无压缩存储。
2.根据权利要求1所述的一种对马来酸二乙酯生产数据智能管理方法,其特征在于,所述分析簇的簇内离散度的计算公式如下:
;式中,U为分析簇的簇内离散度;L为分析簇内数据点对应的最小外接矩阵的长度;H为分析簇内数据点对应的最小外接矩阵的宽度;/>为所述综合均距离;HN为分析簇内核心点的总数量;/>为所述第一模长;/>为所述第二模长;c为预设正数;exp为以自然常数e为底数的指数函数。
3.根据权利要求1所述的一种对马来酸二乙酯生产数据智能管理方法,其特征在于,所述分析簇的局部异常度的计算公式如下:
;式中,P为分析簇的局部异常度;Z为分析簇的综合满意度;/>为分析簇的第e个相邻簇的综合满意度;E为分析簇的相邻簇的总数量;/>为分析簇的第r个相邻簇的综合满意度;/>为分析簇的第s个相邻簇的综合满意度;c为预设正数;/>为绝对值函数。
4.根据权利要求1所述的一种对马来酸二乙酯生产数据智能管理方法,其特征在于,所述对分析簇内数据点进行降维分析的算法为主成分分析算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147597.6A CN117688410B (zh) | 2024-02-02 | 2024-02-02 | 一种对马来酸二乙酯生产数据智能管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410147597.6A CN117688410B (zh) | 2024-02-02 | 2024-02-02 | 一种对马来酸二乙酯生产数据智能管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688410A CN117688410A (zh) | 2024-03-12 |
CN117688410B true CN117688410B (zh) | 2024-05-24 |
Family
ID=90128571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410147597.6A Active CN117688410B (zh) | 2024-02-02 | 2024-02-02 | 一种对马来酸二乙酯生产数据智能管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688410B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933571B (zh) * | 2024-03-20 | 2024-05-31 | 临沂恒泰新能源有限公司 | 一种垃圾发电数据综合管理系统及存储方法 |
CN117912712B (zh) * | 2024-03-20 | 2024-05-28 | 徕兄健康科技(威海)有限责任公司 | 基于大数据的甲状腺疾病数据智能管理方法及系统 |
CN118094449B (zh) * | 2024-04-26 | 2024-06-25 | 山东瑞福锂业有限公司 | 基于工业互联网的生产智能监控方法、系统及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780451A (zh) * | 2021-09-16 | 2021-12-10 | 中南大学 | 时空大数据的时态数据内蕴模式聚类分析方法 |
CN115578476A (zh) * | 2022-11-21 | 2023-01-06 | 山东省标筑建筑规划设计有限公司 | 一种用于城乡规划数据的高效存储方法 |
CN116484307A (zh) * | 2023-06-21 | 2023-07-25 | 深圳市魔样科技有限公司 | 基于云计算智能戒指远程控制方法 |
CN116610731A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市行云数据技术有限公司 | 一种大数据分布式存储方法、装置、电子设备及存储介质 |
CN117112514A (zh) * | 2023-10-23 | 2023-11-24 | 山东同利新材料有限公司 | 基于对氯甲基苯乙烯生产数据的记录存储方法 |
CN117459418A (zh) * | 2023-12-25 | 2024-01-26 | 天津神州海创科技有限公司 | 一种实时数据采集存储方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112150587A (zh) * | 2019-06-11 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 动画数据编码、解码方法、装置、存储介质和计算机设备 |
-
2024
- 2024-02-02 CN CN202410147597.6A patent/CN117688410B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780451A (zh) * | 2021-09-16 | 2021-12-10 | 中南大学 | 时空大数据的时态数据内蕴模式聚类分析方法 |
CN115578476A (zh) * | 2022-11-21 | 2023-01-06 | 山东省标筑建筑规划设计有限公司 | 一种用于城乡规划数据的高效存储方法 |
CN116484307A (zh) * | 2023-06-21 | 2023-07-25 | 深圳市魔样科技有限公司 | 基于云计算智能戒指远程控制方法 |
CN116610731A (zh) * | 2023-07-20 | 2023-08-18 | 深圳市行云数据技术有限公司 | 一种大数据分布式存储方法、装置、电子设备及存储介质 |
CN117112514A (zh) * | 2023-10-23 | 2023-11-24 | 山东同利新材料有限公司 | 基于对氯甲基苯乙烯生产数据的记录存储方法 |
CN117459418A (zh) * | 2023-12-25 | 2024-01-26 | 天津神州海创科技有限公司 | 一种实时数据采集存储方法及系统 |
Non-Patent Citations (2)
Title |
---|
Cluster-Based Quality-Aware Adaptive Data Compression for Streaming Data;Aseel Basheer et al;《Journal of Data and Information Quality》;20170921;第9卷(第1期);1-33 * |
基于深度学习的无线传感器网络数据压缩算法研究;皮小明等;《科技、经济、市场》;20211231(第10期期);37-40 * |
Also Published As
Publication number | Publication date |
---|---|
CN117688410A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117688410B (zh) | 一种对马来酸二乙酯生产数据智能管理方法 | |
CN112527788A (zh) | 变压器监测数据异常值检测与清洗的方法及装置 | |
CN106446004B (zh) | 数字病理全切片图像检索方法 | |
CN107153670B (zh) | 基于多幅图像融合的视频检索方法及系统 | |
CN116011894B (zh) | 一种铝合金棒生产数据管理系统 | |
Huneiti et al. | Content-based image retrieval using SOM and DWT | |
CN115510302B (zh) | 基于大数据统计的智能工厂数据分类方法 | |
CN112905583A (zh) | 一种高维大数据离群点检测方法 | |
CN115940959B (zh) | 一种低功耗的电能数据采集管理系统 | |
CN111797707A (zh) | 一种基于聚类的镜头关键帧提取方法 | |
CN111428764B (zh) | 一种用于图像类别识别的图像聚类方法 | |
CN115983721A (zh) | 一种基于物联网大数据的电缆生产质量数据管理系统 | |
CN113541834A (zh) | 一种异常信号半监督分类方法、系统、数据处理终端 | |
CN116934706A (zh) | 基于多域对抗视觉Transformer的工业图像缺陷智能检测系统 | |
CN116032294A (zh) | 一种用于大气监测数据的智能处理方法 | |
CN111027841A (zh) | 一种基于梯度提升决策树的低压台区线损计算方法 | |
CN112770116B (zh) | 用视频压缩编码信息提取视频关键帧的方法 | |
CN113743457B (zh) | 基于量子Grover搜索技术的量子密度峰值聚类方法 | |
CN114139639A (zh) | 一种基于自步邻域保持嵌入的故障分类方法 | |
CN111311431B (zh) | 一种基于分段斜率的负荷曲线形态聚类方法 | |
CN116974258A (zh) | 基于多维数据的生产过程监测方法 | |
CN116484275A (zh) | 基于自适应时空图卷积神经网络的铝电解阳极效应监测方法 | |
CN115982608A (zh) | 一种基于线损动态分析的线损异常判断方法 | |
Wong et al. | A compact and efficient color descriptor for image retrieval | |
CN109885028B (zh) | 基于相关熵诱导度量的电熔氧化镁熔炼过程故障检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |