CN115204754B - 一种基于大数据的热力供需信息管理平台 - Google Patents

一种基于大数据的热力供需信息管理平台 Download PDF

Info

Publication number
CN115204754B
CN115204754B CN202211118065.7A CN202211118065A CN115204754B CN 115204754 B CN115204754 B CN 115204754B CN 202211118065 A CN202211118065 A CN 202211118065A CN 115204754 B CN115204754 B CN 115204754B
Authority
CN
China
Prior art keywords
segment
data
data segment
demand
power supply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211118065.7A
Other languages
English (en)
Other versions
CN115204754A (zh
Inventor
刘宾
李栓柱
袁绪彬
袁绪龙
贺庆壮
徐祥琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Ximanke Technology Co ltd
Original Assignee
Shandong Ximanke Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ximanke Technology Co ltd filed Critical Shandong Ximanke Technology Co ltd
Priority to CN202211118065.7A priority Critical patent/CN115204754B/zh
Publication of CN115204754A publication Critical patent/CN115204754A/zh
Application granted granted Critical
Publication of CN115204754B publication Critical patent/CN115204754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据压缩技术领域,具体涉及一种基于大数据的热力供需信息管理平台,该系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:根据获取的该热力供需数据序列,得到该热力供需数据序列对应的各子数据段;根据各子数据段,计算各子数据段的变换必要性指标;将变换必要性指标大于等于必要性阈值的各子数据段进行处理,得到各第一目标数据段;根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,得到各子数据段的压缩信息。本发明提高了压缩率。

Description

一种基于大数据的热力供需信息管理平台
技术领域
本发明涉及数据压缩技术领域,具体涉及一种基于大数据的热力供需信息管理平台。
背景技术
热力供应属于供热地区冬季生活的必需品,需求较强;近年来一些城市出台政策容许社会资本参与基础设施特许经营,进而城市基础设施建设进一步提速;随着城市建设步伐的加快,该行业存在巨大的市场潜力,尤其是在集中供热和热电联产等方面具有巨大的前景。
传统热力供需信息管理平台为了满足热力公司的需求,拥有多个管理模块,例如客户信息管理、报表管理、收费管理、巡检稽查管理等;热力供需信息管理平台中每时每刻监测到的数据都是海量的,因此如何提高对数据的压缩率,以增加平台数据的存储量是非常重要的。
发明内容
为了解决如何提高对数据的压缩率的问题,本发明的目的在于提供一种基于大数据的热力供需信息管理平台,所采用的技术方案具体如下:
本发明提供了一种基于大数据的热力供需信息管理平台,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取采集到的任一类型的热力供需数据序列;
根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段;
根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段;对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段;
根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;
利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。
优选的,所述根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,包括:
设置初始数据段长度为m;
对于热力供需数据序列对应的第一个子数据段:按照该热力供需数据序列中元素的排列顺序选取该热力供需数据序列中前m个元素;计算该热力供需数据序列中前m个元素的熵值,判断所述前m个元素的熵值是否小于预设熵值阈值,若小于,则将所述前m个元素记为第一个子数据段;若不小于,则选取该热力供需数据序列中前m+1个元素,计算该热力供需数据序列中前m+1个元素的熵值,判断前m+1个元素的熵值是否小于预设熵值阈值,若小于,则将该热力供需数据序列中前m+1个元素记为第一个子数据段;若不小于,则继续递增元素数量,直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中前m+n1个元素记为第一个子数据段;其中,n1为第一个子数据段递增的数据量;
将第一个子数据段中的元素数量记为G1;从该热力供需数据序列中第G1+1个元素开始,选取该热力供需数据序列中连续的m个元素;计算所述连续的m个元素的熵值,判断所述连续的m个元素的熵值是否小于预设熵值阈值,若小于,则将所述连续的m个元素记为第二个子数据段;若不小于,则依次类推直至得到该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值;将该热力供需数据序列中连续m+n2个元素记为第二个子数据段;其中,n2为第一个子数据段递增的数据量;依次类推,直至将该热力供需数据序列完全划分,得到该热力供需数据序列对应的各子数据段。
优选的,对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 956050DEST_PATH_IMAGE002
为该数据段的熵值,G为该数据段中元素的数量,K为该数据段中的数据类型的数量,
Figure 638835DEST_PATH_IMAGE003
为该数据段中第j个数据类型出现的概率。
优选的,所述根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标,包括:
对于任一子数据段对应的变换必要性指标的计算公式为:
Figure 810053DEST_PATH_IMAGE004
其中,D为该子数据段对应的变换必要性指标,
Figure DEST_PATH_IMAGE005
为该子数据段中第i个数据类型出现的概率,
Figure 781552DEST_PATH_IMAGE006
为该子数据段中各数据类型出现的概率的均值,n为该子数据段中的数据类型的数量,
Figure 634101DEST_PATH_IMAGE007
为该子数据段中第i个数据类型第o次连续出现的长度,
Figure 436972DEST_PATH_IMAGE008
为该子数据段中第i个数据类型连续出现的次数,
Figure 513512DEST_PATH_IMAGE009
为该子数据段中第i个数据类型出现的次数。
优选的,对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段,包括:
利用BWT算法对各第一数据段进行变换处理,得到变换后的各第一目标数据段。
优选的,所述根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,包括:
对于任一目标数据段:
将该目标数据段的中点作为分隔点;根据该目标数据段的分隔点将该目标数据段分为等长的两段,将第一段记为不动段,将第二段记为滑动段;将滑动段与不动段的首部对齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第一个循环;
将该目标数据段的分隔点向前移动1个数据距离,此时不动段中的元素个数为
Figure 300203DEST_PATH_IMAGE010
,滑动段中的元素个数为
Figure 487602DEST_PATH_IMAGE011
,其中,B为该目标数据段中元素的总数量;将滑动段与不动段的首部对齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第二个循环;以此类推,直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环;
根据每一次循环获取到的最长重复数据段,选择每次循环对应的最长重复数据段中长度最大的最长重复数据段作为该目标数据段对应的最长重复数据段。
优选的,所述根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小,包括:
对于任一目标数据段:
Figure 410558DEST_PATH_IMAGE012
其中,C为该目标数据段对应的最优滑窗大小,
Figure 985896DEST_PATH_IMAGE013
为该目标数据段对应的最大重复数据段的长度,
Figure 994304DEST_PATH_IMAGE014
为该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度。
本发明具有如下有益效果:
本发明首先根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,然后根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;本发明将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,然后对各第一数据段进行变换处理,得到各第一目标数据段,所述经过变换后的各第一目标数据段中同一数据类型的元素更加集中,以提高后续对数据压缩时的压缩率;本发明将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段,所述第二目标数据段不需要进行变换处理;接着,根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,进而计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;最后利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。本发明通过对数据段进行变换,使数据段中的相同的元素尽可能的集中分布,并自适应的设置对数据段进行压缩时所需要的滑动窗口的大小,提高了压缩率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明所提供的一种基于大数据的热力供需信息管理平台的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功能效果,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的热力供需信息管理平台进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于大数据的热力供需信息管理平台的具体方案。
一种基于大数据的热力供需信息管理平台实施例:
如图1所示,本实施例的一种基于大数据的热力供需信息管理平台,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
步骤S1,获取采集到的任一类型的热力供需数据序列。
热力供需信息管理平台中每时每刻监测到的数据都是海量的,因此为了能够使平台存储更多的数据,本实施例对每一次采集到的各类型的热力供需数据进行压缩处理,以尽可能的减少数据的存储大小。
由于不同用户的需求各有不同,因此会产生不同供热需求信息,且每次采集的热力供需信息都是零散的数据信息;例如,有些用户有增容需求,需要增加供热面积,此时会产生供热设施建设增容费和热费,同时热管网的相应数据也会产生变化;当新用户入网时,也存在相应的数据变化;用户暂停供热或费用到期未缴费时需要暂停热力供需;此时城市热力供需网每天都会产生大量的数据,本实施例对不同类型的热力供需数据进行分类采集,进而得到各种类型的热力供需数据。本实施例中所述类型为产生的热力供需数据的类型,具体根据实际需要来进行热力供需数据的类型分类。
由于每次采集获取的数据是一段时间内的数据,因此每次采集得到的是每个类型对应的热力供需数据序列,所述热力供需数据序列包括一段时间内同一类型的数据,且数据按照时间顺序排列。
接下来本实施例以采集到的任一类型的热力供需数据序列为例对数据压缩的过程进行分析。
步骤S2,根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段。
考虑到获取的热力供需数据序列中往往存在冗余,若以原本的热力供需数据序列进行存储会造成大量的存储空间的浪费。由于获取的热力供需数据序列往往是不规则的,即序列中并非为同一个数据连续重复出现多次,因此采用传统的游程编码对热力供需数据序列进行压缩的压缩效果较差,甚至还会发生数据膨胀;而热力供需数据序列中的数据量往往很大,因此采用传统的霍夫曼编码也很难对其进行较好的压缩处理。
为了保证增大压缩率的同时尽可能的保证压缩速率,本实施例在对数据进行压缩之前首先通过对获取到的热力供需数据序列进行预处理,使热力供需数据序列中的元素数量(即数据数量)与数据类型不变,而元素的分布位置发生变化,使得序列中的相同数据类型的元素尽可能的集中分布,以便于更好的压缩;进而采用LZ77压缩算法对热力供需数据序列进行压缩处理。本实施例中热力供需数据序列相当于一个字符串,序列中的一个元素相当于一个字符。
所述LZ77压缩算法为动态字典的压缩算法,通常选择指定大小的划窗,划窗包括搜索缓冲区(左)+待编码区(右);为了编码待编码区,编码器在滑动窗口的搜索缓冲区查找直到找到匹配的字符串。匹配字符串的开始字符串与待编码缓冲区的距离称为“偏移值”,匹配字符串的长度称为“匹配长度”。编码器在编码时,会一直在搜索区中搜索,直到找到最大匹配字符串,并输出(o,l),其中o是偏移值,l是匹配字符串长度。然后窗口滑动l,并继续开始编码;如果没有找到匹配字符串,则输出(0,0,c),c为待编码区下一个等待编码的字符,窗口滑动“1”。所述LZ77压缩算法为现有技术,在此就不再详细赘述。
考虑到,影响LZ77算法的压缩程度的原因主要取决于能匹配到的字符串的数量和字符串的长度,即匹配到的字符串的数量越多且短语的长度越长,则压缩程度越大;因此为了保证增大压缩率的同时尽可能的保证压缩速率,本实施例对数据进行分段,再利用LZ77压缩算法对多段数据进行同时编码压缩,以提高压缩速率。
本实施例首先对该热力供需数据序列进行分段处理。对于热力供需数据序列而言,序列中的数据存在冗余才会有压缩的空间;考虑到热力供需数据序列中的数据在一定范围内往往具有相似性,因此本实施例根据该热力供需数据序列中数据的分布情况(即数据段中元素的分布情况)对该热力供需数据序列进行分段,具体的:
为了防止局部最优的情况,本实施例设置初始数据段长度m(初始数据段长度需根据实际需要进行设置),即划分的段中至少包括m个数据。
首先按照该热力供需数据序列中元素的排列顺序,选取该热力供需数据序列中前m个元素;计算该热力供需数据序列中前m个元素的熵值,判断所述前m个元素的熵值是否小于预设熵值阈值,若小于,则将所述前m个元素记为第一个子数据段;若不小于,则选取该热力供需数据序列中前m+1个元素,计算该热力供需数据序列中前m+1个元素的熵值,判断前m+1个元素的熵值是否小于预设熵值阈值,若小于,则将该热力供需数据序列中前m+1个元素记为第一个子数据段;若不小于,则继续递增元素数量,直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中前m+n1个元素记为第一个子数据段。将第一个子数据段中的元素数量记为G1,其中n1=G1-m,即n1为第一个子数据段递增的数据量。
然后从该热力供需数据序列中第G1+1个元素开始,选取该热力供需数据序列中连续的m个元素,计算所述连续的m个元素的熵值,判断所述连续的m个元素的熵值是否小于预设熵值阈值,若小于,则将所述连续的m个元素记为第二个子数据段;若不小于,则根据上述过程依次类推,直至该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中连续m+n2个元素记为第二个子数据段。将第二个子数据段的元素数量记为G2,其中n2=G2-m,即n2为第二个子数据段递增的数据量。根据上述过程依次类推,直至将该热力供需数据序列完全划分,进而得到该热力供需数据序列中的各子数据段,即该热力供需数据序列对应的各子数据段。
上述过程通过计算熵值来对该热力供需数据序列进行分段,对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为:
Figure 985393DEST_PATH_IMAGE001
其中,
Figure 28436DEST_PATH_IMAGE002
为该数据段的熵值,G为该数据段中元素的数量,K为该数据段中的数据类型的数量(例如该数据段为1213412,则m=7,K=4,所述数据类型分别为1,2,3,4),
Figure 446779DEST_PATH_IMAGE003
为该数据段中第j个数据类型出现的概率。
本实施例中熵值反映的是数据段中各元素的关联度,熵值越大说明各元素的关联度越低,即数据段中的各元素的重复率越低;熵值越小说明各元素的关联度越高,即数据段中的各元素的重复率就越高,更便于压缩;为了更好的对数据进行压缩,本实施例设定熵值阈值,所述熵值阈值的取值需根据实际需要进行设置。
至此本实施例根据上述过程得到了该热力供需数据序列对应的多个子数据段,各子数据段共同构成了该热力供需数据序列。
步骤S3,根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段;对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段。
本实施例根据步骤S2得到了该热力供需数据序列对应的多个子数据段;对于各子数据段,各子数据段内的元素个数是不同的,且各子数据段内元素的分布与个数可能存在较大的差异;若子数据段中相同的字符越多,且字符分布的越杂乱(即相同数据类型分布比较杂乱),则该子数据段越需要进行变换,进而使子数据段中相同数据类型的元素集中在一起,以提高压缩效果;为了更好的对该热力供需数据序列进行压缩处理,本实施例分别计算各子数据段对应的变换必要性指标;对于任一子数据段对应的变换必要性指标的计算公式为:
Figure 880165DEST_PATH_IMAGE004
其中,D为该子数据段对应的变换必要性指标,
Figure 674946DEST_PATH_IMAGE005
为该子数据段中第i个数据类型出现的概率,
Figure 306915DEST_PATH_IMAGE006
为该子数据段中各数据类型出现的概率的均值,n为该子数据段中的数据类型的数量,
Figure 161739DEST_PATH_IMAGE007
为该子数据段中第i个数据类型第o次连续出现的长度,
Figure 133020DEST_PATH_IMAGE008
为该子数据段中第i个数据类型连续出现的次数,
Figure 793808DEST_PATH_IMAGE009
为该子数据段中第i个数据类型出现的次数。
根据上述公式,当
Figure 280284DEST_PATH_IMAGE015
越小时,说明该子数据段中各数据类型出现的概率越平均,则
Figure 571588DEST_PATH_IMAGE016
越小;当
Figure 776305DEST_PATH_IMAGE017
越大时,说明该子数据段中各数据类型分布的越集中,则
Figure 912888DEST_PATH_IMAGE016
越小;当
Figure 253871DEST_PATH_IMAGE016
越大时,说明该子数据段越需要进行变换;当
Figure 653759DEST_PATH_IMAGE016
越小时,说明该子数据段越不需要进行变换。
至此,本实施例根据上述过程得到了各子数据段对应的变换必要性指标。
本实施例将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段,所述预设必要性阈值的取值需根据实际需要进行设置,例如,根据经验值令
Figure 345772DEST_PATH_IMAGE018
Figure 286046DEST_PATH_IMAGE019
为必要性阈值。
本实施例中第一数据段为需要进行变换的子数据段,接下来,本实施例对各第一数据段进行变换,得到变换后的各第一数据段,记为第一目标数据段;本实施例通过对各第一数据段中的元素做位置上的变换,使得各第一数据段中重复的数据尽可能的靠近在一起(即数据类型相同的元素尽可能的靠近在一起),进而使后续数据压缩的效果更好,压缩率更大,具体的:
本实施例利用BWT算法对各第一数据段进行变换处理,得到变换后的各第一目标数据段;对于任一第一数据段:在该第一数据段末尾加入标识字符,将该第一数据段中的元素从前到后依次移动到该第一数据段的最后,直至标识字符移动到该第一数据段的首部位置为止,进而得到每次变换时的数据段,记为位置数据段;然后根据各位置数据段中各元素的ASCII码(本实施例中热力供需数据序列中一个元素为一个字符)将各位置数据段进行从小到大的排序,按照排列顺序获取各位置数据段的最后一个元素,根据排序后各位置数据段的最后一个元素,构建该第一数据段变换后的第一数据段,即第一目标数据段。利用BWT算法也可以将第一目标数据段恢复为原先的第一数据段;本实施例中BWT算法为现有技术,在此就不再赘述。
至此,本实施例根据上述过程可以得到对各第一数据段进行变换处理后的各第一目标数据段。
步骤S4,根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段。
本实施例根据步骤S3对各第一数据段进行变换得到了各第一目标数据段,进而得到各目标数据段,所述各目标数据段包括各第一目标数据段和各第二目标数据段,一个子数据段对应一个目标数据段。
接下来,本实施例根据各目标数据段中的各元素,来自适应的设置利用LZ77压缩算法对每个目标数据段进行数据压缩时所需要的对应的滑窗的大小,具体的:
对于任一目标数据段:
首先获取该目标数据段中的最长重复数据段,所述最长重复数据段为该目标数据段中重复出现多次的最长的数据段,具体的:
考虑到在极端情况下目标数据段中最长重复数据段为目标数据段长度的一半(例如,目标数据段为ABCABC,则其中最长重复数据段为ABC,为目标数据段的一半);本实施例将该目标数据段的中点作为分隔点,根据该目标数据段的分隔点将该目标数据段分为等长的两段,将第一段记为不动段,将第二段记为滑动段,将滑动段与不动段的首部对齐进行匹配,将滑动段以步长为1的数据距离进行滑动,直至找到当前的最长重复数据段,此时完成第一个循环;然后将该目标数据段的分隔点向前移动1个数据距离(即向中点左边移动),此时不动段中的元素个数为
Figure 747114DEST_PATH_IMAGE010
,滑动段中的元素个数为
Figure 442538DEST_PATH_IMAGE011
,其中,B为该目标数据段中元素的总数量,此时重复上述操作利用滑动段进行滑动迭代,直至获取最长重复数据段停止,此时完成第二个循环;以此类推,直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环;至此得到了每一次循环时获取的最长重复数据段,选择每次循环对应的最长重复数据段中长度最大的最长重复数据段,作为该目标数据段对应的最长重复数据段。
LZ77压缩算法的滑窗包括搜索缓冲区(左)和待编码区(右);上述过程已获取了该目标数据段对应的最大重复数据段的长度;然后获取该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度(即两个最大重复数据段之间最大间隔的元素数量);根据该目标数据段对应的最大重复数据段的长度和该目标数据段中相邻的两个最大重复数据段之间的最大间隔,计算该目标数据段对应的自适应滑窗大小,记为最优滑窗大小,即:
Figure 621846DEST_PATH_IMAGE020
其中,C为该目标数据段对应的最优滑窗大小,
Figure 834653DEST_PATH_IMAGE013
为该目标数据段对应的最大重复数据段的长度,
Figure 681386DEST_PATH_IMAGE014
为该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度。
本实施例通过自适应的计算该热力供需数据序列对应的各目标数据段对应的最优滑窗大小(即各子数据段对应的最优滑窗大小);通过得到的最优滑窗大小对对应的目标数据段进行压缩处理,以尽可能的增大对数据的压缩率。
步骤S5,利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。
本实施例基于各目标数据段对应的最优滑窗大小,将各目标数据段对应的最优滑窗大小作为LZ77压缩算法的滑窗大小对对应的目标数据段进行压缩处理,本实施例同时对各目标数据段进行编码压缩,可以大大提高压缩效率。至此本实施例对该热力供需数据序列压缩完成,可以得到该热力供需数据序列对应的各子数据段对应的压缩信息。
本实施例根据上述过程分别对采集到的不同类型的热力供需数据序列进行压缩,然后进行分类存储;本实施例通过对数据压缩率的提高,大大减少数据存储的空间,使得热力供需管理平台可以存储更多的数据,进而可以根据存储的大量信息对不同用户不同时间段的供热需求进行分析,以挖掘潜在客户;并且可以根据供需关系进行供热推荐,以提高经济效益。
本实施例首先根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,然后根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;本实施例将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,然后对各第一数据段进行变换处理,得到各第一目标数据段,所述经过变换后的各第一目标数据段中同一数据类型的元素更加集中,以提高后续对数据压缩时的压缩率;本实施例将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段,所述第二目标数据段不需要进行变换处理;接着,根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,进而计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;最后利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息。本实施例通过对数据段进行变换,使数据段中的相同的元素尽可能的集中分布,并自适应的设置对数据段进行压缩时所需要的滑动窗口的大小,提高了压缩率。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于大数据的热力供需信息管理平台,包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
获取采集到的任一类型的热力供需数据序列;
根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段;
根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标;将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段,将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段;对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段;
根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段;根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小;所述各目标数据段包括各第一目标数据段和各第二目标数据段;
利用各目标数据段对应的最优滑窗大小和LZ77压缩算法,对各目标数据段进行数据压缩,得到各子数据段的压缩信息;
所述根据各子数据段中的各元素,计算各子数据段对应的变换必要性指标,包括:
对于任一子数据段对应的变换必要性指标的计算公式为:
Figure DEST_PATH_IMAGE001
其中,D为该子数据段对应的变换必要性指标,
Figure 988108DEST_PATH_IMAGE002
为该子数据段中第i个数据类型出现的概率,
Figure 983746DEST_PATH_IMAGE003
为该子数据段中各数据类型出现的概率的均值,n为该子数据段中的数据类型的数量,
Figure 213477DEST_PATH_IMAGE004
为该子数据段中第i个数据类型第o次连续出现的长度,
Figure 3578DEST_PATH_IMAGE005
为该子数据段中第i个数据类型连续出现的次数,
Figure 85804DEST_PATH_IMAGE006
为该子数据段中第i个数据类型出现的次数;
对各第一数据段进行变换处理,得到变换后的各第一数据段,记为第一目标数据段,包括:
利用BWT算法对各第一数据段进行变换处理,得到变换后的各第一目标数据段。
2.根据权利要求1所述的一种基于大数据的热力供需信息管理平台,其特征在于,所述根据该热力供需数据序列中的各元素,对该热力供需数据序列进行分段,得到该热力供需数据序列对应的各子数据段,包括:
设置初始数据段长度为m;
对于热力供需数据序列对应的第一个子数据段:按照该热力供需数据序列中元素的排列顺序选取该热力供需数据序列中前m个元素;计算该热力供需数据序列中前m个元素的熵值,判断所述前m个元素的熵值是否小于预设熵值阈值,若小于,则将所述前m个元素记为第一个子数据段;若不小于,则选取该热力供需数据序列中前m+1个元素,计算该热力供需数据序列中前m+1个元素的熵值,判断前m+1个元素的熵值是否小于预设熵值阈值,若小于,则将该热力供需数据序列中前m+1个元素记为第一个子数据段;若不小于,则继续递增元素数量,直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值,则将该热力供需数据序列中前m+n1个元素记为第一个子数据段;其中,n1为第一个子数据段递增的数据量;
将第一个子数据段中的元素数量记为G1;从该热力供需数据序列中第G1+1个元素开始,选取该热力供需数据序列中连续的m个元素;计算所述连续的m个元素的熵值,判断所述连续的m个元素的熵值是否小于预设熵值阈值,若小于,则将所述连续的m个元素记为第二个子数据段;若不小于,则依次类推直至得到该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值;将该热力供需数据序列中连续m+n2个元素记为第二个子数据段;其中,n2为第一个子数据段递增的数据量;依次类推,直至将该热力供需数据序列完全划分,得到该热力供需数据序列对应的各子数据段。
3.根据权利要求2所述的一种基于大数据的热力供需信息管理平台,其特征在于,对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为:
Figure 619553DEST_PATH_IMAGE007
其中,
Figure 706720DEST_PATH_IMAGE008
为该数据段的熵值,G为该数据段中元素的数量,K为该数据段中的数据类型的数量,
Figure 198882DEST_PATH_IMAGE009
为该数据段中第j个数据类型出现的概率。
4.根据权利要求1所述的一种基于大数据的热力供需信息管理平台,其特征在于,所述根据各目标数据段中的各元素,获取各目标数据段对应的最长重复数据段,包括:
对于任一目标数据段:
将该目标数据段的中点作为分隔点;根据该目标数据段的分隔点将该目标数据段分为等长的两段,将第一段记为不动段,将第二段记为滑动段;将滑动段与不动段的首部对齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第一个循环;
将该目标数据段的分隔点向前移动1个数据距离,此时不动段中的元素个数为
Figure 502824DEST_PATH_IMAGE010
,滑动段中的元素个数为
Figure 574685DEST_PATH_IMAGE011
,其中,B为该目标数据段中元素的总数量;将滑动段与不动段的首部对齐,将滑动段以步长为1的数据距离进行滑动,直至找到最长重复数据段为止,完成第二个循环;以此类推,直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环;
根据每一次循环获取到的最长重复数据段,选择每次循环对应的最长重复数据段中长度最大的最长重复数据段作为该目标数据段对应的最长重复数据段。
5.根据权利要求1所述的一种基于大数据的热力供需信息管理平台,其特征在于,所述根据所述最长重复数据段的长度,计算各目标数据段对应的最优滑窗大小,包括:
对于任一目标数据段:
Figure 609086DEST_PATH_IMAGE012
其中,C为该目标数据段对应的最优滑窗大小,
Figure 740990DEST_PATH_IMAGE013
为该目标数据段对应的最大重复数据段的长度,
Figure 532229DEST_PATH_IMAGE014
为该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度。
CN202211118065.7A 2022-09-15 2022-09-15 一种基于大数据的热力供需信息管理平台 Active CN115204754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211118065.7A CN115204754B (zh) 2022-09-15 2022-09-15 一种基于大数据的热力供需信息管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211118065.7A CN115204754B (zh) 2022-09-15 2022-09-15 一种基于大数据的热力供需信息管理平台

Publications (2)

Publication Number Publication Date
CN115204754A CN115204754A (zh) 2022-10-18
CN115204754B true CN115204754B (zh) 2022-12-09

Family

ID=83572691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211118065.7A Active CN115204754B (zh) 2022-09-15 2022-09-15 一种基于大数据的热力供需信息管理平台

Country Status (1)

Country Link
CN (1) CN115204754B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115940959B (zh) * 2023-02-16 2023-06-23 国网山东省电力公司营销服务中心(计量中心) 一种低功耗的电能数据采集管理系统
CN115866287B (zh) * 2023-02-22 2023-05-05 深圳市网联天下科技有限公司 一种智慧校园管理平台的数据高效传输方法
CN116828070B (zh) * 2023-08-28 2023-11-07 无锡市锡容电力电器有限公司 一种智慧电网数据优化传输方法
CN116939047B (zh) * 2023-09-18 2023-11-24 吉林省车桥汽车零部件有限公司 一种用于数控机床系统的数据智能通信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006025798A1 (en) * 2004-08-30 2006-03-09 National University Of Singapore A method and system for monitoring of acoustic signals
CN112217521A (zh) * 2020-10-13 2021-01-12 杭州天谷信息科技有限公司 一种基于gzip的大文件分布式压缩方法
CN112332853A (zh) * 2020-11-02 2021-02-05 重庆邮电大学 一种基于电力系统的时序数据压缩与恢复方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102143039B (zh) * 2010-06-29 2013-11-06 华为技术有限公司 数据压缩中数据分段方法及设备
JP6135788B2 (ja) * 2016-03-22 2017-05-31 富士通株式会社 圧縮プログラム、圧縮方法、圧縮装置、伸張プログラム、伸張方法、伸張装置およびデータ転送システム
CN114117878B (zh) * 2021-11-29 2022-09-23 中国人民解放军国防科技大学 一种基于改进粒子群寻优的目标运动轨迹分段压缩方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006025798A1 (en) * 2004-08-30 2006-03-09 National University Of Singapore A method and system for monitoring of acoustic signals
CN112217521A (zh) * 2020-10-13 2021-01-12 杭州天谷信息科技有限公司 一种基于gzip的大文件分布式压缩方法
CN112332853A (zh) * 2020-11-02 2021-02-05 重庆邮电大学 一种基于电力系统的时序数据压缩与恢复方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
两种面向推荐系统的数据压缩方法;刘博等;《计算机工程与科学》;20161115(第11期);全文 *
基于分段匹配的脉冲压缩检测算法设计与实现;唐小明等;《电光与控制》;20171212(第03期);全文 *

Also Published As

Publication number Publication date
CN115204754A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN115204754B (zh) 一种基于大数据的热力供需信息管理平台
CN116192971B (zh) 智能云能源运维服务平台数据管理方法
CN116681036B (zh) 基于数字孪生的工业数据存储方法
CN109871362A (zh) 一种面向流式时序数据的数据压缩方法
CN115543946B (zh) 一种金融大数据优化存储方法
CN115269526B (zh) 一种半导体生产数据的处理方法及系统
CN115695564B (zh) 一种物联网数据的高效传输方法
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN117097810B (zh) 基于云计算的数据中心传输优化方法
CN116051156B (zh) 一种基于数字孪生的新能源动态电价数据管理系统
CN117376430B (zh) 基于dcs的工业数据快速传输方法及系统
CN116347517A (zh) 一种无线网络数据的快速传输方法
CN113258935A (zh) 一种联邦学习中基于模型权值分布的通信压缩方法
CN114239971A (zh) 基于Transformer注意力机制的日降水量预测方法
CN115882866A (zh) 一种基于数据差值特征的数据压缩方法
CN116318172A (zh) 一种设计仿真软件数据自适应压缩方法
CN115913247A (zh) 一种高频电力数据深度无损压缩方法及系统
CN117407681B (zh) 一种基于向量聚类的时序数据预测模型建立方法
CN117216022A (zh) 一种数字化工程咨询数据管理系统
US6055273A (en) Data encoding and decoding method and device of a multiple-valued information source
CN117040542B (zh) 一种智能综合配电箱能耗数据处理方法
CN116743182A (zh) 一种数据无损压缩方法
CN113612483A (zh) 一种工业实时数据无损编码压缩方法
CN115964347B (zh) 一种市场监管监测中心数据的智能存储方法
CN116961672A (zh) 基于Transformer编码器的无损数据压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant