CN115204754A

CN115204754A - 一种基于大数据的热力供需信息管理平台

Info

Publication number: CN115204754A
Application number: CN202211118065.7A
Authority: CN
Inventors: 刘宾; 李栓柱; 袁绪彬; 袁绪龙; 贺庆壮; 徐祥琦
Original assignee: Shandong Ximanke Technology Co ltd
Current assignee: Shandong Huali Electromechanical Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-10-18
Anticipated expiration: 2042-09-15
Also published as: CN115204754B

Abstract

本发明涉及数据压缩技术领域，具体涉及一种基于大数据的热力供需信息管理平台，该系统包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如下步骤：根据获取的该热力供需数据序列，得到该热力供需数据序列对应的各子数据段；根据各子数据段，计算各子数据段的变换必要性指标；将变换必要性指标大于等于必要性阈值的各子数据段进行处理，得到各第一目标数据段；根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段；根据所述最长重复数据段的长度，计算各目标数据段对应的最优滑窗大小；利用各目标数据段对应的最优滑窗大小和LZ77压缩算法，得到各子数据段的压缩信息。本发明提高了压缩率。

Description

一种基于大数据的热力供需信息管理平台

技术领域

本发明涉及数据压缩技术领域，具体涉及一种基于大数据的热力供需信息管理平台。

背景技术

热力供应属于供热地区冬季生活的必需品，需求较强；近年来一些城市出台政策容许社会资本参与基础设施特许经营，进而城市基础设施建设进一步提速；随着城市建设步伐的加快，该行业存在巨大的市场潜力，尤其是在集中供热和热电联产等方面具有巨大的前景。

传统热力供需信息管理平台为了满足热力公司的需求，拥有多个管理模块，例如客户信息管理、报表管理、收费管理、巡检稽查管理等；热力供需信息管理平台中每时每刻监测到的数据都是海量的，因此如何提高对数据的压缩率，以增加平台数据的存储量是非常重要的。

发明内容

为了解决如何提高对数据的压缩率的问题，本发明的目的在于提供一种基于大数据的热力供需信息管理平台，所采用的技术方案具体如下：

本发明提供了一种基于大数据的热力供需信息管理平台，包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如下步骤：

获取采集到的任一类型的热力供需数据序列；

根据该热力供需数据序列中的各元素，对该热力供需数据序列进行分段，得到该热力供需数据序列对应的各子数据段；

根据各子数据段中的各元素，计算各子数据段对应的变换必要性指标；将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段，将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段；对各第一数据段进行变换处理，得到变换后的各第一数据段，记为第一目标数据段；

根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段；根据所述最长重复数据段的长度，计算各目标数据段对应的最优滑窗大小；所述各目标数据段包括各第一目标数据段和各第二目标数据段；

利用各目标数据段对应的最优滑窗大小和LZ77压缩算法，对各目标数据段进行数据压缩，得到各子数据段的压缩信息。

优选的，所述根据该热力供需数据序列中的各元素，对该热力供需数据序列进行分段，得到该热力供需数据序列对应的各子数据段，包括：

设置初始数据段长度为m；

对于热力供需数据序列对应的第一个子数据段：按照该热力供需数据序列中元素的排列顺序选取该热力供需数据序列中前m个元素；计算该热力供需数据序列中前m个元素的熵值，判断所述前m个元素的熵值是否小于预设熵值阈值，若小于，则将所述前m个元素记为第一个子数据段；若不小于，则选取该热力供需数据序列中前m+1个元素，计算该热力供需数据序列中前m+1个元素的熵值，判断前m+1个元素的熵值是否小于预设熵值阈值，若小于，则将该热力供需数据序列中前m+1个元素记为第一个子数据段；若不小于，则继续递增元素数量，直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值，则将该热力供需数据序列中前m+n1个元素记为第一个子数据段；其中，n1为第一个子数据段递增的数据量；

将第一个子数据段中的元素数量记为G1；从该热力供需数据序列中第G1+1个元素开始，选取该热力供需数据序列中连续的m个元素；计算所述连续的m个元素的熵值，判断所述连续的m个元素的熵值是否小于预设熵值阈值，若小于，则将所述连续的m个元素记为第二个子数据段；若不小于，则依次类推直至得到该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值；将该热力供需数据序列中连续m+n2个元素记为第二个子数据段；其中，n2为第一个子数据段递增的数据量；依次类推，直至将该热力供需数据序列完全划分，得到该热力供需数据序列对应的各子数据段。

优选的，对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为：

其中，

为该数据段的熵值，G为该数据段中元素的数量，K为该数据段中的数据类型的数量，

为该数据段中第j个数据类型出现的概率。

优选的，所述根据各子数据段中的各元素，计算各子数据段对应的变换必要性指标，包括：

对于任一子数据段对应的变换必要性指标的计算公式为：

其中，D为该子数据段对应的变换必要性指标，

为该子数据段中第i个数据类型出现的概率，

为该子数据段中各数据类型出现的概率的均值，n为该子数据段中的数据类型的数量，

为该子数据段中第i个数据类型第o次连续出现的长度，

为该子数据段中第i个数据类型连续出现的次数，

为该子数据段中第i个数据类型出现的次数。

优选的，对各第一数据段进行变换处理，得到变换后的各第一数据段，记为第一目标数据段，包括：

利用BWT算法对各第一数据段进行变换处理，得到变换后的各第一目标数据段。

优选的，所述根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段，包括：

对于任一目标数据段：

将该目标数据段的中点作为分隔点；根据该目标数据段的分隔点将该目标数据段分为等长的两段，将第一段记为不动段，将第二段记为滑动段；将滑动段与不动段的首部对齐，将滑动段以步长为1的数据距离进行滑动，直至找到最长重复数据段为止，完成第一个循环；

将该目标数据段的分隔点向前移动1个数据距离，此时不动段中的元素个数为

，滑动段中的元素个数为

，其中，B为该目标数据段中元素的总数量；将滑动段与不动段的首部对齐，将滑动段以步长为1的数据距离进行滑动，直至找到最长重复数据段为止，完成第二个循环；以此类推，直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环；

根据每一次循环获取到的最长重复数据段，选择每次循环对应的最长重复数据段中长度最大的最长重复数据段作为该目标数据段对应的最长重复数据段。

优选的，所述根据所述最长重复数据段的长度，计算各目标数据段对应的最优滑窗大小，包括：

对于任一目标数据段：

其中，C为该目标数据段对应的最优滑窗大小，

为该目标数据段对应的最大重复数据段的长度，

为该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度。

本发明具有如下有益效果：

本发明首先根据该热力供需数据序列中的各元素，对该热力供需数据序列进行分段，得到该热力供需数据序列对应的各子数据段，然后根据各子数据段中的各元素，计算各子数据段对应的变换必要性指标；本发明将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段，然后对各第一数据段进行变换处理，得到各第一目标数据段，所述经过变换后的各第一目标数据段中同一数据类型的元素更加集中，以提高后续对数据压缩时的压缩率；本发明将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段，所述第二目标数据段不需要进行变换处理；接着，根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段，进而计算各目标数据段对应的最优滑窗大小；所述各目标数据段包括各第一目标数据段和各第二目标数据段；最后利用各目标数据段对应的最优滑窗大小和LZ77压缩算法，对各目标数据段进行数据压缩，得到各子数据段的压缩信息。本发明通过对数据段进行变换，使数据段中的相同的元素尽可能的集中分布，并自适应的设置对数据段进行压缩时所需要的滑动窗口的大小，提高了压缩率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明所提供的一种基于大数据的热力供需信息管理平台的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功能效果，以下结合附图及较佳实施例，对依据本发明提出的一种基于大数据的热力供需信息管理平台进行详细说明如下。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于大数据的热力供需信息管理平台的具体方案。

一种基于大数据的热力供需信息管理平台实施例：

如图1所示，本实施例的一种基于大数据的热力供需信息管理平台，包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如下步骤：

步骤S1，获取采集到的任一类型的热力供需数据序列。

热力供需信息管理平台中每时每刻监测到的数据都是海量的，因此为了能够使平台存储更多的数据，本实施例对每一次采集到的各类型的热力供需数据进行压缩处理，以尽可能的减少数据的存储大小。

由于不同用户的需求各有不同，因此会产生不同供热需求信息，且每次采集的热力供需信息都是零散的数据信息；例如，有些用户有增容需求，需要增加供热面积，此时会产生供热设施建设增容费和热费，同时热管网的相应数据也会产生变化；当新用户入网时，也存在相应的数据变化；用户暂停供热或费用到期未缴费时需要暂停热力供需；此时城市热力供需网每天都会产生大量的数据，本实施例对不同类型的热力供需数据进行分类采集，进而得到各种类型的热力供需数据。本实施例中所述类型为产生的热力供需数据的类型，具体根据实际需要来进行热力供需数据的类型分类。

由于每次采集获取的数据是一段时间内的数据，因此每次采集得到的是每个类型对应的热力供需数据序列，所述热力供需数据序列包括一段时间内同一类型的数据，且数据按照时间顺序排列。

接下来本实施例以采集到的任一类型的热力供需数据序列为例对数据压缩的过程进行分析。

步骤S2，根据该热力供需数据序列中的各元素，对该热力供需数据序列进行分段，得到该热力供需数据序列对应的各子数据段。

考虑到获取的热力供需数据序列中往往存在冗余，若以原本的热力供需数据序列进行存储会造成大量的存储空间的浪费。由于获取的热力供需数据序列往往是不规则的，即序列中并非为同一个数据连续重复出现多次，因此采用传统的游程编码对热力供需数据序列进行压缩的压缩效果较差，甚至还会发生数据膨胀；而热力供需数据序列中的数据量往往很大，因此采用传统的霍夫曼编码也很难对其进行较好的压缩处理。

为了保证增大压缩率的同时尽可能的保证压缩速率，本实施例在对数据进行压缩之前首先通过对获取到的热力供需数据序列进行预处理，使热力供需数据序列中的元素数量（即数据数量）与数据类型不变，而元素的分布位置发生变化，使得序列中的相同数据类型的元素尽可能的集中分布，以便于更好的压缩；进而采用LZ77压缩算法对热力供需数据序列进行压缩处理。本实施例中热力供需数据序列相当于一个字符串，序列中的一个元素相当于一个字符。

所述LZ77压缩算法为动态字典的压缩算法，通常选择指定大小的划窗，划窗包括搜索缓冲区（左）+待编码区（右）；为了编码待编码区，编码器在滑动窗口的搜索缓冲区查找直到找到匹配的字符串。匹配字符串的开始字符串与待编码缓冲区的距离称为“偏移值”，匹配字符串的长度称为“匹配长度”。编码器在编码时，会一直在搜索区中搜索，直到找到最大匹配字符串，并输出(o,l)，其中o是偏移值，l是匹配字符串长度。然后窗口滑动l，并继续开始编码；如果没有找到匹配字符串，则输出(0,0,c)，c为待编码区下一个等待编码的字符，窗口滑动“1”。所述LZ77压缩算法为现有技术，在此就不再详细赘述。

考虑到，影响LZ77算法的压缩程度的原因主要取决于能匹配到的字符串的数量和字符串的长度，即匹配到的字符串的数量越多且短语的长度越长，则压缩程度越大；因此为了保证增大压缩率的同时尽可能的保证压缩速率，本实施例对数据进行分段，再利用LZ77压缩算法对多段数据进行同时编码压缩，以提高压缩速率。

本实施例首先对该热力供需数据序列进行分段处理。对于热力供需数据序列而言，序列中的数据存在冗余才会有压缩的空间；考虑到热力供需数据序列中的数据在一定范围内往往具有相似性，因此本实施例根据该热力供需数据序列中数据的分布情况（即数据段中元素的分布情况）对该热力供需数据序列进行分段，具体的：

为了防止局部最优的情况，本实施例设置初始数据段长度m（初始数据段长度需根据实际需要进行设置），即划分的段中至少包括m个数据。

首先按照该热力供需数据序列中元素的排列顺序，选取该热力供需数据序列中前m个元素；计算该热力供需数据序列中前m个元素的熵值，判断所述前m个元素的熵值是否小于预设熵值阈值，若小于，则将所述前m个元素记为第一个子数据段；若不小于，则选取该热力供需数据序列中前m+1个元素，计算该热力供需数据序列中前m+1个元素的熵值，判断前m+1个元素的熵值是否小于预设熵值阈值，若小于，则将该热力供需数据序列中前m+1个元素记为第一个子数据段；若不小于，则继续递增元素数量，直至该热力供需数据序列中前m+n1个元素对应的熵值小于预设熵值阈值，则将该热力供需数据序列中前m+n1个元素记为第一个子数据段。将第一个子数据段中的元素数量记为G1，其中n1=G1-m，即n1为第一个子数据段递增的数据量。

然后从该热力供需数据序列中第G1+1个元素开始，选取该热力供需数据序列中连续的m个元素，计算所述连续的m个元素的熵值，判断所述连续的m个元素的熵值是否小于预设熵值阈值，若小于，则将所述连续的m个元素记为第二个子数据段；若不小于，则根据上述过程依次类推，直至该热力供需数据序列中连续的m+n2个元素对应的熵值小于预设熵值阈值，则将该热力供需数据序列中连续m+n2个元素记为第二个子数据段。将第二个子数据段的元素数量记为G2，其中n2=G2-m，即n2为第二个子数据段递增的数据量。根据上述过程依次类推，直至将该热力供需数据序列完全划分，进而得到该热力供需数据序列中的各子数据段，即该热力供需数据序列对应的各子数据段。

上述过程通过计算熵值来对该热力供需数据序列进行分段，对于分段过程中任意数量个元素构成的数据段的熵值的计算公式为：

其中，

为该数据段的熵值，G为该数据段中元素的数量，K为该数据段中的数据类型的数量（例如该数据段为1213412，则m=7，K=4，所述数据类型分别为1,2,3,4），

为该数据段中第j个数据类型出现的概率。

本实施例中熵值反映的是数据段中各元素的关联度，熵值越大说明各元素的关联度越低，即数据段中的各元素的重复率越低；熵值越小说明各元素的关联度越高，即数据段中的各元素的重复率就越高，更便于压缩；为了更好的对数据进行压缩，本实施例设定熵值阈值，所述熵值阈值的取值需根据实际需要进行设置。

至此本实施例根据上述过程得到了该热力供需数据序列对应的多个子数据段，各子数据段共同构成了该热力供需数据序列。

步骤S3，根据各子数据段中的各元素，计算各子数据段对应的变换必要性指标；将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段，将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段；对各第一数据段进行变换处理，得到变换后的各第一数据段，记为第一目标数据段。

本实施例根据步骤S2得到了该热力供需数据序列对应的多个子数据段；对于各子数据段，各子数据段内的元素个数是不同的，且各子数据段内元素的分布与个数可能存在较大的差异；若子数据段中相同的字符越多，且字符分布的越杂乱（即相同数据类型分布比较杂乱），则该子数据段越需要进行变换，进而使子数据段中相同数据类型的元素集中在一起，以提高压缩效果；为了更好的对该热力供需数据序列进行压缩处理，本实施例分别计算各子数据段对应的变换必要性指标；对于任一子数据段对应的变换必要性指标的计算公式为：

其中，D为该子数据段对应的变换必要性指标，

为该子数据段中第i个数据类型出现的概率，

为该子数据段中第i个数据类型第o次连续出现的长度，

为该子数据段中第i个数据类型连续出现的次数，

为该子数据段中第i个数据类型出现的次数。

根据上述公式，当

越小时，说明该子数据段中各数据类型出现的概率越平均，则

越小；当

越大时，说明该子数据段中各数据类型分布的越集中，则

越小；当

越大时，说明该子数据段越需要进行变换；当

越小时，说明该子数据段越不需要进行变换。

至此，本实施例根据上述过程得到了各子数据段对应的变换必要性指标。

本实施例将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段，将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段，所述预设必要性阈值的取值需根据实际需要进行设置，例如，根据经验值令

，

为必要性阈值。

本实施例中第一数据段为需要进行变换的子数据段，接下来，本实施例对各第一数据段进行变换，得到变换后的各第一数据段，记为第一目标数据段；本实施例通过对各第一数据段中的元素做位置上的变换，使得各第一数据段中重复的数据尽可能的靠近在一起（即数据类型相同的元素尽可能的靠近在一起），进而使后续数据压缩的效果更好，压缩率更大，具体的：

本实施例利用BWT算法对各第一数据段进行变换处理，得到变换后的各第一目标数据段；对于任一第一数据段：在该第一数据段末尾加入标识字符，将该第一数据段中的元素从前到后依次移动到该第一数据段的最后，直至标识字符移动到该第一数据段的首部位置为止，进而得到每次变换时的数据段，记为位置数据段；然后根据各位置数据段中各元素的ASCII码（本实施例中热力供需数据序列中一个元素为一个字符）将各位置数据段进行从小到大的排序，按照排列顺序获取各位置数据段的最后一个元素，根据排序后各位置数据段的最后一个元素，构建该第一数据段变换后的第一数据段，即第一目标数据段。利用BWT算法也可以将第一目标数据段恢复为原先的第一数据段；本实施例中BWT算法为现有技术，在此就不再赘述。

至此，本实施例根据上述过程可以得到对各第一数据段进行变换处理后的各第一目标数据段。

步骤S4，根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段；根据所述最长重复数据段的长度，计算各目标数据段对应的最优滑窗大小；所述各目标数据段包括各第一目标数据段和各第二目标数据段。

本实施例根据步骤S3对各第一数据段进行变换得到了各第一目标数据段，进而得到各目标数据段，所述各目标数据段包括各第一目标数据段和各第二目标数据段，一个子数据段对应一个目标数据段。

接下来，本实施例根据各目标数据段中的各元素，来自适应的设置利用LZ77压缩算法对每个目标数据段进行数据压缩时所需要的对应的滑窗的大小，具体的：

对于任一目标数据段：

首先获取该目标数据段中的最长重复数据段，所述最长重复数据段为该目标数据段中重复出现多次的最长的数据段，具体的：

考虑到在极端情况下目标数据段中最长重复数据段为目标数据段长度的一半（例如，目标数据段为ABCABC，则其中最长重复数据段为ABC，为目标数据段的一半）；本实施例将该目标数据段的中点作为分隔点，根据该目标数据段的分隔点将该目标数据段分为等长的两段，将第一段记为不动段，将第二段记为滑动段，将滑动段与不动段的首部对齐进行匹配，将滑动段以步长为1的数据距离进行滑动，直至找到当前的最长重复数据段，此时完成第一个循环；然后将该目标数据段的分隔点向前移动1个数据距离（即向中点左边移动），此时不动段中的元素个数为

，滑动段中的元素个数为

，其中，B为该目标数据段中元素的总数量，此时重复上述操作利用滑动段进行滑动迭代，直至获取最长重复数据段停止，此时完成第二个循环；以此类推，直到获取的最长重复数据段的长度等于不动段的长度时停止整个循环；至此得到了每一次循环时获取的最长重复数据段，选择每次循环对应的最长重复数据段中长度最大的最长重复数据段，作为该目标数据段对应的最长重复数据段。

LZ77压缩算法的滑窗包括搜索缓冲区（左）和待编码区（右）；上述过程已获取了该目标数据段对应的最大重复数据段的长度；然后获取该目标数据段中相邻的两个最大重复数据段之间的最大间隔长度（即两个最大重复数据段之间最大间隔的元素数量）；根据该目标数据段对应的最大重复数据段的长度和该目标数据段中相邻的两个最大重复数据段之间的最大间隔，计算该目标数据段对应的自适应滑窗大小，记为最优滑窗大小，即：

其中，C为该目标数据段对应的最优滑窗大小，

为该目标数据段对应的最大重复数据段的长度，

本实施例通过自适应的计算该热力供需数据序列对应的各目标数据段对应的最优滑窗大小（即各子数据段对应的最优滑窗大小）；通过得到的最优滑窗大小对对应的目标数据段进行压缩处理，以尽可能的增大对数据的压缩率。

步骤S5，利用各目标数据段对应的最优滑窗大小和LZ77压缩算法，对各目标数据段进行数据压缩，得到各子数据段的压缩信息。

本实施例基于各目标数据段对应的最优滑窗大小，将各目标数据段对应的最优滑窗大小作为LZ77压缩算法的滑窗大小对对应的目标数据段进行压缩处理，本实施例同时对各目标数据段进行编码压缩，可以大大提高压缩效率。至此本实施例对该热力供需数据序列压缩完成，可以得到该热力供需数据序列对应的各子数据段对应的压缩信息。

本实施例根据上述过程分别对采集到的不同类型的热力供需数据序列进行压缩，然后进行分类存储；本实施例通过对数据压缩率的提高，大大减少数据存储的空间，使得热力供需管理平台可以存储更多的数据，进而可以根据存储的大量信息对不同用户不同时间段的供热需求进行分析，以挖掘潜在客户；并且可以根据供需关系进行供热推荐，以提高经济效益。

本实施例首先根据该热力供需数据序列中的各元素，对该热力供需数据序列进行分段，得到该热力供需数据序列对应的各子数据段，然后根据各子数据段中的各元素，计算各子数据段对应的变换必要性指标；本实施例将变换必要性指标大于等于预设必要性阈值的各子数据段记为第一数据段，然后对各第一数据段进行变换处理，得到各第一目标数据段，所述经过变换后的各第一目标数据段中同一数据类型的元素更加集中，以提高后续对数据压缩时的压缩率；本实施例将变换必要性指标小于预设必要性阈值的各子数据段记为第二目标数据段，所述第二目标数据段不需要进行变换处理；接着，根据各目标数据段中的各元素，获取各目标数据段对应的最长重复数据段，进而计算各目标数据段对应的最优滑窗大小；所述各目标数据段包括各第一目标数据段和各第二目标数据段；最后利用各目标数据段对应的最优滑窗大小和LZ77压缩算法，对各目标数据段进行数据压缩，得到各子数据段的压缩信息。本实施例通过对数据段进行变换，使数据段中的相同的元素尽可能的集中分布，并自适应的设置对数据段进行压缩时所需要的滑动窗口的大小，提高了压缩率。

需要说明的是：以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。