CN117171399B

CN117171399B - 基于云平台的新能源数据优化存储方法

Info

Publication number: CN117171399B
Application number: CN202311444179.5A
Authority: CN
Inventors: 鲁宇; 时雨; 王南; 孙佳丽; 孟繁波; 杨柏涛; 宋磊; 孙勇; 张宪
Original assignee: Yuntu Data Technology Zhengzhou Co ltd
Current assignee: Yuntu Data Technology Zhengzhou Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-20
Anticipated expiration: 2043-11-02
Also published as: CN117171399A

Abstract

本发明涉及数据处理技术领域，具体涉及基于云平台的新能源数据优化存储方法，包括：根据新能源数据中每个字符出现的频率得到每个字符的索引分配位置，根据每个字符的索引分配位置得到每个索引分配位置的若干参考字符组合；根据每个索引分配位置的若干参考字符组合得到每个索引分配位置中每个第二字符种类的字符相关性；根据字符相关性得到每个索引分配位置中第二字符种类的字符优先级；根据字符优先级得到每个索引分配位置的目标字符种类；根据目标字符种类进行新能源数据的优化存储。本发明对状态表中不同字符的索引分配位置进行自适应调整，使数据利用调整后的状态表进行压缩后的压缩率更大。

Description

基于云平台的新能源数据优化存储方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于云平台的新能源数据优化存储方法。

背景技术

随着新能源的快速发展和广泛应用，专业人员需要将新能源数据存储以便用于后续分析处理；由于新能源数据的数据量庞大，所以需要对新能源数据进行压缩处理，有限状态熵编码作为传统的数据压缩技术之一，在根据各个字符出现的频率构建索引表时，对于相近的小数状态，会根据小数大小采用就近原则分配对应字符的索引，而这种分配方式使距离某索引分配位置更近的小数越优先分配该位置，无法使所有字符都尽可能均匀分布在索引表中。为此，本发明提出了基于云平台的新能源数据优化存储方法：通过对新能源数据中各个字符出现的频率以及其在数据中的分布位置进行分析，采用不同的索引分配方式，通过计算调整索引分配位置后对压缩率的影响自适应调整索引分配方式，使调整后的数据压缩率更高。

发明内容

本发明提供基于云平台的新能源数据优化存储方法，以解决现有的问题。

本发明的基于云平台的新能源数据优化存储方法采用如下技术方案：

本发明一个实施例提供了基于云平台的新能源数据优化存储方法，该方法包括以下步骤：

采集新能源数据；

根据新能源数据中每个字符出现的频率得到每个字符的索引分配位置，根据每个字符的索引分配位置得到每个索引分配位置的若干参考字符组合；

所述每个字符的索引分配位置的具体获取方法为：统计新能源数据中所有种类的字符出现的频率，将新能源数据中所有种类的字符出现的频率作为新能源数据中所有种类的字符出现的概率；根据所有种类的字符出现的概率构建索引表，根据索引表获取所有字符的索引分配位置；

根据每个索引分配位置的若干参考字符组合得到每个索引分配位置中每个第二字符种类的字符相关性；根据每个索引分配位置中每个第二字符种类的字符相关性得到每个索引分配位置中第二字符种类的字符优先级；根据每个索引分配位置中第二字符种类的字符优先级得到每个索引分配位置的目标字符种类；根据目标字符种类进行新能源数据的优化存储。

优选的，所述根据每个字符的索引分配位置得到每个索引分配位置的若干参考字符组合，包括的具体方法为：

对于任意一个字符的索引分配位置，预设字符范围T1，统计索引分配位置之前的前T1种字符，记为索引分配位置的第一字符种类，利用有限状态熵编码得到索引分配位置可能进行编码的若干字符种类，记为索引分配位置的第二字符种类；将第一字符种类与第二字符种类任意两两结合得到若干字符组合，记为索引分配位置的参考字符组合。

优选的，所述根据每个索引分配位置的若干参考字符组合得到每个索引分配位置中每个第二字符种类的字符相关性，包括的具体方法为：对于任意一个索引分配位置的任意一个第二字符种类，式中，R表示第二字符种类的字符相关性；N表示在索引分配位置上，包含该第二字符种类的参考字符组合数量；/>表示在索引分配位置上，包含该第二字符种类的第n个参考字符组合在新能源数据中出现的频率；/>表示超参数；/>表示超参数。

优选的，所述根据每个索引分配位置中每个第二字符种类的字符相关性得到每个索引分配位置中第二字符种类的字符优先级，包括的具体方法为：对于任意一个索引分配位置的任意一个第二字符种类，式中，A表示第二字符种类的字符优先级；D表示第二字符种类在新能源数据中出现的频率；R表示第二字符种类的字符相关性。

优选的，所述根据每个索引分配位置中第二字符种类的字符优先级得到每个索引分配位置的目标字符种类，包括的具体方法为：

对于任意一个索引分配位置为，在索引分配位置中，将字符优先级最大的第二字符种类记为索引分配位置的目标字符种类。

本发明的技术方案的有益效果是：通过对新能源数据中的各个字符的概率以及其在数据中的分布位置进行分析，采用不同的索引分配方式，通过计算调整索引分配位置前后对数据中压缩率的影响，来对状态表中不同字符的索引分配位置进行自适应调整，使数据利用调整后的状态表进行压缩后的压缩率更大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于云平台的新能源数据优化存储方法的步骤流程图；

图2为本发明的索引表示意图；

图3为本发明的状态表示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于云平台的新能源数据优化存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于云平台的新能源数据优化存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于云平台的新能源数据优化存储方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集新能源数据。

需要说明的是，有限状态熵编码作为传统的数据压缩技术之一，在根据各个字符的频率构建索引表时，对于相近的小数状态，会根据小数大小采用就近原则进行分配字符的索引，而这种分配方式使距离某索引分配位置更近的小数越优先分配该位置，无法使所有数据都均匀分布在索引表中。为此，本发明提出了基于云平台的新能源数据优化存储方法：通过对新能源数据中各个字符的频率以及其在数据中的分布位置进行分析，采用不同的索引分配方式，通过计算调整索引分配位置后对压缩率的影响自适应调整索引分配方式，使调整后的数据压缩率更高。

具体的，为了实现本实施例提出的基于云平台的新能源数据优化存储方法，首先需要采集新能源数据，本实施例并不针对某一新能源设备，以太阳能光伏板这一新能源设备为例进行叙述，具体过程为：使用温度传感器、压力传感器、湿度传感器传感器每1小时采集太阳能光伏板的温度、压力和湿度，作为新能源数据，共采集24小时；本实施例仅列举3种传感器进行说明，不对传感器数量与种类进行限定。

至此，通过上述方法得到新能源数据。

步骤S002：根据新能源数据中每个字符出现的频率得到每个字符的索引分配位置，根据索引分配位置得到每个索引分配位置的若干参考字符组合。

需要说明的是，传统的有限状态熵编码根据新能源数据中各种字符出现的频率构建索引表，请参阅图2，其示出了索引表示意图；请参阅图3，其示出了状态表示意图；通过计算各种字符每次出现的索引分配位置，使索引表中同种字符出现的索引分配位置间隔尽可能相等，然后得到状态表，从而在根据各种字符每次出现的索引分配位置进行编码时，对应的编码长度越短，进而达到较高的压缩率；但在构建索引表中各种索引分配位置时，会存在索引分配位置出现小数的情况，传统有限状态熵编码的处理方法为：根据对应编码次数的序数，选择与该序数数值最接近的索引分配位置所对应的字符进行编码，例如：对于字符串“ABCABB”，构建索引表时，字符“A”出现了两次，字符“A”的索引分配位置依次为3、6；字符“B”出现了三次，字符“B”的索引分配位置依次为2、4、6；字符“C”出现了一次，字符“C”的索引分配位置为6；根据索引表第一次进行编码时，此时编码次数的序数为1，其中字符“B”中第一个字符“B”的索引分配位置2是与数值1最接近的索引分配位置，则对字符串中第一次出现的字符“B”进行编码，以此类推，完成所有字符的编码。其中索引表中可能存在索引分配位置相同的情况，状态表中不存在索引分配位置相同的情况。

进一步需要说明的是，上述处理方法只根据索引分配位置间的差值绝对值大小去分配字符在状态表中索引分配位置的顺序，无法针对不同的数据的字符串进行合适的数据压缩；而在实际操作过程中，字符之间会存在一定的相关性，在新能源数据对应的字符串中，排列较后的字符对应的索引分配位置会在一定程度上受到排列较前字符对应的索引分配位置的影响；为此，可以根据索引分配位置的频率，分析索引分配位置的编码优先级，从而实现更高的压缩率。

具体的，统计新能源数据中所有种类的字符出现的频率，将新能源数据中所有种类的字符出现的频率作为新能源数据中所有种类的字符出现的概率；根据所有种类的字符出现的概率构建索引表，根据索引表获取所有字符的索引分配位置；其中构建索引表为有限状态熵编码的公知内容，本实施例不进行叙述。

进一步的，预设一个字符范围T1，其中本实施例以T1=10为例进行叙述，本实施例不进行具体限定，其中T1可根据具体实施情况而定；以任意一个字符的索引分配位置为例，统计该索引分配位置之前的前T1种字符，记为该索引分配位置的第一字符种类，其中若该索引分配位置之前的字符种类不满足T1种时，取实际存在的若干种字符；利用传统有限状态熵编码得到该索引分配位置可能进行编码的若干字符种类，记为该索引分配位置的第二字符种类；将第一字符种类与第二字符种类任意两两结合得到若干字符组合，记为该索引分配位置的参考字符组合；获取所有索引分配位置的若干参考字符组合。

例如，对于字符串“ABCABB”，构建索引表时，字符“A”出现了两次，字符“A”的索引分配位置依次为3、6；字符“B”出现了三次，字符“B”的索引分配位置依次为2、4、6；字符“C”出现了一次，字符“C”的索引分配位置为6，那么索引分配位置为6的第二字符种类存在三种，分别为字符“A”、字符“B”以及字符“C”；索引分配位置为4的第二字符种类存在一种，为字符“B”。

至此，通过上述方法得到所有索引分配位置的若干参考字符组合。

步骤S003：根据索引分配位置的若干参考字符组合得到每个索引分配位置中第二字符种类的字符相关性；根据字符相关性得到每个索引分配位置中第二字符种类的字符优先级；根据字符优先级得到目标字符种类；根据目标字符种类进行新能源数据的优化存储。

需要说明的是，在计算相关性时，需要考虑上下文对数据相关性的影响，在分配字符的索引序列中，若想要计算某个索引分配位置中的可能字符与该索引分配位置的局部相关性时，需要考虑到该索引分配位置的第二字符种类与该索引分配位置的第一字符种类所组成的字符组合的出现频率，若字符组合出现的频率越高，则说明该索引分配位置与该第二类字符的相关性越大，若字符组合出现的频率越低，则说明该索引分配位置与该第二类字符的相关性越小。

具体的，以任意一个索引分配位置的任意一个第二字符种类为例，根据该索引分配位置的若干参考字符组合得到在该索引分配位置上，该第二字符种类的字符相关性；其中该第二字符种类的字符相关性的计算方法为：式中，R表示该第二字符种类的字符相关性，反映第一字符种类与该第二字符种类的相关性；N表示在该索引分配位置上，包含该第二字符种类的参考字符组合数量；/>表示在该索引分配位置上，包含该第二字符种类的第n个参考字符组合在新能源数据中出现的频率；/>表示超参数，预设为0.5；/>表示超参数，预设为0.1。获取该索引分配位置时，所有第二字符种类的字符相关性；获取每个索引分配位置时，所有第二字符种类的字符相关性。

进一步的，以任意一个索引分配位置的任意一个第二字符种类为例，根据在该索引分配位置时，该第二字符种类的字符相关性得到在该索引分配位置上，该第二字符种类的字符优先级；其中该第二字符种类的字符优先级的计算方法为：式中，A表示该第二字符种类的字符优先级；D表示该第二字符种类在新能源数据中出现的频率；R表示该第二字符种类的字符相关性；(R+1)用于保证A不为0。获取该索引分配位置时，所有第二字符种类的字符优先级；获取每个索引分配位置时，所有第二字符种类的字符优先级。

进一步的，以任意一个索引分配位置为例，在该索引分配位置中，将字符优先级最大的第二字符种类记为该索引分配位置的目标字符种类；获取所有索引分配位置的目标字符种类，根据所有索引分配位置的目标字符种类构建状态表，利用有限状态熵编码进行数据压缩，实现新能源数据的优化存储，在使用新能源数据时根据对应的状态表进行解压。其中构建状态表为有限状态熵编码的公知内容，本实施例不进行叙述。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于云平台的新能源数据优化存储方法，其特征在于，该方法包括以下步骤：

采集新能源数据；

所述根据每个字符的索引分配位置得到每个索引分配位置的若干参考字符组合，包括的具体方法为：

对于任意一个字符的索引分配位置，预设字符范围T1，统计索引分配位置之前的前T1种字符，记为索引分配位置的第一字符种类，利用有限状态熵编码得到索引分配位置可能进行编码的若干字符种类，记为索引分配位置的第二字符种类；将第一字符种类与第二字符种类任意两两结合得到若干字符组合，记为索引分配位置的参考字符组合；

2.根据权利要求1所述基于云平台的新能源数据优化存储方法，其特征在于，所述根据每个索引分配位置的若干参考字符组合得到每个索引分配位置中每个第二字符种类的字符相关性，包括的具体方法为：对于任意一个索引分配位置的任意一个第二字符种类，式中，R表示第二字符种类的字符相关性；N表示在索引分配位置上，包含该第二字符种类的参考字符组合数量；/>表示在索引分配位置上，包含该第二字符种类的第n个参考字符组合在新能源数据中出现的频率；/>表示超参数；/>表示超参数。

3.根据权利要求1所述基于云平台的新能源数据优化存储方法，其特征在于，所述根据每个索引分配位置中每个第二字符种类的字符相关性得到每个索引分配位置中第二字符种类的字符优先级，包括的具体方法为：对于任意一个索引分配位置的任意一个第二字符种类，式中，A表示第二字符种类的字符优先级；D表示第二字符种类在新能源数据中出现的频率；R表示第二字符种类的字符相关性。

4.根据权利要求1所述基于云平台的新能源数据优化存储方法，其特征在于，所述根据每个索引分配位置中第二字符种类的字符优先级得到每个索引分配位置的目标字符种类，包括的具体方法为：