CN117278054A - 一种智慧电网监控数据存储方法及系统 - Google Patents

一种智慧电网监控数据存储方法及系统 Download PDF

Info

Publication number
CN117278054A
CN117278054A CN202311555869.8A CN202311555869A CN117278054A CN 117278054 A CN117278054 A CN 117278054A CN 202311555869 A CN202311555869 A CN 202311555869A CN 117278054 A CN117278054 A CN 117278054A
Authority
CN
China
Prior art keywords
frequency
character
dictionary
data
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311555869.8A
Other languages
English (en)
Other versions
CN117278054B (zh
Inventor
鹿艳利
丁剑锋
张忠奎
孙琳珂
阮羚
程浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Central China Technology Development Of Electric Power Co ltd
Original Assignee
Hubei Central China Technology Development Of Electric Power Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Central China Technology Development Of Electric Power Co ltd filed Critical Hubei Central China Technology Development Of Electric Power Co ltd
Priority to CN202311555869.8A priority Critical patent/CN117278054B/zh
Publication of CN117278054A publication Critical patent/CN117278054A/zh
Application granted granted Critical
Publication of CN117278054B publication Critical patent/CN117278054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3084Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
    • H03M7/3088Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种智慧电网监控数据存储方法及系统,包括:获取智慧电网监控字符数据,根据智慧电网监控字符数据得到初始字典,根据初始字典得到编码数据和待压缩数据以及字符串频次序列,得到字符串频率序列,根据字符串频率序列得到扩充字典,根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子得到初始字典中字符串的重要程度序列,得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储。本发明通过对LZ78算法的字符串匹配检索策略进行改进,将重要程度较高的字符串作为检索数据保留,减小字符串的检索范围,达到提高压缩速度的效果。

Description

一种智慧电网监控数据存储方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种智慧电网监控数据存储方法及系统。
背景技术
随着电力系统的数字化和智能化程度的提高,电网监控设备不断增加,产生的数据量呈指数级增长,如何高效地存储、管理和分析这些数据成为了一个重要的挑战,传统的智慧电网监控数据采用LZ78算法进行压缩以实现优化存储,LZ78算法通过动态生成字典的方式对数据进行压缩,可实现较高压缩率的无损压缩,可以对智慧电网监控数据有着较好的压缩效果;然而现有的LZ78算法对数据压缩过程中出现的字符串进行全局检索,对每个字符串都要从全部历史数据中进行最大长度匹配,对智慧电网监控数据中大规模的数据量进行压缩时,会产生极高的检索成本,造成压缩时间的浪费。
发明内容
为解决上述问题,本发明提供一种智慧电网监控数据存储方法及系统。
本发明的一种智慧电网监控数据存储方法及系统采用如下技术方案:
本发明一个实施例提供了一种智慧电网监控数据存储方法,该方法包括以下步骤:
获取智慧电网监控字符数据;
预设第一系数,将预设第一系数与智慧电网监控字符数据中包含的字符种类总个数的乘积作为预设字典容量,根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列;
根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典;
根据字符串频率序列得到初始字典中字符串的平均频率,根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引;
根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列;
根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储。
进一步地,所述根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列,包括的具体步骤如下:
利用LZ78算法对智慧电网监控字符数据进行初步压缩,当LZ78算法的字典中包含的字符串第一次达到预设字典容量时停止,将第一次达到预设字典容量时的LZ78算法的字典记为初始字典,将初始字典已完成压缩的智慧电网监控字符数据记为编码数据,将智慧电网监控字符数据中除编码数据以外的数据记为待压缩数据;
获取初始字典中所有字符串在构建初始字典时出现的频次,得到字符串频次序列。
进一步地,所述根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典,包括的具体步骤如下:
式中,为字符串频次序列中第i个字符串的出现频次,/>为字符串频次序列中包含的字符串总个数,/>为字符串频次序列中第i个字符串的频率;
将初始字典中字符串的数量,记为,将/>与/>相乘并向上取整得到乘积结果,记为高频率字符串数量,/>为预设比例阈值;
获取字符串频次序列中所有字符串的频率,将字符串频次序列中所有字符串的出现频率按照从大到小的顺序排列,得到字符串频率序列,将高频率字符串数量记为QW,获取字符串频率序列中前QW个字符串,记为高频字符串序列,获取高频字符串序列中所有字符串的频率和,记为高频字符串频率和;
将高频字符串频率和记为,将/>与/>进行比较,若/>时,对待压缩数据的压缩过程中出现的新字符串,将初始字典进行扩充,具体扩充如下:将初始字典的预设字典容量加一得到扩充字典,/>为预设频率阈值。
进一步地,所述根据字符串频率序列得到初始字典中字符串的平均频率,包括的具体步骤如下:
式中,为字符串频率序列中字符串的总个数,/>为初始字典中字符串的平均频率。
进一步地,所述根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,包括的具体步骤如下:
式中,为字符串频率序列中第i个字符串的频率,/>为初始字典中字符串的平均频率,/>为自然常数为底的指数函数,/>为字符串频率序列中第i个字符串的频率指数。
进一步地,所述根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引,包括的具体步骤如下:
对于初始字典中第个字符串,获取编码数据中最后出现第/>个字符串在智慧电网监控字符数据中的位置索引,记为第一索引,将待压缩数据中第一个字符在智慧电网监控字符数据中的位置索引,记为第二索引。
进一步地,所述根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,包括的具体步骤如下:
式中,为第一索引,/>为第二索引,/>为预设第二系数,/>为反正切函数,/>为初始字典中第/>个字符串的最近使用频率因子。
进一步地,所述根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列,包括的具体步骤如下:
式中,为初始字典中第/>个字符串的最近使用频率因子,/>为字符串频率序列中第i个字符串的频率指数,/>为初始字典中第/>个字符串的重要程度;
遍历获取初始字典中所有字符串的重要程度,得到初始字典中字符串的重要程度序列。
进一步地,所述根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储,包括的具体步骤如下:
根据初始字典中字符串的重要程度序列对初始字典内字符串进行排序,所述排序按照重要程度从大到小进行排序,得到优先级排序表,初始字典更新时将优先级排序表中重要程度最低的字符串从初始字典中换出,将利用LZ78算法对待压缩数据进行编码时新出现的字符串换入到初始字典中,得到更新后的字典;
时利用扩充字典对智慧电网监控字符数据进行编码,当/>时利用更新后的字典对智慧电网监控字符数据进行编码,直至将智慧电网监控字符数据全部编码完成,得到最终编码数据,将最终编码数据进行存储,/>为高频字符串频率和,/>为预设频率阈值。
本发明还提出了一种智慧电网监控数据存储系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现前述所述方法的步骤。
本发明的技术方案的有益效果是:本发明针对LZ78算法对于字符检索需要对历史全局进行检索导致时间过长问题本发明根据字符串的历史使用频率和最近使用位置计算字符串重要程度,根据重要程度对字典中字符串进行换入换出操作达到不损失压缩率的条件下加快压缩速度的有益效果;
本方明通过对LZ78算法的字符串匹配检索策略进行改进,当待压缩的历史数据量较大时,根据字典中任意一类字符串的使用频率和最后出现位置计算字符串的重要程度,将字典中重要程度较低的字符串换出,将重要程度较高的字符串作为检索数据保留,减小字符串的检索范围,达到提高压缩速度的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种智慧电网监控数据存储方法及系统的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种智慧电网监控数据存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种智慧电网监控数据存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种智慧电网监控数据存储方法的步骤流程图,该方法包括以下步骤:
步骤S001、采集智慧电网监控数据,预处理得到智慧电网监控字符数据。
需要说明的是,智慧电网监控数据主要是指智慧电网运行过程中的电力负荷、电网状态、电网安全、用户用电等数据,以便电网管理者了解电力需求、设备故障等智慧电网系统中的实时事件,本实施例是一种智慧电网监控数据存储方法,在进行存储之前,首先需要采集数据并进行一定的预处理。
具体的,通过电流传感器、电压传感器、电力检测仪以及数据通信系统采集智慧电网监控数据。
需要说明的是,智慧电网监控数据包括但不限于:电网中的实时负荷、峰值负荷、输电线路运行状态、电网的电压、频率、电流等参数以及用户用电量、用电峰谷等数据。采集这些数据可以帮助电网管理者实现对电网运行情况的实时监控、故障预警和优化调度,以提高电网的安全性、可靠性和效率。
需要说明的是,为了能够更方便地对智慧电网监控数据进行分析,降低智慧电网监控数据的存储成本,需要对智慧电网监控数据进行预处理,智慧电网监控数据包含多种数据类型,为了实现对数据的统一压缩,需要将数据编码成统一的数据格式。
具体的,利用Unicode编码将智慧电网监控数据进行编码,得到智慧电网监控数据的编码数据,记为智慧电网监控字符数据。需要说明的是,智慧电网监控字符数据中包含若干字符。
至此,得到智慧电网监控字符数据。
步骤S002、预设第一系数,根据预设第一系数和智慧电网监控字符数据中包含的字符种类总个数,得到预设字典容量,根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列。
需要说明的是,为了使智慧电网监控字符数据在通过LZ78算法压缩过程中整体的检索时间更少,需要设置字典容量,以使数据整体平均检索时间不会过长,其中字典是LZ78算法中用来存储字符或字符串的;若智慧电网监控字符数据中包含的字符种类越多,其能够组成的字符串种类越多,需要的字典容量也越大,故设置字典容量与智慧电网监控字符数据中字符的种类数成正比。
具体的,预设第一系数,记为,本实例中以/>进行叙述,根据预设第一系数和智慧电网监控字符数据中包含的字符种类总个数,得到预设字典容量,具体如下:
式中,为预设第一系数,/>为智慧电网监控字符数据中包含的字符种类总个数,为预设字典容量。
需要说明的是,预设字典容量代表字典的初始化容量,当预设字典容量被填满后,得到一个字典,后续根据该字典进行LZ78算法压缩会导致较长的字符串检索时间,故初始的一部分字符可根据该字典进行压缩。
具体的,利用LZ78算法对智慧电网监控字符数据进行初步压缩,当LZ78算法的字典中包含的字符串第一次达到预设字典容量时停止,将第一次达到预设字典容量时的LZ78算法的字典记为初始字典,将初始字典已完成压缩的智慧电网监控字符数据记为编码数据,将智慧电网监控字符数据中除编码数据以外的数据记为待压缩数据。需要说明的是,利用LZ78算法对智慧电网监控字符数据进行初步压缩为LZ78算法的现有方法,本实施例不再赘述。
需要说明的是,后续字典中字符串重要程度的计算需要统计初始字典中字符串的出现频率,而每次计算都进行一次字符串频率统计会消耗较大的计算量,故应在数据压缩的过程中记录初始字典中字符串的出现频次,在计算字符串重要程度时可根据字符串的出现频次获取其使用频率。
具体的,获取初始字典中所有字符串在构建初始字典时出现的频次,得到字符串频次序列。需要说明的是,字符串频次序列中包含若干不同字符串的出现频次,且字符串频次序列中包含的字符串个数和初始字典中包含的字符串个数相同,字符串频次序列中字符串的顺序也和初始字典中包含的字符串顺序相同。
至此,得到字符串频次序列。
步骤S003、根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典。
需要说明的是,对智慧电网监控字符数据进行初步压缩的预设字典容量是根据智慧电网监控字符数据中包含的字符数量预设的一个经验值,而字典的大小对压缩的速度有着较大的影响,字典过小会导致在新字符串加入字典的过程中字典中字符串频繁地删除与更新,而字典过大会带来较长的检索时间消耗,故需要通过字典中字符串的频率分布情况判断字典的优选程度。
具体的,根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,具体如下:
式中,为字符串频次序列中第i个字符串的出现频次,/>为字符串频次序列中包含的字符串总个数,/>为字符串频次序列中第i个字符串的频率。
需要说明的是,当初始字典总大部分字符串的使用频率都较高时,应将大部分字符串保留在初始字典中,则此时初始字典容量较小,当新字符串出现时,需要将初始字典扩容一个位置并将新字符串加入到新扩充位中;而当初始字典中大部分字符串的使用频率都较低时,只有一小部分字符串需要保留在初始字典中,则此时字典容量较大,当新字符串出现时,可根据频率和字符串的使用情况将初始字典中重要程度最低的一个字符串从初始字典中删除,将新字符串填入,对于初始字典较大的情况,不对初始字典的容量进行更改。
具体的,预设比例阈值,记为,本实施例中以/>进行叙述,预设频率阈值,记为/>,本实施例中以/>进行叙述,将初始字典中字符串的数量,记为/>,将/>与/>相乘并向上取整得到乘积结果,记为高频率字符串数量。
具体的,获取字符串频次序列中所有字符串的频率,将字符串频次序列中所有字符串的出现频率按照从大到小的顺序排列,得到字符串频率序列,将高频率字符串数量记为QW,获取字符串频率序列中前QW个字符串,记为高频字符串序列,获取高频字符串序列中所有字符串的频率和,记为高频字符串频率和。
进一步地,将高频字符串频率和记为,将/>与/>进行比较,若/>时,对待压缩数据的压缩过程中出现的新字符串,将初始字典进行扩充,具体扩充如下:将初始字典的预设字典容量加一得到扩充字典,将新字符串置于扩充字典中最后一个位置,同时将新字符串加入到字符串频次序列,得到新字符串频次序列。需要说明的是,新字符串在新字符串频次序列中的出现频次为1。
需要说明的是,通过设置初始字典中高频字符的频率阈值的方式,使初始字典中高频率的一部分字符串在初始字典中占有一定的空间,又不会占用太多空间使初始字典内字符串进行频繁地换入换出,既保证了较好的压缩效果,又使初始字典不会有较大的计算量。
至此,得到扩充字典。
步骤S004、根据字符串频率序列得到初始字典中字符串的平均频率,根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引,根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列。
需要说明的是,若高频字符串频率和小于等于预设频率阈值/>,对于待压缩数据进行压缩过程中出现的新字符串,需要将新字符串与初始字典中已有的字符串进行交换。
进一步需要说明的是,具体交换应根据初始字典中字符串的重要程度获取与新字符串进行交换,初始字典中字符串的重要程度主要和初始字典中字符串的频率以及初始字典中字符串的最近使用位置有关,初始字典中字符串的使用频率越大,说明该字符串在编码数据中存在得较多,该字符串的重要程度越高,而由于初始字典中存在的字符串种类越多,字符串的整体频率就会越低,故将字符串频率与初始字典中字符串的平均频率做商,获取初始字典中字符串的频率指数。
具体的,根据字符串频率序列得到初始字典中字符串的平均频率,具体如下:
;
式中,为字符串频率序列中字符串的总个数,/>为初始字典中字符串的平均频率。
需要说明的是,此处表示根据初始字典大小获取的初始字典中字符串出现的平均频率,将初始字典中字符串的出现频率与字符串的平均频率比较,获取字符串的频率指数。
具体的,根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,具体如下:
;
式中,为字符串频率序列中第i个字符串的频率,/>为初始字典中字符串的平均频率,/>为自然常数为底的指数函数,/>为字符串频率序列中第i个字符串的频率指数。
需要说明的是,通过指数函数将字符串频率序列中字符串的出现频率与字典中字符串的平均频率之间的差异放大,使字符串频率序列中字符串的出现频率越大,该字符串的频率指数也越大。
需要说明的是,初始字典中字符串的最近出现位置越靠近待压缩数据,说明该字符串在最近使用的较多,该字符串的重要程度就越高,故对于初始字典中任意一个字符串,根据编码数据中该字符串上次出现位置与待压缩数据的中间相距的字符个数获取字符串的最近使用频率因子。
具体的,预设第二系数,记为,本实施例以/>进行叙述,对于初始字典中第/>个字符串,获取编码数据中最后出现第/>个字符串在智慧电网监控字符数据中的位置索引,记为第一索引。需要说明的是,智慧电网监控字符数据中包含若干字符,此处是第/>个字符串在智慧电网监控字符数据中的位置索引,将第/>个字符串中第一个字符在智慧电网监控字符数据中的位置索引作为第/>个字符串在智慧电网监控字符数据中的位置索引,位置索引即智慧电网监控字符数据中字符的顺序。
将待压缩数据中第一个字符在智慧电网监控字符数据中的位置索引,记为第二索引;根据第一索引和第二索引得到最近使用频率因子序列,具体如下:
;
式中,为第一索引,/>为第二索引,/>为预设第二系数,/>为反正切函数,/>为初始字典中第/>个字符串的最近使用频率因子。
需要说明的是,公式中选取的第二系数为经验值,基于反正切函数单调有界的特征,反正切函数在自变量达到/>之间时开始无限接近其极限值,而对于初始字典中字符串的最近使用频率因子,当其第一索引和第二索引之间的差值达到初始字典对应的长度时,认为该字符串的最近出现频率较低,故通过第二系数的经验值选取使字典中字符串对应的第一索引和第二索引之差达到初始字典对应的长度时反正切函数对应的函数值接近极限。
进一步需要说明的是,对于初始字典中的字符串,其重要程度主要受该字符串的使用频率影响,当字符串使用频率较高时,其重要程度也较高,但当字符串的使用频率较高而该字符串出现的位置距离待压缩数据较远时,说明该字符串曾经的使用频率较高,在接下来的数据中出现的次数更可能会降低。
传统的LZ78算法直接根据字符的频率作为重要程度,可能会导致历史出现频率高而在最近局部出现频率低的字符依然有很高的重要程度,会导致该类字符在其出现频率较低的局部过多的占用字典空间导致对局部其他出现频率高的字符的压缩效果较差,故通过字符串的最近使用频率因子对该字符串的频率指数进行加权,获取字符串的重要程度。
具体的,根据字符串频率序列中字符串的频率指数和初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列,具体如下:
;
式中,为初始字典中第/>个字符串的最近使用频率因子,/>为字符串频率序列中第i个字符串的频率指数,/>为初始字典中第/>个字符串的重要程度。
遍历获取初始字典中所有字符串的重要程度,得到初始字典中字符串的重要程度序列。
需要说明的是,智慧电网监控数据中数据均是时序上连续采集的,且大部分智慧电网监控数据为正常数据,根据数据的连续特性,数据内部的变化往往是比较缓慢的,故相似的数据之间存在着较强的聚集特性,根据数据中字符串的最近使用频率因子对频率指数进行加权获取字符串的重要程度,可以更加准确地判断字符串中存在的较重要字符串,进而对LZ78算法字典进行调整。
至此,得到初始字典中字符串的重要程度序列。
步骤S005、根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储。
需要说明的是,在对智慧电网监控字符数据进行压缩过程中出现新的字符串需要替换初始字典内字符串时,根据初始字典内字符串的重要程度获取初始字典中的换出字符串。
具体的,根据初始字典中字符串的重要程度序列对初始字典内字符串进行排序,所述排序按照重要程度从大到小进行排序,得到优先级排序表,初始字典更新时将优先级排序表中重要程度最低的字符串从初始字典中换出,将利用LZ78算法对待压缩数据进行编码时新出现的字符串换入到初始字典中,得到更新后的字典。需要说明的是,换入字符串和换出字符串在字典中的位置相同,且换入的字符串频次为1。
进一步地,根据更新后的字典和扩充字典对智慧电网监控字符数据进行编码,具体如下:
时利用扩充字典对智慧电网监控字符数据进行编码,当/>时利用更新后的字典对智慧电网监控字符数据进行编码,直至将智慧电网监控字符数据全部编码完成,得到最终编码数据,将最终编码数据进行存储。需要说明的是,根据更新后的字典或扩充字典对智慧电网监控字符数据进行编码为LZ78算法的现有方法,本实施例不再进行具体赘述,LZ78算法是一种动态编码,上述是以一个新字符串为例进行分析的。
通过以上步骤,完成一种智慧电网监控数据存储方法。
本发明的另一个实施例提供了一种智慧电网监控数据存储系统,所述系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序时,执行以下操作:
获取智慧电网监控字符数据;预设第一系数,将预设第一系数与智慧电网监控字符数据中包含的字符种类总个数的乘积作为预设字典容量,根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列;根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典;根据字符串频率序列得到初始字典中字符串的平均频率,根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引;根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列;根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种智慧电网监控数据存储方法,其特征在于,该方法包括以下步骤:
获取智慧电网监控字符数据;
预设第一系数,将预设第一系数与智慧电网监控字符数据中包含的字符种类总个数的乘积作为预设字典容量,根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列;
根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典;
根据字符串频率序列得到初始字典中字符串的平均频率,根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引;
根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列;
根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储。
2.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据预设字典容量得到初始字典,根据初始字典得到编码数据和待压缩数据,根据初始字典得到字符串频次序列,包括的具体步骤如下:
利用LZ78算法对智慧电网监控字符数据进行初步压缩,当LZ78算法的字典中包含的字符串第一次达到预设字典容量时停止,将第一次达到预设字典容量时的LZ78算法的字典记为初始字典,将初始字典已完成压缩的智慧电网监控字符数据记为编码数据,将智慧电网监控字符数据中除编码数据以外的数据记为待压缩数据;
获取初始字典中所有字符串在构建初始字典时出现的频次,得到字符串频次序列。
3.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据字符串频次序列中字符串的出现频次,得到字符串频次序列中字符串的频率,根据初始字典中字符串的数量得到高频率字符串数量,根据字符串频次序列中字符串的频率得到字符串频率序列,根据字符串频率序列和高频率字符串数量,得到高频字符串频率和,根据高频字符串频率和得到扩充字典,包括的具体步骤如下:
式中,为字符串频次序列中第i个字符串的出现频次,/>为字符串频次序列中包含的字符串总个数,/>为字符串频次序列中第i个字符串的频率;
将初始字典中字符串的数量,记为,将/>与/>相乘并向上取整得到乘积结果,记为高频率字符串数量,/>为预设比例阈值;
获取字符串频次序列中所有字符串的频率,将字符串频次序列中所有字符串的出现频率按照从大到小的顺序排列,得到字符串频率序列,将高频率字符串数量记为QW,获取字符串频率序列中前QW个字符串,记为高频字符串序列,获取高频字符串序列中所有字符串的频率和,记为高频字符串频率和;
将高频字符串频率和记为,将/>与/>进行比较,若/>时,对待压缩数据的压缩过程中出现的新字符串,将初始字典进行扩充,具体扩充如下:将初始字典的预设字典容量加一得到扩充字典,/>为预设频率阈值。
4.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据字符串频率序列得到初始字典中字符串的平均频率,包括的具体步骤如下:
式中,为字符串频率序列中字符串的总个数,/>为初始字典中字符串的平均频率。
5.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据字符串频率序列中字符串的频率、初始字典中字符串的平均频率得到字符串频率序列中字符串的频率指数,包括的具体步骤如下:
式中,为字符串频率序列中第i个字符串的频率,/>为初始字典中字符串的平均频率,为自然常数为底的指数函数,/>为字符串频率序列中第i个字符串的频率指数。
6.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据初始字典、编码数据以及智慧电网监控字符数据得到第一索引,根据待压缩数据、智慧电网监控字符数据得到第二索引,包括的具体步骤如下:
对于初始字典中第个字符串,获取编码数据中最后出现第/>个字符串在智慧电网监控字符数据中的位置索引,记为第一索引,将待压缩数据中第一个字符在智慧电网监控字符数据中的位置索引,记为第二索引。
7.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据第一索引和第二索引得到初始字典中字符串的最近使用频率因子,包括的具体步骤如下:
式中,为第一索引,/>为第二索引,/>为预设第二系数,/>为反正切函数,为初始字典中第/>个字符串的最近使用频率因子。
8.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据字符串频率序列中字符串的频率指数、初始字典中字符串的最近使用频率因子,得到初始字典中字符串的重要程度,根据初始字典中所有字符串的重要程度得到初始字典中字符串的重要程度序列,包括的具体步骤如下:
式中,为初始字典中第/>个字符串的最近使用频率因子,/>为字符串频率序列中第i个字符串的频率指数,/>为初始字典中第/>个字符串的重要程度;
遍历获取初始字典中所有字符串的重要程度,得到初始字典中字符串的重要程度序列。
9.根据权利要求1所述一种智慧电网监控数据存储方法,其特征在于,所述根据初始字典中字符串的重要程度序列得到更新后的字典,根据扩充字典和更新后的字典对智慧电网监控字符数据进行编码及存储,包括的具体步骤如下:
根据初始字典中字符串的重要程度序列对初始字典内字符串进行排序,所述排序按照重要程度从大到小进行排序,得到优先级排序表,初始字典更新时将优先级排序表中重要程度最低的字符串从初始字典中换出,将利用LZ78算法对待压缩数据进行编码时新出现的字符串换入到初始字典中,得到更新后的字典;
时利用扩充字典对智慧电网监控字符数据进行编码,当/>时利用更新后的字典对智慧电网监控字符数据进行编码,直至将智慧电网监控字符数据全部编码完成,得到最终编码数据,将最终编码数据进行存储,/>为高频字符串频率和,/>为预设频率阈值。
10.一种智慧电网监控数据存储系统,所述系统包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-9任一项所述方法的步骤。
CN202311555869.8A 2023-11-21 2023-11-21 一种智慧电网监控数据存储方法及系统 Active CN117278054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311555869.8A CN117278054B (zh) 2023-11-21 2023-11-21 一种智慧电网监控数据存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311555869.8A CN117278054B (zh) 2023-11-21 2023-11-21 一种智慧电网监控数据存储方法及系统

Publications (2)

Publication Number Publication Date
CN117278054A true CN117278054A (zh) 2023-12-22
CN117278054B CN117278054B (zh) 2024-02-02

Family

ID=89212821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311555869.8A Active CN117278054B (zh) 2023-11-21 2023-11-21 一种智慧电网监控数据存储方法及系统

Country Status (1)

Country Link
CN (1) CN117278054B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792403A (zh) * 2024-02-26 2024-03-29 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法
CN117874049A (zh) * 2024-03-08 2024-04-12 北京龙创悦动网络科技有限公司 一种手游数据更新方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991013395A1 (en) * 1990-02-26 1991-09-05 Fujitsu Limited Data compression and restoration method and device therefor
JPH0969784A (ja) * 1995-08-31 1997-03-11 Nec Corp データ圧縮制御方法
CN101222232A (zh) * 2006-12-28 2008-07-16 国际商业机器公司 创建用于数据压缩的存储器内部实体字典的方法和系统
US20100125594A1 (en) * 2008-11-14 2010-05-20 The Regents Of The University Of California Method and Apparatus for Improving Performance of Approximate String Queries Using Variable Length High-Quality Grams
JP2016134808A (ja) * 2015-01-20 2016-07-25 富士通株式会社 データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置
CN116894016A (zh) * 2023-06-15 2023-10-17 北京城建智控科技股份有限公司 轨道交通信号的日志压缩方法及装置
CN116975312A (zh) * 2023-09-22 2023-10-31 山东五棵松电气科技有限公司 一种智慧校园教育数据管理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991013395A1 (en) * 1990-02-26 1991-09-05 Fujitsu Limited Data compression and restoration method and device therefor
JPH0969784A (ja) * 1995-08-31 1997-03-11 Nec Corp データ圧縮制御方法
CN101222232A (zh) * 2006-12-28 2008-07-16 国际商业机器公司 创建用于数据压缩的存储器内部实体字典的方法和系统
US20100125594A1 (en) * 2008-11-14 2010-05-20 The Regents Of The University Of California Method and Apparatus for Improving Performance of Approximate String Queries Using Variable Length High-Quality Grams
JP2016134808A (ja) * 2015-01-20 2016-07-25 富士通株式会社 データ圧縮プログラム、データ復元プログラム、データ圧縮装置、及びデータ復元装置
CN116894016A (zh) * 2023-06-15 2023-10-17 北京城建智控科技股份有限公司 轨道交通信号的日志压缩方法及装置
CN116975312A (zh) * 2023-09-22 2023-10-31 山东五棵松电气科技有限公司 一种智慧校园教育数据管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KENJI HAMANO: "Data Compression Based on a Dictionary Method Using Recursive Construction of T-Codes", 《2010 DATA COMPRESSION CONFERENCE》, pages 1 - 4 *
王冠男: "云存储中一种改进的LZW数据压缩算法研究", 《科技通报》, pages 105 - 108 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792403A (zh) * 2024-02-26 2024-03-29 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法
CN117792403B (zh) * 2024-02-26 2024-05-07 成都农业科技职业学院 基于流式大数据技术的分布式农业数据存储管理方法
CN117874049A (zh) * 2024-03-08 2024-04-12 北京龙创悦动网络科技有限公司 一种手游数据更新方法及系统

Also Published As

Publication number Publication date
CN117278054B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN117278054B (zh) 一种智慧电网监控数据存储方法及系统
CN103516369B (zh) 一种自适应数据压缩和解压缩的方法和系统及存储装置
CN116153452B (zh) 基于人工智能的医疗电子病历存储系统
CN109428602A (zh) 一种数据编码方法、装置以及存储介质
EP2895968A2 (en) Optimal data representation and auxiliary structures for in-memory database query processing
CN104348490A (zh) 一种基于效果优选的组合数据压缩算法
CN109428603A (zh) 一种数据编码方法、装置以及存储介质
CN116153453B (zh) 基于云边协同的智能戒指信息管理方法及系统
CN116961675B (zh) 一种医疗护理数据智能处理方法
CN107590157B (zh) 一种数据存储方法、数据查询方法及相关设备
CN117155407B (zh) 一种智慧镜柜消毒日志数据优化存储方法
CN102110171A (zh) 基于树形结构的布鲁姆过滤器的查询与更新方法
CN116016606B (zh) 一种基于智慧云的污水处理运维数据高效管理系统
CN115858476B (zh) 用于web开发系统中自定义表单获取数据的高效存储方法
CN116681036A (zh) 基于数字孪生的工业数据存储方法
CN110766155A (zh) 一种基于混合精度存储的深度神经网络加速器
CN105938447A (zh) 数据备份装置及方法
CN117040542B (zh) 一种智能综合配电箱能耗数据处理方法
CN115543946A (zh) 一种金融大数据优化存储方法
CN116614139A (zh) 一种售酒小程序内用户交易信息压缩存储方法
CN108023597A (zh) 一种数控系统可靠性数据压缩方法
CN117097906B (zh) 一种区域医疗资源高效利用的方法及系统
CN112234996B (zh) 一种电力负荷数据的压缩方法、装置、设备和存储介质
CN116546111B (zh) 基于物联网技术的智能戒指健康管理方法和系统
CN115567609B (zh) 一种锅炉用物联网通信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant