CN113568959A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113568959A
CN113568959A CN202110902540.9A CN202110902540A CN113568959A CN 113568959 A CN113568959 A CN 113568959A CN 202110902540 A CN202110902540 A CN 202110902540A CN 113568959 A CN113568959 A CN 113568959A
Authority
CN
China
Prior art keywords
data
determining
value
compression
data sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110902540.9A
Other languages
English (en)
Inventor
陆明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202110902540.9A priority Critical patent/CN113568959A/zh
Publication of CN113568959A publication Critical patent/CN113568959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供了一种数据处理方法、装置、电子设备及计算机可读存储介质;方法包括:基于第一数据序列确定偏差;基于所述第一数据序列确定特征值;基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及大数据技术,尤其涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
相关技术中,为了有效地实现数据压缩,节省数据传输和持久化代价,可以对数据序列的不同区域采用不同的压缩方式;如对数据序列中的一部分数据执行有损压缩,对数据序列中的另一部分数据执行无损压缩或不压缩。因此,需要确定数据序列采用不同的压缩方式的压缩阈值边界。
通常采用人工经验标注的方式确定进行有损压缩的压缩阈值边界;但是,通过人工经验标注的方式对工作人员的数据处理技术和数据处理经验要求较高,数据处理技术不夯实或数据处理经验较少的工作人员确定的压缩边界阈值可能存在较大误差。对于一些数据序列的差异性较大的场景,也存在确定的压缩阈值边界不准确的问题。
发明内容
本申请实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质,能够提高确定压缩阈值边界的准确性。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据处理方法,包括:
基于第一数据序列确定偏差;
基于所述第一数据序列确定特征值;
基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;
对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;
其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。
在一些实施例中,所述基于所述第一数据序列确定特征值,包括:
确定所述第一数据序列中的数据最大值和数据最小值,
确定所述特征值包括所述数据最大值和所述数据最小值。
在一些实施例中,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
确定所述压缩阈值边界的最大值为所述第一数据序列中数据最大值与所述偏差之和;
确定所述压缩阈值边界的最小值为所述第一数据序列中数据最小值与所述偏差之差。
在一些实施例中,所述基于所述第一数据序列确定特征值,包括:
确定所述第一数据序列的平均值;
确定所述特征值为所述第一数据序列的平均值。
在一些实施例中,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
若所述特征值为所述第一数据序列的平均值,则确定所述压缩阈值边界的最大值为所述平均值与所述偏差的积与所述平均值的和;
确定所述压缩阈值边界的最小值为所述平均值与所述平均值与所述偏差的积的差。
在一些实施例中,所述基于所述第一数据序列确定特征值,包括:
基于所述第一数据序列确定预测数据序列;所述第一数据序列与历史数据有关;
确定所述特征值包括所述预测数据序列中的每个预测数据。
在一些实施例中,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
所述特征值包括所述预测数据序列中的每个预测数据,则确定所述压缩阈值边界的最大值为所述预测数据与所述偏差之积与所述预测数据的和;
确定所述压缩阈值边界的最小值为所述预测数据与所述预测数据与所述偏差之积的差。
在一些实施例中,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
所述特征值包括所述预测数据序列中的每个预测数据,则基于所述预测数据序列生成残差,将所述残差作为所述偏差;
确定所述压缩阈值边界的最大值为所述预测数据序列中的最大值减去所述预测数据序列中的最大值与所述残差的积;
确定所述压缩阈值边界的最小值为所述预测数据序列中的最小值减去所述预测数据序列中的最小值与所述残差的积。
第二方面,本申请实施例提供一种数据处理装置,包括:
第一确定模块,用于第一数据确定偏差和特征值;
第二确定模块,用于基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;
压缩模块,用于对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;
其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。
在一些实施例中,所述第一确定模块,用于确定所述第一数据序列中的数据最大值和数据最小值,确定所述特征值包括所述数据最大值和所述数据最小值。
在一些实施例中,所述第二确定模块,用于确定所述压缩阈值边界的最大值为所述第一数据序列中数据最大值与所述偏差之和;
确定所述压缩阈值边界的最小值为所述第一数据序列中数据最小值与所述偏差之差。
在一些实施例中,所述第一确定模块,用于确定所述第一数据序列的平均值;确定所述特征值为所述第一数据序列的平均值。
在一些实施例中,所述第二确定模块,用于若所述特征值为所述第一数据序列的平均值,则确定所述压缩阈值边界的最大值为所述平均值与所述偏差的积与所述平均值的和;
确定所述压缩阈值边界的最小值为所述平均值与所述平均值与所述偏差的积的差。
在一些实施例中,所述第一确定模块,用于基于所述第一数据序列确定预测数据序列;所述第一数据序列与历史数据有关;
确定所述特征值包括所述预测数据序列中的每个预测数据。
在一些实施例中,所述第二确定模块,用于在所述特征值包括所述预测数据序列中的每个预测数据时,确定所述压缩阈值边界的最大值为所述预测数据与所述偏差之积与所述预测数据的和;
确定所述压缩阈值边界的最小值为所述预测数据与所述预测数据与所述偏差之积的差。
在一些实施例中,所述第二确定模块,用于在所述特征值包括所述预测数据序列中的每个预测数据时,基于所述预测数据序列生成残差,将所述残差作为所述偏差;
确定所述压缩阈值边界的最大值为所述预测数据序列中的最大值减去所述预测数据序列中的最大值与所述残差的积;
确定所述压缩阈值边界的最小值为所述预测数据序列中的最小值减去所述预测数据序列中的最小值与所述残差的积。
第三方面,本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的数据处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的数据处理方法。
本申请实施例提供的数据处理方法,基于第一数据序列确定偏差和特征值;基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。如此,确定压缩阈值边界的过程由电子设备实现,无需人工标注压缩阈值边界,提高确定压缩阈值边界的准确性。
附图说明
图1是本申请实施例提供的数据处理方法的一种可选流程示意图;
图2是本申请实施例提供的数据处理方法的一种详细处理流程示意图;
图3是本申请实施例提供的数据处理系统的架构示意图;
图4是本申请实施例提供的终端设备的架构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中,所涉及的术语“多个”是指至少两个。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)有损压缩:通过某种编码方式将数据信息中存在的重复度、冗余度有效地降低,从而达到数据压缩的目的;通过有损压缩后的数据被还原后,不能与有损压缩前的数据完全一样,会产生一定的损耗。
2)无损压缩:通过某种编码方式将数据信息中存在的重复度、冗余度有效地降低,从而达到数据压缩的目的;通过无损压缩后的数据被还原后,与无损压缩前的数据完全一样,并不会产生损耗。
3)压缩阈值边界:用于对数据进行有损压缩的分界线,可以对该分界线内的数据执行有损压缩。
4)历史数据序列:在当前时刻之前的数据构成的集合。
参见图1,图1是本申请实施例提供的数据处理方法的一种可选流程示意图,将结合图1示出的步骤进行说明。
步骤S101,基于第一数据序列确定偏差。
在一些实施例中,偏差可以是预先设定的静态偏差,也可以是基于第一数据序列生成的动态偏差。
在一些实施例中,若第一数据序列为以服务器的温度为代表的业务场景产生的数据,则可以确定偏差为零。若第一数据序列为以服务器的CPU负载、或内存使用率、或数据库活动连接数等业务场景产生的数据,则可以预先设定偏差为一固定值。若第一数据序列具有特定属性,第一数据序列对应的业务场景足够稳定,或第一数据序列是具有周期性特点、且适用于时间序列分解算法(Seasonal Trend decomposition procedure based onLoess,STL)处理的数据,则可以基于第一数据序列计算偏差;在该场景下,偏差基于第一数据序列确定,若第一数据序列为历史数据,则偏差是动态变化的。
步骤S102,基于第一数据序列确定特征值。
在一些实施例中,特征值为用于确定压缩阈值边界的因子。
步骤S103,基于偏差和特征值确定压缩阈值边界。
在一些实施例中,压缩阈值边界用于确定对第二数据压缩的压缩策略。
步骤S104,对第二数据中位于压缩阈值边界之内的数据执行有损压缩。
在一些实施例中,第二数据为待压缩的数据。对第二数据中位于压缩阈值边界的最大值与压缩阈值边界的最小值之间的数据执行有损压缩;对第二数据中大于压缩阈值边界的最大值的数据、以及第二数据中小于压缩阈值边界的最小值的数据执行无损压缩或者不压缩。
在一些实施例中,可以基于有损压缩的步长对第二数据进行有损压缩;有损压缩的步长范围记录不同粒度的有损压缩合并规则。例如,CPU工作负载在0%--25%之间,有损压缩的步长范围为5%,每5%划分为一个区间。落在区间内的第二数据被归一化到临近的数值,如2.7%、3.1%、4.6%等被记录为5%,而14.1%、15.1%等则被记录为15%。而在25%到50%之间,有损压缩的步长范围为3%,每3%则被记录为一个区间。超过50%则不再进行有损压缩。
针对步骤S102,在不同的场景下,确定特征值的方式不同。
场景一,以服务器的温度为代表的业务场景,确定特征值为第一数据序列中的数据最大值和数据最小值。其中,第一数据序列与服务器的历史温度有关;作为示例,第一数据序列可以是在一个历史时间范围内,服务器的温度数据构成的数据集合。
场景二,针对以服务器的CPU负载、或内存使用率、或数据库活动连接数等业务场景,可以先确定所述第一数据序列的平均值,确定特征值为第一数据序列的平均值。
场景三,若第一数据序列对应的业务场景足够稳定,或者第一数据序列是具有周期性特点、且适用于STL处理的数据,可以先基于第一数据序列确定预测数据序列,再确定特征值包括预测数据序列中的每个预测数据。
在一些实施例中,可以将第一数据序列输入预先训练的神经网络模型,神经网络模型输出的数据构成预测数据序列。
其中,第一数据序列可以是与待处理的第二数据对应的历史数据。
针对步骤S103,对于上述场景一,特征值为第一数据序列中的数据最大值和数据最小值,则确定所述压缩阈值边界的最大值为所述第一数据序列中数据最大值与所述偏差之和;确定所述压缩阈值边界的最小值为所述第一数据序列中数据最小值与第一偏差之差。
对于上述场景二,可以使用孤立森林(Isolation Forest,iForest)对第一数据序列分析,得到第一数据序列的平均值;将平均值乘以偏差,得到一偏移量,第一数据序列的平均值与第一偏移量的和为压缩阈值边界的最大值,第一数据祖列的平均值与第一偏移量的差为压缩阈值边界的最小值。
在具体实施时,还可以采用百分比、箱线图、标准差等比例关系来确定压缩阈值边界。作为示例,将第一数据序列按从大到小的顺序排列,将位于第一数据序列中百分位为25%和75%的数据作为压缩阈值边界的最大值和压缩阈值边界的最小值;其中,25%和75%为第一数据序列的百分位。
对于上述场景三,若第一数据序列是具有周期性特点、且适用于STL处理的数据,则特征值包括预测数据序列中的每个预测数据;则确定压缩阈值边界的最大值为预测数据与偏差的积与预测数据的和;确定压缩阈值边界的最小值为预测数据与预测数据与所述偏差的积的差。具体的,可以通过STL将第一数据序列拆分为趋势分量、周期分量和余项分量,将余项分量作为偏差。
对于上述场景三,若第一数据序列对应的业务场景足够稳定、且有足够的历史数据,则特征值包括预测数据序列中的每个预测数据;先基于预测数据序列生成残差,将所述残差作为所述偏差;确定所述压缩阈值边界的最大值为所述预测数据序列中的最大值减去所述预测数据序列中的最大值与所述残差的积;确定所述压缩阈值边界的最小值为所述预测数据序列中的最小值减去所述预测数据序列中的最小值与所述残差的积。
下面针对不同的场景,分别对本申请实施例提供的数据处理方法进行详细说明。
实施例一
由于不同服务器的硬件配置不同,部署服务器的机柜位置不同、服务器的运行负载不同,因此服务器的温度差异较大;因此,对于不同的服务器设置的服务器温度的用于有损压缩的压缩阈值边界也不同。
在一些实施例中,针对某一服务器,可以获取该服务器温度的历史数据(也可以称为第一数据序列),获取历史数据中的历史温度最大值和历史温度最小值。
1)、如果历史温度最大值(也可以称为特征值)大于预设的静态阈值的最大值,则确定压缩阈值边界的最大值等于静态阈值的最大值。
2)、如果历史温度最大值(也可以称为特征值)小于或等于预设的静态阈值的最大值,则确定压缩阈值边界的最大值等于静态阈值的最大值与偏差之和。其中,偏差可以为预先设定的值。
3)、如果历史温度最小值(也可以称为特征值)小于预设的静态阈值的最小值,则确定压缩阈值边界的最小值等于静态阈值的最小值。
4)、如果历史温度最小值(也可以称为特征值)大于或等于预设的静态阈值的最小值,则确定压缩阈值边界的最小值等于静态阈值的最小值与偏差之和。
在一些实施例中,若用Thresholdhd表示压缩阈值边界的最大值,Thresholdld表示压缩阈值边界的最小值,
Figure BDA0003200488840000091
表示静态阈值的最大值,Thresholdl表示静态阈值的最小值,Bias表示偏差,Maxh表示历史数据最大值(也可以称为历史温度最大值),Maxd表示历史数据最小值(也可以称为历史温度最小值);则压缩阈值边界的最大值如下述公式(1)所示:
Figure BDA0003200488840000092
压缩阈值边界的最小值如下述公式(2)所示:
Figure BDA0003200488840000093
在一些实施例中,历史数据所对应的时间范围、偏差、以及对该服务器的温度数据的压缩阈值边界是否使用1)至4)中的确定方法可由该服务器的运维人员预先标注。静态阈值为服务器的温度为正常温度的边界,举例来说,若服务器的温度在静态阈值的最大值与静态阈值的最小值之间,则服务器的温度为正常的温度;若服务器的温度大于静态阈值的最大值,则服务器的温度为异常温度,表征服务器运行时间过长、或运行的线程过多、或服务器可能出现故障、或服务器已经出现故障。
本申请实施例中,通过历史数据的最大值和最小值以及预设的偏差确定压缩阈值边界,所需的算力较小,降低压缩边界阈值设定的工作量。确定压缩阈值边界的过程由电子设备实现,无需人工标注压缩阈值边界,提高确定压缩阈值边界的准确性。
实施例二
针对以服务器的CPU负载、或内存使用率、或数据库活动连接数等业务场景,在一些实施例中,可以预设偏差,如预设的偏差为25%;将第一数据序列(也可以称为历史数据序列)按从大到小的顺序排列,将位于第一数据序列中百分位为25%和75%的数据作为压缩阈值边界的最大值和压缩阈值边界的最小值;其中,25%和75%为第一数据序列的百分位。
在另一些实施例中,还可以使用iForest对第一数据序列分析,得到第一数据序列(也可以称为历史数据序列)的平均值之上和/或平均值之下的数据区间,将该数据区间的最大值作为压缩阈值边界的最大值,将该数据区间的最小值作为压缩阈值边界的最小值。其中,第一数据序列对应的直方图符合或接近正态分布。
在具体实施时,计算出压缩阈值边界的最大值和压缩阈值边界的最小值之后,还可以采用与场景一相似的方法,进一步结合静态阈值确定最终的压缩阈值边界。作为示例,针对CPU负载的场景,若利用孤立森林方法得到的压缩阈值边界的最大值大于静态阈值,则可以确定最终用于第二数据压缩的压缩阈值边界的最大值为静态阈值;若利用孤立森林方法得到的压缩阈值边界的最小值小于静态阈值,则可以确定最终用于第二数据压缩的压缩阈值边界的最小值为利用孤立森林方法得到的压缩阈值边界的最小值。
本申请实施例中,通过统计学方法确定压缩阈值边界(如对第一数据序列排序,统计位于预设百分位的数据),所需的算力较小,降低压缩边界阈值设定的工作量。确定压缩阈值边界的过程由电子设备实现,无需人工标注压缩阈值边界,提高确定压缩阈值边界的准确性。
实施例三
针对第一数据序列是具有周期性特点、且适用于STL处理的数据的场景,可以通过STL将第一数据序列拆分为趋势分量、周期分量和余项分量;计算余项分量的直方图,得到余项分布的主要区域,得到偏差;如余项分布在2个标准差范围内,则可以确定偏差为2个标准差。将第一数据序列(也可以称为历史数据序列)输入预先训练的神经网络模型,得到申请网络模型输出的预测数据序列;将预测数据序列中的最大值乘以偏差之后,再与预测数据序列中的最大值相加,得到压缩阈值边界的最大值;将预测数据序列中的最小值乘以偏差之后,再与预测数据序列中的最小值相减,得到压缩阈值边界的最小值。其中,利用神经网络模型得到预测数据序列时,可以将第一数据序列拆分得到的趋势分量和周期分量分别输入神经网络模型,得到对应的预测数据序列。
本申请实施例中,基于深度学习技术确定压缩阈值边界,能够实现更加细粒度的压缩阈值边界设定,提高确定压缩阈值边界的准确性。确定压缩阈值边界的过程由电子设备实现,无需人工标注压缩阈值边界,提高确定压缩阈值边界的准确性。
实施例四
针对第一数据序列对应的业务场景足够稳定、且有足够的历史数据的场景,可以利用深度学习的方法,如RNN或LSTM等根据第一数据序列确定预测数据序列;计算第一数据序列与预测数据序列之间的差值,得到残差;将残差作为所述偏差。若偏差为3个标准差,则预测数据序列中的最大值减去预测数据序列中的最大值与0.15%的积得到的值为压缩阈值边界的最大值,预测数据序列中的最小值减去预测数据序列中的最小值与0.15%的积得到的值为压缩阈值边界的最小值。本申请实施例中,可以基于残差和预测数据序列生成上下区间的包络线,该包络线即为压缩阈值边界。基于残差确定压缩阈值边界时,得到的压缩阈值边界更精确。
本申请实施例中,基于深度学习技术确定压缩阈值边界,能够实现更加细粒度的压缩阈值边界设定,提高确定压缩阈值边界的准确性。确定压缩阈值边界的过程由电子设备实现,无需人工标注压缩阈值边界,提高确定压缩阈值边界的准确性。
在本申请提供的一些实施例中,数据处理方法的一种详细处理流程可以如图2所示;针对上述四种场景,确定压缩阈值边界所采用的策略均不相同;因此,可以预先设置上述四种场景与确定压缩阈值边界所采用的策略之间的对应关系。其中,上述四种场景可基于业务场景或数据属性确定,业务场景可以是CPU温度的业务场景、或CPU负载的业务场;数据属性可以是具有周期性的数据属性、或具有足够历史数据的数据属性。工作人员确定该对应关系,并在数据库或存储器中存储该对应关系以及确定压缩阈值边界所采用的策略中涉及的参数,如偏差和静态阈值等。其中,偏差和静态阈值也可以通过与外部监控系统、或网络技术服务管理系统数据库、或网络应用程序接口(Application ProgrammingInterface,Web API)集成而批量导入的;如解析Zabbix数据库批量导入静态阈值、或者集成普罗米修斯Web API获取静态阈值。数据处理装置接收到外部监控设备或物联网系统输入的第二数据之后,在预先存储的对应关系中查找确定压缩阈值边界所采用的策略,并利用查找得到的策略确定压缩阈值边界,对利用所确定的压缩阈值边界对输入的第二数据进行有损压缩。对于压缩阈值边界之外的第二数据,可以不压缩,也可以执行无损压缩。其中,可以将完成有损压缩的第二数据保存至目标数据库或者传输至目标系统。
其中,查找确定压缩阈值边界所采用的策略的操作、基于查找得到的策略计算压缩阈值边界的操作、以及对第二数据进行压缩的操作都可以由时间数据序列过滤器实现。
本申请实施例中,针对不同的业务场景或不同属性的数据,分别配置不同的用于确定压缩阈值边界的策略;因此,可以针对不同的业务场景或不同属性的数据适配不同的策略,以提高确定压缩阈值边界的准确性;可以大规模地在智能运维系统或物联网领域广泛应用本申请实施例提供的数据处理方法。
下面说明本申请实施例提供的数据处理方法的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为各种类型的终端设备,也可以实施为服务器。
参见图3,图3是本申请实施例提供的数据处理系统100的一个架构示意图,终端设备400通过网络300连接服务器200,服务器200连接数据库500,其中,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,以电子设备是终端设备为例,本申请实施例提供的数据处理方法可以由终端设备和终端设备协同实现。例如,服务器200从数据库500获取第一数据序列,并将第一数据序列发送至终端设备400;终端设备400运行客户端410,客户端410可以是用于执行数据处理的客户端。客户端410基于第一数据序列确定偏差;基于所述第一数据序列确定特征值;基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩。
在一些实施例中,以电子设备是服务器为例,本申请实施例提供的数据处理方法可以由服务器实现。例如,服务器200从数据库500中获取第一数据序列,基于第一数据序列确定偏差;基于所述第一数据序列确定特征值;基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩。
在一些实施例中,终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的数据处理方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
以本申请实施例提供的电子设备是终端设备为例说明,可以理解的,对于电子设备是服务器的情况,图4中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图4,图4是本申请实施例提供的终端设备400的结构示意图,图4所示的终端设备400包括:至少一个处理器460、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统440。
处理器460可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器460的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的数据处理装置可以采用软件方式实现,图4示出了存储在存储器450中的数据处理装置455,其可以是程序和插件等形式的软件,可以包括以下软件模块:
第一确定模块4551,用于第一数据确定偏差和特征值;第二确定模块4552,用于基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;压缩模块4553,用于对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩。这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在一些实施例中,所述第一确定模块4551,用于确定所述第一数据序列中的数据最大值和数据最小值,
确定所述特征值包括所述数据最大值和所述数据最小值。
在一些实施例中,所述第二确定模块4552,用于确定所述压缩阈值边界的最大值为所述第一数据序列中数据最大值与所述偏差之和;
确定所述压缩阈值边界的最小值为所述第一数据序列中数据最小值与所述偏差之差。
在一些实施例中,所述第一确定模块4551,用于确定所述第一数据序列的平均值;确定所述特征值为所述第一数据序列的平均值。
在一些实施例中,所述第二确定模块4552,用于若所述特征值为所述第一数据序列的平均值,则确定所述压缩阈值边界的最大值为所述平均值与所述偏差的积与所述平均值的和;
确定所述压缩阈值边界的最小值为所述平均值与所述平均值与所述偏差的积的差。
在一些实施例中,所述第一确定模块4551,用于基于所述第一数据序列确定预测数据序列;所述第一数据序列与历史数据有关;
确定所述特征值包括所述预测数据序列中的每个预测数据。
在一些实施例中,所述第二确定模块4552,用于在所述特征值包括所述预测数据序列中的每个预测数据时,确定所述压缩阈值边界的最大值为所述预测数据与所述偏差之积与所述预测数据的和;
确定所述压缩阈值边界的最小值为所述预测数据与所述预测数据与所述偏差之积的差
在一些实施例中,所述第二确定模块4552,用于在所述特征值包括所述预测数据序列中的每个预测数据时,基于所述预测数据序列生成残差,将所述残差作为所述偏差;
确定所述压缩阈值边界的最大值为所述预测数据序列中的最大值减去所述预测数据序列中的最大值与所述残差的积;
确定所述压缩阈值边界的最小值为所述预测数据序列中的最小值减去所述预测数据序列中的最小值与所述残差的积
本申请实施例还提供一种电子设备,所述电子设备包括处理器和存储器,存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的数据处理方法。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的数据处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图1和图2示出的数据处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
基于第一数据序列确定偏差;
基于所述第一数据序列确定特征值;
基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;
对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;
其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据序列确定特征值,包括:
确定所述第一数据序列中的数据最大值和数据最小值,
确定所述特征值包括所述数据最大值和所述数据最小值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
确定所述压缩阈值边界的最大值为所述第一数据序列中数据最大值与所述偏差之和;
确定所述压缩阈值边界的最小值为所述第一数据序列中数据最小值与所述偏差之差。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据序列确定特征值,包括:
确定所述第一数据序列的平均值;
确定所述特征值为所述第一数据序列的平均值。
5.根据权利要求4所述的方法,其特征在于,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
若所述特征值为所述第一数据序列的平均值,则确定所述压缩阈值边界的最大值为所述平均值与所述偏差的积与所述平均值的和;
确定所述压缩阈值边界的最小值为所述平均值与所述平均值与所述偏差的积的差。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据序列确定特征值,包括:
基于所述第一数据序列确定预测数据序列;所述第一数据序列与历史数据有关;
确定所述特征值包括所述预测数据序列中的每个预测数据。
7.根据权利要求6所述的方法,其特征在于,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
所述特征值包括所述预测数据序列中的每个预测数据,则确定所述压缩阈值边界的最大值为所述预测数据与所述偏差之积与所述预测数据的和;
确定所述压缩阈值边界的最小值为所述预测数据与所述预测数据与所述偏差之积的差。
8.根据权利要求6所述的方法,其特征在于,所述基于所述偏差和所述特征值确定压缩阈值边界,包括:
所述特征值包括所述预测数据序列中的每个预测数据,则基于所述预测数据序列生成残差,将所述残差作为所述偏差;
确定所述压缩阈值边界的最大值为所述预测数据序列中的最大值减去所述预测数据序列中的最大值与所述残差的积;
确定所述压缩阈值边界的最小值为所述预测数据序列中的最小值减去所述预测数据序列中的最小值与所述残差的积。
9.一种数据处理装置,其特征在于,所述装置包括:
第一确定模块,用于第一数据确定偏差和特征值;
第二确定模块,用于基于所述偏差和所述特征值确定压缩阈值边界,所述压缩阈值边界用于确定对第二数据压缩的压缩策略;
压缩模块,用于对所述第二数据中位于所述压缩阈值边界之内的数据执行有损压缩;
其中,所述偏差包括:预先设定的静态偏差,或者基于所述第一数据序列生成的动态偏差。
10.根据权利要求9所述的装置,其特征在于,所述第一确定模块,用于确定所述第一数据序列中的数据最大值和数据最小值,以及确定所述特征值包括所述数据最大值和所述数据最小值。
CN202110902540.9A 2021-08-06 2021-08-06 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN113568959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902540.9A CN113568959A (zh) 2021-08-06 2021-08-06 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902540.9A CN113568959A (zh) 2021-08-06 2021-08-06 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113568959A true CN113568959A (zh) 2021-10-29

Family

ID=78170710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902540.9A Pending CN113568959A (zh) 2021-08-06 2021-08-06 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113568959A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115078892A (zh) * 2022-08-19 2022-09-20 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115078892A (zh) * 2022-08-19 2022-09-20 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统
CN115078892B (zh) * 2022-08-19 2022-11-01 深圳天川电气技术有限公司 一种单机大传动变频器状态远程监测系统

Similar Documents

Publication Publication Date Title
CN109543891B (zh) 容量预测模型的建立方法、设备及计算机可读存储介质
CN108492005B (zh) 项目数据处理方法、装置、计算机设备和存储介质
CN112564988A (zh) 告警处理方法、装置及电子设备
CN114138625A (zh) 服务器健康状态的评估方法、系统、电子设备和存储介质
CN111698303A (zh) 数据处理方法、装置、电子设备及存储介质
CN112256886B (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN112416957A (zh) 基于数据模型层的数据增量更新方法、装置及计算机设备
CN113568959A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114202256A (zh) 架构升级预警方法、装置、智能终端及可读存储介质
CN114139503A (zh) 文档内容处理方法、装置、设备及存储介质
CN112199374B (zh) 针对数据缺失的数据特征挖掘方法及其相关设备
KR20210069215A (ko) 빅데이터 분석을 최적화하는 사용자 인터페이스 방법
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN115687826A (zh) 页面刷新方法、装置、计算机设备及存储介质
CN113722177B (zh) 时序指标异常检测方法、装置、系统、设备及存储介质
CN115271277A (zh) 电力设备画像构建方法、系统、计算机设备及存储介质
CN115292516A (zh) 基于区块链的分布式知识图谱构建方法、装置及系统
CN113282538A (zh) 文件系统管理方法、装置、设备、存储介质、程序产品
CN111159988B (zh) 一种模型处理方法、装置、计算机设备及存储介质
CN111159237B (zh) 系统数据分发方法、装置、存储介质及电子设备
CN112764957A (zh) 应用故障定界方法及装置
CN114490432A (zh) 内存处理方法、装置、电子设备和计算机可读存储介质
CN111680478A (zh) 基于组态软件的报表生成方法、装置、设备和存储介质
CN111260191B (zh) 测试床成熟度量化方法、装置、计算机设备和存储介质
US20240028982A1 (en) Plan making device and plan making method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination