CN107800437B

CN107800437B - 数据压缩方法和装置

Info

Publication number: CN107800437B
Application number: CN201711050387.1A
Authority: CN
Inventors: 张光磊; 刘源; 邱忠营
Original assignee: Beijing Goldwind Science and Creation Windpower Equipment Co Ltd
Current assignee: Beijing Goldwind Science and Creation Windpower Equipment Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-03-26
Anticipated expiration: 2037-10-31
Also published as: CN107800437A

Abstract

本发明提供一种数据压缩方法和装置，以实现包含缺失数据的多组数据的压缩。所述数据压缩方法包括：获取多组数据；对所述多组数据所组成的数值矩阵进行概率矩阵分解；以及利用所述概率矩阵分解的结果进行所述多组数据的压缩。

Description

数据压缩方法和装置

技术领域

本发明涉及数据处理领域，更具体地，涉及数据压缩方法和装置。

背景技术

数据的压缩技术分为无损压缩和有损压缩两大类：无损压缩一般采用去冗余编码的方式，具有较小的压缩比；有损压缩则比较多样化，一般基于单变量的变化规律进行有效预测从而实现数据压缩，具有较大的压缩比。基于主成分分析(PCA:Principle ComponentsAnalysis)的数据压缩算法是一种有损压缩算法，根据不同变量之间的线性相关性进行去冗余，从而实现数据降维和数据压缩。

但是，目前的基于主成分分析的数据压缩算法，大多需要预先选取批量数据进行主成分分析，当新产生的数据不能被当前主成分很好地重构时，则需要进行主成分的更新。

下面具体进行说明。

表1

日期时间	传感器1	传感器2	……	传感器n
					2016/3/15 15:25:36	0.5	0.2	0.9
2016/3/15 15:25:45	0.4	0.2		0.5
					2016/3/15 15:25:52	0.1	0.3	0.7
2016/3/15 15:25:58	0.9	0.4		0.2
					2016/3/15 15:26:06	0.2	0.0	0.1

以上面的表1所示的SCADA(Supervisory Control And Data Acquisition，数据采集与监视控制)数据为例，假设其中不存在缺失数据，则可以对该SCADA数据进行数据预处理，得到下述数值矩阵A。

对于上述矩阵A，通过基于主成分分析的数据压缩算法进行数据压缩的过程如下。

首先，进行奇异值分解(SVD)(或者等价地对A^TA进行特征值分解)，来得到主成分向量和线性变换矩阵：

A＝UΣV^* (2)

其中，U和V为酉矩阵；Σ为对角阵，其对角元素按照从大到小排列，称为A的奇异值；V*表示V的共轭转置矩阵。

假设A的非零奇异值共有k个或较大的奇异值有k个，则取前k个奇异值组成对角阵Σ_k，则

Σ_k→Σ (3)

其中，“→”表示近似于，当k为非零奇异值个数时，Σ_k与Σ等价。

此时，矩阵A可近似表示为如下形式：

其中，U_k和V_k分别为U和V的前k列组成的矩阵。该过程确定了主成分的个数和向量。

接着，根据下述式(5)，进行数据的降维压缩：

根据式(5)得到的矩阵B就是对矩阵A降维压缩之后的数据。

另外，对于上述降维压缩之后的矩阵B，在需要进行解压缩时，按照如下方式进行：

就是解压缩之后的矩阵。

由以上可见，在主成分分析、即式(4)之后，只要保存矩阵V_k即可进行数据的压缩和解压缩。

以上为当矩阵A的全部元素已知时，进行主成分分析对数据进行压缩和解压缩的过程。

但是，目前的主成分分析算法一般只能依赖无缺失的批量数据进行计算，在由于数据传输错误等原因引起SCADA数据不完整的情况下，无法进行奇异值分解等主成分分析，一般只能通过去除不完整数据部分，再进行主成分分析计算。但是这种简单的处理方式可能会造成部分数据模态的丢失，使得生成的主成分不准确，从而造成较大的重构误差。

此外，不仅是SCADA数据，其他类型数据的压缩也都存在这样的问题。

发明内容

本发明是鉴于以上问题而提出的，其目的在于提供能够实现包含缺失数据的多组数据的数据压缩的数据压缩方法和装置。

根据本发明的一方面，提供一种数据压缩方法，包括：获取多组数据；对所述多组数据所组成的数值矩阵进行概率矩阵分解；以及利用所述概率矩阵分解的结果进行所述多组数据的压缩。

根据本发明的另一方面，提供一种数据压缩装置，包括：数据获取单元，其获取多组数据；概率矩阵分解单元，其对所述多组数据所组成的数值矩阵进行概率矩阵分解；以及压缩单元，其利用所述概率矩阵分解单元的分解结果进行所述多组数据的压缩。

根据本发明的另一方面，提供一种计算机可读介质，其存储有计算机程序，当所述计算机程序被处理器执行时实现上述的数据压缩方法的步骤。

根据本发明的另一方面，提供一种计算机设备，包括：处理器；存储器，存储有能够在处理器上执行的计算机程序，当所述计算机程序被所述处理器执行时，实现上述的数据压缩方法的步骤。

根据本发明，通过概率矩阵分解(Probabilistic Matrix Factorization,PMF)利用已知部分的数据进行迭代计算，能够实现包含缺失数据的不完整多组数据的数据压缩。这样，不会造成部分数据模态的丢失，进而不会造成较大的重构误差。

附图说明

图1示出根据本发明的实施方式的数据压缩方法的流程图。

图2示出根据本发明的实施方式的数据压缩装置的框图。

具体实施方式

以下，参照附图说明本发明的实施方式。

在本发明中，对于多组数据，通过利用概率矩阵分解进行分析，来实现数据压缩。

此外，需要说明的是，在本发明中，多组数据是2组以上且各组分别包含多个数据的数据，所述多个数据的数据类型为数值型或能够转换为数值型的类型，进而所述多个数据的数据个数优选相同。

图1示出根据本发明的实施方式的数据压缩方法的流程图。

参照图1，首先在步骤S110，获取多组数据，将其组成为对应的数值矩阵。具体地，从数据源获取多组数据。在一个实施例中，该数据源是一个或多个监测设备，即在该步骤中从一个或多个多个监测设备按时间顺序获取多组监测数据，作为所述多组数据。

举例来说，假设多组数据为下面的表2所示的SCADA数据，则在本步骤中，从多个作为监测设备的传感器按时间顺序获取该多组数据，将其组成为式(7)所示的数值矩阵A，该矩阵A的每一行代表一个时刻的SCADA数据，每一列表示一个传感器的测量结果。

表2

日期时间	传感器1	传感器2	……	传感器n
					2016/3/15 15:25:36	0.5	0.2	0.9
2016/3/15 15:25:45	0.4	0.2		？
					2016/3/15 15:25:52	0.1	？	0.7
2016/3/15 15:25:58	0.9	0.4		0.2
					2016/3/15 15:26:06	0.2	0.0	0.1

其中的“？”表示缺失值。

此外，上面的例子示出的是多组数据为SCADA数据且数据本身就是数值型数据的情况，但实际上，即使是SCADA数据，根据传感器数据类型的不同，也会包含数值型和枚举型两种类型，数值型又可分为整型和浮点型两种；枚举型又可分为布尔型和类别型两种。

因此，为了能够对所获取的数据进行压缩，在步骤S110中，还根据需要对所述多组数据进行数据类型转换的预处理，即将非数值型变量转化为数值型变量，比如布尔型变量用0和1表示；然后将整型变量转化为浮点型变量，以便于进行数据压缩。上述数据类型转换过程在数据解压重构时再将浮点型变量转换成原有的数据类型。

此外，在本步骤中，除了上述数据类型转换，根据实际需要可能还要对多组数据进行归一化的预处理。以SCADA数据为例来说，数据归一化处理即将每个传感器的数据都线性变换到0～1范围之内，以防舍入误差对部分字段产生不同程度的影响。实际上，为了实现归一化，一般只要去均值化处理即可，即SCADA数据中每个传感器的数据都减去该传感器产生的全部数据的均值，对于SCADA数据以外的其他类型数据而言，就是将每一列的数据都减去该列的全部数据的均值。同样地，当数据解压重构时，归一化处理也要反过来进行，故应保存归一化过程中所使用的数据的均值、最大最小值等关键信息。

需要说明的是，虽然上面示例示出的是多组数据为SCADA数据的情况，但并不限于此，在本发明中，数据的来源可以多种多样，比如人的身高体重数据、经济增长数据等在时间上有关联的数据，另外也可以是在空间上有关联的数据，甚至也可以是彼此没有关联的数据等等。

接着，在步骤S120，对所述数值矩阵进行概率矩阵分解。

概率矩阵分解是一种基于概率图模型的矩阵分解方法，与现有技术的主成分分析中的奇异值分解的区别在于不一定满足正交性，其通过梯度下降方法对分解后的矩阵进行迭代优化。

具体地，概率矩阵分解如下式(8)所示是如下形式的分解：对于数值矩阵A＝{a_ij}，求解第一因子矩阵U_k和第二因子矩阵V_k，将第一因子矩阵U_k与第二因子矩阵V_k的共轭转置矩阵V_k ^*的乘积作为数值矩阵A的概率矩阵分解的结果。

需要说明的是，上述式(8)中的第一因子矩阵U_k不一定是酉矩阵，而第二因子矩阵V_k是酉矩阵，V_k ^*表示V_k的共轭转置矩阵。

可以看出，概率矩阵分解的结果与现有技术的主成分分析中的奇异值分解(式(4))的结果不同，去掉了中间的对角阵Σ。

进而，本发明中的概率矩阵分解的根本思想为：在数值矩阵A的概率矩阵分解中，求解这样的第一因子矩阵U_k及第二因子矩阵V_k，即该第一因子矩阵U_k及第二因子矩阵V_k最小化所述数值矩阵A中的各元素a_ij和该第一因子矩阵U_k及第二因子矩阵V_k中的相应元素的目标函数。

具体来说，首先确定一个维数、即主成分个数k，也可以认为数值矩阵A中的前k列，然后迭代求解第一因子矩阵U_k和第二因子矩阵V_k，使得如下目标函数最小：

其中，u_i和v_j分别为矩阵U_k和V_k的第i个和第j个行向量的转置，λ为规范项权重系数，||u_i||²＝u_iTu_i。

具体地，上述概率矩阵分解的过程如下：

(1)随机初始化变量u_i和v_j；

(2)令计算梯度和

(3)根据上述梯度更新u_i和v_j，其中α

和β为设定的步长；

(4)计算

(5)重复上述(3)和(4)，直到达到预定的收敛条件，例如φ^t+1＜ε或

|φ^t+1-φ^t|＜ε，其中ε为设定的阈值。

上述的概率矩阵分解的过程可以采用交替最小二乘法、Levenberg-Marquardt算法或Wiberg算法等来具体实现。

另外，从以上可以看出，由于每次迭代仅需要一个已知数据进行参数更新，因此即使数值矩阵A中有缺失数据，概率矩阵分解也可以处理该数值矩阵的分解。

接着，在步骤S130，利用所述概率矩阵分解的结果进行所述多组数据的压缩。

具体地，基于下述式(10)，将概率矩阵分解的结果与第二因子矩阵V_k相乘来进行数据的降维压缩：

根据式(10)得到的矩阵B就是对数值矩阵A进行降维压缩之后得到的压缩后的数据。另外，由于在矩阵B的解压缩时需要使用第二因子矩阵V_k的共轭转置矩阵、即所以需要保存该矩阵。

接着，在可选的步骤S140，在需要时，对所述压缩后的数据进行解压缩。

具体地，从上述式(10)可以看出，在数据降维压缩之后只剩下第一因子矩阵U_k(一般k<<m，m为A的列数)，所以解压重构时只要将其直接乘以第二因子矩阵V_k的共轭转置矩阵即可得到解压缩后的数据。因此，按照下述式(11)对降维压缩后的数据进行解压缩。

就是解压缩之后的矩阵。

此外，在该解压缩步骤S140中，在解压缩后，还需要进行与步骤S110中的数据预处理相逆的过程，以将解压缩后的数据变换为原类型数据。

根据本实施方式的数据压缩方法，由于概率矩阵分解在每次迭代时仅需要一个已知数据进行参数更新，因此通过在数据压缩中使用概率矩阵分解进行矩阵分解，即使多组数据中有缺失数据，也能够高精度地进行其对应的数值矩阵的分解，进而实现多组数据的降维压缩，而不会造成部分数据模态的丢失，进而不会造成较大的重构误差。此外，由于能够实现有缺失数据的多组数据的大幅压缩，所以节省存储空间和传输成本。进而，由于概率矩阵分解中参数自动迭代更新，所以计算复杂度低。

在同一发明构思下，本发明提供与上述的数据压缩方法相对应的数据压缩装置。

图2示出根据本发明的实施方式的数据压缩装置的框图。

如图2所示，本实施方式的数据压缩装置200包括：数据获取单元210、概率矩阵分解单元220、压缩单元230和可选的解压缩单元240。

数据获取单元210获取多组数据，将其组成为对应的数值矩阵。具体地，数据获取单元210从数据源获取多组数据。在一个实施例中，该数据源是一个或多个监测设备，即数据获取单元210从一个或多个监测设备按时间顺序获取多组监测数据，作为所述多组数据。

此外，根据需要，数据获取单元210还对该多组数据进行数据类型转换、归一化等预处理，并保存归一化过程中所使用的数据的均值、最大最小值等关键信息。

概率矩阵分解单元220对所述数值矩阵进行概率矩阵分解。具体地，概率矩阵分解单元220对于数值矩阵A＝{a_ij}，求解第一因子矩阵U_k和第二因子矩阵V_k，将第一因子矩阵U_k与第二因子矩阵V_k的共轭转置矩阵V_k ^*的乘积作为数值矩阵A的概率矩阵分解的结果。进而，概率矩阵分解单元220在数值矩阵A的概率矩阵分解中所求解的是这样的第一因子矩阵U_k及第二因子矩阵V_k，即该第一因子矩阵U_k及第二因子矩阵V_k最小化所述数值矩阵A中的各元素a_ij和该第一因子矩阵U_k及第二因子矩阵V_k中的相应元素的目标函数。更具体地，概率矩阵分解单元220根据上述式(9)进行概率矩阵分解，得到式(8)所示形式的矩阵分解结果。进而，概率矩阵分解单元220进行概率矩阵分解的过程与上面的实施方式中的步骤S120所示的过程相同，在此省略详细说明。

压缩单元230利用概率矩阵分解单元220的分解结果进行所述多组数据的压缩。具体地，压缩单元230将所述概率矩阵分解的结果与所述第二因子矩阵V_k ^*相乘，以得到压缩后的数据。更具体地，压缩单元230基于上述式(10)，进行数据的降维压缩，并保存通过概率矩阵分解得到的、在矩阵的解压缩时需要使用的分解矩阵。

解压缩单元240对降维压缩后的数据进行解压缩。具体地，解压缩单元240将通过压缩单元230压缩后的数据与所述第二因子矩阵V_k的共轭转置矩阵V_k ^*相乘，以得到解压缩后的数据。更具体地，解压缩单元240按照上述式(11)对降维压缩后的数据进行解压缩。此外，在解压缩后，解压缩单元240还需要进行与数据获取单元210对所述多组数据进行的预处理相逆的处理，以将解压缩后的数据变换为原类型数据。

本实施方式的数据压缩装置在功能上能够实现上面的实施方式的数据压缩方法。

根据本发明的一个实施方式，还提供一种计算机设备。所述计算机设备包括处理器和存储器，存储器存储有能够在处理器上执行的计算机程序，当所述计算机程序被处理器执行时，实现根据本发明的实施方式的数据压缩方法的步骤。

此外，应该理解，根据本发明示例性实施方式的装置中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

此外，根据本发明示例性实施方式的方法可以被实现为计算机可读记录介质中的计算机程序。本领域技术人员可以根据对上述方法的描述来实现所述计算机程序。当所述计算机程序在计算机中被执行时实现本发明的上述方法。

尽管已经参照其示例性实施方式具体显示和描述了本发明，但是本领域的技术人员应该理解，在不脱离权利要求所限定的本发明的精神和范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种SCADA数据压缩方法，其特征在于，包括：

获取多组SCADA数据；

对所述多组SCADA数据进行数据类型转换的预处理，将非数值型SCADA数据转换为整型SCADA数据，进而将所述整型SCADA数据转换为浮点型SCADA数据；

对所述预处理后的多组SCADA数据所组成的数值矩阵进行概率矩阵分解；以及

利用所述概率矩阵分解的结果进行所述多组SCADA数据的压缩，

在所述概率矩阵分解步骤中，对于所述数值矩阵求解第一因子矩阵和第二因子矩阵，将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述概率矩阵分解的结果，

所述利用所述概率矩阵分解的结果进行所述多组SCADA数据的压缩具体包括，将所述概率矩阵分解的结果与所述第二因子矩阵相乘，以得到压缩后的SCADA数据。

2.根据权利要求1所述的SCADA数据压缩方法，其特征在于，对于所述数值矩阵求解第一因子矩阵和第二因子矩阵具体包括，在所述数值矩阵的概率矩阵分解中求解这样的第一因子矩阵及第二因子矩阵，即该第一因子矩阵及第二因子矩阵最小化所述数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。

3.根据权利要求1或2所述的SCADA数据压缩方法，其特征在于，将所述压缩后的SCADA数据与所述第二因子矩阵的共轭转置矩阵相乘，以得到解压缩后的SCADA数据。

4.根据权利要求1所述的SCADA数据压缩方法，其特征在于，获取多组SCADA数据的步骤之后还包括：

对所述多组SCADA数据进行归一化的数据预处理，所述归一化将所述多组SCADA数据中的每个SCADA数据均变换为预定的数值范围的数据。

5.一种SCADA数据压缩装置，其特征在于，包括：

数据获取单元，其获取多组SCADA数据，并对所述多组SCADA数据进行数据类型转换的预处理，将非数值型SCADA数据转换为整型SCADA数据，进而将所述整型SCADA数据转换为浮点型SCADA数据；

概率矩阵分解单元，其对所述预处理后的多组SCADA数据所组成的数值矩阵进行概率矩阵分解；以及

压缩单元，其利用所述概率矩阵分解单元的分解结果进行所述多组SCADA数据的压缩，

所述概率矩阵分解单元对于所述数值矩阵求解第一因子矩阵和第二因子矩阵，将所述第一因子矩阵与所述第二因子矩阵的共轭转置矩阵的乘积作为所述概率矩阵分解的结果，

所述压缩单元将所述概率矩阵分解的结果与所述第二因子矩阵相乘，以得到压缩后的SCADA数据。

6.根据权利要求5所述的SCADA数据压缩装置，其特征在于，所述概率矩阵分解单元在所述数值矩阵的概率矩阵分解中，求解这样的第一因子矩阵及第二因子矩阵，即该第一因子矩阵及第二因子矩阵最小化所述数值矩阵中的各元素和该第一因子矩阵及第二因子矩阵中的相应元素的目标函数。

7.根据权利要求5或6所述的SCADA数据压缩装置，其特征在于，还包括解压缩单元，其将所述压缩后的SCADA数据与所述第二因子矩阵的共轭转置矩阵相乘，以得到解压缩后的SCADA数据。

8.根据权利要求5所述的SCADA数据压缩装置，其特征在于，所述数据获取单元还对所述多组SCADA数据进行归一化的数据预处理，所述归一化将所述多组SCADA数据中的每个SCADA数据均变换为预定的数值范围的数据。

9.一种计算机可读介质，存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时实现权利要求1至4中的任意一项所述的SCADA数据压缩方法的步骤。

10.一种计算机设备，其特征在于，包括：

处理器；

存储器，存储有能够在处理器上执行的计算机程序，当所述计算机程序被所述处理器执行时，实现权利要求1至4中的任意一项所述的SCADA数据压缩方法的步骤。