CN107566383A

CN107566383A - 一种有限网络带宽约束下的高维时空场数据实时传输方法

Info

Publication number: CN107566383A
Application number: CN201710820141.1A
Authority: CN
Inventors: 胡勇; 罗文�; 李冬双; 王健健; 刘袁; 项丽燕; 袁林旺; 俞肇元
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2018-01-09
Anticipated expiration: 2037-09-12
Also published as: CN107566383B

Abstract

本发明公开了一种有限网络带宽约束下的高维时空场数据实时传输方法，该方法利用张量结构组织数据，通过对待传输数据和传输网络环境的综合评价，选取合理的张量分层策略和张量压缩参数，定义了一种新的层次张量压缩结构，并以该压缩结构为基础，建立自适应于网络环境的数据压缩与流式传输方法。在数据接收客户端,设计了张量动态追加和按需重构机制，极大降低了客户机内存和系统资源占用。利用案例数据，对上述流程加以验证，结果表明上述方法具有实时传输、精度高等特点，满足在有限网络带宽环境下的高维、海量数据实时传输的要求。

Description

一种有限网络带宽约束下的高维时空场数据实时传输方法

技术领域

本发明涉及高维场数据的传输方法，尤其涉及一种在有限网络带宽约束下的高维时空场数据实时传输方法。

背景技术

随着对地观测体系的健全以及对大尺度动态现象研究的关注，诸如遥感、气象数据等涉及多个领域、属性各异的高维、海量的时空场数据迅速增长。上述地学流数据具有数据量大、维度高、更新时间快等特点，其在处理过程中有如下几大难点：①地学流数据往往非常庞大，甚至数据的一个切片可达到几个GB；②数据的维度非常高，并且由于需要同时参与运算，具有不可分离性；③分析方法复杂，需要对常用统计分析和特征提取分析提供支撑；④数据更新迅速，需要频繁的处理整个数据集，实现动态更新。现有的时空场数据的组织、存储结构往往针对单一维度栅格数据，难以支撑复杂地理对象与连续地理现象的表达，缺乏有效的时空过程分析、建模与模拟方法。

传统的压缩传输的方法有基于SPIHT的感兴趣区域的高光谱图像压缩算法，基于LBG迭代算法的GPU压缩算法，依据邻域算法分析的非线性降维方法，基于深度学习的深度信度网络方法等，上述方法，在数据压缩速度和还原原始数据时存在占用时间长，占用内存大的缺陷。

张量是传统向量及矩阵形式数据的高维扩展，可用于表达与计算高维数据。张量是由不同维度的正交基构成，各维度之间线性无关，具有高维的坐标不变性，可看作是矩阵或阵列数据的高维形式，并可直接支撑高维数据的表达、存储与运算。随着多线性代数、张量代数等数学理论的发展，以及诸如可选最小二乘法、高阶SVD等方法的提出，发展了一系列的张量分解模型(CP分解、Tucker分解)，使其在信号处理、文本挖掘、特征解析与动态过程构建等领域有广泛应用。张量模型也可以用于地学分析，包括时空场的数据组织和信息挖掘，并有望为解决高维复杂数据存储和分析方法的单一性问题提供新的思路。

名称为“A Hierarchical Tensor-Based Approach to Compressing,Updatingand Querying Geospatial Data”的论文公开了一种层次张量的计算方法，该方法通过数据窗口对动态数据进行逐窗口的压缩，其缺点为在确定截取精度时秩Rank的值单一，无法根据实际的网络传输状态和传输条件限制进行有限带宽约束下的数据压缩的动态调整，造成客户机内存和系统资源空间不合理占用。

本专利在该文章的基础上，根据网络带宽传输的情况，设计了在不同带宽下数据处理及传输的方案，以保证各分解层的均衡性，以达到最大的空间、时间利用效率。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种在有限网络带宽约束下的高维时空场数据实时传输方法，该方法引入张量理论，通过张量进行高维时空场数据重组与建模，建立新型的数据表达与存储结构，提出了基于张量结构的数据分层分解与压缩模型，构建了基于张量结构的高维、海量数据的流式传输流程，最后利用时空场数据进行案例验证，实验结果表明，基于张量思想的数据存储模型压缩效率及计算效率均表现优异，有望成为大数据量时代的数据存储、表达、管理及分析的新方向。

技术方案：本发明所述的有限网络带宽约束下的高维时空场数据实时传输方法包括以下步骤：

(1)压缩参数确定：根据待传输的高维时空场数据的维度特征建立分解维度树，并根据实时网络状况确定张量压缩参数秩Rank的值；

(2)张量压缩：根据分解维度树及张量压缩参数分解高维场数据，建立分解维度树的叶子节点和非叶子节点的系数矩阵，形成层次张量维度树；

(3)层次张量传输：将层次张量维度树经网络媒介传输至客户端，并实时返回网络状态，用于确定下一次数据推送时的数据压缩参数，其中，传输的层次张量分为头文件和数据文件，头文件中包括层次张量维度树、各维度范围以及相应秩Rank的值；

(4)层次张量动态追加：对于多业务系统，客户端在接收到数据后若不需要进行显示或分析操作时，则在接收到层次张量文件后，直接将数据文件存储到磁盘空间，将头文件合并到客户端中的头文件集中，完成数据动态追加；

(5)层次张量按需重构：当用户提出数据显示或分析请求时，层次张量按需求重构，且在重构过程中完成数据再压缩，构建新的层次张量，以供后续的层次张量动态追加。

进一步的，步骤(1)具体包括：

(1.1)维度分层参数确定：针对待传输的高维时空场数据，采用对维度的二分分解方法进行降维，并根据降维后的数据设定维度分层参数，采用维度分层策略，得到分解维度树；维度分层参数确定的基本原则是：保证各分解层的均衡性，以达到最大的空间、时间利用效率。

(1.2)张量压缩参数确定：根据当前网络状况，以保证传输误差小于阈值的同时尽可能提高压缩比为目标，确定张量压缩参数秩Rank的值。确定张量压缩参数秩的大小时，确定张量压缩参数秩的大小时，所需考虑的传输误差ε和最大压缩比以及传输时间τ的计算公式为：

式中α,β,a,b,c,d为系数，由待传输数据的结构和复杂度确定，Rank表示秩，datasize表示原始数据的数据量，Netspeed为网络传输速度，跟网络状态相关，γ为经验参数。

进一步的，步骤(2)具体包括：

(2.1)叶子节点系数矩阵求解：将待传输的高维时空场数据按维度展开成二维矩阵，得到n个二维矩阵，分别对每个二维矩阵做奇异值分解，提取其中的酉矩阵，并将其按Rank值截断，从而得到n个酉矩阵，所述酉矩阵即为分解维度树叶子节点系数矩阵，其中，n为待传输的高维时空场数据的维度；二维矩阵展开具体步骤为：在分解维度树中非叶子节点的维度作为行，其他维度作为列，对待传输的高维时空场数据进行展开。

(2.2)非叶子节点系数矩阵求解：根据底层节点的系数矩阵反解出上层节点的核张量，对核张量做奇异值分解，提取其中的酉矩阵，并将其按Rank值截断，所述截断后的酉矩阵即为对应节点的系数矩阵；其他非叶子节点重复该步骤，直至完成根节点系数矩阵的求解。其中，所述根据叶子节点的系数矩阵反解出上层节点的核张量，通过如下公式计算：

H'＝H×₁U₁ ^T×₂U₂ ^T×...×_dU_d ^T

式中，H'表示上层节点的核张量，H为原始张量，×₈为张量积符号，表示张量与矩阵相乘，形如表示第*维度的系数矩阵的转置，d表示维度。

进一步的，步骤(5)中所述层次张量按需重构的具体步骤为：

(5.1)层次张量合并：①将所有需求的分解维度树的叶子节点上的系数矩阵按照所在树中对应位置直接添加形式合并，生成层次张量[U_i,1,U_i,2,...,U_i,N]，形如U_i,*表示第i个分解维度树的第*个叶子节点的系数矩阵，i＝1,…,I，I表示需求的分解维度树的数目，N为叶子节点的个数；②将第k层非叶子节点的系数矩阵按对角形式合并，生成层次张量形如表示第i个分解维度树的第k层的第*个非叶子节点的系数矩阵，k取值为所有非叶子层数，M为当前层非叶子节点的数目；③合并后的层次张量作为对应节点的新的系数矩阵，从而形成层次张量维度树；

(5.2)层次张量再压缩：

①对层次张量维度树中节点的系数矩阵正交化：对于叶子节点，将叶子结点的系数矩阵展开成二维矩阵，并作QR分解为Q矩阵和R矩阵，将分解的Q矩阵作为对应叶子节点的新的系数矩阵U'；叶子节点处理完后，开始处理第2层节点，将作QR分解为Q矩阵和R矩阵，将Q矩阵作为当前节点的新的系数矩阵B'，式中，R_l表示当前节点的左子节点分解的R矩阵，R_r表示当前节点的右子节点分解的R矩阵，表示张量积运算，B表示当前节点的旧系数矩阵；第2层节点处理完后，开始处理第3层节点，步骤与第2层节点相同，重复执行，直至处理完根节点；

②求出每个节点对应的Gramian矩阵，定义根节点Gramian矩阵G_root＝1，分别根据以下公式计算依次计算其左子节点和右子节点的Gramian矩阵G_tl和G_tr，直到求出每个节点的Gramian矩阵，形成Gramian矩阵树：

式中，B_tl和B_tr分别为左子节点和右子节点的系数矩阵，G_t为父节点的系数矩阵；

③对Gramian矩阵树的每个节点做SVD分解，将分解到的正交酉矩阵S，根据截取精度Rank值对列截取S'＝S(:,1:k_rank)；再根据步骤①中新的系数矩阵，利用以下公式求出压缩后的层次树每个节点的层次张量；

式中，t代表层级关系，U_t'为压缩前叶子节点的系数矩阵，S_t'为该节点截取Gramian正交酉矩阵的矩阵，为压缩后对应叶子节点的层次张量，为左子节点系数矩阵，为右子节点系数矩阵，B_t'为当前节点的原来的系数矩阵，为以及两个子节点的父节点的核张量，为根节点的核张量；

(5.3)层次张量重构：对于步骤③到的层次张量，应用张量积公式重构出其原始数据，重构公式为式中，A，B为两个张量，分别为A张量的两个系数矩阵，分别为B张量的两个系数矩阵，分别为A，B张量合并后的核张量。

有益效果：本发明与现有技术相比，其显著优点是：本发明利用层次张量分解构建高维数据流式传输方案，实现数据的高度压缩与实时传输，并可根据网络条件与数据精度需求动态调整分解压缩参数，保证了数据传输的实时性与计算机性能的最大化发挥；同时客户端按需重构的方式，也进一步降低了客户机内存和系统资源占用的压力。

附图说明

图1是本发明的一个实施例的流程示意图；

图2是分解维度树的示意图；

图3是层次张量维度树的分解示意图；

图4是层次张量合并的示意图；

图5是层次张量再压缩的示意图；

图6是不同网络状态下的传输模拟结果示意图；

图7是层次张量按需重构结果示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明:

本发明的理论基础取自于张量分解数学基础和时空场数据地理基础；其主要算法为层次张量分解和合并算法；其实现依赖于计算机硬件条件和数据精度；其最终服务目标是解决时空场数据的存储问题，高维数据流式传输总体流程如图1所示。

本实施例提供的在有限网络带宽约束下的高维时空场数据实时传输方法主要包括以下几个过程：

(1)压缩参数确定、(2)张量压缩、(3)层次张量传输、(4)层次张量动态追加和(5)层次张量按需重构，以下为详细说明：

(1)层次张量压缩参数确定

根据待传输的高维时空场数据的维度特征建立分解维度树，并根据实时网络状况确定张量压缩参数秩Rank的值。其中，张量是一个可用来表示在一些向量、标量和其他张量之间的线性关系的多线性函数，这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积，其在维度空间的坐标上可具有x个分量，其中每个分量都是坐标的函数，而在坐标变换时，这些分量也依照某些规则作线性变换，x称为该张量的秩或阶。

(1.1)维度分层参数确定：针对待传输的高维时空场数据，采用对维度的二分分解方法进行降维，并根据降维后的数据设定维度分层参数，采用维度分层策略，得到分解维度树。例如，对于三维张量T，它拥有6个子维度{R1,R2,R3,R12,R13,R23}，因而可定义多重维度分解方案。下面用维度树表示对张量的维度分解，维度树利用树状结构表达张量的维度层次结构，其叶子节点代表唯一维度，父节点为所有叶子节点的集合，根节点包含了张量所有的维度(如图2)。维度分层参数确定的基本原则是保证各分解层的均衡性，以达到最大的空间、时间利用效率。引入二叉维度树的分层表示方法，维度分层参数可通过维度树(R123(R12(R1，R2)，R3))指定。上述维度树表示先将R123分解为R12和R3，再将R12分解为R1和R2。这种分解方法保证了维度树的平衡性。

(1.2)张量压缩参数确定：根据当前网络状况，以保证传输误差小于阈值的同时尽可能提高压缩比为目标，确定张量压缩参数秩Rank的值。层次张量压缩是个有损压缩过程，其压缩精度可通过Rank唯一确定。Rank越高，分解得到的数据精度越高，但其数据量也越大，可能会导致网络传输时间延长，不满足实时性特征。因此需要根据当前网络状况确定Rank值的大小，从而在保证实时性的同时尽可能提高压缩结果的精度。设定合理的Rank大小，控制张量分解的迭代层次，可充分利用网络媒介传输能力的同时尽可能提高数据精度。确定张量压缩参数秩的大小时，所需考虑的传输误差ε和最大压缩比以及传输时间τ的计算公式为：

(2)张量压缩

即根据分解维度树及张量压缩参数分解高维场数据，建立分解维度树的叶子节点和非叶子节点的系数矩阵，形成层次张量维度树。分解模型如图3所示，具体过程如下

(2.1)叶子节点系数矩阵求解：将待传输的高维时空场数据按维度展开成二维矩阵，得到n个二维矩阵，分别对每个二维矩阵做奇异值分解，提取其中的酉矩阵，并将其按Rank值截断，从而得到n个酉矩阵，所述酉矩阵即为分解维度树叶子节点系数矩阵，其中，n为待传输的高维时空场数据的维度。其中，二维矩阵展开具体步骤为：在分解维度树中非叶子节点的维度作为行，其他维度作为列，对待传输的高维时空场数据进行展开。

H'＝H×₁U₁ ^T×₂U₂ ^T×...×_dU_d ^T

(3)层次张量传输

将层次张量维度树经网络媒介传输至客户端，并实时返回网络状态，用于确定下一次数据推送时的数据压缩参数，其中，传输的层次张量分为文本形式的头文件和二进制格式的数据文件，头文件中包括层次张量维度树、各维度范围以及相应秩Rank的值；

(4)层次张量动态追加

对于多业务系统，客户端在接收到数据后若不需要进行显示或分析操作时，则在接收到层次张量文件后，直接将数据文件存储到磁盘空间，将头文件合并到客户端中的头文件集中，完成数据动态追加。

(5)层次张量按需重构

当用户提出数据显示或分析请求时，层次张量按需求重构，且在重构过程中完成数据再压缩，构建新的层次张量，以供后续的层次张量动态追加。

(5.1)层次张量合并：①如图4所示，将所有需求的分解维度树的叶子节点上的系数矩阵按照所在树中对应位置直接添加形式合并，生成层次张量[U_i,1,U_i,2,...,U_i,N]，形如U_i,*表示第i个分解维度树的第*个叶子节点的系数矩阵，i＝1,…,I，I表示需求的分解维度树的数目，N为叶子节点的个数；②将第k层非叶子节点的系数矩阵按对角形式合并，生成层次张量形如表示第i个分解维度树的第k层的第*个非叶子节点的系数矩阵，k取值为所有非叶子层数，M为当前层非叶子节点的数目；③合并后的层次张量作为对应节点的新的系数矩阵，从而形成层次张量维度树。层次张量合并即层次张量的追加。

(5.2)层次张量再压缩

如图5所示，具体步骤为：①对层次张量维度树中节点的系数矩阵正交化：对于叶子节点，将叶子结点的系数矩阵展开成二维矩阵，并作QR分解为Q矩阵和R矩阵，将分解的Q矩阵作为对应叶子节点的新的系数矩阵U'；叶子节点处理完后，开始处理第2层节点，将B作QR分解为Q矩阵和R矩阵，将Q矩阵作为当前节点的新的系数矩阵B'，式中，R_l表示当前节点的左子节点分解的R矩阵，R_r表示当前节点的右子节点分解的R矩阵，表示张量积运算，B表示当前节点的旧系数矩阵；第2层节点处理完后，开始处理第3层节点，步骤与第2层节点相同，重复执行，直至处理完根节点。

下面设定模拟实验，实现上述流程，并验证本方面的实施效果：

对提出的算法进行了试验模拟并对结果进行分析，原始数据为24个500×500×100的netcdf张量文件，每个大小190.73M，需要分24次推送到客户端。实验步骤如下：首先根据数据维度设定维度树为(R123(R12(R1，R2)，R3))；服务器到客户端的网络状况采用模拟数据如图6a所示，对其自适应的给定相应的Rank值，如图6b所示；而后经过层次张量压缩分24次传输到客户端，每次占用内存大小如图6c所示，将其与网络状况对比发现其波动状况与网络情况相一致，可以较好地利用网络带宽，并达到实时传输的目的；层次张量可按用户需求实时重构，选取四个时刻(1，8，15，22)进行重构实验，重构结果与原始数据的对比如图7所示，与为了进一步检验本发明压缩传输的精度，利用残差公式评价重构误差，其中A为原始张量，为重构张量，计算24个时间点的残差值如图6d所示。结果表明重构误差稳定在0.1以下，在Rank值较小的8，10，14，16时间点仍能保证较好地压缩精度。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于包括以下步骤：

2.根据权利要求1所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(1)具体包括：

(1.1)维度分层参数确定：针对待传输的高维时空场数据，采用对维度的二分分解方法进行降维，并根据降维后的数据设定维度分层参数，采用维度分层策略，得到分解维度树；

(1.2)张量压缩参数确定：根据当前网络状况，以保证传输误差小于阈值的同时尽可能提高压缩比为目标，确定张量压缩参数秩Rank的值。

3.根据权利要求2所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(1.1)中维度分层参数确定的基本原则是：保证各分解层的均衡性，以达到最大的空间、时间利用效率。

4.根据权利要求2所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(1.2)中确定张量压缩参数秩Rank的大小时，所需考虑的传输误差ε和最大压缩比以及传输时间τ的计算公式为：

5.根据权利要求1所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(2)具体包括：

(2.1)叶子节点系数矩阵求解：将待传输的高维时空场数据按维度展开成二维矩阵，得到n个二维矩阵，分别对每个二维矩阵做奇异值分解，提取其中的酉矩阵，并将其按Rank值截断，从而得到n个酉矩阵，所述酉矩阵即为分解维度树叶子节点系数矩阵，其中，n为待传输的高维时空场数据的维度；

(2.2)非叶子节点系数矩阵求解：根据底层节点的系数矩阵反解出上层节点的核张量，对核张量做奇异值分解，提取其中的酉矩阵，并将其按Rank值截断，所述截断后的酉矩阵即为对应节点的系数矩阵；其他非叶子节点重复该步骤，直至完成根节点系数矩阵的求解。

6.根据权利要求5所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(2.1)中，二维矩阵展开具体步骤为：在分解维度树中非叶子节点的维度作为行，其他维度作为列，对待传输的高维时空场数据进行展开。

7.根据权利要求5所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(2.2)中所述根据叶子节点的系数矩阵反解出上层节点的核张量，通过如下公式计算：

H'＝H×₁U₁ ^T×₂U₂ ^T×...×_d U_d ^T

式中，H'表示上层节点的核张量，H为原始张量，×_*为张量积符号，表示张量与矩阵相乘，形如表示第*维度的系数矩阵的转置，d表示维度。

8.根据权利要求1所述的有限网络带宽约束下的高维时空场数据实时传输方法，其特征在于：步骤(5)中所述层次张量按需重构的具体步骤为：

(5.2)层次张量再压缩：

<mrow> <mover> <mi>U</mi> <mo>^</mo> </mover> <mo>=</mo> <msubsup> <mi>U</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>S</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> </mrow>

<mrow> <mover> <mi>B</mi> <mo>^</mo> </mover> <mo>=</mo> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>t</mi> <mi>r</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>H</mi> </mrow> </msubsup> <mo>&CircleTimes;</mo> <msubsup> <mi>S</mi> <mrow> <mi>t</mi> <mi>l</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>H</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <msubsup> <mi>B</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> <msubsup> <mi>S</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> </mrow>

<mrow> <msub> <mover> <mi>B</mi> <mo>^</mo> </mover> <mrow> <mi>r</mi> <mi>o</mi> <mi>o</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mrow> <mo>(</mo> <msubsup> <mi>S</mi> <mrow> <mi>t</mi> <mi>r</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>H</mi> </mrow> </msubsup> <mo>&CircleTimes;</mo> <msubsup> <mi>S</mi> <mrow> <mi>t</mi> <mi>l</mi> </mrow> <mrow> <mo>&prime;</mo> <mi>H</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <msubsup> <mi>B</mi> <mi>t</mi> <mo>&prime;</mo> </msubsup> </mrow>

式中，t代表层级关系，U′_t为压缩前叶子节点的系数矩阵，S′_t为该节点截取Gramian正交酉矩阵的矩阵，为压缩后对应叶子节点的层次张量，为左子节点系数矩阵，为右子节点系数矩阵，B′_t为当前节点的原来的系数矩阵，为以及两个子节点的父节点的核张量，为根节点的核张量；

(5.3)层次张量重构：对于步骤③得到的层次张量，应用张量积公式重构出其原始数据，重构公式为式中，A，B为两个张量，分别为A张量的两个系数矩阵，分别为B张量的两个系数矩阵，分别为A，B张量合并后的核张量。