CN116955482B

CN116955482B - 基于信息损失约束的数据划分方法及装置

Info

Publication number: CN116955482B
Application number: CN202310774181.2A
Authority: CN
Inventors: 李雅文; 高杰; 薛哲; 邵蓥侠
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2024-06-04
Anticipated expiration: 2043-06-27
Also published as: CN116955482A

Abstract

本发明提供一种基于信息损失约束的数据划分方法及装置，包括：获取各空间网格单元中分布的时空数据，并确定空间网格单元的时空属性和属性值；基于各属性值计算任意相邻两个空间网格单元的邻接属性差异值，确定最小邻接属性差异值，将多个空间网格单元分为多个空间网格单元组；确定各空间网格单元组的代表性属性值，基于代表性属性值和空间网格单元组内的各空间网格单元的属性值计算信息损失值；在信息损失值不小于预设的信息损失阈值时，构建图网络，获取图网络的节点特征矩阵、邻接矩阵及节点度向量；基于训练好的图嵌入模型得到各节点的分区概率，基于各节点的分区概率得到时空数据分区结果。该方法提高了时空数据的划分效率及划分结果准确度。

Description

基于信息损失约束的数据划分方法及装置

技术领域

本发明涉及数据划分技术领域，尤其涉及一种基于信息损失约束的数据划分方法及装置。

背景技术

目前已经有多种技术方案基于分布式数据库的底层技术来对海量的时空数据进行存储、组织和管理，然而真实世界的时空数据往往伴随着数据在时间与空间上分布不均匀的情况，也即时空数据具有空间聚集性以及时间相关性等特点，在这种情况下如果直接对数据进行编码并进行分布式映射，容易出现因数据在存储上的分布不均导致的“数据倾斜”的现象；因此对海量的时空数据研究其分布式存储方法时，如何将时空分布不均的大规模数据进行数据划分以进行存储负载均衡、并维护其时空近邻特性是重要的。

针对时空数据的多维特性，目前对于时空数据的划分一般采用两种方式：一种是将数据拆分成时间和空间两个维度分别进行划分，另一种则是通过映射构建时空立方体的方法对时空数据进行划分。现有技术中常用的第一种时空数据划分方法容易导致时空关系的割裂，第二种时空数据划分方法随着数据规模的增长，则会导致构建和维护时空立方体变得极其困难；上述两种数据划分方法虽然都可实现时空数据的划分，但是存在着划分效率低以及划分结果准确度低的问题，进而也导致针对分布式环境下的存储节点之间的数据量负载均衡的效果较差。因此，如何提高时空数据的划分效率以及划分结果准确度是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于信息损失约束的数据划分方法及装置，以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面，本发明公开了一种基于信息损失约束的数据划分方法，所述方法包括：

获取各空间网格单元中分布的时空数据，并确定各所述空间网格单元的时空属性和属性值；

基于各所述空间网格单元的属性值计算任意相邻两个空间网格单元的邻接属性差异值，基于计算得到的任意相邻两个空间网格单元的邻接属性差异值确定最小邻接属性差异值，基于所述最小邻接属性差异值将多个所述空间网格单元分为多个空间网格单元组；

确定各所述空间网格单元组内的时空数据的代表性属性值，基于所述空间网格单元组的代表性属性值和所述空间网格单元组内的各空间网格单元的属性值计算信息损失值；

在所述信息损失值小于预设的信息损失阈值时，基于多个空间网格单元组构建图网络，获取所述图网络的节点特征矩阵、邻接矩阵及节点度向量；其中，所述图网络的节点为各空间网格单元组，所述图网络的边表示两个节点互为4-邻域空间网格单元组；

将所述图网络的节点特征矩阵、邻接矩阵及节点度向量输入至训练好的图嵌入模型中得到各节点的分区概率，基于各节点的分区概率得到时空数据分区结果。

在本发明的一些实施例中，在基于各所述空间网格单元的属性值计算任意相邻两个空间网格单元的邻接属性差异值之前，所述方法还包括：对各所述空间网格单元中分布的时空数据进行归一化处理。

在本发明的一些实施例中，基于所述最小邻接属性差异值将多个所述空间网格单元分为多个空间网格单元组，包括：将邻接属性差异值小于或等于所述最小邻接属性差异值的两个相邻单元网格划分为同一空间网格单元组。

在本发明的一些实施例中，确定各所述空间网格单元组内的时空数据的代表性属性值，包括：

获取各所述空间网格单元组内的时空数据的平均的第一属性值和出现频率最高的第二属性值；

分别计算第一属性值和第二属性值对应的局部损失，将局部损失较小的第一属性值或第二属性值作为所述空间网格单元组内的时空数据的代表性属性值。

在本发明的一些实施例中，局部损失的计算公式为：

其中，Loss_cg(k)表示空间网格单元组的时空属性k对应的局部损失值，d_i(k)表示空间网格单元组内的第i个空间网格单元的时空属性k对应的属性值，cg(k)表示空间网格单元组的时空属性k对应的第一属性值或第二属性值，t表示空间网格单元组内的空间网格单元的总数量。

在本发明的一些实施例中，信息损失的计算公式为：

其中，n表示空间网格单元的总数量，s表示时空属性的总数量，d_i(k)表示空间网格单元i对应的时空属性k的初始属性值，表示空间网格单元i对应的空间网格单元组的时空属性k对应的代表性属性值，/>表示初始属性值与代表性属性值的信息损失值。

在本发明的一些实施例中，所述方法还包括：

构建深度学习网络模型，建立样本数据集和模型损失函数；

基于所述模型损失函数和样本数据集对所述深度学习网络模型进行预训练得到训练好的图嵌入模型。

在本发明的一些实施例中，所述模型损失函数为：

Loss_GPM＝E[MNcut(S₁，...，S_g)]+L_balance；

其中，S₁，...，S_g表示图网络通过删除部分边被划分成的不相交的集合，g表示时空数据分区总数量，E[MNcut(S₁...，S_g)]表示最小归一化边割的期望值，L_balance表示平衡分区损失值，Y表示分区概率，D表示节点度向量，A表示邻接矩阵，⊙A表示与邻接矩阵A做哈达玛积，F表示节点的负载数据量向量，f_i表示节点i对应的空间网格单元组中的时空数据总数量，n表示图网络的节点数量，ε表示大于0的极小数值，e表示元素均为1的向量。

根据本发明的再一方面，还公开了一种基于信息损失约束的数据划分系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

根据本发明的又一方面，还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本申请的基于信息损失约束的数据划分方法及装置在进行时空数据划分时，首先计算任意两个相邻网格单元的邻接属性差异值，并基于最小的邻接属性差异值将多个空间网格单元分为多个空间网格单元组，并进一步的基于划分后的空间网格单元组的代表性属性值计算信息损失值，在信息损失值小于预设的信息损失阈值时，则基于图嵌入模型完成时空数据的分区划分，从而实现分布式环境下的存储节点之间的数据量负载均衡。该方法对于大规模的时空数据划分效率高、划分结果准确度高、内存消耗小，并能够在预先定义的信息损失阈值的约束下，显著缩减数据规模，并有效降低图嵌入模型的训练时长，高效的完成数据划分，从而有效地平衡数据的存储负载，并有效维护了数据划分结果的时空近邻性。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本发明一实施例的基于信息损失约束的数据划分方法的流程示意图。

图2为本发明一实施例的基于信息损失约束的数据划分系统的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

数据划分是分布式存储的重要基础之一，其是为了提高数据访问速度，或者受限于存储空间大小，而对被访问数据进行分块处理的技术；在数学中，图划分是将图的节点集划分为互斥的组，从而将图简化为较小的图；而在分布式计算中，其是指将数据分发到集群中的不同节点上，以尽量达到各个节点上的数据量大小均匀，避免大量数据倾斜在某些节点所导致的负载不均衡的现象出现。

在现有技术中，除了目前普遍采用的时空数据划分方法存在着划分效率低以及划分结果准确度低的问题之外，则针对时空数据若想实现分布式环境下的存储节点之间的数据量负载均衡，现有技术中一般采用基于空间降维的负载均衡、基于图划分算法的负载均衡以及基于启发式算法的负载均衡，现有的负载均衡方法虽然可实现分布式环境下的存储节点之间的数据量负载均衡，但在针对大规模时空数据时并不能完全保证维持其时空近邻关系，因而现有的负载均衡算法在面对大规模时空数据时划分效果不理想。因此，本申请公开了一种基于信息损失约束的数据划分方法及装置，以在提高了时空数据划分效率和划分结果的准确性的前提下，还进一步的有效维护数据划分结果的时空近邻性。其中信息损失(information loss,IFL)是指未被划分的初始时空数据集与经过划分后的结果之间的信息差。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1为本申请一实施例的基于信息损失约束的数据划分方法，参考图1，该方法至少包括步骤S10至S50。

步骤S10：获取各空间网格单元中分布的时空数据，并确定各所述空间网格单元的时空属性和属性值。

在该步骤中，首先以数据的时空分布角度出发，将空间地理区域表示为由多个空间网格单元组成，各空间网格单元中分布有一个或多个时空数据，而空间网格单元中的时空数据的时空属性基于具体的应用场景进行确定，如在一实施例中，时空数据的时空属性包括时间、地点等，而时间属性所对应的具体属性值为XX时间，地点属性对应的具体属性值如XX街道。可以理解的，在不同应用场景的实施例中，时空数据的具体时空属性不同，并且时空属性的数量也不同。

步骤S20：基于各所述空间网格单元的属性值计算任意相邻两个空间网格单元的邻接属性差异值，基于计算得到的任意相邻两个空间网格单元的邻接属性差异值确定最小邻接属性差异值，基于所述最小邻接属性差异值将多个所述空间网格单元分为多个空间网格单元组。

在该步骤中，首先计算所有相邻的两个空间网格单元的邻接属性差异值，并逐一记录，进而确定最小邻接属性差异值。在将所有的空间网格单元划分为多个空间网格单元组时，则基于最小邻接属性差异值进行划分，使得各空间网格单元组内的任意两个空间网格单元之间的邻接属性差异值不大于先前确定的最小邻接属性差异值，即使得各空间网格单元组内的任意两个空间网格单元的属性值较接近。

示例性的，邻接属性差异值的计算方式如：其中，p表示时空属性的总数量，d_i(k)表示空间网格单元i的时空属性k对应的属性值，d_j(k)表示空间网格单元j的时空属性k对应的属性值，Variation_i，j表示空间网格单元i与空间网格单元j之间的邻接属性差异值。

另外，由于时空数据集中的空间信息一般由经度和纬度两个坐标组成，需要对其进行Geohash编码并数值化后才能便于模型计算，若直接使用时空数据集中的非标准化数据计算邻接属性差异值，则最终的划分结果可能会由值范围较大的属性主导，导致模型失去其有效性，因而在基于各所述空间网格单元中的时空数据的属性值计算任意相邻两个空间网格单元的邻接属性差异值之前，还可对各空间网格单元中分布的时空数据进行归一化处理，即将时空数据集中的时空数据转化成时空属性归一化的形式。

示例性的，基于所述最小邻接属性差异值将多个所述空间网格单元分为多个空间网格单元组，包括：将邻接属性差异值小于或等于所述最小邻接属性差异值的两个相邻单元网格划分为同一空间网格单元组。具体的，空间网格单元组的划分具体可通过单元组提取器实现，即在划分单元组过程中，单元组提取器会遍历网格中的所有空间网格单元，并保证所有划分至同一组内的每一对相邻的空间网格单元都能使得其邻接属性差异值小于等于当前迭代轮次的最小邻接属性差异值。在该实施例中，可经过多轮迭代完成所有空间网格单元的分组，迭代终止条件可通过在后续步骤中S30计算得到的信息损失值进行确定，具体的将当前迭代结束计算到的信息损失值与预设的信息损失阈值进行比较，当计算到的信息损失值大于或等于预设的信息损失阈值时，则迭代结束；而当计算到的信息损失值小于预设的信息损失阈值时，则进行下一轮迭代，在下一轮迭代过程中，则基于在第一轮迭代过程中计算得到的任意相邻两个空间网格单元的邻接属性差异值更新最小邻接属性差异值，如在第一轮迭代过程中将计算得到的所有邻接属性差异值中的最小值作为最小邻接属性差异值，而在第二轮迭代过程中，则将所有邻接属性差异值中的除第一轮迭代过程确定的最小邻接属性差异值之外的其他邻接属性差异值中的最小值作为第二轮迭代过程中的更新后的最小邻接属性差异值。

在基于单元组提取器进行分组时，还进一步的将空间网格单元索引和空间网格单元组索引进行映射，即当将空间网格单元索引映射至对应的空间网格单元组时，则可将空间网格单元组的索引与空间网格单元的起始行、列以及终止行、列的位置一一对应的进行存储。

步骤S30：确定各所述空间网格单元组内的时空数据的代表性属性值，基于所述空间网格单元组的代表性属性值和所述空间网格单元组内的各空间网格单元的属性值计算信息损失值。

在该步骤中，当将所有的空间网格单元划分为多个空间网格单元组后，则进一步的确定各所述空间网格单元组内的时空数据的代表性属性值，从而进一步的计算信息损失值，空间网格单元组内的时空数据的代表性属性值也可以看作为空间网格单元组的特征。

示例性的，可基于特征分配器确定各所述空间网格单元组内的时空数据的代表性属性值，由于对空间网格单元组分配代表性特征时需要考虑初始时空属性对模型的影响，若采用归一化后的属性值则会降低模型精度，导致后续迭代轮次中划分结果不准确，因此特征分配器在对空间网格单元组分配代表性特征时采用各空间网格单元中分布的原始的时空数据。

在确定各所述空间网格单元组内的时空数据的代表性属性值时，可首先计算空间网格单元组内的时空数据的属性值的平均值，以及确定空间网格单元组内出现频率最高的属性值，该两种属性值均有可能作为空间网格单元组的代表性属性值。进一步的，可分别计算上述两种属性值对应的局部损失值，并将局部损失值较小的属性值作为空间网格单元组最终的代表性属性值。

示例性的，确定各所述空间网格单元组内的时空数据的代表性属性值，包括：获取各所述空间网格单元组内的时空数据的平均的第一属性值和出现频率最高的第二属性值；分别计算第一属性值和第二属性值对应的局部损失，将局部损失较小的第一属性值或第二属性值作为所述空间网格单元组内的时空数据的代表性属性值。

进一步的，局部损失的计算公式为：

其中，Loss_cg(k)表示空间网格单元组的时空属性k对应的局部损失值，d_i(k)表示空间网格单元组内的第i个空间网格单元的时空属性k对应的属性值，cg(k)表示空间网格单元组的时空属性k对应的第一属性值或第二属性值，t表示空间网格单元组内的空间网格单元的总数量。可以理解的，在上述实施例中，局部损失仅用于进行空间网格单元组的代表性属性值(特征)的分配。

在基于上述方法确定了各空间网格单元组的代表性属性值之后，进一步的计算经过当前轮迭代后的数据划分结果与原始的空间网格单元中分布的时空数据的信息损失值。示例性的，信息损失的计算公式为：其中，n表示空间网格单元的总数量，s表示时空属性的总数量，d_i(k)表示空间网格单元i对应的时空属性k的初始属性值，/>表示空间网格单元i对应的空间网格单元组的时空属性k对应的代表性属性值，/>表示初始属性值与代表性属性值的信息损失值。在经过当前轮迭代后计算得到的信息损失值若小于预设的信息损失阈值时，则继而进行下轮迭代。

步骤S40：在所述信息损失值不小于预设的信息损失阈值时，基于多个空间网格单元组构建图网络，获取所述图网络的节点特征矩阵、邻接矩阵及节点度向量；其中，所述图网络的节点为各空间网格单元组，所述图网络的边表示两个节点互为4-邻域空间网格单元组。

在经过一轮或多轮的迭代过程之后，若计算得到的信息损失值不小于预设的信息损失阈值时，进一步的基于图划分模块完成时空数据的分区划分，从而实现分布式环境下的存储节点之间的数据量负载均衡。

时空数据的划分结果为多个互不相交的空间网格单元组，若基于时空数据的划分结果采用哈希法或轮询法等方式进行分组路由则会破坏时空数据中相邻网格的时空近邻特性，因此在本申请中，该步骤基于图划分的方式对时空数据进行分区，图划分的方式既可以有效保持数据的时空近邻性，同时又使得时空数据在分布式节点的存储实现负载均衡。本申请的图划分模块首先基于时空数据的划分结果构建图网络，并生成具有最小归一化边割的图的平衡划分结果。

在基于多个空间网格单元组构建图网络时，首先将各空间网格单元组映射为图网络的各节点，而各空间网格单元组内包含的时空数据的数量作为对应节点的权重。为了避免构成过于繁琐的图网络导致后续进行图划分时产生较低的划分效率和需要较长的训练时长，则在考虑时空近邻性的前提下，将空间网格单元组中与其D-邻域相邻的空间网格单元组认为成在时空上是不近邻的，因而仅将互为4-邻域相邻的两个空间网格单元组之间设置边。

步骤S50：将所述图网络的节点特征矩阵、邻接矩阵及节点度向量输入至训练好的图嵌入模型中得到各节点的分区概率，基于各节点的分区概率得到时空数据分区结果。

在该步骤中，基于图嵌入模型将图网络进行分区划分，即划分为节点权重之和相近的m个子图(或称为m个分区)，其中m表示分布式环境下的集群中存储节点的数量。

在本发明的一实施例中，基于信息损失约束的数据划分方法还包括如下步骤：构建深度学习网络模型，建立样本数据集和模型损失函数；基于所述模型损失函数和样本数据集对所述深度学习网络模型进行预训练得到训练好的图嵌入模型。

示例性的，模型损失函数为：

Loss_GPM＝E[MNcut(S₁，...，S_g)]+L_balance；

其中，S₁，...，S_g表示图网络通过删除部分边被划分成的不相交的集合，g表示时空数据分区总数量(不相交的集合的总数量)，E[MNcut(S₁，...，S_g)]表示最小归一化边割的期望值，L_balance表示平衡分区损失值，Y表示分区概率，D表示节点度向量，A表示邻接矩阵，⊙A表示与邻接矩阵A做哈达玛积，F表示节点的负载数据量，f_i表示节点i对应的空间网格单元组中的时空数据总数量，n表示图网络的节点数量，ε表示大于0的极小数值，e表示元素均为1的向量。

具体的，上述的图划分模块定义了一个以平衡分区以及最小归一化边割为目标的损失函数，并通过训练图嵌入模型的方式反向传播以优化此损失。对于图网络的最小归一化边割，可首先定义无向图G＝(V，E)，其中V＝{v_i}表示图G中节点的集合，E＝{e(v_i，v_j)|v_i，v_j∈V}表示G中边的集合，G可以通过删除部分连接边划分成不相交的集合S₁，...，S_g，为了形成不相交集合而从G中移除的边的总数称为边割，其中不相交的集合S₁，...，S_g可看作为基于图划分模块划分的g个分区。另外，图的最小归一化边割而/>vol(S_k，V)表示图G中属于集合S_k的节点总度，g表示最终被划分的集合的总数量，/>表示图网络的最小割。

在本申请中，图划分模块的输出结果可表示为Y∈R^n×g，并且Y_ik表示图网络中的节点v_i∈V被划分至不相交分区集合S_k的概率,n表示图网络的节点数量，g表示被划分的不相交的分区或集合的总数量。因此，进一步的提出基于Y的损失函数用于计算最小归一化边割，并评估划分结果的平衡性，则最小归一化边割可以进一步表述为：其中，N(v_i)表示与节点v_i邻接的节点集合，则该集合中的节点j属于分区S_k的概率即为1-Y_jk，Y_jk表示N(v_i)中的节点v_j属于分区S_k的概率。

进一步的，由于vol(S_k，V)表示图G中属于集合Sk的节点总度，而节点所属分区的概率Y_：，k∈R^n×g,n表示图网络的节点数量，g表示被划分的不相交的分区或集合的总数量，因此图网络中各节点的度所组成的向量可表示为D，因而可进一步的被表示为E[vol(S_k，V)]＝Y_：，k ^TD，E[vol(S_k，V)]表示vol(S_k，V)的期望值，E[vol(S_k，V)]的计算结果为g维向量，其中g表示被划分的不相交的分区数量。另外，与节点v_i邻接的节点集合N(v_i)可以基于图网络的邻接矩阵A中直接获得，因此图的最小归一化边割可以简化为对下列公式求解：/>其中，D为网络中各节点的度所组成的向量，Y表示分区概率，E[MNcut(S₁，...，S_g)]表示最小归一化边割的期望值；⊙A表示与邻接矩阵A做哈达玛积，即逐元素相乘并返回相同维度的矩阵。

为了进一步考虑对图划分结果的均衡性的度量，本申请的图划分在损失函数中引入了分区平衡损失.对于给定的图G，其节点数为|V|＝n，假设分区数为g，每个节点v_i的数据量为f_i，则为了保持平衡分区每个分区的平均负载应为为此定义一个向量F表示各节点的负载数据量，即F表示节点的负载数据量向量，则分区平衡损失的计算公式为其中ε表示一个大于0的极小数值，e是一个所有元素均为1的向量，用于向量的逐元素相减。基于上述内容可知，图划分模块的最终损失函数为：Loss_GPM＝E[MNcut(S₁，...，S_g)]+L_balance。基于该损失函数通过样本数据集对图嵌入模型进行学习，从而将每个嵌入投影到概率分布空间以求得图的平衡划分的局部最优解。

对应的，本申请还提供了一种基于信息损失约束的数据划分系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

图2为本发明一实施例的基于信息损失约束的数据划分系统的架构示意图，参考图2，该基于信息损失约束的数据划分系统主要包括时空划分模块(STPM)和图划分模块(GMP)，STPM从数据的时空分布角度出发，将空间地理区域表示为由多个空间网格单元组成，并基于空间网格单元的时空属性将其划分成组；但若网格的粒度太细时会产生大量的空间网格单元，从而导致后续划分过程中训练时间长、内存消耗大；而STPM可以通过计算空间网格单元之间的属性差异迭代地将相邻空间网格单元合并到单元组中，从而达到在控制信息损失低于预先定义的阈值且不影响模型精度的前提下，显著降低网格粒度，缩减数据规模的效果。STPM仅允许将在时间与空间两个维度上高度相关且近邻的空间网格单元分为一组，而信息损失阈值的约束可以确保时空划分后的数据集在缩减数据规模的同时仍能保证后续图划分模块的划分质量。

图划分模块从深度学习的角度出发，对前述的时空划分结果构建图网络，并定义了一个损失函数来对图进行平衡划分；在优化损失函数的同时，运用图嵌入技术学习和适应图结构。在上述的时空划分模块和图划分模块的联合作用下，本申请能够在预先定义的信息损失阈值的约束下，显著缩减数据规模的同时，有效降低深度学习图划分模型的训练时长，完成高效的数据划分，从而高效的实现存储负载的平衡，并有效的维护了数据划分结果的时空近邻性。

具体的，本申请的时空划分模块STPM本质上是一种将空间网格单元分组在一起以使得单元组内部的空间网格单元之间时空属性差异保持最小的迭代算法，如图2所示，在迭代开始之前首先对时空数据集进行时空属性归一化处理，并预先计算最小邻接属性差异值；之后单元组提取器负责遍历各空间网格单元并划分成多个单元组，使其满足组内空间网格单元之间的属性差异小于等于前述确定的最小邻接属性差异值。在当前轮迭代过程中确定了多个空间网格单元组之后，则令每个单元组充当下一轮迭代中输入模型中的单个空间网格单元，并且在之后的每一轮迭代划分中，STPM均不再重复计算邻接属性差异值，而是不断取先前记录的值对最小邻接属性差异值进行更新并传给单元组提取器，即在更新时以除之前迭代过程中采用的最小邻接属性差异值之外的其他邻接属性差异值中的最小值作为该轮迭代过程中的最小邻接属性差异值。在基于单元组提取器完成空间网格单元组的划分之后，则进一步基于特征分配器对提取出的各单元组创建并分配特征，也即确定各单元组的代表性属性值，最终计算初始时空数据集与每一轮迭代完成后的时空数据划分结果之间的信息损失IFL，并判断计算得到的信息损失是否小于预设的信息损失阈值θ。

以下为一具体的时空划分模块STPM的迭代划分算法的执行代码：

算法1：时空划分模块STPM的迭代划分算法

输入：初始数据集网格gridData，数据集时空属性归一化结果dataNorm，最小邻接属性差异值minVariation，信息损失阈值θ；

输出：时空划分结果网格newGrid,信息损失计算结果IFL

在基于时空数据划分模块完成时空数据的划分之后，图划分模块CPM首先将时空数据划分模块输出的划分结果映射为图网络，进而提取图网络的邻接矩阵A、记录节点度信息的向量D以及节点特征X；图嵌入模型以邻接矩阵A、记录节点度信息的向量D以及节点特征X为输入。特征的提取可基于图卷积网络实现，在CPM中，构建了2层GCN来对图网络进行特征提取；另外，本申请的CPM模块还采用GraphSAGE基于节点输入特征来生成高维图节点表示，在此过程中，GPM首先通过采样获取目标节点的邻居节点的特征，之后再通过聚合邻居节点的特征生成目标节点的嵌入。后续GPM接收学习到的节点嵌入并通过全连接层和SoftMax生成每个节点属于分区S₁，...，S_g的概率，也即图2所示的模型输出Y。

对于上述实施例的时空划分模块STPM通过将空间网格单元划分成组的方式来缩减时空数据的规模，在将时空划分的结果用于训练图划分模型时有助于减少模型的训练耗时，在一定程度上提高了划分效率，并维护了数据的时空近邻关系。另外图划分模块GPM则针对分布式存储中的负载均衡问题，提出了一个深度学习图划分模型，并设计了一个综合损失函数，其目的是通过损失函数的约束在考虑最小归一化边割的同时将图节点划分至平衡分区中。

通过上述实施例可以发现，本申请的基于信息损失约束的数据划分方法及系统主要针对大规模时空数据，以时空数据划分和负载均衡算法作为理论基础，在对海量的时空数据进行分布式存储之前，首先针对数据的时空近邻特性对时空数据进行划分，将数据划分成多个空间网格单元组，并在此基础上将时空数据的划分结果抽象成图结构，再利用图神经网络构造图划分算法，在保证数据时空近邻性的同时进一步保证分布式存储的负载均衡性。并且本申请的数据划分方法和系统允许在规定的信息损失阈值的约束下缩减数据规模，并迭代地对大规模时空数据集进行高效划分，且不需要预先指定最终的分区数量；同时通过对时空数据的划分结果构建图网络，利用图嵌入技术，设计了综合考虑图的最小归一化边割和分区负载均衡的损失函数，并通过训练深度学习模型，完成对图结构的平衡划分。

另外，该发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于信息损失约束的数据划分方法，其特征在于，所述数据划分方法包括：

在所述信息损失值不小于预设的信息损失阈值时，基于多个空间网格单元组构建图网络，获取所述图网络的节点特征矩阵、邻接矩阵及节点度向量；其中，所述图网络的节点为各空间网格单元组，所述图网络的边表示两个节点互为4-邻域空间网格单元组；

将所述图网络的节点特征矩阵、邻接矩阵及节点度向量输入至训练好的图嵌入模型中得到各节点的分区概率，基于各节点的分区概率得到时空数据分区结果；

确定各所述空间网格单元组内的时空数据的代表性属性值，包括：

2.根据权利要求1所述的基于信息损失约束的数据划分方法，其特征在于，在基于各所述空间网格单元的属性值计算任意相邻两个空间网格单元的邻接属性差异值之前，所述方法还包括：对各所述空间网格单元中分布的时空数据进行归一化处理。

3.根据权利要求2所述的基于信息损失约束的数据划分方法，其特征在于，基于所述最小邻接属性差异值将多个所述空间网格单元分为多个空间网格单元组，包括：将邻接属性差异值小于或等于所述最小邻接属性差异值的两个相邻单元网格划分为同一空间网格单元组。

4.根据权利要求1所述的基于信息损失约束的数据划分方法，其特征在于，局部损失的计算公式为：

5.根据权利要求1至4中任意一项所述的基于信息损失约束的数据划分方法，其特征在于，信息损失的计算公式为：

6.根据权利要求1所述的基于信息损失约束的数据划分方法，其特征在于，所述方法还包括：

构建深度学习网络模型，建立样本数据集和模型损失函数；

7.根据权利要求6所述的基于信息损失约束的数据划分方法，其特征在于，所述模型损失函数为：

Loss_GPM＝E[MNcut(S₁,...,S_g)+L_balance；

其中，S₁，...，S_g表示图网络通过删除部分边被划分成的不相交的集合，g表示时空数据分区总数量，E[MNcut(S₁，...，S_g)]表示最小归一化边割的期望值，L_balace表示平衡分区损失值，Y表示分区概率，D表示节点度向量，A表示邻接矩阵，⊙A表示与邻接矩阵A做哈达玛积，F表示节点的负载数据量向量，f_i表示节点i对应的空间网格单元组中的时空数据总数量，n表示图网络的节点数量，ε表示大于0的极小数值，e表示元素均为1的向量。

8.一种基于信息损失约束的数据划分系统，该系统包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1至7中任意一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任意一项所述方法的步骤。