CN117806917B

CN117806917B - 基于数据网格的数据产品冷热分离方法及系统

Info

Publication number: CN117806917B
Application number: CN202410234535.9A
Authority: CN
Inventors: 于峰; 戴弘林; 王晟; 丁皓
Original assignee: Jiangsu Liangjie Data Technology Co ltd
Current assignee: Jiangsu Liangjie Data Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-04-26
Anticipated expiration: 2044-03-01
Also published as: CN117806917A

Abstract

本发明公开了一种基于数据网格的数据产品冷热分离方法及系统，包括：划分数据产品类别，并将服务级别指标作为所述数据产品冷热指数进行量化的判定标准；根据所述服务级别指标与所述数据产品之间的关联度，进行数据产品冷热指数计算，得到优化后的数据产品冷热指标；基于所述数据产品冷热指标动态进行数据产品的扩缩容服务，以自动扩展、缩减服务容量：当优化后的数据产品冷热指标>系统设置HOT阈值时，所述数据产品为热数据产品；当优化后的数据产品冷热指标≤系统设置HOT阈值时，所述数据产品为冷数据产品。本发明通过实现数据网格中数据产品的冷热程度定义，并进行冷热量化指标的计算，实现数据网格系统的资源效率最大化。

Description

基于数据网格的数据产品冷热分离方法及系统

技术领域

本发明涉及数据存储技术领域，尤其涉及一种基于数据网格的数据产品冷热分离方法及系统。

背景技术

数据网格是一种新兴的数据架构理念，旨在解决传统集中式数据架构的一些问题，现有技术中，数据集中存储在单一的数据湖或数据仓库中，这导致数据所有权不清晰、耦合度高、扩展性差，而数据网格将数据划分归属为小的、自治的单元，每个单元被称为领域，并由独立的团队负责，以提高数据的所有权和可维护性，使数据更加分散、可扩展和容错。

数据产品是指通过加工和分析数据而产生的可用于支持业务决策或创造价值的产品，数据产品不仅包括数据分析报告和仪表板，还可以是机器学习模型、数据服务、API，数据产品化强调将数据视为一种产品，通过不断地加工、优化和创新，为组织提供更有价值的洞察和服务。

传统的集中式数据存储中的数据冷热分离技术仅关注数据层面，如数据被访问的时间和温度系数以及其关联数据的温度系数计算，而在数据网格中，数据与数据产品直接关联，对于数据产品本身的冷热分离是一个重点研究内容，其与包含的数据冷热分离具有密切的关系。

目前，针对数据网格的数据产品冷热分离技术，还存在以下问题：（1）数据产品层面如何定义冷与热以及具体的指标应该如何量化计算；（2）针对冷热数据产品如何进行动态资源分配才能使得系统资源效率最大化；（3）数据产品的冷热与其包含的数据冷热如何关联操作。

发明内容

本发明的目的旨在提供一种基于数据网格的数据产品冷热分离方法，实现数据网格中数据产品的冷热程度定义，并进行冷热量化指标的计算，针对量化指标实现基于数据网格的数据产品冷热分离系统，进行系统资源监控和动态数据产品资源调度，实现数据网格系统的资源效率最大化。

为实现上述目的，本发明提供如下技术方案：划分数据产品类别，并将服务级别指标作为所述数据产品冷热指数进行量化的判定标准；

根据所述服务级别指标与所述数据产品之间的关联度，进行数据产品冷热指数计算，得到优化后的数据产品冷热指标；

基于所述数据产品冷热指标动态进行数据产品的扩缩容服务，以自动扩展、缩减服务容量：

当优化后的数据产品冷热指标>系统设置HOT阈值时，所述数据产品为热数据产品；

当优化后的数据产品冷热指标≤系统设置HOT阈值时，所述数据产品为冷数据产品。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，所述数据产品类别包括冷数据产品和热数据产品，其中：

所述热数据产品为实时数据产品；

所述冷数据产品为定时数据产品或需要手动触发的数据产品。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，所述服务级别指标包括响应时间、可用性、吞吐量、错误率、数据更新频率和资源利用率。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，所述关联度为不同数据产品之间的相互依赖和相互影响程度，其包括数据产品之间的数据交互、共享程度，以及一个数据产品的热度对其他数据产品的影响度。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，所述关联度的定义如下：

其中，upStreamPHI表示上游数据产品的冷热指标，downStreamPHI表示下游数据产品的冷热指标，为上下游权重配比，默认/>，/>范围为[0,1]；

当前数据产品具有上游数据产品的输入时，α=1，否则α=0；

当前数据产品具有下游数据产品依赖时，β=1，否则β=0；

当具有多个上下游数据产品时，可以进行加权计算。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，进行加权计算，得到优化后的数据产品冷热指标，其定义如下：

其中，为综合冷热指数，/>为关联度指标的权重占比，可以由皮尔逊相关系数结果作为参考默认值，ProductHotnessIndex的值域范围为[0, 2]，如果没有上下游依赖，则值域范围在[0, 1]。

作为本发明所述的基于数据网格的数据产品冷热分离方法的一种优选方案，利用数据产品冷热分离系统设置HOT阈值，所述HOT阈值初始化为HOT=0.5；

基于联邦计算治理的领域代表共同协商调节HOT阈值更新；

当积累多个周期的HOT阈值指标后，通过机器学习算法对每个周期阈值对应的系统各个服务级别指标的上下限进行自动HOT阈值预测，实现自动动态阈值调节；

当ProductHotnessIndex>HOT阈值时，该数据产品判定为热数据产品；

当ProductHotnessIndex≤HOT阈值时，该数据产品判定为冷数据产品。

作为本发明所述的基于数据网格的数据产品冷热分离系统的一种优选方案，其中：

数据网格，用于整合分布在不同节点的数据产品；

数据产品服务层，用于接收和处理用户的数据访问请求，并根据用户需求调用所述数据网格中的相应数据产品，同时记录访问日志和统计信息；

冷热数据产品判定和迁移引擎，用于基于数据产品的访问频率、更新频率、历史性、上下游数据产品关联性的多维度信息，计算数据产品的冷热度指数；

动态资源分配和更新策略层，用于实时监测数据产品的访问情况和特征，并根据实时冷热度指数调整数据产品的资源分配和更新策略。

作为本发明所述的基于数据网格的数据产品冷热分离系统的一种优选方案，所述系统还包括一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括如前述基于数据网格的数据产品冷热分离方法的流程。

本发明的有益效果：

1、针对数据产品给出明确的冷热定义，基于数据产品的冷热定义，通过服务层级的服务级别指标实现冷热指标的量化计算，针对冷热数据产品包含的冷热数据的冷热计算具有正向借鉴作用；

2、深度考虑数据产品机制的关联性，引入数据产品的关联度计算作为数据产品冷热指标的附加项，使得整体计算指标更合理；

3、给出了一种基于数据网格的数据产品冷热分离系统的实现，通过动态的冷热指标计算与资源调度，实现了数据网格系统的资源效率最大化运行。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明所示的基于数据网格的数据产品冷热分离方法及系统的流程示意图；

图2为本发明所示的基于数据网格的数据产品冷热分离方法及系统的数据网格各原则组件结构示意图；

图3为本发明所示的基于数据网格的数据产品冷热分离方法及系统的数据产品上下游依赖关系示意图；

图4为本发明所示的基于数据网格的数据产品冷热分离方法及系统的系统组件示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。

基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

根据本发明的实施例，结合图1所示的流程图，一种基于数据网格的数据产品冷热分离方法，包括以下步骤：

S1：划分数据产品类别，并将服务级别指标作为数据产品冷热指数进行量化的判定标准；

S2：根据服务级别指标与数据产品之间的关联度，进行数据产品冷热指数计算，得到优化后的数据产品冷热指标；

S3：基于数据产品冷热指标动态进行数据产品的扩缩容服务，以自动扩展、缩减服务容量：

a：当优化后的数据产品冷热指标>系统设置HOT阈值时，数据产品为热数据产品；

b：当优化后的数据产品冷热指标≤系统设置HOT阈值时，数据产品为冷数据产品。

下面结合图2、图3所示的示例图，以及本发明的一些优选或者可选的例子，更加具体地描述本发明的某些实例的实施过程和/或效果。

【定义服务级别指标】

数据产品类别包括冷数据产品和热数据产品，其中：

热数据产品为实时数据产品；

冷数据产品为定时数据产品或需要手动触发的数据产品。

进一步的，冷数据产品包括月度或季度汇总、历史趋势分析、过去几年的销售报告，冷数据产品是定期使用、历史性的、很少被使用或者用于特定场景的。

再进一步的，热数据产品包括实时报表、高频更新的仪表板、实时监测系统，热数据产品是经常被使用或者对业务决策至关重要的数据产品，通常需要保持最新、实时性强，以支持业务的快速决策。

需要说明的是，本发明实施例通过将数据产品进行分类，以更好地优化资源，确保对热数据产品进行及时的更新和维护，而对于冷数据产品则可以采取更为成本效益的存储和维护策略，这种分类方法有助于更有效地管理数据产品的生命周期，同时满足不同业务需求。

而将服务级别指标（SLIs，Service Level Indicators）作为数据产品冷热指数进行量化的判定依据，定义适用于不同数据产品的通用SLIs是确保系统性能和用户体验的关键一步。

作为示例，服务级别指标包括响应时间、可用性、吞吐量、错误率、数据更新频率和资源利用率。其中：

响应时间（Response Time）：高频数据产品要求响应时间小于1秒，低频数据产品则可以接受高一些的响应时间，如5秒。

可用性（Availability）：高频数据产品要求可用性大于99.9%，低频数据产品则可以接受稍低的可用性，如95%。

吞吐量（Throughput）：高频数据产品要求吞吐量大于1000请求/秒，低频数据产品则可以为100请求/秒。

错误率（Error Rate）：高频数据产品要求错误率小于0.1%，低频数据产品可以接受稍高的错误率，如1%。

数据更新频率（Data Refresh Rate）：高频数据产品要求每分钟至少更新一次，低频数据产品可以每小时更新一次。

资源利用率（Resource Utilization）：高频数据产品要求资源利用率保持在70%以下，低频数据产品则可以在50%以下。

在一种优选实施例中，除了上述服务级别指标，可根据实际业务系统规模和指标重要性，自行选择性使用部分指标，并自行设计指标阈值，本实施例并不对其做唯一限定。

【数据产品冷热指数计算】

基于服务级别指标，本发明实施例提出根据服务级别指标与数据产品之间的关联度，进行数据产品冷热指数计算，得到优化后的数据产品冷热指标（Hotness Index）。

作为示例，本发明实施例通过加权平均的方式来计算冷热指数，每个指标的权重取决于其在业务中的相对重要性，例如，可以为响应时间赋予更高的权重，因为对于高频数据产品而言，响应速度可能是最关键的指标。

综合冷热指数的计算定义如下：

其中，w1 ,w2 ,…,w6是各个指标的权重，其加和为1，minRT,maxRT,minA,maxA,…,minRU,maxRU 是各个指标的最小和最大值，用于指标的归一化。

需要说明的是，上述计算公式可以根据实际情况进行指标数量的调整，确保不同业务需求和重要性的考虑，如增加平方项非线性指标，通过计算综合冷热指数，可以更全面地了解数据产品的性能特征，从而进行冷热数据的有效分类。

通过HotnessIndex，本发明实施例对数据产品服务层面的冷热实现了量化，参照图3，在数据网格中，数据产品除了可以基于所在领域的分析数据提供洞察，同时上游数据产品也可以是下游数据产品产的输入，多个数据产品的级联构成一个更加丰富的业务产品；因此，在考虑数据产品的冷热量化公式时，需要综合考虑数据产品之间的关联性，这种关联性体现在数据产品的相互影响、相互依赖的程度上。

因此，本发明实施例通过引入数据产品的关联度来调整和优化数据产品冷热量化公式，具体的，数据产品关联度定义为不同数据产品之间的相互依赖和相互影响程度，其包括数据产品之间的数据交互、共享的程度，以及一个数据产品的热度对其他数据产品的影响。

基于数据产品的关联度（Product Correlation）定义如下：

其中，upStreamPHI表示上游数据产品的冷热指标，downStreamPHI表示下游数据产品的冷热指标，为上下游权重配比，默认/>，/>范围[0, 1]；当前数据产品具有上游数据产品的输入时，α=1，否则α=0；当前数据产品具有下游数据产品依赖时，β=1，否则β=0；当具有多个上下游数据产品时，可以进行加权计算。

进一步的，进行加权计算，得到优化后的数据产品冷热指标，其定义如下：

其中，为关联度指标的权重占比，可以由皮尔逊相关系数结果作为参考默认值，ProductHotnessIndex的值域范围为[0, 2]，如果没有上下游依赖，则值域范围在[0,1]。

【自动扩展和缩减服务容量】

利用数据产品冷热分离系统设置HOT阈值，HOT阈值初始化为HOT=0.5；

基于联邦计算治理的领域代表共同协商调节HOT阈值更新；

当ProductHotnessIndex≤HOT阈值时，该数据产品判定为冷数据产品；

当积累多个周期的HOT阈值指标后，通过机器学习算法对每个周期阈值对应的系统各个服务级别指标的上下限进行自动HOT阈值预测，实现自动动态阈值调节。

具体的，用户可以自行选取或设计合理的机器学习算法进行预测，如随机森林、支持向量机、神经网络算法进行回归值的预测，本发明实施例以神经网络算法为例进行示意说明，将多个周期各项指标的最小值与最大值作为输入，对应周期的HOT阈值作为标签，构建多层神经网络，基于随机梯度下降与反向传播算法进行训练参数的更新，训练完成后，即可以根据当前周期内统计的各项指标的上限与下限值得到实时自适应的HOT阈值；算法的具体选型不做限制，可结合用户的计算资源、误差容忍度等进行适当调整。

优选地，本发明实施例根据数据产品的冷热指标，进行合理调度，使得热数据产品保持稳定在线提供服务，而冷数据产品在需要时提供资源，整个系统的资源效率最大化。

前述机器学习算法和阈值自动调节方法，可利用现有技术中的方式和手段进行，在本例中不再赘述。

优选地，根据数据产品的冷热指标进行合理调度，使得热数据产品保持稳定在线提供服务，而冷数据产品在需要时提供资源，使得整个系统的资源效率最大化，其中，系统架构的实施包括如下操作设计：

（1）自动化决策引擎：根据实时的冷热指标（即指数），实时调整系统的资源分配、数据迁移和更新策略；

（2）智能缓存管理：对缓存进行智能管理，根据热度动态调整缓存的大小和清理策略；

（3）动态负载均衡：实施动态负载均衡，确保系统能够根据数据产品和数据的冷热度动态调整服务节点的负载；

（4）分布式计算优化：对于大规模分布式计算环境，采用智能化的数据分发和计算协同策略，确保冷热数据在计算资源上的高效利用；

（5）日志与监控系统：建立完善的日志与监控系统，实时监测系统各项指标，支持故障排查和性能优化；

（6）自动扩展和缩减服务容量：对热数据产品采用自动水平扩展，以确保高访问频率时有足够的服务容量，对冷数据产品采用自动缩减服务容量，以降低成本。

参照图4，本发明实施例还提供了一种基于数据网格的数据产品冷热分离系统，所述系统基于数据网格，实现对数据产品的冷热分离，以优化存储和计算资源的利用，所述系统包括数据网格、数据产品服务层、冷热数据判定和迁移引擎、动态资源分配和更新策略层，通过智能决策和动态调整，实现对数据产品的冷热分级管理。其中：

数据网格，用于整合分布在不同节点的数据产品，以实现数据的共享和统一管理，为数据产品的冷热分离提供基础；

在可选的实施例中，数据产品服务层设置于数据网格之上。

在可选的实施例中，冷热数据产品判定和迁移引擎根据冷热度（即冷热指数），引擎实施智能决策，针对热数据产品进行动态节点扩充，冷数据产品定期启动，与数据产品关联的数据也可以进行同步的冷热处理操作，将热数据保留在高性能存储中，而冷数据迁移到低成本存储中。

在可选的实施例中，动态资源分配和更新策略层对于高热数据产品，分配更多的计算和存储资源，采用实时更新策略；对于低热数据产品，减少资源分配，采用延迟更新策略。

通过整合数据网格、数据产品服务层、冷热数据产品判定和迁移引擎、动态资源分配和更新策略层，本发明实施例实现了对基于数据网格的数据产品的冷热分离管理，为不同冷热度的数据产品提供了个性化的存储和计算服务，其适用于大规模、高并发的数据产品管理场景，通过动态调整资源和更新策略，有效提高系统性能和资源利用效率。

作为示例，本发明基于公有（或私有）的云存储和基于MPP（Massively ParallelProcessing，大规模并行处理）技术的分析型数据库，得到数据网格中数据产品冷热分离的核心实施例，其中：

基于MPP技术的分析型数据库的数据产品冷热分离

（1）动态资源分配

通过资源分配策略，根据数据产品的冷热度调整资源分配。实现方案如下：

实施一个监控系统，定期检测数据产品的访问频率和性能需求；

针对高热数据产品，增加计算和存储资源，以确保服务性能；

针对低热数据产品，减少资源分配，提高资源利用效率。

（2）智能更新策略

为确保数据产品的实时性，制定智能的数据更新策略。实施步骤：

根据数据产品的热度，设定不同的更新频率和机制；

对于高热数据产品，采用实时或较频繁的更新策略；

对于低热数据产品，采用延迟更新，以降低系统负载。

（3）数据产品关联度

考虑数据产品之间的关联度，通过联邦特性实现数据产品关联。实施步骤：

使用联邦特性，建立数据产品之间的关联关系；

设计智能查询优化器，根据数据产品的关联度，优化查询计划，提高查询效率。

同步的，对数据产品背后的数据也进行相关冷热数据的优化处理，主要涉及的核心思路是：

（1）对于冷数据：

归档至对象存储：将冷数据归档至低成本的对象存储中，以降低存储成本；

压缩和清理：对归档的冷数据进行压缩，以减少存储空间，并实施定期的自动清理策略，删除不再需要的数据。

（2）对于热数据：

缓存优化：将热数据放置在高速缓存中，以提高访问速度和降低响应时间；

实时更新：针对热数据，实施实时更新机制，确保数据的实时性，可以采用流式处理技术实现。

具体的，基于公有云或者私有云的数据冷热分离配合实现：

（1）冷数据归档至低成本的对象存储，具体的：

针对冷数据，制定归档策略；

使用云存储服务数据生命周期配置规则，将符合归档条件的冷数据自动迁移到低成本对象存储；

配置合适的归档存储类别和访问策略。

（2）热数据存储在高性能对象存储，以保证高速访问，具体的：

将热数据存储在高性能对象存储桶中；

针对热数据，设置适当的访问权限，以确保数据的安全性。

（3）实时更新机制

为保证数据的实时性，可以采用云存储监控服务来触发实时更新，具体的：

配置监控服务函数，监控数据更新事件；

当有数据更新事件发生时，监控服务函数负责实时更新热数据。

还需要说明的是，本发明实施例公开的所述系统，还包括一个或多个处理器以及存储器。

其中，存储器被用来存储可被操作的指令，这些指令在通过所述一个或多个处理器执行时使得一个或多个处理器执行操作，这些操作包括前述实施例的基于数据网格的数据产品冷热分离方法的流程，尤其是图1所示方法的流程。

本发明实施例公开的另一些方面还提出一种存储软件的计算机可读介质，这些软件包括能通过一个或多个计算机执行的指令，这些指令通过这样的执行使得一个或多个计算机执行操作，这些操作包括前述实施例的基于数据网格的数据产品冷热分离方法的流程，尤其是图1所示方法的流程。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于数据网格的数据产品冷热分离方法，其特征在于，包括：

划分数据产品类别，并将服务级别指标作为所述数据产品冷热指数进行量化的判定标准；

所述关联度为不同数据产品之间的相互依赖和相互影响程度，其包括数据产品之间的数据交互、共享程度，以及一个数据产品的热度对其他数据产品的影响度；

所述关联度的定义如下：

；

其中，upStreamPHI表示上游数据产品的冷热指标，downStreamPHI表示下游数据产品的冷热指标，为上下游权重配比，默认/>，/>范围为[0，1]；

当前数据产品具有上游数据产品的输入时，α=1，否则α=0；

当前数据产品具有下游数据产品依赖时，β=1，否则β=0；

当具有多个上下游数据产品时，可以进行加权计算，得到优化后的数据产品冷热指标，其定义如下：

；

其中，为综合冷热指数，/>为关联度指标的权重占比，可以由皮尔逊相关系数结果作为参考默认值，ProductHotnessIndex的值域范围为[0, 2]，如果没有上下游依赖，则值域范围在[0, 1]；

2.根据权利要求1所述的基于数据网格的数据产品冷热分离方法，其特征在于，所述数据产品类别包括冷数据产品和热数据产品，其中：

所述热数据产品为实时数据产品；

3.根据权利要求1所述的基于数据网格的数据产品冷热分离方法，其特征在于，所述服务级别指标包括响应时间、可用性、吞吐量、错误率、数据更新频率和资源利用率。

4.根据权利要求1所述的基于数据网格的数据产品冷热分离方法，其特征在于，利用数据产品冷热分离系统设置HOT阈值，所述HOT阈值初始化为HOT=0.5；

基于联邦计算治理的领域代表共同协商调节HOT阈值更新；

5.一种应用于如权利要求1~4中任一所述的基于数据网格的数据产品冷热分离方法的数据产品冷热分离系统，其特征在于，包括：

数据网格，用于整合分布在不同节点的数据产品；

6.根据权利要求5所述的基于数据网格的数据产品冷热分离系统，其特征在于，所述系统还包括一个或多个处理器；

存储器，存储可被操作的指令，所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作，所述操作包括如权利要求1~4中任意一项所述的基于数据网格的数据产品冷热分离方法的流程。