CN112835917A

CN112835917A - 一种基于血缘关系分布的数据缓存方法、系统

Info

Publication number: CN112835917A
Application number: CN202110118950.4A
Authority: CN
Inventors: 李玉成; 孙立新; 胡天岳
Original assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Current assignee: Shandong Inspur Genersoft Information Technology Co Ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-25

Abstract

本申请公开了一种基于血缘关系分布的数据缓存方法、系统，该方法包括：确定业务领域中部署的微服务单元，并确定与所述微服务单元对应的数据节点组成的分布式数据缓存系统；根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系；根据所述数据的血缘关系，将所述数据分布到所述分布式数据缓存系统中的相应节点中；根据所述节点中数据的类型，确定所述数据对应的缓存存储策略，并按照所述缓存存储策略，对所述数据进行存储。

Description

一种基于血缘关系分布的数据缓存方法、系统

技术领域

本申请涉及数据处理领域，尤其涉及一种基于血缘关系分布的数据缓存方法、系统。

背景技术

信息系统产生了海量的数据，有数据必须要有数据的存放位置，当前提供跨数据源查询分析及数据计算服务的通用数据分析产品，基本上都使用关系型数据库作为其统一的数据汇聚中心。

关系型数据库是建立在关系模型基础上的数据库，它的优势在于，可以保持数据的一致性；数据更新的开销小；关系模型相对网状、层次等其他模型来说更容易理解；通用的SQL语言使得操作关系型数据库非常方便，可以进行join等复杂查询。

但是面临数据规模越来越大的情况，关系数据库的数据存储不具备弹性扩展能力，计算的扩展能力也有限，不支持并行计算，并且大量相关的、无关的数据及索引等占据大量存储空间，且对计算性能的要求越来越高，在此基础上进行复杂的关联查询、计算势必会有性能问题。

发明内容

本发明提供了一种基于血缘关系分布的数据缓存方法、系统，解决了上述技术问题。

一种基于血缘关系分布的数据缓存方法，包括：

确定业务领域中部署的微服务单元，并确定与所述微服务单元对应的数据节点组成的分布式数据缓存系统；

根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系；

根据所述数据的血缘关系，将所述数据分布到所述分布式数据缓存系统中的相应节点中；

根据所述节点中数据的类型，确定所述数据对应的缓存存储策略，并按照所述缓存存储策略，对所述数据进行存储。

在本申请的一种实施例中，根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系，具体包括：

根据对业务领域数据的生命周期进行监控，通过查询数据流向和历史记录确定数据的族系；

根据数据的具体计算范围、关联条件，确定数据之间的血缘亲近度，进而确定数据的血缘关系。

在本申请的一种实施例中，根据缓存分布把计算任务分发到对应的节点上进行并行计算，并汇聚各个节点的计算结果输出。

在本申请的一种实施例中，根据所述节点中数据的类型，确定所述数据对应的缓存存储策略，具体包括：

判断节点中的数据的属性类型，若所述数据为原始数据类型或结果数据类型，则将其进行持久化缓存，若所述数据为中间数据类型，则将其存储在内存中。

在本申请的一种实施例中，在同组数据节点内的数据根据关键应用或所述微服务单元的特点启用默认的缓存分布策略，根据数据类别划分维度，形成维表，并将所述数据进行分区存储。

在本申请的一种实施例中，根据所述业务领域的数据量，配置所述业务领域中的微服务单元以及相应的数据节点；

根据所述业务领域的数据量的变化，调整所述相应的数据节点的数量。

在本申请的一种实施例中，将所述节点中的数据复制到同组内的另一个或多个节点进行备份。

在本申请的一种实施例中，设定缓存更新策略；

所述缓存更新策略包括：实时对数据进行更新，定时对数据进行抽取更新；

其中，根据数据量是否超过设定阈值来确定采取全量同步或增量同步的方式进行更新。

在本申请的一种实施例中，提供基于缓存数据的分布式计算接口，支持结构化查询语言SQL访问应用程序的调用接口API，以便对数据库中的数据进行读取、调用。

一种基于血缘关系分布的数据缓存系统，包括：

微服务架构模块，用于确定业务领域中部署的微服务单元，并确定与所述微服务单元对应的数据节点组成的分布式数据缓存系统；

数据血缘关系建立模块，用于根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系；

数据分布模块，用于根据所述数据的血缘关系，将所述数据分布到所述分布式数据缓存系统中的相应节点中；

数据缓存模块，用于根据所述节点中数据的属性，确定所述数据对应的缓存策略，并按照所述缓存策略，对所述数据进行存储。

本发明提供了一种基于血缘关系分布的数据缓存方法、系统，可以大大提高该场景下查询分析及数据计算的数据吞吐量及性能，解决了微服务架构、大数据量下，跨数据库的通用的查询分析、数据计算的数据汇聚问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于血缘关系分布的数据缓存方法步骤流程示意图；

图2为本申请实施例提供的产业链中不同业务领域的微服务单元对应的分布式缓存系统示意图；

图3为本申请实施例提供的一种业务领域的数据缓存示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例对本申请进行清楚、完整的描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对跨数据源的通用分析计算产品的数据规模瓶颈问题，使用分布式分层缓存系统，数据分布存储，通过数据节点的弹性无限伸缩，可以支持大规模的查询数据汇聚。针对跨数据源的通用分析计算产品的计算性能问题，根据数据的应用领域等维度，确定数据的血缘相关性，通过支持按血缘分布的特性，把相关的数据分布到同组数据节点，再根据常见的计算范围、关联条件，关联条件包括年度、组织等，在同组数据节点内分区，如相同年度、相同组织的数据分布到相同节点，以便本地进行关联查询计算，杜绝或大幅减少数据跨节点移动，从而提高性能。为快捷的确认数据的血缘关系，可根据查询、计算的应用领域，先确定数据的族系，再根据具体数据的计算范围、关联条件，确定数据的血缘亲近关系。本申请中实施例是根据GS Cloud产品的领域维度划分，支持关键应用、微服务部署单元两级配置，默认根据关键应用配置缓存组，在同组内根据关键应用或部署单元的特点可启用默认的分区策略，如财务产品，可以根据年度、核算组织甚至账集等进行分区，可快速有效的实施本发明。为提高数据按血缘关系分布后的计算性能，根据分布策略把关联查询等计算任务分发到合适的节点上进行并行计算，同时可指定只关联或计算本地节点数据，最后汇聚各个节点的计算结果输出，这样在并行计算的时候避免了跨节点的数据移动，从而大幅提高计算性能；同时为简化开发，提供结构化查询语言访问应用程序的调用接口SQL API，从而大大提升分布式计算的开发效率。

图1为本申请实施例提供的一种基于血缘关系分布的数据缓存方法步骤流程示意图，可以包括以下步骤：

S101：确定业务领域中部署的微服务单元，并确定与微服务单元对应的数据节点组成的分布式数据缓存系统；

S102：根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系；

S103：根据数据的血缘关系，将数据分布到分布式数据缓存系统中的相应节点中；

S104：根据节点中数据的类型，确定数据对应的缓存存储策略，并按照缓存存储策略，对数据进行存储。

在数据信息时代，企业资源计划ERP被应用到各个企业中，ERP系统包括以下主要功能:供应链管理(SCM)、销售与市场、分销、客户服务、财务管理、制造管理、库存管理、工厂与设备维护、人力资源、工作流服务和企业信息系统等。微服务架构是一项在云中部署应用和服务的新技术，随着企业与计算机技术的发展，产生的数据规模越来越大，微服务架构被应用到各个场景中。

如图2所示，财务域、供应链域、综合查询是三个业务板块，每个业务板块包含多个模块，在运营过程中会产生大量数据，比如财务域的业务中包含总账、应收应付、税务等模块，根据每个模块部署相应的微服务单元，用于数据的处理和存储。根据微服务单元部署分布式缓存系统的数据库，根据每个业务领域的数据量的多少设置数据节点的数量用于数据的计算、缓存，为了在本地更高效的对数据进行关联查询计算，需要对数据持久化存储，这样不仅在并行计算的时候避免了跨节点的数据移动，还大幅提高了计算性能。

数据血缘关系要根据数据生命周期中的数据流向和历史记录确定，在如今的大数据时代下，每时每刻都在产生庞大的数据，对这些数据进行各种加工组合、转换，又会产生新的数据，这些数据之间就会存在着天然的联系，即数据血缘关系，数据血缘就是指数据生命周期中的数据流向和历史记录，包括数据源头信息，后期数据又移动到哪个目标数据库等，通常我们会对原始数据进行多个步骤的加工，最后产生出新的数据，在加工过程中会产生很多数据表，这些数据表之间的链路关系，就可称之为大数据血缘，比如在网上购物时，顾客在购买物品后，订单数据就会被存到后台数据库表A中，当需要查询某个月卖的最火的是哪个产品时，就需要对原始数据进行加工汇总，形成一张中间表B，来存储阶段处理的数据，若逻辑较复杂时，还要继续加工形成中间表，直到最后处理成前台展现的最终表C表，A表则为数据最初的来源，是C表的祖先，从A表到B表再到C表，这条链路就是C表的数据血缘。

根据对业务领域数据的生命周期进行监控，通过查询数据流向和历史记录确定数据的族系；如图2的财务域中，流入财务域中的所有数据属于一个族系；总账、应收应付、税务模块的数据属于财务域这个族系，它们之间存在着血缘关系，供应链域中的基础、采购、库存等模块的数据属于供应链这个族系，它们之间也存在着血缘关系。根据数据的具体计算范围、关联条件，确定数据之间的血缘亲近度，进而确定数据的血缘关系。每一种应用领域就是一个计算范围，假如财务域分配了10个节点，供应链域分配了20个节点，当要计算财务相关数据时，比如计算收入、税收，那么数据的计算范围就是财务域的10个节点。关联条件就是每个业务领域存储不同的数据表，比如财务域的数有年度的数据表、组织的数据表，当要进行数据计算时，会用到这两个数据表，如果这两个表在一个数据节点中，那么进行本地关联就可以，不用跨节点调取数据，一个族系中分布在一个节点中的数据要比分布在两个节点中的数据血缘关系要近。根据分布式缓存系统支持数据按血缘关系分布的特性，将各个模块的数据存储到各个微服务对应的数据库中，各个业务领域的数据节点也是相互独立的，如财务域中的数据节点同为一组节点，供应链域的数据节点同为一组节点，其他业务领域中的数据节点又同为一组节点，将相同业务领域的数据分布到同组数据节点中，方便查询分析。

在同组数据节点内的数据根据关键应用或微服务单元的特点启用默认的缓存分布策略，根据数据类别划分维度，形成维表，并将数据进行分区存储。在财务域数据节点内，可以默认按模块的关键应用执行缓存分布策略，根据计算范围和关联条件将数据分布在不同的节点上，同一业务领域计算范围内的分布到相同族系，在计算时两种数据经常作为条件搭配在一起计算的分布到同一节点，比如计算相同年度和相同组织下的收入、支出等财务数据，为了方便数据的调取，减少跨节点移动，将年度数据和组织数据捆绑存储在分布同一节点中。根据具体的业务来进行数据存储，这样很容易控制数据的准确性，比如财务域的数据类别有文本数据、数值数据，文本数据与数值数据相关联，例如产品种类属于文本数据，而购买某类产品的价格属于数值数据，这两种数据属于不同维度但是又相互关联，将他们对应存储，形成维表，并将数据进行分区存储。分区目前就是将数据均衡的分散在各节点，这样同时也能分散对数据的处理请求。对数据进行分区操作，不能仅仅是随机数据存储，因为存储之后肯定还是要进行查询的，所以要按照一定的关联条件进行分区存储，方便后续查询请求。当有新的数据生成或缓存的数据出现冗余或差错时，根据缓存更新策略将数据进行更新，以保证数据的准确性，造成不必要的损失。

在本申请的一种实施例中，根据业务领域的数据量，配置业务领域中的微服务单元以及相应的数据节点；根据业务领域的数据量的变化，调整相应的数据节点的数量。比如在月底或年底时，财务的压力比较大，就可以相应的数据节点，以提高数据的存储容量同时提高数据的处理速度，而供应链域的业务量减少，就可以减少供应链域的节点，以节省成本。

在本申请的一种实施例中，根据不同业务领域需求部署微服务单元，具体包括：根据不同业务领域的具体功能设计模块，形成多个微服务单元，将模块按照业务逻辑进行封装，形成对应的业务系统，其中每个微服务单元对应独立的数据库。比如在财务域中，总账的记录、应收应付的记录、税收的计算，根据每一个项目的工作逻辑设计相应的应用程序模块，每一个应用程序模块即为一个微服务，对这些应用程序模块进行业务逻辑的封装，形成整个财务域的业务系统，每个业务领域中包含多个微服务，每个微服务对应着一个数据库用于数据的存储。

提供数据缓存的全生命周期管理接口，方便对数据的查询、存储、更新、删除。实时建立数据的血缘关系并及时存储，同时支持具有血缘关系的数据的分区并置方案、缓存分层方案、数据更新策略等，将数据根据关联条件分区到不同节点存放；缓存分层方案，全局数据分布在所有节点、不同微服务内有与每个微服务相关的数据，比如财务域中某些财务数据是全局的，那么每个财务域的所有节点中都存储这些全局数据，而财务域下的总账模块中的数据就只存储在总账模块的节点中；缓存更新策略，使用定时或实时的方式将数据进行更新，当数据量少时，采用全量同步的方法，当数据量多时，采用增量同步的方法。增量同步，优点在于没有重复的备份数据，备份数据量不大，所需时间短；缺点在于数据恢复比较麻烦。全量同步的优点在于只需要用一张磁带就可以恢复丢失的数据，大大加快了系统和数据恢复的时间；缺点在于备份数据存在大量重复信息，且每次备份的数据量相当大，因此备份所需时间较长。所以，根据实际数据量情况确定使用全量同步或增量同步的方式。

在网购订单中，订单与销售金额成正比，销售金额的数据依据订单的数据，那么销售金额数据与订单数据存在血缘关系，订单数据即为销售金额数据的源头，在数据存储时，依据血缘关系将两类数据按照缓存分层方案分层存储，使数据查询更便捷。如果要查询计算哪一件产品在某一季度的销售金额最高，就要对数据库中的数据进行分析处理，根据数据的具体计算范围、关联条件，确定数据之间的血缘亲近度，进而确定数据的血缘关系，进而得到所需数据。为了更高效地对数据进行分析，同时为了利于数据的存储和更新，将数据进行分区处理、存储，提高数据容错性，提供数据缓存的全生命周期管理接口，在数据生命周期的任一阶段，都可以随时对数据的错误进行查询、更新，同时及时的将数据进行存储。

在本申请的一种实施例中，提供基于缓存数据的分布式计算接口，支持结构化查询语言SQL访问应用程序的调用接口API，以便对数据库中的数据进行读取、调用。根据缓存分布把计算任务分发到对应的节点上进行并行计算，并汇聚各个节点的计算结果输出。建立数据库索引，根据索引快速访问数据库中的特定信息。

为简化开发，提供结构化查询语言访问应用程序的调用接口SQL API，方便在数据库中进行数据的查询、调取。在业务运营过程中将产生的数据存入数据库需进行数据读写，先定位缓存节点，读取需要缓存的数据将数据写入数据库，对于冗余或错误的数据执行数据删除操作；在数据分析过程中，利用并行计算框架对数据进行计算，对提取的数据在各节点进行计算任务分发，协调资源进行计算调度的执行；对数据查询分析时，根据下发的计算任务，利用SQL语句在数据库中进行数据的调用，根据数据的索引找到所需的数据，每个节点完成独立的计算任务后将计算结果汇聚到一处输出即得到最终的数据。

在本申请的一种实施例中，根据缓存存储策略进行数据存储，首先判断节点中的数据的属性类型，若数据为原始数据类型或结果数据类型，则将其进行持久化缓存，若数据为中间数据类型，则将其存储在内存中；比如通过已完成的订单数量计算总收入，订单数据就是原始数据类型，为了防止丢失且在计算时方便调取，要持久化到硬盘中，通过一系列计算会产生一定的中间数据，这些数据的出现只是为了得到总收入数据，丢失也没关系，所以存储在内存中，而最终计算获得的总收入数据就是结果数据，为了防止丢失以及方便查询，将其持久化到硬盘中。在节点内存中实时查询结果缓存，并将计算过程中的中间数据缓存在内存中，随着数据的不断更新，内存中的数据也实时更新，持久化节点中的数据，同时将内存中的数据通过缓存备份策略将一个节点中的数据在多个节点进行备份，当一个节点出现故障时，其他节点可代替故障节点的工作。

在图3中展示的是本实施例中财务数据的缓存，在财务域中存在n个节点，内存的数据包括实时查询结果的缓存、计算过程中间数据的缓存、持久化数据的缓存，但是内存中的数据不能永久保存，要根据缓存存储策略将数据存储到硬盘中，即数据的持久化，持久化的数据包括加工数据，比如年度和组织分布类型的账表、报表等数据；业务数据，比如年度和组织分布类型的凭证、收付款的数据；维表数据，包好组织、科目、账集等类型的数据；每个节点中都包含相同的维表副本。数据是不断地增加和更行的，数据同步的方式有两种，全量同步和增量同步，在实际应用中，当数据量较少时，采用全量同步，数据量庞大时，采用增量同步。

以上为本申请实施例提供的一种基于血缘关系分布的数据缓存方法，基于同样的发明思路，本申请实施例还提供了相应的一种基于血缘关系分布的数据缓存系统，

一种基于血缘关系分布的数据缓存系统，其特征在于，包括：

微服务架构模块，用于确定业务领域中部署的微服务单元，并确定与微服务单元对应的数据节点组成的分布式数据缓存系统；

数据分布模块，用于根据数据的血缘关系，将数据分布到分布式数据缓存系统中的相应节点中；

数据缓存模块，用于根据节点中数据的属性，确定数据对应的缓存策略，并按照缓存策略，对数据进行存储。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于血缘关系分布的数据缓存方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据数据所属的业务领域，以及数据之间的关联关系，确定数据的血缘关系，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据缓存分布把计算任务分发到对应的节点上进行并行计算，并汇聚各个节点的计算结果输出。

4.根据权利要求1所述的方法，其特征在于，根据所述节点中数据的类型，确定所述数据对应的缓存存储策略，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在同组数据节点内的数据根据关键应用或所述微服务单元的特点启用默认的缓存分布策略，根据数据类别划分维度，形成维表，并将所述数据进行分区存储。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述业务领域的数据量，配置所述业务领域中的微服务单元以及相应的数据节点；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述节点中的数据复制到同组内的另一个或多个节点进行备份。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

设定缓存更新策略；

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提供基于缓存数据的分布式计算接口，支持结构化查询语言SQL访问应用程序的调用接口API，以便对数据库中的数据进行读取、调用。

10.一种基于血缘关系分布的数据缓存系统，其特征在于，包括：