CN116975043A

CN116975043A - 一种基于流式框架的数据实时传输构建方法

Info

Publication number: CN116975043A
Application number: CN202311221320.5A
Authority: CN
Inventors: 韩泽华; 陈伟仑; 夏同飞; 罗奕; 叶延锋; 孔庆颖; 傅饶; 林润麒; 李壮
Original assignee: State Grid Information and Telecommunication Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-10-31
Anticipated expiration: 2043-09-21
Also published as: CN116975043B

Abstract

本发明公开了一种基于流式框架的数据实时传输构建方法，涉及数据传输技术领域，用于解决不同业务各自的管理者自行搭建自身业务范围内的小数仓，从而产生数据孤岛、重复计算、口径不一致的问题，本发明所述构建方法包括以下步骤：将需要进行传输的业务系统数据进行抽取和汇总，根据业务系统数据量进行数据库选型和数据接入方法验证，以完成源数据接入，对系统数据库抽取的数据，结合划分规则进行分类，对同类数据进行关联和提炼，将搭建完成的不同场景进行可视化共享展示实现跨系统数据共享，有效提升数据质量，辅助决策分析，提供统一的数据服务，这些数据可以为企业分析、决策支持等应用提供更及时、准确、有效的支持。

Description

一种基于流式框架的数据实时传输构建方法

技术领域

本发明涉及数据传输技术领域，具体涉及一种基于流式框架的数据实时传输构建方法。

背景技术

企业数仓是一个综合性的数据存储和管理系统，旨在支持企业内部各个部门和业务领域的数据分析和决策，数仓结构是指数仓的整体组织和架构方式，它的设计需要综合考虑企业的业务需求、数据源的多样性以及数据处理的复杂性。

现有技术存在以下不足：

1、不同业务各自的管理者自行搭建自身业务范围内的小数仓，从而产生数据孤岛、重复计算、口径不一致的问题，流程规范缺失，无法指引数据开发工作者根据流程对数据仓库进行规范化建设，导致数据分层分类不清晰，数据混乱，命名不规范，同义不同名，同名不同义，导致数据重复建设，冗余数据多；

2、现有数仓层级混乱，同源不同步，多层数据间应用同一数据，但是数据源不统一，造成各专业间数据存在差别，影响最终的统计分析。

发明内容

本发明的目的是提供一种基于流式框架的数据实时传输构建方法，加强企业生产经营数据存储性能，提高数据资产利用率，更好的服务企业便捷查找数据、看懂数据、用好数据，加强数据存储、计算、分析等能力，结合自身业务数据建立实时数仓，为企业生产经营决策提供数据支撑，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种基于流式框架的数据实时传输构建方法，所述构建方法包括以下步骤：

S1：将需要进行传输的业务系统数据进行抽取和汇总；

S2：根据业务系统数据量进行数据库选型和数据接入方法验证，以完成源数据接入；

S3：对系统数据库抽取的数据，结合划分规则进行分类，对同类数据进行关联和提炼；

S4：按照各类宽表的维度制定数据共享内容，支持企业开展不同场景的搭建；

S5：将搭建完成的不同场景进行可视化共享展示。

优选的，步骤S1中，抽取和汇总业务系统数据包括以下步骤：

S1.1：从各个业务系统中抽取数据，将数据从源系统中导出到数仓的中间存储区；

S1.2：对单个或多个系统数据进行分类，标记存在具有关联关系的数据。

优选的，步骤S2中，进行数据接入验证包括以下步骤：

S2.1：从业务系统中抽取数据，并将其导出到一个临时数据存储区；

S2.2：对抽取的数据进行清洗和转换；

S2.3：将经过清洗和转换的数据加载到目标数据库系统中；

S2.4：验证数据是否成功导入数据库，并检查数据。

优选的，步骤S3中，结合划分规则进行分类，对同类数据进行关联和提炼包括以下步骤：

S3.1：收集系统数据库抽取的原始数据；

S3.2：根据生成报表的需求对数据进行划分，将报表所需的字段和指标提取出来；

S3.3：根据业务需求和分析目的，将同类数据进行关联；

S3.4：根据业务规则和需求，为数据字段赋予计算规则，生成新的派生字段以筛除敏感数据。

优选的，步骤S3.4中，为数据字段赋予计算规则包括以下步骤：

获取数据格式相似度、数据调用频率浮动系数、正则化指数，将数据格式相似度、数据调用频率浮动系数、正则化指数综合计算获取筛除系数scx，计算表达式为：

，式中，/>为数据格式相似度，/>为数据调用频率浮动系数，/>为正则化指数，/>、/>、/>分别为数据格式相似度、数据调用频率浮动系数、正则化指数的比例系数，且/>、/>、/>均大于0。

优选的，步骤S3.4中，生成新的派生字段以筛除敏感数据包括以下步骤：

获取筛除系数scx后，若筛除系数scx≥筛除阈值，则该数据不是敏感数据，无需筛除，若筛除系数scx＜筛除阈值，则该数据是敏感数据，需要筛除。

优选的，所述数据格式相似度的计算表达式为：

，式中，/>为当前数据格式向量与敏感数据格式向量的内积，/>分别为当前数据格式向量模长与敏感数据格式向量模长。

优选的，所述数据调用频率浮动系数的计算表达式为：

，/>为数据实时调用频率，/>为数据调用后返回停止调用的时段。

优选的，所述正则化指数的获取逻辑为：

针对敏感数据类型，编写对应的正则表达式；

将编写好的正则表达式应用到数据中，进行模式匹配；

若数据字符在正则表达式中有匹配项，正则化指数输出值为1；

若数据字符在正则表达式中没有匹配项，正则化指数输出值为0。

在上述技术方案中，本发明提供的技术效果和优点：

1、本发明实现跨系统数据共享，解决信息孤岛，提升数据质量，辅助决策分析，提供统一的数据服务；满足OLAP分析暨同时满足分析型和操作型数据访问的需求，采用互联网技术，支撑实时数仓的建设，同时完善元数据管理，形成全局的数据字典、统一业务数据规范，能够灵活的获取各项业务数据的单一视图，数据的交换和共享主要发生在上下级组织机构之间或同级的不同部门之间，最终，这些数据可以为企业分析、决策支持等应用提供更及时、准确、有效的支持。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：请参阅图1所示，本实施例所述一种基于流式框架的数据实时传输构建方法，所述构建方法包括以下步骤：

A、源数据接入：将需要进行传输的业务系统数据进行抽取和汇总，如对单个或多个系统数据进行分类，存在具有关联关系的数据要进行标记，方便后续数据加工使用；

在开始构建企业数仓之前，需要对业务需求进行充分的分析和理解，与相关业务部门沟通，明确需要哪些业务系统的数据，以及数据之间可能存在的关联关系；从各个业务系统中抽取数据，将数据从源系统中导出到数仓的中间存储区，这涉及到从不同类型的数据库、文件、日志等数据源中提取数据的技术处理，通常使用ETL（Extract,Transform,Load）工具来实现；

业务系统数据的获取步骤为：以三个业务系统做示例，其中业务系统对应的数是数据库（Mysql），业务系统对应的数是数据库（Mysql），业务系统是数据库（Oracle），并假设业务系统数据存在本地数据库，业务系统和业务系统数据存在异地数据库，此时对于数据接入应选取直抽和中间过渡的方式进行数据获取和汇总；

对单个或多个系统数据进行分类，存在具有关联关系的数据要进行标记包括以下步骤：

对从不同系统抽取的数据进行汇总和整合，形成数仓的数据模型，这通常涉及将数据按照业务维度进行归类和组织，形成数据立方体（DataCube）或星型/雪花型的数据模型，以支持更高效的数据查询和分析；

对于存在关联关系的数据，根据业务需求进行标记，这可以通过添加共享的维度或标识字段来实现，以便在数据分析中能够识别数据之间的关联性，从而支持跨系统的数据分析和洞察，将汇总的数据加载到数仓中，这个步骤通常也使用ETL工具来完成，并确保数据的完整性和一致性。

B、数据存储和传输：源数据接入应根据业务系统数据量进行数据库选型和数据接入方法验证，在此以Mysql、Oracle为原业务数据存储数据库为例，想要提升数据存储性能，加强数据吞吐量，需对数据传输协议和数据库进行改良升级，当源业务数据库满足现有数据时则不需要更改，而是在共享层进行数据库的择优和传输协议的变更；

在业务数据累积到一定量时，可构建历史数据区作为明细数据的存储，既能保存数据的完整性，又能为数仓建设提供源数据，同时为前台报表应用的明细数据查询和钻取提供数据支撑；

根据业务系统数据量进行数据库选型和数据接入方法验证包括以下步骤：

对所有涉及的业务系统进行数据量估算，了解每个系统中数据的大小、增长速率以及数据的类型（结构化数据、半结构化数据或非结构化数据）等信息，这可以帮助你评估数据库需要处理的数据规模，以及未来的扩展需求；

根据数据量估算和企业需求，选择合适的数据库系统，常见的数据库类型包括关系型数据库（如MySQL、PostgreSQL、Oracle）、NoSQL数据库（如MongoDB、Cassandra）和列式数据库（如ClickHouse、Vertica），不同类型的数据库在处理数据量、性能、扩展性和数据模型等方面有所差异，因此需要仔细考虑业务需求和技术特点；

在选择数据库系统之前，可以进行数据接入验证，以确保数据能够成功导入数据库中。

进行数据接入验证包括以下步骤：

a.数据抽取：从业务系统中抽取数据，并将其导出到一个临时数据存储区，如数据文件或中间数据库；

b.数据清洗和转换：对抽取的数据进行清洗和转换，以确保数据的质量和一致性，这可能涉及处理缺失值、数据类型转换、数据格式化等；

c.数据加载：将经过清洗和转换的数据加载到目标数据库系统中，根据数据库的特点和支持的数据加载方法，可以选择适合的数据加载工具或技术；

d.数据验证：验证数据是否成功导入数据库，并检查数据的准确性和完整性，可以运行一些简单的查询或报表，检查数据是否符合预期。

C、数据加工：对系统数据库抽取的数据，结合具体的规则进行分类（按专业划分、按业务类型划分、按分析需求划分、按报表需求划分），对同类数据进行关联和提炼，赋予计算规则，结合业务需要梳理数据；

理解业务需求，并收集系统数据库抽取的原始数据，了解每个数据字段的含义、数据类型以及数据关系，将数据按照其所属的业务领域或功能进行专业划分，例如，将销售数据、客户数据、供应链数据等进行分组，根据业务类型对数据进行划分，如按产品类别、地区、部门等，这有助于将相关数据聚集在一起，便于后续的数据分析，根据数据分析的需求将数据进行划分，例如，按照时间维度划分数据，将历史数据和当前数据分开，以支持时间序列分析，根据生成报表的需求对数据进行划分，将报表所需的字段和指标提取出来，以备后续的数据报表生成，根据业务需求和分析目的，将同类数据进行关联，如果有多个数据表或数据源涉及同一类数据，进行数据关联，以形成完整的数据视图，根据业务规则和需求，为数据字段赋予计算规则，生成新的派生字段以筛除敏感数据，对数据进行梳理，将重要的字段和指标提取出来，删除冗余或不必要的字段，同时，处理数据中的缺失值和异常值，以确保数据的质量，基于梳理后的数据，创建数据报表和可视化图表，以满足业务用户的需求，数据报表可以是静态报表，也可以是交互式报表，方便用户进行数据探索和分析。

D、数据共享：按照专业宽表、公共宽表和指标宽表的维度制定数据共享内容，支撑企业开展大数据分析、数据报表、数据驾驶舱等场景的搭建；

在开始共享数据建设前应对贴源层数据进行业务归类，并对已知的同类业务数据进行合并或添加备注管理，方便后续数据加工的便捷性，共享数据时依据业务种类分为专业、公共、指标三个维度进行构建；

根据数据需求和使用场景，将数据分为专业宽表、公共宽表和指标宽表三个维度，专业宽表是根据不同业务领域或功能划分的数据表，公共宽表是多个业务领域共享的通用数据表，指标宽表是针对特定指标的汇总和计算数据表；

确保数据的安全性，根据用户角色和权限，设置数据访问权限，保护敏感数据不被未授权的用户访问；

基于专业宽表和公共宽表，创建数据报表和可视化图表，以满足不同用户的数据需求，确保报表和可视化结果能够直观地展示数据洞察；

将数据报表和可视化图表整合到数据驾驶舱中，构建集中式的数据分析平台，数据驾驶舱可以支持数据探索、数据交互和多维度的数据分析。

E、数据应用及展示：基于共享数据层级架构支撑企业开展数据分析场景建设，可多维度开展数据分析，并实现完全的展示自由化和共享化；

基于需求分析，设计共享数据层级架构，该架构可以包括专业宽表、公共宽表、指标宽表，以及数据汇总层、数据计算层等，确保数据的分类和组织结构有利于多维度数据分析和共享；

在指标宽表或数据计算层中，对数据进行计算、聚合和汇总，这些计算可以涉及各种指标、KPI，以满足多维度数据分析的需求；

基于共享数据层级架构中的数据，创建数据报表和可视化图表，这些报表和可视化图表应该具有灵活的自由化展示能力，支持用户根据需求自由选择分析维度和展示方式；

将共享数据层级架构中的数据和报表共享给业务用户和决策者，支持数据的共享化，让不同部门和用户可以共同使用数据，促进信息共享和决策共识。

实施例2：对于存在关联关系的数据，根据业务需求进行标记，这可以通过添加共享的维度或标识字段来实现，以便在数据分析中能够识别数据之间的关联性，从而支持跨系统的数据分析和洞察，将汇总的数据加载到数仓中，这个步骤通常也使用ETL工具来完成，并确保数据的完整性和一致性。

通过添加共享的维度标记存在关联关系的数据包括以下步骤：

选择用于标记数据之间关联关系的共享维度，共享维度应该是在各个数据表或数据源中都存在的共同字段，以确保数据能够正确关联；

使用共享的维度字段，将相关的数据进行关联，并标记数据之间的关联关系，这可以通过在数据中添加共享维度字段值来实现。

其中，为了更好的说明使用共享的维度字段，将相关的数据进行关联，并标记数据之间的关联关系，我们举例如下：

假设我们有两个数据表：订单表和产品表，它们分别存储了订单和产品的信息，为了标记订单和产品之间的关联关系，我们可以使用共享的维度字段"产品ID"，它在订单表和产品表中都存在，订单表如表1所示，产品表如表2所示：

表1

表2

在订单表中，"产品ID"字段标识了订单所购买的产品，而在产品表中，"产品ID"字段则表示了产品的唯一标识。

现在，我们想要将订单表和产品表关联起来，以便在数据分析时能够得到更全面的信息，我们可以使用共享的维度字段"产品ID"，在订单表中添加"产品名称"和"单价"两个字段来标记订单与产品之间的关联关系，关联后的订单表如表3所示：

表3

通过在订单表中添加"产品名称"和"单价"字段，我们可以直观地看到每笔订单购买的具体产品以及产品的单价，这样，在进行数据分析时，我们可以通过共享的维度字段"产品ID"将订单表与产品表关联起来，并获取更丰富的业务洞察。

实施例3：对系统数据库抽取的数据，结合具体的规则进行分类（按专业划分、按业务类型划分、按分析需求划分、按报表需求划分），对同类数据进行关联和提炼，赋予计算规则，结合业务需要梳理数据包括以下步骤：

理解业务需求，并收集系统数据库抽取的原始数据，了解每个数据字段的含义、数据类型以及数据关系，将数据按照其所属的业务领域或功能进行专业划分，例如，将销售数据、客户数据、供应链数据等进行分组，根据业务类型对数据进行划分，如按产品类别、地区、部门等，这有助于将相关数据聚集在一起，便于后续的数据分析；

根据数据分析的需求将数据进行划分，例如，按照时间维度划分数据，将历史数据和当前数据分开，以支持时间序列分析，根据生成报表的需求对数据进行划分，将报表所需的字段和指标提取出来，以备后续的数据报表生成；

根据业务需求和分析目的，将同类数据进行关联，如果有多个数据表或数据源涉及同一类数据，进行数据关联，以形成完整的数据视图，根据业务规则和需求，为数据字段赋予计算规则，生成新的派生字段以筛除敏感数据，对数据进行梳理，将重要的字段和指标提取出来，删除冗余或不必要的字段，同时，处理数据中的缺失值和异常值，以确保数据的质量，基于梳理后的数据，创建数据报表和可视化图表，以满足业务用户的需求，数据报表可以是静态报表，也可以是交互式报表，方便用户进行数据探索和分析；

根据业务规则和需求，为数据字段赋予计算规则，生成新的派生字段以筛除敏感数据包括以下步骤：

本申请中，数据格式相似度的计算表达式为：

，式中，/>为当前数据格式向量与敏感数据格式向量的内积，/>分别为当前数据格式向量模长与敏感数据格式向量模长，数据格式相似度越大，表明当前数据格式与数据库中的敏感数据格式越相似，则该数据越可能为敏感数据。

数据调用频率浮动系数的计算表达式为：

，/>为数据实时调用频率，/>为数据调用后返回停止调用的时段，当数据调用后返回停止调用的时段越长，表明被调用的数据可能为敏感数据。

正则化指数的获取逻辑为：

针对敏感数据类型，编写对应的正则表达式，正则表达式是一种用于匹配字符串模式的工具，可以通过定义特定的字符和规则来识别字符串中的特定模式；

将编写好的正则表达式应用到数据中，进行模式匹配；

若数据字符在正则表达式中有匹配项，该数据可能为敏感数据，正则化指数输出值为1；

若数据字符在正则表达式中没有匹配项，该数据不为敏感数据，正则化指数输出值为0。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于流式框架的数据实时传输构建方法，其特征在于：所述构建方法包括以下步骤：

S1：将需要进行传输的业务系统数据进行抽取和汇总；

S5：将搭建完成的不同场景进行可视化共享展示。

2.根据权利要求1所述的一种基于流式框架的数据实时传输构建方法，其特征在于：步骤S1中，抽取和汇总业务系统数据包括以下步骤：

3.根据权利要求2所述的一种基于流式框架的数据实时传输构建方法，其特征在于：步骤S2中，进行数据接入验证包括以下步骤：

S2.2：对抽取的数据进行清洗和转换；

S2.3：将经过清洗和转换的数据加载到目标数据库系统中；

S2.4：验证数据是否成功导入数据库，并检查数据。

4.根据权利要求3所述的一种基于流式框架的数据实时传输构建方法，其特征在于：步骤S3中，结合划分规则进行分类，对同类数据进行关联和提炼包括以下步骤：

S3.1：收集系统数据库抽取的原始数据；

S3.3：根据业务需求和分析目的，将同类数据进行关联；

5.根据权利要求4所述的一种基于流式框架的数据实时传输构建方法，其特征在于：步骤S3.4中，为数据字段赋予计算规则包括以下步骤：

6.根据权利要求5所述的一种基于流式框架的数据实时传输构建方法，其特征在于：步骤S3.4中，生成新的派生字段以筛除敏感数据包括以下步骤：

7.根据权利要求6所述的一种基于流式框架的数据实时传输构建方法，其特征在于：所述数据格式相似度的计算表达式为：

，式中，/>为当前数据格式向量与敏感数据格式向量的内积，分别为当前数据格式向量模长与敏感数据格式向量模长。

8.根据权利要求7所述的一种基于流式框架的数据实时传输构建方法，其特征在于：所述数据调用频率浮动系数的计算表达式为：

9.根据权利要求8所述的一种基于流式框架的数据实时传输构建方法，其特征在于：所述正则化指数的获取逻辑为：

针对敏感数据类型，编写对应的正则表达式；

将编写好的正则表达式应用到数据中，进行模式匹配；