CN114691762A

CN114691762A - 企业数据智能构建方法

Info

Publication number: CN114691762A
Application number: CN202011587367.XA
Authority: CN
Inventors: 董旭旭; 宋少鸿
Original assignee: Suzhou Yingtiandi Information Technology Co ltd
Current assignee: Suzhou Yingtiandi Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2022-07-01

Abstract

本发明涉及一种企业数据智能构建方法，通过数据集成模块、数据处理模块、数据同步模块、数据资产中心相互配合，在存储一体化的基础上以计算与数据架构层面进行操作，通过一键接入方式，进行多种数据源的统一管理，指定需要接入的数据库或schema，通过非结构化、半结构化数据进行上传，为下游数据处理流程开放统一取数接口通道，通过FTP数据源采集，进行数据的扩展与维护，在存储一体化的基础上，通过hadoop生态技术生态，支持不同场景的计算引擎切换，进行实时查询与离线查询。由此，可连接主流的异构数据源，实行统一化数据获取方式与同步管理，实现了离线数据与实时数据的平滑过渡，并保证了数据可靠性、及异常补数。

Description

企业数据智能构建方法

技术领域

本发明涉及一种数据处理构建方法，尤其涉及一种企业数据智能构建方法。

背景技术

就现有的企业数据管理来看，至少75％的企业无法对其掌握的数据进行深入利用。其主要原因在于企业的数据支离破碎、不成体系。

以目前较为普遍的企业数据构建来看，存在如下缺陷：

1、数据标准存在争议。烟囱式开发及局部业务服务支撑，导致同名指标不同口径的问题频发；历史不同业务系统逐步迭代上线，相同对象属性编码不一致等问题突出。

2、数据质量参差不齐。重复建设导致任务链冗长、任务繁多，计算资源紧张，数据时效性不好；口径梳理定义的文档沉淀与开发代码实现脱节，数据准确性保障风险高。

3、需求响应较为缓慢。烟囱式开发的开发周期长、效率低，面向应用的服务化不足，导致业务响应速度慢，业务不满意的同时技术又觉得没有沉淀与成长；既懂业务又懂数据的人才不足，需求理解到开发实现涉及大量沟通，服务效率较差。

4、成本资源难以控制。重复建设浪费技术资源；上线难下线更难，源系统或业务变更不能及时反映到数据上，加之数据不标准，研发维护难上加难的同时，大量无用计算和存储造成资源浪费。

有鉴于上述的缺陷，本设计人，积极加以研究创新，以期创设一种企业数据智能构建方法，使其更具有产业上的利用价值。

发明内容

为解决上述技术问题，本发明的目的是提供一种企业数据智能构建方法。

本发明的企业数据智能构建方法，其中：通过数据集成模块、数据处理模块、数据同步模块、数据资产中心相互配合，在存储一体化的基础上以计算与数据架构层面进行操作，通过一键接入方式，进行多种数据源的统一管理，指定需要接入的数据库或schema，通过非结构化、半结构化数据进行上传，为下游数据处理流程开放统一取数接口通道，通过FTP数据源采集，进行数据的扩展与维护，在存储一体化的基础上，通过hadoop生态技术生态，支持不同场景的计算引擎切换，进行实时查询与离线查询。

进一步地，上述的企业数据智能构建方法，其中，所述数据集成模块支持异构数据源的直连取数及离线同步至数据湖的一体化采集服务；

所述异构数据源包括，关系型数据库、结构化/半结构化的文本数据、分布式存储系统或并行计算系统、中间件系统、开发接口中的一种或是多种。

更进一步地，上述的企业数据智能构建方法，其中，所述数据集成模块为主流异构数据源集成模块，支持各种数据源的直连取数及离线同步至数据湖的一体化采集服务，支持的数据源包括，

支持主流关系型数据库的JDBC方式接入，支持的类型包括Mysql、SqlServer、Oracle、db2、postgreSQL、greenPlum；

支持结构化/半结构化的文本数据接入，支持的类型包括TXT、EXCEL、CSV；

支持分布式存储系统或是MPP计算系统，支持的类型包括presto、impala、Elasticsearch、GreenPlum；

支持其他数据传输协议的系统接入，支持的类型包括RabbitMQ、Ftp、RestAPI。

更进一步地，上述的企业数据智能构建方法，其中，所述一键接入方式为，通过主机名、端口、数据库、schema、用户名密码中的一种或是多种进行接入处理。

更进一步地，上述的企业数据智能构建方法，其中，所述数据处理模块，用于数据同步数据、数据湖数据、集群数据统一维护，能实现提供表结构、字段信息、存储信息、属性参数、血缘关系的元数据管理，支持数据库创建增删、数据表创建增删、数据表可视化优化操作。

更进一步地，上述的企业数据智能构建方法，其中，所述数据同步模块对已接入的各类数据源，提供指定数据同步业务流程，包括来源参数设置、目标参数设置、同步参数设置，最终实现数据同步。

更进一步地，上述的企业数据智能构建方法，其中，所述数据同步过程为，通过相应的表、自定义SQL，过滤条件SQL语法，并发数根据同步数据量设定，采用全量或是增量两种方式，调度提供语义化；

所述调度提供语义化的过程为对文本类半结构化数据进行，选择文件、数据准备、预览解析配置，在预览解析配置中，能指定表头行数、配置的字段名称，覆盖、追加的同步模式，实现多excelsheet批量设置。

更进一步地，上述的企业数据智能构建方法，其中，所述数据资产中心，用于提供体系化、系统化建模及研发能力，将数据仓库理论以工具化、半自动化的方式实现；所述数据资产中心，自顶向下构建业务维度、业务过程，细化构建维度表、事实表、汇总表、应用表。

更进一步地，上述的企业数据智能构建方法，其中，所述FTP数据源采集为，FTP中的数据文件内容包括，文件、获取下载、加密、转编码、中间数据维护的功能，能对不同需求的数据文件，做高度抽象的文件处理解析器、解析规则定义。

再进一步地，上述的企业数据智能构建方法，其中，所述实时查询与离线查询过程为，通过实时数据管道实时接入贴源层数据，kudu存储负责实时数据接入，并通过T+1的滑动窗口设置实现kudu+hive的一体化存储，经过ETL过程，最终呈现给分析层实现多维分析；

对于实时查询，通过平台数据ETL、数据建模操作后，落地到ES+Hbase；

对于离线查询，能借助presto、imapla计算引擎查询ETL或数据仓库的延迟数据。

借由上述方案，本发明至少具有以下优点：

1、可连接主流的异构数据源，实行统一化数据获取方式与同步管理，实现了离线数据与实时数据的平滑过渡，并保证了数据可靠性、及异常补数；异构数据源是指不同的数据存储介质与数据存储系统；数据可靠性是指不丢失数据；异常补数是指对同步过程中异常的数据记录并事后补充到目标存储系统。

2、集成了可视化的数据开发环境，可实现不同数据取数需求的灵活编码与配置，支持不同开发语言的编排调度。

3、支持将接入的数据以业务理解的视角进行了建模，并整理成可检索的数据地图，查看数据的基本信息、存储信息、关系信息等。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例详细说明如后。

具体实施方式

下面结合实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

企业数据智能构建方法，其与众不同之处在于：通过数据集成模块、数据处理模块、数据同步模块、数据资产中心相互配合，在存储一体化的基础上以计算与数据架构层面进行操作，通过一键接入方式，进行多种数据源的统一管理，提供可访问的JDBC\ODBC连接信息，指定需要接入的数据库或schema，通过非结构化、半结构化数据进行上传，为下游数据处理流程开放统一取数接口通道，通过FTP数据源采集，进行数据的扩展与维护，在存储一体化的基础上，通过hadoop生态技术生态，支持不同场景的计算引擎切换，进行实时查询与离线查询。这样，依托开源生态技术组合，支持不同场景的计算引擎切换。

结合本发明一较佳的实施方式来看，数据集成模块支持异构数据源的直连取数及离线同步至数据湖的一体化采集服务。具体来说，采用的异构数据源包括，关系型数据库、结构化/半结构化的文本数据、分布式存储系统或并行计算系统、中间件系统、开发接口中的一种或是多种。当然，并不限于上述内容，可依据实际布局来进行扩充。

进一步来看，本发明裁员工的数据集成模块为主流异构数据源集成模块，支持各种数据源的直连取数及离线同步至数据湖的一体化采集服务，支持的数据源包括，支持主流关系型数据库的JDBC方式接入，支持的类型包括Mysql、SqlServer、Oracle、db2、postgreSQL、greenPlum。支持结构化/半结构化的文本数据接入，支持的类型包括TXT、EXCEL、CSV。支持分布式存储系统或是MPP计算系统，支持的类型包括presto、impala、Elasticsearch、GreenPlum。同时，支持其他数据传输协议的系统接入，支持的类型包括RabbitMQ、Ftp、RestAPI。

结合实际实施来看，本发明采用的一键接入方式为，通过主机名、端口、数据库、schema、用户名密码中的一种或是多种进行接入处理。同时，对于本发明采用的数据处理模块，其可用于数据同步数据、数据湖数据、集群数据统一维护，能实现提供表结构、字段信息、存储信息、属性参数、血缘关系的元数据管理，支持数据库创建增删、数据表创建增删、数据表可视化优化操作。这样，在实施期间数据处理方面，集成了多种开发环境，集成及多种直连引擎，实现可视化一站式界面式开发脚本开发，一键启停、调度、日志等功能；数据工作流程，串联起平台各开发环节、图形化的方式调度完整数据工作流程。

再进一步来看，本发明采用的数据同步模块对已接入的各类数据源，提供指定数据同步业务流程，包括来源参数设置、目标参数设置、同步参数设置，最终实现数据同步。由此，可实现的功能包括：批量同步表或数据文件、实时离线、筛选条件、指定目标存储类型、指定同步并发数、调度更新设置。具体来说，数据同步过程为，通过相应的表、自定义SQL，过滤条件SQL语法。该目标库支持两种类型选择hive、kudu。之后，发数根据同步数据量设定，采用全量或是增量两种方式，调度提供语义化。在实际实施期间，调度提供语义化的过程为对文本类半结构化数据进行，选择文件、数据准备、预览解析配置，在预览解析配置中，能指定表头行数、配置的字段名称，覆盖、追加的同步模式，实现多excelsheet批量设置。

同时，本发明提供的数据资产中心，用于提供体系化、系统化建模及研发能力，将数据仓库理论以工具化、半自动化的方式实现。数据资产中心，自顶向下构建业务维度、业务过程，细化构建维度表、事实表、汇总表、应用表。这样，在实际实施期间，能够沉淀标准统一的数据资产，便于业务快速分层并进行智能数据应用，同时优化计算存储。基于规范定义后的数据对象，面向业务视角，可视化构建数据逻辑模型。模型包括维度逻辑表、事实逻辑表及汇总逻辑表。模型定义完成发布生产后，系统将自动化生成物化代码并定时执行调度，完成公共数据中心的全托管生产。

为了更好的实施本发明，实现数据的优化处理，采用的FTP数据源采集为，FTP中的数据文件内容包括，文件、获取下载、加密、转编码、中间数据维护的功能，能对不同需求的数据文件，做高度抽象的文件处理解析器、解析规则定义。这样，具有较高的扩展性和可维护性。

并且，本发明采用的实时查询与离线查询过程为，通过实时数据管道实时接入贴源层数据，kudu存储负责实时数据接入，并通过T+1的滑动窗口设置实现kudu+hive的一体化存储，经过ETL过程，最终呈现给分析层(BI、报表等)实现多维分析。具体来说，对于实时查询，通过平台数据ETL、数据建模操作后，落地到ES+Hbase。比如埋点数据的场景，可以提供pv、uv及用户访问趋势的实时查询。对于离线查询，能借助presto、imapla计算引擎查询ETL或数据仓库的延迟数据。对于离线查询来看，其对取数场景实时性没有强需求、允许一定延迟的取数需求，

为了更好的实施本发明，可增设高性能缓存中间件。具体来说，采集Redis集群作为高性能缓存中间件。标签挖掘开放平台是一款基于高性能缓存中间件的集标签开发、标签定义、标签分组统计、标签缓存、开发监控等功能特性的一站式的标签体系开发平台。这样，整体设计可衍生出客群分析、用户画像应用等数据应用。支持报表展示、即系查询分析等能力。可实现每秒2000以上qps、毫秒级响应的API标签访问性能。高性能缓存中间件redis集群部署方式具有高可用、冗余灾备、高扩展性等特点。

由此可见，应用本发明的方法，能够构成一个基础性的数据汇集、清洗、治理、整合、分发的平台。可以实现一站式、可视化管理企业业务相关的数据资产，建立统一的数据、业务视图，完成基于数据仓库的业务信息整合，建立完善的基础数据平台，为数据分析、快速构建数据应用和提供数据服务奠定基础。

以某银行的数据只能构建平台搭建来看，底层架构依托大数据平台Hadoop生态各组件构建各数据功能模块，接入传统关系型数据库以及半结构化/非结构化数据落地到Hive/Hbase/Kudu等库中综合分析，将数据通过批量/实时引擎推送到前端驱动应用类分析、挖掘等模型中，提供综合的数据应用服务。

具体来说，数据底层分为以下几个部分：

数据源

银行核心系统数据数据下传平台、电子报表、信用卡系统、历史模型表数据、手机银行和微信端用户行为埋点、外部数据等。

数据集成

从数据源根据不同需求使用大数据消息队列、数据工作流，数据集成平台、实时流数据处理等方法集成数据。

数据存储

数据存储在平台大数据集群Hadoop平台，Hive和Kudu库中，使用Impala引擎查询数据，日志行为等数据存放于Elasticsearch库中，方便查询分析。

数据开发

数据开发在平台开发界面可以选择SQL/PYTHON等开发语言对数据集进行关联分析模型开发应用。

数据集市

根据不同业务模型，创建主题的数据集市数仓模型，并创建底层ODS层近源层数仓做集市底层，构建完整的数据仓库-数据集市模型。

数据模型

根据各业务策略模型，开发数据挖掘模型，在平台中串联模型步骤，一键运行模型输出模型结果，给出策略方案。

数据产品

通过BI平台、大屏展示、小程序、DataAPI等方式展示输出数据结果，提供给应用层。

搭建数据智能平台，据智能构建平台涵括数据集成、数据处理、数据运维、数据资产、数据挖掘、数据引擎、系统管理等模块，并集成公司BI产品快速搭建前端数据展示界面。

同时，可以实现BI可视化平台。由此，提供活动平台的实时可视化监控，提供良好的数据展示服务，为各个条线主管监控活动实时状态提供各类看板数据。结合行内数据做出交叉分析看板，提供活动及员工助手的数据分析有效支撑。

进一步来看，实施期间可以进行数据铺底工作，包括下表：

同时，能为手机银行活动提供客户验证支持，并根据现有数据对行内客群分析出每日报表。依托大数据平台的高性能存储及算力支撑，快速响应活动及行内需求。

能够实现数据活动支持，推送行外活动数据进行内大数据平台，结合行内行外数据出交叉分析报表。具体来说，每日参与活动行内存量客户数/比例。每日参与活动行内存量客户且本月有动账客户明细。各类参与活动行内存量/持卡客户动账及活跃度分析。

通过上述的文字表述可以看出，采用本发明后，拥有如下优点：

3、支持将接入的数据以业务理解的视角进行了建模，并整理成可检索的数据地图，查看数据的基本信息、存储信息、关系信息等。数据地图是指将不易理解的技术元数据按业务主题域、业务板块等层级翻译为业务可理解的名词组织和存储的模式。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.企业数据智能构建方法，其特征在于：通过数据集成模块、数据处理模块、数据同步模块、数据资产中心相互配合，在存储一体化的基础上以计算与数据架构层面进行操作，通过一键接入方式，进行多种数据源的统一管理，指定需要接入的数据库或schema，通过非结构化、半结构化数据进行上传，为下游数据处理流程开放统一取数接口通道，通过FTP数据源采集，进行数据的扩展与维护，在存储一体化的基础上，通过hadoop生态技术生态，支持不同场景的计算引擎切换，进行实时查询与离线查询。

2.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述数据集成模块支持异构数据源的直连取数及离线同步至数据湖的一体化采集服务；

3.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述数据集成模块为主流异构数据源集成模块，支持各种数据源的直连取数及离线同步至数据湖的一体化采集服务，支持的数据源包括，

4.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述一键接入方式为，通过主机名、端口、数据库、schema、用户名密码中的一种或是多种进行接入处理。

5.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述数据处理模块，用于数据同步数据、数据湖数据、集群数据统一维护，能实现提供表结构、字段信息、存储信息、属性参数、血缘关系的元数据管理，支持数据库创建增删、数据表创建增删、数据表可视化优化操作。

6.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述数据同步模块对已接入的各类数据源，提供指定数据同步业务流程，包括来源参数设置、目标参数设置、同步参数设置，最终实现数据同步。

7.根据权利要求6所述的企业数据智能构建方法，其特征在于：所述数据同步过程为，通过相应的表、自定义SQL，过滤条件SQL语法，并发数根据同步数据量设定，采用全量或是增量两种方式，调度提供语义化；所述调度提供语义化的过程为对文本类半结构化数据进行，选择文件、数据准备、预览解析配置，在预览解析配置中，能指定表头行数、配置的字段名称，覆盖、追加的同步模式，实现多excelsheet批量设置。

8.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述数据资产中心，用于提供体系化、系统化建模及研发能力，将数据仓库理论以工具化、半自动化的方式实现；所述数据资产中心，自顶向下构建业务维度、业务过程，细化构建维度表、事实表、汇总表、应用表。

9.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述FTP数据源采集为，FTP中的数据文件内容包括，文件、获取下载、加密、转编码、中间数据维护的功能，能对不同需求的数据文件，做高度抽象的文件处理解析器、解析规则定义。

10.根据权利要求1所述的企业数据智能构建方法，其特征在于：所述实时查询与离线查询过程为，通过实时数据管道实时接入贴源层数据，kudu存储负责实时数据接入，并通过T+1的滑动窗口设置实现kudu+hive的一体化存储，经过ETL过程，最终呈现给分析层实现多维分析；