CN112364094A - 数据仓库可视化建模方法、装置及介质 - Google Patents

数据仓库可视化建模方法、装置及介质 Download PDF

Info

Publication number
CN112364094A
CN112364094A CN202011284253.8A CN202011284253A CN112364094A CN 112364094 A CN112364094 A CN 112364094A CN 202011284253 A CN202011284253 A CN 202011284253A CN 112364094 A CN112364094 A CN 112364094A
Authority
CN
China
Prior art keywords
data
source
business
visual
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011284253.8A
Other languages
English (en)
Inventor
朱潇婷
彭浩
张雪军
黄天德
谭必文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Zhuohuan Technology Co ltd
Original Assignee
Zhuhai Zhuohuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Zhuohuan Technology Co ltd filed Critical Zhuhai Zhuohuan Technology Co ltd
Priority to CN202011284253.8A priority Critical patent/CN112364094A/zh
Publication of CN112364094A publication Critical patent/CN112364094A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据仓库可视化建模方法、装置及介质的技术方案,包括:全局规划,将用于业务的数据仓库以自顶向下创建业务数据总线;数据引入,基于所述全局规划,根据所述业务数据总线配置对应的项目空间及物理数据源;规范定义,根据所述业务数据总线及物理数据源构建可视化数据模型;可视化分析,通过可视化界面对数据源的分布及详情进行可视化展示。本发明的有益效果为:基于规范定义的企业维度、业务过程、原子指标、派生指标,通过自动化代码,进一步细化开发维度表、事实表和汇总表;生成企业数据仓库模型,便于业务分层的数据应用,同时优化计算和存储;数据丰富融通,主题化服务更智能。

Description

数据仓库可视化建模方法、装置及介质
技术领域
本发明涉及计算机领域,具体涉及了一种数据仓库可视化建模方法、装置及介质。
背景技术
在数据急剧增长的情况下,企业面临更多的数据问题:数据不统一,计算逻辑不一致;数据未打通,孤岛现象严重;源系统或业务变更与数据不同步导致维护困难;重复建设导致数据时效性差;数据加工错综复杂,很少有人能把左右字段处理过程记的一清二楚,数据血缘无处可寻。
因为业务系统多、数据来源多,经营所需的数据需求高频且多样化。但数据体系复杂、数据不统一,数据分析速度和数据准确一致性难保障,战略决策与数据化运营受阻。现有数据处理技术无法快速的处理大量错综复杂的业务数据;数据建模没有规范定义,导致不同的建模人员有不同的处理方法;数据越复杂,数据处理难度越大,导致数据处理门槛和成本往往高且低效,复用性低。
发明内容
本发明的目的在于至少解决现有技术中存在的技术问题之一,提供了一种数据仓库可视化建模方法、装置及介质,通过对游戏数据进行分区及多维存储,通过多维查询对业务需求进行快捷数据展示。
本发明的技术方案包括一种数据仓库可视化建模方法,其特征在于,该方法包括:全局规划,将用于业务的数据仓库以自顶向下创建业务数据总线;数据引入,基于所述全局规划,根据所述业务数据总线配置对应的项目空间及物理数据源;规范定义,根据所述业务数据总线及物理数据源构建可视化数据模型;可视化分析,通过可视化界面对数据源的分布及详情进行可视化展示。
根据所述的数据仓库可视化建模方法,其中的全局规划包括:根据业务全局,从顶层自下规划设计业务数据总线,具体包括划分命名空间、定义主题域及相关名词、划分管理单元、定义数据源及计算引擎源。
根据所述的数据仓库可视化建模方法,其中的数据引入包括:基于全局设计定义的项目空间与物理数据源,将若干数量的业务系统及不同类型的数据抽取加载至目标数据库。
根据所述的数据仓库可视化建模方法,其中的数据引入包括:配置数据源,根据数据总线需求,配置作为源数据的数据源,从对应数据库将数据进行导出;数据抽取,根据数据源的类型及配置数据,进行数据的抽取及采集;数据转换,对已采集的数据源的字段进行转换和过滤;数据写入,将已过滤并转换后的数据源,按照配置的字段映射关系进行写入目标数据库;目标数据源同步,将数据源导入至目标数据库对应表和字段,同步源数据与目标数据。
根据所述的数据仓库可视化建模方法,其中的数据抽取包括:根据源数据源和目标数据源的类型读取相应的模板文件,组装数据参数,提交到数据抽取引擎中,创建任务执行的上下文,基于模板中配置预处理流程,通过反射调用相应的处理类进行数据的预处理,同时初始化读线程和写线程,提交到线程池执行抽取。
根据所述的数据仓库可视化建模方法,其中的规范定义包括:结构化定义数据元素,其中数据元素包括维度、原子指标、业务限定、业务过程、统计周期及派生指标;构建可视化数据模型,包括:通过可视化交互界面的配置创建维度表、事实表及汇总表时的组装sql语句,并从各个来源主表中同步数据到所创建的表中。
根据所述的数据仓库可视化建模方法,其中的维度表用于创建维度时,则自动创建维度表,并自动生成建表语句和对应字段数据的同步;所述事实表用于根据事实表的显示标识及主表信息,配置事实表的关联维度,自动生成建表语句和对应字段数据的同步;所述汇总表用于根据输入的表名称、统计粒度和事实表,自动生成建表语句和对应字段数据的同步sql。
根据所述的数据仓库可视化建模方法,其中的可视化分析包括资产服务及数据服务,其中资产服务用于根据采集的数据经过数据仓库可视化建模形成资产地图,通过可视化界面对资产地图进行展示、穿透查看及全局预览;所述。
本发明的技术方案还包括一种数据仓库可视化建模装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现任一所述的方法步骤。
本发明的技术方案还包括一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本发明的有益效果为:(1)数据规范统一,采用维度事实建模理论,对维度、维度属性、业务过程、指标字段等进行严格的标准化;(2)规范化定义,保障数据质量,避免数据指标定义的二义性;(3)高效且自动化的编码,基于函数化理念,对通用数据计算逻辑进行组件化定义,并可自由组建统计指标,从而实现自助化建模研发,系统自动生成代码执行数据生产;(4)智能计算优化,支持从业务视角进行逻辑建模,逻辑模型发布后,系统自动化进行物理建模、编码,从而降低对开发人员的技术能力依赖;(5)一站式研发体验:一站式地完成数据引入、建模、研发、运维、数据查找及探查等过程,研发链路统一且高效;(6)系统化构建数据目录:基于规范化建模、高效自动化的元数据抽取,以标准的技术框架系统地构建规范的业务化数据目录,形成数据资产地图,方便业务查找及应用;(7)高效的数据检索:基于元数据及业务数据构建数据图谱,实现快速、智能检索数据表及数据;(8)数据使用简单可依赖:通过主题式数据查询服务,您可以快速查询和访问研发构建的数据逻辑表,简化查询代码。
附图说明
下面结合附图和实施例对本发明进一步地说明;
图1所示为根据本发明实施方式的框架示意图;
图2所示为根据本发明实施方式的数据仓库的可视化流程示意图;
图3所示为根据本发明实施方式的方法流程图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本发明的描述中,对方法步骤的连续标号是为了方便审查和理解,结合本发明的整体技术方案以及各个步骤之间的逻辑关系,调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。
本发明的描述中,除非另有明确的限定,设置等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
术语解释:
业务板块:业务板块是逻辑空间的重要组成部分,是基于业务特征划分的命名空间。在同一个业务板块中可能包含多个不同的项目,业务板块与项目的关系为1:N。例如,某企业的业务涉及零售和文娱,且系统间相互独立,则零售和文娱就是两个业务板块。
统计周期:统计的时间范围。例如最近一周、最近一个月、自然周、自然月等。
项目管理:项目是一种物理空间上的划分,便于用户在数据中台建设过程中对物理资源及开发人员进行隔离化管理。
维度:人们观察事物的角度,是指一种视角,是确定事物的多方位、多角度、多层次的条件和概念。
业务过程:业务过程即业务活动中的所有事件。
维度表:丰富维度的属性信息形成维度逻辑表。通过维度逻辑表,设计及加工处理公共对象明细数据,便于提取业务中对象的明细数据。
事实表:用于描述业务过程的详细信息。通过创建事实逻辑表,设计及加工处理公共事务明细数据,便于提取业务中事务的明细数据。
汇总表:汇总选定表的信息。
业务限定:圈定统计的业务范围。
原子指标:对指标统计口径、具体算法的抽象。本设计创新性地提出了设计即开发的理念,指标定义同时也明确了设计统计口径(即计算逻辑),提升了研发效率,并保证了统计结果的一致性。例如支付金额。
派生指标:即基于原子指标、时间周期和维度,圈定业务统计范围并分析获取业务统计指标的数值。派生指标=原子指标+业务限定+统计周期+维度(维度的组合)(统计粒度)。
统计粒度:定义数据汇总的程度。例如,如果维度为时间,则统计粒度为年、季、月、周或日等。
图1所示为根据本发明实施方式的框架示意图,包括:
全局设计:基于业务全局,从顶层自下规划设计业务数据总线,包括划分命名空间、定义主题域及相关名词、划分管理单元(即项目)、定义数据源及计算引擎源。
数据引入:数据引入基于全局设计定义的项目空间与物理数据源,将各业务系统、各类型的数据抽取加载至目标数据库,这个过程可以实现各类业务数据的同步与集成,完成基础数据中心建设,为后续加工数据提供基础。
规范定义:基于全局设计定义的业务总线、数据引入构建的基础数据中心,根据业务数据需求,结构化地定义数据元素(例如维度、原子指标、业务限定、业务过程、统计周期、派生指标)。
建模研发:基于规范定义的数据元素,设计与构建可视化的数据模型。数据模型提交发布后,智能自动化地生成代码与调度任务,完成公共数据中心的全托管建设。
资产分析:在元数据中心基础上,深度分析元数据,实现数据资产化管理;可视化地呈现资产分布、元数据详情等,方便快速查找、深度了解数据资产。
数据服务,数据服务用于提供高效便捷的主题式查询功能及有效的全链路企业内API生命周期托管,真正实现低门槛API开发,帮助您更好地进行数据资产应用以实现价值化。
图2所示为根据本发明实施方式的数据仓库的可视化流程示意图,本实施例中通过行业管理来隔离数据,所有的定义都是挂在行业下,比有地产行业、零售行业等,切换行业后,则只展示当前选中行业下的数据。整个建模平台分两种权限角色:系统管理员和项目应用人员。功能模块包括四大部分:行业管理,规划中心,建模中心,资产中心。系统管理员主要维护行业管理、规划中心内容,在完成规范建模后,项目人员则只需要引用规范模型,在开发界面对引用的模板进行对项目的适应的个性处理即可。模型管理和建模中心功能一致,区别在于各个行业的标准模型,配置各项前置条件。建模中心则由根据具体项目,对模型做项目适应处理。
具体示例如下:
(1)全局设计:基于业务全局,从顶层自下规划设计业务数据总线,包括:划分命名空间、定义主题域及相关名词、划分管理单元(即项目)、定义数据源及计算引擎源。
(2)数据引入:数据引入基于全局设计定义的项目空间与物理数据源,将各业务系统、各类型的数据抽取加载至目标数据库。这个过程可以实现各类业务数据的同步与集成,完成基础数据中心建设,为后续进一步加工数据奠定基础。源数据源:选择需要作为源数据的数据源,配置从哪个库里哪个表或者哪些字段,进行导出。数据抽取:配置好数据源后,判断是哪种类型的数据源,进行数据的抽取,采集。数据抽取的过程:数据抽取任务根据源数据源和目标数据源的类型读取相应的模板文件,组装数据参数,提交到数据抽取引擎中,创建任务执行的上下文。基于模板中配置预处理流程,通过反射调用相应的处理类进行数据的预处理,同时初始化读线程ReadWorker和WriteWorker写线程,提交到线程池执行。
(3)数据转换,当数据从源数据库按照配置属性采集成功后,将对数据字段类型的转换、filter过滤。以MySQL源表抽取数据到Hive目标表为例:从源表读数据的时候可以在界面配置字段,通过select sql,配置读取的线程数等配置,让程序从源表读入数据,并通过MySQL内置的函数,将取出的列转换为我们指定的类型,和读取数据的速度;当写入到目标Hive表的时候,我们可以在界面配置Hive文件在hdfs中的存储格式、分区定义、字段定义、字段类型定义、在hdfs中的文件个数,等配置,让程序按照这些配置创建hive表,并通过不同的存储格式和字段定义,将从源表读进来的数据按照我们指定的格式写到目标hive表中。数据写入:将已过滤并转换后的数据,按照配置的字段映射关系进行写入。ReadWorker和WriteWorker线程中,会调用相应数据源类型的读写插件,进行数据的抽取和写入。目标数据源:配置需要将源数据导入到的目标数据库的哪个表、哪个字段下。同步任务完成后,即可进入到目标数据源查看落地数据。
(3)规范定义,基于全局设计定义的业务总线、数据引入构建的基础数据中心,根据业务数据需求,结构化地定义数据元素(例如维度、原子指标、业务限定、业务过程、统计周期、派生指标),保障数据无二义性地标准化、规范化生产。
定义维度、原子指标、业务限定、业务过程、统计周期、派生指标,在后面自动化建表和取数时,均使用其英文名。
定义来规范后,供建模研发使用。封装好这些定义,通过业务形式的命名,均有英文名。
派生指标:由统计周期+业务限定+维度+原子指标组合生成,供汇总表使用时,拼凑sql。
原子指标:会定义计算逻辑,比如:sum(price*amount)
业务限定:需要定义计算逻辑,比如:payName='weixin'
建模研发:基于规范定义的数据元素,设计与构建可视化的数据模型。数据模型提交发布后,系统智能自动化地生成代码与调度任务,完成公共数据中心的全托管建设。
通过前置的定义(维度、原子指标、业务限定、业务过程、统计周期、派生指标的英文名),可视化的配置创建维度表、事实表、汇总表时组装sql创建,并从各个来源主表中同步数据到创建的表中。
维度表:创建维度时,则自动创建一个维度表(此表只是个物理表)。再在可视化界面通过引用现有业务的数据源的表字段,配置此维度表的id字段,属性字段,分区字段,则可自动生成建表语句和对应字段数据的同步;且可配置此表任务的调度周期,控制任务多久跑一次;物理化可配置此表的生命周期;且可以查看此表的版本信息,追溯表的修改历史;且可以通过下线和上线来控制任务是否继续运行;且可通过测试按钮,查看自动生成的建表语句,和数据同步语句。
比如:[CREATE]创建维度表
CREATE TABLE dim_ld_surger_wd1(
jiaoyi_id INT COMMENT'交易id',
areaname STRING COMMENT'areaname',
areacode STRING COMMENT'areacode'
)
COMMENT"维度1维度1"
PARTITIONED BY(
stat_date_0916STRING COMMENT'时间分区0916'
)
STORED AS RCFILE
[SQL]插入关联字段数据语句
explain INSERT OVERWRITE TABLE dim_ld_surger_wd1 PARTITION(stat_date_0916='20200921')
SELECT table01_area.area_id AS jiaoyi_id,table01_area.areaname ASareaname,table01_area.areacode AS areacode
FROM table01_area
where table01_area.dt='20200921'
事实表:在界面新增一个事实表,填写完整的表英文名中文名、选择来源主表(此新增的事实表的业务数据来源的表)等信息则新增成功。配置事实表的关联维度(来源于维度表),关联维度是维护此事实表的统计维度是从哪些维度统计的,再在可视化界面通过引用来源主表现有业务的数据源的表字段,属性字段(从主表来源选中的表里选择字段,且需要关联原子指标),分区字段,则可自动生成建表语句和对应字段数据的同步;且可配置此表任务的调度周期,控制任务多久跑一次;物理化可配置此表的生命周期;且可以查看此表的版本信息,追溯表的修改历史;可以通过下线和上线来控制任务是否继续运行;且可通过测试按钮,查看自动生成的建表语句,和数据同步语句。
比如:
[CREATE]建表语句
CREATE TABLE fct_ld_surger_jine_df(
random_id STRING COMMENT'随机主键id',
huiyuan_id INT COMMENT'会员id',
jiaoyi_id INT COMMENT'交易id',
price BIGINT COMMENT'price',
event STRING COMMENT'event'
)
COMMENT""
PARTITIONED BY(
stat_date_0916STRING COMMENT'时间分区0916'
)
STORED AS RCFILE
[SQL]插入关联字段数据语句
explain INSERT OVERWRITE TABLE fct_ld_surger_jine_df PARTITION(stat_date_0916='20200921')
SELECT md5(rand())AS random_id,ods_finsh_fact_event_log.area_id AShuiyuan_id,ods_finsh_fact_event_log.pay_id AS jiaoyi_id,ods_finsh_fact_event_log.price AS price
,ods_finsh_fact_event_log.event AS event
FROM ods_finsh_fact_event_log
where ods_finsh_fact_event_log.dt='20200921'
汇总表:在界面新增一个汇总表,填写完整的表英文名中文名、选择统计粒度和事实表(来关联此汇总表需要的派生指标和原子指标)等信息则新增成功。在可视化界面添加派生指标作为此汇总表的表字段,则可自动生成建表语句和对应字段数据的同步sql;且可配置此表任务的调度周期,控制任务多久跑一次;物理化可配置此表的生命周期;且可以查看此表的版本信息,追溯表的修改历史;可以通过下线和上线来控制任务是否继续运行;且可通过测试按钮,查看自动拼凑生成的建表语句,和数据同步语句。
比如:
[CREATE]创建汇总表
CREATE TABLE dws_ld_surger_huizong_wd2_huiyuan_id_payname(
huiyuan_id INT COMMENT'会员id',
payname STRING COMMENT'payname',
wd2_mouth_yue_quyu_jine INT COMMENT'月(微信支付,区域是珠海)粒度:[weidu2:会员id,ods_finsh_pay.payname]支付金额',
wd2_zr_week_yue_jine INT COMMENT'自然周(微信支付)粒度:[weidu2:会员id,ods_finsh_pay.payname]支付金额',
wd2_zr_mouth_yue_jine INT COMMENT'自然月(微信支付)粒度:[weidu2:会员id,ods_finsh_pay.payname]支付金额',
wd2_mouth_yue_jine INT COMMENT'月(微信支付)粒度:[weidu2:会员id,ods_finsh_pay.payname]支付金额'
)
COMMENT":weidu2:会员id,ods_finsh_pay.payname"
PARTITIONED BY(
stat_date_0916STRING COMMENT'时间分区0916'
)
STORED AS RCFILE
[SQL]往汇总表里插入关联字段内容的语句
set hive.mapred.mode=nonstrict;add jar hdfs:///user/hive/udf/DateUDF-1.0-SNAPSHOT.jar;create temporary function getdataboundary as'com.wakedata.udf.GetDateBoundary';
explain INSERT OVERWRITE TABLE dws_ld_surger_huizong_wd2_huiyuan_id_payname PARTITION(stat_date_0916='20200921')
SELECT
COALESCE(
fct_ld_surger_jine_df.huiyuan_id
)as huiyuan_id,
COALESCE(
fct_ld_surger_jine_df.payname
)as payname,
sum(fct_ld_surger_jine_df.wd2_mouth_yue_quyu_jine)as wd2_mouth_yue_quyu_jine,
sum(fct_ld_surger_jine_df.wd2_zr_week_yue_jine)as wd2_zr_week_yue_jine,
sum(fct_ld_surger_jine_df.wd2_zr_mouth_yue_jine)as wd2_zr_mouth_yue_jine,
sum(fct_ld_surger_jine_df.wd2_mouth_yue_jine)as wd2_mouth_yue_jine
from
(
select
dim_ld_surger_wd2.huiyuan_id,dim_ld_surger_wd2.payname,
SUM(case when(((payName='微信')and(areaName='珠海')and(fct_ld_surger_jine_df.stat_date_0916>=from_unixtime(unix_timestamp(date_add(from_unixtime(unix_timestamp('20200921','yyyymmdd'),'yyyy-mm-dd'),-30),'yyyy-mm-dd'),'yyyyMMdd')and fct_ld_surger_jine_df.stat_date_0916<=20200921)))thenprice*amount else 0end)as wd2_mouth_yue_quyu_jine,
SUM(case when(((payName='微信')and(fct_ld_surger_jine_df.stat_date_0916>=Cast(getdataboundary(20200921,'weekstart')as bigint)and fct_ld_surger_jine_df.stat_date_0916<=Cast(getdataboundary(20200921,'weekend')asbigint))))then price*amount else 0end)as wd2_zr_week_yue_jine,
SUM(case when(((payName='微信')and(fct_ld_surger_jine_df.stat_date_0916>=Cast(getdataboundary(20200921,'monthstart')as bigint)and fct_ld_surger_jine_df.stat_date_0916<=Cast(getdataboundary(20200921,'monthend')asbigint))))then price*amount else 0end)as wd2_zr_mouth_yue_jine,
SUM(case when(((payName='微信')and(fct_ld_surger_jine_df.stat_date_0916>=from_unixtime(unix_timestamp(date_add(from_unixtime(unix_timestamp('20200921','yyyymmdd'),'yyyy-mm-dd'),-30),'yyyy-mm-dd'),'yyyyMMdd')and fct_ld_surger_jine_df.stat_date_0916<=20200921)))then price*amount else 0end)aswd2_mouth_yue_jine
from fct_ld_surger_jine_df
left join dim_ld_surger_wd2 on fct_ld_surger_jine_df.huiyuan_id=dim_ld_surger_wd2.huiyuan_id
left join dim_ld_surger_wd1 on fct_ld_surger_jine_df.jiaoyi_id=dim_ld_surger_wd1.jiaoyi_id
where((fct_ld_surger_jine_df.stat_date_0916>=Cast(getdataboundary(20200921,'weekstart')as bigint)and fct_ld_surger_jine_df.stat_date_0916<=Cast(getdataboundary(20200921,'weekend')as bigint)
)or(fct_ld_surger_jine_df.stat_date_0916>=Cast(getdataboundary(20200921,'monthstart')as bigint)and fct_ld_surger_jine_df.stat_date_0916<=Cast(getdataboundary(20200921,'monthend')as bigint)
)or(fct_ld_surger_jine_df.stat_date_0916>=from_unixtime(unix_timestamp(date_add(from_unixtime(unix_timestamp('20200921','yyyymmdd'),'yyyy-mm-dd'),-30),'yyyy-mm-dd'),'yyyyMMdd')and fct_ld_surger_jine_df.stat_date_0916<=20200921))
group by dim_ld_surger_wd2.huiyuan_id,dim_ld_surger_wd2.payname
)as fct_ld_surger_jine_df
group by COALESCE(
fct_ld_surger_jine_df.huiyuan_id
),
COALESCE(
fct_ld_surger_jine_df.payname
)
自动化的创建维度表、事实表、汇总表,不需要写建表语句即可创建表。
(5)资产分析:
在元数据中心基础上,深度分析元数据,实现数据资产化管理。
可视化地呈现资产分布、元数据详情等,方便您快速查找、深度了解数据资产。
具体地:数据经采集、集成、加工等流程处理完成后,可以在资产分析模块进行系统化管理。基于业务板块、数据域、维度、业务过程和所属项目的关联关系,在资产模块集中展示数据。同时,资产地图支持搜索、访问及收藏等功能,为您提供高效、快捷、准确的数据查找入口。穿透可查看表详情:表结构、分区、数据预览、血缘信息。全局预览:则可视化的呈现业务板块、数据域等的关联关系,点击可查看对应的详情信息。
(6)数据服务:数据服务管理提供高效便捷的主题式查询功能及有效的全链路企业内API生命周期托管,真正实现低门槛API开发,进行数据资产应用。
具体包括
支持可视化配置数据源、表、入参、出参等信息,缩短API开发周期。支持可视化API审批授权等安全配置。授权用户获得唯一token,通过token验证用户真实性。API的流量控制和监控视图。以满足不同数据的使用场景,同时降低数据的开发门槛,帮助企业实现数据应用价值最大化。
在后端平台维护全部的api信息(如配置),当用户需要使用时,可在前端平台申请api的访问,后端可以在审批界面进行审批,审批通过后,才会生成有效的key和秘钥,供用户正常调用申请过的api。
图3所示为根据本发明实施方式的装置示意图。装置包括存储器100及处理器200,其中处理器200存储有计算机程序,计算机程序用于执行:全局规划,将用于业务的数据仓库以自顶向下创建业务数据总线;数据引入,基于所述全局规划,根据所述业务数据总线配置对应的项目空间及物理数据源;规范定义,根据所述业务数据总线及物理数据源构建可视化数据模型;可视化分析,通过可视化界面对数据源的分布及详情进行可视化展示。其中,存储器100用于存储数据。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (10)

1.一种数据仓库可视化建模方法,其特征在于,该方法包括:
全局规划,将用于业务的数据仓库以自顶向下创建业务数据总线;
数据引入,基于所述全局规划,根据所述业务数据总线配置对应的项目空间及物理数据源;
规范定义,根据所述业务数据总线及物理数据源构建可视化数据模型;
可视化分析,通过可视化界面对数据源的分布及详情进行可视化展示。
2.根据权利要求1所述的数据仓库可视化建模方法,其特征在于,所述全局规划包括:
根据业务全局,从顶层自下规划设计业务数据总线,具体包括划分命名空间、定义主题域及相关名词、划分管理单元、定义数据源及计算引擎源。
3.根据权利要求1所述的数据仓库可视化建模方法,其特征在于,所述数据引入包括:
基于全局设计定义的项目空间与物理数据源,将若干数量的业务系统及不同类型的数据抽取加载至目标数据库。
4.根据权利要求1所述的数据仓库可视化建模方法,其特征在于,所述数据引入包括:
配置数据源,根据数据总线需求,配置作为源数据的数据源,从对应数据库将数据进行导出;
数据抽取,根据数据源的类型及配置数据,进行数据的抽取及采集;
数据转换,对已采集的数据源的字段进行转换和过滤;
数据写入,将已过滤并转换后的数据源,按照配置的字段映射关系进行写入目标数据库;
目标数据源同步,将数据源导入至目标数据库对应表和字段,同步源数据与目标数据。
5.根据权利要求4所述的数据仓库可视化建模方法,其特征在于,所述数据抽取包括:
根据源数据源和目标数据源的类型读取相应的模板文件,组装数据参数,提交到数据抽取引擎中,创建任务执行的上下文,基于模板中配置预处理流程,通过反射调用相应的处理类进行数据的预处理,同时初始化读线程和写线程,提交到线程池执行抽取。
6.根据权利要求1所述的数据仓库可视化建模方法,其特征在于,所述规范定义包括:
结构化定义数据元素,其中数据元素包括维度、原子指标、业务限定、业务过程、统计周期及派生指标;
构建可视化数据模型,包括:通过可视化交互界面的配置创建维度表、事实表及汇总表时的组装sql语句,并从各个来源主表中同步数据到所创建的表中。
7.根据权利要求6所述的数据仓库可视化建模方法,其特征在于,所述维度表用于创建维度时,则自动创建维度表,并自动生成建表语句和对应字段数据的同步;所述事实表用于根据事实表的显示标识及主表信息,配置事实表的关联维度,自动生成建表语句和对应字段数据的同步;所述汇总表用于根据输入的表名称、统计粒度和事实表,自动生成建表语句和对应字段数据的同步sql。
8.根据权利要求1所述的数据仓库可视化建模方法,其特征在于,所述可视化分析包括资产服务及数据服务,其中资产服务用于根据采集的数据经过数据仓库可视化建模形成资产地图,通过可视化界面对资产地图进行展示、穿透查看及全局预览;所述。
9.一种数据仓库可视化建模装置,该装置包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一所述的方法步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一所述的方法步骤。
CN202011284253.8A 2020-11-17 2020-11-17 数据仓库可视化建模方法、装置及介质 Withdrawn CN112364094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011284253.8A CN112364094A (zh) 2020-11-17 2020-11-17 数据仓库可视化建模方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011284253.8A CN112364094A (zh) 2020-11-17 2020-11-17 数据仓库可视化建模方法、装置及介质

Publications (1)

Publication Number Publication Date
CN112364094A true CN112364094A (zh) 2021-02-12

Family

ID=74515781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011284253.8A Withdrawn CN112364094A (zh) 2020-11-17 2020-11-17 数据仓库可视化建模方法、装置及介质

Country Status (1)

Country Link
CN (1) CN112364094A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435944A (zh) * 2021-07-12 2021-09-24 上海天旦网络科技发展有限公司 一种营销效果后评估系统
CN113486047A (zh) * 2021-07-12 2021-10-08 上海天旦网络科技发展有限公司 一种对目标客群进行调查分析的系统
CN113516459A (zh) * 2021-09-14 2021-10-19 深圳市信润富联数字科技有限公司 一种位号主数据管理系统、方法、终端设备及存储介质
CN113852499A (zh) * 2021-09-16 2021-12-28 国科量子通信网络有限公司 量子通信网络运维可视化方法
CN113934782A (zh) * 2021-09-22 2022-01-14 易联众智鼎(厦门)科技有限公司 一种基于dag模型的数据etl系统及使用方法
CN113961638A (zh) * 2021-11-12 2022-01-21 国网山东省电力公司信息通信公司 一种基于数据中台的数据可视化方法及系统
CN114490840A (zh) * 2021-10-29 2022-05-13 中远海运科技股份有限公司 一种日期维度表自动生成方法及系统
CN114490858A (zh) * 2022-02-22 2022-05-13 北京科杰科技有限公司 一种大数据与rmdb的表结构类型转换系统及方法
CN114911861A (zh) * 2022-07-15 2022-08-16 山东中联佳裕软件股份有限公司 公共卫生服务项目数据质控系统
CN114969040A (zh) * 2022-05-26 2022-08-30 上海快仓智能科技有限公司 一种数据展示方法、装置、电子设备及存储介质
CN115374329A (zh) * 2022-10-25 2022-11-22 杭州比智科技有限公司 一种管理企业业务元数据和技术元数据的方法及系统
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质
CN116028248A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 适用于web端的数据处理方法、装置及电子设备
CN116303469A (zh) * 2023-03-31 2023-06-23 佛山众陶联供应链服务有限公司 一种全面快速查看分析的数仓管理方法及装置
CN116431736A (zh) * 2023-02-06 2023-07-14 北京三维天地科技股份有限公司 一种在线数据仓库模型的构建方法及系统

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486047B (zh) * 2021-07-12 2022-11-22 上海天旦网络科技发展有限公司 一种对目标客群进行调查分析的系统
CN113486047A (zh) * 2021-07-12 2021-10-08 上海天旦网络科技发展有限公司 一种对目标客群进行调查分析的系统
CN113435944A (zh) * 2021-07-12 2021-09-24 上海天旦网络科技发展有限公司 一种营销效果后评估系统
CN113516459A (zh) * 2021-09-14 2021-10-19 深圳市信润富联数字科技有限公司 一种位号主数据管理系统、方法、终端设备及存储介质
CN113516459B (zh) * 2021-09-14 2022-01-07 深圳市信润富联数字科技有限公司 一种位号主数据管理系统、方法、终端设备及存储介质
CN113852499A (zh) * 2021-09-16 2021-12-28 国科量子通信网络有限公司 量子通信网络运维可视化方法
CN113934782A (zh) * 2021-09-22 2022-01-14 易联众智鼎(厦门)科技有限公司 一种基于dag模型的数据etl系统及使用方法
CN114490840A (zh) * 2021-10-29 2022-05-13 中远海运科技股份有限公司 一种日期维度表自动生成方法及系统
CN113961638A (zh) * 2021-11-12 2022-01-21 国网山东省电力公司信息通信公司 一种基于数据中台的数据可视化方法及系统
CN113961638B (zh) * 2021-11-12 2023-12-01 国网山东省电力公司信息通信公司 一种基于数据中台的数据可视化方法及系统
CN114490858A (zh) * 2022-02-22 2022-05-13 北京科杰科技有限公司 一种大数据与rmdb的表结构类型转换系统及方法
CN114969040A (zh) * 2022-05-26 2022-08-30 上海快仓智能科技有限公司 一种数据展示方法、装置、电子设备及存储介质
CN114911861A (zh) * 2022-07-15 2022-08-16 山东中联佳裕软件股份有限公司 公共卫生服务项目数据质控系统
CN115374329A (zh) * 2022-10-25 2022-11-22 杭州比智科技有限公司 一种管理企业业务元数据和技术元数据的方法及系统
CN116431736A (zh) * 2023-02-06 2023-07-14 北京三维天地科技股份有限公司 一种在线数据仓库模型的构建方法及系统
CN116431736B (zh) * 2023-02-06 2023-10-20 北京三维天地科技股份有限公司 一种在线数据仓库模型的构建方法及系统
CN115809302A (zh) * 2023-02-21 2023-03-17 合肥喆塔科技有限公司 元数据处理方法、装置、设备及存储介质
CN116028248A (zh) * 2023-03-30 2023-04-28 紫金诚征信有限公司 适用于web端的数据处理方法、装置及电子设备
CN116028248B (zh) * 2023-03-30 2023-07-25 紫金诚征信有限公司 适用于web端的数据处理方法、装置及电子设备
CN116303469A (zh) * 2023-03-31 2023-06-23 佛山众陶联供应链服务有限公司 一种全面快速查看分析的数仓管理方法及装置
CN116303469B (zh) * 2023-03-31 2024-01-30 佛山众陶联供应链服务有限公司 一种全面快速查看分析的数仓管理方法及装置

Similar Documents

Publication Publication Date Title
CN112364094A (zh) 数据仓库可视化建模方法、装置及介质
CA2953959C (en) Feature processing recipes for machine learning
US10963810B2 (en) Efficient duplicate detection for machine learning data sets
Sumbaly et al. The big data ecosystem at linkedin
CN110781236A (zh) 一种构建政务大数据治理体系的方法
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN106445536B (zh) 自动化业务设计管理系统
US11615076B2 (en) Monolith database to distributed database transformation
CN111984709A (zh) 可视化大数据中台-资源调用和算法
Asaad et al. A review: big data technologies with hadoop distributed filesystem and implementing M/R
CN113722301A (zh) 基于教育信息的大数据处理方法、装置及系统、存储介质
CN110457333A (zh) 数据实时更新方法、装置及计算机可读存储介质
CN117033460B (zh) 一种基于总线矩阵的数据模型自动构建系统及方法
CN112506892A (zh) 一种基于元数据技术的指标溯源管理系统
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
Zhang et al. DataLab: a version data management and analytics system
US11704345B2 (en) Inferring location attributes from data entries
Hu Information lifecycle modeling framework for construction project lifecycle management
Yang et al. Ivy: a parallel simulator for variable structure systems under multi-core environments
Reddy et al. Hosting and Delivering Cassandra NoSQL Database via Cloud Environments
US20170032004A1 (en) Core data services based cross-system analytics
Diaconita et al. Two integration flavors in public institutions
US11663216B2 (en) Delta database data provisioning
US11562027B1 (en) Self-service data provisioning system
Long et al. Data Middle Office on Cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210212