CN113254544B - 一种基于维度建模的数据处理装置及方法 - Google Patents

一种基于维度建模的数据处理装置及方法 Download PDF

Info

Publication number
CN113254544B
CN113254544B CN202110477767.3A CN202110477767A CN113254544B CN 113254544 B CN113254544 B CN 113254544B CN 202110477767 A CN202110477767 A CN 202110477767A CN 113254544 B CN113254544 B CN 113254544B
Authority
CN
China
Prior art keywords
data
model
dimension
processing
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110477767.3A
Other languages
English (en)
Other versions
CN113254544A (zh
Inventor
王浩文
金莉
姜洪超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110477767.3A priority Critical patent/CN113254544B/zh
Publication of CN113254544A publication Critical patent/CN113254544A/zh
Application granted granted Critical
Publication of CN113254544B publication Critical patent/CN113254544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种基于维度建模的数据处理装置及方法,包括数据源层、数据集成层、数据组件层和数据应用层,其中,所述数据源层的输入端连接数据源,数据源层的输出端依次连接数据集成层、数据组件层和数据应用层的输入端;不再按照统一的主题划分模式,依据数仓中各个层级的特点,各层采用不同的主题划分模式,分别依据业务过程、“实体+行为”来进行对数据集成层、数据组件层的主题划分,使用本发明的数据仓库模型架构大大降低了资源成本,提高了数据时效性,增强了业务易用性。

Description

一种基于维度建模的数据处理装置及方法
技术领域
本发明属于数据仓库领域,具体涉及一种基于维度建模的数据处理装置及方法。
背景技术
大数据时代下,对于任何一家互联网外卖企业,都需要具备快速获取、统计、分析数据的能力,从而从多个角度分析用户,挖掘用户信息,因此数据仓库的建立是必然趋势,如何以一种高效合理的数据仓库模型架构,并借助相关工具来建立数据仓库是互联网外卖企业最关心的问题。
现有技术中,数据仓库模型架构通常包含数据源层(ODS)、数据明细层(DWD)、数据服务层(DWS)、应用服务层(ADS)、维表层(DIM)五层。数据源层通常是将源头数据原封不动的存储,数据明细层主要是将数据源层的数据进行一些数据清洗和规范化的操作,数据服务层是整合某个业务过程的主题域的数据,形成宽表,应用服务层是直接对接数据应用使用的数据。但随着业务的高速发展、数据使用场景越来越复杂、数据使用频次也越来越高等各种情况,出现了以下三个问题:
1、分层机制不清晰,未能充分考虑到数据的稳定性、个性、共性、时效性几个关键因素的影响,难以从全局指导各个业务或者生产链路的各个环节,且数据重复计算,增大资源成本。
2、主题划分不合理,仅按照业务过程划分主题,不能满足数据仓库多样的联机分析处理(OLAP)需求。
3、数据服务层和应用服务层数据膨胀严重,大量增加人力成本,且导致计算资源紧张,数据时效性低。会直接影响到后续核心报表、推荐、模型的产出,降低业务的数据分析效率,难以发挥更大的数据价值。
发明内容
本发明的目的在于提供一种基于维度建模的数据处理装置及方法,解决了现有技术存在的上述不足。
为了达到上述目的,本发明采用的技术方案是:
本发明提供的一种基于维度建模的数据处理方法,包括以下步骤:
步骤1,获取用户行为日志数据的事实表;
步骤2,将步骤1中得到的事实表进行清洗过滤,将清洗后的数据分别进行归因处理和公共维度建设处理,分别得到归因处理数据、主题维度和环境维度;
步骤3,将清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表;
步骤4,将面向业务过程的事实明细宽表进行处理,得到多维明细模型和轻度汇总模型;
步骤5,将多维明细模型和轻度汇总模型进行处理,得到逻辑模型和逻辑宽表,进而根据业务需要以及分析决策需求,完成数据挖掘和数据分析。
优选地,步骤2中,将步骤1中得到的事实表进行清洗过滤,具体方法是:
将步骤1中得到的事实表进行去噪、去重、异常值处理,得到清洗后的数据。
优选地,步骤3中,将清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表,具体方法是:
首先,根据数据源层的主题维度对数据源层中的清洗后的数据、以及归因处理数据进行划分,得到多组主题数据;
其次,将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据;
最后,将面向业务过程的事实数据中的常用分析维度进行维度退化处理,得到面向业务过程的事实明细宽表。
优选地,步骤4中,将面向业务过程的事实明细宽表进行处理,得到多维明细模型和轻度汇总模型,具体方法是:
首先,将对面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型;
其次,对面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型
最后,将对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型。
优选地,步骤5中,将多维明细模型和轻度汇总模型进行处理,得到逻辑模型,具体方法是:
将获取到数据组件层的多维明细模型和轻度汇总模型中的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型;
将多维明细模型和轻度汇总模型进行处理,得到逻辑宽表,具体方法是:
根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表。一种基于维度建模的数据处理装置,包括数据源层、数据集成层、数据组件层和数据应用层,其中,所述数据源层的输入端连接数据源,数据源层的输出端依次连接数据集成层、数据组件层和数据应用层的输入端;
所述数据源层用于将数据源中的数据进行清洗过滤,之后将清洗后的数据分别进行归因处理和公共维度建设处理,分别得到归因处理数据、主题维度和环境维度;
所述数据集成层用于将数据源层中清洗后的数据、以及归因处理数据进行处理,得到面向业务过程的事实明细宽表;
所述数据组件层用于将面向业务过程的事实明细宽表进行处理,得到多维明细模型和轻度汇总模型;
所述数据应用层用于将多维明细模型和轻度汇总模型进行处理,得到逻辑模型和逻辑宽表,进而根据业务需要以及分析决策需求,完成数据挖掘和数据分析;
其中,数据源为用户行为日志数据的事实表。
优选地,数据源层包括数据清洗过滤模块、归因建设模块和公共维度建设模块,其中,所述数据清洗过滤模块用于将原始数据进行去噪、去重、异常值处理,得到清洗后的数据;
所述归因建设模块用于将清洗后的数据进行归因建设,得到归因处理数据;
所述公共维度建设模块用于将清洗后的数据分别按照业务过程、用户行为所处静态环境进行映射,得到主题维度和环境维度。
优选地,数据集成层包括主题划分模块、扩展字段提取模块和维度退化模块,其中,所述主题划分模块用于根据数据源层的主题维度对数据源层中清洗后的数据、以及归因处理数据进行划分,得到多组主题数据;
所述扩展字段提取模块用于将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据;
所述维度退化模块用于将面向业务过程的事实数据中的常用分析维度进行维度退化处理,得到面向业务过程的事实明细宽表。
优选地,数据组件层包括分析对象识别模块、一致性维度建设模块和指标加工模块,其中,所述分析对象识别模块用于对面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型;
所述一致性维度建设模块用于将对象实体模型和对象行为关系特征模型分别进行一致性维度建设,得到一致性对象实体模型和一致性对象行为关系特征模型;
所述数据加工模块用于对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型。
优选地,数据应用层包括应用层建模工具和应用层自助工具,其中,所述应用层建模工具用于将获取到数据组件层的多维明细模型和轻度汇总模型中的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型;
所述应用层自助工具用于根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表。
优选地,数据源层包括数据清洗过滤模块、归因建设模块和公共维度建设模块,其中,所述数据清洗过滤模块用于将原始数据进行去噪、去重、异常值处理,得到清洗后的数据;所述归因建设模块用于将清洗后的数据进行归因建设,得到归因处理数据;
所述公共维度建设模块用于将清洗后的数据分别按照业务过程、用户行为所处静态环境进行映射,得到主题维度和环境维度;
数据集成层包括主题划分模块、扩展字段提取模块和维度退化模块,其中,所述主题划分模块用于根据数据源层的主题维度对数据源层中的清洗后的数据、以及归因处理数据进行划分,得到多组主题数据;
所述扩展字段提取模块用于将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据;
所述维度退化模块用于将面向业务过程的事实数据中的常用分析维度进行维度退化处理,得到面向业务过程的事实明细宽表;
数据组件层包括分析对象识别模块、一致性维度建设模块和指标加工模块,其中,所述分析对象识别模块用于对面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型;
所述一致性维度建设模块用于将对象实体模型和对象行为关系特征模型分别进行一致性维度建设,得到一致性对象实体模型和一致性对象行为关系特征模型;
所述数据加工模块用于对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型;
数据应用层包括应用层建模工具和应用层自助工具,其中,所述应用层建模工具用于将获取到数据组件层的多维明细模型和轻度汇总模型中的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型;
所述应用层自助工具用于根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表。
优选地,该数据仓库模型架构的技术架构包括数据接入、数据存储、数据计算和数据分析。
与现有技术相比,本发明的有益效果是:
本发明所提出的一种基于维度建模的数据处理装置及方法,遵循数据模型设计准则,以OneData体系为核心理念,基于维度建模,优化确定数据仓库模型架构,分别为:数据源层、数据集成层、数据组件层和数据应用层;不再按照统一的主题划分模式,依据数仓中各个层级的特点,各层采用不同的主题划分模式,分别依据业务过程、“实体+行为”来进行对数据集成层、数据组件层的主题划分,本发明的数据仓库模型架构大大降低了资源成本,提高了数据时效性,增强了业务易用性。
进一步的,数据源层为落地缓冲区,大大提高了下游使用的灵活性,且在数据源层进行归因建设,可以满足后期业务方的各种复杂且多变的归因需求,便于业务方对用户轨迹的详细剖析,增强业务易用性。
进一步的,数据集成层根据一定的标准将数据源层的数据按照企业的业务过程进行组织存放,便于后面各个团队对各种粒度的数据加工与分析,增强业务易用性,同时提供最细粒度的公共明细数据,避免可复用的数据重复加工,降低了资源成本。
进一步的,数据组件层主要是以分析的对象实体为建模驱动,以分析的角度构建实体+行为的多维信息,便于后期各种OLAP的需求,增强业务易用性。
进一步的,数据应用层借助建模工具,进行自助查询和自动建模,降低了资源成本,提高了开发效率,同时避免了因数据膨胀导致计算资源紧张,提高数据时效性。
附图说明
图1是本发明的实施流程图;
图2是本发明所提及到的基于维度建模的数据仓库模型架构图;
图3是本发明所提及到的基于数据仓库的应用层建模工具关键活动图;
图4是本发明所提及到的基于数据仓库的应用层自助工具流程示意图。
具体实施方式
下面结合附图,对本发明进一步详细说明。
本发明例提供了一种基于维度建模的数据处理装置,该数据仓库模型架构的技术架构包括数据接入、数据存储、数据计算和数据分析。
本发明所提出的基于维度建模的数据仓库模型架构运用在实际的工程项目---互联网外卖企业离线数据仓库建设上面,解决了互联网外卖行业最关心的离线数据处理加工问题。
离线数据处理加工,是指从用户行为日志获得数据后,在平衡需求、性能与成本的基础上,遵循数据仓库模型架构构建一套高效、完善、准确的数据模型,从而保证数据快速支持不断变化的业务并驱动业务的发展。
如图1至图4所示,本发明提供的一种基于维度建模的数据处理装置,包括数据源层、数据集成层、数据组件层、数据应用层,其中,所述数据源层的输入端连接数据源,数据源层的输出端依次连接数据集成层、数据组件层和数据应用层的输入端。
其中,数据源为用户行为日志数据的事实表,即指用户在App上的操作行为数据。
数据源层包括数据清洗过滤模块、归因建设模块和公共维度建设模块,其中,所述数据清洗过滤模块用于将原始数据进行去噪、去重、异常值处理,得到清洗后的数据;
所述归因建设模块用于将清洗后的数据进行归因建设,得到归因处理数据。其中,当业务需求不固定时,对清洗后的数据进行全链路信息追加归因模型的构建,即将所有的用户行为日志数据增加一个字段,用来存放全链路信息;当业务需求固定时,对清洗后的数据中的某一条数据进行指定目标事件归因模型的构建,即在每次触发归因条件时,在该条数据后面增加归因到的信息。
所述公共维度建设模块用于将清洗后的数据分别按照业务过程、用户行为所处静态环境进行映射,得到主题维度和环境维度。其中,所述主题维度包括广告、用户、商品、交易、商家、物流、搜索和信息流;所述环境维度包括启动渠道、设备类型、App名称、操作系统、地区信息、时间信息和前后台类目。
数据集成层包括主题划分模块、扩展字段提取模块和维度退化模块,其中,所述主题划分模块用于根据数据源层的主题维度对数据源层中清洗后的数据、以及归因处理数据进行划分,得到多组主题数据。
所述扩展字段提取模块用于将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据。
所述维度退化模块用于将面向业务过程的事实数据中常用的分析维度进行维度退化处理,简化数据仓库的模式,最终得到面向业务过程的事实明细宽表。
数据组件层包括分析对象识别模块、一致性维度建设模块和指标加工模块,其中,所述分析对象识别模块用于对面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型,其中,所述对象实体包括商家、用户、订单、菜品,其中,所述对象行为指对象实体与对象实体之间连接的方式,包括商家交易、搜索商家、浏览广告、使用购物车、点击资源位、参加运营活动、使用智能助手。
所述一致性维度建设模块用于将对象实体模型和对象行为关系特征模型分别进行一致性维度建设,得到一致性对象实体模型和一致性对象行为关系特征模型。其中,所述一致性维度建设是将同一主题内所有事实表中的维度进行统一维度。
所述数据加工模块用于对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型。其中,对一致性对象实体模型进行维度圈定,得到多维明细模型,其中,维度圈定是指将数据进行对象实体相关属性信息的关联;对一致性对象行为关系特征模型依次进行维度聚合和原子指标计算,得到轻度汇总模型。
数据应用层包括应用层建模工具和应用层自助工具,其中,所述应用层建模工具见附图3,用于获取到数据组件层的多维明细模型和轻度汇总模型的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型。其中,所述数据裁剪是将数据按需进行数据过滤处理,所述维度冗余是指将数据进行环境维度的关联,所述上卷下钻是指对数据进行满足OLAP的处理,其中上卷是将数据进行汇总聚合,从细粒度到粗粒度的过程,其中下钻是细化某些维度,从粗粒度到细粒度的过程,所述指标计算是指在基础指标的基础上,通过Hive常用运算规则进行的指标计算。
所述应用层自助工具见附图4,用于根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表,根据得到的逻辑宽表生成得到即席查询数据语句。其中,逻辑宽表是指数据模型为逻辑模型的宽表。
将本发明所提出的基于维度建模的数据仓库模型架构,运用在实际的工程项目—互联网外卖行业的离线数据处理加工中,即遵循数据仓库模型架构,并借助相关工具构建一套高效、完善、准确的数据模型,从而保证数据快速支持不断变化的业务并驱动业务的发展。
本实验采用从获取到的二十亿条用户行为日志数据,利用本发明提出的数据仓库模型架构,建立数据模型,从而支持业务的统计分析需求,相比于传统的基于数据仓库的数据处理方法,本实验结果节省了大量的人力资源成本,提高了数据时效性,增强了业务易用性,取得了非常显著的效果。
本发明提供的一种基于维度建模的数据处理方法,包括以下步骤:
步骤1,获取用户行为日志数据的事实表;
步骤2,将步骤1中得到的事实表进行清洗过滤,将清洗后的数据分别进行归因处理和公共维度建设处理,分别得到归因处理数据、主题维度和环境维度;
步骤3,将清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表;
步骤4,将面向业务过程的事实明细宽表进行处理,得到多维明细模型和轻度汇总模型;
步骤5,将多维明细模型和轻度汇总模型进行处理,得到逻辑模型和逻辑宽表,进而根据业务需要以及分析决策需求,完成数据挖掘和数据分析。
本发明的使用过程:
1、接入数据源,对数据进行清洗过滤,将清洗过滤后的数据进行归因建设、公共维度的建设。
2、对步骤1的数据进行主题划分、扩展字段提取、维度退化,屏蔽底层影响、还原业务、统一标准。
3、对步骤2的数据进行分析对象识别、一致性维度建设、数据加工,将数据按照业务常用的分析主题存放。
4、对步骤3的数据,借助应用层建模工具、应用层自助工具分别进行逻辑模型构建、生成即席查询语句,快速支撑多维数据分析应用。

Claims (6)

1.一种基于维度建模的数据处理方法,其特征在于,包括以下步骤:
步骤1,获取用户行为日志数据的事实表,所述用户行为日志数据是指用户在App上的操作行为数据;
步骤2,将步骤1中得到的事实表进行清洗过滤,将清洗后的数据分别进行归因处理和公共维度建设处理,具体地:
将清洗后的数据进行归因建设,得到归因处理数据;
将清洗后的数据分别按照业务过程、用户行为所处静态环境进行映射,得到主题维度和环境维度,其中,所述主题维度包括广告、用户、商品、交易、商家、物流、搜索和信息流;所述环境维度包括启动渠道、设备类型、App名称、操作系统、地区信息、时间信息和前后台类目;
步骤3,将清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表;
步骤4,将面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型,其中,所述对象实体包括商家、用户、订单和菜品;所述对象行为指对象实体与对象实体之间连接的方式,包括商家交易、搜索商家、浏览广告、使用购物车、点击资源位、参加运营活动和使用智能助手;
将对象实体模型和对象行为关系特征模型分别进行一致性维度建设,得到一致性对象实体模型和一致性对象行为关系特征模型;
对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型,其中,对一致性对象实体模型进行维度圈定,得到多维明细模型;维度圈定是指将数据进行对象实体相关属性信息的关联;对一致性对象行为关系特征模型依次进行维度聚合和原子指标计算,得到轻度汇总模型;
步骤5,将多维明细模型和轻度汇总模型进行处理,得到逻辑模型和逻辑宽表,进而根据业务需要以及分析决策需求,完成数据挖掘和数据分析;
步骤5中,将多维明细模型和轻度汇总模型进行处理,得到逻辑模型,具体方法是:
将获取到数据组件层的多维明细模型和轻度汇总模型中的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型;
将多维明细模型和轻度汇总模型进行处理,得到逻辑宽表,具体方法是:
根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表。
2.根据权利要求1所述的一种基于维度建模的数据处理方法,其特征在于,步骤2中,将步骤1中得到的事实表进行清洗过滤,具体方法是:
将步骤1中得到的事实表进行去噪、去重、异常值处理,得到清洗后的数据。
3.根据权利要求1所述的一种基于维度建模的数据处理方法,其特征在于,步骤3中,将清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表,具体方法是:
首先,根据数据源层的主题维度对数据源层中的清洗后的数据、以及归因处理数据进行划分,得到多组主题数据;
其次,将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据;
最后,将面向业务过程的事实数据中的常用分析维度进行维度退化处理,得到面向业务过程的事实明细宽表。
4.一种基于维度建模的数据处理装置,其特征在于,包括数据源层、数据集成层、数据组件层和数据应用层,其中,所述数据源层的输入端连接数据源,数据源层的输出端依次连接数据集成层、数据组件层和数据应用层的输入端;
所述数据源层包括数据清洗过滤模块、归因建设模块和公共维度建设模块,其中,数据清洗过滤模块用于将数据源中的数据进行清洗过滤,得到清洗后的数据;
归因建设模块用于将清洗后的数据进行归因建设,得到归因处理数据;
公共维度建设模块用于将清洗后的数据分别按照业务过程、用户行为所处静态环境进行映射,得到主题维度和环境维度,其中,所述主题维度包括广告、用户、商品、交易、商家、物流、搜索和信息流;所述环境维度包括启动渠道、设备类型、App名称、操作系统、地区信息、时间信息和前后台类目;
所述数据集成层用于将数据源层中的清洗后的数据和归因处理数据进行处理,得到面向业务过程的事实明细宽表;
所述数据组件层用于将面向业务过程的事实明细宽表进行处理,得到多维明细模型和轻度汇总模型;
数据组件层包括分析对象识别模块、一致性维度建设模块和数据加工模块,其中:
分析对象识别模块用于将面向业务过程的事实明细宽表分别进行对象实体识别和对象行为识别,得到对象实体模型和对象行为关系特征模型,所述对象实体包括商家、用户、订单和菜品;所述对象行为指对象实体与对象实体之间连接的方式,包括商家交易、搜索商家、浏览广告、使用购物车、点击资源位、参加运营活动和使用智能助手;
所述一致性维度建设模块用于将对象实体模型和对象行为关系特征模型分别进行一致性维度建设,得到一致性对象实体模型和一致性对象行为关系特征模型;
所述数据加工模块用于对一致性对象实体模型和一致性对象行为关系特征模型分别进行数据加工,得到多维明细模型和轻度汇总模型,其中,对一致性对象实体模型进行维度圈定,得到多维明细模型;维度圈定是指将数据进行对象实体相关属性信息的关联;对一致性对象行为关系特征模型依次进行维度聚合和原子指标计算,得到轻度汇总模型;
所述数据应用层用于将多维明细模型和轻度汇总模型进行处理,得到逻辑模型和逻辑宽表,进而根据业务需要以及分析决策需求,完成数据挖掘和数据分析;
数据应用层包括应用层建模工具和应用层自助工具,其中,所述应用层建模工具用于将获取到数据组件层的多维明细模型和轻度汇总模型中的数据,进行数据裁剪、维度冗余、上卷下钻和指标计算中的一种或多种逻辑处理,得到多个逻辑模型单元,最终将得到的多个逻辑模型单元拼接成逻辑模型;
所述应用层自助工具用于根据用户发送的即席查询数据请求,提取得到指标维度信息,根据得到的指标维度信息匹配到最优的数据组件层的多维明细模型和轻度汇总模型两种模型中的一种或全部,进行拼接操作,得到逻辑宽表;
其中,数据源为用户行为日志数据的事实表,所述用户行为日志数据是指用户在App上的操作行为数据。
5.根据权利要求4所述的一种基于维度建模的数据处理装置,其特征在于,所述数据清洗过滤模块用于将原始数据进行去噪、去重、异常值处理,得到清洗后的数据。
6.根据权利要求4所述的一种基于维度建模的数据处理装置,其特征在于,数据集成层包括主题划分模块、扩展字段提取模块和维度退化模块,其中,所述主题划分模块用于根据数据源层的主题维度对数据源层中的清洗后的数据、以及归因处理数据进行划分,得到多组主题数据;
所述扩展字段提取模块用于将主题数据中的业务过程对应的常用环境维度进行冗余处理,降低事实表和维度表之间的联系,得到面向业务过程的事实数据;
所述维度退化模块用于将面向业务过程的事实数据中的常用分析维度进行维度退化处理,得到面向业务过程的事实明细宽表。
CN202110477767.3A 2021-04-29 2021-04-29 一种基于维度建模的数据处理装置及方法 Active CN113254544B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110477767.3A CN113254544B (zh) 2021-04-29 2021-04-29 一种基于维度建模的数据处理装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110477767.3A CN113254544B (zh) 2021-04-29 2021-04-29 一种基于维度建模的数据处理装置及方法

Publications (2)

Publication Number Publication Date
CN113254544A CN113254544A (zh) 2021-08-13
CN113254544B true CN113254544B (zh) 2023-01-03

Family

ID=77223303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110477767.3A Active CN113254544B (zh) 2021-04-29 2021-04-29 一种基于维度建模的数据处理装置及方法

Country Status (1)

Country Link
CN (1) CN113254544B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357088B (zh) * 2021-12-14 2024-02-27 中核武汉核电运行技术股份有限公司 核电工业数据仓库系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647339A (zh) * 2018-05-14 2018-10-12 五八有限公司 一种维度建模方法、装置、设备及存储介质
CN109408848A (zh) * 2018-08-24 2019-03-01 河海大学 一种考虑径流演变时空异质性的分布式归因方法
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN110019396A (zh) * 2017-12-01 2019-07-16 中国移动通信集团广东有限公司 一种基于分布式多维分析的数据分析系统及方法
CN110019397A (zh) * 2017-12-06 2019-07-16 北京京东尚科信息技术有限公司 用于进行数据处理的方法及装置
CN110209687A (zh) * 2018-02-23 2019-09-06 北京国双科技有限公司 多维度归因的查询方法和装置
CN111127099A (zh) * 2019-12-24 2020-05-08 济宁和佳寰宇软件技术有限公司 一种基于大数据的电商用户分析系统及其分析方法
CN111915137A (zh) * 2020-07-01 2020-11-10 物耀安全科技(杭州)有限公司 一种制造业数据模型的构建方法
CN112100800A (zh) * 2020-06-22 2020-12-18 中国人民解放军战略支援部队信息工程大学 面向地缘环境的时空信息智能分析体系架构设计方法
CN112131203A (zh) * 2020-08-28 2020-12-25 北京思特奇信息技术股份有限公司 一种数据仓库搭建的方法和系统
CN112364004A (zh) * 2020-11-10 2021-02-12 中国平安人寿保险股份有限公司 基于数据仓库的保单数据处理方法、装置及存储介质
CN112651618A (zh) * 2020-12-21 2021-04-13 国家电网有限公司大数据中心 用于计量数据在线审计的审计维度模型的构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232478A1 (en) * 2015-02-10 2016-08-11 International Business Machines Corporation Using source data to predict and detect software deployment and shelfware

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019396A (zh) * 2017-12-01 2019-07-16 中国移动通信集团广东有限公司 一种基于分布式多维分析的数据分析系统及方法
CN110019397A (zh) * 2017-12-06 2019-07-16 北京京东尚科信息技术有限公司 用于进行数据处理的方法及装置
CN110209687A (zh) * 2018-02-23 2019-09-06 北京国双科技有限公司 多维度归因的查询方法和装置
CN108647339A (zh) * 2018-05-14 2018-10-12 五八有限公司 一种维度建模方法、装置、设备及存储介质
CN109408848A (zh) * 2018-08-24 2019-03-01 河海大学 一种考虑径流演变时空异质性的分布式归因方法
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN111127099A (zh) * 2019-12-24 2020-05-08 济宁和佳寰宇软件技术有限公司 一种基于大数据的电商用户分析系统及其分析方法
CN112100800A (zh) * 2020-06-22 2020-12-18 中国人民解放军战略支援部队信息工程大学 面向地缘环境的时空信息智能分析体系架构设计方法
CN111915137A (zh) * 2020-07-01 2020-11-10 物耀安全科技(杭州)有限公司 一种制造业数据模型的构建方法
CN112131203A (zh) * 2020-08-28 2020-12-25 北京思特奇信息技术股份有限公司 一种数据仓库搭建的方法和系统
CN112364004A (zh) * 2020-11-10 2021-02-12 中国平安人寿保险股份有限公司 基于数据仓库的保单数据处理方法、装置及存储介质
CN112651618A (zh) * 2020-12-21 2021-04-13 国家电网有限公司大数据中心 用于计量数据在线审计的审计维度模型的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"用户行为数据的交互式可视挖掘方法研究";孙国道;《万方数据知识服务平台》;20160623;全文 *
E.J. Lourenço et al.."Multidimensional Design Assessment Model for eco-efficiency and efficiency in aeronautical assembly processes".《IEEE International Conference on Engineering, Technology and Innovation》.2019, *

Also Published As

Publication number Publication date
CN113254544A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
US9251212B2 (en) Profiling in a massive parallel processing environment
US20140279074A1 (en) Data management platform for digital advertising
CN111542852A (zh) 用于电信代理的动态脚本
CA3176450A1 (en) Method and apparatus for implementing incremental data consistency
CN113254544B (zh) 一种基于维度建模的数据处理装置及方法
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
CN115423555A (zh) 一种商品推荐方法、装置、电子设备及存储介质
CN101599161A (zh) 营销支持系统
CN107798021B (zh) 数据关联处理方法、系统及电子设备
CN106919566A (zh) 一种基于海量数据的查询统计方法及系统
CN107341165A (zh) 搜索框处进行提示显示的方法和装置
CN111177227B (zh) 一种电力数据自助式分析系统及决策应用类迁移方法
US8825609B2 (en) Detecting wasteful data collection
CN112598471A (zh) 一种产品的推荐方法、推荐装置及电子设备
CN114860851A (zh) 数据处理方法、装置、设备及存储介质
CN114358812A (zh) 一种基于运维大数据的多维度电力营销分析方法及系统
CN109426576A (zh) 容错处理方法以及容错组件
CN113342844A (zh) 工业智能搜索系统
Trabelsi et al. User-Centred Application for Modeling Journeys in Digital Libraries
Alexander et al. Business Solution for Choosing Products Using Data Warehouse in Payment Solution
CN111177188A (zh) 一种基于聚合边与时序聚合边的快速海量时序数据处理方法
JP2017010376A (ja) マートレス検証支援システムおよびマートレス検証支援方法
CN112131302B (zh) 一种商业数据分析方法及平台
Yin Mining high utility sequential patterns
Hongsheng et al. Research on Industry Data Analysis Model Based on Hadoop Big Data Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant