CN112860659A - 数据仓库的构建方法、装置、设备及存储介质 - Google Patents

数据仓库的构建方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112860659A
CN112860659A CN202110065923.5A CN202110065923A CN112860659A CN 112860659 A CN112860659 A CN 112860659A CN 202110065923 A CN202110065923 A CN 202110065923A CN 112860659 A CN112860659 A CN 112860659A
Authority
CN
China
Prior art keywords
service
theme
data
business
ith
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110065923.5A
Other languages
English (en)
Other versions
CN112860659B (zh
Inventor
王建兴
张晓明
王旭
张雪纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110065923.5A priority Critical patent/CN112860659B/zh
Publication of CN112860659A publication Critical patent/CN112860659A/zh
Application granted granted Critical
Publication of CN112860659B publication Critical patent/CN112860659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本申请涉及一种数据仓库的构建方法、装置、设备及存储介质,其中,方法包括:首先获取第i个业务线的业务数据,然后从业务数据中提取到第i个业务线的业务明细,其中,i=1,2,3……,N,因此,该过程会得到N个业务线的业务明细,以第i个业务线的业务明细为基础,按照第一主题对第i个业务线的业务明细进行划分,得到第一主题的业务层表,然后再以N个业务线的业务明细为基础,按照第二主题对N个业务线的业务明细进行汇总,得到第二主题的主题层表,最后得到数据仓库,因此,利用按照本申请的方法构建的数据仓库,既可以借助业务层表对单个业务线中的第一主题进行分析,也可以借助主题层表对单个第一主题中涉及到的N个业务线进行分析。

Description

数据仓库的构建方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据仓库的构建方法、装置、设备及存储介质。
背景技术
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,由于在企业的实际经营中,会涉及到很多业务线,比如视频业务、文学业务、电脑端业务、移动端业务等等,因此,为了便于对每个业务线进行数据分析,在构建数据仓库时,会分别对每一个业务线中的数据进行处理,然后根据业务线自身关注的指标,形成每个业务线各自对应的数据集市,进而汇总形成以业务线为基础的数据仓库。
而企业对众多业务线进行管理时,可能还需要基于某个主题对部分业务线进行分析,比如流量主题、交易主题、用户主题等等,以便于分析出在某个主题下,一些业务线的相应的经营情况。但是,目前构建的数据仓库只能适用于单独对某一个业务线进行数据分析的场景,无法满足在某一主题下对多个业务线进行数据分析的场景。
发明内容
为至少在一定程度上克服目前构建的数据仓库只能适用于单独对某一个业务线进行数据分析的场景,无法满足在某一主题下对多个业务线进行数据分析的场景的问题,本申请提供一种数据仓库的构建方法、装置、设备及存储介质。
根据本申请的第一方面,提供一种数据仓库的构建方法,包括:
获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
从业务数据中提取第i个业务线的业务明细;
将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表;
将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表;
基于业务层表和主题层表构建数据仓库。
可选的,第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
从业务数据中提取第i个业务线的业务明细,包括:
从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
将目标调用数据进行存储,得到第j个业务过程的业务过程明细;
将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
可选的,确定第一主题的过程包括:
将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程;
将每组业务过程归类为一个第一主题。
可选的,将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表,包括:
针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度;
将归类为第一主题的业务过程确定为第一目标业务过程;
根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
可选的,确定第二主题的过程包括:
根据映射关系确定N个业务线均包括的至少一个第二目标业务过程;
针对任一第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
可选的,将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表,包括:
针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度;
根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
可选的,基于业务层表和主题层表构建数据仓库,包括:
将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层;
按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
根据本申请的第二方面,提供一种数据仓库的构建装置,包括:
获取模块,用于获取第i个业务线的业务数据,其中,i=1,2,3……N,N为正整数;
提取模块,用于从业务数据中提取第i个业务线的业务明细;
划分模块,用于将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表;
汇总模块,用于将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表;
构建模块,用于基于业务层表和主题层表构建数据仓库。
可选的,第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
提取模块包括:
第一提取单元,用于从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
存储单元,用于将目标调用数据进行存储,得到第j个业务过程的业务过程明细;
映射单元,用于将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
第一确定单元,用于将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
可选的,划分模块包括:
识别单元,用于将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程;
归类单元,用于将每组业务过程归类为一个第一主题。
可选的,划分模块包括:
第一获取单元,用于针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度;
第二确定单元,用于将归类为第一主题的业务过程确定为第一目标业务过程;
第二提取单元,用于根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
第一整合单元,用于按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
可选的,汇总模块包括:
第三确定单元,用于根据映射关系确定N个业务线均包括的至少一个第二目标业务过程;
第四确定单元,用于针对任一第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
可选的,汇总模块包括:
第二获取单元,用于针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度;
第三提取单元,用于根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
第二整合单元,用于按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
可选的,构建模块包括:
业务集市层构建单元,用于将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层;
主题集市层构建单元,用于按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
根据本申请的第三方面,提供一种数据仓库的构建设备,包括:至少一个处理器和存储器;
处理器用于执行存储器中存储的数据仓库的构建程序,以实现本申请第一方面的数据仓库的构建方法。
根据本申请的第四方面,提供一种计算机存储介质,其特征在于,计算机存储介质存储有一个或者多个程序,一个或者多个程序可被如本申请第三方面的数据仓库的构建设备执行,以实现本申请第一方面的数据仓库的构建方法。
本申请提供的技术方案可以包括以下有益效果:本申请首先获取第i个业务线的业务数据,然后从业务数据中提取到第i个业务线的业务明细,其中,i=1,2,3……,N,N为正整数,因此,该过程会得到N个业务线的业务明细。本申请以第i个业务线的业务明细为基础,按照预先确定的第一主题对第i个业务线的业务明细进行划分,得到第一主题的业务层表,然后再以N个业务线的业务明细为基础,按照预先确定的第二主题对N个业务线的业务明细进行汇总,得到第二主题的主题层表,最后基于业务层表和主题层表构建数据仓库,因此,利用按照本申请的方法构建的数据仓库,既可以借助业务层表对单个业务线中的第一主题进行分析,也可以借助主题层表对单个第一主题中涉及到的N个业务线进行分析。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请的一个实施例提供的一种数据仓库的架构图;
图2是本申请的一个实施例提供的一种数据仓库的构建方法的流程示意图;
图3是本申请的一个实施例提供的提取第i个业务线的业务明细的流程示意图;
图4是本申请的一个实施例提供的确定第一主题的流程示意图;
图5是本申请的一个实施例提供的得到第一主题的业务层表的流程示意图;
图6是本申请的一个实施例提供的确定第二主题的流程示意图;
图7是本申请的一个实施例提供的得到第二主题的主题层表的流程示意图;
图8是本申请基于业务层表和主题层表构建数据仓库的流程示意图;
图9是本申请的另一实施例提供的一种数据仓库的构建装置的结构示意图;
图10是本申请的另一实施例提供的一种数据仓库的构建设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
请参阅图1,图1是本申请的一个实施例提供的一种数据仓库的架构示意图。
如图1所示,本实施例中提供的数据仓库包括主题集市层11、业务集市层12、明细日志层13以及原始日志层14。
需要说明的是,图1中示例的业务数据层15一般设置在业务线一侧,在构建数据仓库时,会以业务线一侧的日志以及业务线的业务数据库为数据源,首先构建原始日志层14,原始日志层可以以Hive库表的形式存在,对业务线一侧的日志进行抽取、转化、加载,最终保存到Hive库表中,然后从将业务数据库中的数据定时全量同步到Hive库表中。
原始日志层14构建完成后,会以原始日志层为数据源构建明细日志层13,明细日志层13构建完成后再以明细日志层13为数据源构建业务集市层12,业务集市层12构建完成后会以业务集市层12为数据源构建主题集市层11,需要说明的是,业务集市层中包含有多个业务线集市,比如动漫集市、儿童集市、Mobile APP集市、PC APP集市等,每个业务线集市中会包含有多个主题,而主题集市层中会包含有多个主题集市,比如流量集市、交易集市、用户集市、内容集市、技术集市等,由于主题集市层是以业务集市层中每条业务线对应的数据进行构建的,提取每条业务线都会涉及到的业务过程作为主题集市层的主题,因此每个主题集市都会涉及到每条业务线,如此,利用本实施例的数据仓库,既可以借助业务层表对单个业务线中的第一主题进行分析,也可以借助主题层表对单个第一主题中涉及到的N个业务线进行分析。
另外,需要说明的是,具体对每层的构建过程以及对图1中示例的指标度量层和维度层的应用可以参考下述方法实施例中的相关内容。
请参阅图2,图2是本申请的一个实施例提供的一种数据仓库的构建方法的流程示意图。
如图2所示,本实施例提供的数据仓库的构建方法可以包括:
步骤S101、获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数。
本实施例中,业务线指的是公司运营过程中涉及到的业务产品,比如视频、文学、儿童动画、终端应用程序等,由于绝大部分公司的运营所涉及到的业务产品并不局限于一个,因此,本实施例中,会将业务产品的数量设定为N个,又因为一个业务产品就是一个业务线,因此,业务线的数量也是N,N的取值会根据公司的实际运营情况来确定,本步骤中,则是以第i个业务线为基础,进行的业务数据获取的操作,其中,i的取值可以为1,2,3,……,N中的任意一个值,当然,N为正整数。
另外,业务数据指的是第i个业务线运营过程中产生的所有数据,本步骤中,业务数据是存放在如图1所示的数据仓库的原始日志层14的,可以以Hive库表的形式存在。
需要说明的是,为了将业务线的数据表示的更为全面,原始日志层可以包含两种数据,一种是存放在集群中的日志,一种是存放在各个业务线对应的业务系统中的非日志形式的数据,比如用户购买会员时产生的订单数据、支付后产生的支付数据等等。
对于存放在集群中的日志,在开发业务线的业务系统时,会对业务系统运行过程中可能会触发的事件进行埋点,在触发到该事件时,在该事件中的埋点便会根据埋点时开发的数据采集程序对该事件的相关参数数据进行采集,并以预先设置的日志结构对采集到的参数数据进行拼接,形成一条日志,由于只要触发到该事件,就会自动生成一条日志,因此,该日志可以称为pingback(自动引用通知)日志。
一般,在日志产生后,需要将其投递到集群中,而面对不同的网络环境,日志可能无法实时被投递到集群中,因此,可以将日志的投递分为及时投递和批量投送,在网络正常连通时,可以将日志及时投递到集群中,网络无法连通时,先将生成的日志存储在本地,待网络连通后,再批量投递到集群中,需要说明的是,在本实施例中,集群可以是Nginx集群,当然,也可以是其他能够存放日志的集群,为了方便对方案进行说明,以下说明内容会以Nginx集群为例。
而对于非日志形式的数据,其一般存放在业务线对应的业务系统的数据库中。需要说明的是,上述两种业务数据,均存放在业务线对应的业务系统一端,本实施例在构建数据仓库的原始日志层时,需要从该端获取业务数据。
针对上述两种数据,在形成如图1所示的原始日志层14时,获取这两种数据的过程是不同的。
由于日志的数量往往要比非日志形式的数据数量多,因此,对于日志,可以设置较短的时间,比如5分钟,定时从Nginx集群中未被同步的日志同步到另一集群(以Hadoop集群为例)中,该同步过程中会将该次同步的所有日志汇总为一个原始日志文件,而Hadoop集群中存储的是汇总的原始日志文件。
在生成原始日志文件后,可以利用数据仓库技术(Extract-Transform-Load,ETL)将原始日志文件最终加载到数据仓库中,具体的,本步骤会以Hadoop集群为数据源,通过统一的ETL程序解析原始日志文件,即通过对原始日志文件进行抽取、转化、加载的步骤,利用同一的数据清洗标准,对所有的数据进行标准化处理,保持所有业务线的数据口径具有一致性,然后按照日志类型保存到相应的Hive库表中,其中,日志类型指的是不同业务过程产生的日志,一般在每条日志中都会有一个用来区分日志类型的字段,也就是区分业务过程的字段,比如业务过程1产生的日志,该字段中的数值可以为1,业务过程2产生的日志,该字段的数值可以为2,按照日志类型保存便可以认为是按照不同的业务过程对日志进行的保存,也就是说,Hive库表中可以设置有不同业务过程对应的日志的表格。
而对于非日志形式的数据,则可以以天为单位,在每天的某个时间定时全量同步到相应的Hive库表中。一般,对于非日志形式的数据,可以按照业务线进行存储,也就是说,一条业务线对应一个表,该表便用来存储对应的业务线的数据,甚至还可以按照业务线下的业务过程进行存储,一个业务过程对应一个表,该表便用来存储对应的业务过程的数据。
如此,根据原始日志文件以及非日志形式的数据就会生成Hive库表,也就是如图1所示的数据仓库的原始日志层14。
由于Hive库表中各个数据表既有业务线的数据表,也有业务过程的数据表,且业务线与业务过程之间并不存在关联性,因此,为了便于本步骤获取第i个业务线的业务数据,可以预先进行业务建模,构建所有业务线与业务过程的矩阵,一般,构建得到的矩阵可以如下所示(以3个业务线,每个业务线中包括3个业务过程为例):
Figure BDA0002903891510000111
基于上述矩阵,就可以确定Hive库表中哪些数据表中的数据属于第i业务线,因此,本步骤中就可以根据矩阵中业务线与业务过程的关系,从原始日志层中获取到第i个业务线的数据表以及第i个业务线中的业务过程的数据表。
步骤S102、从业务数据中提取第i个业务线的业务明细。
由于前述原始日志层中Hive库表存储的业务数据可能会具有一些无效值和缺失值,甚至一些要求结构具有一致性的数据并不具备一致的数据结构,因此,本步骤中的提取过程首先可以包括对数据进行清洗的子过程,本步骤中,可以利用预先指定的一个统一的数据清洗标准对原始日志层中Hive库表存储的业务数据进行清洗。
另外,为了保证提取到的业务明细能够有对应的地方存放,本步骤在提取前,首先会创建存储架构,也就是本领域常见的物理建模。由于原始日志层在存储业务数据时会有具体的存储菜单级别以及表名、表格式、压缩类型等参数,即图1所示的原始日志层14的操作型数据存储(Operational Data Store,ODS)层表Schema(组织结构),因此,本步骤可以参考原始日志层中Hive库表的Schema创建存储业务明细的存储架构,也就是图1所示的明细日志层13的细节数据(Data Warehouse Detail,DWD)层表Schema。
具体的,由于DWD层表Schema已经具备了各个业务线的数据表以及各个业务过程的数据表,每个数据表中应当包含的表名、表格式以及压缩类型在DWD层表中是已知的,因此,在构建ODS层表中数据表时,便可以直接使用DWD层表Schema,构建得到每个业务过程的数据表。
物理建模完毕后,便可以是具体的业务明细的提取过程,该过程可以请参阅图3,图3是本申请的一个实施例提供的提取第i个业务线的业务明细的流程示意图。
如图3所示,提取第i个业务线的业务明细的过程包括:
步骤S201、从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数。
需要说明的是,业务数据中可以包括至少一个业务过程被调用时产生的调用数据,由于该业务数据是第i个业务线的业务数据,那么,上述M个业务过程便都是第i个业务线的业务过程。
对于第j个业务过程而言,由于业务数据中包括的是业务过程被调用时产生的数据,比如对于播放业务过程,调用该业务过程时,可能就会产生所播放的音视频的标识码,播放操作开始时的时间等数据,本步骤中,便可以将第j个业务过程对应的调用数据从步骤S101中获取的业务数据中提取出来,提取出来的数据便可以是目标调用数据。
步骤S202、将目标调用数据进行存储,得到第j个业务过程的业务过程明细。
由于前述物理建模过程已经构建了ODS层表,其中必然包括第j个业务过程的数据表,因此,本步骤可以直接将目标调用数据存储到第j个业务过程的数据表中即可,填充好目标调用数据的数据表,便是第j个业务过程的业务过程明细。
步骤S203、将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系。
步骤S204、将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
通过步骤S201和步骤S202的操作,M个业务过程都有了自身的业务过程明细,为了得到第i个业务线的业务明细,便可以先将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系,然后将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
因此,第i个业务线的业务明细便可以是与第i个业务线具有映射关系的M个业务过程的业务过程明细。
步骤S103、将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表。
需要说明的是,确定第一主题的过程可以参阅图4,图4是本申请的一个实施例提供的的一个实施例提供的确定第一主题的流程示意图。
如图4所示,确定第一主题的过程可以包括:
步骤S301、将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程。
需要说明的是,业务过程划分模型可以将多个业务过程划分到不同的组中,其依据的可以是每个业务过程的业务过程明细之间的相似性,具体对于模型的训练,可以参考一般的分类模型,此处不再赘述。
步骤S302、将每组业务过程归类为一个第一主题。
需要说明的是,步骤S301会得到至少一组业务过程,也就是说每组业务过程之间的相似度是比较高的,因此,在归类为一个第一主题时,可以直接将组内某一个业务过程的名称作为该组对应的第一主题的名称。
当然,还可以基于前述过程中得到的矩阵按照需求预先规定一些第一主题,以及每个第一主题涉及到的业务过程。
另外,请参阅图5,图5是本申请的一个实施例提供的得到第一主题的业务层表的流程示意图。
如图5所示,得到第一主题的业务层表的具体过程可以包括:
步骤S401、针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度。
需要说明的是,由于第一主题是预先获得的,因此,预设的指标度量层可以包括每个第一主题对应的至少一个第一指标,预设的维度层可以包括每一个第一主题对应的第一数据维度。
需要说明的是,本步骤中所指的预设的指标度量层即图1中所示的指标度量层,预设的维度层即图1中所指的维度层。
因此,本步骤中,可以直接根据第一主题获取第一指标和第一数据维度。
步骤S402、将归类为第一主题的业务过程确定为第一目标业务过程。
步骤S403、根据第一指标从第i个业务线的第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细。
需要说明的是,第一指标可以指能够归纳数据的指标,本步骤中,便是将符合第一指标的第一目标业务过程的业务过程明细中的调用数据全部提取出来。
一般,第一指标可以为至少一个,比如为3个,在一个具体的例子中可以是“发生时间为19点到22点”、“发生地点为城市A”、“发生地点为城市B”这3个第一指标,那么,步骤S403便可以先针对“发生时间为19点到22点”这一第一指标进行提取,将第一目标业务过程的业务过程明细中的所有发生时间在19点到22点之间的调用数据全部提取出来,然后再针对“发生地点为城市A”这一第一指标进行提取,将第一目标业务过程的业务过程明细中的所有发生地点为城市A的调用数据全部提取出来,最后再针对“发生地点为城市B”这一第一指标进行提取,将第一目标业务过程的业务过程明细中的所有发生地点为城市B的调用数据全部提取出来。
如此,每个第一指标都会提取到相应的调用数据。
步骤S404、按照第一数据维度,将第一目标明细中的所有调用数据整合为第一主题的业务层表。
仍以上述三个第一指标为例,前述得到的一个第一数据维度便可以是“发生时间为19点到22点”且“发生地点为城市A”,另一个第一数据维度便可以是“发生时间为19点到22点”且“发生地点为城市B”。
对于“发生时间为19点到22点”且“发生地点为城市A”,便可以从“发生时间为19点到22点”对应的调用数据中提取满足“发生地点为城市A”的调用数据;对于“发生时间为19点到22点”且“发生地点为城市B”,便可以从“发生时间为19点到22点”对应的调用数据中提取满足“发生地点为城市B”的调用数据。
如此,每个第一数据维度都会有相应的调用数据,然后在进行整合,比如将每个第一数据维度相应的调用数据存储到一个表格中,或者将其整合为数据量,也就是每个第一数据维度对应的调用数据的数量。
经过本步骤后,便可以得到具有第一数据维度的第一主题的业务层表,也就是说,经过上述步骤后,第i个业务线中每个第一主题的业务层表就构建出来了,也就是图1中所示的业务集市层的第i个业务线集市,利用上述方法步骤,针对每个业务线建设业务线集市,对于每个业务线,会有至少一个第一主题,而每个第一主题都会对应有一个业务层表,如此,便可以高效支持对某个业务线的各个第一主题的分析场景需求。
步骤S104、将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表。
首先,确定第二主题的过程可以参阅图6,图6是本申请的一个实施例提供的确定第二主题的流程示意图。
如图6所示,确定第二主题的过程可以包括:
步骤S501、根据映射关系确定N个业务线均包括的至少一个第二目标业务过程。
需要说明的是,本步骤中所指的映射关系可以指步骤S203中确定的映射关系,由于在i从1到N的变化过程中,每个业务线都会确定与各自的业务过程的映射关系,此时,便可以根据上述映射关系,找到所有业务线都具备的业务过程,也就是至少一个第二目标业务线。
步骤S502、针对任一第二目标业务过程,根据第二目标业务过程的属性确定第二目标业务过程对应的第二主题。
需要说明的是,本步骤中第二目标业务过程的属性可以是名称、类别等,以第二目标业务过程的名称为例比如所有业务线都具有的名称为“流量”的业务过程,那么其中一个第二主题便可以是流量主题。
另外,请参阅图7,图7是本申请的一个实施例提供的的一个实施例得到第二主题的主题层表的流程示意图。
如图7所示,得到第二主题的主题层表的过程具体可以包括:
步骤S601、针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度。
需要说明的是,本步骤与步骤S401的过程相似,第二指标以及第二数据维度的获取可以直接参考步骤S401中说明的内容,此处不再赘述。
步骤S602、根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细。
需要说明的是,本步骤与步骤S403的过程相似,第二指标以及第二数据维度的获取可以直接参考步骤S403中说明的内容,此处不再赘述。
步骤S603、按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
需要说明的是,本步骤中整合的第二主题的主题层表即图1中实例的主题集市层11中的所有主题集市,本步骤与步骤S404的过程相似,第二指标以及第二数据维度的获取可以直接参考步骤S404中说明的内容,此处不再赘述。
上述方法步骤站在第二主题的角度上,以所有业务线的业务数据为数据源,建立每个第二主题横跨业务线的主题层表,能够满足针对跨业务线的分析场景需求。
步骤S105、基于业务层表和主题层表构建数据仓库。
具体的,本步骤可以参阅图8,图8是本申请的一个实施例提供的基于业务层表和主题层表构建数据仓库的流程示意图。
如图8所示,基于业务层表和主题层表构建数据仓库的具体过程可以包括:
步骤S701、将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层。
前述过程中,对于第i个业务线,已经得到第i个业务线每个第一主题的业务层表,此时,只需要将第i个业务线与第i个业务线每个第一主题的业务层表进行映射存储,当然,对于第i+1个业务线,便是将第i+1个业务线与第i+1个业务线每个第一主题的业务层表进行映射存储,直到N个业务线与自身的每个第一主题的业务层表都完成了映射存储,数据仓库的业务集市层就构建完成了,而每条业务线都会对应一个业务集市,比如动漫业务线就对应着动漫集市、儿童业务线就对应着儿童集市、mobile APP业务线就对应着mobile APP集市、PC APP业务线就对应着PC APP集市。
步骤S702、按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
需要说明的是,主题域是对第二主题的一个进一步地划分,比如属性相似的两个第二主题可以划分在一个主题域中,比如免费流量主题与付费流量主题,就可以划分在流量主题中,当然,单独的一个第二主题也可以构成一个主题域,比如用户主题,将第二主题的主题层表与预设的主题域进行映射后,便可以得到数据仓库的主题集市层,而每个主题域便可以对应一个主题集市,比如流量主题域对应流量集市、交易主题域对应交易集市、用户主题域对应用户集市、内容主题域对应内容集市、技术主题域对应技术集市。
本实施例首先获取第i个业务线的业务数据,然后从业务数据中提取到第i个业务线的业务明细,其中,i=1,2,3……,N,N为正整数,因此,该过程会得到N个业务线的业务明细。本申请以第i个业务线的业务明细为基础,按照预先确定的第一主题对第i个业务线的业务明细进行划分,得到第一主题的业务层表,然后再以N个业务线的业务明细为基础,按照预先确定的第二主题对N个业务线的业务明细进行汇总,得到第二主题的主题层表,最后基于业务层表和主题层表构建数据仓库,因此,利用按照本申请的方法构建的数据仓库,提供了从纵向业务线和横向主题两种视角的数据分析和挖掘能力,既可以借助业务层表对单个业务线中的第一主题进行分析,也可以借助主题层表对单个第一主题中涉及到的N个业务线进行分析,从而真正为达到“数据驱动业务”的目的奠定基础。
请参阅图9,图9是本申请的另一实施例提供的一种数据仓库的构建装置的结构示意图。
如图9所示,数据仓库的构建装置可以包括:
获取模块801,用于获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
提取模块802,用于从业务数据中提取第i个业务线的业务明细;
划分模块803,用于将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表;
汇总模块804,用于将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表;
构建模块805,用于基于业务层表和主题层表构建数据仓库。
本实施例中,首先获取模块获取第i个业务线的业务数据,然后提取模块从业务数据中提取到第i个业务线的业务明细,其中,i=1,2,3……,N,N为正整数,因此,该过程会得到N个业务线的业务明细。本实施例的划分模块以第i个业务线的业务明细为基础,按照预先确定的第一主题对第i个业务线的业务明细进行划分,得到第一主题的业务层表,然后汇总模块再以N个业务线的业务明细为基础,按照预先确定的第二主题对N个业务线的业务明细进行汇总,得到第二主题的主题层表,最后构建模块基于业务层表和主题层表构建数据仓库,因此,利用按照本申请的方法构建的数据仓库,既可以借助业务层表对单个业务线中的第一主题进行分析,也可以借助主题层表对单个第一主题中涉及到的N个业务线进行分析。
可选的,第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
提取模块包括:
第一提取单元,用于从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
存储单元,用于将目标调用数据进行存储,得到第j个业务过程的业务过程明细;
映射单元,用于将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
第一确定单元,用于将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
可选的,划分模块包括:
识别单元,用于将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程;
归类单元,用于将每组业务过程归类为一个第一主题。
可选的,划分模块包括:
第一获取单元,用于针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度;
第二确定单元,用于将归类为第一主题的业务过程确定为第一目标业务过程;
第二提取单元,用于根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
第一整合单元,用于按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
可选的,汇总模块包括:
第三确定单元,用于根据映射关系确定N个业务线均包括的至少一个第二目标业务过程;
第四确定单元,用于针对任一第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
可选的,汇总模块包括:
第二获取单元,用于针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度;
第三提取单元,用于根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
第二整合单元,用于按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
可选的,构建模块包括:
业务集市层构建单元,用于将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层;
主题集市层构建单元,用于按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
请参阅图10,图10是本申请的另一实施例提供的一种数据仓库的构建设备的结构示意图。
如图10所示,本实施例提供的数据仓库的构建设备900包括:至少一个处理器901、存储器902、至少一个网络接口903和其他用户接口904。数据仓库的构建数据仓库的构建系统900中的各个组件通过总线系统905耦合在一起。可理解,总线系统905用于实现这些组件之间的连接通信。总线系统905除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图10中将各种总线都标为总线系统905。
其中,用户接口904可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器902可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本文描述的存储器902旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器902存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统9021和应用程序9022。
其中,操作系统9021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序9022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序9022中。
在本发明实施例中,通过调用存储器902存储的程序或指令,具体的,可以是应用程序9022中存储的程序或指令,处理器901用于执行各方法实施例所提供的方法步骤,例如包括:
获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
从业务数据中提取第i个业务线的业务明细;
将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表;
将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表;
基于业务层表和主题层表构建数据仓库。
可选的,第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
从业务数据中提取第i个业务线的业务明细,包括:
从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
将目标调用数据进行存储,得到第j个业务过程的业务过程明细;
将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
可选的,确定第一主题的过程包括:
将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程;
将每组业务过程归类为一个第一主题。
可选的,将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表,包括:
针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度;
将归类为第一主题的业务过程确定为第一目标业务过程;
根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
可选的,确定第二主题的过程包括:
根据映射关系确定N个业务线均包括的至少一个第二目标业务过程;
针对任一第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
可选的,将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表,包括:
针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度;
根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
可选的,基于业务层表和主题层表构建数据仓库,包括:
将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层;
按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
上述本发明实施例揭示的方法可以应用于处理器901中,或者由处理器901实现。处理器901可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902,处理器901读取存储器902中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在数据仓库的构建设备侧执行的数据仓库的构建方法。
处理器用于执行存储器中存储的数据仓库构建程序,以实现以下在数据仓库构建设备侧执行的数据仓库构建方法的步骤:
获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
从业务数据中提取第i个业务线的业务明细;
将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表;
将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表;
基于业务层表和主题层表构建数据仓库。
可选的,第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
从业务数据中提取第i个业务线的业务明细,包括:
从业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
将目标调用数据进行存储,得到第j个业务过程的业务过程明细;
将M个业务过程与第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
将映射关系以及M个业务过程的业务过程明细确定为第i个业务线的业务明细。
可选的,确定第一主题的过程包括:
将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对M个业务过程进行划分,得到至少一组业务过程;
将每组业务过程归类为一个第一主题。
可选的,将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到第一主题的业务层表,包括:
针对任一第一主题,从预设的指标度量层获取与第一主题对应的至少一个第一指标,以及从预设的维度层获取与第一主题对应的第一数据维度;
将归类为第一主题的业务过程确定为第一目标业务过程;
根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
可选的,确定第二主题的过程包括:
根据映射关系确定N个业务线均包括的至少一个第二目标业务过程;
针对任一第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
可选的,将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到第二主题的主题层表,包括:
针对任一第二主题,从预设的指标度量层获取与第二主题对应的至少一个第二指标,以及从预设的维度层获取与第二主题对应的第二数据维度;
根据每个第二指标分别从N个业务线的业务明细中提取与第二主题对应的第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
按照第二数据维度,将每个业务线的第二目标明细整合为第二主题的主题层表。
可选的,基于业务层表和主题层表构建数据仓库,包括:
将第i个业务线与第一主题的业务层表进行映射存储,得到数据仓库的业务集市层;
按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到数据仓库的主题集市层。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据仓库的构建方法,其特征在于,包括:
获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
从所述业务数据中提取所述第i个业务线的业务明细;
将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到所述第一主题的业务层表;
将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到所述第二主题的主题层表;
基于所述业务层表和所述主题层表构建所述数据仓库。
2.根据权利要求1所述的方法,其特征在于,所述第i个业务线的业务数据包括至少一个业务过程被调用时产生的调用数据;
所述从所述业务数据中提取所述第i个业务线的业务明细,包括:
从所述业务数据中提取第j个业务过程被调用时产生的调用数据,得到目标调用数据,其中,j=1,2,3……,M,M为正整数;
将所述目标调用数据进行存储,得到第j个业务过程的业务过程明细;
将M个业务过程与所述第i个业务线进行映射,得到第i个业务线与M个业务过程的映射关系;
将所述映射关系以及M个业务过程的业务过程明细确定为所述第i个业务线的业务明细。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一主题的过程包括:
将M个业务过程以及每个业务过程的业务过程明细输入到预先训练的业务过程划分模型中,根据业务过程明细对所述M个业务过程进行划分,得到至少一组业务过程;
将每组业务过程归类为一个第一主题。
4.根据权利要求3所述的方法,其特征在于,所述将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到所述第一主题的业务层表,包括:
针对任一所述第一主题,从预设的指标度量层获取与所述第一主题对应的至少一个第一指标,以及从预设的维度层获取与所述第一主题对应的第一数据维度;
将归类为所述第一主题的业务过程确定为第一目标业务过程;
根据所述第一指标从所述第i个业务线的所述第一目标业务过程的业务过程明细中提取调用数据,得到第一目标明细;
按照所述第一数据维度,将所述第一目标明细中的所有调用数据整合为所述第一主题的业务层表。
5.根据权利要求2~4任一项所述的方法,其特征在于,所述确定所述第二主题的过程包括:
根据所述映射关系确定N个业务线均包括的至少一个第二目标业务过程;
针对任一所述第二目标业务过程,根据所述第二目标业务过程的属性确定所述第二目标业务过程对应的所述第二主题。
6.根据权利要求5所述的方法,其特征在于,所述将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到所述第二主题的主题层表,包括:
针对任一所述第二主题,从预设的指标度量层获取与所述第二主题对应的至少一个第二指标,以及从预设的维度层获取与所述第二主题对应的第二数据维度;
根据每个所述第二指标分别从N个业务线的业务明细中提取与所述第二主题对应的所述第二目标业务过程的业务过程明细,得到每个业务线的第二目标明细;
按照所述第二数据维度,将每个业务线的所述第二目标明细整合为所述第二主题的主题层表。
7.根据权利要求1~4、6任一项所述的方法,其特征在于,所述基于所述业务层表和所述主题层表构建所述数据仓库,包括:
将第i个业务线与第一主题的业务层表进行映射存储,得到所述数据仓库的业务集市层;
按照预设的主题归类方式将第二主题的主题层表与预设的主题域进行映射,得到所述数据仓库的主题集市层。
8.一种数据仓库的构建装置,其特征在于,包括:
获取模块,用于获取第i个业务线的业务数据,其中,i=1,2,3……,N,N为正整数;
提取模块,用于从所述业务数据中提取所述第i个业务线的业务明细;
划分模块,用于将第i个业务线的业务明细按照预先确定的第一主题进行划分,得到所述第一主题的业务层表;
汇总模块,用于将N个业务线的业务明细按照预先确定的第二主题进行汇总,得到所述第二主题的主题层表;
构建模块,用于基于所述业务层表和所述主题层表构建所述数据仓库。
9.一种数据仓库的构建设备,其特征在于,包括:至少一个处理器和存储器;
所述处理器用于执行所述存储器中存储的数据仓库的构建程序,以实现权利要求1-7任一项所述的数据仓库的构建方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有一个或者多个程序,所述一个或者多个程序可被如权利要求9所述的数据仓库的构建设备执行,以实现权利要求1-7任一项所述的数据仓库的构建方法。
CN202110065923.5A 2021-01-18 2021-01-18 数据仓库的构建方法、装置、设备及存储介质 Active CN112860659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110065923.5A CN112860659B (zh) 2021-01-18 2021-01-18 数据仓库的构建方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110065923.5A CN112860659B (zh) 2021-01-18 2021-01-18 数据仓库的构建方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112860659A true CN112860659A (zh) 2021-05-28
CN112860659B CN112860659B (zh) 2023-09-01

Family

ID=76006880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110065923.5A Active CN112860659B (zh) 2021-01-18 2021-01-18 数据仓库的构建方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112860659B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468182A (zh) * 2021-07-14 2021-10-01 广域铭岛数字科技有限公司 一种数据存储方法及系统
CN115422169A (zh) * 2022-11-04 2022-12-02 暨南大学 基于商业广告场景的数据仓库构建方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005106711A1 (en) * 2004-04-30 2005-11-10 Analysoft Development Limited Method and apparatus for automatically creating a data warehouse and olap cube
CN104252506A (zh) * 2013-06-28 2014-12-31 易保网络技术(上海)有限公司 同步构建业务模型和数据仓库模型及其映射的方法及系统
US20150227607A1 (en) * 2008-04-25 2015-08-13 International Business Machines Corporation Declarative data warehouse definition for object-relational mapped objects
US20160110429A1 (en) * 2010-08-18 2016-04-21 At&T Intellectual Property I, L.P. Systems and Methods for Social Media Data Mining
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN111241185A (zh) * 2020-04-26 2020-06-05 浙江网商银行股份有限公司 数据处理方法以及装置
CN111427946A (zh) * 2020-04-16 2020-07-17 北京搜狐互联网信息服务有限公司 数据处理方法及装置
CN111460045A (zh) * 2020-03-02 2020-07-28 心医国际数字医疗系统(大连)有限公司 数据仓库建设的建模方法、模型、计算机设备和存储介质
CN111768850A (zh) * 2020-06-05 2020-10-13 上海森亿医疗科技有限公司 医院数据分析方法、医院数据分析平台、设备和介质
CN112131203A (zh) * 2020-08-28 2020-12-25 北京思特奇信息技术股份有限公司 一种数据仓库搭建的方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005106711A1 (en) * 2004-04-30 2005-11-10 Analysoft Development Limited Method and apparatus for automatically creating a data warehouse and olap cube
US20150227607A1 (en) * 2008-04-25 2015-08-13 International Business Machines Corporation Declarative data warehouse definition for object-relational mapped objects
US20160110429A1 (en) * 2010-08-18 2016-04-21 At&T Intellectual Property I, L.P. Systems and Methods for Social Media Data Mining
CN104252506A (zh) * 2013-06-28 2014-12-31 易保网络技术(上海)有限公司 同步构建业务模型和数据仓库模型及其映射的方法及系统
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN109669934A (zh) * 2018-12-11 2019-04-23 江苏瑞中数据股份有限公司 一种切合电力客服业务的数据仓库系统及其构建方法
CN111460045A (zh) * 2020-03-02 2020-07-28 心医国际数字医疗系统(大连)有限公司 数据仓库建设的建模方法、模型、计算机设备和存储介质
CN111427946A (zh) * 2020-04-16 2020-07-17 北京搜狐互联网信息服务有限公司 数据处理方法及装置
CN111241185A (zh) * 2020-04-26 2020-06-05 浙江网商银行股份有限公司 数据处理方法以及装置
CN111768850A (zh) * 2020-06-05 2020-10-13 上海森亿医疗科技有限公司 医院数据分析方法、医院数据分析平台、设备和介质
CN112131203A (zh) * 2020-08-28 2020-12-25 北京思特奇信息技术股份有限公司 一种数据仓库搭建的方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468182A (zh) * 2021-07-14 2021-10-01 广域铭岛数字科技有限公司 一种数据存储方法及系统
CN115422169A (zh) * 2022-11-04 2022-12-02 暨南大学 基于商业广告场景的数据仓库构建方法及装置

Also Published As

Publication number Publication date
CN112860659B (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US20120317078A1 (en) Replication Support for Structured Data
CN111460045A (zh) 数据仓库建设的建模方法、模型、计算机设备和存储介质
CN102214208B (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
CN112860659B (zh) 数据仓库的构建方法、装置、设备及存储介质
CN111639114A (zh) 一种基于物联网平台的分布式数据融合管理系统
CN102254029A (zh) 一种基于视图的数据访问系统及其方法
CN111782718B (zh) 插件化数据报送系统及数据报送方法
CN103455335A (zh) 一种多级分类的Web实现方法
US20230024345A1 (en) Data processing method and apparatus, device, and readable storage medium
CN114547076A (zh) 数据处理方法和数据处理系统
CN107515866B (zh) 一种数据操作方法、装置和系统
CN114756630B (zh) 一种基于Flink状态的实时数仓建设方法
CN112732763A (zh) 数据的聚合方法、装置、电子设备及介质
CN111680030A (zh) 数据融合方法及装置,基于元信息的数据处理方法和装置
CN103324749A (zh) 一种基于标准文本地址的空间化解析及纠偏方法
CN107220363B (zh) 一种支持全局复杂检索的跨地域查询方法及系统
US11868362B1 (en) Metadata extraction from big data sources
CN116680315A (zh) 数据离线处理方法、装置、电子设备及存储介质
KR20130126012A (ko) 비즈니스 인텔리전스의리포트 제공 방법 및 장치
CN113608724B (zh) 一种基于模型缓存实现的离线仓库实时交互方法与系统
US20210141791A1 (en) Method and system for generating a hybrid data model
CN116861013B (zh) 一种cim数据可信性提升方法
Toups A study of three paradigms for storing geospatial data: distributed-cloud model, relational database, and indexed flat file
CN115934670B (zh) Hdfs多机房的副本放置策略验证方法与装置
CN110569456B (zh) Web端数据离线缓存方法及装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant