CN111382155B - 一种数据仓库的数据处理方法、电子设备及介质 - Google Patents
一种数据仓库的数据处理方法、电子设备及介质 Download PDFInfo
- Publication number
- CN111382155B CN111382155B CN201811652720.0A CN201811652720A CN111382155B CN 111382155 B CN111382155 B CN 111382155B CN 201811652720 A CN201811652720 A CN 201811652720A CN 111382155 B CN111382155 B CN 111382155B
- Authority
- CN
- China
- Prior art keywords
- data
- service
- information
- application
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000007405 data analysis Methods 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000005065 mining Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 41
- 238000010276 construction Methods 0.000 abstract description 8
- 239000002699 waste material Substances 0.000 abstract description 8
- 230000002354 daily effect Effects 0.000 description 29
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 238000013461 design Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000013499 data model Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Abstract
根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储,业务领域为根据业务系统开展的业务归纳出的领域,业务领域主题为根据业务领域归纳出的主题;根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储,应用场景为在业务领域中进行数据分析的应用场景,应用主题为根据所述应用场景归纳出的主题,这样的处理方式将业务领域的特征和数据应用的特征相结合,提高整理出的数据集与数据分析需求的匹配性,使得获得的数据集在数据仓库中具有很好的通用性,避免了重复建设导致的资源浪费问题。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据仓库的数据处理方法、电子设备及介质。
背景技术
随着公司业务的扩张,数字化、智能化运营的逐步深入,日常运营中产生的数据呈现爆发式增长,并且产生的数据结构多元化,数据包含的信息复杂化,简单的数据存储以无法满足公司运行的需求了。而数据仓库由于能够对这些数据进行整理归纳和重组,及时提供给决策人员用于对业务的运营进行调整,因此能够在公司的运行中发挥巨大的作用,充分满足运行需求。
但是,目前的数据仓库在对数据进行整理归纳和重组时通常是分别针对不同业务系统的数据分别进行整合,汇总后再根据数据分析的需求进行归纳,这样的处理方式整理出的数据集与数据分析的需求匹配性低,进而导致数据集通用性差,数据处理归纳过程存在大量重复建设,资源浪费严重。
申请内容
本申请提供了一种数据仓库的建立方法、电子设备及介质,用以提高整理出的数据集与数据分析需求的匹配性,避免了数据处理过程中重复建设导致资源浪费的问题。
本申请实施例采用下述技术方案:
本申请实施例提供一种数据仓库的建立方法,其特征在于,包括:
根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储,
业务领域为根据业务系统所开展的业务归纳出的领域,业务领域主题为根据业务领域归纳出的主题;
根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储,
应用场景为在业务领域中进行数据分析的应用场景,应用主题为根据应用场景归纳出的主题。
优选地,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表包括:
根据业务领域从业务系统所开展的业务中归纳出业务概念信息以及业务应用场景信息;
根据业务概念信息和业务应用场景信息将自业务系统的源数据进行抽取转换生成整合数据表。
优选地,业务概念信息包括用业务系统的业务术语描述的概念、概念之间的关系以及概念实体的属性中的一种或多种,
业务应用场景信息为根据业务系统中进行数据分析挖掘的应用场景生成的应用场景信息。
优选地,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表还包括:
根据业务领域从从源数据中归纳出业务数据信息,业务数据信息包括源数据中数据实体之间的关系、数据实体包含的数据内容以及数据内容的特点中的一种或多种;
根据业务概念信息、业务应用场景信息以及业务数据信息将自业务系统的源数据进行抽取转换生成整合数据表。
优选地,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表还包括:
根据业务领域从建立业务应用场景信息与业务数据信息之间的映射;
根据业务概念信息、业务应用场景信息、业务数据信息以及映射将来自业务系统的源数据进行抽取转换生成整合数据表。
优选地,业务领域主题为根据业务概念信息和业务数据信息归纳出的主题;
应用主题为根据业务应用场景信息和映射归纳出的主题。
优选地,根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表包括:
根据业务应用场景信息归纳出维度指标模型,
根据维度指标模型对存储在整合数据表中的数据进行抽取转换生成轻度汇总数据表。
优选地,根据应用领域对轻度汇总数据表中的数据进行抽取转换生成应用数据表,将应用数据表根据应用领域主题对应地进行存储,
应用领域为根据业务应用场景信息归纳出的领域,应用领域主题与应用领域对应的主题。
优选地,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表包括:
将业务系统产生的数据进行预处理生成源数据表;
将源数据表根据业务主题对应地进行存储,业务主题为与业务系统对应的主题;
根据业务领域对源数据表中的源数据进行抽取转换生成整合数据表。
优选地,将业务系统产生的数据进行预处理生成源数据表包括:
采集业务系统产生的数据;
将业务系统产生的数据进行清洗以及标准化处理后生成源数据表。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述任一项的数据仓库的数据处理方法。
本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现上述任一项的数据仓库的数据处理方法。
根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储,业务领域为根据业务系统开展的业务归纳出的领域,业务领域主题为根据业务领域归纳出的主题;根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储,应用场景为在业务领域中进行数据分析的应用场景,应用主题为根据所述应用场景归纳出的主题,这样的处理方式将业务领域的特征和数据应用的特征相结合,提高整理出的数据集与数据分析需求的匹配性,使得获得的数据集在数据仓库中具有很好的通用性,避免了重复建设导致的资源浪费问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例1提供的数据仓库的数据处理方法的流程图。
图2为本申请实施例2提供的数据仓库的结构示意图。
图3为本申请实施例2提供的数据仓库的数据处理方法的流程图。
图4为本申请本实施2中数据仓库的数据模型设计模版。
图5为本申请实施例3提供的数据仓库的数据处理系统的结构示意图。
具体实施方式
本申请提供了一种数据仓库的数据处理方法、电子设备及介质,用以提高整理出的数据集与数据分析需求的匹配性,避免了数据处理过程中重复建设导致资源浪费的问题。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下,参照附图对本申请的数据仓库的建立方法、电子设备及介质进行详细阐述。
本申请实施例1的执行主体为服务端,该服务端包括计算机、服务器等,即能够实现本申请实施例1中所记载的技术方案进行数据处理的服务端。
图1为本申请实施例1提供的数据仓库的数据处理方法的流程图。
如图1所示,本实施例1中数据仓库的数据处理方法包括以下步骤:
步骤S1-1,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储。
其中,业务系统用于为数据仓库提供源数据,业务领域为根据业务系统所开展的业务归纳出的领域,本实施中业务系统可以为一个也可以为多个,这些业务系统可以属于相同的业务领域也可以属于不同的业务领域。
本实施例中,根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表可以是根据业务领域中多个业务系统的业务信息对源数据进行抽取转换,也可以是根据业务领域中多个业务系统产生的业务数据信息进行抽取转换,还可以是根据业务信息和业务数据信息共同对源数据进行抽取转换。
具体地,根据业务信息对源数据进行抽取转换可以是根据业务相关的信息对源数据进行抽取转换,例如,业务信息可以是业务内容、业务操作流程、业务操作规则以及服务的用户对象中的一种或多种,也可以是业务系统对数据进行分析发掘的业务应用场景信息。这样的数据处理能够将不同业务系统中的类似的业务信息和业务应用场景进行整合。
根据业务数据信息对源数据进行抽取转换可以是根据源数据中的数据实体之间的关系、数据实体包含的数据内容以及数据内容的特点中的一种或多种对源数据进行抽取转换。这样的数据处理能够针对数据实体和数据实体对应的具体数据内容进行整理归纳,充分挖掘数据本身的关联性,并去除重复的数据。
根据业务信息和业务数据信息共同对源数据进行抽取转换可以是根据业务领域建立应用场景信息到数据实体及其包含的数据内容之间的映射,根据该映射对源数据进行抽取转换。这样的数据处理能够将业务信息和数据本身有效地结合再一起。
需要说明的是,本实施例中的整合数据表可以是包含多个维度表和多个事实表。
还需要说明的是,当提供源数据的业务系统为多个时,可以是根据各个业务系统中的业务信息和各个业务系统产生的数据共同建立整合数据表。例如,若多个业务系统属于相同的业务领域时,不同的业务系统中包含相似的业务内容或相似的应用场景,不同的业务系统中产生了相似的数据,则可以综合多个相似的业务信息和数据共同对源数据进行抽取转换。
进一步地,将整合数据表根据业务领域主题对应地进行存储时,可以是将整合数据表根据从业务领域中归纳出的主题进行存储。
步骤S1-2,根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储。
其中,根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表可以是根据业务应用场景归纳出维度指标模型,该维度指标模型包含该业务领域内某一类型数据分析时通用的数据模型。
进一步地,将轻度汇总数据表根据应用主题对应地进行存储时,可以是将轻度汇总数据表根据从应用场景归纳出的主题出进行存储。
本实施例中根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储,业务领域为根据业务系统开展的业务归纳出的领域,业务领域主题为根据业务领域归纳出的主题;根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储,应用场景为在业务领域中进行数据分析的应用场景,应用主题为根据所述应用场景归纳出的主题,这样的处理方式将业务领域的特征和数据应用的特征相结合,提高整理出的数据集与数据分析需求的匹配性,使得获得的数据集在数据仓库中具有很好的通用性,避免了重复建设导致的资源浪费问题。
<实施例2>
在实施例2中,对于与实施例1中相同的方法,使用相同的符号并省略相同的说明。
本实施例中的用于建立数据仓库的源数据为来自不同业务系统的源数据,这些业务系统可以属于相同的业务领域也可以属于不同的业务领域。例如,源数据可以是来自同一公司内部不同业务系统的源数据;也可以是来自公司外部业务系统的源数据;还可以是同时包含来自同一公司内部不同的业务系统的源数据和公司外部业务系统的源数据。其中,来自公司外部业务系统的源数据可以是根据从公司外部收集到的数据生成的源数据。
图2为本申请实施例2提供的数据仓库的结构示意图。
进一步地,如图2所示,本实施例中通过操作数据层(ODS层)、公共维度模型层(CDM层)以及应用数据层(ADS层)对来自业务系统的数据进行整理、归纳、存储进而建立数据仓库。
具体地,ODS层将来自业务系统的数据进行集中,根据业务需求及稽核和审计要求,按照同源的方式,将非结构化数据转化为结构化数据,对部分数据进行清洗等。ODS层中一个业务系统对应一个主题,存储在一个数据库中,该数据库的命名方式为”ods_业务系统”,业务系统指的是数据来源对应的业务系统,例如:ods_db1、ods_db2等。每个主题对应的数据库中存储了每个业务系统最细粒度的、最原始的数据或部分轻度转换后的数据。
CDM层用于根据源数据建立概念模型,将概念模型转化为逻辑模型再转换为物理模型数据,分为明细整合层(DWD层)和轻度汇总层(DWS层)。DWD层用于基础数据整合,对存储在ODS层中的数据进行清洗、转换、逻辑加工等。DWD层中面向业务过程,通过维度退化手法,把维度表信息冗余到事实表,减少事实表与维度表的关联,强化明细事实表的易用性。DWS层用于轻粒度的汇总计算,对存储在DWD层中的数据进行进一步的清洗、转换、逻辑加工等。DWS层中面向分析主题,采取更多宽表化手段,加强指标的维度退化,提升公共指标的复用性,减少重复的加工。在CDM层中包括DWD库和DWS库,每个数据库中根据数据整理的需要划分不同的主题,归纳整理后的数据根据主题对应地进行存储。
ADS层用于面向具体应用,对数据进行个性化汇总计算,即基于应用需要对存储在DWS层中的数据进行转换、加工、存储。在ADS层可以是基于不公用性、复杂性(例如,指数型、比值型、排名型指标)等个性化指标进行数据处理,也可以是基于具体应用设计的报表结果表、或面向某一业务领域设计的大宽表集市、或趋势指标串、或面向机器学习算法应用的特征工程等进行数据处理。ADS层中根据数据分析挖掘的应用场景对处理过的数据进行存储,每个应用场景对应一个数据库,该数据库命名方式为”ads_应用场景”,应用场景指的是数据应用方向对应的领域,如:报表(rpt)、机器学习预测特征工程(ml)、数据挖掘样本特征(dm)等等。
图3为本申请实施例2提供的数据仓库的数据处理方法的流程图。
如图3所示,本实施例2中的数据仓库的数据处理方法包括以下步骤:
步骤S2-1,在操作数据层将业务系统产生的数据进行预处理生成源数据表,将源数据表根据业务主题对应地进行存储。
优选地,在操作数据层将业务系统产生的数据进行预处理生成源数据表包括:
采集业务系统产生的数据;
将业务系统产生的数据进行清洗以及标准化处理后生成源数据表。
具体地,本实施例中通过离线技术(sqoop)、实时技术(kafka)等,将业务系统中的数据,抽取到hadaoop平台,这些数据以实体表的形式存储在hadaoop平台中,实现数据的集中,再将集中后的数据进行清洗后按预定的粒度分区存储或分桶存储在ODS层中。本实施中预定的粒度可以是按日或按小时存储,粒度可以根据具体应用场景需要进行预设,这里不做具体限定。
本实施例中,业务系统可以是提供一种业务服务的系统。
需要说明的是,在ODS层中根据业务系统进行主题划分,每个业务系统为一个主题,来自各个业务系统的实体表根据该业务系统的主题对应地进行存储。
本实施例中,ODS层的数据处理满足对各个业务系统历史数据追溯及最原始数据查询,保证了后续处理过程中的数据有源可查。
步骤S2-2,在明细整合层中根据业务领域将来自操作数据层的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储。
本实施例中,整合数据表包括多个数据表。
优选地,本实施例中根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表可以是:
根据业务领域从业务系统所开展的业务中归纳出业务概念信息以及业务应用场景信息;
根据业务概念信息和业务应用场景信息将来自操作数据层的源数据进行抽取转换生成整合数据表。
本实施例中,业务领域为根据业务系统归纳出的业务领域,一个业务领域可以是包含多个业务系统。
业务概念信息可以是根据各个业务领域开展的业务内容、业务操作流程、业务操作规则、服务的用户对象中的一种或多种,对应到各个业务系统的各个模块的各个功能点及各功能点之间的交互,抽象和归纳成用业务术语描述的概念、所述概念之间的关系以及概念实体的属性中的一种或多种。
例如,根据业务过程中的参与者归纳出的业务概念信息,对参与到业务的经营、运作、使用等各个环节的参与者的社会属性和自然属性进行抽象性概述,归纳出相关的业务概念信息。如在wifi相关业务领域中,根据设备提供方的id、服务提供方的设备号、服务提供方的地址信息、服务提供方的性别、职业、经营信息等,或者设备使用方的使用设备号、设备使用方的性别、职业等社会统计学属性、设备使用方的偏好信息等等,归纳出用户基础信息表,该用户基础信息表包含用户名称、用户性别、用户职业、用户偏好信息、用户设备信息等业务概念信息。
业务应用场景信息可以是根据各个业务领域运营、销售、日常监控的统计分析和知识挖掘的需要,抽象、归纳出数据分析、数据挖掘的应用场景,再根据该应用场景抽象出的应用场景信息。
例如,根据wifi相关业务领域中新用户的增长情况、新老用户的高峰使用时段、使用偏好、使用时长以及产品功能故障、后端服务器故障导致的用户流失情况归纳出用户日活跃度分析场景,进而抽取用户日活跃度分析场景的应用场景信息,如每日新增用户量、新用户使用高峰时段、老用户使用高峰时段、使用时长、每日用户流失量等该应用场景信息。
进一步地,根据业务概念信息和业务应用场景信息生成整合数据表,包括根据业务概念信息生成整合数据表,例如,根据归纳出用户基础信息表,将来自相同业务领域的不同业务系统中的用户数据汇总到用户基础信息表中,如不同业务系统中设备提供方的用户数据、设备使用方的用户数据以及资源提供方的用户数据,再按照开发规范里定义的规则进行清洗、转换、加工,生成整合数据表。
根据业务应用场景信息生成整合数据表,例如,根据归纳出用户日活跃度分析场景的应用场景信息,将来自相同业务领域中不同业务系统中的每日新增用户量、新用户使用高峰时段、老用户使用高峰时段、使用时长、每日用户流失量数据对应地进行汇总,再按照开发规范里定义的规则及根据应用场景提炼出来的具体业务处理逻辑进行清洗、转换、加工,生成整合数据表。
需要说明的是,本实施例中还可以是根据业务概念信息和务应用场景信息共同生成整合数据表。
优选地,本实施例中根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表也可以是:
根据业务领域从源数据中归纳出业务数据信息,业务数据信息包括源数据中数据实体之间的关系、数据实体包含的数据内容以及数据内容的特点中的一种或多种;
根据业务概念信息、业务应用场景信息以及业务数据信息将来自操作数据层的源数据进行抽取转换生成整合数据表。
本实施例中,业务数据信息可以是根据相同业务领域中的各个业务系统产生的真实数据实体及数据内容,抽象归纳数据实体之间的关系、数据实体包含的数据内容以及数据内容的特点。例如,归纳出的业务数据信息中可以包含新增设备维度表、初始化设备维度表、活跃设备维度表以及日活事实表,其中,新增设备维度表用于存储每日新增的用户设备信息;初始化设备维度表用于存储每日进行初始化操作的设备的信息;活跃设备维度表用于存储每日活跃设备信息;日活事实表用于存储每日活跃设备的行为信息、度量信息以及新增设备维度、初始化设备维度、活跃设备维度等关键属性信息及业务主键信息。
进一步地,根据业务数据信息生成整合数据表,例如,将来自相同业务领域中不同业务系统中的新增设备维度表、初始化设备维度表、活跃设备维度表以及日活事实表汇总,经过清洗、转换、加载、整合这一系列的动作之后,把原始的数据符号变成了有价值的语义信息,生成整合数据表。
通过根据业务数据信息对源数据进行处理,使得能够更加方便地从加工后的数据中洞悉业务运行中的规律,屏蔽了对底层数据应用的复杂度。
需要说明的是,本实施例中还可以是根据业务概念信息、务应用场景信息以及业务数据信息共同生成整合数据表,其中,根据业务概念信息、务应用场景信息生成整合数据表可以按照上述记载的方式生成整合数据表,这里不再一一赘述。
优选地,本实施例中根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表还可以是:
根据业务领域建立业务应用场景信息与业务数据信息之间的映射;
根据业务概念信息、业务应用场景信息、业务数据信息以及映射将来自操作数据层的源数据进行抽取转换生成整合数据表。
具体地,根据映射生成整合数据表,即生成数据模型,将应用场景信息与对应的数据实体、数据内容产生关联,生成整合数据表。
进一步地,根据业务应用场景信息与业务数据信息之间的映射生成整合数据表是根据业务领域中日常事务、业务、应用的规律或精髓,概括出来的带有普适性的或领域通用性的整合数据表。
根据映射生成整合数据表具有很好的稳定性,能够应对业务及应用的个性化快速变化。
需要说明的是,本实施例中还可以是根据业务概念信息、业务应用场景信息、业务数据信息以及映射共同生成整合数据表,其中,根据业务概念信息、务应用场景信息、业务数据信息生成整合数据表可以按照上述记载的方式生成整合数据表,这里不再一一赘述。
需要说明的是,本实施中,生成的整合数据表中的数据内容均可以是来自多个不同的业务系统表,还可以是来自不同业务系统的不同业务表。
还需要说明的是,本实施例中的DWD层中可以存储有多个整合数据表,这些整合数据表包括根据业务概念信息、业务应用场景信息、业务数据信息以及映射中的一种或多种生成的整合数据表。
由于整合数据表是根据相同业务领域的不同业务系统共同归纳出的业务概念信息、业务应用场景信息、业务数据信息以及映射生成的,因此既能让整合数据表具有良好的通用性,避免了后续使用过程中相同业务领域中不同业务系统之间概念不兼容导致数据形式无法使用的问题,又充分考虑到了数据应用过程中的需求,提高了整合数据表与后期数据分析的匹配性;并且该整合数据表对数据本身进行了深入详细的挖掘,充分展示了数据本身的特性和关联性;还将数据应用的需求和数据内容进行了结合,保证了后续数据处理过程中业务的应用特征和数据本身的特征都能够得到充分的归纳整理。
本实施例中,整合数据表根据业务领域主题对应地进行存储。
其中,业务领域主题为根据业务领域归纳出的主题,
优选地,业务领域主题可以是根据业务概念信息和业务数据信息归纳出的主题。例如,业务领域主题可以为用户设备日活跃信息、热点分享的热点信息、服务端连接信息、客户端连接信息、山寨热点信息、用户使用产品功能的行为打点信息、一键查询信息、钥匙密码查询信息等。
需要说明的是,在明细整合层中可以包含多个不同的业务领域主题,一个具体的业务领域为一个主题,
以下举例说明,在DWD层中根据业务领域将来自操作数据层的源数据进行抽取转换生成整合数据表,将整合数据表根据业务领域主题对应地进行存储的具体过程。
例如,DWD层中用户设备日活主题中对应存储的日活事实表,其一部分来自ODS层ods_1库的设备初始化信息表、设备指纹信息表、设备新增表;一部分信息来自ODS层的ods_2库的IOS第三方渠道安装表;一部分信息来自ODS层的ods_3库的设备活跃表;在上述表之间,通过各个表key与key之间的内在联系,建立表与表之间的关联关系,或者通过数据质量探查分析后,制定清洗规则清洗,然后根据业务key进行轻度的聚合,再通过各个表key与key之间的内在联系,建立表与表之间的关联关系;实现表级关联后,再对目标表每个需要加工处理的字段制定加工及转换规则,进行数据的转换、加工,生成的结果数据存入dwd层目标表,即完成了数据整合,获得日活事实表。
需要说明的是,在DWD库中一个主题中对应存储的数据可以是来自多个业务系统的数据,一个来自业务系统的数据也可以是存储在多个主题中。
步骤S2-3,在轻度汇总层根据应用场景对整合数据表中的数据进行抽取转换生成轻度汇总数据表,将轻度汇总数据表根据应用主题对应地进行存储。
优选地,根据应用场景对所述整合数据表中的数据进行抽取转换生成轻度汇总数据表包括:
根据业务领域中的业务应用场景信息归纳出维度指标模型,
根据维度指标模型对存储在整合数据表中的数据进行抽取转换生成轻度汇总数据表。
本实施例中,维度指标模型为根据业务应用场景信息建立的维度指标模型,具体地为根据应用场景信息抽象出在同一类数据分析的应用场景内通用的维度指标模型,例如,维度指标模型可以是日期+渠道+品牌+省份+城市+广告加载率,其中,日期+渠道+品牌+省份+城市是5个组合维度,广告加载率是指标。
进一步地,本实施例中应用主题为根据应用场景归纳出的主题。
优选地,应用主题可以是根据业务应用场景信息和映射归纳出的主题。
例如,对于wifi相关业务领域中,负责产品运营和产品设计的人员想知道不同国家、不同省份、不同城市用户的产品使用情况,如连接热点成功情况、连接热点错误情况;或者想知道对于不同产品版本、不同渠道的用户的使用情况,如连接热点情况;或者想知道产品使用过程中各项指标的具体参数,如客户端连接认证时长、连接成功情况、上报热点连接情况、升级用户客户端打点连接情况等等。上述种种业务应用场景皆属围绕wifi相关业务展开的分析,统一归纳为wifi应用主题。
需要说明的是,为了满足数据统计分析挖掘需要,应用主题还可以是根据多个不同应用场景进一步归纳出具有普适性的轻度汇总应用主题。
以下举例说明,在DWS层中根据应用场景对DWD层整合后的数据表中的数据进行抽取转换生成轻度汇总数据表,并将其存储在数据仓库的具体过程。
例如,DWS层日活主题对应存储有有设备日活多维轻度汇总表、活跃设备重合多维轻度汇总表等。以设备日活多维轻度汇总表为例进行说明,设备日活多维轻度汇总表的数据来自于DWD层的日活事实表、dhid升级表、imeimac升级表(imei和mac参数升级表),里面包含10多个维度属性,100多个度量指标,这10多个维度共组合出40多种常用的维度组合,基于这些维度组合,可以直接观测这些维度组合对应的度量指标;维度属性与DWD层公共维度主题里的维度表的维度ID相统一,每个度量指标的计算规则均为根据业务应用的具体统计需求抽象后提炼而来;根据上述维度模型组合及对应的度量指标计算规则,生成维度指标模型,并依照该维度指标模型进行数据的转换、加工,获得设备日活多维轻度汇总表。
需要说明的是,DWD库中还设置有公共主题,该公共主题用于对应地存储同一公司内通用的公共维度模型表。其中,公共维度为各个业务领域都通用的观测视角,例如手机品牌,商品品类、日期、渠道等。
还需要说明的是,同一公司内仅设置有一个公共主题。
本实施例中,CDM层的数据处理满足了最细业务统计粒度数据的高灵活性、高效率、高质量的频繁使用。在对数据进行整理归纳的整个过程中,将业务信息和业务数据相结合共同建立模型和划分主题,使得处理后的数据既符合了数据应用的需求又对数据本身的关联性进行了充分的挖掘,进而让最终获得的数据集具有很好的通用性,避免了重复建设和资源浪费的问题。
步骤S2-4,在应用数据层根据应用领域对轻度汇总数据表中的数据进行抽取转换生成应用数据表,将应用数据表根据应用领域主题对应地进行存储。
本实施例中,应用领域可以是生意参谋、舆情洞见、智能拦截、精准推荐、精准化广告、精准化营销、决策支持报表等。
具体地,ADS层根据数据分析挖掘的具体需求对存储在DWD库和DWS库中的数据进行进一步的转换、加工,并根据应用领域主题进行存储。
其中,应用领域主题为根据务应用场景信息归纳出的领域主题,一个应用领域对应一个应用领域主题。例如,应用场景为挖掘用户社会统计学特征里的性别、职业,则划分出的应用场景领域主题为用户基础画像主题;应用场景为统计业务的日常活跃动态,则划分出的应用场景领域主题为日活主题。
需要说明的是,本实施例中,整个数据仓库各个层、各个层中的主题域,都遵循统一的数据架构规范、模型设计规范、开发规范、开发流程、数据质量全链监控规范、血缘追踪规范,使用统一的数据处理工具体系。
图4为本申请本实施2中数据仓库的数据模型设计模版。
如图4所示,整个数据仓库的数据模型设计采用统一的数据模型设计模版。
该模型设计模版用于向开发人员显示存储表的数据库名称、表的名称、表的内容概要描述、表的存储方式、数据的检索方式、表的整体计算取值逻辑、表的内容信息,如字段名称、字段类型、字段的详细转换加工处理逻辑、字段的枚举内容详细含义等。
采用统一的数据模型设计模版统一了语言描述的标准,使得整个数据处理更为标准规范,有迹可循,便于数据积累、知识沉淀以及问题追踪。
使用本实施例中数据仓库的数据处理方法,由于将业务领域的特征和数据应用的特征相结合,因此能够很好的避免重复建设导致资源浪费的问题,其具体的效果如下:该数据仓库额计算时间节省30%,人力成本节省40%,存储资源节省10%,数据利用率提升45%,数据质量提升40%,数据管控能力提升45%。
<实施例3>
图5为本申请实施例3提供的建立数据仓库的数据处理系统的结构示意图。
基于同一个申请构思,如图5所示,本申请实施例提供的数据仓库的数据处理系统,包括数据处理模块10、数据存储模块20。其中,模型建立模块10用于根据不同的处理需求对数据进行抽取转换;数据存储模块20用于将处理后数据根据归纳出的主题对应地进行存储。
基于同一个申请构思,本申请实施例提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行前述实施例1~2中任一实施例中所述的数据仓库的数据处理方法中的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本申请实施例还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1~2中任一实施例所述的数据仓库的数据处理方法中的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本申请的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
基于同一个申请构思,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1~2中任一实施例所述的数据仓库的数据处理方法中的步骤。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种数据仓库的数据处理方法,其特征在于,包括:
根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表,将所述整合数据表根据业务领域主题对应地进行存储,
所述业务领域为根据所述业务系统开展的业务归纳出的领域,所述业务领域主题为根据业务领域归纳出的主题,所述整合数据表是根据业务概念信息、业务应用场景信息、业务数据信息以及所述业务应用场景信息同所述业务数据信息之间的映射中的一种或多种生成的;
根据应用场景对所述整合数据表中的数据进行抽取转换生成轻度汇总数据表,将所述轻度汇总数据表根据应用主题对应地进行存储,
所述应用场景为在所述业务领域中进行数据分析的应用场景,所述应用主题为根据所述应用场景归纳出的主题,所述轻度汇总数据表是根据基于所述业务应用场景信息建立的维度指标模型生成的。
2.根据权利要求1所述的方法,其中,所述根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表包括:
根据所述业务领域从所述业务系统所开展的业务中归纳出业务概念信息以及业务应用场景信息;
根据所述业务概念信息和所述业务应用场景信息将自业务系统的源数据进行抽取转换生成整合数据表。
3.根据权利要求2所述的方法,其中,所述业务概念信息包括用所述业务系统中的业务术语描述的概念、所述概念之间的关系以及概念实体的属性中的一种或多种,
所述业务应用场景信息为根据所述业务系统中进行数据分析挖掘的应用场景生成的应用场景信息。
4.根据权利要求2所述的方法,其中,所述根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表还包括:
根据所述业务领域从所述源数据中归纳出业务数据信息,所述业务数据信息包括所述源数据中数据实体之间的关系、所述数据实体包含的数据内容以及所述数据内容的特点中的一种或多种;
根据所述业务概念信息、所述业务应用场景信息以及所述业务数据信息将自业务系统的源数据进行抽取转换生成整合数据表。
5.根据权利要求4所述的方法,其中,所述根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表还包括:
根据所述业务领域建立所述业务应用场景信息与所述业务数据信息之间的映射;
根据所述业务概念信息、所述业务应用场景信息、所述业务数据信息以及所述映射将来自业务系统的源数据进行抽取转换生成整合数据表。
6.根据权利要求5所述的方法,其中,
所述业务领域主题为根据所述业务概念信息和所述业务数据信息归纳出的主题;
所述应用主题为根据所述业务应用场景信息和所述映射归纳出的主题。
7.根据权利要求5所述的方法,其中,所述根据应用场景对所述整合数据表中的数据进行抽取转换生成轻度汇总数据表包括:
根据所述业务应用场景信息归纳出维度指标模型,
根据所述维度指标模型对存储在所述整合数据表中的数据进行抽取转换生成轻度汇总数据表。
8.根据权利要求1所述的方法,还包括:
根据应用领域对所述轻度汇总数据表中的数据进行抽取转换生成应用数据表,将所述应用数据表根据应用领域主题对应地进行存储,
所述应用领域为根据所述业务应用场景信息归纳出的领域,所述应用领域主题与所述应用领域对应的主题。
9.根据权利要求1所述的方法,其中:所述根据业务领域将来自业务系统的源数据进行抽取转换生成整合数据表包括:
将业务系统产生的数据进行预处理生成源数据表;
将所述源数据表根据业务主题对应地进行存储,所述业务主题为与所述业务系统对应的主题;
根据业务领域对所述源数据表中的源数据进行抽取转换生成整合数据表。
10.根据权利要求9所述的方法,其中:所述将业务系统产生的数据进行预处理生成源数据表包括:
采集业务系统产生的数据;
将业务系统产生的数据进行清洗以及标准化处理后生成源数据表。
11.一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现权利要求1至10中任一项所述的数据仓库的数据处理方法。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的数据仓库的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811652720.0A CN111382155B (zh) | 2018-12-28 | 2018-12-28 | 一种数据仓库的数据处理方法、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811652720.0A CN111382155B (zh) | 2018-12-28 | 2018-12-28 | 一种数据仓库的数据处理方法、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382155A CN111382155A (zh) | 2020-07-07 |
CN111382155B true CN111382155B (zh) | 2024-04-09 |
Family
ID=71218420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811652720.0A Active CN111382155B (zh) | 2018-12-28 | 2018-12-28 | 一种数据仓库的数据处理方法、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111382155B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362018A (zh) * | 2021-05-25 | 2021-09-07 | 北京明略软件系统有限公司 | 一种会议时长的处理方法及系统 |
CN113204374A (zh) * | 2021-05-28 | 2021-08-03 | 中国工商银行股份有限公司 | 流水线任务组件输入参数配置方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075304A (zh) * | 2006-05-18 | 2007-11-21 | 河北全通通信有限公司 | 电信行业基于数据仓库的决策支持系统的构造方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7487173B2 (en) * | 2003-05-22 | 2009-02-03 | International Business Machines Corporation | Self-generation of a data warehouse from an enterprise data model of an EAI/BPI infrastructure |
-
2018
- 2018-12-28 CN CN201811652720.0A patent/CN111382155B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075304A (zh) * | 2006-05-18 | 2007-11-21 | 河北全通通信有限公司 | 电信行业基于数据仓库的决策支持系统的构造方法 |
Non-Patent Citations (2)
Title |
---|
江樱 ; 黄慧 ; 卢文达 ; 骆伟艺 ; .基于大数据技术的电力全业务数据运营管理平台研究.自动化技术与应用.2018,(09),全文. * |
邱菊 ; 王岩 ; 黄佩卓 ; 王洋 ; .大型电力企业基于GBase分布式数据仓库建设初探.计算机应用与软件.2018,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111382155A (zh) | 2020-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7201730B2 (ja) | 意図推薦方法、装置、機器及び記憶媒体 | |
US11861507B2 (en) | Deriving semantic relationships based on empirical organization of content by users | |
CN110321482B (zh) | 一种信息的推荐方法、装置及设备 | |
US20220292103A1 (en) | Information service for facts extracted from differing sources on a wide area network | |
Kumar et al. | Twitter data analytics | |
Poorthuis et al. | Making big data small: strategies to expand urban and geographical research using social media | |
CN103620601A (zh) | 在映射缩减过程中汇合表 | |
CN109033109B (zh) | 数据处理方法及系统 | |
CN102999586A (zh) | 一种网站推荐的方法和装置 | |
US20210397670A1 (en) | User-directed suggestions | |
CN111382155B (zh) | 一种数据仓库的数据处理方法、电子设备及介质 | |
Subramanian et al. | UP-GNIV: an expeditious high utility pattern mining algorithm for itemsets with negative utility values | |
CN114637903A (zh) | 一种针对定向目标数据拓展的舆情数据采集系统 | |
CN202931393U (zh) | 数据发送处理装置 | |
Liang | Characterizing and predicting the cross-app behavior in mobile search | |
KR101955376B1 (ko) | 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Gao et al. | Supporting queries and analyses of large-scale social media data with customizable and scalable indexing techniques over NoSQL databases | |
CN115617973B (zh) | 一种基于智能数据处理的信息获取方法 | |
Sarwat et al. | Context awareness in mobile systems | |
CN116467291A (zh) | 一种知识图谱存储与搜索方法及系统 | |
Martínez-Castaño et al. | Polypus: a big data self-deployable architecture for microblogging text extraction and real-time sentiment analysis | |
US20210109984A1 (en) | Suggesting documents based on significant words and document metadata | |
Cuzzocrea | Multidimensional mining of big social data for supporting advanced big data analytics | |
Mylonas | Types of contextual information in the social networks era | |
Wang et al. | Towards an efficient platform for social big data analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211213 Address after: 200240 building 41, 398 Heqing Road, Minhang District, Shanghai Applicant after: Shanghai Shangxiang Network Technology Co.,Ltd. Address before: 200120 2, building 979, Yun Han Road, mud town, Pudong New Area, Shanghai Applicant before: SHANGHAI LIANSHANG NETWORK TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |