CN111427946A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN111427946A
CN111427946A CN202010297864.XA CN202010297864A CN111427946A CN 111427946 A CN111427946 A CN 111427946A CN 202010297864 A CN202010297864 A CN 202010297864A CN 111427946 A CN111427946 A CN 111427946A
Authority
CN
China
Prior art keywords
data
main line
processing
line data
auxiliary line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010297864.XA
Other languages
English (en)
Inventor
郭庆雷
宋磊
王禹
马宁
黄鑫宇
赵育
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu Internet Information Service Co Ltd
Original Assignee
Beijing Sohu Internet Information Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu Internet Information Service Co Ltd filed Critical Beijing Sohu Internet Information Service Co Ltd
Priority to CN202010297864.XA priority Critical patent/CN111427946A/zh
Publication of CN111427946A publication Critical patent/CN111427946A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种数据处理方法及装置,其中所述数据处理方法,包括:将从各个数据源获取的多个数据,作为待处理数据;根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据;基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市;其中,对所述主线数据和所述辅线数据的处理采用统一的计算规范与统一的统计口径;所述计算规范与所述统计口径基于所述主线数据设置;将所述各个所述主线数据集市和各个所述辅线数据集市进行保存,并提供给外部使用。

Description

数据处理方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据处理方法及装置。
背景技术
对于大部分公司,特别是处于发展初期的公司,存在业务变化快,产品迭代迅速的情况,因此数据的更迭速度和数据量增长较快,这也就造成需要使用数据进行分析的部门需要花费大量的人力、时间和精力用于数据处理。为了便于数据的处理,现在一般通过数据仓库从不同的数据源采集数据,按不同的主题进行汇总计算等处理,以得到不同的部门查看或者使用的数据。
在现有的数据仓库中,基于维度数据构建独立数据集市的数据仓库,即基于项目构建相应的数据集市,每个项目的数据使用单独的数据梳理流程进行数据处理,所以可以灵活处理项目的上线,下线等操作,并且可以根据需要对项目数据进行变更等操作,而对项目外环境无影响,或者影响很小,因此被广泛应用。
但是,如图1所示,这种数据仓库中的每个数据集市的数据获取和处理都是独立的,经常存在有统计口径以及计算逻辑时不统一的情况,所以数据处理架构是无法复用,因此不同数据采用不同的处理方式。所以各个数据集市彼此间也无法直接复用,需要重复进行计算,造成计算冗余以及数据冗余的情况。所以现有数据仓库对数据的处理方法存在明显的复用性较差的问题。
发明内容
基于上述现有技术的不足,本发明提供了一种数据处理方法及装置,以解决现有技术存在数据处理方式及数据复用性较差的问题。
为了实现上述目的,本发明提供了以下技术方案:
本申请一方面提供了一种数据处理方法,包括:
将从各个数据源获取的多个数据,作为待处理数据;
根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据;
基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市;其中,对所述主线数据和所述辅线数据的处理采用统一的计算规范与统一的统计口径;所述计算规范与所述统计口径基于所述主线数据设置;
将各个所述主线数据集市和各个所述辅线数据集市进行保存,并提供给外部使用。
可选地,在上述的数据处理方法中,所述基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市,包括:
基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据;
基于所述主线数据对应的维度数据,利用所述主线汇总数据创建得到多个主题的主线数据集市,以及基于所述辅线数据对应的维度数据,利用所述辅线汇总数据创建得到多个主题的辅线数据集市。
可选地,在上述的数据处理方法中,所述辅线数据包括业务附加需求数据以及临时业务项目数据,所述基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据,包括:
基于所述主线处理流程,对各个所述主线数据进行统一的汇总计算处理得到主线汇总数据,并将所述主线汇总数据存储到存储表中,以及分别对所述业务附加需求数据、所述临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将所述业务附加需求汇总数据及所述临时业务项目汇总数据分别存储到存储表中;其中,所述业务附加需求数据、所述临时业务项目数据分别基于所述辅线处理流程中相应的子处理流程进行汇总计算处理;一张存储表存储的数据属于同一项目,且所述存储表的表名包含所述项目的项目名称。
可选地,在上述的数据处理方法中,所述根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据之前,还包括:
按照预设的统一规则,对各个所述待处理数据进行清洗。
可选地,在上述的数据处理方法中,还包括:
接收临时业务项目的结束消息;其中,所述结束消息包括所述临时业务项目的项目名称;
将与所述临时业务项目的项目名称对应的所述存储表以及所述辅线数据集市进行归档。
本申请另一方面提供了一种数据处理装置,包括:
获取单元,用于将从各个数据源获取的多个数据,作为待处理数据;
划分单元,用于根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据;
处理单元,用于基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市;其中,对所述主线数据和所述辅线数据的处理采用统一的计算规范与统一的统计口径;所述计算规范与所述统计口径基于所述主线数据设置;
应用单元,用于将所述各个所述主线数据集市和各个所述辅线数据集市进行保存,并提供给外部使用。
可选地,在上述的数据处理装置中,所述处理单元,包括:
汇总单元,用于基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据;
整理单元,用于基于所述主线数据对应的维度数据,利用所述主线汇总数据创建得到多个主题的主线数据集市,以及基于所述辅线数据对应的维度数据,利用所述辅线汇总数据创建得到多个主题的辅线数据集市。
可选地,在上述的数据处理装置中,所述辅线数据包括业务附加需求数据以及临时业务项目数据,所述汇总单元,包括:
汇总子单元,用于基于所述主线处理流程,对各个所述主线数据进行统一的汇总计算处理得到主线汇总数据,并将所述主线汇总数据存储到存储表中,以及分别对所述业务附加需求数据、所述临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将所述业务附加需求汇总数据及所述临时业务项目汇总数据分别存储到存储表中;其中,所述业务附加需求数据、所述临时业务项目数据分别基于所述辅线处理流程中相应的子处理流程进行汇总计算处理;一张存储表存储的数据属于同一项目,且存储表的表名包含所述项目的项目名称。
可选地,在上述的数据处理装置中,还包括:
清洗单元,用于按照预设的统一规则,对各个所述待处理数据进行清洗。
可选地,在上述的数据处理装置中,还包括:
接收单元,用于接收临时业务项目的结束消息;其中,所述结束消息包括所述临时业务项目的项目名称;
归档单元,用于将与所述临时业务项目的项目名称对应的所述存储表以及所述辅线数据集市进行归档。
本申请提供的数据处理方法,通过将从各个数据源获取数据获取待处理数据,根据数据所属的项目类型划分为主线数据和辅线数据,然后基于主线处理流程,对主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程述辅线数据进行处理,得到多个主题的辅线数据集市。由于,主线数据和辅线数据的处理采用统一的计算规范与统一的统计口径,计算规范与所述统计口径基于主线数据设置。因此,在保证不同的数据处理遵循相应的处理流程进行处理的前提下,通过统一计算规范与统一的统计口径,保证提供给外部使用的各个主线数据集市和各个辅线数据集市的数据符合统一标准,从而使得数据可以进行复用,对于通用数据不需要进行重复计算,避免了计算冗余和数据冗余,有效的提高了数据以及数据处理方式的复用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据仓库的架构示意图;
图2为本申请另一实施例提供的一种数据处理方法的流程示意图;
图3为本申请另一实施例提供的另一种数据处理方法的流程示意图;
图4为本申请另一实施例提供的另一种数据处理方法的流程示意图;
图5为本申请另一实施例提供的一种数据处理装置的结构示意图;
图6为本申请另一实施例提供的一种处理单元的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请提供了一种数据处理数据方法,已解决现有技术存在的复用性差的问题。
首先需要说明的是,为了实现该方法,本申请实施例提供了一种数据仓库,该数据仓库的架构,如图1所示,包括:贴源数据层101、数据仓库层102以及数据应用层103。
其中,贴源数据层101用于通过统一的数据获取架构(Extract Transform Load,ETL)架构,从多个数据源中获取数据。
数据仓库层102主要用于将待处理数据划分为主线数据和辅线数据,并分别基于相应的处理流程对主线数据和辅线数据进行处理,相应的得到多个主题的主线数据集市以及多个主题的辅线数据集市。
可选的,同样参见图1,数据仓库层102可以包括有明细数据层、数据汇总层、以及数据集市层。其中,明细数据层主要对获取到的待处理数据进行统一的清洗。数据汇总层主要将待处理数据划分为主线数据以及辅线数据,并对待处理数据进行汇总计算处理。其中,主线数据主要包括业务基础相关的数据和长期项目的数据,辅线数据则主要包括业务附加需求数据以及临时项目数据。数据集市层,则是基于维度数据,将汇总计算处理后的主线数据和辅线数据中的临时项目业务项目数据整理为多个主题的数据集市。可选地,可以将项目名称作为主题进行数据整理。
数据应用层103则主要用于将处理得到的数据集市提供给外部,以供外部应用数据。
基于上述提供的数据仓库,本申请另一实施例提供了一种数据处理方法,如图2所示,该方法具体包括:
S201、将从各个数据源获取的多个数据,作为待处理数据。
数据仓库本身就是一个数据集合,由于不同项目的项目数据或者不同部门的数据通常都存储在不同的数据库中, 所以需要从各个数据源获取数据。
具体的,本申请实施例对于所有的项目数据均采用统一的ETL架构,从各个数据源中获取,不再是不同的数据集市分别采用相应的ETL架构获取数据,从而不需要进行ETL架构的重复搭建,减少了对资源的消耗。
S202、根据待处理数据中的每一个数据所属的项目类型,将待处理数据划分为主线数据和辅线数据。
需要说明的是,本申请实施例中,预先将所有的数据划分为主线数据和辅线数据两种数据类型的数据。其中,主线数据主要指的是整体业务长期使用的数据,主要包括长期项目相关的数据以及对业务基本信息的深度汇总数据,例如当前整体业务使用情况,当前业务数据与历史数据对比等。由于这些数据的使用频率、使用时间、以及重要程度等都相对较高,因此将这些数据作为主线数据,从而以这些数据的计算逻辑规范及数据口径等参数为基准建立数据仓库。辅线数据指的就是一些辅助性的数据以及临时的短期项目的相关数据,这些数据使用频率、使用时间、以及作用等都相对较低,所以作为辅线数据。
可选地,管理人员可以根据数据的用途、时效等信息将数据划分为不同的项目类型。其中,项目类型可以包括长期项目数据、业务基本信息、临时项目数据、附加需求数据等,具体可以根据需求进行划分。然后,可以预先设置好项目类型与数据类型的关系,从而可以根据待处理数据中的每一个数据所属的项目类型,将待处理数据划分为主线数据和辅线数据。例如,属于长期项目数据的待处理数据都被划分为主线数据,而属于临时项目的待处理数据都被划分为辅线数据。
可选地,在将待处理数据划分为主线数据和辅线数据后,可以对存储主线数据的所有存储表,使用特定名称对存储表进行标注。对于存储辅线数据的存储表则可以将项目的名称作为存储表的表名的组成部分之一,即所设置的存储表的名称中包含有项目的名称,便于与主线数据进行区分。
可选地,在本申请另一实施例中,在执行步骤S202之前,还可以先执行如下步骤:按照预设的统一规则,对各个待处理数据进行清洗。
也就是,在将待处理数据进行划分,并且进行正式的汇总计算处理前,需要对数据进行初步的处理,从而可以将一些冗余数据以及错误数据剔除,并对数据进行整理得到明细数据。
S203、基于主线处理流程,对主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对辅线数据进行处理,得到多个主题的辅线数据集市。
其中,数据集市也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照设置的多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体,即可以简单的理解为一种基于多个维度的数据存储方式。
具体的,为了保证了数据输出的一致性,所以本申请实施例提供的数据处理方法中,采用了统一的计算规范与统计口径,即主线数据和辅线数据的处理采用统一的计算规范与统一的统计口径。从而使得数据可以进行复用,避免出现计算冗余和数据冗余,也提高了数据仓库的健壮性。
由于数据仓库大量处理的处理数据以及用户主要使用的数据为主线数据,所以所采用的计算规范与统计口径基于主线数据进行设置。
需要说明的是,统一的是计算规范与统计口径,但是不同的数据的统计、计算要求不同,所要求输出结果是不同的,所以不同数据还是分别遵循相应的处理流程对数据进行处理。因此,本申请实施例中,主线数据基于主线处理流程进行处理,辅线数据则基于辅线处理流程进行处理,从而得到相应的数据集市,保证了数据仓库的灵活性。其中,主线处理流程以及辅线处理流程可根据实际的数据处理需求进行设置,并且主线流程以及辅线处理流程下,还可以根据不同的具体数据设置有子处理流程。
可选地,本申请另一实施例中,步骤S203的一种实施方法,如图3所示,包括:
S301、基于主线处理流程,对主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于辅线处理流程,对辅线数据进行相应的汇总计算处理,得到辅线汇总数据。
具体的,对数据进行汇总计算处理主要包括对数据根据需求进行清洗、格式转换、类型转换、统计计算等工作。具体需要进行的处理,可根据输出的数据的需求进行设置。
可选地,本申请另一实施例中,辅线数据包括业务附加需求数据以及临时业务项目数据,其中步骤S301的一种具体实施方式,包括:
基于主线处理流程,对各个主线数据进行统一的汇总计算处理得到主线汇总数据,并将主线汇总数据存储到存储表中,以及分别对业务附加需求数据、临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将业务附加需求汇总数据及临时业务项目汇总数据分别存储到存储表中。
需要说明的是,在本申请实施例中,主线数据主要包括长期项目的数据,该部分的数据确定未来将长时间存在,且不存在明显的失效期限。一般为业务基础项目以及基本架构等相关的数据。辅线数据包括业务附加需求数据以及临时业务项目数据。其中,业务附加需求数据主要指的是计算过程不具有明确的业务含义,其结果主要用于辅助其他业务数据分析的数据。由于这部分数据后续是否还需要继续使用无法准确的确定,所以通常不存在确定的失效期限。主要包括数据监控、独立业务分析过程产生的数据等。
临时业务项目数据则指的是临时的短期项目的相关数据,例如推广、促销、短期数据查询等项目的数据,这部分数据存在确定的失效期限。
具体的,所有的主线数据统一进行处理汇总计算处理,得到主线汇总数据。但是对于其中部分特有数据,需要独立存储并通过相应的标识进行标注。而由于两类辅线数据的差别比较大,需要分别单独进行处理,所以业务附加需求数据、临时业务项目数据分别基于辅线处理流程中相应的子处理流程进行汇总计算处理,并且处理后的数据需要分别进行存储。
可选地,对于汇总计算处理后的得到数据存储,一张存储表存储的数据属于同一项目,且存储表的表名包含数据对应项目的项目名称。
S302、基于主线数据对应的维度数据,利用主线汇总数据创建得到多个主题的主线数据集市,以及基于辅线数据对应的维度数据,利用辅线汇总数据创建得到多个主题的辅线数据集市。
具体的,分别基于相应的维度数据,对主线汇总数据以及辅线汇总数据中的临时业务项目汇总数据进行整理,将这些数据整理为多个主题的辅线数据集市。其中在整理过程中,若业务附加需求汇总数据为主线汇总数据中的部分数据的属性,则将这部分主线汇总数据和相应的业务附加需求汇总数据进行合并。
可选地,若主线数据集市和辅线数据集市存在重合的主题,则通过设置项目名称将两者进行区分。
S204、将各个主线数据集市和各个辅线数据集市进行保存,并提供给外部使用。
可选地,本申请另一实施例中,在执行步骤S204之后,如图4所示,还可以进一步包括如下步骤:
S401、接收临时业务项目的结束消息,结束消息包括临时业务项目的项目名称。
由于临时业务项目的期限都比较短,所以在临时业务项目的结束后,用户通过前端发送临时业务项目的结束消息,以对临时业务项目的相关数据进行归档。
S402、将与临时业务项目的项目名称对应的存储表以及辅线数据集市进行归档。
由于,临时业务项目已结束,现阶段该临时业务项目的相关数据都不会用到,所以对临时业务项目的相关数据进行归档,避免占有资源也便于后续的回溯。
本申请实施例提供的数据处理方法,通过将从各个数据源获取数据获取待处理数据,根据数据所属的项目类型划分为主线数据和辅线数据,然后基于主线处理流程,对主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程述辅线数据进行处理,得到多个主题的辅线数据集市。由于,主线数据和辅线数据的处理采用统一的计算规范与统一的统计口径,并且计算规范与统计口径基于主线数据设置。因此,在保证不同的数据处理遵循相应的处理流程进行处理的前提下,通过统一计算规范与统一的统计口径,保证提供给外部使用的各个主线数据集市和各个辅线数据集市的数据符合统一标准,从而使得数据可以进行复用,对于通用数据不需要进行重复计算,避免了计算冗余和数据冗余,并且数据处理架构可以复用,解决了现有的数据处理方法复用性较差的问题。
本申请另实施例提供了一种数据处理装置,如图5所示,包括:
获取单元501,用于将从各个数据源获取的多个数据,作为待处理数据。
划分单元502,用于根据待处理数据中的每一个数据所属的项目类型,将待处理数据划分为主线数据和辅线数据。
处理单元503,用于基于主线处理流程,对主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对辅线数据进行处理,得到多个主题的辅线数据集市。
其中,对主线数据和辅线数据的处理采用统一的计算规范与统一的统计口径。计算规范与统计口径基于主线数据设置。
应用单元504,用于将各个主线数据集市和各个辅线数据集市进行保存,并提供给外部使用。
需要说明的是,本身实施例中的上述单元的具体工作过程可相应地参考上述方法实施例中的步骤S201~步骤S204,此处不再赘述。
本申请实施例提供的数据处理装置,通过划分单元将获取单元从各个数据源获取数据获取待处理数据,根据数据所属的项目类型划分为主线数据和辅线数据,然后处理单元分别基于主线处理流程,对主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程述辅线数据进行处理,得到多个主题的辅线数据集市。由于,主线数据和辅线数据的处理采用统一的计算规范与统一的统计口径,并且计算规范与统计口径基于主线数据设置。因此,在保证不同的数据处理遵循相应的处理流程进行处理的前提下,通过统一计算规范与统一的统计口径,保证了应用单元提供给外部使用的各个主线数据集市和各个辅线数据集市的数据符合统一标准,从而使得数据可以进行复用,对于通用数据不需要进行重复计算,避免了计算冗余和数据冗余,并且数据处理架构可以复用,解决了现有技术复用性较差的问题。
可选地,本申请另一实施例的数据处理装置中的处理单元503,如图6所示,包括:
汇总单元601,用于基于主线处理流程,对主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于辅线处理流程,对辅线数据进行相应的汇总计算处理,得到辅线汇总数据。
整理单元602,用于基于主线数据对应的维度数据,利用主线汇总数据创建得到多个主题的主线数据集市,以及基于辅线数据对应的维度数据,利用辅线汇总数据创建得到多个主题的辅线数据集市。
需要说明的是,本身实施例中的上述单元的具体工作过程可相应地参考上述方法实施例中的步骤S301~步骤S302,此处不再赘述。
可选地,本申请另一实施例的数据处理装置中的汇总单元601,包括:
汇总子单元,用于基于主线处理流程,对各个主线数据进行统一的汇总计算处理得到主线汇总数据,并将主线汇总数据存储到存储表中,以及分别对业务附加需求数据、临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将业务附加需求汇总数据及临时业务项目汇总数据分别存储到存储表中。
其中,业务附加需求数据、临时业务项目数据分别基于辅线处理流程中相应的子处理流程进行汇总计算处理。一张存储表存储的数据属于同一项目,且存储表的表名包含项目的项目名称。
可选地,本申请另一实施例的数据处理装置中,还可以进一步包括:
清洗单元,用于按照预设的统一规则,对各个待处理数据进行清洗。
可选地,本申请另一实施例的数据处理装置中,还可以进一步包括:
接收单元,用于接收临时业务项目的结束消息。
其中,结束消息包括临时业务项目的项目名称。
归档单元,用于将与临时业务项目的项目名称对应的存储表以及辅线数据集市进行归档。
需要说明的是,本身实施例中的上述单元的具体工作过程可相应地参考上述方法实施例中的步骤S401~步骤S402,此处不再赘述。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
将从各个数据源获取的多个数据,作为待处理数据;
根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据;
基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市;其中,对所述主线数据和所述辅线数据的处理采用统一的计算规范与统一的统计口径;所述计算规范与所述统计口径基于所述主线数据设置;
将各个所述主线数据集市和各个所述辅线数据集市进行保存,并提供给外部使用。
2.根据权利要求1所述的方法,其特征在于,所述基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市,包括:
基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据;
基于所述主线数据对应的维度数据,利用所述主线汇总数据创建得到多个主题的主线数据集市,以及基于所述辅线数据对应的维度数据,利用所述辅线汇总数据创建得到多个主题的辅线数据集市。
3.根据权利要求2所述的方法,其特征在于,所述辅线数据包括业务附加需求数据以及临时业务项目数据,所述基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据,包括:
基于所述主线处理流程,对各个所述主线数据进行统一的汇总计算处理得到主线汇总数据,并将所述主线汇总数据存储到存储表中,以及分别对所述业务附加需求数据、所述临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将所述业务附加需求汇总数据及所述临时业务项目汇总数据分别存储到存储表中;其中,所述业务附加需求数据、所述临时业务项目数据分别基于所述辅线处理流程中相应的子处理流程进行汇总计算处理;一张存储表存储的数据属于同一项目,且所述存储表的表名包含所述项目的项目名称。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据之前,还包括:
按照预设的统一规则,对各个所述待处理数据进行清洗。
5.根据权利要求3所述的方法,其特征在于,还包括:
接收临时业务项目的结束消息;其中,所述结束消息包括所述临时业务项目的项目名称;
将与所述临时业务项目的项目名称对应的所述存储表以及所述辅线数据集市进行归档。
6.一种数据处理装置,其特征在于,包括:
获取单元,用于将从各个数据源获取的多个数据,作为待处理数据;
划分单元,用于根据所述待处理数据中的每一个数据所属的项目类型,将所述待处理数据划分为主线数据和辅线数据;
处理单元,用于基于主线处理流程,对所述主线数据进行处理,得到多个主题的主线数据集市,以及基于辅线处理流程对所述辅线数据进行处理,得到多个主题的辅线数据集市;其中,对所述主线数据和所述辅线数据的处理采用统一的计算规范与统一的统计口径;所述计算规范与所述统计口径基于所述主线数据设置;
应用单元,用于将各个所述主线数据集市和各个所述辅线数据集市进行保存,并提供给外部使用。
7.根据权利要求6所述的装置,其特征在于,所述处理单元,包括:
汇总单元,用于基于所述主线处理流程,对所述主线数据进行相应的汇总计算处理,得到主线汇总数据,以及基于所述辅线处理流程,对所述辅线数据进行相应的汇总计算处理,得到辅线汇总数据;
整理单元,用于基于所述主线数据对应的维度数据,利用所述主线汇总数据创建得到多个主题的主线数据集市,以及基于所述辅线数据对应的维度数据,利用所述辅线汇总数据创建得到多个主题的辅线数据集市。
8.根据权利要求7所述的装置,其特征在于,所述辅线数据包括业务附加需求数据以及临时业务项目数据,所述汇总单元,包括:
汇总子单元,用于基于所述主线处理流程,对各个所述主线数据进行统一的汇总计算处理得到主线汇总数据,并将所述主线汇总数据存储到存储表中,以及分别对所述业务附加需求数据、所述临时业务项目数据进行相应的汇总处理,得到业务附加需求汇总数据及临时业务项目汇总数据,并将所述业务附加需求汇总数据及所述临时业务项目汇总数据分别存储到存储表中;其中,所述业务附加需求数据、所述临时业务项目数据分别基于所述辅线处理流程中相应的子处理流程进行汇总计算处理;一张存储表存储的数据属于同一项目,且所述存储表的表名包含所述项目的项目名称。
9.根据权利要求6所述的装置,其特征在于,还包括:
清洗单元,用于按照预设的统一规则,对各个所述待处理数据进行清洗。
10.根据权利要求8所述的装置,其特征在于,还包括:
接收单元,用于接收临时业务项目的结束消息;其中,所述结束消息包括所述临时业务项目的项目名称;
归档单元,用于将与所述临时业务项目的项目名称对应的所述存储表以及所述辅线数据集市进行归档。
CN202010297864.XA 2020-04-16 2020-04-16 数据处理方法及装置 Pending CN111427946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010297864.XA CN111427946A (zh) 2020-04-16 2020-04-16 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010297864.XA CN111427946A (zh) 2020-04-16 2020-04-16 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN111427946A true CN111427946A (zh) 2020-07-17

Family

ID=71556434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010297864.XA Pending CN111427946A (zh) 2020-04-16 2020-04-16 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111427946A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860659A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843880A (zh) * 2016-03-21 2016-08-10 中国矿业大学 一种基于多数据集市的煤矿多维数据仓库系统
WO2016184192A1 (zh) * 2015-05-21 2016-11-24 中兴通讯股份有限公司 数据处理方法及装置
CN106294521A (zh) * 2015-06-12 2017-01-04 交通银行股份有限公司 数据存储方法及数据仓库系统
US20180081953A1 (en) * 2016-09-21 2018-03-22 idea5, LLC System, computer-implemented method, and computer program for improving access to and usefulness of data for business intelligence
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016184192A1 (zh) * 2015-05-21 2016-11-24 中兴通讯股份有限公司 数据处理方法及装置
CN106294521A (zh) * 2015-06-12 2017-01-04 交通银行股份有限公司 数据存储方法及数据仓库系统
CN105843880A (zh) * 2016-03-21 2016-08-10 中国矿业大学 一种基于多数据集市的煤矿多维数据仓库系统
US20180081953A1 (en) * 2016-09-21 2018-03-22 idea5, LLC System, computer-implemented method, and computer program for improving access to and usefulness of data for business intelligence
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860659A (zh) * 2021-01-18 2021-05-28 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质
CN112860659B (zh) * 2021-01-18 2023-09-01 北京奇艺世纪科技有限公司 数据仓库的构建方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
EP2702510B1 (en) Joining tables in a mapreduce procedure
WO2020155651A1 (zh) 存储、查询日志信息的方法、装置
CN111950921A (zh) 一种基于离线组网环境的多人协同评审方法
CN111159161A (zh) 基于etl规则的数据质量监控及预警系统和方法
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN102156744A (zh) 一种内存话单剔重方法
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN104965846B (zh) MapReduce平台上的虚拟人建立方法
CN107169003B (zh) 一种数据关联方法及装置
CN111427946A (zh) 数据处理方法及装置
CN110276609B (zh) 业务数据处理方法及装置、电子设备、计算机可读介质
CN105512270B (zh) 一种确定相关对象的方法和装置
CN117076692A (zh) 一种档案在线管理方法及系统
CN116701355A (zh) 数据视图处理方法、装置、计算机设备及可读存储介质
CN116089417A (zh) 信息获取方法、装置、存储介质及计算机设备
CN115391432A (zh) 司法大数据处理方法、系统、服务器及存储介质
CN110750509A (zh) 一种企业名称查重方法及装置、设备、介质
CN116204540A (zh) 操作日志记录方法、装置、设备及存储介质
CN113254457B (zh) 一种对账方法、系统及计算机可读存储介质
CN112214494B (zh) 检索方法及装置
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN112395343B (zh) 一种基于dsg的字段变更数据采集抽取方法
CN111143329B (zh) 一种数据处理方法及装置
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
CN110263028B (zh) 一种应用于搜索服务的全量同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination