CN107657049B - 一种基于数据仓库的数据处理方法 - Google Patents

一种基于数据仓库的数据处理方法 Download PDF

Info

Publication number
CN107657049B
CN107657049B CN201710938485.2A CN201710938485A CN107657049B CN 107657049 B CN107657049 B CN 107657049B CN 201710938485 A CN201710938485 A CN 201710938485A CN 107657049 B CN107657049 B CN 107657049B
Authority
CN
China
Prior art keywords
data
layer
integration
atomic layer
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710938485.2A
Other languages
English (en)
Other versions
CN107657049A (zh
Inventor
黎仁全
唐明辉
李邱林
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201710938485.2A priority Critical patent/CN107657049B/zh
Publication of CN107657049A publication Critical patent/CN107657049A/zh
Application granted granted Critical
Publication of CN107657049B publication Critical patent/CN107657049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于数据仓库的数据处理方法。所述方法,包括:原子层获取结构化的第一数据;原子层按照预设形式,对第一数据进行组织归类,获得第二数据;原子层对组织归类后的第二数据进行分区存储;原子层将第二数据更新至整合层;整合层根据预设的整合规则,对第二数据进行合并处理,生成第三数据并存储。原子层通过按照预设形式,对第一数据进行组织归类,能够有效地避免数据冗余、数据缺失等情况带来的数据不一致,减少维护成本。通过对组织归类后的第一数据进行分区存储,便于对信息进行溯源。整合层通过对第二数据进行合并处理,能够使多源数据整合成唯一的信息,进而消除数据的多义性,保证数据具有唯一准确性。

Description

一种基于数据仓库的数据处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于数据仓库的数据处理方法。
背景技术
随着公司在大数据城市项目的扩张计划和部署,大数据城市数据仓库项目将是每一个城市的基石项目,它是所有其它数据项目的倍增器和助推器。
现有技术中,数据仓库往往会有数据冗、数据缺失等情况,进而会造成数据不一致,增加维护成本;另外,数据仓库的数据往往来源庞杂,数据具有多义性,数据仓库的准确性较低。
发明内容
针对现有技术中的上述缺陷,本发明提供了一种基于数据仓库的数据处理方法及系统,可以有效避免数据冗余、数据缺失等情况带来的数据不一致,降低维护成本,同时,能够消除数据的多以性,进而增加数据仓库的准确性。
本发明提供的一种基于数据仓库的数据处理方法,包括:
原子层获取结构化的第一数据;
所述原子层按照预设形式,对所述第一数据进行组织归类,获得第二数据;
所述原子层对组织归类后的所述第二数据进行分区存储;
所述原子层将所述第二数据更新至整合层;
所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储。
可选的,所述原子层对组织归类后的所述第一数据进行分区存储,包括:
所述原子层根据数据来源、数据周期、业务分类、关系类型中的一种或多种,对组织归类后的所述第一数据进行分区存储。
可选的,在所述整合层根据预设的整合规则,对所述第二数据进行合并处理的步骤之前,还包括:
所述整合层根据数据的非空优先原则、数据的优先级、数据的时效性、少数服从多数原则、常识性中的一种或多种,建立整合规则。
可选的,在所述建立整合规则的步骤之后,还包括:
所述整合层获取样本数据;
根据所述样本数据,对建立的所述整合规则进行验证;若验证通过,则执行所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储的步骤;
若验证没有通过,则重新执行所述整合层根据数据的权威性、及时性、少数服从多数原则、常识性中的一种或多种,建立整合规则的步骤。
可选的,在所述原子层获取结构化的第一数据的步骤之前,还包括:
缓冲层缓存结构化的不同来源的源数据;并对所述源数据添加时间戳,生成缓冲数据,并存储;
所述缓冲层将所述缓冲数据更新至贴源层;
所述贴源层对所述缓冲数据进行标准化处理,生成第一数据,并存储。
可选的,还包括:
所述原子层根据预设时间周期,将所述第二数据发送给大数据库;
所述大数据库对所述第二数据进行存储。
可选的,还包括:
所述原子层根据预设时间,覆盖更新所述第二数据的资料类数据。
可选的,还包括:
所述原子层实时获取所述第一数据的增量数据;
根据所述增量数据对所述第二数据进行更新。
可选的,还包括:
所述整合层将所述第三数据更新至集市层;
所述集市层通过关联方式,拼接所述第三数据中的片段表,生成基础宽表。
可选的,还包括:
所述集市层根据所述基础宽表,生成统计指标表。
由以上技术方案可知,本发明提供一种基于数据仓库的数据处理方法,包括:原子层获取结构化的第一数据;所述原子层按照预设形式,对所述第一数据进行组织归类,获得第二数据;所述原子层对组织归类后的所述第二数据进行分区存储;所述原子层将所述第二数据更新至整合层;所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储。原子层通过按照预设形式,对第一数据进行组织归类,能够有效地避免数据冗余、数据缺失等情况带来的数据不一致,减少维护成本。通过对组织归类后的第一数据进行分区存储,便于对信息进行溯源,便于信息管理。整合层通过对第二数据进行合并处理,能够使多源数据整合成唯一的信息,进而消除数据的多义性,保证数据具有唯一准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
图1示出了本发明实施例提供一种基于数据仓库的数据处理方法的流程图;
图2示出了本发明实施例提供一种基于数据仓库的数据处理方法的数据流程图;
图3示出了本发明实施例提供一种基于数据仓库的数据处理方法的数据架构示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
本发明提供了一种基于数据仓库的数据处理方法。下面结合附图对本发明的实施例进行说明。
图1示出了本发明实施例所提供的一种基于数据仓库的数据处理方法的流程图。图2示出了本发明实施例提供一种基于数据仓库的数据处理方法的数据流程图。如图1所示,本发明实施例提供的一种基于数据仓库的数据处理方法包括以下步骤:
步骤S101:原子层获取结构化的第一数据。
步骤S102:所述原子层按照预设形式,对所述第一数据进行组织归类,获得第二数据。
步骤S103:所述原子层对组织归类后的所述第二数据进行分区存储。
步骤S104:所述原子层将所述第二数据更新至整合层。
步骤S105:所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储。
其中,第一数据指获取原始数据后没有经过组织归类处理的结构化的数据。第一数据可以采用数据表、数字等的结构形式。
原子层通过按照预设形式,对第一数据进行组织归类,能够有效地避免数据冗余、数据缺失等情况带来的数据不一致,减少维护成本。通过对组织归类后的第一数据进行分区存储,便于对信息进行溯源,便于信息管理。整合层通过对第二数据进行合并处理,能够使多源数据整合成唯一的信息,进而消除数据的多义性,保证数据具有唯一准确性。
在本发明中,可以将数据仓库分为:缓冲层、贴源层、原子层、整合层、集市层和应用层。如图3所示。
通常,原子层获取的第一数据的信息源较多,粒度较细,甚至各来源的数据都没有做任何合并处理,各源的数据保持完全独立。反映在数据列上,则是指组织这些信息的数据表包含的属性比较小,如人的信息会拆分到各个片段或阶段,如人可分为基本信息、关系信息、联系方式信息、联系地址信息(包括户籍、居住和工作地址,与地址库、房屋库可关联)、教育信息、婚姻信息、生育信息、就业信息(与法人库可关联)、保障信息、公积金信息、名下房产、名下车产、名下企业(与法人库可关联)、良好记录、不良记录、死亡信息等。
由于第一数据一般来自多源,并且粒度比较细,数据量非常大,因此,需要对组织归类后的第一数据按分区存储,便于管理。
在本发明提供的一个具体实施例中,所述原子层对组织归类后的所述第一数据进行分区存储,包括:所述原子层根据数据来源、数据周期、业务分类、关系类型中的一种或多种,对组织归类后的所述第一数据进行分区存储。
例如:如人的基本信息表,是按数据来源分区的;人的社会关系,由于关系有多种,并且每种关系又有多源,则需要使用关系类型与来源组合分区(关系类型主分区,数据来源子分区)的方式保存;而社保缴纳情况,则只来自社保缴纳信息,但需要按时间周期(如按月)分区保存,也就是按数据周期来进行分区保存。
在分区存储过程中,需要将数据来源标识单独存一列保存。这样能够便于对数据信息进行溯源。
例如,原子层有以下分区可以来存储第一数据:基本信息、教育信息、婚姻信息、工作信息、关系信息、联系信息、居住信息、企业信息、证照信息等。
在本发明中,原子层可以实时获取第一数据的增量数据,并根据增量数据对第二数据进行更新。同时,可以将增量数据按照时间周期定期将数据快照同步到大数据库中,也可以将更新后的第二数据按照时间周期定期将数据快照同步到大数据库中,方便后续查找。
例如,每月底转存一份第二数据的历史快照到大数据库,每天把增量更新的数据同步到大数据库中。
在获取第一数据的增量数据后,也需要按照预设形式,对增量数据进行组织归类,并对组织归类后的数据分区存储,进而实现对第二数据的更新。
在本发明中,原子层还可以根据预设时间,覆盖更新第二数据的资料类数据。进而提高数据的资料类数据的可靠性。
例如,每月或每周更新一次第二数据的资料类数据。
在本发明中,还可以实时获取非结构化数据,并将非结构化数据存储到所述大数据库中的非结构化数据库中。
可以通过生成键值对的方式,直接将非结构化数据流转到非结构化数据库中去。
在本发明提供的一个具体实施例中,在所述原子层获取不同来源的第一数据的步骤之前,还包括:缓冲层缓存结构化的不同来源的源数据;并对所述源数据添加时间戳,生成缓冲数据,并存储;所述缓冲层将所述缓冲数据更新至贴源层;所述贴源层对所述缓冲数据进行标准化处理,生成第一数据,并存储。
在本发明中,缓冲层是块数据库的数据入口,缓冲层可以从源系统中获取结构化的不同来源的源数据,并进行缓存。
通过缓存源系统中的源数据,可以使贴源层直接从缓存层中获取数据,可以防止后端数据处理出错时,再次执行时反复重抽会给源系统带来不必要的麻烦;同时,可以防止二次抽取数据时,因为源系统更新导致已经找不到当时数据的快照。
通过对源数据添加时间戳,可以使贴源层直接根据时间戳重新抽取数据,方便贴源层对数据的抽取;同时,可以在缓冲层按照时间对源数据进行记录;另外,这个时间戳还用于贴源层抽取数据时识别增量数据。因此,缓冲层的数据表模型与源系统完全一致。缓冲层在源表基础上不做任何额外修改,只增加一个数据装载时间标识,这个时间标识(可用SYS_UPDATE_TIME)用于贴源层抽取数据时识别增量数据。
例如:缓冲层并没有做数据修改,只增加了一个数据插入的时间列,以标识数据生成时间,并以此时间来对缓存数据进行循环分区存放,并用它做增量抽取字段。
在对源数据增加时间戳时,在增加的时间增量字段上填充系统时间作为数据产生时间。数据可以采用追加模式存放,设置循环分区,如果是保留7天的数据,那就按周形成一个循环分区,如果当天为周一,那么就会覆盖上周一的数据,依此递推,每周几就会覆盖上周几的数据。
缓存层可根据实际情况可以将缓存数据存储在不同的主机上,特别是在有内外网隔离安全的情况下,中间用一台主机来保存第一数据,即保证了数据的安全,又可以起到桥接不同网络的作用。
在对缓存数据进行保存时,可以保存一定周期的数据,以保障在短期内数据处理出现错误时可重复抽取,因此,一般对第一数据进行存放时,采用如下策略:按分钟同步更新,保持一天的第一数据;按时更新数据,保存三天的第一数据;按日更新数据,保存7天的第一数据;按月更新数据,保存三个月的第一数据。一次性、拷盘或按年更新的数据,只有在存储空间不足够并且数据已经确认在贴源层保留时,再清理缓存层中的缓存数据。
缓冲层可以从源系统中定期(或不定期)同步结构化数据过来,形成一定周期(7个或30个时间循环分区)的数据。通常,从源系统抽取数据是通过时间增量方式同步过来的,当然也可以通过增量标识,解析数据库日志,全量抽取数据后比对的方式,来同步源数据到缓冲层。
缓冲层的数据准备好后,贴源层会定期从缓冲层同步数据过去。
在本发明中,贴源层可以对添加时间戳的源数据进行标准化处理,生成第一数据,并存储。
通过对数据进行标准化处理,可以保证数据以同一套标准来表达。
同时,还可以对添加时间戳的源数据和第一数据进行历史归档,通过对其进行历史归档,可以保证数据随时可做历史分析和对比。
其中,标准化处理可以包括:数据清洗、转换、编码映射等。对于编码映射的过程,需要用到大量的数据元标准,而很多标准是可能已经有现在的国家、地方或行业标准的,如性别、婚姻状况、学历等,有些编码,这些可以直接参考已有的标准,再将源数据的编码映射到标准编码即可。如果没有可参考的标准,则需要为这些数据制订标准,以便在多源数据合并时,提供统一的标准。
对数据进行历史归档,就是数据的历史拉链数据存储到贴源层。在本发明中,贴源层还可以将生成的第一数据同步到大数据库中,利用大数据库将所有历史版本的数据保存起来。
在数据进行标准化处理时,映射列并不会覆盖原来的列,而是新增对应列来保存映射后的属性信息,并不删除原有的信息,是直接增加新的转换后的字段。
在对数据进行标准化处理后,还可以包括:对标准化处理后的数据进行实时更新。
在更新数据时,可以采用覆盖更新,只保留一份最新的数据。
贴源层的数据要保证数据仓库的数据具有历史性,因此,它会保存较长的数据周期(通常为三年)来保存历史的拉链数据,这一层的数据在贴源层中又叫历史层。它存储数据是追加的方式,并不覆盖数据,同时会通过标准化映射过程生成标准化数据,最后按数据的更新频率分区保存,一旦数据需要重抽,只需要先清空当前分区数据,再根据时间戳加载就需要重抽的数据。
另外,由于块数据库的数据来源广泛,各类来源数据标准完全不统一,因此在历史层之上,还包括标准层,标准层可以通过标准化映射过程生成标准化数据。标准层的数据更新并不是追加模式,而是覆盖更新模式。同时,贴源层的映射列并不会覆盖原来的列,而是新增对应列来保存映射后的属性信息。
在本发明中,所述贴源层也与大数据库连接;贴源层可以将第一数据存储到大数据库中,方便对于海量的历史数据的记录和分析。
由于贴源层的历史层随着系统的运营越来越大,空间的扩大不仅对存储提出了高要求,也对传统的结构化数据库(如Oracle)造成了很大的压力,因此,历史数据的存储必须要有一定的周期,如一年或三年,否则,整个库将变得臃肿不堪。通过将归档的数据直接导入大数据库中,既保证了数据安全,同时对于海量的历史数据分析,也变得特别容易。
而标准层的数据,由于采用覆盖更新模式,因此,它只保留一份最新的数据。
例如:
标准化之前的数据:
Figure BDA0001426589000000091
标准化之后的数据:
Figure BDA0001426589000000092
在本发明中,贴源层的第一数据可以直接供给外部应用,也可以同步到原子层,因此,贴源层的第一数据不仅可以提供给应用层,还可以提供给原子层,这都在本发明的保护范围内。
在本发明中,整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储。
通过对第二数据进行合并处理,能够使多源数据整合成唯一的信息,进而消除数据的多义性,保证数据具有唯一准确性。
例如,人的婚姻信息是某种确定的状态,如未婚、初婚、再婚、复婚、离婚、丧偶等中的某一种状态,第二数据中对于同一个人可能会包含有多源的不同状态的数据,这就需要对数据进行整合,获得唯一的、准确的数据。只有每种属性的状态确定了,才能支撑各类应用场景。
在本发明中,在所述整合层根据预设的整合规则,对所述第二数据进行合并处理的步骤之前,还包括:所述整合层根据数据的非空优先原则、数据的优先级、数据的时效性、少数服从多数原则、常识性中的一种或多种,建立整合规则。
例如,数据的优先级可以是数据的权威性,如婚姻信息,从权威性来说,民政部门应该是最权威的;数据的时效性,主要是指数据的最近更新时间,如某人的婚姻来自民政部门,但已经一年没更新了,虽然它的信息权威性比较高,但时效性已经比较差,也不一定是准确的;少数服从多数原则,如政治面貌(没有权威源)总共取自10个源的数据,其中有9个源确定为团员,只有一个源登记为党员,则结果很可能以9个源的结果为准;常识性,如所有学历取最大学历作为某人学历,婚姻状况会结合年龄综合判断,如年龄18岁以下的人,不可能婚姻状态是已婚等。
在本发明中,在所述建立整合规则的步骤之后,还包括:所述整合层获取样本数据;根据所述样本数据,对建立的所述整合规则进行验证;若验证通过,则执行所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储的步骤;若验证没有通过,则重新执行所述整合层根据数据的权威性、及时性、少数服从多数原则、常识性中的一种或多种,建立整合规则的步骤。
对第二数据中每一项数据进行合并时,整合规则都通过足够的样本验证,以确定数据整合的准确性。
通过一定的样本验证后,肯定可以确定某一种规则是最有效的,因此,每一种规则的确定,都需要大量的数据验证。
其中,样本数据可以是第二数据中的部分数据。可以通过样本数据符合整合规则的概率,来判断整合规则是否能作为最优整合规则。
若样本数据的符合率小于预设阈值,则表明该整合规则的准确性不高,不能作为最优的整合规则,验证不通过;若样本数据的符合率不小于预设阈值,则表明该整合规则的准确性较高,可以作为最优的整合规则,验证通过。
其中,整合规则需要经过反复验证,只有在若干规则中准确性最高的规则,才能作为最优规则。
在本发明中,在对第二数据进行合并,得到第三数据的过程中,可以是表对表的过程。在数据合并时,会衍生出很多标签或统计信息。如针对某人的电话号码,就可以衍生出如下指标:最早登记时间,最近登记时间,被多少个来源登记过,曾经被哪些人作为登记联系方式,在所有人中被最早登记的时间等。通过对整合规则进行优化,能够得到较准确的衍生出的指标值。
第二数据经过整合后,数据量一般可控制在千万级以内,因此,不需要分区存储,但合并的属性需要增加来源,以及该属性更新对应的业务时间,除了更方便溯源以外,还因为通常属性的合并是依赖于数据的来源优先级、更新时间来确定的,这样在增量数据合并时,还可通过同样的规则将增量数据进行合并。
在本发明中,整合后生成的第三数据的资料类数据,也可以按照预设时间进行覆盖更新。
在本发明中,还可以根据预设的整合规则,对第二数据的增量数据进行整合,生成第三数据的增量数据。
在本发明中,可以将第三数据存储到大数据库中,也可以将第三数据的增量数据同步到大数据库中。可以按照某种周期定期将数据快照同步到大数据库中。例如,每月底转存一份第三数据的历史快照到大数据库中,每天把增量更新的数据同步到大数据库中,可以方便后续对数据的溯源。
在本发明提供的一个具体实施例中,还可以包括:所述整合层将所述第三数据更新至集市层;所述集市层通过关联方式,拼接所述第三数据中的片段表,生成基础宽表。
在本发明中,可以根据应用需要,通过关联方式,拼接第三数据中的片段表,进而生成基础宽表,进而为各类应用需要提供的较基础宽表,进而减少应用过程中的重复计算。
在本发明提供的一个具体实施例中,还可以包括:所述集市层根据基础宽表,生成统计指标表。通过生成统计指标表,能够减少应用过程中的重复计算。
例如,统计分析的宽表,会将一些统计分析所需求的基础属性,如性别、年龄、籍贯、政治面貌、婚姻状况、户籍、居住区域、工作区域、五险状态、最近缴纳社保时间、公积金状态、最近缴纳公积时间等多达50多个属性、标签或统计指标,通过这些维度、指标和组合,可以进行多样化的统计分析应用,而挖掘基础宽表更是多达150多个字段。
在本发明中,集市层可以分有多个集市分区,方便数据应用。
例如,集市层可以有证照集市、民生服务集市、经济产业集市、统计分析集市、挖掘分析集市等。
集市层的数据,即有按时间周期分区保存的数据,这种数据是追加式插入数据。另一类数据(主要是基础资料类)覆盖是更新,与整合区的存储方法保持一致。
在本发明中,应用层可以从贴源层、原子层、整合层、集市层中的任何一层获取数据,但是绝大多数据应该来自集市层。应用层可以通过数据服务接口的模式给外部应用提供数据支撑。
另外,应用层的数据也要归档到大数据库中,做历史归档。
在本发明中,大数据库可以包括历史数据库,非结构化数据库,图数据库,日志库等,这都在本发明的保护范围内。
应用层可以通过数据服务接口的模式给外部应用提供数据支撑,用户在应用数据时,可以从应用层获取,也可以从大数据库中获取得到,这都在本发明的保护范围内。
在应用层中,对于统计类的指标,是按周期保存,使统计数据具有历史性。对于资料类数据的查询接口,通常使用覆盖更新式保存。
所述大数据库可以采用Hadoop大数据库。利用Hadoop无限扩展的计算能力和存储能力,保障历史数据始终处于“在线”状态。
针对流水数据,则按时间流水保存,一定周期(如3年内)的数据保存在传统数据库,同时,所有的历史数据均转存到大数据库中。均按历史形成拉链数据,并且所有历史数据转存到Hadoop大数据库中。
针对资料类数据,则形成拉链数据,将形成的变更历史轨迹数据全部保存到大数据库中,并且采用月全量日增量的数据保持同步,这样,数据可以回溯到前一天前的任何时间点。
这些历史数据的保存,一方面保证了数据的存储安全,另一方面,则可以针对历史数据做变化分析。
面向应用的数据,由于未来应用的不可预知性,因此,它可能会从各个数据区,甚至是大数据库中取数据来支撑应用,因此,针对一些个性化的应用,可能会从其它区取数据,但绝大多数的应用数据需求,应该是直接从集市区生成的。
综上,本发明的技术方案,有以下有益效果:
具有较高的扩展性:由于在原子层的中严格按照第三范式规范,当系统增加各种新的需求时,不需要对原有架构做修改,只需要对原有模型做一定的扩展,就可以满足这些需求。另一方面,由于采集了Hadoop和传统数据库结合的模式搭建数据仓库,当非结构化数据进入数据仓库,或者在数据积累到传统数据仓库已经难以支撑的时候,则可以利用Hadoop的高扩展性来强制性扩展数据仓库的存储能力和计算能力。
具有开放性:本发明可兼容结构化、半结构化、非结构化、图数据、日志数据等数据格式,同时针对不同的异构数据源,如Oracle、Mysql、SQLServer、Access、DB2、Postgres、Teradata、本地文件等系统均可兼容,并且针对外部提供数据服务,外部服务平台不需要管内部是以什么存储介质保存的数据,均提供统一的接口。
具有安全性:通过健全的备份机制,最大化减小数据丢失的风险。
具有易维护性:由于所有的数据处理规则全部是配置在规则表中,并且解析规则的程序只有一个,规则(强制要求有规则的业务说明)与数据处理引擎是全解耦的,当数据规则变化时,只需要简单的修改一个规则,就可以将所有的影响点修改过来,这大大提升了系统的可维护性。
具有易溯源性:从原子层开始,一直到整合层、集市层,细到每一个单元格,粗到每一条记录,均记录了数据的来源,结合数据的处理规则,可以从应用层数据,一直追踪到数据来源,以及数据在中间处理过程中经过的规则变换。
具有完整性:源数据进入数据仓库,就直接进入了贴源层,所有信息都不会丢失。超过一定时间窗口(如一年以上)的历史数据,会转入在线运行的Hadoop平台(非离线的磁带库),进行全生命周期数据存储、计算和管理,保证了数据的完整性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。需要说明的是,本发明附图中的流程图和框图显示了根据本发明的实施例方法获得机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图中的每个方框可以代表一个程序段或代码的一部分,所述程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,流程图中的每个方框、以及流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与获得机指令的组合来实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (6)

1.一种基于数据仓库的数据处理方法,其特征在于,包括:
原子层获取结构化的第一数据;
所述原子层按照预设形式,对所述第一数据进行组织归类,获得第二数据;
所述原子层对组织归类后的所述第二数据进行分区存储;
所述原子层将所述第二数据更新至整合层;
所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储;
在所述整合层根据预设的整合规则,对所述第二数据进行合并处理的步骤之前,还包括:
所述整合层根据数据的非空优先原则、数据的优先级、数据的时效性、少数服从多数原则、常识性中的一种或多种,建立整合规则;其中所述数据的优先级包括数据的权威性;数据的时效性包括数据的最近更新时间;
在所述建立整合规则的步骤之后,还包括:
所述整合层获取样本数据;
根据所述样本数据,对建立的所述整合规则进行验证;若验证通过,则执行所述整合层根据预设的整合规则,对所述第二数据进行合并处理,生成第三数据并存储的步骤;
若验证没有通过,则重新执行所述整合层根据数据的权威性、及时性、少数服从多数原则、常识性中的一种或多种,建立整合规则的步骤;
所述根据所述样本数据,对建立的所述整合规则进行验证具体包括:
若样本数据符合整合规则的概率小于预设阈值,则验证不通过;若样本数据符合整合规则的概率不小于预设阈值,则验证通过;
所述整合层将所述第三数据更新至集市层;
所述集市层通过关联方式,拼接所述第三数据中的片段表,生成基础宽表;
所述集市层根据所述基础宽表,生成统计指标表。
2.根据权利要求1所述的基于数据仓库的数据处理方法,其特征在于,所述原子层对组织归类后的所述第一数据进行分区存储,包括:
所述原子层根据数据来源、数据周期、业务分类、关系类型中的一种或多种,对组织归类后的所述第一数据进行分区存储。
3.根据权利要求1所述的基于数据仓库的数据处理方法,其特征在于,在所述原子层获取结构化的第一数据的步骤之前,还包括:
缓冲层缓存结构化的不同来源的源数据;并对所述源数据添加时间戳,生成缓冲数据,并存储;
所述缓冲层将所述缓冲数据更新至贴源层;
所述贴源层对所述缓冲数据进行标准化处理,生成第一数据,并存储。
4.根据权利要求1所述的基于数据仓库的数据处理方法,其特征在于,还包括:
所述原子层根据预设时间周期,将所述第二数据发送给大数据库;
所述大数据库对所述第二数据进行存储。
5.根据权利要求1所述的基于数据仓库的数据处理方法,其特征在于,还包括:
所述原子层根据预设时间,覆盖更新所述第二数据的资料类数据。
6.根据权利要求1所述的基于数据仓库的数据处理方法,其特征在于,还包括:
所述原子层实时获取所述第一数据的增量数据;
根据所述增量数据对所述第二数据进行更新。
CN201710938485.2A 2017-09-30 2017-09-30 一种基于数据仓库的数据处理方法 Active CN107657049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710938485.2A CN107657049B (zh) 2017-09-30 2017-09-30 一种基于数据仓库的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710938485.2A CN107657049B (zh) 2017-09-30 2017-09-30 一种基于数据仓库的数据处理方法

Publications (2)

Publication Number Publication Date
CN107657049A CN107657049A (zh) 2018-02-02
CN107657049B true CN107657049B (zh) 2021-02-02

Family

ID=61117551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710938485.2A Active CN107657049B (zh) 2017-09-30 2017-09-30 一种基于数据仓库的数据处理方法

Country Status (1)

Country Link
CN (1) CN107657049B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275771B (zh) * 2018-03-15 2021-12-14 中国移动通信集团有限公司 一种业务处理方法、物联网计费基础设施系统及存储介质
CN109063063B (zh) * 2018-07-20 2020-06-23 泰华智慧产业集团股份有限公司 基于多源数据的数据处理方法及装置
CN109871338B (zh) * 2019-03-15 2021-01-29 北京思特奇信息技术股份有限公司 一种数据存储方法、装置及计算机设备
CN110096509A (zh) * 2019-05-16 2019-08-06 普元信息技术股份有限公司 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN110297818B (zh) * 2019-06-26 2022-03-01 杭州数梦工场科技有限公司 构建数据仓库的方法及装置
CN110633332A (zh) * 2019-09-18 2019-12-31 北京思维造物信息科技股份有限公司 数据仓库、数据更新和调用方法、装置及设备
WO2021102888A1 (zh) * 2019-11-29 2021-06-03 京东方科技集团股份有限公司 数据处理设备和方法、计算机可读存储介质
CN111291029B (zh) * 2020-01-17 2024-03-08 深圳市华傲数据技术有限公司 数据清洗方法及装置
CN112000748A (zh) * 2020-07-14 2020-11-27 北京神州泰岳智能数据技术有限公司 一种数据处理方法、装置、电子设备及存储介质
CN112181940A (zh) * 2020-08-25 2021-01-05 天津农学院 全国工商大数据处理系统的构建方法
CN113377872B (zh) * 2021-06-25 2024-02-27 北京红山信息科技研究院有限公司 在线系统数据在大数据中心的离线同步方法、装置及设备
CN113742325A (zh) * 2021-08-09 2021-12-03 广州市易工品科技有限公司 数据仓库建设方法、装置、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587857B1 (en) * 1998-06-30 2003-07-01 Citicorp Development Center, Inc. System and method for warehousing and retrieving data
CN101699433A (zh) * 2009-10-28 2010-04-28 金蝶软件(中国)有限公司 一种数据重整方法和系统
CN105335503A (zh) * 2015-10-29 2016-02-17 丁清山 数字化档案馆信息全功能系统
CN105718565A (zh) * 2016-01-20 2016-06-29 北京京东尚科信息技术有限公司 数据仓库模型的构建方法和构建装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059140A1 (en) * 2004-09-14 2006-03-16 Logical Information Machines, Inc. Correcting data warehouse with prioritized processing for integrity and throughput
CN103678665B (zh) * 2013-12-24 2016-09-07 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN106227862A (zh) * 2016-07-29 2016-12-14 浪潮软件集团有限公司 基于分布式的电商数据整合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6587857B1 (en) * 1998-06-30 2003-07-01 Citicorp Development Center, Inc. System and method for warehousing and retrieving data
CN101699433A (zh) * 2009-10-28 2010-04-28 金蝶软件(中国)有限公司 一种数据重整方法和系统
CN105335503A (zh) * 2015-10-29 2016-02-17 丁清山 数字化档案馆信息全功能系统
CN105718565A (zh) * 2016-01-20 2016-06-29 北京京东尚科信息技术有限公司 数据仓库模型的构建方法和构建装置

Also Published As

Publication number Publication date
CN107657049A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107657049B (zh) 一种基于数据仓库的数据处理方法
JP7410181B2 (ja) ハイブリッド・インデックス作成方法、システム、プログラム
US11971945B2 (en) System for synchronization of changes in edited websites and interactive applications
US9507807B1 (en) Meta file system for big data
US8977597B2 (en) Generating and applying redo records
US8626717B2 (en) Database backup and restore with integrated index reorganization
CN107391306B (zh) 一种异构数据库备份文件恢复方法
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
US8938430B2 (en) Intelligent data archiving
US10896156B2 (en) Flexible synchronous file system replication
US20170255708A1 (en) Index structures for graph databases
CN107729448A (zh) 一种基于数据仓库的数据处理系统
CN109918386A (zh) 一种数据恢复方法和装置、计算机可读存储介质
JP2016224920A (ja) Walを用いたデータベースロールバック
US9275059B1 (en) Genome big data indexing
CN117251448B (zh) 一种宽表拉链表数据处理方法及装置
US20230409545A1 (en) Version control interface supporting time travel access of a data lake
Cannata et al. The Challenges of Reproducibility for Research Based on Geodata Web Services
CN116126620A (zh) 数据库日志处理方法、数据库变更查询方法及相关装置
CN115878563A (zh) 一种分布式文件系统目录级快照的实现方法及电子设备
Ceresnak et al. Versioning Data During Migration Processes in Cloud Environment
CN117649240A (zh) 可疑账户识别方法、系统、设备、存储介质和程序产品
CN117171129A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN115129684A (zh) 分布式文件系统及其管理方法
Hamori MDSAA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 518000 2203/2204, Building 1, Huide Building, Beizhan Community, Minzhi Street, Longhua District, Shenzhen, Guangdong

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518000 units J and K, 12 / F, block B, building 7, Baoneng Science Park, Qinghu Industrial Zone, Qingxiang Road, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.