CN112732686A - 一种基于gp集群提高数据集市的运算方法及装置 - Google Patents
一种基于gp集群提高数据集市的运算方法及装置 Download PDFInfo
- Publication number
- CN112732686A CN112732686A CN202011603682.7A CN202011603682A CN112732686A CN 112732686 A CN112732686 A CN 112732686A CN 202011603682 A CN202011603682 A CN 202011603682A CN 112732686 A CN112732686 A CN 112732686A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- management
- quality
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000007726 management method Methods 0.000 claims abstract description 95
- 230000008569 process Effects 0.000 claims abstract description 61
- 238000007689 inspection Methods 0.000 claims abstract description 27
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 238000013441 quality evaluation Methods 0.000 claims abstract description 14
- 238000012550 audit Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000013461 design Methods 0.000 claims description 20
- 238000012423 maintenance Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 12
- 230000008520 organization Effects 0.000 claims description 12
- 238000013500 data storage Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 238000011157 data evaluation Methods 0.000 claims description 4
- 238000013523 data management Methods 0.000 claims description 4
- 238000013499 data model Methods 0.000 claims description 4
- 238000013524 data verification Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 4
- 230000008713 feedback mechanism Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据集市技术领域,尤其为一种基于GP集群提高数据集市的运算方法及装置,包括以下方法步骤:S1,数据质量问题解决:信息问题域、流程问题域、技术问题域和管理问题域;S2,数据质量管理:管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理;S3,数据仓库元数据管理:数据源元数据、数据仓库元数据、报表元数据、接口文件格式元数据、商业元数据和其他元数据,通过数据质量问题解决、数据质量管理和数据仓库元数据管理,能够提高对数据集市的信息问题域、流程问题域、技术问题域和管理问题域进行解决,提高对管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理,能够更好对数据集市数据处理和管理。
Description
技术领域
本发明涉及数据集市技术领域,具体为一种基于GP集群提高数据集市的运算方法及装置。
背景技术
数据集市也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。
从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。
为了能够更好对数据集市数据处理和管理,因此需要一种基于GP集群提高数据集市的运算方法及装置。
发明内容
本发明的目的在于提供一种基于GP集群提高数据集市的运算方法及装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于GP集群提高数据集市的运算方法及装置,包括以下方法步骤:
S1,数据质量问题解决:信息问题域、流程问题域、技术问题域和管理问题域;
S2,数据质量管理:管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理;
S3,数据仓库元数据管理:数据源元数据、ETL规则元数据、数据仓库元数据、报表元数据、接口文件格式元数据、商业元数据和其他元数据。
优选的,所述S1信息问题,数据采集点:一致性、唯一性、完整性、合法性、准确性;企业模型:统一数据管理、统一企业数据模型;元数据管控:业务元数据、技术元数据;所述技术问题,数据获取:数据迟延、数据校验和数据检查;数据传递:及时性、文件传输方式、漏传传输技术、网络传输过程不可靠;数据使用:展示周期、展示工具和展示方式;数据加载:数据清洗算法、数据转换算法和数据加载算法;数据维护:数据备份、恢复,数据存储能力、维护验证机制和人为调整数据。
优选的,所述S1流程问题,数据检查流程:数据评估、数据检查、检查数据完善、检查规则设定;数据稽核流程:稽核数据完善和稽核规则;数据维护流程:变更维护流程、数据测试流程、错误数据维护流程和人为调整数据流程;数据获取流程:数据转换、数据加载、数据获取和数据清洗。
优选的,所述S1管理问题,管理制度:职责、责任人、工作优先级和目标;管理组织架构:岗位设置和管理组织架构;激励:反馈渠道、反馈机制、奖惩制度的执行和奖惩制度;培训:培训制度、培训计划、培训内容、培训时间和培训资金。
优选的,所述管理功能包括数据质量任务派发、数据质量组织管理、数据质量角色管理、数据质量权限管理、数据质量工单管理和数据处理情况考核;所述数据质量检查稽核:数据属性检查、数据属性关系检查、数据表关系检查、数据对比稽核、异常处理、数据对比展现;所述数据质量评估监控:数据质量评估、数据质量分析、数据质量告警、数据质量异常跟踪、数据质量监控和数据质量修正跟踪;所述数据质量基础管理:规则配置、算法配置、统一指标定义、流程配置、异常流程跟踪和接口定义。
优选的,所述S3数据源元数据:数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等,数据源元数据的管理:由相关人员对各类文档进行统一版本的管理;所述ETL规则元数据:ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息,数据源元数据包括业务系统元数据和数据仓库元数据等,目标系统元数据可能是数据仓库元数据、数据集市元数据等,ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理;所述数据仓库元数据:数据仓库采用RDBMS进行数据的存储和管理,设计模式遵循数据仓库的设计准则,实现主题、维、度量等多维概念模型,这些元素在RDBMS中物理上是具体的数据表,这些表与具体多维模型的映射关系需要通过元数据进行描述和定义,数据仓库元数据的管理:制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息,对文档进行统一版本的管理;所述报表元数据包括对报表和报表中具体指标(度量)的描述信息等,报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理;所述接口文件格式元数据:接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息,接口文件格式元数据:与ETL规则元数据进行统一管理;所述其他元数据:数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作、锁、内存使用、I/O使用等信息,数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理。
优选的,包括控制终端、数据分析仪、数据存储器,其特征在于:所述控制终端和数据分析仪用于数据显示控制和数据分析,所述数据存储器用于数据存储。
与现有技术相比,本发明的有益效果是:
本发明中,通过数据质量问题解决、数据质量管理和数据仓库元数据管理,能够提高对数据集市的信息问题域、流程问题域、技术问题域和管理问题域进行解决,提高对管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理,能够更好对数据集市数据处理和管理。
附图说明
图1为本发明整体方法流程图;
图2为本发明数据质量问题解决示意图;
图3为本发明信息问题域示意图;
图4为本发明流程问题域示意图;
图5为本发明技术问题域示意图;
图6为本发明管理问题域示意图;
图7为本发明数据质量管理示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-7,本发明提供一种技术方案:
一种基于GP集群提高数据集市的运算方法及装置,包括以下方法步骤:
S1,数据质量问题解决:信息问题域、流程问题域、技术问题域和管理问题域;
S2,数据质量管理:管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理;
S3,数据仓库元数据管理:数据源元数据、ETL规则元数据、数据仓库元数据、报表元数据、接口文件格式元数据、商业元数据和其他元数据。
所述S1信息问题,数据采集点:一致性、唯一性、完整性、合法性、准确性;企业模型:统一数据管理、统一企业数据模型;元数据管控:业务元数据、技术元数据;所述技术问题,数据获取:数据迟延、数据校验和数据检查;数据传递:及时性、文件传输方式、漏传传输技术、网络传输过程不可靠;数据使用:展示周期、展示工具和展示方式;数据加载:数据清洗算法、数据转换算法和数据加载算法;数据维护:数据备份、恢复,数据存储能力、维护验证机制和人为调整数据。
所述S1流程问题,数据检查流程:数据评估、数据检查、检查数据完善、检查规则设定;数据稽核流程:稽核数据完善和稽核规则;数据维护流程:变更维护流程、数据测试流程、错误数据维护流程和人为调整数据流程;数据获取流程:数据转换、数据加载、数据获取和数据清洗。
所述S1管理问题,管理制度:职责、责任人、工作优先级和目标;管理组织架构:岗位设置和管理组织架构;激励:反馈渠道、反馈机制、奖惩制度的执行和奖惩制度;培训:培训制度、培训计划、培训内容、培训时间和培训资金。
优选的,所述管理功能包括数据质量任务派发、数据质量组织管理、数据质量角色管理、数据质量权限管理、数据质量工单管理和数据处理情况考核;所述数据质量检查稽核:数据属性检查、数据属性关系检查、数据表关系检查、数据对比稽核、异常处理、数据对比展现;所述数据质量评估监控:数据质量评估、数据质量分析、数据质量告警、数据质量异常跟踪、数据质量监控和数据质量修正跟踪;所述数据质量基础管理:规则配置、算法配置、统一指标定义、流程配置、异常流程跟踪和接口定义。
所述S3数据源元数据:数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等,数据源元数据的管理:由相关人员对各类文档进行统一版本的管理;所述ETL规则元数据:ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息,数据源元数据包括业务系统元数据和数据仓库元数据等,目标系统元数据可能是数据仓库元数据、数据集市元数据等,ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理;所述数据仓库元数据:数据仓库采用RDBMS进行数据的存储和管理,设计模式遵循数据仓库的设计准则,实现主题、维、度量等多维概念模型,这些元素在RDBMS中物理上是具体的数据表,这些表与具体多维模型的映射关系需要通过元数据进行描述和定义,数据仓库元数据的管理:制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息,对文档进行统一版本的管理;所述报表元数据包括对报表和报表中具体指标(度量)的描述信息等,报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理;所述接口文件格式元数据:接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息,接口文件格式元数据:与ETL规则元数据进行统一管理;所述其他元数据:数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作、锁、内存使用、I/O使用等信息,数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理。
包括控制终端、数据分析仪、数据存储器,其特征在于:所述控制终端和数据分析仪用于数据显示控制和数据分析,所述数据存储器用于数据存储。
实施例:信息问题,数据采集点:一致性、唯一性、完整性、合法性、准确性;企业模型:统一数据管理、统一企业数据模型;元数据管控:业务元数据、技术元数据;所述技术问题,数据获取:数据迟延、数据校验和数据检查;数据传递:及时性、文件传输方式、漏传传输技术、网络传输过程不可靠;数据使用:展示周期、展示工具和展示方式;数据加载:数据清洗算法、数据转换算法和数据加载算法;数据维护:数据备份、恢复,数据存储能力、维护验证机制和人为调整数据;流程问题,数据检查流程:数据评估、数据检查、检查数据完善、检查规则设定;数据稽核流程:稽核数据完善和稽核规则;数据维护流程:变更维护流程、数据测试流程、错误数据维护流程和人为调整数据流程;数据获取流程:数据转换、数据加载、数据获取和数据清洗;管理问题,管理制度:职责、责任人、工作优先级和目标;管理组织架构:岗位设置和管理组织架构;激励:反馈渠道、反馈机制、奖惩制度的执行和奖惩制度;培训:培训制度、培训计划、培训内容、培训时间和培训资金;所述管理功能包括数据质量任务派发、数据质量组织管理、数据质量角色管理、数据质量权限管理、数据质量工单管理和数据处理情况考核;所述数据质量检查稽核:数据属性检查、数据属性关系检查、数据表关系检查、数据对比稽核、异常处理、数据对比展现;所述数据质量评估监控:数据质量评估、数据质量分析、数据质量告警、数据质量异常跟踪、数据质量监控和数据质量修正跟踪;所述数据质量基础管理:规则配置、算法配置、统一指标定义、流程配置、异常流程跟踪和接口定义;数据源元数据:数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等,数据源元数据的管理:由相关人员对各类文档进行统一版本的管理;所述ETL规则元数据:ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息,数据源元数据包括业务系统元数据和数据仓库元数据等,目标系统元数据可能是数据仓库元数据、数据集市元数据等,ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理;所述数据仓库元数据:数据仓库采用RDBMS进行数据的存储和管理,设计模式遵循数据仓库的设计准则,实现主题、维、度量等多维概念模型,这些元素在RDBMS中物理上是具体的数据表,这些表与具体多维模型的映射关系需要通过元数据进行描述和定义,数据仓库元数据的管理:制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息,对文档进行统一版本的管理;所述报表元数据包括对报表和报表中具体指标(度量)的描述信息等,报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理;所述接口文件格式元数据:接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息,接口文件格式元数据:与ETL规则元数据进行统一管理;所述其他元数据:数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作、锁、内存使用、I/O使用等信息,数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于GP集群提高数据集市的运算方法,其特征在于:包括以下方法步骤:
S1,数据质量问题解决:信息问题域、流程问题域、技术问题域和管理问题域;
S2,数据质量管理:管理功能、数据质量检查稽核、数据质量评估监控和数据质量基础管理;
S3,数据仓库元数据管理:数据源元数据、ETL规则元数据、数据仓库元数据、报表元数据、接口文件格式元数据、商业元数据和其他元数据。
2.根据权利要求1所述的一种基于GP集群提高数据集市的运算方法,其特征在于:所述S1信息问题,数据采集点:一致性、唯一性、完整性、合法性、准确性;企业模型:统一数据管理、统一企业数据模型;元数据管控:业务元数据、技术元数据;所述技术问题,数据获取:数据迟延、数据校验和数据检查;数据传递:及时性、文件传输方式、漏传传输技术、网络传输过程不可靠;数据使用:展示周期、展示工具和展示方式;数据加载:数据清洗算法、数据转换算法和数据加载算法;数据维护:数据备份、恢复,数据存储能力、维护验证机制和人为调整数据。
3.根据权利要求1所述的一种基于GP集群提高数据集市的运算方法,其特征在于:所述S1流程问题,数据检查流程:数据评估、数据检查、检查数据完善、检查规则设定;数据稽核流程:稽核数据完善和稽核规则;数据维护流程:变更维护流程、数据测试流程、错误数据维护流程和人为调整数据流程;数据获取流程:数据转换、数据加载、数据获取和数据清洗。
4.根据权利要求1所述的一种基于GP集群提高数据集市的运算方法,其特征在于:所述S1管理问题,管理制度:职责、责任人、工作优先级和目标;管理组织架构:岗位设置和管理组织架构;激励:反馈渠道、反馈机制、奖惩制度的执行和奖惩制度;培训:培训制度、培训计划、培训内容、培训时间和培训资金。
5.根据权利要求1所述的一种基于GP集群提高数据集市的运算方法及装置,其特征在于:所述管理功能包括数据质量任务派发、数据质量组织管理、数据质量角色管理、数据质量权限管理、数据质量工单管理和数据处理情况考核;所述数据质量检查稽核:数据属性检查、数据属性关系检查、数据表关系检查、数据对比稽核、异常处理、数据对比展现;所述数据质量评估监控:数据质量评估、数据质量分析、数据质量告警、数据质量异常跟踪、数据质量监控和数据质量修正跟踪;所述数据质量基础管理:规则配置、算法配置、统一指标定义、流程配置、异常流程跟踪和接口定义。
6.根据权利要求1所述的一种基于GP集群提高数据集市的运算方法,其特征在于:所述S3数据源元数据:数据源元数据主要是数据库模型设计文档、为综合统计分析平台提供数据的各种业务系统的数据字典及数据接口文件等,数据源元数据的管理:由相关人员对各类文档进行统一版本的管理;所述ETL规则元数据:ETL规则元数据中涉及到数据源元数据、目标系统元数据、ETL流程、源与目标的映射关系等元数据信息,数据源元数据包括业务系统元数据和数据仓库元数据等,目标系统元数据可能是数据仓库元数据、数据集市元数据等,ETL规则元数据的管理:由数据库开发人员根据各个模块的ETL过程以及过程运行的顺序,形成相关元数据管理文档进行统一管理;所述数据仓库元数据:数据仓库采用RDBMS进行数据的存储和管理,设计模式遵循数据仓库的设计准则,实现主题、维、度量等多维概念模型,这些元素在RDBMS中物理上是具体的数据表,这些表与具体多维模型的映射关系需要通过元数据进行描述和定义,数据仓库元数据的管理:制定数据仓库模型设计文档记录事实表、维度、属性、层次等信息,物理表与多维模型的映射关系等信息,对文档进行统一版本的管理;所述报表元数据包括对报表和报表中具体指标(度量)的描述信息等,报表元数据的管理:对数据集上可以计算的度量进行相关元数据的管理,包括详细设计文档中对各个表中度量的定义、描述等;对所有表和度量之间的关系进行严格的文档记录,包括度量的计算、度量之间的相互依赖关系、以及历史信息进行元数据管理;所述接口文件格式元数据:接口数据文件格式,包括接口数据文件的命名、传输周期、格式等说明信息,接口文件格式元数据:与ETL规则元数据进行统一管理;所述其他元数据:数据访问日志、数据装载日志等信息。数据访问日志记录数据库的访问信息,包括对数据库表的操作、锁、内存使用、I/O使用等信息,数据装载信息记录每个ETL过程的抽取时间、操作人员、起始和截止时间、抽取涉及到的表、操作行数等相关信息其他元数据的管理:将元数据信息记录到日志,形成元数据文件进行统一管理。
7.一种基于GP集群提高数据集市的装置,包括控制终端、数据分析仪、数据存储器,其特征在于:所述控制终端和数据分析仪用于数据显示控制和数据分析,所述数据存储器用于数据存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603682.7A CN112732686A (zh) | 2020-12-29 | 2020-12-29 | 一种基于gp集群提高数据集市的运算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011603682.7A CN112732686A (zh) | 2020-12-29 | 2020-12-29 | 一种基于gp集群提高数据集市的运算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732686A true CN112732686A (zh) | 2021-04-30 |
Family
ID=75609978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011603682.7A Pending CN112732686A (zh) | 2020-12-29 | 2020-12-29 | 一种基于gp集群提高数据集市的运算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732686A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392076A (zh) * | 2021-07-08 | 2021-09-14 | 网银在线(北京)科技有限公司 | 获取元数据质量信息的方法、装置、电子设备和介质 |
CN117112668A (zh) * | 2023-08-23 | 2023-11-24 | 广州嘉磊元新信息科技有限公司 | 一种基于etl的rpa流程管理方法及系统 |
US12067026B2 (en) | 2022-08-19 | 2024-08-20 | Capital One Services, Llc | In-memory databases for integration testing of extraction, transformation, and/or loading jobs |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN209250794U (zh) * | 2019-05-27 | 2019-08-13 | 国家开放大学 | 一种大数据网络安全监控系统的网络架构 |
-
2020
- 2020-12-29 CN CN202011603682.7A patent/CN112732686A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN209250794U (zh) * | 2019-05-27 | 2019-08-13 | 国家开放大学 | 一种大数据网络安全监控系统的网络架构 |
Non-Patent Citations (1)
Title |
---|
TKRHTR6SB7907H97V6ZGNK_MAJIA上传: "集市建设与数据管理方法(初稿)", pages 27 - 50, Retrieved from the Internet <URL:https://www.docin.com/p-2082854642.html?docfrom=rrela> * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392076A (zh) * | 2021-07-08 | 2021-09-14 | 网银在线(北京)科技有限公司 | 获取元数据质量信息的方法、装置、电子设备和介质 |
US12067026B2 (en) | 2022-08-19 | 2024-08-20 | Capital One Services, Llc | In-memory databases for integration testing of extraction, transformation, and/or loading jobs |
CN117112668A (zh) * | 2023-08-23 | 2023-11-24 | 广州嘉磊元新信息科技有限公司 | 一种基于etl的rpa流程管理方法及系统 |
CN117112668B (zh) * | 2023-08-23 | 2024-02-20 | 广州嘉磊元新信息科技有限公司 | 一种基于etl的rpa流程管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112732686A (zh) | 一种基于gp集群提高数据集市的运算方法及装置 | |
CN111104394A (zh) | 一种能源数据仓库系统构建方法及装置 | |
US9542424B2 (en) | Lifecycle-based horizontal partitioning | |
US9152662B2 (en) | Data quality analysis | |
CN111143334A (zh) | 一种数据质量闭环控制方法 | |
EP2270691B1 (en) | Computer-implemented method for operating a database and corresponding computer system | |
CN109597850A (zh) | 烟草综合信息数据加工储存平台及数据加工方法 | |
CN114595294B (zh) | 一种数据仓库建模和抽取方法及系统 | |
CN112131203A (zh) | 一种数据仓库搭建的方法和系统 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
Batini et al. | A Framework And A Methodology For Data Quality Assessment And Monitoring. | |
CN111160865A (zh) | 一种工作流管理方法及装置 | |
CN112817958A (zh) | 电力规划数据采集方法、装置及智能终端 | |
CN111159154A (zh) | 一种能源数据仓库系统 | |
Effendy et al. | Star schema implementation for monitoring in data quality management tool (a case study at a government agency) | |
Chardin et al. | Data historians in the data management landscape | |
CN116561114A (zh) | 一种基于元数据的管理方法 | |
CN113946634B (zh) | 一种业务数据的领域模型的处理方法、装置及设备 | |
Jiadi et al. | Research on Data Center Operation and Maintenance Management Based on Big Data | |
CN113220726A (zh) | 一种数据质量检测方法及系统 | |
CN112905565A (zh) | 一种数据库管理系统及数据检验方法 | |
Gill et al. | An open source ETL tool-medium and small scale enterprise ETL (MaSSEETL) | |
Xiao | Data Processing Model of Bank Credit Evaluation System. | |
Lu et al. | A study on the business data evaluation method of the power grid value-added service | |
Vaisman et al. | Logical Data Warehouse Design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |