CN112905565A - 一种数据库管理系统及数据检验方法 - Google Patents

一种数据库管理系统及数据检验方法 Download PDF

Info

Publication number
CN112905565A
CN112905565A CN202110254240.4A CN202110254240A CN112905565A CN 112905565 A CN112905565 A CN 112905565A CN 202110254240 A CN202110254240 A CN 202110254240A CN 112905565 A CN112905565 A CN 112905565A
Authority
CN
China
Prior art keywords
data
data set
management system
database management
report
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110254240.4A
Other languages
English (en)
Inventor
刘汝坤
袁翰青
杨会峰
王占魁
孙辰军
王静
张志�
王腾
徐磊
周文芳
王立玮
遇炳杰
樊京杭
杨钰雪
刘瑞英
聂祥谦
黄镜宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Information and Telecommunication Branch of State Grid Hebei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110254240.4A priority Critical patent/CN112905565A/zh
Publication of CN112905565A publication Critical patent/CN112905565A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,具体是一种数据库管理系统及数据检验方法。一方面公开了一种适用于数据库管理系统的数据检验方法,包括:在所述数据库管理系统内建立对象数据类型的名称以及限制条件;识别提取所述对象;检查识别提取的对象是否满足所述限制条件,另一方面同时公开了一种数据库管理系统,包括:呼叫检验模块和数据输入模块,呼叫检验模块接收数据库管理系统内建立的对象数据类型的限制条件;数据输入模块接收数据库管理系统内建立的对象并检查对象是否符合限制条件。通过三步核验法,极大地改进了数据中心运维系统的运行操作,使数据管理系统得到有效的维护和发展,发挥了数据中心的作用,降低人员工作量。

Description

一种数据库管理系统及数据检验方法
技术领域
本发明涉及计算机技术领域,具体是一种数据库管理系统及数据检验方法。
背景技术
随着计算机性能与容量快速增长,储存各种格式的文件、图档以及影音等多媒体数据己成为数据库的一项重要任务。一般而言,不论数据库系统提供内建或是允许使用者自订多媒体数据类型,其内部储存方式均为大型二进制对象,字段数据类型则定义为多媒体数据类型的LONGVARBINARY,提供内建多媒体数据类型的数据库也无法提供字段条件限制,使用者自行新增的类型更无法做到。以往这些情形仅能靠应用程序在数据输入至数据库以前自行检查,然而如此将增加应用程序本身的复杂度并降低可维护性,且数据类型检查不是由数据库系统把关,会降低数据库中的数据完整性,此时需要商业智能概念的介入。
商业智能是指从企业现有的数据中提取有价值的数据,以帮助企业做出明智的业务经营决策的相关技术、应用等。数据包括来自企业自身业务系统以及企业所处的其他外部环境中的各种数据。为了将数据转化为知识,通常将数据源中的数据通过ETL模型注入到数据仓库当中,然后通过OLAP联机分析处理模型根据数据仓库中的数据创建数据立方体,以便用于数据挖掘来形成报表报告和数据分析。
但是,由于数据源多种多样,ETL模型以及OLAP模型的处理涉及大量的数据,有可能在进行商业智能的数据处理过程中发生错误。己有技术通过检查生成的报告中的数据,与应用系统中的原始数据进行直接比较来确定数据的准确性,过程中数据量太大,一般无法进行全面的比较。此外,即使发现报告中的数据与应用系统中的原始数据不一致,也无法确定问题出在哪里,这样导致全面检测模型和数据仓库中的数据,工作量非常大,经常需要花费大量的时间来确定问题所在。
发明内容
本发明的目的在于提供一种数据库管理系统及数据检验方法以解决上述背景技术中提出的问题。
本发明技术方案是:
一种适用于数据库管理系统的数据检验方法,包括:
步骤一、在所述数据库管理系统内建立对象数据类型的名称以及限制条件;
步骤二、识别提取所述对象;
步骤三、检查所述步骤二中识别提取的所述对象是否满足所述步骤一中的所述限制条件。
进一步的,所述步骤三中检查的所述对象,一方面检查的是所述对象的文件类型是否符合所述限制条件中的预设文件类型,另一方面检查的是所述对象对应的应用程序版本是否符合所述预设文件类型对应的应用程序版本;
所述预定文件类型包含文书处理程序类型、图像文件类型、声音文件类型或者多媒体文件类型,所述数据管理系统设有呼叫检验模块,所述呼叫检验模块检查所述对象是否符合所述限制条件。
进一步的,所述数据库管理系统执行表格创建命令时,连接所述呼叫检验模块至所述对象的数据类型,检查所述对象是否符合所述限制条件。
进一步的,一种计算机可读取储存媒体,用以储存计算机程序,所述计算机程序可加载至所述计算机装置中以执行所述的数据库的数据检查方法。
进一步的,所述数据来自于对源数据进行ETL模型变换和OLAP模型变换所生成的数据立方体,所述方法包括:根据数据立方体查询条件,从数据立方体生成报告数据集;根据与所述数据立方体查询条件相应的源数据查询条件,从源数据生成参考数据集;根据所述参考数据集与所述报告数据集之间的匹配关系,进行数据验证;
其中,所述报告数据集和所述参考数据集分别由维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值组成,根据所述参考数据集与所述报告数据集之间的匹配关系进行数据验证,通过分别比较所述报告数据集、所述参考数据集的维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值,来确定所述参考数据集与所述报告数据集之间的匹配关系,以及根据所确定的匹配关系,进行数据验证。
进一步的,根据与所述数据立方体查询条件相应的源数据查询条件从源数据生成参考数据集,对参考数据集中的数据进行ETL模型中不可逆部分的变换,将变换后的参考数据集作为报告数据集。
进一步的,根据OLAP模型的逆变换模型,对所述报告数据集进行OLAP逆变换,以便生成OLAP数据集;根据所述参考数据集、所述报告数据集以及所述OLAP数据集之间的匹配关系,进行数据验证。
进一步的,如果所述参考数据集与所述报告数据集不相匹配,同时所述参考数据集与所述OLAP数据集相匹配,则确定OLAP模型存在问题。
进一步的,根据ETL模型的逆变换模型,对所述OLAP数据集进行ETL逆变换,以便生成ETL数据集;根据所述参考数据集、所述报告数据集、所述OLAP数据集以及所述ETL数据集之间的匹配关系,进行数据验证。
一种数据库管理系统,包括呼叫检验模块和数据输入模块,所述呼叫检验模块接收所述数据库管理系统内建立的所述对象数据类型的限制条件;所述数据输入模块接收所述数据库管理系统内建立的所述对象并检查所述对象是否符合所述限制条件。
与现有技术相比,本发明的有益效果是:通过本发明,减少了应用程序本身的复杂度并降低可维护性,且数据类型检查由数据库系统把关,保证了数据库中的数据完整性。
附图说明
图1为本发明一种数据库管理系统及数据检验方法结构方框图;
图2为本发明一种数据库管理系统及数据检验方法流程图;
图3为本发明一种数据库管理系统及数据检验方法应用程序端的运作流程图;
图4为本发明一种数据库管理系统及数据检验方法计算机装置结构方框图;
图5为本发明实施例中一个典型的商业智能解决方案架构的示意图;
图6为本发明一个实施例的数据验证方法的流程图;
其中,100、数据库管理系统,110、检验模块,120、数据类型,130、表格,140应用程序,150、数据输入模块,400、计算机装置,421、通讯单元,422、处理器,423存储器,424、存储装置,425、输入装置,426、显示装置,1200、数据仓库,1300、数据立方体,1400、数据展示。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。其目的是要举例说明本发明一般性的原则,不应视为本发明的限制,本发明的范围当以申请专利范围所界定者为准,以下为提出数据库的数据检查方法及系统。
实施例1
如图1所示,数据库管理系统实施例的结构方块图。数据库管理系统100与应用程序140相互通讯及运作。应用程序140接收对象以插入数据库管理系统100,并且接收数据库管理系统100回传的消息。
检验模块110位于数据库管理系统100中,假设图1中的检验模块100为VI……Vn,用来检查数据库管理系统100中的对象数据类型120是否符合预定限制条件。数据库管理系统100建立对象数据类型DI、D2……Dn,检验模块100中的VI……Vn分别用来检查数据类型DI、D2……Dn。
数据库管理系统100建立至少一表格130,其中包含至少一字段属于对象数据类型100。数据库管理系统100设有数据输入模块150用以接收数据。
当数据库管理系统100接收插入该字段的数据时,启动该字段所属的对象数据类型的对应检验模块100,以检查上述接收数据是否符合预定限制条件。
举例来说,数据库管理系统100建立表格130,其中包含字段Cl……Cn属于对象数据类型DI、D2···Dn的其中之一。当数据库管理系统100接收插入字段Cl……Cn的数据时,启动该等字段所属的对象数据类型120的对应检验模块110,以分别检查上述接收数据是否符合各自的预定限制条件。
上述预定文件类型包含文书处理程序类型、图像文件类型、声音文件类型、多媒体文件类型或其它文件类型。
上述文书处理程序类型,例如MSWord、Excel、PowerPoint、AdobeAcrobatReader及其它文件。
上述图像文件类型例如jpg、bmp、gif、tif及其它图像文件类型。
对象数据类型DI、D2……Dn可以是各种文件类型。
检查该对象的对应应用程序版本是否符合上述限制条件中上述预定文件类型的对应应用程序版本。
举例来说,假设i为正整数且不大于n,数据类型Di为MSword的文件文件类型。数据库管理系统100执行表格创建命令时,设定属于数据类型Di的字段Ci的限制条件为MSword9以上的版本。数据库管理系统100接收插入字段Ci的对象时,检查该对象是否符合上述限制条件中MSword9以上的版本的限制。须要了解的是,应用程序不限于MSword,也可以是任何其它应用程序。
其它检查,举例来说,数据库管理系统100检查接收的对象是否有毁损、是否可正常开启、是否有加密、是否无计算机病毒等。
若检验模块110检查对象不符合限制条件,数据库管理系统100可以产生错误消息至应用程序140。应用程序140进一步处理错误。
如图2和图3所示,数据库管理方法实施例的流程图,数据库的数据检查方法执行于数据库管理系统100。例如应用程序140。应用程序接收对象以插入数据库管理系统(步骤S200),接收数据库管理系统回传的消息(步骤S202)并且在对象不符合限制条件时,上述应用程序进一步处理错误(步骤S204)。如图3所示,上述数据库管理系统内建立至少一检验模块(步骤S300),对应的对象数据类型的名称及限制条件(步骤S301)。上述数据库管理系统连接检验模块至上述数据类型,以检查属上述数据类型的对象是否符合预足限制条件(步骤S302)。数据库管理系统建立表格及限制条件(步骤S303),其包含属于上述文件类型的字段,并接收对象(步骤S304)。
上述数据库管理系统呼叫检验模块(步骤S305),以检查属上述数据类型的对象是否符合上述限制条件(步骤S306)。上述检查中包含检查该对象的文件类型是否符合上述限制条件中的预定文件类型,及该对象的对应应用程序版本是否符合上述限制条件中上述预定文件类型的对应应用程序版本。
当上述对象符合其限制条件,数据库管理系统100储存上述对象(步骤S308)。当上述对象不符其限制条件,数据库管理系统100传送错误消息至应用程序140(步骤S307)。
数据库管理系统100允许使用者自定数据类型,并自订该类型的类型检查及字段条件限制查验函数。
数据库管理系统100允许两个字符串类型的参数,其内容及用途均由使用者自订,使用者用ADDVALIDATOR•••FOR命令为自订类型加入查验函数后即可。
上述例子中LyricS新增一条件限制,该使用者将其涵义定为MSWord9以上的版本,故数据插入时即会杳验此为MSword数据且版本正确,第二个参数则未使用。MuSic字段虽无CHECK条件限制,系统发现该类型有查验函数,数据插入时即以无参数方式呼叫查验函数进行使用者自订的预设基本类型查验。
数据库管理系统100及上述方法可以由计算机程序构成。当工时记录方法以储存在计算机可读取储存媒体的计算机程序实现时,当此计算机程序加载至计算机装置中,上述计算机装置则执行上述数据库的数据检查方法的步骤。
如图4所示,显示执行本发明的工时记录方法或系统的计算机装置的一实施例的结构方块图。
计算机装置400包含通讯单元421、处理器422、存储器423、存储装置424、输入装置425以及显示装置426。
通讯单元421可以连接网络或各种传输线,控制信息的传输接收。处理器422依照既定的程序进行数据处理,例如储存在存储器423、存储装置424或远程主机上的程序。存储器423用作处理器422的作业用存储区域。存储装置424储存程序,例如数据录入系统100中的各模块。存储装置424可以是软式磁硬、光盘、硬盘或外接式储存设备。
上述数据库管理系统及其方法提供使用者及数据库系统一个方便、弹性、完整、且一致的方式进行字段的类型及条件限制检查,允许使用者自定数据类型并自订该类型的类型检查及字段条件限制查验的方法。特别是上述数据库管理系统允许使用者自订字段的条件限制的多媒体数据类型,是对数据库表格定义的一种改进,可增进多媒体数据型在数据库中的数据完整性,并可简化应用程序的开发。
实施例2
以下参照按照本发明实施例的方法、系统描述本发明。其中,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得通过计算机或其它可编程数据处理装置执行的这些指令,产生实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的制造品。
还可以把计算机程序指令加载到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程数据处理装置上执行一系列操作步骤,以产生计算机实现的过程,从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
图5示出了一个典型的商业智能解决方案架构的示意图。其中,数据源A、数据源B和数据源c中的数据,根据预先确定的ETL模型,通过数据抽取、转换和加载过程,被加载到数据仓库1200中。然后,通过联机分析处理(OLAP)模型根据数据仓库中的数据创建数据立方体1300,以便用于数据挖掘来形成数据展示1400(报表报告和数据分析报告等)。
数据源提供了公司内部或者外部的原始数据或者原始资料,这资料将成为分析和提取知识的基础。数据源中的数据一般用于在线事务处理(OLTP),其数据组织形式一般为面向事务型,即将完成一个事务所产生的数据集中进行存储,存储在同一张表中或通过主外键关联关系存储在紧密关联的若干张表中。
比如,企业资源管理(ERP)软件是一种典型的在线事务处理系统,其产生的数据可以被商业智能解决方案当作数据源。一个员工入职时填写基本信息是一个独立的事务,这些基本信息可以存储在数据源的同一张表中。公司对员工发放薪酬是一个事务,每个员工的薪酬发放情况可以存储在数据源的同一张表中。数据仓库1200的主要功能是组织大量数据。通过数据仓库的数据储存架构,可以便于进行各种分析方法如在线分析处理、数据挖掘,帮助决策者快速有效的自大量数据中,分析出有价值的信息。这样,便于决策的快速拟定及快速响应外在环境的变动,帮助建构商业智能解决方案。
一般来说,数据仓库可由关系数据库建立,其中可以由若干个星型结构的数据组织构成,每一个星型数据组织结构可以包含数个维度数据表及一个事实数据表。
一个大的企业通常有很多在线事务处理系统(OLTP),即有很多数据源,数据仓库将来自企业各OLTP系统的数据,进行集成,并且进行一致性处理。一致性处理过程可以包含在数据的抽取转换加载ETD过程当中。
ETL模型为数据从源数据库之中转换到数据仓库之中的变换模型,ETL模型定义了数据源中的源数据来源、目标数据仓库的目标数据位置以及源数据与目标数据之间的映射关系。数据的抽取转换加载ETD过程利用ETL模型从数据源抽取数据,进行转换后,得到目标数据,将目标数据存储到数据仓库中的目标数据位置。
ETL模型可用下面所述的数据所描述。对业务数据本身及其运行环境的描述与定义的数据,称之为兀数据。业务数据主要用于支持业务系统应用的数据,而兀数据是描述业务数据的数据。数据的典型表现为对象的描述,即对数据库、表、列、列属性(类型、格式、约束等)以及主键/外部键关联等等的描述。
对于ETL处理,数据可以用于:定义数据源的位置及数据源的属性、目标数据的位置以及属性;确定从源数据到目标数据的对应规则、在数据实际加载前的其他必要的准备工作,等等。它一般贯穿整个数据仓库项目,而ETL处理的所有过程必须最大化地参照数据,这样才能快速实现ETL处理。在图5的商业智能解决方案架构中,还通过联机分析处理OLAP模型,根据数据仓库1200中的数据创建数据立方体1300。
数据立方体是商业智能解决方案中用于联机在线分析处理系统的基础,由数据仓库中的数据通过OLAP模型的变换而生成。可以通过以下概念来描述数据立方体:维是观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维,如时间维、地理维等。
维的层次:观察数据的某个特定角度还可以存在细节程度不同的各个描述方面。例如时间维的层次可以是:日期、月份、季度或年。
维的成员:维的一个取值,是数据项在某维中位置的描述。例如“某年某月某日”是在时间维上位置的描述。
度量:数组的取值。例如,2008年3月,北京,笔记本电脑的销量是10台,那么10台就是度量值,2008年3月,北京,笔记本电脑分别为相应的维度成员。OLAP模型定义了数据仓库中的源数据来源(如位置)以及属性、目标数据立方体的目标数据位置以及源数据与目标数据之间的映射关系。利用OLAP模型,可以对数据仓库中的数据进行OLAP变换,形成数据立方体,其包括维以及相应的度量。相应地,OLAP逆变换模型定义了数据立方体中的源数据位置和属性、数据仓库中的目标数据位置以及源数据与目标数据之间的映射关系。
OLAP模型可以用数据来描述,定义数据仓库的位置及数据仓库中数据的属性、确定从数据仓库中的数据到数据立方体的数据存储的对应规则、在数据实际加载前的其他必要的准备工作等等。
例如OLAP模型的数据可以包括,数据立方体中的度量数据来自于数据仓库中哪个事实表中的哪个列或者是由该列数据经由何种运算得来。在OLAP逆变换模型中,相应地可以包括用数据描述的数据仓库中哪个事实表中的哪个列来自数据立方体中的哪个度量数据,或者是该列数据经由何种运算的逆运算得来。
由于数据在进行OLAP变换前己经被整合(ETL变换),因此不会发生信息丢失,所以OLAP模型中一般不包括不可逆变换。
如图5所示,有了数据立方体1300中的数据,通过数据展示1400、例如报表,可以很好地将数据展示给用户。
可以通过图表,如柱状图,线图,饼图等图形或者列表,交叉表的形式将数据立方体中的数据呈现给用户。
每个报表展示的数据只是数据立方体的一个子集,称为目标数据立方体。可以根据具体的业务需求,将数据立方体中的部分数据提取出来。可以确定报表中的不同层次的维信息来自于数据立方体中的哪个维度,以及报表中的不同层次的维成员数据分别来自于数据立方体中相应维度的哪个维成员值。
依据具体的业务需求,和数据立方体的数据组织形式,可以生成对数据立方体的查询条件,具体可以包括以下多项:
1)数据来自于哪个数据立方体,这取决于我们要查看的目标数据存储在哪个数据立方体中;
2)组成该数据立方体的各个维度的成员取值为何值,根据数据是按什么分类的以及数据的过滤器是什么以及数据立方体的定义来确定数据立方体中各个维度成员该取何值;
3)度量经过何种运算展示给用户,即商业逻辑中对目标数据的定义是不是需要对立方体的量度做一定的运算得到,例如:乘以一个系数或者单位的转换等。报表生成工具可以通过这些杳询条件从数据立方体中查询数据并以报表的形式展示给用户。
在这样一个典型的商业智能解决方案的构建过程中,经常出现的问题有以下几种:ETL模型错误,OLAP模型错误,脏数据错误。
I)ETL模型错误:
ETL模型错误主要是从源数据到数据仓库的映射关系出现逻辑错误,导致数据仓库中的数据出现错误,并反映在数据立方体和最终的报表展示数据上。需要修正ETL模型来纠正错误。
2)0LAP模型错误:OLAP模型错误主要是数据从数据仓库到数据立方体的映射关系出现逻辑错误,导致了展示在报表中的数据出现错误。需要修正OLAP模型来纠正错误。
3)数据错误:
可以反映在源数据中或数据仓库中有一些不符合逻辑的数据,即正常的环境下,这些数据是不应该存在的,比如源数据中产生了一些错误或者重复的数据,或者数据仓库中存在了之前加载进来的一些无用数据,这些都可被认为是脏数据。脏数据导致的验证错误不需要修正解决方案去更正,通常需要清除数据来还原。
因此,对于所构建的商业智能解决方案,一方面需要验证最终呈现给用户的数据与应用程序的原始数据是否一致,另一方面,在数据不一致的情况下,需要分析出是由何种问题导致的数据不一致。下面将结合附图详细描述根据本发明的实施例的数据验证方法及系统。
如图6所示,在步骤S210,从数据立方体生成报告数据集MDS10其中,数据集由特定维度的成员的组合所对应的度量值所构成,数据集的结构可以描述为:组成数据集的维度,度量的类型,数据集中数据满足的条件。
根据本发明的一个实施例,根据数据立方体的查询条件,从数据立方体生成报告数据集MDSI。该报告数据集MDSI的组成可以包括:维度;每个维度由一个相应的成员集合组成;每个维度的成员组合所对应的度量值。
这里需要指出的是,为了便于说明,在本发明的实施例中对数据集的结构以及报告数据集的组成进行了详细的描述,但本领域普通技术人员应该了解,数据集的结构并不限于包括组成数据集的维度、度量的类型,数据集中数据满足的条件,等等,报告数据集的组成也不限于上述所描述的情况。
在步骤S220,从源数据生成参考数据集So其中,根据具体的业务需求以及源数据的数据组织形式,可以生成与数据立方体查询条件相应的源数据查询条件,根据源数据的查询条件,从源数据生成参考数据集So参考数据集S和报告数据集MDSI的生成均是依据相同的具体业务需求去不同的数据源中抽取数据,因此参考数据集S与报告数据集MDSI的结构相同。
在步骤S230,根据所生成的数据集之间的匹配关系进行数据验证。在这里,通过匹配生成的报告数据集(I)SI与参考数据集S,来确定数据是否一致。如前所述,报告数据集和参考数据集可以分别由维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值组成,在这种情况下,通过分别比较所述报告数据集和所述参考数据集的维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值,来确定所述参考数据集与所述报告数据集之间的匹配关系,并根据确定的匹配关系来进行数据验证。
在确定不同的数据集之间的匹配关系时,首先比较其维度的数目;如果相等,则再比较其维度成员的类型;如果相等,则比较度量值的类型;如果相等,则数据集的结构相同。否则数据集的结构不同,需要检查数据集的生成是否根据同样的业务
由于参考数据集S是根据具体的业务需求生成的查询条件到源数据中提取数据而构成的,而报告数据集MDSI也是根据具体的业务需求生成到数据立方体中的查询条件从而提取数据而构成的。因此,参考数据集S与报告数据集MDSI具有相同的维度和度量类型,即具有相同的结构。但具体的维度成员值和度量值一个来自于数据源,一个来自于数据立方体。
如果所述参考数据集S与所述报告数据集MDSI相匹配,则说明经过数据处理之后的数据与源数据是一致的,因而确定不存在数据处理问题,否则,则存在数据处理问题。

Claims (10)

1.一种适用于数据库管理系统的数据检验方法,其特征在于,包括:
步骤一、在所述数据库管理系统内建立对象数据类型的名称以及限制条件;
步骤二、识别提取所述对象;
步骤三、检查所述步骤二中识别提取的所述对象是否满足所述步骤一中的所述限制条件。
2.根据权利要求1所述的一种适用于数据库管理系统的数据检验方法,其特征在于:所述步骤三中检查的所述对象,一方面检查的是所述对象的文件类型是否符合所述限制条件中的预设文件类型,另一方面检查的是所述对象对应的应用程序版本是否符合所述预设文件类型对应的应用程序版本;
所述预定文件类型包含文书处理程序类型、图像文件类型、声音文件类型或者多媒体文件类型,所述数据管理系统设有呼叫检验模块,所述呼叫检验模块检查所述对象是否符合所述限制条件。
3.根据权利要求2所述的一种适用于数据库管理系统的数据检验方法,其特征在于:所述数据库管理系统执行表格创建命令时,连接所述呼叫检验模块至所述对象的数据类型,检查所述对象是否符合所述限制条件。
4.根据权利要求1所述的一种适用于数据库管理系统的数据检验方法,其特征在于:一种计算机可读取储存媒体,用以储存计算机程序,所述计算机程序可加载至所述计算机装置中以执行所述的数据库的数据检查方法。
5.根据权利要求1所述的一种数据检验方法,适用于数据管理系统,其特征在于:所述数据来自于对源数据进行ETL模型变换和OLAP模型变换所生成的数据立方体,所述方法为根据数据立方体查询条件,从数据立方体生成报告数据集;根据与所述数据立方体查询条件相应的源数据查询条件,从源数据生成参考数据集;根据所述参考数据集与所述报告数据集之间的匹配关系,进行数据验证;
其中,所述报告数据集和所述参考数据集分别由维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值组成,根据所述参考数据集与所述报告数据集之间的匹配关系进行数据验证,通过分别比较所述报告数据集、所述参考数据集的维度、每个维度的成员集合以及每个维度的成员集合所对应的度量值,来确定所述参考数据集与所述报告数据集之间的匹配关系,以及根据所确定的匹配关系,进行数据验证。
6.根据权利要求5所述的一种数据检验方法,适用于数据管理系统,其特征在于:根据与所述数据立方体查询条件相应的源数据查询条件从源数据生成参考数据集,对参考数据集中的数据进行ETL模型中不可逆部分的变换,作为报告数据集。
7.根据权利要求6所述的一种数据检验方法,适用于数据管理系统,其特征在于:根据OLAP模型的逆变换模型,对所述报告数据集进行OLAP逆变换,以便生成OLAP数据集;根据所述参考数据集、所述报告数据集以及所述OLAP数据集之间的匹配关系,进行数据验证。
8.根据权利要求7所述的一种数据检验方法,适用于数据管理系统,其特征在于:如果所述参考数据集与所述报告数据集不相匹配,同时所述参考数据集与所述OLAP数据集相匹配,则确定OLAP模型存在问题。
9.根据权利要求8所述的一种数据检验方法,适用于数据管理系统,其特征在于:根据ETL模型的逆变换模型,对所述OLAP数据集进行ETL逆变换,以便生成ETL数据集;根据所述参考数据集、所述报告数据集、所述OLAP数据集以及所述ETL数据集之间的匹配关系,进行数据验证。
10.一种数据库管理系统,其特征在于,包括:呼叫检验模块和数据输入模块,所述呼叫检验模块接收所述数据库管理系统内建立的所述对象数据类型的限制条件;所述数据输入模块接收所述数据库管理系统内建立的所述对象并检查所述对象是否符合所述限制条件。
CN202110254240.4A 2021-03-09 2021-03-09 一种数据库管理系统及数据检验方法 Pending CN112905565A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110254240.4A CN112905565A (zh) 2021-03-09 2021-03-09 一种数据库管理系统及数据检验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110254240.4A CN112905565A (zh) 2021-03-09 2021-03-09 一种数据库管理系统及数据检验方法

Publications (1)

Publication Number Publication Date
CN112905565A true CN112905565A (zh) 2021-06-04

Family

ID=76108098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110254240.4A Pending CN112905565A (zh) 2021-03-09 2021-03-09 一种数据库管理系统及数据检验方法

Country Status (1)

Country Link
CN (1) CN112905565A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791933A (zh) * 2022-06-24 2022-07-26 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059206A1 (en) * 2004-09-14 2006-03-16 Kazutomo Ushijima Information lifecycle managing system and its data arrangement determining method
CN101211359A (zh) * 2006-12-31 2008-07-02 凌群电脑股份有限公司 数据库的输入数据检查方法及数据库管理系统
CN102207940A (zh) * 2010-03-31 2011-10-05 国际商业机器公司 用于验证数据的方法和系统
CN102479184A (zh) * 2010-11-23 2012-05-30 大连兆阳软件科技有限公司 一种数据库管理系统及输入数据检验方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059206A1 (en) * 2004-09-14 2006-03-16 Kazutomo Ushijima Information lifecycle managing system and its data arrangement determining method
CN101211359A (zh) * 2006-12-31 2008-07-02 凌群电脑股份有限公司 数据库的输入数据检查方法及数据库管理系统
CN102207940A (zh) * 2010-03-31 2011-10-05 国际商业机器公司 用于验证数据的方法和系统
CN102479184A (zh) * 2010-11-23 2012-05-30 大连兆阳软件科技有限公司 一种数据库管理系统及输入数据检验方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114791933A (zh) * 2022-06-24 2022-07-26 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统
CN114791933B (zh) * 2022-06-24 2022-10-04 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统

Similar Documents

Publication Publication Date Title
US11461294B2 (en) System for importing data into a data repository
US11360950B2 (en) System for analysing data relationships to support data query execution
US10678810B2 (en) System for data management in a large scale data repository
US9710536B2 (en) Method and system for validating data
US8341131B2 (en) Systems and methods for master data management using record and field based rules
US9477786B2 (en) System for metadata management
US8200614B2 (en) Apparatus and method to transform an extract transform and load (ETL) task into a delta load task
Vassiliadis et al. Modeling ETL activities as graphs.
US7743071B2 (en) Efficient data handling representations
US20120005153A1 (en) Creation of a data store
US11372880B2 (en) Data source system agnostic fact category partitioned information repository and methods for the insertion and retrieval of data using the information repository
US20130041900A1 (en) Script Reuse and Duplicate Detection
US8224791B2 (en) Information lifecycle cross-system reconciliation
US7720831B2 (en) Handling multi-dimensional data including writeback data
CN116719799A (zh) 环保数据治理方法、装置、计算机设备和存储介质
Dakrory et al. Automated ETL testing on the data quality of a data warehouse
CN112905565A (zh) 一种数据库管理系统及数据检验方法
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
Munawar Extract Transform Loading (ETL) Based Data Quality for Data Warehouse Development
Karkošková Architectural Design of Metadata Management Tool
Modi et al. Analysis of E-Commerce Backend Operations Data
CN114741531A (zh) 企业数据字典构建方法及装置
Poole DB4GL-An Intelligent Database System
Harleman Towards a generic model for audit trails

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication