一种结构化数据资源元数据自动甄别与动态注册方法
技术领域
本发明涉及信息技术领域,尤其涉及一种结构化数据资源元数据自动甄别与动态注册方法。
背景技术
近年来,数据仓库技术日趋成熟,越来越多的企业决策者意识到需要基于数据仓库的信息决策系统来提升决策的准确度,所以,数据仓库能否利用数据快速的提供有效的决策方案或解决问题的方案,对于决策者能否做出正确的决策具有重要的意义。
元数据是描述数据的数据,用于规范并统一数据资源的结构,不直接关联数据。所以,元数据仓库在为决策者提供解决方案时,需要根据元数据与源数据之间的映射关系,访问源数据库,才能得到源数据,再利用源数据为决策者提供解决方案。由于在解决一个实际问题时,可能需要大量的数据,而这些数据可能存储在不同的数据源中,这些数据源的结构可能也不同,这样,就很难实现不同源数据的迁移和交换,进而就会导致数据仓库提供解决方案的速度下降,或者有效性下降。
发明内容
本发明的目的在于提供一种结构化数据资源元数据自动甄别与动态注册方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种结构化数据资源元数据自动甄别与动态注册方法,包括以下步骤:
S1,从元数据仓库中获取元数据模型;
S2,根据所述元数据模型获取待注册的数据项,根据所述待注册的数据项,访问并获取源数据库中的业务数据,其中,所述待注册的数据项为所述元数据模型的必须项和条件限定项;
S3,实时监视所述待注册的数据项对应的源数据库中的业务数据的变化情况,如果所述业务数据发生变化,则标记所述业务数据的变化类型,得到标记的所述业务数据的变化类型;否则,进入下一个循环;
S4,判断所述业务数据和对应的数据项是否在所述元数据仓库中注册,若未注册,则执行S5,若已经注册,则执行S6;
S5,扫描所述元数据仓库,将所有的所述业务数据和对应的数据项注册到所述元数据仓库中;
S6,根据S3中得到的标记的所述业务数据变化类型,对所述业务数据和对应的数据项进行相应类型的注册处理。
其中,S1具体为,在元数据仓库中,进行全库扫描,获取所有的元数据模型。
其中,S2具体包括如下步骤:
S201,根据所述元数据模型获取数据元素模型和源数据信息;
S202,获取所述数据元素模型和源数据信息的必须项和条件限定项做为待注册的数据项;
S203,根据所述待注册的数据项与数据源的映射关系,访问业务数据,获取待注册的业务数据。
优选地,S201中,所述元数据模型按照概念范围的大小划分成四层,依次为系列、集合、实体和子集;所述系列中包括对象和活动;所述集合中包括对象和活动;所述实体中包括特征、对象、子对象、活动、时间和地点;所述子集中包括特征、对象、子对象、时间和地点。
优选地,S201中,所述数据元素模型根据6W规则划分为时间类、地点类、对象类、参与者类、资料类、活动类、特征类和参照类。
具体地,S201中,所述源数据信息包括源数据库的配置信息、表信息和数据项信息。
具体地,S3中,所述业务数据的变化类型包括新增、修改和/或删除。
其中,S6具体为:
若变化的类型为新增,则将所述业务数据及对应的数据项注册在所述元数据仓库中;
若变化的类型为修改,则将所述业务数据及对应的数据项删除后再重新注册,并检查所述业务数据的所属父节点是否已经注册,如果没有注册,则将所述所属父节点进行注册;
若变化的类型为删除,则删除所述业务数据及所述业务数据对应的数据项,并删除所述数据项的所有子集的元数据。
其中,S3具体为:
S301,根据源数据库自带的监控机制,建立对所述待注册的数据项对应的源数据库中的业务数据进行监控的监控数据表;
S302,对所述监控数据表进行分析,获取设定时间范围内发生变化的业务数据;
S303,根据变化类型,对所述发生变化的业务数据进行标记。
其中,S5和S6中,所述注册具体为:
根据标识,按照所述元数据模型的结构分层次注册,并对注册的元数据数据项进行记录。
本发明的有益效果是:本发明实施例提供的结构化数据资源元数据自动甄别与动态注册方法,通过将元数据模型的必须项和条件限定项对应的业务数据,从源数据中提取出来,再注册到元数据仓库中,实现了在元数据仓库中,建立统一的数据结构,并以散落在源数据中的重要业务内容作为索引,快速提供源数据,使不同源数据的迁移和交换变得容易,进而提高了元数据仓库提供解决方案的速度和有效性。
附图说明
图1是本发明实施例提供的方法流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例一
如图1所示,本发明实施例提供了一种结构化数据资源元数据自动甄别与动态注册方法,包括以下步骤:
S1,从元数据仓库中获取元数据模型;
S2,根据所述元数据模型获取待注册的数据项,根据所述待注册的数据项,访问并获取源数据库中的业务数据,其中,所述待注册的数据项为所述元数据模型的必须项和条件限定项;
S3,实时监视所述待注册的数据项对应的源数据库中的业务数据的变化情况,如果所述业务数据发生变化,则标记所述业务数据的变化类型,得到标记的所述业务数据的变化类型;否则,进入下一个循环;
S4,判断所述业务数据和对应的数据项是否在所述元数据仓库中注册,若未注册,则执行S5,若已经注册,则执行S6;
S5,扫描所述元数据仓库,将所有的所述业务数据和对应的数据项注册到所述元数据仓库中;
S6,根据S3中得到的标记的所述业务数据变化类型,对所述业务数据和对应的数据项进行相应类型的注册处理。
与现有技术中的重要业务数据散落在不同的数据源中,不利于进行数据迁移和交换相比,采用上述方法,通过将元数据模型的必须项和条件限定项对应的业务数据,从源数据中提取出来,再注册到元数据仓库中,实现了在元数据仓库中,建立统一的数据结构,并以散落在源数据中的重要业务内容作为索引,快速提供源数据,使不同源数据的迁移和交换变得容易,进而提高了元数据仓库提供解决方案的速度和有效性。
本发明实施例中,S1具体为,在元数据仓库中,进行全库扫描,获取所有的元数据模型。
通过上述方法,可以将元数据仓库中记载的数据项,对应的散落在多个数据源中的重要的业务数据抽取出来,并注册到元数据仓库中,避免漏掉某些重要的业务数据,从而影响提供决策的速度和有效性。
本发明实施例中,S2具体包括如下步骤:
S201,根据所述元数据模型获取数据元素模型和源数据信息;
S202,获取所述数据元素模型和源数据信息的必须项和条件限定项做为待注册的数据项;
S203,根据所述待注册的数据项与数据源的映射关系,访问业务数据,获取待注册的业务数据。
元数据是描述数据的数据,元数据模型中包含数据元素模型和源数据信息,通过元数据模型的数据项访问源数据时,可通过数据元素模型和源数据信息与源数据的映射关系,访问到相应的源数据。
数据元是数据中不可分割的最小单元,数据源的重要度包括M项、C项和O项,M项为必须项,C项为条件限定项,O项为可省略项。
为了快速而准确的访问到源数据,本发明实施例中,将必须项和条件限定项作为待注册的数据项,再依据该待注册的数据项访问待注册的源数据。
本发明实施例中,S201中,所述元数据模型按照概念范围的大小划分成四层,依次为系列、集合、实体和子集;所述系列中包括对象和活动;所述集合中包括对象和活动;所述实体中包括特征、对象、子对象、活动、时间和地点;所述子集中包括特征、对象、子对象、时间和地点。
其中,系列和集合中的内容是概括性的概念,系列中包含的概念范围大于集合中包含的概念范围,比如,系列中包含的概念为动物,集合中包含的概念是哺乳动物或非哺乳动物,动物是哺乳动物或非哺乳动物的上一级的概念。
实体和子集中包含的内容是具体的概念,实体中包含的概念范围大于子集中包含的概念范围,同时,实体中包含的具体概念抽象之后的上一级就是集合中的概念,比如,非哺乳动物中有鸟、鱼等,鱼中包括淡水鱼或咸水鱼,则在这个例子中,鸟、鱼是实体中包含的内容,淡水鱼或咸水鱼是鱼的下一级概念,是子集中的内容,但都是具体的内容,而不是抽象的内容。而鸟、鱼这些具体内容抽象之后得到的上一级的概念就是非哺乳动物。
现有技术中,许多元数据仓库中元数据模型使用不同的元数据管理工具,依据不同的元数据管理标准来表示和处理,所以企业的业务的数据流和信息数据流一般需要依赖于特定的开发人员进行维护,且不同的系统之间的数据迁移和数据交换异常困难。本发明实施例中,元数据模型按照概念范围的大小划分成四层,建立了统一的结构化元数据结构,规范了源数据的数据结构。从而解决了现有技术中的问题。
本发明实施例中,S201中,所述数据元素模型根据6W规则划分为时间类、地点类、对象类、参与者类、资料类、活动类、特征类和参照类。
6W规则是指诺贝尔文学奖获得者英国作家吉卜林的思考问题、解决问题的方法,在信息技术领域中,在上述基础上明确了业务逻辑6W描述方法,即“Where(什么地方)、When(什么时间)、Who(什么人)、Which(针对什么)、What(做了什么,含如何做)、Why(为什么)”。
通过将数据结构类型划分为上述八大类,更有利于统一数据结构的建立,有利于数据的管理和利用。
本发明实施例中,S201中,所述源数据信息包括源数据库的配置信息、表信息和数据项信息。
元数据作为描述数据的数据,其中,包括源数据库的配置信息、表信息和数据项信息。
本发明实施例中,S3中,所述业务数据的变化类型包括新增、修改和/或删除。
上述业务数据的变化类型几乎包含了所有的数据变化情况,所以后续根据数据的变化类型对数据进行注册处理,可以包含所有的需要注册的业务数据。由于数据的变化类型不相同时,对数据的注册处理过程不相同,所以,在注册数据之前,需要对数据的变化类型进行记录,从而使注册过程变得清晰、简单、易于操作。
本发明的实施例中,S6具体可以为:
若变化的类型为新增,则将所述业务数据及对应的数据项注册在所述元数据仓库中;
若变化的类型为修改,则将所述业务数据及对应的数据项删除后再重新注册,并检查所述业务数据的所属父节点是否已经注册,如果没有注册,则将所述所属父节点进行注册;
若变化的类型为删除,则删除所述业务数据及所述业务数据对应的数据项,并删除所述数据项的所有子集的元数据。
上述数据的注册处理过程,是根据业务数据的变化情况进行的,可以实现元数据仓库中注册的数据与源数据保持一致。
本发明实施例中,S3具体为:
S301,根据源数据库自带的监控机制,建立对所述待注册的数据项对应的源数据库中的业务数据进行监控的监控数据表;
S302,对所述监控数据表进行分析,获取设定时间范围内发生变化的业务数据;
S303,根据变化类型,对所述发生变化的业务数据进行标记。
本发明实施例中,S5和S6中,所述注册具体为:
根据标识,按照所述元数据模型的结构分层次注册,并对注册的元数据数据项进行记录。
比如,当元数据模型的结构包括四层:系列、集合、实体、子集,则可以按照系列、集合、实体、子集逐次分批注册,避免一次性大数据造成拥堵或内存不足,并记录已注册的元数据数据项;如果数据项是实体或特征,且有条件,则需要判断条件对应的数据是否已经注册,如果没有注册则根据标识进行注册。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的结构化数据资源元数据自动甄别与动态注册方法,通过将元数据模型的必须项和条件限定项对应的业务数据,从源数据中提取出来,再注册到元数据仓库中,实现了在元数据仓库中,建立统一的数据结构,并以散落在源数据中的重要业务内容作为索引,快速提供源数据,使不同源数据的迁移和交换变得容易,进而提高了元数据仓库提供解决方案的速度和有效性。
实施例二
本发明实施例提供了一种结构化数据资源元数据自动甄别与动态注册方法,在为解决堵车问题提供处理方案中的应用。
在源数据库中包括的大量的数据,而导致交通堵车的因素一般包括:路面损坏、交通灯出现故障、缺少疏导人员、特定时间地点、限速、维修路面或临街建筑等。而导致堵车问题的因素在多次堵车之后就能够基本确定,所以,为了能够为交通中堵车问题的处理方案提供依据,可以按照本发明实施例一提供的结构化数据资源元数据自动甄别与动态注册方法将导致堵车的因素作为关键内容,从源数据库中抽取出来,再将该关键内容存储到元数据仓库中,然后,可以直接从元数据仓库中读取容易导致堵车的因素数据,并对这些因素数据及其严重程度进行分析,从而获取可能出现堵车的地点和时间,为提出解决堵车问题的处理方案提供依据。
比如,某个源数据库A中,存储了某个地段A的各种信息,而这些信息中,导致该地段经常出现堵车的因素为:交通灯出现故障;另一个源数据库B中,存储了某个地段B的各种信息,而这些信息中,导致该地段经常出现堵车的因素为:临街建筑多;则,通过将上述两个堵车的因素:交通灯出现故障和临街建筑多,及其导致堵车的影响严重程度等信息分别从源数据库A和源数据库B中抽取出来,并存储在元数据仓库中,则在元数据仓库中形成了导致堵车的因素数据集,从而元数据仓库可以根据该数据集为解决堵车问题提供处理方案。
本发明实施例提供的方法,与从信息量巨大的源数据库A和源数据库B中读取容易导致堵车的两个因素交通灯出现故障和临街建筑多相比,不仅能够提高元数据仓库提供解决方案的速度,而且能够提高元数据仓库提供解决方案的有效性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。