CN107590158A - 一种获取数据源变更信息的方法和装置 - Google Patents

一种获取数据源变更信息的方法和装置 Download PDF

Info

Publication number
CN107590158A
CN107590158A CN201610536655.XA CN201610536655A CN107590158A CN 107590158 A CN107590158 A CN 107590158A CN 201610536655 A CN201610536655 A CN 201610536655A CN 107590158 A CN107590158 A CN 107590158A
Authority
CN
China
Prior art keywords
data
model
change
database
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610536655.XA
Other languages
English (en)
Other versions
CN107590158B (zh
Inventor
孟松杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610536655.XA priority Critical patent/CN107590158B/zh
Publication of CN107590158A publication Critical patent/CN107590158A/zh
Application granted granted Critical
Publication of CN107590158B publication Critical patent/CN107590158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种获取数据源变更信息的方法和装置,能够及时获取数据源的变更信息,并进行表结构变更操作或者新增数据源操作,以保证数据的完整性、及时性。本发明的获取数据源变更信息的方法包括:把数据源发生了变更的业务系统的数据抽取到数据仓库;根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。

Description

一种获取数据源变更信息的方法和装置
技术领域
本发明涉及计算机和计算机软件技术领域,特别地涉及一种获取数据源变更信息的方法和装置。
背景技术
随着电商业务的快速发展和扩张,业务流程也在不断变化、改进,为了满足业务的数据增长和业务变更需求,业务系统的数据库也要随之发生改变,包括新建数据库、数据库升级、数据表的表结构变更(例如:字段类型升级、添加字段)等。为满足业务的数据需求,已接入数据仓库的数据表也要及时变更,变更的类型主要有新增数据源、切换数据源、变更表结构等。
数据源是数据的来源。在本申请中,数据源是指提供数据仓库所需数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。通过数据源名称,可以找到相应的业务数据库的连接。一个数据源对应业务系统的一个数据库。
数据源中的数据通过数据上报过程被传递到数据仓库中。数据上报是数据抽取的前提,是下游数据传递到上游数据的过程。数据仓库的用户根据需要利用数据上报把要用到的业务系统的数据的属性信息传递到数据仓库,为数据抽取提供基础的数据源信息。数据上报可分为两类,一类是上报从未进入到数据仓库的数据;另一类是上报已接入数据仓库,但对应业务系统的数据表或数据库发生变更的信息,这样的变更可称之为数据源变更。
数据源变更是数据上报的一种,是根据业务系统的数据库变更,对已接入到数据仓库的数据表及其数据源做相应变更的操作。数据源变更类型可以包括新增数据源、切换数据源、变更表结构等。
元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据是描述数据的数据。在本发明中是指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。因此,元数据在数据源的变更过程中也起到了极为重要的作用。
在目前的现有技术中,发生数据源变更和相应的处理方式主要有如下两种情况。
一种是提前接到业务系统的研发人员的通知的情况,这时确认数据源将要发生变更。一般这种情况下不能立刻确定数据源将要变更的具体信息,而需要不断咨询研发人员以获取到详细的数据源变更信息。如果在这种情况下有人为遗忘发生,则会造成数据处理不及时,影响到数据的时效性。
另一种是没有提前获取到数据源变更通知的情况。当监控到数据仓库模型架构的基础数据层fdm(fundamental data model)层数据出现异常,或者数据使用方发现后反馈数据异常,那么数据仓库中清单表的负责人就要查找原因。负责人可通过咨询业务系统的研发人员、查询业务系统的表结构、查看数据表在数据仓库中的处理日志等方式,确认出现数据异常的原因。如果确定问题原因与业务系统有关,就要确定问题范围,即确定数据从哪天开始出现异常,然后根据出现异常的原因,对数据仓库的数据表进行变更操作,并重新抽取从出现问题那天开始的、业务系统中对应数据表新增或更新的所有数据到数据仓库的缓冲数据层bdm(buffering data model)层,并以剔除异常数据的bkactive(backup active)层数据为基础,拉链处理到fdm层。然后检查fdm层的数据是否仍有异常情况,如果有异常,需要继续检查原因,重新处理。
由上述介绍可知,现有的处理数据源变更的方案,在使用过程中,仍存在如下的缺陷:
1、如果提前知道数据源将要变更,但不知道具体的变更信息,则需要不断的沟通确认,一旦出现人为遗忘,将不能及时获取数据源变更信息,影响数据的时效性和完整性;
2、通常情况下,是在数据出现异常后,查找原因才发现是数据源发生变更导致的问题,如此将极大影响数据的准确性和用户体验。
发明内容
有鉴于此,本发明提供一种获取数据源变更信息的方法和装置,能够及时获取数据源的变更信息,并进行表结构变更操作或者新增数据源操作,以保证数据的完整性、及时性。
为实现上述目的,根据本发明的一个方面,提供了一种获取数据源变更信息的方法。
一种获取数据源变更信息的方法,包括:把数据源发生了变更的业务系统的数据抽取到数据仓库;根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
可选地,所述数据包括申请操作类型,并且,在建立所述数据变更模型和元数据的数据流模型之前,所述方法还包括根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
可选地,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
可选地,所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
可选地,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
可选地,所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
可选地,还包括:通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
根据本发明的另一方面,提供了一种获取数据源变更信息的装置。
一种获取数据源变更信息的装置,包括:数据抽取模块,用于把数据源发生了变更的业务系统的数据抽取到数据仓库;模型建立模块,用于根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;变更获取模块,用于根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
可选地,所述数据包括申请操作类型,并且,所述模型建立模块在建立所述数据变更模型和元数据的数据流模型之前,还用于根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
可选地,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
可选地,所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
可选地,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
可选地,所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
可选地,还包括:变更提醒模块,用于通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
根据本发明的又一方面,提供了一种获取数据源变更信息的装置。
一种获取数据源变更信息的装置,包括存储器和处理器,其中,所述存储器存储指令;所述处理器执行所述指令用于:把数据源发生了变更的业务系统的数据抽取到数据仓库;根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
可选地,所述数据包括申请操作类型,并且,在建立所述数据变更模型和元数据的数据流模型之前,所述处理器还用于根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
可选地,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
可选地,所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
可选地,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
可选地,所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
可选地,所述处理器还用于:通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
根据本发明的技术方案,基于业务系统上线流程,通过将数据抽取到数据仓库获取数据源的变更信息;并根据抽取的数据和数据仓库中保存的元数据信息建立业务系统的数据变更模型和元数据的数据流模型;最后建立数据源变更模型,从而实时获取到数据源的变更信息,以便通知到相应数据表的负责人实现对数据源变更信息的处理。采用本发明的技术方案,可以及时获取数据源的变更信息,并进行表结构变更操作或者新增数据源操作,从而保证数据的完整性、及时性;同时,还避免了在数据出现异常后,因人为疏忽造成反复的人工处理与数据验收工作。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例的实现原理示意图;
图2是根据本发明实施例的获取数据源变更信息的方法的主要步骤示意图;
图3是根据本发明一个实施例的获取数据源变更信息的装置的主要模块示意图;
图4是根据本发明另一实施例的获取数据源变更信息的装置的主要模块示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
数据源变更主要包括:新增数据源、切换数据源、变更表结构三类。其中,切换数据源为新增数据源的一种特例,比如一张表有数据源1,过一段时间增加了数据源2,则该表对应的数据源同时包括数据源1和数据源2,这种情况即是新增了数据源2;如果新增了数据源2后,数据源1的数据不再发生变化,则该表对应的数据源可以直接由数据源1切换为数据源2,这种情况即是切换数据源。因此,在本发明的介绍中主要针对如下两类数据源变更进行说明:变更表结构、新增数据源。
如图1所示,为本发明实施例的实现原理示意图。为了解决现有技术的问题,本发明基于业务系统上线流程,通过将数据抽取到数据仓库获取数据源的变更信息,并建立业务系统的表结构变更模型和新增数据源模型。然后,根据元数据信息获取接入数据仓库的数据表信息及其数据源信息,从而建立元数据的数据流模型,其中,元数据信息指的是所有已接入数据仓库的表对应的元数据信息。需要注意的是,所有已接入数据仓库的表也就是所有已经抽取数据到数据仓库的表,无论该表是否发生了数据源变更。然后,根据已接入数据仓库的数据表的元数据信息和数据源变更信息,统计出数据仓库中数据源发生变更的数据表及其数据源变更信息,建立表结构变更模型和新增数据模型,从而实时获取到数据源的变更信息。最后,可通过将数据源变更信息通知到相应数据表的负责人实现对数据源变更信息的处理。
下面将详述本发明的实施过程。
图2是根据本发明实施例的获取数据源变更信息的方法的主要步骤示意图。如图2所示,本发明的获取数据源变更信息的方法主要包括如下的步骤S21至步骤S23。
步骤S21:把数据源发生了变更的业务系统的数据抽取到数据仓库。
业务系统的变更在业务系统上线流程中申请及处理。把业务系统上线流程的数据抽取到数据仓库后,会先保存在数据仓库的缓冲数据层bdm中。其中,抽取的数据中需要包括申请操作类型,在业务系统发生变更后,可根据数据中的申请操作类型判断业务系统的变更。本发明中,后续在建立所述数据变更模型和元数据的数据流模型之前,还需要根据申请操作类型判断数据源变更的类型,数据源变更的类型本发明中以包括变更数据表结构和新增数据源为例进行说明。
另外,抽取的数据内容还需要包括:申请上线的系统、服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、字段名、字段类型等等。
步骤S22:根据数据和数据仓库中保存的元数据信息,建立业务系统的数据变更模型和元数据的数据流模型。
把业务系统上线流程的数据抽取并接入到数据仓库后,将根据数据源变更类型,确定需要建立何种类型的数据变更模型和元数据的数据流模型。以下根据数据源变更类型分为两种情况进行介绍。
情况一:若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
根据本发明,可根据所抽取的数据建立业务系统的数据表结构变更模型(如表1所示)。根据本发明的实施例,可根据数据仓库中保存的元数据信息建立数据表的数据流模型(粒度到数据仓库中的数据表和业务系统中的数据表,如表2所示)和字段对应关系模型(指的是源数据库中字段类型与数据仓库中字段类型的字段对应关系模型,如表3所示)。其中,数据仓库中保存的元数据信息指的是所有已接入数据仓库的表对应的元数据信息。所有已接入数据仓库的表也就是所有已经抽取数据到数据仓库的表,无论该表是否发生了数据源变更。
表1
表2
表3
源数据库类型 源数据库字段类型 数据仓库字段类型
由表1可知,数据表结构变更模型主要可以包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型等信息。另外,根据业务需要,数据表结构变更模型还可以包括申请人、申请说明等信息。
由表2可知,数据表的数据流模型主要可以包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息例如可以包括:服务器IP地址、数据库类型、数据库名和表名等,所述数据仓库中的数据流信息例如可以包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人等。
由表3可知,字段对应关系模型主要可以包括:源数据库类型、源数据库字段类型和数据仓库字段类型等信息。另外,字段对应关系模型还可以包括对应在数据仓库中字段类型的第二种选择,例如在源数据库中是int的类型,对应在数据仓库中存储为int类型,也可以选择在数据仓库中存储为bigint类型。
情况二:若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
根据本发明,可根据抽取的数据建立业务系统的新增数据源模型(如表4所示)。根据本发明的实施例,可根据数据仓库中保存的元数据信息建立数据表所属数据库的数据流模型(粒度到数据仓库中的数据表和业务系统中的数据库,如表5所示)。其中,数据仓库中保存的元数据信息指的是所有已接入数据仓库的表对应的元数据信息,所有已接入数据仓库的表也就是所有已经抽取数据到数据仓库的表,无论该表是否发生了数据源变更。
表4
服务器IP地址 数据库类型 新增数据库名
表5
由表4可知,新增数据源模型主要可以包括:服务器IP地址、数据库类型和新增数据库名等信息,另外,根据业务需要,新增数据源模型还可以包括申请人、申请说明等信息。
由表5可知,数据表所属数据库的数据流模型主要可以包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息例如可以包括:服务器IP地址、数据库类型、最新数据库名和表名等,预计新增数据库的信息例如可以包括预计新增的数据库名等,数据仓库中的数据流信息例如可以包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人等。
新增数据源的变更类型,是针对业务系统按照时间范围分库分表存储数据的情况的。表5中所列的“最新数据库名”是当前时间段的数据所在的数据库;“将要新增的数据库名”是指根据分库分表规则确定的、将要新增的、存储下一段时间的数据的数据库。
以发票业务系统为例,假设这个系统每4个月新增一个分库,对于2016年来说,发票业务系统的数据库新增计划如表6所示。
表6
月份 2016年1月至4月 2016年5月至8月 2016年9月至12月
数据库名 ivc20161 ivc20162 ivc20163
发票业务系统在每次即将到达数据库新增时间时才会创建新的数据库,比如假设数据库ivc20161是要在2015年12月28号创建的,用于存储2016年1月到4月的数据;数据库ivc20162是要在2016年4月27日创建的,用于存储2016年5月到8月的数据;数据库ivc20163是要在2016年8月28日创建,用于存储2016年9月到12月的数据。根据目前的时间来确定将要新增的数据库名。例如:假设目前是2016年4月,那么目前在用的最新数据库名是ivc20161,将要新增的数据库名是ivc20162。
步骤S23:根据数据变更模型和元数据的数据流模型,建立数据源变更模型,该数据源变更模型包括数据源变更信息。
根据步骤S22,即可建立数据变更模型和元数据的数据流模型。
下面将根据数据源变更类型,确定需要建立何种类型的数据源变更模型。根据数据源变更类型,同样分为两种情况进行介绍。
情况一:若所述数据源变更的类型为变更数据表结构,将根据数据表结构变更模型、数据表的数据流模型和字段对应关系模型,建立数据源变更模型—数据源表结构变更模型。
当业务系统的数据表结构变更模型中的表名与数据表的数据流模型中的表名一致,就将该表名对应的表结构变更信息、数据仓库中的数据流信息写入数据源表结构变更模型(如表7所示)。
表7
以计费业务系统的计费明细表fee_detail添加字段updatetime为例,数据源表结构变更模型存储的信息如表8和表9所示,表7为表8和表9中数据字段的集合。其中,各信息字段对应的值均为示例,本领域技术人员可根据实际应用的具体情况进行适应性修改。
表8
表9
情况二:若所述数据源变更的类型为新增数据源,则将根据新增数据源模型和数据表所属数据库的数据流模型,建立数据源变更模型—新增数据源模型。
当业务系统新增数据源模型中的新增数据库名与表所属数据库的数据流模型中的将要新增的数据库名一致,就将该数据库名对应的新增数据库的信息、数据流信息写入新增数据源模型。然后将表所属数据库的数据流模型中的最新数据库名变更为将要新增的数据库名,并根据业务系统数据库的分库分表规则把将要新增的数据库名更新为下一个将要新增的数据库名。如此,即可建立新增数据源模型,如表10所示。
表10
下面,以前面提到的发票业务系统为例,说明新增数据库名、最新数据库名与将要新增数据库名的关系。假设目前是2016年4月份,目前的发票数据存储在数据库ivc20161,到4月底业务系统将新增数据库ivc20162。那么,可以得到如下表11所示出的新增数据库名、最新数据库名与将要新增数据库名的关系。
表11
表11中新增数据库名ivc20162与将要新增的数据库名ivc20162一致,就将数据库ivc20162的相关信息和数据流信息写入新增数据源模型。这样,新增数据源模型中新增数据库名和将要新增的数据库名一致,都是ivc20162,然后对数据表所属数据库的数据流模型的最新数据库名和将要新增的数据库名进行变更,变更后即可得到如表12所示的数据表所属数据库的数据流模型信息。其中,将要新增的数据库名可参见表6进行设置。
表12
通过上述的步骤S21至步骤S23,即可实现根据业务系统上线流程中获取的数据及数据仓库中保存的元数据信息,通过拉链处理的方式,及时、准确地获取数据源的变更信息。
在获取到数据源的变更信息后,本发明还可以通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。例如:可以在报表平台工具中定制邮件任务,把数据源变更信息及时发送给数据仓库的表负责人,负责人根据收到的信息及时处理,对表结构进行变更或者新增数据源。
图3是根据本发明一个实施例的获取数据源变更信息的装置的主要模块示意图。如图3所示,本发明的获取数据源变更信息的装置30主要包括数据抽取模块31、模型建立模块32和变更获取模块33。
数据抽取模块31用于把数据源发生了变更的业务系统的数据抽取到数据仓库;模型建立模块32用于根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;变更获取模块33用于根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
根据本发明的技术方案,所述数据包括申请操作类型,并且,模型建立模块32在建立所述数据变更模型和元数据的数据流模型之前,还可以用于根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
其中,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;
所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;
所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
另外,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;
所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
本发明的获取数据源变更信息的装置30还可以包括变更提醒模块,用于通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
图4是根据本发明另一实施例的获取数据源变更信息的装置的主要模块示意图。如图4所示,本发明的获取数据源变更信息的装置40主要包括存储器41和处理器42。
其中,存储器41存储指令;处理器42执行所述指令用于:把数据源发生了变更的业务系统的数据抽取到数据仓库;根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
根据本发明,所述数据包括申请操作类型,并且,在建立所述数据变更模型和元数据的数据流模型之前,处理器42还可以用于根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
其中,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
并且,所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
其中,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
并且,所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
另外,本发明的处理器42还可以用于:通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
根据本发明实施例的技术方案,基于业务系统上线流程,通过将数据抽取到数据仓库获取数据源的变更信息;并根据抽取的数据和数据仓库中保存的元数据信息建立业务系统的数据变更模型和元数据的数据流模型;最后建立数据源变更模型,从而实时获取到数据源的变更信息,以便通知到相应数据表的负责人实现对数据源变更信息的处理。采用本发明的技术方案,可以及时获取数据源的变更信息,并进行表结构变更操作或者新增数据源操作,从而保证数据的完整性、及时性;同时,还避免了在数据出现异常后,因人为疏忽造成反复的人工处理与数据验收工作。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种获取数据源变更信息的方法,其特征在于,包括:
把数据源发生了变更的业务系统的数据抽取到数据仓库;
根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;
根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
2.根据权利要求1所述的方法,其特征在于,所述数据包括申请操作类型,并且,
在建立所述数据变更模型和元数据的数据流模型之前,所述方法还包括根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
3.根据权利要求2所述的方法,其特征在于,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
4.根据权利要求3所述的方法,其特征在于,
所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;
所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;
所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
5.根据权利要求2所述的方法,其特征在于,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
6.根据权利要求5所述的方法,其特征在于,
所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;
所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
7.根据权利要求1所述的方法,其特征在于,还包括:通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
8.一种获取数据源变更信息的装置,其特征在于,包括:
数据抽取模块,用于把数据源发生了变更的业务系统的数据抽取到数据仓库;
模型建立模块,用于根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;
变更获取模块,用于根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
9.根据权利要求8所述的装置,其特征在于,所述数据包括申请操作类型,并且,
所述模型建立模块在建立所述数据变更模型和元数据的数据流模型之前,还用于根据所述申请操作类型判断所述数据源变更的类型,所述数据源变更的类型包括变更数据表结构和新增数据源。
10.根据权利要求9所述的装置,其特征在于,若所述数据源变更的类型为变更数据表结构,则所述数据变更模型为数据表结构变更模型,且所述元数据的数据流模型包括数据表的数据流模型和字段对应关系模型。
11.根据权利要求10所述的装置,其特征在于,
所述数据表结构变更模型包括:服务器IP地址、数据库类型、数据库名、表名、表结构变更类型、变更字段名和变更后字段类型;
所述数据表的数据流模型包括表结构信息和数据仓库中的数据流信息,其中,所述表结构信息包括:服务器IP地址、数据库类型、数据库名和表名,所述数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人;
所述字段对应关系模型包括:源数据库类型、源数据库字段类型和数据仓库字段类型。
12.根据权利要求9所述的装置,其特征在于,若所述数据源变更的类型为新增数据源,则所述数据变更模型为新增数据源模型,且所述元数据的数据流模型为数据表所属数据库的数据流模型。
13.根据权利要求12所述的装置,其特征在于,
所述新增数据源模型包括:服务器IP地址、数据库类型和新增数据库名;
所述数据表所属数据库的数据流模型包括表所属数据库的信息、预计新增数据库的信息和数据仓库中的数据流信息,其中,所述表所属数据库的信息包括:服务器IP地址、数据库类型、最新数据库名和表名,预计新增数据库的信息包括预计新增的数据库名,数据仓库中的数据流信息包括:缓冲数据层表名、bkactive层表名、基础数据层表名和表负责人。
14.根据权利要求8所述的装置,其特征在于,还包括:变更提醒模块,
用于通过定制邮件任务,将获取的所述数据源变更信息发送给所述数据仓库的表负责人,以用于根据所述数据源变更信息进行数据源的变更。
15.一种获取数据源变更信息的装置,其特征在于,包括存储器和处理器,其中,
所述存储器存储指令;
所述处理器执行所述指令用于:
把数据源发生了变更的业务系统的数据抽取到数据仓库;
根据所述数据和数据仓库中保存的元数据信息,建立所述业务系统的数据变更模型和元数据的数据流模型;
根据所述数据变更模型和所述元数据的数据流模型,建立数据源变更模型,所述数据源变更模型包括数据源变更信息。
CN201610536655.XA 2016-07-08 2016-07-08 一种获取数据源变更信息的方法和装置 Active CN107590158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610536655.XA CN107590158B (zh) 2016-07-08 2016-07-08 一种获取数据源变更信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610536655.XA CN107590158B (zh) 2016-07-08 2016-07-08 一种获取数据源变更信息的方法和装置

Publications (2)

Publication Number Publication Date
CN107590158A true CN107590158A (zh) 2018-01-16
CN107590158B CN107590158B (zh) 2020-12-22

Family

ID=61046487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610536655.XA Active CN107590158B (zh) 2016-07-08 2016-07-08 一种获取数据源变更信息的方法和装置

Country Status (1)

Country Link
CN (1) CN107590158B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280230A (zh) * 2018-02-27 2018-07-13 北京中关村科金技术有限公司 一种分析数据的方法、装置、设备及存储介质
CN109241033A (zh) * 2018-08-21 2019-01-18 北京京东尚科信息技术有限公司 创建实时数据仓库的方法和装置
CN109614398A (zh) * 2018-11-02 2019-04-12 阿里巴巴集团控股有限公司 数据库中表结构的变更方法及装置
CN110377589A (zh) * 2019-07-23 2019-10-25 北京启迪区块链科技发展有限公司 一种数据源库表信息探测方法、装置、服务器和介质
CN110457334A (zh) * 2019-07-31 2019-11-15 北京三快在线科技有限公司 信息推送方法、装置、电子设备及可读存储介质
CN111967781A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 系统改造的影响评估方法及装置
CN112650744A (zh) * 2020-12-31 2021-04-13 广州晟能软件科技有限公司 一种防止数据二次污染的数据治理方法
CN112925795A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种订单数据的处理方法和装置
CN113138973A (zh) * 2021-04-20 2021-07-20 建信金融科技有限责任公司 数据管理系统及工作方法
CN115470217A (zh) * 2022-11-14 2022-12-13 云筑信息科技(成都)有限公司 一种实时解决数仓模型变化响应问题的方法
CN115712623A (zh) * 2022-11-22 2023-02-24 中国司法大数据研究院有限公司 一种基于捕获元数据变更的批量数据容错采集方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152070B1 (en) * 1999-01-08 2006-12-19 The Regents Of The University Of California System and method for integrating and accessing multiple data sources within a data warehouse architecture
CN103460208A (zh) * 2011-04-08 2013-12-18 波音公司 用于将数据加载到时态数据仓库的方法和系统
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统
CN104750826A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种结构化数据资源元数据自动甄别与动态注册方法
CN104899257A (zh) * 2015-05-18 2015-09-09 北京京东尚科信息技术有限公司 分布式数据仓库中的数据更新方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152070B1 (en) * 1999-01-08 2006-12-19 The Regents Of The University Of California System and method for integrating and accessing multiple data sources within a data warehouse architecture
CN103460208A (zh) * 2011-04-08 2013-12-18 波音公司 用于将数据加载到时态数据仓库的方法和系统
CN103902671A (zh) * 2014-03-19 2014-07-02 北京科技大学 一种异构多源数据的动态集成方法及系统
CN104750826A (zh) * 2015-03-31 2015-07-01 克拉玛依红有软件有限责任公司 一种结构化数据资源元数据自动甄别与动态注册方法
CN104899257A (zh) * 2015-05-18 2015-09-09 北京京东尚科信息技术有限公司 分布式数据仓库中的数据更新方法和装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280230A (zh) * 2018-02-27 2018-07-13 北京中关村科金技术有限公司 一种分析数据的方法、装置、设备及存储介质
CN109241033A (zh) * 2018-08-21 2019-01-18 北京京东尚科信息技术有限公司 创建实时数据仓库的方法和装置
CN109614398A (zh) * 2018-11-02 2019-04-12 阿里巴巴集团控股有限公司 数据库中表结构的变更方法及装置
CN110377589A (zh) * 2019-07-23 2019-10-25 北京启迪区块链科技发展有限公司 一种数据源库表信息探测方法、装置、服务器和介质
CN110457334A (zh) * 2019-07-31 2019-11-15 北京三快在线科技有限公司 信息推送方法、装置、电子设备及可读存储介质
CN112925795A (zh) * 2019-12-06 2021-06-08 北京沃东天骏信息技术有限公司 一种订单数据的处理方法和装置
CN111967781B (zh) * 2020-08-18 2024-04-16 中国银行股份有限公司 系统改造的影响评估方法及装置
CN111967781A (zh) * 2020-08-18 2020-11-20 中国银行股份有限公司 系统改造的影响评估方法及装置
CN112650744A (zh) * 2020-12-31 2021-04-13 广州晟能软件科技有限公司 一种防止数据二次污染的数据治理方法
CN112650744B (zh) * 2020-12-31 2024-04-30 广州晟能软件科技有限公司 一种防止数据二次污染的数据治理方法
CN113138973B (zh) * 2021-04-20 2022-12-16 建信金融科技有限责任公司 数据管理系统及工作方法
CN113138973A (zh) * 2021-04-20 2021-07-20 建信金融科技有限责任公司 数据管理系统及工作方法
CN115470217A (zh) * 2022-11-14 2022-12-13 云筑信息科技(成都)有限公司 一种实时解决数仓模型变化响应问题的方法
CN115470217B (zh) * 2022-11-14 2023-04-07 云筑信息科技(成都)有限公司 一种实时解决数仓模型变化响应问题的方法
CN115712623A (zh) * 2022-11-22 2023-02-24 中国司法大数据研究院有限公司 一种基于捕获元数据变更的批量数据容错采集方法

Also Published As

Publication number Publication date
CN107590158B (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN107590158A (zh) 一种获取数据源变更信息的方法和装置
CN106815709B (zh) 一种服务快速响应中心支撑系统及方法
US11455599B2 (en) Systems and methods for improved meeting engagement
US10073837B2 (en) Method and system for implementing alerts in semantic analysis technology
JP5896382B2 (ja) ノンパラメトリック、多次元、空間的および一時的な人間の挙動または広範な技術的観測値を処理するネットワークサーバー装置構成およびそれに関連する方法
CN107527299A (zh) 一种工程施工日志的记录系统
US20150127432A1 (en) Testing and Evaluating the recoverability of a Process
CN114969161B (zh) 数据处理方法和装置、数据中台系统
CN110096258A (zh) 一种基于Terraform的OpenStack基础设施架构管理的方法
CN108830433A (zh) 一种基于lbs的运维路线规划方法、系统
CN108090679A (zh) 一种基于用户停电敏感度的停电服务管理方法和系统
Huang et al. A team formation model with personnel work hours and project workload quantified
CN113673839A (zh) 智能基层事件网格化自动派发方法和基层事件处理系统
CN116227840A (zh) 智能排班方法、装置及介质
CN111612532A (zh) 一种基于大数据技术实现电力行业精准营销的系统和方法
CN111125263A (zh) 预约请求的管理方法、预约功能实体以及可读存储介质
CN110059234A (zh) 水务异常事件侦测方法及装置、计算机装置及存储介质
CN113590604B (zh) 业务数据的处理方法、装置和服务器
CN114861909A (zh) 模型质量监控方法、装置、电子设备以及存储介质
CN115809713A (zh) 催派预测模型的训练方法、快递催派量的预测方法及装置
US20110099235A1 (en) Collation of multi-user, multi-format, email communication with common subject titles
CN113095788B (zh) 问题分发方法、装置、电子设备以及存储介质
CN113283791B (zh) 选择自提柜特征的方法、装置、设备及存储介质
CN114003736A (zh) 一种基于数据中台的运营联动方法、装置、设备和介质
CN107463576A (zh) 数据处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant