CN109446263A - 一种数据关系关联方法及装置 - Google Patents
一种数据关系关联方法及装置 Download PDFInfo
- Publication number
- CN109446263A CN109446263A CN201811303620.7A CN201811303620A CN109446263A CN 109446263 A CN109446263 A CN 109446263A CN 201811303620 A CN201811303620 A CN 201811303620A CN 109446263 A CN109446263 A CN 109446263A
- Authority
- CN
- China
- Prior art keywords
- data
- treatment process
- structured data
- incidence relation
- process metadata
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在本申请实施例提供的数据关系关联方法及装置中,包括:获取至少一个处理过程元数据;根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。由于本申请可以将不同格式的处理过程元数据均解析成规范的模型文本,然后再对模型文本进行处理,使得本方法可以适配众多的大数据集成工具。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据关系关联方法及装置。
背景技术
大数据环境下,各行业都积累了丰富的数据,通过数据仓库的构建,将分布在各系统中的原始数据进行整合,为领导决策分析提供了数据依据。但随着数据仓库接入的表和建立的模型越来越多,数据之间的关系也越来越复杂,如何能自动化的、清晰的、准确的展现数据的来源和数据的流向,在元数据管理中尤为重要。
传统的方式是依靠手工维护,一旦处理过程脚本发生变化,手工维护遗漏或不及时的话,就会造成关系不准确。而大部分的数据关联分析技术主要是通过SQL解析实现数据关联的分析,而SQL解析过程主要是通过对语法树中select、from、where、group by、insert等关键字的捕捉、按照一定的顺序对SQL语义解析,得到数据的关联关系,一旦SQL语句复杂且嵌套层数多,写法不规范,则无法准确的解析出数据之间的关系。
随着大数据技术的广泛应用,传统写SQL脚本的数据处理方式已远远不能满足大数据量的处理要求,更多的厂家已采用ETL技术,通过组件化的方式实现大量的离线数据和实时数据的接入和处理。如何对众多的ETL工具统一处理,准确地解析出表间、字段间的关系,是本领域技术人员亟需解决的问题。
申请内容
有鉴于此,本申请实施例提供了一种数据关系关联方法及装置。
第一方面,本申请实施例提供了一种数据关系关联方法,所述方法包括:获取至少一个处理过程元数据;根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
在一个可能的设计中,所述结构数据包括表结构和字段结构,所述根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,包括:根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系;根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
在一个可能的设计中,在所述获取至少一个处理过程元数据之前,所述方法还包括:每间隔第一时间段,从所述源数据库获得第一结构数据;每间隔第二时间段,从所述目标数据库获得第二结构数据。
在一个可能的设计中,所述方法还包括:每间隔第三时间段,获取新的至少一个处理过程元数据;判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同;若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。
在一个可能的设计中,所述更新所述第一结构数据与所述第二结构数据的关联关系之后,包括:更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
第二方面,本申请实施例提供了一种数据关系关联装置,所述装置包括:元数据获取模块,用于获取至少一个处理过程元数据;文本解析模块,用于根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;关联关系建立模块,用于根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;关系图展示模块,用于展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
在一个可能的设计中,所述关联关系建立模块包括:字段关系建立子模块,用于根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系;表关系建立子模块,用于根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
在一个可能的设计中,所述装置还包括:第一结构数据获得模块,用于每间隔第一时间段,从所述源数据库获得第一结构数据;第二结构数据获得模块,用于每间隔第二时间段,从所述目标数据库获得第二结构数据。
在一个可能的设计中,所述装置还包括:元数据获取模块,用于每间隔第三时间段,获取新的至少一个处理过程元数据;数据不同判断模块,用于判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同;关系更新模块,用于若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。
在一个可能的设计中,所述装置还包括:关系图更新模块,用于更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
在本申请实施例提供的数据关系关联方法及装置中,包括:获取至少一个处理过程元数据;根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。本申请实施例获取处理过程元数据,通过对该处理过程元数据进行解析获得模型文本,然后再根据模型文本建立结构数据之间的关联关系。由于本申请可以将不同格式的处理过程元数据均解析成规范的模型文本,然后再对模型文本进行处理,使得本方法可以适配众多的大数据集成工具。
为使本申请实施例所要实现的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚的说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请第一实施例提供的数据关系关联方法的流程图;
图2是图1中步骤S130的具体步骤的流程示意图;
图3是步骤S110之前的步骤的流程图;
图4是本申请第二实施例提供的数据关系关联装置的结构框图;
图5是由本申请实施例提供的数据关系关联方法获得的关联关系图;
图6是图5示出的关联关系图变更后获得的关联关系图。
具体实施方式
第一实施例
请参见图1,图1示出了本申请第一实施例提供的数据关系关联方法的流程示意图,具体包括如下步骤:
步骤S110,获取至少一个处理过程元数据。
处理过程元数据指的是原始数据与目标数据两者之间的处理过程,即原始数据通过某种处理过程得到了目标数据,上述的某种处理过程便是处理过程元数据。处理过程元数据具体可以为脚本文件。
获取处理过程元数据的方式有多种,可以是通过JDBC直连脚本库获取处理过程元数据,也可以通过HTTP接口获取处理过程元数据,或通过解析shell脚本、XML文件获取处理过程元数据。
步骤S120,根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本。
对处理过程元数据按照关键字与括号格式进行解析,可以将每个处理过程元数据解析成模型文本。模型文本包括任务、子任务、节点,任务是一个可执行的单元,可以是一个作业或脚本,一个任务可以对应一个或多个子任务。子任务是对数据处理的逻辑单元,一个子任务可以包括多个节点,根据每个节点的处理类型,解析出对应的表映射关系和字段映射关系,一个子任务可以解析出多个表映射关系。一个节点只能对应一种处理类型,具体地,对于数据抽取、过滤、剔重、分组、排序类型的节点可对应一个表映射关系;对于连接、转换、联合、查找、数据加载可对应多个表映射关系。
步骤S130,根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据。
将处理过程元数据解析成模型文本之后,可以根据模型文本中的节点来建立第一结构数据与第二结构数据的关联关系。第一结构数据为源数据库中的结构数据,第二结构数据为目标数据库中的结构数据。结构数据可以包括字段结构和表结构,表结构中可以包括字段结构。
请参见图2,图2示出了步骤S130的具体流程示意图,具体包括如下步骤:
步骤S131,根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系。
由于模型文本中的多个节点分别明确给出了数据的来源、数据的去向以及数据的处理过程,因此,可以获得字段结构之间的关联关系。例如,模型文本中的一个节点明确给出数据来源于源数据库的字段1,另一个节点给出该数据的去向是目标数据库的字段11,还有若干个节点在上述两个节点之间,表示了对该数据处理的至少一种处理过程,则可以很明确的得出源数据库的字段结构与目标数据库的字段结构之间的关联关系。
步骤S132,根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
由于字段结构通常被包含在表结构中,因此,在获得字段结构之间的关联关系之后,可以根据表结构与字段结构的从属关系,来获得源数据库的表结构与目标数据库的表结构之间的关联关系。
具体地,表结构a中包含如下字段结构:字段结构1、字段结构2、字段结构3、字段结构4、字段结构5;表结构b包含如下字段结构:字段结构11、字段结构12、字段结构13;表结构c包含如下字段结构:字段结构24、字段结构25。
不妨设字段结构1与字段结构11关联,字段结构2与字段结构12关联,字段结构3与字段结构13关联;字段结构4与字段结构24关联,字段结构5与字段结构25关联,则根据表结构与字段结构的包含关系,可知,表结构a分别与表结构b和表结构c关联。
步骤S140,展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
获取到第一结构数据与第二结构数据的关联后,可以可视化的展示通过处理过程元数据连接第一结构数据与第二结构数据的关联关系。
接下来以具体的例子来对本申请提供的数据关系关联方法进行说明:
连接一个hive的数据库,10.0.3.254:1521数据库名:SOURCE;
连接一个hive的数据库,10.0.3.136:53306,数据库名:TARGET;
连接一个ETL资源库,10.0.3.11:53306,资源库名:DATAFLOW;
设置SOURCE库的采集频率为每小时采集一次,采集该数据库中的表T_EXTERNAL_PEOPLELIB,T_TRAILIFNO;
设置TARGET库的采集频率为每小时采集一次,采集该数据库中的表t_external_peoplelib,T_HIGH_FREQUENCY;
设置DATAFLOW库的采集频率为每小时采集一次,采集该数据库中的流程:FLOW1,FLOW2;
FLOW1流程是将T_EXTERNAL_PEOPLELIB的数据采集到t_external_peoplelib中
FLOW2流程是将T_TRAILIFNO的数据采集到T_HIGH_FREQUENCY。
其中,FLOW1与FLOW2均为处理过程元数据,FLOW1与FLOW2均为脚本文件。
对FLOW1的脚本文件通过Java程序解析,可以获得:
任务名称WorkFlow1530068597716
子任务:无
节点1:T_EXTERNAL_PEOPLELIB主要完成数据的抽取,解析出来的输入数据库ID为:ba5faf61-43fa-4eef-9421-f42efb35dc29,类型为HIVE,表为:T_EXTERNAL_PEOPLELIB
节点2:t_external_peoplelib主要完成数据的加载,解析出来的输出数据库ID:4e36f206-9361-4269-86f8-1ac0704adbec,类型为HIVE,表为:t_external_peoplelib
其中,关于节点1与节点2的拆分可以根据关键字"nodes":[{以及括号格式},{来拆分。
表间映射关系为:T_EXTERNAL_PEOPLELIB——>t_external_peoplelib。
字段之间的映射关系如下表:
根据同样的方法对FLOW2的脚本文件通过Java程序解析,可以获得:
任务名称a1119392-c5f8-4d6c-b255-64e40c02eb46
子任务:d130845f-61c3-4812-988b-357a79a72719
子任务中的节点:
节点1:T_EXTERNAL_PEOPLELIB主要完成数据的抽取,解析出来的输入数据库ID为:ba5faf61-43fa-4eef-9421-f42efb35dc29,类型为HIVE,表为:T_EXTERNAL_PEOPLELIB
节点2:T_TRAILIFNO主要完成数据的抽取,解析出来的输入数据库ID为:ba5faf61-43fa-4eef-9421-f42efb35dc29,类型为HIVE,表为:T_TRAILIFNO
节点3:\u53D630\u5929\u6570\u636E主要完成数据的过滤,将T_TRAILIFNO表的数据按照TIME>dateOffSet(toDate(formatTime(currentDate(),\"yyyy-MM-dd\"),\"yyyy-MM-dd\"),-30,\"DAY\"这个表达式进行过滤,将数据流入节点4。
节点4:"\u7EDF\u8BA1\u51FA\u73B0\u6B21\u6570主要完成数据的分组,将节点3过滤后的数据按照PEOPLEID字段进行分组。
节点5:\u5254\u91CD主要完成数据的去重,将节点4分组后的数据按照PEOPLEID字段进行去重。
节点6:\u8FDE\u63A5主要完成数据的联合,将节点节点4和节点5的数据按照PEOPLEID进行联合。
节点7:\u4EBA\u5458\u6392\u5E8F主要完成数据的全表扫描,将节点6的数据按照OCCUR字段降序排列
节点8:\u9891\u7E41\u51FA\u5165\u8868主要完成数据的加载,解析出来的输出数据库ID:4df0a335-8dfb-4ab8-afc7-f62a72c4b042,类型为Oracle,表为:T_HIGH_FREQUENCY
表间映射关系为:
T_EXTERNAL_PEOPLELIB—>T_HIGH_FREQUENCY和
T_TRAILIFNO—>T_HIGH_FREQUENCY。
字段之间的映射关系如下表:
解析FLOW1与FLOW2之后,可以得到如图5示出的关联关系图。
请参见图3,在步骤S110之前,所述方法还包括:
步骤S101,每间隔第一时间段,从所述源数据库获得第一结构数据。
步骤S102,每间隔第二时间段,从所述目标数据库获得第二结构数据。
每间隔一段时间,会分别从源数据库和目标数据库重新获得第一结构数据以及第二结构数据,第一时间段与第二时间段可以相同,也可以不同
在一种具体实施方式中,该方法还包括:每间隔第三时间段,获取新的至少一个处理过程元数据。判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同。若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
具体地,当在FLOW1中增加一个节点,将T_EXTERNAL_PEOPLELIB中的数据采集到T_TEST表中,FLOW1中的脚本变更为:
按照过程元数据元模型,将上述FLOW1的脚本文件通过java程序解析成:
任务名称WorkFlow1530068597716
子任务:无
节点1:T_EXTERNAL_PEOPLELIB主要完成数据的抽取,解析出来的输入数据库ID为:ba5faf61-43fa-4eef-9421-f42efb35dc29,类型为HIVE,表为:T_EXTERNAL_PEOPLELIB
节点2:t_external_peoplelib主要完成数据的加载,解析出来的输出数据库ID:4e36f206-9361-4269-86f8-1ac0704adbec,类型为HIVE,表为:t_external_peoplelib
节点3:t_test主要完成数据的加载,解析出来的输出数据库ID:4e36f206-9361-4269-86f8-1ac0704adbec,类型为HIVE,表为:t_test
表间映射关系为:
T_EXTERNAL_PEOPLELIB—>t_external_peoplelib
T_EXTERNAL_PEOPLELIB—>t_test
字段间映射关系为:
变更后的关联关系图请参见图6。
本申请第一实施例获取处理过程元数据,通过对该处理过程元数据进行解析获得模型文本,然后再根据模型文本建立结构数据之间的关联关系。由于本申请可以将不同格式的处理过程元数据均解析成规范的模型文本,然后再对模型文本进行处理,使得本方法可以适配众多的大数据集成工具。
第二实施例
请参见图4,图4示出了本申请第二实施例提供的数据关系关联装置,该装置300包括:
元数据获取模块310,用于获取至少一个处理过程元数据。
文本解析模块320,用于根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本。
关联关系建立模块330,用于根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据。
关系图展示模块340,用于展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
所述关联关系建立模块330包括:字段关系建立子模块,用于根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系;表关系建立子模块,用于根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
所述装置还包括:第一结构数据获得模块,用于每间隔第一时间段,从所述源数据库获得第一结构数据。第二结构数据获得模块,用于每间隔第二时间段,从所述目标数据库获得第二结构数据。元数据获取模块,用于每间隔第三时间段,获取新的至少一个处理过程元数据。数据不同判断模块,用于判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同。关系更新模块,用于若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。关系图更新模块,用于更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行第一实施例所述的方法。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一实施例所述的方法。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行第一实施例所述的方法。
在本申请实施例提供的数据关系关联方法及装置中,包括:获取至少一个处理过程元数据;根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。本申请实施例获取处理过程元数据,通过对该处理过程元数据进行解析获得模型文本,然后再根据模型文本建立结构数据之间的关联关系。由于本申请可以将不同格式的处理过程元数据均解析成规范的模型文本,然后再对模型文本进行处理,使得本方法可以适配众多的大数据集成工具。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据关系关联方法,其特征在于,所述方法包括:
获取至少一个处理过程元数据;
根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;
根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;
展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
2.根据权利要求1所述的方法,其特征在于,所述结构数据包括表结构和字段结构,所述根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,包括:
根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系;
根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
3.根据权利要求1所述的方法,其特征在于,在所述获取至少一个处理过程元数据之前,所述方法还包括:
每间隔第一时间段,从所述源数据库获得第一结构数据;
每间隔第二时间段,从所述目标数据库获得第二结构数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
每间隔第三时间段,获取新的至少一个处理过程元数据;
判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同;
若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。
5.根据权利要求4所述的方法,其特征在于,所述更新所述第一结构数据与所述第二结构数据的关联关系之后,包括:
更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
6.一种数据关系关联装置,其特征在于,所述装置包括:
元数据获取模块,用于获取至少一个处理过程元数据;
文本解析模块,用于根据关键字与括号格式,将所述至少一个处理过程元数据中的每个处理过程元数据解析成预设格式的模型文本;
关联关系建立模块,用于根据所述至少一个模型文本,建立第一结构数据与第二结构数据的关联关系,其中,所述第一结构数据为源数据库的结构数据,所述第二结构数据为目标数据库的结构数据;
关系图展示模块,用于展示所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
7.根据权利要求6所述的装置,其特征在于,所述关联关系建立模块包括:
字段关系建立子模块,用于根据所述至少一个模型文本,建立所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系;
表关系建立子模块,用于根据所述源数据库的字段结构与所述目标数据库的字段结构之间的关联关系、字段结构与表结构之间的包含关系,建立所述源数据库的表结构与所述目标数据库的表结构之间的关联关系。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一结构数据获得模块,用于每间隔第一时间段,从所述源数据库获得第一结构数据;
第二结构数据获得模块,用于每间隔第二时间段,从所述目标数据库获得第二结构数据。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
元数据获取模块,用于每间隔第三时间段,获取新的至少一个处理过程元数据;
数据不同判断模块,用于判断获得的处理过程元数据与第三时间段前获得的处理过程元数据是否不同,或判断第一结构数据与第一时间段前获得的第一结构数据是否不同,或判断第二结构数据与第二时间段前获得的第二结构数据是否不同;
关系更新模块,用于若获得的处理过程元数据与所述第三时间段前获得的处理过程元数据不同,或第一结构数据与第一时间段前获得的第一结构数据不同,或第二结构数据与第二时间段前获得的第二结构数据不同,更新所述第一结构数据与所述第二结构数据的关联关系。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
关系图更新模块,用于更新所述处理过程元数据、第一结构数据、第二结构数据共同组成的关联关系图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811303620.7A CN109446263A (zh) | 2018-11-02 | 2018-11-02 | 一种数据关系关联方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811303620.7A CN109446263A (zh) | 2018-11-02 | 2018-11-02 | 一种数据关系关联方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446263A true CN109446263A (zh) | 2019-03-08 |
Family
ID=65550264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811303620.7A Pending CN109446263A (zh) | 2018-11-02 | 2018-11-02 | 一种数据关系关联方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446263A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885577A (zh) * | 2019-03-11 | 2019-06-14 | Oppo广东移动通信有限公司 | 数据处理方法、装置、终端及存储介质 |
CN113312396A (zh) * | 2021-05-12 | 2021-08-27 | 上海哲锦信息科技有限公司 | 一种基于大数据的元数据处理方法及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424269A (zh) * | 2013-08-30 | 2015-03-18 | 中国电信股份有限公司 | 数据血统分析方法与装置 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
US20180107410A1 (en) * | 2016-10-19 | 2018-04-19 | International Business Machines Corporation | Managing maintenance of tape storage systems |
CN108197182A (zh) * | 2017-12-25 | 2018-06-22 | 百味云科技股份有限公司 | 一种数据图谱分析系统以及方法 |
-
2018
- 2018-11-02 CN CN201811303620.7A patent/CN109446263A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424269A (zh) * | 2013-08-30 | 2015-03-18 | 中国电信股份有限公司 | 数据血统分析方法与装置 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
US20180107410A1 (en) * | 2016-10-19 | 2018-04-19 | International Business Machines Corporation | Managing maintenance of tape storage systems |
CN108197182A (zh) * | 2017-12-25 | 2018-06-22 | 百味云科技股份有限公司 | 一种数据图谱分析系统以及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885577A (zh) * | 2019-03-11 | 2019-06-14 | Oppo广东移动通信有限公司 | 数据处理方法、装置、终端及存储介质 |
CN113312396A (zh) * | 2021-05-12 | 2021-08-27 | 上海哲锦信息科技有限公司 | 一种基于大数据的元数据处理方法及设备 |
CN113312396B (zh) * | 2021-05-12 | 2024-04-19 | 上海哲锦信息科技有限公司 | 一种基于大数据的元数据处理方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409764B2 (en) | System for data management in a large scale data repository | |
US11360950B2 (en) | System for analysing data relationships to support data query execution | |
US11461294B2 (en) | System for importing data into a data repository | |
US9578082B2 (en) | Methods for dynamically generating an application interface for a modeled entity and devices thereof | |
US20140082013A1 (en) | Query templates for queries in data stream management systems | |
US20110264636A1 (en) | Updating a data warehouse schema based on changes in an observation model | |
CN107103064B (zh) | 数据统计方法及装置 | |
CN110750650A (zh) | 企业知识图谱的构建方法及装置 | |
CN110334274A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
US11762920B2 (en) | Composite index on hierarchical nodes in the hierarchical data model within a case model | |
KR20060045622A (ko) | 컴퓨터화된 재무 시스템의 추출, 변환 및 로딩 설계자 모듈 | |
US9569722B2 (en) | Optimal persistence of a business process | |
WO2006026659A2 (en) | Services oriented architecture for data integration services | |
WO2005055001A2 (en) | Method for assisting in automated conversion of data and associated metadata | |
US20050021542A1 (en) | Converting object structures for search engines | |
CN111400288A (zh) | 数据质量检查方法及系统 | |
CN111552728A (zh) | 区块链的数据处理方法、系统、终端和存储介质 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN109446263A (zh) | 一种数据关系关联方法及装置 | |
US9727666B2 (en) | Data store query | |
US7844601B2 (en) | Quality of service feedback for technology-neutral data reporting | |
CN109460408A (zh) | 一种数据处理方法及装置 | |
US20140067874A1 (en) | Performing predictive analysis | |
US10496710B2 (en) | Online data management system | |
CN115617913A (zh) | 一种基于大数据集成的运行管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |