CN110362579B - 一种信息处理方法和电子设备 - Google Patents

一种信息处理方法和电子设备 Download PDF

Info

Publication number
CN110362579B
CN110362579B CN201910657057.1A CN201910657057A CN110362579B CN 110362579 B CN110362579 B CN 110362579B CN 201910657057 A CN201910657057 A CN 201910657057A CN 110362579 B CN110362579 B CN 110362579B
Authority
CN
China
Prior art keywords
data table
information
data
analyzed
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910657057.1A
Other languages
English (en)
Other versions
CN110362579A (zh
Inventor
于连宇
马鹏程
王晓勇
李志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201910657057.1A priority Critical patent/CN110362579B/zh
Publication of CN110362579A publication Critical patent/CN110362579A/zh
Application granted granted Critical
Publication of CN110362579B publication Critical patent/CN110362579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种信息处理方法,包括:从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;基于所述数据表信息以及所述字段标注,得到对照树;根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。本方案不依赖于数据流,能够自动对不以数据流形式体现的数据表的血缘关系进行分析,提高了数据管理的效率。

Description

一种信息处理方法和电子设备
技术领域
本申请涉及电子设备领域,更具体的说,是涉及一种信息处理方法和电子设备。
背景技术
大数据平台通常管理海量数据,各种视角下的数据对象。元信息与数据治理成为大数据管理的重要组成部分。对于海量持续增长的数据对象,需要厘清这些数据从何而来,每个项目含义是什么,谁负责维护这些数据,数据更新规则是什么。管理这些元信息,一般是通过对元信息的血缘关系进行管理。
现有技术中,对于元信息的血缘关系识别,都是基于元信息管理平台中的数据是以数据流形式体现,根据该数据流自动对元信息血缘关系的分析。
但是,很多元信息管理平台中,数据并不能够以数据流形式体现,这导致不能够自动对于该元信息的血缘关系进行分析,数据管理效率低。
发明内容
有鉴于此,本申请提供了一种信息处理方法,解决现有技术中当数据不是以数据流形式出现时,不能自动对其元信息进行血缘关系分析的问题。
为实现上述目的,本申请提供如下技术方案:
一种信息处理方法,包括:
从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;
依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
基于所述数据表信息以及所述字段标注,得到对照树;
根据所述数据表信息获取所述数据表的父数据表;
基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
上述的方法,优选的,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;
基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息。
上述的方法,优选的,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;
基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息。
上述的方法,优选的,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
上述的方法,优选的,所述依据与所述平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息,包括:
依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;
根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息。
上述的方法,优选的,所述基于所述数据表信息以及所述字段标注,得到对照树,包括:
根据所述数据表信息分析得到所述数据表的标注;
将所述数据表的标注加入字段与字段元信息,得到对照树。
上述的方法,优选的,基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息,具体包括:
将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;
根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。
一种电子设备,包括:
获取模块,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;
分析模块,用于依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
字段模块,用于根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
对照模块,用于基于所述数据表信息以及所述字段标注,得到对照树;
修改模块,用于根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
上述的电子设备,优选的,所述获取模块,包括:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
一种电子设备,包括:
处理器,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;基于所述数据表信息以及所述字段标注,得到对照树;根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息;
存储器,用于存储所述解析规则。
经由上述的技术方案可知,与现有技术相比,本申请提供了一种信息处理方法,包括:从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;基于所述数据表信息以及所述字段标注,得到对照树;根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。本方案中,对于待分析数据表的运行程序进行解析,得到其字段信息以及数据表信息,进而根据字段信息对应的字段标注以及数据表信息建立对照树,并根据该对照树确定数据表与父数据表的血缘关系以及字段标注,并修改到该数据表的元信息中。该方法不依赖于数据流,能够自动对不以数据流形式体现的数据表的血缘关系进行分析,提高了数据管理的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种信息处理方法实施例1的流程图;
图2为本申请提供的一种信息处理方法实施例2的流程图;
图3为本申请提供的一种信息处理方法实施例3的流程图;
图4为本申请提供的一种信息处理方法实施例4的流程图;
图5为本申请提供的一种信息处理方法实施例5的流程图;
图6为本申请提供的一种信息处理方法实施例6的流程图;
图7为本申请提供的一种信息处理方法实施例6中整体对照树示意图;
图8为本申请提供的一种信息处理方法实施例7的流程图;
图9为本申请提供的一种电子设备实施例1的结构示意图;
图10为本申请提供的一种电子设备实施例2的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示的,为本申请提供的一种信息处理方法实施例1的流程图,该方法应用于一电子设备,该方法包括以下步骤:
步骤S101:从运行待分析数据表的数据平台中获取目标运行程序;
其中,所述目标运行程序是生成待分析数据表的运行程序。
具体的,数据平台中运行待分析数据表,该待分析数据表是由目标运行程序生成的。
所以,从数据平台中获取生成该待分析数据表的目标运行程序。
其中,该运行程序可以采用SQL(结构化查询语言,Structured Query Language),当然不限制于此,也可以采用其他语言编辑,本方案中不做限制。
需要说明的是,本申请文件中是以SQL为例进行说明,但是不限制于此。
需要说明的是,该数据平台可以包含多种平台,如hive/spark/hbase/平台,impala/teradata/postgreXL平台,以及其他的平台等。
需要说明的是,一般的,该数据平台中的数据流复杂,数据表与数据表之间的关系复杂,根据现有技术中的数据流分析,无法分析得到该数据表的血缘关系,因此,本申请中基于平台中的运行程序进行分析。
步骤S102:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
其中,预设有多种解析规则,根据数据平台选择与其对应的解析规则。
具体实施中,可以采用解析引擎对目标运行程序进行分析,该解析引擎中设置有解析规则。
具体的,由于该目标运行程序中包含有该待分析数据表的所有信息,根据该解析规则,分析获取的目标运行程序,即可得到该待分析数据表中的字段信息以及数据表信息。
其中,该字段信息具体包括:字段出处、字段含义、字段精度、字段保密等级等需要对字段进行辅助理解的元信息。
数据表信息包括该数据表中涉及的信息,如数据表的负责人,保密等级、与其他数据表的关系、数据更新频率等需要对数据表进行辅助理解的元信息。
其中,该字段是由数据表产生,数据表本身也有元信息,可以称为数据表的标注。
其中,确定数据平台的解析规则的具体过程在后续实施例中会做详细解释,本实施例中不做详述。
步骤S103:根据所述字段信息得到字段标注;
其中,所述字段标注表征字段与字段元信息的对应关系。
具体的,根据该字段确定其对应的字段元信息,则基于该字段以及字段元信息分析得到而这的对应关系,即得到该字段标注。
步骤S104:基于所述数据表信息以及所述字段标注,得到对照树;
具体的,基于该数据表信息以及该字段标注生成对照树,该对照树中对于数据表中信息以及字段信息进行联系,如字段描述、授权信息(均属于字段元信息内容)以及血缘关系(数据表元信息内容)。
其中,本步骤后续实施例中会做详细解释,本实施例中不做详述。
步骤S105:根据所述数据表信息获取所述数据表的父数据表;
其中,根据该数据表信息,以及目标运行程序中记载的内容,能够分析得到该数据表的父数据表。
该父数据表是指该数据表信息来源的数据表,该待分析数据表为其父数据表的派生子数据表。
步骤S106:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,该对照树中包含了数据表信息元信息内容、字段元信息内容,则根据该父数据表与待分析数据包的比对,确定该待分析数据表的数据表、字段与父数据表之间的关系,具体可以为血缘关系以及字段标注。
然后基于该血缘关系以及字段标注修改该待分析数据表的元信息。
后续实施例中会做详细说明,本实施例不做详述。
综上,本实施例提供的一种信息处理方法中,对于待分析数据表的运行程序进行解析,得到其字段信息以及数据表信息,进而根据字段信息对应的字段标注以及数据表信息建立对照树,并根据该对照树确定数据表与父数据表的血缘关系以及字段标注,并修改到该数据表的元信息中。该方法不依赖于数据流,能够自动对不以数据流形式体现的数据表的血缘关系进行分析,提高了数据管理的效率。
如图2所示的,为本申请提供的一种信息处理方法实施例2的流程图,该方法包括以下步骤:
步骤S201:基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;
其中,第一数据平台中提供有后门,技术人员能够通过该后门加入插件。
一般的,该能够提供后门的数据平台是hive/spark/hbase等平台。
具体实施中,可以根据需要数据表设置插件。
具体的,该插件可以采用DDL(Data Definition Language数据定义语言)、DML(Data Manipulation Language数据操作语言)插件等。
步骤S202:基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息;
其中,在数据平台中加入的插件与该平台上的程序一起运行,当运行目标运行程序时,触发该插件对该运行进行监测,当目标运行程序运行结束后,该插件记录该目标运行程序,并可以基于插件记录的内容获取得到完整的目标运行程序。
具体实施中,用户在数据平台中输入如SQL语言编辑的目标运行程序后,加入插件进行探测,当该目标运行程序开始运行后,插件对其运行进行监测。
具体的,不同的服务平台对应不同的服务信息,该服务信息包括:服务平台的域名、开放的接口、服务平台的地址以及访问该数据平台的方式等。
具体实施中,为了实现后续步骤中获取父数据表,还需要对该数据平台进行访问,则访问时,可以基于本步骤获取的服务信息进行访问。
具体实施中,该插件在该第一数据平台中运行,已经设置了与该数据平台对应的服务信息,则可以从该插件中获取该服务信息。
具体实施中,为了在第一数据平台中运行该目标运行程序,该目标运行程序中会预先设置该第一数据平台的服务信息,则也可以从该目标运行程序中获取该服务信息。
然后,对该目标运行程序进行分析获取得到其中的内容,即执行步骤S203。
步骤S203:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S204:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
步骤S205:基于所述数据表信息以及所述字段标注,得到对照树;
步骤S206:根据所述数据表信息获取所述数据表的父数据表;
步骤S207:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,步骤S203-207与实施例1中的步骤S102-106一致,本实施例中不再赘述。
综上,本实施例提供的一种信息处理方法中,该从运行待分析数据表的数据平台中获取目标运行程序,包括:基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及服务信息。本方案中,在第一数据平台中加入并运行插件,获取目标运行程序,以便后续针对该目标运行程序进行分析,还可以获取与第一数据平台对应的服务信息,以便后续步骤中再次访问该第一数据平台。
如图3所示的,为本申请提供的一种信息处理方法实施例3的流程图,该方法包括以下步骤:
步骤S301:基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;
其中,某些数据平台未设置后门,或者不能够加入插件,但是能够查看该数据平台运行的日志,如impala/teradata/postgreXL平台,对于在该数据平台中运行的目标运行程序,能够通过日志进行获取。
具体实施中,用户在数据平台中输入如SQL语言编辑的目标运行程序时,第二数据平台产生相应的日志,并且还针对该目标运行程序生成特定的标识。
需要说明的是,在数据平台中执行与特定应用程序的操作时,如输入、运行等,该数据平台运行产生的日志中会有相应的记录并添加特定的标识,则根据该特定的标识即可确定该日志是该特定应用程序产生。
具体的,通过设置的轮询程序对该日志进行轮询,根据该标识定位日志,可以得到输入该目标运行程序相应的记录,然后,可以从第二数据平台的日志中抽取该日志记录。
其中,可以对该第二数据平台运行产生的日志进行轮询,以确定其中是否出现与目标运行程序相应的日志。
步骤S302:基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息;
其中,该日志记录中包含有该目标运行程序的输入时间、存储位置等各种参数信息,则基于该记录即可获取该目标运行程序。
而且,为了在第二数据平台中运行该目标运行程序,该目标运行程序中会预先设置该第二数据平台的服务信息,则可以从该目标运行程序中获取该服务信息。
具体实施中,不同的服务平台对应不同的服务信息,该服务信息包括:服务平台的域名、开放的接口、服务平台的地址以及访问该数据平台的方式等。
其中,为了实现后续步骤中获取父数据表,还需要对该数据平台进行访问,则访问时,可以基于本步骤获取的服务信息进行访问。
步骤S303:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S304:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
步骤S305:基于所述数据表信息以及所述字段标注,得到对照树;
步骤S306:根据所述数据表信息获取所述数据表的父数据表;
步骤S307:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,步骤S303-307与实施例1中的步骤S102-106一致,本实施例中不再赘述。
综上,本实施例提供的一种信息处理方法中,该从运行待分析数据表的数据平台中获取目标运行程序,包括:基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到运行所述目标运行程序的记录;基于所述记录获取所述目标运行程序以及服务信息。本方案中,通过轮询该第二数据平台的日志,查到与该目标运行程序相应的记录,获取目标运行程序,以便后续针对该目标运行程序进行分析,还可以获取与第二数据平台对应的服务信息,以便后续步骤中再次访问该第二数据平台。
如图4所示的,为本申请提供的一种信息处理方法实施例4的流程图,该方法包括以下步骤:
步骤S401:基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息;
其中,目标运行程序在数据平台中运行,生成待分析数据表。
具体实施中,该数据平台未设置后门,或者不能够加入插件,也不能够查看该数据平台运行的日志。
那么,可以通过与该数据平台之间的应用程序接口(API,Application ProgramInterface),接收该数据平台推送的目标运行程序。
具体实施中,该第三数据平台可以包括除了hive/spark/hbase平台、impala/teradata/postgreXL平台的其他数据平台。
具体实施中,为了在第三数据平台中运行该目标运行程序,该目标运行程序中会预先设置该第三数据平台的服务信息,则可以从该目标运行程序中获取该服务信息。
步骤S402:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S403:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
步骤S404:基于所述数据表信息以及所述字段标注,得到对照树;
步骤S405:根据所述数据表信息获取所述数据表的父数据表;
步骤S406:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,步骤S402-406与实施例1中的步骤S102-106一致,本实施例中不再赘述。
综上,本实施例提供的一种信息处理方法中,该从运行待分析数据表的数据平台中获取目标运行程序,包括:基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序。本方案中,基于应用程序接口,接收第三数据平台推送的目标运行程序,以便后续针对该目标运行程序进行分析,而且,还能够根据该目标运行程序进行分析,得到该第三数据平台的服务信息,以便后续步骤中再次访问该第三数据平台。
如图5所示的,为本申请提供的一种信息处理方法实施例5的流程图,该方法包括以下步骤:
步骤S501:基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;
步骤S502:基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及服务信息;
其中,步骤S501-502与实施例2中的步骤S201-202一致,本实施例中不再赘述。
步骤S503:依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;
本实施例中是以第一数据平台运行的目标运行程序为例进行说明,第二数据平台和第三数据平台运行的目标运行程序也可以采用该流程进行分析。
其中,根据该服务信息能够确定其对应的数据平台,而不同的数据平台进行数据处理的规则不同,相应的,根据该服务信息获取与该数据平台对应的分析规则,该分析规则是对于该目标运行程序的编辑语言SQL进行分析处理的规则。
具体的,该分析规则能够基于该SQL待分析数据表即派生数据源进行分析,得到本派生数据源的字段来源、原始字段的元信息等。
步骤S504:根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息;
其中,该分析规则可以包括与数据平台对应的语法模板,相应的,该语法模板能够对目标运行程序进行词的抽取,以实现对词进行词法分析,进一步对于目标运行程序进行语法的分析,得到该待分析数据表中的字段信息。
相应的,该分析规则中还可以包括与该数据平台对应的数据表模板,相应的,根据该数据表目标能够对目标运行程序对应数据表的信息进行抽取,得到该目标运行程序中包含的数据表信息。
步骤S505:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S506:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
步骤S507:基于所述数据表信息以及所述字段标注,得到对照树;
步骤S508:根据所述数据表信息获取所述数据表的父数据表;
步骤S509:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,步骤S505-509与实施例2中的步骤S203-207一致,本实施例中不再赘述。
综上,本实施例提供的一种信息处理方法中,该依据与所述平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息,包括:依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息。本方案中,无论该目标运行程序从哪个数据平台获取来的,基于其服务信息确定相应的分析规则,并对基于该分析规则对其进行词法语法语义分析,即可得到待分析数据表的字段信息以及数据表信息。
如图6所示的,为本申请提供的一种信息处理方法实施例6的流程图,该方法包括以下步骤:
步骤S601:从运行待分析数据表的数据平台中获取目标运行程序;
步骤S602:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S603:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
其中,步骤S601-603与实施例1中的步骤S101-103一致,本实施例中不再赘述。
步骤S604:根据所述数据表信息分析得到所述数据表的标注;
其中,该数据表的标注是指数据表的元信息,根据该数据信息进行分析,即可得到该数据表的元信息。
步骤S605:将所述数据表的标注加入字段与字段元信息,得到对照树;
其中,将分析得到的该数据表的标注加入字段与字段元信息,得到对照树。
如图7所示的为整体对照树示意图,其中,该对照树701包括:4层结构,其中根节点newtable为数据表,由根节点数据表的字段值构成第2层(ctr_customer_sk、customer_sk_return、c_store_sk、c_customer_sk)。数据表字段的派生关系构成第3层(ctr_customer_sk、c_store_sk、c_total_return、concat、s_store_sk以及c_customer_sk)。数据字段的派生可能是由字段直接复制而来,也可能是有一个或多个字段经过某个函数转换而来。第3层中的字段、转换关系对应的数据表、函数,就构成了第4层(customer_total_return、store、customer)。第2层中,字段如果并非派生,而是数据表的原生字段,那么对照树就到第2层,不会继续生长。
该对照树是由父对照树702-704得到。
具体的,该对照树701中,第3层和第4层为该步骤S605中得到的对照树结构,该图7中的对照树是从根节点表示的整体数据关系。
因此,在后续步骤中,根据派生关系,基于第3-4层中的内容逆向能够得到该数据表中数据的父数据表,即查询对照树第3层与第4层的上游数据源(父数据源)元数据。而按照第2层与第3层数据字段具有对应关系(上游数据源与新数据源),标注第2层(新数据源)字段的元信息,元信息由第3层元信息产生。
步骤S606:根据所述数据表信息获取所述数据表的父数据表;
步骤S607:基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
其中,步骤S606-607与实施例1中的步骤S105-106一致,本实施例中不再赘述。
综上,本实施例提供的一种信息处理方法中,该基于所述数据表信息以及所述字段标注,得到对照树,包括:根据所述数据表信息分析得到所述数据表的标注;将所述数据表的标注加入字段与字段元信息,得到对照树。本方案中,对数据表信息分析得到数据表的标注,并将其加入字段与字段元信息,得到对照树,该对照树中的信息包含了该数据表信息、字段等信息。
如图8所示的,为本申请提供的一种信息处理方法实施例7的流程图,该方法包括以下步骤:
步骤S801:从运行待分析数据表的数据平台中获取目标运行程序;
步骤S802:依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
步骤S803:根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
步骤S804:基于所述数据表信息以及所述字段标注,得到对照树;
步骤S805:根据所述数据表信息获取所述数据表的父数据表;
其中,步骤S801-805与实施例1中的步骤S101-105一致,本实施例中不再赘述。
步骤S806:将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;
需要说明的是,数据表中的每个字段都有对应关系,新字段(如待分析数据表中的字段)的标注参照原字段的元信息。新数据表(如待分析数据表)中的元信息是通过字段对应关系得到字段来源数据表(父数据表),用来源数据表的元信息进行标注。
具体的,通过广度优先遍历该对照树,从每个节点获得元信息,实现将所述父数据表中的信息与所述对照树进行比对。
然后从获得的元信息中,确定与父数据表中对应(具有血缘关系)的第一元信息以及第一字段。
具体实施中,
步骤S807:根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。
其中,基于每个节点的元信息对应的字段、数据表一一对应实现标注,然后将该,标注的结果写入元数据信息。
具体的,通过直接写入数据表的建表语句中,或者写入专门的元数据采集服务接口之中等。
综上,本实施例提供的一种信息处理方法中,该基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息,具体包括:将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。本方案中,通过将父数据表中信息与对照树比对,确定与父数据表具有血缘关系的元信息和字段,并修改该待分析数据表的元信息,以实现记录下该血缘关系。
与上述本申请提供的一种信息处理方法实施例相对应的,本申请还提供了应用该信息处理方法的电子设备实施例。
如图9所示的为本申请提供的一种电子设备实施例1的结构示意图,该电子设备包括以下结构:获取模块901、分析模块902、字段模块903、对照模块904和修改模块905;
其中,该获取模块901,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;
其中,该分析模块902,用于依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
其中,该字段模块903,用于根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
其中,该对照模块904,用于基于所述数据表信息以及所述字段标注,得到对照树;
其中,该修改模块905,用于根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
优选的,所述获取模块,包括:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
优选的,所述分析模块,具体用于:
依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;
根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息。
优选的,所述对照模块,具体用于:
根据所述数据表信息分析得到所述数据表的标注;
将所述数据表的标注加入字段与字段元信息,得到对照树。
优选的,所述修改模块,具体用于:
将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;
根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。
综上,本实施例提供的一种电子设备中,对于待分析数据表的运行程序进行解析,得到其字段信息以及数据表信息,进而根据字段信息对应的字段标注以及数据表信息建立对照树,并根据该对照树确定数据表与父数据表的血缘关系以及字段标注,并修改到该数据表的元信息中。该方法不依赖于数据流,能够自动对不以数据流形式体现的数据表的血缘关系进行分析,提高了数据管理的效率。
如图10所示的为本申请提供的一种电子设备实施例2的结构示意图,该电子设备包括以下结构:处理器1001、存储器1002;
其中,该处理器1001,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;基于所述数据表信息以及所述字段标注,得到对照树;根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息;
其中,该存储器1002,用于存储所述解析规则。
优选的,所述处理器用于:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;
基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息。
优选的,所述处理器用于:
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;
基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息。
优选的,所述处理器用于:
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
优选的,所述处理器用于:
依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;
根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息。
优选的,所述处理器用于:
根据所述数据表信息分析得到所述数据表的标注;
将所述数据表的标注加入字段与字段元信息,得到对照树。
优选的,所述处理器用于:
将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;
根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。
具体实施中,该处理器可以采用具有信息处理能力的结构芯片,如CPU(centralprocessing unit,中央处理器)。
综上,本实施例提供的一种电子设备中,对于待分析数据表的运行程序进行解析,得到其字段信息以及数据表信息,进而根据字段信息对应的字段标注以及数据表信息建立对照树,并根据该对照树确定数据表与父数据表的血缘关系以及字段标注,并修改到该数据表的元信息中。该方法不依赖于数据流,能够自动对不以数据流形式体现的数据表的血缘关系进行分析,提高了数据管理的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的装置而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所提供的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所提供的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种信息处理方法,包括:
从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;
依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
基于所述数据表信息以及所述字段标注,得到对照树;
根据所述数据表信息获取所述数据表的父数据表;
基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
2.根据权利要求1所述的方法,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;
基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息。
3.根据权利要求1所述的方法,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;
基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息。
4.根据权利要求1所述的方法,从运行待分析数据表的数据平台中获取目标运行程序,包括:
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
5.根据权利要求2-4任一项所述的方法,所述依据与所述平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息,包括:
依据所述服务信息,获取分析规则,所述分析规则与数据平台对应;
根据所述分析规则,对所述目标运行程序进行词法、语法、语义分析,得到所述待分析数据表的字段信息以及数据表信息。
6.根据权利要求1所述的方法,所述基于所述数据表信息以及所述字段标注,得到对照树,包括:
根据所述数据表信息分析得到所述数据表的标注;
将所述数据表的标注加入字段与字段元信息,得到对照树。
7.根据权利要求 1所述的方法,基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息,具体包括:
将所述父数据表中的信息与所述对照树进行比对,得到所述父数据表中与所述待分析数据表中具有血缘关系的第一元信息和第一字段;
根据所述第一元信息和第一字段标注所述待分析数据表的字段信息以及数据表信息,并修改所述待分析数据表的元信息。
8.一种电子设备,包括:
获取模块,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;
分析模块,用于依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;
字段模块,用于根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;
对照模块,用于基于所述数据表信息以及所述字段标注,得到对照树;
修改模块,用于根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息。
9.根据权利要求8所述的电子设备,所述获取模块,包括:
基于生成所述待分析数据表的目标运行程序运行在第一数据平台,向所述第一数据平台加入预设插件;基于在第一数据平台中运行所述预设插件,获取所述目标运行程序以及所述第一数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第二数据平台,轮询所述第二数据平台运行产生的日志,查找到输入所述目标运行程序的记录;基于所述记录获取所述目标运行程序以及所述第二数据平台的服务信息;
或者
基于生成所述待分析数据表的目标运行程序运行在第三数据平台,根据与所述第三数据平台之间的预设应用程序接口,接收所述第三数据平台推送的目标运行程序,所述目标运行程序中携带所述第三数据平台的服务信息。
10.一种电子设备,包括:
处理器,用于从运行待分析数据表的数据平台中获取目标运行程序,所述目标运行程序是生成待分析数据表的运行程序;依据与所述数据平台对应的解析规则,分析所述目标运行程序,得到所述待分析数据表的字段信息以及数据表信息;根据所述字段信息得到字段标注,所述字段标注表征字段与字段元信息的对应关系;基于所述数据表信息以及所述字段标注,得到对照树;根据所述数据表信息获取所述数据表的父数据表;基于所述对照树分析得到父数据表与待分析数据表的血缘关系以及字段标注,修改所述待分析数据表的元信息;
存储器,用于存储所述解析规则。
CN201910657057.1A 2019-07-19 2019-07-19 一种信息处理方法和电子设备 Active CN110362579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910657057.1A CN110362579B (zh) 2019-07-19 2019-07-19 一种信息处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910657057.1A CN110362579B (zh) 2019-07-19 2019-07-19 一种信息处理方法和电子设备

Publications (2)

Publication Number Publication Date
CN110362579A CN110362579A (zh) 2019-10-22
CN110362579B true CN110362579B (zh) 2022-04-22

Family

ID=68221304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910657057.1A Active CN110362579B (zh) 2019-07-19 2019-07-19 一种信息处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN110362579B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236608A1 (en) * 2003-05-21 2004-11-25 David Ruggio Medical and dental software program
CN103186541B (zh) * 2011-12-27 2016-08-24 阿里巴巴集团控股有限公司 一种映射关系生成方法及装置
CN107545030B (zh) * 2017-07-17 2020-08-21 阿里巴巴集团控股有限公司 数据血缘关系的处理方法、装置及设备
CN109325078A (zh) * 2018-09-18 2019-02-12 拉扎斯网络科技(上海)有限公司 基于结构数据的数据血缘确定方法及装置
CN109710703A (zh) * 2019-01-03 2019-05-03 北京顺丰同城科技有限公司 一种血缘关系网络的生成方法及装置

Also Published As

Publication number Publication date
CN110362579A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110908997B (zh) 数据血缘构建方法、装置、服务器及可读存储介质
US10169471B2 (en) Generating and executing query language statements from natural language
KR101707369B1 (ko) 이벤트 저장소의 구축 방법 및 장치
US7487174B2 (en) Method for storing text annotations with associated type information in a structured data store
CN113032362B (zh) 数据血缘分析方法、装置、电子设备和存储介质
US20110276603A1 (en) Dependency graphs for multiple domains
US8713368B2 (en) Methods for testing OData services
WO2017101398A1 (zh) 数据查询控制方法及装置
CN110555039A (zh) 数据查询控制方法、存储介质、设备及系统
CN111767573A (zh) 数据库安全管理方法、装置、电子设备及可读存储介质
CN112579610A (zh) 多数据源结构分析方法、系统、终端设备及存储介质
CN114116767A (zh) 数据库sql查询语句转换方法及装置
WO2017092355A1 (zh) 一种数据服务系统
CN110362579B (zh) 一种信息处理方法和电子设备
Butler et al. INVocD: Identifier name vocabulary dataset
WO2023236257A1 (zh) 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN115757174A (zh) 一种数据库的差异检测方法及装置
CN110968615A (zh) 数据查询方法及装置
US10956419B2 (en) Enhanced search functions against custom indexes
US10789067B2 (en) System and method for identifying open source usage
CN109408368A (zh) 一种测试辅助信息的输出方法、存储介质和服务器
CN110618809B (zh) 一种前端网页输入约束提取方法和装置
CN114880351B (zh) 慢查询语句的识别方法及装置、存储介质、电子设备
CN113051329B (zh) 基于接口的数据采集方法、装置、设备及存储介质
CN116644139A (zh) 数据管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant