CN113297139A - 元数据查询方法、系统及电子设备 - Google Patents

元数据查询方法、系统及电子设备 Download PDF

Info

Publication number
CN113297139A
CN113297139A CN202110468740.8A CN202110468740A CN113297139A CN 113297139 A CN113297139 A CN 113297139A CN 202110468740 A CN202110468740 A CN 202110468740A CN 113297139 A CN113297139 A CN 113297139A
Authority
CN
China
Prior art keywords
metadata
data
extracting
module
blood relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110468740.8A
Other languages
English (en)
Inventor
姜威
薛凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202110468740.8A priority Critical patent/CN113297139A/zh
Publication of CN113297139A publication Critical patent/CN113297139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种元数据查询方法、系统、电子设备及计算机可读介质。该方法包括:由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。本公开能够在用户进行业务分析的时候,面对该业务对应的大量数据表时,无从下手的难题,能够由不同类别的数据库汇总辅助用户提取和待分析目标相关的元数据、相关数据、数据标签等,提升工作效率。

Description

元数据查询方法、系统及电子设备
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种元数据查询方法、系统、电子设备及计算机可读介质。
背景技术
元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。
在大型公司中,存在很多的业务产品线,每个业务产品线负责运营不同的业务,即使是在同一业务线内,也分为不同的数据使用者,不同的开发者需要用到不同的元数据,而面对一个大型公司数量众多的元数据,如何快速找到和待处理的业务相关的元数据及其辅助数据、标签就是一个亟待解决的问题。
因此,需要一种新的元数据查询方法、系统、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种元数据查询方法、系统、电子设备及计算机可读介质,能够在用户进行业务分析的时候,面对该业务对应的大量数据表时,无从下手的难题,能够由不同类别的数据库汇总辅助用户提取和待分析目标相关的元数据、相关数据、数据标签等,提升工作效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种元数据查询方法,可用于元数据查询系统,该方法包括:由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
可选地,由多个任务处理组件的任务数据中提取元数据的血缘关系,包括:在元数据管理系统的多个任务处理组件执行任务时获取输入表和输出表;将所述输入表和所述输出表推送给消息组件;所述消息组件对应的消费端基于所述输入表和所述输出表提取元数据的血缘关系。
可选地,由多个任务处理组件的任务数据中提取元数据的血缘关系,还包括:所述消费端将元数据的血缘关系存储在图数据库中。
可选地,由多个任务处理组件的任务数据中提取元数据的血缘关系,还包括:定期清理超过预设期限的元数据的血缘关系。
可选地,通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典,包括:通过实时提取的方式由结构化数据库中提取元数据的数据字典;预先设定非结构化数据的组织和结构;根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。
可选地,通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典,还包括:通过连接器管理器对结构化数据和非结构化数据的数据字典进行管理。
可选地,以元数据所在的表和/或表中字段为基本单位生成标签,包括:为元数据所在的表生成标签;为元数据所在的表中的字段生成标签;基于所述标签调取表或表中字段并进行授权。
可选地,用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询,包括:子系统的用户通过元数据管理系统的预设API接口提交元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;元数据管理系统基于所述检索类别确定目标模块;基于所述目标模块和所述检索标识进行查询,以生成响应数据。
可选地,子系统的用户通过元数据管理系统的预设API接口提交元数据查询请求,包括:子系统的用户生成元数据查询请求;将所述元数据查询请求通过nginx代理服务器发送至元数据管理系统的预设API接口。
可选地,还包括:根据所述查询结果对当前业务进行分析;在所述分析结果满足预设策略时,生成业务警示信息。
根据本公开的一方面,提出一种元数据查询系统,该系统包括:血缘关系模块,用于由多个任务处理组件的任务数据中提取元数据的血缘关系;数据字典模块,用于通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;数据特征模块,用于以元数据所在的表和/或表中字段为基本单位生成标签;元数据服务模块,用于为所述元数据设定检索标识;提供预设API接口以使得用户基于检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
可选地,所述血缘关系模块,包括:多个任务处理组件,用于在执行任务时获取输入表和输出表;消息组件,用于获取所述输入表和所述输出表;消费端,用于基于所述输入表和所述输出表提取元数据的血缘关系。
可选地,所述血缘关系模块,还包括:图数据库,用于存储元数据的血缘关系。
可选地,所述血缘关系模块,还用于定期清理超过预设期限的元数据的血缘关系。
可选地,所述数据字典模块,包括:结构化单元,用于通过实时提取的方式由结构化数据库中提取元数据的数据字典;非结构化单元,用于预先设定非结构化数据的组织和结构;根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。
可选地,所述数据字典模块,还包括:连接器管理器,用于对结构化数据和非结构化数据的数据字典进行管理。
可选地,所述数据特征模块,还用于为元数据所在的表生成标签;为元数据所在的表中的字段生成标签;基于所述标签调取表或表中字段并进行授权。
可选地,元数据服务模块,包括:预设API接口,用于获取来自子系统的用户提交的元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;元数据管理系统,还用于基于所述检索类别确定目标模块;基于所述目标模块和所述检索标识进行查询,以生成响应数据。
可选地,还包括:nginx代理服务器,用于将子系统的用户的所述元数据查询请求发送至元数据管理系统的预设API接口。
可选地,还包括:分析模块,用于根据所述查询结果对当前业务进行分析;在所述分析结果满足预设策略时,生成业务警示信息。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的元数据查询方法、系统、电子设备及计算机可读介质,由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询的方式,能够在用户进行业务分析的时候,面对该业务对应的大量数据表时,无从下手的难题,能够由不同类别的数据库汇总辅助用户提取和待分析目标相关的元数据、相关数据、数据标签等,提升工作效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种元数据查询系统的示意图。
图2是根据一示例性实施例示出的一种元数据查询方法的流程图。
图3是根据另一示例性实施例示出的一种元数据查询方法的流程图。
图4是根据另一示例性实施例示出的一种元数据查询方法的流程图。
图5是根据另一示例性实施例示出的一种元数据查询系统的示意图。
图6是根据另一示例性实施例示出的一种元数据查询系统的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、系统、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种元数据查询系统的框图。
如图1所示,系统架构10可以包括子系统101、102、103,代理服务器104和元数据查询系统105、数据源106、107、108。系统架构10还可以包括网络,网络用以在子系统101、102、103和代理服务器104之间提供通信链路的介质;网络用以在代理服务器104和元数据查询系统105之间提供通信链路的介质;网络用以在元数据查询系统105和数据源106、107、108之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用子系统101、102、103通过代理服务器104与元数据查询系统105交互,以接收或发送消息等。子系统101、102、103上可以安装有各种通讯客户端应用,例如金融服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。子系统101、102、103可分别应用于不同的业务线,比如资源管理业务线、资源保障业务线、数据仓库业务线、算法业务线、风控业务线等等。
子系统101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
元数据查询系统105可以是提供各种服务的服务器,例如对用户利用子系统101、102、103所浏览的金融服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的元数据查询请求进行分析,并将处理结果(元数据的血缘关系、数据字典、标签)反馈给管理员和/或子系统101、102、103。
元数据查询系统105可例如由多个任务处理组件的任务数据中提取元数据的血缘关系;元数据查询系统105可例如通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;元数据查询系统105可例如以元数据所在的表和/或表中字段为基本单位生成标签;元数据查询系统105可例如为所述元数据设定检索标识;用户可例如通过元数据查询系统105的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
数据源106、107、108可为多种类型的数据源,可包括结构性数据的数据源和非结构数据的数据源,具体可包括MySQL、Hive、Kudu数据源,Kafka、Redis、Hbase数据源等等。
元数据查询系统105能支持不同类型的数据源(比如MySQL、Hive、Kudu等),同时还可支持相同数据源的多个集群。为了规范化管理,还支持半结构化的KV(比如Kafka、Redis、HBase等),这些系统本身并没有表结构元数据,所以需要事先在元数据查询系统105里定义Kafka每个Topic的每条记录JSON中的格式,每个字段代表的含义。
元数据查询系统105可以是一个实体的服务器,还可例如为多个服务器组成,需要说明的是,本公开实施例所提供的元数据查询方法可以由元数据查询系统105执行,相应地,元数据查询系统可以设置于元数据查询系统105中。
图2是根据一示例性实施例示出的一种元数据查询方法的流程图。可应用于元数据查询系统中,元数据查询方法20至少包括步骤S202至S210。
如图2所示,在S202中,由多个任务处理组件的任务数据中提取元数据的血缘关系。可在元数据管理系统的多个任务处理组件执行任务时获取输入表和输出表;将所述输入表和所述输出表推送给消息组件;所述消息组件对应的消费端基于所述输入表和所述输出表提取元数据的血缘关系。
在数据信息时代,每时每刻都会产生庞大的数据,对这些数据进行各种加工组合、转换,又会产生新的数据,这些新的数据之间就存在着天然的联系,可把这些联系称为数据血缘关系。数据血缘可指数据产生的链路关系。在具体的应用中,监控任务处理组件执行任务时对数据表的读写操作,进而由读写操作产生的输入表和输出表中提取数据之间的链路关系,进而生成元数据的血缘关系。
在S204中,通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典。可通过实时提取的方式由结构化数据库中提取元数据的数据字典;预先设定非结构化数据的组织和结构;根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。还可通过连接器管理器对结构化数据和非结构化数据的数据字典进行管理。
数据字典存储有关数据的来源、说明、与其他数据的关系、用途和格式等信息,它本身就是一个数据库,存储“关于数据项的数据”。数据字典是个指南,它为数据库提供了“路线图”,而不是“原始数据”。数据字典通常是指数据库中数据定义的一种记录,类似一个数据库的数据结构,但其内容要比数据库的数据结构描述丰富得多。数据库的重要部分是数据字典。它存放有数据库所用的有关信息,对用户来说是一组只读的表。数据库数据字典可为一组表和视图结构。
数据字典部分可通过Metacat(元数据发现服务框架)实现,基于统一的ConnectorManager(连接器管理器)管理到各个数据源的连接。其中,Hive、MySQL这些数据库中的元数据,并不会在元数据查询系统中保存,在用户查询这些数据事,元数据查询系统直接连接数据源实时获取。对于Kafka、HBase、Redis等KV(键值)类的数据库,可将其Value的Schema信息预先存储在元数据查询系统的数据管理模块中。
在S206中,以元数据所在的表和/或表中字段为基本单位生成标签。更具体的,可为元数据所在的表生成标签;为元数据所在的表中的字段生成标签;基于所述标签调取表或表中字段并进行授权。
数据特征主要是标签的管理以及数据的访问热度信息。元数据中心内置了不同类型的标签,同时允许用户自定义扩展标签类型。指标、分层信息、主题域信息都是以标签的形式存储在元数据中心的系统库里,同时元数据中心允许用户基于标签类型和标签搜索表和字段。
元数据查询系统可与其他系统集成,实现基于标签的权限管理方式。在元数据查询系统中可以为表定义一组标签,可以基于这个标签,对拥有某一个标签的一组表按照相同的权限授权。这种方式大幅提高了权限管理的效率。比如用户、交易、催收、电销,可以设定表的敏感等级,然后根据敏感等级,设定不同的人有权限查看。
元数据查询系统还可支持对表和表中的字段打标签,通过丰富的不同类型的标签,可以完善数据中台数据的特征,比如指标可以作为一种类型的标签打在表上,主题域、分层信息都可以作为不同类型的标签关联到表。
在S208中,为所述元数据设定检索标识。为每一个元数据均设定唯一性的检索标识,在不同系统间,标识也要保证唯一性。
在S210中,用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。子系统的用户可通过元数据管理系统的预设API接口提交元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;元数据管理系统基于所述检索类别确定目标模块;基于所述目标模块和所述检索标识进行查询,以生成响应数据。
根据本公开的元数据查询方法,由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询的方式,能够在用户进行业务分析的时候,面对该业务对应的大量数据表时,无从下手的难题,能够由不同类别的数据库汇总辅助用户提取和待分析目标相关的元数据、相关数据、数据标签等,提升工作效率。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图3是根据另一示例性实施例示出的一种元数据查询方法的流程图。图3所示的流程30是对图2所示的流程中S202“由多个任务处理组件的任务数据中提取元数据的血缘关系”的详细描述。
如图3所示,在S302中,在元数据管理系统的多个任务处理组件执行任务时获取输入表和输出表。数据血缘由采集端、消息中间件、消费端以及血缘清理模块组成,
在S304中,将所述输入表和所述输出表推送给消息组件。更具体的,可监督HiveHook,Spark Listener,Flink Hook组件,进而获取任务执行时输入表和输出表,推送给统一的消息中间件(Kafka),然后消费端负责将血缘关系沉淀到图数据库中。
在S306中,所述消息组件对应的消费端基于所述输入表和所述输出表提取元数据的血缘关系。所述消费端可将元数据的血缘关系存储在图数据库中。图数据库可选择Neo4j,Neo4j具有性能快、部署轻量化、依赖模块少的优点。现有技术中,开源的Neo4j没有高可用方案,并且不支持水平扩展,在本申请中,单个业务活跃的表规模在几万的规模,可以通过双写(写图数据库的同时写Redis缓存)的方式实现高可用。
在S308中,定期清理超过预设期限的元数据的血缘关系。
元数据查询系统可进行数据血缘的实时采集和高性能的查询。同时,还可进行字段级别的血缘查询。字段级别血缘在做溯源的时候非常有用,因为大数据加工链路的下游是集市层,为了方便使用者使用,一般都是一些很宽的表(列很多的表,避免Join带来的性能损耗),这个表的上游可能是有几十个表产生的,如果不通过字段血缘限定溯源范围,就会导致搜索范围变得很大,无法快速精准定位到有问题的表。另外,元数据查询系统中的数据血缘还可进行生命周期管理,已经下线的任务立即清理血缘,其他血缘关系可保留一段时间,如果没有继续被调度,过期的血缘的关系予以清理。
图4是根据另一示例性实施例示出的一种元数据查询方法的流程图。图4所示的流程40是对图2所示的流程中S210“用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询”的详细描述。
如图4所示,在S402中,子系统的用户生成元数据查询请求。所述元数据查询请求中包括元数据的检索标识和检索类别;
在S404中,将所述元数据查询请求通过nginx代理服务器发送至元数据管理系统的预设API接口。元数据中心统一对外提供了API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过API接口获取元数据。另外,还可以基于元数据中心提供的API接口,获取标签对应的表,然后根据标签更新表对应的权限,实现基于标签的权限控制。
在S406中,元数据管理系统基于所述检索类别确定目标模块。
在S408中,基于所述目标模块和所述检索标识进行查询,以生成响应数据。
在一个实施例中,还包括:根据所述查询结果对当前业务进行分析;在所述分析结果满足预设策略时,生成业务警示信息。
在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:
(1)描述哪些数据在数据仓库中;
(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;
(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;
(4)记录并检测系统数据一致性的要求和执行情况;
(5)衡量数据质量。
以拿客户关系系统来说明,这个系统用于维护客户信息,然后用这些信息进行一些自动的流程处理、挖掘客户潜在的价值、进行客户服务。但是,基于维护客户关系这个目的,有些客户的信息是没有必要去维护的,诸如指纹、婚姻情况、学历情况等,这些信息跟客户关系管理的目标关系不大。在这些情况下,数据使用者可以确定元数据的目标为客户画像、客户职业、客户兴趣等,从以上这些特征的元数据和其关联数据究竟是什么,就可借助于本申请中的元数据查询系统来进行查询。
图5是根据另一示例性实施例示出的一种元数据查询系统的示意图。这个图按照功能模块分为数据血缘、数据字典和数据特征。
其中,数据血缘可由采集端、消息中间件、消费端以及血缘清理模块组成,基于Hive Hook,Spark Listener,Flink Hook,可以获取任务执行时输入表和输出表,推送给统一的消息中间件(Kafka),然后消费端负责将血缘关系沉淀到图数据库中。图数据库可选择Neo4j。
数据字典部分,可由Connector Manager负责管理到各个数据源的连接。对于Hive、MySQL,元数据查询系统并不会保存系统元数据,而是直接连接数据源实时获取。对于Kafka、HBase、Redis等KV,在元数据查询系统内置了一个元数据管理模块,可以在这个模块定义Value的Schema信息。
数据特征主要是标签的管理以及数据的访问热度信息。元数据查询系统可内置不同类型的标签,同时允许用户自定义扩展标签类型。指标、分层信息、主题域信息都是以标签的形式存储在元数据查询系统,同时元数据查询系统允许用户基于标签类型和标签搜索表和字段。
元数据查询系统统一对外提供了API访问接口,数据传输、数据地图、数据服务等其他的子系统都可以通过API接口获取元数据。另外,可以基于元数据中心提供的API接口,获取标签对应的表,然后根据标签更新表对应的权限,实现基于标签的权限控制。如图5所示的元数据查询系统,可提供多业务线、多租户支持;多数据源支持轻量级设计方案以及非结构化数据的数据字典管理;数据血缘实时采集方案以及高性能查询方案;元数据中心与权限管理工具的集成,实现了基于标签的高效权限管理方案;支持对表和字段打标签。
元数据查询系统管理了数据字典、数据血缘和数据特征,而这些元数据构建数据中台的基础。基于元数据查询系统解决了面对几万张数据表时“不知道哪些数据?”“到哪里找数据?”“如何准确的理解数据?”的难题。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图6是根据另一示例性实施例示出的一种元数据查询系统的框图。如图6所示,元数据查询系统60包括:血缘关系模块602,数据字典模块604,数据特征模块606,元数据服务模块608。
血缘关系模块602用于由多个任务处理组件的任务数据中提取元数据的血缘关系;所述血缘关系模块602还用于定期清理超过预设期限的元数据的血缘关系。
所述血缘关系模块602包括:多个任务处理组件,用于在执行任务时获取输入表和输出表;消息组件,用于获取所述输入表和所述输出表;消费端,用于基于所述输入表和所述输出表提取元数据的血缘关系。图数据库,用于存储元数据的血缘关系。
数据字典模块604用于通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;所述数据字典模块604包括:结构化单元,用于通过实时提取的方式由结构化数据库中提取元数据的数据字典;非结构化单元,用于预先设定非结构化数据的组织和结构;根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。连接器管理器,用于对结构化数据和非结构化数据的数据字典进行管理。
数据特征模块606用于以元数据所在的表和/或表中字段为基本单位生成标签;所述数据特征模块606还用于为元数据所在的表生成标签;为元数据所在的表中的字段生成标签;基于所述标签调取表或表中字段并进行授权。
元数据服务模块608用于为所述元数据设定检索标识;提供预设API接口以使得用户基于检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
所述元数据服务模块608包括:预设API接口,用于获取来自子系统的用户提交的元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;元数据管理系统,还用于基于所述检索类别确定目标模块;基于所述目标模块和所述检索标识进行查询,以生成响应数据。nginx代理服务器,用于将子系统的用户的所述元数据查询请求发送至元数据管理系统的预设API接口。
元数据查询系统60还可包括:分析模块,用于根据所述查询结果对当前业务进行分析;在所述分析结果满足预设策略时,生成业务警示信息。
根据本公开的元数据查询系统,由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询的方式,能够在用户进行业务分析的时候,面对该业务对应的大量数据表时,无从下手的难题,能够由不同类别的数据库汇总辅助用户提取和待分析目标相关的元数据、相关数据、数据标签等,提升工作效率。
图7是根据一示例性实施例示出的一种电子设备的框图。
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书中的根据本公开各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图2,图3,图4中所示的步骤。
所述存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信,使得用户能与该电子设备700交互的设备通信,和/或该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图8所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:由多个任务处理组件的任务数据中提取元数据的血缘关系;通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;以元数据所在的表和/或表中字段为基本单位生成标签;为所述元数据设定检索标识;用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (22)

1.一种元数据查询方法,可应用于元数据管理系统,其特征在于,包括:
由多个任务处理组件的任务数据中提取元数据的血缘关系;
通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;
以元数据所在的表和/或表中字段为基本单位生成标签;
为所述元数据设定检索标识;
用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
2.如权利要求1所述的方法,其特征在于,由多个任务处理组件的任务数据中提取元数据的血缘关系,包括:
在元数据管理系统的多个任务处理组件执行任务时获取输入表和输出表;
将所述输入表和所述输出表推送给消息组件;
所述消息组件对应的消费端基于所述输入表和所述输出表提取元数据的血缘关系。
3.如权利要求2所述的方法,其特征在于,由多个任务处理组件的任务数据中提取元数据的血缘关系,还包括:
所述消费端将元数据的血缘关系存储在图数据库中。
4.如权利要求2所述的方法,其特征在于,由多个任务处理组件的任务数据中提取元数据的血缘关系,还包括:
定期清理超过预设期限的元数据的血缘关系。
5.如权利要求1所述的方法,其特征在于,通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典,包括:
通过实时提取的方式由结构化数据库中提取元数据的数据字典;
预先设定非结构化数据的组织和结构;
根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。
6.如权利要求5所述的方法,其特征在于,通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典,还包括:
通过连接器管理器对结构化数据和非结构化数据的数据字典进行管理。
7.如权利要求1所述的方法,其特征在于,以元数据所在的表和/或表中字段为基本单位生成标签,包括:
为元数据所在的表生成标签;
为元数据所在的表中的字段生成标签;
基于所述标签调取表或表中字段并进行授权。
8.如权利要求1所述的方法,其特征在于,用户通过元数据管理系统的预设API接口基于所述检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询,包括:
子系统的用户通过元数据管理系统的预设API接口提交元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;
元数据管理系统基于所述检索类别确定目标模块;
基于所述目标模块和所述检索标识进行查询,以生成响应数据。
9.如权利要求8所述的方法,其特征在于,子系统的用户通过元数据管理系统的预设API接口提交元数据查询请求,包括:
子系统的用户生成元数据查询请求;
将所述元数据查询请求通过nginx代理服务器发送至元数据管理系统的预设API接口。
10.如权利要求1所述的方法,其特征在于,还包括:
根据所述查询结果对当前业务进行分析;
在所述分析结果满足预设策略时,生成业务警示信息。
11.一种元数据查询系统,其特征在于,包括:
血缘关系模块,用于由多个任务处理组件的任务数据中提取元数据的血缘关系;
数据字典模块,用于通过实时提取和预先定义的方式由多个业务数据库中提取元数据的数据字典;
数据特征模块,用于以元数据所在的表和/或表中字段为基本单位生成标签;
元数据服务模块,用于为所述元数据设定检索标识;提供预设API接口以使得用户基于检索标识对所述元数据和其对应的血缘关系、数据字典、标签进行查询。
12.如权利要求11所述的系统,其特征在于,所述血缘关系模块,包括:
多个任务处理组件,用于在执行任务时获取输入表和输出表;
消息组件,用于获取所述输入表和所述输出表;
消费端,用于基于所述输入表和所述输出表提取元数据的血缘关系。
13.如权利要求12所述的系统,其特征在于,所述血缘关系模块,还包括:
图数据库,用于存储元数据的血缘关系。
14.如权利要求12所述的系统,其特征在于,所述血缘关系模块,还用于
定期清理超过预设期限的元数据的血缘关系。
15.如权利要求11所述的系统,其特征在于,所述数据字典模块,包括:
结构化单元,用于通过实时提取的方式由结构化数据库中提取元数据的数据字典;
非结构化单元,用于预先设定非结构化数据的组织和结构;根据预先设定组织和结构生成非结构化数据库中提取元数据的数据字典。
16.如权利要求15所述的系统,其特征在于,所述数据字典模块,还包括:
连接器管理器,用于对结构化数据和非结构化数据的数据字典进行管理。
17.如权利要求11所述的系统,其特征在于,所述数据特征模块,还用于
为元数据所在的表生成标签;为元数据所在的表中的字段生成标签;基于所述标签调取表或表中字段并进行授权。
18.如权利要求11所述的系统,其特征在于,所述元数据服务模块,包括:
预设API接口,用于获取来自子系统的用户提交的元数据查询请求,所述元数据查询请求中包括元数据的检索标识和检索类别;
元数据管理系统,还用于基于所述检索类别确定目标模块;基于所述目标模块和所述检索标识进行查询,以生成响应数据。
19.如权利要求18所述的系统,其特征在于,还包括:
nginx代理服务器,用于将子系统的用户的所述元数据查询请求发送至元数据管理系统的预设API接口。
20.如权利要求11所述的系统,其特征在于,还包括:
分析模块,用于根据所述查询结果对当前业务进行分析;在所述分析结果满足预设策略时,生成业务警示信息。
21.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
22.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN202110468740.8A 2021-04-28 2021-04-28 元数据查询方法、系统及电子设备 Pending CN113297139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110468740.8A CN113297139A (zh) 2021-04-28 2021-04-28 元数据查询方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110468740.8A CN113297139A (zh) 2021-04-28 2021-04-28 元数据查询方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN113297139A true CN113297139A (zh) 2021-08-24

Family

ID=77320336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110468740.8A Pending CN113297139A (zh) 2021-04-28 2021-04-28 元数据查询方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113297139A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254081B (zh) * 2021-12-22 2024-06-04 中冶赛迪信息技术(重庆)有限公司 企业大数据搜索系统、方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078204A1 (en) * 2009-09-25 2011-03-31 International Business Machines Corporation System and method to customize metadata for different users running on the same infrastructure
CN106815353A (zh) * 2017-01-20 2017-06-09 星环信息科技(上海)有限公司 一种数据查询的方法及设备
CN109241358A (zh) * 2018-08-14 2019-01-18 中国平安财产保险股份有限公司 元数据管理方法、装置、计算机设备及存储介质
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN112231380A (zh) * 2020-10-20 2021-01-15 长城计算机软件与系统有限公司 采集数据的综合处理方法、系统、存储介质及电子设备
US20210049160A1 (en) * 2019-08-14 2021-02-18 Sap Se Metadata Search For Remote Applications
CN112416923A (zh) * 2019-08-22 2021-02-26 中兴通讯股份有限公司 一种元数据管理方法及装置、设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078204A1 (en) * 2009-09-25 2011-03-31 International Business Machines Corporation System and method to customize metadata for different users running on the same infrastructure
CN106815353A (zh) * 2017-01-20 2017-06-09 星环信息科技(上海)有限公司 一种数据查询的方法及设备
CN109241358A (zh) * 2018-08-14 2019-01-18 中国平安财产保险股份有限公司 元数据管理方法、装置、计算机设备及存储介质
CN109739893A (zh) * 2018-12-28 2019-05-10 上海连尚网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
US20210049160A1 (en) * 2019-08-14 2021-02-18 Sap Se Metadata Search For Remote Applications
CN112416923A (zh) * 2019-08-22 2021-02-26 中兴通讯股份有限公司 一种元数据管理方法及装置、设备、存储介质
CN112231380A (zh) * 2020-10-20 2021-01-15 长城计算机软件与系统有限公司 采集数据的综合处理方法、系统、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254081B (zh) * 2021-12-22 2024-06-04 中冶赛迪信息技术(重庆)有限公司 企业大数据搜索系统、方法及电子设备

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US20210182415A1 (en) Querying in big data storage formats
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
US20170139952A1 (en) System and method transforming source data into output data in big data environments
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
US11308095B1 (en) Systems and methods for tracking sensitive data in a big data environment
US20140278575A1 (en) Systems And Methods Of Processing Insurance Data Using A Web-Scale Data Fabric
US20180191759A1 (en) Systems and methods for modeling and monitoring data access behavior
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN112269816B (zh) 一种政务预约事项相关性检索方法
US20170140160A1 (en) System and method for creating, tracking, and maintaining big data use cases
Zhang et al. Topic modeling for OLAP on multidimensional text databases: topic cube and its applications
Hammond et al. Cloud based predictive analytics: text classification, recommender systems and decision support
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
US11704345B2 (en) Inferring location attributes from data entries
CN113326261B (zh) 数据血缘关系提取方法、装置及电子设备
Nagdive et al. Web server log analysis for unstructured data using apache flume and pig
CN113297287A (zh) 用户策略自动部署方法、装置及电子设备
CN111126073B (zh) 语义检索方法和装置
CN112256566B (zh) 一种测试案例的保鲜方法和装置
CN113297139A (zh) 元数据查询方法、系统及电子设备
US20180349497A1 (en) System and method for directed analysis of content using artifical intelligence for storage and recall
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
CN114398343A (zh) 数据库异常键处理方法、装置、设备及介质
US10409871B2 (en) Apparatus and method for searching information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Room 1109, No. 4, Lane 800, Tongpu Road, Putuo District, Shanghai, 200062

Applicant after: Shanghai Qiyue Information Technology Co.,Ltd.

Address before: Room a2-8914, 58 Fumin Branch Road, Hengsha Township, Chongming District, Shanghai, 201500

Applicant before: Shanghai Qiyue Information Technology Co.,Ltd.

Country or region before: China

CB02 Change of applicant information