CN110968592A - 元数据采集方法、装置、计算机设备及计算机可读存储介质 - Google Patents
元数据采集方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN110968592A CN110968592A CN201911239783.8A CN201911239783A CN110968592A CN 110968592 A CN110968592 A CN 110968592A CN 201911239783 A CN201911239783 A CN 201911239783A CN 110968592 A CN110968592 A CN 110968592A
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- preset
- analysis
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 127
- 238000004590 computer program Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000008676 import Effects 0.000 description 4
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 101150026195 hook gene Proteins 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2428—Query predicate definition using graphical user interfaces, including menus and forms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/547—Messaging middleware
Abstract
本发明实施例提供了一种基于大数据的元数据采集方法、装置、计算机设备及计算机可读存储介质。属于数据采集技术领域,通过第一预设方式采集多种类型的元数据,元数据的类型包括大数据组件元数据和关系型数据库元数据;将元数据输入至预设元数据混合模型,元数据混合模型包含第一解析模块和第二解析模块,第一解析模块用于解析大数据组件元数据,第二解析模块用于解析关系型数据库元数据;通过预设元数据混合模型分别解析元数据,以得到统一的预设格式的第一解析数据;将第一解析数据存储至数据库以完成元数据采集,由于支持对多种类型的元数据的采集和解析,拓宽了元数据类型的采集范围,提高了大数据应用环境中对大数据元数据的采集效率。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于大数据的元数据采集方法、装置、计算机设备及计算机可读存储介质。
背景技术
元数据(英文为Metadata),又称中介数据或者中继数据,为描述数据的数据(英文为Data about data),主要是描述数据属性(英文为Property)的信息。尤其对于大数据而言,由于数据结构复杂并且数据量较大,很难直接对数据进行查询及使用等,需要对大数据的原始数据进行处理以获得大数据的元数据,以进一步使用大数据。传统的大数据元数据收集方法,只能收集大数据系统组件中的元数据,大数据系统组件包括Hive组件、SQOOP组件和HBASE组件等,对大数据元数据的采集比较单一,对大数据所包含的复杂结构而言,降低了对大数据元数据的采集效率。
发明内容
本发明实施例提供了一种基于大数据的元数据采集方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中大数据元数据采集效率较低的问题。
第一方面,本发明实施例提供了一种基于大数据的元数据采集方法,包括:通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;将所述第一解析数据存储至数据库以完成元数据采集。
第二方面,本发明实施例还提供了一种基于大数据的元数据采集装置,包括:采集单元,用于通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;输入单元,用于将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;解析单元,用于通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;第一存储单元,用于将所述第一解析数据存储至数据库以完成元数据采集。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以实现所述基于大数据的元数据采集方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述基于大数据的元数据采集方法的步骤。
本发明实施例提供了一种基于大数据的元数据采集方法、装置、计算机设备及计算机可读存储介质。本发明实施例实现基于大数据的元数据采集时,通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到统一的预设格式的第一解析数据,所述第一解析数据包括所述大数据组件元数据和所述关系型数据库元数据;将所述第一解析数据存储至数据库以完成元数据采集,由于将多种类型的元数据采集通过第一预设方式的形式集于一体,同时元数据混合模型支持解析所述大数据组件元数据和所述关系型数据库元数据,从而能够支持对多种类型的元数据的采集和解析,实现了将多种类型的元数据的采集与解析集于一体,相对于传统技术中的大数据元数据采集只能收集大数据组件元数据,本发明实施例中拓宽了元数据类型的采集范围,从而使元数据采集能够更加适应大数据的复杂应用环境,提高了大数据应用环境中对大数据元数据的采集效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于大数据的元数据采集方法的一个流程示意图;
图2为本发明实施例提供的基于大数据的元数据采集方法的一个具体实施例的原理示意图;
图3为本发明实施例提供的基于大数据的元数据采集方法的另一个流程示意图;
图4为本发明实施例提供的基于大数据的元数据采集装置的示意性框图;以及
图5为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1和图2,图1为本发明实施例提供的基于大数据的元数据采集方法的一个示意性流程图,图2为本发明实施例提供的基于大数据的元数据采集方法的一个具体实施例的原理示意图。如图1所示,该方法包括以下步骤S101-S104:
S101、通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据。
其中,第一预设方式指通过每种数据类型各自所对应的数据采集模型采集各自所对应的元数据,所述数据类型包括大数据组件元数据和关系型数据库元数据,例如,对于大数据组件中所包含的大数据组件元数据,比如Hive组件、Hbase组件或Sqoop组件中的元数据,分别对应通过Hive Hook,Hbase Hook及Sqoop Hook建立各自的元数据采集模型进行采集,对于关系型数据库MySql,通过Canal或Maxwell建立元数据采集模型进行采集。
具体地,大数据中的元数据一般包括两种类型,一种为大数据生态组件中的元数据,大数据生态组件包括Hive组件、Hbase组件或Sqoop组件,可以称为大数据组件元数据,一种为关系型数据库中的元数据,如MySql数据库,可以称为关系型数据库元数据。
在本发明实施例中,通过对不同类型的元数据建立各自对应的元数据采集模型,如图2所示,对于Hive组件、Hbase组件或Sqoop组件,分别对应通过Hive Hook、Hbase Hook及Sqoop Hook建立各自的元数据采集模型,对于关系型数据库MySql,通过Canal或Maxwell建立元数据采集模型,并将各种元数据采集模型合而为一,通过每种数据类型各自所对应的数据采集模型采集各自数据类型的元数据,以实现采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据,实现了采集元数据混合模型的良好扩展性,从而将不同类型的元数据采集集于一个大数据元数据系统,以实现通过每种数据类型各自所对应的数据采集模型统一收集大数据组件元数据和关系型数据库元数据等多种类型的元数据。例如,使用Hive Hook、Hbase Hook和Sqoop Hook实时采集大数据系统对应组件的元数据,使用Canal或Maxwell实时采集关系型数据库MYSQL元数据,实现不同类型元数据的统一收集,统一大数据系统组件和关系型数据库的元数据,避免建立和维护多套元数据采集系统。
S102、将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据。
具体地,预先构建一个能够同时解析多种数据类型的集成型的预设元数据混合模型,所述元数据混合模型指包含了解析所述大数据组件元数据的第一解析模块和和解析所述关系型数据库元数据的第二解析模块的模型,因此,所述预设元数据混合模型能够同时解析的数据包括所述大数据组件元数据和所述关系型数据库元数据,即所述预设元数据混合模型接收到所述大数据组件元数据时,调用所述大数据组件元数据所对应的第一解析模块进行解析,所述预设元数据混合模型接收到所述关系型数据库元数据时,调用所述关系型数据库元数据所对应的第二解析模块进行解析,从而避免建立和维护多套元数据解析系统。
通过第一预设方式采集包括大数据组件元数据和关系型数据库元数据的元数据后,将所述元数据输入至预设元数据混合模型,所述预设元数据混合模型根据元数据的数据类型,所述预设元数据模型调用自身所包含的每种所述数据类型的元数据各自所对应的解析模块,对应解析每种所述数据类型各自所对应的所述元数据,以得到统一预设格式的第一解析数据,所述第一解析数据包括所述大数据组件元数据和所述关系型数据库元数据。
进一步地,所述将所述元数据输入至预设元数据混合模型的步骤包括:
将所述元数据通过预设元数据导入工具导入至预设元数据混合模型。
具体地,将所述元数据通过预设的元数据导入工具进行导入,即元数据的初始导入是通过元数据导入工具完成,后续再结合实时增量采集,构建大数据元数据系统的完整性,也能够提高元数据导入的效率。
S103、通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据,所述第一解析数据包括所述大数据组件元数据和所述关系型数据库元数据。
S104、将所述第一解析数据存储至数据库以完成元数据采集。
具体地,所述预设元数据混合模型根据元数据的类型,通过所述预设元数据模型调用自身所包含的每种所述类型的元数据各自所对应的解析模块,对应解析每种所述类型的所述元数据以得到第一解析数据,从而实现通过所述预设元数据混合模型解析所述元数据以得到第一解析数据,所述第一解析数据包括所述大数据组件元数据和所述关系型数据库元数据,例如,通过预设元数据混合模型中所包含的第一解析模块,解析大数据组件(Hive组件、Hbase组件或Sqoop组件)的元数据,通过预设元数据混合模型中所包含的第二解析模块解析关系型数据库MySql的元数据,将所有所述元数据变换为统一的预设格式,得到所述第一解析数据,由于元数据中包括大数据组件元数据和关系型数据库元数据的元数据,因此,所述第一解析数据也包括格式变化后的所述大数据组件元数据和所述关系型数据库元数据。然后将所述第一解析数据存储至数据库以完成元数据采集,例如将最终的元数据信息所对应的第一解析数据以图的方式存储到图数据库JanusGaph,可为数据血缘作基础,从而实现将大数据组件元数据和关系型数据库元数据统一采集、统一解析和统一存储,相比传统技术中大数据元数据采集只能收集大数据组件元数据,本发明实施例采取集成式元数据采集和元数据解析,然后将元数据进行统一存储,拓宽了元数据类型的采集范围,从而使元数据采集能够更加适应大数据所对应的数据结构复杂的应用环境。
本发明实施例实现基于大数据的元数据采集时,通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到统一的预设格式的第一解析数据,所述第一解析数据包括所述大数据组件元数据和所述关系型数据库元数据;将所述第一解析数据存储至数据库以完成元数据采集,由于将多种类型的元数据采集通过第一预设方式的形式集于一体,同时元数据混合模型支持解析所述大数据组件元数据和所述关系型数据库元数据,从而能够支持对多种类型的元数据的采集和解析,实现了将多种类型的元数据的采集与解析集于一体,相对于传统技术中的大数据元数据采集只能收集大数据组件元数据,本发明实施例中拓宽了元数据类型的采集范围,从而使元数据采集能够更加适应大数据的复杂应用环境,提高了大数据应用环境中对大数据元数据的采集效率。
请参阅图2和图3,图3为本发明实施例提供的基于大数据的元数据采集方法的另一个流程示意图。其中,图3中步骤S302至步骤S305与图1中步骤S101至S104各自对应相同,在此不再赘述。如图3所示,在该实施例中,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还包括:
S308、通过第二预设方式捕获所述元数据的变更以得到所述元数据的增量更新,其中,所述第二预设方式包含多种类型的HOOK。
S309、将所述增量更新导入所述数据库。
其中,Hook,又叫做钩子函数,指在系统没有调用该函数之前,钩子程序就先捕获该消息,钩子函数先得到控制权,这时钩子函数既可以加工处理(改变)该函数的执行行为,还可以强制结束消息的传递,通过设置“钩子”,应用程序可以在系统级对所有消息、事件进行过滤,访问在正常情况下无法访问的消息。
具体地,针对元数据的更新,通过增加不同类型的HOOK,例如,针对Hive增加HiveHook、针对Hbase增加Hbase Hook和针对Sqoop增加Sqoop Hook,针对关系型数据库MySql增加Canal或Maxwell,从而使用Hive Hook、HbaseHook和Sqoop Hook实时采集大数据系统对应组件的元数据及元数据的变更,使用Canal或Maxwell实时采集MySqlL元数据及元数据的变更,以实现自动通过第二预设方式捕获所述元数据的变更,得到所述元数据的增量更新,其中,元数据变更包括表及字段的增加、删除及修改等。由于本发明实施例能够自动捕获各种类型元数据的变更,并可以将元数据的变更自动导入到大数据元数据系统的数据库中,相比传统技术中,通过人工手动维护清单文件中元数据变更时的维护过程繁杂且易出错,或者采用Wherehows通过调度任务触发收集元数据时,无法实时动态地自动获取元数据变更,本发明实施例通过实时自动抓取元数据的变更并实现自动导入数据库,提高了元数据更新的效率和准确性。
请继续参阅图3,如图3所示,在该实施例中,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还包括:
S310、接收对所述第一解析数据进行查询的查询指令。
S311、根据所述查询指令,获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集。
S312、构建所述第二解析数据所对应的查询视图,并显示所述查询视图。
具体地,由于本发明实施例实现了大数据组件元数据和关系型数据库元数据等多种类型的元数据的统一采集、统一解析及统一存储,因此,当需要对包含了大数据组件元数据和关系型数据库元数据等多种类型的元数据所对应的第一解析数据进行查询时,可以通过构建统一的查询视图,将大数据组件元数据和关系型数据库元数据等多种类型的元数据通过视图进行统一显示,即计算机设备接收对所述第一解析数据进行查询的查询指令,根据所述查询指令,从数据库中获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集,所述第二解析数据包含于所述第一解析数据,构建所述第二解析数据所对应的查询视图,并显示所述查询视图,相比传统技术中无法进行多种类型元数据的统一采集、统一解析及统一存储,当需要对多种类型的元数据进行查询是,需要对每种类型的元数据分别进行查询和显示,本发明实施例通过集中查询和集中显示,提高了对元数据查询视图构建的效率和显示的效率,提高了对元数据查询的简便性和效率。
请继续参阅图2和图3,如图3所示,在该实施例中,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之前,还包括:
S305、将所述第一解析数据存储至预设消息中间件。
S307、对所述预设消息中间件中的第一解析数据进行实时消费。
具体地,通过所述预设元数据混合模型解析所述元数据以得到第一解析数据后,将所述第一解析数据存储至预设消息中间件,以使预设元数据消费模块从所述预设消息中间件中获取所述第一解析数据,并对所述预设消息中间件中的第一解析数据进行实时消费,能够保证采集的元数据的实时和高可靠性。例如,请继续参阅图2,将解析完成的元数据信息所对应的第一解析数据存入消息中间件Kafka,Kafka元数据消费模块从消息中间件Kafka中获取所述第一解析数据,实现实时消费Kafka元数据,并将其存储到图数据库JanusGaph中,将解析完成的元数据存储到消息中间件Kafka,配合Kafka元数据消费模块的实时消费,并将其存储到图数据库JanusGaph中,能够保证采集的元数据的实时和高可靠性。
请继续参阅图3,如图3所示,在该实施例中,所述将所述元数据输入至预设元数据混合模型的步骤之前,还包括:
S300、通过定义模型文件的方式,接收对所述预设元数据混合模型进行更新的更新指令。
S301、根据所述更新指令,更新所述预设元数据混合模型,以实现对所述预设元数据混合模型的更新。
具体地,本发明实施例通过对不同组件各自建立对应的模型,并将其合而为一,能够同时支持大数据系统组件(Hive组件、Hbase组件或Sqoop组件等)元数据和关系型数据库MySql元数据等多种类型元数据的采集,因此,本发明实施例可以实现对元数据采集类型的扩展,随着元数据采集类型的扩展,由于同时预设元数据混合模型能够同时解析多种类型数据的元数据,因此,也需要实现对预设元数据混合模型进行扩展,才能使预设元数据混合模型与采集的元数据的类型相匹配。可以通过定义模型文件的方式,接收对所述预设元数据混合模型进行更新的更新指令,根据所述更新指令,更新所述预设元数据混合模型,以实现对所述预设元数据混合模型的更新,从而实现预设元数据混合模型的良好扩展性,从而在通过对不同组件建立对应的模型,实现不同类型元数据的收集的同时,也能实现对不同类型元数据的解析,实现了元数据混合模型解析模块通过自定义模型文件方式灵活扩展,相比传统技术中由于对不同类型元数据的收集无法灵活进行扩展,导致不能对元数据混合模型解析进行灵活扩展的问题,本发明实施例提高了对元数据采集和元数据解析所对应的元数据混合模型扩展的灵活性。
需要说明的是,上述各个实施例所述的基于大数据的元数据采集方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本发明要求的保护范围之内。
请参阅图4,图4为本发明实施例提供的基于大数据的元数据采集装置的示意性框图。对应于上述基于大数据的元数据采集方法,本发明实施例还提供一种基于大数据的元数据采集装置。如图4所示,该基于大数据的元数据采集装置包括用于执行上述基于大数据的元数据采集方法的单元,该装置可以被配置于终端等计算机设备中。具体地,请参阅图4,该基于大数据的元数据采集装置400包括采集单元401、输入单元402、解析单元403及第一存储单元404。
其中,采集单元401,用于通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;
输入单元402,用于将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;
解析单元403,用于通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;
第一存储单元404,用于将所述第一解析数据存储至数据库以完成元数据采集。
在一个实施例中,所述基于大数据的元数据采集装置400还包括:
捕获单元,用于通过第二预设方式捕获所述元数据的变更以得到所述元数据的增量更新,其中,所述第二预设方式包含多种类型的HOOK;
导入单元,用于将所述增量更新导入所述数据库。
在一个实施例中,所述基于大数据的元数据采集装置400还包括:
第一接收单元,用于接收对所述第一解析数据进行查询的查询指令;
获取单元,用于根据所述查询指令,获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集;
构建单元,用于构建所述第二解析数据所对应的查询视图,并显示所述查询视图。
在一个实施例中,所述基于大数据的元数据采集装置400还包括:
第二存储单元,用于将所述第一解析数据存储至预设消息中间件,以使预设元数据消费模块从所述预设消息中间件中获取所述第一解析数据,并对所述第一解析数据进行实时消费。
在一个实施例中,所述基于大数据的元数据采集装置400还包括还包括:
第二接收单元,用于通过定义模型文件的方式,接收对所述预设元数据混合模型进行更新的更新指令;
更新单元,用于根据所述更新指令,更新所述预设元数据混合模型,以实现对所述预设元数据混合模型的更新。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于大数据的元数据采集装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述基于大数据的元数据采集装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将基于大数据的元数据采集装置按照需要划分为不同的单元,也可将基于大数据的元数据采集装置中各单元采取不同的连接顺序和方式,以完成上述基于大数据的元数据采集装置的全部或部分功能。
上述基于大数据的元数据采集装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述基于大数据的元数据采集方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述基于大数据的元数据采集方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;将所述第一解析数据存储至数据库以完成元数据采集。
在一实施例中,所述处理器502在实现所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还实现以下步骤:
通过第二预设方式捕获所述元数据的变更以得到所述元数据的增量更新,其中,所述第二预设方式包含多种类型的HOOK;
将所述增量更新导入所述数据库。
在一实施例中,所述处理器502在实现所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还实现以下步骤:
接收对所述第一解析数据进行查询的查询指令;
根据所述查询指令,获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集;
构建所述第二解析数据所对应的查询视图,并显示所述查询视图。
在一实施例中,所述处理器502在实现所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之前,还实现以下步骤:
将所述第一解析数据存储至预设消息中间件,以使预设元数据消费模块从所述预设消息中间件中获取所述第一解析数据,并对所述第一解析数据进行实时消费。
在一实施例中,所述处理器502在实现所述将所述元数据输入至预设元数据混合模型的步骤之前,还实现以下步骤:
通过定义模型文件的方式,接收对所述预设元数据混合模型进行更新的更新指令;
根据所述更新指令,更新所述预设元数据混合模型,以实现对所述预设元数据混合模型的更新。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的基于大数据的元数据采集方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于大数据的元数据采集方法,其特征在于,包括:
通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;
将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;
通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;
将所述第一解析数据存储至数据库以完成元数据采集。
2.根据权利要求1所述基于大数据的元数据采集方法,其特征在于,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还包括:
通过第二预设方式捕获所述元数据的变更以得到所述元数据的增量更新,其中,所述第二预设方式包含多种类型的HOOK;
将所述增量更新导入所述数据库。
3.根据权利要求1所述基于大数据的元数据采集方法,其特征在于,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之后,还包括:
接收对所述第一解析数据进行查询的查询指令;
根据所述查询指令,获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集;
构建所述第二解析数据所对应的查询视图,并显示所述查询视图。
4.根据权利要求1所述基于大数据的元数据采集方法,其特征在于,所述将所述第一解析数据存储至数据库以完成元数据采集的步骤之前,还包括:
将所述第一解析数据存储至预设消息中间件,以使预设元数据消费模块从所述预设消息中间件中获取所述第一解析数据,并对所述第一解析数据进行实时消费。
5.根据权利要求1所述基于大数据的元数据采集方法,其特征在于,所述将所述元数据输入至预设元数据混合模型的步骤之前,还包括:
通过定义模型文件的方式,接收对所述预设元数据混合模型进行更新的更新指令;
根据所述更新指令,更新所述预设元数据混合模型,以实现对所述预设元数据混合模型的更新。
6.一种基于大数据的元数据采集装置,其特征在于,包括:
采集单元,用于通过第一预设方式采集多种类型的元数据,所述元数据的类型包括大数据组件元数据和关系型数据库元数据;
输入单元,用于将所述元数据输入至预设元数据混合模型,所述元数据混合模型包含第一解析模块和第二解析模块,其中,所述第一解析模块用于解析所述大数据组件元数据,所述第二解析模块用于解析所述关系型数据库元数据;
解析单元,用于通过所述预设元数据混合模型分别解析所述元数据中包含的所述大数据组件元数据和所述关系型数据库元数据,以得到预设格式的第一解析数据;
第一存储单元,用于将所述第一解析数据存储至数据库以完成元数据采集。
7.根据权利要求6所述基于大数据的元数据采集装置,其特征在于,所述装置还包括:
捕获单元,用于通过第二预设方式捕获所述元数据的变更以得到所述元数据的增量更新,其中,所述第二预设方式包含多种类型的HOOK;
导入单元,用于将所述增量更新导入所述数据库。
8.根据权利要求6所述基于大数据的元数据采集装置,其特征在于,所述装置还包括:
第一接收单元,用于接收对所述第一解析数据进行查询的查询指令;
获取单元,用于根据所述查询指令,获取所述查询指令所对应的第二解析数据,所述第二解析数据为所述第一解析数据的子集;
构建单元,用于构建所述第二解析数据所对应的查询视图,并显示所述查询视图。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1-5任一项所述基于大数据的元数据采集方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行如权利要求1-5中任一项所述基于大数据的元数据采集方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239783.8A CN110968592B (zh) | 2019-12-06 | 2019-12-06 | 元数据采集方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239783.8A CN110968592B (zh) | 2019-12-06 | 2019-12-06 | 元数据采集方法、装置、计算机设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968592A true CN110968592A (zh) | 2020-04-07 |
CN110968592B CN110968592B (zh) | 2023-11-21 |
Family
ID=70033308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911239783.8A Active CN110968592B (zh) | 2019-12-06 | 2019-12-06 | 元数据采集方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968592B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181779A (zh) * | 2020-09-28 | 2021-01-05 | 北京云歌科技有限责任公司 | 一种ai元数据的综合处理方法和系统 |
CN112527880A (zh) * | 2020-12-16 | 2021-03-19 | 平安壹钱包电子商务有限公司 | 大数据集群元数据信息的采集方法、装置、设备及介质 |
CN113704337A (zh) * | 2021-08-26 | 2021-11-26 | 上海德拓信息技术股份有限公司 | 一种基于驱动动态加载的元数据采集方法与系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016023471A1 (zh) * | 2014-08-11 | 2016-02-18 | 张锐 | 手写输入字符的处理、数据拆分和合并及编解码处理方法 |
CN107145403A (zh) * | 2017-04-20 | 2017-09-08 | 浙江工业大学 | 面向Web开发环境的关系型数据库数据回溯方法 |
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
US20180173812A1 (en) * | 2016-12-19 | 2018-06-21 | American Express Travel Related Services Company, Inc. | Systems and methods for parsing and ingesting data in big data environments |
CN109213826A (zh) * | 2017-06-30 | 2019-01-15 | 华为技术有限公司 | 数据处理方法和设备 |
CN109241358A (zh) * | 2018-08-14 | 2019-01-18 | 中国平安财产保险股份有限公司 | 元数据管理方法、装置、计算机设备及存储介质 |
CN109359139A (zh) * | 2018-10-24 | 2019-02-19 | 拉扎斯网络科技(上海)有限公司 | 数据同步方法、系统、电子设备及计算机可读存储介质 |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
CN109656963A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 元数据获取方法、装置、设备及计算机可读存储介质 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN109885562A (zh) * | 2019-01-17 | 2019-06-14 | 安徽谛听信息科技有限公司 | 一种基于网络空间安全的大数据智能分析系统 |
CN110019267A (zh) * | 2017-11-21 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种元数据更新方法、装置、系统、电子设备及存储介质 |
CN110275861A (zh) * | 2019-06-25 | 2019-09-24 | 北京明略软件系统有限公司 | 数据存储方法及装置、存储介质、电子装置 |
-
2019
- 2019-12-06 CN CN201911239783.8A patent/CN110968592B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016023471A1 (zh) * | 2014-08-11 | 2016-02-18 | 张锐 | 手写输入字符的处理、数据拆分和合并及编解码处理方法 |
US20180173812A1 (en) * | 2016-12-19 | 2018-06-21 | American Express Travel Related Services Company, Inc. | Systems and methods for parsing and ingesting data in big data environments |
CN107145403A (zh) * | 2017-04-20 | 2017-09-08 | 浙江工业大学 | 面向Web开发环境的关系型数据库数据回溯方法 |
CN107169070A (zh) * | 2017-05-08 | 2017-09-15 | 山大地纬软件股份有限公司 | 一种基于大数据的社保指标仓库的构建系统及其方法 |
CN109213826A (zh) * | 2017-06-30 | 2019-01-15 | 华为技术有限公司 | 数据处理方法和设备 |
CN110019267A (zh) * | 2017-11-21 | 2019-07-16 | 中国移动通信有限公司研究院 | 一种元数据更新方法、装置、系统、电子设备及存储介质 |
CN109241358A (zh) * | 2018-08-14 | 2019-01-18 | 中国平安财产保险股份有限公司 | 元数据管理方法、装置、计算机设备及存储介质 |
CN109359139A (zh) * | 2018-10-24 | 2019-02-19 | 拉扎斯网络科技(上海)有限公司 | 数据同步方法、系统、电子设备及计算机可读存储介质 |
CN109582660A (zh) * | 2018-12-06 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 数据血缘分析方法、装置、设备、系统及可读存储介质 |
CN109656963A (zh) * | 2018-12-18 | 2019-04-19 | 深圳前海微众银行股份有限公司 | 元数据获取方法、装置、设备及计算机可读存储介质 |
CN109739894A (zh) * | 2019-01-04 | 2019-05-10 | 深圳前海微众银行股份有限公司 | 补充元数据描述的方法、装置、设备及存储介质 |
CN109885562A (zh) * | 2019-01-17 | 2019-06-14 | 安徽谛听信息科技有限公司 | 一种基于网络空间安全的大数据智能分析系统 |
CN110275861A (zh) * | 2019-06-25 | 2019-09-24 | 北京明略软件系统有限公司 | 数据存储方法及装置、存储介质、电子装置 |
Non-Patent Citations (4)
Title |
---|
KRISTINA等: "inspection data to support a digital twin for geometry assurance", PROCEEDINGS OF THE ASME 2017 INTERNATIONAL MECHANICAL ENGINEERING CONGRESS AND EXPOSITION, pages 1 - 10 * |
刘道新等: "元数据在电力统计管理系统中的应用研究", 经济研究导刊, no. 11, pages 172 - 176 * |
张新阳;张梅;马文;程永新;: "基于电力行业的大数据时代下元数据管理方法", 电脑知识与技术, vol. 14, no. 31, pages 258 - 260 * |
赵飞;谢政;: "元数据的数据解析技术及在卫星设计中的应用", 航天器工程, vol. 19, no. 02, pages 81 - 86 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112181779A (zh) * | 2020-09-28 | 2021-01-05 | 北京云歌科技有限责任公司 | 一种ai元数据的综合处理方法和系统 |
CN112527880A (zh) * | 2020-12-16 | 2021-03-19 | 平安壹钱包电子商务有限公司 | 大数据集群元数据信息的采集方法、装置、设备及介质 |
CN112527880B (zh) * | 2020-12-16 | 2023-08-08 | 平安壹钱包电子商务有限公司 | 大数据集群元数据信息的采集方法、装置、设备及介质 |
CN113704337A (zh) * | 2021-08-26 | 2021-11-26 | 上海德拓信息技术股份有限公司 | 一种基于驱动动态加载的元数据采集方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110968592B (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109739894B (zh) | 补充元数据描述的方法、装置、设备及存储介质 | |
CN110968592A (zh) | 元数据采集方法、装置、计算机设备及计算机可读存储介质 | |
CN111209309B (zh) | 数据流图处理结果确定方法、装置、设备及存储介质 | |
CN111597257A (zh) | 数据库的同步方法、装置、存储介质及终端 | |
CN111342992B (zh) | 设备信息变更记录的处理方法及系统 | |
CN107273369B (zh) | 一种表数据修改方法和装置 | |
CN109471893B (zh) | 网络数据的查询方法、设备及计算机可读存储介质 | |
CN110532559B (zh) | 规则的处理方法及装置 | |
CN112671878B (zh) | 一种区块链的信息订阅方法、装置、服务器和存储介质 | |
CN114385437A (zh) | 数据质量分析系统及方法 | |
CN111125226B (zh) | 一种配置数据采集方法及装置 | |
CN112163948A (zh) | 一种分润计算方法、系统、设备及存储介质 | |
CN112559525A (zh) | 数据检查系统、方法、装置和服务器 | |
CN111376255B (zh) | 机器人数据采集方法、装置及终端设备 | |
CN114153895A (zh) | 一种实时数仓框架的搭建方法以及实时数仓框架 | |
CN113641567A (zh) | 一种数据库巡检方法、装置、电子设备及存储介质 | |
CN112184027A (zh) | 任务进度更新方法、装置及存储介质 | |
CN111339422A (zh) | 推荐系统任务管理平台、推荐方法及系统 | |
CN111752916A (zh) | 数据采集方法及装置、计算机可读存储介质、电子设备 | |
CN114500272B (zh) | 一种配置信息采集处理方法及装置 | |
CN115168363B (zh) | 元数据的处理方法、装置、电子设备及存储介质 | |
CN115982285B (zh) | 数据处理方法、设备及计算机可读存储介质 | |
CN109684159A (zh) | 分布式消息系统的状态监控方法、装置、设备及存储介质 | |
CN103297479A (zh) | 一种插件升级的分布式检测方法及装置 | |
CN112199428B (zh) | 功能数据块的应用管理系统、方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |