CN111680030A - 数据融合方法及装置,基于元信息的数据处理方法和装置 - Google Patents

数据融合方法及装置,基于元信息的数据处理方法和装置 Download PDF

Info

Publication number
CN111680030A
CN111680030A CN201910180797.0A CN201910180797A CN111680030A CN 111680030 A CN111680030 A CN 111680030A CN 201910180797 A CN201910180797 A CN 201910180797A CN 111680030 A CN111680030 A CN 111680030A
Authority
CN
China
Prior art keywords
data
information
meta
meta information
describing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910180797.0A
Other languages
English (en)
Inventor
王烨
周祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910180797.0A priority Critical patent/CN111680030A/zh
Publication of CN111680030A publication Critical patent/CN111680030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases

Abstract

本申请公开一种数据融合方法及装置,基于元信息的数据处理方法及装置,一种数据处理方法,以及计算机存储介质和电子设备。其中,所述数据融合方法包括:获取数据源中用于描述数据属性的元信息;根据所述数据源中数据的元信息,生成元信息表结构;根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表;进而使得生成的融合有所述元信息的数据表中能够包括有元信息的相关内容,以便对数据源中的数据进行分析时也可以对数据的元信息进行查询、分析等相关操作。

Description

数据融合方法及装置,基于元信息的数据处理方法和装置
技术领域
本申请涉及计算机应用领域,具体涉及一种数据融合方法及装置,以及一种基于元信息的数据处理方法及装置。本申请同时涉及一种数据处理方法;以及涉及一种计算机存储介质和电子设备。
背景技术
在传统的关系型数据库中,用户定义一个表,然后会持续的读写表内数据,但是对于表本身相关的元信息并不能提供查询,不能与表内数据融合在一起查询,因为大部分时候业务上没有这样的需求。
随着互联网的不断发展,大数据已然成为生活中不可或缺的内容。在数据湖场景中,海量的元信息本身也是大数据的重要来源,用户对于不同数据源中的元信息也有查询的需求。在这样的背景下,用户就会有关联分析各种数据的需求,同时对这些数据所对应的元信息数据,也有相关的分析需求。用户希望能够把数据库表的某些元信息作为列的方式输出到最后的结果集中去。在不支持元信息融合业务数据分析前,唯一的方法是把所有这些元信息写到表的列中然后再分析,但是这种方式有以下问题:
1)写到表中的元信息构成大量的冗余信息,进而导致存储空间变得很大,而且这些大量的冗余信息大部分内容都是重复的;
2)这些信息很难变更,如果要变则需要将所有记录都变更,等等。
基于上述内容,如何对元信息的数据分析,以及将元信息与源数据结合进行数据分析成为本领域技术人员需要解决技术问题。
发明内容
本申请提供一种数据融合方法,以解决现有技术中无法针对元信息与源数据结合进行分析的问题。
本申请提供一种数据融合方法,包括:
获取数据源中用于描述数据属性的元信息;
根据所述数据源中数据的元信息,生成元信息表结构;
根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,所述根据所述数据源中数据的元信息,生成元信息表结构,包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
在一些实施例中,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,还包括:
在设置的所述元信息表结构的列信息中添加元信息标识;
所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述列信息中的所述元信息标识,确定所述元信息对应的所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表。
在一些实施例中,所述将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表,包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有虚拟元信息的数据表。
在一些实施例中,所述获取数据源中用于描述数据属性的元信息,包括:
根据数据源提供的文档信息,获取数据源中用于描述数据属性的元信息。
在一些实施例中,所述元信息包括至少如下一种信息:
数据名称信息;
数据创建时间信息;
数据修改时间信息;
数据库表名称信息;
数据实例名称信息;
数据编辑者信息;
数据创建者信息;
数据大小信息;
数据路径信息。
在一些实施例中,还包括:
获取用于描述所述数据源中数据内容的数据表。
本申请还提供一种数据融合装置,包括:
获取单元,用于获取数据源中用于描述数据属性的元信息;
生成单元,用于根据所述数据源中数据的元信息,生成元信息表结构;
融合单元,用于根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
本申请还提供一种基于元信息的数据处理方法,包括:
获取针对用于描述数据属性的元信息操作的操作请求;
根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息;
发送满足所述操作条件的数据信息。
在一些实施例中,还包括:
获取数据源中用于描述数据属性的元信息;
根据所述数据源中数据的元信息,生成元信息表结构;
根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,所述根据所述数据源中数据的元信息,生成元信息表结构,包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
在一些实施例中,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表。
在一些实施例中,还包括:
根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表;
所述根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息,包括:
在生成的融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
在一些实施例中,还包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构;
所述根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息,包括:
在根据所述数据源中数据的元信息设置所述元信息表结构的列信息中,确定满足所述操作请求中操作条件的元信息表结构的列信息;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
将所述确定满足所述操作请求中操作条件的元信息表结构的列信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,还包括:
在设置的所述元信息表结构的列信息中添加元信息标识;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述列信息中的所述元信息标识,确定所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
在一些实施例中,包括:
获取单元,用于获取包括有用于描述数据属性的元信息的操作请求;
提取单元,用于根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息;
发送单元,用于发送满足所述操作条件的数据信息。
本申请还提供一种数据处理方法,包括:
计算节点获取前端节点针对用于描述数据属性的元信息的操作请求;
所述计算节点针对用于描述数据属性的元信息的操作请求,在融合有元信息的数据表中,提取满足操作请求中操作条件的数据信息;
所述计算节点将所述提取的满足操作请求中操作条件的数据信息发送至所述前端节点。
本申请还提供一种计算机存储介质,用于存储程序;
所述程序在被所述处理器读取执行时,使得所述处理器执行如上所述的数据融合方法中的步骤或者如上所述的基于元信息的数据处理方法中的步骤或者如上所述的数据处理方法中的步骤。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,使得所述电子设备执行如上所述的数据融合方法中的步骤或者如上所述的基于元信息的数据处理方法中的步骤或者如上所述的数据处理方法中的步骤。
与现有技术相比,本申请具有以下优点:
本申请提供的一种数据融合方法,通过获取数据源中用于描述数据属性的元信息,根据所述元信息,生成元信息表结构,再根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表;进而使得数据表中包括有元信息的相关内容,以便对数据源中的数据进行分析时也可以对数据的元信息进行查询、分析等相关操作。
本申请还提供一种基于元信息的数据处理方法,通过获取针对用于描述数据属性的元信息操作的操作请求,根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息,发送满足所述操作条件的数据信息;进而能够融合有所述元信息的数据表中,找到符合操作条件的数据信息并发送,从而完成数据流的实时供应。
附图说明
图1是本申请提供的一种数据融合方法实施例的流程图;
图2是本申请提供的一种数据融合方法实施例中针对不同源数据设置元信息表结构的示意图;
图3是本申请提供的一种数据融合装置实施例的结构示意图;
图4是本申请提供的一种基于元信息的数据处理方法实施例的流程图;
图5是本申请提供的一种基于元信息的数据处理装置实施例的结构示意图;
图6是本申请提供的一种数据处理方法实施例的流程图;
图7是本申请提供的一种数据处理方法的数据湖计算集群的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请中使用的术语是仅仅出于对特定实施例描述的目的,而非旨在限制本申请。在本申请中和所附权利要求书中所使用的描述方式例如:“一种”、“第一”、和“第二”等,并非对数量上的限定或先后顺序上的限定,而是用来将同一类型的信息彼此区分。
本申请基于现有技术中针对数据库中存储的数据内容的元信息无法获取的问题提出一种将元信息与源数据的数据内容进行融合的方法,从而能够获得元信息以及相对应的数据内容。具体如下:
请参考图1所示,图1是本申请提供的一种数据融合方法实施例的流程图,所述融合方法包括:
步骤S101:获取数据源中用于描述数据属性的元信息。
所述步骤S101中的元信息是指用于描述数据属性的信息,例如:数据的创建时间,数据的修改时间,数据的创建时间,数据的路径信息等等,不同的数据源可以提供不同的元信息,换言之,不同的数据源提供不同的数据以及元信息。因此,所述步骤S101中获取数据源中用于描述数据属性的元信息,包括:
根据数据源提供文档信息,获取数据源中用于描述数据属性的元信息。不同的数据源可以提供不同的元信息,例如:当数据源类型为对象存储类型时可以提供的元信息包括:数据名称(也可以称为文件名称),数据创建时间,数据的最后修改时间等信息;数据源类型为表格存储类型时可以提供的元信息包括:数据表名称,数据实例名称,数据表创建时间等信息。进而可知,所述元信息是描述数据源中数据属性的一种信息,该信息在数据源中并不存在于数据表中,数据表中仅存储有数据内容。以上对元信息的仅为举例说明,对于描述数据源中数据属性的信息均可以当做元信息。因此,所述元信息可以包括至少如下一种信息:
数据名称信息;
数据创建时间信息;
数据修改时间信息;
数据库表名称信息;
数据实例名称信息;
数据编辑者信息;
数据创建者信息;
数据大小信息;
数据存储路径信息。
上述元信息也可以是文件的元信息。
步骤S102:根据所述数据源中数据的元信息,生成元信息表结构。
所述步骤S102中数据表是由表名、表中的字段和表的记录三个部分组成的。表结构就是设置数据表文件名,确定数据表包含哪些字段,各字段的字段名、字段类型、及宽度等信息。元信息表结构可以包括元信息名称字段以及元信息内容字段,在本实施例中,所述步骤S102生成所述元信息表结构具体可以包括:
步骤S102-1:根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
步骤S102-2:根据所述列信息,生成所述元信息表结构。
所述步骤S102-1在设置所述元信息表结构的列信息可以是将获取的元信息按照所属类型进行分类,每个类型下为元信息内容,所述类型为列名。例如:列名可以是数据名称或文件名称,数据或文件的创建时间等,列信息的内容则是对应列名的具体内容。如:文件名称(file_name)为ocr_11.txt,ocr_22.txt;对应ocr_11.txt的创建时间(create_time)为2018-11-11,对应ocr_22.txt的创建时间(create_time)为2018-2-22。
所述步骤S102-2根据设置的列信息生成元信息表结构,即以数据表的形式记录所述元信息。
在基于确定元信息是针对哪个数据源获取,进而便于获取相关的元信息以及数据源的数据内容,还可以包括:
在设置的所述元信息表结构的列信息中添加元信息标识。
所述元信息标识可以通过关键字meta表示,该标识meta表示具有标识的元信息需要通过与之对应的数据源中的数据表建立融合有元信息的数据表进行数据的读取或插入或删除等相关的操作。如图2所示,图2是本申请提供的一种数据融合方法实施例中针对不同源数据设置元信息表结构的示意图。
图2中数据源为对象存储类型时,对象存储数据库中数据可以包括元信息的字段如下:bucket_name、file_name、create_time、last_access_time、last_update_time、file_length等,可以在每个元信息的字段后添加meta。例如:bucket_name添加的meta表示元信息为对象存储文件中对应的存储(bucket)路径;file_name添加的meta表示元信息为对象存储的文件名称等,即:
bucket_name varchar(120)META comment‘来自元信息,所在对象存储文件对应的对象存储路径’;
file_name varchar(20)META comment‘来自元信息,所在对象存储文件名称’。
当数据源为表格存储类型时,表格存储数据库中数据可以包括元信息的字段如下:instance_name,table_name,create_time,table_type等,同样的,也可以在每个元信息的字段后添加meta,例如:instance_name添加的meta表示元信息为实例名称;table_name添加的meta表示元信息为表名称等,即:
Instance_name varchar(20)META comment‘来自元信息,所在表格存储实例的名称’;
Table_name varchar(20)META comment‘来自元信息,所在表格存储的表名称’。
此处不再对上述元信息的字段依次进行说明,具体设置可参考图2所示。
在本实施例中,所述元信息表结构的生成可以通过在数据库设置语言(DDL:Datadefinition languge)层进行,所述数据库设置语言DDL,主要可以用于设置或改变表的结构、数据类型、表之间的连接和约束等操作。
不论上述在设置所述元信息表结构还是设置所述元信息表结构的列信息,均需要将所述元信息融合到数据源中描述数据内容的数据表中,具体将在步骤S103中详细描述。
步骤S103:根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
所述步骤S103的目的是将描述数据源数据属性的元信息表结构与用于描述所述数据源中数据内容的数据表,构建成一个包括有元信息和数据内容的数据表。也就是说,在数据表中不仅包括有数据内容还包括有元信息。
当根据所述数据源中数据的元信息设置所述元信息表结构的列信息,并根据列信息,生成所述元信息表结构后,所述步骤S103可以包括:
根据所述元信息表结构中的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表。
当在所述元信息表结构中的列信息添加元信息标识后,所述步骤S103可以包括:
根据所述列信息中的所述元信息标识,确定所述元信息对应的所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
不论是根据所述元信息表结构中的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表;还是根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表,具体生成方式可以包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表。
当基于所述元信息表结构中的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表时,可以是将所述列信息拼接到所述数据源中数据内容的数据表中;当基于所述元信息标识的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,可以是将所述列信息拼接到所述数据源中数据内容的数据表中。所谓拼接,可以是将所述元信息表结构中的列信息链接到数据内容的数据表中,形成一个融合后具有元信息的更宽的数据表,该融合后的数据表中包括元信息以及数据内容。
为保证数据表在融合所述元信息后数据源存储容量大小不变,所述步骤S103可以包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有虚拟元信息的数据表。
即:当融合有所述元信息的数据表形成一个相对源数据表更宽的数据表后,该数据表中的元信息是虚拟存在的,用户可以看到元信息却无法对元信息进行修改;而数据表中的数据内容却是真是存在的,用户可以对数据内容进行修改。
可以理解的是,生成融合有元信息的数据表也可以是生成一个新的数据表,该新数据表中包括有元信息和数据内容。
所述步骤S103在生成融合有元信息的数据表后可以提供给数据湖上层的即算算子,从而计算算子能够根据融合有元信息的数据表对数据进行分析处理,提供给客户端,完成数据流的实时供应。
基于上述内容,所述生成融合有元信息的数据表可以通过数据湖中的TableColumn Expander(表列增加)算子,将元信息的字段自动拼接到描述数据源中数据内容的数据表中,因此,还可以包括:
获取用于描述所述数据源中数据内容的数据表。具体地,可以通过Talbe Scan(表扫描)算子在所述数据源中拉取具有数据内容的数据表。
以上是对本申请提供的一种数据融合方法实施例的具体描述,与前述提供的一种数据融合方法实施例相对应,本申请还公开一种数据融合装置实施例,请参看图3,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图3所示,图3是本申请提供的一种数据融合装置实施例的结构示意图。所述装置包括:
获取单元301:用于获取数据源中用于描述数据属性的元信息。
所述获取单元301具体可以是根据数据源提供文档信息,获取数据源中用于描述数据属性的元信息。
所述元信息可以包括至少如下一种信息:
数据名称信息;
数据创建时间信息;
数据修改时间信息;
数据库表名称信息;
数据实例名称信息;
数据编辑者信息;
数据创建者信息;
数据大小信息;
数据路径信息。
生成单元302,用于根据所述数据源中数据的元信息,生成元信息表结构。
所述生成单元302包括:设置子单元和生成子单元;
所述设置子单元,用于根据所述数据源中数据的元信息设置所述元信息表结构的列信息。
所述生成子单元,用于根据所述列信息,生成所述元信息表结构。
融合单元303,用于根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
所述融合单元303具体用于根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
还包括:标识设置单元,用于在设置的所述元信息表结构的列信息中添加元信息标识。
基于所述标识设置单元在设置的所述元信息表结构的列信息中添加元信息标识,所述融合单元303包括:
数据源确定子单元,用于根据所述列信息中的所述元信息标识,确定所述元信息对应的所述数据源;
所述融合单元303具体用于根据所述数据源确定子单元中确定的所述元信息对应的所述数据源和具有所述元信息标识的列信息,生成融合有所述元信息的数据表。
所述融合单元303包括:拼接子单元,用于将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表。
所述融合单元303将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有虚拟元信息的数据表。
在所述融合单元303将所述元信息表结构融合到所述数据源中数据内容的数据表内时,需要获得所述数据源中数据内容的数据表,因此,该装置还可以包括:
数据表获取单元,用于获取用于描述所述数据源中数据内容的数据表,具体获取方式可以参考上述方法中的步骤S103的描述,此处不再赘述。
基于上述内容,本申请还提供一种基于元信息的数据处理方法,该方法是基于融合有元信息的数据表进行针对数据库进行操作请求的处理方法,因此,对该方法的描述仅为概要性的描述,具体内容可以参考上述针对数据融合方法的描述。
请参考图4所示,图4是本申请提供的一种基于元信息的数据处理方法实施例的流程图,该方法包括:
步骤S401:获取针对用于描述数据属性的元信息操作的操作请求。
本实施例中,所述步骤S401中的操作请求可以是基于SQL的操作请求,至少包括如下一种SQL操作请求:
数据信息查询请求,即:Query请求;
数据信息插入请求,即:Insert请求;
数据信息删除请求,即:Delete请求;
数据信息更新请求,即:Update请求。
当然,还可以包括其他SQL的操作请求。
步骤S402:根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
所述S402的具体实现过程可以包括:
根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表;
在生成的融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
基于上述内容,可知基于元信息的数据处理方法还可以包括:
获取数据源中用于描述数据属性的元信息;
根据所述数据源中数据的元信息,生成元信息表结构;
根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
其中,根据所述数据源中数据的元信息,生成元信息表结构可以包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
在基于上述设置所述元信息表结构的列信息,而生成所述元信息表结构后,所述生成融合有所述元信息的数据表可以包括:
根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表。
为实现提高数据处理的速度,所述步骤S402的具体实现过程可以包括:
根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表;
在生成的融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
其中,操作条件可以是操作请求的请求中需要操作的元信息名称,例如:操作请求为查询请求时,请求内容中包括有file_name为ocr_11.txt,create_time为2018-11-11,其中ocr_11.txt和2018-11-11为操作条件。
所述根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息,可以理解为在生成的元信息表结构中包括有多个列信息,每个列信息的列名下对应多个元信息字段,例如:列名为file_name和create_time等,针对列名为file_name的元信息字段为ocr_11.txt、ocr_22.txt依次类推,当然针对file_name的元信息字段并不限于上述内容。针对列名为create_time的元信息字段为2018-11-11、2018-11-22等。如果操作请求中,请求内容为file_name=ocr_11.txt,create_time=2018-11-11,则在元信息结构表中确定出与请求内容相同的元信息,如下表1所示:
表1
file_name create_time ……
ocr_11.txt 2018-11-11 ……
ocr_11.txt 2018-11-11 ……
ocr_22.txt 2018-11-22 ……
ocr_22.txt 2018-11-22 ……
所述元信息表结构与所述数据源中数据内容的数据表融合后的数据表如下表2所示:
表2
Figure BDA0001991152010000131
Figure BDA0001991152010000141
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,则是在元信息结构表中确定出与请求内容相同的元信息,例如:file_name=ocr_11.txt,create_time=2018-11-11;所述用于描述数据源中数据内容的数据表,例如:content为aaa,bbb,ccc;将二者拼接在一起形成融合后具有元信息的数据表,如下表3所示:
conetent file_name create_time ……
aaa ocr_11.txt 2018-11-11 ……
bbb ocr_11.txt 2018-11-11 ……
也就是说,在元信息表结构中根据操作请求中的请求内容确定出元信息字段,将该元信息字段以列的形式拼接到数据表中,形成一个相对源数据表更加宽的数据表。因此,所述方法还可以包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
所述根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息,包括:
在根据所述数据源中数据的元信息设置所述元信息表结构的列信息中,确定满足所述操作请求中操作条件的元信息表结构的列信息;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
将所述确定满足所述操作请求中操作条件的元信息表结构的列信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
基于上述内容,在对操作请求在对数据进行处理的过程中,所述元信息可以来自不同的数据源类型,也就是说,不同数据源可以提供元信息,例如:对象存储数据库的数据源,云存储数据库的数据源,表格存储数据库的数据源等等,因此,需要根据操作请求中的请求内容,确定元信息来自哪个数据源,故此,基于元信息的数据处理方法还可以包括:
在设置的所述元信息表结构的列信息中添加元信息标识;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述列信息中的所述元信息标识,确定所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
所述步骤S402在提取满足所述操作请求中操作条件的数据信息后,执行所述步骤S403。
步骤S403:发送满足所述操作条件的数据信息。
所述步骤403的目的在将满足所述操作条件的数据信息进行输出,提供至数据湖的计算算子从而完成数据流实时供应,以便用户能够根据操作请求获取数据信息。
以上是对本申请提供的一种基于元信息的数据处理方法实施例的描述,关于该方法的部分内容可以参考上述数据融合方法实施例的描述,因此部分重复内容省略。与所述一种基于元信息的数据处理方法实施例相对应,本申请还公开一种基于元信息的数据处理装置实施例,请参看图5,由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
如图5所示,图5是本申请提供的一种基于元信息的数据处理装置实施例的结构示意图。所述装置包括:
获取单元501,用于获取包括有用于描述数据属性的元信息的操作请求。
所述获取单元501中的操作请求可以包括如下至少一种操作请求:
数据信息查询请求;
数据信息插入请求;
数据信息删除请求;
数据信息更新请求。
提取单元502,用于根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息;
所述提取单元502包括:
确定子单元,用于根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
发送单元503,用于发送满足所述操作条件的数据信息。
还包括:元信息获取单元、元信息表结构生成单元和数据表生成单元。
所述元信息获取单元,用于获取数据源中用于描述数据属性的元信息。
所述元信息表结构生成单元,用于根据所述数据源中数据的元信息,生成元信息表结构。
所述数据表生成单元,用于根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
其中,所述元信息表结构生成单元包括:
设置子单元,用于根据所述数据源中数据的元信息设置所述元信息表结构的列信息。
生成子单元,用于根据所述列信息,生成所述元信息表结构。
所述数据表生成单元具体用于根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表。
为加快处理速度,还包括:
确定单元,用于根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
数据表生成单元,用于根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
所述提取单元502具体用于在生成的融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
另一实施例中,所述基于元信息的数据处理方法,还可以包括:
列信息设置单元,用于根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
元信息表结构生成单元,用于根据所述列信息,生成所述元信息表结构;
所述确定单元具体用于在根据所述数据源中数据的元信息设置所述元信息表结构的列信息中,确定满足所述操作请求中操作条件的元信息表结构的列信息;
所述数据表生成单元具体用于将所述确定满足所述操作请求中操作条件的元信息表结构的列信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
所述基于元信息的数据处理方法,还包括:
标识添加单元,用于在设置的所述元信息表结构的列信息中添加元信息标识;
所述数据表生成单元包括:
数据源确定子单元,用于根据所述列信息中的所述元信息标识,确定所述数据源;
所述数据生成子单元,用于根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
以上是对本申请提供的一种基于元信息的数据处理装置实施例的概述,具体内容可以参考上述基于元信息的数据处理方法实施例的描述以及数据融合方法的描述,因此,此处不再赘述。
基于上述内容,本申请还提供一种数据处理方法,请参考图6所示,该方法包括:
步骤S601:计算节点获取前端节点针对用于描述数据属性的元信息的操作请求;
所述步骤S601中前端节点(Frontnode)接收来自客户端的操作请求,因此数据湖可以对大数据进行分析,因此,前端节点可以包括多个,即前端节点集群(Frontnodepool)。所谓数据湖是基于大数据提供的一种数据分析服务系统,在基于数据湖做分析,可以不用做任何ETL(所述ETL用于描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程)、数据搬迁等前置过程,实现跨各种异构数据源进行大数据关联分析,从而极大的节省成本和提升用户体验。
为保证负载均衡,在所述前端节点与所述客户端(APP)之间通过负载均衡服务器(LoadBalancer)将操作请求分发到不同的前端节点上,前端节点根据接收的操作请求进行解析,并根据解析结构进行DDL优化生成融合有元信息的数据表。具体可以是数据湖中的Table Scan(表扫描)算子拉取完数据源中的具体数据部分时,通过Table ColumnExpander算子,将用户在SQL中需要用到的元信息字段,自动的拼接到Table Scan拉取的数据行中去,形成一个更宽、字段完整的新的数据流,提供给数据中的计算算子,计算算子将根据具有元信息的数据表进行SQL计算,以完成数据流实时供应。
步骤S602:所述计算节点针对用于描述数据属性的元信息的操作请求,在融合有元信息的数据表中,提取满足操作请求中操作条件的数据信息。
所述步骤S602的具体操作过程可以参考上述步骤S103和步骤S402的描述。
步骤S603:所述计算节点将所述提取的满足操作请求中操作条件的数据信息发送至所述前端节点。
所述步骤S603在计算节点根据前端节点提供的数据信息进行计算后,将数据信息发送至客户端,完成数据流实时供应。
上述是对本申请提供的一种数据处理方法实施例的概述,具体应用场景可以是在基于数据湖进行数据分析时进行的数据处理过程,该过程的具体内容可参考上述数据融合方法以及基于元信息的数据处理方法的描述,此处不再赘述。
基于上述内容,本申请还提供一种计算机存储介质,用于存储程序;
所述程序在被所述处理器读取执行时,使得所述处理器执行如上所述的数据融合方法中的步骤或者如上所述的基于元信息的数据处理方法中的步骤或者如上所述的数据湖的数据处理方法中的步骤。
本申请还提供一种电子设备,包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,使得所述电子设备执行如上所述的数据融合方法中的步骤或者如上所述的基于元信息的数据处理方法中的步骤或者如上所述的基于数据湖的数据处理方法中的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (21)

1.一种数据融合方法,其特征在于,包括:
获取数据源中用于描述数据属性的元信息;
根据所述数据源中数据的元信息,生成元信息表结构;
根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
2.根据权利要求1所述的数据融合方法,其特征在于,所述根据所述数据源中数据的元信息,生成元信息表结构,包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
3.根据权利要求2所述的数据融合方法,其特征在于,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
4.根据权利要求2所述的数据融合方法,其特征在于,还包括:
在设置的所述元信息表结构的列信息中添加元信息标识;
所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述列信息中的所述元信息标识,确定所述元信息对应的所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
5.根据权利要求1所述的数据融合方法,其特征在于,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表。
6.根据权利要求5所述的数据融合方法,其特征在于,所述将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有所述元信息的数据表,包括:
将所述元信息表结构拼接到用于描述所述数据源中数据内容的数据表内,生成融合有虚拟元信息的数据表。
7.根据权利要求1所述的数据融合方法,其特征在于,所述获取数据源中用于描述数据属性的元信息,包括:
根据数据源提供的文档信息,获取数据源中用于描述数据属性的元信息。
8.根据权利要求1所述的数据融合方法,其特征在于,所述元信息包括至少如下一种信息:
数据名称信息;
数据创建时间信息;
数据修改时间信息;
数据库表名称信息;
数据实例名称信息;
数据编辑者信息;
数据创建者信息;
数据大小信息;
数据路径信息。
9.根据权利要求1所述的数据融合方法,其特征在于,还包括:
获取用于描述所述数据源中数据内容的数据表。
10.一种数据融合装置,其特征在于,包括:
获取单元,用于获取数据源中用于描述数据属性的元信息;
生成单元,用于根据所述数据源中数据的元信息,生成元信息表结构;
融合单元,用于根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
11.一种基于元信息的数据处理方法,其特征在于,包括:
获取针对用于描述数据属性的元信息操作的操作请求;
根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息;
发送满足所述操作条件的数据信息。
12.根据权利要求11所述的基于元信息的数据处理方法,其特征在于,还包括:
获取数据源中用于描述数据属性的元信息;
根据所述数据源中数据的元信息,生成元信息表结构;
根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
13.根据权利要求12所述的基于元信息的数据处理方法,其特征在于,所述根据所述数据源中数据的元信息,生成元信息表结构,包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构。
14.根据权利要求13所述的基于元信息的数据处理方法,其特征在于,所述根据所述元信息表结构与用于描述所述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述元信息表结构的列信息与用于描述所述数据源中数据内容的数据表,生成融合有所述列信息的数据表。
15.根据权利要求11所述的基于元信息的数据处理方法,其特征在于,还包括:
根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息;
根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表;
所述根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息,包括:
在生成的融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息。
16.根据权利要求15所述的基于元信息的数据处理方法,其特征在于,还包括:
根据所述数据源中数据的元信息设置所述元信息表结构的列信息;
根据所述列信息,生成所述元信息表结构;
所述根据所述操作请求,在预先根据所述数据源中数据的元信息生成的元信息表结构中,确定满足所述操作请求中操作条件的元信息,包括:
在根据所述数据源中数据的元信息设置所述元信息表结构的列信息中,确定满足所述操作请求中操作条件的元信息表结构的列信息;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
将所述确定满足所述操作请求中操作条件的元信息表结构的列信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表。
17.根据权利要求16所述的基于元信息的数据处理方法,其特征在于,还包括:
在设置的所述元信息表结构的列信息中添加元信息标识;
所述根据确定的满足所述操作请求中操作条件的元信息和用于描述数据源中数据内容的数据表,生成融合有所述元信息的数据表,包括:
根据所述列信息中的所述元信息标识,确定所述数据源;
根据具有所述元信息标识的列信息与确定的所述数据源中的数据内容的数据表,生成融合有所述元信息的数据表。
18.一种基于元信息的数据处理装置,其特征在于,包括:
获取单元,用于获取包括有用于描述数据属性的元信息的操作请求;
提取单元,用于根据所述操作请求,在融合有所述元信息的数据表中,提取满足所述操作请求中操作条件的数据信息;
发送单元,用于发送满足所述操作条件的数据信息。
19.一种数据处理方法,其特征在于,包括:
计算节点获取前端节点针对用于描述数据属性的元信息的操作请求;
所述计算节点针对用于描述数据属性的元信息的操作请求,在融合有元信息的数据表中,提取满足操作请求中操作条件的数据信息;
所述计算节点将所述提取的满足操作请求中操作条件的数据信息发送至所述前端节点。
20.一种计算机存储介质,用于存储程序;
所述程序在被所述处理器读取执行时,使得所述处理器执行如权利要求1至权利要求9任意一项所述的数据融合方法中的步骤或者权利要求11至权利要求17任意一项所述的基于元信息的数据处理方法中的步骤或者如权利要求19所述的数据处理方法中的步骤。
21.一种电子设备,包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,使得所述电子设备执行如权利要求1至权利要求9任意一项所述的数据融合方法中的步骤或者权利要求11至权利要求17任意一项所述的基于元信息的数据处理方法中的步骤或者如权利要求19所述的数据处理方法中的步骤。
CN201910180797.0A 2019-03-11 2019-03-11 数据融合方法及装置,基于元信息的数据处理方法和装置 Pending CN111680030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910180797.0A CN111680030A (zh) 2019-03-11 2019-03-11 数据融合方法及装置,基于元信息的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910180797.0A CN111680030A (zh) 2019-03-11 2019-03-11 数据融合方法及装置,基于元信息的数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN111680030A true CN111680030A (zh) 2020-09-18

Family

ID=72451220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180797.0A Pending CN111680030A (zh) 2019-03-11 2019-03-11 数据融合方法及装置,基于元信息的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN111680030A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817971A (zh) * 2021-01-21 2021-05-18 于克干 一种基于二维映射表的数据处理方法及系统
CN113626482A (zh) * 2021-08-17 2021-11-09 北京深演智能科技股份有限公司 基于系统融合id表的查询方法和装置
WO2024021790A1 (zh) * 2022-07-27 2024-02-01 北京火山引擎科技有限公司 一种基于数据湖的虚拟列构建方法以及数据查询方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817971A (zh) * 2021-01-21 2021-05-18 于克干 一种基于二维映射表的数据处理方法及系统
CN113626482A (zh) * 2021-08-17 2021-11-09 北京深演智能科技股份有限公司 基于系统融合id表的查询方法和装置
WO2024021790A1 (zh) * 2022-07-27 2024-02-01 北京火山引擎科技有限公司 一种基于数据湖的虚拟列构建方法以及数据查询方法

Similar Documents

Publication Publication Date Title
US11475034B2 (en) Schemaless to relational representation conversion
US11544347B2 (en) System for synchronization of changes in edited websites and interactive applications
US10180992B2 (en) Atomic updating of graph database index structures
US8683112B2 (en) Asynchronous distributed object uploading for replicated content addressable storage clusters
US8200633B2 (en) Database backup and restore with integrated index reorganization
US8880463B2 (en) Standardized framework for reporting archived legacy system data
US20130246437A1 (en) Extended database search
US9684699B2 (en) System to convert semantic layer metadata to support database conversion
TW201530328A (zh) 爲半結構化資料構建NoSQL資料庫索引的方法及裝置
US20220083618A1 (en) Method And System For Scalable Search Using MicroService And Cloud Based Search With Records Indexes
US20170212945A1 (en) Branchable graph databases
US20170255708A1 (en) Index structures for graph databases
CN111680030A (zh) 数据融合方法及装置,基于元信息的数据处理方法和装置
US11675769B2 (en) On-demand, dynamic and optimized indexing in natural language processing
US20230024345A1 (en) Data processing method and apparatus, device, and readable storage medium
CN105164673A (zh) 跨数据库和文件系统的查询一体化
US20210026894A1 (en) Branch threading in graph databases
CN111723161A (zh) 一种数据处理方法、装置及设备
EP3042316B1 (en) Music identification
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
CN112860659A (zh) 数据仓库的构建方法、装置、设备及存储介质
US11232121B2 (en) Method, apparatus, and computer-readable medium for data transformation pipeline optimization
CN115934670B (zh) Hdfs多机房的副本放置策略验证方法与装置
US11789947B2 (en) Independent object generator and wrapper engine
US20230195747A1 (en) Performant dropping of snapshots by linking converter streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination