CN112052254B - 数据封装方法、电子设备及存储介质 - Google Patents

数据封装方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112052254B
CN112052254B CN202010809295.2A CN202010809295A CN112052254B CN 112052254 B CN112052254 B CN 112052254B CN 202010809295 A CN202010809295 A CN 202010809295A CN 112052254 B CN112052254 B CN 112052254B
Authority
CN
China
Prior art keywords
data
metadata
data set
elastic distributed
packaged
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010809295.2A
Other languages
English (en)
Other versions
CN112052254A (zh
Inventor
何通庆
陈斌
连庆仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN202010809295.2A priority Critical patent/CN112052254B/zh
Publication of CN112052254A publication Critical patent/CN112052254A/zh
Application granted granted Critical
Publication of CN112052254B publication Critical patent/CN112052254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据封装方法、电子设备及存储介质。本发明中,通过根据待处理数据对应的元数据将待处理数据标记为弹性分布式数据集字符串类型对象,根据预设的过滤条件从元数据中过滤出待封装元数据,然后将弹性分布式数据集字符串类型对象以待封装元数为过滤条件转换为弹性分布式数据集结构化类型对象,将待封装元数据和弹性分布式数据集结构化类型对象转换为Dataset<Row>对象,将得到的上述三个对象封装为一个能够使用SQL语句查询的RDD格式的数据对象,使得开发人员只需使用SQL语句便可以实现大数据Spark的开发,无需对Spark原理与底层技术深入了解,从而有效减少了人力成本的投入。

Description

数据封装方法、电子设备及存储介质
技术领域
本发明实施方式涉及大数据编程技术领域,特别涉及一种数据封装方法、电子设备及存储介质。
背景技术
Apache Spark是专为大规模分布式数据分布式内存计算而设计的快速通用的引擎。是由加州大学伯克利分校的AMP实验室提供的开源的类Hadoop MapReduce的通用并行框架。Spark由于MapReduce Job中间输出结果可以保存在内存中,从而不再需要读写HDFS(Hadoop Distributed File System,分布式文件系统),因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
但是,由于Spark开发的复杂性,目前在实现大数据Spark的开发时,开发人员需要深入了解Spark原理和底层技术,比如广播变量(broadcast)、RDD(ResilienntDistributed Datasets,弹性分布式数据集)算子等,这就需要投入大量的人力成本来培养专门的Spark开发人员。
发明内容
本发明实施方式的目的在于提供一种数据封装方法、电子设备及存储介质,旨在减少人力成本的投入,同时简化代码量,提升开发效率。
为解决上述技术问题,本发明的实施方式提供了一种数据封装方法,包括以下步骤:
根据预设的元数据名获取预先定义的待处理数据的元数据;
根据所述元数据和预设的过滤条件,得到待封装元数据;
将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象;
将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象;
将所述待封装元数据和所述弹性分布式数据集结构化类型对象转换为Dataset<Row>对象;
将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象,所述数据对象供SQL语句查询。
本发明的实施方式还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上文所述的数据封装方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述的数据封装方法。
本发明实施方式相对于现有技术而言,通过根据待处理数据对应的元数据将待处理数据标记为弹性分布式数据集字符串类型对象,根据预设的过滤条件从元数据中过滤出待封装元数据,然后将弹性分布式数据集字符串类型对象以待封装元数为过滤条件转换为弹性分布式数据集结构化类型对象,将待封装元数据和弹性分布式数据集结构化类型对象转换为Dataset<Row>对象,将得到的待封装元数据、弹性分布式数据集结构化类型对象、Dataset<Row>对象封装为一个能够使用SQL语句查询的RDD格式的数据对象,使得开发人员只需使用SQL语句便可以实现大数据Spark的开发,无需对Spark原理与底层技术深入了解,从而有效减少了人力成本的投入。
另外,在所述将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象之后,所述方法还包括:
根据预设的名称,对所述数据对象进行临时表注册。
另外,所述根据预设的名称,对所述数据对象进行临时表注册,包括:
根据预设的名称,对所述数据对象中的所述Dataset<Row>对象进行临时表注册。
另外,在所述将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象之前,所述方法还包括:
将所述待封装元数据转换为schema;
所述将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象,包括:
将所述弹性分布式数据集字符串类型对象以所述schema为过滤条件转换为弹性分布式数据集结构化类型对象;
所述将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象,包括:
将所述schema、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象。
另外,所述元数据包括:待处理数据的路径和文件名;
所述将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象,包括:
根据所述元数据中的路径和文件名,确定记录所述待处理数据的文件;
将所述文件中的所述待处理数据标记为弹性分布式数据集字符串类型对象。
另外,所述元数据存储在预设的管理数据库中,所述过滤条件为预设的列名;
所述根据所述元数据和预设的过滤条件,得到待封装元数据,包括:
根据预设的列名从所述管理数据库中获取所述待封装元数据。
另外,所述待处理数据包括:源数据和配置数据。
另外,所述弹性分布式数据集字符串类型对象包括针对Java编程语言的JavaRDD<String>对象;所述弹性分布式数据集结构化类型对象包括针对Java编程语言的JavaRDD<Row>对象;所述SQL语句包括SparkSQL语句。
附图说明
一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式的数据封装方法的具体流程图;
图2是根据本发明第二实施方式的数据封装方法的具体流程图;
图3是根据本发明第三实施方式的数据封装装置的结结构示意图;
图4是根据本发明第四实施方式的数据封装设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施方式的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施方式在不矛盾的前提下可以相互结合相互引用。
本实施方式涉及一种数据封装方法,应用于电子设备,电子设备例如为个人计算机、平板电脑、智能手机等,此处不再一一列举,本实施方式对此也不做限制。
下面对本实施方式的数据封装方法的实现细节进行说明,以下内容仅为方便理解而提供的实现细节,并非实施本方案的必须。
本实施方式的具体流程如图1所示,具体包括以下步骤:
步骤101,根据预设的元数据名获取预先定义的待处理数据的元数据。
具体的说,本实施方式中所说的元数据是对待处理数据的表述。在实际应用中,元数据主要包括待处理数据的路径、文件名、列名、列类型、列描述信息、列默认值等,此处不再一一列举。
此外,应当理解的是,在实际应用中,为了快速定位,并获取预先定义的待处理数据的元数据,可以为每一个元数据分配一个用于标识其唯一性的名称,从而在获取预先定义的待处理数据的元数据时,直接根据预设的元数据名与从存储的各元数据的名称进行匹配,进而筛选出与用于输入的元数据名匹配的元数据。
为了便于说明,本实施方式以表的形式存储元数据中包含的列名、列类型、列描述信息、列默认值等信息。
相应的,用于标识元数据唯一性的名称即为表名。
相应的,预设的元数据名可以是由路径+时间+表名构成的,比如/var/data/2020-05-22/10:00:00.test。
基于上述描述可知,本实施方式中,表名是截取的元数据名的后缀,因而在元数据名为“/var/data/2020-05-22/10:00:00.test”时,最终基于该元数据名中的路径和截取的后缀,并可以找到存储在/var/data/2020-05-22/10:00:00,表名为“test”的元数据。
此外,关于元数据中包括的列名,在具体实现时,本领域技术人员可以将其按照MySQL中对列名的定义方式进行定义,比如设置列名=ID/NAME/AGE/......,即表示当前描述信息中包括的列有表示记录用户的标识号“ID”的,记录姓名“NAME”的,记录年龄“AGE”的。
此外,需要说明的是,在实际应用中,上述所说的预设的元数据名具体为用户,如开发人员在进行数据封装之前,根据需要预先存储到用于实现本实施方式提供的数据封装方法的电子设备的指定存储区域的,也可以是存储在与所述电子设备能够进行通信的其他电子设备中,还可以是在电子设备实现该数据封装方法的过程中,根据需要实时输入的,本实施方式对此不做限制。
此外,值得一提的是,由于本实施方式提供的数据封装方法对待处理数据的类型不作限制,因而上述待处理数据可以是源数据,也可以是配置数据,还可以是源数据+配置数据。
关于上述所说的源数据,即Raw数据,通常是实时产生的数据,例如用户访问网站的信息、用户的订单信息等。
配置数据,即Conf或Config文件中记载的数据,通常是指用户的性别、年龄、电话等时效性不强,更新频率低的属性信息。
为了便于理解,以下结合实例进行说明:
假设待处理数据中记录的内容为:
1,张三,23
2,李四,14
3,王五,89
则基于上述待处理数据,预先定义的元数据如表1所示:
表1待处理数据的元数据
列名 类型 是否允许空 默认值
ID INT N 0
NAME STRING Y
AGE INT Y
具体的,表1中的“ID”用于对应待处理数据中每个用户的标识号,如上述待处理数据中的1、2、3,“NAME”用于对应待处理数据中每个用户的姓名,如张三、李四、王五,“AGE”用于对应待处理数据中每一个用户的年龄,如23、14、89。并且规定了每一个列名的类型(即上述所说的列类型),如“ID”和“AGE”的类型均为整型INT,“NAME”的类型为字符串类型STRING,并且设置了哪些列可以为空“Y”,哪些列不能为空“N”(即列描述信息),以及是否需设置默认值(即列默认值)。
如表1所示,在表1中,默认值部分可以根据实际业务需要记录一些扩展内容,如表1中“ID”对应的默认值部分记录的是“0”;也可以不记录任何信息,如“NAME”、“AGE”对应的默认值部分。
应当理解的是,以上仅为举例说明,对本实施方式的技术方案并不构成任何限定,在实际应用中,本领域技术人员可以根据需要进行设置,本实施方式对此不做限制。
步骤102,根据所述元数据和预设的过滤条件,得到待封装元数据。
具体的说,在本实施方式中,所述过滤条件具体为预设的列名,如“ID,NAME”。
根据步骤101给出的元数据的实例(表1)可知,当接收到的预设的过滤条件为“ID,NAME”时,具体是表示将列名为“ID”和列名为“NAME”的两个列对应的信息(列名、类型、列描述信息、列默认值)从所述元数据中筛选出来,即得到的待封装元数据是与列名为“ID”和列名为“NAME”相关的信息。
为了便于理解,此处仍以表1给出的元数据进行举例,当接收到的预设的过滤条件为“ID,NAME”时,根据表1中记录的元数据和预设的过滤条件“ID,NAME”,得到的待处理数据如表2所示。
表2待封装元数据
列名 类型 是否允许空 默认值
ID INT N 0
NAME STRING Y
应当理解的是,以上仅为举例说明,对本实施方式的具体内容并不构成任何限制。
此外,上述所说的预设的列名与步骤101中所说的预设的元数据名类似,同样可以是预先存储在电子设备中的,也可以是在实现本实施方式中的数据封装方法时,根据业务需要实时输入的。
步骤103,将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象。
通过上述描述可知,所述元数据包括待处理数据的路径和文件名。因而在将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象时,具体是根据所述元数据中的路径和文件名确定记录所述待处理数据的文件,然后将所述文件中的所述待处理数据标记为弹性分布式数据集字符串类型对象。
为了便于理解上述所说的弹性分布式数据集字符串类型对象,本实施方式以Java编程语言为例,则上述所说的弹性分布式数据集字符串类型对象具体为针对Java编程语言的JavaRDD<String>对象。
也就是说,在实际应用中,弹性分布式数据集字符串类型对象对应的具体格式,是基于编程语言的不同而命名的,本实施方式对此不做限制,本领域技术人员可以根据需要进行设置。
步骤104,将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象。
仍以本实施方式提供的数据封装方法为针对Java编程语言的为例进行说明,在弹性分布式数据集字符串类型对象为JavaRDD<String>对象时,上述转换得到的弹性分布式数据集结构化类型对象也为针对Java编程语言的,即在本实施方式中,上述转换得到的弹性分布式数据集结构化类型对象具体为针对Java编程语言的JavaRDD<Row>对象。
此外,通过上述描述可知,元数据中还包括待处理数据的列的相关信息,如列名、列类型、列描述信息、列默认值等。因而在将JavaRDD<String>对象以所述待封装元数据为过滤条件,具体为预设的列名转换为JavaRDD<Row>对象时,具体是根据预设的列名和待处理数据的列名、列类型、列描述信息、列默认值等列的相关信息进行转换,即基于用于输入的列名,从JavaRDD<String>对象中查找到当前列名对应的所有相关信息,并将其以Row的形式进行标记,进而得到JavaRDD<Row>对象。
应当理解的是,由于JavaRDD<String>对象与JavaRDD<Row>对象均为通用的对象,故而关于这两种对象的使用,以及相互之间的转换本领域技术人员可以自行查阅相关资料实现,本实施方式不再赘述。
此外,值得一提的是,在实际应用中,在执行上述步骤104之前,还可以先将待封装元数据转换为schema格式。
相应的,在将所述弹性分布式数据集字符串类型对象,如针对Java编程语言的JavaRDD<String>对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象,如针对Java编程语言的JavaRDD<Row>对象时,具体是将JavaRDD<String>对象以schema为过滤条件转换为JavaRDD<Row>对象。
步骤105,将所述待封装元数据和所述弹性分布式数据集结构化类型对象转换为Dataset<Row>对象。
即转换得到的Dataset<Row>对象记载了待封装元数据和弹性分布式数据集结构化类型对象之间的关系。
步骤106,将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象。
通过上述描述可知,由于待封装元数据可以转回为schema,因而步骤106中的操作,具体可以是:将所述schema、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象。
此外,需要说明的是,在本实施方式中,不论JavaRDD<String>对象,JavaRDD<Row>对象,还是Dataset<Row>对象,都是用于存储其对应的数据的标记,而非数据本身。
此外,应当理解的是,由于本实施方式封装得到的数据对象主要是为了方便开发人员实现大数据Spark的开发,因而在实际应用中使用的SQL查询语句具体为SparkSQL语句。
此外,为了区分本实施方式中封装获得的RDD格式的数据对象与现有RDD数据对象,在实际应用中可以将基于上述方式封装获得的数据对象称为SmartRDD。
由于现有的RDD只是一个最基本的数据抽象,即只能按照系统提供的节点存储相应地数据;而基于本实施方式中给出的数据封装方法封装获得的SmartRDD,不仅存储了基于用户需求过滤出的待封装元数据,还存储了基于待封装元数据和用于标识待处理数据的JavaRDD<String>对象转换获得的JavaRDD<Row>对象,以及基于待封装元数据和JavaRDD<Row>对象转换获得的Dataset<Row>对象,实现了Spark开发中底层数据的映射问题,因而开发人员在实现大数据Spark的开发时,不需要关注底层,只需采用SQL语句进行查询,便可以获得需要的数据。
此外,值得的一提的是,在实际应用中,为了方便开发人员使用,在完成上述步骤106之后,还需要对所述数据对象进行临时表注册,以得到唯一标识所述数据对象的名称,即给封装获得的新的数据对象起一个能够标识其唯一性的名称,从而在实现大数据Spark的开发时,开发人员可以根据名称快速定位需要进行SQL查询的数据对象,进而使用SQL语句从确定的数据对象中快速、准确的获取到需要查找的数据。
关于上述所说的对所述数据对象进行临时表注册操作,具体是根据预设的名称对所述数据对象进行临时表注册。
进一步地,在实际应用中,具体是根据预设的名称,对所述数据对象中的所述Dataset<Row>对象进行临时表注册。
通过上述描述不难发现,本实施方式中提供的数据封装方法,通过根据待处理数据对应的元数据将待处理数据标记为弹性分布式数据集字符串类型对象,根据预设的过滤条件从元数据中过滤出待封装元数据,然后将弹性分布式数据集字符串类型对象以待封装元数为过滤条件转换为弹性分布式数据集结构化类型对象,将待封装元数据和弹性分布式数据集结构化类型对象转换为Dataset<Row>对象,将得到的待封装元数据、弹性分布式数据集结构化类型对象、Dataset<Row>对象封装为一个能够使用SQL语句查询的RDD格式的数据对象,使得开发人员只需使用SQL语句便可以实现大数据Spark的开发,无需对Spark原理与底层技术深入了解,从而有效减少了人力成本的投入。
此外,由于基于上述方式封装的数据对象中所针对的待处理数据可以为配置数据,而在待处理数据为配置数据时,基于上述方式封装获得的数据对象已经建立了待封装元数据、弹性分布式数据集结构化类型对象和Dataset<Row>对象之间的对应关系,因而无需单独为配置数据创建相关索引,便可以实现对配置数据的使用,从而大大简化了代码量。
此外,由于基于上述数据封装方式,在实际应用中可以通过代码的复用,按需获取数据,从而有效提高了代码复用率,进而提升了开发效率。
本发明的第二实施方式涉及一种数据封装方法。第二实施方式在第一实施方式的基础上做了进一步改进,具体改进之处为:预先将元数据存储在管理数据库中,从而可以通过复用已有的元数据,实现对不存在元数据的待处理数据进行封装。
如图2所示,第二实施方式涉及的数据封装方法,包括如下步骤:
步骤201,在管理数据库中存储待处理数据对应的元数据。
具体的说,本实施方式中所说的管理数据库实质就是一个自定义的元数据管理器MetaManager。
在本实施方式中,为了实现对没有元数据的待处理数据(通常为文件系统中的文件)的封装,通过将已经完成对元数据定义的待处理数据对应的不同元数据存储到MetaManager中,然后根据这些已有元数据包括的信息,如列名、列类型、列描述信息、列默认值在MetaManager中进行注册,从而针对任意待处理数据,在过滤其对应的待封装元数据时,只需根据预设的列名在MetaManager中进行获取即可。
步骤202,根据预设的元数据名从管理数据库中获取预先定义的待处理数据的元数据。
步骤203,根据所述元数据和预设的过滤条件,得到待封装元数据。
步骤204,将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象。
步骤205,将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象。
步骤206,将所述待封装元数据和所述弹性分布式数据集结构化类型对象转换为Dataset<Row>对象。
步骤207,将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象。
不难发现,本实施方式中的步骤203至步骤207与第一实施方式中的步骤102至步骤106大致相同,在此就不再赘述。
为了更好的理解本实施方式中提供的数据封装方法,以下结合实例进行说明:
在进行数据封装之前,首先根据已有元数据在MetaManager中进行注册,从而实现将元数据存储在MetaManager中。
然后,根据用于输入的元数据名定位MetaManager中存储的待处理数据对应的元数据。
接着,根据预设的过滤条件,具体为列名,从MetaManager中获取匹配的列信息,得到待封装元数据。
比如说,在MetaManager中,元数据定义了表3给出的内容:
表3 MetaManager中注册的元数据
列名 类型 是否允许空 默认值 说明
ID INT N 0
NAME STRING Y
AGE INT Y
关于上述各元数据定义的含义详见第一实施方式对表1的解释,本实施方式不再赘述。
假设与表3给出的元数据定义对应的待处理数据内容为:
1,张三,23
2,李四,14
3,王五,89
当预设的列名为“ID,NAME”时,则从表3中过滤出的元数据定义如表4所示。
表4基于预设的列名过滤出的元数据
列名 类型 是否允许空 默认值 说明
ID INT N 0
NAME STRING Y
接着,基于上述过滤出的元数据,读取待处理数据,得到“1,张三”、“2,李四”、“3,王五”,即最终需要标记为JavaRDD<String>对象的数据,并将读取出的数据标记为JavaRDD<String>对象。
接着,在得到JavaRDD<String>对象之后,将JavaRDD<String>对象以过滤出的元数据为过滤条件进行过滤,并将过滤出的数据转换为JavaRDD<Row>对象。
接着,将过滤出的元数据,即待处理数据和转换获得的JavaRDD<Row>对象转换为Dataset<Row>对象。
最后,将获取到的待封装元数据、JavaRDD<Row>对象,以及Dataset<Row>对象封装在同一个数据对象中,具体为封装为一个SmartRDD对象,同时对SmartRDD注册为TempView,即对封装获得的数据对象进行临时表注册,从而得到能够唯一标识封装获得的数据对象的名称。
此外,值得一提的是,本实施方式提供的数据封装方法,由于封装获得的数据对象解决了底层数据的映射问题,因而对待处理数据的原始存储类型不做任何限制,即可以适配各种存储系统比如MySQL、Clickhouse、fs、Hdfs、甚至各种接口(如http),从各种存储系统中获取存储的待处理数据。
为了方便开发人员从各种存储系统中获取待处理数据,同时可以直接对获取到的待处理数据按照上述数据封装过程完成封装,可以预先定义针对不同存储系统的数据获取接口,同时将上述数据封装的流程在该接口中实现,为了便于理解,以下举例说明:
比如说,为了对文件中的待处理数据进行上述封装,本实施方式提供了SmartRDDgetSmartRDDFromTextRDD(tableAlias,columns,options,javaRDD)函数接口。
具体的说,在该函数接口中“tableAlias”参数表示最终封装获得的SmartRDD的名称,“columns”参数表示需要从文件中读取的列名,“options”参数表示读取数据时的扩展选择,比如一次如何处理,“javaRDD”参数表示从文件中读取的标识待处理数据的JavaRDD<String>对象。
还比如说,为对Hdfs中存储的待处理数据进行封装,本实施方式提了SmartRDDgetSmartRDDFromHdfs(tableAlias,table,columns,options)函数接口。
具体的说,在该函数接口中“tableAlias”参数表示最终封装获得的SmartRDD的名称,“table”参数表示读取的配置名称,即待处理数据中存放配置数据的配置文件的名称,“columns”参数表示需要从文件中读取的列名,“options”参数表示读取数据时的扩展选择,比如一次如何处理。
还比如说,为对MySQL中存储的待处理数据进行封装,本实施方式提了SmartRDDgetSmartRDDFromMysql(tableAlias,sql,options)函数接口。
具体的说,在该函数接口中“tableAlias”参数表示最终封装获得的SmartRDD的名称,“sql”参数表示读取MySQL数据库的sql语句,“options”参数表示读取数据时的扩展选择,比如一次如何处理。
还比如说,为对Clickhouse中存储的待处理数据进行封装,本实施方式提了SmartRDD getSmartRDDFromClickhouse(tableAlias,sql,options)函数接口。
具体的说,在该函数接口中“tableAlias”参数表示最终封装获得的SmartRDD的名称,“sql”参数表示读取Clickhouse数据库的sql语句,“options”参数表示读取数据时的扩展选择,比如一次如何处理。
此外,值得一提的是,上述各函数接口的返回值,均为封装获得的SmartRDD的名称。
应当理解的是,以上给出的仅为几种具体的函数接口格式,在实际应用中,本领域技术人员可以基于使用的编程语言的编译习惯,进行适应性调整,本实施方式对此不做限制。
通过上述描述不难发现,本实施方式提供的数据封装方法,通过将在MetaManager中存储元数据,即根据现有元数据在MetaManager中进行注册,利用MetaManager管理所有没有元数据的待处理数据,如文件系统中文件,基于其提供的函数接口便可以将文件中的信息转换为元数据,进而完成上述数据封装,得到包含有待封装元数据、JavaRDD<Row>对象、Dataset<Row>对象的数据对象。
此外,值得一提的是,为了进一步方便实际开发过程,在基于上述数据封装方法,得到封装的数据对象之后,还可以根据业务需要将经常使用的数据与上述数据对象进行关联,或者基于上述数据对象定义各种函数接口,以提高窗口函数的支持,从而进一步简化SQL编程。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明第三实施方式涉及一种数据封装装置,如图3所示,包括:获取模块301、过滤模块302、标记模块303、第一转换模块304、第二转换模块305和封装模块306。
其中,获取模块301,用于根据预设的元数据名获取预先定义的待处理数据的元数据;过滤模块302,用于根据所述元数据和预设的过滤条件,得到待封装元数据;标记模块303,用于将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象;第一转换模块304,用于将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象;第二转换模块305,用于将所述待封装元数据和所述弹性分布式数据集结构化类型对象转换为Dataset<Row>对象;封装模块306用于,将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象,所述数据对象供SQL语句查询。
此外,在另一个例子中,所述数据封装装置还包括注册模块。
具体而言,所述注册模块,用于根据预设的名称,对所述数据对象进行临时表注册。
此外,在另一个例子中,所述注册模块具体用于根据预设的名称,对所述数据对象中的所述Dataset<Row>对象进行临时表注册。
此外,在另一个例子中,所述数据封装装置还包括第三转换模块。
具体而言,所述第三转换模块,用于将所述待封装元数据转换为schema。
相应地,所述过滤模块302具体用于将所述弹性分布式数据集字符串类型对象以所述schema为过滤条件转换为弹性分布式数据集结构化类型对象。
所述封装模块306具体用于将所述schema、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象。
此外,在另一个例子中,所述元数据包括:待处理数据的路径和文件名。
相应地,所述标记模块303具体用于根据所述元数据中的路径和文件名,确定记录所述待处理数据的文件,并将所述文件中的所述待处理数据标记为弹性分布式数据集字符串类型对象。
此外,在另一个例子中,所述元数据存储在预设的管理数据库中,所述过滤条件为预设的列名。
相应地,所述过滤模块302具体用于根据预设的列名从所述管理数据库中获取所述待封装元数据。
此外,在另一个例子中,所述待处理数据包括:源数据和配置数据。
此外,在另一个例子中,所述弹性分布式数据集字符串类型对象包括针对Java编程语言的JavaRDD<String>对象;所述弹性分布式数据集结构化类型对象包括针对Java编程语言的JavaRDD<Row>对象;所述SQL语句包括SparkSQL语句。
不难发现,本实施方式为与第一或第二实施方式相对应的装置实施方式,本实施方式可与第一或第二实施方式互相配合实施。第一或第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一或第二实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明第四实施方式涉及一种电子设备,如图4所示,包括至少一个处理器401;以及,与所述至少一个处理器401通信连接的存储器402;其中,所述存储器402存储有可被所述至少一个处理器401执行的指令,所述指令被所述至少一个处理器401执行,以使所述至少一个处理器401能够执行上述第一或第二实施方式所描述的数据封装方法。
其中,存储器402和处理器401采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器401和存储器402的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器401处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器401。
处理器401负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器402可以被用于存储处理器401在执行操作时所使用的数据。
本发明第五实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述数据封装方法实施方式。
即,本领域技术人员可以理解,实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施方式,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (8)

1.一种数据封装方法,其特征在于,包括:
根据预设的元数据名获取预先定义的待处理数据的元数据;
根据所述元数据和预设的过滤条件,得到待封装元数据;
将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象;
将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象;
将所述待封装元数据和所述弹性分布式数据集结构化类型对象转换为Dataset<Row>对象;
将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象,所述数据对象供SQL语句查询;
其中,在所述将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象之前,所述方法还包括:
将所述待封装元数据转换为schema;
所述将所述弹性分布式数据集字符串类型对象以所述待封装元数据为过滤条件转换为弹性分布式数据集结构化类型对象,包括:
将所述弹性分布式数据集字符串类型对象以所述schema为过滤条件转换为弹性分布式数据集结构化类型对象;
所述将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象,包括:
将所述schema、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象;
所述元数据存储在预设的管理数据库中,所述预设的过滤条件为预设的列名;
所述根据所述元数据和预设的过滤条件,得到待封装元数据,包括:
根据预设的列名从所述管理数据库中获取所述待封装元数据。
2.根据权利要求1所述的数据封装方法,其特征在于,在所述将所述待封装元数据、所述弹性分布式数据集结构化类型对象和所述Dataset<Row>对象封装在同一个数据对象中,得到弹性分布式数据集RDD格式的数据对象之后,所述方法还包括:
根据预设的名称,对所述数据对象进行临时表注册。
3.根据权利要求2所述的数据封装方法,其特征在于,所述根据预设的名称,对所述数据对象进行临时表注册,包括:
根据预设的名称,对所述数据对象中的所述Dataset<Row>对象进行临时表注册。
4.根据权利要求1所述的数据封装方法,其特征在于,所述元数据包括:待处理数据的路径和文件名;
所述将所述元数据中指定的待处理数据标记为弹性分布式数据集字符串类型对象,包括:
根据所述元数据中的路径和文件名,确定记录所述待处理数据的文件;
将所述文件中的所述待处理数据标记为弹性分布式数据集字符串类型对象。
5.根据权利要求1所述的数据封装方法,其特征在于,所述待处理数据包括:源数据和配置数据。
6.根据权利要求1至5中任一项所述的数据封装方法,其特征在于,所述弹性分布式数据集字符串类型对象包括针对Java编程语言的JavaRDD<String>对象;所述弹性分布式数据集结构化类型对象包括针对Java编程语言的JavaRDD<Row>对象;所述SQL语句包括SparkSQL语句。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的数据封装方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的数据封装方法。
CN202010809295.2A 2020-08-12 2020-08-12 数据封装方法、电子设备及存储介质 Active CN112052254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010809295.2A CN112052254B (zh) 2020-08-12 2020-08-12 数据封装方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010809295.2A CN112052254B (zh) 2020-08-12 2020-08-12 数据封装方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112052254A CN112052254A (zh) 2020-12-08
CN112052254B true CN112052254B (zh) 2023-12-01

Family

ID=73602726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010809295.2A Active CN112052254B (zh) 2020-08-12 2020-08-12 数据封装方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112052254B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672683B (zh) * 2021-08-19 2024-03-29 上海沄熹科技有限公司 基于Spark SQL的分布式数据库元数据同步装置及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799644A (zh) * 2012-06-28 2012-11-28 用友软件股份有限公司 基于元数据的数据库动态查询系统和数据库动态查询方法
CN110046176A (zh) * 2019-04-28 2019-07-23 南京大学 一种基于Spark的大规模分布式DataFrame的查询方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614087B2 (en) * 2017-01-17 2020-04-07 International Business Machines Corporation Data analytics on distributed databases

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799644A (zh) * 2012-06-28 2012-11-28 用友软件股份有限公司 基于元数据的数据库动态查询系统和数据库动态查询方法
CN110046176A (zh) * 2019-04-28 2019-07-23 南京大学 一种基于Spark的大规模分布式DataFrame的查询方法

Also Published As

Publication number Publication date
CN112052254A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
JP7021228B2 (ja) ブロックチェーンベースのデータ記憶および照会方法およびデバイス
CN111078702B (zh) 一种sql语句分类管理及统一查询方法和装置
CN114625732B (zh) 基于结构化查询语言sql的查询方法和系统
CN108121542B (zh) 一种基于MyBatis的SQL语句的配置方法、系统
CN110866029B (zh) sql语句构建方法、装置、服务器及可读存储介质
CN108073688B (zh) 一种数据迁移的方法及装置
CN114691786A (zh) 数据血缘关系的确定方法及装置、存储介质、电子装置
EP4024263A1 (en) Method for dynamic maintenance of a knowledge graph, terminal device and storage medium
CN103425780A (zh) 一种数据的查询方法和装置
CN111125220B (zh) 信息自定义导出方法及装置
CN109241095B (zh) 一种快速查询方法、终端和可存储介质
CN111159215B (zh) Java类与关系型数据库的映射方法、装置及计算设备
CN110019111B (zh) 数据处理方法、装置、存储介质以及处理器
CN113608955B (zh) 一种日志记录方法、装置、设备及存储介质
US10262055B2 (en) Selection of data storage settings for an application
US20130174048A1 (en) Techniques for guided access to an external distributed file system from a database management system
WO2015031610A1 (en) Method and apparatus for generating health quality metrics
CN110955714A (zh) 一种将非结构化文本转化为结构化文本的方法及装置
CN106844369A (zh) 对象化sql语句构造方法及装置
CN113468204A (zh) 一种数据查询方法、装置、设备、介质
CN112052254B (zh) 数据封装方法、电子设备及存储介质
CN103425779A (zh) 数据的处理方法和装置
US11580251B1 (en) Query-based database redaction
CN107368500B (zh) 数据抽取方法及系统
US10146822B1 (en) Automated script generator for processing storage system data files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant