CN109684093B - 数据处理方法及系统 - Google Patents

数据处理方法及系统 Download PDF

Info

Publication number
CN109684093B
CN109684093B CN201811585365.XA CN201811585365A CN109684093B CN 109684093 B CN109684093 B CN 109684093B CN 201811585365 A CN201811585365 A CN 201811585365A CN 109684093 B CN109684093 B CN 109684093B
Authority
CN
China
Prior art keywords
data
target
computing device
data table
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811585365.XA
Other languages
English (en)
Other versions
CN109684093A (zh
Inventor
侯良伟
王纯斌
杨尧
张永飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201811585365.XA priority Critical patent/CN109684093B/zh
Publication of CN109684093A publication Critical patent/CN109684093A/zh
Application granted granted Critical
Publication of CN109684093B publication Critical patent/CN109684093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Abstract

本申请实施例提供一种数据处理方法及系统。该方法包括:计算设备将接收到的数据获取请求中的目标数据表标识及目标数据特征发送给查询设备;查询设备根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与目标数据表标识对应的目标计算设备标识,并将目标数据表标识及目标数据特征发送给与目标计算设备标识对应的目标计算设备,以经目标计算设备获得目标位置信息;计算设备根据由查询设备发送的目标位置信息从对应的目标存储设备处获得目标数据,并将根据数据获取请求对目标数据进行处理后得到的处理结果发送请求设备。由此,通过将计算资源及存储资源分离,可保证计算任务按照正常进度进行。

Description

数据处理方法及系统
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种数据处理方法及系统。
背景技术
在现有的大数据计算存储结构中,同一集群同时用于计算及存储,也就是说计算资源与存储资源共用一套设备。在这样情况下,spark计算与hadoop mapreduce、hive计算会争抢内存资源,并且其他服务也会占用服务器本身的内存和cpu资源,由此将导致计算任务不能按照期望的进度进行。
发明内容
为了克服现有技术中的上述不足,本申请实施例的目的在于提供一种数据处理方法及系统,其能够使计算资源独立、存储资源独立,从而充分地利用设备的资源,并且保证计算任务可按照正常进度进行。
第一方面,本申请实施例提供一种数据处理方法,应用于数据处理系统,所述系统包括通信连接的存储设备、计算设备及查询设备,其中,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表,所述方法包括:
所述计算设备在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备;
所述查询设备根据存储的与所述目标数据表标识对应的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备;
所述目标计算设备根据存储的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备;
所述计算设备根据由所述查询设备发送的所述目标位置信息从对应的目标存储设备处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。
可选地,在本申请实施例中,所述方法还包括:
所述计算设备在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识;
若是,所述计算设备则根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
若不是,所述计算设备则向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
可选地,在本申请实施例中,所述元数据库为关系型数据库,所述方法还包括:
所述计算设备根据接收的数据表创建操作生成并保存所述数据表;
所述计算设备将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储。
可选地,在本申请实施例中,所述计算设备将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储的方式包括:
所述计算设备根据配置的关系型数据库的连接信息将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备。
可选地,在本申请实施例中,所述方法还包括:
所述计算设备将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
可选地,在本申请实施例中,所述关系型数据库包括MySQL数据库、Oracle数据库中的至少一种。
第二方面,本申请实施例还提供一种数据处理系统,所述系统包括通信连接的存储设备、计算设备及查询设备,其中,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表,
所述计算设备,用于在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备;
所述查询设备,用于根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备;
所述目标计算设备,用于根据存储的与所述目标数据表标识对应的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备;
所述计算设备,还用于根据由所述查询设备发送的所述目标位置信息从对应的目标存储设备处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。
可选地,在本申请实施例中,所述计算设备,还用于在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识;
若是,所述计算设备,还用于根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
若不是,所述计算设备,还用于向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
可选地,在本申请实施例中,所述元数据库为关系型数据库,
所述计算设备,还用于根据接收的数据表创建操作生成并保存所述数据表;
所述计算设备,还用于将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储。
可选地,在本申请实施例中,所述计算设备,还用于将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供一种数据处理方法及系统。该系统包括存储设备、计算设备及查询设备,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表。计算设备在接收到由请求设备发送的数据获取请求后,对该数据获取请求进行分析,得到该数据获取请求中的目标数据表标识及目标数据特征,并将该目标数据表标识及目标数据特征发送给查询设备。查询设备中存储的元数据库包括数据表的数据表标识及计算设备标识的对应关系,查询设备根据该元数据库可查找得到与所述目标数据表标识对应的目标计算设备标识,然后将该目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备。目标计算设备则根据存储的与所述目标数据表标识对应的数据表经查找得到与所述目标数据特征对应的目标位置信息,并将该目标位置信息发送给所述查询设备。所述查询设备将所述目标位置信息发送给所述计算设备。所述计算设备根据所述目标位置信息从对应的目标存储设备处获得目标数据,并根据所述数据获取请求对所述目标数据进行处理,最后将得到的处理结果发送给所述请求设备。上述方式通过将计算资源独立、存储资源独立,可充分利用设备资源,保证计算任务按照正常进度进行;同时多个计算设备可共享查询设备中的元数据库,并且还可以实际需要对系统进行灵活扩展。
为使申请的上述目的、特征和优点能更明显易懂,下文特举本申请较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的数据处理系统的方框示意图。
图2是本申请实施例提供的数据处理方法的流程示意图之一。
图3是本申请实施例提供的数据处理方法的流程示意图之二。
图4是本申请实施例提供的数据处理方法的流程示意图之三。
图标:100-存储设备;200-计算设备;300-查询设备。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1是本申请实施例提供的数据处理系统的方框示意图。所述数据处理系统包括通信连接的存储设备100、计算设备200及查询设备300。每个存储设备100中存储有不同的源数据,每个计算设备200中存储有不同的数据表,所述查询设备300中存储有元数据库。上述存储设备100仅用于存储源数据,计算设备200仅用于获取数据及对数据进行计算,查询设备300通过元数据库配合计算设备200得到需要的数据。由此,将计算资源、存储资源分离,可保证计算任务按照正常进度进行,同时可以根据实际需求扩展系统,并且可降低对系统中的设备性能的要求。比如,若作为存储设备100,则只需要要求存储性能比较好即可;若作为计算设备200,则只需要要求计算性能比较好即可。
其中,上述每个存储设备100、计算设备200及查询设备300既可以是独立服务器,也可以是由多个独立服务器组成的集群服务器。所述服务器可以包括:存储器、存储控制器、处理器。
所述存储器、存储控制器及处理器各元件之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有相应的软件功能模块,所述处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的数据处理方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。所述处理器以及其他可能的组件对存储器的访问可在所述存储控制器的控制下进行。
所述处理器可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以理解,上述仅为举例说明,服务器还可包括比上述结构所示更多或者更少的组件,或者具有与上述所示不同的配置。上述各组件可以采用硬件、软件或其组合实现。
请参照图2,图2是本申请实施例提供的数据处理方法的流程示意图之一。所述方法应用于所述数据处理系统。下面对数据处理方法的具体流程进行详细阐述。
步骤S110,所述计算设备200在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备300。
在本实施例中,所述计算设备200在接收到所述请求设备发送的数据获取请求后,对该数据获取请求进行解析,得到该数据获取请求中的目标数据表标识及目标数据特征。所述计算设备200在完成对所述数据获取请求的解析后,向所述查询设备300发送包括所述目标数据表标识及目标数据特征的查询请求,以得到与所述目标数据表标识及目标数据特征对应的目标数据。其中,所述请求设备可以是,但不限于,个人电脑(PersonalComputer,PC)、平板电脑、个人数字助理(PersonalDigital Assistant,PDA)、移动上网设备(MobileInternet Device,MID)等
步骤S120,所述查询设备300根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备200。
在本实施例中,所述查询设备300中存储的元数据库中包括数据表标识及计算设备标识的对应关系,其中,一个计算设备标识可对应至少一个数据表标识。当然可以理解的是,一个计算设备标识也可对应多个数据表标识。若一个数据表标识与一个计算设备标识对应,表示该数据表标识对应的数据表存储在与该计算设备标识对应的计算设备200中。
所述查询设备300在接收到由所述计算设备200发送的查询请求后,首先根据所述目标数据表标识在所述元数据库中进行查找,以得到与所述目标数据表标识对应的目标计算设备标识。在得到目标计算设备标识后,所述查询设备300将所述目标数据表标识及所述目标数据特征发送给与所述目标计算设备标识对应的目标计算设备200。其中,与所述目标计算设备标识对应的目标计算设备200可能是接收数据获取请求的计算设备200,也可能是其他的计算设备200。
步骤S130,所述目标计算设备200根据存储的与所述目标数据表标识对应的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备300。
在本实施例中,所述目标计算设备200在接收到由所述计算设备200发送的所述目标数据表标识及目标数据特征后,首先在自身存储的至少一个数据表中进行查找,以查找到与所述目标数据表数据对应的数据表。其中,与所述目标数据表数据对应的数据表即为目标数据表。数据表中包括数据特征及该数据特征对应的数据源的具体存储位置信息。在查找到目标数据表后,所述目标计算设备200在该目标数据表中查找与所述目标数据特征对应的位置信息,以得到目标位置信息。最后,所述目标计算设备200将查找到的目标位置信息发送给所述查询设备300。
步骤S140,所述计算设备200根据由所述查询设备300发送的所述目标位置信息从对应的目标存储设备100处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。
在本实施例中,所述查询设备300在得到与所述查询请求对应的目标位置信息后,将该目标位置信息发送给接收所述数据获取请求的计算设备200。所述计算设备200在得到所述目标位置信息后,和与目标位置信息对应的目标存储设备100建立数据通信,以从目标存储设备100处获得与所述目标位置信息对应的目标数据。该目标数据为存储设备100存储的源数据。在得到目标数据后,所述计算设备200还可以根据所述数据获取请求中的数据处理需求对所述目标数据进行处理,然后将得到的处理结果发送给所述请求设备。
其中,每个计算设备200可以预先与所有的存储设备100建立数据通信,也可以在有需要时(比如,要获取数据时)与对应的存储设备100建立数据通信。
在本实施例中,将计算资源与存储资源按业务进行分离,可提供更高的资源利用率、扩展性、灵活性,并且成本较低。在将计算资源与存储资源分离后,不同作用的设备各自使用自身的CPU、内存等资源,能避免不同计算争抢内存资源,可保证计算任务按照正常进度进行。同时,该方式不需要估算未来业务的规模,可以按照当前实际需求扩展设备,因而该方式的扩展性、灵活性都比较高。
在本实施例中,所述系统包括计算设备200可共享所述查询设备300的元数据库,因而可共享所有存储设备100存储的源数据。
在本实施例中,所述计算设备200若不能向请求设备返回处理结果,可向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第二提示信息。
请参照图3,图3是本申请实施例提供的数据处理方法的流程示意图之二。在本实施例中,计算设备200中还可以存储有仅限自身可以访问的数据。所述方法还可以包括步骤S151~步骤S153。
步骤S151,所述计算设备200在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识。
在本实施例中,在所述数据获取请求需要计算设备200的本地数据时,由所述请求设备发送的数据获取请求可以包括目标计算设备标识、目标数据表标识及目标数据特征。所述计算设备200在接收该请求后,首先将自身的计算设备标识与目标计算设备标识进行比对,以判断自身是否即为与所述目标计算设备标识对应的目标计算设备200。
若所述目标计算设备标识为自身的计算设备标识,则执行步骤S152。
步骤S152,所述计算设备200则根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。
若所述目标计算设备标识不是自身的计算设备标识,则执行步骤S153。
步骤S153,所述计算设备200则向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
如果所述目标计算设备标识为自身的计算设备标识,表示该数据获取请求需要的数据是接收该数据获取请求的计算设备200的本地数据存储库中的本地数据。在这种情况下,该计算设备200则可以在自身存储的数据表中查找到与所述目标数据表标识对应得到目标数据表。接着,该计算设备200在该目标数据表中查找到与所述目标数据特征对应的目标位置信息,然后根据该目标位置信息在本地数据存储库中获得目标数据。最后,该计算设备200还根据所述数据获取请求中的数据处理需求对所述目标数据进行处理,然后将得到的处理结果发送给所述请求设备。
如果所述目标计算设备标识不为自身的计算设备标识,表示该数据获取请求需要的数据不是接收该数据获取请求的计算设备200的本地数据存储库中的本地数据。此时,该计算设备200则可以向所述请求设备返回第一提示信息,以提示无法获取与所述数据获取请求对应的数据。
由此可以看出,在需要的数据为存储设备100存储的源数据时,数据获取请求可以不包括目标计算设备200。在需要的数据为某个计算设备200的本地数据时,该数据获取请求中可以包括该计算设备200的计算设备标识,以表示需要的数据是本地数据。
请参照图4,图4是本申请实施例提供的数据处理方法的流程示意图之三。在本实施例中,所述元数据库为关系型数据库,关系型数据库可以是,但不限于,MySQL数据库、Oracle数据库。所述方法还可以包括步骤S101及步骤S102。
步骤S101,所述计算设备200根据接收的数据表创建操作生成并保存所述数据表。
步骤S102,所述计算设备200将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300进行存储。
在本实施例中,可预先修改查询设备300数据库为关系型数据库。所述计算设备200在接收到数据表创建操作后,可将根据该操作得到的数据源存储位置保存到数据表中。在完成数据表的创建后,所述计算设备200将该数据表的数据表标识及自身的计算设备标识发送给所述查询设备300,以标识该数据表存储在该计算设备200中。所述查询设备300则将接收到的对应的数据表标识及计算设备标识存储在元数据库中,以供后期查询使用。
可选地,所述计算设备200将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300进行存储的方式包括:所述计算设备200根据配置的关系型数据库的连接信息将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300。其中,上述连接信息可以包括,但不限于,URL(Uniform Resource Locator,统一资源定位符)、用户名、密码、端口、驱动等。
在本实施例中,所述方法还可以包括:所述计算设备200将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
作为一种实施方式,计算设备200可以为Spark集群,存储设备100为hadoop集群,元数据库为MySql数据库。可通过beeline、spark-sql、spark-thriftserver等多种模式访问Spark集群上的表元数据信息(即,数据表)和数据(本地数据),并进行相应的业务计算。多Spark集群数据可共享元数据(即,共享所述查询设备300中的元数据库),按业务划分集群进行计算。
可选地,可通过以下方式修改Spark元数据存储方式。在Spark配置中新增hive-site.xml文件,该文件中配置关系型数据库的连接信息(包含:URL,用户名,密码,端口,驱动),用于元数据存储。进一步地,若Spark需要创建仅限自身可以访问的数据,则可以在hive-seite.xml配置中新增本地元数据和数据存储路径的配置。
在创建数据表时,可首先准备好参与计算的原始数据(即存储设备100中存储的源数据)。比如,两个不同数据源Hadoop1和Hadoop2,对应到HDFS上数据文件目录hdfs://hadoop1:8020/apps/hive/warehouse/test1和hdfs://hadoop2:8020/apps/hive/warehouse/test2。其中test1文件存储为.txt格式,test2文件存储为.orc数据格式,此外还可以支持多种数据存储格式,比如,snappy、gizp等。接着则在数据表中指定数据源(即配置与数据特征对应的数据源的位置信息)。
比如,CREATE TABLE IF NOT EXISTS H_TMP2(NAME STRING,AGE INT,SEXSTRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY','STORED AS TEXTFILELOCATION 'hdfs://hadoop1:8020/apps/hive/warehouse/test1;
CREATE EXTERNAL TABLE IF NOT EXISTS H_TMP222(NAME STRING,AGE INT,SEXSTRING)STORED AS ORCFILE LOCATION'hdfs://hadoop2:8020/apps/hive/warehouse/test2';
由此,Spark就可以访问hadoop1和hadoop2上对应的数据文件,并支持Spark sql计算。
并且,还可以根据业务需要划分建立多个Spark计算集群,各集群根据自身的业务特征在hive-site.xml中配置好需要访问到关系型数据库的连接信息。由此实现了元数据信息共享,从而实现多数据源数据关联计算。
由此可以看出,本方案脱离hadoop存储和yarn资源管理等服务,让服务更单一、轻量。独立或多Spark集群通过共享元数据可以访问不同数据源。本方案提高了计算能力和存储能力,并且可以根据实际需求进行计算集群和存储集群的划分及扩展,具有扩展灵活性强的特点。
请再次参照图1,本申请实施例还提供一种数据处理系统。所述数据处理系统包括通信连接的存储设备100、计算设备200及查询设备300。其中,每个存储设备100中存储有不同的源数据,每个计算设备200中存储有不同的数据表。
所述计算设备200,用于在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备300。
所述查询设备300,用于根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备200。
所述目标计算设备200,用于根据存储的与所述目标数据表标识对应的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备300。
所述计算设备200,还用于根据由所述查询设备300发送的所述目标位置信息从对应的目标存储设备100处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。
可选地,在本实施例中,所述计算设备200,还用于在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识。若是,所述计算设备200,还用于根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备。若不是,所述计算设备200,还用于向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
可选地,在本实施例中,所述元数据库为关系型数据库,
所述计算设备200,还用于根据接收的数据表创建操作生成并保存所述数据表;
所述计算设备200,还用于将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300进行存储。
进一步地,所述计算设备200将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300进行存储的方式包括:
所述计算设备200根据配置的关系型数据库的连接信息将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备300。
可选地,在本实施例中,所述计算设备200,还用于将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
在本实施例中,关于所述数据处理系统的具体描述可以参照上文对数据处理方法的描述,在此不再赘述。
综上所述,本申请实施例提供一种数据处理方法及系统。该系统包括存储设备、计算设备及查询设备,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表。计算设备在接收到由请求设备发送的数据获取请求后,对该数据获取请求进行分析,得到该数据获取请求中的目标数据表标识及目标数据特征,并将该目标数据表标识及目标数据特征发送给查询设备。查询设备中存储的元数据库包括数据表的数据表标识及计算设备标识的对应关系,查询设备根据该元数据库可查找得到与所述目标数据表标识对应的目标计算设备标识,然后将该目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备。目标计算设备则根据存储的与所述目标数据表标识对应的数据表经查找得到与所述目标数据特征对应的目标位置信息,并将该目标位置信息发送给所述查询设备。所述查询设备将所述目标位置信息发送给所述计算设备。所述计算设备根据所述目标位置信息从对应的目标存储设备处获得目标数据,并根据所述数据获取请求对所述目标数据进行处理,最后将得到的处理结果发送给所述请求设备。上述方式通过将计算资源独立、存储资源独立,可充分利用设备资源,保证计算任务按照正常进度进行;同时多个计算设备可共享查询设备中的元数据库,并且还可以实际需要对系统进行灵活扩展。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种数据处理方法,其特征在于,应用于数据处理系统,所述系统包括通信连接的存储设备、计算设备及查询设备,其中,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表,所述方法包括:
所述计算设备在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备;
所述查询设备根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备;
所述目标计算设备根据存储的与所述目标数据表标识对应的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备;
所述计算设备根据由所述查询设备发送的所述目标位置信息从对应的目标存储设备处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
其中,所述计算设备在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识;
若是,所述计算设备则根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
若不是,所述计算设备则向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
2.根据权利要求1所述的方法,其特征在于,所述元数据库为关系型数据库,所述方法还包括:
所述计算设备根据接收的数据表创建操作生成并保存所述数据表;
所述计算设备将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储。
3.根据权利要求2所述的方法,其特征在于,所述计算设备将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储的方式包括:
所述计算设备根据配置的关系型数据库的连接信息将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
所述计算设备将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
5.根据权利要求2所述的方法,其特征在于,所述关系型数据库包括MySQL数据库、Oracle数据库中的至少一种。
6.一种数据处理系统,其特征在于,所述系统包括通信连接的存储设备、计算设备及查询设备,其中,每个存储设备中存储有不同的源数据,每个计算设备中存储有不同的数据表,
所述计算设备,用于在接收到由请求设备发送的数据获取请求后,将所述数据获取请求中的目标数据表标识及目标数据特征发送给所述查询设备;
所述查询设备,用于根据存储的元数据库中的数据表的数据表标识及对应的计算设备标识,查询得到与所述目标数据表标识对应的目标计算设备标识,并将所述目标数据表标识及目标数据特征发送给与所述目标计算设备标识对应的目标计算设备;
所述目标计算设备,用于根据存储的与所述目标数据表标识对应的数据表获得与所述目标数据特征对应的目标位置信息,并将所述目标位置信息发送给所述查询设备;
所述计算设备,还用于根据由所述查询设备发送的所述目标位置信息从对应的目标存储设备处获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
所述计算设备,还用于在接收到的所述数据获取请求中包括目标计算设备标识、目标数据表标识及目标数据特征时,判断所述目标计算设备标识是否为自身的计算设备标识;
若是,所述计算设备,还用于根据所述目标数据表标识及目标数据特征在本地数据存储库中获得目标数据,并将根据所述数据获取请求对所述目标数据进行处理后得到的处理结果发送所述请求设备;
若不是,所述计算设备,还用于向所述请求设备返回用于指示无法获取与所述数据获取请求对应的数据的第一提示信息。
7.根据权利要求6所述的系统,其特征在于,所述元数据库为关系型数据库,
所述计算设备,还用于根据接收的数据表创建操作生成并保存所述数据表;
所述计算设备,还用于将创建的所述数据表的数据表标识及自身的计算设备标识发送给所述查询设备进行存储。
8.根据权利要求7所述的系统,其特征在于,
所述计算设备,还用于将接收的待存储数据作为本地数据存储在本地数据存储库中,并将该待存储数据的位置信息存储在所述数据表中。
CN201811585365.XA 2018-12-24 2018-12-24 数据处理方法及系统 Active CN109684093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811585365.XA CN109684093B (zh) 2018-12-24 2018-12-24 数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811585365.XA CN109684093B (zh) 2018-12-24 2018-12-24 数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN109684093A CN109684093A (zh) 2019-04-26
CN109684093B true CN109684093B (zh) 2021-03-09

Family

ID=66188989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811585365.XA Active CN109684093B (zh) 2018-12-24 2018-12-24 数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN109684093B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112416910A (zh) * 2019-08-22 2021-02-26 顺丰科技有限公司 数据处理方法、装置、服务器及计算机可读存储介质
WO2021068268A1 (zh) * 2019-10-12 2021-04-15 深圳市大疆创新科技有限公司 数据处理方法、处理及存储设备、飞行设备和控制系统
CN113569110B (zh) * 2021-07-23 2022-09-27 用友汽车信息科技(上海)股份有限公司 数据处理方法、数据处理系统、计算机设备和存储介质
CN115202851A (zh) * 2022-09-13 2022-10-18 创新奇智(浙江)科技有限公司 数据任务执行系统及数据任务执行方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104754045A (zh) * 2015-03-23 2015-07-01 国网辽宁省电力有限公司信息通信分公司 数据中心服务与应用接口管理平台
CN105359141A (zh) * 2013-05-17 2016-02-24 甲骨文国际公司 支持基于流的etl和基于实体关系的etl的组合
CN107085570A (zh) * 2016-02-14 2017-08-22 华为技术有限公司 数据处理方法、应用服务器和路由器

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8069194B1 (en) * 2004-03-04 2011-11-29 Ophivain Applications NY L.L.C. Automated annotation of a resource on a computer network using a network address of the resource
US8601029B2 (en) * 2011-05-27 2013-12-03 International Business Machines Corporation Data stewardship in federated multi-level master data management systems
US9268716B2 (en) * 2012-10-19 2016-02-23 Yahoo! Inc. Writing data from hadoop to off grid storage
CN105740295B (zh) * 2014-12-12 2019-06-14 中国移动通信集团公司 一种分布式数据的处理方法及装置
CN105589733B (zh) * 2015-11-27 2018-12-25 新华三技术有限公司 一种数据处理方法和装置
CN105867846A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 一种数据处理方法、服务器及系统
CN106502789A (zh) * 2016-10-12 2017-03-15 阔地教育科技有限公司 一种资源访问方法及装置
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN108388406B (zh) * 2018-01-10 2021-07-02 链家网(北京)科技有限公司 数据处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105359141A (zh) * 2013-05-17 2016-02-24 甲骨文国际公司 支持基于流的etl和基于实体关系的etl的组合
CN104754045A (zh) * 2015-03-23 2015-07-01 国网辽宁省电力有限公司信息通信分公司 数据中心服务与应用接口管理平台
CN107085570A (zh) * 2016-02-14 2017-08-22 华为技术有限公司 数据处理方法、应用服务器和路由器

Also Published As

Publication number Publication date
CN109684093A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684093B (zh) 数据处理方法及系统
US9563673B2 (en) Query method for a distributed database system and query apparatus
CN107784044B (zh) 表数据查询方法及装置
US20160314157A1 (en) Method, server, and system for accessing metadata
US9471696B2 (en) Methods and systems for pathing analysis
US10268655B2 (en) Method, device, server and storage medium of searching a group based on social network
CN112015820A (zh) 分布式图数据库实现的方法、系统、电子装置和存储介质
CN111930770A (zh) 数据查询方法、装置及电子设备
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN111651424B (zh) 一种数据处理方法、装置、数据节点及存储介质
JP2009217426A (ja) 情報処理装置、リソース同定プログラム、リソース同定方法
CN110019980B (zh) 索引处理方法、装置、存储介质和计算机设备
US20070150448A1 (en) Method and apparatus for optimizing large data set retrieval
CN107066522B (zh) 数据库的访问方法和装置
CN111400301B (zh) 一种数据查询方法、装置及设备
CN111913801B (zh) 数据处理方法和装置、代理服务器、存储系统及存储介质
CN110874365B (zh) 一种信息查询方法及其相关设备
CN111814020A (zh) 一种数据的获取方法和装置
CN115374109B (zh) 数据访问方法、装置、计算设备和系统
CN111339170A (zh) 数据处理方法、装置、计算机设备及存储介质
CN107679093B (zh) 一种数据查询方法及装置
JP2014524210A (ja) 可変長ノンスの生成
CN110874370B (zh) 数据查询方法、装置、计算机设备和可读存储介质
CN112527780A (zh) Redis集群的创建与管理方法、系统、计算机设备和存储介质
CN107066247B (zh) 补丁查询方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant