CN109388651B - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN109388651B
CN109388651B CN201811096346.0A CN201811096346A CN109388651B CN 109388651 B CN109388651 B CN 109388651B CN 201811096346 A CN201811096346 A CN 201811096346A CN 109388651 B CN109388651 B CN 109388651B
Authority
CN
China
Prior art keywords
data
processed
stored
preset
cluster system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811096346.0A
Other languages
English (en)
Other versions
CN109388651A (zh
Inventor
吴洋
苏飞
王振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201811096346.0A priority Critical patent/CN109388651B/zh
Publication of CN109388651A publication Critical patent/CN109388651A/zh
Application granted granted Critical
Publication of CN109388651B publication Critical patent/CN109388651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本申请实施例公开了一种数据处理方法和装置,涉及计算机技术领域,解决了目前海量数据的存储瓶颈、分析方法效率低下和实时性较差的问题。具体方案为:获取待处理数据;若确定所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统;若确定所述分布式集群系统中存储的所述待处理数据的名称符合第二预设条件,根据所述待处理数据的属性将所述分布式集群系统中存储的所述待处理数据拷贝至至少一个数据库中与所述待处理数据的属性对应的数据库。本申请实施例提供的方案适合于数据处理。

Description

一种数据处理方法和装置
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据处理方法和装置。
背景技术
随着互联网行业的迅猛发展,用户随时随地获取数据、产生数据的需求与日俱增,很大程度上促进了大数据时代的发展。目前,现网海量数据的存储对时效性有很强的要求,而常规性的存储方式(例如DAS、NAS、SAN存储等)应用于普通x86服务器,磁盘I/O能力使其在时效性凸显瓶颈。
现有技术中对于海量PB型数据,通常采用常规性存储方式进行存储(例如DAS、NAS、SAN存储等),该存储方式在存储安全性、可靠性上毋庸置疑。但在设备投资成本上是巨大的开销;而且现网海量数据的存储对时效性有很强的要求,但是上述常规性存储应用于普通x86服务器,磁盘I/O能力使其在时效性凸显瓶颈。另外,对于海量用户业务数据分析,传统的大数据分析体系结构效率低、处理能力有限,例如当前方法大多是运行在传统的Oracle或SQL服务器之上,分析效率相对较低,很难满足现阶段大数据分析的需求。
发明内容
本申请实施例提供一种数据处理方法和装置,能够解决目前海量数据的存储瓶颈、分析方法效率低下和实时性较差的问题。
为达到上述目的,本申请实施例采用如下技术方案:
本申请实施例的第一方面,提供一种数据处理方法,该方法包括:首先获取待处理数据;若确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统;若确定上述分布式集群系统中存储的待处理数据的名称符合第二预设条件,根据该待处理数据的属性将分布式集群系统中存储的待处理数据拷贝至至少一个数据库中与该待处理数据的属性对应的数据库。该待处理数据的属性包括该待处理数据的数据量和查询效率中的至少一个;该待处理数据满足第一预设条件包括:待处理数据的数据量大于或等于第一预设阈值,和/或待处理数据的存储周期大于或等于第二预设阈值;该待处理数据的名称符合第二预设条件是指:待处理数据的字段符合预设的字段格式。基于本方案,能够将待处理数据进行分布式存储,并将满足预设的字段格式的待处理数据根据其属性存储到不同的数据库中,从而不仅降低了海量数据的存储成本,也提高了数据分析的效率。
结合第一方面,在第一种可能的实现方式中,若确定分布式集群系统中存储的待处理数据的名称不符合第二预设条件,上述方法还包括:识别待处理数据的字段;根据该待处理数据的字段,将待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;将该至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。基于本方案,能够将不符合预设的字段格式的待处理数据经过解析处理,得到符合预设的字段格式的待处理数据。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库具体包括:根据至少一个解析组的属性将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库;一个解析组的属性包括该解析组中存储的所述符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。基于本方案,能够将解析组中符合预设字段格式的待处理数据拷贝至与该解析组的属性对应的数据库中。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,若确定待处理数据满足第一预设条件,将待处理数据存储至分布式集群系统后,上述方法还包括:若分布式集群系统中存储的待处理数据的重要程度高于第三预设阈值,将重要程度高于第三预设阈值的该待处理数据复制至少两份存储至分布式集群系统中。基于本方案,能够将分布式集群系统中存储的重要程度高于预设阈值的待处理数据,进行多份复制,提高重要数据的容灾性。
结合第一方面和上述可能的实现方式,在另一种可能的实现方式中,上述方法还包括:接收用户的查询请求,该查询请求中包含查询参数;根据该查询参数包含的字段标识,查找至少一个数据库中包含该字段标识的数据库,并返回查询结果。基于本方案,能够根据查询请求中包含的字段标识,在与该查询标识对应的数据库进行查找,并向用户返回查询结果,进一步提高用户的查询效率。
本申请实施例的第二方面,提供一种数据处理装置,该装置包括:获取单元,用于获取待处理数据;处理单元,用于若确定上述获取单元获取的待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统;上述处理单元,还用于若确定分布式集群系统中存储的待处理数据的名称符合第二预设条件,根据待处理数据的属性将分布式集群系统中存储的待处理数据拷贝至至少一个数据库中与该待处理数据的属性对应的数据库。该待处理数据的属性包括该待处理数据的数据量和查询效率中的至少一个;该待处理数据满足第一预设条件包括:待处理数据的数据量大于或等于第一预设阈值,和/或待处理数据的存储周期大于或等于第二预设阈值;该待处理数据的名称符合第二预设条件是指:待处理数据的字段符合预设的字段格式。
结合第二方面,在第一种可能的实现方式中,上述处理单元,还用于若确定分布式集群系统中存储的待处理数据的名称不符合第二预设条件,识别该待处理数据的字段;上述处理单元,还用于根据该待处理数据的字段,将待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;上述处理单元,还用于将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述处理单元,具体用于根据至少一个解析组的属性将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库;一个解析组的属性包括该解析组中存储的符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述处理单元,还用于若分布式集群系统中存储的待处理数据的重要程度高于第三预设阈值,将重要程度高于第三预设阈值的待处理数据复制至少两份存储至所述分布式集群系统中。
结合第二方面和上述可能的实现方式,在另一种可能的实现方式中,上述装置还包括:接收单元,该接收单元,用于接收用户的查询请求,该查询请求中包含查询参数;上述处理单元,用于根据上述接收单元接收的查询参数包含的字段标识,查找至少一个数据库中包含该字段标识的数据库,并返回查询结果。
上述第二方面以及第二方面的各种实现方式的效果描述可以参考第一方面相应效果的描述,在此不再赘述。
本申请实施例的第三方面,提供了一种服务器,该服务器的结构中包括处理器和存储器,该存储器用于与处理器耦合,保存该服务器必要的程序指令和数据,该处理器用于执行存储器中存储的程序指令,使得该服务器执行上述方法。
本申请实施例的第四方面,提供一种计算机存储介质,所述计算机存储介质中存储有计算机程序代码,当所述计算机程序代码在处理器上运行时,使得所述处理器执行第一方面或第一方面的可能的实现方式中任一所述的数据处理方法。
本申请实施例的第五方面,提供了一种计算机程序产品,该程序产品储存有上述处理器执行的计算机软件指令,该计算机软件指令包含用于执行上述方面所述方案的程序。
本申请实施例的第六方面,提供了一种装置,该装置以芯片的产品形态存在,该装置的结构中包括处理器和存储器,该存储器用于与处理器耦合,保存该装置必要的程序指令和数据,该处理器用于执行存储器中存储的程序指令,使得该装置执行上述方法中数据处理装置的功能。
附图说明
图1为本申请实施例提供的一种数据处理系统的结构示意图;
图2为本申请实施例提供的一种数据管理服务器的结构示意图;
图3为本申请实施例提供的一种数据处理方法的流程图;
图4为本申请实施例提供的另一种数据处理方法的流程图;
图5为本申请实施例提供的另一种数据处理方法的流程图;
图6为本申请实施例提供的一种数据处理装置的组成示意图;
图7为本申请实施例提供的另一种数据处理装置的组成示意图。
具体实施方式
本申请实施例提供一种数据处理方法,示例性的,该数据处理方法可以应用于图1所示的数据处理系统,该数据处理系统100包括数据管理服务器101、分布式集群系统102、数据解析组103、数据库104。
数据管理服务器101:用于将获取的待处理数据存储至分布式集群系统102中,将满足预设字段格式的待处理数据直接拷贝至与该待处理数据属性对应的数据库中;将该分布式集群系统102中不满足预设字段格式的数据拷贝并划分到不同的数据解析组中进行解析,获得符合预设的字段格式的待处理数据,再将不同解析组中的数据拷贝至与该解析组的属性对应的数据库104中。
分布式集群系统102:用于存储待处理数据中重要程度较高、数据量较大、存储周期较长的数据。并对重要程度级别较高的数据进行三份复制,以提高待处理数据的容灾性。
数据解析组103:包括至少一个数据解析组,例如:Gn数据解析组、B侧数据解析组和网优平台数据解析组等,上述不同解析组中待处理数据的字段不同。
数据库104:包括至少一个数据库,例如:Oracel、Impala、Vertica等,对于数据量较大、查询效率要求较高的待处理数据,可以存储至Impala数据库中,对于数据量较小、查询效率要求较低的待处理数据,可以存储至Oracel数据库中。
图2为本申请实施例提供的一种数据管理服务器200的结构示意图。如图2所示,该数据管理服务器200包括:硬件层和软件层,硬件层包括处理器201、存储器202、总线203等,软件层包括操作系统204。
处理器201:是计算机100的核心部件,用于运行数据管理服务器200的操作系统与数据管理服务器200上的应用程序(包括系统应用程序和第三方应用程序)。
本申请实施例中,处理器201具体可以为中央处理器(central processing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(fieldprogrammable gate array,FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合,其可以实现或执行结合本申请实施例公开的内容所描述的各种示例性的逻辑方框,模块和电路;处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
存储器202:可用于存储软件程序以及模块,处理器201通过运行存储在存储器202里的软件程序以及模块,从而执行数据管理服务器200的各种功能应用以及数据处理。存储器202可包含一个或多个计算机可读存储介质。存储器202包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等,例如,可存储实现本申请实施例提供的数据处理方法的程序。存储数据区可存储数据管理服务器200创建的数据等。例如,可存储执行数据处理方法的过程中,获取的待处理数据,以及符合预设的字段格式的待处理数据等。
本申请实施例中,存储器202具体可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);该存储器也可以包括非易失性存储器(non-volatile memory),快闪存储器(flash memory),硬盘(hard fisk drive,HDD)或固态硬盘(solid-state drive,SSD);该存储器还可以包括上述种类的存储器的组合。
总线203:是计算机各种功能部件之间传送信息的公共通信干线,按照计算机所传输的信息种类,计算机的总线可以划分为数据总线、地址总线和控制总线,分别用来传输数据、数据地址和控制信号。
操作系统204(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,用于支持其他软件,例如各种应用程序的运行。本申请实施例中操作系统可以为各种操作系统,例如,Windows操作系统、Linux操作系统、iOS操作系统,Android开源操作系统等。
可理解的是,图2仅为示例性说明,实际应用中,数据管理服务器200可以包括比图2所示更多或者更少的部件,例如,还可以包括用户接口,用于支持系统和用户之间进行交互和信息交换,或者通信接口,用于支持终端与其它终端、服务器、网络之间的通信;图2所示结构不对本申请实施例提供的数据管理服务器构成任何限制。
为了解决背景技术中,对海量数据进行分析处理时,存储成本大、时效性差以及分析效率低的问题,本申请实施例提供了一种数据处理方法,该方法能够满足实时性要求、降低存储成本,提高数据分析的效率。
结合图1、图2,如图3所示,本申请实施例提供的数据处理方法可以包括S301-S303:
S301、获取待处理数据。
示例性的,本申请实施例获取待处理数据的方式可以包括:文件传输协议(FileTransfer Protocol,简称FTP)传输数据和拷贝数据等。该待处理数据的量级较大,可以为PB级海量数据。
S302、若确定所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统。
示例性的,该待处理数据满足第一预设条件包括:该待处理数据的数据量大于或等于第一预设阈值,和/或该待处理数据的存储周期大于或等于第二预设阈值。
示例性的,数据管理服务器可以根据待处理数据的量级大小和存储周期长短确定将该待处理数据存储至磁盘阵列或者分布式集群系统,若待处理数据的量级较大,或者待处理数据的存储周期较长,或者待处理数据的量级较大且存储周期较长,则将该待处理数据存储至分布式集群系统中;若待处理数据的量级较小且为临时性数据,则将该待处理数据存储至磁盘阵列中。该存储方式能够有效的提高数据存储的时效性。
示例性的,本申请在确定待处理数据的数据量和存储周期后,还可以根据该待处理数据的重要程度对待处理数据进行处理。例如,若待处理数据的数据量大于第一预设阈值和/或存储周期大于或等于第二预设阈值,判断该待处理数据的重要程度,若该待处理数据的重要程度高于某一预设阈值,则将该待处理数据存储至分布式集群系统中;若该待处理数据的重要程度低于某一预设阈值,虽然也将该待处理数据存储至分布式集群系统中,但是会优先删除重要程度较低的待处理数据。
示例性的,本申请实施例中的分布式集群系统可以包括Hadoop分布式文件系统HDFS和Ceph分布式文件系统等。
示例性的,如果确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统后,还可以包括:将分布式集群系统中存储的重要程度高于预设阈值的待处理数据,复制至少两份存储至该分布式集群系统中,以提高重要数据的容灾性。本申请实施例对于重要程度高于第三预设阈值的待处理数据具体复制的份数并不进行限定,例如,可以对复制两份,也可以复制三份存储至分布式集群系统中,具体复制的份数与该待处理数据的重要程度有关。
S303、若确定所述分布式集群系统中存储的所述待处理数据的名称符合第二预设条件,根据所述待处理数据的属性将所述分布式集群系统中存储的所述待处理数据拷贝至至少一个数据库中与所述待处理数据的属性对应的数据库。
示例性的,该待处理数据的名称符合第二预设条件是指:该待处理数据的字段符合预设的字段格式。该待处理数据的属性包括该待处理数据的数据量和查询效率中的至少一个。
示例性的,如果待处理数据的字段符合预设的字段格式,即该待处理数据的字段是满足用户需求的字段格式,无需再进行合并或拆分等处理,则将该待处理数据根据其属性直接拷贝至至少一个数据库中。
示例性的,可以根据该待处理数据的数据量级大小将该待处理数据拷贝至与该数据量大小对应的数据库中,或者,可以根据该待处理数据的查询效率,将该待处理数据拷贝至与其查询效率对应的数据库中,或者,可以根据该待处理数据的数据量级大小和查询效率,将该待处理数据拷贝至与其数据量大小和查询效率对应的数据库中。
本申请实施例提供的一种数据处理方法,通过获取待处理数据,若确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统;若确定该分布式集群系统中存储的待处理数据的名称符合第二预设条件,根据该待处理数据的属性将分布式集群系统中存储的待处理数据拷贝至至少一个数据库中与该待处理数据的属性对应的数据库。本申请实施能够将待处理数据进行分布式存储,并将满足预设的字段格式的待处理数据根据其属性存储到不同的数据库中,从而不仅降低了海量数据的存储成本,也提高了数据分析的效率。
本申请还提供一实施例,参见图4,在执行步骤S301-S302之后,该方法还包括S304-S306。
S304、若确定所述分布式集群系统中存储的所述待处理数据的名称不符合第二预设条件,识别所述待处理数据的字段。
示例性的,该待处理数据的名称不符合第二预设条件是指:该待处理数据的字段不符合预设的字段格式,即该待处理数据的字段不是满足用户需求的字段格式,可以通过识别该待处理数据的字段,再对其进行处理。
S305、根据所述待处理数据的字段,将所述待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据。
示例性的,可以根据该待处理数据的字段,将其拷贝并划分至至少一个解析组进行解析处理,例如,空值处理、规范化数据格式、数据验证、数据替换等处理,处理后的数据为符合预设的字段格式的待处理数据。例如该至少一个解析组可以包括:Gn数据解析组、B侧数据解析组和网优平台数据解析组等。
S306、将所述至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库。
示例性的,可以根据至少一个解析组的属性将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。该解析组的属性包括该解析组中存储的符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。
示例性的,数据管理服务器可以根据解析组中存储的符合预设的字段格式的待处理数据的数据量大小将该解析组中存储的符合预设的字段格式的待处理数据拷贝至与该数据量大小对应的数据库中,或者,可以根据该解析组中存储的符合预设的字段格式的待处理数据的查询效率高低将该解析组中存储的符合预设的字段格式的待处理数据拷贝至与该查询效率对应的数据库中,或者,可以根据该解析组中存储的符合预设的字段格式的待处理数据的数据量大小和查询效率高低将该解析组中存储的符合预设的字段格式的待处理数据拷贝至与该数据量和查询效率对应的数据库中。
示例性的,本申请实施例中至少一个数据解析组中不同的数据解析组可以对应不同的数据库,也可以部分解析组对应同一个数据库。例如,Gn数据解析组和网优平台数据解析组可以对应Impala数据库,B侧数据解析组可以对应Oracel数据库。
本申请实施例提供的一种数据处理方法,通过获取待处理数据,若确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统;若确定该分布式集群系统中存储的待处理数据的名称不符合第二预设条件,识别该待处理数据的字段;根据该待处理数据的字段,将该待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;将该至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。本申请实施能够将待处理数据进行分布式存储,将不满足预设的字段格式的待处理数据划分至不同的解析组中进行解析处理,并根据该解析组的属性将至少一个解析组中的存储的符合预设的字段格式的待处理数据存储到不同的数据库中,从而不仅降低了海量数据的存储成本,也提高了数据分析的效率。
本申请还提供一实施例,参见图5,该方法还包括S307-S308。
S307、接收用户的查询请求,所述查询请求中包含查询参数。
S308、根据所述查询参数包含的字段标识,查找所述至少一个数据库中包含所述字段标识的数据库,并返回查询结果。
示例性的,本申请实施例中每个数据库包括该数据库中存储的数据的字段标识,在数据管理服务器接收用户的查询请求后,根据该查询请求中包含的字段标识,在与该查询标识对应的数据库进行查找,并向用户返回查询结果,能够进一步提高用户的查询效率。
本申请实施例提供的一种数据处理方法,通过获取待处理数据,若确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统;若确定该分布式集群系统中存储的待处理数据的名称不符合第二预设条件,识别该待处理数据的字段;根据该待处理数据的字段,将该待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;将该至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。本申请实施能够将待处理数据进行分布式存储,将不满足预设的字段格式的待处理数据划分至不同的解析组中进行解析处理,并根据该解析组的属性将至少一个解析组中的存储的符合预设的字段格式的待处理数据存储到不同的数据库中,从而不仅降低了海量数据的存储成本,也提高了数据分析的效率。
本申请实施例还提供一种数据处理装置,在采用对应各个功能划分各个功能模块的情况下,图6示出了上述实施例中所涉及的数据处理装置600的一种可能的结构示意图,该数据处理装置600包括:获取单元601和处理单元602和接收单元603。
其中,所述获取单元601,用于获取待处理数据;示例性的,本申请实施例获取单元601获取待处理数据的方式可以包括:文件传输协议(File Transfer Protocol,简称FTP)传输数据和拷贝数据等。该待处理数据的量级较大,可以为PB级海量数据。
所述处理单元602,用于若确定所述获取单元获取的所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统;示例性的,该待处理数据满足第一预设条件包括:该待处理数据的数据量大于或等于第一预设阈值,和/或该待处理数据的存储周期大于或等于第二预设阈值。如果确定该待处理数据满足第一预设条件,将该待处理数据存储至分布式集群系统后所述处理单元602还可以用于将分布式集群系统中存储的重要程度高于预设阈值的待处理数据,复制至少两份存储至该分布式集群系统中,以提高重要数据的容灾性。
所述处理单元602,还用于若确定所述分布式集群系统中存储的所述待处理数据的名称符合第二预设条件,根据所述待处理数据的属性将所述分布式集群系统中存储的所述待处理数据拷贝至至少一个数据库中与所述待处理数据的属性对应的数据库。示例性的,该待处理数据的名称符合第二预设条件是指:该待处理数据的字段符合预设的字段格式。该待处理数据的属性包括该待处理数据的数据量和查询效率中的至少一个。
所述处理单元602,还用于若确定所述分布式集群系统中存储的所述待处理数据的名称不符合第二预设条件,识别所述待处理数据的字段;示例性的,该待处理数据的名称不符合第二预设条件是指:该待处理数据的字段不符合预设的字段格式,即该待处理数据的字段不是满足用户需求的字段格式,可以通过识别该待处理数据的字段,再对其进行处理。
所述处理单元602,还用于根据所述待处理数据的字段,将所述待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;示例性的,可以根据该待处理数据的字段,将其拷贝并划分至至少一个解析组进行解析处理,例如,空值处理、规范化数据格式、数据验证、数据替换等处理,处理后的数据为符合预设的字段格式的待处理数据。例如该至少一个解析组可以包括:Gn数据解析组、B侧数据解析组和网优平台数据解析组等。
所述处理单元602,还用于将所述至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库;示例性的,可以根据至少一个解析组的属性将至少一个解析组中存储的符合预设的字段格式的待处理数据分别拷贝至对应的数据库。该解析组的属性包括该解析组中存储的符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。
所述接收单元603,用于接收用户的查询请求,所述查询请求中包含查询参数。
所述处理单元602,还用于根据所述查询参数包含的字段标识,查找所述至少一个数据库中包含所述字段标识的数据库,并返回查询结果。示例性的,本申请实施例中每个数据库包括该数据库中存储的数据的字段标识,在数据管理服务器接收用户的查询请求后,根据该查询请求中包含的字段标识,在与该查询标识对应的数据库进行查找,并向用户返回查询结果,能够进一步提高用户的查询效率。
本申请实施例提供的数据处理装置,通过对待处理数据进行分布式存储,将不满足预设的字段格式的待处理数据划分至不同的解析组中进行解析处理,并根据该解析组的属性将至少一个解析组中的存储的符合预设的字段格式的待处理数据存储到不同的数据库中,从而不仅降低了海量数据的存储成本,也提高了数据分析的效率。
在采用集成的单元的情况下,本申请实施例还提供一种数据管理服务器,图7示出了上述实施例中所涉及的数据管理服务器700的一种可能的结构示意图。该数据管理服务器700包括:存储模块701和处理模块702。
其中,处理模块702用于对数据管理服务器的动作进行控制管理,例如,处理模块702用于支持数据管理服务器执行图6中获取单元601、处理单元602和接收单元603执行的步骤,和/或用于本文所描述的技术的其它过程。存储模块701,用于存储数据管理服务器的程序代码和数据。当上述存储模块701为存储器,处理模块702为处理器时,图7所示的数据管理服务器的具体结构可以为上述图2所示的数据管理服务器,其中,上述图2涉及的各部件的所有相关内容的描述均可以援引到图7对应部件的功能描述,在此不再赘述。另一种实现,上述实施例所涉及的计算机结构还可以为包括处理器和接口,处理器和接口通信,处理器用于执行本发明实施例。处理器可以是CPU,也可以是其他硬件,如现场可编程门阵列(Field-Programmable Gate Array,FPGA)等,或者两者的组合。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有一个或多个程序,一个或多个程序包括指令,当上述数据管理服务器的处理器执行该指令时,该数据管理服务器执行上述方法实施例所示的方法流程中数据管理服务器执行的各个步骤。
结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory,RAM)、闪存、可擦除可编程只读存储器(Erasable Programmable ROM,EPROM)、电可擦可编程只读存储器(ElectricallyEPROM,EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理数据,所述待处理数据的属性包括所述待处理数据的数据量和查询效率中的至少一个;
若确定所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统,所述待处理数据满足第一预设条件包括:所述待处理数据的数据量大于或等于第一预设阈值,和/或所述待处理数据的存储周期大于或等于第二预设阈值;
若确定所述分布式集群系统中存储的所述待处理数据的名称符合第二预设条件,根据所述待处理数据的属性将所述分布式集群系统中存储的所述待处理数据拷贝至至少一个数据库中与所述待处理数据的属性对应的数据库,所述待处理数据的名称符合第二预设条件是指:所述待处理数据的字段符合预设的字段格式。
2.根据权利要求1所述的数据处理方法,其特征在于,若确定所述分布式集群系统中存储的所述待处理数据的名称不符合第二预设条件,所述方法还包括:
识别所述待处理数据的字段;
根据所述待处理数据的字段,将所述待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;
将所述至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将所述至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库具体包括:
根据所述至少一个解析组的属性将至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库;一个解析组的属性包括该解析组中存储的所述符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。
4.根据权利要求1或3所述的数据处理方法,其特征在于,所述若确定所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统后,所述方法还包括:
若所述分布式集群系统中存储的所述待处理数据的重要程度高于第三预设阈值,将重要程度高于第三预设阈值的所述待处理数据复制至少两份存储至所述分布式集群系统中。
5.根据权利要求4所述的数据处理方法,其特征在于,所述方法还包括:
接收用户的查询请求,所述查询请求中包含查询参数;
根据所述查询参数包含的字段标识,查找所述至少一个数据库中包含所述字段标识的数据库,并返回查询结果。
6.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取待处理数据,所述待处理数据的属性包括所述待处理数据的数据量和查询效率中的至少一个;
处理单元,用于若确定所述获取单元获取的所述待处理数据满足第一预设条件,将所述待处理数据存储至分布式集群系统,所述待处理数据满足第一预设条件包括:所述待处理数据的数据量大于或等于第一预设阈值,和/或所述待处理数据的存储周期大于或等于第二预设阈值;
所述处理单元,还用于若确定所述分布式集群系统中存储的所述待处理数据的名称符合第二预设条件,根据所述待处理数据的属性将所述分布式集群系统中存储的所述待处理数据拷贝至至少一个数据库中与所述待处理数据的属性对应的数据库,所述待处理数据的名称符合第二预设条件是指:所述待处理数据的字段符合预设的字段格式。
7.根据权利要求6所述的数据处理装置,其特征在于,
所述处理单元,还用于若确定所述分布式集群系统中存储的所述待处理数据的名称不符合第二预设条件,识别所述待处理数据的字段;
所述处理单元,还用于根据所述待处理数据的字段,将所述待处理数据拷贝并划分至至少一个解析组进行解析处理,获得符合预设的字段格式的待处理数据;其中,一个解析组对应一个数据库;
所述处理单元,还用于将所述至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库。
8.根据权利要求7所述的数据处理装置,其特征在于,
所述处理单元,具体用于根据所述至少一个解析组的属性将至少一个解析组中存储的所述符合预设的字段格式的待处理数据分别拷贝至对应的数据库;一个解析组的属性包括该解析组中存储的所述符合预设的字段格式的待处理数据的数据量和查询效率中的至少一个。
9.根据权利要求6或8所述的数据处理装置,其特征在于,所述处理单元,还用于若所述分布式集群系统中存储的所述待处理数据的重要程度高于第三预设阈值,将重要程度高于第三预设阈值的所述待处理数据复制至少两份存储至所述分布式集群系统中。
10.根据权利要求9所述的数据处理装置,其特征在于,所述装置还包括:接收单元,
所述接收单元,用于接收用户的查询请求,所述查询请求中包含查询参数;
所述处理单元,用于根据所述接收单元接收的所述查询参数包含的字段标识,查找所述至少一个数据库中包含所述字段标识的数据库,并返回查询结果。
11.一种计算机存储介质,所述计算机存储介质中存储有计算机程序代码,其特征在于,当所述计算机程序代码在处理器上运行时,使得所述处理器执行如权利要求1-5任一项所述的数据处理方法。
CN201811096346.0A 2018-09-19 2018-09-19 一种数据处理方法和装置 Active CN109388651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811096346.0A CN109388651B (zh) 2018-09-19 2018-09-19 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811096346.0A CN109388651B (zh) 2018-09-19 2018-09-19 一种数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN109388651A CN109388651A (zh) 2019-02-26
CN109388651B true CN109388651B (zh) 2020-11-10

Family

ID=65417619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811096346.0A Active CN109388651B (zh) 2018-09-19 2018-09-19 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN109388651B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008173A (zh) * 2019-03-07 2019-07-12 深圳市买买提信息科技有限公司 一种数据存储的方法及装置
CN110196854A (zh) * 2019-06-11 2019-09-03 中国科学院寒区旱区环境与工程研究所 数据处理方法及装置
CN111475584B (zh) * 2020-06-19 2021-01-22 阿里云计算有限公司 数据处理方法、系统以及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765749A (zh) * 2014-01-07 2015-07-08 阿里巴巴集团控股有限公司 一种数据存储方法及装置
CN104765840A (zh) * 2015-04-16 2015-07-08 成都睿峰科技有限公司 一种大数据分布式存储的方法和装置
CN106156331A (zh) * 2016-07-06 2016-11-23 益佳科技(北京)有限责任公司 冷热温数据服务器系统及其处理方法
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理系统、方法及装置
WO2017190370A1 (en) * 2016-05-04 2017-11-09 Huawei Technologies Co., Ltd. Distributed database systems and methods of distributing and accessing data
CN107818120A (zh) * 2016-09-14 2018-03-20 博雅网络游戏开发(深圳)有限公司 基于大数据的数据处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765749A (zh) * 2014-01-07 2015-07-08 阿里巴巴集团控股有限公司 一种数据存储方法及装置
CN104765840A (zh) * 2015-04-16 2015-07-08 成都睿峰科技有限公司 一种大数据分布式存储的方法和装置
WO2017190370A1 (en) * 2016-05-04 2017-11-09 Huawei Technologies Co., Ltd. Distributed database systems and methods of distributing and accessing data
CN106156331A (zh) * 2016-07-06 2016-11-23 益佳科技(北京)有限责任公司 冷热温数据服务器系统及其处理方法
CN107818120A (zh) * 2016-09-14 2018-03-20 博雅网络游戏开发(深圳)有限公司 基于大数据的数据处理方法和装置
CN107220310A (zh) * 2017-05-11 2017-09-29 中国联合网络通信集团有限公司 一种数据库数据管理系统、方法及装置

Also Published As

Publication number Publication date
CN109388651A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN110046133B (zh) 一种存储文件系统的元数据管理方法、装置及系统
WO2017049764A1 (zh) 数据读写方法及分布式存储系统
CN109388651B (zh) 一种数据处理方法和装置
US11093446B2 (en) Duplicate request checking for file system interfaces
CN111258978B (zh) 一种数据存储的方法
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
CN111651424B (zh) 一种数据处理方法、装置、数据节点及存储介质
CN110647318A (zh) 一种有状态应用的实例创建方法、装置、设备及介质
CN111737564A (zh) 一种信息查询方法、装置、设备及介质
CN108154024B (zh) 一种数据检索方法、装置及电子设备
CN110781159B (zh) Ceph目录文件信息读取方法、装置、服务器及存储介质
CN113051102A (zh) 文件备份方法、装置、系统、存储介质和计算机设备
CN112306957A (zh) 获取索引节点号的方法、装置、计算设备和存储介质
CN114138558A (zh) 一种对象存储方法、装置、电子设备和存储介质
CN111708763B (zh) 分片集群的数据迁移方法、装置和分片集群系统
CN108595574B (zh) 数据库集群的连接方法、装置、设备及存储介质
CN109542860B (zh) 基于hdfs的业务数据管理方法、终端设备
US20170147518A1 (en) Scanning memory for de-duplication using rdma
CN111930684A (zh) 基于hdfs的小文件处理方法、装置、设备及存储介质
CN110798492B (zh) 数据存储方法及装置、数据处理系统
CN111444148A (zh) 基于MapReduce的数据传输方法和装置
CN111737223B (zh) 一种文件拷贝方法、装置、设备及存储介质
CN114064729A (zh) 一种数据检索方法、装置、设备及存储介质
CN114553521A (zh) 一种远端内存访问方法、装置、设备及介质
CN114896276A (zh) 数据存储方法、装置、电子设备及分布式存储系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant