CN113656469B - 大数据处理方法及装置 - Google Patents

大数据处理方法及装置 Download PDF

Info

Publication number
CN113656469B
CN113656469B CN202010398731.1A CN202010398731A CN113656469B CN 113656469 B CN113656469 B CN 113656469B CN 202010398731 A CN202010398731 A CN 202010398731A CN 113656469 B CN113656469 B CN 113656469B
Authority
CN
China
Prior art keywords
data
processing
search database
spark
elastic search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010398731.1A
Other languages
English (en)
Other versions
CN113656469A (zh
Inventor
张风祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing MetarNet Technologies Co Ltd
Original Assignee
Beijing MetarNet Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing MetarNet Technologies Co Ltd filed Critical Beijing MetarNet Technologies Co Ltd
Priority to CN202010398731.1A priority Critical patent/CN113656469B/zh
Publication of CN113656469A publication Critical patent/CN113656469A/zh
Application granted granted Critical
Publication of CN113656469B publication Critical patent/CN113656469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种大数据处理方法及装置,其中方法包括:接收应用上传的数据获取请求;根据数据获取请求,从预先创建Elasticsearch数据库中搜索目标数据,将搜索到的目标数据下发至应用;Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。本发明采用Hadoop集群存储原始数据实现数据湖功能,Hadoop集群实现任意规模的结构化和非结构化数据的存储,从而在使用较少的初始工作的情况下提供更大的灵活性,配合Spark处理框架以及Elasticsearch数据库,以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。

Description

大数据处理方法及装置
技术领域
本发明涉及大数据技术领域,更具体地,涉及大数据处理方法及装置。
背景技术
传统使用存储的大数据需要进行建模,存储的是结构化数据,在将数据加载到数据库之前,还需要对数据进行清理与转换、定义架构等等,灵活性较差,而且后期维护较麻烦。
此外,在现有技术中,最终下发至应用的数据,也即汇总后数据,需要存储到关系型数据库或者hbase数据库中,但关系型数据库和hbase数据库对于大量数据查询比较慢,而且需要开发接口,因此存在查询效率低、开发的成本高的问题。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的大数据处理方法及装置。
第一个方面,本发明实施例提供一种大数据处理方法,包括:
接收应用上传的数据获取请求;
根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
优选地,所述接收应用上传的数据获取请求,之前还包括:
创建所述Hadoop集群和所述Spark处理框架;
将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中。
优选地,所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。
优选地,所述通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中,具体为:
编写数据处理程序,通过所述数据处理程序从Hadoop集群中读取原始数据,结合SparkSQL或SparkStream对提取的原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库;
将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行。
优选地,所述将所述处理后的数据存储在所述Elasticsearch数据库中,具体为:
根据预设规则,对处理后的原始数据设置索引和类型,将处理后的原始数据的数据内容根据索引和类型存储在所述Elasticsearch数据库中;
相应地,所述数据获取请求中记录待获取的数据的索引、类型和数据内容。
第二个方面,本发明实施例提供一种大数据处理装置,包括:
请求获取模块,用于接收应用上传的数据获取请求;
数据下发模块,用于根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
优选地,所述大数据处理装置还包括:
创建模块,用于创建所述Hadoop集群和所述Spark处理框架;
处理模块,用于将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的大数据处理方法及装置,采用Hadoop集群存储原始数据实现数据湖功能,Hadoop集群实现任意规模的结构化和非结构化数据的存储,从而在使用较少的初始工作的情况下提供更大的灵活性,配合Spark处理框架以及Elasticsearch数据库,以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的大数据处理方法的流程示意图;
图2为本发明实施例提供的大数据处理装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术的上述问题,本发明实施例的发明构思为:。
图1为本发明实施例的大数据处理方法的流程示意图,如图1所示,包括:
S101、接收应用上传的数据获取请求;
可以理解的是,本发明实施例的数据获取请求中携带应用待获取的数据的一些必要信息,例如可以是待获取的数据的唯一标识,或者待获取数据的存储。
S102、根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
Elasticsearch是一种非关系型数据库,也是一个接近实时的搜索平台,从索引文档到文档能够被搜索到,只有一个轻微的延迟,更是采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具。其具有可拓展优势:支持一主多从且扩容简易,只要cluster.name一致且在同一个网络中就能自动加入当前集群;本身就是开源软件,也支持很多开源的第三方插件;还具有高可用优势:在一个集群的多个节点中进行分布式存储,索引支持shards和复制,即使部分节点down掉,也能自动进行数据恢复和主从切换。
Hadoop集群是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop集群实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
Spark处理框架是一个围绕速度、易用性和复杂分析构建的大数据处理框架,Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。经验证Spark处理框架可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。
需要说明的是,本发明实施例采用Hadoop集群存储原始数据实现数据湖功能,Hadoop集群实现任意规模的结构化和非结构化数据的存储,从而在使用较少的初始工作的情况下提供更大的灵活性,配合Spark处理框架以及Elasticsearch数据库,以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。
在上述各实施例的基础上,作为一种可选实施例,所述接收应用上传的数据获取请求,之前还包括:
创建所述Hadoop集群和所述Spark处理框架;
将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中。
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输,即任何对企业有价值的数据都可以先存储在数据湖中,本发明实施例将Hadoop集群作为数据湖。
当应用的具体业务场景确定后,Spark处理框架根据应用的需要,解析Hadoop集群中的原始数据,这样就实现了先数据存储后定义架构的目的,而传统的数据库一般都是存储的结构化数据,需要先定义好数据结构,再根据数据格式进行存储,相当于先对于原始数据进行一次处理后再存储,而本发明实施例用Hadoop集群实现的数据湖可以先存储结构化或非机构化的原始数据。
Spark处理框架具体的处理规则与应用的需求有关,比如原始数据为日志数据,应用的需求是统计某一天的数据,Spark处理框架的处理规则为以天为单位收集日志数据,放入Elasticsearch数据库。本发明实施例中应用的需求是预先确定的,因此可以根据应用的需求对应设置好Spark处理框架的处理规则。
在上述各实施例的基础上,作为一种可选实施例,所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。
Clouder Manager工具是一种CDH(大数据平台,Cloudera’s DistributionIncluding Apache Hadoop)管理软件,用于管理安装软件、配置、启动和停止服务,以及集群UI页面展示。本发明实施例借助Clouder Manager工具对Hadoop集群和Spark处理框架进行管理,减少了后续维护工作。
在上述各实施例的基础上,作为一种可选实施例,所述通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中,具体为:
编写数据处理程序,通过所述数据处理程序从Hadoop集群中读取原始数据,结合SparkSQL或SparkStream对提取的原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库;
将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行。
需要说明的是,本发明实施例在对Hadoop集群中的数据处理时需要创建数据处理程序,该程序具体用于:从Hadoop集群中读取原始数据,结合SparkSQL或SparkStream对提取的原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库。
SparkSQL是Spark用来处理结构化的一个模块,它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用。
SparkStream是一个准流式计算框架,SparkStream是准实时流计算框架,是微批处理,所以延迟度要比storm高,但吞吐量也比storm高,SparkStream支持动态调整资源,支持复杂的业务逻辑。
Spark-submit是在Spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序。Yarn是一个快速、可靠、安全的依赖管理工具。
通过将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行,数据处理程序会源源不断提供处理后数据到Elasticsearch数据库中。
在上述各实施例的基础上,作为一种可选实施例,将所述处理后的数据存储在所述Elasticsearch数据库中,具体为:
根据预设规则,对处理后的原始数据设置索引和类型,将处理后的原始数据的数据内容根据索引和类型存储在所述Elasticsearch数据库中。
索引和类型是Elasticsearch中的概念,index索引,可以理解为数据库;type类型可以理解成数据库的表,document可以理解为数据库的记录,是具体的数据内容。本发明实施例对存储在Elasticsearch数据库中的处理后的数据,预设确定对应的索引和类型的规则。
Elasticsearch数据库提供了一个基于RESTful web接口分布式多用户能力的全文搜索引擎,并且提供类似数据库SQL的query DSL(查询语言),可以在应用中直接通过GET、POST等形式基于index、type进行查询数据。比如获取一条特定数据:
http://127.0.0.1:9200/index1/type1/zt4EZ2kBd1GQfVSvgXBJ,其中index1即是根据预设规则预先定义好的index,type1也是预先定义好的type,zt4EZ2kBd1GQfVSvgXBJ是动态增长的记录,每条记录会生成一个唯一的id字段,这只是其中一种数据获取方式。
在RESTful架构中,应用使用POST,DELETE,PUT和GET四种请求方式分别对数据进行增删改查操作。
相应地,所述数据获取请求中记录待获取的数据的索引、类型和数据内容。
图2为本发明实施例提供的大数据处理装置的结构示意图,如图2所示,大数据处理装置包括请求获取模块201和数据下发模块202,具体的:
请求获取模块201,用于接收应用上传的数据获取请求;
数据下发模块202,用于根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得
本发明实施例提供的大数据处理装置,具体执行上述方法实施例流程,具体请详见上述大数据处理方法实施例的内容,在此不再赘述。本发明实施例提供的大数据处理装置,本发明实施例采用Hadoop集群存储原始数据实现数据湖功能,Hadoop集群实现任意规模的结构化和非结构化数据的存储,从而在使用较少的初始工作的情况下提供更大的灵活性,配合Spark处理框架以及Elasticsearch数据库,以较低的代价为用户提供一种基于大数据处理的快速响应系统架构模型。
在上述各实施例的基础上,作为一种可选实施例,大数据处理装置还包括:
创建模块,用于创建所述Hadoop集群和所述Spark处理框架;
处理模块,用于将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库中。
图3为本发明实施例提供的电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储在存储器330上并可在处理器310上运行的计算机程序,以执行上述各实施例提供的大数据处理方法,例如包括:接收应用上传的数据获取请求;根据所述数据获取请求,从预先创建Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的大数据处理方法,例如包括:接收应用上传的数据获取请求;根据所述数据获取请求,从预先创建Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种大数据处理方法,其特征在于,包括:
创建Hadoop集群和Spark处理框架;
将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在Elasticsearch数据库中;
接收应用上传的数据获取请求;
根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
2.根据权利要求1所述的大数据处理方法,其特征在于,所述Hadoop集群和Spark处理框架通过Clouder Manager工具进行创建。
3.根据权利要求1或2所述的大数据处理方法,其特征在于,所述通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在Elasticsearch数据库中,具体为:
编写数据处理程序,通过所述数据处理程序从Hadoop集群中读取原始数据,结合SparkSQL或SparkStream对提取的原始数据进行处理,将所述处理后的数据存储在所述Elasticsearch数据库;
将所述数据处理程序通过Spark-submit脚本和yarn管理器提交到Spark集群环境运行。
4.根据权利要求1所述的大数据处理方法,其特征在于,所述将所述处理后的数据存储在Elasticsearch数据库中,具体为:
根据预设规则,对处理后的原始数据设置索引和类型,将处理后的原始数据的数据内容根据索引和类型存储在所述Elasticsearch数据库中;
相应地,所述数据获取请求中记录待获取的数据的索引、类型和数据内容。
5.一种大数据处理装置,其特征在于,包括:
创建模块,用于创建Hadoop集群和Spark处理框架;
处理模块,用于将原始数据存储至所述Hadoop集群,通过所述Spark处理框架,根据预设处理规则对所述原始数据进行处理,将所述处理后的数据存储在Elasticsearch数据库中;
请求获取模块,用于接收应用上传的数据获取请求;
数据下发模块,用于根据所述数据获取请求,从预先创建的Elasticsearch数据库中搜索目标数据,将搜索到的所述目标数据下发至所述应用;
其中,所述Elasticsearch数据库中预先存储的数据由Spark处理框架对存储在Hadoop集群中的原始数据进行处理后获得。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述大数据处理方法的步骤。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4中任意一项所述的大数据处理方法的步骤。
CN202010398731.1A 2020-05-12 2020-05-12 大数据处理方法及装置 Active CN113656469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010398731.1A CN113656469B (zh) 2020-05-12 2020-05-12 大数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010398731.1A CN113656469B (zh) 2020-05-12 2020-05-12 大数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN113656469A CN113656469A (zh) 2021-11-16
CN113656469B true CN113656469B (zh) 2024-01-05

Family

ID=78488775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010398731.1A Active CN113656469B (zh) 2020-05-12 2020-05-12 大数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113656469B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468720A (zh) * 2015-11-20 2016-04-06 北京锐安科技有限公司 集成分布式数据处理系统的方法、相应系统及其数据处理方法
GB201615748D0 (en) * 2016-09-15 2016-11-02 Gb Gas Holdings Ltd System for importing data into a data repository
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN106649426A (zh) * 2016-08-05 2017-05-10 浪潮软件股份有限公司 一种数据分析方法和数据分析平台以及服务器
CN108874738A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式并行运算方法、装置、计算机设备及存储介质
CN109902114A (zh) * 2019-01-24 2019-06-18 中国平安人寿保险股份有限公司 Es集群数据复用方法、系统、计算机装置及存储介质
CN110704421A (zh) * 2018-06-22 2020-01-17 中兴通讯股份有限公司 数据处理方法、装置、设备和计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201615747D0 (en) * 2016-09-15 2016-11-02 Gb Gas Holdings Ltd System for data management in a large scale data repository

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468720A (zh) * 2015-11-20 2016-04-06 北京锐安科技有限公司 集成分布式数据处理系统的方法、相应系统及其数据处理方法
CN106649426A (zh) * 2016-08-05 2017-05-10 浪潮软件股份有限公司 一种数据分析方法和数据分析平台以及服务器
GB201615748D0 (en) * 2016-09-15 2016-11-02 Gb Gas Holdings Ltd System for importing data into a data repository
CN106649455A (zh) * 2016-09-24 2017-05-10 孙燕群 一种大数据开发的标准化系统归类、命令集系统
CN108874738A (zh) * 2018-06-05 2018-11-23 中国平安人寿保险股份有限公司 分布式并行运算方法、装置、计算机设备及存储介质
CN110704421A (zh) * 2018-06-22 2020-01-17 中兴通讯股份有限公司 数据处理方法、装置、设备和计算机可读存储介质
CN109902114A (zh) * 2019-01-24 2019-06-18 中国平安人寿保险股份有限公司 Es集群数据复用方法、系统、计算机装置及存储介质

Also Published As

Publication number Publication date
CN113656469A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
US11093466B2 (en) Incremental out-of-place updates for index structures
Das et al. Big data analytics: A framework for unstructured data analysis
US20190188190A1 (en) Scaling stateful clusters while maintaining access
US10783124B2 (en) Data migration in a networked computer environment
CN109063196B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN108536778B (zh) 一种数据应用共享平台及方法
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN104778270A (zh) 一种用于多文件的存储方法
CN111858760B (zh) 一种异构数据库的数据处理方法及装置
Siddiqui et al. Pseudo-cache-based IoT small files management framework in HDFS cluster
CN111881326A (zh) 一种图数据存储方法、装置、设备及可读存储介质
CN111723161A (zh) 一种数据处理方法、装置及设备
CN113609374A (zh) 基于内容推送的数据处理方法、装置、设备及存储介质
CN116166191A (zh) 湖仓一体系统
US11704327B2 (en) Querying distributed databases
CN108319604B (zh) 一种hive中大小表关联的优化方法
US8874682B2 (en) Composite graph cache management
Xie et al. On massive spatial data retrieval based on spark
CN113656469B (zh) 大数据处理方法及装置
KR20160050930A (ko) 대용량 분산 파일 시스템에서 데이터의 수정을 포함하는 트랜잭션 처리 장치 및 컴퓨터로 읽을 수 있는 기록매체
CN111814020A (zh) 一种数据的获取方法和装置
CN116775712A (zh) 联表查询方法、装置、电子设备、分布式系统和存储介质
US11727022B2 (en) Generating a global delta in distributed databases
CN113360319B (zh) 一种数据备份方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant