CN114201486A - 一种基于海量数据的分布式数据分析方法 - Google Patents

一种基于海量数据的分布式数据分析方法 Download PDF

Info

Publication number
CN114201486A
CN114201486A CN202010909207.6A CN202010909207A CN114201486A CN 114201486 A CN114201486 A CN 114201486A CN 202010909207 A CN202010909207 A CN 202010909207A CN 114201486 A CN114201486 A CN 114201486A
Authority
CN
China
Prior art keywords
data
distributed
partition
processing
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010909207.6A
Other languages
English (en)
Inventor
朱帅
刘博�
张鑫
于开进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Yupao Technology Co ltd
Original Assignee
Chengdu Yupao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Yupao Technology Co ltd filed Critical Chengdu Yupao Technology Co ltd
Priority to CN202010909207.6A priority Critical patent/CN114201486A/zh
Publication of CN114201486A publication Critical patent/CN114201486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于海量数据的分布式数据分析方法,所述方法包括:对于异构数据流用多维向量组表示,并对数据流多维向量组构建索引,基于同异步组合模式进行分层数据采集,对采集的数据进行多分区队列的数据缓存和流处理,将数据存储于抽象访问的数据虚拟分区,并通过构建批量模式的分层索引进行数据查询。本发明提出了一种基于海量数据的分布式数据分析方法,采用多核架构的解决方案,实现了在虚拟环境中的高可靠性的数据保护,并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

Description

一种基于海量数据的分布式数据分析方法
技术领域
本发明涉及大数据,特别涉及一种基于海量数据的分布式数据分析方法。
背景技术
海量的个人计算机、智能手机和智能装置的用户数据对云平台的虚拟化服务器的数据流处理性能具有大幅需求。对来自不同移动终端的复杂数据流处理需进行服务内容的差异化和安全化。已有技术采用分层式服务功能,进行各个数据流服务内容的差异化处理。但软件设计持续的发展使开发和整合变得困难,导致阻碍了多核架构解决方案的实施。虚拟化使传统的网络安全措施无法在虚拟环境中提供保护。这是因为在服务器和存储子系统的路径缺乏的保护功能。为在云端增强安全等级,传统方案在隔离的区域中实现运算服务,提供动态和静态默认的数据加密,通过虚拟存储管控数据。但随着云平台的因为高密度的虚拟机和移动终端服务,云平台的架构产生了大幅度改变。新服务造成的网络和宽带I/O瓶颈为服务整合、存储、网络管理的新问题,成为云平台和公共云端运算平台的重大挑战。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于海量数据的分布式数据分析方法,包括:
对于异构数据流用多维向量组表示,并对数据流多维向量组构建索引,基于同异步组合模式进行分层数据采集,对采集的数据进行多分区队列的数据缓存和流处理,将数据存储于抽象访问的数据虚拟分区,并通过构建批量模式的分层索引进行数据查询。
优选地,所述多维向量组包括源地址、目的地址、协议、源端口、目的端口。
优选地,所述同异步组合模式的分层架构中,前一级以异步模式向后一级分发数据,后一级以同步模式进行数据的任务处理,两者通过队列进行信息交互。
优选地,一级虚拟化服务器集群将多条双向链路流量接入,对数据包进行过滤,丢弃不需要分析的报文,并根据预设规则对流量进行负载均衡分流。在对流量采集后,将根据多维向量组,通过Hash运算将数据转发到后端的二级虚拟化服务器集群,并使得同一个包的数据转到同一个应用服务器之上;
二级虚拟化服务器集群释放服务器计算资源,加速网络流量处理。在集群的节点分布上,根据异构数据流的不同类型,用不同的应用服务器处理不同类型的流量,网络适配器在收到数据包时,直接将数据存入到用户态空间中以供应用调用,减少从内核态空间拷贝的开销;
三级虚拟化服务器集群从前级处理中获取异构数据流,将多维向量数据和报文数据组成报文结构体,序列化到虚拟化云端分布式数据处理系统中。
优选地,将消息队列拆分为多个分区,并使每个分区位于不同的物理机上,在海量数据量的情况下通过增加分布式缓存的分区数,使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。
优选地,所述将数据存储于抽象访问的数据虚拟分区,进一步包括:
云平台采用所述中间件的架构方式,将底层的存储系统进行组织管理;所述虚拟化云端分布式数据处理系统的每个应用服务器包含多个虚拟分区;将分区表进行存储划分时,每个表在定义时指定一个节点组,包含多个数据节点;采用数据划分的数据表的存储可以分为分区、节点和节点组的三层包含关系;处理器簇的每个核对应一个以上分区,在运行过程中根据不同的负载模式做相应的调度策略。
优选地,所述底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于海量数据的分布式数据分析方法,采用多核架构的解决方案,实现了在虚拟环境中的高可靠性的数据保护,并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。
附图说明
图1是根据本发明实施例的基于海量数据的分布式数据分析方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
本发明的一方面提供了一种基于海量数据的分布式数据分析方法。图1是根据本发明实施例的基于海量数据的分布式数据分析方法流程图。
本发明的虚拟化云端分布式数据处理系统使用多任务集群执行分布式数据的应用处理,所述多任务集群包括或多个核心,配置以执行多任务操作系统并使用多任务指令集。所述虚拟化云端分布式数据处理系统耦合于第一多核处理器簇,第一多核处理器簇将数据传送至通过接口启动的云端虚拟化分布式数据处理系统。当云端虚拟化分布式数据处理系统相耦合的第二多核处理器簇执行远程指令时,所述第二多核处理器簇由云端虚拟化分布式数据处理系统内的实时内核引擎所控制,可使第二多核处理器簇接收服务的请求,提供所请求的服务,并通过远程指令将完成服务的结果指示反馈至第一多核处理器簇。所述多任务集群中的第一集群由虚拟化服务器系统管理,所述多任务集群中的第二集群由多任务VMM或多核的多任务操作系统管理。
所述虚拟化云端分布式数据处理系统执行实时业务组,所述业务组包括多个核心,配置以执行一个实时内核引擎和/或使用实时指令集,其中所述实时指令集包括或多个I/O模块。
优选地,执行实时业务组之前,需要将应用的业务分类解析成实时或非实时处理过程;在多任务处理器簇中对所述实时业务组进行处理;并将来自实时业务组的实时处理结果提供给多任务集群。
应用服务器进行数据流处理和执行安全逻辑时,云端虚拟化分布式数据处理系统拦截应用服务器的请求并提供服务,所述服务通过中间件和代理传递。在一个实施例中,中间件和代理与云端虚拟化分布式数据处理系统进行通信。根据具体实施例,云端虚拟化分布式数据处理系统包括硬件卡板,所述硬件卡板具有多核处理器簇和堆栈层,堆栈层包括网络接口代理、实时内核引擎和控制/数据层。云端虚拟化分布式数据处理系统进一步包括安全软件支持和应用层服务器代理。中间件和代理与服务请求相关的应用服务器代理进行通信,应用服务器的代理与实时系统、控制/数据层和网络接口代理通信。
根据具体实施例,本发明通过多核多任务处理器簇,提供控制/数据层的快速和慢速路径网络服务。快速路径整合大量的一致性协议。高速处理模块处理快速路径或数据层中的数据。软件堆栈层通过多处理器簇核心处理数据层的任务,其处理模块设计用于处理慢速路径或控制层上的数据流。
多核处理器簇具有数据流处理和服务硬件加速单元。应用层的服务器代理可提供不同的应用,多个应用由中间件进行代理,并传送至应用服务器代理,即代表应用服务器来响应服务的请求。云端虚拟化分布式数据处理系统使用应用层的服务器代理执行未来将可提供的安全逻辑。提出服务请求后,应用服务器通过网络接口或通过中间件代理传送至应用层的服务器代理。一旦新的应用需要服务,新的应用即可传送到应用层服务器的代理中,并通过远程指令将完成服务的指示返回给第一多核处理器簇。
本发明的另一方面将虚拟和实体多核处理器簇系统整合于实体服务器或虚拟服务器的环境中,由此启动虚拟机的监控功能,在不同的虚拟机层或实体系统层中执行安全策略,虚拟软件应用整合所提供的安全数据流处理模块、实体安全软件数据流处理模块。
本发明包括整合于云平台中的分布式实时运算模块,分布式实时运算集群可进行垂直和水平的扩展,相同多核处理器簇进行同构型架构的垂直扩展,不同的多核功能进行异构的水平扩展。
所述数据层是分布式节点的子系统,用于接收和传送来自接口的数据流,通过路由器法定义收到的数据流,在中继表中确定特定的键值和用于确定此键值的路由功能的正确策略。控制层维护的信息可用于变更数据层所使用的数据,控制层包括或多个路由一致性协议,所述一致性协议可进行路由器间的交互,路由器可将此信息转换成中继表的内容。数据层一旦侦测到数据流,则分别转发到控制层,让路由一致性协议计算新的路由,以增加或删除路由。使用新信息进行中继表的更新。
所有的分布式数据处理系统使用相同或不同的多核处理器簇以运行实时内核引擎。所有的系统通过处理器间的通信链接或共享内存进行通信。
应用服务器的虚拟化时涉及多个虚拟化的主机。虚拟主机具有通过主机VMM运行和管理的不同的虚拟机,各个虚拟机的运行包括操作系统和应用。每个虚拟机运行于多核处理器簇和内存中,请求进行数据流和/或安全应用的处理。多核处理器簇和内存、VMM使用网络适配器进行通信。在部署云端虚拟化分布式数据处理系统时,虚拟化系统中的中间件即软件基础设施的一部分,与云端虚拟化分布式数据处理系统和VMM进行通信。实时系统的中间件将所有的服务请求或来自系统中的API转换成不同的虚拟机。实时VMM除管理虚拟机外,还用于处理资源的调度和配置,协调处理器簇的多个核心,将来自其他处理器簇的服务请求分配给实时VMM所管理的处理器簇中的多核所执行的虚拟机。所述云端虚拟化分布式数据处理系统的硬件卡板还包括具有虚拟机支持的接口和多个安全处理虚拟机和数据流处理虚拟机。VMM使用的中间件与虚拟机支持器接口链接至不同的虚拟机单元和多核处理器簇使用的硬件驱动程序,用于控制云端虚拟化分布式数据处理系统所需的任何硬件模块。
多个安全处理虚拟机SV1、SV2…SVn和数据流处理虚拟机单元DST1、DST2…DSTn存储于多核处理器簇的内存中,并通过内建VMM启动。在虚拟机请求执行数据流处理和安全逻辑时,传送请求给接口。中间件将服务请求转换成接口用的服务请求,在接口收到请求后,可启动DST1…DSTn发布网络访问的请求。对于安全虚拟机SV1…SVn,若虚拟机请求安全逻辑的服务时,中间件转换成接口的请求,通过接口的中间件启动虚拟机SV1…SVn
进一步地,所述数据层对于异构数据流用多维向量组表示:源地址、目的地址、协议、源端口、目的端口,并对数据流多维向量组构建索引,可对数据流进行快速查询与检索。为实现对异构数据流处理的实时性,本发明采用基于同异步组合模式的分层数据采集、基于多分区队列的数据缓存和流处理、基于抽象访问的数据虚拟分区存储、基于批量构建模式的分层索引数据查询,提升整体处理能力。
所述同异步组合模式的分层架构中,前一级以异步模式向后一级分发数据,后一级以同步模式进行数据的任务处理,两者通过队列进行信息交互。同异步相结合整体提升了系统的并行度,以应对大规模数据处理并行的要求。
一级虚拟化服务器集群将多条双向链路流量接入,对数据包进行过滤,丢弃不需要分析的报文,并根据预设规则对流量进行负载均衡分流。在对流量采集后,将根据多维向量组,通过Hash运算将数据转发到后端的二级虚拟化服务器集群,并使得同一个包的数据转到同一个应用服务器之上。二级虚拟化服务器集群释放服务器计算资源,加速网络流量处理。在集群的节点分布上,根据异构数据流的不同类型,用不同的应用服务器处理不同类型的流量,网络适配器在收到数据包时,直接将数据存入到用户态空间中以供应用调用,从而减少从内核态空间拷贝的开销。三级虚拟化服务器集群从前级处理中获取异构数据流,将多维向量数据和报文数据组成报文结构体,序列化到虚拟化云端分布式数据处理系统中。
为了保障数据采集后的可靠性和吞吐量,将消息队列拆分为多个分区,并使每个分区位于不同的物理机上,以保证物理机读写的连续性。在海量数据量的情况下通过增加分布式缓存的分区数,使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。
网络异构数据流通常涉及结构化数据和非结构化数据,因此本发明优选的实施例采用基于抽象访问的虚拟分区进行数据组织,用于支持不同场景的存储需求,底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。云平台采用所述中间件的架构方式,将底层的存储系统进行组织管理。
为了适应服务节点数的动态扩展,所述虚拟化云端分布式数据处理系统的每个应用服务器包含多个虚拟分区。将分区表进行存储划分时,每个表在定义时指定一个节点组,包含多个数据节点。采用数据划分的数据表的存储可以分为分区、节点和节点组的三层包含关系。处理器簇的每个核对应一个以上分区,在运行过程中根据不同的负载模式做相应的调度策略,使得每个处理器簇核都能分配到对应任务。
当系统规模扩大,例如向节点组中增加新节点时,需要对在线数据进行迁移,以保证节点组内各节点间的数据均衡。采用虚拟分区技术,数据迁移时只需将一定数量的分区整体迁移到新增节点,保证节点间的最小数据迁移量。
所述虚拟化云端分布式数据处理系统以分布式列式数据库为存储载体,利用全文搜索引擎为数据建立二级索引,通过异步批处理进行数据的会话合并和索引构建的整体方案,来应对大数据量的查询。
为了支持异构数据流的快速查询,以源地址+目的地址+协议+源端口+目的端口+时间戳为组合的行键。数据流的报文ID为唯一字段,可与行键一致,源地址、目的地址、协议、源端口、目的端口、时间为索引字段,根据任意条件组合的索引字段查询到报文ID,再根据报文ID从数据库中获取报文内容。采用异步批处理模式,将文件系统中数据包结构的数据仓库文件合并为会话结构的分布式文件系统的文件,并根据索引字段对分布式文件系统的文件生成搜索引擎的索引文件,直接导入搜索引擎。而在对数据流建立索引的过程中,基于时间窗口将多维向量相同的报文合并成一条会话,所述会话记录了报文的多维向量组、起始时间、结束时间、报文数量。
所述云端虚拟化分布式数据处理系统进一步包括多维认证模块,和通用门户模块,实现用户态的异构数据存储的监听;多维认证模块用于验证接口端是否具有监听授权,以及执行用户权限认证;异构分布式数据库用于记录用户的登录记录以及监听记录;通用门户模块解译用户传来的监听请求,转换为所述异构分布式数据库的查询语言,并将后台异构分布式数据库返回的结果转换为标准格式以提供所述用户接口访问。
云平台用户通过所述用户接口连接所述多维认证模块,通过元数据确认用户的权限,所述多维认证模块在认证后,将监听请求转发至通用门户模块,所述通用门户模块将监听请求转换后,转发至所述异构分布式数据库,并等待所述异构分布式数据库返回监听结果,最后所述通用门户模块将所述异构分布式数据库所返回的监听结果返回至所述用户接口,完成监听业务。
所述多维认证模块进一步包括凭证认证子模块、用户权限认证子模块和用户认证子模块。凭证认证子模块用于确认所述用户接口是合法的接口端,所述用户接口在所传送的监听请求中包含了认证密钥,而所述凭证认证子模块检查并认证用户接口所传送的监听请求中是否包含合法的密钥。
当监听请求通过所述用户凭证认证子模块和所述用户权限认证子模块后,所述用户认证子模块将检查所述用户是否属于具有监听权限的数据表,在每次处理监听请求前,对比用户请求与所述元数据中的权限,如果用户未在监听权限内的数据表中,系统拒绝其监听请求。
监听请求在通过用户认证后,通过所述通用门户模块获取数据并返回,所述通用门户模块将所述监听请求解译后,根据不同的云端存储子系统类型,产生其对应的语法格式,以解决异构分布式数据库的差异问题。
所述通用门户模块进一步包括监听请求解析模块、连接查询模块和结果转换模块,请求解析模块根据不同的云端存储子系统类型产生其对应语法格式;当监听请求解析模块将URL解译为符合所述云端存储子系统监听语法格式后,即通过中间件向后台云端存储子系统进行监听,并返回结果给用户。
在所述监听请求解析模块解译用户的监听请求后,由所述连接查询模块向所述异构分布式数据库进行监听动作,将解译完成的云端存储子系统的语法格式传递至对应云端存储子系统进行监听,并等待云端存储子系统端返回监听结果;当收到所述对应云端存储子系统返回的结果后,结果转换模块将所述云端存储子系统返回的结果转换成用于传递的格式,再返回至用户。
综上所述,本发明提出了一种基于海量数据的分布式数据分析方法,采用多核架构的解决方案,实现了在虚拟环境中的高可靠性的数据保护,并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在云存储平台中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (7)

1.一种基于海量数据的分布式数据分析方法,其特征在于,包括:
对于异构数据流用多维向量组表示,并对数据流多维向量组构建索引,基于同异步组合模式进行分层数据采集,对采集的数据进行多分区队列的数据缓存和流处理,将数据存储于抽象访问的数据虚拟分区,并通过构建批量模式的分层索引进行数据查询。
2.根据权利要求1所述的方法,其特征在于,所述多维向量组包括源地址、目的地址、协议、源端口、目的端口。
3.根据权利要求1所述的方法,其特征在于,所述同异步组合模式的分层架构中,前一级以异步模式向后一级分发数据,后一级以同步模式进行数据的任务处理,两者通过队列进行信息交互。
4.根据权利要求3所述的方法,其特征在于,进一步包括:
一级虚拟化服务器集群将多条双向链路流量接入,对数据包进行过滤,丢弃不需要分析的报文,并根据预设规则对流量进行负载均衡分流。在对流量采集后,将根据多维向量组,通过Hash运算将数据转发到后端的二级虚拟化服务器集群,并使得同一个包的数据转到同一个应用服务器之上;
二级虚拟化服务器集群释放服务器计算资源,加速网络流量处理。在集群的节点分布上,根据异构数据流的不同类型,用不同的应用服务器处理不同类型的流量,网络适配器在收到数据包时,直接将数据存入到用户态空间中以供应用调用,减少从内核态空间拷贝的开销;
三级虚拟化服务器集群从前级处理中获取异构数据流,将多维向量数据和报文数据组成报文结构体,序列化到虚拟化云端分布式数据处理系统中。
5.根据权利要求1所述的方法,其特征在于,进一步包括:
将消息队列拆分为多个分区,并使每个分区位于不同的物理机上,在海量数据量的情况下通过增加分布式缓存的分区数,使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。
6.根据权利要求1所述的方法,其特征在于,所述将数据存储于抽象访问的数据虚拟分区,进一步包括:
云平台采用所述中间件的架构方式,将底层的存储系统进行组织管理;所述虚拟化云端分布式数据处理系统的每个应用服务器包含多个虚拟分区;将分区表进行存储划分时,每个表在定义时指定一个节点组,包含多个数据节点;采用数据划分的数据表的存储可以分为分区、节点和节点组的三层包含关系;处理器簇的每个核对应一个以上分区,在运行过程中根据不同的负载模式做相应的调度策略。
7.根据权利要求6所述的方法,其特征在于,所述底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。
CN202010909207.6A 2020-09-02 2020-09-02 一种基于海量数据的分布式数据分析方法 Pending CN114201486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010909207.6A CN114201486A (zh) 2020-09-02 2020-09-02 一种基于海量数据的分布式数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010909207.6A CN114201486A (zh) 2020-09-02 2020-09-02 一种基于海量数据的分布式数据分析方法

Publications (1)

Publication Number Publication Date
CN114201486A true CN114201486A (zh) 2022-03-18

Family

ID=80644353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010909207.6A Pending CN114201486A (zh) 2020-09-02 2020-09-02 一种基于海量数据的分布式数据分析方法

Country Status (1)

Country Link
CN (1) CN114201486A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409016A (zh) * 2022-09-21 2022-11-29 上海夺畅网络技术有限公司 一种跨境电商申报结果核对预警方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409016A (zh) * 2022-09-21 2022-11-29 上海夺畅网络技术有限公司 一种跨境电商申报结果核对预警方法和装置

Similar Documents

Publication Publication Date Title
US9727590B2 (en) Data management and indexing across a distributed database
US6324581B1 (en) File server system using file system storage, data movers, and an exchange of meta data among data movers for file locking and direct access to shared file systems
US6453354B1 (en) File server system using connection-oriented protocol and sharing data sets among data movers
US20060048157A1 (en) Dynamic grid job distribution from any resource within a grid environment
CN112214338A (zh) 一种基于微服务灵活部署的物联网云平台
US11388164B2 (en) Distributed application programming interface whitelisting
CN108536778B (zh) 一种数据应用共享平台及方法
CN110162559B (zh) 一种基于通用json同步和异步数据api接口调用的区块链处理方法
CN108063813B (zh) 一种集群环境下密码服务网络并行化的方法与系统
CN113596117B (zh) 实时数据处理方法、系统、设备及介质
CN108737527B (zh) 一种适用于平台大规模用户访问方法及系统
Zhong et al. The design and implementation of KODAMA system
CN110781505B (zh) 系统构建方法及装置、检索方法及装置、介质和设备
CN115695139A (zh) 一种基于分布式鲁棒增强微服务系统架构的方法
CN109542583A (zh) 一种基于双总线的虚拟设备管理方法
CN114201486A (zh) 一种基于海量数据的分布式数据分析方法
Zarei et al. Past, present and future of Hadoop: A survey
CN113032356A (zh) 一种客舱分布式文件存储系统及实现方法
Yang et al. High-performance docker integration scheme based on OpenStack
Maalla et al. The Construction of Heterogeneous Platform of Unified Service System Based on Cloud Computing [J]
US20230176913A1 (en) Cross-domain cabin computing system and method based on data resource distribution
WO2021232860A1 (zh) 通信方法、装置及系统
Carver et al. λFS: A Scalable and Elastic Distributed File System Metadata Service using Serverless Functions
CN116954810A (zh) 容器应用实例的创建方法、系统、存储介质及程序产品
CN111294383B (zh) 物联网服务管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination