CN114201486A

CN114201486A - 一种基于海量数据的分布式数据分析方法

Info

Publication number: CN114201486A
Application number: CN202010909207.6A
Authority: CN
Inventors: 朱帅; 刘博�; 张鑫; 于开进
Original assignee: Chengdu Yupao Technology Co ltd
Current assignee: Chengdu Yupao Technology Co ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2022-03-18

Abstract

本发明提供了一种基于海量数据的分布式数据分析方法，所述方法包括：对于异构数据流用多维向量组表示，并对数据流多维向量组构建索引，基于同异步组合模式进行分层数据采集，对采集的数据进行多分区队列的数据缓存和流处理，将数据存储于抽象访问的数据虚拟分区，并通过构建批量模式的分层索引进行数据查询。本发明提出了一种基于海量数据的分布式数据分析方法，采用多核架构的解决方案，实现了在虚拟环境中的高可靠性的数据保护，并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

Description

一种基于海量数据的分布式数据分析方法

技术领域

本发明涉及大数据，特别涉及一种基于海量数据的分布式数据分析方法。

背景技术

海量的个人计算机、智能手机和智能装置的用户数据对云平台的虚拟化服务器的数据流处理性能具有大幅需求。对来自不同移动终端的复杂数据流处理需进行服务内容的差异化和安全化。已有技术采用分层式服务功能，进行各个数据流服务内容的差异化处理。但软件设计持续的发展使开发和整合变得困难，导致阻碍了多核架构解决方案的实施。虚拟化使传统的网络安全措施无法在虚拟环境中提供保护。这是因为在服务器和存储子系统的路径缺乏的保护功能。为在云端增强安全等级，传统方案在隔离的区域中实现运算服务，提供动态和静态默认的数据加密，通过虚拟存储管控数据。但随着云平台的因为高密度的虚拟机和移动终端服务，云平台的架构产生了大幅度改变。新服务造成的网络和宽带I/O瓶颈为服务整合、存储、网络管理的新问题，成为云平台和公共云端运算平台的重大挑战。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于海量数据的分布式数据分析方法，包括：

对于异构数据流用多维向量组表示，并对数据流多维向量组构建索引，基于同异步组合模式进行分层数据采集，对采集的数据进行多分区队列的数据缓存和流处理，将数据存储于抽象访问的数据虚拟分区，并通过构建批量模式的分层索引进行数据查询。

优选地，所述多维向量组包括源地址、目的地址、协议、源端口、目的端口。

优选地，所述同异步组合模式的分层架构中，前一级以异步模式向后一级分发数据，后一级以同步模式进行数据的任务处理，两者通过队列进行信息交互。

优选地，一级虚拟化服务器集群将多条双向链路流量接入，对数据包进行过滤，丢弃不需要分析的报文，并根据预设规则对流量进行负载均衡分流。在对流量采集后，将根据多维向量组，通过Hash运算将数据转发到后端的二级虚拟化服务器集群，并使得同一个包的数据转到同一个应用服务器之上；

二级虚拟化服务器集群释放服务器计算资源，加速网络流量处理。在集群的节点分布上，根据异构数据流的不同类型，用不同的应用服务器处理不同类型的流量，网络适配器在收到数据包时，直接将数据存入到用户态空间中以供应用调用，减少从内核态空间拷贝的开销；

三级虚拟化服务器集群从前级处理中获取异构数据流，将多维向量数据和报文数据组成报文结构体，序列化到虚拟化云端分布式数据处理系统中。

优选地，将消息队列拆分为多个分区，并使每个分区位于不同的物理机上，在海量数据量的情况下通过增加分布式缓存的分区数，使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。

优选地，所述将数据存储于抽象访问的数据虚拟分区，进一步包括：

云平台采用所述中间件的架构方式，将底层的存储系统进行组织管理；所述虚拟化云端分布式数据处理系统的每个应用服务器包含多个虚拟分区；将分区表进行存储划分时，每个表在定义时指定一个节点组，包含多个数据节点；采用数据划分的数据表的存储可以分为分区、节点和节点组的三层包含关系；处理器簇的每个核对应一个以上分区，在运行过程中根据不同的负载模式做相应的调度策略。

优选地，所述底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。。

本发明相比现有技术，具有以下优点：

本发明提出了一种基于海量数据的分布式数据分析方法，采用多核架构的解决方案，实现了在虚拟环境中的高可靠性的数据保护，并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

附图说明

图1是根据本发明实施例的基于海量数据的分布式数据分析方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种基于海量数据的分布式数据分析方法。图1是根据本发明实施例的基于海量数据的分布式数据分析方法流程图。

本发明的虚拟化云端分布式数据处理系统使用多任务集群执行分布式数据的应用处理，所述多任务集群包括或多个核心，配置以执行多任务操作系统并使用多任务指令集。所述虚拟化云端分布式数据处理系统耦合于第一多核处理器簇，第一多核处理器簇将数据传送至通过接口启动的云端虚拟化分布式数据处理系统。当云端虚拟化分布式数据处理系统相耦合的第二多核处理器簇执行远程指令时，所述第二多核处理器簇由云端虚拟化分布式数据处理系统内的实时内核引擎所控制，可使第二多核处理器簇接收服务的请求，提供所请求的服务，并通过远程指令将完成服务的结果指示反馈至第一多核处理器簇。所述多任务集群中的第一集群由虚拟化服务器系统管理，所述多任务集群中的第二集群由多任务VMM或多核的多任务操作系统管理。

所述虚拟化云端分布式数据处理系统执行实时业务组，所述业务组包括多个核心，配置以执行一个实时内核引擎和/或使用实时指令集，其中所述实时指令集包括或多个I/O模块。

优选地，执行实时业务组之前，需要将应用的业务分类解析成实时或非实时处理过程；在多任务处理器簇中对所述实时业务组进行处理；并将来自实时业务组的实时处理结果提供给多任务集群。

应用服务器进行数据流处理和执行安全逻辑时，云端虚拟化分布式数据处理系统拦截应用服务器的请求并提供服务，所述服务通过中间件和代理传递。在一个实施例中，中间件和代理与云端虚拟化分布式数据处理系统进行通信。根据具体实施例，云端虚拟化分布式数据处理系统包括硬件卡板，所述硬件卡板具有多核处理器簇和堆栈层，堆栈层包括网络接口代理、实时内核引擎和控制/数据层。云端虚拟化分布式数据处理系统进一步包括安全软件支持和应用层服务器代理。中间件和代理与服务请求相关的应用服务器代理进行通信，应用服务器的代理与实时系统、控制/数据层和网络接口代理通信。

根据具体实施例，本发明通过多核多任务处理器簇，提供控制/数据层的快速和慢速路径网络服务。快速路径整合大量的一致性协议。高速处理模块处理快速路径或数据层中的数据。软件堆栈层通过多处理器簇核心处理数据层的任务，其处理模块设计用于处理慢速路径或控制层上的数据流。

多核处理器簇具有数据流处理和服务硬件加速单元。应用层的服务器代理可提供不同的应用，多个应用由中间件进行代理，并传送至应用服务器代理，即代表应用服务器来响应服务的请求。云端虚拟化分布式数据处理系统使用应用层的服务器代理执行未来将可提供的安全逻辑。提出服务请求后，应用服务器通过网络接口或通过中间件代理传送至应用层的服务器代理。一旦新的应用需要服务，新的应用即可传送到应用层服务器的代理中，并通过远程指令将完成服务的指示返回给第一多核处理器簇。

本发明的另一方面将虚拟和实体多核处理器簇系统整合于实体服务器或虚拟服务器的环境中，由此启动虚拟机的监控功能，在不同的虚拟机层或实体系统层中执行安全策略，虚拟软件应用整合所提供的安全数据流处理模块、实体安全软件数据流处理模块。

本发明包括整合于云平台中的分布式实时运算模块，分布式实时运算集群可进行垂直和水平的扩展，相同多核处理器簇进行同构型架构的垂直扩展，不同的多核功能进行异构的水平扩展。

所述数据层是分布式节点的子系统，用于接收和传送来自接口的数据流，通过路由器法定义收到的数据流，在中继表中确定特定的键值和用于确定此键值的路由功能的正确策略。控制层维护的信息可用于变更数据层所使用的数据，控制层包括或多个路由一致性协议，所述一致性协议可进行路由器间的交互，路由器可将此信息转换成中继表的内容。数据层一旦侦测到数据流，则分别转发到控制层，让路由一致性协议计算新的路由，以增加或删除路由。使用新信息进行中继表的更新。

所有的分布式数据处理系统使用相同或不同的多核处理器簇以运行实时内核引擎。所有的系统通过处理器间的通信链接或共享内存进行通信。

应用服务器的虚拟化时涉及多个虚拟化的主机。虚拟主机具有通过主机VMM运行和管理的不同的虚拟机，各个虚拟机的运行包括操作系统和应用。每个虚拟机运行于多核处理器簇和内存中，请求进行数据流和/或安全应用的处理。多核处理器簇和内存、VMM使用网络适配器进行通信。在部署云端虚拟化分布式数据处理系统时，虚拟化系统中的中间件即软件基础设施的一部分，与云端虚拟化分布式数据处理系统和VMM进行通信。实时系统的中间件将所有的服务请求或来自系统中的API转换成不同的虚拟机。实时VMM除管理虚拟机外，还用于处理资源的调度和配置，协调处理器簇的多个核心，将来自其他处理器簇的服务请求分配给实时VMM所管理的处理器簇中的多核所执行的虚拟机。所述云端虚拟化分布式数据处理系统的硬件卡板还包括具有虚拟机支持的接口和多个安全处理虚拟机和数据流处理虚拟机。VMM使用的中间件与虚拟机支持器接口链接至不同的虚拟机单元和多核处理器簇使用的硬件驱动程序，用于控制云端虚拟化分布式数据处理系统所需的任何硬件模块。

多个安全处理虚拟机SV₁、SV₂…SV_n和数据流处理虚拟机单元DST₁、DST₂…DST_n存储于多核处理器簇的内存中，并通过内建VMM启动。在虚拟机请求执行数据流处理和安全逻辑时，传送请求给接口。中间件将服务请求转换成接口用的服务请求，在接口收到请求后，可启动DST₁…DST_n发布网络访问的请求。对于安全虚拟机SV₁…SV_n，若虚拟机请求安全逻辑的服务时，中间件转换成接口的请求，通过接口的中间件启动虚拟机SV₁…SV_n。

进一步地，所述数据层对于异构数据流用多维向量组表示：源地址、目的地址、协议、源端口、目的端口，并对数据流多维向量组构建索引，可对数据流进行快速查询与检索。为实现对异构数据流处理的实时性，本发明采用基于同异步组合模式的分层数据采集、基于多分区队列的数据缓存和流处理、基于抽象访问的数据虚拟分区存储、基于批量构建模式的分层索引数据查询，提升整体处理能力。

所述同异步组合模式的分层架构中，前一级以异步模式向后一级分发数据，后一级以同步模式进行数据的任务处理，两者通过队列进行信息交互。同异步相结合整体提升了系统的并行度，以应对大规模数据处理并行的要求。

一级虚拟化服务器集群将多条双向链路流量接入，对数据包进行过滤，丢弃不需要分析的报文，并根据预设规则对流量进行负载均衡分流。在对流量采集后，将根据多维向量组，通过Hash运算将数据转发到后端的二级虚拟化服务器集群，并使得同一个包的数据转到同一个应用服务器之上。二级虚拟化服务器集群释放服务器计算资源，加速网络流量处理。在集群的节点分布上，根据异构数据流的不同类型，用不同的应用服务器处理不同类型的流量，网络适配器在收到数据包时，直接将数据存入到用户态空间中以供应用调用，从而减少从内核态空间拷贝的开销。三级虚拟化服务器集群从前级处理中获取异构数据流，将多维向量数据和报文数据组成报文结构体，序列化到虚拟化云端分布式数据处理系统中。

为了保障数据采集后的可靠性和吞吐量，将消息队列拆分为多个分区，并使每个分区位于不同的物理机上，以保证物理机读写的连续性。在海量数据量的情况下通过增加分布式缓存的分区数，使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。

网络异构数据流通常涉及结构化数据和非结构化数据，因此本发明优选的实施例采用基于抽象访问的虚拟分区进行数据组织，用于支持不同场景的存储需求，底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。云平台采用所述中间件的架构方式，将底层的存储系统进行组织管理。

为了适应服务节点数的动态扩展，所述虚拟化云端分布式数据处理系统的每个应用服务器包含多个虚拟分区。将分区表进行存储划分时，每个表在定义时指定一个节点组，包含多个数据节点。采用数据划分的数据表的存储可以分为分区、节点和节点组的三层包含关系。处理器簇的每个核对应一个以上分区，在运行过程中根据不同的负载模式做相应的调度策略，使得每个处理器簇核都能分配到对应任务。

当系统规模扩大，例如向节点组中增加新节点时，需要对在线数据进行迁移，以保证节点组内各节点间的数据均衡。采用虚拟分区技术，数据迁移时只需将一定数量的分区整体迁移到新增节点，保证节点间的最小数据迁移量。

所述虚拟化云端分布式数据处理系统以分布式列式数据库为存储载体，利用全文搜索引擎为数据建立二级索引，通过异步批处理进行数据的会话合并和索引构建的整体方案，来应对大数据量的查询。

为了支持异构数据流的快速查询，以源地址+目的地址+协议+源端口+目的端口+时间戳为组合的行键。数据流的报文ID为唯一字段，可与行键一致，源地址、目的地址、协议、源端口、目的端口、时间为索引字段，根据任意条件组合的索引字段查询到报文ID，再根据报文ID从数据库中获取报文内容。采用异步批处理模式，将文件系统中数据包结构的数据仓库文件合并为会话结构的分布式文件系统的文件，并根据索引字段对分布式文件系统的文件生成搜索引擎的索引文件，直接导入搜索引擎。而在对数据流建立索引的过程中，基于时间窗口将多维向量相同的报文合并成一条会话，所述会话记录了报文的多维向量组、起始时间、结束时间、报文数量。

所述云端虚拟化分布式数据处理系统进一步包括多维认证模块，和通用门户模块，实现用户态的异构数据存储的监听；多维认证模块用于验证接口端是否具有监听授权，以及执行用户权限认证；异构分布式数据库用于记录用户的登录记录以及监听记录；通用门户模块解译用户传来的监听请求，转换为所述异构分布式数据库的查询语言，并将后台异构分布式数据库返回的结果转换为标准格式以提供所述用户接口访问。

云平台用户通过所述用户接口连接所述多维认证模块，通过元数据确认用户的权限，所述多维认证模块在认证后，将监听请求转发至通用门户模块，所述通用门户模块将监听请求转换后，转发至所述异构分布式数据库，并等待所述异构分布式数据库返回监听结果，最后所述通用门户模块将所述异构分布式数据库所返回的监听结果返回至所述用户接口，完成监听业务。

所述多维认证模块进一步包括凭证认证子模块、用户权限认证子模块和用户认证子模块。凭证认证子模块用于确认所述用户接口是合法的接口端，所述用户接口在所传送的监听请求中包含了认证密钥，而所述凭证认证子模块检查并认证用户接口所传送的监听请求中是否包含合法的密钥。

当监听请求通过所述用户凭证认证子模块和所述用户权限认证子模块后，所述用户认证子模块将检查所述用户是否属于具有监听权限的数据表，在每次处理监听请求前，对比用户请求与所述元数据中的权限，如果用户未在监听权限内的数据表中，系统拒绝其监听请求。

监听请求在通过用户认证后，通过所述通用门户模块获取数据并返回，所述通用门户模块将所述监听请求解译后，根据不同的云端存储子系统类型，产生其对应的语法格式，以解决异构分布式数据库的差异问题。

所述通用门户模块进一步包括监听请求解析模块、连接查询模块和结果转换模块，请求解析模块根据不同的云端存储子系统类型产生其对应语法格式；当监听请求解析模块将URL解译为符合所述云端存储子系统监听语法格式后，即通过中间件向后台云端存储子系统进行监听，并返回结果给用户。

在所述监听请求解析模块解译用户的监听请求后，由所述连接查询模块向所述异构分布式数据库进行监听动作，将解译完成的云端存储子系统的语法格式传递至对应云端存储子系统进行监听，并等待云端存储子系统端返回监听结果；当收到所述对应云端存储子系统返回的结果后，结果转换模块将所述云端存储子系统返回的结果转换成用于传递的格式，再返回至用户。

综上所述，本发明提出了一种基于海量数据的分布式数据分析方法，采用多核架构的解决方案，实现了在虚拟环境中的高可靠性的数据保护，并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在云存储平台中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于海量数据的分布式数据分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多维向量组包括源地址、目的地址、协议、源端口、目的端口。

3.根据权利要求1所述的方法，其特征在于，所述同异步组合模式的分层架构中，前一级以异步模式向后一级分发数据，后一级以同步模式进行数据的任务处理，两者通过队列进行信息交互。

4.根据权利要求3所述的方法，其特征在于，进一步包括：

一级虚拟化服务器集群将多条双向链路流量接入，对数据包进行过滤，丢弃不需要分析的报文，并根据预设规则对流量进行负载均衡分流。在对流量采集后，将根据多维向量组，通过Hash运算将数据转发到后端的二级虚拟化服务器集群，并使得同一个包的数据转到同一个应用服务器之上；

5.根据权利要求1所述的方法，其特征在于，进一步包括：

将消息队列拆分为多个分区，并使每个分区位于不同的物理机上，在海量数据量的情况下通过增加分布式缓存的分区数，使得采集数据分散到虚拟化云端分布式数据处理系统的各个应用服务器的各个物理机上。

6.根据权利要求1所述的方法，其特征在于，所述将数据存储于抽象访问的数据虚拟分区，进一步包括：

7.根据权利要求6所述的方法，其特征在于，所述底层存储包括关系型数据库、分布式数据库、分布式文件系统和文本检索系统的组合。