CN112068933B

CN112068933B - 一种实时分布式数据监听方法

Info

Publication number: CN112068933B
Application number: CN202010910210.XA
Authority: CN
Inventors: 朱帅; 刘博�; 张鑫; 于开进
Original assignee: Chengdu Yupao Technology Co Ltd
Current assignee: Chengdu Yupao Technology Co Ltd
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2021-08-10
Anticipated expiration: 2040-09-02
Also published as: CN112068933A

Abstract

本发明提供了一种实时分布式数据监听方法，所述方法包括：在扫描阶段对所收到的部分事务数据执行分类处理。对多个事务数据进行统计产生各数据项的累计次数，判断各数据项是否为频繁项；若确定某项数据为频繁项，将数据项及累计次数写入分布式区块文件；通过分布式区块文件记录所有频繁项及累计次数；在分析挖掘阶段从分布式区块文件中选择部分频繁项来建立特定数量的节点；根据分布式区块文件判断否为频繁序列模式数据。本发明提出了一种实时分布式数据监听方法，通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

Description

一种实时分布式数据监听方法

技术领域

本发明涉及大数据，特别涉及一种实时分布式数据监听方法。

背景技术

海量的个人计算机、智能手机和智能装置的用户数据对云平台的虚拟化服务器的数据流处理性能具有大幅需求。对来自不同移动终端的复杂数据流处理需进行服务内容的差异化和安全化。已有技术采用分层式服务功能，进行各个数据流服务内容的差异化处理。但软件设计持续的发展使开发和整合变得困难，导致阻碍了多核架构解决方案的实施。虚拟化使传统的网络安全措施无法在虚拟环境中提供保护。这是因为在服务器和存储子系统的路径缺乏的保护功能。为在云端增强安全等级，传统方案在隔离的区域中实现运算服务，提供动态和静态默认的数据加密，通过虚拟存储管控数据。但随着云平台的因为高密度的虚拟机和移动终端服务，云平台的架构产生了大幅度改变。新服务造成的网络和宽带I/O瓶颈为服务整合、存储、网络管理的新问题，成为云平台和公共云端运算平台的重大挑战。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种实时分布式数据监听方法，包括：

将多个虚拟机分别设定为多个映射虚拟机和多个规约虚拟机，所述多个映射虚拟机包括多个第一和第二映射虚拟机，所述多个规约虚拟机包括多个第一和第二规约虚拟机；

在扫描阶段，异构分布式数据库发送多个事务数据至多个第一映射虚拟机；多个第一映射虚拟机分别对所收到的部分事务数据执行分类处理，以根据数据项来对所收到的多个事务数据进行排列。

多个第一映射虚拟机根据数据项将排列后的多个事务数据传送至对应的第一规约虚拟机；第一规约虚拟机配置以处理多个数据项；第一规约虚拟机对所收到的多个事务数据进行统计以产生各数据项的累计次数，并根据累计次数判断各数据项是否为频繁项；

若任一第一规约虚拟机确定某项数据项为频繁项，则将所述数据项及其累计次数写入分布式区块文件；并且第一规约虚拟机将其余的数据项确定为非频繁项并丢弃；通过分布式区块文件记录所有频繁项及其累计次数；

在分析挖掘阶段，第二映射虚拟机分别从分布式区块文件中选择部分频繁项来建立特定数量的节点，其中各节点分别为多个频繁项所组成的序列模式数据；

第二映射虚拟机分别将本次建立的多个序列模式数据分配给多个第二规约虚拟机；所述第二规约虚拟机根据分布式区块文件判断所分配的序列模式数据是否为频繁序列模式数据；

具体地，若任一第一规约虚拟机判断此序列模式数据为频繁序列模式数据，则输出所述序列模式数据，否则确定此序列模式数据为非频繁项并丢弃；

在所有第一规约虚拟机完成分析后，所有第二映射虚拟机根据所发现的频繁序列模式数据，继续建立特定数量的节点，其中各节点分别是由所发现的多个频繁序列模式数据的其中之一组成的序列模式数据，并且所有第一规约虚拟机判断所分配的序列模式数据是否为频繁序列模式数据，以此迭代直到发现所有频繁序列模式数据。

本发明相比现有技术，具有以下优点：

本发明提出了一种实时分布式数据监听方法，采用多核架构的解决方案，实现了在虚拟环境中的高可靠性的数据保护，并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

附图说明

图1是根据本发明实施例的实时分布式数据监听方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种实时分布式数据监听方法。图1是根据本发明实施例的实时分布式数据监听方法流程图。

本发明的虚拟化云端分布式数据处理系统使用多任务集群执行分布式数据的应用处理，所述多任务集群包括或多个核心，配置以执行多任务操作系统并使用多任务指令集。所述虚拟化云端分布式数据处理系统耦合于第一多核处理器簇，第一多核处理器簇将数据传送至通过接口启动的云端虚拟化分布式数据处理系统。当云端虚拟化分布式数据处理系统相耦合的第二多核处理器簇执行远程指令时，所述第二多核处理器簇由云端虚拟化分布式数据处理系统内的实时内核引擎所控制，可使第二多核处理器簇接收服务的请求，提供所请求的服务，并通过远程指令将完成服务的结果指示反馈至第一多核处理器簇。所述多任务集群中的第一集群由虚拟化服务器系统管理，所述多任务集群中的第二集群由多任务VMM或多核的多任务操作系统管理。

所述虚拟化云端分布式数据处理系统执行实时业务组，所述业务组包括多个核心，配置以执行一个实时内核引擎和/或使用实时指令集，其中所述实时指令集包括或多个I/O模块。

优选地，执行实时业务组之前，需要将应用的业务分类解析成实时或非实时处理过程；在多任务处理器簇中对所述实时业务组进行处理；并将来自实时业务组的实时处理结果提供给多任务集群。

应用服务器进行数据流处理和执行安全逻辑时，云端虚拟化分布式数据处理系统拦截应用服务器的请求并提供服务，所述服务通过中间件和代理传递。在一个实施例中，中间件和代理与云端虚拟化分布式数据处理系统进行通信。根据具体实施例，云端虚拟化分布式数据处理系统包括硬件卡板，所述硬件卡板具有多核处理器簇和堆栈层，堆栈层包括网络接口代理、实时内核引擎和控制/数据层。云端虚拟化分布式数据处理系统进一步包括安全软件支持和应用层服务器代理。中间件和代理与服务请求相关的应用服务器代理进行通信，应用服务器的代理与实时系统、控制/数据层和网络接口代理通信。

根据具体实施例，本发明通过多核多任务处理器簇，提供控制/数据层的快速和慢速路径网络服务。快速路径整合大量的一致性协议。高速处理模块处理快速路径或数据层中的数据。软件堆栈层通过多处理器簇核心处理数据层的任务，其处理模块设计用于处理慢速路径或控制层上的数据流。

多核处理器簇具有数据流处理和服务硬件加速单元。应用层的服务器代理可提供不同的应用，多个应用由中间件进行代理，并传送至应用服务器代理，即代表应用服务器来响应服务的请求。云端虚拟化分布式数据处理系统使用应用层的服务器代理执行未来将可提供的安全逻辑。提出服务请求后，应用服务器通过网络接口或通过中间件代理传送至应用层的服务器代理。一旦新的应用需要服务，新的应用即可传送到应用层服务器的代理中，并通过远程指令将完成服务的指示返回给第一多核处理器簇。

本发明的另一方面将虚拟和实体多核处理器簇系统整合于实体服务器或虚拟服务器的环境中，由此启动虚拟机的监控功能，在不同的虚拟机层或实体系统层中执行安全策略，虚拟软件应用整合所提供的安全数据流处理模块、实体安全软件数据流处理模块。

本发明包括整合于云平台中的分布式实时运算模块，分布式实时运算集群可进行垂直和水平的扩展，相同多核处理器簇进行同构型架构的垂直扩展，不同的多核功能进行异构的水平扩展。

所述数据层是分布式节点的子系统，用于接收和传送来自接口的数据流，通过路由器法定义收到的数据流，在中继表中确定特定的键值和用于确定此键值的路由功能的正确策略。控制层维护的信息可用于变更数据层所使用的数据，控制层包括或多个路由一致性协议，所述一致性协议可进行路由器间的交互，路由器可将此信息转换成中继表的内容。数据层一旦侦测到数据流，则分别转发到控制层，让路由一致性协议计算新的路由，以增加或删除路由。使用新信息进行中继表的更新。

所有的分布式数据处理系统使用相同或不同的多核处理器簇以运行实时内核引擎。所有的系统通过处理器间的通信链接或共享内存进行通信。

应用服务器的虚拟化时涉及多个虚拟化的主机。虚拟主机具有通过主机VMM运行和管理的不同的虚拟机，各个虚拟机的运行包括操作系统和应用。每个虚拟机运行于多核处理器簇和内存中，请求进行数据流和/或安全应用的处理。多核处理器簇和内存、VMM使用网络适配器进行通信。在部署云端虚拟化分布式数据处理系统时，虚拟化系统中的中间件即软件基础设施的一部分，与云端虚拟化分布式数据处理系统和VMM进行通信。实时系统的中间件将所有的服务请求或来自系统中的API转换成不同的虚拟机。实时VMM除管理虚拟机外，还用于处理资源的调度和配置，协调处理器簇的多个核心，将来自其他处理器簇的服务请求分配给实时VMM所管理的处理器簇中的多核所执行的虚拟机。所述云端虚拟化分布式数据处理系统的硬件卡板还包括具有虚拟机支持的接口和多个安全处理虚拟机和数据流处理虚拟机。VMM使用的中间件与虚拟机支持器接口链接至不同的虚拟机单元和多核处理器簇使用的硬件驱动程序，用于控制云端虚拟化分布式数据处理系统所需的任何硬件模块。

多个安全处理虚拟机SV₁、SV₂…SV_n和数据流处理虚拟机单元DST₁、DST₂…DST_n存储于多核处理器簇的内存中，并通过内建VMM启动。在虚拟机请求执行数据流处理和安全逻辑时，传送请求给接口。中间件将服务请求转换成接口用的服务请求，在接口收到请求后，可启动DST₁…DST_n发布网络访问的请求。对于安全虚拟机SV₁…SV_n，若虚拟机请求安全逻辑的服务时，中间件转换成接口的请求，通过接口的中间件启动虚拟机SV₁…SV_n。

在对监听得到的分布式数据执行数据分析前，本发明先将多个所述虚拟机分别设定为多个第一和第二映射虚拟机以及多个第一和第二规约虚拟机。在扫描阶段，异构分布式数据库发送多个事务数据至多个第一映射虚拟机。多个第一映射虚拟机分别对所收到的部分事务数据执行分类处理，以根据数据项来对所收到的多个事务数据进行排列。

然后，第一规约虚拟机配置以处理多个数据项。具体地，多个第一映射虚拟机根据数据项将排列后的多个事务数据传送至对应的第一规约虚拟机。第一规约虚拟机对所收到的多个事务数据进行统计以产生各数据项的累计次数，并根据累计次数判断各数据项是否为频繁项。

若任一第一规约虚拟机确定某项数据项为频繁项，则将所述数据项及其累计次数写入分布式区块文件。并且，第一规约虚拟机将其余的数据项确定为非频繁项并丢弃。通过分布式区块文件记录所有频繁项及其累计次数。

在分析挖掘阶段，第二映射虚拟机分别从分布式区块文件中选择部分频繁项来建立特定数量的节点，其中各节点分别为多个频繁项所组成的序列模式数据。

然后，第二映射虚拟机分别将本次建立的多个序列模式数据分配给多个第二规约虚拟机。所述第二规约虚拟机根据分布式区块文件判断所分配的序列模式数据是否为频繁序列模式数据。

具体地，若任一第一规约虚拟机判断此序列模式数据为频繁序列模式数据，则输出所述序列模式数据，否则确定此序列模式数据为非频繁项并丢弃。

在所有第一规约虚拟机完成分析后，所有第二映射虚拟机和第一规约虚拟机再次执行前述操作。具体地，所有第二映射虚拟机根据所发现的频繁序列模式数据，继续建立特定数量的节点，其中各节点分别是由所发现的多个频繁序列模式数据的其中之一组成的序列模式数据，并且所有第一规约虚拟机判断所分配的序列模式数据是否为频繁序列模式数据，以此迭代直到发现所有频繁序列模式数据。

由于各节点实际可扩展的服务节点数量不尽相同，第二映射虚拟机和第一规约虚拟机实际处理的数据量可能不同。为解决上述问题，本发明改进数据分析方法，在前述扫描阶段，建立用于记录最新的频繁序列模式数据的分布式序列多叉树的数据。而在前述分析阶段，使用第二映射虚拟机发现频繁序列模式数据并更新分布式序列多叉树。

本发明优选实施例的分布式数据分析方法包括以下步骤。

步骤1：第一映射虚拟机从异构分布式数据库接收多个事务数据。第一映射虚拟机对所接收的多个事务数据执行映射扫描运算，以根据事务数据的数据项对所收到的多个事务数据排序。

步骤2：规约虚拟机配置以处理多个数据项，从多个第一映射虚拟机分别接收对应的事务数据，并对所收到的事务数据执行规约扫描运算以确定多个频繁项。

优选地，多个规约虚拟机可分别计算多个频繁项的累计次数，并建立分布式区块文件。前述分布式区块文件可记录所有频繁项及其累计次数。优选地，多个规约虚拟机还可建立分布式序列多叉树，并可将所有频繁项设定为分布式序列多叉树的子树根节点，并可将所有频繁项的累计次数共同写入分布式序列多叉树。

步骤3：第二映射虚拟机分别从分布式序列多叉树的最新一层选择部分节点，并对所选择的节点执行映射分析运算以发现多个频繁序列模式数据。优选地，所发现的频繁序列模式数据包括所选择的节点和多个频繁项的其中之一。

在某些实施例中，第二映射虚拟机的本地存储器存储有完整的分布式区块文件和所需的分布式序列多叉树的子树。由于执行分析所需数据已存储于本地存储器，本发明优选的实施例可有效减少读写数据时间，进而减少分析时间。

具体地，第二映射虚拟机在选择节点时同时获取完整的分布式区块文件和所需部分的分布式序列多叉树。并且，第二映射虚拟机在侦测到所存储的分布式序列多叉树的子树需要更新时，更新本地存储器所存储的分布式序列多叉树的子树。

步骤4：第二映射虚拟机将所发现的多个频繁序列模式数据作为分布式序列多叉树的新一层的节点。第二映射虚拟机判断分析是否完成，即判断是否已发现所有频繁序列模式数据。

若第二映射虚拟机判断分析完成，则结束云端频繁序列模式数据分析方法。否则，第二映射虚拟机再次执行前述步骤以继续查找新的频繁序列模式数据，并再次执行步骤以更新分布式序列多叉树的新一层的节点。

本发明通过使用分布式序列多叉树来记录最新的频繁序列模式数据，不需要重启第二映射虚拟机，也不需重新配置第二规约虚拟机，这使得本方案不需要重新进行网络数据读写，而可有效减少分布式数据分析所需时间。

在可选实施例中，频繁序列模式数据分析方法的步骤包括以下步骤。

步骤1：异构分布式数据库将所有事务数据转换为数据流序列数据。具体地，数据流序列数据可被分解为多个分片，由于各分片可单独被处理，数据流序列数据可适用于分布式处理。

步骤2：异构分布式数据库将数据流序列数据的多个分片分别传输至多个虚拟机，即第一映射虚拟机。优选地，异构分布式数据库先获取第一映射虚拟机的处理能力，再根据第一映射虚拟机的处理能力来分配不同数据量的数据流序列数据的分片至第一映射虚拟机。通过根据第一映射虚拟机的处理能力来分配数据，可使第一映射虚拟机的处理时间更为相近，减少所有第一映射虚拟机的整体等待时间。

步骤3：第一映射虚拟机将所收到的数据流序列数据的分片存储于本地存储器。由此，有效减少后续处理的数据读写时间。

在又一可选实施例中，数据分析的扫描阶段包括以下步骤。

步骤11：第一映射虚拟机分别根据所收到的事务数据产生分别对应多个数据项的多个键值对数据。具体地，第一映射虚拟机将数据项作为键，并将数据值作为值，来产生各键值对数据。

步骤12：第一映射虚拟机传送所产生的多个键值对数据至规约虚拟机。对应相同的数据项的多个键值对数据即键相同的多个键值对数据被传送至相同的规约虚拟机。

步骤13：各规约虚拟机分别根据所收到的多个键值对数据计算各数据项的累计次数。

步骤14：各规约虚拟机分别根据频繁门限值及各数据项的累计次数过滤部分数据项，并将剩余的数据项作为频繁项。优选地，规约虚拟机是对比累计次数与频繁门限值，将小于频繁门限值的累计次数所对应的数据项确定为非频繁项数据，并过滤所述非频繁项。

步骤15：规约虚拟机根据所发现的各频繁项的累计次数建立分布式区块文件。具体地，规约虚拟机建立分布式区块文件，并将所有数据项的累计次数及数据值对应写入分布式区块文件。在一个实施例中，规约虚拟机先对各频繁项的累计次数进行压缩，再将压缩后的各累计次数写入分布式区块文件。在一个实施例中，还可产生分布式区块文件的多个副本数据，并分别传送至多个第二映射虚拟机存储。

步骤16：规约虚拟机根据所发现的各频繁项的累计次数建立分布式序列多叉树。将多个频繁项作为根节点，并将多个频繁项的累计次数共同写入分布式序列多叉树中。

具体地，分布式序列多叉树的根节点为频繁项，下一级的节点为频繁序列模式数据。当第一次分析时，第二映射虚拟机选择根的任一频繁项，当第二次分析时，第二映射虚拟机选择第二层的任一频繁序列模式数据，以此类推。第二映射虚拟机根据分布式区块文件和所选择的节点。优选地，所产生的各序列模式数据包括分布式区块文件所记录的多个频繁项的其中之一以及所选择的节点。

第二映射虚拟机根据分布式区块文件的多个频繁项及所选择的分布式序列多叉树的节点即频繁序列模式数据执行序列扩展处理以获得多个序列模式数据。优选地，第二映射虚拟机是组合所选择的节点和各频繁项以产生多个序列模式数据。并且，各序列模式数据的频繁序列模式数据及频繁项属于不同子集。

第二映射虚拟机根据分布式区块文件和所选择的分布式序列多叉树的节点即频繁序列模式数据执行数据项扩展处理以获得多个序列模式数据。优选地，第二映射虚拟机是组合所选择的节点和各频繁项以产生多个序列模式数据。并且，各序列模式数据的频繁序列模式数据及频繁项属于相同子集。

为了实现异构数据融合分布式分析，通过构建异构存储模型进行异构数据融合特征分布式检测，数据存储结构采用异构分布式存储，采用区域融合聚类和分块匹配，得到云平台的异构数据的存储模型。

对于所述异构数据存储模型，本发明采用自适应匹配方法进行关联性分析，构建异构数据集合v的融合检测模型U(v)，得到数据分析的关联特征值：

r_k(v)＝U(v)/k

给出流量矩阵k，检测周期j内对异构数据进行分布式检测，采用投影提取异构数据的隶属度函数，得到：

F_k(v+1)＝∑(U(v)_j/k(k+U(v))))

将4个维度矩阵依次按行相接i_jk，在数据存储空间信息p中，得到异构数据的关联规则特征分布满足：

V_k＝∑_pv(v+1)i_jk

综上所述，本发明提出了一种实时分布式数据监听方法，采用多核架构的解决方案，实现了在虚拟环境中的高可靠性的数据保护，并通过高实时性的应用和服务提高了分布式海量异构数据的分析挖掘处理性能。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在云存储平台中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种实时分布式数据监听方法，其特征在于，包括：

在扫描阶段，异构分布式数据库发送多个事务数据至多个第一映射虚拟机；多个第一映射虚拟机分别对所收到的部分事务数据执行分类处理，以根据数据项来对所收到的多个事务数据进行排列；

第二映射虚拟机分别将本次建立的多个序列模式数据分配给多个第二规约虚拟机；所述第二规约虚拟机根据分布式区块文件判断所分配的序列模式数据是否为频繁序列模式数据；其中，当分布式序列多叉树的根节点为频繁项时，下一级的节点为频繁序列模式数据；其中所述分布式序列多叉树是由多个规约虚拟机预先建立的；

若任一第一规约虚拟机判断此序列模式数据为频繁序列模式数据，则输出所述序列模式数据，否则确定此序列模式数据为非频繁项并丢弃；

2.根据权利要求1所述的实时分布式数据监听方法，其特征在于，所述第一规约虚拟机对所收到的多个事务数据进行统计以产生各数据项的累计次数，进一步包括，多个规约虚拟机分别计算多个频繁项的累计次数，并建立分布式区块文件，将所述分布式区块文件记录所有频繁项及其累计次数。

3.根据权利要求1所述的实时分布式数据监听方法，其特征在于，将所有频繁项设定为分布式序列多叉树的子树根节点，并可将所有频繁项的累计次数共同写入分布式序列多叉树。

4.根据权利要求3所述的实时分布式数据监听方法，其特征在于，所述第二映射虚拟机分别从分布式区块文件中选择部分频繁项来建立特定数量的节点，进一步包括，所述第二映射虚拟机分别从分布式序列多叉树的最新一层选择部分节点，并对所选择的节点执行映射分析运算以发现多个频繁序列模式数据，其中所述第二映射虚拟机的本地存储器存储有完整的分布式区块文件和所需的分布式序列多叉树的子树。

5.根据权利要求1所述的实时分布式数据监听方法，其特征在于，所述方法运行于云端虚拟化分布式数据处理系统中，所述云端虚拟化分布式数据处理系统的硬件卡板包括具有虚拟机支持的接口和多个安全处理虚拟机和数据流处理虚拟机，所述多个虚拟机的VMM使用的中间件与虚拟机支持器接口链接至不同的虚拟机单元和多核处理器簇使用的硬件驱动程序，用于控制云端虚拟化分布式数据处理系统所需的硬件模块。