CN111949717B

CN111949717B - 一种面向跨域信息系统的实时按需数据汇聚方法及系统

Info

Publication number: CN111949717B
Application number: CN202010818115.7A
Authority: CN
Inventors: 钱诗友; 徐加伟; 薛广涛; 曹健
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-02-06
Anticipated expiration: 2040-08-14
Also published as: CN111949717A

Abstract

本发明提供了一种面向跨域信息系统的实时按需数据汇聚系统及方法，包括：部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端；所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信，形成覆盖网络；所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求，形成汇聚规则；将源信息系统中满足汇聚规则的数据进行汇聚；所述过滤器根据汇聚器的汇聚规则，对源信息系统中的数据执行过滤操作，将符合应用需求的数据传输至目的信息系统中的汇聚器，汇聚器提供接口给上层应用获取数据；本发明提出一个能动态定制数据汇聚需求、数据传输延迟毫秒级且易于扩展和更新的实时跨域的数据汇聚框架。

Description

一种面向跨域信息系统的实时按需数据汇聚方法及系统

技术领域

本发明涉及跨域分布式系统，具体地，涉及一种面向跨域信息系统的实时按需数据汇聚方法及系统，更为具体地，涉及基于发布/订阅模式的实时按需数据汇聚框架及系统。

背景技术

在当前的信息化社会中，各机构都有自己的信息化系统。随着当前数据分析技术的快速发展和应用逻辑的丰富，对跨机构、跨系统的各种类型数据的需求越来越强烈。然而各机构建设的业务系统都是为了满足自身的业务需求，建设时间早，并没有考虑后续的跨机构合作共享，缺少总体的设计。数据汇聚旨在解决当前各个独立系统的分布性，异构性和自治性等难点，克服大数据时代数据的Velocity、Volume和Variety挑战。整合多源的，多个分离独立的系统中的数据，以满足高层的数据分析、综合业务管理、公共信息服务和政府政策决策支持的需要。

传统的数据汇聚采用的是面向服务的架构(Service-Oriented Architecture，SOA)，例如Network on Terminal Architecture。该方法需要开发专有的软件或者接口(通常为HTTP，FTP)来进行源信息系统和目的信息系统之间的数据传输。这样的架构能规避分布式的独立系统的异构问题，但是有三个重要的缺陷：一、不同安全域的软件直接通信会增加网络管控和信息泄露的风险；二、不能有效应对分布、自治、异构的信息系统和大数据3V特性提出的实时性和灵活性方面的挑战；三、成本高，需要安排人员开发专有的server端和client端软件和接口。

专利文献CN104133831B(申请号：201410065334.7)公开了一种跨域数据联接系统、跨域数据联接系统及节点，所述系统采用分布式系统架构，运行于HDFS集群节点上，不同的HDFS集群之间采用网络通道连接，每个集群开放一个节点提供对外文件存取服务，在HDFS的每个节点上维护一个系统进程，HDFS的对外服务节点接受跨HDFS的数据联接请求，并将结果最终汇聚到接收请求的节点，最终获得联接结果。

本发明克服在多安全域信息系统环境下数据汇聚的难点，发明了一种跨域实时按需数据汇聚框架。在安全性的基础上，解决了数据汇聚数据量大、数据产生速率高和数据种类多的问题。

本发明公开了一种面向跨域信息系统的实时按需数据汇聚框架及系统。随着当前信息化的进一步普及，跨部门、跨组织的实时信息合作越来越重要，例如公安部门反电信诈骗。因为各组织、各部门信息系统之间的分布性、自治性和异构性，以及大数据的大规模、高速率和多种类特性，对数据汇聚方法提出了实时性、按需性和灵活性的需求。目前还没有提出能满足以上需求的数据汇聚框架及系统。本发明提出一个能动态定制数据汇聚需求、数据传输延迟毫秒级且易于扩展和更新的实时跨域的数据汇聚框架，并给出了该框架的设计细节以及具体实现机制。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种面向跨域信息系统的实时按需数据汇聚系统及方法。

根据本发明提供的一种面向跨域信息系统的实时按需数据汇聚系统，包括：部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端；

所述源端包括过滤器和连接器；

所述汇聚端包括连接器、汇聚器和配置器；

所述汇聚端连接器与所述源端连接器建立虚拟局域网隧道相互通信，形成覆盖网络；

所述汇聚器收集目的信息系统内各种应用对源数据的汇聚需求，形成汇聚规则，并将汇聚规则分发给所有源端的过滤器；将源信息系统中满足汇聚规则的数据进行汇聚；

所述过滤器根据汇聚器的汇聚规则，对源信息系统中的数据执行过滤操作，将符合应用需求的数据传输至目的信息系统中的汇聚器，汇聚器提供接口给上层应用获取数据；

所述汇聚端的配置器提供可视化的监控界面，从而检测各个源信息系统内过滤器的工作状态、性能和汇聚系统覆盖网络的状态。

优选地，所述覆盖网络能够屏蔽掉底层各信息系统局域网设置，在防火墙允许的情况下，实现跨安全域的位于不同局域网主机间相互通信。

优选地，所述过滤器采用基于内容的订阅/分发模式中的匹配算法实现过滤器的过滤功能。

优选地，所述配置器还包括：通过配置器配置部署新的过滤器或更新过滤器。

优选地，所述覆盖网络包括基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络；

所述N2N虚拟局域网包括super-node程序和edge-node程序；

在目的信息系统和源信息系统中的接入点服务器上部署edge-node程序形成覆盖网络；在目的信息系统中部署super-node程序协调辅助edge-node程序覆盖网络。

优选地，所述汇聚器通过Kafka集群实现实时按需数据汇聚；所述Kafka集群包括源Kafka集群和目的Kafka集群；

所述目的Kafka集群负责进行应用数据汇聚规则和满足过滤条件的数据收集与分发；

所述源Kafka集群包括汇聚系统本身已经运行的Kafka集群。

优选地，所述过滤器包括基于源Kafka集群和目的Kafka集群的stream API分别实现对源数据和数据汇聚规则的实时获取；基于OpIndex算法和PhSIH并行化机制实现对源数据的过滤，在过滤后将匹配的源数据发往对应的应用。

优选地，所述过滤器采用基于内容的订阅和/或分发模式中的匹配算法实现过滤器的过滤功能，过滤后的数据记录和所有的目的应用组合为一条消息发送至汇聚器，在汇聚器中新增一个解码程序组件，解码程序组件将过滤器发送过来的消息解构为数据记录和对当前数据记录有汇聚需求的应用列表，将当前数据记录发送至有汇聚需求的应用。

优选地，所述配置器包括通过配置器查看汇聚系统信息，通过配置器输入新过滤器的配置参数，配置器根据输入的新过滤器的配置参数，生成新的过滤器容器并按指令在远程机器上部署新的过滤器容器；

在汇聚系统扩容新的源信息系统时，在安装好接入点主机的基础上，通过配置器自动化部署好过滤器，实现汇聚系统的扩展。

根据本发明提供的一种面向跨域信息系统的实时按需数据汇聚系统，运用上述面向跨域信息系统的实时按需数据汇聚系统执行如下步骤：

步骤M1：汇聚端连接器和源端连接器建立虚拟局域网隧道相互通信，形成覆盖网络；

步骤M2：汇聚端收集目的信息系统内各种应用对源数据的汇聚需求，形成汇聚规则，并分发给所有源端的过滤器；

步骤M3：源端过滤器根据从汇聚器接收到的数据汇聚规则，对源信息系统中的数据执行过滤操作，并将符合应用需求的数据传输至目的信息系统中的汇聚器；

步骤M4：汇聚器提供接口给上层应用以获取符合应用需求的数据。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提出的汇聚框架能实时汇聚源数据，能够实现毫秒级的数据汇聚；目的系统能定制其数据汇聚规则，通过在源端进行数据过滤，减少不必要的数据传输，有效降低网络负载压力；汇聚规则从定义到生效平均只需要2毫秒左右；利用覆盖网络技术和容器技术，实现了框架的快速扩展和组件更新，加入一个新的源系统平均只需要1秒左右；

2、本发明提出的数据汇聚框架充分考虑了数据汇聚的实时性、按需性和灵活性要求。首先，本发明基于订阅/分发模式，利用基于内容的匹配算法实现细粒度的源数据过滤。其次，过滤操作可实现动态并行化，根据性能需求弹性伸缩过滤的线程数，以保证过滤的实时性。再者，框架能高效应对源系统加入、数据汇聚规则实时更新、以及数据速率变化等动态性问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的逻辑框架图；

图2为本发明基于发布/订阅模式的实现；

图3为本发明实现的网络拓扑与组件图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明采用基于peer-to-peer(P2P)对等的VLAN网络，实现跨安全域的主机通信；将VLAN网络相关应用容器化，采用心跳机制、端口映射确保覆盖网络的高可用性和高可靠性；在开源的Kafka基础上，实现一个并发度自适应调节的数据过滤组件；结合InfluxDB，开发web可视化界面，实现对多个数据源系统的汇聚状态监测；容器化数据汇聚组件，基于Docker的remote API、私有数据仓库、docker容器构造等技术，开发web可视化界面，实现可视化配置数据汇聚需求，自动、动态定制数据汇聚组件。

实施例1

所述源端包括过滤器和连接器；

所述汇聚端包括连接器、汇聚器和配置器；

具体地，所述覆盖网络能够屏蔽掉底层各信息系统局域网设置，在防火墙允许的情况下，实现跨安全域的位于不同局域网主机间相互通信。

具体地，所述过滤器采用基于内容的订阅/分发模式中的匹配算法实现过滤器的过滤功能。

具体地，所述配置器还包括：通过配置器配置部署新的过滤器或更新过滤器。

具体地，所述覆盖网络包括基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络；

所述N2N虚拟局域网包括super-node程序和edge-node程序；

具体地，所述汇聚器通过Kafka集群实现实时按需数据汇聚；所述Kafka集群包括源Kafka集群和目的Kafka集群；

所述源Kafka集群包括汇聚系统本身已经运行的Kafka集群。

具体地，所述过滤器包括基于源Kafka集群和目的Kafka集群的stream API分别实现对源数据和数据汇聚规则的实时获取；基于OpIndex算法和PhSIH并行化机制实现对源数据的过滤，在过滤后将匹配的源数据发往对应的应用。

具体地，所述过滤器采用基于内容的订阅和/或分发模式中的匹配算法实现过滤器的过滤功能，过滤后的数据记录和所有的目的应用组合为一条消息发送至汇聚器，在汇聚器中新增一个解码程序组件，解码程序组件将过滤器发送过来的消息解构为数据记录和对当前数据记录有汇聚需求的应用列表，将当前数据记录发送至有汇聚需求的应用。

具体地，所述配置器包括通过配置器查看汇聚系统信息，通过配置器输入新过滤器的配置参数，配置器根据输入的新过滤器的配置参数，生成新的过滤器容器并按指令在远程机器上部署新的过滤器容器；

实施例2

实施例2是实施例1的变化例

1框架结构

如图1所示，本发明提出的实时按需数据汇聚框架由两个部分组成：部署在目的信息系统中的汇聚端(Sink part)和部署在源信息系统中的源端(Source part)，其中源端可以有多个，部署在不同的源信息系统中。每个源端包含两个模块：一个过滤器和一个连接器，每个汇聚端由三个模块组成：一个连接器、一个汇聚器和一个配置器组成。

2模块过程

(1)连接器

汇聚端和源端都包含有一个连接器，连接器间可以建立一条虚拟局域网隧道相互通信，从而形成一个覆盖网络。该覆盖网络能屏蔽掉底层各个信息系统复杂的局域网设计，在防火墙允许下即可实现跨安全域的位于不同局域网的主机间相互通信。汇聚框架中其它组件间的通信都由连接器负责传送，上层组件在设计时就可以简化网络模型进而简化框架设计。如图1所示，过滤器和汇聚器间的逻辑网络以虚线表示，实际网络流量由连接器承载，以黑实线表示。

(2)汇聚器

汇聚端中的汇聚器承担两个重要功能，一是收集目的信息系统内各种应用(如机器学习应用、数据库OLAP应用)对源数据的汇聚需求，并以汇聚规则表示，并将其分发给所有源端的过滤器；二是汇聚所有源信息系统中满足应用汇聚规则的数据，并提供接口给上层应用以获取数据。汇聚器是实现对源数据按需获取的主要组件。

(3)过滤器

源端中的过滤器主要功能是根据从汇聚器接收的数据汇聚规则，对源信息系统中的数据执行过滤操作，并将符合应用需求的数据传输至目的信息系统中的汇聚器。本发明采用基于内容的订阅/分发模式中的匹配算法来实现过滤器的过滤功能。

发布/订阅模型是一种分布式系统通信范式，能够实现通信双方在时间、空间和同步上的解耦。基于内容的发布/订阅模型能够为用户提供细粒度的表达能力，用户可基于事件(也称为消息)的内容本身定义其感兴趣的条件，可实现细粒度的事件分发。匹配算法是基于内容的发布/订阅模型的核心组件，服务器接将收到每一个事件与用户的订阅进行比较，并将事件发送给订阅条件得到满足的用户。

(4)配置器

在汇聚端中，配置器主要负责向数据汇聚系统管理员提供可视化的监控界面。管理员可以通过配置器来监测各个源信息系统内过滤器的工作状态、性能和汇聚系统覆盖网络的状态，除此之外，管理员还可以通过配置器配置、部署新的过滤器或者更新旧的过滤器。

3系统实现

本发明采用N2N虚拟局域网技术和开源的Kafka、Docker技术实现数据汇聚系统框架。

(1)覆盖网络

首先，本发明基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络，如图3所示。N2N虚拟局域网主要由两种类型程序：super-node和edge-node。

本发明在目的信息系统和每个源信息系统中的接入点服务器上部署edge-node以生成一个覆盖网络。同时，在目的信息系统中部署super-node来协调辅助edge-node覆盖网络。

如上所述，覆盖网络是其他组件的网络流量基础，因此为了保证覆盖网络的高可靠性，本发明在三个主机运行N2N容器，以端口映射的形式对edge-node提供服务。配置器将通过心跳机制监测三个主机和N2N容器的健康，当发生主机或者N2N程序的崩溃时将重新映射端口至其他健康的主机来保证服务的高可靠。覆盖网络可以为上层组件屏蔽下层复杂的网络细节而简化上层设计。

(2)汇聚器

其次，本发明基于Kafka实现了实时按需数据汇聚系统，并将其部署在覆盖网络之上。图2展示了本发明的系统实现。系统中有两种类型的Kafka集群：源Kafka集群和目的Kafka集群。整个目的Kafka集群扮演了图1中的汇聚器角色，负责进行应用数据汇聚规则和满足过滤条件的数据的收集与分发。所有的应用将在其本身运行逻辑的基础上增加两个组件：规则提交和数据消费。规则提交组件通过Kafka的Producer API将应用对数据的兴趣提交到一个统一的Topic中，而数据消费组件通过Kafka的Consumer API从应用对应的过滤结果Topic中获取数据。在源信息系统中，源Kafka集群可以是该系统本身已经运行的Kafka集群。

(3)过滤器

本发明的过滤器基于源Kafka集群和目的Kafka集群的stream API分别实现对源数据和数据汇聚规则的实时获取，基于OpIndex算法和PhSIH并行化机制实现对源数据的高效过滤，在过滤后将匹配的源数据发往对应的应用Topic。OpIndex专为在数据量、速度和数据种类方面的可伸缩性而设计。它可以处理高维和稀疏数据集。此外，OpIndex具有较低的内存需求和维护成本，并且可以轻松扩展以支持更复杂的应用数据兴趣。PhSIH是一种灵活的过滤并行化方法，可根据性能的要求动态调整执行过滤操作的线程数量，从而保证数据汇聚的实时性。

在将发布/订阅模式整合入汇聚框架时(图3)，基于减少公网流量负载的目的，本发明对过滤器的发送机制进行了优化。过滤后的源数据记录不再由过滤器分别发送副本到各应用对应的Topic中，而是将数据记录和所有的目的应用组合为一条消息发送至汇聚器，在汇聚器中新增一个解码程序组件，该组件能将将过滤器发送过来的消息解构为数据记录和对其感兴趣的应用列表，并将数据记录发送至这些应用对应的Topic中。因为解码程序的接受和发送发生在目的信息系统局域网中，带宽和时延相对公网传输可以有巨大提升。

(4)配置器

系统管理员可以通过配置器web界面查看系统信息。同时，系统管理员可以通过配置器输入新过滤器的配置参数，配置器将根据管理员的输入自动生成新的过滤器容器并按指令在远程机器上部署新的过滤器容器。在汇聚系统扩容新的源信息系统时，在安装好接入点主机的基础上，只需要通过配置器自动化部署好过滤器即可实现系统的扩展。

最后，对于本发明框架中的所有组件，本发明都将其容器化部署，通过Dockerremote API定时监测和获取各个组件的工作状态。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向跨域信息系统的实时按需数据汇聚系统，其特征在于，包括：部署在目的信息系统中的汇聚端和部署在多个源信息系统中的多个源端；

所述源端包括过滤器和连接器；

所述汇聚端包括连接器、汇聚器和配置器；

2.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述覆盖网络能够屏蔽掉底层各信息系统局域网设置，在防火墙允许的情况下，实现跨安全域的位于不同局域网主机间相互通信。

3.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述过滤器采用基于内容的订阅/分发模式中的匹配算法实现过滤器的过滤功能。

4.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述配置器还包括：通过配置器配置部署新的过滤器或更新过滤器。

5.根据权利要求2所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述覆盖网络包括基于开源N2N虚拟局域网技术实现汇聚系统的覆盖网络；

所述N2N虚拟局域网包括super-node程序和edge-node程序；

6.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述汇聚器通过Kafka集群实现实时按需数据汇聚；所述Kafka集群包括源Kafka集群和目的Kafka集群；

所述源Kafka集群包括汇聚系统本身已经运行的Kafka集群。

7.根据权利要求3所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述过滤器包括基于源Kafka集群和目的Kafka集群的stream API分别实现对源数据和数据汇聚规则的实时获取；基于OpIndex算法和PhSIH并行化机制实现对源数据的过滤，在过滤后将匹配的源数据发往对应的应用。

8.根据权利要求7所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述过滤器采用基于内容的订阅和/或分发模式中的匹配算法实现过滤器的过滤功能，过滤后的数据记录和所有的目的应用组合为一条消息发送至汇聚器，在汇聚器中新增一个解码程序组件，解码程序组件将过滤器发送过来的消息解构为数据记录和对当前数据记录有汇聚需求的应用列表，将当前数据记录发送至有汇聚需求的应用。

9.根据权利要求1所述的面向跨域信息系统的实时按需数据汇聚系统，其特征在于，所述配置器包括通过配置器查看汇聚系统信息，通过配置器输入新过滤器的配置参数，配置器根据输入的新过滤器的配置参数，生成新的过滤器容器并按指令在远程机器上部署新的过滤器容器；

10.一种面向跨域信息系统的实时按需数据汇聚方法，其特征在于，运用权利要求1-9任一权利要求所述的面向跨域信息系统的实时按需数据汇聚系统执行如下步骤：