CN110247818A

CN110247818A - 一种数据监控方法、装置、存储介质和服务器

Info

Publication number: CN110247818A
Application number: CN201910422557.7A
Authority: CN
Inventors: 王宸
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-17

Abstract

本发明涉及计算机技术领域，提出一种数据监控方法、装置、存储介质和服务器。该数据监控方法包括：在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；将所述待监控数据由spark的work节点发送至所述监控节点；通过所述监控节点实时展示所述待监控数据。本申请将akka集群应用于spark大数据处理过程的中间结果监测，从mapreduce产生的中间结果数据中选取待监控数据并发送至akka集群的监控节点进行监控，能够实时监控大数据计算过程中产生的中间结果。

Description

一种数据监控方法、装置、存储介质和服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据监控方法、装置、存储介质和服务器。

背景技术

Spark是专为大规模数据处理而设计的快速通用的计算引擎，提供基于内存的mapreduce高性能算子，在企业的大数据应用中越来越普及。spark采用的是大吞吐量的批量数据处理方式，执行完毕后直接输出最终结果，数据计算的中间结果由mapreduce产生，存储于Spark各个work节点的RDD中。然而，由于spark不具备可以直接对接work节点的相关组件，导致无法获取以及监控某些重要数据的中间结果。

发明内容

有鉴于此，本发明实施例提供了一种数据监控方法、装置、存储介质和服务器，能够实时监控大数据计算过程中产生的中间结果。

本发明实施例的第一方面，提供了一种数据监控方法，包括：

在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点，所述目标节点用于分布式环境下的节点发现和节点注册，所述监控节点用于监控所述待监控数据；

将所述待监控数据由spark的work节点发送至所述监控节点；

通过所述监控节点实时展示所述待监控数据。

本发明实施例的第二方面，提供了一种数据监控装置，包括：

待监控数据选取模块，用于在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

节点选取模块，用于从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点，所述目标节点用于分布式环境下的节点发现和节点注册，所述监控节点用于监控所述待监控数据；

待监控数据发送模块，用于将所述待监控数据由spark的work节点发送至所述监控节点；

数据监控模块，用于通过所述监控节点实时展示所述待监控数据。

本发明实施例的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如本发明实施例的第一方面提出的数据监控方法的步骤。

本发明实施例的第四方面，提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如本发明实施例的第一方面提出的数据监控方法的步骤。

本发明实施例提出的数据监控方法包括：在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；将所述待监控数据由spark的work节点发送至所述监控节点；通过所述监控节点实时展示所述待监控数据。基于akka集群属于轻量级的actor模型，自带分布式的解决方案，且具有处理少量数据实时性佳的特性，非常适合于实时监测少量的中间结果数据。因此，本申请将akka集群应用于spark大数据处理过程的中间结果监测，从mapreduce产生的中间结果数据中选取待监控数据，akka的监控节点通过对接spark的work节点以获取该待监控数据，能够实时监控大数据计算过程中产生的中间结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据监控方法的第一个实施例的流程图；

图2是本发明实施例提供的一种数据监控方法的第二个实施例的流程图；

图3是本发明实施例提供的一种数据监控方法的第三个实施例的流程图；

图4是本发明实施例提供的一种数据监控装置的一个实施例的结构图；

图5是本发明实施例提供的一种服务器的示意图。

具体实施方式

本发明实施例提供了一种数据监控方法、装置、存储介质和服务器，能够实时监控大数据计算过程中产生的中间结果。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种数据监控方法的第一个实施例包括：

101、在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

Spark是专为大规模数据处理而设计的快速通用的计算引擎，在使用spark执行大数据处理的过程中，数据的计算中间结果由mapreduce产生，存储于spark各个work节点的RDD中。MapReduce是面向大数据并行处理的计算模型，通常用于大规模数据集的并行运算。RDD叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。具体的，待监控数据是由用户(开发人员)选取的，系统在获取到用户输入的数据选取指令后，从相应的RDD中提取出所述数据选取指令指向的待监控数据。

102、从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；

本申请采用akka集群监测数据，首先需要从akka集群的节点中分别选取一定数量的目标节点以及一定数量的监控节点。所述目标节点用于分布式环境下的节点发现和节点注册，从而保证新加入集群的节点能被整个集群的其它节点识别。所述监控节点用于监控所述待监控数据，目标节点和监控节点的数量可以根据集群节点的数量规模以及待监控数据的大小合理设置。

Akka集群(akka cluster)是高容错、去中心化、不存在单点故障以及不存在单点瓶颈的集群，它使用gossip协议通信以及具备故障自动检测功能。Akka集群中的节点互相监督，通过gossip协议，节点向其他节点传递自己所见节点的最新状态(Up、Joining等等)，同时节点也在接收来自其他节点的信息，这些信息包括集群具有哪些节点以及这些节点对应的状态。另外，Akka集群基于actor模型，在分布式环境中需要一定数量的节点用于发现节点和注册节点的功能，从而保证新加入集群的节点能被整个集群的其它节点识别。

103、将所述待监控数据由spark的work节点发送至所述监控节点；

接着，将所述待监控数据由spark的work节点发送至所述监控节点。由于work节点和akka节点属于同一个Actor Cluster环境，故可以很方便地实现节点之间的对接，完成数据的传输。

104、通过所述监控节点实时展示所述待监控数据。

在将所述待监控数据发送至所述监控节点之后，通过所述监控节点实时展示所述待监控数据。在实际应用中，可以创建一个界面窗口，在该界面窗口中添加相应的显示控件，实施展示监控节点获取到的待监控数据，从而可以很直观地监控大数据计算过程中产生的中间结果。

进一步的，在通过所述监控节点实时展示所述待监控数据之后，还可以包括：

(1)获取预先构建的所述待监控数据的预期值；

(2)若监测到所述待监控数据的实时值和所述预期值之间的差别超过预设的阈值，则停止所述大数据处理的过程，并输出告警信息。

待监控数据是用户选取的想要实时监控的中间结果数据，这些数据的期望值是用户可以预见的，故可以预先创建这些数据的预期值并存储起来。在大数据处理的过程中，采用本申请提出的方法可以实时监测重要的中间结果，若监测到中间结果和预期的正常结果之间的差别较大，表明数据处理结果可能出现问题，系统此时会自动停止大数据处理的过程，并输出告警信息，使得相关人员可以及时发现问题，并采取相应的应对措施。

请参阅图2，本发明实施例中一种数据监控方法的第二个实施例包括：

201、在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

202、从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；

步骤201-202与步骤101-102相同，具体可参照步骤101-102的相关说明。

203、启动spark的各个work节点包含的JVM实例的ActorSystem对象；

204、将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象；

对于步骤203-204，在确定akka集群的目标节点以及监控节点之后，启动spark的各个work节点包含的JVM实例的ActorSystem对象，将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象。

JVM是Java Virtual Machine(Java虚拟机)的缩写，是一种用于计算设备的规范，它是一个虚构出来的计算机，通过在实际的计算机上仿真模拟各种计算机功能实现。Actor是akka中最核心的概念，是一个封装了状态和行为的对象，各个actor之间可以通过交换消息的方式进行通信。一个ActorSystem实例具有分层结构，通过启动多个actor来处理相应的任务。由于spark节点的ActorSystem和akka节点的ActorSystem属于同一个ActorCluster环境，因此可以在两者之间方便地传输数据。

进一步的，在将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象之后，还可以包括：

(1)分别确定各个所述待监控数据的数据类型；

(2)针对任意的一个所述待监控数据，执行与自身的数据类型对应的数据处理操作。

为了便于监控数据，在接收到待监控数据之后，还可以针对不同类型的数据分别执行不同的数据处理操作。比如，针对浮点类型的数据，可以执行取整操作。针对日期类型的数据，可以按照需求调整日期的显示格式。在实际操作中，开发人员按照数据监控的需求，预先构建每种类型数据所对应的数据处理操作。

205、通过所述监控节点实时展示所述待监控数据。

步骤205与步骤104相同，具体可参照步骤104的相关说明。

本发明实施例提出的数据监控方法包括：在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；启动spark的各个work节点包含的JVM实例的ActorSystem对象；将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象；通过所述监控节点实时展示所述待监控数据。与本发明的第一个实施例相比，本实施例提出了一种将待监控数据发送至akka集群的监控节点的具体实施方式。

请参阅图3，本发明实施例中一种数据监控方法的第三个实施例包括：

301、在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

302、从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；

303、将所述待监控数据由spark的work节点发送至所述监控节点；

步骤301-303与步骤101-103相同，具体可参照步骤101-103的相关说明。

304、获取所述监控节点的节点编号；

具体的，可以预先为akka集群的每个节点编号，以区分各个节点，在从akka集群的节点中选取一定数量的节点作为监控节点之后，即可获取到所述监控节点的节点编号。

305、根据所述节点编号从预先构建的多个web UI界面中选取一个web UI界面；

306、将所述待监控数据添加至选取的web UI界面中展示。

对于步骤305-306，在获取到所述监控节点的节点编号之后，根据所述节点编号从预先构建的多个web UI界面中选取一个web UI界面，然后将所述待监控数据添加至选取的web UI界面中展示。

Web UI是网络产品界面设计(Website User Interface)的意思，Web UI设计与常见网站建设的区别是，Web UI注重人与网站的互动和体验，以人为中心进行设计，而传统的网站建设是以功能为中心进行设计。为了提高用户体验，可以预先设计一些web UI界面，然后根据监控节点的节点编号从中选取一个web UI界面，当选取的web UI界面启动后，将需要监控的数据添加到该web UI界面中展示，能够获得较佳的视觉监控效果。

本发明实施例提出的数据监控方法包括：在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点；将所述待监控数据由spark的work节点发送至所述监控节点；获取所述监控节点的节点编号；根据所述节点编号从预先构建的多个web UI界面中选取一个web UI界面；将所述待监控数据添加至选取的web UI界面中展示。与本发明的第一个实施例相比，本实施例通过获取监控节点的节点编号，根据节点编号从预先构建的多个web UI界面中选取一个web UI界面，最后将所述待监控数据添加至选取的web UI界面中展示，能够获得更好的视觉监控效果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上面主要描述了一种数据监控方法，下面将对一种数据监控装置进行详细描述。

请参阅图4，本发明实施例中一种数据监控装置的一个实施例包括：

待监控数据选取模块401，用于在使用spark执行大数据处理的过程中，若获取到输入的数据选取指令，则从mapreduce产生的中间结果数据中选取所述数据选取指令指向的待监控数据；

节点选取模块402，用于从预先构建的akka集群的节点中分别选取一个以上的目标节点以及一个以上的监控节点，所述目标节点用于分布式环境下的节点发现和节点注册，所述监控节点用于监控所述待监控数据；

待监控数据发送模块403，用于将所述待监控数据由spark的work节点发送至所述监控节点；

数据监控模块404，用于通过所述监控节点实时展示所述待监控数据。

进一步的，所述待监控数据发送模块可以包括：

ActorSystem对象启动单元，用于启动spark的各个work节点包含的JVM实例的ActorSystem对象；

ActorSystem对象发送单元，用于将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象。

进一步的，所述待监控数据发送模块还可以包括：

数据类型确定单元，用于分别确定各个所述待监控数据的数据类型；

数据处理单元，用于针对任意的一个所述待监控数据，执行与自身的数据类型对应的数据处理操作。

进一步的，所述数据监控模块可以包括：

节点编号获取单元，用于获取所述监控节点的节点编号；

UI界面选取单元，用于根据所述节点编号从预先构建的多个web UI界面中选取一个web UI界面；

数据展示单元，用于将所述待监控数据添加至选取的web UI界面中展示。

进一步的，所述数据监控装置还可以包括：

预期值获取模块，用于获取预先构建的所述待监控数据的预期值；

告警模块，用于若监测到所述待监控数据的实时值和所述预期值之间的差别超过预设的阈值，则停止所述大数据处理的过程，并输出告警信息。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如图1至图3表示的任意一种数据监控方法的步骤。

本发明实施例还提供一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如图1至图3表示的任意一种数据监控方法的步骤。

图5是本发明一实施例提供的服务器的示意图。如图5所示，该实施例的服务器5包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52。所述处理器50执行所述计算机可读指令52时实现上述各个数据监控方法实施例中的步骤，例如图1所示的步骤101至104。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至404的功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述服务器5中的执行过程。

所述服务器5可以是智能手机、笔记本、掌上电脑及云端服务器等计算设备。所述服务器5可包括，但不仅限于，处理器50、存储器51。本领域技术人员可以理解，图5仅仅是服务器5的示例，并不构成对服务器5的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述服务器5还可以包括输入输出设备、网络接入设备、总线等。

所述处理器50可以是中央处理单元(CentraL Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitaL SignaL Processor，DSP)、专用集成电路(AppLication Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieLd-ProgrammabLe Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述服务器5的内部存储单元，例如服务器5的硬盘或内存。所述存储器51也可以是所述服务器5的外部存储设备，例如所述服务器5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure DigitaL,SD)卡，闪存卡(FLash Card)等。进一步地，所述存储器51还可以既包括所述服务器5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述服务器所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnLyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据监控方法，其特征在于，包括：

将所述待监控数据由spark的work节点发送至所述监控节点；

通过所述监控节点实时展示所述待监控数据。

2.根据权利要求1所述的数据监控方法，其特征在于，所述将所述待监控数据由spark的work节点发送至所述监控节点包括：

启动spark的各个work节点包含的JVM实例的ActorSystem对象；

将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象。

3.根据权利要求2所述的数据监控方法，其特征在于，在将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象之后，还包括：

分别确定各个所述待监控数据的数据类型；

针对任意的一个所述待监控数据，执行与自身的数据类型对应的数据处理操作。

4.根据权利要求1所述的数据监控方法，其特征在于，所述通过所述监控节点实时展示所述待监控数据包括：

获取所述监控节点的节点编号；

根据所述节点编号从预先构建的多个web UI界面中选取一个web UI界面；

将所述待监控数据添加至选取的web UI界面中展示。

5.根据权利要求1至4中任一项所述的数据监控方法，其特征在于，在通过所述监控节点实时展示所述待监控数据之后，还包括：

获取预先构建的所述待监控数据的预期值；

若监测到所述待监控数据的实时值和所述预期值之间的差别超过预设的阈值，则停止所述大数据处理的过程，并输出告警信息。

6.一种数据监控装置，其特征在于，包括：

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的数据监控方法的步骤。

8.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

将所述待监控数据由spark的work节点发送至所述监控节点；

通过所述监控节点实时展示所述待监控数据。

9.根据权利要求8所述的服务器，其特征在于，所述将所述待监控数据由spark的work节点发送至所述监控节点包括：

启动spark的各个work节点包含的JVM实例的ActorSystem对象；

10.根据权利要求9所述的服务器，其特征在于，在将所述待监控数据通过所述JVM实例的ActorSystem对象发送至所述监控节点的ActorSystem对象之后，还包括：

分别确定各个所述待监控数据的数据类型；