CN113342550A

CN113342550A - 一种数据处理方法、系统、计算设备及存储介质

Info

Publication number: CN113342550A
Application number: CN202110726672.0A
Authority: CN
Inventors: 吴方贵; 方世康; 朱非白
Original assignee: Anhui Ronds Science & Technology Inc Co
Current assignee: Anhui Ronds Science & Technology Inc Co
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-03

Abstract

本发明公开了一种数据处理方法，适于在计算设备中执行，方法包括步骤：从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到消息队列模块；通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到消息队列模块；通过数据计算模块获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。本发明还一并公开了一种数据处理系统，计算设备和计算机可读存储介质。

Description

一种数据处理方法、系统、计算设备及存储介质

技术领域

本发明涉及数据处理领域，特别涉及一种数据处理方法、系统、计算设备及存储介质。

背景技术

随着行业生产数字化，智能化的进程越来越快，也对数字化监控，设备智能看护提出了更高的要求。目前对设备智能看护时，需要设备各种数据的支持。设备智能看护算法需要设备同时刻的全部采集数据，然而设备各类数据时通过各类系统采集，这些系统是相互独立的，对数据进行采集后形成各自的数据孤岛。

例如在现有技术中，不同系统数据各自独立采集并存储在数据库中，假设A 系统采集设备温度指标数据，B系统采集设备电气数据，A系统数据采集延迟优于B系统，估算评定A和B系统采集数据其中最大延迟为10分钟，数据采集对齐程序定时5分钟采集处理A和B系统中数据，通过时间条件先查询A系统数据库中距当前时间10分钟前到15分钟的数据并取出，再根据对齐规则条件到B系统中获取符合条件的数据做数据对齐整合成一个数据包，用于设备智能看护算法的数据输入。

上述方式由于是通过传统的扫数据库表的方式，而且是扫描不同数据库，当数据量大时，处理性能低且及时性差，通过评估系统采集数据延迟决定等待处理时长，而不能通过A系统数据到达立即触发处理。并且由于是单机处理，处理能力无法横向扩展，不能像分布式系统那样横向扩充资源提升处理能力。

为此，需要一种新的数据处理方法。

发明内容

为此，本发明提供一种数据处理方法，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种数据处理方法，适于在计算设备执行，计算设备与多台设备通信连接，设备部署有多个数据采集模块，每个数据采集模块采集所在设备的一项运行数据，计算设备包括消息队列模块，数据对齐模块和数据计算模块，方法包括步骤：从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到消息队列模块；通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到消息队列模块；通过数据计算模块获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。

可选地，在根据本发明的方法中，运行数据包括设备标识，从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到消息队列模块包括步骤：在消息队列模块中创建第一主题模块，第一主题模块下包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配；根据运行数据的设备标识匹配与运行数据对应的分区，顺序将运行数据写入到对应的分区，将该分区的多项运行数据作为该设备的第一运行数据。

可选地，在根据本发明的方法中，在分区中写入的运行数据包括该项运行数据在分区的写入时间，和对应于数据采集模块的数据类型，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据包括步骤：将分区中的运行数据生成关于写入时间的离散化流；设置离散化流的批次间隔，并将离散化流按照批次间隔分割成多个数据集，每个数据集中包括多个写入时间在当前批次间隔中的运行数据；创建离散化流的滑动窗口，滑动窗口包括多个批次间隔的数据集；对滑动窗口中的包括的数据集，根据运行数据的采集时间和数据类型进行转化操作得到第二运行数据。

可选地，在根据本发明的方法中，创建离散化流的滑动窗口包括步骤：设置滑动窗口的窗口间隔和滑动间隔；根据窗口间隔和滑动间隔在离散化流的头部生成滑动窗口。

可选地，在根据本发明的方法中，对滑动窗口中的包括的数据集，根据运行数据的采集时间和数据类型进行转化操作得到第二运行数据包括步骤：将滑动窗口按照滑动间隔沿离散化流进行滑动，每次滑动得到滑动窗口中包括的数据集；从数据集中的提取设备标识和采集时间相同的多个运行数据；将采集时间相同的多个运行数据，根据运行数据的数据类型进行聚合，得到该采集时间下的运行数据集；将每个运行数据集按照对应的采集时间顺序输出作为第二运行数据。

可选地，在根据本发明的方法中，将每台设备的第二运行数据输出到消息队列模块包括步骤：在消息队列模块中创建第二主题模块，第二主题模块包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配；根据第二运行数据中运行数据集所包括的运行数据的设备标识匹配与第二运行数据对应的分区，将第二运行数据中的运行数据集顺序写入到对应的分区。

可选地，在根据本发明的方法中，通过数据计算模块获取每台设备的第二运行数据包括步骤：在数据计算模块中设置对于第二主题模块的订阅函数；根据订阅函数，当第二主题模块的任一分区写入新的运行数据集时，获取该分区新写入的运行数据集。

可选地，在根据本发明的方法中，运行数据还包括数据值，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行包括步骤：获取第二运行数据中的运行数据集后，根据运行数据集中包括的多个运行数据的数据类型和数据值进行计算，判断设备在该采集时间下是否正常运行。

根据本发明的另一方面，提供了一种计算设备，包括：一个或多个处理器；存储器；以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的一种数据处理方法的任一方法的指令。

根据本发明的还有一个方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，该指令当由计算设备执行时，使得计算设备执行根据本发明的一种数据处理方法中的任一方法。

根据本发明的再一个方面，提供一种数据处理系统，数据处理系统包括管理节点和数据处理节点，数据处理节点在管理节点中注册，管理节点与多台设备通信连接，设备部署有多个数据采集模块，管理节点适于从每台设备的多个数据采集模块获取设备的多项运行数据，将来自多台设备的多台运行数据向每个数据处理节点分发一台或多台设备的多项运行数据；数据处理节点包括消息队列模块，数据对齐模块和数据计算模块，适于将多项运行数据合成为第一运行数据存储到消息队列模块；通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到所述消息队列模块；通过数据计算模块获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。

本发明中的数据处理方法适于在计算设备中执行，计算设备获取来自多台设备的运行数据，运行数据来自于每台设备中部署的数据采集模块。每个数据采集模块采集所在设备的一项运行数据。计算设备包括消息队列模块，数据对齐模块和数据计算模块，计算设备获取多项运行数据后，将多项运行数据合成为第一运行数据存储到消息队列模块。通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到消息队列模块，从而将不同时间获取到的数据采集模块所采集到的运行数据，按照运行数据所采集的时间进行整合，得到同一采集时间下设备的不同数据采集模块所采集的运行数据，以便这些运行数据进行数据分析判断每台设备是否正常运行。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1a示出了根据本发明一个示范性实施例的计算设备与多个设备通信连接的示意图；

图1b示出了根据本发明一个示范性实施例的数据处理系统100与设备通信连接的示意图；

图2示出了根据本发明一个示范性实施例的计算设备200的结构框图；

图3示出了根据本发明一个示范性实施例的计算设备中消息队列模块与数据对齐模块和数据计算模块连接的示意图；

图4示出了根据本发明一个示范性实施例的数据处理方法400的流程示意图；以及

图5示出了根据本发明的一个示范性实施例的数据处理流程的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。相同的附图标记通常指代相同的部件或元素。

图1a示出了根据本发明一个示范性实施例的计算设备与多个设备通信连接的示意图。如图1所示，计算设备120与设备111和设备114通信连接。图1a 所示的计算设备120与多个设备的连接方式仅为示例性的，本发明对计算设备 120所连接的设备数量和连接方式不做限制。

设备111中部署有数据采集模块112和113，设备114中部署有数据采集模块115和116。图1中所示的设备111和114中所部署的数据采集模块的数量仅为示例性的，本发明对设备111和114中所部署的数据采集模块的数量不做限制。如图1a所示，设备111的数据采集模块112和113分别采集设备111运行时的一项运行数据，可以根据设备111需要采集的运行数据的数据类型的数量，或数据量的大小，对数据采集模块进行布置。

图1a中的计算设备120的结构可实现为图2中所示的计算设备200。图2 示出了根据本发明一个示范性实施例的计算设备200的结构框图。如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214 可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP 核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序 222以及程序数据228。在一些实施方式中，程序222可以布置为在操作系统上由一个或者多个处理器204利用程序数据228执行根据本发明的方法300的指令223。

计算设备200还可以包括储存接口总线234。储存接口总线234实现了从储存设备232(例如，可移除储存器236和不可移除储存器238)经由总线/接口控制器230到基本配置202的通信。操作系统220、程序222以及数据224的至少一部分可以存储在可移除储存器236和/或不可移除储存器238上，并且在计算设备200上电或者要执行程序222时，经由储存接口总线234而加载到系统存储器206中，并由一个或者多个处理器204来执行。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元 250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外围接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个 I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为以便经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中，程序222包括数据处理方法400的多条程序指令，这些程序指令可以指示处理器204执行本发明的计算设备200中运行的数据处理方法400中的部分步骤，以便计算设备200中的各部分通过执行本发明的数据处理方法400来实现对数据进行处理。

计算设备200可以实现为服务器，例如文件服务器240、数据库250、服务器、应用程序服务器等，这些电子设备可以是诸如个人数字助理(PDA)、无线网络浏览设备、应用专用设备、或者可以包括上面任何功能的混合设备。可以实现为包括桌面计算机和笔记本计算机配置的个人计算机，也在一些实施例中，计算设备200被配置为执行数据处理方法400。

图4示出了根据本发明一个示范性实施例的数据处理方法400的流程示意图。方法400适于在计算设备200中执行。如图4所示，数据处理方法400始于步骤S410，从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到消息队列模块。

计算设备120中包括消息队列模块，数据对齐模块和数据计算模块。图3示出了根据本发明一个示范性实施例的计算设备中消息队列模块与数据对齐模块和数据计算模块连接的示意图。如图3所示，计算设备120从每台设备的多个数据采集模块获取设备的多项运行数据后，在消息队列模块310中创建第一主题模块311，第一主题模块311下包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配。一个主题下可以包括多个分区，一个分区只能隶属于一个主题。根据本发明的一个实施例，消息队列模块310可实现为Kafka中的一个服务器代理节点(Broker)，其中创建的主题作为第一主题模块311，其中还包括多个分区。Kafka是一个分布式流处理平台，其组织结构中的其他部分在图3 中未示出，例如对集群元数据进行管理等操作的ZooKeeper可由计算设备120的其他部分进行承担。

运行数据中携带有设备标识和采集时间，设备标识为与计算设备120连接的设备的唯一标识，采集时间为设备中数据采集模块采集该运行数据的时间。运行数据与分区号构成键值对(key-value)，其中设备标识和采集时间为键(key)，第一主题模块311中所包括分区的分区号为值(value)。由于在设备中，设备中所部署的数据采集模块对设备的不同类型运行数据进行采集，对设备的不同系统中的运行数据进行采集。运行数据还包括运行数据的数据类型，数据类型对应于设备中采集该运行数据的数据采集模块。

根据本发明的一个实施例，运行数据的数据结构为：

设备标识+采集时间+分割符“-”+数据类型。

例如，设备111的设备标识为1，设备114的设备标识为2。运行数据1t5- a表示在设备111中，在t5时刻，由数据采集模块采集的a类型的运行数据。运行数据1t5-b表示在设备111中，在t5时刻，由另一数据采集模块采集的b类型的运行数据。

受制于设备中不同数据采集模块采集数据的数据类型和采集方式不同，不同数据采集模块对相应运行数据每一次采集的所需要的采集时间和采集频率也不相同。而且，运行数据的数据类型不同，数据大小不同，同一设备的不同数据采集模块将采集数据传输到计算设备120所需要的时间也不相同。

根据本发明的一个实施例，设备111与计算设备120通信连接。设备111 中，数据采集模块112对设备111的温度数据进行采集，得到数据类型为温度的运行数据。数据采集模块113对设备的电气类型数据进行采集，得到数据类型为电气的运行数据。数据采集模块112和数据采集模块113所采集的运行数据需要的采集时间和采集频率均不相同。在同一采集时间，数据采集模块112和数据采集模块113所采集的运行数据不能在同一时间传输和收集到计算设备中。

图5示出了根据本发明的一个示范性实施例的数据处理流程的示意图。如图5所示，在数据采集阶段，在设备111中，数据采集模块113通过OPC(OLE for Process Control，一种标准数据访问机制)方式采集到运行数据：1t5-b，1t10- b和1t300-b等。数据采集模块112通过modbus(一种串行通信协议)方式采集到运行数据1t1-a，1t2-a，1t3-a和1t300-a等。在同一采集时间如t300，数据采集模块113采集的电气类型数据1t300-b与数据采集模块112采集的温度类型数据1t300-a以不同时间传输到计算设备120中。

回到本发明的方法400，在获取每台设备的多项运行数据后，根据运行数据的设备标识匹配与运行数据对应的分区，顺序将多项运行数据作为第一运行数据写入到对应的分区。根据获取到这台设备的运行数据的先后，将运行数据顺序存储到与设备标识对应的分区。

根据本发明的一个实施例，计算设备120获取设备111和设备114中多个数据采集模块采集的多项运行数据，所创建的第一主题模块(data_index)中创建有对应于设备111和设备114的两个分区，分区号分别为1和2。1号分区对应存储设备111的运行数据，2号分区对应存储设备114的运行数据。计算设备 120在接收到设备111和设备114的运行数据后，根据运行数据中设备标识为1 的运行数据与分区号为1的分区进行匹配。按照接受到运行数据先后，从运行数据1t1-a开始，将多项运行数据存储到分区1中。分区1以列表形式存储这些运行数据，依次为：1t1-a、1t5-a、1t9-a、1t10-a、1t15-a、1t5-b、1t17-a、1t20-a、 1t15-b、1t26-a、1t10-b、1t20-b、1t41-a等。分区1中穿插存储有不同数据类型的运行数据，这些多项运行数据合成为第一运行数据。

随后，执行步骤S420，通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到消息队列模块。

由于计算设备120获取到每项运行数据的事件不同，因此在第一主题模块 311中分区所存储的每项运行数据在写入分区时，对运行数据添加写入时间。写入时间也为计算设备120获取到该项运行数据的时间。数据对齐模块320中可创建多个数据对齐任务，每个数据对齐任务处理第一主题模块中一个分区的任务，即对应处理一个设备的运行数据。

根据本发明的一个实施例，数据对齐模块320可实现为实时流数据处理系统SparkStreaming。Spark是一个用来实现快速且通用的集群计算平台。Spark包括的组建有SparkCore和Spark Streaming等。Spark Streaming属于Spark Core API的一个拓展，是Spark提供的对实时数据进行流式计算的组件。Spark Streaming支持从可实现为Kafla的消息队列模块310中获取数据，并对从数据源获取的数据使用高级函数进行复杂算法的处理。

数据对齐模块320先将分区中的运行数据生成关于写入时间的离散化流(Discretized Stream，简称DStream)。离散化流为随着时间推移而接收到的数据的序列。数据对齐模块320按照运行数据在分区中写入的顺序，顺序获取运行数据，并按照运行数据的写入时间排列运行数据。数据对齐模块320生成的离散化流支持转化操作，生成一个新的离散化流；和输出操作，即将数据写入外部系统。

数据对齐模块320在第一主题模块311在相应分区中写入运行数据的同时，便从分区中获取新写入的运行数据，以便快速的对运行数据进行处理。根据本发明的一个实施例，第一主题模块311的分区1中，写入运行数据1t1-a时，数据对齐模块320即获取运行数据1t1-a，按照运行数据1t1-a的写入时间将其作为离散化流的第一个数据。第一主题模块311的分区2中，写入运行数据1t5-a时，数据对齐模块320即获取运行数据1t5-a，按照运行数据1t5-a的写入时间将其放置在运行数据1t1-a后，作为离散化流的第二个数据，运行数据1t1-a与运行数据1t5-a在离散化流之间的间隔为运行数据1t1-a和运行数据1t5-a在分区中的写入时间的间隔。如图5所示，按照上述方式，生成分区1所存储运行数据的离散化流p1。数据对齐模块320同时创建其他数据对齐任务，对第一主题模块311 的其他分区的运行数据生成离散化流p2、p3、p4和p5等。

接着设置离散化流的批次间隔，并将离散化流按照批次间隔分割成多个数据集，每个数据集中包括多个写入时间在当前批次间隔中的运行数据。批次间隔 (BatchDuration)为关于离散化流在时间上的划分。设置批次间隔即根据运行数据的写入时间设置分割离散化流的时间片大小。将离散化流按照批次间隔分割成多个数据集，每个数据集即为弹性分布式数据集(Resilient Distributed Dataest，简称RDD)。RDD为Spark对分布式数据和计算的基本抽象，离散化流即为由数据集组成的序列，在离散化流内部，每个时间区间即批次间隔所获取的数据都作为数据集存在。

如图5所示，数据对齐模块320将所生成的离散化流p1以大小为batch的批次间隔对离散化流进行分割，得到batch1、batch2、batch3和batch4等，相同批次间隔的数据集。批次间隔batch1的第一数据集包括运行数据1t1-a、1t5-a和 1t9-a；批次间隔batch2的第二数据集包括运行数据1t10-a、1t15-a、1t5-b；批次间隔batch3的第三数据集包括运行数据1t17-a、1t20-a、1t15-b；批次间隔batch4 的第四数据集包括运行数据1t26-a、1t10-b、1t20-b。

接着创建离散化流的滑动窗口，滑动窗口包括多个批次间隔的数据集。创建滑动窗口时，设置滑动窗口的窗口间隔和滑动间隔，再根据窗口间隔和滑动间隔在离散化流的头部生成滑动窗口。滑动窗口(Sliding Window)内部包括多个批次间隔的数据集。滑动窗口所包括的批次数据的数量由窗口间隔(Window Duration)决定，其为滑动窗口持续的事件。滑动间隔(Slide Duration)是指经过多长时间当前滑动窗口滑动一次形成新的滑动窗口。窗口间隔和滑动间隔均为批次间隔的整数倍。

如图5所示，数据对齐模块320对批次间隔为1个batch的离散化流p1创建了窗口间隔为3个batch，滑动间隔为1个batch的滑动窗口。在离散化流p1 的头部创建滑动窗口window1时，只有滑动窗口中的数据集装满才会触发对滑动窗口中数据的处理。在最开始的离散化流p1，当初始的数据只有第一数据集，或只有第一数据集和第二数据集时，不对滑动窗口中的数据进行处理。只有滑动窗口window1中填满数据，包括第一数据集，第二数据集和第三数据集时，才对滑动窗口window1中的数据进行处理。每隔1个batch，即滑动间隔对滑动窗口进行滑动一次，得到新的滑动窗口window2，有新的数据集即第四数据集进入滑动窗口window2，此时滑动窗口window2移除最高的一个批次间隔的数据——第一数据集，与最新的一个批次间隔的数据进行汇总形成新的窗口，即第二数据集，第三数据集和第四数据集。

数据对齐模块320对滑动窗口中的包括的数据集，根据运行数据的采集时间和数据类型进行转化操作得到第二运行数据。数据对齐模块将滑动窗口按照滑动间隔沿离散化流进行滑动，每次滑动得到滑动窗口中包括的数据集；从数据集中的提取设备标识和采集时间相同的多个运行数据，将采集时间相同的多个运行数据，根据运行数据的数据类型进行聚合，得到该采集时间下的运行数据集。在提取设备标识和采集时间相同的运行数据时，将设备标识和采集时间一起作为查找运行数据的键(key)，将该设备标识在该采集时间下的所有数据类型的运行数据进行聚合。按照以设备标识和采集时间的键进行运行数据的查找时，由于设备的每个数据采集设备对运行数据进行采集的频率可能不同，因此不能在所有运行时间下均查找到所有数据类型的运行数据。当查找运行数据时，再该采集时间下，无法找到除该数据类型之外的其他数据类型的运行数据，则对其他采集时间进行运行数据的查找。随后，数据对齐模块320将每个运行数据集按照对应的采集时间顺序输出作为第二运行数据。

根据本发明的一个实施例，如图5所示，数据对齐模块320首先得到在离散化流头部滑动窗口window1中包括的数据集：第一数据集，第二数据集和第三数据集。随后按照设备标识1和采集时间t5，查找到头部滑动窗口window1 中包括的数据类型为a的运行数据1t5-a和数据类型为b的运行数据1t5-b。接着将数据类型为a的运行数据1t5-a和数据类型为b的运行数据1t5-b进行聚合得到该采集时间t5下的运行数据集1t5-ab。1t5-ab表示运行数据集1t5-ab中包含了设备标识为1的设备111在t5时刻采集的温度和电气两种数据类型的运行数据。

数据对齐模块320将滑动窗口window1沿离散化流进行滑动得到滑动窗口window2，并获取滑动窗口window2中包括的数据集：第二数据集，第三数据集和第四数据集。随后按照设备标识1和采集时间t10，查找到滑动窗口window2 中包括的数据类型为a的运行数据1t10-a和数据类型为b的运行数据1t10-b。接着将数据类型为a的运行数据1t10-a和数据类型为b的运行数据1t10-b进行聚合得到该采集时间t10下的运行数据集1t10-ab。1t10-ab表示运行数据集1t10- ab中包含了设备标识为1的设备111在t10时刻采集的温度和电气两种数据类型的运行数据。

在对同一采集时间下不同类型的运行数据进行聚合后，数据对齐模块320将生成的关于采集时间的离散化流生成新的离散化流，新的离散化流中批次间隔保持不变，每个批次间隔中存储生成的运行数据集和未进行聚合的运行数据。根据本发明的一个实施例，如图5所示，数据对齐模块320生成新的离散化流，其中，第一个批次间隔中存储运行数据集1t5-ab，和未进行聚合的运行数据1t1-a 和1t9-a。新离散化流的第二个批次间隔中存储有运行数据集1t10-ab等数据。

数据对齐模块320中的每个数据对齐任务均按照上述步骤对相应的离散化流中的数据进行数据对齐，将离散化流进行转化操作得到新的离散化流。新的离散化流按照对应的运行数据集和未进行聚合的运行数据的数据采集的采集时间顺序进行输出操作作为第二运行数据。数据对齐模块320将每台设备的第二运行数据输出到消息队列模块310时，首先在消息队列模块中创建第二主题模块，第二主题模块包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配，接着根据第二运行数据中运行数据集所包括的运行数据的设备标识匹配与第二运行数据对应的分区，将第二运行数据中的运行数据集顺序写入到对应的分区。

如图3所示，数据对齐模块320将第二运行数据输出到消息队列模块310 时，首先在消息队列模块310中创建第二主题模块312。第二主题模块312中每个分区接受数据对齐模块320中的一个数据对齐任务所输出的第二运行数据，即接收对应于连接到计算设备120的一个设备的第二运行数据。根据本发明的一个实施例，第二主题模块(data_index_align)中创建有对应于设备111和设备 114的两个分区，分区号分别为1和2。1号分区对应存储设备111的第二运行数据，2号分区对应存储设备114的第二运行数据。消息队列模块在接受到第二运行数据时，根据第二运行数据中设备标识为1将设备111的第二运行数据存储到1号分区，对第二运行数据进行存储时，按照其中接受到运行数据集和未聚合运行数据的先后进行存储。同理将设备114的第二运行数据存储到2号分区。

最后，执行步骤S430，通过数据计算模块330获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。通过数据计算模块获取每台设备的第二运行数据时，在数据计算模块330中设置对于第二主题模块312的订阅函数，根据订阅函数，当第二主题模块312的任一分区写入新的运行数据集时，获取该分区新写入的运行数据集。

根据本发明的一个实施例，第二主题模块312中设置有订阅函数，对第二主题模块312中的1号分区和2号分区开启数据消息订阅，当1号分区新写入一个运行数据集时，即从1号分区获取该运行数据集，当2号分区新写入一个运行数据集时，即从2号分区获取该运行数据集，以便数据计算模块迅速对运行数据集进行数据处理。

运行数据还包括数据值，数据值为该设备在当前采集时间下，采集的该数据类型的运行数据的取值，用于进行指标表征和数据计算。对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行时，获取第二运行数据中的运行数据集后，根据运行数据集中包括的多个运行数据的数据类型和数据值进行计算，判断设备在该采集时间下是否正常运行。对运行数据集中的运行数据进行计算时，根据多个运行数据的数据类型之间的关系，组建运算式，将运行数据的数据值带入计算式对运行数据进行计算。本发明对组建的运算式的具体形式不做限制，本领域技术人员可根据具体计算需要组建不同计算式对运行数据进行计算。本发明对判断设备是否正常运行的标准不做限制，可以通过判断运算计算值得到的数值是否在预设范围进行判断等。数据运行模块120对运行数据进行计算后，还可以出具关于设备的运行状况的报告，辅助对设备运行状况进行综合监控。当对运行数据进行算法计算后，还可设立报警机制，得到不在预设范围的计算值后，进行报警操作。

根据本发明的一个实施例，数据计算模块330对运行数据集1t5-ab进行处理时，运行数据集1t5-ab包括数据类型为a的运行数据1t5-a和数据类型为b的运行数据1t5-b。数据计算模块设置关于数据类型a和数据类型b的计算式，将运行数据1t5-a和运行数据1t5-b的数据值带入进行计算。例如，需要计算设备温度和电气数据的比值时，构建包括数据类型a和数据类型b的除法计算式，将运行数据1t5-a和运行数据1t5-b的数据值带入计算式相除得到比值，根据比值判断设备在采集时间t1下是否正常运行。

本发明中还可以使用数据处理系统替换图1a所示出的计算设备120，对设备的运行数据进行处理，数据处理系统方便对系统内部进行横向拓展，显著提高数据处理的效率。根据本发明的一个实施例，具体部署时，可对Kafka及Spark 进行分布式布置。

图1b示出了根据本发明一个示范性实施例的数据处理系统100与设备通信连接的示意图。如图1b所示，数据处理系统100包括管理节点130和数据处理节点141～144。管理节点130对数据处理节点141～144在其中进行注册和删除等管理操作，将来自多台设备的运行数据分配到数据处理节点141～144进行处理。管理节点130适于从每台设备的多个数据采集模块获取设备的多项运行数据，将来自多台设备的多台运行数据向每个数据处理节点分发一台或多台设备的多项运行数据。

数据处理节点141～144包括消息队列模块，数据对齐模块和数据计算模块，将多项运行数据合成为第一运行数据存储到消息队列模块；通过数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到消息队列模块；通过数据计算模块获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。数据处理节点141～144执行上述步骤的方式与计算设备120执行步骤S410～S430的方式相同，此处便不再赘述。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

A8、如A7所述的方法，其中，所述运行数据还包括数据值，所述对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行包括步骤：

获取所述第二运行数据中的运行数据集后，根据运行数据集中包括的多个运行数据的数据类型和数据值进行计算，判断设备在该采集时间下是否正常运行。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的设备停机状态的判断方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种数据处理方法，适于在计算设备执行，所述计算设备与多台设备通信连接，所述设备部署有多个数据采集模块，每个数据采集模块采集所在设备的一项运行数据，所述计算设备包括消息队列模块，数据对齐模块和数据计算模块，所述方法包括步骤：

从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到所述消息队列模块；

通过所述数据对齐模块获取每台设备的第一运行数据，按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据，将每台设备的第二运行数据输出到所述消息队列模块；

通过所述数据计算模块获取每台设备的第二运行数据，对第二运行数据根据采集时间进行数据分析判断每台设备是否正常运行。

2.如权利要求1所述的方法，其中，所述运行数据包括设备标识，所述从每台设备的多个数据采集模块获取设备的多项运行数据，将多项运行数据合成为第一运行数据存储到所述消息队列模块包括步骤：

在所述消息队列模块中创建第一主题模块，所述第一主题模块下包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配；

根据所述运行数据的设备标识匹配与运行数据对应的分区，顺序将多项运行数据写入到对应的分区，将该分区的多项运行数据作为该设备的第一运行数据。

3.如权利要求2所述的方法，其中，在所述分区中写入的运行数据包括该项运行数据在分区的写入时间，和对应于数据采集模块的数据类型，所述按照第一运行数据中运行数据的采集时间进行转换操作，得到与数据的采集时间对应的第二运行数据包括步骤：

将所述分区中的运行数据生成关于写入时间的离散化流；

设置所述离散化流的批次间隔，并将所述离散化流按照批次间隔分割成多个数据集，每个数据集中包括多个写入时间在当前批次间隔中的运行数据；

创建所述离散化流的滑动窗口，所述滑动窗口包括多个批次间隔的数据集；

对所述滑动窗口中的包括的数据集，根据所述运行数据的采集时间和数据类型进行转化操作得到第二运行数据。

4.如权利要求3所述的方法，其中，所述创建所述离散化流的滑动窗口包括步骤：

设置所述滑动窗口的窗口间隔和滑动间隔；

根据所述窗口间隔和滑动间隔在所述离散化流的头部生成滑动窗口。

5.如权利要求4所述的方法，其中，对所述滑动窗口中的包括的数据集，根据所述运行数据的采集时间和数据类型进行转化操作得到第二运行数据包括步骤：

将所述滑动窗口按照所述滑动间隔沿离散化流进行滑动，每次滑动得到滑动窗口中包括的数据集；

从数据集中的提取设备标识和采集时间相同的多个运行数据；

将采集时间相同的多个运行数据，根据运行数据的数据类型进行聚合，得到该采集时间下的运行数据集；

将每个运行数据集按照对应的采集时间顺序输出作为第二运行数据。

6.如权利要求5所述的方法，其中，所述将每台设备的第二运行数据输出到所述消息队列模块包括步骤：

在所述消息队列模块中创建第二主题模块，所述第二主题模块包括多个分区，每个分区的分区号均与一台设备的设备标识相匹配；

根据所述第二运行数据中运行数据集所包括的运行数据的设备标识匹配与第二运行数据对应的分区，将第二运行数据中的运行数据集顺序写入到对应的分区。

7.如权利要求6所述的方法，其中，所述通过所述数据计算模块获取每台设备的第二运行数据包括步骤：

在所述数据计算模块中设置对于所述第二主题模块的订阅函数；

根据所述订阅函数，当所述第二主题模块的任一分区写入新的运行数据集时，获取该分区新写入的运行数据集。

8.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个装置，所述一个或多个装置包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。

9.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。

10.一种数据处理系统，所述数据处理系统包括管理节点和数据处理节点，所述数据处理节点在所述管理节点中注册，所述管理节点与多台设备通信连接，所述设备部署有多个数据采集模块，所述管理节点适于从每台设备的多个数据采集模块获取设备的多项运行数据，将来自多台设备的多台运行数据向每个数据处理节点分发一台或多台设备的多项运行数据；

所述数据处理节点包括消息队列模块，数据对齐模块和数据计算模块，适于将多项运行数据合成为第一运行数据存储到所述消息队列模块；