CN108108126B

CN108108126B - 一种数据处理方法、装置及设备

Info

Publication number: CN108108126B
Application number: CN201711345365.8A
Authority: CN
Inventors: 胡嘉伟
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-05-28
Anticipated expiration: 2037-12-15
Also published as: CN108108126A

Abstract

本发明实施例提供了一种数据处理方法、装置及设备，应用于分布式计算系统，所述方法包括：在满足数据读取条件时，确定第一偏移量，第一偏移量为：起始待读取数据在分布式消息系统中的存储偏移量；根据第一偏移量从分布式消息系统中读取数据；对所读取的数据进行数据处理；对所读取的数据处理完成后，将第二偏移量存储至分布式存储系统，其中，第二偏移量为：所读取的数据中最后一条数据在分布式消息系统中的存储偏移量。本发明实施例提供的方案中无需将读取的数据存储至分布式存储系统，进行数据处理时也就无需从分布式存储系统读取数据，降低了磁盘读写操作与网络读写操作，读写资源消耗低。

Description

一种数据处理方法、装置及设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种数据处理方法、装置及设备。

背景技术

随着大数据时代的到来数据量呈爆发式的增长，相应地，数据的分布式处理方式应运而生。

现有的分布式处理方式中，待处理的数据存储于分布式消息系统，然后由分布式计算系统从分布式消息系统中读取数据并进行处理。具体的在分布式计算系统读取数据并进行处理的过程中，分布式计算系统中的主节点会分配一部分子节点专门用于从分布式消息系统中读取数据，并将读取的数据存储到分布式存储系统中，然后主节点会分配另一部分子节点从分布式存储系统中读取数据并进行处理。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：由于用于从分布式消息系统读取数据的子节点向分布式存储系统存储数据、对数据进行处理的子节点从分布式存储系统读取数据，均需要大量磁盘读写操作与网络读写操作，读写资源消耗高。

发明内容

本发明实施例的目的在于提供一种数据处理方法、装置及设备，以实现降低磁盘读写操作与网络读写操作。具体技术方案如下：

本发明实施的一方面，提供了一种数据处理方法，应用于分布式计算系统，包括：

在满足数据读取条件时，确定第一偏移量，其中，所述第一偏移量为：起始待读取数据在分布式消息系统中的存储偏移量；

根据所述第一偏移量从所述分布式消息系统中读取数据；

对所读取的数据进行数据处理；

对所读取的数据处理完成后，将第二偏移量存储至分布式存储系统，其中，所述第二偏移量为：所读取的数据中最后一条数据在所述分布式消息系统中的存储偏移量。

可选的，所述在满足数据读取条件时，确定第一偏移量的步骤，包括：

在所述分布式计算系统重启后，获得所述分布式存储系统中存储的偏移量，并根据所获得的偏移量确定第一偏移量。

可选的，所述将第二偏移量存储至分布式存储系统的步骤，包括：

确定所述第二偏移量的存储时刻，作为目标存储时刻；

生成包含所述目标存储时刻和所述第二偏移量的记录信息，作为目标记录信息；

将所述目标记录信息存储至分布式存储系统。

可选的，所述将所述目标记录信息存储至分布式存储系统的步骤，包括：

获得所述分布式存储系统中存储的记录信息；

在所获得记录信息的数量大于一条时，确定所获得记录信息中存储时刻最早的记录信息；

指示所述分布式存储系统以所述目标记录信息覆盖存储时刻最早的记录信息。

可选的，所述在所述分布式计算系统重启后，获得所述分布式存储系统中存储的偏移量，并根据所获得的偏移量确定第一偏移量的步骤，包括：

在所述分布式计算系统重启后，获得所述分布式存储系统中存储的记录信息；

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

本发明实施的又一方面，提供了一种数据处理装置，应用于分布式计算系统，包括：

偏移量确定模块，用于在满足数据读取条件时，确定第一偏移量，其中，所述第一偏移量为：起始待读取数据在分布式消息系统中的存储偏移量；

数据读取模块，用于根据所述第一偏移量从所述分布式消息系统中读取数据；

数据处理模块，用于对所读取的数据进行数据处理；

偏移量存储模块，用于对所读取的数据处理完成后，将第二偏移量存储至分布式存储系统，其中，所述第二偏移量为：所读取的数据中最后一条数据在所述分布式消息系统中的存储偏移量。

可选的，所述偏移量确定模块，包括：

获得子模块，用于在所述分布式计算系统重启后，获得所述分布式存储系统中存储的偏移量，并根据所获得的偏移量确定第一偏移量。

可选的，所述偏移量存储模块，包括：

存储时刻确定子模块，用于确定所述第二偏移量的存储时刻，作为目标存储时刻；

记录信息生成子模块，用于生成包含所述目标存储时刻和所述第二偏移量的记录信息，作为目标记录信息；

记录信息存储子模块，用于将所述目标记录信息存储至分布式存储系统。

可选的，所述记录信息存储子模块具体用于：

获得所述分布式存储系统中存储的记录信息；

可选的，所述获得子模块具体用于：

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

本发明实施的又一方面，提供了一种数据处理设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述数据处理方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的数据处理方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的数据处理方法。

本发明实施例提供的数据方法、装置及设备，可以在满足数据读取条件时，确定本次起始待读取数据在分布式消息系统中的存储偏移量，作为第一偏移量，然后读取分布式消息系统中在第一偏移量之后存储的数据并进行数据处理，对所读取的数据处理完成后，将所读取的数据中最后一条数据在分布式消息系统中的存储偏移量存储至分布式存储系统。应用本发明实施例提供的方案进行数据处理，满足读取条件时，确定第一偏移量，并根据第一偏移量从分布式消息系统中读取数据，然后直接对所读取的数据进行处理，相比于现有技术，本发明实施例提供的方案中无需将读取的数据存储至分布式存储系统，进行数据处理时也就无需从分布式存储系统读取数据，因此，降低了磁盘读写操作与网络读写操作，读写资源消耗低。

另外，本发明实施例提供的方案中，对所读取数据处理完成后，将第二偏移量存储至分布式存储系统中，而第二偏移量表示所读取的数据中最后一条数据在分布式消息系统中的存储偏移量，因此，当数据处理过程中出现故障重启，可以读取分布式存储系统中存储的偏移量，由于分布式存储系统中存储的偏移量为已经被读取并处理的数据在分布式消息系统中的存储偏移量，根据分布式存储系统中存储的偏移量，确定起始待读取数据在分布式消息系统中的存储偏移量，能够保证分布式消息系统中存储的所有数据都被读取并处理。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种数据处理方法流程示意图；

图2为本发明实施例提供的一种数据处理装置结构示意图；

图3为本发明实施例提供的一种数据处理设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

现有的分布式处理方式中，分布式计算系统从分布式消息系统中读取数据并进行处理的过程中，分布式计算系统中的主节点会分配一部分子节点专门用于从分布式消息系统中读取数据，并将读取的数据存储到分布式存储系统中，然后主节点会分配另一部分子节点从分布式存储系统中读取数据并进行处理。由于用于从分布式消息系统读取数据的子节点向分布式存储系统存储数据、对数据进行处理的子节点从分布式存储系统读取数据，均需要大量磁盘读写操作与网络读写操作，读写资源消耗高。

本发明实施例提供的数据处理方法，在满足数据读取条件时，确定本次起始待读取数据在分布式消息系统中的存储偏移量，作为第一偏移量，读取分布式消息系统中在第一偏移量之后存储的数据并进行数据处理，对所读取的数据处理完成后，将所读取的数据中最后一条数据在分布式消息系统中的存储偏移量存储至分布式存储系统。应用本发明实施例提供的方案进行数据处理，满足读取条件时，确定第一偏移量，并根据第一偏移量从分布式消息系统中读取数据，然后直接对所读取的数据进行处理，相比于现有技术，本发明实施例提供的方案中无需将读取的数据存储至分布式存储系统，进行数据处理时也就无需从分布式存储系统读取数据，因此，降低了磁盘读写操作与网络读写操作，读写资源消耗低。

另外，本发明实施例提供的方案中，对所读取数据处理完成后，将第二偏移量存储至分布式存储系统中，而第二偏移量表示所读取的数据中最后一条数据在分布式消息系统中的存储偏移量，因此，当数据处理过程中出现故障重启，可以读取分布式存储系统中存储的偏移量，由于分布式存储系统中存储的偏移量为已经被读取并处理的数据在分布式消息系统中的存储偏移量，根据分布式存储系统中存储的偏移量，确定起始待读取数据在分布式消息系统中的存储偏移量，能够保证分布式消息系统中存储的所有数据都被读取并处理。

参照图1，示出了本发明实施例提供的一种数据处理方法的流程示意图，该方法应用于分布式计算系统。

一种实现方式中，上述分布式计算系统可以是spark streaming，spark是一种分布式计算引擎，spark streaming是基于spark的实时计算引擎。

具体的，上述数据处理方法，包括：

S100，在满足数据读取条件时，确定第一偏移量，其中，所述第一偏移量为：起始待读取数据在分布式消息系统中的存储偏移量；

一种实现方式中，上述分布式消息系统可以是kafka，kafka提供了两种接口模式供分布式计算系统进行读取数据：高层次调用接口和低层次调用接口。本发明实施例技术方案是基于低层次调用接口实施的。

一种实现方式中，满足数据读取条件可以为：满足预设的时间间隔，如，上述时间间隔可以是1分钟、5分钟等等。

一种实现方式中，分布式计算系统可以按照预设的数量来读取分布式消息系统中存储的数据并进行处理，基于此，当分布式计算系统对所读取的预设数量的数据处理完成后，即为满足数据读取条件。其中，上述预设的数量为正整数。

偏移量可以理解为数据在分布式消息系统中的相对存储位置，分布式消息系统中连续存储的各个数据的偏移量形成一个连续的消息序列。如，offset(0)、offset(1)……offset(N)，上述每一offset()表示一个数据的偏移量，这里offset()仅仅为偏移量的一种符号表示形式。

第一偏移量为本次待读取数据中第一条数据在分布式消息系统中的存储偏移量，也就是：上次所读取数据中最后一条数据在分布式消息系统中的存储偏移量的下一存储偏移量。例如，上次所读取数据中最后一条数据在分布式消息系统中的存储偏移量为offset(10)，则第一偏移量为offset(11)。

S200，根据所述第一偏移量从所述分布式消息系统中读取数据；

一种实现方式中，可以以第一偏移量为起始偏移量读取分布式消息系统中存储的所有数据，即在第一偏移量和分布式消息系统中当前存储的最新一条数据的存储偏移量之间的数据。例如，第一偏移量为offset(11)，分布式消息系统中当前存储的最新一条数据的存储偏移量为offset(20)，则读取offset(11)至offset(20)之间存储的数据。

一种实现方式中，还可以以第一偏移量为起始偏移量读取分布式消息系统中在第一偏移量之后存储的固定数量的数据，例如，第一偏移量为offset(11)，固定数量为10，相应地读取分布式消息系统中offset(11)至offset(20)之间存储的数据。

S300，对所读取的数据进行数据处理；

可以根据预设的解析规则来对所读取的数据进行数据处理，例如，通过预设的正则表达式从文本中抽取数字；通过预设的IP转换函数将IP地址转换为地域信息等。

S400，对所读取的数据处理完成后，将第二偏移量存储至分布式存储系统，其中，所述第二偏移量为：所读取的数据中最后一条数据在所述分布式消息系统中的存储偏移量。

读取分布式消息系统中的数据时是按照数据在分布式消息系统中的存储偏移量的顺序来读取的，那么第二偏移量也就是所读取数据的存储偏移量中序列号最大的那一条存储偏移量。例如，所读取数据的存储偏移量为offset(11)、offset(12)、offset(13)……offset(20)，则可也确定offset(20)为第二偏移量。

一种实现方式中，上述分布式存储系统可以是hdfs或zookeeper。hdfs被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统，容错性高，对硬件水平要求低。zookeeper是一个面向分布式应用程序的高性能协调服务器。

本发明实施例提供的数据处理方法，满足读取条件时，确定第一偏移量，并根据第一偏移量从分布式消息系统中读取数据，然后直接对所读取的数据进行处理，相比于现有技术，本发明实施例提供的方案中无需将读取的数据存储至分布式存储系统，进行数据处理时也就无需从分布式存储系统读取数据，因此，降低了磁盘读写操作与网络读写操作，读写资源消耗低。

另外，本发明实施例提供的方案中，对所读取数据处理完成后，将第二偏移量存储至分布式存储系统中，而第二偏移量表示所读取的数据中最后一条数据在分布式消息系统中的存储偏移量，因此，当数据处理过程中出现故障重启，可以读取分布式存储系统中存储的偏移量，由于分布式存储系统中存储的偏移量为已经被读取并处理的数据在分布式消息系统中的存储偏移量，根据分布式存储系统中存储的偏移量，确定第一偏移量，能够保证分布式消息系统中存储的所有数据都被读取并处理。

在满足数据读取条件时，确定第一偏移量时，可以存在多种实现方式：

第一种实现方式，当分布式计算系统首次启动时，可以将分布式消息系统中当前存储的最新一条数据所对应的偏移量确定为第一偏移量；还可以将分布式消息系统中存储的数据中第一条数据所对应的偏移量确定为第一偏移量。

第二种实现方式，在分布式计算系统正常运行过程中，由于每次读取数据后是在内存中直接进行数据处理，所以内存中记录有上一次所读取的数据中最后一条数据所对应的偏移量，因此可以将内存中记录的上一次所读取的数据中最后一条数据所对应的偏移量的下一偏移量确定第一偏移量。

第三种实现方式，由于在分布式存储系统中存储有第二偏移量，所以在每次满足数据读取条件时可以读取分布式存储系统中存储的偏移量，然后将所读取的偏移量的下一偏移量确定第一偏移量。

第四实现方式，分布式计算系统正常运行过程中，将内存中记录的上一次所读取的数据中最后一条数据所对应的偏移量的下一偏移量确定为第一偏移量；当分布式计算系统故障重启后，读取分布式存储系统中存储的偏移量，然后将所读取的偏移量的下一偏移量确定为第一偏移量。基于此，当数据处理过程中出现故障重启，导致分布式计算系统内存中的数据会丢失时，可以读取分布式存储系统中存储的偏移量，由于分布式存储系统中存储的偏移量为已经被读取并处理的数据在分布式消息系统中的存储偏移量，将由分布式存储系统中读取的偏移量的下一偏移量确定为第一偏移量，来读取分布式消息系统中存储的数据，能够保证分布式消息系统中存储的所有数据都被读取并处理。

本发明实施例一种实现方式中，S100，在满足数据读取条件时，确定第一偏移量的步骤，包括：

分布式计算系统在进行数据处理时是将读取到的数据缓存到内存中进行的，当分布式计算系统发生故障进行重启时，缓存到内存中的数据会丢失，导致分布式计算系统在重启后无法确定重启之前的数据处理情况，如读取到哪一条数据。

本发明实施例中分布式计算系统重启后，可以获得分布式存储系统中存储的偏移量，将所获得的偏移量的下一偏移量作为第一偏移量，例如所获得的偏移量为offset(10)，则可以确定第一偏移量为offset(11)。

由于分布式存储系统中存储的偏移量为已经被读取并处理的数据在分布式消息系统中的存储偏移量，根据分布式存储系统中存储的偏移量确定第一偏移量进而以第一偏移量为起始偏移量，读取分布式消息系统中存储的数据，能够在降低读写资源消耗的同时保证分布式消息系统中存储的所有数据都被读取并处理。

例如，分布式计算系统本次将读取的数据处理完成后，将所读取数据中最后一条数据的偏移量offset(10)存储至分布式存储系统中，当再次满足数据读取条件时分布式计算系统读取分布式消息系统中offset(11)到offset(20)之间的数据并进行处理，如果在数据处理的过程中分布式计算系统发生故障进行重启后，分布式计算系统通过获得分布式存储系统中存储的偏移量即offset(10)然后根据offset(10)确定第一偏移量为offset(11)，再次读取分布式消息系统中offset(11)到offset(20)之间的数据并进行处理。

本发明实施例一种实现方式中，所述将第二偏移量存储至分布式存储系统的步骤，包括：

确定所述第二偏移量的存储时刻，作为目标存储时刻存储时刻；

将所述目标记录信息存储至分布式存储系统。

存储时刻为存储第二偏移量时所对应的时刻，可以用具体的时间来表示，如2017年11月27日16时05分05秒，也可以用具体时间对应的时间戳的形式来表示，如1511769905。

一种实现方式中，记录信息可以表示为：偏移量-存储时刻。例如，offset(20)-2017年11月28日10时05分00秒。

本发明实施例一种实现方式中，将所述目标记录信息存储至分布式存储系统的步骤，包括：

获得所述分布式存储系统中存储的记录信息；

分布式存储系统在存储记录信息时可能会存储失败，那么如果分布式存储系统只存储一条记录信息，在存储新的记录信息时则需要将已经存储的记录信息删除，一旦存储失败则会导致分布式存储系统中没有存储记录信息的情况发生。因此为了保证分布式存储系统中存在至少一条记录信息，因此需要分布式存储系统存储大于一条记录信息。

一种实现方式中，综合考虑避免浪费分布式存储系统中的存储资源的情况，可以同时存储两条记录信息，基于此在存储目标记录信息时，分布式计算系统会获取分布式存储系统中存储的两条记录信息，然后确定获取的两条记录信息中存储时刻最早的记录信息，最后指示分布式存储系统将存储时刻最早的记录信息删除，再将目标记录信息存储至分布式存储系统中。

相应地，当获得的分布式存储系统中存储的记录信息小于两条时，则直接将目标记录信息存储到分布式存储系统中。

本发明实施例一种实现方式中，在所述分布式计算系统重启后，获得所述分布式存储系统中存储的偏移量，并根据所获得的偏移量确定第一偏移量的步骤，包括：

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

存储时刻最新的记录信息可以理解为存储时刻最晚的那一条记录信息，例如，如下两条记录信息：

第一条记录信息：offset(10)-2017年11月28日10时00分00秒；

第二条记录信息：offset(20)-2017年11月28日10时05分00秒；

这两条记录信息中第二条记录信息的存储时刻2017年11月28日10时05分00秒晚于第一条记录信息的存储时刻2017年11月28日10时00分00秒，则可以确定第二条记录信息offset(20)-2017年11月28日10时05分00秒为存储时刻最新的记录信息。

一种实现方式中，将上述第二条记录信息中偏移量的下一偏移量作为第一偏移量，上述下一偏移量可以是：第二条记录信息中的偏移量与这一偏移量所对应数据的数据长度之和。例如，存储时刻最新的记录信息中包含的偏移量为offset(10)，则可以确定第一偏移量为offset(11)。

存储时刻最新的记录信息中包含最近一次从分布式消息系统中读取并进行处理的数据中最后一条数据的偏移量，根据存储时刻最新的记录信息中包含的偏移量确定第一偏移量，能够降低已经被读取并处理的数据被重复读取的数量。

应用本发明实施例提供的方案进行数据处理，满足读取条件时，确定第一偏移量，并根据第一偏移量从分布式消息系统中读取数据，然后直接对所读取的数据进行处理，相比于现有技术，本发明实施例提供的方案中无需将读取的数据存储至分布式存储系统，进行数据处理时也就无需从分布式存储系统读取数据，因此，降低了磁盘读写操作与网络读写操作，读写资源消耗低。

以下以一具体的实施例来对本发明技术方案进行描述，

spark是一种分布式计算引擎，spark streaming是基于spark的实时计算引擎。

kafka是一种分布式消息系统，提供了两种接口模式供分布式计算系统进行读取数据：高层次调用接口和低层次调用接口。本发明实施例技术方案是基于低层次调用接口实施的。

hdfs被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统，容错性高，对硬件水平要求低。

假设上一次所读取数据中最后一条数据在kafka系统中的存储偏移量为offset(20)，hdfs系统中存储的记录信息包括：第一条记录信息：offset(10)-2017年11月28日10时00分00秒；第二条记录信息：offset(20)-2017年11月28日10时05分00秒。

当满足固定的时间间隔时，spark streaming系统确定本次待读取数据中起始数据在kafka系统中的存储偏移量为offset(21)。当前kafka系统中最新一条数据的存储偏移量为offset(30)，从kafka系统中读取offset(21)至offset(30)之间的数据并进行数据处理。

spark streaming系统对所读取的数据处理完成后，将offset(30)存储至hdfs系统中，具体的，首先确定offset(30)当前存储时刻为2017年11月28日10时10分00秒，然后获得hdfs系统中存储的两个记录信息，确定第一条记录信息存储时刻最早，指示hdfs系统以offset(30)-2017年11月28日10时10分00秒覆盖第一条记录信息，存储完成后hdfs系统中存储的记录信息变为：第二条记录信息：offset(20)-2017年11月28日10时05分00秒；第一条记录信息：offset(30)-2017年11月28日10时10分00秒。

当再次满足固定的时间间隔时，spark streaming系统确定本次待读取数据中起始数据在kafka系统中的存储偏移量offset(31)。然后读取kafka系统中offset(31)至当前kafka系统中存储的最新一条数据的存储偏移量之间的数据。

spark streaming系统对所读取的数据进行处理时系统发生重启，重启完成后spark streaming系统获取hdfs系统中存储的记录信息，确定第一条记录信息的存储时刻最新，进而确定最近一次所读取数据中最后一条数据的偏移量为offset(30)，然后可以确定本次待读取数据中起始数据在kafka系统中的存储偏移量为offset(31)，读取kafka系统中offset(31)至当前kafka系统中存储的最新一条数据的存储偏移量之间的数据。

参照图2，示出了本发明实施例提供了一种数据处理装置，应用于分布式计算系统，包括：

偏移量确定模块500，用于在满足数据读取条件时，确定第一偏移量，其中，所述第一偏移量为：起始待读取数据在分布式消息系统中的存储偏移量；

数据读取模块600，用于根据所述第一偏移量从所述分布式消息系统中读取数据；

数据处理模块700，用于对所读取的数据进行数据处理；

偏移量存储模块800，用于对所读取的数据处理完成后，将第二偏移量存储至分布式存储系统，其中，所述第二偏移量为：所读取的数据中最后一条数据在所述分布式消息系统中的存储偏移量。

一种实现方式中，所述确偏移量定模块，包括：

本发明实施例技术方案在分布式计算系统重启后，能够获取分布式存储系统中存储的偏移量，并根据获取的偏移量确定第一偏移量，读取分布式消息系统中的数据，以此来保证分布式消息系统中存储的所有数据能够被读取并处理。

一种实现方式中，所述偏移量存储模块，包括：

记录信息生成子模块，用于生成包含所述目标存储时刻和第二偏移量的记录信息，作为目标记录信息；

一种实现方式中，所述记录信息存储子模块具体用于：

获得所述分布式存储系统中存储的记录信息；

一种实现方式中，所述获得子模块具体用于：

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

本发明实施例还提供了一种数据处理设备，如图3所示，包括处理器001、通信接口002、存储器003和通信总线004，其中，处理器001，通信接口002，存储器003通过通信总线004完成相互间的通信，

存储器003，用于存放计算机程序；

处理器001，用于执行存储器003上所存放的程序时，实现本发明实施例所述的数据处理方法。

具体的，上述数据处理方法，包括：

根据所述第一偏移量从所述分布式消息系统中读取数据；

对所读取的数据进行数据处理；

需要说明的是，上述处理器001执行存储器003上所存放的程序实现数据处理方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Ne twork Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，实现本发明实施例所述的数据处理方法。

具体的，上述数据处理方法，包括：

根据所述第一偏移量从所述分布式消息系统中读取数据；

对所读取的数据进行数据处理；

需要说明的是，通过上述计算机可读存储介质实现数据处理方法的其他实施例，与前述方法实施例部分提供的实施例相同，这里不再赘述。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，实现本发明实施例所述的数据处理方法。

具体的，上述数据处理方法，包括：

根据所述第一偏移量从所述分布式消息系统中读取数据；

对所读取的数据进行数据处理；

需要说明的是，通过上述计算机程序产品实现数据处理方法的其他实施例，与前述方法实施例部提供的实施例相同，这里不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、数据处理设备、计算机程序产品、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，应用于分布式计算系统，包括：

根据所述第一偏移量从所述分布式消息系统中读取数据；

对所读取的数据进行数据处理；

2.如权利要求1所述的方法，其特征在于，所述在满足数据读取条件时，确定第一偏移量的步骤，包括：

3.如权利要求2所述的方法，其特征在于，所述将第二偏移量存储至分布式存储系统的步骤，包括：

确定所述第二偏移量的存储时刻，作为目标存储时刻；

将所述目标记录信息存储至分布式存储系统。

4.如权利要求3所述的方法，其特征在于，所述将所述目标记录信息存储至分布式存储系统的步骤，包括：

获得所述分布式存储系统中存储的记录信息；

5.如权利要求4所述的方法，其特征在于，所述在所述分布式计算系统重启后，获得所述分布式存储系统中存储的偏移量，并根据所获得的偏移量确定第一偏移量的步骤，包括：

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

6.一种数据处理装置，其特征在于，应用于分布式计算系统，包括：

数据处理模块，用于对所读取的数据进行数据处理；

7.如权利要求6所述的方法，其特征在于，所述偏移量确定模块，包括：

8.如权利要求7所述的方法，其特征在于，所述偏移量存储模块，包括：

9.如权利要求8所述的方法，其特征在于，所述记录信息存储子模块具体用于：

获得所述分布式存储系统中存储的记录信息；

10.如权利要求9所述的方法，其特征在于，所述获得子模块具体用于：

确定所获得记录信息中存储时刻最新的记录信息；

根据所述最新的记录信息中包含的偏移量确定第一偏移量。

11.一种数据处理设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。