CN111694801A

CN111694801A - 一种应用于故障恢复的数据去重方法和装置

Info

Publication number: CN111694801A
Application number: CN201910193842.6A
Authority: CN
Inventors: 安金龙; 刘业辉; 张宁; 张飞; 王彦明; 张增; 高相斌
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2020-09-22

Abstract

本发明公开了一种应用于故障恢复的数据去重方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：接收实时数据，确定所述实时数据中的主键信息；若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。该实施方式程序对于将实时计算的结果保存到文件系统时出现的故障情况，在故障恢复后，如果计算结果发生重复，可以自动化地进行数据分发、版本合并，实现数据去重的目的。

Description

一种应用于故障恢复的数据去重方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种应用于故障恢复的数据去重方法和装置。

背景技术

Spark是迭代式的内存计算框架，具有很好的高可用性。Spark Streaming作为其模块之一，常被用于进行实时的流式计算。实时的流式处理系统必须是7*24运行的，同时可以从各种各样的系统错误中恢复。

在实际使用中，数据容错和数据无丢失显得尤为重要，现有技术通过checkpoint和WAL(Write Ahead Logs，预写日志系统)可以做到数据不丢失：

1)checkpoint机制，通过不断将计算过程中的状态保存至指定文件中，可保证其容错性，类似于快照。当Spark程序出现故障或节点宕机时，重启后可以从指定文件中获取所需要的信息，以恢复计算状态；

2)针对Spark的receiver方式，设置WAL用来改进其恢复机制，保证数据的无丢失。Spark Streaming在接收数据时，会将其直接保存在内存中，但若Spark的节点出现宕机则可能导致数据丢失。针对这种情况，利用WAL将所接收的数据先写入到log文件(即日志文件)中，然后再去确认收到了这些数据，就可以保证数据的不丢失。

在实现本发明的过程中，发明人发现现有技术至少存在如下问题：

checkpoint将Spark Streaming运行过程中的数据状态保存到一个持久化系统中，如果Spark程序出现故障挂了，下次启动数据仍然能够从checkpoint中恢复，那么对于未故障前的数据，就存在写入重复的问题，同理于WAL。因此，checkpoint和WAL很容易产生重复数据，但现有技术并没有考虑数据去重的问题。

发明内容

有鉴于此，本发明实施例提供一种应用于故障恢复的数据去重方法和装置，至少能够解决现有技术中主要考虑了数据如何不丢失，但是对于程序重启后所可能存在的数据重复问题，没有考虑，造成资源不必要的占用，也不利于后续数据读取的问题。

为实现上述目的，根据本发明实施例的一个方面，提供了一种应用于故障恢复的数据去重方法，包括：

接收实时数据，确定所述实时数据中的主键信息；

若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

可选的，所述若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳之前，还包括：

存储所述实时数据至与所述主键信息相应的实时文件中；

统计所述实时文件当前的存储量，若所述存储量超出所述实时文件的存储量阈值，则根据所述实时文件的名称，确定与所述名称相应的主体文件。

可选的，所述存储所述实时数据至与所述主键信息相应的实时文件中，包括：获取实时文件的总数量，用所述主键信息对文件总数量取余数，确定与所述余数相应的实时文件，以存储所述实时数据至所确定的实时文件中。

可选的，还包括：若所述主体文件中不存在与所述主键信息相应的历史数据，则将所述实时数据作为最新数据记录，并保存至所述主体文件中进行记录存储。

可选的，在提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新之后，还包括：

接收与所述主键信息相应的数据读取请求，提取所述主体文件中的所述最新数据记录并输出。

为实现上述目的，根据本发明实施例的另一方面，提供了一种应用于故障恢复的数据去重装置，包括：

主键信息确定模块，用于接收实时数据，确定所述实时数据中的主键信息；

时间戳比较模块，用于若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

数据记录更新模块，用于提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

可选的，还包括主体文件确定模块，用于：存储所述实时数据至与所述主键信息相应的实时文件中；统计所述实时文件当前的存储量，若所述存储量超出所述实时文件的存储量阈值，则根据所述实时文件的名称，确定与所述名称相应的主体文件。

可选的，所述主体文件确定模块，用于：获取实时文件的总数量，用所述主键信息对文件总数量取余数，确定与所述余数相应的实时文件，以存储所述实时数据至所确定的实时文件中。

可选的，还包括数据记录存储模块，用于：若所述主体文件中不存在与所述主键信息相应的历史数据，则将所述实时数据作为最新数据记录，并保存至所述主体文件中进行记录存储。

可选的，还包括数据记录读取模块，用于：接收与所述主键信息相应的数据读取请求，提取所述主体文件中的所述最新数据记录并输出。

为实现上述目的，根据本发明实施例的再一方面，提供了一种应用于故障恢复的数据去重电子设备。

本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的应用于故障恢复的数据去重方法。

为实现上述目的，根据本发明实施例的再一方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任一所述的应用于故障恢复的数据去重方法。

根据本发明所述提供的方案，上述发明中的一个实施例具有如下优点或有益效果：当Spark Streaming程序对实时计算的结果保存到文件系统时，在故障恢复后，如果计算结果发生重复，通过自动化地数据分发、版本合并可实现数据去重。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的一种应用于故障恢复的数据去重方法的主要流程示意图；

图2是根据本发明实施例的一种可选的应用于故障恢复的数据去重方法的流程示意图；

图3是根据本发明实施例的另一种可选的应用于故障恢复的数据去重方法的流程示意图；

图4是根据本发明实施例的一种应用于故障恢复的数据去重装置的主要模块示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的移动设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，本发明实施例主要支持Spark Streaming类微批处理的计算程序，应用于程序报错、节点运行失败，导致程序故障恢复后数据重复，需要数据去重的场景。这里的故障恢复方式，可以是程序重启或者其他操作，但大多数情况都是需要重启的。

例如，一个机器在数据计算完后将结果写到文件里面，但在写一半的时候宕机了，然后机器重启后又重新把数据写到文件里面，那么对于机器未宕机前所写入的数据，就存在写重复的问题了。

对于本发明所涉及的词语，做解释如下：

log文件(日志文件)：通常是系统或者某些软件对已完成的某种处理的记录，以便将来做为参考。

Spark：专为大规模数据处理而设计的快速通用的计算引擎，是一个分布式的程序所以会有很多节点在计算。

Spark Streaming：构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断(几秒)，以类似batch批量处理的方式来处理这小部分数据。

Hadoop：一个高容错的分布式系统基础架构，主要解决海量数据的分布式计算和存储问题。可将大型数据处理任务分解成很多单个，并在集群中并行执行的任务，这些任务的计算结果合并在一起计算最终结果。

Kafka：一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，可通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

参见图1，示出的是本发明实施例提供的一种应用于故障恢复的数据去重方法的主要流程图，包括如下步骤：

S101：接收实时数据，确定所述实时数据中的主键信息；

S102：若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

S103：提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

上述实施方式中，对于步骤S101，对于从数据源(例如kafka)中接入的每一个实时数据(也可称为数据记录)，可以将其描述信息等提取出来，生成元数据，主要包括主键key、数据的生成时间戳ts、操作类型以及状态值，例如，

数据	主键	时间戳	操作类型	状态值
					实时数据1	1	123	新增	创建
实时数据2	2	124	更新	配送

这里的主键key，可以是从数据中直接提取出来的、或者是工作人员根据业务所规定的。例如，订单表中的主键是订单号、用户表的主键是用户ID。

元数据主要是为了从driver故障中恢复数据。数据checkpoint能节省RDD(Resilient Distributed Datasets，弹性分布式数据集)恢复性能。

对于步骤S102和S103，这里的主体文件，为存储主要数据，即合并后的数据的文件。

版本合并，指的是同一个主键的数据随着状态的更新会有多个版本，合并后仅保留新的版本。例如，订单号A，在1点的时候是下单状态；在2点的时候是支付状态；在3点的时候是出库状态。经过版本合并，就是一直保留最新状态。

主体文件中有很多数据，而一个主键下只保存有一个数据，而且还是最新的。基于这一思想，可以：

1)遍历主体文件，判断是否存在与实时数据的主键相应的历史数据；

①若存在，则比较历史数据与实时数据的时间戳，将时间戳大的数据输出；

②若不存在，则直接将该实时数据输出；

2)将所输出的数据，作为最新数据记录，保存在主体文件中，替代原有数据，达到数据更新、数据去重的目的。

以下具体举例说明：

实时数据如下：

主体文件中的数据如下：

数据	主键	时间戳	操作类型	状态值
					历史数据100	100	1	新增	创建
历史数据2	2	12	更新	支付

下面进行合并：

首先把实时数据主键1和主键2加载到内存中，以提高数据去重速度；

然后，遍历主体文件，对于不同主键的数据处理可以有不同操作：

1)直接对主体文件中的数据进行更新：

①当读到主键100时，发现内存中并没有与该主键100相应的新数据，那么仍保留；

②当读到主键2时，发现内存中有主键为2的数据，并且比较两个数据的时间戳，发现内存中主键为2的数据时间新，那么就基于该新数据对主体文件中的数据进行更新，最终主体文件中主键2的数据状态是配送；

③主体文件遍历完毕，发现对于内存中主键1的数据，匹配结果为0，那么直接把该主键1数据添加至主体文件中，例如，追加方式或者随机方式。

2)鉴于主体文件中数据量可能较多，因此所输出的数据量也不小，对于输出的数据，可能存在混淆情况。针对该情况，可以先构建一个临时主体文件，仅存放最新数据记录，后基于临时主体文件对该主体文件进行数据更新

①对于主键100，因为内存中没有相应数据，则直接输出；

②遍历到主键2时，同上，输出结果为内存中的数据，这个数据的状态是配送；

③主体文件遍历完毕，内存中还存在没有匹配到的主键1数据，那么直接把该主键1数据输出；

④在遍历过程中，将主键100、2和1的数据写入到临时的、新的主体文件中；遍历结束后，将原主体文件删除，同时将新的主体文件命名为旧的主体文件；或者将原主体文件中的数据都删除，仅将新的主体文件中的数据全部移动到原主体文件中。

临时主体文件名称需区别与主体文件，例如，以下滑线开头_main.rtf，仅具有标识的区别。在遍历完成后，将原主体文件main.rtf删除，将_main.rtf改为main.rtf；或者将_main.rtf中的数据移动到_main.rtf中。

同样以上述例子为例，虽然主体文件中最后数据均如下所示，但有不同的实现方式，为减少数据混淆情况，本发明主要以第二种方式实现。

数据	主键	时间戳	操作类型	状态值
					历史数据100	100	1	新增	创建
最新数据2	2	124	更新	配送
					实时数据1	1	123	新增	创建

对于后续的数据读取，与数据写入类似，只不过要考虑数据读取请求的接收时间。具体有：

1)主体文件中存在与该主键相应的历史数据，且未版本合并

比较历史数据与实时数据的时间戳，提取时间戳最新的实时数据或历史数据并输出；

2)主体文件中存在与该主键相应的数据，且已版本合并

直接提取主体文件中与该主键信息相应的数据记录并输出。

3)主体文件中不存在与该主键相应的数据，则输出结果为0。

例如，对于主键2，若未版本合并，则需要比较实时数据与历史数据，确定时间戳较新的数据才输出；但若版本合并，直接将文本文件中的最新数据2提取输出。

上述实施例所提供的方法，在程序发生故障并重启后，将计算结果写入到文件系统时，通过版本合并方式，能够自动化的实现数据去重。整体有效加强了数据仓库的鲁棒性、稳定性、容错性，为数据仓库运维提供了自动化，智能化的便利。

参见图2，示出的是本发明实施例提供的一种可选的应用于故障恢复的数据去重方法的主要流程图，包括如下步骤：

S201：接收实时数据，确定所述实时数据中的主键信息，存储所述实时数据至与所述主键信息相应的实时文件中；

S202：统计所述实时文件当前的存储量，若所述存储量超出所述实时文件的存储量阈值，则根据所述实时文件的名称，确定与所述名称相应的主体文件；

S203：若所述主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

S204：提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

对于一个程序而言，若将所有的数据都存放于一个主体文件中，那么每次数据更新、数据去重，需要将文件中所有数据都遍历一遍，工作量浩大、耗时较长。因此，可以将一个大的主体文件分割为多个主体文件，以分块解决上述问题。

上述实施方式中，对于步骤S201，实时文件，生成于程序(例如Spark程序)刚运行的时候，也就是第一次运行的时候，且只会生成一次。例如，程序启动时规定的实时文件个数为500个，那么后续运行过程中实时文件的个数就一直是500个。

实时文件主要用于存储实时数据(可理解为增量数据)，且具有自己的文件名，例如38400000-38599999-rtf-r-00192.rtf、1.rtf(也可以是其他命名方式)。

实时文件与主键可以具有映射关系，例如实时文件1.rtf，与主键1、2相应，对于所接收到的实时数据1和实时数据2，就可以存储至实时文件1.rtf中，所得结果有：

实时文件1.rtf中有如下数据：

存储实时数据至实时文件的方式，可以是以追加方式进行，即追加至文件末尾；也可以是其他方式，如随机方式，按照订单号大小进行插入式放置。

以上，通过数据中的主键，可以将不同数据分发到不同的文件中，以实现数据分发的目的。

对于步骤S202，实时文件只用来存放实时数据，不断有实时数据往实时文件中追加。但每个实时文件的容量有限，当达到一定大小(阈值)后需要和主体文件进行合并，以清空实时文件中的数据，并对程序中的数据进行更新。但若不超限，则不做处理。

对于实时文件大小的阈值，是为之后的版本合并做基础的，主要是根据文件夹中数据量的大小进行确定。如果数据量较大，可以把阈值调高一些，这样实时文件合并的次数就会少一些，不会很频繁。

主体文件的文件名与实时文件相应，可以为工作人员自定义，例如，实时文件1.rtf——主体文件1-main.rtf，只不过在结尾添加main标识。

例如，实时文件38400000-38599999-rtf-r-00192.rtf对应的主体文件是38400000-38599999-rtf-r-00192-main.rtf，阈值是20M，当实时文件的大小达到或者超过20M的时候，需要和主体文件进行合并。

但若不存在与实时文件名称相应的主体文件，则需要生成一个空的主体文件，且文件名称与实时文件相应。

对于步骤S203和S204，实时数据此时均存储于实时文件中，对于版本合并，实质为实时文件中的实时数据与主体文件中历史数据的合并。

同样接图1所示例子，这里仅说明区别之处：

实时文件1.rtf中有如下数据：

主体文件1-main.rtf中的数据如下：

设置临时主体文件_1-main.rtf存放版本合并后的数据，最终所得数据合并结果为：

这里对于实时文件1.rtf中的实时数据1和2，可以加载到内存中与主体文件1-main.rtf中已有数据进行比较，也可以不加载，直接进行比较。

同样，对于后续数据读取，要考虑数据读取请求的接收时间，因为牵扯到后续实时文件与主体文件版本合并的时间问题，具体有：

1)实时文件中的数据存储量未超限

①主体文件中存在与该主键相应的历史数据

②主体文件中不存在与该主键相应的数据，则直接输出该实时数据。

2)实时文件中的数据存储量超限；则直接将主体文件中的最新数据记录输出。

例如，对于主键1的数据读取，无论实时文件中的存储量是否超限，都是将该数据输出，同理于主键100。但对于主键2，需要根据实时文件存储量是否超限，做出不同的操作，但结果都是时间戳。

上述实施例所提供的方法，较之图1，增加了数据分发思路，减轻了数据堆积处理问题，提高数据分块处理速度，为实时数据仓库运维提供了自动化，智能化的便利。同时无需开发人员人工介入，降低了企业投入成本。

参见图3，示出了根据本发明实施例的另一种可选的应用于故障恢复的数据去重方法流程示意图，包括如下步骤，

S301：接收实时数据，确定所述实时数据中的主键信息；

S302：获取实时文件的总数量，用所述主键信息对文件总数量取余数，确定与所述余数相应的实时文件，以存储所述实时数据至所确定的实时文件中；

S303：统计所述实时文件当前的存储量，若所述存储量超出所述实时文件的存储量阈值，则根据所述实时文件的名称，确定与所述名称相应的主体文件；

S304：若所述主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

S305：提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

上述实施方式中，对于步骤S301、S304以及S305可分别参见图1所示步骤S101～S103的描述，步骤S303可参见图2所示S202的描述，在此不再赘述。

上述实施方式中，对于步骤S302，通过主键和实时文件个数，确定要分发的实时文件的文件名fileName。

在Spark Streaming计算程序中，确定所保存的HDFS目录下的文件个数fileNumber。每个计算程序或者每一个表，都是一个目录，就是一个程序将结果放到自己的目录里，以便让程序知道把结果写到哪里。

本发明主要是针对将计算结果存储到文件系统中，这里用的文件系统是HDFS，其他文件系统也可以.，本发明在此不做限制。

这里的文件个数fileNumber为当前数量，例如，程序启动时规定的实时文件个数为500个，那么当前的实时文件数量就是500个。

另外，文件个数也可以根据历史数据量的大小确定，例如订单表，预先确定有500个文件，每个文件128M，实时文件阈值是10M；也就是说现在有500个主体文件，500个实时文件，并且每个主体文件和实时文件是一一对应的。

实时文件：

2.2M hdfs://XXXX0-49999-rtf-r-00000.rtf

6.4M hdfs://XXXX100000-149999-rtf-r-00002.rtf

2.1M hdfs://XXXX1000000-1049999-rtf-r-00020.rtf

12.2M hdfs://XXXX1050000-1099999-rtf-r-00021.rtf

5.4M hdfs://XXXX1100000-1149999-rtf-r-00022.rtf

1.6M hdfs://XXXX1150000-1199999-rtf-r-00023.rtf

14.6M hdfs://XXXX1200000-1249999-rtf-r-00024.rtf

5.9M hdfs://XXXX1250000-1299999-rtf-r-00025.rtf

历史文件

106.8M hdfs://XXXX9550000-9599999-rtf-r-00191.rtf

106.9M hdfs://XXXX9600000-9649999-rtf-r-00192.rtf

105.7M hdfs://XXXX9650000-9699999-rtf-r-00193.rtf

107.2M hdfs://XXXX9700000-9749999-rtf-r-00194.rtf

101.9M hdfs://XXXX9750000-9799999-rtf-r-00195.rtf

105.7M hdfs://XXXX9800000-9849999-rtf-r-00196.rtf

通过主键和文件个数，确定所要分发的文件fileName，本发明可以采用取模(也就是取余数的意思)方法：

1)首先对实时文件进行排序(从0到n)；例如，根据文件的序号、名称首字母、文件名的字典顺序等进行排序，以快速找到想要分发到的文件；

2)以主键信息为被除数，文件个数为除数，用主键对文件个数取余数，找到与该余数对应的实时文件。

以订单为例，其主键为订单号：

现有实时文件500个，文件名是1.rtf到500.rtf，所对应的主体文件为1-main.rtf到500-main.rtf；

对于订单号为1的订单记录，对实时文件个数500取模，结果为1，那么就将该订单记录保存到实时文件1.rtf中。

以上方式，也可以不对实时文件进行排序，因每个实时文件都具有文件名，对于订单号为1的订单记录，所得余数为1，可以直接将该订单记录添加至实时文件1.rtf中。

上述实施例所提供的方法，提供了一种基于数据主键和文件个数取模的思路，来确定所要分发的实时文件，为实时数据仓库运维提供了自动化，智能化的便利。

本发明实施例所提供的方法，对于spark streaming程序对实时计算的结果保存到文件系统，故障恢复后，能够自动化地通过数据分发、版本合并等技术进行数据去重。既解决了计算结果重复问题，也解决了在程序升级后checkpoint不可用问题。本发明有效地加强了数据仓库的鲁棒性、稳定性、容错性，为实时数据仓库运维提供了自动化，智能化的便利。同时实现了自动化、无需开发人员人工介入，降低了企业的投入成本。

参见图4，示出了本发明实施例提供的一种应用于故障恢复的数据去重装置400的主要模块示意图，包括：

主键信息确定模块401，用于接收实时数据，确定所述实时数据中的主键信息；

时间戳比较模块402，用于若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳；

数据记录更新模块403，用于提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新。

本发明实施装置中，还包括主体文件确定模块404(图中未标出)，用于：

存储所述实时数据至与所述主键信息相应的实时文件中；

本发明实施装置中，所述主体文件确定模块404，用于：

获取实时文件的总数量，用所述主键信息对文件总数量取余数，确定与所述余数相应的实时文件，以存储所述实时数据至所确定的实时文件中。

本发明实施装置中，还包括数据记录存储模块405(图中未标出)，用于：

若所述主体文件中不存在与所述主键信息相应的历史数据，则将所述实时数据作为最新数据记录，并保存至所述主体文件中进行记录存储。

本发明实施装置中，还包括数据记录读取模块406(图中未标出)，用于：

另外，在本发明实施例中所述的应用于故障恢复的数据去重装置的具体实施内容，在上面所述应用于故障恢复的数据去重方法中已经详细说明了，故在此重复内容不再说明。

图5示出了可以应用本发明实施例的应用于故障恢复的数据去重方法或应用于故障恢复的数据去重装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505(仅仅是示例)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的应用于故障恢复的数据去重方法一般由服务器505执行，相应地，应用于故障恢复的数据去重装置一般设置于服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括主键信息确定模块、时间戳比较模块、数据记录更新模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，数据记录更新模块还可以被描述为“对主体文件中的数据记录进行更新的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

接收实时数据，确定所述实时数据中的主键信息；

根据本发明实施例的技术方案，对于spark streaming程序对实时计算的结果保存到文件系统，故障恢复后，能够自动化地通过数据分发、版本合并等技术进行数据去重。既解决了计算结果重复问题，也解决了在程序升级后checkpoint不可用问题。本发明有效地加强了数据仓库的鲁棒性、稳定性、容错性，为实时数据仓库运维提供了自动化，智能化的便利。同时实现了自动化、无需开发人员人工介入，降低了企业的投入成本。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种应用于故障恢复的数据去重方法，其特征在于，包括：

接收实时数据，确定所述实时数据中的主键信息；

2.根据权利要求1所述的方法，其特征在于，所述若主体文件中存在与所述主键信息相应的历史数据，则比较所述实时数据和所述历史数据的时间戳之前，还包括：

存储所述实时数据至与所述主键信息相应的实时文件中；

3.根据权利要求2所述的方法，其特征在于，所述存储所述实时数据至与所述主键信息相应的实时文件中，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求1所述的方法，其特征在于，在提取时间戳最新的所述实时数据或所述历史数据，作为与所述主键信息相应的最新数据记录，并保存至所述主体文件中进行记录更新之后，还包括：

6.一种应用于故障恢复的数据去重装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括主体文件确定模块，用于：

存储所述实时数据至与所述主键信息相应的实时文件中；

8.根据权利要求7所述的装置，其特征在于，所述主体文件确定模块，用于：

9.根据权利要求6所述的装置，其特征在于，还包括数据记录存储模块，用于：

10.根据权利要求6所述的装置，其特征在于，还包括数据记录读取模块，用于：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。