CN113011507A

CN113011507A - 建立同步时间预测模型的方法、数据同步方法及对应装置

Info

Publication number: CN113011507A
Application number: CN202110314033.3A
Authority: CN
Inventors: 秦兴彬
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-22
Anticipated expiration: 2041-03-24
Also published as: CN113011507B

Abstract

本说明书实施例提供了一种建立同步时间预测模型的方法、数据同步方法及对应装置。根据该实施例的方法，利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测；然后在待预测同步周期按照预测得到的同步时间向目标站点发起数据同步请求；并将所述目标站点发送的同步数据存储至数据中心。其中第一时间序列模型是对目标站点的基线时间序列进行学习得到的，基线时间序列是从目标站点在预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间而构成的。

Description

建立同步时间预测模型的方法、数据同步方法及对应装置

技术领域

本说明书一个或多个实施例涉及计算机应用技术领域，尤其涉及建立同步时间预测模型的方法、数据同步方法及对应装置。

背景技术

在当前全球化背景下，同一业务往往存在多个站点，需要将不同站点的数据同步到同一个数据中心。但由于各站点数据准备的时间、流程处理和性能等方面的差异，往往同步时间不一致，因此如何确定合理的同步时间成为难点。

发明内容

本说明书一个或多个实施例描述了一种建立同步时间预测模型的方法、数据同步方法及对应装置，能够更为准确地进行站点数据的同步。

根据第一方面，提供了一种建立同步时间预测模型的方法，包括：

获取站点在预设历史时长内的同步时间数据；

从所述同步时间数据中提取各同步周期所对应同步时间的基线时间，构成基线时间序列；

利用第一时间序列模型对所述基线时间序列进行学习，得到包括所述第一时间序列模型的同步时间预测模型；

其中，训练得到的所述第一时间序列模型用以对所述站点在待预测同步周期的同步时间进行预测。

在一个实施例中，从所述同步时间数据中提取各同步周期所对应同步时间的基线时间包括：

获取所述各同步周期所对应同步时间的时间曲线；

确定所述时间曲线的下包络线；

确定各同步周期在所述下包络线上对应的时间分别作为各同步周期的基线时间。

在另一个实施例中，在所述利用第一时间序列模型对所述基线时间序列进行学习之前，还包括：对所述基线时间序列进行以下滤波处理中的至少一种：

中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

在一个实施例中，所述利用第一时间序列模型对所述基线时间序列进行学习包括：

利用所述基线时间序列得到一个以上的训练样本，所述训练样本中包括连续T1+N1个同步周期的基线时间；

分别将训练样本中前T1个同步周期的基线时间作为所述第一时间序列模型的输入，将所述训练样本中后N1个同步周期的基线时间作为所述第一时间序列模型的目标输出，以训练所述第一时间序列模型；

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

在另一个实施例中，还包括：

分别确定各同步时间周期的同步时间与基线时间的时间差值，构成时间差值序列；

利用第二时间序列模型对所述时间差值序列进行学习；

所述同步时间预测模型进一步包括所述第二时间序列模型，训练得到的所述第二时间序列模型用以对所述站点在待预测同步周期的同步请求重试间隔进行预测。

在一个实施例中，在所述利用第二时间序列模型对所述时间差值序列进行学习之前，还包括：对所述时间差值序列进行以下滤波处理中的至少一种：

中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

在另一个实施例中，利用第二时间序列模型对所述时间差值序列进行学习包括：

利用所述时间差值序列得到一个以上的训练样本，所述训练样本中包括连续T2+N2个同步周期对应的时间差值；

分别将训练样本中前T2个同步周期对应的时间差值作为所述第二时间序列模型的输入，将所述训练样本中后N2个同步周期对应的时间差值作为所述第二时间序列模型的目标输出，以训练所述第二时间序列模型；

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

根据第二方面，提供一种数据同步方法，包括：

利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测；

在所述待预测同步周期按照预测得到的同步时间向所述目标站点发起数据同步请求；

将所述目标站点发送的同步数据存储至数据中心；

其中所述第一时间序列模型是对所述目标站点的基线时间序列进行学习得到的，所述基线时间序列是从所述目标站点在预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间而构成的。

在一个实施例中，所述利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测包括：

将连续T1个同步周期的同步时间输入所述第一时间序列模型；

获取所述第一时间序列模型对所述T1个同步时间周期之后N1个同步周期的基线时间的预测，所述待预测同步周期属于所述N1个同步周期；

将预测得到的基线时间作为在所述待预测同步周期向所述目标站点首次发起数据同步请求的时间；

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

在另一个实施例中，在向所述目标站点发起数据同步请求之后，还包括：

若未接收到所述目标站点发送的同步数据，则按照同步请求重试间隔再次向所述目标站点发起数据同步请求，直至接收到所述目标站点发送的同步数据或者同步请求的发送次数达到预设的最大重试次数。

在一个实施例中，该方法还包括：

利用所述同步时间预测模型包括的第二时间序列模型对所述待预测同步周期的同步请求重试间隔进行预测；

利用预测结果得到所述同步请求重试间隔；

其中所述第二时间序列模型是对所述目标站点的时间差值序列进行学习得到的，所述时间差值序列是由各同步时间周期的同步时间与基线时间的时间差值构成的。

在另一个实施例中，利用所述同步时间预测模型包括的第二时间序列模型对所述待预测同步周期的同步请求重试间隔进行预测包括：

将连续T2个同步周期的时间差值输入所述第二时间序列模型，所述时间差值为实际同步时间与基线时间的差值；

获取所述第二时间序列模型对所述T2个同步时间周期之后N2个同步周期的时间差值的预测，所述待预测同步周期属于所述N2个同步周期；

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

根据第三方面，提供了一种建立同步时间预测模型的装置，包括：

第一获取单元，被配置为获取站点在预设历史时长内的同步时间数据；

第一序列单元，被配置为从所述同步时间数据中提取各同步周期所对应同步时间的基线时间，构成基线时间序列；

第一训练单元，被配置为利用第一时间序列模型对所述基线时间序列进行学习，得到包括所述第一时间序列模型的同步时间预测模型；

在一个实施例中，所述第一序列单元，具体被配置为获取所述各同步周期所对应同步时间的时间曲线；确定所述时间曲线的下包络线；确定各同步周期在所述下包络线上对应的时间分别作为各同步周期的基线时间。

在另一个实施例中，还包括：

第一滤波单元，被配置为对所述基线时间序列进行以下滤波处理中的至少一种：中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波；

所述第一训练单元，具体被配置为利用第一时间序列模型对滤波处理后的基线时间序列进行学习。

在一个实施例中，所述第一训练单元，具体被配置为利用所述基线时间序列得到一个以上的训练样本，所述训练样本中包括连续T1+N1个同步周期的基线时间；分别将训练样本中前T1个同步周期的基线时间作为所述第一时间序列模型的输入，将所述训练样本中后N1个同步周期的基线时间作为所述第一时间序列模型的目标输出，以训练所述第一时间序列模型；其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

在另一个实施例中，还包括：

第二序列单元，被配置为分别确定各同步时间周期的同步时间与基线时间的时间差值，构成时间差值序列；

第二训练单元，被配置为利用第二时间序列模型对所述时间差值序列进行学习；

在一个实施例中，还包括：

第二滤波单元，被配置为对所述时间差值序列进行以下滤波处理中的至少一种：中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波；

所述第二训练单元，具体被配置为利用第二时间序列模型对滤波处理后的时间差值序列进行学习。

在另一个实施例中，所述第二训练单元，具体被配置为利用所述时间差值序列得到一个以上的训练样本，所述训练样本中包括连续T2+N2个同步周期对应的时间差值；分别将训练样本中前T2个同步周期对应的时间差值作为所述第二时间序列模型的输入，将所述训练样本中后N2个同步周期对应的时间差值作为所述第二时间序列模型的目标输出，以训练所述第二时间序列模型；其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

根据第四方面，提供了一种数据同步装置，包括：

第一预测单元，被配置为利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测；

同步处理单元，被配置为在所述待预测同步周期按照预测得到的同步时间向所述目标站点发起数据同步请求；将所述目标站点发送的同步数据存储至数据中心；

在一个实施例中，所述第一预测单元，具体被配置为：将连续T1个同步周期的同步时间输入所述第一时间序列模型；获取所述第一时间序列模型对所述T1个同步时间周期之后N1个同步周期的基线时间的预测，所述待预测同步周期属于所述N1个同步周期；

所述同步处理单元，具体被配置为将所述第一预测单元预测得到的基线时间作为在所述待预测同步周期向所述目标站点首次发起数据同步请求的时间；

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

在另一个实施例中，所述同步处理单元，进一步被配置为若未接收到所述目标站点发送的同步数据，则按照同步请求重试间隔再次向所述目标站点发起数据同步请求，直至接收到所述目标站点发送的同步数据或者同步请求的发送次数达到预设的最大重试次数。

在一个实施例中，还包括：

第二预测单元，被配置为利用所述同步时间预测模型包括的第二时间序列模型对所述待预测同步周期的同步请求重试间隔进行预测；

所述同步处理单元，进一步被配置为利用预测结果得到所述同步请求重试间隔；

在另一个实施例中，所述第二预测单元，具体被配置为将连续T2个同步周期的时间差值输入所述第二时间序列模型，所述时间差值为实际同步时间与基线时间的差值；获取所述第二时间序列模型对所述T2个同步时间周期之后N2个同步周期的时间差值的预测，所述待预测同步周期属于所述N2个同步周期；

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

根据第五方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

根据本说明书实施例提供的方法和装置，通过第一时间序列模型对站点的历史同步数据进行学习，能够针对站点实现待预测时间周期的同步时间预测，从而更加准确地进行站点数据同步，避免盲目地发起数据同步请求，减少资源浪费。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本说明书所应用的系统架构图；

图2示出了根据一个实施例的同步时间预测模型的建立方法的流程图；

图3示出了本说明书实施例提供的获取基线时间序列的方法流程图；

图4示出了本说明书实施例提供的一个基线时间曲线的示意图；

图5示出了本说明书实施例提供的训练第一时间序列模型的方法流程图；

图6示出了根据另一个实施例的同步时间预测模型的建立方法的流程图；

图7示出了根据一个实施例的数据同步方法的流程图；

图8示出了根据一个实施例的该建立同步时间预测模型的装置的示意性框图；

图9示出了根据一个实施例的该数据同步装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

目前已有的技术在进行各站点的数据同步时，主要采用以下两种方式：

第一种方式是同步装置高频地向各站点发起数据同步请求，以尝试从站点获取同步数据。这种方式会导致机器性能的消耗和网络带宽资源的浪费。

第二种方式是由各站点在要同步的数据准备完毕后，主动推送消息给同步装置，同步装置监听到该消息后从站点获取同步数据。但这种方式需要开发和维护多端的消息系统，运营成本较高。

有鉴于此，本说明书提供了一种智能化的数据同步方式，在该同步方式中从站点的历史同步时间数据中进行学习，以实现对数据同步时间的准确预测。下面结合实施例对以上构思进行详细描述。

为了方便对本说明书的理解，首先对本说明书所应用的系统架构进行描述。如图1中所示，该系统架构主要包括一个以上的站点(图1中以5个站点为例)、同步装置和数据中心。

站点与同步装置之间通过网络交互，同步装置与数据中心之间也通过网络交互。其中，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

站点可以是在互联网上拥有域名或地址并提供一定网络服务的主机，是存储文件的空间，通常以服务器或服务器集群为载体。

同步装置用以在每个同步周期从各站点获取同步数据，并将同步数据存储至数据中心。在本说明书中同步装置可以利用各站点的历史同步时间数据建立同步时间预测模型，并在实际的数据同步过程中，利用各站点的同步时间预测模型预测向站点发起数据同步请求的时间。具体将在后续实施例中详细描述。

数据中心用以存储各站点的同步数据，以对各站点的数据进行存储，以进行备份、查询等后续处理。数据中心可以以服务器、服务器集群、大型储存设备等为载体。

应该理解，图1中的站点、同步装置和数据中心的数目仅仅是示意性的。根据实现需要，可以具有任意数目的站点、同步装置和数据中心。

在本说明书的实现方式中主要包括两个阶段：一个阶段是同步时间预测模型的建立过程，另一个阶段是基于同步时间预测模型的数据同步过程。下面分别结合实施例对这两个过程进行描述。

图2示出根据一个实施例的同步时间预测模型的建立方法的流程图。该方法的执行主体为建立同步时间预测模型的装置，可以设置于如图1中所示的同步装置中。可以理解，该同步装置可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来实现。如图2所示，该方法包括:

步骤201，获取站点在预设历史时长内的同步时间数据。

本说明书中建立同步时间预测模型是基于历史同步时间数据的，在本步骤中涉及的预设历史时长至少包括多于一个的同步周期的同步时间数据。通常可以选取一个较长的历史时长，使其包含大量历史的同步周期，从而充分对其规律进行学习。

通常情况下，对站点进行的同步是按照固定的同步周期的，例如按天进行同步、按星期进行同步、按月进行同步等等。但在同步周期内具体的同步时间每个站点会因为性能、流程处理等等原因而存在差异。假设是按天进行同步，那么每天中具体什么时间开始同步(即站点准备好同步数据)则是不同的。

本步骤中涉及的同步时间数据包括预设历史时长内各同步周期的同步时间。该同步时间可以是实际同步时间即成功请求到同步数据的时间，也可以是各站点实际准备好同步数据的时间。由于这些同步都是历史发生过的同步事件，因此这些同步事件数据是可以获取到的。

步骤203，从预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间，构成基线时间序列。

本说明书中各同步周期的基线时间可以理解为各同步周期进行同步的“基本”时间、初始时间。各同步周期的基线时间是早于或等于实际同步时间的，在早于实际同步时间时也是临近实际同步时间的。这样能够保证在各同步周期从基线时间开始进行数据同步请求能够即时或很快获取到同步数据。其中基线时间的具体提取方式以及基线时间序列的具体构成方式将在后续实施例中详细描述。

步骤205，利用第一时间序列模型对基线时间序列进行学习，得到包括第一时间序列模型的同步时间预测模型。其中，训练得到的第一时间序列模型用以对该站点在待预测同步周期的同步时间进行预测。

利用第一时间序列模型对基线时间序列进行学习后，能够学习到各同步周期的基线时间的分布。训练得到的第一时间序列模型是与站点对应的，也就是说，可以分别利用各站点的历史同步时间数据，针对各站点分别训练得到各站点的第一时间序列模型。

对于某一个具体的站点(本说明书中称为目标站点)，可以利用该目标站点的第一时间序列对其在待预测同步周期的同步时间进行预测，预测得到的同步时间实际上是该目标站点的基线时间。即针对该目标站点可以从预测得到基线时间开始发起数据同步请求。

可以看出，本说明书中通过第一时间序列模型对站点的历史同步数据进行学习，能够针对站点实现待预测时间周期的同步时间预测，从而更加准确地进行站点数据同步，避免盲目地发起数据同步请求，减少资源浪费。

下面结合实施例对上述步骤203，即从预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间，构成基线时间序列的具体实现进行详细描述。

图3为本说明书实施例提供的获取基线时间序列的方法流程图，如图3中所示，该方法可以包括以下步骤：

步骤301：获取各同步周期所对应同步时间的时间曲线。

在本步骤中，可以将站点在预设历史时长内各同步周期所对应的同步时间进行拟合，得到时间曲线。具体的拟合方式在此不做限制。

假设同步周期为每天，那么假设将站点A从2020年10月1日开始至2020年12月1日之间每天的同步时间进行拟合后得到如图4中的时间曲线(在图4中已作出标注)。

步骤303：确定该时间曲线的下包络线。

在本说明书实施例中，时间曲线的下包络线指的是将时间曲线中发生梯度改变的下凸顶点进行拟合，得到的一条平滑曲线，如图4中所示。

步骤305：确定各同步周期在下包络线上对应的时间分别作为各同步周期的基线时间。

可以将各同步周期在下包络线上的投影(即在下包络线上对应的时间)分别作为各同步周期的基线时间。也就是说，步骤303中得到的下包络线实际上就是各同步周期的基线时间曲线。

步骤307：将各同步周期的基线时间构成基线时间序列。

按照各同步周期的时间顺序，将各同步周期的基线时间依次排列，构成基线时间序列。

步骤309：对基线时间序列进行中值滤波处理。

本步骤是更进一步地优选处理，是对基线时间序列进行的平滑处理。因为一些特殊的异常，例如站点系统异常等，可能会造成同步时间的异常值，这些异常值不能反映通常状况，因此作为一种优选的方式最好将其过滤掉，以避免影响后续第一时间序列模型的准确性。

在本实施例中以中值滤波处理为例，但除此之外，还可以采用诸如均值滤波、卡尔曼滤波、高斯滤波、双边滤波等等。这些滤波技术是目前已有的滤波技术，在此不做详述。

下面结合实施例对上述步骤205，即利用第一时间序列模型对基线时间序列进行学习，得到包括第一时间序列模型的同步时间预测模型的具体实现进行详细描述。

图5为本说明书实施例提供的训练第一时间序列模型的方法流程图，如图5中所示，该方法可以包括以下步骤：

步骤501：利用基线时间序列得到一个以上的训练样本，各训练样本中包括连续T1+N1个时间周期的基线时间。

在利用基线时间序列构建训练样本时，可以采用时间窗口的方式，即设置长度为T1个时间周期的时间窗口，利用时间窗口内的时间周期以及该时间窗口之后N1个时间周期的基线时间构成一个训练样本。将该时间窗口在基线时间序列中进行移动，就可以构成多个训练样本。T1为大于1的正整数，N1为1以上的正整数。

步骤503：分别将训练样本中前T1个同步周期的基线时间作为第一时间序列模型的输入，将训练样本中后N1个同步周期的基线时间作为第一时间序列模型的目标输出，以训练第一时间序列模型。

本步骤中训练第一时间序列模型的过程中，前T1个同步周期的基线时间作为第一时间模型的输入，由第一时间序列模型预测后N1个时间周期的基线时间，训练目标为：最小化预测得到的后N1个时间周期的基线时间与训练样本中后N1个时间周期的基线时间的差异。可以依据该训练目标构建损失函数，根据每轮训练中损失函数的值优化第一时间序列模型的参数，直至达到预设的训练结束条件。其中训练结束条件可以是损失函数的值小于或等于预设的损失函数阈值，迭代次数达到预设的迭代次数阈值，等等。

举个例子，每个训练样本中包括连续11天的基线时间。在训练第一时间序列模型时，将每个训练样本中前10天的基线时间作为第一时间序列模型的输入，将第11天的基线时间作为第一时间序列模型的目标输出。整个训练过程中实际上是第一时间序列模型从前10天的基线时间中学习以预测第11天的基线时间的过程。

图6示出根据另一个实施例的同步时间预测模型的建立方法的流程图。该方法的执行主体为建立同步时间预测模型的装置，可以设置于如图1中所示的同步装置中。可以理解，该同步装置可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来实现。如图6所示，该方法包括:

步骤601～步骤605同图2所示实施例中步骤201～步骤205，具体参见图2所示实施例中的记载，在此不做赘述。

步骤607：分别确定各同步周期的同步时间与基线时间的时间差值，构成时间差值序列。

步骤609：对时间差值序列进行中值滤波处理。

本步骤是更进一步地优选处理，是对时间差值进行的平滑处理。通常情况下，同步时间应该与基线时间距离较小，如果出现特别大的情况，则可能是由于一些异常造成的，最好将这些异常值过滤掉，以避免影响后续第二时间序列模型的准确性，提高鲁棒性。

步骤611：利用第二时间序列模型对时间差值序列进行学习，上述同步时间预测模型进一步包括该第二时间序列模型，训练得到的第二时间序列模型用以对站点在待预测同步周期的同步请求重试间隔进行预测。

第二时间序列模型的训练过程与第一时间序列模型类似。首先利用时间差值序列得到一个以上的训练样本，训练样本中包括连续T2+N2个同步周期对应的时间差值。其中，T2为大于1的正整数，N2为1以上的正整数。

作为一种优选的实施方式，上述T2＝T1，N2＝N1，但并不限于此。

然后分别将训练样本中前T2个同步周期对应的时间差值作为第二时间序列模型的输入，将该训练样本中后N2个同步周期对应的时间差值作为第二时间序列模型的目标输出，以训练第二时间序列模型。

第二时间序列模型根据前T2个同步周期对应的时间差值预测后N2个同步周期对应的时间差值，训练目标为：最小化预测得到的后N1个时间周期对应的时间差值与训练样本中后N1个时间周期对应的时间差值的差异。可以依据该训练目标构建损失函数，根据每轮训练中损失函数的值优化第二时间序列模型的参数，直至达到预设的训练结束条件。其中训练结束条件可以是损失函数的值小于或等于预设的损失函数阈值，迭代次数达到预设的迭代次数阈值，等等。

举个例子，每个训练样本中包括连续11天对应的时间差值。在训练第二时间序列模型时，将每个训练样本中前10天对应的时间差值作为第二时间序列模型的输入，将第11天对应的时间差值作为第二时间序列模型的目标输出。整个训练过程中实际上是第二时间序列模型从前10天对应的时间差值中学习以预测第11天对应的时间差值的过程。

至此训练结束后，就得到了包括第一时间序列模型和第二时间序列模型的同步时间预测模型。

在本说明书的实施例中涉及的第一时间序列模型和第二时间序列模型可以采用诸如线性回归模型、多项式回归模型、梯度回归树、深度神经网络等来实现。

图7示出根据一个实施例的数据同步方法的流程图，该方法的执行主体为数据同步装置，可以设置于如图1中所示的同步装置中。如图7中所示，该方法可以包括以下步骤：

步骤701：利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测。

在本说明书的一个实施例中，可以利用上文中任意一个实施例的方法来训练得到包括第一时间序列模型的同步时间预测模型。例如，可以采用结合图2、图3、图5以及图6中任一所示的方法，来训练得到同步时间预测模型。

如前文所述，同步时间预测模型包括的第一时间序列模型是对目标站点的基线时间序列进行学习得到的，基线时间序列是从目标站点在预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间而构成的。

作为其中一种可选的实施方式，在步骤701，可以将连续T1个同步周期的同步时间输入第一时间序列模型；获取第一时间序列模型对该T1个同步时间周期之后N1个同步周期的基线时间的预测，其中待预测同步周期属于该N1个同步周期，可以为其中一个，也可以为其中多个。将预测得到的基线时间作为在待预测同步周期向目标站点首次发起数据同步请求的时间。

上述的T1和N1与模型训练过程中采用的T1和N1相同。例如，当在第一时间序列模型的训练过程中，是利用时间窗口中前10个同步周期的基线时间学习第11个同步周期的基线时间，那么在本步骤中进行实际预测时，也将最近10个同步周期的同步时间输入第一时间预测模型，由第一时间预测模型预测下1个同步周期的同步时间。

步骤703：在待预测同步周期按照预测得到的同步时间向所述目标站点发起数据同步请求。

数据同步装置将预测得到的待预测同步周期的同步时间作为在该同步周期向目标站点初始发起数据同步请求的时间。

目标站点通常会按照同步周期，将准备的同步数据放入特定目录下，若准备完成后会在特定目录打一个标识(例如success标识)进行指示。数据同步装置发起数据同步请求，目标站点会将检测特定目录是否存在指示同步数据准备完成的标识。如果存在，响应于数据同步请求，将同步数据发送给数据同步装置，此时数据同步装置执行步骤705。如果不存在该标识，则不会将同步数据发送给数据同步装置，可以返会指示数据未准备成功的响应。

步骤705：将目标站点发送的同步数据存储至数据中心。

如上所述地，在向目标站点发送数据同步请求后可能无法得到同步数据，这种情况下，可以按照同步请求重试间隔再次向目标站点发起数据同步请求，直至接收到目标站点发送的同步数据或者同步请求的发送次数达到预设的最大重试次数等。

其中，上述同步请求重试间隔可以采用预先确定的实验值或经验值。作为一种优选的实施方式，上述同步请求重试间隔可以采用图6所示实施例中训练得到的同步时间预测模型中的第二时间序列模型进行预测得到。即利用第二时间序列模型对待预测同步周期的同步请求重试间隔进行预测，利用预测结果得到同步请求重试间隔。

具体地，可以将连续T2个同步周期的时间差值输入第二时间序列模型。其中各同步周期的时间差值是实际同步时间与基线时间的差值。然后获取第二时间序列模型对该T2个同步周期之后N2个同步周期的时间差值的预测，其中待预测同步周期属于该N2个同步周期。

上述的T2和N2与模型训练过程中采用的T2和N2相同。例如，当在第二时间序列模型的训练过程中，是利用时间窗口中前10个同步周期的时间差值学习第11个同步周期的时间差值，那么在本步骤中进行实际预测时，也将最近10个同步周期的时间差值输入第二时间预测模型，由第二时间预测模型预测下1个同步周期的时间差值。

其中，在利用预测结果得到同步请求重试间隔时，可以直接将预测得到的时间差值的绝对值作为同步请求重试间隔。也可以将预测得到的时间差值的绝对值乘以一个个性化因子a后得到同步请求重试间隔。其中个性化因子可以根据站点的特性设置，例如可以采用经验值或实验值，a的取值大于0。

本说明书一方面对待预测时间周期中首次向目标站点发送同步请求的时间进行预测，另一方面对待预测时间周期中采用的同步请求重试间隔进行预测，两方面分离预测且相互结合进行数据同步，从而实现全局优化同步请求的命中率。

更进一步地，在数据同步的不断进行过程中，会不断地产生新的历史同步时间数据，因此可以利用新的历史同步时间数据对同步时间预测模型进行更新优化，从而使得对同步时间的预测更加精准。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

根据另一方面的实施例，提供了一种建立同步时间预测模型的装置。图8示出根据一个实施例的该建立同步时间预测模型的装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图8所示，该装置800包括：第一获取单元801、第一序列单元802和第一训练单元803，还可以进一步包括第一滤波单元804、第二序列单元805、第二训练单元806和第二滤波单元807。其中各组成单元的主要功能如下：

第一获取单元801，被配置为获取站点在预设历史时长内的同步时间数据。

第一序列单元802，被配置为从同步时间数据中提取各同步周期所对应同步时间的基线时间，构成基线时间序列。

第一训练单元803，被配置为利用第一时间序列模型对基线时间序列进行学习，得到包括第一时间序列模型的同步时间预测模型。

其中，训练得到的第一时间序列模型用以对站点在待预测同步周期的同步时间进行预测。

作为一优选的实施方式，第一序列单元802，具体被配置为获取各同步周期所对应同步时间的时间曲线；确定时间曲线的下包络线；确定各同步周期在下包络线上对应的时间分别作为各同步周期的基线时间。

作为另一优选的实施方式，第一滤波单元804，被配置为对基线时间序列进行以下滤波处理中的至少一种：中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

此时，第一训练单元803，具体被配置为利用第一时间序列模型对滤波处理后的基线时间序列进行学习。

作为一优选的实施方式，第一训练单元803，具体被配置为利用基线时间序列得到一个以上的训练样本，训练样本中包括连续T1+N1个同步周期的基线时间；分别将训练样本中前T1个同步周期的基线时间作为第一时间序列模型的输入，将训练样本中后N1个同步周期的基线时间作为第一时间序列模型的目标输出，以训练第一时间序列模型；其中，T1为大于1的正整数，N1为1以上的正整数。

更进一步地，第二序列单元805，被配置为分别确定各同步时间周期的同步时间与基线时间的时间差值，构成时间差值序列。

第二训练单元806，被配置为利用第二时间序列模型对时间差值序列进行学习。

此时，同步时间预测模型进一步包括第二时间序列模型，训练得到的第二时间序列模型用以对站点在待预测同步周期的同步请求重试间隔进行预测。

作为一种优选的实施方式，第二滤波单元807，被配置为对时间差值序列进行以下滤波处理中的至少一种：中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

第二训练单元806，具体被配置为利用第二时间序列模型对滤波处理后的时间差值序列进行学习。

作为一种优选的实施方式，第二训练单元806，具体被配置为利用时间差值序列得到一个以上的训练样本，训练样本中包括连续T2+N2个同步周期对应的时间差值；分别将训练样本中前T2个同步周期对应的时间差值作为第二时间序列模型的输入，将训练样本中后N2个同步周期对应的时间差值作为第二时间序列模型的目标输出，以训练第二时间序列模型；其中，T2为大于1的正整数，N2为1以上的正整数。

根据另一方面的实施例，提供了一种数据同步装置。图9示出根据一个实施例的该数据同步装置的示意性框图。可以理解，该装置可以通过任何具有计算、处理能力的装置、设备、平台和设备集群来实现。如图9所示，该数据同步装置900包括：第一预测单元901和同步处理单元902，还可以进一步包括：第二预测单元903

第一预测单元901，被配置为利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测。

同步处理单元902，被配置为在待预测同步周期按照预测得到的同步时间向目标站点发起数据同步请求；将目标站点发送的同步数据存储至数据中心。

其中第一时间序列模型是对目标站点的基线时间序列进行学习得到的，基线时间序列是从目标站点在预设历史时长内的同步时间数据中提取各同步周期所对应同步时间的基线时间而构成的。

作为一种优选的实施方式，第一预测单元901，具体被配置为：将连续T1个同步周期的同步时间输入第一时间序列模型；获取第一时间序列模型对T1个同步时间周期之后N1个同步周期的基线时间的预测，待预测同步周期属于N1个同步周期。其中，T1为大于1的正整数，N1为1以上的正整数。

同步处理单元902，具体被配置为将第一预测单元901预测得到的基线时间作为在待预测同步周期向目标站点首次发起数据同步请求的时间。

更进一步地，同步处理单元902被配置为若未接收到目标站点发送的同步数据，则按照同步请求重试间隔再次向目标站点发起数据同步请求，直至接收到目标站点发送的同步数据或者同步请求的发送次数达到预设的最大重试次数。

作为一种优选的实施方式，第二预测单元903，被配置为利用同步时间预测模型包括的第二时间序列模型对待预测同步周期的同步请求重试间隔进行预测。

同步处理单元902，进一步被配置为利用预测结果得到同步请求重试间隔。

其中第二时间序列模型是对目标站点的时间差值序列进行学习得到的，时间差值序列是由各同步时间周期的同步时间与基线时间的时间差值构成的。

作为一种优选的实施方式，第二预测单元903，具体被配置为将连续T2个同步周期的时间差值输入第二时间序列模型，时间差值为实际同步时间与基线时间的差值；获取第二时间序列模型对T2个同步时间周期之后N2个同步周期的时间差值的预测，待预测同步周期属于N2个同步周期；其中，T2为大于1的正整数，N2为1以上的正整数。

在本说明书的一个实施例中，数据同步装置还可以进一步包括本说明书任一实施例提供的建立同步时间预测模型的装置。在本说明书的一个实施例中，通过建立同步时间预测模型的装置训练第一时间序列模型，以供上述第一预测单元901使用。在本说明书的另一个实施例中，通过建立同步时间预测模型的装置训练上述第二时间序列模型，以供上述第二预测单元903使用。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2、图3、图5、图6和图7中至少一种所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2、图3、图5、图6和图7中至少一种所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.建立同步时间预测模型的方法，包括：

获取站点在预设历史时长内的同步时间数据；

2.根据权利要求1所述的方法，其中，从所述同步时间数据中提取各同步周期所对应同步时间的基线时间包括：

获取所述各同步周期所对应同步时间的时间曲线；

确定所述时间曲线的下包络线；

3.根据权利要求1所述的方法，在所述利用第一时间序列模型对所述基线时间序列进行学习之前，还包括：对所述基线时间序列进行以下滤波处理中的至少一种：

中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

4.根据权利要求1所述的方法，其中，所述利用第一时间序列模型对所述基线时间序列进行学习包括：

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

5.根据权利要求1所述的方法，还包括：

利用第二时间序列模型对所述时间差值序列进行学习；

6.根据权利要求5所述的方法，在所述利用第二时间序列模型对所述时间差值序列进行学习之前，还包括：对所述时间差值序列进行以下滤波处理中的至少一种：

中值滤波、均值滤波、卡尔曼滤波、高斯滤波和双边滤波。

7.根据权利要求5所述的方法，其中，利用第二时间序列模型对所述时间差值序列进行学习包括：

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

8.数据同步方法，包括：

将所述目标站点发送的同步数据存储至数据中心；

9.根据权利要求8所述的方法，其中，所述利用同步时间预测模型包括的第一时间序列模型对目标站点在待预测同步周期的同步时间进行预测包括：

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

10.根据权利要求8所述的方法，其中，在向所述目标站点发起数据同步请求之后，还包括：

11.根据权利要求10所述的方法，该方法还包括：

利用预测结果得到所述同步请求重试间隔；

12.根据权利要求11所述的方法，其中，利用所述同步时间预测模型包括的第二时间序列模型对所述待预测同步周期的同步请求重试间隔进行预测包括：

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

13.建立同步时间预测模型的装置，包括：

14.根据权利要求13所述的装置，其中，所述第一序列单元，具体被配置为获取所述各同步周期所对应同步时间的时间曲线；确定所述时间曲线的下包络线；确定各同步周期在所述下包络线上对应的时间分别作为各同步周期的基线时间。

15.根据权利要求13所述的装置，还包括：

16.根据权利要求13所述的装置，其中，所述第一训练单元，具体被配置为利用所述基线时间序列得到一个以上的训练样本，所述训练样本中包括连续T1+N1个同步周期的基线时间；分别将训练样本中前T1个同步周期的基线时间作为所述第一时间序列模型的输入，将所述训练样本中后N1个同步周期的基线时间作为所述第一时间序列模型的目标输出，以训练所述第一时间序列模型；其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

17.根据权利要求13所述的装置，还包括：

18.根据权利要求17所述的装置，还包括：

19.根据权利要求17所述的装置，其中，所述第二训练单元，具体被配置为利用所述时间差值序列得到一个以上的训练样本，所述训练样本中包括连续T2+N2个同步周期对应的时间差值；分别将训练样本中前T2个同步周期对应的时间差值作为所述第二时间序列模型的输入，将所述训练样本中后N2个同步周期对应的时间差值作为所述第二时间序列模型的目标输出，以训练所述第二时间序列模型；其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

20.数据同步装置，包括：

21.根据权利要求20所述的装置，其中，所述第一预测单元，具体被配置为：将连续T1个同步周期的同步时间输入所述第一时间序列模型；获取所述第一时间序列模型对所述T1个同步时间周期之后N1个同步周期的基线时间的预测，所述待预测同步周期属于所述N1个同步周期；

其中，所述T1为大于1的正整数，所述N1为1以上的正整数。

22.根据权利要求20所述的装置，其中，所述同步处理单元，进一步被配置为若未接收到所述目标站点发送的同步数据，则按照同步请求重试间隔再次向所述目标站点发起数据同步请求，直至接收到所述目标站点发送的同步数据或者同步请求的发送次数达到预设的最大重试次数。

23.根据权利要求22所述的装置，还包括：

24.根据权利要求23所述的装置，其中，所述第二预测单元，具体被配置为将连续T2个同步周期的时间差值输入所述第二时间序列模型，所述时间差值为实际同步时间与基线时间的差值；获取所述第二时间序列模型对所述T2个同步时间周期之后N2个同步周期的时间差值的预测，所述待预测同步周期属于所述N2个同步周期；

其中，所述T2为大于1的正整数，所述N2为1以上的正整数。

25.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。