CN111061595B

CN111061595B - 多副本数据的时效性判断方法及装置

Info

Publication number: CN111061595B
Application number: CN201911303750.5A
Authority: CN
Inventors: 宋韶旭; 孙宇; 王建民
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-10-20
Anticipated expiration: 2039-12-17
Also published as: CN111061595A

Abstract

本发明实施例提供一种多副本数据的时效性判断方法及装置，该方法包括：获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。该方法具有客观性，且无需找到分布式机器之间的强关联关系，便可实现数据时效性的有效判断，提高了多副本数据的时效性判断的准确率。

Description

多副本数据的时效性判断方法及装置

技术领域

本发明涉及分布式计算领域，尤其涉及一种多副本数据的时效性判断方法及装置。

背景技术

随着计算机技术和移动互联网的高速发展，产生的数据量呈现急剧增长的趋势。为了存储和处理由此产生的海量数据，分布式系统和分布式数据库随之产生。然而，在加速存储和处理的同时，分布式也带来了更多的数据质量问题。数据质量已被公认成数据管理中最为重要的问题之一，劣质数据往往会带来严重的损失，阻碍上层应用的有效执行。因此，数据质量的重要性是毋庸置疑的，而在影响数据质量的多种问题中，数据时效性正是其中尤为突出的一类问题。在实际应用中，由于分布式机器故障、网络失联等各种问题，某些分布式机器无法被实时连接和读写使用，也就无法得到相应机器上最新的更新和存储值。当用户对分布式数据库进行查询得到查询结果时，如果这些数据的时效性无法被及时判断，则用户无法确定当前有多少的数据是最新和可靠的，也就无法对当前应用的可信性进行准确的判断。

现有的多副本数据的时效性判断的方法主要分为两大类：基于规则的判断方法和基于统计的方法。基于规则的判断方法能够将领域知识表达成规则的形式，利用规则来判断失联机器内存储的数据值。基于统计的方法利用历史修改数据，来学习不同分布式机器数据更新之间的关系，利用学习到的更新关系以及相应的可实时连接和使用的机器来推测失联机器当前可能的存储值，进而判断数据的时效性。

然而，现有的技术都存在着明显的弊端。基于规则的判断方法通常需要领域专家来人为指定。基于统计的判断方法能够自动学习分布式机器间的数据更新关系，但并不是在所有的实际应用中我们都可以找到分布式机器之间的强关联关系。同时，基于统计的判断方法直接学习数据库中存储的原始值之间的关系，因此其只能够支持数值类型的数据，而无法拟合字符类型数据之间的关系。在相对独立的分布式应用中，我们往往很难为其定制规则或挖掘各机器之间的强关联关系确定字符型数据之间的关系，从而确定的失联机器的实时数据值往往具有非常大的不准确性，从而导致数据时效性的判断不可信，甚至无效。

发明内容

为了解决上述问题，本发明实施例提供一种多副本数据的时效性判断方法及装置。

第一方面，本发明实施例提供一种多副本数据的时效性判断方法，包括：获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

进一步地，所述将所有时间差值，和待检测数据差值以外的所有数据差值，输入至预设的差值模型之前，还包括：获取n+1个时间相互邻近的有时效性的数据副本，并计算每两个相邻时刻的时间差值和数据差值；将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型。

进一步地，所述利用n-k+1个训练样本对建立的差值模型进行训练，包括：对于任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，输入至建立的差值模型，得到最近的数据差值的预计值；根据最近的数据差值和所述预计值，对所述差值模型进行更新。

进一步地，所述差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。

进一步地，对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。

第二方面，本发明实施例提供一种多副本数据的时效性判断装置，包括：差值获取模块，用于获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；模型处理模型，用于将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；时效判断模块，用于若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

进一步地，该装置还包括模型训练模块，用于所述将所有时间差值，和待检测数据差值以外的所有数据差值，输入至预设的差值模型之前：获取n+1个时间相互邻近的有时效性的数据副本，并计算每两个相邻时刻的时间差值和数据差值；将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型。

进一步地，模型训练模块具体用于：对于任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，输入至建立的差值模型，得到最近的数据差值的预计值；根据最近的数据差值和所述预计值，对所述差值模型进行更新。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面多副本数据的时效性判断方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面多副本数据的时效性判断方法的步骤。

本发明实施例提供的多副本数据的时效性判断方法及装置，通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系，无需人为指定数据，具有客观性。预设的差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到，能够反映不同副本数据的时空关系，而无需找到分布式机器之间的强关联关，便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断，提高了多副本数据的时效性判断的准确率，能够支持数值或字符在内的多种类型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多副本数据的时效性判断方法流程图；

图2为本发明实施例提供的时间差值和数据差值序列示意图；

图3为本发明实施例提供的多副本数据的时效性判断装置结构图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的多副本数据的时效性判断方法流程图，如图1所示，本发明实施例提供一种多副本数据的时效性判断方法，包括：

101、获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值。

首先，针对数据库T＝{d_i|i＝1,…,N}，其中d_i表示第i个元组，d_i＝{d_i[A_j]|j＝1,…,M}，d_i[A_j]表示第i个元组的第j个属性。当分布式系统存储该数据库时，对于每个数据值d_i[A_j]的读写更新操作会存储在多个机器中，即会形成多个副本。k为大于1的整数，具体根据检测精度要求和计算开销综合设置。待判断时效性的数据，是当前时刻的最近历史时刻的副本数据，可以是恢复故障的分布式设备发出的数据，当前时刻需使用该数据，现需验证该数据的时效性。

图2为本发明实施例提供的时间差值和数据差值序列示意图，如图2所示，t₀为当前时刻，依次获取t₀的相互邻近的更新数据k个，包括最近历史时刻的副本数据为v₁、时间为t₁，最远的副本数据为v_k、时间为t_k。对于历史上的每一相邻时刻我们都可以得到属性值d_i[A_j]在两个时刻的差值。如在t₁和t₂两时刻的时间差值记为Δt₁，数据差值(或称为属性差值)记为Δv₁，依次计算至t_k-1和t_k。对于当前时刻t₀和最近副本的时刻t₁，时间差值Δt₀是已知的，Δv₀是待确定的。

102、将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果。其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

预设的差分模型是一个拟合模型，已根据具有时效性的数据的Δv₀，以及每两个相邻时刻的时间差值和数据差值，进行了如下关系的学习。即下式参数均为已知，根据多个具有时效性的数据样本，得到了模型的参数。Δv₀＝f(Δt₀,Δt₁,Δv₁,Δt₂,Δv₂,…,Δt_k-1,Δv_k-1)

在102中，当前时刻t₀与最近副本t₁的数据差值Δv₀为待获取的值。将当前时刻和所有历史时刻两两相邻的Δt和除Δv₀以外的所有Δv：Δt₀,Δt₁,Δv₁,Δt₂,Δv₂,…,Δt_k-1,Δv_k-1，输入该预设的差值模型，得到预测的Δv₀。

103、若所述预测结果小于预设阈值，则判断所述最近副本具备时效性。

对于上述的有离线/故障机器存储的属性值d_i[A_j]，如果计算出的其在当前时刻t₀和上一已知的最近时刻t₁之间的属性值差值的预测值Δv₀的绝对值在给定阈值ε范围内，则认为当前已知的属性值t_i[A_j]是最新的，即

|Δv_o|≤ε

其中ε为预先给定的阈值。

反之，如果计算出的其在当前时刻t₀和上一已知的最近时刻t₁之间的属性值差值的预测值Δv₀的绝对值超过了给定阈值ε范围，就认为当前已知的属性值t_i[A_j]是过时的，即

|Δv_o|＞ε

依次将所有元组t_i中的所有属性值d_i[A_j]进行时效性判断，直到所有属性值d_i[A_j]被检测完为止。

本实施例提供的多副本数据的时效性判断方法，通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系，无需人为指定数据，具有客观性。预设的差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到，能够反映不同副本数据的时空关系，而无需找到分布式机器之间的强关联关，便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断，提高了多副本数据的时效性判断的准确率，能够支持数值或字符在内的多种类型。

基于上述实施例的内容，作为一种可选实施例，所述将将所有时间差值和数据差值，输入至预设的差值模型之前，还包括：获取n+1个时间相互邻近的有时效性的数据副本，并计算每两个相邻时刻的时间差值和数据差值；将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型。

在模型用于检测之前，将具有时效性的每k对时间和属性值差值作为一组训练样本。如图2所示，对于属性值d_i[A_j]，给定n个历史时刻属性t₁,t₂,t₃,…,t_k,…,t_n，结合时刻t₀，得到n+1个时间相互邻近的有时效性的数据副本。计算每两个相邻时刻的时间差值和数据差值，得到n个时间差值和数据差值的序列，可共产生n-k+1组训练数据来训练该差值模型。对于每一组训练数据，学习出Δv_l与(Δt_l,Δt_l+1,Δv_l+1,Δt_l+2,Δv_l+2,…,Δt_l+k-1,Δv_l+k-1)之间的关系。即：

Δv_l＝f(Δt_l，Δt_l+1，Δv_l+1，Δt_l+2，Δv_l+2，…，Δt_l+k-1，Δv_l+k-1)；

通过n-k+1个训练样本对建立的差值模型进行训练后，得到所述预设的差值模型。n＞k，均为大于2的正整数，根据模型的精度要求具体设置，l根据不同的样本序号，由n和k确定，取值范围为0到n-k。

本实施例提供的多副本数据的时效性判断方法，将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，可以有效减少数据使用量，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型，保证了模型在检测过程中的准确性。

基于上述实施例的内容，作为一种可选实施例，利用n-k+1个训练样本对建立的差值模型进行训练，包括：对于任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，输入至建立的差值模型，得到最近的数据差值的预计值；根据最近的数据差值和所述预计值，对所述差值模型进行更新。

在训练的实施过程中，任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，也就是：Δt₀,Δt₁,Δv₁,Δt₂,Δv₂,…,Δt_k-1,Δv_k-₁，输入至建立的差值模型，得到最近的数据差值的预计值Δv₀。

据最近的数据差值Δv₀和Δv₀预计值，对差值模型进行更新，即更新模型的参数，学习回归模型参数的方法可以用当前广泛采用的任何学习方法，如最小二乘法或梯度下降法等。通过n-k+1数据的训练，得到预设的差值模型。

本实施例提供的多副本数据的时效性判断方法，根据最近的数据差值和所述预计值，对所述差值模型进行更新，能够使得到的预设的差值模型，拟合后输出有时效性数据的准确预测值。

基于上述实施例的内容，作为一种可选实施例，差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。

上述实施例中所学习的差值模型可以为任意常用的拟合模型，如线性回归模型、多项式回归模型、逻辑斯蒂回归模型等。如无特定领域知识，可使用较为普适的多项式回归模型。

基于上述实施例的内容，作为一种可选实施例，对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。上述实施例中已说明，此处不再赘述

图3为本发明实施例提供的多副本数据的时效性判断装置结构图，如图3所示，该多副本数据的时效性判断装置包括：差值获取模块301、模型处理模块302和时效性判断模块303。其中，差值获取模块301用于获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；模型处理模型302用于将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；时效判断模块303用于若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

基于上述实施例的内容，作为一种可选实施例，该装置还包括模型训练模块，用于所述将所有时间差值，和待检测数据差值以外的所有数据差值，输入至预设的差值模型之前：获取n+1个时间相互邻近的有时效性的数据副本，并计算每两个相邻时刻的时间差值和数据差值；将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型。

基于上述实施例的内容，作为一种可选实施例，模型训练模块具体用于：对于任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，输入至建立的差值模型，得到最近的数据差值的预计值；根据最近的数据差值和所述预计值，对所述差值模型进行更新。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的多副本数据的时效性判断装置，通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系，无需人为指定数据，具有客观性。预设的差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到，能够反映不同副本数据的时空关系，而无需找到分布式机器之间的强关联关，便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断，提高了多副本数据的时效性判断的准确率，能够支持数值或字符在内的多种类型。

图4为本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404，其中，处理器401，通信接口402，存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令，以执行包括如下的方法：获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多副本数据的时效性判断方法，其特征在于，包括：

获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；

将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；

若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；

其中，所述差值模型，根据具有时效性的两两相邻的k个时间差值和数据差值样本，进行训练后得到。

2.根据权利要求1所述的多副本数据的时效性判断方法，其特征在于，所述将所有时间差值和数据差值，输入至预设的差值模型之前，还包括：

获取n+1个时间相互邻近的有时效性的数据副本，并计算每两个相邻时刻的时间差值和数据差值；

将每k个相邻的时间差值和数据差值作为一个训练样本，得到n-k+1个训练样本，利用n-k+1个训练样本对建立的差值模型进行训练，得到所述预设的差值模型。

3.根据权利要求2所述的多副本数据的时效性判断方法，其特征在于，所述利用n-k+1个训练样本对建立的差值模型进行训练，包括：

对于任意一个长度为k的样本，将时间较早的k-1个数据差值和k个时间差值，输入至建立的差值模型，得到最近的数据差值的预计值；

根据最近的数据差值和所述预计值，对所述差值模型进行更新。

4.根据权利要求1所述的多副本数据的时效性判断方法，其特征在于，所述差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。

5.根据权利要求3所述的多副本数据的时效性判断方法，其特征在于，对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。

6.一种多副本数据的时效性判断装置，其特征在于，包括：

差值获取模块，用于获取当前时刻的k个相互邻近的历史时刻的副本，并计算每两个相邻副本的时间差值和数据差值，以及当前时刻和最近副本的时间差值；

模型处理模型，用于将所有时间差值和数据差值，输入至预设的差值模型，输出当前时刻和最近副本的数据差值预测结果；

时效判断模块，用于若所述预测结果小于预设阈值，则判断所述最近副本具备时效性；

7.根据权利要求6所述的多副本数据的时效性判断装置，其特征在于，还包括模型训练模块，用于所述将所有时间差值，和待检测数据差值以外的所有数据差值，输入至预设的差值模型之前：

8.根据权利要求6所述的多副本数据的时效性判断装置，其特征在于，模型训练模块具体用于：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述多副本数据的时效性判断方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述多副本数据的时效性判断方法的步骤。