CN111061595B - 多副本数据的时效性判断方法及装置 - Google Patents
多副本数据的时效性判断方法及装置 Download PDFInfo
- Publication number
- CN111061595B CN111061595B CN201911303750.5A CN201911303750A CN111061595B CN 111061595 B CN111061595 B CN 111061595B CN 201911303750 A CN201911303750 A CN 201911303750A CN 111061595 B CN111061595 B CN 111061595B
- Authority
- CN
- China
- Prior art keywords
- data
- difference
- time
- model
- timeliness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 58
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000012417 linear regression Methods 0.000 claims description 4
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1451—Management of the data involved in backup or backup restore by selection of backup contents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例提供一种多副本数据的时效性判断方法及装置,该方法包括:获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。该方法具有客观性,且无需找到分布式机器之间的强关联关系,便可实现数据时效性的有效判断,提高了多副本数据的时效性判断的准确率。
Description
技术领域
本发明涉及分布式计算领域,尤其涉及一种多副本数据的时效性判断方法及装置。
背景技术
随着计算机技术和移动互联网的高速发展,产生的数据量呈现急剧增长的趋势。为了存储和处理由此产生的海量数据,分布式系统和分布式数据库随之产生。然而,在加速存储和处理的同时,分布式也带来了更多的数据质量问题。数据质量已被公认成数据管理中最为重要的问题之一,劣质数据往往会带来严重的损失,阻碍上层应用的有效执行。因此,数据质量的重要性是毋庸置疑的,而在影响数据质量的多种问题中,数据时效性正是其中尤为突出的一类问题。在实际应用中,由于分布式机器故障、网络失联等各种问题,某些分布式机器无法被实时连接和读写使用,也就无法得到相应机器上最新的更新和存储值。当用户对分布式数据库进行查询得到查询结果时,如果这些数据的时效性无法被及时判断,则用户无法确定当前有多少的数据是最新和可靠的,也就无法对当前应用的可信性进行准确的判断。
现有的多副本数据的时效性判断的方法主要分为两大类:基于规则的判断方法和基于统计的方法。基于规则的判断方法能够将领域知识表达成规则的形式,利用规则来判断失联机器内存储的数据值。基于统计的方法利用历史修改数据,来学习不同分布式机器数据更新之间的关系,利用学习到的更新关系以及相应的可实时连接和使用的机器来推测失联机器当前可能的存储值,进而判断数据的时效性。
然而,现有的技术都存在着明显的弊端。基于规则的判断方法通常需要领域专家来人为指定。基于统计的判断方法能够自动学习分布式机器间的数据更新关系,但并不是在所有的实际应用中我们都可以找到分布式机器之间的强关联关系。同时,基于统计的判断方法直接学习数据库中存储的原始值之间的关系,因此其只能够支持数值类型的数据,而无法拟合字符类型数据之间的关系。在相对独立的分布式应用中,我们往往很难为其定制规则或挖掘各机器之间的强关联关系确定字符型数据之间的关系,从而确定的失联机器的实时数据值往往具有非常大的不准确性,从而导致数据时效性的判断不可信,甚至无效。
发明内容
为了解决上述问题,本发明实施例提供一种多副本数据的时效性判断方法及装置。
第一方面,本发明实施例提供一种多副本数据的时效性判断方法,包括:获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
进一步地,所述将所有时间差值,和待检测数据差值以外的所有数据差值,输入至预设的差值模型之前,还包括:获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
进一步地,所述利用n-k+1个训练样本对建立的差值模型进行训练,包括:对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;根据最近的数据差值和所述预计值,对所述差值模型进行更新。
进一步地,所述差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。
进一步地,对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。
第二方面,本发明实施例提供一种多副本数据的时效性判断装置,包括:差值获取模块,用于获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;模型处理模型,用于将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;时效判断模块,用于若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
进一步地,该装置还包括模型训练模块,用于所述将所有时间差值,和待检测数据差值以外的所有数据差值,输入至预设的差值模型之前:获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
进一步地,模型训练模块具体用于:对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;根据最近的数据差值和所述预计值,对所述差值模型进行更新。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本发明第一方面多副本数据的时效性判断方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本发明第一方面多副本数据的时效性判断方法的步骤。
本发明实施例提供的多副本数据的时效性判断方法及装置,通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系,无需人为指定数据,具有客观性。预设的差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到,能够反映不同副本数据的时空关系,而无需找到分布式机器之间的强关联关,便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断,提高了多副本数据的时效性判断的准确率,能够支持数值或字符在内的多种类型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多副本数据的时效性判断方法流程图;
图2为本发明实施例提供的时间差值和数据差值序列示意图;
图3为本发明实施例提供的多副本数据的时效性判断装置结构图;
图4为本发明实施例提供的一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的多副本数据的时效性判断方法流程图,如图1所示,本发明实施例提供一种多副本数据的时效性判断方法,包括:
101、获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值。
首先,针对数据库T={di|i=1,…,N},其中di表示第i个元组,di={di[Aj]|j=1,…,M},di[Aj]表示第i个元组的第j个属性。当分布式系统存储该数据库时,对于每个数据值di[Aj]的读写更新操作会存储在多个机器中,即会形成多个副本。k为大于1的整数,具体根据检测精度要求和计算开销综合设置。待判断时效性的数据,是当前时刻的最近历史时刻的副本数据,可以是恢复故障的分布式设备发出的数据,当前时刻需使用该数据,现需验证该数据的时效性。
图2为本发明实施例提供的时间差值和数据差值序列示意图,如图2所示,t0为当前时刻,依次获取t0的相互邻近的更新数据k个,包括最近历史时刻的副本数据为v1、时间为t1,最远的副本数据为vk、时间为tk。对于历史上的每一相邻时刻我们都可以得到属性值di[Aj]在两个时刻的差值。如在t1和t2两时刻的时间差值记为Δt1,数据差值(或称为属性差值)记为Δv1,依次计算至tk-1和tk。对于当前时刻t0和最近副本的时刻t1,时间差值Δt0是已知的,Δv0是待确定的。
102、将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果。其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
预设的差分模型是一个拟合模型,已根据具有时效性的数据的Δv0,以及每两个相邻时刻的时间差值和数据差值,进行了如下关系的学习。即下式参数均为已知,根据多个具有时效性的数据样本,得到了模型的参数。Δv0=f(Δt0,Δt1,Δv1,Δt2,Δv2,…,Δtk-1,Δvk-1)
在102中,当前时刻t0与最近副本t1的数据差值Δv0为待获取的值。将当前时刻和所有历史时刻两两相邻的Δt和除Δv0以外的所有Δv:Δt0,Δt1,Δv1,Δt2,Δv2,…,Δtk-1,Δvk-1,输入该预设的差值模型,得到预测的Δv0。
103、若所述预测结果小于预设阈值,则判断所述最近副本具备时效性。
对于上述的有离线/故障机器存储的属性值di[Aj],如果计算出的其在当前时刻t0和上一已知的最近时刻t1之间的属性值差值的预测值Δv0的绝对值在给定阈值ε范围内,则认为当前已知的属性值ti[Aj]是最新的,即
|Δvo|≤ε
其中ε为预先给定的阈值。
反之,如果计算出的其在当前时刻t0和上一已知的最近时刻t1之间的属性值差值的预测值Δv0的绝对值超过了给定阈值ε范围,就认为当前已知的属性值ti[Aj]是过时的,即
|Δvo|>ε
依次将所有元组ti中的所有属性值di[Aj]进行时效性判断,直到所有属性值di[Aj]被检测完为止。
本实施例提供的多副本数据的时效性判断方法,通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系,无需人为指定数据,具有客观性。预设的差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到,能够反映不同副本数据的时空关系,而无需找到分布式机器之间的强关联关,便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断,提高了多副本数据的时效性判断的准确率,能够支持数值或字符在内的多种类型。
基于上述实施例的内容,作为一种可选实施例,所述将将所有时间差值和数据差值,输入至预设的差值模型之前,还包括:获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
在模型用于检测之前,将具有时效性的每k对时间和属性值差值作为一组训练样本。如图2所示,对于属性值di[Aj],给定n个历史时刻属性t1,t2,t3,…,tk,…,tn,结合时刻t0,得到n+1个时间相互邻近的有时效性的数据副本。计算每两个相邻时刻的时间差值和数据差值,得到n个时间差值和数据差值的序列,可共产生n-k+1组训练数据来训练该差值模型。对于每一组训练数据,学习出Δvl与(Δtl,Δtl+1,Δvl+1,Δtl+2,Δvl+2,…,Δtl+k-1,Δvl+k-1)之间的关系。即:
Δvl=f(Δtl,Δtl+1,Δvl+1,Δtl+2,Δvl+2,…,Δtl+k-1,Δvl+k-1);
通过n-k+1个训练样本对建立的差值模型进行训练后,得到所述预设的差值模型。n>k,均为大于2的正整数,根据模型的精度要求具体设置,l根据不同的样本序号,由n和k确定,取值范围为0到n-k。
本实施例提供的多副本数据的时效性判断方法,将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,可以有效减少数据使用量,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型,保证了模型在检测过程中的准确性。
基于上述实施例的内容,作为一种可选实施例,利用n-k+1个训练样本对建立的差值模型进行训练,包括:对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;根据最近的数据差值和所述预计值,对所述差值模型进行更新。
在训练的实施过程中,任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,也就是:Δt0,Δt1,Δv1,Δt2,Δv2,…,Δtk-1,Δvk-1,输入至建立的差值模型,得到最近的数据差值的预计值Δv0。
据最近的数据差值Δv0和Δv0预计值,对差值模型进行更新,即更新模型的参数,学习回归模型参数的方法可以用当前广泛采用的任何学习方法,如最小二乘法或梯度下降法等。通过n-k+1数据的训练,得到预设的差值模型。
本实施例提供的多副本数据的时效性判断方法,根据最近的数据差值和所述预计值,对所述差值模型进行更新,能够使得到的预设的差值模型,拟合后输出有时效性数据的准确预测值。
基于上述实施例的内容,作为一种可选实施例,差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。
上述实施例中所学习的差值模型可以为任意常用的拟合模型,如线性回归模型、多项式回归模型、逻辑斯蒂回归模型等。如无特定领域知识,可使用较为普适的多项式回归模型。
基于上述实施例的内容,作为一种可选实施例,对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。上述实施例中已说明,此处不再赘述
图3为本发明实施例提供的多副本数据的时效性判断装置结构图,如图3所示,该多副本数据的时效性判断装置包括:差值获取模块301、模型处理模块302和时效性判断模块303。其中,差值获取模块301用于获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;模型处理模型302用于将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;时效判断模块303用于若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
基于上述实施例的内容,作为一种可选实施例,该装置还包括模型训练模块,用于所述将所有时间差值,和待检测数据差值以外的所有数据差值,输入至预设的差值模型之前:获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
基于上述实施例的内容,作为一种可选实施例,模型训练模块具体用于:对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;根据最近的数据差值和所述预计值,对所述差值模型进行更新。
本发明实施例提供的装置实施例是为了实现上述各方法实施例的,具体流程和详细内容请参照上述方法实施例,此处不再赘述。
本发明实施例提供的多副本数据的时效性判断装置,通过对每一个数据值构建其相邻时刻属性差值和时间差值之间的关系,无需人为指定数据,具有客观性。预设的差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到,能够反映不同副本数据的时空关系,而无需找到分布式机器之间的强关联关,便可实现数据时效性的有效判断。该方法确保了未产生错误的多副本数据的时效性判断,提高了多副本数据的时效性判断的准确率,能够支持数值或字符在内的多种类型。
图4为本发明实施例提供的一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和总线404,其中,处理器401,通信接口402,存储器403通过总线404完成相互间的通信。通信接口402可以用于电子设备的信息传输。处理器401可以调用存储器403中的逻辑指令,以执行包括如下的方法:获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法,例如包括:获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多副本数据的时效性判断方法,其特征在于,包括:
获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;
将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;
若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;
其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
2.根据权利要求1所述的多副本数据的时效性判断方法,其特征在于,所述将所有时间差值和数据差值,输入至预设的差值模型之前,还包括:
获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;
将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
3.根据权利要求2所述的多副本数据的时效性判断方法,其特征在于,所述利用n-k+1个训练样本对建立的差值模型进行训练,包括:
对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;
根据最近的数据差值和所述预计值,对所述差值模型进行更新。
4.根据权利要求1所述的多副本数据的时效性判断方法,其特征在于,所述差值模型包括线性回归模型、多项式回归模型和逻辑斯蒂回归模型。
5.根据权利要求3所述的多副本数据的时效性判断方法,其特征在于,对所述差值模型进行更新的方法包括最小二乘法和梯度下降法。
6.一种多副本数据的时效性判断装置,其特征在于,包括:
差值获取模块,用于获取当前时刻的k个相互邻近的历史时刻的副本,并计算每两个相邻副本的时间差值和数据差值,以及当前时刻和最近副本的时间差值;
模型处理模型,用于将所有时间差值和数据差值,输入至预设的差值模型,输出当前时刻和最近副本的数据差值预测结果;
时效判断模块,用于若所述预测结果小于预设阈值,则判断所述最近副本具备时效性;
其中,所述差值模型,根据具有时效性的两两相邻的k个时间差值和数据差值样本,进行训练后得到。
7.根据权利要求6所述的多副本数据的时效性判断装置,其特征在于,还包括模型训练模块,用于所述将所有时间差值,和待检测数据差值以外的所有数据差值,输入至预设的差值模型之前:
获取n+1个时间相互邻近的有时效性的数据副本,并计算每两个相邻时刻的时间差值和数据差值;
将每k个相邻的时间差值和数据差值作为一个训练样本,得到n-k+1个训练样本,利用n-k+1个训练样本对建立的差值模型进行训练,得到所述预设的差值模型。
8.根据权利要求6所述的多副本数据的时效性判断装置,其特征在于,模型训练模块具体用于:
对于任意一个长度为k的样本,将时间较早的k-1个数据差值和k个时间差值,输入至建立的差值模型,得到最近的数据差值的预计值;
根据最近的数据差值和所述预计值,对所述差值模型进行更新。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述多副本数据的时效性判断方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述多副本数据的时效性判断方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303750.5A CN111061595B (zh) | 2019-12-17 | 2019-12-17 | 多副本数据的时效性判断方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911303750.5A CN111061595B (zh) | 2019-12-17 | 2019-12-17 | 多副本数据的时效性判断方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061595A CN111061595A (zh) | 2020-04-24 |
CN111061595B true CN111061595B (zh) | 2020-10-20 |
Family
ID=70302100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911303750.5A Active CN111061595B (zh) | 2019-12-17 | 2019-12-17 | 多副本数据的时效性判断方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061595B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704651A (zh) * | 2016-01-22 | 2016-06-22 | 南京邮电大学 | 一种无线自组织代理捎带网络soap消息传递方法 |
CN109325075A (zh) * | 2018-08-30 | 2019-02-12 | 黄疆 | 一种基于定时备份的Oracle及时挂载恢复系统及方法 |
CN109548115A (zh) * | 2018-11-14 | 2019-03-29 | Oppo广东移动通信有限公司 | 蓝牙扫描方法、装置、终端及存储介质 |
-
2019
- 2019-12-17 CN CN201911303750.5A patent/CN111061595B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105704651A (zh) * | 2016-01-22 | 2016-06-22 | 南京邮电大学 | 一种无线自组织代理捎带网络soap消息传递方法 |
CN109325075A (zh) * | 2018-08-30 | 2019-02-12 | 黄疆 | 一种基于定时备份的Oracle及时挂载恢复系统及方法 |
CN109548115A (zh) * | 2018-11-14 | 2019-03-29 | Oppo广东移动通信有限公司 | 蓝牙扫描方法、装置、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
"数据网格中副本模型和数据迁移机制的研究";王为;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090515(第5期);第I139-2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111061595A (zh) | 2020-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200257543A1 (en) | Aggregate Features For Machine Learning | |
US11562012B2 (en) | System and method for providing technology assisted data review with optimizing features | |
CN110309009B (zh) | 基于情境的运维故障根因定位方法、装置、设备及介质 | |
Peng et al. | Lime: Low-cost and incremental learning for dynamic heterogeneous information networks | |
EP3690668A1 (en) | Knowledge capture and discovery system | |
WO2022142121A1 (zh) | 摘要语句提取方法、装置、服务器及计算机可读存储介质 | |
US9984166B2 (en) | Systems and methods of de-duplicating similar news feed items | |
CN113641805B (zh) | 结构化问答模型的获取方法、问答方法及对应装置 | |
CN109783824B (zh) | 基于翻译模型的翻译方法、装置及存储介质 | |
WO2023129233A1 (en) | Performing root cause analysis on data center incidents | |
CN111694967A (zh) | 属性抽取方法、装置、电子设备及介质 | |
Li et al. | Evaluating dependencies in fact editing for language models: Specificity and implication awareness | |
CN111061595B (zh) | 多副本数据的时效性判断方法及装置 | |
US9223833B2 (en) | Method for in-loop human validation of disambiguated features | |
US20210097073A1 (en) | Methods, apparatus, and computer program products for fuzzy term searching | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
US20200193090A1 (en) | Word extraction assistance system and word extraction assistance method | |
EP3800562A1 (en) | Methods, apparatus, and computer program products for fuzzy term searching | |
CN111539208B (zh) | 语句处理方法和装置、以及电子设备和可读存储介质 | |
CN113297473A (zh) | 一种基于云计算的数据推送方法、装置以及云服务器 | |
CN110309506B (zh) | 语句分析方法、装置、电子设备及可读存储介质 | |
US20210097074A1 (en) | Methods, apparatus, and computer program products for fuzzy term searching | |
CN115329151B (zh) | 图数据库的优化方法、装置、电子设备及存储介质 | |
US20240193440A1 (en) | Dynamically enriching shared knowledge graphs | |
US20230196815A1 (en) | Computing system for detecting and updating stale information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |