CN110032750A - 一种模型构建、数据生命周期预测方法、装置及设备 - Google Patents

一种模型构建、数据生命周期预测方法、装置及设备 Download PDF

Info

Publication number
CN110032750A
CN110032750A CN201811548766.8A CN201811548766A CN110032750A CN 110032750 A CN110032750 A CN 110032750A CN 201811548766 A CN201811548766 A CN 201811548766A CN 110032750 A CN110032750 A CN 110032750A
Authority
CN
China
Prior art keywords
data
life cycle
sample
prediction model
data sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811548766.8A
Other languages
English (en)
Inventor
陈志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811548766.8A priority Critical patent/CN110032750A/zh
Publication of CN110032750A publication Critical patent/CN110032750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种模型构建、数据生命周期预测方法、装置及设备。一种数据生命周期预测模型构建方法,该方法包括:确定训练数据样本集合;针对集合中每个数据样本,执行以下步骤:获得该数据样本的预设特征信息;根据所获得的特征信息,提取该数据样本的特征向量;将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。

Description

一种模型构建、数据生命周期预测方法、装置及设备
技术领域
本说明书实施例涉及互联网应用技术领域,尤其涉及一种模型构建、数据生命周期预测方法、装置及设备。
背景技术
为了节约数据存储资源,数据维护人员通常会为生成的数据设置一定的生命周期,即该数据的存储时长阈值。当数据的存储时长超过所设置的生命周期时,该数据将会被删除,从而释放存储资源。如果为数据设置的生命周期过短,则将使得仍需访问的数据被删除,导致数据访问出错等问题;如果设置的生命周期过长,则将使得不需访问的数据继续占用存储资源,造成存储资源的浪费。
为了确保所设置的数据生命周期合理,通常会在存储后进行检测,现有技术中,一般是在不再访问某数据后,重新推算并缩短该数据的生命周期,但这种方案并不适用于所设置的生命周期过短的情况,并且由于无法考量未来的访问需求,容易导致重新设置后的生命周期过短。
基于现有技术,需要一种更准确、适用范围更广的方案,对数据生命周期是否合理进行检测。
发明内容
针对上述技术问题,本说明书实施例提供一种模型构建、数据生命周期预测方法、装置及设备,技术方案如下:
根据本说明书实施例的第一方面,提供一种数据生命周期预测模型构建方法,该方法包括:
确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
根据所获得的特征信息,提取该数据样本的特征向量;其中,提取特征的方法包括:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
根据本说明书实施例的第二方面,提供一种基于所述预测模型的数据生命周期预测方法,该方法包括:
获得待预测数据的预设特征信息;
根据所述提取特征向量的方法,提取所述待预测数据的特征向量;
将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
根据本说明书实施例的第三方面,提供一种数据生命周期预测模型构建装置,该装置包括:
样本确定模块,用于确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
信息获得模块,用于获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
特征提取模块,用于根据所获得的特征信息,提取该数据样本的特征向量;其中,特征提取模块具体用于:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
样本构成模块,用于将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
模型训练模块,用于根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
根据本说明书实施例的第四方面,提供一种基于所述预测模型的数据生命周期预测装置,该装置包括:
信息获得模块,用于获得待预测数据的预设特征信息;
特征提取模块,用于根据所述提取特征向量的装置,提取所述待预测数据的特征向量;
周期检测模块,用于将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
本说明书实施例所提供的技术方案,通过生命周期合理的历史数据,训练数据生命周期预测模型,使模型在训练过程中基于正样本进行学习。通过所训练的模型,可以基于过去的访问情况与未来的访问需求,从数据生命周期是否过长、过短等多种角度进行预测,从而更全面、更准确地检测数据生命周期是否合理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例的数据生命周期预测模型构建方法的流程示意图;
图2是本说明书实施例的基于所构建数据生命周期预测模型的数据生命周期预测方法的流程示意图;
图3是本说明书实施例的数据生命周期预测模型构建装置的结构示意图;
图4是本说明书实施例的基于所构建数据生命周期预测模型的数据生命周期预测装置的结构示意图;
图5是用于配置本说明书实施例装置的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
本说明书实施例提供一种检测数据生命周期是否合理的方案,该方案包括两个阶段:数据生命周期预测模型的构建阶段,及运用数据生命周期预测模型预测数据生命周期的标准值。
首先介绍数据生命周期预测模型的构建阶段,参见图1所示,该方法可以包括以下步骤:
S101,确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
本说明书实施例提供的方案中,所构建的数据生命周期预测模型,是用于预测数据生命周期的标准值,从而通过为数据设置的生命周期实际值与标准值的差值,确定所设置的实际值是否合理。
因此,通过生命周期合理的数据样本来训练数据生命周期预测模型,从而使训练得到的模型可以根据所输入的数据的特征向量,预测得到数据的生命周期标准值。
可以理解的是,本说明书实施例中训练数据样本集合中的数据样本,均为已确定生命周期合理的数据样本,例如,可以预先通过人工经验或机器算法,判定该数据的生命周期是否符合条件等。但是,本说明书实施例并不限定具体的合理条件,本领域技术人员可以根据实际情况,灵活地设置条件、确定生命周期合理的数据样本。
S102,获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
S103,根据所获得的特征信息,提取该数据样本的特征向量;其中,提取特征的方法包括:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
为了便于描述,将S102与S103结合进行说明。
本说明书实施例中的数据生命周期预测模型,将基于数据的各项信息提取数据的特征向量,对数据生命周期标准值进行预测。
其中,一项重要的信息是访问信息,即存储该数据后对该数据的访问情况,例如,存储该数据后至不再访问该数据的时长、或一段时间内访问该数据的人次、或一段时间内访问该数据的天数、等等。基于访问信息,可以提取数据的1个或多个访问特征,例如,在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长等,其中,各预设时段可以是每日、每周、每月、一定日期内、存储该数据至今的总时长、等等,访问量可以通过访问人数、次数、天数等等形式标识。
此外,不同用途的数据还可以提取相对应的访问特征,例如,如果数据存储后还需调用该数据进行多次计算,得到数据相关的计算结果,则访问特征还可以用于表示调用数据进行计算的周期(如每日、每周等)、计算结果数据的访问情况(如访问量、存储后至访问量低于预设阈值的时长等)、等等。
本领域技术人员可以根据具体针对的数据特性,获取对应的访问信息并提取需要的访问特征,本说明书实施例并不限定访问特征的具体内容。
在本说明书的一种具体实施方式中,特征信息还可以包括:类型信息,用于表示该数据所属的预设数据类型,例如,如果数据是以数据表的形式存储,则所存储的数据表可以分为增量表、全量表等多种类型,并且由于表中所存储内容的时效性、是否已被使用或备份等情况不同,实际需要存储的时长也存在区别;又例如,可以通过经验或规则将内容或属性不同的数据,划分为不同的数据类型,而不同类型的数据重要性可能存在区别,因而实际需要存储的时长也存在区别;等等。
对应地,在根据信息提取特征时,可以根据所述类型信息,确定该数据的数据类型,从而得到该数据样本的类型特征,类型特征可以用于表示数据的重要性、时效性、是否已被使用/备份、等等。
在本说明书的另一种具体实施方式中,特征信息还可以包括:资源信息,用于表示计算该数据所需的资源、存储该数据所需的资源、基于该数据计算其他数据所需的资源、和/或存储所计算的其他资源所需的资源。这里所称的资源,可以为计算时间、存储空间、存储时所使用的索引数量、等等。对应地,在根据信息提取特征时,可以根据所述资源信息,提取该数据样本的资源特征,用于表示该数据相关的资源需求。
在根据信息提取特征后,还可以进一步地对特征进行其他预处理,例如,可以进行归一化处理,又如,也可以剔除特征数据中的误点数据,再如,还可以在剔除误点后进行归一化处理,等等。归一化具体处理方式可以参考其他资料,本说明书实施例在此不进行赘述,也不对具体的预处理方式进行限定。
S104,将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
S105,根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
具体可以采用多种方式根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,本说明书实施例对此不做限定。
在本说明书实施例的一种具体实施方式中,可以首先获得初始的数据生命周期预测模型。
可以理解的是,本说明书实施例所提供的模型构建方法中,可以进行多次模型训练,例如,首次训练得到预测模型后,可以将模型应用于对数据生命周期标准值的预测,为了使模型能够适用于当前的数据环境,可以在一段时间后基于当前的新数据样本,继续训练、优化所训练的模型。因此,这里所获得的初始的数据生命周期预测模型,可以是首次训练前初始化得到的模型,也可以是上次训练完成后得到的模型。
在获得初始模型后,可以使用所述训练数据样本集合中的数据样本,对所获得的数据生命周期预测模型进行迭代训练,直至满足预设的迭代停止条件;所述迭代停止条件可以包括:当前的数据生命周期预测模型指标满足预设的性能需求、和/或迭代次数达到预设要求。
例如,可以将训练数据样本集合按照一定比例划分为训练集、验证集与测试集,如划分比例可以为6:2:2。在通过训练集中的数据样本,对模型进行一定次数的迭代训练后,可以通过验证集中的训练样本对当前的数据生命周期预测模型指标是否满足预设的性能需求进行验证。
具体地可以通过多种方式验证当前的数据生命周期预测模型指标是否满足预设的性能需求,在本说明书的一种具体实施方式中,可以针对输入当前数据生命周期预测模型的数据样本,计算模型输出的生命周期标准值与该数据样本的生命周期实际值的误差。
例如,可以采用如下所示的公式(1),计算数据样本标准值与实际值的均方误差:
其中,m为数据样本的总数,yi为第i个数据样本的数据生命周期实际值,yi’为第i个数据样本的数据生命周期标准值。
可以预先设定一个均方误差阈值,如果所计算的均方误差结果小于预设阈值,则可以认为当前的数据生命周期预测模型指标满足预设的性能需求,可以停止迭代训练,如果不小于,则可以认为不满足预设性能需求,需要继续进行迭代训练。
当然,也可以采用其他方式计算标准值与实际值的误差,例如,可以计算二者的绝对值误差、均方根误差、等等,本说明书实施例对此不做限定。
参照图2所示,基于以上构建的数据生命周期预测模型的数据生命周期预测方法,可以包括以下步骤:
S201,获得待预测数据的预设特征信息;
S202,根据所述提取特征向量的方法,提取所述待预测数据的特征向量;
S203,将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
对于待预测的数据,可以根据与构建模型阶段相同的方法,获得预设特征信息并提取特征向量,然后将所提取的特征向量输入所构建的数据生命周期预测模型中,便可以预测该数据的生命周期标准值。
根据模型输出的数据生命周期标准值,可以确定为所述待预测数据设置的生命周期实际值是否合理,具体地,本说明书实施例的一种具体实施方式中,可以针对所述待预测数据,计算为该数据设置的生命周期实际值与模型输出的数据生命周期标准值的差值,然后判断所计算的差值是否在预设范围内;若是,则确定为所述待预测数据设置的生命周期实际值合理;若否,则确定为所述待预测数据设置的生命周期实际值不合理。
例如,可以采用如下所示的公式(2),计算待检测数据的标准值与实际值的差值:
其中,yj为待检测数据j的数据生命周期实际值,yj’为待检测数据j的数据生命周期标准值。在判断差值是否在预设范围内时,可以预设阈值σ,并计算Ei的绝对值|Ei|,如果|Ei|>σ,则可以认为差值在预设范围内,即为所述待预测数据设置的生命周期实际值合理;如果|Ei|<σ,则可以认为差值不在预设范围内,即为所述待预测数据设置的生命周期实际值不合理。
并且进一步地,如果|Ei|>0,则可以认为为所述待预测数据设置的生命周期实际值过长,应缩短所设置的生命周期;如果|Ei|<0,则可以认为为所述待预测数据设置的生命周期实际值过短,应延长所设置的生命周期。
当然,也可以采用其他方式计算标准值与实际值的差值,例如,可以直接计算yj与yj’的差值等,本说明书实施例对此不做限定。
下面结合一个更为具体的实例,对本说明书提供的数据生命周期预测模型构建和数据生命周期预测方法进行说明。
假设应用本方案的环境中,均以数据表的形式存储,并且每个数据表存储后将被周期性地调度用于计算,每次计算得到的结果数据将分别存储,用户可以访问各次计算结果。
1)构建数据生命周期预测模型
预先人工确定若干生命周期合理的数据样本,然后针对每个数据样本,获取该数据表的类型(如全量表、增量表),该数据表的调度周期(如日调度、周调度),各次计算结果的数据大小,各次调度计算所消耗的资源与时长,所存储的各次计算结果的访问量,以及人工标注的该数据表的重要性,等等信息。
针对第i个数据样本,根据所获得的信息,提取对应的特征对特征进行归一化处理,并得到该数据样本的特征向量此外,确定该数据样本的生命周期实际值yi
将上述的若干数据样本按照6:2:2的比例,分别划分为训练集、验证集与测试集,从而使用训练集对初始模型进行迭代训练,以及使用验证集对所训练的模型性能进行验证,直至迭代次数达到预设次数、或者验证确定符合预设性能需求,最后可以使用测试集测试得到的模型的性能。所训练的模型可以为回归模型,具体地,可以采用多元回归模型,也可以采用支持向量机、GBDT等其他回归模型。
2)基于所构建的数据生命周期预测模型检测数据
对于某个待检测的数据表,获取该数据表的类型(如全量表、增量表),该数据表的调度周期(如日调度、周调度),各次计算结果的数据大小,各次调度计算所消耗的资源与时长,所存储的各次计算结果的访问量,以及人工标注的该数据表的重要性,等等信息。
并根据上述相同的方式,处理所获得的信息,得到特征向量值。将特征向量输入所构建的数据生命周期预测模型,则可以得到模型输出的该数据表的生命周期标准值,然后通过上述公式(2)计算实际值与标准值的差值,并与预设阈值σ进行比较,便可以确定为本数据表设置的生命周期是否合理、是否过长或者过短。
可见,应用上述方案,可以综合数据被调度计算的需求、计算结果数据被访问的需求、数据的类型以及重要性等多个维度,检测为数据设置的生命周期是否过长或者过短,从而在节约存储与计算资源的同时,避免数据丢失与重复计算加工。
相应于上述方法实施例,本说明书实施例还提供一种数据生命周期预测模型构建装置,参见图3所示,该装置可以包括:
样本确定模块110,用于确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
信息获得模块120,用于获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
特征提取模块130,用于根据所获得的特征信息,提取该数据样本的特征向量;其中,特征提取模块具体用于:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
样本构成模块140,用于将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
模型训练模块150,用于根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
在本说明书提供的一种具体实施方式中,所述特征信息还可以包括:类型信息,用于表示该数据所属的预设数据类型;
所述特征提取模块130还可以具体用于:
根据所述类型信息,确定该数据的数据类型,得到该数据样本的类型特征。
在本说明书提供的一种具体实施方式中,所述特征信息还可以包括:资源信息,用于表示计算该数据所需的资源、存储该数据所需的资源、基于该数据计算其他数据所需的资源、和/或存储所计算的其他资源所需的资源;
所述特征提取模块130还可以具体用于:
根据所述资源信息,提取该数据样本的资源特征。
在本说明书提供的一种具体实施方式中,所述模型训练模块150,包括:
模型获得子模块,用于获得初始的数据生命周期预测模型;
模型训练子模块,用于使用所述训练数据样本集合中的数据样本,对所获得的数据生命周期预测模型进行迭代训练,直至满足预设的迭代停止条件;
所述迭代停止条件包括:当前的数据生命周期预测模型指标满足预设的性能需求、和/或迭代次数达到预设要求。
在本说明书提供的一种具体实施方式中,所述当前的数据生命周期预测模型指标,可以包括:
针对输入当前数据生命周期预测模型的数据样本,模型输出的生命周期标准值与该数据样本的生命周期实际值的误差。
本说明书实施例还提供一种基于所述预测模型的数据生命周期预测装置,参照图4所示,该装置包括:
信息获得模块210,用于获得待预测数据的预设特征信息;
特征提取模块220,用于根据所述提取特征向量的装置,提取所述待预测数据的特征向量;
周期检测模块230,用于将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
在本说明书提供的一种具体实施方式中,所述周期检测模块,具体可以用于:
针对所述待预测数据,计算为该数据设置的生命周期实际值与模型输出的数据生命周期标准值的差值;
判断所计算的差值是否在预设范围内;
若是,则确定为所述待预测数据设置的生命周期实际值合理;
若否,则确定为所述待预测数据设置的生命周期实际值不合理。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的数据生命周期预测模型构建与数据生命周期预测方法。该方法至少包括:
一种数据生命周期预测模型构建方法,该方法包括:
确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
根据所获得的特征信息,提取该数据样本的特征向量;其中,提取特征的方法包括:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
一种基于所述预测模型的数据生命周期预测方法,该方法包括:
获得待预测数据的预设特征信息;
根据所述提取特征向量的方法,提取所述待预测数据的特征向量;
将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的数据生命周期预测模型构建与数据生命周期预测方法。该方法至少包括:
一种数据生命周期预测模型构建方法,该方法包括:
确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
根据所获得的特征信息,提取该数据样本的特征向量;其中,提取特征的方法包括:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
一种基于所述预测模型的数据生命周期预测方法,该方法包括:
获得待预测数据的预设特征信息;
根据所述提取特征向量的方法,提取所述待预测数据的特征向量;
将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (15)

1.一种数据生命周期预测模型构建方法,该方法包括:
确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
根据所获得的特征信息,提取该数据样本的特征向量;其中,提取特征的方法包括:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
2.根据权利要求1所述的方法,所述特征信息还包括:类型信息,用于表示该数据所属的预设数据类型;
所述提取特征的方法还包括:
根据所述类型信息,确定该数据的数据类型,得到该数据样本的类型特征。
3.根据权利要求1所述的方法,所述特征信息还包括:资源信息,用于表示计算该数据所需的资源、存储该数据所需的资源、基于该数据计算其他数据所需的资源、和/或存储所计算的其他资源所需的资源;
所述提取特征的方法还包括:
根据所述资源信息,提取该数据样本的资源特征。
4.根据权利要求1所述的方法,所述根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,包括:
获得初始的数据生命周期预测模型;
使用所述训练数据样本集合中的数据样本,对所获得的数据生命周期预测模型进行迭代训练,直至满足预设的迭代停止条件;
所述迭代停止条件包括:当前的数据生命周期预测模型指标满足预设的性能需求、和/或迭代次数达到预设要求。
5.根据权利要求4所述的方法,所述当前的数据生命周期预测模型指标,包括:
针对输入当前数据生命周期预测模型的数据样本,模型输出的生命周期标准值与该数据样本的生命周期实际值的误差。
6.一种基于权利要求1至5任一项所述预测模型的数据生命周期预测方法,该方法包括:
获得待预测数据的预设特征信息;
根据所述提取特征向量的方法,提取所述待预测数据的特征向量;
将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
7.根据权利要求6所述的方法,所述根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理,包括:
针对所述待预测数据,计算为该数据设置的生命周期实际值与模型输出的数据生命周期标准值的差值;
判断所计算的差值是否在预设范围内;
若是,则确定为所述待预测数据设置的生命周期实际值合理;
若否,则确定为所述待预测数据设置的生命周期实际值不合理。
8.一种数据生命周期预测模型构建装置,该装置包括:
样本确定模块,用于确定训练数据样本集合,所述训练样本集合中的数据样本为:已确定生命周期合理的数据样本;针对集合中每个数据样本,执行以下步骤:
信息获得模块,用于获得该数据样本的预设特征信息;所述特征信息至少包括:访问信息,用于表示存储该数据后对该数据的访问情况;
特征提取模块,用于根据所获得的特征信息,提取该数据样本的特征向量;其中,特征提取模块具体用于:根据所述访问信息,提取该数据样本的访问特征,所述访问特征用于表示:在各预设时段内对该数据的访问量、和/或存储该数据后至访问量低于预设阈值的时长;
样本构成模块,用于将所提取的特征向量作为该数据样本的特征值;以及,获得为该数据设置的生命周期,并将所述生命周期作为该数据样本的标签值;
模型训练模块,用于根据所述训练数据样本集合,通过机器学习算法训练数据生命周期预测模型,该预测模型用于预测所存储数据的生命周期的标准值。
9.根据权利要求8所述的装置,所述特征信息还包括:类型信息,用于表示该数据所属的预设数据类型;
所述特征提取模块还具体用于:
根据所述类型信息,确定该数据的数据类型,得到该数据样本的类型特征。
10.根据权利要求8所述的装置,所述特征信息还包括:资源信息,用于表示计算该数据所需的资源、存储该数据所需的资源、基于该数据计算其他数据所需的资源、和/或存储所计算的其他资源所需的资源;
所述特征提取模块还具体用于:
根据所述资源信息,提取该数据样本的资源特征。
11.根据权利要求8所述的装置,所述模型训练模块,包括:
模型获得子模块,用于获得初始的数据生命周期预测模型;
模型训练子模块,用于使用所述训练数据样本集合中的数据样本,对所获得的数据生命周期预测模型进行迭代训练,直至满足预设的迭代停止条件;
所述迭代停止条件包括:当前的数据生命周期预测模型指标满足预设的性能需求、和/或迭代次数达到预设要求。
12.根据权利要求11所述的装置,所述当前的数据生命周期预测模型指标,包括:
针对输入当前数据生命周期预测模型的数据样本,模型输出的生命周期标准值与该数据样本的生命周期实际值的误差。
13.一种基于权利要求8至12任一项所述预测模型的数据生命周期预测装置,该装置包括:
信息获得模块,用于获得待预测数据的预设特征信息;
特征提取模块,用于根据所述提取特征向量的装置,提取所述待预测数据的特征向量;
周期检测模块,用于将所提取的待预测数据的特征向量,输入所述数据生命周期预测模型,根据模型输出的数据生命周期标准值,确定为所述待预测数据设置的生命周期实际值是否合理。
14.根据权利要求13所述的装置,所述周期检测模块,具体用于:
针对所述待预测数据,计算为该数据设置的生命周期实际值与模型输出的数据生命周期标准值的差值;
判断所计算的差值是否在预设范围内;
若是,则确定为所述待预测数据设置的生命周期实际值合理;
若否,则确定为所述待预测数据设置的生命周期实际值不合理。
15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法。
CN201811548766.8A 2018-12-18 2018-12-18 一种模型构建、数据生命周期预测方法、装置及设备 Pending CN110032750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811548766.8A CN110032750A (zh) 2018-12-18 2018-12-18 一种模型构建、数据生命周期预测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811548766.8A CN110032750A (zh) 2018-12-18 2018-12-18 一种模型构建、数据生命周期预测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN110032750A true CN110032750A (zh) 2019-07-19

Family

ID=67235355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811548766.8A Pending CN110032750A (zh) 2018-12-18 2018-12-18 一种模型构建、数据生命周期预测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110032750A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784394A (zh) * 2020-06-30 2020-10-16 广东奥园奥买家电子商务有限公司 商品生命周期管理方法、装置和计算机设备
CN113760705A (zh) * 2020-09-17 2021-12-07 北京沃东天骏信息技术有限公司 一种软件质量测试方法、装置、电子设备及存储介质
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897904A (zh) * 2017-02-24 2017-06-27 北京金山安全软件有限公司 产品生命周期建模方法、装置及电子设备
CN108470071A (zh) * 2018-03-29 2018-08-31 联想(北京)有限公司 一种数据处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897904A (zh) * 2017-02-24 2017-06-27 北京金山安全软件有限公司 产品生命周期建模方法、装置及电子设备
CN108470071A (zh) * 2018-03-29 2018-08-31 联想(北京)有限公司 一种数据处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784394A (zh) * 2020-06-30 2020-10-16 广东奥园奥买家电子商务有限公司 商品生命周期管理方法、装置和计算机设备
CN113760705A (zh) * 2020-09-17 2021-12-07 北京沃东天骏信息技术有限公司 一种软件质量测试方法、装置、电子设备及存储介质
CN114742569A (zh) * 2021-01-08 2022-07-12 广州视源电子科技股份有限公司 用户生命阶段预测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN108563548A (zh) 异常检测方法及装置
US8621080B2 (en) Accurately predicting capacity requirements for information technology resources in physical, virtual and hybrid cloud environments
US8630836B2 (en) Predicting system performance and capacity using software module performance statistics
CN108255653A (zh) 一种产品的测试方法及其终端
CN108052979A (zh) 对模型预测值进行融合的方法、装置和设备
CN107391526A (zh) 一种基于区块链的数据处理方法及设备
CN110232537A (zh) 分配数据对象的方法、装置、设备及存储介质
CN108038040A (zh) 计算机集群性能指标检测方法、电子设备及存储介质
CN108665143A (zh) 风控模型的评估方法及装置
CN107402881A (zh) 一种项目测试的选取方法及装置
CN109426593A (zh) 自动评估系统性能的方法和装置
CN110032750A (zh) 一种模型构建、数据生命周期预测方法、装置及设备
CN108415845A (zh) Ab测试系统指标置信区间的计算方法、装置和服务器
CN110033130A (zh) 异常业务的监控方法及装置
CN109615081A (zh) 一种模型预测系统及方法
CN109685089A (zh) 评估模型性能的系统及方法
CN109697537A (zh) 数据审核的方法和装置
CN110363427A (zh) 模型质量评估方法和装置
CN106033510A (zh) 一种用户设备识别方法及系统
CN105719221A (zh) 针对多任务的路径协同规划方法和装置
CN110347407A (zh) 一种获取内存占用量的方法、装置、计算机设备及介质
CN109088747A (zh) 云计算系统中资源的管理方法和装置
CN110007921A (zh) 一种代码发布方法及装置
CN109976975A (zh) 一种磁盘容量预测方法、装置、电子设备及存储介质
CN114564374A (zh) 算子性能评估方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190719

RJ01 Rejection of invention patent application after publication