CN110705598A - 智能模型管理方法、装置、计算机设备及存储介质 - Google Patents
智能模型管理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110705598A CN110705598A CN201910841829.7A CN201910841829A CN110705598A CN 110705598 A CN110705598 A CN 110705598A CN 201910841829 A CN201910841829 A CN 201910841829A CN 110705598 A CN110705598 A CN 110705598A
- Authority
- CN
- China
- Prior art keywords
- model
- new version
- sample data
- data set
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000012360 testing method Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 39
- 238000001514 detection method Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
Abstract
本发明提供一种智能模型管理方法、装置、计算机设备及存储介质,该方法包括如下步骤:获取当前在线的模型,记为第一初始模型;检测第一初始模型的准确率是否达到预定准确率阈值,若否,则从数据源端采集当前最新的样本数据集,记为第一样本数据集;将所述第一样本数据集分为第一训练集和第一测试集;根据所述第一训练集对第一初始模型进行重新训练,生成第一新版本模型;根据所述第一测试集,测试所述第一新版本模型是否达到预设要求,若是,将第一初始模型更新为所述第一新版本模型。本发明可以实现模型的自动监控与迭代,减少模型创建完成之后的人工干预操作,降低模型训练及管理人员的人力成本。
Description
技术领域
本发明涉及数据建模领域,尤其涉及一种智能模型管理方法、装置、计算机设备及存储介质。
背景技术
模型是机器学习中的一个重要概念,简单的讲,指特征空间到输出空间的映射,一般由模型的假设函数和参数组成。工业界常用的模型有LR(Logistic Regression,逻辑回归)、GBDT(全称为Gradient Boosting Decision Tree,是一种迭代的决策树算法)、SVM(Support Vector Machine,支持向量机)、DNN(Deep Neural Network,深度神经网络)等。
很多企业有大量模型需要统一进行管理并提供在线服务,以便技术人员通过调用相关模型来实现相应的功能。模型在提供服务的过程中涉及到模型监控与迭代,现有技术需要人工进行干预,不仅费时费力,浪费模型训练及管理人员的人力成本,而且容易因人为失误导致出错。
发明内容
针对上述现有技术的不足,本发明提供一种智能模型管理方法、装置、计算机设备及存储介质,以实现模型的自动监控与迭代,减少模型创建完成之后的人工干预操作,降低模型训练及管理人员的人力成本。
为了实现上述目的,本发明提供一种智能模型管理方法,包括以下步骤:
获取当前在线的模型,记为第一初始模型;
检测所述第一初始模型的准确率是否达到预定准确率阈值,若否,则从数据源端采集当前最新的样本数据集,记为第一样本数据集;
将所述第一样本数据集分为第一训练集和第一测试集;
根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型;
根据所述第一测试集,测试所述第一新版本模型是否达到预设要求,若是,将所述第一初始模型更新为所述第一新版本模型。
进一步地,所述智能模型管理方法还包括每隔预定周期检测所述数据源端的样本数据集是否更新,若是,则执行以下步骤:
获取当前在线的模型,记为第二初始模型;
从所述数据源端采集当前最新的样本数据集,记为第二样本数据集;
将所述第二样本数据集分为第二训练集和第二测试集;
根据所述第二训练集对所述第二初始模型进行重新训练,生成第二新版本模型;
根据所述第二测试集,测试所述第二新版本模型是否优于所述第二初始模型,若是,则将所述第二初始模型更新为所述第二新版本模型。
进一步地,所述根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型的步骤如下:
利用所述第一训练集训练所述第一初始模型,直至所述第一初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第一初始模型作为所述第一新版本模型。
进一步地,所述根据所述第二训练集对所述第二初始模型进行重新训练,生成第二新版本模型的步骤如下:
利用所述第二训练集训练所述第二初始模型,直至所述第二初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第二初始模型作为所述第二新版本模型。
进一步地,所述数据源端的样本数据集标记有时间戳;
所述从数据源端采集当前最新的样本数据集的步骤包括:从所述数据源端获取标记的时间戳与当前时间戳匹配的样本数据集。
进一步地,所述从所述数据源端获取标记的时间戳与当前时间戳匹配的样本数据集的步骤包括:
计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,将与所述当前时间戳的相似度最高的时间戳确定为与所述当前时间戳匹配的目标时间戳;
从数据源端获取标记为所述目标时间戳的样本数据集。
进一步地,所述智能模型管理方法还包括:
在将所述第一初始模型更新为所述第一新版本模型后,向模型管理员终端和/或模型用户终端发送第一初始模型更新为所述第一新版本模型的通知信息;和/或
在将所述第二初始模型更新为所述第二新版本模型后,向模型管理员终端和/或模型用户终端发送第二初始模型更新为所述第二新版本模型的通知信息。
为了实现上述目的,本发明还提供一种智能模型管理装置,包括:
第一模型获取模块,用于获取当前在线的模型,记为第一初始模型;
第一准确率检测模块,用于检测所述第一初始模型的准确率是否达到预定准确率阈值;
第一样本采集模块,用于在所述准确率检测模块的检测结果为否时,从数据源端采集当前最新的样本数据集,记为第一样本数据集;
第一样本划分模块,用于将所述第一样本数据集分为第一训练集和第一测试集;
第一模型训练模块,用于根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型;
第一模型测试模块,用于根据所述第一测试集,测试所述第一新版本模型是否达到预设要求;
第一模型更新模块,用于在所述第一新版本模型达到预设要求时,将所述第一初始模型更新为所述第一新版本模型。
进一步地,所述智能模型管理装置还包括:
样本更新检测模块,用于每隔预定周期检测所述数据源端的样本数据集是否更新;
第二模型获取模块,用于在所述样本更新检测模块的检测结果为是时,获取当前在线的模型,记为第二初始模型;
第二样本采集模块,用于从所述数据源端采集当前最新的样本数据集,记为第二样本数据集;
第二样本划分模块,用于将所述第二样本数据集分为第二训练集和第二测试集;
第二模型训练模块,用于根据所述第二训练集对所述第二初始模型进行重新训练,生成第二新版本模型;
第二模型测试模块,用于根据所述第二测试集,测试所述第二新版本模型是否优于所述第二初始模型;
第二模型更新模块,用于在所述第二新版本模型优于所述第二初始模型时,则将所述第二初始模型更新为所述第二新版本模型。
进一步地,所述第一模型训练模块具体用于:
利用所述第一训练集训练第一初始模型,直至所述第一初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第一初始模型作为所述第一新版本模型。
进一步地,所述第二模型训练模块具体用于:
利用所述第二训练集训练第二初始模型,直至所述第二初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第二初始模型作为所述第二新版本模型。
进一步地,所述数据源端的样本数据集标记有时间戳;
所述第一样本采集模块和所述第二样本采集模块从数据源端获取标记的时间戳与当前时间戳匹配的样本数据集作为当前最新的样本数据集。
进一步地,所述第一样本采集模块和所述第二样本采集模块分别包括:
目标时间戳确定单元,用于计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,将与所述当前时间戳的相似度最高的时间戳确定为与所述当前时间戳匹配的目标时间戳;
最新样本数据集获取单元,用于从所述数据源端获取标记为所述目标时间戳的样本数据集。
进一步地,所述智能模型管理装置还包括:
第一模型更新通知模块,用于在将所述第一初始模型更新为所述第一新版本模型后,向模型管理员终端和/或模型用户终端发送第一初始模型更新为所述第一新版本模型的通知信息;和/或
第二模型更新通知模块,用于在将所述第二初始模型更新为所述第二新版本模型后,向模型管理员终端和/或模型用户终端发送第二初始模型更新为所述第二新版本模型的通知信息。
为了实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述方法的步骤。
为了实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述方法的步骤。
通过采用上述技术方案,本发明具有如下效果:
1、本发明实时自动检测当前在线模型的准确率,若当前在线模型的准确率未达到预定准确率阈值,则自动采集最新的样本数据集对当前在线模型进行重新训练生成第一新版本模型,若生成的第一新版本模型能达到预设要求,则自动将当前在线模型更新为第一新版本模型,从而实现模型的自动迭代功能。
2、本发明定期检测数据源端中的样本数据集是否更新,并用新的样本数据集对当前在线模型进行重新训练生成第二新版本模型,若生成的第二新版本模型优于当前在线模型,则自动将当前在线模型更新为第二新版本模型,从而实现模型的定期训练和更新,提高了模型更新效率。
附图说明
图1为本发明智能模型管理方法一个实施例的流程图;
图2为本发明智能模型管理装置一个实施例的结构框图;
图3为本发明计算机设备的硬件架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,为本发明智能模型管理方法的一个实施例的流程图。如图1所示,本发明的智能模型管理方法包括以下步骤:
步骤S11,获取当前在线的模型,记为第一初始模型。当前在线的模型是指当前位于模型调用地址的模型,如深度卷积神经网络模型、逻辑回归模型、线性回归模型、GBDT、二分类模型等,本发明对当前在线模型的类型不做具体限制。在获取当前在线模型时,首先查找模型调用地址,然后直接读取当前位于模型调用地址的模型即可得到。
步骤S12,检测第一初始模型的准确率是否达到预定准确率阈值(如95%),若否,则执行步骤S13。具体地,首先采集由第一初始模型预测得到的M个预测值以及与M个预测值一一对应的M个实测值,而后获取与相应实测值匹配的预测值的个数N,并将N/M作为第一初始模型的准确率,最后判断第一初始模型的准确率是否达到预定准确率阈值,其中,预定准确率阈值可以根据实际需要进行调整。优选地,本发明可以通过图形化方式将历史在线模型的准确率的变化趋势展示出来。
步骤S13,从预设的数据源端采集最新的样本数据集,记为第一样本数据集。在本实施例中,数据源端可以是HDFS(Hadoop分布式文件系统)端或者指定的存储路径等,数据源端的样本数据集标记有时间戳,从数据源端采集最新的样本数据集是指:从数据源端获取标记的时间戳与当前时间戳匹配的样本数据集。具体地,首先计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,并将与当前时间戳的相似度最高的时间戳确定为与当前时间戳匹配的目标时间戳;而后从数据源端获取标记为目标时间戳的样本数据集作为最新样本数据集,并记为第一样本数据集。
步骤S14,将第一样本数据集划分为第一比例(如60%)的第一训练集和第二比例的第一测试集(如40%)。
步骤S15,根据第一训练集对第一初始模型进行重新训练,生成第一新版本模型。具体地,利用第一训练集重新训练第一初始模型,直至第一初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第一初始模型作为第一新版本模型。具体而言,首先计算第K次迭代训练时第一初始模型的损失函数值,再利用梯度下降算法根据第K次迭代训练时损失函数值进行第K+1次迭代训练,直到第一初始模型的损失函数值满足预设要求,并将损失函数值满足预设要求时的第一初始模型作为第一新版本模型。
例如,假设第一初始模型为线性回归模型,其表达式如下:
则第一初始模型的损失函数计算公式如下:
当损失函数值不满足预设要求时,对损失函数求导得到:
而后采用批量梯度下降(BGD)算法,沿导数相反方向训练参数权值,即按下式(4)更新θ:
而后将训练得到的θj′作为新的θ代入式(2),再次计算模型的损失函数值,若得到的损失函数值满足预设要求,则训练结束,将损失函数值满足预设要求的模型作为第一新版本模型。其中,在式(1)~(4)中,θj为第一初始模型中的第j个参数的权值,xj为第一初始模型中的第j个参数,n为第一初始模型中参数的总数目,xi为第一训练集中第i个样本的输入值,yi为第一训练集中第i个样本的输出值,m为第一训练集中的样本数。
由式(4)可知,批量梯度下降算法每次迭代都需要所有的样本,样本数m若很大则会影响训练速度。所以当第一训练集中样本数过大时,优选采用随机梯度下降(SDG)算法训练参数权值,即按下式(5)更新θ:
其中,式(5)中参数的含义与式(4)中相同参数的含义一致。由式(5)可知,随机梯度下降是通过每个样本来迭代更新一次,如果样本量很大的情况,那么可能只用其中部分的样本,就已经将θ迭代到最优解了,而前述批量梯度下降算法迭代一次需要用到十几万训练样本,一次迭代不可能最优,如果迭代10次的话就需要遍历训练样本10次。随机梯度下降算法的缺点是SGD的噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。所以虽然训练速度快,但是准确度下降。
步骤S16,根据第一测试集,测试第一新版本模型是否达到预设要求,即其各项预定的性能指标是否达到预设指标门限值,若是,则执行步骤S17。具体地,首先根据第一测试集评估第一新版模型的一系列指标,例如,假设第一新本模型为二分类模型,则通常评估如下四个指标:准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1_score(F1分数);而后,判断各指标是否达到预设要求。
其中,Accuracy、Precision、Recall和F1_score的评估原理如下:通常以关注的样本为正样本,其他样本为负样本,模型根据测试数据集预测要么正确要么不正确。四种情况出现的总数分别记作:TP——将正样本预测为正样本的次数,FN——将正样本预测为负样本的次数,FP——将负样本预测为正样本的次数,TN——将负样本预测为负样本的次数,则有:Accuracy=(TP+TN)/(TP+FP+TN+FN),表示对于给定的测试数据集,模型正确分类的样本数与总样本数之比;Precision=TP/(TP+FP),表示模型正确分类的正样本数与识别出的正样本总数之比;Recall=TP/(TP+FN),表示模型正确分类的正样本数与测试数据集中的正样本总数之比;F1_score=2/[(1/Precision)+(1/Recall)],表示Precision和Recall加权调和平均,用于综合反映模型整体的指标。
评估得到第一初始模型的一系列指标后,判断该模型的各项指标能否达到预设指标门限值。其中,预设指标门限值可以是模型管理员根据实际需求设定的固定值,也可以设置为历史在线模型对应的最佳指标进行调整。
步骤S17,若第一新版本模型的各项性能指标达到预设指标门限值,则自动将当前在线模型(即第一初始模型)更新为第一新版本模型,即自动将不满足预设需求的第一初始模型下线,并部署上线第一新版本模型,从而实现模型的自动迭代与智能部署功能。而后,向模型管理员终端和/或模型用户终端发送当前在线模型更新为第一新版本模型的通知信息,以通知模型管理员和模型用户当前在线模型更新为第一新版本模型。
在本发明中,智能模型管理方法还包括每隔预定周期(如1-6周)检测数据源端的样本数据集是否更新,若更新,则执行以下步骤:
步骤S21,获取当前在线的模型,记为第二初始模型。
步骤S22,从数据源端采集最新的样本数据集,记为第二样本数据集。正如步骤S13所述,数据源端的样本数据集标记有时间戳,本步骤从数据源端采集最新的样本数据集同样是通过从数据源端获取标记的时间戳与当前时间戳匹配的样本数据集实现。具体地,首先计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,将与当前时间戳的相似度最高的时间戳确定为与当前时间戳匹配的目标时间戳;而后从数据源端获取标记为目标时间戳的样本数据集作为最新样本数据集,并记为第二样本数据集。
步骤S23,将第二样本数据集分为第三比例(如70%)的第二训练集和第四比例的第二验证集(如30%)。
步骤S24,根据第二训练集对第二初始模型进行重新训练,生成第二新版本模型。具体地,利用第二训练集重新训练第二初始模型,直至第二初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第二初始模型作为第一新版本模型。训练时,首先将第二训练集输入第二初始模型,并计算第K次迭代训练时第二初始模型的损失函数值,再利用梯度下降算法根据第K次迭代训练时得到的损失函数值更新第二初始模型的参数权值,而后进行第K+1次迭代训练,直到第二初始模型的损失函数值满足预设要求,并将损失函数值满足预设要求时的第二初始模型作为第二新版本模型。
步骤S25,根据第二测试集,测试第二新版本模型是否优于第二初始模型,若是,执行步骤S26,否则,结束流程。具体地,第二新版本模型训练完成后,首先,根据第二测试集评估该第二新版本模型的预定指标,如准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1_score(F1分数),而后,判断第二新版本模型的预定指标是否高于第二初始模型的相应指标,若是,说明第二新版本模型优于第二初始模型,则执行步骤S26。
步骤S26,将第二初始模型更新为第二新版本模型,即自动将第二初始模型下线,并部署上线效果更佳的第二新版本模型,从而实现模型的定期训练和更新,提高了模型更新效率。而后,向模型管理员终端和/或模型用户终端发送当前在线模型更新为第二新版本模型的通知信息,以通知模型管理员和/或模型用户当前在线模型更新为第二新版本模型。
需要说明的是,对于本实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。
实例二
本实施例提供一种智能模型管理装置10,如图2所示,该装置10包括:
第一模型获取模块111,用于获取当前在线的模型,记为第一初始模型;
第一准确率检测模块112,用于检测第一初始模型的准确率是否达到预定准确率阈值;
第一样本采集模块113,用于在准确率检测模块的检测结果为否时,从数据源端采集当前最新的样本数据集,记为第一样本数据集;
第一样本划分模块114,用于将第一样本数据集分为第一训练集和第一测试集;
第一模型训练模块115,用于根据第一训练集对第一初始模型进行重新训练,生成第一新版本模型;
第一模型测试模块116,用于根据第一测试集,测试第一新版本模型是否达到预设要求;
第一模型更新模块117,用于在第一新版本模型达到预设要求时,将第一初始模型更新为第一新版本模型。
在本实施例中,智能模型管理装置10还包括:
样本更新检测模块121,用于每隔预定周期检测数据源端的样本数据集是否更新;
第二模型获取模块122,用于在样本更新检测模块的检测结果为是时,获取当前在线的模型,记为第二初始模型;
第二样本采集模块123,用于从数据源端采集当前最新的样本数据集,记为第二样本数据集;
第二样本划分模块124,用于将第二样本数据集分为第二训练集和第二测试集;
第二模型训练模块125,用于根据第二训练集对第二初始模型进行重新训练,生成第二新版本模型;
第二模型测试模块126,用于根据第二测试集,测试第二新版本模型是否优于第二初始模型;
第二模型更新模块127,用于在第二新版本模型优于第二初始模型时,则将第二初始模型更新为第二新版本模型。
在本实施例中,第一模型训练模块115具体用于:
利用第一训练集训练第一初始模型,直至第一初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第一初始模型作为第一新版本模型。
在本实施例中,第二模型训练模块125具体用于:
利用第二训练集训练第二初始模型,直至第二初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第二初始模型作为第二新版本模型。
在本实施例中,数据源端的样本数据集标记有时间戳;
第一样本采集模块113和第二样本采集模块123从数据源端获取标记的时间戳与当前时间戳匹配的样本数据集作为当前最新的样本数据集。
在本实施例中,第一样本采集模块113和第二样本采集模块123分别包括:
目标时间戳确定单元,用于计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,将与当前时间戳的相似度最高的时间戳确定为与当前时间戳匹配的目标时间戳;
最新样本数据集获取单元,用于从数据源端获取标记为目标时间戳的样本数据集。
在本实施例中,智能模型管理装置10还包括:
第一模型更新通知模块,用于在将第一初始模型更新为第一新版本模型后,向模型管理员终端和/或模型用户终端发送第一初始模型更新为第一新版本模型的通知信息;和/或
第二模型更新通知模块,用于在将第二初始模型更新为第二新版本模型后,向模型管理员终端和/或模型用户终端发送第二初始模型更新为第二新版本模型的通知信息。
本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的模块作并不一定是本发明所必须的。
实施例三
本发明还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图3所示。需要指出的是,图3仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例二的智能模型管理装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行智能模型管理装置10,以实现实施例一的智能模型管理方法。
实施例四
本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储智能模型管理装置10,被处理器执行时实现实施例一的智能模型管理方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种智能模型管理方法,其特征在于,包括以下步骤:
获取当前在线的模型,记为第一初始模型;
检测所述第一初始模型的准确率是否达到预定准确率阈值,若否,则从数据源端采集当前最新的样本数据集,记为第一样本数据集;
将所述第一样本数据集分为第一训练集和第一测试集;
根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型;
根据所述第一测试集,测试所述第一新版本模型是否达到预设要求,若是,将所述第一初始模型更新为所述第一新版本模型。
2.根据权利要求1所述的智能模型管理方法,其特征在于,还包括每隔预定周期检测所述数据源端的样本数据集是否更新,若是,则执行以下步骤:
获取当前在线的模型,记为第二初始模型;
从所述数据源端采集当前最新的样本数据集,记为第二样本数据集;
将所述第二样本数据集分为第二训练集和第二测试集;
根据所述第二训练集对所述第二初始模型进行重新训练,生成第二新版本模型;
根据所述第二测试集,测试所述第二新版本模型是否优于所述第二初始模型,若是,则将所述第二初始模型更新为所述第二新版本模型。
3.根据权利要求1所述的智能模型管理方法,其特征在于,所述根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型的步骤如下:
利用所述第一训练集训练所述第一初始模型,直至所述第一初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第一初始模型作为所述第一新版本模型。
4.根据权利要求2所述的智能模型管理方法,其特征在于,所述根据所述第二训练集对所述第二初始模型进行重新训练,生成第二新版本模型的步骤如下:
利用所述第二训练集训练所述第二初始模型,直至所述第二初始模型的损失函数值满足预设要求,将损失函数值满足预设要求时的第二初始模型作为所述第二新版本模型。
5.根据权利要求1或2所述的智能模型管理方法,其特征在于,所述数据源端的样本数据集标记有时间戳;
所述从数据源端采集当前最新的样本数据集的步骤包括:从所述数据源端获取标记的时间戳与当前时间戳匹配的样本数据集。
6.根据权利要求5所述的智能模型管理方法,其特征在于,所述从所述数据源端获取标记的时间戳与当前时间戳匹配的样本数据集的步骤包括:
计算当前时间戳与数据源端的各个样本数据集所标记的时间戳的相似度,将与所述当前时间戳的相似度最高的时间戳确定为与所述当前时间戳匹配的目标时间戳;
从数据源端获取标记为所述目标时间戳的样本数据集。
7.根据权利要求2所述的智能模型管理方法,其特征在于,所述智能模型管理方法还包括:
在将所述第一初始模型更新为所述第一新版本模型后,向模型管理员终端和/或模型用户终端发送第一初始模型更新为所述第一新版本模型的通知信息;和/或
在将所述第二初始模型更新为所述第二新版本模型后,向模型管理员终端和/或模型用户终端发送第二初始模型更新为所述第二新版本模型的通知信息。
8.一种智能模型管理装置,其特征在于,包括:
第一模型获取模块,用于获取当前在线的模型,记为第一初始模型;
第一准确率检测模块,用于检测所述第一初始模型的准确率是否达到预定准确率阈值;
第一样本采集模块,用于在所述准确率检测模块的检测结果为否时,从数据源端采集当前最新的样本数据集,记为第一样本数据集;
第一样本划分模块,用于将所述第一样本数据集分为第一训练集和第一测试集;
第一模型训练模块,用于根据所述第一训练集对所述第一初始模型进行重新训练,生成第一新版本模型;
第一模型测试模块,用于根据所述第一测试集,测试所述第一新版本模型是否达到预设要求;
第一模型更新模块,用于在所述第一新版本模型达到预设要求时,将所述第一初始模型更新为所述第一新版本模型。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910841829.7A CN110705598B (zh) | 2019-09-06 | 2019-09-06 | 智能模型管理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910841829.7A CN110705598B (zh) | 2019-09-06 | 2019-09-06 | 智能模型管理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705598A true CN110705598A (zh) | 2020-01-17 |
CN110705598B CN110705598B (zh) | 2024-05-28 |
Family
ID=69194358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910841829.7A Active CN110705598B (zh) | 2019-09-06 | 2019-09-06 | 智能模型管理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705598B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111588384A (zh) * | 2020-05-27 | 2020-08-28 | 京东方科技集团股份有限公司 | 获得血糖检测结果的方法、装置及设备 |
CN111951012A (zh) * | 2020-07-31 | 2020-11-17 | 中国工商银行股份有限公司 | 风险报文识别方法及系统 |
CN112215357A (zh) * | 2020-09-29 | 2021-01-12 | 三一专用汽车有限责任公司 | 模型优化方法、装置、设备和计算机可读存储介质 |
CN112508715A (zh) * | 2020-11-30 | 2021-03-16 | 泰康保险集团股份有限公司 | 保险两核数据模型上线部署方法、装置、电子设备和介质 |
CN112561332A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 模型管理方法、装置、电子设备、存储介质和程序产品 |
CN112767022A (zh) * | 2021-01-13 | 2021-05-07 | 平安普惠企业管理有限公司 | 移动应用功能演化趋势预测方法、装置及计算机设备 |
CN113449773A (zh) * | 2021-05-26 | 2021-09-28 | 北京有竹居网络技术有限公司 | 模型更新方法、装置、存储介质及电子设备 |
CN113827233A (zh) * | 2020-06-24 | 2021-12-24 | 京东方科技集团股份有限公司 | 用户特征值检测方法及装置、存储介质及电子设备 |
CN117314269A (zh) * | 2023-09-14 | 2023-12-29 | 博瀚智能(深圳)有限公司 | 质检模型管理方法、系统、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284212A1 (en) * | 2011-05-04 | 2012-11-08 | Google Inc. | Predictive Analytical Modeling Accuracy Assessment |
CN107316083A (zh) * | 2017-07-04 | 2017-11-03 | 北京百度网讯科技有限公司 | 用于更新深度学习模型的方法和装置 |
CN109389030A (zh) * | 2018-08-23 | 2019-02-26 | 平安科技(深圳)有限公司 | 人脸特征点检测方法、装置、计算机设备及存储介质 |
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
-
2019
- 2019-09-06 CN CN201910841829.7A patent/CN110705598B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120284212A1 (en) * | 2011-05-04 | 2012-11-08 | Google Inc. | Predictive Analytical Modeling Accuracy Assessment |
CN107316083A (zh) * | 2017-07-04 | 2017-11-03 | 北京百度网讯科技有限公司 | 用于更新深度学习模型的方法和装置 |
WO2019056499A1 (zh) * | 2017-09-20 | 2019-03-28 | 平安科技(深圳)有限公司 | 预测模型训练方法、数据监控方法、装置、设备及介质 |
CN109389030A (zh) * | 2018-08-23 | 2019-02-26 | 平安科技(深圳)有限公司 | 人脸特征点检测方法、装置、计算机设备及存储介质 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111588384A (zh) * | 2020-05-27 | 2020-08-28 | 京东方科技集团股份有限公司 | 获得血糖检测结果的方法、装置及设备 |
CN111588384B (zh) * | 2020-05-27 | 2023-08-22 | 京东方科技集团股份有限公司 | 获得血糖检测结果的方法、装置及设备 |
CN113827233A (zh) * | 2020-06-24 | 2021-12-24 | 京东方科技集团股份有限公司 | 用户特征值检测方法及装置、存储介质及电子设备 |
CN111951012A (zh) * | 2020-07-31 | 2020-11-17 | 中国工商银行股份有限公司 | 风险报文识别方法及系统 |
CN112215357A (zh) * | 2020-09-29 | 2021-01-12 | 三一专用汽车有限责任公司 | 模型优化方法、装置、设备和计算机可读存储介质 |
CN112508715A (zh) * | 2020-11-30 | 2021-03-16 | 泰康保险集团股份有限公司 | 保险两核数据模型上线部署方法、装置、电子设备和介质 |
CN112561332A (zh) * | 2020-12-16 | 2021-03-26 | 北京百度网讯科技有限公司 | 模型管理方法、装置、电子设备、存储介质和程序产品 |
CN112561332B (zh) * | 2020-12-16 | 2023-07-25 | 北京百度网讯科技有限公司 | 模型管理方法、装置、电子设备、存储介质和程序产品 |
CN112767022A (zh) * | 2021-01-13 | 2021-05-07 | 平安普惠企业管理有限公司 | 移动应用功能演化趋势预测方法、装置及计算机设备 |
CN112767022B (zh) * | 2021-01-13 | 2024-02-27 | 湖南天添汇见企业管理咨询服务有限责任公司 | 移动应用功能演化趋势预测方法、装置及计算机设备 |
CN113449773A (zh) * | 2021-05-26 | 2021-09-28 | 北京有竹居网络技术有限公司 | 模型更新方法、装置、存储介质及电子设备 |
CN117314269A (zh) * | 2023-09-14 | 2023-12-29 | 博瀚智能(深圳)有限公司 | 质检模型管理方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110705598B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110705598B (zh) | 智能模型管理方法、装置、计算机设备及存储介质 | |
US11514347B2 (en) | Identifying and remediating system anomalies through machine learning algorithms | |
US9129228B1 (en) | Robust and fast model fitting by adaptive sampling | |
US11157380B2 (en) | Device temperature impact management using machine learning techniques | |
CN107533504A (zh) | 用于软件分发的异常分析 | |
CN109726763A (zh) | 一种信息资产识别方法、装置、设备及介质 | |
US10839308B2 (en) | Categorizing log records at run-time | |
US9104753B2 (en) | Identifying an incident-addressing step | |
CN113626241B (zh) | 应用程序的异常处理方法、装置、设备及存储介质 | |
CN113505537A (zh) | 楼宇能耗检测方法、装置、计算机设备和存储介质 | |
CN109740760B (zh) | 文本质检自动化训练方法、电子装置及计算机设备 | |
CN109871891B (zh) | 一种物体识别方法、装置和存储介质 | |
CN113886237A (zh) | 分析报告的生成方法、装置、电子设备及存储介质 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
AU2022204049A1 (en) | Utilizing topology-centric monitoring to model a system and correlate low level system anomalies and high level system impacts | |
CN116010187A (zh) | 一种日志检测方法以及相关装置 | |
CN109711450A (zh) | 一种电网预想故障集预测方法、装置、电子设备及存储介质 | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
CN117193088A (zh) | 一种工业设备监控方法、装置以及服务器 | |
US20220083320A1 (en) | Maintenance of computing devices | |
WO2023139510A1 (en) | Systems and methods for detecting drift | |
US20230177231A1 (en) | Intelligent calibration of systems of equations with a knowledge seeded variational inference framework | |
US11188064B1 (en) | Process flow abnormality detection system and method | |
US11586964B2 (en) | Device component management using deep learning techniques | |
CN114610590A (zh) | 作业运行时长确定方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |