CN115454466A - 机器学习模型自动更新的方法、装置、设备和介质 - Google Patents
机器学习模型自动更新的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115454466A CN115454466A CN202210967786.9A CN202210967786A CN115454466A CN 115454466 A CN115454466 A CN 115454466A CN 202210967786 A CN202210967786 A CN 202210967786A CN 115454466 A CN115454466 A CN 115454466A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- learning model
- data set
- sample data
- user data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3604—Software analysis for verifying properties of programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本公开涉及人工智能技术领域,尤其涉及一种机器学习模型自动更新的方法、装置、设备和介质。该方法包括:基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;基于第二样本数据集进行训练得到训练后的第二机器学习模型;判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。采用该方法能够解决现有技术中无法根据不断更新的数据进行机器学习模型自动更新的问题。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种机器学习模型自动更新的方法、装置、设备和介质。
背景技术
随着大数据技术的不断发展,机器学习模型被广泛的应用在各个行业中,机器学习模型是指基于海量数据进行建模、训练,并利用训练好的模型来实现预测、分类或数据分析的,主要的实现步骤为:数据集标注、模型训练以及模型部署,即,可以理解的是,基于海量数据训练得到的机器学习模型的性能主要是依赖于提取海量数据的特征信息,从而基于数据特征信息进行学习的确定的。
然而,由于目前每天都会产生大量的数据,即数据时刻都在不断更新中,且携带不同的数据特征信息,因此,导致基于历史数据训练得到的机器学习模型,在实际应用过程中,无法适用于现有的数据,基于此,在机器学习模型实际投入应用过程中需要不断的进行模型的更新。
现有技术中,通常采用人工选取新样本进行机器学习模型的更新,或者是通过设置周期实现机器学习模型的更新,但是,采用现有技术需耗费大量的人力资源、且无法准确的设置周期,从而导致存在无法根据不断更新的数据准确的进行机器学习模型自动更新的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种机器学习模型自动更新的方法、装置、设备和介质。
第一方面,本公开提供了一种机器学习模型自动更新的方法,包括:
基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将所述第一机器学习模型进行线上部署,其中,所述第一样本数据集是根据历史用户数据得到的;
采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,其中,所述第二样本数据集包括第二训练集和第二测试集;
基于所述第二样本数据集进行训练得到训练后的第二机器学习模型,其中,所述第二机器学习模型与所述第一机器学习模型具有相同的模型方法;
判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,若是,则利用所述第二机器学习模型更新线上的所述第一机器学习模型。
可选的,所述采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,包括:
采集第一机器学习模型对应的用户数据集;
按照预设周期统计所述用户数据集中的用户数据的数量,在所述用户数据的数量大于第一预设阈值时,基于所述用户数据集,制定所述第二样本数据集。
可选的,所述基于所述第二样本数据集进行训练得到训练后的第二机器学习模型之前,还包括:
判断所述第二样本数据集中的所述第二训练集和所述第二测试集是否满足预设条件;
若是,则基于所述第二样本数据集进行训练得到训练后的第二机器学习模型。
可选的,所述基于所述第二样本数据集进行训练得到训练后的第二机器学习模型之前,还包括:
根据历史训练环境资源,确定所述第二机器学习模型的训练环境资源,并自动配置所述第二机器学习模型的训练环境资源。
可选的,所述训练环境资源至少包括处理器的核数、内存大小。
可选的,所述判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,包括:
基于所述第二样本数据集,得到所述第二机器学习模型对应的输出结果;
基于所述输出结果,确定所述第二机器学习模型对应的评价指标;
基于所述评价指标与预设评价指标阈值,判断所述第二机器学习模型的性能是否优于所述第一机器学习模型。
第二方面,本公开提供了一种机器学习模型自动更新的装置,包括:
处理模块,用于基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将所述第一机器学习模型进行线上部署,其中,所述第一样本数据集是根据历史用户数据得到的;
第二样本数据集制定模块,用于采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,其中,所述第二样本数据集包括第二训练集和第二测试集;
第二机器学习模型训练模块,用于基于所述第二样本数据集进行训练得到训练后的第二机器学习模型,其中,所述第二机器学习模型与所述第一机器学习模型具有相同的模型方法;
更新模块,用于判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,若是,则利用所述第二机器学习模型更新线上的所述第一机器学习模型。
可选的,所述第二样本数据集制定模块,具体用于采集第一机器学习模型对应的用户数据集;
按照预设周期统计所述用户数据集中的用户数据的数量,在所述用户数据的数量大于第一预设阈值时,基于所述用户数据集,制定所述第二样本数据集。
本公开实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的一种机器学习模型自动更新的方法,通过基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法;判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。这样,通过实时的获取不断更新的用户数据集,并基于该用户数据集制定对应的第二样本数据集,以此根据第二样本数据集对与线上运行的第一机器学习模型具体相同模型算法的模型进行训练,得到训练好的第二机器学习模型,且确定第二机器学习模型的性能是优于第一机器学习模型时,能够自动的利用第二机器学习模型更新线上的第一机器学习模型,以此解决现有技术中无法根据不断更新的数据准确进行机器学习模型自动更新的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种机器学习模型自动更新的方法的流程示意图;
图2为本公开实施例提供的一种机器学习模型自动更新的装置的结构示意图;
图3为本公开实施例提供的电子设备的内部结构图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
随着大数据技术的不断发展,机器学习模型被广泛的应用在各个行业中,机器学习模型是指基于海量数据进行建模、训练,并利用训练好的模型来实现预测、分类或数据分析的,主要的实现步骤为:数据集标注、模型训练以及模型部署,即,可以理解的是,基于海量数据训练得到的机器学习模型的性能主要是依赖于提取海量数据的特征信息,从而基于数据特征信息进行学习的确定的。
然而,由于目前每天都会产生大量的数据,即数据时刻都在不断更新中,且携带不同的数据特征信息,因此,导致基于历史数据训练得到的机器学习模型,在实际应用过程中,无法适用于现有的数据,基于此,在机器学习模型实际投入应用过程中需要不断的进行模型的更新。
现有技术中,通常采用人工选取新样本进行机器学习模型的更新,或者是通过设置周期实现机器学习模型的更新,但是,采用现有技术需耗费大量的人力资源、且无法准确的设置周期,从而导致存在无法根据不断更新的数据准确的进行机器学习模型自动更新的问题。
基于此,本实施例提供了一种机器学习模型自动更新的方法,通过基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法;判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。这样,通过实时的获取不断更新的用户数据集,并基于该用户数据集制定对应的第二样本数据集,以此根据第二样本数据集对与线上运行的第一机器学习模型具体相同模型算法的模型进行训练,得到训练好的第二机器学习模型,且确定第二机器学习模型的性能是优于第一机器学习模型时,能够自动的利用第二机器学习模型更新线上的第一机器学习模型,以此解决现有技术中无法根据不断更新的数据准确的进行机器学习模型自动更新的问题。
本公开提供的机器学习模型自动更新的方法可以应用在机器学习模型自动更新的装置,该装置可以为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等电子设备,可选的,该装置还可以为这些电子设备中可以实现机器学习模型自动更新的方法的功能模块或者功能实体。
图1为本公开实施例提供的一种机器学习模型自动更新的方法的流程示意图,如图1所示,具体包括:
S10,基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署。
其中,第一样本数据集是根据历史用户数据得到的。示例性的,设置第一机器学习模型是用来对线上用户进行产品推荐的,根据获取的历史数据如推荐产品的相关历史数据,并根据该历史数据,制作第一样本数据集,例如进行数据预处理,剔除异常数据,并进行数据集标注、正负样本划分等,以得到第一样本数据集,该第一样本数据集包括第一训练集、第一测试集,通过第一样本数据集训练第一机器学习模型,并将训练好的第一机器学习模型进行线上快速部署,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
上述将训练好的第一机器学习模型进行线上快速部署可以是通过容器化的方式完成快速部署,其中,容器化部署是指将运行的软件代码、以及需要的组件如运行库、框架、依赖项等进行打包,以此构建第一机器学习模型线上运行的环境,从而能够方便、快速、安全地创建和部署第一机器学习模型,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,根据历史数据构建第一样本数据集,通过第一样本数据集对第一机器学习模型进行训练,在确定第一机器学习模型完成训练后,将训练好的第一机器学习模型进行线上部署,以此使得第一机器学习模型应用在实际场景中。
S11,采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集。
其中,第二样本数据集包括第二训练集和第二测试集,第二训练集和第二测试集分别包括对应的正样本和负样本。用户数据集是根据第一机器学习模型确定的,且为实际应用中实时产生的、不断更新的多个用户数据,示例性的,承接上述实施例,第一机器学习模型是用来对线上用户进行产品推荐的,则对应的用户数据集中包括的用户数据为与产品推荐相关的多个用户数据,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,实时的采集第一机器学习模型在实际应用过程中产生的包括多个用户数据的用户数据集,根据该用户数据集制定第二样本数据集。
可选的,在上述实施例的基础上,在本公开一些实施例中,S11的一种实现方式可以是:
S11-A,采集第一机器学习模型对应的用户数据集。
示例性的,对于实时采集第一机器学习模型在实际应用过程中产生的包括多个用户数据的用户数据集,可以通过从服务器上实时采集用户数据,也可以是通过多个数据拥有方实时的采集用户数据,并设置保存用户数据的预设内存,在采集到用户数据时,将用户数据保存至指定的预设内存中,如,用户在线搜索XXX产品时,能够直接获取网页推荐的产品数据,或者是对于XXX产品的搜索频率等,且设置保存的预设内存对应的地址为“xxx.xxxx”,将实时采集的数据保存至对应的预设内存。但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
S11-B,按照预设周期统计用户数据集中的用户数据的数量,在用户数据的数量大于第一预设阈值时,基于用户数据集,制定第二样本数据集。
其中,预设周期是指用来触发统计用户数据集中的用户数据的数量所设置的参数,该预设周期例如可以是5天,示例性的,监听预先设置的预设周期,在到达预设周期如5天时,触发统计用户数据集中的用户数据的数量条件,以此实现对多个用户数据的数量进行统计,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
第一预设阈值是用来判定是否能够基于当前的用户数据集制定第二样本数据集所设置的参数,该第一预设阈值例如可以是10000个,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,按照预先设置的预设周期,周期性的统计实时采集的用户数据集中的用户数据的数量,并与第一预设阈值进行比较,当确定用户数据的数量是大于第一预设阈值时,根据用户数据集中的多个用户数据,制定第二样本数据集。
需要说明的是,在根据用户数据集中的多个用户数据,制定第二样本数据集时的具体步骤为:优先对多个用户数据进行预处理,例如剔除异常数据,再对进行预处理后的多个用户数据进行正负样本标注,可以是人工标记正负样本,还可以是通过训练好的模型先进行标注,人工进行确认,以此使得标记的正负样本的准确性更高,最后对标记好的数据集进行训练集和测试集的划分,可以是通过随机的方式进行划分,以此得到第二样本数据集,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
这样,本实施例提供的机器学习模型自动更新的方法,通过实时采集线上的多个用户数据,并设置预设周期,能够周期性的自动统计多个用户数据的数量,并在确定多个用户数据的数量大于预先设置的第一预设阈值时,才会根据多个用户数据,制定第二样本数据集,以此,能够基于不断更新的大量用户数据,得到对应第二样本数据集,使得基于该第二样本数据集进行训练的机器学习模型能够更好的适用于实际场景中的线上用户数据。
S12,基于第二样本数据集进行训练得到训练后的第二机器学习模型。
其中,第二机器学习模型与第一机器学习模型具有相同的模型方法,即,可以理解的是,第一机器学习模型为部署在线上使用的模型,第二机器学习模型为线下进行训练的与第一机器学习模型具有相同的模型方法的模型,示例性的,第一机器学习模型为循环神经网络模型,则第二机器学习模型为与第一机器学习模型具有相同网络结构的循环神经网络模型,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
可选的,在上述实施例的基础上,在本公开的一些实施例中,在执行S12之前还包括:
S12-A,判断第二样本数据集中的第二训练集和第二测试集是否满足预设条件。
S12-B,若是,则基于第二样本数据集进行训练得到训练后的第二机器学习模型。
其中,预设条件是为了在基于第二样本数据集进行模型训练时,能够保证模型的稳定性,对第二样本数据集制定的条件,该预设条件可以设置为:其中,X1表示训练集中正样本数量,Y1表示训练集中负样本数量,X2表示测试集中正样本数量,Y2表示测试集中负样本数量,A表示第二预设阈值,第二预设阈值可以为0.1,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,在确定用户数据集中的用户数据的的数量大于第一预设阈值时,根据该用户数据集制定第二样本数据集,对于制定好的第二样本数据集,判断当前该第二样本数据集是否满足预先设置的预设条件,在确定当前该第二样本数据集满足预先设置的预设条件时,根据该第二样本数据集进行机器学习模型的训练,以此得到训练好的第二机器学习模型。
这样,本实施例提供的机器学习模型自动更新的方法,通过对根据实时采集的不断更新的用户数据集制定的第二样本数据集进一步的基于预设条件进行判定,以此使得基于满足预设条件的第二样本数据集进行训练得到的第二机器学习模型更加稳定。
可选的,在上述实施例的基础上,在本公开的一些实施例中,在执行S12之前还包括:
S12-C,根据历史训练环境资源,确定第二机器学习模型的训练环境资源,并自动配置第二机器学习模型的训练环境资源。
其中,历史训练环境资源是根据在对于与第二机器学习模型具有相同模型算法的机器学习模型,在多次历史训练过程中所设置的训练环境资源,如包括但不限于处理器的核数、内存大小,本公开不具体限制,本领域技术人员可根据实际情况设置。
具体的,在根据历史训练环境资源,确定当前对第二机器学习模型的训练环境资源之后,能够自动的配置第二机器学习模型的训练环境资源。
S13,判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。
具体的,在利用根据不断更新的用户数据集确定的第二样本数据集对机器学习模型进行训练,得到训练好的第二机器学习模型后,进一步判断第二机器学习模型是否比线上正在运行的第一机器学习模型具有更优的性能,在确定第二机器学习模型比线上正在运行的第一机器学习模型具有更优的性能时,利用第二机器学习模型更新线上正在运行的第一机器学习模型。
可选的,在上述实施例的基础上,在本公开的一些实施例中,判断第二机器学习模型的性能是否优于第一机器学习模型的一种实现方式可以是:
S13-A,基于第二样本数据集,得到第二机器学习模型对应的输出结果。
具体的,将第二样本数据集中的第二训练集,或者是第二测试集输入至第二机器学习模型中,使得第二机器学习模型输出对应的输出结果。
S13-B,基于输出结果,确定第二机器学习模型对应的评价指标。
其中,评价指标是用来基于输出结果对机器学习模型进行评估的评估标准,对于不同的问题对应不同的机器学习模型,设置不同的模型评价指标,示例性的,该评价指标包括但不限于准确率、精确率、召回率、ROC曲线、曲线区域面积(Area Under Curve,AUC)、平均绝对误差,本公开不具体限制,本领域技术人员可根据实际情况设置。
S13-C,基于评价指标与预设评价指标阈值,判断第二机器学习模型的性能是否优于第一机器学习模型。
其中,预设评价指标阈值是指用来判定第二机器学习模型的性能是否优于第一机器学习模型所设置的参数。
示例性的,对于评价指标如AUC,在将第二样本数据集中的第二训练集输入至第二机器学习模型中,得到对应的输出结果,并能够根据该输出结果计算当前第二机器学习模型对应的评价指标如AUC,比较当前评价指标如AUC和预设评价指标阈值,如当评价指标如AUC的数值大于预设评价指标阈值时,确定第二机器学习模型的性能是优于第一机器学习模型的,还可以是,将第二样本数据集中的第二训练集和第二测试集分别输入至第二机器学习模型中,以此根据分别得到的输出结果计算得到对应的第一评价指标如第一AUC和第二评价指标如第二AUC,并计算第一评价指标如第一AUC和第二评价指标如第二AUC的差值,将该差值与预设评价指标阈值进行比较,如该差值小于预设评价指标阈值时,确定第二机器学习模型的性能是优于第一机器学习模型的,但不限于此,本公开不具体限制,本领域技术人员可根据实际情况设置。
这样,本实施例提供的机器学习模型自动更新的方法,通过计算第二机器学习模型的评价指标以此确定第二机器学习模型的性能是否优于第一机器学习模型,从而能够在确定第二机器学习模型的性能优于第一机器学习模型时,自动的基于第二机器学习模型实现对线上运行的第一机器学习模型进行更新。
这样,本实施例提供的机器学习模型自动更新的方法,通过基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法;判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。这样,通过实时的获取不断更新的用户数据集,并基于该用户数据集制定对应的第二样本数据集,以此根据第二样本数据集对与线上运行的第一机器学习模型具体相同模型算法的模型进行训练,得到训练好的第二机器学习模型,且确定第二机器学习模型的性能是优于第一机器学习模型时,能够自动的利用第二机器学习模型更新线上的第一机器学习模型,以此解决现有技术中无法根据不断更新的数据准确的进行机器学习模型自动更新的问题。
本公开实施例还提供了一种机器学习模型自动更新的装置,用于执行上述实施例提供的任一种机器学习模型自动更新的方法,具备机器学习模型自动更新的方法相应的有益效果。
图2为本公开实施例提供的一种机器学习模型自动更新的装置,包括:处理模块10、第二样本数据集制定模块11、第二机器学习模型训练模块12以及更新模块13。
其中,处理模块10,用于基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;
第二样本数据集制定模块11,用于采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;
第二机器学习模型训练模块12,用于基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法;
更新模块13,用于判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。
在上述实施例中,第二样本数据集制定模块11,具体用于采集第一机器学习模型对应的用户数据集;
按照预设周期统计用户数据集中的用户数据的数量,在用户数据的数量大于第一预设阈值时,基于用户数据集,制定第二样本数据集。
在上述实施例中,所述装置还包括:判断模块,用于判断第二样本数据集中的第二训练集和第二测试集是否满足预设条件;若是,则基于第二样本数据集进行训练得到训练后的第二机器学习模型。
在上述实施例中,所述装置还包括:配置模块,用于根据历史训练环境资源,确定第二机器学习模型的训练环境资源,并自动配置第二机器学习模型的训练环境资源。
在上述实施例中,训练环境资源至少包括处理器的核数、内存大小。
在上述实施例中,更新模块13,具体用于基于第二样本数据集,得到第二机器学习模型对应的输出结果;基于输出结果,确定第二机器学习模型对应的评价指标;基于评价指标与预设评价指标阈值,判断第二机器学习模型的性能是否优于第一机器学习模型。
在上述实施例中,更新模块13,具体还用于针对同一线上用户数据,利用第一机器学习模型和第二机器学习模型,分别得到对应的第一结果和第二结果;利用第二结果替换第一结果作为目标输出结果,同时利用第二机器学习模型更新线上的第一机器学习模型。
这样,本实施例通过处理模块用于基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的;第二样本数据集制定模块用于采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集;第二机器学习模型训练模块用于基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法;更新模块用于判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。这样,通过实时的获取不断更新的用户数据集,并基于该用户数据集制定对应的第二样本数据集,以此根据第二样本数据集对与线上运行的第一机器学习模型具体相同模型算法的模型进行训练,得到训练好的第二机器学习模型,且确定第二机器学习模型的性能是优于第一机器学习模型时,能够自动的利用第二机器学习模型更新线上的第一机器学习模型,以此解决现有技术中无法根据不断更新的数据准确的进行机器学习模型自动更新的问题。
图3是本公开实施例提供的一种电子设备的结构示意图,如图3所示,该电子设备包括处理器310、存储器320、输入装置330和输出装置340;计算机设备中处理器310的数量可以是一个或多个,图3中以一个处理器310为例;电子设备中的处理器310、存储器320、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器320作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中方法对应的程序指令/模块。处理器310通过运行存储在存储器320中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现本发明实施例所提供的方法。
存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器320可进一步包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,可以包括键盘、鼠标等。输出装置340可包括显示屏等显示设备。
本公开实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的方法,方法包括:
基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将第一机器学习模型进行线上部署,其中,第一样本数据集是根据历史用户数据得到的。
采集第一机器学习模型对应的用户数据集,基于用户数据集制定第二样本数据集,其中,第二样本数据集包括第二训练集和第二测试集。
基于第二样本数据集进行训练得到训练后的第二机器学习模型,其中,第二机器学习模型与第一机器学习模型具有相同的模型方法。
判断第二机器学习模型的性能是否优于第一机器学习模型,若是,则利用第二机器学习模型更新线上的第一机器学习模型。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种机器学习模型自动更新的方法,其特征在于,所述方法包括:
基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将所述第一机器学习模型进行线上部署,其中,所述第一样本数据集是根据历史用户数据得到的;
采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,其中,所述第二样本数据集包括第二训练集和第二测试集;
基于所述第二样本数据集进行训练得到训练后的第二机器学习模型,其中,所述第二机器学习模型与所述第一机器学习模型具有相同的模型方法;
判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,若是,则利用所述第二机器学习模型更新线上的所述第一机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,包括:
采集第一机器学习模型对应的用户数据集;
按照预设周期统计所述用户数据集中的用户数据的数量,在所述用户数据的数量大于第一预设阈值时,基于所述用户数据集,制定所述第二样本数据集。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第二样本数据集进行训练得到训练后的第二机器学习模型之前,还包括:
判断所述第二样本数据集中的所述第二训练集和所述第二测试集是否满足预设条件;
若是,则基于所述第二样本数据集进行训练得到训练后的第二机器学习模型。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第二样本数据集进行训练得到训练后的第二机器学习模型之前,还包括:
根据历史训练环境资源,确定所述第二机器学习模型的训练环境资源,并自动配置所述第二机器学习模型的训练环境资源。
5.根据权利要求4所述的方法,其特征在于,所述训练环境资源至少包括处理器的核数、内存大小。
6.根据权利要求1所述的方法,其特征在于,所述判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,包括:
基于所述第二样本数据集,得到所述第二机器学习模型对应的输出结果;
基于所述输出结果,确定所述第二机器学习模型对应的评价指标;
基于所述评价指标与预设评价指标阈值,判断所述第二机器学习模型的性能是否优于所述第一机器学习模型。
7.一种机器学习模型自动更新的装置,其特征在于,包括:
处理模块,用于基于第一样本数据集进行训练得到训练后的第一机器学习模型,并将所述第一机器学习模型进行线上部署,其中,所述第一样本数据集是根据历史用户数据得到的;
第二样本数据集制定模块,用于采集第一机器学习模型对应的用户数据集,基于所述用户数据集制定第二样本数据集,其中,所述第二样本数据集包括第二训练集和第二测试集;
第二机器学习模型训练模块,用于基于所述第二样本数据集进行训练得到训练后的第二机器学习模型,其中,所述第二机器学习模型与所述第一机器学习模型具有相同的模型方法;
更新模块,用于判断所述第二机器学习模型的性能是否优于所述第一机器学习模型,若是,则利用所述第二机器学习模型更新线上的所述第一机器学习模型。
8.根据权利要求7所述的装置,其特征在于,包括:
所述第二样本数据集制定模块,具体用于采集第一机器学习模型对应的用户数据集;
按照预设周期统计所述用户数据集中的用户数据的数量,在所述用户数据的数量大于第一预设阈值时,基于所述用户数据集,制定所述第二样本数据集。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述方法的步骤。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210954907 | 2022-08-10 | ||
CN2022109549076 | 2022-08-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115454466A true CN115454466A (zh) | 2022-12-09 |
Family
ID=84297717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210967786.9A Pending CN115454466A (zh) | 2022-08-10 | 2022-08-12 | 机器学习模型自动更新的方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115454466A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362352A (zh) * | 2023-06-01 | 2023-06-30 | 广州思迈特软件有限公司 | 基于机器学习的模型自动更新方法、系统、介质及终端 |
-
2022
- 2022-08-12 CN CN202210967786.9A patent/CN115454466A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362352A (zh) * | 2023-06-01 | 2023-06-30 | 广州思迈特软件有限公司 | 基于机器学习的模型自动更新方法、系统、介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647B (zh) | 一种数据处理方法及装置 | |
CN109167816B (zh) | 信息推送方法、装置、设备和存储介质 | |
CN112543176A (zh) | 一种异常网络访问检测方法、装置、存储介质及终端 | |
CN109583904A (zh) | 异常操作检测模型的训练方法、异常操作检测方法及装置 | |
CN111797861A (zh) | 信息处理方法、装置、存储介质及电子设备 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN109658156A (zh) | 一种材料价格测算方法、装置、终端设备及存储介质 | |
CN111159481B (zh) | 图数据的边预测方法、装置及终端设备 | |
CN115454466A (zh) | 机器学习模型自动更新的方法、装置、设备和介质 | |
CN113378067B (zh) | 基于用户挖掘的消息推荐方法、设备、介质 | |
CN107871055B (zh) | 一种数据分析方法和装置 | |
CN109961075A (zh) | 用户性别预测方法、装置、介质及电子设备 | |
CN112348188B (zh) | 模型生成方法及装置、电子设备和存储介质 | |
CN113111139A (zh) | 一种基于物联传感器的告警检测方法和装置 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
WO2024093005A1 (zh) | 一种电池容量预测方法、装置及电子设备 | |
CN109902196B (zh) | 一种商标类别推荐方法、装置、计算机设备及存储介质 | |
CN112328802A (zh) | 数据处理方法、装置和服务器 | |
CN111985226A (zh) | 标注数据生成方法及装置 | |
CN110781410A (zh) | 一种社群检测方法及装置 | |
CN110458383B (zh) | 需求处理服务化的实现方法、装置及计算机设备、存储介质 | |
CN115630708A (zh) | 一种模型更新方法、装置、电子设备、存储介质及产品 | |
CN109922444A (zh) | 一种垃圾短信识别方法及装置 | |
CN114492994A (zh) | 一种基于电力大数据的电力信息处理系统、方法及装置 | |
CN114943273A (zh) | 数据处理方法、存储介质以及计算机终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |