CN112149833A - 基于机器学习的预测方法、装置、设备和存储介质 - Google Patents

基于机器学习的预测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112149833A
CN112149833A CN201910576665.XA CN201910576665A CN112149833A CN 112149833 A CN112149833 A CN 112149833A CN 201910576665 A CN201910576665 A CN 201910576665A CN 112149833 A CN112149833 A CN 112149833A
Authority
CN
China
Prior art keywords
feature
prediction
type
features
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910576665.XA
Other languages
English (en)
Other versions
CN112149833B (zh
Inventor
任兵
向柳明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910576665.XA priority Critical patent/CN112149833B/zh
Publication of CN112149833A publication Critical patent/CN112149833A/zh
Application granted granted Critical
Publication of CN112149833B publication Critical patent/CN112149833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于机器学习的预测方法、装置、设备和存储介质,该方法中,用来进行预测的电子设备采集获取待预测特征,将待预测特征输入预测模型进行预测,得到预测结果;其中,预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型,推送预测结果。该方案在训练模型前,对特征进行删选,使用在时间上稳定的特征进行模型训练,有效提高模型预测结果的准确度。

Description

基于机器学习的预测方法、装置、设备和存储介质
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种基于机器学习的预测方法、装置、设备和存储介质。
背景技术
机器学习可以用于多种场景,比如目前互联网中的推荐系统,搜索系统等。机器学习过程中需要使用到机器学习模型,一般该模型是基于训练集的统计规律训练得到的,然后使用该机器学习模型进行预测得到的预测集。
然而,在具体应用过程中,存在训练集和预测集的特征分布不一致的情况,在该情况下按照上述方式使用训练集训练得到的模型进行预测,会导致预测准确性大幅下降。
发明内容
本申请实施例提供一种基于机器学习的预测方法、装置、设备和存储介质,以解决上述方式使用训练集训练得到的模型进行预测,会导致预测准确性大幅下降的问题。
本申请第一方面提供一种基于机器学习的预测方法,所述方法包括:
采集获取待预测特征;
将所述待预测特征输入预测模型进行预测,得到预测结果;其中,所述预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型;
推送所述预测结果。
在一种具体的实施方式中,所述将所述待预测特征输入预测模型进行预测,得到预测结果之前,所述方法还包括:
对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合;
根据所述特征集合进行模型训练,得到所述预测模型。
在一种具体的实施方式中,所述对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合,包括:
根据特征的类型,将所述初始特征集合中的同一类型的特征组成一个样本集合,所述初始特征集合中包括每个特征的时间信息;
针对每个样本集合,按照预设的时间窗将所述样本进行划分,得到多个子样本集合;
针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,所述稳定性分析结果包括在时间上稳定或者不稳定;
将所述初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到所述特征集合。
在一种具体的实施方式中,所述针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,包括:
针对每个类型的特征,根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列;
针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。
在一种具体的实施方式中,所述统计分布指标包括以下任一种:均值、标准差、信息增益;所述差异指标包括以下任一种:标准差、均值。
在一种具体的实施方式中,所述根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果,包括:
若所述差异指标小于所述预设阈值,则确定所述类型的特征的在时间上稳定;
否则,则确定所述类型的特征的在时间上不稳定。
本申请第二方面提供一种基于机器学习的预测装置,包括:
采集模块,用于采集获取待预测特征;
处理模块,用于将所述待预测特征输入预测模型进行预测,得到预测结果;其中,所述预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型;
推送模块,用于推送所述预测结果。
可选的,所述将所述待预测特征输入预测模型进行预测,得到预测结果之前,所述处理模块还用于:
对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合;
根据所述特征集合进行模型训练,得到所述预测模型。
可选的,所述处理模块具体用于:
根据特征的类型,将所述初始特征集合中的同一类型的特征组成一个样本集合,所述初始特征集合中包括每个特征的时间信息;
针对每个样本集合,按照预设的时间窗将所述样本进行划分,得到多个子样本集合;
针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,所述稳定性分析结果包括在时间上稳定或者不稳定;
将所述初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到所述特征集合。
可选的,所述处理模块还具体用于:
针对每个类型的特征,根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列;
针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。
可选的,所述统计分布指标包括以下任一种:均值、标准差、信息增益;所述差异指标包括以下任一种:标准差、均值。
可选的,所述处理模块还具体用于:
若所述差异指标小于所述预设阈值,则确定所述类型的特征的在时间上稳定;
否则,则确定所述类型的特征的在时间上不稳定。
本申请第三方面提供一种电子设备,包括:处理器、存储器以及计算机程序;所述计算机程序存储在所述存储器中,所述处理器执行所述计算机程序实现第一方面任一项提供的基于机器学习的预测方法。
本申请第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现第一方面任一项提供的基于机器学习的预测方法。
本申请实施例提供的基于机器学习的预测方法、装置、设备和存储介质,在模型训练过程中,对采集到的特征进行筛选,将其中在时间上不稳定的特征剔除,采用在时间上稳定的特征进行模型训练,得到预测模型,在具体应用过程中,根据采集到的特征输入该预测模型,得到预测结果,通过筛选在时间上稳定的特征进行模型训练,有效提高模型预测结果的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请提供的基于机器学习的预测方法实施例一的流程图;
图2为本申请提供的基于机器学习的预测方法实施例二的流程图;
图3为本申请提供的基于机器学习的预测方法实施例三的流程图;
图4为本申请提供的基于机器学习的预测装置实施例一的结构框图;
图5为本申请提供的电子设备实体的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
机器学习过程中需要使用到机器学习模型,一般该模型是基于训练集的统计规律训练得到的,然后使用该机器学习模型进行预测得到的预测集。在具体应用过程中,存在训练集和预测集的特征分布不一致的情况,在该情况下按照上述方式使用训练集训练得到的模型进行预测,会导致预测准确性大幅下降。
针对上述存在的问题,本申请提供一种基于机器学习的预测方法,以解决上述方案中采用模型预测的结果不准确的问题。
图1为本申请提供的基于机器学习的预测方法实施例一的流程图,如图1所示,本实施例的执行主体是电脑、服务器、云服务器等能够进行数据处理的电子设备中,本实施例提供的基于机器学习的预测方法具体包括以下步骤:
S101:采集获取待预测特征。
在本步骤中,当需要对特征进行预测时,需要获取相应的待预测的特征,以便后续能够输入模型中进行相应的计算。该待预测特征中的在时间上不稳定的特征已经被过滤掉,剩余的特征在时间上稳定,作为将要输入模型训练的特征
S102:将待预测特征输入预测模型进行预测,得到预测结果;其中,预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型。
在该方案中,对不同的情况的预测,需要预先进行相应的预测模型进行训练,训练之前,需要对采集的训练样本中的特征进行稳定性检测,确定每个特征随着时间是否发生较大的变化,在进行稳定性检测之后,得到每个特征的稳定性检测结果,按照该结果将其中在时间上不稳定的特征进行过滤,保留其中稳定的一个或者多个特征,基于机器学习进行训练,得到相应的预测模型。
在具体的应用过程中,在采集到特征之后,可以将其中在时间上不稳定的特征进行过滤,将剩余的稳定的待预测特征输入该预测模型,进行计算,得到相应的预测结果,也可以在采集特征的过程中只采集在时间上稳定的特征,然后输入该预测模型进行计算,得到预测结果。
S103:推送预测结果。
本步骤中,在获取到预测结果之后,可以将该预测结果进行保存,也可以将其进行显示,通过各种方式将该预测结果进行推送。
本申请实施例提供的基于机器学习的预测方法,在模型训练过程中,对采集到的特征进行筛选,将其中在时间上不稳定的特征剔除,采用在时间上稳定的特征进行模型训练,得到预测模型,在具体应用过程中,根据采集到的特征输入该预测模型,得到预测结果,通过筛选在时间上稳定的特征进行模型训练,有效提高模型预测结果的准确度。
在上述实施例的实现之前,需要进行模型训练,得到预测模型才能进行预测,具体的实现方案如下:
图2为本申请提供的基于机器学习的预测方法实施例二的流程图,如图2所示,该电子设备执行的基于机器学习的预测方法实现还包括以下步骤:
S201:对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合。
在本步骤中,模型的训练需要预先准备大量的数据,也就是需要进行大量的数据采集,获取初始特征集合,该初始特征集合中包括多种类型的特征,针对初始特征集合中的每个类型的特征,根据时间信息进行时间段划分,即将每个特征划分成多个子集合,根据每个时间段的特征子集合对该特征的稳定性进行检测得到稳定性检测结果,遍历每个特征进行稳定性检测之后,将其中在时间上不稳定的特征剔除或者过滤,保留稳定性较高的至少一个类型的特征组成要进行模型训练的特征集合。
S202:根据特征集合进行模型训练,得到预测模型。
在本步骤中,在获取到特征集合之后,基于机器学习进行模型训练,得到预测模型即可。
图3为本申请提供的基于机器学习的预测方法实施例三的流程图,如图3所示,在上述实施例中,步骤S201中对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合,可以具体实现为以下步骤:
S2011:根据特征的类型,将初始特征集合中的同一类型的特征组成一个样本集合,初始特征集合中包括每个特征的时间信息。
在本步骤中,一般采集到的数据中都包括多个类型的特征,在本方案中不同的是采集每个特征的时候需要记录特征的时间信息,以便能够确定特征在时间上的变化情况。为了进行后续的过程,可以将不同类型的特征进行区分,组成不同的样本集合。
S2012:针对每个样本集合,按照预设的时间窗将样本进行划分,得到多个子样本集合。
在本步骤中,在进行特征分析时候,可以从特征集合中选择一个待分析特征,也可以以遍历的方式对每个特征进行分析,也可以只针对部分重要特征进行分析,对此本方案不做限制。
针对每个类型的特征,可以将该类型的特征的样本集合划分不同的时间窗,得到多个子样本集合,即按照一定的时间间隔进行划分,例如,每天、每个月、每年等,具体情况可以根据特征本身的情况进行设置,一般来说可以采用特征的一个评估周期作为一个时间窗,对此本方案也不做限制。
S2013:针对每个类型的特征,根据每个时间窗对应的子样本集合,获取类型的特征的稳定性分析结果,稳定性分析结果包括在时间上稳定或者不稳定。
在本步骤中,针对每个类型的特征,可以根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列。针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。该稳定性分析结果可以指示某个类型的特征在时间上稳定或者在时间上不稳定。
在一种具体实现中,特征的统计分布指标可以包括以下任一种:均值、标准差、信息增益;差异指标可以包括以下任一种:标准差、均值。
其含义是,对于一个类型的特征,针对每个时间窗的子样本集合,计算该特征取值序列的统计分布指标,多个时间窗计算得到统计分布指标序列。对于统计分布指标选择,可以是均值、标准差、标准差/均值,如果是监督学习,还可以使用信息增益作为分布指标。
然后,再以多个时间窗的统计分布指标序列作为研究对象,计算该序列的波动性,差异指标可以是该序列的标准差(或者,还可以是序列的标准差/序列的均值,对此不做限制)。
最后,可以选择合适的阈值。例如:稳定性系数是标准差,即标准差(均值序列的标准差/均值序列的均值)的大小就是该特征的稳定性系数,标准差越大,则表示该特征越不稳定,反之,表示该特征越稳定。对模型稳定性要求高则选择低阈值,若特征的标准差大于该阈值,则该类型的特征在时间上不稳定,若特征的标准差小于该阈值,则确定该类型的特征在时间上稳定。如果目标是提高预测准确度,则尝试不同阈值,或者取最高准确度的阈值,可以根据不同的应用场景进行不同的选择。
S2014:将初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到特征集合。
在确定了每个类型的特征的稳定性分析结果之后,将在时间上不稳定的特征过滤掉,得到用来做模型训练的特征集合,留下稳定性高于预设值的特征,并根据该些稳定性较高的特征重新训练模型,得到预测模型。
按照前述方案,本申请基于每一个样本都是在特定时间采集的,预测集和训练集的样本采集时间是不同的(比如金融风控模型,每个人都是在不同时间申请贷款),针对不同时间窗的采集样本进行特征分布分析,量化特征分布在时间维度变化的大小,进而采用过滤分布变化大的特征等方式来提高机器学习模型的稳定性和泛化能力。
本申请提供的基于机器学习的预测方案中,在进行模型训练过程中,首先将特征集合中的特征进行稳定性鉴别,将稳定性较低的特征进行过滤,使用稳定性比较高的特征进行模型训练,避免出现训练集和实际预测集的分布不一致,有效提高模型稳定性和预测准确度。
图4为本申请提供的基于机器学习的预测装置实施例一的结构框图,如图4所示,该基于机器学习的预测装置10包括:
采集模块11,用于采集获取待预测特征;
处理模块12,用于将所述待预测特征输入预测模型进行预测,得到预测结果;其中,所述预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型;
推送模块13,用于推送所述预测结果。
本实施例提供的基于机器学习的预测装置,用于执行前述方法实施例中的电子设备的技术方案,在训练模型前,对特征进行删选,使用在时间上稳定的特征进行模型训练,然后采用训练后的预测模型进行预测,能够有效提高模型预测结果的准确度。
在上述实施例的基础上,所述基于机器学习的预测装置10的具体实现中,所述将所述待预测特征输入预测模型进行预测,得到预测结果之前,所述处理模块12还用于:
对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合;
根据所述特征集合进行模型训练,得到所述预测模型。
可选的,所述处理模块12具体用于:
根据特征的类型,将所述初始特征集合中的同一类型的特征组成一个样本集合,所述初始特征集合中包括每个特征的时间信息;
针对每个样本集合,按照预设的时间窗将所述样本进行划分,得到多个子样本集合;
针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,所述稳定性分析结果包括在时间上稳定或者不稳定;
将所述初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到所述特征集合。
可选的,所述处理模块12还具体用于:
针对每个类型的特征,根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列;
针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。
可选的,所述统计分布指标包括以下任一种:均值、标准差、信息增益;所述差异指标包括以下任一种:标准差、均值。
可选的,所述处理模块12还具体用于:
若所述差异指标小于所述预设阈值,则确定所述类型的特征的在时间上稳定;
否则,则确定所述类型的特征的在时间上不稳定。
上述任一实施方式提供的基于机器学习的预测装置,用于执行前述任一方法实施例中的技术方案,其实现原理和技术效果类似,在此不再赘述。
图5为本申请提供的电子设备实体的结构示意图,如图5所示该电子设备20,包括:
处理器21、存储器22以及计算机程序;所述计算机程序存储在所述存储器中,所述处理器执行所述计算机程序实现前述任一方法实施例中的基于机器学习的预测方法的方案。
可选地,存储器22既可以是独立的,也可以跟处理器21集成在一起。
当所述存储器22是独立于处理器21之外的器件时,所述电子设备还可以包括:
总线23,用于连接所述处理器21以及所述存储器22。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现前述任一方法实施例中电子设备的基于机器学习的预测方法的技术方案。
在上述电子设备的具体实现中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:只读存储器(英文:read-only memory,缩写:ROM)、RAM、快闪存储器、硬盘、固态硬盘、磁带(英文:magnetictape)、软盘(英文:floppy disk)、光盘(英文:optical disc)及其任意组合。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (14)

1.一种基于机器学习的预测方法,其特征在于,所述方法包括:
采集获取待预测特征;
将所述待预测特征输入预测模型进行预测,得到预测结果;其中,所述预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型;
推送所述预测结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述待预测特征输入预测模型进行预测,得到预测结果之前,所述方法还包括:
对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合;
根据所述特征集合进行模型训练,得到所述预测模型。
3.根据权利要求2所述的方法,其特征在于,所述对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合,包括:
根据特征的类型,将所述初始特征集合中的同一类型的特征组成一个样本集合,所述初始特征集合中包括每个特征的时间信息;
针对每个样本集合,按照预设的时间窗将所述样本进行划分,得到多个子样本集合;
针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,所述稳定性分析结果包括在时间上稳定或者不稳定;
将所述初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到所述特征集合。
4.根据权利要求3所述的方法,其特征在于,所述针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,包括:
针对每个类型的特征,根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列;
针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。
5.根据权利要求4所述的方法,其特征在于,所述统计分布指标包括以下任一种:均值、标准差、信息增益;所述差异指标包括以下任一种:标准差、均值。
6.根据权利要求4或5所述的方法,其特征在于,所述根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果,包括:
若所述差异指标小于所述预设阈值,则确定所述类型的特征的在时间上稳定;
否则,则确定所述类型的特征的在时间上不稳定。
7.一种基于机器学习的预测装置,其特征在于,包括:
采集模块,用于采集获取待预测特征;
处理模块,用于将所述待预测特征输入预测模型进行预测,得到预测结果;其中,所述预测模型是根据在时间上稳定的特征集合训练得到的机器学习模型;
推送模块,用于推送所述预测结果。
8.根据权利要求7所述的装置,其特征在于,所述将所述待预测特征输入预测模型进行预测,得到预测结果之前,所述处理模块还用于:
对预先获取到的初始特征集合中,在时间上不稳定的特征进行过滤,得到在时间上稳定的至少一个类型的特征组成的特征集合;
根据所述特征集合进行模型训练,得到所述预测模型。
9.根据权利要求8所述的装置,其特征在于,所述处理模块具体用于:
根据特征的类型,将所述初始特征集合中的同一类型的特征组成一个样本集合,所述初始特征集合中包括每个特征的时间信息;
针对每个样本集合,按照预设的时间窗将所述样本进行划分,得到多个子样本集合;
针对每个类型的特征,根据每个时间窗对应的子样本集合,获取所述类型的特征的稳定性分析结果,所述稳定性分析结果包括在时间上稳定或者不稳定;
将所述初始集合中,稳定性分析结果指示在时间上不稳定的特征进行过滤,得到所述特征集合。
10.根据权利要求9所述的装置,其特征在于,所述处理模块还具体用于:
针对每个类型的特征,根据每个时间窗的子样本集合计算对应的统计分布指标,得到统计分布指标序列;
针对每个类型的特征,计算对应的统计分布指标序列的差异指标,并根据所述差异指标和预设的阈值,确定所述类型的特征的稳定性分析结果。
11.根据权利要求10所述的装置,其特征在于,所述统计分布指标包括以下任一种:均值、标准差、信息增益;所述差异指标包括以下任一种:标准差、均值。
12.根据权利要求10或11所述的装置,其特征在于,所述处理模块还具体用于:
若所述差异指标小于所述预设阈值,则确定所述类型的特征的在时间上稳定;
否则,则确定所述类型的特征的在时间上不稳定。
13.一种电子设备,其特征在于,包括:处理器、存储器以及计算机程序;所述计算机程序存储在所述存储器中,所述处理器执行所述计算机程序实现权利要求1至6任一项所述的基于机器学习的预测方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于实现权利要求1至6任一项所述的基于机器学习的预测方法。
CN201910576665.XA 2019-06-28 2019-06-28 基于机器学习的预测方法、装置、设备和存储介质 Active CN112149833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910576665.XA CN112149833B (zh) 2019-06-28 2019-06-28 基于机器学习的预测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910576665.XA CN112149833B (zh) 2019-06-28 2019-06-28 基于机器学习的预测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112149833A true CN112149833A (zh) 2020-12-29
CN112149833B CN112149833B (zh) 2023-12-12

Family

ID=73869451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910576665.XA Active CN112149833B (zh) 2019-06-28 2019-06-28 基于机器学习的预测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112149833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11609561B2 (en) * 2019-11-15 2023-03-21 Halliburton Energy Services, Inc. Value balancing for oil or gas drilling and recovery equipment using machine learning models

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018077285A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、服务器及存储介质
CN109345302A (zh) * 2018-09-27 2019-02-15 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、存储介质和计算机设备
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质
CN109815084A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 异常识别方法、装置和电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018077285A1 (zh) * 2016-10-31 2018-05-03 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、服务器及存储介质
CN109345302A (zh) * 2018-09-27 2019-02-15 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置、存储介质和计算机设备
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质
CN109815084A (zh) * 2018-12-29 2019-05-28 北京城市网邻信息技术有限公司 异常识别方法、装置和电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LINGJING KONG等: "Comparison of Internet Traffic Identification on Machine Learning Methods", 《IEEE XPLORE》 *
孙云霄;方健;马小平;: "基于半监督学习和支持向量机的煤与瓦斯突出预测研究", 工矿自动化, no. 11 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11609561B2 (en) * 2019-11-15 2023-03-21 Halliburton Energy Services, Inc. Value balancing for oil or gas drilling and recovery equipment using machine learning models

Also Published As

Publication number Publication date
CN112149833B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN109858436B (zh) 基于视频动态前景掩膜的目标类别修正方法、检测方法
CN110211119B (zh) 图像质量评估方法、装置、电子设备及可读存储介质
CN112258093A (zh) 风险等级的数据处理方法及装置、存储介质、电子设备
CN113780466B (zh) 模型迭代优化方法、装置、电子设备和可读存储介质
CN108710907B (zh) 手写体数据分类方法、模型训练方法、装置、设备及介质
CN111368887B (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN111160959B (zh) 一种用户点击转化预估方法及装置
CN114627102B (zh) 一种图像异常检测方法、装置、系统及可读存储介质
CN109995611B (zh) 流量分类模型建立及流量分类方法、装置、设备和服务器
CN111738319A (zh) 一种基于大规模样本的聚类结果评价方法及装置
KR102622895B1 (ko) 지도 학습 모델 및 비지도 학습 모델의 앙상블 구조를 이용한 대기질 데이터의 이상 판정 방법 및 시스템
CN112149833B (zh) 基于机器学习的预测方法、装置、设备和存储介质
CN114564345A (zh) 一种服务器异常检测方法、装置、设备及存储介质
CN113869526A (zh) 数据处理模型性能提高方法及装置、存储介质和电子设备
CN113435359A (zh) 一种图像识别方法
CN110852322B (zh) 感兴趣区域的确定方法及装置
CN110751400B (zh) 一种风险评估方法及装置
CN115831219B (zh) 一种质量预测方法、装置、设备及存储介质
CN109460474B (zh) 用户偏好趋势挖掘方法
CN115809697A (zh) 一种数据修正方法、装置及电子设备
CN115184674A (zh) 一种绝缘测试方法、装置、电子终端及存储介质
CN115169089A (zh) 基于核密度估计和copula的风电功率概率预测方法和装置
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN115204381A (zh) 弱监督模型训练方法及装置、电子设备
CN113035238A (zh) 音频评测方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant