CN109684302B - 数据预测方法、装置、设备及计算机可读存储介质 - Google Patents

数据预测方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109684302B
CN109684302B CN201811478708.2A CN201811478708A CN109684302B CN 109684302 B CN109684302 B CN 109684302B CN 201811478708 A CN201811478708 A CN 201811478708A CN 109684302 B CN109684302 B CN 109684302B
Authority
CN
China
Prior art keywords
dimension
data
data set
preset
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811478708.2A
Other languages
English (en)
Other versions
CN109684302A (zh
Inventor
陈娴娴
阮晓雯
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811478708.2A priority Critical patent/CN109684302B/zh
Publication of CN109684302A publication Critical patent/CN109684302A/zh
Application granted granted Critical
Publication of CN109684302B publication Critical patent/CN109684302B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据预测方法、装置、设备及计算机可读存储介质,该方法包括步骤:当获取到训练数据集后,检测训练数据集对应数据的特征维度是否小于或者等于预设维度;若特征维度小于或者等于预设维度,则通过预设的衍生变量构造方法扩充特征维度,得到维度扩充后的训练数据集;将维度扩充后的训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与训练数据集对应的预测结果。本发明通过数据分析,在对训练数据集进行特征处理过程中,考虑训练数据集特征维度的大小,以满足预测模型对特征维度的需求;且由于不需要人工操作,在原始数据中提取符合预测模型数据特征要求的数据过程中,提高了数据提取的提取效率。

Description

数据预测方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据预测方法、装置、设备及计算机可读存储介质。
背景技术
在大数据建模过程中,样本数据和数据特征决定了机器学习的上限,因此如何最大限度地从原始数据中提取数据特征以供算法和模型使用,这一特征工程处理已日益成为热点研究方向。但由于数据提取资金、数据安全等多方面成本的限制,很多情况下接入的特征数据集并不是规则完整的,往往会出现许多数据特征层面的异常情况。特征处理是从数据到预测模型的必要桥梁,如果特征处理层面出现问题且没有得到有效解决,会导致预测模型所得预测结果准确率提升存在瓶颈;目前多为人工在原始数据中提取符合预测模型数据特征要求的数据,提取效率低下。
发明内容
本发明的主要目的在于提供一种数据预测方法、装置、设备及计算机可读存储介质,旨在解决现有的在原始数据中提取符合预测模型数据特征要求的数据过程中,提取效率低下的技术问题。
为实现上述目的,本发明提供一种数据预测方法,所述数据预测方法包括步骤:
当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度;
若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集;
将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
优选地,所述若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集的步骤之后,还包括:
采用预设数据筛选方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据;
所述将维度扩充后的所述训练数据集中的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果的步骤包括:
将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
优选地,所述采用预设数据筛选方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据的步骤之后,还包括:
通过机器学习算法在所述特征数据中筛选出目标特征数据;
所述将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果的步骤包括:
将所述目标特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
优选地,所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤之前,包括:
检测所述机器学习算法中是否存在默认机器学习算法;
若所述机器学习算法中存在所述默认机器学习算法,则所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤包括:
通过所述默认机器学习算法在所述特征数据中筛选出目标特征数据。
优选地,所述检测所述机器学习算法中是否存在默认机器学习算法的步骤之后,还包括:
若所述机器学习算法中不存在所述默认机器学习算法,则获取各个所述机器学习算法在预设时长内被调用的调用次数;
所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤包括:
通过调用次数最多的机器学习算法在所述特征数据中筛选出目标特征数据。
优选地,所述当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度的步骤之后,还包括:
若所述特征维度大于所述预设维度,则采用预设数据筛选方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据;
将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
优选地,所述采用预设数据筛选方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据的步骤包括:
计算所述训练数据集中同一特征维度数据之间的方差,并计算所述训练数据集中各个特征维度的各个数据与对应所述方差之间的差值;
若所述差值大于预设数值,则删除各个特征维度中所述差值大于所述预设数值对应的数据,保留各个特征维度中所述差值小于或者等于所述预设数值对应的特征数据。
此外,为实现上述目的,本发明还提供一种数据预测装置,所述数据预测装置包括:
检测模块,用于当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度;
扩充模块,用于若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集;
输入模块,用于将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
此外,为实现上述目的,本发明还提供一种数据预测设备,所述数据预测设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数据预测程序,所述数据预测程序被所述处理器执行时实现如上所述的数据预测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据预测程序,所述数据预测程序被处理器执行时实现如上所述的数据预测方法的步骤。
本发明通过当检测到训练数据集中数据的特征维度小于或者等于预设维度时,通过预设的衍生变量构造方法扩充训练数据集的特征维度,将维度扩充后的训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与训练数据集对应的预测结果。在对训练数据集,即原始数据特征处理过程中,考虑训练数据集特征维度的大小,以满足预测模型对训练数据集对应数据进行处理过程中,预测模型对特征维度的需求;且由于不需要人工操作,在原始数据中提取符合预测模型数据特征要求的数据过程中,提高了数据提取的提取效率。
附图说明
图1是本发明数据预测方法第一实施例的流程示意图;
图2是本发明数据预测方法第二实施例的流程示意图;
图3为本发明数据预测装置较佳实施例的功能示意图模块图;
图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种数据预测方法,参照图1,图1为本发明数据预测方法第一实施例的流程示意图。
本发明实施例提供了数据预测方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
数据预测方法应用于服务器或者终端中,终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)等移动终端,以及诸如数字TV、台式计算机等固定终端。在数据预测方法的各个实施例中,为了便于描述,省略执行主体进行阐述各个实施例。数据预测方法包括:
步骤S10,当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度。
当获取到训练数据集后,获取训练数据集对应数据的特征维度,检测训练数据集对应数据的特征维度是否小于或者等于预设维度。其中,训练数据集可为各种可用于预测的原始数据,如天气数据,流感数据和空气质量数据等。在获取训练数据集过程中,可从对应的系统中获取,如从气象局系统中获取天气数据,从医院系统中获取流感数据等。特征维度是针对某一类数据而言的,如对与降雨量这类数据,每天的降雨量、一周内的降雨量的平均值和最大值等都是降雨量的特征维度。训练数据集中数据对应的特征维度是在所获取训练数据集中,训练数据集已经携带的。如若训练数据集中携带有每天的降雨量数据和每周内降雨量的平均值,则可确定训练数据集对应数据存在两种特征维度,即训练数据集的特征维度为2,这两个特征为分别为日降雨量和周平均降雨量。预设维度是预先设置好的,在本实施例中不限制预设维度的具体数值。
进一步地,为了满足不同预测模型对训练数据集中特征维度的需求,在获取到训练数据集后,确定训练数据集对应的预测模型,并将训练数据集对应的预测模型记为目标预测模型,确定该目标预测模型对应的预设维度,检测训练数据集对应数据的特征维度是否小于或者等于对应的预设维度。此时,不同预测模型对应的预设维度是不一样的。可以理解的是,训练数据集对应的预测模型为对训练数据集对应数据进行处理的模型,即训练数据集中的数据是要输入到目标预测模型中的。
步骤S20,若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集。
若检测到训练数据集对应数据的特征维度小于或者等于预设维度,则通过预设的衍生变量构造方法扩充训练数据集的特征维度,得到维度扩充后的训练数据集。衍生变量构造方法包括但不限于基于求和、最大值、最小值、方差、极差、均值,和/或根据不同的周期对训练数据集进行扩充特征维度等衍生变化。如若训练数据集为一个时序数列,如果有以小时为单位的时序时间索引,可以采用平均值衍生变量构造方法构造一个平均值维度,如以每3个小时为一个周期,计算每3个小时的平均值;也可以采用最大值衍生变量构造方法构造一个最大值维度,如每天的最大值。可以理解的是,也可以构造不同频次的方差和/或极值等维度。如对于降雨量这个特征,本来只存在一个特征维度,即每天的降雨量,然后可以衍生出某个时间段(如每3天,每5天等)的降雨量平均值、某个时间段(如每5天,每8天等)降雨量的最大值等维度。
进一步地,若检测到训练数据集的特征维度大于预设维度,则不对训练数据集对应特征维度进行扩充。
步骤S30,将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
当得到维度扩充后的训练数据集后,将维度扩充后的训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与训练数据集对应的预测结果。可以理解的是,预测模型的输出即为预测结果。
训练模型可为深度学习模型或者机器学习模型。机器学习模型包括但不限于支持向量机(SVM,Support Vector Machine)、朴素贝叶斯(NB,Naive Bayesian)、k最邻近分类算法(KNN,k-Nearest Neighbor)、决策树(DT,Decision Tree)、集成模型(RF(RandomForest,随机森林)/GDBT(Gradient Boosting Decision Tree)等),深度学习模型包括但不限于卷积神经网络(CNN,Convolutional Neural Network)、循环神经网络(RecurrentNeural Networks)和递归神经网络(Recursive Neural Networks)。如朴素贝叶斯模型为:P(B[j]|A[i])=P(A[i]|B[j])P(B[j])/P(A[i]),未知事件中A[i]出现时B[j]出现的后验概率在主观上等于已有事件中B[j]出现时A[i]出现的先验概率值乘以B[j]出现的先验概率值然后除以A[i]出现的先验概率值最终得到的结果。这就是贝叶斯的核心思想:用先验概率估计后验概率。具体到分类模型中,上述公式可以理解为:将B[j]看作分类的一种,将A[i]看作样本的特征属性之一,此时等号左边为待分类样本中出现特征A[i]时该样本属于类别B[j]的概率P(B[j]|A[i]),而等号右边是根据训练样本统计得到的特征A[i]出现子类别B[j]中的概率P(A[i]|B[j])乘以类别B[j]在训练样本中出现的概率P(B[j])最后除以特征A[i]在训练样本中出现的概率P(A[i])。如可用前一周的降雨量对应的维度扩充后的所述训练数据集输入朴素贝叶斯模型中,得到的预测结果为下一周降雨的概率。
进一步地,若检测到训练数据集的特征维度大于预设维度,则可直接将训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与训练数据集对应的预测结果。
本实施例当检测到训练数据集中数据的特征维度小于或者等于预设维度时,通过预设的衍生变量构造方法扩充训练数据集的特征维度,将维度扩充后的训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与训练数据集对应的预测结果。在对训练数据集,即原始数据特征处理过程中,考虑训练数据集特征维度的大小,以满足预测模型对训练数据集对应数据进行处理过程中,预测模型对特征维度的需求;且由于不需要人工操作,在原始数据中提取符合预测模型数据特征要求的数据过程中,提高了数据提取的提取效率,且提高了训练数据集的容错率。
进一步地,提出本发明数据预测方法第二实施例。
所述数据预测方法第二实施例与所述数据预测方法第一实施例的区别在于,参照图2,数据预测方法还包括:
步骤S40,采用预设数据筛选方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据。
当得到维度扩充后的训练数据集后,采用预设数据筛选方法对维度扩充后的所述训练数据集中的数据进行筛选,删除维度扩充后训练数据集中不符合条件的特征数据,保留维度扩充后的训练数据集中符合条件的数据。在本实施例中,将维度扩充后的训练数据集中符合条件的数据记为特征数据。其中,数据筛选方法包括但不限于相关系数校验和lasso方法。相关系数检验就是去检验每一个特征数据与目标变量的相关性,如果相关性很小,则这个特征数据对于预测结果来说没什么用,可以进行删除。从而,筛选剩下的特征数据就是信息较丰富的特征数据。具体地,如目标变量是下雨,相关系数检验就是检验每一特征数据(如前面几天的温度、湿度、降雨量等)与下雨的相关性,若计算出来的数值大于预设值,则确定该特征与目标变量相关性较大,保留该特征数据;若计算出来的数值小于或者等于预设值,则确定该特征数据与目标变量相关性较小,则删除该特征数据。lasso方法的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。
步骤S30包括:
步骤S31,将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
当得到维度扩充后的训练数据集中符合条件的特征数据后,将特征数据输入预设的预测模型中,得到与训练数据集对应的预测结果。
进一步地,为了提高预测结果的准确率和得到预测结果的效率,在采用一种数据筛选方法筛选出特征数据后,判断维度扩充后的训练数据集中,是否所有特征维度对应特征数据的数量都小于预设数量;若所有特征维度对应特征数据的数量都小于预设数量,则可将各个特征维度对应的特征数据输入预设的预测模型中,得到与训练数据集对应的预测结果;若存在特征维度对应特征数据的数量大于或者等于预设数量,则将特征维度对应特征数据的数量大于或者等于预设数量的特征维度记为目标维度,并采用另一种数据筛选方法对目标维度对应数据进行筛选,直到目标维度对应特征数据的数量小于预设数量。其中,预设数量可根据具体需要而设置,本实施例对预设数量的大小不做具体限制。
本实施例通过采用预设数据筛选方法对维度扩充后的训练数据集中的数据进行筛选,以保留维度扩充后的训练数据集中符合条件的特征数据,将特征数据输入预设的预测模型中,提高了得到预测结果的效率。
进一步地,数据预测方法还包括:
步骤a,通过机器学习算法在所述特征数据中筛选出目标特征数据。
进一步地,在得到维度扩充后的训练数据集中各个特征维度符合条件的特征数据后,采用机器学习算法在各个特征维度的特征数据中对应筛选出目标特征数据。具体地,可通过机器学习中的SVR(support vector regression,支持向量回归)、Lasso、逐步回归以及树模型等算法在特征数据中筛选出目标特征数据。其中,具体采用机器学习中那种算法在特征数据中筛选出目标特征数据可根据具体需要而选择。
步骤S31包括:
步骤o,将所述目标特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
当在各个特征维度的特征数据中筛选出目标特征数据后,将目标特征数据输入预设的预测模型中,得到与训练数据集对应的预测结果。
本实施例通过两次对训练数据集进行筛选,以在训练数据集中筛选出与预测结果关联较大的目标特征数据,在保证预测结果的准确性的基础上,减少了预测模型的计算量,提高了得到预测结果的效率。
进一步地,提出本发明数据预测方法第三实施例。
所述数据预测方法第三实施例与所述数据预测方法第二实施例的区别在于,数据预测方法还包括:
步骤b,检测所述机器学习算法中是否存在默认机器学习算法。
在维度扩充后的训练数据集中筛选出符合条件的特征数据后,检测预先存储的机器学习算法中是否存在默认机器学习算法。其中,默认机器学习算法为对应工作人员预先设置好的。在默认机器学习算法中,携带有默认标识。如可采用“%”,或者“*”等表示默认标识。默认机器学习算法可为SVR、Lasso、逐步回归以及树模型中的任意一种,如工作人员若认为SVR能更好地在特征数据中筛选出目标特征数据,则可将SVR设置为默认机器学习算法。
若所述机器学习算法中存在所述默认机器学习算法,则所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤包括:
步骤c,通过所述默认机器学习算法在所述特征数据中筛选出目标特征数据。
若检测到机器学习算法中存在默认机器学习算法,则通过默认机器学习算法在特征数据中筛选出目标特征数据。
进一步地,数据预测方法还包括:
步骤d,若所述机器学习算法中不存在所述默认机器学习算法,则获取各个所述机器学习算法在预设时长内被调用的调用次数。
若检测到机器学习算法中不存在默认机器学习算法,则获取各个机器学习算法在预设时长内被调用的调用次数。需要说明的是,当通过某个机器学习算法在特征数据中筛选出目标特征数据时,表明该机器学习算法被调用一次。预测时长可根据具体需要而设置,如可设置为1个月、50天或者80天等。在本实施例中,每一机器学习算法都存在对应的计数器,每被调用一次,对应的计数器加1,若进入新的一轮计数,计数器会将之前所计的数清零,重新开始计数。
步骤a包括:
步骤a1,通过调用次数最多的机器学习算法在所述特征数据中筛选出目标特征数据。
当获取到各个机器学习算法在预设时长内被调用的调用次数后,确定在预设时长内调用次数最多的机器学习算法,通过调用次数最多的机器学习算法在特征数据中筛选出目标特征数据。
本实施例通过在机器学习算法存在默认机器学习算法时,通过默认机器学习算法在特征数据中筛选出目标特征数据;当机器学习算法中不存在默认机器学习算法时,通过预设时长内调用次数最多的机器学习算法在特征数据中筛选出目标特征数据,以采用适合的机器学习算法在训练数据集中筛选出与预测结果关联较大的目标特征数据。
进一步地,提出本发明数据预测方法第四实施例。
所述数据预测方法第三实施例与所述数据预测方法第一、第二或第三实施例的区别在于,数据预测方法还包括:
步骤f,若所述特征维度大于所述预设维度,则采用预设数据筛选方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据。
若检测到训练数据集的特征维度大于预设维度,则采用预设数据筛选方法对训练数据集中各个特征维度对应的数据进行筛选,删除训练数据集中不符合条件的数据,保留训练数据集中符合条件的特征数据。
具体地,可计算训练数据集中各个特征维度对应的数据量,若某个特征维度对应的数量小于或者等于预设数量,则删除该特征维度,即删除该特征维度对应的所有数据;若某个特征维度对应的数量大于预设数量,则保留该特征维度。如在训练数据集中,某个特征维度只存在一个数据,则可确定该特征维度为无用特征维度,删除该特征维度对应数据。预设数量可根据具体需要而设置,在本实施例中对预设数量的数值不做具体限制。
步骤g,将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
当得到训练数据集中各个特征维度对应的特征数据后,将各个特征维度对应的特征数据输入预设的预测模型中,得到与训练数据集对应的预测结果。
进一步地,所述采用预设数据筛选方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据的步骤包括:
步骤f1,计算所述训练数据集中同一特征维度数据之间的方差,并计算所述训练数据集中各个特征维度的各个数据与对应所述方差之间的差值。
本实施例的数据筛选方法为方差校验方法,方差校验方法是校验每一个特征维度对应数据的分布是否合理。具体地,计算训练数据集同一特征维度数据之间的方差,并计算训练数据集中各个特征维度的各个数据与对应方差之间的差值。当计算得到差值后,判断该差值是否大于预设数值,其中,预设数值可根据具体需要而设置,本实施例对预设数值的大小不做具体限制。
步骤f2,若所述差值大于预设数值,则删除各个特征维度中所述差值大于所述预设数值对应的数据,保留各个特征维度中所述差值小于或者等于所述预设数值对应的特征数据。
若确定差值大于预设数值,则确定差值大于预设数值对应的数据,并删除各个特征维度中差值大于预设数值对应的数据,保留训练数据集各个特征维度中差值小于或者等于预设数值对应的特征数据。需要说明的是,不同特征维度对应的预设数值可以相同,也可以不同。
本实施例通过当特征维度大于预设维度时,采用预设数据筛选方法对所训练数据集中的数据进行筛选,以保留训练数据集中符合条件的特征数据,通过对训练数据集进行筛选,在保证预测结果的准确性的基础上,减少了预测模型的计算量,提高了得到预测结果的效率。
此外,参照图3,本发明还提供一种数据预测装置,所述数据预测装置包括:
检测模块10,用于当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度;
扩充模块20,用于若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集;
输入模块30,用于将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
进一步地,数据预测装置还包括:
第一筛选模块,用于采用预设数据筛选方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据;
所述输入模块30还用于将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
进一步地,所述第一筛选模块还用于通过机器学习算法在所述特征数据中筛选出目标特征数据;
所述输入模块30还用于将所述目标特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
进一步地,所述检测模块10还用于检测所述机器学习算法中是否存在默认机器学习算法;
所述第一筛选模块还用于若所述机器学习算法中存在所述默认机器学习算法,则通过所述默认机器学习算法在所述特征数据中筛选出目标特征数据。
进一步地,数据预测装置还包括:
获取模块,还用于若所述机器学习算法中不存在所述默认机器学习算法,则获取各个所述机器学习算法在预设时长内被调用的调用次数;
所述第一筛选模块还用于通过调用次数最多的机器学习算法在所述特征数据中筛选出目标特征数据。
进一步地,数据预测装置还包括:
第二筛选模块,用于若所述特征维度大于所述预设维度,则采用预设数据筛选方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据;
所述输入模块30还用于将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
进一步地,所述第二筛选模块包括:
计算单元,用于计算所述训练数据集中同一特征维度数据之间的方差,并计算所述训练数据集中各个特征维度的各个数据与对应所述方差之间的差值;
删除单元,用于若所述差值大于预设数值,则删除各个特征维度中所述差值大于所述预设数值对应的数据;
保留单元,用于保留各个特征维度中所述差值小于或者等于所述预设数值对应的特征数据。
需要说明的是,数据预测装置的各个实施例与上述数据预测方法的各实施例基本相同,在此不再详细赘述。
此外,本发明还提供一种数据预测设备。如图4所示,图4是本发明实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图4即可为数据预测设备的硬件运行环境的结构示意图。本发明实施例数据预测设备可以是PC,便携计算机等终端设备。
如图4所示,该数据预测设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,数据预测设备还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图4中示出的数据预测设备结构并不构成对数据预测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据预测程序。其中,操作系统是管理和控制数据预测设备硬件和软件资源的程序,支持数据预测程序以及其它软件或程序的运行。
在图4所示的数据预测设备中,用户接口1003可用于连接训练数据集对应系统,从训练数据集对应系统中获取训练数据集;网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的数据预测程序,并执行如上所述的数据预测方法的步骤。
本发明数据预测设备具体实施方式与上述数据预测方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据预测程序,所述数据预测程序被处理器执行时实现如上所述的数据预测方法的步骤。
本发明计算机可读存储介质具体实施方式与上述数据预测方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种数据预测方法,其特征在于,所述数据预测方法包括以下步骤:
当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度;
若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集;
将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果;
所述当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度的步骤,包括:
当获取到训练数据集后,确定所述训练数据集对应的预测模型,并将所述预测模型确定为目标预测模型;
获取所述目标预测模型对应的预设维度,并检测所述训练数据集对应数据的特征维度是否小于或者等于所述预设维度;
所述若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集的步骤之后,还包括:
采用相关系数校验方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据;
所述将维度扩充后的所述训练数据集中的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果的步骤包括:
判断维度扩充后的所述训练数据集中是否所有特征维度对应的特征数据的数量均小于预设数量;
若是,则将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果;
若否,则将大于/等于所述预设数量的特征数据对应的特征维度确定为目标维度,并采用lasso方法对所述目标维度对应特征数据进行筛选,直至所述目标维度对应特征数据的数量小于所述预设数量,以将筛选后的特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
2.如权利要求1所述的数据预测方法,其特征在于,所述采用相关系数校验方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据的步骤之后,还包括:
通过机器学习算法在所述特征数据中筛选出目标特征数据;
所述将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果的步骤包括:
将所述目标特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
3.如权利要求2所述的数据预测方法,其特征在于,所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤之前,包括:
检测所述机器学习算法中是否存在默认机器学习算法;
若所述机器学习算法中存在所述默认机器学习算法,则所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤包括:
通过所述默认机器学习算法在所述特征数据中筛选出目标特征数据。
4.如权利要求3所述的数据预测方法,其特征在于,所述检测所述机器学习算法中是否存在默认机器学习算法的步骤之后,还包括:
若所述机器学习算法中不存在所述默认机器学习算法,则获取各个所述机器学习算法在预设时长内被调用的调用次数;
所述通过机器学习算法在所述特征数据中筛选出目标特征数据的步骤包括:
通过调用次数最多的机器学习算法在所述特征数据中筛选出目标特征数据。
5.如权利要求1至4任一项所述的数据预测方法,其特征在于,所述当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度的步骤之后,还包括:
若所述特征维度大于所述预设维度,则采用相关系数校验方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据;
将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
6.如权利要求5所述的数据预测方法,其特征在于,所述采用相关系数校验方法对所述训练数据集中的数据进行筛选,以保留所述训练数据集中符合条件的特征数据的步骤包括:
计算所述训练数据集中同一特征维度数据之间的方差,并计算所述训练数据集中各个特征维度的各个数据与对应所述方差之间的差值;
若所述差值大于预设数值,则删除各个特征维度中所述差值大于所述预设数值对应的数据,保留各个特征维度中所述差值小于或者等于所述预设数值对应的特征数据。
7.一种数据预测装置,其特征在于,所述数据预测装置包括:
检测模块,用于当获取到训练数据集后,检测所述训练数据集对应数据的特征维度是否小于或者等于预设维度;
扩充模块,用于若所述特征维度小于或者等于所述预设维度,则通过预设的衍生变量构造方法扩充所述特征维度,得到维度扩充后的所述训练数据集;
输入模块,用于将维度扩充后的所述训练数据集中各个特征维度对应的数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果;
所述检测模块,还用于当获取到训练数据集后,确定所述训练数据集对应的预测模型,并将所述预测模型确定为目标预测模型;获取所述目标预测模型对应的预设维度,并检测所述训练数据集对应数据的特征维度是否小于或者等于所述预设维度;
所述扩充模块,还用于采用相关系数校验方法对维度扩充后的所述训练数据集中的数据进行筛选,以保留维度扩充后的所述训练数据集中符合条件的特征数据;
所述输入模块,还用于判断维度扩充后的所述训练数据集中是否所有特征维度对应的特征数据的数量均小于预设数量;若是,则将所述特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果;若否,则将大于/等于所述预设数量的特征数据对应的特征维度确定为目标维度,并采用lasso方法对所述目标维度对应特征数据进行筛选,直至所述目标维度对应特征数据的数量小于所述预设数量,以将筛选后的特征数据输入预设的预测模型中,得到与所述训练数据集对应的预测结果。
8.一种数据预测设备,其特征在于,所述数据预测设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的数据预测程序,所述数据预测程序被所述处理器执行时实现如权利要求1至6中任一项所述的数据预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据预测程序,所述数据预测程序被处理器执行时实现如权利要求1至6中任一项所述的数据预测方法的步骤。
CN201811478708.2A 2018-12-04 2018-12-04 数据预测方法、装置、设备及计算机可读存储介质 Active CN109684302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811478708.2A CN109684302B (zh) 2018-12-04 2018-12-04 数据预测方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811478708.2A CN109684302B (zh) 2018-12-04 2018-12-04 数据预测方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109684302A CN109684302A (zh) 2019-04-26
CN109684302B true CN109684302B (zh) 2023-08-15

Family

ID=66187154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811478708.2A Active CN109684302B (zh) 2018-12-04 2018-12-04 数据预测方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109684302B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111965545A (zh) * 2020-07-31 2020-11-20 蜂巢能源科技有限公司 锂电池自放电检测方法、装置及系统
CN112417007A (zh) * 2020-12-03 2021-02-26 恒安嘉新(北京)科技股份公司 一种数据分析方法、装置、电子设备及存储介质
CN112348176A (zh) * 2020-12-04 2021-02-09 中信银行股份有限公司 深度学习模型训练方法、装置、设备及存储介质
CN113283774A (zh) * 2021-06-07 2021-08-20 润电能源科学技术有限公司 采暖供热机组深度调峰方法、装置、电子设备及存储介质
CN113393169B (zh) * 2021-07-13 2024-03-01 大商所飞泰测试技术有限公司 基于大数据技术的金融行业交易系统性能指标分析方法
CN116167285A (zh) * 2023-02-27 2023-05-26 北京市生态环境保护科学研究院 有机污染物运移的预测方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360388A (zh) * 2011-10-20 2012-02-22 苏州大学 基于支持向量回归的时间序列预测方法及系统
CN102385719A (zh) * 2011-11-01 2012-03-21 中国科学院计算技术研究所 回归预测方法及装置
CN105931116A (zh) * 2016-04-20 2016-09-07 帮帮智信(北京)教育投资有限公司 基于深度学习机制的自动化信用评分系统及方法
CN108346107A (zh) * 2017-12-28 2018-07-31 阿里巴巴集团控股有限公司 一种社交内容风险识别方法、装置以及设备
CN108734304A (zh) * 2018-05-31 2018-11-02 阿里巴巴集团控股有限公司 一种数据模型的训练方法、装置、及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360388A (zh) * 2011-10-20 2012-02-22 苏州大学 基于支持向量回归的时间序列预测方法及系统
CN102385719A (zh) * 2011-11-01 2012-03-21 中国科学院计算技术研究所 回归预测方法及装置
CN105931116A (zh) * 2016-04-20 2016-09-07 帮帮智信(北京)教育投资有限公司 基于深度学习机制的自动化信用评分系统及方法
CN108346107A (zh) * 2017-12-28 2018-07-31 阿里巴巴集团控股有限公司 一种社交内容风险识别方法、装置以及设备
CN108734304A (zh) * 2018-05-31 2018-11-02 阿里巴巴集团控股有限公司 一种数据模型的训练方法、装置、及计算机设备

Also Published As

Publication number Publication date
CN109684302A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684302B (zh) 数据预测方法、装置、设备及计算机可读存储介质
CN109684118B (zh) 异常数据的检测方法、装置、设备及计算机可读存储介质
WO2019019255A1 (zh) 建立预测模型的装置、方法、预测模型建立程序及计算机可读存储介质
CN107305611B (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN109766395B (zh) 网格数据处理方法、装置、计算机设备和存储介质
CN108764369B (zh) 基于数据融合的人物识别方法、装置和计算机存储介质
CN109885834B (zh) 一种用户年龄性别的预测方法及装置
CN110597965B (zh) 文章的情感极性分析方法、装置、电子设备及存储介质
CN112685799B (zh) 设备指纹生成方法、装置、电子设备和计算机可读介质
CN110162939B (zh) 人机识别方法、设备和介质
US10853829B2 (en) Association method, and non-transitory computer-readable storage medium
CN111400126A (zh) 网络服务异常数据检测方法、装置、设备和介质
CN113836240B (zh) 时序数据分类方法、装置、终端设备及存储介质
CN110968802B (zh) 一种用户特征的分析方法、分析装置及可读存储介质
CN114880310A (zh) 一种用户行为分析方法、装置、计算机设备及存储介质
CN108512674B (zh) 用于输出信息的方法、装置和设备
CN115145801A (zh) A/b测试流量分配方法、装置、设备及存储介质
CN107071553B (zh) 一种修改视频语音的方法、装置和计算机可读存储介质
CN116740586A (zh) 冰雹识别方法、装置、电子设备及计算机可读存储介质
CN104376021A (zh) 文件推荐系统及方法
CN115760486A (zh) 临建规模评估方法、装置、设备和可读存储介质
CN115858509A (zh) 医疗数据波动率监测方法、装置、设备及可读存储介质
CN115454466A (zh) 机器学习模型自动更新的方法、装置、设备和介质
CN115859065A (zh) 模型评测方法、装置、设备及存储介质
CN110019547B (zh) 获取客户间的关联关系的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant