CN111178639A - 一种基于多模型融合实现预测的方法及装置 - Google Patents
一种基于多模型融合实现预测的方法及装置 Download PDFInfo
- Publication number
- CN111178639A CN111178639A CN201911422778.0A CN201911422778A CN111178639A CN 111178639 A CN111178639 A CN 111178639A CN 201911422778 A CN201911422778 A CN 201911422778A CN 111178639 A CN111178639 A CN 111178639A
- Authority
- CN
- China
- Prior art keywords
- model
- feature
- features
- correlation
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Finance (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本文公开了基于多模型融合实现预测的方法及装置。所述方法包括:从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型生成对应的多个特征子集和训练数据子集;基于每一种模型算法类型对应的特征子集构建对应的模型组并使用对应的训练数据子集训练所述模型组;所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果。本文的技术方案能够通过多个模型的融合降低单个模型的复杂度和运算量,提高模型的运算效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及的是一种基于多模型融合实现预测的方法及装置。
背景技术
手续费和保证金的设定,是调节期货市场交易行为、控制市场风险的重要手段。理论上,当出现单边市、节假日等特殊情况时交易所会通过调高保证金或手续费率增加交易成本,达到减少投机、降低市场过热和期货价格的波动情况。在通过大数据建模预测交易参数调整对成交量、持仓量的影响时,模型的复杂度通常对预测结果有很大的影响,但是模型的复杂度太高会导致模型的设计难度增大,模型的运算速度下降。
发明内容
本文提供一种基于多模型融合实现预测的方法及装置,能够通过多个模型的融合降低单个模型的复杂度,提高预测精度。
根据本申请的第一方面,本发明实施例提供一种基于多模型融合实现预测的方法,包括:
从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,基于所述历史交易数据为每一种模型算法类型构建训练模型用的训练数据集合,从所述训练数据集合中选取数据生成多个训练数据子集;
基于每一种模型算法类型对应的特征子集构建所述模型算法类型的模型组,使用所述模型算法类型对应的训练数据子集训练所述模型组的每一个模型;其中,所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;
在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果。
根据本申请的第二方面,本发明实施例提供一种基于多模型融合实现预测的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被所述处理器执行时实现上述基于多模型融合实现预测的方法的步骤。
根据本申请的第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被处理器执行时实现上述基于多模型融合实现预测的方法的步骤。
与相关技术相比,本发明实施例提供的一种基于多模型融合实现预测的方法及装置,从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,基于所述历史交易数据为每一种模型算法类型构建训练模型用的训练数据集合,从所述训练数据集合中选取数据生成多个训练数据子集。基于每一种模型算法类型对应的特征子集构建所述模型算法类型的模型组,使用所述模型算法类型对应的训练数据子集训练所述模型组的每一个模型;其中,所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果。本发明实施例的技术方案能够通过多个模型的融合降低单个模型的复杂度和运算量,提高模型的运算效率。
附图说明
图1为本发明实施例1的一种基于多模型融合实现预测的方法的流程图;
图2为本发明实施例2的一种基于多模型融合实现预测的装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
模型融合,又叫集成学习,即训练多个模型,然后按照一定的方法集成这多个模型。当个体学习器准确性越高,多样性越大时,融合的效果越好。
实施例1
如图1所示,本发明实施例提供了一种基于多模型融合实现预测的方法,包括:
步骤S110,从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,基于所述历史交易数据为每一种模型算法类型构建训练模型用的训练数据集合,从所述训练数据集合中选取数据生成多个训练数据子集;
步骤S120,基于每一种模型算法类型对应的特征子集构建所述模型算法类型的模型组,使用所述模型算法类型对应的训练数据子集训练所述模型组的每一个模型;其中,所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;
步骤S130,在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果;
在一种实施方式中,所述历史交易数据包括:调整合约在交易参数调整日之前统计周期内每一天的交易明细数据,调整合约在交易参数调整日当日的交易明细数据,交易参数的变化信息以及交易参数调整日的日期信息;
其中,调整合约是指交易参数调整影响的合约;
其中,交易参数包括以下至少一种:保证金,手续费;
其中,交易参数的变化信息包括:交易参数的名称,交易参数调整前的数值,交易参数的调整幅度;
其中,所述交易参数调整日的日期信息包括以下至少一种:年月日信息,星期几信息,节假日信息;
在一种实施方式中,所述统计周期可以是:一周、十天、半个月等。在其他的实施方式中,统计周期也可以是其他的时长。统计周期的长短可以依据应用的需要进行确定,比如,当样本数据量较少时,可以延长统计周期。
在一种实施方式中,所述待预测对象包括:待预测调整合约在交易参数调整日当日的交易指标;
其中,所述交易指标包括:成交量或持仓量;
在一种实施方式中,所述特征集合包括:基础特征集合和衍生特征集合;
基础特征集合中的特征根据历史交易数据直接获得;
衍生特征集合中的特征通过对历史交易数据进行数据处理后获得;其中,所述数据处理包括以下至少一种:统计、数学运算;
在一种实施方式中,所述衍生特征集合包括以下至少一种特征类型:组合特征、排序特征、离散特征;
其中,所述组合特征可以通过两个基础特征之间相除或做差生成。比如,对重要性排名靠前的前N个特征,两两相除构造组合特征;或者对不同日的交易特征两两做差构造组合特征。
其中,排序特征可以对数值型特征按照数值大小进行排序生成。排序特征对异常数据有较强鲁棒性,从而降低过拟合风险。
在一种实施方式中,所述方法还包括:对训练数据集进行数据预处理;
其中,数据预处理可以包括以下处理的至少一种:对数据做缺失值填补、对数据做异常值处理、对数据做筛选、对离散数据进行独热编码(one-hot编码)或标签编码、对交易指标进行对数非线性变换;
其中,离散数据比如:星期几等。对数非线性变换处理可以将各合约的交易指标(比如成交量、持仓量)从几千~几百万的差距缩小到3~14之间。
其中,对数据做缺失值填补可以采用0值填补和/或均值填补。对数据做异常值处理可以采用丢弃异常值或用均值替代异常值。对数据做筛选可以过滤掉交易指标低于阈值的数据。
在一种实施方式中,所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是线性回归算法或多项式回归算法时,将所述特征集合中的每一个特征与预测对象之间进行相关性分析,按照相关性的高低将所述特征集合中的特征划分为三个特征组:高相关性特征组、中相关性特征组、和低相关性特征组;
对高相关性特征组中的特征进行相关性计算,挑选相关性最低的a个特征作为备选特征;对中相关性特征组中的特征进行相关性计算,挑选相关性最低的b个特征作为备选特征;其中,a和b可以预先设定,或者根据相关性阈值进行确定;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从高相关性特征组的备选特征中选择不少于c1%高相关性备选特征总数的特征,从中相关性特征组的备选特征中选择不多于50%中相关性备选特征总数的特征,从低相关性特征组中选择不多于c2%低相关性特征总数的特征,由选出的特征构成特征子集;其中,c1%大于50%,c2%小于50%;任意两个特征子集至少有一个特征不同;
在一种实施方式中,所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是树类集成算法时,将所述特征集合划分为M种类型的特征集;对每一种类型的特征集,分别计算所述特征集中的特征的重要性并按照重要性高低对特征进行排序;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从第i种类型的特征集中挑选重要性最高的Ni个特征,由选出的特征构成特征子集;1≤i≤M;任意两个特征子集至少有一个特征不同;
其中,M种类型的特征集包括以下至少一种类型的特征集合:原始特征集合、组合特征集合、排序特征集合、离散特征集合;
其中,树类集成算法包括以下任意一种:XGBoost算法,随机森林算法,梯度提升迭代决策树(Gradient Boosting Decision Tree,简称GBDT)算法;
在一种实施方式中,所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是支持向量机(Support Vector Machine,简称SVM)算法时,生成多个特征子集,其中任意一个特征子集采用以下方式生成:从所述特征集合中随机抽取d个特征,由抽取出的特征构成特征子集;任意两个特征子集至少有一个特征不同;d可以预先设定;
在一种实施方式中,在任意一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型包括:
基于所述历史交易数据为所述模型算法类型构建评价模型用的测试数据集合;
评估所述模型算法类型的模型组中的每一个模型在所述测试数据集合上的预测性能指标,将性能指标达到要求的模型作为候选模型,由所有的候选模型生成候选模型集合;
将所述候选模型集合中所有模型在所述测试数据集合上的全部预测结果进行相关性计算,得到所述候选模型集合中相关性最低的N个候选模型作为参与模型融合的目标模型;N可以预先设定或者根据相关性阈值设定。
其中,所述预测性能指标包括:平均绝对百分比误差(Mape)指标;平均绝对百分比误差是各数据偏离幅度加和的平均数。
其中,所述相关性计算包括:基于最大信息系数(Maximal InformationCoefficient,简称MIC)的相关性计算;
最大信息系数(MIC)能捕捉不限于特定函数类型的两个变量之间的相关关系。MIC所依据的理念是,如果两个变量之间存在着一种关系,那么就应该有一种方法在那些变量的散点图上画一个网格,使得大多数的数据点集中在该网格的几个单元格中。这些包含数据点的网格可近似视为某种拟合曲线,从而达到刻画两变量的关系的目的。
在做模型融合时,可以通过在不同训练集、不同算法、不同模型参数(特征)上建立性能足够好的多模型集,最后通过最大相关系数来做模型选择,保证融合模型的多样性。
实施例2
如图2所示,本发明实施例提供了一种基于多模型融合实现预测的装置,包括:
数据准备模块10,用于从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,基于所述历史交易数据为每一种模型算法类型构建训练模型用的训练数据集合,从所述训练数据集合中选取数据生成多个训练数据子集;
模型建立及训练模块20,用于基于每一种模型算法类型对应的特征子集构建所述模型算法类型的模型组,使用所述模型算法类型对应的训练数据子集训练所述模型组的每一个模型;其中,所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;
模型融合模块30,用于在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果。
在一种实施方式中,数据准备模块,用于采用以下方式根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集:
当所述模型算法类型是线性回归算法或多项式回归算法时,将所述特征集合中的每一个特征与预测对象之间进行相关性分析,按照相关性的高低将所述特征集合中的特征划分为三个特征组:高相关性特征组、中相关性特征组和低相关性特征组;
对高相关性特征组中的特征进行相关性计算,挑选相关性最低的a个特征作为备选特征;对中相关性特征组中的特征进行相关性计算,挑选相关性最低的b个特征作为备选特征;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从高相关性特征组的备选特征中选择不少于c1%高相关性备选特征总数的特征,从中相关性特征组的备选特征中选择不多于50%中相关性备选特征总数的特征,从低相关性特征组中选择不多于c2%低相关性特征总数的特征,由选出的特征构成特征子集;其中,c1%大于50%,c2%小于50%;任意两个特征子集至少有一个特征不同。
在一种实施方式中,数据准备模块,用于采用以下方式根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集:
当所述模型算法类型是树类集成算法时,将所述特征集合划分为M种类型的特征集;对每一种类型的特征集,分别计算所述特征集中的特征的重要性并按照重要性高低对特征进行排序;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从第i种类型的特征集中挑选重要性最高的Ni个特征,由选出的特征构成特征子集;1≤i≤M;任意两个特征子集至少有一个特征不同。
在一种实施方式中,M种类型的特征集包括以下至少一种类型的特征集合:原始特征集合、组合特征集合、排序特征集合、离散特征集合。
在一种实施方式中,数据准备模块,用于采用以下方式根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集:
当所述模型算法类型是支持向量机SVM算法时,生成多个特征子集,其中任意一个特征子集采用以下方式生成:从所述特征集合中随机抽取d个特征,由抽取出的特征构成特征子集。
在一种实施方式中,模型融合模块,用于采用以下方式在任意一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型:
基于所述历史交易数据为所述模型算法类型构建评价模型用的测试数据集合;
评估所述模型算法类型的模型组中的每一个模型在所述测试数据集合上的预测性能指标,将性能指标达到要求的模型作为候选模型,由所有的候选模型生成候选模型集合;
将所述候选模型集合中所有模型在所述测试数据集合上的全部预测结果进行相关性计算,得到所述候选模型集合中相关性最低的N个候选模型作为参与模型融合的目标模型。
在一种实施方式中,所述相关性计算包括:基于最大信息系数MIC的相关性计算。
在一种实施方式中,所述待预测对象包括:待预测调整合约在交易参数调整日当日的交易指标;
所述历史交易数据包括:调整合约在交易参数调整日之前统计周期内每一天的交易明细数据,调整合约在交易参数调整日当日的交易明细数据,交易参数的变化信息以及交易参数调整日的日期信息。
实施例3
本发明实施例提供了一种基于多模型融合实现预测的装置,包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被所述处理器执行时实现上述实施例1中所述的基于多模型融合实现预测的方法的步骤。
实施例4
本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被处理器执行时实现上述实施例1中所述的基于多模型融合实现预测的方法的步骤。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于多模型融合实现预测的方法,包括:
从交易所的历史交易数据中提取特征生成特征集合,根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,基于所述历史交易数据为每一种模型算法类型构建训练模型用的训练数据集合,从所述训练数据集合中选取数据生成多个训练数据子集;
基于每一种模型算法类型对应的特征子集构建所述模型算法类型的模型组,使用所述模型算法类型对应的训练数据子集训练所述模型组的每一个模型;其中,所述模型组中的任意两个模型对应的特征子集不同和/或对应的训练数据子集不同;
在每一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型,使用所有模型算法类型的目标模型分别对待预测对象进行预测,将所有目标模型的预测结果进行加权平均得到最终的预测结果。
2.如权利要求1所述的方法,其特征在于:
所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是线性回归算法或多项式回归算法时,将所述特征集合中的每一个特征与预测对象之间进行相关性分析,按照相关性的高低将所述特征集合中的特征划分为三个特征组:高相关性特征组、中相关性特征组和低相关性特征组;
对高相关性特征组中的特征进行相关性计算,挑选相关性最低的a个特征作为备选特征;对中相关性特征组中的特征进行相关性计算,挑选相关性最低的b个特征作为备选特征;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从高相关性特征组的备选特征中选择不少于c1%高相关性备选特征总数的特征,从中相关性特征组的备选特征中选择不多于50%中相关性备选特征总数的特征,从低相关性特征组中选择不多于c2%低相关性特征总数的特征,由选出的特征构成特征子集;其中,c1%大于50%,c2%小于50%;任意两个特征子集至少有一个特征不同。
3.如权利要求1所述的方法,其特征在于:
所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是树类集成算法时,将所述特征集合划分为M种类型的特征集;对每一种类型的特征集,分别计算所述特征集中的特征的重要性并按照重要性高低对特征进行排序;
生成多个特征子集,其中任意一个特征子集采用以下方式生成:从第i种类型的特征集中挑选重要性最高的Ni个特征,由选出的特征构成特征子集;1≤i≤M;任意两个特征子集至少有一个特征不同。
4.如权利要求3所述的方法,其特征在于:
M种类型的特征集包括以下至少一种类型的特征集合:原始特征集合、组合特征集合、排序特征集合、离散特征集合。
5.如权利要求1所述的方法,其特征在于:
所述根据模型算法类型从所述特征集合中选取特征生成所述模型算法类型对应的多个特征子集,包括:
当所述模型算法类型是支持向量机SVM算法时,生成多个特征子集,其中任意一个特征子集采用以下方式生成:从所述特征集合中随机抽取d个特征,由抽取出的特征构成特征子集。
6.如权利要求1所述的方法,其特征在于:
在任意一种模型算法类型的模型组中挑选部分满足模型融合条件的模型作为目标模型包括:
基于所述历史交易数据为所述模型算法类型构建评价模型用的测试数据集合;
评估所述模型算法类型的模型组中的每一个模型在所述测试数据集合上的预测性能指标,将性能指标达到要求的模型作为候选模型,由所有的候选模型生成候选模型集合;
将所述候选模型集合中所有模型在所述测试数据集合上的全部预测结果进行相关性计算,得到所述候选模型集合中相关性最低的N个候选模型作为参与模型融合的目标模型。
7.如权利要求6所述的方法,其特征在于:
所述相关性计算包括:基于最大信息系数MIC的相关性计算。
8.如权利要求1-7中任一项所述的方法,其特征在于:
所述待预测对象包括:待预测调整合约在交易参数调整日当日的交易指标;
所述历史交易数据包括:调整合约在交易参数调整日之前统计周期内每一天的交易明细数据,调整合约在交易参数调整日当日的交易明细数据,交易参数的变化信息以及交易参数调整日的日期信息。
9.一种基于多模型融合实现预测的装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被所述处理器执行时实现上述权利要求1-8中任一项所述的基于多模型融合实现预测的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有基于多模型融合实现预测的程序,所述基于多模型融合实现预测的程序被处理器执行时实现上述权利要求1-8中任一项所述的基于多模型融合实现预测的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911422778.0A CN111178639A (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模型融合实现预测的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911422778.0A CN111178639A (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模型融合实现预测的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178639A true CN111178639A (zh) | 2020-05-19 |
Family
ID=70657677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911422778.0A Pending CN111178639A (zh) | 2019-12-31 | 2019-12-31 | 一种基于多模型融合实现预测的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178639A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN112508304A (zh) * | 2020-12-22 | 2021-03-16 | 上海浦东发展银行股份有限公司 | 交易对象流动性预测方法、装置、设备及存储介质 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN112990583A (zh) * | 2021-03-19 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 一种数据预测模型的入模特征确定方法及设备 |
CN113344085A (zh) * | 2021-06-16 | 2021-09-03 | 东南大学 | 一种平衡偏置的多源数据协同优选与融合方法和装置 |
CN113379465A (zh) * | 2021-06-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 基于区块链的网点选址方法、装置、设备和存储介质 |
CN113435122A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113592160A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于融合处理的用户设备的失联风险预测方法、系统和计算机设备 |
CN114071527A (zh) * | 2020-08-05 | 2022-02-18 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
WO2022126961A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN115685858A (zh) * | 2023-01-05 | 2023-02-03 | 苏州慧工云信息科技有限公司 | 一种基于jit的电子看板数据控制器及控制方法 |
-
2019
- 2019-12-31 CN CN201911422778.0A patent/CN111178639A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114071527B (zh) * | 2020-08-05 | 2024-02-06 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
CN114071527A (zh) * | 2020-08-05 | 2022-02-18 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
CN112102899A (zh) * | 2020-09-15 | 2020-12-18 | 北京晶派科技有限公司 | 一种分子预测模型的构建方法和计算设备 |
CN112418520A (zh) * | 2020-11-22 | 2021-02-26 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
CN112418520B (zh) * | 2020-11-22 | 2022-09-20 | 同济大学 | 一种基于联邦学习的信用卡交易风险预测方法 |
WO2022126961A1 (zh) * | 2020-12-16 | 2022-06-23 | 平安科技(深圳)有限公司 | 针对数据偏移的目标对象行为预测方法及其相关设备 |
CN112508304A (zh) * | 2020-12-22 | 2021-03-16 | 上海浦东发展银行股份有限公司 | 交易对象流动性预测方法、装置、设备及存储介质 |
CN112766514A (zh) * | 2021-01-22 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种联合训练机器学习模型的方法、系统及装置 |
CN112990583A (zh) * | 2021-03-19 | 2021-06-18 | 中国平安人寿保险股份有限公司 | 一种数据预测模型的入模特征确定方法及设备 |
CN112990583B (zh) * | 2021-03-19 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 一种数据预测模型的入模特征确定方法及设备 |
CN113344085A (zh) * | 2021-06-16 | 2021-09-03 | 东南大学 | 一种平衡偏置的多源数据协同优选与融合方法和装置 |
CN113344085B (zh) * | 2021-06-16 | 2024-04-26 | 东南大学 | 一种平衡偏置的多源数据协同优选与融合方法和装置 |
CN113379465A (zh) * | 2021-06-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 基于区块链的网点选址方法、装置、设备和存储介质 |
CN113379465B (zh) * | 2021-06-29 | 2024-07-30 | 北京百度网讯科技有限公司 | 基于区块链的网点选址方法、装置、设备和存储介质 |
CN113435122A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113435122B (zh) * | 2021-06-30 | 2023-11-07 | 平安科技(深圳)有限公司 | 实时流量数据处理方法、装置、计算机设备和存储介质 |
CN113592160A (zh) * | 2021-07-13 | 2021-11-02 | 北京淇瑀信息科技有限公司 | 基于融合处理的用户设备的失联风险预测方法、系统和计算机设备 |
CN115685858A (zh) * | 2023-01-05 | 2023-02-03 | 苏州慧工云信息科技有限公司 | 一种基于jit的电子看板数据控制器及控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178639A (zh) | 一种基于多模型融合实现预测的方法及装置 | |
Madan et al. | Automated bitcoin trading via machine learning algorithms | |
Zhang et al. | A gradient boosting method to improve travel time prediction | |
Acosta-González et al. | Forecasting financial failure of firms via genetic algorithms | |
CN107766929B (zh) | 模型分析方法及装置 | |
CN110263827B (zh) | 基于交易规律识别的异常交易检测方法及装置 | |
CN105718490A (zh) | 一种用于更新分类模型的方法及装置 | |
US11537825B2 (en) | Systems and methods for features engineering | |
CN110389970A (zh) | 用户意向预测方法、装置、计算机设备及存储介质 | |
CN111797320B (zh) | 数据处理方法、装置、设备及存储介质 | |
Jose et al. | An efficient system to predict and analyze stock data using Hadoop techniques | |
CN104778622A (zh) | Tps交易事件阈值的预测方法及预测系统 | |
CN109544196A (zh) | 预约订单的价格倍数确定方法和装置 | |
CN111986027A (zh) | 基于人工智能的异常交易处理方法、装置 | |
CN112200659A (zh) | 建立风控模型的方法、装置及存储介质 | |
CN111080206A (zh) | 补货清单的生成方法、装置、设备及存储介质 | |
CN109508807A (zh) | 彩票用户活跃度预测方法、系统及终端设备、存储介质 | |
CN114721898A (zh) | 基于boosting算法的边缘云服务器利用率预测方法、预测装置及存储介质 | |
CN117421657B (zh) | 一种基于过采样策略的带噪标签图片样本筛选学习方法及系统 | |
Zhao et al. | A new hybrid model for multi-step WTI futures price forecasting based on self-attention mechanism and spatial–temporal graph neural network | |
CN114741592B (zh) | 一种基于多模型融合的产品推荐方法、设备及介质 | |
CN111507397B (zh) | 一种异常数据的分析方法及装置 | |
Ulkhaq et al. | Predicting customer churn: A comparison of eight machine learning techniques: A case study in an Indonesian telecommunication company | |
CN104636489B (zh) | 描述属性数据的处理方法和装置 | |
CN113793220A (zh) | 基于人工智能模型的股市投资决策方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |
|
RJ01 | Rejection of invention patent application after publication |