CN107527124A - 生成行业基本面组合预测模型的方法和装置 - Google Patents
生成行业基本面组合预测模型的方法和装置 Download PDFInfo
- Publication number
- CN107527124A CN107527124A CN201710950135.8A CN201710950135A CN107527124A CN 107527124 A CN107527124 A CN 107527124A CN 201710950135 A CN201710950135 A CN 201710950135A CN 107527124 A CN107527124 A CN 107527124A
- Authority
- CN
- China
- Prior art keywords
- data
- machine learning
- model
- learning model
- multiple machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种生成行业基本面组合预测模型的方法和装置。该方法包括:获取与目标行业的基本面相关的历史数据并进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集和验证数据集;利用训练数据集来训练多个机器学习模型;利用验证数据集来评估该多个机器学习模型的预测效果;以及根据预测效果来确定该多个机器学习模型作为组合预测模型时所对应的权重。本发明通过融合多个机器学习模型来增加预测的稳定性,并且不需要人工干预,时间效率较高。
Description
技术领域
本发明属于计算机数据处理领域,尤其涉及一种生成行业基本面组合预测模型的方法和装置。
背景技术
对于金融行业,投资经理和分析师们一直以来借助各种类型的数据和指标去分析和判断宏观经济的走势和不同行业未来的景气程度,从而做出相关的投资决策和投资建议。随着大数据时代的到来,各种数据的分享和收集逐渐由机器代替,数据的数量和种类变得越来越丰富,更新越来越频繁。
传统的分析师们很大程度上是基于个人的经验和认知来预测行业基本面。这需要分析师花费大量的时间去调查行业数据,一旦调查的数据改变,则需要重复进行调查。每一次更新预测都需要重新调查当时的数据,时间效率较低。这种分析预测带有相当程度的主观判断,可能受分析师的主观情感影响,准确度因人而异而无法得到保证。另外,一个重大不足在于其对于突发数据的反应和更新速度较慢。
对此,分析师们开始需要借助量化模型来处理海量的行业经济数据,帮助他们迅速识别和判断未来的行业经济趋势。量化基本面分析法(Quanta-mental)是指将基本面和量化结合起来做投资决策分析的研究方法。这种方法遵循基本面的价值逻辑,以各类基本面指标作为数据载体,结合对市场的价值逻辑理解,来构建相关的量化模型。传统的量化模型使用单一模型,诸如线性回归,对收集到的数据与预测的目标之间建立线性模型,然后再对目标做出预测。这种方法的缺点在于:其对于数据集的要求较高,处理的方法和依赖的模型相对单一,不同的预测技术之间未能融合,并且忽略了模型随时间的变化,也忽略了数据集与目标之间可能存在的高维联系。
因此,亟需一种改进的预测模型对行业基本面进行预测。
发明内容
本发明针对上述问题,提出一种通过融合多个机器学习模型来改进预测模型的方法和装置。
本发明的第一方面提出了一种生成行业基本面组合预测模型的方法,其特征在于,包括以下步骤:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
本发明的第二方面提出了一种有形的计算机可读存储介质,该介质包括指令,当该指令被执行时,引起计算设备至少用于:获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;对所述历史数据进行预处理;选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;利用所述训练数据集来训练多个机器学习模型;利用所述验证数据集来评估所述多个机器学习模型的预测效果;根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
本发明的第三方面提出了一种生成行业基本面组合预测模型的装置,其特征在于,包括:数据获取单元,其被配置为获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;数据预处理单元,其被配置为对所述历史数据进行预处理;数据选择单元,其被配置为选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;模型训练单元,其被配置为利用所述训练数据集来训练多个机器学习模型;以及模型预测单元,其被配置为利用所述验证数据集来评估所述多个机器学习模型的预测效果,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
上述方法、计算机可读存储介质和装置可以包括以下方面中的一个或多个:
在一个方面中,使用滚动时间窗口的方式来更新经预处理的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
在一个方面中,对所述历史数据进行预处理包括以下各项中的一项或多项:数据填充;数据补齐;数据标准化。
在一个方面中,选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
在一个方面中,在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
在一个方面中,所述多个机器学习模型包括以下各项中的一项或多项:随机森林模型;长短期记忆模型;多元线性回归模型。
在一个方面中,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重包括:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。
在一个方面中,所述组合预测模型为线性融合模型。
在一个方面中,所述多个机器学习模型作为所述线性融合模型时所对应的权重通过线性回归来确定。
在一个方面中,该指令在被执行时引起所述计算设备选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
在一个方面中,该指令在被执行时引起所述计算设备在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
在一个方面中,所述数据预处理单元被配置为使用滚动时间窗口的方式来更新经预处理的历史数据,所述模型预测单元被配置为以经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
在一个方面中,所述数据预处理单元被配置为进行包括以下各项中的一项或多项的预处理:数据填充;数据补齐;数据标准化。
在一个方面中,所述数据选择单元被配置为:选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
在一个方面中,所述模型训练单元还包括参数调整单元,所述参数调整单元被配置为:在所述模型训练单元利用所述训练数据集进行训练之后并在所述模型预测单元利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
在一个方面中,所述模型预测单元被配置为:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。
在一个方面中,所述模型预测单元被配置为:通过线性回归来确定所述多个机器学习模型作为所述线性融合模型时所对应的权重。
本发明结合产业链上下游去分析影响行业基本面的指标,然后选择适用的机器学习模型建立预测模型,最后融合不同模型之间的预测结果,从而对行业基本面进行快速而及时的预测。由于利用机器学习模型挖掘出数据集与行业基本面之间可能存在的高维关系,并且融合了多种机器学习模型,增加了预测的稳定性。另外,全部分析都可由计算机处理完成,不需要人工干预,时间效率较高。
附图说明
参考附图示出并阐明实施例。这些附图用于阐明基本原理,从而仅仅示出了对于理解基本原理必要的方面。这些附图不是按比例的。在附图中,相同的附图标记表示相似的特征。
图1为依据本发明实施例的生成行业基本面组合预测模型的方法的流程图;
图2为依据本发明实施例的生成行业基本面组合预测模型的装置的流程图。
具体实施方式
在以下优选的实施例的具体描述中,将参考构成本发明一部分的所附的附图。所附的附图通过示例的方式示出了能够实现本发明的特定的实施例。示例的实施例并不旨在穷尽根据本发明的所有实施例。可以理解,在不偏离本发明的范围的前提下,可以利用其他实施例,也可以进行结构性或者逻辑性的修改。因此,以下的具体描述并非限制性的,且本发明的范围由所附的权利要求所限定。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。对于附图中的各单元之间的连线,仅仅是为了便于说明,其表示至少连线两端的单元是相互通信的,并非旨在限制未连线的单元之间无法通信。
本发明人通过研究发现,在金融行业领域,传统上分析师花费大量的时间去调查行业数据,并基于个人经验和认知来进行分析预测,但是人工分析的准确度受分析师主观影响而无法得到保证,另一方面,对于突发数据的反应和更新速度较慢。此外,尽管当前存在一些传统量化模型来帮助分析师来处理海量的行业经济数据,但是这些传统量化模型使用相对单一的模型,不同的预测技术之间未能融合,并且忽略了模型随时间的变化,也忽略了数据集与目标之间可能存在的高维联系,使得其应用于行业基本面分析的准确性和适应性不足。
首先对本申请中用到的一些术语进行说明。行业基本面:是指产量、价格、利润一类的代表行业经济效益、反映行业景气情况的主要指标。行业基本面能够反映行业的未来发展趋势,做出经济决策。T、M表示机器学习模型的个数,除了特别说明,并不旨在将T、M限定为某一具体值。
基于上述发明构思,本发明从需求和供给两方面出发,结合产业链上下游去分析影响行业基本面的指标,利用多个机器模型进行预测并融合多个机器学习模型来改进预测模型。
图1为依据本发明实施例的生成行业基本面组合预测模型的方法的流程图。在流程图中,由虚线表示可选的步骤。该方法包括以下步骤:
步骤S101:获取与目标行业的基本面相关的历史数据,该历史数据包括目标行业的历史基本面数据、目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据。
在该步骤中,从特定的存储装置或服务器或以其它方式等获取与目标行业的基本面相关的历史数据,该历史数据是以一时间窗口上的时间序列。目标行业的历史基本面数据可以包括产量、价格、利润等。目标行业的上游和/或下游的历史基本面数据可以包括产量、价格、产能、库存、进出口等。宏观信息数据可以包括CPI(消费者物价指数)、PPI(生产者物价指数)、PMI(采购经理指数)、固定资产投资、信贷、广义货币(例如,M2等)等。
步骤S102:对历史数据进行预处理。
在该步骤中,预处理的目的至少包括:消除缺失数据的影响;使数据结构化,从而符合模型输入的需要。在一个实施方式中,对历史数据进行预处理可以包括:数据填充、数据补齐、数据标准化等。数据填充可以例如用历史数据往后填充未来的数据。例如,9月CPI为1.2%,在新数据更新前,往后填充10-12月CPI依然为1.2%。数据补齐可以例如用插值法处理来补齐历史数据中缺失的数据。例如,5月某指标为4000万吨,6月缺失,7月5000万吨,则使用线性插值法得到6月产量4500万吨。数据标准化可以包括例如最小-最大标准化、z-score标准化和按小数定标标准化等。
步骤S103:选择经预处理的历史数据的至少一部分作为训练数据集,并且选择经预处理的历史数据的至少一部分作为验证数据集,其中,训练数据集至少部分地不同于验证数据集。
步骤S104:利用训练数据集来训练T个机器学习模型。
在该步骤中,利用训练数据集,具体而言,以目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入,并以目标行业的历史基本面数据为输出,来训练T个机器学习模型g1、g2、…、gT,其中T≥2。该T个机器学习模型可以包括但不限于以下模型中的一项或多项:随机森林模型;长短期记忆模型;多元线性回归模型;等等。换句话说,该T个机器学习模型可以包括多个相同类型的模型,多个不同类型的模型,或其组合。
步骤S105:利用验证数据集来评估T个机器学习模型的预测效果。
在该步骤中,利用验证数据集,具体而言,以目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入,将通过在步骤S104得到的T个机器学习模型获得预测输出与目标行业的历史基本面数据(即,实际值)进行比较来评估多个机器学习模型的预测效果。预测效果可以包括指示预测优劣的以下各项:预测准确度、预测误差、根据预测准确度和/或预测误差等获得的参数、等等。
步骤S106:根据预测效果来确定T个机器学习模型作为组合预测模型时所对应的权重。
在该步骤中,建立一个组合预测模型即通过对每一个机器学习模型进行加权αi得到一个融合模型。组合预测模型可以包括线性融合模型和/或非线性融合模型,其中线性融合和非线性融合方式的区别在于权重是否随数据而变化。对于线性融合模型,可以采用等权重加权,即每个权重均为1/T。对于线性融合模型,也可以采用不等权重加权,其中每个权重可以通过线性回归来确定。例如,通过设定目标函数为利用线性回归来确定权重。
在步骤S106中,可选地,在一个实施方式中,可以根据预定准则来选择T个机器学习模型中的M个机器学习模型作为组合预测模型,其中2≤M≤T。在这种情况下,只需要确定M个机器学习模型作为组合预测模型时所对应的权重,也就是说,剩下的T-M个机器学习模型的权重被设定为0。这可以动态地选择具有例如较佳预测效果的M个机器学习模型作为组合预测模型,丢弃较差预测效果的T-M个机器学习模型,来实现较好的预测效果。另一方面,这可以降低在计算权重时的复杂度。该预定准则可以例如是:计算T个机器学习模型中的每个模型的输出预测值与实际值之间的误差(例如,均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分误差(MAPE)等),根据误差进行排序,选择T个模型中预测性能最好的前M个模型。M的数量可以是固定的或动态的。
该方法可以可选地包括步骤S107和S108。
步骤S107:选择经预处理的历史数据的至少一部分作为调参数据集,调参数据集至少部分地不同于训练数据集。
步骤S108:在步骤S104之后和在步骤S105之前,利用调参数据集对多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
在该步骤中,调参过程是将调参后的模型结果与调参数据集进行比较,然后根据准确度来调整参数的量级和大小。调参过程可以迭代地优化来反馈调整参数。通过对机器学习模型的参数不断调优,找出在测试数据集上,预测最为精确的该机器学习模型。例如,对于随机森林模型来说,可调整的模型参数包括:允许单个决策树使用特征的最大数量max_features、子树的数量n_estimators、最小样本叶片大小min_sample_leaf等。类似地,对于某些类型的机器学习模型,可以存在各种可调整的模型参数。
在一个实施方式中,在步骤S106获得组合预测模型后,可以根据需要每隔一段时间(例如,1个月、2个月等等)更新该组合预测模型。
在一个实施方式中,使用滚动时间窗口的方式来更新经预处理的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到在步骤S106所确定的组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
为了更好地表达本发明的构思,下面以T=5,M=3为例进行阐述。请再参考图1,在此实施例中,通过执行步骤S104,利用训练数据集来训练5个机器学习模型。可选地,通过执行步骤S108,对5个机器学习模型中的至少一个机器学习模型的模型参数进行调整。通过执行步骤S105,利用验证数据集来评估5个机器学习模型的预测效果。通过执行步骤S106,根据预测效果来确定5个机器学习模型作为组合预测模型时所对应的权重。可选地,在步骤S106,根据预定准则选择5个机器学习模型中的3个机器学习模型作为组合预测模型,并确定该3个机器学习模型作为组合预测模型时所对应的权重。例如,表1示出了5个机器学习模型,预定准则采用了对MAPE进行排序,由于MAPE越小表示预测性能越好,因此根据性能排序选择3个机器学习模型g1、g4和g5作为组合预测模型。对于其它预定准则,可以采用类似的方法来选择3个机器学习模型作为组合预测模型。在组合预测模型为线性融合模型的情况下,使用线性回归来确定每个机器学习模型所对应的权重。
表1预定准则和模型选择
机器学习模型 | 预测误差(MAPE) | 性能排序 |
g1 | 17% | 2 |
g2 | 33% | 4 |
g3 | 80% | 5 |
g4 | 23% | 3 |
g5 | 5% | 1 |
基于上述方法,本发明提出了一种生成行业基本面组合预测模型的装置。图2为依据本发明实施例的生成行业基本面组合预测模型的装置200的架构图。在架构图中,由虚线表示可选的单元。
装置200包括:数据获取单元201,其被配置为获取与目标行业的基本面相关的历史数据,该历史数据包括目标行业的历史基本面数据、目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;数据预处理单元202,其被配置为对历史数据进行预处理(如针对图1的步骤S102所描述的);数据选择单元203,其被配置为选择经预处理的历史数据的至少一部分作为训练数据集,并且选择经预处理的历史数据的至少一部分作为验证数据集,其中,训练数据集至少部分地不同于验证数据集;模型训练单元204,其被配置为利用训练数据集来训练多个机器学习模型;模型预测单元205,其被配置为利用验证数据集来评估多个机器学习模型的预测效果,根据预测效果来确定该多个机器学习模型作为组合预测模型时所对应的权重。
由此,装置200可以生成融合了多个机器学习模型的组合预测模型,并且该组合预测模型可以用来预测未来预定时间段的目标行业的基本面。
在一个实施方式中,数据选择单元203还被配置为执行如图1针对步骤S107所描述的功能。
在一个实施方式中,模型训练单元204还包括参数调整单元206,参数调整单元206被配置为执行如图1针对步骤S108所描述的功能。
在一个实施方式中,数据预处理单元202被配置为使用滚动时间窗口的方式来更新经预处理的历史数据,模型预测单元204被配置为以经更新的目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
可选地,模型预测单元205还被配置为:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重(如针对图1的步骤S106所描述的)。
可选地,模型预测单元205还被配置为:通过线性回归来确定多个机器学习模型作为线性融合模型时所对应的权重(如针对图1的步骤S106所描述的)。
图1中的方法的流程还代表机器可读指令,该机器可读指令包括由处理器执行的程序。该程序可被实体化在被存储于有形计算机可读介质的软件中,该有形计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的,图1中的示例方法中的一些步骤或所有步骤可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外,虽然图1所示的流程图描述了该方法,但可对该方法中的步骤进行修改、删除或合并。
如上所述,可利用编码指令(如计算机可读指令)来实现图1的示例过程,该编程指令存储于有形计算机可读介质上,如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质,在该存储介质上信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。如在此所用的,该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地,可利用编码指令(如计算机可读指令)实现图1的示例过程,该编码指令存储于非暂时性计算机可读介质,如硬盘,闪存,只读存储器,光盘,数字通用光盘,高速缓存器,随机访问存储器和/或任何其他存储介质,在该存储介质信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。
本发明结合产业链上下游去分析影响行业基本面的指标,由于利用机器学习模型挖掘出数据集与行业基本面之间可能存在的高维关系,从而对行业基本面进行快速而及时的预测。同时,没有采用单一机器学习模型建立最终预测模型,而是融合多个机器学习模型的预测结果,增加了预测的稳定性。另外,全部分析都可由计算机处理完成,不需要人工干预,时间效率较高。
因此,虽然参照特定的示例来描述了本发明,其中这些特定的示例仅仅旨在是示例性的,而不是对本发明进行限制,但对于本领域普通技术人员来说显而易见的是,在不脱离本发明的精神和保护范围的基础上,可以对所公开的实施例进行改变、增加或者删除。
Claims (27)
1.一种生成行业基本面组合预测模型的方法,其特征在于,包括以下步骤:
获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;
对所述历史数据进行预处理;
选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;
利用所述训练数据集来训练多个机器学习模型;
利用所述验证数据集来评估所述多个机器学习模型的预测效果;
根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
2.如权利要求1所述的方法,其特征在于,还包括:使用滚动时间窗口的方式来更新经预处理的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
3.如权利要求1所述的方法,其特征在于,对所述历史数据进行预处理包括以下各项中的一项或多项:
数据填充;
数据补齐;
数据标准化。
4.如权利要求1所述的方法,其特征在于,还包括:选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
5.如权利要求4所述的方法,其特征在于,还包括:在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
6.如权利要求1所述的方法,其特征在于,所述多个机器学习模型包括以下各项中的一项或多项:
随机森林模型;
长短期记忆模型;
多元线性回归模型。
7.如权利要求1或5所述的方法,其特征在于,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重包括:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。
8.如权利要求1所述的方法,其特征在于,所述组合预测模型为线性融合模型。
9.如权利要求8所述的方法,其特征在于,所述多个机器学习模型作为所述线性融合模型时所对应的权重通过线性回归来确定。
10.一种有形的计算机可读存储介质,该介质包括指令,该指令在被执行时引起计算设备至少用于:
获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;
对所述历史数据进行预处理;
选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;
利用所述训练数据集来训练多个机器学习模型;
利用所述验证数据集来评估所述多个机器学习模型的预测效果;
根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
11.如权利要求10所述的计算机可读存储介质,其特征在于,该指令在被执行时引起所述计算设备使用滚动时间窗口的方式来更新与目标行业的基本面相关的历史数据,并且将经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
12.如权利要求10所述的计算机可读存储介质,其特征在于,对所述历史数据进行预处理包括以下各项中的一项或多项:
数据填充;
数据补齐;
数据标准化。
13.如权利要求10所述的计算机可读存储介质,其特征在于,该指令在被执行时引起所述计算设备选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
14.如权利要求13所述的计算机可读存储介质,其特征在于,该指令在被执行时引起所述计算设备在利用所述训练数据集进行训练之后并在利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
15.如权利要求10所述的计算机可读存储介质,其特征在于,所述多个机器学习模型包括以下各项中的一项或多项:
随机森林模型;
长短期记忆模型;
多元线性回归模型。
16.如权利要求10或14所述的计算机可读存储介质,其特征在于,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重包括:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。
17.如权利要求10所述的计算机可读存储介质,其特征在于,所述组合预测模型为线性融合模型。
18.如权利要求17所述的计算机可读存储介质,其特征在于,所述多个机器学习模型作为所述线性融合模型时所对应的权重通过线性回归来确定。
19.一种生成行业基本面组合预测模型的装置,其特征在于,包括:
数据获取单元,其被配置为获取与目标行业的基本面相关的历史数据,所述历史数据包括所述目标行业的历史基本面数据、所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据;
数据预处理单元,其被配置为对所述历史数据进行预处理;
数据选择单元,其被配置为选择经预处理的历史数据的至少一部分作为训练数据集,并且选择所述经预处理的历史数据的至少一部分作为验证数据集,其中,所述训练数据集至少部分地不同于所述验证数据集;
模型训练单元,其被配置为利用所述训练数据集来训练多个机器学习模型;以及
模型预测单元,其被配置为利用所述验证数据集来评估所述多个机器学习模型的预测效果,根据所述预测效果来确定所述多个机器学习模型作为组合预测模型时所对应的权重。
20.如权利要求19所述的装置,其特征在于,所述数据预处理单元被配置为使用滚动时间窗口的方式来更新经预处理的历史数据,所述模型预测单元被配置为以经更新的所述目标行业的上游和/或下游的历史基本面数据、以及宏观信息数据输入到所述组合预测模型,以对未来预定时间段的目标行业的基本面进行预测。
21.如权利要求19所述的装置,其特征在于,所述数据预处理单元被配置为进行包括以下各项中的一项或多项的预处理:
数据填充;
数据补齐;
数据标准化。
22.如权利要求19所述的装置,其特征在于,所述数据选择单元被配置为:选择所述经预处理的历史数据的至少一部分作为调参数据集,所述调参数据集至少部分地不同于所述训练数据集。
23.如权利要求22所述的装置,其特征在于,所述模型训练单元还包括参数调整单元,所述参数调整单元被配置为:在所述模型训练单元利用所述训练数据集进行训练之后并在所述模型预测单元利用所述验证数据集进行评估之前,利用所述调参数据集对所述多个机器学习模型中的至少一个机器学习模型的模型参数进行调整。
24.如权利要求19所述的装置,其特征在于,所述多个机器学习模型包括以下各项中的一项或多项:
随机森林模型;
长短期记忆模型;
多元线性回归模型。
25.如权利要求19或23所述的方法,其特征在于,所述模型预测单元被配置为:根据预定准则来选择所述多个机器学习模型中的两个或多个机器学习模型作为所述组合预测模型,并确定所述两个或多个机器学习模型作为所述组合预测模型时所对应的权重。
26.如权利要求19所述的装置,其特征在于,所述组合预测模型为线性融合模型。
27.如权利要求26所述的装置,其特征在于,所述模型预测单元被配置为:通过线性回归来确定所述多个机器学习模型作为所述线性融合模型时所对应的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710950135.8A CN107527124A (zh) | 2017-10-13 | 2017-10-13 | 生成行业基本面组合预测模型的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710950135.8A CN107527124A (zh) | 2017-10-13 | 2017-10-13 | 生成行业基本面组合预测模型的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107527124A true CN107527124A (zh) | 2017-12-29 |
Family
ID=60685036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710950135.8A Pending CN107527124A (zh) | 2017-10-13 | 2017-10-13 | 生成行业基本面组合预测模型的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107527124A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108154444A (zh) * | 2018-01-17 | 2018-06-12 | 众安信息技术服务有限公司 | 用于运载班次分类的方法、装置及计算机可读介质 |
CN108492141A (zh) * | 2018-03-28 | 2018-09-04 | 联想(北京)有限公司 | 一种多模型融合的预测方法及装置 |
CN109522117A (zh) * | 2018-10-25 | 2019-03-26 | 深圳市圆世科技有限责任公司 | 一种面向异构环境下的链上数据调度系统 |
CN109658124A (zh) * | 2018-10-24 | 2019-04-19 | 中国平安人寿保险股份有限公司 | 基于大数据的效果预测方法、装置、介质及电子设备 |
CN109961368A (zh) * | 2019-03-18 | 2019-07-02 | 京东数字科技控股有限公司 | 基于机器学习的数据处理方法及装置 |
CN110020737A (zh) * | 2018-01-02 | 2019-07-16 | 航天信息股份有限公司 | 粮食温度预测方法与装置 |
CN110109800A (zh) * | 2019-04-10 | 2019-08-09 | 网宿科技股份有限公司 | 一种服务器集群系统的管理方法及装置 |
CN110378741A (zh) * | 2019-07-24 | 2019-10-25 | 珠海格力智能装备有限公司 | 尿素溶液的生产方法及装置,车用尿素机 |
CN110400021A (zh) * | 2019-07-31 | 2019-11-01 | 中国工商银行股份有限公司 | 银行网点现金用量预测方法及装置 |
CN110457808A (zh) * | 2019-08-02 | 2019-11-15 | 泰康保险集团股份有限公司 | 机械手设计方法、装置、介质及电子设备 |
CN110659825A (zh) * | 2019-09-23 | 2020-01-07 | 中国银行股份有限公司 | 银行网点多学习器的现钞需求量预测方法和装置 |
CN111126617A (zh) * | 2019-12-02 | 2020-05-08 | 东软集团股份有限公司 | 一种选择融合模型权重参数的方法、装置及设备 |
CN111144950A (zh) * | 2019-12-30 | 2020-05-12 | 北京顺丰同城科技有限公司 | 模型筛选方法、装置、电子设备及存储介质 |
CN111476281A (zh) * | 2020-03-27 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种信息流行度预测方法和装置 |
CN111489011A (zh) * | 2020-02-07 | 2020-08-04 | 北京鸿天宇科技有限公司 | 基于机器学习算法的经济信息处理系统 |
CN111796995A (zh) * | 2020-06-30 | 2020-10-20 | 中国工商银行股份有限公司 | 基于集成学习的循环序列号使用量预警方法及系统 |
CN111967604A (zh) * | 2019-05-20 | 2020-11-20 | 国际商业机器公司 | 针对基于文本的ai应用的数据增强 |
CN112256526A (zh) * | 2020-10-14 | 2021-01-22 | 中国银联股份有限公司 | 基于机器学习的数据实时监控方法以及装置 |
CN112801357A (zh) * | 2021-01-21 | 2021-05-14 | 长江慧控科技(武汉)有限公司 | 日照辐射量预测方法、装置、设备及存储介质 |
CN112884449A (zh) * | 2021-03-12 | 2021-06-01 | 北京乐学帮网络技术有限公司 | 用户引导方法、装置、计算机设备以及存储介质 |
CN112907267A (zh) * | 2019-12-03 | 2021-06-04 | 顺丰科技有限公司 | 货物件量预测方法、装置、计算机设备和存储介质 |
CN113348473A (zh) * | 2019-01-24 | 2021-09-03 | Abb瑞士股份有限公司 | 管理人工智能模块的安装基础 |
CN113362179A (zh) * | 2021-06-30 | 2021-09-07 | 中国农业银行股份有限公司 | 交易数据的预测方法、装置、设备、存储介质及程序产品 |
CN114071527A (zh) * | 2020-08-05 | 2022-02-18 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
CN114981825A (zh) * | 2020-12-29 | 2022-08-30 | 株式会社人利智 | 基于自动学习预测及控制时间序列数据的方法及装置 |
CN116417103A (zh) * | 2019-06-25 | 2023-07-11 | Iqvia 有限公司 | 计算机实现的方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243444A (zh) * | 2015-10-09 | 2016-01-13 | 杭州尚青科技有限公司 | 一种基于在线多核回归的城市监测站点空气质量预测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
-
2017
- 2017-10-13 CN CN201710950135.8A patent/CN107527124A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243444A (zh) * | 2015-10-09 | 2016-01-13 | 杭州尚青科技有限公司 | 一种基于在线多核回归的城市监测站点空气质量预测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020737A (zh) * | 2018-01-02 | 2019-07-16 | 航天信息股份有限公司 | 粮食温度预测方法与装置 |
CN108154444A (zh) * | 2018-01-17 | 2018-06-12 | 众安信息技术服务有限公司 | 用于运载班次分类的方法、装置及计算机可读介质 |
CN108492141A (zh) * | 2018-03-28 | 2018-09-04 | 联想(北京)有限公司 | 一种多模型融合的预测方法及装置 |
CN109658124A (zh) * | 2018-10-24 | 2019-04-19 | 中国平安人寿保险股份有限公司 | 基于大数据的效果预测方法、装置、介质及电子设备 |
CN109522117A (zh) * | 2018-10-25 | 2019-03-26 | 深圳市圆世科技有限责任公司 | 一种面向异构环境下的链上数据调度系统 |
CN113348473B (zh) * | 2019-01-24 | 2024-05-28 | Abb瑞士股份有限公司 | 管理人工智能模块的安装基础 |
CN113348473A (zh) * | 2019-01-24 | 2021-09-03 | Abb瑞士股份有限公司 | 管理人工智能模块的安装基础 |
CN109961368A (zh) * | 2019-03-18 | 2019-07-02 | 京东数字科技控股有限公司 | 基于机器学习的数据处理方法及装置 |
CN110109800A (zh) * | 2019-04-10 | 2019-08-09 | 网宿科技股份有限公司 | 一种服务器集群系统的管理方法及装置 |
CN111967604A (zh) * | 2019-05-20 | 2020-11-20 | 国际商业机器公司 | 针对基于文本的ai应用的数据增强 |
CN116417103B (zh) * | 2019-06-25 | 2023-12-29 | Iqvia 有限公司 | 计算机实现的方法和系统 |
CN116417103A (zh) * | 2019-06-25 | 2023-07-11 | Iqvia 有限公司 | 计算机实现的方法和系统 |
CN110378741A (zh) * | 2019-07-24 | 2019-10-25 | 珠海格力智能装备有限公司 | 尿素溶液的生产方法及装置,车用尿素机 |
CN110400021B (zh) * | 2019-07-31 | 2022-03-25 | 中国工商银行股份有限公司 | 银行网点现金用量预测方法及装置 |
CN110400021A (zh) * | 2019-07-31 | 2019-11-01 | 中国工商银行股份有限公司 | 银行网点现金用量预测方法及装置 |
CN110457808A (zh) * | 2019-08-02 | 2019-11-15 | 泰康保险集团股份有限公司 | 机械手设计方法、装置、介质及电子设备 |
CN110659825A (zh) * | 2019-09-23 | 2020-01-07 | 中国银行股份有限公司 | 银行网点多学习器的现钞需求量预测方法和装置 |
CN111126617B (zh) * | 2019-12-02 | 2024-03-29 | 东软集团股份有限公司 | 一种选择融合模型权重参数的方法、装置及设备 |
CN111126617A (zh) * | 2019-12-02 | 2020-05-08 | 东软集团股份有限公司 | 一种选择融合模型权重参数的方法、装置及设备 |
CN112907267A (zh) * | 2019-12-03 | 2021-06-04 | 顺丰科技有限公司 | 货物件量预测方法、装置、计算机设备和存储介质 |
CN111144950A (zh) * | 2019-12-30 | 2020-05-12 | 北京顺丰同城科技有限公司 | 模型筛选方法、装置、电子设备及存储介质 |
CN111489011A (zh) * | 2020-02-07 | 2020-08-04 | 北京鸿天宇科技有限公司 | 基于机器学习算法的经济信息处理系统 |
CN111476281A (zh) * | 2020-03-27 | 2020-07-31 | 北京微播易科技股份有限公司 | 一种信息流行度预测方法和装置 |
CN111796995A (zh) * | 2020-06-30 | 2020-10-20 | 中国工商银行股份有限公司 | 基于集成学习的循环序列号使用量预警方法及系统 |
CN111796995B (zh) * | 2020-06-30 | 2024-02-09 | 中国工商银行股份有限公司 | 基于集成学习的循环序列号使用量预警方法及系统 |
CN114071527B (zh) * | 2020-08-05 | 2024-02-06 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
CN114071527A (zh) * | 2020-08-05 | 2022-02-18 | 中国电信股份有限公司 | 基站的节能方法、装置和基站 |
TWI790726B (zh) * | 2020-10-14 | 2023-01-21 | 大陸商中國銀聯股份有限公司 | 基於機器學習的資料即時監控方法、裝置、電子設備以及存儲有電腦指令的非暫態電腦可讀存儲介質 |
WO2022078186A1 (zh) * | 2020-10-14 | 2022-04-21 | 中国银联股份有限公司 | 基于机器学习的数据实时监控方法以及装置 |
CN112256526B (zh) * | 2020-10-14 | 2024-02-23 | 中国银联股份有限公司 | 基于机器学习的数据实时监控方法以及装置 |
CN112256526A (zh) * | 2020-10-14 | 2021-01-22 | 中国银联股份有限公司 | 基于机器学习的数据实时监控方法以及装置 |
CN114981825A (zh) * | 2020-12-29 | 2022-08-30 | 株式会社人利智 | 基于自动学习预测及控制时间序列数据的方法及装置 |
CN112801357A (zh) * | 2021-01-21 | 2021-05-14 | 长江慧控科技(武汉)有限公司 | 日照辐射量预测方法、装置、设备及存储介质 |
CN112801357B (zh) * | 2021-01-21 | 2024-04-02 | 长江慧控科技(武汉)有限公司 | 日照辐射量预测方法、装置、设备及存储介质 |
CN112884449A (zh) * | 2021-03-12 | 2021-06-01 | 北京乐学帮网络技术有限公司 | 用户引导方法、装置、计算机设备以及存储介质 |
CN112884449B (zh) * | 2021-03-12 | 2024-05-14 | 北京乐学帮网络技术有限公司 | 用户引导方法、装置、计算机设备以及存储介质 |
CN113362179B (zh) * | 2021-06-30 | 2024-01-30 | 中国农业银行股份有限公司 | 交易数据的预测方法、装置、设备、存储介质及程序产品 |
CN113362179A (zh) * | 2021-06-30 | 2021-09-07 | 中国农业银行股份有限公司 | 交易数据的预测方法、装置、设备、存储介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107527124A (zh) | 生成行业基本面组合预测模型的方法和装置 | |
US20170300546A1 (en) | Method and Apparatus for Data Processing in Data Modeling | |
CN110288210B (zh) | 项目级道路基础设施综合养护决策方法及系统 | |
CN105512799A (zh) | 一种基于海量在线历史数据的电力系统暂态稳定评估方法 | |
Kathuria et al. | Is manufacturing an engine of growth in India in the post-nineties? | |
CN105302848A (zh) | 一种设备智能预警系统的评估值校准方法 | |
CN113537807B (zh) | 一种企业智慧风控方法及设备 | |
CN114048436A (zh) | 一种预测企业财务数据模型构建方法及构建装置 | |
CN109344907A (zh) | 基于改进评判标准分类算法的判别方法 | |
Hadas et al. | Dimensions for developing supply chain integration scenarios | |
CN112950262A (zh) | 销量预测方法、装置、计算机设备和存储介质 | |
CN111626844A (zh) | 基于大数据分析的企业信用评估方法及装置 | |
CN111932044A (zh) | 一种基于机器学习的钢铁产品价格预测系统和方法 | |
CN107742131A (zh) | 金融资产分类方法和装置 | |
CN111178605A (zh) | 一种基于特征选择的配网工程项目工期预测方法 | |
CN110738565A (zh) | 基于数据集合的房产金融人工智能复合风控模型 | |
CN116776006B (zh) | 用于企业融资的客户画像构建方法及系统 | |
Hallman | A comparative study on Linear Regression and Neural Networks for estimating order quantities of powder blends | |
Pavelková et al. | Passenger car sales projections: Measuring the accuracy of a sales forecasting model | |
TW202213239A (zh) | 類神經網路分析多技術指標之股價趨勢預測及交易決策輔助系統 | |
CN111612626A (zh) | 一种债券评估数据预处理方法和装置 | |
CN107886435A (zh) | 基于分级目标评价的策略生成方法、设备及存储介质 | |
Damianov | Lifecycle of innovation and life cycle of an innovative product | |
CN104680317A (zh) | 一种基于概率灰色综合评价的企业合作伙伴选择方法 | |
Vika et al. | Forecasting the Albanian Time Series with Linear and Nonlinear Univariate Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171229 |
|
WD01 | Invention patent application deemed withdrawn after publication |