CN109598614A - 一种预测股价收益率分布的代价函数计算方法 - Google Patents
一种预测股价收益率分布的代价函数计算方法 Download PDFInfo
- Publication number
- CN109598614A CN109598614A CN201811389757.9A CN201811389757A CN109598614A CN 109598614 A CN109598614 A CN 109598614A CN 201811389757 A CN201811389757 A CN 201811389757A CN 109598614 A CN109598614 A CN 109598614A
- Authority
- CN
- China
- Prior art keywords
- sample
- equal part
- cost function
- calculation method
- stock price
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 13
- 238000000034 method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000003337 fertilizer Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种预测股价收益率分布的代价函数计算方法,S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字。本发明:能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息。
Description
技术领域
本发明涉及股价收益技术领域,具体来说,涉及一种预测股价收益率分布的代价函数计算方法。
背景技术
股票收益是股票股息和因拥有股票所有权而获得的超出股票实际购买价格的收益。投资者购买股票最关心的是能获得多少收益。具体来说,就是红利和股票市价的升值部分。公司发放红利,大致有三种形式,现金红利,股份红利、财产红利。一般大多数公司都是发放现金股利的,不发放现金红利的主要是那些正在迅速成长的公司,它们为了公司的扩展。需要暂存更多的资金以适应进一步的需要,这种做法常常为投资者所接受。由于股息是股票的名义收益,而股票价格则是经常变化的,因此比较起来,股票持有者对股票价格变动带来的预期收益比对股息更为关心。
股价收益率绝大多数情况下的波动范围都很小,只是少数情况下波动会放大,因此收益率的分布具有很高的峰度,分布极不平衡,在进行回归建模进行股价预测的时候,受到大量小波动率训练样本的影响,导致训练得到的模型预测的结果也缺失波动性。
传统解决不平衡问题的方法主要有上采样和下采样两种,在分类问题中,常用的还有代价敏感损失函数的方法,下采样的方法会丢失大量的信息,上采样的方法也会有大量重复的数据,容易导致过拟合,同时,采样的方法会导致股价预测的样本变得不连续,而不具有时间序列的特征,而分类问题中的解决方法在具有连续数据类型的问题中尚不能直接拿来使用,而是需要将连续数据转化为离散化的数据,然后设计代价敏感损失函数进行建模,股价的收益率具有尖峰肥尾的特征,其分布具有严重的不平衡性,使用机器学习进行股价回归和预测时,预测结果倾向于分布在均值附近,实际波动性较小。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种预测股价收益率分布的代价函数计算方法,以克服现有相关技术所存在的上述技术问题。
本发明的技术方案是这样实现的:
一种预测股价收益率分布的代价函数计算方法,包括以下步骤:
S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;
S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;
S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;
S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字;
S109、定义损失函数的加权均方误差:其中N为样本总数,h(xi)为第i个样本的预测值;
S111、建立机器学习模型:将代价函数设置为WMSE,并且评估和训练模块;
S113、筛选模型:调整分组N的数量,重复步骤S101—步骤S111,筛选最优模块,获得模块。
进一步的,步骤所述S109中h(xi)为第i个样本的预测值需满足
进一步的,步骤所述S103中n等分为等距等分或不等距等分。
本发明的有益效果:本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种预测股价收益率分布的代价函数计算方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种预测股价收益率分布的代价函数计算方法。
如图1所示,根据本发明实施例的预测股价收益率分布的代价函数计算方法,包括以下步骤:
S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;
S103、等分区间:将步骤S101所得目标信息的分布区间,分成n等分,对应分别记为R1,R2,...,Rn;
S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;
S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字;
S109、定义损失函数的加权均方误差:其中N为样本总数,h(xi)为第i个样本的预测值;
S111、建立机器学习模型:将代价函数设置为WMSE,并且评估和训练模块;
S113、筛选模型:调整分组N的数量,重复步骤S101—步骤S111,筛选最优模块,获得模块。
借助于上述技术方案,本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。
另外,在一个实施例中,步骤所述S109中h(xi)为第i个样本的预测值需满足
另外,在一个实施例中,步骤所述S103中n等分为等距等分或不等距等分。
另外,在一个实施例中,对于上述步骤S103来说,在实际应用中,以n=10为例,即:(-10%,-8%],(-8%,-6%],(-6%,-4%],(-4%,-2%],(-2%,0%],(0%,2%],(2%,4%],(4%,6%],(6%,8%],(8%,10%];对应的R1,R2,...,Rn分别记为R1,R2,…,R10。
另外,在一个实施例中,对于上述S109中h(xi)来说,当预测第i个区间中的样本的时候,应当将该区间的误差的权重调整为和样本量最多的区间的所占的权重一致。
另外,在一个实施例中,对收益率的分布进行分组,统计各组内样本的数量,然后计算相对于数量最大的一组的比例,得到改组对应的系数,通常,改系数大于等于1。
综上所述,借助于本发明的上述技术方案,本发明并不涉及对原始特征的特别处理,仅根据原始数据的分布得到一系列的描述原始数据的统计值,能够尽可能保证原始特征的实际分布,不会因为下采样而丢失数据,也不会因为上采样而导致过拟合,相对于转化为分类的问题,保持了数据的连续性,也保留了更多的原始信息,另外,本发明数据处理和建模过程更为简单,仅需要在初级模型的基础上改变代价函数的配置即可。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种预测股价收益率分布的代价函数计算方法,其特征在于,包括以下步骤:
S101、采集数据:预先采集常规训练数据,其中,因子作为特征信息,收益率作为目标信息;
S103、等分区间:将步骤S101所得目标信息的分布区间,按区间范围分成n等分,对应分别记为R1,R2,...,Rn;
S105、样本采集:将步骤S101所得目标信息对应分配到步骤S103的n等分,并统计n等分中各区间样本的数量,分别记为N1,N2,...,Nn;
S107、确定样本:将步骤S105中所得N1,N2,...,Nn筛选出最大值NX,代入公式获取样本数字;
S109、定义损失函数的加权均方误差:其中N为样本总数,h(xi)为第i个样本的预测值;
S111、建立机器学习模型:将代价函数设置为WMSE,并且评估和训练模块;
S113、筛选模型:调整分组N的数量或区间,重复步骤S101—步骤S111,筛选最优模块,获得模块。
2.根据权利要求1所述的预测股价收益率分布的代价函数计算方法,其特征在于,步骤所述S109中h(xi)为第i个样本的预测值需满足
3.根据权利要求1所述的预测股价收益率分布的代价函数计算方法,其特征在于,步骤所述S103中n等分为等距等分或不等距等分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811389757.9A CN109598614A (zh) | 2018-11-21 | 2018-11-21 | 一种预测股价收益率分布的代价函数计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811389757.9A CN109598614A (zh) | 2018-11-21 | 2018-11-21 | 一种预测股价收益率分布的代价函数计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109598614A true CN109598614A (zh) | 2019-04-09 |
Family
ID=65960268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811389757.9A Pending CN109598614A (zh) | 2018-11-21 | 2018-11-21 | 一种预测股价收益率分布的代价函数计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598614A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287520A (zh) * | 2019-05-15 | 2019-09-27 | 重庆创速工业技术研究院有限公司 | 一种冲孔元素自动识别方法 |
-
2018
- 2018-11-21 CN CN201811389757.9A patent/CN109598614A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287520A (zh) * | 2019-05-15 | 2019-09-27 | 重庆创速工业技术研究院有限公司 | 一种冲孔元素自动识别方法 |
CN110287520B (zh) * | 2019-05-15 | 2023-08-04 | 成都数模码科技有限公司 | 一种冲孔元素自动识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Athukorala | Asian trade flows: Trends, patterns and prospects | |
CN109840637A (zh) | 现金需求量预测方法、装置和设备 | |
CN111815348B (zh) | 一种基于各门店商品相似度聚类的区域商品生产计划方法 | |
CN109784779A (zh) | 财务风险预测方法、装置及存储介质 | |
Jain et al. | A taxonomy for evaluation and comparison of financial performance of Indian IT companies | |
CN109598614A (zh) | 一种预测股价收益率分布的代价函数计算方法 | |
Chen et al. | Analyzing the co-movement and its spatial–temporal patterns in Chinese stock market | |
Fuller-Love et al. | Deliberate versus emergent strategies: a case study of information technology in the Post Office | |
Cao et al. | Vegetation response to urban landscape spatial pattern change in the Yangtze River Delta, China | |
US20110106728A1 (en) | Census investing and indices | |
Siegloch et al. | Spillover, efficiency and equity effects of regional firm subsidies | |
CN109767333A (zh) | 选基方法、装置、电子设备及计算机可读存储介质 | |
Aum et al. | Industrial and occupational employment changes during the Great Recession | |
CN107392679A (zh) | 一种知识产权价值分析认定的数据处理方法、装置及系统 | |
CN110210985A (zh) | 基本医保政策调整对基金支出影响的量化方法及系统 | |
Lemeshko et al. | Modeling the size of the mutual fund industry in countries of Central and Eastern Europe | |
Madahi et al. | What's favoring the expansion of new built-up areas? The correlation between transportation infrastructure and land development in Spain from 2006 to 2018 | |
Febrian et al. | Market response to the composition change of Islamic index: evidence from Indonesia | |
CN109376930A (zh) | 一种采用现金流折现法对专利资产进行估值的方法 | |
CN109272235A (zh) | 一种高速公路项目评估系统 | |
Вовчак et al. | DIGITAL IMPERATIVES FOR THE DEVELOPMENT OF THE FINANCIAL MARKET OF THE NATIONAL AND WORLD VECTOR | |
Almusehel et al. | Economic stability in the GCC Countries | |
Sen | Analysing international trade data in a small open economy: The case of Singapore | |
Kaul et al. | New information technology applications for local development in Asian and pacific countries | |
Roncevic et al. | The impact of financial crisis on the performance of large Croatian bank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190409 |
|
RJ01 | Rejection of invention patent application after publication |