CN104123668A - 基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 - Google Patents
基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 Download PDFInfo
- Publication number
- CN104123668A CN104123668A CN201410122235.8A CN201410122235A CN104123668A CN 104123668 A CN104123668 A CN 104123668A CN 201410122235 A CN201410122235 A CN 201410122235A CN 104123668 A CN104123668 A CN 104123668A
- Authority
- CN
- China
- Prior art keywords
- data
- criterion
- mean value
- standard deviation
- mass data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明提供一种基于标准量化参数动态筛选数据的方法,这种方法充分考虑和应用了数据数量化、动态化以及符合统计学概率分布的特点,能够从海量量化数据中筛选出符合标准量化参数筛选条件的数据。这种方法最为直接的应用就在金融证券领域,本发明进而公开了应用基于标准量化参数动态选择股票组合的方法以及选择期货品种的方法。本发明方法应用于金融证券领域避免了静态数值筛选数据的僵化,能够显著提高了决策的效果。
Description
技术领域
本发明涉及筛选数据的方法,尤其是一种基于标准量化参数动态筛选数据的方法,这种方法在金融证券领域能够被广泛的应用。
背景技术
人类进入“大数据”时代,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。数据分析和数据挖掘被深入的研究并取得广泛应用的领域。所谓数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用;数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。基于长期对大数据的应用,尤其是对金融证券领域数据的研究和应用发现,金融数据尤其是股票、期货等证券数据其具有三个显著的共性:一是数量化;二是数量化数据动态化;二是数量化数据符合统计学的概率分布。尽管对金融数据三个共性并不陌生,但是直接应用上述数据共性,系统化成为海量数据筛选方法指导并提供决策,这是个空白。以最为常见利用数量化数据选择股票为例,现有系统的操作是通过外部设置参数或阀值,直接从海量的数据中筛选标的股票,这种方法仅仅关注和应用了数据数量化的特点,而忽视了数据动态性以及符合统计学概率分布的特点,实际效果并不理想。
发明内容
本发明提供一种基于标准量化参数动态筛选数据的方法,这种方法充分考虑和应用了数据数量化、动态化以及符合统计学概率分布的特点,能够将从海量量化数据中筛选出符合标准量化参数筛选条件的数据。这种方法最为直接的应用就是金融证券领域,本发明还公开了应用基于标准量化参数动态选择股票组合的方法以及选择期货品种的方法。
为达到上述目的,本发明应用于在海量数据中量化分析筛选符合决策条件数据集合用于决策,其步骤包括:
(1)通过数据接收端接收数据源提供的海量数据;
(2)预处理海量数据,提取海量数据中的量化数据,编制整理形成量化数据仓库;
(3)形成标准量化参数作为筛选数据的筛选条件:选取量化数据中的一类数据,作为一个样本空间,根据概率分布计算样本空间中这类数据的标准差,然后计算样本空间标准差的倍数,以此数值与平均值之间形成的偏离数量关系作为筛选条件;
(4)利用步骤(3)形成的筛选条件,在样本空间中筛选出符合条件的数据集合并保存;
(5)循环步骤(3),选择量化数据中与上一次相异的另一类数据,计算形成另一标准量化参数,进而循环步骤(4)形成另一组数据集合;
(6)当根据步骤(3)至(5)形成至少一组数据集合后,将各组集合做交/并集合运算形成符合最终筛选条件的决策集合;
(7)输出决策集合,提供最后决策根据。
步骤(2)和步骤(3)之间可以通过外部设置参数对量化数据仓库的数据进行预筛选。
步骤(3)形成的标准量化参数表述三种形式:<1>大于平均值偏离标准差N倍;<2>小于平均值偏离标准差N倍;<3>介于平均值偏离标准差-N倍至-M倍之间或介于平均值偏离标准差+N倍至-M倍之间或介于平均值偏离标准差+N倍至+M倍之间。
倍数N和M在步骤(3)和步骤(4)之间通过外部预设赋值,倍数N和M为绝对值,正负号在于定义偏离是位于平均值的左侧或是右侧。通常的定义是正号表示偏离在平均值的右侧,负号表示偏离在平均值得左侧。
本发明方法中最大的特点在于标准量化参数并不对应于特定类型数值,大量自然量化数据,符合统计学概率分布特点的就能够被应用。通过计算样本空间数据平均值以及标准差,再根据外部设定倍数,计算出倍数与标准差的乘积即为偏离量,倍数、标准差、平均值、偏离量并不具有特定性和指向性,因此这种方法具有广泛的应用空间。这一特点对于海量的数量化数据数据分析和数据挖掘具有重要的现实意义。本发明所披露的方法尤其针对金融证券数据公开两种应用一种标准量化参数动态选择股票组合的方法以及一种标准量化参数动态选择期货品种的方法,这两种应用因为目的的不同,标准量化参数形成上存在显著区别:一种标准量化参数动态选择股票组合的方法,标准量化参数采用介于平均值偏离标准差-N倍至-M倍之间或介于平均值偏离标准差+N倍至-M倍之间或介于平均值偏离标准差+N倍至+M倍之间的形式;一种标准量化参数动态选择期货品种的方法,标准量化参数采用大于平均值偏离标准差N倍或小于平均值偏离标准差N倍的形式。
本发明方法应用于金融证券领域兼顾了量化数据动态变化性以及符合统计学概率分布的特点,避免了静态数值筛选数据的僵化,能够显著提高了决策的效果。
附图说明
图1为本发明方法步骤流程图;
图2为本发明方法在选择股票品种方面样本空间正态分布时的应用图表一;
图3为本发明方法在选择股票品种方面样本空间正态分布时的应用图表二;
图4为本发明方法在选择股票品种方面样本空间正态分布时的应用图表三;
图5为本发明方法在选择期货品种方面样本空间正态分布时的应用图表一;
图6为本发明方法在选择期货品种方面样本空间正态分布时的应用图表二。
具体实施方式
结合附图和应用实施例对本发明进一步说明。
如图1所示,本发明方法有如下步骤:
(1)通过数据接收端接收数据源提供的海量数据;
(2)预处理海量数据,提取海量数据中的量化数据,编制整理形成量化数据仓库;
(3)形成标准量化参数作为筛选数据的筛选条件:选取量化数据中的一类数据,作为一个样本空间,根据概率分布计算样本空间中这类数据的标准差,然后计算样本空间标准差的倍数,以此数值与平均值之间形成的偏离数量关系作为筛选条件;
(4)利用步骤(3)形成的筛选条件,在样本空间中筛选出符合条件的数据集合并保存;
(5)循环步骤(3),选择量化数据中与上一次相异的另一类数据,计算形成另一标准量化参数,进而循环步骤(4)形成另一组数据集合;
(6)当根据步骤(3)至(5)形成至少一组数据集合后,将各组集合做集合运算形成符合最终筛选条件的决策集合;
(7)输出决策集合,提供最后决策根据。
其中,步骤(2)和步骤(3)之间可以通过外部设置参数对量化数据仓库的数据进行预筛选。这个步骤给本方法进一步提供了灵活性。
步骤(3)形成的标准量化参数表述三种形式:<1>大于平均值偏离标准差N倍;<2>小于平均值偏离标准差N倍;<3>介于平均值偏离标准差-N倍至-M倍之间或介于平均值偏离标准差+N倍至-M倍之间或介于平均值偏离标准差+N倍至+M倍之间。
倍数N和M在步骤(3)和步骤(4)之间通过外部预设赋值,倍数N和M为绝对值,正负号在于定义偏离位于平均值的左侧或右侧。通常的定义是正号表示偏离在平均值的右侧,负号表示偏离在平均值得左侧。倍数与标准差的乘积即为偏离量,倍数、标准差、平均值、偏离量均不具有特定性和指向性,因此这种方法具有广泛的应用空间。这一特点对于海量的数量化数据数据分析和数据挖掘具有重要的现实意义。
图2至图4揭示了基于标准量化参数动态筛选数据的方法在选择股票组合方面的应用。在选择股票组合时,对于股票数据应有一些普遍认识:股票数据,如股票价格、股票数量、流通数量、市盈率、市净率、市销率、净资本回报率、负债率等等都是量化或可量化的,这些数据是动态变化的,是可以统计并符合某种统计学概率分布的。在这些认识的前提下,可以应用基于标准量化参数动态筛选数据的方法实现对股票的选择决策或是其他的数据挖掘决策。
由于股票交易的特点,选取股票时通常采用区间的筛选条件以选择符合相同条件趋向性的股票,譬如对于整个市场而言估值较低的股票可能需要满足市盈率低,净资本回报率高等条件,股价适中等条件。这些条件如果仅通过静态数值条件设定筛选意义并不大,而通过标准量化参数动态筛选则具有指导意义。
图示中假定数据均符合正态分布的,根据正态分布的计算公式。
将样本空间的数据变换形成不具有特定性、指向性的量化分布数据。
计算出平均值,根据标准差计算公式。
计算该类数据的标准差,根据输入的倍数N、M,计算出偏离量,根据偏离量与平均值在正态分布的量化比较形成相同条件趋向性样本区间,这一区间的集合对应于满足条件的股票集合。
描述的步骤在正态分布图示中的根据筛选条件的,形成图2、图3、图4所表示三种形式:图1表示数据集合介于平均值左侧偏离标准差1倍至1.5倍之间;图2表示数据集合介于平均值右侧偏离标准差1倍至1.5倍之间;图3表示数据集合介于平均值左侧偏离标准差1倍至平均值右侧偏离标准差1倍之间。用于决策的股票集合为经筛选股票集合做交集或并集运算后结果。
图5、图6基于标准量化参数动态筛选数据的方法在选择期货品种方面的应用。与选择股票组合一致的,期货数据也具有相同的共性,但对于期货交易而言,需要选择的是趋向性相反的品种进行交易,譬如期货价格偏离历史平均价格、现货价格平均价格很多。根据筛选条件,形成图5、图6所表示两种形式:图5表示数据集合小于平均值偏离标准差N倍;图6表示大于平均值偏离标准差N倍。
本发明方法应用于金融证券领域兼顾了量化数据动态变化性以及符合统计学概率分布的特点,避免了静态数值筛选的僵化,能够显著提高了决策的效果。
Claims (6)
1.基于标准量化参数动态筛选海量数据的方法,应用于在海量数据中量化分析筛选符合决策条件数据集合,其步骤包括:
(1)通过数据接收端接收数据源提供的海量数据;
(2)预处理海量数据,提取海量数据中的量化数据,编制整理形成量化数据仓库;
(3)形成标准量化参数作为筛选数据的筛选条件:选取量化数据中的一类数据,作为一个样本空间,根据概率分布计算样本空间中这类数据的标准差,然后计算样本空间标准差的倍数,以此数值与平均值之间形成的偏离数量关系作为筛选条件;
(4)利用步骤(3)形成的筛选条件,在样本空间中筛选出符合条件的数据集合并保存;
(5)循环步骤(3),选择量化数据中与上一次相异的另一类数据,计算形成另一标准量化参数,进而循环步骤(4)形成另一组数据集合;
(6)当根据步骤(3)至(5)形成至少一组数据集合后,将各组集合做交/并集合运算形成符合最终筛选条件的决策集合;
(7)输出决策集合,提供最后决策根据。
2.根据权利要求1所述基于标准量化参数动态筛选海量数据的方法,其特征在于,所述步骤(2)和步骤(3)之间可以通过外部设置参数对量化数据仓库的数据进行预筛选。
3.根据权利要求1或2所述基于标准量化参数动态筛选海量数据的方法,其特征在于,所述步骤(3)形成的标准量化参数表述三种形式:<1>大于平均值偏离标准差N倍;<2>小于平均值偏离标准差N倍;<3>介于平均值偏离标准差-N倍至-M倍之间或介于平均值偏离标准差+N倍至-M倍之间或介于平均值偏离标准差+N倍至+M倍之间。
4.根据权利要求3所述基于标准量化参数动态筛选海量数据的方法,其特征在于,所述倍数N和M在步骤(3)和步骤(4)之间通过外部预设赋值,所述倍数N和M为绝对值,正负号在于定义偏离是位于平均值的左侧或是右侧。
5.一种标准量化参数动态选择股票组合的方法,应用了权利要求4所述基于标准量化参数动态筛选海量数据的方法,其特征在于,所述标准量化参数采用介于平均值偏离标准差-N倍至-M倍之间或介于平均值偏离标准差+N倍至-M倍之间或介于平均值偏离标准差+N倍至+M倍之间的形式。
6.一种标准量化参数动态选择期货品种的方法,应用了权利要求4所述基于标准量化参数动态筛选海量数据的方法,其特征在于,所述标准量化参数采用大于平均值偏离标准差N倍或小于平均值偏离标准差N倍的形式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410122235.8A CN104123668A (zh) | 2014-03-30 | 2014-03-30 | 基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410122235.8A CN104123668A (zh) | 2014-03-30 | 2014-03-30 | 基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104123668A true CN104123668A (zh) | 2014-10-29 |
Family
ID=51769068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410122235.8A Pending CN104123668A (zh) | 2014-03-30 | 2014-03-30 | 基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104123668A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636318A (zh) * | 2015-02-15 | 2015-05-20 | 杭州邦盛金融信息技术有限公司 | 一种大数据方差标准差的分布式或增量计算方法 |
CN108304525A (zh) * | 2018-01-25 | 2018-07-20 | 阿里巴巴集团控股有限公司 | 一种条件数据的确定方法及装置 |
CN110570306A (zh) * | 2019-09-06 | 2019-12-13 | 广州快盈信息技术服务有限公司 | 基于标签的数据监测方法、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080048610A (ko) * | 2006-11-29 | 2008-06-03 | 조재문 | 런 확률을 이용한 주가방향과 변동예측방법 및 시스템 |
CN101976305A (zh) * | 2010-10-25 | 2011-02-16 | 北京航空航天大学 | 一种基于概率统计的旅行时间筛选方法 |
CN103218744A (zh) * | 2012-07-20 | 2013-07-24 | 上海大智慧股份有限公司 | 一种基于swot模型的行业投资信息及数据处理系统 |
CN103258427A (zh) * | 2013-04-24 | 2013-08-21 | 北京工业大学 | 基于信息物理网络的城市快速路交通实时监控系统与方法 |
-
2014
- 2014-03-30 CN CN201410122235.8A patent/CN104123668A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080048610A (ko) * | 2006-11-29 | 2008-06-03 | 조재문 | 런 확률을 이용한 주가방향과 변동예측방법 및 시스템 |
CN101976305A (zh) * | 2010-10-25 | 2011-02-16 | 北京航空航天大学 | 一种基于概率统计的旅行时间筛选方法 |
CN103218744A (zh) * | 2012-07-20 | 2013-07-24 | 上海大智慧股份有限公司 | 一种基于swot模型的行业投资信息及数据处理系统 |
CN103258427A (zh) * | 2013-04-24 | 2013-08-21 | 北京工业大学 | 基于信息物理网络的城市快速路交通实时监控系统与方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636318A (zh) * | 2015-02-15 | 2015-05-20 | 杭州邦盛金融信息技术有限公司 | 一种大数据方差标准差的分布式或增量计算方法 |
CN104636318B (zh) * | 2015-02-15 | 2017-07-14 | 浙江邦盛科技有限公司 | 一种大数据方差标准差的分布式或增量计算方法 |
CN108304525A (zh) * | 2018-01-25 | 2018-07-20 | 阿里巴巴集团控股有限公司 | 一种条件数据的确定方法及装置 |
CN110570306A (zh) * | 2019-09-06 | 2019-12-13 | 广州快盈信息技术服务有限公司 | 基于标签的数据监测方法、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ortas et al. | National institutions, stakeholder engagement, and firms' environmental, social, and governance performance | |
Bobryshev et al. | The concept of management accounting in crisis conditions | |
Obiechina¹ et al. | Economic Growth, Capital Flows, Foreign Exchange Rate, Export and Trade Openness in Nigeria1 | |
Kanayo et al. | Foreign private capital, economic growth and macroeconomic indicators in Nigeria: An empirical framework | |
Indrawan et al. | Sectoral Analysis on The Impact of Islamic Banks on The Malaysian Economy | |
Abduh | The susceptibility of Islamic banks' credit risk towards macroeconomic variables | |
CN104123668A (zh) | 基于标准量化参数动态筛选海量数据的方法及其在金融证券领域的应用 | |
Gajdosikova et al. | The impact of firm size on corporate indebtedness: a case study of Slovak enterprises | |
Fonseca et al. | The investment development path hypothesis: evidence from the portuguese case-a panel data analysis | |
Riyath | Toda and Yamamoto causality test between US $ exchange rates and stock market prices in Sri Lanka | |
Li et al. | A case study on loan loss analysis of a community bank | |
Baby et al. | Determinants of foreign direct investment inflows in India | |
Ranjbar et al. | Income Convergence in A frican Countries: Evidence from a Stationary Test With Multiple Structural Breaks | |
Bashiri et al. | Real Option Valuation Using Simulation and Exercise Boundary Fitting—Extended Abstract | |
Niknya et al. | Financial distress prediction of Tehran Stock Exchange companies using support vector machine | |
Iwada et al. | Modeling Volatility in Selected Nigerian Stock Market | |
CA3025187A1 (en) | Systems and methods for generating industry outlook scores | |
Toby et al. | Corporate Tax and Firm Value Under M &M Proposition II | |
Guo | Review of research on markowitz model in portfolios | |
Cruz et al. | Credit risk and performance evaluation of cooperatives in region xi using data envelopment analyses (DEA) | |
Jednak | Emerging economies development: Brics vs East European countries | |
Thach et al. | A Bayesian MCMC Algorithm with Cauchy Priors for Small Sample Modeling Financial Distress in Covid-19 Times | |
US11263338B2 (en) | Data security maintenance method for data analysis application | |
Jargalsaikhan et al. | An Analysis of Foreign Direct Investment Flows into Mongolia | |
Miyata et al. | Computable general equilibrium models for economic and environmental policies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141029 |
|
WD01 | Invention patent application deemed withdrawn after publication |