CN115545790B - 价格数据预测方法、装置、电子设备及存储介质 - Google Patents
价格数据预测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115545790B CN115545790B CN202211288270.8A CN202211288270A CN115545790B CN 115545790 B CN115545790 B CN 115545790B CN 202211288270 A CN202211288270 A CN 202211288270A CN 115545790 B CN115545790 B CN 115545790B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- price
- distribution
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0206—Price or cost determination based on market factors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种价格数据预测方法、装置、电子设备及存储介质,可以为大量金融资产和各种不同的应用大规模生产合成特定时间长度的价格数据。且在每种情况下,都可以产生内部一致的价格序列。另外,能够产生一系列与真实金融市场价格相对应的合成价格数据,适用性强。并且生成的数据具有高保真性,合成时间序列中的收益分布与历史数据紧密匹配,偏离理想的高斯分布且具有描述极端事件的“肥尾”分布。同时生成的时间序列具有长记忆效应的能力,在收益过程中能够模拟GARCH效应。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种价格数据预测方法、装置、电子设备及存储介质。
背景技术
目前,我们对于金融市场中的市场变量在风险中性世界中表现的了解,常常远多过对它们在真实世界中表现的了解。分析人员通常可以通过期权或其他衍生品的价格,隐含地计算出市场变量在风险中性世界中的表现。但是,在真实世界中不存在这类隐含计算的方法。市场风险管理者有时不得不假设市场变量在真实世界中的表现和它们在风险中性世界中的表现是一样的。但是这种假设是不能让人满意的。因此,如何对真实世界中金融资产价格进行准确估计成为当前亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种价格数据预测方法、装置、电子设备及存储介质,以解决上述技术问题。
本申请提供的价格数据预测方法,包括:
获取金融产品的原始价格相关数据;
确定待预测的价格数据所对应的时间长度;
根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据。
进一步地,在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在下一时间长度范围内的价格数据之前,所述方法还包括:
对所述原始价格相关数据进行采样得到采样数据;
对所述采样数据进行预处理得到样本数据;
利用所述样本数据和神经网络模型进行训练得到数据预测模型。
进一步地,在所述对所述原始价格相关数据进行采样得到采样数据之前,所述方法还包括:
根据所述原始价格相关数据确定元数据信息;所述元数据信息包括数据属性信息、数据溯源信息以及数据处理信息中的至少一种;
根据所述元数据信息确定预设的模型库中不存在与所述元数据信息匹配的数据预测模型。
进一步地,所述对所述采样数据进行预处理得到样本数据,包括
对所述采样数据进行数据清洗得到清洗后的数据;
对所述清洗后的数据进行数据集成得到集成后的数据;
对所述集成后的数据进行数据转换处理得到样本数据。
进一步地,在所述利用所述样本数据和神经网络模型进行训练得到数据预测模型之后,所述方法还包括:
对所述数据预测模型进行质检,并确定质检合格。
进一步地,在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据之后,所述方法还包括:
对所述价格数据的数据质量指标进行评价,并输出评价结果。
进一步地,所述数据质量指标包括以下指标中的至少一种:
厚尾分布、分布峰度、分布偏度、自相关性、偏自相关性、波动率聚集、杠杆效应、粗细波动率、盈亏不对称性、长时程相关性、序列相似性、合成路径相关性、方差比率检验以及合成数据的综合预测评分。
进一步地,本申请还提供一种价格数据预测装置,包括:
获取模块,用于获取金融产品的原始价格相关数据;
确定模块,用于确定待预测的价格数据所对应的时间长度;
预测模块,用于根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据。
进一步地,本申请还提供一种电子设备,包括:处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任一所述方法。
进一步地,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任一所述方法。
通过本申请提供的价格数据预测方法、装置、电子设备及存储介质,可以为大量金融资产和各种不同的应用大规模生产合成特定时间长度的价格数据。另外,能够产生一系列与真实金融市场价格相对应的合成价格数据,适用性强。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的价格数据预测方法的流程示意图;
图2为本申请实施例提供的进行模型训练的流程示意图;
图3为本申请实施例提供的对数据进行预处理的流程示意图;
图4为本申请实施例提供的对数据进行预处理的流程框图;
图5为本申请实施例提供的生成价格数据的流程框图;
图6为本申请实施例提供的QEGAN模型的示意图;
图7为本申请实施例提供的价格数据预测装置的结构示意图;
图8为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不表示执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面,通过具体实施例对本申请的技术方案进行详细说明。
需要说明的是,下面的具体实施例可以互相结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
本申请实施例提供一种价格数据预测方法,可以应用于电子设备,电子设备包括但不限于是PC(Personal Computer,个人电脑)、手机、平板电脑、笔记本电脑等。
本申请实施例提供的价格数据预测方法请参见图1所示,包括:
S11:获取金融产品的原始价格相关数据。
应当说明的是,本申请实施例中的金融产品可以是任意的金融产品,比如可以是股票、期货、期权、外汇、衍生品等产品。
步骤S11中的原始价格相关数据包括任意可以影响金融产品价格的数据,包括但不限于金融产品的历史价格数据、其他市场行情数据等。
S12:确定待预测的价格数据所对应的时间长度。
在步骤S12中,电子设备可以接收由用户下发的时间长度。也即,用户可以自行选择时间长度,比如可以选择1年、1个月等,对应的表示需要预测该金融产品在未来1年内、或1个月内的价格数据。
S13:根据原始价格相关数据、时间长度以及预设的数据预测模型,预测金融产品在该时间长度的范围内的价格数据。
具体而言,在步骤S13中,可以将原始价格相关数据以及时间长度输入预设的数据预测模型,该模型即可输出该金融产品在该金融产品在该时间长度范围内的价格数据。
在一种实施方式中,数据预测模型可以是预先就训练好的模型。
在另外一种实施方式中,可以基于原始价格相关数据进行模型训练,从而得到数据预测模型。具体的,可以参见图2所示,在步骤S13之前,可以包括以下步骤:
S21:对原始价格相关数据进行采样得到采样数据。
S22:对采样数据进行预处理得到样本数据。
S23:利用样本数据和神经网络模型进行训练得到数据预测模型。
在一些实施方式中,在步骤S21之前,还可以根据原始价格相关数据确定元数据信息;然后在根据元数据信息确定预设的模型库中不存在与该元数据信息匹配的数据预测模型时,再基于原始价格相关数据进行模型训练。
本申请实施例中的元数据信息包括但不限于数据属性信息、数据溯源信息以及数据处理信息中的至少一种。可以理解的是,可以从原始价格相关数据中提取出元数据信息。
数据属性信息可以是金融产品的资产信息、类型信息、价格更新频率信息等;数据溯源信息可以是金融产品的数据来源信息、数据指纹信息等;数据处理信息可以是数据转换标记信息、数据日志信息等。
应当说明的是,电子设备中可以预先存储数据预测模型和元数据信息的对应关系,也即预先建立部分关键元数据值与模型的对应关系,当根据元数据信息匹配出对应的数据预测模型,则可以直接使用该数据预测模型进行价格预测,否则,利用原始价格相关数据进行模型训练,得到对应的数据预测模型之后再进行价格预测。
请参见图3所示,步骤S22可以包括如下子步骤:
S221:对采样数据进行数据清洗得到清洗后的数据。
S222:对清洗后的数据进行数据集成得到集成后的数据。
S223:对集成后的数据进行数据转换处理得到样本数据。
步骤S221中的数据清洗作为数据预处理的一部分,可以通过填充缺失值、平滑噪声数据、解决不一致和去除异常值来清洗数据。
填充缺失值是指忽略或差值补全。平滑噪声数据是指消除测量变量中的随机误差或方差,可以通过装箱、回归、聚类等方法解决。去除异常值是指可以通过聚类技术将相似的数据点组合在一起,去除位于集群之外的异常值或不一致的数据。
步骤S222中的数据集成用于将多个来源中的数据合并到一个更大的数据存储中。数据集成主要但不限于解决以下几个问题:模式集成、对象匹配、从所有数据源中删除冗余属性、检测和解决数据值冲突。
步骤S223中对集成后的数据进行数据转换处理包括:
根据预设的数据转换策略更改集成后的数据的值、结构或格式,或者将数据合并为替代的形式。
这里的数据转换策略包括但不限于以下策略:
正常化策略:数字属性按比例放大或缩小以适应指定范围;
属性选择策略:从现有属性中创建数据的新属性,以辅助后续进行数据挖掘;
聚合策略:以摘要格式存储和呈现数据。
在一些实施例中,经上述数据转换处理后的数据组成的数据集的大小可能由于太大,而无法进行数据分析和数据挖掘算法处理,此时还可以对数据进行简化处理,简化处理后的数据集大小可以变小,并且可以产生相同质量的分析结果。
本申请实施例中对数据进行简化处理的方式包括但不限于以下简化处理方式中的至少一种:
数据立方体聚合:它是一种数据缩减方式,其中收集到的数据以摘要形式表示。
降维:降维技术用于执行特征提取。 数据集的维度是指数据的属性或单个特征。
数据压缩:通过使用编码技术,数据的大小可以显著减小。
离散化:数据离散化用于将连续性质的属性划分为具有区间的数据。
数量减少:数据可以表示为模型或方程,如回归模型。这将节省存储大量数据集而不是模型的负担。
属性子集选择:在选择属性时要具体是非常重要的。 否则,可能会导致高维数据,由于欠拟合/过拟合问题而难以训练。 只应考虑对模型训练增加更多价值的属性,其余的都可以丢弃。
请参见图4所示,在一些实施例中,可以在确定采样数据的质量评估结果满足要求时,再对该采样数据进行预处理。
本申请实施例中,可以从以下方面对采样数据的数量质量进行评估:
没有缺失属性值的完整性、信息方面的准确性和可靠性、所有功能的一致性、数据的有效性、数据不包含冗余信息。
本申请实施例中,在步骤S23之后,还可以对数据预测模型进行质检,并确定质检合格。也即,可以在确定模型质检合格之后,再利用该模型进行价格数据的预测。
本申请实施例中,在预测得到金融产品在时间长度的范围内的价格数据之后,还可以对该价格数据的数据质量指标进行评价,并输出评价结果。
本申请实施例中生成合成数据,也即价格数据的流程框图可以参见图5所示。
模型匹配器:根据元数据信息,在预设的模型库中匹配可用的模型,若存在与元数据信息相匹配的数据预测模型,则直接利用该数据预测模型预测价格数据,否则,进行模型训练。
模型训练器:基于样本数据进行机器学习模型训练得到数据预测模型。
调参器:若模型训练质检不合格,也即确定经训练得到的数据预测模型质检不合格时,则进行模型参数调整。此时可以自动调整模型参数,也可以人工进行参数调整。
合成数据生成器:若有匹配模型,或数据预测模型通过质检,则基于该数据预测模型生成合成数据,也即生成价格数据。
模型质检器:对数据预测模型进行质量监控与评估,若合格则将模型存入模型算法集并进入合成数据生成步骤,若不合格则启动调参器进行调参。
合成数据评价:对生成的合成数据进行评价并输出评价数据。
下面对图5中的各模块进行具体说明。
模型训练器在基于样本数据进行机器学习模型训练得到数据预测模型的过程中,可以基于生成对抗网络GAN及其变形WGAN-GP、SinGAN、QEGAN、SigGAN、Diffusion Model等进行模型训练。
GAN不是从训练样本中复制、模仿的简单方式,也不是将多个训练数据糅合、平均,而是深度地学习到了训练数据内在的统计规律。
通过本申请实施例中的数据预测模型,可以生成包括但不限于股票、期货、期权、外汇、衍生品等金融产品的价格数据。可以是多资产(满足相关性特征)、多指标(满足强约束)、生成任意窗口长度时间序列的价格数据。
基于神经网络的生成式对抗网络模型,提供生成合成数据的不同思路。GAN模型框架中通常有两个模块:生成模型(Generative Model)和判别模型(DiscriminativeModel);生成模型负责对随机噪声进行处理,模拟出与真实训练样本类似的假数据;判别器则负责鉴别出训练样本中由生成器生成的假数据;两个模型相互博弈、学习,最终生成器生成的假数据将足以以假乱真,因此可将该数据作为未来的价格数据。
为便于理解,这里对具体应用场景下模型的训练过程进行介绍。
针对股票数据的相关性特征,建立了一套能生成特定相关性数据的合成方法QEGAN。假设需要生成三只股票数据,这三只股票的原始真实数据分别为x0、x1、x2,对应合成的数据分别为y0、y1、y2,要求y0、y1、y2满足和x0、x1、x2一样的的相关性特征。首先计算真实数据的协方差矩阵A,并对A进行Cholesky分解得到矩阵B,然后利用矩阵B对真实数据样本进行线性变换,依次训练三个GAN模型(GAN0、GAN1、GAN2),三个GAN模型输出的合成数据(g0、g1、g2)再次经过B矩阵的线性变换后,得到新的合成数据y0、y1、y2的协方差矩阵就近似于A。QEGAN模型的示意图可以参见图6所示。
Diffusion Model 是通过定义一个扩散步骤,慢慢的将随机噪声添加到数据中,然后学习反向扩散过程的模型。模型中定义了两个过程,即从真实样本到高斯分布的Q过程。以及从高斯分布回到真实样本分布的P过程。Diffusion通过最小化生成高斯噪声与真实正态分布之间的距离来得到目标分布与正态分布之前的联系,进而实现可以通过高斯噪声来生成数据。Diffusion Model分为两个过程,其中Q过程是将一张图片逐渐变化到一个白噪声的过程,而P过程则是Q的逆过程,当P过程被确认之后,就可以利用此过程将任意的白噪声合成为一张图片。此模型并不存在判别器,所以模型的学习并非是对抗过程,而是有目标的学习过程,因此属于有监督学习范畴。Diffusion提供了比GAN网络更加稳定的生成方式,可以更好的模拟市场样本数据。但是P过程与Q过程的链条可能相对较长,训练难度更大。
模型质检器可以通过下述方式对数据预测模型进行质检:
示例性的,模型质检器包含三种统计检验和一种分布距离的测度。统计检验用于确定真实样本和合成样本是否属于相同的概率分布:学生t 检验、Wilcoxon 符号秩检验和Kolmogorov-Smirnov双样本检验。这些测试以一对一的方式比较输入数据集中每个特征的概率分布和合成数据是否相符。这些测试从不同的角度检验统计量的显著程度:Student'st-test 是比较均值的检验;Wilcoxon's 检验数据的排序;Kolmogorov-Smirnov 用于确定样本是否来自具有特定分布的总体。只有这些统计检验的显著程度p值小于预设阈值时,合成数据才能通过统计检验。这个预设阈值可以为0.05。分布距离的测度——最大均值差异检验 (MMD) 用于检查两个样本是否属于不同的分布。该测试计算两个样本之间的均值差异,并将这些样本映射到再现核希尔伯特空间。只有当真实数据和合成数据分布距离小于一定的阈值,如0.05,合成数据才能通过这项测试。成功通过上述两项的测试,合成数据才能达到模型质检器的合格标准,也即表示数据预测模型合格。
本申请实施例中,在对价格数据的数据质量指标进行评价时,可以对以下指标中的至少一种进行评价:
厚尾分布、分布峰度、分布偏度、自相关性、偏自相关性、波动率聚集、杠杆效应、粗细波动率、盈亏不对称性、长时程相关性、序列相似性、合成路径相关性、方差比率检验以及合成数据的综合预测评分。
下面对上述指标进行具体介绍。
厚尾分布:资产收益率一般不服从常规的正态分布,而是服从尖峰厚尾分布。两者主要的区别在于尖峰厚尾分布的异常值概率密度值高于正态分布。因此,可以通过对真实收益率拟合幂律函数,并计算相关参数alpha,以鉴定模拟时间序列是否服从尖峰厚尾分布。
分布峰度:峰度用于衡量给定分布的尾部与正态分布的尾部的区别。它可以判别分布尾部是否存在极值。对于对数收益率,因为一些低概率事件对分布有很大影响,真实序列通常具有高峰度值 。因此真实序列通常具有正态分布的粗略形状,但尾部更重。
分布偏度:偏度是描述随机变量关于其均值的概率分布不对称性的度量。在这里,它描绘了对数收益率的不对称性。自相关性每日的资产收益率在有效的金融市场不存在自相关。因此,通过计算模拟时间序列的自相关性以判断其是否接近真实金融时间序列。
偏自相关性:偏自相关性衡量了收益率序列是否存在滑动平均(Moving Average,MA)的成分。如果收益率序列存在MA的成分,那么偏自相关系数将随着滞后阶数的增加呈现拖尾的特征,使偏自相关性指标显著不为0。在弱有效市场中,如果不考虑资产收益的再投资,那么收益率序列不存在偏自相关,该指标接近0;如果考虑收益的再投资,那么该指标应大于0。
波动率聚集:尽管资产收益率不存在自相关性,但是资产收益率的波动仍然存在一定关联。通俗来说,大额价格波动通常聚集,容易连续发生,小额价格波动也体现出同样的规律。因此,可以通过计算收益率绝对值序列的 k 阶相关系数以评估模拟时间序列波动率的短程自相关性。若模拟时间绝对值序列存在短时程自相关和长时程不相关的特性,认为其符合波动率聚集的特性。
杠杆效应:杠杆效应具体描述当前资产收益率和未来波动率之间的负相关性。通俗来说,若市场近期跌幅较大,未来波动率将增加;若市场近期涨幅较大,未来波动将降低。因此,可以通过计算当前收益率和未来收益率平方的滞后 k 阶相关度以评估模拟时间序列的杠杆效应。
粗细波动率:理论上讲,细波动率包含更多信息量,因此细波动率对于粗波动率的预测能力(当前细波动率和未来粗波动率的相关系数)应该强于粗波动率对于细波动率的预测能力(当前粗波动率和未来细波动率的相关系数)。因此,可以分别计算当前细波动率和未来粗波动率的相关系数和当前粗波动率和未来细波动率的相关系数,利用二者之差刻画这种不对称性。
盈亏不对称性:一般认为,金融市场涨速较慢而跌速较快。可以通过计算以任意交易日为起点,统计未来涨跌超过10%所需最少交易日的分布。因此,可以通过计算涨跌所需最少天数以评估模拟时间序列的盈亏不对称性。若模拟时间序列更快达到一定程度的跌幅,认为其满足盈亏不对称性。
长时程相关:在金融领域,长时程相关意味着间隔较久的证券价格之间也存在相关性。通过 R/S 分析法计算 Hurst 指数,从而判断模拟时间序列是否具有长记忆性。
序列相似性:模拟的时间序列需要具备多样性,以对应各种潜在场景。可以通过DTW 算法去量化两端时间序列之间的相似程度,从而判断两者形态是否匹配。
合成路径相关性:为了衡量不同合成数据路径间的相关性,可以计算采用不同方法所生成的合成路径两两之间的相关系数矩阵。
方差比率检验:在有效市场的假设前提下,金融资产的价格需服从随机游走。方差比率检验是通过检验收益率的方差是否是时间的线性函数,从而验证金融资产的价格是否为随机游走。A股市场会在短期内表现出随机游走的特征,在中长期表现出非随机游走的特征。
合成数据的综合预测评分:考验合成数据的有效性,是合成数据迈向实际场景应用的关键指标。可以从预测能力的角度,来考察合成数据在保证多样性的前提下,是否继承了原有数据的预测能力。不同合成数据集的预测精度会和预测基准相比较,给出有效性的综合排名。
本申请实施例提供的方法可以应用于任意的金融产品价格预测场景。
比如,可以选取沪深2005/01/01-2021/6/31的时间窗口内的原始价格相关数据作为训练样本,生成未来1年的沪深300指数的1条可能路径走势,包括每日的最高价、开盘价、最低价、收盘价和成交量。
比如,使用SinGAN学习的总样本是2017/01/01-2021/06/01之间沪深300指数数据,总长度1071个交易日的数据,利用滚动采样出窗口长度为1000的数据,即整个训练数据集仅71个样本(小样本)。理论上最终可以学到长度为1000的样本数据。基于该样本进行训练得到数据预测模型。基于该数据预测模型可以预测时间长度为1000的价格数据。
比如,利用SigGAN训练2005/01/01-2021/06/01之间的沪深300指数数据。首先基于不同的时间长度对该数据进行采样,然后基于采样后的数据进行训练,训练完成的模型则可以合成不定长的数据;也就是说这个模型训练结束后,可以生成任意长度的合成数据。无论合成数据长度选择多少,通过本申请实施例中的数据预测模型,均可以生成质量较高的数据,理论上合成数据的长度可以是无限长。
通过本申请实施例提供的价格数据预测方法,可以为大量金融资产和各种不同的应用大规模生产合成金融时序数据。且在每种情况下,都可以产生内部一致的价格序列。另外,能够产生一系列与真实金融市场价格相对应的合成价格数据,适用性强。在金融量化中,需要提供与原始真实价格高度相关的合成价格数据;而在风险管理中,需要生成在市场上从未见过的极端压力条件,以便测试我们的投资组合或风控体系,因此该方法可以应用于金融量化和风险管理。并且,通过本申请实施例提供的方法生成的数据具有高保真性,合成时间序列中的收益分布应与历史数据紧密匹配,偏离理想的高斯分布且具有描述极端事件的“肥尾”分布。同时生成的时间序列具有长记忆效应的能力,在收益过程中能够模拟GARCH 效应。
本申请实施例还提供一种价格数据预测装置,请参见图7所示,包括:
获取模块701,用于获取金融产品的原始价格相关数据;
确定模块702,用于确定待预测的价格数据所对应的时间长度;
预测模块703,用于根据原始价格相关数据、时间长度以及预设的数据预测模型,预测金融产品在该时间长度的范围内的价格数据。
应当说明的是,各个功能模块与上述方法的各个步骤对应,因此,各个功能模块的实施方式参照前述的方法的实施方式,在此不再重复介绍。
基于同一发明构思,请参见图8所示,本申请实施例还提供一种电子设备,包括处理器81和存储器82,存储器82中存储有计算机程序,处理器81执行计算机程序,以实现上述所述的任意一种方法。
应当说明的是,本申请实施例中的电子设备还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
处理器可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过处理器和处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
存储器包括但不限于随机存取存储器(RAM),只读存储器(ROM),可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储器(EEPROM)等。本申请实施例中,存储器存储了执行信道均衡方法所需要的程序。
处理器和存储器通过通信总线连接,总线可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、安全数码(SD)卡、多媒体(MMC)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (4)
1.一种价格数据预测方法,其特征在于,包括:
获取金融产品的原始价格相关数据;
确定待预测的价格数据所对应的时间长度;
根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据;
在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在下一时间长度范围内的价格数据之前,所述方法还包括:
对所述原始价格相关数据进行采样得到采样数据;
对所述采样数据进行预处理得到样本数据;
利用所述样本数据和神经网络模型进行训练得到数据预测模型;
在所述对所述原始价格相关数据进行采样得到采样数据之前,所述方法还包括:
根据所述原始价格相关数据确定元数据信息;所述元数据信息包括数据属性信息、数据溯源信息以及数据处理信息中的至少一种;
根据所述元数据信息确定预设的模型库中不存在与所述元数据信息匹配的数据预测模型;
所述对所述采样数据进行预处理得到样本数据,包括
对所述采样数据进行数据清洗得到清洗后的数据;
对所述清洗后的数据进行数据集成得到集成后的数据;
对所述集成后的数据进行数据转换处理得到样本数据;
在所述利用所述样本数据和神经网络模型进行训练得到数据预测模型之后,所述方法还包括:
对所述数据预测模型进行质检,并确定质检合格;
在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据之后,所述方法还包括:
对所述价格数据的数据质量指标进行评价,并输出评价结果;
所述数据质量指标包括以下指标中的至少一种:
厚尾分布、分布峰度、分布偏度、自相关性、偏自相关性、波动率聚集、杠杆效应、粗细波动率、盈亏不对称性、长时程相关性、序列相似性、合成路径相关性、方差比率检验以及合成数据的综合预测评分;
所述数据预测模型是模型训练器在基于样本数据进行机器学习模型训练得到的,包括基于神经网络的生成式对抗网络模型和扩散模型;
所述生成式对抗网络模型框架中有模块:生成模型和判别模型;生成模型负责对随机噪声进行处理,模拟出与真实训练样本类似的假数据;判别器则负责鉴别出训练样本中由生成器生成的假数据;
所述扩散模型慢慢的将随机噪声添加到数据中,然后学习反向扩散过程的模型;模型中定义了两个过程,即从真实样本到高斯分布的Q过程,以及从高斯分布回到真实样本分布的P过程;通过最小化生成高斯噪声与真实正态分布之间的距离来得到目标分布与正态分布之前的联系,进而实现通过高斯噪声来生成数据。
2.一种价格数据预测装置,其特征在于,包括:
获取模块,用于获取金融产品的原始价格相关数据;
确定模块,用于确定待预测的价格数据所对应的时间长度;
预测模块,用于根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据;
在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在下一时间长度范围内的价格数据之前,还包括:
对所述原始价格相关数据进行采样得到采样数据;
对所述采样数据进行预处理得到样本数据;
利用所述样本数据和神经网络模型进行训练得到数据预测模型;
在所述对所述原始价格相关数据进行采样得到采样数据之前,所述装置还包括:
根据所述原始价格相关数据确定元数据信息;所述元数据信息包括数据属性信息、数据溯源信息以及数据处理信息中的至少一种;
根据所述元数据信息确定预设的模型库中不存在与所述元数据信息匹配的数据预测模型;
所述对所述采样数据进行预处理得到样本数据,包括
对所述采样数据进行数据清洗得到清洗后的数据;
对所述清洗后的数据进行数据集成得到集成后的数据;
对所述集成后的数据进行数据转换处理得到样本数据;
在所述利用所述样本数据和神经网络模型进行训练得到数据预测模型之后,所述装置还包括:
对所述数据预测模型进行质检,并确定质检合格;
在所述根据所述原始价格相关数据、所述时间长度以及预设的数据预测模型,预测所述金融产品在所述时间长度的范围内的价格数据之后,所述装置还包括:
对所述价格数据的数据质量指标进行评价,并输出评价结果;
所述数据质量指标包括以下指标中的至少一种:
厚尾分布、分布峰度、分布偏度、自相关性、偏自相关性、波动率聚集、杠杆效应、粗细波动率、盈亏不对称性、长时程相关性、序列相似性、合成路径相关性、方差比率检验以及合成数据的综合预测评分;
所述数据预测模型是模型训练器在基于样本数据进行机器学习模型训练得到的,包括基于神经网络的生成式对抗网络模型和扩散模型;
所述生成式对抗网络模型框架中有模块:生成模型和判别模型;生成模型负责对随机噪声进行处理,模拟出与真实训练样本类似的假数据;判别器则负责鉴别出训练样本中由生成器生成的假数据;
所述扩散模型慢慢的将随机噪声添加到数据中,然后学习反向扩散过程的模型;模型中定义了两个过程,即从真实样本到高斯分布的Q过程,以及从高斯分布回到真实样本分布的P过程;通过最小化生成高斯噪声与真实正态分布之间的距离来得到目标分布与正态分布之前的联系,进而实现通过高斯噪声来生成数据。
3.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1所述的方法。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现如权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288270.8A CN115545790B (zh) | 2022-10-20 | 2022-10-20 | 价格数据预测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211288270.8A CN115545790B (zh) | 2022-10-20 | 2022-10-20 | 价格数据预测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115545790A CN115545790A (zh) | 2022-12-30 |
CN115545790B true CN115545790B (zh) | 2023-06-09 |
Family
ID=84735016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211288270.8A Active CN115545790B (zh) | 2022-10-20 | 2022-10-20 | 价格数据预测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115545790B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625525B (zh) * | 2020-05-26 | 2023-05-26 | 哈尔滨工业大学 | 一种环境数据修复/填充方法及系统 |
CN117829683A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 基于图对比学习的电力物联数据质量分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129148A (zh) * | 2021-04-16 | 2021-07-16 | 北京航空航天大学 | 一种融合生成对抗网络与二维注意力机制的股票预测方法 |
CN114022179A (zh) * | 2021-09-28 | 2022-02-08 | 南京云创大数据科技股份有限公司 | 一种结合网络舆情和相依性的股票价格预测方法 |
CN114049222A (zh) * | 2021-11-25 | 2022-02-15 | 中山大学 | 一种基于注意力机制和强化学习的趋势预测方法 |
CN114399345A (zh) * | 2022-03-25 | 2022-04-26 | 广东电力交易中心有限责任公司 | 金融输电权价格预测方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370902A1 (en) * | 2018-05-30 | 2019-12-05 | Shine We Development Inc. | Method for price prediction of financial products based on deep learning model |
CN110751261B (zh) * | 2018-07-23 | 2024-05-28 | 第四范式(北京)技术有限公司 | 神经网络模型的训练方法和系统以及预测方法和系统 |
CN109636017A (zh) * | 2018-11-29 | 2019-04-16 | 深圳昆腾信息科技有限公司 | 一种金融交易价格预测方法、装置、介质及设备 |
CN112862182A (zh) * | 2021-02-04 | 2021-05-28 | 北京百度网讯科技有限公司 | 一种投资预测方法、装置、电子设备及存储介质 |
CN113919945A (zh) * | 2021-09-17 | 2022-01-11 | 平安科技(深圳)有限公司 | 基于神经网络的数据分析方法、装置、设备及存储介质 |
CN114519613B (zh) * | 2022-02-22 | 2023-07-25 | 平安科技(深圳)有限公司 | 价格数据的处理方法和装置、电子设备、存储介质 |
-
2022
- 2022-10-20 CN CN202211288270.8A patent/CN115545790B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113129148A (zh) * | 2021-04-16 | 2021-07-16 | 北京航空航天大学 | 一种融合生成对抗网络与二维注意力机制的股票预测方法 |
CN114022179A (zh) * | 2021-09-28 | 2022-02-08 | 南京云创大数据科技股份有限公司 | 一种结合网络舆情和相依性的股票价格预测方法 |
CN114049222A (zh) * | 2021-11-25 | 2022-02-15 | 中山大学 | 一种基于注意力机制和强化学习的趋势预测方法 |
CN114399345A (zh) * | 2022-03-25 | 2022-04-26 | 广东电力交易中心有限责任公司 | 金融输电权价格预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115545790A (zh) | 2022-12-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115545790B (zh) | 价格数据预测方法、装置、电子设备及存储介质 | |
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN110751557A (zh) | 一种基于序列模型的异常资金交易行为分析方法及系统 | |
WO2012018968A1 (en) | Method and system for quantifying and rating default risk of business enterprises | |
CN112215702A (zh) | 信用风险的评估方法、移动终端及计算机存储介质 | |
Tsinaslanidis et al. | Technical analysis for algorithmic pattern recognition | |
CN110634060A (zh) | 一种用户信用风险的评估方法、系统、装置及存储介质 | |
US20110137781A1 (en) | Intermarket Analysis | |
Algieri | Modelling export equations using an unobserved component model: the case of the Euro Area and its competitors | |
Orth | Multi-period credit default prediction with time-varying covariates | |
CN116012131A (zh) | 一种用于评估用户信贷风险的方法、系统、装置以及介质 | |
CN111626855A (zh) | 债券信用利差预测方法及系统 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
Morel et al. | Path Shadowing Monte-Carlo | |
Rodríguez-Caballero et al. | A multilevel factor approach for the analysis of CDS commonality and risk contribution | |
Abid et al. | Financial distress prediction using neural networks | |
CN114418776A (zh) | 一种数据处理方法、装置、终端设备及介质 | |
CN116778210A (zh) | 教学影像评价系统以及教学影像评价方法 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN113782051A (zh) | 广播效果分类方法及系统、电子设备和存储介质 | |
KR100686466B1 (ko) | 자산 평가 제공 방법 및 시스템과, 수익성에 대한 안정성 분석 제공 시스템 | |
CN118277723B (zh) | 一种基于数据中台的学习数据统计分析方法及相关装置 | |
CN118735690A (zh) | 定投客户特征分析方法、系统及计算机可读存储介质 | |
CN117132400A (zh) | 非法资金转移交易的识别方法及装置 | |
Fofana et al. | Non stationarity and long memory: Regime switching Arfima-Garch model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |