CN118468031A - 一种样本增广方法、装置、电子设备及存储介质 - Google Patents
一种样本增广方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN118468031A CN118468031A CN202410630356.7A CN202410630356A CN118468031A CN 118468031 A CN118468031 A CN 118468031A CN 202410630356 A CN202410630356 A CN 202410630356A CN 118468031 A CN118468031 A CN 118468031A
- Authority
- CN
- China
- Prior art keywords
- feature
- stock
- target
- sample
- sample stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000003416 augmentation Effects 0.000 title abstract description 23
- 230000003190 augmentative effect Effects 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000004891 communication Methods 0.000 claims description 18
- 230000008901 benefit Effects 0.000 claims description 17
- 230000003321 amplification Effects 0.000 claims description 16
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001174 ascending effect Effects 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 239000000758 substrate Substances 0.000 claims 1
- 235000019580 granularity Nutrition 0.000 description 27
- 230000006870 function Effects 0.000 description 22
- 239000000126 substance Substances 0.000 description 21
- 238000012549 training Methods 0.000 description 21
- 238000003062 neural network model Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000124033 Salix Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013329 compounding Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000001632 homeopathic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请实施例提供了一种样本增广方法、装置、电子设备及存储介质,所述方法包括:根据样本集中的各个样本股票特征,计算目标分布信息;在所述样本集中,选取多个目标样本股票特征;针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的目标噪声特征;针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。通过本方案,可以增加样本股票特征的数量。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种样本增广方法、装置、电子设备及存储介质。
背景技术
在金融股票市场领域中,通常利用样本股票特征作为训练样本来进行神经网络模型训练,从而,在神经网络模型训练完毕后,利用神经网络模型,进行针对股票的分析任务。其中,样本股票特征是通过股票的历史数据构成的,而由于股票的数量是有限的,因此样本股票特征的数量也是有限的。而神经网络模型训练需要用到大量的样本股票特征,若样本股票特征数量过少,会导致不能为神经网络模型的训练提供充足的训练样本,影响模型训练的效果。
因此,如何增加样本股票特征的数量,成为亟需解决的问题。
发明内容
本申请实施例的目的在于提供一种样本增广方法、装置、电子设备及存储介质,以实现增加样本股票特征的数量。具体技术方案如下:
第一方面,本申请提供了一种样本增广方法,所述方法包括:
根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
在所述样本集中,选取多个目标样本股票特征;
针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
可选的,所述根据样本集中的样本股票特征,计算目标分布信息包括:
利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
可选的,该目标样本股票特征对应的基准噪声特征的特征维数,与该目标样本股票特征的特征维数相同;
基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征的方式包括:
针对目标分布信息所表征的每一维度的特征分布情况,基于该维度的特征分布情况,选取一个特征值,作为该维度下的噪声特征;
将各维度下的噪声特征所构成的多维特征,作为该目标样本股票特征对应的基准噪声特征。
可选的,所述针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征包括:
针对每一目标样本股票特征,将该目标样本股票特征中的每一维度的特征,与对应的目标噪声特征中的相应维度上的特征进行特征融合,得到目标样本股票特征对应的增广样本股票特征。
可选的,所述样本集中的所述各个样本股票特征包括多个正样本股票特征和多个负样本股票特征;
所述在所述样本集中,选取多个目标样本股票特征包括:
基于所述样本集中正样本股票特征和负样本股票特征的数量,以及设定的增广后样本集中样本股票特征的目标数量,确定第一数量和第二数量;其中,所述第一数量为待选取的正样本股票特征的数量,所述第二数量为待选取的负样本股票特征的数量;
从所述样本集中,选取第一数量个正样本股票特征以及第二数量个负样本股票特征,得到多个目标样本股票特征。
可选的,所述样本集中的多个正样本股票特征和多个负样本股票特征的划分方式包括:
确定目标金融时序数据对应的上行时间区间和下行时间区间;其中,所述目标金融时序数据为:由预定时段内所述指定时间粒度下的各时间区间分别对应的整体收益数据,所构成的序列,每一时间区间对应的整体收益数据为所述样本集中涉及的各个股票,在该时间区间内针对指定股票因子的整体收益数据;所述上行时间区间为表征目标金融时序数据处于上升趋势的时段,所述下行时间区间为表征目标时序金融数据处于下降趋势的时段;
针对每一样本股票特征,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征为正样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征为负样本股票特征;其中,所述至少一维特征对应的时间区间为所述至少一维特征对应的至少一种描述数据所属的时间区间;
其中,所述上行时间区间和下行时间区间的确定方式为:
针对预定时段内的指定时间粒度下的每一时间区间,基于所述目标金融时序数据,确定该时间区间对应的整体收益数据是否为极大值或极小值,若是极大值,则将该时间区间标记为极大值点,若是极小值,将该时间区间标记为极小值点;
将相邻极大值点之间的最小的极小值点作为目标极小值点;
按时间顺序,将从任一极大值点到该极大值点相邻的下一目标极小值点之间所包括的时段,作为下行时间区间,以及,将从任一目标极小值点到该目标极小值点相邻的下一极大值点之间所包括的时段,作为上行时间区间。
第二方面,本申请提供了一种样本增广装置,所述装置包括:
计算模块,用于根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
选取模块,用于在所述样本集中,选取多个目标样本股票特征;
生成模块,用于针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
融合模块,用于针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
添加模块,用于将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
可选的,所述计算模块包括:
构建单元,用于利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
确定单元,用于基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的样本增广方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的样本增广方法。
另一方面,本申请提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的样本增广方法。
本申请实施例有益效果:
本申请实施例提供的一种样本增广方法,可以根据样本集中的各个样本股票特征,计算目标分布信息,在所述样本集中,选取多个目标样本股票特征,针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征,针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
可见,本申请在为每一目标样本股票特征确定目标噪声特征时,综合考虑了样本集中的各个样本股票特征的特征分布,从而生成的目标噪声特征与样本集中的各个样本股票特征是具有关联的;并且,由于信噪比可以控制针对不同样本股票特征噪声添加的强度,而本申请根据股票的类型来特异性的确定每一目标样本股票特征对应的信噪比,因此,本申请可以利用信噪比针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,从而产生更加多样化的数据集。可见,本申请的方案可以在符合样本集的特征分布的情况下,针对不同样本股票特征进行特异性增广,增加样本股票特征的数量。并且,通过本方案可以产生更加多样化的样本股票特征,从而后续利用样本股票特征训练模型时,可以有效提升模型训练效果。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本申请实施例所提供的一种样本增广方法的流程图;
图2a为本申请实施例所提供的一种金融时序数据的走势图;
图2b为本申请实施例所提供的一种对金融时序数据的区间划分的示意图;
图3a为本申请实施例所提供的另一种金融时序数据的走势图;
图3b为本申请实施例所提供的另一种对金融时序数据的区间划分的示意图;
图4为本申请实施例所提供的一种样本增广方法的另一流程图;
图5为本申请实施例所提供的一种样本增广装置的结构示意图;
图6为本申请实施例所提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
在金融股票市场领域中,通常利用样本股票特征作为训练样本来进行神经网络模型训练,从而,在神经网络模型训练完毕后,利用神经网络模型,进行针对股票的分析任务。其中,样本股票特征是通过股票的历史数据构成的,而由于股票的数量是有限的,因此样本股票特征的数量也是有限的。而神经网络模型训练需要用到大量的样本股票特征,若样本股票特征数量过少,会导致不能为神经网络模型的训练提供充足的训练样本,影响模型训练的效果。所述模型具体可以是股票个性化推荐模型,以及股票分析模型等等模型。
针对模型训练样本集不足,以及训练样本集中正负样本比例不均衡的问题,目前常用的解决方案是使用过采样和欠采样的方式。
过采样是通过对数据集中少数的样本进行多次重复采样,以达到正负样本比例均衡的目的。然而这种通过复制少数类别样本以增加其数量的方法,可能会导致模型出现过拟合。欠采样是通过删除多数类样本的一部分数据,以达到修改样本分布的目的,从而使样本分布较为均衡。但由于样本股票特征中数据量原本就非常有限,欠采样可能会导致训练数据中信息丢失,造成模型欠拟合,影响训练效果。
因此,如何增加样本股票特征的数量,成为亟需解决的问题。
下面首先对本申请实施例所提供的一种样本增广方法进行介绍。本申请实施例所提供的一种样本增广方法应用于电子设备;在具体应用中,该电子设备可以为终端设备和服务器等,该终端设备可以是平板电脑、台式电脑和手机,等等;本申请并不对此进行限定。
本申请的样本增广方法,可以应用于任一存在针对样本股票特征进行增广的场景。
其中,本申请实施例所提供的一种样本增广方法,可以包括:
根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
在所述样本集中,选取多个目标样本股票特征;
针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。可见,本申请在为每一目标样本股票特征确定目标噪声特征时,综合考虑了样本集中的各个样本股票特征的特征分布,从而生成的目标噪声特征与样本集中的各个样本股票特征是具有关联的;并且,由于信噪比可以控制针对不同样本股票特征噪声添加的强度,而本申请根据股票的类型来特异性的确定每一目标样本股票特征对应的信噪比,因此,本申请可以利用信噪比针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,从而产生更加多样化的数据集。可见,本申请的方案可以在符合样本集的特征分布的情况下,针对不同样本股票特征进行特异性增广,增加样本股票特征的数量。并且,通过本方案可以产生更加多样化的样本股票特征,从而后续利用样本股票特征训练模型时,可以有效提升模型训练效果。
下面结合附图,对本申请实施例所提供的一种样本增广方法进行介绍。
如图1所示,本申请实施例所提供的一种样本增广方法,可以包括如下步骤:
S101,根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
所述指定时间粒度,具体可以为一天、一周以及一月等等,具体的时间粒度可以根据实际的应用场景进行设置。所述描述数据可以为股票开盘价、收盘价、最高价、最低价、换手率和成交量等等数据。以股票A为例,若股票A在1号的股票开盘价可以为a,收盘价可以为b以及最高价可以为c,此时股票A在该天的股票特征可以为三维特征(a,b,c)T。示例性的,每一种描述数据对应的特征,可以为对该种描述数据进行向量化处理所得到的特征,当然也可以为用于表征该种描述数据的其他数据内容,这也是可行的。
可以理解的是,针对同一股票而言,在指定时间粒度下的不同时间区间内的,同一种描述数据的值都可能不一样,例如,股票A在1号和2号的收盘价的值都可能不一样。因此,样本集所包括的各个样本股票特征中,存在利用同一股票在指定时间粒度下的不同时间区间内的描述数据,构建的多个样本股票特征,也就是说,样本集所包括的各个样本股票特征中,可以存在满足如下条件的至少两个样本股票特征:属于同一股票且所对应描述数据属于的时间区间不同。
本申请中,各个股票的维度数量通常是相同的,当然,也可以不同,本申请不做限定。
本申请所述样本集中的所述各个样本股票特征可以包括多个正样本股票特征和多个负样本股票特征,正样本股票特征和负样本股票特征的划分方式在后续实施例会具体介绍。
可选的,所述根据样本集中的样本股票特征,计算目标分布信息包括:
利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
本申请的方案,所述目标分布信息具体可以为各个维度的均值和标准差,可以为各个维度对应的高斯密度函数以及高维正态分布,或者可以为各个维度对应的均值和协方差矩阵。
下面,介绍各个维度的均值和标准差、高斯密度函数和高维正态分布以及协方差矩阵的计算方式:
可以利用样本集中各个样本股票特征,确定每一维对应的特征序列,如d维特征X=[x1,x2,…xi…xd]T,xi可以是一个维度的序列,可以包含样本集中所有样本股票特征的该维度的特征信息,例如,若xi对应的维度为开盘价特征,xi就是利用样本集中所有样本股票特征中的开盘价特征值,构成的开盘价序列,d表示样本股票特征所包括特征的总维数。
每一维度的序列的均值和标准差的计算方式按常规计算方式计算即可,在此不多做赘述。可以将每一维度的均值记为μi,每一维度的标准差记为σi,d表示样本股票特征所包括特征的总维数,其中,各维度的均值序列U为[μ1,μ2,…μi…μd],各维度的标准差为σ1,σ2,…σi…σd,
d维特征的高斯密度函数,以及高维正态分布可以利用各个维度的均值和标准差计算得到,具体的,
高斯密度函数计算方式为:
高维正态分布:
高斯概率密度函数给出了在给定均值和标准差的高斯分布(也可以称为正态分布)中,随机变量取某个特定值的相对可能性,高斯概率密度函数是高斯正态分布的数学描述,而高斯正态分布则是高斯概率密度函数所代表的概率分布。高斯概率密度函数和高斯正态分布,都是在描述同一个数学对象。
下面,介绍协方差矩阵的计算方式:
针对每一维对应的特征序列,计算得到方差和协方差,利用方差和协方差可以构建所述d维特征对应的协方差矩阵。其中,协方差矩阵的对角线元素是每个维度的方差,表示在该维度上数据点的离散程度;非对角线元素是不同维度之间的协方差,表示各个维度之间的线性相关程度。
方差的计算公式为:
其中,针对任一维度,n的取值为该维度对应的特征值数量,xi表征该维度的第i个特征值,表征该维度中特征值的均值。
协方差的计算公式为:
其中,n的物理意义与上述相同,X和Y表示两种两个不同维度,xi表征维度X的第i个特征值,yi表征维度Y的第i个特征值,表征维度X中特征值的均值,表征维度Y中特征值的均值,n表征维度中特征值数量。
S102,在所述样本集中,选取多个目标样本股票特征;
所述样本集中,任一一个样本股票特征都可以用于进行增广,因此,可以在所述样本集中,选取多个目标样本股票特征用于后续的增广。
本申请中所选取的目标样本股票特征的数量可以根据具体需求来确定,本申请对此不做限定。
在一种具体的实现方式中,所述在所述样本集中,选取多个目标样本股票特征包括:
基于所述样本集中正样本股票特征和负样本股票特征的数量,以及设定的增广后样本集中样本股票特征的目标数量,确定第一数量和第二数量;其中,所述第一数量为待选取的正样本股票特征的数量,所述第二数量为待选取的负样本股票特征的数量;
从所述样本集中,选取第一数量个正样本股票特征以及第二数量个负样本股票特征,得到多个目标样本股票特征。
该种实现方式中,考虑到模型训练时,正负样本的数量相当时训练出的模型效果,要好于正负样本的数量失衡时训练出的模型效果,因此,在增广样本特征时,可以设定正负样本需要增广的数量,以使最终样本集中的正负样本的数量均衡。例如,所述样本集中共有样本681个,其中正样本224个,负样本有457个,若需要增广10倍,则增广后样本6810个,为了正负样本的数量均衡,增广后正负样本各3405个,则需要增广的正样本股票特征的数量为3405-224=3181个,需要增广的负样本股票特征的数量为3405-457=2948个。其中,需要增广的正样本股票特征的数量可以作为所述第一数量,需要增广的负样本股票特征的数量可以作为所述第二数量。
在具体的实现过程中,所述第一数量和所述第二数量是大于正样本股票特征的数量和负样本股票特征的数量的,因此,样本集中的各个样本股票特征是可以被重复选取的。并且,由于后续生成的每一目标样本股票特征对应的基准噪声特征都是一个随机值,因此,即便是同一目标样本股票特征,所生成的基准噪声特征都可以不一样。
S103,针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
可选地,在一种实现方式中,若各个维度对应的描述数据为不相关的数据,则基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征的方式包括:
针对目标分布信息所表征的每一维度的特征分布情况,基于该维度的特征分布情况,选取一个特征值,作为该维度下的噪声特征;
将各维度下的噪声特征所构成的多维特征,作为该目标样本股票特征对应的基准噪声特征。
可以利用每一维度的均值和标准差,来生成该维度对应的噪声特征,具体的,可以随机生成一组均值和标准差符合该维度的均值和标准差的特征数据,作为该维度对应的噪声特征。所述噪声特征中,特征值的数量可以为一个或多个,具体可以根据实际需求设置。可以理解的是,所生成的一组特征数据符合该维数据的特征分布情况。
本实施例的方式,可以针对每一维特征,生成对应于该维特征的特征分布情况的噪声特征,在将各个维度的噪声特征构成一个多维特征,从而得到该目标样本股票特征对应的基准噪声特征。
可选地,在一种实现方式中,所述目标分布信息为样本集中各维度对应的高斯概率密度函数和/或高斯正态分布;相应的,
所述针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征包括:
针对目标分布信息所表征的多个维度的特征分布情况,基于多个维度的特征分布情况,选取一个对应于所述高斯概率密度函数和/或高斯正态分布的多维特征,作为该目标样本股票特征对应的基准噪声特征。
高斯概率密度函数和高维正态分布给出了在给定均值和标准差的高斯分布(也可以称为正态分布)中,随机变量取某个特定值的相对可能性。因此,基于所述高斯概率密度函数及高维正态分布,可以确定任一组d维数据在指定的正态分布中的概率密度,本申请可以将概率密度大于设定值的一组d维数据,作为基准噪声特征。
可选地,在一种实现方式中,所述目标分布信息为样本集中各维度对应的均值和协方差矩阵,
基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征的方式包括:
针对目标分布信息所表征的多个维度的特征分布情况,基于多个维度的特征分布情况,选取一个对应于所述均值和协方差矩阵的多维特征,作为该目标样本股票特征对应的基准噪声特征。具体的,所述基准噪声特征中,每一维度的均值与所述目标分布信息所表征的均值对应,每一维度的方差与所述目标分布信息所表征的方差对应,所述基准噪声特征中各个维度之间的协方差的值与所述目标分布信息所表征的各个维度之间的协方差对应。且本申请上述对应,可以是完全相同,也可以是符合设定的范围,例如所述目标分布信息某一维的方差为1,基准噪声特征中对应维度的的方差在1的正负0.5范围即可,具体范围可以按实际情况设定。
具体的,可以通过如下方式确定目标样本股票特征对应的基准噪声特征:
均值和协方差矩阵的计算方式上述实施例中已经介绍,在此不多做赘述。其中,协方差矩阵的对角线元素是每个维度的方差,表示在该维度上数据点的离散程度;非对角线元素是不同维度之间的协方差,表示各个维度之间的线性相关程度,因此,本实施例的方式无论各个维度之间是否具有关联,都可以使用。
基于上述均值和协方差矩阵,可以生成对应的n维特征,作为该目标样本股票特征对应的基准噪声特征。所述n维特征是随机生成的,但它的统计特性(均值和协方差)与指定的多元高斯分布相匹配。示例性的,针对维度1、维度2和维度3,可以生成一个3维特征,其中,所述3维特征中,第一维度的特征序列中特征值的均值和维度1的均值匹配,第二维度的特征序列中特征值的均值和维度2的均值匹配,第一维度和第二维度之间的协方差与维度1和维度2之间的协方差相匹配,第二维度和第三维度之间的协方差与维度2和维度3之间的协方差相匹配。
本申请中上述各个实施例中,所生成的作为基准噪声特征的n维特征中,每一维可以是一个或多个特征值,具体数量可以根据实际需求设定。
本申请中,每一只股票的股票类型可以为按照该只股票在所述指定时间区间中在指定股票因子的因子值所确定的。而所述信噪比是由股票类型所确定的。股票类型和信噪比的确定方式在后述实施例中会具体介绍。
S104,针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
目标样本股票特征和该目标样本股票特征对应的目标噪声特征的维度相同,每一维度所表征的描述数据也是对应的。
所述针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征包括:
针对每一目标样本股票特征,将该目标样本股票特征中的每一维度的特征,与对应的目标噪声特征中的相应维度上的特征进行特征融合,得到目标样本股票特征对应的增广样本股票特征。
本申请中的目标噪声特征和目标样本股票特征中的维度是具有对应关系的,具体的特征融合过程中,若目标噪声特征中每一维的特征值为1个,也就是该维目标噪声特征是1*1维特征,则直接将目标噪声特征中每一维的特征值与目标样本股票特征中对应的维度的特征值相融合,若目标噪声特征中每一维的特征值为多个,也就是该维目标噪声特征是1*n维特征,则将目标噪声特征中每一维的多个特征值取均值或加权计算后,与目标样本股票特征中对应的维度的特征值相融合。具体的特征融合过程,可以是特征值相加和相减以及加权计算后进行相加和相减等方式,本申请对此不做限定。具体的特征融合方式可以根据实际需求选择。
S105,将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
本申请中,每一目标样本股票特征对应的增广样本股票特征的正负样本类型,与该目标样本股票特征所属的正负样本类型相同。
将各个增广样本股票特征添加到所述样本集中,可以增广所述样本集,且各个增广样本股票特征也被分为正样本股票特征和负样本股票特征,从而,后续可以利用增广后的样本集来训练模型。
可见,本申请在为每一目标样本股票特征确定目标噪声特征时,综合考虑了样本集中的各个样本股票特征的特征分布,从而生成的目标噪声特征与样本集中的各个样本股票特征是具有关联的;并且,由于信噪比可以控制针对不同样本股票特征噪声添加的强度,而本申请根据股票的类型来特异性的确定每一目标样本股票特征对应的信噪比,因此,本申请可以利用信噪比针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,从而产生更加多样化的数据集。可见,本申请的方案可以在符合样本集的特征分布的情况下,针对不同样本股票特征进行特异性增广,增加样本股票特征的数量。并且,通过本方案可以产生更加多样化的样本股票特征,从而后续利用样本股票特征训练模型时,可以有效提升模型训练效果。此外,本申请针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,可以得到更加准确的股票特征。
本申请中,样本集中的各个样本股票特征分为正样本股票特征和负样本股票特征,可以理解的是,正样本股票特征和负样本股票特征的划分方式可以有多种,可以按照实际需求进行划分。使用任一划分方式划分的正样本股票特征和负样本股票特征都可以应用于本申请的方案。
下面,具体介绍本申请中所述正样本股票特征和负样本股票特征的一种示例性的划分方式。
所述样本集中的多个正样本股票特征和多个样本股票特征的划分方式包括:
确定目标金融时序数据对应的上行时间区间和下行时间区间;其中,所述目标金融时序数据为:由预定时段内所述指定时间粒度下的各时间区间分别对应的整体收益数据,所构成的序列,每一时间区间对应的整体收益数据为所述样本集中涉及的各个股票,在该时间区间内针对指定股票因子的整体收益数据;所述上行时间区间为表征目标金融时序数据处于上升趋势的时段,所述下行时间区间为表征目标时序金融数据处于下降趋势的时段;
针对每一样本股票特征,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征为正样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征为负样本股票特征;其中,所述至少一维特征对应的时间区间为所述至少一维特征对应的至少一种描述数据所属的时间区间;
其中,所述上行时间区间和下行时间区间的确定方式为:
针对预定时段内的指定时间粒度下的每一时间区间,基于所述目标金融时序数据,确定该时间区间对应的整体收益数据是否为极大值或极小值,若是极大值,则将该时间区间标记为极大值点,若是极小值,将该时间区间标记为极小值点;
将相邻极大值点之间的最小的极小值点作为目标极小值点;
按时间顺序,将从任一极大值点到该极大值点相邻的下一目标极小值点之间所包括的时段,作为下行时间区间,以及,将从任一目标极小值点到该目标极小值点相邻的下一极大值点之间所包括的时段,作为上行时间区间。
在具体实现时,所述极大值的确定方式可以为:针对预定时段内的指定时间粒度下的每一时间区间,确定该时间区间对应的整体收益数据在该时间区间前n个时间区间和后n个时间区间的范围中是否为极大值,若是,则将该时间区间标记为极大值点。其中,前n个时间区间和后n个时间区间中的每一时间区间均为指定时间粒度下的时间区间。
示例性的,指定时间粒度为1天,针对任意一天,确定该天的整体收益数据在该天前n天和后n天的范围中是否为极大值,若是,则将该天标记为极大值点。
所述极大值的确定方式可以为:针对预定时段内的指定时间粒度下的每一时间区间,确定该时间区间对应的整体收益数据在该时间区间前m个时间区间和后m个时间区间的范围中是否为极小值,若是,则将该时间区间标记为极小值点。其中,前m个时间区间和后m个时间区间中的每一时间区间均为指定时间粒度下的时间区间。
示例性的,指定时间粒度为1天,针对任意一天,确定该天的整体收益数据在该天前m天和后m天的范围中是否为极小值,若是,则将该天标记为极小值点。
可以设置m小于n,则每次确定极大值点的范围大于确定极小值点的范围,确定极大值点的范围较大是为了使区间划分结果具有更加明显的趋势性,确定极小值点的范围较小是为了尽可能精确地找到相邻极大值点间的最小值点。
从而,确定出的极小值点数量比极大值点的数量多,可以从相邻极大值点之间确定最小的极小值点,作为目标极小值点。
在一个具体的示例中,极大值点和极小值点的确定方式可以用以下伪代码表示:
Begin(算法开始);
输入:数据数组data,比较函数comparator,搜索步长order;
检查order是否为整数且大于等于1,如果不是,抛出错误;
计算data的长度,存储在datalen中;
创建一个从0到datalen-1的整数序列locs;
初始化一个与data形状相同、元素类型为布尔的结果数组results;
使用take函数将data取出得到main;
对于每个从1到order的shift值:
使用take函数将data取出,向右移动shift个位置得到plus;
使用take函数将data取出,向左移动shift个位置得到minus;
使用comparator函数比较main和plus,将结果与results相与并存储回results;
使用comparator函数比较main和minus,将结果与results相与并存储回results;
如果results中有任何位置的布尔值为假,则返回results;
如果循环结束后没有提前返回,则返回最终的results;
End(算法结束)。
该算法中包含两个重要参数,分别是比较函数comparator和搜索步长order。在寻找序列极大值点时,comparator选用np.greater函数,寻找序列极小值点时,comparator选用np.less函数。order参数则代表着判断极值点时的窗口大小,即该参数越大,寻找极值点时的区间划分的越长,往往找到的极值点数量也越少。需要注意的是,为了使区间划分结果具有更加明显的趋势性,在寻找极大值点时order参数应该足够大。同时为了尽可能精确地找到相邻极大值点间的最小值点,在寻找极小值点时需要将order参数设为1。最后,找出相邻极大值点间最小的极小值点,作为相邻极大值点间的极小值点。从而,相邻的极大值点间都有唯一的极小值点,一个极大值点到它相邻的下一个极小值点的区间即为序列下行区间,一个极小值点到它相邻的下一个极大值点的区间即为序列上行区间。
需要强调的是,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征可以为正样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征可以为负样本股票特征。当然,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征也可以为负样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征也可以为正样本股票特征;上行时间区间和线性区间于正样本股票特征和负样本股票特征的对应关系可以根据实际应用来确定,本申请对此不做限定。
示例性的,图2a为size风格收益走势,具体为针对Barra风格因子中的市值因子构建的从2021年1月4日至2023年10月27日的累计超额收益序列。所述Barra风格因子应用于多因子选股分析和结构化风险因子分析。Barra风格因子中可以包括多个因子,例如市值因子,可以表征上市公司大盘股的程度上市公司,动量因子,可以表征3个月短期动量,盈利因子,可以表征盈利和股票市值的比值杠杆因子。Barra风格因子中包含的股票因子有多种,在此不做穷举。
图2a中箭头上标记有上行的部分为反向size风格占优区间,也就是小市值风格占优区间,,且对应与上述实施例中的上行时间区间;箭头上标记有下行的部分为size风格占优区间,也就是大市值风格占优区间,且对应与上述实施例中的下行时间区间。图2a中,横坐标表征时间,纵坐标表征size风格因子超额收益。其中,大市值风格占优区间共224天,小市值风格占优区间共457天。市值因子超额收益上行区间,对应于上述的上行时间区间,且对应大市值风格占优区间;市值因子超额收益下行区间,对应于上述的下行时间区间,且对应小市值风格占优区间。图2a中上行时间区间和下行时间区间依次交替出现。图2b为包含针对图2a划分出的各个上行时间区间和下行时间区间的界面内容,上行时间区间和下行时间区间具体划分结果图2b所示
图3a为chem行业收益走势,具体为针对Barra风格因子中的化学因子构建的从2021年1月4日至2023年10月27日的累计超额收益序列。
图3a中箭头上标记有上行的部分为反向chem风格占优区间,也就是非化学行业占优区间,且对应与上述实施例中的上行时间区间;箭头上标记有下行的部分为chem风格占优区间,也就是化学行业占优区间,且对应与上述实施例中的下行时间区间。图3a中,横坐标表征时间,纵坐标表征chem风格因子超额收益。其中,非化学行业占优区间共232天,化学行业占优区间共449天。化学因子超额收益上行区间,对应于上述的上行时间区间,且对应化学行业占优区间;化学因子超额收益下行区间,对应于上述的下行时间区间,且对应非化学行业占优区间。图3a中上行时间区间和下行时间区间依次交替出现,图3b为包含针对图3a划分出的各个上行时间区间和下行时间区间的界面内容,上行时间区间和下行时间区间具体划分结果图3b所示。
超额收益是指超过正常或预期收益的收益值,示例性的,可以是某日的收益减去投资者或市场当日要求的正常预期收益率之差。超额收益是本申请上述整体收益数据的一种类型,本申请的整体收益数据表征的是多个股票整体关于收益的数据,整体收益数据可以包括多种类型,可以更具实际应用情况选择相应的整体收益数据的类型来实现本申请的方案,本申请对整体收益数据的类型不做限定。
以上可见,本申请在划分目标金融时序数据对应的上行时间区间和下行时间区间时,针对极小值的确定区间和极大值的确定区间,设定不同的时间区间粒度,从而可以更加快速和准确地控制数据划分精度,最终可以提高划分正样本股票特征和负样本股票特征的精确度。
下面,具体介绍股票类型和信噪比的确定方式:
首先介绍一下股票因子。所述股票因子可以是行业、大小市值风格、波动性风格、动量、反转、规模类、盈利类、估值类以及技术复合等类型,股票因子的类型有多种,在此不进行穷举,其中行业可以是按照申万或中信等一级行业进行划分。
不同的股票因子具有对应的因子值,例如规模类,该类别下的因子数据包含的因子值可以为:总资产、营运资本、财务费用、股权自由现金流、折旧与摊销、营业总收入、净营运资本和营业成本等中的至少一个:盈利类,该类别下的因子数据包含的因子值可以为:权益税前回报率、净资产收益率、总资产收益率、净利率、毛利率、总利润率、营业利润率和营业利润占比等中的至少一不同股票因子的因子值,动量类,该类别下的因子数据包含的因子值可以为:长期动量、6月动量、威廉指标、季节性、随机指标、顺势指标(CCI,CommodityChannel lndex)、动量线(MOM,Momentum)和移动平均线(MACD,Moving AverageConvergence/Divergence)中的至少一个。因子值可以从股票相关的数据中获取,或者根据从股票相关的数据中获取的数据进行特定运算得到,各个股票因子的因子值计算方式具有差异,针对每一股票因子,按照该股票因子的因子值的计算方式计算因子值即可。本申请可以基于因子值,划分不同的股票类型。
下面介绍本申请选取股票的因子值,利用股票的因子值确定股票类型的实现方式。
本申请的一种实现方式中,可以选取某一特定时刻的因子值来确定该目标样本股票特征对应的股票的股票类型,示例性的,可以选取预定时段内的指定时间粒度下的某一具体的时间区间,例如,若预定时段为1月至12月,指定时间粒度为1天,则可以指定所述某一特定时刻为第30天,则任一目标样本股票特征对应的股票的因子值,为该任一目标样本股票特征对应的股票在第30天的因子值,任一目标样本股票特征对应的股票的类型,利用所述第30天的因子值确定。
本申请的另一种实现方式中,可以将每一目标样本股票特征对应的股票,在构建该目标样本股票特征构建时所属的指定时间粒度下的时间区间的因子值,作为该目标样本股票特征对应的股票的因子值,再利用所述因子值来确定该目标样本股票特征对应的股票的股票类型。示例性的,若指定时间粒度为1天,目标样本股票特征A是利用第10天的股票1的描述数据构建的,则目标样本股票特征A对应的股票1的因子值为股票1在第10天的因子值,同理,若目标样本股票特征B是利用第20天的股票1的描述数据构建的,则目标样本股票特征B对应的股票1的因子值为股票1在第20天的因子值。后续根据目标样本股票特征对应的股票的因子值确定该目标样本股票特征对应的股票的类型即可。可以理解的是,本实施例的方式中,同一股票,在不同的时间区间中,所对应的股票类型可以是不同的。
本申请中,股票的因子值和股票类型之间的对应关系可以是预先确定好的,无论用上述哪种方式确定出的股票的因子值,都可以按预先确定好的股票的因子值和股票类型之间的对应关系来利用股票的因子值确定股票的类型。本申请的指定时间粒度可以根据实际的应用场景进行设置,本申请不做限定。示例性的,当股票因子为市值因子时,根据每一股票在市值因子上的暴露度也就是因子值,可以将市场中所有股票分为大盘股、中盘股、小盘股和微盘股四类。当股票因子为化学因子时,根据每一股票在化学因子上的暴露度也就是因子值,可以将市场中所有股票分为化学行业股票和非化学行业股票两类。具体而言,针对不同的股票因子的因子值,划分对应的因子值区间,每一因子值区间对应一个股票类型,当股票的因子值在某一因子值区间,则该股票类型为该因子值区间对应的股票类型。
信噪比在数学上的公式如下:
其中,SNR为信噪比,Psignal表征信号,Pnoise表征噪声,x为信号强度,n为噪声强度。
不同类型的股票的信噪比可以利用对应的计算方式计算得到。示例性的,股票因子为市值因子时,大盘股的信噪比参数选定为大盘股市值/万得全A平均市值,中盘股的信噪比参数选定为中盘股市值/万得全A平均市值,小盘股的信噪比参数选定为小盘股市值/万得全A平均市值,微盘股的信噪比参数选定为微盘股市值/万得全A平均市值。股票因子为化学因子时,化学行业股票信噪比参数为万得全A总市值/化学行业股票总市值,非化学行业股票信噪比参数选定为万得全A总市值/非化学行业股票总市值。其中,万得全A是指在上海证券交易所、深圳证券交易所和北京证券交易所上市的所有A股。不同股票信噪比参数是基于该股票的股票类型确定的,且所述信噪比参数还可以受该股票所属的股市类别的影响,例如,股票的股市类别可以为为A股、港股或美股等,不同类别对应的信噪比参数的确定方式有所差异。上述实施例描述的是股票的股市类别为万得全A股时,信噪比参数的计算方式,示例性的,若股票是美股的股票,股票因子为化学因子时,化学行业股票信噪比参数可以为美股总市值/美股中化学行业股票总市值。通常,一个样本集中,各个股票是属于同一股市类别的。
信噪比可以控制针对不同样本股票特征噪声添加的强度,而本申请根据股票的类型特异性的确定每一目标样本股票特征对应的信噪比,因此,本申请可以利用信噪比针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,从而产生更加多样化的数据集。
如图4为本申请的一种样本增广方法的另一流程图,下面,结合图4,具体介绍样本增广方法。
S401,输入金融时序数据;
所述金融时序数据就是上述的目标金融时序数据。
S402,数据划分模块划分数据;
数据划分模块用于实现上述的,将样本集中的各个样本股票特征分为正样本股票特征和负样本股票特征。
S4031,确定少数类别样本。
通过数据划分模块划分数据可以得到少数类别样本。
S4032,确定多数类别样本。
通过数据划分模块划分数据可以得到多数类别样本。
所述少数类别样本和所述多数类别样本与上述正样本股票特征和负样本股票特征对应。
S404,数据增广模块进行数据增广。
针对利用少数类别样本和多数类别样本组成的样本集,可以针对其中的样本进行增广,具体实现方式与上述实施例中的样本增广方式对应,在此不多做赘述。
S405,输出增广后的数据。
数据增广模块针对每一样本可以输出对应的增广后的数据,也就是上述的增广样本股票特征。将各个增广样本股票特征添加到所述样本集中,就可以增广所述样本集。
可见,本实施里的方案可以快速、准确地划分样本,同时,在用此方法划分样本得到结果的基础上,通过添加高斯定向噪声的来增广数据,能够有效解决模型训练样本数量不足的问题,从而利用增广后的样本,可以使得模型训练结果得到提升。
本申请实施例还提供了一种样本增广装置,如图5所示,该装置包括:
计算模块501,用于根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
选取模块502,用于在所述样本集中,选取多个目标样本股票特征;
生成模块503,用于针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
融合模块504,用于针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
添加模块505,用于将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
可见,本申请在为每一目标样本股票特征确定目标噪声特征时,综合考虑了样本集中的各个样本股票特征的特征分布,从而生成的目标噪声特征与样本集中的各个样本股票特征是具有关联的;并且,由于信噪比可以控制针对不同样本股票特征噪声添加的强度,而本申请根据股票的类型来特异性的确定每一目标样本股票特征对应的信噪比,因此,本申请可以利用信噪比针对具有不同金融含义的目标样本股票特征进行更加特异化的增广,从而产生更加多样化的数据集。可见,本申请的方案可以在符合样本集的特征分布的情况下,针对不同样本股票特征进行特异性增广,增加样本股票特征的数量。并且,通过本方案可以产生更加多样化的样本股票特征,从而后续利用样本股票特征训练模型时,可以有效提升模型训练效果。可选的,所述计算模块包括:
构建单元,用于利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
确定单元,用于基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
该目标样本股票特征对应的基准噪声特征的特征维数,与该目标样本股票特征的特征维数相同;
基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征的方式包括:
针对目标分布信息所表征的每一维度的特征分布情况,基于该维度的特征分布情况,选取一个特征值,作为该维度下的噪声特征;
将各维度下的噪声特征所构成的多维特征,作为该目标样本股票特征对应的基准噪声特征。
可选的,所述融合模块包括:
融合单元,用于针对每一目标样本股票特征,将该目标样本股票特征中的每一维度的特征,与对应的目标噪声特征中的相应维度上的特征进行特征融合,得到目标样本股票特征对应的增广样本股票特征。
可选的,所述样本集中的所述各个样本股票特征包括多个正样本股票特征和多个负样本股票特征;
所述在所述样本集中,选取多个目标样本股票特征包括:
基于所述样本集中正样本股票特征和负样本股票特征的数量,以及设定的增广后样本集中样本股票特征的目标数量,确定第一数量和第二数量;其中,所述第一数量为待选取的正样本股票特征的数量,所述第二数量为待选取的负样本股票特征的数量;
从所述样本集中,选取第一数量个正样本股票特征以及第二数量个负样本股票特征,得到多个目标样本股票特征。
可选的,所述样本集中的多个正样本股票特征和多个负样本股票特征的划分方式包括:
确定目标金融时序数据对应的上行时间区间和下行时间区间;其中,所述目标金融时序数据为:由预定时段内所述指定时间粒度下的各时间区间分别对应的整体收益数据,所构成的序列,每一时间区间对应的整体收益数据为所述样本集中涉及的各个股票,在该时间区间内针对指定股票因子的整体收益数据;所述上行时间区间为表征目标金融时序数据处于上升趋势的时段,所述下行时间区间为表征目标时序金融数据处于下降趋势的时段;
针对每一样本股票特征,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征为正样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征为负样本股票特征;其中,所述至少一维特征对应的时间区间为所述至少一维特征对应的至少一种描述数据所属的时间区间;
其中,所述上行时间区间和下行时间区间的确定方式为:
针对预定时段内的指定时间粒度下的每一时间区间,基于所述目标金融时序数据,确定该时间区间对应的整体收益数据是否为极大值或极小值,若是极大值,则将该时间区间标记为极大值点,若是极小值,将该时间区间标记为极小值点;
将相邻极大值点之间的最小的极小值点作为目标极小值点;
按时间顺序,将从任一极大值点到该极大值点相邻的下一目标极小值点之间所包括的时段,作为下行时间区间,以及,将从任一目标极小值点到该目标极小值点相邻的下一极大值点之间所包括的时段,作为上行时间区间。
本申请实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现上述任一所述的样本增广方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的样本增广方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的样本增广方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (10)
1.一种样本增广方法,其特征在于,所述方法包括:
根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
在所述样本集中,选取多个目标样本股票特征;
针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
2.根据权利要求1所述的方法,其特征在于,所述根据样本集中的样本股票特征,计算目标分布信息包括:
利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
3.根据权利要求1所述的方法,其特征在于,
该目标样本股票特征对应的基准噪声特征的特征维数,与该目标样本股票特征的特征维数相同;
基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征的方式包括:
针对目标分布信息所表征的每一维度的特征分布情况,基于该维度的特征分布情况,选取一个特征值,作为该维度下的噪声特征;
将各维度下的噪声特征所构成的多维特征,作为该目标样本股票特征对应的基准噪声特征。
4.根据权利要求1所述的方法,其特征在于,所述针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征包括:
针对每一目标样本股票特征,将该目标样本股票特征中的每一维度的特征,与对应的目标噪声特征中的相应维度上的特征进行特征融合,得到目标样本股票特征对应的增广样本股票特征。
5.根据权利要求1所述的方法,其特征在于,所述样本集中的所述各个样本股票特征包括多个正样本股票特征和多个负样本股票特征;
所述在所述样本集中,选取多个目标样本股票特征包括:
基于所述样本集中正样本股票特征和负样本股票特征的数量,以及设定的增广后样本集中样本股票特征的目标数量,确定第一数量和第二数量;其中,所述第一数量为待选取的正样本股票特征的数量,所述第二数量为待选取的负样本股票特征的数量;
从所述样本集中,选取第一数量个正样本股票特征以及第二数量个负样本股票特征,得到多个目标样本股票特征。
6.根据权利要求4所述的方法,其特征在于,所述样本集中的多个正样本股票特征和多个负样本股票特征的划分方式包括:
确定目标金融时序数据对应的上行时间区间和下行时间区间;其中,所述目标金融时序数据为:由预定时段内所述指定时间粒度下的各时间区间分别对应的整体收益数据,所构成的序列,每一时间区间对应的整体收益数据为所述样本集中涉及的各个股票,在该时间区间内针对指定股票因子的整体收益数据;所述上行时间区间为表征目标金融时序数据处于上升趋势的时段,所述下行时间区间为表征目标时序金融数据处于下降趋势的时段;
针对每一样本股票特征,若该样本股票特征所包括的至少一维特征对应的时间区间,位于上行时间区间内,则该样本股票特征为正样本股票特征;若该样本股票特征所包括的至少一维特征对应的时间区间位于下行时间区间内,则该样本股票特征为负样本股票特征;其中,所述至少一维特征对应的时间区间为所述至少一维特征对应的至少一种描述数据所属的时间区间;
其中,所述上行时间区间和下行时间区间的确定方式为:
针对预定时段内的指定时间粒度下的每一时间区间,基于所述目标金融时序数据,确定该时间区间对应的整体收益数据是否为极大值或极小值,若是极大值,则将该时间区间标记为极大值点,若是极小值,将该时间区间标记为极小值点;
将相邻极大值点之间的最小的极小值点作为目标极小值点;
按时间顺序,将从任一极大值点到该极大值点相邻的下一目标极小值点之间所包括的时段,作为下行时间区间,以及,将从任一目标极小值点到该目标极小值点相邻的下一极大值点之间所包括的时段,作为上行时间区间。
7.一种样本增广装置,其特征在于,所述装置包括:
计算模块,用于根据样本集中的各个样本股票特征,计算目标分布信息;其中,每一样本股票特征包括一只股票对应的至少一维特征,任一只股票对应的至少一维特征为:该只股票在指定时间粒度下的时间区间内的至少一种描述数据对应的特征;所述目标分布信息用于表征所述各个样本股票特征的各维特征的特征分布情况;
选取模块,用于在所述样本集中,选取多个目标样本股票特征;
生成模块,用于针对每一目标样本股票特征,基于目标分布信息,生成该目标样本股票特征对应的基准噪声特征,并基于所述基准噪声特征和该目标样本股票特征对应的信噪比,确定该目标样本股票特征待添加的噪声特征,作为该目标样本股票特征对应的目标噪声特征;其中,任一目标样本股票特征对应的信噪比为基于该目标样本股票特征对应的股票的类型确定的,且用于表征针对该目标样本股票特征进行噪声特征添加时,所需添加噪声特征的强度;
融合模块,用于针对每一目标样本股票特征,将该目标样本股票特征和该目标样本股票特征对应的目标噪声特征进行特征融合,得到该目标样本股票特征对应的增广样本股票特征;
添加模块,用于将各个增广样本股票特征添加到所述样本集中,以增广所述样本集。
8.根据权利要求7所述的装置,其特征在于,所述计算模块包括:
构建单元,用于利用样本集中的各个样本股票特征,构建至少一维特征序列;其中,所述特征序列的维度数量与任一样本股票特征所包括的特征的特征维数相同;每一维特征序列包括所述各个样本股票特征中同一维度的特征;
确定单元,用于基于所述至少一维特征序列,确定关于样本集中各维度的特征分布的目标分布信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410630356.7A CN118468031A (zh) | 2024-05-21 | 2024-05-21 | 一种样本增广方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410630356.7A CN118468031A (zh) | 2024-05-21 | 2024-05-21 | 一种样本增广方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118468031A true CN118468031A (zh) | 2024-08-09 |
Family
ID=92157231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410630356.7A Pending CN118468031A (zh) | 2024-05-21 | 2024-05-21 | 一种样本增广方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118468031A (zh) |
-
2024
- 2024-05-21 CN CN202410630356.7A patent/CN118468031A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110544155B (zh) | 用户信用评分的获取方法、获取装置、服务器及存储介质 | |
CN113282960B (zh) | 一种基于联邦学习的隐私计算方法、装置、系统及设备 | |
Kohli et al. | Construction and analysis of a global GDP growth model for 185 countries through 2050 | |
CN116596095A (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
Pavlov | Forecasting inflation in Russia using neural networks | |
KR20180059203A (ko) | 지불 거절 사기 사용자의 예측 방법 및 프로그램 | |
Díaz et al. | Machine learning and statistical techniques. An application to the prediction of insolvency in Spanish non-life insurance companies | |
CN113656707B (zh) | 一种理财产品推荐方法、系统、存储介质及设备 | |
Chen et al. | Distributionally robust optimization with confidence bands for probability density functions | |
Limmer et al. | Robust Hedging GANs | |
Yadav et al. | RBF based some implicit–explicit finite difference schemes for pricing option under extended jump-diffusion model | |
CN118468031A (zh) | 一种样本增广方法、装置、电子设备及存储介质 | |
CN110633971A (zh) | 资损估计方法以及装置 | |
CN113269259B (zh) | 一种目标信息的预测方法及装置 | |
TWI778789B (zh) | 配方建構系統、配方建構方法、內儲程式之電腦可讀取記錄媒體與非暫時性電腦程式產品 | |
CN115099514A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113222767A (zh) | 指数化证券组合的数据处理方法及装置 | |
Li et al. | Worst-case Omega ratio under distribution uncertainty with its application in robust portfolio selection | |
Rivier et al. | Non‐parametric measure approximations for constrained multi‐objective optimisation under uncertainty | |
Yu et al. | Testing the number of common factors by bootstrapped sample covariance matrix in high-dimensional factor models | |
Mu et al. | Supervised machine learning with control variates for American option pricing | |
Tu et al. | Testing for a unit root with nonstationary nonlinear heteroskedasticity | |
CN113538020B (zh) | 获取客群特征关联度方法、装置、存储介质和电子装置 | |
Barry et al. | Applying the Shadow Rating Approach: A Practical Review | |
Feng et al. | Under-Resourced Machine Learning for Stock Market Prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |