CN112364077A - 训练样本生成方法、机器学习模型训练方法及相关装置 - Google Patents

训练样本生成方法、机器学习模型训练方法及相关装置 Download PDF

Info

Publication number
CN112364077A
CN112364077A CN202011241499.7A CN202011241499A CN112364077A CN 112364077 A CN112364077 A CN 112364077A CN 202011241499 A CN202011241499 A CN 202011241499A CN 112364077 A CN112364077 A CN 112364077A
Authority
CN
China
Prior art keywords
rate
return
time sequence
historical information
yield
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011241499.7A
Other languages
English (en)
Inventor
张轶
杨光
杨雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Financial Management Co ltd
Original Assignee
Everbright Financial Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Financial Management Co ltd filed Critical Everbright Financial Management Co ltd
Priority to CN202011241499.7A priority Critical patent/CN112364077A/zh
Publication of CN112364077A publication Critical patent/CN112364077A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种训练样本生成方法、机器学习模型训练方法及相关装置,训练样本生成方法通过判断包含历史信息的收益率时间序列是否符合平稳性要求,及确定线性相关系数,对滑动平均函数的参数进行更新,并生成新的包含历史信息的收益率时间序列,直至符合稳定性要求且大于预设阈值时,停止更新参数及变换,保证得到的包含历史信息的收益率时间序列既能保留历史信息,并能保持平稳性及和变换前的收益率时间序列线性相关,提高训练样本的可靠性,进一步提高对机器学习模型进行训练的准确性。

Description

训练样本生成方法、机器学习模型训练方法及相关装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种训练样本生成方法、机器学习模型训练方法及相关装置。
背景技术
在时间序列分析领域,资产价格序列在不同时间段往往不具有可比性,因此,通常使用通过价格差分得到的收益率时间序列,收益率时间序列具有良好的平稳性特征,是其作为训练模型输入参数的必要条件。
但是,收益率时间序列的计算过程只涉及到前后两个时间点(如,T和T-1两个时间点)的信息,导致收益率时间序列的历史信息特征不足,进而导致基于收益率时间序列训练出的机器学习模型的准确性不高。
发明内容
为解决上述技术问题,本申请实施例提供一种训练样本生成方法、机器学习模型训练方法及相关装置,以达到对增加收益率时间序列的历史信息,提高机器学习模型的准确性的目的,技术方案如下:
一种训练样本生成方法,包括:
获取收益率时间序列,并初始化滑动平均函数;
利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列;
判断所述包含历史信息的收益率时间序列是否符合平稳性要求;
若不符合所述平稳性要求,则更新所述滑动平均函数的参数,并返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤;
若符合平稳性要求,则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数;
判断所述线性相关系数是否大于预设阈值;
若大于所述预设阈值,则将所述包含历史信息的收益率时间序列作为训练样本;
若不大于所述预设阈值,则返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤。
所述利用所述滑动平均函数对所述收益率时间序列进行变换,包括:
利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
所述利用所述滑动平均函数对所述收益率时间序列进行变换,包括:
利用自定义变换函数
Figure BDA0002768562160000021
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure BDA0002768562160000022
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
所述判断所述包含历史信息的收益率时间序列是否符合平稳性要求,包括:
将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型,得到所述平稳性假设检验模型输出的指标;
判断所述指标是否满足设定预测阈值平稳性假设检验模型。
一种机器学习模型训练方法,包括:
获取包含历史信息的收益率时间序列,所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的;
利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
一种训练样本生成装置,包括:
初始化模块,用于获取收益率时间序列,并初始化滑动平均函数;
变换模块,用于利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列;
第一判断模块,用于判断所述包含历史信息的收益率时间序列是否符合平稳性要求;
更新模块,用于若不符合所述平稳性要求,则更新所述滑动平均函数的参数,并返回执行所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换;
第一确定模块,用于若符合平稳性要求,则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数;
第二判断模块,用于判断所述线性相关系数是否大于预设阈值,若不大于所述预设阈值,则返回所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换;
第二确定模块,用于若大于所述预设阈值,则将所述包含历史信息的收益率时间序列作为训练样本。
所述变换模块,具体用于:
利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
所述变换模块,具体用于:
利用自定义变换函数
Figure BDA0002768562160000031
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure BDA0002768562160000032
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
所述第一判断模块,具体用于:
将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型,得到所述平稳性假设检验模型输出的指标;
判断所述指标是否满足设定预测阈值平稳性假设检验模型。
一种机器学习模型训练装置,包括:
获取模块,用于获取包含历史信息的收益率时间序列,所述历史信息的收益率时间序列为基于上述任意一项所述的训练样本生成方法生成的;
训练模块,用于利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
与现有技术相比,本申请的有益效果为:
在本申请中,利用滑动平均函数对收益率时间序列进行变换,得到包含历史信息的收益率时间序列,实现对收益率时间序列中的历史信息特征的增加,将包含历史信息的收益率时间序列作为训练样本,能够提高机器学习模型训练的准确性。
并且,通过判断包含历史信息的收益率时间序列是否符合平稳性要求,及确定线性相关系数,对滑动平均函数的参数进行更新,并生成新的包含历史信息的收益率时间序列,直至符合稳定性要求且大于预设阈值时,停止更新参数及变换,保证得到的包含历史信息的收益率时间序列既能保留历史信息,并能保持平稳性及和变换前的收益率时间序列线性相关,提高训练样本的可靠性,进一步提高对机器学习模型进行训练的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种训练样本生成方法实施例1的流程图;
图2是本申请提供的一种训练样本生成方法实施例2的流程图;
图3是本申请提供的一种训练样本生成方法实施例3的流程图;
图4是本申请提供的一种机器学习模型训练方法实施例1的流程图;
图5是本申请提供的一种训练样本生成装置的逻辑结构示意图;
图6是本申请提供的一种机器学习模型训练装置的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,为本申请实施例1提供的一种训练样本生成方法的流程示意图,该方法可以应用于电子设备,本申请对电子设备的产品类型不做限定,如图1所示,该方法可以包括但并不局限于以下步骤:
步骤S11、获取收益率时间序列,并初始化滑动平均函数。
收益率时间序列可以通过以下方式确定:
S111、收集t-1时刻的交易行情时间序列数据Pt-1及t时刻的交易行情时间序列数据Pt
S112、利用差分法计算收益率时间序列Rt=(Pt–Pt-1)/Pt-1
初始化滑动平均函数,可以理解为:为滑动平均函数中的参数赋予初始值。
步骤S12、利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列。
本实施例中,利用滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列,可以理解为:利用滑动平均函数对收益率时间序列中每个数据进行变换,使每个数据包含其所属时间点之前的数据信息,得到包含历史信息的收益率时间序列。例如,通过变换A_t=mean(A_t,A_t-1,…,A_0),用T时间点和之前的数据点的均值替换T时间点的数据,即为T时间点的数据赋予了历史数据信息。
本实施例中,滑动平均函数可以根据需要进行设置,在本实施例中不做限制。
步骤S13、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。
本实施例中,平稳性要求,可以包括但不局限于:严格平稳要求,1阶平稳要求,2阶平稳要求…或,n阶平稳要求。
1阶平稳要求,可以理解为:时间序列数据的均值不随时间变化而变化;2阶平稳要求可以理解为时间序列数据的均值和方差不随时间变化而变化;n阶平稳要求可以理解为:时间序列数据小于等于n阶的统计变量不随时间变化而变化;严格平稳要求可以理解为:时间序列数据的任意统计变量不随时间变化而变化。
本实施例中,所述判断所述包含历史信息的收益率时间序列是否符合平稳性要求,可以包括但不局限于:
S131、将所述包含历史信息的收益率时间序列输入到平稳性ADF(AugmentedDickey–Fuller test,假设检验模型),得到所述平稳性ADF输出的指标;
S132、判断所述指标是否满足设定预测阈值。
设定预测阈值可以根据需要进行设置,在本申请中不做限制。
在所述指标满足设定预测阈值时,表明包含历史信息的收益率时间序列符合平稳性要求。
平稳性假设检验模型若否,则执行步骤S14;若是,则执行步骤S15。
步骤S14、更新所述滑动平均函数的参数,并返回执行步骤S12。
步骤S15、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。
本实施例中,可以通过以下关系式,确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数:
Figure BDA0002768562160000071
ρ(x,y)表示线性相关系数,σx表示原始收益率时间序列,σy表述包含历史信息的收益率序列,COV(x,y)表述x和y的协方差
步骤S16、判断所述线性相关系数是否大于预设阈值。
若是,则执行步骤S17;若否,则返回执行步骤S12。
本实施例中,预设阈值可以根据需要进行设置,在本申请中不做限制。
步骤S17、将所述包含历史信息的收益率时间序列作为训练样本。
本实施例中,在包含历史信息的收益率时间序列是否符合平稳性要求,且,所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数大于预设阈值的情况下,将包含历史信息的收益率时间序列作为训练样本,保证包含历史信息的收益率时间序列既保留有平稳性,且与变换之前的收益率时间序列保持相关性。
在本申请中,利用滑动平均函数对收益率时间序列进行变换,得到包含历史信息的收益率时间序列,将包含历史信息的收益率时间序列作为训练样本,能够提高机器学习模型训练的准确性。
并且,通过判断包含历史信息的收益率时间序列是否符合平稳性要求,及确定线性相关系数,对滑动平均函数的参数进行更新,并生成新的包含历史信息的收益率时间序列,直至符合稳定性要求且大于预设阈值时,停止更新参数及变换,保证得到的包含历史信息的收益率时间序列既能保留历史信息,并能保持平稳性及和变换前的收益率时间序列线性相关,提高训练样本的可靠性,进一步提高对机器学习模型进行训练的准确性。
作为本申请另一可选实施例,如图2所示,为本申请提供的一种训练样本生成方法实施例2的流程示意图,本实施例主要是对上述实施例1描述的训练样本生成方法的细化方案,该方法可以包括但并不局限于以下步骤:
步骤S21、获取收益率时间序列,并初始化滑动平均函数。
步骤S21的详细过程可以参见实施例1中步骤S11的相关介绍,在此不再赘述。
步骤S22、利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值。
EWMA变换函数可以理解为:基于加权滑动平均原理的变换函数。其中,加权滑动平均原理的核心为确定每个历史数据的权重。EWMA变换函数具体以使距离目标时刻较近的历史数据比距离目标时刻较远的历史数据有更高的权重,并且收敛到0为目标,确定历史数据的权重。具体地,可以基于以下关系式确定权重:ωt=(1-α)ωt-1 ωt=(1-α)t
基于
Figure BDA0002768562160000081
及ωt=(1-α)t,推导得到EWMA变换函数
Figure BDA0002768562160000082
其中,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数,ωt表示t时刻的数据的权重。
α取值范围可以为0~1,从EWMA变换函数中可以看出离t时刻越近的数据权重越大且收敛到0,α越大历史数据的权重衰减速度越快,变换后的收益率时间序列中历史信息含量越低。
步骤S23、将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
现举例对步骤S22-S23进行说明,例如,若所述收益率时间序列为:
Rt:0.12,0.21,0.09,0.17,0.27…
令α=0.1
R′0=R0=0.12
R′1=αR1+(1-α)R′0=0.1*0.21+(1-0.1)*0.12=0.129
R′2=αR2+(1-α)R′1=0.1*0.09+(1-0.1)*0.129=0.1251
R′3=αR3+(1-α)R′2=0.1*0.17+(1-0.1)*0.1251=0.1296
R′4=αR4+(1-α)R′3=0.1*0.27+(1-0.1)*0.1296=0.1436
转换后得到的包含历史信息的收益率时间序列为R′t:0.12,0.129,0.1251,0.1296,0.1436。
步骤S22-S23为实施例1中步骤S12的一种具体实施方式。
步骤S24、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。
若否,则执行步骤S25;若是,则执行步骤S26。
步骤S25、更新所述滑动平均函数的参数,并返回执行步骤S22。
步骤S26、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。
步骤S27、判断所述线性相关系数是否大于预设阈值。
若是,则执行步骤S28;若否,则返回执行步骤S22。
步骤S28、将所述包含历史信息的收益率时间序列作为训练样本。
步骤S24-S28的详细过程可以参见实施例1中步骤S13-S17的相关介绍,在此不再赘述。
作为本申请另一可选实施例,如图3所示,为本申请提供的一种训练样本生成方法实施例3的流程示意图,本实施例主要是对上述实施例1描述的训练样本生成方法的细化方案,该方法可以包括但并不局限于以下步骤:
步骤S31、获取收益率时间序列,并初始化滑动平均函数。
步骤S32、利用自定义变换函数
Figure BDA0002768562160000091
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值。
其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure BDA0002768562160000092
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数。
Figure BDA0002768562160000101
可以通过对
Figure BDA0002768562160000102
ω0=1进行推导得到。
d取值范围可以为0~1,从自定义变换函数
Figure BDA0002768562160000103
中可以看出离t时刻越近的数据权重越大且收敛到0,d越大历史数据的权重衰减速度越快,变换后得到的收益率时间序列中历史信息含量越低。
步骤S33、将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
现举例对步骤S32-S33进行说明,例如,若所述收益率时间序列为
Rt:0.12,0.21,0.09,0.17,0.27…
令d=0.1
Figure BDA0002768562160000104
Figure BDA0002768562160000105
Figure BDA0002768562160000106
Figure BDA0002768562160000107
Figure BDA0002768562160000108
Figure BDA0002768562160000109
Figure BDA00027685621600001010
Figure BDA00027685621600001011
Figure BDA00027685621600001012
则转换后得到的包含历史信息的收益率时间序列为R′t:0.12,0.22,0.0787,0.1786,0.2671。
步骤S34、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。
若否,则执行步骤S35;若是,则执行步骤36。
步骤S35、更新所述滑动平均函数的参数,并返回执行步骤S32。
步骤S36、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。
步骤S37、判断所述线性相关系数是否大于预设阈值。
若是,则执行步骤S38;若否,则返回执行步骤S32。
步骤S38、将所述包含历史信息的收益率时间序列作为训练样本。
作为本申请另一可选实施例,如图4所示,为本申请提供的一种机器学习模型训练方法实施例1的流程图,该方法可以包括但并不局限于以下步骤:
步骤S41、获取包含历史信息的收益率时间序列。
所述历史信息的收益率时间序列为基于方法实施例1-3中任意一个实施例所介绍的训练样本生成方法生成的。
步骤S42、利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
本实施例中,获取包含历史信息的收益率时间序列,并利用历史信息的收益率时间序列,对机器学习模型进行训练,能够提高训练的准确性。
接下来对本申请实施例提供的训练样本生成装置进行介绍,下文介绍的训练样本生成装置与上文介绍的训练样本生成方法可相互对应参照。
请参见图5,训练样本生成装置包括:初始化模块100、变换模块200、第一判断模块300、更新模块400、第一确定模块500、第二判断模块600和第二确定模块700。
初始化模块100,用于获取收益率时间序列,并初始化滑动平均函数;
变换模块200,用于利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列;
第一判断模块300,用于判断所述包含历史信息的收益率时间序列是否符合平稳性要求;
更新模块400,用于若不符合所述平稳性要求,则更新所述滑动平均函数的参数,并返回执行所述变换模块200利用所述滑动平均函数对所述收益率时间序列进行变换;
第一确定模块500,用于若符合平稳性要求,则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数;
第二判断模块600,用于判断所述线性相关系数是否大于预设阈值,若不大于所述预设阈值,则返回所述变换模块200利用所述滑动平均函数对所述收益率时间序列进行变换;
第二确定模块700,用于若大于所述预设阈值,则将所述包含历史信息的收益率时间序列作为训练样本。
本实施例中,所述变换模块200,具体可以用于:
利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
本实施例中,所述变换模块200,具体可以用于:
利用自定义变换函数
Figure BDA0002768562160000121
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure BDA0002768562160000122
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
本实施例中,所述第一判断模块300,具体可以用于:
将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型,得到所述平稳性假设检验模型输出的指标;
判断所述指标是否满足设定预测阈值平稳性假设检验模型。
在本申请的另一个实施例中,提供一种机器学习模型训练装置,请参见图6,机器学习模型训练装置包括:获取模块800和训练模块900。
获取模块800,用于获取包含历史信息的收益率时间序列,所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的;
训练模块900,用于利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
需要说明的是,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过软件加相关的硬件来完成。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种生成网络的训练方法、音频数据增强方法及相关装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种训练样本生成方法,其特征在于,包括:
获取收益率时间序列,并初始化滑动平均函数;
利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列;
判断所述包含历史信息的收益率时间序列是否符合平稳性要求;
若不符合所述平稳性要求,则更新所述滑动平均函数的参数,并返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤;
若符合平稳性要求,则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数;
判断所述线性相关系数是否大于预设阈值;
若大于所述预设阈值,则将所述包含历史信息的收益率时间序列作为训练样本;
若不大于所述预设阈值,则返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤。
2.根据权利要求1所述的方法,其特征在于,所述利用所述滑动平均函数对所述收益率时间序列进行变换,包括:
利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
3.根据权利要求1所述的方法,其特征在于,所述利用所述滑动平均函数对所述收益率时间序列进行变换,包括:
利用自定义变换函数
Figure FDA0002768562150000011
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure FDA0002768562150000012
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
4.根据权利要求1所述的方法,其特征在于,所述判断所述包含历史信息的收益率时间序列是否符合平稳性要求,包括:
将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型,得到所述平稳性假设检验模型输出的指标;
判断所述指标是否满足设定预测阈值。
5.一种机器学习模型训练方法,其特征在于,包括:
获取包含历史信息的收益率时间序列,所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的;
利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
6.一种训练样本生成装置,其特征在于,包括:
初始化模块,用于获取收益率时间序列,并初始化滑动平均函数;
变换模块,用于利用所述滑动平均函数对所述收益率时间序列进行变换,得到包含历史信息的收益率时间序列;
第一判断模块,用于判断所述包含历史信息的收益率时间序列是否符合平稳性要求;
更新模块,用于若不符合所述平稳性要求,则更新所述滑动平均函数的参数,并返回执行所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换;
第一确定模块,用于若符合平稳性要求,则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数;
第二判断模块,用于判断所述线性相关系数是否大于预设阈值,若不大于所述预设阈值,则返回所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换;
第二确定模块,用于若大于所述预设阈值,则将所述包含历史信息的收益率时间序列作为训练样本。
7.根据权利要求6所述的装置,其特征在于,所述变换模块,具体用于:
利用EWMA变换函数yt=αxt+(1-α)yt-1,分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,,yt表示t时刻的变换后的收益率值,yt-1表示t-1时刻是变换后的收益率值,xt表示所述收益率时间序列中的其中一个收益率值,α表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
8.根据权利要求6所述的装置,其特征在于,所述变换模块,具体用于:
利用自定义变换函数
Figure FDA0002768562150000031
分别对所述收益率时间序列中每个收益率值进行变换,得到变换后的收益率值,其中,yt表示变换后的收益率值,ωi表示权重且ωi通过
Figure FDA0002768562150000032
计算得到,i为小于t的整数,yt-1表示所述收益率时间序列中的其中一个收益率值,d表示衰减参数;
将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。
9.根据权利要求6所述的装置,其特征在于,所述第一判断模块,具体用于:
将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型,得到所述平稳性假设检验模型输出的指标;
判断所述指标是否满足设定预测阈值平稳性假设检验模型。
10.一种机器学习模型训练装置,其特征在于,包括:
获取模块,用于获取包含历史信息的收益率时间序列,所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的;
训练模块,用于利用所述历史信息的收益率时间序列,对机器学习模型进行训练。
CN202011241499.7A 2020-11-09 2020-11-09 训练样本生成方法、机器学习模型训练方法及相关装置 Pending CN112364077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011241499.7A CN112364077A (zh) 2020-11-09 2020-11-09 训练样本生成方法、机器学习模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011241499.7A CN112364077A (zh) 2020-11-09 2020-11-09 训练样本生成方法、机器学习模型训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN112364077A true CN112364077A (zh) 2021-02-12

Family

ID=74509176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011241499.7A Pending CN112364077A (zh) 2020-11-09 2020-11-09 训练样本生成方法、机器学习模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN112364077A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN110349027A (zh) * 2019-07-19 2019-10-18 湘潭大学 基于深度强化学习的配对交易系统
CN110390342A (zh) * 2018-04-16 2019-10-29 北京京东尚科信息技术有限公司 时间序列预测方法和装置
CN110795246A (zh) * 2019-10-25 2020-02-14 新华三大数据技术有限公司 资源利用率的预测方法及装置
CN110851333A (zh) * 2019-11-14 2020-02-28 北京金山云网络技术有限公司 根分区的监控方法、装置和监控服务器
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346464A (zh) * 2016-05-06 2017-11-14 腾讯科技(深圳)有限公司 业务指标预测方法及装置
CN110390342A (zh) * 2018-04-16 2019-10-29 北京京东尚科信息技术有限公司 时间序列预测方法和装置
CN111797858A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 模型训练方法、行为预测方法、装置、存储介质及设备
CN110349027A (zh) * 2019-07-19 2019-10-18 湘潭大学 基于深度强化学习的配对交易系统
CN110795246A (zh) * 2019-10-25 2020-02-14 新华三大数据技术有限公司 资源利用率的预测方法及装置
CN110851333A (zh) * 2019-11-14 2020-02-28 北京金山云网络技术有限公司 根分区的监控方法、装置和监控服务器
CN111562996A (zh) * 2020-04-11 2020-08-21 北京交通大学 一种关键性能指标数据的时序异常检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王谨平: "基于金融数据的时间序列研究与应用", 《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》 *
董清利: "时间序列组合预测模型的建立与应用研究", 《中国博士学位论文全文数据库 (基础科学辑)》 *

Similar Documents

Publication Publication Date Title
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN109543109B (zh) 一种融合时间窗技术和评分预测模型的推荐算法
JP6622329B2 (ja) 目標値推定システム、目標値推定方法及び目標値推定用プログラム
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN110347971B (zh) 基于tsk模糊模型的粒子滤波方法、装置及存储介质
Lin et al. Diffusion models for time-series applications: a survey
CN112365876B (zh) 语音合成模型的训练方法、装置、设备以及存储介质
CN112597392B (zh) 一种基于动态注意力和分层强化学习的推荐系统
Gu et al. Nonlinear predictive model selection and model averaging using information criteria
CN110633859B (zh) 一种两阶段分解集成的水文序列预测方法
KR100949439B1 (ko) 신뢰 모델에서 언페어 레이팅을 필터링하기 위한 행동 기반방법
CN111326169A (zh) 一种语音质量的评价方法及装置
US20190251941A1 (en) Chord Estimation Method and Chord Estimation Apparatus
CN112612920A (zh) 基于领域交互信息强度因子分解机的电影点击率预估方法
CN115098789A (zh) 基于神经网络的多维兴趣融合推荐方法、装置及相关设备
CN117407771A (zh) 基于数字孪生的轴承健康状态评估方法、装置及相关设备
Puchstein et al. Testing for stationarity in multivariate locally stationary processes
CN112364077A (zh) 训练样本生成方法、机器学习模型训练方法及相关装置
Basturk et al. The R package MitISEM: Efficient and robust simulation procedures for Bayesian inference
Thalor et al. Incremental learning on non-stationary data stream using ensemble approach
CN114186646A (zh) 区块链异常交易识别方法及装置、存储介质及电子设备
CN116956171A (zh) 基于ai模型的分类方法、装置、设备及存储介质
CN114610871A (zh) 基于人工智能算法的情报系统建模分析方法
CN113516559A (zh) 基金风险确定方法及装置
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210212

RJ01 Rejection of invention patent application after publication