CN112364077A

CN112364077A - 训练样本生成方法、机器学习模型训练方法及相关装置

Info

Publication number: CN112364077A
Application number: CN202011241499.7A
Authority: CN
Inventors: 张轶; 杨光; 杨雪松
Original assignee: Everbright Financial Management Co ltd
Current assignee: Everbright Financial Management Co ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-12

Abstract

本申请提供了一种训练样本生成方法、机器学习模型训练方法及相关装置，训练样本生成方法通过判断包含历史信息的收益率时间序列是否符合平稳性要求，及确定线性相关系数，对滑动平均函数的参数进行更新，并生成新的包含历史信息的收益率时间序列，直至符合稳定性要求且大于预设阈值时，停止更新参数及变换，保证得到的包含历史信息的收益率时间序列既能保留历史信息，并能保持平稳性及和变换前的收益率时间序列线性相关，提高训练样本的可靠性，进一步提高对机器学习模型进行训练的准确性。

Description

训练样本生成方法、机器学习模型训练方法及相关装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种训练样本生成方法、机器学习模型训练方法及相关装置。

背景技术

在时间序列分析领域，资产价格序列在不同时间段往往不具有可比性，因此，通常使用通过价格差分得到的收益率时间序列，收益率时间序列具有良好的平稳性特征，是其作为训练模型输入参数的必要条件。

但是，收益率时间序列的计算过程只涉及到前后两个时间点(如，T和T-1两个时间点)的信息，导致收益率时间序列的历史信息特征不足，进而导致基于收益率时间序列训练出的机器学习模型的准确性不高。

发明内容

为解决上述技术问题，本申请实施例提供一种训练样本生成方法、机器学习模型训练方法及相关装置，以达到对增加收益率时间序列的历史信息，提高机器学习模型的准确性的目的，技术方案如下：

一种训练样本生成方法，包括：

获取收益率时间序列，并初始化滑动平均函数；

利用所述滑动平均函数对所述收益率时间序列进行变换，得到包含历史信息的收益率时间序列；

判断所述包含历史信息的收益率时间序列是否符合平稳性要求；

若不符合所述平稳性要求，则更新所述滑动平均函数的参数，并返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤；

若符合平稳性要求，则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数；

判断所述线性相关系数是否大于预设阈值；

若大于所述预设阈值，则将所述包含历史信息的收益率时间序列作为训练样本；

若不大于所述预设阈值，则返回执行所述利用所述滑动平均函数对所述收益率时间序列进行变换的步骤。

所述利用所述滑动平均函数对所述收益率时间序列进行变换，包括：

利用EWMA变换函数y_t＝αx_t+(1-α)y_t-1，分别对所述收益率时间序列中每个收益率值进行变换，得到变换后的收益率值，其中，，y_t表示t时刻的变换后的收益率值，y_t-1表示t-1时刻是变换后的收益率值，x_t表示所述收益率时间序列中的其中一个收益率值，α表示衰减参数；

将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。

利用自定义变换函数

分别对所述收益率时间序列中每个收益率值进行变换，得到变换后的收益率值，其中，y_t表示变换后的收益率值，ω_i表示权重且ω_i通过

计算得到，i为小于t的整数，y_t-1表示所述收益率时间序列中的其中一个收益率值，d表示衰减参数；

所述判断所述包含历史信息的收益率时间序列是否符合平稳性要求，包括：

将所述包含历史信息的收益率时间序列输入到平稳性假设检验模型，得到所述平稳性假设检验模型输出的指标；

判断所述指标是否满足设定预测阈值平稳性假设检验模型。

一种机器学习模型训练方法，包括：

获取包含历史信息的收益率时间序列，所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的；

利用所述历史信息的收益率时间序列，对机器学习模型进行训练。

一种训练样本生成装置，包括：

初始化模块，用于获取收益率时间序列，并初始化滑动平均函数；

变换模块，用于利用所述滑动平均函数对所述收益率时间序列进行变换，得到包含历史信息的收益率时间序列；

第一判断模块，用于判断所述包含历史信息的收益率时间序列是否符合平稳性要求；

更新模块，用于若不符合所述平稳性要求，则更新所述滑动平均函数的参数，并返回执行所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换；

第一确定模块，用于若符合平稳性要求，则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数；

第二判断模块，用于判断所述线性相关系数是否大于预设阈值，若不大于所述预设阈值，则返回所述变换模块利用所述滑动平均函数对所述收益率时间序列进行变换；

第二确定模块，用于若大于所述预设阈值，则将所述包含历史信息的收益率时间序列作为训练样本。

所述变换模块，具体用于：

利用自定义变换函数

所述第一判断模块，具体用于：

判断所述指标是否满足设定预测阈值平稳性假设检验模型。

一种机器学习模型训练装置，包括：

获取模块，用于获取包含历史信息的收益率时间序列，所述历史信息的收益率时间序列为基于上述任意一项所述的训练样本生成方法生成的；

训练模块，用于利用所述历史信息的收益率时间序列，对机器学习模型进行训练。

与现有技术相比，本申请的有益效果为：

在本申请中，利用滑动平均函数对收益率时间序列进行变换，得到包含历史信息的收益率时间序列，实现对收益率时间序列中的历史信息特征的增加，将包含历史信息的收益率时间序列作为训练样本，能够提高机器学习模型训练的准确性。

并且，通过判断包含历史信息的收益率时间序列是否符合平稳性要求，及确定线性相关系数，对滑动平均函数的参数进行更新，并生成新的包含历史信息的收益率时间序列，直至符合稳定性要求且大于预设阈值时，停止更新参数及变换，保证得到的包含历史信息的收益率时间序列既能保留历史信息，并能保持平稳性及和变换前的收益率时间序列线性相关，提高训练样本的可靠性，进一步提高对机器学习模型进行训练的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种训练样本生成方法实施例1的流程图；

图2是本申请提供的一种训练样本生成方法实施例2的流程图；

图3是本申请提供的一种训练样本生成方法实施例3的流程图；

图4是本申请提供的一种机器学习模型训练方法实施例1的流程图；

图5是本申请提供的一种训练样本生成装置的逻辑结构示意图；

图6是本申请提供的一种机器学习模型训练装置的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，为本申请实施例1提供的一种训练样本生成方法的流程示意图，该方法可以应用于电子设备，本申请对电子设备的产品类型不做限定，如图1所示，该方法可以包括但并不局限于以下步骤：

步骤S11、获取收益率时间序列，并初始化滑动平均函数。

收益率时间序列可以通过以下方式确定：

S111、收集t-1时刻的交易行情时间序列数据P_t-1及t时刻的交易行情时间序列数据P_t；

S112、利用差分法计算收益率时间序列R_t＝(P_t–P_t-1)/P_t-1。

初始化滑动平均函数，可以理解为：为滑动平均函数中的参数赋予初始值。

步骤S12、利用所述滑动平均函数对所述收益率时间序列进行变换，得到包含历史信息的收益率时间序列。

本实施例中，利用滑动平均函数对所述收益率时间序列进行变换，得到包含历史信息的收益率时间序列，可以理解为：利用滑动平均函数对收益率时间序列中每个数据进行变换，使每个数据包含其所属时间点之前的数据信息，得到包含历史信息的收益率时间序列。例如，通过变换A_t＝mean(A_t,A_t-1,…,A_0)，用T时间点和之前的数据点的均值替换T时间点的数据，即为T时间点的数据赋予了历史数据信息。

本实施例中，滑动平均函数可以根据需要进行设置，在本实施例中不做限制。

步骤S13、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。

本实施例中，平稳性要求，可以包括但不局限于：严格平稳要求，1阶平稳要求，2阶平稳要求…或，n阶平稳要求。

1阶平稳要求，可以理解为：时间序列数据的均值不随时间变化而变化；2阶平稳要求可以理解为时间序列数据的均值和方差不随时间变化而变化；n阶平稳要求可以理解为：时间序列数据小于等于n阶的统计变量不随时间变化而变化；严格平稳要求可以理解为：时间序列数据的任意统计变量不随时间变化而变化。

本实施例中，所述判断所述包含历史信息的收益率时间序列是否符合平稳性要求，可以包括但不局限于：

S131、将所述包含历史信息的收益率时间序列输入到平稳性ADF(AugmentedDickey–Fuller test，假设检验模型)，得到所述平稳性ADF输出的指标；

S132、判断所述指标是否满足设定预测阈值。

设定预测阈值可以根据需要进行设置，在本申请中不做限制。

在所述指标满足设定预测阈值时，表明包含历史信息的收益率时间序列符合平稳性要求。

平稳性假设检验模型若否，则执行步骤S14；若是，则执行步骤S15。

步骤S14、更新所述滑动平均函数的参数，并返回执行步骤S12。

步骤S15、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。

本实施例中，可以通过以下关系式，确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数：

ρ(x,y)表示线性相关系数，σ_x表示原始收益率时间序列，σ_y表述包含历史信息的收益率序列,COV(x,y)表述x和y的协方差

步骤S16、判断所述线性相关系数是否大于预设阈值。

若是，则执行步骤S17；若否，则返回执行步骤S12。

本实施例中，预设阈值可以根据需要进行设置，在本申请中不做限制。

步骤S17、将所述包含历史信息的收益率时间序列作为训练样本。

本实施例中，在包含历史信息的收益率时间序列是否符合平稳性要求，且，所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数大于预设阈值的情况下，将包含历史信息的收益率时间序列作为训练样本，保证包含历史信息的收益率时间序列既保留有平稳性，且与变换之前的收益率时间序列保持相关性。

在本申请中，利用滑动平均函数对收益率时间序列进行变换，得到包含历史信息的收益率时间序列，将包含历史信息的收益率时间序列作为训练样本，能够提高机器学习模型训练的准确性。

作为本申请另一可选实施例，如图2所示，为本申请提供的一种训练样本生成方法实施例2的流程示意图，本实施例主要是对上述实施例1描述的训练样本生成方法的细化方案，该方法可以包括但并不局限于以下步骤：

步骤S21、获取收益率时间序列，并初始化滑动平均函数。

步骤S21的详细过程可以参见实施例1中步骤S11的相关介绍，在此不再赘述。

步骤S22、利用EWMA变换函数y_t＝αx_t+(1-α)y_t-1，分别对所述收益率时间序列中每个收益率值进行变换，得到变换后的收益率值。

EWMA变换函数可以理解为：基于加权滑动平均原理的变换函数。其中，加权滑动平均原理的核心为确定每个历史数据的权重。EWMA变换函数具体以使距离目标时刻较近的历史数据比距离目标时刻较远的历史数据有更高的权重，并且收敛到0为目标，确定历史数据的权重。具体地，可以基于以下关系式确定权重：ω_t＝(1-α)ω_t-1 ω_t＝(1-α)^t。

基于

及ω_t＝(1-α)^t，推导得到EWMA变换函数

其中，y_t表示t时刻的变换后的收益率值，y_t-1表示t-1时刻是变换后的收益率值，x_t表示所述收益率时间序列中的其中一个收益率值，α表示衰减参数，ω_t表示t时刻的数据的权重。

α取值范围可以为0～1，从EWMA变换函数中可以看出离t时刻越近的数据权重越大且收敛到0，α越大历史数据的权重衰减速度越快，变换后的收益率时间序列中历史信息含量越低。

步骤S23、将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。

现举例对步骤S22-S23进行说明，例如，若所述收益率时间序列为：

R_t：0.12,0.21,0.09,0.17,0.27…

令α＝0.1

R′₀＝R₀＝0.12

R′₁＝αR₁+(1-α)R′₀＝0.1*0.21+(1-0.1)*0.12＝0.129

R′₂＝αR₂+(1-α)R′₁＝0.1*0.09+(1-0.1)*0.129＝0.1251

R′₃＝αR₃+(1-α)R′₂＝0.1*0.17+(1-0.1)*0.1251＝0.1296

R′₄＝αR₄+(1-α)R′₃＝0.1*0.27+(1-0.1)*0.1296＝0.1436

转换后得到的包含历史信息的收益率时间序列为R′_t：0.12，0.129，0.1251，0.1296，0.1436。

步骤S22-S23为实施例1中步骤S12的一种具体实施方式。

步骤S24、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。

若否，则执行步骤S25；若是，则执行步骤S26。

步骤S25、更新所述滑动平均函数的参数，并返回执行步骤S22。

步骤S26、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。

步骤S27、判断所述线性相关系数是否大于预设阈值。

若是，则执行步骤S28；若否，则返回执行步骤S22。

步骤S28、将所述包含历史信息的收益率时间序列作为训练样本。

步骤S24-S28的详细过程可以参见实施例1中步骤S13-S17的相关介绍，在此不再赘述。

作为本申请另一可选实施例，如图3所示，为本申请提供的一种训练样本生成方法实施例3的流程示意图，本实施例主要是对上述实施例1描述的训练样本生成方法的细化方案，该方法可以包括但并不局限于以下步骤：

步骤S31、获取收益率时间序列，并初始化滑动平均函数。

步骤S32、利用自定义变换函数

分别对所述收益率时间序列中每个收益率值进行变换，得到变换后的收益率值。

其中，y_t表示变换后的收益率值，ω_i表示权重且ω_i通过

计算得到，i为小于t的整数，y_t-1表示所述收益率时间序列中的其中一个收益率值，d表示衰减参数。

可以通过对

ω₀＝1进行推导得到。

d取值范围可以为0～1，从自定义变换函数

中可以看出离t时刻越近的数据权重越大且收敛到0，d越大历史数据的权重衰减速度越快，变换后得到的收益率时间序列中历史信息含量越低。

步骤S33、将多个所述变换后的收益率值组成的序列作为包含历史信息的收益率时间序列。

现举例对步骤S32-S33进行说明，例如，若所述收益率时间序列为

R_t：0.12,0.21,0.09,0.17,0.27…

令d＝0.1

则转换后得到的包含历史信息的收益率时间序列为R′_t：0.12,0.22,0.0787,0.1786,0.2671。

步骤S34、判断所述包含历史信息的收益率时间序列是否符合平稳性要求。

若否，则执行步骤S35；若是，则执行步骤36。

步骤S35、更新所述滑动平均函数的参数，并返回执行步骤S32。

步骤S36、确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数。

步骤S37、判断所述线性相关系数是否大于预设阈值。

若是，则执行步骤S38；若否，则返回执行步骤S32。

步骤S38、将所述包含历史信息的收益率时间序列作为训练样本。

作为本申请另一可选实施例，如图4所示，为本申请提供的一种机器学习模型训练方法实施例1的流程图，该方法可以包括但并不局限于以下步骤：

步骤S41、获取包含历史信息的收益率时间序列。

所述历史信息的收益率时间序列为基于方法实施例1-3中任意一个实施例所介绍的训练样本生成方法生成的。

步骤S42、利用所述历史信息的收益率时间序列，对机器学习模型进行训练。

本实施例中，获取包含历史信息的收益率时间序列，并利用历史信息的收益率时间序列，对机器学习模型进行训练，能够提高训练的准确性。

接下来对本申请实施例提供的训练样本生成装置进行介绍，下文介绍的训练样本生成装置与上文介绍的训练样本生成方法可相互对应参照。

请参见图5，训练样本生成装置包括：初始化模块100、变换模块200、第一判断模块300、更新模块400、第一确定模块500、第二判断模块600和第二确定模块700。

初始化模块100，用于获取收益率时间序列，并初始化滑动平均函数；

变换模块200，用于利用所述滑动平均函数对所述收益率时间序列进行变换，得到包含历史信息的收益率时间序列；

第一判断模块300，用于判断所述包含历史信息的收益率时间序列是否符合平稳性要求；

更新模块400，用于若不符合所述平稳性要求，则更新所述滑动平均函数的参数，并返回执行所述变换模块200利用所述滑动平均函数对所述收益率时间序列进行变换；

第一确定模块500，用于若符合平稳性要求，则确定所述包含历史信息的收益率时间序列与所述收益率时间序列之间的线性相关系数；

第二判断模块600，用于判断所述线性相关系数是否大于预设阈值，若不大于所述预设阈值，则返回所述变换模块200利用所述滑动平均函数对所述收益率时间序列进行变换；

第二确定模块700，用于若大于所述预设阈值，则将所述包含历史信息的收益率时间序列作为训练样本。

本实施例中，所述变换模块200，具体可以用于：

利用自定义变换函数

本实施例中，所述第一判断模块300，具体可以用于：

判断所述指标是否满足设定预测阈值平稳性假设检验模型。

在本申请的另一个实施例中，提供一种机器学习模型训练装置，请参见图6，机器学习模型训练装置包括：获取模块800和训练模块900。

获取模块800，用于获取包含历史信息的收益率时间序列，所述历史信息的收益率时间序列为基于权利要求1-4任意一项所述的训练样本生成方法生成的；

训练模块900，用于利用所述历史信息的收益率时间序列，对机器学习模型进行训练。

需要说明的是，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过软件加相关的硬件来完成。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

以上对本申请所提供的一种生成网络的训练方法、音频数据增强方法及相关装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。