CN110597807A

CN110597807A - 基于数据分析的数据扩充方法、装置、终端及介质

Info

Publication number: CN110597807A
Application number: CN201910757162.2A
Authority: CN
Inventors: 李世武; 刘念慈
Original assignee: Chongqing Financial Assets Exchange LLC
Current assignee: Chongqing Financial Assets Exchange LLC
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2019-12-20

Abstract

本发明实施例公开了一种基于数据分析的数据扩充方法、装置、终端和介质，其中，该方法包括：获取时序数据序列，计算时序数据序列中每前后两个时序数据之间的变化率，并根据变化率构建时序变化率序列，根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则，采用分段规则对时序变化率序列中的N‑1个变化率进行分段，得到分段结果，基于分段结果确定M个目标变化率，并根据M个目标变化率对时序数据序列进行数据扩充，以使得时序数据数列中包括N+M个时序数据。通过实施上述方法，可以在数据扩充的过程中保存数据的特性，使得扩充的数据可以应用于更多的应用场景。

Description

基于数据分析的数据扩充方法、装置、终端及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于数据分析的数据扩充方法、装置、终端及介质。

背景技术

在算法建模的过程中，通常需要使用到大量的样本数据，但由于实际情况中样本数量有限，则需要采用数据扩充算法对样本数据进行扩充，当前的数据扩充算法，大多是针对数据集不平衡这个场景设计的，并且只适用于有监督-分类算法族。这类算法的主要原理都通过“欠采样”和“过采样”来建立一个新的平衡数据集。其中，欠采样为通过减少丰富类样本的大小来平衡数据集，过采样为通过增加稀有样本的数量来平衡数据集。

由上可知，现有的数据扩充算法只是简单的对数据进行增加，采用上述扩充后的样本来对特定算法(如回归算法)进行建模，则因样本缺乏时序特性，导致建模效果差。

发明内容

本申请实施例提供一种基于数据分析的数据扩充方法、装置、终端及介质，可以在数据扩充的过程中保存数据的特性，使得扩充的数据可以应用于更多的应用场景。

第一方面，本发明实施例提供了一种基于数据分析的数据扩充方法，所述方法包括：

获取时序数据序列，所述时序数据序列由N个时序数据按时间顺序排序组合得到，所述时序数据包括具有时序特征的数据，所述N为正整数；

计算所述时序数据序列中每前后两个时序数据之间的变化率，并根据所述变化率构建时序变化率序列，所述时序变化率序列中包括N-1个变化率，所述N-1个变化率在所述时序变化率序列中按照时间顺序排列；

根据所述时序变化率序列确定监测参数，并根据所述监测参数确定针对所述时序变化率序列中的变化率的分段规则，所述监测参数包括期望值、标准差和修正值中的至少一种；

采用所述分段规则对所述时序变化率序列中的N-1个变化率进行分段，得到分段结果，所述分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；

根据所述第一数量、所述第二数量和所述第三数量确定M个目标变化率，并将所述M个目标变化率确定为所述时序变化率序列中第N个至第N+M-1个变化率，所述M为正整数；

根据所述M个目标变化率对所述时序数据序列进行数据扩充，以使得所述时序数据数列中包括N+M个时序数据。

第二方面，本发明实施例提供了一种基于数据分析的数据扩充装置，所述装置包括：

获取模块，用于获取时序数据序列，所述时序数据序列由N个时序数据按时间顺序排序组合得到，所述时序数据包括具有时序特征的数据，所述N为正整数；

计算模块，用于计算所述时序数据序列中每前后两个时序数据之间的变化率；

构建模块，用于根据所述变化率构建时序变化率序列，所述时序变化率序列中包括N-1个变化率，所述N-1个变化率在所述时序变化率序列中按照时间顺序排列；

确定模块，用于根据所述时序变化率序列确定监测参数，并根据所述监测参数确定针对所述时序变化率序列中的变化率的分段规则，所述监测参数包括期望值、标准差和修正值中的至少一种；

分段模块，用于采用所述分段规则对所述时序变化率序列中的N-1个变化率进行分段，得到分段结果，所述分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；

所述确定模块，还用于根据所述第一数量、所述第二数量和所述第三数量确定M个目标变化率，并将所述M个目标变化率确定为所述时序变化率序列中第N个至第N+M-1个变化率，所述M为正整数；

扩充模块，用于根据所述M个目标变化率对所述时序数据序列进行数据扩充，以使得所述时序数据数列中包括N+M个时序数据。

第三方面，本发明实施例提供了一种终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行第一方面所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面所述的方法。

本发明实施例中，终端获取时序数据序列，计算时序数据序列中每前后两个时序数据之间的变化率，并根据所述变化率构建时序变化率序列，终端根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则，采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；终端根据第一数量、第二数量和第三数量确定M个目标变化率，并将M个目标变化率确定为时序变化率序列中第N个至第N+M-1个变化率；终端根据M个目标变化率对时序数据序列进行数据扩充，以使得时序数据数列中包括N+M个时序数据。通过实施上述方法，可以在数据扩充的过程中保存数据的特性，使得扩充的数据可以应用于更多的应用场景。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于数据分析的数据扩充方法的流程示意图；

图2是本发明实施例提供的另一种基于数据分析的数据扩充方法的流程示意图；

图3是本发明实施例提供的一种基于数据分析的数据扩充方法的应用场景示意图；

图4是本发明实施例提供的一种基于数据分析的数据扩充装置的结构示意图；

图5是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于数据分析的数据扩充方法实现于终端，所述终端包括智能手机、平板电脑、数字音视频播放器、电子阅读器、手持游戏机或车载电子设备等电子设备。

图1是本发明实施例中一种基于数据分析的数据扩充方法的流程示意图。如图所示本实施例中的基于数据分析的数据扩充方法的流程可以包括：

S101、终端获取时序数据序列。

本发明实施例中，时序数据序列由N个时序数据按时间顺序排序组合得到，时序数据包括具有时序特征的数据，如汇率变化数据、股票变化数据、期货涨跌数据等，其中，N为正整数。

具体实现中，终端可以获取目标时间段内的时序数据，该目标时间段内的时序数据的数量为N个，目标时间段可以是近一年、近一月、近一周等，具体可以由用户预先设定。进一步的，终端将获取到的N个时序数据按照时间顺序进行排序，得到时序数据序列，时间顺序具体可以为时间由前到后的顺序，或者，也可以为时间由后到前的顺序，在此不做限定。

具体的，终端获取到的时序数据为x_(t1)、x_(t2)、x_(t3)……x_(tn)，终端按照时间顺序对获取到的时序数据进行排序，得到时序数据序列为X＝{x_(t1),x_(t2),x_(t3),x_(t4),…,x_(tn)}，其中，x_(ti)表示终端获取到的ti时刻的时序数据，1≤i≤n。

S102、终端计算时序数据序列中每前后两个时序数据之间的变化率，并根据变化率构建时序变化率序列。

本发明实施例中，时序变化率序列中包括N-1个变化率，N-1个变化率在时序变化率序列中按照时间顺序排列，具体可以与时序数据序列中数据的排列方式相同。

具体实现中，终端计算时序数据序列中每前后两个时序数据之间的变化率的具体方式为，终端获取第I个时序数据的值和第I+1个时序数据的值，并计算第I+1个时序数据的值与第I个时序数据的值之间的差值，终端将计算得到的差值与第I个时序数据的值之间的比值确定为第I个时序数据与第I+1个时序数据之间的变化率，其中，I的起始值为1，终止值为N-1，终端采用上述方式计算得到时序数据序列中每前后两个时序数据之间的变化率之后，将获取到的N-1个变化率按照时间顺序进行排序，得到时序变化率序列。

具体的，终端获取到时序数据序列为X＝{x_(t1),x_(t2),x_(t3),x_(t4),……,x_(tn)}，变化率的具体计算方式为，Δx_(t(n-1))＝(x_(tn)-x_(t(n-1)))/x_(t(n-1))。

其中，Δx_(ti)表示ti时刻的时序数据的值与t(i+1)时刻的时序数据之间的变化率，1≤i≤n-1，终端采用上述方式对N个时序数据中每前后两个时序数据进行计算，计算得到时序数据序列中每前后两个时序数据之间的变化率为：

Δx_(t1)＝(x_(t2)-x_(t1))/x_(t1)；

Δx_(t2)＝(x_(t3)-x_(t2))/x_(t2)；

……

Δx_(t(n-1))＝(x_(tn)-x_(t(n-1)))/x_(t(n-1))；

进一步的，终端将每个时刻的数据变化率按照时间顺序进行排序组合，得到时序数据变化率序列为：

ΔX＝{Δx_(t1)，Δx_(t2)，Δx_(t3)…Δx_(t(n-1))}。

S103、终端根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则。

本发明实施例中，终端构建时序变化率序列之后，将根据时序变化率序列确定监测参数，其中，监测参数包括期望值、标准差和修正值中的至少一种。

具体实现中，期望值E(ΔX)的具体计算公式为：

标准差σ(ΔX)的计算方式可以为：

其中，Δx_(ti)表示ti时刻的时序数据的值与t(i+1)时刻的时序数据之间的变化率。

进一步的，终端确定时序变化率序列的期望值和标准差值后，可以对变化率进行归一化处理，得到归一化后的变化率ΔX_(ti)，归一化后的变化率ΔX_(ti)的计算方式可以为：

终端确定时序变化率序列的期望值和标准差值后，还可以根据预先设置的对应关系确定监测参数中的修正值α和β，具体的，预先设置的对应关系可以为期望值与修正值的对应关系，例如，期望值为50，则修正值α为5，β为2。或者，预先设置的对应关系也可以为标准差与修正值的对应关系，例如，标准差为6，则修正值α为3，β为1。或者，预先设置的对应关系也可以为期望值和标准差对应修正值，例如，期望值为30，标准差为8，则修正值α为6，β为3。需要说明的是，预先设置的对应关系可以由用户自行设定，在此不做限定。

进一步的，终端确定监测参数之后，将根据监测参数确定针对时序变化率序列中的变化率的分段规则。其中，终端确定分段规则的具体方式可以为，终端根据预设算法对监测数据中的期望值、标准差和修正值进行运算，得到第一变化率阈值和第二变化率阈值，若变化率大于第一变化率阈值，则将变化率确定为高变化率；若变化率介于第一变化率阈值与第二变化率阈值之间，则将变化率确定为中变化率；若变化率小于第二变化率阈值，则将变化率确定为低变化率，第一变化率阈值大于第二变化率阈值。

具体实现中，终端可以将变化率划分为高变化率(ΔXH)、中变化率(ΔXM)和低变化率(ΔXL)三段，分段依据如下：

如果ΔX_(ti)>＝E(ΔX)+α*σ(ΔX)+β，那么

如果E(ΔX)+α*σ(ΔX)+β>ΔX_(ti)>＝E(ΔX)-α*σ(ΔX)-β，那么ΔX_(ti)∈ΔXM。

如果ΔX_(ti)<E(ΔX)-α*σ(ΔX)-β，那么

其中，E(ΔX)+α*σ(ΔX)+β为第一变化率阈值，E(ΔX)-α*σ(ΔX)–β为第二变化率阈值，ΔX_(ti)表示归一化后的变化率，E(ΔX)为期望值，σ(ΔX)为标准差，α和β是修正值，用于排除孤立点影响，孤立点具体可以指示获取到的时序数据中与均值相差较大的数据点。终端可以基于归一化后的数据变化率的分段确定变化率的分段，即归一化后的数据变化率的分段与变化率的分段相同。

举例说明，2007年-2013年的股票变化率分别为+10％、-50％、+10％、+10％、-10％、+10％、+10％，由于经济危机导致2008年股票变化率异常，其应当作为一个孤立点，但在实际经济预测中，也必须将2008年的实际变化作为参考因素，若基于原始变化率进行分类，则分类结果为：

如果ΔX_(ti)>＝E(ΔX)+σ(ΔX)，那么

如果E(ΔX)+σ(ΔX)>ΔX_(ti)>＝E(ΔX)-σ(ΔX)，那么ΔX_(ti)∈ΔXM。

如果ΔX_(ti)<E(ΔX)-σ(ΔX)，那么

上述方式会使得2008年的数据对整体分类结果影响过大，引起分类不准确。因此，采用a和β作为修正值对分类结果进行修正，可以使的分类更加符合常理。

S104、终端采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率。

本发明实施例中，终端确定针对时序变化率序列中的变化率的分段规则之后，将采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，即终端依据分段规则判断时序变化率序列中每一个变化率所属的类别，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率，即N个变化率中分段为高变化率的变化率的数量为第一数量，分段为中变化率的变化率的数量为第二数量，分段为低变化率的变化率的数量为第三数量，其中，第一数量具体可以为h，第二数量具体可以为m，第三数量具体可以为u，且，h+m+u＝n，n具体可以为时序变化率序列中变化率的数量N-1。

S105、终端根据第一数量、第二数量和第三数量确定M个目标变化率，并将M个目标变化率确定为时序变化率序列中第N个至第N+M-1个变化率。

本发明实施例中，终端确获取到高变化率对应的第一数量h、中变化率对应的第二数量m和低变化率对应的第三数量u之后，将根据第一数量、第二数量和第三数量确定M个目标变化率。

具体的，终端根据第一数量确定高变化率对应的第一概率，根据第二数量确定中变化率对应的第二概率，根据第三数量确定低变化率对应的第三概率。其中，第一概率、第二概率和第三概率可以通过极大似然的方法求解得到，即通过变化率的频率，来推算ΔXH、ΔXM、ΔXL的发生的最大概率。具体实现中，假设ΔXH、ΔXM、ΔXL对应的概率分别为第一概率P₁、第二概率P₂和第三概率P₃，且P₁+P₂+P₃＝1，P₁、P₂、P₃都是未知数。

令最大似然函数为：

f(Δx_(ti)；p₁,p₂,p₃)＝(p₁)^h(p₂)^m(p₃)^u＝(p₁)^h(p₂)^m(1-p₁-p₂)^n-h-m；

对f(Δx_(ti)；p₁,p₂,p₃)取对数：

logf(Δx_(ti)；p₁,p₂,p₃)＝log[(p₁)^h(p₂)^m(1-p₁-p₂)^n-h-m]；

logf(Δx_(ti)；p₁,p₂,p₃)＝h*log(p₁)+m*log(p₂)+(n-h-m)*log(1-p₁-p₂)；

对logf(Δx_(ti)；p₁,p₂,p₃)函数，分别求p₁，p₂的偏导，并为了取极值而令偏导都等于0。

对以上方程联合求解：

因为P₁+P₂+P₃＝1，h+m+u＝n，所以：

通过归一化处理和极大似然估计推测，我们可以得到以下结论，已知x_(ti)的情况下预测x_(t(i+1))的值会出现以下三种情况：

x_(t(i+1))与x_(ti)相比，有P₁的概率会有较大的变化，且变化率在±(E(ΔX)+a*σ(ΔX)+β)之间，这种变化为急速变化。

x_(t(i+1))与x_(ti)相比，有P₂的概率会有适中的变化，且变化率在±(E(ΔX))之间，这种变化为匀速变化。

x_(t(i+1))与x_(ti)相比，有P₃的概率会有较小的变化，且变化率±(E(ΔX)-a*σ(ΔX)-β)之间，这种变化为缓速变化。

举例说明，计算得到归一化的变化率ΔX_(ti)构成的数据序列为(+3％、-10％、+7％、+4％、-8％、+8％、-15％)。分段规则计算得到：

如果ΔX_(ti)>5％，那么

如果5％>ΔX_(ti)>＝-5％，那么ΔX_(ti)∈ΔXM。

如果ΔX_(ti)<-5％，那么

则可以计算得到：

进一步的，终端获取高变化率对应的第一预设变化率、中变化率对应的第二预设变化率和低变化率对应的第三预设变化率，其中，第一预设变化率、第二预设变化率和第三预设变化率可以由用户预先设置，如第一预设变化率、第二预设变化率和第三预设变化率分别为+5％、+0％、-5％。

终端根据第一概率、第二概率、第三概率、第一预设变化率、第二预设变化率和第三预设变化率对所述时序数据的变化率进行预测，得到M个目标变化率。

在一种实现方式中，终端根据第一概率、第二概率和所述第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取M个变化率作为M个目标变化率。

举例说明，终端获取到第一概率第二概率第三概率第一预设变化率、第二预设变化率和第三预设变化率分别为+5％、+0％、-5％，M为7，则终端根据第一概率、第二概率和第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取7个变化率可以为+5％、+0％、-5％、+5％、+0％、-5％、-5％，终端上述7个变化率确定为目标变化率。

在一种实现方式中，终端根据第一概率、第二概率和第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取K组参考变化率序列，K组参考变化率序列中每组参考变化率序列中包括M个参考变化率，其中，M个参考变化率中的任意一个参考变化率为第一预设变化率、第二预设变化率或第三预设变化率，终端对K组参考变化率序列中每组序列中的参考变化率对应取平均值，得到M个平均值，并将M个平均值确定为M个目标变化率。其中，对应取平均值的具体方式为，终端获取K组参考变化率序列中每组参考变化率序列中的第s个变化率，并计算每组中第s个变化率的平均值，得到M个平均值，s的起始值为1，终止值为M。

举例说明，终端获取到第一概率第二概率第三概率第一预设变化率、第二预设变化率和第三预设变化率分别为+5％、+0％、-5％，K为3，M为7，则终端根据第一概率、第二概率和第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取了3组参考变化率序列，其中，第一组参考变化率序列为+5％、+0％、-5％、+5％、+0％、-5％、-5％；第二组参考变化率序列为+0％、+5％、-5％、+0％、+5％、-5％、-5％；第三组参考变化率序列为+5％、+0％、-5％、+5％、+0％、-5％、-5％；则终端对3组参考变化率序列中每组序列中的参考变化率对应取平均值，得到7个平均值为+3.3％、+1.3％、-5％、+3.3％、+1.3％、-5％、-5％。终端将上述7个平均值确定为7个目标变化率。

S106、终端根据M个目标变化率对时序数据序列进行数据扩充，以使得时序数据数列中包括N+M个时序数据。

本发明实施例中，终端确定M个目标变化率之后，将根据M个目标变化率对时序数据序列进行数据扩充，其中，数据扩充方式可以为将第n+i个时刻的值，与预测得到的第n+i个时刻与第n+i+1时刻之间的变化率相乘，得到第n+i+1时刻的变化率，具体计算公式可以为：

x_(t(n+i+1))＝x_(t(n+i))*Δx_(t(n+i))

其中，x_(t(n+i+1))表示预测得到第n+i+1时刻的时序数据，x_(t(n+i))表示n+i时刻的时序数据，Δx_(t(n+i))表示M个目标变化率中的第i个目标变化率，1≤i≤M。

举例说明，M的值为4，tn时刻对应的时序数据x_t(n)的值为100，若终端预测得到的M个目标变化率为(+5％、+0％、-5％、+0％)，则可以根据M个变化率计算得到x_(t(n+1))、x_(t(n+2))、x_(t(n+3))、x_(t(n+4))的值分别为105、105、99.75、99.75，若终端计算得到的M个目标变化率为(+0％、-5％、-5％、+0％)，若终端预测得到的M个目标变化率为(+5％、+0％、-5％、+0％)，则可以根据M个变化率计算得到x_(t(n+1))、x_(t(n+2))、x_(t(n+3))、x_(t(n+4))的值分别为100、95、90.25、90.25。

图2是本发明实施例中一种基于数据分析的数据扩充方法的流程示意图。如图所示本实施例中的基于数据分析的数据扩充方法的流程可以包括：

S201、终端获取时序数据序列。

本发明实施例中，时序数据序列由N个时序数据按时间顺序排序组合得到，时序数据包括具有时序特征的数据，N为正整数。

S202、终端计算时序数据序列中每前后两个时序数据之间的变化率，并根据变化率构建时序变化率序列。

本发明实施例中，时序变化率序列中包括N-1个变化率，N-1个变化率在时序变化率序列中按照时间顺序排列。

S203、终端根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则。

本发明实施例中，监测参数包括期望值、标准差和修正值。

S204、终端采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率。

S205、终端根据第一数量、第二数量和第三数量确定K组参考变化率序列。

本发明实施例中，终端根据第一概率、第二概率和第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取K组参考变化率序列，K组参考变化率序列中每组参考变化率序列中包括M个参考变化率，其中，M个参考变化率中的任意一个参考变化率为第一预设变化率、第二预设变化率或第三预设变化率。

S206、终端对K组参考变化率序列中每组参考变化率序列中的参考变化率对应取平均值，得到M个平均值。

本发明实施例中，终端获取到K组参考变化率序列之后，将对K组参考变化率序列中每组参考变化率序列中的参考变化率对应取平均值。其中，对应取平均值的具体方式为，获取K组参考变化率序列中每组参考变化率序列中的第s个变化率，并计算每组中第s个变化率的平均值，得到M个平均值，其中s的起始值为1，终止值为M。

举例说明，终端获取到第一概率第二概率第三概率第一预设变化率、第二预设变化率和第三预设变化率分别为+5％、+0％、-5％，K为3，M为7，则终端根据第一概率、第二概率和第三概率从第一预设变化率、第二预设变化率和第三预设变化率中选取了3组参考变化率，其中，第一组参考变化率序列为+5％、+0％、-5％、+5％、+0％、-5％、-5％；第二组参考变化率序列为+0％、+5％、-5％、+0％、+5％、-5％、-5％；第三组参考变化率序列为+5％、+0％、-5％、+5％、+0％、-5％、-5％；则终端对3组参考变化率序列中每组序列中的参考变化率对应取平均值，得到7个平均值为+3.3％、+1.3％、-5％、+3.3％、+1.3％、-5％、-5％。

S207、终端检测M个平均值是否满足预设规则。

本发明实施例中，得到M个平均值之后，将检测M个平均值是否满足预设规则。

在一种实现方式中，终端根据M个平均值构建第一平均值序列，第一平均值序列中包括所述M个平均值，M个平均值在所述第一平均值序列中按照时间顺序排列，并计算第一平均值序列对应的参考标准差以及计算参考标准差与监测数据中的标准差之间的目标差值，若目标差值小于预设差值，则确定M个平均值满足预设规则。

在一种实现方式中，若M的值大于或等于N-1，则终端从M个平均值中选取出N-1个平均值，并根据N-1个平均值构建第二平均值序列，第二平均值序列中包括所述N-1个平均值，N-1个平均值在所述第二平均值序列中按照时间顺序排列；终端计算第二平均值序列与时序变化率序列之间的欧氏距离；若计算得到的欧氏距离小于预设距离，则确定M个平均值满足预设规则。其中，终端选取N-1个平均值的方式可以为随机选取、规则抽取等，在此不做限定。

进一步的，若计算得到的M个平均值满足预设规则，则终端将上述M个平均值确定为M个目标变化率，若计算得到的M个平均值不满足预设规则，则终端可以重新确定K值，以得到不同的变化率序列。

S208、若M个平均值满足预设规则，则终端将上述M个平均值确定为M个目标变化率，并根据M个目标变化率对时序数据序列进行数据扩充。

本发明实施例中，若M个平均值满足预设规则，则终端将上述M个平均值确定为M个目标变化率，并根据M个目标变化率对时序数据序列进行数据扩充，其中，数据扩充方式可以为将第n+i个时刻的值与预测得到的第n+i个时刻与第n+i+1时刻之间的变化率相乘，得到第n+i+1时刻的变化率，具体计算公式可以为：

x_(t(n+i+1))＝x_(t(n+i))*Δx_(t(n+i))

其中，x_(t(n+i+1))表示预测得到第n+i+1时刻的时序数据，x_(t(n+i))表示n+i时刻的时序数据，Δx_(t(n+i))表示M个目标变化率的第i个目标变化率。

在一种实现方式中，为了使得取得数据更准确，可以进行迭代预测，并将各次预测得到的结果取均值得到最终预测结果，例如，迭代次数为k次，对k次迭代结果取均值的具体步骤如下：

每次预测会得到m个数据，迭代k次后得到以下矩阵：

针对每列取均值，得到最终的预测结果：

……

在一种实现方式中，k值由研发人员预先设定。通过上述方式，在知道x_(t1),x_(t2),x_(t3),x_(t4),……,x_(tn)的情况下，可以结结合概率以及概率对应的理论变化率预测得到x_(tn+1),x_(tn+2),x_(tn+3),x_(tn+4),……,x_(tm)的值，达到数据预测的目的。并且，采用上述划分方式，结合到了数据的时序特性，可以使得预测结果更为准确。并可以使得扩充后的样本数据应用于回归问题的建模。

在一种实现方式中，基于预先确定的监测指标来确定最佳的k值，其中，监测指标具体可以指示增长率均值、方差等。例如，监测指标为方差，首先计算已知时序数据序列的方差值，即数据集X＝{x_(t1),x_(t2),x_(t3),x_(t4),……,x_(tn)}的方差值，然后计算预测得到的数据X1＝{x_(tn+1),x_(tn+2),x_(tn+3),x_(tn+4),……,x_(tm)}(或者X2＝{x_(t1),x_(t2),x_(t3),x_(t4),……,x_(tn+1),x_(tn+2),x_(tn+3),x_(tn+4),……,x_(tm)})的方差值，若两者之间的方差值差距小于预设阈值，可以预先设置不同的k值得到相应的比较结果，并将结果中最接近的方差值对应的k值确定为最佳k值。或者，通过分析方差值差距来确定最佳的k值，例如，迭代10次得到的方差值差距为5，迭代90次得到的方差值差距为0.5，迭代100次得到的方差值差距为0.2，迭代1000次得到的方差值差距为0.19，则可以将最佳的迭代次数确定为100次，可以在保证预测准确性的同时保持较高的预测效率。增长率确定最佳k值的方式同理。

由上可知，本发明实施例具体可应用于数据扩充场景，如使得扩充的数据保留时序特性，并使得数据能较好的应用于回归类问题的建模。进一步的，本发明实施例具体还可应用于数据预测场景，如汇率预测、股票预测、期货预测等，如图3所示，为一数据扩充方法的应用场景示意图，具体为国内增值税预测图，1998年-2018年的国内增值税数据已知，在图3中以圆点的形式进行展示，终端基于上述已知数据进行多次迭代预测，得到多个预测结果，其中，每个预测结果在图3中以不同的折线进行展示，终端对多个预测结果对应取平均值，得到最终的预测结果，如图中2019年-2033年圆点所示的结果。

下面将结合附图4对本发明实施例提供的基于数据分析的数据扩充装置进行详细介绍。需要说明的是，附图4所示的基于数据分析的数据扩充装置，用于执行本发明图1-图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，经参照本发明图1-图2所示的实施例。

请参见图4，为本发明提供的一种基于数据分析的数据扩充装置的结构示意图，该基于数据分析的数据扩充装置40可包括：获取模块401、计算模块402、构建模块403、确定模块404、分段模块405和扩充模块406。

获取模块401，用于获取时序数据序列，所述时序数据序列由N个时序数据按时间顺序排序组合得到，所述时序数据包括具有时序特征的数据，所述N为正整数；

计算模块402，用于计算所述时序数据序列中每前后两个时序数据之间的变化率；

构建模块403，用于根据所述变化率构建时序变化率序列，所述时序变化率序列中包括N-1个变化率，所述N-1个变化率在所述时序变化率序列中按照时间顺序排列；

确定模块404，用于根据所述时序变化率序列确定监测参数，并根据所述监测参数确定针对所述时序变化率序列中的变化率的分段规则，所述监测参数包括期望值、标准差和修正值中的至少一种；

分段模块405，用于采用所述分段规则对所述时序变化率序列中的N-1个变化率进行分段，得到分段结果，所述分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；

所述确定模块404，还用于根据所述第一数量、所述第二数量和所述第三数量确定M个目标变化率，并将所述M个目标变化率确定为所述时序变化率序列中第N个至第N+M-1个变化率，所述M为正整数；

扩充模块406，用于根据所述M个目标变化率对所述时序数据序列进行数据扩充，以使得所述时序数据数列中包括N+M个时序数据。

在一种实现方式中，确定模块404，具体用于：

根据预设算法对所述监测数据中的期望值、标准差和修正值进行运算，得到第一变化率阈值和第二变化率阈值，所述第一变化率阈值大于所述第二变化率阈值；

若所述变化率大于所述第一变化率阈值，则将所述变化率确定为高变化率；

若所述变化率介于所述第一变化率阈值与所述第二变化率阈值之间，则将所述变化率确定为中变化率；

若所述变化率小于所述第二变化率阈值，则将所述变化率确定为低变化率。

在一种实现方式中，计算模块402，具体用于：

获取第I个时序数据的值和第I+1个时序数据的值，所述I为小于N的正整数；

计算所述第I+1个时序数据的值与所述第I个时序数据的值之间的差值；

将所述差值与所述第I个时序数据的值之间的比值确定为所述第I个时序数据与所述第I+1个时序数据之间的变化率。

在一种实现方式中，确定模块404，具体用于：

根据所述第一数量确定所述高变化率对应的第一概率；

根据所述第二数量确定所述中变化率对应的第二概率；

根据所述第三数量确定所述低变化率对应的第三概率；

获取所述高变化率对应的第一预设变化率、所述中变化率对应的第二预设变化率和所述低变化率对应的第三预设变化率；

根据所述第一概率、所述第二概率、所述第三概率、所述第一预设变化率、所述第二预设变化率和所述第三预设变化率对所述时序数据的变化率进行预测，得到M个目标变化率。

在一种实现方式中，确定模块404，还用于：

根据所述第一概率、所述第二概率和所述第三概率从所述第一预设变化率、所述第二预设变化率和所述第三预设变化率中选取K组参考变化率序列，所述K组参考变化率序列中每组参考变化率序列中包括M个参考变化率，所述M个参考变化率中的任意一个参考变化率为所述第一预设变化率、所述第二预设变化率或所述第三预设变化率，所述K为正整数；

对所述K组参考变化率序列中每组参考变化率序列中的参考变化率对应取平均值，得到M个平均值；

将所述M个平均值确定为M个目标变化率。

在一种实现方式中，确定模块404，还用于：

根据所述M个平均值构建第一平均值序列，所述第一平均值序列中包括所述M个平均值，所述M个平均值在所述第一平均值序列中按照时间顺序排列；

计算所述第一平均值序列对应的参考标准差；

计算所述参考标准差与所述监测数据中的标准差之间的目标差值；

若所述目标差值小于预设差值，则触发将所述M个平均值确定为M个目标变化率的操作。

在一种实现方式中，确定模块404，还用于：

从所述M个平均值中选取出N-1个平均值，并根据所述N-1个平均值构建第二平均值序列，所述第二平均值序列中包括所述N-1个平均值，所述N-1个平均值在所述第二平均值序列中按照时间顺序排列；

计算所述第二平均值序列与所述时序变化率序列之间的欧氏距离；

若所述欧氏距离小于预设距离，则触发将所述M个平均值确定为M个目标变化率的操作。

本发明实施例中，获取模块401获取时序数据序列，计算模块402计算时序数据序列中每前后两个时序数据之间的变化率，构建模块403根据所述变化率构建时序变化率序列，确定模块404根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则，分段模块405采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；确定模块404根据第一数量、第二数量和第三数量确定M个目标变化率，并将M个目标变化率确定为时序变化率序列中第N个至第N+M-1个变化率；扩充模块406根据M个目标变化率对时序数据序列进行数据扩充，以使得时序数据数列中包括N+M个时序数据。通过实施上述方法，可以在数据扩充的过程中保存数据的特性，使得扩充的数据可以应用于更多的应用场景。

请参见图5，为本发明实施例提供了一种终端的结构示意图。如图5所示，该终端包括：至少一个处理器501，输入设备503，输出设备504，存储器505，至少一个通信总线502。其中，通信总线502用于实现这些组件之间的连接通信。其中，输入设备503可以是控制面板或者麦克风等，输出设备504可以是显示屏等。其中，存储器505可以是高速RAM存储器，也可以是非不稳定的存储器(non-voIatiIe memory)，例如至少一个磁盘存储器。存储器505可选的还可以是至少一个位于远离前述处理器501的存储装置。其中处理器501可以结合图4所描述的装置，存储器505中存储一组程序代码，且处理器501，输入设备503，输出设备504调用存储器505中存储的程序代码，用于执行以下操作：

输入设备503，用于获取时序数据序列，所述时序数据序列由N个时序数据按时间顺序排序组合得到，所述时序数据包括具有时序特征的数据，所述N为正整数；

处理器501，用于计算所述时序数据序列中每前后两个时序数据之间的变化率，并根据所述变化率构建时序变化率序列，所述时序变化率序列中包括N-1个变化率，所述N-1个变化率在所述时序变化率序列中按照时间顺序排列；

处理器501，用于根据所述时序变化率序列确定监测参数，并根据所述监测参数确定针对所述时序变化率序列中的变化率的分段规则，所述监测参数包括期望值、标准差和修正值中的至少一种；

处理器501，用于采用所述分段规则对所述时序变化率序列中的N-1个变化率进行分段，得到分段结果，所述分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；

处理器501，用于根据所述第一数量、所述第二数量和所述第三数量确定M个目标变化率，并将所述M个目标变化率确定为所述时序变化率序列中第N个至第N+M-1个变化率，所述M为正整数；

处理器501，用于根据所述M个目标变化率对所述时序数据序列进行数据扩充，以使得所述时序数据数列中包括N+M个时序数据。

在一种实现方式中，处理器501，具体用于：

根据所述第一数量确定所述高变化率对应的第一概率；

根据所述第二数量确定所述中变化率对应的第二概率；

根据所述第三数量确定所述低变化率对应的第三概率；

在一种实现方式中，处理器501，具体用于：

将所述M个平均值确定为M个目标变化率。

在一种实现方式中，处理器501，具体用于：

计算所述第一平均值序列对应的参考标准差；

在一种实现方式中，处理器501，具体用于：

本发明实施例中，输入设备503获取时序数据序列，处理器501计算时序数据序列中每前后两个时序数据之间的变化率，处理器501根据所述变化率构建时序变化率序列，处理器501根据时序变化率序列确定监测参数，并根据监测参数确定针对时序变化率序列中的变化率的分段规则，处理器501采用分段规则对时序变化率序列中的N-1个变化率进行分段，得到分段结果，分段结果包括第一数量个高变化率、第二数量个中变化率和第三数量个低变化率；处理器501根据第一数量、第二数量和第三数量确定M个目标变化率，并将M个目标变化率确定为时序变化率序列中第N个至第N+M-1个变化率；处理器501根据M个目标变化率对时序数据序列进行数据扩充，以使得时序数据数列中包括N+M个时序数据。通过实施上述方法，可以在数据扩充的过程中保存数据的特性，使得扩充的数据可以应用于更多的应用场景。

本发明实施例中所述模块，可以通过通用集成电路，例如CPU(CentraIProcessing Unit，中央处理器)，或通过ASIC(AppIication Specific IntegratedCircuit，专用集成电路)来实现。

应当理解，在本发明实施例中，所称处理器501可以是中央处理模块(CentraIProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitaISignaI Processor，DSP)、专用集成电路(AppIication Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieId-ProgrammabIe Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

总线502可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互联(PeripheraI Component，PCI)总线或扩展工业标准体系结构(EItendedIndustry Standard Architecture，EISA)总线等，该总线502可以分为地址总线、数据总线、控制总线等，为便于表示，图5仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的计算机存储介质可为磁碟、光盘、只读存储记忆体(Read-OnIy Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于数据分析的数据扩充方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述监测参数确定针对所述时序变化率序列中的变化率的分段规则，包括：

3.根据权利要求1所述的方法，其特征在于，所述计算所述时序数据序列中每前后两个时序数据之间的变化率，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一数量、所述第二数量和所述第三数量确定M个目标变化率，包括：

根据所述第一数量确定所述高变化率对应的第一概率；

根据所述第二数量确定所述中变化率对应的第二概率；

根据所述第三数量确定所述低变化率对应的第三概率；

5.根据权利4所述的方法，其特征在于，所述根据所述第一概率、所述第二概率、所述第三概率、所述第一预设变化率、所述第二预设变化率和所述第三预设变化率对所述时序数据的变化率进行预测，得到M个目标变化率，包括：

将所述M个平均值确定为M个目标变化率。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述M个平均值确定为M个目标变化率之前，所述方法还包括：

计算所述第一平均值序列对应的参考标准差；

7.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述M个平均值确定为M个目标变化率之前，所述方法还包括：

8.一种基于数据分析的数据扩充装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。