CN110163259B

CN110163259B - 一种生成样本数据的方法、系统及设备

Info

Publication number: CN110163259B
Application number: CN201910344305.7A
Authority: CN
Inventors: 戚延翔
Original assignee: Advanced New Technologies Co Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2023-12-15
Anticipated expiration: 2039-04-26
Also published as: CN110163259A

Abstract

本申请公开了一种生成样本数据的方法、系统及设备。本说明书一实施例的方法流程包括：获取包含原始样本数据的原始样本数据集；整理所述原始样本数据的样本特征，所述样本特征包含数字特征；为所述原始样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，所述高斯白噪声是均值为0的正态分布，其方差与所述特征值相关；基于所述新数字特征，根据所述原始样本数据生成新样本数据。

Description

一种生成样本数据的方法、系统及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种生成样本数据的方法、系统及设备。

背景技术

在数据分析应用场景中，样本数据是一种极为常见的数据类型。一般的，样本数据是基于对实际记录数据(历史数据)进行归纳整理来获取的。然而，在实际应用场景中，用于获取样本数据的历史数据往往不够充足。例如，对于某些新兴类别的历史数据而言，由于该类别出现时间较晚，因此导致其无法积累足够的记录数据。再例如，对于某些发展较快的应用领域，该应用领域的历史数据会被快速淘汰，能够用于生成样本数据的往往只是最新记录的一小部分历史数据。

历史数据的积累量不足会直接导致样本数据的匮乏，从而最终使得基于样本数据分析的数据分析结果不能达到理想的分析效果。例如，在基于分析模型的数据分析应用场景中，获取分析模型的方案之一是采用机器学习的方法、使用样本数据训练获取分析模型。在这一流程中，样本数据越丰富，之后训练获取的分析模型也就越完善，分析模型的分析效果也越优秀。而如果样本数据匮乏，分析模型的准确度以及完善度则会大大降低。

发明内容

有鉴于此，本说明书实施例提供了一种生成样本数据的方法、系统及设备，用于解决现有技术中样本数据集中样本数据不足的问题。

本说明书实施例采用下述技术方案：

本说明书实施例提供一种生成样本数据的方法，包括：

获取包含原始样本数据的原始样本数据集；

整理所述原始样本数据的样本特征，所述样本特征包含数字特征；

为所述原始样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，所述高斯白噪声是均值为0的正态分布，其方差与所述特征值相关；

基于所述新数字特征，根据所述原始样本数据生成新样本数据。

在一实施例中，基于下式为所述原始样本数据的数字特征的特征值添加高斯白噪声：

第二特征值＝第一特征值+高斯白噪声，

其中，所述第一特征值为所述原始样本数据的数字特征的特征值，所述第二特征值为所述新数字特征的特征值。

在一实施例中，所述高斯白噪声的方差为p*X，其中：

X为所述原始样本数据的数字特征的特征值；

p为预设的一组数字序列，其中，根据同一时间点所述数字特征内部的特征值差异性确定p的值。

在一实施例中：

获取原始样本数据集，其中，所述原始样本数据集为时间序列样本数据集；

整理所述原始样本数据的样本特征，其中，所述样本特征还包含日期特征以及类别特征；

根据所述原始样本数据生成新样本数据，其中，通过时间序列的时间点，关联所述新数字特征和对应的所述原始样本数据的日期特征以及类别特征，根据所述新数字特征以及相关联的日期特征以及类别特征生成新样本数据。

在一实施例中，所述方法还包括：

进行有效性判定，判定所述新样本数据是否有效。

在一实施例中，判定所述新样本是否有效，包括：

获取对应第一分析模型的第一评估结果，其中，所述第一分析模型是根据第一样本数据集训练获取的，所述第一样本数据集包括所述原始样本数据集；

将所述新样本数据加入所述第一样本数据集生成第二样本数据集；

根据所述第二样本数据集训练获取第二分析模型，对所述第二分析模型进行评估，获取第二评估结果；

对比所述第一评估结果以及所述第二评估结果，当所述第二评估结果具备评估效果提升时，所述新样本数据有效。

在一实施例中，所述第一样本数据集还包括已完成有效性判定且判定结果为是的所有新样本数据。

在一实施例中，所述方法还包括：

判定在有效的新样本数据被应用后，对应的分析模型的提升效果是否稳定；

当所述提升效果稳定时，不再生成新的所述新样本数据，以及，不再进行有效性判定；

当所述提升效果不稳定时，继续对尚未进行有效性判定的新样本数据进行有效性判定，和/或，继续生成新的所述新样本数据。

在一实施例中，判定所述提升效果是否稳定，其中：

当连续N个轮次的有效性判定的判定结果为否时，判定所述提升效果稳定，其中，N为根据实际应用场景而确定的预设值；

当当前轮次的有效性判定的判定结果为是，或者，有效性判定的判定结果为否的连续轮次小于等于N时，判定所述提升效果不稳定。

在一实施例中，进行有效性判定，判定所述新样本数据是否有效，其中，以小组为单位进行有效性判定，判定新样本数据组是否有效，每个所述新样本数据组包含一个或多个新样本数据。

本说明书实施例还提出了一种生成样本数据的系统，包括：

采集模块，其用于获取包含原始样本数据的原始样本数据集；

数据整理模块，其用于整理所述原始样本数据的样本特征，所述样本特征包含数字特征；

噪声添加模块，其用于为所述原始样本的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，所述高斯白噪声为均值为0的正态分布，其方差与所述原始样本的数字特征的特征值相关；

样本生成模块，其用于基于所述新数字特征，根据所述原始样本生成新样本。

在一实施例中，所述系统还包括：

有效性判定模块，其用于进行有效性判定，判定所述新样本数据是否有效，其中，当所述新样本数据可以带来分析模型效果提升时，所述新样本数据有效。

本申请还提出了一种用于在用户设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行本说明书实施例所述系统所述的方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：根据本说明书实施例的方法，可以根据已有的样本数据生成新样本数据，从而丰富样本数据集；相较于现有技术，根据本说明书实施例的方法生成的新样本数据可以有效体现不同样本数据间的特性差异。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1、图2以及图5为本说明书实施例中应用程序的运行方法的流程图；

图3以及图4为本说明书实施例中应用程序的运行方法的部分流程图；

图6～8为本说明书实施例中系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有技术中存在的样本数据不足的问题，本说明书实施例提出了一种生成样本数据的方法。为了提出本说明书实施例的方法，发明人首先对现有技术的应用场景做分析。

在实际应用场景中，样本数据的不足通常是由历史数据的积累量不足而导致的。然而，如果要扩充历史数据的积累量，只能采用按部就班的方式，扩展记录来源或是延长记录时间等方式，采集新的历史数据。这对亟需丰富样本数据的应用场景而言，并不具备实现意义。因此，在本说明书一实施例中，为了能够快速方便的生成样本数据，采用了基于现有的数据自行生成样本数据的方案。

对于基于对实际记录数据(历史数据)进行归纳整理而获取的样本数据来说，其具备的一个重要属性是其描述的场景状态是可以实际发生的(具备合理性)。而对于凭空生成样本数据而言，由于其并没有以实际记录数据为来源，那么就不能确定其描述的场景状态是否能够实际发生(无法确定样本数据是否合理)。这样，该样本数据是无法使用的。例如，在训练分析模型的应用场景中，如果采用不合理的样本数据训练分析模型，反而会降低分析模型的分析效果。

针对上述问题，为了确保获取合理的样本数据，在本说明书一实施例中，根据已有的、合理的样本数据来生成新的样本数据。具体的，在实际应用场景中，一个样本数据往往描述多种不同的样本特征，在样本特征包含数字特征时，如果在合理范围内修改数字特征的特征值，就可以获取一个新的、合理的样本数据。

白噪声是指在较宽的频率范围内，各等带宽的频带所含的噪声能量相等的噪声。模型中就是零均值、常方差的稳定随机序列。高斯分布也称正太分布，若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ＝0,σ＝1时的正态分布是标准正态分布。综合白噪声以及高斯分布的特征，如果针对数字特征的修改在高斯白噪声分布范围内，就可以确保数字特征的合理性。

因此，在本说明书一实施例中，对已有的样本特征的数字特征的特征值添加高斯白噪声，生成新数字特征。基于新数字特征来生成新样本数据。

进一步的，考虑到不同的样本数据的特性是不同的，其体现为不同的样本数据的数字特征的特征值不同。如果为不同的特征值添加统一的高斯白噪声势必会降低生成的新样本数据间的差异性，从而影响最终扩充生成的新的样本数据集的实用性。因此，在本说明书一实施例中，在生成新样本数据时，针对不同的样本数据添加匹配该样本数据特征的高斯白噪声。具体的，添加的高斯白噪声是均值为0的正态分布，其方差与被添加该高斯白噪声的特征值相关。这样，添加的高斯白噪声就能从数值上体现样本数据自身的数字特征差异。从而使得新生成的新样本特征数据间体现与原始样本数据间一致的差异性。

根据本说明书实施例的方法，可以根据已有的样本数据生成新样本数据，从而丰富样本数据集；相较于现有技术，根据本说明书实施例的方法生成的新样本数据可以有效体现不同样本数据间的特性差异。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

在本说明书一实施例中，如图1所示，方法流程包括：

S110，获取包含原始样本数据的原始样本数据集；

S120，整理原始样本数据的样本特征，样本特征包含数字特征，确定数字特征；

S130，为原始样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，添加的高斯白噪声是均值为0的正态分布，其方差与被添加该高斯白噪声的特征值相关；

S140，基于新数字特征，根据原始样本数据生成新样本数据。

具体的，在本说明书一实施例中，基于下式为原始样本数据的数字特征的特征值添加高斯白噪声：

第二特征值＝第一特征值+高斯白噪声(1)，

式1中，第一特征值为原始样本数据的数字特征的特征值，第二特征值为新数字特征的特征值。

进一步的，在本说明书一实施例中，为特征值添加的高斯白噪声是均值为0，方差为P*X的正态分布。其中，X是添加该高斯白噪声的特征值，P为预设的常数。P的值根据原始样本数据的实际情况而确定，其值小于0.01。具体的，在一应用场景中，P的取值为0.001或0.002。

采用方差为P*X的高斯白噪声，充分考虑了不同数字特征的特点，例如X分别为1，2，P为0.001，那么他们生成新数据所加的高斯白噪声的方差分别为0.001，0.002，高斯白噪声的生成结合了原始数据本身的特点，体现了不同数字特征的差异性。

进一步的，考虑到同一时间点数字特征内部的差异，在本说明书一实施例中，为特征值添加的高斯白噪声是均值为0，方差为p*X的正态分布。其中，X是添加该高斯白噪声的特征值；p为预设的一组数字序列，其中，根据同一时间点数字特征内部的特征值差异性确定p的值。

具体的，在一应用场景中，p是一组数字序列(a₁,a₂,……a_n)，a1,a2,……an值小于0.01，n的取值为10左右。具体的，在本说明一实施例中，p取(0.001，0.002)。

采用方差为p*X的高斯白噪声，充分考虑了不同数字特征的特点，并考虑了同一时间点数字特征内部的差异，例如：对于同一个时间点有个数字特征10，输入两个不同的p值0.001和0.002，则对于这个数字特征就能生成均值为0方差为0.01和0.02的两种不同高斯分布噪声，这极大的丰富了同一数字特征内部的差异性。这样综合考虑下来，这样生成的新的数字样本丰富有效，既考虑了差异性又结合了原数据的特点。

进一步的，在实际应用场景中，时间序列数据是一种常见的数据类型。时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。经济数据中大多数以时间序列的形式给出。根据观察时间的不同，时间序列中的时间可以是年份、季度、月份或其他任何时间形式。

在本说明书一实施例中，针对时间序列样本数据(即，步骤S110获取的原始样本数据集为时间序列样本数据集)提出了对应的新样本数据生成过程。具体的，定义时间序列样本数据的样本特征包含数字特征(如：2，3，10这种数字)、日期特征(如：是否周末，是否月初等)以及类别特征(如：各种应用场景场景，地点，天气等)。

如图2所示，在本说明书一实施例中，针对时间序列样本数据的方法流程包括：

S210，获取时间序列样本数据集；

S221，整理时间序列样本数据的数字特征；

S222，整理时间序列样本数据的日期特征；

S223，整理时间序列样本数据的类别特征；

S230，为时间序列样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征；

S240，基于步骤S230生成的新数字特征生成新样本数据。

具体的，在步骤S221-223中，对时间序列样本数据集进行数据预处理，采用特征工程和/或特征选择处理，确认时间序列样本数据的数字特征、日期特征以及类别特征。

具体的，在步骤S240中，通过时间序列的时间点，关联步骤S230生成的新数字特征和对应的日期特征(步骤S222确认的)以及类别特征(步骤S223确认的)，根据步骤S230生成的新数字特征以及相关联的步骤S222确认的日期特征以及步骤S223确认的类别特征生成新样本数据。具体的，在一应用场景中通过时间序列的时间点将新生成的数字特征和当天的日期特征和类别特征关联起来，其中日期特征和类别特征还是用的原来该时间点的特征没有变化，这样就能得到包含完整样本特征的新样本数据。

进一步的，在本说明书一实施例中，在步骤S230中，根据实际业务场景和生成的总特征数量以及原样本数量总和考虑决定需要生成的新数字特征的数量。具体的，在一应用场景中，生成的新数字特征的数量设置为1000倍。

进一步的，针对通过添加高斯白噪声而生成的新样本数据，并不是所有的新样本数据都是对最终的样本应用场景是有效的，大量添加无效数据反而会降低样本数据的应用效果。

因此，在本说明书一实施例中，为了确保最终获取的样本数据集的应用效果，生成的新样本数据并不直接投入使用。而是在生成新样本数据后，对其进行有效性判定，判定新样本数据是否有效。只有被判定有效的新样本数据才投入使用，判定为无效的新样本数据则被丢弃。

具体的，在本说明书一实施例中，针对采用样本数据训练分析模型的应用场景，通过判定新样本数据投入使用后能否为分析模型带来效果提升来判定新样本数据是否有效。

这里需要说明的是，在本说明书实施例中所指的新样本数据，并不是限定仅仅特指一个新样本数据，也可以代表由多个新样本数据所组成的集合，即新样本数据组。因此，在本说明书后续描述的实施例中，根据具体的实施需求，实施例执行流程中的新样本数据可以指一个新样本数据，也可以是由多个新样本数据组成的新样本数据组。

进一步的，在本说明书一实施例中，可以每生成一个新样本数据后即开始执行对应的有效性判定。在本说明书另一实施例中，批量生成多个新样本数据后再针对每一个新样本数据进行有效性判定。

进一步的，考虑到样本数据对分析模型的效果提升通常在样本数据量满足某个阈值范围时才能得到明显体现。因此，在本说明书一实施例中，以小组为单位进行有效性判定，判定新样本数据组是否有效，每个新样本数据组包含一个或多个新样本数据。即，在一个轮次的有效性判定中，整体判定一个新样本数据组是否有效。具体的，在本说明书一实施例中，在步骤S420中，调用的未经过有效性判断的新样本数据是一个包含多个新样本数据的新样本数据组。将新样本数据组加入原始样本数据集生成第二样本数据集。

具体的，在本说明书一实施例中，批量生成多个新样本数据，将生成的多个新样本数据作为一个新样本数据组。在对该新样本数据组进行有效性判定后，在进一步生成更多的新样本数据。

或者，在本说明书一实施例中，批量生成多个新样本数据，对生成的多个新样本数据进行分组，然后分别针对每一个新样本数据组进行有效性判定。具体的，在本说明书一实施例中，采用随机分组的方式确定新样本数据组。具体的，在一应用场景中，生成10000个新样本数据，设置100个新样本数据为一组，总共随机划分100个新样本数据组。

具体的，在本说明书一实施例中，如图3所示，判定新样本数据是否有效的过程包括：

S310，获取对应第一分析模型的第一评估结果，其中，第一分析模型是根据第一样本数据集训练获取的，第一样本数据集包括原始样本数据集；

S320，将新样本数据加入第一样本数据集生成第二样本数据集；

S330，根据第二样本数据集训练获取第二分析模型，对第二分析模型进行评估，获取第二评估结果；

S340，对比第一评估结果以及第二评估结果，判定第二评估结果是否具备评估效果提升；

S341，当第二评估结果具备评估效果提升时，新样本数据有效；

S342，当第二评估结果不具备评估效果提升时，新样本数据无效。

进一步的，为避免样本数据的应用效果重复，在本说明书一实施例中，判定新样本数据投入使用后能否为分析模型带来效果提升是在之前所有被判定有效的新样本数据被投入使用的前提下的。即，在步骤S310中，第一样本数据集还包括已完成有效性判定且判定结果为是的所有新样本数据。

具体的，在本说明书一实施例中，在步骤S310中，只需要调用之前最近一次有效性判定结果为是的有效性判定过程中获取的第二评估结果，作为当前有效性判定流程的第一评估结果。

具体的，在本说明书一实施例中，如图4所示，判定新样本数据是否有效的过程包括：

S410，将原始样本数据集保存为第一样本数据集；

S411，根据第一样本数据集训练获取第一分析模型，对第一分析模型进行效果评估，获取第一评估结果；

S412，将第一评估结果保存为对比标准；

S420，调用未经过有效性判断的新样本数据，将新样本数据加入第一样本数据集生成第二样本数据集；

S421，根据第二样本数据集训练获取第二分析模型，对第二分析模型进行评估，获取第二评估结果；

S430，提取对比标准，对比对比标准以及第二评估结果，判定第二评估结果是否具备评估效果提升；

当第二评估结果具备评估效果提升时，S440，标记新样本数据有效；

S450，将第二样本数据集保存为第一样本数据集，将第二评估结果保存为对比标准，返回步骤S420；

当第二评估结果不具备评估效果提升时，S460，新样本数据无效，抛弃新样本数据，返回步骤S420。

具体的，在本说明书一实施例中，为了减少时间和空间复杂度，在步骤S411中，第一分析模型所选用的模型是用第一样本数据集训练所得到的效果最好的一个模型。在本说明书其他实施例中，第一分析模型也可以选择多模型融合获取的模型。

具体的，在本说明书一实施例中，针对分析模型为预测模型的应用场景，利用样本数据的预测效果来进行有效性判断(即，基于预测效果生成评估结果)。例如，在一应用场景中，有截止到20181015号的历史时间序列数据，那么预测今后10天，也就是20181016-20181025号这10天的数据，然后用这10天的预测值和真实值通过评估函数做评估。

具体的，在本说明书一实施例中，针对预测结果，用准确率评估：

准确率＝1-abs(真实值-预测值)/真实值(2)。

进一步的，在本说明书其他实施例中，可以根据具体工程需要采用其它的评估指标、采用其他的新样本数据有效性判定方式。例如，在本说明书一实施例中，采用平均绝对误差(MAE)或者R方误差作为新样本数据有效性判定的评估指标。

进一步的，考虑到伴随着新样本数据的不断投入使用，后续生成的新样本数据的作用也不断降低。因此，在本说明书一实施例中，新样本数据的生成以及针对生成的新样本数据的有效性判定并不是无限制的，而是需要验证在已被判定为有效的新样本数据投入使用后，后续生成的新样本数据在前述基础上是否能够带来使用效果提升。如果可以，则说明当前应用场景下，根据本说明书实施例的方法还有进一步扩充样本数据集的必要；如果不可以，则说明在当前应用场景下，根据本说明书实施例的方法已经无法继续生成有用的新样本数据。

具体的，在本说明书一实施例中，针对分析模型的应用场景，需要验证在已被判定为有效的新样本数据投入使用后，后续生成的新样本数据在前述基础上是否能够提升分析模型效果。即，需要验证在已被判定为有效的新样本数据投入使用后，对应的分析模型的提升效果是否稳定(是否可以被后续生成的新的新样本数据提升效果)。当分析模型的提升效果稳定时，不再生成新的新样本数据，以及，不再进行有效性判定；当分析模型的提升效果不稳定时，继续对尚未进行有效性判定的新样本数据进行有效性判定，以及，在所有已生成的新样本数据完成有效性判定后继续生成新的新样本数据。

具体的，在本说明书一实施例中，当分析模型的提升效果稳定时，不再生成新的新样本数据，以及，即使存在尚未进行有效性判定的新样本数据，也不继续对该新样本数据进行有效性判定。

具体的，在本说明书一实施例中，当分析模型的提升效果不稳定时，在存在尚未进行有效性判定的新样本数据时，对尚未进行有效性判定的新样本数据进行有效性判定；在不存在尚未进行有效性判定的新样本数据时，继续生成新的新样本数据。

进一步的，考虑到在针对采用样本数据训练分析模型的应用场景中，通过判定新样本数据投入使用后能否为分析模型带来效果提升来判定新样本数据是否有效。也就是说，如果当前的新样本数据有效，那么当前的分析模型的效果就可以被提升，此时的分析模型的提升效果就是不稳定的；反之，如果当前的新样本数据无效，那么当前的新样本数据就无法提升分析模型的效果。如果连续多个新样本数据无效，那么就可以近似地认为不再会有可以提升分析模型的效果的新样本数据，分析模型的提升效果就是稳定的。

因此，在本说明书一实施例中，在判定提升效果是否稳定时：

当连续N个轮次的有效性判定的判定结果为否时，判定提升效果稳定，其中，N为根据实际应用场景而确定的预设值；

当前轮次的有效性判定的判定结果为是，或者，有效性判定的判定结果为否的连续轮次小于等于N时，判定提升效果不稳定。

具体的，在本说明书一实施例中，N取20。

具体的，在本说明书一实施例中，如图5所示，方法的执行流程包括：

S510，获取时间序列样本数据集；

S520，整理时间序列样本数据的数字特征、日期特征以及类别特征；

S530，为时间序列样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征；

S540，基于步骤S230生成的新数字特征生成新样本数据；

S550，分组新样本数据；

S560，判定新样本数据组是否有效；

当新样本数据组有效时，转到步骤S580；

当新样本数据组无效时，S561，丢弃新样本数据组，转到步骤S570；

S570，判定新样本数据组无效的连续次数是否大于N；

当新样本数据组无效的连续次数大于N时，S571，终止样本数据集的扩充；

当新样本数据组无效的连续次数小于等于N时，转到步骤S580；

S580，判断当前是否存在尚未进行有效性判定的新样本数据组；

当存在尚未进行有效性判定的新样本数据组时，转到步骤S560；

当不存在尚未进行有效性判定的新样本数据组时，转到步骤S520。

具体的，在本说明书一实施例中，针对采用样本数据训练分析模型的应用场景，通过判定新样本数据投入使用后能否为分析模型带来效果提升来判定新样本数据是否有效。但是，并不是只要新样本数据投入使用后能为分析模型带来效果提升，就直接判定新样本数据有效，而是必须新样本数据投入使用后为分析模型带来效果提升超过预设的波动范围才能判定新样本数据有效，没有超过波动范围，则判定无效。

具体的，在本说明书一实施例中，针对分析模型为预测模型的应用场景，当新样本数据投入使用后为预测模型的准确率提升超过预设值时，才判定新样本数据有效。

进一步的，在本说明书一实施例中，在判定分析模型的提升效果是否稳定时，并不是只要新样本数据可以提升分析模型效果就判定分析模型的提升效果不稳定。而是当新样本数据对分析模型的提升效果进入预设的波动范围内就判定分析模型的提升效果稳定。

具体的，在本说明书一实施例中，针对采用样本数据训练分析模型的应用场景，当新样本数据投入使用后能为分析模型带来效果提升，就直接判定新样本数据有效。进一步的，当新样本数据被判定为无效时，其投入使用后为分析模型带来效果提升必然不能超过预设波动范围；并且，即使新样本数据有效，仍要进一步判定新样本数据投入使用后为分析模型带来效果提升是否超过预设波动范围。如果连续N个新样本数据投入使用后为分析模型带来效果提升没有超过预设波动范围，则视为分析模型提升效果稳定。

进一步的，基于本说明书实施例的方法，本说明书实施例还提出了一种生成样本数据的系统。具体的，在本说明书一实施例中，如图6所示，系统包括：

采集模块610，其用于获取包含原始样本数据的原始样本数据集；

数据整理模块620，其用于整理原始样本数据的样本特征，样本特征包含数字特征；

噪声添加模块630，其用于为原始样本的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，高斯白噪声为均值为0的正态分布，其方差与原始样本的数字特征的特征值相关；

样本生成模块640，其用于基于新数字特征，根据原始样本生成新样本。

进一步的，在本说明书一实施例中，如图7所示，系统还包括：

有效性判定模块750，其用于进行有效性判定，判定新样本数据是否有效，其中，当新样本数据可以带来分析模型效果提升时，新样本数据有效。

进一步的，在本说明书一实施例中，如图8所示，系统还包括：

稳定性判定模块860，其用于验证新样本数据被连续判定为无效的个数，当连续N个新样本数据被判定为无效时，终止新样本数据的生成。

进一步的，基于本发明的方法，本发明还提出了一种用于在用户设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行本发明所述的方法。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种生成样本数据的方法，包括：

获取包含原始样本数据的原始样本数据集；

为所述原始样本数据的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，所述高斯白噪声是正态分布，其方差与所述特征值以及所述数字特征内部的特征值差异性相关；

基于所述新数字特征，根据所述原始样本数据生成新样本数据；

对比利用包括所述原始样本数据的第一样本数据集进行训练得到的第一分析模型的第一评估结果，以及，利用包括所述原始样本数据及所述新样本数据的第二样本数据集进行训练得到的第二分析模型的第二评估结果，当所述第二评估结果具备评估效果提升时，判断所述新样本数据是否有效。

2.根据权利要求1所述的方法，基于下式为所述原始样本数据的数字特征的特征值添加高斯白噪声：

第二特征值＝第一特征值+高斯白噪声，

3.根据权利要求1或2所述的方法，所述高斯白噪声的方差为p*X，其中：

X为所述原始样本数据的数字特征的特征值；

4.根据权利要求1中任一项所述的方法：

5.根据权利要求1中任一项所述的方法，所述方法还包括：

进行有效性判定，判定所述新样本数据是否有效。

6.根据权利要求5所述的方法，判定所述新样本是否有效，包括：

7.根据权利要求6所述的方法，所述第一样本数据集还包括已完成有效性判定且判定结果为是的所有新样本数据。

8.根据权利要求5中任一项所述的方法，所述方法还包括：

9.根据权利要求8所述的方法，判定所述提升效果是否稳定，其中：

10.根据权利要求5～9中任一项所述的方法，进行有效性判定，判定所述新样本数据是否有效，其中，以小组为单位进行有效性判定，判定新样本数据组是否有效，每个所述新样本数据组包含一个或多个新样本数据。

11.一种生成样本数据的系统，包括：

噪声添加模块，其用于为所述原始样本的数字特征的特征值添加高斯白噪声，生成新数字特征，其中，所述高斯白噪声为均值为0的正态分布，其方差与所述原始样本的数字特征的特征值以及所述数字特征内部的特征值差异性相关；

样本生成模块，其用于基于所述新数字特征，根据所述原始样本生成新样本；

有效性判定模块，其用于对比利用包括所述原始样本数据的第一样本数据集进行训练得到的第一分析模型的第一评估结果，以及，利用包括所述原始样本数据及所述新样本数据的第二样本数据集进行训练得到的第二分析模型的第二评估结果，当所述第二评估结果具备评估效果提升时，判断所述新样本数据是否有效。

12.根据权利要求11所述的系统，所述系统还包括：

13.一种用于在用户设备端信息处理的设备，该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该设备执行权利要求1至10中任一项所述的方法。