CN113254435A

CN113254435A - 一种数据增强方法及系统

Info

Publication number: CN113254435A
Application number: CN202110797961.XA
Authority: CN
Inventors: 陈克鹏
Original assignee: Beijing Telecom Easiness Information Technology Co Ltd
Current assignee: Beijing Telecom Easiness Information Technology Co Ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-08-13
Anticipated expiration: 2041-07-15
Also published as: CN113254435B

Abstract

本发明涉及一种数据增强方法及系统，该方法包括：将采集的终端设备异常数据作为样本数据集；将样本数据集划分为初始数据集和验证数据集；从初始数据集中随机选取设定比例的数据作为临时样本数据集；基于单个虚拟样本生成规则，根据临时样本数据集生成多个临时虚拟样本数据集；将临时样本数据集分别和各临时虚拟样本数据集合并，获得多个训练数据集；分别利用各训练数据集训练回归模型，获得多个临时模型；利用验证数据集获得各临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。本发明通过降低人为干预，提高了数据增强后样本建模的预测精度。

Description

一种数据增强方法及系统

技术领域

本发明涉及数据增强技术领域，特别是涉及一种数据增强方法及系统。

背景技术

近年来数据增强技术的研究主要有传统的手工增强和基于深度学习的增强，但是这些方法多集中在分类任务中，而且通常需要有大量的训练数据，难以适用于小样本数据的回归任务。而针对回归任务的数据增强方法主要有基于插值的方法和基于域范围扩展的相关方法，这两种方法都有固定的方法能够产生新的虚拟样本，但是它们对生成的新的虚拟样本缺乏有效的筛选机制，增强的次数以及停止条件都需要人工干预，没有很好的自动控制机制，在某些情况下容易因为不好的虚拟样本的加入而导致最终数据增强效果不佳。目前的方法都需要较多的人为干预，而且人为干预比较困难，因此总体的适用性比较低。

发明内容

本发明的目的是提供一种数据增强方法及系统，通过降低人为干预，提高了数据增强后样本建模的预测精度。

为实现上述目的，本发明提供了如下方案：

一种数据增强方法，包括：

将采集的终端设备异常数据作为样本数据集；

将所述样本数据集划分为初始数据集和验证数据集；

从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集；

基于单个虚拟样本生成规则，根据所述临时样本数据集生成多个临时虚拟样本数据集；各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应；

将所述临时样本数据集分别和各所述临时虚拟样本数据集合并，获得多个训练数据集；

分别利用各所述训练数据集训练回归模型，获得多个临时模型；

利用所述验证数据集获得各所述临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。

可选地，所述单个虚拟样本生成规则采用用于回归的SMOTE算法。

可选地，所述损失函数值的计算公式为

，其中，

表示绝对误差，

表示方差，

，

，

表示所述验证数据集中第

个样本的预测值，

是对应

的真实值，

为

与

之间误差的绝对值，

为所述验证数据集上所有样本误差绝对值的平均值。

本发明还公开了一种数据增强系统，包括：

样本数据集采集模块，用于将采集的终端设备异常数据作为样本数据集；

数据集划分模块，用于将所述样本数据集划分为初始数据集和验证数据集；

临时样本数据集获取模块，用于从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集；

多个临时虚拟样本数据集获取模块，用于基于单个虚拟样本生成规则，根据所述临时样本数据集生成多个临时虚拟样本数据集；各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应；

多个训练数据集获取模块，用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并，获得多个训练数据集；

多个临时模型获得模块，用于分别利用各所述训练数据集训练回归模型，获得多个临时模型；

最小损失函数值确定模块，用于利用所述验证数据集获得各所述临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

数据增强数据集确定模块，用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。

可选地，所述损失函数值的计算公式为

，其中，

表示绝对误差，

表示方差，

，

，

表示所述验证数据集中第

个样本的预测值，

是对应

的真实值，

为

与

之间误差的绝对值，

为所述验证数据集上所有样本误差绝对值的平均值。

本发明还公开了另一种数据增强方法，包括：

将采集的终端设备异常数据作为样本数据集；

将所述样本数据集的交叉验证损失值作为目标损失值；

将样本数据集划分为初始数据集和验证数据集；

从当前初始数据集中随机选取设定比例的数据作为临时样本数据集；

将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集；

将所述临时数据增强数据集的交叉验证损失值作为临时损失值；

判断当前临时损失值是否小于当前目标损失值；

若当前临时损失值小于当前目标损失值，则用当前临时损失值更新目标损失值，并用当前临时数据增强数据集更新所述样本数据集，迭代次数加1；

若当前临时损失值大于当前目标损失值，则停止迭代，将当前样本数据集作为数据增强数据集输出；

判断所述迭代次数是否大于设定值；

若迭代次数小于或等于设定值，则返回步骤“将样本数据集划分为初始数据集和验证数据集”；

若迭代次数大于设定值，则停止迭代，将当前样本数据集作为数据增强数据集输出。

本发明还公开了另一种数据增强系统，其特征在于，包括：

初始目标损失值获得模块，用于将所述样本数据集的交叉验证损失值作为目标损失值；

数据集划分模块，用于将样本数据集划分为初始数据集和验证数据集；

临时样本数据集获得模块，用于从当前初始数据集中随机选取设定比例的数据作为临时样本数据集；

多个临时虚拟样本数据集获得模块，用于基于单个虚拟样本生成规则，根据所述临时样本数据集生成多个临时虚拟样本数据集；各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应；

多个训练数据集获得模块，用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并，获得多个训练数据集；

最小损失函数值获得模块，用于利用所述验证数据集获得各所述临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

临时数据增强数据集获得模块，用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集；

临时损失值确定模块，用于将所述临时数据增强数据集的交叉验证损失值作为临时损失值；

第一判断模块，用于判断当前临时损失值是否小于当前目标损失值；

目标损失值和样本数据集更新模块，用于若当前临时损失值小于当前目标损失值，则用当前临时损失值更新目标损失值，并用当前临时数据增强数据集更新所述样本数据集，迭代次数加1；

数据增强数据集第一输出模块，若当前临时损失值大于当前目标损失值，用于停止迭代，将当前样本数据集作为数据增强数据集输出；

第二判断模块，用于判断所述迭代次数是否大于设定值；

返回模块，若迭代次数小于或等于设定值，用于返回步骤“将样本数据集划分为初始数据集和验证数据集”；

数据增强数据集第二输出模块，若迭代次数大于设定值，用于停止迭代，将当前样本数据集作为数据增强数据集输出。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明迭代生成批量虚拟样本，根据生成批量虚拟样本对回归模型进行测试，通过损失函数值的大小判断是否保留批量虚拟样本，降低了人为干预，提高了数据增强的适用性，进而提高了数据增强后样本建模的预测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种数据增强方法流程示意图一；

图2为本发明一种数据增强系统结构示意图一；

图3为本发明一种数据增强方法流程示意图二；

图4为本发明实施例一种数据增强方法具体流程示意图一；

图5为本发明实施例一种数据增强方法具体流程示意图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种数据增强方法流程示意图一，如图1所示，一种数据增强方法包括以下步骤：

步骤101：将采集的终端设备异常数据作为样本数据集。

步骤102：将样本数据集划分为初始数据集和验证数据集。

步骤103：从初始数据集中随机选取设定比例的数据作为临时样本数据集。

步骤104：基于单个虚拟样本生成规则，根据临时样本数据集生成多个临时虚拟样本数据集；各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应。

多次循环临时样本数据集，每次循环依次对临时样本数据集中每一个样本按照虚拟样本生成规则生成虚拟样本，每次循环生成一个临时虚拟样本数据集。通过多次循环生成多个临时虚拟样本数据集。

虚拟样本生成规则采用SmoteR（Conducts the Synthetic Minority Over-Sampling Technique for Regression）算法，即用于回归的SMOTE（Synthetic MinorityOversampling Technique）算法。SmoteR算法是Smote算法（针对分类任务）的改进，使SmoteR算法适用于回归任务（标签是连续数值型数据）。

SmoteR算法通过取特定样本并沿着该样本连接任意个或所有k个最近邻居的线段引入合成样本，从而进行过采样生成虚拟样本。虚拟样本的生成方式如下：取所选择的样本的特征向量与其最近邻居样本的特征向量之间的差值，将此差值乘以0和1之间的随机数，然后将其添加到特征向量中，这将会在两个特定要素之间的线段选择一个随机点，这个随机点就是新生成的虚拟样本。其中新样本标签的确定方式为：使用两个种子样本标签值的加权平均值作为新样本的标签，权重分别为新样本的特征到两个种子样本距离的反函数，新样本如下式所示：

；

其中

和

分别为两个种子样本，

为从样本数据集中随机选取的样本，

为

最近邻居样本中的一个样本，

为新的虚拟样本的所有特征到

的距离，

为新的虚拟样本的所有特征到

的距离，new[Target]表示生成的新的虚拟样本，Target表示待合成样本（新的虚拟样本）的标签名字。

生成单个虚拟样本的SmoteR算法核心伪代码如下：

其中，ng表示每个现有样本生成的新样本的数量，nns表示样本的k个近邻，

表示生成的虚拟样本集合。D表示SmoteR算法输入的样本，o表示生成比率，也就是在随机选择第一个种子样本之后，会分别选择几次最近邻居样本来合成几个新的虚拟样本，一般为1，k表示常数。

步骤105：将临时样本数据集分别和各临时虚拟样本数据集合并，获得多个训练数据集。

步骤106：分别利用各训练数据集训练回归模型，获得多个临时模型。

步骤107：利用验证数据集获得各临时模型的损失函数值，从多个损失函数值中选择最小损失函数值。

步骤108：将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。

本发明不仅要能够批量生成虚拟样本，而且这些虚拟样本必须是相对较好的虚拟样本，将其加入到原始的小样本数据集之后，训练后的临时模型在测试数据集上能够有更好的表现。而这个更好的表现具体指如下两个目标：

1）添加新的虚拟样本（临时虚拟样本数据集合）之后，整体数据集训练的模型能够有更高的预测精度即误差更小。

2）添加新的虚拟样本之后，整体数据集训练的模型的泛化能力要尽可能的平衡即误差的方差要尽可能的小。

在以上两个目标的指导下，本发明针对虚拟样本迭代生成过程中抽象出两个评价指标，第一个是临时模型在验证集数据上的平均绝对误差

。第二是临时模型在验证数据集上所有误差的方差

。在迭代过程中，为了能够同时对两个评价指标进行优化，需要对其进行合理的设计，将两个指标融合到一个公式中，因此本发明中虚拟样本生成过程中利用两个指标的乘积作为损失函数，且该函数值越小越好。

损失函数表示为

，其中，

，

，

表示验证数据集中第

个样本的预测值，

是对应

的真实值，

为

与

之间误差的绝对值，

为验证集上所有样本误差绝对值的平均值。

下面具体说明本发明一种数据增强方法，具体步骤如图4所示。

1）随机选择小样本数据集（样本数据集）为

中

的数据作为数据增强的初始数据集，称作

，剩余的(1-

)的数据作为当前数据增强过程中的验证数据集，称作

。首先利用

进行训练得到一个基准模型

，并利用该模型在

上做测试，得到其损失函数值为

。

2）在

上随机选取

的数据，并对其中的每一个样本按照生成规则进行新虚拟样本的生成，最后此步骤结束将会生成(

)个虚拟样本，称作数据集

。利用(

+

)进行建模得到模型

并利用该模型在

上做测试，得到其损失函数值为

。将该批次的虚拟样本

和

暂时记录以供后续筛选。

3）重复执行步骤（2）

次，则此步骤结束可以得到

个不同的虚拟样本集合

以及他们对应的损失函数值

，通过比较这

个不同的损失函数值，然后选择最小损失函数值对应的虚拟样本集合

，然后将

与小样本数据集

合并，作为本次数据增强之后的结果。

执行以上三个步骤即完成了批量虚拟样本的单次迭代。

本发明实施例一种数据增强方法具体流程如图5所示，将包括1000条数据的样本数据集D，通过本发明一种数据增强方法，获得包括1200条数据的数据增强数据集D’。

图2为本发明一种数据增强系统结构示意图一，如图2所示，一种数据增强系统包括：

样本数据集采集模块201，用于将采集的终端设备异常数据作为样本数据集；

数据集划分模块202，用于将样本数据集划分为初始数据集和验证数据集；

临时样本数据集获取模块203，用于从初始数据集中随机选取设定比例的数据作为临时样本数据集；

多个临时虚拟样本数据集获取模块204，用于基于单个虚拟样本生成规则，根据临时样本数据集生成多个临时虚拟样本数据集；各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应；

多个训练数据集获取模块205，用于将临时样本数据集分别和各临时虚拟样本数据集合并，获得多个训练数据集；

多个临时模型获得模块206，用于分别利用各训练数据集训练回归模型，获得多个临时模型；

最小损失函数值确定模块207，用于利用验证数据集获得各临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

数据增强数据集确定模块208，用于将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。

虚拟样本生成规则采用用于回归的SMOTE算法。

损失函数表示为

，其中，

表示绝对误差，

表示方差，

，

，

表示验证数据集中第

个样本的预测值，

是对应

的真实值，

为

与

之间误差的绝对值，

为验证集上所有样本误差绝对值的平均值。

如图3所示，本发明公开了另外一种数据增强方法，包括：

步骤301：将采集的终端设备异常数据作为样本数据集；

步骤302：将样本数据集的交叉验证损失值作为目标损失值；

步骤303：将样本数据集划分为初始数据集和验证数据集；

步骤304：从当前初始数据集中随机选取设定比例的数据作为临时样本数据集；

步骤305：基于单个虚拟样本生成规则，根据临时样本数据集生成多个临时虚拟样本数据集；各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应；

步骤306：将临时样本数据集分别和各临时虚拟样本数据集合并，获得多个训练数据集；

步骤307：分别利用各训练数据集训练回归模型，获得多个临时模型；

步骤308：利用验证数据集获得各临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

步骤309：将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集；

步骤310：将临时数据增强数据集的交叉验证损失值作为临时损失值；

步骤311：判断当前临时损失值是否小于当前目标损失值；

若当前临时损失值小于当前目标损失值，则执行步骤312。

步骤312：用当前临时损失值更新目标损失值，并用当前临时数据增强数据集更新样本数据集，迭代次数加1。

若当前临时损失值大于当前目标损失值，则执行步骤313。

步骤313：停止迭代，将当前样本数据集作为数据增强数据集输出；

步骤314：判断迭代次数是否大于设定值；

若迭代次数小于或等于设定值，则返回步骤303；

若迭代次数大于设定值，则执行步骤313。

交叉验证损失函数为三折交叉验证损失函数。

如图3所示数据增强方法为通过多次迭代实现的数据增强方法。

虚拟样本难以完全准确地逼近真实样本，如果产生的虚拟样本过少，则由虚拟样本扩展的未知空间的额外信息不足，最终模型的泛化能力会受到限制，但是如果产生的虚拟样本过多，可能会由于虚拟样本引入了过多的误差而使得模型的精度和泛化能力进一步恶化。随着生成的虚拟样本的数量越多，带入的不可信信息也会随之增加，因此，数据增强的过程中存在一个最优的虚拟样本数

或一个取值范围，能够使得最终数据集训练的模型的精度、泛化能力以及平衡性达到最佳。本发明在具备批量虚拟样本单次迭代的基础上，还提供了多次迭代的控制机制。本发明采用了试凑法的思想，通过每次迭代后交叉验证损失函数值的变化来控制是否继续进行迭代。如果单次迭代中合并后的数据集符合保留的条件，则将该数据集输出并作为下一次迭代开始的小样本数据集

，否则就舍弃本次迭代的结果，将上一次迭代输出的数据集作为数据增强后的最终结果。

本发明另外一种数据增强方法具体做法如图5所示：

1）在数据增强开始之前，首先计算初始小样本数据集

上的三折交叉验证损失函数，记为Los₀。

2）在对D执行第一次迭代之后，对其输出的数据集称为

，然后对新的数据集

计算交叉验证损失函数值，记为Los₁,如果Los₁< Los₀,则保留这次迭代，并且继续进行第二次迭代，否则停止迭代，

就作为最终的数据集输出。

3）后续的迭代与停止机制相同，每一次迭代后都用本次的损失函数值和上次的损失函数值比较。

如图5所示，将包括N条数据的样本数据集D₀，通过本发明一种数据增强方法，获得包括N_i-1条数据的数据增强数据集D_i-1。

下面样本数据的直观变化说明本发明一种数据增强方法。

S0.原始样本200条，交叉验证损失值0.8。

S1.第一次迭代结束样本400条，交叉验证损失值0.7（继续）。

S2.第二次迭代技术样本700条，交叉验证损失值0.6（继续）。

S3. 第三次迭代技术样本1000条，交叉验证损失值0.5（继续）。

S4. 第四次迭代技术样本1500条，交叉验证损失值0.7（停止并废弃改次迭代结果）。

S5.输出：1000条样本，交叉验证损失值0.5作为最终结果。

本发明公开了另外一种数据增强系统，包括：

初始目标损失值获得模块，用于将样本数据集的交叉验证损失值作为目标损失值；

多个临时虚拟样本数据集获得模块，用于基于单个虚拟样本生成规则，根据临时样本数据集生成多个临时虚拟样本数据集；各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的，且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应；

多个训练数据集获得模块，用于将临时样本数据集分别和各临时虚拟样本数据集合并，获得多个训练数据集；

多个临时模型获得模块，用于分别利用各训练数据集训练回归模型，获得多个临时模型；

最小损失函数值获得模块，用于利用验证数据集获得各临时模型的损失函数值，从多个损失函数值中选择最小损失函数值；

临时数据增强数据集获得模块，用于将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集；

临时损失值确定模块，用于将临时数据增强数据集的交叉验证损失值作为临时损失值；

目标损失值和样本数据集更新模块，用于若当前临时损失值小于当前目标损失值，则用当前临时损失值更新目标损失值，并用当前临时数据增强数据集更新样本数据集，迭代次数加1；

第二判断模块，用于判断迭代次数是否大于设定值；

交叉验证损失函数为三折交叉验证损失函数。

本发明一种数据增强方法系统适用于所有特征的取值都是连续数值型的数据。

本发明公开的数据增强方法具有增强效果明显，增强过程容易控制等优点。

增强效果明显在本发明中指的是利用本发明提出的数据增强方法扩充小样本数据集之后进行机器学习建模具有更高的预测精度。该优点主要来源于在虚拟样本进行批量连续生成的同时根据损失函数值的大小对虚拟样本进行筛选的一个机制，该机制能够保证有尽可能多的好的虚拟样本加入、尽可能地将坏的虚拟样本排除。

增强过程容易控制指的是达到好的增强效果需要的人工干预较少，试错成本比较低。该优点主要来源于初始条件的设定简单以及迭代轮次的自动控制，减少了人工干预。

针对终端设备异常数据的分析过程，本发明提出的数据增强方法为一种基于启发式的自动数据增强方法，能够有效地扩充异常数据的数量，更有利于后续对异常数据的建模和分析。本发明解决了如何有效扩充小样本数据集，从而更好地对其进行回归建模分析的问题。

本发明公开的一种数据增强方法及系统，对终端设备异常数据进行数据增强，根据获得的数据增强数据集进行回归模型进行训练，获得预测模型，根据预测模型进行终端设备异常的预测，预测模型的输出包括摄像头异常和麦克风异常等设备异常，通过本发明获得数据增强数据集进行模型训练提高了预测模型的预测精度。本发明的数据增强方法还适用于移动警务数据的数据增强，以及高硬度材料的异常数据的数据增强，从而提高相应预测模型的预测精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。