CN113254435A - 一种数据增强方法及系统 - Google Patents

一种数据增强方法及系统 Download PDF

Info

Publication number
CN113254435A
CN113254435A CN202110797961.XA CN202110797961A CN113254435A CN 113254435 A CN113254435 A CN 113254435A CN 202110797961 A CN202110797961 A CN 202110797961A CN 113254435 A CN113254435 A CN 113254435A
Authority
CN
China
Prior art keywords
data set
temporary
sample data
sample
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110797961.XA
Other languages
English (en)
Other versions
CN113254435B (zh
Inventor
陈克鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Telecom Easiness Information Technology Co Ltd
Original Assignee
Beijing Telecom Easiness Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Telecom Easiness Information Technology Co Ltd filed Critical Beijing Telecom Easiness Information Technology Co Ltd
Priority to CN202110797961.XA priority Critical patent/CN113254435B/zh
Publication of CN113254435A publication Critical patent/CN113254435A/zh
Application granted granted Critical
Publication of CN113254435B publication Critical patent/CN113254435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据增强方法及系统,该方法包括:将采集的终端设备异常数据作为样本数据集;将样本数据集划分为初始数据集和验证数据集;从初始数据集中随机选取设定比例的数据作为临时样本数据集;基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集;分别利用各训练数据集训练回归模型,获得多个临时模型;利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。本发明通过降低人为干预,提高了数据增强后样本建模的预测精度。

Description

一种数据增强方法及系统
技术领域
本发明涉及数据增强技术领域,特别是涉及一种数据增强方法及系统。
背景技术
近年来数据增强技术的研究主要有传统的手工增强和基于深度学习的增强,但是这些方法多集中在分类任务中,而且通常需要有大量的训练数据,难以适用于小样本数据的回归任务。而针对回归任务的数据增强方法主要有基于插值的方法和基于域范围扩展的相关方法,这两种方法都有固定的方法能够产生新的虚拟样本,但是它们对生成的新的虚拟样本缺乏有效的筛选机制,增强的次数以及停止条件都需要人工干预,没有很好的自动控制机制,在某些情况下容易因为不好的虚拟样本的加入而导致最终数据增强效果不佳。目前的方法都需要较多的人为干预,而且人为干预比较困难,因此总体的适用性比较低。
发明内容
本发明的目的是提供一种数据增强方法及系统,通过降低人为干预,提高了数据增强后样本建模的预测精度。
为实现上述目的,本发明提供了如下方案:
一种数据增强方法,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集划分为初始数据集和验证数据集;
从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
分别利用各所述训练数据集训练回归模型,获得多个临时模型;
利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
可选地,所述损失函数值的计算公式为
Figure DEST_PATH_IMAGE001
,其中,
Figure 785360DEST_PATH_IMAGE002
表示绝对误差,
Figure DEST_PATH_IMAGE003
表示方差,
Figure 219752DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 916575DEST_PATH_IMAGE006
表示所述验证数据集中第
Figure DEST_PATH_IMAGE007
个样本的预测值,
Figure 94616DEST_PATH_IMAGE008
是对应
Figure 262292DEST_PATH_IMAGE006
的真实值,
Figure DEST_PATH_IMAGE009
Figure 100541DEST_PATH_IMAGE010
Figure 455299DEST_PATH_IMAGE008
之间误差的绝对值,
Figure DEST_PATH_IMAGE011
为所述验证数据集上所有样本误差绝对值的平均值。
本发明还公开了一种数据增强系统,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
数据集划分模块,用于将所述样本数据集划分为初始数据集和验证数据集;
临时样本数据集获取模块,用于从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
多个临时虚拟样本数据集获取模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
多个训练数据集获取模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;
最小损失函数值确定模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
数据增强数据集确定模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
可选地,所述损失函数值的计算公式为
Figure 204075DEST_PATH_IMAGE001
,其中,
Figure 695099DEST_PATH_IMAGE002
表示绝对误差,
Figure 408977DEST_PATH_IMAGE003
表示方差,
Figure 516610DEST_PATH_IMAGE004
Figure 478531DEST_PATH_IMAGE005
Figure 89641DEST_PATH_IMAGE006
表示所述验证数据集中第
Figure 240000DEST_PATH_IMAGE007
个样本的预测值,
Figure 366087DEST_PATH_IMAGE008
是对应
Figure 332032DEST_PATH_IMAGE006
的真实值,
Figure 594386DEST_PATH_IMAGE009
Figure 915646DEST_PATH_IMAGE010
Figure 732292DEST_PATH_IMAGE008
之间误差的绝对值,
Figure 30156DEST_PATH_IMAGE011
为所述验证数据集上所有样本误差绝对值的平均值。
本发明还公开了另一种数据增强方法,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集的交叉验证损失值作为目标损失值;
将样本数据集划分为初始数据集和验证数据集;
从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
分别利用各所述训练数据集训练回归模型,获得多个临时模型;
利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
将所述临时数据增强数据集的交叉验证损失值作为临时损失值;
判断当前临时损失值是否小于当前目标损失值;
若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新所述样本数据集,迭代次数加1;
若当前临时损失值大于当前目标损失值,则停止迭代,将当前样本数据集作为数据增强数据集输出;
判断所述迭代次数是否大于设定值;
若迭代次数小于或等于设定值,则返回步骤“将样本数据集划分为初始数据集和验证数据集”;
若迭代次数大于设定值,则停止迭代,将当前样本数据集作为数据增强数据集输出。
可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
本发明还公开了另一种数据增强系统,其特征在于,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
初始目标损失值获得模块,用于将所述样本数据集的交叉验证损失值作为目标损失值;
数据集划分模块,用于将样本数据集划分为初始数据集和验证数据集;
临时样本数据集获得模块,用于从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
多个临时虚拟样本数据集获得模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
多个训练数据集获得模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;
最小损失函数值获得模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
临时数据增强数据集获得模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
临时损失值确定模块,用于将所述临时数据增强数据集的交叉验证损失值作为临时损失值;
第一判断模块,用于判断当前临时损失值是否小于当前目标损失值;
目标损失值和样本数据集更新模块,用于若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新所述样本数据集,迭代次数加1;
数据增强数据集第一输出模块,若当前临时损失值大于当前目标损失值,用于停止迭代,将当前样本数据集作为数据增强数据集输出;
第二判断模块,用于判断所述迭代次数是否大于设定值;
返回模块,若迭代次数小于或等于设定值,用于返回步骤“将样本数据集划分为初始数据集和验证数据集”;
数据增强数据集第二输出模块,若迭代次数大于设定值,用于停止迭代,将当前样本数据集作为数据增强数据集输出。
可选地,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明迭代生成批量虚拟样本,根据生成批量虚拟样本对回归模型进行测试,通过损失函数值的大小判断是否保留批量虚拟样本,降低了人为干预,提高了数据增强的适用性,进而提高了数据增强后样本建模的预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种数据增强方法流程示意图一;
图2为本发明一种数据增强系统结构示意图一;
图3为本发明一种数据增强方法流程示意图二;
图4为本发明实施例一种数据增强方法具体流程示意图一;
图5为本发明实施例一种数据增强方法具体流程示意图二。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种数据增强方法及系统,通过降低人为干预,提高了数据增强后样本建模的预测精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明一种数据增强方法流程示意图一,如图1所示,一种数据增强方法包括以下步骤:
步骤101:将采集的终端设备异常数据作为样本数据集。
步骤102:将样本数据集划分为初始数据集和验证数据集。
步骤103:从初始数据集中随机选取设定比例的数据作为临时样本数据集。
步骤104:基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应。
多次循环临时样本数据集,每次循环依次对临时样本数据集中每一个样本按照虚拟样本生成规则生成虚拟样本,每次循环生成一个临时虚拟样本数据集。通过多次循环生成多个临时虚拟样本数据集。
虚拟样本生成规则采用SmoteR(Conducts the Synthetic Minority Over-Sampling Technique for Regression)算法,即用于回归的SMOTE(Synthetic MinorityOversampling Technique)算法。SmoteR算法是Smote算法(针对分类任务)的改进,使SmoteR算法适用于回归任务(标签是连续数值型数据)。
SmoteR算法通过取特定样本并沿着该样本连接任意个或所有k个最近邻居的线段引入合成样本,从而进行过采样生成虚拟样本。虚拟样本的生成方式如下:取所选择的样本的特征向量与其最近邻居样本的特征向量之间的差值,将此差值乘以0和1之间的随机数,然后将其添加到特征向量中,这将会在两个特定要素之间的线段选择一个随机点,这个随机点就是新生成的虚拟样本。其中新样本标签的确定方式为:使用两个种子样本标签值的加权平均值作为新样本的标签,权重分别为新样本的特征到两个种子样本距离的反函数,新样本如下式所示:
Figure 615858DEST_PATH_IMAGE012
其中
Figure DEST_PATH_IMAGE013
Figure 170336DEST_PATH_IMAGE014
分别为两个种子样本,
Figure 710164DEST_PATH_IMAGE013
为从样本数据集中随机选取的样本,
Figure 313184DEST_PATH_IMAGE014
Figure 18972DEST_PATH_IMAGE013
最近邻居样本中的一个样本,
Figure DEST_PATH_IMAGE015
为新的虚拟样本的所有特征到
Figure 807385DEST_PATH_IMAGE013
的距离,
Figure 129782DEST_PATH_IMAGE016
为新的虚拟样本的所有特征到
Figure 365854DEST_PATH_IMAGE014
的距离,new[Target]表示生成的新的虚拟样本,Target表示待合成样本(新的虚拟样本)的标签名字。
生成单个虚拟样本的SmoteR算法核心伪代码如下:
Figure DEST_PATH_IMAGE017
其中,ng表示每个现有样本生成的新样本的数量,nns表示样本的k个近邻,
Figure 988465DEST_PATH_IMAGE018
表示生成的虚拟样本集合。D表示SmoteR算法输入的样本,o表示生成比率,也就是在随机选择第一个种子样本之后,会分别选择几次最近邻居样本来合成几个新的虚拟样本,一般为1,k表示常数。
步骤105:将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集。
步骤106:分别利用各训练数据集训练回归模型,获得多个临时模型。
步骤107:利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值。
步骤108:将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
本发明不仅要能够批量生成虚拟样本,而且这些虚拟样本必须是相对较好的虚拟样本,将其加入到原始的小样本数据集之后,训练后的临时模型在测试数据集上能够有更好的表现。而这个更好的表现具体指如下两个目标:
1)添加新的虚拟样本(临时虚拟样本数据集合)之后,整体数据集训练的模型能够有更高的预测精度即误差更小。
2)添加新的虚拟样本之后,整体数据集训练的模型的泛化能力要尽可能的平衡即误差的方差要尽可能的小。
在以上两个目标的指导下,本发明针对虚拟样本迭代生成过程中抽象出两个评价指标,第一个是临时模型在验证集数据上的平均绝对误差
Figure 760112DEST_PATH_IMAGE019
。第二是临时模型在验证数据集上所有误差的方差
Figure DEST_PATH_IMAGE020
。在迭代过程中,为了能够同时对两个评价指标进行优化,需要对其进行合理的设计,将两个指标融合到一个公式中,因此本发明中虚拟样本生成过程中利用两个指标的乘积作为损失函数,且该函数值越小越好。
损失函数表示为
Figure 396236DEST_PATH_IMAGE021
,其中,
Figure 341058DEST_PATH_IMAGE004
Figure 755859DEST_PATH_IMAGE005
Figure 262189DEST_PATH_IMAGE006
表示验证数据集中第
Figure 762441DEST_PATH_IMAGE007
个样本的预测值,
Figure 245374DEST_PATH_IMAGE008
是对应
Figure 983523DEST_PATH_IMAGE006
的真实值,
Figure 398105DEST_PATH_IMAGE009
Figure 182390DEST_PATH_IMAGE010
Figure 469015DEST_PATH_IMAGE008
之间误差的绝对值,
Figure 858408DEST_PATH_IMAGE011
为验证集上所有样本误差绝对值的平均值。
下面具体说明本发明一种数据增强方法,具体步骤如图4所示。
1)随机选择小样本数据集(样本数据集)为
Figure DEST_PATH_IMAGE022
Figure 768858DEST_PATH_IMAGE023
的数据作为数据增强的初始数据集,称作
Figure DEST_PATH_IMAGE024
,剩余的(1-
Figure 306018DEST_PATH_IMAGE023
)的数据作为当前数据增强过程中的验证数据集,称作
Figure 629290DEST_PATH_IMAGE025
。首先利用
Figure 873189DEST_PATH_IMAGE024
进行训练得到一个基准模型
Figure DEST_PATH_IMAGE026
,并利用该模型在
Figure 453075DEST_PATH_IMAGE025
上做测试,得到其损失函数值为
Figure 916680DEST_PATH_IMAGE027
2)在
Figure 545107DEST_PATH_IMAGE024
上随机选取
Figure DEST_PATH_IMAGE028
的数据,并对其中的每一个样本按照生成规则进行新虚拟样本的生成,最后此步骤结束将会生成(
Figure 705830DEST_PATH_IMAGE029
)个虚拟样本,称作数据集
Figure DEST_PATH_IMAGE030
。利用(
Figure 949293DEST_PATH_IMAGE024
+
Figure 398729DEST_PATH_IMAGE030
)进行建模得到模型
Figure 565268DEST_PATH_IMAGE031
并利用该模型在
Figure 285225DEST_PATH_IMAGE025
上做测试,得到其损失函数值为
Figure DEST_PATH_IMAGE032
。将该批次的虚拟样本
Figure 206913DEST_PATH_IMAGE030
Figure 878066DEST_PATH_IMAGE033
暂时记录以供后续筛选。
3)重复执行步骤(2)
Figure DEST_PATH_IMAGE034
次,则此步骤结束可以得到
Figure 674727DEST_PATH_IMAGE034
个不同的虚拟样本集合
Figure 747726DEST_PATH_IMAGE035
以及他们对应的损失函数值
Figure DEST_PATH_IMAGE036
,通过比较这
Figure 341780DEST_PATH_IMAGE034
个不同的损失函数值,然后选择最小损失函数值对应的虚拟样本集合
Figure 500229DEST_PATH_IMAGE035
,然后将
Figure 8571DEST_PATH_IMAGE035
与小样本数据集
Figure 201655DEST_PATH_IMAGE022
合并,作为本次数据增强之后的结果。
执行以上三个步骤即完成了批量虚拟样本的单次迭代。
本发明实施例一种数据增强方法具体流程如图5所示,将包括1000条数据的样本数据集D,通过本发明一种数据增强方法,获得包括1200条数据的数据增强数据集D’。
图2为本发明一种数据增强系统结构示意图一,如图2所示,一种数据增强系统包括:
样本数据集采集模块201,用于将采集的终端设备异常数据作为样本数据集;
数据集划分模块202,用于将样本数据集划分为初始数据集和验证数据集;
临时样本数据集获取模块203,用于从初始数据集中随机选取设定比例的数据作为临时样本数据集;
多个临时虚拟样本数据集获取模块204,用于基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应;
多个训练数据集获取模块205,用于将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块206,用于分别利用各训练数据集训练回归模型,获得多个临时模型;
最小损失函数值确定模块207,用于利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
数据增强数据集确定模块208,用于将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
虚拟样本生成规则采用用于回归的SMOTE算法。
损失函数表示为
Figure 907224DEST_PATH_IMAGE021
,其中,
Figure 552969DEST_PATH_IMAGE037
表示绝对误差,
Figure 68264DEST_PATH_IMAGE003
表示方差,
Figure DEST_PATH_IMAGE038
Figure 679636DEST_PATH_IMAGE005
Figure 848449DEST_PATH_IMAGE006
表示验证数据集中第
Figure 184752DEST_PATH_IMAGE007
个样本的预测值,
Figure 300476DEST_PATH_IMAGE008
是对应
Figure 701108DEST_PATH_IMAGE006
的真实值,
Figure 244085DEST_PATH_IMAGE009
Figure 598843DEST_PATH_IMAGE006
Figure 518257DEST_PATH_IMAGE008
之间误差的绝对值,
Figure 41905DEST_PATH_IMAGE039
为验证集上所有样本误差绝对值的平均值。
如图3所示,本发明公开了另外一种数据增强方法,包括:
步骤301:将采集的终端设备异常数据作为样本数据集;
步骤302:将样本数据集的交叉验证损失值作为目标损失值;
步骤303:将样本数据集划分为初始数据集和验证数据集;
步骤304:从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
步骤305:基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应;
步骤306:将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集;
步骤307:分别利用各训练数据集训练回归模型,获得多个临时模型;
步骤308:利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
步骤309:将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
步骤310:将临时数据增强数据集的交叉验证损失值作为临时损失值;
步骤311:判断当前临时损失值是否小于当前目标损失值;
若当前临时损失值小于当前目标损失值,则执行步骤312。
步骤312:用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新样本数据集,迭代次数加1。
若当前临时损失值大于当前目标损失值,则执行步骤313。
步骤313:停止迭代,将当前样本数据集作为数据增强数据集输出;
步骤314:判断迭代次数是否大于设定值;
若迭代次数小于或等于设定值,则返回步骤303;
若迭代次数大于设定值,则执行步骤313。
交叉验证损失函数为三折交叉验证损失函数。
如图3所示数据增强方法为通过多次迭代实现的数据增强方法。
虚拟样本难以完全准确地逼近真实样本,如果产生的虚拟样本过少,则由虚拟样本扩展的未知空间的额外信息不足,最终模型的泛化能力会受到限制,但是如果产生的虚拟样本过多,可能会由于虚拟样本引入了过多的误差而使得模型的精度和泛化能力进一步恶化。随着生成的虚拟样本的数量越多,带入的不可信信息也会随之增加,因此,数据增强的过程中存在一个最优的虚拟样本数
Figure 755783DEST_PATH_IMAGE040
或一个取值范围,能够使得最终数据集训练的模型的精度、泛化能力以及平衡性达到最佳。本发明在具备批量虚拟样本单次迭代的基础上,还提供了多次迭代的控制机制。本发明采用了试凑法的思想,通过每次迭代后交叉验证损失函数值的变化来控制是否继续进行迭代。如果单次迭代中合并后的数据集符合保留的条件,则将该数据集输出并作为下一次迭代开始的小样本数据集
Figure DEST_PATH_IMAGE041
,否则就舍弃本次迭代的结果,将上一次迭代输出的数据集作为数据增强后的最终结果。
本发明另外一种数据增强方法具体做法如图5所示:
1)在数据增强开始之前,首先计算初始小样本数据集
Figure 925733DEST_PATH_IMAGE022
上的三折交叉验证损失函数,记为Los0
2)在对D执行第一次迭代之后,对其输出的数据集称为
Figure 899372DEST_PATH_IMAGE042
,然后对新的数据集
Figure 510482DEST_PATH_IMAGE042
计算交叉验证损失函数值,记为Los1,如果Los1< Los0,则保留这次迭代,并且继续进行第二次迭代,否则停止迭代,
Figure 660841DEST_PATH_IMAGE022
就作为最终的数据集输出。
3)后续的迭代与停止机制相同,每一次迭代后都用本次的损失函数值和上次的损失函数值比较。
如图5所示,将包括N条数据的样本数据集D0,通过本发明一种数据增强方法,获得包括Ni-1条数据的数据增强数据集Di-1
下面样本数据的直观变化说明本发明一种数据增强方法。
S0.原始样本200条,交叉验证损失值0.8。
S1.第一次迭代结束样本400条,交叉验证损失值0.7(继续)。
S2.第二次迭代技术样本700条,交叉验证损失值0.6(继续)。
S3. 第三次迭代技术样本1000条,交叉验证损失值0.5(继续)。
S4. 第四次迭代技术样本1500条,交叉验证损失值0.7(停止并废弃改次迭代结果)。
S5.输出:1000条样本,交叉验证损失值0.5作为最终结果。
本发明公开了另外一种数据增强系统,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
初始目标损失值获得模块,用于将样本数据集的交叉验证损失值作为目标损失值;
数据集划分模块,用于将样本数据集划分为初始数据集和验证数据集;
临时样本数据集获得模块,用于从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
多个临时虚拟样本数据集获得模块,用于基于单个虚拟样本生成规则,根据临时样本数据集生成多个临时虚拟样本数据集;各临时虚拟样本数据集中虚拟样本是根据临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各临时虚拟样本数据集中虚拟样本与临时样本数据集中样本一一对应;
多个训练数据集获得模块,用于将临时样本数据集分别和各临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各训练数据集训练回归模型,获得多个临时模型;
最小损失函数值获得模块,用于利用验证数据集获得各临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
临时数据增强数据集获得模块,用于将样本数据集和最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
临时损失值确定模块,用于将临时数据增强数据集的交叉验证损失值作为临时损失值;
第一判断模块,用于判断当前临时损失值是否小于当前目标损失值;
目标损失值和样本数据集更新模块,用于若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新样本数据集,迭代次数加1;
数据增强数据集第一输出模块,若当前临时损失值大于当前目标损失值,用于停止迭代,将当前样本数据集作为数据增强数据集输出;
第二判断模块,用于判断迭代次数是否大于设定值;
返回模块,若迭代次数小于或等于设定值,用于返回步骤“将样本数据集划分为初始数据集和验证数据集”;
数据增强数据集第二输出模块,若迭代次数大于设定值,用于停止迭代,将当前样本数据集作为数据增强数据集输出。
交叉验证损失函数为三折交叉验证损失函数。
本发明一种数据增强方法系统适用于所有特征的取值都是连续数值型的数据。
本发明公开的数据增强方法具有增强效果明显,增强过程容易控制等优点。
增强效果明显在本发明中指的是利用本发明提出的数据增强方法扩充小样本数据集之后进行机器学习建模具有更高的预测精度。该优点主要来源于在虚拟样本进行批量连续生成的同时根据损失函数值的大小对虚拟样本进行筛选的一个机制,该机制能够保证有尽可能多的好的虚拟样本加入、尽可能地将坏的虚拟样本排除。
增强过程容易控制指的是达到好的增强效果需要的人工干预较少,试错成本比较低。该优点主要来源于初始条件的设定简单以及迭代轮次的自动控制,减少了人工干预。
针对终端设备异常数据的分析过程,本发明提出的数据增强方法为一种基于启发式的自动数据增强方法,能够有效地扩充异常数据的数量,更有利于后续对异常数据的建模和分析。本发明解决了如何有效扩充小样本数据集,从而更好地对其进行回归建模分析的问题。
本发明公开的一种数据增强方法及系统,对终端设备异常数据进行数据增强,根据获得的数据增强数据集进行回归模型进行训练,获得预测模型,根据预测模型进行终端设备异常的预测,预测模型的输出包括摄像头异常和麦克风异常等设备异常,通过本发明获得数据增强数据集进行模型训练提高了预测模型的预测精度。本发明的数据增强方法还适用于移动警务数据的数据增强,以及高硬度材料的异常数据的数据增强,从而提高相应预测模型的预测精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据增强方法,其特征在于,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集划分为初始数据集和验证数据集;
从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
分别利用各所述训练数据集训练回归模型,获得多个临时模型;
利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
2.根据权利要求1所述的数据增强方法,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
3.根据权利要求1所述的数据增强方法,其特征在于,所述损失函数值的计算公式为
Figure DEST_PATH_IMAGE002
,其中,
Figure DEST_PATH_IMAGE004
表示绝对误差,
Figure DEST_PATH_IMAGE006
表示方差,
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE012
表示所述验证数据集中第
Figure DEST_PATH_IMAGE014
个样本的预测值,
Figure DEST_PATH_IMAGE016
是对应
Figure 59765DEST_PATH_IMAGE012
的真实值,
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure 554069DEST_PATH_IMAGE016
之间误差的绝对值,
Figure DEST_PATH_IMAGE021
为所述验证数据集上所有样本误差绝对值的平均值。
4.一种数据增强系统,其特征在于,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
数据集划分模块,用于将所述样本数据集划分为初始数据集和验证数据集;
临时样本数据集获取模块,用于从所述初始数据集中随机选取设定比例的数据作为所述临时样本数据集;
多个临时虚拟样本数据集获取模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
多个训练数据集获取模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;
最小损失函数值确定模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
数据增强数据集确定模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为数据增强数据集。
5.根据权利要求4所述的数据增强系统,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
6.根据权利要求4所述的数据增强系统,其特征在于,所述损失函数值的计算公式为
Figure 412435DEST_PATH_IMAGE002
,其中,
Figure 243862DEST_PATH_IMAGE004
表示绝对误差,
Figure 261497DEST_PATH_IMAGE006
表示方差,
Figure 21643DEST_PATH_IMAGE008
Figure 226359DEST_PATH_IMAGE010
Figure 690838DEST_PATH_IMAGE012
表示所述验证数据集中第
Figure 61515DEST_PATH_IMAGE014
个样本的预测值,
Figure 992561DEST_PATH_IMAGE016
是对应
Figure 887836DEST_PATH_IMAGE012
的真实值,
Figure 562531DEST_PATH_IMAGE018
Figure 527994DEST_PATH_IMAGE019
Figure 895522DEST_PATH_IMAGE016
之间误差的绝对值,
Figure 340409DEST_PATH_IMAGE021
为所述验证数据集上所有样本误差绝对值的平均值。
7.一种数据增强方法,其特征在于,包括:
将采集的终端设备异常数据作为样本数据集;
将所述样本数据集的交叉验证损失值作为目标损失值;
将样本数据集划分为初始数据集和验证数据集;
从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
分别利用各所述训练数据集训练回归模型,获得多个临时模型;
利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
将所述临时数据增强数据集的交叉验证损失值作为临时损失值;
判断当前临时损失值是否小于当前目标损失值;
若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新所述样本数据集,迭代次数加1;
若当前临时损失值大于当前目标损失值,则停止迭代,将当前样本数据集作为数据增强数据集输出;
判断所述迭代次数是否大于设定值;
若迭代次数小于或等于设定值,则返回步骤“将样本数据集划分为初始数据集和验证数据集”;
若迭代次数大于设定值,则停止迭代,将当前样本数据集作为数据增强数据集输出。
8.根据权利要求7所述的数据增强方法,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
9.一种数据增强系统,其特征在于,包括:
样本数据集采集模块,用于将采集的终端设备异常数据作为样本数据集;
初始目标损失值获得模块,用于将所述样本数据集的交叉验证损失值作为目标损失值;
数据集划分模块,用于将样本数据集划分为初始数据集和验证数据集;
临时样本数据集获得模块,用于从当前初始数据集中随机选取设定比例的数据作为临时样本数据集;
多个临时虚拟样本数据集获得模块,用于基于单个虚拟样本生成规则,根据所述临时样本数据集生成多个临时虚拟样本数据集;各所述临时虚拟样本数据集中虚拟样本是根据所述临时样本数据集中样本通过单个虚拟样本生成规则生成的,且各所述临时虚拟样本数据集中虚拟样本与所述临时样本数据集中样本一一对应;
多个训练数据集获得模块,用于将所述临时样本数据集分别和各所述临时虚拟样本数据集合并,获得多个训练数据集;
多个临时模型获得模块,用于分别利用各所述训练数据集训练回归模型,获得多个临时模型;
最小损失函数值获得模块,用于利用所述验证数据集获得各所述临时模型的损失函数值,从多个损失函数值中选择最小损失函数值;
临时数据增强数据集获得模块,用于将所述样本数据集和所述最小损失函数值对应的临时虚拟样本数据集合并作为临时数据增强数据集;
临时损失值确定模块,用于将所述临时数据增强数据集的交叉验证损失值作为临时损失值;
第一判断模块,用于判断当前临时损失值是否小于当前目标损失值;
目标损失值和样本数据集更新模块,用于若当前临时损失值小于当前目标损失值,则用当前临时损失值更新目标损失值,并用当前临时数据增强数据集更新所述样本数据集,迭代次数加1;
数据增强数据集第一输出模块,若当前临时损失值大于当前目标损失值,用于停止迭代,将当前样本数据集作为数据增强数据集输出;
第二判断模块,用于判断所述迭代次数是否大于设定值;
返回模块,若迭代次数小于或等于设定值,用于返回步骤“将样本数据集划分为初始数据集和验证数据集”;
数据增强数据集第二输出模块,若迭代次数大于设定值,用于停止迭代,将当前样本数据集作为数据增强数据集输出。
10.根据权利要求9所述的数据增强系统,其特征在于,所述单个虚拟样本生成规则采用用于回归的SMOTE算法。
CN202110797961.XA 2021-07-15 2021-07-15 一种数据增强方法及系统 Active CN113254435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110797961.XA CN113254435B (zh) 2021-07-15 2021-07-15 一种数据增强方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110797961.XA CN113254435B (zh) 2021-07-15 2021-07-15 一种数据增强方法及系统

Publications (2)

Publication Number Publication Date
CN113254435A true CN113254435A (zh) 2021-08-13
CN113254435B CN113254435B (zh) 2021-10-29

Family

ID=77191237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110797961.XA Active CN113254435B (zh) 2021-07-15 2021-07-15 一种数据增强方法及系统

Country Status (1)

Country Link
CN (1) CN113254435B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583594A (zh) * 2018-11-16 2019-04-05 东软集团股份有限公司 深度学习训练方法、装置、设备及可读存储介质
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN112508243A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 电力信息系统多故障预测网络模型的训练方法及装置
CN112686296A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于粒子群优化随机森林参数的辛烷损失值预测方法
CN112947300A (zh) * 2021-02-22 2021-06-11 西安交通大学 一种加工质量虚拟量测方法、系统、介质及设备
CN112966429A (zh) * 2020-08-11 2021-06-15 中国矿业大学 基于WGANs数据增强的非线性工业过程建模方法
CN112990432A (zh) * 2021-03-04 2021-06-18 北京金山云网络技术有限公司 目标识别模型训练方法、装置及电子设备
CN113052812A (zh) * 2021-03-22 2021-06-29 山西三友和智慧信息技术股份有限公司 一种基于AmoebaNet的MRI前列腺癌检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583594A (zh) * 2018-11-16 2019-04-05 东软集团股份有限公司 深度学习训练方法、装置、设备及可读存储介质
US20200285896A1 (en) * 2019-03-09 2020-09-10 Tongji University Method for person re-identification based on deep model with multi-loss fusion training strategy
CN112966429A (zh) * 2020-08-11 2021-06-15 中国矿业大学 基于WGANs数据增强的非线性工业过程建模方法
CN112508243A (zh) * 2020-11-25 2021-03-16 国网浙江省电力有限公司信息通信分公司 电力信息系统多故障预测网络模型的训练方法及装置
CN112686296A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于粒子群优化随机森林参数的辛烷损失值预测方法
CN112947300A (zh) * 2021-02-22 2021-06-11 西安交通大学 一种加工质量虚拟量测方法、系统、介质及设备
CN112990432A (zh) * 2021-03-04 2021-06-18 北京金山云网络技术有限公司 目标识别模型训练方法、装置及电子设备
CN113052812A (zh) * 2021-03-22 2021-06-29 山西三友和智慧信息技术股份有限公司 一种基于AmoebaNet的MRI前列腺癌检测方法

Also Published As

Publication number Publication date
CN113254435B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN110009171B (zh) 用户行为模拟方法、装置、设备及计算机可读存储介质
Chen et al. On the convergence of stochastic gradient MCMC algorithms with high-order integrators
KR20170052344A (ko) 신규 물질 탐색 방법 및 장치
CN109451304B (zh) 一种摄像头模组批量对焦测试方法及系统
JP7131393B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN110633859B (zh) 一种两阶段分解集成的水文序列预测方法
CN107832789B (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN113240113B (zh) 一种增强网络预测鲁棒性的方法
Radiuk et al. A framework for exploring and modelling neural architecture search methods
CN105335379A (zh) 突变测试中对突变、测试用例、随机种子的组合排序的方法和设备
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN112733724B (zh) 基于判别样本元挖掘器的亲属关系验证方法和装置
CN105335592A (zh) 生成时间数据序列的缺失区段中的数据的方法和设备
CN113254435B (zh) 一种数据增强方法及系统
US11989656B2 (en) Search space exploration for deep learning
CN117472789A (zh) 基于集成学习的软件缺陷预测模型构建方法和装置
CN117319223A (zh) 一种基于数字孪生技术的领导驾驶舱可视化方法及系统
CN105608460A (zh) 多分类器融合方法和系统
CN107644145A (zh) 一种基于蒙特卡洛和决策逻辑的故障行为仿真方法
CN111581586A (zh) 基于套合模型的湖库水质各向异性插值方法和装置
CN115935620A (zh) 仿真测试场景推荐方法、装置、存储介质及计算机设备
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
CN115165332A (zh) 一种装备机内测试与综合测试一体化设计方法及系统
CN117252040B (zh) 多应力加速试验分析方法、电子设备和可读存储介质
CN113657623B (zh) 电力设备状态诊断效果确定方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant