CN110888911A - 样本数据处理方法、装置、计算机设备及存储介质 - Google Patents

样本数据处理方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110888911A
CN110888911A CN201910965007.XA CN201910965007A CN110888911A CN 110888911 A CN110888911 A CN 110888911A CN 201910965007 A CN201910965007 A CN 201910965007A CN 110888911 A CN110888911 A CN 110888911A
Authority
CN
China
Prior art keywords
data
network model
feature data
sample
minority class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910965007.XA
Other languages
English (en)
Inventor
秦文力
张密
韩丙卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910965007.XA priority Critical patent/CN110888911A/zh
Publication of CN110888911A publication Critical patent/CN110888911A/zh
Priority to PCT/CN2020/098820 priority patent/WO2021068563A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种样本数据处理方法、装置、计算机设备及存储介质;通过获取样本特征数据;基于样本特征数据的标注数据对样本特征数据进行分类,得到不同类型的基本特征数据;统计每一类型的基本特征数据的数据量,根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值;若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据,则将占比值小于占比阈值的基本特征数据,确定为少数类特征数据集;基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据,目标生成对抗网络模型是采用Deep⨯网络模型构建的;将构造特征数据加入到样本特征数据中,得到标准特征数据;从而有效解决了样本数据不平衡的问题。

Description

样本数据处理方法、装置、计算机设备及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种样本数据处理方法、装置、计算机设备及存储介质。
背景技术
随着科技的进步和大数据时代的到来,人们可以访问获取的数据和信息资源呈现出爆炸式的增长。利用数据进行预测、评估反馈等应用日趋普遍,例如:采用机器学习或者聚类方法等进行预测或评估反馈。然而,在采用机器学习或者聚类方法等进行预测或评估反馈时,经常会出现样本数据不平衡的问题。目前,解决样本数据不平衡的问题的方法大部分都是直接通过人工合成技术增加少数类的样本量实现。但是,通过人工合成技术增加少数类的样本量的方法生成的样本相对单一,并且容易造成样本交叉。因此,有效的解决样本数据不平衡的问题是目前数据处理领域中亟待解决的重要问题。
发明内容
本发明实施例提供一种样本数据处理方法、装置、计算机设备及存储介质,以解决样本数据不平衡的问题。
一种样本数据处理方法,包括:
获取样本特征数据,所述样本特征数据包括标注数据;
基于所述标注数据对所述样本特征数据进行分类,得到不同类型的基本特征数据;
统计所述每一类型的基本特征数据的数据量,根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值;
若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据,则将所述占比值小于所述占比阈值的基本特征数据,确定为少数类特征数据集;
基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造,生成构造特征数据,其中,所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
将所述构造特征数据加入到所述样本特征数据中,得到标准特征数据。
一种样本数据处理装置,包括:
样本特征数据获取模块,用于获取样本特征数据,所述样本特征数据包括标注数据;
分类模块,用于基于所述标注数据对所述样本特征数据进行分类,得到不同类型的基本特征数据;
统计模块,用于统计所述每一类型的基本特征数据的数据量,根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值;
少数类特征数据集确定模块,用于在所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据时,将所述占比值小于所述占比阈值的基本特征数据,确定为少数类特征数据集;
数据构造模块,用于基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造,生成构造特征数据,其中,所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
加入模块,用于将所述构造特征数据加入到所述样本特征数据中,得到标准特征数据。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述样本数据处理方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述样本数据处理方法。
上述样本数据处理方法、装置、计算机设备及存储介质,通过获取样本特征数据,样本特征数据包括标注数据;基于标注数据对样本特征数据进行分类,得到不同类型的基本特征数据;统计每一类型的基本特征数据的数据量,根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值;若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据,则将占比值小于占比阈值的基本特征数据,确定为少数类特征数据集;基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据,其中,目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;将构造特征数据加入到样本特征数据中,得到标准特征数据;先通过对获取的样本特征数据进行分类,然后提取数量占比值少于占比阈值的少数类特征数据,再采用由Deep&CrossNet网络模型构建的目标生成对抗网络模型对少数类特征数据进行数据构建,生成一组构造特征数据,从而有效解决了样本数据不平衡的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中样本数据处理方法的一应用环境示意图;
图2是本发明一实施例中样本数据处理方法的一示例图;
图3是本发明一实施例中样本数据处理方法的另一示例图;
图4是本发明一实施例中样本数据处理方法的另一示例图;
图5是本发明一实施例中样本数据处理方法的另一示例图;
图6是本发明一实施例中样本数据处理方法的另一示例图;
图7是本发明一实施例中样本数据处理装置的一原理框图;
图8是本发明一实施例中样本数据处理装置的另一原理框图;
图9是本发明一实施例中样本数据处理装置的另一原理框图;
图10是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的样本数据处理方法,该样本数据处理方法可应用如图1所示的应用环境中。具体地,该样本数据处理方法应用在样本数据处理系统中,该样本数据处理系统包括如图1所示的客户端和服务端,客户端与服务端通过网络进行通信,用于解决样本数据类别不平衡的问题。其中,客户端又称为用户端,是指与服务端相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种样本数据处理方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
S10:获取样本特征数据,样本特征数据包括标注数据。
其中,样本特征数据指待进行处理的数据。样本特征数据可以但不限于用户信息(如性别、年龄、职业等)、网站或网页点击行为(如点击时间、次数、频率等)、用户交易数据及行为(如支付产品信息、支付金额、支付方式等)等。样本特征数据包括标注数据。其中,标注数据指用于区别不同类型的样本特征数据的一种标识信息。
在一具体实施例中,为了便于区分不同类型的样本特征数据,需预先对每一样本特征数据进行样本标注,得到标注数据。示例性地,若获取的样本特征数据为网站或网页点击行为(如点击次数),该样本特征数据包括网站或网页点击次数不超过100次的特征数据,和网站或网页点击次数等于或超过100次的特征数据;则可以预先对网站或网页点击次数不超过100次的特征数据进行样本标注为1,和对网站或网页点击次数等于或超过100次的特征数据进行样本标注为0。可以理解地,该样本特征数据包括的标注数据分别为1和0。
S20:基于标注数据对样本特征数据进行分类,得到不同类型的基本特征数据。
具体地,由于每一样本特征数据都包括对应的标注数据,因此,可直接根据每一样本特征数据对应的标注数据进行分类,即将标注数据相同的样本特征数据归为相同类型的基本特征数据,将标注数据不同的样本特征数据归为不同类型的特征数据基本。在本实施例中,样本特征数据包括至少两种类型的样本特征数据。
S30:统计每一类型的基本特征数据的数据量,根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值。
在对样本特征数据进行分类,得到不同类型的基本特征数据之后,可采用统计函数统计每一类型的基本特征数据的数据量。然后,根据每一类型的基本特征数据的数据量,计算每一类型的基本特征数据在样本特征数据中的占比值。具体地,计算每一类型的基本特征数据在样本特征数据中的占比值包括:先将每一类型的基本特征数据的数据量与样本特征数据的总数据量进行比例化,然后对生成的每一比例化结果进行约分,即可得到每一类型的基本特征数据在样本特征数据中的占比值。
示例性地,若获取的样本特征数据中包括三种类型的基本特征数据,分别为基本特征数据A、基本特征数据B和基本特征数据C;该样本特征数据的总数据量为20000,统计得到基本特征数据A的数据量为1000,基本特征数据B的数据量为9000,基本特征数据C数据量为10000;则将基本特征数据A的数据量1000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为1/20,将基本特征数据B的数据量9000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为9/20;将基本特征数据C的数据量10000与样本特征数据的总数据量20000进行比例化约分后得到的占比值为1/2。
S40:若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据,则将占比值小于占比阈值的基本特征数据,确定为少数类特征数据集。
其中,占比阈值指预先设定的用于评估基本特征数据的数据量是否满足要求的阈值。例如,占比阈值可以为1/10,1/12或者1/20等,用户可根据样本特征数据的实际数据量自定义设定。少数类特征数据集指数据量不满足设定要求的基本特征数据所组成的数据集。可以理解地,少数类特征数据集中包含若干少数类特征数据。具体地,在确定了样本特征数据中每一类型的基本特征数据的占比值之后;将每一类型的基本特征数据的占比值与预设的占比阈值进行一一比较;判断该样本特征数据中是否存在占比值小于占比阈值的基本特征数据,若样本特征数据中存在占比值小于占比阈值的基本类特征数据,则将该占比值小于占比阈值的基本特征数据,确定为少数类特征数据集。可以理解地,若该样本特征数据中不存在占比值小于占比阈值的基本类特征数据,则说明该样本特征数据不存在样本数据类别不平衡的问题。
示例性地,若预先设定的占比阈值为1/10,经步骤S30得到样本特征数据中基本特征数据A的占比值为1/20,基本特征数据B的占比值为9/20,基本特征数据C的占比值为1/2。将基本特征数据A、基本特征数据B和基本特征数据C的占比值分别与占比阈值进行一一比较之后;得到基本特征数据A的占比值1/20小于占比阈值1/10,基本特征数据B的占比值9/20大于占比阈值1/10,基本特征数据C的占比值1/2大于占比阈值1/10;则将基本特征数据A确定为少数类特征数据集。
S50:基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据,其中,目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的。
其中,目标生成对抗网络模型是预先训练得到的一个网络模型。目标生成对抗网络模型用于对少数类特征数据集进行数据构造,并输出与对应的少数类特征数据集相同的构造特征数据。在本实施例中,基于目标生成对抗网络模型对少数类特征数据集进行数据构造后,生成的构造特征数据的数量可根据实际情况自定义设定。需要说明的是,构造特征数据与少数类特征数据属于相同类型的特征数据,即生成的构造特征数据与少数类特征数据所包含的特征相同。例如:若少数类特征数据为用户交易数据及行为(如支付产品信息、支付金额、支付方式等),则生成的构造特征数据也为用户交易数据及行为(如支付产品信息、支付金额、支付方式等)。
具体地,基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据包括:输入一组随机数据和少数类特征数据至预设生成对抗网络模型中进行训练,生成目标生成对抗网络模型,该预设生成对抗网络模型是由Deep&CrossNet网络搭建的。然后,再将该随机数据输入该训练生成的目标生成对抗网络模型中,即可生成对应的构造特征数据。
需要说明的是,在本实施例中,若获取的少数类特征数据为一连续性数据,则在基于目标生成对抗网络模型对少数类特征数据进行数据构造之前,需先少数类特征数据进行离散化处理生成一组由向量组成的离散型数据。若获取的少数类特征数据为一离散型数据,则可直接基于目标生成对抗网络模型对少数类特征数据进行数据构造,生成构造特征数据。
由于生成对抗网络模型是一种生成对抗网络模型,主要由生成网络模型和判别网络模型组成。因此采用Deep&CrossNet网络模型搭建生成对抗网络模型主要是指通过采用Deep&CrossNet网络模型来搭建生成对抗网络模型中的生成网络模型和判别网络模型。其中,Deep&CrossNet(DCN)网络模型是一种交叉网络模型。DCN网模型络是由第一层嵌入和堆积层,第二层一个交叉网络和一个与之平行的深度网络,以及第三层组合层组成的网络。DCN网络结合了交叉网络和深度网络的输出。DCN网模型络可以在保留原始特征信息的基础上进一步抽象信息,能够高效地提取有限的重要特征中的相互作用和交互信息,不需要人工特征工程或者遍历搜索,而且比一般的神经网络易于训练。另外地,DCN可以在保留原始特征信息的基础上进一步抽象信息,在结构化数据方面适应性更好。
S60:将构造特征数据加入到样本特征数据中,得到标准特征数据。
其中,标准特征数据指满足要求的特征数据。可以理解地,标准特征数据是一组数据类别平衡的数据。
具体地,在根据步骤S50生成构造特征数据之后,再将生成的构造特征数据加入到样本特征数据中,即可得到标准特征数据。优选地,由于生成的构造特征数据是由一组取值为0或1的特征向量组成的离散型数据,若获取的样本特征数据为一连续型数据,则在将构造特征数据加入到样本特征数据中之前,需预先采用预先设置的编码方式将样本特征数据编码转化为离散型数据。其中,编码方式可以为One-Hot编码或者整数编码等。然后,再将构造特征数据加入到样本特征数据中,得到标准特征数据。
在本实施例中,通过获取样本特征数据,样本特征数据包括标注数据;基于标注数据对样本特征数据进行分类,得到不同类型的基本特征数据;统计每一类型的基本特征数据的数据量,根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值;若样本特征数据中存在占比值小于预设的占比阈值的基本特征数据,则将占比值小于占比阈值的基本特征数据,确定为少数类特征数据集;基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据,其中,目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;将构造特征数据加入到样本特征数据中,得到标准特征数据;先通过对获取的样本特征数据进行分类,然后提取数量占比值少于占比阈值的少数类特征数据集,再采用由Deep&CrossNet网络模型构建的目标生成对抗网络模型对少数类特征数据集进行数据构建,生成一组构造特征数据,从而有效解决了样本数据不平衡的问题。
在一实施例中,如图3所示,基于目标生成对抗网络模型对少数类特征数据集进行数据构造,生成构造特征数据,具体包括如下步骤:
S501:获取少数类特征数据,采用少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,其中,初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的。
其中,少数类特征数据是从少数类特征数据集中获取的部分数据。由于少数类特征数据集中所包含的少数类特征数据都属于相同类型的数据。因此,在基于目标生成对抗网络模型对少数类特征数据集进行数据构造,只需从少数类特征数据集中获取的部分数据,作为少数类特征数据,然后采用少数类特征数据训练预设的初始生成对抗网络网络模型,生成目标生成对抗网络模型主要包括:采用Deep&CrossNet网络搭建初始生成对抗网络模型,即设置初始生成对抗网络模型中的生成网络模型和判断网络模型都为Deep&CrossNet网络模型;输入一组随机噪声数据至该初始生成对抗网络模型的生成网络模型中进行训练,生成网络模型输出一组随机特征数据;然后,再将获取的少数类特征数据和该随机特征数据分别作为该初始生成对抗网络模型的判别网络模型的输入向量,并对该判别网络模型进行训练,依次循环,以对该初始生成对抗网络模型中的生成网络模型和判断网络模型进行迭代训练,直至收敛,得到目标生成对抗网络模型。
S502:获取随机噪声数据,将随机噪声数据输入目标生成对抗网络模型的生成网络模型中,生成构造特征数据。
其中,随机噪声数据是指随机生成的符合正态分布的数据。具体地,在根据步骤S501得到目标生成对抗网络模型之后,再随机生成一组随机噪声数据,并将该随机噪声数据输入到该目标生成对抗网络模型的生成网络模型中,即可生成对应的构造特征数据。
在本实施例中,通过获取少数类特征数据,采用少数类特征数据训练预设的生成对抗网络网络模型,生成目标生成对抗网络模型,其中,生成对抗网络网络模型是采用Deep&CrossNet网络模型构建的;获取随机噪声数据,将随机噪声数据输入目标生成对抗网络模型的生成网络模型中,生成构造特征数据;通过采用Deep&CrossNet网络模型构建的生成对抗网络网络模型对少数类特征数据进行数据构造,从而提高了数据构造的效率。
在一实施例中,如图4所示,采用少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,具体包括如下步骤:
S5011:基于Deep&CrossNet网络搭建初始生成对抗网络模型。
其中,Deep&CrossNet网络是一种交叉网络。DCN网络是由第一层嵌入和堆积层,第二层一个交叉网络和一个与之平行的深度网络,以及第三层组合层组成的网络。DCN网络结合了交叉网络和深度网络的输出。DCN网络可以在保留原始特征信息的基础上进一步抽象信息,能够高效地提取有限的重要特征中的相互作用和交互信息,不需要人工特征工程或者遍历搜索,而且比一般的神经网络易于训练。另外地,DCN可以在保留原始特征信息的基础上进一步抽象信息,在结构化数据方面适应性更好。
具体地,由于生成对抗网络模型主要由生成网络模型和判别网络模型组成。因此,基于Deep&CrossNet网络搭建初始生成对抗网络模型主要是指通过采用Deep&CrossNet网络来构建初始生成对抗网络模型中的生成网络模型和判别网络模型。可以理解地,初始生成对抗网络模型中的生成网络模型和判别网络模型都是由Deep&CrossNet网络构成的。
S5012:输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练,生成随机特征数据。
其中,随机噪声数据是指随机生成的符合正态分布的数据。具体地,输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练,即可生成一组随机特征数据。
S5013:对随机特征数据进行离散化处理,得到离散特征数据。
具体地,由于经步骤5012生成的随机特征数据可能是一组连续型数据,因此,为了提高后续模型训练的精准度,需对生成的随机特征数据进行离散化处理,生成离散特征数据。其中,离散特征数据是指由一组取值为0或1的特征向量组成的数据。具体地,可采用预先设置的编码方式对该随机特征数据进行离散化处理,得到离散特征数据。其中,编码方式可以为One-Hot编码或者整数编码等。
S5014:将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,生成目标生成对抗网络模型。
将离散特征数据和少数类特征数据分别作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,直至收敛,得到目标生成对抗网络模型。可以理解地,对初始生成对抗网络模型进行迭代训练过程主要指对初始生成对抗网络模型中的生成网络模型和判别网络模型进行交替训练的过程。需要说明的是,在将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量之前,需保证少数类特征数据的特征条件(特征值)与离散特征数据的特征条件(特征值)相互对应。
具体地,初始生成对抗网络模型中的生成网络模型和判别网络模型通过最大化判别网络模型的差别能力和最小化生成网络模型的分布损失函数来独立进行迭代训练,直至初始生成对抗网络模型中的生成网络模型生成的随机特征数据在判别网络模型中的判别输出概率值接近0.5,得到目标生成对抗网络模型。
在本实施例中,基于Deep&CrossNet网络搭建初始生成对抗网络模型;输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练,生成随机特征数据;对随机特征数据进行离散化处理,得到离散特征数据;将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,生成目标生成对抗网络模型;通过采用Deep&CrossNet网络构建初始生成对抗网络模型,使生成的目标生成对抗网络模型中的生成网络模型和判别网络模型更加稳定和高效,从而保证了后续采用目标生成对抗网络模型对少数类特征数据进行数据构造的准确性。
在一实施例中,如图5所示,将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,具体包括如下步骤:
S50141:将离散特征数据设为假样本集,将少数类特征数据设为真样本集。
具体地,将离散特征数据设为假样本集,将少数类特征数据设为真样本集。在一具体实施例中,为了便于区分假样本集和真样本集,还可对假样本集和真样本集进行标签设置。优选地,将假样本集的所有类标签设为0,将真样本集的所有类标签设为1。
S50142:分别输入假样本集和真样本集至初始生成对抗网络模型中,获取初始生成对抗网络模型中判别网络模型的输出值。
具体地,分别输入假样本集和真样本集至初始生成对抗网络模型中,即可直接获取初始生成对抗网络模型中判别网络模型的输出值。具体地,由于输入的样本为标签设为1的真样本集和标签设为0的假样本集,因此基于真样本集和假样本集所生成的输出值为在0-1之间的数值。
需要说明的是,由于是对初始生成对抗网络模型中判别网络模型的迭代训练,因此在输入假样本集和真样本集至初始生成对抗网络模型中之前,需要先固定初始生成对抗网络模型中生成网络模型的参数值,以避免生成网络模型在生成离散特征数据时由于模型参数的变化导致引入非必要性的不确定未知条件,从而导致误差的出现,进而导致迭代训练的结果产生倾斜。
S50143:根据判别网络模型的输出值,调整判别网络模型的参数值,使判别网络模型的输出值接近预设输出值。
具体地,通过比较判别网络模型的输出值与预设输出值的差值调整判别网络模型的参数值,以使判别网络模型的输出值接近预设输出值。由于输入的样本为标签设为1的真样本集和标签设为0的假样本集,因此,预设输出值优选为1,即使判别网络模型的输出值接近真样本集。在本步骤中,通过计算判别网络模型的输出值与预设输出值的差值调整判别网络模型的参数值,当判别网络模型的输出值与预设输出值的差值接近于0时,即完成判别网络模型的训练。
在本实施例中,通过将离散特征数据设为假样本集,将少数类特征数据设为真样本集;分别输入假样本集和真样本集至初始生成对抗网络模型中,获取初始生成对抗网络模型中判别网络模型的输出值;根据判别网络模型的输出值,调整判别网络模型的参数值,使判别网络模型的输出值接近预设输出值;从而进一步提高了判别网络模型的稳定性和准确性。
在一实施例中,如图6所示,将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,还具体包括如下步骤:
S50144:预设判别网络模型的参数值。
具体地,通过预先设定判别网络模型的参数值,以将判别网络模型设定为定量条件。需要说明的是,参数值一般包括但不限于判别网络模型的判别权重。
S50145:输入随机噪声数据至初始生成对抗网络模型的生成网络模型中,并进行初始计算得到随机特征数据。
具体地,输入随机噪声数据至初始生成对抗网络模型的生成网络模型中,并进行初始计算得到随机特征数据。优选地,在一具体实施例中,在得到随机特征数据之后,需再将随机特征数据的标签设为1。将随机特征数据的标签设置为1,即表示在进行判别时将随机特征数据看作为当前情况下的少数类特征数据,以通过判别网络模型进行真伪判别。
S50146:通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值,调整生成网络模型的参数值,使生成网络模型输出的随机特征数据接近少数类特征数据。
具体地,计算生成网络模型输出的随机特征数据与少数类特征数据之间的差值,通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值,根据差值调整生成网络模型中的参数值,以使生成网络模型输出的随机特征数据接近少数类特征数据,完善生成网络模型。
在本实施例中,通过预设判别网络模型的参数值;输入随机噪声数据至以初始生成对抗网络模型中,并进行初始计算得到随机特征数据;通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值,调整生成网络模型的参数值,使生成网络模型输出的随机特征数据接近少数类特征数据;从而进一步提高了生成网络模型的稳定性和准确性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种样本数据处理装置,该样本数据处理装置与上述实施例中样本数据处理方法一一对应。如图7所示,该样本数据处理装置包括样本特征数据获取模块10、分类模块20、统计模块30、少数类特征数据确定模块40、数据构造模块50和加入模块60。各功能模块详细说明如下:
样本特征数据获取模块10,用于获取样本特征数据,样本特征数据包括标注数据;
分类模块20,用于基于标注数据对样本特征数据进行分类,得到不同类型的基本特征数据;
统计模块30,用于统计每一类型的基本特征数据的数据量,根据数据量计算每一类型的基本特征数据在样本特征数据中的占比值;
少数类特征数据集确定模块40,用于在样本特征数据中存在占比值小于预设的占比阈值的基本特征数据时,将占比值小于占比阈值的基本特征数据,确定为少数类特征数据集;
数据构造模块50,用于基于目标生成对抗网络模型对少数类特征数据进行数据构造,生成构造特征数据,其中,目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
加入模块60,用于将构造特征数据加入到样本特征数据中,得到标准特征数据。
优选地,如图8所示,数据构造模块50,包括:
训练子模块501,用于获取少数类特征数据,采用少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,其中,初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
构造特征数据生成子模块502,用于获取随机噪声数据,将随机噪声数据输入目标生成对抗网络模型的生成网络模型中,生成构造特征数据。
优选地,如图9所示,训练子模块501,包括:
搭建单元5011,用于基于Deep&CrossNet网络搭建初始生成对抗网络模型;
训练单元5012,用于输入一组随机噪声数据至初始生成对抗网络模型的生成网络模型中进行训练,生成随机特征数据;
离散化处理单元5013,用于对随机特征数据进行离散化处理,得到离散特征数据;
迭代训练单元5014,用于将离散特征数据和少数类特征数据作为初始生成对抗网络模型的判别网络模型的输入向量,对初始生成对抗网络模型进行迭代训练,生成目标生成对抗网络模型。
优选地,迭代训练单元5014,包括:
设置子单元,用于将离散特征数据设为假样本集,将少数类特征数据设为真样本集;
输入子单元,用于分别输入假样本集和真样本集至初始生成对抗网络模型中,获取初始生成对抗网络模型中判别网络模型的输出值;
第一调整子单元,用于根据判别网络模型的输出值,调整判别网络模型的参数值,使判别网络模型的输出值接近预设输出值。
优选地,迭代训练单元5014,还包括:
预设子单元,用于预设判别网络模型的参数值;
计算子单元,用于输入随机噪声数据至初始生成对抗网络模型的生成网络模型中,并进行初始计算得到随机特征数据;
第二调整子单元,用于通过比较生成网络模型输出的随机特征数据与少数类特征数据之间的差值,调整生成网络模型的参数值,使生成网络模型输出的随机特征数据接近少数类特征数据。
关于样本数据处理装置的具体限定可以参见上文中对于样本数据处理方法的限定,在此不再赘述。上述样本数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中的样本数据处理方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本数据处理方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的样本数据处理方法。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中的样本数据处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种样本数据处理方法,其特征在于,包括:
获取样本特征数据,所述样本特征数据包括标注数据;
基于所述标注数据对所述样本特征数据进行分类,得到不同类型的基本特征数据;
统计所述每一类型的基本特征数据的数据量,根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值;
若所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据,则将所述占比值小于所述占比阈值的基本特征数据,确定为少数类特征数据集;
基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造,生成构造特征数据,其中,所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
将所述构造特征数据加入到所述样本特征数据中,得到标准特征数据。
2.如权利要求1所述的样本数据处理方法,其特征在于,所述基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造,生成构造特征数据,包括:
获取少数类特征数据,采用所述少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,其中,所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
获取随机噪声数据,将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中,生成构造特征数据。
3.如权利要求2所述的样本数据处理方法,其特征在于,所述采用所述少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,包括:
基于Deep&CrossNet网络搭建初始生成对抗网络模型;
输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练,生成随机特征数据;
对所述随机特征数据进行离散化处理,得到离散特征数据;
将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量,对所述初始生成对抗网络模型进行迭代训练,生成目标生成对抗网络模型。
4.如权利要求3所述的样本数据处理方法,其特征在于,所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量,对所述初始生成对抗网络模型进行迭代训练,包括:
将所述离散特征数据设为假样本集,将所述少数类特征数据设为真样本集;
分别输入所述假样本集和所述真样本集至所述初始生成对抗网络模型中,获取所述初始生成对抗网络模型中判别网络模型的输出值;
根据所述判别网络模型的所述输出值,调整所述判别网络模型的参数值,使所述判别网络模型的所述输出值接近预设输出值。
5.如权利要求3所述的样本数据处理方法,其特征在于,所述将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量,对所述初始生成对抗网络模型进行迭代训练,还包括:
预设所述判别网络模型的参数值;
输入随机噪声数据至所述初始生成对抗网络模型的生成网络模型中,并进行初始计算得到随机特征数据;
通过比较所述生成网络模型输出的所述随机特征数据与所述少数类特征数据之间的差值,调整所述生成网络模型的参数值,使所述生成网络模型输出的随机特征数据接近所述少数类特征数据。
6.一种样本数据处理装置,其特征在于,包括:
样本特征数据获取模块,用于获取样本特征数据,所述样本特征数据包括标注数据;
分类模块,用于基于所述标注数据对所述样本特征数据进行分类,得到不同类型的基本特征数据;
统计模块,用于统计所述每一类型的基本特征数据的数据量,根据所述数据量计算所述每一类型的基本特征数据在所述样本特征数据中的占比值;
少数类特征数据集确定模块,用于在所述样本特征数据中存在所述占比值小于预设的占比阈值的基本特征数据时,将所述占比值小于所述占比阈值的基本特征数据,确定为少数类特征数据集;
数据构造模块,用于基于目标生成对抗网络模型对所述少数类特征数据集进行数据构造,生成构造特征数据,其中,所述目标生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
加入模块,用于将所述构造特征数据加入到所述样本特征数据中,得到标准特征数据。
7.如权利要求6所述的样本数据处理装置,其特征在于,所述数据构造模块,包括:
训练子模块,用于获取少数类特征数据,采用所述少数类特征数据训练预设的初始生成对抗网络模型,生成目标生成对抗网络模型,其中,所述初始生成对抗网络模型是采用Deep&CrossNet网络模型构建的;
构造特征数据生成子模块,用于获取随机噪声数据,将所述随机噪声数据输入所述目标生成对抗网络模型的生成网络模型中,生成构造特征数据。
8.如权利要求7所述的样本数据处理装置,其特征在于,所述训练子模块,包括:
搭建单元,用于基于Deep&CrossNet网络搭建初始生成对抗网络模型;
训练单元,用于输入一组随机噪声数据至所述初始生成对抗网络模型的生成网络模型中进行训练,生成随机特征数据;
离散化处理单元,用于对所述随机特征数据进行离散化处理,得到离散特征数据;
迭代训练单元,用于将所述离散特征数据和所述少数类特征数据作为所述初始生成对抗网络模型的判别网络模型的输入向量,对所述初始生成对抗网络模型进行迭代训练,生成目标生成对抗网络模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述样本数据处理方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述样本数据处理方法。
CN201910965007.XA 2019-10-11 2019-10-11 样本数据处理方法、装置、计算机设备及存储介质 Pending CN110888911A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910965007.XA CN110888911A (zh) 2019-10-11 2019-10-11 样本数据处理方法、装置、计算机设备及存储介质
PCT/CN2020/098820 WO2021068563A1 (zh) 2019-10-11 2020-06-29 样本数据处理方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910965007.XA CN110888911A (zh) 2019-10-11 2019-10-11 样本数据处理方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110888911A true CN110888911A (zh) 2020-03-17

Family

ID=69746107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910965007.XA Pending CN110888911A (zh) 2019-10-11 2019-10-11 样本数据处理方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN110888911A (zh)
WO (1) WO2021068563A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN111839495A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 检测方法、设备和存储介质
CN111970584A (zh) * 2020-07-08 2020-11-20 国网宁夏电力有限公司电力科学研究院 一种用于处理数据的方法、装置、设备以及存储介质
WO2021068563A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177597A (zh) * 2021-04-30 2021-07-27 平安国际融资租赁有限公司 模型训练数据确定方法、检测模型训练方法、装置及设备
CN113988908A (zh) * 2021-10-14 2022-01-28 同盾科技有限公司 营销人群的投放方法、装置、电子设备和存储介质
CN114596277A (zh) * 2022-03-03 2022-06-07 北京百度网讯科技有限公司 检测对抗样本的方法、装置、设备以及存储介质
CN117235624B (zh) * 2023-09-22 2024-05-07 中节能数字科技有限公司 排放数据造假检测方法、装置及系统和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392259A (zh) * 2017-08-16 2017-11-24 北京京东尚科信息技术有限公司 构建不均衡样本分类模型的方法和装置
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN108470187A (zh) * 2018-02-26 2018-08-31 华南理工大学 一种基于扩充训练数据集的类别不平衡问题分类方法
CN109190750A (zh) * 2018-07-06 2019-01-11 国家计算机网络与信息安全管理中心 基于对抗生成网络的小样本生成方法及装置
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9224104B2 (en) * 2013-09-24 2015-12-29 International Business Machines Corporation Generating data from imbalanced training data sets
CN110888911A (zh) * 2019-10-11 2020-03-17 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN107392259A (zh) * 2017-08-16 2017-11-24 北京京东尚科信息技术有限公司 构建不均衡样本分类模型的方法和装置
CN108470187A (zh) * 2018-02-26 2018-08-31 华南理工大学 一种基于扩充训练数据集的类别不平衡问题分类方法
CN109190750A (zh) * 2018-07-06 2019-01-11 国家计算机网络与信息安全管理中心 基于对抗生成网络的小样本生成方法及装置
CN109711452A (zh) * 2018-12-20 2019-05-03 四川新网银行股份有限公司 一种基于wgan-gp模型对用户行为的不平衡分类方法
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021068563A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机设备及存储介质
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN111970584A (zh) * 2020-07-08 2020-11-20 国网宁夏电力有限公司电力科学研究院 一种用于处理数据的方法、装置、设备以及存储介质
CN111839495A (zh) * 2020-07-30 2020-10-30 深圳前海微众银行股份有限公司 检测方法、设备和存储介质

Also Published As

Publication number Publication date
WO2021068563A1 (zh) 2021-04-15

Similar Documents

Publication Publication Date Title
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN108377240B (zh) 异常接口检测方法、装置、计算机设备和存储介质
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
CN109858737B (zh) 基于模型部署的评分模型调整方法、装置和计算机设备
CN108491406B (zh) 信息分类方法、装置、计算机设备和存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN112395500B (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN109325118B (zh) 不平衡样本数据预处理方法、装置和计算机设备
CN108182633B (zh) 贷款数据处理方法、装置、计算机设备和存储介质
CN112016318A (zh) 基于解释模型的分诊信息推荐方法、装置、设备及介质
CN108769026A (zh) 用户账号检测系统和方法
CN113159737B (zh) Rpa业务处理方法、rpa管理平台、设备及介质
CN110166522B (zh) 服务器识别方法、装置、可读存储介质和计算机设备
CN112231224A (zh) 基于人工智能的业务系统测试方法、装置、设备和介质
CN112699923A (zh) 文档分类预测方法、装置、计算机设备及存储介质
CN113987182A (zh) 基于安全情报的欺诈实体识别方法、装置及相关设备
CN112417315A (zh) 基于网站注册的用户画像生成方法、装置、设备和介质
CN110956195A (zh) 图像匹配方法、装置、计算机设备及存储介质
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN114692889A (zh) 用于机器学习算法的元特征训练模型
CN110263106B (zh) 协同舆论欺诈检测方法和装置
CN109992778B (zh) 基于机器学习的简历文档判别方法及装置
CN116048944A (zh) 用于大数据平台的负载趋势预测方法及系统
CN115222112A (zh) 一种行为预测方法、行为预测模型的生成方法及电子设备
CN112381458A (zh) 项目评审方法、项目评审装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination