CN111126503A

CN111126503A - 一种训练样本的生成方法和装置

Info

Publication number: CN111126503A
Application number: CN201911374505.3A
Authority: CN
Inventors: 白云飞
Original assignee: Beijing Tongbang Zhuoyi Technology Co Ltd
Current assignee: Beijing Tongbang Zhuoyi Technology Co Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-05-08
Anticipated expiration: 2039-12-27
Also published as: CN111126503B

Abstract

本申请涉及一种训练样本的生成方法和装置，其中，该方法包括：从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；获取所述目标生成对抗网络模型生成的目标样本。本申请解决了原始的训练样本信息量较少的技术问题。

Description

一种训练样本的生成方法和装置

技术领域

本申请涉及计算机领域，尤其涉及一种训练样本的生成方法和装置。

背景技术

在二分类问题中，通常假设正负类别相对均衡，然而实际应用中类别不平衡的问题，如100，1000，10000倍的数据偏斜是非常常见的。在二分类问题中，一般将数目少的类别视为正例，数目多的类别视为负例。在信贷场景中，信用正常的用户是远远多于违约用户的。意味着正例样本获取难度大，获取成本高，数目稀少。分类器从稀少的正例样本中学习到正例特征是很困难的，分类器达到好的检测效果是非常困难的。如果在好坏样本比例为99:1的样本条件下，直接带到模型中，每次梯度下降使用全量样本，负样本的权重只有不到1/100,梯度学到的负样本信息十分有限。目前解决此类问题的方式是使用一些线性的采样方式扩充正例样本，但是新合成的样本不会提供太多有用信息。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种训练样本的生成方法和装置。

根据本申请实施例的一个方面，提供了一种训练样本的生成方法，包括：

从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；

获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；

使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；

获取所述目标生成对抗网络模型生成的目标样本。

可选地，使用所述初始特征矩阵训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型包括：

将所述初始特征矩阵输入到初始生成器中，得到所述生成器生成的生成特征矩阵；

将所述初始特征矩阵标记为第一标记并将所述生成特征矩阵标记为第二标记，得到特征矩阵训练集，其中，所述第一标记用于指示所述初始特征矩阵为使用信贷数据构造的特征矩阵，所述第二标记用于指示所述生成特征矩阵为所述初始生成器生成的特征矩阵；

使用所述特征矩阵训练集训练初始判别器，得到目标判别器，其中，所述初始生成对抗网络模型包括所述初始生成器和所述初始判别器；

使用所述初始特征矩阵和所述目标判别器对所述初始生成器进行训练，得到目标生成器，其中，所述目标生成对抗网络模型包括所述目标生成器和所述目标判别器。

可选地，使用所述特征矩阵训练集训练所述初始判别器，得到所述目标判别器包括：

将所述特征矩阵训练集中的样本输入到所述初始判别器中，得到所述初始判别器的输出值；

将所述输出值和所述特征矩阵训练集中的样本对应的标注值代入所述初始判别器对应的损失函数中，得到所述特征矩阵训练集中的样本对应的损失函数值；

调整所述初始判别器的参数，直至所述损失函数值收敛，得到所述目标判别器。

可选地，使用所述初始特征矩阵和所述目标判别器对所述初始生成器进行训练，得到所述目标生成器包括：

将所述初始特征矩阵输入所述初始生成器，得到所述初始生成器生成的特征矩阵；

将所述初始生成器生成的特征矩阵输入所述目标判别器，得到所述目标判别器输出的标记值；

对所述初始生成器的参数进行调整，直至所述目标判别器输出的标记值为第三标记，得到所述目标生成器，其中，所述第三标记用于指示所述目标判别器输出的标记值为所述第一标记的概率与所述目标判别器输出的标记值为所述第二标记的概率相同。

可选地，使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型包括：

将所述初始特征矩阵中的每个元素转换为标准元素，得到标准化的初始特征矩阵；

将所述标准化的初始特征矩阵作为输入训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型。

可选地，在获取所述目标生成对抗网络模型生成的目标样本之后，所述方法还包括：

将所述目标样本标注为信誉度低于所述目标信誉度的样本，得到目标正例样本；

将所述目标正例样本添加到所述初始的信贷样本集中，得到目标信贷样本集；

使用所述目标信贷样本集对初始信誉度分类模型进行训练，得到目标信誉度分类模型，其中，所述目标信誉度分类模型用于对帐号的信誉度进行分类。

根据本申请实施例的另一方面，还提供了一种训练样本的生成装置，包括：

第一获取模块，用于从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；

第二获取模块，用于获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；

第一训练模块，用于使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；

第三获取模块，用于获取所述目标生成对抗网络模型生成的目标样本。

可选地，所述第一训练模块包括：

输入单元，用于将所述初始特征矩阵输入到初始生成器中，得到所述生成器生成的生成特征矩阵；

标记单元，用于将所述初始特征矩阵标记为第一标记并将所述生成特征矩阵标记为第二标记，得到特征矩阵训练集，其中，所述第一标记用于指示所述初始特征矩阵为使用信贷数据构造的特征矩阵，所述第二标记用于指示所述生成特征矩阵为所述初始生成器生成的特征矩阵；

第一训练单元，用于使用所述特征矩阵训练集训练初始判别器，得到目标判别器，其中，所述初始生成对抗网络模型包括所述初始生成器和所述初始判别器；

第二训练单元，用于使用所述初始特征矩阵和所述目标判别器对所述初始生成器进行训练，得到目标生成器，其中，所述目标生成对抗网络模型包括所述目标生成器和所述目标判别器。

可选地，所述第一训练单元用于：

可选地，所述第二训练单元用于：

可选地，所述第一训练模块包括：

转换单元，用于将所述初始特征矩阵中的每个元素转换为标准元素，得到标准化的初始特征矩阵；

第三训练单元，用于将所述标准化的初始特征矩阵作为输入训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型。

可选地，所述装置还包括：

标注模块，用于在获取所述目标生成对抗网络模型生成的目标样本之后，将所述目标样本标注为信誉度低于所述目标信誉度的样本，得到目标正例样本；

添加模块，用于将所述目标正例样本添加到所述初始的信贷样本集中，得到目标信贷样本集；

第二训练模块，用于使用所述目标信贷样本集对初始信誉度分类模型进行训练，得到目标信誉度分类模型，其中，所述目标信誉度分类模型用于对帐号的信誉度进行分类。

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本申请实施例中，采用从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；获取所述目标生成对抗网络模型生成的目标样本的方式，通过获取正例样本集中每个正例样本的信贷数据来构造初始特征矩阵对初始生成对抗网络模型进行训练得到目标生成对抗网络模型，通过目标生成对抗网络模型自动生成目标样本，达到了为生成的目标样本提供更多的信贷数据的目的，从而实现了提高训练样本信息量的技术效果，进而解决了原始的训练样本信息量较少的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的训练样本的生成方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的训练样本的生成方法的流程图；

图3是根据本申请可选实施例的一种训练样本的生成模型的示意图；

图4是根据本申请实施例的一种可选的训练样本的生成装置的示意图；

以及

图5是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种训练样本的生成的方法实施例。

可选地，在本实施例中，上述训练样本的生成方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的训练样本的生成方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的训练样本的生成方法也可以是由安装在其上的客户端来执行。

图2是根据本申请实施例的一种可选的训练样本的生成方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；

步骤S204，获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；

步骤S206，使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；

步骤S208，获取所述目标生成对抗网络模型生成的目标样本。

通过上述步骤S202至步骤S208，通过获取正例样本集中每个正例样本的信贷数据来构造初始特征矩阵对初始生成对抗网络模型进行训练得到目标生成对抗网络模型，通过目标生成对抗网络模型自动生成目标样本，达到了为生成的目标样本提供更多的信贷数据的目的，从而实现了提高训练样本信息量的技术效果，进而解决了原始的训练样本信息量较少的技术问题。

在步骤S202提供的技术方案中，初始的信贷样本集中包括被标注为信誉度低于目标信誉度(即信誉度坏)的正例样本和被标注为信誉度高于目标信誉度(即信誉度好)的负例样本。例如：假设Y为样本的信誉度好坏表现，信誉度好的样本将Y标为0，信誉度坏的样本将Y标为1。

可选地，在本实施例中，正例样本集所包括的可以是初始的信贷样本集中全部的正例样本或者也可以是部分正例样本。

在步骤S204提供的技术方案中，信贷数据可以但不限于是用于评估样本信用度的数据，比如：样本在订单维度的数据(订单数，订单额度，订单付款情况等等)，样本对应用程序的操作记录(点击、浏览、评论、收藏等操作)，理财数据(支付信息、信贷数据)，运营商数据，银联金融数据等等。

在步骤S206提供的技术方案中，初始生成对抗网络模型包括初始生成器和初始判别器，目标生成对抗网络模型包括目标生成器和目标判别器。

在步骤S208提供的技术方案中，目标生成对抗网络模型生成的目标样本可以但不限于作为正例样本对初始的信贷样本集进行填充。使得初始的信贷样本集的正例特征更加的充实丰富。

作为一种可选的实施例，使用所述初始特征矩阵训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型包括：

S11，将所述初始特征矩阵输入到初始生成器中，得到所述生成器生成的生成特征矩阵；

S12，将所述初始特征矩阵标记为第一标记并将所述生成特征矩阵标记为第二标记，得到特征矩阵训练集，其中，所述第一标记用于指示所述初始特征矩阵为使用信贷数据构造的特征矩阵，所述第二标记用于指示所述生成特征矩阵为所述初始生成器生成的特征矩阵；

S13，使用所述特征矩阵训练集训练初始判别器，得到目标判别器，其中，所述初始生成对抗网络模型包括所述初始生成器和所述初始判别器；

S14，使用所述初始特征矩阵和所述目标判别器对所述初始生成器进行训练，得到目标生成器，其中，所述目标生成对抗网络模型包括所述目标生成器和所述目标判别器。

可选地，在本实施例中，在初始生成对抗网络模型的训练过程中，首先固定初始生成器的参数，训练初始判别器，得到目标判别器，使得目标判别器对于特征矩阵是否由初始生成器生成具有判别能力，再固定目标判别器的参数来训练初始判别器，得到目标生成器，使得目标生成器能够生成目标判别器无法判别的特征矩阵。

可选地，在本实施例中，可以但不限于通过以下方式训练所述初始判别器，得到所述目标判别器：

S21，将所述特征矩阵训练集中的样本输入到所述初始判别器中，得到所述初始判别器的输出值；

S22，将所述输出值和所述特征矩阵训练集中的样本对应的标注值代入所述初始判别器对应的损失函数中，得到所述特征矩阵训练集中的样本对应的损失函数值；

S23，调整所述初始判别器的参数，直至所述损失函数值收敛，得到所述目标判别器。

可选地，在本实施例中，目标判别器的训练目标是使得目标判别器能够识别输入的特征矩阵是否是由生成器生成的。

可选地，在本实施例中，可以但不限于使用以下方式对所述初始生成器进行训练，得到所述目标生成器：

S31，将所述初始特征矩阵输入所述初始生成器，得到所述初始生成器生成的特征矩阵；

S32，将所述初始生成器生成的特征矩阵输入所述目标判别器，得到所述目标判别器输出的标记值；

S33，对所述初始生成器的参数进行调整，直至所述目标判别器输出的标记值为第三标记，得到所述目标生成器，其中，所述第三标记用于指示所述目标判别器输出的标记值为所述第一标记的概率与所述目标判别器输出的标记值为所述第二标记的概率相同。

可选地，在本实施例中，目标生成器的训练目标是使得目标判别器无法判断输入的特征矩阵是否是由目标生成器生成的。

作为一种可选的实施例，使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型包括：

S41，将所述初始特征矩阵中的每个元素转换为标准元素，得到标准化的初始特征矩阵；

S42，将所述标准化的初始特征矩阵作为输入训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型。

可选地，在本实施例中，为了使得各个特征的数值具有可比性，可以首先对数据进行初始化处理，将各个特征的数据转换到相同的区间之内。比如：标准元素x′可以通过以下公式确定，

其中，x为初始特征矩阵中的每个元素，min为x所列中的最小值，max为x所列中的最大值。

作为一种可选的实施例，在获取所述目标生成对抗网络模型生成的目标样本之后，所述方法还包括：

S51，将所述目标样本标注为信誉度低于所述目标信誉度的样本，得到目标正例样本；

S52，将所述目标正例样本添加到所述初始的信贷样本集中，得到目标信贷样本集；

S53，使用所述目标信贷样本集对初始信誉度分类模型进行训练，得到目标信誉度分类模型，其中，所述目标信誉度分类模型用于对帐号的信誉度进行分类。

可选地，在本实施例中，得到目标样本之后可以使用目标样本对初始的信贷样本集进行扩充得到样本特征更加均衡的目标信贷样本集，使用目标信贷样本集对分类模型进行训练，使得得到的目标信誉度分类模型能够具有更强的识别能力。

本申请还提供了一种可选实施例，该可选实施例利用生成对抗网络生成坏样本，解决信贷场景中坏样本严重不足的问题。假设Y为样本的好坏表现，好人为0，坏人为1；将各种用于评估样本信用的数据按照人维度进行对齐形成特征矩阵，记为x。

图3是根据本申请可选实施例的一种训练样本的生成过程的示意图，如图3所示，该过程包括以下步骤：

步骤1，建立正例样本数据库：收集训练数据中的正例样本，并按照一定格式进行数据的标准化处理。

其中，x为数值型特征，min为特征x的最小值，max为特征x的最大值。x′为经过标准化处理后的特征。

步骤2，生成生成器G，设置生成网络的网络结构，可以使用一个隐含层，输出为n_inputs,隐藏层的激活函数为ReLU，其他层的激活函数为Linear，设置生成器的初始化参数，同时优化器选择Adam。

步骤3，生成判别器D，设置判别器的网络结构，可以使用两个隐含层，输入为n_inputs,使用Linear激活函数，输出层为1，使用Sigmoid激活函数，以及优化器选择Adam。

步骤4，分别确定生成器和判别器的损失函数。

V(D,G)＝E_x～pdata(x)[logD(x)]+E_z～pz(z)[log(1-D(G(z)))]

其中，x表示真实的特征，z表示输入的G网络噪声，G(z)表示G网络生成的模拟特征；D(x)表示真实输入的概率，D(G(z))表示D网络判断G生成的特征是否真实的概率。

步骤5，开始迭代训练，固定G，只更新D的参数。从准备的正例样本数据集中随机选择一些，再从G的output中选择一些，现在D有两种input，对D进行训练，得到训练好的D。

步骤6，固定住训练好的D的参数,更新G。将一个向量输入G，得到一个output，将output扔进D，然后会得到一个判别结果，这一阶段D的参数已经固定住了，G需要调整自己的参数使得这个output的分数越大越好。对于给定的真实特征，判别器D要为其打上标签1；对于给定的生成特征，判别器D要为其打上标签0；对于生成器G传给辨别器D的生成特征，生成器G希望辨别器D打上标签1。

步骤7，经过上万轮的对抗,G可以生成以假乱真的坏样本G(z)，对于D来说，其难以判断G生成的坏样本是不是真的，因此D(G(z))＝0.5。

步骤8，将G生成的坏样本G(z)加入到原始训练集，并将对应的样本表现Y标记为1，此时信贷场景中利用生成对抗网络生成坏样本。在实际测试中，针对样本外测试，增加生成对抗网络生成坏样本后，模型的区分能力有所提升。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述训练样本的生成方法的训练样本的生成装置。图4是根据本申请实施例的一种可选的训练样本的生成装置的示意图，如图4所示，该装置可以包括：

第一获取模块42，用于从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；

第二获取模块44，用于获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；

第一训练模块46，用于使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；

第三获取模块48，用于获取所述目标生成对抗网络模型生成的目标样本。

需要说明的是，该实施例中的第一获取模块42可以用于执行本申请实施例中的步骤S202，该实施例中的第二获取模块44可以用于执行本申请实施例中的步骤S204，该实施例中的第一训练模块46可以用于执行本申请实施例中的步骤S206，该实施例中的第三获取模块48可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，通过获取正例样本集中每个正例样本的信贷数据来构造初始特征矩阵对初始生成对抗网络模型进行训练得到目标生成对抗网络模型，通过目标生成对抗网络模型自动生成目标样本，达到了为生成的目标样本提供更多的信贷数据的目的，从而实现了提高训练样本信息量的技术效果，进而解决了原始的训练样本信息量较少的技术问题。

作为一种可选的实施例，所述第一训练模块包括：

作为一种可选的实施例，所述第一训练单元用于：

作为一种可选的实施例，所述第二训练单元用于：

作为一种可选的实施例，所述第一训练模块包括：

作为一种可选的实施例，所述装置还包括：

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述训练样本的生成方法的服务器或终端。

图5是根据本申请实施例的一种终端的结构框图，如图5所示，该终端可以包括：一个或多个(图中仅示出一个)处理器501、存储器503、以及传输装置505，如图5所示，该终端还可以包括输入输出设备507。

其中，存储器503可用于存储软件程序以及模块，如本申请实施例中的训练样本的生成方法和装置对应的程序指令/模块，处理器501通过运行存储在存储器503内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的训练样本的生成方法。存储器503可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器503可进一步包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置505用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置505包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置505为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器503用于存储应用程序。

处理器501可以通过传输装置505调用存储器503存储的应用程序，以执行下述步骤：

S1，从初始的信贷样本集中获取正例样本集，其中，所述正例样本集包括被标注为信誉度低于目标信誉度的正例样本；

S2，获取所述正例样本集中每个正例样本的信贷数据构造初始特征矩阵，其中，所述信贷数据是用于评估所述正例样本信用度的数据，所述初始特征矩阵的每一行表示所述每个正例样本，所述初始特征矩阵的每一列表示所述信贷数据的一个特征维度；

S3，使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型；

S4，获取所述目标生成对抗网络模型生成的目标样本。

采用本申请实施例，提供了一种训练样本的生成的方案。通过获取正例样本集中每个正例样本的信贷数据来构造初始特征矩阵对初始生成对抗网络模型进行训练得到目标生成对抗网络模型，通过目标生成对抗网络模型自动生成目标样本，达到了为生成的目标样本提供更多的信贷数据的目的，从而实现了提高训练样本信息量的技术效果，进而解决了原始的训练样本信息量较少的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图5所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如，终端还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图5所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行训练样本的生成方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S4，获取所述目标生成对抗网络模型生成的目标样本。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种训练样本的生成方法，其特征在于，包括：

获取所述目标生成对抗网络模型生成的目标样本。

2.根据权利要求1所述的方法，其特征在于，使用所述初始特征矩阵训练所述初始生成对抗网络模型，得到所述目标生成对抗网络模型包括：

3.根据权利要求2所述的方法，其特征在于，使用所述特征矩阵训练集训练所述初始判别器，得到所述目标判别器包括：

4.根据权利要求2所述的方法，其特征在于，使用所述初始特征矩阵和所述目标判别器对所述初始生成器进行训练，得到所述目标生成器包括：

5.根据权利要求1所述的方法，其特征在于，使用所述初始特征矩阵训练初始生成对抗网络模型，得到目标生成对抗网络模型包括：

6.根据权利要求1所述的方法，其特征在于，在获取所述目标生成对抗网络模型生成的目标样本之后，所述方法还包括：

7.一种训练样本的生成装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述第一训练模块包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。