CN111582313B

CN111582313B - 样本数据生成方法、装置及电子设备

Info

Publication number: CN111582313B
Application number: CN202010274585.1A
Authority: CN
Inventors: 李恒奎
Original assignee: Shanghai Qiyu Information and Technology Co Ltd
Current assignee: Shanghai Qiyu Information and Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-05-02
Anticipated expiration: 2040-04-09
Also published as: CN111582313A

Abstract

本公开涉及一种样本数据生成方法、装置、电子设备及计算机可读介质。该方法包括：确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据。本公开涉及的样本数据生成方法、装置、电子设备及计算机可读介质，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

Description

样本数据生成方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种样本数据生成方法、装置、电子设备及计算机可读介质。

背景技术

不均衡的样本，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习，正样本是正确分类出的类别所对应的样本，负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言，正样本的选取是较容易的，负样本的数量是极少的，这种情况下产生的样本是不均衡的样本。

目前对于不均衡样本处理，主流方法还是从抽样的角度去处理，比如进行欠采样或者过采样来提升坏样本的比例，但是对于抽样方法，会造成过拟合现象；而且采样改变了样本的真实分布，使得学习的模型是有偏的，这种不均衡的样本会给机器学习模型训练引入很多误差数据，最终可能导致训练出来的模型效果不够理想。

因此，需要一种新的样本数据生成方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种样本数据生成方法、装置、电子设备及计算机可读介质，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种样本数据生成方法，该方法包括：确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据。

可选地，还包括：通过所述样本数据对机器学习模型进行训练，生成用户风险分析模型。

可选地，通过所述样本数据对机器学习模型进行训练，生成用户风险分析模型，包括：将所述样本数据划分为训练数据集合和测试数据集合；基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

可选地，确定多个用户之间的多个相似度，包括：获取多个用户的多个基础数据；以及对所述多个基础数据进行相似度计算以确定所述多个用户之间的相似度。

可选地，基于所述多个相似度和所述多个用户构建用户图谱，包括：基于所述多个相似度构建相似度矩阵；以及通过所述相似度矩阵生成所述用户图谱。

可选地，为所述用户图谱中的用户分配标签，包括：基于所述用户图谱中用户的基础信息为其分配标签。

可选地，基于所述用户图谱中用户的基础信息为其分配标签，包括：为所述基础信息满足第一预设条件的用户分配所述第一正向标签；为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

可选地，基于所述用户图谱中用户的基础信息为其分配标签，还包括：计算具有第一正向标签的用户数量；计算具有第一负向标签的用户数量；以及对所述用户图谱中的用户数量进行调整以使得具有第一正向标签的用户数量和具有第一负向标签的用户数量相等。

可选地，基于标签传播算法为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签，包括：通过用户之间的相似度确定用户图谱中边的权重；根据所述权重确定用户图谱中用户之间的传播概率；基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。

可选地，基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签，包括：基于所述用户图谱为所述未知标签的用户确定邻居用户；以及基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。

根据本公开的一方面，提出一种样本数据生成装置，该装置包括：相似模块，用于确定多个用户之间的多个相似度；图谱模块，用于基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；标签模块，用于为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；更新模块，用于基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及样本模块，用于通过带有第二负向标签的用户和所述多个用户生成所述样本数据。

可选地，还包括：训练模块，用于通过所述样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

可选地，所述训练模块，包括：集合单元，用于将所述样本数据集合划分为训练数据集合和测试数据集合；训练单元，用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及验证单元，用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

可选地，所述相似模块，包括：数据单元，用于获取多个用户的多个基础数据；以及计算单元，用于基于所述多个基础数据通过相似度计算确定所述多个用户之间的相似度。

可选地，所述图谱模块，包括：矩阵单元，用于基于所述多个相似度构建相似度矩阵；以及图谱单元，用于通过所述相似度矩阵生成所述用户图谱。

可选地，所述标签模块，还用于基于所述用户图谱中用户的基础信息为其分配标签。

可选地，所述标签模块，包括：正向单元，用于为所述基础信息满足第一预设条件的用户分配所述第一正向标签；负向单元，用于为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及位置单元，用于为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

可选地，所述标签模块，还包括：调整单元，用于计算具有第一正向标签的用户数量；计算具有第一负向标签的用户数量；以及对所述用户图谱中的用户数量进行调整以使得具备第一正向标签的用户数量和具有第一负向标签的用户数量相等。

可选地，所述更新模块，包括：权重单元，用于通过用户之间的相似度确定用户图谱中边的权重；概率单元，用于根据所述权重确定用户图谱用户之间的传播概率；更新单元，用于基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。

可选地，所述更新单元，还用于基于所述用户图谱为所述具有未知标签的用户确定邻居用户；以及基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的样本数据生成方法、装置、电子设备及计算机可读介质，确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种样本数据生成方法的流程图。

图2是根据一示例性实施例示出的一种样本数据生成方法的流程图。

图3是根据另一示例性实施例示出的一种样本数据生成方法的流程图。

图4是根据另一示例性实施例示出的一种样本数据生成方法的流程图。

图5是根据一示例性实施例示出的一种样本数据生成装置的框图。

图6是根据另一示例性实施例示出的一种样本数据生成装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种样本数据生成方法的流程图。样本数据生成方法10至少包括步骤S102至S108。

如图1所示，在S102中，确定多个用户之间的多个相似度。包括：获取多个用户的多个基础数据；以及对所述多个基础数据进行相似度计算以确定所述多个用户之间的相似度。

用户的基础数据可为用户在金融网络平台上注册登记的基本信息，具体可包括性别、年龄、职业、爱好等等。

相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离，如果距离小，那么相似度大；如果距离大，那么相似度小。对两个用户而言，如有两个用户X，Y，两个用户都包了通过基础数据生成的含N维的特征值，X＝(x1，x2，x3，...，xn)，Y＝(y1，y2，y3，...，yn)，可通过余弦相似度确定两个用户之间的相似度。余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到多维向量空间中。

在S104中，基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系。包括：基于所述多个相似度构建相似度矩阵；以及通过所述相似度矩阵生成所述用户图谱。

计算多个用户之间的相似度，通过多个用户之间的相似度生成用户相似度矩阵。值得一提的是，可设定相似度阈值，可将用户相似度小于阈值的用户确定为不相似用户。这种做法可减轻用户相似度矩阵的数据量，有助于后续进行计算。

在S106中，为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签。基于所述用户图谱中用户的基础信息为其分配标签。

在一个实施例中，可包括：为所述基础信息满足第一预设条件的用户分配所述第一正向标签；为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

原始数据可为某金融网站上已注册的用户数据，为了进行更准确的计算，原始数据可为在某金融网站上已经注册且进行过借款活动的用户，可依据用户的金融特征或者违约特征为用户分配标签，具体可例如：违约用户和未违约用户和未知用户，可为在网时间1年以上的未违约用户指定第一正向标签，为所有已经违约的用户指定所述第一负向标签，其他用户指定未知标签。

在S108中，基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签。可包括：通过用户之间的相似度确定用户图谱中边的权重；根据所述权重确定用户图谱中用户之间的传播概率；基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。

LPA(Label Propagation Algorithm，标签传播算法)，它是一种基于图的半监督学习算法，基本思路是从已标记的节点标签信息来预测未标记的节点标签信息。标签传播算法是基于图的半监督学习方法，基本思路是从已标记的节点的标签信息来预测未标记的节点的标签信息，利用样本间的关系，建立完全图模型。

更具体的，在标签传播算法中，每个用户节点的标签按相似度传播给相邻节点，在节点传播的每一步，每个用户节点根据相邻节点的标签来更新自己的标签，与该用户节点相似度越大，其相邻节点对其标注的影响权值越大，相似节点的标签越趋于一致，其标签就越容易传播。在标签传播过程中，保持已标记的数据的标签不变，使其将标签传给未标注的数据。最终当迭代结束时，相似节点的概率分布趋于相似，可以划分到一类中。

在S110中，通过带有第二负向标签的用户和所述多个用户生成样本数据。带有第二负向标签的用户可为本公开在背景中所描述的少数用户，通过标签传播算法，相当于是将未知标签的用户也做了预估，提取出潜在的负向标签用户以作为负样本用户进行后续的模型训练。在一个实施例中，潜在的负向标签用户可为潜在的违约用户。

根据本公开的样本数据生成方法，确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图2是根据一示例性实施例示出的一种样本数据生成方法的流程图。样本数据生成方法20是对样本数据生成方法10的补充说明。

如图2所示，在S202中，将所述样本数据划分为训练数据集合和测试数据集合。在使用目标样本数据集合训练模型之前，需要先将整个数据集分为训练集、测试集。训练集是用来训练模型的，通过尝试不同的方法和思路使用训练集来训练不同的模型，再通过测试集验证使用交叉验证来挑选最优的模型，通过不断的迭代来改善模型在验证集上的性能，还可通过测试集来评估模型的性能。

在S204中，基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型。LightGBM(Light Gradient Boosting Machine，分布式梯度提升决策树)是一种基于决策树算法的分布式梯度提升框架。

lightGBM主要有以下特点：基于Histogram的决策树算法；带深度限制的Leaf-wise的叶子生长策略；直方图做差加速；直接支持类别特征(Categorical Feature)；Cache命中率优化；基于直方图的稀疏特征优化；多线程优化。

在S206中，通过所述测试数据集合对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

测试数据集合存在就是为了对超参数的选择，因为训练集已经决定了参数了，再由训练集得出超参数，很容易造成过拟合，所以需要一个独立于训练集的数据，以对模型进行验证。

直接使用原始样本划分的训练集和测试集，与使用本公开中的方法生成的样本数据划分的训练集和测试集，分别对同一机器学习模型进行训练结果进行比对。

结果显示原始样本集上训练集的AUC为0.689，测试集上的AUC为0.657，而扩增后坏样本后的训练集AUC为0.744，测试集上的AUC为0.703；因此，使用LPA采样后，模型效果有一定的提升。

其中，AUC是ROC(接受者操作特征曲线)曲线下方面积。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。AUC的大小是衡量二分类模型优劣的一种评价指标，表示预测的正例排在负例前面的概率。

图3是根据另一示例性实施例示出的一种样本数据生成方法的流程图。图3所示的流程是对图1所示的流程中S106“为所述用户图谱中的用户分配标签”的详细描述。

如图3所示，在S302中，基于所述用户图谱中用户的基础信息为其分配标签。基础信息可例如包括用户的年龄、职业、违约记录。

在S304中，为所述基础信息满足第一预设条件的用户分配所述第一正向标签。第一预设条件可为，已注册1年以上的用户，且用户年龄在30-50岁之间，用户职业为稳定职业。

基于第一预设条件对用户图谱中所有的用户进行筛选，为满足条件的用户分配第一正向标签。

在S306中，计算具有第一正向标签的用户数量。

在S308中，为所述基础信息满足第二预设条件的用户分配所述第一负向标签。第二预设条件可为，有过大于2次欠款违约记录，且欠款时间大于30天的用户。

基于第二预设条件对用户图谱中所有的用户进行筛选，为满足条件的用户分配第一负向标签。

在S310中，计算具有第一负向标签的用户数量。

在S312中，对所述用户图谱中的用户数量进行调整以使得具有第一正向标签的用户数量和具有第一负向标签的用户数量相等。

在通过预设条件对用户进行筛选，且分配完标签之后，计算第一正向标签用户和第一负向标签用户的数量，若第一正向标签用户和第一负向标签用户的数量之间存在明显的不均衡(可例如，第一正向标签用户比第一负向标签用户数量多10％以上)，则对对所述用户图谱中的用户数量进行调整。更具体的，可将多余的第一标签用户由图谱中删去。

使第一正向标签的用户数量和具有第一负向标签的用户数量相同的能够防止在使用LPA算法的过程中发生标签倾斜的情况。

图4是根据另一示例性实施例示出的一种样本数据生成方法的流程图。图4所示的流程是对图2所示的流程中S108“基于标签传播算法为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签”的详细描述。

如图4所示，在S402中，通过用户之间的相似度确定用户图谱中边的权重。可直接将用户之间的相似度数值作为用户图谱中用户节点之间的边的权重。

在S404中，根据所述权重确定用户图谱中用户之间的传播概率。可根据用户之间的边的权重，确定用户之间的传播概率。两个用户之间的边的权重越大，则两个用户之间的标签传播概率就越大。

在S406中，基于所述用户图谱为所述未知标签的用户确定邻居用户。遍历N个节点，找到对应节点邻居，获取此节点邻居标签，找到出现次数最大标签，若出现次数最多标签不止一个，则随机选择一个标签替换成此节点标签。

在S408中，基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。可例如，基于所述邻居用户的传播概率为所述未知标签的用户更新传播概率；基于更新的传播概率和所述邻居用户再次计算具有未知标签的用户的传播概率直至收敛为止；以及基于收敛时的具有未知标签的用户的传播概率为其分配第二正向标签或第二负向标签。

每个节点按传播概率把它周围节点传播的标注值按权重相加，并更新到自己的概率分布，限定已标注的数据，把已标注的数据的概率分布重新赋值为初始值，然后重复计算本身的概率分布，直至收敛或或者达到设定的最大迭代次数。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种样本数据生成装置的框图。如图5所示，样本数据生成装置50包括：相似模块502，图谱模块504，标签模块506，更新模块508，样本模块510。

相似模块502用于确定多个用户之间的多个相似度；所述相似模块502包括：数据单元，用于获取多个用户的多个基础数据；以及计算单元，用于基于所述多个基础数据通过相似度计算确定所述多个用户之间的相似度。

图谱模块504用于基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；所述图谱模块504包括：矩阵单元，用于基于所述多个相似度构建相似度矩阵；以及图谱单元，用于通过所述相似度矩阵生成所述用户图谱。

标签模块506用于为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；所述标签模块506还用于基于所述用户图谱中用户的基础信息为其分配标签。

所述标签模块506包括：正向单元，用于为所述基础信息满足第一预设条件的用户分配所述第一正向标签；负向单元，用于为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及位置单元，用于为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

所述标签模块506还包括：调整单元，用于计算具有第一正向标签的用户数量；计算具有第一负向标签的用户数量；以及对所述用户图谱中的用户数量进行调整以使得具备第一正向标签的用户数量和具有第一负向标签的用户数量相等。

更新模块508用于基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；所述更新模块508包括：权重单元，用于通过用户之间的相似度确定用户图谱中边的权重；概率单元，用于根据所述权重确定用户图谱用户之间的传播概率；更新单元，用于基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。所述更新单元，还用于基于所述用户图谱为所述具有未知标签的用户确定邻居用户；以及基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。

样本模块510用于通过带有第二负向标签的用户和所述多个用户生成所述样本数据。

图6是根据另一示例性实施例示出的一种样本数据生成装置的框图。如图6所示，样本数据生成装置60包括：训练模块602，训练模块602还可包括：集合单元6022，训练单元6024，验证单元6026。

训练模块602用于通过所述样本数据对机器学习模型进行训练，生成用户风险分析模型。

集合单元6022用于将所述样本数据划分为训练数据集合和测试数据集合；

训练单元6024用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

验证单元6026用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

根据本公开的样本数据生成装置，确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1，图2，图3，图4中所示的步骤。

所述存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图8所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：确定多个用户之间的多个相似度；基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；为所述用户图谱中的用户分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；以及基于标签传播算法为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；以及通过带有第二负向标签的用户和所述多个用户生成样本数据。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种样本数据生成方法，其特征在于，包括：

确定多个用户之间的多个相似度；

基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；

基于所述用户图谱中用户的基础信息为其分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；

计算具有第一正向标签的用户数量；

计算具有第一负向标签的用户数量；

对所述用户图谱中的用户数量进行调整以使得具有第一正向标签的用户数量和具有第一负向标签的用户数量相等；

基于标签传播算法中的邻居用户为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；

通过带有第二负向标签的用户和所述多个用户生成样本数据。

2.如权利要求1所述的方法，其特征在于，还包括：

通过所述样本数据对机器学习模型进行训练，生成用户风险分析模型。

3.如权利要求2所述的方法，其特征在于，通过所述样本数据对机器学习模型进行训练，生成用户风险分析模型，包括：

将所述样本数据划分为训练数据集合和测试数据集合；

基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

4.如权利要求1所述的方法，其特征在于，确定多个用户之间的多个相似度，包括：

获取多个用户的多个基础数据；以及

对所述多个基础数据进行相似度计算以确定所述多个用户之间的相似度。

5.如权利要求1所述的方法，其特征在于，基于所述多个相似度和所述多个用户构建用户图谱，包括：

基于所述多个相似度构建相似度矩阵；以及

通过所述相似度矩阵生成所述用户图谱。

6.如权利要求1所述的方法，其特征在于，基于所述用户图谱中用户的基础信息为其分配标签，包括：

为所述基础信息满足第一预设条件的用户分配所述第一正向标签；

为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及

为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

7.如权利要求1所述的方法，其特征在于，基于标签传播算法为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签，包括：

通过用户之间的相似度确定用户图谱中边的权重；

根据所述权重确定用户图谱中用户之间的传播概率；

基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。

8.如权利要求7所述的方法，其特征在于，基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签，包括：

基于所述用户图谱为所述未知标签的用户确定邻居用户；以及

基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。

9.一种样本数据生成装置，其特征在于，包括：

相似模块，用于确定多个用户之间的多个相似度；

图谱模块，用于基于所述多个相似度和所述多个用户构建用户图谱，所述用户图谱中的节点为用户，边为用户之间的相似度关系；

标签模块，用于基于所述用户图谱中用户的基础信息为其分配标签，所述标签包括第一正向标签、第一负向标签和未知标签；计算具有第一正向标签的用户数量；计算具有第一负向标签的用户数量；对所述用户图谱中的用户数量进行调整以使得具有第一正向标签的用户数量和具有第一负向标签的用户数量相等；

更新模块，用于基于标签传播算法中的邻居用户为所述用户图谱中部分未知标签的用户分配第二正向标签或第二负向标签；

样本模块，用于通过带有第二负向标签的用户和所述多个用户生成所述样本数据。

10.如权利要求9所述的装置，其特征在于，还包括：

训练模块，用于通过所述样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

11.如权利要求10所述的装置，其特征在于，所述训练模块，包括：

集合单元，用于将所述样本数据集合划分为训练数据集合和测试数据集合；

训练单元，用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

验证单元，用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

12.如权利要求9所述的装置，其特征在于，所述相似模块，包括：

数据单元，用于获取多个用户的多个基础数据；以及

计算单元，用于基于所述多个基础数据通过相似度计算确定所述多个用户之间的相似度。

13.如权利要求9所述的装置，其特征在于，所述图谱模块，包括：

矩阵单元，用于基于所述多个相似度构建相似度矩阵；以及

图谱单元，用于通过所述相似度矩阵生成所述用户图谱。

14.如权利要求9所述的装置，其特征在于，所述标签模块，包括：

正向单元，用于为所述基础信息满足第一预设条件的用户分配所述第一正向标签；

负向单元，用于为所述基础信息满足第二预设条件的用户分配所述第一负向标签；以及

位置单元，用于为所述基础信息不满足第一预设条件和第二预设条件的用户分配所述未知标签。

15.如权利要求9所述的装置，其特征在于，所述更新模块，包括：

权重单元，用于通过用户之间的相似度确定用户图谱中边的权重；

概率单元，用于根据所述权重确定用户图谱用户之间的传播概率；

更新单元，用于基于所述传播概率为所述用户图谱中未知标签的用户分配第二正向标签或第二负向标签。

16.如权利要求15所述的装置，其特征在于，所述更新单元，还用于

基于所述用户图谱为所述具有未知标签的用户确定邻居用户；以及基于所述邻居用户的传播概率为所述未知标签的用户分配第二正向标签或第二负向标签。

17.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。