CN111582315B

CN111582315B - 样本数据处理方法、装置及电子设备

Info

Publication number: CN111582315B
Application number: CN202010275349.1A
Authority: CN
Inventors: 李恒奎
Original assignee: Shanghai Qiyu Information and Technology Co Ltd
Current assignee: Shanghai Qiyu Information and Technology Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2023-11-14
Anticipated expiration: 2040-04-09
Also published as: CN111582315A

Abstract

本公开涉及一种样本数据处理方法、装置、电子设备及计算机可读介质。该方法包括：将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。本公开涉及的样本数据处理方法、装置、电子设备及计算机可读介质，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

Description

样本数据处理方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种样本数据处理方法、装置、电子设备及计算机可读介质。

背景技术

通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习，正样本是正确分类出的类别所对应的样本，负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言，正样本的选取是较容易的，比如在金融领域，用户金融风险分析的时候，可将未有过逾期的用户作为正样本，将已经违约的用户作为机器学习模型训练的负样本，但是对于正样本而言，负样本的数量是极少的，这种情况下产生的样本是不均衡的样本。

不均衡的样本，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题，例如逻辑回归在欺诈检测问题中，因为绝大多数样本都为正常样本，欺诈样本很少，逻辑回归算法会倾向于把大多数样本判定为正常样本，这样能达到很高的准确率，但是达不到很高的召回率。

不均衡的样本在很多场景中存在，例如欺诈检测，风控识别，在这些样本中，黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。目前对于不均衡样本处理，主流方法还是从抽样的角度去处理，比如进行欠采样或者过采样来提升坏样本的比例，但是对于抽样方法，会造成过拟合现象；而且采样改变了样本的真实分布，使得学习的模型是有偏的，这种不均衡的样本会给机器学习模型训练引入很多误差数据，最终可能导致训练出来的模型效果不够理想。

因此，需要一种新的样本数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种样本数据处理方法、装置、电子设备及计算机可读介质，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种样本数据处理方法，该方法包括：将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。

可选地，还包括：通过所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

可选地，通过所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型，包括：将所述目标样本数据集合划分为训练数据集合和测试数据集合；基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

可选地，将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，包括：通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型；以及将样本数据集合输入所述分类模型中，生成所述样本数据集合中每个样本的为所述目标分类的分类概率。

可选地，通过带有分类概率的样本集合中的每个样本生成样本概率集合，包括：将样本集合中的每个样本依据其对应的分类概率依次排列；以及确定头部比例和尾部比例；基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，生成所述样本概率集合。

可选地，基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，包括：按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本；为所述头部样本和所述尾部样本分配第一权重；以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。

可选地，将所述样本概率集合输入采样模型中，生成采样数据集合，包括：将所述样本概率集合输入SMOTE采样模型中，生成所述采样数据集合。

可选地，将所述样本概率集合输入SMOTE采样模型中，生成所述采样数据集合，包括：将所述样本概率集合输入SMOTE采样模型中；确定所述样本概率集合中的少数类样本；以及通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。

可选地，确定所述样本概率集合中的少数类样本，包括：确定所述样本概率集合中的样本概率分布；基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

可选地，通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合，包括：确定所述少数样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

根据本公开的一方面，提出一种样本数据处理装置，该装置包括：分类模块；用于将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；概率模块，用于通过带有分类概率的样本集合中的每个样本生成样本概率集合；采样模块，用于将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及数据模块，用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。

可选地，还包括：训练模块，用于通过所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

可选地，所述训练模块，包括：集合单元，用于将所述目标样本数据集合划分为训练数据集合和测试数据集合；训练单元，用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及验证单元，用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

可选地，所述分类模块，包括：模型单元，用于通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型；以及计算单元，用于将样本数据集合输入所述分类模型中，生成所述样本数据集合中每个样本的为所述目标分类的分类概率。

可选地，所述概率模块，包括：排列单元，用于将样本集合中的每个样本依据其对应的分类概率依次排列；以及比例单元，用于确定头部比例和尾部比例；权重单元，用于基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，生成所述样本概率集合。

可选地，所述权重单元，还用于按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本；为所述头部样本和所述尾部样本分配第一权重；以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。

可选地，所述采样模块，还用于将所述样本概率集合输入SMOTE采样模型中，生成所述采样数据集合。

可选地，所述采样模块，包括：输入单元，用于将所述样本概率集合输入SMOTE采样模型中；少数单元，用于确定所述样本概率集合中的少数类样本；以及采样单元，用于通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。

可选地，所述少数单元，还用于确定所述样本概率集合中的样本概率分布；基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

可选地，采样单元，还用于确定所述少数样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的样本数据处理方法、装置、电子设备及计算机可读介质，将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种样本数据处理方法的流程图。

图2是根据一示例性实施例示出的一种样本数据处理方法的流程图。

图3是根据另一示例性实施例示出的一种样本数据处理方法的流程图。

图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图。

图5是根据一示例性实施例示出的一种样本数据处理装置的框图。

图6是根据另一示例性实施例示出的一种样本数据处理装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

图1是根据一示例性实施例示出的一种样本数据处理方法的流程图。样本数据处理方法10至少包括步骤S102至S108。

如图1所示，在S102中，将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率。

在一个实施例中，可包括：通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型；以及将样本数据集合输入所述分类模型中，生成所述样本数据集合中每个样本的为所述目标分类的分类概率。

其中，XGBoost(eXtreme Gradient Boosting，极端梯度提升)是一种集成化的梯度提升决策树方法。

原始数据可为某金融网站上已注册的用户数据，为了对模型进行更准确的训练，原始数据可为在某金融网站上已经注册且进行过借款活动的用户，用户的在网时间可为1年以上。可依据用户的金融特征或者违约特征为用户分配标签，具体可例如违约用户和未违约用户，可为违约用户指定正标签，未违约用户指定负标签。将带有标签的用户数据输入极端梯度提升树模型中，经过训练，生成分类模型。

样本数据集合可为某金融网上新注册的用户集合，用户集合具体可为近半年注册的用户或者全体用户等，本公开不以此为限。将样本数据输入已经训练完毕的分类模型中，分类模型经过计算，输出样本数据集合中用户的违约用户或者未违约用户的的分类概率。

在S104中，通过带有分类概率的样本集合中的每个样本生成样本概率集合。

在一个实施例中，可包括：将样本集合中的每个样本依据其对应的分类概率依次排列；以及确定头部比例和尾部比例；基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，生成所述样本概率集合。

更具体的，可按照输出概率排序，可设置不同的比例已确定排序中的头部和尾部数据，头部和尾部数据可为预测不准的样本，更具体的，可将排序中前1％设置为头部数据，后5％设置为尾部数据，将这两部分数据的权重为0.01，不参与后续的采样过程。其余样本权重设置为1为正常样本，参与后续采样过程。

“通过带有分类概率的样本集合中的每个样本生成样本概率集合”的详细内容将在图3对应的实施例中进行详细说明。

在S106中，将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据。

在一个实施例中，可包括：将所述样本概率集合输入SMOTE采样模型中；确定所述样本概率集合中的少数类样本；以及通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。

可例如，使用SMOTE算法对权重为1的样本进行采样，生成新的坏样本与原始数据集混合提升坏样本占比。

在一个实施例中，确定所述样本概率集合中的少数类样本，包括：确定所述样本概率集合中的样本概率分布；基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

其中，通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合，包括：确定所述少数样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

“将所述样本概率集合输入采样模型中，生成采样数据集合”的详细内容将在图4对应的实施例中进行详细说明。

在S108中，通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。

采样数据集合中包含的是对当前少数样本进行采样生成的其他少数样本，在一个实施例中，采样样本可为本公开中的负样本，将通过采样生成的负样本和当前已有的样本数据集合进行合并，以生成样本数据集合。新生成的目标样本数据集合中包含的负样本数较原有的样本集合中的样本数多。

根据本公开的样本数据处理方法，将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图2是根据一示例性实施例示出的一种样本数据处理方法的流程图。样本数据处理方法20是对样本数据处理方法10的补充说明。

如图2所示，在S202中，将所述目标样本数据集合划分为训练数据集合和测试数据集合。在使用目标样本数据集合训练模型之前，需要先将整个数据集分为训练集、测试集。训练集是用来训练模型的，通过尝试不同的方法和思路使用训练集来训练不同的模型，再通过测试集验证使用交叉验证来挑选最优的模型，通过不断的迭代来改善模型在验证集上的性能，还可通过测试集来评估模型的性能。

在S204中，基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型。LightGBM(Light Gradient Boosting Machine，分布式梯度提升决策树)是一种基于决策树算法的分布式梯度提升框架。

lightGBM主要有以下特点：基于Histogram的决策树算法；带深度限制的Leaf-wise的叶子生长策略；直方图做差加速；直接支持类别特征(Categorical Feature)；Cache命中率优化；基于直方图的稀疏特征优化；多线程优化。

在S206中，通过所述测试数据集合对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

测试数据集合存在就是为了对超参数的选择，因为训练集已经决定了参数了，再由训练集得出超参数，很容易造成过拟合，所以需要一个独立于训练集的数据，以对模型进行验证。

图3是根据另一示例性实施例示出的一种样本数据处理方法的流程图。图3所示的流程是对图1所示的流程中104“通过带有分类概率的样本集合中的每个样本生成样本概率集合”的详细描述。

如图3所示，在S302中，将样本集合中的每个样本依据其对应的分类概率依次排列。

在S304中，确定头部比例和尾部比例。头部比例可为1％，尾部比例可为5％。

在S306中，按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本。即为，在样本序列中，前1％排序的样本被定义为头部样本，后5％的样本被定义为尾部样本。

在S308中，基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，生成所述样本概率集合；包括：为所述头部样本和所述尾部样本分配第一权重；为除所述头部样本和所述尾部样本外的其他样本分配第二权重。

更具体的，可为头部和尾部样本分配较小的权重，可为0.01，其余样本分配权重较大，可为1。较小的权重在后续的计算中，产生的作用较小，有利于后续计算。

图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图。图4所示的流程是对图1所示的流程中S108“将所述样本概率集合输入采样模型中，生成采样数据集合”的详细描述。

如图4所示，在S402中，将所述样本概率集合输入SMOTE采样模型中。

在S404中，确定所述样本概率集合中的样本概率分布。

在S406中，基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

在S408中，通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。

在一个实施例中，可包括：确定所述少数样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

SMOTE算法的思想是合成新的少数类样本，合成的策略是对每个少数类样本a，从它的最近邻中随机选一个样本b，然后在a、b之间的连线上随机选一点作为新合成的少数类样本。

SMOTE算法流程可如下：

1、对于少数类中每一个样本a，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

2、根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本a，从其k近邻中随机选择若干个样本，假设选择的近邻为b。

3、对于每一个随机选出的近邻b，分别与原样本a按照如下的公式构建新的样本：c＝a+rand(0，1)*|a-b|。

在一个实施例中，为了对目标样本的计算效率进行对比，可同时在原始数据集上也使用LightGBM建模，将利用原始数据和目标样本集合对LightGBM训练的结果进行对比。

比较结果发现：在原始数据训练集上AUC为0.71，测试集AUC为0.67；在选择性抽样数据训练集上AUC为0.73，测试集上为0.71；因此，通过选择性的选取样本进行SMOTE抽样，模型效果有一定的提升，而且没有出现严重的过拟合现象。

其中，AUC是ROC(接受者操作特征曲线)曲线下方面积。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈)，以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线。AUC的大小是衡量二分类模型优劣的一种评价指标，表示预测的正例排在负例前面的概率。

在一个实施例中，部分模型的参数如下：

XGBoost：

learning_rate＝0.1；gamma＝0；subsample＝0.8；

n_estimators＝110；max_depth＝2；min_child_weight＝1；

colsample_bytree＝0.8；objective＝binary：logistic；

nthread＝4；seed＝42。

LightGBM：

boosting_type＝’gbdt’；objective＝’binary’；

metric＝’auc’；learning_rate＝0.1；

n_estimators＝80；max_depth＝1；

num_leaves＝25；max bin＝40；

min_child_weight＝2；bagging_fraction＝0.6；

bagging_freq＝0；feature_fraction＝0.8。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种样本数据处理装置的框图。如图5所示，样本数据处理装置50包括：分类模块502，概率模块504，采样模块506，数据模块508。

分类模块502，用于将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；所述分类模块502包括：模型单元，用于通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型；以及计算单元，用于将样本数据集合输入所述分类模型中，生成所述样本数据集合中每个样本的为所述目标分类的分类概率。

概率模块504用于通过带有分类概率的样本集合中的每个样本生成样本概率集合；所述概率模块504包括：排列单元，用于将样本集合中的每个样本依据其对应的分类概率依次排列；以及比例单元，用于确定头部比例和尾部比例；权重单元，用于基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重，生成所述样本概率集合。所述权重单元，还用于按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本；为所述头部样本和所述尾部样本分配第一权重；以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。

采样模块506用于将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；所述采样模块506还用于将所述样本概率集合输入SMOTE采样模型中，生成所述采样数据集合。

所述采样模块506包括：输入单元，用于将所述样本概率集合输入SMOTE采样模型中；

所述采样模块506包括：少数单元，用于确定所述样本概率集合中的少数类样本；以及所述少数单元，还用于确定所述样本概率集合中的样本概率分布；基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

所述采样模块506包括：采样单元，用于通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。所述采样单元，还用于确定所述少数样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

数据模块508用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。

图6是根据另一示例性实施例示出的一种样本数据处理装置的框图。如图6所示，样本数据处理装置60包括：训练模块602，训练模块602还可包括：集合单元6022，训练单元6024，验证单元6026。

训练模块602用于通过所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

集合单元6022用于将所述目标样本数据集合划分为训练数据集合和测试数据集合；

训练单元6024用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

验证单元6026用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

根据本公开的样本数据处理装置，将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式，能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题，减少机器学习模型中样本过拟合现象，提高机器学习模型训练效率和模型计算的准确度。

图7是根据一示例性实施例示出的一种电子设备的框图。

下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：至少一个处理单元710、至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元710执行，使得所述处理单元710执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元710可以执行如图1，图2，图3，图4中所示的步骤。

所述存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202，还可以进一步包括只读存储单元(ROM)7203。

所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204，这样的程序模块7205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图8所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：将样本数据集合输入分类模型中，生成所述样本数据集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；通过带有分类概率的样本集合中的每个样本生成样本概率集合；将所述样本概率集合输入采样模型中，生成采样数据集合，所述采样数据集合中包括多个采样数据；以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种样本数据处理方法，其特征在于，包括：

将样本集合输入分类模型中，生成所述样本集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；

将样本集合中的每个样本依据其对应的分类概率依次排列，并确定头部比例和尾部比例；

将所述头部比例和所述尾部比例对应的样本集合中的样本剔除；

通过剔除部分样本之后的样本集合中的样本和其对应的分类概率生成样本概率集合；

将所述样本概率集合输入采样模型中，确定所述样本概率集合中的少数类样本；

基于近邻算法通过所述少数类样本和其近邻之间的连线上的点合成新的采样数据，生成采样样本以生成采样数据集合，所述采样数据集合中包括多个采样数据；以及

通过所述采样数据集合和所述样本集合生成目标样本数据集合；

利用所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

2.如权利要求1所述的方法，其特征在于，利用所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型，包括：

将所述目标样本数据集合划分为训练数据集合和测试数据集合；

基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

3.如权利要求1所述的方法，其特征在于，将样本集合输入分类模型中，生成所述样本集合中每个样本的分类概率，包括：

通过带有目标分类标识标签的原始数据对极端梯度提升决策树模型进行训练生成所述分类模型；以及

将样本集合输入所述分类模型中，生成所述样本集合中每个样本的为所述目标分类的分类概率。

4.如权利要求1所述的方法，其特征在于，确定所述样本概率集合中的少数类样本，包括：

确定所述样本概率集合中的样本概率分布；

基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

5.如权利要求1所述的方法，其特征在于，基于近邻算法通过所述少数类样本和其近邻之间的连线上的点合成新的采样数据，生成采样样本以生成采样数据集合，包括：

确定所述少数类样本的K个近邻样本，K为大于1的整数；

从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；

对N个近邻样本进行线性差值以生成采样样本。

6.一种样本数据处理装置，其特征在于，包括：

分类模块，用于将样本集合输入分类模型中，生成所述样本集合中每个样本的分类概率，其中，所述分类概率用于标识所述样本为目标分类的概率；

概率模块，用于将样本集合中的每个样本依据其对应的分类概率依次排列，并确定头部比例和尾部比例；将所述头部比例和所述尾部比例对应的样本集合中的样本剔除；通过剔除部分样本之后的样本集合中的样本和其对应的分类概率生成样本概率集合；

采样模块，用于将所述样本概率集合输入采样模型中，确定所述样本概率集合中的少数类样本；基于近邻算法通过所述少数类样本和其近邻之间的连线上的点合成新的采样数据，生成采样样本以生成采样数据集合，所述采样数据集合中包括多个采样数据；

数据模块，用于通过所述采样数据集合和所述样本集合生成目标样本数据集合；以及

训练模块，用于利用所述目标样本数据集合对机器学习模型进行训练，生成用户风险分析模型。

7.如权利要求6所述的装置，其特征在于，所述训练模块，包括：

集合单元，用于将所述目标样本数据集合划分为训练数据集合和测试数据集合；

训练单元，用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练，生成初始用户风险分析模型；以及

验证单元，用于通过所述测试数据对所述初始用户风险分析模型进行验证，在验证通过后生成所述用户风险分析模型。

8.如权利要求6所述的装置，其特征在于，所述分类模块，包括：

模型单元，用于通过带有目标分类标识标签的原始数据对极端梯度提升决策树模型进行训练生成所述分类模型；以及

计算单元，用于将样本集合输入所述分类模型中，生成所述样本集合中每个样本的为所述目标分类的分类概率。

9.如权利要求6所述的装置，其特征在于，还包括：少数单元，用于

确定所述样本概率集合中的样本概率分布；基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。

10.如权利要求6所述的装置，其特征在于，所述采样模块，具体还用于

确定所述少数类样本的K个近邻样本，K为大于1的整数；从K个近邻样本中随机选取N个近邻样本，N为大于1的整数；对N个近邻样本进行线性差值以生成采样样本。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一项所述的方法。