CN113568739A

CN113568739A - 用户资源额度分配方法、装置及电子设备

Info

Publication number: CN113568739A
Application number: CN202110784804.5A
Authority: CN
Inventors: 杨雪君; 沈赟
Original assignee: Beijing Qilu Information Technology Co Ltd
Current assignee: Beijing Qilu Information Technology Co Ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-29

Abstract

本公开涉及一种用户资源额度分配方法、装置、电子设备及计算机可读介质。该方法包括：基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度。本公开涉及的用户资源额度分配方法、装置、电子设备及计算机可读介质，能够解决在机器模型训练时，针对不平衡样本采用简单过采样或者欠采样而发生的过拟合问题，得到精确的计算模型，进而提高用户资源额度分配的效率，减少服务器计算压力。

Description

用户资源额度分配方法、装置及电子设备

技术领域

本公开涉及计算机信息处理领域，具体而言，涉及一种用户资源额度分配方法、装置、电子设备及计算机可读介质。

背景技术

通常情况下机器学习模型需要对正样本和负样本进行学习，正样本是正确分类出的类别所对应的样本，负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言，随着监管整改措施的实施以及借款人违约意识的加强，资源借用交易中违约样本较少，存在着较严重的类别不平衡问题。在这种情况下，正样本的选取是较容易的，负样本则较难获取。在用户金融风险分析的时候，可将未有过逾期的用户作为正样本，将已经违约的用户作为机器学习模型训练的负样本，但是对于正样本而言，负样本的数量是极少的，这种情况下产生的样本是不均衡的样本。

不均衡的样本，即数据集中存在某一类样本，其数量远多于或远少于其他类样本，从而导致一些机器学习模型失效的问题。不均衡的样本在很多场景中存在，例如欺诈检测，风控识别，在这些样本中，黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。目前对于不均衡样本处理，主流方法还是从抽样的角度去处理，比如进行欠采样或者过采样来提升坏样本的比例，但是对于抽样方法，会造成过拟合现象；而且采样改变了样本的真实分布，使得学习的模型是有偏的，这种不均衡的样本会给机器学习模型训练引入很多误差数据，最终可能导致训练出来的模型效果不够理想。导致在机器学习模型在实际的应用过程中存在较多误差，严重影响在线用户的资源额度分配的准确度和效率。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开提供一种用户资源额度分配方法、装置、电子设备及计算机可读介质，能够解决在机器模型训练时，针对不平衡样本采用简单过采样或者欠采样而发生的过拟合问题，得到精确的计算模型，进而提高用户资源额度分配的效率，减少服务器计算压力。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一方面，提出一种用户资源额度分配方法，该方法包括：基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度。

可选地，还包括：获取满足预设条件的多个历史用户信息；将所述多个历史用户信息进行数据清洗和数据融合以生成多个历史特征信息；由所述多个历史特征信息中确定多个历史多维度特征信息；基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型。

可选地，由所述多个历史特征信息中确定多个历史多维度特征信息，包括：计算所述多个历史特征信息的变量参数、区分度参数、信息价值、模型特征参数；基于所述变量参数、所述区分度参数、所述信息价值、所述模型特征参数由所述多个历史特征信息中提取多个历史多维度特征信息。

可选地，由所述多个历史特征信息中确定多个历史多维度特征信息，还包括：基于所述多个历史多维度特征信息和得到历史用户信息之间的关系生成所述预设策略。

可选地，基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型，包括：基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据；基于所述样本数据对分类模型进行训练以生成初始模型，所述初始模型包括多个弱分类子模型和其对应的权重；基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据；基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型。

可选地，基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据，包括：确定所述多个历史多维度特征信息对应的历史用户的样本标签，所述样本标签包括第一标签和第二标签；由历史用户中提取第一数量的带有第一标签的第一历史用户；由历史用户中提取第二数量的带有第二标签的第二历史用户；基于第一历史用户和第二历史用户对应的多维度特征信息生成所述样本数据。

可选地，基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据，包括：将所述多个历史多维度特征信息输入所述初始模型中，生成正确分类样本集合和错误分类样本集合；基于所述初始模型的误差为所述正确分类样本集合和所述错误分类样本集合中的样本分配不同的权重；基于欠采样的方式和所述正确分类样本集合、所述错误分类样本集合生成另一个样本数据。

可选地，基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型，包括：基于所述另一个样本数据对分类模型再次进行训练生成中间模型；计算所述中间模型的误差；在所述中间模型的误差小于阈值时，基于当前的中间模型生成所述用户额度分配模型。

可选地，基于用户授权获取当前用户的用户信息，包括：基于用户授权采用网页埋点的方式获取当前用户的用户信息。

根据本公开的一方面，提出一种用户资源额度分配装置，该装置包括：信息模块，用于基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；特征模块，用于基于所述用户信息和预设策略生成多维度特征信息；计算模块，用于将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；分配模块，用于基于所述分配系数为所述当前用户确定待分配的资源额度。

根据本公开的一方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上文的方法。

根据本公开的一方面，提出一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上文中的方法。

根据本公开的用户资源额度分配方法、装置、电子设备及计算机可读介质，基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度的方式，能够解决在机器模型训练时，针对不平衡样本采用简单过采样或者欠采样而发生的过拟合问题，得到精确的计算模型，进而提高用户资源额度分配的效率，减少服务器计算压力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种用户资源额度分配方法及装置的系统框图。

图2是根据一示例性实施例示出的一种用户资源额度分配方法的流程图。

图3是根据另一示例性实施例示出的一种用户资源额度分配方法的流程图。

图4是根据另一示例性实施例示出的一种用户资源额度分配方法的流程图。

图5是根据一示例性实施例示出的一种用户资源额度分配装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出的一种计算机可读介质的框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应理解，虽然本文中可能使用术语第一、第二、第三等来描述各种组件，但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此，下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用，术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解，附图只是示例实施例的示意图，附图中的模块或流程并不一定是实施本公开所必须的，因此不能用于限制本公开的保护范围。

本公开中，资源是指任何可被利用的物质、信息、时间，信息资源包括计算资源和各种类型的数据资源。数据资源包括各个领域中的各种专用数据。本公开的创新之处在于如何使用服务器和客户端之间的信息交互技术来使资源分配的过程更加自动化、高效和减小人力成本。由此，从本质上来说，本公开可以应用于各类资源的分配，包括实体的货物、水、电，以及有意义的资料等。但是，为了方便起见，本公开中以金融数据资源为例进行说明资源分配的实施，但本领域技术人员应当理解，本公开亦可以用于其他资源的分配。

如图1所示，系统架构10可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如金融服务类应用、购物类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

终端设备101、102、103可例如基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；终端设备101、102、103可例如基于所述用户信息和预设策略生成多维度特征信息；终端设备101、102、103可例如将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；终端设备101、102、103可例如基于所述分配系数为所述当前用户确定待分配的资源额度。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的金融服务类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的用户数据进行分析等处理，并将处理结果(例如资源配额)反馈给金融服务网站的管理员和/或终端设备101、102、103。

服务器105可例如基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；服务器105可例如基于所述用户信息和预设策略生成多维度特征信息；服务器105可例如将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；服务器105可例如基于所述分配系数为所述当前用户确定待分配的资源额度。

服务器105还可例如获取满足预设条件的多个历史用户信息；服务器105还可例如将所述多个历史用户信息进行数据清洗和数据融合以生成多个历史特征信息；服务器105还可例如由所述多个历史特征信息中确定多个历史多维度特征信息；服务器105还可例如基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如用于进行用户额度分配；服务器105中的一部分还可例如用于基于欠采样的多个历史用户信息和分类模型训练生成用户额度分配模型。

需要说明的是，本公开实施例所提供的用户资源额度分配方法可以由服务器105和/或终端设备101、102、103执行，相应地，用户资源额度分配装置可以设置于服务器105和/或终端设备101、102、103中。而提供给用户进行金融服务平台浏览的网页端一般位于终端设备101、102、103中。

图2是根据一示例性实施例示出的一种用户资源额度分配方法的流程图。用户资源额度分配方法20至少包括步骤S202至S208。

如图2所示，在S202中，基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息。

在本公开实施例中，用户可为个人用户或者企业用户，资源额度的分配可为金融资源额度的调整，也可为电力资源、水力资源的分配。其中，用户信息可包括基础信息，可例如为业务账号信息、用户的终端设备标识信息、用户所处地域信息等；用户信息还可包括行为信息，可例如为用户的页面操作数据、用户的业务访问时长、用户的业务访问频率等，用户信息的具体内容可根据实际应用场景确定，在此不做限制。更具体的，可基于用户授权采用网页埋点的方式获取当前用户的用户信息。

更具体的，用户在网页上的行为信息可通过Fiddler工具获取，Fiddler工具以web代理服务器的形式进行工作的，客户端先将请求数据发送出去后，Fiddler代理服务器会将数据包进行拦截，代理服务器再冒充客户端发送数据到服务器；同理，服务器将响应数据返回，代理服务器也会将数据拦截，再返回给客户端。通过Fiddler可获取用户网络浏览的驻留时间、驻留页面，点击操作等等相关的浏览数据。

在S204中，基于所述用户信息和预设策略生成多维度特征信息。其中，基于所述多个历史多维度特征信息和所述历史用户信息之间的关系生成所述预设策略。

可对用户信息进行数据清洗和数据融合以将用户信息转化为多维度数据，更具体的，可对用户信息进行变量缺失率分析与处理、异常值处理；还可将连续型变量离散化的用户信息进行WOE转化、离散型变量WOE转化、文本变量加工处理、文本变量的word2vec处理等等。

其中，WOE的是“Weight of Evidence”，即证据权重。WOE是对原始特征的一种编码形式。要对一个特征进行WOE编码，需要首先把这个变量进行分组处理。Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系。

在S206中，将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成。

在S208中，基于所述分配系数为所述当前用户确定待分配的资源额度。基于基准额度和分配系数生成当前用户的待分配的资源额度，更进一步的，还可在分配系数小于阈值时，认为该用户的资源违约风险较大，从而拒绝该用户的资源额度申请。

根据本公开的用户资源额度分配方法，基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度的方式，能够解决在机器模型训练时，针对不平衡样本采用简单过采样或者欠采样而发生的过拟合问题，得到精确的计算模型，进而提高用户资源额度分配的效率，减少服务器计算压力。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

图3是根据另一示例性实施例示出的一种用户资源额度分配方法的流程图。图3所示的流程30是对“基于欠采样的多个历史用户信息和分类模型训练生成用户额度分配模型”的详细描述。

如图3所示，在S302中，获取满足预设条件的多个历史用户信息。在本实施例中，以金融资源借用为例进行示例性说明，可以理解的是，本申请的方法还可应用与其他分配场景中。基于某金融服务平台真实业务数据，通过vintage、迁移率等指标分析，定义3期内还款表现发生逾期30+(即MOB3 30+)的历史用户为本次建模的目标样本，逾期样本比例小于5％。

其中，MOB(month on book，在账月份数)，代表客户放款之后到观测时间点间隔的月份数，即账龄。

在S304中，将所述多个历史用户信息进行数据清洗和数据融合以生成多个历史特征信息。将以上信息融合，形成上万维度的宽表变量之后，需要对数据进行进一步清洗加工，以保证后期模型的稳定性与准确性。数据清洗步骤包括但不局限于变量缺失率分析与处理、异常值处理、连续型变量离散化并WOE转化、离散型变量WOE转化、文本变量加工处理等。

在S306中，由所述多个历史特征信息中确定多个历史多维度特征信息。包括：计算所述多个历史特征信息的变量参数、区分度参数、信息价值、模型特征参数；基于所述变量参数、所述区分度参数、所述信息价值、所述模型特征参数由所述多个历史特征信息中提取多个历史多维度特征信息。

可结合变量覆盖度、单一取值覆盖度、与目标变量相关性及显著性、对目标变量的区分度(KS)及信息价值(IV)、树类模型(如XGBoost、RF等)特征重要性等多方面综合考虑，筛选覆盖率高、对目标变量区分效果明显的特征作为多维度特征。

在S308中，基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型。可例如，基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据；基于所述样本数据对分类模型进行训练以生成初始模型，所述初始模型包括多个弱分类子模型和其对应的权重；基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据；基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型。

图4是根据另一示例性实施例示出的一种用户资源额度分配方法的流程图。图4所示的流程40是对图3所示的流程中S308“基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型”的详细描述。

如图4所示，在S402中，基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据。包括：确定所述多个历史多维度特征信息对应的历史用户的样本标签，所述样本标签包括第一标签和第二标签；由历史用户中提取第一数量的带有第一标签的第一历史用户；由历史用户中提取第二数量的带有第二标签的第二历史用户；基于第一历史用户和第二历史用户对应的多维度特征信息生成所述样本数据。

可采用随机抽取的方式由历史用户中提取第一数量的带有第一标签的第一历史用户和第二数量的带有第二标签的第二历史用户。其中，第一标签可代表该用户为正常用户，第二标签可代表该用户为曾经有过逾期的用户。

还可采用聚类的方式，将第一标签和第二标签的用户分成多个类别，然后均匀的由每个类别中提取出部分用户以得到第一数量的第一历史用户和第二数量的历史用户。

在S404中，基于所述样本数据对分类模型进行训练以生成初始模型，所述初始模型包括多个弱分类子模型和其对应的权重。更具体的，可基于adboost算法进行分类模型的训练，dboost通过赋予、调整每个样本的权重值，来调整样本在构建新弱学习器起到的作用，样本权重越大，则起到的作用越大。以二分类问题为例，若某个样本类别在当前预测错误，那么新的弱学习器将尽量保证它们的类别预测正确。

更具体的，在本申请中，弱分类器可为XGBoost、随机森林、择决策树(DT)、支持向量机(SVM)、BP神经网络等分类模型中的一种或者多种构成。

在S406中，基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据。包括：将所述多个历史多维度特征信息输入所述初始模型中，生成正确分类样本集合和错误分类样本集合；基于所述初始模型的误差为所述正确分类样本集合和所述错误分类样本集合中的样本分配不同的权重；基于欠采样的方式和所述正确分类样本集合、所述错误分类样本集合生成另一个样本数据。

更具体的，可首先为所有样本设置归一化的样本权重；

然后按照上文的方式抽取一定数量的第一历史用户(多数样本)，和第二历史用户(少数类样本)组成训练数据集S，并得到S中样本的权重，将该权重进行归一化；

使用训练数据集S，依据权重SD训练弱分类器h1(t)(初始模型),h1(t)输出为判为两个类的概率,最终判定时，哪类类概率高就判为哪个类；

将所有的样本输入到h1(t)中，h1(t)对第i个样本判为样本实际类别的概率为p1(i),判为与样本实际类别相反类别的概率为p2(i)；

计算误差e；

根据误差更新该样本S的权重,并归一化。

在S408中，基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型。可基于所述另一个样本数据对分类模型再次进行训练生成中间模型；计算所述中间模型的误差；在所述中间模型的误差小于阈值时，基于当前的中间模型生成所述用户额度分配模型。

根据更新后的样本再次训练生成h2(t)(中间模型)；再次根据h2(t)更新样本并进行训练，直至模型的误差小于阈值，输出用户额度分配模型。

具体的，可针对每个样本集合，分别构建中间模型，将所述样本数据中的历史用户输入所述中间模型，以得到预测标签，将所述预测标签与相应的真实的标签进行比对，判断预测标签与真实的标签是否一致，统计与真实的标签一致的预测标签的数量，并计算与真实的标签一致的预测标签的数量在所有预测标签的数量中的占比，若所述占比大于或等于预设占比值，则所述中间模型收敛，得到训练完成的用户额度分配模型，若所述占比小于所述预设占比值，则调整所述调整模型中的参数，通过调整后的中间模型重新预测各个对象的预测标签，直至所述占比大于或等于预设占比值。其中，调整所述中间模型中的参数的方法可以采用随机梯度下降算法、梯度下降算法或正规方程进行。若调整所述中间模型的参数的次数超过预设次数时，可以更换构建中间模型所使用的机器学习模型，以提高模型训练效率。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

将本公开中的算法与SMOTE、SMOTEBoost算法、Random Under-Sampling算法的分类结果进行比较，同时选择决策树(DT)、支持向量机(SVM)、BP神经网络等三种基础分类器进行模型学习，最终得到共15个模型，实验中采用AUC对分类性能进行评估。为了减少不确定性，每一组训练模型均进行10折交叉验证，取平均AUC作为最终模型的评价标准，如表1所示：

表1：模型的平均AUC

		SMOTE	RandomUnde	SMOTEBoost	RUSBoost
						SVM	0.6462	0.6601	0.6632	0.6655	0.6898
BP	0.6614	0.6802	0.6805	0.6816	0.6933
						DT	0.6833	0.6963	0.6969	0.6992	0.7022

上述表格中，横轴表示解决不平衡问题的常见算法，纵轴为本实验所选用的三个基础分类器，表格中的数值为模型十折交叉验证的平均AUC取值。从实验结果可看出，DT与RUSBoost算法的效果相对于仅用DT的效果明显提升，同时对于SVM、BP等基础分类器而言，本公开中的算法均有明显的改进效果。因此说明本公开中的算法对不平衡数据集样本处理问题具有较明显的优势，对机器学习模型效果起到了一定的提升作用。

本公开的用户资源额度分配方法，能够解决金融借贷领域中针对不平衡样本采用简单过/欠采样而容易发生的过拟合问题

本公开的用户资源额度分配方法，利用欠采样实现训练集的类别均衡，同时通过对基学习器的独立采样有效克服了因采样而造成的信息丢失问题，从而实现了对类别不平衡数据的较强适应能力。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种用户资源额度分配装置的框图。如图5所示，用户资源额度分配装置50包括：信息模块502，特征模块504，计算模块506，分配模块508。

信息模块502用于基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；信息模块502还用于基于用户授权采用网页埋点的方式获取当前用户的用户信息。

特征模块504用于基于所述用户信息和预设策略生成多维度特征信息；

计算模块506用于将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；

分配模块508用于基于所述分配系数为所述当前用户确定待分配的资源额度。

根据本公开的用户资源额度分配装置，基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度的方式，能够解决在机器模型训练时，针对不平衡样本采用简单过采样或者欠采样而发生的过拟合问题，得到精确的计算模型，进而提高用户资源额度分配的效率，减少服务器计算压力。

图6是根据一示例性实施例示出的一种电子设备的框图。

下面参照图6来描述根据本公开的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书中的根据本公开各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图2，图3，图4中所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备600’(例如键盘、指向设备、蓝牙设备等)通信，使得用户能与该电子设备600交互的设备通信，和/或该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，如图7所示，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；基于所述用户信息和预设策略生成多维度特征信息；将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；基于所述分配系数为所述当前用户确定待分配的资源额度。该计算机可读介质还可实现如下功能：获取满足预设条件的多个历史用户信息；将所述多个历史用户信息进行数据清洗和数据融合以生成多个历史特征信息；由所述多个历史特征信息中确定多个历史多维度特征信息；基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用户资源额度分配方法，其特征在于，包括：

基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；

基于所述用户信息和预设策略生成多维度特征信息；

将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；

基于所述分配系数为所述当前用户确定待分配的资源额度。

2.如权利要求1所述的方法，其特征在于，还包括：

获取满足预设条件的多个历史用户信息；

将所述多个历史用户信息进行数据清洗和数据融合以生成多个历史特征信息；

由所述多个历史特征信息中确定多个历史多维度特征信息；

基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型。

3.如权利要求2所述的方法，其特征在于，由所述多个历史特征信息中确定多个历史多维度特征信息，包括：

计算所述多个历史特征信息的变量参数、区分度参数、信息价值、模型特征参数；

基于所述变量参数、所述区分度参数、所述信息价值、所述模型特征参数由所述多个历史特征信息中提取多个历史多维度特征信息。

4.如权利要求3所述的方法，其特征在于，由所述多个历史特征信息中确定多个历史多维度特征信息，还包括：

基于所述多个历史多维度特征信息和所述历史用户信息之间的关系生成所述预设策略。

5.如权利要求2所述的方法，其特征在于，基于所述多个历史多维度特征通过欠采样的方式对分类模型进行迭代训练以生成所述用户额度分配模型，包括：

基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据；

基于所述样本数据对分类模型进行训练以生成初始模型，所述初始模型包括多个弱分类子模型和其对应的权重；

基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据；

基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型。

6.如权利要求5所述的方法，其特征在于，基于欠采样的方式由所述多个历史多维度特征信息中提取一个样本数据，包括：

确定所述多个历史多维度特征信息对应的历史用户的样本标签，所述样本标签包括第一标签和第二标签；

由历史用户中提取第一数量的带有第一标签的第一历史用户；

由历史用户中提取第二数量的带有第二标签的第二历史用户；

基于第一历史用户和第二历史用户对应的多维度特征信息生成所述样本数据。

7.如权利要求5所述的方法，其特征在于，基于所述初始模型的误差和所述多个历史多维度特征信息生成另一个样本数据，包括：

将所述多个历史多维度特征信息输入所述初始模型中，生成正确分类样本集合和错误分类样本集合；

基于所述初始模型的误差为所述正确分类样本集合和所述错误分类样本集合中的样本分配不同的权重；

基于欠采样的方式和所述正确分类样本集合、所述错误分类样本集合生成另一个样本数据。

8.如权利要求5所述的方法，其特征在于，基于所述另一个样本数据对分类模型再次进行训练至满足预设条件以生成所述用户额度分配模型，包括：

基于所述另一个样本数据对分类模型再次进行训练生成中间模型；

计算所述中间模型的误差；

在所述中间模型的误差小于阈值时，基于当前的中间模型生成所述用户额度分配模型。

9.如权利要求1所述的方法，其特征在于，基于用户授权获取当前用户的用户信息，包括：

基于用户授权采用网页埋点的方式获取当前用户的用户信息。

10.一种用户资源额度分配方法，其特征在于，包括：

信息模块，用于基于用户授权获取当前用户的用户信息，所述用户信息包括基础信息和行为信息；

特征模块，用于基于所述用户信息和预设策略生成多维度特征信息；

计算模块，用于将所述多维度特征信息输入用户额度分配模型中，生成分配系数，所述用户额度分配模型基于欠采样的多个历史用户信息和分类模型训练生成；

分配模块，用于基于所述分配系数为所述当前用户确定待分配的资源额度。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。