CN113011722A

CN113011722A - 系统资源数据分配方法和装置

Info

Publication number: CN113011722A
Application number: CN202110238542.2A
Authority: CN
Inventors: 陈李龙; 王娜; 强锋; 张闯
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-22

Abstract

本申请提供了一种系统资源数据分配方法和装置，其中，该方法包括：获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集；利用有标签样本集和标签集构建分类器；提取无标签样本集中各无标签样本的近邻有标签样本，并根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本；基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，以基于优化后的分类器对目标用户的风险预测结果向目标用户分配系统资源数据。上述方法可以提高系统资源数据分配的准确性和高效性。

Description

系统资源数据分配方法和装置

技术领域

本申请涉及机器学习技术领域，特别涉及一种系统资源数据分配方法和装置。

背景技术

随着大数据服务平台技术的快速发展，金融资源数据服务类型以及可选择的服务渠道也越来越多样化、越来越便捷，用户的风险预测对于金融机构也变得越来越重要。如对于一些服务渠道较为便捷的线上贷款业务，因人工介入相对较少，如果用户风险预测不够准确，则可能会存在资源数据分配不合理、用户体验感较差等问题。

目前常用的用户风险预测方法主要为基于有监督学习模型的分类方法，通过基于已知客户风险的数据进行建模，利用训练得到的模型对新样本进行用户风险预测，以确定用户的风险大小。但采用有监督学习模型的分类方法，需要利用已知用户风险性的信息。但通常已知用户风险性的样本较少，且已知用户风险性的样本数据可能无法准确表征新的服务类型下用户的风险特征，从而影响了用户风险预测的准确性，以及影响分配给相应用户资源数据的准确性，进而可能导致资源数据分配不合理，降低了用户的使用体验感。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书实施例的目的在于提供一种系统资源数据分配方法和装置，可以提高系统资源数据分配的准确性以及高效性。

本申请实施例提供了一种系统资源数据分配方法，包括：获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，指定信息集包括有标签样本集和无标签样本集，标签集包括有标签样本集中各有标签样本所对应的风险类别；利用有标签样本集和标签集构建分类器；提取无标签样本集中各无标签样本的近邻有标签样本，并根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，其中，近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本；基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，以基于优化后的分类器对目标用户的风险预测结果向目标用户分配系统资源数据。

本申请实施例还提供了一种系统资源数据分配装置，包括：获取模块，用于获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，指定信息集包括有标签样本集和无标签样本集，标签集包括有标签样本集中各有标签样本所对应的风险类别；构建模块，用于利用有标签样本集和标签集构建分类器；计算模块，用于提取无标签样本集中各无标签样本的近邻有标签样本，并根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，其中，近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本；优化模块，用于基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，以基于优化后的分类器对目标用户的风险预测结果向目标用户分配系统资源数据。

本申请实施例还提供一种计算机设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现上述任意实施例中所述的系统资源数据分配方法的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述任意实施例中所述的系统资源数据分配方法的步骤。

在本申请实施例中，提供了一种系统资源数据分配方法，可以获取具有用于表征用户风险特征的特征数据的有标签样本集和无标签样本集及标签集，标签集包括有标签样本集中各有标签样本所对应的风险类别。首先，可以利用有标签样本集和标签集构造经验损失初始化分类器，以最大化分类器在有标签数据上的拟合程度。之后，可以利用无标签样本近邻的有标签样本的风险类别的分布计算各无标签样本的信息熵，信息熵越大说明该无标签样本处于风险特征空间中的风险分类边界区域的可能性越大，对分类边界的贡献比越大，信息熵越小说明该无标签样本处于分类边界区域的可能性越小，对分类边界的贡献也比较小。可以基于无标签样本集中各无标签样本对应的信息熵对分类器进行优化，可以使优化后的分类器对分类边界附近的特征数据的风险分类更加准确，从而可以提高系统资源数据分配的准确性以及高效性。此外，还可以利用分类器对无标签样本集中各无标签样本进行风险分类，得到各无标签样本对应的伪标签，根据各无标签样本的伪标签与该无标签样本的近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵，可以充分利用无标签样本和近邻有标签样本之间的空间分布信息，之后可以利用近邻判别矩阵对分类器进行优化，使得优化后的分类器对无标签样本的输出与同类的近邻有标签样本的输出尽可能接近，与异类的近邻有标签样本的输出尽可能相反，从而提高分类的准确性。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书提供的一种系统资源数据分配方法实施例的流程示意图；

图2为本说明书提供的一个实施例中的风险预测模型的构建流程示意图；

图3为本说明书提供的一个实施例中的系统资源数据分配方法的流程示意图；

图4为本说明书提供的一种系统资源数据分配装置的模块结构示意图；

图5为本说明书提供的一种计算机设备的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域的技术人员知道，本申请的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此，本申请公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

本说明书实施例提供的一个场景示例中，所述系统资源数据分配方法可以应用于执行系统资源数据分配的设备，所述设备可以包括一个服务器，也可以包括多个服务器组成的服务器集群。对于目标用户，服务器可以对目标用户的多种信息提取特征数据，作为目标用户的特征数据，然后，利用预先配置的算法或者模型等对目标用户进行风险预测，得到目标用户的风险预测结果，以基于该风险预测结果向目标用户分配资源数据。所述资源数据如可以包括提供或者推荐给用户的服务、产品等数据资源。如对于贷款业务场景，所述资源数据可以为分配给目标用户的贷款金额和/或贷款类型。对于云平台数据服务业务场景，所述资源数据则可以为分配给目标用户的系统资源数据等。通过准确识别用户的风险性，可以更加准确合理的向用户分配资源数据，提高用户的体验感，并有效降低机构的资源数据损失。

图1是本说明书提供的所述系统资源数据分配方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示，本说明书提供的系统资源数据分配方法的一个实施例中，所述方法可以应用于所述数据处理设备，所述方法可以包括如下步骤。

步骤S101，获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，指定信息集包括有标签样本集和无标签样本集，标签集包括有标签样本集中各有标签样本所对应的风险类别。

服务器可以获取指定信息集及标签集。指定信息集可以包括多个样本数据。样本数据可以包括用于表征用户风险特征的特征数据。相应的，指定信息集可以为由用于表征用户风险特征的特征数据所组成的数据集。特征数据如可以为基于金融机构的业务系统中存储用户的业务数据提取得到的特征数据。可以通过特征工程进行特征提取。特征数据的提取方式及特征类型可以根据实际应用场景设定，这里不做限定。当然，也可以包括服务器从与金融机构的关联平台中获取的用户信息提取得到的特征数据。

一些实施例中，样本数据可以为有标签样本或无标签样本。有标签样本中可以为已配置用户的风险类别的样本数据。无标签样本可以是指未配置用户的风险类别的样本数据。风险类别可以为有风险、无风险等，也可以为高风险、中风险、低风险等风险等级。可以根据实际应用场景自行配置。如为了便于处理，可以设置单个样本数据与单个用户相对应。相应的，可以分别提取已知风险类别的用户的特征数据以及未知风险类别的用户的特征数据，构建有标签样本以及无标签样本。并将有标签样本以及无标签样本所对应的特征数据与用户标识进行关联后，分别存储至指定信息集的有标签样本集以及无标签样本集中。将有标签样本所对应的风险类别与用户标识关联后，存储至标签集中。

可以将预先构建的指定信息集及标签集进行本地存储、或者存储至数据库中。服务器可以在系统资源数据分配或者预测模型构建时，提取指定信息集及标签集。若构建的指定信息集是对应指定产品或者指定服务场景所对应的用户的信息所组成的信息集，则可以为各指定信息集设定信息集标识。相应的，服务器可以根据当前测试场景的需要，获取相应信息集标识所对应的指定信息集及标签集，以用于当前测试场景下的系统资源数据分配。目前业务系统内的业务数据较大部分更新速度较快，相应的，可以间隔一段时间对指定信息集的特征数据以及标签集进行动态更新，以保证信息集内的信息的准确性，进而提高预测的准确性。

步骤S102，利用有标签样本集和标签集构建分类器。

服务器在构建分类器的过程中，可以根据需要自行选择分类算法。如贝叶斯、支持向量机、神经网络等。然后，基于选择的分类算法，分别利用有标签样本集和标签集，进行模型构建，得到分类器。

步骤S103，提取无标签样本集中各无标签样本的近邻有标签样本，并根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，其中，近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本。

服务器可以提取无标签样本集中各无标签样本对应的近邻有标签样本。各无标签样本的近邻有标签样本为有标签样本集中与该无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本。其中，用户风险特征空间可以是用于表征用户风险特征的特征数据构成的控件。例如，特征数据可以是特征向量，多维特征向量可以构成多维特征空间。接近程度满足预设条件的有标签样本可以是与该无标签样本最接近的前n(其中，n为正整数)个有标签样本，也可以是与该无标签样本之间的距离小于预设距离的有标签样本。

在一个实施例中，可以采用k近邻算法来确定无标签样本集中各无标签样本对应的近邻有标签样本。其中，k近邻算法可以将与无标签样本最接近的k个有标签样本确定为该无标签样本对应的近邻有标签样本。

在提取了无标签样本集中各无标签样本对应的近邻有标签样本之后，可以根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵。在一个实施例中，近邻有标签样本的风险类别的分布可以指近邻有标签样本中属于各风险类别的有标签样本的占比。近邻有标签样本的风险类别可以根据对应的标签集获取。近邻有标签样本的风险类别的分布越无序，对应的无标签样本的信息熵越高，近邻有标签样本的风险类别的分布越有序，对应的无标签样本的信息熵越低。信息熵可以用于表征无标签样本的近邻有标签样本的分布无序程度。无标签样本的信息熵越高，则说明该无标签样本处于分类边界区域的可能性越大，对分类边界的贡献越大。无标签样本的信息熵越低，则说明该无标签样本处于分类边界区域的可能性越小，对分类边界的贡献越小。

步骤S104，基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，以基于优化后的分类器对目标用户的风险预测结果向目标用户分配系统资源数据。

服务器可以基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器。在一个实施例中，在对分类器进行优化时，对于不同信息熵的无标签样本赋予不同的权重，信息熵越大的无标签样本赋予越大的权重，使得优化后的分类器对分类边界附近的特征数据的风险分类更加准确，从而可以提高系统资源数据分配的准确性以及高效性。

上述实施例中的方法，可以获取具有用于表征用户风险特征的特征数据的有标签样本集和无标签样本集及标签集。首先，可以利用有标签样本集和标签集构造经验损失初始化分类器，以最大化分类器在有标签数据上的拟合程度。之后，可以利用无标签样本近邻的有标签样本的风险类别的分布计算各无标签样本的信息熵，信息熵越大说明该无标签样本处于风险特征空间中的风险分类边界区域的可能性越大，对分类边界的贡献比越大，信息熵越小说明该无标签样本处于分类边界区域的可能性越小，对分类边界的贡献也比较小。可以基于无标签样本集中各无标签样本对应的信息熵对分类器进行优化，可以使优化后的分类器对分类边界附近的特征数据的风险分类更加准确，从而可以提高系统资源数据分配的准确性以及高效性。

在本申请一些实施例中，在利用有标签样本集和标签集构建分类器之后，还可以包括：利用分类器对无标签样本集中各无标签样本进行风险分类，得到各无标签样本对应的伪标签；根据无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵；相应的，基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，可以包括：基于无标签样本集对应的近邻判别矩阵以及各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器。

具体地，在利用有标签样本集和标签集构成分类器之后，可以利用分类器对无标签样本集中的各无标签样本进行风险分类，得到各无标签样本对应的伪标签。即，将各无标签样本输入到分类器中，输出各无标签样本的伪标签。在得到各无标签样本的伪标签之后，可以根据各无标签样本的伪标签与该无标签样本的近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵。近邻判别矩阵可以表征无标签样本集与有标签样本集之间的数据分布信息。在得到无标签样本集对应的近邻判别矩阵之后，可以基于无标签样本集对应的近邻判别矩阵以及各无标签样本对应的信息上，对分类器进行优化，得到优化后的分类器。上述实施例中，通过利用近邻判别矩阵对分类器进行优化，使得优化后的分类器对无标签样本的输出与同类的近邻有标签样本的输出尽可能接近，与异类的近邻有标签样本的输出尽可能相反，从而提高分类的准确性。

在本申请一些实施例中，基于无标签样本集对应的近邻判别矩阵以及各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，可以包括：利用各无标签样本对应的信息熵和伪标签，构建分类器对无标签样本集的无标签样本进行用户风险特征预测的边界增强约束；利用无标签样本集对应的近邻判别矩阵中的元素，构建分类器对无标签样本集的无标签样本和有标签样本集中的有标签样本进行用户风险特征预测的近邻判别约束；基于边界增强约束和近邻判别约束，对分类器进行优化，得到优化后的分类器。

具体地，可以利用各无标签样本对应的信息熵和伪标签，构建分类器对无标签样本集的无标签样本进行用户粉线特征预测的边界增强约束。其中，边界增强约束是指对于处于分类边界附近的无标签样本赋予较大的权重，对于远离分类边界的无标签样本赋予较小的权重，从而实现边界增强。通过边界增强约束对分类器进行优化，可以使得优化后的分类器对分类附近的特征数据的风险类别的预测更加准确。

可以利用无标签样本对应的近邻判别矩阵中的元素，构建分类器对无标签样本集的无标签样本和有标签样本集中的有标签样本进行用户风险特征预测的近邻判别约束。其中，近邻判别约束可以表征无标签样本集中的无标签样本与有标签样本集中的有标签样本是否近邻以及，在近邻的情况下，无标签样本的伪标签与有标签样本的风险类别是否相同等信息。通过近邻判别约束对分类器进行优化，可以充分利用无标签样本和近邻有标签样本之间的空间分布信息，使得优化后的分类器对无标签样本的输出与同类的近邻有标签样本的输出尽可能接近，与异类的近邻有标签样本的输出尽可能相反，从而提高分类的准确性。

在本申请一些实施例中，风险类别包括正类和负类，相应的，根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，可以包括：按照以下公式计算各无标签样本的信息熵：

其中，

为第i个无标签样本，H_i为

的信息熵，

N为

的近邻有标签样本的个数，N₊为

的N个近邻有标签样本中的正类样本的个数，N_-为

的N个近邻有标签样本中的负类样本的个数。其中，还可以表征无标签样本的标签为正类的概率，还可以表征无标签样本为负类的概率。通过上述方式，可以基于各无标签样本的近邻有标签样本的风险类别的分布，计算出各无标签样本对应的信息熵。

在本申请一些实施例中，利用各无标签样本对应的信息熵和伪标签，构建分类器对无标签样本集的无标签样本进行用户风险特征预测的边界增强约束，可以包括：按照以下公式构建边界增强约束：

weight_i＝exp((H_i-μ)/σ)；

其中，R_be为边界增强约束，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，

为X^U中的第i个无标签样本，f(·)为分类器的判别函数，

为

对应的伪标签，weight_i为

的边界增强系数，H_i为

的信息熵，μ为X^U中的多个无标签样本的信息熵的均值，σ为X^U中的多个无标签样本的信息熵的标准差。通过上述方式，可以基于各无标签样本对应的信息熵和伪标签构建边界增强约束。

在本申请一些实施例中，根据无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵，可以包括：按照以下公式确定无标签样本集对应的近邻判别矩阵：

其中，S为无标签样本集对应的近邻判别矩阵，其维度为X^U|×|X|，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，X为有标签样本集，|X|为X中的有标签样本的数量，s_i,j为近邻判别矩阵中的元素，

为X^U中的第i个无标签样本，x_j为X中的第j个有标签样本，

表示风险类别与

的伪标签同类的近邻有标签样本，

表示风险类别与

的伪标签异类的近邻有标签样本。其中，other是指x_j不属于无标签样本

的近邻有标签样本。通过上述方式，可以基于无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵。

在本申请一些实施例中，利用无标签样本集对应的近邻判别矩阵中的元素，构建分类器对无标签样本集的无标签样本和有标签样本集中的有标签样本进行用户风险特征预测的近邻判别约束，可以包括：按照以下公式构建近邻判别约束：

其中，R_nd为边界增强约束，X为有标签样本集，|X|为X中的有标签样本的数量，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，s_i,j为近邻判别矩阵中的元素，

为X^U中的第i个无标签样本，x_j为X中的第j个有标签样本，f(·)为分类器的判别函数。通过上述方式，可以利用无标签样本集对应的近邻判别矩阵中的元素构建近邻判别约束。

在本申请一些实施例中，基于边界增强约束和近邻判别约束，对分类器进行优化，得到优化后的分类器，可以包括：按照以下公式对分类器进行优化：

f^*＝argmin_fL(f,X,Y,X^U)；

L＝R_emp+αR_be+βR_nd；

其中，f^*为优化后的分类器对应的判别函数，L(·)为目标函数，f为分类器对应的判别函数，X为有标签样本集，Y为标签集，X^U为无标签样本集，R_emp为分类器对有标签样本集中的有标签样本进行用户风险特征预测的经验损失，R_be为边界增强约束，R_nd为边界增强约束，|X|为X中的有标签样本的数量，x_j为X中的第j个有标签样本，y_j为Y中的第j个标签，即x_j对应的风险类别，α、β为超参数。通过上述方式，可以基于边界增强约束和近邻判别约束，对分类器进行优化。

在本申请一些实施例中，特征数据可以包括时间序列聚合特征以及时间序列历史特征；其中，时间序列聚合特征可以是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据；时间序列历史特征可以包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。所述时间维度如可以包括取前一个月、前两个月、前三个月等等，以及前第二个月、前第三个月、前第四个月等等。所述时序特征提取算法如可以包括平均值、方差、标准差等。通过进一步结合时序特征信息进行特征数据的构建，可以更加准确的表征不同流失类型的用户的特征，进而提高系统资源数据分配的准确性。通过对用户的信息中随时间变化波动较为明显的信息进行时序特征分析，可以实现对用户特征的横向分析，从而大幅提高用户风险类别预测的准确性。

在一些实施方式中，时间序列聚合特征F_agg可以采用下述方式提取，

F_agg＝[f(feature)_time,time＝1-3,1-6,1-9,1-12]

f()分别取Mean()平均值、Max()最大值、Min()最小值、Std()标准差，时间段分别取前一个月、前三个月、前六个月、前第九个月、前第十二个月。

时间序列历史特征F_his可以采用下述方式提取，

F_his＝[feature_time,time＝1,2,3,4,5,6]

时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。

通过上述方式，根据不同时间节点上的特征信息，构建时序特征信息，使模型在学习当下时间节点的特征时，可以更好的兼顾以往的特征信息，从而可以提高模型的准确性。

下面结合一个具体实施例对上述方法进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

请参考图2和图3，图2为本说明书提供的一个实施例中的风险预测模型的构建流程示意图；图3为本说明书提供的一个实施例中的系统资源数据分配方法的流程示意图。如图2所示，风险预测模型的构建流程可以包括以下步骤：

步骤1，获取有标签样本和无标签样本，其中有标签样本中设置有各样本的风险类别对应的标签，无标签样本中不包括各样本的风险类别对应的标签。

步骤2，可以基于有标签样本构造经验损失初始化分类模型，以最大化分类器在有标签数据上的拟合程度，并构造分类模型对有标签样本集中的有标签样本进行用户风险特征预测的经验损失。

步骤3，利用无标签样本近邻的有标签样本的类别计算无标签样本的信息熵，熵越大说明该样本处于分类边界区域，对分类边界的贡献比越大；熵越小说明该样本远离分类边界，对分类边界的贡献也比较小。

步骤4，利用信息熵构造无标签样本的边界增强系数。

步骤5，利用经验损失初始化分类器对无标签样本赋予伪标签，得到伪标签样本。

步骤6，利用边界增强系数和伪标签样本构造边界增强约束。

步骤7，利用伪标签样本和伪标签样本的近邻有标签样本计算近邻判别矩阵。

步骤8，基于近邻判别矩阵构造近邻判别约束。

步骤9，基于经验损失、边界增强约束和近邻判别约束对分类器进行优化，得到基于边界增强和近邻判别约束的半监督分类模型。

如图3所示，以用户为个人用户为例，系统资源数据分配方法可以包括以下内容。

从数据仓库获取用户相关的特征信息。

数据预处理。将涉及个人贷款风险预测相关特征分为三类：客户基本信息、客户资产信息、客户交易信息。按类别可确定数据范围，从而确定涉及的数据表。观察数据表中涉及客户基本信息、客户资产信息和客户交易信息的数据列。将不同表中的相关的数据列按照客户id拼接，组成原始特征。对于有缺失值列，按一定方式补全，如数值特征的缺失值，用列均值补全，非数值特征的缺失值，用“unknown”补全。

特征工程。对于类别特征，如学历、性别等，将其进行One-Hot编码。基础特征包括个人基本信息、个人资产信息和个人交易信息，并根据这些信息构建衍生特征，包括时间序列聚合特征和时间序列历史特征。之后，构造训练样本，训练样本包括有标签样本和无标签样本。有标签样本的标签为1(ω₁)和-1(ω₂)分别代表个人贷款风险客户和无风险客户。无标签训练样本无需构造标签。

其中，时间序列聚合特征F_agg可以采用下述方式提取，

F_agg＝[f(feature)_time,time＝1-3,1-6,1-9,1-12]

时间序列历史特征F_his可以采用下述方式提取，

F_his＝[feature_time,time＝1,2,3,4,5,6]

一些实施例中，所述特征数据可以包括时间序列聚合特征以及时间序列历史特征。其中，所述时间序列聚合特征可以是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据。所述时间序列历史特征可以包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。所述时间维度如可以包括取前一个月、前两个月、前三个月等等，以及前第二个月、前第三个月、前第四个月等等。所述时序特征提取算法如可以包括平均值、方差、标准差等。通过进一步结合时序特征信息进行特征数据的构建，可以更加准确的表征不同流失类型的用户的特征，进而提高系统资源数据分配的准确性。通过对用户的信息中随时间变化波动较为明显的信息进行时序特征分析，可以实现对用户特征的横向分析，从而大幅提高用户稳定性预测的准确性。

一些实施方式中，时间序列聚合特征F_agg可以采用下述方式提取，

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

f()分别取Mean()平均值、Max()最大值、Min()最小值、Std()标准差，时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。相应的，每个存、贷特征分别衍生出44维时间序列聚合特征。

时间序列历史特征F_his可以采用下述方式提取，

F_his＝[feature_time,time＝1,2,3,4,5,6]

模型训练。利用有标签样本构造经验损失初始化分类模型，以最大化分类模型在有标签数据上的拟合程度。其次，利用无标签样本近邻的有标签样本的类别计算无标签样本的的信息熵，熵越大说明该样本处于分类边界区域，对分类边界的贡献比越大；熵越小说明该样本远离分类边界，对分类边界的贡献也比较小，利用信息熵构造无标签样本的边界增强系数。在模型的优化过程中，分类器对无标签样本赋予伪标签，利用边界增强系数和伪标签构造边界增强约束。最后，利用有标签样本构造无标签样本的近邻判别矩阵，以充分利用无标签样本与近邻有标签样本之间包含的数据分布信息，利用近邻判别矩阵设计近邻判别约束，约束伪标签样本与邻近的同类有标签样本的输出尽可能接近，与邻近的异类有标签样本的输出尽可能相反，以提高伪标签的准确性。通过最小化经验损失、边界增强约束和近邻判别约束迭代优化分类模型，得到基于边界增强和近邻判别约束的半监督分类模型。

将待预测的测试样本输入基于边界增强和近邻判别约束的半监督分类模型，输出预测结果，即测试样本的风险类别。

基于同一发明构思，本申请实施例中还提供了一种系统资源数据分配装置，如下面的实施例所述。由于系统资源数据分配装置解决问题的原理与系统资源数据分配方法相似，因此系统资源数据分配装置的实施可以参见系统资源数据分配方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图4是本申请实施例的系统资源数据分配装置的一种结构框图，如图4所示，包括：获取模块401、构建模块402、计算模块403和优化模块404，下面对该结构进行说明。

获取模块401用于获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，指定信息集包括有标签样本集和无标签样本集，标签集包括有标签样本集中各有标签样本所对应的风险类别。

构建模块402用于利用有标签样本集和标签集构建分类器。

计算模块403用于提取无标签样本集中各无标签样本的近邻有标签样本，并根据各无标签样本的近邻有标签样本的风险类别的分布，计算各无标签样本对应的信息熵，其中，近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本。

优化模块404用于基于无标签样本集中各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器，以基于优化后的分类器对目标用户的风险预测结果向目标用户分配系统资源数据。

在本申请一些实施例中，所述装置还包括矩阵计算模块，可以用于：在利用有标签样本集和标签集构建分类器之后，利用分类器对无标签样本集中各无标签样本进行风险分类，得到各无标签样本对应的伪标签；根据无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵；相应的，优化模块可以具体用于：基于无标签样本集对应的近邻判别矩阵以及各无标签样本对应的信息熵，对分类器进行优化，得到优化后的分类器。

从以上的描述中，可以看出，本申请实施例实现了如下技术效果：可以获取具有用于表征用户风险特征的特征数据的有标签样本集和无标签样本集及标签集，标签集包括有标签样本集中各有标签样本所对应的风险类别。首先，可以利用有标签样本集和标签集构造经验损失初始化分类器，以最大化分类器在有标签数据上的拟合程度。之后，可以利用无标签样本近邻的有标签样本的风险类别的分布计算各无标签样本的信息熵，信息熵越大说明该无标签样本处于风险特征空间中的风险分类边界区域的可能性越大，对分类边界的贡献比越大，信息熵越小说明该无标签样本处于分类边界区域的可能性越小，对分类边界的贡献也比较小。可以基于无标签样本集中各无标签样本对应的信息熵对分类器进行优化，可以使优化后的分类器对分类边界附近的特征数据的风险分类更加准确，从而可以提高系统资源数据分配的准确性以及高效性。此外，还可以利用分类器对无标签样本集中各无标签样本进行风险分类，得到各无标签样本对应的伪标签，根据各无标签样本的伪标签与该无标签样本的近邻有标签样本的风险类别之间的异同，计算无标签样本集对应的近邻判别矩阵，可以充分利用无标签样本和近邻有标签样本之间的空间分布信息，之后可以利用近邻判别矩阵对分类器进行优化，使得优化后的分类器对无标签样本的输出与同类的近邻有标签样本的输出尽可能接近，与异类的近邻有标签样本的输出尽可能相反，从而提高分类的准确性。

本申请实施方式还提供了一种计算机设备，具体可以参阅图5所示的基于本申请实施例提供的系统资源数据分配方法的计算机设备组成结构示意图，所述计算机设备具体可以包括输入设备51、处理器52、存储器53。其中，所述存储器53用于存储处理器可执行指令。所述处理器52执行所述指令时实现上述任意实施例中所述的系统资源数据分配方法的步骤。

在本实施方式中，所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该计算机设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本申请实施方式中还提供了一种基于系统资源数据分配方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现上述任意实施例中所述系统资源数据分配方法的步骤。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

应该理解，以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述，在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此，本申请的范围不应该参照上述描述来确定，而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种系统资源数据分配方法，其特征在于，应用于服务器，所述方法包括：

获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，所述指定信息集包括有标签样本集和无标签样本集，所述标签集包括所述有标签样本集中各有标签样本所对应的风险类别；

利用所述有标签样本集和所述标签集构建分类器；

提取所述无标签样本集中各无标签样本的近邻有标签样本，并根据所述各无标签样本的近邻有标签样本的风险类别的分布，计算所述各无标签样本对应的信息熵，其中，所述近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本；

基于所述无标签样本集中各无标签样本对应的信息熵，对所述分类器进行优化，得到优化后的分类器，以基于所述优化后的分类器对目标用户的风险预测结果向所述目标用户分配系统资源数据。

2.根据权利要求1所述的方法，其特征在于，在利用所述有标签样本集和所述标签集构建分类器之后，还包括：

利用所述分类器对所述无标签样本集中各无标签样本进行风险分类，得到所述各无标签样本对应的伪标签；

根据所述无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算所述无标签样本集对应的近邻判别矩阵；

相应的，基于所述无标签样本集中各无标签样本对应的信息熵，对所述分类器进行优化，得到优化后的分类器，包括：

基于所述无标签样本集对应的近邻判别矩阵以及所述各无标签样本对应的信息熵，对所述分类器进行优化，得到优化后的分类器。

3.根据权利要求2所述的方法，其特征在于，基于所述无标签样本集对应的近邻判别矩阵以及所述各无标签样本对应的信息熵，对所述分类器进行优化，得到优化后的分类器，包括：

利用所述各无标签样本对应的信息熵和伪标签，构建所述分类器对所述无标签样本集的无标签样本进行用户风险特征预测的边界增强约束；

利用所述无标签样本集对应的近邻判别矩阵中的元素，构建所述分类器对所述无标签样本集的无标签样本和所述有标签样本集中的有标签样本进行用户风险特征预测的近邻判别约束；

基于所述边界增强约束和所述近邻判别约束，对所述分类器进行优化，得到优化后的分类器。

4.根据权利要求1所述的方法，其特征在于，所述风险类别包括正类和负类，相应的，根据所述各无标签样本的近邻有标签样本的风险类别的分布，计算所述各无标签样本对应的信息熵，包括：

按照以下公式计算所述各无标签样本的信息熵：

其中，

为第i个无标签样本，H_i为

的信息熵，

N为

的近邻有标签样本的个数，N₊为

的N个近邻有标签样本中的正类样本的个数，N_-为

的N个近邻有标签样本中的负类样本的个数。

5.根据权利要求3所述的方法，其特征在于，利用所述各无标签样本对应的信息熵和伪标签，构建所述分类器对所述无标签样本集的无标签样本进行用户风险特征预测的边界增强约束，包括：

按照以下公式构建所述边界增强约束：

weight_i＝exp((H_i-μ)/σ)；

其中，R_be为所述边界增强约束，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，

为X^U中的第i个无标签样本，f(·)为分类器的判别函数，

为

对应的伪标签，weight_i为

的边界增强系数，H_i为

的信息熵，μ为X^U中的多个无标签样本的信息熵的均值，σ为X^U中的多个无标签样本的信息熵的标准差。

6.根据权利要求2所述的方法，其特征在于，根据所述无标签样本集中各无标签样本的伪标签与近邻有标签样本的风险类别之间的异同，计算所述无标签样本集对应的近邻判别矩阵，包括：

按照以下公式确定所述无标签样本集对应的近邻判别矩阵：

其中，S为所述无标签样本集对应的近邻判别矩阵，其维度为|X^U|×|X|，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，X为有标签样本集，|X|为X中的有标签样本的数量，s_i,j为所述近邻判别矩阵中的元素，

为X^U中的第i个无标签样本，x_j为X中的第j个有标签样本，

表示风险类别与

的伪标签同类的近邻有标签样本，

表示风险类别与

的伪标签异类的近邻有标签样本。

7.根据权利要求3所述的方法，其特征在于，利用所述无标签样本集对应的近邻判别矩阵中的元素，构建所述分类器对所述无标签样本集的无标签样本和所述有标签样本集中的有标签样本进行用户风险特征预测的近邻判别约束，包括：

按照以下公式构建所述近邻判别约束：

其中，R_nd为所述边界增强约束，X为有标签样本集，|X|为X中的有标签样本的数量，X^U为无标签样本集，|X^U|为X^U中的无标签样本的数量，s_i,j为所述近邻判别矩阵中的元素，

为X^U中的第i个无标签样本，x_j为X中的第j个有标签样本，f(·)为分类器的判别函数。

8.根据权利要求3所述的方法，其特征在于，基于所述边界增强约束和所述近邻判别约束，对所述分类器进行优化，得到优化后的分类器，包括：

按照以下公式对所述分类器进行优化：

f^*＝arg min_fL(f,X,Y,X^U)；

L＝R_emp+αR_be+βR_nd；

其中，f^*为优化后的分类器对应的判别函数，L(·)为目标函数，f为分类器对应的判别函数，X为有标签样本集，Y为标签集，X^U为无标签样本集，R_emp为所述分类器对所述有标签样本集中的有标签样本进行用户风险特征预测的经验损失，R_be为所述边界增强约束，R_nd为所述边界增强约束，|X|为X中的有标签样本的数量，x_j为X中的第j个有标签样本，y_j为Y中的第j个标签，即x_j对应的风险类别，α、β为超参数。

9.根据权利要求1所述的方法，其特征在于，所述特征数据包括时间序列聚合特征以及时间序列历史特征；其中，所述时间序列聚合特征是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据；所述时间序列历史特征包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。

10.一种系统资源数据分配装置，其特征在于，应用于服务器，所述装置包括：

获取模块，用于获取具有用于表征用户风险特征的特征数据的指定信息集、及标签集，其中，所述指定信息集包括有标签样本集和无标签样本集，所述标签集包括所述有标签样本集中各有标签样本所对应的风险类别；

构建模块，用于利用所述有标签样本集和所述标签集构建分类器；

计算模块，用于提取所述无标签样本集中各无标签样本的近邻有标签样本，并根据所述各无标签样本的近邻有标签样本的风险类别的分布，计算所述各无标签样本对应的信息熵，其中，所述近邻有标签样本包括有标签样本集中的与对应无标签样本在用户风险特征空间中的接近程度满足预设条件的有标签样本；

优化模块，用于基于所述无标签样本集中各无标签样本对应的信息熵，对所述分类器进行优化，得到优化后的分类器，以基于所述优化后的分类器对目标用户的风险预测结果向所述目标用户分配系统资源数据。

11.一种计算机设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。