CN112836749A

CN112836749A - 一种系统资源调整方法、装置及设备

Info

Publication number: CN112836749A
Application number: CN202110147724.9A
Authority: CN
Inventors: 陈李龙; 王娜; 强锋; 张闯
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-05-25

Abstract

本说明书实施例涉及人工智能技术领域，具有公开了一种系统资源调整方法、装置及设备，所述方法包括获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果；基于预测样本和基准样本所对应的特征数据对各预测样本及基准样本进行聚类处理，得到多个聚簇；对任一聚簇，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本；根据参考样本确定相应预测样本的预测标签值。在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

Description

一种系统资源调整方法、装置及设备

技术领域

本说明书涉及人工智能技术领域，特别地，涉及一种系统资源调整方法、装置及设备。

背景技术

随着大数据服务平台技术的快速发展，金融服务类型以及可选择的服务渠道也越来越多样化、越来越便捷，使得用户的选择机会越来越多，相应的，金融机构的用户也越来越不稳定。为了有效挽留用户，金融机构的服务系统通常需要进行大量的数据分析以及资源调整，以使提供给用户的资源更符合用户的需求。在此基础上，各应用场景下的用户稳定性预测对系统资源调整的准确性是非常重要的。

目前常用的用户稳定性评估方法主要为基于有监督学习模型的分类方法，通过对已有的客户流失信息进行建模分析，利用训练得到的模型对新样本进行流失预测，以确定各用户的稳定性。但采用有监督学习模型的分类方法，需要利用已知用户流失结果的信息。但随着金融服务类型的多样化，很多情况下很难清晰划定用户的流失结果，导致预测所基于的样本数据的较难高效准确的选择，从而影响用户稳定性预测的准确性，进而影响系统资源调整的准确性以及高效性。因此，目前亟需一种更加准确高效的系统资源调整方法。

发明内容

本说明书实施例的目的在于提供一种系统资源调整方法、装置及设备，可以提高系统资源调整的准确性以及高效性。

本说明书提供一种系统资源调整方法、装置及设备是包括如下方式实现的：

一种系统资源调整方法，应用于服务器，所述方法包括如下步骤：获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果；基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇，得到多个聚簇；对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本；根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果；对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重；根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值；在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

本说明书提供的所述方法的另一些实施例中，所述将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本，包括：将聚簇内基准样本的数量最多的用户流失结果所对应的基准样本，作为相应聚簇的参考样本。

本说明书提供的所述方法的另一些实施例中，所述根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重，包括，

其中，s(x_u)为标签权重，x_u为预测样本，xⁱ为聚簇中第i个参考样本，N_c为相应聚簇中x_u对应的参考样本的数量，γ为用于调整相似度计算的超参数。

本说明书提供的所述方法的另一些实施例中，基于所述基准样本以及关联了预测标签值的预测样本构建用户流失预测模型；根据所述用户流失预测模型对目标用户进行流失预测；利用目标用户的流失预测结果对目标用户进行稳定性评估，得到目标用户的稳定值。

本说明书提供的所述方法的另一些实施例中，基于下述目标函数构建所述用户流失预测模型，包括，

L(f)＝R_emp(Y_L,f(X_L))+αR_pemp(Y_U,S,f(X_U))+λR_reg

其中，L(f)为用户流失预测模型的目标函数，R_emp(Y_L,f(X_L))表示第一损失函数，Y_L表示所述指定信息集中各基准样本所对应的用户流失结果组成的集合，X_L表示所述指定信息集中各基准样本所对应的特征数据组成的集合，R_pemp(Y_U,S,f(X_U))是第二损失函数，S表示所述指定信息集中各预测样本所对应的标签权重所组成的权重集，Y_U表示所述指定信息集中各预测样本所对应的表征用户流失结果组成的集合，X_U表示所述指定信息集中各预测样本所对应的特征数据组成的集合，R_reg为L2正则化损失，f(·)为判别函数，α、λ为超参数。

本说明书提供的所述方法的另一些实施例中，所述特征数据包括时间序列聚合特征以及时间序列历史特征。其中，所述时间序列聚合特征是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据；所述时间序列历史特征包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。

本说明书提供的所述方法的另一些实施例中，所述指定信息包括贷款信息、存款信息。

另一方面，本说明书实施例还提供一种系统资源调整装置，应用于服务器，所述装置包括：信息获取模块，用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果；聚类处理模块，基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇；参考样本确定模块，用于对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本；第一预测模块，用于根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果；权重确定模块，用于对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重；标签确定模块，用于根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值；资源调整模块，用于在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

本说明书提供的所述装置的另一些实施例中，所述权重确定模块还用于采用下述方式确定预测样本的标签权重，

另一方面，本说明书实施例还提供一种系统资源调整设备，应用于服务器，所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。

本说明书一个或多个实施例提供的系统资源调整方法、装置及设备，可以只需将一些流失结果较为明显的用户进行流失结果的确定，其他是否流失较难判定的用户，则可以先不进行用户流失结果的确定。然后，利用已确定流失结果的用户所对应的特征数据构建基准样本，利用未确定流失结果的用户所对应的样本构建预测样本。对所述指定信息集中的各预测样本及基准样本进行聚类处理，并统计聚簇内各用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本，以根据聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果。并可以根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重，以利用预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值。再基于基准样本以及关联了预测标签值的预测样本进行用户稳定性评估，进而基于稳定性评估结果进行系统资源调整，从而可以提高系统资源调整的效率以及准确性。同时，还可以进一步提高金融机构系统的整体性能。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书提供的一种系统资源调整方法实施例的流程示意图；

图2为本说明书提供的一个实施例中的系统资源调整方法流程示意图；

图3为本说明书提供的另一种系统资源调整装置的模块结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是说明书一部分实施例，而不是全部的实施例。基于说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书实施例方案保护的范围。

本说明书实施例提供的一个场景示例中，所述系统资源调整方法可以应用于执行系统资源调整的设备，所述设备可以包括一个服务器，也可以包括多个服务器组成的服务器集群。对于目标用户，服务器可以对目标用户的多种信息提取特征数据，作为目标用户的测试数据，然后，利用预先配置的算法或者模型等对目标用户进行稳定性评估，得到目标用户的稳定性评估结果，以基于该稳定性评估结果对金融机构的资源进行适应性的调整。所述系统资源如可以包括提供或者推荐给用户的服务、产品等数据资源。通常各用户所关联的上述数据资源还会占用一定的系统硬件资源，通过合理调配用户所关联的数据资源，还可以进一步提升数据资源分配合理性，挽留用户的同时，还可以进一步提升金融机构服务系统的整体性能。

图1是本说明书提供的所述系统资源调整方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构，但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中，这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时，可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示，本说明书提供的系统资源调整方法的一个实施例中，所述方法可以应用于所述数据处理设备，所述方法可以包括如下步骤：

S20：获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果。

服务器可以获取指定信息集及标签集。所述指定信息集可以包括多个样本数据。所述样本数据可以包括用于表征用户流失特征的特征数据。相应的，所述指定信息集可以为由用于表征用户流失特征的特征数据所组成的数据集。所述特征数据如可以为基于金融机构的业务系统中存储用户的业务数据提取得到的特征数据。可以通过特征工程进行特征提取。特征数据的提取方式及特征类型可以根据实际应用场景设定，这里不做限定。当然，也可以包括服务器从与金融机构的关联平台中获取的用户信息提取得到的特征数据。

一些实施例中，所述样本数据可以为预测样本或基准样本。所述预测样本可以为未知用户流失结果的样本数据。所述基准样本可以为已知用户流失结果的样本数据。相应的，所述指定信息集至少可以包括多个预测样本及基准样本。所述标签集可以包括各基准样本所对应的用户流失结果。所述用户流失结果如可以包括用户已流失、用户未流失等。如为了便于处理，可以设置单个样本数据与单个用户相对应。相应的，可以分别提取已知流失结果的用户的特征数据以及未知流失结果的用户的特征数据，构建基准样本以及预测样本。并将基准样本以及预测样本所对应的特征数据与用户标识进行关联后，存储至指定信息集中。将基准样本所对应的用户流失结果与用户标识关联后，存储至标签集中。

实际应用场景中，用户可能在当前金融机构办理了不止一种业务产品或者业务服务。而业务产品或者业务服务类型也繁杂多样，有些可能属于持续性的，如存款等；而有些可能属于单次办理的，如贷款、理财等。对于不同的业务产品或者业务服务，可能需要制定不同的用户流失结果判定方式。如对应存款，用户的账户内余额已经低于预设的余额阈值，且经过指定时间长度该用户的账户也没有资金流转，则可以认为对于存款业务，该用户为已流失用户。用户的账户内资金流转频率大于频率阈值或者余额大于余额阈值，则可以认为该用户为未流失用户。对于理财产品，用户在当前金融机构的理财产品均已到期，且用户在经过一段时间也并未再办理任何理财产品，则可以认为对于理财产品，该用户为已流失用户。或者，用户在当前金融机构的理财产品未到期，则可以认为该用户为未流失用户。或者，也可以综合多个业务产品或业务场景判断用户的流失结果。当然，上述流失结果判断方式仅为优选举例说明，实际应用场景中，可以根据需要灵活配置，这里不做限定。

不同产品或者服务所对应的用户的信息特征通常存在较大的差异性，也可以通过区分产品或者服务进行指定信息集的构建，进而基于相应的指定信息集进行用户稳定性预测以及系统资源调整，可以使得预测结果更符合实际应用场景，进而提高预测准确性。对于部分新型产品或者服务，可能对应的用户量较少，相应的，可以获取与该产品或者服务特征较为相近的产品或者服务作为指定产品或者指定服务，然后，获得该指定产品或者指定服务所对应的用户的信息，构建指定信息集。当然，上述实施方式仅为优选举例说明，具体实施时也可以采用其他指定信息集构建方式。

可以将预先构建信息集进行本地存储、或者存储至数据库中。服务器可以在系统资源调整或者预测模型构建时，提取指定信息集。若构建的信息集是指指定产品或者指定服务场景所对应的用户的信息所组成的信息集，则可以为各指定信息集设定信息集标识。相应的，服务器可以根据当前测试场景的需要，获取相应信息集标识所对应的指定信息集，以用于当前测试场景下的系统资源调整。业务系统内的业务数据较大部分更新速度较快，相应的，可以间隔一段时间对指定信息集及标签集进行动态更新，以保证信息集内的信息的准确性。

S22：基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇。

服务器可以基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，将指定信息集中的各样本数据聚类成多个聚簇。例如，可以K-means算法、DBSCAN(基于密度的聚类方法)等聚类算法对指定信息集中各预测样本和基准样本的特征数据进行聚类处理。如，可以计算各样本的特征数据之间的空间距离，基于该空间距离确定各样本在用户流失特征空间下的接近程度，将具有一定相似用户流失特征的多个预测样本以及基准样本作为一个聚簇。聚类处理的具体实现方式这里不做赘述。

S24：对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本。

对于任一聚簇，可以先统计聚簇内各用户流失结果所对应的基准样本的数量。如已流失用户所对应的基准样本的数量，以及未流失用户所对应的基准样本的数量等。然后，可以根据各用户流失结果所对应的基准样本的数量确定参考样本。例如，可以将样本数量最多的用户流失结果所对应的基准样本作为参考样本。如果用户流失结果形式多于两种，还可以将样本数量排序靠前的两个以上的用户流失结果所对应的基准样本作为参考样本。

S26：根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果。

然后，服务器可以根据参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果。

一些实施例中，可以将样本数量最多的用户流失结果所对应的基准样本作为参考样本。然后，可以根据基准样本的数量最多的用户流失结果确定相应聚簇的表征用户流失结果。例如，假设用户流失结果包括用户已流失以及用户未流失两种，分别标识为1、-1。则可以统计聚簇内标识为1、-1的基准样本的数量，如标识为1的基准样本的数量最多，则可以将标识1作为相应聚簇的表征用户流失结果。

当然，如果参考样本为样本数量排序靠前的两个以上的用户流失结果所对应的基准样本组成，则可以综合该两个以上的用户流失结果，确定相应聚簇的表征用户流失结果。

S28：对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重。

对于任一预测样本，可以计算预测样本与所述参考样本之间的相似度，作为相应预测样本的标签权重。一些实施例中，可以采用下述方式计算预测样本与所述参考样本之间的相似度，作为相应预测样本的标签权重，

当然，上述计算方式仅为优选方式，实际应用中也可以采用其他方式，如还可以统计任一聚簇内各参考样本的中心值，然后，计算各预测样本与该中心值之间的距离，作为相似度，进而作为相应预测样本的标签权重等。

S210：根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值。

服务器可以进一步根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值。优选的，如可以预测样本所在聚簇的表征用户流失结果与标签权重的乘积作为相应预测样本的预测标签值。或者，也可以将预测样本所在聚簇的表征用户流失结果与标签权重的比值作为相应预测样本的预测标签值。

S212：在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

服务器可以将预测样本与相应的预测标签值进行关联存储。在目标用户的稳定性预测时，可以根据所述指定信息集中的所述基准样本以及关联了预测标签值的预测样本进行用户稳定性评估。

服务器可以在评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。所述预设稳定值可以根据实际应用场景需要进行预先设定。所述系统资源如可以包括提供或者推荐给用户的服务、产品等数据资源。通常各用户所关联的上述数据资源还会占用一定的系统硬件资源，通过合理调配用户所关联的数据资源，还可以进一步提升数据资源分配合理性，挽留用户的同时，还可以进一步提升金融机构服务系统的整体性能。

另一些实施例中，所述特征数据可以包括时间序列聚合特征以及时间序列历史特征。其中，所述时间序列聚合特征可以是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据。所述时间序列历史特征可以包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。所述时间维度如可以包括取前一个月、前两个月、前三个月等等，以及前第二个月、前第三个月、前第四个月等等。所述时序特征提取算法如可以包括平均值、方差、标准差等。通过进一步结合时序特征信息进行用户的特征数据的构建，可以更加准确的表征不同流失类型的用户的特征，进而提高系统资源调整的准确性。

一些实施例中，所述指定信息可以是指贷款信息和/或存款信息等。当然，所述指定信息还可以是指对用户的信用信息等。通过对用户的信息中随时间变化波动较为明显的信息进行时序特征分析，可以实现对用户特征的横向分析，从而大幅提高用户稳定性预测的准确性。

一些实施方式中，时间序列聚合特征F_agg可以采用下述方式提取，

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

f()分别取Mean()平均值、Max()最大值、Min()最小值、Std()标准差，时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。相应的，每个存、贷特征分别衍生出44维时间序列聚合特征。

时间序列历史特征F_his可以采用下述方式提取，

F_his＝[feature_time,time＝1,2,3,4,5,6]

时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。相应的，每个存、贷特征可以分别衍生出6维时间序列历史特征。

当然，还可以进一步提高用户的其他信息特征，与上述时间序列聚合特征以及时间序列历史特征关联后，一起作为用户的特征数据，进行用户稳定性预测。

如图2所示，另一些实施例中，还可以采用下述方式进行用户稳定性预测。基于所述指定信息集中的所述基准样本以及关联了预测标签值的预测样本构建用户流失预测模型，根据所述用户流失预测模型对目标用户进行流失预测。所述模型构建算法如可以采用深度神经网络、卷积网络等。

其中，用户流失预测模型可以基于下述目标函数构建，

L(f)＝R_emp(Y_L,f(X_L))+αR_pemp(Y_U,S,f(X_U))+λR_reg

其中，L(f)为用户流失预测模型的目标函数，R_emp(Y_L,f(X_L))表示第一损失函数，Y_L表示所述指定信息集中各基准样本所对应的用户流失结果组成的集合，X_L表示所述指定信息集中各基准样本所对应的特征数据组成的集合，R_pemp(Y_U,S,f(X_U))是第二损失函数，S表示所述指定信息集中各预测样本所对应的标签权重所组成的权重集，Y_U表示所述指定信息集中各预测样本所对应的表征用户流失结果组成的集合，X_U表示所述指定信息集中各预测样本所对应的特征数据组成的集合，R_reg为L2正则化损失，f(·)为判别函数，相应的，f(X_L)为基于判别函数对各基准样本进行处理，f(X_U)为基于判别函数对各预测样本进行处理，α、λ为超参数。通过上述方式预先构建模型，可以更加定量的预测用户的流失概率，进而提高用户的稳定性预测的准确性。

随着互联网金融的发展，法人客户重新选择金融服务机构的成本也越来越低。如果法人客户流失愈发严重，将会对金融机构造成不利影响，导致金融机构口碑下降，盈利减少。同时，金融机构系统针对该问题可能还需要大规模进行服务以及产品等分析，调整数据资源，以得出可以挽留用户的策略等，从而进一步导致金融机构系统硬件资源以及成本的浪费。相应的，本说明书实施例提供的一个实施场景中，以法人客户为例，对上述实施例提供的方案进行说明如下。

首先从数据仓库获取法人客户流失预测相关的特征信息，包括法人基本信息、法人资产信息、法人贷款信息、法人交易信息，对测试样本进行数据预处理和特征提取，利用法人的基础信息特征和存、贷时序信息特征构造指定信息集。

数据选择。可以将涉及法人客户公司存款的相关特征分为4类：法人基本信息、法人资产信息、法人贷款信息、法人交易信息。按类别可确定数据范围，从而确定涉及的数据表。

数据预处理。观察数据表中涉及法人客户公司存款、贷款信息的数据列。将不同表中涉及法人客户公司存款信息的数据列按照法人客户id、时间拼接，组成原始特征。对于数据类型不正确的列，先将其转化成正确的数据类型。比如数据类型应该数值型，但是在数据表中却设定伪字符串型，可根据数据列名的含义判断是否错误，对错误的进行转换。对于有缺失值列，按一定方式补全，如数值特征的缺失值，用“0”补全，非数值特征的缺失值，用“-1”补全。

然后，可以进行特征提取，如下。

特征转换。对于类别特征，如经济性质、企业规模等，将其进行One-Hot编码，对于部分范围跨度特别大的数值特征进行分桶。

时间序列聚合特征挖掘。使用法人资产信息、法人贷款信息构造存、贷相关的时间序列特征，包括时间序列聚合特征、时间序列历史特征。其中，时间序列聚合特征F_agg的构造方法如下：

F_agg＝[f(feature)_time,time＝1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]

f()分别取Mean()平均值、Max()最大值、Min()最小值、Std()标准差，时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。每个存贷特征分别衍生出44维时间序列聚合特征。

时间序列历史特征挖掘。时间序列历史特征F_his的构造方式如下，

F_his＝[feature_time,time＝1,2,3,4,5,6]

时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。每个存贷特征分别衍生出6维时间序列历史特征。

可以分别提取已知流失结果的用户的特征数据以及未知流失结果的用户的特征数据，构建基准样本以及预测样本。并将基准样本以及预测样本所对应的特征数据与用户标识进行关联后，存储至指定信息集中。将基准样本所对应的用户流失结果与用户标识关联后，存储至标签集中。

假设用户流失结果为用户已流失与用户未流失两种，分别用“1”(正类)或者“-1”(负类)进行标识。在用户流失结果确定中，对于法人客户存款应用场景下，可以设定“1”代表法人客户的存款在下个月分流流入，“-1”代表法人客户存款流出，依据上述设定规则，可以预先确定部分用户的流失结果。

给定聚类簇数k，对基准样本和预测样本的特征数据进行k-means聚类。根据聚簇中基准样本的用户流失结果确定相应聚簇表征用户流失结果。例如，如果聚簇中正类样本的数量大于负类样本的数量，则将聚簇中正类样本作为参考样本，并将相应聚簇“1”作为相应聚簇的表征用户流失结果。然后，可以将聚簇的表征用户流失结果作为相应聚簇内各预测样本的初始标签y_u。否则该簇中负类样本作为参考样本，并将预测样本赋予“-1”作为初始标签y_u。

计算标签权重。对于聚簇中的预测样本，计算预测样本与簇内参考样本的相似度，作为其对应的标签权重。

可以根据标签权重以及初始标签确定预测样本的预测标签值，并将预测标签值与相应的预测样本进行关联。然后，基于基准样本以及关联了预测标签值的预测样本进行模型构建。

对于目标用户所对应的测试数据x，可以将测试数据输入上述构建的模型，得到输出结果，结果为“1”代表客户下个月的余额会流入，结果为“-1”代表客户下个月的余额会流出。

通过上述方式，根据不同时间节点上的特征信息，构建时序特征信息，使模型在学习当下时间节点的特征时，可以更好的兼顾以往的特征信息。其次，将用户流失结果较为模糊的样本，通过充分挖掘该类样本与已知流失结果的样本之间的空间分布信息，准确该类样本的流失结果分布。之后，再联合两类样本进行模型构建，可以提高模型的泛化性能，使模型在法人客户流失预测中更加准确。进而利用模型结果，在法人客户流失之前进行资源调整，减少用户流失，降低损失。同时，还可以提高金融系统的整体性能。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述，在此不做一一赘述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书一个或多个实施例提供的系统资源调整方法，可以只需将一些流失结果较为明显的用户进行流失结果的确定，其他是否流失较难判定的用户，则可以先不进行用户流失结果的确定。然后，利用已确定流失结果的用户所对应的特征数据构建基准样本，利用未确定流失结果的用户所对应的样本构建预测样本。然后，可以通过估计预测样本中各用户的流失结果，作为各预测样本的预测标签值。然后，再基于基准样本以及关联了预测标签值的预测样本进行用户稳定性评估，进而基于稳定性评估结果进行系统资源调整，从而可以提高系统资源调整的效率以及准确性。同时，还可以进一步提高金融机构系统的整体性能。

基于上述所述的系统资源调整方法，本说明书一个或多个实施例还提供一种系统资源调整装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思，本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似，因此本说明书实施例具体的装置的实施可以参见前述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。具体的，图3表示说明书提供的一种系统资源调整装置实施例的模块结构示意图，如图3所示，应用于服务器，所述装置可以包括，

信息获取模块302，可以用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果。

聚类处理模块304，可以用于基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇。

参考样本确定模块306，可以用于对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本。

第一预测模块308，可以用于根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果。

权重确定模块310，可以用于对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重.

标签确定模块312，可以用于根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值。

资源调整模块314，可以用于在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

需要说明的，上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本说明书还提供一种系统资源调整设备，所述设备可以应用于单独的系统资源调整系统中，也可以应用在多种计算机数据处理系统中。所述的系统可以为单独的服务器，也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。一些实施例中，设备可以包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。

所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括：利用电能方式存储信息的装置如，各式存储器，如RAM、ROM等；利用磁能方式存储信息的装置如，硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置如，CD或DVD。当然，还有其他方式的可读存储介质，例如量子存储器、石墨烯存储器等等。

需要说明的，上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

需要说明的是，本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例，仍然可以属于本说明书的可选实施方案范围之内。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种系统资源调整方法，其特征在于，应用于服务器，所述方法包括：

获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果；

基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇；

对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本；

根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果；

对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重；

根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值，以在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

2.根据权利要求1所述的方法，其特征在于，所述将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本，包括：

将聚簇内基准样本的数量最多的用户流失结果所对应的基准样本，作为相应聚簇的参考样本。

3.根据权利要求1所述的方法，其特征在于，所述根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述基准样本以及关联了预测标签值的预测样本构建用户流失预测模型；

根据所述用户流失预测模型对目标用户进行流失预测；

利用目标用户的流失预测结果对目标用户进行稳定性评估，得到目标用户的稳定值。

5.根据权利要求4所述的方法，其特征在于，基于下述目标函数构建所述用户流失预测模型，包括：

L(f)＝R_emp(Y_L,f(X_L))+αR_pemp(Y_U,S,f(X_U))+λR_reg

6.根据权利要求1所述的方法，其特征在于，所述特征数据包括时间序列聚合特征以及时间序列历史特征；其中，所述时间序列聚合特征是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据；所述时间序列历史特征包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。

7.根据权利要求6所述的方法，其特征在于，所述指定信息包括贷款信息、存款信息。

8.一种系统资源调整装置，其特征在于，应用于服务器，所述装置包括：

信息获取模块，用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集；所述指定信息集至少包括多个预测样本和基准样本；所述标签集包括所述基准样本所对应的用户流失结果；

聚类处理模块，用于基于预测样本和基准样本所对应的特征数据对所述指定信息集中的各预测样本及基准样本进行聚类处理，得到多个聚簇；

参考样本确定模块，用于对任一聚簇，统计聚簇内所述用户流失结果所对应的基准样本的数量，将基准样本的数量满足预设要求的用户流失结果所对应的基准样本作为相应聚簇的参考样本；

第一预测模块，用于根据相应聚簇的参考样本所对应的用户流失结果确定相应聚簇的表征用户流失结果；

权重确定模块，用于对于任一预测样本，根据预测样本与相应聚簇中所述参考样本之间的相似度确定相应预测样本的标签权重；

标签确定模块，用于根据预测样本所在聚簇的表征用户流失结果以及预测样本所对应的所述标签权重，确定相应预测样本的预测标签值；

资源调整模块，用于在基于所述基准样本以及关联了预测标签值的预测样本评估目标用户得出的稳定值低于预设稳定值的情况下，调整提供给所述目标用户的系统资源。

9.根据权利要求8所述的装置，其特征在于，所述权重确定模块还用于采用下述方式确定预测样本的标签权重：

10.一种系统资源调整设备，其特征在于，应用于服务器，所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器，所述指令被所述处理器执行时实现包括上述权利要求1-7任一项所述方法的步骤。