CN112884028A - 一种系统资源调整方法、装置及设备 - Google Patents

一种系统资源调整方法、装置及设备 Download PDF

Info

Publication number
CN112884028A
CN112884028A CN202110148403.0A CN202110148403A CN112884028A CN 112884028 A CN112884028 A CN 112884028A CN 202110148403 A CN202110148403 A CN 202110148403A CN 112884028 A CN112884028 A CN 112884028A
Authority
CN
China
Prior art keywords
sub
sample set
prediction
classifiers
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110148403.0A
Other languages
English (en)
Inventor
陈李龙
王娜
强锋
倪灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110148403.0A priority Critical patent/CN112884028A/zh
Publication of CN112884028A publication Critical patent/CN112884028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例涉及人工智能技术领域,具有公开了一种系统资源调整方法、装置及设备,所述方法包括获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;指定信息集至少包括预测样本集及基准样本集;标签集包括基准样本集中的各基准样本所对应的用户流失结果;利用基准样本集及标签集对应构建得到多个子分类器;调取预测样本集所对应的相似性矩阵,以利用相似性矩阵构建子分类器对预测样本集的预测样本进行用户流失预测的相似性损失;结合子分类器所对应的相似性损失,利用预测样本集对相应的子分类器进行优化,得到优化后的子分类器,以基于所述优化后的子分类器评估目标用户得出的稳定值,进而调整提供给所述目标用户的系统资源。

Description

一种系统资源调整方法、装置及设备
技术领域
本说明书涉及人工智能技术领域,特别地,涉及一种系统资源调整方法、装置及设备。
背景技术
随着大数据服务平台技术的快速发展,金融服务类型以及可选择的服务渠道也越来越多样化、越来越便捷,使得用户的选择机会越来越多,相应的,金融机构的用户也越来越不稳定。为了有效挽留用户,金融机构的服务系统通常需要进行大量的数据分析以及资源调整,以使提供给用户的资源更符合用户的需求。在此基础上,各应用场景下的用户稳定性预测对系统资源调整的准确性是非常重要的。
目前常用的用户稳定性评估方法主要为基于有监督学习模型的分类方法,通过对已有的客户流失信息进行建模分析,利用训练得到的模型对新样本进行流失概率预测,以确定各用户的稳定性。但采用有监督学习模型的分类方法,需要利用已知用户流失结果的信息。但随着金融服务类型的多样化,很多情况下很难清晰划定用户的流失结果,导致预测所基于的样本数据的较难高效准确的选择,从而影响用户稳定性预测的准确性,进而影响系统资源调整的准确性以及高效性。因此,目前亟需一种更加准确高效的系统资源调整方法。
发明内容
本说明书实施例的目的在于提供一种系统资源调整方法、装置及设备,可以提高系统资源调整的准确性以及高效性。
本说明书提供一种系统资源调整方法、装置及设备是包括如下方式实现的:
一种系统资源调整方法,应用于服务器,所述方法包括:获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果;利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数;调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布;结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器,以在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
本说明书提供的所述方法的另一些实施例中,所述方法还包括:结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化;其中,所述差异性损失用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。
本说明书提供的所述方法的另一些实施例中,所述相似性矩阵采用下述方式构建:
Figure BDA0002931594230000021
si,j=exp(-λ||xi-xj||2)
其中,SU为相似性矩阵,其维度为|XU|×|XU|,|XU|为预测样本集XU中样本的数量,si,j用于表征预测样本xi和xj之间的相似性,λ为调节相似性度量的超参数。
本说明书提供的所述方法的另一些实施例中,所述相似性损失采用下述方式构建:
Figure BDA0002931594230000022
其中,Rsimi(fk(XU),SU)表示第k个子分类器对预测样本集XU的各预测样本进行用户流失预测的相似性损失,fk(·)为第k个子分类器对预测样本进行预测的判别函数,SU为相似性矩阵,xm、xn为预测样本集XU中的预测样本。
本说明书提供的所述方法的另一些实施例中,所述差异性损失采用下述方式构建:
Figure BDA0002931594230000031
其中,Rdiv(fp(XU),fq(XU))表示第p个子分类器与第q个子分类器对预测样本集XU进行用户流失预测的差异性损失,fp(·)、fq(·)分别为第p个子分类器、第q个子分类器的判别函数,|XU|预测样本集XU中样本的数量,x为预测样本集XU中的预测样本。
本说明书提供的所述方法的另一些实施例中,基于下述目标函数对各子分类器进行优化:
Figure BDA0002931594230000032
其中,L(f,XU,X,Y)为目标函数,f表示各子分类器,T为子分类器的数量,j、k、p、q为子分类器的标号,fj(·)、fk(·)、fp(·)、fq(·)分别为第j、k、p、q个子分类器的判别函数,X为基准样本集,Y为基准样本集所对应的标签集,XU为预测样本集,SU为相似性矩阵,Remp(fj(X),Y)为经验损失,Rsimi(fk(XU),SU)表示相似性损失,Rdiv(fp(XU),fq(XU))表示差异性损失,α、λ为超参数。
本说明书提供的所述方法的另一些实施例中,所述特征数据包括时间序列聚合特征以及时间序列历史特征;其中,所述时间序列聚合特征是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据;所述时间序列历史特征包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。
另一方面,本说明书实施例还提供一种系统资源调整装置,应用于服务器,所述装置包括:数据获取模块,用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果;分类器构建模块,用于利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数;分布特征调取模块,用于调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布;分类器优化模块,用于结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器;资源调整模块,用于在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
本说明书提供的所述装置的另一些实施例中,所述分类器优化模块还用于结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化;其中,所述差异性损失用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。
另一方面,本说明书实施例还提供一种系统资源调整设备,应用于服务器,所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。
本说明书一个或多个实施例提供的系统资源调整方法、装置及设备,通过先利用已知用户流失结果的样本数据初始化T个子分类器,再利用大量未知用户流失结果的预测样本之间潜在的数据分布信息优化分类器,计算预测样本之间的相似性矩阵,利用相似性矩阵构造预测样本之间的相似性损失,使在特征空间中分布相近的预测样本在输出空间中也尽可能相似,从而使分类器学习到预测样本的整体分布信息,使分类边界尽可能通过样本空间中的低密度区域。进一步的,还可以利用预测样本构造差异性损失,以最大化子分类器在预测样本上的多样性,从而构造出高多样性的子分类器,防止所有子分类器的结果趋于一致,避免分类器被噪声样本干扰。从而可以使得用户流失预测结果更符合用户流失规律,进而提高用户资源调整的准确性,实现有效挽留用户、及降低资源损失等目的。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本说明书提供的一种系统资源调整方法实施例的流程示意图;
图2为本说明书提供的一个实施例中的用户流失预测模型的构建示意图;
图3为本说明书提供的一个实施例中的系统资源调整方法的流程示意图;
图4为本说明书提供的另一种系统资源调整装置的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是说明书一部分实施例,而不是全部的实施例。基于说明书一个或多个实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书实施例方案保护的范围。
本说明书实施例提供的一个场景示例中,所述系统资源调整方法可以应用于执行系统资源调整的设备,所述设备可以包括一个服务器,也可以包括多个服务器组成的服务器集群。对于目标用户,服务器可以对目标用户的多种信息提取特征数据,作为目标用户的测试数据,然后,利用预先配置的算法或者模型等对目标用户进行稳定性评估,得到目标用户的稳定性评估结果,以基于该稳定性评估结果对金融机构的资源进行适应性的调整。所述系统资源如可以包括提供或者推荐给用户的服务、产品等数据资源。通常各用户所关联的上述数据资源还会占用一定的系统硬件资源,通过合理调配用户所关联的数据资源,还可以进一步提升数据资源分配合理性,挽留用户的同时,还可以进一步提升金融机构服务系统的整体性能。
图1是本说明书提供的所述系统资源调整方法实施例流程示意图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者部分合并后更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例或附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置、服务器或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境、甚至包括分布式处理、服务器集群的实施环境)。具体的一个实施例如图1所示,本说明书提供的系统资源调整方法的一个实施例中,所述方法可以应用于所述数据处理设备,所述方法可以包括如下步骤:
S20:获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果。
服务器可以获取指定信息集及标签集。所述指定信息集可以包括多个样本数据。所述样本数据可以包括用于表征用户流失特征的特征数据。相应的,所述指定信息集可以为由用于表征用户流失特征的特征数据所组成的数据集。所述特征数据如可以为基于金融机构的业务系统中存储用户的业务数据提取得到的特征数据。可以通过特征工程进行特征提取。特征数据的提取方式及特征类型可以根据实际应用场景设定,这里不做限定。当然,也可以包括服务器从与金融机构的关联平台中获取的用户信息提取得到的特征数据。
一些实施例中,所述样本数据可以为预测样本或基准样本。所述预测样本可以为未知用户流失结果的样本数据。所述基准样本可以为已知用户流失结果的样本数据。相应的,所述指定信息集至少可以包括预测样本集及基准样本集。所述标签集可以包括各基准样本所对应的用户流失结果。所述用户流失结果如可以包括用户已流失、用户未流失等。如为了便于处理,可以设置单个样本数据与单个用户相对应。相应的,可以分别提取已知流失结果的用户的特征数据以及未知流失结果的用户的特征数据,构建基准样本以及预测样本。并将基准样本以及预测样本所对应的特征数据与用户标识进行关联后,分别存储至指定信息集的基准样本集以及预测样本集中。将基准样本所对应的用户流失结果与用户标识关联后,存储至标签集中。
实际应用场景中,用户可能在当前金融机构办理了不止一种业务产品或者业务服务。而业务产品或者业务服务类型也繁杂多样,有些可能属于持续性的,如存款等;而有些可能属于单次办理的,如贷款、理财等。对于不同的业务产品或者业务服务,可能需要制定不同的用户流失结果判定方式。如对应存款,用户的账户内余额已经低于预设的余额阈值,且经过指定时间长度该用户的账户也没有资金流转,则可以认为对于存款业务,该用户为已流失用户。用户的账户内资金流转频率大于频率阈值或者余额大于余额阈值,则可以认为该用户为未流失用户。对于理财产品,用户在当前金融机构的理财产品均已到期,且用户在经过一段时间也并未再办理任何理财产品,则可以认为对于理财产品,该用户为已流失用户。或者,用户在当前金融机构的理财产品未到期,则可以认为该用户为未流失用户。或者,也可以综合多个业务产品或业务场景判断用户的流失结果。当然,上述流失结果判断方式仅为优选举例说明,实际应用场景中,可以根据需要灵活配置,这里不做限定。
不同产品或者服务所对应的用户的信息特征通常存在较大的差异性,也可以通过区分产品或者服务进行指定信息集的构建,进而基于相应的指定信息集进行用户稳定性预测以及系统资源调整,可以使得预测结果更符合实际应用场景,进而提高预测准确性。对于部分新型产品或者服务,可能对应的用户量较少,相应的,可以获取与该产品或者服务特征较为相近的产品或者服务作为指定产品或者指定服务,然后,获得该指定产品或者指定服务所对应的用户的信息,构建指定信息集。当然,上述实施方式仅为优选举例说明,具体实施时也可以采用其他指定信息集构建方式。
可以将预先构建信息集进行本地存储、或者存储至数据库中。服务器可以在系统资源调整或者预测模型构建时,提取指定信息集。若构建的信息集是指指定产品或者指定服务场景所对应的用户的信息所组成的信息集,则可以为各指定信息集设定信息集标识。相应的,服务器可以根据当前测试场景的需要,获取相应信息集标识所对应的指定信息集,以用于当前测试场景下的系统资源调整。业务系统内的业务数据较大部分更新速度较快,相应的,可以间隔一段时间对指定信息集及标签集进行动态更新,以保证信息集内的信息的准确性。
S22:利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数。
可以对基准样本集中基准样本进行随机划分,得到多个子集合。子集合的数量可以为大于等于3的奇数。子集合中的基准样本尽量保证不重合。然后,可以分别利用各子集合以及所述标签集构建子分类器,得到多个子分类器,相应的,子分类器的数量为大于等于3的奇数。当然,也可以采用其他的子分类器构建方式,如除了用于构建子分类器的子集合外,还可以单独划分出一部分基准样本,作为验证样本集,对子分类器进行验证以及初步优化等。
在构建子分类器的过程中,可以根据需要自行选择分类算法。如贝叶斯、支持向量机、神经网络等。
通过利用已知用户流失结果的样本数据初步构建子分类器,可以最大化子分类器在已知分类结果的样本数据上的拟合程度,初步保证构建的子分类器在分类上的准确导向。
S24:调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布。
服务器还可以调取预先构建的所述预测样本集所对应的相似性矩阵。所述相似性矩阵可以用于表征所述预测样本集中各预测样本在用户流失特征空间下的接近程度分布。可以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失。
实际应用中大部分用户数据是没有流失结果的,或者是否流失的状态是很难确定的,而这部分数据又蕴含了大量用户的数据分布特征,通过分析该部分用户的数据分布特征,结合其分布特征对分类器进行优化调整,可以使得最终构建的预测模型泛化性更高,分类结果更贴近实际用户流失规律。目前多数预测方法在结合该部分数据时,通常采用基于已知用户流失结果的用户数据为该部分数据赋予伪标签,然后,再将被赋予了伪标签的用户数据视为已知用户流失结果的样本数据,进行预测模型的构建。基于该种方式进行模型构建时,伪标签的赋予过度依赖于已知用户流失结果的用户数据;同时,伪标签与实际用户流失结果之间的差异性通常也很难保证,使得预测模型构建时的噪声也比较大,影响了预测结果的准确性。
本实施例通过利用大量未知用户流失结果的样本数据之间潜在的数据分布信息,计算各预测样本之间的相似性矩阵,利用相似性矩阵构造无预测样本之间的相似性损失,使在用户流失特征空间中分布相近的预测样本在输出空间中也尽可能相似,从而可以使分类器学习到预测样本的整体分布信息,使分类边界尽可能通过样本空间中的低密度区域,提高最终得到模型的用户流失预测准确性。
一些实施例中,所述相似性矩阵可以采用下述方式构建,
Figure BDA0002931594230000081
si,j=exp(-λ||xi-xj||2)
其中,SU为相似性矩阵,其维度为|XU|×|XU|,|XU|为预测样本集XU中样本的数量,si,j用于表征预测样本xi和xj之间的相似性,λ为调节相似性度量的超参数。通过该种方式构建相似性矩阵,可以进一步提高预测样本在用户流失空间的接近程度分布确定的准确性,进而提高用户流失预测的准确性。当然,上述相似性矩阵构建方式仅为优选实施方式说明,实际应用中也可以采用其他的方式进行相似性矩阵的构建,如离散程度、集中趋势等。
一些实施例中,所述相似性损失可以采用下述方式构建:
Figure BDA0002931594230000091
其中,Rsimi(fk(XU),SU)表示第k个子分类器对预测样本集XU的各预测样本进行用户流失预测的相似性损失,fk(·)为第k个子分类器对预测样本进行预测的判别函数。相应的,fk(XU)表示利用第k个子分类器对预测样本集中的各预测样本进行预测处理,本说明书实施例中其他表达形式的判别函数的解释可以参考该解释进行,不做赘述。SU为相似性矩阵,xm、xn为预测样本集XU中的预测样本。通过上述计算模型构建相似性损失,可以使得模型优化处理更加准确高效。当然,上述相似性损失构建方式仅为优选实施方式说明,实际应用中也可以根据所采用的分类器构建算法进行相似性损失的构建,或在上述计算模型的基础上进行简单的变形等。
S26:结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器,以在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
服务器可以结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器。如可以在分类器的目标函数中结合上述相似性损失,并利用梯度下降等方法求解目标函数的优化问题,直至达到预设迭代次数或两次目标函数的输出值之差小于预设阈值,输出相应优化后的子分类器。
服务器可以基于所述优化后的子分类器评估目标用户得出的稳定性,输出目标用户的稳定值。所述稳定值可以用于表征所述目标用户在未来一段时间内的流失可能性。在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,可以调整提供给所述目标用户的系统资源。所述预设稳定值可以根据实际应用场景需要进行预先设定。如预测用户在未来一段时间流失的可能性较大,则可以调整提供给所述目标用户的系统资源,尽量提供一些可以挽留用户的资源。
所述系统资源如可以包括提供或者推荐给用户的服务、产品等数据资源。通常各用户所关联的上述数据资源还会占用一定的系统硬件资源,通过合理调配用户所关联的数据资源,还可以进一步提升数据资源分配合理性,挽留用户的同时,还可以进一步提升金融机构服务系统的整体性能。
另一些实施例中,服务器还可以结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化。其中,所述差异性损失可以用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。利用预测样本构造差异性损失,可以最大化子分类器在预测样本上的多样性,从而构造出高多样性的子分类器,防止各子分类器的结果趋于一致,同时还可以避免子分类器被噪声样本干扰,提高分类器整体预测的准确性。
一些实施例中,所述差异性损失可以采用下述方式构建:
Figure BDA0002931594230000101
其中,Rdiv(fp(XU),fq(XU))表示第p个子分类器与第q个子分类器对预测样本集XU进行用户流失预测的差异性损失,fp(·)、fq(·)分别为第p个子分类器、第q个子分类器的判别函数,|XU|预测样本集XU中样本的数量,x为预测样本集XU中的预测样本。通过上述计算模型构建相似性损失,可以使得模型优化处理更加准确高效。当然,上述差异性损失构建方式仅为优选实施方式说明,实际应用中也可以根据所采用的分类器构建算法进行差异性损失的构建,或在上述计算模型的基础上进行简单的变形等。
一些实施方式中,可以同时结合差异性损失及相似性损失对子分类器进行优化。优选的,如可以基于下述目标函数对各子分类器进行优化,
Figure BDA0002931594230000102
其中,L(f,XU,X,Y)为目标函数,f表示各子分类器,T为子分类器的数量,j、k、p、q为子分类器的标号,fj(·)、fk(·)、fp(·)、fq(·)分别为第j、k、p、q个子分类器的判别函数,X为基准样本集,Y为基准样本集所对应的标签集,XU为预测样本集,SU为相似性矩阵,Remp(fj(X),Y)为经验损失,Rsimi(fk(XU),SU)表示相似性损失,Rdiv(fp(XU),fq(XU))表示差异性损失,α、λ为超参数。
本实施例中,可以通过最小化经验损失、相似性损失和差异性损失迭代优化T个子分类器。然后,可以基于优化的T个子分类构建用户流失预测模型。相应的,用户流失预测模型的判别函数f*可以表示为,
f*=argminfL(f,XU,X,Y)
其中,argmin表示求解目标函数L(f,XU,X,Y)的最小值。
若用户流失预测结果为两种,流失ω1或不流失ω2,则目标用户所对应的测试数据x的预测结果可以表示为,
Figure BDA0002931594230000111
其中,sign为符号函数。即,最终模型的输出结果由T个子分类器投票得到。
上述实施例,通过综合考虑大量预测样本之间的空间分布信息,使得模型的分类边界具有更好的泛化能力,同时利用预测样本还可以提升子分类器的多样性,使得最终的集成模型具有更好的分类性能,使得用户流失预测结果更符合用户流失规律,进而提高用户资源调整的准确性,实现有效挽留用户的目的。
随着互联网金融的发展,法人客户重新选择金融服务机构的成本也越来越低。如果法人客户流失愈发严重,将会对金融机构造成不利影响,导致金融机构口碑下降,盈利减少。同时,金融机构系统针对该问题可能还需要大规模进行服务以及产品等分析,调整数据资源,以得出可以挽留用户的策略等,从而进一步导致金融机构系统硬件资源以及成本的浪费。相应的,如图2所示,本说明书实施例提供的一个实施场景中,以法人客户为例,对上述实施例提供的方案进行说明如下。
首先从数据仓库获取法人客户流失预测相关的特征信息,包括法人基本信息、法人资产信息、法人贷款信息、法人交易信息,对测试样本进行数据预处理和特征提取,利用法人的基础信息特征和存、贷时序信息特征构造指定信息集。
数据选择。可以将涉及法人客户公司存款的相关特征分为4类:法人基本信息、法人资产信息、法人贷款信息、法人交易信息。按类别可确定数据范围,从而确定涉及的数据表。
数据预处理。观察数据表中涉及法人客户公司存款、贷款信息的数据列。将不同表中涉及法人客户公司存款信息的数据列按照法人客户id、时间拼接,组成原始特征。对于数据类型不正确的列,先将其转化成正确的数据类型。比如数据类型应该数值型,但是在数据表中却设定伪字符串型,可根据数据列名的含义判断是否错误,对错误的进行转换。对于有缺失值列,按一定方式补全,如数值特征的缺失值,用“0”补全,非数值特征的缺失值,用“-1”补全。
然后,可以进行特征提取。对于类别特征,如经济性质、企业规模等,将其进行One-Hot编码,对于部分范围跨度特别大的数值特征进行分桶。
一些实施例中,所述特征数据可以包括时间序列聚合特征以及时间序列历史特征。其中,所述时间序列聚合特征可以是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据。所述时间序列历史特征可以包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。所述时间维度如可以包括取前一个月、前两个月、前三个月等等,以及前第二个月、前第三个月、前第四个月等等。所述时序特征提取算法如可以包括平均值、方差、标准差等。通过进一步结合时序特征信息进行特征数据的构建,可以更加准确的表征不同流失类型的用户的特征,进而提高系统资源分配的准确性。通过对用户的信息中随时间变化波动较为明显的信息进行时序特征分析,可以实现对用户特征的横向分析,从而大幅提高用户稳定性预测的准确性。
一些实施方式中,时间序列聚合特征Fagg可以采用下述方式提取,
Fagg=[f(feature)time,time=1,2,3,4,5,6,1-2,1-3,1-4,1-5,1-6]
f()分别取Mean()平均值、Max()最大值、Min()最小值、Std()标准差,时间段分别取前一个月、前两个月、前三个月、前四个月、前五个月、前六个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。相应的,每个存、贷特征分别衍生出44维时间序列聚合特征。
时间序列历史特征Fhis可以采用下述方式提取,
Fhis=[featuretime,time=1,2,3,4,5,6]
时间段分别取前第一个月、前第二个月、前第三个月、前第四个月、前第五个月、前第六个月。相应的,每个存、贷特征可以分别衍生出6维时间序列历史特征。
通过上述方式,根据不同时间节点上的特征信息,构建时序特征信息,使模型在学习当下时间节点的特征时,可以更好的兼顾以往的特征信息。然后,可以将通过上述方式提取的特征数据作为特征数据,构造指定信息集。指定信息集中可以包括基准样本和预测样本。然后,可以基于上述步骤S20-S26的方案,进行用户流失预测模型的构建。如图3所示,之后,可以基于构建的用户流失预测模型进行目标用户的流失预测,并基于流失预测结果进行资源调整。
上述实施例提供的方案,通过利用已知用户流失结果的样本数据初始化T个子分类器,可以最大化子分类器的拟合程度,保证子分类器的正确分类导向。之后,再利用大量未知用户流失结果的预测样本之间潜在的数据分布信息优化分类器,计算预测样本之间的相似性矩阵,利用相似性矩阵构造预测样本之间的相似性损失,使在特征空间中分布相近的预测样本在输出空间中也尽可能相似,从而使分类器学习到预测样本的整体分布信息,使分类边界尽可能通过样本空间中的低密度区域。
进一步的,还利用预测样本构造差异性损失,以最大化子分类器在预测样本上的多样性,从而构造出高多样性的子分类器,防止所有子分类器的结果趋于一致,避免分类器被噪声样本干扰。
之后,可以通过最小化经验损失、相似性损失和差异性损失迭代优化T个子分类器。最终的模型由T个子分类器投票得到,使得最终的集成模型具有更好的预测性能,使得用户流失预测结果更符合用户流失规律,进而提高用户资源调整的准确性,实现有效挽留用户的目的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。具体的可以参照前述相关处理相关实施例的描述,在此不做一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于上述所述的系统资源调整方法,本说明书一个或多个实施例还提供一种系统资源调整装置。所述的装置可以包括使用了本说明书实施例所述方法的系统、软件(应用)、模块、组件、服务器等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。具体的,图4表示说明书提供的一种系统资源调整装置实施例的模块结构示意图,如图4所示,应用于服务器,所述装置可以包括,
数据获取模块102,可以用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果。
分类器构建模块104,可以用于利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数。
分布特征调取模块106,可以用于调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布。
分类器优化模块108,可以用于结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器。
资源调整模块110,可以用于在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
另一些实施例中,所述分类器优化模块108还可以用于结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化。其中,所述差异性损失可以用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书还提供一种系统资源调整设备,所述设备可以应用于单独的系统资源调整系统中,也可以应用在多种计算机数据处理系统中。所述的系统可以为单独的服务器,也可以包括使用了本说明书的一个或多个所述方法或一个或多个实施例装置的服务器集群、系统(包括分布式系统)、软件(应用)、实际操作装置、逻辑门电路装置、量子计算机等并结合必要的实施硬件的终端装置。一些实施例中,设备可以包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述任意一个或者多个实施例所述方法的步骤。
所述存储器可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的,上述所述的设备根据方法或者装置实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
需要说明的是,本说明书实施例并不局限于必须是符合标准数据模型/模板或本说明书实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书的可选实施方案范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述并不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (10)

1.一种系统资源调整方法,其特征在于,应用于服务器,所述方法包括:
获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果;
利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数;
调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布;
结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器,以在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化;其中,所述差异性损失用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。
3.根据权利要求1所述的方法,其特征在于,所述相似性矩阵采用下述方式构建:
Figure FDA0002931594220000011
si,j=exp(-λ||xi-xj||2)
其中,SU为相似性矩阵,其维度为|XU|×|XU|,|XU|为预测样本集XU中样本的数量,si,j用于表征预测样本xi和xj之间的相似性,λ为调节相似性度量的超参数。
4.根据权利要求1所述的方法,其特征在于,所述相似性损失采用下述方式构建:
Figure FDA0002931594220000012
其中,Rsimi(fk(XU),SU)表示第k个子分类器对预测样本集XU的各预测样本进行用户流失预测的相似性损失,fk(·)为第k个子分类器对预测样本进行预测的判别函数,SU为相似性矩阵,xm、xn为预测样本集XU中的预测样本。
5.根据权利要求2所述的方法,其特征在于,所述差异性损失采用下述方式构建:
Figure FDA0002931594220000021
其中,Rdiv(fp(XU),fq(XU))表示第p个子分类器与第q个子分类器对预测样本集XU进行用户流失预测的差异性损失,fp(·)、fq(·)分别为第p个子分类器、第q个子分类器的判别函数,|XU|预测样本集XU中样本的数量,x为预测样本集XU中的预测样本。
6.根据权利要求2所述的方法,其特征在于,基于下述目标函数对各子分类器进行优化:
Figure FDA0002931594220000022
其中,L(f,XU,X,Y)为目标函数,f表示各子分类器,T为子分类器的数量,j、k、p、q为子分类器的标号,fj(·)、fk(·)、fp(·)、fq(·)分别为第j、k、p、q个子分类器的判别函数,X为基准样本集,Y为基准样本集所对应的标签集,XU为预测样本集,SU为相似性矩阵,Remp(fj(X),Y)为经验损失,Rsimi(fk(XU),SU)表示相似性损失,Rdiv(fp(XU),fq(XU))表示差异性损失,α、λ为超参数。
7.根据权利要求1所述的方法,其特征在于,所述特征数据包括时间序列聚合特征以及时间序列历史特征;其中,所述时间序列聚合特征是指对用户的指定信息基于不同的时间维度以及时序特征提取算法进行特征提取得到的数据;所述时间序列历史特征包括对用户的指定信息基于不同时间维度统计得到的时序分布数据。
8.一种系统资源调整装置,其特征在于,应用于服务器,所述装置包括:
数据获取模块,用于获取具有用于表征用户流失特征的特征数据的指定信息集、及标签集;所述指定信息集至少包括预测样本集及基准样本集;所述标签集包括基准样本集中的各基准样本所对应的用户流失结果;
分类器构建模块,用于利用所述基准样本集及所述标签集对应构建得到多个子分类器;其中,子分类器的数量为大于等于3的奇数;
分布特征调取模块,用于调取所述预测样本集所对应的相似性矩阵,以利用所述相似性矩阵构建子分类器对所述预测样本集的预测样本进行用户流失预测的相似性损失;其中,所述相似性矩阵用于表征所述预测样本集的各预测样本在用户流失特征空间下的接近程度分布;
分类器优化模块,用于结合子分类器所对应的所述相似性损失,利用所述预测样本集对相应的子分类器进行优化,得到优化后的子分类器;
资源调整模块,用于在基于所述优化后的子分类器评估目标用户得出的稳定值低于预设稳定值的情况下,调整提供给所述目标用户的系统资源。
9.根据权利要求8所述的装置,其特征在于,所述分类器优化模块还用于结合子分类器之间的差异性损失,利用所述预测样本集对各子分类器进行优化;其中,所述差异性损失用于表征任两个子分类器对所述预测样本集的预测样本进行用户流失预测的差异性特征。
10.一种系统资源调整设备,其特征在于,应用于服务器,所述设备包括至少一个处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括上述权利要求1-7任一项所述方法的步骤。
CN202110148403.0A 2021-02-03 2021-02-03 一种系统资源调整方法、装置及设备 Pending CN112884028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110148403.0A CN112884028A (zh) 2021-02-03 2021-02-03 一种系统资源调整方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110148403.0A CN112884028A (zh) 2021-02-03 2021-02-03 一种系统资源调整方法、装置及设备

Publications (1)

Publication Number Publication Date
CN112884028A true CN112884028A (zh) 2021-06-01

Family

ID=76056900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148403.0A Pending CN112884028A (zh) 2021-02-03 2021-02-03 一种系统资源调整方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112884028A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391923A (zh) * 2021-06-18 2021-09-14 上海钧正网络科技有限公司 系统资源数据分配方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296900A1 (en) * 2011-05-20 2012-11-22 Microsoft Corporation Adaptively learning a similarity model
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CA3002100A1 (en) * 2018-04-18 2019-10-18 Element Ai Inc. Unsupervised domain adaptation with similarity learning for images
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN111768457A (zh) * 2020-05-14 2020-10-13 北京航空航天大学 图像数据压缩方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120296900A1 (en) * 2011-05-20 2012-11-22 Microsoft Corporation Adaptively learning a similarity model
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
CA3002100A1 (en) * 2018-04-18 2019-10-18 Element Ai Inc. Unsupervised domain adaptation with similarity learning for images
CN110837931A (zh) * 2019-11-08 2020-02-25 中国农业银行股份有限公司 客户流失预测方法、装置及存储介质
CN111768457A (zh) * 2020-05-14 2020-10-13 北京航空航天大学 图像数据压缩方法、装置、电子设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
罗彬 等: "基于多分类器动态集成的电信客户流失预测", 系统工程学报, no. 005, 31 December 2012 (2012-12-31) *
钟健: "基于自适应网络与协同学习的提升特定域分类方法", CNKI硕士电子期刊, no. 1, 15 January 2020 (2020-01-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391923A (zh) * 2021-06-18 2021-09-14 上海钧正网络科技有限公司 系统资源数据分配方法和装置

Similar Documents

Publication Publication Date Title
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
Xiao et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction
CN112966114A (zh) 基于对称图卷积神经网络的文献分类方法和装置
US10963802B1 (en) Distributed decision variable tuning system for machine learning
US20090089228A1 (en) Generalized reduced error logistic regression method
Sina Mirabdolbaghi et al. Model optimization analysis of customer churn prediction using machine learning algorithms with focus on feature reductions
CN112836750A (zh) 一种系统资源分配方法、装置及设备
Kang et al. A CWGAN-GP-based multi-task learning model for consumer credit scoring
Florez-Lopez et al. Modelling credit risk with scarce default data: on the suitability of cooperative bootstrapped strategies for small low-default portfolios
Barthel et al. Improved evaluation and generation of grid layouts using distance preservation quality and linear assignment sorting
Li et al. Weight‐Selected Attribute Bagging for Credit Scoring
CN112884028A (zh) 一种系统资源调整方法、装置及设备
Hoffmann et al. Minimizing the expected posterior entropy yields optimal summary statistics
Zhang et al. Credit Evaluation of SMEs Based on GBDT‐CNN‐LR Hybrid Integrated Model
CN115905654A (zh) 业务数据的处理方法、装置、设备、存储介质和程序产品
Raman et al. Multigraph attention network for analyzing company relations
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
CN114281994B (zh) 一种基于三层加权模型的文本聚类集成方法及系统
CN112836749A (zh) 一种系统资源调整方法、装置及设备
CN118364317A (zh) 样本扩充方法、装置、计算机设备和可读存储介质
Nawaz Analysis of Transactional Data with Long Short-Term Memory Recurrent Neural Networks
Toçi Evaluation of Machine Learning techniques for Master Data Management
López Flores Evaluation of Neural Network and Logit Models for Classification of Default in Banking Loans
CN117151884A (zh) 资产管理数据处理方法、装置、计算机设备和存储介质
Watanabe et al. A goodness-of-fit test on the number of biclusters in a relational data matrix

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination