CN113515383B - 系统资源数据分配方法和装置 - Google Patents

系统资源数据分配方法和装置 Download PDF

Info

Publication number
CN113515383B
CN113515383B CN202110854993.9A CN202110854993A CN113515383B CN 113515383 B CN113515383 B CN 113515383B CN 202110854993 A CN202110854993 A CN 202110854993A CN 113515383 B CN113515383 B CN 113515383B
Authority
CN
China
Prior art keywords
target
training sample
sample
initial
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110854993.9A
Other languages
English (en)
Other versions
CN113515383A (zh
Inventor
袁世聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110854993.9A priority Critical patent/CN113515383B/zh
Publication of CN113515383A publication Critical patent/CN113515383A/zh
Application granted granted Critical
Publication of CN113515383B publication Critical patent/CN113515383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书涉及机器学习技术领域,具体地公开了一种系统资源数据分配方法和装置,其中,该方法包括:获取初始训练样本集;基于初始训练样本集确定样本空间中心,根据初始训练样本集和样本空间中心,构造目标训练样本集,其中,目标训练样本集中包括多个目标训练样本,多个目标训练样本围绕样本空间中心进行球形分布;计算多个目标训练样本中各目标训练样本的异常分数,依据各目标训练样本的异常分数,确定各目标训练样本的目标标签,得到目标训练样本集对应的目标标签集;利用目标标签集,构建目标分类器,以基于目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。上述方案可以提高系统资源数据分配的准确性以及高效性。

Description

系统资源数据分配方法和装置
技术领域
本说明书涉及机器学习技术领域,特别涉及一种系统资源数据分配方法和装置。
背景技术
随着大数据服务平台技术的快速发展,金融资源数据服务类型以及可选择的服务渠道也越来越多样化、越来越便捷,用户的风险预测对于金融机构也变得越来越重要。如对于一些服务渠道较为便捷的线上贷款业务,因人工介入相对较少,如果用户风险预测不够准确,则可能会存在资源数据分配不合理、用户体验感较差等问题。
目前,已经开始在反欺诈场景中使用机器学习和深度学习技术进行建模,以对交易中存在的欺诈风险进行管控。在目前的建模过程中,遇到的最多的技术问题之一,就是样本的不平衡问题。这很好理解,在通过业务获取的正常的数据集当中,绝大部分的样本都应该是正常样本,即非欺诈样本,只有非常少数的样本是黑样本,即欺诈样本。例如,27万个样本中可能只有10个黑样本,这种比例是很难使用机器学习的方法建模的。
目前主流的解决样本不平衡的方法只要有过采样和欠采样两种。这两种方法各自都有问题,过采样本质上就是重复使用数据集中的少数样本,这样必然导致训练出的模型过拟合,影响最终应用时的泛化能力,而欠采样其实就是随机丢弃一些正常样本,但是这样往往会导致在损失一些有用信息,从而导致训练的模型准确度不高,以及导致分配给相应用户资源数据的准确性,进而可能导致资源数据分配不合理,降低了用户的使用体验感。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书实施例提供了一种系统资源数据分配方法和装置,可以提高系统资源数据分配的准确性以及高效性。
本说明书实施例提供了一种系统资源数据分配方法,包括:获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据;基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布;计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别;利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
在一个实施例中,所述初始训练样本包括多个维度的特征,相应的,基于所述初始训练样本集确定样本空间中心,包括:将所述多个维度中各维度的特征的平均值组成所述样本空间中心。
在一个实施例中,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,包括:将所述初始训练样本集输入训练好的自编码器,输出所述目标训练样本集;其中,所述训练好的自编码器是通过目标函数训练优化得到的,所述目标函数用于使目标训练样本距所述样本空间中心的距离最小。
在一个实施例中,所述目标函数为:
其中,M为所述目标函数,W为自编码器的待训练的参数,xi为第i个初始训练样本,表示将xi与W进行线性组合得到的目标训练样本,n为初始训练样本的总个数,c为所述样本空间中心,λ为正则化参数,L为自编码器对应的神经网络的层数,||·||F表示Frobenius范数。
在一个实施例中,计算所述多个目标训练样本中各目标训练样本的异常分数,包括:按照以下公式计算所述各目标训练样本的异常分数:
s(x)=||φ(x;W*)-c||2
其中,s为所述异常分数,为初始训练样本x对应的目标训练样本,c为所述样本空间中心,W*为所述自编码器的训练好的参数。
在一个实施例中,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,包括:获取预设黑样本比例;将所述预设黑样本比例和所述目标训练样本集中的目标训练样本的总数量相乘,得到第一数量;将所述各目标训练样本的异常分数进行降序排列,并将排在前面的所述第一数量的目标训练样本的目标标签确定为有风险。
在一个实施例中,基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据,包括:获取目标用户的初始特征数据;将所述目标用户的初始特征数据输入所述训练好的自编码器,得到目标特征数据;将所述目标特征数据输入所述目标分类器中,得到所述目标用户的风险预测结果;基于所述目标用户的风险预测结果向所述目标用户分配系统资源数据。
本说明书实施例还提供了一种系统资源数据分配装置,包括:获取模块,用于获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据;构造模块,用于基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布;确定模块,用于计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别;构建模块,用于利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
本说明书实施例还提供一种计算机设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述任意实施例中所述的系统资源数据分配方法的步骤。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述任意实施例中所述的系统资源数据分配方法的步骤。
在本说明书实施例中,提供了一种系统资源数据分配方法,服务器可以获取初始训练样本集,初始训练样本集包括多个具有表征用户风险特征的特征数据的初始训练样本,可以基于初始训练样本集确定样本空间中心,根据初始训练样本集和样本空间中心,构造目标训练样本集,目标训练样本集中的多个目标训练样本围绕样本空间中心进行球形分布,之后可以计算多个目标训练样本中各目标训练样本的异常分数,依据各目标训练样本的异常分数,确定各目标训练样本的目标标签,得到目标训练样本集对应的目标标签集,异常分数可以用于表征目标训练样本距离样本空间中心的距离远近,之后可以利用目标标签集,构建目标分类器,目标分类器可以用于对目标用户的风险类别进行预测,可以基于目标用户的风险类别向目标用户分配系统资源数据。上述方案中,对于样本不平衡的初始训练样本集重构数据集的样本空间,使得重构得到的目标训练样本集中的目标训练样本围绕设定好的样本空间中心点,之后可以计算各目标训练样本的异常分数,异常分数可以表征各训练样本距离样本空间中心的距离远近,之后可以根据异常分数确定目标训练样本的标签,可以将距离中心较远的样本确定为黑样本,从而提高黑样本的比例,改善样本不平衡的问题,之后利用数据集和重构的标签集进行模型训练,得到的目标分类器能够准确地预测目标用户的风险类别,从而可以提高系统资源数据分配的准确性以及高效性。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,并不构成对本说明书的限定。在附图中:
图1示出了本说明书一实施例中的系统资源数据分配方法的流程图;
图2示出了本说明书一实施例中的自编码器的示意图;
图3示出了本说明书一实施例中的反欺诈场景整个模型训练的流程图;
图4示出了本说明书一实施例中的样本不平衡的处理方案的流程图;
图5示出了本说明书一实施例中的系统资源数据分配装置的示意图;
图6示出了本说明书一实施例中的计算机设备的示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本说明书的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本说明书,而并非以任何方式限制本说明书的范围。相反,提供这些实施方式是为了使本说明书公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域的技术人员知道,本说明书的实施方式可以实现为一种系统、装置设备、方法或计算机程序产品。因此,本说明书公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
本说明书实施例提供了一种系统资源数据分配方法。在本说明书的一个场景示例中,服务器可以获取初始训练样本集。初始训练样本集可以包括多个具有表征用户风险特征的特征数据的初始训练样本。服务器可以基于初始训练样本集确定样本空间中心。之后,可以根据初始训练样本集和样本空间中心,构造目标训练样本集,目标训练样本集中的多个目标训练样本围绕样本空间中心进行球形分布。之后,服务器可以计算多个目标训练样本中各目标训练样本的异常分数。异常分数可以用于表征目标训练样本距离样本空间中心的距离远近。服务器可以依据各目标训练样本的异常分数,确定各目标训练样本的目标标签,得到目标训练样本集对应的目标标签集。之后,服务器可以利用目标训练样本集和目标标签集,构建目标分类器。目标分类器可以用于对目标用户的风险类别进行预测,可以基于目标用户的风险类别向目标用户分配系统资源数据。
图1示出了本说明书一实施例中系统资源数据分配方法的流程图。虽然本说明书提供了如下述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本说明书实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
具体地,如图1所示,本说明书一种实施例提供的系统资源数据分配方法可以包括以下步骤。
步骤S101,获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据。
本说明书实施例中的方法可以应用于服务器。上述服务器可以是单一的服务器,也可以是服务器集群,或者是云服务器等都可以,具体的组成形成本申请不作限定。服务器可以获取初始训练样本集。初始训练样本集可以包括多个初始训练样本。初始训练样本可以包括用于表征用户风险特征的特征数据。特征数据如可以为基于金融机构的业务系统中存储用户的业务数据提取得到的特征数据。可以通过特征工程进行特征提取。特征数据的提取方式及特征类型可以根据实际应用场景设定,这里不做限定。当然,也可以包括服务器从与金融机构的关联平台中获取的用户信息提取得到的特征数据。
可以将预先构建的初始训练样本集进行本地存储、或者存储至数据库中。服务器可以在系统资源数据分配或者预测模型构建时,提取初始训练样本集。若构建的初始训练样本集是对应指定产品或者指定服务场景所对应的用户的信息所组成的信息集,则可以为各初始训练样本集设定标识。相应的,服务器可以根据当前测试场景的需要,获取相应标识所对应的初始训练样本集,以用于当前测试场景下的系统资源数据分配。目前业务系统内的业务数据较大部分更新速度较快,相应的,可以间隔一段时间对初始训练样本集进行动态更新,以保证信息集内的信息的准确性,进而提高预测的准确性。
步骤S102,基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布。
在获得初始训练样本集之后,可以确定样本空间中心。初始训练样本中的特征数据可以包括多个维度的特征。相应的,样本空间为多维空间。在一个实施方式中,针对多个特征中的各特征,确定出分布概率最大的特征值,将各特征的分布概率最大的特征值组成样本空间中心。之后,可以根据初始训练样本集和样本空间中心,构建目标训练样本集,使得目标训练样本集中的多个目标训练样本中各目标训练样本围绕样本空间中心进行球形分布。
步骤S103,计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别。
在得到目标训练样本集之后,可以计算多个目标训练样本中各目标训练样本的异常分数。异常分数可以用于表征目标训练样本距离样本空间中心的距离的远近。距离越远,异常分数越大,距离越近,异常分数越小。之后,可以依据各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到目标训练样本集对应的目标标签集。风险类别可以为有风险、无风险等,也可以为高风险、中风险、低风险等风险等级。
在一个实施方式中,可以将异常分数大于预设分数的目标训练样本的标签设置为有风险,将异常分数不大于预设分数的目标训练样本的标签设置为无风险。
在另一个实施方式中,可以将异常分数大于第一预设分数的目标训练样本的标签设置为高风险,将异常分数大于第二预设分数但不大于第一预设分数的目标训练样本的标签设置为中风险,将异常分数小于第二预设分数的目标训练样本的标签设置为低风险。
在另一个实施方式中,可以按照异常分数对目标训练样本集中的多个目标训练样本进行降序排列,将排在前面预设位数的目标训练样本的标签设置为有风险。
在另一个实施方式中,可以按照异常分数对目标训练样本集中的多个目标训练样本进行降序排列,将排在前面第一预设位数的目标训练样本的标签设置为有风险,将排在后面第二预设位数的目标训练样本的标签设置为低风险,将排在中间的其他目标训练样本的标签设置为中风险。
步骤S104,利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
在得到目标训练样本集对应的目标标签集之后,可以利用目标训练样本集和目标标签集,构建目标分类器,也可以利用初始训练样本集和目标标签集,构建目标分类器。即,可以利用目标训练样本集或初始训练样本集和目标标签集进行模型训练,得到训练好的目标分类器。目标分类器可以用于对用户的风险类别进行预测。在一个实施例中,可以获取目标用户的特征数据,将特征数据输入目标分类器,得到目标风险类别。之后,可以基于目标风险类别进行系统资源数据分配。
上述实施例中的方法,对于样本不平衡的初始训练样本集重构数据集的样本空间,使得重构得到的目标训练样本集中的目标训练样本围绕设定好的样本空间中心点,之后可以计算各目标训练样本的异常分数,异常分数可以表征各训练样本距离样本空间中心的距离远近,之后可以根据异常分数确定目标训练样本的标签,可以将距离中心较远的样本确定为黑样本,从而提高黑样本的比例,改善样本不平衡的问题,之后利用数据集和重构的标签集进行模型训练,得到的目标分类器能够准确地预测目标用户的风险类别,从而可以提高系统资源数据分配的准确性以及高效性。
在本说明书一些实施例中,所述初始训练样本可以包括多个维度的特征,相应的,基于所述初始训练样本集确定样本空间中心,可以包括:将所述多个维度中各维度的特征的平均值组成所述样本空间中心。
具体地,初始训练样本中可以包括多个维度的特征。在确定样本空间中心时,可以将多个维度中各维度的特征的平均值组成所述样本空间中心。通过上述方式,可以方便简单地确定出样本空间中心。
在本说明书一些实施例中,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,可以包括:将所述初始训练样本集输入训练好的自编码器,输出所述目标训练样本集;其中,所述训练好的自编码器是通过目标函数训练优化得到的,所述目标函数用于使目标训练样本距所述样本空间中心的距离最小。
具体地,可以将初始训练样本集输入训练好的自编码器,输出目标训练样本集。其中,训练好的自编码器是通过目标函数训练优化得到的。请参考图2,示出了本说明书一实施例中的自编码器的示意图。所谓的自编码器,可以认为是一个神经网络,如图2所示。这个神经网络的特殊之处在于,其输入层和输出层是一样的维度。所以这个神经网络的作用不是通常的分类或者输出一个数值,而是重构输入数据集的样本空间,也就是说把数据集输入到这个训练好的自编码器,然后得到一个新的数据集,即目标训练样本集。目标训练样本集是围绕着所确定的样本空间中心进行球形分布的,离这个中心越远,则这个目标训练样本异常的概率越高。
如图2所示,自编码器是一个多层的全连接神经网络。由于附图大小受限制的原因,图2中的每个神经元都代表实际中的10个神经元。图2中的输入层和输出层的神经元个数都是137个,对应的是数据集包括137个维度的特征。图2中的中间的隐藏层有4层,分别为128维,64维,64维,128维。每一层之间使用的激活函数都是ReLU,优化器中的优化方法选择的是自适应法Adam方法,即计算每个参数的对应动量变化并独立存储。
在本说明书一些实施例中,所述目标函数为:
其中,M为所述目标函数,W为自编码器的待训练的参数,xi为第i个初始训练样本,表示将xi与W进行线性组合得到的目标训练样本,n为初始训练样本的总个数,c为所述样本空间中心,λ为正则化参数,L为自编码器对应的神经网络的层数,||·||F表示Frobenius范数。
上述实施例中,目标函数的加号前的一部分的是样本和参数W进行线性组合,得到新的样本空间中的点,即目标训练样本,再计算所有新生成的点到中心c的平均距离。为了保证不取负值,把结果平方化。目标函数的加号后的一项就是正则化项。整个式子求最小值,就是基于目标函数对自编码器进行训练。
在本说明书一些实施例中,计算所述多个目标训练样本中各目标训练样本的异常分数,可以包括:按照以下公式计算所述各目标训练样本的异常分数:
s(x)=||φ(x;W*)-c||2
其中,s为所述异常分数,为初始训练样本x对应的目标训练样本,c为所述样本空间中心,W*为所述自编码器的训练好的参数。
在本说明书一些实施例中,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,可以包括:获取预设黑样本比例;将所述预设黑样本比例和所述目标训练样本集中的目标训练样本的总数量相乘,得到第一数量;将所述各目标训练样本的异常分数进行降序排列,并将排在前面的所述第一数量的目标训练样本的目标标签确定为有风险。
具体地,服务器可以获取预设黑样本比例。其中,预设黑样本比例可以是人工设置的,也可以是服务器根据初始训练样本集中的总样本数按照预设算法计算得到的。服务器可以将预设黑样本比例和目标训练样本集中的目标训练样本的总数量相乘,得到第一数量。之后,可以将各目标训练样本的异常分数进行降序排列,并将排在前面的第一数量的目标训练样本的目标标签确定为有风险。通过上述方式,可以将异常分数较高的一部分白样本转换为黑样本,可以缓解样本不平衡问题,使得基于目标训练样本集和目标标签集训练的模型的准确率提高。
考虑到异常分数较低的一些目标训练样本对应的初始训练样本可能为黑样本,如果直接将异常分数较低的样本确定为白样本可能造成模型训练不准确,因此服务器可以获取初始训练样本集对应的初始标签集。初始标签集中包括初始训练样本集中各初始训练样本对应的初始标签,用于表征各初始训练样本对应的风险类别。在本说明书的一些实施例中,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,可以包括:获取预设黑样本比例;将所述预设黑样本比例和所述目标训练样本集中的目标训练样本的总数量相乘,得到第一数量;将所述各目标训练样本的异常分数进行降序排列,并将排在前面的所述第一数量的目标训练样本的目标标签确定为有风险,将所述目标训练样本集中除所述第一数量的目标训练样本之外的目标训练样本的目标标签确定为对应初始训练样本的初始标签,得到目标标签集。通过上述方式,可以得到目标标签集,使得基于目标标签集训练得到的模型更加准确。
在进行模型训练的情况下,可以利用目标训练样本集和目标标签集进行模型训练,得到目标分类器,也可以利用初始训练样本集和目标标签集进行模型训练,得到目标分类器。
在利用初始训练样本集和目标标签集进行模型训练的情况下,可以将目标训练样本的目标标签确定为对应初始训练样本的标签,从而进行训练。
在利用目标训练样本集和目标标签集进行模型训练的情况下,得到目标分类器之后,需要将特征数据转换为目标训练样本对应的格式。因此,在本说明书一些实施例中,基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据,可以包括:获取目标用户的初始特征数据;将所述目标用户的初始特征数据输入所述训练好的自编码器,得到目标特征数据;将所述目标特征数据输入所述目标分类器中,得到所述目标用户的风险预测结果;基于所述目标用户的风险预测结果向所述目标用户分配系统资源数据。通过上述方式,可以基于目标分类器对目标用户的风险类别进行预测,从而更好地向目标用户分配系统资源,提高资源分配的高效性和准确性,提高资源利用率。
下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本说明书,并不构成对本说明书的不当限定。
本具体实施例中,提供了一种系统资源分配方法,可以基于深度学习中反欺诈场景中解决样本不平衡的问题,用于提高反欺诈场景的风险预测模型的准确度。
请参考图3,示出了本说明书一实施例中的反欺诈场景整个模型训练的流程图。如图3所示,本实施例所涉及的是到特征工程之前的步骤,主要是解决数据集中的样本不平衡问题,包括的步骤:首先从数据仓库中获取业务提供的与反欺诈相关的交易特征信息,对数据集中的进行数据预处理。然后使用本实施例提供的样本不平衡的处理方法对数据集进行改造,通过特征工程构造特征,最后用模型针对新生成的数据集进行训练得到预测模型,使用模型得到预测结果。本实施例涉及的主要是特征工程之前的步骤,下面也会重点针对这部分进行说明。
请参考图4,示出了本说明书一实施例中的样本不平衡的处理方案的流程图。如图4所示,可以由原来的样本空间,通过一个深度神经网络的自编码器形成一个新的围绕设定好的中心的超球面,然后将超球面外的异常样本传换成黑样本。以下对上述流程涉及的各部分进行说明:
1.“数据预处理”部分处理步骤如下:
1.1数据选取。本实施例选择的交易可以是发生在2019年1月3日到2019年12月29日之间的交易。将反欺诈交易风险预测相关特征分为两类类:交易基本信息、交易双方的账户信息。按类别可以确定数据范围从而确定涉及的数据表。
1.2数据预处理。观察不同表中涉及交易基本信息和交易双方账户信息的数据列。将不同表中的相关的数据列按照交易id拼接,组成原始特征。对于有缺失值列,按一定规则补全,具体为:除了过去一段时间内交易频率的相关比例,过去一段时间内交易金额的相关比例和过去一段时间内交易账号数量的相关比例这三类数据的空值使用最大值填充,其他所有数据列都使用0值填充空值。
2.“样本不平衡处理”的相关步骤如下:
2.1确定样本空间中心。样本中心的选取根据数据集和建模任务的不同会有变化。在一些图像识别的任务中,会以数据集当中每个类别的最清晰的图片为样本中心。在本发明中,选取的是以每个维度的特征的平均值为坐标,组成样本空间的中心。
2.2构造自编码器。请参考图2,示出了本说明书一实施例中的自编码器的示意图。所谓的自编码器,可以认为是一个神经网络,如图2所示。这个神经网络的特殊之处在于,其输入层和输出层是一样的维度。所以这个神经网络的作用不是通常的分类或者输出一个数值,而是重构输入数据集的样本空间,也就是说把数据集输入到这个训练好的自编码器,然后得到一个新的数据集,即目标训练样本集。目标训练样本集是围绕着所确定的样本空间中心进行球形分布的,离这个中心越远,则这个目标训练样本异常的概率越高。
如图2所示,自编码器是一个多层的全连接神经网络。由于附图大小受限制的原因,图2中的每个神经元都代表实际中的10个神经元。图2中的输入层(Input Layer)和输出层(Output Layer)的神经元个数都是137个,对应的是数据集包括137个维度的特征。图2中的中间的隐藏层(Hidden Layer)有4层,分别为128维,64维,64维,128维。每一层之间使用的激活函数都是ReLU,优化器中的优化方法选择的是自适应法Adam方法,即计算每个参数的对应动量变化并独立存储。
2.3构造目标函数。自编码器训练优化的目标函数公式(1)所示,函数中的c代表样本中心,xi代表数据集中的样本,这个目标函数第一项要求所有样本提取到的特征都要离中心尽可能近,第二项为L2正则化。通过优化上述目标函数让所有样本的平均距离都距离中心越近,在此过程中网络也会学到共有特征。
其中,M为所述目标函数,W为自编码器的待训练的参数,xi为第i个初始训练样本,表示将xi与W进行线性组合得到的目标训练样本,n为初始训练样本的总个数,c为所述样本空间中心,λ为正则化参数,L为自编码器对应的神经网络的层数,||·||F表示Frobenius范数。增大λ可以惩罚函数拟合数据,增加模型泛化能力
2.4训练自编码器的要点。一、选择的中心不能固定为原点,也不能把中心c作为一个自由变量放到神经网络中训练迭代。两者都导致最后的结果无限逼近平凡解,即零解。在实际操作中,可以将神经网络训练第一次迭代的样本空间平均点作为中心,对神经网络进行训练。二、神经网络中不能选用边界激活函数(饱和函数),因此首选ReLU作为激活函数。假设网络存在一个上节为B的饱和激活函数,如果某个特征k对于所有输入样本都为正数,那么网络可能只保留该特征,并且增大k的权重,使其输出B,后续层只需要将B映射到C即可。
2.5测试。在用训练好的自编码器得到重构好的新数据集以后,可以用公式(2)的异常分数计算公式计算所有样本的异常分数,然后按照业务提供的异常样本的比例,把异常分数最高的那部分转换为黑样本。
3.“训练模型以及预测”的相关步骤如下:
将转换完成的新数据集输入分类模型进行训练,然后使用训练得到的模型进行预测。
上述实施例中的方法,在使用同样的机器学习模型的情况下,使用本实施例处理以后的数据集训练得到的模型预测得到的结果比用原数据集训练得到的模型在精确率、召回率以及综合预测性能方面表现更好,能更精准地预测交易中存在的欺诈风险。通过将该模型应用于银行等金融机构,可以在具有欺诈风险的交易发生之前进行精准预测,相关人员可以参考模型预测结果进行相应的处理,可以避免客户被骗,减少损失,提升用户体验。
基于同一发明构思,本说明书实施例中还提供了一种系统资源数据分配装置,如下面的实施例所述。由于系统资源数据分配装置解决问题的原理与系统资源数据分配方法相似,因此系统资源数据分配装置的实施可以参见系统资源数据分配方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图5是本说明书实施例的系统资源数据分配装置的一种结构框图,如图5所示,包括:获取模块501、构造模块502、确定模块503和构建模块504,下面对该结构进行说明。
获取模块501用于获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据。
构造模块502用于基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布。
确定模块503用于计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别。
构建模块504用于利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
在本说明书一些实施例中,构造模块可以具体用于将所述多个维度中各维度的特征的平均值组成所述样本空间中心。
在本说明书一些实施例中,构造模块可以具体用于:将所述初始训练样本集输入训练好的自编码器,输出所述目标训练样本集;其中,所述训练好的自编码器是通过目标函数训练优化得到的,所述目标函数用于使目标训练样本距所述样本空间中心的距离最小。
在本说明书一些实施例中,所述目标函数可以为:
其中,M为所述目标函数,W为自编码器的待训练的参数,xi为第i个初始训练样本,表示将xi与W进行线性组合得到的目标训练样本,n为初始训练样本的总个数,c为所述样本空间中心,λ为正则化参数,L为自编码器对应的神经网络的层数,||·||F表示Frobenius范数。
在本说明书一些实施例中,确定模块可以具体用于:按照以下公式计算所述各目标训练样本的异常分数:
s(x)=||φ(x;W*)-c||2
其中,s为所述异常分数,为初始训练样本x对应的目标训练样本,c为所述样本空间中心,W*为所述自编码器的训练好的参数。
在本说明书一些实施例中,确定模块可以具体用于:获取预设黑样本比例;将所述预设黑样本比例和所述目标训练样本集中的目标训练样本的总数量相乘,得到第一数量;将所述各目标训练样本的异常分数进行降序排列,并将排在前面的所述第一数量的目标训练样本的目标标签确定为有风险。
在本说明书一些实施例中,基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据,可以包括:获取目标用户的初始特征数据;将所述目标用户的初始特征数据输入所述训练好的自编码器,得到目标特征数据;将所述目标特征数据输入所述目标分类器中,得到所述目标用户的风险预测结果;基于所述目标用户的风险预测结果向所述目标用户分配系统资源数据。
从以上的描述中,可以看出,本说明书实施例实现了如下技术效果:对于样本不平衡的初始训练样本集重构数据集的样本空间,使得重构得到的目标训练样本集中的目标训练样本围绕设定好的样本空间中心点,之后可以计算各目标训练样本的异常分数,异常分数可以表征各训练样本距离样本空间中心的距离远近,之后可以根据异常分数确定目标训练样本的标签,可以将距离中心较远的样本确定为黑样本,从而提高黑样本的比例,改善样本不平衡的问题,之后利用数据集和重构的标签集进行模型训练,得到的目标分类器能够准确地预测目标用户的风险类别,从而可以提高系统资源数据分配的准确性以及高效性。
本说明书实施方式还提供了一种计算机设备,具体可以参阅图6所示的基于本说明书实施例提供的系统资源数据分配方法的计算机设备组成结构示意图,所述计算机设备具体可以包括输入设备61、处理器62、存储器63。其中,所述存储器63用于存储处理器可执行指令。所述处理器62执行所述指令时实现上述任意实施例中所述的系统资源数据分配方法的步骤。
在本实施方式中,所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等;输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
在本实施方式中,该计算机设备具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
本说明书实施方式中还提供了一种基于系统资源数据分配方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现上述任意实施例中所述系统资源数据分配方法的步骤。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
显然,本领域的技术人员应该明白,上述的本说明书实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
应该理解,以上描述是为了进行图示说明而不是为了进行限制。通过阅读上述描述,在所提供的示例之外的许多实施方式和许多应用对本领域技术人员来说都将是显而易见的。因此,本说明书的范围不应该参照上述描述来确定,而是应该参照前述权利要求以及这些权利要求所拥有的等价物的全部范围来确定。
以上所述仅为本说明书的优选实施例而已,并不用于限制本说明书,对于本领域的技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。

Claims (10)

1.一种系统资源数据分配方法,其特征在于,包括:
获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据;
基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布;
计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别;
利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
2.根据权利要求1所述的方法,其特征在于,所述初始训练样本包括多个维度的特征,相应的,基于所述初始训练样本集确定样本空间中心,包括:
将所述多个维度中各维度的特征的平均值组成所述样本空间中心。
3.根据权利要求1所述的方法,其特征在于,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,包括:
将所述初始训练样本集输入训练好的自编码器,输出所述目标训练样本集;
其中,所述训练好的自编码器是通过目标函数训练优化得到的,所述目标函数用于使目标训练样本距所述样本空间中心的距离最小。
4.根据权利要求3所述的方法,其特征在于,所述目标函数为:
其中,M为所述目标函数,W为自编码器的待训练的参数,xi为第i个初始训练样本,表示将xi与W进行线性组合得到的目标训练样本,n为初始训练样本的总个数,c为所述样本空间中心,λ为正则化参数,L为自编码器对应的神经网络的层数,||·||F表示Frobenius范数。
5.根据权利要求3所述的方法,其特征在于,计算所述多个目标训练样本中各目标训练样本的异常分数,包括:
按照以下公式计算所述各目标训练样本的异常分数:
s(x)=||φ(x;W*)-c||2
其中,s为所述异常分数,为初始训练样本x对应的目标训练样本,c为所述样本空间中心,W*为所述自编码器的训练好的参数。
6.根据权利要求1所述的方法,其特征在于,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,包括:
获取预设黑样本比例;
将所述预设黑样本比例和所述目标训练样本集中的目标训练样本的总数量相乘,得到第一数量;
将所述各目标训练样本的异常分数进行降序排列,并将排在前面的所述第一数量的目标训练样本的目标标签确定为有风险。
7.根据权利要求3所述的方法,其特征在于,基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据,包括:
获取目标用户的初始特征数据;
将所述目标用户的初始特征数据输入所述训练好的自编码器,得到目标特征数据;
将所述目标特征数据输入所述目标分类器中,得到所述目标用户的风险预测结果;
基于所述目标用户的风险预测结果向所述目标用户分配系统资源数据。
8.一种系统资源数据分配装置,其特征在于,包括:
获取模块,用于获取初始训练样本集,其中,所述初始训练样本集包括多个初始训练样本,所述初始训练样本包括用于表征用户风险特征的特征数据;
构造模块,用于基于所述初始训练样本集确定样本空间中心,根据所述初始训练样本集和所述样本空间中心,构造目标训练样本集,其中,所述目标训练样本集中包括多个目标训练样本,所述多个目标训练样本围绕所述样本空间中心进行球形分布;
确定模块,用于计算所述多个目标训练样本中各目标训练样本的异常分数,依据所述各目标训练样本的异常分数,确定所述各目标训练样本的目标标签,得到所述目标训练样本集对应的目标标签集,其中,所述异常分数用于表征目标训练样本距离所述样本空间中心的距离远近,所述目标标签表征目标训练样本所对应的风险类别;
构建模块,用于利用所述目标标签集,构建目标分类器,以基于所述目标分类器对目标用户的风险预测结果向目标用户分配系统资源数据。
9.一种计算机设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202110854993.9A 2021-07-28 2021-07-28 系统资源数据分配方法和装置 Active CN113515383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854993.9A CN113515383B (zh) 2021-07-28 2021-07-28 系统资源数据分配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854993.9A CN113515383B (zh) 2021-07-28 2021-07-28 系统资源数据分配方法和装置

Publications (2)

Publication Number Publication Date
CN113515383A CN113515383A (zh) 2021-10-19
CN113515383B true CN113515383B (zh) 2024-02-20

Family

ID=78067732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854993.9A Active CN113515383B (zh) 2021-07-28 2021-07-28 系统资源数据分配方法和装置

Country Status (1)

Country Link
CN (1) CN113515383B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654054A (zh) * 2015-12-30 2016-06-08 上海颐本信息科技有限公司 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN111915437A (zh) * 2020-06-30 2020-11-10 深圳前海微众银行股份有限公司 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN112836742A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 系统资源调整方法、装置及设备
CN113011722A (zh) * 2021-03-04 2021-06-22 中国工商银行股份有限公司 系统资源数据分配方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11531874B2 (en) * 2015-11-06 2022-12-20 Google Llc Regularizing machine learning models
US11502779B2 (en) * 2019-07-26 2022-11-15 Analog Devices, Inc. CNN-based demodulating and decoding systems and methods for universal receiver

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654054A (zh) * 2015-12-30 2016-06-08 上海颐本信息科技有限公司 基于半监督近邻传播学习和多视觉词典模型的智能视频分析方法
CN111915437A (zh) * 2020-06-30 2020-11-10 深圳前海微众银行股份有限公司 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN112836742A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 系统资源调整方法、装置及设备
CN113011722A (zh) * 2021-03-04 2021-06-22 中国工商银行股份有限公司 系统资源数据分配方法和装置

Also Published As

Publication number Publication date
CN113515383A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
US20230325724A1 (en) Updating attribute data structures to indicate trends in attribute data provided to automated modelling systems
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
CN110569322A (zh) 地址信息解析方法、装置、系统及数据获取方法
CN108133418A (zh) 实时信用风险管理系统
CN109948149B (zh) 一种文本分类方法及装置
US20230342846A1 (en) Micro-loan system
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN112785005A (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN111563187A (zh) 关系确定方法、装置、系统和电子设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN113515383B (zh) 系统资源数据分配方法和装置
CN114943608A (zh) 一种欺诈风险评估方法、装置、设备及存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN110837847A (zh) 用户分类方法及装置、存储介质、服务器
CN112507185A (zh) 用户肖像的确定方法和装置
CN111459990A (zh) 对象处理方法、系统及计算机可读存储介质和计算机设备
CN111984637A (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质
CN117390455B (zh) 数据处理方法和装置、存储介质及电子设备
US11989243B2 (en) Ranking similar users based on values and personal journeys
CN117271984A (zh) 目标对象风险识别方法及装置
CN113177613A (zh) 系统资源数据分配方法及装置
CN115600129A (zh) 信息识别方法、装置、电子设备及存储介质
CN115147225A (zh) 一种数据转移信息识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant