CN109598281A - 一种业务风险防控方法、装置及设备 - Google Patents

一种业务风险防控方法、装置及设备 Download PDF

Info

Publication number
CN109598281A
CN109598281A CN201811184619.7A CN201811184619A CN109598281A CN 109598281 A CN109598281 A CN 109598281A CN 201811184619 A CN201811184619 A CN 201811184619A CN 109598281 A CN109598281 A CN 109598281A
Authority
CN
China
Prior art keywords
training sample
sample
weight
classification error
error rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811184619.7A
Other languages
English (en)
Other versions
CN109598281B (zh
Inventor
郝静云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811184619.7A priority Critical patent/CN109598281B/zh
Publication of CN109598281A publication Critical patent/CN109598281A/zh
Application granted granted Critical
Publication of CN109598281B publication Critical patent/CN109598281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种业务风险防控方法、装置及设备。通过汇总第一训练样本集和第二训练样本集,形成一个混合的训练样本集,并赋予每个训练样本相应的采样权重。然后针对这个训练样本集进行相应的模型训练,得到分类模型,并计算该分类对于第一训练样本的错误识别率。而后基于错误识别率不断调整训练样本集中第一训练样本和第二训练样本的采样权重,最终可得到一个在第一训练样本上具有一定准确性的目标分类模型,进而可以根据该目标分类模型对第一业务进行准确的风控防御。

Description

一种业务风险防控方法、装置及设备
技术领域
本说明书实施例涉及信息技术领域,尤其涉及一种业务风险防控方法、装置及设备。
背景技术
随着网络技术的发展,越来越多的与用户资金、信用等相关的业务通过在线进行(例如,支付或者贷款),相应的也伴随出现很多业务风险(例如,在线欺诈),对业务进行风险控制常常是业务流程中不可或缺的一部分。
当前在风控过程中,常用的手段是收集大量的业务数据(包括出现风险的业务数据和正常业务数据),进行监督/半监督/无监督的机器学习,得到一个相应的分类模型,从而可以自动的对线上正在进行的业务进行及时的风险判定。在这个方式中,收集大量的有效业务数据是基础。但是在某些业务中,出现风险的环节往往在业务系统之外,例如,在现金贷业务中,用户被人欺骗,将贷款得到的资金通过自己的银行卡转给了恶意第三方。此时,业务方难以收集到大量的有效风险业务数据来训练模型进行风险防控。
基于此,需要一种更有效的业务风险防控方案。
发明内容
针对现有业务风险防控的问题,为实现更有效的业务风险防控方案,本说明书实施例提供一种业务风险防控方法,具体包括:
获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签;以及,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重,
利用以下步骤进行迭代处理,直到分类模型对所述第一训练样本集的分类错误率达到预设的要求:
基于所述训练样本的当前采样权重生成分类模型,确定当前分类模型对所述第一训练样本集的分类错误率;
若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
迭代结束时,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
对应的,本说明书实施例还提供一种业务风险防控装置,包括:
样本获取模块,获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签,以及,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重;
模型训练模块,基于所述训练样本的当前采样权重生成分类模型;
分类错误率确定模块,确定当前分类模型对所述第一训练样本集的分类错误率;
权重调整模块,若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
所述模型训练模块、分类错误率确定模块和权重调整模块互相配合,实现迭代处理,直到分类错误率达到预设的要求;
模型确定模块,迭代结束时,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
对应的,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述的业务风险防控方法。
对应的,本说明书实施例还提供计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,执行如下方法:
获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签;以及,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重,利用以下步骤进行迭代处理,直到分类模型对所述第一训练样本集的分类错误率达到预设的要求:
基于所述训练样本的当前采样权重生成分类模型;
确定当前分类模型对所述第一训练样本集的分类错误率;
若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
迭代结束时,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
通过汇总与第一业务类似的第二业务的相关数据(有标签和丰富的风险特征,作为第二训练样本),并和第一业务的数据汇总(数据有标签,作为第一训练样本),形成一个混合的训练样本集,并赋予每个训练样本相应的初始权重,然后针对这个训练样本集进行相应的模型训练,并且用训练得到的模型对训练样本集中的第一业务数据进行识别,得到模型对于第一训练样本的错误识别率。而后基于错误识别率不断调整训练样本集中第一训练样本和第二训练样本的采样权重,对训练目标模型有利的训练样本被加大权重,否则权重被削弱,最终将错误识别率收敛到一定的预设范围,此时,即可得到一个在第一业务上具有一定准确性的目标分类模型,进而可以根据该目标分类模型对第一业务进行准确的风控防御,实现在缺乏第一业务的训练样本的情形下,依然可以对第一业务进行有效的风控防御,提高分类模型识别的准确率和覆盖率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种业务风险防控方法的流程示意图;
图2a至图2d为本说明书实施例所提供的示例性的方案逻辑示意图;
图3是本说明书实施例所提供的的整体设计架构示意图;
图4是本说明书实施例提供的一种业务风险防控装置的结构示意图;
图5是用于配置本说明书实施例方法的一种设备的结构示意图。
具体实施方式
当前,线上贷款业务(包括微贷、现金贷等等)发展的越来越迅速。随之而来的问题是,这也给不法分子提供了更多作案的平台,每日都有百万级的欺诈资损发生,尤其这类现金贷的欺诈防控成本更高。
线上贷款业务风险有两个特点:一、涉及资金大且作案者多体系外销赃,作案者多引导用户放款到本人银行卡后,通过诱导用户体系外转账(如网银转账)骗取用户现金;二、报回黑样本数据不全,由于用户一般都会针对业务体系内有转出资金的交易举报案件,而有相当多的一部分用户是被骗,支用了贷款的放款到银行卡后体系外转出,对该环节的案件举报量很少,数据沉淀不足。
当前对于这类风险的防控,目前由于样本的缺乏,主要是通过放款当下的防骗提醒和放款后业务体系内资金转出时的欺诈防控。基于此,本说明书实施例提出了一种业务风险防控方法,以解决在相关的目标业务样本数据缺乏的情况下,依然可以进行模型训练,得到准确的目标分类模型,以有效实现业务风险防控的方案。该方案的具体架构示意图如图3所示,具体架构说明如下:
1)输入部分:
以“第一训练样本集”和“第二训练样本集”作为输入信息。两个样本集均带已经有标签,且均赋予了一定的初始采样权重。其中,第一训练样本和第二训练样本具有某种类似性,例如,二者产生的业务场景比较类似,或者,二者的风险特征部分相似或者相同等等。以及,在本申请所提供的方案中中,第一训练样本集中的样本数量较少,第二训练样本集中的样本数量较多。
2)输出部分:
输出的目标分类模型,其应对第一训练样本集有较好的分类效果。
3)学习模块:
学习模块主要包括根据包含采样权重的训练样本进行模型训练,得到一个分类模型,容易理解,由于第二训练样本的数量较多,最初其分类效果一般是对第二训练样本集比较好,对第一训练样集的效果初期一般不会很理想,本再此基础上,需要进一步进行调整。调整的方式主要是通过调整训练样本的采样权重。
4)校验模块:
在学习模块中,每次调整采样权重均可以对应输出一个分类模型,校验模块需要校验其对第一训练样本集的分类效果是否达到期望,方式则是计算该当前模型对第一训练样本集的错误分类率。
为保证校验结果的可靠性,这里可以采用人工参与的方式进行校验,校验模块可提供样本数据、标注结果等信息的显示功能,并且提供标注或纠错等操作接口,以方便相关人员进行校验。当然,在能够保证校验结果可靠性的前提下,还也可以采用其他方式实现校验,本申请对此并不进行限定
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。如图1所示,图1是本说明书实施例提供的一种业务风险防控方法的流程示意图,如图1所示,该流程具体包括如下步骤:
S101,获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签;
在上述过程中,第一业务也就是样本不足,但仍希望依靠少量的标注样本实现风险分类的业务,而第二业务通常是与第一业务的业务流程中的部分环节类似,从而第二训练样本和第一训练样本在很多方面类似,例如,产生的业务场景类似,或者,包含部分相同或者相似的风险特征,等等。
在实际应用中,第一业务所对应的第一训练样本常常不够多,不足以进行模型训练,因此,将第二业务所对应的第二训练样本集混合第一训练样本集得到一个训练样本集,以进行模型训练。第二训练样本集通常而言,来源于比较成熟的业务场景,是已经包含风险标签和丰富的风险特征的历史数据,其分布通常与第一训练样本集是不一样的。第一训练样本集通常来源于用户的报案数据,也应有风险标签,但是由于业务性质问题,风险特征不足,且数量较少。前述的风险标签可以是有/无风险,或者,风险等级分类数值,例如,从0到4的若干风险等级。
例如,第一业务是线上现金贷业务,第二业务是银行卡支付或者转账业务。由于银行卡支付或转账环节的数据,因为数据样本多,而且报案返回的标签数据也多,可以涵盖更多风险特征。而在放贷环节被骗的用户有很多放款到自己的银行卡,之后钱在银行卡或者其它途径被骗转出,很多不会来报案,从而也无法获知其风险特征。
此时,现金贷样本可以包含的风险特征有诸如“最近N天支用金额”、“本次支用占用总额度比例”、“最近N天支用次数”等等,但是由于其支用时可能是先通过银行卡支付,此时,现金贷样本缺乏相应的转出对象(或者收益对象)的风险特征;而银行卡转账样本可以包含的风险特征有诸如”“主次账号最近N天转账金额”、“本次转账占用主账号总额度比例”、“主次双方过去90天转账次数”、“收益方证件号码关联账户在45天内被投诉的次数”、“主次双方证件首次转账距今天数”|等等风险特征。容易理解,这二种样本有很大的相似性,同时银行卡转账样本从样本数量和风险特征的数量上都比现金贷样本要多不少,可以用于辅助现金贷业务的识别模型训练。又例如,第一业务是面部识别支付业务,第二业务是二维码扫码支付业务等等。当然,第一业务和第二业务不仅仅局限于上述示例,还可以是其他方面业务,此处不再一一列举。
S103,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重。
在模型训练初始,应给每个训练样本赋予一定的采样权重。例如,对于一个包含了X个训练样本的训练样本集,每个样本均赋予一样的采样权重1/X;又例如,对于包含了X个训练样本的训练样本集,对其中的每个第一训练样本赋予相同的采样权重A1,而对于每个第二训练样本赋予相同的采样权重A2;以及,还可以对于某些特殊的训练样本,直接赋予特殊的采样权重,例如对于典型的黑样本,给与较高的采样权重等等。
在确定了训练样本集和各训练样本对应的权重之后,可以利用以下步骤进行迭代处理,直到分类模型对所述第一训练样本集的分类错误率达到预设的要求:
S105,基于所述训练样本的当前采样权重生成分类模型,确定当前分类模型对所述第一训练样本集的分类错误率。
基于训练样本进行分类模型训练的方式目前已很常见,此处不再赘述。在迭代的过程中,由于采样权重会被多次迭代更新,每次模型训练时都是基于当前的采样权重进行。在得到分类模型后,即可对第一训练样本进行分类,得到每个第一训练样本的分类标签,进而和已知的第一训练样本的风险标签进行对比,得知分类模型对所述第一训练样本的分类错误率。
所述的分类错误率可以与采样权重无关,例如,分类错误率就是被误分类的第一训练样本的数量除以第一训练样本的数量;也可以与上述的采样权重相关,例如,分类错误率可以是各第一训练样本风险标签的模型分类值和风险标签实际值的差值的绝对值的加权平均,此处的加权平均即根据被误分类的第一训练样本的当前采样权重值进行加权平均。
S107,判断所述分类错误率是否达到预设的要求;
S109,若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重,并回到S105,以再次训练模型。
所述预设的要求通常而言即为不超过预设值。容易理解,由于第二训练样本和第一训练样本的风险特征只是部分类似,二者的分布也通常不太一样,因此,此时的分类错误率通常而言都比较大,换言之,此时得到的分类模型只是一个初步的分类模型,还需要进行多次的迭代更新,以缩小上述的分类错误率。
对采样权重的调整可以有多种形式,例如,缩小被误分类的第二训练样本权重,同时,提高被正确分类的第二训练样本权重;也可以是只针对被误分类的训练样本进行调整。具体而言,可以基于上述的分类错误率对所述采样权重进行重新赋值,例如,调整每个发生错误分类的样本的采样权重;或者,基于预设的包含错误率的计算方式对权重向量进行迭代赋值等等方式,例如,预先设定与分类错误率相关的调整函数Z=F(分类错误率),进一步地对任一训练样本的采样权重W的迭代调整可以采用Wt+1=Wt*Z的形式,其中,对于第一训练样本和第二训练样本可以采用不同的调整函数Z,即Z可以是针对第一训练样本和第二训练样本的分段函数。上述迭代调整可以是多次进行,其目的只需使分类模型的分类错误率不大于预设值即可。此时,则可以终止计算,将当前的分类模型作为目标分类模型,以对目标业务进行业务处理。
S111,若所述分类错误率达到预设的要求,迭代结束,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
当前分类模型对第一训练样本的错误分类率不超过预设值时,迭代结束。此时,当前分类模型已经对第一训练样本有比较好的分类效果,即可以确定当前的分类模型为目标分类模型,以便部署至第一业务的相关业务流程中,进行风险防控,例如部署目标分类模型对于正在发生的贷款支用业务进行风险判断,或者,对于已经发生的微贷申请进行风险等级评估等等。
在上述方案中,通过汇总与第一业务类似的第二业务的相关数据(有标签和丰富的风险特征,作为第二训练样本),并和第一业务的数据汇总(数据有标签,作为第一训练样本),形成一个混合的训练样本集,并赋予每个训练样本相应的初始权重,然后针对这个训练样本集进行相应的模型训练,并且用训练得到的模型对训练样本集中的第一业务数据进行识别,得到模型对于第一训练样本的错误识别率。而后基于错误识别率不断调整训练样本集中第一训练样本和第二训练样本的采样权重,对训练目标模型有利的训练样本被加大权重,否则权重被削弱,最终将错误识别率收敛到一定的预设范围,此时,即可得到一个在第一业务上具有一定准确性的目标分类模型,进而可以根据该目标分类模型对第一业务进行准确的风控防御,实现在缺乏第一业务的训练样本的情形下,依然可以对第一业务进行有效的风控防御,提高分类模型识别的准确率和覆盖率。
通过上述方案,在现金贷等数据较少的场景下,能利用目前比较全面的有标签的银行卡转账相关的报案数据,迁移学习应用到贷款支用场景,可包含更多潜在的在贷款支用环节无报案的风险类型
为使本说明书所提供的方案更浅显明白,可参见图2a至图2d。图2a至图2d为本说明书实施例所提供的示例性的说明示意图。如图2a所示,在本说明书实施例中,和第一业务相关的第一训练样本(均为有标样本)比较缺乏,为此,加入数量较多的第二训练样本(和第一训练样本有较多的相似性)以扩充训练样本集,如图2b所示,图中实线图形代表了第一训练样本,虚线图像代表了第二训练样本。在这种方式下,可能可以得出正确的分类模型;但是,在更为普遍的情形中,基于大量第二训练样本得到的分类模型仍然有可能对第一训练样本进行错误的划分,如图2c所示,此时,通过对第一训练样本和第二训练样本的权重进行调整,使得分类可以朝正确的方向进行,如图2d所示。
作为一种具体的实施方式,在实际应用中,为方便进行采样权重的调整,可以基于第一样本训练集和第二样本训练集的样本数量设置一个对应的多维的权重向量,并给与初始赋值。若M为第一训练样本的数量,N为第二训练样本的数量,则采样权重为一个M+N维度的权重向量,训练样本的采样权重与各维度的数值一一对应。例如,设置初始的权重向量为W=(W1,W2,W3…,WN+M),其中,当i=1…N,Wi=1/N,以及,当i=N+1…N+M时,Wi=1/M,在上述初始权重向量设置中,实际上是对每个第二训练样本取了相同的权重值1/N,对每个第一训练样本取了相同的权重值1/M。也可以采取其他赋值方式,例如,对所有训练样本均赋予相同的初始采样权重,即,当i=1…N+M时,Wi=1/(N+M)。训练样本和权重向量的维度一一对应,每一个训练样本均在该权重向量中的一个维度中有一个对应的采样权重取值。从而,在实际调整采样权重的过程中,可以采用如下方式:确定发生分类错误的训练样本,根据所述分类错误率,迭代调整所述权重向量中的发生分类错误的训练样本所对应的维度的数值。在上述调整的过程中,容易理解,分类错误率和权重向量是两个相互依赖的参数,也正因为如此,可以进行动态的迭代调整,基于所采用的模型训练方法,每一次调整之后,错误率将得到下降,直至低于预设值。
作为一种实际的应用方式,对所述步骤S107中,根据所述分类错误率调整各训练样本的采样权重,具体可以包括:确定被误分类的第二训练样本;根据所述分类错误率,降低被误分类的第二训练样本的采样权重。其原因在于,在每一轮的迭代中,如果一个第二训练样本被误分类,那么这个数据很可能和第一训练样本是矛盾或者无关的,那么我们就可以降低这个数据的权重,以使得模型朝更好的方向训练。例如,给该样本数据的采样权重乘上一个大于0且小于1的系数,所以在下一轮的迭代中,被误分类的样本就会比上一轮少影响分类模型一些,在若干次这样的迭代以后,第二训练样本中那些不符合第一样本数据的权重会降低,而符合第一训练样本的那些数据就会拥有更高的采样权重,通过上述方式,可以有效的快速获得符合目标业务特征的训练样本集。
对于所述步骤S107中的,根据所述分类错误率调整各训练样本的采样权重,包括:确定被误分类的第一训练样本;根据所述分类错误率,增加被误分类的第一训练样本的采样权重。其原因在于,当和目标业务相关的一个第一训练样本被错误的分类之后,基于上述思路,可以认为这个第一训练样本是很难分类的,从而可以加大这个样本的权重,这样在下一次的模型训练中这个样本所占的比重就变大了,更容易被准确分类。
在得到目标分类模型之后,则可以将其部署上线,对目标业务的相关数据进行打分或者评估,例如,若当前交易的模型分值是否超过阈值(一般风控模型中,分值越高,代表风险越高)。若否,代表当前交易安全,准予交易;若否,则可以进一步的根据其相应的风险特征,调用对应的风险防控产品,例如“云盾”等等,从而可以即时的控制业务风险。通过上述方案,能利用目前比较全面的有标签的银行卡转账相关的报案数据,迁移学习应用到贷款支用场景,可包含更多潜在的在贷款支用环节无报案的风险类型
对应的,本说明书实施例还提供一种业务风险防控装置,如图4所示,图4是本说明书实施例提供的一种业务风险防控装置的结构示意图,包括:
样本获取模块401,获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签;
模型训练模块403,基于所述训练样本的当前采样权重生成分类模型;
分类错误率确定模块405,确定当前分类模型对所述第一训练样本集的分类错误率;
权重调整模块407,若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
所述模型训练模块403、分类错误率确定模块405和权重调整模块407互相配合,实现迭代处理,直到分类错误率达到预设的要求;
模型确定模块409,若当前的分类模型对所述第一训练样本集的分类错误率满足预设条件时,迭代终止,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
进一步地,所述分类错误率确定模块405,确认所述第一训练样本集中被误分类的第一训练样本;根据被误分类的第一训练样本的当前权重值,确定所述分类错误率。
进一步地,所述采样权重为一个M+N维度的权重向量,其中,M为第一训练样本的数量,N为第二训练样本的数量;所述调整权重模块407,确定发生分类错误的训练样本,根据所述分类错误率,迭代调整所述权重向量中的发生分类错误的训练样本所对应的维度的数值。
进一步地,所述调整权重模块407,根据所述分类错误率,降低被误分类的第二训练样本的采样权重。
更进一步地,所述调整权重模块407,根据所述分类错误率,增加被误分类的第一训练样本的采样权重。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现图1所示的业务风险防控方法。
图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现图1所示的业务风险防控方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、方法、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (11)

1.一种业务风险防控方法,包括:
获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签;以及,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重,利用以下步骤进行迭代处理,直到分类模型对所述第一训练样本集的分类错误率达到预设的要求:
基于所述训练样本的当前采样权重生成分类模型;
确定当前分类模型对所述第一训练样本集的分类错误率;
若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
迭代结束时,确定当前分类模型为目标分类模型,用于处理第一业务时进行风险防控。
2.如权利要求1所述的方法,确定分类模型对所述第一训练样本集的分类错误率,包括:
确认所述第一训练样本集中被误分类的第一训练样本;
根据被误分类的第一训练样本的当前权重值,确定所述分类错误率。
3.如权利要求1所述的方法,所述采样权重为一个M+N维度的权重向量,训练样本的采样权重与各维度的数值一一对应,其中,M为第一训练样本的数量,N为第二训练样本的数量;
所述根据所述分类错误率调整训练样本的采样权重,包括:
基于预设的采样权重调整函数对所述权重向量进行迭代调整,其中,所述采样权重调整函数的自变量包括所述分类错误率。
4.如权利要求1所述的方法,根据所述分类错误率调整训练样本的采样权重,包括:
确定发生分类错误的第二训练样本;
根据所述分类错误率,降低所述被误分类的第二训练样本的采样权重。
5.如权利要求1所述的方法,根据所述分类错误率调整训练样本的采样权重,包括:
确定发生分类错误的第一训练样本;
根据所述分类错误率,增加被误分类的第一训练样本的采样权重。
6.一种业务风险防控装置,包括:
样本获取模块,获取第一业务的第一训练样本集和第二业务的第二训练样本集,其中,第一训练样本集和第二训练样本集中的训练样本均带有风险标签,以及,针对所述第一训练样本集和第二训练样本集中的任一训练样本,确定其采样权重;
模型训练模块,基于所述训练样本的当前采样权重生成分类模型;
分类错误率确定模块,确定分类模型对所述第一训练样本集的分类错误率;
权重调整模块,若所述分类错误率未达到预设的要求,根据所述分类错误率调整训练样本的采样权重;
所述模型训练模块、分类错误率确定模块和权重调整模块互相配合,实现迭代处理,直到分类错误率达到预设的要求;
模型确定模块,迭代结束时,确定当前的分类模型为目标分类模型,用于处理第一业务时进行风险防控。
7.如权利要求6所述的装置,所述分类错误率确定模块,确认所述第一训练样本集中被误分类的第一训练样本;根据被误分类的第一训练样本的当前权重值,确定所述分类错误率。
8.如权利要求6所述的装置,所述采样权重为一个M+N维度的权重向量,训练样本的采样权重与各维度的数值一一对应,其中,M为第一训练样本的数量,N为第二训练样本的数量;所述权重调整模块,基于预设的采样权重调整函数对所述权重向量进行迭代调整,其中,所述采样权重调整函数的自变量包括所述分类错误率。
9.如权利要求6所述的装置,所述权重调整模块,确定发生分类错误的第二训练样本;根据所述分类错误率,降低所述被误分类的第二训练样本的采样权重。
10.如权利要求6所述的装置,所述权重调整模块,确定发生分类错误的第一训练样本;根据所述分类错误率,增加被误分类的第一训练样本的采样权重。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。
CN201811184619.7A 2018-10-11 2018-10-11 一种业务风险防控方法、装置及设备 Active CN109598281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811184619.7A CN109598281B (zh) 2018-10-11 2018-10-11 一种业务风险防控方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811184619.7A CN109598281B (zh) 2018-10-11 2018-10-11 一种业务风险防控方法、装置及设备

Publications (2)

Publication Number Publication Date
CN109598281A true CN109598281A (zh) 2019-04-09
CN109598281B CN109598281B (zh) 2023-05-26

Family

ID=65957872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811184619.7A Active CN109598281B (zh) 2018-10-11 2018-10-11 一种业务风险防控方法、装置及设备

Country Status (1)

Country Link
CN (1) CN109598281B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和系统
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
CN110610415A (zh) * 2019-09-26 2019-12-24 北京明略软件系统有限公司 一种模型更新的方法和装置
CN110659985A (zh) * 2019-09-30 2020-01-07 上海淇玥信息技术有限公司 一种捞回误拒潜在用户的方法、装置和电子设备
CN110706096A (zh) * 2019-09-30 2020-01-17 上海淇玥信息技术有限公司 基于捞回用户管理授信额度的方法、装置和电子设备
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置
CN111340148A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端
CN111832613A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN112506483A (zh) * 2020-12-04 2021-03-16 北京五八信息技术有限公司 数据增广方法、装置、电子设备及存储介质
CN113743435A (zh) * 2020-06-22 2021-12-03 北京沃东天骏信息技术有限公司 业务数据分类模型的训练、业务数据的分类方法和装置
CN114707661A (zh) * 2022-04-13 2022-07-05 支付宝(杭州)信息技术有限公司 一种对抗训练方法和系统
CN114943307A (zh) * 2022-06-28 2022-08-26 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质以及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN104463922A (zh) * 2014-12-03 2015-03-25 天津大学 一种基于集成学习的图像特征编码及识别方法
CN106651317A (zh) * 2016-12-28 2017-05-10 浙江省公众信息产业有限公司 一种业务流程相关性的判别方法和装置
US20180139458A1 (en) * 2016-02-23 2018-05-17 Magic Pony Technology Limited Training end-to-end video processes
CN108091397A (zh) * 2018-01-24 2018-05-29 浙江大学 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法
CN108304868A (zh) * 2018-01-25 2018-07-20 阿里巴巴集团控股有限公司 模型训练方法、数据类型识别方法和计算机设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN104463922A (zh) * 2014-12-03 2015-03-25 天津大学 一种基于集成学习的图像特征编码及识别方法
US20180139458A1 (en) * 2016-02-23 2018-05-17 Magic Pony Technology Limited Training end-to-end video processes
CN106651317A (zh) * 2016-12-28 2017-05-10 浙江省公众信息产业有限公司 一种业务流程相关性的判别方法和装置
CN108091397A (zh) * 2018-01-24 2018-05-29 浙江大学 一种基于提升-重采样和特征关联分析的缺血性心脏病患者的出血事件预测方法
CN108304868A (zh) * 2018-01-25 2018-07-20 阿里巴巴集团控股有限公司 模型训练方法、数据类型识别方法和计算机设备
CN108171280A (zh) * 2018-01-31 2018-06-15 国信优易数据有限公司 一种分类器构建方法及预测分类的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANIEL A. SASS等: "Evaluating Model Fit With Ordered Categorical Data Within a Measurement Invariance Framework: A Comparison of Estimators", 《STRUCTURAL EQUATION MODELING: A MULTIDISCIPLINARY JOURNAL》 *
张晨光等: "最大规范化依赖性多标记半监督学习方法", 《自动化学报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147823A (zh) * 2019-04-16 2019-08-20 阿里巴巴集团控股有限公司 一种风控模型训练方法、装置及设备
CN110147823B (zh) * 2019-04-16 2023-04-07 创新先进技术有限公司 一种风控模型训练方法、装置及设备
CN110334814A (zh) * 2019-07-01 2019-10-15 阿里巴巴集团控股有限公司 用于构建风险控制模型的方法和系统
CN110334814B (zh) * 2019-07-01 2023-05-02 创新先进技术有限公司 用于构建风险控制模型的方法和系统
CN110377828A (zh) * 2019-07-22 2019-10-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110377828B (zh) * 2019-07-22 2023-05-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110533489A (zh) * 2019-09-05 2019-12-03 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
CN110533489B (zh) * 2019-09-05 2021-11-05 腾讯科技(深圳)有限公司 应用于模型训练的样本获取方法及装置、设备、存储介质
CN110610415A (zh) * 2019-09-26 2019-12-24 北京明略软件系统有限公司 一种模型更新的方法和装置
CN110610415B (zh) * 2019-09-26 2022-06-17 北京明略软件系统有限公司 一种模型更新的方法和装置
CN110706096A (zh) * 2019-09-30 2020-01-17 上海淇玥信息技术有限公司 基于捞回用户管理授信额度的方法、装置和电子设备
CN110659985A (zh) * 2019-09-30 2020-01-07 上海淇玥信息技术有限公司 一种捞回误拒潜在用户的方法、装置和电子设备
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置
CN111340148B (zh) * 2020-05-22 2020-09-22 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端
CN111340148A (zh) * 2020-05-22 2020-06-26 支付宝(杭州)信息技术有限公司 一种业务分类模型的训练方法、业务分类方法以及终端
CN111832613A (zh) * 2020-06-03 2020-10-27 北京百度网讯科技有限公司 模型训练方法、装置、电子设备和存储介质
CN113743435A (zh) * 2020-06-22 2021-12-03 北京沃东天骏信息技术有限公司 业务数据分类模型的训练、业务数据的分类方法和装置
CN112506483A (zh) * 2020-12-04 2021-03-16 北京五八信息技术有限公司 数据增广方法、装置、电子设备及存储介质
CN112506483B (zh) * 2020-12-04 2024-04-05 北京五八信息技术有限公司 数据增广方法、装置、电子设备及存储介质
CN114707661A (zh) * 2022-04-13 2022-07-05 支付宝(杭州)信息技术有限公司 一种对抗训练方法和系统
CN114707661B (zh) * 2022-04-13 2024-10-18 支付宝(杭州)信息技术有限公司 一种对抗训练方法和系统
CN114943307A (zh) * 2022-06-28 2022-08-26 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质以及电子设备
CN114943307B (zh) * 2022-06-28 2024-09-06 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质以及电子设备

Also Published As

Publication number Publication date
CN109598281B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN109598281A (zh) 一种业务风险防控方法、装置及设备
CN108765131B (zh) 基于微表情的信贷审核方法、装置、终端及可读存储介质
CN110147823B (zh) 一种风控模型训练方法、装置及设备
Coşer et al. PREDICTIVE MODELS FOR LOAN DEFAULT RISK ASSESSMENT.
CN110009479A (zh) 信用评价方法及装置、存储介质、计算机设备
CN108648073A (zh) 信贷方法、装置、设备和计算机存储介质
CN109376766B (zh) 一种画像预测分类方法、装置及设备
CN110766541A (zh) 贷款风险评估方法、装置、设备及计算机可读存储介质
CN111091177B (zh) 一种模型压缩方法、装置、电子设备和存储介质
CN107766418A (zh) 一种基于融合模型的信用评估方法、电子设备和存储介质
CN109389491A (zh) 基于大数据的贷款产品筛选方法、装置、设备及存储介质
CN109461001A (zh) 基于第二模型获取第一模型的训练样本的方法和装置
CN109740914A (zh) 一种金融业务评估、推荐的方法、存储介质、设备及系统
CN110097450A (zh) 车贷风险评估方法、装置、设备和存储介质
CN109711801A (zh) 一种网银对账方法及装置
CN109636565A (zh) 风险数据的处理方法、装置、设备及计算机可读存储介质
CN110930218A (zh) 一种识别欺诈客户的方法、装置及电子设备
CN110276677A (zh) 基于大数据平台的还款预测方法、装置、设备及存储介质
CN111144899B (zh) 识别虚假交易的方法及装置和电子设备
CN110189221A (zh) 展业尽调方法、装置、设备与计算机可读存储介质
CN114663002A (zh) 一种自动化匹配绩效考核指标的方法及设备
CN110473039A (zh) 评估用户的信用风险的方法及装置
CN109165947B (zh) 账户信息确定方法、装置及服务器
CN110033276A (zh) 一种针对转账的安全策略生成方法、装置及设备
CN110705994B (zh) 一种风险用户检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant