CN113449753A - 业务风险预测方法、装置和系统 - Google Patents

业务风险预测方法、装置和系统 Download PDF

Info

Publication number
CN113449753A
CN113449753A CN202010223926.2A CN202010223926A CN113449753A CN 113449753 A CN113449753 A CN 113449753A CN 202010223926 A CN202010223926 A CN 202010223926A CN 113449753 A CN113449753 A CN 113449753A
Authority
CN
China
Prior art keywords
service
risk prediction
risk
data
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010223926.2A
Other languages
English (en)
Other versions
CN113449753B (zh
Inventor
赵振凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202010223926.2A priority Critical patent/CN113449753B/zh
Publication of CN113449753A publication Critical patent/CN113449753A/zh
Application granted granted Critical
Publication of CN113449753B publication Critical patent/CN113449753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开公开了一种业务风险预测方法、装置和系统,涉及数据处理领域。该方法包括:构建预测当前业务风险前多个业务周期的多维度特征数据;对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据;将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,风险预测模型的个数等于业务周期数的组合个数。本公开由于多维度特征数据能够反映业务实际动态变化,并且,训练多个风险预测模型能够保证模型稳定性,并且解决现有多模型在同一批数据中训练得到的结果相似,提高了业务风险预测的准确性。

Description

业务风险预测方法、装置和系统
技术领域
本公开涉及数据处理领域,尤其涉及一种业务风险预测方法、装置和系统。
背景技术
随着互联网和移动互联网的飞速发展,快捷的在线支付方式受到人们喜爱。在实时交易场景中,蕴藏着账户被盗,欺诈等各种风险事件,使得人们的安全和利益受到损害。因此,相关技术中使用机器学习算法训练模型,进行实时预测,以应对交易风险。但相关技术风险预测精准度较低。
发明内容
本公开要解决的一个技术问题是,提供一种业务风险预测方法、装置和系统,能够提高业务风险预测的准确性。
根据本公开一方面,提出一种业务风险预测方法,包括:构建预测当前业务风险前多个业务周期的多维度特征数据;对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据;将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,风险预测模型的个数等于业务周期数的组合个数。
在一些实施例中,当前业务的风险值是根据多个风险预测模型预测的多个当前业务的多维度特征数据对应的风险值的平均运算值确定。
在一些实施例中,多维度特征数据包括业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据中的两种或两种以上特征数据。
在一些实施例中,对多维度特征数据中的类别特征数据进行混合编码处理。
在一些实施例中,业务发送方历史行为特征数据包括:业务发送方执行业务行为之前预定时间段的平均业务次数和最大业务次数、业务发送方对应当前环境出现次数、以及出现次数与之前总业务次数之比;即时业务特征数据包括:当前预定时间内设备出现次数、设备出现次数与当前预定时间内总业务次数之比、该设备对应业务发送方数、以及业务发送方数与当前预定时间内总业务次数之比;设备特征数据包括:当前业务之前设备对应不同业务发送方次数、以及预定时间设备对应的平均业务次数;网路环境特征数据包括:预定时间内网络环境对应的业务发送方数、业务接收方数、设备数,以及对应业务次数最多的业务发送方、业务接收方和设备,以及网络环境不同时间段内活跃度之比;业务接收方特征数据包括:当前预定时间段内业务接收方对应的业务次数,出现次数最多的业务发送方、业务接收方和设备,业务接收方对应的业务发送方、设备以及每个业务发送方、设备出现次数,以及业务接收方不同时间段内活跃度之比。
在一些实施例中,多个业务周期包括第一业务周期和第二业务周期,多个风险预测模型包括第一风险预测模型、第二风险预测模型和第三风险预测模型;基于第一业务周期的多维度特征数据和对应的标注数据训练第一风险预测模型,基于第二业务周期的多维度特征数据和对应的标注数据训练第二风险预测模型,基于第一业务周期和第二业务周期的多维度特征数据和对应的标注数据训练第三风险预测模型。
根据本公开的另一方面,还提出一种业务风险预测方法,包括:构建当前业务对应的多维度特征数据;基于每个风险预测模型预测多维度特征数据对应的风险值;将每个风险预测模型预测的风险值进行平均运算,得到当前业务对应的风险值。
在一些实施例中,每个风险预测模型根据预测当前业务风险前任意一个或多个业务周期的多维度特征数据和对应的标注数据训练得到,其中,风险预测模型的个数等于业务周期数的组合个数。
根据本公开的另一方面,还提出一种业务风险预测装置,包括:第一数据构建单元,被配置为构建预测当前业务风险前多个业务周期的多维度特征数据;标注数据生成单元,被配置为对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据;预测模型训练单元,被配置为将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,风险预测模型的个数等于业务周期数的组合个数。
根据本公开的另一方面,还提出一种业务风险预测装置,包括:第二数据构建单元,被配置为构建当前业务对应的多维度特征数据;风险预测单元,被配置为基于每个风险预测模型预测多维度特征数据对应的风险值;风险确定单元,被配置为将每个风险预测模型预测的风险值进行平均运算,得到当前业务对应的风险值。
根据本公开的另一方面,还提出一种业务风险预测系统,包括:上述的业务风险预测装置;以及上述的业务风险预测装置。
根据本公开的另一方面,还提出一种业务风险预测系统,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行如上述的业务风险预测方法。
根据本公开的另一方面,还提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上述的业务风险预测方法。
本公开实施例利用预测当前业务风险前多个业务周期的多维度特征数据,训练多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,由于多维度特征数据能够反映业务实际动态变化,并且,训练多个风险预测模型能够保证模型稳定性,并且解决现有多模型在同一批数据中训练得到的结果相似,重复性较大问题,提高了业务风险预测的准确性。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1为本公开的业务风险预测方法的一些实施例的流程示意图。
图2为本公开的业务风险预测方法的另一些实施例的流程示意图。
图3为本公开的业务风险预测方法的另一些实施例的流程示意图。
图4为本公开的业务风险预测装置的一些实施例的结构示意图。
图5为本公开的业务风险预测装置的另一些实施例的结构示意图。
图6为本公开的业务风险预测系统的一些实施例的结构示意图。
图7为本公开的业务风险预测系统的另一些实施例的结构示意图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
相关技术中,在算法层面,图神经模型等理论和模型相对较新,需要实践验证,另一方面深度学习具有黑盒特性,无法进行业务理论判断和解读。因此传统的分类模型方法仍然占主导地位。当前模型设计的一些方法,如直接使用LightGBM算法,进行模型训练并预测,这种方式因为是单模型,当面对未知风险数据时,算法的稳定性较差。多模型融合的方式在一定程度上解决了算法的稳定性问题,但多个分类模型在同一批数据中训练得到的结果相似,在一定程度上又影响了预测精度,无法更好的满足风控精准度的要求。
在数据层面数据目前存在如下问题:风控产品的数据存在样本失衡严重的特点,一般黑白样本的比率高达1:200。风控行业的黑产对抗是一个不断升级对抗的过程,欺诈者不断试探规则去发现漏洞,因此欺诈交易的特征模式在不断的变化。最后,风险交易的识别需要做到尽量不影响正常用户的支付体验。
图1为本公开的业务风险预测方法的一些实施例的流程示意图。
在步骤110,构建预测当前业务风险前多个业务周期的多维度特征数据。
多个业务周期例如为两个业务周期,包括第一业务周期和第二业务周期。例如,以一个月为周期,如从每个月的1号到下个月的1号为一个业务周期月。在一些实施例中,例如要预测3月份的交易数据是否有风险,则需要获取1月份的交易数据和2月份的交易数据,对1月份的交易数据和2月份的交易数据进行特征提取,构建1月份的多维度特征数据和2月份的多维度特征数据。
在一些实施例中,多维度特征数据包括业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据中的两种或两种以上特征数据。
在相关技术中,风控样本的特征无法体现时间上的动态变化,无法直观体现和自身历史的对比情况。并且特征相对独立,没有体现不同关联维度的对比,寻找其中的对应趋势。类似盗刷之类的黑产行为往往在短时间内完成,如何设计特征识别这类短期风险,在盗刷的起始点就扼制住源头也是当前特征欠缺的。随着时间的推移,特征的分布范围也会随着黑产对抗的升级而有所变化,稳定的特征处理需要可以跟着分布的变化灵活变动,适应最新的情况。而风险控制的特征刻画需要判断用户在交易的各个环节的行为是否和之前的行为一致。因此,在该实施例中,提取业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据等,这些不同维度的特征数据能够反映用户的交易习惯、用户常在的时间和地域、用户的行为是否有操作异常或者高频事件发生等等。
在步骤120,对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据。
在一些实施例中,对第一业务周期的多维度特征数据对应的风险值进行标注,生成第一标注数据;对第二业务周期的多维度特征数据对应的风险值进行标注,生成第二标注数据。
例如,每一条交易数据对应1或0,1表示有风险,0表示没有风险,并将这些数据作为样本特征数据。
在步骤130,将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,风险预测模型的个数等于业务周期数的组合个数。
在一些实施例中,基于第一业务周期的多维度特征数据和第一标注数据训练第一风险预测模型,基于第二业务周期的多维度特征数据和第二标注数据训练第二风险预测模型,基于第一业务周期和第二业务周期的多维度特征数据、以及第一标注数据和第二标注数据训练第三风险预测模型。
在一些实施例中,分类模型例如为树模型,具体可以为LightGBM((lightgradient boosting machine,轻量级梯度提升树算法)模型。
在一些实施例中,例如要预测3月份的交易数据是否有风险,则可以利用1月份的交易数据训练第一风险预测模型,利用2月份的交易数据训练第二风险预测模型,利用1月和2月份的交易数据训练第三风险预测模型。
在一些实施例中,当前业务的风险值是根据多个风险预测模型预测的多个当前业务的多维度特征数据对应的风险值的平均运算值确定。在一些实施例中,平均运算例如为加权平均值或者算数平均值。
例如,当前业务的风险值是根据第一风险预测模型预测的当前业务的多维度特征数据对应的第一风险值、第二风险预测模型预测的当前业务的多维度特征数据对应的第二风险值和第三风险预测模型预测的当前业务的多维度特征数据对应的第三风险值的加权平均值确定。如,将3月份的多个维度的特征数据分别输入至第一风险预测模型、第二风险预测模型和第三风险预测模型,三个风险预测模型分别输出风险值为0.9,0.5和0.8,而三个风险预测模型的权重分别为0.3、0.2和0.6,则当前业务对应的风险值为0.76,可以判断该当前业务风险较大。
在上述实施例中,利用预测当前业务风险前多个业务周期的多维度特征数据,训练多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,由于多维度特征数据能够反映业务实际动态变化,并且,训练多个风险预测模型能够保证模型稳定性,并且解决现有多模型在同一批数据中训练得到的结果相似,重复性较大问题,提高了业务风险预测的准确性。
图2为本公开的业务风险预测方法的另一些实施例的流程示意图。
在步骤210,构建预测当前业务风险前第一业务周期和第二业务周期的业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据等多维度特征数据。
业务发送方例如为进行交易的用户,业务接收方例如为交易中的收款方。对于在类似线下扫码支付,或线上实时交易时,会有用户和对端信息输入到风控端,风控端针对信息字段进行特征提取处理等一系列操作,使得具有信息字段的数据变换成更具语义信息特征。
在一些实施例中,获取用于预测第N月业务交易风险的当前第N-1月交易数据和第N-2月交易数据,并对交易数据进行基本的数据清洗和选择。
在一些实施例中,业务发送方历史行为特征数据包括:业务发送方执行业务行为之前预定时间段的平均业务次数和最大业务次数、业务发送方对应当前环境出现次数以及出现次数与之前总业务次数之比。当前环境例如包括用户设备ID、IP、操作平台、交易省市等信息。
业务发送方历史行为特征数据是从历史时间维度上描述用户的行为。例如,用户在该时刻之前用户一小时内的平均交易次数,该时刻之前用户一小时内的最大交易次数,用户在过去三天的平均交易次数,用户在过去一周的平均交易次数,用户当前IP是否在之前出现过,用户当前IP出现的次数和之前总交易次数的比值,用户设备ID是否在之前出现过,用户设备ID出现的次数和之前总交易次数的比值,操作平台是否在之前出现过,操作平台出现的次数和之前总交易次数的比值,用户交易所在省市是否在之前出现过,用户交易所在省市出现的次数和之前总交易次数的比值等。
在一些实施例中,即时业务特征数据包括:当前预定时间内设备出现次数、设备出现次数与当前预定时间内总业务次数之比、该设备对应业务发送方数、以及业务发送方数与当前预定时间内总业务次数之比。
即时特征数据是指当前支付环境下,数据不同属性维度的统计。例如,包括当前小时内该交易设备出现次数,当前时刻内该设备出现不同用户数,该设备在当前小时内的出现次数与当前小时总交易次数的比值,该设备对应的不同的用户数与当前小时的总的交易次数比值等。
在一些实施例中,设备特征数据包括:当前业务之前设备对应不同业务发送方次数,以及预定时间设备对应的平均业务次数。
因为设备与用户身份强相关,能够最大力度刻画用户的行为,因此,可以提取设备特征数据。设备特征数据包括:当前交易之前该设备出现了不同的用户次数,当前交易之前该设备的平均交易次数等,如一小时的平均交易次数、一天的平均交易次数等。
在一些实施例中,网路环境特征数据包括:预定时间内网络环境对应的业务发送方数、业务接收方数、设备数,以及对应业务次数最多的业务发送方、业务接收方和设备,以及网络环境不同时间段内活跃度之比。
网络环境例如为IP。IP与当前支付环境强相关,最大力度刻画支付风险概率。IP属性特征包括:当前小时内该IP出现过不同的用户、收款方和设备次数,当前小时之前该IP出现过不同的用户、收款方和设备次数;,当前小时之内出现次数最多的用户、收款方和设备,该IP夜间的活跃度和白天活跃度的比值,活跃度例如为交易次数。
在一些实施例中,业务接收方特征数据包括:当前预定时间段内业务接收方对应的业务次数、出现次数最多的业务发送方、业务接收方和设备,业务接收方对应的业务发送方、设备以及每个业务发送方、设备出现次数,以及业务接收方不同时间段内活跃度之比。
收款方特征能捕获那些由于收款方账户异常导致的风险,因此,收款方特征数据包括:当前小时内与该收款方的交易次数,当前小时内出现次数最多的用户、收款方和设备,该收款方之前出现过不同的用户、收款方和设备的数,该收款方夜间的活跃度和白天的活跃度的比值,该收款方当前小时内不同的用户、设备以及每个用户、设备的出现次数等。
在相关技术中,特征数据相对独立,不能较好反应实际分布的动态变化。例如,系统获得的特征无法体现时间上的动态变化,无法直观体现和自身历史的对比情况;其次原始特征相对独立,没有体现不同关联维度的对比,寻找其中的对应趋势;类似盗刷之类的黑产行为往往在短时间内完成,如何设计特征识别这类短期风险,在盗刷的起始点就扼制住源头也是当前特征欠缺的;最后,随着时间的推移,特征的分布范围也会随着黑产对抗的升级而有所变化,稳定的特征处理需要可以跟着分布的变化灵活变动,适应最新的情况。而在该实施例中,通过有效的特征群组设计,充分考虑了用户的交易习惯、用户常在的时间和地域、用户的行为是否有操作异常或者高频事件发生等情况,保证了对交易数据的精准刻画,和动态描述。
在步骤220,对多维度特征数据中的类别特征数据进行混合编码处理。
在一些实施例中,多维度特征数据中既包括数据特征数据,还包括一些非数据特征数据,例如类别特征数据为非数据特征数据,无法直接输入分类模型,因此,需要对类别特征数据进行编码处理,得到数据特征数据。例如,将青年转换为数字10,将中年转换为数字15,将老年转换为数字30,这些数字表示不同账号受不同年龄段影响的风险大小。本领域的技术人员应当理解,此处仅用于举例。
在一些实施例中,对类别特征数据进行混合编码,即部分特征使用WOE(证据权重)/IV(信息值)编码,部分使用随机编码的方式。WOE/IV编码可以给类别特征中原本相互独立的特征带来大小上的信息,但是也容易造成标签泄露,因此对于样本中比较稳定缺失较少的特征进行WOE/IV编码,其余的采用随机编码。例如,对业务发送方历史行为特征数据和即时业务特征数据中的类别特征数据进行WOE/IV编码。对设备特征数据、网络环境特征数据和业务接收方特征数据采用随机编码。
在步骤230,对第一业务周期的多维度特征数据对应的风险值进行标注,生成第一标注数据,对第二业务周期的多维度特征数据对应的风险值进行标注,生成第二标注数据。
在步骤240,基于第一业务周期的多维度特征数据和第一标注数据训练第一风险预测模型,基于第二业务周期的多维度特征数据和第二标注数据训练第二风险预测模型,基于第一业务周期和第二业务周期的多维度特征数据、以及第一标注数据和第二标注数据训练第三风险预测模型。
例如,使用LightGBM模型训练,分别使用不同业务月数据第N-1月数据,第N-2月数据,和第N-1月与第N-2月数据,分别训练三个不同的风险预测模型,分别为第一风险预测模型、第二风险预测模型和第三风险预测模型。
在一些实施例中,在训练风险预测模型时,将每个风险预测模型输出结果与标注信息进行比较,判断比较结果是否满足构建风险预测模型的损失函数的要求,反复迭代,优化和调整风险预测模型的参数,使得比较结果最终满足构建风险预测模型的损失函数的要求,保存该风险预测模型。
在步骤250,将当前业务的多维度特征数据分别输出至第一风险预测模型、第二风险预测模型和第三风险预测模型,分别得到第一预测风险值、第二预测风险值和第三预测风险值。
例如,将第N月实时产生的交易数据分别输入至第一风险预测模型、第二风险预测模型和第三风险预测模型,得到三个预测风险值。
在一些实施例中,实时的特征应该避免时间上的穿越,也就是之后时刻记录的特征不能用到当前时间内的交易数据的风险预测。
在步骤260,将第一预测风险值、第二预测风险值和第三预测风险值加权平均后,作为当前业务的风险预测值。
在上述实施例中,在实时风控场景下,构建多维度的业务特征数据,用以稳定高效的刻画实时交易模式,并结合业务周期月的树结构风险控制模型加权融合,使得风险预测从稳定性、鲁棒性、精度方面都有较大提升,适用于解决多数风控场景下的实时交易风险预测。
图3为本公开的业务风险预测方法的另一些实施例的流程示意图。
在步骤310,构建当前业务对应的多维度特征数据。
在一些实施例中,多维度特征数据包括业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据等。
在步骤320,基于每个风险预测模型预测多维度特征数据对应的风险值。
在一些实施例中,每个风险预测模型根据预测当前业务风险前任意一个或多个业务周期的多维度特征数据和对应的标注数据训练得到,其中,风险预测模型的个数等于业务周期数的组合个数。
例如,构建预测当前业务风险前第一业务周期和第二业务周期的多维度特征数据;对第一业务周期的多维度特征数据对应的风险值进行标注,生成第一标注数据,对第二业务周期的多维度特征数据对应的风险值进行标注,生成第二标注数据;基于第一业务周期的多维度特征数据和第一标注数据训练第一风险预测模型,基于第二业务周期的多维度特征数据和第二标注数据训练第二风险预测模型,基于第一业务周期和第二业务周期的多维度特征数据、以及第一标注数据和第二标注数据训练第三风险预测模型。
在步骤330,将每个风险预测模型预测的风险值进行平均运算,得到当前业务对应的风险值。例如,对每个风险预测模型预测的风险值进行加权平均运算或算数平均运算,得到当前业务对应的风险值。
在该实施例中,通过对当前业务的多维度特征数据进行风险预测,并且利用多模型的预测结果进行平均运算,得到当前业务对应的风险值,使得风险预测结果更加稳定、精度更高,并且在风险交易的识别过程中不影响正常用户的支付体验。
图4为本公开的业务风险预测装置的一些实施例的结构示意图。该装置包括第一数据构建单元410、标注数据生成单元420和预测模型训练单元430。
第一数据构建单元410被配置为构建预测当前业务风险前多个业务周期的多维度特征数据。多个业务周期例如为两个业务周期,包括第一业务周期和第二业务周期。
在一些实施例中,多维度特征数据包括业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据中的两种或两种以上特征数据。
业务发送方历史行为特征数据包括:业务发送方执行业务行为之前预定时间段的平均业务次数和最大业务次数、业务发送方对应当前环境出现次数、以及出现次数与之前总业务次数之比。
即时业务特征数据包括:当前预定时间内设备出现次数、设备出现次数与当前预定时间内总业务次数之比、该设备对应业务发送方数、以及业务发送方数与当前预定时间内总业务次数之比。
设备特征数据包括:当前业务之前设备对应不同业务发送方次数、以及预定时间设备对应的平均业务次数。
网路环境特征数据包括:预定时间内网络环境对应的业务发送方数、业务接收方数、设备数,以及对应业务次数最多的业务发送方、业务接收方和设备,以及网络环境不同时间段内活跃度之比。
业务接收方特征数据包括:当前预定时间段内业务接收方对应的业务次数,出现次数最多的业务发送方、业务接收方和设备,业务接收方对应的业务发送方、设备以及每个业务发送方、设备出现次数,以及业务接收方不同时间段内活跃度之比。
在一些实施例中,第一数据构建单元410还被配置为对多维度特征数据中的类别特征数据进行混合编码处理。例如,对类别特征数据进行混合编码,即部分特征使用WOE/IV编码,部分使用随机编码的方式。
标注数据生成单元420被配置为对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据。
在一些实施例中,对第一业务周期的多维度特征数据对应的风险值进行标注,生成第一标注数据;对第二业务周期的多维度特征数据对应的风险值进行标注,生成第二标注数据。
预测模型训练单元430被配置为将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,风险预测模型的个数等于业务周期数的组合个数。
在一些实施例中,基于第一业务周期的多维度特征数据和第一标注数据训练第一风险预测模型,基于第二业务周期的多维度特征数据和第二标注数据训练第二风险预测模型,基于第一业务周期和第二业务周期的多维度特征数据、以及第一标注数据和第二标注数据训练第三风险预测模型。
在一些实施例中,分类模型例如为树模型,具体可以为LightGBM模型。
在一些实施例中,当前业务的风险值是根据多个风险预测模型预测的多个当前业务的多维度特征数据对应的风险值的平均运算值确定。在一些实施例中,平均运算例如为加权平均值或者算数平均值。
在上述实施例中,利用预测当前业务风险前多个业务周期的多维度特征数据,训练多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,由于多维度特征数据能够反映业务实际动态变化,并且,训练多个风险预测模型能够保证模型稳定性,并且解决现有多模型在同一批数据中训练得到的结果相似,重复性较大问题,提高了业务风险预测的准确性。
图5为本公开的业务风险预测装置的另一些实施例的结构示意图。该装置包括第二数据构建单元510、风险预测单元520和风险确定单元530。
第二数据构建单元510被配置为构建当前业务对应的多维度特征数据。
在一些实施例中,多维度特征数据包括业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据等。
风险预测单元520被配置为基于每个风险预测模型预测多维度特征数据对应的风险值。
在一些实施例中,每个风险预测模型根据预测当前业务风险前任意一个或多个业务周期的多维度特征数据和对应的标注数据训练得到,其中,风险预测模型的个数等于业务周期数的组合个数。
风险确定单元530被配置为将每个风险预测模型预测的风险值进行平均运算,得到当前业务对应的风险值。
例如,对每个风险预测模型预测的风险值进行加权平均运算或算数平均运算,得到当前业务对应的风险值。
在该实施例中,通过对当前业务的多维度特征数据进行风险预测,并且利用多模型的预测结果进行平均运算,得到当前业务对应的风险值,使得风险预测结果更加稳定、精度更高。
图6为本公开的业务风险预测系统的一些实施例的结构示意图。该系统包括图4实施例所示的第一数据构建单元410、标注数据生成单元420和预测模型训练单元430,以及图5实施例所示的第二数据构建单元510、风险预测单元520和风险确定单元530。
在上述实施例中,构建多维度的业务特征数据,并结合业务周期月的树结构风险控制模型加权融合,增强了预测风险的稳定性和提升精度,适用于解决多数风控场景下的实时交易风险预测。
图7为本公开的业务风险预测系统的另一些实施例的结构示意图。该系统包括存储器710和处理器720。其中:存储器710可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1-3所对应实施例中的指令。处理器720耦接至存储器710,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器720用于执行存储器中存储的指令。
在一些实施例中,处理器720通过BUS总线730耦合至存储器710。该系统700还可以通过存储接口740连接至外部存储系统750以便调用外部数据,还可以通过网络接口760连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,提高了业务风险预测的准确性。
在另一些实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1-3所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims (13)

1.一种业务风险预测方法,包括:
构建预测当前业务风险前多个业务周期的多维度特征数据;
对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据;
将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,所述风险预测模型的个数等于业务周期数的组合个数。
2.根据权利要求1所述的业务风险预测方法,其中,
所述当前业务的风险值是根据多个风险预测模型预测的多个当前业务的多维度特征数据对应的风险值的平均运算值确定。
3.根据权利要求1或2所述的业务风险预测方法,其中,
所述多维度特征数据包括:业务发送方历史行为特征数据、即时业务特征数据、设备特征数据、网络环境特征数据和业务接收方特征数据中的两种或两种以上特征数据。
4.根据权利要求1或2所述的业务风险预测方法,其中,
对所述多维度特征数据中的类别特征数据进行混合编码处理。
5.根据权利要求3所述的业务风险预测方法,其中,
所述业务发送方历史行为特征数据包括:业务发送方执行业务行为之前预定时间段的平均业务次数和最大业务次数、业务发送方对应当前环境出现次数、以及出现次数与之前总业务次数之比;
所述即时业务特征数据包括:当前预定时间内设备出现次数、设备出现次数与当前预定时间内总业务次数之比、该设备对应业务发送方数、以及业务发送方数与当前预定时间内总业务次数之比;
所述设备特征数据包括:当前业务之前设备对应不同业务发送方次数、以及预定时间设备对应的平均业务次数;
所述网路环境特征数据包括:预定时间内网络环境对应的业务发送方数、业务接收方数、设备数,以及对应业务次数最多的业务发送方、业务接收方和设备,以及网络环境不同时间段内活跃度之比;
所述业务接收方特征数据包括:当前预定时间段内业务接收方对应的业务次数,出现次数最多的业务发送方、业务接收方和设备,业务接收方对应的业务发送方、设备以及每个业务发送方、设备出现次数,以及业务接收方不同时间段内活跃度之比。
6.根据权利要求1或2所述的业务风险预测方法,其中,多个业务周期包括第一业务周期和第二业务周期,多个风险预测模型包括第一风险预测模型、第二风险预测模型和第三风险预测模型;
基于所述第一业务周期的多维度特征数据和对应的标注数据训练第一风险预测模型,基于所述第二业务周期的多维度特征数据和对应的标注数据训练第二风险预测模型,基于所述第一业务周期和第二业务周期的多维度特征数据和对应的标注数据训练第三风险预测模型。
7.一种业务风险预测方法,包括:
构建当前业务对应的多维度特征数据;
基于每个风险预测模型预测所述多维度特征数据对应的风险值;
将每个风险预测模型预测的风险值进行平均运算,得到所述当前业务对应的风险值。
8.根据权利要求7所述的业务风险预测方法,其中,
每个风险预测模型根据预测当前业务风险前任意一个或多个业务周期的多维度特征数据和对应的标注数据训练得到,其中,所述风险预测模型的个数等于业务周期数的组合个数。
9.一种业务风险预测装置,包括:
第一数据构建单元,被配置为构建预测当前业务风险前多个业务周期的多维度特征数据;
标注数据生成单元,被配置为对每个业务周期的多维度特征数据对应的风险值进行标注,生成标注数据;
预测模型训练单元,被配置为将任意一个或多个业务周期的多维度特征数据和对应的标注数据输入至分类模型,对分类模型进行训练,得到多个风险预测模型,以便基于训练好的多个风险预测模型预测当前业务的风险,其中,所述风险预测模型的个数等于业务周期数的组合个数。
10.一种业务风险预测装置,包括:
第二数据构建单元,被配置为构建当前业务对应的多维度特征数据;
风险预测单元,被配置为基于每个风险预测模型预测所述多维度特征数据对应的风险值;
风险确定单元,被配置为将每个风险预测模型预测的风险值进行平均运算,得到所述当前业务对应的风险值。
11.一种业务风险预测系统,包括:
权利要求9所述的业务风险预测装置;以及
权利要求10所述的业务风险预测装置。
12.一种业务风险预测系统,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至8任一项所述的业务风险预测方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至8任一项所述的业务风险预测方法。
CN202010223926.2A 2020-03-26 2020-03-26 业务风险预测方法、装置和系统 Active CN113449753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010223926.2A CN113449753B (zh) 2020-03-26 2020-03-26 业务风险预测方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010223926.2A CN113449753B (zh) 2020-03-26 2020-03-26 业务风险预测方法、装置和系统

Publications (2)

Publication Number Publication Date
CN113449753A true CN113449753A (zh) 2021-09-28
CN113449753B CN113449753B (zh) 2024-01-02

Family

ID=77807121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010223926.2A Active CN113449753B (zh) 2020-03-26 2020-03-26 业务风险预测方法、装置和系统

Country Status (1)

Country Link
CN (1) CN113449753B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548765A (zh) * 2022-02-22 2022-05-27 支付宝(杭州)信息技术有限公司 用于风险识别的方法和装置
CN115618962A (zh) * 2022-10-18 2023-01-17 支付宝(杭州)信息技术有限公司 一种模型训练的方法、业务风控的方法及装置
CN116029556A (zh) * 2023-03-21 2023-04-28 支付宝(杭州)信息技术有限公司 一种业务风险的评估方法、装置、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016013004A1 (en) * 2014-07-21 2016-01-28 Zebra Medical Vision Ltd. Systems and methods for prediction of osteoporotic fracture risk
CN107346463A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 风险控制模型的训练、模型输入数据确定方法及装置
CN108665175A (zh) * 2018-05-16 2018-10-16 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备
CN109242499A (zh) * 2018-09-19 2019-01-18 中国银行股份有限公司 一种交易风险预测的处理方法、装置及系统
CN110111198A (zh) * 2019-04-23 2019-08-09 上海淇玥信息技术有限公司 用户金融风险预估方法、装置、电子设备及可读介质
CN110298601A (zh) * 2019-07-05 2019-10-01 上海观安信息技术股份有限公司 一种基于规则引擎的实时业务风控系统
CN110533536A (zh) * 2019-08-30 2019-12-03 中国工商银行股份有限公司 交易风险评估方法、装置和计算机系统
CN110728458A (zh) * 2019-10-18 2020-01-24 支付宝(杭州)信息技术有限公司 一种目标对象的风险监测方法、装置及电子设备
CN110796270A (zh) * 2019-10-25 2020-02-14 深圳市超算科技开发有限公司 一种机器学习模型选择方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016013004A1 (en) * 2014-07-21 2016-01-28 Zebra Medical Vision Ltd. Systems and methods for prediction of osteoporotic fracture risk
CN107346463A (zh) * 2016-05-04 2017-11-14 阿里巴巴集团控股有限公司 风险控制模型的训练、模型输入数据确定方法及装置
CN108665175A (zh) * 2018-05-16 2018-10-16 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备
CN109242499A (zh) * 2018-09-19 2019-01-18 中国银行股份有限公司 一种交易风险预测的处理方法、装置及系统
CN110111198A (zh) * 2019-04-23 2019-08-09 上海淇玥信息技术有限公司 用户金融风险预估方法、装置、电子设备及可读介质
CN110298601A (zh) * 2019-07-05 2019-10-01 上海观安信息技术股份有限公司 一种基于规则引擎的实时业务风控系统
CN110533536A (zh) * 2019-08-30 2019-12-03 中国工商银行股份有限公司 交易风险评估方法、装置和计算机系统
CN110728458A (zh) * 2019-10-18 2020-01-24 支付宝(杭州)信息技术有限公司 一种目标对象的风险监测方法、装置及电子设备
CN110796270A (zh) * 2019-10-25 2020-02-14 深圳市超算科技开发有限公司 一种机器学习模型选择方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548765A (zh) * 2022-02-22 2022-05-27 支付宝(杭州)信息技术有限公司 用于风险识别的方法和装置
CN115618962A (zh) * 2022-10-18 2023-01-17 支付宝(杭州)信息技术有限公司 一种模型训练的方法、业务风控的方法及装置
CN115618962B (zh) * 2022-10-18 2023-05-23 支付宝(杭州)信息技术有限公司 一种模型训练的方法、业务风控的方法及装置
CN116029556A (zh) * 2023-03-21 2023-04-28 支付宝(杭州)信息技术有限公司 一种业务风险的评估方法、装置、设备及可读存储介质
CN116029556B (zh) * 2023-03-21 2023-05-30 支付宝(杭州)信息技术有限公司 一种业务风险的评估方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN113449753B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN113449753A (zh) 业务风险预测方法、装置和系统
CN106296195A (zh) 一种风险识别方法及装置
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN112784986A (zh) 深度学习计算结果的特征解释方法、装置、设备及介质
CN110347786B (zh) 一种语义模型的调优方法及系统
CN111210332A (zh) 贷后管理策略生成方法、装置及电子设备
CN113570437A (zh) 一种产品推荐方法和装置
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111695979A (zh) 一种原材料与成品的关系分析方法、装置及设备
CN113887214B (zh) 基于人工智能的意愿推测方法、及其相关设备
CN107330709B (zh) 确定目标对象的方法及装置
CN110213239B (zh) 可疑交易报文生成方法、装置及服务器
CN110544166A (zh) 样本生成方法、装置及存储介质
JP7332190B2 (ja) 機械学習基盤情報の提供方法および装置
CN115795144A (zh) 一种产品推荐方法、装置及电子设备
CN115167965A (zh) 交易进度条的处理方法及装置
CN117993910A (zh) 异常交易应对策略的验证方法及相关装置
CN115689571A (zh) 异常用户行为监测方法、装置、设备和介质
CN113220947A (zh) 对事件特征进行编码的方法和装置
CN112862327A (zh) 一种服务标签生成方法、装置及介质
CN114285896A (zh) 信息推送方法、装置、设备、存储介质及程序产品
Xiang et al. Feature propagation on graph: A new perspective to graph representation learning
CN112686676A (zh) 一种工业互联网标识链处理方法、装置和设备
CN111898708A (zh) 一种迁移学习方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220126

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Applicant after: Tianyiyun Technology Co.,Ltd.

Address before: No.31, Financial Street, Xicheng District, Beijing, 100033

Applicant before: CHINA TELECOM Corp.,Ltd.

GR01 Patent grant
GR01 Patent grant