CN107346463A - 风险控制模型的训练、模型输入数据确定方法及装置 - Google Patents

风险控制模型的训练、模型输入数据确定方法及装置 Download PDF

Info

Publication number
CN107346463A
CN107346463A CN201610290448.0A CN201610290448A CN107346463A CN 107346463 A CN107346463 A CN 107346463A CN 201610290448 A CN201610290448 A CN 201610290448A CN 107346463 A CN107346463 A CN 107346463A
Authority
CN
China
Prior art keywords
service
business
relative risk
property value
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610290448.0A
Other languages
English (en)
Other versions
CN107346463B (zh
Inventor
杨维嘉
夏威
范晓峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610290448.0A priority Critical patent/CN107346463B/zh
Publication of CN107346463A publication Critical patent/CN107346463A/zh
Application granted granted Critical
Publication of CN107346463B publication Critical patent/CN107346463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开一种风险控制模型的训练方法及装置,用于提高输入数据的全面性,从而提高模型训练结果的准确性。所述方法包括:获取第一时间段内已完成业务的记录,业务记录包括业务账户和业务环境,业务环境中包含若干业务属性;确定业务属性的属性值对应的风险率,风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,第二时间段长于第一时间段;根据确定出的风险率、所述已完成业务对应的业务环境、以及对应的业务账户在所述第一时间段内的历史行为记录,确定输入数据;根据所述输入数据,对风险控制模型进行训练。本申请还公开一种风险控制模型的输入数据确定方法及装置。

Description

风险控制模型的训练、模型输入数据确定方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种风险控制模型的训练方法及装置,以及一种风险控制模型的输入数据确定方法及装置。
背景技术
随着互联网的发展,互联网业务越来越丰富。随之而来的互联网业务的欺诈行为,也越来越多。比如,盗取他人账户或盗用他人账户进行非法交易、或单个账户业务量激增(信用值炒作)等。因此,为了确保信息操作安全,通常一项互联网业务所属的系统需要有风险控制系统,这个系统的核心就是风险控制模型。风险控制模型可以通过将已完成的业务记录对应的业务环境以及该业务的业务账户的历史行为记录作为输入数据,进行训练得到。借助于风险控制模型,当该模型接收到业务请求时,通过业务请求的所在环境便可进行风险识别。这里业务请求所在环境可以包括业务请求中的设备、IP地址、地理位置等属性和属性值。
在目前的模型训练过程中,如上所述,会将已完成的业务记录当时对应的业务环境,以及业务账户在过往一段时间内的历史行为记录作为输入数据,对模型进行训练,但是,该输入数据只有一定时间段内的数据,比较片面,容易导致由此训练的模型不准确。
发明内容
本申请实施例提供一种风险控制模型的训练方法,用于提高输入数据的全面性,从而提高模型训练结果的准确性。
本申请实施例提供一种风险控制模型的训练装置,用于提高输入数据的全面性,从而提高模型训练结果的准确性。
本申请实施例提供一种风险控制模型的输入数据确定方法,用于提高输入数据的全面性。
本申请实施例提供一种风险控制模型的输入数据确定装置,用于提高输入数据的全面性。
本申请实施例采用下述技术方案:
一种风险控制模型的训练方法,包括:
获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,所述第二时间段长于所述第一时间段;
根据确定出的风险率、所述已完成业务对应的业务环境、以及对应的业务账户在所述第一时间段内的历史行为记录,确定输入数据;
根据所述输入数据,对风险控制模型进行训练。
优选地,确定业务属性的属性值对应的风险率,包括:
确定各业务属性的属性值对应的风险率,所述风险率是根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
优选地,确定业务属性的属性值对应的风险率,包括:
确定至少两个业务属性的属性值组合对应的风险率,所述风险率是根据业务环境包含所述至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
优选地,确定业务属性的属性值对应的风险率,包括:
确定业务属性的共性属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
优选地,确定业务属性的属性值对应的风险率,包括:
查询业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数预先确定的。
优选地,所述历史业务记录的对应的业务账户数量大于、且包含所述历史行为记录对应的业务账户数量。
一种风险控制模型的训练装置,包括:业务获取单元、风险率确定单元、输入数据确定单元以及模型训练单元,其中,
所述业务获取单元,用于获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
所述风险率确定单元,用于确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,所述第二时间段长于所述第一时间段;
所述输入数据确定单元,用于根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定输入数据;
所述模型训练单元,用于根据所述输入数据,对风险控制模型进行训练。
优选地,所述装置还包括:风险率生成单元,具体用于:
根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
优选地,所述风险率生成单元,具体用于:
根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成各业务属性的属性值对应的风险率。
优选地,所述风险率生成单元,具体用于:
根据业务环境包含所述至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成至少两个业务属性的属性值组合对应的风险率。
优选地,所述风险率生成单元,具体用于:
根据业务环境包含所述业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的共性属性值对应的风险率。
优选地,所述风险率生成单元,包括风险率查询子单元,具体用于:
查询业务属性的属性值对应的风险率,所述风险率是根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数预先生成的。
一种风险控制模型的输入数据确定方法,包括:
获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,所述第二时间段长于所述第一时间段;
根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定风险控制模型的输入数据。
一种风险控制模型的输入数据确定装置,包括:业务获取单元、风险率确定单元以及输入数据确定单元,其中,
所述业务获取单元,用于获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
所述风险率确定单元,用于确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,所述第二时间段长于所述第一时间段;
所述输入数据确定单元,用于根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定风险控制模型的输入数据。
优选地,所述装置还包括:风险率生成单元,具体用于:
根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:通过第一时间段内已完成业务对应的业务环境中包含的业务属性值,确定出业务环境中包含业务属性值的长于第一时间段的第二时间段内的已完成业务在历史业务中的风险率,并将风险率加入到第一时间段内已完成业务对应的业务环境以及对应的业务账户在指定时间段内的历史行为记录中,综合确定出输入数据。也就是,利用业务环境中包含属性值的在较长时间段内已完成业务的风险率,辅助业务账户在较短时间段内的历史行为记录作为输入数据,使得输入数据更加全面,进而提高模型训练结果的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为现有的风险控制模型的训练的示意图;
图2为本申请实施例1提供的风险控制模型的训练方法的流程示意图;
图3为本申请实施例1提供的风险控制模型的训练方法的示意图;
图4为本申请实施例2提供的风险控制模型的训练装置的结构框图;
图5为本申请实施例3提供的风险控制模型的输入数据确定方法的流程示意图;
图6为本申请实施例4提供的风险控制模型的输入数据确定装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
实施例1
如前所述,如图1所示,目前在对风险控制模型进行训练时,仅仅会将已完成的业务记录当时对应的业务环境,以及业务账户在过往一段时间内的历史行为记录作为输入数据,比如,业务1为已经完成的业务,该任务被确定为是欺诈业务,该业务完成后业务记录中包括业务账户A和业务环境,业务环境中包含四种业务属性:移动终端、IP地址、地理位置,每种属性均对应各自的属性值。那么就可以去获取账户A在过去一个季度的历史行为记录(这其中,可能包括修改密码,更换绑定邮箱等行为,这个历史行为记录对应的业务环境可能包含该业务完成时的业务属性值,也可能不包含,但都可以是这个账户的行为),从而将该已完成业务的业务环境、以及对应业务账户在过往一段时间内的历史行为记录作为输入数据,对风险控制模型进行训练。但是可以看出,输入数据只有一段时间内的,比较片面,有可能这段时间内的历史行为记录不存在欺诈行为的“原因”,如果将全量的历史行为记录都作为输入数据,又是非常大的数据量,并且理论上看相距时间越久,有用的信息就越少,也就可以认为存在很多垃圾数据,不仅浪费处理资源,还有可能对模型训练的准确性造成干扰,所以就很难控制选取历史行为记录的时间段。本申请实施例就提供了一种风险控制模型的训练方法,用于提高输入数据的全面性,从而提高模型训练结果的准确性。该方法的流程示意图如图2所示,包括下述步骤:
步骤11:获取第一时间段内已完成业务的记录。
互联网业务每时每刻都会发生,每个业务都可以对应一个业务账户,在这里可以是指发起业务的业务账户,比如,账户A发起了某个互联网业务,那么账户A就是该互联网业务对应的业务账户,所以在已完成的业务的记录中会包括业务账户。此外,每个业务还都会处在某个业务环境中,这个业务环境会包含若干业务属性,比如设备(业务属性)是移动终端还是固定终端(属性值);IP(Internet Protocol,网络之间互连的协议)地址(122.156.9.6);地理位置(北京、上海);如果涉及电子支付等,还会有银行卡的类型(储蓄卡、信用卡),银行标识(中国银行、中国工商银行),等。
在获取第一时间段内已完成业务的业务记录时,可以获取已经有结果(是否存在欺诈行为)的业务的记录,第一时间段可以是预先设定的一个时间段,比如获取一天(或一月、一季度、一年)前的所有已完成的、已经有是否存在欺诈结果的业务的记录,这样就有训练的价值,也就可以作为输入数据,对模型进行训练。如果没有结果也就是暂时还不知道是不是存在欺诈行为,也就没有必要获取了。
步骤12:确定业务属性的属性值对应的风险率。
由于在本实施例开头已经介绍,如果将全量的历史行为记录都作为输入数据,是非常大的数据量(平均每个账户可能有很多年的数据),对于模型的训练也是一种负担,况且时间相距越远,参考性也就越低,所以就可以获取已完成业务对应的业务账户在第一时间段内的历史行为记录,通常可以是一个季度、半年的,但是对于欺诈行为这个结果而言,有可能无法从第一时间段内的历史行为中找到“原因”。
所以,本申请实施例提出业务属性的属性值对应的风险率。这个风险率可以是根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,当然,第二时间段要长于第一时间段,这样才可以达到利用比第一时间段更长时间的历史业务的目的,从而达到提供相对全面的风险率数据的目的。比如,已完成的业务的记录是账户A在2016年3月10日完成的,是一个欺诈业务,历史行为记录可以是账户A在2015年12月10日至2016年3月10日的所有历史行为的记录,而根据账户A的业务环境中的属性值a的风险率可以是2010年12月10日至2016年3月10日内,所有包含属性值a的欺诈业务次数与完成的总业务次数的比值。具体地,对于包含业务属性的属性值的历史业务记录,比如这个已完成的业务的属性值中包含的业务属性是信用卡、属性值是具体某发卡行的信用卡,那么所有用该发卡行信用卡完成的历史业务的记录都是包含这个业务属性的属性值的历史业务的记录;属性是指地理位置、属性值是具体某地区,那么所有在这个地区完成的历史业务记录都是包含这个属性值的历史业务记录。需要说明的是,历史业务可以与已完成的业务中的业务账户无关,也可以包含这个账户。具体地,风险率的确定方法可以有以下四种:
第一种方法:根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,确定各业务属性的属性值对应的风险率。
具体地,各业务属性的属性值,都可以对应一个单独的风险率,比如,用某个发卡行或某种类型信用卡进行支付时的风险率,某个品牌移动终端在申请业务时的风险率等。具体可以按照下述公式进行确定:
Risk_ratio=count(risk_A)/count(A);
其中,Risk_ratio是指风险率;count为次数;A为属性值变量;risk_A为包含属性值A的欺诈业务;
比如业务属性为信用卡,那Risk_ratio就为业务环境包含信用卡的已完成业务的风险率;比如,中国银行信用卡、交通银行VISA信用卡,又如,某品牌移动终端、某个操作系统的移动终端,等。
在实际应用中,网络欺诈行为的业务环境可能不仅一个属性是“原因”,也有可能是多个属性值代表这个“原因”,所以就可以有第二种风险率的确定方法。
第二种方法:根据业务环境包含至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,确定至少两个业务属性的属性值组合对应的风险率。
具体地,包含每两个业务属性值的组合的已完成业务,也可以有一个风险率,比如,同时用移动终端和信用卡进行支付时的风险率,同时用某个操作系统的移动终端和某个银行(的某款)信用卡支付进行支付时的风险率等。具体可以按照下述公式进行确定:
Risk_ratio=count(risk_AB)/count(AB);
其中,AB为属性值的组合,是两个变量;risk_AB为即包含属性值A又包含属性值B的欺诈业务;
比如业务属性为移动终端和信用卡,那Risk_ratio就为既用某个移动终端又用某个信用卡的已完成业务的风险率;当然,还可以有三个及以上属性值的组合。
在实际应用中,属性值可能是比较具体的,具有很强的特殊性,比如,银行卡的卡号,IP地址等,但是这其中也是可以找出共性特征的,所以就可以有第三种风险率的确定方法。
第三种方法:根据业务环境包含业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,确定业务属性的共性属性值对应的风险率。
前面已经提到,一些具有特殊性的业务属性值中是可能存在共性特征的,所以包含共性属性值的已完成业务也就可以有一个风险率,比如,银行卡开头四位是6222的银行进行支付时的风险率,IP地址前三位是122.156.9在请求业务时的风险率等。具体可以按照下述公式进行确定:
Risk_ratio=count(risk_A)/count(A);
其中,A为共性属性值;risk_A即为业务环境包含共性属性值A的欺诈业务。
在实际应用中,由于每时每刻都会发生互联网业务,所以业务环境包含属性值的已完成业务的风险率也就可能随时在变化,如果只在每次需要输入数据时才去确定风险率,显然效率不高,所以就可以设立一个单独的功能,实时或按照一定时间间隔为业务环境中包含每个属性值、属性值组合以及共性属性值的已完成业务的风险率进行动态调整。所以在一种实施方式中,本步骤还可以是查询业务属性的属性值对应的风险率,该风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数预先确定的。
比如,在步骤11中获取到了第一时间段内已完成的业务记录以及对应的业务环境后,在本步骤中,就可以在已经生成好的第二时间段内的风险率数据中,查询所需要的风险率。
需要说明的是,本步骤用于确定风险率的公式还可以进行衍生,比如,以Risk_ratio=count(risk_A)/count(A)为例,还可以衍生为
Risk_ratio=count2(risk_A)/count(A);或
Risk_ratio=count(risk_A)/count2(A);或
Risk_ratio=count(risk_A)×p/count(A);其中,p可以是预先设定的调整系数。
步骤13:根据确定出的风险率、已完成业务对应的业务环境以及对应的业务账户在第一时间段内的历史行为记录,确定输入数据。
现有的确定输入数据的方案就是,将已完成业务对应的业务账户和业务环境以及该业务账户在第一时间段内的历史行为记录,作为输入数据,因为业务账户在第一时间段内的历史行为记录中隐藏了业务账户的行为习惯,所以可以将该账户的已完成业务作为一种验证,来进行模型训练。但由于第一时间段比较片面,所以本步骤可以综合业务环境中包含属性的属性值的在第二时间段内的已完成业务的风险率,作为输入数据,甚至第二时间段可以是全量时间段,也就是风险率可以通过全量历史业务记录来生成,所以在一定程序上使得输入数据的更加全面。
在实际应用中,毕竟欺诈行为是少数,所以确定出的风险率可能是极低的,比如万分之一,十万分之一等,但是,不同属性(组合)之间的风险率是有可比性的,比如,哪两个属性值的组合的风险比较高,哪个属性值的共性特征的风险比较低等,所以,在确定输入数据时,可以将风险率进行归一化处理,得到相对的风险率,比如,可以将风险率归一化到0~100的区间内,值越高风险越高,等。
在实际应用中,除了时间段的选择外,对历史业务记录的对应的业务账户数量的选择还可以大于、且包含历史行为记录对应的业务账户数量。比如,在2016年3月10日,有账户1到账户100,这100个业务账户完成的业务的记录,那么会选取这100个账户在在2015年12月10日至2016年3月10日的所有历史行为的记录,在确定风险率是,就可以摆脱这100个账户的束缚,选取包含这100个账户、并且更多的账户的历史业务记录,只要是包含着100个账户已完成业务的属性值就可以用来确定风险率。
一般地,为了最大程度的追求风险率的全面性,可以以全量的历史业务记录作为确定风险率的依据。
步骤14:根据该输入数据,对风险控制模型进行训练。
如图3所示,就是对模型训练的过程,上一步骤已经提到,可以将该账户的已完成业务对行为习惯进行验证,来进行模型训练。具体地,训练的逻辑为,如果这个已完成业务的业务环境符合该业务账户的行为习惯,并且为非欺诈业务,那么就可以保持或微调该账户的行为习惯(比如,消费额度大于一般习惯,但没有欺诈,所以就可以微调消费额度);如果这个已完成业务的业务环境不符合该业务账户的行为习惯,并且为欺诈业务,那么就可以得出只要该账户在请求业务时,业务环境不满足历史行为习惯,则风险较高。并且在本步骤中,可以综合属性值的风险率,属性值组合的风险率,以及属性值的共性特征的风险率,再与原有的已完成业务的业务环境和业务账户的历史行为,对模型进行训练。由于模型训练不是本申请的重点,所以不多赘述。
采用实施例1提供的该方法,通过第一时间段内已完成业务对应的业务环境中包含的业务属性值,确定出业务环境中包含业务属性值的长于第一时间段的第二时间段内的已完成业务在历史业务中的风险率,并将风险率加入到第一时间段内已完成业务对应的业务环境以及对应的业务账户在指定时间段内的历史行为记录中,综合确定出输入数据。也就是,利用业务环境中包含属性值的在较长时间段内已完成业务的风险率,辅助业务账户在较短时间段内的历史行为记录作为输入数据,使得输入数据更加全面,进而提高模型训练结果的准确性。此外,还可以通过对属性值进行组合和共性特征提取,并以全量的历史记录作为基础,丰富并优化风险率。
实施例2
基于相同的发明构思,实施例2提供了一种风险控制模型的训练装置,用于提高输入数据的全面性,从而提高模型训练结果的准确性。图4为该装置的结构框图,该装置包括:业务获取单元21、风险率确定单元22、输入数据确定单元23以及模型训练单元24,其中,
业务获取单元21,可以用于获取第一时间段内已完成业务的记录,该业务记录包括:业务账户和业务环境,该业务环境中包含若干业务属性;
风险率确定单元22,可以用于确定业务属性的属性值对应的风险率,该风险率是根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,该第二时间段长于所述第一时间段;
输入数据确定单元23,可以用于根据确定出的风险率、该已完成业务对应的业务环境以及对应的业务账户在第一时间段内的历史行为记录,确定输入数据;
模型训练单元24,可以用于根据所述输入数据,对风险控制模型进行训练。
实施例1中已经提到,可以设立一个单独的功能,所以在实际应用中,出于效率的考虑,风险率也可以是由单独的单元来完成。所以在一种实施方式中,该装置还可以包括:风险率生成单元,
该风险率生成单元,可以用于根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
具体地,该风险率生成单元,可以用于根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成各业务属性的属性值对应的风险率。
该风险率生成单元,还可以用于根据业务环境包含至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成至少两个业务属性的属性值组合对应的风险率。
该风险率生成单元,还可以用于根据业务环境包含业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的共性属性值对应的风险率。
在实际应用中,风险率生成单元可以维护一个表格,该表格中包含所有业务环境中包含属性值,包括各种属性值的组合,以及共性属性值的已完成业务的风险率数据,并且实时更新,为了更加全面,该风险率数据就可以根据全量的历史记录来生成。这时,风险率确定单元22就无需确定了,所以风险率生成单元22可以包括风险率查询子单元,可以用于:在预先生成的第二时间段内的业务属性值风险率数据中,查询业务环境包含所述业务属性值的已完成业务在历史业务中的风险率。比如,需要某品牌移动终端的风险率,就可以从风险率生成单元生成的风险率数据的表格中查询并获取。
采用实施例2提供的该装置,通过第一时间段内已完成业务对应的业务环境中包含的业务属性值,确定出业务环境中包含业务属性值的长于第一时间段的第二时间段内的已完成业务在历史业务中的风险率,并将风险率加入到第一时间段内已完成业务对应的业务环境以及对应的业务账户在指定时间段内的历史行为记录中,综合确定出输入数据。也就是,利用业务环境中包含属性值的在较长时间段内已完成业务的风险率,辅助业务账户在较短时间段内的历史行为记录作为输入数据,使得输入数据更加全面,进而提高模型训练结果的准确性。此外,还可以通过对属性值进行组合和共性特征提取,并以全量的历史记录作为基础,丰富并优化风险率。
实施例3
在前两个实施例中介绍了模型的训练方法,其实归根结底,还是输入数据不够全面,所以基于相同的发明思路。本申请实施例就提供了一种风险控制模型的输入数据确定方法,用于提高输入数据的全面性。该方法的流程示意图如图5所示,包括下述步骤:
步骤31:获取第一时间段内已完成业务的记录。
与实施例1中步骤11类似,业务记录可以包括业务账户和业务环境,该业务环境中可以包含若干业务属性。
步骤32:确定业务属性的属性值对应的风险率。
也与实施例1中步骤12类似,该风险率可以是根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,这里的第二时间段要长于第一时间段。
步骤33:根据确定出的风险率、已完成业务对应的业务环境以及对应的业务账户在第一时间段内的历史行为记录,确定输入数据。
依旧与实施例1中步骤13类似,将风险率作为辅助因素,使用于模型训练的输入数据,更加全面。
采用实施例3提供的该方法,使得输入数据更加全面,也就可以再后续训练模型的过程中,提高训练的准确性。
实施例4
基于相同的发明构思,本实施例提供了一种风险控制模型的输入数据确定装置,用于提高输入数据的全面性。图6为该装置的结构框图,该装置包括:业务获取单元41、风险率确定单元42以及输入数据确定单元43,其中,
业务获取单元41,可以用于获取第一时间段内已完成业务的记录,该业务记录可以包括业务账户和业务环境,该业务环境中可以包含若干业务属性;
风险率确定单元42,可以用于确定业务属性的属性值对应的风险率,风险率是根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,第二时间段长于第一时间段;
输入数据确定单元43,可以用于根据确定出的风险率、该已完成业务对应的业务环境以及对应的业务账户在第一时间段内的历史行为记录,确定输入数据。
在一种实施方式中,该装置还可以包括:风险率生成单元,
该风险率生成单元,可以用于根据业务环境包含业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
采用实施例4提供的该装置,使得输入数据更加全面,也就可以再后续训练模型的过程中,提高训练的准确性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (15)

1.一种风险控制模型的训练方法,其特征在于,包括:
获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,所述第二时间段长于所述第一时间段;
根据确定出的风险率、所述已完成业务对应的业务环境、以及对应的业务账户在所述第一时间段内的历史行为记录,确定输入数据;
根据所述输入数据,对风险控制模型进行训练。
2.如权利要求1所述的方法,其特征在于,确定业务属性的属性值对应的风险率,包括:
确定各业务属性的属性值对应的风险率,所述风险率是根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
3.如权利要求1所述的方法,其特征在于,确定业务属性的属性值对应的风险率,包括:
确定至少两个业务属性的属性值组合对应的风险率,所述风险率是根据业务环境包含所述至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
4.如权利要求1所述的方法,其特征在于,确定业务属性的属性值对应的风险率,包括:
确定业务属性的共性属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的。
5.如权利要求1所述的方法,其特征在于,确定业务属性的属性值对应的风险率,包括:
查询业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数预先确定的。
6.如权利要求1所述的方法,其特征在于,所述历史业务记录的对应的业务账户数量大于、且包含所述历史行为记录对应的业务账户数量。
7.一种风险控制模型的训练装置,其特征在于,包括:业务获取单元、风险率确定单元、输入数据确定单元以及模型训练单元,其中,
所述业务获取单元,用于获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
所述风险率确定单元,用于确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数确定的,所述第二时间段长于所述第一时间段;
所述输入数据确定单元,用于根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定输入数据;
所述模型训练单元,用于根据所述输入数据,对风险控制模型进行训练。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:风险率生成单元,具体用于:
根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
9.如权利要求8所述的装置,其特征在于,所述风险率生成单元,具体用于:
根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成各业务属性的属性值对应的风险率。
10.如权利要求8所述的装置,其特征在于,所述风险率生成单元,具体用于:
根据业务环境包含所述至少两个业务属性的属性值组合在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成至少两个业务属性的属性值组合对应的风险率。
11.如权利要求8所述的装置,其特征在于,所述风险率生成单元,具体用于:
根据业务环境包含所述业务属性的共性属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的共性属性值对应的风险率。
12.如权利要求8所述的装置,其特征在于,所述风险率生成单元,包括风险率查询子单元,具体用于:
查询业务属性的属性值对应的风险率,所述风险率是根据业务环境单独包含各业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数预先生成的。
13.一种风险控制模型的输入数据确定方法,其特征在于,包括:
获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,所述第二时间段长于所述第一时间段;
根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定风险控制模型的输入数据。
14.一种风险控制模型的输入数据确定装置,其特征在于,包括:业务获取单元、风险率确定单元以及输入数据确定单元,其中,
所述业务获取单元,用于获取第一时间段内已完成业务的记录,所述业务记录包括:业务账户和业务环境,所述业务环境中包含若干业务属性;
所述风险率确定单元,用于确定业务属性的属性值对应的风险率,所述风险率是根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数生成的,所述第二时间段长于所述第一时间段;
所述输入数据确定单元,用于根据确定出的风险率、所述已完成业务对应的业务环境以及对应的业务账户在所述第一时间段内的历史行为记录,确定风险控制模型的输入数据。
15.如权利要求14所述的装置,其特征在于,所述装置还包括:风险率生成单元,具体用于:
根据业务环境包含所述业务属性的属性值在第二时间段内的历史业务记录中欺诈业务次数和业务完成总次数,生成业务属性的属性值对应的风险率。
CN201610290448.0A 2016-05-04 2016-05-04 风险控制模型的训练、模型输入数据确定方法及装置 Active CN107346463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610290448.0A CN107346463B (zh) 2016-05-04 2016-05-04 风险控制模型的训练、模型输入数据确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610290448.0A CN107346463B (zh) 2016-05-04 2016-05-04 风险控制模型的训练、模型输入数据确定方法及装置

Publications (2)

Publication Number Publication Date
CN107346463A true CN107346463A (zh) 2017-11-14
CN107346463B CN107346463B (zh) 2020-08-28

Family

ID=60253496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610290448.0A Active CN107346463B (zh) 2016-05-04 2016-05-04 风险控制模型的训练、模型输入数据确定方法及装置

Country Status (1)

Country Link
CN (1) CN107346463B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
CN109472609A (zh) * 2018-11-09 2019-03-15 阿里巴巴集团控股有限公司 一种风控原因确定方法及装置
CN109544166A (zh) * 2018-11-05 2019-03-29 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109583731A (zh) * 2018-11-20 2019-04-05 阿里巴巴集团控股有限公司 一种风险识别方法、装置及设备
WO2019144808A1 (zh) * 2018-01-23 2019-08-01 阿里巴巴集团控股有限公司 判定虚假资源转移及虚假交易的方法、装置及电子设备
CN110753032A (zh) * 2019-09-24 2020-02-04 支付宝(杭州)信息技术有限公司 一种风险维度组合挖掘方法、装置及设备
CN113449753A (zh) * 2020-03-26 2021-09-28 中国电信股份有限公司 业务风险预测方法、装置和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123712A (zh) * 2011-11-17 2013-05-29 阿里巴巴集团控股有限公司 一种网络行为数据的监控方法和系统
CN103279868A (zh) * 2013-05-22 2013-09-04 兰亭集势有限公司 一种自动识别欺诈订单的方法和装置
CN103886495A (zh) * 2013-09-30 2014-06-25 上海本家空调系统有限公司 一种基于网络交易的监控方法及系统
CN104881783A (zh) * 2015-05-14 2015-09-02 中国科学院信息工程研究所 电子银行账户欺诈行为及风险检测方法与系统
CN105512938A (zh) * 2016-02-03 2016-04-20 宜人恒业科技发展(北京)有限公司 一种基于用户长期使用行为的在线信用风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103123712A (zh) * 2011-11-17 2013-05-29 阿里巴巴集团控股有限公司 一种网络行为数据的监控方法和系统
CN103279868A (zh) * 2013-05-22 2013-09-04 兰亭集势有限公司 一种自动识别欺诈订单的方法和装置
CN103886495A (zh) * 2013-09-30 2014-06-25 上海本家空调系统有限公司 一种基于网络交易的监控方法及系统
CN104881783A (zh) * 2015-05-14 2015-09-02 中国科学院信息工程研究所 电子银行账户欺诈行为及风险检测方法与系统
CN105512938A (zh) * 2016-02-03 2016-04-20 宜人恒业科技发展(北京)有限公司 一种基于用户长期使用行为的在线信用风险评估方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144808A1 (zh) * 2018-01-23 2019-08-01 阿里巴巴集团控股有限公司 判定虚假资源转移及虚假交易的方法、装置及电子设备
CN109034209B (zh) * 2018-07-03 2021-07-30 创新先进技术有限公司 主动风险实时识别模型的训练方法和装置
CN109034209A (zh) * 2018-07-03 2018-12-18 阿里巴巴集团控股有限公司 主动风险实时识别模型的训练方法和装置
CN109544166B (zh) * 2018-11-05 2023-05-30 创新先进技术有限公司 一种风险识别方法和装置
CN109544166A (zh) * 2018-11-05 2019-03-29 阿里巴巴集团控股有限公司 一种风险识别方法和装置
CN109472609B (zh) * 2018-11-09 2022-01-25 创新先进技术有限公司 一种风控原因确定方法及装置
CN109472609A (zh) * 2018-11-09 2019-03-15 阿里巴巴集团控股有限公司 一种风控原因确定方法及装置
CN109583731A (zh) * 2018-11-20 2019-04-05 阿里巴巴集团控股有限公司 一种风险识别方法、装置及设备
CN109583731B (zh) * 2018-11-20 2023-04-18 创新先进技术有限公司 一种风险识别方法、装置及设备
CN110753032A (zh) * 2019-09-24 2020-02-04 支付宝(杭州)信息技术有限公司 一种风险维度组合挖掘方法、装置及设备
CN110753032B (zh) * 2019-09-24 2021-11-16 支付宝(杭州)信息技术有限公司 一种风险维度组合挖掘方法、装置及设备
CN113449753A (zh) * 2020-03-26 2021-09-28 中国电信股份有限公司 业务风险预测方法、装置和系统
CN113449753B (zh) * 2020-03-26 2024-01-02 天翼云科技有限公司 业务风险预测方法、装置和系统

Also Published As

Publication number Publication date
CN107346463B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN107346463A (zh) 风险控制模型的训练、模型输入数据确定方法及装置
JP6696001B2 (ja) リスク情報を出力し、リスク情報を構築するための方法及びデバイス
CN105337928B (zh) 用户身份识别方法、安全保护问题生成方法及装置
CN107368259A (zh) 一种向区块链系统中写入业务数据的方法和装置
CN109409970A (zh) 异常订单处理系统及方法
CN106204063A (zh) 一种付费用户挖掘方法及装置
TWI714113B (zh) 外匯交易量預測方法和裝置
CN106327196A (zh) 一种支付阈值获取方法和装置
CN106033510B (zh) 一种用户设备识别方法及系统
CN105488366A (zh) 一种数据权限的控制方法和系统
CN106897340A (zh) 一种数据表更新方法及装置
CN110147686A (zh) 一种个人资产变更记录的存储方法、系统、装置及设备
CN110147925A (zh) 一种风险决策方法、装置、设备及系统
WO2020024718A1 (zh) 外汇交易量预测方法和装置
CN109325055A (zh) 业务关联数据表的筛选及核对方法、装置、电子设备
CN109064217A (zh) 基于用户等级的核身策略确定方法、装置及电子设备
CN106897335A (zh) 一种业务数据的存储方法、记录标识符的生成方法及装置
CN105391594A (zh) 识别特征账号的方法及装置
CN107276970A (zh) 一种解绑、绑定方法和装置
CN107592296A (zh) 垃圾账户的识别方法和装置
CN108875048A (zh) 报表生成方法、装置、电子设备及可读存储介质
CN112001786A (zh) 基于知识图谱的客户信用卡额度配置方法及装置
CN106250999A (zh) 预测流失率的方法、装置和系统
CN107945034A (zh) 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质
CN107018158A (zh) 一种互联网资源的筛选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.