一种风险规则确定方法和装置
技术领域
本说明书涉及互联网领域,尤其涉及一种风险规则确定方法和装置。
背景技术
在目前的各类风控系统(如反洗钱系统)中,存在很多预定义的风险规则,依据这些预定义的风险规则对当前发生的交易等进行风险防控。但传统方案对于新风险的发现支撑力度不够,对应新风险的新规则开发只能依赖专家经验,导致新风险规则的开发周期很长,且初始规则的准确率不高,需要长时间优化改进才能形成稳定规则。目前缺少一种新风险规则的智能开发方式,能够提高新规则开发效率的同时提升初始规则的准确率。
发明内容
针对上述技术问题,本说明书实施例提供一种风险规则确定方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种风险规则确定方法,该方法包括:
获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
根据本说明书实施例的第二方面,提供一种风险规则确定装置,该装置包括:
样本确定模块:用于获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
特征提取模块:用于分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
规则生成模块:用于分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种风险规则确定方法,该方法包括:
获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
本说明书实施例所提供的技术方案,先获取当前一定时间段内的白样本客户,黑样本客户,全量客户三种客户群体,再对比确定黑样本客户群体与其他客户群之间的行为差异,将此行为差异确定为具有风险的异常点,形成风险规则。本说明书提供的技术方案能自动获取客户群体的异常行为规则,提升了新风险规则的开发效率,并提高新规则初始上线时的准确覆盖能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书一示例性实施例示出的风险规则确定方法的一种流程图;
图2是本说明书一示例性实施例示出的风险规则确定方法的另一种流程图;
图3是本说明书一示例性实施例示出的FP树的一种示意图;
图4是本说明书一示例性实施例示出的风险规则确定方法的一种示意图;
图5是本说明书一示例性实施例示出的风险规则确定装置的一种示意图;
图6是本说明书一示例性实施例示出的风险规则确定装置的另一种示意图;
图7是本说明书一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书实施例提供一种风险规则确定方法,以及一种用于执行该方法的风险规则确定装置。
下面对本实施例涉及的风险规则确定方法进行详细说明,参见图1所示,该方法可以包括以下步骤:
S101,获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
在目前的各类风控系统(如反洗钱系统)中,存在很多预定义的风险规则,依据这些预定义的风险规则对当前发生的交易等进行风险防控。但传统方案对于新风险的发现支撑力度不够,对应新风险的新规则开发只能依赖专家经验,导致新风险规则的开发周期很长,且初始规则的准确率不高,需要长时间优化改进才能形成稳定规则。目前缺少一种新风险规则的智能开发方式,能够提高新规则开发效率的同时提升初始规则的准确率。
具体而言,白样本客户即历史交易记录中不存在风险,或评价较高的样本客户;黑样本客户即历史交易记录中存在风险交易,或与风险交易客户存在关联的样本客户;全量客户即直接获取未分类客户样本,不限定客户的风险属性。
提取特征数据是提取不同样本客户在预定历史时间段内的特征数据,如,获取黑样本客户在预定时间段内的若干交易信息数据,对每一笔获取到交易信息中进行特征信息提取。其中,特征信息可以包括:交易时间信息,交易地址信息,交易额信息等等。
S102,分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
即分别提取全量客户的高频行为特征,提取白样本客户的高频行为特征,提取黑样本客户的高频行为特征,根据高频行为特征分别刻画不同类别的客户群体的典型行为。
S103,分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
对高频行为特征和提取出差异度高于预设条件的行为特征进行举例说明:
在白样本客户特征集中提取到的高频行为特征中包括:“10%的年龄20岁客户在凌晨2点交易”,在黑样本客户特征集中提取到的高频行为特征中包括:“60%的年龄20岁客户在凌晨2点交易”,而这两个行为特征的差异度高于预设阈值,则基于此“年龄20岁客户在凌晨2点交易”可以作为提取出的目标风险规则。
在白样本客户特征集中提取到的高频行为特征中包括:“60%的年龄20岁客户交易额大于100”,在黑样本客户特征集中提取到的高频行为特征中包括:“64%的年龄20岁客户交易额大于100”,而这两个行为特征的差异度不高于预设阈值,则基于此“年龄20岁客户交易额大于100”不可以作为提取出的目标风险规则。
分别提取黑样本客户,白样本客户或全量客户这三个类别客户中高频行为特征的方式可以为:对任一类别的样本特征集进行关联分析,发现客户群中存在的共现关系,基于共现关系确定客户群内不同客户的关联规则,进而基于关联规则确定行为特征。
具体而言,关联分析需要使用关联规则算法,如FP-增长算法,分别计算出全量客户特征集、白样本客户特征集和黑样本客户特征集中存在的关联规则,
对关联规则算法的涉及的概念进行简单描述:
置信度:客户具有特征A时,B特征出现的概率;
Confidence(A->B)=P(A|B);
支持度:客户具有特征A同时具有B特征的概率;
Support(A->B)=P(A U B);
最小支持度:系统中预先设置的阈值,用户可基于该支持度判断项集是否为频繁项;
频繁项:项集的频率大于等于最小支持度。
在具体计算时,可分别对比黑样本客户特征集与全量客户特征集、黑样本客户特征集与白样本客户特征集中,高频行为特征的置信度;提取置信度差值符合预设条件的高频行为特征,根据提取出的行为特征确定目标风险规则。
下面对本说明书提供的一种更为具体的风险规则确定方法,参见图2所示,该方法可以包括以下步骤:
S201,获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
S202,使用预定的关联规则算法分别计算出全量客户特征集、白样本客户特征集和黑样本客户特征集中存在的关联规则;
S203,分别对全量客户特征集、白样本客户特征集和黑样本客户特征集中存在的关联规则按照置信度由高到低进行排序,将不同特征集中,置信度排名高于预设阈值的关联规则确定为对应特征集的高频行为特征。
S204,分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出置信度差异高于预设阈值的行为特征,根据提取出的行为特征确定目标风险规则。
即,对比黑样本客户特征集与全量客户特征集、黑样本客户特征集与白样本客户特征集中,置信度排名高于预设阈值的关联规则的置信度,并提取出置信度差值符合预设条件的关联规则,根据提取出的关联规则确定目标风险规则。
具体而言,可对比白样本客户特征集和黑样本客户特征集的关联规则,将置信度差距大于预设阈值的差异规则确定为第一类规则;对比全量样本客户特征集和黑样本客户特征集的关联规则,将置信度差距大于预设阈值的差异规则确定为第二类规则。根据提取出的两类规则确定最终的目标风险规则。
在本说明书提供的一种优选实施例中,可进一步对第一类规则与第二类规则进行合并去重处理,将处理结果确定为目标风险规则。
在本说明书提供的一种优选实施例中,可进一步将获取到的目标风险规则进行组合和筛选,得到可用的最终风险规则,该组合和筛选方式可通过预先规则的筛选组合条例自动执行组合筛选。也可将获取到的目标风险规则推送给专业技术人员,基于人工经验不断优化和评估,以得到最终的风险规则。
以使用FP-增长算法进行举例,对本说明书应用关联规则算法获取某一类别客户的高频行为特征的方法进行说明,具体步骤如下:
1)获取客户特征集合;
2)进行特征工程,以获取更好的训练数据特征。特征工程具体可包括分箱,设置默认值,异常特征处理,连续特征分箱,特征one-hot稀疏化等操作步骤,在此不作详述。
参见下表1,在下表中,“CustormId”代表客户ID,“凌晨交易”,“交易IP为A省”等代表客户特征,当值为0时,表示该客户不具有该特征,当值为1是,代表客户具有该特征。
CustormId |
凌晨交易 |
交易IP为A省 |
交易金额大于100万 |
年龄大于30岁 |
单位客户 |
1 |
1 |
1 |
0 |
0 |
1 |
2 |
0 |
1 |
0 |
1 |
0 |
3 |
0 |
1 |
1 |
0 |
0 |
4 |
1 |
1 |
0 |
1 |
0 |
5 |
1 |
0 |
1 |
0 |
0 |
6 |
0 |
1 |
1 |
0 |
0 |
7 |
1 |
0 |
1 |
0 |
0 |
8 |
1 |
1 |
1 |
0 |
1 |
9 |
1 |
1 |
1 |
0 |
0 |
表1
3)计算得到频繁项为1的特征,对得到的特征进行筛选,排除掉小于最小支持度小于预设阈值的特征,如下表2所示,下表排除了最小支持度小于2的特征。
凌晨交易 |
交易IP为A省 |
交易金额大于100万 |
年龄大于30岁 |
单位客户 |
6 |
7 |
6 |
2 |
2 |
表2
4)基于筛选后的特征生成FP树,该FP树的具体表现形式可参考图3;
5)基于FP树输出置信度排名靠前的预定数量个关联规则,将获取到的关联规则确定为该类别客户的高频行为特征。
如:置信度Top1的关联规则为:57%交易IP属于A省的客户交易金额大于100万;置信度Top2的关联规则为:66%凌晨交易的客户交易金额大于100万……提取置信度排名靠前的N个关联规则,N的数量可根据具体应用场景自行设定,将这些关联规则确定为该类别客户的高频行为特征。
值得说明的是,本说明书实施例中使用的关联规则算法为FP增长算法,但FP增长算法仅为一种示例,也可使用其他关联规则算法计算同类别客户中存在的关联规则,如使用Apriori算法等,本说明书对此不作限定。
本说明书提供的风险规则确定方法整体可参考图4,可以看出,对于白样本客户群体,黑样本客户群体,全量样本客户群体,分别提取各个群体内的关联规则,分别将各个群体内置信度TOPN的关联规则视为该群体客户的典型行为。然后将白样本群体与黑样本客户群体,全量样本客户群体与黑样本客户群体的典型行为进行对比,找出非风险群体与风险群体间的行为差异,将此差异认为是具有风险的异常点,基于此进一步生成风险规则。
本说明书提供的方法可通过机器学习(关联规则算法)自动获取到客户群体间的异常行为规则,进一步地,可将获取到的异常行为规则推送给专业技人员,结合专业技术人员的经验生成最终规则,提高发现新风险的能力和新规则的开发效率,并提高新规则上线时的准确覆盖能力。
相应于上述方法实施例,本说明书实施例还提供一种风险规则确定装置,参见图5所示,所述装置可以包括:样本确定模块510,特征提取模块520和规则生成模块530;
样本确定模块510:用于获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
特征提取模块520:用于分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
规则生成模块530:用于分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
参考图6,在本说明书的其中一种实施例中,所述特征提取模块中,还包括关联规则计算模块610与高频特征确定模块620;
关联规则计算模块610:用于使用预定的关联规则算法分别计算出全量客户特征集、白样本客户特征集和黑样本客户特征集中存在的关联规则;
高频特征确定模块620:用于将所述不同客户特征集中置信度符合预定条件的关联规则确定为不同特征集的高频行为特征。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述风险规则确定方法,所述方法至少包括:
获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
图7示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的风险规则确定方法,所述方法至少包括:
获取预定时间段内的全量样本客户、白样本客户和黑样本客户,提取所述客户的特征数据,以生成全量客户特征集、白样本客户特征集和黑样本客户特征集;
分别在全量客户特征集、白样本客户特征集和黑样本客户特征集中,提取出全量客户、白样本客户和黑样本客户的高频行为特征;
分别对比黑样本客户与全量客户的高频行为特征,黑样本客户与白样本客户的高频行为特征,提取出差异度高于预设条件的行为特征,根据提取出的行为特征确定目标风险规则。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。