CN108366045B

CN108366045B - 一种风控评分卡的设置方法和装置

Info

Publication number: CN108366045B
Application number: CN201810002675.8A
Authority: CN
Inventors: 陈亚东
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2020-09-01
Anticipated expiration: 2038-01-02
Also published as: CN108366045A

Abstract

本发明实施例提供了一种风控评分卡的设置方法，该设置方法应用于网站的风控系统，具体为接收网站的业务系统传递的数据集合，数据集合包括多个规则；将每个规则组织为预设的特征形式，得到与多个规则相对应的多个特征数值；将多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；将包含预先标注的异常样本的特征集合标注为异常样本，并获取每个异常样本中特征数值的取值范围；根据异常样本和采样得到的正常样本进行模型训练，得到监督学习模型；根据每个异常样本中特征数值的取值范围确定每个规则的阈值，建立基于规则树的风控评分卡。该风控评分卡能够避免现有评分卡无法反应用户访问行为的真实风险水平的问题。

Description

一种风控评分卡的设置方法和装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种风控评分卡的设置方法和装置。

背景技术

网站的风控系统用于防范全站可能存在的业务安全风险，如:盗号、扫号、羊毛党、账号分享、短信轰炸机、恶意挂站、恶意下单、恶意支付等。风控系统致力于帮助业务方识别、评估、防范已有的业务风险，提供跨业务的保护功能，并提供风险事件的查询及反馈机制，方便溯源及后续持续改进。

网站在正常运行期间，其业务系统接收用户的访问行为，并通过服务接入将访问行为传递至风控系统的规则引擎，规则引擎主要依赖于安全数据仓库和模型策略对访问行为的风险进行检测和拦截。其中，安全数据仓库是指社工库，即黑产用户的信息，其中包含黑产用户的手机号、IP、用户名等；模型策略主要是由数据分析人员通过数据挖掘等方法制定出的规则策略。因此，当风控系统规则引擎接收到业务传入的访问数据时，通过某次行为数据匹配的规则是否有风险，而进行拦截。规则引擎主要通过评分卡方法进行判断，即累加一次异常行为触发的所有规则分值，比较总分和阈值确定最终风险等级。

然而，目前的规则引擎中采用的评分卡方法存在同类规则分值重复累加以及同类规则占比过大的问题，例如多个来源的IP黑名单规则分值重复累加，或者不同单维度(ip、用户设备device_id、设备指纹dfp)频次规则分值的累加也容易造成该类规则分值相加占比过大，从而无法反应访问行为的真实风险水平。

发明内容

有鉴于此，本发明提供了一种风控评分卡的设置方法和装置，以解决现有评分卡因同类规则分值重复累加以及同类规则占比过大的问题而导致无法反应用户访问行为的真实风险水平的问题。

为了解决上述问题，本发明公开了一种风控评分卡的设置方法，应用于网站的风控系统，所述设置方法包括步骤：

接收网站的业务系统传递的数据集合，所述数据集合包括多个规则；

将每个所述规则组织为预设的特征形式，得到与所述多个规则相对应的多个特征数值；

将所述多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；

将包含预先标注的异常点的所述特征集合标注为异常样本，并获取每个所述异常样本中特征数值的取值范围；

根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型；

根据每个所述异常样本中特征数值的取值范围确定每个所述规则的阈值，建立基于规则树的风控评分卡。

可选的，还包括：

根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，所述监督学习模型用于对用户的访问行为进行风险评价。可选的，所述根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，还包括：

利用所述监督学习模型对未标注样本进行预测，得到正常结果和异常结果；

利用所述异常结果对所述监督学习模型进一步进行训练。

可选的，所述规则树包括叶子节点和非叶子节点，其中：

所述叶子节点的规则权重为1；

所述非叶子节点的规则权重为孩子节点的加权分值的最大值或者累加值。

可选的，还包括步骤：

分别利用所述监督学习模型和所述风控评分卡对用户访问行为进行判断，并根据每个判断结果的置信度确定最终判断结果。

相应的，为了保证上述方法的实施，本发明还提供了一种风控评分卡的设置装置，应用于网站的风控系统，所述设置装置包括：

数据接收模块，用于接收网站的业务系统传递的数据集合，所述数据集合包括多个规则；

特征组织模块，用于将每个所述规则组织为预设的特征形式，得到与所述多个规则相对应的多个特征数值；

聚类处理模块，用于将所述多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；

聚类标注模块，用于将包含预先标注的异常点的所述特征集合标注为异常样本，并获取每个所述异常样本中特征数值的取值范围；

模型训练模块，用于根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型；

评分卡输出模块，用于根据每个所述异常样本中特征数值的取值范围确定每个所述规则的阈值，建立并输出基于规则树的风控评分卡。

可选的，还包括：

模型训练模块，用于根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，所述监督学习模型用于对用户的访问行为进行风险评价。可选的，所述模型训练模块包括：

结果预测单元，用于利用所述监督学习模型对未标注样本进行预测，得到正常结果和异常结果；

第二训练单元，用于利用所述异常结果对所述监督学习模型进一步进行训练。

可选的，所述规则树包括叶子节点和非叶子节点，其中：

所述叶子节点的规则权重为1；

可选的，还包括：

联合判断模块，用于分别利用所述监督学习模型和所述风控评分卡对用户访问行为进行判断，并根据每个判断结果的置信度确定最终判断结果。

从上述技术方案可以看出，本发明提供了一种风控评分卡的设置方法，该设置方法应用于网站的风控系统，具体为接收网站的业务系统传递的数据集合，数据集合包括多个规则；将每个规则组织为特征形式，得到与多个规则相对应的多个预设的特征数值；将多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；将包含预先标注的异常样本的特征集合标注为异常样本，并获取每个异常样本中特征数值的取值范围；根据每个异常样本中特征数值的取值范围确定每个规则的阈值，建立基于规则树的风控评分卡。通过规则树将规则形成了具有层次关系的集合，进而可以灵活设定不同类型规则的分值占比，进而避免了现有评分卡无法反应用户访问行为的真实风险水平的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种风控评分卡的设置方法的步骤流程图；

图2为本发明实施例提供的一种规则树的示意图；

图3为本发明实施例提供的另一种风控评分卡的设置方法的步骤流程图；

图4为本发明实施例提供的一种风控评分卡的设置装置的结构框图；

图5为本发明实施例提供的另一种风控评分卡的设置装置的结构框图；

图6为本发明实施例提供的又一种风控评分卡的设置装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种风控评分卡的设置方法的步骤流程图。

参照图1所示，本实施例提供的风控评分卡的设置方法应用于网站的风控系统，该风控系统用于对业务系统传入的用户访问行为的性质进行检测，避免危险行为对网站造成损害。该设置方法用于设置风控系统的规则引擎对用户访问行为进行检测所需的风控评分卡。该设置方法具体包括步骤：

S101：接收风控系统传递的数据集合。

该数据集合来源于风控系统通过对网站的日志文件的加工处理所得的结果，该数据集合包括多个规则，规则是指与用户访问行为相关的因素，如发出访问行为的用户的ip、用户设备id、设备指纹等，相应的，可以为每个规则配置相应的规则名称。

S102：将每个规则组织为特征形式。

即将每个规则进行数据化，转换为相应的特征数据，通过将这些特征数据按预设的规律进行组织，即可得到特征形式。通过将多个特征数据进行归一化处理，从而得到与规则相匹配的特征数值，这里特征数值的数量与规则的数量相同。

S103：将多个特征数值进行聚类处理。

具体为将上述得到的多个特征数值利用基于密度的无监督聚类算法进行聚类处理，通过聚类得到多个特征集合，每个特征集合中包括按一定规律组织在一起的多个特征数值，由于相应的特征数值对应于相应的规则，也可以说每个特征集合包括若干规则。

无监督聚类算法又称为无监督学习的聚类算分，是指在没有先验数据的情况下自动进行的聚类处理，即将大量的数据进行归类。聚类算法也可以基于一定的先决条件，这里的基于密度的意思是指将数据的密度作为聚类的先决条件进行无经验归类处理。

S104：将包含异常点的特征集合标注为异常样本。

在聚类处理出的多个聚类中，每个聚类都相应包括多个规则数据，其中多个规则数据中异常的规则数据为异常点，这里将包含异常点的特征集合标注为异常样品。相应的，在标记处异常样本后，获取异常样本中的特征数值的取值范围，取值范围实际上是相应特征数值中最大值与最小值之间的范围。

S105：根据确定的阈值建立风控评分卡。

根据每个异常样本中特征数值的取值范围确定每个规则的阈值，并根据该阈值对相应规则进行赋值，从而根据赋值后的规则建立基于规则树的风控评分卡。其中，图2为规则树的示意图。

该规则树中各字段解释如下：

rule_name:规则名称(id)

is_leaf:是否叶子节点，叶子节点才是具体的规则

is_max:true取孩子节点最大值，false取累加值

score:规则分值

weight:规则权重

final_score:规则加权分值＝score*weight

children:孩子节点

parent:父节点

在设置上述规则树时，设定叶子节点为每条具体的规则，可设置不同规则的分值，叶子节点的规则权重全为1，其贡献全部体现在分值。非叶子节点可通过设置is_max取孩子节点加权分值final_score的最大值或累加值，非叶子节点也可设置权重，作为不同规则集合类型的权重，例如可设置行为频次规则集合与标签类规则集合不同权重，用于风控评分不同倾向性的考虑。最终通过最上层的父节点的分值，即为评分卡的最终分值。

从上述技术方案可以看出，本实施例提供了一种风控评分卡的设置方法，该设置方法应用于网站的风控系统，具体为接收网站的业务系统传递的数据集合，数据集合包括多个规则；将每个规则组织为预设的特征形式，得到与多个规则相对应的多个特征数值；将多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；将包含预先标注的异常样本的特征集合标注为异常样本，并获取每个异常样本中特征数值的取值范围；根据异常样本和采样得到的正常样本进行模型训练，得到监督学习模型；根据每个异常样本中特征数值的取值范围确定每个规则的阈值，建立基于规则树的风控评分卡。通过规则树将规则形成了具有层次关系的集合，进而可以灵活设定不同类型规则的分值占比，进而避免了现有评分卡无法反应用户访问行为的真实风险水平的问题。

另外，本实施例还包括步骤：根据异常样本和正常样本训练得到监督学习模型。

在得到相应的异常样本后，根据这些异常样本进行训练，从而得到监督学习模型。具体来说，是根据该异常样本对预设数学模型进行训练，从而得到上述监督学习模型。数学模型是指相应的算法模型，如K-means算法模型,K-medoids算法模型、CLARANS算法模型。该监督学习模型用于对用户的访问行为进行判断，以确定该行为是否为危险行为。

另外，在得到上述监督学习模型后，可以利用该模型对未标注样本进行预测，在预测后可以得到正常结果和异常结果；在预测后，还可以将得到的异常结果作为上述异常样本再次对监督学习模型进行强化训练，从而使得该监督学习模型的效果更好。这里的未标注样本实际是指在本实施例的聚类所得的异常样本和采样得到的正常样本外的其他样本，是系统为了训练该模型所获取的其他样本，

另外，参照图3所示，本实施例中的设定方法还包括如下步骤：

S106：对用户访问行为进行判断，并确定最终判断结果。

在得到上述监督学习模型和风控评分卡后，联合基于监督学习模型的判断结果和基于规则树的风控评分卡的判断结果进行协同判定，通过对两个结果的不同置信度的考虑，得到最终判断结果，这样一来可以提供风控系统在识别异常时的精确性和泛化性。

例如，如果基于监督学习模型对用户的访问行为的判断结果为危险行为，然而基于规则树的风控评分卡的判断结果为正常行为，则要考虑具体用户的特征，如果该用户的特征更适宜用基于监督学习模型进行判断，则最终确定该用户的行为为危险行为。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图4为本发明实施例提供的一种风控评分卡的设置最终的结构框图。

参照图4所示，本实施例提供的风控评分卡的设置最终应用于网站的风控系统，该风控系统用于对业务系统传入的用户访问行为的性质进行检测，避免危险行为对网站造成损害。该设置方法用于设置风控系统的规则引擎对用户访问行为进行检测所需的风控评分卡。该设置装置具体包括数据接收模块10、特征组织模块20、聚类处理模块30、聚类标注模块40和评分卡输出模块60。

数据接收模块用于接收风控系统传递的数据集合。

特征组织模块用于将每个规则组织为特征形式。

聚类处理模块用于将多个特征数值进行聚类处理。

聚类标注模块用于将包含异常点的聚类标注为异常样本。

评分卡输出模块用于根据异常样本中特征数值的取值范围确定规则的阈值建立风控评分卡。

该规则树中各字段解释如下：

rule_name:规则名称(id)

is_leaf:是否叶子节点，叶子节点才是具体的规则

is_max:true取孩子节点最大值，false取累加值

score:规则分值

weight:规则权重

final_score:规则加权分值＝score*weight

children:孩子节点

parent:父节点

从上述技术方案可以看出，本实施例提供了一种风控评分卡的设置装置，该设置装置应用于网站的风控系统，具体为接收网站的业务系统传递的数据集合，数据集合包括多个规则；将每个规则组织为预设的特征形式，得到与多个规则相对应的多个特征数值；将多个特征数值利用基于密度的无监督聚类算法进行聚类处理，得到多个特征集合；将包含预先标注的异常样本的特征集合标注为异常样本，并获取每个异常样本中特征数值的取值范围；根据异常样本和采样得到的正常样本进行模型训练，得到监督学习模型；根据每个异常样本中特征数值的取值范围确定每个规则的阈值，建立基于规则树的风控评分卡。通过规则树将规则形成了具有层次关系的集合，进而可以灵活设定不同类型规则的分值占比，进而避免了现有评分卡无法反应用户访问行为的真实风险水平的问题。

另外，本实施例还包括模型训练模块50，如图5所示，模型训练模块用于根据异常样本和正常样本训练得到监督学习模型。

在得到相应的异常样本后，根据这些异常样本进行训练，从而得到监督学习模型。该模块包括第一训练单元，具体来说，第一训练单元用于根据该异常样本对预设数学模型进行训练，从而得到上述监督学习模型。该模块用于利用监督学习模型用于对用户的访问行为进行判断，以确定该行为是否为危险行为。

另外，该模块还包括结果预测单元和第二训练单元，结果预测单元用于在得到上述监督学习模型后，利用该模型对未标注样本进行预测，在预测后可以得到正常结果和异常结果；第二训练单元用于在预测后，将得到的异常结果作为上述异常样本再次对监督学习模型进行强化训练，从而使得该监督学习模型的效果更好。

另外，参照图6所示，本实施例中的设定装置还包括联合判断模块70。

联合判断模块用于对用户访问行为进行判断，并根据判断结果确定最终判断结果。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的技术方案进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种风控评分卡的设置方法，应用于网站的风控系统，其特征在于，所述设置方法包括步骤：

根据每个所述异常样本中特征数值的取值范围确定每个所述规则的阈值，建立基于规则树的风控评分卡，以灵活设定所述规则树中不同类型规则的分值占比，所述规则树包含多个所述规则。

2.如权利要求1所述的设置方法，其特征在于，还包括：

根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，其中，所述监督学习模型用于对用户的访问行为进行风险评价。

3.如权利要求2所述的设置方法，其特征在于，所述根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，还包括：

利用所述异常结果对所述监督学习模型进一步进行训练。

4.如权利要求1所述的设置方法，其特征在于，所述规则树包括叶子节点和非叶子节点，其中：

所述叶子节点的规则权重为1；

5.如权利要求2所述的设置方法，其特征在于，还包括步骤：

6.一种风控评分卡的设置装置，应用于网站的风控系统，其特征在于，所述设置装置包括：

评分卡输出模块，用于根据每个所述异常样本中特征数值的取值范围确定每个所述规则的阈值，建立并输出基于规则树的风控评分卡，以灵活设定所述规则树中不同类型规则的分值占比，所述规则树包含多个所述规则。

7.如权利要求6所述的设置装置，其特征在于，还包括：

模型训练模块用于根据所述异常样本和采样得到的正常样本进行模型训练，得到监督学习模型，所述监督学习模型用于对用户的访问行为进行风险评价。

8.如权利要求7所述的设置装置，其特征在于，所述模型训练模块包括：

9.如权利要求6所述的设置装置，其特征在于，所述规则树包括叶子节点和非叶子节点，其中：

所述叶子节点的规则权重为1；

10.如权利要求7所述的设置装置，其特征在于，还包括：