CN113392921B

CN113392921B - 一种数据驱动的风控策略规则生成方法及系统

Info

Publication number: CN113392921B
Application number: CN202110722333.5A
Authority: CN
Inventors: 柴磊
Original assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Current assignee: Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-03-29
Anticipated expiration: 2041-06-29
Also published as: CN113392921A

Abstract

本发明提供了一种数据驱动的风控策略规则生成方法及系统，对基于第一训练模型训练得到的树模型进行路径预测，记录所述路径的节点索引；根据所述树模型的特征，抽取目标节点；生成对应的抽取规则以及获取用户通过交互界面选择的下一步建模的特征；根据抽取规则以及交互结果对所述样本数据进行双层次过滤，并传输结果到第一训练模块继续进行训练；基于所述规则与特征的人机交互的输出生成串行规则组合性能报告，并用于上线部署。

Description

一种数据驱动的风控策略规则生成方法及系统

技术领域

本发明属于人工智能领域，具体来说，是一种利用数据驱动的风控策略规则生成方法及系统。

背景技术

随着互联网金融及其应用的快速发展，海量的交易行为从线下转到线上，银行、第三方支付平台等金融机构迫切需要对大量的交易数据进行快速、准确的欺诈风险评估和管控。风控策略通常会包含很多种类型的规则，每个规则都是结合产品、业务基于经验和数据分析产生出来的。所以，用于区分线上交易中产生的针对不同场景的问题交易。风控策略规则更多地会结合用户体验和业务来平衡损失跟业务发展的关系，不同企业应该根据自身的业务情况选择适合的策略体系。

发明内容

本发明提供一种数据驱动的风控策略规则生成方法及系统，用以解决上述提出的技术问题。

为实现上述目的，本发明提供如下技术方案：一种数据驱动的风控策略规则生成方法，其特征在于，包括：

步骤1：对训练得到的树模型进行路径预测，并记录样本路径；

步骤2：根据所述树模型的特征，抽取样本路径上节点的规则信息，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征；

步骤3：根据所述风控策略规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练；

步骤4：基于训练结果获取最新模型，生成串行规则报告并输出。

优选的，步骤1，对训练得到的树模型进行路径预测，并记录样本路径，包括：

对样本数据进行划分，得到训练样本和测试样本；

根据所述树模型，对所述训练样本以及测试样本进行预测，估计每个样本的路径，并记录每个样本的路径。

优选的，步骤2，根据所述树模型的特征，抽取样本路径上节点的规则信息，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征，包括：

获取所述树模型的节点，作为所述树模型的特征，筛选经过概率低于预设概率的节点，并剔除，同时，筛选不同路径中存在的相同节点或者不同树模型中存在的相同节点，作为冗余节点，并将剩余节点作为目标节点；

通过递归算法遍历所述树模型的每一层，判断所述目标节点是否满足提升条件，若所述目标节点满足所述提升条件，对所述目标节点进行信息提取并保存到信息库，更新信息库；

同时，获取满足所述提升条件的目标节点与冗余节点的一致度，并保留相同节点中一致度最大的冗余节点，将剩余冗余节点进行剔除，并获取一致度最大的冗余节点的信息，保存到信息库；

否则，判断所述目标节点的兄弟节点是否满足所述提升条件，若所述兄弟节点满足所述提升条件，将所述兄弟节点进行提取信息并保存到信息库，更新信息库；

基于更新的信息库，生成数据驱动的风险策略规则，同时，获取用户交互的建模特征。

优选的，步骤3，根据所述风控策略规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练，包括：

基于串行的迭代规则抽取模式，对所有特征按照业务逻辑进行分组；

且利用迭代建模功能将风控策略规则激活，对样本数据进行双层次过滤，将双层次过滤后的数据继续进行训练。

优选的，步骤5，基于训练结果获取最新模型，生成串行规则报告并输出，包括：

当需要开发串行的评分模型时，对双层次过滤后的结果进行评分，输出相应的串行规则报告。

优选的，步骤1，对训练得到的树模型进行路径预测之前，还包括：

判断所述样本数据是否存在残缺部分，其包括：

实时采集训练样本和测试样本的样本信息，利用主成分分析提取训练样本的主成分和过程监测统计量数据，并基于所述训练样本提取的主成分计算测试样本的过程监测统计量数据；

将所述训练样本的过程监测统计量数据与所述测试样本的过程监测统计量数据进行对比判定；

当所述训练样本的过程监测统计量数据大于所述测试样本的过程监测统计量数据时，判定所述样本数据缺失；

当所述训练样本的过程监测统计量数据不大于所述测试样本的过程监测统计量数据时，判定所述样本数据不缺失；

否则，判定所述样本数据缺失，将所述训练样本转化为树结构，所述树结构中具有叶节点、中间节点和根节点，其中每个叶节点对应包含一个训练样本子数据，根节点对应包含所有训练样本数据，叶节点和根节点之间的其他节点作为中间节点，每个中间节点对应包含自身下的所有子节点的训练样本子数据；

设置所述树结构中每个节点的权重，建立基于树结构稀疏的故障诊断模型；

利用树结构求解算法求解所述树结构稀疏的故障诊断模型，求得最优的估计向量作为故障定位依据，利用所述故障定位依据进行样本数据缺失点的定位；

根据定位的缺失点，构建基于所述样本数据的有向图；

根据所述有向图查找与缺失点的缺失数据最相似的k个顶点，并标定为相似近邻点；

计算所述缺失点与所述相似近邻点的距离，并根据所述距离获取所述相似近邻点对应的近邻点权重；

利用k个相似近邻点以及对应的近邻点权重进行线性重建，进行样本数据补全。

优选的，通过递归算法遍历树模型的每一层后，还包括：

实时检测遍历所述树模型过程的时间复杂度，其包括：

对遍历所述树模型过程的时间复杂度进行预测，得到预测时间复杂度；

对所述预测时间复杂度进行预测，若预测结果与真实结果一致，判定所述树模型合格；

否则，对所述真实结果进行判断，若所述真实结果对应的真实时间复杂度大于预测时间复杂度，根据所述树模型的数据，构建图数据模型，所述图数据模型的图数据结构包括若干节点、节点关系和节点内容，所述节点关系用于描述节点与节点之间的关联关系，所述节点和所述关系分别具有各自的属性；

基于所述图数据模型生成初始拓扑图，并基于所述初始拓扑图在所述若干节点间添加关联关系，得出完全拓扑图；

根据路径检测算法在所述完全拓扑图上选出一条回路，并标记为第一回路，根据所述第一回路在所述完全拓扑图中依次经过的节点和路径，在所述初始拓扑图中依次找到对应的节点和最长路径，并将所述初始拓扑图中依次找到的对应的节点和最长路径连接起来，得到初始链路；

对所述初始链路上每个节点进行判定改进，具体如下：

若所述初始链路上的节点只有一个邻近节点，则从所述初始链路中删除所述邻近节点以及相应路径，若所述初始链路上的节点有两个邻近节点且所述两个邻近节点互为邻近关系，则从所述初始链路中删除所述两个邻近节点以及相应的路径；

进行判定改进后得出改进链路，并继续选出一条新的回路，求出其对应的改进链路，直至所述完全拓扑图中所有回路全部选出；

对所有改进链路进行可行性分析，得出合格的改进链路，并对所述树模型进行改进。

优选的，还包括：样本路径模块,用于对基于第一训练模型训练得到的树模型进行路径预测，记录所述路径的节点索引；

抽取节点规则信息模块,用于根据所述树模型的特征进行路径预测，并记录样本路径；

规则与特征的人机交互模块,用于抽取样本路径上节点的规则信息，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征；

双层次控制过滤机制模块，用于根据抽取规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练；

串行规则报告及其输出模块,用于基于训练结果获取最新模型，生成串行规则报告并输出。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1为本发明的方法流程示意图；

图2为本发明的风控规则报告示意图；

图3为本发明的方法步骤图；

图4为本发明步骤2的方法流程。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明实施例提供了一种数据驱动的风控策略规则生成方法，如图1所示，包括：

此实施例中，所述树模型是根据样本数据进行分析训练得出的树结构的网络层级模型。

此实施例中，所述节点为所述树模型上的节点信息。

本次设计的有益效果：自动根据样本数据进行双层次分析过滤，并对所得结果进行训练，根据训练结果进行最新模型的获取，以便生成串行规则报告并输出。

实施例2：

基于实施例1的基础上，步骤1，对训练得到的树模型进行路径预测，并记录样本路径，包括：

对样本数据进行划分，得到训练样本和测试样本；

本次设计的有益效果：自动对所述样本数据进行数据处理，并进行数据预测和路径记录。

实施例3：

基于实施例1的基础上，步骤2，根据所述树模型的特征，抽取样本路径上节点的规则信息，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征，包括：

此实施例中，所述冗余节点为基于所述树模型的多条样本路径中存在的相同节点或是不同树模型中存在的相同节点。

此实施例中，所述目标节点为所述树模型所有节点中除冗余节点之外的节点。

此实施例的有益效果：自动获取分析所述树模型的节点信息，并通过递归算法对所述树模型进行遍历分析，根据分析结果更新信息库，基于更新后的信息库抽取节点规则信息，生成数据驱动的风险策略规则，获取了用户交互的建模特征。

实施例4：

基于实施例1的基础上，步骤3，根据所述风控策略规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练，包括：

本次设计的有益效果：自动对所述用户交互的建模特征进行处理，并利用迭代建模功能将风控策略规则激活，对样本数据进行处理训练。

实施例5：

基于实施例1的基础上，步骤5，基于训练结果获取最新模型，生成串行规则报告并输出，包括：

实施例6：

基于实施例1的基础上，步骤1，对训练得到的树模型进行路径预测之前，还包括：

判断所述样本数据是否存在残缺部分，其包括：

根据定位的缺失点，构建基于所述样本数据的有向图；

此实施例中，所述主成分分析是一种统计方法，通过正交变换将训练样本和测试样本组合而成的一组变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

此实施例中，所述过程监测统计量为所述样本信息中训练样本的数据总量。

此实施例中，所述数据缺失为训练样本信息和测试样本信息中缺少数据。此实施例中，所述故障诊断模型为根据所述树结构中各节点的权重数据而建立的诊断模型，基于诊断模型可以定位数据缺失点。

此实施例中，所述有向图为一个有序三元组。

本次设计的工作原理及有益效果：实时采集训练样本和测试样本的样本信息，提取训练样本的主成分和过程监测统计量数据，将所述训练样本的过程监测统计量数据与所述测试样本的过程监测统计量数据进行对比判定，根据判定结果确定样本数据是否缺失，将所述训练样本转化为树结构，建立基于树结构稀疏的故障诊断模型，求解所述树结构稀疏的故障诊断模型，求得最优的估计向量作为故障定位依据，利用所述故障定位依据进行样本数据缺失点的定位，根据定位的缺失点，构建基于所述样本数据的有向图，根据所述有向图标定相似近邻点，计算所述缺失点与所述相似近邻点的距离，并根据所述距离获取所述相似近邻点对应的近邻点权重，进行样本数据补全；实时采集所述样本信息进行分析，自动判断所述样本信息是否残缺，当所述样本数据残缺时基于故障诊断模型对数据缺失点进行定位和补全。

实施例7：

基于实施例3的基础上，通过递归算法遍历树模型的每一层后，还包括：

实时检测遍历树模型过程的时间复杂度，其包括：

若预测时间复杂度与真实时间复杂度一致，判定所述树模型合格；

否则，若所述真实时间复杂度大于预测时间复杂度，获取所属树模型的初始拓扑图，并在所述初始拓扑图中的若干节点间添加关联关系，得出完全拓扑图；

根据路径检测算法在所述完全拓扑图上选出一条回路，并标记为第一回路，根据所述第一回路在所述完全拓扑图中依次经过的第一节点；

基于所述初始拓扑图筛选所述第一节点中的第二节点，并获取基于所述第二节点构成的最长路径，同时，基于所述第二节点以及最长路径，得到初始链路；

将所述初始链路上所有回路节点进行标定，并确定所述所有回路节点相连的单独节点中一阶邻居、二阶邻居和三阶邻居的节点位置；

当所述回路节点没有一阶邻居时，标定所述回路节点的重要度为1，反之，使用预设的重要度算法计算出所述一阶邻居的重要度；

当所述回路节点有邻居节点时，判断所述回路节点是否有二阶邻居，如果有，根据预设的重要度算法计算出所述二阶邻居的重要度；

当所述回路节点有二阶邻居时，判断所述回路节点是否存在三阶邻居，如果有，根据预设的重要度算法计算出所述三阶邻居的重要度；

当节点的重要度不小于1时，保留该节点，反之删除，得出改进链路；

对根据所述完全拓扑图中所有第一回路，获得对应的改进链路；

进行可行性分析，得出合格的改进链路，并对所述树模型进行改进。

此实施例中，所述递归算法的时间复杂度为是一个函数，它定性描述该递归算法的运行时间。

此实施例中，所述路径检测算法可以检测拓扑图中是否存在回路。

此实施例中，所述对应的节点和最长路径为所述第一回路在所述初始拓扑图中存在的对应节点和所述对应节点能连接形成的最长路径。

此实施例中，所述初始链路为所述第一回路在所述初始拓扑图中对应的一条最长路径。

此实施例中，所述相应路径为所述初始链路上的节点与被删除的邻近节点之间的路径。

此实施例中，所述单独节点为除回路节点之外的节点。

此实施例中，所述一阶邻居为与所述回路节点直接连接的单独节点。

此实施例中，所述二阶邻居为与所述回路节点间接连接的单独节点，且所述回路节点与所述单独节点之间存在一个中间节点。

此实施例中，所述三阶邻居为与所述回路节点间接连接的单独节点，且所述回路节点与所述单独节点之间存在两个中间节点。

此实施例中，所述改进链路为从所述初始链路中删除特定节点以及相应路径而形成的链路。

本次设计的工作原理及有益效果：对遍历所述树模型过程的时间复杂度进行预测，对所述预测时间复杂度进行预测，根据预测结果与真实结果进行判断，判定所述树模型是否合格，当所述树模型不合格时，对所述真实结果进行判断，否则，根据所述树模型的数据，生成初始拓扑图，并基于所述初始拓扑图得出完全拓扑图，在所述完全拓扑图上选出第一回路，根据所述第一回路得到初始链路，根据所述初始链路上回路节点与单独节点的判定，得出改进链路；自动分析判定树模型是否合格，当所述树模型不合格时分析生成改进链路。

实施例8：

此实施例中，所述的一种数据驱动的风控策略规则生成系统，还包括：样本路径模块,用于对基于第一训练模型(a)训练得到的树模型进行路径预测，记录所述路径的节点索引；

抽取节点规则信息模块,用于根据所述树模型的特征进行路径预测，并记录样本路径(b)；

规则与特征的人机交互模块,用于抽取样本路径上节点的规则信息(c)，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征；

双层次控制过滤机制模块，用于根据抽取规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练(g)；

串行规则报告及其输出模块,用于基于训练结果获取最新模型，生成串行规则报告并输出(h)。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据驱动的风控策略规则生成方法，其特征在于，包括：

步骤1：根据树模型，对样本数据进行路径预测，并记录样本路径；

步骤4：基于训练结果获取最新模型，生成串行规则报告并输出；

步骤2，根据所述树模型的特征，抽取样本路径上节点的规则信息，生成数据驱动的风控策略规则，同时，获取用户交互的建模特征，包括：

2.根据权利要求1所述的一种数据驱动的风控策略规则生成方法，其特征在于，步骤1，根据树模型，对样本数据进行路径预测，并记录样本路径，包括：

对样本数据进行划分，得到训练样本和测试样本；

3.根据权利要求1所述的一种数据驱动的风控策略规则生成方法，其特征在于，步骤3，根据所述风控策略规则以及交互结果对样本数据进行双层次过滤，并对过滤后的数据继续进行训练，包括：

4.根据权利要求1所述的一种数据驱动的风控策略规则生成方法，其特征在于，步骤4，基于训练结果获取最新模型，生成串行规则报告并输出，包括：

5.根据权利要求1所述的一种数据驱动的风控策略规则生成方法，其特征在于，步骤1，对样本数据进行路径预测之前，还包括：

判断所述样本数据是否存在残缺部分，其包括：

将所述训练样本转化为树结构，所述树结构中具有叶节点、中间节点和根节点，其中每个叶节点对应包含一个训练样本子数据，根节点对应包含所有训练样本数据，叶节点和根节点之间的其他节点作为中间节点，每个中间节点对应包含自身下的所有子节点的训练样本子数据；

根据定位的缺失点，构建基于所述样本数据的有向图；

6.根据权利要求1所述的一种数据驱动的风控策略规则生成方法，其特征在于，通过递归算法遍历树模型的每一层后，还包括：

实时检测遍历树模型过程的时间复杂度，其包括：

7.一种数据驱动的风控策略规则生成系统，其特征在于，包括：

样本路径模块,用于对基于第一训练模型(a)训练得到的树模型进行路径预测，记录所述路径的节点索引；

串行规则报告及其输出模块,用于基于训练结果获取最新模型，生成串行规则报告并输出(h)；

其中，抽取节点规则信息模块和规则与特征的人机交互模块的执行过程包括：