CN113392921B - 一种数据驱动的风控策略规则生成方法及系统 - Google Patents
一种数据驱动的风控策略规则生成方法及系统 Download PDFInfo
- Publication number
- CN113392921B CN113392921B CN202110722333.5A CN202110722333A CN113392921B CN 113392921 B CN113392921 B CN 113392921B CN 202110722333 A CN202110722333 A CN 202110722333A CN 113392921 B CN113392921 B CN 113392921B
- Authority
- CN
- China
- Prior art keywords
- nodes
- node
- data
- sample
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据驱动的风控策略规则生成方法及系统,对基于第一训练模型训练得到的树模型进行路径预测,记录所述路径的节点索引;根据所述树模型的特征,抽取目标节点;生成对应的抽取规则以及获取用户通过交互界面选择的下一步建模的特征;根据抽取规则以及交互结果对所述样本数据进行双层次过滤,并传输结果到第一训练模块继续进行训练;基于所述规则与特征的人机交互的输出生成串行规则组合性能报告,并用于上线部署。
Description
技术领域
本发明属于人工智能领域,具体来说,是一种利用数据驱动的风控策略规 则生成方法及系统。
背景技术
随着互联网金融及其应用的快速发展,海量的交易行为从线下转到线上, 银行、第三方支付平台等金融机构迫切需要对大量的交易数据进行快速、准确 的欺诈风险评估和管控。风控策略通常会包含很多种类型的规则,每个规则都 是结合产品、业务基于经验和数据分析产生出来的。所以,用于区分线上交易 中产生的针对不同场景的问题交易。风控策略规则更多地会结合用户体验和业 务来平衡损失跟业务发展的关系,不同企业应该根据自身的业务情况选择适合 的策略体系。
发明内容
本发明提供一种数据驱动的风控策略规则生成方法及系统,用以解决上述 提出的技术问题。
为实现上述目的,本发明提供如下技术方案:一种数据驱动的风控策略规 则生成方法,其特征在于,包括:
步骤1:对训练得到的树模型进行路径预测,并记录样本路径;
步骤2:根据所述树模型的特征,抽取样本路径上节点的规则信息,生成 数据驱动的风控策略规则,同时,获取用户交互的建模特征;
步骤3:根据所述风控策略规则以及交互结果对样本数据进行双层次过滤, 并对过滤后的数据继续进行训练;
步骤4:基于训练结果获取最新模型,生成串行规则报告并输出。
优选的,步骤1,对训练得到的树模型进行路径预测,并记录样本路径, 包括:
对样本数据进行划分,得到训练样本和测试样本;
根据所述树模型,对所述训练样本以及测试样本进行预测,估计每个样本 的路径,并记录每个样本的路径。
优选的,步骤2,根据所述树模型的特征,抽取样本路径上节点的规则信 息,生成数据驱动的风控策略规则,同时,获取用户交互的建模特征,包括:
获取所述树模型的节点,作为所述树模型的特征,筛选经过概率低于预设 概率的节点,并剔除,同时,筛选不同路径中存在的相同节点或者不同树模型 中存在的相同节点,作为冗余节点,并将剩余节点作为目标节点;
通过递归算法遍历所述树模型的每一层,判断所述目标节点是否满足提升 条件,若所述目标节点满足所述提升条件,对所述目标节点进行信息提取并保 存到信息库,更新信息库;
同时,获取满足所述提升条件的目标节点与冗余节点的一致度,并保留相 同节点中一致度最大的冗余节点,将剩余冗余节点进行剔除,并获取一致度最 大的冗余节点的信息,保存到信息库;
否则,判断所述目标节点的兄弟节点是否满足所述提升条件,若所述兄弟 节点满足所述提升条件,将所述兄弟节点进行提取信息并保存到信息库,更新 信息库;
基于更新的信息库,生成数据驱动的风险策略规则,同时,获取用户交互 的建模特征。
优选的,步骤3,根据所述风控策略规则以及交互结果对样本数据进行双 层次过滤,并对过滤后的数据继续进行训练,包括:
基于串行的迭代规则抽取模式,对所有特征按照业务逻辑进行分组;
且利用迭代建模功能将风控策略规则激活,对样本数据进行双层次过滤, 将双层次过滤后的数据继续进行训练。
优选的,步骤5,基于训练结果获取最新模型,生成串行规则报告并输出, 包括:
当需要开发串行的评分模型时,对双层次过滤后的结果进行评分,输出相 应的串行规则报告。
优选的,步骤1,对训练得到的树模型进行路径预测之前,还包括:
判断所述样本数据是否存在残缺部分,其包括:
实时采集训练样本和测试样本的样本信息,利用主成分分析提取训练 样本的主成分和过程监测统计量数据,并基于所述训练样本提取的主成分计算 测试样本的过程监测统计量数据;
将所述训练样本的过程监测统计量数据与所述测试样本的过程监测统 计量数据进行对比判定;
当所述训练样本的过程监测统计量数据大于所述测试样本的过程监测 统计量数据时,判定所述样本数据缺失;
当所述训练样本的过程监测统计量数据不大于所述测试样本的过程监 测统计量数据时,判定所述样本数据不缺失;
否则,判定所述样本数据缺失,将所述训练样本转化为树结构,所述 树结构中具有叶节点、中间节点和根节点,其中每个叶节点对应包含一个训练 样本子数据,根节点对应包含所有训练样本数据,叶节点和根节点之间的其他 节点作为中间节点,每个中间节点对应包含自身下的所有子节点的训练样本子 数据;
设置所述树结构中每个节点的权重,建立基于树结构稀疏的故障诊断 模型;
利用树结构求解算法求解所述树结构稀疏的故障诊断模型,求得最优的估 计向量作为故障定位依据,利用所述故障定位依据进行样本数据缺失点的定 位;
根据定位的缺失点,构建基于所述样本数据的有向图;
根据所述有向图查找与缺失点的缺失数据最相似的k个顶点,并标定为相 似近邻点;
计算所述缺失点与所述相似近邻点的距离,并根据所述距离获取所述相似 近邻点对应的近邻点权重;
利用k个相似近邻点以及对应的近邻点权重进行线性重建,进行样本数据 补全。
优选的,通过递归算法遍历树模型的每一层后,还包括:
实时检测遍历所述树模型过程的时间复杂度,其包括:
对遍历所述树模型过程的时间复杂度进行预测,得到预测时间复杂度;
对所述预测时间复杂度进行预测,若预测结果与真实结果一致,判定所述 树模型合格;
否则,对所述真实结果进行判断,若所述真实结果对应的真实时间复杂度 大于预测时间复杂度,根据所述树模型的数据,构建图数据模型,所述图数据 模型的图数据结构包括若干节点、节点关系和节点内容,所述节点关系用于描 述节点与节点之间的关联关系,所述节点和所述关系分别具有各自的属性;
基于所述图数据模型生成初始拓扑图,并基于所述初始拓扑图在所述若干 节点间添加关联关系,得出完全拓扑图;
根据路径检测算法在所述完全拓扑图上选出一条回路,并标记为第一回 路,根据所述第一回路在所述完全拓扑图中依次经过的节点和路径,在所述初 始拓扑图中依次找到对应的节点和最长路径,并将所述初始拓扑图中依次找到 的对应的节点和最长路径连接起来,得到初始链路;
对所述初始链路上每个节点进行判定改进,具体如下:
若所述初始链路上的节点只有一个邻近节点,则从所述初始链路中删除所 述邻近节点以及相应路径,若所述初始链路上的节点有两个邻近节点且所述两 个邻近节点互为邻近关系,则从所述初始链路中删除所述两个邻近节点以及相 应的路径;
进行判定改进后得出改进链路,并继续选出一条新的回路,求出其对应的 改进链路,直至所述完全拓扑图中所有回路全部选出;
对所有改进链路进行可行性分析,得出合格的改进链路,并对所述树模型 进行改进。
优选的,还包括:样本路径模块,用于对基于第一训练模型训练得到的树 模型进行路径预测,记录所述路径的节点索引;
抽取节点规则信息模块,用于根据所述树模型的特征进行路径预测,并记 录样本路径;
规则与特征的人机交互模块,用于抽取样本路径上节点的规则信息,生成 数据驱动的风控策略规则,同时,获取用户交互的建模特征;
双层次控制过滤机制模块,用于根据抽取规则以及交互结果对样本数据进 行双层次过滤,并对过滤后的数据继续进行训练;
串行规则报告及其输出模块,用于基于训练结果获取最新模型,生成串行 规则报告并输出。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明 书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可 通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获 得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明的方法流程示意图;
图2为本发明的风控规则报告示意图;
图3为本发明的方法步骤图;
图4为本发明步骤2的方法流程。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的 优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供了一种数据驱动的风控策略规则生成方法,如图1所示, 包括:
步骤1:对训练得到的树模型进行路径预测,并记录样本路径;
步骤2:根据所述树模型的特征,抽取样本路径上节点的规则信息,生成 数据驱动的风控策略规则,同时,获取用户交互的建模特征;
步骤3:根据所述风控策略规则以及交互结果对样本数据进行双层次过滤, 并对过滤后的数据继续进行训练;
步骤4:基于训练结果获取最新模型,生成串行规则报告并输出。
此实施例中,所述树模型是根据样本数据进行分析训练得出的树结构的网 络层级模型。
此实施例中,所述节点为所述树模型上的节点信息。
本次设计的有益效果:自动根据样本数据进行双层次分析过滤,并对所得 结果进行训练,根据训练结果进行最新模型的获取,以便生成串行规则报告并 输出。
实施例2:
基于实施例1的基础上,步骤1,对训练得到的树模型进行路径预测,并 记录样本路径,包括:
对样本数据进行划分,得到训练样本和测试样本;
根据所述树模型,对所述训练样本以及测试样本进行预测,估计每个样本 的路径,并记录每个样本的路径。
本次设计的有益效果:自动对所述样本数据进行数据处理,并进行数据预 测和路径记录。
实施例3:
基于实施例1的基础上,步骤2,根据所述树模型的特征,抽取样本路径 上节点的规则信息,生成数据驱动的风控策略规则,同时,获取用户交互的建 模特征,包括:
获取所述树模型的节点,作为所述树模型的特征,筛选经过概率低于预设 概率的节点,并剔除,同时,筛选不同路径中存在的相同节点或者不同树模型 中存在的相同节点,作为冗余节点,并将剩余节点作为目标节点;
通过递归算法遍历所述树模型的每一层,判断所述目标节点是否满足提升 条件,若所述目标节点满足所述提升条件,对所述目标节点进行信息提取并保 存到信息库,更新信息库;
同时,获取满足所述提升条件的目标节点与冗余节点的一致度,并保留相 同节点中一致度最大的冗余节点,将剩余冗余节点进行剔除,并获取一致度最 大的冗余节点的信息,保存到信息库;
否则,判断所述目标节点的兄弟节点是否满足所述提升条件,若所述兄弟 节点满足所述提升条件,将所述兄弟节点进行提取信息并保存到信息库,更新 信息库;
基于更新的信息库,生成数据驱动的风险策略规则,同时,获取用户交互 的建模特征。
此实施例中,所述冗余节点为基于所述树模型的多条样本路径中存在的相 同节点或是不同树模型中存在的相同节点。
此实施例中,所述目标节点为所述树模型所有节点中除冗余节点之外的节 点。
此实施例的有益效果:自动获取分析所述树模型的节点信息,并通过递归 算法对所述树模型进行遍历分析,根据分析结果更新信息库,基于更新后的信 息库抽取节点规则信息,生成数据驱动的风险策略规则,获取了用户交互的建 模特征。
实施例4:
基于实施例1的基础上,步骤3,根据所述风控策略规则以及交互结果对 样本数据进行双层次过滤,并对过滤后的数据继续进行训练,包括:
基于串行的迭代规则抽取模式,对所有特征按照业务逻辑进行分组;
且利用迭代建模功能将风控策略规则激活,对样本数据进行双层次过滤, 将双层次过滤后的数据继续进行训练。
本次设计的有益效果:自动对所述用户交互的建模特征进行处理,并利用 迭代建模功能将风控策略规则激活,对样本数据进行处理训练。
实施例5:
基于实施例1的基础上,步骤5,基于训练结果获取最新模型,生成串行 规则报告并输出,包括:
当需要开发串行的评分模型时,对双层次过滤后的结果进行评分,输出相 应的串行规则报告。
实施例6:
基于实施例1的基础上,步骤1,对训练得到的树模型进行路径预测之前, 还包括:
判断所述样本数据是否存在残缺部分,其包括:
实时采集训练样本和测试样本的样本信息,利用主成分分析提取训练 样本的主成分和过程监测统计量数据,并基于所述训练样本提取的主成分计算 测试样本的过程监测统计量数据;
将所述训练样本的过程监测统计量数据与所述测试样本的过程监测统 计量数据进行对比判定;
当所述训练样本的过程监测统计量数据大于所述测试样本的过程监测 统计量数据时,判定所述样本数据缺失;
当所述训练样本的过程监测统计量数据不大于所述测试样本的过程监 测统计量数据时,判定所述样本数据不缺失;
否则,判定所述样本数据缺失,将所述训练样本转化为树结构,所述 树结构中具有叶节点、中间节点和根节点,其中每个叶节点对应包含一个训练 样本子数据,根节点对应包含所有训练样本数据,叶节点和根节点之间的其他 节点作为中间节点,每个中间节点对应包含自身下的所有子节点的训练样本子 数据;
设置所述树结构中每个节点的权重,建立基于树结构稀疏的故障诊断 模型;
利用树结构求解算法求解所述树结构稀疏的故障诊断模型,求得最优的估 计向量作为故障定位依据,利用所述故障定位依据进行样本数据缺失点的定 位;
根据定位的缺失点,构建基于所述样本数据的有向图;
根据所述有向图查找与缺失点的缺失数据最相似的k个顶点,并标定为相 似近邻点;
计算所述缺失点与所述相似近邻点的距离,并根据所述距离获取所述相似 近邻点对应的近邻点权重;
利用k个相似近邻点以及对应的近邻点权重进行线性重建,进行样本数据 补全。
此实施例中,所述主成分分析是一种统计方法,通过正交变换将训练样本 和测试样本组合而成的一组变量转换为一组线性不相关的变量,转换后的这组 变量叫主成分。
此实施例中,所述过程监测统计量为所述样本信息中训练样本的数据总 量。
此实施例中,所述数据缺失为训练样本信息和测试样本信息中缺少数据。 此实施例中,所述故障诊断模型为根据所述树结构中各节点的权重数据而建立 的诊断模型,基于诊断模型可以定位数据缺失点。
此实施例中,所述有向图为一个有序三元组。
本次设计的工作原理及有益效果:实时采集训练样本和测试样本的样本信 息,提取训练样本的主成分和过程监测统计量数据,将所述训练样本的过程监 测统计量数据与所述测试样本的过程监测统计量数据进行对比判定,根据判定 结果确定样本数据是否缺失,将所述训练样本转化为树结构,建立基于树结构 稀疏的故障诊断模型,求解所述树结构稀疏的故障诊断模型,求得最优的估计 向量作为故障定位依据,利用所述故障定位依据进行样本数据缺失点的定位, 根据定位的缺失点,构建基于所述样本数据的有向图,根据所述有向图标定相 似近邻点,计算所述缺失点与所述相似近邻点的距离,并根据所述距离获取所 述相似近邻点对应的近邻点权重,进行样本数据补全;实时采集所述样本信息 进行分析,自动判断所述样本信息是否残缺,当所述样本数据残缺时基于故障 诊断模型对数据缺失点进行定位和补全。
实施例7:
基于实施例3的基础上,通过递归算法遍历树模型的每一层后,还包括:
实时检测遍历树模型过程的时间复杂度,其包括:
对遍历所述树模型过程的时间复杂度进行预测,得到预测时间复杂度;
若预测时间复杂度与真实时间复杂度一致,判定所述树模型合格;
否则,若所述真实时间复杂度大于预测时间复杂度,获取所属树模型的初 始拓扑图,并在所述初始拓扑图中的若干节点间添加关联关系,得出完全拓扑 图;
根据路径检测算法在所述完全拓扑图上选出一条回路,并标记为第一回 路,根据所述第一回路在所述完全拓扑图中依次经过的第一节点;
基于所述初始拓扑图筛选所述第一节点中的第二节点,并获取基于所述第 二节点构成的最长路径,同时,基于所述第二节点以及最长路径,得到初始链 路;
将所述初始链路上所有回路节点进行标定,并确定所述所有回路节点相连 的单独节点中一阶邻居、二阶邻居和三阶邻居的节点位置;
当所述回路节点没有一阶邻居时,标定所述回路节点的重要度为1,反之, 使用预设的重要度算法计算出所述一阶邻居的重要度;
当所述回路节点有邻居节点时,判断所述回路节点是否有二阶邻居,如果 有,根据预设的重要度算法计算出所述二阶邻居的重要度;
当所述回路节点有二阶邻居时,判断所述回路节点是否存在三阶邻居,如 果有,根据预设的重要度算法计算出所述三阶邻居的重要度;
当节点的重要度不小于1时,保留该节点,反之删除,得出改进链路;
对根据所述完全拓扑图中所有第一回路,获得对应的改进链路;
进行可行性分析,得出合格的改进链路,并对所述树模型进行改进。
此实施例中,所述递归算法的时间复杂度为是一个函数,它定性描述该递 归算法的运行时间。
此实施例中,所述路径检测算法可以检测拓扑图中是否存在回路。
此实施例中,所述对应的节点和最长路径为所述第一回路在所述初始拓扑 图中存在的对应节点和所述对应节点能连接形成的最长路径。
此实施例中,所述初始链路为所述第一回路在所述初始拓扑图中对应的一 条最长路径。
此实施例中,所述相应路径为所述初始链路上的节点与被删除的邻近节点 之间的路径。
此实施例中,所述单独节点为除回路节点之外的节点。
此实施例中,所述一阶邻居为与所述回路节点直接连接的单独节点。
此实施例中,所述二阶邻居为与所述回路节点间接连接的单独节点,且所 述回路节点与所述单独节点之间存在一个中间节点。
此实施例中,所述三阶邻居为与所述回路节点间接连接的单独节点,且所 述回路节点与所述单独节点之间存在两个中间节点。
此实施例中,所述改进链路为从所述初始链路中删除特定节点以及相应路 径而形成的链路。
本次设计的工作原理及有益效果:对遍历所述树模型过程的时间复杂度进 行预测,对所述预测时间复杂度进行预测,根据预测结果与真实结果进行判断, 判定所述树模型是否合格,当所述树模型不合格时,对所述真实结果进行判断, 否则,根据所述树模型的数据,生成初始拓扑图,并基于所述初始拓扑图得出 完全拓扑图,在所述完全拓扑图上选出第一回路,根据所述第一回路得到初始 链路,根据所述初始链路上回路节点与单独节点的判定,得出改进链路;自动 分析判定树模型是否合格,当所述树模型不合格时分析生成改进链路。
实施例8:
此实施例中,所述的一种数据驱动的风控策略规则生成系统,还包括:样 本路径模块,用于对基于第一训练模型(a)训练得到的树模型进行路径预测,记 录所述路径的节点索引;
抽取节点规则信息模块,用于根据所述树模型的特征进行路径预测,并记 录样本路径(b);
规则与特征的人机交互模块,用于抽取样本路径上节点的规则信息(c),生 成数据驱动的风控策略规则,同时,获取用户交互的建模特征;
双层次控制过滤机制模块,用于根据抽取规则以及交互结果对样本数据进 行双层次过滤,并对过滤后的数据继续进行训练(g);
串行规则报告及其输出模块,用于基于训练结果获取最新模型,生成串行 规则报告并输出(h)。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离 本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要 求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种数据驱动的风控策略规则生成方法,其特征在于,包括:
步骤1:根据树模型,对样本数据进行路径预测,并记录样本路径;
步骤2:根据所述树模型的特征,抽取样本路径上节点的规则信息,生成数据驱动的风控策略规则,同时,获取用户交互的建模特征;
步骤3:根据所述风控策略规则以及交互结果对样本数据进行双层次过滤,并对过滤后的数据继续进行训练;
步骤4:基于训练结果获取最新模型,生成串行规则报告并输出;
步骤2,根据所述树模型的特征,抽取样本路径上节点的规则信息,生成数据驱动的风控策略规则,同时,获取用户交互的建模特征,包括:
获取所述树模型的节点,作为所述树模型的特征,筛选经过概率低于预设概率的节点,并剔除,同时,筛选不同路径中存在的相同节点或者不同树模型中存在的相同节点,作为冗余节点,并将剩余节点作为目标节点;
通过递归算法遍历所述树模型的每一层,判断所述目标节点是否满足提升条件,若所述目标节点满足所述提升条件,对所述目标节点进行信息提取并保存到信息库,更新信息库;
同时,获取满足所述提升条件的目标节点与冗余节点的一致度,并保留相同节点中一致度最大的冗余节点,将剩余冗余节点进行剔除,并获取一致度最大的冗余节点的信息,保存到信息库;
否则,判断所述目标节点的兄弟节点是否满足所述提升条件,若所述兄弟节点满足所述提升条件,将所述兄弟节点进行提取信息并保存到信息库,更新信息库;
基于更新的信息库,生成数据驱动的风险策略规则,同时,获取用户交互的建模特征。
2.根据权利要求1所述的一种数据驱动的风控策略规则生成方法,其特征在于,步骤1,根据树模型,对样本数据进行路径预测,并记录样本路径,包括:
对样本数据进行划分,得到训练样本和测试样本;
根据所述树模型,对所述训练样本以及测试样本进行预测,估计每个样本的路径,并记录每个样本的路径。
3.根据权利要求1所述的一种数据驱动的风控策略规则生成方法,其特征在于,步骤3,根据所述风控策略规则以及交互结果对样本数据进行双层次过滤,并对过滤后的数据继续进行训练,包括:
基于串行的迭代规则抽取模式,对所有特征按照业务逻辑进行分组;
且利用迭代建模功能将风控策略规则激活,对样本数据进行双层次过滤,将双层次过滤后的数据继续进行训练。
4.根据权利要求1所述的一种数据驱动的风控策略规则生成方法,其特征在于,步骤4,基于训练结果获取最新模型,生成串行规则报告并输出,包括:
当需要开发串行的评分模型时,对双层次过滤后的结果进行评分,输出相应的串行规则报告。
5.根据权利要求1所述的一种数据驱动的风控策略规则生成方法,其特征在于,步骤1,对样本数据进行路径预测之前,还包括:
判断所述样本数据是否存在残缺部分,其包括:
实时采集训练样本和测试样本的样本信息,利用主成分分析提取训练样本的主成分和过程监测统计量数据,并基于所述训练样本提取的主成分计算测试样本的过程监测统计量数据;
将所述训练样本的过程监测统计量数据与所述测试样本的过程监测统计量数据进行对比判定;
当所述训练样本的过程监测统计量数据大于所述测试样本的过程监测统计量数据时,判定所述样本数据缺失;
当所述训练样本的过程监测统计量数据不大于所述测试样本的过程监测统计量数据时,判定所述样本数据不缺失;
将所述训练样本转化为树结构,所述树结构中具有叶节点、中间节点和根节点,其中每个叶节点对应包含一个训练样本子数据,根节点对应包含所有训练样本数据,叶节点和根节点之间的其他节点作为中间节点,每个中间节点对应包含自身下的所有子节点的训练样本子数据;
设置所述树结构中每个节点的权重,建立基于树结构稀疏的故障诊断模型;
利用树结构求解算法求解所述树结构稀疏的故障诊断模型,求得最优的估计向量作为故障定位依据,利用所述故障定位依据进行样本数据缺失点的定位;
根据定位的缺失点,构建基于所述样本数据的有向图;
根据所述有向图查找与缺失点的缺失数据最相似的k个顶点,并标定为相似近邻点;
计算所述缺失点与所述相似近邻点的距离,并根据所述距离获取所述相似近邻点对应的近邻点权重;
利用k个相似近邻点以及对应的近邻点权重进行线性重建,进行样本数据补全。
6.根据权利要求1所述的一种数据驱动的风控策略规则生成方法,其特征在于,通过递归算法遍历树模型的每一层后,还包括:
实时检测遍历树模型过程的时间复杂度,其包括:
对遍历所述树模型过程的时间复杂度进行预测,得到预测时间复杂度;
若预测时间复杂度与真实时间复杂度一致,判定所述树模型合格;
否则,若所述真实时间复杂度大于预测时间复杂度,获取所属树模型的初始拓扑图,并在所述初始拓扑图中的若干节点间添加关联关系,得出完全拓扑图;
根据路径检测算法在所述完全拓扑图上选出一条回路,并标记为第一回路,根据所述第一回路在所述完全拓扑图中依次经过的第一节点;
基于所述初始拓扑图筛选所述第一节点中的第二节点,并获取基于所述第二节点构成的最长路径,同时,基于所述第二节点以及最长路径,得到初始链路;
将所述初始链路上所有回路节点进行标定,并确定所述所有回路节点相连的单独节点中一阶邻居、二阶邻居和三阶邻居的节点位置;
当所述回路节点没有一阶邻居时,标定所述回路节点的重要度为1,反之,使用预设的重要度算法计算出所述一阶邻居的重要度;
当所述回路节点有邻居节点时,判断所述回路节点是否有二阶邻居,如果有,根据预设的重要度算法计算出所述二阶邻居的重要度;
当所述回路节点有二阶邻居时,判断所述回路节点是否存在三阶邻居,如果有,根据预设的重要度算法计算出所述三阶邻居的重要度;
当节点的重要度不小于1时,保留该节点,反之删除,得出改进链路;
对根据所述完全拓扑图中所有第一回路,获得对应的改进链路;
进行可行性分析,得出合格的改进链路,并对所述树模型进行改进。
7.一种数据驱动的风控策略规则生成系统,其特征在于,包括:
样本路径模块,用于对基于第一训练模型(a)训练得到的树模型进行路径预测,记录所述路径的节点索引;
抽取节点规则信息模块,用于根据所述树模型的特征进行路径预测,并记录样本路径(b);
规则与特征的人机交互模块,用于抽取样本路径上节点的规则信息(c),生成数据驱动的风控策略规则,同时,获取用户交互的建模特征;
双层次控制过滤机制模块,用于根据抽取规则以及交互结果对样本数据进行双层次过滤,并对过滤后的数据继续进行训练(g);
串行规则报告及其输出模块,用于基于训练结果获取最新模型,生成串行规则报告并输出(h);
其中,抽取节点规则信息模块和规则与特征的人机交互模块的执行过程包括:
获取所述树模型的节点,作为所述树模型的特征,筛选经过概率低于预设概率的节点,并剔除,同时,筛选不同路径中存在的相同节点或者不同树模型中存在的相同节点,作为冗余节点,并将剩余节点作为目标节点;
通过递归算法遍历所述树模型的每一层,判断所述目标节点是否满足提升条件,若所述目标节点满足所述提升条件,对所述目标节点进行信息提取并保存到信息库,更新信息库;
同时,获取满足所述提升条件的目标节点与冗余节点的一致度,并保留相同节点中一致度最大的冗余节点,将剩余冗余节点进行剔除,并获取一致度最大的冗余节点的信息,保存到信息库;
否则,判断所述目标节点的兄弟节点是否满足所述提升条件,若所述兄弟节点满足所述提升条件,将所述兄弟节点进行提取信息并保存到信息库,更新信息库;
基于更新的信息库,生成数据驱动的风险策略规则,同时,获取用户交互的建模特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722333.5A CN113392921B (zh) | 2021-06-29 | 2021-06-29 | 一种数据驱动的风控策略规则生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110722333.5A CN113392921B (zh) | 2021-06-29 | 2021-06-29 | 一种数据驱动的风控策略规则生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113392921A CN113392921A (zh) | 2021-09-14 |
CN113392921B true CN113392921B (zh) | 2022-03-29 |
Family
ID=77624239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110722333.5A Active CN113392921B (zh) | 2021-06-29 | 2021-06-29 | 一种数据驱动的风控策略规则生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113392921B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8930262B1 (en) * | 2010-11-02 | 2015-01-06 | Experian Technology Ltd. | Systems and methods of assisted strategy design |
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
US20190311428A1 (en) * | 2018-04-07 | 2019-10-10 | Brighterion, Inc. | Credit risk and default prediction by smart agents |
CN109801078A (zh) * | 2019-01-22 | 2019-05-24 | 深圳魔数智擎科技有限公司 | 规则提取方法、计算机可读存储介质及计算机设备 |
CN110956277A (zh) * | 2019-11-27 | 2020-04-03 | 深圳市魔数智擎人工智能有限公司 | 一种交互式的迭代建模系统及方法 |
CN112016788A (zh) * | 2020-07-14 | 2020-12-01 | 北京淇瑀信息科技有限公司 | 风险控制策略生成及风险控制方法、装置和电子设备 |
-
2021
- 2021-06-29 CN CN202110722333.5A patent/CN113392921B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113392921A (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
CN111340063A (zh) | 一种磨煤机数据异常检测方法 | |
CN113032238A (zh) | 基于应用知识图谱的实时根因分析方法 | |
CN116450399A (zh) | 微服务系统故障诊断及根因定位方法 | |
CN114611372A (zh) | 一种基于物联网边缘计算的工业设备健康预测方法 | |
CN115508672A (zh) | 电网主设备故障溯源推理方法、系统、设备及介质 | |
CN111931936A (zh) | 一种协同案例推理与语义模型推理的设备故障诊断方法 | |
CN116361059A (zh) | 一种银行业务异常根因诊断方法及诊断系统 | |
CN108846489A (zh) | 一种基于svm的大型设备健康状况评估方法 | |
CN115757103A (zh) | 基于树结构的神经网络测试用例生成方法 | |
CN117034143A (zh) | 一种基于机器学习的分布式系统故障诊断方法及装置 | |
CN113259388B (zh) | 网络流量异常检测方法、电子设备及可读存储介质 | |
CN115169534A (zh) | 卷积神经网络的样本优化训练方法及计算机可读存储介质 | |
CN117669384A (zh) | 基于物联网的温度传感器生产智能监测方法及系统 | |
CN113392921B (zh) | 一种数据驱动的风控策略规则生成方法及系统 | |
Pradeep et al. | Optimal Predictive Maintenance Technique for Manufacturing Semiconductors using Machine Learning | |
CN115330526A (zh) | 一种企业信用评分方法及装置 | |
CN109359850A (zh) | 一种生成风险评估量表的方法及装置 | |
CN113807462A (zh) | 一种基于ai的网络设备故障原因定位方法及其系统 | |
Munikoti et al. | Bayesian graph neural network for fast identification of critical nodes in uncertain complex networks | |
CN111881040A (zh) | 一种基于循环神经网络的抽象状态模型的测试数据生成方法 | |
CN117312809B (zh) | 一种基于知识图谱的软件缺陷预测方法及系统 | |
CN113327162B (zh) | 一种信贷风控规则制定系统 | |
CN114492877B (zh) | 一种业务系统的运维分析方法及装置 | |
CN117527622B (zh) | 网络交换机的数据处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |