CN116563028A - 基于ai的报送数据校验方法、系统及存储介质 - Google Patents
基于ai的报送数据校验方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116563028A CN116563028A CN202310639793.0A CN202310639793A CN116563028A CN 116563028 A CN116563028 A CN 116563028A CN 202310639793 A CN202310639793 A CN 202310639793A CN 116563028 A CN116563028 A CN 116563028A
- Authority
- CN
- China
- Prior art keywords
- data
- risk
- features
- model
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000013524 data verification Methods 0.000 title claims abstract description 32
- 230000005856 abnormality Effects 0.000 claims abstract description 54
- 238000004458 analytical method Methods 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims description 62
- 238000001514 detection method Methods 0.000 claims description 29
- 238000010276 construction Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000012800 visualization Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063114—Status monitoring or status determination for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据分析技术领域,具体为一种基于AI的报送数据校验方法、系统及存储介质,包括:S1、获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;S2、根据数据集中数据的关联关系,自动构造特征;S3、在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;S4、根据异常分析结果,进行异常提醒。本方案可以从数据中学习,自动发现数据异常,多维度探查隐藏风险模式,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,降低合规成本。
Description
技术领域
本发明涉及数据分析技术领域,具体为一种基于AI的报送数据校验方法、系统及存储介质。
背景技术
随着各监管机构对金融、保险等相关行业监督管理力度越来越大,相关行业需要通过银行、互联网金融及其他支付机构向各监管机构数据采集平台报送数据;报送的数据要保障其为合规数据,避免存在合规风险,因此报送数据的数据质量非常重要,需要进行报送数据校验,以及时发现数据异常和合规问题。
目前,数据报送的数据质量校验主要基于简单的规则模型,如根据监管政策构建相应的合规指标,再通过人工经验选择合适的规则模型,进行数据校验,这种方法能够发现基础的合规问题,但是对于一些隐藏的业务风险却难以识别,且依赖人工及其业务知识经验,合规成本高,并且规则模型具有滞后性,无法提前探查一些新的业务风险点,从而给金融机构带来潜在损失。
因此现在急需一种基于AI的报送数据校验方法、系统及存储介质,能自动发现数据异常,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,以降低合规成本。
发明内容
本发明的目的之一在于提供一种基于AI的报送数据校验方法,能自动发现数据异常,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,以降低合规成本。
本发明提供的基础方案一:基于AI的报送数据校验方法,包括如下内容:
S1、获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
S2、根据数据集中数据的关联关系,自动构造特征;
S3、在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;
S4、根据异常分析结果,进行异常提醒。
进一步,所述数据源中的数据为各类表;数据,包括:对公信贷业务借据表、对私信贷业务借据表、信贷合同表、对公信贷分户账、对私信贷分户账、对公活期存款分户账、对私活期存款分户账、对公定期存款分户账、对私定期存款分户账、票据票面信息表、对公客户信息表、个人基础信息表、存款信息相关表、贷款信息相关表和客户基础信息相关表。
进一步,所述特征,包括:基本特征和深度特征;
所述S2,包括:
各业务风险识别模型中对应的风险场景下设置对应的数据为主表;
根据数据集中数据的关联关系,通过定义的基础特征算子,自动构造基本特征;其中基本特征,包括:聚合特征和转换特征;
根据基础特征算子,通过定义的深度特征算子,构造深度特征;其中深度特征,包括:深度聚合特征和深度转换特征。
进一步,所述根据基础特征算子,构造深度特征,包括:
设置指定深度;指定深度为主表与具有关联关系的表之间的关联度;
根据指定深度,将与主表之间的关联度符合指定深度的表纳入到深度特征的构建中,构造深度特征。
进一步,还包括:设置时间窗口,在时间窗口内执行S2。
进一步,所述S3包括模型训练步骤和模型部署步骤;
模型训练步骤,包括:在若干业务风险识别模型中,对每个风险场景下采用对应的设有标签的特征,输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型;其中特征的标签,包括:正常标签和异常标签;
模型部署步骤:将筛选出的预测模型,应用于各风险场景下新数据的异常分析,生成异常分析结果。
进一步,所述模型训练步骤,具体包括:预先定义标签,确定数据的回溯时间;
根据回溯时间从构造的特征中获取对应时间切片的特征,形成特征集;
自动进行特征筛选及降维,获取特征子集;
筛选后的特征子集输入作为备选模型的异常检测模型集合中,筛选最优表现的异常检测模型作为预测模型;其中异常检测模型集合中包括若干异常检测模型;
所述模型部署步骤,具体包括:在若干风险场景下采用其对应的预测模型,计算各风险场景下的异常分;
对若干风险场景下的异常分进行加权汇总处理,获取总异常分;
将各风险场景下异常分和总异常分,打标到数据对应的用户ID上。
进一步,所述S4,包括:
对总异常分进行排序,生成异常分排序结果;
根据异常分排序结果,分析存在异常的数据及其明细信息,并分析数据异常的原因,进行异常提醒。
本发明的目的之二在于提供一种基于AI的报送数据校验系统,能自动发现数据异常,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,以降低合规成本。
本发明提供基础方案二:基于AI的报送数据校验系统,包括:合规数据归集模块、自动特征工程模块、数据异常检测模块和合规预警模块;
合规数据归集模块,用于获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
自动特征工程模块,用于根据数据集中数据的关联关系,自动构造特征;
数据异常检测模块,用于在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;
合规预警模块,用于根据异常分析结果,进行异常提醒。
本发明的目的之三在于提供一种基于AI的报送数据校验存储介质,能自动发现数据异常,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,以降低合规成本。
本发明提供基础方案三:基于AI的报送数据校验存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项上述基于AI的报送数据校验方法的步骤。
本方案的有益效果:本方案通过获取收集不同来源(数据源)的数据(合规数据),对数据进行关联与整合,根据整合后的数据集及其中数据的关联关系,自动构造基本特征和或深度特征,从而获取得到基于用户维度的单表/多表关联的聚合特征和转换特征,形成特征;后续对数据进行异常分析时,不是单纯就数据进行分析,而是结合不同的数据源中获取的数据及其关联关系进行的特征进行分析,从而从多角度多深度分析数据异常,提高数据异常分析的全面性和深度,有利于发现更多存在的数据异常;
针对不同风险场景下,自适应采用最优表现的异常检测模型作为当前风险场景下的预测模型,从而采用预测模型在该风险场景下进行异常分析,生成异常分析结果,能保障异常检测模型的分析精度和准确度为当前最优表现,从而提高异常分析结果的准确性;最后根据异常分析结果,进行异常提醒,以便于异常数据能被及时发现修正,减少后续异常数据的不利影响。
本方案以全数据思维模式解决传统的合规数据报送问题,相对于通常的风险规则模型,本方案可以从数据中学习,自动发现数据异常(合规风险),多维度探查隐藏风险模式,不需大量人工和依靠人工经验进行异常分析,降低合规成本。
附图说明
图1为本发明基于AI的报送数据校验方法实施例一的示意图;
图2为本发明基于AI的报送数据校验系统实施例二的示意图。
具体实施方式
下面通过具体实施方式进一步详细说明:
实施例一
本实施例基本如附图1所示:基于AI的报送数据校验方法,包括如下内容:
S1、获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
其中数据源为不同可获取数据的系统,不同数据源获取的数据,包括:对公信贷业务借据表、对私信贷业务借据表、信贷合同表、对公信贷分户账、对私信贷分户账、对公活期存款分户账、对私活期存款分户账、对公定期存款分户账、对私定期存款分户账、票据票面信息表、对公客户信息表、个人基础信息表、存款信息相关表、贷款信息相关表和客户基础信息相关表;数据源中的数据为各类表;
具体地,数据源为不同可获取数据的系统,从不同数据源获取数据,采用可视化工具对数据进行整合,其中可视化工具对数据进行整合包括:建立各数据源的连接,拉取数据(各类表),根据预设关联关系,可视化地建立数据(表)间的关联,存储关联后的数据集(包含若干表及表间关联关系的集合);其中预设关联关系为指定表与表的关联对和关联主键,关联对即指定哪个表和哪个表做关联,关联主键即确定关联的表之间的主从关系,从而建立其数据(表)的血缘关系。
S2、根据数据集中数据的关联关系,自动构造特征;其中特征包括:基本特征和深度特征;
具体地,不同业务风险识别模型,对应不同的风险场景,在各业务风险识别模型中对应的风险场景下设置对应的数据为主表,且每个风险场景下进行自动构造特征所需的主表可能存在差异,其中对应风险场景下主要依赖的数据,例如:票据贴现异常模型中,依赖的主表为票据票面信息表,其他与主表关联的附表都会纳入到特征的衍生(构造)过程中;并且每个风险场景下的特征都打标到用户ID维度下,存储为不同的表,以便于后续查询;
其中基础特征的构造,包括:根据数据集中数据的关联关系,通过定义的基础特征算子,自动构造基本特征,其中基本特征,包括但不限于:聚合特征和转换特征;聚合特征如max、min和avg等;转换特征如one-hot编码;且通常会定义上百个基础特征算子,以满足不同的特征构造需求;
其中深度特征的构造,包括:根据基础特征算子,通过定义的深度特征算子,构造深度特征;其中深度特征,包括:深度聚合特征和深度转换特征;
具体地,设置指定深度;指定深度为主表与具有关联关系的表之间的关联度;
根据指定深度,将与主表之间的关联度符合指定深度的表纳入到深度特征的构建中,构造深度特征。
例如,某风险场景下主表为对私信贷业务借据表,该表与还款计划表直接关联,而还款计划表与实际还款表直接关联。若深度为1,那么对私信贷业务借据表只与还款计划表关联构造特征(如构造最近半年应还贷款笔数特征);若深度为2,那么对私信贷业务借据表与还款计划表及实际还款表均建立联系构造特征(如构造最近半年应还/实还贷款笔数特征);即指定深度为2,将与主表二度关联的表均纳入深度特征的构建汇总,构建深度特征。
特征计算(自动构造基本特征和深度特征)时需要确定时间窗口(由回溯时间确定,而回溯时间与建模用到的目标变量有关,用户预定义),在时间窗口内执行所述S2;若用户需要个性化的特征,还可以进行可视化配置新特征,即通过终端输入配置新特征;
S3、在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果。
具体地,所述S3包括模型训练步骤和模型部署步骤;
模型训练步骤,包括:在若干业务风险识别模型中,对每个风险场景下采用对应的设有标签的特征,输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型;其中特征的标签,包括:正常标签和异常标签;
具体包括:预先定义标签,确定数据的回溯时间;其中标签是根据每个用户进行设置的,若用户存在业务风险,则标签为异常,若用户不存在业务风险,则标签为正常;标签和特征都是定义在用户维度上的,假设标签为变量y,特征为变量X,预测模型就为y=f(X),通过特征去预测标签;
根据回溯时间从构造的特征中获取对应时间切片的特征,形成特征集;
自动进行特征筛选及降维,获取特征子集;其中筛选,包括但不限于:缺失率筛选、变异程度筛选和相关性筛选;降维,包括但不限于:PCA降维;
筛选后的特征子集输入作为备选模型的异常检测模型集合中,筛选最优表现的异常检测模型作为预测模型;其中异常检测模型集合中包括若干异常检测模型,如IsolationForest(孤立森林算法)、hbosHBOS(Histogram-based Outlier Score)、copodCOPOD(Copula-Based Outlier Detection);最优表现为异常检测模型在样本(特征子集)外的预测能力最强,其中表征预测能力强弱的指标包括但不限于:混淆矩阵、预测精度、AUC值和KS值等;
模型部署步骤:将筛选出的预测模型,应用于各风险场景下新数据的异常分析,生成异常分析结果;
具体包括:模型部署后,针对新的数据,在若干风险场景下采用其对应的预测模型,计算各风险场景下的异常分;
对若干风险场景下的异常分进行加权汇总处理,获取总异常分;其中进行加权汇总处理采用Bootstrap aggregating方法;
将各风险场景下异常分和总异常分,打标到数据对应的用户ID上;
S4、根据异常分析结果,进行异常提醒。
具体地,对总异常分进行排序,生成异常分排序结果,其中排序根据需求进行由大到小的排序,总异常分越大越可能异常;
根据异常分排序结果,分析存在异常的数据及其明细信息,并分析数据异常的原因,进行异常提醒;其中异常为合规风险,进行异常提醒是通过向管理人员的终端推送数据异常的提示信息,提示信息包括:总异常分,各风险场景的异常分,存在异常的数据及其明细信息、数据异常的原因;提示信息中总异常分,各风险场景的异常分,存在异常的数据和数据异常的原因也可以在前端页面进行展示,并通过获取数据详情选择信号,展示对应的存在异常的数据的明细信息。
本方案,通过获取收集不同来源(数据源)的数据(合规数据),对数据进行关联与整合,根据整合后的数据集及其中数据的关联关系,自动构造基本特征和或深度特征,从而获取得到基于用户维度的单表/多表关联的聚合特征和转换特征,形成特征;
针对不同风险场景,自适应采用最优表现的异常检测模型作为当前风险场景下的预测模型,从而采用预测模型在该风险场景下进行异常分析,生成异常分析结果,能保障异常检测模型的分析精度和准确度为当前最优表现,从而提高异常分析结果的准确性;最后根据异常分析结果,进行异常提醒,以便于异常数据能被及时发现修正,减少后续异常数据的不利影响。
本方案以全数据思维模式解决传统的合规数据报送问题,相对于通常的风险规则模型,本方案可以从数据中学习,自动发现数据异常(合规风险),多维度探查隐藏风险模式,提高异常分析结果的准确性,降低对人工及其业务知识经验的依赖,降低合规成本。
上述基于AI的报送数据校验方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
实施例二
本实施例基本如附图2所示:基于AI的报送数据校验系统,包括:合规数据归集模块、自动特征工程模块、数据异常检测模块和合规预警模块;
合规数据归集模块,用于获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
其中数据源为不同可获取数据的系统,不同数据源获取的数据,包括:对公信贷业务借据表、对私信贷业务借据表、信贷合同表、对公信贷分户账、对私信贷分户账、对公活期存款分户账、对私活期存款分户账、对公定期存款分户账、对私定期存款分户账、票据票面信息表、对公客户信息表、个人基础信息表、存款信息相关表、贷款信息相关表和客户基础信息相关表;数据源中的数据为各类表;
具体地,数据源为不同可获取数据的系统,从不同数据源获取数据,采用可视化工具对数据进行整合,其中可视化工具对数据进行整合包括:建立各数据源的连接,拉取数据(各类表),根据预设关联关系,可视化地建立数据(表)间的关联,存储关联后的数据集(包含若干表及表间关联关系的集合);其中预设关联关系为指定表与表的关联对和关联主键,关联对即指定哪个表和哪个表做关联,关联主键即确定关联的表之间的主从关系,从而建立其数据(表)的血缘关系。
自动特征工程模块,用于根据数据集中数据的关联关系,自动构造特征;其中特征包括:基本特征和深度特征;
具体地,不同业务风险识别模型,对应不同的风险场景,在各业务风险识别模型中对应的风险场景下设置对应的数据为主表,且每个风险场景下进行自动构造特征所需的主表可能存在差异,其中对应风险场景下主要依赖的数据,例如:票据贴现异常模型中,依赖的主表为票据票面信息表,其他与主表关联的附表都会纳入到特征的衍生(构造)过程中;并且每个风险场景下的特征都打标到用户ID维度下,存储为不同的表,以便于后续查询;
其中基础特征的构造,包括:根据数据集中数据的关联关系,通过定义的基础特征算子,自动构造基本特征,其中基本特征,包括但不限于:聚合特征和转换特征;聚合特征如max、min和avg等;转换特征如one-hot编码;且通常会定义上百个基础特征算子,以满足不同的特征构造需求;
其中深度特征的构造,包括:根据基础特征算子,通过定义的深度特征算子,构造深度特征;其中深度特征,包括:深度聚合特征和深度转换特征;
具体地,设置指定深度;指定深度为主表与具有关联关系的表之间的关联度;
根据指定深度,将与主表之间的关联度符合指定深度的表纳入到深度特征的构建中,构造深度特征。
例如,某风险场景下主表为对私信贷业务借据表,该表与还款计划表直接关联,而还款计划表与实际还款表直接关联。若深度为1,那么对私信贷业务借据表只与还款计划表关联构造特征(如构造最近半年应还贷款笔数特征);若深度为2,那么对私信贷业务借据表与还款计划表及实际还款表均建立联系构造特征(如构造最近半年应还/实还贷款笔数特征);即指定深度为2,将与主表二度关联的表均纳入深度特征的构建汇总,构建深度特征。
特征计算(自动构造基本特征和深度特征)时需要确定时间窗口(由回溯时间确定,而回溯时间与建模用到的目标变量有关,用户预定义),在时间窗口内执行所述S2;若用户需要个性化的特征,还可以进行可视化配置新特征,即通过终端输入配置新特征;
数据异常检测模块,用于在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;
具体地,数据异常检测模块包括模型训练子模块和模型部署子模块;
模型训练子模块,用于在若干业务风险识别模型中,对每个风险场景下采用对应的设有标签的特征,输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型;其中特征的标签,包括:正常标签和异常标签;
具体包括:预先定义标签,确定数据的回溯时间;
根据回溯时间从构造的特征中获取对应时间切片的特征,形成特征集;
自动进行特征筛选及降维,获取特征子集;其中筛选,包括但不限于:缺失率筛选、变异程度筛选和相关性筛选;降维,包括但不限于:PCA降维;
筛选后的特征子集输入作为备选模型的异常检测模型集合中,筛选最优表现的异常检测模型作为预测模型;其中异常检测模型集合中包括若干异常检测模型,如IsolationForest(孤立森林算法)、hbosHBOS(Histogram-based Outlier Score)、copodCOPOD(Copula-Based Outlier Detection);最优表现为异常检测模型在样本(特征子集)外的预测能力最强,其中表征预测能力强弱的指标包括但不限于:混淆矩阵、预测精度、AUC值和KS值等;
模型部署子模块,用于将筛选出的预测模型,应用于各风险场景下新数据的异常分析,生成异常分析结果;
具体包括:模型部署后,针对新的数据,在若干风险场景下采用其对应的预测模型,计算各风险场景下的异常分;
对若干风险场景下的异常分进行加权汇总处理,获取总异常分;其中进行加权汇总处理采用Bootstrap aggregating方法;
将各风险场景下异常分和总异常分,打标到数据对应的用户ID上;
合规预警模块,用于根据异常分析结果,进行异常提醒;
具体地,根据异常分排序结果,分析存在异常的数据及其明细信息,并分析数据异常的原因,进行异常提醒;其中异常为合规风险,进行异常提醒是通过向管理人员的终端推送数据异常的提示信息,提示信息包括:总异常分,各风险场景的异常分,存在异常的数据及其明细信息、数据异常的原因;合规预警模块会展示提示信息中总异常分,各风险场景的异常分,存在异常的数据和数据异常的原因,具体在前端页面进行展示,并通过获取数据详情选择信号,展示对应的存在异常的数据的明细信息。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.基于AI的报送数据校验方法,其特征在于,包括如下内容:
S1、获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
S2、根据数据集中数据的关联关系,自动构造特征;
S3、在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;
S4、根据异常分析结果,进行异常提醒。
2.根据权利要求1所述的基于AI的报送数据校验方法,其特征在于,所述数据源中的数据为各类表;数据,包括:对公信贷业务借据表、对私信贷业务借据表、信贷合同表、对公信贷分户账、对私信贷分户账、对公活期存款分户账、对私活期存款分户账、对公定期存款分户账、对私定期存款分户账、票据票面信息表、对公客户信息表、个人基础信息表、存款信息相关表、贷款信息相关表和客户基础信息相关表。
3.根据权利要求2所述的基于AI的报送数据校验方法,其特征在于,所述特征,包括:基本特征和深度特征;
所述S2,包括:
各业务风险识别模型中对应的风险场景下设置对应的数据为主表;
根据数据集中数据的关联关系,通过定义的基础特征算子,自动构造基本特征;其中基本特征,包括:聚合特征和转换特征;
根据基础特征算子,通过定义的深度特征算子,构造深度特征;其中深度特征,包括:深度聚合特征和深度转换特征。
4.根据权利要求3所述的基于AI的报送数据校验方法,其特征在于,所述根据基础特征算子,构造深度特征,包括:
设置指定深度;指定深度为主表与具有关联关系的表之间的关联度;
根据指定深度,将与主表之间的关联度符合指定深度的表纳入到深度特征的构建中,构造深度特征。
5.根据权利要求4所述的基于AI的报送数据校验方法,其特征在于,还包括:设置时间窗口,在时间窗口内执行S2。
6.根据权利要求1所述的基于AI的报送数据校验方法,其特征在于,所述S3包括模型训练步骤和模型部署步骤;
模型训练步骤,包括:在若干业务风险识别模型中,对每个风险场景下采用对应的设有标签的特征,输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型;其中特征的标签,包括:正常标签和异常标签;
模型部署步骤:将筛选出的预测模型,应用于各风险场景下新数据的异常分析,生成异常分析结果。
7.根据权利要求6所述的基于AI的报送数据校验方法,其特征在于,
所述模型训练步骤,具体包括:预先定义标签,确定数据的回溯时间;
根据回溯时间从构造的特征中获取对应时间切片的特征,形成特征集;
自动进行特征筛选及降维,获取特征子集;
筛选后的特征子集输入作为备选模型的异常检测模型集合中,筛选最优表现的异常检测模型作为预测模型;其中异常检测模型集合中包括若干异常检测模型;
所述模型部署步骤,具体包括:在若干风险场景下采用其对应的预测模型,计算各风险场景下的异常分;
对若干风险场景下的异常分进行加权汇总处理,获取总异常分;
将各风险场景下异常分和总异常分,打标到数据对应的用户ID上。
8.根据权利要求6所述的基于AI的报送数据校验方法,其特征在于,所述S4,包括:
对总异常分进行排序,生成异常分排序结果;
根据异常分排序结果,分析存在异常的数据及其明细信息,并分析数据异常的原因,进行异常提醒。
9.基于AI的报送数据校验系统,其特征在于,包括:合规数据归集模块、自动特征工程模块、数据异常检测模块和合规预警模块;
合规数据归集模块,用于获取不同数据源的数据,对数据进行关联,建立数据之间的关联关系,并整合为数据集;
自动特征工程模块,用于根据数据集中数据的关联关系,自动构造特征;
数据异常检测模块,用于在若干业务风险识别模型中,将每个风险场景下的特征输入备选模型,筛选出表现最优的备选模型作为该风险场景下最优的预测模型,并在若干风险场景下采用其对应的预测模型进行异常分析,生成异常分析结果;
合规预警模块,用于根据异常分析结果,进行异常提醒。
10.基于AI的报送数据校验存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述基于AI的报送数据校验方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639793.0A CN116563028A (zh) | 2023-05-31 | 2023-05-31 | 基于ai的报送数据校验方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310639793.0A CN116563028A (zh) | 2023-05-31 | 2023-05-31 | 基于ai的报送数据校验方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563028A true CN116563028A (zh) | 2023-08-08 |
Family
ID=87492961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310639793.0A Pending CN116563028A (zh) | 2023-05-31 | 2023-05-31 | 基于ai的报送数据校验方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563028A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
-
2023
- 2023-05-31 CN CN202310639793.0A patent/CN116563028A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252555A (zh) * | 2023-11-14 | 2023-12-19 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
CN117252555B (zh) * | 2023-11-14 | 2024-04-09 | 之江实验室 | 一种基于车险场景的半自动化特征工程方法、系统和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543096B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
US7200607B2 (en) | Data analysis system for creating a comparative profile report | |
US20070055564A1 (en) | System for facilitating management and organisational development processes | |
CN108038216A (zh) | 信息处理方法、装置及服务器集群 | |
DE112011104487T5 (de) | Verfahren und System zur prädiktiven Modellierung | |
CN112700319A (zh) | 基于政务数据的企业授信额度确定方法及装置 | |
CN111178005B (zh) | 数据处理系统、方法及存储介质 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
US20050131818A1 (en) | Method for performing Due diligence and legal, financial and other types of audits | |
US11507674B2 (en) | Quantifying privacy impact | |
CN113434575B (zh) | 基于数据仓库的数据归因处理方法、装置及存储介质 | |
CN116563028A (zh) | 基于ai的报送数据校验方法、系统及存储介质 | |
WO2007061649A2 (en) | Method and system for analyzing effectiveness of compliance function | |
KR101671890B1 (ko) | 거래관계 분석 장치 및 방법 | |
WO2019014323A1 (en) | SYSTEM AND METHOD FOR MAKING A CONFORMITY STATEMENT DASHBOARD | |
CN116228402A (zh) | 一种金融征信特征仓库技术支持系统 | |
CN107844874A (zh) | 企业营运问题分析系统及其方法 | |
US10210530B1 (en) | Selecting a report | |
US8112343B1 (en) | Capital markets high performance capability assessment | |
CN114693428A (zh) | 数据确定方法、装置、计算机可读存储介质及电子设备 | |
US20220036262A1 (en) | Method and System for Normalization and Aggregation of Risks | |
CN113592368B (zh) | 指标数据的提取方法、装置、设备及存储介质 | |
CN1853186B (zh) | 用于使管理和组织发展过程便利的系统 | |
CN115689779A (zh) | 一种基于云端信用决策的用户风险预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |