CN111369344A - 一种动态生成预警规则的方法和装置 - Google Patents
一种动态生成预警规则的方法和装置 Download PDFInfo
- Publication number
- CN111369344A CN111369344A CN202010152203.8A CN202010152203A CN111369344A CN 111369344 A CN111369344 A CN 111369344A CN 202010152203 A CN202010152203 A CN 202010152203A CN 111369344 A CN111369344 A CN 111369344A
- Authority
- CN
- China
- Prior art keywords
- target data
- early warning
- variable
- early
- identification code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000009795 derivation Methods 0.000 claims description 37
- 238000012407 engineering method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Quality & Reliability (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了动态生成预警规则的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。从而,本发明的实施方式能够解决现有针对贷后客户预警困难、效率低的问题。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种动态生成预警规则的方法和装置。
背景技术
目前,贷款发放后,预警客户何时转为不良,因何转为不良,一直以来是银行重点关注并致力解决的问题。传统的风险预警管理模型更多基于专家规则模型,且主要是结构性数据例如行业数据、经营数据、结算数据等,且模型需要满足监管要求,保持一定的稳定性。为了让预警核查人员能够精确判断预警的原因,其模型还必须要有可解释性。因而,在一定程度上受数据更新滞后以及数据维度较少(如缺少宏观)和模型解释性的影响,限制了模型特别是人工智能模型在银行预警管理中的应用。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
对贷后的风险预警需要尽可能全面的整合客户贷后相关行为数据,从中找出与该客户的贷后风险管理最相关的特征,进而建立合适的模型,并根据模型组合生成预警规则。目前预警规则方法主要有两类:根据专家经验将贷后信用风险评估知识固化成规则来监控客户贷后风险情况,以及利用单一逻辑回归模型或者随机森林模型对客户进行行为评分,进而根据行为评分来进行预警。
可以看出,专家经验具有一定的主观和局限性,所以经验规则无法全面衡量客户的贷后行为情况,可能会使得潜在风险客户漏报警的情况。第二类方法在一定程度上解决了第一类方法的缺点,但是模型较为单一,且解释性较差,一般无法准确告知核查人员具体风险的原因。
发明内容
有鉴于此,本发明实施例提供一种动态生成预警规则的方法和装置,能够解决现有针对贷后客户预警困难、效率低的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种动态生成预警规则的方法,包括通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
可选地,通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中,包括:
通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。
可选地,还包括:
对宽表数据进行校准、合并、联结以及缺失值的清洗处理。
可选地,包括:
利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
可选地,利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,包括:
采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
可选地,还包括:
监测基于当前的预警规则,对用户信息进行预警处理的虚警率;
当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。
可选地,计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则,包括:
通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成预警规则。
可选地,组合变量生成预警规则,还包括:
基于提取的目标数据,归集同类型用户的历史履约表现信息;
利用历史履约表现信息和提取的变量,生成预警规则。
可选地,包括:
所述的预警模型为xgboost模型。
另外,本发明还提供了一种动态生成预警规则的装置,包括获取模块,用于通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;
处理模块,用于将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;
生成模块,用于基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
可选地,所述获取模块通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中,包括:
通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。
可选地,所述获取模块,还用于:
对宽表数据进行校准、合并、联结以及缺失值的清洗处理。
可选地,所述处理模块,还用于:
利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
可选地,所述处理模块利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,包括:
采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
可选地,所述生成模块,还用于:
监测基于当前的预警规则,对用户信息进行预警处理的虚警率;
当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。
可选地,所述生成模块计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则,包括:
通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成预警规则。
可选地,所述生成模块组合变量生成预警规则,还包括:
基于提取的目标数据,归集同类型用户的历史履约表现信息;
利用历史履约表现信息和提取的变量,生成预警规则。
可选地,包括:
所述的预警模型为xgboost模型。
上述发明中的一个实施例具有如下优点或有益效果:因为采用通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则的技术手段,所以克服了现有针对贷后客户预警困难、效率低的技术问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的动态生成预警规则的方法的主要流程的示意图;
图2是根据本发明第二实施例的动态生成预警规则的方法的主要流程的示意图;
图3是根据本发明第三实施例的构建识别模型的主要流程的示意图;
图4是根据本发明实施例的动态生成预警规则的装置的主要模块的示意图;
图5是本发明实施例可以应用于其中的示例性系统架构图;
图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明第一实施例的动态生成预警规则的方法的主要流程的示意图,如图1所示,所述动态生成预警规则的方法包括:
步骤S101,通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中。
在一些实施例中,通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。其中,可以整合与客户贷后行为相关并且能够获取到的数据,如企业内部数据、政府数据、人行征信数据等等。
进一步地,对宽表数据进行校准、合并、联结以及缺失值等等的清洗处理。
作为具体的实施例,以企业客户为例,步骤S101整合用户贷后的行为数据,根据数据来源可以分为:企业内部数据、政府数据、人行征信数据等,其中,企业内部数据可以包括用户基本属性,结算信息,履约记录,金融资产情况等。政府数据可以包括税务数据、工商数据、电力数据、种植数据等。人行征信数据反映了企业客户和实际控制人在履行其信贷义务方面的具体表现,是分析客户贷后履约表现的重要依据。将前述数据基于信息的粒度按用户唯一识别码和债项唯一识别码整合到一个目标数据集中,可以对目标数据集中的数据校准、合并、联结、缺失值筛选等清洗工作。
步骤S102,将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分。
在一些实施例中,利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。优选地,所述的预警模型为xgboost模型。
其中,xgboost模型是基于GBDT的一种高效、优化算法,训练速度快,预测效果较好,适用于高维、弱相关数据,变量贡献度具有可解释性,可以根据外部数据的不断补统,快速实现自我迭代,提高新模型的准确度。
还值得说明的是,预警模型添加了对稀疏数据的处理,损失函数里加入了正则项,用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的权重的L2模的平方和。正则项降低了模型的variance,使学习出来的模型更加简单,防止过拟合。在分布式算法方面,预警模型会把每一维度的特征在一台机器内进行排序,并保存在Block结构内。所以多个特征计算可以分布在不同机器内执行,最后结果汇总,这样具有了分布计算的能力,训练速度快。另外,预警模型还考虑了当数据量比较大,内存不够时怎么有效的使用磁盘,则结合多线程、数据压缩、分片的方法,尽可能的提高算法效率。
进一步地实施例,采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。其中,基于标识类变量的衍生方法包括变量截取衍生、命名规则衍生,例如:用户ID、身份证号码、合同编号、客户编号等。离散型变量的衍生方法包括聚类衍生、特征拆分处理、特征提取、对比衍生、频次衍生。连续性变量的衍生方法包括Max、Min、Mean、Median加工,比率、差值、对比方法。时间序列变量的衍生方法包括距今时间差、时间节点衍生、累积频次衍生、比率以及差值方法。
作为优选地实施例,本发明通过一系列特征工程相关技术,在基础数据中衍生出更加丰富的变量,并通过IV值等分析方法选择出优质的变量。其中,IV的全称是Information Value,信息价值或者信息量。其中,特征工程是指使用专业背景知识和技巧处理数据,使得特征在机器学习算法上能发挥更好的作用的过程,包括了特征提取、特征衍生、特征选择等模块。特征衍生是指是现有的特征进行某种组合,生成新的具有含义的特征的过程。而特征选择是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程。
步骤S103,基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
作为优选地实施例,本发明先使用xgboost算法对目标数据集算出模型结果,然后根据模型结果折算出最后的结果评分,根据结果评分对应的坏账户率,确定需要预警的用户评分域值。从而,基于预警的用户评分阈值,提取结果评分对应的目标数据。
在一些实施例中,通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成预警规则。可以看出,本发明通过预警的用户评分阈值确定客户名单,将在名单里的各个客户评分拆解分析,通过SHAP值分析客户变量的贡献度,并分析出造成结果评分过低的变量。并根据客户的历史表现情况,不断组合规则,找到预警规则的最优组合和预警等级。
其中,SHAP是可加性解释模型。SHAP值的原理是利用博弈论shap value的理论,讨论当某一个成果由多方共同贡献时如何分配。针对每一个特征,通过局部线性拟合的方式,讨论对其他特征的平均补充作用。SHAP值衡量每一个特征单独对模型预测的贡献值,该值反应在不同取值下,特征的增加或减小一定数值会对预测产生多大的影响。其有可加性和一致性的特点,不同特征的不同shap value的量纲一致,单一样本各特征的shap value的加和等于模型预测结果。本发明利用SHAP值可以分析XGBOOST算法里每个样本每个变量的贡献度值,根据贡献度值来分析每个变量对整个客户结果评分的贡献,以此可以分析造成客户结果评分比较低的变量。
较佳地,通过贡献程度组合成不同等级的预警规则,并将其应用于预警流程中,通过预警规则的反馈情况和风险防控情况进行调整用户评分阈值,提高预警规则的准确性。
进一步地实施例,基于提取的目标数据,归集同类型用户的历史履约表现信息。然后,利用历史履约表现信息和提取的变量,生成预警规则。也就是说,根据目标数据中各变量的贡献度,拆解出变量后,归集同类客户的历史履约表现信息,利用表现信息与变量组合交叉分析,选择出最优预警变量组合,形成一个预警效果比较好的预警规则。
作为本发明另一个实施例,本发明在执行完步骤S103之后,可以监测基于当前的预警规则,对用户信息进行预警处理的虚警率。当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。其中,所述的虚警率是指错误预警所在的百分比。
因此,本发明可以解决客户群体和市场经济等环境不断变化可能导致预警规则和预警等级不再适用的问题,即通过虚警率、反馈情况来验证该预警规则和预警等级的精准情况,当发现规则已不再适用时,可自动迭代更新XGBOOST模型产生新的预警规则和预警等级。
图2是根据本发明第二实施例的动态生成预警规则的方法的主要流程的示意图,如图2所示,所述动态生成预警规则的方法包括:
步骤S201,通过用户识别码和债项识别码将目标数据整合成宽表数据。
步骤S202,对宽表数据进行校准、合并、联结以及缺失值的清洗处理。
步骤S203,利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
较佳地,采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
步骤S204,转换处理结果得到结果评分。
步骤S205,基于预警的用户评分阈值,提取结果评分对应的目标数据。
步骤S206,通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成用于对用户信息进行预警处理的预警规则。
较佳地,在组合变量生成预警规则的时候,可以基于提取的目标数据,归集同类型用户的历史履约表现信息。然后,利用历史履约表现信息和提取的变量,生成预警规则。
图3是根据本发明第三实施例的构建识别模型的主要流程的示意图,如图3所示,所述构建识别模型的方法包括:
步骤S301,通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。
在一些实施例中,对宽表数据进行校准、合并、联结以及缺失值的清洗处理。
步骤S302,利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
在一些实施例中,采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
优选地,所述的预警模型为xgboost模型。
步骤S303,转换处理结果得到结果评分。
步骤S304,基于预警的用户评分阈值,提取结果评分对应的目标数据。
步骤S305,通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量。
步骤S306,基于提取的目标数据,归集同类型用户的历史履约表现信息。
步骤S307,利用历史履约表现信息和提取的变量,生成用于对用户信息进行预警处理的预警规则。
步骤S308,监测基于当前的预警规则,对用户信息进行预警处理的虚警率。
步骤S309,当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。
综上所述,本发明所述的动态生成预警规则的方法,突破预警规则纯靠人工经验的现状,可自动产生准确的预警规则,高效、降低人力成本。解决了XGBOOST解释性较弱的问题,使其可在预警领域使用。同时,将大数据和人工智能技术引入客户贷后行为风险领域,在专家经验基础上扬长避短,增加了规则的全面性和客观性。使用人工智能模型拟合实际情况,再根据规则的实际应用情况再调校规则,保证了较高的准确性。并且利用XGBOOST算法可自动更新的特点,不断对模型自动迭代更新,保证了模型与社会环境发展的一致性和长期有效性。
图4是根据本发明实施例的动态生成预警规则的装置的主要模块的示意图,如图4所示,所述动态生成预警规则的装置400包括获取模块401、处理模块402和生成模块403。其中,获取模块401用于通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;处理模块402用于将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;生成模块403用于基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
在一些实施例中,所述获取模块401通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中,包括:
通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。
在一些实施例中,所述获取模块401,还用于:
对宽表数据进行校准、合并、联结以及缺失值的清洗处理。
在一些实施例中,所述处理模块402,还用于:
利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
在一些实施例中,所述处理模块402利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,包括:
采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
在一些实施例中,所述生成模块403,还用于:
监测基于当前的预警规则,对用户信息进行预警处理的虚警率;
当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。
在一些实施例中,所述生成模块403计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则,包括:
通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成预警规则。
在一些实施例中,所述生成模块403组合变量生成预警规则,还包括:
基于提取的目标数据,归集同类型用户的历史履约表现信息;
利用历史履约表现信息和提取的变量,生成预警规则。
在一些实施例中,所述的预警模型为xgboost模型。
需要说明的是,在本发明所述动态生成预警规则的方法和所述动态生成预警规则的装置在具体实施内容上具有相应关系,故重复内容不再说明。
图5示出了可以应用本发明实施例的动态生成预警规则的方法或动态生成预警规则的装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有动态生成预警规则的屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的动态生成预警规则的方法一般由服务器505执行,相应地,计算装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分808加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶动态生成预警规则的器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、处理模块和生成模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
根据本发明实施例的技术方案,能够解决现有针对贷后客户预警困难、效率低的问题。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种动态生成预警规则的方法,其特征在于,包括:
通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;
将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;
基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
2.根据权利要求1所述的方法,其特征在于,通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中,包括:
通过用户识别码和债项识别码将目标数据整合成宽表数据,以进行清洗得到目标数据集。
3.根据权利要求1所述的方法,其特征在于,包括:
利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,以将衍生后的目标数据集输入至预设的预警模型中进行处理。
4.根据权利要求3所述的方法,其特征在于,利用预设的特征工程方法,将目标数据集中的数据进行变量衍生,包括:
采用基于标识类变量、离散型变量、连续性变量以及时间序列变量的衍生方法,对目标数据集中的数据进行变量衍生。
5.根据权利要求1所述的方法,其特征在于,还包括:
监测基于当前的预警规则,对用户信息进行预警处理的虚警率;
当所述的虚警率大于或等于预设的虚警率阈值时,则迭代更新预警模型以生成新的预警规则。
6.根据权利要求1所述的方法,其特征在于,计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则,包括:
通过SHAP值得到目标数据中各变量的贡献度,以提取造成结果评分过低的变量,进而组合变量生成预警规则。
7.根据权利要求6所述的方法,其特征在于,组合变量生成预警规则,还包括:
基于提取的目标数据,归集同类型用户的历史履约表现信息;
利用历史履约表现信息和提取的变量,生成预警规则。
8.一种动态生成预警规则的装置,其特征在于,包括:
获取模块,用于通过用户识别码和债项识别码获取目标数据,进而将所述目标数据整合至目标数据集中;
处理模块,用于将目标数据集输入至预设的预警模型中进行处理,进而转换处理结果得到结果评分;
生成模块,用于基于预警的用户评分阈值,提取结果评分对应的目标数据,进而计算目标数据中各变量的贡献度,以得到用于对用户信息进行预警处理的预警规则。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010152203.8A CN111369344B (zh) | 2020-03-06 | 2020-03-06 | 一种动态生成预警规则的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010152203.8A CN111369344B (zh) | 2020-03-06 | 2020-03-06 | 一种动态生成预警规则的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111369344A true CN111369344A (zh) | 2020-07-03 |
CN111369344B CN111369344B (zh) | 2024-03-08 |
Family
ID=71211771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010152203.8A Active CN111369344B (zh) | 2020-03-06 | 2020-03-06 | 一种动态生成预警规则的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369344B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861216A (zh) * | 2020-07-22 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于业务数据的高效预警方法及系统 |
CN112231299A (zh) * | 2020-09-27 | 2021-01-15 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN113129127A (zh) * | 2021-04-21 | 2021-07-16 | 建信金融科技有限责任公司 | 预警方法和装置 |
CN113297480A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 一种定制化信息发送方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528722A (zh) * | 2017-07-06 | 2017-12-29 | 阿里巴巴集团控股有限公司 | 一种时间序列中异常点检测方法及装置 |
CN108876600A (zh) * | 2018-08-20 | 2018-11-23 | 平安科技(深圳)有限公司 | 预警信息推送方法、装置、计算机设备和介质 |
CN110443459A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 预警信息推送方法、装置、计算机设备和存储介质 |
CN110533521A (zh) * | 2019-06-21 | 2019-12-03 | 深圳前海微众银行股份有限公司 | 动态贷后预警方法、装置、设备及可读存储介质 |
CN110609929A (zh) * | 2019-09-03 | 2019-12-24 | 深圳中兴飞贷金融科技有限公司 | 数据处理方法和装置、存储介质及电子设备 |
-
2020
- 2020-03-06 CN CN202010152203.8A patent/CN111369344B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107528722A (zh) * | 2017-07-06 | 2017-12-29 | 阿里巴巴集团控股有限公司 | 一种时间序列中异常点检测方法及装置 |
CN108876600A (zh) * | 2018-08-20 | 2018-11-23 | 平安科技(深圳)有限公司 | 预警信息推送方法、装置、计算机设备和介质 |
CN110533521A (zh) * | 2019-06-21 | 2019-12-03 | 深圳前海微众银行股份有限公司 | 动态贷后预警方法、装置、设备及可读存储介质 |
CN110443459A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 预警信息推送方法、装置、计算机设备和存储介质 |
CN110609929A (zh) * | 2019-09-03 | 2019-12-24 | 深圳中兴飞贷金融科技有限公司 | 数据处理方法和装置、存储介质及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861216A (zh) * | 2020-07-22 | 2020-10-30 | 浪潮云信息技术股份公司 | 一种基于业务数据的高效预警方法及系统 |
CN112231299A (zh) * | 2020-09-27 | 2021-01-15 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN112231299B (zh) * | 2020-09-27 | 2024-02-20 | 中国建设银行股份有限公司 | 一种特征库动态调整的方法和装置 |
CN113129127A (zh) * | 2021-04-21 | 2021-07-16 | 建信金融科技有限责任公司 | 预警方法和装置 |
CN113297480A (zh) * | 2021-04-29 | 2021-08-24 | 上海淇玥信息技术有限公司 | 一种定制化信息发送方法、装置及电子设备 |
CN113297480B (zh) * | 2021-04-29 | 2023-03-14 | 上海淇玥信息技术有限公司 | 一种定制化信息发送方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111369344B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021174944A1 (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN111369344B (zh) | 一种动态生成预警规则的方法和装置 | |
CN110119413A (zh) | 数据融合的方法和装置 | |
CN107871166B (zh) | 针对机器学习的特征处理方法及特征处理系统 | |
CN110390408B (zh) | 交易对象预测方法和装置 | |
CN110135978B (zh) | 用户金融风险评估方法、装置、电子设备和可读介质 | |
CN112734559A (zh) | 企业信用风险评价方法、装置及电子设备 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN107909087A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN112257868A (zh) | 构建和训练用于预测客流量的集成预测模型的方法及装置 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN113988221A (zh) | 一种保险用户分类模型建立方法、分类方法、装置及设备 | |
CN112417060A (zh) | 识别企业关系的方法、装置、设备和计算机可读介质 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN112231299B (zh) | 一种特征库动态调整的方法和装置 | |
CN116862658A (zh) | 信用评估方法、装置、电子设备、介质和程序产品 | |
CN110930238A (zh) | 提高审核任务效率的方法、装置、设备和计算机可读介质 | |
US20160048781A1 (en) | Cross Dataset Keyword Rating System | |
CN115719270A (zh) | 信用评价方法、装置、设备、介质和程序产品 | |
US20210166318A1 (en) | Systems and methods for client profile-based sales decisions | |
CN114239985A (zh) | 汇率预测方法、装置、电子设备及存储介质 | |
CN113902545A (zh) | 资源额度分配方法、装置及电子设备 | |
US20240193401A1 (en) | Systems and methods for responding to predicted events in time-series data using synthetic profiles created by artificial intelligence models trained on non-homogonous time-series data | |
Telenyk et al. | An analysis of the influence of famous people’s posts on social networks on the cryptocurrency exchange rate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220919 Address after: 25 Financial Street, Xicheng District, Beijing 100033 Applicant after: CHINA CONSTRUCTION BANK Corp. Address before: 25 Financial Street, Xicheng District, Beijing 100033 Applicant before: CHINA CONSTRUCTION BANK Corp. Applicant before: Jianxin Financial Science and Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |