CN113837865A - 多维度风险特征策略的提取方法 - Google Patents

多维度风险特征策略的提取方法 Download PDF

Info

Publication number
CN113837865A
CN113837865A CN202111154465.9A CN202111154465A CN113837865A CN 113837865 A CN113837865 A CN 113837865A CN 202111154465 A CN202111154465 A CN 202111154465A CN 113837865 A CN113837865 A CN 113837865A
Authority
CN
China
Prior art keywords
risk
data
sample
extracting
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111154465.9A
Other languages
English (en)
Inventor
钟月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Fumin Bank Co Ltd
Original Assignee
Chongqing Fumin Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Fumin Bank Co Ltd filed Critical Chongqing Fumin Bank Co Ltd
Priority to CN202111154465.9A priority Critical patent/CN113837865A/zh
Publication of CN113837865A publication Critical patent/CN113837865A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Finance (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种多维度风险特征策略的提取方法,包括内容:采集源数据,源数据预处理,生成风险特征数据,采用LightGbm决策树算法进行模型训练,生成若干个树结构,提取每颗树结构中的分支节点和切分阈值;基于每棵树的分支节点和切分阈值,对客户集群进行分箱,计算每个分箱的样本客户总量和风险样本客户总量,将各个分箱的风险样本客户占比与设置的风险阈值进行比较;若存在风险样本客户占比大于等于风险阈值的分箱,则该棵树的分支节点和切分阈值有效,存储该分支节点和切分阈值作为多维度风险特征策略组合特征。该方法可灵活自动化且批量的进行特征的有效组合,形成量化分析结果,实现组合策略提取。

Description

多维度风险特征策略的提取方法
技术领域
本发明涉及数据处理技术领域,具体为一种多维度风险特征策略的提取方法。
背景技术
在各行各业,风险管控都是十分必要且重要的,尤其是在金融领域,风险管控主要包括贷前、贷中和贷后的风险管控,在三个不同阶段的风险策略制定上,除了传统的专家经验外,还有量化分析方法。现有的量化分析方法通常为单维度风险特征策略法。从各方法的优劣上,传统的专家经验方法简单易落地,但需要基于足够的风控经历和常年的积累,可意会难以言传,对于人员要求高,成本高,同时因为缺乏量化数据的佐证,难有说服力;而单维度风险特征策略,是指定中常用的方式方法,但未充分挖掘数据源和特征的有效性,在数据源成本和数据源的效能上未实现效益最大化。
发明内容
本发明意在提供一种可灵活自动化且批量的进行特征的有效组合的多维度风险特征策略的提取方法。
多维度风险特征策略的提取方法,包括以下内容,
采集源数据,数据预处理,对源数据进行预处理生成风险特征数据;
基于风险特征数据和客户集群,采用LightGbm模型进行训练,生成若干个树结构,提取每颗树结构中的分支节点和切分阈值;
基于每棵树的分支节点和切分阈值,对客户集群进行分箱,计算每个分箱的样本客户总量和风险样本客户总量,将各个分箱的风险样本客户占比与设置的风险阈值进行比较;若存在风险样本客户占比大于等于风险阈值的分箱,则该棵树的分支节点和切分阈值有效,则存储该分支节点和切分阈值作为多维度风险特征策略组合特征。
本发明的有益效果:本发明首先对源数据进行预处理,以剔除一些不适合用于模型训练的数据,从而使生成的风险特征数据更专业、准确、全面和可靠;
本发明基于风险特征数据和客户集群,采用LightGbm模型进行训练,生成若干个树结构,即应用LightGbm算法实现多维度风险特征策略的提取,通过该方法可以灵活自动化且批量的进行风险特征的组合;
本发明为了进一步验证多维度风险特征策略提取出的风险特征组合的有效性和可靠性,基于每棵树的分支节点和切分阈值,对客户集群进行分箱,计算每个分箱的样本客户总量和风险样本客户总量,将各个分箱的风险样本客户占比与设置的风险阈值进行比较,也即采用量化分析结果,若存在风险样本客户占比大于等于风险阈值的分箱,则该棵树的分支节点和切分阈值有效,并且存储该分支节点和切分阈值作为多维度风险特征策略组合特征,最终达到充分挖掘数据源特征和数据源效益最大化的目的。
进一步,为了对源数据进行规范,以便于模型的训练,所述的预处理包括基于某一类数据的缺失率,剔除掉缺失率大的一类数据,基于数据单元素取值占比,剔除掉单元素取值大的数据,基于数据的相关性,剔除掉相关性高的数据,基于数据的IV,剔除掉IV低的数据。本发明所述的IV,主要是指对于模型训练是否有用。
进一步,为了比较全面的计算每个分箱的样本客户总量和风险样本客户总量,所述的计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标。
进一步,为了进一步计算分箱的坏样本量、坏占比以及风险倍数以及lift风险指标,需要对客户的属性进行定义,本发明所述的客户属性定义,是指根据业务要求对客户属性进行定义,所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出。
进一步,将各个分箱按照风险倍数或lift风险指标从高到低进行排序,并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。各个分箱按照风险倍数或lift风险指标从高到低进行排序,有利于直观的统计各个分箱的风险倍数或者lift风险指标,以及将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。
进一步,为了采用更加全面的风险特征数据,而源数据中又缺失一些需要用到的数据的,可以衍生出一些数据,因此在所述数据预处理中,还包括根据源数据生成衍生数据。衍生数据如可以根据收入和负债生成收入负债比,根据信用卡使用金额和授信金额生成信用额使用额度等。
进一步,树结构的叶子节点为4,树深度为2或者树深度为3。树深度为2,则最终的数结构为2个特征的组合特征。设置树深度为3,则最终的树结构可生成3个特征的组合特征。
进一步,所述的样本量大于等于100,坏样本量大于等于30。样本量如果过少,则说服力较低,因此选择样本量大于等于100,坏样本量大于等于30。
附图说明
图1为本发明多维度风险特征策略的提取方法实施例的流程示意图。
具体实施方式
下面通过具体实施方式进一步详细说明:
如附图1所示,本实施例多维度风险特征策略的提取方法,包括以下内容,
数据预处理,采集源数据,对源数据进行预处理生成风险特征数据,本实施例所述的数据预处理包括数据描述性统计分析、数据清洗、风险特征字段衍生、风险特征字段筛选等步骤,本实施例中,所述的预处理包括基于某一类数据的缺失率,剔除掉缺失率大的一类数据,比如某一类源数据普遍缺失年龄数据,缺失率大,如达到了80%,那么该类数据是不可取的,因此需要剔除掉,基于数据单元素取值占比,剔除掉单元素取值大的数据,比如某些源数据,在性别比例方面,男女占比明显不符合常规的,需要剔除掉此类数据,基于数据的相关性,剔除掉相关性高的数据,基于数据的IV,剔除掉IV低的数据,本实施例所述的IV是指衡量数据的有用性,因此剔除掉一些用处低的数据。另外,在数据预处理中,还需要统计数据的极值和异常值,予以剔除,以及统计变量的取值数,如男女分别赋值多少,以及数据的分位数,数据的分位数是数值型变量,比如平均年龄分布。
在所述数据预处理中,还包括根据源数据生成衍生数据。如可以根据收入和负债生成收入负债比,根据信用卡使用金额和授信金额生成信用额使用额度等。
本实施例中,源数据还包括客户集群以及客户集群数据,数据预处理还包括客户属性定义,根据业务要求对客户属性进行定义,比如客户属性定义分好客户和坏客户,衡量标准是如果客户的信贷还款逾期超过30天,则为坏客户,小于30天,则为好客户。当然,也可以根据具体的业务要求,对客户进行其他的属性定义。
基于风险特征数据和客户集群,采用LightGbm模型进行训练,生成若干个树结构,在本实施例中,可设置叶子结点为4,树深度为2,则最终的数结构为2个特征的组合特征。设置树深度为3,则最终的树结构可生成3个特征的组合特征。
本实施例中采用LightGbm模型,为现有技术,本实施例提及的LightGbm是一种集成学习决策树方法。所谓集成学习就是组合多棵弱决策树模型采用投票或加权等方式得到一个预测结果,以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。集成学习法是分布式的,高效的,有以下优势:1)更快的训练效率;2)低内存使用;3)更高的准确率;4)支持并行化学习;5)可以处理大规模数据。
集成学习包含Bagging和Boosting。Bagging:Bagging从训练集中随机采样得到新的训练集,重复N次得到N个新的训练集,使用所有特征,针对平均每一棵树的预测值或采用少数服从多数得到分类结果N个不同的训练集分别训练一棵树。随机森林是bagging中的一种,从训练集中随机采样、随机选择特征,重复N次得到最终结果,由于样本和特征的选取都随机,不用前期做特征选择,同时泛化能力更强。Boosting:Boosting会根据前一次分类效果(残差)调整数据权重,如果上一次分错了,则这一次会给它更大的权重,重复N次,最终得到一个分类器,它的基函数可以采用各种分类器、预测器。Bagging的树“并行”生成,Boosting的树“串行”生成。Boosting算法又包含GBDT、XGBoost、LightGbm等。
LightGbm:xgboost算法的一个瓶颈是针对每个特征,它都需要对每一个可能的分裂点扫描全部的样本来计算基尼系数,这样大大增加了计算量,降低了算法效率。为了解决这种在大样本高纬度数据的环境下耗时的问题,LightGbm算法使用直方图方法在牺牲一定精度的条件下,换取计算速度的提升和内存的消耗,同时大大的降低的处理样本的时间复杂度。但在精度上,通过大量的实验证明,在某些数据集上使用LightGbm并不损失精度,甚至有时还会提升精度。
提取每颗树结构中的分支节点和切分阈值,以客户年龄和学历为例,分支节点就是客户年龄和学历,切分阈值就是指年龄是否大于20岁,以及学历是否是专科及以上。
基于每棵树的分支节点和切分阈值,对客户集群进行分箱,计算每个分箱的样本客户总量和风险样本客户总量,计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标,所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出,比如某个分箱的样本量100,信贷逾期还款超过30天的客户有40个,那么坏样本量就是40,坏占比就是40%,假定总的分箱样本量是600,总的坏样本量120,总坏占比是20%,风险倍数是指分箱的坏占比与总坏占比的比值,在该例子中,风险倍数就是2。
将各个分箱的风险样本客户占比与设置的风险阈值进行比较,若存在风险样本客户占比大于等于风险阈值的分箱,则该棵树的分支节点和切分阈值有效,同时该对应的分支节点和切分阈值同实际业务理解相同,存储该分支节点和切分阈值作为多维度风险特征策略组合特征;具体的,本实施例中,将各个分箱按照风险倍数或lift风险指标从高到低进行排序,并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较,比如设置的阈值是2,而本实施例中的举例所述的风险倍数恰好是2,那么符合要求,则该棵树的分支节点和切分阈值是有效的,比如如上述举例的分支节点是客户年龄和学历,切分阈值是指年龄是否大于20岁,以及学历是否是专科及以上,如果以这个例子来对客户集群进行分箱,并且存在分箱的样本数据满足阈值要求的,则将分支节点是客户年龄和学历,切分阈值是指年龄是否大于20岁,以及学历是否是专科及以上作为多维度风险特征策略组合特征进行存储。
在其他实施例中,设置的阈值也可为多头数据大于5次且风险分数大于70分,对应的风险倍数在4倍以上,同时对应分箱样本数量大于等于100,坏样本数量大于等于30,以上这些均满足阈值要求,才认定该棵树的分支节点和切分阈值有效,存储该分支节点和切分阈值作为多维度风险特征策略组合特征。这里所述的多头数据是指一些客户触碰较多的数据,比如客户的银行卡数据,这种数据通常客户每月的触碰量都相对稳定,应用价值更高。
通过本实施例提取的多维度风险特征策略组合特征,可应用于风险预测,比如应用至授信进件客户,将客户分为规则选中客群A和未选中客群B,对比客群A和客群B的样本量、坏占比等风险指标,测算规则应用前后的通过率、坏账率等。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (8)

1.多维度风险特征策略的提取方法,其特征在于:包括以下内容,
采集源数据,数据预处理,对源数据进行预处理生成风险特征数据;
基于风险特征数据和客户集群,采用LightGbm模型进行训练,生成若干个树结构,提取每颗树结构中的分支节点和切分阈值;
基于每棵树的分支节点和切分阈值,对客户集群进行分箱,计算每个分箱的样本客户总量和风险样本客户总量,将各个分箱的风险样本客户占比与设置的风险阈值进行比较;若存在风险样本客户占比大于等于风险阈值的分箱,则该棵树的分支节点和切分阈值有效,则存储该分支节点和切分阈值作为多维度风险特征策略组合特征。
2.根据权利要求1所述的多维度风险特征策略的提取方法,其特征在于:所述的预处理包括基于某一类数据的缺失率,剔除掉缺失率大的一类数据,基于数据单元素取值占比,剔除掉单元素取值大的数据,基于数据的相关性,剔除掉相关性高的数据,基于数据的IV,剔除掉IV低的数据。
3.根据权利要求1所述的多维度风险特征策略的提取方法,其特征在于:所述的计算每个分箱的样本客户总量和风险样本客户总量包括计算每个分箱的样本量、坏样本量、坏占比、风险倍数以及lift风险指标。
4.根据权利要求3所述的多维度风险特征策略的提取方法,其特征在于:客户属性定义,根据业务要求对客户属性进行定义,所述的坏样本量、坏占比、风险倍数以及lift风险指标均基于客户属性定义进行计算得出。
5.根据权利要求3所述的多维度风险特征策略的提取方法,其特征在于:将各个分箱按照风险倍数或lift风险指标从高到低进行排序,并将各个分箱的风险倍数或lift风险指标与设置的阈值进行比较。
6.根据权利要求1所述的多维度风险特征策略的提取方法,其特征在于:在所述数据预处理中,还包括根据源数据生成衍生数据。
7.根据权利要求1所述的多维度风险特征策略的提取方法,其特征在于:当树结构的叶子节点为4,树深度为2或者树深度为3,得到的为两维度的组合特征。
8.根据权利要求3或5所述的多维度风险特征策略的提取方法,其特征在于:基于大数定律,设定分箱的样本量大于等于100,坏样本量大于等于30。
CN202111154465.9A 2021-09-29 2021-09-29 多维度风险特征策略的提取方法 Pending CN113837865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111154465.9A CN113837865A (zh) 2021-09-29 2021-09-29 多维度风险特征策略的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111154465.9A CN113837865A (zh) 2021-09-29 2021-09-29 多维度风险特征策略的提取方法

Publications (1)

Publication Number Publication Date
CN113837865A true CN113837865A (zh) 2021-12-24

Family

ID=78967632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111154465.9A Pending CN113837865A (zh) 2021-09-29 2021-09-29 多维度风险特征策略的提取方法

Country Status (1)

Country Link
CN (1) CN113837865A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221948A (zh) * 2022-06-24 2022-10-21 北京百度网讯科技有限公司 特征组合确定方法、装置、设备、存储介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN109408583A (zh) * 2018-09-25 2019-03-01 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN110009167A (zh) * 2018-01-04 2019-07-12 阿里巴巴集团控股有限公司 交易风险策略推荐方法、装置、服务器及存储介质
CN111259922A (zh) * 2019-12-25 2020-06-09 江苏艾佳家居用品有限公司 基于客户退单预警的订单数据处理方法、装置
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN113254510A (zh) * 2021-07-06 2021-08-13 平安科技(深圳)有限公司 业务风险客群的识别方法、装置、设备及存储介质
CN113342972A (zh) * 2021-05-24 2021-09-03 支付宝(杭州)信息技术有限公司 舆情识别模型训练方法、系统以及舆情风险监测方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980929A (zh) * 2017-01-05 2017-07-25 国网福建省电力有限公司 一种基于随机森林的停电投诉风险预测方法
CN110009167A (zh) * 2018-01-04 2019-07-12 阿里巴巴集团控股有限公司 交易风险策略推荐方法、装置、服务器及存储介质
CN109408583A (zh) * 2018-09-25 2019-03-01 平安科技(深圳)有限公司 数据处理方法及装置、计算机可读存储介质、电子设备
CN111259922A (zh) * 2019-12-25 2020-06-09 江苏艾佳家居用品有限公司 基于客户退单预警的订单数据处理方法、装置
CN111291097A (zh) * 2020-05-08 2020-06-16 西南石油大学 一种基于决策树数据挖掘的钻井漏层位置实时预测方法
CN113342972A (zh) * 2021-05-24 2021-09-03 支付宝(杭州)信息技术有限公司 舆情识别模型训练方法、系统以及舆情风险监测方法和系统
CN113254510A (zh) * 2021-07-06 2021-08-13 平安科技(深圳)有限公司 业务风险客群的识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阿尔贝托·博斯凯蒂: "《大数据驱动下同期线损精细化管理技术与案例分析》", 重庆大学出版社, pages: 180 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115221948A (zh) * 2022-06-24 2022-10-21 北京百度网讯科技有限公司 特征组合确定方法、装置、设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN113657545B (zh) 用户业务数据的处理方法、装置、设备及存储介质
CN110503245B (zh) 一种机场航班大面积延误风险的预测方法
CN111754345B (zh) 一种基于改进随机森林的比特币地址分类方法
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
CN110751371A (zh) 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质
CN109739844B (zh) 基于衰减权重的数据分类方法
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN105574544A (zh) 一种数据处理方法和装置
AU2018101523A4 (en) A personal credit scoring model based on machine learning method
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN111026870A (zh) 一种综合文本分类和图像识别的ict系统故障分析方法
CN113688558A (zh) 一种基于大数据库样本的汽车行驶工况构建方法及系统
CN114022269A (zh) 一种公共信用领域企业信用风险评估方法
CN113256409A (zh) 基于机器学习的银行零售客户流失预测方法
CN104850868A (zh) 一种基于k-means和神经网络聚类的客户细分方法
CN113407644A (zh) 一种基于深度学习算法的企业行业二级行业多标签分类器
CN114611738A (zh) 一种基于用户用电行为分析的负荷预测方法
CN113837865A (zh) 多维度风险特征策略的提取方法
CN114611604A (zh) 一种基于电驱总成载荷特征融合与聚类的用户筛选方法
CN111260490A (zh) 基于树模型的车险快速理赔方法和系统
CN112819341A (zh) 一种科技型小微企业信用风险评估方法
CN112434886A (zh) 一种预测客户抵押贷款违约概率的方法
Wang et al. Research on risk assessment of clients before loan based on decision tree algorithm
CN115797044B (zh) 基于聚类分析的信贷风控预警方法及系统
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination