CN111950624A - 客户风险评估模型构建方法、装置、存储介质及终端设备 - Google Patents

客户风险评估模型构建方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN111950624A
CN111950624A CN202010797967.2A CN202010797967A CN111950624A CN 111950624 A CN111950624 A CN 111950624A CN 202010797967 A CN202010797967 A CN 202010797967A CN 111950624 A CN111950624 A CN 111950624A
Authority
CN
China
Prior art keywords
model
client
data
feature
risk assessment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010797967.2A
Other languages
English (en)
Inventor
林丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202010797967.2A priority Critical patent/CN111950624A/zh
Publication of CN111950624A publication Critical patent/CN111950624A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能技术领域,尤其涉及一种客户风险评估模型构建方法、装置、计算机可读存储介质及终端设备。所述方法从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。通过本发明,不再基于固化的框架进行模型构建,而是通过配置文件来对特征工程信息和模型信息进行灵活地配置,并按照这些配置完成整个模型构建过程,可以满足各种复杂的快速迭代的应用场景。

Description

客户风险评估模型构建方法、装置、存储介质及终端设备
技术领域
本发明属于人工智能技术领域,尤其涉及一种客户风险评估模型构建方法、装置、计算机可读存储介质及终端设备。
背景技术
在现有技术中,普遍采用客户风险评估模型来对客户的违约风险进行评估,但现有的这些模型在构建过程中,一般都是采用一个固化的框架进行构建,构建过程灵活性极差,无法满足各种复杂的快速迭代的应用场景。
发明内容
有鉴于此,本发明实施例提供了一种客户风险评估模型构建方法、装置、计算机可读存储介质及终端设备,以解决现有的模型构建方法灵活性极差,无法满足各种复杂的快速迭代的应用场景的问题。
本发明实施例的第一方面提供了一种客户风险评估模型构建方法,可以包括:
从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;
从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;
从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
进一步地,所述模型配置信息包括模型列表和模型融合方式;
所述根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型,包括:
根据所述模型融合方式对所述模型列表中的各个模型进行模型融合处理,得到融合模型;
根据所述编码数据对所述融合模型进行模型调参,得到所述客户风险评估模型。
进一步地,所述特征工程配置信息包括特征筛选标识位;
所述根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据,包括:
若所述特征筛选标识位为预设的第一数值,则对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征;
对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述特征工程配置信息还包括筛选维度和筛选阈值;
所述对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征,包括:
分别计算所述解析客户数据中的各个客户特征在所述筛选维度上的评估值;
根据所述筛选阈值和所述评估值对各个客户特征进行特征筛选,得到所述优选客户特征。
进一步地,所述特征工程配置信息还包括特征编码方式;
所述对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据,包括:
按照所述特征编码方式对所述优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据,还可以包括:
若所述特征筛选标识位为预设的第二数值,则对所述解析客户数据中的各个客户特征进行特征编码,得到所述编码数据。
进一步地,在得到客户风险评估模型之后,还可以包括:
从所述配置文件中读取阈值设置信息,并根据所述阈值设置信息设置所述客户风险评估模型的风险等级划分阈值。
本发明实施例的第二方面提供了一种客户风险评估模型构建装置,可以包括:
数据解析模块,用于从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;
特征工程模块,用于从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;
模型调参模块,用于从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
进一步地,所述模型配置信息包括模型列表和模型融合方式;
所述模型调参模块可以包括:
模型融合模块,用于根据所述模型融合方式对所述模型列表中的各个模型进行模型融合处理,得到融合模型;
模型调参单元,用于根据所述编码数据对所述融合模型进行模型调参,得到所述客户风险评估模型。
进一步地,所述特征工程配置信息包括特征筛选标识位;
所特征工程模块可以包括:
特征筛选单元,用于若所述特征筛选标识位为预设的第一数值,则对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征;
第一特征编码单元,用于对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述特征工程配置信息还包括筛选维度和筛选阈值;
所述特征筛选单元可以包括:
评估值计算子单元,用于分别计算所述解析客户数据中的各个客户特征在所述筛选维度上的评估值;
特征筛选子单元,用于根据所述筛选阈值和所述评估值对各个客户特征进行特征筛选,得到所述优选客户特征。
进一步地,所述特征工程配置信息还包括特征编码方式;
所述第一特征编码单元具体用于按照所述特征编码方式对所述优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述所特征工程模块可以包括:
第二特征编码单元,用于若所述特征筛选标识位为预设的第二数值,则对所述解析客户数据中的各个客户特征进行特征编码,得到所述编码数据。
进一步地,所述客户风险评估模型构建装置还可以包括:
阈值设置模块,用于从所述配置文件中读取阈值设置信息,并根据所述阈值设置信息设置所述客户风险评估模型的风险等级划分阈值。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任意一种客户风险评估模型构建方法的步骤。
本发明实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任意一种客户风险评估模型构建方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。通过本发明实施例,不再基于固化的框架进行模型构建,而是通过配置文件来对特征工程信息和模型信息进行灵活地配置,并按照这些配置完成整个模型构建过程,可以满足各种复杂的快速迭代的应用场景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例中一种客户风险评估模型构建方法的一个实施例流程图;
图2为模型调参的一种具体实现方式的示意图;
图3为模型调参的另一种具体实现方式的示意图;
图4为本发明实施例中一种客户风险评估模型构建装置的一个实施例结构图;
图5为本发明实施例中一种终端设备的示意框图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种客户风险评估模型构建方法的一个实施例可以包括:
步骤S101、从预设的数据集市(Data Mart)中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据。
所述原始客户数据可以是实时数据和/或离线数据,其中包括了若干维度的客户特征,例如,所述原始客户数据中可以包括但不限于客户的年龄、性别、学历、收入、…等等维度的客户特征。
在本申请实施例中,优选将所述原始客户数据预先存储在数据集市中,当需要在建模过程中使用这些数据时,可以通过Hive SQL脚本将所述原始客户数据从数据集市中提取出来,并通过预先配置好的导数程序将数据导入执行建模的终端设备中。
当完成数据导入后,可以对所述原始客户数据进行解析,从中解析出各个维度的客户特征,并将解析出的这些客户特征按照预设的数据格式构造成解析客户数据。
步骤S102、从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据。
所述特征工程配置信息包括特征筛选标识位,所述特征筛选标识位用于指示是否进行特征筛选,其具体取值可以由建模人员根据实际情况进行设置。在本发明实施例的一种具体实现中,当所述特征筛选标识位被设置为预设的第一数值时,则需要进行特征筛选,当所述特征筛选标识位被设置为预设的第二数值时,则无需进行特征筛选。所述第一数值和所述第二数值的具体取值可以根据实际情况设置,例如,可以将所述第一数值设置为1,将所述第一数值设置为0,当然,也可以将所述第一数值设置为0,将所述第一数值设置为1,或者采用其它的设置方式,本发明实施例对此不作具体限定。
若所述特征筛选标识位为所述第一数值,则所述特征工程配置信息中还包括筛选维度和筛选阈值。此时,整个特征工程处理过程可以分为特征筛选和特征编码两个阶段。
在特征筛选阶段,对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征。
首先,分别计算所述解析客户数据中的各个客户特征在所述筛选维度上的评估值。
筛选维度可以包括但不限于证据权重(Weight of Evidence,WOE)、信息价值(Information Value,IV)、群体稳定性指标(Population Stability Index,PSI)以及其它的维度,具体选择何种筛选维度可以由建模人员根据实际情况进行设置。
例如,若设置WOE作为筛选维度,则可以根据下式计算客户特征在所述筛选维度上的评估值:
Figure BDA0002626353180000071
其中,Badi为客户特征的分箱中的风险客户的数目,BadT为风险客户的总数,Goodi为客户特征的分箱中的正常客户的数目,GoodT为正常客户的总数,这些参数均可以通过对所述解析客户数据的统计得到,ln为自然对数函数,WOEi即为评估值。
若设置IV作为筛选维度,则可以根据下式计算客户特征在所述筛选维度上的评估值:
Figure BDA0002626353180000072
其中,IVi即为评估值。
若设置PSI作为筛选维度,则可以根据下式计算客户特征在所述筛选维度上的评估值:
Figure BDA0002626353180000073
其中,Actuali为实际分布中客户特征的第i个分箱中样本数目,1≤i≤n,n为分箱总数,ActualT为实际分布中的样本总数,Expecti为预期分布中客户特征的第i个分箱中的样本数目,ExpectT为预期分布中的样本总数,PSI即为评估值。
然后,根据所述筛选阈值和所述评估值对各个客户特征进行特征筛选,得到所述优选客户特征。
对于任意一种筛选维度,建模人员均可以根据实际情况预先设置与之对应的筛选阈值,以PSI为例,当某一个客户特征的PSI小于对应的筛选阈值时,则保留该项客户特征,当某一个客户特征的PSI大于对应的筛选阈值时,则舍弃该项客户特征。
需要注意的是,建模人员既可以只选择一种筛选维度,也可以将多种筛选维度组合起来使用,例如,若设置IV和PSI的组合,当某一个客户特征不满足IV或PSI的限制时,则舍弃该项客户特征,当某一个客户特征同时满足IV和PSI的限制时,则保留该项客户特征,该项客户特征即为优选客户特征。
在特征编码阶段,对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据。
所述特征工程配置信息还可以包括特征编码方式,具体采用何种特征编码方式可以由建模人员根据实际情况进行设置,特征编码方式可以包括但不限于WOE编码、标签编码(label encode)、独热编码(one-hot encode)以及其他的编码方式。
在本发明实施例中,可以按照所述特征编码方式对所述优选客户特征进行特征编码,得到所述编码数据。
若设置特征编码方式为WOE编码,则可以根据上述计算得到的WOE评估值值作为编码数据;若设置特征编码方式为标签编码,则可以将客户特征编码为自定义的数字标签完成量化编码过程;若设置特征编码方式为独热编码,则可以将客户特征转换成以原始特征值分类的多维度的变量,并用是否(0,1)这种方式的新特征值替代和量化。
若所述特征筛选标识位为预设的第二数值,则不再进行特征筛选,直接进行特征编码,即对所述解析客户数据中的各个客户特征进行特征编码,得到所述编码数据。具体的特征编码过程与前述过程类似,此处不再赘述。
特征工程所生成的编码数据可直接入模进行自动化调参,此外还可将客户特征和编码规则自动编译为pickle文件,供直接上线使用。
步骤S103、从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
所述模型配置信息可以包括模型列表和模型融合方式。
模型调参是指对模型的参数进行优化调整,以使模型具有更高的评估准确率。根据模型复杂程度的不同,需要调节的参数数量也不尽相同。简单如逻辑回归,需要调节的通常只有正则项系数;复杂如随机森林,需要调节的变量会多出很多,最核心的如树的数量,树的深度等等。参数越多,调参的难度自然也越来越大,因为参数间排列组合的可能性越来越多。在本申请实施中,可以优选采用hyperopt来进行模型调参,hyperopt是一种通过贝叶斯优化来调整参数的工具。
模型融合是指对多个不同的模型进行融合,以充分发挥各个模型的优势,提升模型的性能。所述模型列表可以由建模人员根据实际情况进行设置,该列表中包括至少一种模型,例如,可以采用但不限于LightGBM、XGBoost以及其它的模型。所述模型融合方法可以由建模人员根据实际情况进行设置,可以采用但不限于Averaging、Voting、Stacking、Boosting、Bagging以及其它融合方式。
在本发明实施例的一种具体实现中,可以将模型调参和模型融合视为两个相互独立的过程,即根据所述编码数据分别对所述模型列表中的各个模型进行模型调参,再根据所述模型融合方式将调参后的各个模型进行模型融合处理,得到所述客户风险评估模型。
例如,若需要对LightGBM和XGBoost进行调参及Averaging融合,则过程如图2所示。首先采用hyperopt对初始状态的LightGBM模型进行自动化调参,得到最终确定参数的LightGBM模型,并采用hyperopt对初始状态的XGBoost模型进行自动化调参,得到最终确定参数的XGBoost模型;接着,对确定参数的LigthGBM模型和XGBoost模型进行Averaging融合,确定最优的融合参数,从而得到融合后的模型,也即所述客户风险评估模型。
在本发明实施例的一种具体实现中,还可以将模型调参和模型融合完全结合,支持多个模型同时进行模型参数和融合参数调优。即:首先根据所述模型融合方式对所述模型列表中的各个模型进行模型融合处理,得到融合模型,然后根据所述编码数据对所述融合模型进行模型调参,得到所述客户风险评估模型。
例如,若需要对LightGBM,XGBoost进行调参及Averaging融合,则过程如图3所示。首先对初始状态的LightGBM模型和初始状态的XGBoost模型进行Averaging融合,LightGBM模型参数、XGBoost模型参数、Averaging融合参数均为待定状态;然后将融合后的模型视为一个整体的模型,则LightGBM模型参数、XGBoost模型参数、Averaging融合参数均视为该整体模型的模型参数,采用hyperopt对该整体模型进行自动化调参,得到最终确定参数的整体模型,也即所述客户风险评估模型。
通过这样的方式,即可实现对各模型的模型参数以及融合参数的全局优化,得到全局最优的结果。而非将分别针对各模型的模型参数的局部最优结果(例如,仅针对LightGBM模型参数的局部最优结果和仅针对XGBoost模型参数的局部最优结果)和对融合参数的局部最优结果进行简单组合。
进一步地,所述模型配置信息可以包括调参范围和调参迭代次数,其具体取值可以由建模人员根据实际情况进行设置,在进行调参时,参数的选择应限定在所述调参范围内,且实际的迭代次数应小于或等于所述调参迭代次数。
此外,还可以将模型融合方式、最终确定出的模型参数、模型融合参数以及模型文件均自动编译为pickle文件,供直接上线使用。
优选地,在得到客户风险评估模型之后,还可以从所述配置文件中读取阈值设置信息,并根据所述阈值设置信息设置所述客户风险评估模型的风险等级划分阈值。
对于不同的风险评估场景,其对应的风险等级划分阈值也各不相同,具体使用的风险等级划分阈值可以由建模人员根据实际业务需求确定,例如,可以将客户划分为高风险、一般风险、低风险这三个等级,则对应两个阈值,分别记为第一阈值和第二阈值,且第一阈值大于第二阈值。
在所述客户风险评估模型构建完成之后,则可以使用这一模型对客户进行风险评估,具体地,获取待评估客户的原始客户数据,将其输入到所述客户风险评估模型中进行处理,得到模型的输出值,最后根据模型的输出值来确定待评估客户的风险评估结果。例如,当模型的输出值大于第一阈值时,则确定待评估客户为高风险客户,当模型的输出值小于等于第一阈值且大于第二阈值时,则确定待评估客户为中风险客户,当模型的输出值小于等于第二阈值时,则确定待评估客户为低风险客户。
进一步地,在确定出待评估客户的风险评估结果之后,还可以将评估结果上传至区块链(Blockchain),从而保证其安全性和对客户的公正透明性。客户可以使用其终端设备可以从区块链中下载评估结果,以便查证评估结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
综上所述,本发明实施例从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。通过本发明实施例,不再基于固化的框架进行模型构建,而是通过配置文件来对特征工程信息和模型信息进行灵活地配置,并按照这些配置完成整个模型构建过程,可以满足各种复杂的快速迭代的应用场景。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的一种客户风险评估模型构建方法,图4示出了本发明实施例提供的一种客户风险评估模型构建装置的一个实施例结构图。
本实施例中,一种客户风险评估模型构建装置可以包括:
数据解析模块401,用于从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;
特征工程模块402,用于从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;
模型调参模块403,用于从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
进一步地,所述模型配置信息包括模型列表和模型融合方式;
所述模型调参模块可以包括:
模型融合模块,用于根据所述模型融合方式对所述模型列表中的各个模型进行模型融合处理,得到融合模型;
模型调参单元,用于根据所述编码数据对所述融合模型进行模型调参,得到所述客户风险评估模型。
进一步地,所述特征工程配置信息包括特征筛选标识位;
所特征工程模块可以包括:
特征筛选单元,用于若所述特征筛选标识位为预设的第一数值,则对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征;
第一特征编码单元,用于对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述特征工程配置信息还包括筛选维度和筛选阈值;
所述特征筛选单元可以包括:
评估值计算子单元,用于分别计算所述解析客户数据中的各个客户特征在所述筛选维度上的评估值;
特征筛选子单元,用于根据所述筛选阈值和所述评估值对各个客户特征进行特征筛选,得到所述优选客户特征。
进一步地,所述特征工程配置信息还包括特征编码方式;
所述第一特征编码单元具体用于按照所述特征编码方式对所述优选客户特征进行特征编码,得到所述编码数据。
进一步地,所述所特征工程模块可以包括:
第二特征编码单元,用于若所述特征筛选标识位为预设的第二数值,则对所述解析客户数据中的各个客户特征进行特征编码,得到所述编码数据。
进一步地,所述客户风险评估模型构建装置还可以包括:
阈值设置模块,用于从所述配置文件中读取阈值设置信息,并根据所述阈值设置信息设置所述客户风险评估模型的风险等级划分阈值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图5示出了本发明实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备5可包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52,例如执行上述的客户风险评估模型构建方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个客户风险评估模型构建方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块401至403的功能。
示例性的,所述计算机可读指令52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令52在所述终端设备5中的执行过程。
所述处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种客户风险评估模型构建方法,其特征在于,包括:
从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;
从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;
从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
2.根据权利要求1所述的客户风险评估模型构建方法,其特征在于,所述模型配置信息包括模型列表和模型融合方式;
所述根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型,包括:
根据所述模型融合方式对所述模型列表中的各个模型进行模型融合处理,得到融合模型;
根据所述编码数据对所述融合模型进行模型调参,得到所述客户风险评估模型。
3.根据权利要求1所述的客户风险评估模型构建方法,其特征在于,所述特征工程配置信息包括特征筛选标识位;
所述根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据,包括:
若所述特征筛选标识位为预设的第一数值,则对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征;
对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据。
4.根据权利要求3所述的客户风险评估模型构建方法,其特征在于,所述特征工程配置信息还包括筛选维度和筛选阈值;
所述对所述解析客户数据中的各个客户特征进行特征筛选,得到优选客户特征,包括:
分别计算所述解析客户数据中的各个客户特征在所述筛选维度上的评估值;
根据所述筛选阈值和所述评估值对各个客户特征进行特征筛选,得到所述优选客户特征。
5.根据权利要求3所述的客户风险评估模型构建方法,其特征在于,所述特征工程配置信息还包括特征编码方式;
所述对从所述解析客户数据中筛选出的优选客户特征进行特征编码,得到所述编码数据,包括:
按照所述特征编码方式对所述优选客户特征进行特征编码,得到所述编码数据。
6.根据权利要求3所述的客户风险评估模型构建方法,其特征在于,还包括:
若所述特征筛选标识位为预设的第二数值,则对所述解析客户数据中的各个客户特征进行特征编码,得到所述编码数据。
7.根据权利要求1至6中任一项所述的客户风险评估模型构建方法,其特征在于,在得到客户风险评估模型之后,还包括:
从所述配置文件中读取阈值设置信息,并根据所述阈值设置信息设置所述客户风险评估模型的风险等级划分阈值。
8.一种客户风险评估模型构建装置,其特征在于,包括:
数据解析模块,用于从预设的数据集市中获取原始客户数据,并对所述原始客户数据进行解析,得到解析客户数据;
特征工程模块,用于从预设的配置文件中读取特征工程配置信息,并根据所述特征工程配置信息对所述解析客户数据进行特征工程处理,得到编码数据;
模型调参模块,用于从所述配置文件中读取模型配置信息,并根据所述模型配置信息和所述编码数据进行模型调参,得到客户风险评估模型。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的客户风险评估模型构建方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的客户风险评估模型构建方法的步骤。
CN202010797967.2A 2020-08-10 2020-08-10 客户风险评估模型构建方法、装置、存储介质及终端设备 Pending CN111950624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010797967.2A CN111950624A (zh) 2020-08-10 2020-08-10 客户风险评估模型构建方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010797967.2A CN111950624A (zh) 2020-08-10 2020-08-10 客户风险评估模型构建方法、装置、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN111950624A true CN111950624A (zh) 2020-11-17

Family

ID=73333219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010797967.2A Pending CN111950624A (zh) 2020-08-10 2020-08-10 客户风险评估模型构建方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN111950624A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906904A (zh) * 2021-02-03 2021-06-04 华控清交信息科技(北京)有限公司 一种数据处理方法、装置和用于数据处理的装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110826799A (zh) * 2019-11-05 2020-02-21 广州虎牙科技有限公司 业务预测方法、装置、服务器及可读存储介质
CN111311400A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 基于gbdt算法的评分卡模型的建模方法及其系统
CN111507822A (zh) * 2020-04-13 2020-08-07 深圳微众信用科技股份有限公司 一种基于特征工程的企业风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034658A (zh) * 2018-08-22 2018-12-18 重庆邮电大学 一种基于大数据金融的违约用户风险预测方法
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备
CN110826799A (zh) * 2019-11-05 2020-02-21 广州虎牙科技有限公司 业务预测方法、装置、服务器及可读存储介质
CN111311400A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 基于gbdt算法的评分卡模型的建模方法及其系统
CN111507822A (zh) * 2020-04-13 2020-08-07 深圳微众信用科技股份有限公司 一种基于特征工程的企业风险评估方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112906904A (zh) * 2021-02-03 2021-06-04 华控清交信息科技(北京)有限公司 一种数据处理方法、装置和用于数据处理的装置
CN112906904B (zh) * 2021-02-03 2024-03-26 华控清交信息科技(北京)有限公司 一种数据处理方法、装置和用于数据处理的装置

Similar Documents

Publication Publication Date Title
CN107025596B (zh) 一种风险评估方法和系统
CN111950889A (zh) 一种客户风险评估方法、装置、可读存储介质及终端设备
CN111861716B (zh) 一种基于软件系统的贷中监控预警等级生成方法
CN112529429B (zh) 客户信息校验方法、装置、计算机设备及存储介质
CN113505936A (zh) 项目审批结果的预测方法、装置、设备及存储介质
CN112990281A (zh) 异常投标识别模型训练方法、异常投标识别方法及装置
CN112990583A (zh) 一种数据预测模型的入模特征确定方法及设备
CN111950624A (zh) 客户风险评估模型构建方法、装置、存储介质及终端设备
CN112508119B (zh) 特征挖掘组合方法、装置、设备及计算机可读存储介质
Jiang et al. [Retracted] Research on Intelligent Prediction Method of Financial Crisis of Listed Enterprises Based on Random Forest Algorithm
Fang et al. Effect of boundary conditions on stochastic Ising-like financial market price model
CN113656692B (zh) 基于知识迁移算法的产品推荐方法、装置、设备及介质
CN113283677B (zh) 指标数据处理方法、装置、设备及存储介质
CN115905655A (zh) 一种用户画像构建方法、装置、设备及可读存储介质
CN114693428A (zh) 数据确定方法、装置、计算机可读存储介质及电子设备
CN114913008A (zh) 基于决策树的债券价值分析方法、装置、设备及存储介质
CN114897607A (zh) 产品资源的数据处理方法及装置、电子设备、存储介质
CN114048330A (zh) 风险传导概率知识图谱生成方法、装置、设备及存储介质
CN113269179A (zh) 数据处理方法、装置、设备及存储介质
CN113744042A (zh) 基于优化Boruta和XGBoost的信贷违约预测方法及系统
CN112308294A (zh) 违约概率预测方法及装置
CN114329213B (zh) 基于用户行为的电商平台优化方法、装置、设备及介质
CN117332212B (zh) 一种基于混沌工程故障实验的智能化风险探索方法及系统
CN117932284A (zh) 一种特征处理方法、装置、存储介质及电子设备
CN116307006A (zh) 多源时序数据总和预测方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination