CN109767312A - 一种信用评估模型训练、评估方法与装置 - Google Patents
一种信用评估模型训练、评估方法与装置 Download PDFInfo
- Publication number
- CN109767312A CN109767312A CN201811500994.8A CN201811500994A CN109767312A CN 109767312 A CN109767312 A CN 109767312A CN 201811500994 A CN201811500994 A CN 201811500994A CN 109767312 A CN109767312 A CN 109767312A
- Authority
- CN
- China
- Prior art keywords
- sdt
- credit
- model
- user
- user data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 title claims abstract description 52
- 238000013210 evaluation model Methods 0.000 title claims abstract description 39
- 238000009826 distribution Methods 0.000 claims abstract description 53
- 238000011156 evaluation Methods 0.000 claims abstract description 37
- 238000011835 investigation Methods 0.000 claims abstract description 17
- 238000003066 decision tree Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 19
- 238000012800 visualization Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开一种的信用评估模型训练、评估的方法与装置,其中信用评估模型通过训练方法得到,包括:获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;对收集到的用户数据中的用户数据进行预处理,转换为数值数据,包含但不限于将类别型数据进行One hot变换,数值型数据进行归一化;构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布;利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。通过本发明所述方法构建的信用评估模型与装置,拥有更高的工作效率,而且可以降低坏账率;同时具有产生可视化的决策过程。
Description
技术领域
本发明公开了一种金融风险评估领域中的信用评估模型训练、评估的方法与装置,具体涉及到基于加 权软决策森林的信用评估模型训练、评估方法与装置。
背景技术
信用评估是金融机构预测客户是否违约的关键步骤。错误的信用评估会使金融机构蒙受经济损失。开 发智能的信用评估系统不仅可以提高金融机构的工作效率,还可以降低坏账率。近年来,常用的传统征信 系统中大多使用评分卡来构建用户的信用模型。评分卡主要使用逻辑回归算法来实现,可以提高线性模型 的性能。
但是,目前常用的线性模型虽然能保证一定的可解释性,模型性能却并不能满足需求,导致这种方法 对用户的信用评估预测结果可能不准确,实际应用价值有限。目前,已有许多人工智能算法被应用于该领 域,如支持向量机、集成学习、K-最近邻等方法,大幅提高了信用评估模型的性能。然而,这些人工智能 算法由于其计算过程的复杂性,普遍存在可解释性差的问题。而信用评估模型的可解释性又是具有现实意 义的,例如:欧盟颁布的“通用数据保护条例”明确要求企业对智能算法得到的决策进行适当解释,否则会 给予巨额罚款。
因此,如何在保证模型具有良好可解释性的前提下,提高信用评估的准确性,是本领域技术人员亟需 解决的技术问题。
发明内容
本发明要解决的技术问题是提供一种性能良好同时具有一定可解释性的信用评估模型的训练、评估方 法以及装置。
为此,本发明的第一个目的在于提出一种新型的基于加权软决策森林的信用评估模型及训练方法。该 模型基于软决策树(Soft Decision Tree,SDT)实现,构建m个SDT子分类器进行分类,1个SDT权重生 成器对m个SDT子分类器进行加权集成。由于SDT是一种逻辑上具有二叉树结构的深度神经网络,因而 该模型在保证性能的同时,继承了决策树算法的可解释性。
本发明的第二个目的在于提出一种可解释的信用评估方法。
本发明的第三个目的在于提出一种可解释的信用评估模型的训练装置。
本发明的第四个目的在于提出一种可解释的信用评估装置。
为达到上述目的,本发明的技术方案是这样实现的:
一种信用评估模型的训练方法,其特征在于,它包括以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;
S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分 类器的权重概率分布,该模型即为加权软决策森林(Weighted Soft DecisionForest,WSDF);
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。
进一步地,上述S13具体包括:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子 分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述 预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重 生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概 率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
进一步地,上述S14中端到端的训练具体包括:
设已拥有预处理后的用户数据集T,使用该数据集对WSDF模型进行训练:首先,将数据集T随机划 分成S组mini-batch;在每组mini-batch上分别计算本发明定义的损失函数的函数值,使用梯度下降算法 进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种WSDF信用评估模型,通过上述的方法训练出来。
一种信用评估的方法,使用上述的WSDF信用评估模型,其特征在于,包括以下步骤
S21,获取待信用评估的用户在征信系统中的用户数据;
S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;
S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
进一步地,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:
将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器, 直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测 用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数 据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率 分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器 的叶子结点的概率分布的加权求和。
进一步地,所述对WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过 程,包括:
提取出除叶节点外的每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户 信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策 规则。
一种信用评估模型的训练装置,用于训练上述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S31,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S32,用于对收集到的用户数据进行预处理;
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化;
模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出WSDF 信用评估模型。
进一步地,所述模型构建与初始化模块,包括:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数。
进一步地,所述模型训练模块,包括:
设已拥有预处理后的用户数据集T,使用该数据集对模型进行训练:首先,将数据集T随机划分成S 组mini-batch;在每组mini-batch上分别计算本发明定义的损失函数的函数值,使用梯度下降算法进行参 数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种信用评估的装置,采用上述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S42,用于对收集到的用户数据进行预处理;
预测模块S43,用于对待信用评估的用户进行预测;
可视化模块S44,用于可视化信用评估模型的具体决策过程。
进一步地,所述预测模块:
将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器,直至每个所 述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信 息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该 SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用 户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结 点的概率分布的加权求和。
进一步地,所述可视化模块,包括:
提取出除叶节点外每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信 用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规 则。
本发明的方法和系统的优点在于:
1.通过本发明所述方法构建的信用评估模型与系统,相较于传统的人工信用评估模型与系统,不需要 人工干预,拥有更高的工作效率,而且可以降低坏账率。
2.通过本发明所述方法构建的信用评估模型与系统具有神经网络模型的性能优势,相比传统的智能信 用评估模型与系统,预测结果拥有更高的准确性。
3.通过本发明所述方法构建的信用评估模型与系统继承了软决策树的树形结构,更接近人的思维模式, 可以产生可视化的决策过程。
4.在知晓用户属性具体含义的情况下,也可根据模型的决策过程提取出具有现实意义的信用评估决策 规则。
附图说明
图1为根据本发明的信用评估模型训练方法流程图;
图2为根据本发明加权软决策森林信用评估模型的结构图,其中1为模型对用户信用信息预测的最终 输出,2为输入模型的用户数据,3为矩阵加法操作,4为矩阵点乘操作,5为每个SDT的输出,6代表一 棵SDT,一个WSDF信用评估模型可以有多棵SDT;
图3为根据本发明使用加权软决策森林信用评估模型的信用评估方法流程图;
图4为对本发明一个实施例的WSDF信用评估模型中一个SDT权重生成器的参数可视化示意图,其 中7为模型输入的用户数据,8为SDT的内部节点与叶子节点,9为SDT根据用户特征计算概率的决策路 径,10为该SDT对SDT子分类器的权重分布;
图5为对本发明一个实施例的WSDF信用评估模型中一个SDT子分类器的参数可视化示意图,其中 11为叶子节点预测用户信用信息好坏的概率分布,12为SDT最终预测的概率分布;
图6为根据本发明的信用评估训练装置的结构框图;
图7为根据本发明的信用评估装置的结构框图。
具体实施方式
下面结合实施例和附图对本发明提出的方法与装置进一步详细描述。
本实施例基于加权软决策森林的信用评估模型训练方法流程图如附图1所示,本发明提出的信用评估 模型训练方法用于训练WSDF信用评估模型,主要包含以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果(模型训练数据)。
具体地,用户数据应该有一定的相关性或具有现实意义,可以包含但不限于人口统计学特征(年龄、 性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及 数据(支付方式、消费情况等)等。
S12,对收集到的用户数据中的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但 不限于该实施例中使用的One hot变换与归一化。
S13,构建m个SDT(软决策树)子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m 个SDT子分类器的权重概率分布,该模型即为WSDF。
如图3所示,在本实施例中,WSDF信用评估模型中共包含m个SDT子分类器,和一个SDT权重生 成器。将用户数据依次通过m个SDT子分类器后,再使用一个SDT权重生成器对m个子分类器的类别概 率分布进行加权求和,得到WSDF最终的类别概率分布。
具体地,设WSDF模型的输入样本对为(x,y):为用户属性;y∈{1,...,nc},为x对应的真 实样本标签,nc为类别总数。SDT由内部节点和叶子节点组成,其中内部节点集合表示为NI,叶子节点 集合表示为NL。对于样本x,在SDT中第i个内部节点选择右边分支的概率为:其 中,wi∈Rnx×1和bi分别是SDT中第i个内部节点的滤波器(filter)与偏置(bias),二者的值均由反向传播 算法进行迭代更新。σ( )为Sigmoid函数。
第l个叶节点根据式计算样本x属于类别k的概率。其中,Ql表示第l个 叶节点处的类别概率分布,Ql[k]是向量Ql的第k个元素,其表示第l个叶节点的输出中预测样本属于第k 类的概率。第l个叶子节点中的参数的值由反向传播迭代训练得到。
从根节点到叶节点的路径称为路由。SDT将根据式计算到达第l个叶 节点的概率。其中Rl表示到第l个叶节点的路由中的内部节点id的序列。Ir()是指示函数,当路由选择了 第i个内部节点的右侧时,Ir为1,否则为0。
对于每个样本x,SDT子分类器将选择具有最大路由概率的叶节点处的类别概率分布作为输出,记 为π(x),其中记所有子树的权重概率分布为A(x)∈RM×1。A(x)的第i个 元素,记为A(x)[i],表示第i个子SDT的权重。
与用于构建子分类器的SDT不同,用于权重生成的SDT计算其所有叶节点上的权重概率分布的加权 和作为所有子树的权重概率分布:其中表示当输入为x时,SDT权重生成器到 达第l个叶节点的概率,表示该SDT上第l个叶节点上的SDT子分类器权重概率分布。WSDF 模型最终的类别概率分布可由式计算得到。上述实现方式只是作为一种示例, 以便于理解,而不能视为是本发明的限定。
由此,通过使用基于软决策森林的信用评估模型来对用户进行信用评估,既保留有神经网络模型的性 能优势,又继承了决策树的树形结构,更接近人类的决策思维,因而有良好的可解释性。
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练,使用反向传 播算法更新模型参数;
具体地,对于输入样本x,设对应的目标分布为T(x),新模型可自定义损失函数,或通过最小化损失 函数loss(x)=losstrs(x)-αT(x)Tlog(πWSDF(x))来训练模型的参数。
其中, 表示对样本x,第i棵子树选择第l条路径的概 率,表示第i棵树的第l个叶节点(对应于第l条路径)处的类别概率分布。
考虑监督学习问题,设已拥有信用评估数据集T,现使用该数据集对模型进行训练:首先,初始化模 型参数,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算损失函数值,使用梯度下 降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种基于软决策森林的信用评估方法流程图如附图3所示,其特征在于,包括以下步骤:
S21,获取待信用评估的用户在征信系统中的用户数据。
具体地,可以先获取用户在征信系统中的用户信息,再通过用户信息获取该目标用户在征信系统中的 用户数据。用户数据应该有一定的相关性或具有现实意义,可以包含但不限于人口统计学特征(年龄、性 别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数 据(支付方式、消费情况等)等。
S22,对收集到的用户数据中的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但 不限于该实施例中使用的One hot变换与归一化。
S23,使用已训练好的WSDF信用评估模型对用户进行预测。
具体预测过程,与S13中定义的计算过程相对应,利用预处理后的用户数据,计算出最终加权的用户 信用信息好坏的概率分布。
S24,根据所述对WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
具体地,本实施例在公开信用评估数据集上进行了训练与测试,并对SDT的决策过程进行了可视化。 如图4、图5所示,图中展示了SDT权重生成器以及该SDT赋予权重最大的SDT子分类器的结构。除叶 节点外,每个内部节点都会根据用户特征计算出沿着左右两种决策路径的概率。权重生成器的叶节点输出 对每个SDT子分类器的权重概率分布,子分类器的叶节点则输出对用户信用信息好与坏的预测概率分布。 对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序,即可得到影响用户信用信息权 重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
本发明的一种实施例还提供一种信用评估模型的训练装置,该装置基于本发明提出的加权软决策森林 信用评估模型。图6为该信用评估模型训练装置的流程图。如图6所示,该信用评估模型训练装置可以包 括:数据获取模块S31、数据预处理模块S32、模型构建与初始化模块S33、模型训练模块S34。
其中,数据获取模块S31用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。
具体地,获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。该数据可从征信系统的 数据库、数据管理服务器或第三方服务器获取。用户数据应该有一定的相关性或具有现实意义,可以包含 但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定 资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。
数据预处理模块S32用于对收集到的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但 不限于该实施例中使用的One hot变换与归一化。
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化。
具体地,构建m个SDT(软决策树)子分类器,m为正整数,另构建一个SDT权重生成器,用以生 成m个SDT子分类器的权重概率分布,该模型即为WSDF。需要说明的是,该实施例的WSDF模型是使 用Python语言和机器学习库Keras实现的,具体部署可以根据实际情况选择不同的语言与框架。 模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出本发明的 WSDF信用评估模型。
具体地,该模块的训练方法与S14的训练方法一致,使用反向传播算法与S14中定义或根据实际情况 自定义的损失函数对模型参数进行迭代更新。
本发明还提出了一种信用评估装置,该装置基于本发明提出的加权软决策森林信用评估模型。图7为 该信用评估装置的流程图。如图7所示,该信用评估装置包括以下模块:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。该数据 可从征信系统的数据库、数据管理服务器或第三方服务器获取。用户数据可以包含但不限于人口统计学特 征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、 交易行为及数据(支付方式、消费情况等)等。
数据预处理模块S42,用于预处理收集到的用户数据,数据预处理方法包含但不限于使用One hot变 换与归一化。
预测模块S43,用于对待信用评估的用户进行预测,其计算过程与S23、S13一致,利用S42预处理 后的用户数据,计算出最终加权的用户信用信息好坏的概率分布。
可视化模块S44,用于可视化模型的具体决策过程,可视化方法与S24一致。提取出模型的内部参数, 对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序,既可得到影响用户信用信息权 重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
需要说明的是,本发明提出的技术方案各部分可以用硬件、软件、固件或它们的组合来实现。流程图 中或以其他形式描述的步骤、模块和逻辑,都可以被认为是用于实现特定功能的可执行指令的集合或有序 列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或装备等使用。不失一般性的, 所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可 读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不 可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术, CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。
具体地,使用软件产品形式实现产品,先将该软件存储在一个计算机存储介质中(如上文所述),包 括若干指令用以使得一个指令执行系统、一台终端设备或装置(如手机、计算机、服务器、嵌入式设备) 执行本发明实施例所述方法。
若使用硬件形式实现产品,则可使用下列技术中的任一项或其组合来实现:
通用处理器,包括中央处理器(CPU)、网络处理器(NP)等;具有用于对数据信号实现逻辑功能的 逻辑门电路的离散逻辑电路;数字信号处理器(DSP)、专用集成电路(ASIC)或具有合适的组合逻辑门 电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等;其他可编程逻辑器件、分立门 或者晶体管逻辑器件、分立硬件组件等等。
本文应用了具体实例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本 发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应 用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种信用评估模型的训练方法,其特征在于,它包括以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;
S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF;
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。
2.如权利要求1所述的训练方法,其特征在于,S13具体包括:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
3.如权利要求1所述的训练方法,其特征在于,S14中端到端的训练具体包括:
设已拥有预处理后的用户数据集T,使用该数据集对S13的WSDF模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本申请定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
4.一种通过权利要求1-3任一权利要求所述的训练方法训练出来的WSDF信用评估模型。
5.一种信用评估的方法,使用权利要求4所述的WSDF信用评估模型,其特征在于,包括以下步骤:
S21,获取待信用评估的用户在征信系统中的用户数据;
S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;
S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
6.如权利要求5所述的信用评估方法,其特征在于,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:
将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
7.如权利要求5所述的信用评估方法,其特征在于,S24中对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程,包括:
提取出除叶节点外的每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征,若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
8.一种信用评估模型的训练装置,用于训练权利要求4所述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S31,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S32,用于对收集到的用户数据进行预处理;
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化;
模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出WSDF信用评估模型;
所述模型构建与初始化模块,包括:构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
所述模型训练模块,包括:设已拥有预处理后的用户数据集T,使用该数据集对模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本申请定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
9.一种信用评估的装置,采用如权利要求4所述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S42,用于对收集到的用户数据进行预处理;
预测模块S43,用于对待信用评估的用户进行预测;
可视化模块S44,用于可视化信用评估模型的具体决策过程;
所述可视化模块,包括:提取出除叶节点外每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征,若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
10.根据权利要求9所述的一种信用评估的装置,其特征在于,所述预测模块包括:将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811500994.8A CN109767312B (zh) | 2018-12-10 | 2018-12-10 | 一种信用评估模型训练、评估方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811500994.8A CN109767312B (zh) | 2018-12-10 | 2018-12-10 | 一种信用评估模型训练、评估方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109767312A true CN109767312A (zh) | 2019-05-17 |
CN109767312B CN109767312B (zh) | 2023-05-09 |
Family
ID=66451359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811500994.8A Active CN109767312B (zh) | 2018-12-10 | 2018-12-10 | 一种信用评估模型训练、评估方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109767312B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110223161A (zh) * | 2019-05-24 | 2019-09-10 | 东方银谷(北京)科技发展有限公司 | 基于特征依赖度的信用评估方法及装置 |
CN110264093A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 信用模型的建立方法、装置、设备及可读存储介质 |
CN110377828A (zh) * | 2019-07-22 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、服务器及存储介质 |
CN111325620A (zh) * | 2020-02-17 | 2020-06-23 | 北京明略软件系统有限公司 | 信用评价模型的生成方法、装置及信用评价方法、装置 |
CN111339443A (zh) * | 2020-03-09 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备及存储介质 |
WO2020233360A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种产品测评模型的生成方法及设备 |
CN112634033A (zh) * | 2021-01-04 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 基于域分解机的模型构建方法、装置、系统及存储介质 |
CN113221989A (zh) * | 2021-04-30 | 2021-08-06 | 浙江网商银行股份有限公司 | 基于分布式的评估模型训练方法、系统以及装置 |
CN113313578A (zh) * | 2021-06-15 | 2021-08-27 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
CN107945003A (zh) * | 2016-12-30 | 2018-04-20 | 上海壹账通金融科技有限公司 | 信用评估方法及装置 |
WO2018157808A1 (zh) * | 2017-03-01 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 互联网征信评估方法和系统 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
CN108615191A (zh) * | 2018-05-03 | 2018-10-02 | 湖南大学 | 一种信用额度智能评估方法 |
-
2018
- 2018-12-10 CN CN201811500994.8A patent/CN109767312B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
CN107945003A (zh) * | 2016-12-30 | 2018-04-20 | 上海壹账通金融科技有限公司 | 信用评估方法及装置 |
WO2018157808A1 (zh) * | 2017-03-01 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 互联网征信评估方法和系统 |
CN108596757A (zh) * | 2018-04-23 | 2018-09-28 | 大连火眼征信管理有限公司 | 一种智能组合的个人信用评估方法及系统 |
CN108615191A (zh) * | 2018-05-03 | 2018-10-02 | 湖南大学 | 一种信用额度智能评估方法 |
Non-Patent Citations (1)
Title |
---|
赵冬梅 等: "基于模糊神经网络的信息安全风险评估模型", 《计算机工程与应用》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020233360A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 一种产品测评模型的生成方法及设备 |
CN110223161A (zh) * | 2019-05-24 | 2019-09-10 | 东方银谷(北京)科技发展有限公司 | 基于特征依赖度的信用评估方法及装置 |
CN110264093A (zh) * | 2019-06-21 | 2019-09-20 | 深圳前海微众银行股份有限公司 | 信用模型的建立方法、装置、设备及可读存储介质 |
CN110377828A (zh) * | 2019-07-22 | 2019-10-25 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、服务器及存储介质 |
CN110377828B (zh) * | 2019-07-22 | 2023-05-26 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置、服务器及存储介质 |
CN111325620A (zh) * | 2020-02-17 | 2020-06-23 | 北京明略软件系统有限公司 | 信用评价模型的生成方法、装置及信用评价方法、装置 |
CN111339443A (zh) * | 2020-03-09 | 2020-06-26 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备及存储介质 |
CN111339443B (zh) * | 2020-03-09 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 用户标签确定方法、装置、计算机设备及存储介质 |
CN112634033A (zh) * | 2021-01-04 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 基于域分解机的模型构建方法、装置、系统及存储介质 |
CN113221989A (zh) * | 2021-04-30 | 2021-08-06 | 浙江网商银行股份有限公司 | 基于分布式的评估模型训练方法、系统以及装置 |
CN113313578A (zh) * | 2021-06-15 | 2021-08-27 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
CN113313578B (zh) * | 2021-06-15 | 2024-03-08 | 中国银行股份有限公司 | 信用卡消费分期的决策方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109767312B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109767312B (zh) | 一种信用评估模型训练、评估方法与装置 | |
CN111444951B (zh) | 样本识别模型的生成方法、装置、计算机设备和存储介质 | |
CN113011895B (zh) | 关联账户样本筛选方法、装置和设备及计算机存储介质 | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
Romdhane et al. | An efficient approach for building customer profiles from business data | |
CN110110372B (zh) | 一种用户时序行为自动切分预测方法 | |
CN109726918A (zh) | 基于生成式对抗网络和半监督学习的个人信用确定方法 | |
Hu et al. | Forecasting China future MNP by deep learning | |
Lamba et al. | A MCDM-based performance of classification algorithms in breast cancer prediction for imbalanced datasets | |
CN115511606A (zh) | 对象识别方法、装置、设备及存储介质 | |
Zaky et al. | Predicting banking customer churn based on artificial neural network | |
Eletter et al. | Loan decision models for the Jordanian commercial banks | |
Chishti et al. | Deep neural network a step by step approach to classify credit card default customer | |
Wang et al. | Risk assessment of customer churn in telco using FCLCNN-LSTM model | |
Pandey et al. | A review of credit card fraud detection techniques | |
CN117194771A (zh) | 一种图模型表征学习的动态知识图谱服务推荐方法 | |
CN116910341A (zh) | 标签预测方法、装置及电子设备 | |
KR102519878B1 (ko) | 금융기관 신용공여 사업에서의 인공지능 기반 리스크 관리 솔루션을 제공하기 위한 장치, 방법 및 명령을 기록한 기록 매체 | |
Chang et al. | Automated feature engineering for fraud prediction in online credit loan services | |
Şevgin | A comparative study of ensemble methods in the field of education: Bagging and Boosting algorithms | |
Rashid et al. | Developing an artificial intelligence based system to detect fraud and corruption in government | |
Kuznietsova et al. | Data Mining Methods for Evaluation and Forecasting the Mobile Internet Traffic in Roaming. | |
Sheng et al. | A Feature-based Deep Neural Framework for Poverty Prediction | |
Islam | Development and Application of Artificial Neural Networks for Energy Demand Forecasting in Australia | |
Yaman Kanmaz | Classification of Imbalanced Credit Data Sets with Borrower-Specific Cost-Sensitive Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |