CN109767312B - 一种信用评估模型训练、评估方法与装置 - Google Patents

一种信用评估模型训练、评估方法与装置 Download PDF

Info

Publication number
CN109767312B
CN109767312B CN201811500994.8A CN201811500994A CN109767312B CN 109767312 B CN109767312 B CN 109767312B CN 201811500994 A CN201811500994 A CN 201811500994A CN 109767312 B CN109767312 B CN 109767312B
Authority
CN
China
Prior art keywords
sdt
credit
model
user
user data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811500994.8A
Other languages
English (en)
Other versions
CN109767312A (zh
Inventor
刘欣阳
周琪云
曲彦文
高子健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN201811500994.8A priority Critical patent/CN109767312B/zh
Publication of CN109767312A publication Critical patent/CN109767312A/zh
Application granted granted Critical
Publication of CN109767312B publication Critical patent/CN109767312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开一种的信用评估模型训练、评估的方法与装置,其中信用评估模型通过训练方法得到,包括:获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;对收集到的用户数据中的用户数据进行预处理,转换为数值数据,包含但不限于将类别型数据进行One hot变换,数值型数据进行归一化;构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布;利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。通过本发明所述方法构建的信用评估模型与装置,拥有更高的工作效率,而且可以降低坏账率;同时具有产生可视化的决策过程。

Description

一种信用评估模型训练、评估方法与装置
技术领域
本发明公开了一种金融风险评估领域中的信用评估模型训练、评估的方法与装置,具体涉及到基于加权软决策森林的信用评估模型训练、评估方法与装置。
背景技术
信用评估是金融机构预测客户是否违约的关键步骤。错误的信用评估会使金融机构蒙受经济损失。开发智能的信用评估系统不仅可以提高金融机构的工作效率,还可以降低坏账率。近年来,常用的传统征信系统中大多使用评分卡来构建用户的信用模型。评分卡主要使用逻辑回归算法来实现,可以提高线性模型的性能。
但是,目前常用的线性模型虽然能保证一定的可解释性,模型性能却并不能满足需求,导致这种方法对用户的信用评估预测结果可能不准确,实际应用价值有限。目前,已有许多人工智能算法被应用于该领域,如支持向量机、集成学习、K-最近邻等方法,大幅提高了信用评估模型的性能。然而,这些人工智能算法由于其计算过程的复杂性,普遍存在可解释性差的问题。而信用评估模型的可解释性又是具有现实意义的,例如:欧盟颁布的“通用数据保护条例”明确要求企业对智能算法得到的决策进行适当解释,否则会给予巨额罚款。
因此,如何在保证模型具有良好可解释性的前提下,提高信用评估的准确性,是本领域技术人员亟需解决的技术问题。
发明内容
本发明要解决的技术问题是提供一种性能良好同时具有一定可解释性的信用评估模型的训练、评估方法以及装置。
为此,本发明的第一个目的在于提出一种新型的基于加权软决策森林的信用评估模型及训练方法。该模型基于软决策树(SoftDecision Tree,SDT)实现,构建m个SDT子分类器进行分类,1个SDT权重生成器对m个SDT子分类器进行加权集成。由于SDT是一种逻辑上具有二叉树结构的深度神经网络,因而该模型在保证性能的同时,继承了决策树算法的可解释性。
本发明的第二个目的在于提出一种可解释的信用评估方法。
本发明的第三个目的在于提出一种可解释的信用评估模型的训练装置。
本发明的第四个目的在于提出一种可解释的信用评估装置。
为达到上述目的,本发明的技术方案是这样实现的:
一种信用评估模型的训练方法,其特征在于,它包括以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;
S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为加权软决策森林(Weighted SoftDecisionForest,WSDF);
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。
进一步地,上述S13具体包括:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
进一步地,上述S14中端到端的训练具体包括:
设已拥有预处理后的用户数据集T,使用该数据集对WSDF模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本发明定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种WSDF信用评估模型,通过上述的方法训练出来。
一种信用评估的方法,使用上述的WSDF信用评估模型,其特征在于,包括以下步骤
S21,获取待信用评估的用户在征信系统中的用户数据;
S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;
S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
进一步地,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:
将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
进一步地,所述对WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程,包括:
提取出除叶子节点外的每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
一种信用评估模型的训练装置,用于训练上述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S31,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S32,用于对收集到的用户数据进行预处理;
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化;
模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出WSDF信用评估模型。
进一步地,所述模型构建与初始化模块,包括:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数。
进一步地,所述模型训练模块,包括:
设已拥有预处理后的用户数据集T,使用该数据集对模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本发明定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种信用评估的装置,采用上述的WSDF信用评估模型,其特征在于,包括:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S42,用于对收集到的用户数据进行预处理;
预测模块S43,用于对待信用评估的用户进行预测;
可视化模块S44,用于可视化信用评估模型的具体决策过程。
进一步地,所述预测模块:
将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
进一步地,所述可视化模块,包括:
提取出除叶子节点外每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
本发明的方法和系统的优点在于:
1.通过本发明所述方法构建的信用评估模型与系统,相较于传统的人工信用评估模型与系统,不需要人工干预,拥有更高的工作效率,而且可以降低坏账率。
2.通过本发明所述方法构建的信用评估模型与系统具有神经网络模型的性能优势,相比传统的智能信用评估模型与系统,预测结果拥有更高的准确性。
3.通过本发明所述方法构建的信用评估模型与系统继承了软决策树的树形结构,更接近人的思维模式,可以产生可视化的决策过程。
4.在知晓用户属性具体含义的情况下,也可根据模型的决策过程提取出具有现实意义的信用评估决策规则。
附图说明
图1为根据本发明的信用评估模型训练方法流程图;
图2为根据本发明加权软决策森林信用评估模型的结构图,其中1为模型对用户信用信息预测的最终输出,2为输入模型的用户数据,3为矩阵加法操作,4为矩阵点乘操作,5为每个SDT的输出,6代表一棵SDT,一个WSDF信用评估模型可以有多棵SDT;
图3为根据本发明使用加权软决策森林信用评估模型的信用评估方法流程图;
图4为对本发明一个实施例的WSDF信用评估模型中一个SDT权重生成器的参数可视化示意图,其中7为模型输入的用户数据,8为SDT的内部节点与叶子节点,9为SDT根据用户特征计算概率的决策路径,10为该SDT对SDT子分类器的权重分布;
图5为对本发明一个实施例的WSDF信用评估模型中一个SDT子分类器的参数可视化示意图,其中11为叶子节点预测用户信用信息好坏的概率分布,12为SDT最终预测的概率分布;
图6为根据本发明的信用评估训练装置的结构框图;
图7为根据本发明的信用评估装置的结构框图。
具体实施方式
下面结合实施例和附图对本发明提出的方法与装置进一步详细描述。
本实施例基于加权软决策森林的信用评估模型训练方法流程图如附图1所示,本发明提出的信用评估模型训练方法用于训练WSDF信用评估模型,主要包含以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果(模型训练数据)。
具体地,用户数据应该有一定的相关性或具有现实意义,可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。
S12,对收集到的用户数据中的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但不限于该实施例中使用的One hot变换与归一化。
S13,构建m个SDT(软决策树)子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF。
如图3所示,在本实施例中,WSDF信用评估模型中共包含m个SDT子分类器,和一个SDT权重生成器。将用户数据依次通过m个SDT子分类器后,再使用一个SDT权重生成器对m个子分类器的类别概率分布进行加权求和,得到WSDF最终的类别概率分布。
具体地,设WSDF模型的输入样本对为(x,y):
Figure GDA0003964226940000033
为用户属性;y∈{1,...,nc},为x对应的真实样本标签,nc为类别总数。SDT由内部节点和叶子节点组成,其中内部节点集合表示为NI,叶子节点集合表示为NL。对于样本x,在SDT中第i个内部节点选择右边分支的概率为:
Figure GDA0003964226940000031
其中,wi∈Rnx×1和bi分别是SDT中第i个内部节点的滤波器(filter)与偏置(bias),二者的值均由反向传播算法进行迭代更新。σ()为Sigmoid函数。
第l个叶子节点根据式
Figure GDA0003964226940000032
计算样本x属于类别k的概率。其中,Ql表示第l个叶子节点处的类别概率分布,Ql[k]是向量Ql的第k个元素,其表示第l个叶子节点的输出中预测样本属于第k类的概率。第l个叶子节点中的参数
Figure GDA0003964226940000041
的值由反向传播迭代训练得到。
从根节点到叶子节点的路径称为路由。SDT将根据式
Figure GDA0003964226940000042
计算到达第l个叶子节点的概率。其中Rl表示到第l个叶子节点的路由中的内部节点id的序列。Ir()是指示函数,当路由选择了第i个内部节点的右侧时,Ir为1,否则为0。
对于每个样本x,SDT子分类器将选择具有最大路由概率的叶子节点处的类别概率分布作为输出,记为π(x),其中π(x)=Ql*,l*=arg max Pl(x)。记所有子树的权重概率分布为A(x)∈RM×1。A(x)的第i个元素,记为
Figure GDA0003964226940000043
表示第i个子SDT的权重。
与用于构建子分类器的SDT不同,用于权重生成的SDT计算其所有叶子节点上的权重概率分布的加权和作为所有子树的权重概率分布:
Figure GDA0003964226940000044
其中
Figure GDA0003964226940000045
表示当输入为x时,SDT权重生成器到达第l个叶子节点的概率,
Figure GDA0003964226940000046
表示该SDT上第l个叶子节点上的SDT子分类器权重概率分布。WSDF模型最终的类别概率分布可由式
Figure GDA0003964226940000047
计算得到。上述实现方式只是作为一种示例,以便于理解,而不能视为是本发明的限定。
由此,通过使用基于软决策森林的信用评估模型来对用户进行信用评估,既保留有神经网络模型的性能优势,又继承了决策树的树形结构,更接近人类的决策思维,因而有良好的可解释性。
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练,使用反向传播算法更新模型参数;
具体地,对于输入样本x,设对应的目标分布为T(x),新模型可自定义损失函数,或通过最小化损失函数loss(x)=losstrs(x)-αT(x)Tlog(πWSDF(x))来训练模型的参数。
其中,
Figure GDA0003964226940000048
表示对样本x,第i棵子树选择第l条路径的概率,
Figure GDA0003964226940000049
表示第i棵树的第l个叶子节点(对应于第l条路径)处的类别概率分布。
考虑监督学习问题,设已拥有信用评估数据集T,现使用该数据集对模型进行训练:首先,初始化模型参数,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算损失函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
一种基于软决策森林的信用评估方法流程图如附图3所示,其特征在于,包括以下步骤:
S21,获取待信用评估的用户在征信系统中的用户数据。
具体地,可以先获取用户在征信系统中的用户信息,再通过用户信息获取该目标用户在征信系统中的用户数据。用户数据应该有一定的相关性或具有现实意义,可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。
S22,对收集到的用户数据中的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但不限于该实施例中使用的One hot变换与归一化。
S23,使用已训练好的WSDF信用评估模型对用户进行预测。
具体预测过程,与S13中定义的计算过程相对应,利用预处理后的用户数据,计算出最终加权的用户信用信息好坏的概率分布。
S24,根据所述对WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
具体地,本实施例在公开信用评估数据集上进行了训练与测试,并对SDT的决策过程进行了可视化。如图4、图5所示,图中展示了SDT权重生成器以及该SDT赋予权重最大的SDT子分类器的结构。除叶子节点外,每个内部节点都会根据用户特征计算出沿着左右两种决策路径的概率。权重生成器的叶子节点输出对每个SDT子分类器的权重概率分布,子分类器的叶子节点则输出对用户信用信息好与坏的预测概率分布。对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
本发明的一种实施例还提供一种信用评估模型的训练装置,该装置基于本发明提出的加权软决策森林信用评估模型。图6为该信用评估模型训练装置的流程图。如图6所示,该信用评估模型训练装置可以包括:数据获取模块S31、数据预处理模块S32、模型构建与初始化模块S33、模型训练模块S34。
其中,数据获取模块S31用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。
具体地,获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。该数据可从征信系统的数据库、数据管理服务器或第三方服务器获取。用户数据应该有一定的相关性或具有现实意义,可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。
数据预处理模块S32用于对收集到的用户数据进行预处理。
例如,将类别型数据进行One hot变换,数值型数据进行归一化。可以理解,数据预处理方法包含但不限于该实施例中使用的One hot变换与归一化。
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化。
具体地,构建m个SDT(软决策树)子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF。需要说明的是,该实施例的WSDF模型是使用Python语言和机器学习库Keras实现的,具体部署可以根据实际情况选择不同的语言与框架。
模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出本发明的WSDF信用评估模型。
具体地,该模块的训练方法与S14的训练方法一致,使用反向传播算法与S14中定义或根据实际情况自定义的损失函数对模型参数进行迭代更新。
本发明还提出了一种信用评估装置,该装置基于本发明提出的加权软决策森林信用评估模型。图7为该信用评估装置的流程图。如图7所示,该信用评估装置包括以下模块:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据。该数据可从征信系统的数据库、数据管理服务器或第三方服务器获取。用户数据可以包含但不限于人口统计学特征(年龄、性别、学历、职业等等)、用户资产信息(银行存款、有价债券、固定资产)、社交网络关系、交易行为及数据(支付方式、消费情况等)等。
数据预处理模块S42,用于预处理收集到的用户数据,数据预处理方法包含但不限于使用One hot变换与归一化。
预测模块S43,用于对待信用评估的用户进行预测,其计算过程与S23、S13一致,利用S42预处理后的用户数据,计算出最终加权的用户信用信息好坏的概率分布。
可视化模块S44,用于可视化模型的具体决策过程,可视化方法与S24一致。提取出模型的内部参数,对每个内部节点的filter中的正系数和负系数分别按绝对值从大到小排序,既可得到影响用户信用信息权重较大的特征。若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
需要说明的是,本发明提出的技术方案各部分可以用硬件、软件、固件或它们的组合来实现。流程图中或以其他形式描述的步骤、模块和逻辑,都可以被认为是用于实现特定功能的可执行指令的集合或有序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或装备等使用。不失一般性的,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。
具体地,使用软件产品形式实现产品,先将该软件存储在一个计算机存储介质中(如上文所述),包括若干指令用以使得一个指令执行系统、一台终端设备或装置(如手机、计算机、服务器、嵌入式设备)执行本发明实施例所述方法。
若使用硬件形式实现产品,则可使用下列技术中的任一项或其组合来实现:
通用处理器,包括中央处理器(CPU)、网络处理器(NP)等;具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路;数字信号处理器(DSP)、专用集成电路(ASIC)或具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等;其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。
本文应用了具体实例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种信用评估模型的训练方法,其特征在于,它包括以下步骤:
S11,获取已有正确信用评估结果的用户在征信系统中的用户数据以及评估结果;
S12,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S13,构建m个SDT子分类器,m为正整数,另构建一个SDT权重生成器,用以生成m个SDT子分类器的权重概率分布,该模型即为WSDF;具体步骤如下:
构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
将所述预处理后的用户数据依次通过m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和;
S14,利用预处理后的用户数据对具有m+1棵软决策树的WSDF模型进行端到端的训练。
2.如权利要求1所述的训练方法,其特征在于, S14中端到端的训练具体包括:
设已拥有预处理后的用户数据集T,使用该数据集对S13的WSDF模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本申请定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
3.一种信用评估的方法,使用权利要求1-2任一权利要求所述的训练方法训练出来的WSDF信用评估模型,其特征在于,包括以下步骤:
S21,获取待信用评估的用户在征信系统中的用户数据;
S22,对收集到的用户数据中的用户数据进行预处理,转换为数值数据;
S23,使用已训练好的WSDF信用评估模型对用户的信用信息进行预测;
S24,对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程。
4.如权利要求3所述的信用评估的方法,其特征在于,所述使用已训练好的WSDF信用评估模型对用户进行预测,包括:
将所述预处理后的用户数据依次通过所述已训练好的WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
5.如权利要求3所述的信用评估的方法,其特征在于,S24中对所述WSDF信用评估模型中的参数值进行可视化,即可得到每一棵SDT的直观决策过程,包括:
提取出除叶子节点外的每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征,若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
6.一种信用评估模型的训练装置,用于训练权利要求1-2任一权利要求的WSDF信用评估模型,其特征在于,包括:
数据获取模块S31,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S32,用于对收集到的用户数据进行预处理;
模型构建与初始化模块S33,用于构建WSDF模型,并对模型参数初始化;
模型训练模块S34,该模块利用预处理后的用户数据对WSDF模型的参数进行迭代更新,训练出WSDF信用评估模型;
所述模型构建与初始化模块,包括:构建m个SDT子分类器和一个SDT权重生成器,并初始化模型参数;
所述模型训练模块,包括:设已拥有预处理后的用户数据集T,使用该数据集对模型进行训练:首先,将数据集T随机划分成S组mini-batch;在每组mini-batch上分别计算本申请定义的损失函数的函数值,使用梯度下降算法进行参数更新;计算完S组mini-batch的损失函数值后,重新划分数据集并更新参数,重复N次。
7.一种信用评估的装置,采用权利要求1-2任一权利要求所述的训练方法训练出来的WSDF信用评估模型,其特征在于,包括:
数据获取模块S41,用于获取用户在征信系统中的用户数据以及评估结果,即模型训练数据;
数据预处理模块S42,用于对收集到的用户数据进行预处理;
预测模块S43,用于对待信用评估的用户进行预测;
可视化模块S44,用于可视化信用评估模型的具体决策过程;
所述可视化模块,包括:提取出除叶子节点外每个SDT内部节点的权重值,并分别按绝对值从大到小排序,即可得到影响用户信用信息权重较大的特征,若知晓用户属性的具体含义,也可以从中归纳出具有现实意义的信用评估决策规则。
8.根据权利要求7所述的一种信用评估的装置,其特征在于,所述预测模块包括:将所述预处理后的用户数据依次通过所述WSDF信用评估模型中的m个SDT子分类器,直至每个所述用户数据分配至每个SDT子分类器的叶子节点,此时每个子分类器叶子节点上的输出为预测用户信用信息好坏的概率分布;再将所述预处理后的用户数据通过SDT权重生成器,直至每个所述用户数据分配至该SDT的叶子节点,此时权重生成器每个叶子节点上的输出为对m个SDT子分类器的权重概率分布;对用户信用信息的最终预测的概率分布则为权重生成器叶子节点上的权重概率分布与每个子分类器的叶子结点的概率分布的加权求和。
CN201811500994.8A 2018-12-10 2018-12-10 一种信用评估模型训练、评估方法与装置 Active CN109767312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811500994.8A CN109767312B (zh) 2018-12-10 2018-12-10 一种信用评估模型训练、评估方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811500994.8A CN109767312B (zh) 2018-12-10 2018-12-10 一种信用评估模型训练、评估方法与装置

Publications (2)

Publication Number Publication Date
CN109767312A CN109767312A (zh) 2019-05-17
CN109767312B true CN109767312B (zh) 2023-05-09

Family

ID=66451359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811500994.8A Active CN109767312B (zh) 2018-12-10 2018-12-10 一种信用评估模型训练、评估方法与装置

Country Status (1)

Country Link
CN (1) CN109767312B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264038A (zh) * 2019-05-22 2019-09-20 深圳壹账通智能科技有限公司 一种产品测评模型的生成方法及设备
CN110223161A (zh) * 2019-05-24 2019-09-10 东方银谷(北京)科技发展有限公司 基于特征依赖度的信用评估方法及装置
CN110264093B (zh) * 2019-06-21 2023-08-01 深圳前海微众银行股份有限公司 信用模型的建立方法、装置、设备及可读存储介质
CN110377828B (zh) * 2019-07-22 2023-05-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN111325620A (zh) * 2020-02-17 2020-06-23 北京明略软件系统有限公司 信用评价模型的生成方法、装置及信用评价方法、装置
CN111339443B (zh) * 2020-03-09 2023-04-07 腾讯科技(深圳)有限公司 用户标签确定方法、装置、计算机设备及存储介质
CN112634033A (zh) * 2021-01-04 2021-04-09 深圳前海微众银行股份有限公司 基于域分解机的模型构建方法、装置、系统及存储介质
CN113221989B (zh) * 2021-04-30 2022-09-02 浙江网商银行股份有限公司 基于分布式的评估模型训练方法、系统以及装置
CN113313578B (zh) * 2021-06-15 2024-03-08 中国银行股份有限公司 信用卡消费分期的决策方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN107945003A (zh) * 2016-12-30 2018-04-20 上海壹账通金融科技有限公司 信用评估方法及装置
WO2018157808A1 (zh) * 2017-03-01 2018-09-07 腾讯科技(深圳)有限公司 互联网征信评估方法和系统
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN108615191A (zh) * 2018-05-03 2018-10-02 湖南大学 一种信用额度智能评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301577A (zh) * 2016-04-15 2017-10-27 阿里巴巴集团控股有限公司 信用评估模型的训练方法、信用评估方法以及装置
CN107945003A (zh) * 2016-12-30 2018-04-20 上海壹账通金融科技有限公司 信用评估方法及装置
WO2018157808A1 (zh) * 2017-03-01 2018-09-07 腾讯科技(深圳)有限公司 互联网征信评估方法和系统
CN108596757A (zh) * 2018-04-23 2018-09-28 大连火眼征信管理有限公司 一种智能组合的个人信用评估方法及系统
CN108615191A (zh) * 2018-05-03 2018-10-02 湖南大学 一种信用额度智能评估方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于模糊神经网络的信息安全风险评估模型;赵冬梅 等;《计算机工程与应用》;20091231;第45卷(第17期);全文 *

Also Published As

Publication number Publication date
CN109767312A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN109767312B (zh) 一种信用评估模型训练、评估方法与装置
TWI726341B (zh) 樣本屬性評估模型訓練方法、裝置、伺服器及儲存媒體
CN111260249B (zh) 一种基于lstm和随机森林混合模型的电力通信业务可靠性评估预测方法及装置
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN112966114B (zh) 基于对称图卷积神经网络的文献分类方法和装置
Rahman et al. Discretization of continuous attributes through low frequency numerical values and attribute interdependency
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
CN111292195A (zh) 风险账户的识别方法及装置
CN113762595B (zh) 通行时间预测模型训练方法、通行时间预测方法及设备
Cao et al. Two-level attention model of representation learning for fraud detection
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
Sina Mirabdolbaghi et al. Model optimization analysis of customer churn prediction using machine learning algorithms with focus on feature reductions
Xu et al. Hybrid deep-semantic matrix factorization for tag-aware personalized recommendation
CN112069825B (zh) 面向警情笔录数据的实体关系联合抽取方法
CN116703682B (zh) 一种基于深度学习的政务数据平台
Priya Linear regression algorithm in machine learning through MATLAB
Zeng et al. Softmax pooling for super visual semantic embedding
Shankar et al. Analyzing attrition and performance of an employee using machine learning techniques
Chang et al. Automated feature engineering for fraud prediction in online credit loan services
CN109523185A (zh) 基于人工智能生成催收评分卡的方法、装置及存储介质
Patel et al. Caller behaviour classification using computational intelligence methods
Hou et al. Masked Token Enabled Pre-training: A Task-Agnostic Approach for Understanding Complex Traffic Flow
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统
Kuznietsova et al. Data Mining Methods for Evaluation and Forecasting the Mobile Internet Traffic in Roaming.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant