CN112734555A - 一种基于大数据的个人信用风险评估模型的设计方法 - Google Patents

一种基于大数据的个人信用风险评估模型的设计方法 Download PDF

Info

Publication number
CN112734555A
CN112734555A CN202011628913.XA CN202011628913A CN112734555A CN 112734555 A CN112734555 A CN 112734555A CN 202011628913 A CN202011628913 A CN 202011628913A CN 112734555 A CN112734555 A CN 112734555A
Authority
CN
China
Prior art keywords
risk
personal
person
individual
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011628913.XA
Other languages
English (en)
Inventor
陈贵龙
周金明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Inspector Intelligent Technology Co Ltd
Original Assignee
Nanjing Inspector Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Inspector Intelligent Technology Co Ltd filed Critical Nanjing Inspector Intelligent Technology Co Ltd
Priority to CN202011628913.XA priority Critical patent/CN112734555A/zh
Publication of CN112734555A publication Critical patent/CN112734555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据的个人信用风险评估模型的设计方法,该方法包括:根据业务需要设置个人可能存在的信用风险种类,定义X在当下时刻T的基础风险为K维向量,计算个人X发生某种信用风险种类
Figure DEST_PATH_IMAGE002
的可能性

Description

一种基于大数据的个人信用风险评估模型的设计方法
技术领域
本发明涉及大数据和风险评分领域研究领域,具体涉及一种基于大数据的个人信用风险评估模型的设计方法。
背景技术
个人信用风险是对个人信用的综合评估,广泛应用于信用卡办理、金融风控、个人信用评估等日常生活的方方面面,然而由于我国个人信用评估机制起步较晚、个人信用评估涉及因素及特征较多,使得个人信用风险难以准确评估。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:目前的信用风险评分主要通过专家人工设计特征、权重以及阈值,严重依赖于设计人员的专业水平和经验积累,且特征一般选取如收入、负债等数值性指标,无法利用到个人更多的信息。通过人工制定特征权重、以及不同特征在不同风险类别中的权重难以准确刻画出人-特征-风险的关系。此外,目前的信用风险评分一般仅针对个人进行评估,无法准确反映不同人之间的关系。
发明内容
为了克服现有技术的不足,本公开实施例提供了一种基于大数据的个人信用风险评估模型的设计方法,随着大数据、自然语言技术的成熟,基于自然语言处理综合利用个人的更多信息和特征,并利用人与人之间的关系以及时间演变因素设计大数据模型,使得对个人信用风险评估更加准确。技术方案如下:
提供了一种基于大数据的个人信用风险评估模型的设计方法,包括如下步骤:
步骤1,计算个人基础风险
根据业务需要设置个人可能存在的信用风险种类(L1,L2,L3,...,LK),K为设置信用风险种类的类别个数,Li为第i类信用风险,对于个人X,定义X在当下时刻T的基础风险为K维向量
K维向量=(risk1,risk2,risk3,...,riskK),0≤riski≤1
其中riski代表个人X发生信用风险种类Li风险事件的概率,
计算个人X发生某种信用风险种类Li的可能性riski,具体方法如下:采集个人X在当下时刻T的个人信息,将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(f1,f2,f3,......fN),因子向量F的维度N即构造的因子个数;通过对每个因子清洗处理后将个人信息转换为可计算的结构化数据;
通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;
对于个人X,构造其基础风险模型:
Figure BDA0002878088340000021
其中S是可设置的参数,P是N*S维矩阵,Q是S*K维矩阵,矩阵P,Q的元素是待训练的参数;F*P表示了个人X与其各个因子的关系,
获取个人X的实际信用风险数据,其实际的基础风险为(risk1,risk2,risk3,...,riskK),其中riski取值为1时表示X发生过信用风险种类Li的风险事件、取值为0时表示X未发生过信用风险种类Li的风险事件;则定义个人X的损失函数为:
Figure BDA0002878088340000022
通过采集历史的人群信用风险数据形成训练集,计算每个人的损失函数后求和作为基础风险模型的损失函数Loss;
通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型。
优选的,步骤1中个人信息的因子包括性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债等;将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(性别,年龄,学历等级,最近一年贷款金额,最近一个月贷款金额,平均月收入,家庭总负债,个人总负债,最近一个月消费总金额,最近一周消费总金额,过去一年平均每个月消费总金额,最近一周跨省市出行次数,过去一年平均每周跨省市出现次数),因子向量F的维度N即构造的因子个数。
进一步的,得到了基础风险模型后,后续对于任一新个人X′,通过信息采集、清洗得到因子、利用P、Q矩阵得到X′的基础风险,从而可以得到个人X′在时刻T各个信用风险类别发生风险时间的概率。
优选的,还包括步骤2,计算个人综合风险
采集个人X的相关人群信息,根据与个人X的亲密程度将相关人群分为A类,B类,C类:不同类别的人群对个人X的影响系数和相关度是不同的,
对于个人X以及相关人群的每个人,采集步骤1所述的f1,f2,f3,......fN因子信息,对于每个人,将采集的因子信息拼接形成一个文本文档作为个人信息文档。对信息文档进行中文分词,去除语气词、标点符号等停用词,并利用word2vec等词向量方法得到每个词的词向量,从而得到了个人信息文档的词向量矩阵,矩阵维度为分词后的词数*词向量维度;
设置参数G,对于个人X的个人信息文档,当分词后的词数>G时,则只取出现在X的个人信息文档频次最高的前G个词语,且相同频次优先选取名词、动词,从而个人信息文档的词向量矩阵大小为G*词向量维度;当分词后的次数<G时,则在词向量矩阵补齐0元素形成G*词向量维度的大小,通过处理后,使得每个人个人信息文档所形成的词向量矩阵都是相同大小;
对于所有的历史数据中的个人,得到每个人的信息文档后,统计出所有的词语作为词袋集合W=(词语1,词语2,词语3,...);对于个人X,构建全局信息向量VX=(V1,V2,V3,V4......),其中Vi,代表个人X的信息文档中出现词袋集合W中词语i的次数,
对向量V进行降维,对于个人X及其全局信息向量VX,记其降维后的向量为
Figure BDA0002878088340000031
H是降维后的维度,其中
Figure BDA0002878088340000032
即降维后向量
Figure BDA0002878088340000033
的每个元素都是降维前向量V的所有元素线性组合,
Figure BDA0002878088340000034
是待训练参数,统计得到历史训练数据中每个人的全局信息向量,计算任意两个人X,Y全局信息向量VX,VY的欧式距离d(X,Y),同样计算得到X,Y降维后向量
Figure BDA0002878088340000035
的欧式距离
Figure BDA0002878088340000036
对d(X,Y)与
Figure BDA0002878088340000037
分别做归一化处理,
训练目标为降维前后d(X,Y)与
Figure BDA0002878088340000038
尽可能保持一致,故以
Figure BDA0002878088340000039
Figure BDA00028780883400000310
作为目标函数,通过梯度下降法训练得到参数
Figure BDA00028780883400000311
取H为个人信息文档中的词向量维度,则X降维后全局信息向量
Figure BDA00028780883400000312
的维度与X个人信息文档所形成的矩阵的列数相同,在X个人信息文档所形成的矩阵添加第G+1行
Figure BDA00028780883400000313
形成新的矩阵,记作个人快照。
对于给定的一串时间序列(T1,T2,...,TN),在起始点T1时刻,计算得到个人X以及其相关人群每个人的个人快照,利用步骤1计算得到个人X以及其相关人群每个人的基础风险;通过X的个人快照与相关人群中的个人Y的个人快照进行矩阵点乘运算计算得到X与Y的相似度M(X,Y,T1),相似度越高说明X与相关人群的信息文档背景信息越相似,从而说明两人的信用风险情况也高度相似;从而计算得到相关人群对个人X在T1时刻的影响为:
T1时刻相关人群风险
Figure BDA0002878088340000041
结合个人X自身在T1时刻的基础风险,得到T1时刻个人X的综合风险。
优选的,步骤2中对d(X,Y)与
Figure BDA0002878088340000042
分别做归一化处理,具体为,计算两个人降维前欧式距离总和后,对d(X,Y)做归一化处理,用d(X,Y)除以距离总和并利用sigmoid变换后使得d(X,Y)转换为[0,1]间的数值,同样的方法在降维后空间上对
Figure BDA0002878088340000043
做归一化处理;
优选的,综合风险为:α(T1)*T1时刻个人X基础风险+β(T1)*T1时刻相关人群风险,综合风险与基础风险维度相同为K维向量,每个维度元素分别代表个人X发生该类信用风险的风险事件的概率。
进一步的,在T2时刻,通过计算T2时刻相关人群风险、T2时刻个人X的基础风险,考虑上一时刻T1个人X的综合风险也会对当前产生影响,T2时刻个人X的综合风险为:α(T2)*T2时刻个人X基础风险+β(T2)*T2时刻相关人群风险+γ(T1)*T1时刻个人X综合风险。
进一步的,在TN时刻,计算TN时刻相关人群风险、TN时刻个人X的基础风险、上一时刻TN-1个人X的综合风险,得到TN时刻个人X的综合风险为:α(TN)*TN时刻个人X基础风险+β(TN)*TN时刻相关人群风险+γ(TN-1)*TN-1时刻个人X综合风险。
评估模型的参数包括了βA(X,T1)~βA(X,TN),α(T1)~α(TN),β(T1)~β(TN),γ(T1)~γ(TN-1),通过历史信用风险数据训练模型参数得到模型。
优选的,还包括步骤3,评估个人综合风险
通过步骤2计算得到个人的综合风险后,对任一个人X及时刻T,通过X在时刻T的综合风险(r1,r2,...,rN),对于信用风险种类Li,若ri超过给定阈值,则说明个人X存在Li类信用风险事件较大的可能性。
与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:与现有技术相比,本发明方法具有如下有益效果:通过采集个人的多维度信息,清洗后计算得到个人的结构化因子;通过对因子进行矩阵运算组合利用各个因子,并利用历史数据训练计算得到个人的基础风险模型;通过个人的相关人员、时间因素设计的模型计算得到个人的综合风险;通过对相关人员分类减少模型所要训练的参数;通过综合风险得到个人在各个信用风险种类发生风险事件的概率。通过综合采集个人的各个维度信息形成因子,训练得到风险模型,无需依赖人工设计权重,并能自动组合各个信息形成更有用、人工难以直接设计的特征。通过个人快照反映了人与人之间的相关度。通过考虑相关人群,可以综合利用周围人的信用风险,更早的识别出风险团体,通过对相关人群进行分类减少模型所要训练的参数。通过考虑个人过去的风险,使得对个人的评估更加准确,更能刻画出时间演变的趋势。此外,本方法通过对适用度高,可广泛应用于金融、公安等领域。
附图说明
图1为本公开实施例提供的一种综合风险模型示意图。
具体实施方式
为了阐明本发明的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
本申请的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里描述的那些以外的顺序实施。
本公开实施例提供了一种基于大数据的个人信用风险评估模型的设计方法:
附图1为本公开实施例提供的一种综合风险模型示意图,结合该图,主要包括以下步骤:
步骤1,计算个人基础风险
根据业务需要设置个人可能存在的信用风险种类(L1,L2,L3,...,LK),K为设置信用风险种类的类别个数,Li为第i类信用风险,例如可以将个人信用风险种类设置为“正常还款”、“逾期还款”、“卷款跑路”;对于个人X,定义X在当下时刻T的基础风险为K维向量
K维向量=(risk1,risk2,risk3,...,riskK),0≤riski≤1
其中riski代表个人X发生信用风险种类Li风险事件的概率,通过基础风险可以刻画出个人在各个发生信用风险种类的可能性。
计算个人X发生某种信用风险种类Li的可能性riski可以通过历史发生信用风险种类Li的次数计算算术平均值作为概率,但此种方法基于的统计学依据是大数定律,而考虑到实际情况,发生信用风险的个人数量有限,这其中各个类别信用风险事件的样本会更小,从而需要在发生信用风险样本较小的情况下计算个人X的基础风险。
计算个人X发生某种信用风险种类Li的可能性riski,具体方法如下:采集个人X在当下时刻T的个人信息,将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(f1,f2,f3,......fN),因子向量F的维度N即构造的因子个数;通过对每个因子清洗处理后将个人信息转换为可计算的结构化数据;
优选的,个人信息的因子包括性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债等;这里通过采集出行记录从而可以提前感知出潜在的跑路风险,采集消费记录、收入、借贷记录等可以感知出其潜在的违约风险。将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(性别,年龄,学历等级,最近一年贷款金额,最近一个月贷款金额,平均月收入,家庭总负债,个人总负债,最近一个月消费总金额,最近一周消费总金额,过去一年平均每个月消费总金额,最近一周跨省市出行次数,过去一年平均每周跨省市出现次数),因子向量F的维度N即构造的因子个数。其中,性别可以用0表示男,1表示女,学历用1表示博士,2表示本科,3表示其他,其他类别数据均可做同样处理,通过对每个因子清洗处理后将个人信息转换为可计算的结构化数据;
通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;
对于个人X,构造其基础风险模型:
Figure BDA0002878088340000071
其中S是可设置的参数,P是N*S维矩阵,Q是S*K维矩阵,矩阵P,Q的元素是待训练的参数;F*P表示了个人X与其各个因子的关系,通过F*P矩阵运算后,个人X的因子被构造为新的特征(F*P1,F*P2,...,F*PS),P1,P2,...PS分别为矩阵的第1,2,...,S列,事实上F*Pi就是个人X因子的线性组合,最后通过乘以矩阵Q将新的特征进一步计算得到1*K维的向量,表示各个信用风险类别的可能性,通过softmax运算表示为发生K个信用风险类别各风险的概率;
获取个人X的实际信用风险数据,其实际的基础风险为(risk1,risk2,risk3,...,riskK),其中riski取值为1时表示X发生过信用风险种类Li的风险事件、取值为0时表示X未发生过信用风险种类Li的风险事件;则定义个人X的损失函数为:
Figure BDA0002878088340000072
通过采集历史的人群信用风险数据形成训练集,计算每个人的损失函数后求和作为基础风险模型的损失函数Loss;
通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型;
进一步的,后续对于任一新个人X′,通过信息采集、清洗得到因子、利用P、Q矩阵得到X′的基础风险,从而可以得到个人X′在时刻T各个信用风险类别发生风险时间的概率。
此模型自动训练得到参数,使得无需人工设计不同因子的权重,且通过因子F与矩阵P相乘,本质上是对因子进行了各种线性组合,即自动设计出了因子组合形成人工难以设计的新特征。
通过步骤1计算个人在时刻T的基础风险,但实际上个人的信用风险涉及因素较大,当下的各方面个人信息难以完全准确评估其信用风险。例如,家庭其他成员的信用风险情况、个人过去的信用风险情况都会对其信用风险产生影响。
优选的,还包括步骤2,计算个人综合风险
采集个人X的相关人群信息,根据与个人X的亲密程度将相关人群分为A类,B类,C类:A类为家人、亲戚、好朋友等,B类为工作上有所交流的人群、C类为普通仅存在相识关系的人群。不同类别的人群对个人X的影响系数和相关度是不同的,事实上每个相关人对X的影响系数都不同,但是若对每个人赋予不同的系数,则相关人数越多,模型参数就会越多,容易使得模型过于复杂,所以通过将相关人群分为三类,每个类别内的人对个人X的影响系数为相同参数,则可以大大减少参数同时也能反映出不同亲密关系的人对个人X的信用风险影响程度。
对于个人X以及相关人群的每个人,采集步骤1所述的f1,f2,f3,......fN因子信息,(比如采集个人X的性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债信息);对于每个人,将采集的因子信息拼接形成一个文本文档作为个人信息文档。对信息文档进行中文分词,去除语气词、标点符号等停用词,并利用word2vec等词向量方法得到每个词的词向量,从而得到了个人信息文档的词向量矩阵,矩阵维度为分词后的词数*词向量维度;
设置参数G,对于个人X的个人信息文档,当分词后的词数>G时,则只取出现在X的个人信息文档频次最高的前G个词语,且相同频次优先选取名词、动词,从而个人信息文档的词向量矩阵大小为G*词向量维度;当分词后的次数<G时,则在词向量矩阵补齐0元素形成G*词向量维度的大小,通过处理后,使得每个人个人信息文档所形成的词向量矩阵都是相同大小;事实上对于不同人以及同一人的不同时刻,个人信息文档所形成的矩阵也是不相同的。
个人信息文档所形成的矩阵反映了自身的重要信息,还需要进一步地刻画个人与整体群体信息的关系。具体的,对于所有的历史数据中的个人,得到每个人的信息文档后,统计出所有的词语作为词袋集合W=(词语1,词语2,词语3,...);通常来说,随着训练集的增加,词袋集合也会越来越大,词袋集合的词语越来越多。对于个人X,构建全局信息向量VX=(V1,V2,V3,V4......),其中Vi,代表个人X的信息文档中出现词袋集合W中词语i的次数,可以看出,当词袋集合扩充时,V的维度也会随之越来越大,从而使得存储和计算难度都变大,故需要对向量V进行降维。
对向量V进行降维,对于个人X及其全局信息向量VX,记其降维后的向量为
Figure BDA0002878088340000091
H是降维后的维度,其中
Figure BDA0002878088340000092
即降维后向量
Figure BDA0002878088340000093
的每个元素都是降维前向量V的所有元素线性组合,
Figure BDA0002878088340000094
是待训练参数,统计得到历史训练数据中每个人的全局信息向量,计算任意两个人X,Y全局信息向量VX,VY的欧式距离d(X,Y),同样计算得到X,Y降维后向量
Figure BDA0002878088340000095
的欧式距离
Figure BDA0002878088340000096
在降维后达到的效果是原有的人与人之间的关系能够得到保留,即降维前距离接近的向量在降维后仍然距离接近,而降维前距离较远的向量在降维后仍然距离较远,所以是以d(X,Y)与
Figure BDA0002878088340000097
尽量接近作为训练参数
Figure BDA0002878088340000098
的目标,考虑到d(X,Y)与
Figure BDA0002878088340000099
的量级不同,对d(X,Y)与
Figure BDA00028780883400000910
分别做归一化处理,
优选的,对d(X,Y)与
Figure BDA00028780883400000911
分别做归一化处理,具体为,计算两个人降维前欧式距离总和后,对d(X,Y)做归一化处理,用d(X,Y)除以距离总和并利用sigmoid变换后使得d(X,Y)转换为[0,1]间的数值,同样的方法在降维后空间上对
Figure BDA00028780883400000912
做归一化处理;以下d(X,Y)与
Figure BDA00028780883400000913
均默认指归一化处理后的距离。
训练目标为降维前后d(X,Y)与
Figure BDA00028780883400000914
尽可能保持一致,故以
Figure BDA00028780883400000915
Figure BDA00028780883400000916
作为目标函数,通过梯度下降法训练得到参数
Figure BDA00028780883400000917
取H为个人信息文档中的词向量维度,则X降维后全局信息向量
Figure BDA00028780883400000918
的维度与X个人信息文档所形成的矩阵的列数相同,在X个人信息文档所形成的矩阵添加第G+1行
Figure BDA00028780883400000919
形成新的矩阵,记作个人快照。个人快照的前G行反映了自身的信息,最后一行反映了自身与全体群体的关系。
对于给定的一串时间序列(T1,T2,...,TN),在起始点T1时刻,计算得到个人X以及其相关人群每个人的个人快照,利用步骤1计算得到个人X以及其相关人群每个人的基础风险;通过X的个人快照与相关人群中的个人Y的个人快照进行矩阵点乘运算计算得到X与Y的相似度M(X,Y,T1),相似度越高说明X与相关人群的信息文档背景信息越相似,从而说明两人的信用风险情况也高度相似;从而计算得到相关人群对个人X在T1时刻的影响为:
T1时刻相关人群风险
Figure BDA0002878088340000101
结合个人X自身在T1时刻的基础风险,得到T1时刻个人X的综合风险。
优选的,综合风险为:α(T1)*T1时刻个人X基础风险+β(T1)*T1时刻相关人群风险,综合风险与基础风险维度相同为K维向量,每个维度元素分别代表个人X发生该类信用风险的风险事件的概率。
进一步的,在T2时刻,通过计算T2时刻相关人群风险、T2时刻个人X的基础风险,考虑上一时刻T1个人X的综合风险也会对当前产生影响,T2时刻个人X的综合风险为:α(T2)*T2时刻个人X基础风险+β(T2)*T2时刻相关人群风险+γ(T1)*T1时刻个人X综合风险。
进一步的,在TN时刻,计算TN时刻相关人群风险、TN时刻个人X的基础风险、上一时刻TN-1个人X的综合风险,得到TN时刻个人X的综合风险为:α(TN)*TN时刻个人X基础风险+β(TN)*TN时刻相关人群风险+γ(TN-1)*TN-1时刻个人X综合风险。
优选的,该评估模型的参数包括了βA(X,T1)~βA(X,TN),α(T1)~α(TN),β(T1)~β(TN),γ(T1)~γ(TN-1),通过历史信用风险数据训练模型参数得到模型。
优选的,还包括步骤3,评估个人综合风险
通过步骤2计算得到个人的综合风险后,对任一个人X及时刻T,通过X在时刻T的综合风险(r1,r2,...,rN),对于信用风险种类Li,若ri超过给定阈值,则说明个人X存在Li类信用风险事件较大的可能性。
以上结合附图对本发明进行了示例性描述,显然,本发明具体实现并不受上述方式的限制,凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进;或者未经改进、等同替换,将本发明的上述构思和技术方案直接应用于其他场合的,均在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,包括如下步骤:
步骤1,计算个人基础风险
根据业务需要设置个人可能存在的信用风险种类(L1,L2,L3,…,LK),K为设置信用风险种类的类别个数,Li为第i类信用风险,对于个人X,定义X在当下时刻T的基础风险为K维向量
K维向量=(risk1,risk2,risk3,…,riskK),0≤riski≤1
其中riski代表个人X发生信用风险种类Li风险事件的概率,
计算个人X发生某种信用风险种类Li的可能性riski,具体方法如下:采集个人X在当下时刻T的个人信息,将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(f1,f2,f3,……fN),因子向量F的维度N即构造的因子个数;通过对每个因子清洗处理后将个人信息转换为可计算的结构化数据;
通过不同的因子与不同的信用风险类别的关联,以及个人与其因子的关联,从而通过因子作为中间的隐含层计算得到个人与不同信用风险的相关程度;
对于个人X,构造其基础风险模型:
Figure FDA0002878088330000011
其中S是可设置的参数,P是N*S维矩阵,Q是S*K维矩阵,矩阵P,Q的元素是待训练的参数;F*P表示了个人X与其各个因子的关系,
获取个人X的实际信用风险数据,其实际的基础风险为(risk1,risk2,risk3,…,riskK),其中riski取值为1时表示X发生过信用风险种类Li的风险事件、取值为0时表示X未发生过信用风险种类Li的风险事件;则定义个人X的损失函数为:
Figure FDA0002878088330000012
通过采集历史的人群信用风险数据形成训练集,计算每个人的损失函数后求和作为基础风险模型的损失函数Loss;
通过梯度下降法计算得到P,Q矩阵,从而得到了基础风险模型。
2.根据权利要求1所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,步骤1中个人信息的因子包括性别、年龄、学历、借款记录、贷款记录、出行记录、消费记录、收入、负债等;将X的个人信息经过清洗处理成个人X在当下时刻T的因子向量F=(性别,年龄,学历等级,最近一年贷款金额,最近一个月贷款金额,平均月收入,家庭总负债,个人总负债,最近一个月消费总金额,最近一周消费总金额,过去一年平均每个月消费总金额,最近一周跨省市出行次数,过去一年平均每周跨省市出现次数),因子向量F的维度N即构造的因子个数。
3.根据权利要求1所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,得到了基础风险模型后,后续对于任一新个人X′,通过信息采集、清洗得到因子、利用P、Q矩阵得到X′的基础风险,从而可以得到个人X′在时刻T各个信用风险类别发生风险时间的概率。
4.根据权利要求1-3任一项所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,还包括步骤2,计算个人综合风险
采集个人X的相关人群信息,根据与个人X的亲密程度将相关人群分为A类,B类,C类:不同类别的人群对个人X的影响系数和相关度是不同的,
对于个人X以及相关人群的每个人,采集步骤1所述的f1,f2,f3,……fN因子信息,对于每个人,将采集的因子信息拼接形成一个文本文档作为个人信息文档;对信息文档进行中文分词,去除语气词、标点符号等停用词,并利用word2vec等词向量方法得到每个词的词向量,从而得到了个人信息文档的词向量矩阵,矩阵维度为分词后的词数*词向量维度;
设置参数G,对于个人X的个人信息文档,当分词后的词数>G时,则只取出现在X的个人信息文档频次最高的前G个词语,且相同频次优先选取名词、动词,从而个人信息文档的词向量矩阵大小为G*词向量维度;当分词后的次数<G时,则在词向量矩阵补齐0元素形成G*词向量维度的大小,通过处理后,使得每个人个人信息文档所形成的词向量矩阵都是相同大小;
对于所有的历史数据中的个人,得到每个人的信息文档后,统计出所有的词语作为词袋集合W=(词语1,词语2,词语3,…);对于个人X,构建全局信息向量VX=(V1,V2,V3,V4……),其中Vi,代表个人X的信息文档中出现词袋集合W中词语i的次数,
对向量V进行降维,对于个人X及其全局信息向量VX,记其降维后的向量为
Figure FDA0002878088330000031
H是降维后的维度,其中
Figure FDA0002878088330000032
即降维后向量
Figure FDA0002878088330000033
的每个元素都是降维前向量V的所有元素线性组合,
Figure FDA0002878088330000034
是待训练参数,统计得到历史训练数据中每个人的全局信息向量,计算任意两个人X,Y全局信息向量VX,VY的欧式距离d(X,Y),同样计算得到X,Y降维后向量
Figure FDA0002878088330000035
的欧式距离
Figure FDA0002878088330000036
对d(X,Y)与
Figure FDA0002878088330000037
分别做归一化处理,
训练目标为降维前后d(X,Y)与
Figure FDA0002878088330000038
尽可能保持一致,故以
Figure FDA0002878088330000039
Figure FDA00028780883300000310
作为目标函数,通过梯度下降法训练得到参数
Figure FDA00028780883300000311
取H为个人信息文档中的词向量维度,则X降维后全局信息向量
Figure FDA00028780883300000312
的维度与X个人信息文档所形成的矩阵的列数相同,在X个人信息文档所形成的矩阵添加第G+1行
Figure FDA00028780883300000313
形成新的矩阵,记作个人快照;
对于给定的一串时间序列(T1,T2,…,TN),在起始点T1时刻,计算得到个人X以及其相关人群每个人的个人快照,利用步骤1计算得到个人X以及其相关人群每个人的基础风险;通过X的个人快照与相关人群中的个人Y的个人快照进行矩阵点乘运算计算得到X与Y的相似度M(X,Y,T1),相似度越高说明X与相关人群的信息文档背景信息越相似,从而说明两人的信用风险情况也高度相似;从而计算得到相关人群对个人X在T1时刻的影响为:
Figure FDA00028780883300000314
结合个人X自身在T1时刻的基础风险,得到T1时刻个人X的综合风险。
5.根据权利要求4所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,对d(X,Y)与
Figure FDA00028780883300000315
分别做归一化处理,具体为,计算两个人降维前欧式距离总和后,对d(X,Y)做归一化处理,用d(X,Y)除以距离总和并利用sigmoid变换后使得d(X,Y)转换为[0,1]间的数值,同样的方法在降维后空间上对
Figure FDA0002878088330000041
做归一化处理。
6.根据权利要求4所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,综合风险为:α(T1)*T1时刻个人X基础风险+β(T1)*T1时刻相关人群风险,综合风险与基础风险维度相同为K维向量,每个维度元素分别代表个人X发生该类信用风险的风险事件的概率。
7.根据权利要求6所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,在T2时刻,通过计算T2时刻相关人群风险、T2时刻个人X的基础风险,考虑上一时刻T1个人X的综合风险也会对当前产生影响,T2时刻个人X的综合风险为:α(T2)*T2时刻个人X基础风险+β(T2)*T2时刻相关人群风险+γ(T1)*T1时刻个人X综合风险。
8.根据权利要求7所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,在TN时刻,计算TN时刻相关人群风险、TN时刻个人X的基础风险、上一时刻TN-1个人X的综合风险,得到TN时刻个人X的综合风险为:α(TN)*TN时刻个人X基础风险+β(TN)*TN时刻相关人群风险+γ(TN-1)*TN-1时刻个人X综合风险。
9.根据权利要求8所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,评估模型的参数包括了βA(X,T1)~βA(X,TN),α(T1)~α(TN),β(T1)~β(TN),γ(T1)~γ(TN-1),通过历史信用风险数据训练模型参数得到模型。
10.根据权利要求4-9任一项所述的一种基于大数据的个人信用风险评估模型的设计方法,其特征在于,还包括步骤3,评估个人综合风险
通过步骤2计算得到个人的综合风险后,对任一个人X及时刻T,通过X在时刻T的综合风险(r1,r2,…,rN),对于信用风险种类Li,若ri超过给定阈值,则说明个人X存在Li类信用风险事件较大的可能性。
CN202011628913.XA 2020-12-31 2020-12-31 一种基于大数据的个人信用风险评估模型的设计方法 Pending CN112734555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011628913.XA CN112734555A (zh) 2020-12-31 2020-12-31 一种基于大数据的个人信用风险评估模型的设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011628913.XA CN112734555A (zh) 2020-12-31 2020-12-31 一种基于大数据的个人信用风险评估模型的设计方法

Publications (1)

Publication Number Publication Date
CN112734555A true CN112734555A (zh) 2021-04-30

Family

ID=75608165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011628913.XA Pending CN112734555A (zh) 2020-12-31 2020-12-31 一种基于大数据的个人信用风险评估模型的设计方法

Country Status (1)

Country Link
CN (1) CN112734555A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262013A1 (en) * 2001-10-16 2005-11-24 Guthner Mark W System and method for analyzing risk and profitability of non-recourse loans
CN106779755A (zh) * 2016-12-31 2017-05-31 湖南文沥征信数据服务有限公司 一种网络电商借贷风险评估方法及模型
CN107292424A (zh) * 2017-06-01 2017-10-24 四川新网银行股份有限公司 一种基于复杂社交网络的反欺诈和信用风险预测方法
CN108898308A (zh) * 2018-06-27 2018-11-27 中国建设银行股份有限公司 风险评估方法、装置、服务器及可读存储介质
CN110322342A (zh) * 2019-06-27 2019-10-11 上海上湖信息技术有限公司 借贷风险预测模型的构建方法、系统及借贷风险预测方法
KR102009310B1 (ko) * 2018-10-15 2019-10-21 주식회사 에이젠글로벌 이상행위 요인 분석 시스템 및 분석 방법
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
CN113919704A (zh) * 2021-10-14 2022-01-11 南京视察者智能科技有限公司 一种基于大数据的人员风险防控方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050262013A1 (en) * 2001-10-16 2005-11-24 Guthner Mark W System and method for analyzing risk and profitability of non-recourse loans
CN106779755A (zh) * 2016-12-31 2017-05-31 湖南文沥征信数据服务有限公司 一种网络电商借贷风险评估方法及模型
CN107292424A (zh) * 2017-06-01 2017-10-24 四川新网银行股份有限公司 一种基于复杂社交网络的反欺诈和信用风险预测方法
CN108898308A (zh) * 2018-06-27 2018-11-27 中国建设银行股份有限公司 风险评估方法、装置、服务器及可读存储介质
KR102009310B1 (ko) * 2018-10-15 2019-10-21 주식회사 에이젠글로벌 이상행위 요인 분석 시스템 및 분석 방법
CN110322342A (zh) * 2019-06-27 2019-10-11 上海上湖信息技术有限公司 借贷风险预测模型的构建方法、系统及借贷风险预测方法
CN110807700A (zh) * 2019-11-05 2020-02-18 浪潮卓数大数据产业发展有限公司 一种基于政府数据的无监督融合模型个人信用评分方法
CN113919704A (zh) * 2021-10-14 2022-01-11 南京视察者智能科技有限公司 一种基于大数据的人员风险防控方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曲秋实;李莉;: "基于logit模型的商业银行个人信用风险评估", 商业经济, no. 12, pages 76 - 77 *

Similar Documents

Publication Publication Date Title
CN111652710B (zh) 一种基于集成树特征提取和Logistic回归的个人信用风险评估方法
CN109509033B (zh) 一种消费金融场景下的用户购买行为大数据预测方法
Boskin Social security and retirement decisions
US20060100957A1 (en) Electronic data processing system and method of using an electronic data processing system for automatically determining a risk indicator value
US20050125434A1 (en) System and method for scalable cost-sensitive learning
AU2018101523A4 (en) A personal credit scoring model based on machine learning method
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
Loisel et al. Applying economic measures to lapse risk management with machine learning approaches
CN115205011A (zh) 基于lsf-fc算法的银行用户画像模型生成方法
Gerritsen Accuracy rate of bankruptcy prediction models for the Dutch professional football industry
CN116503872B (zh) 一种基于机器学习的授信客户挖掘方法
Siarka VINTAGE ANALYSIS AS A BASIC TOOL FOR MONITORING CREDIT RISK.
CN111639792B (zh) 基于人工智能对银行atm智能加钞的方法
CN112734555A (zh) 一种基于大数据的个人信用风险评估模型的设计方法
CN113421154B (zh) 基于控制图的信贷风险评估方法及系统
CN114626940A (zh) 数据分析方法、装置及电子设备
CN113254775A (zh) 一种基于客户浏览行为序列的信用卡产品推荐方法
Setnes et al. Fuzzy target selection in direct marketing
CN113822751A (zh) 一种线上贷款的风险预测方法
Van Leeuwen et al. To Work Oneself out of Poverty: The Dutch Experience 1989–96
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
Makatjane Deep learning for sentiment analysis to predict the probability of bank loan default
Putra et al. Comparison of K-Nearest Neighbor, Naive Bayes Classifier, Decision Tree, and Logistic Regression in Classification of Non-Performing Financing
CN117291603B (zh) 一种大数据比对应收账款确权的风险评估系统
Shen et al. Investment time series prediction using a hybrid model based on RBMs and pattern clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination