CN111382930B - 一种面向时序数据的风险预测方法及系统 - Google Patents

一种面向时序数据的风险预测方法及系统 Download PDF

Info

Publication number
CN111382930B
CN111382930B CN202010125879.8A CN202010125879A CN111382930B CN 111382930 B CN111382930 B CN 111382930B CN 202010125879 A CN202010125879 A CN 202010125879A CN 111382930 B CN111382930 B CN 111382930B
Authority
CN
China
Prior art keywords
vector
event
risk
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010125879.8A
Other languages
English (en)
Other versions
CN111382930A (zh
Inventor
钱步月
潘迎港
刘洋
陈航
卫荣
李晓亮
李扬
张先礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202010125879.8A priority Critical patent/CN111382930B/zh
Publication of CN111382930A publication Critical patent/CN111382930A/zh
Application granted granted Critical
Publication of CN111382930B publication Critical patent/CN111382930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向时序数据的风险预测方法及系统,包括:获取样本集合中每个风险事件的时间信息和内容信息;将事件信息通过词嵌入技术转换为等维度高维向量;用风险事件向量对预设的预测模型进行训练,获得训练后的风险预测网络模型;用获得的风险预测网络模型处理待预测的风险事件,输出风险事件的风险水平和影响水平的因素所占比重。本发明通过注意力机制和深度网络,可以在保证模型高精确度的前提下,并行训练网络而且可对预测结果进行分析,可解释性强,具有说服力。

Description

一种面向时序数据的风险预测方法及系统
技术领域
本发明属于数据处理和机器学习技术领域,特别涉及一种面向时序数据的风险预测方法及系统。
背景技术
在过去的十年中,诸如个人信用消费记录、医疗临床数据、信息系统安全数据的快速积累和传播,为风险事件预测提供了可能性。利用传统的机器学习方法来处理这些时序性、异质性和高维性的数据,会给算法带来极大的困难和挑战。
现有的循环神经网络模型虽然可以处理海量的数据并且获得较为满意的效果,但是其仍然存在较大问题。首先,循环神经网络模型不能处理长时序数据,其性能会随着时序数据的增加而快速下降;而且,循环神经网络模型因为本身结构的原因不能并行训练网络模型,模型训练耗费大量时间;最后,循环神经网络模型最终只能输出风险事件的预测结果,并不能对预测结果进行详细且有效的解释,降低了模型的说服力。
综上,亟需一种新的面向时序数据的可解释可并行的风险预测方法及系统。
发明内容
本发明的目的在于提供一种面向时序数据的风险预测方法及系统,进而至少在一定程度上克服由于上述相关技术的限制和缺陷而导致的一个或多个技术问题。
为达到上述目的,本发明采用以下技术方案:
本发明的一种面向时序数据的风险预测方法,包括以下步骤:
步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;
步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;
步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;
步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;
步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;
步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;
步骤7,计算整个风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;
步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;
步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重。
本发明的进一步改进在于,步骤1中,提取风险事件样本集合中的事件实体时,同一事件实体只提取一次;提取获得的事件实体包含一个或多个子事件信息。
本发明的进一步改进在于,步骤2中,词嵌入操作采用基于预测的跳字模型;其中,映射获得的等维度的向量的维度大于等于50且小于等于100。
本发明的进一步改进在于,步骤4中,预设的自注意力子网络模型包括:
MatMul层,用于计算两个输入向量的相似度;
Scale层,用于正则化MatMul层输出的相似度;
Mask层,用于将Scale层输出的相似度变长向量固定为定长向量;
其中,MatMul层的输出作为Scale层的输入,Scale层的输出作为Mask层输入。
本发明的进一步改进在于,步骤4中,初始化的自注意力子网络模型的权重参数包括W(Q)、W(K)、W(V),用于和步骤3获得的词向量h进行点乘操作,生成自注意力子网络模型的输入向量;其中,词向量h与权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度向量;然后,进入Scale层,对相似度进行正则化操作;然后,在Mask层对正则化后的相似度向量进行对齐操作,将变长的正则化后的相似度向量统一为固定长度,得到向量A;最后,再经过一次MatMul层,A向量与V向量进行点乘操作,输出更新后的词向量h’。
本发明的进一步改进在于,步骤5中,预定义好的基于位置的注意力子网络模型包括:
线性计算,用于将子事件之间的位置信息加入子事件表征向量;
softmax函数,用于把线性计算操作输出的子事件表征向量中的元素映射到0~1之间;
加权平均操作,用于综合各风险子事件的特征αi生成风险事件的表征向量c。
本发明的进一步改进在于,步骤5中,首先,对词向量h’进行线性计算,获得含有位置信息的向量g,表达式为:
Figure BDA0002394366350000031
式中,
Figure BDA0002394366350000032
和bα为风险事件预测模型需要训练的权重参数项和偏置项;
然后,对向量集g={g1,g2 … gn}进行softmax操作,获得向量集α={α12 …αn},表达式为:
α12…αn=softmax(g1,g2 … gn),
式中,α={α12 … αn}代表各子风险事件的表征向量,g={g1,g2 … gn}代表含有位置信息的词向量;
再后,将向量集α和词向量h’进行加权求和,获得风险事件的表征向量c,表达式为:
Figure BDA0002394366350000041
式中,αi代表各风险子事件的表征向量,h′i代表词向量,c代表风险事件的表征向量。
本发明的进一步改进在于,步骤6中,所述线性分类器包括:
全连接层,用于实现输入数据的全连接操作;
softmax层,用于输出预测分类概率;其中,全连接层的输出作为softmax层的输入。
本发明的进一步改进在于,步骤7中,风险事件预测模型的损失函数采用交叉熵损失函数L,计算表达式为:
Figure BDA0002394366350000042
式中,L为网络损失,y为风险事件真实概率,
Figure BDA0002394366350000043
为网络预测的事件概率。
本发明的一种面向时序数据的风险预测系统,包括:
样本处理模块,用于获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射采用词嵌入操作;时间-事件二元组实体向量包括时间向量e和事件向量v;
风险预测网络模型模块,包括:预设的自注意力子网络模型、预定义好的基于位置的注意力子网络模型和线性分类器;用于将获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;用于将词向量h输入到预设的self-attention子网络模型进行计算处理,获得更新后的词向量h’;用于将获得的更新后的词向量h’输入到预定义好的positive-level attention子网络模型进行计算,获得风险事件的表征向量c;用于将获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;用于计算整个风险事件预测模型的损失,反向传播更新网络的参数权重,获得再次训练后的网络模型;重复训练,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;
输入输出模块,用于将待预测的风险事件输入训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响事件结果的因素所占的比重。
与现有技术相比,本发明具有以下有益效果:
本发明中,提出了一种基于注意力机制和深度学习的网络模型,模型可并行训练网络,能够对预测结果进行详细且有效的分析解释。本发明的方法,能够处理海量时序数据,自注意力模块可直接捕捉到全局的联系,解决了循环神经网络因时序数据过长导致性能下降迅速的长距离依赖问题。本发明处理的对象是通用时序数据,可以非常容易地应用于各种类型的风险预测和解释分析任务,比如信用风险评价、医疗辅助诊断和系统安全分析等等,有很大的应用市场。本发明基于注意力机制,模型本身的简洁性和可并行性,相较于循环神经网络,网络模型的训练效率有了飞跃性的提高,为模型的应用落地提供了极大的便利。本发明可展示一种可感知的、灵活的可视化方法来解释预测结果;通过风险事件各因素对结果的影响比重,用户可以针对性得进行分析和调整。
本发明采用词嵌入方式,将数据集中的二元组数据映射为等维度的高维向量,构成与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,词嵌入的思想来自自然语言处理,指将单词映射到同一个高维空间,假设在该空间中,词向量的距离可以近似表示单词之间的相似度。通常认为,在相通句子之中经常共同出现的单词间语义更加接近,于是可以用深度学习方法学习这种词向量表示。使得在同一个句子中所有单词词向量更接近,不经常共同出现的单词间词向量距离更远。不断优化这一损失函数,多次迭代,可以学习到较好的词向量表示。这一方法在自然语言处理中已经得到多次证实,已经成为常用方法。本发明中将这一方法引入风险事件实体,将每一个时间-事件二元组实体向量映射为长度为k的二元组向量<ei,vi>,构成实体向量集合Z,Z={<e1,v1>,<e2,v2>,…,<en,vn>},ei∈Rk;通常将k设置为50~100之间比较合适,当小于50时,维度太低,无法完整表示向量间相似关系,当大于100时,维度太高,又需要更多数据进行训练,如果数据量不够时,往往训练不够充分,会影响最终结果。
本发明中,由于时序数据非常重要的一个特征就是其时序性,每个事件的发生均有先后顺序,这是风险预测过程中非常重要的特征。因此通过将时间向量和事件向量进行加和,使得词向量具有时序性信息,对于网络模型后续的预测是很有帮助的。
本发明中,构建self-attention子网络模型,获得更新后的词向量。由于随着时序数据长度的增加,处理的模型性能会快速下降,会遗忘历史很久的数据。而self-attention子网络模型可以直接捕捉到全局的联系,解决了长距离依赖的问题。例如,对于一个具有复杂借贷款消费记录的目标对象,其信息记录跨度非常大,但self-attention子网络可以捕捉输入的信息记录的全局联系,做到既可以考虑“当下”,又考虑“过去”。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种面向时序数据的风险预测方法中,风险事件预测模型的示意图;
图2是本发明实施例的一种面向时序数据的风险预测方法中,自注意力子网络模型的示意图。
具体实施方式
为使本发明实施例的目的、技术效果及技术方案更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例是本发明一部分实施例。基于本发明公开的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例,都应属于本发明保护的范围。
请参阅图1和图2,本发明实施例的一种面向时序数据的风险预测方法,包括以下步骤:
步骤1,获取预设数量已判断的风险事件样本集合,提取样本集合中的事件实体和事件发生时间组成时间-事件二元组集合,构造风险事件数据集;其中,同一事件实体只提取一次;事件实体包含一个或多个子事件信息。
例如,一共有I个目标对象的借还贷记录、消费数据,从每个用户中提取出了n个事件实体,构成属于该目标对象的事件实体集合Wi,表示为Wi={<t1,x1>,<t2,x2>…<tn,xn>}。每个目标对象的借还贷消费数据均由多个有序的子事件实体连接而成,不同目标对象的借还贷消费数据往往包含数量不等的多个子事件实体。
步骤2,将数据集中的二元组数据映射为等维度的高维向量,构成与每个风险事件一一对应的时间-事件二元组实体向量集合。
具体的,采用word embedding(词嵌入)方法,将每一个时间-事件二元组实体向量映射为长度为k的二元组向量<ei,vi>,构成实体向量集合Z,Z={<e1,v1>,<e2,v2>,…,<en,vn>},ei∈Rk。词嵌入技术使用的是基于预测的skip-gram(跳字模型)技术。
步骤3,将二元组内的向量e和向量v进行向量加操作,生成词向量h。
其中,词向量h=e+v,此时词向量既包含子事件之间的时序信息,也包含了事件的内容信息,可以很好地表征子事件的特征。
步骤4,将词向量h输入到self-attention(自注意力)子网络模型,获得更新后的词向量h’。
具体的,请参阅图2,self-attention子网络模型如图2所示。
优选的,预设self-attention(自注意力)子网络模型包括:MatMul层、Scale层和Mask层;MatMul层用于计算两个输入向量的相似度;MatMul层的输出作为Scale层的输入,Scale层用于正则化MatMul层计算的相似度,Scale层的输出作为Mask层输入,Mask层用于将变长向量固定为定长向量。
词向量h与网络权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度;然后进入Scale层,对相似度进行正则化;然后在Mask层对向量进行对齐操作,将变长的向量统一为固定长度,得到向量A。最后在经过MatMul层,A向量与V向量进行点乘操作,输出更新后词向量h’。
步骤5,将词向量h’输入到positive-level attention(基于位置的注意力)子网络模型进行计算,获得风险事件最终的表征向量c;其中,positive-level attention子网络用于获取每个子事件的位置信息,并将其加入到词向量h’中。
优选的,预设的postive-level attention子网络模型,包含线性计算、softmax函数和加权平均操作。
线性操作用于将子事件之间的位置信息加入到子事件表征向量中;softmax函数用于将子事件表征向量中的元素映射到0-1之间;加权平均操作,综合各子事件的特征生成最终事件表征向量。
具体的,首先,对词向量h’进行线性计算,获得含有位置信息的向量g;计算公式为:
Figure BDA0002394366350000091
式中,Wα和bα为网络需要训练的权重参数。
然后,对向量集g={g1,g2 … gn}进行softmax操作,获得向量集α={α12 …αn};其中,公式为:
α12…αn=softmax(g1,g2 … gn);
接下来,将向量集α的向量和词向量h’进行加权求和,获得最终的事件表征向量c;其中,公式为:
Figure BDA0002394366350000092
步骤6,将事件表征向量c输入到线性分类器中预测用户信用风险概率。
具体的,线性分类器分为两部分:全连接层和softmax层。
预设的线性分类器包括:全连接层和softmax层;
全连接层用于全连接操作;全连接层的输出作为softmax层的输入,softmax层用于输出预测分类概率。
全连接层来预测目标信用风险水平;Softmax层将向量中的数值映射到0~1之间,即事件发生概率。
步骤7,计算网络模型的损失,反向传播更新网络的参数权重,获得再次训练后的网络模型;
具体的,损失函数采用交叉熵损失函数L,其计算公式为:
Figure BDA0002394366350000093
式中,L为网络损失,y为风险事件真实概率,
Figure BDA0002394366350000094
为网络预测的事件概率。
步骤8,重复训练网络模型,直至模型结果满足预设收敛条件,预测精确度符合用户需求,获得训练好的风险预测网络模型。
步骤9,应用训练好的风险预测网络模型,输入待测事件数据,输出风险事件预测信息。
具体的,预测信息不光包含用户信用风险水平,还包含造成该风险水平的因素所占比重,例如还款日期、透支额度、资产评估等因素。
本发明方法的原理包括:本发明是面向时序数据的通用预测模型,现就信用风险评测这一应用来展开阐述;用户的借贷款消费等信息详细记录了该用户在确定时间借贷款数额,还款时间,购买物品,资产估值等信息,这些信息彼此之间有重要关联性。通过分析借贷款消费等记录,可以有效的分析出用户的信用水平,以及准确预测未来一段时间内是否可以使用信用抵押。本发明提供的面向时序数据的风险预测方法,可辅助银行等金融机构进行借贷款的决策;本发明的方法融合注意力机制和深度学习,可以在高准确率预测的同时保证结果的可解释性。
具体实施例
请参阅图1和图2,本发明实施例的一种面向时序数据的风险预测方法,包括以下步骤:
(1)提取消费记录、借贷款记录、资产记录等事件实体。
通过提取出预设最具价值的事件实体,用于分析目标对象在未来是否有偿还贷款的能力,便于金融机构做出相应预案。常见事件实体集合Wi,表示为Wi={<t1,x1>,<t2,x2>…<tn,xn>}。每个目标对象的借还贷消费数据均由多个有序的子事件实体连接而成,不同目标对象的借还贷消费数据往往包含数量不等的多个子事件实体。
(2)采用词嵌入方式,将数据集中的二元组数据映射为等维度的高维向量,构成与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,词嵌入的思想来自自然语言处理,指将单词映射到同一个高维空间,假设在该空间中,词向量的距离可以近似表示单词之间的相似度。通常认为,在相通句子之中经常共同出现的单词间语义更加接近,于是可以用深度学习方法学习这种词向量表示。使得在同一个句子中所有单词词向量更接近,不经常共同出现的单词间词向量距离更远。不断优化这一损失函数,多次迭代,可以学习到较好的词向量表示。这一方法在自然语言处理中已经得到多次证实,已经成为常用方法。本发明中将这一方法引入风险事件实体,将每一个时间-事件二元组实体向量映射为长度为k的二元组向量<ei,vi>,构成实体向量集合Z,Z={<e1,v1>,<e2,v2>,…,<en,vn>},ei∈Rk
实体向量可以反应信用风险事件之间的相似度关系,例如两种关系相近的失信问题在向量空间中距离较近,采用内积相似度或者欧式距离都可以衡量这种关系。通常将k设置为50~100之间比较合适,当小于50时,维度太低,无法完整表示向量间相似关系,当大于100时,维度太高,又需要更多数据进行训练,如果数据量不够时,往往训练不够充分,会影响最终结果。
(3)二元组向量加和,生成词向量。
由于时序数据非常重要的一个特征就是其时序性,每个事件的发生均有先后顺序,这是风险预测过程中非常重要的特征。因此通过将时间向量和事件向量进行加和,使得词向量具有时序性信息,对于网络模型后续的预测是很有帮助的。
(4)构建self-attention子网络模型,获得更新后的词向量。
由于随着时序数据长度的增加,处理的模型性能会快速下降,会遗忘历史很久的数据。而self-attention子网络模型可以直接捕捉到全局的联系,解决了长距离依赖的问题。对于一个具有复杂借贷款消费记录的目标对象,其信息记录跨度非常大,但self-attention子网络可以捕捉输入的信息记录的全局联系,做到既可以考虑“当下”,又考虑“过去”。
经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度;然后进入Scale层,对相似度进行正则化;然后在Mask层对向量进行对齐操作,将变长的向量统一为固定长度,得到向量A。最后在经过MatMul层,A向量与V向量进行点乘操作,输出更新后词向量。
(5)将词向量输入到positive-level attention(基于位置的注意力)子网络模型进行计算,得到向量组α={α12,…,αn}。然后对向量组进行加权平均获得风险事件最终的表征向量c;其中,该部分将各个事件之间的联系加入到词向量中。然后将子事件聚合成完整的事件向量,来表征目标对象的信用水平。
(6)将表征向量c输入到线性分类器中预测用户信用风险概率。
训练器分为两部分,全连接层和softmax层,全连接层来预测目标信用风险水平,softmax层用来将上一层的信用风险水平映射到0~1之间,获得信用风险概率,以便于用户分析并作出合理的决策。
(7)计算网络模型的损失,反向传播更新网络的参数权重,获得再次训练后的网络模型;
具体的,损失函数采用交叉熵损失函数L,其计算公式为:
Figure BDA0002394366350000121
式中,L为网络损失,y为信用风险的真实标签,
Figure BDA0002394366350000122
为网络预测的信用风险概率。
(8)重复训练网络模型,直至模型结果满足预设收敛条件,预测精确度符合用户需求。
多次训练网络,使得预测网络的损失越来越小,使得网络的拟合效果逐渐提高,预测的结果越来越接近真实值。
(9)应用训练好的风险预测网络模型,输入待测事件数据,输出风险事件预测信息。
对于训练好的信用风险模型,可以输入目标对象的借贷款消费记录,模型可以输目标对象信用风险水平以及产生这一结果的原因,辅助金融机构来进一步分析和决策是否放贷。
本发明实施例的一种面向时序数据的风险预测系统,包括:
样本处理模块,对于数据集中已判断的信用风险案例集合,提取样本集合中的事件实体和事件发生时间组成时间-事件二元组集合,将二元组数据通过词嵌入方法映射为等维度的高维向量,构成与风险事件一一对应的时间-事件二元组实体向量;
风险预测网络模型模块,用于通过时间-事件二元组实体向量对预设风险预测网络模型进行训练,通过计算损失函数获得整个网络的损失,并将损失进行反向传播,更新风险预测网络的参数,获得更新过的网络模型。重复迭代,直至模型结果满足预设收敛条件,获得训练好的信用风险事件预测模型;
输入输出模块,用于将目标对象的借贷款消费数据对应的时间-事件二元组实体向量输入到风险预测网络模型模块,输出风险事件信用风险水平和影响该水平的因素所占比重。
综上,本发明公开了一种面向时序数据的风险预测方法及系统,具体包括:获取样本集合中每个风险事件的时间信息和内容信息;将事件信息通过词嵌入技术转换为等维度高维向量;用风险事件向量对预设的预测模型进行训练,获得训练后的风险预测网络模型;用获得的风险预测网络模型处理待预测的风险事件,输出风险事件的风险水平和影响水平的因素所占比重。本发明通过注意力机制和深度网络,可以在保证模型高精确度的前提下,并行训练网络而且可对预测结果进行分析,具有说服力。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (4)

1.一种面向时序数据的风险预测方法,其特征在于,包括以下步骤:
步骤1,提取目标对象的消费记录、借贷款记录、资产记录中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;
步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;
步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;
步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;
步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;
步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;
步骤7,计算风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;
步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;
步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重;所述风险事件为目标对象在未来是否有偿还贷款的能力;
其中,步骤4中,预设的自注意力子网络模型包括:
MatMul层,用于计算两个输入向量的相似度;
Scale层,用于正则化MatMul层输出的相似度;
Mask层,用于将Scale层输出的相似度变长向量固定为定长向量;
其中,MatMul层的输出作为Scale层的输入,Scale层的输出作为Mask层输入;
步骤5中,预定义好的基于位置的注意力子网络模型包括:
线性计算,用于将子事件之间的位置信息加入子事件表征向量;
softmax函数,用于把线性计算操作输出的子事件表征向量中的元素映射到0~1之间;
加权平均操作,用于综合各风险子事件的特征αi生成风险事件的表征向量c;
步骤6中,所述线性分类器包括:
全连接层,用于实现输入数据的全连接操作;
softmax层,用于输出预测分类概率;其中,全连接层的输出作为softmax层的输入;
步骤7中,风险事件预测模型的损失函数采用交叉熵损失函数L,计算表达式为:
Figure FDA0003726359080000021
式中,L为网络损失,y为风险事件真实概率,
Figure FDA0003726359080000022
为网络预测的事件概率。
2.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤2中,词嵌入操作采用基于预测的跳字模型;其中,映射获得的等维度的向量的维度大于等于50且小于等于100。
3.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤4中,初始化的自注意力子网络模型的权重参数包括W(Q)、W(K)、W(V),用于和步骤3获得的词向量h进行点乘操作,生成自注意力子网络模型的输入向量;其中,词向量h与权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度向量;然后,进入Scale层,对相似度进行正则化操作;然后,在Mask层对正则化后的相似度向量进行对齐操作,将变长的正则化后的相似度向量统一为固定长度,得到向量A;最后,再经过一次MatMul层,A向量与V向量进行点乘操作,输出更新后的词向量h’。
4.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤5中,
首先,对词向量h’进行线性计算,获得含有位置信息的向量g,表达式为:
Figure FDA0003726359080000031
式中,
Figure FDA0003726359080000032
和bα为风险事件预测模型需要训练的权重参数项和偏置项;
然后,对向量集g={g1,g2…gn}进行softmax操作,获得向量集α={α12…αn},表达式为:
α12…αn=softmax(g1,g2…gn),
式中,α={α12…αn}代表各子风险事件的表征向量,g={g1,g2…gn}代表含有位置信息的词向量;
再后,将向量集α和词向量h’进行加权求和,获得风险事件的表征向量c,表达式为:
Figure FDA0003726359080000033
式中,αi代表各风险子事件的表征向量,hi′代表词向量,c代表风险事件的表征向量。
CN202010125879.8A 2020-02-27 2020-02-27 一种面向时序数据的风险预测方法及系统 Active CN111382930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010125879.8A CN111382930B (zh) 2020-02-27 2020-02-27 一种面向时序数据的风险预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010125879.8A CN111382930B (zh) 2020-02-27 2020-02-27 一种面向时序数据的风险预测方法及系统

Publications (2)

Publication Number Publication Date
CN111382930A CN111382930A (zh) 2020-07-07
CN111382930B true CN111382930B (zh) 2022-08-16

Family

ID=71219763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010125879.8A Active CN111382930B (zh) 2020-02-27 2020-02-27 一种面向时序数据的风险预测方法及系统

Country Status (1)

Country Link
CN (1) CN111382930B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815425A (zh) * 2020-07-27 2020-10-23 上海观安信息技术股份有限公司 一种基于实体嵌入的用户信用风险等级判定方法及系统
CN114612104A (zh) * 2020-12-09 2022-06-10 支付宝(杭州)信息技术有限公司 风险识别方法、装置和电子设备
CN112785157B (zh) * 2021-01-22 2022-07-22 支付宝(杭州)信息技术有限公司 风险识别系统的更新方法及装置、风险识别方法及装置
CN113190734A (zh) * 2021-04-27 2021-07-30 中国科学院计算技术研究所 基于单平台的网络事件流行度预测方法与系统
CN113537297B (zh) * 2021-06-22 2023-07-28 同盾科技有限公司 一种行为数据预测方法及装置
CN113989043A (zh) * 2021-10-28 2022-01-28 支付宝(杭州)信息技术有限公司 一种事件的风险识别方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094545A1 (en) * 2013-12-18 2015-06-25 Mun Johnathan System and method for modeling and quantifying regulatory capital, key risk indicators, probability of default, exposure at default, loss given default, liquidity ratios, and value at risk, within the areas of asset liability management, credit risk, market risk, operational risk, and liquidity risk for banks
CN110310199A (zh) * 2019-06-27 2019-10-08 上海上湖信息技术有限公司 借贷风险预测模型的构建方法、系统及借贷风险预测方法
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015094545A1 (en) * 2013-12-18 2015-06-25 Mun Johnathan System and method for modeling and quantifying regulatory capital, key risk indicators, probability of default, exposure at default, loss given default, liquidity ratios, and value at risk, within the areas of asset liability management, credit risk, market risk, operational risk, and liquidity risk for banks
CN110310199A (zh) * 2019-06-27 2019-10-08 上海上湖信息技术有限公司 借贷风险预测模型的构建方法、系统及借贷风险预测方法
CN110674979A (zh) * 2019-09-11 2020-01-10 腾讯科技(深圳)有限公司 风险预测模型的训练方法、预测方法及装置、介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于决策树技术的小额贷款公司信用风险预警研究;马威;《财会通信》;20190920(第826期);第106-109页 *

Also Published As

Publication number Publication date
CN111382930A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111382930B (zh) 一种面向时序数据的风险预测方法及系统
Liang et al. Explaining the black-box model: A survey of local interpretation methods for deep neural networks
Arras et al. Explaining and interpreting LSTMs
Orimoloye et al. Comparing the effectiveness of deep feedforward neural networks and shallow architectures for predicting stock price indices
Benchaji et al. Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection
Lin et al. Parameter determination of support vector machine and feature selection using simulated annealing approach
Pistoia et al. Quantum machine learning for finance ICCAD special session paper
Anand et al. Fractional-Iterative BiLSTM Classifier: A Novel Approach to Predicting Student Attrition in Digital Academia
Kollmannsberger et al. Deep learning in computational mechanics
Ala’raj et al. A deep learning model for behavioural credit scoring in banks
Jha et al. A brief comparison on machine learning algorithms based on various applications: a comprehensive survey
Zhu et al. Feature distilled tracking
CN114255121A (zh) 信贷风险预测模型的训练方法和信贷风险预测方法
CN114565021A (zh) 基于量子循环神经网络的金融资产定价方法、系统及存储介质
Sebt et al. Predicting the number of customer transactions using stacked LSTM recurrent neural networks
Alida et al. Rupiah exchange prediction of US Dollar using linear, polynomial, and radial basis function kernel in support vector regression
Wang et al. Label propagation with contrastive anchors for deep semi-supervised superheat degree identification in aluminum electrolysis process
Kang et al. A CWGAN-GP-based multi-task learning model for consumer credit scoring
Yuan et al. Deep learning from a statistical perspective
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
Chen et al. Domain adaptation learning based on structural similarity weighted mean discrepancy for credit risk classification
Flasinski et al. Multi-Derivational Parsing of Vague Languages-the New Paradigm of Syntactic Pattern Recognition.
Lalor et al. Soft label memorization-generalization for natural language inference
Raju Stock Price Volatility Modeling and Forecasting Of Nifty 50 Companies in India
Shen et al. Investment time series prediction using a hybrid model based on RBMs and pattern clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant