CN112785414B - 一种基于知识图谱和本体推理机的信贷风险预测方法 - Google Patents
一种基于知识图谱和本体推理机的信贷风险预测方法 Download PDFInfo
- Publication number
- CN112785414B CN112785414B CN202110002992.1A CN202110002992A CN112785414B CN 112785414 B CN112785414 B CN 112785414B CN 202110002992 A CN202110002992 A CN 202110002992A CN 112785414 B CN112785414 B CN 112785414B
- Authority
- CN
- China
- Prior art keywords
- company
- lending
- information data
- financial information
- ontology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000005065 mining Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007306 turnover Effects 0.000 description 4
- 239000012530 fluid Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000035784 germination Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000013058 risk prediction model Methods 0.000 description 1
- 238000010025 steaming Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Development Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Accounting & Taxation (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Animal Behavior & Ethology (AREA)
- Algebra (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
Abstract
本发明提供一种基于知识图谱和本体推理机的信贷风险预测方法,包含步骤:S1、依时序搜集若干借贷公司在设定期间内对外公开的第一至第n类金融信息数据;S2、建立借贷公司经营状况知识图谱;S3、为借贷公司进行本体推理,挖掘与借贷公司经营状况相关的经营状态信息;S4、基于借贷公司的金融信息数据、经营状态信息建立训练集和验证集,训练神经网络模型,该神经网络模型用于预测信贷公司的信贷风险概率;S5、搜集待进行信贷风险预测的借贷公司的金融信息数据,挖掘该借贷公司的经营状态信息,将该借贷公司的金融信息数据、经营状态信息输入训练好的神经网络模型,预测该借贷公司的信贷风险概率。
Description
技术领域
本发明涉及金融行业风险控制技术领域,特别涉及一种基于知识图谱和本体推理机的信贷风险预测方法。
背景技术
我国银行信贷业务规模庞大,给国家经济发展带来巨大力量的同时,极大地提高了居民生活的便利性。然而其发展的规模越大,对信贷风险管理水平的要求就越高。如果不能保证风险管理的有效性,信贷将会直接影响商业银行的稳定经营与持续健康发展,甚至对我国经济发展也造成一定的威胁。但是信贷风险的形成是一个从萌芽、积累直至发生的渐进过程。其征兆隐藏在浩瀚的金融数据信息之下,不易察觉。现有技术中也有分别通过知识图谱和神经网络来预测公司的信贷风险,然而这两种方法分别存在各自的不足之处。
知识图谱(Knowledge Graph),是显示知识发展进程与结构关系的一系列各种不同的图形。通过将知识域可视化表示(包括但不限于将知识领域映射为知识地图),从而使得挖掘、分析、构建、绘制和显示知识单元或知识群之间的网络、结构、关联、交叉、演化、衍生等诸多隐含的复杂关系成为可能。知识图谱由于其可以高效直观刻画借贷主体间的关联网络而被引入到信贷风险管理中。现有信贷风险管理中的知识图谱虽然同时可展示上千万级甚至上亿级数据,但同时请求知识图谱可视化时长较长,缺乏可用性和灵活性,不利于信贷审核人员观察。
神经网络(Neural Network,缩写NN),机器学习的一种,用于对函数进行估计或近似。通过把借贷公司金融数据的每个特征装入网络输入层的每个神经元,再在输出层进行标签分类,结合浩瀚的借贷公司金融数据,就能建立一个用于银行信贷风险预警的神经网络,避免防范银行信贷风险的发生。然而该神经网络预警信贷风险的准确率受到借贷公司金融数据透明度的影响。
由于很多企业公司的各项金融数据没有完全公开,为了减少银行“坏账”的产生,如何从借贷公司公开的金融数据信息中挖掘出更深层次信息,建立更为准确的信贷风险预测模型,提高借贷风险预测准确率显得尤为重要。
发明内容
本发明的目的是提供一种基于知识图谱和本体推理机的信贷风险预测方法,根据搜集的借贷公司金融信息数据,建立借贷公司经营状况知识图谱,基于知识图谱,建立本体推理挖掘借贷公司经营状况相关的经营状态信息;并通过借贷公司的金融信息数据、经营状态信息训练神经网络模型,预测借贷公司还贷概率,能更好地帮助银行放贷时出现不良贷款并及时发现问题贷款,有助于及时采取有效措施降低放贷损失。
为了达到上述目的,本发明提供一种基于知识图谱和本体推理机的信贷风险预测方法,包含步骤:
S1、依时序搜集若干借贷公司在设定期间内对外公开的第一至第n类金融信息数据;预处理所述第一至第n类金融信息数据;
S2、基于第一至第n类金融信息数据,建立借贷公司经营状况知识图谱;
S3、基于所述公司经营状况知识图谱为所述借贷公司进行本体推理,挖掘与借贷公司经营状况相关的经营状态信息;
S4、将部分借贷公司的金融信息数据、经营状态信息作为训练集,其余借贷公司的金融信息数据、经营状态信息作为验证集,训练神经网络模型,该神经网络模型用于预测信贷公司的信贷风险概率;
S5、搜集待进行信贷风险预测的借贷公司的金融信息数据,基于该借贷公司的金融信息数据挖掘该借贷公司的经营状态信息,将该借贷公司的金融信息数据、经营状态信息输入训练好的神经网络模型,预测该借贷公司的信贷风险概率。
优选的,步骤S1包含:
S11、通过爬虫获取第一至第m借贷公司在设定期间内对外公开的第一至第n类金融信息数据,建立借贷公司金融信息数据矩阵A:
其中,Ai,j,t为第t次搜集的第i借贷公司的第j类金融信息数据;i∈[1,m],j∈[1,n],t∈[1,T],T为搜集的总次数;αi,j表示第i借贷公司的第j类金融信息数据;
S12、对矩阵A进行数据整理:若αi,j中Ai,j,t为空缺值,令Ai,j,t=p×Ai,j,t-1+q×Ai,j,t+1;其中p,q∈[0,1]为设定的系数;
S13、经过步骤S12后,矩阵A转换为矩阵A′:
其中βi,j为矩阵A′中整理后的第i借贷公司的第j类金融信息数据。
优选的,所述第一至第n类金融信息数据包含:公司名称、公司流动资产、公司流动负债、公司所有者投入资本、公司全部资产、公司主营业务收入净额、公司平均流动资产总额。
优选的,步骤S2中所述借贷公司经营状况知识图谱包含:若干本体概念类、若干本体属性和若干本体实例;一个所述本体概念类对应一类金融信息数据:所述本体概念类之间通过对应的本体属性进行关联;一个所述本体实例对应矩阵A′中的一个元素。
优选的,步骤S3包含:
建立本体推理规则ruler,r∈[1,u],u为自然数;
所述本体推理规则ruler包含:设定的推理算法Rr,Ii,r;
其中分别为矩阵A′中整理后的第i借贷公司的第i1、…、第ir类金融信息数据,i1,…,ir∈[1,n];/>为由/>挖掘得到的与第i借贷公司经营状况相关的第r类经营状态信息。
优选的,步骤S4包含:
S41、选取第i借贷公司的第一至第n类金融信息数据βi,1,…,βi,n,以及由本体推理规则挖掘得到的经营状态信息Ii,1,...,Ii,u建立训练集,其中i∈[1,s],s<m;其余借贷公司的第一至第n类金融信息数据、经营状态信息作为验证集;为第i借贷公司设置标签,所述标签用于表示第i借贷公司是否有还贷能力;
S42、建立BP神经网络模型,其包含输入层、隐藏层、输出层;所述输入层包含M=n+u个节点;
所述隐藏层包含B个节点;
所述输出层包含两个节点,分别代表借贷公司还款概率和不还款的概率;
S43、对BP神经网络模型进行第i次训练,i∈[1,s],s<m,包含步骤:
令zi,a=βi,a,zi,n+v=Ii,v其中a∈[1,n],v∈[1,u];生成对BP神经网络模型进行第i次训练的输入向量Zi=(zi,1,…,zi,M),Zi中的每个元素对应输入层的一个节点;
隐含层第j个节点的输入隐含层第j个节点的输出bj=tansig(lj),其中j∈[1,B];wkj为输入层第k个节点对隐含层第j个节点的连接权值、θj为隐含层第j个节点的误差值;tansig(·)为激活函数;
输出层第h个节点的输入其中h∈[1,2],wl′h为隐含层第l个节点对输出层第h个节点的连接权值、θh′为输出层第h个节点的误差值;输出层第h个节点的输出yh=tansig(Lh)。
优选的,所述BP神经网络模型的目标函数为:
Y为测试集中所有有还贷款能力的借贷公司,为测试集中经过所述BP神经网络模型得出的有偿还贷款能力的借贷公司,J(f)为BP神经网络模型的复杂度,λ为常数。
与现有技术相比,本发明的有益效果在于:
1)本发明的基于知识图谱和本体推理机的信贷风险预测方法,通过搜集的借贷公司金融信息数据建立引入借贷公司经营状况知识图谱来梳理借贷公司的经营状态,从知识关联性的全新角度,重新审视各类金融信息数据对公司经营状况的影响;
2)本发明中通过建立本体推理规则来挖掘借贷公司经营状况深层次信息,使得挖掘的信息能够准确反映决定借贷公司实际经营状况;
3)本发明通过BP神经网络模型预测信贷风险,替代主观因素强的人为判断,使预测结果更准确、更客观、更具代表性。
附图说明
为了更清楚地说明本发明技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的基于知识图谱和本体推理机的信贷风险预测方法;
图2为本发明的BP神经网络模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于知识图谱和本体推理机的信贷风险预测方法,如图1所示,包含步骤:
S1、通过爬虫工具,依时序搜集若干借贷公司在设定期间内对外公开的第一至第n类金融信息数据;预处理所述第一至第n类金融信息数据。在本发明的实施例中,所述第一至第n类金融信息数据包含:公司名称、公司流动资产、公司流动负债、公司所有者投入资本、公司全部资产、公司主营业务收入净额、公司平均流动资产总额。由于任何公司都存在有贷款需求的可能,包括但不限于业绩蒸蒸日上的大型企业与公司、业绩稳扎稳打的中小型企业与公司、业绩波动幅度大的小微企业与公司。为方便公司金融信息数据的获取,本发明的实施例中的借贷公司均为上市公司。
步骤S1包含:
S11、通过爬虫获取第一至第m借贷公司在设定期间内对外公开的第一至第n类金融信息数据,建立借贷公司金融信息数据矩阵A:
其中,Ai,j,t为第t次搜集的第i借贷公司的第j类金融信息数据;i∈[1,m],j∈[1,n],t∈[1,T],T为搜集的总次数;αi,j表示第i借贷公司的第j类金融信息数据;若αi,j中空缺值的个数大于设定的阈值,将αi,j从矩阵A中删除;
S12、对矩阵A进行数据整理:若αi,j中Ai,j,t为空缺值,令Ai,j,t=p×Ai,j,t-1+q×Ai,j,t+1;其中p,q∈[0,1]为设定的系数;
S13、经过步骤S12后,矩阵A转换为矩阵A′:
其中βi,j为矩阵A′中整理后的第i借贷公司的第j类金融信息数据。
S2、基于第一至第n类金融信息数据,建立借贷公司经营状况知识图谱;在本发明的实施例中,使用protege软件建立该知识图谱。所述借贷公司经营状况知识图谱包含:若干本体概念类、若干本体属性和若干本体实例;一个所述本体概念类对应一类金融信息数据:所述本体概念类之间通过对应的本体属性进行关联;一个所述本体实例对应矩阵A′中的一个元素。
本体是用来表征具有分类特征的概念及个体等结构化的知识,语义网层次结构中往往被用来描述语义信息资源。本体推理通过逻辑程序形式刻画的规则,从概念及个体之间的关系等陈述性的知识中挖掘和分析出知识与知识、知识与其载体之间的相互关系。在本发明的实施例中,将借贷公司的第一至第n类金融信息数据按本体概念类(Class)、本体属性(Property)和本体实例(Individual)的划分标准进行划分。本体概念类是描述了本体中的一类数据,如公司类、公司流动资产类、公司流动负债类等。若某些金融信息数据若属于同一家借贷公司,则这些金融数据属于同一个公司类。借贷公司流动资产的金融信息数据属于流动资产类,借贷公司流动负债的金融信息数据属于流动负债类。本体概念类与本体概念类之间的通过本体属性产生联系,如公司类与公司流动资产类通过属性“有流动资产”进行关联。本体实例是对本体概念类、本体属性进行具体化,如公司类中具体的公司名称“XXX公司”、借贷公司的具体流动资产金额。
S3、基于所述借贷公司经营状况知识图谱为所述借贷公司进行本体推理,挖掘与借贷公司经营状况相关的经营状态信息;
步骤S3包含:
建立本体推理规则ruler,r∈[1,u],u为自然数;
所述本体推理规则ruler包含:设定的推理算法Rr,Ii,r;
其中分别为矩阵A′中整理后的第i借贷公司的第i1、...、第ir类金融信息数据,i1,…,ir∈[1,n];/>Ii,r为由/>挖掘得到的与第i借贷公司经营状况相关的第r类经营状态信息。
在本发明的实施例中,根据资产与负债的关系、借贷公司现金流与借贷公司变现能力的关系、借贷公司利润与借贷公司发展的关系等,在借贷公司经营状态信息知识图谱中,挖掘反映借贷公司建立企业盈利能力、企业营运能力、企业筹资能力等的经营状态信息。
本发明的实施例中,建立形如[rule:推理过程]的本体推理规则,推理过程中的变量用“?”+具体的变量名表示;关系用“本体属性#”+具体的本体属性名称表示。
在本发明的一个实施例中,为借贷公司资产流动比率建立推理规则:
[rule1:(?公司实例本体属性#有流动资产?流动资产实例)(?公司实例本体属性#有流动负债?流动负债实例)FILTER(?流动资产实例/?流动负债实例>1)->(?公司实例本体属性#资产流动比率?资产流动比率好)]。
通过本体推理规则rule1,当某家借贷公司的则说明该借贷公司的资产流动比率好。资产流动比率为根据金融信息数据(流动资产与流动负债)挖掘得到的经营状态信息。
根据资产流动比率是企业可以在一年或者超过一年的一个营业周期内变现或者运用的资产,主要包括货币资金、短期投资、应收票据、应收账款和存货等。当资产流动比率小于1时,说明资金流动性差。
在本发明的另一个实施例中,为流动资产周转率建立本体推理规则:[rule2:(?公司实例本体属性#有主营业务收入净额?主营业务收入净额实例)(?公司实例本体属性#有流动资产总额?流动资产总额指标实例)FILTER(?主营业务收入净额实例/?流动资产总额实例>=2)->(?公司实例本体属性#流动资产周转率?流动资产周转率好)];
流动资产周转率(次)=主营业务收入净额/平均流动资产总额,流动资产周转率是基于金融信息数据(主营业务收入净额与平均流动资产总额)挖掘得到的经营状态信息,其为企业在某一定时期内主营业务收入净额同平均流动资产总额的比率。流动比率不低于2,适用于一般性的企业。
S4、将部分借贷公司的金融信息数据、经营状态信息作为训练集,其余借贷公司的金融信息数据、经营状态信息作为验证集,训练神经网络模型,该神经网络模型用于预测信贷公司的信贷风险概率;本发明的实施例中,所述具体使用BP(back propagation)神经网络模型。
在本发明的实施例中,步骤S4包含:
S41、选取第i借贷公司的第一至第n类金融信息数据βi,1,…,βi,n,以及由本体推理规则挖掘得到的经营状态信息Ii,1,...,Ii,u建立训练集,其中i∈[1,s],s<m;其余借贷公司的第一至第n类金融信息数据、经营状态信息作为验证集;为第i借贷公司设置标签,所述标签用于表示第i借贷公司是否有还贷能力;
S42、建立BP神经网络模型,如图2所示,其包含输入层、隐藏层、输出层;如图2所示,所述输入层包含M=n+u个节点;所述隐藏层包含B个节点;所述输出层包含两个节点,分别代表借贷公司还款概率和不还款的概率;
S43、对BP神经网络模型进行第i次训练,i∈[1,s],s<m,包含步骤:
令zi,a=βi,a,zi,n+v=Ii,v其中a∈[1,n],v∈[1,u];生成对BP神经网络模型进行第i次训练的输入向量Zi=(zi,1,…,zi,M),Zi中的每个元素对应输入层的一个节点;
隐含层第j个节点的输入隐含层第j个节点的输出bj=tansig(lj),其中j∈[1,B];wkj为输入层第k个节点对隐含层第j个节点的连接权值、θj为隐含层第j个节点的误差值;tansig(·)为激活函数,可以把输入从负无穷大到正无穷大的不均匀信号较为均匀地映射在0到1之间;
输出层第h个节点的输入其中h∈[1,2],w′lh为隐含层第l个节点对输出层第h个节点的连接权值、θ′h为输出层第h个节点的误差值;输出层第h个节点的输出yh=tansig(Lh)。y1代表借贷公司还款概率,y2代表借贷公司不还款的概率,当y1>y2代表借贷公司为可信公司。
优选的,所述BP神经网络模型的目标函数为:
Y为测试集中所有有还贷款能力的借贷公司,为测试集中经过所述BP神经网络模型得出的有偿还贷款能力的借贷公司,J(f)为BP神经网络模型的复杂度,λ为常数。
S5、搜集待进行信贷风险预测的借贷公司的金融信息数据,基于该借贷公司的金融信息数据挖掘该借贷公司的经营状态信息,将该借贷公司的金融信息数据、经营状态信息输入训练好的神经网络模型,预测该借贷公司的信贷风险概率。
本发明的基于知识图谱和本体推理机的信贷风险预测方法,通过搜集的借贷公司金融信息数据建立引入借贷公司经营状况知识图谱来梳理借贷公司的经营状态,从知识关联性的全新角度,重新审视各类金融信息数据对公司经营状况的影响;本发明通过建立本体推理规则来挖掘借贷公司经营状况深层次信息,使得挖掘的信息能够准确反映决定借贷公司实际经营状况;本发明还通过BP神经网络模型预测信贷风险,替代主观因素强的人为判断,使预测结果更准确、更客观、更具代表性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (5)
1.一种基于知识图谱和本体推理机的信贷风险预测方法,其特征在于,包含步骤:
S1、依时序搜集若干借贷公司在设定期间内对外公开的第一至第n类金融信息数据;预处理所述第一至第n类金融信息数据;
步骤S1包含:
S11、通过爬虫获取第一至第m借贷公司在设定期间内对外公开的第一至第n类金融信息数据,建立借贷公司金融信息数据矩阵A:
其中,Ai,j,t为第t次搜集的第i借贷公司的第j类金融信息数据;i∈[1,m],j∈[1,n],t∈[1,T],T为搜集的总次数;αi,j表示第i借贷公司的第j类金融信息数据;
S12、对矩阵A进行数据整理:若αi,j中Ai,j,t为空缺值,令Ai,j,t=p×Ai,j,t-1+q×Ai,j,t+1;其中p,q∈[0,1]为设定的系数;
S13、经过步骤S12后,矩阵A转换为矩阵A′:
其中βi,j为矩阵A′中整理后的第i借贷公司的第j类金融信息数据;
S2、基于第一至第n类金融信息数据,建立借贷公司经营状况知识图谱;
S3、基于所述公司经营状况知识图谱为所述借贷公司进行本体推理,挖掘与借贷公司经营状况相关的经营状态信息;
步骤S3包含:
建立本体推理规则ruler,r∈[1,u],u为自然数;
所述本体推理规则ruler包含:设定的推理算法Rr,Ii,r;
其中分别为矩阵A′中整理后的第i借贷公司的第i1、…、第ir类金融信息数据,i1,…,ir∈[1,n];/>Ii,r为由/>挖掘得到的与第i借贷公司经营状况相关的第r类经营状态信息;
S4、将部分借贷公司的金融信息数据、经营状态信息作为训练集,其余借贷公司的金融信息数据、经营状态信息作为验证集,训练BP神经网络模型,该神经网络模型用于预测信贷公司的信贷风险概率;
S5、搜集待进行信贷风险预测的借贷公司的金融信息数据,基于该借贷公司的金融信息数据挖掘该借贷公司的经营状态信息,将该借贷公司的金融信息数据、经营状态信息输入训练好的神经网络模型,预测该借贷公司的信贷风险概率。
2.如权利要求1所述的基于知识图谱和本体推理机的信贷风险预测方法,其特征在于,所述第一至第n类金融信息数据包含:公司名称、公司流动资产、公司流动负债、公司所有者投入资本、公司全部资产、公司主营业务收入净额、公司平均流动资产总额。
3.如权利要求2所述的基于知识图谱和本体推理机的信贷风险预测方法,其特征在于,步骤S2中所述借贷公司经营状况知识图谱包含:若干本体概念类、若干本体属性和若干本体实例;一个所述本体概念类对应一类金融信息数据:所述本体概念类之间通过对应的本体属性进行关联;一个所述本体实例对应矩阵A′中的一个元素。
4.如权利要求1所述的基于知识图谱和本体推理机的信贷风险预测方法,其特征在于,步骤S4包含:
S41、选取第i借贷公司的第一至第n类金融信息数据βi,1,…,βi,n,以及由本体推理规则挖掘得到的经营状态信息Ii,1,…,Ii,u建立训练集,其中i∈[1,s],s<m;其余借贷公司的第一至第n类金融信息数据、经营状态信息作为验证集;为第i借贷公司设置标签,所述标签用于表示第i借贷公司是否有还贷能力;
S42、建立BP神经网络模型,其包含输入层、隐藏层、输出层;所述输入层包含M=n+u个节点;
所述隐藏层包含B个节点;
所述输出层包含两个节点,分别代表借贷公司还款概率和不还款的概率;
S43、对BP神经网络模型进行第i次训练,i∈[1,s],s<m,包含步骤:
令zi,a=βi,a,zi,n+v=Ii,v其中a∈[1,n],v∈[1,u];生成对BP神经网络模型进行第i次训练的输入向量Zi=(zi,1,…,zi,M),Zi中的每个元素对应输入层的一个节点;
隐含层第j个节点的输入隐含层第j个节点的输出bj=tansig(lj),其中j∈[1,B];wkj为输入层第k个节点对隐含层第j个节点的连接权值、θj为隐含层第j个节点的误差值;tansig(·)为激活函数;
输出层第h个节点的输入其中h∈[1,2],w′lh为隐含层第l个节点对输出层第h个节点的连接权值、θ′h为输出层第h个节点的误差值;输出层第h个节点的输出yh=tansig(Lh)。
5.如权利要求4所述的基于知识图谱和本体推理机的信贷风险预测方法,其特征在于,所述BP神经网络模型的目标函数为:
Y为测试集中所有有还贷款能力的借贷公司,为测试集中经过所述BP神经网络模型得出的有偿还贷款能力的借贷公司,J(f)为BP神经网络模型的复杂度,λ为常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110002992.1A CN112785414B (zh) | 2021-01-04 | 2021-01-04 | 一种基于知识图谱和本体推理机的信贷风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110002992.1A CN112785414B (zh) | 2021-01-04 | 2021-01-04 | 一种基于知识图谱和本体推理机的信贷风险预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112785414A CN112785414A (zh) | 2021-05-11 |
CN112785414B true CN112785414B (zh) | 2024-01-26 |
Family
ID=75753852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110002992.1A Active CN112785414B (zh) | 2021-01-04 | 2021-01-04 | 一种基于知识图谱和本体推理机的信贷风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112785414B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776797A (zh) * | 2016-11-22 | 2017-05-31 | 中国人名解放军理工大学 | 一种基于本体推理的知识问答系统及其工作方法 |
CN106779755A (zh) * | 2016-12-31 | 2017-05-31 | 湖南文沥征信数据服务有限公司 | 一种网络电商借贷风险评估方法及模型 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
CN111383102A (zh) * | 2020-03-27 | 2020-07-07 | 北京明略软件系统有限公司 | 金融信贷风险识别方法、模型构建方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
US11488713B2 (en) * | 2017-08-15 | 2022-11-01 | Computer Technology Associates, Inc. | Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support |
-
2021
- 2021-01-04 CN CN202110002992.1A patent/CN112785414B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776797A (zh) * | 2016-11-22 | 2017-05-31 | 中国人名解放军理工大学 | 一种基于本体推理的知识问答系统及其工作方法 |
CN106779755A (zh) * | 2016-12-31 | 2017-05-31 | 湖南文沥征信数据服务有限公司 | 一种网络电商借贷风险评估方法及模型 |
CN109657918A (zh) * | 2018-11-19 | 2019-04-19 | 平安科技(深圳)有限公司 | 关联评估对象的风险预警方法、装置和计算机设备 |
CN110390023A (zh) * | 2019-07-02 | 2019-10-29 | 安徽继远软件有限公司 | 一种基于改进bert模型的知识图谱构建方法 |
CN110968701A (zh) * | 2019-11-05 | 2020-04-07 | 量子数聚(北京)科技有限公司 | 用于图神经网络的关系图谱建立方法以及装置、设备 |
CN111222681A (zh) * | 2019-11-05 | 2020-06-02 | 量子数聚(北京)科技有限公司 | 用于企业破产风险预测的数据处理方法以及装置、设备、存储介质 |
CN111383102A (zh) * | 2020-03-27 | 2020-07-07 | 北京明略软件系统有限公司 | 金融信贷风险识别方法、模型构建方法和装置 |
Non-Patent Citations (5)
Title |
---|
Chen,XJ et al.A Review:Knowledge reasoning over knowledge graph.《EXPERT SYSTEMS WITH APPLICATIONS》.2020,第141卷第112948页. * |
基于神经网络的知识推理研究综述;张仲伟等;《计算机工程与应用》(第12期);第13-24+41页 * |
融合因果事件的知识图谱构建及其应用研究;周威;《中国优秀硕士学位论文全文数据库 信息科技辑》(第9期);第I138-1284页 * |
面向知识图谱的知识推理研究进展;官赛萍等;《软件学报》;第29卷(第10期);第2966-2994页 * |
面向风控的企业关联信息知识图谱构建与应用研究;马海波;《中国优秀硕士学位论文全文数据库 信息科技辑》(第4期);第I138-517页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112785414A (zh) | 2021-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Büyüközkan et al. | Assessment of lean manufacturing effect on business performance using Bayesian Belief Networks | |
Mostafa | Forecasting stock exchange movements using neural networks: empirical evidence from Kuwait | |
Mostafa | Forecasting the Suez Canal traffic: a neural network analysis | |
Van Thiel et al. | Artificial intelligence credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
Aphale et al. | Predict loan approval in banking system machine learning approach for cooperative banks loan approval | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
Galanti et al. | An explainable decision support system for predictive process analytics | |
Van Thiel et al. | Artificial intelligent credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era | |
Maharani et al. | Bank Soundness Level Prediction: ANFIS vs Deep Learning | |
Momparler et al. | Revisiting bank failure in the United States: a fuzzy-set analysis | |
CN115062163A (zh) | 异常组织的识别方法、装置、电子设备和介质 | |
Oualid et al. | Application of machine learning techniques for credit risk management: a survey | |
Qian et al. | The implementation of leisure tourism enterprise management system based on deep learning | |
Mustafin et al. | Evaluation of the choice of borrower rating groups | |
Glykas et al. | A soft knowledge modeling approach for geographically dispersed financial organizations | |
Sachan et al. | Human-AI collaboration to mitigate decision noise in financial underwriting: A study on FinTech innovation in a lending firm | |
CN112785414B (zh) | 一种基于知识图谱和本体推理机的信贷风险预测方法 | |
Mahmoud et al. | Expert system for banking credit decision | |
Chen et al. | Financial distress prediction using data mining techniques | |
Elmousalami et al. | Green artificial intelligence for cost-duration variance prediction (CDVP) for irrigation canals rehabilitation projects | |
Vlad et al. | The use of machine learning techniques in accounting. A short survey | |
Bouazza et al. | Datamining for fraud detecting, state of the art | |
Safi et al. | Can oil price predict exchange rate?: empirical evidence from deep learning | |
Yan | Research on big data audit based on financial shared service model | |
Wen | Research on Risk Early Warning System of Financial Sharing Platform Based on Neural Network Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |