发明内容
本申请的主要目的为提供一种风险概率的计算方法、装置和计算机设备,旨在解决现有技术中企业债务违约风险预测准确率低的问题。
为了实现上述发明目的,本申请提出一种风险概率的计算方法,包括:
获取待预测的企业的企业信息;
依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;
根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;
将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;
将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;
将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;
将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
进一步地,所述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤,包括:
使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;
抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;
将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
进一步地,所述将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合的步骤,包括:
使用预设的分词模型对第一组碎片化信息进行分词处理,得到第一组分词集合,以及使用所述分词模型对各第二组碎片化信息进行分词处理,得到与各第二组碎片化信息对应的第二组分词集合;
使用预设的词向量模型,将第一组分词集合中的各分词进行向量化,得到第一组向量化数据,以及使用所述词向量模型,将各第二组分词集合中的各分词进行向量化,得到与各第二组碎片化信息对应的多组第二组向量化数据;
对第一组向量化数据进行降维处理,得到第一组碎片化信息的第一向量化表示,以及对各第二组向量化数据进行降维处理,得到各第二组碎片化信息的第二向量化表示;
利用预设的分类模型分别对第一向量化表示和各第二向量化表示进行分类,到所述第一组分类信息集合和各所述第二组分类信息集合。
进一步地,所述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤之后,包括:
判断所述企业的债务违约风险概率值是否大于预设的风险概率阈值;
若是,则生成可视化报警信息。
进一步地,所述根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息的步骤,包括:
以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息。
进一步地,所述以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息的步骤,包括:
以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,当所述企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第一组碎片化信息中;以及,
以所述关联企业的名称和/或企业股东为关键字全网检索得到所述关联企业的碎片化信息,当所述关联企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第二组碎片化信息中。
本申请还提供一种风险概率的计算装置,包括:
第一获取单元,用于获取待预测的企业的企业信息;
第二获取单元,用于依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;
第三获取单元,用于根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;
分类单元,用于将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;
数字化单元,用于将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;
融合单元,用于将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;
计算单元,用于将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
进一步地,所述计算单元,包括:
排序模块,用于使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;
抽取模块,用于抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;
计算模块,用于将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现申述任一项所述方法的步骤。
本申请还提供一种种计算机可读存储介质,其上存储有计算机程序,,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请的风险概率的计算方法、装置和计算机设备,获取到企业以及与企业关联的关联企业的网络上的碎片化数据,得到的数据维度丰富,并进行了数据的多种预处理工程,然后使用传染病模型对企业关联关系中的风险传导进行分析转换,以数值化的方式体现企业的关联风险,最后使用多层模型融合的方式,提高了预测企业债务违约风险模型的预测正确率。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请实施例提供一种风险概率的计算方法,包括步骤:
S1、获取待预测的企业的企业信息;
S2、依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;
S3、根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;
S4、将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;
S5、将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;
S6、将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;
S7、将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
如上述步骤S1和S2所述,上述企业的企业信息包括企业的名称、注册地址、经营范围、对外投资、股东信息、股权分配等相关信息。企业信息是可以在各个地方的信用公示系统中查询到的企业工商注册基本信息。上述与企业关联的相关企业,是指与企业存在一定相关性的企业,来源于工商注册中的企业股权信息,企业对外投资信息和企业股东信息,当计算机设备获取到上述A企业的名称后,可以到指定的工商管理局网站上查找到其子公司B企业等,同时在工商管理局网站上获取到相关企业的名称、注册地址、经营范围、对外投资、股东信息、股权分配等相关信息等信息。
如上述步骤S3所述,即为利用企业信息、各关联企业信息到互联网上查找碎片化信息的过程。获取在网络上可以获取到的全部信息,然后在全部信息中检索与企业信息相关的信息形成第一组碎片化信息,在全部信息中检索与各关联企业信息相关的信息形成与各关联企业信息对应的多组第二组碎片化信息。本实施例中,因为是全网信息检索,所以各碎片化信息仅为文本信息,可以快速的获取。
如上述步骤S4所述,即为将得到的第一组碎片化信息进行信息分类,以及将各所述第二组碎片化信息进行信息分类。针对第一组碎片化信息进行信息分类的方法和针对第二组碎片化信息进行信息分类的方法相同,比如使用现有技术中的SVM(Support VectorMachine,支持向量机,是常见的一种判别方法)或GBDT(Gradient Boosted DecisionTrees,是一种迭代的决策树算法)作为分类算法进行分类。上述第一组碎片化信息和第二组碎片化信息中一般包括工商,新闻/舆情,招聘/简历,法务,专利/商标,招投标信息,人行征信报告等类型的信息。
如上述步骤S5所述,本申请中会使用到数学模型进行企业债务违约风险的预测,所以需要将分类后的分类信息集合进行数字化,得到符合上述数学模型的数据。具体地,针对不同类别的信息需要运用不同的转换方法,例如企业新闻、法务等方面的文本信息是割裂的独立信息,在模型中会以类别统计加上时序的方式转换为数值型特征,比如近一个月内企业负面新闻数量/近三个月内企业经济纠纷类案件数量;又比如企业的类别属性数据会以独热编码的方式进行维度拓展,企业的工商状态分为存续、注销、检查三种类别,在数据转换时会将该类信息分为三个数据维度,当企业工商状态为其中一种时,将该维度值置为1,其它维度置为0等等。
如上述步骤S6所述,上述传染病模型(SIR)是对传染病传播范围进行分析的一种数学模型,后被运用于网络拓扑关系的状态分析中。在传染病模型中,通过部分算法的修正,运用于企业关系网络的风险传播计算,该模型将节点状态分为三个类别:易感状态(S)、风险状态(I)、移出状态(R),易感状态的节点与风险状态的节点如果存在链接关系,则有一定概率被风险状态传染而导致风险的扩散,不同的风险类型会有不同的风险数值,而关联关系的紧密程度关系到传播的概率,风险状态的节点可以一定概率的将风险传染给关联的节点;风险状态的节点在经历一段时间之后会不断减低风险等级,在一段时间过后,移出状态的节点会再复原成为易感状态。本申请利用传染病模型将上述的第一数据矩阵、以及各第二数据矩阵进行汇总计算,将关联企业的数据向主体监控的上述企业进行转换,使得关联信息及风险以数据特征的形式表现到主体监控的企业中。
如上述步骤S7所述,即为将上述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到企业的债务违约风险概率值。上述预测企业债务违约风险模型可以是通过已知的企业债务违约和未违约的训练样本训练而得的神经网络模型,该企业债务违约的训练样本来自于对各类债务违约纠纷的法务信息的收集,将具有违约法务纠纷的企业作为训练的负样本进行模型的训练。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤S7,包括:
S71、使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;
S72、抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;
S73、将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
在本实施例中,上述预测企业债务违约风险模型是一个多层模型融合的模型,第一层是以xgboosting的方式对预测模型中全量数据特征(第三数据矩阵)进行重要性排序,抽取其中的重要特征维度,将高维数据进行降维;第二层则是使用模型融合的方式,将多个基准预测模型以boosting的方式进行融合,进行最后的结果预测。上述基准模型是指使用独立算法的机器学习算法模型,例如单独使用SVM、GBDT、xgboosting等方法;模型融合就是将多个基准模型以样本数据中的预测误差倒数的比例计算权重,使用线性融合的方式将多个基准模型的预测值进行求和,最后得到的预测值作为模型输出。
在一个实施例中,上述将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合的步骤S4,包括:
S41、使用预设的分词模型对第一组碎片化信息进行分词处理,得到第一组分词集合,以及使用所述分词模型对各第二组碎片化信息进行分词处理,得到与各第二组碎片化信息对应的第二组分词集合;
S42、使用预设的词向量模型,将第一组分词集合中的各分词进行向量化,得到第一组向量化数据,以及使用所述词向量模型,将各第二组分词集合中的各分词进行向量化,得到与各第二组碎片化信息对应的多组第二组向量化数据;
S43、对第一组向量化数据进行降维处理,得到第一组碎片化信息的第一向量化表示,以及对各第二组向量化数据进行降维处理,得到各第二组碎片化信息的第二向量化表示;
S44、利用预设的分类模型分别对第一向量化表示和各第二向量化表示进行分类,到所述第一组分类信息集合和各所述第二组分类信息集合。
在本实施例中,主要思路是将文本向量化,再使用机器学习中的分类模型对文本进行类别的划分;具体的实施步骤如下:第一步先使用分词模型对每一组的碎片化信息进行分词,并使用word2vector的方法训练词向量模型,将词语向量化,第二步是使用TF-IDF(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)模型抽取每一篇文档中的等量关键词构成文档的高维向量表示,第三步是使用LSI(Latent Semantic Indexing,潜在语义索引)、SVD(singular value decomposition,奇异值分解)对文档向量进行降维处理,最后得到每一篇文档的向量化表示。在分类过程中,先确定每一组碎片化信息中待处理任务中需要划分的类别,例如新闻文本处理中针对新闻对企业影响划分为企业投资、企业扩张、战略合作等类别,接下来使用人工标注的部分样本数据建立文本的分类模型,在这里针对文档向量数据维度较高的特点主要选择SVM或GBDT作为分类算法。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤S7之后,包括:
S8、判断所述企业的债务违约风险概率值是否大于预设的风险概率阈值;
S9、若是,则生成可视化报警信息。
在本实施例中,上述企业的债务违约风险概率值的范围为0-100%,上述风险概率阈值一般为30%,即当所述企业的债务违约风险概率值大于30%的时候,即会生成可视化的报警信息。已提醒相关用户对上述企业的贷款金额和贷款行为等控制。
在一个实施例中,上述根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息的步骤S3,包括:
S31、以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息。
在本实施例中,以企业的名称和/或企业股东为关键字进行全网检索,得到碎片化信息与企业的关联性更强,最终预测的结果也会更加准确。
在一个实施例中,上述以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息的步骤S31,包括:
S311、以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,当所述企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第一组碎片化信息中;以及,以所述关联企业的名称和/或企业股东为关键字全网检索得到所述关联企业的碎片化信息,当所述关联企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第二组碎片化信息中。
在本实施例中,新闻类的信息一般都是时效性比较强的信息,所以选择最近一段时间的新型信息即可,可以减少数据的处理量,从而提高预测的速度,还不会降低预测的准确度。
本申请的风险概率的计算方法,获取到企业以及与企业关联的关联企业的网络上的碎片化数据,得到的数据维度丰富,并进行了数据的多种预处理工程,然后使用传染病模型对企业关联关系中的风险传导进行分析转换,以数值化的方式体现企业的关联风险,最后使用多层模型融合的方式,提高了预测企业债务违约风险模型的预测正确率。
参照图2,本申请实施例提供一种风险概率的计算装置,包括步骤:
第一获取单元10,用于获取待预测的企业的企业信息;
第二获取单元20,用于依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;
第三获取单元30,用于根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;
分类单元40,用于将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;
数字化单元50,用于将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;
融合单元60,用于将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;
计算单元70,用于将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
如上述第一获取单元10和第二获取单元20,上述企业的企业信息包括企业的名称、注册地址、经营范围、对外投资、股东信息、股权分配等相关信息。企业信息是可以在各个地方的信用公示系统中查询到的企业工商注册基本信息。上述与企业关联的相关企业,是指与企业存在一定相关性的企业,来源于工商注册中的企业股权信息,企业对外投资信息和企业股东信息,当计算机设备获取到上述A企业的名称后,可以到指定的工商管理局网站上查找到其子公司B企业等,同时在工商管理局网站上获取到相关企业的名称、注册地址、经营范围、对外投资、股东信息、股权分配等相关信息等信息。
如上述第三获取单元30,即为利用企业信息、各关联企业信息到互联网上查找碎片化信息的单元。获取在网络上可以获取到的全部信息,然后在全部信息中检索与企业信息相关的信息形成第一组碎片化信息,在全部信息中检索与各关联企业信息相关的信息形成与各关联企业信息对应的多组第二组碎片化信息。本实施例中,因为是全网信息检索,所以各碎片化信息仅为文本信息,可以快速的获取。
如上述分类单元40,即为将得到的第一组碎片化信息进行信息分类,以及将各所述第二组碎片化信息进行信息分类的单元。针对第一组碎片化信息进行信息分类的方法和针对第二组碎片化信息进行信息分类的方法相同,比如使用现有技术中的SVM(SupportVector Machine,支持向量机,是常见的一种判别方法)或GBDT(Gradient BoostedDecision Trees,是一种迭代的决策树算法)作为分类算法进行分类。上述第一组碎片化信息和第二组碎片化信息中一般包括工商,新闻/舆情,招聘/简历,法务,专利/商标,招投标信息,人行征信报告等类型的信息。
如上述数字化单元50,本申请中会使用到数学模型进行企业债务违约风险的预测,所以需要将分类后的分类信息集合进行数字化,得到符合上述数学模型的数据。具体地,针对不同类别的信息需要运用不同的转换方法,例如企业新闻、法务等方面的文本信息是割裂的独立信息,在模型中会以类别统计加上时序的方式转换为数值型特征,比如近一个月内企业负面新闻数量/近三个月内企业经济纠纷类案件数量;又比如企业的类别属性数据会以独热编码的方式进行维度拓展,企业的工商状态分为存续、注销、检查三种类别,在数据转换时会将该类信息分为三个数据维度,当企业工商状态为其中一种时,将该维度值置为1,其它维度置为0等等。
如上述融合单元60,上述传染病模型(SIR)是对传染病传播范围进行分析的一种数学模型,后被运用于网络拓扑关系的状态分析中。在传染病模型中,通过部分算法的修正,运用于企业关系网络的风险传播计算,该模型将节点状态分为三个类别:易感状态(S)、风险状态(I)、移出状态(R),易感状态的节点与风险状态的节点如果存在链接关系,则有一定概率被风险状态传染而导致风险的扩散,不同的风险类型会有不同的风险数值,而关联关系的紧密程度关系到传播的概率,风险状态的节点可以一定概率的将风险传染给关联的节点;风险状态的节点在经历一段时间之后会不断减低风险等级,在一段时间过后,移出状态的节点会再复原成为易感状态。本申请利用传染病模型将上述的第一数据矩阵、以及各第二数据矩阵进行汇总计算,将关联企业的数据向主体监控的上述企业进行转换,使得关联信息及风险以数据特征的形式表现到主体监控的企业中。
如上述计算单元70,即为将上述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到企业的债务违约风险概率值。上述预测企业债务违约风险模型可以是通过已知的企业债务违约和未违约的训练样本训练而得的神经网络模型,该企业债务违约的训练样本来自于对各类债务违约纠纷的法务信息的收集,将具有违约法务纠纷的企业作为训练的负样本进行模型的训练。
在一个实施例中,上述计算单元70,包括:
排序模块,用于使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;
抽取模块,用于抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;
计算模块,用于将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
在本实施例中,上述预测企业债务违约风险模型是一个多层模型融合的模型,第一层是以xgboosting的方式对预测模型中全量数据特征(第三数据矩阵)进行重要性排序,抽取其中的重要特征维度,将高维数据进行降维;第二层则是使用模型融合的方式,将多个基准预测模型以boosting的方式进行融合,进行最后的结果预测。上述基准模型是指使用独立算法的机器学习算法模型,例如单独使用SVM、GBDT、xgboosting等方法;模型融合就是将多个基准模型以样本数据中的预测误差倒数的比例计算权重,使用线性融合的方式将多个基准模型的预测值进行求和,最后得到的预测值作为模型输出。
在一个实施例中,上述分类单元40,包括:
分词模块,用于使用预设的分词模型对第一组碎片化信息进行分词处理,得到第一组分词集合,以及使用所述分词模型对各第二组碎片化信息进行分词处理,得到与各第二组碎片化信息对应的第二组分词集合;
向量化模块,用于使用预设的词向量模型,将第一组分词集合中的各分词进行向量化,得到第一组向量化数据,以及使用所述词向量模型,将各第二组分词集合中的各分词进行向量化,得到与各第二组碎片化信息对应的多组第二组向量化数据;
降维模块,用于对第一组向量化数据进行降维处理,得到第一组碎片化信息的第一向量化表示,以及对各第二组向量化数据进行降维处理,得到各第二组碎片化信息的第二向量化表示;
分类模块,用于利用预设的分类模型分别对第一向量化表示和各第二向量化表示进行分类,到所述第一组分类信息集合和各所述第二组分类信息集合。
在本实施例中,主要思路是将文本向量化,再使用机器学习中的分类模型对文本进行类别的划分;具体的实施步骤如下:第一步先使用分词模型对每一组的碎片化信息进行分词,并使用word2vector的方法训练词向量模型,将词语向量化,第二步是使用TF-IDF(term frequency–inverse document frequency,是一种用于信息检索与数据挖掘的常用加权技术)模型抽取每一篇文档中的等量关键词构成文档的高维向量表示,第三步是使用LSI(Latent Semantic Indexing,潜在语义索引)、SVD(singular value decomposition,奇异值分解)对文档向量进行降维处理,最后得到每一篇文档的向量化表示。在分类过程中,先确定每一组碎片化信息中待处理任务中需要划分的类别,例如新闻文本处理中针对新闻对企业影响划分为企业投资、企业扩张、战略合作等类别,接下来使用人工标注的部分样本数据建立文本的分类模型,在这里针对文档向量数据维度较高的特点主要选择SVM或GBDT作为分类算法。
在一个实施例中,上述风险概率的计算装置,还包括:
判断单元,用于判断所述企业的债务违约风险概率值是否大于预设的风险概率阈值;
报警单元,用于若所述企业的债务违约风险概率值大于预设的风险概率阈值,则生成可视化报警信息。
在本实施例中,上述企业的债务违约风险概率值的范围为0-100%,上述风险概率阈值一般为30%,即当所述企业的债务违约风险概率值大于30%的时候,即会生成可视化的报警信息。已提醒相关用户对上述企业的贷款金额和贷款行为等控制。
在一个实施例中,上述第三获取单元30,包括:
检索获取模块,用于以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息。
在本实施例中,以企业的名称和/或企业股东为关键字进行全网检索,得到碎片化信息与企业的关联性更强,最终预测的结果也会更加准确。
在一个实施例中,上述检索获取模块,包括:
检索获取子模块,用于以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,当所述企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第一组碎片化信息中;以及,以所述关联企业的名称和/或企业股东为关键字全网检索得到所述关联企业的碎片化信息,当所述关联企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第二组碎片化信息中。
在本实施例中,新闻类的信息一般都是时效性比较强的信息,所以选择最近一段时间的新型信息即可,可以减少数据的处理量,从而提高预测的速度,还不会降低预测的准确度。
本申请的风险概率的计算装置,获取到企业以及与企业关联的关联企业的网络上的碎片化数据,得到的数据维度丰富,并进行了数据的多种预处理工程,然后使用传染病模型对企业关联关系中的风险传导进行分析转换,以数值化的方式体现企业的关联风险,最后使用多层模型融合的方式,提高了预测企业债务违约风险模型的预测正确率。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是上述的管理服务器,或者管理节点对应的服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种数学模型、碎片化信息等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风险概率的计算方法。
上述处理器执行上述风险概率的计算方法,包括步骤:获取待预测的企业的企业信息;依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤,包括:使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
在一个实施例中,上述将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合的步骤,包括:使用预设的分词模型对第一组碎片化信息进行分词处理,得到第一组分词集合,以及使用所述分词模型对各第二组碎片化信息进行分词处理,得到与各第二组碎片化信息对应的第二组分词集合;使用预设的词向量模型,将第一组分词集合中的各分词进行向量化,得到第一组向量化数据,以及使用所述词向量模型,将各第二组分词集合中的各分词进行向量化,得到与各第二组碎片化信息对应的多组第二组向量化数据;对第一组向量化数据进行降维处理,得到第一组碎片化信息的第一向量化表示,以及对各第二组向量化数据进行降维处理,得到各第二组碎片化信息的第二向量化表示;利用预设的分类模型分别对第一向量化表示和各第二向量化表示进行分类,到所述第一组分类信息集合和各所述第二组分类信息集合。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤之后,包括:判断所述企业的债务违约风险概率值是否大于预设的风险概率阈值;若是,则生成可视化报警信息。
在一个实施例中,上述根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息的步骤,包括:以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息。
在一个实施例中,上述以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息的步骤,包括:以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,当所述企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第一组碎片化信息中;以及,以所述关联企业的名称和/或企业股东为关键字全网检索得到所述关联企业的碎片化信息,当所述关联企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第二组碎片化信息中。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例的计算机设备,获取到企业以及与企业关联的关联企业的网络上的碎片化数据,得到的数据维度丰富,并进行了数据的多种预处理工程,然后使用传染病模型对企业关联关系中的风险传导进行分析转换,以数值化的方式体现企业的关联风险,最后使用多层模型融合的方式,提高了预测企业债务违约风险模型的预测正确率。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种风险概率的计算方法,包括步骤:获取待预测的企业的企业信息;依据所述企业信息,获取与所述企业相关联的各关联企业,以及各所述关联企业的关联企业信息;根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息;其中,所述第一组碎片化信息和第二组碎片化信息均为文本信息;将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合;将所述第一组分类信息集合进行数字化,得到第一数据矩阵,以及将各所述第二组分类信息集合进行数字化,得到多个第二数据矩阵;将所述第一数据矩阵和各所述第二数据矩阵输入到预设的传染病模型中进行计算,得到融合后的第三数据矩阵;将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值。
上述风险概率的计算方法,获取到企业以及与企业关联的关联企业的网络上的碎片化数据,得到的数据维度丰富,并进行了数据的多种预处理工程,然后使用传染病模型对企业关联关系中的风险传导进行分析转换,以数值化的方式体现企业的关联风险,最后使用多层模型融合的方式,提高了预测企业债务违约风险模型的预测正确率。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤,包括:使用xgboosting算法对所述第三数据矩阵进行预建模,以对所述第三数据矩阵中的各数据特征维度的权重进行排序;抽取指定排名之前的数据特征维度作为后续模型训练的输入参数;将所述输入参数分别输入到多个预设的基准模型中进行计算,并以boosting的方式进行融合得到所述企业的债务违约风险概率值。
在一个实施例中,上述将所述第一组碎片化信息进行信息分类,得到信息分类后的第一组分类信息集合,以及将各所述第二组碎片化信息进行信息分类,得到信息分类后的多个第二组分类信息集合的步骤,包括:使用预设的分词模型对第一组碎片化信息进行分词处理,得到第一组分词集合,以及使用所述分词模型对各第二组碎片化信息进行分词处理,得到与各第二组碎片化信息对应的第二组分词集合;使用预设的词向量模型,将第一组分词集合中的各分词进行向量化,得到第一组向量化数据,以及使用所述词向量模型,将各第二组分词集合中的各分词进行向量化,得到与各第二组碎片化信息对应的多组第二组向量化数据;对第一组向量化数据进行降维处理,得到第一组碎片化信息的第一向量化表示,以及对各第二组向量化数据进行降维处理,得到各第二组碎片化信息的第二向量化表示;利用预设的分类模型分别对第一向量化表示和各第二向量化表示进行分类,到所述第一组分类信息集合和各所述第二组分类信息集合。
在一个实施例中,上述将所述第三数据矩阵输入到预设的预测企业债务违约风险模型中进行计算,得到所述企业的债务违约风险概率值的步骤之后,包括:判断所述企业的债务违约风险概率值是否大于预设的风险概率阈值;若是,则生成可视化报警信息。
在一个实施例中,上述根据所述企业信息获取所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业信息分别获取各所述关联企业的碎片化信息,得到多组的第二组碎片化信息的步骤,包括:以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息。
在一个实施例中,上述以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,得到第一组碎片化信息,以及根据各所述关联企业的名称和/或企业股东为关键字全网检索得到各所述关联企业的碎片化信息,得到多组第二组碎片化信息的步骤,包括:以所述企业的名称和/或企业股东为关键字全网检索得到所述企业的碎片化信息,当所述企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第一组碎片化信息中;以及,以所述关联企业的名称和/或企业股东为关键字全网检索得到所述关联企业的碎片化信息,当所述关联企业的碎片化信息中存在新闻类信息时,选择指定时间跨度内的新闻信息加入到所述第二组碎片化信息中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。