发明内容
针对上述问题,本发明旨在提供一种基于区块链、舆情和核心算法的金融风控系统。
本发明创造的目的通过以下技术方案实现:
基于区块链、舆情和核心算法的金融风控系统,包括舆情信息预设单元、舆情信息采集单元、舆情信息优化单元、舆情信息处理单元、舆情分类单元、区块链存储单元和风险评估单元;
舆情信息预设单元:用户通过舆情信息预设单元预设与其待投资企业相关的关键词;
舆情信息采集单元:用于通过网络爬虫从网络上采集与用户预设的关键词相关的舆情文章;
舆情信息优化单元:用于对采集的舆情文章进行清洗,去除舆情文章中的垃圾信息;
舆情信息处理单元:用于将优化处理后的舆情文章进行分词处理,获得舆情文章对应的词汇序列,将所述词汇序列转换成词向量序列;
舆情分类单元:采用训练好的支持向量机模型根据所述舆情文章的词向量序列获得所述舆情文章对应的情感标签;
区块链存储单元:用于存储所述舆情文章和其对应的情感标签;
风险评估单元:用于从区块链存储单元中调取所述舆情文章和其对应的情感标签,并根据所述舆情文章和其对应的情感标签对用户待投资企业的信用进行评估。
优选地,所述情感标签包括正面、负面和中性。
优选地,舆情分类单元采用训练好的支持向量机模型根据舆情文章的词向量序列获得舆情文章对应的情感标签,采用下列方式确定用于训练和测试舆情分类单元中的支持向量机的样本集:
利用舆情信息采集单元通过网络爬虫从网络上采集与用户预设的关键词相关的历史舆情文章,利用舆情信息优化单元对采集的历史舆情文章进行清洗,去除所述历史舆情文章中的垃圾信息,利用舆情信息处理单元将优化处理后的历史舆情文章进行分词处理,获得所述历史舆情文章对应的词汇序列,将所述词汇序列转换成词向量序列,对历史舆情文章进行情感标注,将历史舆情文章的词向量序列和其对应的情感标签作为样本集。
优选地,将样本集分为训练样本集和测试样本集,分别采用训练样本集和测试样本集对舆情分类单元采用的支持向量机进行训练和测试,所述历史舆情文章的词向量序列作为支持向量机的输入值,所述情感标签作为支持向量机的输出值。
优选地,在利用训练样本集对舆情分类单元采用的支持向量机进行训练的过程中,采用粒子群算法对支持向量机的惩罚因子和核函数进行寻优,设Vi(t+1)和Xi(t+1)分别表示粒子群中第i个粒子在第(t+1)次迭代时的步长和位置,Vi(t+1)和Xi(t+1)的表达式分别为:
Vi(t+1)=qi(t)Vi(t)+c1rand1(Pbesti(t)-Xi(t))+c2rand2(Qbest(t)-Xi(t))
Xi(t+1)=Xi(t)+Vi(t+1)
式中,Vi(t)和Xi(t)分别表示粒子群中第i个粒子在第t次迭代时的步长和位置,c1和c2分别表示学习因子,rand1和rand2分别表示产生(0,1)之间的随机数,Pbesti(t)表示粒子群中第i个粒子在第t次迭代时的历史最优位置,Qbest(t)表示粒子群在第t次迭代时的全局最优位置,qi(t)表示粒子群中第i个粒子在第t次迭代时的惯性权重因子。
优选地,在粒子群的迭代更新后,将粒子群中粒子按其适应度函数值由高到低进行排序组成序列,并依次确定所述序列中各粒子在当前迭代时对应的惯性权重因子,具体为:
设L(t)表示在第t次迭代更新后将粒子群中粒子按其适应度函数值由高到低进行排序组成的序列,且L(t)=(jt,j=1,2,...M},其中,jt表示序列L(t)中的第j个粒子,M表示粒子群中的粒子数,采用下列公式对粒子jt进行检测:
式中,Yj(t)表示粒子jt在第t次迭代更新后的检测函数,Xj(t)表示粒子jt在第t次迭代时的位置,设(j+1)t表示序列L(t)中的第(j+1)个粒子,Xj+1(t)表示粒子(j+1)t在第t次迭代时的位置,d(Xj(t),Xj+1(t))表示位置Xj(t)和位置Xj+1(t)之间的欧式距离,设lt表示序列L(t)中的第l个粒子,(l+1)t表示序列L(t)中的第(l+1)个粒子,Xl(t)表示粒子lt在第t次迭代时的位置,Xl+1(t)表示粒子(l+1)t在第t次迭代时的位置,d(Xl(t),Xl+1(t))表示位置Xl(t)和位置Xl+1(t)之间的欧式距离,t表示粒子群的当前迭代次数,Tmax表示粒子群的最大迭代次数;
当检测到粒子jt在第t次迭代更新后满足Yj(t)>0时,则令粒子jt在第t次迭代时的惯性权重因子qj(t)的取值为:
当检测到粒子jt在第t次迭代更新后满足Yj(t)≤0时,则令粒子jt在第t次迭代时的惯性权重因子qj(t)的取值为:
式中,q
min和q
max分别表示粒子群的最小惯性权重因子值和最大惯性权重因子值,q
min的值取0.4,q
max的值取0.9,U
j(t)表示粒子j
t在第t次迭代更新后满足Y
j(t)≤0的情况下引入的惯性权重因子的调节值,且令
其中,d(X
j(t),Qbest(t))表示位置X
j(t)和全局最优位置Qbest(t)之间的欧式距离,d(X
j(t),X
l(t))表示位置X
j(t)和位置X
l(t)之间的欧式距离,
表示产生0到
之间的随机数。
优选地,所述风险评估单元用于根据所述舆情文章和其对应的情感标签对用户待投资企业的信用进行评估,具体为:
设舆情信息采集单元采集的与用户预设的关键词相关的舆情文章的数量为N,Z(N)表示这N篇舆情文章通过舆情分类单元获得正面标签的舆情文章数,F(N)表示这N篇舆情文章通过舆情分类单元获得负面标签的舆情文章数,K(N)表示这N篇舆情文章通过舆情分类单元获得中性标签的舆情文章数,当
时,风险评估单元判定用户待投资企业的信用为安全,当
时,风险评估单元判定用户待投资企业的信用为危险。
本发明创造的有益效果:
本发明设计了一种通过企业相关的舆情信息评估企业信用的方法,实现了通过动态跟踪与企业相关的舆情信息,及时了解待投资企业的信用信息,为用户提供及时的警示和告警,从而提高投资的安全性,避免风险损失。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的基于区块链、舆情和核心算法的金融风控系统,包括舆情信息预设单元、舆情信息采集单元、舆情信息优化单元、舆情信息处理单元、舆情分类单元、区块链存储单元和风险评估单元;
舆情信息预设单元:用户通过舆情信息预设单元预设与其待投资企业相关的关键词;
舆情信息采集单元:用于通过网络爬虫从网络上采集与用户预设的关键词相关的舆情文章;
舆情信息优化单元:用于对采集的舆情文章进行清洗,去除舆情文章中的垃圾信息;
舆情信息处理单元:用于将优化处理后的舆情文章进行分词处理,获得舆情文章对应的词汇序列,将所述词汇序列转换成词向量序列;
舆情分类单元:采用训练好的支持向量机模型根据所述舆情文章的词向量序列获得所述舆情文章对应的情感标签;
区块链存储单元:用于存储所述舆情文章和其对应的情感标签;
风险评估单元:用于从区块链存储单元调取所述舆情文章和其对应的情感标签,并根据所述舆情文章和其对应的情感标签对用户待投资企业的信用进行评估。
优选地,所述情感标签包括正面、负面和中性。
本优选实施例设计了一种通过企业相关的舆情信息评估企业信用的方法,实现了通过动态跟踪与企业相关的舆情信息,及时了解用户待投资企业的信用信息,为用户提供及时的警示和告警,从而提高投资的安全性,避免风险损失。
优选地,舆情分类单元采用训练好的支持向量机模型根据舆情文章的词向量序列获得舆情文章对应的情感标签,采用下列方式确定用于训练和测试舆情分类单元中的支持向量机的样本集:
利用舆情信息采集单元通过网络爬虫从网络上采集与用户预设的关键词相关的历史舆情文章,利用舆情信息优化单元对获取的历史舆情文章进行清洗,去除所述历史舆情文章中的垃圾信息,利用舆情信息处理单元将优化处理后的历史舆情文章进行分词处理,获得所述历史舆情文章对应的词汇序列,将所述词汇序列转换成词向量序列,对历史舆情文章进行情感标注,将历史舆情文章的词向量序列和其对应的情感标签作为样本集。
优选地,将样本集分为训练样本集和测试样本集,分别采用训练样本集和测试样本集对舆情分类单元采用的支持向量机进行训练和测试,所述历史舆情文章的词向量序列作为支持向量机的输入值,所述情感标签作为支持向量机的输出值。
优选地,在利用训练样本集对舆情分类单元采用的支持向量机进行训练的过程中,以径向基函数作为支持向量机的核函数,采用粒子群算法对支持向量机的惩罚因子和核函数进行寻优,选用支持向量机训练样本的分类误差作为粒子群算法的适应度函数,设Vi(t+1)和Xi(t+1)表示粒子群中第i个粒子在第(t+1)次迭代时的步长和位置,Vi(t+1)和Xi(t+1)的表达式分别为:
Vi(t+1)=qi(t)Vi(t)+c1rand1(Pbesti(t)-Xi(t))+c2rand2(Qbest(t)-Xi(t))
Xi(t+1)=Xi(t)+Vi(t+1)
式中,Vi(t)和Xi(t)分别表示粒子群中第i个粒子在第t次迭代时的步长和位置,c1和c2分别表示学习因子,rand1和rand2分别表示产生(0,1)之间的随机数,Pbesti(t)表示粒子群中第i个粒子在第t次迭代时的历史最优位置,Qbest(t)表示粒子群在第t次迭代时的全局最优位置,qi(t)表示粒子群中第i个粒子在第t次迭代时的惯性权重因子。
本优选实施例采用支持向量机根据舆情文章的词向量序列获得舆情文章对应的情感标签,考虑到支持向量机的惩罚参数及核参数的选择直接影响到支持向量机的性能,本优选实施例采用粒子群算法解决支持向量机的参数选择问题,实现了支持向量机参数选择的自动化,使得支持向量机具有更好的分类能力。
优选地,在粒子群的迭代更新后,将粒子群中粒子按其适应度函数值由高到低进行排序组成序列,并依次确定所述序列中各粒子在当前迭代时对应的惯性权重因子,具体为:
设L(t)表示在第t次迭代更新后将粒子群中粒子按其适应度函数值由高到低进行排序组成的序列,且L(t)={jt,j=1,2,...M},其中,jt表示序列L(t)中的第j个粒子,M表示粒子群中的粒子数,采用下列公式对粒子jt进行检测:
式中,Yj(t)表示粒子jt在第t次迭代更新后的检测函数,Xj(t)表示粒子jt在第t次迭代时的位置,设(j+1)t表示序列L(t)中的第(j+1)个粒子,Xj+1(t)表示粒子(j+1)t在第t次迭代时的位置,d(Xj(t),Xj+1(t))表示位置Xj(t)和位置Xj+1(t)之间的欧式距离,设lt表示序列L(t)中的第l个粒子,(l+1)t表示序列L(t)中的第(l+1)个粒子,Xl(t)表示粒子lt在第t次迭代时的位置,Xl+1(t)表示粒子(l+1)t在第t次迭代时的位置,d(Xl(t),Xl+1(t))表示位置Xl(t)和位置Xl+1(t)之间的欧式距离,t表示粒子群的当前迭代次数,Tmax表示粒子群的最大迭代次数;
当检测到粒子jt在第t次迭代更新后满足Yj(t)>0时,则令粒子jt在第t次迭代时的惯性权重因子qj(t)的取值为:
当检测到粒子jt在第t次迭代更新后满足Yj(t)≤0时,则令粒子jt在第t次迭代时的惯性权重因子qj(t)的取值为:
式中,q
min和q
max分别表示粒子群的最小惯性权重因子值和最大惯性权重因子值,q
min的值取0.4,q
max的值取0.9,U
j(t)表示粒子j
t在第t次迭代更新后满足Y
j(t)≤0的情况下引入的惯性权重因子的调节值,且令
其中,d(X
j(t),Qbest(t))表示位置X
j(t)和全局最优位置Qbest(t)之间的欧式距离,d(X
j(t),X
l(t))表示位置X
j(t)和位置X
l(t)之间的欧式距离,
表示产生0到
之间的随机数。
本优选实施例公开了粒子群中各粒子的惯性权重因子的取值方式,在本优选实施例定义的粒子群算法中,粒子当前的适应度函数值越小,表明粒子的寻优能力越好,当粒子的适应度函数值较为接近时,表明粒子的寻优性能较为相近,当一个区域中存在多个寻优性能相近的粒子进行寻优时,如果令这些寻优性能相近的粒子继续按照原有的步长对该区域进行寻优,容易减弱粒子群的多样性从而增加粒子群陷入局部极值的可能性的同时,减小了粒子群的收敛速度,针对上述情况,本优选实施例提出的惯性权重因子的取值方式的作用是为了在一个区域中保留寻优性能相差较大的粒子对该区域进行寻优,从而保证了对该区域的局部寻优精度的同时,将粒子群中寻优性能相近的粒子尽可能的分散开来,从而增加粒子群的多样性避免粒子群陷入局部极值,并且增加粒子群的收敛速度,具体为:
当一个区域中存在多个寻优性能相近的粒子时,寻优性能较好的粒子相较于寻优性能较差的粒子具有较大概率寻找到全局最优解,此时令寻优性能较好的粒子继续对该区域进行局部寻优,而令寻优性能较差的粒子采用较大的步长离开该区域去对其他区域进行寻优,即在保证了粒子群的局部寻优精度的同时,加强了粒子群的全局寻优能力;在令寻优性能较差的粒子以较大的步长离开该区域去对其他区域进行寻优时,引入调节值调节所述粒子的惯性权重因子值的大小,并利用粒子和全局最优解之间的欧式距离来控制调节值的取值范围,当粒子和全局最优解的距离较近时,随机数的产生范围较小,使得所述粒子增长较小的步长进行寻优,加强全局最优解附近其他区域的寻优,当粒子和全局最优解的距离较远时,随机数的产生范围较大,使得所述粒子增长较大的步长脱离该区域以加强全局寻优,即利用粒子和全局最优解的欧式距离控制粒子的惯性权重因子值的增长范围,使得粒子群能够兼顾局部寻优和全局寻优的同时,增加粒子群的多样性,从而提高了粒子群的寻优能力;综上所述,本优选实施例定义的粒子惯性权重因子的取值方式,使得在一个区域中保留了寻优性能相差较大的粒子,并且当该区域中存在多个寻优性能相近的粒子时,保留这些寻优性能相近粒子中寻优性能最好的粒子对该区域继续进行局部寻优,使其他和该寻优性能最好粒子的寻优性能相近的粒子以较大的步长离开该区域,从而在保证了粒子群对该区域的局部寻优精度的同时,增加了粒子群的多样性,避免了粒子群陷入局部极值的缺陷,并且增加了粒子群的收敛速度。
优选地,所述风险评估单元用于根据所述舆情文章和其对应的情感标签对用户待投资企业的信用进行评估,具体为:
设舆情信息采集单元采集的与用户预设的关键词相关的舆情文章的数量为N,Z(N)表示这N篇舆情文章通过舆情分类单元获得正面标签的舆情文章数,F(N)表示这N篇舆情文章通过舆情分类单元获得负面标签的舆情文章数,K(N)表示这N篇舆情文章通过舆情分类单元获得中性标签的舆情文章数,当
时,风险评估单元判定用户待投资企业的信用为安全,当
时,风险评估单元判定用户待投资企业的信用为危险。
本优选实施例根据所述舆情文章和其对应的情感标签对用户待投资企业的信用进行评估,实现了通过动态跟踪与企业相关的舆情信息,及时了解待投资企业的信用信息。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。