CN108197178A

CN108197178A - 一种企业风险评估方法

Info

Publication number: CN108197178A
Application number: CN201711400594.5A
Authority: CN
Inventors: 侯朋; 李勇波; 季统凯
Original assignee: G Cloud Technology Co Ltd
Current assignee: G Cloud Technology Co Ltd
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2018-06-22

Abstract

本发明涉及大数据技术领域，尤其是一种企业风险评估方法。本发明所述的方法包括数据采集、风险评分和风险评分校正；所述的数据采集是在互联网上采集企业相关的文本数据；所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。本发明实现了对企业风险的全面分析、评估。

Description

一种企业风险评估方法

技术领域

本发明涉及大数据技术领域，尤其是一种企业风险评估方法。

背景技术

随着信息技术的飞速发展尤其是互联网大数据的发展以及普及，人类进入了瞬息万变的信息时代。任何企业都处在一个信息庞大的环境中，企业周围充斥着互联网数据、政府数据、内部系统数据等各种各样的数据。在企业发展过程中欠薪、倒闭等问题时有发生，这对企业的生产经营以及社会环境造成不良影响。

发明内容

本发明解决的技术问题在于一种基于多模型融合的企业风险评估方法；实现对企业存在风险进行全面的分析、评估。

本发明解决上述技术问题的技术方案是：

所述的方法包括数据采集、风险评分和风险评分校正；

所述的数据采集是在互联网上采集企业相关的文本数据；

所述的风险评分是先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；

所述的评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正；根据获得的评分判断企业的风险。

所述的文本数据的采集流程是：

第一步，获取待采集的URL；

第二步，解析DNS找到服务器的IP；

第三步，抓取网页数据获取网页html代码；

第四步，解析页面html代码获取文本内容；

第五步，对抓取的数据进行文本抽取，链接抽取，把抽取的链接加入待采集URL队列；

第六步，进行文本特征提取，生成网页指纹；

第七步，判断内容是否重复；

第八步，如果已有相同文章则放弃抓取返回第一步，否则对正文文本进行分词操作；

第九步，使用crf命名识别找出文章相关联的企业；

第十步，把文章文本内容以及相关的企业存储数据库。

所述的文本倾向性识别流程是：

第一步，人工标注训练样本集；

第二步，对训练样本进行自动分词；

第三步，利用情感词表标识文本中的情感特征词；

第四步，利用TF-IDF公式和情感词本身的情感权重对特征权重进行计算；

第五步，根据文本情感特征和权重得到文档情感向量的特征空间；

第六步，根据企业名称查找相关的文本；

第七步，遍历所有文本进行分词以及特征权重计算，得到文本的情感向量的特征空间；

第八步，利用逻辑分类器对文本进行分类；

第九步，得到文本的倾向性分类结果；

第十步，取企业相关所有文本的情感分析结果的均值作为最后结果。

所述的做线性回归模型得到初始分数是：

第一步，抽取各类数据一级特征，公安数据抽取有无刑事案件以及案件个数作为特征，人力资源数据抽取连续6个月员工人数，社保、供水、供电、国税、地税数据抽取连续6个月缴费数据，把是否欠费、欠费月数作为特征，司法数据抽取有无诉讼以及诉讼个数作为特征，外资数据抽取最近6个月有无外资撤资作为特征；

第二步，抽取二级特征，人力资源、社保、供水、供电、国税、地税连续6个月的环比数、环比率；

第三步，特征处理，对布尔型特征采取{0，1}表示，数值型特征进行归一化；

第四步，人工标注一批数据集作为训练集；

第五步，模型训练，使用Lasso回归，采用梯度下降法进行模型训练；

第六步，根据训练得到的参数对企业进行评分。

所述的对企业进行分数校正流程是：

第一步，构建企业投资关系图；

第二步，采用广度优先搜索方法搜索父节点f、父节点的父节点ff、子节点s、子节点的子节点ss；

第三步，计算最终分数，公式如下：

其中n_f、n_ff、n_s、n_ss分别为父节点、父父节点、子节点、子子节点个数，λ_fi、λ_ffi、λ_si、λ_ssi为第i个父节点、父父节点、子节点、子子节点的投资比例，α_fi、α_ffi、α_si、α_ssi为第i个父节点、父父节点、子节点、子子节点的参数，设置为1/10；R_fi、R_ffi、R_si、R_ssi为第i个父节点、父父节点、子节点、子子节点的初始分数，R为当前节点的初始分数。

本发明使用文本分类模型先对企业相关的互联网数据进行情感倾向分析，再利用企业的政府数据以及互联网数据结果多个维度对企业进行Lasso回归分析得出初始分数，最后考虑到企业之间的关联性对企业评分进行纠正得到最终的评分。经过多个模型融合后提高了企业评测的准确度。

本发明充分利用了互联网数据、政府数据，首先对企业资讯数据做情感倾向性分析，然后使用企业各维度数据做Lasso回归，最后又充分考虑企业之间的关系做最终的分数校正，提高了企业风险评测的准确性。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明分析逻辑流程框图；

图2是本发明数据采集流程图；

图3是本发明风险评分流程图；

图4是本发明企业关系图。

具体实施方式

如图1-4所示，本发明包括数据采集、风险评分、风险评分校正。数据采集负责在互联网上采集企业相关的文本数据；风险评分先根据企业网络数据进行文本倾向性识别，然后根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做Lasso回归模型得到初始分数；评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正。

如图2所示：所述的数据采集负责在互联网上采集企业相关的文本数据，包括如下步骤：

第一步，在URL待采集队列中获取待采集的URL；

第二步，解析DNS找到服务器的IP；

第三步，通过java中URLConnection获取网页数据的html文本内容；

第四步，通过自动或者模板的方式解析页面html代码获取文本内容；

第五步，对抓取的数据进行文本抽取，链接抽取，把本链接加入到已采集列表Visited表，把抽取的链接加入待采集URL队列；

第六步，自动文本特征提取，生成网页SimpleHash指纹；

第七步，计算网页指纹的余弦距离d，如果d＞0.9则表示内容重复否则不重复；

第九步，使用crf命名实体识别找出文章相关联的企业；

第十步，把文章文本内容以及相关的企业存储数据库。

如图3所示：所述的风险评分先根据企业网络数据进行文本倾向性识别，其特征在于：

第一步，人工标注训练样本集；

第二步，对训练样本进行自动分词；

第三步，利用情感词表标识文本中的情感特征词；

第六步，根据企业名称查找相关的文本；

第八步，利用逻辑分类器对文本进行分类；

第九步，得到文本的倾向性分类结果；

第十步，取企业相关所有文本的情感分析结果的均值做为最后结果。

所述的根据企业公安、人力资源、社保、供水、供电、国税、地税、司法、外资数据以及网络数据分析结果做线性回归模型得到初始分数，包括如下步骤：

第四步，人工标注一批数据集作为训练集；

第六步，根据训练得到的参数对企业进行评分。

如图4所示，评分校正充分考虑到企业之间的关系，根据相关企业的初步评分以及企业关系对该企业进行分数校正，包括如下步骤：

第一步，构建企业投资关系图；

第三步，计算最终分数，公式如下

其中n_f、n_ff、n_s、n_ss分别为父节点、父父节点、子节点、子子节点个数，λ_fi、λ_ffi、λ_si、λ_ssj为第i个父节点、父父节点、子节点、子子节点的投资比例，α_fi、α_ffi、α_si、α_ssj为第i个父节点、父父节点、子节点、子子节点的超参数设置为1/10，R_fi、R_ffi、R_si、R_ssj为第i个父节点、父父节点、子节点、子子节点的初始分数，R为当前节点的初始分数。

Claims

1.一种企业风险评估方法，其特征在于：所述的方法包括数据采集、风险评分和风险评分校正；

所述的数据采集是在互联网上采集企业相关的文本数据；

2.根据权利要求1所述的方法，其特征在于：所述的文本数据的采集流程是：

第一步，获取待采集的URL；

第二步，解析DNS找到服务器的IP；

第三步，抓取网页数据获取网页html代码；

第四步，解析页面html代码获取文本内容；

第六步，进行文本特征提取，生成网页指纹；

第七步，判断内容是否重复；

第九步，使用crf命名识别找出文章相关联的企业；

第十步，把文章文本内容以及相关的企业存储数据库。

3.根据权利要求1所述的方法，其特征在于：所述的文本倾向性识别流程是：

第一步，人工标注训练样本集；

第二步，对训练样本进行自动分词；

第三步，利用情感词表标识文本中的情感特征词；

第六步，根据企业名称查找相关的文本；

第八步，利用逻辑分类器对文本进行分类；

第九步，得到文本的倾向性分类结果；

4.根据权利要求2所述的方法，其特征在于：所述的文本倾向性识别流程是：

第一步，人工标注训练样本集；

第二步，对训练样本进行自动分词；

第三步，利用情感词表标识文本中的情感特征词；

第六步，根据企业名称查找相关的文本；

第八步，利用逻辑分类器对文本进行分类；

第九步，得到文本的倾向性分类结果；

5.根据权利要求1至4任一项所述的方法，其特征在于：所述的做线性回归模型得到初始分数是：

第四步，人工标注一批数据集作为训练集；

第六步，根据训练得到的参数对企业进行评分。

6.根据权利要求1至4任一项所述的方法，其特征在于：所述的对企业进行分数校正流程是：

第一步，构建企业投资关系图；

第三步，计算最终分数，公式如下：

7.根据权利要求5所述的方法，其特征在于：所述的对企业进行分数校正流程是：

第一步，构建企业投资关系图；

第三步，计算最终分数，公式如下：