CN109657978A

CN109657978A - 一种风险识别方法和系统

Info

Publication number: CN109657978A
Application number: CN201811556450.3A
Authority: CN
Inventors: 陈玮; 刘德彬; 黄远江; 严开; 陈长沙
Original assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Current assignee: Chongqing Yu Yu Da Data Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-19

Abstract

本申请提供了一种风险识别方法，用于对企业空壳风险进行识别，所述方法包括：获取企业空壳样本集；通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；获取待预测企业的信息数据；将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。本申请还提供了一种风险识别系统。通过本申请提供的风险识别方法和系统，增加训练的模型的准确度，在判断企业是否为空壳企业时可以更加全面地进行数据分析，以提高数据的判断准确度。

Description

一种风险识别方法和系统

技术领域

本申请属于数据处理技术领域，具体涉及一种风险识别方法和风险识别系统。

背景技术

企业在生产经营过程中，需要通过金融市场的金融工具实现资金的筹备等，而，企业空壳会对金融市场造成严重的损失，金融企业通过建立风险模型并通过风险模型对企业经营风险进行预测，以使得金融企业保持投资回报。

在企业经营过程中，每个企业每天都在发生着改变，这些改变有可能使得企业越来越好，也有可能使得企业面临各种风险。面对企业的千万级数据，从中分析出企业的风险信息对企业运营的决策和投资者都是比较好的参考。目前已有的企业经营风险预测方法主要包括于统计学的方法和基于机器学习的方法。

目前，现有的企业风险预测评估方法不完善，而且在风险模型的建立过程中数据处理量过大，对服务器造成巨大压力，且数据处理速度过慢。因此，亟待一种企业风险识别能够结合企业的各种资产、财务数据、经营数据、债务相关数据，迅速建立模型并将该模型应用到预测数据中，从不同维度对企业风险进行预测。

发明内容

为了解决现有技术存在的上述问题，本申请目的在于提供一种风险识别方法和系统，旨在解决现有预测模型对内存消耗过大，存在大量不必要的数据计算的问题。

为解决上述技术问题，本申请提供了一种风险识别方法，用于对企业空壳风险进行识别，所述方法包括：获取企业空壳样本集；通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；获取待预测企业的信息数据；将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

可选地，通过smote算法对所述企业空壳样本集进行过采样。

可选地，经过所述过采样的企业空壳样本集包括空壳企业和非空壳企业，其中，所述空壳企业与非空壳企业的数量比为1:2。

可选地，所述根据待识别的空壳问题类型以预设规则通过所述空壳识别模型进行预测的步骤，包括：确定所述待识别的空壳问题类型为分类问题，则根据所述至少两个决策树模型的分类结果进行投票，根据投票结果确定最终分类结果；确定所述待识别的空壳问题类型为回归问题，则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。

可选地，所述通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型的步骤，包括：根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集；所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。

可选地，所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型的步骤，包括：对所述至少两个训练集进行标准化；通过对标准化后的数据进行清洗和选择分别得到所述至少两个训练集对应的特征数据和标签；将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型。

可选地，所述特征数据包括但不限于经营年限、注册资金、所有关联公司数量、所有股东平均经营年限、所有股东平均注册资金、所有对外投资公司平均经营年限、所有对外投资公司平均注册资金、所有对外投资公司平均空壳次数、所有对外投资公司空壳次数总和、所有对外投资公司平均被金融机构起诉次数、所有对外投资公司被金融机构起诉次数总和。

可选地，所述将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型的步骤，包括：根据预设的特征选择算法和所述标签确定从所述训练集中确定对应的所述所述机器学习算法所对应的当前最优特征和待分裂特征数据；根据所述当前最优特征建立对应决策树当前节点，根据所述待分裂特征数据建立以所述当前节点为父节点的分支，直止满足于预设条件停止继续构建决策树以生成空壳风险识别模型。

可选地，所述预设的特征选择算法至少包括如下一种：信息增益算法、信息增益比算法和基尼指数算法。

本申请还提供了一种风险识别系统，用于对企业空壳风险进行识别，所述系统包括：采集模块，用于获取企业空壳样本集；建树模块，用于通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；信息获取模块，用于获取待预测企业的信息数据；识别模块，用于将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

通过本申请提供的风险识别模型，通过smoke算法对企业空壳样本集进行过采样进行扩充，以提高训练集的数量，增加训练的模型的准确度；同时，通过随机获取多个训练集，并通过不同的训练集根据不同的机器学习算法训练得到不同的决策树模型，在判断企业是否为空壳企业时可以更加全面地进行数据分析，以提高数据的判断准确度。

附图说明

图1为本申请流程图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

图1是本申请提供的一风险识别方法的流程图。该实施例的方法一旦被用户触发，则该实施例中的流程通过终端自动运行，其中，各个步骤在运行的时候可以是按照如流程图中的顺序先后进行，也可以是根据实际情况多个步骤同时进行，在此并不做限定。本申请提供的风险识别方法用于对企业空壳风险进行识别。本申请提供的信息提示方法包括如下步骤：

步骤S110，获取企业空壳样本集；

步骤S120，通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；

步骤S130，获取待预测企业的信息数据；

步骤S140，将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

通过上述实施方式，可以快速根据企业的相关数据信息判断该企业是否为空壳企业，以帮助相关机构根据判断结果做出相应的措施。

下面将结合具体实施例对上述各步骤进行详细的叙述。

在步骤S110中，获取企业空壳样本集。其中，企业空壳样本集用于训练风险识别模型。可以通过网络爬虫的方式从网上获取相关的与企业空壳相关的信息作为样本集的数据。举例而言，可以从如下途径获取相关的信息工商信息、行政处罚、开庭公告、裁判文书、招投标、司法拍卖、商标注册、空壳被执行、专利、执行等企业正面和负面的信息等。在本实施方式中，企业空壳样本集中包括空壳企业和非空壳企业。其中，空壳企业的数量为2500个，非空壳企业的数量为10000个。

在本实施方式中，所述步骤S110还包括通过smote算法对所述企业空壳样本集进行过采样。由于空壳企业数量比较少，因此为了充分训练模型，采用了过采样增加样本。其中，经过过采样扩充后的企业空壳样本集中，所述空壳企业与非空壳企业的数量比为1:2。需要说明的是，还可以通过其他的方式对企业空壳样本集进行扩充，具体不做限定。

通过上述实施方式，可以弥补现有的空壳企业样本较少导致的训练结果不够全面的问题。

在步骤S120中，通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型。在本实施方式中，通过随机森林算法训练得到空壳识别模型。通过此种方式可以有效降低决策树容易过度拟合的问题。具体地，通过至少两个机器学习算法分别根据所述企业空壳样本集进行训练得到对应的决策树模型，即，得到至少两个决策树模型，通过多个至少两个决策树模型共同组成空壳识别模型。

在本实施方式中，步骤S120可以通过如下步骤实现：

步骤S1201，根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集；

步骤S1202，所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。

具体地，在步骤S1201中，训练集的数量与所述机器学习算法的数量相同，举例而言，如果空壳识别模型中包括n个决策树模型，那么训练集的数量也为 n个。每个训练集中的数量可以根据实际情况进行确定。其中，步骤S1201中具体的生成至少两个训练集的方式为：每次根据bootstraping算法从企业空壳样本集中随机采样选出m个数据构成一个训练集；再将这m个数据放回至企业空壳样本集中，第二次采样时，再从企业空壳样本集中随机选出m个数据，以构成第二个训练集；再放回，以次类推，一共进行n次采样即可形成n个训练集。

通过上述实施方式，保证了空壳识别模型中每个决策树模型的训练集之间虽然可能包含重复的数据，但是不同的训练集彼此之间都是不同的。如果不进行随机采样，使得每决策树模型的训练集都一样，那么最终训练出的树分类结果也是完全一样的。通过此种方式，可以避免采用全样本训练模型时，造成的忽略局部样本规律的问题发生，减少了对识别模型的泛化能力的损害。

在步骤S1202中，所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。其中，机器学习算法可以包括如下方式的至少一种ID3算法、C4.5算法和CART算法。在本实施方式中，在训练空壳识别模型的多个决策树时，可以是不同的机器学习算法对应不同的训练集进行训练得到的多个决策树。需要说明的是，也可以是以同一个机器学习算法通过不同的训练集进行训练得到不同的决策树。

具体地，步骤S1202可以包括如下步骤：

步骤S12021，对所述至少两个训练集进行标准化；

步骤S12022，通过对标准化后的数据进行清洗和选择分别得到所述至少两个训练集对应的特征数据和标签；

步骤S12023，将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型。

具体地，在步骤S12021中，分别对不同的训练集进行标准化处理，需要说明的是，空壳识别模型中包括多个决策树，不同的决策树决策流程存在不同，但是，每个决策树的建树流程是相同的，下文在介绍具体的建树流程时，仅以建立一颗决策树为例进行讲解，但是其流程和方法同样适合其他的决策树。标准化是指将训练集中的样本中，属于文字变量的部分通过字典的方式进行数值转化。需要说明的是，也可以通过其他方式将训练集进行预处理，以使得其可以被机器学习算法识别。

在步骤S12022中，通过对标准化后的训练集进行清洗选出用于训练风险识别模型的特征数据，以及对不同的特征数据建立标签label。标签的取值为0 或1,标签就是根据公司是否空壳定义的，例如，“0”指的是非空壳企业，“1”指的是空壳企业。举例而言，经过清洗后的训练集中包括a个特征数据，选出其中的k个特征数据用于训练该训练集对应的决策树。在本实施方式中，k的取值为11，用于训练决策树的特征数据包括经营年限、注册资金、所有关联公司数量、所有股东平均经营年限、所有股东平均注册资金、所有对外投资公司平均经营年限、所有对外投资公司平均注册资金、所有对外投资公司平均空壳次数、所有对外投资公司空壳次数总和、所有对外投资公司平均被金融机构起诉次数、所有对外投资公司被金融机构起诉次数总和。在其他实施方式中，用于训练决策树的特征数据也可以是其他特征，具体不做限定。

步骤S12023，将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型。具体地，该步骤包括：

步骤S120231，根据预设的特征选择算法和所述标签确定从所述训练集中确定对应的所述所述机器学习算法所对应的当前最优特征和待分裂特征数据；

步骤S120232，根据所述当前最优特征建立对应决策树当前节点，根据所述待分裂特征数据建立以所述当前节点为父节点的分支，直止满足于预设条件停止继续构建决策树以生成空壳风险识别模型。

具体地，在步骤S120231中，预设的特征选择算法可以包括如下方式至少一种：信息增益算法、信息增益比算法和基尼指数算法。需要说明的是，预设的特征选择算法与具体的机器学习算法相对应，举例而言，当机器学习算法为 ID3算法时，采用信息增益算法作为特征选择算法。下面以预设的特征选择算法采用信息增益比算法为例介绍步骤S120231的实现过程。通过信息熵及信息增益比来进行风险识别模型的特征选择，根据确定的最优特征和待分裂特征数据。其中，最优特征用于建立当前分割节点，待分裂特征数据用于作为前分割节点的分支，并继续通过信息熵及信息增益比来确定下一次分割的最优特征。

首先，确定是否为空壳的标签label，根据训练集中的样本数据计算label 的信息熵。假设信源信号有n种取值：U₁,U₂,...,U_n，对应概率为P₁,P₂,...,P_n，并且各种符号出现独立，那么该信源的平均不确定性单个符号的不确定性-logP_i的统计平均值E，即为信息熵，表示为：

其次，以当前为根节点的特征X，计算剩下特征数据的熵即H(D|X)，根据原来熵减去去掉分裂特征后剩下的熵得到信息增益g(D,X)＝H(D)-H(D|X)；再以其他特征Y为根节点，计算得到信息增益g(D,Y)＝H(D)-H(D|Y)；同理再以其他特征计算得到对应的信息增益。

最后，通过比较g(D,X)、g(D,Y)...g(D,N)的数值大小，确定最大信息增益值所对应的特征为最优特征，进而其他的特征为待分裂特征数据。

在步骤S120232中，确定当前节点后，分别计算当当前节点取“否”时，对应的label的信息增益A；和当当前节点取“是”时，待分裂特征数据中的最大信息增益B。然后比对信息增益A和信息增益B，根据大小确定下一个分割方向。根据上述步骤分别对每个节点进行计算分割，使树的分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”(purity)越来越高，使无序的数据变得有序。

通过上述实施方式，根据不同的机器学习语言以及不同的训练集分别进行学习以建立包括多个决策树的风险识别模型，可以有效降低数据的多度耦合。

在步骤S130中，获取待预测企业的信息数据。在本实施方式中，待预测企业是指待评估其是否为空壳企业的对象。信息数据来源包括但不限于工商信息、行政处罚、开庭公告、裁判文书、招投标、司法拍卖、商标注册、失信被执行、专利、执行等企业正面和负面的信息。具体地，在本实施方式中，可以通过网络爬虫的方式，预先设定待预测企业的信息数据，然后通过网络爬虫自动从网上获取与该待预测数据相关的数据。在其他实施方式中，也可以是待预测企业主动将与其相关的数据提供给使用本申请提供的风险识别方法的使用者，使用者利用待预测企业提供的信息数据通过下述步骤完成风险识别预测。

在步骤S140中，将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。具体地，确定所述待识别的空壳问题类型为分类问题，则根据所述至少两个决策树模型的分类结果进行投票，根据投票结果确定最终分类结果；确定所述待识别的空壳问题类型为回归问题，则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。

具体地，在通过空壳识别模型进行分类或是结果预测时，将待预测企业的信息数据输入至空壳识别模型中的不同决策树模型中，利用不同的决策树模型获得不同的子分类结果或是子预测结果。如果是为了获得最终的分类结果，则根据不同的子分类结果通过投票的方式得到最终的分类结果。如果是为了获得最终的预测结果，则根据不同的子预测结果根据求平均值的方式得到最终的预测结果。

通过上述实施方式，利用smoke算法对企业空壳样本集进行过采样进行扩充，以提高训练集的数量，增加训练的模型的准确度；同时，通过随机获取多个训练集，并通过不同的训练集根据不同的机器学习算法训练得到不同的决策树模型，在判断企业是否为空壳企业时可以更加全面地进行数据分析，以提高数据的判断准确度

本申请还提供一种风险识别系统，所述风险识别系统用于对企业空壳风险进行识别，所述系统包括：

采集模块，用于获取企业空壳样本集；

建树模块，用于通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；

信息获取模块，用于获取待预测企业的信息数据；

识别模块，用于将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

可选地，建树模型，还用于通过smote算法对所述企业空壳样本集进行过采样。

可选地，建树模型，还用于确定所述待识别的空壳问题类型为分类问题，则根据所述至少两个决策树模型的分类结果进行投票，根据投票结果确定最终分类结果；确定所述待识别的空壳问题类型为回归问题，则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。

可选地，建树模型，还用于根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集；所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。

可选地，建树模型，还用于对所述至少两个训练集进行标准化；通过对标准化后的数据进行清洗和选择分别得到所述至少两个训练集对应的特征数据和标签；将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型。

根据预设的特征选择算法和所述标签确定从所述训练集中确定对应的所述所述机器学习算法所对应的当前最优特征和待分裂特征数据；

可选地，建树模型，还用于根据所述当前最优特征建立对应决策树当前节点，根据所述待分裂特征数据建立以所述当前节点为父节点的分支，直止满足于预设条件停止继续构建决策树以生成空壳风险识别模型。

需要说明的是，在系统方法实施方式的内容同样可以采用前述的方法实施方式中的内容，故，在此不做赘述。

本申请不局限于上述可选实施方式，任何人在本申请的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是落入本申请权利要求界定范围内的技术方案，均落在本申请的保护范围之内。

Claims

1.一种风险识别方法，其特征在于，用于对企业空壳风险进行识别，所述方法包括：

获取企业空壳样本集；

通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型，其中，所述空壳识别模型中包括至少两个决策树模型；

获取待预测企业的信息数据；

将所述待预测企业的信息数据输入至所述空壳识别模型中，根据识别的问题类型以预设规则通过所述空壳识别模型进行预测。

2.如权利要求1所述的风险识别方法，其特征在于，通过smote算法对所述企业空壳样本集进行过采样。

3.如权利要求2所述的风险识别方法，其特征在于，经过所述过采样的企业空壳样本集包括空壳企业和非空壳企业，其中，所述空壳企业与非空壳企业的数量比为1:2。

4.如权利要求1所述的风险识别方法，其特征在于，所述根据待识别的空壳问题类型以预设规则通过所述空壳识别模型进行预测的步骤，包括：

确定所述待识别的空壳问题类型为分类问题，则根据所述至少两个决策树模型的分类结果进行投票，根据投票结果确定最终分类结果；

确定所述待识别的空壳问题类型为回归问题，则根据所述至少两个决策树模型的预测值的均值确定最终预测结果。

5.如权利要求1所述的风险识别方法，其特征在于，所述通过至少两个机器学习算法对所述企业空壳样本集进行训练以得到空壳识别模型的步骤，包括：

根据bootstraping算法从所述企业空壳样本集中生成至少两个训练集；

所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型。

6.如权利要求5所述的风险识别方法，其特征在于，所述通过至少两个机器学习算法分别对所述至少两个训练集进行训练以得到空壳识别模型的步骤，包括：

对所述至少两个训练集进行标准化；

通过对标准化后的数据进行清洗和选择分别得到所述至少两个训练集对应的特征数据和标签；

将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型。

7.如权利要求6所述的风险识别方法，其特征在于，所述特征数据包括但不限于经营年限、注册资金、所有关联公司数量、所有股东平均经营年限、所有股东平均注册资金、所有对外投资公司平均经营年限、所有对外投资公司平均注册资金、所有对外投资公司平均空壳次数、所有对外投资公司空壳次数总和、所有对外投资公司平均被金融机构起诉次数、所有对外投资公司被金融机构起诉次数总和。

8.如权利要求6所述的风险识别方法，其特征在于，所述将所述至少两个训练集对应的特征数据和标签分别输入至所述机器学习算法，以得到空壳识别模型的步骤，包括：

根据所述当前最优特征建立对应决策树当前节点，根据所述待分裂特征数据建立以所述当前节点为父节点的分支，直止满足于预设条件停止继续构建决策树以生成空壳风险识别模型。

9.如权利要求8所述的风险识别方法，其特征在于，所述预设的特征选择算法至少包括如下一种：信息增益算法、信息增益比算法和基尼指数算法。

10.一种风险识别系统，其特征在于，用于对企业空壳风险进行识别，所述系统包括：

采集模块，用于获取企业空壳样本集；

信息获取模块，用于获取待预测企业的信息数据；