CN108197740A

CN108197740A - 企业倒闭预测方法、电子设备和计算机存储介质

Info

Publication number: CN108197740A
Application number: CN201711483431.8A
Authority: CN
Inventors: 叶梦晴; 刘丹
Original assignee: Guangdong Jin Fu Polytron Technologies Inc
Current assignee: Guangdong Jin Fu Polytron Technologies Inc
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2018-06-22

Abstract

本发明涉及一种企业倒闭预测方法、电子设备和计算机存储介质。该方法获取企业各维度的数据；对各维度的数据进行筛选；基于筛选后的数据，确定企业的倒闭概率；其中维度，包括：基本信息维度，纳税维度，财务维度，受处罚维度，社保维度。本发明的方法基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

Description

企业倒闭预测方法、电子设备和计算机存储介质

技术领域

本发明涉及数据分析领域，尤其涉及一种企业倒闭预测方法、电子设备和计算机存储介质。

背景技术

企业倒闭后会产生债务清偿，员工安置等一系列社会问题。

目前，未有对企业是否可能倒闭进行预测的方法。

基于此，需要一种企业倒闭的预测方法，以便政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

发明内容

(一)要解决的技术问题

为了预测企业的倒闭风险，本发明提供一种企业倒闭预测方法、电子设备和计算机存储介质，该方法基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

一种企业倒闭预测方法，所述方法，包括：

S101，获取企业各维度的数据；

S102，对所述各维度的数据进行筛选；

S103，基于筛选后的数据，确定所述企业的倒闭概率；

所述维度，包括：基本信息维度，纳税维度，财务维度，受处罚维度，社保维度。

可选地，所述S101具体包括：

获取预设时间段内，预设区域中全部企业的各维度数据，所述全部企业包括已倒闭企业和未倒闭企业。

可选地，所述S102具体包括：

S102-1，将所述已倒闭企业的各维度数据作为样本数据，将所述未倒闭企业的各维度数据作为第一数据；

S102-2，确定所述第一数据与所述样本数据是否存在差异；

S102-3，选择存在差异的第一数据。

可选地，所述S102-2具体包括：

S102-2-1，确定各维度的类型，所述类型为静态离散型，或者，所述类型为静态连续型，或者，所述类型为有历史数据的连续型；

S102-2-2，将类型为静态离散型的维度确定为第一维度，将类型为静态连续型的维度确定为第二维度，将类型为有历史数据的连续型的维度确定为第三维度；

S102-2-3，根据所述样本数据，计算各第一维度下各已倒闭企业的发生概率的标准差；

S102-2-4，选择标准差大于第一预设阈值的第一维度，将选择的第一维度确定为第一筛选维度；

S102-2-5，根据所述样本数据和所述第一数据，计算各已倒闭企业在各第一筛选维度下的第一企业数量占比和各未倒闭企业在各第一筛选维度下的第二企业数量占比；

S102-2-6，针对各第一筛选维度，确定其下的第一企业数量占比与第二企业数量占比之间的一致性系数；

S102-2-7，选择一致性系数小于第二预设阈值的第一筛选维度，将选择的第一筛选维度确定为第二筛选维度；

S102-2-8，根据第二筛选维度对应的标准差及一致性系数，确定各第二筛选维度对应的第一数据与所述样本数据之间是否存在第一差异；

S102-2-9，对各第二筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与所述样本数据之间是否存在第二差异；

S102-2-10，根据所述样本数据和所述第一数据，将各第三筛选维度的类型转化为静态连续型；

S102-2-11，对各转化后的第三筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与所述样本数据之间是否存在第三差异。

可选地，所述一致性系数为kappa系数；

所述第二预设阈值为0.4。

可选地，所述S102-3具体包括：

S102-3-1，确定各维度中与所述样本之间存在第一差异的第一数据数量n1；

S102-3-2，确定各维度中与所述样本之间存在第二差异的第一数据数量n2；

S102-3-3，确定各维度中与所述样本之间存在第三差异的第一数据数量n3；

S102-3-4，对于第i维度中第j个第一数据，若所述第j个第一数据与所述样本之间存在第一差异，则确定所述第j个第一数据的第一差异值d1_ij＝1，若所述第j个第一数据与所述样本之间不存在第一差异，则确定所述d1_ij＝0，若所述第j个第一数据与所述样本之间存在第二差异，则确定所述第j个第一数据的第二差异值d2_ij＝1，若所述第j个第一数据与所述样本之间不存在第二差异，则确定所述d2_ij＝0，若所述述第j个第一数据与所述样本之间存在第三差异，则确定所述第j个第一数据的第三差异值d3_ij＝1，若所述述第j个第一数据与所述样本之间不存在第三差异，则确定所述d3_ij＝0；

S102-3-5，若第j个第一数据的大于第三预设阈值，则选择所述第j个第一数据；

所述n为第一数据的总数量。

可选地，所述S103具体包括：

S103-1，采用APRIORI算法，对筛选后的数据进行关联分析，获得信任度值F；

S103-2，根据所述信任度值确定倒闭概率。

可选地，所述S103-2具体包括：

为了达到上述目的，本发明采用的主要技术方案还包括：

一种电子设备，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述方法任意一项的步骤。

为了达到上述目的，本发明采用的主要技术方案还包括：

一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述方法任意一项的步骤。

(三)有益效果

本发明的有益效果是：基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

附图说明

图1为本发明一个实施例提供的一种企业倒闭预测方法流程示意图；

图2为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

企业倒闭后会产生债务清偿，员工安置等一系列社会问题。目前，未有对企业是否可能倒闭进行预测的方法。

参见图1，本实施例提供的企业倒闭预测方法的实现流程为：

S101，获取企业各维度的数据。

其中，维度，包括但不限于：基本信息维度，纳税维度，财务维度，受处罚维度，社保维度。

即获取企业基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据。

进一步的，基本信息维度包括但不限于：企业所处行业，企业的登记注册类型，企业注册资本。

纳税维度包括但不限于：企业本年度纳税总额。

财务维度包括但不限于：企业的成本费用。

社保维度包括但不限于：企业每月购买设备人数。

在具体实施时，S101可以通过如下方式实现：获取预设时间段内，预设区域中全部企业的各维度数据，全部企业包括已倒闭企业和未倒闭企业。

S102，对各维度的数据进行筛选。

本步骤的具体实现方式如下：

S102-1，将已倒闭企业的各维度数据作为样本数据，将未倒闭企业的各维度数据作为第一数据。

如选择一段时间范围内某区域中的全部企业为分析对象，将已经倒闭的企业进行标注，作为分析样本。

S102-2，确定第一数据与样本数据是否存在差异。

S102-2的具体实现方式如下：

S102-2-1，确定各维度的类型，类型为静态离散型，或者，类型为静态连续型，或者，类型为有历史数据的连续型。

如对企业各个维度的数据进行提取和清洗，并将各个维度分为三大类，一类为静态离散型，例如企业所处行业，企业的登记注册类型等；一类为静态连续型，例如企业注册资本，企业本年度纳税总额等；一类为有历史数据的连续型，例如企业的成本费用，企业每月购买社保人数等。

S102-2-2，将类型为静态离散型的维度确定为第一维度，将类型为静态连续型的维度确定为第二维度，将类型为有历史数据的连续型的维度确定为第三维度。

S102-2-3，根据样本数据，计算各第一维度下各已倒闭企业的发生概率的标准差。

S102-2-4，选择标准差大于第一预设阈值的第一维度，将选择的第一维度确定为第一筛选维度。

S102-2-5，根据样本数据和第一数据，计算各已倒闭企业在各第一筛选维度下的第一企业数量占比和各未倒闭企业在各第一筛选维度下的第二企业数量占比。

S102-2-6，针对各第一筛选维度，确定其下的第一企业数量占比与第二企业数量占比之间的一致性系数(如kappa系数)。

S102-2-7，选择一致性系数小于第二预设阈值(若一致性系数为kappa系数，则第二预设阈值可以为0.4)的第一筛选维度，将选择的第一筛选维度确定为第二筛选维度。

S102-2-8，根据第二筛选维度对应的标准差及一致性系数，确定各第二筛选维度对应的第一数据与样本数据之间是否存在第一差异。

S102-2-8具体实现时可以为：若第二筛选维度对应的标准差/一致性系数>第四预设阈值，则确定存在第一差异。

其中，第四预设阈值可以为1。

如对于类型为静态离散型的第一维度，计算该维度下各个值倒闭企业发生概率的标准差，该标准差的值越大，则代表该维度下各个值发生倒闭的差异大，则该维度应该纳入下一步分析，该标准差值越小，则代表该维度下各个值发生倒闭的差异小，则该维度不该纳入下一步分析。

计算倒闭企业在该维度想各个值的企业数量占比，和全部企业在该维度下各个值的企业数量占比，分析这两组占比的数据是否具有一致性，可通过计算Kappa系数来进行衡量，Kappa系数大于0.75，则代表有较好的一致性，即该维度不该纳入下一步分析，Kappa系数小于0.4，则代表一致性较差，该维度应该纳入下一步分析。

综合标准差值和Kappa系数判定各静态离散型变量是否有差异。

S102-2-9，对各第二筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与样本数据之间是否存在第二差异。

本步骤可以进行一维聚类也可以进行二维聚类。

如对于类型为静态连续型的第二维度，进行一维聚类或二维聚类，然后通过方差分析来判定各类是否有显著性差异。对于有业务意义的连续型变量，适合采用二维聚类，对于可以打散开随意组合的连续型变量，则适合采用一维聚类。若计算出的各类别的无显著性差异则需要对两类进行合并，如果最终全部合并为一类，则该维度不适合纳入下一步分析。

S102-2-10，根据样本数据和第一数据，将各第三筛选维度的类型转化为静态连续型。

S102-2-11，对各转化后的第三筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与样本数据之间是否存在第三差异。

如对于类型为有历史数据的连续型的第三维度，需要根据业务需要，计算历史数据的变化率或者最大值或者平均值等，转化为连续型变量，后采用连续型变量的分析方法对该值进行聚类。

S102-3，选择存在差异的第一数据。

本步骤可以通过如下方案实现：

S102-3-1，确定各维度中与样本之间存在第一差异的第一数据数量n1。

S102-3-2，确定各维度中与样本之间存在第二差异的第一数据数量n2。

S102-3-3，确定各维度中与样本之间存在第三差异的第一数据数量n3。

S102-3-4，对于第i维度中第j个第一数据，若第j个第一数据与样本之间存在第一差异，则确定第j个第一数据的第一差异值d1_ij＝1，若第j个第一数据与样本之间不存在第一差异，则确定d1_ij＝0，若第j个第一数据与样本之间存在第二差异，则确定第j个第一数据的第二差异值d2_ij＝1，若第j个第一数据与样本之间不存在第二差异，则确定d2_ij＝0，若述第j个第一数据与样本之间存在第三差异，则确定第j个第一数据的第三差异值d3_ij＝1，若述第j个第一数据与样本之间不存在第三差异，则确定d3_ij＝0。

S102-3-5，若第j个第一数据的大于第三预设阈值，则认为第j个第一数据为存在差异的第一数据，选择第j个第一数据。

其中，n为第一数据的总数量。

本步骤中，在第一差异、第二差异和第三差异的基础上，考虑已倒闭企业对第一差异、第二差异和第三差异的灵敏程度(即n1，n2和n3)，综合确定最终的第j个第一数据数据存在差异，使得本方案的差异确定更加贴合实际情况，提升本方案的预测准确性。

S103，基于筛选后的数据，确定企业的倒闭概率。

根据S101和S102处理后得到有影响的各个维度的离散的数据，对每个企业的这些维度的数据进行关联分析，采用apriori算法，得到一系列频繁项集依据得到的频繁项集和频繁程度对全部企业进行评分。

具体的：

S103-2，根据信任度值确定倒闭概率。

通过上述方案可以从企业的各维度中选择与倒闭企业有差异的维度，根据各企业的差异维度的具体内容判断企业的倒闭概率。即可以根据企业相关的数据，对企业的状态进行评估，判定企业是否有倒闭的风险，计算出企业倒闭的风险指数，对于倒闭风险指数高的企业，政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

再以下面示例对本实施例提供的方法进行说明。

1，获取企业的基本信息数据，企业的纳税数据，企业的财务数据，企业所受处罚数据，企业社保数据。

2，对企业各个维度的数据，每个维度依次分析，倒闭企业与其他正常企业是否有差异，若有差异，该维度则纳入到下一步骤，若无差异，该维度则舍弃。

3，依据1分析的结果，得到倒闭企业跟正常企业有差异的各个维度，及倒闭企业在该维度所处的值，对倒闭企业使用apriori算法进行关联分析。

4，根据关联分析，可以得到倒闭企业在各个维度上的联合特征，及该特征出现的频率

5，依据得出的联合特征和频率，对全部的企业进行倒闭概率评估，符合出现频率高的联合特征的企业的得分高，符合出现频率低的联合特征的企业得分低，完全不符合所有联合特征的为0。

6，根据最后的倒闭概率进行从高到低排序，排在前面的企业倒闭风险高于排在后面的企业。

本实施例提供的方法，基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

参见图2，本实施例提供了一种电子设备，该电子设备包括：存储器201、处理器202、总线203以及存储在存储器201上并可在处理器202上运行的计算机程序，所述处理器202执行所述程序时实现如下方法：

获取企业各维度的数据；

对各维度的数据进行筛选；

基于筛选后的数据，确定企业的倒闭概率；

维度，包括：基本信息维度，纳税维度，财务维度，受处罚维度，社保维度。

可选地，获取企业各维度的数据，包括：

获取预设时间段内，预设区域中全部企业的各维度数据，全部企业包括已倒闭企业和未倒闭企业。

可选地，对各维度的数据进行筛选，包括：

将已倒闭企业的各维度数据作为样本数据，将未倒闭企业的各维度数据作为第一数据；

确定第一数据与样本数据是否存在差异；

选择存在差异的第一数据。

可选地，确定第一数据与样本数据是否存在差异，包括：

确定各维度的类型，类型为静态离散型，或者，类型为静态连续型，或者，类型为有历史数据的连续型；

将类型为静态离散型的维度确定为第一维度，将类型为静态连续型的维度确定为第二维度，将类型为有历史数据的连续型的维度确定为第三维度；

根据样本数据，计算各第一维度下各已倒闭企业的发生概率的标准差；

选择标准差大于第一预设阈值的第一维度，将选择的第一维度确定为第一筛选维度；

根据样本数据和第一数据，计算各已倒闭企业在各第一筛选维度下的第一企业数量占比和各未倒闭企业在各第一筛选维度下的第二企业数量占比；

针对各第一筛选维度，确定其下的第一企业数量占比与第二企业数量占比之间的一致性系数；

选择一致性系数小于第二预设阈值的第一筛选维度，将选择的第一筛选维度确定为第二筛选维度；

根据第二筛选维度对应的标准差及一致性系数，确定各第二筛选维度对应的第一数据与样本数据之间是否存在第一差异；

对各第二筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与样本数据之间是否存在第二差异；

根据样本数据和第一数据，将各第三筛选维度的类型转化为静态连续型；

对各转化后的第三筛选维度进行聚类，若聚为2类，或者，聚为多类，则根据各类的方差确定各类对应的第一数据与样本数据之间是否存在第三差异。

可选地，一致性系数为kappa系数；

第二预设阈值为0.4。

可选地，选择存在差异的第一数据，包括：

确定各维度中与样本之间存在第一差异的第一数据数量n1；

确定各维度中与样本之间存在第二差异的第一数据数量n2；

确定各维度中与样本之间存在第三差异的第一数据数量n3；

对于第i维度中第j个第一数据，若第j个第一数据与样本之间存在第一差异，则确定第j个第一数据的第一差异值d1_ij＝1，若第j个第一数据与样本之间不存在第一差异，则确定d1_ij＝0，若第j个第一数据与样本之间存在第二差异，则确定第j个第一数据的第二差异值d2_ij＝1，若第j个第一数据与样本之间不存在第二差异，则确定d2_ij＝0，若述第j个第一数据与样本之间存在第三差异，则确定第j个第一数据的第三差异值d3_ij＝1，若述第j个第一数据与样本之间不存在第三差异，则确定d3_ij＝0；

若第j个第一数据的大于第三预设阈值，则选择第j个第一数据；

n为第一数据的总数量。

可选地，基于筛选后的数据，确定企业的倒闭概率，包括：

采用APRIORI算法，对筛选后的数据进行关联分析，获得信任度值F；

根据信任度值确定倒闭概率。

可选地，根据信任度值确定倒闭概率，包括：

本实施例提供的电子设备，基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

本实施例提供了一种计算机存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如下方法。

获取企业各维度的数据；

对各维度的数据进行筛选；

基于筛选后的数据，确定企业的倒闭概率；

可选地，获取企业各维度的数据，包括：

可选地，对各维度的数据进行筛选，包括：

确定第一数据与样本数据是否存在差异；

选择存在差异的第一数据。

可选地，确定第一数据与样本数据是否存在差异，包括：

可选地，一致性系数为kappa系数；

第二预设阈值为0.4。

可选地，选择存在差异的第一数据，包括：

确定各维度中与样本之间存在第一差异的第一数据数量n1；

确定各维度中与样本之间存在第二差异的第一数据数量n2；

确定各维度中与样本之间存在第三差异的第一数据数量n3；

n为第一数据的总数量。

可选地，基于筛选后的数据，确定企业的倒闭概率，包括：

根据信任度值确定倒闭概率。

可选地，根据信任度值确定倒闭概率，包括：

本实施例提供的计算机存储介质，基于企业的基本信息维度的数据，纳税维度的数据，财务维度的数据，受处罚维度的数据，社保维度的数据确定该企业的倒闭概率，进而实现了对企业的倒闭风险进行预测，可以辅助政府相关部分可以较早介入，以避免倒闭后产生的一系列社会问题。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

最后应说明的是：以上所述的各实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种企业倒闭预测方法，其特征在于，所述方法，包括：

S101，获取企业各维度的数据；

S102，对所述各维度的数据进行筛选；

S103，基于筛选后的数据，确定所述企业的倒闭概率；

2.根据权利要求1所述的方法，其特征在于，所述S101具体包括：

3.根据权利要求2所述的方法，其特征在于，所述S102具体包括：

S102-2，确定所述第一数据与所述样本数据是否存在差异；

S102-3，选择存在差异的第一数据。

4.根据权利要求3所述的方法，其特征在于，所述S102-2具体包括：

5.根据权利要求4所述的方法，其特征在于，所述一致性系数为kappa系数；

所述第二预设阈值为0.4。

6.根据权利要求5所述的方法，其特征在于，所述S102-3具体包括：

所述n为第一数据的总数量。

7.根据权利要求6所述的方法，其特征在于，所述S103具体包括：

S103-2，根据所述信任度值确定倒闭概率。

8.根据权利要求7所述的方法，其特征在于，所述S103-2具体包括：

9.一种电子设备，其特征在于，包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1-8任意一项的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-8任意一项的步骤。