CN116503158A - 基于数据驱动的企业破产风险预警方法、系统及装置 - Google Patents
基于数据驱动的企业破产风险预警方法、系统及装置 Download PDFInfo
- Publication number
- CN116503158A CN116503158A CN202310459368.3A CN202310459368A CN116503158A CN 116503158 A CN116503158 A CN 116503158A CN 202310459368 A CN202310459368 A CN 202310459368A CN 116503158 A CN116503158 A CN 116503158A
- Authority
- CN
- China
- Prior art keywords
- financial data
- bankruptcy
- enterprise
- data
- financial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 30
- 238000013145 classification model Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 21
- 238000007500 overflow downdraw method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A10/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
- Y02A10/40—Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping
Abstract
本发明公开一种基于数据驱动的企业破产风险预警方法、系统及装置,方法包括基于获取到的财务数据,对财务数据进行预处理并将财务数据整理成财务数据集;判断财务数据集中的财务数据是否缺失或异常,若是则对财务数据中的缺失或异常数据进行处理,得到完整财务数据集;对完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;将待测财务数据输入至破产分类模型得到预测结果,根据预测结果对企业进行不同等级的破产预警。该方法能沟通过财务数据,预测企业在未来一年是否有破产风险,进行企业破产预测可以帮助投资者、金融机构和企业管理者更好地识别风险,采取相应的措施,从而避免或减轻损失。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于数据驱动的企业破产风险预警方法、系统及装置。
背景技术
与传统方法相比,基于人工智能的破产风险预测可以在准确性、效率和适应性方面有明显的改善。随着人工智能的不断进步,财务数据的可用性不断的提高,其在商业决策中的应用也越来越多。数据驱动的破产预测可以被公司用来监测其财务健康状况,识别风险,并采取积极主动的措施来避免破产。金融机构也使用这些工具来评估借款人的信用度,并做出明智的贷款决定。
发明内容
针对现有技术的不足,本发明提供一种基于数据驱动的企业破产风险预警方法、系统及装置,本发明的方法能通过企业的财务数据,来预测未来一年企业的破产风险,提醒投资者和企业管理者提高警惕,提前做出决策,减少损失。
本发明的目的通过如下的技术方案来实现:
一种基于数据驱动的企业破产风险预警方法,包括以下步骤:
基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
作为一种可实施方式,建立破产分类预训练模型,基于新财务数据集中的新财务数据特征对所述破产分类预训练模型进行训练,得到破产分类模型。
作为一种可实施方式,所述获取用于建立模型的财务数据并将财务数据整理成财务数据集,包括以下步骤:
所述财务报表至少包括资产负债表、利润表、现金流量表及所有者权益变动表中的一种或几种;
将财务报表进行解析得到财务数据特征;
将财务数据特征整理成破产分类模型的分类特征;
将每个企业的财务数据视为一条样本,样本标签为企业是否破产;
其中,所述财务数据特征至少总资产、净利润、运营资金、流动资产、留存收益、息税前利润、账面权益价值、销售额、毛利、短期负债、库存、经营活动利润、产品销售花费、运营开销、销售利润、应收款、折旧、利息、固定资产及流动负债及不动产;
所述分类特征至少包括净利润/总资产、总负债/总资产、运营资金/总资产、流动资产/短期负债、留存收益/总资产、息税前利润/总资产、账面权益价值/总资产、销售额/总资产、毛利/短期负债、(毛利+折旧)/销售额、(毛利+折旧)/总资产、(毛利+折旧)/总负债、总资产/总负债、毛利/总资产、毛利/销售额、库存/销售额、经营活动利润/总资产、净利润/销售额、(净利润+折旧)/总负债、流动资产/固定资产、(毛利+利息)/销售额、流动负债/产品销售花费、运营开销/短期负债、运营开销/总负债、销售利润/总资产、(流动资产-库存)/长期负债、不动产/总资产、销售利润/销售额、总负债/((经营活动利润+折旧)、经营活动利润/销售额、应收款/销售额、净利润/库存、(流动资产-库存)/短期负债、库存/产品销售花费、流动资产/总负债、短期负债/总资产、短期负债/产品销售花费、(流动资产-库存-短期负债)/(销售额-毛利-折旧)、销售额/库存、销售额/应收款、短期负债/销售额、销售额/固定资产。
作为一种可实施方式,所述对所述财务数据中的缺失值或异常值进行处理,包括以下步骤:
若缺失数量超过总数量的75%,将列特征进行删除操作;
若缺失数量低于总数量的5%,将对应的样本进行删除;
若缺失数量占总数量的5%-30%,将财务数据进行均值填充;
若缺失数量占总数量的30%-75%,对财务数据进行编码,缺失值填充为0,未缺失值改为1;
对财务数据进行异常值识别,若数据与均值之间的绝对距离大于3倍标准差,则将所述异常数据标记为异常值,并对异常值进行缺失值处理。
作为一种可实施方式,所述对数据中的财务特征进行重要性排序,选取排序前若干位进行特征优化融合,包括以下步骤:
基于财务数据集,将所述财务数据集内的财务数据随机打乱,并划分为训练集及测试集,构建重要度排序预训练模型;
基于F-score方法,根据特征在集合体中所有树上用于分割数据的次数来计算特征的重要性,一个特征被用来创建分裂的次数越多则重要性越高;
对所述特征重要性进行排名,基于迭代优化特征融合方法对前N个特征进行特征融合,得到寻优结果,其中,所述迭代优化特征融合方法包括:将目标函数定义为模型评估指标最大化,寻优变量设置为2N个,分别为α1,α2,α3,...,αN,β1,β2,β3,...,βN,其中,α表示特征与特征融合的位置,寻优范围为[1,20],优化变量使用整数,β代表特征融合的方法,取值范围为[1,4],优化变量使用整数,对应着‘+’、‘-’、‘*’、‘/’;
将所述优化结果进行保存,保存为[α1,α2,α3,...,α20]、[β1,β2,β3,...,β20],基于优化结果中的融合位置和融合方法创建新融合数据集,选择的前20个特征,依次进行融合,第一个特征与第α1个特征进行融合,融合方法选择β1,以重要性排名第一的特征X1为例,如α1的值为4,β1的值为1,则融合方法为X1的向量与X4的向量做加法运算,生成新的特征X1+X4,依次类推,融合剩余的特征,将重要性排名前N的特征融合成新N个特征,得到新数据集。
作为一种可实施方式,所述将融合后的新财务数据,使用XGBoost算法建立破产分类模型,包括以下步骤:
基于新数据集,将所述新数据集中的财务数据随机打乱,并划分为训练集及测试集,构建破产分类预训练模型,并基于训练集及测试集对所述破产分类预训练模型进行训练及测试,得到破产分类模型。
作为一种可实施方式,所述输入企业本年的财务数据到破产分类模型,根据破产分类模型输出的结果,对企业进行不同等级的破产预警,包括以下步骤:
将待测财务数据输入至所述破产分类模型中,得到预测结果,判断企业是否破产;
将所述预测结果作为破产的企业样本,基于sigmoid函数将预测结果转换为概率值,计算公式表示如下:
P=1/(1+e-score)
其中,P表示预测结果的类别概率,score表示将当前样本叶子节点输出值求和即为原始输出;
基于所述概率值对企业进行不同等级的破产预警,当企业分类预测结果为非破产时,处于低风险状态;当企业的分类预测结果为破产时,则判断企业所处破产风险状态,并对处于中风险和高风险状态的企业进行预警,其中,破产类别的概率值在50%到75%之间时,将企业划分为破产中风险状态,当破产类别概率值超过75%,将企业划分为破产高风险状态。
一种基于数据驱动的企业破产风险预警系统,包括数据获取模块、判断处理模块、重要性排序模块及结果预测模块;
所述数据获取模块,基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
所述判断处理模块,用于判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
所述重要性排序模块,用于对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
所述结果预测模块,用于将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如如下所述的方法:
基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
一种基于数据驱动的企业破产风险预警装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下所述的方法:
基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
本发明的有益效果如下:
1.本发明通过数据驱动的方式,利用人工智能算法对财务数据进行破产预警的建模,通过粒子群优化算法对财务数据进行融合,通过不断地迭代挑选,最终会选择出最佳的数据融合方式,使模型能够通过财务数据挖掘到企业的破产风险。
2.人为的观察和分析财务数据,容易漏掉很多数据中的潜在信息,多个财务指标组合后可能会发现很多隐藏信息,数据驱动的方法可以更好的挖掘财务数据中的信息,找到潜在的财务风险,并对相关负责人报警。
附图说明
图1为本发明的其中一个实施例的基于数据驱动的企业破产风险预警方法的流程图。
图2是本发明的数据融合流程图,展示了粒子群优化算法对数据融合的寻优过程。
图3是数据融合后的数据截图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明的核心技术是通过对财务数据进行特征融合,使用融合的财务数据来预测企业是否有破产风险,并对风险划分等级。
实施例1
如图1所示,本发明的基于数据驱动的企业破产风险预警方法,包括如下步骤:
步骤一:获取用于建立模型的财务数据,其中包括财务报表包括资产负债表、利润表、现金流量表、所有者权益变动表。将表中的财务数据整理成数据集。
(1.1)获取企业本年的资产负债表、利润表、现金流量表、所有者权益变动表,将表中的以下特征整理到数据表中:总资产、净利润、运营资金、流动资产、留存收益、息税前利润、账面权益价值、销售额、毛利、短期负债、库存、经营活动利润、产品销售花费、运营开销、销售利润、应收款、折旧、利息、固定资产、流动负债、不动产。
在该实施例中获取了5910条企业的财务数据样本。将步骤(1.1)中的数据整理出来形成表格。
(1.2)将财务数据整理成破产分类模型的分类特征:净利润/总资产、总负债/总资产、运营资金/总资产、流动资产/短期负债、留存收益/总资产、息税前利润/总资产、账面权益价值/总资产、销售额/总资产、毛利/短期负债、(毛利+折旧)/销售额、(毛利+折旧)/总资产、(毛利+折旧)/总负债、总资产/总负债、毛利/总资产、毛利/销售额、库存/销售额、经营活动利润/总资产、净利润/销售额、(净利润+折旧)/总负债、流动资产/固定资产、(毛利+利息)/销售额、流动负债/产品销售花费、运营开销/短期负债、运营开销/总负债、销售利润/总资产、(流动资产-库存)/长期负债、不动产/总资产、销售利润/销售额、总负债/((经营活动利润+折旧)、经营活动利润/销售额、应收款/销售额、净利润/库存、(流动资产-库存)/短期负债、库存/产品销售花费、流动资产/总负债、短期负债/总资产、短期负债/产品销售花费、(流动资产-库存-短期负债)/(销售额-毛利-折旧)、销售额/库存、销售额/应收款、短期负债/销售额、销售额/固定资产。
在该实施例中,将步骤(1.2)中的特征依次整理成X1到X42。X1:净利润/总资产、X2:总负债/总资产、X3:运营资金/总资产、X4:流动资产/短期负债、X5:留存收益/总资产、X6:息税前利润/总资产、X7:账面权益价值/总资产、X8:销售额/总资产、X9:毛利/短期负债、X10:(毛利+折旧)/销售额、X11:(毛利+折旧)/总资产、X12:(毛利+折旧)/总负债、X13:总资产/总负债、X14:毛利/总资产、X15:毛利/销售额、X16:库存/销售额、X17:经营活动利润/总资产、X18:净利润/销售额、X19:(净利润+折旧)/总负债、X20:流动资产/固定资产、X21:(毛利+利息)/销售额、X22:流动负债/产品销售花费、X23:运营开销/短期负债、X24:运营开销/总负债、X25:销售利润/总资产、X26:(流动资产-库存)/长期负债、X27:不动产/总资产、X28:销售利润/销售额、X29:总负债/((经营活动利润+折旧)、X30:经营活动利润/销售额、X31:应收款/销售额、X32:净利润/库存、X33:(流动资产-库存)/短期负债、X34:库存/产品销售花费、X35:流动资产/总负债、X36:短期负债/总资产、X37:短期负债/产品销售花费、X38:(流动资产-库存-短期负债)/(销售额-毛利-折旧)、X39:销售额/库存、X40:销售额/应收款、X41:短期负债/销售额、X42:销售额/固定资产。
(1.3)将每个企业的财务数据视为一条样本,样本标签为企业是否破产。
在该实施例中,样本记为[X1,...,X42,label]。其中label表示该企业是否在一年内破产。
步骤二:对财务数据中的缺失值或异常值进行处理。
(2.1)检查每个列特征的缺失值数量,如果缺失数量超过样本数量的75%以上,对该特征进行删除操作。如果缺失数量低于样本数量的5%以下,对该样本进行删除。如果缺失值数量占样本数量的5%-30%,对数据进行均值填充。如果缺失值数据量占样本数量的30%-75%,对数据进行01编码,缺失值填充为0,未缺失值改为1。
在该实施例中,X6:息税前利润/总资产、X10:(毛利+折旧)/销售额、X18:净利润/销售额缺失值数量和异常值的数量较大,超过了75%,因此对这三个特征进行删除,此时42个特征变为39个。
(2.2)对数据进行异常值识别,如果数据与均值之间的绝对距离大于3倍标准差,就把该数据标记为异常值,对异常值的处理方法使用(2.1)中处理缺失值的方法。
在该实施例中,各个特征均有异常值存在,通过对数据中的每个特征计算均值μ和标准差σ,数据处于(μ-3σ,μ+3σ)之间的数据为正常,如果样本中有5个以上的特征值处于异常状态,则删除这条样本,其他的按照均值填充异常值。
步骤三:对数据中的财务特征进行重要性排序,选取重要性较高的特征进行特征优化融合。
(3.1)使用步骤(2.2)中处理后的数据集,对数据集进行随机打乱,抽取70%作为训练集,30%作为测试集,使用XGBoost算法建立分类模型。模型参数为:分类器数量n_estimators=100,树的深度max_depth=6。
(3.2)对建立好的分类模型,使用F-score方法是根据特征在集合体中所有树上用于分割数据的次数来计算特征的重要性。一个特征被用来创建分裂的次数越多,其重要性就越高。
(3.3)通过步骤(3.2)排列的特征重要性排名,选择前20个特征进行特征融合。通过排名,前20的特征为:X20:流动资产/固定资产、X23:运营开销/短期负债、X5:留存收益/总资产、X27:不动产/总资产、X37:短期负债/产品销售花费、X33:(流动资产-库存)/短期负债、X41:短期负债/销售额、X34:库存/产品销售花费、X8:销售额/总资产、X36:短期负债/总资产、X19:(净利润+折旧)/总负债、X32:净利润/库存、X24:运营开销/总负债、X38:(流动资产-库存-短期负债)/(销售额-毛利-折旧)、X40:销售额/应收款、X21:(毛利+利息)/销售额、X30:经营活动利润/销售额、X28:销售利润/销售额、X12:(毛利+折旧)/总负债、X35:流动资产/总负债。
该实施例选择粒子群优化算法对特征进行优化融合,如图2所示,具体步骤如下:
(3.4)对前20个进行特征融合,特征融合方法使用粒子群优化算法,对特征融合的方法进行迭代优化。把特征融合当作寻优问题来看待,定义目标函数为模型auc指标最大化。寻优变量设置为40个,分别为α1,α2,α3,...,α20,β1,β2,β3,...,β20。其中α代表特征与特征融合的位置,寻优范围为[1,20],优化变量使用整数,β代表特征融合的方法,取值范围为[1,4],优化变量使用整数,对应着‘+’、‘-’、‘*’、‘/’。
在该实施例中,粒子群优化算法,初始化算法的参数,包括总迭代次数itermax=100、种群大小N=50、惯性权重w=0.729、自我认知因子c1=1.49445、社会经验因子c2=1.49445。目标函数为:XGBoost模型的auc。
把每个粒子看作一个融合方案的个体,表现为一组[α1,α2,α3,...,α20]、[β1,β2,β3,...,β20],其中α1代表特征X20与排名第α1数值的特征进行融合,β1代表融合方式,按照此方法,将20个特征进行融合,活得新的数据集,每次迭代活得50组新数据集,将50组新数据集带入XGBoost中分别建模,计算auc进行排名,选择优秀的粒子,进行下一轮的迭代。迭代100次后,输出最佳融合策略,此时模型auc值最高。
(3.5)将寻优的结果保存,保存为[α1,α2,α3,...,α20]、[β1,β2,β3,...,β20]。按照结果中的融合位置和融合方法创建新的融合数据集,使用步骤(3.3)中选择的前20个特征,依次进行融合,第一个特征与第α1个特征进行融合,融合方法选择β1,以重要性排名第一的特征X1为例,如α1的值为4,β1的值为1,则融合方法为X1的向量与X4的向量做加法运算,生成新的特征X1+X4。依次类推,融合剩余的特征,将重要性排名前20的特征融合成新的20个特征。
步骤四:将融合后的新财务数据,使用XGBoost算法建立破产分类模型。
(4.1)使用步骤(3.5)融合的新数据集,对数据集进行随机打乱,抽取70%作为训练集,30%作为测试集,使用XGBoost算法建立分类模型。
(4.2)对模型进行调参提高模型的预测效果,如果对模型有更高要求,可重复步骤(3.4)到步骤(3.5)的内容,对数据进一步融合。
在该实施例中,对模型进行了进一步融合,使用步骤(3.5)生成的新特征与步骤(3.3)选择的前20个特征进行融合,重复步骤(3.4)和步骤(3.5)的操作,融合方法略有变化,新特征的第一个特征与第α1个旧特征进行融合,融合方法选择β1。按照此方法生成新的20个特征,然后重复步骤(4.1)的操作。
该实施例的特征优化结果,如图2所示。
步骤五:输入企业本年的财务数据到破产分类模型,根据破产分类模型输出的结果,对企业进行不同等级的破产预警。
(5.1)通过步骤(1.1)到步骤(1.2)的方法,获取需要预测的财务数据。
(5.2)将步骤(5.1)中获取的数据,带入到步骤(4.1)和步骤(4.2)训练的模型中,预测企业是否破产。
(5.2)对于预测结果为破产的企业样本,使用sigmoid函数将预测结果转换为概率值,计算方法如下:
P=1/(1+e-score)
其中P是预测结果的类别概率,score是将当前样本叶子节点输出值求和即为原始输出。
(5.3)根据步骤(5.2)中计算出的类别概率,对企业进行不同等级的破产预警。当该企业分类预测结果为非破产时,该企业处于低风险状态,当该企业的分类预测结果为破产时,使用步骤(5.2)获取破产概率值,当破产类别的概率值在50%到75%之间时,该企业处于破产中风险状态,当破产类别概率值超过75%,该企业为破产高风险状态。
(5.4)对处于中风险和高风险状态的企业进行预警。
实施例2:
一种基于数据驱动的企业破产风险预警系统,包括数据获取模块、判断处理模块、重要性排序模块及结果预测模块;
所述数据获取模块,基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
所述判断处理模块,用于判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
所述重要性排序模块,用于对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
所述结果预测模块,用于将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (10)
1.一种基于数据驱动的企业破产风险预警方法,其特征在于,包括以下步骤:
基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
2.根据权利要求1所述的基于数据驱动的企业破产风险预警方法,其特征在于,建立破产分类预训练模型,基于新财务数据集中的新财务数据特征对所述破产分类预训练模型进行训练,得到破产分类模型。
3.根据权利要求1所述的基于数据驱动的企业破产风险预警方法,其特征在于,所述获取用于建立模型的财务数据并将财务数据整理成财务数据集,包括以下步骤:
所述财务报表至少包括资产负债表、利润表、现金流量表及所有者权益变动表中的一种或几种;
将财务报表进行解析得到财务数据特征;
将财务数据特征整理成破产分类模型的分类特征;
将每个企业的财务数据视为一条样本,样本标签为企业是否破产;
其中,所述财务数据特征至少总资产、净利润、运营资金、流动资产、留存收益、息税前利润、账面权益价值、销售额、毛利、短期负债、库存、经营活动利润、产品销售花费、运营开销、销售利润、应收款、折旧、利息、固定资产及流动负债及不动产;
所述分类特征至少包括净利润/总资产、总负债/总资产、运营资金/总资产、流动资产/短期负债、留存收益/总资产、息税前利润/总资产、账面权益价值/总资产、销售额/总资产、毛利/短期负债、(毛利+折旧)/销售额、(毛利+折旧)/总资产、(毛利+折旧)/总负债、总资产/总负债、毛利/总资产、毛利/销售额、库存/销售额、经营活动利润/总资产、净利润/销售额、(净利润+折旧)/总负债、流动资产/固定资产、(毛利+利息)/销售额、流动负债/产品销售花费、运营开销/短期负债、运营开销/总负债、销售利润/总资产、(流动资产-库存)/长期负债、不动产/总资产、销售利润/销售额、总负债/((经营活动利润+折旧)、经营活动利润/销售额、应收款/销售额、净利润/库存、(流动资产-库存)/短期负债、库存/产品销售花费、流动资产/总负债、短期负债/总资产、短期负债/产品销售花费、(流动资产-库存-短期负债)/(销售额-毛利-折旧)、销售额/库存、销售额/应收款、短期负债/销售额、销售额/固定资产。
4.根据权利要求1所述的基于数据驱动的企业破产风险预警方法,其特征在于,所述对所述财务数据中的缺失值或异常值进行处理,包括以下步骤:
若缺失数量超过总数量的75%,将列特征进行删除操作;
若缺失数量低于总数量的5%,将对应的样本进行删除;
若缺失数量占总数量的5%-30%,将财务数据进行均值填充;
若缺失数量占总数量的30%-75%,对财务数据进行编码,缺失值填充为0,未缺失值改为1;
对财务数据进行异常值识别,若数据与均值之间的绝对距离大于3倍标准差,则将所述异常数据标记为异常值,并对异常值进行缺失值处理。
5.根据权利要求1所述的基于数据驱动的企业破产风险预警方法,其特征在于,所述对数据中的财务特征进行重要性排序,选取排序前若干位进行特征优化融合,包括以下步骤:
基于财务数据集,将所述财务数据集内的财务数据随机打乱,并划分为训练集及测试集,构建重要度排序预训练模型;
基于F-score方法,根据特征在集合体中所有树上用于分割数据的次数来计算特征的重要性,一个特征被用来创建分裂的次数越多则重要性越高;
对所述特征重要性进行排名,基于迭代优化特征融合方法对前N个特征进行特征融合,得到寻优结果,其中,所述迭代优化特征融合方法包括:将目标函数定义为模型评估指标最大化,寻优变量设置为2N个,分别为α1,α2,α3,...,αN,β1,β2,β3,...,βN,其中,α表示特征与特征融合的位置,寻优范围为[1,20],优化变量使用整数,β代表特征融合的方法,取值范围为[1,4],优化变量使用整数,对应着‘+’、‘-’、‘*’、‘/’;
将所述优化结果进行保存,保存为[α1,α2,α3,...,α20]、[β1,β2,β3,...,β20],基于优化结果中的融合位置和融合方法创建新融合数据集,选择的前20个特征,依次进行融合,第一个特征与第α1个特征进行融合,融合方法选择β1,以重要性排名第一的特征X1为例,如α1的值为4,β1的值为1,则融合方法为X1的向量与X4的向量做加法运算,生成新的特征X1+X4,依次类推,融合剩余的特征,将重要性排名前N的特征融合成新N个特征,得到新数据集。
6.根据权利要求1所述的基于数据驱动的企业破产风险预警方法,其特征在于,所述将融合后的新财务数据,使用XGBoost算法建立破产分类模型,包括以下步骤:
基于新数据集,将所述新数据集中的财务数据随机打乱,并划分为训练集及测试集,构建破产分类预训练模型,并基于训练集及测试集对所述破产分类预训练模型进行训练及测试,得到破产分类模型。
7.根据权利要求1所述的所述的基于数据驱动的企业破产风险预警方法,其特征在于,所述输入企业本年的财务数据到破产分类模型,根据破产分类模型输出的结果,对企业进行不同等级的破产预警,包括以下步骤:
将待测财务数据输入至所述破产分类模型中,得到预测结果,判断企业是否破产;
将所述预测结果作为破产的企业样本,基于sigmoid函数将预测结果转换为概率值,计算公式表示如下:
P=1/(1+e-score)
其中,P表示预测结果的类别概率,score表示将当前样本叶子节点输出值求和即为原始输出;
基于所述概率值对企业进行不同等级的破产预警,当企业分类预测结果为非破产时,处于低风险状态;当企业的分类预测结果为破产时,则判断企业所处破产风险状态,并对处于中风险和高风险状态的企业进行预警,其中,破产类别的概率值在50%到75%之间时,将企业划分为破产中风险状态,当破产类别概率值超过75%,将企业划分为破产高风险状态。
8.一种基于数据驱动的企业破产风险预警系统,其特征在于,包括数据获取模块、判断处理模块、重要性排序模块及结果预测模块;
所述数据获取模块,基于获取到的财务数据,对所述财务数据进行预处理并将财务数据整理成财务数据集;
所述判断处理模块,用于判断财务数据集中的财务数据是否缺失或异常,若是,则对所述财务数据中的缺失数据或异常数据进行处理,得到完整财务数据集;
所述重要性排序模块,用于对所述完整财务数据集中的财务特征进行重要性排序,选取排序前若干位的特征进行特征优化融合,得到新财务数据集;
所述结果预测模块,用于将待测财务数据输入至破产分类模型得到预测结果,根据所述预测结果对企业进行不同等级的破产预警。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法。
10.一种基于数据驱动的企业破产风险预警装置,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459368.3A CN116503158A (zh) | 2023-04-24 | 2023-04-24 | 基于数据驱动的企业破产风险预警方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310459368.3A CN116503158A (zh) | 2023-04-24 | 2023-04-24 | 基于数据驱动的企业破产风险预警方法、系统及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503158A true CN116503158A (zh) | 2023-07-28 |
Family
ID=87327946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310459368.3A Pending CN116503158A (zh) | 2023-04-24 | 2023-04-24 | 基于数据驱动的企业破产风险预警方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503158A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473048A (zh) * | 2023-12-28 | 2024-01-30 | 长春职业技术学院 | 基于数据挖掘的财务异常数据监测分析系统及方法 |
-
2023
- 2023-04-24 CN CN202310459368.3A patent/CN116503158A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117473048A (zh) * | 2023-12-28 | 2024-01-30 | 长春职业技术学院 | 基于数据挖掘的财务异常数据监测分析系统及方法 |
CN117473048B (zh) * | 2023-12-28 | 2024-03-01 | 长春职业技术学院 | 基于数据挖掘的财务异常数据监测分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255506B (zh) | 一种基于大数据的互联网金融用户贷款逾期预测方法 | |
CN112819604A (zh) | 基于融合神经网络特征挖掘的个人信用评估方法与系统 | |
CN110738564A (zh) | 贷后风险评估方法及装置、存储介质 | |
CN112270547A (zh) | 基于特征构造的金融风险评估方法、装置和电子设备 | |
US20210303970A1 (en) | Processing data using multiple neural networks | |
US11087344B2 (en) | Method and system for predicting and indexing real estate demand and pricing | |
US20230401637A1 (en) | Deep learning approach for assessing credit risk | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN112036483B (zh) | 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质 | |
CN114219360A (zh) | 基于模型优化的监控安全预测方法及系统 | |
CN116503158A (zh) | 基于数据驱动的企业破产风险预警方法、系统及装置 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN111178656A (zh) | 信用模型训练方法、信用评分方法、装置及电子设备 | |
TWI781461B (zh) | 資訊處理裝置、資訊處理方法及程式 | |
CN113657990A (zh) | 一种蚁狮算法优化narx神经网络风险预测系统及方法 | |
US11468352B2 (en) | Method and system for predictive modeling of geographic income distribution | |
CN111695625A (zh) | 一种基于多级注意力机制网络的移动应用流行度预测方法 | |
CN112950350B (zh) | 一种基于机器学习的贷款产品推荐方法及系统 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
US11004156B2 (en) | Method and system for predicting and indexing probability of financial stress | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN113205409A (zh) | 贷款业务处理方法及装置 | |
CN112991025A (zh) | 一种保险智能推荐方法、系统、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |