CN113554278A - 一种动态柔性规则的公司经营危机预警方法和系统 - Google Patents

一种动态柔性规则的公司经营危机预警方法和系统 Download PDF

Info

Publication number
CN113554278A
CN113554278A CN202110733684.6A CN202110733684A CN113554278A CN 113554278 A CN113554278 A CN 113554278A CN 202110733684 A CN202110733684 A CN 202110733684A CN 113554278 A CN113554278 A CN 113554278A
Authority
CN
China
Prior art keywords
original
data
model
audit
company
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110733684.6A
Other languages
English (en)
Inventor
李辰杰
季白杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110733684.6A priority Critical patent/CN113554278A/zh
Publication of CN113554278A publication Critical patent/CN113554278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Educational Administration (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Mathematics (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种动态柔性规则的公司经营危机预警方法,包括:步骤1.选取原始特征指标,从公司披露的信息中选取特定指标作为原始特征,选取的特征库;步骤2.进行独热处理与特征工程,去除不符合要求的原始特征;步骤3.构建模型;本发明还包括一种动态柔性规则的公司经营危机预警系统,包括依次连接的原始特征指标选取模块、独热处理与特征工程模块、模型构建模块、柔性规则判别模块。本发明能够依据不同公司不同的情况动态地调整原始特征的权重,对于公司经营情况的预警同传统静态方法相比具有更高的准确性和强健性。同时,能有效判断原始数据的真实性,并做出对应的调整,解决了数据真实性的问题,提升了公司经营情况预警的准确性和强健性。

Description

一种动态柔性规则的公司经营危机预警方法和系统
技术领域
本发明涉及一种公司经营危机的预警方法和系统。
背景技术
对公司经营危机的预警对企业主、银行、政府、证券投资者和经济利益相关者都变得极其重要,因为能通过它对企业经营情况进行预警以避免财务损失。这个话题吸引了许多计算机科学家以及金融界的注意。在计算机科学中,将这个问题发展一个预测模型,以分析一个公司的财务报表,并根据现有的破产数据预测其未来的命运。由此,许多机器学习模型被开发出来,可以使用特定的数据集来预测破产。这些传统方法通常使用单一的分类方法,如使用逻辑回归,支持向量机(SVM),随机树,神经网络等方法进行分类。现有预测方法主要有预测强健性不足的问题,预测方法偏向静态,难以判断原始数据真实性的问题。
发明内容
本发明要克服现有技术的上述缺点,提供一种动态柔性规则的公司经营危机预警方法和系统。
本发明主要解决公司经营危机预警的技术问题,包括现有预测系统预测强健性不足、预测系统偏向静态、难以判断原始数据真实性的问题,提供动态柔性规则经营危机预警方法,解决上述问题。本发明的动态柔性规则经营危机预警方法由选取原始特征指标,进行独热处理与特征工程,构建模型,使用柔性规则判别4部分成。首先将原始数据经过独热处理后进行特征工程,接着送入各个分类器进行训练,然后使用柔性规则进行权重计算,来预测公司地经营情况。其结构图如图1所示:
本发明的一种动态柔性规则的公司经营危机预警方法,包括以下步骤:
步骤1.选取原始特征指标,具体包括:
从公司披露的信息中选取特定指标作为原始特征,选取的特征库包括:
成长能力:按同比增长率计算的基本每股收益,按同比增长率计算的稀释每股收益,按同比增长率计算的每股经营活动产生的现金流量净额,按同比增长率计算的营业总收入,按同比增长率计算的营业收入,按同比增长率计算的营业利润。
收益质量:经营活动净收益/利润总额,价值变动净收益/利润总额,营业外收支净额/利润总额,所得税/利润总额,扣除非经常损益后的净利润/净利润,经营活动净收益/利润总额(TTM)。
现金流量:销售商品提供劳务收到的现金/营业收入,经营活动产生的现金流量净额/营业收入,经营活动产生的现金流量净额/经营活动净收益,净利润现金含量,资本支出/折旧和摊销,销售商品提供劳务收到的现金/营业收入(TTM)。
盈利能力:平均净资产收益率ROE,加权净资产收益率ROE,摊薄净资产收益率ROE,总资产报酬率ROA,总资产净利率ROA,投入资本回报率ROIC。
营运能力:营业周期,存货周转天数,应收账款周转天数,净营业周,存货周转率,应收账款周转率。
资本结构:资产负债率,剔除预收款项后的资产负债率,长期资本负债率,长期资产适合率,权益乘数,股东权益比。
步骤2.进行独热处理与特征工程,去除不符合要求的原始特征;
在指标筛选工作之前,需要对可能存在偏序的离散数据进行独热编码,将其转化为0或1的特征。
之后本文采用特征工程的方法对特征库进行行筛选,构建筛选体系。首先,将缺失值大于35%的指标筛除,即筛去35%以上为缺失值的特征。其次,原始采集的数据中可能存在该特征的值都是相同的情况,这些特征属于唯一值特征,对于模型没有增益,需要筛除这些特征。再次,要筛除对于模型可能贡献度较低的特征,采用监督学习的方式来找到重要度特征较低的特征,具体包括:
(2.1)通过CART算法可以对所有待处理的低阶和独热特征进行分类处理,形成分类回归树,其原理公式如下:
Figure BDA0003140687130000021
其中,n1和n2表示变量vj二元化后两个类别所包含的数据点个数,p1和p2表示vj两个类别中分属v*的概率。当Gini(vj)最小时,vj为最优划分变量。
(2.2)通过Boosting方法,将多个CART弱分类器组合为若干强分类器,原理公式如下:
Figure BDA0003140687130000022
其中,αi为第i个分类器的权重。采用梯度提升算法,将分类回归树组合为梯度回归树。通过追踪上一次分类回归树的拟合残差,使得下一次构建的分类树沿着负梯度最快速度下降,通过多次迭代快速逼近最优解。
(2.3)通过增强算法,将GBDT算法增强为XGBoost算法。
(2.4)将学习过程运行10次并求平均值得到特征的重要性,从而减少方差,同时设置模型的早停参数,避免过拟合的现象影响模型的准确性。
(2.5)去除零重要度特征。
再再次,筛除共线性特征。共线性特征就是那些相互之间高度相关的特征,由于其较高的方差和较低的可解释性,往往会导致模型的泛化能力降低。这里剔除共线性系数大于0.7的特征。
步骤3.构建模型;
3.1构建逻辑回归模型;
采用逻辑回归模型构建预警分类模型,包括:
(1)导入进行特征工程后的原始特征指标数据。
(2)定义逻辑回归模型。
(3)设置逻辑回归模型的超参数,如:学习效率等。
(4)定义逻辑回归模型的损失函数和优化函数。
(5)获取每轮训练的训练数据并将数据调整为逻辑回归模型可接受的形式。
(6)进行训练。
(7)判别逻辑回归模型的效果,若达到要求则进行步骤(8),未达到则进行步骤(6)。
(8)完成训练并保存逻辑回归模型。
3.2.构建文本分析模型;
采用上市公司审计报告的文本作为文本分析模型的原始样本。
3.2.1首先确定审计报告样本的审计倾向分类,按以下规则进行分类:
(P1)将被ST的公司的审计报告文本作为负面审计分类。
(P2)将审计报告为保留意见,否定意见和无法表示意见的审计报告作为负面审计分类。
(P3)将其他审计报告作为正面审计分类。
3.2.2对原始样本进行分词,使用jieba分词工具将文本分词为若干词汇段。并将通用的词汇和“(),-,/,&”的符号作为停用词除去。
3.2.3使用分词之后的原始样本构建词袋模型,将其进一步转化为向量。该向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数。
3.2.4将词袋向量转换为TF-IDF权值向量。其公式如下所示:
Figure BDA0003140687130000031
其中分子是词条ti在文本dj中出现的次数,分母是文本dj中所有词条出现的次数之和。
Figure BDA0003140687130000032
其中对数内的分子是文本总数,分母是包含词条ti的文件数。
tfidfi,j=tfij*idfi (5)
3.2.5定义文本分析模型的损失函数和优化函数。
3.2.6以TF-IDF权值向量作为输入特征,分批次输入到文本分析模型进行训练。
3.2.7判别文本分析模型的效果,若达到要求则进行3.2.8,未达到则进行3.2.6。
3.2.8完成训练并保存文本分析模型。
步骤4.用柔性规则判别对逻辑回归模型进行调整,预测公司的经营情况。
4.1对所有的原始特征指标分别计算其训练样本中的最大值,最值和平均值,其公式如下:
s(max,i)=max(Ti) (6)
s(min,i)=min(Ti) (7)
s(avg,i)=avg(Ti) (8)
其中Ti表示第i个原始特征指标。
4.2使用柔性规则判别对逻辑回归分类模型的结果进行再处理,包括:
4.2.1根据文本分析模型结果重新训练逻辑回归模型:
(T1)将审计报告的文本信息输入到文本分析模型中。
(T2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高,原始数据真实有效,那么送入逻辑回归分类器进行训练。
(T3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性。接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应该对对应的原始特征指标做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将应收账款周转率调整为整份数据的最坏值,即S(min,应收账款周转率),然后送入逻辑回归模型进行重新训练。
(T4)训练完成。
4.2.2用重新训练得到的逻辑回归模型预测公司经营状况:
(S1)将需要预测的公司的审计报告的文本信息输入到训练后保存的文本分析模型中。
(S2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高。接着查看审计报告中指出的关键审计项目,如:审计报告中指出,某公司的关键审计事项为:(1)收入确认(2)存货跌价准备。则说明与收入和存货相关的原始特征是反应该公司情况的重点特征,如:营业总收入(同比增长率),存货周转率等。且这些原始特征是真实有效的,因此,应当适当调高这些原始特征在逻辑回归模型中的权重,并相应降低其他原始特征的权重。其公式如下:
q(i,up)=li+li*(0.2/n) (9)
q(i,down)=li-li*(0.2/(t-n)) (10)
其中li表示第i个原始特征的原始权重,n表示关键审计事项总数,t表示原始特征特征总数。
(S3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性。接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应对对应的原始特征做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将逻辑回归模型中应收账款周转率的权重调整为0。
(S4)根据进行柔性判别后的逻辑回归模型得到最终的预测结果。
本发明还包括一种动态柔性规则的公司经营危机预警系统,包括依次连接的原始特征指标选取模块、独热处理与特征工程模块、模型构建模块、柔性规则判别模块。
本发明工作原理是:本发明通过采集公司的原始数据构建原始特征,通过进行独热处理与特征工程除去原始特征中不符合要求的部分,并使用这些处理后的原始特征构建逻辑回归模型。同时,使用公司的审计报告文本构建文本分析模型。接着,使用柔性判别方法,以文本分析模型的结果作为判别依据,调整原始特征,重新训练逻辑回归模型。并在预测新的公司的经营状况时,使用柔性判别方法,调整逻辑回归模型原始特征的权重,预测公司的经营状况。
本发明的优点是:本发明能够依据不同公司不同的情况动态地调整原始特征的权重,对于公司经营情况的预警同传统静态方法相比具有更高的准确性和强健性。同时,能有效判断原始数据的真实性,并做出对应的调整,解决了数据真实性的问题,提升了公司经营情况预警的准确性和强健性。
附图说明
图1是本发明的系统结构图。
图2是本发明的训练集和测试集的分布直方图。
图3是本发明的模型的预测效果对比图。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
一种动态柔性规则的公司经营危机预警方法,包括以下步骤:
步骤1.选取原始特征指标,从公司披露的信息中选取特定指标作为原始特征,选取的特征库包括:
成长能力:按同比增长率计算的基本每股收益,按同比增长率计算的稀释每股收益,按同比增长率计算的每股经营活动产生的现金流量净额,按同比增长率计算的营业总收入,按同比增长率计算的营业收入,按同比增长率计算的营业利润;
收益质量:经营活动净收益/利润总额,价值变动净收益/利润总额,营业外收支净额/利润总额,所得税/利润总额,扣除非经常损益后的净利润/净利润,经营活动净收益/利润总额(TTM);
现金流量:销售商品提供劳务收到的现金/营业收入,经营活动产生的现金流量净额/营业收入,经营活动产生的现金流量净额/经营活动净收益,净利润现金含量,资本支出/折旧和摊销,销售商品提供劳务收到的现金/营业收入(TTM);
盈利能力:平均净资产收益率ROE,加权净资产收益率ROE,摊薄净资产收益率ROE,总资产报酬率ROA,总资产净利率ROA,投入资本回报率ROIC;
营运能力:营业周期,存货周转天数,应收账款周转天数,净营业周,存货周转率,应收账款周转率;
资本结构:资产负债率,剔除预收款项后的资产负债率,长期资本负债率,长期资产适合率,权益乘数,股东权益比;
步骤2.进行独热处理与特征工程,去除不符合要求的原始特征;
要采用特征工程的方法对于建立的特征库进行筛选,首先需要对企业数据进行预处理;需要分别针对缺失数据、离群点和重复数据进行数据清理工作;为保证数据的统一量化,首先对各个风险评估相关指标进行无量纲化处理,并将取值统一在0~1范围内;同时,风险评估的指标常常涉及大量人类逻辑难以区分的离散数据,这些离散数据往往存在偏序关系,直接运用逻辑算法和机器学习算法很容易错误计算数据类别间的距离;因此,在指标筛选工作之前,需要对可能存在偏序的离散数据进行独热编码,将其转化为0或1的特征;
之后本文采用特征工程的方法对特征库进行行筛选,构建筛选体系;首先,将缺失值大于35%的指标筛除,即筛去35%以上为缺失值的特征;其次,原始采集的数据中可能存在该特征的值都是相同的情况,这些特征属于唯一值特征,对于模型没有增益,需要筛除这些特征;再次,要筛除对于模型可能贡献度较低的特征,采用监督学习的方式来找到重要度特征较低的特征,具体包括:
(2.1)通过CART算法可以对所有待处理的低阶和独热特征进行分类处理,形成分类回归树,其原理公式如下:
Figure BDA0003140687130000061
其中,n1和n2表示变量vj二元化后两个类别所包含的数据点个数,p1和p2表示vj两个类别中分属v*的概率;当Gini(vj)最小时,vj为最优划分变量;
(2.2)通过Boosting方法,将多个CART弱分类器组合为若干强分类器,原理公式如下:
Figure BDA0003140687130000062
其中,αi为第i个分类器的权重;采用梯度提升算法,将分类回归树组合为梯度回归树;通过追踪上一次分类回归树的拟合残差,使得下一次构建的分类树沿着负梯度最快速度下降,通过多次迭代快速逼近最优解;
(2.3)通过增强算法,将GBDT算法增强为XGBoost算法;
(2.4)将学习过程运行10次并求平均值得到特征的重要性,从而减少方差,同时设置模型的早停参数,避免过拟合的现象影响模型的准确性;
(2.5)去除零重要度特征;
再再次,筛除共线性特征;共线性特征就是那些相互之间高度相关的特征,由于其较高的方差和较低的可解释性,往往会导致模型的泛化能力降低;这里剔除共线性系数大于0.7的特征;
步骤3.构建模型;
3.1构建逻辑回归模型;
采用逻辑回归模型构建预警分类模型,包括:
(9)导入进行特征工程后的原始特征指标数据;
(10)定义逻辑回归模型;
(11)设置逻辑回归模型的超参数,如:学习效率等;
(12)定义逻辑回归模型的损失函数和优化函数;
(13)获取每轮训练的训练数据并将数据调整为逻辑回归模型可接受的形式;
(14)进行训练;
(15)判别逻辑回归模型的效果,若达到要求则进行步骤(8),未达到则进行步骤(6);
(16)完成训练并保存逻辑回归模型;
3.2.构建文本分析模型;
采用上市公司审计报告的文本作为文本分析模型的原始样本;
3.2.1首先确定审计报告样本的审计倾向分类,按以下规则进行分类:
(P1)将被ST的公司的审计报告文本作为负面审计分类;
(P2)将审计报告为保留意见,否定意见和无法表示意见的审计报告作为负面审计分类;
(P3)将其他审计报告作为正面审计分类;
3.2.2对原始样本进行分词,使用jieba分词工具将如:联想移动通信科技有限公司的文本,分词为“联想,移动,通信,科技,有限,公司”的词汇段;并将如:“有限,责任,股份,公司”等通用的词汇,和“(),-,/,&”等符号作为停用词除去;
3.2.3使用分词之后的原始样本构建词袋模型,将其进一步转化为向量;该向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;如:“阿尔西集团”和“阿尔西制冷工程技术(北京)有限公司”两个文本切词后的结果是“阿尔西集团”和“阿尔西制冷工程技术北京”,它们构成的词条列表是[阿尔西,集团,制冷,工程技术,北京],对应的词袋模型分别是[1,1,0,0,0],[1,0,1,1,1];
3.2.4将词袋向量转换为TF-IDF权值向量;其公式如下所示:
Figure BDA0003140687130000071
其中分子是词条ti在文本dj中出现的次数,分母是文本dj中所有词条出现的次数之和;
Figure BDA0003140687130000072
其中对数内的分子是文本总数,分母是包含词条ti的文件数;
tfidfi,j=tfij*idfi (5)
3.2.5定义文本分析模型的损失函数和优化函数;
3.2.6以TF-IDF权值向量作为输入特征,分批次输入到文本分析模型进行训练;
3.2.7判别文本分析模型的效果,若达到要求则进行3.2.8,未达到则进行3.2.6;
3.2.8完成训练并保存文本分析模型;
步骤4.用柔性规则判别对逻辑回归模型进行调整,预测公司的经营情况;
4.1对所有的原始特征指标分别计算其训练样本中的最大值,最值和平均值,其公式如下:
s(max,i)=max(Ti) (6)
s(min,i)=min(Ti) (7)
s(avg,i)=avg(Ti) (8)
其中Ti表示第i个原始特征指标;
4.2使用柔性规则判别对逻辑回归分类模型的结果进行再处理,包括:
4.2.1根据文本分析模型结果重新训练逻辑回归模型:
(T1)将审计报告的文本信息输入到文本分析模型中;
(T2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高,原始数据真实有效,那么送入逻辑回归分类器进行训练;
(T3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应该对对应的原始特征指标做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将应收账款周转率调整为整份数据的最坏值,即S(min,应收账款周转率),然后送入逻辑回归模型进行重新训练;
(T4)训练完成;
4.2.2用重新训练得到的逻辑回归模型预测公司经营状况:
(S1)将需要预测的公司的审计报告的文本信息输入到训练后保存的文本分析模型中;
(S2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高;接着查看审计报告中指出的关键审计项目,如:审计报告中指出,某公司的关键审计事项为:(1)收入确认(2)存货跌价准备;则说明与收入和存货相关的原始特征是反应该公司情况的重点特征,如:营业总收入(同比增长率),存货周转率等;且这些原始特征是真实有效的,因此,应当适当调高这些原始特征在逻辑回归模型中的权重,并相应降低其他原始特征的权重;其公式如下:
q(i,up)=li+li*(0.2/n) (9)
q(i,down)=li-li*(0.2/(t-n)) (10)
其中li表示第i个原始特征的原始权重,n表示关键审计事项总数,t表示原始特征特征总数;
(S3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应对对应的原始特征做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将逻辑回归模型中应收账款周转率的权重调整为0;
(S4)根据进行柔性判别后的逻辑回归模型得到最终的预测结果。
实施本发明的一种动态柔性规则的公司经营危机预警方法的系统,包括依次连接的原始特征指标选取模块、独热处理与特征工程模块、模型构建模块、柔性规则判别模块;
原始特征指标选取模块,从公司披露的信息中选取特定指标作为原始特征,选取的特征库包括:
成长能力:按同比增长率计算的基本每股收益,按同比增长率计算的稀释每股收益,按同比增长率计算的每股经营活动产生的现金流量净额,按同比增长率计算的营业总收入,按同比增长率计算的营业收入,按同比增长率计算的营业利润;
收益质量:经营活动净收益/利润总额,价值变动净收益/利润总额,营业外收支净额/利润总额,所得税/利润总额,扣除非经常损益后的净利润/净利润,经营活动净收益/利润总额(TTM);
现金流量:销售商品提供劳务收到的现金/营业收入,经营活动产生的现金流量净额/营业收入,经营活动产生的现金流量净额/经营活动净收益,净利润现金含量,资本支出/折旧和摊销,销售商品提供劳务收到的现金/营业收入(TTM);
盈利能力:平均净资产收益率ROE,加权净资产收益率ROE,摊薄净资产收益率ROE,总资产报酬率ROA,总资产净利率ROA,投入资本回报率ROIC;
营运能力:营业周期,存货周转天数,应收账款周转天数,净营业周,存货周转率,应收账款周转率;
资本结构:资产负债率,剔除预收款项后的资产负债率,长期资本负债率,长期资产适合率,权益乘数,股东权益比;
独热处理与特征工程模块,去除不符合要求的原始特征;
要采用特征工程的方法对于建立的特征库进行筛选,首先需要对企业数据进行预处理;需要分别针对缺失数据、离群点和重复数据进行数据清理工作;为保证数据的统一量化,首先对各个风险评估相关指标进行无量纲化处理,并将取值统一在0~1范围内;同时,风险评估的指标常常涉及大量人类逻辑难以区分的离散数据,这些离散数据往往存在偏序关系,直接运用逻辑算法和机器学习算法很容易错误计算数据类别间的距离;因此,在指标筛选工作之前,需要对可能存在偏序的离散数据进行独热编码,将其转化为0或1的特征;
之后本文采用特征工程的方法对特征库进行行筛选,构建筛选体系;首先,将缺失值大于35%的指标筛除,即筛去35%以上为缺失值的特征;其次,原始采集的数据中可能存在该特征的值都是相同的情况,这些特征属于唯一值特征,对于模型没有增益,需要筛除这些特征;再次,要筛除对于模型可能贡献度较低的特征,采用监督学习的方式来找到重要度特征较低的特征,具体包括:
(2.1)通过CART算法可以对所有待处理的低阶和独热特征进行分类处理,形成分类回归树,其原理公式如下:
Figure BDA0003140687130000091
其中,n1和n2表示变量vj二元化后两个类别所包含的数据点个数,p1和p2表示vj两个类别中分属v*的概率;当Gini(vj)最小时,vj为最优划分变量;
(2.2)通过Boosting方法,将多个CART弱分类器组合为若干强分类器,原理公式如下:
Figure BDA0003140687130000101
其中,αi为第i个分类器的权重;采用梯度提升算法,将分类回归树组合为梯度回归树;通过追踪上一次分类回归树的拟合残差,使得下一次构建的分类树沿着负梯度最快速度下降,通过多次迭代快速逼近最优解;
(2.3)通过增强算法,将GBDT算法增强为XGBoost算法;
(2.4)将学习过程运行10次并求平均值得到特征的重要性,从而减少方差,同时设置模型的早停参数,避免过拟合的现象影响模型的准确性;
(2.5)去除零重要度特征;
再再次,筛除共线性特征;共线性特征就是那些相互之间高度相关的特征,由于其较高的方差和较低的可解释性,往往会导致模型的泛化能力降低;这里剔除共线性系数大于0.7的特征;
模型构建模块具体包括:
3.1构建逻辑回归模型;
采用逻辑回归模型构建预警分类模型,包括:
(17)导入进行特征工程后的原始特征指标数据;
(18)定义逻辑回归模型;
(19)设置逻辑回归模型的超参数,如:学习效率等;
(20)定义逻辑回归模型的损失函数和优化函数;
(21)获取每轮训练的训练数据并将数据调整为逻辑回归模型可接受的形式;
(22)进行训练;
(23)判别逻辑回归模型的效果,若达到要求则进行步骤(8),未达到则进行步骤(6);
(24)完成训练并保存逻辑回归模型;
3.2.构建文本分析模型;
采用上市公司审计报告的文本作为文本分析模型的原始样本;
3.2.1首先确定审计报告样本的审计倾向分类,按以下规则进行分类:
(P1)将被ST的公司的审计报告文本作为负面审计分类;
(P2)将审计报告为保留意见,否定意见和无法表示意见的审计报告作为负面审计分类;
(P3)将其他审计报告作为正面审计分类;
3.2.2对原始样本进行分词,使用jieba分词工具将如:联想移动通信科技有限公司的文本,分词为“联想,移动,通信,科技,有限,公司”的词汇段;并将如:“有限,责任,股份,公司”等通用的词汇,和“(),-,/,&”等符号作为停用词除去;
3.2.3使用分词之后的原始样本构建词袋模型,将其进一步转化为向量;该向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;如:“阿尔西集团”和“阿尔西制冷工程技术(北京)有限公司”两个文本切词后的结果是“阿尔西集团”和“阿尔西制冷工程技术北京”,它们构成的词条列表是[阿尔西,集团,制冷,工程技术,北京],对应的词袋模型分别是[1,1,0,0,0],[1,0,1,1,1];
3.2.4将词袋向量转换为TF-IDF权值向量;其公式如下所示:
Figure BDA0003140687130000111
其中分子是词条ti在文本dj中出现的次数,分母是文本dj中所有词条出现的次数之和;
Figure BDA0003140687130000112
其中对数内的分子是文本总数,分母是包含词条ti的文件数;
tfidfi,j=tfij*idfi (5)
3.2.5定义文本分析模型的损失函数和优化函数;
3.2.6以TF-IDF权值向量作为输入特征,分批次输入到文本分析模型进行训练;
3.2.7判别文本分析模型的效果,若达到要求则进行3.2.8,未达到则进行3.2.6;
3.2.8完成训练并保存文本分析模型;
柔性规则判别模块用柔性规则判别对逻辑回归模型进行调整,预测公司的经营情况;
4.1对所有的原始特征指标分别计算其训练样本中的最大值,最值和平均值,其公式如下:
s(max,i)=max(Ti) (6)
s(min,i)=min(Ti) (7)
s(avg,i)=avg(Ti) (8)
其中Ti表示第i个原始特征指标;
4.2使用柔性规则判别对逻辑回归分类模型的结果进行再处理,包括:
4.2.1根据文本分析模型结果重新训练逻辑回归模型:
(T1)将审计报告的文本信息输入到文本分析模型中;
(T2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高,原始数据真实有效,那么送入逻辑回归分类器进行训练;
(T3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应该对对应的原始特征指标做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将应收账款周转率调整为整份数据的最坏值,即S(min,应收账款周转率),然后送入逻辑回归模型进行重新训练;
(T4)训练完成;
4.2.2用重新训练得到的逻辑回归模型预测公司经营状况:
(S1)将需要预测的公司的审计报告的文本信息输入到训练后保存的文本分析模型中;
(S2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高;接着查看审计报告中指出的关键审计项目,如:审计报告中指出,某公司的关键审计事项为:(1)收入确认(2)存货跌价准备;则说明与收入和存货相关的原始特征是反应该公司情况的重点特征,如:营业总收入(同比增长率),存货周转率等;且这些原始特征是真实有效的,因此,应当适当调高这些原始特征在逻辑回归模型中的权重,并相应降低其他原始特征的权重;其公式如下:
q(i,up)=li+li*(0.2/n) (9)
q(i,down)=li-li*(0.2/(t-n)) (10)
其中li表示第i个原始特征的原始权重,n表示关键审计事项总数,t表示原始特征特征总数;
(S3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应对对应的原始特征做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将逻辑回归模型中应收账款周转率的权重调整为0;
(S4)根据进行柔性判别后的逻辑回归模型得到最终的预测结果。
本文选取的实例样本原则如下:
(1)在中国沪深两市上市的A股上市公司的数据。
(2)公司的上市时间大于3年,各项披露的数据齐全。
(3)根据企业T-1年的数据来预测企业第T年的经营状况。
(4)采集2009至2019年之间,所有满足上述条件的上市公司的数据,其中将2009年至2018年作为训练集,2019年的数据作为测试集。
最终,依据确定的数据采集的原则,本文选取了2009年至2019年近11年来的中国A股上市公司的数据,涉及4083家上市公司,其中财务危机的有240家。其中,2009年至2018年作为训练集,2019年作为测试集,样本公司的分布如表1所示:
表1采集的公司数据分布
科目 训练集 测试集 合计
经营危机企业 2400 240 2640
经营健康企业 38430 3843 42260
合计 40830 4084 44900
从上表中可以看出,训练集一共40830条数据,其中经营危机的数据有2400条,测试集一共4084条数据,其中经营危机的数据有240条。合计44900条数据,经营危机的企业与经营健康的企业的比例约为1:16。训练集和测试集的分布直方图如图2所示。同时,为了防止样本过于偏向健康样本,在实际训练中使用危机样本:健康样本1:3的比例进行训练,每次随机抽取对应数量的健康样本进行多次训练。
模型对于样本数据的预测结果表2,图3所示:
表2模型的预测效果对比
Figure BDA0003140687130000131
通过对比可以发现,动态柔性规则经营危机预警模型效果要优于单个的分类模型,具有更高的召回率和更强的稳健性。
综上所述,动态柔性规则经营危机预警模型在公司经营预警预测上能取得较好的效果。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.一种动态柔性规则的公司经营危机预警方法,包括以下步骤:
步骤1.选取原始特征指标,从公司披露的信息中选取特定指标作为原始特征,选取的特征库,包括:
成长能力:按同比增长率计算的基本每股收益,按同比增长率计算的稀释每股收益,按同比增长率计算的每股经营活动产生的现金流量净额,按同比增长率计算的营业总收入,按同比增长率计算的营业收入,按同比增长率计算的营业利润;
收益质量:经营活动净收益/利润总额,价值变动净收益/利润总额,营业外收支净额/利润总额,所得税/利润总额,扣除非经常损益后的净利润/净利润,经营活动净收益/利润总额(TTM);
现金流量:销售商品提供劳务收到的现金/营业收入,经营活动产生的现金流量净额/营业收入,经营活动产生的现金流量净额/经营活动净收益,净利润现金含量,资本支出/折旧和摊销,销售商品提供劳务收到的现金/营业收入(TTM);
盈利能力:平均净资产收益率ROE,加权净资产收益率ROE,摊薄净资产收益率ROE,总资产报酬率ROA,总资产净利率ROA,投入资本回报率ROIC;
营运能力:营业周期,存货周转天数,应收账款周转天数,净营业周,存货周转率,应收账款周转率;
资本结构:资产负债率,剔除预收款项后的资产负债率,长期资本负债率,长期资产适合率,权益乘数,股东权益比;
步骤2.进行独热处理与特征工程,去除不符合要求的原始特征;
在指标筛选工作之前,需要对可能存在偏序的离散数据进行独热编码,将其转化为0或1的特征;
之后本文采用特征工程的方法对特征库进行行筛选,构建筛选体系;首先,将缺失值大于35%的指标筛除,即筛去35%以上为缺失值的特征;其次,原始采集的数据中可能存在该特征的值都是相同的情况,这些特征属于唯一值特征,对于模型没有增益,需要筛除这些特征;再次,要筛除对于模型可能贡献度较低的特征,采用监督学习的方式来找到重要度特征较低的特征,具体包括:
(2.1)通过CART算法可以对所有待处理的低阶和独热特征进行分类处理,形成分类回归树,其原理公式如下:
Figure FDA0003140687120000011
其中,n1和n2表示变量vj二元化后两个类别所包含的数据点个数,p1和p2表示vj两个类别中分属v*的概率;当Gini(vj)最小时,vj为最优划分变量;
(2.2)通过Boosting方法,将多个CART弱分类器组合为若干强分类器,原理公式如下:
Figure FDA0003140687120000012
其中,αi为第i个分类器的权重;采用梯度提升算法,将分类回归树组合为梯度回归树;通过追踪上一次分类回归树的拟合残差,使得下一次构建的分类树沿着负梯度最快速度下降,通过多次迭代快速逼近最优解;
(2.3)通过增强算法,将GBDT算法增强为XGBoost算法;
(2.4)将学习过程运行10次并求平均值得到特征的重要性,从而减少方差,同时设置模型的早停参数,避免过拟合的现象影响模型的准确性;
(2.5)去除零重要度特征;
再再次,筛除共线性特征;共线性特征就是那些相互之间高度相关的特征,由于其较高的方差和较低的可解释性,往往会导致模型的泛化能力降低;这里剔除共线性系数大于0.7的特征;
步骤3.构建模型;
3.1构建逻辑回归模型;
采用逻辑回归模型构建预警分类模型,包括:
(1)导入进行特征工程后的原始特征指标数据;
(2)定义逻辑回归模型;
(3)设置逻辑回归模型的超参数,如:学习效率等;
(4)定义逻辑回归模型的损失函数和优化函数;
(5)获取每轮训练的训练数据并将数据调整为逻辑回归模型可接受的形式;
(6)进行训练;
(7)判别逻辑回归模型的效果,若达到要求则进行步骤(8),未达到则进行步骤(6);
(8)完成训练并保存逻辑回归模型;
3.2.构建文本分析模型;
采用上市公司审计报告的文本作为文本分析模型的原始样本;
3.2.1首先确定审计报告样本的审计倾向分类,按以下规则进行分类:
(P1)将被ST的公司的审计报告文本作为负面审计分类;
(P2)将审计报告为保留意见,否定意见和无法表示意见的审计报告作为负面审计分类;
(P3)将其他审计报告作为正面审计分类;
3.2.2对原始样本进行分词,使用jieba分词工具将文本分词为词汇段;并将其中的通用的词汇和“(),-,/,&”的符号作为停用词除去;
3.2.3使用分词之后的原始样本构建词袋模型,将其进一步转化为向量;该向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;
3.2.4将词袋向量转换为TF-IDF权值向量;其公式如下所示:
Figure FDA0003140687120000021
其中分子是词条ti在文本dj中出现的次数,分母是文本dj中所有词条出现的次数之和;
Figure FDA0003140687120000022
其中对数内的分子是文本总数,分母是包含词条ti的文件数;
tfidfi,j=tfij*idfi (5)
3.2.5定义文本分析模型的损失函数和优化函数;
3.2.6以TF-IDF权值向量作为输入特征,分批次输入到文本分析模型进行训练;
3.2.7判别文本分析模型的效果,若达到要求则进行3.2.8,未达到则进行3.2.6;
3.2.8完成训练并保存文本分析模型;
步骤4.用柔性规则判别对逻辑回归模型进行调整,预测公司的经营情况;
4.1对所有的原始特征指标分别计算其训练样本中的最大值,最值和平均值,其公式如下:
s(max,i)=max(Ti) (6)
s(min,i)=min(Ti) (7)
s(avg,i)=avg(Ti) (8)
其中Ti表示第i个原始特征指标;
4.2使用柔性规则判别对逻辑回归分类模型的结果进行再处理,包括:
4.2.1根据文本分析模型结果重新训练逻辑回归模型:
(T1)将审计报告的文本信息输入到文本分析模型中;
(T2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高,原始数据真实有效,那么送入逻辑回归分类器进行训练;
(T3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应该对对应的原始特征指标做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将应收账款周转率调整为整份数据的最坏值,即S(min,应收账款周转率),然后送入逻辑回归模型进行重新训练;
(T4)训练完成;
4.2.2用重新训练得到的逻辑回归模型预测公司经营状况:
(S1)将需要预测的公司的审计报告的文本信息输入到训练后保存的文本分析模型中;
(S2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高;接着查看审计报告中指出的关键审计项目,说明与收入和存货相关的原始特征已经反应该公司情况的重点特征,那么这些原始特征是真实有效的,因此,应当调高这些原始特征在逻辑回归模型中的权重,并相应降低其他原始特征的权重;其公式如下:
q(i,up)=li+li*(0.2/n) (9)
q(i,down)=li-li*(0.2/(t-n)) (10)
其中li表示第i个原始特征的原始权重,n表示关键审计事项总数,t表示原始特征特征总数;
(S3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,就是可能出现不实的数据,那么应对对应的原始特征做出调整,则应将逻辑回归模型中该对应的原始特征的权重调整为0;
(S4)根据进行柔性判别后的逻辑回归模型得到最终的预测结果。
2.实施权利要求1所述的一种动态柔性规则的公司经营危机预警方法的系统,其特征在于:包括依次连接的原始特征指标选取模块、独热处理与特征工程模块、模型构建模块、柔性规则判别模块;
原始特征指标选取模块,从公司披露的信息中选取特定指标作为原始特征,选取的特征库包括:
成长能力:按同比增长率计算的基本每股收益,按同比增长率计算的稀释每股收益,按同比增长率计算的每股经营活动产生的现金流量净额,按同比增长率计算的营业总收入,按同比增长率计算的营业收入,按同比增长率计算的营业利润;
收益质量:经营活动净收益/利润总额,价值变动净收益/利润总额,营业外收支净额/利润总额,所得税/利润总额,扣除非经常损益后的净利润/净利润,经营活动净收益/利润总额(TTM);
现金流量:销售商品提供劳务收到的现金/营业收入,经营活动产生的现金流量净额/营业收入,经营活动产生的现金流量净额/经营活动净收益,净利润现金含量,资本支出/折旧和摊销,销售商品提供劳务收到的现金/营业收入(TTM);
盈利能力:平均净资产收益率ROE,加权净资产收益率ROE,摊薄净资产收益率ROE,总资产报酬率ROA,总资产净利率ROA,投入资本回报率ROIC;
营运能力:营业周期,存货周转天数,应收账款周转天数,净营业周,存货周转率,应收账款周转率;
资本结构:资产负债率,剔除预收款项后的资产负债率,长期资本负债率,长期资产适合率,权益乘数,股东权益比;
独热处理与特征工程模块,去除不符合要求的原始特征;
要采用特征工程的方法对于建立的特征库进行筛选,首先需要对企业数据进行预处理;需要分别针对缺失数据、离群点和重复数据进行数据清理工作;为保证数据的统一量化,首先对各个风险评估相关指标进行无量纲化处理,并将取值统一在0~1范围内;同时,风险评估的指标常常涉及大量人类逻辑难以区分的离散数据,这些离散数据往往存在偏序关系,直接运用逻辑算法和机器学习算法很容易错误计算数据类别间的距离;因此,在指标筛选工作之前,需要对可能存在偏序的离散数据进行独热编码,将其转化为0或1的特征;
之后本文采用特征工程的方法对特征库进行行筛选,构建筛选体系;首先,将缺失值大于35%的指标筛除,即筛去35%以上为缺失值的特征;其次,原始采集的数据中可能存在该特征的值都是相同的情况,这些特征属于唯一值特征,对于模型没有增益,需要筛除这些特征;再次,要筛除对于模型可能贡献度较低的特征,采用监督学习的方式来找到重要度特征较低的特征,具体包括:
(2.1)通过CART算法可以对所有待处理的低阶和独热特征进行分类处理,形成分类回归树,其原理公式如下:
Figure FDA0003140687120000051
其中,n1和n2表示变量vj二元化后两个类别所包含的数据点个数,p1和p2表示vj两个类别中分属v*的概率;当Gini(vj)最小时,vj为最优划分变量;
(2.2)通过Boosting方法,将多个CART弱分类器组合为若干强分类器,原理公式如下:
Figure FDA0003140687120000052
其中,αi为第i个分类器的权重;采用梯度提升算法,将分类回归树组合为梯度回归树;通过追踪上一次分类回归树的拟合残差,使得下一次构建的分类树沿着负梯度最快速度下降,通过多次迭代快速逼近最优解;
(2.3)通过增强算法,将GBDT算法增强为XGBoost算法;
(2.4)将学习过程运行10次并求平均值得到特征的重要性,从而减少方差,同时设置模型的早停参数,避免过拟合的现象影响模型的准确性;
(2.5)去除零重要度特征;
再再次,筛除共线性特征;共线性特征就是那些相互之间高度相关的特征,由于其较高的方差和较低的可解释性,往往会导致模型的泛化能力降低;这里剔除共线性系数大于0.7的特征;
模型构建模块具体包括:
3.1构建逻辑回归模型;
采用逻辑回归模型构建预警分类模型,包括:
(9)导入进行特征工程后的原始特征指标数据;
(10)定义逻辑回归模型;
(11)设置逻辑回归模型的超参数,如:学习效率等;
(12)定义逻辑回归模型的损失函数和优化函数;
(13)获取每轮训练的训练数据并将数据调整为逻辑回归模型可接受的形式;
(14)进行训练;
(15)判别逻辑回归模型的效果,若达到要求则进行步骤(8),未达到则进行步骤(6);
(16)完成训练并保存逻辑回归模型;
3.2.构建文本分析模型;
采用上市公司审计报告的文本作为文本分析模型的原始样本;
3.2.1首先确定审计报告样本的审计倾向分类,按以下规则进行分类:
(P1)将被ST的公司的审计报告文本作为负面审计分类;
(P2)将审计报告为保留意见,否定意见和无法表示意见的审计报告作为负面审计分类;
(P3)将其他审计报告作为正面审计分类;
3.2.2对原始样本进行分词,使用jieba分词工具将如:联想移动通信科技有限公司的文本,分词为“联想,移动,通信,科技,有限,公司”的词汇段;并将如:“有限,责任,股份,公司”等通用的词汇,和“(),-,/,&”等符号作为停用词除去;
3.2.3使用分词之后的原始样本构建词袋模型,将其进一步转化为向量;该向量的维度与词条列表的维度相同,向量的值是词条列表中每个词条在该文本中出现的次数;如:“阿尔西集团”和“阿尔西制冷工程技术(北京)有限公司”两个文本切词后的结果是“阿尔西集团”和“阿尔西制冷工程技术北京”,它们构成的词条列表是[阿尔西,集团,制冷,工程技术,北京],对应的词袋模型分别是[1,1,0,0,0],[1,0,1,1,1];
3.2.4将词袋向量转换为TF-IDF权值向量;其公式如下所示:
Figure FDA0003140687120000061
其中分子是词条ti在文本dj中出现的次数,分母是文本dj中所有词条出现的次数之和;
Figure FDA0003140687120000062
其中对数内的分子是文本总数,分母是包含词条ti的文件数;
tfidfi,j=tfij*idfi (5)
3.2.5定义文本分析模型的损失函数和优化函数;
3.2.6以TF-IDF权值向量作为输入特征,分批次输入到文本分析模型进行训练;
3.2.7判别文本分析模型的效果,若达到要求则进行3.2.8,未达到则进行3.2.6;
3.2.8完成训练并保存文本分析模型;
柔性规则判别模块用柔性规则判别对逻辑回归模型进行调整,预测公司的经营情况;
4.1对所有的原始特征指标分别计算其训练样本中的最大值,最值和平均值,其公式如下:
s(max,i)=max(Ti) (6)
s(min,i)=min(Ti) (7)
s(avg,i)=avg(Ti) (8)
其中Ti表示第i个原始特征指标;
4.2使用柔性规则判别对逻辑回归分类模型的结果进行再处理,包括:
4.2.1根据文本分析模型结果重新训练逻辑回归模型:
(T1)将审计报告的文本信息输入到文本分析模型中;
(T2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高,原始数据真实有效,那么送入逻辑回归分类器进行训练;
(T3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应该对对应的原始特征指标做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将应收账款周转率调整为整份数据的最坏值,即S(min,应收账款周转率),然后送入逻辑回归模型进行重新训练;
(T4)训练完成;
4.2.2用重新训练得到的逻辑回归模型预测公司经营状况:
(S1)将需要预测的公司的审计报告的文本信息输入到训练后保存的文本分析模型中;
(S2)若文本分析模型给出正面审计结果,说明该公司原始数据可信度较高;接着查看审计报告中指出的关键审计项目,如:审计报告中指出,某公司的关键审计事项为:(1)收入确认(2)存货跌价准备;则说明与收入和存货相关的原始特征是反应该公司情况的重点特征,如:营业总收入(同比增长率),存货周转率等;且这些原始特征是真实有效的,因此,应当适当调高这些原始特征在逻辑回归模型中的权重,并相应降低其他原始特征的权重;其公式如下:
q(i,up)=li+li*(0.2/n) (9)
q(i,down)=li-li*(0.2/(t-n)) (10)
其中li表示第i个原始特征的原始权重,n表示关键审计事项总数,t表示原始特征特征总数;
(S3)若文本分析模型给出负面审计结果,说明该公司数据存在重大不实之处,原始特征的数据存在重大误导性;接着寻找出现不实的数据,审计报告中指出的保留、无法表示意见或关键的审计项目,如:应收账款,就是可能出现不实的数据,那么应对对应的原始特征做出调整,如:应收账款周转率的计算与应收账款直接关联,则应将逻辑回归模型中应收账款周转率的权重调整为0;
(S4)根据进行柔性判别后的逻辑回归模型得到最终的预测结果。
CN202110733684.6A 2021-06-30 2021-06-30 一种动态柔性规则的公司经营危机预警方法和系统 Pending CN113554278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733684.6A CN113554278A (zh) 2021-06-30 2021-06-30 一种动态柔性规则的公司经营危机预警方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733684.6A CN113554278A (zh) 2021-06-30 2021-06-30 一种动态柔性规则的公司经营危机预警方法和系统

Publications (1)

Publication Number Publication Date
CN113554278A true CN113554278A (zh) 2021-10-26

Family

ID=78131130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733684.6A Pending CN113554278A (zh) 2021-06-30 2021-06-30 一种动态柔性规则的公司经营危机预警方法和系统

Country Status (1)

Country Link
CN (1) CN113554278A (zh)

Similar Documents

Publication Publication Date Title
Sensini Selection of Determinants in Corporate Financial Distress
Chen Classifying credit ratings for Asian banks using integrating feature selection and the CPDA-based rough sets approach
CN108711107A (zh) 智能融资服务推荐方法及其系统
CN110689437A (zh) 一种基于随机森林的通信施工项目财务风险预测方法
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和系统
CN111626821A (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
CN115545886A (zh) 逾期风险识别方法、装置、设备及存储介质
CN112037006A (zh) 小微企业的信用风险识别方法及装置
Degife et al. Efficient predictive model for determining critical factors affecting commodity price: the case of coffee in Ethiopian Commodity Exchange (ECX)
Zhou et al. Research on corporate financial performance prediction based on self‐organizing and convolutional neural networks
CN117114812A (zh) 一种针对企业的金融产品推荐方法及装置
CN116385151A (zh) 基于大数据进行风险评级预测的方法及计算设备
Wu et al. Customer churn prediction for commercial banks using customer-value-weighted machine learning models
Najadat et al. Performance evaluation of industrial firms using DEA and DECORATE ensemble method.
Chen et al. Predicting a corporate financial crisis using letters to shareholders
CN113554278A (zh) 一种动态柔性规则的公司经营危机预警方法和系统
CN114626940A (zh) 数据分析方法、装置及电子设备
Kosala Predicting the likelihood of dividend payment from Indonesian public companies with data mining methods
Jan et al. Detection of fraudulent financial statements using decision tree and artificial neural network
Terzi et al. Comparison of financial distress prediction models: Evidence from turkey
Zhou et al. An enterprise default discriminant model based on optimal misjudgment loss ratio
Wuyu et al. Risk Assessment Predictive Modelling in Ethiopian Insurance Industry Using Data Mining
Zhou et al. Research on the Financial Data Fraud Detection of Chinese Listed Enterprises by Integrating Audit Opinions.
Ding Construction and Exploration of a Financial Risk Control Model Based on Machine Learning
Hu et al. Financial crisis early-warning based on support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination