CN115760454A - 一种基于循环宽度学习的财务舞弊识别方法 - Google Patents
一种基于循环宽度学习的财务舞弊识别方法 Download PDFInfo
- Publication number
- CN115760454A CN115760454A CN202211432325.8A CN202211432325A CN115760454A CN 115760454 A CN115760454 A CN 115760454A CN 202211432325 A CN202211432325 A CN 202211432325A CN 115760454 A CN115760454 A CN 115760454A
- Authority
- CN
- China
- Prior art keywords
- financial
- width learning
- nodes
- learning
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于循环宽度学习的财务舞弊识别方法,应用于智能学习领域,包括:对财务指标进行预处理,结合非财务指标,通过激活函数映射,得到特征节点;将特征节点作为循环神经网络的输入,输出增强节点;将特征节点与增强节点合并,作为宽度学习的输入,进行线性变换,得到所述宽度学习的输出。本发明将典型的反馈神经网络RNN嵌入到宽度学习BLS的增强层中,构成RBLS循环宽度学习模型,将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来,在保留了BLS网络结构的同时也将其增强层的各个节点连接起来,弥补了BLS作为一种前馈神经网络所处理的数据间相互影响的动态关系方面的不足,提高了预测准确性和适用性。
Description
技术领域
本发明涉及智能学习领域,特别涉及一种基于循环宽度学习的财务舞弊识别方法。
背景技术
财务舞弊行为一直是资本市场上的一颗毒瘤,它损害了利益相关者的利益,严重破坏了公开、公平、公正的投资原则,降低了市场资源配置效率,影响了资本市场的健康发展。然而,相关监管机构在识别上市公司的财务舞弊方面存在一定的滞后性,难以及时发现财务舞弊行为。因此,有效识别上市公司的财务舞弊行为已成为公司治理中一个极为紧迫的问题。
现有最常用的财务舞弊识别方法为深度学习DL,旨在建立深度神经网络架构,通过结合低级特征,从海量数据中形成高级表征,发现具有强大特征学习能力的数据分布式表征。但是,尽管深度神经网络拥有优良的特征提取能力和良好的非线性逼近能力,在应用中仍然会遇到许多问题。这是因为实际中数据的体量和特征的维度都具有庞大的规模,深度神经网络常依靠增加网络层数来提升网络性能,在反向传播过程中采用逐层求梯度的方式更新权重,这导致模型容易遇到陷入局部最优、梯度消失或梯度爆炸、建模速度慢等问题。此外,当训练数据有更新时,再重新训练深度神经网络是非常耗时的。
为此,如何提供一种能够避免陷入局部最优、梯度消失或梯度爆炸、建模速度慢等问题,且当训练数据有更新时,不需耗费大量时间重新训练的基于循环宽度学习的财务舞弊识别方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提出了一种基于循环宽度学习的财务舞弊识别方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于循环宽度学习的财务舞弊识别方法,包括:
步骤(1):对财务指标进行预处理,结合非财务指标,通过激活函数映射,得到特征节点;
步骤(2):将特征节点作为循环神经网络的输入,输出增强节点;
步骤(3):将特征节点与增强节点合并,作为宽度学习的输入,进行线性变换,得到宽度学习的输出。
可选的,还包括:在步骤(1)之前,对财务指标和非财务指标进行归一化处理。
可选的,步骤(1)中,预处理为PCA。
可选的,步骤(1)中,特征节点的表达式,如下:
Zi(t)=φi(X(t)Wei+βei),i=1,…,n;
其中,Zi(t)为特征节点;φi为激活函数;Wei和βei分别为随机初始化的权重和偏置;X(t)表示t时刻的输入。
可选的,步骤(2)中,增强节点的表达式,如下:
Hj(t)=δj(S1Zn(t)Whj+S2Hj(t-1)Wxj),j=1,…,m;
其中,Hj(t)为增强节点;Zn(t)为特征节点Zi(t)的集合;δj为激活函数;S1和S2为平衡两项效果的参数;Hj(t-1)为前一时刻的增强节点;Whj和Wxj分别为随机初始化的权重和偏置。
可选的,步骤(3)中,宽度学习的输出表达式,如下:
通过岭回归方法进行求解,如下:
其中C为常数;I为单位矩阵,T为矩阵转置符号。
经由上述的技术方案可知,与现有技术相比,本发明提出了一种基于循环宽度学习的财务舞弊识别方法。在基于所应用的宽度学习BLS相对于DL,不仅具有具有强大的特征表示和预测能力,能够准确表示数据特征与预测结果之间的关系,且结构简单、训练速度快、准确率高,并且还具有增量学习的优势的基础上,还通过将典型的反馈神经网络RNN嵌入到BLS结构的增强层中,构成RBLS循环宽度学习模型,将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来,在保留了BLS网络结构的同时也将其增强层的各个节点连接起来,弥补了BLS作为一种前馈神经网络所处理的公司财务报表数据间相互影响的动态关系方面的不足,提高了预测准确性和适用性。同时,RNN的引入使该模型能够提取时间特征,从而更好地扩展神经网络的表征能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的流程示意图。
图2为验证本发明有效性的流程示意图。
图3为本发明和各对比模型的迭代次数与训练误差之间的关系曲线示意图。
图4为本发明和各对比模型的准确率示意图。
图5为本发明和各对比模型的F值示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明实施例1公开了一种基于循环宽度学财习的务舞弊识别方法,如图1所示,包括:
步骤(1):获取财务指标和非财务指标,并进行Z-Score归一化处理,随后,对财务指标进行PCA预处理,结合非财务指标,通过激活函数映射,得到特征节点,表达式,如下:
Zi(t)=φi(X(t)Wei+βei),i=1,…,n;
其中,Zi(t)为特征节点;φi为激活函数;Wei和βei分别为随机初始化的权重和偏置;X(t)表示t时刻的输入。
步骤(2):将特征节点作为循环神经网络的输入,输出增强节点,表达式,如下:
Hj(t)=δj(S1Zn(t)Whj+S2Hj(t-1)Wxj),j=1,…,m;
其中,Hj(t)为增强节点;Zn(t)为特征节点Zi(t)的集合;δj为激活函数;S1和S2为平衡两项效果的参数;Hj(t-1)为前一时刻的增强节点;Whj和Wxj分别为随机初始化的权重和偏置。
步骤(3):将特征节点与增强节点合并,作为宽度学习的输入,进行线性变换,得到宽度学习的输出,表达式,如下:
通过岭回归方法进行求解,如下:
其中C为常数;I为单位矩阵,T为矩阵转置符号。
实施例2:
本发明实施例2公开了利用本发明公开的RBLS循环宽度学习模型来识别上市公司财务舞弊行为,以选取的100家舞弊上市公司和400家非舞弊上市公司的数据为样本,进行实验,来验证本发明RBLS循环宽度学习模型的有效性,如图2所示,包括:
步骤1、采集实验数据。
步骤1-1、样本选择。
本文的研究数据来源于国泰安数据库(CSMAR,China Stock Market& AccountingResearch Database),CSMAR是借鉴CRSP、COMPUSTAT、TAQ、 THOMSON等权威数据库专业标准,并结合中国实际国情开发的经济金融领域的研究型精准数据库,是目前国内学术领域引用最广泛的数据库之一。美国反舞弊财务报告委员会认为财务舞弊是指:公司出具虚假或是遗漏的重大误导性财务报告,严重影响了投资者的有关决策。在CSMAR中财务违规包括虚构利润、虚构资产、虚假记载等16种行为。依财务舞弊定义和国泰安 (CSMAR)数据库关于违规信息说明书的查阅,本文将虚构利润、虚构资产、虚假记载、重大遗漏、披露不实5种行为认定为财务舞弊行为。我们从CSMAR 中将2011-2019年期间的所有涉及财务违规的样本筛选出来。
在选取2011-2019年间上市公司财务舞弊时,为了保证准确地分析上市公司财务舞弊的特征以及样本质量,本研究选择2011-2019年期间首次出现行为或者连续两次发生财务舞弊的时间间隔3年以上的上市公司样本。对样本进行分析后,为了保证模型的有效性,剔除有数据遗漏、金融行业或者ST(Special Treatment)等特殊情况,最后选用了100组上市公司舞弊样本。
目前,商业世界中欺诈性公司与非欺诈性公司的实际比例尚不清楚。因此,一些研究对这一比例进行了估计(例如,一些研究估计,欺诈性公司占所有运营公司的1%以下)(Beneish 1997;Dechow等人,2011)。有的作者的估计值为14.5%(Dyck等人,2013)。还有的作者估计值为25%左右(Yao 等人,2019;Lin等人,2015)。因此,我们在选择对比样本时遵循谨慎性原则,为了避免高估会计欺诈的可能性,按1:4的比例来选择非舞弊上市公司样本。同时,为了提高非舞弊样本的可信度,我们采取以下四项原则:
(1)在2011-2019年期间,从未受到证监会等相关机构公开处罚的上市公司;
(2)选择的非舞弊公司样本必须与财务舞弊公司的行业相同、会计年度相同、资产规模相似且行业内存续时间较长;
(3)配对的样本数据财务指标必须完整,无大面积关键数据缺失;
(4)选取的上市公司舞弊样本和对应的非舞弊配对样本都是A股上市公司。
本文最终选择500个样本数据,其中,100个为舞弊公司样本,400个非舞弊样本公司,样本数据均来源于国泰(CSMAR)数据库。
步骤1-2:指标体系建设。
财务舞弊主要是公司对财务数据进行粉饰或篡改,舞弊行为通常会在会计科目中显现出来。上市公司舞弊往往会导致其财务数据异常,而财务指标就是通过对资产负债表、利润表和现金流量表三大财务报表的个性会计科目进行比率和结构分析来识别财务舞弊。
因此,本文在财务舞弊指标体系的构建中,主要考虑了财务比率这类客观的评价指标,财务指标的分类参照国泰安数据库中公司研究的分类方法,从盈利能力、偿债能力、经营能力、现金流量、风险水平和发展能力六个方面选取了财务指标,此外,为了提高数据的全面性,从公司治理结构和外部审计意见两方面选取了非财务指标,来构建指标体系。在选取指标时主要参考了之前有关财务舞弊识别研究的文献,最终筛选出27个典型的指标用于构建财务舞弊识别的指标体系,如表1所示。
表1指标体系
步骤1-3:指标选择。
由于各指标之间存在量纲,数据间差异较大,为了消除数据取值范围差异对模型效果的影响,需要对数据进行归一化处理,采用Z-Score标准化方法,在SPSS软件中,对初始特征指标体系中样本数据进行归一化处理,表达式如下:
其中,x代表原始数据,μ代表所有数据的平均值,σ代表标准差。
在选取的23个财务指标中,有较多指标具有高度相关性,或者某些指标所代表的上市公司信息存在一定的重复性,从而增加了问题分析的复杂性。因此,需要找到一种合理的方法来减少需要分析指标的数量,同时尽量减少原始指标中所包含的信息的损失。由于变量之间存在一定的相关关系,因此用一个新的变量来表示一组密切相关的变量。PCA属于这种降维类型算法。因此,使用PCA对初始财务指标数据进行预处理,并提取变量(由SPSS完成)。
在进行PCA之前,采用KMO检验和Bartlett检验,如表2所示,验证了这23个财务指标对PCA的适用性。Bartlett球度检验用于确定变量之间是否存在较强的相关性,卡方统计值小于0.05,说明变量之间存在较强的相关性。表2所示的检验结果表明,KMO值大于0.5,且Bartlett球面检验的卡方统计值显著性概率小于0.05,表明特征向量之间存在很强的相关性,这些指标适合于PCA。
表2 KMO检验和Bartlett检验
在SPSS中采用PCA的方法提取因子,并根据特征值大于1的方法提取主成分。如表3所示,有8个因子的特征值大于1,方差的累积百分比为76.675%,即这8个因子在76.675%的程度上能解释原有的23个财务指标,信息损失量较少,有较好的解释力度。
表3总方差解释
如表4所示,将PCA得到的8个因子命名为Yi(i=1,2,…,8),其中Y1主要代表盈利能力指标X8、X9、X10和偿付能力指标X1、X2;Y2主要代表经营能力指标X5、X6、X7;Y3主要代表偿付能力指标X3和盈利能力指标 X11、X13。Y4主要代表发展能力指标X22、X23;Y5主要为盈利指标X14 和现金流指标X15、X16;Y6主要为现金流指标X17和风险水平指标X18、 X20;Y7主要为盈利指标X11、风险水平指标X19、X20;Y8主要为现金流指标X15、X17。最终的指标体系包含8个因素和4个非财务指标。
表4 PCA预处理结果
Extraction method:Principal component analysis
8components were extracted
步骤2、实验结果分析。
步骤2-1、确定模型精度评价标准。
财务舞弊识别是一个判断样本是舞弊还是非舞弊的二分类问题,所以选用二分类问题中最常用的评价工具混淆矩阵,如表5所示,来评价RBLS模型的性能,相关的评价涉及到准确率、精准率、召回率和F1Score等。
对于二分类问题,样本有正负两类,根据预测和真实类别的组合,将样本集分为真正类(TP)、假正类(FP)、真负类(TN)和假负类(FN)四种情况。混淆矩阵是通过将这四种组合记录在一个矩阵中而形成的。
表5混淆矩阵
评价指标如下:
准确率Accuracy是指模型预测结果正确的样本数占总样本的百分比,表达式如下:
精准率Precision是指模型预测为舞弊且实际舞弊的样本占预测为舞弊样本总数的比例,表达式如下:
召回率Recall是指模型预测为舞弊且实际舞弊的样本数量占实际舞弊总样本数的比例,表达式如下:
F1Score综合考虑了精确率和召回率两个指标,其取值范围是[0.1], F1Score的值越接近1代表模型的识别效果越好,越接近0代表模型的识别效果越差,表达式如下:
步骤2-2、得到实验结果。
使用训练集训练RBLS模型,然后使用测试集验证识别效果。经过实验,获得的财务报表舞弊的识别精度为86%。为了验证RBLS模型在识别上市公司财务舞弊方面的准确性,选择财务舞弊识别领域最常用的SVM和BP神经网络及单一的BLS模型进行对比。
如图3所示,3(a),3(b),3(c),3(d)分别为SVM、BP、BLS 和RBLS的迭代次数与训练误差之间的关系曲线。每个模型的损失率随着迭代次数的增加而降低,SVM和BP网络的误差减小缓慢,且存在较大的训练误差,特别是SVM。BLS的最终训练误差与RBLS相似,但误差降低率低于 RBLS,RBLS不仅训练误差减少率最高,而且最终训练误差几乎为零,与其他三种模型相比,RBLS在模型训练中表现出最好的性能。
如表6所示,与传统的SVM、BP神经网络和单一的BLS的模型相比, RBLS在识别财务舞弊方面具有显著优势,两项综合指标的准确率和F值分别达到86%和0.7124,表明RBLS在这个领域具有较高的应用价值。
表6本发明和各对比模型的准确率
本发明和各对比模型的准确率,如图4所示。
本发明和各对比模型的F值,如图5所示。
本发明实施例公开了一种基于循环宽度学习的财务舞弊识别方法。在基于所应用的宽度学习BLS相对于DL,不仅具有具有强大的特征表示和预测能力,能够准确表示数据特征与预测结果之间的关系,且结构简单、训练速度快、准确率高,并且还具有增量学习的优势的基础上,还通过将典型的反馈神经网络RNN嵌入到BLS结构的增强层中,构成RBLS循环宽度学习模型,将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来,在保留了BLS网络结构的同时也将其增强层的各个节点连接起来,弥补了 BLS作为一种前馈神经网络所处理的公司财务报表数据间相互影响的动态关系方面的不足,提高了预测准确性和适用性。同时,RNN的引入使该模型能够提取时间特征,从而更好地扩展神经网络的表征能力。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于循环宽度学习的财务舞弊识别方法,其特征在于,包括:
步骤(1):对财务指标进行预处理,结合非财务指标,通过激活函数映射,得到特征节点;
步骤(2):将所述特征节点作为循环神经网络的输入,输出增强节点;
步骤(3):将所述特征节点与所述增强节点合并,作为宽度学习的输入,进行线性变换,得到所述宽度学习的输出。
2.根据权利要求1所述的一种基于循环宽度学习的财务舞弊识别方法,其特征在于,还包括:在步骤(1)之前,对所述财务指标和所述非财务指标进行归一化处理。
3.根据权利要求1所述的一种基于循环宽度学习的财务舞弊识别方法,其特征在于,步骤(1)中,所述预处理为PCA。
4.根据权利要求3所述的一种基于循环宽度学习的财务舞弊识别方法,其特征在于,步骤(1)中,所述特征节点的表达式,如下:
Zi(t)=φi(X(t)Wei+βei),i=1,…,n;
其中,Zi(t)为所述特征节点;φi为激活函数;Wei和βei分别为随机初始化的权重和偏置;X(t)表示t时刻的输入。
5.根据权利要求4所述的一种基于循环宽度学习的财务舞弊识别方法,其特征在于,步骤(2)中,所述增强节点的表达式,如下:
Hj(t)=δj(S1Zn(t)Whj+S2Hj(t-1)Wxj),j=1,…,m;
其中,Hj(t)为所述增强节点;Zn(t)为所述特征节点Zi(t)的集合;δj为激活函数;S1和S2为平衡两项效果的参数;Hj(t-1)为前一时刻的增强节点;Whj和Wxj分别为随机初始化的权重和偏置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211432325.8A CN115760454A (zh) | 2022-11-15 | 2022-11-15 | 一种基于循环宽度学习的财务舞弊识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211432325.8A CN115760454A (zh) | 2022-11-15 | 2022-11-15 | 一种基于循环宽度学习的财务舞弊识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115760454A true CN115760454A (zh) | 2023-03-07 |
Family
ID=85371675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211432325.8A Pending CN115760454A (zh) | 2022-11-15 | 2022-11-15 | 一种基于循环宽度学习的财务舞弊识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115760454A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151906A (zh) * | 2023-08-15 | 2023-12-01 | 广东省地质调查院 | 一种基于关联网络搭建的财会审计监察协同监督方法 |
-
2022
- 2022-11-15 CN CN202211432325.8A patent/CN115760454A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151906A (zh) * | 2023-08-15 | 2023-12-01 | 广东省地质调查院 | 一种基于关联网络搭建的财会审计监察协同监督方法 |
CN117151906B (zh) * | 2023-08-15 | 2024-02-13 | 广东省地质调查院 | 一种基于关联网络搭建的财会审计监察协同监督方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657947B (zh) | 一种面向企业行业分类的异常检测方法 | |
Ucoglu | Current machine learning applications in accounting and auditing | |
CN111401600A (zh) | 基于关联关系的企业信用风险评价方法和系统 | |
US20200065867A1 (en) | Patent valuation system | |
CN111583012B (zh) | 融合文本信息的信用债发债主体违约风险评估方法 | |
Svabova et al. | Prediction model of firms financial distress | |
CN113554310A (zh) | 基于智能合约的企业信用动态评估模型 | |
CN115760454A (zh) | 一种基于循环宽度学习的财务舞弊识别方法 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN112990443B (zh) | 神经网络评价方法及装置、电子设备、存储介质 | |
Chen et al. | Mixed credit scoring model of logistic regression and evidence weight in the background of big data | |
Shapovalova et al. | MODERNIZATION OF THE NATIONAL ACCOUNTING AND AUDITING SYSTEM USING DIGITAL TRANSFORMATION TOOLS. | |
Hong et al. | Generating and Validating Synthetic Training Data for Predicting Bankruptcy of Individual Businesses. | |
CN113159796A (zh) | 一种贸易合同验证方法及装置 | |
Chen | Prediction and analysis of financial default loan behavior based on machine learning model | |
CN114626938A (zh) | 一种智能决策引擎、决策系统及决策方法 | |
CN114581209A (zh) | 财务分析模型的训练方法、装置、设备及存储介质 | |
Terzi et al. | Comparison of financial distress prediction models: Evidence from turkey | |
Gupta et al. | Credit default prediction for micro-enterprise financing in India using ensemble models | |
Lee et al. | Application of machine learning in credit risk scorecard | |
Pan | Fraudulent firm classification using monotonic classification techniques | |
Zeng | A comparison study on the era of internet finance China construction of credit scoring system model | |
Paramitalaksmi et al. | MSMEs Financial Statements And The Factors Affecting Their Quality | |
Kusaya et al. | Insider abuse and fraud prediction for us banks: A comparison of machine learning approaches | |
Enayayi Taebi et al. | Chaotic Test and Non-Linearity of Abnormal Stock Returns: Selecting an Optimal Chaos Model in Explaining Abnormal Stock Returns around the Release Date of Annual Financial Statements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |