CN115760454A

CN115760454A - 一种基于循环宽度学习的财务舞弊识别方法

Info

Publication number: CN115760454A
Application number: CN202211432325.8A
Authority: CN
Inventors: 王晓佳; 魁占军; 薛子睿; 毕缘媛; 徐晟�; 刘军航
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-07

Abstract

本发明公开了一种基于循环宽度学习的财务舞弊识别方法，应用于智能学习领域，包括：对财务指标进行预处理，结合非财务指标，通过激活函数映射，得到特征节点；将特征节点作为循环神经网络的输入，输出增强节点；将特征节点与增强节点合并，作为宽度学习的输入，进行线性变换，得到所述宽度学习的输出。本发明将典型的反馈神经网络RNN嵌入到宽度学习BLS的增强层中，构成RBLS循环宽度学习模型，将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来，在保留了BLS网络结构的同时也将其增强层的各个节点连接起来，弥补了BLS作为一种前馈神经网络所处理的数据间相互影响的动态关系方面的不足，提高了预测准确性和适用性。

Description

一种基于循环宽度学习的财务舞弊识别方法

技术领域

本发明涉及智能学习领域，特别涉及一种基于循环宽度学习的财务舞弊识别方法。

背景技术

财务舞弊行为一直是资本市场上的一颗毒瘤，它损害了利益相关者的利益，严重破坏了公开、公平、公正的投资原则，降低了市场资源配置效率，影响了资本市场的健康发展。然而，相关监管机构在识别上市公司的财务舞弊方面存在一定的滞后性，难以及时发现财务舞弊行为。因此，有效识别上市公司的财务舞弊行为已成为公司治理中一个极为紧迫的问题。

现有最常用的财务舞弊识别方法为深度学习DL，旨在建立深度神经网络架构，通过结合低级特征，从海量数据中形成高级表征，发现具有强大特征学习能力的数据分布式表征。但是，尽管深度神经网络拥有优良的特征提取能力和良好的非线性逼近能力，在应用中仍然会遇到许多问题。这是因为实际中数据的体量和特征的维度都具有庞大的规模，深度神经网络常依靠增加网络层数来提升网络性能，在反向传播过程中采用逐层求梯度的方式更新权重，这导致模型容易遇到陷入局部最优、梯度消失或梯度爆炸、建模速度慢等问题。此外，当训练数据有更新时，再重新训练深度神经网络是非常耗时的。

为此，如何提供一种能够避免陷入局部最优、梯度消失或梯度爆炸、建模速度慢等问题，且当训练数据有更新时，不需耗费大量时间重新训练的基于循环宽度学习的财务舞弊识别方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提出了一种基于循环宽度学习的财务舞弊识别方法。

为了实现上述目的，本发明采用如下技术方案：

一种基于循环宽度学习的财务舞弊识别方法，包括：

步骤(1)：对财务指标进行预处理，结合非财务指标，通过激活函数映射，得到特征节点；

步骤(2)：将特征节点作为循环神经网络的输入，输出增强节点；

步骤(3)：将特征节点与增强节点合并，作为宽度学习的输入，进行线性变换，得到宽度学习的输出。

可选的，还包括：在步骤(1)之前，对财务指标和非财务指标进行归一化处理。

可选的，步骤(1)中，预处理为PCA。

可选的，步骤(1)中，特征节点的表达式，如下：

Z_i(t)＝φ_i(X(t)W_ei+β_ei)，i＝1，…，n；

其中，Z_i(t)为特征节点；φ_i为激活函数；W_ei和β_ei分别为随机初始化的权重和偏置；X(t)表示t时刻的输入。

可选的，步骤(2)中，增强节点的表达式，如下：

H_j(t)＝δ_j(S₁Zⁿ(t)W_hj+S₂H_j(t-1)W_xj)，j＝1，…，m；

其中，H_j(t)为增强节点；Zⁿ(t)为特征节点Z_i(t)的集合；δ_j为激活函数；S₁和S₂为平衡两项效果的参数；H_j(t-1)为前一时刻的增强节点；W_hj和W_xj分别为随机初始化的权重和偏置。

可选的，步骤(3)中，宽度学习的输出表达式，如下：

其中，Y(t)为宽度学习的输出；H^m(t)为增强节点H_j(t)的集合；

为增广矩阵；

为进行线性变换的权重，表达式如下：

通过岭回归方法进行求解，如下：

其中C为常数；I为单位矩阵，T为矩阵转置符号。

经由上述的技术方案可知，与现有技术相比，本发明提出了一种基于循环宽度学习的财务舞弊识别方法。在基于所应用的宽度学习BLS相对于DL，不仅具有具有强大的特征表示和预测能力，能够准确表示数据特征与预测结果之间的关系，且结构简单、训练速度快、准确率高，并且还具有增量学习的优势的基础上，还通过将典型的反馈神经网络RNN嵌入到BLS结构的增强层中，构成RBLS循环宽度学习模型，将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来，在保留了BLS网络结构的同时也将其增强层的各个节点连接起来，弥补了BLS作为一种前馈神经网络所处理的公司财务报表数据间相互影响的动态关系方面的不足，提高了预测准确性和适用性。同时，RNN的引入使该模型能够提取时间特征，从而更好地扩展神经网络的表征能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的流程示意图。

图2为验证本发明有效性的流程示意图。

图3为本发明和各对比模型的迭代次数与训练误差之间的关系曲线示意图。

图4为本发明和各对比模型的准确率示意图。

图5为本发明和各对比模型的F值示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

本发明实施例1公开了一种基于循环宽度学财习的务舞弊识别方法，如图1所示，包括：

步骤(1)：获取财务指标和非财务指标，并进行Z-Score归一化处理，随后，对财务指标进行PCA预处理，结合非财务指标，通过激活函数映射，得到特征节点，表达式，如下：

Z_i(t)＝φ_i(X(t)W_ei+β_ei)，i＝1，…，n；

步骤(2)：将特征节点作为循环神经网络的输入，输出增强节点，表达式，如下：

H_j(t)＝δ_j(S₁Zⁿ(t)W_hj+S₂H_j(t-1)W_xj)，j＝1，…，m；

步骤(3)：将特征节点与增强节点合并，作为宽度学习的输入，进行线性变换，得到宽度学习的输出，表达式，如下：

其中，Y(t)为宽度学习的输出；H^m(t)为增强节点H_j(t)的集合；

为增广矩阵；

为进行线性变换的权重，表达式如下：

通过岭回归方法进行求解，如下：

其中C为常数；I为单位矩阵，T为矩阵转置符号。

实施例2：

本发明实施例2公开了利用本发明公开的RBLS循环宽度学习模型来识别上市公司财务舞弊行为，以选取的100家舞弊上市公司和400家非舞弊上市公司的数据为样本，进行实验，来验证本发明RBLS循环宽度学习模型的有效性，如图2所示，包括：

步骤1、采集实验数据。

步骤1-1、样本选择。

本文的研究数据来源于国泰安数据库(CSMAR，China Stock Market& AccountingResearch Database)，CSMAR是借鉴CRSP、COMPUSTAT、TAQ、 THOMSON等权威数据库专业标准，并结合中国实际国情开发的经济金融领域的研究型精准数据库,是目前国内学术领域引用最广泛的数据库之一。美国反舞弊财务报告委员会认为财务舞弊是指：公司出具虚假或是遗漏的重大误导性财务报告，严重影响了投资者的有关决策。在CSMAR中财务违规包括虚构利润、虚构资产、虚假记载等16种行为。依财务舞弊定义和国泰安 (CSMAR)数据库关于违规信息说明书的查阅，本文将虚构利润、虚构资产、虚假记载、重大遗漏、披露不实5种行为认定为财务舞弊行为。我们从CSMAR 中将2011-2019年期间的所有涉及财务违规的样本筛选出来。

在选取2011-2019年间上市公司财务舞弊时，为了保证准确地分析上市公司财务舞弊的特征以及样本质量，本研究选择2011-2019年期间首次出现行为或者连续两次发生财务舞弊的时间间隔3年以上的上市公司样本。对样本进行分析后，为了保证模型的有效性，剔除有数据遗漏、金融行业或者ST(Special Treatment)等特殊情况，最后选用了100组上市公司舞弊样本。

目前，商业世界中欺诈性公司与非欺诈性公司的实际比例尚不清楚。因此，一些研究对这一比例进行了估计(例如，一些研究估计，欺诈性公司占所有运营公司的1％以下)(Beneish 1997；Dechow等人，2011)。有的作者的估计值为14.5％(Dyck等人，2013)。还有的作者估计值为25％左右(Yao 等人，2019；Lin等人，2015)。因此，我们在选择对比样本时遵循谨慎性原则，为了避免高估会计欺诈的可能性，按1:4的比例来选择非舞弊上市公司样本。同时，为了提高非舞弊样本的可信度，我们采取以下四项原则：

(1)在2011-2019年期间，从未受到证监会等相关机构公开处罚的上市公司；

(2)选择的非舞弊公司样本必须与财务舞弊公司的行业相同、会计年度相同、资产规模相似且行业内存续时间较长；

(3)配对的样本数据财务指标必须完整，无大面积关键数据缺失；

(4)选取的上市公司舞弊样本和对应的非舞弊配对样本都是A股上市公司。

本文最终选择500个样本数据，其中，100个为舞弊公司样本，400个非舞弊样本公司，样本数据均来源于国泰(CSMAR)数据库。

步骤1-2：指标体系建设。

财务舞弊主要是公司对财务数据进行粉饰或篡改，舞弊行为通常会在会计科目中显现出来。上市公司舞弊往往会导致其财务数据异常，而财务指标就是通过对资产负债表、利润表和现金流量表三大财务报表的个性会计科目进行比率和结构分析来识别财务舞弊。

因此，本文在财务舞弊指标体系的构建中，主要考虑了财务比率这类客观的评价指标，财务指标的分类参照国泰安数据库中公司研究的分类方法，从盈利能力、偿债能力、经营能力、现金流量、风险水平和发展能力六个方面选取了财务指标，此外，为了提高数据的全面性，从公司治理结构和外部审计意见两方面选取了非财务指标，来构建指标体系。在选取指标时主要参考了之前有关财务舞弊识别研究的文献，最终筛选出27个典型的指标用于构建财务舞弊识别的指标体系，如表1所示。

表1指标体系

步骤1-3：指标选择。

由于各指标之间存在量纲，数据间差异较大，为了消除数据取值范围差异对模型效果的影响，需要对数据进行归一化处理，采用Z-Score标准化方法，在SPSS软件中，对初始特征指标体系中样本数据进行归一化处理，表达式如下：

其中，x代表原始数据，μ代表所有数据的平均值，σ代表标准差。

在选取的23个财务指标中，有较多指标具有高度相关性，或者某些指标所代表的上市公司信息存在一定的重复性，从而增加了问题分析的复杂性。因此，需要找到一种合理的方法来减少需要分析指标的数量，同时尽量减少原始指标中所包含的信息的损失。由于变量之间存在一定的相关关系，因此用一个新的变量来表示一组密切相关的变量。PCA属于这种降维类型算法。因此，使用PCA对初始财务指标数据进行预处理，并提取变量(由SPSS完成)。

在进行PCA之前，采用KMO检验和Bartlett检验，如表2所示，验证了这23个财务指标对PCA的适用性。Bartlett球度检验用于确定变量之间是否存在较强的相关性，卡方统计值小于0.05，说明变量之间存在较强的相关性。表2所示的检验结果表明，KMO值大于0.5，且Bartlett球面检验的卡方统计值显著性概率小于0.05，表明特征向量之间存在很强的相关性，这些指标适合于PCA。

表2 KMO检验和Bartlett检验

在SPSS中采用PCA的方法提取因子，并根据特征值大于1的方法提取主成分。如表3所示，有8个因子的特征值大于1，方差的累积百分比为76.675％，即这8个因子在76.675％的程度上能解释原有的23个财务指标，信息损失量较少，有较好的解释力度。

表3总方差解释

如表4所示，将PCA得到的8个因子命名为Yi(i＝1，2，…，8)，其中Y1主要代表盈利能力指标X8、X9、X10和偿付能力指标X1、X2；Y2主要代表经营能力指标X5、X6、X7；Y3主要代表偿付能力指标X3和盈利能力指标 X11、X13。Y4主要代表发展能力指标X22、X23；Y5主要为盈利指标X14 和现金流指标X15、X16；Y6主要为现金流指标X17和风险水平指标X18、 X20；Y7主要为盈利指标X11、风险水平指标X19、X20；Y8主要为现金流指标X15、X17。最终的指标体系包含8个因素和4个非财务指标。

表4 PCA预处理结果

Extraction method：Principal component analysis

8components were extracted

步骤2、实验结果分析。

步骤2-1、确定模型精度评价标准。

财务舞弊识别是一个判断样本是舞弊还是非舞弊的二分类问题，所以选用二分类问题中最常用的评价工具混淆矩阵，如表5所示，来评价RBLS模型的性能，相关的评价涉及到准确率、精准率、召回率和F1Score等。

对于二分类问题，样本有正负两类，根据预测和真实类别的组合，将样本集分为真正类(TP)、假正类(FP)、真负类(TN)和假负类(FN)四种情况。混淆矩阵是通过将这四种组合记录在一个矩阵中而形成的。

表5混淆矩阵

评价指标如下：

准确率Accuracy是指模型预测结果正确的样本数占总样本的百分比，表达式如下：

精准率Precision是指模型预测为舞弊且实际舞弊的样本占预测为舞弊样本总数的比例，表达式如下：

召回率Recall是指模型预测为舞弊且实际舞弊的样本数量占实际舞弊总样本数的比例，表达式如下：

F1Score综合考虑了精确率和召回率两个指标，其取值范围是[0.1], F1Score的值越接近1代表模型的识别效果越好，越接近0代表模型的识别效果越差，表达式如下：

步骤2-2、得到实验结果。

使用训练集训练RBLS模型，然后使用测试集验证识别效果。经过实验，获得的财务报表舞弊的识别精度为86％。为了验证RBLS模型在识别上市公司财务舞弊方面的准确性，选择财务舞弊识别领域最常用的SVM和BP神经网络及单一的BLS模型进行对比。

如图3所示，3(a)，3(b)，3(c)，3(d)分别为SVM、BP、BLS 和RBLS的迭代次数与训练误差之间的关系曲线。每个模型的损失率随着迭代次数的增加而降低，SVM和BP网络的误差减小缓慢，且存在较大的训练误差，特别是SVM。BLS的最终训练误差与RBLS相似，但误差降低率低于 RBLS，RBLS不仅训练误差减少率最高，而且最终训练误差几乎为零，与其他三种模型相比，RBLS在模型训练中表现出最好的性能。

如表6所示，与传统的SVM、BP神经网络和单一的BLS的模型相比， RBLS在识别财务舞弊方面具有显著优势，两项综合指标的准确率和F值分别达到86％和0.7124，表明RBLS在这个领域具有较高的应用价值。

表6本发明和各对比模型的准确率

本发明和各对比模型的准确率，如图4所示。

本发明和各对比模型的F值，如图5所示。

本发明实施例公开了一种基于循环宽度学习的财务舞弊识别方法。在基于所应用的宽度学习BLS相对于DL，不仅具有具有强大的特征表示和预测能力，能够准确表示数据特征与预测结果之间的关系，且结构简单、训练速度快、准确率高，并且还具有增量学习的优势的基础上，还通过将典型的反馈神经网络RNN嵌入到BLS结构的增强层中，构成RBLS循环宽度学习模型，将BLS快速计算和高精确度的优点与RNN的信息反馈能力结合起来，在保留了BLS网络结构的同时也将其增强层的各个节点连接起来，弥补了 BLS作为一种前馈神经网络所处理的公司财务报表数据间相互影响的动态关系方面的不足，提高了预测准确性和适用性。同时，RNN的引入使该模型能够提取时间特征，从而更好地扩展神经网络的表征能力。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。