CN105678451A

CN105678451A - 基于财务数据自动识别财务舞弊的方法及装置

Info

Publication number: CN105678451A
Application number: CN201610003460.9A
Authority: CN
Inventors: 宁宇新; 魏绒; 乔良友
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-01-04
Filing date: 2016-01-04
Publication date: 2016-06-15

Abstract

本发明提出一种基于财务数据自动识别财务舞弊的方法及装置，该方法包括：获取待识别公司的多项财务数据；对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。利用上述方法及装置，可以做到事先对待识别公司的财务舞弊状况进行识别，以可以及时采取相应的应对措施。

Description

基于财务数据自动识别财务舞弊的方法及装置

技术领域

本发明涉及财务管理领域，具体而言，涉及一种基于财务数据自动识别财务舞弊的方法及装置。

背景技术

在我国市场经济的发展过程中，会计准则随着与国际财务报告准则的趋同而不断修订完善，按照会计准则进行会计处理与税法存差异。一些企业或公司往往为了利益而利用上述因素进行财务舞弊，操控会计利润，试图通过粉饰财务报表以获取高额收益和良好的企业财务状况。然而这对企业、投资者、员工、国家以及资本市场都造成极大的危害，严重扰乱了资本市场的高效运作以及市场资金的优化配置。现有技术中，有关财务舞弊的识别都是在事后进行的，导致难以及时采取相应的应对措施。

发明内容

鉴于此，本发明的目的在于提供一种基于财务数据自动识别财务舞弊的方法及装置，以改善现有技术中仅能在事后识别公司是否发生财务舞弊的问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种基于财务数据自动识别财务舞弊的方法，包括：获取待识别公司的多项财务数据；对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。

第二方面，本发明实施例还提供了一种基于财务数据自动识别财务舞弊的装置，包括：获取模块，用于获取待识别公司的多项财务数据；正交因子分析模块，用于对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；识别模块，用于利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。

本发明实施例提供的基于财务数据自动识别财务舞弊的方法和装置，通过对待识别公司的多项财务数据进行正交因子分析得到多个正交的公共因子，并根据所得到的公共因子、利用朴素贝叶斯分类器来识别待识别公司的财务舞弊状况。由此使得可以做到事先对待识别公司的财务舞弊状况进行识别，从而可以及时采取相应的应对措施。

为使本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本发明的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本发明的主旨。

图1示出了可应用于本发明实施例的计算设备的结构框图；

图2示出了本发明第一实施例提供的基于财务数据自动识别财务舞弊的方法；

图3示出了本发明第二实施例提供的基于财务数据自动识别财务舞弊的装置的示意性结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了一种可应用于本发明实施例中的计算设备100的结构框图。所述计算设备100可以为个人电脑(personalcomputer，PC)、平板电脑、工作站、服务器等合适的计算设备。如图1所示，所述计算设备100可以包括本发明实施例提供的基于财务数据自动识别财务舞弊的装置、存储器102、存储控制器103、处理器104和网络模块105。

存储器102、存储控制器103、处理器104、网络模块105各元件之间直接或间接地电连接，以实现数据的传输或交互。例如，这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。所述基于财务数据自动识别财务舞弊的装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器102中的软件功能模块，例如所述基于财务数据自动识别财务舞弊的装置包括的软件功能模块或计算机程序。

存储器102可以存储各种软件程序以及模块，如本发明实施例提供的基于财务数据自动识别财务舞弊的的方法及装置对应的程序指令/模块，处理器104通过运行存储在存储器102中的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现本发明实施例中的基于财务数据自动识别财务舞弊的方法。存储器102可以包括但不限于随机存取存储器(RandomAccessMemory，RAM)，只读存储器(ReadOnlyMemory，ROM)，可编程只读存储器(ProgrammableRead-OnlyMemory，PROM)，可擦除只读存储器(ErasableProgrammableRead-OnlyMemory，EPROM)，电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory，EEPROM)等。

处理器104可以是一种集成电路芯片，具有信号处理能力。上述处理器可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

网络模块105用于接收以及发送网络信号，以用于向外部设备发送数据或接收来自外部设备的数据。上述网络信号可包括无线信号或者有线信号。

可以理解，图1所示的结构仅为示意，计算设备100还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。另外，本发明实施例中的计算设备还可以包括多个具体不同功能的计算设备。

在对本发明的实施例进行详细描述之前，先对本文中需要使用的正交因子分析和朴素贝叶斯分类器进行简要描述。朴素贝叶斯分类器为一种条件概率模型。采用朴素贝叶斯分类器进行分类时，只有满足“类条件独立性”要求即一个特征属性值对给定类的影响独立于其他特征属性值，才会实现较好的分类效果。

为了应对朴素贝叶斯分类器对类条件独立性的要求，采用正交因子分析(建立正交因子模型)处理所选定的变量，以获得多个满足类条件独立性的公共因子作为用于进行分类的特征属性值。正交因子分析是因子分析法中的一种，因子分析法的本质在于：用潜在的但不能观察的随机量去描述许多变量间的协方差关系。因子分析法主要基于下列命题：假定可以用变量间的相关性把变量进行分组，即假设在一个特定组内的所有变量彼此之间是高度相关的，而与不同组中的变量却有相对较小的相关性。由此，抽象出单一的潜在因子来表征各组变量。以上命题保证了抽象出的各个单一因子之间是类条件独立的。

因子分析法是从研究变量内部相关的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。建立因子分析模型描述如下：对于有P个成分的观测随机向量X(X₁,X₂,…,X_P)，均值向量E(X)＝0且协方差阵Cov(X)＝Σ。如式(1)所表示的，X线性依赖于若干个不能观测的公共因子F₁,F₂,…,F_m和p个附加的特殊因子e₁,e₂,…,e_p。

X₁＝l₁₁F₁+l₁₂F₂+…+l_1mF_m+e₁

X₂＝l₂₁F₁+l₂₂F₂+…+l_2mF_m+e₂

……

X_p＝l_p1F₁+l_p2F₂+…+l_pmF_m+e_p式(1)

其中系数l_ij称为第i个变量在第j个因子上的载荷，L为因子载荷矩阵。

令X＝(X₁,X₂,…,X_p)′，F＝(F₁,F₂,…,F_m)′，e＝(e₁,e₂,…,e_p)′，若满足下述条件:F和e独立；

E (F) = \underset{(m, 1)}{0}, C o v (F) = \underset{(m, m)}{I}; E (e) = \underset{(p, 1)}{0},

Y是对角矩阵，则满足正交性，此时m个公共因子的正交模型可以由式(2)表示：

\underset{(p, l)}{X} = \underset{(p, m)}{L} \underset{(m, l)}{F} + \underset{(p, l)}{e}

式(2)

其中e_i为第i个特殊因子，F_i第i个公共因子，l_ij第i个变量在第j个公共因子上的载荷。

下面简要描述朴素贝叶斯分类器的工作过程。假定有t个类C₁,C₂,…,C_t，对于给定的未知数据样本X′，分类器将预测X′属于具有最高后验概率(条件X′下)的类。也就是说，朴素贝叶斯分类器将未知的样本X′分配给类C_i的充要条件由下述式(3)表示：

P(C_i/X')＞P(C_j/X'),i≠j,t＝i,j式(3)

其P(C_i/X')最大的类C_i称为最大后验假定。根据贝叶斯定理存在式(4)：

P (C_{i} | X^{'}) = \frac{P (X^{'} | C_{i}) P (C_{i})}{P (X^{'})}

式(4)

给定具有许多属性的数据集，计算P(X'/C_i)的开销可能非常大。为降低计算P(X'/C_i)的开销，可以做类条件独立的朴素假定。给定样本的类标号，假定属性值相互条件独立，即在属性间不存在依赖关系，因此得到式(5)：

P (X^{'} / C_{i}) = Π_{k = 1}^{s} P ({X_{k}}^{'} / C_{i})

式(5)

概率P(X₁'/C_i)，P(X₂'/C_i)，…，P(X_s'/C_i)可以由训练样本估值。

P(X')对所有类为常数。类别C_i在样本集中的比率为P(C_i)＝S_i/S(其中S_i是类C_i中的训练样本数，S是选取的样本总数)。以此得到由式(6)表示的未知数据样本X′属于各个类别的概率：

P (C_{i} / X^{'}) = \frac{P (X^{'} / C_{i}) P (C_{i})}{P (X^{'})} = \frac{Π_{k = 1}^{s} P ({X_{k}}^{'} / C_{i}) P (C_{i})}{P (X^{'})}

式(6)

如果给定的属性特征是连续的，通常假定连续值服从均值为m，方差为s的高斯分布(即正态分布)，则存在式(7):

P (X_{k}^{'} | C_{i}) = g (X_{k}^{'}, u_{c_{i}}, s_{c_{i}}) = \frac{1}{\sqrt{2 p} s} e^{- \frac{{(x^{'} - m)}^{2}}{2 s^{2}}}

式(7)

下面通过具体实施例对本发明进行详细描述。

第一实施例

本发明第一实施例提供了一种基于财务数据自动识别财务舞弊的方法。图2中示出本发明第一实施例提供的基于财务数据自动识别财务舞弊的方法的流程图。请参阅图2，该方法可以包括：

步骤S11，获取待识别公司的多项财务数据。

于一种具体实施方式中，所获取的待识别公司的多项财务数据可以包括：资产流动比率X₁、销售现金比率X₂、销售净利率X₃、资产净利率X₄、净资产收益率X₅、营业利润率X₆、总资产现金回收率X₇、存货周转率X₈、应收账款周转率X₉、固定资产周转率X₁₀和利息保障倍数X₁₁。具体地，资产流动比率X₁表示流动资产合计/流动负债合计，销售现金比率X₂表示经营活动现金净流量/主营业务收入，销售净利率X₃表示净利润/销售收入，资产净利率X₄表示净利润/平均资产总额，净资产收益率X₅表示净利润/平均净资产，营业利润率X₆表示营业利润/全部业务收入，总资产现金回收率X₇表示经营现金净额/平均总资产，存货周转率X₈表示销货成本/平均存货余额，应收账款周转率X₉表示当期销售净收入/[(期初应收帐款余额+期末应收帐款余额)/2],固定资产周转率X₁₀表示销售收入/平均固定资产净值，利息保障倍数X₁₁表示(利润总额+利息费用)/利息费用。

关于所获取的财务数据即所获取的用于进行分析的变量的类别，在现有技术中，曹利(2003)等认为销售净利率、销售现金比率、固定资产周转率等数据适合于对公司的财务舞弊进行识别。周继军等(2011)发现存货周转率、应收账款周转率、净资产收益率、营业利润率等数据是研究舞弊与否需要选取的财务变量。吴革等(2008)认为流动资产比率、经营杠杆系数等数据是研究舞弊与否需要选取的财务变量。秦江萍(2006)发现营运资金与总资产的比率、现金债务总额比、净利润现金保证率、应收帐款周转率、存货占总资产的比、每股未分配利润、非标准无保留审计报告、股权集中度对财务报告舞弊识别模型有显著差异。Bell等(2000)以科技、卫生保健、金融服务三个行业为研究对象，运用Logistic回归分析得出：脆弱的内部控制、公司处于高速增长期、低下的盈利水平、过度操纵盈利以达到盈利预期、管理层不真实的表述或者消极对待审计师等因素是比较显著的舞弊特征。Wells(2001)从动态的应收账款周转指数、动态毛利率指数、动态资产质量指数、动态销售增长指数、动态应计总额资产指数剖析了ZZZZBest公司的财务舞弊案，发现除动态毛利率指数外的其余指标均存在显著差异。综合上述研究成果，本发明中选择X₁,X₂,…,X₁₁进行研究。

步骤S12，对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量。

通过对资产流动比率X₁、销售现金比率X₂、销售净利率X₃、资产净利率X₄、净资产收益率X₅、营业利润率X₆、总资产现金回收率X₇、存货周转率X₈、应收账款周转率X₉、固定资产周转率X₁₀和利息保障倍数X₁₁各变量进行KMOandBartlett测试，KMO检验统计量为0.713，故认为上述各个变量之间的偏相关性可以接受。Bartlett球形检验统计量的Sig<0.01，故认为上述各个变量之间存在显著的相关性。因此，本实施例中的上述各个变量适合做正交因子分析。

于一种具体实施方式中，对上述各个变量进行正交因子分析，选取通过所述正交因子分析得到的所有正交的第一公共因子中累积方差贡献率超过预设阈值的盈利因子、现金因子、稳定因子和流动因子作为得到的多个正交的第一公共因子，所述盈利因子主要由所述销售净利率X₃、所述资产净利率X₄、所述净资产收益率X₅和所述营业利润率X₆反映，所述现金因子主要由所述销售现金比率X₂、所述总资产现金回收率X₇反映，所述稳定因子主要由所述应收账款周转率X₉、所述固定资产周转率X₁₀和所述利息保障倍数X₁₁反映，所述流动因子主要由所述资产流动比率X₁和所述存货周转率X₈反映。需要注意的是，在本发明提供的实施例中，所提取的财务数据并不受限于上述类型财务数据，并且相应得到的公共因子也并不受限于上述公共因子。

上述预设阈值可以由用户设定。所得到的四个正交的第一公共因子彼此之间是相互独立的，因此可以消除朴素贝叶斯分类的类条件独立假设，即可以用朴素贝叶斯分类器基于所得到的四个正交的第一公共因子进行分类识别。用F₁、F₂、F₃和F₄分别表示所述盈利因子、现金因子、稳定因子和流动因子，得到第一特征向量F＝(F₁,F₂,F₃,F₄)。

对于此步骤，利用正交因子分析确定出m个正交的公共因子F₁,F₂,…,F_m，求得其中有s(s∈m)个公共因子F₁,F₂,…,F_s(此处s＝4)已经可以非常充分地反应原始变量的整体水平。每个待识别公司的数据样本有一个s维属性特征向量X′＝{f₁,f₂,…,f_s}表示，f_i(i＝1,2,…,s)表示对属性F_i(i＝1,2,…,s)的度量。

步骤S13，利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。

于一种具体实施方式中，所述利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况，可以包括：计算所述第一特征向量中的每个第一公共因子在舞弊类下的第一独立概率，并根据所获得的多个第一独立概率计算所述第一特征向量属于所述舞弊类的第一后验概率；计算所述第一特征向量中的每个第一公共因子在非舞弊类下的第二独立概率，并根据所获得的多个第二独立概率计算所述第一特征向量属于所述非舞弊类的第二后验概率；当所述第一后验概率大于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为舞弊；当所述第一后验概率小于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为非舞弊。

具体地，通过如下方式进行识别。在本发明提供的实施例中，只存在舞弊类C₁、非舞弊类C₂两个类别，其中舞弊类C₁表示公司的财务舞弊状况为舞弊，非舞弊类C₂表示公司的财务舞弊状况为非舞弊。令上述第一特征向量F＝(F₁,F₂,F₃,F₄)作为X′进行朴素贝叶斯分类，即以F₁、F₂、F₃和F₄作为特征属性值进行朴素贝叶斯分类。根据式(6)可以得到式(8)和式(9)：

式(8)

式(9)

当P(舞弊)＞P(非舞弊)时，可以判定所述待识别公司的财务舞弊状况为舞弊；当P(舞弊)＜P(非舞弊)时，可以判定所述待识别公司的财务舞弊状况为非舞弊；当P(舞弊)＝P(非舞弊)时，则无法判断。对于式(8)，P(F_k/C₁)表示每个第一公共因子在舞弊类C₁下的第一独立概率，P(舞弊)＝P(C₁/F)表示所述第一特征向量属于所述舞弊类C₁的第一后验概率。对于式(9)，P(F_k/C₂)表示每个第一公共因子在非舞弊类C₂下的第二独立概率，P(非舞弊)＝P(C₂/F)表示所述第一特征向量属于所述非舞弊类C₂的第二后验概率。

于一种具体实施方式中，所述预设的朴素贝叶斯分类器是通过以下步骤预先确定的：获取多家公司中每一家公司的多项历史财务数据以及对应的历史财务舞弊信息；针对所述每一家公司，对所获取的多项历史财务数据进行正交因子分析得到多个正交的第二公共因子，形成以所述多个第二公共因子作为分量的第二特征向量，并形成包括所述第二特征向量和对应的历史财务舞弊信息的样本数据；当所形成的多个样本数据满足第一预设条件时将所形成的多个样本数据分为一组训练样本数据和一组测试样本数据，其中所述第一预设条件为所形成的多个样本数据包括的所有第二特征向量中每种第二公共因子满足高斯分布；利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，并在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器。

具体地，例如获取144家上市公司中每一家公司的多项历史财务数据以及对应的历史财务舞弊信息，其中72家公司发生财务舞弊，另外72家公司未发生财务舞弊，发生财务舞弊的72家公司分别与未发生财务舞弊的另外72家公司相配对。上述配对原则为：配对组的未舞弊公司与舞弊公司属于同行业且公司规模大致相同，使用相同年份的年度报表进行对比得出。有的舞弊公司分别在几年内发生舞弊行为，则选取其连续几年舞弊的财务报表。在与舞弊公司同年度、同行业的上市公司中，选取当年与舞弊公司资产总额最为接近的那家上市公司作为控制公司。每一家公司的多项历史财务数据可以包括该公司的与其历史财务舞弊信息相对应的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数。

类似于上面所描述的，针对每一家公司，多个正交的第二公共因子可以包括根据多项历史财务数据获得的该公司的盈利因子、现金因子、稳定因子和流动因子，第二特征向量以该公司的盈利因子、现金因子、稳定因子和流动因子作为分量。针对上述144家公司，相应地形成144个样本数据。对于所形成的144个样本数据而言，如果包含于其中的144个盈利因子、144个现金因子、144个稳定因子和144个流动因子分别满足高斯分布，则可以进行下一步操作，否则可能需要增加样本数目。所述一组训练样本数据可以包括大多数样本数据，例如训练样本数据的数目可以为122个而测试样本数据的数目为20个。

于一种具体实施方式中，所述利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，可以包括：将所述一组训练样本数据分为第一子组训练样本数据和第二子组训练样本数据，其中所述第一子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为舞弊，所述第二子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为非舞弊；计算所述第一子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得所述每种第二公共因子在舞弊类下的第一概率密度模型；计算所述第二子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得每种所述第二公共因子在非舞弊类下的第二概率密度模型，由此得到经训练的朴素贝叶斯分类器。

具体地，对朴素贝叶斯分类器进行训练，也就是分别针对第一子组训练样本数据和第二子组训练样本数据计算盈利因子、现金因子、稳定因子和流动因子各自的均值和方差，即式(7)中的m和s，将计算获得的均值和方差带入(7)，从而得到上述每种因子在舞弊类C₁下的第一概率密度模型和在非舞弊类C₂下的第二概率密度模型。此外，可以相应获得P(C₁)和P(C₂)的值。也就是说，通过训练可以获得第一概率密度模型P(F₁/C₁)、P(F₂/C₁)、P(F₃/C₁)、P(F₄/C₁)和第二概率密度模型P(F₁/C₂)、P(F₂/C₂)、P(F₃/C₂)、P(F₄/C₂)。

于一种具体实施方式中，所述利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，可以包括：针对所述一组测试样本数据中的每个测试样本数据的第二特征向量，利用对应的第一概率密度模型计算该第二特征向量的每个第二公共因子在所述舞弊类下的第三独立概率，并根据所获得的多个第三独立概率计算该第二特征向量属于所述舞弊类的第三后验概率(依据式(8))；利用对应的第二概率密度模型计算该第二特征向量的每个第二公共因子在所述非舞弊类下的第四独立概率，并根据所获得的多个第四独立概率计算该第二特征向量属于所述非舞弊类的第四后验概率(依据式(9))；根据所述第三后验概率和所述第四后验概率获得该测试样本数据对应的预测财务舞弊状况，其中当所述第三后验概率大于所述第四后验概率时，所述预测财务舞弊状况为舞弊，当所述第三后验概率小于所述第四后验概率时，所述预测财务舞弊状况为非舞弊。

于一种具体实施方式中，所述在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器，可以包括：将所述每个测试样本数据对应的预测财务舞弊状况与该测试样本数据中的历史财务舞弊信息相比对，当比对结果相匹配的次数超过预设次数阈值时设定所述经训练的朴素贝叶斯分类器为所述预设的朴素贝叶斯分类器。所述预设次数阈值可以由用户设定。

可以采用k重交叉验证法对本发明实施例提供的方法的性能进行评价。k重交叉验证是将数据集划分为类别分布相似、大小相同、互不相交的k个样本子集，每次取其中的k-1个作为训练样本，剩余的一个作为测试集。也就是说，将样本数据划分为S₁,S₂,…,S_k，在第i次迭代时，划分S_i用作检验集，其余被划分为一起用作训练模型。例如，在第一次迭代时，子集S₂,…,S_k一起作为训练集，得到第一个模型，并利用S₁进行检验，以此类推。每个样本用于训练的次数相同，并且用于执行一次检验。通常采用10重交叉验证法对分类算法进行评价。

通过交叉验证可以得到每次检验结果的混淆矩阵(confusionmatrix)，即用来作为分类规则特征的表示，其包括了每一类的样本个数，包括正确的和错误的分类，如下面的表1所示。

表1混淆矩阵

	预测为舞弊	预测为非舞弊
			舞弊	a	b
费舞弊	c	d

利用10重交叉验证对本发明实施例提供的方法的性能进行评价。将总样本组分为10组，分别为S1,S2,…,S10，所得到的混淆矩阵如下面的表2所示。根据表2可以获知，本发明实施例提供的方法在基于财务数据识别财务舞弊方面取得较好的效果。

本发明实施例提供的基于财务数据自动识别财务舞弊的方法，通过对待识别公司的多项财务数据进行正交因子分析得到多个正交的公共因子，并根据所得到的公共因子、利用朴素贝叶斯分类器来识别待识别公司的财务舞弊状况。由此使得可以做到事先对待识别公司的财务舞弊状况进行识别，从而可以及时采取相应的应对措施。

表210重交叉验证混淆矩阵

第二实施例

本发明第二实施例提供了一种基于财务数据自动识别财务舞弊的装置。图3中示出了本发明第二实施例提供的基于财务数据自动识别财务舞弊的装置的示意性结构图。请参阅图3，第二实施例提供的基于财务数据自动识别财务舞弊的装置200可以包括：

获取模块210，用于获取待识别公司的多项财务数据；

正交因子分析模块220，用于对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；

识别模块230，用于利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。

于一种具体实施方式中，获取模块210具体地用于获取待识别公司的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数。

于一种具体实施方式中，正交因子分析模块220具体用于：对所获取的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数进行正交因子分析；选取通过所述正交因子分析得到的所有正交的第一公共因子中累积方差贡献率超过预设阈值的盈利因子、现金因子、稳定因子和流动因子作为得到的多个正交的第一公共因子，所述盈利因子主要由所述销售净利率、所述资产净利率、所述净资产收益率和所述营业利润率反映，所述现金因子主要由所述销售现金比率、所述总资产现金回收率反映，所述稳定因子主要由所述应收账款周转率、所述固定资产周转率和所述利息保障倍数反映，所述流动因子主要由所述资产流动比率和所述存货周转率反映。

于一种具体实施方式中，识别模块230具体用于计算所述第一特征向量中的每个第一公共因子在舞弊类下的第一独立概率，并根据所获得的多个第一独立概率计算所述第一特征向量属于所述舞弊类的第一后验概率；计算所述第一特征向量中的每个第一公共因子在非舞弊类下的第二独立概率，并根据所获得的多个第二独立概率计算所述第一特征向量属于所述非舞弊类的第二后验概率；当所述第一后验概率大于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为舞弊；当所述第一后验概率小于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为非舞弊。

进一步地，基于财务数据自动识别财务舞弊的装置200还可以包括分类器预设模块240，其用于确定所述预设的朴素贝叶斯分类器。具体地，分类器预设模块240可以用于：获取多家公司中每一家公司的多项历史财务数据以及对应的历史财务舞弊信息；针对所述每一家公司，对所获取的多项历史财务数据进行正交因子分析得到多个正交的第二公共因子，形成以所述多个第二公共因子作为分量的第二特征向量，并形成包括所述第二特征向量和对应的历史财务舞弊信息的样本数据；当所形成的多个样本数据满足第一预设条件时将所形成的多个样本数据分为一组训练样本数据和一组测试样本数据，其中所述第一预设条件为所形成的多个样本数据包括的所有第二特征向量中每种第二公共因子满足高斯分布；利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，并在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器。

具体地，关于所述利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，分类器预设模块240可以：将所述一组训练样本数据分为第一子组训练样本数据和第二子组训练样本数据，其中所述第一子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为舞弊，所述第二子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为非舞弊；计算所述第一子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得所述每种第二公共因子在舞弊类下的第一概率密度模型；计算所述第二子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得每种所述第二公共因子在非舞弊类下的第二概率密度模型，由此得到经训练的朴素贝叶斯分类器。

具体地，关于所述利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，分类器预设模块240可以：针对所述一组测试样本数据中的每个测试样本数据的第二特征向量，利用对应的第一概率密度模型计算该第二特征向量的每个第二公共因子在所述舞弊类下的第三独立概率，并根据所获得的多个第三独立概率计算该第二特征向量属于所述舞弊类的第三后验概率；利用对应的第二概率密度模型计算该第二特征向量的每个第二公共因子在所述非舞弊类下的第四独立概率，并根据所获得的多个第四独立概率计算该第二特征向量属于所述非舞弊类的第四后验概率；根据所述第三后验概率和所述第四后验概率获得该测试样本数据对应的预测财务舞弊状况，其中当所述第三后验概率大于所述第四后验概率时，所述预测财务舞弊状况为舞弊，当所述第三后验概率小于所述第四后验概率时，所述预测财务舞弊状况为非舞弊。

具体地，关于所述在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器，分类器预设模块240可以：将所述每个测试样本数据对应的预测财务舞弊状况与该测试样本数据中的历史财务舞弊信息相比对，当比对结果相匹配的次数超过预设次数阈值时设定所述经训练的朴素贝叶斯分类器为所述预设的朴素贝叶斯分类器。

本实施例对基于财务数据自动识别财务舞弊的装置200的各功能模块实现各自功能的具体过程，请参见上述图2至图3所示实施例中描述的具体内容，此处不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于财务数据自动识别财务舞弊的方法，其特征在于，包括：

获取待识别公司的多项财务数据；

对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；

利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别公司的多项财务数据，包括：

获取待识别公司的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数。

3.根据权利要求2所述的方法，其特征在于，所述对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，包括：

对所获取的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数进行正交因子分析；

选取通过所述正交因子分析得到的所有正交的第一公共因子中累积方差贡献率超过预设阈值的盈利因子、现金因子、稳定因子和流动因子作为得到的多个正交的第一公共因子，所述盈利因子主要由所述销售净利率、所述资产净利率、所述净资产收益率和所述营业利润率反映，所述现金因子主要由所述销售现金比率、所述总资产现金回收率反映，所述稳定因子主要由所述应收账款周转率、所述固定资产周转率和所述利息保障倍数反映，所述流动因子主要由所述资产流动比率和所述存货周转率反映。

4.根据权利要求1所述的方法，其特征在于，所述利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况，包括：

计算所述第一特征向量中的每个第一公共因子在舞弊类下的第一独立概率，并根据所获得的多个第一独立概率计算所述第一特征向量属于所述舞弊类的第一后验概率；

计算所述第一特征向量中的每个第一公共因子在非舞弊类下的第二独立概率，并根据所获得的多个第二独立概率计算所述第一特征向量属于所述非舞弊类的第二后验概率；

当所述第一后验概率大于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为舞弊；

当所述第一后验概率小于所述第二后验概率时，判定所述待识别公司的财务舞弊状况为非舞弊。

5.根据权利要求1所述的方法，其特征在于，所述预设的朴素贝叶斯分类器是通过以下步骤预先确定的：

获取多家公司中每一家公司的多项历史财务数据以及对应的历史财务舞弊信息；

针对所述每一家公司，对所获取的多项历史财务数据进行正交因子分析得到多个正交的第二公共因子，形成以所述多个第二公共因子作为分量的第二特征向量，并形成包括所述第二特征向量和对应的历史财务舞弊信息的样本数据；

当所形成的多个样本数据满足第一预设条件时将所形成的多个样本数据分为一组训练样本数据和一组测试样本数据，其中所述第一预设条件为所形成的多个样本数据包括的所有第二特征向量中每种第二公共因子满足高斯分布；

利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，并在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器。

6.根据权利要求5所述的方法，其特征在于，所述利用所述一组训练样本数据训练用于识别财务舞弊的朴素贝叶斯分类器得到经训练的朴素贝叶斯分类器，包括：

将所述一组训练样本数据分为第一子组训练样本数据和第二子组训练样本数据，其中所述第一子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为舞弊，所述第二子组训练样本数据中的每个训练样本数据包括的历史财务舞弊信息为非舞弊；

计算所述第一子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得所述每种第二公共因子在舞弊类下的第一概率密度模型；

计算所述第二子组训练样本数据包括的所有第二特征向量中每种第二公共因子的均值和方差，获得每种所述第二公共因子在非舞弊类下的第二概率密度模型，由此得到经训练的朴素贝叶斯分类器。

7.根据权利要求6所述的方法，其特征在于，所述利用所述一组测试样本数据检验所述经训练的朴素贝叶斯分类器，包括：

针对所述一组测试样本数据中的每个测试样本数据的第二特征向量，利用对应的第一概率密度模型计算该第二特征向量的每个第二公共因子在所述舞弊类下的第三独立概率，并根据所获得的多个第三独立概率计算该第二特征向量属于所述舞弊类的第三后验概率；

利用对应的第二概率密度模型计算该第二特征向量的每个第二公共因子在所述非舞弊类下的第四独立概率，并根据所获得的多个第四独立概率计算该第二特征向量属于所述非舞弊类的第四后验概率；

根据所述第三后验概率和所述第四后验概率获得该测试样本数据对应的预测财务舞弊状况，其中当所述第三后验概率大于所述第四后验概率时，所述预测财务舞弊状况为舞弊，当所述第三后验概率小于所述第四后验概率时，所述预测财务舞弊状况为非舞弊。

8.根据权利要求7所述的方法，其特征在于，所述在检验结果满足第二预设条件时将所述经训练的朴素贝叶斯分类器设定为所述预设的朴素贝叶斯分类器，包括：

将所述每个测试样本数据对应的预测财务舞弊状况与该测试样本数据中的历史财务舞弊信息相比对，当比对结果相匹配的次数超过预设次数阈值时设定所述经训练的朴素贝叶斯分类器为所述预设的朴素贝叶斯分类器。

9.根据权利要求5所述的方法，其特征在于，

针对所述每一家公司，所获取的多项历史财务数据包括该公司的资产流动比率、销售现金比率、销售净利率、资产净利率、净资产收益率、营业利润率、总资产现金回收率、存货周转率、应收账款周转率、固定资产周转率和利息保障倍数，所得到的多个第二公共因子包括盈利因子、现金因子、稳定因子和流动因子。

10.一种基于财务数据自动识别财务舞弊的装置，其特征在于，包括：

获取模块，用于获取待识别公司的多项财务数据；

正交因子分析模块，用于对所获取的多项财务数据进行正交因子分析，得到多个正交的第一公共因子，形成以所述多个第一公共因子作为分量的第一特征向量；

识别模块，用于利用预设的朴素贝叶斯分类器、根据所述第一特征向量识别所述待识别公司的财务舞弊状况。