CN112949954B - 基于识别学习建立财务欺诈识别模型的方法 - Google Patents

基于识别学习建立财务欺诈识别模型的方法 Download PDF

Info

Publication number
CN112949954B
CN112949954B CN201911152139.7A CN201911152139A CN112949954B CN 112949954 B CN112949954 B CN 112949954B CN 201911152139 A CN201911152139 A CN 201911152139A CN 112949954 B CN112949954 B CN 112949954B
Authority
CN
China
Prior art keywords
model
samples
financial
sample
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911152139.7A
Other languages
English (en)
Other versions
CN112949954A (zh
Inventor
张捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911152139.7A priority Critical patent/CN112949954B/zh
Publication of CN112949954A publication Critical patent/CN112949954A/zh
Application granted granted Critical
Publication of CN112949954B publication Critical patent/CN112949954B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于识别学习建立财务欺诈识别模型的方法,包括以下步骤:1)数据处理:获取样本数据,需要对样本数据进行清洗,样本数据清洗要清除错误点,冗余点和噪声,统一数据的量纲;2)构建印象管理特征:根据初步建立的文本框架,得到样本公司发布的文本信息的结构化数据,分别是包括社交行为特征、情绪特征和可读性特征;步骤3)选择财务变量:明确财务指标,分析每个财务指标的重要性与重要性排序,确定模型的输入变量;步骤4)制定模型评价标准:构建评价模型的好坏的混淆矩阵以及评价指标;步骤5)构建模型:选择分类器并对比分析,寻找最佳参数。本发明选取常用的财务指标,分类器来构建模型,同时采用印象管理特征来优化模型。

Description

基于识别学习建立财务欺诈识别模型的方法
技术领域
本发明属于财务防欺诈技术领域,具体涉及一种基于识别学习建立财务欺诈识别模型的方法。
背景技术
大数据时代下中国金融证券市场蓬勃发展,随之而来的财务欺诈问题也越来越受到投资者和监管者的重视。上市公司的财务欺诈行为使得投资者做出基于错误信息的错误决策,损害了投资者的利益,扰乱了经济秩序,引发了信任危机,危害极大。因此,构建一个有效的上市公司财务欺诈识别模型意义重大。目前,企业内部审计只能发现15%的财务舞弊行为,40%的财务舞弊行为被发现是依靠内部员工和外部合作伙伴的举报,也就是说,目前还没有一个行之有效的技术手段能够准确检测财务欺诈行为。传统审计方法主要依赖于检查、观察、询问、函证、重新计算、重新执行以及分析程序,已不能满足大数据时代下的审计要求。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科;它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。现有技术中,机器学习中三个已经被验证性能较好的分类器:支持向量机、人工神经网络和梯度提升树(GBDT)来建立模型与比较分析;其中,支持向量机通过最短距离法寻找分类超平面,适用于高维度的数据,可以减少过度拟合;人工神经网络应用得最早,应用的领域也非常广,它能够很好地模拟非线性数据。GBDT预测精度高,可以灵活处理包括连续值和离散值在内各种类型的数据,对异常值的鲁棒性较强。下面对这三种方法逐一介绍。
(一)支持向量机(Support Vector Machine,SVM)是Cortes Corinna、Vladimir NVapnik等人在1993年提出并在1995年发表的一种在回归分析和分类问题中分析数据集,基于统计学习理论的VC维理论和结构风险最小原理的监督式学习模型的机器学习算法。虽然推动支持向量机的数学基础已经存在了几十年了,但是它们近年来才被普遍大量应用。支持向量机不但性能先进,而且它能较好地解决非线性、小样本等实际问题,几乎适用于所有的学习任务,包括分类和数值预测两个方面,目前已广泛应用于生物信息学领域如癌症预测和遗传疾病的微阵列基因表达数据的分类、文本分类如文档所用的语言和文档主题分类、状态评估、罕见却重要的时间检测如故障诊断和安全漏洞、模式识别等各个领域。
支持向量机的目标是创建一个超平面(hyperplane)边界,并把数据所在空间进行划分成具有相似值的组,得到任意一边都相当均匀的分区,它的底层逻辑是在数据中找到用于构建最优超平面的支持向量,一般认为这属于求解一个二次优化问题。
(二)人工神经网络是对一组输入数据集和一组输出数据集之间的关系进行建模,所使用的模型就来自于动物大脑对来自感觉输入的刺激是如何反应的理解,对动物的神经网络进行了抽象,就像大脑使用的一个称为神经元(neuron)的相互连接的细胞网络来构建一个巨大的并行处理器一样,人工神经网络使用人工神经元(也称为节点),然后对应不同的神经元连接方式,构成不同的网络来解决学习问题。
与传统的回归方法相比,神经网络具有以下特点:
1.避免数据的分析和建模工作;神经网络经过学习能够在网络内部“建立”样本隐含的复杂结构;2.能够完成复杂的输入、输出非线性映射;3.能够识别有噪声或变形的输入模式。由于许多限制,现场得到的样本数据或多或少存在着噪声。神经网络经过学习,把样本中隐含的特征和规则分布于神经元之间的连接权值上,通常具有的冗余特征能够消除样本噪声的影响。4.非编程、自适应数据处理方式。通过训练,神经网络的内部状态将收敛到某种与输入激励模式相适应的稳定状态。神经网络能够很好的模拟非线性数据,因此应用越加广泛。神经网络通过模拟大脑的方式来解决问题。
(三)梯度提升树(GBDT)是一种集成算法。集成算法通过将多个单独的学习器结合来完成学习的过程,有时也被称为多分类器系统。单分类器的结合往往能够扩大单个学习器的优势,从而获得比单一学习器更加优越的泛化性能。目前的集成学习方法按照个体学习器生成方式的不同大致可分为两类:第一种方法是个体学习器串行生成的序列化方法,组成的单个学习器间存在强依赖关系,代表算法是AdaBoost和GBDT;第二种方法是个体学习器同时生成的并行化方法,之间间不存在强依赖关系,代表算法有Bagging和随机森林。
GBDT即梯度提升树,提升方法依然采用的是加法模型与前向分布算法。GBDT与Adaboost最主要的区别在于两者识别模型的方法不同。Adaboost使用错分数据点来识别问题,通过调整错分数据点的权重来改进模型。GBDT则通过负梯度来识别问题,通过计算负梯度来改进模型。不同问题的提升树学习算法的主要区别在于使用的损失函数不同。对于分类问题,GBDT实质是把它转化为回归问题。
发明内容
针对现有技术中的不足之处,本发明提供一种基于识别学习建立财务欺诈识别模型的方法。
为了达到上述目的,本发明技术方案如下:
基于识别学习建立财务欺诈识别模型的方法,包括以下步骤:
步骤1)数据处理:获取样本数据之后,需要对样本数据进行清洗,样本数据清洗要清除错误点,冗余点和噪声,还要统一数据的量纲;
步骤2)构建印象管理特征:根据初步建立的文本框架,得到样本公司发布的文本信息的结构化数据,分别是包括社交行为特征、情绪特征和可读性特征;
步骤3)选择财务变量:明确财务指标,分析每个财务指标的重要性与重要性排序,确定模型的输入变量,具体为:
步骤31)选取财务变量:包括反映公司盈利能力的销售费用增长率、资产报酬率、营业利润率和每股收益;反映公司偿债能力的速动比率、流动资产比率、资产负债率;反映公司资产营运能力的应收账款周转率、存货周转率、总资产周转率;反映公司成长能力的净利润增长率,共计11个财务指标;
步骤32)对样本数据的每个财务指标作描述统计分析与独立样本T检验:明确每股收益、营业利润率、资产报酬率都与欺诈行为显著负相关,明确流动资产比率、资产负债率、净利润增长率与欺诈行为显著正相关,速动比率、销售费用增长率、应收账款周转率、存货周转率和总资产周转率与欺诈行为没有显著的关系;
步骤33)基于随机森林的特征选择:每次随机选取一定数量的样本,未使用的样本被称为袋外样本(Out of Bag,OOB),通过袋外样本,可以评估这个树的准确度以及误差率,其他子树叶也同理;
步骤4)制定模型评价标准:构建评价模型的好坏的混淆矩阵以及评价指标;
步骤5)构建模型:选择分类器并对比分析,寻找最佳参数,具体为:
选取机器学习中三个已经被验证性能较好的分类器:支持向量机、梯度提升树和人工神经网络来建立模型,比较分析以及模型融合。
进一步的,步骤1)中,对于样本中缺失的数据,线性插补法进行填补;用观察法寻找数据集中与其他观测值差距较大的噪声,并通过人工检查的方式去除噪声;最后,对定量数据做标准化和中心化处理;从而初步建立的文本框架。
进一步的,所述社交行为特征包含是否有微信公众号、是否认证、建立时长以及发文频率四个变量。
进一步的,所述情绪特征即年报文本部分情绪得分。
进一步的,所述可读性特征衡量年报文字部分的可理解性,包含是否有彩色封面、年报页数、平均句长和平均表格页数四个变量。
进一步的,步骤33)中,基于随机森林的特征选择的具体方法如下:
针对某个特征X,利用Bagging法建立了一颗决策树T,然后用T对袋外样本OOB进行分类检测,得到袋外误差errOOB1
接着对袋外样本的特征X进行“随机扰乱”,也就是对特征X的取值赋予随机取的新数值,这时再用T对袋外样本进行分类检测,得到袋外误差errOOB2,这时对于T来说,特征X的重要性D=errOOB2-errOOB1;
对随机森林中共N颗决策树做相同操作,可以得到N个特征X的重要性,取其均值作为X的重要性度量,即
当给某个特征随机加入噪声之后,袋外的准确率会大幅度降低,也就是errOOB2的值将大幅提高,那么该特征的D(X)也会相应提高。换句话说,判断一个属性重要不重要,就是判断其值的改变对结果的影响程度。并选择重要性排序前五的变量作为模型的输入变量,依次是每股收益、资产负债率、净利润增长率、资产回报率和营业利润率。
进一步的,步骤4)中,样本分类并构建混淆矩阵:所有样本按照其真实类别和分类器预测类别可以划分为四类:
真正例(TP):真实类别为欺诈公司,预测类别为欺诈公司;
假正例(FP):真实类别为非欺诈公司,预测类别为欺诈公司;
假负例(FN):真实类别为欺诈公司,预测类别为非欺诈公司;
真负例(TN):真实类别为非欺诈公司,预测类别为非欺诈公司;根据以上四种分类情况构建混淆矩阵。
进一步的,步骤4)中,获得评价指标:通过混淆矩阵获得四个评价指:准确度(Accuracy)、精确度(Precision)、真正率(TP rate)和真负率(TN rate),具体计算方式如下:
准确度计算了全部被分类正确的样本占总样本的比例,从整体上评价了模型的分类正确与否;精确度计算了被正确分类为欺诈公司的样本数量占全部被预测为欺诈公司的样本数量的例;TPR体现了将欺诈样本正确预测为欺诈样本的比例;TNR则是将非欺诈公司正确预测为非欺诈公司的比例;其中,TPR与TNR相比,显然是TPR更加重要。
进一步的,步骤4)中,获得评价分类器分类效果的AUC的值:
AUC的全称是Area under the Curve of ROC,也就是ROC曲线下方的面积,ROC曲线基于混淆矩阵得出,以FPR为X轴,TPR为Y轴。AUC的值一般在0.5~1之间,值越大,则该分类器的分类效果就越好。
进一步的,步骤5)中,所述支持向量机(SVM):
首先考虑一个线性可分(linearly separable)的样本集合:
T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l (6)
其中xi∈X=Rn,X为输入空间,xl是输入空间上的点,n为属性特征数,也就是样本空间的维度。对于每一个xl,都有n个属性与之对应。l为训练样本总数,yl为样本的类别标志。如图2所示,有圆形和方形两种类型的样本散落在空间中,假设存在最优分类超平面H可以将圆形和方形样本分开,H1和H2代表与超平面H平行的两个平面,并且经过两种类型样本中与超平面H距离最近样本点,他们之间的距离就叫做分类间隔,当分类间隔最大时,此时H达到最优超平面;
设超平面的方程为:
特别的,是一个n维的权重向量,而b∈R是一个成为偏差(bias)的单一数值,等同于斜截式的截距项。所以对于所有样本的正确分类,等效于带约束条件的优化问题求解:
其中||w||表示的是欧几里得范数(Euclidean norm),也就是从原点到向量w的距离。
进一步的,步骤5)中,所述梯度提升树(GBDT):
在多分类问题中,假设有个类别,那么每一轮迭代实质是构建了棵树,对某个样本的预测值为
f1(x),f2(x),…fk(x) (9)
之后使用SoftMax可以得到属于每一个类别的概率,此时该样本的loss即可以用logit loss来表示,并对所有类别f(x)的都可以算出一个梯度,即可以计算出当前轮的残差,供下一轮迭代学习。下面主要对回归问题的提升树进行说明,过程如下:
1.首先定义初始提升树:
f0(x)=0 (10)
2.那么第m步的模型:
fm(x)=fm-1(x)+T(x;Θ),m=1,2,…M (11)
其中T(x;Θ)表示决策树,Θ为决策树的参数;
3.得到GBDM的最终模型:
其中M为树的个数;
GBDT每一轮训练时所关注的重点是本轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小。所以GBDT可以做到每一轮一定向损失函数减小的梯度方向变化。
进一步的,步骤5)中,所述人工神经元(ANN):
有向网络定义了树突(dendrite)的接入的输入信号(变量x)和输出信号(变量y)之间的关系;和生物的神经元是相同的,每个树突信号都会被冠以不同值的权重(即w值);细胞体会将输入信号进行求和,而后产生输出值,接着将这个输出值通过以f表示的激活函数(activation function)来输出;
因此,假设一个典型的人工神经元有n个输入的树突,那么用可以用下面这个公式来表达:
其中,权重w可以控制n个输入(这里用xi表示)中的每个输入度输入信号之和所做贡献的大小。激活函数f(x)使用净总和,结果信号y(x)就是输出轴突。然后神经元之间互相连接,形成及其复杂并且无法理解规则的数据模型。虽然神经元的种类很多,但是每种神经元都可以由以下特点来描述:
(1)激活函数(activation function),将上述的树突中输入信息进行转化,输出为单一的输出信号,这个信号将由神经网络传播到下一个神经元的树突里;
(2)网络拓扑结构(network topology),表述了整个神经网络里的神经元的总量以及它们之间是如何相互连接的;
(3)训练算法(training algorithm),描述了如何设定连接的权重,从而可以增减神经元的树突输入信号里的各数值比例;
其中,神经元激活函数是神经元网络之所以具有不同信息处理特性的核心原因。一般来说,最常用的神经元激活函数有以下4种形式:
阈值形激活函数,也被称为单位跳跃激活函数(unit step activationfunction)
S形激活函数(sigmoid activation function),虽然它与阈值形激活函数有类似的“S”形状,但是输出的信号不再是跳跃的了,输出值可能是(0,1)区间内的任意值;
分段线性激活函数:
概率型激活函数:
进一步的,步骤5)中,所述比较分析与模型融合:根据选择的SVM、GBDT、ANN三种分类器,将样本公司按照7:3的比例分为训练集和测试集,将印象管理特征与财务变量分别分别在R语言中进行训练和测试,获得三种分类器在测试集上的分类结果,以确定印象管理特征或者财务变量能够作为财务欺诈识别模型中的特征补充;根据分类结果,再进行对比实验:将印象管理特征与财务变量结合、单独使用财务变量与模型融合,获得不同组合融合下的准确度值、精确度值;获得最佳参数的模型。
有益效果:本发明以建立财务欺诈识别的机器学习模型为目的,选取常用的财务指标,分类器来构建模型,并使用混淆矩阵模型评价标准来验证模型的有效性。同时采用印象管理特征来优化模型,使得分类器的准确度提高了5%~7%,精确度提高了1%~3%,TPR提高了14%~33%。
附图说明
图1为本发明的随机森林选择结果柱状图;
图2为本发明的支持向量机示意图;
图3为本发明的人工神经网络示意图。
具体实施方式
以下参照具体的实施例来说明本发明。本领域技术人员能够理解,这些实施例仅用于说明本发明,其不以任何方式限制本发明的范围。
基于识别学习建立财务欺诈识别模型的方法,包括以下步骤:
步骤1)数据处理:获取样本数据之后,需要对样本数据进行清洗,样本数据清洗要清除错误点,冗余点和噪声,还要统一数据的量纲;本实施例中,具体为:
对于样本中缺失的数据,线性插补法进行填补;用观察法寻找数据集中与其他观测值差距较大的噪声,并通过人工检查的方式去除噪声;最后,对定量数据做标准化和中心化处理;从而初步建立的文本框架,
步骤2)构建印象管理特征:根据初步建立的文本框架,得到样本公司发布的文本信息的结构化数据,分别是包括社交行为特征、情绪特征和可读性特征;本实施例中,具体为:
社交行为特征包含是否有微信公众号、是否认证、建立时长以及发文频率四个变量;情绪特征即年报文本部分情绪得分;可读性特征衡量年报文字部分的可理解性,包含是否有彩色封面、年报页数、平均句长和平均表格页数四个变量;
步骤3)选择财务变量:明确财务指标,分析每个财务指标的重要性与重要性排序,确定模型的输入变量,具体为:
步骤31)选取财务变量:包括反映公司盈利能力的销售费用增长率、资产报酬率、营业利润率和每股收益;反映公司偿债能力的速动比率、流动资产比率、资产负债率;反映公司资产营运能力的应收账款周转率、存货周转率、总资产周转率;反映公司成长能力的净利润增长率,共计11个财务指标;
步骤32)对样本数据的每个财务指标作描述统计分析与独立样本T检验:明确每股收益、营业利润率、资产报酬率都与欺诈行为显著负相关,明确流动资产比率、资产负债率、净利润增长率与欺诈行为显著正相关,速动比率、销售费用增长率、应收账款周转率、存货周转率和总资产周转率与欺诈行为没有显著的关系;
步骤33)基于随机森林的特征选择:每次随机选取一定数量的样本,未使用的样本被称为袋外样本(Out of Bag,OOB),通过袋外样本,可以评估这个树的准确度以及误差率,其他子树叶也同理;具体方法如下:
针对某个特征X,利用Bagging法建立了一颗决策树T,然后用T对袋外样本OOB进行分类检测,得到袋外误差errOOB1
接着对袋外样本的特征X进行“随机扰乱”,也就是对特征X的取值赋予随机取的新数值,这时再用T对袋外样本进行分类检测,得到袋外误差errOOB2,这时对于T来说,特征X的重要性D=errOOB2-errOOB1
对随机森林中共N颗决策树做相同操作,可以得到N个特征X的重要性,取其均值作为X的重要性度量,即
当给某个特征随机加入噪声之后,袋外的准确率会大幅度降低,也就是errOOB2的值将大幅提高,那么该特征的D(X)也会相应提高。换句话说,判断一个属性重要不重要,就是判断其值的改变对结果的影响程度。在R语言中使用随机森林对变量进行特征选择的结果见图1。由图1可知,选择重要性排序前五的变量作为模型的输入变量,具体排序见表1;
表1随机森林特征选择变量排序
编号 变量 重要性排序
X6 每股收益 1
X9 资产负债率 2
X4 净利润增长率 3
X5 资产回报率 4
X8 营业利润率 5
由表1可知,重要性排序前五的变量依次是每股收益、资产负债率、净利润增长率、资产回报率和营业利润率;
步骤4)制定模型评价标准:构建评价模型的好坏的混淆矩阵以及评价指标,具体为:步骤41)样本分类:所有样本按照其真实类别和分类器预测类别可以划分为四类:
真正例(TP):真实类别为欺诈公司,预测类别为欺诈公司;
假正例(FP):真实类别为非欺诈公司,预测类别为欺诈公司;
假负例(FN):真实类别为欺诈公司,预测类别为非欺诈公司;
真负例(TN):真实类别为非欺诈公司,预测类别为非欺诈公司;
步骤42)构建混淆矩阵:根据以上四种分类情况构建混淆矩阵,如下表2所示:
表2财务欺诈问题的混淆矩阵
步骤43)获得评价指标:通过混淆矩阵获得四个评价指:准确度(Accuracy)、精确度(Precision)、真正率(TP rate)和真负率(TN rate),具体计算方式如下:
准确度计算了全部被分类正确的样本占总样本的比例,从整体上评价了模型的分类正确与否;精确度计算了被正确分类为欺诈公司的样本数量占全部被预测为欺诈公司的样本数量的例;TPR体现了将欺诈样本正确预测为欺诈样本的比例;TNR则是将非欺诈公司正确预测为非欺诈公司的比例;其中,TPR与TNR相比,显然是TPR更加重要;
步骤44)获得评价分类器分类效果的AUC的值:
AUC的全称是Area under the Curve of ROC,也就是ROC曲线下方的面积,ROC曲线基于混淆矩阵得出,以FPR为X轴,TPR为Y轴;AUC的值一般在0.5~1之间,值越大,则该分类器的分类效果就越好;
步骤5)构建模型:选择分类器并对比分析,寻找最佳参数,具体为:
选取机器学习中三个已经被验证性能较好的分类器:支持向量机、梯度提升树和人工神经网络来建立模型,比较分析;
步骤51)支持向量机(SVM):
首先考虑一个线性可分(linearly separable)的样本集合:
T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l (6)
其中xi∈X=Rn,X为输入空间,xl是输入空间上的点,n为属性特征数,也就是样本空间的维度。对于每一个xl,都有n个属性与之对应。l为训练样本总数,yl为样本的类别标志。如图2所示,有圆形和方形两种类型的样本散落在空间中,假设存在最优分类超平面H可以将圆形和方形样本分开,H1和H2代表与超平面H平行的两个平面,并且经过两种类型样本中与超平面H距离最近样本点,他们之间的距离就叫做分类间隔,当分类间隔最大时,此时H达到最优超平面;
设超平面的方程为:
特别的,是一个n维的权重向量,而b∈R是一个成为偏差(bias)的单一数值,等同于斜截式的截距项。所以对于所有样本的正确分类,等效于带约束条件的优化问题求解:
其中||w||表示的是欧几里得范数(Euclidean norm),也就是从原点到向量w的距离;步骤43)梯度提升树(GBDT):
在多分类问题中,假设有个类别,那么每一轮迭代实质是构建了棵树,对某个样本的预测值为
f1(x),f2(x),…fk(x) (9)
之后使用SoftMax可以得到属于每一个类别的概率,此时该样本的loss即可以用logit loss来表示,并对所有类别f(x)的都可以算出一个梯度,即可以计算出当前轮的残差,供下一轮迭代学习。下面主要对回归问题的提升树进行说明,过程如下:
1.首先定义初始提升树:
f0(x)=0 (10)
2.那么第m步的模型:
fm(x)=fm-1(x)+T(x;Θ),m=1,2,…M (11)
其中T(x;Θ)表示决策树,Θ为决策树的参数;
3.得到GBDM的最终模型:
其中M为树的个数;
GBDT每一轮训练时所关注的重点是本轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小。所以GBDT可以做到每一轮一定向损失函数减小的梯度方向变化;
步骤53)人工神经元(ANN):
如图3所示,图示中的有向网络定义了树突(dendrite)的接入的输入信号(变量x)和输出信号(变量y)之间的关系;和生物的神经元是相同的,每个树突信号都会被冠以不同值的权重(即w值);细胞体会将输入信号进行求和,而后产生输出值,接着将这个输出值通过以f表示的激活函数(activation function)来输出;
因此,假设一个典型的人工神经元有n个输入的树突,那么用可以用下面这个公式来表达:
其中,权重w可以控制n个输入(这里用xi表示)中的每个输入度输入信号之和所做贡献的大小。激活函数f(x)使用净总和,结果信号y(x)就是输出轴突。然后神经元之间互相连接,形成及其复杂并且无法理解规则的数据模型。虽然神经元的种类很多,但是每种神经元都可以由以下特点来描述:
(1)激活函数(activation function),将上述的树突中输入信息进行转化,输出为单一的输出信号,这个信号将由神经网络传播到下一个神经元的树突里;
(2)网络拓扑结构(network topology),表述了整个神经网络里的神经元的总量以及它们之间是如何相互连接的;
(3)训练算法(training algorithm),描述了如何设定连接的权重,从而可以增减神经元的树突输入信号里的各数值比例;
其中,神经元激活函数是神经元网络之所以具有不同信息处理特性的核心原因。一般来说,最常用的神经元激活函数有以下4种形式:
阈值形激活函数,也被称为单位跳跃激活函数(unit step activationfunction)
S形激活函数(sigmoid activation function),虽然它与阈值形激活函数有类似的“S”形状,但是输出的信号不再是跳跃的了,输出值可能是(0,1)区间内的任意值;
分段线性激活函数:
概率型激活函数:
步骤44)对比分析与模型融合:
根据上述选择的SVM、GBDT、ANN三种分类器,将样本公司按照7:3的比例分为训练集和测试集,在R语言中进行训练和测试,得到结果如下表3:
表3使用印象管理特征分类结果
分类器 accuracy precision TPR TNR
SVM 64.29% 66.67% 57.14% 71.43%
GBDT 61.90% 60.87% 66.67% 57.14%
ANN 66.67% 76.92% 47.62% 85.71%
结果显示三种分类器在测试集上的分类精确度和准确度均大于60%。也就是说,这些特征是能够作为财务欺诈识别模型中的特征补充的;
同时选择R语言为实验工具,仅使用财务变量进行分类的结果如下表4:
表4使用财务特征分类结果
分类器 accuracy precision TPR TNR AUC
SVM 61.90% 64.71% 52.38% 71.43% 0.619
GBDT 69.05% 68.18% 71.43% 66.67% 0.738
ANN 64.29% 68.75% 52.38% 76.19% 0.643
从表中可以看到,GBDT具有最高的准确率(69.05%)和最高的TPR(71.43%),同时AUC为0.738,整体效果最好。ANN的TNR(76.19%)较高,在预测非欺诈公司方面具有优势。SVM则表现平平。总体来看,运用传统的财务比率来分类是可行的,但分类的准确度和精确度都有待提高;
将三组印象管理特征与模型结合,得到一组对比实验结果,如下表5:
表5使用印象管理特征分类结果对比
从整体上看,结合了印象管理特征的模型分类效果优于单独使用财务特征的模型。其中,GBDT的准确度(73.81%)和精确度(69.23%)最高,在预测欺诈公司上的准确率更能达到85.71%,AUC为0.738,是最佳的分类器。SVM和ANN模型在加入印象管理特征后,TPR均大幅提高,证明了印象管理特征在财务欺诈识别方面的重要作用。

Claims (2)

1.基于识别学习建立财务欺诈识别模型的方法,其特征在于,包括以下步骤:步骤1)数据处理:获取样本数据之后,需要对样本数据进行清洗,样本数据清洗要清除错误点,冗余点和噪声,还要统一数据的量纲;
步骤2)构建印象管理特征:根据初步建立的文本框架,得到样本公司发布的文本信息的结构化数据,分别是包括社交行为特征、情绪特征和可读性特征;所述社交行为特征包含是否有微信公众号、是否认证、建立时长以及发文频率四个变量;所述情绪特征即年报文本部分情绪得分;所述可读性特征衡量年报文字部分的可理解性,包含是否有彩色封面、年报页数、平均句长和平均表格页数四个变量;
步骤3)选择财务变量:明确财务指标,分析每个财务指标的重要性与重要性排序,确定模型的输入变量,具体为:
步骤31)选取财务变量:包括反映公司盈利能力的销售费用增长率、资产报酬率、营业利润率和每股收益;反映公司偿债能力的速动比率、流动资产比率、资产负债率;反映公司资产营运能力的应收账款周转率、存货周转率、总资产周转率;反映公司成长能力的净利润增长率,共计11个财务指标;
步骤32)对样本数据的每个财务指标作描述统计分析与独立样本T检验:明确每股收益、营业利润率、资产报酬率都与欺诈行为显著负相关,明确流动资产比率、资产负债率、净利润增长率与欺诈行为显著正相关,速动比率、销售费用增长率、应收账款周转率、存货周转率和总资产周转率与欺诈行为没有显著的关系;
步骤33)基于随机森林的特征选择:每次随机选取一定数量的样本,未使用的样本被称为袋外样本OOB,通过袋外样本,可以评估这个树的准确度以及误差率,其他子树叶也同理;
步骤4)制定模型评价标准:构建评价模型的好坏的混淆矩阵以及评价指标;
步骤5)构建模型:选择分类器并对比分析,寻找最佳参数,具体为:
选取机器学习中三个已经被验证性能较好的分类器:支持向量机SVM、梯度提升树GBDT和人工神经网络ANN来建立模型,比较分析以及模型融合;
步骤33)中,基于随机森林的特征选择的具体方法如下:
针对某个特征X,利用Bagging法建立了一颗决策树T,然后用T对袋外样本OOB进行分类检测,得到袋外误差errOOB1
接着对袋外样本的特征X进行“随机扰乱”,也就是对特征X的取值赋予随机取的新数值,这时再用T对袋外样本进行分类检测,得到袋外误差errOOB2,这时对于T来说,特征X的重要性D=errOOB2-errOOB1
对随机森林中共N颗决策树做相同操作,可以得到N个特征X的重要性D,取其均值D(X)作为X的重要性度量,即
当给某个特征随机加入噪声之后,袋外的准确率会大幅度降低,也就是errOOB2的值将大幅提高,那么该特征的D(X)也会相应提高;换句话说,判断一个属性重要不重要,就是判断其值的改变对结果的影响程度;并选择重要性排序前五的变量作为模型的输入变量,依次是每股收益、资产负债率、净利润增长率、资产回报率和营业利润率;
步骤4)中,样本分类并构建混淆矩阵:所有样本按照其真实类别和分类器预测类别可以划分为四类:真正例TP:真实类别为欺诈公司,预测类别为欺诈公司;假正例FP:真实类别为非欺诈公司,预测类别为欺诈公司;
假负例FN:真实类别为欺诈公司,预测类别为非欺诈公司;
真负例TN:真实类别为非欺诈公司,预测类别为非欺诈公司;根据四种分类情况构建混淆矩阵;
步骤4)中,获得评价指标:通过混淆矩阵获得四个评价指:准确度Accuracy、精确度Precision、真正率TP rate和真负率TN rate,具体计算方式如下:
准确度计算了全部被分类正确的样本占总样本的比例,从整体上评价了模型的分类正确与否;精确度计算了被正确分类为欺诈公司的样本数量占全部被预测为欺诈公司的样本数量的例;TPR体现了将欺诈样本正确预测为欺诈样本的比例;TNR则是将非欺诈公司正确预测为非欺诈公司的比例;其中,TPR与TNR相比,显然是TPR更加重要;
步骤4)中,获得评价分类器分类效果的AUC的值:
AUC的全称是Area under the Curve of ROC,也就是ROC曲线下方的面积,ROC曲线基于混淆矩阵得出,以FPR为X轴,TPR为Y轴;AUC的值在0.5~1之间,值越大,则该分类器的分类效果就越好;
步骤5)中,所述支持向量机SVM:
首先考虑一个线性可分linearly separable的样本集合T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l
其中xi∈X=Rn,X为输入空间,xl是输入空间上的点,n为属性特征数,也就是样本空间的维度;对于每一个xl,都有n个属性与之对应;Y为xi的标签集合,即在二分类问题中,当xi属于类别1时,yi=+1,当xi属于类别2时,yi=-1;l为训练样本总数,yl为样本的类别标志;有圆形和方形两种类型的样本散落在空间中,假设存在最优分类超平面H可以将圆形和方形样本分开,H1和H2代表与超平面H平行的两个平面,并且经过两种类型样本中与超平面H距离最近样本点,他们之间的距离就叫做分类间隔,当分类间隔最大时,此时H达到最优超平面;设超平面的方程为:
是一个n维的权重向量,而b∈R是一个成为偏差bias的单一数值,等同于斜截式的截距项;所以对于所有样本的正确分类,等效于带约束条件的优化问题求解:
其中表示的是欧几里得范数Euclidean norm,也就是从原点到向量w的距离;
步骤5)中,所述梯度提升树GBDT:
在多分类问题中,假设有个类别,那么每一轮迭代实质是构建了棵树,对某个样本的预测值为f1(x),f2(x),…fk(x)之后使用SoftMax可以得到属于每一个类别的概率,此时该样本的loss即可以用logit loss来表示,并对所有类别f(x)的都可以算出一个梯度,即可以计算出当前轮的残差,供下一轮迭代学习;对回归问题的提升树进行说明,过程如下:
1.首先定义初始提升树:
f0(x)=0
2.那么第m步的模型:
fm(x)=fm-1(x)+T(x;Θ),m=1,2,…M
其中T(x;Θ)表示决策树,Θ为决策树的参数;
3.得到GBDT的最终模型:
其中M为树的个数;
GBDT每一轮训练时所关注的重点是本轮产生结果的残差,下一轮以本轮残差作为输入,尽量去拟合这个残差,使下一轮输出的残差不断变小;所以GBDT可以做到每一轮一定向损失函数减小的梯度方向变化;
步骤5)中,所述人工神经元网络ANN:
有向网络定义了树突dendrite的接入的输入信号变量x和输出信号变量y之间的关系;和生物的神经元是相同的,每个树突信号都会被冠以不同值的权重,即w值;细胞体会将输入信号进行求和,而后产生输出值,接着将这个输出值通过以f表示的激活函数activationfunction来输出;
因此,假设一个典型的人工神经元有n个输入的树突,那么用可以用下面这个公式来表达:
其中,权重w可以控制n个输入xi中的每个输入度输入信号之和所做贡献的大小;激活函数f(x)使用净总和,结果信号y(x)就是输出轴突;然后神经元之间互相连接,形成及其复杂并且无法理解规则的数据模型;虽然神经元的种类很多,但是每种神经元都可以由以下特点来描述:
(1)激活函数activation function,将上述的树突中输入信息进行转化,输出为单一的输出信号,这个信号将由神经网络传播到下一个神经元的树突里;
(2)网络拓扑结构network topology,表述了整个神经网络里的神经元的总量以及它们之间是如何相互连接的;
(3)训练算法training algorithm,描述了如何设定连接的权重,从而可以增减神经元的树突输入信号里的各数值比例;
其中,神经元激活函数是神经元网络之所以具有不同信息处理特性的核心原因;神经元激活函数有以下4种形式:
阈值形激活函数,也称为单位跳跃激活函数unit step activation function
S形激活函数sigmoid activation function,虽然它与阈值形激活函数有类似的“S”形状,但是输出的信号不再是跳跃的了,输出值是(0,1)区间内的任意值;
分段线性激活函数:
概率型激活函数:
其中T为梯度参数,t越小,函数越陡;
步骤5)中,所述比较分析与模型融合:根据选择的SVM、GBDT、ANN三种分类器,将样本公司按照7:3的比例分为训练集和测试集,将印象管理特征与财务变量分别在R语言中进行训练和测试,获得三种分类器在测试集上的分类结果,以确定印象管理特征或者财务变量能够作为财务欺诈识别模型中的特征补充;根据分类结果,再进行对比实验:将印象管理特征与财务变量结合、单独使用财务变量与模型融合,获得不同组合融合下的准确度值、精确度值;获得最佳参数的模型。
2.如权利要求1所述的基于识别学习建立财务欺诈识别模型的方法,其特征在于,步骤1)中,对于样本中缺失的数据,线性插补法进行填补;用观察法寻找数据集中与其他观测值差距较大的噪声,并通过人工检查的方式去除噪声;最后,对定量数据做标准化和中心化处理;从而初步建立的文本框架。
CN201911152139.7A 2019-11-22 2019-11-22 基于识别学习建立财务欺诈识别模型的方法 Active CN112949954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911152139.7A CN112949954B (zh) 2019-11-22 2019-11-22 基于识别学习建立财务欺诈识别模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911152139.7A CN112949954B (zh) 2019-11-22 2019-11-22 基于识别学习建立财务欺诈识别模型的方法

Publications (2)

Publication Number Publication Date
CN112949954A CN112949954A (zh) 2021-06-11
CN112949954B true CN112949954B (zh) 2023-11-07

Family

ID=76224756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911152139.7A Active CN112949954B (zh) 2019-11-22 2019-11-22 基于识别学习建立财务欺诈识别模型的方法

Country Status (1)

Country Link
CN (1) CN112949954B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743620A (zh) * 2021-08-02 2021-12-03 山东师范大学 一种基于机器学习的财务数据造假识别方法及系统
CN113705786B (zh) * 2021-08-26 2024-06-04 阿里巴巴(中国)有限公司 基于模型的数据处理方法、装置及存储介质
CN114880462A (zh) * 2022-02-25 2022-08-09 北京百度网讯科技有限公司 医用文档的分析方法、装置、设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678659A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统
CN105279691A (zh) * 2014-07-25 2016-01-27 中国银联股份有限公司 基于随机森林模型的金融交易检测方法和设备
CN106600423A (zh) * 2016-11-18 2017-04-26 云数信息科技(深圳)有限公司 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置
CN110276679A (zh) * 2019-05-23 2019-09-24 武汉大学 一种面向深度学习的网络个人信贷欺诈行为检测方法
CN110298741A (zh) * 2019-06-27 2019-10-01 广发证券股份有限公司 一种财务欺诈风险识别系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678659A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统
CN105279691A (zh) * 2014-07-25 2016-01-27 中国银联股份有限公司 基于随机森林模型的金融交易检测方法和设备
CN106600423A (zh) * 2016-11-18 2017-04-26 云数信息科技(深圳)有限公司 基于机器学习的车险数据处理方法、车险欺诈识别方法及装置
CN110276679A (zh) * 2019-05-23 2019-09-24 武汉大学 一种面向深度学习的网络个人信贷欺诈行为检测方法
CN110298741A (zh) * 2019-06-27 2019-10-01 广发证券股份有限公司 一种财务欺诈风险识别系统

Also Published As

Publication number Publication date
CN112949954A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112949954B (zh) 基于识别学习建立财务欺诈识别模型的方法
CN110084610A (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
Alden et al. Detection of financial statement fraud using evolutionary algorithms
CN110852881A (zh) 风险账户识别方法、装置、电子设备及介质
Abdou et al. Prediction of financial strength ratings using machine learning and conventional techniques
Tran et al. Credit scoring model: A combination of genetic programming and deep learning
US20210357729A1 (en) System and method for explaining the behavior of neural networks
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
Ardiansyah et al. Knowledge of extraction from trained neural network by using decision tree
Sawant et al. Study of Data Mining Techniques used for Financial Data Analysis
Tsai et al. Data pre-processing by genetic algorithms for bankruptcy prediction
CN111639688B (zh) 一种基于线性核svm的物联网智能模型的局部解释方法
Alzubaidi et al. Projection pursuit Random Forest using discriminant feature analysis model for churners prediction in telecom industry.
Altinbas et al. Improving the performance of statistical learning methods with a combined meta-heuristic for consumer credit risk assessment
Wang et al. Interpret neural networks by extracting critical subnetworks
CN117435982A (zh) 一种多维度快速识别网络水军的方法
Yazdani et al. Fuzzy classification method in credit risk
Wongchinsri et al. Sr-based binary classification in credit scoring
Lee Enterprise credit risk evaluation models: A review of current research trends
Nureni et al. Loan approval prediction based on machine learning approach
Lubis et al. Knn method on credit risk classification with binary particle swarm optimization based feature selection
CN115098674A (zh) 基于云erp供应链生态圈的生成对抗网络生成数据的方法
Ushio et al. The application of deep learning to predict corporate growth
Yang et al. An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity
Moradi et al. An application of support vector machines in bankruptcy prediction; Evidence from Iran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant