CN112767106B - 自动化审计方法、系统、计算机可读存储介质及审计设备 - Google Patents

自动化审计方法、系统、计算机可读存储介质及审计设备 Download PDF

Info

Publication number
CN112767106B
CN112767106B CN202110048299.8A CN202110048299A CN112767106B CN 112767106 B CN112767106 B CN 112767106B CN 202110048299 A CN202110048299 A CN 202110048299A CN 112767106 B CN112767106 B CN 112767106B
Authority
CN
China
Prior art keywords
data
accounting
abnormal
branch network
accounting document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110048299.8A
Other languages
English (en)
Other versions
CN112767106A (zh
Inventor
宁德军
王煜
沈建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Advanced Research Institute of CAS
Original Assignee
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Advanced Research Institute of CAS filed Critical Shanghai Advanced Research Institute of CAS
Priority to CN202110048299.8A priority Critical patent/CN112767106B/zh
Publication of CN112767106A publication Critical patent/CN112767106A/zh
Application granted granted Critical
Publication of CN112767106B publication Critical patent/CN112767106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,所述自动化审计方法包括:对会计凭证选取原始属性数据进行数据预处理;基于会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;从疑似会计凭证中获取异常会计凭证;基于异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,进行属性特征提取,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。

Description

自动化审计方法、系统、计算机可读存储介质及审计设备
技术领域
本发明属于神经网络技术领域,涉及一种审计方法和系统,特别是涉及一种自动化审计方法、系统、计算机可读存储介质及审计设备。
背景技术
大数据辅助智能审计可以大大提高审计的速度和质量,相关的机器学习算法主要分为无监督学习、有监督学习等。其中,无监督学习算法包括异聚类分析、异常值分析等,适用于没有标签数据的智能审计场景,它的分析结果的优化很大程度上依赖于领域专家的经验或规则的选择,准确度一般会在达到一定的水平后难于持续提升;有监督学习包括随机森林、AdaBoost和CNN、LSTM等深度神经网络,它适用于有标签数据的场景,优点在于随着数据量的增多,算法的准确率会不断提高。然而,大数据技术在推动智能审计领域快速发展的同时,也遇到了很多挑战:缺少样本标签、多类型数据输入、类别分布严重失衡等。
因此,如何提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,以解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡等缺陷,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,用于解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡问题。
为实现上述目的及其他相关目的,本发明一方面提供一种自动化审计方法,包括:对会计凭证选取原始属性数据进行数据预处理;
基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
于本发明的一实施例中,所述对无标签的会计凭证数据集进行检测,以生成疑似会计凭证的步骤包括:利用预存异常检测方式对无标签的会计凭证数据集进行检测。
于本发明的一实施例中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
于本发明的一实施例中,在基于所述异常会计凭证中选取原始属性数据进行分支网络的构建的步骤之前,所述自动化审计方法还包括:分别对文本型数据、类别型数据和数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
于本发明的一实施例中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层;利用用于模型训练的损失函数对已构建的神经网络进行模型训练,以获取异常会计凭证识别模型。
于本发明的一实施例中,所述将构建的分支网络进行模型训练,以获取异常会计凭证识别模型的步骤包括:利用用于模型训练的损失函数对连接的所述第一分支网络和所述第二分支网络进行模型训练;所述损失函数为代价敏感型损失函数。
于本发明的一实施例中,所述自动化审计方法还包括使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
本发明另一方面提供一种自动化审计系统,包括:预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;获取模块,用于从所述疑似会计凭证中获取异常会计凭证;处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述自动化审计方法。
本发明最后一方面提供一种审计设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述审计设备执行所述自动化审计方法。
如上所述,本发明所述的自动化审计方法、系统、计算机可读存储介质及审计设备,具有以下有益效果:
本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。
附图说明
图1显示为本发明的自动化审计方法于一实施例中的流程示意图。
图2显示为本发明的S11的流程示意图。
图3显示为本发明的S15的流程示意图。
图4显示为本发明的自动化审计系统于一实施例中的原理结构示意图。
元件标号说明
4 自动化审计系统
41 检测模块
42 获取模块
43 处理模块
44 识别模块
45 评价模块
S11~S16 步骤
S131~S132 步骤
S141~S145 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种自动化审计方法,其特征在于,包括:
对无标签的会计凭证数据集进行检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取,将构建的分支网络进行模型训练,以获取异常会计凭证识别模型;
将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
以下将结合图示对本实施例所提供的自动化审计方法进行详细描述。请参阅图1,显示为自动化审计方法于一实施例中的流程示意图。如图1所示,所述自动化审计方法具体包括以下几个步骤:
S11,对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
所述文本型数据于本实施例中包括分录摘要等数据。
所述类别型数据于本实施例中包括科目名称等数据。
所述数值型数据于本实施例中包括借方发生金额等数据。
请参阅图2,显示为S11的流程示意图。如图2所示,所述S13包括以下步骤:
S111,分别对文本型数据、类别型数据和数值型数据进行数据处理。
具体地,对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。
S112,对科目名称等类别型数据进行类别性编码,例如,进行One-Hot编码。
S113,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。
S12,基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。
在本实施例中,针对缺少样本标签问题,利用预存异常检测方式(例如,KNN、K-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以KNN异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。步骤S12采用无监督算法可以缩小审计范围,发现审计疑点。
S13,根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述S13为下述有监督算法提供数据标签。
S14,根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
具体地,根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;
根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用TF-IDF技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。
S15,基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。
请参阅图3,显示为S15的流程示意图。如图3所示,所述S15包括:
S151,将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。在本实施例中,所述第一分支网络为全连接分支网络。具体来说,需要构建输入层、隐含层和输出层,层与层之间的连接方式是全连接。其中,输入层节点数为输入属性的维度,隐含层的节点数在本实例中设置为10,输出层的节点数在本实例中设置为4。
S152,将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。在本实施例中,所述第二分支网络为基于attention机制的双向LSTM分支网络。长短期记忆(Long Short-Term Memory,简称LSTM))和attention机制可以有效提取特征,其主要思想是引入了自适应门控机制来控制细胞状态,使其记住需要长时间记忆的,忘记不重要的信息。LSTM有隐藏状态、细胞状态两个传输状态。通常来说,细胞状态改变得很慢,而隐藏状态的变化速度明显快于细胞状态,不同时刻的隐藏状态往往会有很大差异。LSTM通过遗忘门、输入门和输出门三个门控制细胞状态和隐藏状态。注意力机制最早在计算机视觉领域被提出来,它模仿人类的注意力机制,给图像不同的局部赋予不同的权重。
具体来说,需要构建Bi-LSTM输入层,Bi-LSTM隐含层,attention层,全连接层和输出层。其中,根据数据处理后的文本型数据(包括分录摘要)或会计凭证衍生关键词序列,确定Bi-LSTM输入层节点数目,Bi-LSTM隐含层的节点数在本实例中设置为64,隐含层的输出为H,根据下述公式可以得到attention机制的权重A和attention层的输出M。
A=softmax(Ws2tanh(Ws1HT))
M=AH
全连接层节点数在本实例中设置为30,输出层在本实例中设置为4。
S153,将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。
S154,对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。
所述代价敏感型损失函数表达式如下:
其中,表示样本i预测为异常会计凭证的概率yi代表样本i的真实类别,tneg表示将异常会计凭证预测为正常会计凭证的错分代价,tpos表示将正常会计凭证预测为异常会计凭证的错分代价。
其中,T表示超参数,dneg表示异常会计凭证在训练集中的总数,dpos表示正常会计凭证在训练集中的总数。
S155,利用用于模型训练的损失函数对S143构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。
S16,将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
S17,使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
在本实施例中,G-mean指标的计算公式如下:
其中,TN代表异常会计凭证被模型预测为异常会计凭证的数量;FP代表异常凭证被预测为正常会计凭证的数量;TP代表正常会计凭证被预测为正常会计凭证的数量;FN代表正常会计凭证被预测为异常会计凭证的数量。
在本实施例中,平均代价指标的计算公式如下:
本实施例所述自动化审计方法采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本实施例提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本实施例可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述自动化审计方法。
本领域普通技术人员可以理解计算机可读存储介质为:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例二
本实施例提供一种自动化审计系统,包括:
预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;
检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
获取模块,用于从所述疑似会计凭证中获取异常会计凭证;
处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。以下将结合图示对本实施例所提供的自动化审计系统进行详细描述。请参阅图4,显示为自动化审计系统于一实施例中的原理结构示意图。如图4所示,所述自动化审计系统4包括预处理模块40、检测模块41、获取模块42、处理模块43、识别模块44及评价模块45。
所述预处理模块40用于对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
所述文本型数据于本实施例中包括分录摘要等数据。
所述类别型数据于本实施例中包括科目名称等数据。
所述数值型数据于本实施例中包括借方发生金额等数据。
具体地,所述预处理模块40对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。对科目名称等类别型数据进行类别性编码,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。
所述检测模块41用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。
在本实施例中,所述检测模块41针对缺少样本标签问题,利用预存异常检测方式(例如,KNN、K-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以KNN异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。所述检测模块41采用无监督算法可以缩小审计范围,发现审计疑点。
所述获取模块42用于从所述疑似会计凭证中获取异常会计凭证。
具体地,所述获取模块42用于根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述所述获取模块42为下述处理模块和识别模块提供数据标签。
所述处理模块43用于根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
具体地,所述处理模块43根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用TF-IDF技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。
所述处理模块43还用于用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。
具体地,所述处理模块43将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。利用用于模型训练的损失函数对构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。
所述识别模块44用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
所述评价模块45用于使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
在本实施例中,G-mean指标的计算公式如下:
其中,TN代表异常会计凭证被模型预测为异常会计凭证的数量;FP代表异常凭证被预测为正常会计凭证的数量;TP代表正常会计凭证被预测为正常会计凭证的数量;FN代表正常会计凭证被预测为异常会计凭证的数量。
在本实施例中,平均代价指标的计算公式如下:
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,x模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个微处理器(Digital Singnal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
实施例三
本实施例提供一种审计设备,所述审计设备包括:处理器、存储器、收发器、通信接口或/和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使审计设备执行如上自动化审计方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明所述的自动化审计方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明还提供一种自动化审计系统,所述自动化审计系统可以实现本发明所述的自动化审计方法,但本发明所述的自动化审计方法的实现装置包括但不限于本实施例列举的自动化审计系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种自动化审计方法,其特征在于,包括:
对会计凭证选取原始属性数据进行数据预处理;
基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证;
其中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据;
分别对所述文本型数据、所述类别型数据和所述数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括会计凭证衍生数值特征和会计凭证衍生关键词序列;
其中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:
将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;
将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;
将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层。
2.根据权利要求1所述的自动化审计方法,其特征在于,对无标签的会计凭证数据集进行检测,以生成疑似会计凭证的步骤包括:
利用预存异常检测方式对无标签的会计凭证数据集进行检测。
3.根据权利要求1所述的自动化审计方法,其特征在于,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤还包括:
利用用于模型训练的损失函数对已构建的神经网络进行模型训练,以获取异常会计凭证识别模型。
4.根据权利要求3所述的自动化审计方法,其特征在于,将构建的分支网络进行模型训练,以获取异常会计凭证识别模型的步骤包括:
利用用于模型训练的损失函数对连接的所述第一分支网络和所述第二分支网络进行模型训练;所述损失函数为代价敏感型损失函数。
5.根据权利要求4所述的自动化审计方法,其特征在于,所述自动化审计方法还包括使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
6.一种自动化审计系统,其特征在于,包括:
预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;
检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
获取模块,用于从所述疑似会计凭证中获取异常会计凭证;
处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证;
其中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据;
分别对所述文本型数据、所述类别型数据和所述数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括会计凭证衍生数值特征和会计凭证衍生关键词序列;
其中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:
将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;
将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;
将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述自动化审计方法。
8.一种审计设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述审计设备执行如权利要求1至5中任一项所述自动化审计方法。
CN202110048299.8A 2021-01-14 2021-01-14 自动化审计方法、系统、计算机可读存储介质及审计设备 Active CN112767106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110048299.8A CN112767106B (zh) 2021-01-14 2021-01-14 自动化审计方法、系统、计算机可读存储介质及审计设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110048299.8A CN112767106B (zh) 2021-01-14 2021-01-14 自动化审计方法、系统、计算机可读存储介质及审计设备

Publications (2)

Publication Number Publication Date
CN112767106A CN112767106A (zh) 2021-05-07
CN112767106B true CN112767106B (zh) 2023-11-07

Family

ID=75700522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110048299.8A Active CN112767106B (zh) 2021-01-14 2021-01-14 自动化审计方法、系统、计算机可读存储介质及审计设备

Country Status (1)

Country Link
CN (1) CN112767106B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230102198A1 (en) * 2021-09-30 2023-03-30 Intuit Inc. Artificial intelligence based compliance document processing
CN115001814A (zh) * 2022-05-31 2022-09-02 山西西电信息技术研究院有限公司 一种基于机器学习的安全审计方法及系统
CN115018607B (zh) * 2022-07-01 2023-01-24 吉林工程技术师范学院 基于人工智能的会计数据处理方法及系统
CN117151906B (zh) * 2023-08-15 2024-02-13 广东省地质调查院 一种基于关联网络搭建的财会审计监察协同监督方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189889A (zh) * 2018-09-10 2019-01-11 武汉斗鱼网络科技有限公司 一种弹幕识别模型建立方法、装置、服务器及介质
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN110047069A (zh) * 2019-04-22 2019-07-23 北京青燕祥云科技有限公司 一种图像检测装置
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN110674677A (zh) * 2019-08-06 2020-01-10 厦门大学 一种多模态多层融合的用于人脸反欺骗的深度神经网络
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法
US10574512B1 (en) * 2018-09-04 2020-02-25 Cisco Technology, Inc. Deep learning architecture for collaborative anomaly detection and explanation
CN111314302A (zh) * 2020-01-17 2020-06-19 山东超越数控电子股份有限公司 一种网络日志审计方法、设备和介质
CN111783829A (zh) * 2020-05-29 2020-10-16 广发证券股份有限公司 一种基于多标签学习的财务异常检测方法及装置
WO2020252919A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10686829B2 (en) * 2016-09-05 2020-06-16 Palo Alto Networks (Israel Analytics) Ltd. Identifying changes in use of user credentials
US12099571B2 (en) * 2018-01-18 2024-09-24 Ge Infrastructure Technology Llc Feature extractions to model large-scale complex control systems

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10574512B1 (en) * 2018-09-04 2020-02-25 Cisco Technology, Inc. Deep learning architecture for collaborative anomaly detection and explanation
CN109189889A (zh) * 2018-09-10 2019-01-11 武汉斗鱼网络科技有限公司 一种弹幕识别模型建立方法、装置、服务器及介质
CN109657947A (zh) * 2018-12-06 2019-04-19 西安交通大学 一种面向企业行业分类的异常检测方法
CN110047069A (zh) * 2019-04-22 2019-07-23 北京青燕祥云科技有限公司 一种图像检测装置
WO2020252919A1 (zh) * 2019-06-20 2020-12-24 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
CN110674677A (zh) * 2019-08-06 2020-01-10 厦门大学 一种多模态多层融合的用于人脸反欺骗的深度神经网络
CN110598851A (zh) * 2019-08-29 2019-12-20 北京航空航天大学合肥创新研究院 一种融合lstm和gan的时间序列数据异常检测方法
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法
CN111314302A (zh) * 2020-01-17 2020-06-19 山东超越数控电子股份有限公司 一种网络日志审计方法、设备和介质
CN111783829A (zh) * 2020-05-29 2020-10-16 广发证券股份有限公司 一种基于多标签学习的财务异常检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向不平衡数据集的煤矿监测系统异常数据识别方法;冀汶莉;郗刘涛;王斌;;工矿自动化(01);21-28 *

Also Published As

Publication number Publication date
CN112767106A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112767106B (zh) 自动化审计方法、系统、计算机可读存储介质及审计设备
CN109639739B (zh) 一种基于自动编码器网络的异常流量检测方法
CN111881983B (zh) 基于分类模型的数据处理方法、装置、电子设备及介质
US20200279105A1 (en) Deep learning engine and methods for content and context aware data classification
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN108427720A (zh) 系统日志分类方法
CN111626821A (zh) 基于集成特征选择实现客户分类的产品推荐方法及系统
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
CN111539612B (zh) 一种风险分类模型的训练方法和系统
CN113807418A (zh) 一种基于高斯混合模型的注塑机能耗异常检测方法及系统
CN116451139B (zh) 一种基于人工智能的直播数据快速分析方法
CN116150698B (zh) 一种基于语义信息融合的drg自动分组方法及系统
CN115688101A (zh) 一种基于深度学习的文件分类方法及装置
CN117807481B (zh) 故障识别方法、模型的训练方法、装置、设备以及介质
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN116467141A (zh) 日志识别模型训练、日志聚类方法和相关系统、设备
CN118193274A (zh) 分布式系统的异常处理方法、装置、设备及可读介质
Zhong et al. CAE‐WANN: A novel anomaly detection method for gas turbines via search space extension
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
Gao et al. An improved XGBoost based on weighted column subsampling for object classification
CN112257765A (zh) 基于未知类相似类别集的零样本图像分类方法及系统
Bodyanskiy et al. Semantic annotation of text documents using evolving neural network based on principle “Neurons at Data Points”
Huang et al. Subgraph generation applied in GraphSAGE deal with imbalanced node classification
CN114529191B (zh) 用于风险识别的方法和装置
Marges et al. A method of semi-supervised learning using siamese neural network for disaster monitoring on philippine social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant