CN112767106B - 自动化审计方法、系统、计算机可读存储介质及审计设备 - Google Patents
自动化审计方法、系统、计算机可读存储介质及审计设备 Download PDFInfo
- Publication number
- CN112767106B CN112767106B CN202110048299.8A CN202110048299A CN112767106B CN 112767106 B CN112767106 B CN 112767106B CN 202110048299 A CN202110048299 A CN 202110048299A CN 112767106 B CN112767106 B CN 112767106B
- Authority
- CN
- China
- Prior art keywords
- data
- accounting
- abnormal
- branch network
- accounting document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002159 abnormal effect Effects 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims description 44
- 238000012550 audit Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,所述自动化审计方法包括:对会计凭证选取原始属性数据进行数据预处理;基于会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;从疑似会计凭证中获取异常会计凭证;基于异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,进行属性特征提取,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。
Description
技术领域
本发明属于神经网络技术领域,涉及一种审计方法和系统,特别是涉及一种自动化审计方法、系统、计算机可读存储介质及审计设备。
背景技术
大数据辅助智能审计可以大大提高审计的速度和质量,相关的机器学习算法主要分为无监督学习、有监督学习等。其中,无监督学习算法包括异聚类分析、异常值分析等,适用于没有标签数据的智能审计场景,它的分析结果的优化很大程度上依赖于领域专家的经验或规则的选择,准确度一般会在达到一定的水平后难于持续提升;有监督学习包括随机森林、AdaBoost和CNN、LSTM等深度神经网络,它适用于有标签数据的场景,优点在于随着数据量的增多,算法的准确率会不断提高。然而,大数据技术在推动智能审计领域快速发展的同时,也遇到了很多挑战:缺少样本标签、多类型数据输入、类别分布严重失衡等。
因此,如何提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,以解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡等缺陷,实已成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种自动化审计方法、系统、计算机可读存储介质及审计设备,用于解决现有技术出现的缺少样本标签、多类型数据输入、类别分布严重失衡问题。
为实现上述目的及其他相关目的,本发明一方面提供一种自动化审计方法,包括:对会计凭证选取原始属性数据进行数据预处理;
基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
于本发明的一实施例中,所述对无标签的会计凭证数据集进行检测,以生成疑似会计凭证的步骤包括:利用预存异常检测方式对无标签的会计凭证数据集进行检测。
于本发明的一实施例中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
于本发明的一实施例中,在基于所述异常会计凭证中选取原始属性数据进行分支网络的构建的步骤之前,所述自动化审计方法还包括:分别对文本型数据、类别型数据和数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
于本发明的一实施例中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层;利用用于模型训练的损失函数对已构建的神经网络进行模型训练,以获取异常会计凭证识别模型。
于本发明的一实施例中,所述将构建的分支网络进行模型训练,以获取异常会计凭证识别模型的步骤包括:利用用于模型训练的损失函数对连接的所述第一分支网络和所述第二分支网络进行模型训练;所述损失函数为代价敏感型损失函数。
于本发明的一实施例中,所述自动化审计方法还包括使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
本发明另一方面提供一种自动化审计系统,包括:预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;获取模块,用于从所述疑似会计凭证中获取异常会计凭证;处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
本发明又一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述自动化审计方法。
本发明最后一方面提供一种审计设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述审计设备执行所述自动化审计方法。
如上所述,本发明所述的自动化审计方法、系统、计算机可读存储介质及审计设备,具有以下有益效果:
本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。
附图说明
图1显示为本发明的自动化审计方法于一实施例中的流程示意图。
图2显示为本发明的S11的流程示意图。
图3显示为本发明的S15的流程示意图。
图4显示为本发明的自动化审计系统于一实施例中的原理结构示意图。
元件标号说明
4 自动化审计系统
41 检测模块
42 获取模块
43 处理模块
44 识别模块
45 评价模块
S11~S16 步骤
S131~S132 步骤
S141~S145 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
实施例一
本实施例提供一种自动化审计方法,其特征在于,包括:
对无标签的会计凭证数据集进行检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取,将构建的分支网络进行模型训练,以获取异常会计凭证识别模型;
将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
以下将结合图示对本实施例所提供的自动化审计方法进行详细描述。请参阅图1,显示为自动化审计方法于一实施例中的流程示意图。如图1所示,所述自动化审计方法具体包括以下几个步骤:
S11,对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
所述文本型数据于本实施例中包括分录摘要等数据。
所述类别型数据于本实施例中包括科目名称等数据。
所述数值型数据于本实施例中包括借方发生金额等数据。
请参阅图2,显示为S11的流程示意图。如图2所示,所述S13包括以下步骤:
S111,分别对文本型数据、类别型数据和数值型数据进行数据处理。
具体地,对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。
S112,对科目名称等类别型数据进行类别性编码,例如,进行One-Hot编码。
S113,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。
S12,基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。
在本实施例中,针对缺少样本标签问题,利用预存异常检测方式(例如,KNN、K-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以KNN异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。步骤S12采用无监督算法可以缩小审计范围,发现审计疑点。
S13,根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述S13为下述有监督算法提供数据标签。
S14,根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
具体地,根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;
根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用TF-IDF技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。
S15,基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。
请参阅图3,显示为S15的流程示意图。如图3所示,所述S15包括:
S151,将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。在本实施例中,所述第一分支网络为全连接分支网络。具体来说,需要构建输入层、隐含层和输出层,层与层之间的连接方式是全连接。其中,输入层节点数为输入属性的维度,隐含层的节点数在本实例中设置为10,输出层的节点数在本实例中设置为4。
S152,将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。在本实施例中,所述第二分支网络为基于attention机制的双向LSTM分支网络。长短期记忆(Long Short-Term Memory,简称LSTM))和attention机制可以有效提取特征,其主要思想是引入了自适应门控机制来控制细胞状态,使其记住需要长时间记忆的,忘记不重要的信息。LSTM有隐藏状态、细胞状态两个传输状态。通常来说,细胞状态改变得很慢,而隐藏状态的变化速度明显快于细胞状态,不同时刻的隐藏状态往往会有很大差异。LSTM通过遗忘门、输入门和输出门三个门控制细胞状态和隐藏状态。注意力机制最早在计算机视觉领域被提出来,它模仿人类的注意力机制,给图像不同的局部赋予不同的权重。
具体来说,需要构建Bi-LSTM输入层,Bi-LSTM隐含层,attention层,全连接层和输出层。其中,根据数据处理后的文本型数据(包括分录摘要)或会计凭证衍生关键词序列,确定Bi-LSTM输入层节点数目,Bi-LSTM隐含层的节点数在本实例中设置为64,隐含层的输出为H,根据下述公式可以得到attention机制的权重A和attention层的输出M。
A=softmax(Ws2tanh(Ws1HT))
M=AH
全连接层节点数在本实例中设置为30,输出层在本实例中设置为4。
S153,将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。
S154,对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。
所述代价敏感型损失函数表达式如下:
其中,表示样本i预测为异常会计凭证的概率yi代表样本i的真实类别,tneg表示将异常会计凭证预测为正常会计凭证的错分代价,tpos表示将正常会计凭证预测为异常会计凭证的错分代价。
其中,T表示超参数,dneg表示异常会计凭证在训练集中的总数,dpos表示正常会计凭证在训练集中的总数。
S155,利用用于模型训练的损失函数对S143构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。
S16,将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
S17,使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
在本实施例中,G-mean指标的计算公式如下:
其中,TN代表异常会计凭证被模型预测为异常会计凭证的数量;FP代表异常凭证被预测为正常会计凭证的数量;TP代表正常会计凭证被预测为正常会计凭证的数量;FN代表正常会计凭证被预测为异常会计凭证的数量。
在本实施例中,平均代价指标的计算公式如下:
本实施例所述自动化审计方法采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本实施例提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本实施例可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述自动化审计方法。
本领域普通技术人员可以理解计算机可读存储介质为:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
实施例二
本实施例提供一种自动化审计系统,包括:
预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;
检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
获取模块,用于从所述疑似会计凭证中获取异常会计凭证;
处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。以下将结合图示对本实施例所提供的自动化审计系统进行详细描述。请参阅图4,显示为自动化审计系统于一实施例中的原理结构示意图。如图4所示,所述自动化审计系统4包括预处理模块40、检测模块41、获取模块42、处理模块43、识别模块44及评价模块45。
所述预处理模块40用于对会计凭证选取原始属性数据进行数据预处理。在本实施例中,所述会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据。
所述文本型数据于本实施例中包括分录摘要等数据。
所述类别型数据于本实施例中包括科目名称等数据。
所述数值型数据于本实施例中包括借方发生金额等数据。
具体地,所述预处理模块40对分录摘要等文本数据进行分词、去除停用词处理,并采用word2vec模型进行词向量的训练,以生成适用于异常检测和分支网络的文本数据。对科目名称等类别型数据进行类别性编码,对借方发生金额等数值型数据进行数值区间化处理,例如,进行min-max标准化,z-score标准化等标准化处理。
所述检测模块41用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证。
在本实施例中,所述检测模块41针对缺少样本标签问题,利用预存异常检测方式(例如,KNN、K-means、孤立森林等异常检测算法)对无标签的会计凭证数据集进行检测。以KNN异常检测方式为例,针对每个会计凭证,选取最相似的k个会计凭证并计算距离,其中最大距离作为该会计凭证的异常得分。在此基础上,给出阈值,异常得分超出阈值的即为疑似会计凭证。所述检测模块41采用无监督算法可以缩小审计范围,发现审计疑点。
所述获取模块42用于从所述疑似会计凭证中获取异常会计凭证。
具体地,所述获取模块42用于根据预存异常会记凭证的特征信息,从所述疑似会计凭证中获取异常会计凭证。在本实施例中,所述所述获取模块42为下述处理模块和识别模块提供数据标签。
所述处理模块43用于根据审计先验知识,生成衍生特征;所述衍生特征包括和会计凭证衍生数值特征和会计凭证衍生关键词序列。
具体地,所述处理模块43根据审计先验知识,首先将所有凭证按照科目名称进行划分,并对不同科目名称的凭证按照时间顺序进行排序,并对不同年度与月份的“借方发生金额”进行统计,最后根据每条会计凭证的时间,生成“当年报销金额”和“当月报销金额”衍生数值特征;根据审计底稿,对审计底稿和会计凭证的“分录摘要”属性使用TF-IDF技术进行关键词提取,生成关键词列表。在此基础上,对照每条会计凭证的“分录摘要”分词形成的词列表,如果词语在关键词列表中出现,即保留;否则丢弃,最终针对每条会计凭证生成“衍生关键词序列”。
所述处理模块43还用于用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型。
具体地,所述处理模块43将数据处理后的类别型数据(包括科目名称)和数值型数据(包括借方发生金额)及会计凭证衍生数值特征(具体包括当年报销金额和当月报销金额)作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取。将数据处理后的文本型数据(包括分录摘要)及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取。将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层,其中节点数设置为1,激活函数选择sigmod函数。对传统的二分类交叉熵函数进行改进,使其变成用于模型训练的代价敏感型损失函数。利用用于模型训练的损失函数对构建的神经网络进行模型训练,以获取异常会计凭证识别模型;所述损失函数为代价敏感型损失函数。
所述识别模块44用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证。
所述评价模块45用于使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
在本实施例中,G-mean指标的计算公式如下:
其中,TN代表异常会计凭证被模型预测为异常会计凭证的数量;FP代表异常凭证被预测为正常会计凭证的数量;TP代表正常会计凭证被预测为正常会计凭证的数量;FN代表正常会计凭证被预测为异常会计凭证的数量。
在本实施例中,平均代价指标的计算公式如下:
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如:x模块可以为单独设立的处理元件,也可以集成在上述系统的某一个芯片中实现。此外,x模块也可以以程序代码的形式存储于上述系统的存储器中,由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),一个或多个微处理器(Digital Singnal Processor,简称DSP),一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。这些模块可以集成在一起,以片上系统(System-on-a-chip,简称SOC)的形式实现。
实施例三
本实施例提供一种审计设备,所述审计设备包括:处理器、存储器、收发器、通信接口或/和系统总线;存储器和通信接口通过系统总线与处理器和收发器连接并完成相互间的通信,存储器用于存储计算机程序,通信接口用于和其他设备进行通信,处理器和收发器用于运行计算机程序,使审计设备执行如上自动化审计方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明所述的自动化审计方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明还提供一种自动化审计系统,所述自动化审计系统可以实现本发明所述的自动化审计方法,但本发明所述的自动化审计方法的实现装置包括但不限于本实施例列举的自动化审计系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
综上所述,本发明采用无监督异常检测算法和核查标注的方式快速构建了审计数据集。另外,针对多类型输入和数据不均衡问题,本发明提出了一种结合先验知识的代价敏感型多分支神经网络进行异常会计凭证的识别,结果表明,该模型可以准确识别出所有的异常会计凭证,大大提高了审计效率和质量。同时,通过不断增加训练数据量、不断总结审计专家的先验知识,本发明可以实现算法性能的不断提升,真正意义上实现审计自动化,这在日益提高的审计监管要求,日益增加的审计工作量和审计频次的强监管环境中,具有重要意义。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (8)
1.一种自动化审计方法,其特征在于,包括:
对会计凭证选取原始属性数据进行数据预处理;
基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
从所述疑似会计凭证中获取异常会计凭证;
基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证;
其中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据;
分别对所述文本型数据、所述类别型数据和所述数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括会计凭证衍生数值特征和会计凭证衍生关键词序列;
其中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:
将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;
将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;
将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层。
2.根据权利要求1所述的自动化审计方法,其特征在于,对无标签的会计凭证数据集进行检测,以生成疑似会计凭证的步骤包括:
利用预存异常检测方式对无标签的会计凭证数据集进行检测。
3.根据权利要求1所述的自动化审计方法,其特征在于,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤还包括:
利用用于模型训练的损失函数对已构建的神经网络进行模型训练,以获取异常会计凭证识别模型。
4.根据权利要求3所述的自动化审计方法,其特征在于,将构建的分支网络进行模型训练,以获取异常会计凭证识别模型的步骤包括:
利用用于模型训练的损失函数对连接的所述第一分支网络和所述第二分支网络进行模型训练;所述损失函数为代价敏感型损失函数。
5.根据权利要求4所述的自动化审计方法,其特征在于,所述自动化审计方法还包括使用G-mean指标和平均代价指标对所述异常会计凭证识别模型进行模型评价。
6.一种自动化审计系统,其特征在于,包括:
预处理模块,用于对会计凭证选取原始属性数据进行数据预处理;
检测模块,用于基于所述会计凭证中选取原始属性数据进行异常检测,以生成疑似会计凭证;
获取模块,用于从所述疑似会计凭证中获取异常会计凭证;
处理模块,用于基于所述异常会计凭证中选取原始属性数据和衍生特征进行分支网络的构建,利用所构建的分支网络进行属性特征提取,并将分支网络进行连接,对整个神经网络进行模型训练,以获取异常会计凭证识别模型;
识别模块,用于将待审计的会计凭证数据输入至所述异常会计凭证识别模型,以识别出异常会计凭证;
其中,所述异常会计凭证中选取原始属性数据包括文本型数据、类别型数据和数值型数据;
分别对所述文本型数据、所述类别型数据和所述数值型数据进行数据处理,并根据审计先验知识,生成所述衍生特征;所述衍生特征包括会计凭证衍生数值特征和会计凭证衍生关键词序列;
其中,所述基于所述异常会计凭证中选取原始属性数据进行分支网络的构建,利用所构建的分支网络进行属性特征提取的步骤包括:
将数据处理后的类别型数据和数值型数据及会计凭证衍生数值特征作为输入,构建用于提取特征的第一分支网络,并利用所述第一分支网络进行特征提取;
将数据处理后的文本型数据及会计凭证衍生关键词序列作为输入,构建用于特征提取的第二分支网络,并利用所述第二分支网络进行特征提取;
将所述第一分支网络的输出层和所述第二分支网络的输出层进行连接,即将各分支网络输出的结果按照会计凭证进行堆叠,并在此基础上构建整个神经网络的输出层。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述自动化审计方法。
8.一种审计设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述审计设备执行如权利要求1至5中任一项所述自动化审计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110048299.8A CN112767106B (zh) | 2021-01-14 | 2021-01-14 | 自动化审计方法、系统、计算机可读存储介质及审计设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110048299.8A CN112767106B (zh) | 2021-01-14 | 2021-01-14 | 自动化审计方法、系统、计算机可读存储介质及审计设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112767106A CN112767106A (zh) | 2021-05-07 |
CN112767106B true CN112767106B (zh) | 2023-11-07 |
Family
ID=75700522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110048299.8A Active CN112767106B (zh) | 2021-01-14 | 2021-01-14 | 自动化审计方法、系统、计算机可读存储介质及审计设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112767106B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230102198A1 (en) * | 2021-09-30 | 2023-03-30 | Intuit Inc. | Artificial intelligence based compliance document processing |
CN115001814A (zh) * | 2022-05-31 | 2022-09-02 | 山西西电信息技术研究院有限公司 | 一种基于机器学习的安全审计方法及系统 |
CN115018607B (zh) * | 2022-07-01 | 2023-01-24 | 吉林工程技术师范学院 | 基于人工智能的会计数据处理方法及系统 |
CN117151906B (zh) * | 2023-08-15 | 2024-02-13 | 广东省地质调查院 | 一种基于关联网络搭建的财会审计监察协同监督方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109189889A (zh) * | 2018-09-10 | 2019-01-11 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN110047069A (zh) * | 2019-04-22 | 2019-07-23 | 北京青燕祥云科技有限公司 | 一种图像检测装置 |
CN110598851A (zh) * | 2019-08-29 | 2019-12-20 | 北京航空航天大学合肥创新研究院 | 一种融合lstm和gan的时间序列数据异常检测方法 |
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
CN110826702A (zh) * | 2019-11-18 | 2020-02-21 | 方玉明 | 一种多任务深度网络的异常事件检测方法 |
US10574512B1 (en) * | 2018-09-04 | 2020-02-25 | Cisco Technology, Inc. | Deep learning architecture for collaborative anomaly detection and explanation |
CN111314302A (zh) * | 2020-01-17 | 2020-06-19 | 山东超越数控电子股份有限公司 | 一种网络日志审计方法、设备和介质 |
CN111783829A (zh) * | 2020-05-29 | 2020-10-16 | 广发证券股份有限公司 | 一种基于多标签学习的财务异常检测方法及装置 |
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10686829B2 (en) * | 2016-09-05 | 2020-06-16 | Palo Alto Networks (Israel Analytics) Ltd. | Identifying changes in use of user credentials |
US12099571B2 (en) * | 2018-01-18 | 2024-09-24 | Ge Infrastructure Technology Llc | Feature extractions to model large-scale complex control systems |
-
2021
- 2021-01-14 CN CN202110048299.8A patent/CN112767106B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10574512B1 (en) * | 2018-09-04 | 2020-02-25 | Cisco Technology, Inc. | Deep learning architecture for collaborative anomaly detection and explanation |
CN109189889A (zh) * | 2018-09-10 | 2019-01-11 | 武汉斗鱼网络科技有限公司 | 一种弹幕识别模型建立方法、装置、服务器及介质 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN110047069A (zh) * | 2019-04-22 | 2019-07-23 | 北京青燕祥云科技有限公司 | 一种图像检测装置 |
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
CN110598851A (zh) * | 2019-08-29 | 2019-12-20 | 北京航空航天大学合肥创新研究院 | 一种融合lstm和gan的时间序列数据异常检测方法 |
CN110826702A (zh) * | 2019-11-18 | 2020-02-21 | 方玉明 | 一种多任务深度网络的异常事件检测方法 |
CN111314302A (zh) * | 2020-01-17 | 2020-06-19 | 山东超越数控电子股份有限公司 | 一种网络日志审计方法、设备和介质 |
CN111783829A (zh) * | 2020-05-29 | 2020-10-16 | 广发证券股份有限公司 | 一种基于多标签学习的财务异常检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
面向不平衡数据集的煤矿监测系统异常数据识别方法;冀汶莉;郗刘涛;王斌;;工矿自动化(01);21-28 * |
Also Published As
Publication number | Publication date |
---|---|
CN112767106A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767106B (zh) | 自动化审计方法、系统、计算机可读存储介质及审计设备 | |
CN109639739B (zh) | 一种基于自动编码器网络的异常流量检测方法 | |
CN111881983B (zh) | 基于分类模型的数据处理方法、装置、电子设备及介质 | |
US20200279105A1 (en) | Deep learning engine and methods for content and context aware data classification | |
CN111914090B (zh) | 一种企业行业分类识别及其特征污染物识别的方法及装置 | |
CN108427720A (zh) | 系统日志分类方法 | |
CN111626821A (zh) | 基于集成特征选择实现客户分类的产品推荐方法及系统 | |
CN112199536A (zh) | 一种基于跨模态的快速多标签图像分类方法和系统 | |
CN111539612B (zh) | 一种风险分类模型的训练方法和系统 | |
CN113807418A (zh) | 一种基于高斯混合模型的注塑机能耗异常检测方法及系统 | |
CN116451139B (zh) | 一种基于人工智能的直播数据快速分析方法 | |
CN116150698B (zh) | 一种基于语义信息融合的drg自动分组方法及系统 | |
CN115688101A (zh) | 一种基于深度学习的文件分类方法及装置 | |
CN117807481B (zh) | 故障识别方法、模型的训练方法、装置、设备以及介质 | |
CN116361788A (zh) | 一种基于机器学习的二进制软件漏洞预测方法 | |
CN116467141A (zh) | 日志识别模型训练、日志聚类方法和相关系统、设备 | |
CN118193274A (zh) | 分布式系统的异常处理方法、装置、设备及可读介质 | |
Zhong et al. | CAE‐WANN: A novel anomaly detection method for gas turbines via search space extension | |
CN112559741B (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
CN112257765A (zh) | 基于未知类相似类别集的零样本图像分类方法及系统 | |
Bodyanskiy et al. | Semantic annotation of text documents using evolving neural network based on principle “Neurons at Data Points” | |
Huang et al. | Subgraph generation applied in GraphSAGE deal with imbalanced node classification | |
CN114529191B (zh) | 用于风险识别的方法和装置 | |
Marges et al. | A method of semi-supervised learning using siamese neural network for disaster monitoring on philippine social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |