CN112241512A - 提升审计精度的方法及系统 - Google Patents

提升审计精度的方法及系统 Download PDF

Info

Publication number
CN112241512A
CN112241512A CN202011103618.2A CN202011103618A CN112241512A CN 112241512 A CN112241512 A CN 112241512A CN 202011103618 A CN202011103618 A CN 202011103618A CN 112241512 A CN112241512 A CN 112241512A
Authority
CN
China
Prior art keywords
data
normal distribution
distribution model
skewness
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011103618.2A
Other languages
English (en)
Inventor
王洪贺
孙永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN202011103618.2A priority Critical patent/CN112241512A/zh
Publication of CN112241512A publication Critical patent/CN112241512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据审计领域,具体涉及一种提升审计精度的方法及系统,解决了设计数据中出现的偏差,极大地提高了审计精度。提升审计精度的方法,包括:对数据进行预处理,确定审计数据;对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;根据清洗之后的数据建立正态分布模型并进行仿真;在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。本发明适用于提升审计精度。

Description

提升审计精度的方法及系统
技术领域
本发明涉及数据审计领域,具体涉及一种提升审计精度的方法及系统。
背景技术
在审计领域数据的录入的过程中,由于各种因素导致录数据可能出现异常,一般数据都是由业务人员凭借人工进行统计,简单分析,没有系统的数据分析方法。审计领域中现有的数据分析方法是依靠审计人员的经验进行人工检测,效率比较低下。而在其他有类似需求的领域,则是基于统计法的检验方法,但是由于审计领域的数据量非常大,首先需要根据需求对大量的数据进行分组,然后再对每组数据进行分析,而其他领域的分析方法并未考虑到审计领域的数据特征,所以难以应用在审计领域中。因此,引入机器学习针对审计系统进行数据分析,可以合理高效的利用审计系统数据,提炼有价值数据,增强审计系统时效性成为时代的主流。
在机器学习的众多算法中,统计分析是最基本的算法,包含许多重要的模型,为其他机器学习算法提供训练样本等,其中概率分布模型是统计分析中最重要的组成部分,正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,若随机变量服从一个位置参数、尺度参数为的概率分布,记为:则其概率密度函数为正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方或标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此又经常称之为钟形曲线。
审计系统采购信息记录物料价格是连续型变量,故排除离散型分布;经过基本的统计分析以及对业务场景的了解,判定同一物料的大部分采购信息价格处在均值附近,存在少量异常值,故排除均匀分布和指数分布。
正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
现有数据审计,仅仅依赖正态分布模型,只经过正态分布模型处理的数据,往往存在偏差,因此导致审计精度不高,图3为现有审计精度指标图,从图中看出其审计精度存在大量离散点。
发明内容
本发明的目的是提供一种提升审计精度的方法及系统,解决了设计数据中出现的偏差,极大地提高了审计精度。
本发明采取如下技术方案实现上述目的,提升审计精度的方法,包括:
步骤(1)、对数据进行预处理,确定审计数据;
步骤(2)、对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
步骤(3)、根据清洗之后的数据建立正态分布模型并进行仿真;
步骤(4)、在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
进一步的是,在步骤(2)中,异常值包括:人工录入的异常数据以及审计系统存在的异常数据。
进一步的是,在步骤(2)中,运用格拉布斯检验法剔除异常值的具体方法包括:
21、对原始审计数据进行异常值剔除以及异常离散值剔除;
22、剔除异常值及异常离散值后,确定审计数据中的最大值和最小值;
23、将最大值及最小值与审计数据均值差值最大的的值作为可疑值;
24、运用格拉布斯模型剔除可疑值,并进行二次格拉布斯模型异常值剔除。
进一步的是,在步骤(4)中,引入偏度模型修正正态分布模型的具体方法包括:
41A、获取正态分布模型处理后的审计数据;
42A、根据正态分布模型处理后的审计数据建立偏度模型;
43A、根据偏度模型分析审计数据偏度,若偏度大于零,则设定偏度值对正态分布模型进行修正;若偏度小于零,则采取剔除异常值之后进行二次正态分布模型运算;
44A、对正态分布模型进行偏度修正或二次正态分布模型运算后,根据仿真结果调整偏度系数,得到最优解。
进一步的是,在步骤44A中,得到最优审计数据的具体方法包括:根据仿真结果调整偏度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
进一步的是,在步骤(4)中,引入峰度模型修正正态分布模型的具体方法包括:
41B、获取正态分布模型处理后的审计数据;
42B、根据正态分布模型处理后的审计数据建立峰度模型;
43B、根据峰度模型分析审计数据峰度,根据审计数据峰度设定峰度值修正正态分布模型;
44B、对正态分布模型进行峰度修正后,根据仿真结果调整峰度系数,得到最优解。
进一步的是,在步骤44B中,得到最优审计数据的具体方法包括:根据仿真结果调整峰度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
提升审计精度的系统,包括:
数据预处理模块,用于对数据进行预处理,确定审计数据;
数据清洗模块,用于对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
仿真模块,用于根据清洗之后的数据建立正态分布模型并进行仿真;
修正模块,用于在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
本发明对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗,减少了数据的误差,然后再根据清洗后的数据建立正态分布模型并进行仿真,并在仿真过程中通过引入偏度以及峰度模型对已建立的正态分布模型进行修正,降低了数据出现的偏差,极大地提高了审计的精度。
附图说明
图1是本发明提升审计精度的方法的方法流程图。
图2是本发明提升审计精度的系统的结构框图。
图3是现有未优化的审计系统精度指标图。
图4是本发明对异常数据剔除优化后审计精度图。
图5是本发明经过偏度模型修正后审计精度图。
图6是本发明经过峰度模型修正后审计精度图。
具体实施方式
本发明提升审计精度的方法,其方法流程图如图1,包括:
步骤101、对数据进行预处理,确定审计数据;
步骤102、对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
步骤103、根据清洗之后的数据建立正态分布模型并进行仿真;
步骤104、在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
步骤102中,异常值包括:人工录入的异常数据以及审计系统存在的异常数据。
步骤102中,运用格拉布斯检验法剔除异常值的具体方法包括:
201、对原始审计数据进行异常值剔除以及异常离散值剔除;
202、剔除异常值及异常离散值后,确定审计数据中的最大值和最小值;
203、将最大值及最小值与审计数据均值差值最大的的值作为可疑值;
204、运用格拉布斯模型剔除可疑值,并进行二次格拉布斯模型异常值剔除。
步骤102中,运用格拉布斯检验法剔除异常值的具体方法可以称作3σ原则,通常利用3σ原则对审计数据进行首次优化或者数据清洗。
如图4,为采用3σ原则优化后的审计精度图,横坐标表示个数,纵坐标表示审计数据,采用3σ原则优化后,发现审计系统数据分析精准度从不到50%提升到60%。
步骤104,引入偏度模型修正正态分布模型的具体方法包括:
401A、获取正态分布模型处理后的审计数据;
402A、根据正态分布模型处理后的审计数据建立偏度模型;
403A、根据偏度模型分析审计数据偏度,若偏度大于零,则设定偏度值对正态分布模型进行修正;若偏度小于零,则采取剔除异常值之后进行二次正态分布模型运算;
404A、对正态分布模型进行偏度修正或二次正态分布模型运算后,根据仿真结果调整偏度系数,得到最优解。
步骤404A中,得到最优审计数据的具体方法包括:根据仿真结果调整偏度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
如图5,为引入偏度模型修正正态分布模型后,通过正态分布模型处理后得到的审计数据精度图,横坐标表示个数,纵坐标表示审计数据,采用偏度模型修正后,发现审计系统数据分析精准度从60%达到85%。
步骤104,引入峰度模型修正正态分布模型的具体方法包括:
401B、获取正态分布模型处理后的审计数据;
402B、根据正态分布模型处理后的审计数据建立峰度模型;
403B、根据峰度模型分析审计数据峰度,根据审计数据峰度设定峰度值修正正态分布模型;
404B、对正态分布模型进行峰度修正后,根据仿真结果调整峰度系数,得到最优解。
步骤404B中,得到最优审计数据的具体方法包括:根据仿真结果调整峰度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
如图6所示,为引入峰度模型修正正态分布模型后,通过正态分布模型处理后得到的审计数据精度图,横坐标表示个数,纵坐标表示审计数据,采用峰度模型修正后,发现审计系统数据分析精准度从85%达到90%。
本发明提升审计精度的系统,其结构框图如图2,数据清洗模块分别与数据预处理模块以及仿真模块连接,仿真模块与修正模块;
数据预处理模块,用于对数据进行预处理,确定审计数据;
数据清洗模块,用于对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
仿真模块,用于根据清洗之后的数据建立正态分布模型并进行仿真;
修正模块,用于在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
其中偏度,衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量。
具体计算公式:
Figure BDA0002726222800000051
其中SD代表标准差,
Figure BDA0002726222800000055
代表中位数,xi代表样本
这个统计量同样需要与正态分布相比较,偏度=0表示其数据分布形态与正态分布的偏斜程度相同;偏度>0表示其数据分布形态与正态分布相比为正偏(右偏),即有一条长尾巴拖在右边,数据右端有较多的极端值,数据均值右侧的离散程度强;偏度<0表示其数据分布形态与正态分布相比为负偏(左偏),即有一条长尾拖在左边,数据左端有较多的极端值,数据均值左侧的离散程度强,偏度的绝对值数值越大表示其分布形态的偏斜程度越大。
峰度,峰度是概率密度函数在均值处峰值高低的特征,通常定义四阶中心矩除以方差的平方减3。
具体计算公式:
Figure BDA0002726222800000052
Figure BDA0002726222800000053
也被称为超值峰度(excess Kurtosis)。“减3”是为了让正态分布的峰度为0,超值峰度为正,称为尖峰度(leptokurtic),超值峰度为负,称为低峰度(platykurtic)。
在具体实施例中,首先,根据审计系统采购信息记录数据进行基本数据统计,剔除异常数据,其次根据剔除异常值之后的数据进行正态分布模型建模,调整参数,
Figure BDA0002726222800000054
根据3σ确定区间,画出数据离散图,进行数据分析,之后建立偏度,峰度模型进行正态分布模型修正,提高审计系统数据分析精准度。
详细的技术方案实施步骤如下所述:
审计系统中采用偏度以及峰度模型优化修正正态分布模型,数据异常值处理之后获取所有采购信息记录。
第一步:确认选择一个月时间为时间区间,即20170101-20170131为一个区间,一共20个区间;
第二步:根据一个月时间区间,依据时间区间分析模型选择处在时间区间内的相同物料的采购信息记录;
第三步:确定时间区间内最小价格(min),根据最小价格计算每条记录的差价,差价比,计算所有差价比的均值、标准差,差价:时间区间内物料价格-最小价格,差价比b:差价/最小价格,均值p:差价比总和/差价比总个数n;标准差:
Figure BDA0002726222800000061
第四步:依据正态分布模型,均值+2*标准差(95.4%)作为预警离群值,均值+3*标准差(99.6%)作为熔断离群值;
依据数据离散程度,给定的熔断离群值不能超过时间区间内物料差价比最大值,特此选择偏度和峰度修正正态分布模型;
第五步:针对熔断离群值大于最大差价比的物料修正预警值和熔断值。
修正方法如下:
(1)计算时间区间内差价比的偏度和峰度;
(2)偏度>0.5,依据正态分布模型,采取最大差价比*0.95作为预警离群值,最大差价比*0.99作为熔断离群值;
其中偏度>0.5中0.5依据数据统计与经验值,0.95以及0.99依据正态分布模型均值+2标准差,均值+3标准差;
(3)偏度<-0.5,剔除差价比小于平均值的记录,其他记录重新计算均值,标准差,依据正态分布模型,给出预警离群值和熔断离群值;
说明偏度<-0.5依据数据统计与经验值,剔除差价比小于平均值的记录依据偏度和峰度模型。
综上所述,本发明解决了设计数据中出现的偏差,极大地提高了审计精度。

Claims (8)

1.提升审计精度的方法,其特征在于,包括:
步骤(1)、对数据进行预处理,确定审计数据;
步骤(2)、对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
步骤(3)、根据清洗之后的数据建立正态分布模型并进行仿真;
步骤(4)、在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
2.根据权利要求1所述的提升审计精度的方法,其特征在于,在步骤(2)中,异常值包括:人工录入的异常数据以及审计系统存在的异常数据。
3.根据权利要求1所述的提升审计精度的方法,其特征在于,在步骤(2)中,运用格拉布斯检验法剔除异常值的具体方法包括:
21、对原始审计数据进行异常值剔除以及异常离散值剔除;
22、剔除异常值及异常离散值后,确定审计数据中的最大值和最小值;
23、将最大值及最小值与审计数据均值差值最大的的值作为可疑值;
24、运用格拉布斯模型剔除可疑值,并进行二次格拉布斯模型异常值剔除。
4.根据权利要求1所述的提升审计精度的方法,其特征在于,在步骤(4)中,引入偏度模型修正正态分布模型的具体方法包括:
41A、获取正态分布模型处理后的审计数据;
42A、根据正态分布模型处理后的审计数据建立偏度模型;
43A、根据偏度模型分析审计数据偏度,若偏度大于零,则设定偏度值对正态分布模型进行修正;若偏度小于零,则采取剔除异常值之后进行二次正态分布模型运算;
44A、对正态分布模型进行偏度修正或二次正态分布模型运算后,根据仿真结果调整偏度系数,得到最优审计数据。
5.根据权利要求4所述的提升审计精度的方法,其特征在于,在步骤44A中,得到最优审计数据的具体方法包括:根据仿真结果调整偏度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
6.根据权利要求1所述的提升审计精度的方法,其特征在于,在步骤(4)中,引入峰度模型修正正态分布模型的具体方法包括:
41B、获取正态分布模型处理后的审计数据;
42B、根据正态分布模型处理后的审计数据建立峰度模型;
43B、根据峰度模型分析审计数据峰度,根据审计数据峰度设定峰度值修正正态分布模型;
44B、对正态分布模型进行峰度修正后,根据仿真结果调整峰度系数,得到最优审计数据。
7.根据权利要求6所述的提升审计精度的方法,其特征在于,在步骤44B中,得到最优审计数据的具体方法包括:根据仿真结果调整峰度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。
8.提升审计精度的系统,其特征在于,包括:
数据预处理模块,用于对数据进行预处理,确定审计数据;
数据清洗模块,用于对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;
仿真模块,用于根据清洗之后的数据建立正态分布模型并进行仿真;
修正模块,用于在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。
CN202011103618.2A 2020-10-15 2020-10-15 提升审计精度的方法及系统 Pending CN112241512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011103618.2A CN112241512A (zh) 2020-10-15 2020-10-15 提升审计精度的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011103618.2A CN112241512A (zh) 2020-10-15 2020-10-15 提升审计精度的方法及系统

Publications (1)

Publication Number Publication Date
CN112241512A true CN112241512A (zh) 2021-01-19

Family

ID=74168569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011103618.2A Pending CN112241512A (zh) 2020-10-15 2020-10-15 提升审计精度的方法及系统

Country Status (1)

Country Link
CN (1) CN112241512A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114295928A (zh) * 2022-03-09 2022-04-08 广州市保伦电子有限公司 一种校园电器故障检测方法、后台服务器及系统
CN116757885A (zh) * 2023-07-06 2023-09-15 北京中知智慧科技有限公司 一种企业知识产权维度评审系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法
CN109522309A (zh) * 2018-11-15 2019-03-26 四川长虹电器股份有限公司 一种基于审计系统采购信息记录异常值处理方法
CN109840805A (zh) * 2019-01-24 2019-06-04 四川长虹电器股份有限公司 一种基于正态分布模型的采购价格控制方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法
CN109522309A (zh) * 2018-11-15 2019-03-26 四川长虹电器股份有限公司 一种基于审计系统采购信息记录异常值处理方法
CN109840805A (zh) * 2019-01-24 2019-06-04 四川长虹电器股份有限公司 一种基于正态分布模型的采购价格控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈祺琳 等: "基于大数据技术构建嵌入式智能持续审计系统研究", 《中国内部审计》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114295928A (zh) * 2022-03-09 2022-04-08 广州市保伦电子有限公司 一种校园电器故障检测方法、后台服务器及系统
CN116757885A (zh) * 2023-07-06 2023-09-15 北京中知智慧科技有限公司 一种企业知识产权维度评审系统
CN116757885B (zh) * 2023-07-06 2024-04-23 北京中知智慧科技有限公司 一种企业知识产权维度评审系统

Similar Documents

Publication Publication Date Title
CN116186634B (zh) 一种建筑工程施工数据智能管理系统
CN106227906B (zh) 一种基于性能退化分析的智能制造装备可靠性的评估方法
JP4911055B2 (ja) バッチプロセスデータの解析装置およびそれを用いた異常検出/品質推定装置
JP2018151883A (ja) 解析装置、解析方法、及び、プログラム
JP2000517473A (ja) 単一ステップフィードバックによる統計的シミュレーションを用いて製造プロセスを監視かつ分析するためのシステム
CN112241512A (zh) 提升审计精度的方法及系统
CN107622801A (zh) 疾病概率的检测方法和装置
CN110442911B (zh) 一种基于统计机器学习的高维复杂系统不确定性分析方法
CN109815855B (zh) 一种基于机器学习的电子设备自动测试方法及系统
CN112365361A (zh) 一种基于规则库的电力计量数据质量体检方法
CN102779333A (zh) 一种基于卡尔曼滤波的光学影像复原方法
CN117556366B (zh) 基于数据筛选的数据异常检测系统及方法
CN115860510A (zh) 一种基于大数据的生产效率分析评估方法
CN112907026A (zh) 一种基于可编辑网状指标体系的综合评估方法
CN112651119A (zh) 一种空间谐波减速器多性能参数加速退化试验评估方法
CN116858999A (zh) 基于红树林生态系统碳汇潜力监测评估的碳汇统计方法
JP2005092466A (ja) 診断プロセス支援方法とそのためのプログラム
CN112925984A (zh) 一种基于gcn推荐的样本密度聚合方法
CN110705132B (zh) 一种基于多源异质数据的制导控制系统性能融合评估方法
CN108830444A (zh) 一种探空观测数据的评估和修正方法及装置
CN116719714A (zh) 一种测试用例的筛选模型的训练方法及相应的装置
Bala et al. Use of the multiple imputation strategy to deal with missing data in the ISBSG repository
CN110196797A (zh) 适于信用评分卡系统的自动优化方法和系统
CN115130546A (zh) 异常参数检测方法、装置、计算机可读介质及电子设备
CN112732773B (zh) 一种继电保护缺陷数据的唯一性校核方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210119

RJ01 Rejection of invention patent application after publication