CN109522309A - 一种基于审计系统采购信息记录异常值处理方法 - Google Patents
一种基于审计系统采购信息记录异常值处理方法 Download PDFInfo
- Publication number
- CN109522309A CN109522309A CN201811360480.7A CN201811360480A CN109522309A CN 109522309 A CN109522309 A CN 109522309A CN 201811360480 A CN201811360480 A CN 201811360480A CN 109522309 A CN109522309 A CN 109522309A
- Authority
- CN
- China
- Prior art keywords
- value
- data
- group
- information recording
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000007689 inspection Methods 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 5
- FNMKZDDKPDBYJM-UHFFFAOYSA-N 3-(1,3-benzodioxol-5-yl)-7-(3-methylbut-2-enoxy)chromen-4-one Chemical compound C1=C2OCOC2=CC(C2=COC=3C(C2=O)=CC=C(C=3)OCC=C(C)C)=C1 FNMKZDDKPDBYJM-UHFFFAOYSA-N 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 19
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000000528 statistical test Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 238000012550 audit Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 241000201421 Xiphinema index Species 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于审计系统采购信息记录异常值处理方法,包括步骤1:编写格拉布斯法检验函数;步骤2:通过读取指令读取文本数据;步骤3:对步骤2所读取到的数据进行预处理;步骤4:根据需求通过group_by命令对步骤3所得的数据进行分组;步骤5:将步骤4所得的每组数据作为输入,然后调用步骤1编写的格拉布斯法检验函数标记或删除异常值;步骤6:将步骤5所得的最终数据保存为文本文档。通过比较各种计算机语言与各种统计检验法的优缺点后,选择了Python语言作为编程语言,格拉布斯法作为数据检测方法。在数据分组过程中,利用group_by命令进行快速的分组,并且在此基础上对每组数据进行检验,极大的提高了工作效率,节省了人力与物力资源。
Description
技术领域
本发明涉及审计技术领域,具体的说,是一种基于审计系统采购信息记录异常值处理方法。
背景技术
审计是由国家授权或接受委托的专职机构和人员,依照国家法规、审计准则和会计理论,运用专门的方法,对被审计单位的财政、财务收支、经营管理活动及其相关资料的真实性、正确性、合规性、合法性、效益性进行审查和监督,评价经济责任,鉴证经济业务,用以维护财经法纪、改善经营管理、提高经济效益的一项独立性的经济监督活动。
在审计领域数据的录入的过程中,由于各种因素导致录数据可能出现异常,为了不影响后续的数据分析等工作,需要检验处理数据中可能存在的异常值。审计领域中现有的异常值检验方法是依靠审计人员的经验进行人工检测,效率比较低下。而在其他有类似需求的领域,则有基于统计检验法的异常值检验方法,但是由于审计领域的数据量可能非常大,首先需要根据需求对大量的数据进行分组,然后再对每组数据进行异常检测,而其他领域的异常值检测方法并未考虑到审计领域的数据特征,所以难以应用在审计领域中。
发明内容
本发明的目的在于提供一种基于审计系统采购信息记录异常值处理方法,用于解决现有技术中靠审计人员的经验进行人工检测异常值而导致效率低下的问题。
本发明通过下述技术方案解决上述问题:
一种基于审计系统采购信息记录异常值处理方法,包括如下步骤:
步骤1:编写格拉布斯法检验函数;
步骤2:通过读取指令读取文本数据;
步骤3:对步骤2所读取到的数据进行预处理;
步骤4:根据需求对步骤3所得的数据进行分组;
步骤5:将步骤4所得的每组数据作为输入,然后调用步骤1编写的格拉布斯法检验函数标记或删除异常值;
步骤6:将步骤5所得的最终数据保存为文本文档。
针对计算机语言的选择,由于Python语言相对于其他语言来说,具有数据分析工具集完整、语言功能健全、方便对接其他语言、市场占有率高等优点,所以选择了其作为本发明的开发语言,通过本发明提出的方法,可以用对所有的数据进行快速的分组预处理,然后步骤1所编写的格拉布斯法检验函数对分组后的数据进行检验,标记或者删除异常值,可以得到异常值及其索引,最后将所有最终数据再保存为文本文档,从文本数据的读取,到数据最后检验,再保存为文本文档,数据的格式并未发生变化,而且所有的分组过程,以及检验过程都不再需要人工完成,极大的提高了工作效率,节省了人力与物力资源。
优选地,所述步骤1编写的格拉布斯法检验函数的步骤包括:
步骤1.1:将数据按从小到大的顺序排列;
步骤1.2:计算步骤1.1所得数据的平均值、标准差和偏离值,所述偏离值为最大值与均值的差值和最小值与均值的差值;
步骤1.3:确定一个可疑值,如果最大值与均值的差值大于最小值与均值的差值,则最大值为可疑值,反之则最小值为可疑值;
步骤1,4:根据公式Gi=(xi-u)/s计算Gi值,其中u为均值,s为标准差,xi为样本数据;
步骤1.5:定检出水平α,置信概率P,默认P=0.95,其中0.95为经验值;
步骤1.6:查格拉布斯表获得临界值,并比较Gi值和临界值差异;
步骤1.7:判定是否为异常;
步骤1.8:是否进行多次异常判断,如果是则重复步骤1.1到步骤1.7,反之则输出异常值及其索引。
通过使用本步骤所编写的格拉布斯检验函数,可以快速的标记或删除异常值,得到异常值和它的索引,极大的提高了审计领域中异常值检测的效率和准确度,解决了现有人工检验方法效率低下的问题,弥补了审计领域没有统计检验法的不足。
优选地,所述步骤3中的预处理包括用describe()命令查看数值型数据的数据条数、平均值、方差和最大最小值;用value_counts()命令查看值为str类型的数量;用df[df.isnull().values]命令查看缺失值所在行的所有数据,并且对缺失值进行处理,通过预处理过后直接排查了数据的明显缺失以及错误,能够明显的提升工作效率,并且所有缺失值并不影响检验异常值。
优选地,所述步骤4对数据进行分组时,通过group_by命令对数据进行分组,分组速度快,并且分组过后可以排除掉可以不用进行格拉布斯法检验的数据,可以节省大量时间。
本发明与现有技术相比,具有以下优点及有益效果:
(1)本发明极大的提高了审计领域中异常值检测的效率和准确度,解决了现有人工检验方法效率低下的问题,弥补了审计领域没有统计检验法的不足。
(2)本发明通过比较各种计算机语言与各种统计检验法的优缺点后,选择了Python语言作为编程语言,格拉布斯法作为数据检测方法。在数据分组过程中,利用group_by命令进行快速的分组,并且在此基础上对每组数据进行检验,极大的提高了工作效率,节省了人力与物力资源。
(3)本发明采用Python语言进行相应程序的编写,由于Python语言相对于其他语言来说,具有数据分析工具集完整、语言功能健全、方便对接其他语言、市场占有率高等优点,所以选择了其作为本发明的开发语言,适用范围更广。
附图说明
图1为本发明的格拉布斯检验法流程图;
图2为本发明的异常值检验的总体流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种基于审计系统采购信息记录异常值处理方法,包括如下步骤:
步骤1:编写格拉布斯法检验函数,如附图2所示,包括如下步骤:
步骤1.1:将数据按从小到大的顺序排列;
步骤1.2:计算步骤1.1所得数据的平均值、标准差和偏离值,所述偏离值为最大值与均值的差值和最小值与均值的差值;
步骤1.3:确定一个可疑值,如果最大值与均值的差值大于最小值与均值的差值,则最大值为可疑值,反之则最小值为可疑值;
步骤1,4:根据公式Gi=(xi-u)/s计算Gi值,其中u为均值,s为标准差,xi为样本数据;
步骤1.5:定检出水平α,置信概率P,默认P=0.95,其中0.95为经验值;
步骤1.6:查格拉布斯表获得临界值,并比较Gi值和临界值差异,格拉布斯临界值表如下所示:
步骤1.7:判定是否为异常;
步骤1.8:是否进行多次异常判断,如果是则重复步骤1.1到步骤1.7,反之则输出异常值及其索引。
步骤2:通过读取指令读取文本数据;
步骤3:对步骤2所读取到的数据进行预处理,包括用describe()命令查看数值型数据的数据条数、平均值、方差和最大最小值;用value_counts()命令查看值为str类型的数量;用df[df.isnull().values]命令查看缺失值所在行的所有数据,并且对缺失值进行处理;
步骤4:根据需求通过group_by命令对步骤3所得的数据进行分组;
步骤5:将步骤4所得的每组数据作为输入,然后调用步骤1编写的格拉布斯法检验函数标记或删除异常值;
步骤6:将步骤5所得的最终数据保存为文本文档。
针对计算机语言的选择,由于Python语言相对于其他语言来说,具有数据分析工具集完整、语言功能健全、方便对接其他语言、市场占有率高等优点,所以选择了其作为本发明的开发语言
通过本方法,可以用对所有的数据进行快速的分组预处理,然后步骤1所编写的格拉布斯法检验函数对分组后的数据进行检验,标记或者删除异常值,可以得到异常值及其索引,最后将所有最终数据再保存为文本文档,从文本数据的读取,到数据最后检验,再保存为文本文档,数据的格式并未发生变化,而且所有的分组过程,以及检验过程都不再需要人工完成,极大的提高了工作效率,节省了人力与物力资源。
基于上述的异常值处理方法,步骤1所编写的函数名为Grubbs(X,P=95),该函数的输入是pandas中的Series型变量X,用以储存一组数据,其中X.value是X每个数组值,X.index是每个值在第一步里面的df中的索引。P是置信度的百分数表示,默认为95,在本函数中,其取值可以为90,95,97.5,99,99.5,函数的输出是异常值及其索引。使用group_by命令对数据进行分组,分组速度快,并且分组过后可以排除掉可以不用进行格拉布斯法检验的数据,可以节省大量时间。对需要检验的数据使用格拉布斯检验函数,可以快速的标记或删除异常值,得到异常值和它的索引,极大的提高了审计领域中异常值检测的效率和准确度,解决了现有人工检验方法效率低下的问题,弥补了审计领域没有统计检验法的不足。
然后开始读取数据文本,原数据是一个大约40M左右的txt文本,通过df=pd.read_csv(r'origin.txt',sep='\t')命令可以快速的把txt文本读取到dataframe型变量df中,其中'\t'表示用Tab符号分割数据,其中df.index中储存有每条数据在df中的索引,每个索引都是唯一的,根据索引可以快速找到条数据。前十条数据如下所示:
接着对所有读取到的数据进行分组,首先根据需求然后把采购组织ekorg、交易开始日期datab、产品matnr都相同的数据分到一个组内,通过命令group_by=df.group_by(['ekorg','datab','matnr']).kbetr,结合count与value_counts命令,可以得到经分组后的结果,组内只有1条数据的有89045条,组内有两条的有22039条,约占分组前的数据的73%,也就是说明,约73%的数据可以不用进行格拉布斯法检验,排除此部分数据,可以节省大量时间,然后将需要进行进行格拉布斯法检验的数据通过上述的步骤进行检验,在这一步中需要把每组数据作为输入X,经过格拉布斯法检验函数Grubbs(X,P=95)的作用后标记或者删除异常值,用命令df.group_by(['ekorg','datab','matnr']).kbetr.apply(Grubbs)可以实现此功能,能够返回所有异常值的大小及其在df中的索引,有了索引后,可以非常简单的对异常值数据进行标记或者删除。
最后的结果是总共有228条数据价格出现了异常,随机查取一个异常数据的组内数据,如下所示:
发现价格为64.0的数据为异常值,其64.0左边的数字89428代表该条数据在整个df中的索引,可以利用该索引准确的对该行数据进行删除等操作。最后,通过df.to_csv保存为txt文档。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (4)
1.一种基于审计系统采购信息记录异常值处理方法,其特征在于,所述方法包括如下步骤:
步骤1:编写格拉布斯法检验函数;
步骤2:通过读取指令读取文本数据;
步骤3:对步骤2所读取到的数据进行预处理;
步骤4:根据需求对步骤3所得的数据进行分组;
步骤5:将步骤4所得的每组数据作为输入,然后调用步骤1编写的格拉布斯法检验函数标记或删除异常值;
步骤6:将步骤5所得的最终数据保存为文本文档。
2.根据权利要求1所述的基于审计系统采购信息记录异常值处理方法,其特征在于,所述步骤1编写格拉布斯法检验函数的步骤包括:
步骤1.1:将数据按从小到大的顺序排列;
步骤1.2:计算步骤1.1所得数据的平均值、标准差和偏离值,所述偏离值为最大值与均值的差值和最小值与均值的差值;
步骤1.3:确定一个可疑值,如果最大值与均值的差值大于最小值与均值的差值,则最大值为可疑值,反之则最小值为可疑值;
步骤1,4:根据公式Gi=(xi-u)/s计算Gi值,其中u为均值,s为标准差,xi为样本数据;
步骤1.5:定检出水平α,置信概率P,默认P=0.95,其中0.95为经验值;
步骤1.6:查格拉布斯表获得临界值,并比较Gi值和临界值差异;
步骤1.7:判定是否为异常;
步骤1.8:是否进行多次异常判断,如果是则重复步骤1.1到步骤1.7,反之则输出异常值及其索引。
3.根据权利要求1所述的基于审计系统采购信息记录异常值处理方法,其特征在于:所述步骤3中的预处理包括用describe()命令查看数值型数据的数据条数、平均值、方差和最大最小值;用value_counts()命令查看值为str类型的数量;用df[df.isnull().values]命令查看缺失值所在行的所有数据,并且对缺失值进行处理。
4.根据权利要求1所述的基于审计系统采购信息记录异常值处理方法,其特征在于:所述步骤4对数据进行分组时,根据需求通过group_by命令对数据进行分组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360480.7A CN109522309A (zh) | 2018-11-15 | 2018-11-15 | 一种基于审计系统采购信息记录异常值处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811360480.7A CN109522309A (zh) | 2018-11-15 | 2018-11-15 | 一种基于审计系统采购信息记录异常值处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109522309A true CN109522309A (zh) | 2019-03-26 |
Family
ID=65777931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811360480.7A Pending CN109522309A (zh) | 2018-11-15 | 2018-11-15 | 一种基于审计系统采购信息记录异常值处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522309A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110389295A (zh) * | 2019-06-14 | 2019-10-29 | 福建省福联集成电路有限公司 | 一种基于vba语言的电性数据处理方法及存储介质 |
CN112241512A (zh) * | 2020-10-15 | 2021-01-19 | 四川长虹电器股份有限公司 | 提升审计精度的方法及系统 |
CN114826695A (zh) * | 2022-04-07 | 2022-07-29 | 广州腾粤信息科技有限公司 | 一种基于区块链的交易数据的隐私保护系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950477A (zh) * | 2010-08-23 | 2011-01-19 | 北京世纪高通科技有限公司 | 一种交通信息处理方法及装置 |
CN105786900A (zh) * | 2014-12-22 | 2016-07-20 | 上海机动车检测中心 | 一种基于排放大数据的汽车环保分析方法和系统 |
-
2018
- 2018-11-15 CN CN201811360480.7A patent/CN109522309A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950477A (zh) * | 2010-08-23 | 2011-01-19 | 北京世纪高通科技有限公司 | 一种交通信息处理方法及装置 |
CN105786900A (zh) * | 2014-12-22 | 2016-07-20 | 上海机动车检测中心 | 一种基于排放大数据的汽车环保分析方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110389295A (zh) * | 2019-06-14 | 2019-10-29 | 福建省福联集成电路有限公司 | 一种基于vba语言的电性数据处理方法及存储介质 |
CN110389295B (zh) * | 2019-06-14 | 2022-03-25 | 福建省福联集成电路有限公司 | 一种基于vba语言的电性数据处理方法及存储介质 |
CN112241512A (zh) * | 2020-10-15 | 2021-01-19 | 四川长虹电器股份有限公司 | 提升审计精度的方法及系统 |
CN114826695A (zh) * | 2022-04-07 | 2022-07-29 | 广州腾粤信息科技有限公司 | 一种基于区块链的交易数据的隐私保护系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021052031A1 (zh) | 基于统计四分位距的商品库存风险预警方法、系统及计算机可读存储介质 | |
US5390113A (en) | Method and electronic apparatus for performing bookkeeping | |
EP0450825B1 (en) | Method and apparatus for the classification of data | |
CN110490720A (zh) | 财务数据分析预警方法、装置、计算机设备和存储介质 | |
CN107993143A (zh) | 一种信贷风险评估方法及系统 | |
CN109523153A (zh) | 非法集资企业的获取方法、装置、计算机设备和存储介质 | |
EP3686756A1 (en) | Method and apparatus for grouping data records | |
US20020133441A1 (en) | Methods and systems for identifying attributable errors in financial processes | |
CN111967779A (zh) | 一种风险评估方法、装置及设备 | |
CN109522309A (zh) | 一种基于审计系统采购信息记录异常值处理方法 | |
CN115204995A (zh) | 一种税务数据采集分析方法、系统及计算机存储介质 | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
CN111199465A (zh) | 一种基于智能化的企业财务识假的方法 | |
CN110458581A (zh) | 商户业务周转异常的识别方法及装置 | |
CN111292068A (zh) | 一种合同信息审核方法、装置、电子设备及存储介质 | |
CN112258095B (zh) | 基于标准正态分布的评分方法、装置、设备及存储介质 | |
CN115374082A (zh) | 涉税数据库的分析方法、设备及存储介质 | |
CN114140092A (zh) | 一种多功能企业财务核算系统 | |
CN113326254A (zh) | 一种调研数据清洗方法及系统 | |
CN113240353B (zh) | 一种面向跨境电商的出口工厂分类方法及装置 | |
CN116757709B (zh) | 一种基于知识图谱的铜精矿进口风险分析方法及系统 | |
CN115145990B (zh) | 一种用于海关电子申报的数据处理方法及相关设备 | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 | |
CN117252176B (zh) | 调查报告智能生成方法、装置、设备及介质 | |
CN118014451B (zh) | 软件项目的数据处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190326 |
|
RJ01 | Rejection of invention patent application after publication |