CN112465397A - 一种审计数据的分析方法和装置 - Google Patents
一种审计数据的分析方法和装置 Download PDFInfo
- Publication number
- CN112465397A CN112465397A CN202011478254.6A CN202011478254A CN112465397A CN 112465397 A CN112465397 A CN 112465397A CN 202011478254 A CN202011478254 A CN 202011478254A CN 112465397 A CN112465397 A CN 112465397A
- Authority
- CN
- China
- Prior art keywords
- data
- audited
- audit
- auditing
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007405 data analysis Methods 0.000 title abstract description 14
- 238000012706 support-vector machine Methods 0.000 claims abstract description 103
- 238000012549 training Methods 0.000 claims description 84
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 230000005611 electricity Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种审计数据的分析方法和装置,包括获取待审计数据;根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;获取每种所述待审计聚类数据分别对应的审计范围;从处于所述审计范围的待审计聚类数据中提取待审计数据特征;将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;采用所述审计策略分析所述待审计数据特征,输出疑点数据。提高审计数据与审计策略的匹配效率,降低人工成本,更为准确地确定审计数据是否存在疑点,进而提高数据可靠性。
Description
技术领域
本发明涉及数据安全技术领域,尤其涉及一种审计数据的分析方法和装置。
背景技术
为努力建设统一开放、结构合理、技术先进、安全可靠的现代化大电网,审计系统的发展需要通过开展对经营活动、内部控制、风险管理等事项的监督和评价,实施以内部控制和风险管理为导向的管理审计,以改善组织的运营、提高增长质量和效益服务。
当今审计事业的发展方向就是大数据审计,而在大数据审计工作过程中,基于审计策略分析的智慧审计方法是大势所趋。现有的数据审计方式是在审计项目实施过程中,由审计人员凭借主观审计经验或者查询式的审计模型对被审数据开展检查和分析。
而传统的审计数据风险识别方法通常是在确定审计问题后,依靠人工在风险库资料中逐一搜寻问题所对应的风险,然后将自己判断合适的对应风险填写入审计取证表,在审计数据量较大的情况下无法快速匹配,审计人员对于较复杂的审计数据和审计疑点的处理就会形成疏漏,也容易在对被审数据多样化特征不明确的情况下,造成审计差错。
发明内容
本发明提供了一种审计数据的分析方法和装置,解决了现有技术中由于人工分析审计数据所导致的审计策略匹配效率较低、审计误差较大的技术问题。
本发明提供的一种审计数据的分析方法,包括:
获取待审计数据;
根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
获取每种所述待审计聚类数据分别对应的审计范围;
从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
采用所述审计策略分析所述待审计数据特征,输出疑点数据。
可选地,在所述获取待审计数据的步骤之前,所述方法还包括:
获取审计数据训练集;
对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
其中,所述初始支持向量机模型包括多个预设审计策略。
可选地,所述将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略的步骤,包括:
将所述待审计数据特征输入预置的目标支持向量机模型;
对多个所述预设审计策略和所述待审计数据特征进行匹配;
确定与所述待审计数据特征对应的目标审计策略。
可选地,每个所述预设审计策略包括审计标准,所述采用所述审计策略分析所述待审计数据特征,输出疑点数据的步骤,包括:
判断所述待审计数据特征是否符合所述审计标准;
当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
可选地,所述方法还包括:
从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
接收用户根据所述待增加数据特征所输入的新增审计策略;
在所述目标支持向量机模型中添加所述新增审计策略;
将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
本发明还提供了一种审计数据的分析装置,包括:
待审计数据获取模块,用于获取待审计数据;
聚类模块,用于根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
审计范围获取模块,用于获取每种所述待审计聚类数据分别对应的审计范围;
待审计数据特征提取模块,用于从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
审计策略确定模块,用于将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
疑点数据输出模块,用于采用所述审计策略分析所述待审计数据特征,输出疑点数据。
可选地,所述装置还包括:
审计数据训练集获取模块,用于获取审计数据训练集;
审计特征训练集生成模块,用于对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
目标支持向量机模型生成模块,用于采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
其中,所述初始支持向量机模型包括多个预设审计策略。
可选地,所述审计策略确定模块包括:
输入子模块,用于将所述待审计数据特征输入预置的目标支持向量机模型;
匹配子模块,用于对多个所述预设审计策略和所述待审计数据特征进行匹配;
目标审计策略确定子模块,用于确定与所述待审计数据特征对应的目标审计策略。
可选地,每个所述目标审计策略包括审计标准,所疑点数据输出模块包括:
判断子模块,用于判断所述待审计数据特征是否符合所述审计标准;
疑点数据输出子模块,用于当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
可选地,所述装置还包括:
待增加数据特征提取模块,用于从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
新增审计策略接收模块,用于接收用户根据所述待增加数据特征所输入的新增审计策略;
新增审计策略添加模块,用于在所述目标支持向量机模型中添加所述新增审计策略;
扩展特征训练集生成模块,用于将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
扩展支持向量机模型生成模块,用于采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
返回模块,用于以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
从以上技术方案可以看出,本发明具有以下优点:通过获取待审计数据,根据待审计数据的审计类型划分为多种待审计聚类数据,再从处于审计范围的待审计聚类数据中提取待审计数据特征,基于待审计数据特征和预置的目标支持向量机模型,确定审计策略,最后使用审计策略对待审计数据特征进行分析,确定待审计数据特征对应的待审计数据是否存在疑点。从而提高审计数据与审计策略的匹配效率,降低人工成本,更为准确地确定审计数据是否存在疑点,进而提高数据可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种审计数据的分析方法的步骤流程图;
图2为本发明可选实施例提供的一种审计数据的分析方法的步骤流程图;
图3为本发明实施例提供的一种审计数据的分析装置的结构框图。
具体实施方式
现有的数据审计方法对审计人员的审计知识和水平倚重过多,审计工作成果难以显现,当遭遇到海量被审数据且数据业务特征较多时,传统的数据式审计方式无法收集数据业务特征为之后的审计策略库提供数据支撑,系统的可扩展性较差,无法为系统识别更多更广泛的疑点。本发明实施例提供了一种审计数据的分析方法和装置,用于解决现有技术中由于人工分析审计数据所导致的审计策略匹配效率较低、审计误差较大的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的一种审计数据的分析方法的步骤流程图。
本发明提供的一种审计数据的分析方法,包括:
步骤101,获取待审计数据;
在具体实现中,数据审计一般是以单位或者企业进行的,而每个单位或者企业都有不同的部门,不同部门中的数据往往在数值上、单位上或者表达意义上都有所不同,而数据审计可能只用到了企业的部分或者全部部门的数据,以这些需要审计的数据作为待审计数据,可以通过用户输入,或者其他数据收集的方式进行获取。
步骤102,根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
当获取到被审单位或企业的待审计数据之后,由于待审计数据的类型是不同,评判的标准也不同,因此需要检测待审计数据的审计类型,例如财务核算数据、营销数据、物资数据或基建生产数据等,根据待审计数据的审计类型划分待审计数据,以得到不同类型的待审计聚类数据,以便于后续依据不同类型的待审计聚类数据的数据特征进行对应的策略匹配。
步骤103,获取每种所述待审计聚类数据分别对应的审计范围;
在本发明实施例中,由于待审计聚类数据的种类不同,衡量单位也有所不同,此时可以获取每种待审计聚类数据分别对应的审计范围,审计范围可以由用户在事前执行进行设定。
例如,可以设置成本金额占业务收入的比例值位于20-40%时,属于本方法能够自动审计的范围;或者如营销数据中的装机地址、用户号、用户编号是固定的,但用电量、电价等是跟用户类别相关的,在确定用户类别之后,获取用户的用电量和电价以便于后续审计策略的匹配。
步骤104,从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
在本发明实施例中,由于待审计聚类数据往往是原始数据,而为了提高数据分析的处理效率,可以从处于审计范围的待审计聚类数据中提取待审计数据特征,以待审计数据特征进行后续的数据分析。
步骤105,将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
在本发明实施例中,可以通过预置的训练过程获取到目标支持向量机模型,将待审计数据特征输入到上述模型中,以确定对应的审计策略。
例如,对于成本金额占比在业务收入规模20%至40%之间的待审计数据特征,去调用相应的策略库开展分析和检测,应用到的策略有资金开支异常检测策略、现金持有量合规检测、出纳和会计岗位不相容性检测、大工业用户电价计价准确性检测等。
步骤106,采用所述审计策略分析所述待审计数据特征,输出疑点数据。
在本发明实施例中,在确定审计策略之后,采用对应的审计策略对待审计数据特征进行分析,以确定待审计数据特征对应的待审计数据是否出现疑点,若是,则将其作为疑点数据输出。
在本发明实施例中,通过获取待审计数据,根据待审计数据的审计类型划分为多种待审计聚类数据,再从处于审计范围的待审计聚类数据中提取待审计数据特征,基于待审计数据特征和预置的目标支持向量机模型,确定审计策略,最后使用审计策略对待审计数据特征进行分析,确定待审计数据特征对应的待审计数据是否存在疑点。从而提高审计数据与审计策略的匹配效率,降低人工成本,更为准确地确定审计数据是否存在疑点,进而提高数据可靠性。
请参阅图2,图2为本发明可选实施例提供的一种审计数据的分析方法的步骤流程图。
本发明提供的一种审计数据的分析方法,包括:
步骤201,获取待审计数据;
在本发明实施例中,步骤201的具体实现过程与上述步骤101类似,在此不再赘述。
可选地,在步骤201之前,所述方法还可以包括以下步骤S1-S3:
S1,获取审计数据训练集;
在本发明实施例中,所述初始支持向量机模型包括多个预设审计策略,在首次获取待审计数据之前,还需要基于预置的初始支持向量机模型构建目标支持向量机模型。
因此首先需要获取审计数据训练集,审计数据训练集中包括多个具有对应的审计策略以及审计结果的审计数据,其中审计策略可以由根据经验所得设定,审计结果包括了审计数据是否存在疑点以及疑点信息等。
S2,对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
数据清洗(Data cleaning)指的是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
数据除冗指的是去除数据中的数据冗余的过程和方法,其中数据冗余是指数据之间的重复,也可以说是同一数据存储在不同数据文件中的现象。可以说增加数据的独立性和减少数据冗余是企业范围信息资源管理和大规模信息系统获得成功的前提条件。
S3,采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
所述支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器(generalized linearclassifier),其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。
在具体实现中,训练过程可以如下:
采用A供电企业财务域成本数据集为审计数据训练集,审计数据训练集部分如表1所示:
表1
在获取到审计数据训练集后,由于上述数据包括被审计部门、业务领域、审计策略等,属于多维度时间序列预测问题,需要对训练集进行进一步处理以获取适用于建模使用的审计特征,审计特征可以如下表2:
特征名称 | 类型 | 描述 |
COMPANY | VARchar2(255) | 被审计单位或部门名称 |
AREA | VARchar2(255) | 业务领域 |
TYPE | VARchar2(255) | 被审数据特征集 |
YEAR | VARchar2(255) | 审计年份 |
COUNT | INT | 当年发生次数 |
LASTCOUNT | INT | 去年发生次数 |
表2
由于COUNT指标取值大部分为0-4之间的整数,预测结果稍有偏差就会导致模型平均相对误差率、相对平方根误差、相对误差等常用模型评估指标过高,为了更准确的评估支持向量机与神经网络对训练数据的逼近能力和泛化误差的性能,我们采用标准均方误差(MSE)对模型进行评估。
其中n为训练样本的数量,yi为真实值,oi为预测值。
原始数据集为A审计单位2015年到2017年的1995条数据,经过清洗加工后得到的训练集共708条数据,采用支持向量机与神经网络对不同比例的训练样本和测试样本进行建模,建模结果对比如表3所示:
表3
通过上表可以很直观地看出,在相同训练样本和测试样本比例下,神经网络建模结果的标准均方误差均大于支持向量机,说明支持向量机的逼近能力优于神经网络。随着训练样本的逐步减少,支撑向量机与神经网络的标准均方误差都显示递增趋势,但支持向量机的标准均方误差增加幅度显然比神经网络小,说明支持向量机的泛化能力优于神经网络。
从上述分析可以看出,无论是逼近能力还是泛化能力支持向量机均优于神经网络。对于支持向量机来说,选择适合的核函数以及适当的核函数参数也是尤为重要的,倘若选取不当,依然会影响支持向量机的泛化能力,导致预测精确度下降。然而核函数及其参数的选取目前仍没有固定的标准,所以本文通过选取各个核函数依次建模,最终发现当选取线性核时模型拟合结果最佳。
最后使用审计数据训练集的一部分数据对上述构建的支持向量机模型进行训练,得到以下结果如表4:
表4
最后计算疑点数据的数量与实际疑点数据的数量的比例,若低于预定阈值如10%、5%等,则说明初始支持向量机模型已经训练完毕,得到目标支持向量机模型。
步骤202,根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
步骤203,获取每种所述待审计聚类数据分别对应的审计范围;
步骤204,从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
在本发明实施例中,步骤202-204的具体实施过程可以参见上述步骤102-104,在此不再赘述。
在本发明的另一个示例中,所述方法还包括:
从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
接收用户根据所述待增加数据特征所输入的新增审计策略;
在所述目标支持向量机模型中增加所述新增审计策略;
将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
在具体实现中,每种待审计聚类数据往往都具有自己的审计范围,而目标支持向量机模型是通过有限的数据进行训练获得的,因而可能无法涵盖所有的审计范围。因此对于不处于该审计范围中的待审计聚类数据,本方法可以从中提取待增加数据特征,通过接收用户根据待增加技术特征输入的新增审计策略,在目标支持向量机模型中增加上述新增审计策略;再对审计特征训练集进行更新,添加所述待增加数据特征,以扩展特征训练集对目标支持向量机进行训练,得到扩展支持向量机模型,以返回获取待审计数据的步骤,继续进行审计数据的分析。从而实现了支持向量机模型的更新,通过对新增数据进行进一步地挖掘,提高支持向量机模型的可扩展性。
值得一提的是,还可以通过专门的数据字典记录上述新增数据特征,以形成反馈效果,还可以通过审计人员从系统中导出上述新增数据特征,以根据新增数据特征进行新增审计策略的扩展。
步骤205,将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
可选地,所述步骤205可以包括以下子步骤:
将所述待审计数据特征输入预置的目标支持向量机模型;
对多个所述预设审计策略和所述待审计数据特征进行匹配;
确定与所述待审计数据特征对应的目标审计策略。
在本发明实施例中,由于目标支持向量机是根据预置的初始支持向量机训练得到的,因而目标支持向量机中包括了多个预设审计策略,通过将待审计数据特征输入到目标支持向量机模型中,以通过目标支持向量机模型对待审计数据进行聚类、回归等步骤,从而实现预设审计策略与待审计数据特征的匹配,从而确定目标审计策略,以便于后续审计过程的实现。
在本发明的一个示例中,每个所述目标审计策略包括审计标准,上述步骤206可以替换为以下步骤206-207:
步骤206,判断所述待审计数据特征是否符合所述审计标准;
在具体实现中,可以通过判断待审计数据特征是否符合审计标准,以判断结果确定待审计数据特征对应的待审计数据是否为疑点数据。
例如,获取到两个部门用电量的待审计数据特征分部为X1和X2,审计标准为范围A-B,若是X1处于范围A-B之外,X2处于范围A-B之内,则说明待审计数据特征X1不符合审计标准,X2符合审计标准,此时判定X1对应的部门用电量为疑点数据,需要审计人员重点分析;或者两个部门物资采购量的待审计数据特征分部为Y1和Y2,审计标准为大于或等于C,若是Y1大于C,Y2小于C,则说明Y1对应的部门符合审计标准,Y2对应的部分不符合审计标准。
步骤207,当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
进一步地,当所述待审计数据特征符合所述审计标准时,显示所述待审计数据符合审计标准的提示。
值得一提的是,疑点数据的输出方式可以以多个视图进行展示,例如图形和表格等形式,其中图形有柱状图、拆线图、平面图、立体图四种。
在本发明实施例中,通过获取待审计数据,根据待审计数据的审计类型划分为多种待审计聚类数据,再从处于审计范围的待审计聚类数据中提取待审计数据特征,基于待审计数据特征和预置的目标支持向量机模型,确定审计策略,最后使用审计策略对待审计数据特征进行分析,确定待审计数据特征对应的待审计数据是否存在疑点。从而提高审计数据与审计策略的匹配效率,降低人工成本,更为准确地确定审计数据是否存在疑点,进而提高数据可靠性。
参见图3,图3示出了本发明实施例的一种审计数据的分析装置的结构框图。
本发明提供的一种审计数据的分析装置,包括:
待审计数据获取模块301,用于获取待审计数据;
聚类模块302,用于根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
审计范围获取模块303,用于获取每种所述待审计聚类数据分别对应的审计范围;
待审计数据特征提取模块304,用于从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
审计策略确定模块305,用于将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
疑点数据输出模块306,用于采用所述审计策略分析所述待审计数据特征,输出疑点数据。
可选地,所述装置还包括:
审计数据训练集获取模块,用于获取审计数据训练集;
审计特征训练集生成模块,用于对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
目标支持向量机模型生成模块,用于采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
其中,所述初始支持向量机模型包括多个预设审计策略。
可选地,所述审计策略确定模块305包括:
输入子模块,用于将所述待审计数据特征输入预置的目标支持向量机模型;
匹配子模块,用于对多个所述预设审计策略和所述待审计数据特征进行匹配;
目标审计策略确定子模块,用于确定与所述待审计数据特征对应的目标审计策略。
可选地,每个所述目标审计策略包括审计标准,所疑点数据输出模块306包括:
判断子模块,用于判断所述待审计数据特征是否符合所述审计标准;
疑点数据输出子模块,用于当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
可选地,所述装置还包括:
待增加数据特征提取模块,用于从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
新增审计策略接收模块,用于接收用户根据所述待增加数据特征所输入的新增审计策略;
新增审计策略添加模块,用于在所述目标支持向量机模型中添加所述新增审计策略;
扩展特征训练集生成模块,用于将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
扩展支持向量机模型生成模块,用于采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
返回模块,用于以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种审计数据的分析方法,其特征在于,包括:
获取待审计数据;
根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
获取每种所述待审计聚类数据分别对应的审计范围;
从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
采用所述审计策略分析所述待审计数据特征,输出疑点数据。
2.根据权利要求1所述的方法,其特征在于,在所述获取待审计数据的步骤之前,所述方法还包括:
获取审计数据训练集;
对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
其中,所述初始支持向量机模型包括多个预设审计策略。
3.根据权利要求2所述的方法,其特征在于,所述将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略的步骤,包括:
将所述待审计数据特征输入预置的目标支持向量机模型;
对多个所述预设审计策略和所述待审计数据特征进行匹配;
确定与所述待审计数据特征对应的目标审计策略。
4.根据权利要求3所述的方法,其特征在于,每个所述预设审计策略包括审计标准,所述采用所述审计策略分析所述待审计数据特征,输出疑点数据的步骤,包括:
判断所述待审计数据特征是否符合所述审计标准;
当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
接收用户根据所述待增加数据特征所输入的新增审计策略;
在所述目标支持向量机模型中添加所述新增审计策略;
将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
6.一种审计数据的分析装置,其特征在于,包括:
待审计数据获取模块,用于获取待审计数据;
聚类模块,用于根据所述待审计数据的审计类型,将所述待审计数据划分为多种待审计聚类数据;
审计范围获取模块,用于获取每种所述待审计聚类数据分别对应的审计范围;
待审计数据特征提取模块,用于从处于所述审计范围的待审计聚类数据中提取待审计数据特征;
审计策略确定模块,用于将所述待审计数据特征输入预置的目标支持向量机模型,确定所述待审计数据特征对应的审计策略;
疑点数据输出模块,用于采用所述审计策略分析所述待审计数据特征,输出疑点数据。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
审计数据训练集获取模块,用于获取审计数据训练集;
审计特征训练集生成模块,用于对所述审计数据训练集进行数据清洗以及数据除冗,生成审计特征训练集;
目标支持向量机模型生成模块,用于采用所述审计特征训练集对预置的初始支持向量机模型进行训练,得到预置的目标支持向量机模型;
其中,所述初始支持向量机模型包括多个预设审计策略。
8.根据权利要求7所述的装置,其特征在于,所述审计策略确定模块包括:
输入子模块,用于将所述待审计数据特征输入预置的目标支持向量机模型;
匹配子模块,用于对多个所述预设审计策略和所述待审计数据特征进行匹配;
目标审计策略确定子模块,用于确定与所述待审计数据特征对应的目标审计策略。
9.根据权利要求8所述的装置,其特征在于,每个所述目标审计策略包括审计标准,所疑点数据输出模块包括:
判断子模块,用于判断所述待审计数据特征是否符合所述审计标准;
疑点数据输出子模块,用于当所述待审计数据特征不符合所述审计标准时,确定所述待审计数据特征对应的待审计数据为疑点数据并输出。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
待增加数据特征提取模块,用于从不处于所述审计范围的待审计聚类数据中提取待增加数据特征;
新增审计策略接收模块,用于接收用户根据所述待增加数据特征所输入的新增审计策略;
新增审计策略添加模块,用于在所述目标支持向量机模型中添加所述新增审计策略;
扩展特征训练集生成模块,用于将所述审计特征训练集中添加所述待增加数据特征,生成扩展特征训练集;
扩展支持向量机模型生成模块,用于采用所述扩展特征训练集对所述目标支持向量机模型进行训练,得到扩展支持向量机模型;
返回模块,用于以所述扩展支持向量机模型作为新的目标支持向量机模型,返回所述获取待审计数据的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478254.6A CN112465397A (zh) | 2020-12-15 | 2020-12-15 | 一种审计数据的分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478254.6A CN112465397A (zh) | 2020-12-15 | 2020-12-15 | 一种审计数据的分析方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112465397A true CN112465397A (zh) | 2021-03-09 |
Family
ID=74804775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011478254.6A Pending CN112465397A (zh) | 2020-12-15 | 2020-12-15 | 一种审计数据的分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112465397A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472733A (zh) * | 2021-05-07 | 2021-10-01 | 北京东方通软件有限公司 | 一种面向互联网的安全审计方法 |
CN116843087A (zh) * | 2023-09-01 | 2023-10-03 | 北京至臻云智能科技有限公司 | 一种基于大数据的企业审计风险预测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN109300025A (zh) * | 2018-10-17 | 2019-02-01 | 大国创新智能科技(东莞)有限公司 | 基于大数据和深度学习的审计方法和机器人系统 |
CN109741029A (zh) * | 2018-12-27 | 2019-05-10 | 广东电网有限责任公司 | 一种电网企业审计规则仓的建设方法和装置 |
CN110532301A (zh) * | 2019-08-30 | 2019-12-03 | 广西电网有限责任公司南宁供电局 | 审计方法、系统和可读存储介质 |
US20200293575A1 (en) * | 2018-11-28 | 2020-09-17 | Verus Analytics, Llc | Method and system for streamlined auditing |
-
2020
- 2020-12-15 CN CN202011478254.6A patent/CN112465397A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832429A (zh) * | 2017-11-14 | 2018-03-23 | 广州供电局有限公司 | 审计数据处理方法和系统 |
CN109300025A (zh) * | 2018-10-17 | 2019-02-01 | 大国创新智能科技(东莞)有限公司 | 基于大数据和深度学习的审计方法和机器人系统 |
US20200293575A1 (en) * | 2018-11-28 | 2020-09-17 | Verus Analytics, Llc | Method and system for streamlined auditing |
CN109741029A (zh) * | 2018-12-27 | 2019-05-10 | 广东电网有限责任公司 | 一种电网企业审计规则仓的建设方法和装置 |
CN110532301A (zh) * | 2019-08-30 | 2019-12-03 | 广西电网有限责任公司南宁供电局 | 审计方法、系统和可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113472733A (zh) * | 2021-05-07 | 2021-10-01 | 北京东方通软件有限公司 | 一种面向互联网的安全审计方法 |
CN113472733B (zh) * | 2021-05-07 | 2022-11-22 | 北京东方通软件有限公司 | 一种面向互联网的安全审计方法 |
CN116843087A (zh) * | 2023-09-01 | 2023-10-03 | 北京至臻云智能科技有限公司 | 一种基于大数据的企业审计风险预测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154880B (zh) | 系统监控方法及装置 | |
CN110717828B (zh) | 一种基于频繁交易模式的异常账户检测方法及系统 | |
Wu et al. | Using data mining technique to enhance tax evasion detection performance | |
CN110381079B (zh) | 结合gru和svdd进行网络日志异常检测方法 | |
CN103761173A (zh) | 一种基于日志的计算机系统故障诊断方法及装置 | |
CN110852856A (zh) | 一种基于动态网络表征的发票虚开识别方法 | |
CN109934268B (zh) | 异常交易检测方法及系统 | |
CN112700319A (zh) | 基于政务数据的企业授信额度确定方法及装置 | |
CN112465397A (zh) | 一种审计数据的分析方法和装置 | |
TW202029037A (zh) | 金融帳戶自動化監控方法及系統 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
CN111861786A (zh) | 一种基于特征选择和孤立随机森林的专变窃电识别方法 | |
CN115879017A (zh) | 一种电力敏感数据自动化分类分级方法、装置及存储介质 | |
CN116823496A (zh) | 基于人工智能的智能保险风险评估和定价系统 | |
CN111695979A (zh) | 一种原材料与成品的关系分析方法、装置及设备 | |
CN113642672B (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
CN113705920B (zh) | 火电厂用水数据样本集的生成方法和终端设备 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
Nowak-Brzezińska et al. | Outlier mining using the DBSCAN algorithm | |
CN112651433B (zh) | 一种特权账号异常行为分析方法 | |
CN111581199B (zh) | 一种智能数据分析系统及方法 | |
CN114493864A (zh) | 一种基于资金大数据异常检测系统及方法 | |
CN114066173A (zh) | 资金流动行为分析方法及存储介质 | |
CN114443409A (zh) | 支付业务系统监控方法、装置和设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210309 |
|
RJ01 | Rejection of invention patent application after publication |