CN116663978A - 一种用于审计数据的质量评估方法和系统 - Google Patents

一种用于审计数据的质量评估方法和系统 Download PDF

Info

Publication number
CN116663978A
CN116663978A CN202310575725.2A CN202310575725A CN116663978A CN 116663978 A CN116663978 A CN 116663978A CN 202310575725 A CN202310575725 A CN 202310575725A CN 116663978 A CN116663978 A CN 116663978A
Authority
CN
China
Prior art keywords
data
verification
quality
rule
audit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310575725.2A
Other languages
English (en)
Inventor
庄晓明
吴琛华
许佳裕
吴少华
吴江煌
林晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Yian Information Technology Co ltd
Original Assignee
Xiamen Meiya Yian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Yian Information Technology Co ltd filed Critical Xiamen Meiya Yian Information Technology Co ltd
Priority to CN202310575725.2A priority Critical patent/CN116663978A/zh
Publication of CN116663978A publication Critical patent/CN116663978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/27Regression, e.g. linear or logistic regression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于审计数据的质量评估方法和系统,包括:获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证;对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。本申请可用于全面判定业务部门推送业务数据是否符合审计部门要求。

Description

一种用于审计数据的质量评估方法和系统
技术领域
本发明涉及审计数据分析的技术领域,尤其是一种用于审计数据的质量评估方法和系统。
背景技术
随着产业数字化进程的不断深入,各企业和组织的日常业务应用系统中逐渐沉淀了大量的数据,通常审计部门在获取业务系统中的应用数据都是由业务系统推送给审计部门,因是被动接收的方式,故存在数据是否准确、是否缺失,是否不全的问题,因此对于审计部门来说目前急需一个用于全面判定业务部门推送业务数据是否符合审计部门要求的方案。
审计部门接收的业务数据的准确合规将直接影响到审计结果,尤其对一些重大项目的投入、重大金额的招投标影响深远。同时审计所使用的业务数据如不符合质量要求则会导致大量审计资源的浪费,导致审计失误,甚至可能违法。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种用于审计数据的质量评估方法和系统,用以解决上述技术问题。
根据本发明的一个方面,提出了一种用于审计数据的质量评估方法,包括:
S1:获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证;
S2:对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;
S3:进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;
S4:基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
在一些具体的实施例中,S1中的数据结构验证包括数据字段、数据类型和数据长度的验证,数据关联验证包括多个来源业务系统之间的数据关联关系验证以及必要数据不为空的验证。
在一些具体的实施例中,S2中完整性填充包括直接剔除法、单一填补法和多重填补法:
直接剔除法将历史问题产生的脏数据或审批过程未完成形成的不全数据直接剔除;
单一填补法包括:
均值填补,利用所研究审计监察业务必要变量的均值代替对应缺失值;
演绎填补,依据审计监察业务逻辑和常规数据质量要求,对缺失数据进行推断,计算出可填补的值;
回归填补,使用已对接的业务层系统数据及其关联关系,通过回归建模预测缺失值,进而填补缺失值;
最近距离填补,根据业务层系统对接的数据,采用K-means,KNN算法进行最近距离填充;
热卡填补,从业务层系统对接数据中找一个最相似的数据进行填充;
多重填补为使用业务层系统对接数据相关的M个数据值的向量代替每一个缺失值的过程,其中,M大于等于20。
在一些具体的实施例中,S2中数据规则清洗包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、去重和记录数检核。
在一些具体的实施例中,S2中的核定异常数据包括:完整性评估、精确性核定、精确性修订所获得的对应异常条数dbe,以及一致性核定和可行性评估所获得的表记录异常数据tr。
在一些具体的实施例中,S3的数据质量积分评估中具体包括:
客观性评估,构建数据客观性指标,从数据集中提取特征并计算数据客观性指标,并将客观性受损记录到UDF规则r1中;
相关性,通过映射算法构建并计算相关性指标,并将相关性受损记录到UDF规则r2中;
充分性,通过对数据集的分布函数进行积分获取数据集的充分性指标,并将充分性受损记录到UDF规则r3中;
合法性,定义数据合法性指标,并基于合法性证据及其权重计算数据合法性指标,并将合法性受损记录到UDF规则r4中。
在一些具体的实施例中,S4中针对单个数据集检查积分核算公式为 其中,/> i表示所有校验规则,j表示已触发校验规则,指标包括:空值校验check1,唯一性校验check2,数据格式校验check3,准确性校验check4,波动性校验check5,一致性校验check6,记录数校验check7,分区数校验check8,UDF规则校验checkn,某个数据集或数据表某一次的检查结果中INSPECTcount表示检查条数,INSPECTrecord表示检查次数。
在一些具体的实施例中,还包括一个项目在一段时间内检查积分多个项目在一段时间内检查积分/>
根据本发明的第二方面,一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出了一种用于审计数据的质量评估系统,系统包括:
数据获取分析单元:配置用于获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证;
数据质量核定单元:配置用于对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;
数据质量积分评估单元:配置用于进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;
积分核算单元:配置用于基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
本发明的一种用于审计数据的质量评估方法和系统,通过评价的方式来确定数据质量是否满足使用者的需求,通过这种方式对企业审计所需的各类业务数据内容及其关联关系进行有效可行的认证。使企业审计部门获得的业务数据变得详实、准确、完整,可更好地服务于企业的各类审计需求,推动企业审计业务有序正向发展。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。附图的元件不一定是相互按照比例的。同样的附图标记指代对应的类似部件。
图1是本申请的一个实施例的用于审计数据的质量评估方法的流程图;
图2是本申请的一个具体的实施例的用于审计数据的质量评估方法的流程图;
图3是本申请的一个具体的实施例的数据分析流程图;
图4是本申请的一个具体的实施例的数据质量核定流程图;
图5是本申请的一个具体的实施例的数据积分核定流程图;
图6是本申请的一个实施例的用于审计数据的质量评估系统的框架图;
图7是是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请的一个实施例的用于审计数据的质量评估方法的流程图,如图1所示,该方法包括以下步骤:
S101:获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证。其中,数据结构验证包括数据字段、数据类型和数据长度的验证,数据关联验证包括多个来源业务系统之间的数据关联关系验证以及必要数据不为空的验证。
S102:对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据。
在具体的实施例中,完整性填充包括直接剔除法、单一填补法和多重填补法:直接剔除法将历史问题产生的脏数据或审批过程未完成形成的不全数据直接剔除;单一填补法包括:均值填补,利用所研究审计监察业务必要变量的均值代替对应缺失值;演绎填补,依据审计监察业务逻辑和常规数据质量要求,对缺失数据进行推断,计算出可填补的值;回归填补,使用已对接的业务层系统数据及其关联关系,通过回归建模预测缺失值,进而填补缺失值;最近距离填补,根据业务层系统对接的数据,采用K-means,KNN算法进行最近距离填充;热卡填补,从业务层系统对接数据中找一个最相似的数据进行填充;多重填补为使用业务层系统对接数据相关的M个数据值的向量代替每一个缺失值的过程,其中,M大于等于20。
在具体的实施例中,数据规则清洗包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、去重和记录数检核。核定异常数据包括:完整性评估、精确性核定、精确性修订所获得的对应异常条数dbe,以及一致性核定和可行性评估所获得的表记录异常数据tr。
S103:进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据。
在具体的实施例中,数据质量积分评估中具体包括:客观性评估,构建数据客观性指标,从数据集中提取特征并计算数据客观性指标,并将客观性受损记录到UDF规则r1中;相关性,通过映射算法构建并计算相关性指标,并将相关性受损记录到UDF规则r2中;充分性,通过对数据集的分布函数进行积分获取数据集的充分性指标,并将充分性受损记录到UDF规则r3中;合法性,定义数据合法性指标,并基于合法性证据及其权重计算数据合法性指标,并将合法性受损记录到UDF规则r3中。
S104:基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
在具体的实施例中,针对单个数据集检查积分核算公式为 其中,/>i表示所有校验规则,j表示已触发校验规则,指标包括:空值校验check1,唯一性校验check2,数据格式校验check3,准确性校验check4,波动性校验check5,一致性校验check6,记录数校验check7,分区数校验check8,UDF规则校验checkn,某个数据集或数据表某一次的检查结果中INSPECTcount表示检查条数,INSPECTrecord表示检查次数。
在一些具体的实施例中,还包括一个项目在一段时间内检查积分多个项目在一段时间内检查积分/> 还可以针对不同时间段例如不同月份、季度的积分进行比对判断,以确保数据的准确合理。
下面结合一个具体的实施例对上述方法进行说明:
图2示出了根据本申请的一个具体的实施例的用于审计数据的质量评估方法的流程图,如图2所示,该方法具体包括以下步骤:
1、审计所需业务系统数据由业务系统对接进入审计监察系统进行数据质量分析,其中业务系统包括如人事系统、财务系统、销售系统、运营系统等。
2、数据质量分析引擎根据数据质量的业务需求对业务系统接入的业务数据进行分析,图3示出了根据本申请的一个具体的实施例的数据分析流程图,如图3所示,数据分析包括根据业务需求进行的业务系统数据结构验证和业务系统数据关联验证,其中,业务系统数据结构验证用于验证来源业务系统数据结构是否符合需求,验证业务系层系统推送的数据结构是否符合业务需求规定,主要验证数据字段、数据类型、数据长度等,如符合需求则进入下一步,如不符合需求则流程终止并记录日志;业务系统数据关联验证用于验证多个来源业务系统数据关联关系及必须必要数据不为空验证,根据业务需求,验证审计监察所需必要必须数据是否有值,多个来源业务系统之间的数据关联关系是否满足业务需求定义。验证通过则进入下一步,如有空值或数据关联关系无法满足业务需求,则流程终止并记录日志。
3、数据质量核定。图4示出了根据本申请的一个具体的实施例的数据质量核定流程图,如图4所示,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性和唯一性核定、可行性评估,对数据基本质量达标核定、符合审计监察业务整体需求的数据进行资产化存储,并出具数据报告。
在具体的实施例中,针对完整性填充:由于业务系统数据的历史问题、审批流程的复杂度等原因导致数据完整性存在缺失,因此在获取业务数据后需要对数据进行完整性填充,具体填充方法包括:
(1)直接剔除法:由于历史问题产生的脏数据直接清除,由于审批过程未完成形成的不全数据也直接剔除,只保留最终有效数据供审计监察系统使用。
(2)使用单一填补法对现有的数据进行填充,以补足数据,单一填补法如下:
均值填补:依照业务需求,用所研究审计监察业务必要变量的均值代替对应缺失值,该方法对审计监察业务必要变量的变异程度及该变量与其他变量的相关程度影响较大;对响应变量进行分层,对于缺失数据,用该层内的均值进行填补,这种方法可以稍微降低对变量变异性的影响。
演绎填补:根据审计监察业务需求搜集相关资料,依据审计监察业务逻辑和常规数据质量要求,对缺失数据进行推断,并计算出可填补的值。
回归填补:使用已对接的业务层系统数据及其关联关系,通过回归建模预测缺失值,进而填补缺失值。
最近距离填补:根据业务层系统对接的数据,采用K-means,KNN等算法进行最近距离填充。选取缺失数据中距离最近的K个样本进行加权平均填充线性插值法,类似用线性回归进行简单的填补。
热卡填补:针对空值的现象,从业务层系统对接数据中找一个与它最相似的数据,然后用这个相似数据的值来进行填充。
冷卡填补:通过业务层系统数据、审计监察已有数据、审计监察结果数据等,根据预设计算公式推算出缺失部分的值,并进行填充。
(3)多重填补:使用业务层系统对接数据相关的M个数据值(插补值)的向量代替每一个缺失值的过程,要求M大于等于20。M个完整数据集合能从插补向量中创建。由该向量的第一个元素代替每一个缺失值从而创建了第一个完整的数据集合,由它的向量中的第二个元素代替每一个缺失值从而创建了第二个完整数据的集合,以此类推,标准完整数据方法被用于分析每一个数据集合,对于一个无回答模型,当m套插补值被重复随机抽取时,m个完整数据推断能被组合起来形成一个正确地反映由于无回答引起的不确定性的推断,当插补值来自两个更多个无回答模型,根据模型的组合推断能在模型间形成对照,以说明模型对无回答的推断灵敏性。通过多个单一插补的组合,多重插补既分享了单一插补的优点,也纠正了其缺点,特别地,在一个无回答模型中,当m重插补重复时,产生M套完全数据分析能很容易地被合并以创建一个有效反应由于确实数据引起抽样变异性的推断。当多重填补来自多个模型,关于校正模型的不确定性由在模型间有效推断的变异表示,与单一插补相比,多重填补唯一的缺点是需要做大量的工作来创建插补集并进行结果分析,然而数据分析中大量工作在今天的计算环境下是非常适度的,因为它主要是执行m次相同的任务,而非一次。
在具体的实施例中,完整性评估是对已对接的业务层系统数据进行度量,评估哪些数据丢失了、哪些数据不可用,哪些数据需要优化清洗,评估结果记录“异常条数为dbe(Data Exception)”,以备后续算法计算使用。下表1中示出了数据完整性样例,样例中将报销金额为负的以及缺失项进行了相应的完整性清理:
表1.数据完整性样例
在具体的实施例中,数据规则清洗包括:非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核/格式化处理、去重、记录数检核。其中:
非空检核:要求字段为非空的情况下,需要对该字段数据进行检核。
主键重复:多个业务系统中同类数据经过清洗后,在统一保存时,为保证主键唯一性,需进行检核工作。
非法代码、非法值清洗:非法代码问题包括非法代码、代码与数据标准不一致等,非法值问题包括取值错误、格式错误、多余字符、乱码等,需根据具体情况进行校核及修正。
数据格式检核:通过检查表中属性值的格式是否正确来衡量其准确性,如时间格式、币种格式、多余字符、乱码。
去重:根据数据主键或数据候选键去除重复数据。
记录数检核:指各个系统相关数据之间的数据总数检核。
在具体的实施例中,精确性核定是根据审计监察业务需求对规则清洗后的数据进行核定,依照审计监察的全面性、广泛性及应审尽审的要求,对数据进行统计与分析,以分析结果逆差比对业务系统层对接过来的全量数据,从而达到数据精确性核定验证。核定结果记录“异常条数为dbe(Data Exception)”,以备后续算法计算使用。
在具体的实施例中,精确性修订是对精确性核定产生的异常数据进行修订,调用完整性填充、数据清洗,而后再调用精确性核定。在精确性修订后产生的异常数据记录到“异常条数为dbe(Data Exception)”,以备后续算法计算使用。
在具体的实施例中,一致性和唯一性核定是针对业务层系统对接过来的数据,经过精确性修订后存储下来的数据进行一致性验证,保证存储下来的数据是合理且符合审计监察业务需求。对数据存储下来的数据对应主键唯一和候选键唯一进行验证核定。对产生的异常数据记录到“表记录异常tr”,以备后续算法计算使用,数据唯一性和一致性的数据样例分别如下表2和表3所示,唯一性表示每条记录都具有独一无二的值,其中空值也属于唯一性的数据,一致性表示每条数据都是符合业务规则的:
表2.数据唯一性样例
表3.数据一致性样例
在具体的实施例中,可行性评估是结合审计监察业务需求,对已存储到审计监察业务系统的数据进行可行性评估,对不符合或歧义的审计监察业务需求的数据进行标定,并记录到“表记录异常tr”,以备后续算法计算使用。
4、审计数据质量积分评估。图5示出了根据本申请的一个具体的实施例的数据积分核定流程图,如图5所示,质量积分评估包括审计数据质量合法性评估、充分性评估、客观性评估和相关性评估。下表4为数据合法及客观性相关样例:
表4.数据合法及客观性相关样例
在具体的实施例中,审计数据质量合法性评估是根据数据申请流程比对从业务层系统获取的数据是否经过授权,授权流程完整的标识为合法,无完整流程的认定为不合法。对以上算法产生的损害影响记录到“UDF规则r4”,以备后续算法计算使用。数据合法性的评估通常涉及对数据的来源、收集过程、合规性等方面进行综合判断,可以使用证据推理的方法来构建一个简化的模型来描述数据合法性。假设有一个数据集D,定义一个数据合法性指标L,表示数据集D的合法程度。该指标可以基于以下证据进行推理:L=f(E1,E2,E3,...,En),其中,E1,E2,E3,...,En表示与数据合法性相关的各种证据。具体地,可以使用如下的简化公式来计算数据合法性指标L:L=w1E1+w2E2+w3E3+...+wnEn,其中,w1,w2,w3,...,wn表示各个证据的权重,用于表示不同证据对数据合法性的重要程度。权重可以根据实际情况和专业判断来确定。通过将各个证据的值乘以相应的权重,并将它们加起来,可以得到数据集D的合法性指标L。指标L的数值越高,表示数据集D的合法性越高。需要注意的是,数据合法性的评估涉及到多个证据和权重的确定,具体的证据和权重需要根据实际情况进行确定,并结合相关的法规、合规标准、数据采集和处理过程等进行综合判断。此公式只是一个简化的模型,用于直观地展示数据合法性与各个证据之间的关系。
在具体的实施例中,对于审计数据质量充分性评估,确定的样本量,样本量越多,越充分;计算是否存在重大数据错报风险的评估,重大错报风险越高,充分性越差;对以上算法产生的损害影响记录到“UDF规则r3”,以备后续算法计算使用。可以使用微积分中的概念来构建一个简化的模型来描述数据充分性。假设有一个数据集D,其中包含n个数据样本。定义数据充分性指标S表示数据集D的充分程度。假设数据集D是一维的,并且每个数据样本可以表示为一个实数值。可以考虑数据集D中数据样本的分布情况,假设数据集D的分布可以用一个连续函数f(x)来近似表示。利用微积分中的积分概念来计算数据充分性指标S=∫[a,b]f(x)dx,其中,[a,b]表示数据集D的取值范围。在数据集D的取值范围[a,b]内,通过对函数f(x)进行积分,可以计算出数据集D的充分性指标S。积分的结果表示了数据集D在该范围内的数据充分程度,具体数值越大表示数据集越充分。需要注意的是,这只是一个简化的模型,假设了数据集D可以用一个连续函数来近似表示。实际情况中,数据的分布可能更加复杂,可能涉及到多个维度和特征,因此综合评估数据充分性需要考虑更多的因素和方法。
在具体的实施例中,对于审计数据质量客观性评估,构建识别损害客观因素算法;系统智能评估识别出的损害因素的严重性;根据历史经验构建经验算法,降低识别出的损害因素相应影响;主动预警提醒有关客观性受损情况;对以上算法产生的损害影响记录到“UDF规则r1”,以备后续算法计算使用。数据客观性的评估涉及对数据的客观性、中立性和真实性等方面进行判断。统计算法可以用来构建一个简化的模型来描述数据客观性。假设有一个数据集D,其中包含n个数据样本。定义数据客观性指标O表示数据集D的客观程度。该指标可以基于统计算法进行计算。具体地,可以使用如下的简化公式来计算数据客观性指标O=f(X),其中,X表示数据集D的特征向量或特征矩阵。函数f(X)代表一个统计算法,用于从数据集D中提取特征并计算数据客观性指标。具体的统计算法可以根据数据集的特点和评估需求选择。例如,可以使用描述统计量(如均值、标准差)来衡量数据的集中趋势和变异程度,或者应用假设检验方法来评估数据的显著性和一致性。需要注意的是,选择合适的统计算法需要根据具体的数据类型和评估目标进行判断。在实际应用中,可能需要使用多个统计算法或采用复杂的模型来综合评估数据的客观性。
在具体的实施例中,对于审计数据质量相关性评估,使用相关性算法对不同来源业务系统或同一来源业务系统数据进行相互推导;使用合规算法来合规不同来源、不同性质的审计数据的同一认定;对不可替代多个数据字段或多个数据集合进行业务层面关联关系评估;对以上算法产生的损害影响记录到“UDF规则r2”,以备后续算法计算使用。数据相关性的评估涉及到衡量数据之间的相关程度,可以使用映射算法来构建一个简化的模型来描述数据相关性。假设有两个数据集D1和D2,它们分别包含n个数据样本。定义一个数据相关性指标C,表示数据集D1和D2之间的相关程度。该指标可以基于映射算法进行计算。具体地,可以使用如下的简化公式来计算数据相关性指标C=f(D1,D2),其中,D1和D2表示两个数据集,而函数f(D1,D2)代表一个映射算法,用于将两个数据集映射到一个相关性指标上。常见的映射算法可以是相关系数,如皮尔逊相关系数、斯皮尔曼等级相关系数或者判别分析算法等。这些算法可以通过计算数据之间的线性关系、排序关系或分类关系来衡量数据的相关性。具体选择哪种映射算法取决于数据的类型和评估目标。不同的映射算法适用于不同类型的数据集和相关性分析要求。需要注意的是,映射算法的选择和数据相关性的评估应该根据具体情况进行,可能需要考虑数据集的特点、数据类型、评估目标以及映射算法的优劣等因素。
5、审计数据综合评定验证及积分核算。具体包括判定质量风险与缺陷的严重程度;判定质量风险与缺陷出现的次数;重复出现历史发现的风险或缺陷,预警没有采取适当的预防措施防止类似缺陷的再次发生;关键数据质量属性风险评估验证;数据质量系统性偏差无法找到偏差或样本数据无法重现的原因评估并验证;根据以上评定原则,对数据质量检查积分进行累积(参考:方案积分规则设计),并给出评分报告。
在具体的实施例中,积分规则设计如下:
针对单个数据集检查积分累积如下:
特征构建如下:
某业务系统中某个数据集(表)某一次的检查结果,检查条数(表记录数)为INSPECTrecord,检查次数INSPECTcount
异常条数为dbe(Data Exception),其中空值异常条数为dbe1,唯一性异常条数dbe2,数据格式异常条数dbe3,准确性异常条数dbe4,波动性异常条数dbe5,一致性异常条数dbe6,其他异常条数dben
表记录数规则1异常次数tr1,规则2异常次数tr2,规则n异常次数trn
UDF规则1异常次数r1,UDF规则2异常次数r2,UDF规则n异常次数rn
其中,单次检查检查次数和异常次数都为1。
指标构建包括:空值校验check1;唯一性校验check2;数据格式校验check3;准确性校验check4;波动性校验check5;一致性校验check6;记录数校验check7;分区数校验check8;UDF规则校验checkn
积分运算:
(1)若权重不重新算:check′i=checki
(2)若权重按校验的规则重新算(i表示所有校验规则,j为已触发规则),当i为有校验规则时:单个规则当i为无校验规则时:check′i=0;则该表该次检查积分公式:/>
对于单个数据集在一个时间段内多次检查积分,参考单个数据集一次检查积分公式,把一个时间段内的多次检查结果叠加,把所有累计的次数叠加,检查条数、检查次数、异常条数、异常次数均叠加,公式不变,计算后可得到分数SCOREt
对于一个项目在一个时间段内检查积分,当某个项目有多个数据集时,通过上述公式分别计算该项目在一个时间段内的所有检查数据集的检查积分,可以得到SCOREt1、SCOREt2......SCOREtn。则该项目检查积分公式:
对于多个项目在一个时间段内检查积分,假设总共有n个项目,通过前述公式分别计算所有项目的检查积分,可以得到SCOREp1、SCOREp2......SCOREpn。则总检查积分公式:在一个具体的示例中,下表5为一个具体积分核算及对应的分值评估结果情况:/>
表5.积分情况示例
由上表可以看出,通过相关分数值可以评估获得相应的评估结果,实现对企业审计所需的各类业务数据内容及其关联关系进行有效可行的认证,更好地服务于企业的各类审计需求,推动企业审计业务有序正向发展。
在一些其他的实施例中,针对不同时间段例如不同月份、季度的积分进行比对判断,可以验证积分数据的合理性和准确性。
本申请采取积分的方式,在业务系统推送过来的数据超出积分阈值,则自动退回,并告知业务系统所推数据质量不合格。并将合理合规的审计数据存储。
图6示出了根据本申请的一个实施例的用于审计数据的质量评估系统的框架图,如图6所示,该系统包括数据获取分析单元601、数据质量核定单元602、数据质量积分评估单元603和积分核算单元604,其中,数据获取分析单元601配置用于获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证;数据质量核定单元602配置用于对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;数据质量积分评估单元603配置用于进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;积分核算单元604配置用于基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
继续参考图7,图7示出了根据本申请的一个实施例的用于审计数据的质量评估系统的框架图,如图7所示,该系统包括数据获取单元701、数据降维单元702、数据聚类单元703和分群结果确认单元704。其中,数据获取单元701配置用于获取电商企业的访客数据,并对访客数据进行清理,获取标准化数据;数据降维单元702配置用于根据输入特征变量的数量对标准化数据进行初步降维处理,确定最优降维数,并将初步降维处理后的数据进一步降维至最优降维数;数据聚类单元703配置用于确定最优聚类数目,并根据最优聚类数目对降维后的数据进行聚类;分群结果确认单元704配置用于对聚类后的分群结果加上离群值访客群体进行特征分析,确定分群结果类别。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括部署单元、指令处理单元和文件访问单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取并分析业务系统数据,分析包括业务系统数据的数据结构验证和数据关联验证;对业务系统数据进行数据质量核定,数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;基于核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于审计数据的质量评估方法,其特征在于,包括:
S1:获取并分析业务系统数据,分析包括所述业务系统数据的数据结构验证和数据关联验证;
S2:对所述业务系统数据进行数据质量核定,所述数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;
S3:进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;
S4:基于所述核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
2.根据权利要求1所述的用于审计数据的质量评估方法,其特征在于,所述S1中的数据结构验证包括数据字段、数据类型和数据长度的验证,所述数据关联验证包括多个来源业务系统之间的数据关联关系验证以及必要数据不为空的验证。
3.根据权利要求1所述的用于审计数据的质量评估方法,其特征在于,所述S2中所述完整性填充包括直接剔除法、单一填补法和多重填补法:
所述直接剔除法将历史问题产生的脏数据或审批过程未完成形成的不全数据直接剔除;
所述单一填补法包括:
均值填补,利用所研究审计监察业务必要变量的均值代替对应缺失值;
演绎填补,依据审计监察业务逻辑和常规数据质量要求,对缺失数据进行推断,计算出可填补的值;
回归填补,使用已对接的业务层系统数据及其关联关系,通过回归建模预测缺失值,进而填补缺失值;
最近距离填补,根据所述业务层系统对接的数据,采用K-means,KNN算法进行最近距离填充;
热卡填补,从所述业务层系统对接数据中找一个最相似的数据进行填充;
所述多重填补为使用所述业务层系统对接数据相关的M个数据值的向量代替每一个缺失值的过程,其中,M大于等于20。
4.根据权利要求1所述的用于审计数据的质量评估方法,其特征在于,所述S2中数据规则清洗包括非空检核、主键重复、非法代码清洗、非法值清洗、数据格式检核、去重和记录数检核。
5.根据权利要求1所述的用于审计数据的质量评估方法,其特征在于,所述S2中的所述核定异常数据包括:所述完整性评估、所述精确性核定、所述精确性修订所获得的对应异常条数dbe,以及所述一致性核定和所述可行性评估所获得的表记录异常数据tr。
6.根据权利要求5所述的用于审计数据的质量评估方法,其特征在于,所述S3的所述数据质量积分评估中具体包括:
客观性评估,构建数据客观性指标,从数据集中提取特征并计算所述数据客观性指标,并将客观性受损记录到UDF规则r1中;
相关性,通过映射算法构建并计算相关性指标,并将相关性受损记录到UDF规则r2中;
充分性,通过对数据集的分布函数进行积分获取数据集的充分性指标,并将充分性受损记录到UDF规则r3中;
合法性,定义数据合法性指标,并基于合法性证据及其权重计算所述数据合法性指标,并将合法性受损记录到UDF规则r4中。
7.根据权利要求6所述的用于审计数据的质量评估方法,其特征在于,所述S4中针对单个数据集检查积分核算公式为SCOREt 其中,/>i表示所有校验规则,j表示已触发校验规则,指标包括:空值校验check1,唯一性校验check2,数据格式校验check3,准确性校验check4,波动性校验check5,一致性校验check6,记录数校验check7,分区数校验check8,UDF规则校验checkn,某个数据集或数据表某一次的检查结果中INSPECTcount表示检查条数,INSPECTrecord表示检查次数。
8.根据权利要求7所述的用于审计数据的质量评估方法,其特征在于,还包括一个项目在一段时间内检查积分多个项目在一段时间内检查积分
9.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。
10.一种用于审计数据的质量评估系统,其特征在于,所述系统包括:
数据获取分析单元:配置用于获取并分析业务系统数据,分析包括所述业务系统数据的数据结构验证和数据关联验证;
数据质量核定单元:配置用于对所述业务系统数据进行数据质量核定,所述数据质量核定包括完整性填充、完整性评估、数据规则清洗、精确性核定、精确性修订、一致性核定和可行性评估,并获取对应核定异常数据;
数据质量积分评估单元:配置用于进行数据质量积分评估,包括客观性、相关性、充分性和合法性评估,获取对应UDF规则记录数据;
积分核算单元:配置用于基于所述核定异常数据和UDF规则记录数据进行积分核算,并输出评分报告。
CN202310575725.2A 2023-05-22 2023-05-22 一种用于审计数据的质量评估方法和系统 Pending CN116663978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310575725.2A CN116663978A (zh) 2023-05-22 2023-05-22 一种用于审计数据的质量评估方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310575725.2A CN116663978A (zh) 2023-05-22 2023-05-22 一种用于审计数据的质量评估方法和系统

Publications (1)

Publication Number Publication Date
CN116663978A true CN116663978A (zh) 2023-08-29

Family

ID=87725286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310575725.2A Pending CN116663978A (zh) 2023-05-22 2023-05-22 一种用于审计数据的质量评估方法和系统

Country Status (1)

Country Link
CN (1) CN116663978A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591530A (zh) * 2024-01-17 2024-02-23 杭银消费金融股份有限公司 一种数据截面处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117591530A (zh) * 2024-01-17 2024-02-23 杭银消费金融股份有限公司 一种数据截面处理方法及系统
CN117591530B (zh) * 2024-01-17 2024-04-19 杭银消费金融股份有限公司 一种数据截面处理方法及系统

Similar Documents

Publication Publication Date Title
JP4541364B2 (ja) 意味のある変動を明らかにする自動監視及び動的プロセスメトリクスの統計分析
US6832205B1 (en) System and method for automatically predicting the timing and costs of service events in a life cycle of a product
EP1160712A2 (en) System and method for predicting the timing of future service events of a product
US20150309963A1 (en) Dynamic outlier bias reduction system and method
EP2770442A2 (en) Dynamic outlier bias reduction system and method
CN110457294B (zh) 一种数据处理方法和装置
Amasaki et al. A Bayesian belief network for assessing the likelihood of fault content
CN112734559B (zh) 企业信用风险评价方法、装置及电子设备
CN110728422A (zh) 用于施工项目的建筑信息模型、方法、装置和结算系统
CN116663978A (zh) 一种用于审计数据的质量评估方法和系统
US20170270546A1 (en) Service churn model
JP2021528760A (ja) ログパターンの分析方法
CN110888813A (zh) 项目排期管理方法、装置、设备及存储介质
JP6975086B2 (ja) 品質評価方法および品質評価装置
CN111798246A (zh) 一种金融风险等级评估方法和装置
CN116506186A (zh) 网络安全等级保护测评数据的大数据分层分析方法
CN111737247B (zh) 用于数据质量管控的实现方法
CN115496440A (zh) 一种二手车库存量的确定方法及装置
EP1146468A2 (en) System and method for predicting timing and costs of service events in a life cycle of a product
TW201833825A (zh) 因果關係評估裝置、因果關係評估系統以及因果關係評估方法
McNulty Severity Curve Fitting for Long Tailed Lines: An Application of Stochastic Processes and Bayesian Models
US20140330615A1 (en) Risk estimation of inspection sites
CN115423379B (zh) 基于溯源信息的置信度评估方法、系统、终端及存储介质
CN116934418B (zh) 一种异常订单的检测预警方法、系统、设备及存储介质
Fragassa Analysis of Production and Failure Data in Automotive: From Raw Data to Predictive Modeling and Spare Parts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination