CN115080921A - 一种基于审计敏感的改进的Top-k Dominating算法 - Google Patents

一种基于审计敏感的改进的Top-k Dominating算法 Download PDF

Info

Publication number
CN115080921A
CN115080921A CN202210890506.9A CN202210890506A CN115080921A CN 115080921 A CN115080921 A CN 115080921A CN 202210890506 A CN202210890506 A CN 202210890506A CN 115080921 A CN115080921 A CN 115080921A
Authority
CN
China
Prior art keywords
objects
data
dimension
dominated
audit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210890506.9A
Other languages
English (en)
Other versions
CN115080921B (zh
Inventor
钱钢
吴丹琪
徐超
章之旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NANJING AUDIT UNIVERSITY
Original Assignee
NANJING AUDIT UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NANJING AUDIT UNIVERSITY filed Critical NANJING AUDIT UNIVERSITY
Priority to CN202210890506.9A priority Critical patent/CN115080921B/zh
Publication of CN115080921A publication Critical patent/CN115080921A/zh
Application granted granted Critical
Publication of CN115080921B publication Critical patent/CN115080921B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Development Economics (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及审计数据分析技术领域,具体公开了一种基于审计敏感的改进的Top‑k Dominating算法,包括如下步骤:S1、构建数据集位图;S2、统计数据对象的最大支配数量;S3、计算数据对象的权重支配得分上界;S4、依次访问数据对象,判断剪枝条件;S5、统计数据对象的实际支配的对象集合;S6、计算数据对象的权重支配分数;S7、返回k个分数最高的对象结果;本发明利用位图的快速按位操作提高对象间比较的效率;针对数据缺失的现实问题能够处理不完整数据集,并且考虑审计敏感的重要属性维度,满足审计工作的个性化需求,获取更具有影响力的对象结果推荐给审计人员以进行深入调查分析。

Description

一种基于审计敏感的改进的Top-k Dominating算法
技术领域
本发明涉及审计数据分析技术领域,具体为一种基于审计敏感的改进的Top-kDominating算法。
背景技术
审计工作一直得到国内外政府和社会的重视。随着被审计单位信息化趋向普及,审计对象的信息化使得审计信息化成为必然,国内外高度重视审计信息化工作。对我国来说,在信息化环境下如何审计被审计单位的电子数据,发现大案、要案,是政府审计的一项重要任务;国际内部审计师协会也高度关注电子数据分析技术。可见,电子数据审计是目前国内外审计领域关注的重点。电子数据审计一般可以被理解为“对被审计单位的电子数据进行采集、预处理以及分析,从而发现审计线索,获得审计证据的过程”。
数据不完整是一种常见的数据质量问题,在某些情况下,数据中的很多缺失值是无法被确定的。审计机关在开展审计项目时,采集的数据主要由被审计单位提供,由于政策变更、人员变更、时限问题以及被审计单位规避风险的意图等因素,可能存在某些数据缺失的情况。对于不完整的数据集的处理和分析,通常需要先对其进行预处理,常用方法有简单删除存在缺失值的对象,如完整样本分析,或者数据修复,即采用各种技术填补缺失值,如均值填充法、期望最大化填补法、基于最近邻区间的聚类填补等。在以往的不完整数据上处理分析的研究中,数据的预处理是重要一步,借助一定的辅助知识,或者其他数据中的信息,来减少低质量数据中的错误,提高数据的可用性,为查询、挖掘和分析等操作提供有效的支持。不同于前两种方法均将不完整数据转换成完整的数据,特殊处理法则对不完整数据构建新的模型,给出新的定义,例如不完整数据上的支配关系定义、不完整对象间距离函数定义、不完整数据间距离的概率估计等,直接处理不完整数据。
Papadias等人提出Top-k Dominating查询(TKD)的概念,从巨大的数据空间中返回更具有价值的有限的数据,该查询结合了Top-k和Skyline的优势,在给定skyline准则的属性集合上,对象o1支配另一对象o2,当且仅当o1在所有属性维度上不比o2差,并且在至少一个属性维度上严格地比o2好。依据这样的支配关系,定义被对象o所支配的对象数量作为对象o的支配分数,最后Top-k Dominating查询返回支配分数最高的k个对象。
传统的Top-k Dominating算法不能满足当前海量不完整数据集下的审计要求,具有三个主要的缺陷,表现为:
1,数据集中的所有对象需要两两比较以判断支配关系,查询效率低下;
2,未关注海量数据集中有缺失值的情况;
3,未考虑审计关注的重点属性,不能区分属性的重要性程度,获取审计敏感的对象。
发明内容
本发明的目的在于提供一种基于审计敏感的改进的Top-k Dominating算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于审计敏感的改进的Top-kDominating算法,包括如下步骤:
S1、构建数据集位图:对数据集S中的每个数据对象用位串表示其在所有维度上的属性值情况,构建整个数据集的位图;
S2、统计数据对象的最大支配数量:通过位图的快速按位操作计算每个数据对象o支配的对象数量的上界,获得所有可能被o支配的对象集合;
S3、计算数据对象的权重支配得分上界:依据审计准则和审计重点,确定审计敏感的重点属性,为数据集S上的每个属性维度赋予权重,基于所有可能被对象o支配的对象集合,计算o的权重支配得分上界MaxWeightGrade(o);
S4、依次访问数据对象,判断剪枝条件:将数据集S上的对象按其MaxWeightGrade降序排列后依次访问,与查询候选集SC比较,若对象o满足剪枝条件,则算法提前终止;若对象o不满足剪枝条件,未被过滤,则进行下一个步骤;
S5、统计数据对象的实际支配的对象集合:若对象o未被过滤,则统计其实际支配的其他对象的数量,获得被o支配的对象集合;
S6、计算数据对象的权重支配分数:基于属性维度的权重和实际支配的对象集合,计算对象o的权重支配分数WeightGrade(o),并与候选集SC的最小分数比较,判断是否将对象o加入候选集SC中;
S7、返回k个分数最高的对象结果:更新候选集合SC,并重复S4~S6,直到数据对象全部访问完毕或者满足剪枝条件提前终止,返回数据对象的结果集SR,得到k个分数最高的对象结果。
优选的,所述步骤S1中,构建数据集位图的具体过程包括如下步骤:
S11、对于不完整数据集S上的所有对象o,每个对象用长度为
Figure 455159DEST_PATH_IMAGE001
的位串表示,其中,
Figure 629789DEST_PATH_IMAGE002
表示对象o在第i维上的子串位数,d表示数据集上共有d个属性维度,对象o在每个维度上的值由一个
Figure 27272DEST_PATH_IMAGE002
的子串表示,Li表示在第i维上不同观测值的总数,额外增加一个比特位代表缺失值;
S12、对象在每个维度上的属性值用该维上
Figure 38084DEST_PATH_IMAGE002
位的子串来表示。
Figure 444795DEST_PATH_IMAGE002
位的子串中,第1位对应缺失值,自第2位开始依次对应第i维中一组由小到大排好序的属性值。初始化子串编码全为“1”,若对象o在第i维上观测到某个值,则该值对应的子串位及其之后的所有位均设置为“0”;若对象o在第i维上的值缺失,则该维的子串全部编码为“1”;
S13、连接每个维度的子串,构成对象o的位串,每个数据对象用一个位串表示,构成整个数据集的位图。
优选的,所述步骤S2中,统计每个数据对象o的最大支配数量的过程包括如下步骤:
S21、定义两个与对象o相关的对象集合M和N:集合M表示除对象o以外,在Dset(o)的每个维度上不比o好或存在缺失值的对象集合;集合N表示在Dset(o)的每个维度上比o更差或存在缺失值的对象集合,Dset(o)表示对象o的存在属性值的维度集合;
S22、仅考虑单个维度,第i维上,
Figure 457619DEST_PATH_IMAGE003
Figure 26004DEST_PATH_IMAGE004
均包括可能被o支配的对象。将对象集合
Figure 507801DEST_PATH_IMAGE003
Figure 937776DEST_PATH_IMAGE004
用位向量
Figure 86998DEST_PATH_IMAGE005
Figure 826284DEST_PATH_IMAGE006
表示,该位向量从数据集位图中抽取。位向量
Figure 44644DEST_PATH_IMAGE005
Figure 527578DEST_PATH_IMAGE006
的长度均为数据集S的基数|S|,每一个比特位对应于一个对象。如果
Figure 265727DEST_PATH_IMAGE003
Figure 926647DEST_PATH_IMAGE004
包含某一个对象,则该对象在向量中对应的位编码为“1”,否则该位设为“0”;
S23、o[i]表示对象o在第i维上的属性值,如果o[i]缺失,则
Figure 383036DEST_PATH_IMAGE007
;如果o[i]存在,则
Figure 404081DEST_PATH_IMAGE008
Figure 777163DEST_PATH_IMAGE009
,由此
Figure 327093DEST_PATH_IMAGE010
Figure 270778DEST_PATH_IMAGE011
。基于位图中的位向量
Figure 95515DEST_PATH_IMAGE005
Figure 558988DEST_PATH_IMAGE006
,可以通过快速按位操作获得集合M和N;
S24、M集合包括了所有可能被对象o支配的对象,因此|M|是o支配的对象数量的上界。
优选的,所述步骤S3中,计算对象o的权重支配得分上界MaxWeightGrade(o)的计算过程包括如下步骤:
S31、依据审计准则和审计重点,确定审计敏感的重点属性,为数据集S上的每个属性维度赋予权重,第i维的权重为
Figure 810978DEST_PATH_IMAGE012
,权值越大表示该维度的属性值越重要;
S32、基于M集合,对象o的权重支配得分上界为
Figure 976380DEST_PATH_IMAGE013
其中,
Figure 588496DEST_PATH_IMAGE014
是M集合中在第i维上有属性值的对象数量,
Figure 421323DEST_PATH_IMAGE015
是M集合中在第i维上缺失属性值的对象数量。
优选的,所述步骤S4中,依次访问数据对象,判断剪枝条件的过程包括如下步骤:
S41、设置一个大小为k的候选集合SC,令τ等于SC中对象的最小分数,初始化SC为空集,τ=-1;
S42、将数据集S上的对象按其MaxWeightGrade降序排列得到访问队列P,依次访问P中的对象;
S43、若
Figure 844214DEST_PATH_IMAGE016
,则对象o可以被TKD查询安全剪枝,提前终止算法,否则,进一步计算对象o的实际权重支配分数。
优选的,所述步骤S5中,统计对象o实际支配的对象集合的过程包括如下步骤:
S51、定义两个与对象o相关的对象集合
Figure 513223DEST_PATH_IMAGE017
Figure 679763DEST_PATH_IMAGE018
Figure 632675DEST_PATH_IMAGE017
表示数据集中与o不可比较的对象集合,即在o所有可观测维度Dset(o)上,
Figure 210156DEST_PATH_IMAGE017
中的对象均无观测值。
Figure 350150DEST_PATH_IMAGE018
表示集合(M-N)中不被o支配的对象集合,即在Dset(o)上,两个对象的观测值均相等;
S52、令集合R表示被对象o支配的对象集合,R可以被划分为两个不相交的子集
Figure 320380DEST_PATH_IMAGE019
Figure 347373DEST_PATH_IMAGE020
。其中
Figure 377646DEST_PATH_IMAGE021
,表示所有对象p使得在所有维度
Figure 4937DEST_PATH_IMAGE022
上满足p严格比o差且同时被o支配。
Figure 762546DEST_PATH_IMAGE023
,表示所有对象q使得q至少在一个维度上与o有相同的观测值且q被o支配。因此,
Figure 158892DEST_PATH_IMAGE024
优选的,所述步骤S6中,计算对象o的权重支配分数WeightGrade(o)为:
Figure 94487DEST_PATH_IMAGE025
其中,Num1(i)表示在第i维上,集合R中,该维度存在属性值的对象的数量;Num2(j)表示在第j维上,集合R中,该维度缺失属性值的对象的数量,即
Figure 225385DEST_PATH_IMAGE026
Figure 537418DEST_PATH_IMAGE027
优选的,所述步骤S7中,更新数据对象的候选集合SC,返回数据对象的结果集SR的过程包括如下步骤:
S71、初始化SC=∅,τ=-1;
S72、如果τ=-1,说明候选集SC中的对象数量小于k,转向步骤S73;否则,转向步骤S74;
S73、将对象o直接加入SC中,然后转向步骤S4,从队列P中访问下一个对象;
S74、τ≠-1,说明候选集SC已满,有k个对象;如果WeightGrade(o)>τ,则对象o被加入到SC中的同时,将具有最小分数的对象从SC中删除,并更新τ为当前SC中的最小分数,然后转向步骤S4,从队列P中访问下一个对象;
S75、重复S4~S7,直到数据对象全部访问完毕或者满足剪枝条件提前终止,返回数据对象的结果集SR。SR中包含k个WeightGrade最高、在敏感属性上表现力最强的对象,可为审计人员进一步调查分析提供线索。
与现有技术相比,本发明的有益效果是:
1、在对本发明算法的仿真过程中,本发明改进的算法与原有Top-k Dominating算法执行时间的比较,横轴表示数据集大小,纵轴表示算法的执行时间。可以看到,改进的算法的查询效率有明显的提升;
2、本发明针对存在质量问题的海量数据集,将缺失值纳入了考虑范围,能够处理不完整数据集,满足用户个性化需求,获取具有影响力的对象结果推荐给用户;
3、在审计过程中,运用本发明算法能够依据审计准则和审计重点方向对采集的电子数据进行高效查询,获得审计敏感的对象以作进一步调查,本发明便于审计人员高效地发现审计线索,获取有效审计证据。
附图说明
图1为本发明的流程图;
图2是本发明实施例算法的流程图;
图3显示的是本发明实施例算法与已有算法执行时间的比较图;
图4是示例的样本数据集表图;
图5是样本数据集的位图索引表图;
图6是空气质量监测数据部分示例表图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1~6,以下描述本发明的一个实施例,以作进一步的说明:
一种基于审计敏感的改进的Top-k Dominating算法,包括如下步骤:
S1、将数据集S中的每个数据对象用位串表示,以图4的样本数据集示例,构建20个对象的位图;
S2、统计20个数据对象支配的对象数量的上界,获得所有可能被o支配的对象集合;
S3、对于该样本数据集上的四个属性维度,假设d1维最重要,d4维最不重要,因此,在属性维度集合D=(d1, d2, d3, d4)上赋予权重向量W=(2, 1, 1, 0.5),设置d1到d4属性维度的权重分别为2, 1, 1, 0.5,权值越大表示该维度的属性值越重要。基于所有可能被对象o支配的对象集合,分别计算20个对象的权重支配得分上界MaxWeightGrade;
S4、将20个对象按其MaxWeightGrade降序排列后依次访问,与查询候选集SC比较,若对象o满足剪枝条件,则算法提前终止;若对象o不满足剪枝条件,未被过滤,则进行下一个步骤;
S5、若对象o未被过滤,则统计其实际支配的其他对象的数量,获得被o支配的对象集合;
S6、基于步骤S3中设置的权重向量和实际支配的对象集合,计算对象o的权重支配分数WeightGrade(o),并与候选集SC的最小分数比较,判断是否将对象o加入候选集SC中;
S7、更新候选集合SC,并重复S4~S6,直到数据对象全部访问完毕或者满足剪枝条件提前终止,返回数据对象的结果集SR,得到k个分数最高的对象结果。
请参阅图5,在本实施例的步骤S1中,对样本数据集构建位图,包括以下步骤:
步骤11:在样本数据集的四个属性维度上,分别用
Figure 788271DEST_PATH_IMAGE028
位的子串表示;在d1维上总共有八个不同的属性值{1,2,3,4,5,6,8,9},即L1=8,因此在位图上,所有对象的d1维用(8+1)位的子串表示;同理,在d2维({1,2,4,6,7})、d3维({1,2,3,4,8})和d4维({1,2,3,4,5})均用(5+1)位的子串表示。
步骤12:通过子串编码记录对象在各维度的属性值。在第d1维上总共有8个不同的观测值,因此对应的位图上,d1维用9位的子串表示,第1位表示缺失值,第2位表示属性值1,第3位表示属性值2等等。对象A1在d1维的值为3,即A1[1]=3,因此表示属性值3的位(第四位)和其后所有位都被设为0,因此A1在d1维的子串表示为111000000。类似地,A1在d2维的子串表示为111111,在d3维的子串表示为100000,在d4维的子串表示为111000。同理,可得样本数据集中的其余19个对象的子串表示。
步骤13:连接对象A1在四个维度的子串,构成对象A1的位串,由20个对象的位串构成的样本数据集位图如图5所示。
在本实施例的步骤S2中,统计每个数据对象o的最大支配数量,包括以下步骤:
步骤21:集合M表示除对象o以外,在Dset(o)的每个维度上不比o好或存在缺失值的对象集合;集合N表示在Dset(o)的每个维度上比o更差或存在缺失值的对象集合,Dset(o)表示对象o的存在属性值的维度集合。
步骤22:仅考虑单个维度,数据集中总共有20个对象,因此,每一个对象o的位向量
Figure 878455DEST_PATH_IMAGE029
Figure 745917DEST_PATH_IMAGE006
均有20位比特。第一位对应于A1,第二位对应于A2,诸如此类,直到第二十位对应于D5。以A2为例,其在第3维上的对象集合
Figure 596061DEST_PATH_IMAGE030
,则相应的位向量[M3]=011111111111111111011,对象集合
Figure 717732DEST_PATH_IMAGE031
,相应的位向量[N3]=001111111111111110011。
步骤23:集合M表示除o以外在Dset(o)的每一个维度上不比o好或者存在缺失值的对象集合。以对象A2为例,从位图中获得四个维度上的
Figure 995130DEST_PATH_IMAGE005
位向量如下:
[M1]=111111111111111111111,
[M2]=111111111111111111111,
[M3]=011111111111111111011,
[M4]=111111111111111111111。
步骤24:A2的集合M为
Figure 84309DEST_PATH_IMAGE032
在本实施例的步骤S3中,计算对象o的权重支配得分上界MaxWeightGrade(o),包括以下步骤:
步骤31:假设属性维度的权重向量为W=(2,1,1,0.5),λ=0.4;
步骤32:对于对象A2,其可能支配的对象集合上界
Figure 10849DEST_PATH_IMAGE033
,分析这17个对象,在d1维上,存在属性值的对象有17个,缺失属性值的对象0个;在d3维上,存在属性值的对象有7个,缺失属性值的对象有10个;在d4维上,存在属性值的对象有8个,缺失属性值的对象有9个。
因此统计得到
Figure 236294DEST_PATH_IMAGE034
Figure 950172DEST_PATH_IMAGE035
。由此计算得到A2的权重支配分数上界
Figure 11800DEST_PATH_IMAGE036
同理,计算其余19个对象的权重支配分数上界。
在本实施例的步骤S4中,依次访问数据对象,判断剪枝条件,包括以下步骤:
步骤41、假设查询两个对象,k=2,初始化候选集SC=∅,τ=-1;
步骤42、将20个对象按权重支配分数上界值降序排列得到的优先队列P如下表所示:
o A<sub>2</sub> B<sub>1</sub> D<sub>3</sub> C<sub>3</sub> C<sub>2</sub>
MaxWeightGrade 50.8 48.0 45.6 45.3 39.2
o A<sub>3</sub> D<sub>1</sub> A<sub>1</sub> B<sub>2</sub> D<sub>2</sub>
MaxWeightGrade 38.3 36.6 36.3 35.4 31.8
o D<sub>5</sub> C<sub>1</sub> D<sub>4</sub> B<sub>4</sub> A<sub>5</sub>
MaxWeightGrade 28.8 26.7 25.8 17.4 14.5
o C<sub>4</sub> A<sub>4</sub> C<sub>5</sub> B<sub>5</sub> B<sub>3</sub>
MaxWeightGrade 12.8 8.7 6.4 6.0 3.0
步骤43、从队列P中依次访问对象,若
Figure 203747DEST_PATH_IMAGE016
,则对象o可以被TKD查询安全剪枝,提前终止算法,否则,进一步计算对象o的实际权重支配分数。
在本实施例的步骤S5中,统计对象o实际支配的对象集合,包括以下步骤:
步骤51、定义两个与对象o相关的对象集合
Figure 814857DEST_PATH_IMAGE017
Figure 417745DEST_PATH_IMAGE018
Figure 481516DEST_PATH_IMAGE017
表示数据集中与o不可比较的对象集合,即在o所有可观测维度Dset(o)上,
Figure 477154DEST_PATH_IMAGE017
中的对象均无观测值。
Figure 427924DEST_PATH_IMAGE018
表示集合(M-N)中不被o支配的对象集合,即在Dset(o)上,两个对象的观测值均相等。在该样本数据集中,针对数据集中的所有对象,两两之间均可相互比较,因此
Figure 218025DEST_PATH_IMAGE037
步骤52、令集合R表示被对象o支配的对象集合,R可以被划分为两个不相交的子集
Figure 769092DEST_PATH_IMAGE038
Figure 286530DEST_PATH_IMAGE020
。其中
Figure 606653DEST_PATH_IMAGE021
,表示所有对象p使得在所有维度
Figure 567656DEST_PATH_IMAGE022
上满足p严格比o差且同时被o支配。
Figure 356752DEST_PATH_IMAGE023
,表示所有对象q使得q至少在一个维度上与o有相同的观测值且q被o支配。因此,
Figure 428613DEST_PATH_IMAGE024
以对象A2为例,从位图中获得A2相应的位向量如下:
Figure 868821DEST_PATH_IMAGE039
Figure 984414DEST_PATH_IMAGE040
,
Figure 510073DEST_PATH_IMAGE041
Figure 120046DEST_PATH_IMAGE042
Figure 431073DEST_PATH_IMAGE043
Figure 999457DEST_PATH_IMAGE044
Figure 481254DEST_PATH_IMAGE045
Figure 409765DEST_PATH_IMAGE046
由于
Figure 293407DEST_PATH_IMAGE047
,因此计算A2的权重支配分数。
Figure 32693DEST_PATH_IMAGE048
Figure 18098DEST_PATH_IMAGE049
,由此可得
Figure 969873DEST_PATH_IMAGE050
Figure 239181DEST_PATH_IMAGE051
。随后,算法检查
Figure 133056DEST_PATH_IMAGE052
中的对象,由于
Figure 855024DEST_PATH_IMAGE053
,所以具体检查对象在第一、三、四维的值。在第一维上,属性值等于
Figure 610491DEST_PATH_IMAGE054
的对象有
Figure 219458DEST_PATH_IMAGE055
;在第三维上,属性值等于
Figure 34967DEST_PATH_IMAGE056
的对象有
Figure 244232DEST_PATH_IMAGE057
;在第四维上,属性值等于
Figure 318236DEST_PATH_IMAGE058
的对象有
Figure 30977DEST_PATH_IMAGE059
。在这些对象中,只有对象B1属性值与A2相等的数量等于其与A2共同可观测维度的个数,因此
Figure 17387DEST_PATH_IMAGE060
。此后可得
Figure 448369DEST_PATH_IMAGE061
Figure 296370DEST_PATH_IMAGE062
进而求得
Figure 394776DEST_PATH_IMAGE063
在本实施例的步骤S6中,计算对象o的权重支配分数:基于R集合,统计得到
Figure 286509DEST_PATH_IMAGE064
Figure 454054DEST_PATH_IMAGE065
,由此计算得到A2的权重支配分数
Figure 620593DEST_PATH_IMAGE066
在本实施例的步骤S7中,更新数据对象的候选集合SC,返回数据对象的结果集SR的过程,包括如下步骤:
初始化Sc为空集,τ=-1,候选集的大小为k=2;该数据集对应的优先级队列P如步骤4中所示,位图如图5所示。算法开始依次访问队列P中的前两个对象A2和B1,首先评估对象A2,并将A2加入到候选集SC中。接下来,算法选取对象B1,类似地,求得
Figure 307926DEST_PATH_IMAGE067
,将B1加入到SC中。此时,
Figure 386872DEST_PATH_IMAGE068
Figure 792445DEST_PATH_IMAGE069
。之后评估对象D3、C3,它们的
Figure 762675DEST_PATH_IMAGE070
均大于τ,因此未被剪枝,计算其权重支配分数,但由于权重支配分数均小于τ,所以不加入SC中。继续评估对象C2,由于
Figure 553783DEST_PATH_IMAGE071
,达到剪枝条件,算法提前终止,最终返回T2D查询结果集合
Figure 318476DEST_PATH_IMAGE072
,作为该样本数据集中的推荐对象。
在审计领域,审计人员可以理解上述实施例方法中的全部或部分步骤,基于审计目标和准则,应用该方法对采集的相关数据进行查询,挖掘审计线索,获取审计敏感的关键信息,以明确进一步调查取证的重点和方向。以大气污染防治的绩效审计为例,审计人员可采集各个城市监测点每日的空气质量指数,经过简单的转换处理后,运用上述实施例方法,查询空气质量表现最差的一些地区,获取审计线索,明确进一步开展延伸审计的重点地区,对这些地区的防治政策落实情况和实施效果进行详细审查。部分数据示例参考附图6。
空气质量指数的日监测数据,数据对象为N个城市监测站,每个监测站对象具有D个日期维度。对空气质量指数进行转换,以1-6的数值表示空气质量等级,等级数值越低表示空气质量越好,其中:
1表示空气质量指数(AQI)为0-50,等级为优;
2表示AQI为51-100,等级为良;
3表示AQI为101-150,等级为轻度污染;
4表示AQI为151-200,等级为中度污染;
5表示AQI为201-300,等级为重度污染;
6表示AQI大于300,等级为严重污染。
数据集中各个监测站在相应日期维度上的属性值表示该监测站在当日的空气质量等级。由于数据监测、采集、统计等各环节容易受到影响,数据会存在缺失情况。对于该数据集,审计人员定义支配关系中属性值越高越好,并设置k值,运用实施例方法查询返回的k个得分最高的对象是空气质量表现最差的k个地区,这一查询结果作为审计线索,为审计人员进一步开展详细审查明确了重点方向。此外,针对特定需求,比如当有重大活动举办时,有关部门通常会加强空气质量的管控和治理,这段时间的空气质量情况更加重要,则相应的日期维度是审计敏感的,审计人员可以增加这些维度上的权重,从而查询可以获得特定时期表现更差的地区进行重点审查。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:包括如下步骤:
S1、构建数据集位图:对数据集S中的每个数据对象用位串表示其在所有维度上的属性值情况,构建整个数据集的位图;
S2、统计数据对象的最大支配数量:通过位图的快速按位操作计算每个数据对象o支配的对象数量的上界,获得所有可能被o支配的对象集合;
S3、计算数据对象的权重支配得分上界:依据审计准则和审计重点,确定审计敏感的重点属性,为数据集S上的每个属性维度赋予权重,基于所有可能被对象o支配的对象集合,计算o的权重支配得分上界MaxWeightGrade(o);
S4、依次访问数据对象,判断剪枝条件:将数据集S上的对象按其MaxWeightGrade降序排列后依次访问,与查询候选集SC比较,若对象o满足剪枝条件,则算法提前终止;若对象o不满足剪枝条件,未被过滤,则进行下一个步骤;
S5、统计数据对象的实际支配的对象集合:若对象o未被过滤,则统计其实际支配的其他对象的数量,获得被o支配的对象集合;
S6、计算数据对象的权重支配分数:基于属性维度的权重和实际支配的对象集合,计算对象o的权重支配分数WeightGrade(o),并与候选集SC的最小分数比较,判断是否将对象o加入候选集SC中;
S7、返回k个分数最高的对象结果:更新候选集合SC,并重复S4~S6,直到数据对象全部访问完毕或者满足剪枝条件提前终止,返回数据对象的结果集SR,得到k个分数最高的对象结果。
2.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S1中,构建数据集位图的具体过程包括如下步骤:
S11、对于不完整数据集S上的所有对象o,每个对象用长度为
Figure 908899DEST_PATH_IMAGE001
的位串表示,其中,
Figure 344559DEST_PATH_IMAGE002
表示对象o在第i维上的子串位数,d表示数据集上共有d个属性维度,对象o在每个维度上的值由一个
Figure 319468DEST_PATH_IMAGE003
的子串表示,Li表示在第i维上不同观测值的总数,额外增加一个比特位代表缺失值;
S12、对象在每个维度上的属性值用该维上
Figure 738948DEST_PATH_IMAGE003
位的子串来表示;
Figure 559137DEST_PATH_IMAGE003
位的子串中,第1位对应缺失值,自第2位开始依次对应第i维中一组由小到大排好序的属性值;初始化子串编码全为“1”,若对象o在第i维上观测到某个值,则该值对应的子串位及其之后的所有位均设置为“0”;若对象o在第i维上的值缺失,则该维的子串全部编码为“1”;
S13、连接每个维度的子串,构成对象o的位串,每个数据对象用一个位串表示,构成整个数据集的位图。
3.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S2中,统计每个数据对象o的最大支配数量的过程包括如下步骤:
S21、定义两个与对象o相关的对象集合M和N:集合M表示除对象o以外,在Dset(o)的每个维度上不比o好或存在缺失值的对象集合;集合N表示在Dset(o)的每个维度上比o更差或存在缺失值的对象集合,Dset(o)表示对象o的存在属性值的维度集合;
S22、仅考虑单个维度,第i维上,
Figure 990249DEST_PATH_IMAGE004
Figure 136060DEST_PATH_IMAGE005
均包括可能被o支配的对象;将对象集合
Figure 183781DEST_PATH_IMAGE004
Figure 73240DEST_PATH_IMAGE005
用位向量
Figure 483493DEST_PATH_IMAGE006
Figure 534625DEST_PATH_IMAGE007
表示,该位向量从数据集位图中抽取;位向量
Figure 397539DEST_PATH_IMAGE006
Figure 700476DEST_PATH_IMAGE007
的长度均为数据集S的基数|S|,每一个比特位对应于一个对象;如果
Figure 230814DEST_PATH_IMAGE008
Figure 452848DEST_PATH_IMAGE009
包含某一个对象,则该对象在向量中对应的位编码为“1”,否则该位设为“0”;
S23、o[i]表示对象o在第i维上的属性值,如果o[i]缺失,则
Figure 334216DEST_PATH_IMAGE010
;如果o[i]存在,则
Figure 34319DEST_PATH_IMAGE011
Figure 294530DEST_PATH_IMAGE012
,由此
Figure 687466DEST_PATH_IMAGE013
Figure 790551DEST_PATH_IMAGE014
;基于位图中的位向量
Figure 559924DEST_PATH_IMAGE006
Figure 799275DEST_PATH_IMAGE007
,可以通过快速按位操作获得集合M和N;
S24、M集合包括了所有可能被对象o支配的对象,因此|M|是o支配的对象数量的上界。
4.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S3中,计算对象o的权重支配得分上界MaxWeightGrade(o)的计算过程包括如下步骤:
S31、依据审计准则和审计重点,确定审计敏感的重点属性,为数据集S上的每个属性维度赋予权重,第i维的权重为
Figure 769636DEST_PATH_IMAGE015
,权值越大表示该维度的属性值越重要;
S32、基于M集合,对象o的权重支配得分上界为
Figure 625597DEST_PATH_IMAGE016
其中,
Figure 667502DEST_PATH_IMAGE017
是M集合中在第i维上有属性值的对象数量,
Figure 902306DEST_PATH_IMAGE018
是M集合中在第i维上缺失属性值的对象数量。
5.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S4中,依次访问数据对象,判断剪枝条件的过程包括如下步骤:
S41、设置一个大小为k的候选集合SC,令τ等于SC中对象的最小分数,初始化SC为空集,τ=-1;
S42、将数据集S上的对象按其MaxWeightGrade降序排列得到访问队列P,依次访问P中的对象;
S43、若
Figure 902623DEST_PATH_IMAGE019
,则对象o可以被TKD查询安全剪枝,提前终止算法,否则,进一步计算对象o的实际权重支配分数。
6.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S5中,统计对象o实际支配的对象集合的过程包括如下步骤:
S51、定义两个与对象o相关的对象集合
Figure 980300DEST_PATH_IMAGE020
Figure 91475DEST_PATH_IMAGE021
Figure 180785DEST_PATH_IMAGE020
表示数据集中与o不可比较的对象集合,即在o所有可观测维度Dset(o)上,
Figure 86424DEST_PATH_IMAGE020
中的对象均无观测值;
Figure 385819DEST_PATH_IMAGE021
表示集合(M-N)中不被o支配的对象集合,即在Dset(o)上,两个对象的观测值均相等;
S52、令集合R表示被对象o支配的对象集合,R可以被划分为两个不相交的子集
Figure 35106DEST_PATH_IMAGE022
Figure 510081DEST_PATH_IMAGE023
;其中
Figure 852200DEST_PATH_IMAGE024
,表示所有对象p使得在所有维度
Figure 373312DEST_PATH_IMAGE025
上满足p严格比o差且同时被o支配;
Figure 826290DEST_PATH_IMAGE026
,表示所有对象q使得q至少在一个维度上与o有相同的观测值且q被o支配;因此,
Figure 14826DEST_PATH_IMAGE027
7.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S6中,计算对象o的权重支配分数WeightGrade(o)为:
Figure 403213DEST_PATH_IMAGE028
其中,Num1(i)表示在第i维上,集合R中,该维度存在属性值的对象的数量;Num2(j)表示在第j维上,集合R中,该维度缺失属性值的对象的数量,即
Figure 677199DEST_PATH_IMAGE029
Figure 668289DEST_PATH_IMAGE030
8.根据权利要求1所述的一种基于审计敏感的改进的Top-k Dominating算法,其特征在于:所述步骤S7中,更新数据对象的候选集合SC,返回数据对象的结果集SR的过程包括如下步骤:
S71、初始化SC=∅,τ=-1;
S72、如果τ=-1,说明候选集SC中的对象数量小于k,转向步骤S73;否则,转向步骤S74;
S73、将对象o直接加入SC中,然后转向步骤S4,从队列P中访问下一个对象;
S74、τ≠-1,说明候选集SC已满,有k个对象;如果WeightGrade(o)>τ,则对象o被加入到SC中的同时,将具有最小分数的对象从SC中删除,并更新τ为当前SC中的最小分数,然后转向步骤S4,从队列P中访问下一个对象;
S75、重复S4~S7,直到数据对象全部访问完毕或者满足剪枝条件提前终止,返回数据对象的结果集SR;SR中包含k个WeightGrade最高、在敏感属性上表现力最强的对象,可为审计人员进一步调查分析提供线索。
CN202210890506.9A 2022-07-27 2022-07-27 一种基于审计敏感的改进的Top-k Dominating方法 Active CN115080921B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210890506.9A CN115080921B (zh) 2022-07-27 2022-07-27 一种基于审计敏感的改进的Top-k Dominating方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210890506.9A CN115080921B (zh) 2022-07-27 2022-07-27 一种基于审计敏感的改进的Top-k Dominating方法

Publications (2)

Publication Number Publication Date
CN115080921A true CN115080921A (zh) 2022-09-20
CN115080921B CN115080921B (zh) 2022-11-18

Family

ID=83241854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210890506.9A Active CN115080921B (zh) 2022-07-27 2022-07-27 一种基于审计敏感的改进的Top-k Dominating方法

Country Status (1)

Country Link
CN (1) CN115080921B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894239A (zh) * 2010-08-12 2010-11-24 武汉大学 基于演化策略的敏感数据审计分发方法及系统
CN107515918A (zh) * 2017-08-18 2017-12-26 南京航空航天大学 一种基于网格索引的动态top‑k查询方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894239A (zh) * 2010-08-12 2010-11-24 武汉大学 基于演化策略的敏感数据审计分发方法及系统
CN107515918A (zh) * 2017-08-18 2017-12-26 南京航空航天大学 一种基于网格索引的动态top‑k查询方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林晨等: "基于Nodeset的最大频繁项集挖掘算法", 《计算机工程》 *

Also Published As

Publication number Publication date
CN115080921B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN113612749B (zh) 一种面向入侵行为的溯源数据聚类方法及装置
CN109408578B (zh) 一种针对异构环境监测数据融合方法
CN105279397A (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN113516189B (zh) 基于两阶段随机森林算法的网站恶意用户预测方法
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN113283243B (zh) 一种实体与关系联合抽取的方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN109543712B (zh) 时态数据集上的实体识别方法
CN114610941A (zh) 基于对比学习的文物图像检索系统
CN115600913A (zh) 一种用于智能矿山的主数据识别方法
CN115018007A (zh) 一种基于改进id3决策树的敏感数据分类方法
CN114596030A (zh) 基于数据挖掘的快递网点运营预测模型
CN113657441A (zh) 基于加权皮尔逊相关系数并结合特征筛选的分类算法
CN112801367A (zh) 基于计及罕见变量的ARMret模型的故障预测方法
Ren et al. Research on the application of data mining technology in military audit
CN111552862A (zh) 基于交叉支持度评价的模板自动挖掘系统及其方法
CN117539920B (zh) 基于房产交易多维度数据的数据查询方法及系统
CN114884896B (zh) 一种基于特征扩展和自动机器学习的移动应用流量感知方法
CN117272170B (zh) 一种基于知识图谱的it运维故障根因分析方法
Chen et al. An associative classification approach for enhancing prediction of imbalance data
CN117591954A (zh) 一种基于量子贝叶斯数据评估的智能负载分发方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant