CN115080921A

CN115080921A - 一种基于审计敏感的改进的Top-k Dominating算法

Info

Publication number: CN115080921A
Application number: CN202210890506.9A
Authority: CN
Inventors: 钱钢; 吴丹琪; 徐超; 章之旺
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-09-20
Anticipated expiration: 2042-07-27
Also published as: CN115080921B

Abstract

本发明涉及审计数据分析技术领域，具体公开了一种基于审计敏感的改进的Top‑k Dominating算法，包括如下步骤：S1、构建数据集位图；S2、统计数据对象的最大支配数量；S3、计算数据对象的权重支配得分上界；S4、依次访问数据对象，判断剪枝条件；S5、统计数据对象的实际支配的对象集合；S6、计算数据对象的权重支配分数；S7、返回k个分数最高的对象结果；本发明利用位图的快速按位操作提高对象间比较的效率；针对数据缺失的现实问题能够处理不完整数据集，并且考虑审计敏感的重要属性维度，满足审计工作的个性化需求，获取更具有影响力的对象结果推荐给审计人员以进行深入调查分析。

Description

一种基于审计敏感的改进的Top-k Dominating算法

技术领域

本发明涉及审计数据分析技术领域，具体为一种基于审计敏感的改进的Top-kDominating算法。

背景技术

审计工作一直得到国内外政府和社会的重视。随着被审计单位信息化趋向普及，审计对象的信息化使得审计信息化成为必然，国内外高度重视审计信息化工作。对我国来说，在信息化环境下如何审计被审计单位的电子数据，发现大案、要案，是政府审计的一项重要任务；国际内部审计师协会也高度关注电子数据分析技术。可见，电子数据审计是目前国内外审计领域关注的重点。电子数据审计一般可以被理解为“对被审计单位的电子数据进行采集、预处理以及分析，从而发现审计线索，获得审计证据的过程”。

数据不完整是一种常见的数据质量问题，在某些情况下，数据中的很多缺失值是无法被确定的。审计机关在开展审计项目时，采集的数据主要由被审计单位提供，由于政策变更、人员变更、时限问题以及被审计单位规避风险的意图等因素，可能存在某些数据缺失的情况。对于不完整的数据集的处理和分析，通常需要先对其进行预处理，常用方法有简单删除存在缺失值的对象，如完整样本分析，或者数据修复，即采用各种技术填补缺失值，如均值填充法、期望最大化填补法、基于最近邻区间的聚类填补等。在以往的不完整数据上处理分析的研究中，数据的预处理是重要一步，借助一定的辅助知识，或者其他数据中的信息，来减少低质量数据中的错误，提高数据的可用性，为查询、挖掘和分析等操作提供有效的支持。不同于前两种方法均将不完整数据转换成完整的数据，特殊处理法则对不完整数据构建新的模型，给出新的定义，例如不完整数据上的支配关系定义、不完整对象间距离函数定义、不完整数据间距离的概率估计等，直接处理不完整数据。

Papadias等人提出Top-k Dominating查询（TKD）的概念，从巨大的数据空间中返回更具有价值的有限的数据，该查询结合了Top-k和Skyline的优势，在给定skyline准则的属性集合上，对象o1支配另一对象o2，当且仅当o1在所有属性维度上不比o2差，并且在至少一个属性维度上严格地比o2好。依据这样的支配关系，定义被对象o所支配的对象数量作为对象o的支配分数，最后Top-k Dominating查询返回支配分数最高的k个对象。

传统的Top-k Dominating算法不能满足当前海量不完整数据集下的审计要求，具有三个主要的缺陷，表现为：

1，数据集中的所有对象需要两两比较以判断支配关系，查询效率低下；

2，未关注海量数据集中有缺失值的情况；

3，未考虑审计关注的重点属性，不能区分属性的重要性程度，获取审计敏感的对象。

发明内容

本发明的目的在于提供一种基于审计敏感的改进的Top-k Dominating算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于审计敏感的改进的Top-kDominating算法，包括如下步骤：

S1、构建数据集位图：对数据集S中的每个数据对象用位串表示其在所有维度上的属性值情况，构建整个数据集的位图；

S2、统计数据对象的最大支配数量：通过位图的快速按位操作计算每个数据对象o支配的对象数量的上界，获得所有可能被o支配的对象集合；

S3、计算数据对象的权重支配得分上界：依据审计准则和审计重点，确定审计敏感的重点属性，为数据集S上的每个属性维度赋予权重，基于所有可能被对象o支配的对象集合，计算o的权重支配得分上界MaxWeightGrade(o)；

S4、依次访问数据对象，判断剪枝条件：将数据集S上的对象按其MaxWeightGrade降序排列后依次访问，与查询候选集S_C比较，若对象o满足剪枝条件，则算法提前终止；若对象o不满足剪枝条件，未被过滤，则进行下一个步骤；

S5、统计数据对象的实际支配的对象集合：若对象o未被过滤，则统计其实际支配的其他对象的数量，获得被o支配的对象集合；

S6、计算数据对象的权重支配分数：基于属性维度的权重和实际支配的对象集合，计算对象o的权重支配分数WeightGrade(o)，并与候选集S_C的最小分数比较，判断是否将对象o加入候选集S_C中；

S7、返回k个分数最高的对象结果：更新候选集合S_C，并重复S4~S6，直到数据对象全部访问完毕或者满足剪枝条件提前终止，返回数据对象的结果集S_R，得到k个分数最高的对象结果。

优选的，所述步骤S1中，构建数据集位图的具体过程包括如下步骤：

S11、对于不完整数据集S上的所有对象o，每个对象用长度为

的位串表示，其中，

表示对象o在第i维上的子串位数，d表示数据集上共有d个属性维度，对象o在每个维度上的值由一个

的子串表示，L_i表示在第i维上不同观测值的总数，额外增加一个比特位代表缺失值；

S12、对象在每个维度上的属性值用该维上

位的子串来表示。

位的子串中，第1位对应缺失值，自第2位开始依次对应第i维中一组由小到大排好序的属性值。初始化子串编码全为“1”，若对象o在第i维上观测到某个值，则该值对应的子串位及其之后的所有位均设置为“0”；若对象o在第i维上的值缺失，则该维的子串全部编码为“1”；

S13、连接每个维度的子串，构成对象o的位串，每个数据对象用一个位串表示，构成整个数据集的位图。

优选的，所述步骤S2中，统计每个数据对象o的最大支配数量的过程包括如下步骤：

S21、定义两个与对象o相关的对象集合M和N：集合M表示除对象o以外，在Dset(o)的每个维度上不比o好或存在缺失值的对象集合；集合N表示在Dset(o)的每个维度上比o更差或存在缺失值的对象集合，Dset(o)表示对象o的存在属性值的维度集合；

S22、仅考虑单个维度，第i维上，

和

均包括可能被o支配的对象。将对象集合

和

用位向量

和

表示，该位向量从数据集位图中抽取。位向量

和

的长度均为数据集S的基数|S|，每一个比特位对应于一个对象。如果

或

包含某一个对象，则该对象在向量中对应的位编码为“1”，否则该位设为“0”；

S23、o[i]表示对象o在第i维上的属性值，如果o[i]缺失，则

；如果o[i]存在，则

，

，由此

，

。基于位图中的位向量

和

，可以通过快速按位操作获得集合M和N；

S24、M集合包括了所有可能被对象o支配的对象，因此|M|是o支配的对象数量的上界。

优选的，所述步骤S3中，计算对象o的权重支配得分上界MaxWeightGrade(o)的计算过程包括如下步骤：

S31、依据审计准则和审计重点，确定审计敏感的重点属性，为数据集S上的每个属性维度赋予权重，第i维的权重为

，权值越大表示该维度的属性值越重要；

S32、基于M集合，对象o的权重支配得分上界为

，

其中，

是M集合中在第i维上有属性值的对象数量，

是M集合中在第i维上缺失属性值的对象数量。

优选的，所述步骤S4中，依次访问数据对象，判断剪枝条件的过程包括如下步骤：

S41、设置一个大小为k的候选集合S_C，令τ等于S_C中对象的最小分数，初始化S_C为空集，τ=-1；

S42、将数据集S上的对象按其MaxWeightGrade降序排列得到访问队列P，依次访问P中的对象；

S43、若

，则对象o可以被TKD查询安全剪枝，提前终止算法，否则，进一步计算对象o的实际权重支配分数。

优选的，所述步骤S5中，统计对象o实际支配的对象集合的过程包括如下步骤：

S51、定义两个与对象o相关的对象集合

和

，

表示数据集中与o不可比较的对象集合，即在o所有可观测维度Dset(o)上，

中的对象均无观测值。

表示集合(M-N)中不被o支配的对象集合，即在Dset(o)上，两个对象的观测值均相等；

S52、令集合R表示被对象o支配的对象集合，R可以被划分为两个不相交的子集

和

。其中

，表示所有对象p使得在所有维度

上满足p严格比o差且同时被o支配。

，表示所有对象q使得q至少在一个维度上与o有相同的观测值且q被o支配。因此，

。

优选的，所述步骤S6中，计算对象o的权重支配分数WeightGrade(o)为：

，

其中，Num₁(i)表示在第i维上，集合R中，该维度存在属性值的对象的数量；Num₂(j)表示在第j维上，集合R中，该维度缺失属性值的对象的数量，即

，

。

优选的，所述步骤S7中，更新数据对象的候选集合S_C，返回数据对象的结果集S_R的过程包括如下步骤：

S71、初始化S_C=∅，τ=-1；

S72、如果τ=-1，说明候选集S_C中的对象数量小于k，转向步骤S73；否则，转向步骤S74；

S73、将对象o直接加入S_C中，然后转向步骤S4，从队列P中访问下一个对象；

S74、τ≠-1，说明候选集S_C已满，有k个对象；如果WeightGrade(o)>τ，则对象o被加入到S_C中的同时，将具有最小分数的对象从S_C中删除，并更新τ为当前S_C中的最小分数，然后转向步骤S4，从队列P中访问下一个对象;

S75、重复S4~S7，直到数据对象全部访问完毕或者满足剪枝条件提前终止，返回数据对象的结果集S_R。S_R中包含k个WeightGrade最高、在敏感属性上表现力最强的对象，可为审计人员进一步调查分析提供线索。

与现有技术相比，本发明的有益效果是：

1、在对本发明算法的仿真过程中，本发明改进的算法与原有Top-k Dominating算法执行时间的比较，横轴表示数据集大小，纵轴表示算法的执行时间。可以看到，改进的算法的查询效率有明显的提升；

2、本发明针对存在质量问题的海量数据集，将缺失值纳入了考虑范围，能够处理不完整数据集，满足用户个性化需求，获取具有影响力的对象结果推荐给用户；

3、在审计过程中，运用本发明算法能够依据审计准则和审计重点方向对采集的电子数据进行高效查询，获得审计敏感的对象以作进一步调查，本发明便于审计人员高效地发现审计线索，获取有效审计证据。

附图说明

图1为本发明的流程图；

图2是本发明实施例算法的流程图；

图3显示的是本发明实施例算法与已有算法执行时间的比较图；

图4是示例的样本数据集表图；

图5是样本数据集的位图索引表图；

图6是空气质量监测数据部分示例表图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1~6，以下描述本发明的一个实施例，以作进一步的说明：

一种基于审计敏感的改进的Top-k Dominating算法，包括如下步骤：

S1、将数据集S中的每个数据对象用位串表示，以图4的样本数据集示例，构建20个对象的位图；

S2、统计20个数据对象支配的对象数量的上界，获得所有可能被o支配的对象集合；

S3、对于该样本数据集上的四个属性维度，假设d₁维最重要，d₄维最不重要，因此，在属性维度集合D=(d₁, d₂, d₃, d₄)上赋予权重向量W=(2, 1, 1, 0.5)，设置d₁到d₄属性维度的权重分别为2, 1, 1, 0.5，权值越大表示该维度的属性值越重要。基于所有可能被对象o支配的对象集合，分别计算20个对象的权重支配得分上界MaxWeightGrade；

S4、将20个对象按其MaxWeightGrade降序排列后依次访问，与查询候选集S_C比较，若对象o满足剪枝条件，则算法提前终止；若对象o不满足剪枝条件，未被过滤，则进行下一个步骤；

S5、若对象o未被过滤，则统计其实际支配的其他对象的数量，获得被o支配的对象集合；

S6、基于步骤S3中设置的权重向量和实际支配的对象集合，计算对象o的权重支配分数WeightGrade(o)，并与候选集S_C的最小分数比较，判断是否将对象o加入候选集S_C中；

S7、更新候选集合S_C，并重复S4~S6，直到数据对象全部访问完毕或者满足剪枝条件提前终止，返回数据对象的结果集S_R，得到k个分数最高的对象结果。

请参阅图5，在本实施例的步骤S1中，对样本数据集构建位图，包括以下步骤：

步骤11：在样本数据集的四个属性维度上，分别用

位的子串表示；在d₁维上总共有八个不同的属性值{1，2，3，4，5，6，8，9}，即L₁=8，因此在位图上，所有对象的d₁维用（8+1）位的子串表示；同理，在d₂维（{1，2，4，6，7}）、d₃维（{1，2，3，4，8}）和d₄维（{1，2，3，4，5}）均用（5+1）位的子串表示。

步骤12：通过子串编码记录对象在各维度的属性值。在第d₁维上总共有8个不同的观测值，因此对应的位图上，d₁维用9位的子串表示，第1位表示缺失值，第2位表示属性值1，第3位表示属性值2等等。对象A₁在d₁维的值为3，即A₁[1]=3，因此表示属性值3的位（第四位）和其后所有位都被设为0，因此A₁在d₁维的子串表示为111000000。类似地，A₁在d₂维的子串表示为111111，在d₃维的子串表示为100000，在d₄维的子串表示为111000。同理，可得样本数据集中的其余19个对象的子串表示。

步骤13：连接对象A₁在四个维度的子串，构成对象A₁的位串，由20个对象的位串构成的样本数据集位图如图5所示。

在本实施例的步骤S2中，统计每个数据对象o的最大支配数量，包括以下步骤：

步骤21：集合M表示除对象o以外，在Dset(o)的每个维度上不比o好或存在缺失值的对象集合；集合N表示在Dset(o)的每个维度上比o更差或存在缺失值的对象集合，Dset(o)表示对象o的存在属性值的维度集合。

步骤22：仅考虑单个维度，数据集中总共有20个对象，因此，每一个对象o的位向量

和

均有20位比特。第一位对应于A₁，第二位对应于A₂，诸如此类，直到第二十位对应于D₅。以A₂为例，其在第3维上的对象集合

，则相应的位向量[M³]=011111111111111111011，对象集合

，相应的位向量[N³]=001111111111111110011。

步骤23：集合M表示除o以外在Dset(o)的每一个维度上不比o好或者存在缺失值的对象集合。以对象A₂为例，从位图中获得四个维度上的

位向量如下：

[M¹]=111111111111111111111，

[M²]=111111111111111111111，

[M³]=011111111111111111011，

[M⁴]=111111111111111111111。

步骤24：A₂的集合M为

；

在本实施例的步骤S3中，计算对象o的权重支配得分上界MaxWeightGrade(o)，包括以下步骤：

步骤31：假设属性维度的权重向量为W=(2,1,1,0.5)，λ=0.4；

步骤32：对于对象A₂，其可能支配的对象集合上界

，分析这17个对象，在d₁维上，存在属性值的对象有17个，缺失属性值的对象0个；在d₃维上，存在属性值的对象有7个，缺失属性值的对象有10个；在d₄维上，存在属性值的对象有8个，缺失属性值的对象有9个。

因此统计得到

，

。由此计算得到A₂的权重支配分数上界

。

同理，计算其余19个对象的权重支配分数上界。

在本实施例的步骤S4中，依次访问数据对象，判断剪枝条件，包括以下步骤：

步骤41、假设查询两个对象，k=2，初始化候选集SC=∅，τ=-1；

步骤42、将20个对象按权重支配分数上界值降序排列得到的优先队列P如下表所示：

o	A<sub>2</sub>	B<sub>1</sub>	D<sub>3</sub>	C<sub>3</sub>	C<sub>2</sub>
						MaxWeightGrade	50.8	48.0	45.6	45.3	39.2
o	A<sub>3</sub>	D<sub>1</sub>	A<sub>1</sub>	B<sub>2</sub>	D<sub>2</sub>
						MaxWeightGrade	38.3	36.6	36.3	35.4	31.8
o	D<sub>5</sub>	C<sub>1</sub>	D<sub>4</sub>	B<sub>4</sub>	A<sub>5</sub>
						MaxWeightGrade	28.8	26.7	25.8	17.4	14.5
o	C<sub>4</sub>	A<sub>4</sub>	C<sub>5</sub>	B<sub>5</sub>	B<sub>3</sub>
						MaxWeightGrade	12.8	8.7	6.4	6.0	3.0

步骤43、从队列P中依次访问对象，若

在本实施例的步骤S5中，统计对象o实际支配的对象集合，包括以下步骤：

步骤51、定义两个与对象o相关的对象集合

和

，

中的对象均无观测值。

表示集合(M-N)中不被o支配的对象集合，即在Dset(o)上，两个对象的观测值均相等。在该样本数据集中，针对数据集中的所有对象，两两之间均可相互比较，因此

。

步骤52、令集合R表示被对象o支配的对象集合，R可以被划分为两个不相交的子集

和

。其中

，表示所有对象p使得在所有维度

上满足p严格比o差且同时被o支配。

。

以对象A₂为例，从位图中获得A₂相应的位向量如下：

，

,

，

，

，

，

，

。

由于

，因此计算A₂的权重支配分数。

，

，由此可得

，

。随后，算法检查

中的对象，由于

，所以具体检查对象在第一、三、四维的值。在第一维上，属性值等于

的对象有

；在第三维上，属性值等于

的对象有

；在第四维上，属性值等于

的对象有

。在这些对象中，只有对象B₁属性值与A₂相等的数量等于其与A₂共同可观测维度的个数，因此

。此后可得

，

。

进而求得

。

在本实施例的步骤S6中，计算对象o的权重支配分数：基于R集合，统计得到

，

，由此计算得到A₂的权重支配分数

。

在本实施例的步骤S7中，更新数据对象的候选集合S_C，返回数据对象的结果集S_R的过程，包括如下步骤：

初始化Sc为空集，τ=-1，候选集的大小为k=2；该数据集对应的优先级队列P如步骤4中所示，位图如图5所示。算法开始依次访问队列P中的前两个对象A₂和B₁，首先评估对象A₂，并将A₂加入到候选集S_C中。接下来，算法选取对象B₁，类似地，求得

，将B₁加入到S_C中。此时，

，

。之后评估对象D₃、C₃，它们的

均大于τ，因此未被剪枝，计算其权重支配分数，但由于权重支配分数均小于τ，所以不加入S_C中。继续评估对象C₂，由于

，达到剪枝条件，算法提前终止，最终返回T2D查询结果集合

，作为该样本数据集中的推荐对象。

在审计领域，审计人员可以理解上述实施例方法中的全部或部分步骤，基于审计目标和准则，应用该方法对采集的相关数据进行查询，挖掘审计线索，获取审计敏感的关键信息，以明确进一步调查取证的重点和方向。以大气污染防治的绩效审计为例，审计人员可采集各个城市监测点每日的空气质量指数，经过简单的转换处理后，运用上述实施例方法，查询空气质量表现最差的一些地区，获取审计线索，明确进一步开展延伸审计的重点地区，对这些地区的防治政策落实情况和实施效果进行详细审查。部分数据示例参考附图6。

空气质量指数的日监测数据，数据对象为N个城市监测站，每个监测站对象具有D个日期维度。对空气质量指数进行转换，以1-6的数值表示空气质量等级，等级数值越低表示空气质量越好，其中：

1表示空气质量指数（AQI）为0-50，等级为优；

2表示AQI为51-100，等级为良；

3表示AQI为101-150，等级为轻度污染；

4表示AQI为151-200，等级为中度污染；

5表示AQI为201-300，等级为重度污染；

6表示AQI大于300，等级为严重污染。

数据集中各个监测站在相应日期维度上的属性值表示该监测站在当日的空气质量等级。由于数据监测、采集、统计等各环节容易受到影响，数据会存在缺失情况。对于该数据集，审计人员定义支配关系中属性值越高越好，并设置k值，运用实施例方法查询返回的k个得分最高的对象是空气质量表现最差的k个地区，这一查询结果作为审计线索，为审计人员进一步开展详细审查明确了重点方向。此外，针对特定需求，比如当有重大活动举办时，有关部门通常会加强空气质量的管控和治理，这段时间的空气质量情况更加重要，则相应的日期维度是审计敏感的，审计人员可以增加这些维度上的权重，从而查询可以获得特定时期表现更差的地区进行重点审查。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。