CN104317908A

CN104317908A - 基于三支决策和距离的离群点检测方法

Info

Publication number: CN104317908A
Application number: CN201410583274.8A
Authority: CN
Inventors: 徐久诚; 刘洋洋; 孙林; 徐瑾; 靳瑞霞; 徐天贺; 张倩倩; 李晓艳
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2014-10-28
Filing date: 2014-10-28
Publication date: 2015-01-28
Anticipated expiration: 2034-10-28
Also published as: CN104317908B

Abstract

本发明公开了基于三支决策和距离的离群点检测方法：S1接收输入的数据集为信息系统S，S中包含m个对象和若干个条件属性；S2获取数据集中每个对象的k近邻距离和；S3对所有对象的k近邻距离和进行归一化处理，并将经过归一化的结果作为三支决策的条件概率；S4建立两个最优化目标；S5通过解最优化问题1，得到所需参数k的值为k′；S6选择归一化结果作为三支决策的条件概率；S7解最优化问题2，得出阈值α，γ，β，进行三支决策划分得到正域和边界域；S8判断正域是否为空；S9正域为空，结束本流程；S10正域不为空，输出正域对象，将边界域中的对象作为新的数据集；S11归一化新数据集的k近邻距离和k＝k′，作为新的三支决策条件概率，转到步骤S7。

Description

基于三支决策和距离的离群点检测方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于三支决策和距离的离群点检测方法。

背景技术

三支决策是决策粗糙集的核心思想之一，它将传统的正域(POS)、负域(NEG)二支决策语义扩展为正域(POS)、边界域(BND)和负域(NEG)的三支决策语义，认为边界域(BND)也是一类可行的决策，这与人类智能在处理决策问题时的方法是一致的。三支决策依据阈值α，β对数据集进行三支划分，利用决策风险损失最优化作为优化目标，可以求得阈值α，β。

离群点检测是数据挖掘技术的重要研究领域之一，用来发现数据集中明显偏离于其他数据、不满足数据的一般行为或模式的数据。这些数据对象叫做离群点，也叫做孤立点。离群点检测算法分为基于统计、深度、聚类、距离和密度的方法。其中，基于距离的方法由于算法思想直观，易于实现而得到广泛的研究和应用。基于距离的离群点概念和挖掘方法最早由Knorr和Ng(E.Knorrand R.Ng，Algorithms for mining distance-based outliers in large datasets，Proceedings of the 24th VLDB Conference New York，USA，392-403，1998.)提出，如果数据集合S中至少有P部分对象与对象O的距离大于d，则对象O是一个带参数P和d的基于距离的离群点，即DB(p，d)。后来，Ramaswamy等(Sridhar Ramaswamy，Rajeev Rastogi，and Kyuseok Shim，Efficient algorithmsfor mining outliers from large data sets，ACM SIGMOD Record，2000，29(2)：427-438.)提出了一个新的基于距离的离群点定义，即基于距离的第k最近邻(kth Nearest Neighbor)离群点挖掘方法，Angiulli和Pizzuti(Fabrizio Angiulliand Clara Pizzuti，Outlier mining in large high-dimensional data sets，IEEETransactions on Knowledge and Data Engineering，2005，17(2)：203-215.)提出了HilOut算法，用权重w_k(p)表示对象p与其k个最近邻居的距离之和。显然w_k(p)比D_k(p)更精确地度量了p的邻域的稀疏程度。离群点检测算法可以描述为：计算数据集D中每个数据点的离群因子w_k(p)，将其按从大到小降序排列，离群因子最高的前n个点就是所求的离群点，即Top-n离群点。

基于距离(Distance-Based)的离群点检测方法不需要事先了解数据的分布模式，同时可以适用于任意维度的数据集，但是需要用户选取合理的参数以保证算法的效果。例如Top-n离群点检测方法中存在参数n与k，参数n与k值的选择会明显影响算法产生的实际性能和检测结果。即使是采用同一个算法，由于被处理的数据集特征不同，n与k值的选择也没有可借鉴性，通常n与k值的选择都是依靠用户经验和大量实验来决定。本发明主要针对Top-n离群点检测算法中需要人为确定的参数n和k，提出相应的改进方法，以避免参数n和k的人为确定对检测效果的影响，回避Top-n离群点检测方法中参数n与k选择困难的问题。

发明内容

本发明要解决的技术问题是克服现有的基于距离的离群点检测方法的不足，具体针对Top-n离群点检测方法提供一种基于三支决策和距离的离群点检测方法，使算法的效果不依赖于用户给定的参数，而是通过用三支决策划分的方式循环提取离群点来代替对参数n的使用，以决策风险损失最优为优化目标来寻找最优的k值。

本发明提供一种基于三支决策和距离的离群点检测方法，包括如下步骤：

(1)输入数据集也即信息系统S，其包含m个对象和若干个条件属性，令k＝1，2，3，...，m；

(2)针对每一个k值，求解数据集中每个对象的k近邻距离和(kNNDS)；

(3)针对每一个k值，对所有对象的k近邻距离和(kNNDS)进行归一化，并将其作为三支决策的条件概率；

(4)根据决策风险损失最优化原则建立两个最优化目标；

(5)解最优化问题1，得出所需参数k的值为k′；

(6)根据(5)得出的参数k的值k′，选择所有对象的k近邻距离和(kNNDS)(k＝k′)的归一化结果作为三支决策的条件概率；

(7)解最优化问题2得出阈值α，γ，β，对所有对象进行三支决策划分得到正域(POS)和边界域(BND)；

(8)判断正域(POS)是否为空；

(9)如果正域(POS)为空，结束本流程；

(10)如果正域(POS)不为空，输出正域对象，将边界域(BND)中的对象作为新的数据集；

(11)归一化新数据集的k近邻距离和(kNNDS)(k＝k′)，作为新的三支决策条件概率，转到步骤(7)。

在本发明所述的基于三支决策和距离的离群点检测方法中，给定数据集S＝(U，C，V，f)，其中U是对象的非空有限集合，C是条件属性集，V是全体属性的值域，f是U×A→V的一个映射且为信息函数。

在本发明所述的基于三支决策和距离的离群点检测方法中，k近邻距离和为其中，k＝1，2，3，…，m，i＝1，2，3，…，m，kNN(k，i)表示i在数据集中的k个最近邻元素的集合。

在本发明所述的基于三支决策和距离的离群点检测方法中，归一化的公式如下：

x^{'} = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \times 1 - 0 .

在本发明所述的基于三支决策和距离的离群点检测方法中，解最优化问题1的公式如下：

\min_{k} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}]

s.t.0≤β＜γ＜α≤1，ε≥1，1＜k＜m

其中，α，γ，β为阈值，p为概率。

在本发明所述的基于三支决策和距离的离群点检测方法中，解最优化问题2的公式如下：

\min_{α, β, γ} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}]

s.t.0≤β＜γ＜α≤1，ε≥1，k＝k′

其中α，γ，β为阈值，p为概率。

所述算法的终止条件：

三支决策划分后的正域(POS)为空，循环结束。

所述算法的三支决策划分方法：

状态集分别表示某事件属于X和不属于X，行动集A＝{a_P，a_B，a_N}分别表示接受某事件、延迟决策和拒绝某事件三种行动。考虑到采取不同行动会产生不同的损失，用λ_PP、λ_BP、λ_NP分别表示当x属于X时，采取行动a_P、a_B、a_N下的损失；用λ_PN、λ_BN、λ_NN分别表示当x不属于X时，采取行动a_P、a_B、a_N下的损失。因此采取a_P、a_B、a_N三种行动下的期望损失可分别表示为

R (a_{P} | [x]) = λ_{PP} P (X | [x]) + λ_{PN} P (&Not; X | [x]),

R (a_{B} | [x]) = λ_{BP} P (X | [x]) + λ_{BN} P (&Not; X | [x]),

R (a_{N} | [x]) = λ_{NP} P (X | [x]) + λ_{NN} P (&Not; X | [x]) .

式中[x]为样本在属性集下的等价类，P(X|[x])和分别表示将等价类[x]分类为X和的概率。根据贝叶斯决策准则，需要选择期望损失最小的行动集作为最佳行动方案，于是可得到如下三条决策规则：

(1)若R(a_P|[x])≤R(a_B|[x])和R(a_P|[x])≤R(a_N|[x])同时成立，那么x∈POS(X)；

(2)若R(a_B|[x])≤R(a_P|[x])和R(a_B|[x])≤R(a_N|[x])同时成立，那么x∈BND(X)；

(3)若R(a_N|[x])≤R(a_P|[x])和R(a_N|[x])≤R(a_B|[x])同时成立，那么x∈NEG(X)。

由于所以上述规则只与概率P(X|[x])和相关的损失函数λ有关。此处做一个合理的假设为0≤λ_PP≤λ_BP＜λ_NP，0≤λ_NN≤λ_BN＜λ_PN。据此，根据以上三条决策规则，令

α = \frac{λ_{PN} - λ_{BN}}{(λ_{PN} - λ_{BN}) + (λ_{BP} - λ_{PP})},

β = \frac{λ_{BN} - λ_{NN}}{(λ_{BN} - λ_{NN}) + (λ_{NP} - λ_{BP})},

γ = \frac{λ_{PN} - λ_{NN}}{(λ_{PN} - λ_{NN}) + (λ_{NP} - λ_{PP})} .

通过引入一对阈值(α，β)，对上述三条规则做如下改写：

(1)若P(X|[x])≥α，则x∈POS(X)；

(2)若β＜P(X|[x])＜α，则x∈BND(X)；

(3)若P(X|[x])≤β，则x∈NEG(X)。

针对具体的应用，本发明采用k近邻距离和归一化结果作为三支决策条件概率，具体说明如下：

所述算法中的距离采用欧式距离：

对于d维空间中的数据点p＝(p₁，p₂，...，p_d)和q＝(q₁，q₂，...，q_d)，p与q的欧式距离：

dist (p, q) = \sqrt{Σ_{i = 1}^{d} {(p_{i} - q_{i})}^{2}} .

所述算法中任一对象i的k近邻距离和(kNNDS)：

其中，k＝1，2，3，…，m，i＝1，2，3，…，m，kNN(k，i)表示i在数据集中的k个最近邻元素的集合。

所述算法中的归一化方法：

x^{'} = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \times 1 - 0 .

所述算法中的三支决策条件概率为：

针对具体的应用可以采用不同的三支决策条件概率，在本发明的具体应用中，用以下方式确定三支决策中的条件概率：

当k＝k′时，对象i的k近邻距离和(kNNDS)：

kNN(k′，i)表示i在数据集中的k(k＝k′)个最近邻元素的集合。

令MINkNNDS(k′)表示当k＝k′时所有对象的k近邻距离和(kNNDS)的最小值；MAXkNNDS(k′)表示当k＝k′时所有对象的k近邻距离和(kNNDS)的最大值，则当k＝k′时，任一对象i的三支决策条件概率为：

p (k^{'}, i) = \frac{kNNDS (k^{'}, i) - MINkNNDS (k^{'})}{MAXkNNDS (k^{'}) - MINkNNDS (k^{'})} \times 1 - 0 .

由条件概率的计算方法可知，对象的条件概率的值越大，则表示其周围越稀疏，属于离群点的可能性越大。

上述技术方案可以看出，本发明利用决策风险损失最优化的优化的思想，运用求解最优化问题的方法求解阈值(α，β，γ)，进而对数据集进行划分，由于边界域(BND)为不确定区域即不确定其中的对象是否为离群点，将边界域(BND)作为新的数据集，运用最优化和三支决策的划分方法再对新数据集循环选择离群点直至找不到离群点，即正域(POS)为空，避免了Top-n离群点检测方法中对参数n的选择；此外，将参数k加入到最优化目标中，运用最优化的方法求解参数k。可见，本发明可以回避Top-n离群点挖掘方法中参数选择困难的问题。

由于三支决策的分类特性，可以划分出：离群点对象，暂时不能确定是否为离群点的对象以及非离群点对象。因此可采用三支决策的方法划分出离群点，特别的是：本发明不是仅仅对数据集进行一次三支决策划分，而是采用三支决策循环提取离群点的方法，即每次在划分出正域、负域、边界域后，都对三支决策中的边界域重新计算条件概率，再进行三支决策划分，提取离群点，如此循环直至再也找不到离群点即正域为空。由于边界域的不确定性即在当前数据集环境下不确定其中的对象是否为离群点，因此这种循环提取的方法可以避免漏掉边界域中的部分离群点，可以在最大程度上找到所有离群点；且本文提出的方法和Top-n离群点检测方法的思想是相似的，即选出离群度较高的前n离群点，但是本文提出的方法不需要人为确定参数n，而是根据正域为空的算法结束条件，运用三支决策方法进行循环提取，当根据优化出的阈值(，)，再也提取不出离群点即正域为空时，离群点就提取结束。

附图说明

图1 基于三支决策和距离的离群点检测方法流程图；

图2 Top-n离群点检测方法的实验结果图。

具体实施方式：

本发明提供一种基于三支决策和距离的离群点检测方法，可以回避Top-n离群点挖掘方法中参数选择困难的问题，弥补Top-n离群点检测方法的检测效果依赖于人为给定的参数n，k的缺陷，能够使算法的检测效果不依赖于用户给定的参数。

对于参数n：

本发明运用三支决策的方法对数据集中的对象进行分类，其划分为三类：正域(POS)即离群点，边界域(BND)即暂时不确定是否为离群点，负域(NEG)即不是离群点。由于三支决策中的边界域(BND)的不确定性，在首次进行划分之后，本发明将三支决策的边界域(BND)作为新的数据集，循环划分提取新数据集中的离群点直至再也找不到离群点，即对边界域(BND)再划分后的正域(POS)为空，避免了对Top-n离群点检测方法中参数n的使用。

对于参数k：

本发明根据三支决策的贝叶斯决策过程，以决策风险损失最小为优化目标，建立最优化问题，通过最优化问题可以求解出参数k。

基于三支决策和距离的离群点检测方法详细说明如下：

(1)输入数据集也即信息系统S，其包含m个对象和若干个条件属性，令k＝1，2，3，...，m。

给定数据集S＝(U，C，V，f)，其中U是对象的非空有限集合，C是条件属性集，V是全体属性的值域，f是U×A→V的一个映射，为信息函数。

(2)针对每一个k值，求解数据集中每个对象的k近邻距离和(kNNDS)。

针对每一个k值，k＝1，2，3，...，m，对于数据集S中的任意一个对象i，计算其k近邻距离和(kNNDS)，即

(3)针对每一个k值，对所有对象的k近邻距离和(kNNDS)进行归一化，并将其作为三支决策中的条件概率。

分别对每一个k值，k＝1，2，3，...，m，采用的归一化方法对数据集中的所有对象的k近邻距离和(kNNDS)进行归一化，并将其作为三支决策中的条件概率，此时每个对象由于k值的不同有m个不同的三支决策条件概率；即对象i有m个条件概率，为p(k，i)，k＝1，2，3，...，m。

(4)根据决策风险损失最优化原则建立如下两个最优化目标：

决策风险损失最优化的解释：

给定数据集S的论域为U＝{x₁，x₂，...，x_m}，决策类为{X，X^C}，分别表示为离群点和不为离群点，假定x_i属于类X的概率值，标记为p_i。依据三支决策粗糙集模型，对于p_i≥α的对象x_i采用正规则即x_i为离群点，对于P_j≤β的对象x_j采用负规则即x_j不为离群点，对于β＜p_t＜α的对象x_t采用边界规则进行划分即不确定x_t是否为离群点。假定λ_PP＝λ_NN＝0，则相应的对整个数据集的每个对象进行划分后所带来的风险损失总和为

R = \underset{x_{i} &Element; POS (S)}{Σ} λ_{PN} \cdot (1 - p_{i}) + \underset{x_{j} &Element; NEG (X)}{Σ} λ_{NP} \cdot p_{j} + \underset{x_{t} &Element; BND (X)}{Σ} (λ_{BN} \cdot (1 - p_{t}) + λ_{BP} \cdot p_{t}) .

依据贝叶斯决策理论，该风险损失总和值越小越好。由该公式我们可以构建决策风险损失最优化问题如下：

\min_{α, β, γ} \underset{p_{i} &GreaterEqual; α}{Σ} λ_{PN} \cdot (1 - p_{i}) + \underset{p_{j} \leq β}{Σ} {λ_{NP} \cdot p}_{j} + ϵ \cdot \underset{β < p_{t} < α}{Σ} (λ_{BN} \cdot (1 - p_{t}) + λ_{BP} \cdot p_{t}) .

s.t.0≤β＜γ＜α≤1，ε≥1

因为离群点是数据集中的少数，因此用ε惩罚因子来避免把对象过多的划分到边界区域中。

由发明内容部分可知，三个阈值(α，β，γ)可由6个损失函数值计算得出，我们假定λ_PP＝λ_NN＝0，则剩下的4个损失函数值可由(α，β，γ)的计算公式反向推导出，用阈值(α，β，γ)和λ_PN表示如下：

λ_{PN} = λ_{PN}; λ_{NP} = \frac{1 - γ}{γ} \cdot λ_{PN};

λ_{BN} = \frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot λ_{PN};

λ_{BP} = \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot λ_{PN} .

对于所有损失函数的值，我们都可以通过其与λ_PN的比值及阈值(α，β，γ)的关系求得，假定λ_PN＝1，则最优化问题可重新表示如下：

\min_{α, β, γ} \underset{p_{i} &GreaterEqual; α}{Σ} (1 - p_{i}) + \underset{p_{j} \leq β}{Σ} \frac{1 - γ}{γ} p_{j} + ϵ \cdot \underset{β < p_{t} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{t}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{t}] .

s.t.0≤β＜γ＜α≤1，ε≥1

因此可以解这个最优化问题来求得阈值(α，β，γ)。

最优阈值(α，β，γ)的求解思想如下：

对于阈值(α，β，γ)，其取值范围在[0，1]之间，因为其值是连续值，无法进行穷举得到最优解，所以限定其搜索空间为数据集中所有对象x_i的概率值所组成的集合，该搜索空间是有穷的。

假定从当前给定的样本X＝{x₁，...，x_i-1}学习到的阈值为(α，β，γ)，并可计算当前的样本的风险损失总和为R_X。当新来一个样本x_i时，利用其概率值p_i和阈值(α，β，γ)计算现在的样本集合X′＝X∪{x_i}的风险损失总和R_X′记为Min_R。然后依次用p_i来替代三个阈值(α，β，γ)，每次代替都能得到新的阈值(α′，β′，γ′)，重新计算基于新阈值下的当前所有样本的风险损失总和R′_X′，如果R′_X′＜Min_R，则阈值(α，β，γ)更新为(α′，β′，γ′)，否则阈值不变。对下一个样本x_i+1执行同样的步骤，直到所有的样本完成。最后的阈值(α，β，γ)就是我们要求的结果。

根据具体的应用，本发明采用对象的k近邻距离和(KNNDS)的归一化结果作为条件概率，因此，本发明用p(k，i)作为条件概率来代替p_i，即任一对象i的条件概率p(k，i)表示：对象i的第k邻近距离和(kNNDS)对应的归一化结果，对于参数k我们规定其搜索范围为k＝1，2，3，...，m，m为数据集对象的个数，由于k值得不同，每个对象最初有m个条件概率，待k值确定之后，每个对象才会有一个唯一的条件概率，因此需要确定参数k之后才能确定阈值(α，β，γ)，k的具体取值用以下的最优化方式确定：

因为三支决策中的条件概率是k邻近距离和(kNNDS)的归一化结果，因此参数k的取值对三支决策中的条件概率有影响，对于最后的决策风险损失也是有影响的，因此我们将参数k加入到最优化目标中，即

\min_{k} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}] .

s.t.0≤β＜γ＜α≤1，ε≥1，1＜k＜m

此处寻找最优的k值。

参数k的求解思想如下：

假定样本为X＝{x₁，...，x_m}，令k＝1，2，3，...，m，首先，k赋值1，令任一对象i的三支决策条件概率为p(1，i)，用求最优阈值(α，β，γ)的方法求解在k＝1时的最优阈值(α，β，γ)及此时的最小风险损失R_X1；再令k＝k+1＝2，令任一对象i的三支决策条件概率为p(2，i)，用求最优阈值(α，β，γ)的方法求解在k＝2时的最优阈值(α，β，γ)及此时的最小风险损失R_X2；再令k＝k+1＝3，如此循环，直到k＝m，求解出此时的最小风险损失R_Xm。最后比较每一个k值对应的最小风险损失R_Xk，取最小的R_Xk对应的k值即为最优的k值。

所述算法中最优化问题1如下：

\min_{k} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}] .

s.t.0≤β＜γ＜α≤1，ε≥1，1＜k＜m

所述算法中最优化问题2如下：

\min_{α, β, γ} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}] .

s.t.0≤β＜γ＜α≤1，ε≥1，k＝k′

其中任一对象i的条件概率为p(k，i)，k＝k′，k′为用最优化问题1得到的最优的k的取值。

(5)解最优化问题1，得出所需参数k的值为k′。

(6)根据(5)得出的参数k的值k′，选择所有对象的k近邻距离和(kNNDS)(k＝k′)的归一化结果作为三支决策的条件概率。

选择p(k，i)(k＝k′)作为对象i的条件概率，即

p (k, i) = p (k^{'} i) \frac{kNNDS (k^{'}, i) - MINkNNDS (k^{'})}{MAXkNNDS (k^{'}) - MINkNNDS (k^{'})} \times 1 - 0 .

此时，根据求得的k的具体取值k’，得到了任一对象i的最终条件概率p(k’，i)。

(7)解最优化问题2得出阈值α，γ，β，对所有对象进行三支决策划分得到正域(POS)和边界域(BND)。

给定数据集S的论域为U＝{x₁，x₂，...，x_m}，决策类为{X，X^C}，分别表示为离群点和不为离群点，依据三支决策粗糙集模型，对于p_(k，i)≥α(k＝k′)的对象x_i采用正规则，即x_i为离群点，对于p_(k，j)≤β(k＝k′)的对象x_j采用负规则，即x_j不为离群点，对于β＜p_(k，t)＜α(k＝k′)的对象x_t采用边界规则进行划分，即不确定x_t是否为离群点。

(8)判断正域(POS)是否为空。

(9)如果正域(POS)为空，结束本流程。

(10)如果正域(POS)不为空，输出正域对象，将边界域(BND)中的对象作为新的数据集，即

S＝BND

实例：

下面采用UCI数据库中的Iris Plants数据集进行实例说明：

Iris Plants数据集含150个样本对象，由4个属性组成，包含3个分类，即Setosa、Versicolour、Virginica，每一类平均占数据集的30％左右。实验时把Setosa类中的数据减少至10条作为离群点，由于数据集中的一些数据的属性值空缺，因此将具有空缺属性值的数据删除，保留下来的共102个样本对象，即m＝102，表1中为Iris Plants数据集中保留下来的102个数据归一化后的结果，其中类别一栏中的1代表对象类别为Setosa，2代表对象类别为Versicolor，3代表对象类别为Virginica。为了标记离群点，对数据集中的对象按顺序进行编号，则由于前10个Setosa类的对象为离群点，则离群点的标号为1～10。

表1 Iris Plants数据集

先对此数据集采用Top-n离群点检测方法进行实验，即用权重w_k(p)表示对象p与其k个最近邻居的距离之和，将其按从大到小降序排列，离群因子最高的前n个点就是所求的离群点，即Top-n离群点。实验结果如图2，图示是当k＝1，2，3，...，m时，要全部找出数据集中的离群点，需要的参数n的值的变化曲线。由图可以看出，不同的k值需要不同的n值，如果人为设定参数，则检测效果必将受到很大的影响，要选择出正好合适的参数值是很困难的。

采用本发明方法对Iris Plants数据集进行测试，测试结果如下：

方法中步骤(5)得到的参数为k＝93，根据k值，进行步骤(7)的最优化求解，得到阈值为：α＝0.5，β＝0.4927，γ＝0.4986，随后进行三支决策划分，正域(POS)中为编号为1，2，3，4，5，6，7，8，9，10，67，73，74，85的对象，此时边界域中为编号为19的对象，再回到步骤(7)对边界域中的对象进行最优化求阈值、三支决策划分，此时的正域(POS)为空，因此退出了算法，也全部找出了离群点。可见，本发明在算法中没有对任何参数进行人为设定，且找到了全部的离群点。

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思做出其它各种相应的改变与变形，而所有这些改变与变形都应属于本发明权利要求的保护范围。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应超过本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可檫除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于三支决策和距离的离群点检测方法，其特征在于，其包括如下步骤：

S1、接收输入的数据集，所述数据集为信息系统S，信息系统中包含m个对象和若干个条件属性，令k＝1，2，3，…，m；

S2、针对每一个k值，获取数据集中每个对象的k近邻距离和；

S3、针对每一个k值，对所有对象的k近邻距离和进行归一化处理，并将经过归一化的结果作为三支决策的条件概率；

S4、根据决策风险损失最优化原则建立两个最优化目标；

S5、通过解最优化问题1，得到所需参数k的值为k′；

S6、根据步骤S5得出的参数k的值k′选择所有对象的k近邻距离和k＝k′的归一化结果作为三支决策的条件概率；

S7、解最优化问题2，得出阈值α，γ，β，对所有对象进行三支决策划分得到正域和边界域；

S8、判断正域是否为空；

S9、如果正域为空，结束本流程；

S10、如果正域不为空，输出正域对象，将边界域中的对象作为新的数据集；

S11、归一化新数据集的k近邻距离和k＝k′，作为新的三支决策条件概率，转到步骤S7。

2.根据权利要求1所述的基于三支决策和距离的离群点检测方法，其特征在于，给定数据集S＝(U，C，V，f)，其中U是对象的非空有限集合，C是条件属性集，V是全体属性的值域，f是U×A→V的一个映射且为信息函数。

3.根据权利要求1所述的基于三支决策和距离的离群点检测方法，其特征在于，k近邻距离和为其中，k＝1，2，3，…，m，i＝1，2，3，…，m，kNN（k，i)表示i在数据集中的k个最近邻元素的集合。

4.根据权利要求1所述的基于三支决策和距离的离群点检测方法，其特征在于，归一化的公式如下：

5.根据权利要求4所述的基于三支决策和距离的离群点检测方法，其特征在于，解最优化问题1的公式如下：

\min_{k} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}]

s.t.0≤β＜γ＜α≤1，ε≥1，1＜k＜m

其中，α，γ，β为阈值，p为概率。

6.根据权利要求5所述的基于三支决策和距离的离群点检测方法，其特征在于，解最优化问题2的公式如下：

\min_{α, β, γ} \underset{p_{(k, i)} &GreaterEqual; α}{Σ} (1 - p_{(k, i)}) + \underset{p_{(k, j)} \leq β}{Σ} \frac{1 - γ}{γ} p_{(k, j)} + ϵ \cdot \underset{β < p_{(k, t)} < α}{Σ} [\frac{β \cdot (α - γ)}{γ \cdot (α - β)} \cdot (1 - p_{(k, t)}) + \frac{(1 - α) \cdot (γ - β)}{γ \cdot (α - β)} \cdot p_{(k, t)}]

s.t.0≤β＜γ＜α≤1，ε≥1，k＝k′

其中α，γ，β为阈值，p为概率。