CN103927392A

CN103927392A - 一种深层网络数据源异常点的检测方法及系统

Info

Publication number: CN103927392A
Application number: CN201410183963.XA
Authority: CN
Inventors: 赵朋朋; 周徐; 和天旭; 吴健; 崔志明
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-05-04
Filing date: 2014-05-04
Publication date: 2014-07-16
Anticipated expiration: 2034-05-04
Also published as: CN103927392B

Abstract

本申请公开了一种深层网络数据源异常点的检测方法及系统，该方法包括从深层网络数据源中采集多个初始样本，然后按照预设规则，对每个所述初始样本进行分层得到s层，分层后按照预设算法，确定每一层中包含异常点的概率，按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层的重采样次数，按照确定的重采样次数进行重采样，最后综合重采样数据与分层后的初始样本，进行异常点的检测。本申请的方法对有限的样本数据进行分层处理，由于异常点大部分集中在少数几个层中，通过着重对这几个层的重新采样，可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。

Description

一种深层网络数据源异常点的检测方法及系统

技术领域

本申请涉及服务计算技术领域，更具体地说，涉及一种深层网络数据源异常点的检测方法及系统。

背景技术

深层网络Deep Web是指那些网络爬虫很难找到的站点，相对于浅层网络Surface Web而言，深层网络中的数据是无法直接全部获得的，必须通过查询接口提交查询来获取相应的数据。而异常点是指不服从正常的数据分布或表现的数据模式。例如，信贷事务中的异常点极有可能是一项预谋的欺诈事务；网络通信中异常的通信模式可能代表我们的电脑正在受到黑客攻击。因此，异常点检测具有重大的现实意义。

但是，现有的异常点检测方法大多是针对浅层网络的。由于深层网络不同于浅层网络，其数据无法直接全部获得，因此，现有的检测方法无法适用到深层网络之中。

发明内容

有鉴于此，本申请提供了一种深层网络数据源异常点的检测方法及系统，用于对深层网络数据源的异常点进行有效的检测。

为了实现上述目的，现提出的方案如下：

一种深层网络数据源异常点的检测方法，包括：

从深层网络数据源中采集多个初始样本；

按照预设规则，对每个所述初始样本进行分层得到s层，所述预设规则为使得分层后的每一层中各个初始样本的方差最小；

根据预设算法，确定每一层中包含异常点的概率；

按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数；

按照确定的各个层的重采样次数进行重采样；

综合重采样数据与分层后的所述初始样本，进行异常点检测。

优选地，所述按照预设规则，对每个所述初始样本进行分层得到s层，具体为：

定义：IS＝{I₁,I₂,...,I_s}代表输入属性集合，I_j的值域为{a_j,1,a_j,2,...a_j,m}，OS＝{O₁,O₂,...,O_p}代表输出属性集合，查询Q由输入属性IS的子集SI组成，潜在输入属性PS＝IS-SI；

依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q，对每个所述初始样本进行分层共得到s层，输入属性SA满足：

SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

其中Var(O_j)代表输出属性O_j的方差，其中x_i代表第i个初始样本关于属性O_j的取值，代表输出属性O_j的平均取值，n是初始样本个数，Var_m(O_j)代表输出属性O_j在第m层的方差，p(a_i,m|Q)代表在查询空间Q下，第i个输入属性取值为a_i,m的条件概率，可以通过下式来计算:

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

其中sel(Q)的作用是返回深层网络数据源中满足查询Q的数据的数目，sel(Q,a_i,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为a_i,m的数据的数目。

优选地，所述根据预设算法，确定每一层中包含异常点的概率，具体为：

使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分，评分区间为[0,1]，评分越接近1，代表该样本越有可能成为异常点；

按照预设的截断率对评分后的初始样本进行划分，将处于截断率以上的初始样本确定为异常点集合；

计算每个层中包含异常点的概率：

p_{i} = \frac{m_{i}}{t_{i}}

其中，t_i代表的是初始样本中被划分到第i个层中的样本的个数，m_i代表的是第i个层中包含的异常点的个数。

优选地，所述预设的截断率按照如下过程确定：

确定所述初始样本为异常点的异常率的范围[b_l,b_u]，其中b_l和b_u分别代表异常率范围的下边界和上边界；

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

优选地，所述按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数，具体为：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},

其中∑_in_i＝n，n_i是分配到每个层的重采样次数，n是规定的总重采样次数，根据求解结果得出n_i。

一种深层网络数据源异常点的检测系统，包括：

初始样本采集单元，用于从深层网络数据源中采集多个初始样本；

分层单元，用于按照预设规则，对每个所述初始样本进行分层得到s层，所述预设规则为使得分层后的每一层中各个初始样本的方差最小；

异常点确定单元，用于根据预设算法，确定每一层中包含异常点的概率；

重采样次数分配单元，用于按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数；

重采样单元，用于按照确定的各个层的重采样次数进行重采样；

异常点检测单元，用于综合重采样数据与分层后的所述初始样本，进行异常点检测。

优选地，所述分层单元对每个所述初始样本进行分层得到s层，具体为：

SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

其中sel(Q)的作用是返回深层网络数据源中满足查询Q的所有数据的数目，sel(Q,a_i,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为a_i,m的所有数据的数目。

优选地，所述异常点确定单元包括：

评分单元，用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分，评分区间为[0,1]，评分越接近1，代表该样本越有可能成为异常点；

划分单元，用于按照预设的截断率对评分后的初始样本进行划分，将处于截断率以上的初始样本确定为异常点集合；

异常点概率计算单元，用于计算每个层中包含异常点的概率：其中，t_i代表的是初始样本中被划分到第i个层中的样本的个数，m_i代表的是第i个层中包含的异常点的个数。

优选地，所述划分单元对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下：

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

优选地，所述重采样次数分配单元按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数的过程为：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},

从上述的技术方案可以看出，本申请公开的深层网络数据源异常点的检测方法，通过从深层网络数据源中采集多个初始样本，然后按照预设规则，对每个所述初始样本进行分层得到s层，这里预设规则为保证分层后的每一层中各个初始样本的方差最小，分层后按照预设算法，确定每一层中包含异常点的概率，按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层的重采样次数，按照确定的重采样次数进行重采样，最后综合重采样数据与分层后的初始样本，进行异常点的检测。本申请的方法对有限的样本数据进行分层处理，由于异常点大部分集中在少数几个层中，通过着重对这几个层的重新采样，可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例公开的一种深层网络数据源异常点的检测方法流程图；

图2为本申请实施例公开的一种深层网络数据源异常点的检测系统结构示意图；

图3为本申请实施例公开的异常点确定单元结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一

参见图1，图1为本申请实施例公开的一种深层网络数据源异常点的检测方法流程图。

如图1所示，该方法包括：

步骤101：从深层网络数据源中采集多个初始样本；

具体地，采用输入查询属性，由系统给出符合条件的输出属性。控制采集的初始样本与真实的深层网络数据分布大致相同。

步骤102：按照预设规则，对每个所述初始样本进行分层得到s层，所述预设规则为使得分层后的每一层中各个初始样本的方差最小；

具体地，采用构建分层树的策略迭代的对初始样本进行分层，分层的宗旨是保证分层后得到的每一层中各个初始样本的方差最小。

步骤103：根据预设算法，确定每一层中包含异常点的概率；

具体地，按照预设的算法，确定每一层中所包含的异常点的概率。

步骤104：按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数；

具体地，预先规定了所允许重新采样的次数。但是并没有限定对每一层进行重采样的次数。我们按照最优采样策略，将允许的重新采样次数分配到每一层中，使得重新采样得到的样本中包含的异常点最多。

步骤105：按照确定的各个层的重采样次数进行重采样；

步骤106：综合重采样数据与分层后的所述初始样本，进行异常点检测。

具体地，这里进行异常点检测的方法属于现有的技术，可以参考现有的对浅层网络数据异常点的检测方法。

本申请实施例公开的深层网络数据源异常点的检测方法，通过从深层网络数据源中采集多个初始样本，然后按照预设规则，对每个所述初始样本进行分层得到s层，这里预设规则为保证分层后的每一层中各个初始样本的方差最小，分层后按照预设算法，确定每一层中包含异常点的概率，按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层的重采样次数，按照确定的重采样次数进行重采样，最后综合重采样数据与分层后的初始样本，进行异常点的检测。本申请的方法对有限的样本数据进行分层处理，由于异常点大部分集中在少数几个层中，通过着重对这几个层的重新采样，可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。

实施例二

本实施例对上述实施例一中各个步骤的具体实现过程进行详细介绍：

其中，步骤102：按照预设规则，对每个所述初始样本进行分层得到s层，所述预设规则为使得分层后的每一层中各个初始样本的方差最小，可以按照如下方式实现：

首先定义：IS＝{I₁,I₂,...,I_s}代表输入属性集合，I_j的值域为{a_j,1,a_j,2,...a_j,m}，OS＝{O₁,O₂,...,O_p}代表输出属性集合，查询Q由输入属性IS的子集SI组成，潜在输入属性PS＝IS-SI；

依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q，对每个所述初始样本进行分层共得到s层，

输入属性SA满足：SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

步骤103的具体实现过程如下：

使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分，评分区间为[0,1]，评分越接近1，代表该样本越有可能成为异常点。

按照预设的截断率对评分后的初始样本进行划分，将处于截断率以上的初始样本确定为异常点集合。这样即可知道异常点的个数。

计算每个层中包含异常点的概率：

p_{i} = \frac{m_{i}}{t_{i}}

上文中提到了预设截断率的概念，预设截断率的确定过程可以以下述方式实现：

为了削弱算法对与无监督异常点检测方法评分机制的依赖，我们假设用户可以根据他们的领域知识或经验，提供一个关于异常率的粗略的估计范围[b_l,b_u]，其中b_l和b_u分别代表异常率范围的下边界和上边界。那么截断率的计算过程如下：

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

步骤104的具体实现过程参见下文：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},

其中∑_in_i＝n，n_i是分配到每个层的重采样次数，n是规定的总重采样次数，根据求解结果得出n_i。这显然是一个典型的优化问题，可以采用一个简单的贪心策略来解决。

实施例三

参见图2，图2为本申请实施例公开的一种深层网络数据源异常点的检测系统结构示意图。

该检测系统与实施例一的检测方法相对应，其包括：

初始样本采集单元21，用于从深层网络数据源中采集多个初始样本；

分层单元22，用于按照预设规则，对每个所述初始样本进行分层得到s层，所述预设规则为使得分层后的每一层中各个初始样本的方差最小；

异常点确定单元23，用于根据预设算法，确定每一层中包含异常点的概率；

重采样次数分配单元24，用于按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数；

重采样单元25，用于按照确定的各个层的重采样次数进行重采样；

异常点检测单元26，用于综合重采样数据与分层后的所述初始样本，进行异常点检测。

本申请实施例公开的深层网络数据源异常点的检测系统，通过从深层网络数据源中采集多个初始样本，然后按照预设规则，对每个所述初始样本进行分层得到s层，这里预设规则为保证分层后的每一层中各个初始样本的方差最小，分层后按照预设算法，确定每一层中包含异常点的概率，按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层的重采样次数，按照确定的重采样次数进行重采样，最后综合重采样数据与分层后的初始样本，进行异常点的检测。本申请的系统对有限的样本数据进行分层处理，由于异常点大部分集中在少数几个层中，通过着重对这几个层的重新采样，可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。

与实施例二相对应的，本实施例中各个单元的具体工作过程如下：

分层单元22对每个所述初始样本进行分层得到s层，具体为：

SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

参见图3，图3为本申请实施例公开的异常点确定单元结构示意图。

异常点确定单元23包括：

评分单元231，用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分，评分区间为[0,1]，评分越接近1，代表该样本越有可能成为异常点；

划分单元232，用于按照预设的截断率对评分后的初始样本进行划分，将处于截断率以上的初始样本确定为异常点集合；

异常点概率计算单元233，用于计算每个层中包含异常点的概率：其中，t_i代表的是初始样本中被划分到第i个层中的样本的个数，m_i代表的是第i个层中包含的异常点的个数。

其中，划分单元232对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下：

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

重采样次数分配单元24按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数的过程为：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种深层网络数据源异常点的检测方法，其特征在于，包括：

从深层网络数据源中采集多个初始样本；

根据预设算法，确定每一层中包含异常点的概率；

按照确定的各个层的重采样次数进行重采样；

2.根据权利要求1所述的检测方法，其特征在于，所述按照预设规则，对每个所述初始样本进行分层得到s层，具体为：

定义：IS＝{I₁,I₂,...,I_s}代表输入属性集合，I_j的值域为{a_j,₁,a_j,₂,...a_j,_m}，OS＝{O₁,O₂,...,O_p}代表输出属性集合，查询Q由输入属性IS的子集SI组成，潜在输入属性PS＝IS-SI；

SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

3.根据权利要求2所述的检测方法，其特征在于，所述根据预设算法，确定每一层中包含异常点的概率，具体为：

计算每个层中包含异常点的概率：

p_{i} = \frac{m_{i}}{t_{i}}

4.根据权利要求3所述的检测方法，其特征在于，所述预设的截断率按照如下过程确定：

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

5.根据权利要求4所述的检测方法，其特征在于，所述按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数，具体为：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},

6.一种深层网络数据源异常点的检测系统，其特征在于，包括：

7.根据权利要求6所述的检测系统，其特征在于，所述分层单元对每个所述初始样本进行分层得到s层，具体为：

SA＝max_i∑_j[Var(O_j)-∑_mVar_m(O_j)×p(a_i,m|Q)]

p (a_{i, m} | Q) = \frac{sel (Q, a_{i, m})}{sel (Q)}

8.根据权利要求7所述的检测系统，其特征在于，所述异常点确定单元包括：

9.根据权利要求8所述的检测系统，其特征在于，所述划分单元对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下：

计算截断率cutoff_rate：

cutoff_rate＝b_l+(b_u-b_l)×w

其中w为权重参数，w∈[0,1]。

10.根据权利要求9所述的检测系统，其特征在于，所述重采样次数分配单元按照最优采样策略，将规定的重采样次数分配到s层中，确定每一层中重采样的次数的过程为：

将规定的重采样次数n分配到s层中，求解下述优化方程：

\begin{matrix} Max & Sum (n_{1}, n_{2}, . . . n_{s}) = Σ_{i = 1}^{s} \end{matrix}, n_{i} p_{i},