CN103927392A - 一种深层网络数据源异常点的检测方法及系统 - Google Patents
一种深层网络数据源异常点的检测方法及系统 Download PDFInfo
- Publication number
- CN103927392A CN103927392A CN201410183963.XA CN201410183963A CN103927392A CN 103927392 A CN103927392 A CN 103927392A CN 201410183963 A CN201410183963 A CN 201410183963A CN 103927392 A CN103927392 A CN 103927392A
- Authority
- CN
- China
- Prior art keywords
- layer
- resampling
- initial sample
- abnormity point
- layering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 31
- 238000012952 Resampling Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 22
- 230000000694 effects Effects 0.000 claims description 12
- 238000013450 outlier detection Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种深层网络数据源异常点的检测方法及系统,该方法包括从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的方法对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。
Description
技术领域
本申请涉及服务计算技术领域,更具体地说,涉及一种深层网络数据源异常点的检测方法及系统。
背景技术
深层网络Deep Web是指那些网络爬虫很难找到的站点,相对于浅层网络Surface Web而言,深层网络中的数据是无法直接全部获得的,必须通过查询接口提交查询来获取相应的数据。而异常点是指不服从正常的数据分布或表现的数据模式。例如,信贷事务中的异常点极有可能是一项预谋的欺诈事务;网络通信中异常的通信模式可能代表我们的电脑正在受到黑客攻击。因此,异常点检测具有重大的现实意义。
但是,现有的异常点检测方法大多是针对浅层网络的。由于深层网络不同于浅层网络,其数据无法直接全部获得,因此,现有的检测方法无法适用到深层网络之中。
发明内容
有鉴于此,本申请提供了一种深层网络数据源异常点的检测方法及系统,用于对深层网络数据源的异常点进行有效的检测。
为了实现上述目的,现提出的方案如下:
一种深层网络数据源异常点的检测方法,包括:
从深层网络数据源中采集多个初始样本;
按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
根据预设算法,确定每一层中包含异常点的概率;
按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
按照确定的各个层的重采样次数进行重采样;
综合重采样数据与分层后的所述初始样本,进行异常点检测。
优选地,所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为:
定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的数据的数目。
优选地,所述根据预设算法,确定每一层中包含异常点的概率,具体为:
使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;
按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;
计算每个层中包含异常点的概率:
其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
优选地,所述预设的截断率按照如下过程确定:
确定所述初始样本为异常点的异常率的范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界;
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
优选地,所述按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数,具体为:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。
一种深层网络数据源异常点的检测系统,包括:
初始样本采集单元,用于从深层网络数据源中采集多个初始样本;
分层单元,用于按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
异常点确定单元,用于根据预设算法,确定每一层中包含异常点的概率;
重采样次数分配单元,用于按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
重采样单元,用于按照确定的各个层的重采样次数进行重采样;
异常点检测单元,用于综合重采样数据与分层后的所述初始样本,进行异常点检测。
优选地,所述分层单元对每个所述初始样本进行分层得到s层,具体为:
定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的所有数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的所有数据的数目。
优选地,所述异常点确定单元包括:
评分单元,用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;
划分单元,用于按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;
异常点概率计算单元,用于计算每个层中包含异常点的概率:其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
优选地,所述划分单元对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下:
确定所述初始样本为异常点的异常率的范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界;
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
优选地,所述重采样次数分配单元按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数的过程为:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。
从上述的技术方案可以看出,本申请公开的深层网络数据源异常点的检测方法,通过从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,这里预设规则为保证分层后的每一层中各个初始样本的方差最小,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的方法对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例公开的一种深层网络数据源异常点的检测方法流程图;
图2为本申请实施例公开的一种深层网络数据源异常点的检测系统结构示意图;
图3为本申请实施例公开的异常点确定单元结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一
参见图1,图1为本申请实施例公开的一种深层网络数据源异常点的检测方法流程图。
如图1所示,该方法包括:
步骤101:从深层网络数据源中采集多个初始样本;
具体地,采用输入查询属性,由系统给出符合条件的输出属性。控制采集的初始样本与真实的深层网络数据分布大致相同。
步骤102:按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
具体地,采用构建分层树的策略迭代的对初始样本进行分层,分层的宗旨是保证分层后得到的每一层中各个初始样本的方差最小。
步骤103:根据预设算法,确定每一层中包含异常点的概率;
具体地,按照预设的算法,确定每一层中所包含的异常点的概率。
步骤104:按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
具体地,预先规定了所允许重新采样的次数。但是并没有限定对每一层进行重采样的次数。我们按照最优采样策略,将允许的重新采样次数分配到每一层中,使得重新采样得到的样本中包含的异常点最多。
步骤105:按照确定的各个层的重采样次数进行重采样;
步骤106:综合重采样数据与分层后的所述初始样本,进行异常点检测。
具体地,这里进行异常点检测的方法属于现有的技术,可以参考现有的对浅层网络数据异常点的检测方法。
本申请实施例公开的深层网络数据源异常点的检测方法,通过从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,这里预设规则为保证分层后的每一层中各个初始样本的方差最小,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的方法对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。
实施例二
本实施例对上述实施例一中各个步骤的具体实现过程进行详细介绍:
其中,步骤102:按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小,可以按照如下方式实现:
首先定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,
输入属性SA满足:SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的所有数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的所有数据的数目。
步骤103的具体实现过程如下:
使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点。
按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合。这样即可知道异常点的个数。
计算每个层中包含异常点的概率:
其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
上文中提到了预设截断率的概念,预设截断率的确定过程可以以下述方式实现:
为了削弱算法对与无监督异常点检测方法评分机制的依赖,我们假设用户可以根据他们的领域知识或经验,提供一个关于异常率的粗略的估计范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界。那么截断率的计算过程如下:
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
步骤104的具体实现过程参见下文:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。这显然是一个典型的优化问题,可以采用一个简单的贪心策略来解决。
实施例三
参见图2,图2为本申请实施例公开的一种深层网络数据源异常点的检测系统结构示意图。
该检测系统与实施例一的检测方法相对应,其包括:
初始样本采集单元21,用于从深层网络数据源中采集多个初始样本;
分层单元22,用于按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
异常点确定单元23,用于根据预设算法,确定每一层中包含异常点的概率;
重采样次数分配单元24,用于按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
重采样单元25,用于按照确定的各个层的重采样次数进行重采样;
异常点检测单元26,用于综合重采样数据与分层后的所述初始样本,进行异常点检测。
本申请实施例公开的深层网络数据源异常点的检测系统,通过从深层网络数据源中采集多个初始样本,然后按照预设规则,对每个所述初始样本进行分层得到s层,这里预设规则为保证分层后的每一层中各个初始样本的方差最小,分层后按照预设算法,确定每一层中包含异常点的概率,按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层的重采样次数,按照确定的重采样次数进行重采样,最后综合重采样数据与分层后的初始样本,进行异常点的检测。本申请的系统对有限的样本数据进行分层处理,由于异常点大部分集中在少数几个层中,通过着重对这几个层的重新采样,可以找到更多的异常点。解决了对深层网络数据源异常点的检测问题。
与实施例二相对应的,本实施例中各个单元的具体工作过程如下:
分层单元22对每个所述初始样本进行分层得到s层,具体为:
定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的所有数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的所有数据的数目。
参见图3,图3为本申请实施例公开的异常点确定单元结构示意图。
异常点确定单元23包括:
评分单元231,用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;
划分单元232,用于按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;
异常点概率计算单元233,用于计算每个层中包含异常点的概率:其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
其中,划分单元232对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下:
确定所述初始样本为异常点的异常率的范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界;
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
重采样次数分配单元24按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数的过程为:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种深层网络数据源异常点的检测方法,其特征在于,包括:
从深层网络数据源中采集多个初始样本;
按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
根据预设算法,确定每一层中包含异常点的概率;
按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
按照确定的各个层的重采样次数进行重采样;
综合重采样数据与分层后的所述初始样本,进行异常点检测。
2.根据权利要求1所述的检测方法,其特征在于,所述按照预设规则,对每个所述初始样本进行分层得到s层,具体为:
定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的数据的数目。
3.根据权利要求2所述的检测方法,其特征在于,所述根据预设算法,确定每一层中包含异常点的概率,具体为:
使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;
按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;
计算每个层中包含异常点的概率:
其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
4.根据权利要求3所述的检测方法,其特征在于,所述预设的截断率按照如下过程确定:
确定所述初始样本为异常点的异常率的范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界;
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
5.根据权利要求4所述的检测方法,其特征在于,所述按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数,具体为:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。
6.一种深层网络数据源异常点的检测系统,其特征在于,包括:
初始样本采集单元,用于从深层网络数据源中采集多个初始样本;
分层单元,用于按照预设规则,对每个所述初始样本进行分层得到s层,所述预设规则为使得分层后的每一层中各个初始样本的方差最小;
异常点确定单元,用于根据预设算法,确定每一层中包含异常点的概率;
重采样次数分配单元,用于按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数;
重采样单元,用于按照确定的各个层的重采样次数进行重采样;
异常点检测单元,用于综合重采样数据与分层后的所述初始样本,进行异常点检测。
7.根据权利要求6所述的检测系统,其特征在于,所述分层单元对每个所述初始样本进行分层得到s层,具体为:
定义:IS={I1,I2,...,Is}代表输入属性集合,Ij的值域为{aj,1,aj,2,...aj,m},OS={O1,O2,...,Op}代表输出属性集合,查询Q由输入属性IS的子集SI组成,潜在输入属性PS=IS-SI;
依次从PS中选择能最大降低层间方差的输入属性SA作为所述查询Q,对每个所述初始样本进行分层共得到s层,输入属性SA满足:
SA=maxi∑j[Var(Oj)-∑mVarm(Oj)×p(ai,m|Q)]
其中Var(Oj)代表输出属性Oj的方差,其中xi代表第i个初始样本关于属性Oj的取值,代表输出属性Oj的平均取值,n是初始样本个数,Varm(Oj)代表输出属性Oj在第m层的方差,p(ai,m|Q)代表在查询空间Q下,第i个输入属性取值为ai,m的条件概率,可以通过下式来计算:
其中sel(Q)的作用是返回深层网络数据源中满足查询Q的所有数据的数目,sel(Q,ai,m)的作用是返回深层网络数据源中同时满足查询Q和第i个输入属性取值为ai,m的所有数据的数目。
8.根据权利要求7所述的检测系统,其特征在于,所述异常点确定单元包括:
评分单元,用于使用无监督异常点检测方法对每一个所述初始样本按照它成为异常点的概率进行评分,评分区间为[0,1],评分越接近1,代表该样本越有可能成为异常点;
划分单元,用于按照预设的截断率对评分后的初始样本进行划分,将处于截断率以上的初始样本确定为异常点集合;
异常点概率计算单元,用于计算每个层中包含异常点的概率:其中,ti代表的是初始样本中被划分到第i个层中的样本的个数,mi代表的是第i个层中包含的异常点的个数。
9.根据权利要求8所述的检测系统,其特征在于,所述划分单元对评分后的初始样本进行划分时所依据的预设的截断率的确定过程如下:
确定所述初始样本为异常点的异常率的范围[bl,bu],其中bl和bu分别代表异常率范围的下边界和上边界;
计算截断率cutoff_rate:
cutoff_rate=bl+(bu-bl)×w
其中w为权重参数,w∈[0,1]。
10.根据权利要求9所述的检测系统,其特征在于,所述重采样次数分配单元按照最优采样策略,将规定的重采样次数分配到s层中,确定每一层中重采样的次数的过程为:
将规定的重采样次数n分配到s层中,求解下述优化方程:
其中∑ini=n,ni是分配到每个层的重采样次数,n是规定的总重采样次数,根据求解结果得出ni。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410183963.XA CN103927392B (zh) | 2014-05-04 | 2014-05-04 | 一种深层网络数据源异常点的检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410183963.XA CN103927392B (zh) | 2014-05-04 | 2014-05-04 | 一种深层网络数据源异常点的检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103927392A true CN103927392A (zh) | 2014-07-16 |
CN103927392B CN103927392B (zh) | 2017-03-22 |
Family
ID=51145611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410183963.XA Expired - Fee Related CN103927392B (zh) | 2014-05-04 | 2014-05-04 | 一种深层网络数据源异常点的检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103927392B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776707A (zh) * | 2018-06-17 | 2018-11-09 | 复旦大学 | 针对探索性查询的高效抽样方法 |
CN109948019A (zh) * | 2019-01-10 | 2019-06-28 | 中央财经大学 | 一种深层网络数据获取方法 |
CN117141037A (zh) * | 2023-10-30 | 2023-12-01 | 山西昌鸿电力器材有限公司 | 一种电力金具加工工艺 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100486179C (zh) * | 2006-12-15 | 2009-05-06 | 华为技术有限公司 | 一种网络流量异常的检测方法及检测装置 |
CN102360378A (zh) * | 2011-10-10 | 2012-02-22 | 南京大学 | 一种时序数据离群点检测方法 |
-
2014
- 2014-05-04 CN CN201410183963.XA patent/CN103927392B/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
TANTAN LIU 等: ""Stratification Based Hierarchical Clustering Over a Deep Web DataSource"", 《PROCEEDINGS OF THE 2012 SIAM INTERNATIONAL CONFERENCE ON DATA MINING》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776707A (zh) * | 2018-06-17 | 2018-11-09 | 复旦大学 | 针对探索性查询的高效抽样方法 |
CN108776707B (zh) * | 2018-06-17 | 2021-07-23 | 复旦大学 | 针对探索性查询的抽样方法 |
CN109948019A (zh) * | 2019-01-10 | 2019-06-28 | 中央财经大学 | 一种深层网络数据获取方法 |
CN109948019B (zh) * | 2019-01-10 | 2021-10-08 | 中央财经大学 | 一种深层网络数据获取方法 |
CN117141037A (zh) * | 2023-10-30 | 2023-12-01 | 山西昌鸿电力器材有限公司 | 一种电力金具加工工艺 |
CN117141037B (zh) * | 2023-10-30 | 2024-02-02 | 山西昌鸿电力器材有限公司 | 一种电力金具加工工艺 |
Also Published As
Publication number | Publication date |
---|---|
CN103927392B (zh) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718528B (zh) | 基于论文间引用关系的学术地图展示方法 | |
CN103548027B (zh) | 用于实现建筑系统的系统和方法 | |
CN104063612B (zh) | 一种隧道工程风险态势模糊评估方法及评估系统 | |
Liu et al. | Building engineering safety risk assessment and early warning mechanism construction based on distributed machine learning algorithm | |
CN104572833B (zh) | 一种映射规则创建方法及装置 | |
CN105469204A (zh) | 深度融合大数据分析技术的重装制造企业综合评价系统 | |
CN102176723A (zh) | 一种支持制造资源和能力按需使用和动态协同的制造云系统 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN103258143A (zh) | 一种城市风貌规划实施效果的评价方法 | |
Ren et al. | Long-Term Preservation of Electronic Record Based on Digital Continuity in Smart Cities. | |
CN105184326A (zh) | 基于图数据的主动学习多标签社交网络数据分析方法 | |
Zhou et al. | Empirical determination of geometric parameters for selective omission in a road network | |
CN108241900A (zh) | 工程项目建设周期预测方法、装置和系统 | |
CN108038734B (zh) | 基于点评数据的城市商业设施空间分布探测方法及系统 | |
CN103927392A (zh) | 一种深层网络数据源异常点的检测方法及系统 | |
Xu et al. | Regional economic development coordination management system based on fuzzy hierarchical statistical model | |
Akperov et al. | The concept of a unified geoinformational space of the region: ecological aspect | |
CN107133274A (zh) | 一种基于图知识库的分布式信息检索集合选择方法 | |
Lee et al. | A multi-period comprehensive evaluation method of construction safety risk based on cloud model | |
Liu et al. | Model-data matching method for natural disaster emergency service scenarios: implementation based on a knowledge graph and community discovery algorithm | |
Fang | Research on automatic cleaning algorithm of multi-dimensional network redundant data based on big data | |
CN102760275B (zh) | 一种用于都市型农业综合评价的信息处理系统 | |
CN117290405A (zh) | 一种大规模设备数据快速查询的物联网系统 | |
CN109558522A (zh) | 企业网络图的建立方法、装置和计算机可读存储介质 | |
Chen | A likelihood-based assignment method for multiple criteria decision analysis with interval type-2 fuzzy information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170322 |