CN104714964B - 一种生理数据离群检测方法及装置 - Google Patents
一种生理数据离群检测方法及装置 Download PDFInfo
- Publication number
- CN104714964B CN104714964B CN201310687125.1A CN201310687125A CN104714964B CN 104714964 B CN104714964 B CN 104714964B CN 201310687125 A CN201310687125 A CN 201310687125A CN 104714964 B CN104714964 B CN 104714964B
- Authority
- CN
- China
- Prior art keywords
- sample
- distance
- sequences
- distance value
- mrow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种生理数据离群检测方法及装置,包括:确定top‑q序列,确定数据集合中剩余的样本与其它样本间的稳健马氏距离,得到各个样本的距离序列,通过分别选取距离序列中的第k小距离值,与top‑q序列中的最小距离值比较,将不小于top‑q序列中的最小距离值的距离值替换该top‑q序列的最小距离值,直至遍历所有样本,得到遍历后的top‑q序列,确定离群点,从而实现了对于生理数据的离群检测,提高了离群检测的效率。
Description
技术领域
本发明涉及移动健康管理系统中数据处理技术领域,尤其涉及一种生理数据离群检测方法及装置。
背景技术
离群检测是数据挖掘的一种方法,着重于挖掘数据中相对孤立的异常数据,可以应用于各种领域中。常用的离群检测方法主要有四类:基于统计分布的方法、基于距离的方法、基于密度的方法和基于偏差的方法。其中,基于统计分布的方法通常只针对单个属性,不能挖掘多维数据中的离群点,并且需要事先了解数据的分布特征;基于距离的方法能够解决多维空间中的离群检测问题,不需要已知数据的分布情况,并且能够避免大量的计算;基于密度的方法以距离和密度两个概念为基础,同时考虑样本之间的距离和给定邻域内样本的个数,通过定量评估数据的离群程度来检测局部离群点和全局离群点;基于偏差的离群检测方法不再使用统计方法和距离测度,它关心的是样本点是否偏离于数据集的特征,但仍停留在理论研究上。下面就上述几种离群检测方法做一些具体的介绍:
现有技术中记载了一种数据中异常点的检测方法,该方法应用于工业生产技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:计算最大/次大数据值和最小/次小数据值之间的差值统计量,并将其与格鲁布斯(或肖维特)检测临界值相比较,最终确定最大数据值、最小数据值是否是异常点;
现有技术中记载了一种检测数据中异常点的去除方法,该方法应用于半导体制造技术领域中,是一种基于统计分布的离群检测方法,并且只针对服从正态分布的单个属性。该方法包括以下步骤:设定置信度及预计异常点数目,采用Tietjen&Moore方法计算第一平方和、第二平方和和偏离值,并将偏离值与临界值相比较,最终确定实际异常点数目和异常点。
现有技术中记载了一种识别离群交通数据的方法,该方法应用于智能交通系统中智能信息处理技术领域中,是一种基于密度的离群检测方法,能够实现多维空间中全局离群点和局部离群点的检测。该方法包括以下步骤:计算数据的平均局部离群因子,使用两个准则之一判断离群数据(平均局部离群因子最高的m个数据或者平均局部离群因子大于给定阈值的数据),最终删除或修正离群数据,或者分析离群数据所包含的隐藏信息。
然而,对于上述几种离群检测的方法,在实现时,会相应的带来不同的问题:第一种,仅适用于服从正态分布的单个属性,只能够判断最大数据值和最小数据值是否是异常点,不能解决数据分布未知、具有多个维度、异常点数目可能大于2的人体生理数据的离群检测问题;
第二种,仅适用于服从正态分布的单个属性,不能解决数据分布未知、具有多个维度的人体生理数据的离群检测问题;
第三种,仅适用于相互独立的多个维度,不能解决不同维度量纲存在不一致、不同维度之间存在相关性的人体生理数据的离群检测问题。
发明内容
本发明实施例的目的在于提供一种生理数据离群检测方法及装置,通过将稳健马氏距离与k近邻离群检测方法的结合,实现了对于生理数据的离群检测,提高了离群检测的效率。
为了达到上述目的,本发明实施例提供了一种生理数据离群检测方法,包括:
确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
选取数据集合中的第q+1个样本,执行步骤A;
步骤A,确定当前样本的距离序列中是否包含有k个距离值;当包含时,执行步骤B,当不包含时,执行步骤E;
步骤B,选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;
步骤C,当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,重复执行步骤A;
步骤D,当该第k个距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;执行步骤B;
当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,重复执行步骤A;
步骤E,利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后执行步骤B;
重复上述步骤,直至遍历完所有样本,得到遍历后的top-q序列,确定所述遍历后的top-q序列中的q个样本为离群点。
优选地,所述确定top-q序列,包括:
利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述前q个样本中的每一个样本到数据集合中的其它样本的距离;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中。
优选地,在利用所述协方差确定样本间的距离时,通过下述公式:
其中,X是指当前样本,Y是指下一样本。
本发明实施例还提供了一种生理数据离群检测设备,包括:
确定模块,用于确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
选取模块,用于选取数据集合中的第q+1个样本;
第一处理模块,用于确定当前样本的距离序列中是否包含有k个距离值;当包含时,通过第二处理模块执行;当不包含时,通过第三处理模块执行;
第二处理模块,用于选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;所述第二处理模块,包括:
第一处理子模块,用于当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k距离值所属的样本不是离群点;选取下一个样本,返回第一处理模块执行;
第二处理子模块,用于当该第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;返回第二处理模块执行;还用于当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,返回第一处理模块执行;
第三处理模块,用于利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后返回第二处理模块执行;
获取模块,用于在重复执行上述各个处理模块的处理直至遍历完所有样本后,得到遍历后的top-q序列,通过所述确定模块确定所述遍历后的top-q序列中的q个样本为离群点。
优选地,
所述确定模块,具体用于利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述前q个样本中的每一个样本到数据集合中的其它样本的距离;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中。
优选地,在利用所述协方差确定样本间的距离时,采用下述公式:
其中,X是指当前样本,Y是指下一样本。
与现有技术相比,本发明实施例所提出的技术方案具有以下优点:
本发明的上述实施例,确定top-q序列,确定数据集合中剩余的样本与其它样本间的稳健马氏距离,得到各个样本的距离序列,通过分别选取距离序列中的第k小距离值,与top-q序列中的最小距离值比较,将不小于top-q序列中的最小距离值的距离值替换该top-q序列的最小距离值,直至遍历所有样本,得到遍历后的top-q序列,确定离群点,从而实现了对于生理数据的离群检测,提高了离群检测的效率。
附图说明
图1是本发明实施例提供的生理数据离群检测的流程示意图;
图2是本发明实施例一提供的生理数据离群检测的流程示意图;
图3是本发明实施例提供的生理数据离群检测的装置图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
首先,对马氏距离的计算以例子的形式做相关的阐释,具体为:一个包含m个样本(代表m个时刻的监测值)、n个维度(代表n种生理参数)的人体生理数据集合A,其均值向量协方差Sij(i,j=1,2,...,n)和总体协方差矩阵S的计算公式如式(1)至式(3)所示。
基于上述参数,人体生理数据集合A中样本X和样本Y之间的马氏距离可以使用式(4)计算:
参见图1,为本发明实施例提供的生理数据离群检测的流程示意图,该流程包括:
步骤101,确定top-q序列。
本步骤中,所述确定top-q序列,包括:
利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述前q个样本中的每一个样本到数据集合中的其它样本的距离;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中,且所有K距离值按照从大到小排列。
步骤102,依次选取数据集合中剩余的样本进行离群点的确定。
本步骤中,选取数据集合中的第q+1个样本,执行步骤A;
步骤A,确定当前样本的距离序列中是否包含有k个距离值;当包含时,执行步骤B,当不包含时,执行步骤E;
步骤B,选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;
步骤C,当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,重复执行步骤A;
步骤D,当该第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;执行步骤B;
当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,重复执行步骤A;
步骤E,利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后执行步骤B。
步骤103,遍历完所有样本,得到遍历后的top-q序列。
步骤104,确定所述遍历后的top-q序列中的q个样本为离群点。
参见图2,为本发明实施例一提供的生理数据离群检测的流程示意图,该流程可包括:
步骤201,利用稳健马氏距离确定数据集合中最小行列式的协方差
具体的,在确定协方差时,所采用的是稳健马氏距离,对于具体的确定方式,可以包括如下步骤:
1.构建初始样本子集A(1)
(1)随机选择数据集合A(m行n列)中的n+1行样本构建样本子集,记为A(0)。根据式(1)至式(3),计算A(0)的均值向量和协方差矩阵S(0)。
(2)如果S(0)的行列式不为零,直接进入步骤(3),否则继续向子集中随机加入样本,更新均值向量和协方差矩阵,直到协方差矩阵的行列式不为零。
(3)将代入式(4),计算A中每个样本到的马氏距离,选择其中距离最小的h=0.75*m个样本,构建初始样本子集A(1),计算
2.两次C-steps步骤迭代
基于进行C-steps步骤的两次迭代,选择到均值向量距离最小的h个样本更新样本子集,得到
3.重复
重复步骤1和2共100次,得到100对均值向量和协方差矩阵
4.选择和迭代
从100对中选择10个具有最小行列式值的基于相应的继续进行C-steps步骤,直到收敛,得到10对
5.输出稳健估计
选择具有最小行列式的
步骤202,选取q个样本,计算样本间的距离。
具体的,从数据集合A中选取q个样本,通过将获取到的协方差代入到公式(4)中,计算当前q个样本中每一个样本到数据集合中的其它样本的距离,也即,对于选取的q个样本中的每一个样本,均需要通过公式计算得到其与数据集合中的其它所有样本间的距离;
在具体的应用场景中,假设数据集合中有6个样本,选取的q个样本是前3个样本;
对于第1个样本,通过将获取到的协方差代入公式(4),得到该样本到其它5个样本的距离,得到的距离值为d12,d13,d14,d15,d16;
对于第2个样本,以同样方式获取,得到的距离值为d12,d23,d24,d25,d26;
同样的方式处理第3个样本,得到的距离值为d13,d23,d34,d35,d36;
由于是分别对前3个样本确定各自与其它5个样本间的距离,所以,对于第4、5、6个样本而言,其各自得到的距离值分别为:
第4个样本的距离值为d14,d24,d34;
第5个样本的距离值为d15,d25,d35;
第6个样本的距离值为d16,d26,d36;
对于上述各个样本的距离值,假设每个样本的各个距离值大小都是按照样本间的差值大小排列,也即样本间差值大的,距离值大,样本间差值小的,距离值小,例如,第1个和第2个样本的距离值d12与第1个样本和第3个样本的距离值d13比较时,d13>d12,且样本本身的位置越靠后,在相邻样本间比较距离值时,靠后样本的距离值大于靠前样本的距离值,例如,第1个和第2个样本的距离值d12与第2个样本和第3个样本的距离值d23比较,d23>d12;当然,上述方式仅是为了方便本领域技术人员能够理解所假设的方式,并不代表实际的各个样本的距离值大小,实际样本距离值以实际计算的结果为准。
步骤203,将获取到的距离值分别存储到所对应的样本的距离序列中。
具体的,如选取第一个样本,在确定其与其它样本的距离时,得到的距离信息不仅会保存在该第一个样本的距离序列里,还会保存在与其计算距离的样本的距离序列里;
在具体的应用场景中,分别将这6个样本各自的距离值放到各自的距离序列中。
步骤204,选取距离序列中的第k小距离值。
具体的,对于所选取的q个样本,在每个样本的距离序列中,选取第k小距离值作为该样本的k距离值;
在具体的应用场景中,假设在前3个样本各自的距离序列中,分别选取第4小距离值,也即在第1个样本的距离序列中选取的第4小距离值为d15,在第2个样本的距离序列中选取的第4小距离值为d25,在第3个样本的距离序列中选取的第4小距离值为d35。
步骤205,将q个样本的k距离值存储到top-q序列中。
具体的,在选取完q个样本的k距离值后,将这些k距离值存储到top-q序列中,且按照由大到小的顺序;由于选取的q可以是任意取值,假设所选取的q个样本是数据集合中的所有样本,那么,之后直接转到步骤213;
在具体的应用场景中,将上述选出的距离值d15、d25、d35存储到top-q序列中,并按照由大到小排列,得到top-q序列中的从大到小排列为d15、d25、d35。
步骤206,选取第q+1个样本。
在具体的应用场景中,选取第4个样本。
步骤207,确定距离序列中是否包含有k个距离值。
具体的,在确定距离序列中是否有k个距离值时,由于在前面确定q个样本的距离时,该q个样本中的每一个样本都会与该当前测试样本确定距离,并将得到的距离存储到该测试样本的距离序列中。当包含时,转到步骤208,否则,转到步骤211;
在具体的应用场景中,确定该第4个样本的距离序列中是否包含有4个距离值,由于在前述确定前3个样本的距离时,得到的该第4个样本的距离值为d14,d24,d34,也即其距离序列中包含的就是这3个距离值,由于此时该距离序列中不够4个距离值,所以,转到步骤211。
步骤208,选取第k小距离值,判断该距离值与top-q序列中最小的k距离值的关系。
具体的,在用该选取的第k小距离值判断其与top-q序列中最小的k距离值的关系时,若小于,转到步骤209,否则,转到步骤210;
在具体的应用场景中,选取该第4个样本的距离序列中的第4小距离值d14,判断该d14与top-q序列中最小的距离值d35的大小关系,由于d14>d35,所以,转到步骤210;
在得到后d46,选取该第4个样本的第4小距离值d46,继续判断该d46与top-q序列中最小的距离值d35的大小关系,由于d46>d35,所以,转到步骤210。
步骤209,确定该第k小距离值所属的样本不是离群点。
具体的,在确定该q+1样本不是离群点后,选取下一个样本,转到步骤207;其中,在确定当前样本的第k小距离值小于top-q序列中最小的k距离值时,直接确定该第k小距离值所属的样本不是离群点,此时,对于该样本而言,可能还有未确定的距离值,但由于当前第k小距离值的确定,剩余的距离值不用确定也可确定该样本不是离群点。
步骤210,确定当前样本与剩余样本中的下一样本的距离值。
具体的,当该选取的第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值,之后转到步骤208;其中,当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换top-q序列中最小的k距离值,并对该top-q序列中的k距离值重新排序,其中,由于该第k小距离值并不一定是更新后的top-q序列中最小的,故在替换后,还会对该top-q序列重新进行排序,选取下一个样本,转到步骤207;
在具体的应用场景中,由于d14>d35,故,继续确定该第4个样本与第6个样本的距离,得到d46,之后转到步骤208;
由于d46>d35,且当前第4个样本已经与所有6个样本均确定完距离值,将该距离值d46替换top-q序列中最小的距离值d35,并对该top-q序列重新排序;选取第5个样本,转到步骤207;
由于在确定第5个样本是否为离群点时的处理与确定第4个样本的过程相同,故在此不再做具体的阐述。
步骤211,确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值。
具体的,在确定当前样本(第q个样本之后的样本)的距离序列中没有k个距离值时,确定该样本到数据集合的剩余样本中的其它样本的距离,具体确定方式如步骤202中的方式,同样是根据协方差直到当前样本的距离序列中包含有k个距离值;之后转到步骤208;
在具体的应用场景中,由于第4个样本的距离序列中没有4个距离值,所以,在此时,需要确定该样本与剩余的第5个样本的距离值,确定方式同步骤202,得到该第4个样本的距离序列为d14,d24,d34,d45,确定该第4个样本的距离序列中包含有4个距离值后,转到步骤208。
步骤212,在遍历完所有剩余样本后,得到遍历后的top-q序列。
具体的,在将所有剩余样本的距离序列中的第k小距离值与top-序列中的最小的k距离值比较后,得到最终的top-q序列,确定该序列中的k距离值所在的q个样本即为离群点;
在具体的应用场景中,当确定完剩余的3个样本后,得到top-q序列,其中的3个距离值分别为d26、d15、d25,所以,确定这几个距离值所属的样本是离群点。
步骤213,输出top-q序列中的q个离群点。
对于上述所列举的具体的应用场景,只是申请人为了方便阐述本申请的技术方案所假设的技术方案,对于具体的确定离群点方式,以实际的数据为主。
基于与上述方法相同的构思,本发明实施例还提供了一种生理数据离群检测的设备,如图3所示,包括:
确定模块31,用于确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
具体用于利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述前q个样本中的每一个样本到数据集合中的其它样本的距离;其中,在利用所述协方差确定样本间的距离时,采用下述公式:
其中,X是指当前样本,Y是指下一样本;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中。
选取模块32,用于选取数据集合中的第q+1个样本。
第一处理模块33,用于确定当前样本的距离序列中是否包含有k个距离值;当包含时,通过第二处理模块执行;当不包含时,通过第三处理模块执行。
第二处理模块34,用于选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;所述第二处理模块,包括:
第一处理子模块341,用于当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,返回第一处理模块执行;
第二处理子模块342,用于当该第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;返回第二处理模块执行;还用于当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,返回第一处理模块执行。
第三处理模块35,用于利用所述协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后返回第二处理模块执行。
获取模块36,用于在重复执行上述各个处理模块的处理直至遍历完所有样本后,得到遍历后的top-q序列,通过所述确定模块确定所述遍历后的top-q序列中的q个样本为离群点。
综上所述,本发明实施例中,确定top-q序列,确定数据集合中剩余的样本与其它样本间的稳健马氏距离,得到各个样本的距离序列,通过分别选取距离序列中的第k小距离值,与top-q序列中的最小距离值比较,将不小于top-q序列中的最小距离值的距离值替换该top-q序列的最小距离值,直至遍历所有样本,得到遍历后的top-q序列,确定离群点,从而实现了对于生理数据的离群检测,提高了离群检测的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (6)
1.一种生理数据离群检测方法,其特征在于,应用于移动健康管理系统中,所述生理数据离群检测方法具体包括以下步骤:
确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
选取数据集合中的第q+1个样本,执行步骤A;
步骤A,确定当前样本的距离序列中是否包含有k个距离值;当包含时,执行步骤B,当不包含时,执行步骤E;
步骤B,选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;
步骤C,当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,重复执行步骤A;
步骤D,当该第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;执行步骤B;
当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,重复执行步骤A;
步骤E,利用协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后执行步骤B;
重复上述步骤,直至遍历完所有样本,得到遍历后的top-q序列,确定所述遍历后的top-q序列中的q个样本为离群点。
2.如权利要求1所述的方法,其特征在于,所述确定top-q序列,包括:
利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述q个样本中的每一个样本到数据集合中的其它样本的距离;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中。
3.如权利要求2所述的方法,其特征在于,在利用所述协方差确定样本间的距离时,通过下述公式:
<mrow>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>-</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>&prime;</mo>
</msup>
<msup>
<mi>S</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>-</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
其中,X是指当前样本,Y是指下一样本,S-1指总体协方差矩阵S的逆矩阵。
4.一种生理数据离群检测设备,其特征在于,所述生理数据离群检测设备包括:
确定模块,用于确定top-q序列,所述top-q序列包含有数据集合中的q个样本的k距离值,且所述k距离值按照由大到小排列;
选取模块,用于选取数据集合中的第q+1个样本;
第一处理模块,用于确定当前样本的距离序列中是否包含有k个距离值;当包含时,通过第二处理模块执行;当不包含时,通过第三处理模块执行;
第二处理模块,用于选取第k小距离值,判断该第k小距离值与所述top-q序列中最小的k距离值的关系;所述第二处理模块,包括:
第一处理子模块,用于当该第k小距离值小于所述top-q序列中最小的k距离值时,确定该第k小距离值所属的样本不是离群点;选取下一个样本,返回第一处理模块执行;
第二处理子模块,用于当该第k小距离值不小于所述top-q序列中最小的k距离值时,确定当前样本与剩余样本中的下一样本的距离值;返回第二处理模块执行;还用于当当前样本已经与剩余的所有样本确定完距离值,且当前第k小距离值不小于所述top-q序列中最小的k距离值时,将该第k小距离值替换所述top-q序列中最小的k距离值,并对所述top-q序列进行由大到小排列;选取下一个样本,返回第一处理模块执行;
第三处理模块,用于利用协方差确定当前样本到剩余样本中的其它样本的距离,直到当前样本的距离序列中包含有k个距离值;之后返回第二处理模块执行;
获取模块,用于在重复执行上述各个处理模块的处理直至遍历完所有样本后,得到遍历后的top-q序列,通过所述确定模块确定所述遍历后的top-q序列中的q个样本为离群点。
5.如权利要求4所述的设备,其特征在于,
所述确定模块,具体用于利用稳健马氏距离确定数据集合中最小行列式的协方差
选取所述数据集合中的q个样本,利用所述协方差确定所述q个样本中的每一个样本到数据集合中的其它样本的距离;
将获取到的距离值分别存储到所对应的样本的距离序列中;
选取距离序列中第k小距离值作为所对应的样本的k距离值;
将q个样本的所有k距离值存储到top-q序列中。
6.如权利要求5所述的设备,其特征在于,在利用所述协方差确定样本间的距离时,采用下述公式:
<mrow>
<mi>d</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>-</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>&prime;</mo>
</msup>
<msup>
<mi>S</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>-</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
</mrow>
</msqrt>
</mrow>
其中,X是指当前样本,Y是指下一样本,S-1指总体协方差矩阵S的逆矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310687125.1A CN104714964B (zh) | 2013-12-13 | 2013-12-13 | 一种生理数据离群检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310687125.1A CN104714964B (zh) | 2013-12-13 | 2013-12-13 | 一种生理数据离群检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104714964A CN104714964A (zh) | 2015-06-17 |
CN104714964B true CN104714964B (zh) | 2018-03-23 |
Family
ID=53414308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310687125.1A Active CN104714964B (zh) | 2013-12-13 | 2013-12-13 | 一种生理数据离群检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104714964B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117485B (zh) * | 2015-09-17 | 2018-07-20 | 深圳大学 | 一种基于k甚近邻的高准确率全局离群点检测算法 |
CN108241925A (zh) * | 2016-12-23 | 2018-07-03 | 重庆邮电大学 | 一种基于离群点检测的离散制造机械产品质量溯源方法 |
CN111243743A (zh) * | 2020-01-17 | 2020-06-05 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及计算机可读存储介质 |
CN113327655B (zh) * | 2021-04-21 | 2022-08-05 | 福建亿能达信息技术股份有限公司 | 多维度数据的离群值检测方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831432A (zh) * | 2012-05-07 | 2012-12-19 | 江苏大学 | 一种适用于支持向量机训练的冗余数据约减方法 |
CN103150728A (zh) * | 2013-03-04 | 2013-06-12 | 北京邮电大学 | 一种动态环境中的视觉定位方法 |
-
2013
- 2013-12-13 CN CN201310687125.1A patent/CN104714964B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831432A (zh) * | 2012-05-07 | 2012-12-19 | 江苏大学 | 一种适用于支持向量机训练的冗余数据约减方法 |
CN103150728A (zh) * | 2013-03-04 | 2013-06-12 | 北京邮电大学 | 一种动态环境中的视觉定位方法 |
Non-Patent Citations (2)
Title |
---|
基于不同属性数据流的离群数据挖掘算法的研究;武群惠;《中国优秀硕士学位论文全文数据库(电子期刊)》;20100815;全文 * |
基于距离的不确定离群点检测;于浩等;《计算机研究与发展》;20100315(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104714964A (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104714964B (zh) | 一种生理数据离群检测方法及装置 | |
CN109543740B (zh) | 一种基于生成对抗网络的目标检测方法 | |
Nadakuditi et al. | Graph spectra and the detectability of community structure in networks | |
Lopez-Bezanilla et al. | Modeling electronic quantum transport with machine learning | |
US6532467B1 (en) | Method for selecting node variables in a binary decision tree structure | |
Santra et al. | MAX 2-SAT with up to 108 qubits | |
Li et al. | Potts model based on a Markov process computation solves the community structure problem effectively | |
US8121967B2 (en) | Structural data classification | |
CN109800712B (zh) | 一种基于深度卷积神经网络的车辆检测计数方法及设备 | |
CN108062360A (zh) | 一种大规模复杂网络社区结构检测的方法、系统及装置 | |
CN106528629B (zh) | 一种基于几何空间划分的向量模糊搜索方法及系统 | |
Hu et al. | Parallel clustering of big data of spatio-temporal trajectory | |
CN106503386A (zh) | 评估光功率预测算法性能优劣的方法及装置 | |
Lin et al. | A fast parameters selection method of support vector machine based on coarse grid search and pattern search | |
Arenas et al. | Multiple resolution of the modular structure of complex networks | |
Jebabli et al. | Overlapping community detection versus ground-truth in amazon co-purchasing network | |
He et al. | A fast simulated annealing strategy for community detection in complex networks | |
Ruan et al. | Identification and evaluation of weak community structures in networks | |
Arab et al. | A modularity maximization algorithm for community detection in social networks with low time complexity | |
Berton et al. | The Impact of Network Sampling on Relational Classification. | |
Warnke et al. | Focus: a new multilayer graph model for short read analysis and extraction of biologically relevant features | |
Funke et al. | Stochastic block models as a modeling approach for dynamic material flow networks in manufacturing and logistics | |
Meichanetzidis et al. | Evaluating the Jones polynomial with tensor networks | |
Arif et al. | Machine learning and deep learning based network slicing models for 5G network | |
Janik et al. | Analyzing Neural Networks Based on Random Graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |