CN111860692A - 一种基于K-mediod的物联网环境下的异常数据检测方法 - Google Patents

一种基于K-mediod的物联网环境下的异常数据检测方法 Download PDF

Info

Publication number
CN111860692A
CN111860692A CN202010759571.9A CN202010759571A CN111860692A CN 111860692 A CN111860692 A CN 111860692A CN 202010759571 A CN202010759571 A CN 202010759571A CN 111860692 A CN111860692 A CN 111860692A
Authority
CN
China
Prior art keywords
internet
things
information
clustering
media
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010759571.9A
Other languages
English (en)
Other versions
CN111860692B (zh
Inventor
梁花
杨云
徐鑫
朱珠
李洋
韩世海
晏尧
雷娟
徐镭洋
严华
李玮
张森
向菲
万凌云
戴豪礽
张伟
景钰文
於舰
侯兴哲
陈涛
宫林
周全
李松浓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Original Assignee
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd, State Grid Corp of China SGCC filed Critical Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
Priority to CN202010759571.9A priority Critical patent/CN111860692B/zh
Publication of CN111860692A publication Critical patent/CN111860692A/zh
Application granted granted Critical
Publication of CN111860692B publication Critical patent/CN111860692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • G16Y20/10Information sensed or collected by the things relating to the environment, e.g. temperature; relating to location
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y20/00Information sensed or collected by the things
    • G16Y20/20Information sensed or collected by the things relating to the thing itself
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/10Detection; Monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/20Analytics; Diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Environmental & Geological Engineering (AREA)
  • Toxicology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于K‑mediod的物联网环境下的异常数据检测方法,涉及信息安全技术领域,包括物联网设备数据的采集、信息矩阵和相似矩阵的构建,K‑mediod聚类和结果评测,将采集到的物联网设备信息构造出信息矩阵,根据信息矩阵计算并构造出相似矩阵,根据相似矩阵中的相似度值对信息进行聚类获得聚类结果,最后通过评测函数评测聚类结果得到异常数据检测结果。本发明的方法提高了物联网环境下异常鉴别能力,解决了由于用户行为模式的多样性和不可预知性对异常数据的检测造成的影响。

Description

一种基于K-mediod的物联网环境下的异常数据检测方法
技术领域
本发明涉及信息安全技术领域,特别涉及一种基于K-mediod的物联网环境下的异常数据检测方法。
背景技术
随着5G技术慢慢走进我们的生活,物联网技术作为新生一代的信息技术,逐渐成为普通大众生活的一部分,对人们生活的影响日益显著。物联网是指通过信息感知节点,按照约定把任何物品(如传感器、执行器、嵌入式设备等)与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控、管理的一种网络。物联网是互联网的延展和扩展,实现将各种物体以某种方式开放到互联网中。物联网传统的分层结构由感知层、网络层和应用层组成。
虽然物联网具有重大的存在意义和很好的发展前景,但要实现物联网的广泛应用,目前还有很多挑战。随着物联网在实际生活与生产中应用的拓展,其以数据为中心的特点日益凸显。在物联网常见中,由于传感器性能不稳定、数据传输网络故障、人为或自然环境带来的干扰和破坏等因素,都可能导致异常数据的产生。这导致物联网中的数据质量急剧下降。因此,在物联网环境下的异常检测变得尤为重要。
目前物联网环境下的异常数据检测主要解决两个问题:异常的定义,即在特定的物联网环境下,什么样的数据该被定义为异常数据;异常检测算法的研究,选取什么样的方式方法对异常进行检测,从而达到高检测率和误检测率。物联网环境下的异常检测技术包括:基于统计的方法、基于最邻近的异常数据检测、基于聚类的异常数据检测、基于分类的异常数据检测、基于频谱分解的异常数据检测等。而对于基于聚类的异常数据检测它通过将相似的数据实例分到具有相似行为的簇中来实现对异常数据的检测。这中类型的检测方法假设正常数据属于大而密集的簇,异常数据属于小而稀疏的簇或者完全不属于任何簇,因此可通过数据实例是否属于某个簇、簇的大小、簇的稀疏程度来实现异常数据的判断。
发明内容
为了克服上述缺陷,本发明提供了一种基于K-mediod的物联网环境下的异常数据检测方法,通过采集物联网设备的相关信息构建出信息矩阵,再根据信息矩阵计算出物联网设备之间的相似度并搭建出相似性矩阵,之后采用K-mediod方法对物联网设备信息的相似性矩阵进行聚类处理,并得到K个簇,再通过评测函数计算不同K值的具体效果,最终得到最佳分类结果和异常数据检测结果。
本发明提供了一种基于K-mediod的物联网环境下的异常数据检测方法,包括数据获取及预处理、构建信息矩阵和相似性矩阵、K-mediod聚类、评测分析和数据输出,具体步骤如下:
S1:数据采集,通过传感器或电子检测设备获取互联网设备的相关信息数据;
S2:构建信息矩阵和相似性矩阵,根据获得的物联网设备信息构建物联网信息矩阵B,并计算任意两个物联网设备之间的相似度,根据得到的相似度结果构建物联网设备的相似性矩阵D;
S3:K-mediod聚类,对构建的所述相似性矩阵D进行多次不同K值的K-mediod聚类,并记录不同的K值及其对应的聚类结果;
S4:评测分析,根据得到的聚类结果通过评测函数进行评测分析,获得最佳聚类和异常数据集。
进一步的,步骤S1中所述数据采集获取到的信息数据包括物联网设备的表面温度、环境湿度、环境光强、设备噪音、电流、电压、电量、功率因子、频率和时间等设备的相关信息。
进一步的,所述信息矩阵的构建包括如下步骤:
首先分别构建出所有物联网设备信息的集合B和每个物联网设备信息的集合bp,其次通过向量Vp表示bp与B之间的关系,所述关系表示中的0表示不包含,1表示包含,根据所述表示关系构建出所述物联网设备信息矩阵Bnm,所述信息矩阵如下所示:
Figure BDA0002612686090000021
其中gnm为0或1。
进一步的,所述相似矩阵的构建包括如下步骤:
步骤S41:建立一个m维的空间,再空间中存在一点,使空间原点指向该点的向量与物联网信息向量V相等,即该点可以抽象地表示物联网设备所涉及到的物联网信息;
步骤S42:计算任意两个物联网设备Xi和Xj之间的信息相似度,通过信息在m为空间中对应的两点之间的欧几里得距离dij表示,表达式如下所示:
Figure BDA0002612686090000031
步骤S43:根据计算得到的两两设备之间的相似度值dij,构建出n个物联网设备的相似度矩阵Dnm如下所示:
Figure BDA0002612686090000032
进一步的,所述K-mediod聚类包括如下步骤:
步骤S51:选定一个K值,根据选定的K值从所有物联网设备中随机选取K个设备作为K-mediod聚类的中心点;
步骤S52:通过得到的相似度矩阵D,计算出剩余的物联网设备到K个中心点的距离,并将每个物联网设备分配到距离其最近的中心点;
步骤S53:每个物联网设备分配好后,计算出每个中心点到每个物联网设备的距离总和S;
步骤S54:从K个类簇中随机选择一个类中的非中心节点的物联网设备,来代替其中现有的一个中心点;
步骤S55:通过所述相似度矩阵D,计算剩余的物联网设备到K个中心点的距离,并根据当前的距离重新将每个点分配到距离最近的中心点;
步骤S56:根据分配好的物联网设备再次计算每个中心点到每个物联网设备的距离总和S′;
步骤S57:比较S和S′之间的大小,当S′小于S则将新的节点作为中心节点,并返回步骤S54再次选择执行,当S′大于S则中心点保持不变,并记录当前K值和当前聚类结果。
进一步的,所述评测分析通过评测函数计算不同K值的K-mediod聚类结果,并选取结果值最大的以及该K值对应的聚类结果作为最佳聚类,并比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据输出,所述评测函数如下所示:
Figure BDA0002612686090000033
其中f为物联网信息维度,nj为K-mediod聚类中第j个类的类中物联网设备信息的个数,K为K-mediod聚类参数,K为K-mediod聚类参数,xjq p为第j类聚类结果中物联网设备信息的第p个分量,cj p为第j类的类中心的第p个分量。
本发明基于上述方法还提供了一种基于K-mediod的物联网环境下的异常数据检测装置,包括:
采集模块:通过传感器及相关检测设备采集物联网设备的相关数据信息,并从设备信息中提取出特征信息;
构建模块:根据获得的数据信息构建物联网信息矩阵,根据构建的信息矩阵通过计算获得所述物联网设备之间的相似度,并构建物联网设备的相似度矩阵;
聚类模块:从所述物联网设备中随机选取K个设备作为聚类中心点进行K-mediod聚类,并根据构建的相似度矩阵计算中心点到所述物联网设备之间的距离进行多次的迭代分配、调整,获得不同K值的聚类结果;
评测模块:对不同K值的K-mediod聚类结果通过评测函数进行计算得到聚类的结果值,选取结果值最大的K值所对应的聚类结果为最佳聚类,同时比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据输出。
本发明的有益效果如下:
1、根据物联网信息矩阵计算任意两个物联网设备之间的相似性,并根据相似性构建物联网设备相似性矩阵,并对向相似性矩阵进行多次的K-mediod聚类,并根据不同K值的聚类结果通过评测函数进行评测,根据比较结果最佳聚类中K个类中的类个数的多少来作为最佳聚类和异常数据,通过数据实例是否属于某个簇、簇的大小、簇的稀疏程度来实现异常数据的判断,提高了异常鉴别能力,并有效解决了物联网环境下由于用户行为模式的多样性和不可预知性导致的对异常数据的检测的不准确。
2、所述K-mediod聚类过程中,不断的调整中心点,根据构建的所述物联网设备相似性矩阵的相似度值计算出各物联网设备到中心点的距离值作为比较条件形成最终的聚类结果,所述K-mediod聚类中,根据设备的数量进行不同次数的聚类,提高了算法的可操作性,同时提高了检测结果的准确性。
附图说明
图1是本发明的方法流程示意图;
图2是本发明的K-mediod算法的流程示意图。
具体实施方式
在下面的描述中对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例一提供了一种基于K-mediod的物联网环境下的异常数据检测方法,如图1所示,包括物联网设备信息矩阵的构造,物联网设备相似性矩阵的构造,K-mediod聚类以及结果评测,具体方法如下:
S1:通过电子设备等计算检测仪器采集物联网设备的表面温度、环境湿度、环境光强、设备噪音、电流、电压、电量、功率因子、频率和时间等设备的相关信息数据并进行特征提取,根据得到的数据构建物联网信息矩阵B。
所述物联网信息矩阵的构造具体过程如下:
首先,构建所有物联网设备包含的信息集合,本实施例中所述物联网设备总数为n,集合B={G1,G2,...,Gm},其中G表示信息,m表示G中信息的数量;
然后分别构建每个物联网设备的信息集合b,得出bp={gp1,gp2,....gpq},q≤m,其中p表示第p个物联网设备的信息。
之后构建向量Vp来表示第p个物联网设备集合bp与n个物联网设备包含的信息集合之间的关系,所述向量Vp={gp1,gp2,....gpq},q≤m其中gpq等于0或1,“0”表示bp中不包含B中信息Bq,“1”表示bp中包含B中信息Bq,根据表示关系构造出所述物联网设备信息矩阵Bnm,如下所示:
Figure BDA0002612686090000051
其中gnm=0或1。
S2:根据得到的所述物联网设备信息矩阵,通过计算每两个物联网设备之间的相似度构建出物联网设备的相似性矩阵;
根据构建的所述物联网设备信息矩阵Bnm,计算任意两个物联网设备之间的相似度,根据得到的相似度结果构建物联网设备的相似性矩阵D;
所述相似性矩阵D的构造具体过程如下:
首先建立一个m维的空间,在所述空间中取一点Kp使空间原点O指向该点的向量与所述物联网信息向量Vp相等,将该点K表示所述物联网设备关联的物联网相关信息;
之后计算任意两个物联网设备Xi,Xj之间的信息相似度,通过所述物联网相关信息在所述m维空间中对应的任意两点Ki和Kj之间的欧几里得距离dij表示,表达式如下所示:
Figure BDA0002612686090000061
其中i,j分别表示任意两个物联网设备,m表示信息的数量,gi和gj和分别表示对应的物联网设备的信息。
最后根据计算得到两两设备之间的相似度值dij,构建出n个物联网设备的相似度矩阵Dnm,所述相似度矩阵Dnm用设备之间的距离矩阵表示,如下所示:
Figure BDA0002612686090000062
S3:对构建的所述相似性矩阵Dnm进行多次不同K值的K-mediod聚类,获得不同K值及其对应的聚类结果;
如图2所示,所述K-mediod聚类具体过程如下:
S51:设定一个K值,所述K值的选取范围为0<K<n,根据选定的K值从所有物联网设备中随机选取K个设备作为K-mediod聚类的中心点;
S52:通过上述得到的相似度矩阵Dnm,计算出剩余的物联网设备到选取的K个中心点的距离,并将每个物联网设备分配到距离其最近的中心点;
所述剩余的物联网设备到中心点的距离计算公式如下:
dikmin=min(dik1,dik2,…,dikk)
其中dikmin表示第i个物联网设备与距其最近的中心点的距离,dikk表示第i个物联网设备距离第k个中心点的距离。
S53:根据所述物联网设备到中心点的距离将剩余的物联网设备分配好后,计算出每个中心点到每个物联网设备的距离总和S;
所述距离总和S的计算公式如下:
Figure BDA0002612686090000071
其中k表示聚类中心点个数,i表示聚类节点,dik表示第i个节点到第k个聚类中心的距离。
S54:根据围绕所述中心点最近距离分配的物联网设备形成了k个聚类,从所述K个聚类中随机选择一个类的非中心节点的物联网设备,来代替其中现有的一个中心点,获得新的聚类结果;
S55:根据获得的新的聚类结果,通过所述相似度矩阵Dnm,计算剩余的物联网设备到第K个中心点的距离,并根据当前的距离重新将每个物联网设备分配到距离最近的中心点;
S56:根据当前距离重新分配好的物联网设备再次计算每个中心点到每个物联网设备的距离总和S′;
S57:比较S和S′之间的大小,当S′小于S时则将新的节点作为中心节点,并返回步骤S54再次选择执行,当S′大于S时则中心点保持不变,并记录当前K值和当前对应的聚类结果。
之后通过选定不同的K值进行多次K-mediod聚类,聚类次数可根据物联网设备的数量的而设定,本实施例中,聚类次数t设为50。
S4:将得到的不同K值聚类结果通过评测函数进行评测分析,获得最佳聚类和异常数据集;
通过评测函数计算不同K值对应的K-mediod聚类结果对应的结果值,其中结果值最大的K值所对应的聚类结果为最佳聚类,同时比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据集进行输出,所述评测函数计算公式如下所示:
Figure BDA0002612686090000072
其中f为物联网信息维度,nj为K-mediod聚类中第j个类的类中物联网设备信息的个数,K为K-mediod聚类参数,xjq p为第j类聚类结果中物联网设备信息的第p个分量,cj p为第j类的类中心的第p个分量。
本发明的实施例二基于上述实施例一提供了一种基于K-mediod的物联网环境下的异常数据检测装置,包括:
采集模块:通过传感器及相关检测设备采集物联网设备的相关数据信息,并从设备信息中提取出特征信息;
构建模块:根据获得的数据信息构建物联网信息矩阵,根据构建的信息矩阵通过计算获得所述物联网设备之间的相似度,并构建物联网设备的相似度矩阵;
聚类模块:从所述物联网设备中随机选取K个设备作为聚类中心点进行K-mediod聚类,并根据构建的相似度矩阵计算中心点到所述物联网设备之间的距离进行多次的迭代分配、调整,获得不同K值的聚类结果;
评测模块:对不同K值的K-mediod聚类结果通过评测函数进行计算得到聚类的结果值,选取结果值最大的K值所对应的聚类结果为最佳聚类,同时比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据输出。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (7)

1.一种基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述方法包括:
S1:数据采集,通过传感器或电子检测设备获取互联网设备的相关信息数据;
S2:构建信息矩阵和相似性矩阵,根据获得的物联网设备信息构建物联网信息矩阵B,并计算任意两个物联网设备之间的相似度,根据得到的相似度结果构建物联网设备的相似性矩阵D;
S3:K-mediod聚类,对构建的所述相似性矩阵D进行多次不同K值的K-mediod聚类,并记录不同的K值及其对应的聚类结果;
S4:评测分析,根据得到的聚类结果通过评测函数进行评测分析,获得最佳聚类和异常数据集。
2.根据权利要求1所述的基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述信息数据包括物联网设备的表面温度、环境湿度、环境光强、设备噪音、电流、电压、电量、功率因子、频率和时间。
3.根据权利要求1所述的基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述信息矩阵的构建,首先分别构建出所有物联网设备信息的集合B和每个物联网设备信息的集合bp,再通过向量Vp表示bp与B之间的关系,所述关系表示中的0表示不包含,1表示包含,根据所述表示关系构建出所述物联网设备信息矩阵Bnm如下所示:
Figure FDA0002612686080000011
其中gnm为0或1。
4.根据权利要求1所述的基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述相似矩阵的构建包括如下步骤:
S41:建立一个m维的空间,再空间中存在一点,使空间原点指向该点的向量与物联网信息向量V相等,即该点可以抽象地表示物联网设备所涉及到的物联网信息;
S42:计算任意两个物联网设备Xi和Xj之间的信息相似度,通过信息在m为空间中对应的两点之间的欧几里得距离dij表示,表达式如下所示:
Figure FDA0002612686080000021
S43:根据计算得到的两两设备之间的相似度值dij,构建出n个物联网设备的相似度矩阵Dnm如下所示:
Figure FDA0002612686080000022
5.根据权利要求1所述的基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述K-mediod聚类包括如下步骤:
S51:选定一个K值,根据选定的K值从所有物联网设备中随机选取K个设备作为K-mediod聚类的中心点;
S52:通过得到的相似度矩阵D,计算出剩余的物联网设备到K个中心点的距离,并将每个物联网设备分配到距离其最近的中心点;
S53:每个物联网设备分配好后,计算出每个中心点到每个物联网设备的距离总和S;
S54:从K个类簇中随机选择一个类中的非中心节点的物联网设备,来代替其中现有的一个中心点;
S55:通过所述相似度矩阵D,计算剩余的物联网设备到K个中心点的距离,并根据当前的距离重新将每个点分配到距离最近的中心点;
S56:根据分配好的物联网设备再次计算每个中心点到每个物联网设备的距离总和S′;
S57:比较S和S′之间的大小,当S′小于S则将新的节点作为中心节点,并返回步骤S54再次选择执行,当S′大于S则中心点保持不变,并记录当前K值和当前聚类结果。
6.根据权利要求1所述的基于K-mediod的物联网环境下的异常数据检测方法,其特征在于,所述评测分析通过评测函数计算不同K值的K-mediod聚类结果,并选取结果值最大的以及该K值对应的聚类结果作为最佳聚类,并比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据输出,所述评测函数如下所示:
Figure FDA0002612686080000023
其中f为物联网信息维度,nj为K-mediod聚类中第j个类的类中物联网设备信息的个数,K为K-mediod聚类参数,xjq p为第j类聚类结果中物联网设备信息的第p个分量,cj p为第j类的类中心的第p个分量。
7.一种基于K-mediod的物联网环境下的异常数据检测装置,其特征在于,包括:
采集模块:通过传感器及相关检测设备采集物联网设备的相关数据信息,并从设备信息中提取出特征信息;
构建模块:根据获得的数据信息构建物联网信息矩阵,根据构建的信息矩阵通过计算获得所述物联网设备之间的相似度,并构建物联网设备的相似度矩阵;
聚类模块:从所述物联网设备中随机选取K个设备作为聚类中心点进行K-mediod聚类,并根据构建的相似度矩阵计算中心点到所述物联网设备之间的距离进行多次的迭代分配、调整,获得不同K值的聚类结果;
评测模块:对不同K值的K-mediod聚类结果通过评测函数进行计算得到聚类的结果值,选取结果值最大的K值所对应的聚类结果为最佳聚类,同时比较最佳聚类中K个类中的类个数,将最小类个数的类作为异常数据输出。
CN202010759571.9A 2020-07-31 2020-07-31 一种基于K-mediod的物联网环境下的异常数据检测方法 Active CN111860692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010759571.9A CN111860692B (zh) 2020-07-31 2020-07-31 一种基于K-mediod的物联网环境下的异常数据检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010759571.9A CN111860692B (zh) 2020-07-31 2020-07-31 一种基于K-mediod的物联网环境下的异常数据检测方法

Publications (2)

Publication Number Publication Date
CN111860692A true CN111860692A (zh) 2020-10-30
CN111860692B CN111860692B (zh) 2022-05-31

Family

ID=72953622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010759571.9A Active CN111860692B (zh) 2020-07-31 2020-07-31 一种基于K-mediod的物联网环境下的异常数据检测方法

Country Status (1)

Country Link
CN (1) CN111860692B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600792A (zh) * 2020-11-23 2021-04-02 国网山东省电力公司青岛供电公司 一种物联网设备的异常行为检测方法及系统
CN113570200A (zh) * 2021-06-30 2021-10-29 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN114492517A (zh) * 2022-01-10 2022-05-13 南方科技大学 电梯检测方法、电梯检测装置、电子设备及存储介质
CN114549090A (zh) * 2022-04-25 2022-05-27 深圳市明珞锋科技有限责任公司 一种根据批发订单进行季度数据核算的数据处理系统
CN116320042A (zh) * 2023-05-16 2023-06-23 陕西思极科技有限公司 边缘计算的物联终端监测控制系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169560A1 (en) * 2001-05-12 2002-11-14 X-Mine Analysis mechanism for genetic data
EP2216749A1 (en) * 2007-12-03 2010-08-11 National University Corporation Hokkaido University Image classification device and image classification program
US20110035094A1 (en) * 2009-08-04 2011-02-10 Telecordia Technologies Inc. System and method for automatic fault detection of a machine
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
US20190188742A1 (en) * 2017-12-20 2019-06-20 International Business Machines Corporation Forecasting demand across groups of skills
CN110381126A (zh) * 2019-07-02 2019-10-25 山东建筑大学 基于边缘计算的用电设备识别方法、系统、设备及介质
CN110866030A (zh) * 2019-10-23 2020-03-06 中国科学院信息工程研究所 一种基于无监督学习的数据库异常访问检测方法
WO2020051704A1 (en) * 2018-09-12 2020-03-19 Avigilon Corporation System and method for improving speed of similarity based searches

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169560A1 (en) * 2001-05-12 2002-11-14 X-Mine Analysis mechanism for genetic data
EP2216749A1 (en) * 2007-12-03 2010-08-11 National University Corporation Hokkaido University Image classification device and image classification program
US20110035094A1 (en) * 2009-08-04 2011-02-10 Telecordia Technologies Inc. System and method for automatic fault detection of a machine
US20180322363A1 (en) * 2015-03-26 2018-11-08 Oracle International Corporation Multi-distance clustering
US20190188742A1 (en) * 2017-12-20 2019-06-20 International Business Machines Corporation Forecasting demand across groups of skills
WO2020051704A1 (en) * 2018-09-12 2020-03-19 Avigilon Corporation System and method for improving speed of similarity based searches
CN110381126A (zh) * 2019-07-02 2019-10-25 山东建筑大学 基于边缘计算的用电设备识别方法、系统、设备及介质
CN110866030A (zh) * 2019-10-23 2020-03-06 中国科学院信息工程研究所 一种基于无监督学习的数据库异常访问检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
GUNUPUDI 等: "A self constructing feature clustering approach for anomaly detection", 《FUTURE GENERATION COMPUTER SYSTEMS》 *
付迎丁: "基于聚类技术的异常检测研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *
赵明 等: "一种基于聚类算法的网络异常检测方法研究", 《计算机与网络》 *
郑海军 等: "相似矩阵和聚类一致性的协同显著检测", 《计算机科学与探索》 *
陈涛 等: "基于模型检测的数据流异常测试技术研究", 《计算机工程与应用》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600792A (zh) * 2020-11-23 2021-04-02 国网山东省电力公司青岛供电公司 一种物联网设备的异常行为检测方法及系统
CN113570200A (zh) * 2021-06-30 2021-10-29 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN113570200B (zh) * 2021-06-30 2023-10-03 国电南瑞科技股份有限公司 一种基于多维信息的电网运行状态监测方法及系统
CN114492517A (zh) * 2022-01-10 2022-05-13 南方科技大学 电梯检测方法、电梯检测装置、电子设备及存储介质
CN114549090A (zh) * 2022-04-25 2022-05-27 深圳市明珞锋科技有限责任公司 一种根据批发订单进行季度数据核算的数据处理系统
CN114549090B (zh) * 2022-04-25 2022-07-19 深圳市明珞锋科技有限责任公司 一种根据批发订单进行季度数据核算的数据处理系统
CN116320042A (zh) * 2023-05-16 2023-06-23 陕西思极科技有限公司 边缘计算的物联终端监测控制系统
CN116320042B (zh) * 2023-05-16 2023-08-04 陕西思极科技有限公司 边缘计算的物联终端监测控制系统

Also Published As

Publication number Publication date
CN111860692B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN111860692B (zh) 一种基于K-mediod的物联网环境下的异常数据检测方法
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
CN110213244A (zh) 一种基于时空特征融合的网络入侵检测方法
Shao et al. Synchronization-based clustering on evolving data stream
Ghesmoune et al. A new growing neural gas for clustering data streams
Ganapathy et al. A novel weighted fuzzy C–means clustering based on immune genetic algorithm for intrusion detection
Zhao et al. A novel multivariate time-series anomaly detection approach using an unsupervised deep neural network
Iturrino-García et al. An innovative single shot power quality disturbance detector algorithm
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN117674119A (zh) 电网运行风险评估方法、装置、计算机设备和存储介质
Na et al. Fake data injection attack detection in AMI system using a hybrid method
Lingqing et al. Detection method for power theft based on SOM neural network and K-means clustering algorithm
Xu et al. An improved LOF outlier detection algorithm
Zhao et al. Bayesian statistical inference in machine learning anomaly detection
Xie et al. Graph‐based Bayesian network conditional normalizing flows for multiple time series anomaly detection
CN116523001A (zh) 电网薄弱线路识别模型构建方法、装置和计算机设备
Subramanian et al. Analysis of the effect of clustering the training data in Naive Bayes classifier for anomaly network intrusion detection
Purnawansyah et al. K-Means clustering implementation in network traffic activities
CN114818827A (zh) 基于seq2point网络的非侵入式负荷分解方法
Louhi et al. Incremental nearest neighborhood graph for data stream clustering
Liu et al. An accurate method of determining attribute weights in distance-based classification algorithms
CN112884167B (zh) 一种基于机器学习的多指标异常检测方法及其应用系统
Luo et al. Detection of abnormal power consumption patterns of power users based on machine learning
Fan et al. DnyNSA: a novel real-value based negative selection algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant