CN116484065B - 基于物联网的定位数据优化存储方法及系统 - Google Patents

基于物联网的定位数据优化存储方法及系统 Download PDF

Info

Publication number
CN116484065B
CN116484065B CN202310722192.6A CN202310722192A CN116484065B CN 116484065 B CN116484065 B CN 116484065B CN 202310722192 A CN202310722192 A CN 202310722192A CN 116484065 B CN116484065 B CN 116484065B
Authority
CN
China
Prior art keywords
cluster
positioning data
data points
class
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310722192.6A
Other languages
English (en)
Other versions
CN116484065A (zh
Inventor
寻建晖
刘龙智
王茂励
徐娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qufu Normal University
Original Assignee
Qufu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qufu Normal University filed Critical Qufu Normal University
Priority to CN202310722192.6A priority Critical patent/CN116484065B/zh
Publication of CN116484065A publication Critical patent/CN116484065A/zh
Application granted granted Critical
Publication of CN116484065B publication Critical patent/CN116484065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/60Positioning; Navigation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种基于物联网的定位数据优化存储方法及系统。该方法通过在每个二值化簇类中以参考点为中心建立矩形区域并更新矩形区域,直至矩形区域中定位数据点的异常度达到异常预设值,将该矩形区域中定位数据点分割获得分簇类,判断未被分割的二值化簇类是否满足预设停止条件,若满足则簇类分割完成,反之对未被分割的二值化簇类继续分割;利用CBLOF算法筛选分簇类中的定位数据点获得离群点,对离群点对应物联网设备的移动路径存储。本发明通过对簇类再分割获得特征明显的分簇类,根据分簇类对离群点筛选更精确,存储离群点对应物联网设备的移动路径,提高了存储系统的空间利用率。

Description

基于物联网的定位数据优化存储方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于物联网的定位数据优化存储方法及系统。
背景技术
在物联网定位场景中,当物联网设备移动时,其对应的定位数据点不是突变而是累计变化时,此时对应的设备可能出现故障。因此需要根据定位数据点对应设备的移动路径,判断对应设备是否出现故障。而定位数据点进行高频次存储会占用大量存储空间,因此需要优化选取关键定位数据点进行存储,以提升整体存储系统的空间利用率。
现有技术中利用常规基于聚类的本地异常因子检测(Cluster-based LocalOutlier Factor,CBLOF)算法根据定位数据点和簇类之间的位置关系获得离群点,但是现有聚类根据定位数据点之间的相似特征进行簇类选取,当大量物联网设备之间的密度差异小时,容易将密度差异小的大量物联网设备对应的定位数据点聚为一类,无法将不同位置的定位数据点进行准确地分簇,不能筛选出部分故障物联网设备对应的离群点,筛选的离群点不精准,即不能对部分发生故障的物联网设备进行准确识别,识别效果不好,无法对所需的离群点对应的物联网设备的移动路径进行针对性存储。
发明内容
为了解决现有聚类算法无法将不同位置的数据点进行准确地分簇,进而影响特殊定位设备数据的识别,无法对特殊信息进行针对性存储的技术问题,本发明的目的在于提供一种基于物联网的定位数据优化存储方法及系统,所采用的技术方案具体如下:
本发明提出了一种基于物联网的定位数据优化存储方法,所述方法包括:
获取物联网设备的定位数据点;根据预设的簇类数量对所述定位数据点进行聚类,获得预设个簇类;
在每个所述簇类中将所述簇类的定位数据点二值化获得二值化簇类,将所述二值化簇类进行形态学处理获得闭合区域;在每个所述二值化簇类中,根据预设规则选择一个定位数据点为参考点,以所述参考点为中心根据预设尺寸构建一个矩形区域,根据所述矩形区域中的定位数据点的数量分布获得所述矩形区域的丰富度;根据所述矩形区域在所述闭合区域中对应区域的形状获得所述矩形区域的形变度,根据所述丰富度和所述形变度获得所述矩形区域的异常度,根据所述异常度更新所述矩形区域的尺寸,直至所述异常度达到异常预设值停止更新,将所述矩形区域内的定位数据点分割,构成分簇类;对未被分割的二值化簇类继续进行所述分簇类的分割,当未被分割的二值化簇类满足预设停止条件时,所述簇类分割完成;
利用CBLOF算法筛选所述分簇类中的定位数据点获得离群点,对所述离群点对应物联网设备的移动路径存储。
进一步地,所述根据预设规则选择一个定位数据点为参考点,包括:
以距离所述二值化簇类的中心定位数据点最远的一个定位数据点为参考点。
进一步地,所述根据所述矩形区域中的定位数据点的数量分布获得所述矩形区域的丰富度,包括:
将所述矩形区域中定位数据点的数量与所述矩形区域面积的比值作为所述丰富度。
进一步地,所述根据所述矩形区域在所述闭合区域中对应区域的形状获得所述矩形区域的形变度,包括:
所述矩形区域在所述闭合区域中对应区域中进行主成分分析算法分析,获得最大主成分方向和最小主成分方向,将所述最大主成分方向与所述最小主成分方向的比值作为所述矩形区域的形变度。
进一步地,所述根据所述丰富度和所述形变度获得所述矩形区域的异常度,包括:
将所述丰富度和所述形变度的乘积作为所述矩形区域的异常度。
进一步地,所述当未被分割的二值化簇类满足预设停止条件时,包括:
预设停止条件为未被分割的二值化簇类中的定位数据点的数量小于所述分簇类中定位数据点的数量的预设倍数。
进一步地,所述利用CBLOF算法筛选所述分簇类中的定位数据点获得离群点,包括:
根据所述分簇类中的定位数据点的分布情况获得每个所述分簇类的松散度;获得每个所述分簇类与其他分簇类之间的平均中心距离;将每个所述分簇类对应的平均中心距离与对应的松散度的比值与对应分簇类中定位数据点数量相乘,获得对应分簇类的大簇评价;
将所述大簇评价归一化处理获得大簇评价归一化值,当所述大簇评价归一化值大于预设大簇分界值时,对应的分簇类为大簇,反之,为小簇;利用CBLOF算法筛选所述大簇和所述小簇中的定位数据点获得离群点。
进一步地,所述对所述离群点对应物联网设备的移动路径存储,包括:
将所述离群点作为压缩位,存储并上报当前时刻沿时序向后所述离群点对应物联网设备的移动路径。
本发明还提出了一种基于物联网的定位数据优化存储系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任意一项所述一种基于物联网的定位数据优化存储方法的步骤。
本发明具有如下有益效果:
考虑到现有技术中聚类算法无法将不同位置的定位数据点进行准确地分簇,不能精确筛选离群点,因此本发明实施例对聚类后的簇类进行进一步的分簇,进而寻找出离群点进行针对性存储。本发明首先构建矩形区域,对区域内的定位数据点判断是否将其分割为一个分簇类,并通过对矩形区域的尺寸迭代更新,完成对簇类的进一步分簇。为了判断是否将定位数据点分为一个分簇,引入丰富度和形变度,丰富度表示了定位数据点在对应矩形区域中的丰富程度,矩形区域的形变度表征矩形区域在对应闭合区域中对应区域的形状,簇类中的定位数据点信息越丰富越适合将定位数据点分割出来作为一个分簇类,簇类对应闭合区域中对应区域的形状发生的形变程度越大时,且其他变量不变时越不利于后续筛选离群点,将该簇类划分为一个分簇类的必要性越大;根据预设停止条件通过更新过程完成对整个簇类的再分割,获得精准的分簇类;分簇类相较于聚类后的簇类的中心点进行了移动,分簇类的特征更加明显,根据分簇类筛选离群点的准确性更高。通过在特征明显的分簇类中进CBLOF算法分析,即可获得精确的离群点。存储离群点对应设备的移动路径,提高了存储系统的空间利用率。通过对簇类再分割,对分簇类进行CBLOF算法分析,获得离群点,存储离群点对应物联网设备的移动路径,提高了存储系统的空间利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于物联网的定位数据优化存储方法流程图;
图2为本发明一个实施例所提供的形态学处理前的定位数据点分布示意图;
图3为本发明一个实施例所提供的闭合区域示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于物联网的定位数据优化存储方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于物联网的定位数据优化存储方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于物联网的定位数据优化存储方法流程图,该方法包括:
步骤S1:获取物联网设备的定位数据点;根据预设的簇类数量对定位数据点进行聚类,获得预设个簇类。
对物联网设备安装定位模块并接入当前所处位置空间的局域网络,形成物联网,在物联网定位场景中,当物联网设备移动时,其移动距离不是突变而是累计变化时,此时对应的物联网设备可能出现故障,因此需要通过物联网设备的定位单元获取定位模块产生的定位数据点,根据定位数据点的变化获得对应物联网设备的移动路径,根据移动路径判断对应物联网设备是否出现故障。
根据预设的簇类数量对定位数据点进行强制聚类,获得的部分簇类中定位数据点数量过多且簇类之间的形态差异大,导致能够进行筛选离群点的多个簇类被识别为一个簇类,降低了筛选离群点的准确性。在对定位数据点进行聚类的过程中,当大量物联网设备之间的密度差异不大时,容易将大量物联网设备对应的定位数据点聚为一类,产生簇类粘连的误分类情况,无法将簇类中不同位置的数据点进行划分,导致后续不能精准筛选离群点。
为了对定位数据点初次分割,方便后续对聚类后的簇类再次分割获得特征明显的分簇类,以便于后续精确筛选离群点,根据预设的簇类数量对定位数据点进行聚类,获得预设个簇类。在本发明一个实施例中,预设的簇类数量为物联网设备的种类数,举个示例,如果具有20种物联网设备,那么预设的簇类数量设为20。在本发明一个实施例中,聚类为K_means聚类。K_means聚类为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。在本发明另一个实施例中,聚类为密度聚类。密度聚类为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
步骤S2:在每个簇类中将簇类的定位数据点二值化获得二值化簇类,将二值化簇类进行形态学处理获得闭合区域;在每个二值化簇类中,根据预设规则选择一个定位数据点为参考点,以参考点为中心根据预设尺寸构建一个矩形区域,根据矩形区域中的定位数据点的数量分布获得矩形区域的丰富度;根据矩形区域在闭合区域中对应区域的形状获得矩形区域的形变度,根据丰富度和形变度获得矩形区域的异常度,根据异常度更新矩形区域的尺寸,直至异常度达到异常预设值停止更新,将矩形区域内的定位数据点分割,构成分簇类;对未被分割的二值化簇类继续进行分簇类的分割,当未被分割的二值化簇类满足预设停止条件时,簇类分割完成。
因为传统聚类根据定位数据点之间的相似特征进行簇类选取,当大量物联网设备之间的密度差异小时,容易将密度差异小的大量物联网设备对应的定位数据点聚为一类,无法将不同位置的定位数据点进行准确地分簇,又因为需要根据不同位置定位数据点构成的簇类获取离群点,所以对每一个簇类进行分析,对聚类后的簇类进行分割。
请参阅图2,其示出了本发明一个实施例所提供的形态学处理前的定位数据点分布示意图;请参阅图3,其示出了本发明一个实施例所提供的闭合区域示意图。为了获得定位数据点组成的簇类的形状,将簇类中的定位数据点二值化获得二值化簇类,将二值化簇类进行形态学处理获得闭合区域,在形态学处理的过程中尽量将定位数据点之间的空隙填满,便于后续根据闭合区域分析对应簇类的形状。由图3可知,经过形态学处理后,闭合区域为一个具有明显边缘特征的不规则形状区域。
二值化为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述,在此仅简述本发明一个实施例中二值化的简要步骤,将簇类中定位数据点记为1,其他位置记为0。在本发明一个实施例中,形态学处理为形态学处理闭运算。形态学处理闭运算为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
需要说明的是,二值化簇类与聚类后的簇类一一对应,在后续分割过程中需要对每一个二值化簇类进行分析。因为每个簇类的分割方法相同,所以在后续描述中仅对一个簇类进行举例描述。
在每个二值化簇类中,根据预设规则选择一个定位数据点为参考点,对簇类进行分割为分簇类的过程中选择一个固定的定位数据点作为参考点,直至该簇类分为一个分簇类,对未被分割的二值化簇类继续分割选择对应的一个固定的定位数据点作为参考点,每次对簇类分割都固定一个定位数据点作为参考点使分割的过程更加合理准确。
优选地,在本发明一个实施例中,在每个二值化簇类中,以距离二值化簇类的中心定位数据点最远的一个定位数据点作为参考点,该最远的一个定位数据点所在的区域形状的形变程度可能最大,以该定位数据点为参考点能够尽快将该参考点所在区域的形状的形变程度大的部分分割为一个分簇类,使得分割过程更加合理准确且提高了分割效率。
以簇类中的参考点为中心根据预设尺寸构建一个矩形区域,判断该矩形区域中定 位数据点是否分割为一个分簇类,若不能分割为一个分簇类,则通过迭代运算更新矩形区 域的尺寸,继续判断更新后的矩形区域中定位数据点是否分割为一个分簇类。为了后续迭 代运算能够顺利进行,以参考点为中心根据预设尺寸构建一个矩形区域。在本发明一个实 施例中,预设尺寸的大小为
定位数据点按照物联网设备的定位信息分布在簇类中,根据物联网设备的分布情况获得对应定位数据点的数量分布特征,根据矩形区域中的定位数据点的数量分布获得矩形区域的丰富度,丰富度表示了定位数据点在对应矩形区域中的丰富程度,矩形区域中定位数据点占有矩形区域的比例越高,对应的丰富度越大,说明矩形区域内的定位数据点所包含的信息越丰富,将矩形区域中的定位数据点分割为一个分簇类的必要性越大。
优选地,在本发明一个实施例中,将矩形区域中定位数据点的数量与该矩形区域面积的比值作为该矩形区域的丰富度。比值越大即定位数据点在对应矩形区域中的比例越大,矩形区域的丰富度越大即定位数据点在对应矩形区域中的丰富程度越大,将矩形区域中的定位数据点分割为一个分簇类的必要性越大。
闭合区域中的点的数量比对应的未进行形态学处理的簇类中定位数据点的数量多,且闭合区域具有明显的形状,因此矩形区域的形变度对对应闭合区域中对应区域的形状进行表征,其他变量不变当该形状为该场景下所设置的最优形状时最有利于筛选离群点。最优形状即为符合定位设备信号辐射的形状。当矩形区域在对应闭合区域中对应区域的形状越偏离最优形状,其对应的矩形区域中定位数据点被分割为一个分簇类的必要性越大。因此,根据矩形区域在闭合区域中对应区域的形状获得矩形区域的形变度,该形变度表示了对应矩形区域中定位数据点分布形态的形变程度。
优选地,在本发明一个实施例中,定位信号发射形状为圆形辐射状,因此定位数据点组成的区域为正圆形区域时更有利贴合信号发射特征进行筛选离群点。因此需要获得定位数据点组成的簇类的形状,当形状越接近正圆形时,越有利于后续筛选离群点,当形状相对于正圆形发生形变的程度越大时,将定位数据点组成的簇类分为一个分簇类的必要性越大。因为根据主成分分析算法能够对矩形区域在对应闭合区域中对应区域的形状进行分析,所以在矩形区域在对应闭合区域中的对应区域中进行主成分分析算法分析,获得最大主成分方向和最小主成分方向,将最大主成分方向与最小主成分方向的比值作为矩形区域的形变度。正圆区域的各主成分方向之间不存在差异,此时对应的形变度最小;闭合区域中对应区域的形状越偏离正圆形状,最大主成分方向与最小主成分方向的比值越大,即对应矩形区域的形变度越大,将矩形区域中定位数据点分割为一个分簇类的必要性越大。主成分分析算法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
为了判断矩形区域中的定位数据点是否分割为一个具有明显特征分簇类,根据矩形区域的丰富度和对应的形变度获得异常度,异常度表示了对应定位数据点组成的簇类的形变程度,根据异常度能够判断矩形区域中的定位数据点是否分割为一个分簇类。
优选地,在本发明一个实施例中,将矩形区域的丰富度和对应的形变度的乘积作为该矩形区域的异常度。当定位数据点组成的簇类的形变程度越大,对应矩形区域的异常度越大,将该矩形区域中定位数据点分为一个分簇类的必要性越大。
在本发明一个实施例中,异常度的公式,包括:
其中,为自然数,为第个矩形区域的异常度,为第个矩形区域的最大 主成分方向,为第个矩形区域的最小主成分方向,为第个矩形区域的形变度,为第个矩形区域中定位数据点的数量,为第个矩形区域的面积,为第个矩形区域 的丰富度。
将矩形区域的形变度和对应的丰富度的乘积作为该矩形区域的异常度,异常度表 示了对应定位数据点组成的簇类的形变程度,根据异常度判断矩形区域中的定位数据点是 否分割为一个分簇类,分割出的分簇类具有明显的特征,便于后续对分簇类中的定位数据 点筛选离群点。当第个矩形区域的丰富度越大且形变度越大时,该矩形区域的异常度越 大,该矩形区域中定位数据点被分为一个分簇类的必要性越大。
为了分割出具有特征明显的分簇类,根据异常度更新矩形区域的尺寸,当异常度达到异常预设值时停止更新矩形区域的尺寸,此时对应定位数据点组成的簇类已经发生明显的变形,将该簇类分为一个分簇类,构成的分簇类具有明显的特征,便于后续精确地筛选离群点,避免了簇类的变形程度过大以至于影响后续精确地筛选离群点。当异常度小于异常预设值时,为了后续提高筛选离群点的准确性,更新矩形区域使得簇类具有更丰富的定位数据点。
在本发明一个实施例中,矩形区域设置为正方形区域,矩形区域的更新方法为以参考点为中心更新矩形区域,每次更新矩形区域的边长增加一个单位。在本发明一个实施例中,异常预设值取经验值0.8。在矩形区域更新的过程中,当异常度大于或等于异常预设值0.8时,对应定位数据点组成的簇类已经发生明显的变形,将矩形区域中的定位数据点分割,使其构成一个分簇类,停止更新矩形区域,防止再更新矩形区域使矩形区域中定位数据点组成簇类产生过大的变形,导致后续不利于精确地筛选离群点。
需要说明的是,在其他实施例中,矩形区域的尺寸更新方法可根据具体算法精度要求和矩形区域的形状进行自适应设置,在此不做赘述。
二值化簇类中除分簇类的定位数据点组成的剩余簇类可能仍然庞大,当该剩余簇类过大时,后续根据该剩余簇类进行筛选离群点不精准,因此需要对未被分割的二值化簇类判断是否对其分割。
当未被分割的二值化簇类不满足预设停止条件时,未被分割的二值化簇类中定位数据点较多,能够对其分割获得具有明显特征的分簇类,因此继续对未被分割的二值化簇类分割;当未被分割的二值化簇类满足预设停止条件时,未被分割的二值化簇类中定位数据点过少,将未被分割的二值化簇类分为一个分簇类,对后续根据该分簇类筛选离群点的准确性无影响。经过迭代分割,簇类被分割为具有明显特征的分簇类,根据分簇类便于精确筛选离群点。
优选地,在本发明一个实施例中,预设停止条件为未被分割的二值化簇类中的定位数据点的数量小于矩形区域对应分簇类中定位数据点的数量的预设倍数。在本发明一个实施例中,预设倍数为经验值0.1倍。当未被分割的二值化簇类满足预设停止条件时,该二值化簇类中的定位数据点很少,直接将该二值化簇类作为一个分簇类对后续筛选离群点的精确度无影响。
步骤S3:利用CBLOF算法筛选分簇类中的定位数据点获得离群点,对离群点对应物联网设备的移动路径存储。
根据离群点对应设备的移动路径能够获得发生故障的物联网设备,步骤S2获得的分簇类具有明显的特征便于筛选离群点,因此根据分簇类进行筛选离群点,利用CBLOF算法筛选分簇类中的定位数据点获得离群点。CBLOF算法为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
优选地,在本发明一个实施例中:传统方法通过固定数据点数量阈值对分簇类进 行划分为大簇和小簇,但是本发明中的分簇类不仅具有数量特征,还具有空间位置和定位 数据点分布特征,结合分簇类的数量特征、空间位置和定位数据点分布特征进行识别大簇 和小簇更有利于后续筛选离群点。在每个分簇类中,计算分簇类的中心定位数据点与其他 分簇类的中心定位数据点欧式距离的平均值,该平均值为该分簇类的平均中心距离,当其 他变量不变时,平均中心距离越大,该分簇类成为一个能够鉴别离群点的大簇的必要性越 大;根据分簇类中的定位数据点的分布情况计算每个分簇类的松散度,其他变量不变,松散 度越大,则对该分簇类中位置变化的定位数据点的识别精度越低,该分簇类为大簇的必要 性越小;其他变量不变,当分簇类中定位数据点越多时,该分簇类中定位数据点的信息越丰 富,能够提供越多的鉴别离群点的信息,后续筛选离群点越精准,该分簇类为大簇的必要性 越大。将分簇类的平均中心距离与对应的松散度相比,相比的比值与该分簇类中定位数据 点的数量相乘,相乘的结果作为该分簇类的大簇评价。为了方便后续判断分簇类是否为大 簇,将分簇类的大簇评价值归一化处理,获得大簇评价归一化值。在本发明一个实施例中, 归一化处理采用归一化函数。归一化函数为本领域技术人员所熟知的现 有技术,在此不做进一步限定和赘述。
在本发明一个实施例中,计算分簇类的中心定位数据点与该分簇类中其他定位数据点的欧式距离,取欧式距离的最大值作为该分簇类的松散度。则大簇评价归一化值的公式具体为:
其中,为第个分簇类的大簇评价归一化值,归一化函数,为第个分簇类中定位数据点的数量,为第个分簇类的中心定位数据点,为第个 分簇类的中心定位数据点,为求定位数据点之间欧氏距离的函数,为分簇类的数量,为第个分簇类的平均中心距离,为第个分簇类中任意一个定位数据点,为求 定位数据点之间欧式距离最大值的函数,为第个分簇类的松散度。
根据分簇类的平均中心距离、松散度和该分簇类中的定位数据点数量获得该分簇类的大簇评价归一化值,根据分簇类的大簇评价归一化值能够判断其是否为大簇。大簇评价归一化值表示了对应分簇类为大簇的必要性,当分簇类的平均中心距离越大、该分簇类的松散度越小且该分簇类中定位数据点的数量越多时,该分簇类的大簇评价归一化值越大,该分簇类为大簇的必要性越大。当大簇评价归一化值大于预设大簇分界值时,说明对应的分簇类具有大簇的特征,该分簇类成为一个用于鉴别离群点的大簇有利于后续精确筛选离群点,该分簇类为大簇,反之,为小簇。在本发明一个实施例中,预设大簇分界值取经验值0.6。利用CBLOF算法筛选大簇和小簇中的定位数据点获得离群点。需要说明的是,在其他实施例中也可选用分簇类内定位数据点的方差、标准差等统计特征值评价其松散度,在此不做限定及赘述。
离群点为簇类中远离中心定位数据点的定位数据点,离群点对应的物联网设备很有可能出现故障,为了提高存储系统的空间利用率,且根据离群点对应物联网设备的移动路径能够判断对应物联网设备是否出现故障,因此对离群点对应设备的移动路径进行针对性存储,提高了存储系统的空间利用率,实现了优化存储方法的目的。
优选地,在本发明一个实施例中,将离群点作为压缩位,存储并上报当前时刻沿时序向后离群点对应物联网设备的移动路径,当离群点对应物联网设备的移动路径异常时,该物联网设备出现故障,反之,该物联网设备正常运行。
本发明还提出了一种基于物联网的定位数据优化存储系统,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现任意一项一种基于物联网的定位数据优化存储方法的步骤。
综上,本发明实施例通过在每个二值化簇类中以参考点为中心建立矩形区域并更新矩形区域,直至矩形区域中定位数据点的异常度达到异常预设值,将该矩形区域中定位数据点分割获得分簇类,判断未被分割的二值化簇类是否满足预设停止条件,若满足则簇类分割完成,反之对未被分割的二值化簇类继续分割;利用CBLOF算法筛选分簇类中的定位数据点获得离群点,对离群点对应物联网设备的移动路径存储。本发明通过对簇类再分割获得特征明显的分簇类,根据分簇类对离群点筛选更精确,存储离群点对应物联网设备的移动路径,提高了存储系统的空间利用率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (4)

1.一种基于物联网的定位数据优化存储方法,其特征在于,所述方法包括:
获取物联网设备的定位数据点;根据预设的簇类数量对所述定位数据点进行聚类,获得预设个簇类;
在每个所述簇类中将所述簇类的定位数据点二值化获得二值化簇类,将所述二值化簇类进行形态学处理获得闭合区域;在每个所述二值化簇类中,根据预设规则选择一个定位数据点为参考点,以所述参考点为中心根据预设尺寸构建一个矩形区域,根据所述矩形区域中的定位数据点的数量分布获得所述矩形区域的丰富度;根据所述矩形区域在所述闭合区域中对应区域的形状获得所述矩形区域的形变度,根据所述丰富度和所述形变度获得所述矩形区域的异常度,根据所述异常度更新所述矩形区域的尺寸,直至所述异常度达到异常预设值停止更新,将所述矩形区域内的定位数据点分割,构成分簇类;对未被分割的二值化簇类继续进行所述分簇类的分割,当未被分割的二值化簇类满足预设停止条件时,所述簇类分割完成;
利用CBLOF算法筛选所述分簇类中的定位数据点获得离群点,对所述离群点对应物联网设备的移动路径存储;
所述根据预设规则选择一个定位数据点为参考点,包括:
以距离所述二值化簇类的中心定位数据点最远的一个定位数据点为参考点;
所述根据所述矩形区域中的定位数据点的数量分布获得所述矩形区域的丰富度,包括:
将所述矩形区域中定位数据点的数量与所述矩形区域面积的比值作为所述丰富度;
所述根据所述丰富度和所述形变度获得所述矩形区域的异常度,包括:
将所述丰富度和所述形变度的乘积作为所述矩形区域的异常度;
所述利用CBLOF算法筛选所述分簇类中的定位数据点获得离群点,包括:
根据所述分簇类中的定位数据点的分布情况获得每个所述分簇类的松散度;获得每个所述分簇类与其他分簇类之间的平均中心距离;将每个所述分簇类对应的平均中心距离与对应的松散度的比值与对应分簇类中定位数据点数量相乘,获得对应分簇类的大簇评价;
将所述大簇评价归一化处理获得大簇评价归一化值,当所述大簇评价归一化值大于预设大簇分界值时,对应的分簇类为大簇,反之,为小簇;利用CBLOF算法筛选所述大簇和所述小簇中的定位数据点获得离群点;
所述根据所述矩形区域在所述闭合区域中对应区域的形状获得所述矩形区域的形变度,包括:
所述矩形区域在所述闭合区域中对应区域中进行主成分分析算法分析,获得最大主成分方向和最小主成分方向,将所述最大主成分方向与所述最小主成分方向的比值作为所述矩形区域的形变度。
2.根据权利要求1所述的一种基于物联网的定位数据优化存储方法,其特征在于,所述当未被分割的二值化簇类满足预设停止条件时,包括:
预设停止条件为未被分割的二值化簇类中的定位数据点的数量小于所述分簇类中定位数据点的数量的预设倍数。
3.根据权利要求1所述的一种基于物联网的定位数据优化存储方法,其特征在于,所述对所述离群点对应物联网设备的移动路径存储,包括:
将所述离群点作为压缩位,存储并上报当前时刻沿时序向后所述离群点对应物联网设备的移动路径。
4.一种基于物联网的定位数据优化存储系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~3任意一项所述方法的步骤。
CN202310722192.6A 2023-06-19 2023-06-19 基于物联网的定位数据优化存储方法及系统 Active CN116484065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310722192.6A CN116484065B (zh) 2023-06-19 2023-06-19 基于物联网的定位数据优化存储方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310722192.6A CN116484065B (zh) 2023-06-19 2023-06-19 基于物联网的定位数据优化存储方法及系统

Publications (2)

Publication Number Publication Date
CN116484065A CN116484065A (zh) 2023-07-25
CN116484065B true CN116484065B (zh) 2023-08-25

Family

ID=87219843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310722192.6A Active CN116484065B (zh) 2023-06-19 2023-06-19 基于物联网的定位数据优化存储方法及系统

Country Status (1)

Country Link
CN (1) CN116484065B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086433A1 (zh) * 2016-11-08 2018-05-17 江苏大学 一种医学图像分割方法
CN114241321A (zh) * 2021-12-23 2022-03-25 卫忠 高分遥感图像平顶建筑快速精准识别方法
CN115311484A (zh) * 2022-10-12 2022-11-08 南通虎神金属制品有限公司 一种焊缝数据的优化聚类分割方法
CN115423019A (zh) * 2022-09-01 2022-12-02 西安电子科技大学 一种基于密度的模糊聚类方法及装置
CN115423813A (zh) * 2022-11-05 2022-12-02 江苏惠汕新能源集团有限公司 焊管表面焊接缺陷检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11356345B2 (en) * 2020-10-14 2022-06-07 Gigasheet, Inc. Networking data analysis in a visual spreadsheet

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086433A1 (zh) * 2016-11-08 2018-05-17 江苏大学 一种医学图像分割方法
CN114241321A (zh) * 2021-12-23 2022-03-25 卫忠 高分遥感图像平顶建筑快速精准识别方法
CN115423019A (zh) * 2022-09-01 2022-12-02 西安电子科技大学 一种基于密度的模糊聚类方法及装置
CN115311484A (zh) * 2022-10-12 2022-11-08 南通虎神金属制品有限公司 一种焊缝数据的优化聚类分割方法
CN115423813A (zh) * 2022-11-05 2022-12-02 江苏惠汕新能源集团有限公司 焊管表面焊接缺陷检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于非参数核密度估计的密度峰值聚类算法;谢国伟;钱雪忠;周世兵;;计算机应用研究(10);全文 *

Also Published As

Publication number Publication date
CN116484065A (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US8171025B2 (en) Density-based data clustering method
CA2717612C (en) Fingerprint representation using gradient histograms
US8595233B2 (en) Data processing apparatus, data processing method, program, and integrated circuit
CN109189876B (zh) 一种数据处理方法及装置
CN109408562B (zh) 一种基于客户特征的分组推荐方法及其装置
US11954129B2 (en) Updating data models to manage data drift and outliers
EP3835976A1 (en) Method and device for data retrieval
US20180032579A1 (en) Non-transitory computer-readable recording medium, data search method, and data search device
CN113537321B (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
Cai et al. An efficient outlier detection approach on weighted data stream based on minimal rare pattern mining
CN109765635A (zh) 直接液化用煤的圈定方法及装置
CN116484065B (zh) 基于物联网的定位数据优化存储方法及系统
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN117033912B (zh) 一种设备故障预测方法、装置、可读存储介质及电子设备
CN117115197B (zh) 一种led灯珠电路板设计数据智能处理方法及系统
CN116664335B (zh) 基于智能监控的半导体生产系统运行分析方法及系统
CN115034690B (zh) 一种基于改进模糊c-均值聚类的战场态势分析方法
CN112800138B (zh) 大数据分类方法及系统
CN112907257B (zh) 风险阈值确定方法、装置和电子设备
CN113705625A (zh) 异常生活保障申请家庭的识别方法、装置及电子设备
CN113269238A (zh) 一种基于密度峰值的数据流聚类方法及装置
CN111523576A (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
US20140201339A1 (en) Method of conditioning communication network data relating to a distribution of network entities across a space
Sia et al. Clustering large dynamic datasets using exemplar points
US11763446B2 (en) Wafer bin map based root cause analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant