CN110825826A - 聚类簇计算方法、装置、终端及存储介质 - Google Patents

聚类簇计算方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN110825826A
CN110825826A CN201911079683.3A CN201911079683A CN110825826A CN 110825826 A CN110825826 A CN 110825826A CN 201911079683 A CN201911079683 A CN 201911079683A CN 110825826 A CN110825826 A CN 110825826A
Authority
CN
China
Prior art keywords
matrix
distance
target
calculating
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911079683.3A
Other languages
English (en)
Inventor
魏丞昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201911079683.3A priority Critical patent/CN110825826A/zh
Publication of CN110825826A publication Critical patent/CN110825826A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种聚类簇计算方法、装置、终端及存储介质。该方法包括:在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据,根据目标特征数据构建标准初始矩阵;从样本设备集中抽取预设数目的通信设备样本,根据预设数目的通信设备样本对应的目标特征数据构建聚类中心矩阵;计算聚类中心矩阵中每一行元素与标准初始矩阵中所有行元素之间的目标距离值并构建距离向量;基于距离向量采用无参数窗函数概率密度估计法计算目标特征数据中包含的类簇个数。另外,在本发明实施例还公开了一种多维时间序列聚类簇计算的装置、终端以及一种计算机可读介质。采用本发明,可实现对多维度类簇个数的精确获取。

Description

聚类簇计算方法、装置、终端及存储介质
技术领域
本发明涉及信息处理技术领域,尤其涉及一种聚类簇计算方法、装置、终端及存储介质。
背景技术
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。其中,聚类分析中的一个核心问题是数据中的类簇个数必须提前知道,因为许多聚类算法需要输入聚类数(类簇个数),将其作为运行算法的参数。然而,实际数据中存在的簇数量通常是未知的。在实际应用中,现有的最佳聚类数确定方法主要针对数值属性数据进行研究,数据分布结构通常是凸型团状数据。具体结合聚类算法和内部有效性指标,使用一种迭代的过程,通过设定不同的聚类数条件来运行聚类算法,用内部有效性指标评估多次聚类结果的质量,来确定数据集的最佳聚类数,即需要结合用户根据经验及其相关领域背景知识来获取,导致获取得到的聚类个数精确度比较低。
发明内容
有鉴于此,本发明提供了一种聚类簇计算方法、装置、终端及存储介质,用于解决现有技术中基于用户的经验对获取得到的类簇个数的精确度较低的问题。
本发明实施例的具体技术方案为:
第一方面,本发明实施例提供一种聚类簇计算方法,应用于通信设备,所述方法包括:
在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据,根据所述目标特征数据构建标准初始矩阵;
从所述样本设备集中抽取预设数目的通信设备样本,根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,根据所述目标距离值构建构成所述聚类中心矩阵与所述标准初始矩阵之间行元素的距离向量;
基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数,所述类簇个数表示所述目标特征数据中相关类的个数。
进一步地,所述计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,包括:
采用预设的第一距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第一距离值;以及
采用预设的第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值;
根据所述第一距离值与所述第二距离值确定所述目标距离值。
进一步地,所述采用预设的第一距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第一距离值,包括:
计算所述标准初始矩阵对应的第一协方差矩阵,基于所述第一协方差矩阵与所述标准初始矩阵中任意一行元素组成的向量进行马氏变换,得到投影向量;
根据所述投影向量中每一行元素的大小以及不同状态的目标特征数据对应的阈值范围对每一所述通信设备对应的目标特征数据进行离散化,得到状态转移矩阵;
将所述状态转移矩阵转换为标准稳态向量,根据所述标准稳态向量构成目标稳态矩阵;
通过预设的第一距离计算算法计算所述标准稳态向量与所述目标稳态矩阵之间的距离作为所述第一距离值。
进一步地,所述采用预设的第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值,包括:
计算所述样本设备集的对应的第二协方差矩阵;
基于所述第二协方差矩阵采用预设的所述第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值。
进一步地,所述无参数窗函数为:
Figure BDA0002263558010000031
其中,xi表示所述距离向量中的目标距离值,N表示所述聚类中心矩阵行数与所述标准初始矩阵行数的乘积,h0表示预设的初始窗宽度,
Figure BDA0002263558010000032
y表示所述目标距离值的取值范围,且y∈[0,2]。
进一步地,所述基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数,包括:
根据计算公式:
Figure BDA0002263558010000033
计算所述无参数窗函数的目标窗宽度hn,其中,xi、xj分别表示所述距离向量中任意两个所述目标距离值,
Figure BDA0002263558010000034
计算所述目标窗宽度hn与所述初始窗宽度h0之差的绝对值,确定所述绝对值小于预设阈值,将所述目标窗宽度hn作为无参数窗函数的最优窗宽度;
基于所述最优窗宽度hn对所述无参数窗函数进行扫描,统计所述无参窗函数的峰值个数,将所述峰值个数作为所述类簇个数。
进一步地,所述基于所述最优窗宽度hn对所述无参数窗函数进行扫描,统计所述无参窗函数的峰值个数,包括:
计算所述无参数窗函数的最大值、以及扫描过程中当前扫描窗的第一极大值;
在所述第一极大值大于所述最大值预设的第一百分比时,分别获取与当前扫描窗相邻的两个扫描窗的极大值作为第二极大值和第三极大值;
在所述第一极大值与所述第二极大值、第三极大值之差小于所述最大值预设的第二百分比时,判定所述第一极大值作为峰值,所述第一百分比大于所述第二百分比。
第二方面,本发明实施例提供一种聚类簇计算装置,包括:
数据获取模块,用于在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据;
矩阵构建模块,用于根据所述目标特征数据构建标准初始矩阵,以及根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
距离计算模块,根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
个数统计模块,基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数。
第三方面,本发明实施例还提供一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述聚类簇计算方法的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如上所述聚类簇计算方法的方法。
实施本发明实施例,将具有如下有益效果:
采用了上述聚类簇计算方法、装置、终端及存储介质之后,通过无参数的概率密度函数法实现对多维时间数据序列的类簇个数获取,具体包括:获取对应样本设备集中通信设备的目标特征数据,并构成标准初始矩阵;抽取预设数目的通信设备构成由对应目标特征数据构成的聚类中心矩阵;计算聚类中心矩阵每一行元素与标准初始矩阵中所有行的元素的距离值,构成距离向量;基于距离向量采用无参数窗函数概率密度估计发获取得到类簇个数。本实施例可以精准获得多维时间数据序列的类簇个数。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中所述聚类簇计算方法的流程示意图;
图2为一个实施例中所述目标距离值的计算流程示意图;
图3为一个实施例中所述第一距离值的计算流程示意图;
图4为一个实施例中所述第二距离值的计算示意图;
图5为一个实施例中所述无参数窗函数的峰值统计流程示意图;
图6为一个实施例中所述聚类簇计算装置的结构示意图;
图7为一个实施例中运行上述聚类簇计算方法的计算机设备的内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决传统技术中对于数据聚类需要结合用户根据经验及其相关领域背景知识来获取,无法实现对聚类个数的精准获取的问题。在本实施例中,特提出了一种聚类簇计算方法,该方法的实现可依赖于计算机程序,该计算机程序可运行于基于冯诺依曼体系的计算机系统之上。
本实施例的聚类簇计算方法应用于如基站设备等通信设备的数据中类簇个数的获取。
具体的,如图1所示,上述类簇个数获取的方法包括如下步骤S10-S16:
步骤S10:在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据,根据所述目标特征数据构建标准初始矩阵。
在具体实施例中,为了实现实现聚类,需要先获取预先给定聚类数,本实施例通过在预设固定时长中,对通信设备按照预设的时间量级进行其目标特征数据的获取。示例性地,假设通信设备为500个基站设备,按照小时级获取每个基站30天内的PDCP层上行用户面流量(GB)(兆字节);PDCP层下行用户面流量(GB)(兆字节);上行PRB平均利用率(%);上行平均激活用户数(个数);下行PRB平均利用率(%)五种数据作为其目标特征数据。并在获取对应目标特征数据后,以获取不同种类的目标特征数据作为列,一个通信设备每一时间量级对应的所述目标特征数据作为行构成标准初始矩阵。
本实施例获取的目标特征数据可以是关于通信设备通信质量的,例如基站设备中的基带处理单元(Building Base band Unite,BBU)等;也可以是关于通信设备数据传输方面的,例如基站设备中的远端射频单元(Remote Radio Unit,RRU)等。
本实施例可根据实际需求获取通信设备在预定的时间段内不同时间量级数据的目标特征数据,并形成由预设时间段、时间量级以及获取得到通信设备的目标特征数据构成的标准初始矩阵,以减少对目标特征数据进行类簇个数获取的计算量。
步骤S12:从所述样本设备集中抽取预设数目的通信设备样本,根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵。
在具体实施例中,为实现对对应通信设备的目标特征数据的类簇个数获取,本实施例通过抽取所有样本设备集中预设数目的通信设备,并将预设数目的通信设备作为聚类中心,具体的,将对应通信设备的目标特征数据构成聚类中心矩阵,再结合所有通信设备对应目标特征数据构成的标准初始矩阵,对所有目标特征数据进行初步的聚类操作,进一步减少后续进行类簇个数获取所需要的计算量。
可以理解地,构成聚类中心矩阵的目标特征数据为构成标准初始矩阵的目标特征数据中的随机数,因此,通过聚类中心矩阵可以避免对所有通信设备对应的目标特征数据进行计算来得到其类簇个数,在一定程度上大大减少了获取类簇个数的计算量。
步骤S14:计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,根据所述目标距离值构建构成所述聚类中心矩阵与所述标准初始矩阵之间行元素的距离向量。
在具体实施例中,基于构成聚类中心矩阵的目标特征数据为构成标准初始矩阵的目标特征数据中的随机数,本实施例通过计算聚类中心矩阵中每一行元素与标准初始矩阵中所有行元素之间的目标距离值,从而可以根据聚类中心矩阵与标准初始矩阵之间的目标距离值,判断所有构成聚类中心矩阵数据与整个样本设备集的目标特征数据之间的关系,对目标特征数据进行聚类的操作,实现对类簇个数的获取。
具体的,本实施例将所有获取得到的所有目标距离值构成一维的距离向量,本实施例通过通过一维的距离向量实现对多维的目标特征数据的类簇个数获取,可有效减少对于多维数据类簇个数获取的计算量,提升类簇个数获取的效率。
如图2、图3和图4所示,具体的,为了获取得到上述目标距离值包括步骤:
步骤S141:采用预设的第一距离计算算法计算聚类中心矩阵中每一行数据与标准初始矩阵中所有的行数据之间的第一距离值。
在具体实施例中,计算第一距离值包括步骤:
S1411:计算所述标准初始矩阵对应的第一协方差矩阵,基于所述第一协方差矩阵与所述标准初始矩阵中任意一行元素组成的向量进行马氏变换,得到投影向量。
为实现对多维数据进行处理,本实施例通过计算标准初始矩阵的第一协方差矩阵,通过第一协方差矩阵来反映多维数据的相关性。示例性地,假设标准初始矩阵为N维,则可得到第一协方差矩阵为N×N。其中,第一协方差矩阵的计算可通过调用MATLAB自带的COV函数实现。
其中,马氏变换是一种计算向量马氏距离的过程,用于将向量数据投影得到多个标量值,进而将多个标量值构成的向量即为本实施例的投影向量。具体的,选取标准初始矩阵中任意一行元素,即同一时间量级下的N个维度的标准特征数据,假设包括的标准特征数据为500个基站在基站流量、设备话务量以及平均用户数这3个维度的标准特征数据,则构成的标准初始矩阵的行数为30×24×500、列数为3;因为各个基站的维度的量纲不同,本实施例通过马氏变换,计算各个维度之间的距离,可以去除变量相关性之间的干扰,且在全样本的情况统计信息下,实现一维向量的投影,便于后续对各个基站进行状态确定。
其中,按照计算公式:
Figure BDA0002263558010000081
进行上述马氏变换,式中,LM表示为所述投影向量,X表示为标准初始矩阵中的任意一行元素组成的向量,XT表示为向量X的转置,∑表示为所述协方差矩阵。
具体地,通过公式
Figure BDA0002263558010000082
即马氏距离的计算公式计算协方差矩阵和标准初始矩阵中的任意一行元素组成的向量,进而计算各个时段的目标特征数据,将多维时间序列对应的多维矩阵向一维向量投影,进而将多维矩阵转换为标量值,以便后续基于投影向量中的标量值进行多个状态的划分,克服通信设备的目标特征数据的滞后随机性问题。
S1412:根据所述投影向量中每一行元素的大小以及不同状态的目标特征数据对应的阈值范围对每一所述通信设备对应的目标特征数据进行离散化,得到状态转移矩阵。
离散化是一种用于描述时间序列下的数据状态转移过程的指标,用于确定基站的一部状态转移矩阵。状态转移矩阵是一种由数据状态过程中的转移概率组成的矩阵,用于体现离散时间目标特征数据状态随即转移的过程。该离散化的具体过程为:首先确定离散化过程后的状态数量,以及每一状态对应的阈值范围。示例性地,以标准基站工况的6种状态进行分析,对应的状态空间为{特闲,闲,较闲,一般,忙,特忙},每一个状态对应一个阈值范围,根据投影向量中每一元素的大小,判断其所属的阈值范围进而可以确定状态,采用频率的计算方法计算各个状态之间的转移概率矩阵,继而得到一个大小为6*6的状态转移矩阵。其中的阈值范围与状态的对应关系如列表一所示,LM表示为元素的标量值,μ和σ分别为投影向量的均值和方差,u1和σ1分别表示为在状态为“闲”的情况下,重新计算得到的投影向量的均值和方差。
具体的,根据步骤S1411的投影向量计算公式:
Figure BDA0002263558010000091
计算得到状态转移矩阵中对应每一元素的标量值,由此对所有标量值求和后,即可得到均值μ,进而根据得到的标量值和均值即可得到方差σ;同样地,计算得到u1和σ1
表一,阈值范围与状态的对应关系
Figure BDA0002263558010000092
Figure BDA0002263558010000101
S1413:将所述状态转移矩阵转换为标准稳态向量,根据所述标准稳态向量构成目标稳态矩阵。
其中,稳态向量是指在迭代过程中保持不变的向量。标准稳态向量即为与标砖特征信息对应的稳态向量。预设的算法是指预先设定用于将状态转移矩阵转换为稳态向量的算法。具体地,可以通过对状态转移矩阵进行自乘计算,直到得到结果不变为止,将该结果乘以同一个随机的状态向量,得到的结果即为标准稳态矩阵。
S1414:通过预设的第一距离计算算法计算所述标准稳态向量与所述目标稳态矩阵之间的距离作为所述第一距离值。
具体实施例中,采用如下公式进行所述第一距离值的计算:
Figure BDA0002263558010000102
其中,Dij表示为第i个所述目标稳态向量和第j个所述标准稳态向量的所述距离,Xi和Yj分别为表示为第i个所述目标稳态向量和第j个所述标准稳态向量。具体的,采用改进的距离度量方法计算标准稳态向量和目标稳态向量的距离,即通过公式
Figure BDA0002263558010000103
计算第i个目标稳态向量和第j个标准稳态向量的距离。可以理解地,基站的工况的目标特征数据的量纲不同,如果采用传统的距离度量方法,容易导致重要的目标特征数据丢失,影响距离计算的准确性,该计算方法是对问题基站和标准基站的稳态向量进行计算,由于该稳态向量包含了基站中大规模且动态的流式数据,因此保证计算精度,同时,该公式计算方法较为简单,仅需计算|Xi-Yj|,然后将|Xi-Yj|除以|Xi-Yj|与1的和,二者的商值即为距离,大大提高了计算的速度。同时还能够降低计算时间复杂度,即针对样本量的增加,计算时间复杂度线性增长。因此,在使用本实施例的聚类簇计算方法对大规模的数据序列的计算过程中,能够明显提高计算效率。
本实施例基于标准稳态向量与目标稳态矩阵计算得到聚类中心矩阵中每一行数据与标准初始矩阵中所有的行数据之间的第一距离值,通过第一距离值可反映标准初始矩阵与聚类中心矩阵之间的关联性,有利于提升类簇个数获取的精确性。
步骤S142:采用预设的第二距离计算算法计算聚类中心矩阵中每一行数据与标准初始矩阵中所有的行数据之间的第二距离值。
本实施例计算第二距离值具体包括如下步骤:
S1421:计算所述样本设备集的对应的第二协方差矩阵。
在具体实施例中,本实施例通过对样本设备集中通信设备进行样本数目的更新,对更新了通信设备数目的样本设备集采用上述MATLAB自带的COV函数获得对应更新后样本设备集的第二协方差矩阵。具体的,可对样本设备集中通信设备数目进行增加或减少的方式进行。
S1422:基于所述第二协方差矩阵采用预设的所述第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值。
在具体实施例中,采用如下公式计算第二距离值:
其中,xi和yi分别表示两个不同通信设备的标准特征数据,i表示获取通信设备标准特征数据的周期值,例如上述设定的时间段30天。
在具体实施例中,上述计算得到的第一距离值和第二距离值均符合预设的第一条件、第二条件和第三条件:第一条件为通信设备X到其自身距离为零,即DNM=(X,X)=0;第二条件为通信设备X和通信设备Y之间满足,通信设备X到通信设备Y的距离与通信设备Y到通信设备X的距离相等,即DNM(X,Y)=DNM(Y,X);第三条件为通信设备X、通信设备Y和通信设备Z之间满足,通信设备X到通信设备Z的距离小于或等于通信设备X到通信设备Y的距离与通信设备Y到通信设备Z的距离之和,即DNM(X,Z)≤DNM(X,Y)+DNM(Y,Z),其中,通信设备X、Y、Z为任意通信设备。
本实施例基于更新的样本设备集计算得到聚类中心矩阵中每一行数据与标准初始矩阵中所有的行数据之间的第二距离值,第二距离值可反映样本设备集中通信设备之间的稳定性和关联性,以便于提升类簇个数获取的精确性。
步骤S143:根据第一距离值与第二距离值确定目标距离值。
鉴于上述获取的第一距离值和第二距离值均有利于提升类簇个数获取的精确性,本实施例将第一距离值和第二距离值相加作为聚类中心矩阵中每一行数据与标准初始矩阵中所有的行数据之间的目标距离值,进而实现后续进行的类簇个数获取操作,保证类簇获取的精确性。
步骤S16:基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数,所述类簇个数表示所述目标特征数据中相关类的个数。
具体的,本实施例通过如下无参数窗函数基于距离向量进行类簇个数的估计获取:
Figure BDA0002263558010000131
其中,xi表示所述距离向量中的所述目标距离值,N表示所述目标距离值的总数目,hn-1表示预设的初始窗宽度,y表示目标距离值的取值范围,根据上述第一距离值和第二距离值的计算公式可知,第一距离值和第二距离值均为小于1的正数,因此y∈[0,2]。
如图5所示,本实施例对类簇个数的统计具体包括步骤:
S161:构建目标函数。
在本实施例中,基于上述构建的无参数窗函数如下构建目标函数:
Figure BDA0002263558010000133
其中,xi、yi分别表示所述距离向量中任意两个所述目标距离值;
S162:获取无参数窗函数的最优窗宽度。
具体的,本实施例根据如下公式获取无参数窗函数的窗宽度h:
Figure BDA0002263558010000134
其中,
Figure BDA0002263558010000135
在实施例中,为了保证获取得到的窗宽度hn为需要的最优窗宽度,通过提供任意一个初始窗宽度h0,并通过上述公式计算得到对应的hn,随后通过计算hn与h0之差的绝对值,若绝对值小于预设阈值,将hn作为无参数窗函数的最优窗宽度。
本实施例通过获取最优窗宽度,以便于无参数窗函数的峰值个数统计,减少获取类簇个数的计算量。
S163:统计无参数窗函数的峰值个数,作为类簇个数。
具体的,在本实施例中,根据最优窗宽度hn设立扫描窗扫描无参数窗函数,统计无参窗函数的峰值个数,将峰值个数作为类簇个数。其中,为了保证获取峰值的准确性,以提升类簇个数获取的精准性。,通过计算得到无参数窗函数在变量为距离向量之内的最大值,以及获取得到扫描过程中当前扫描窗范围中变量对应无参数窗函数的第一极大值;在第一极大值大于整个变量范围内无参窗函数的最大值预设的第一百分比时,将当前扫描窗左右相邻的两个扫描窗对应的极大值作为第二极大值和第三极大值,计算第一极大值与第二极大值、第三极大值之间的差值,判断差值是否小于最大值预设的第二百分比;示例性地,当第一极大值满足大于最大值的70%,以及第一极大值与第二极大值和第三极大值之间的差值小于最大值的10%时,可将当前扫描窗对应的第一极大值作为无参窗函数的一个峰值,如此循环,直至整个无参窗函数扫描完成,统计所有峰值的个数,作为目标特征数据的类簇个数。
可以理解的是,当第一极大值的取值范围在最大值的70%~100%之内,如当第一极大值的大小为最大值的80%或90%,以及第一极大值与第二极大值、第三极大值之间的差值在最大值的0%~10%范围之内,如差值的大小为最大值的5%或3%等,此时,均可将对应的第一极大值作为无参数窗函数的峰值进行统计,以获取对应的类簇个数。
本实施例通过对计算峰值个数的形式来获取得到所有目标特征数据的类簇个数,且在判断无参数窗函数的值是否可以作为峰值进行统计的过程中,通过设定当前扫描窗的第一极大值与无参数窗函数最大值的百分比范围,以及当前扫描窗与相邻两个扫描窗的极大值(第二极大值和第三极大值)差值在无参数窗函数最大值预设的百分比范围内,基于此统计的峰值个数作为类簇的个数,可以有效提升类簇获取的精确性。
如图6所示,基于同一发明构思,本实施例提供一种聚类簇计算装置,包括:
数据获取模块100,用于在预设固定时长内以预设时间量级获取样本设备集中所包含通信设备的目标特征数据。
矩阵构建模块110,用于根据目标特征数据构建对应样本设备集的标准初始矩阵,以及根据从样本设备集中抽取的预设数目的通信设备的目标特征数据构建聚类中心矩阵。
距离计算模块120,用于计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,构成所述距离向量。
个数统计模块130,用于统计目标特征数据中包含的类簇个数。
采用了上述聚类簇计算方法和装置,通过无参数的概率密度函数法实现对多维时间数据序列的类簇个数获取,具体包括:获取对应样本设备集中通信设备的目标特征数据,并构成标准初始矩阵;抽取预设数目的通信设备构成由对应目标特征数据构成的聚类中心矩阵;计算聚类中心矩阵每一行元素与标准初始矩阵中所有行的元素的距离值,构成距离向量;基于距离向量采用无参数窗函数概率密度估计发获取得到类簇个数。本实施例可以精准获得多维时间数据序列的类簇个数。
图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器,也可以是终端。如图7所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现多维时间序列类簇个数的获取。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行聚类簇计算方法。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图7中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的聚类簇计算方法可以实现为一种计算机程序的形式,计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该多维时间序列聚类簇计算装置的各个程序模块。比如,距离计算模块120等。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:在预设固定时长内以预设时间量级获取样本设备集中所包含通信设备的目标特征数据,由所述目标特征数据构成标准初始矩阵;从所述样本设备集中抽取预设数目的通信设备,由所述预设数目的通信设备对应的所述目标特征数据构成聚类中心矩阵;计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,由所述目标距离值构成一维的距离向量;基于所述距离向量采用无参数窗函数概率密度估计法计算得到所述目标特征数据中包含的类簇个数。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种聚类簇计算方法,其特征在于,应用于通信设备,所述方法包括:
在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据,根据所述目标特征数据构建标准初始矩阵;
从所述样本设备集中抽取预设数目的通信设备样本,根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,根据所述目标距离值构建构成所述聚类中心矩阵与所述标准初始矩阵之间行元素的距离向量;
基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数,所述类簇个数表示所述目标特征数据中相关类的个数。
2.如权利要求1所述的聚类簇计算方法,其特征在于,所述计算所述聚类中心矩阵中每一行元素与所述标准初始矩阵中所有行元素之间的目标距离值,包括:
采用预设的第一距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第一距离值;以及
采用预设的第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值;
根据所述第一距离值与所述第二距离值确定所述目标距离值。
3.如权利要求2所述的聚类簇计算方法,其特征在于,所述采用预设的第一距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第一距离值,包括:
计算所述标准初始矩阵对应的第一协方差矩阵,基于所述第一协方差矩阵与所述标准初始矩阵中任意一行元素组成的向量进行马氏变换,得到投影向量;
根据所述投影向量中每一行元素的大小以及不同状态的目标特征数据对应的阈值范围对每一所述通信设备对应的目标特征数据进行离散化,得到状态转移矩阵;
将所述状态转移矩阵转换为标准稳态向量,根据所述标准稳态向量构成目标稳态矩阵;
通过预设的第一距离计算算法计算所述标准稳态向量与所述目标稳态矩阵之间的距离作为所述第一距离值。
4.如权利要求2所述的聚类簇计算方法,其特征在于,所述采用预设的第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值,包括:
计算所述样本设备集的对应的第二协方差矩阵;
基于所述第二协方差矩阵采用预设的所述第二距离计算算法计算所述聚类中心矩阵中每一行数据与所述标准初始矩阵中所有的行数据之间的第二距离值。
5.如权利要求1所述的聚类簇计算方法,其特征在于,所述无参数窗函数为:
其中,xi表示所述距离向量中的目标距离值,N表示所述聚类中心矩阵行数与所述标准初始矩阵行数的乘积,h0表示预设的初始窗宽度,
Figure FDA0002263555000000022
y表示所述目标距离值的取值范围,且y∈[0,2]。
6.如权利要求5所述的聚类簇计算方法,其特征在于,所述基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数,包括:
根据计算公式:
Figure FDA0002263555000000023
计算所述无参数窗函数的目标窗宽度hn,其中,xi、xj分别表示所述距离向量中任意两个所述目标距离值,
Figure FDA0002263555000000031
计算所述目标窗宽度hn与所述初始窗宽度h0之差的绝对值,确定所述绝对值小于预设阈值,将所述目标窗宽度hn作为无参数窗函数的最优窗宽度;
基于所述最优窗宽度hn对所述无参数窗函数进行扫描,统计所述无参窗函数的峰值个数,将所述峰值个数作为所述类簇个数。
7.如权利要求6所述的聚类簇计算方法,其特征在于,所述基于所述最优窗宽度hn对所述无参数窗函数进行扫描,统计所述无参窗函数的峰值个数,包括:
计算所述无参数窗函数的最大值、以及扫描过程中当前扫描窗的第一极大值;
在所述第一极大值大于所述最大值预设的第一百分比时,分别获取与当前扫描窗相邻的两个扫描窗的极大值作为第二极大值和第三极大值;
在所述第一极大值与所述第二极大值、第三极大值之差小于所述最大值预设的第二百分比时,判定所述第一极大值作为峰值,所述第一百分比大于所述第二百分比。
8.一种聚类簇计算装置,其特征在于,包括:
数据获取模块,用于在预设时长内以预设时间量级获取样本设备集中包含的通信设备的目标特征数据;
矩阵构建模块,用于根据所述目标特征数据构建标准初始矩阵,以及根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
距离计算模块,根据所述预设数目的通信设备样本对应的所述目标特征数据构建聚类中心矩阵;
个数统计模块,基于所述距离向量采用无参数窗函数概率密度估计法计算所述目标特征数据中包含的类簇个数。
9.一种终端,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项权利要求所述的聚类簇计算方法的步骤。
10.一种计算机可读存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1-7所述的聚类簇计算方法的步骤。
CN201911079683.3A 2019-11-07 2019-11-07 聚类簇计算方法、装置、终端及存储介质 Pending CN110825826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911079683.3A CN110825826A (zh) 2019-11-07 2019-11-07 聚类簇计算方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911079683.3A CN110825826A (zh) 2019-11-07 2019-11-07 聚类簇计算方法、装置、终端及存储介质

Publications (1)

Publication Number Publication Date
CN110825826A true CN110825826A (zh) 2020-02-21

Family

ID=69553045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911079683.3A Pending CN110825826A (zh) 2019-11-07 2019-11-07 聚类簇计算方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN110825826A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506627A (zh) * 2020-04-21 2020-08-07 成都路行通信息技术有限公司 一种目标行为聚类方法和系统
CN111737469A (zh) * 2020-06-23 2020-10-02 中山大学 数据挖掘方法、装置、终端设备和可读存储介质
CN111915211A (zh) * 2020-08-11 2020-11-10 广东电网有限责任公司广州供电局 一种电力资源调度方法、装置和电子设备
CN113545753A (zh) * 2021-07-21 2021-10-26 芯原微电子(成都)有限公司 波形检测方法、装置、可穿戴设备及计算机可读存储介质
CN114270341A (zh) * 2021-01-25 2022-04-01 深圳大学 一种数据属性的分组方法、装置、设备及存储介质
CN114415113A (zh) * 2022-01-14 2022-04-29 深圳锦沃科技有限公司 室内定位方法、装置、计算机设备及存储介质
CN114430530A (zh) * 2022-04-06 2022-05-03 香港中文大学(深圳) 空间划分方法、装置、设备、介质和程序产品
CN116151788A (zh) * 2022-04-01 2023-05-23 港珠澳大桥管理局 隧道内的机电设备分类方法、装置、设备和存储介质
CN117454671A (zh) * 2023-12-22 2024-01-26 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731916A (zh) * 2015-03-24 2015-06-24 无锡中科泛在信息技术研发中心有限公司 数据挖掘中基于密度优化初始中心的k均值聚类方法
CN107679553A (zh) * 2017-09-14 2018-02-09 深圳大学 基于密度峰值的聚类方法及装置
US20180307943A1 (en) * 2017-04-25 2018-10-25 The Johns Hopkins University Method and apparatus for clustering, analysis and classification of high dimensional data sets
CN109063128A (zh) * 2018-08-02 2018-12-21 深圳大学 集成核密度估计器窗口参数优化方法、装置及终端设备
CN110852346A (zh) * 2019-10-08 2020-02-28 深圳大学 通信设备的能耗管控方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731916A (zh) * 2015-03-24 2015-06-24 无锡中科泛在信息技术研发中心有限公司 数据挖掘中基于密度优化初始中心的k均值聚类方法
US20180307943A1 (en) * 2017-04-25 2018-10-25 The Johns Hopkins University Method and apparatus for clustering, analysis and classification of high dimensional data sets
CN107679553A (zh) * 2017-09-14 2018-02-09 深圳大学 基于密度峰值的聚类方法及装置
CN109063128A (zh) * 2018-08-02 2018-12-21 深圳大学 集成核密度估计器窗口参数优化方法、装置及终端设备
CN110852346A (zh) * 2019-10-08 2020-02-28 深圳大学 通信设备的能耗管控方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GIOVANNA MENARDI等: ""An advancement in clustering via nonparametric density estimation"", 《STATISTICS AND COMPUTING》 *
谢国伟等: ""基于非参数核密度估计的密度峰值聚类算法"", 《计算机应用研究》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111506627A (zh) * 2020-04-21 2020-08-07 成都路行通信息技术有限公司 一种目标行为聚类方法和系统
CN111737469A (zh) * 2020-06-23 2020-10-02 中山大学 数据挖掘方法、装置、终端设备和可读存储介质
CN111915211A (zh) * 2020-08-11 2020-11-10 广东电网有限责任公司广州供电局 一种电力资源调度方法、装置和电子设备
CN114270341A (zh) * 2021-01-25 2022-04-01 深圳大学 一种数据属性的分组方法、装置、设备及存储介质
CN113545753A (zh) * 2021-07-21 2021-10-26 芯原微电子(成都)有限公司 波形检测方法、装置、可穿戴设备及计算机可读存储介质
CN113545753B (zh) * 2021-07-21 2024-04-05 芯原微电子(成都)有限公司 波形检测方法、装置、可穿戴设备及计算机可读存储介质
CN114415113A (zh) * 2022-01-14 2022-04-29 深圳锦沃科技有限公司 室内定位方法、装置、计算机设备及存储介质
CN116151788B (zh) * 2022-04-01 2023-12-22 港珠澳大桥管理局 隧道内的机电设备分类方法、装置、设备和存储介质
CN116151788A (zh) * 2022-04-01 2023-05-23 港珠澳大桥管理局 隧道内的机电设备分类方法、装置、设备和存储介质
CN114430530B (zh) * 2022-04-06 2022-06-21 香港中文大学(深圳) 空间划分方法、装置、设备、介质和程序产品
CN114430530A (zh) * 2022-04-06 2022-05-03 香港中文大学(深圳) 空间划分方法、装置、设备、介质和程序产品
CN117454671A (zh) * 2023-12-22 2024-01-26 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法
CN117454671B (zh) * 2023-12-22 2024-04-12 广东力宏微电子有限公司 基于人工智能的场效应管寿命评估方法

Similar Documents

Publication Publication Date Title
CN110825826A (zh) 聚类簇计算方法、装置、终端及存储介质
CN110852346B (zh) 通信设备的能耗管控方法、装置、计算机设备和存储介质
CN113067653B (zh) 一种频谱感知方法、装置、电子设备及介质
CN113379176B (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN111177217A (zh) 数据预处理方法、装置、计算机设备及存储介质
CN112085926A (zh) 一种河道水污染预警方法及系统
CN111008673A (zh) 配电网信息物理系统中恶性数据链采集提取方法
CN113837319B (zh) 基于聚类的客户分类方法、装置、设备及存储介质
CN112801271B (zh) 生成神经网络的方法、数据处理方法、智能行驶控制方法
CN115169705A (zh) 配送时长预测方法、装置、存储介质及计算机设备
CN114398228A (zh) 一种设备资源使用情况的预测方法、装置及电子设备
CN110730468B (zh) 通信设备扩容方法、装置、计算机设备和存储介质
CN110750755A (zh) 通信设备的扩容方法、装置、终端及存储介质
CN116431355B (zh) 一种基于电力领域超算平台的计算负载预测方法及系统
CN113449382B (zh) 一种整车排放结果的仿真方法及系统
CN116662415B (zh) 基于数据挖掘的智能匹配方法及系统
CN112116381B (zh) 基于lstm神经网络的月活预测方法、存储介质和计算机设备
CN112200219B (zh) 一种超大规模晶圆缺陷数据的特征提取方法
CN115658990A (zh) 一种用于目标空间分群的数据处理方法及装置
CN116662574A (zh) 用于反欺诈ai预测模型的大数据采集方法及系统
CN112434704A (zh) 一种基于高阶统计量的特征图处理方法、终端及存储介质
CN117787729A (zh) 基于标识解析的智慧园区管理方法及相关装置
CN118070848A (zh) 钠离子电池电极片的涂布工艺优化方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20221101

AD01 Patent right deemed abandoned