CN115374191B - 一种多源数据驱动的数据中心异构设备群聚类方法 - Google Patents

一种多源数据驱动的数据中心异构设备群聚类方法 Download PDF

Info

Publication number
CN115374191B
CN115374191B CN202211320133.8A CN202211320133A CN115374191B CN 115374191 B CN115374191 B CN 115374191B CN 202211320133 A CN202211320133 A CN 202211320133A CN 115374191 B CN115374191 B CN 115374191B
Authority
CN
China
Prior art keywords
data
heterogeneous
coefficient
devices
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211320133.8A
Other languages
English (en)
Other versions
CN115374191A (zh
Inventor
李想
董亮
李德识
郭兆丰
庄严
郭岳
朱国威
罗弦
李磊
黄超
梁源
柯旺松
朱兆宇
胡欢君
王晟玮
徐宁
姚渭菁
夏胜冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical Wuhan University WHU
Priority to CN202211320133.8A priority Critical patent/CN115374191B/zh
Publication of CN115374191A publication Critical patent/CN115374191A/zh
Application granted granted Critical
Publication of CN115374191B publication Critical patent/CN115374191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种多源数据驱动的数据中心异构设备群聚类方法,包括如下步骤:初始获取在时间段内两两异构设备间传输的数据包;从数据包提取不同数据块的特征值;经过PCA进行特征向量降维后,得到简化特征将简化特征进行映射到两个可逆的子空间;基于CAA理论建模Pearson系数,求最优解;完成多源异构数据块的相关性分析;建模两异构设备间的相似性系数;得到初始聚类集;输出当前的聚类集。本申请有助于分析跳脱设备空间分布之外的数据中心异构设备群内各器件的紧密关系,进而为数据中心信息交互故障预测、根源故障定位、预测性维护推荐等技术的实现奠定基础。

Description

一种多源数据驱动的数据中心异构设备群聚类方法
技术领域
本申请涉及异构设备的聚类领域,尤其涉及一种多源数据驱动的数据中心异构设备群聚类方法。
背景技术
随着大数据时代的到来,电力信息通信网络的发展规模不断拓展,为进一步提升电力业务的资源管理和信息监控水平带来了新的挑战。面向多源电力信息系统监控需求,需要综合分析各层级设备相关信息之间的关联性,从而为系统监控、维护、监测、管理等提供智能化的决策方案,为数据中心信息交互故障预测、根源故障定位、预测性维护推荐等技术的实现奠定基础。
考虑到传统的异构设备聚类算法一般要考虑异构设备之间的距离、是否存在连接等因素,但也存在这样的一种情况,两个相隔非常远,不存在可视的物理连接的两个设备,也可能存在紧密的联系,这种联系可以从二者传输到数据中心的数据特征的相似性进行挖掘。因此本申请提出了一种多源数据驱动的数据中心异构设备群聚类方法,通过无监督方式对设备进行分类,以便与对紧密设备群关联规则挖掘、基于关联规则的设备故障预测及溯源等研究的展开。
发明内容
本申请实施例针对数据中心设备运行数据监控和潜在规律挖掘的需求提供一种多源数据驱动的数据中心异构设备群聚类方法,该方法结合PCA和CCA理论的优点,采取基于快速搜索的层次聚类算法,使得数据中心异构设备群聚类的速度和准确性得到了提升,利用其聚类结果,有助于设备运行状态变化规律的挖掘。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种多源数据驱动的数据中心异构设备群聚类方法,包括如下步骤:
步骤1:假设数据中心存在
Figure 424359DEST_PATH_IMAGE001
个异构设备,初始获取在时间段
Figure 144185DEST_PATH_IMAGE002
Figure 95960DEST_PATH_IMAGE003
表示将一天按时分为24段,选取其中第k段时间内的数据)内两两异构设备间传输的数据包
Figure 178317DEST_PATH_IMAGE004
,其中
Figure 557346DEST_PATH_IMAGE005
Figure 13735DEST_PATH_IMAGE006
Figure 517004DEST_PATH_IMAGE007
Figure 906397DEST_PATH_IMAGE008
表示时间段
Figure 987486DEST_PATH_IMAGE003
内两异构设备间传输的不同模态的数据块,
Figure 416324DEST_PATH_IMAGE009
表示每个数据包由
Figure 709902DEST_PATH_IMAGE009
个不同模态的数据块组成,
Figure 235692DEST_PATH_IMAGE010
表示设备i在时间段
Figure 222103DEST_PATH_IMAGE003
内接收到的设备j发送给它的数据包,
Figure 387505DEST_PATH_IMAGE011
同理;
步骤2: 从数据包
Figure 484774DEST_PATH_IMAGE010
Figure 52022DEST_PATH_IMAGE011
中提取数据块
Figure 960066DEST_PATH_IMAGE012
Figure 612764DEST_PATH_IMAGE013
提取不同数据块的特征值为
Figure 248145DEST_PATH_IMAGE014
Figure 935478DEST_PATH_IMAGE015
,其中特征集合
Figure 998112DEST_PATH_IMAGE016
表示第x个模态的数据块的p个特征向量的集合,
Figure 151488DEST_PATH_IMAGE017
表示第y个模态的数据块的p个特征向量的集合;
步骤3:经过PCA进行特征向量
Figure 590560DEST_PATH_IMAGE018
Figure 397979DEST_PATH_IMAGE017
降维后,得到简化特征集合
Figure 631514DEST_PATH_IMAGE019
,由于提取到的是不同模态的数据,因此存在线性映射关系,将简化特征
Figure 9537DEST_PATH_IMAGE019
进行映射到两个可逆的子空间;
步骤4:基于CAA理论建模简化特征
Figure 721141DEST_PATH_IMAGE019
间的Pearson系数,求使得Pearson系数最大时,所对应的最优子空间映射系数
Figure 648646DEST_PATH_IMAGE020
,采用拉格朗日乘子法进行化简、求最优解;
步骤5:根据优化问题求得的最优解来进行多源异构数据的空间映射,并根据距离公式计算数据块
Figure 318662DEST_PATH_IMAGE021
Figure 449560DEST_PATH_IMAGE022
之间的相关系数
Figure 964855DEST_PATH_IMAGE023
,完成多源异构数据块的相关性分析;
步骤6:计算异构设备传输数据包之间的相关系数
Figure 481287DEST_PATH_IMAGE024
,以及两两设备间的干扰
Figure 322204DEST_PATH_IMAGE025
,从而建模两异构设备
Figure 409240DEST_PATH_IMAGE026
Figure 993805DEST_PATH_IMAGE027
间的相似性系数
Figure 99164DEST_PATH_IMAGE028
步骤7:以相似性系数为元素构建异构设备间的邻接矩阵,并建模聚类的评价指标
Figure 110982DEST_PATH_IMAGE029
,作为是否合成新簇的标准,统计邻接矩阵中各个元素出现的次数,依据频次的不同进行初始化聚类,得到初始聚类集
Figure 934582DEST_PATH_IMAGE030
步骤8:如果两个聚类间的评价指标
Figure 82359DEST_PATH_IMAGE029
相差不大,则合并这两个聚类,并且更新邻接矩阵,返回步骤7,并重新计算评价指标
Figure 307804DEST_PATH_IMAGE029
进行对比;否则不再更新,输出当前的聚类集
Figure 224945DEST_PATH_IMAGE031
所述步骤4中求使得Pearson系数最大时,所对应的最优子空间映射系数
Figure 801420DEST_PATH_IMAGE020
具体为,Pearson系数如下:
Figure 478520DEST_PATH_IMAGE032
式中
Figure 292892DEST_PATH_IMAGE033
Figure 912092DEST_PATH_IMAGE034
是PCA降维后的数据,
Figure 710284DEST_PATH_IMAGE035
为线性映射系数,
Figure 909184DEST_PATH_IMAGE036
是利用CCA理论降维至1维后的投影,简化为下式:
Figure 859954DEST_PATH_IMAGE037
Figure 650055DEST_PATH_IMAGE038
继而用拉格朗日乘子法求最优解。
所述步骤6中的相似性建模方法如下,首先对数据间相关系数进行建模:
Figure 404384DEST_PATH_IMAGE039
式中
Figure 938134DEST_PATH_IMAGE040
Figure 992678DEST_PATH_IMAGE041
表示数据包位长,
Figure 173254DEST_PATH_IMAGE042
Figure 946038DEST_PATH_IMAGE043
表示数据包的优先级;
Figure 17900DEST_PATH_IMAGE044
Figure 926950DEST_PATH_IMAGE045
分别表示投影后特征向量
Figure 793275DEST_PATH_IMAGE046
Figure 535578DEST_PATH_IMAGE047
的第
Figure 145551DEST_PATH_IMAGE026
个元素,
而后对异构设备间通信时其他设备对其的干扰
Figure 174687DEST_PATH_IMAGE025
进行建模:
Figure 477492DEST_PATH_IMAGE048
Figure 975601DEST_PATH_IMAGE049
为发送方设备
Figure 389265DEST_PATH_IMAGE026
的传输功率,
Figure 7328DEST_PATH_IMAGE050
为背景噪声,q 为path-loss指数,
Figure 215455DEST_PATH_IMAGE051
为发送设备
Figure 935281DEST_PATH_IMAGE026
与接收设备
Figure 887056DEST_PATH_IMAGE027
间距离;
最后对两异构设备间相似性系数进行建模:
Figure 625205DEST_PATH_IMAGE052
Figure 269813DEST_PATH_IMAGE053
用于将该相似性系数调整至0~1范围内。
所述步骤7中的聚类采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类。
步骤8中的聚类评价指标
Figure 726202DEST_PATH_IMAGE029
建模如下:
Figure 966822DEST_PATH_IMAGE054
式中
Figure 825056DEST_PATH_IMAGE055
表示第
Figure 640566DEST_PATH_IMAGE056
个聚类中包含的所有异构设备的数量,
Figure 53092DEST_PATH_IMAGE057
表示
Figure 612250DEST_PATH_IMAGE058
中存在实际数据流连接的设备数。
与现有技术相比,本发明的有益效果是:
1.通过将主成分分析法和典型相关分析结合的方式,使得算法不仅适用于数据中心异构设备间传输的高维数据的降维,并且可以实现对数据中心异构设备间传输的多源数据进行相关性分析。
2.通过对异构设备相关性系数的建模,不拘泥于异构设备分布距离、连接等物理因素,而是由设备本身传输的数据特征驱动,以此可以实现对较为隐蔽的、具有紧密关联的异构设备的聚类。在聚类方法上采用基于快速搜索的层次聚类法,相比已有的凝聚聚类法具有更快速、简便的优势。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例的方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面结合图1,介绍本申请的一种多源数据驱动的数据中心异构设备群聚类方法,包括以下具体步骤:
步骤1:假设数据中心存在
Figure 807214DEST_PATH_IMAGE059
个异构设备,初始获取在时间段
Figure 793625DEST_PATH_IMAGE060
Figure 959027DEST_PATH_IMAGE061
表示将一天按时分为24段,选取其中第k段时间内的数据)内两两异构设备间传输的数据包
Figure 56296DEST_PATH_IMAGE062
,其中
Figure 623543DEST_PATH_IMAGE063
Figure 531588DEST_PATH_IMAGE064
Figure 918707DEST_PATH_IMAGE065
Figure 819667DEST_PATH_IMAGE066
表示时间段
Figure 507000DEST_PATH_IMAGE061
内两异构设备间传输的不同模态的数据块,
Figure 569634DEST_PATH_IMAGE067
表示每个数据包由
Figure 460361DEST_PATH_IMAGE067
个不同模态的数据块组成,
Figure 899432DEST_PATH_IMAGE068
表示设备i在时间段
Figure 441272DEST_PATH_IMAGE061
内接收到的设备j发送给它的数据包,
Figure 940386DEST_PATH_IMAGE069
同理。
步骤2: 从数据包
Figure 52830DEST_PATH_IMAGE070
Figure 295593DEST_PATH_IMAGE071
中提取数据块
Figure 957518DEST_PATH_IMAGE021
Figure 361955DEST_PATH_IMAGE072
提取不同数据块的特征值为
Figure 210962DEST_PATH_IMAGE073
Figure 5218DEST_PATH_IMAGE074
,其中特征集合
Figure 256071DEST_PATH_IMAGE075
表示第x个模态的数据块的p个特征向量的集合,
Figure 96988DEST_PATH_IMAGE076
表示第y个模态的数据块的p个特征向量的集合;
步骤3:经过PCA进行特征向量
Figure 167712DEST_PATH_IMAGE077
Figure 752277DEST_PATH_IMAGE076
降维后,得到简化特征
Figure 873948DEST_PATH_IMAGE019
,PCA是一种将高维空间数据映射到低维空间的线性映射。在对数据中心异构设备传输的数据进行分析处理的过程中,多源数据的主要成分(包括信息内容较大的维度)保留了对数据描述不重要的元素。因此,需要通过高维数据映射到由主成分维组成的低维向量空间,删去不重要的元素,以此来实现数据特征的简化。首先执行数据块特征值的去中心化,即每个数据减去其对应列的平均值,然后计算去中心化后数据的协方差矩阵H,然后计算H的特征值分解,并根据相应的特征值从大到小的顺序将特征向量排列,并从中选取
Figure 620187DEST_PATH_IMAGE078
个特征,形成新的矩阵
Figure 709366DEST_PATH_IMAGE079
。用新的矩阵
Figure 832043DEST_PATH_IMAGE079
乘去中心化的数据就得到降维简化后的数据块特征。
步骤4:基于CCA理论建模简化特征
Figure 57488DEST_PATH_IMAGE019
间的Pearson系数,并且以此设计一个优化问题,求使得Pearson系数最大时,所对应的最优子空间映射系数
Figure 990940DEST_PATH_IMAGE080
。采用拉格朗日乘子法(Lagrange Multiplier ,LM)进行化简、求最优解。具体的优化问题建模如下:
假设X是数据块
Figure 301835DEST_PATH_IMAGE021
经过PCA降维后的样本矩阵,维数为
Figure 228203DEST_PATH_IMAGE081
,同理,Y是数据块
Figure 308155DEST_PATH_IMAGE022
的样本矩阵,维数为
Figure 412508DEST_PATH_IMAGE082
Figure 945120DEST_PATH_IMAGE083
分别是X和Y中特征向量的维数,n为样本矩阵中的特征向量总数,
Figure 675179DEST_PATH_IMAGE084
为与样本矩阵X,Y内的每一对特征向量
Figure 875216DEST_PATH_IMAGE085
相关联的显示向量重要性的权重,则X和Y的加权平均值如下式子:
Figure 399738DEST_PATH_IMAGE086
基于CCA理论,我们需要从异构设备传输数据块的每个向量中提取集合变量集的线性系数
Figure 444748DEST_PATH_IMAGE087
,从而形成投影后的线性系数向量
Figure 978497DEST_PATH_IMAGE088
Figure 767462DEST_PATH_IMAGE089
,即
Figure 462885DEST_PATH_IMAGE090
。用于计算描述两两异构设备之间的多模态多源数据相关性的Pearson系数如下:
Figure 970090DEST_PATH_IMAGE091
式中
Figure 792684DEST_PATH_IMAGE092
Figure 701734DEST_PATH_IMAGE093
为投影向量
Figure 833638DEST_PATH_IMAGE094
Figure 828139DEST_PATH_IMAGE095
的协方差;
Figure 454423DEST_PATH_IMAGE096
Figure 952401DEST_PATH_IMAGE097
为矩阵X和Y的加权协方差矩阵;
Figure 255206DEST_PATH_IMAGE098
Figure 737003DEST_PATH_IMAGE099
,
Figure 885087DEST_PATH_IMAGE100
为投影向量
Figure 519462DEST_PATH_IMAGE088
Figure 993169DEST_PATH_IMAGE101
的方差;
采用Pearson系数来测量
Figure 696683DEST_PATH_IMAGE088
Figure 914037DEST_PATH_IMAGE089
之间的多源数据相关性。CCA旨在选择最优的a和b来准确地探索多源数据的相关性,从而使Pearson系数的价值最大化,形成以下优化问题:
Figure 399989DEST_PATH_IMAGE102
Figure 779018DEST_PATH_IMAGE103
用Lagrange Multiplier 求最优解。
Figure 235407DEST_PATH_IMAGE104
,令
Figure 725294DEST_PATH_IMAGE105
,且
Figure 583529DEST_PATH_IMAGE106
则化简为
Figure 884191DEST_PATH_IMAGE107
则通过观察上式可看出结果是对
Figure 827876DEST_PATH_IMAGE108
进行特征分解,得到最大的广义特征值
Figure 121454DEST_PATH_IMAGE109
。在这种情况下,最大特征值对应的特征向量是X的线性系数a。同样,我们也可以得到Y的线性系数b。
步骤5:根据优化问题求得的最优解来进行多源异构数据的空间映射,并根据距离公式计算数据块
Figure 834196DEST_PATH_IMAGE021
Figure 820606DEST_PATH_IMAGE022
之间的相关系数
Figure 471161DEST_PATH_IMAGE023
,至此,我们已经完成了多源异构数据块的相关性分析。
Figure 568430DEST_PATH_IMAGE110
Figure 401257DEST_PATH_IMAGE044
Figure 292990DEST_PATH_IMAGE045
分别表示投影后特征向量
Figure 945688DEST_PATH_IMAGE088
Figure 597380DEST_PATH_IMAGE089
的第i个元素。
步骤6:计算异构设备传输数据包之间的相关系数
Figure 19134DEST_PATH_IMAGE111
,以及两两设备间的干扰
Figure 347348DEST_PATH_IMAGE025
,从而建模两异构设备间的相似性系数
Figure 221763DEST_PATH_IMAGE028
首先对数据包间相关系数进行建模,数据包间相关系数可以认为是多个数据块相关系数的集合:
Figure 660834DEST_PATH_IMAGE112
式中式中
Figure 950477DEST_PATH_IMAGE113
Figure 184012DEST_PATH_IMAGE041
表示数据包位长,
Figure 811302DEST_PATH_IMAGE042
Figure 54065DEST_PATH_IMAGE114
表示数据包的优先级,以表示数据包的重要程度。
而后对异构设备间通信时其他设备对其的干扰
Figure 184832DEST_PATH_IMAGE025
进行建模:
Figure 605580DEST_PATH_IMAGE115
Figure 454588DEST_PATH_IMAGE116
为发送方设备的传输功率,
Figure 501041DEST_PATH_IMAGE050
为背景噪声,q 为path-loss指数,
Figure 751894DEST_PATH_IMAGE051
为发送设备
Figure 343543DEST_PATH_IMAGE026
与接收设备
Figure 679847DEST_PATH_IMAGE027
间距离;
最后对两异构设备间相似性系数进行建模:
Figure 264412DEST_PATH_IMAGE117
Figure 635350DEST_PATH_IMAGE053
用于将该相似性系数调整至0~1范围内。
步骤7:以相似性系数
Figure 381589DEST_PATH_IMAGE028
为元素构建异构设备间的邻接矩阵G,采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类,降低了聚类算法的运算复杂度。统计邻接矩阵中各个元素出现的次数,首先依据频次的不同进行初始化聚类,得到初始聚类集C。
建模聚类的评价指标
Figure 221500DEST_PATH_IMAGE029
,作为是否合成新簇的标准。假设初始聚类后的聚类集为
Figure 344177DEST_PATH_IMAGE118
其中
Figure 304043DEST_PATH_IMAGE119
,聚类评价指标
Figure 752342DEST_PATH_IMAGE029
建模如下:
Figure 797658DEST_PATH_IMAGE120
式中
Figure 471829DEST_PATH_IMAGE121
表示第
Figure 817359DEST_PATH_IMAGE056
个聚类中包含的所有异构设备的数量,
Figure 905401DEST_PATH_IMAGE122
表示
Figure 703593DEST_PATH_IMAGE123
中存在实际数据流连接的设备数。此评价指标可以衡量依据数据特征相似性确定的聚类中实际存在连接的设备数的比例,若两个聚类这一比例越接近,则说明相似程度越高,将两个聚类合成新簇。
步骤8:如果两个聚类间的
Figure 433651DEST_PATH_IMAGE029
相差不大,则合并这两个聚类,并且更新邻接矩阵,如下式,返回步骤7,并重新计算评价指标
Figure 384421DEST_PATH_IMAGE124
进行对比;否则不再更新,输出当前的聚类集
Figure 643364DEST_PATH_IMAGE125
Figure 928852DEST_PATH_IMAGE126
式中,
Figure 197022DEST_PATH_IMAGE127
表示当前簇
Figure 985987DEST_PATH_IMAGE128
和簇
Figure 697722DEST_PATH_IMAGE129
间的相关系数,
Figure 470506DEST_PATH_IMAGE130
Figure 276788DEST_PATH_IMAGE131
表示簇
Figure 451417DEST_PATH_IMAGE128
和簇
Figure 68474DEST_PATH_IMAGE129
内的异构设备数,
Figure 62975DEST_PATH_IMAGE132
表示簇
Figure 672948DEST_PATH_IMAGE128
和簇
Figure 702084DEST_PATH_IMAGE129
内第
Figure 739310DEST_PATH_IMAGE133
台设备
Figure 980629DEST_PATH_IMAGE134
和第
Figure 394292DEST_PATH_IMAGE135
台设备
Figure 277935DEST_PATH_IMAGE136
间的相关系数。
相较于现有技术,本申请提出一种多源数据驱动的数据中心异构设备群聚类方法,通过将主成分分析法(Principal Component Analysis,PCA)和典型相关分析理论(Canonical Correlation Analysis,CCA)相结合设计了基于数据中心的设备级多源数据相关性挖掘模型,使用PCA将多维数据特征进行简化,而后基于CCA理论设计了数据块间相似性最大的优化问题,通过拉格朗日乘子法求解得到最优子空间的映射参数,进行数据的降维、映射。基于数据相关性和异构设备间存在的干扰,建模异构设备间的相关性。最后,利用异构设备间的相似性,设计了一种基于快速搜索法的异构设备聚类方法对设备进行分类,有助于分析跳脱设备物理分布之外的数据中心异构设备群内各器件的紧密关系。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (4)

1.一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,包括如下步骤:
步骤1:假设数据中心存在
Figure 735173DEST_PATH_IMAGE001
个异构设备,初始获取在时间段
Figure 218107DEST_PATH_IMAGE002
内两两异构设备间传输的数据包
Figure 487414DEST_PATH_IMAGE003
,其中
Figure 132022DEST_PATH_IMAGE004
Figure 119570DEST_PATH_IMAGE005
Figure 907660DEST_PATH_IMAGE006
Figure 297053DEST_PATH_IMAGE007
表示时间段
Figure 909299DEST_PATH_IMAGE008
内两异构设备间传输的不同模态的数据块,
Figure 413837DEST_PATH_IMAGE009
表示每个数据包由
Figure 238573DEST_PATH_IMAGE009
个不同模态的数据块组成,
Figure 75948DEST_PATH_IMAGE010
表示设备i在时间段
Figure 94982DEST_PATH_IMAGE008
内接收到的设备j发送给它的数据包,
Figure 57122DEST_PATH_IMAGE011
同理;
步骤2: 从数据包
Figure 685549DEST_PATH_IMAGE010
Figure 518376DEST_PATH_IMAGE011
中提取数据块
Figure 705382DEST_PATH_IMAGE012
Figure 154817DEST_PATH_IMAGE013
,提取不同数据块的特征值为
Figure 321357DEST_PATH_IMAGE014
Figure 274269DEST_PATH_IMAGE015
,其中特征集合
Figure 635105DEST_PATH_IMAGE016
表示第x个模态的数据块的p个特征向量的集合,
Figure 40679DEST_PATH_IMAGE017
表示第y个模态的数据块的p个特征向量的集合;
步骤3:经过PCA进行特征向量
Figure 276488DEST_PATH_IMAGE018
Figure 83907DEST_PATH_IMAGE017
降维后,得到简化特征集合
Figure 848601DEST_PATH_IMAGE019
,由于提取到的是不同模态的数据,因此存在线性映射关系,将简化特征
Figure 240006DEST_PATH_IMAGE019
映射到两个可逆的子空间;
步骤4:基于CAA理论建模简化特征
Figure 482768DEST_PATH_IMAGE019
间的Pearson系数,求使得Pearson系数最大时,所对应的最优子空间映射系数
Figure 410273DEST_PATH_IMAGE020
,采用拉格朗日乘子法进行化简、求最优解;
步骤5:根据优化问题求得的最优解来进行多源异构数据的空间映射,并根据距离公式计算数据块
Figure 611447DEST_PATH_IMAGE021
Figure 257192DEST_PATH_IMAGE022
之间的相关系数
Figure 805110DEST_PATH_IMAGE023
,完成多源异构数据块的相关性分析;
步骤6:计算异构设备传输数据包之间的相关系数
Figure 852701DEST_PATH_IMAGE024
,以及两两设备间的干扰
Figure 224776DEST_PATH_IMAGE025
,从而建模两异构设备
Figure 325194DEST_PATH_IMAGE026
Figure 736191DEST_PATH_IMAGE027
间的相似性系数
Figure 107129DEST_PATH_IMAGE028
所述步骤6具体为,首先对数据间相关系数进行建模:
Figure 650106DEST_PATH_IMAGE029
式中
Figure 739285DEST_PATH_IMAGE030
Figure 160164DEST_PATH_IMAGE031
表示数据包位长,
Figure 916767DEST_PATH_IMAGE032
Figure 630645DEST_PATH_IMAGE033
表示数据包的优先级;
Figure 472699DEST_PATH_IMAGE034
Figure 930226DEST_PATH_IMAGE035
分别表示投影后特征向量
Figure 774291DEST_PATH_IMAGE036
Figure 924650DEST_PATH_IMAGE037
的第
Figure 988421DEST_PATH_IMAGE026
个元素,
而后对异构设备间通信时其他设备对其的干扰
Figure 984059DEST_PATH_IMAGE025
进行建模:
Figure 951140DEST_PATH_IMAGE038
Figure 272400DEST_PATH_IMAGE039
为发送方设备
Figure 823467DEST_PATH_IMAGE026
的传输功率,
Figure 888375DEST_PATH_IMAGE040
为背景噪声,q 为path-loss指数,
Figure 208498DEST_PATH_IMAGE041
为发送设备
Figure 933615DEST_PATH_IMAGE026
与接收设备
Figure 971978DEST_PATH_IMAGE027
间距离;
最后对两异构设备间相似性系数进行建模:
Figure 574998DEST_PATH_IMAGE042
Figure 749627DEST_PATH_IMAGE043
用于将该相似性系数调整至0~1范围内;
步骤7:以相似性系数为元素构建异构设备间的邻接矩阵,并建模聚类的评价指标
Figure 914155DEST_PATH_IMAGE044
,作为是否合成新簇的标准,统计邻接矩阵中各个元素出现的次数,依据频次的不同进行初始化聚类,得到初始聚类集
Figure 174235DEST_PATH_IMAGE045
步骤8:如果两个聚类间的评价指标
Figure 315366DEST_PATH_IMAGE044
相差不大,则合并这两个聚类,并且更新邻接矩阵,返回步骤7,并重新计算评价指标
Figure 610081DEST_PATH_IMAGE044
进行对比;否则不再更新,输出当前的聚类集
Figure 912887DEST_PATH_IMAGE046
2.根据权利要求1所述的一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,所述步骤4中求使得Pearson系数最大时,所对应的最优子空间映射系数
Figure 713394DEST_PATH_IMAGE020
具体为,Pearson系数如下:
Figure 392637DEST_PATH_IMAGE047
式中
Figure 292591DEST_PATH_IMAGE048
Figure 297456DEST_PATH_IMAGE049
是PCA降维后的数据,
Figure 296243DEST_PATH_IMAGE050
为线性映射系数,
Figure 779176DEST_PATH_IMAGE051
是利用CCA理论降维至1维后的投影,简化为下式:
Figure 782905DEST_PATH_IMAGE052
Figure 693092DEST_PATH_IMAGE053
继而用拉格朗日乘子法求最优解。
3.根据权利要求1所述的一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,所述步骤7中的聚类采用基于快速搜索法的层次聚类算法,根据邻接矩阵中各元素出现的概率,即出现次数占总数的比例;依据概率进行分层,而非将每个设备初始化成一类,以此更为迅速、准确地实现聚类。
4.根据权利要求1所述的一种多源数据驱动的数据中心异构设备群聚类方法,其特征在于,步骤8中的聚类评价指标
Figure 680639DEST_PATH_IMAGE044
建模如下:
Figure 468729DEST_PATH_IMAGE054
式中
Figure 858122DEST_PATH_IMAGE055
表示第
Figure 939211DEST_PATH_IMAGE056
个聚类中包含的所有异构设备的数量,
Figure 414054DEST_PATH_IMAGE057
表示
Figure 737326DEST_PATH_IMAGE058
中存在实际数据流连接的设备数。
CN202211320133.8A 2022-10-26 2022-10-26 一种多源数据驱动的数据中心异构设备群聚类方法 Active CN115374191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211320133.8A CN115374191B (zh) 2022-10-26 2022-10-26 一种多源数据驱动的数据中心异构设备群聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211320133.8A CN115374191B (zh) 2022-10-26 2022-10-26 一种多源数据驱动的数据中心异构设备群聚类方法

Publications (2)

Publication Number Publication Date
CN115374191A CN115374191A (zh) 2022-11-22
CN115374191B true CN115374191B (zh) 2023-01-31

Family

ID=84072841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211320133.8A Active CN115374191B (zh) 2022-10-26 2022-10-26 一种多源数据驱动的数据中心异构设备群聚类方法

Country Status (1)

Country Link
CN (1) CN115374191B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089847B (zh) * 2023-04-06 2023-06-23 国网湖北省电力有限公司营销服务中心(计量中心) 基于协方差代理的分布式可调资源聚类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810288A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于聚类算法对异构社会网络进行社区检测的方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN106446924A (zh) * 2016-06-23 2017-02-22 首都师范大学 一种基于l3crsc对谱聚类邻接矩阵的构造及其应用
CN110674848A (zh) * 2019-08-31 2020-01-10 南京理工大学 联合稀疏表示与二部图分割的高维数据联合聚类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392418B2 (en) * 2009-06-25 2013-03-05 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and model
US20210056127A1 (en) * 2019-08-21 2021-02-25 Nec Laboratories America, Inc. Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
US11599568B2 (en) * 2020-01-29 2023-03-07 EMC IP Holding Company LLC Monitoring an enterprise system utilizing hierarchical clustering of strings in data records

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810288A (zh) * 2014-02-25 2014-05-21 西安电子科技大学 基于聚类算法对异构社会网络进行社区检测的方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法
CN106446924A (zh) * 2016-06-23 2017-02-22 首都师范大学 一种基于l3crsc对谱聚类邻接矩阵的构造及其应用
CN110674848A (zh) * 2019-08-31 2020-01-10 南京理工大学 联合稀疏表示与二部图分割的高维数据联合聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multiple Attack Detection Method of Power Intelligent Terminal Based on LSTM Neural Network;Yue Guo;Liang Dong;《MEMAT 2022》;20220107;全文 *
基于相关性分析的跨媒体检索;王述;《中国优秀硕士学位论文全文数据库》;20171015(第10期);全文 *

Also Published As

Publication number Publication date
CN115374191A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
Shanthamallu et al. A brief survey of machine learning methods and their sensor and IoT applications
CN110298415B (zh) 一种半监督学习的训练方法、系统和计算机可读存储介质
Kim et al. Dynamic clustering in federated learning
Song et al. Hilbert space embeddings of hidden Markov models
Zhao et al. Where are you heading? dynamic trajectory prediction with expert goal examples
KR101965277B1 (ko) 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN115374191B (zh) 一种多源数据驱动的数据中心异构设备群聚类方法
CN111339818A (zh) 一种人脸多属性识别系统
CN110097088A (zh) 一种基于迁移学习与特殊点策略的动态多目标进化方法
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
Wang et al. Optimizing quality-of-information in cost-sensitive sensor data fusion
CN109787821B (zh) 一种大规模移动客户流量消费智能预测方法
CN110990498A (zh) 一种基于fcm算法的数据融合方法
CN114495507A (zh) 融合时空注意力神经网络和交通模型的交通流预测方法
WO2023207013A1 (zh) 一种基于图嵌入的关系图谱关键人员分析方法及系统
CN117316333B (zh) 基于通用的分子图表示学习模型的逆合成预测方法及装置
Kashima et al. K-means clustering of proportional data using L1 distance
CN112801411A (zh) 一种基于生成对抗网络的网络流量预测方法
De Stefano et al. A GA-based feature selection algorithm for remote sensing images
CN117635218B (zh) 基于六度分离理论和图注意网络的商圈流量预测方法
Zhang et al. A Real Time Traffic Flow Model Based on Deep Learning.
Liu et al. [Retracted] An Accurate Method of Determining Attribute Weights in Distance‐Based Classification Algorithms
CN114362973B (zh) 结合K-means和FCM聚类的流量检测方法及电子装置
CN117495421A (zh) 基于电力通信网建设的电网通信工程造价预测方法
US20220383164A1 (en) Methods and Systems for Generating Example-Based Explanations of Link Prediction Models in Knowledge Graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant