CN110874615A - 特征聚类处理方法、集群服务器及可读存储介质 - Google Patents

特征聚类处理方法、集群服务器及可读存储介质 Download PDF

Info

Publication number
CN110874615A
CN110874615A CN201911124455.3A CN201911124455A CN110874615A CN 110874615 A CN110874615 A CN 110874615A CN 201911124455 A CN201911124455 A CN 201911124455A CN 110874615 A CN110874615 A CN 110874615A
Authority
CN
China
Prior art keywords
sub
cluster
feature
feature set
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911124455.3A
Other languages
English (en)
Other versions
CN110874615B (zh
Inventor
陈瑞钦
黄启军
林冰垠
李诗琦
唐兴兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911124455.3A priority Critical patent/CN110874615B/zh
Publication of CN110874615A publication Critical patent/CN110874615A/zh
Priority to PCT/CN2020/128721 priority patent/WO2021093857A1/zh
Application granted granted Critical
Publication of CN110874615B publication Critical patent/CN110874615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种特征聚类处理方法、集群服务器及可读存储介质,方法包括:按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于多个数据块,确定特征集的协方差矩阵;根据特征集的协方差矩阵判断特征集是否满足预设拆分条件;若满足,则对特征集进行拆分处理以获得子聚类;根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵;若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件,则对子聚类进行拆分处理。这样,无需针对每个聚类再重新计算一次协方差矩阵,避免了大量数据计算和各个节点与控制节点之间的通信开销,大幅度地提升了计算效率。

Description

特征聚类处理方法、集群服务器及可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种特征聚类处理方法、集群服务器及可读存储介质。
背景技术
随着机器学习技术和互联网技术的快速发展,越来越多的领域开始应用到机器学习技术,通过特征工程技术对输入特征进行处理能有效地提升训练模型可解释性和鲁棒性。分析特征之间的相似性,将相似度较高的特征聚类在一起,选取每个聚类中的代表特征作为聚类输出特征,能够在降低特征之间相关性同时还能减少输入训练模型特征数量,有效地提升了训练模型的鲁棒性和可解释性。
目前,建模输入特征的数量会有成千上万,由于特征数据量大,对于特征聚类的算法提出越来越高的要求。例如,当面对大量的特征数据时,会导致计算复杂,从而会造成计算效率低。
发明内容
本发明的主要目的在于提供一种特征聚类处理方法、集群服务器及可读存储介质,旨在解决现有技术中的面对大量特征数据时,会导致计算复杂,从而会造成计算效率低的技术问题。
为实现上述目的,本发明提供一种特征聚类处理方法,所述方法包括:
按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵;
根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件;
若满足,则对所述特征集进行拆分处理以获得子聚类;
根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵;
若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件,则对所述子聚类进行拆分处理。
进一步地,所述按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵的步骤,包括:
获取所述特征集,并将所述特征集按矩阵的形式进行存储;
将所述特征集按预设矩阵规则拆分为所述多个数据块,并将所述多个数据块分别一一分配至多个计算节点;
根据分别位于所述多个计算节点的所述多个数据块计算所述特征集的协方差矩阵。
进一步地,所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵的步骤,包括:
根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置,提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量,确定所述子聚类的协方差矩阵。
进一步地,所述根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤,包括:
根据所述特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中所述第一特征值大于或等于所述第二特征值;
判断所述第二特征值是否大于或等于预设特征值;
若所述第二特征值大于或等于所述预设特征值时,则所述特征集满足所述预设拆分条件;
若所述第二特征值小于所述预设特征值时,则所述特征集不满足所述预设拆分条件。
进一步地,所述若满足,则对所述特征集进行拆分处理以获得子聚类的步骤,包括:
若所述特征集满足所述预设拆分条件时,则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值,并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类;
获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类;
判断所述第三子聚类与所述第一子聚类是否相同,以及所述第四子聚类与所述第二子聚类是否相同;
若不相同,则将所述第一子聚类更新为所述第三子聚类,所述第二子聚类更新为所述第四子聚类,并重新执行调整的步骤;
若相同,则将所述特征集拆分为所述第一子聚类和所述第二子聚类。
进一步地,所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤,包括:
根据所述特征集的协方差矩阵,计算与所述第一特征值相对应的第一特征向量,且计算与所述第二特征值相对应的第二特征向量;
根据所述特征集分别计算与所述第一特征向量相对应的第一投影特征,以及与所述第二特征向量相对应的第二投影特征;
计算所述特征集的每一特征分别与所述第一投影特征和所述第二投影特征的相关系数;
根据所述相关系数的大小,并将所述特征集预拆分为所述第一子聚类和所述第二子聚类。
进一步地,获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类的步骤,包括:
根据所述第一子聚类的协方差矩阵,计算与所述第三特征值相对应的第三特征向量;根据所述第二子聚类的协方差矩阵,计算与所述第四特征值相对应的第四特征向量;
根据所述第一子聚类计算与所述第三特征向量相对应的第三投影特征;
根据所述第二子聚类计算与所述第四特征向量相对应的第四投影特征;
计算所述特征集的每一特征分别与所述第三投影特征和所述第四投影特征的相关系数;
根据所述相关系数的大小,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的所述第三子聚类和所述第四子聚类。
进一步地,所述方法还包括:
若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件,则将所述子聚类作为聚类结果输出。
本发明还提供一种集群服务器,其特征在于,所述集群服务器包括一个或多个服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述特征聚类处理程序被所述处理器执行时实现如上述的特征聚类处理方法的步骤。
本发明还提供一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的特征聚类处理方法的步骤。
本发明提出的特征聚类处理方法,通过按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于多个数据块,确定特征集的协方差矩阵;根据特征集的协方差矩阵判断特征集是否满足预设拆分条件;若满足,则对特征集进行拆分处理,并根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵;若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件,则对子聚类进行拆分处理。这样,在本实施例中,在将特征集进行拆分的过程中,根据已得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵。因此,在将特征集进行拆分的过程中,不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵,避免了大量数据计算和各个节点与控制节点之间的通信开销,大幅度地提升了计算效率。
附图说明
图1是本发明实施例方案涉及的硬件运行的单个服务器的结构示意图;
图2是本发明一种特征聚类处理方法第一实施例的流程示意图;
图3是本发明一种特征聚类处理方法一实施例的整体示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的单个服务器结构示意图。
本发明实施例单个服务器可以是电脑,也可以是智能手机。
如图1所示,该单个服务器可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的单个服务器结构并不构成对单个服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及特征聚类处理程序。
在图1所示的单个服务器中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的特征聚类处理程序,并执行以下操作:
按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵;
根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件;
若满足,则对所述特征集进行拆分处理以获得子聚类;
根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵;
若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件,则对所述子聚类进行拆分处理。
进一步地,获取所述特征集,并将所述特征集按矩阵的形式进行存储;
将所述特征集按预设矩阵规则拆分为所述多个数据块,并将所述多个数据块分别一一分配至多个计算节点;
根据分别位于所述多个计算节点的所述多个数据块计算所述特征集的协方差矩阵。
进一步地,根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置,提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量,确定所述子聚类的协方差矩阵。
进一步地,根据所述特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中所述第一特征值大于或等于所述第二特征值;
判断所述第二特征值是否大于或等于预设特征值;
若所述第二特征值大于或等于所述预设特征值时,则所述特征集满足所述预设拆分条件;
若所述第二特征值小于所述预设特征值时,则所述特征集不满足所述预设拆分条件。
进一步地,若所述特征集满足所述预设拆分条件时,则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值,并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类;
获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类;
判断所述第三子聚类与所述第一子聚类是否相同,以及所述第四子聚类与所述第二子聚类是否相同;
若不相同,则将所述第一子聚类更新为所述第三子聚类,所述第二子聚类更新为所述第四子聚类,并重新执行调整的步骤;
若相同,则将所述特征集拆分为所述第一子聚类和所述第二子聚类。
进一步地,根据所述特征集的协方差矩阵,计算与所述第一特征值相对应的第一特征向量,且计算与所述第二特征值相对应的第二特征向量;
根据所述特征集分别计算与所述第一特征向量相对应的第一投影特征,以及与所述第二特征向量相对应的第二投影特征;
计算所述特征集的每一特征分别与所述第一投影特征和所述第二投影特征的相关系数;
根据所述相关系数的大小,并将所述特征集预拆分为所述第一子聚类和所述第二子聚类。
进一步地,根据所述第一子聚类的协方差矩阵,计算与所述第三特征值相对应的第三特征向量;根据所述第二子聚类的协方差矩阵,计算与所述第四特征值相对应的第四特征向量;
根据所述第一子聚类计算与所述第三特征向量相对应的第三投影特征;
根据所述第二子聚类计算与所述第四特征向量相对应的第四投影特征;
计算所述特征集的每一特征分别与所述第三投影特征和所述第四投影特征的相关系数;
根据所述相关系数的大小,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的所述第三子聚类和所述第四子聚类。
进一步地,若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件,则将所述子聚类作为聚类结果输出。
基于上述硬件结构,提出本发明特征聚类处理方法的各实施例。
请参照图2,在本发明特征聚类处理方法第一实施例中,该特征聚类处理方法包括:
步骤S10,按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵;
控制节点按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定特征集的协方差矩阵。在本实施例中,预设矩阵规则是预先将待聚类处理的特征集按照矩阵的行或列进行拆分,数据块指的是特征集中的部分特征数据。本发明实施例中可应用于分布式的集群服务器,集群服务器包括一个或多个服务器,当集群服务器内的其中一个服务器获取特征以构建特征集、控制聚类过程和返回聚类结果时,则该服务器可作为控制节点,其余服务器可作为计算节点。控制节点还可以是独立于集群服务器的控制服务器,并且该控制服务器可对集群服务器内的各个服务器进行数据访问和运算控制。
在本实施例中,集群服务器包括有多个服务器,集群服务器中的一个服务器是控制节点,其余的服务器是计算节点。控制节点将特征集拆分为多个数据块并存储至多个计算节点,且控制节点对各个计算节点进行运算控制,各个计算节点对其内存储的数据块进行运算,从而确定出特征集的协方差。
可以理解地是,当集群服务器只有一个服务器时,则该服务器即是控制节点,同时也是计算节点,控制节点和计算节点共同完成本发明实施例中的各个步骤。
步骤S20,根据特征集的协方差矩阵判断特征集是否满足预设拆分条件;
这里的预设拆分条件是指当特征集中的多个特征的差异性大于预设值时,则可将特征集进行拆分。在本实施例中,控制节点将特征集拆分为多个数据块并存储至多个计算节点,且控制节点对各个计算节点进行运算控制,各个计算节点对其内存储的数据块进行运算,从而确定出特征集的协方差,根据特征集的协方差矩阵判断特征集是否满足预设拆分条件。
步骤S30,若满足,则对所述特征集进行拆分处理以获得子聚类;
在本实施例中,需要说明的是,特征集是由n个特征组成,特征集是可以拆分为多个聚类或不可拆分的,若特征集满足拆分条件时,则拆分为多个子聚类。在本实施例中,若特征集满足预设拆分条件时,则特征集进行拆分,并将相似度高的特征进行聚类以形成子聚类,从而将特征集拆分成多个子聚类,从而使得各个子聚类内的特征的不相似性逐步减少,从而表现为各个子聚类内的特征的相似度较高。
步骤S40,根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵;
在本实施例中,由特征集拆分而得到的子聚类的协方差矩阵是与特征集的协方差矩阵具有关联关系的,也就是说,子聚类的协方差矩阵可从特征集的协方差矩阵中而获得,并可根据子聚类的协方差矩阵对子聚类进行下一轮的拆分。其中,由于子聚类是特征集的一部分,因此,子聚类的协方差矩阵是与特征集的协方差矩阵相对应,即子聚类的协方差矩阵是特征集的协方差矩阵中的部分行列。
步骤S50,若根据子聚类的协方差矩阵确定子聚类满足预设拆分条件,则对子聚类进行拆分处理。
在本实施例中,控制节点根据特征集的协方差矩阵判断特征集是否满足预设拆分条件,若特征集满足预设拆分条件时,则对特征集进行拆分处理,并得到子聚类,根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵,判断子聚类的协方差矩阵是否满足预设拆分条件,若根据子聚类的协方差矩阵满足子聚类预设拆分条件时,则对子聚类进行拆分处理。
在另一些实施例中,若根据子聚类的协方差矩阵确定子聚类不满足预设拆分条件,则将子聚类作为聚类结果。其中,控制节点根据特征集拆分成多个子聚类,从而使得各个子聚类内的特征的相似度最高,且各个子聚类之间的不相似度最高,从而将各个子聚类作为聚类结果输出。
本实施例通过控制节点将特征集拆分为多个数据块并存储至多个计算节点,且控制节点对各个计算节点进行运算控制,各个计算节点对其内存储的数据块进行运算,从而确定出特征集的协方差,控制节点根据特征集的协方差矩阵判断特征集是否满足预设拆分条件,若特征集满足预设拆分条件时,则对特征集进行拆分处理,并得到子聚类,根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵,判断子聚类的协方差矩阵是否满足预设拆分条件,若子聚类的协方差矩阵满足子聚类预设拆分条件时,则对子聚类进行拆分处理。这样,在本实施例中,在将特征集进行拆分的过程中,根据已得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵。因此,在将特征集进行拆分的过程中,不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵,避免了大量数据计算和各个节点与控制节点之间的通信开销,大幅度地提升了计算效率。
进一步地,上述第一实施例步骤S10中,按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵的步骤,包括:
步骤S11,获取所述特征集,并将所述特征集按矩阵的形式进行存储;
在本实施例中,控制节点获取特征集,根据特征集构建矩阵,并将特征集按矩阵的形式进行存储。其中,根据特征集构建矩阵值的是:控制节点获取多个特征,并将多个特征构建为特征集,其中的特征集是将特征的内容以矩阵的形式建立关联关系,并进行存储。例如,特征集包含n个特征,记为特征集={x1,x2,x3,……,xn},n≥2;每一个特征包含m条记录值,对于第i个特征,包含的m条记录值记为:{xi1,xi2,xi3,……,xim},m≥2。将特征集的内容用矩阵的形式进行存储,即每一列对应着一个特征,每一行表示n个特征当前的值,即矩阵的列数对应着特征的个数,矩阵的行数对应着记录值的个数。
步骤S12,将特征集按预设矩阵规则拆分为多个数据块,并将多个数据块分别一一分配至多个计算节点;
控制节点将特征集按照矩阵的行或列的形式进行拆分为多个数据块,并将多个数据块分别一一分配至多个计算节点。在本实施例中,根据矩阵将特征集按行分块,得到多个数据块,并将各个数据块分别一一分配至存入到各个计算节点。其中,各个计算节点可对位于其内的数据块进行运算处理。
步骤13,根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵;
在本实施例中,控制节点根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵。特征集的协方差矩阵是根据特征集的矩阵进行运算而得来的。特征集的协方差矩阵指的是通过特征集所对应的矩阵进行运算而得来。在本实施例中,特征集被划分为多个数据块,多个数据块分别被分配至多个计算节点。计算节点可对位于其内的数据块进行运算,并将运算结果反馈至控制节点,从而使得控制节点根据各个计算节点的运算结果计算出特征集所对应的矩阵表的协方差矩阵。也就是说,控制节点可根据分别位于多个计算节点的多个数据块计算出特征集的协方差矩阵。
本实施例通过控制节点根据特征集构建矩阵,根据矩阵将特征集拆分为多个数据块,并将多个数据块分别一一分配至多个计算节点,将特征集作为特征集,根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵,根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵。这样,基于特征集的矩阵对数据进行分块处理,并将多个数据块分别一一分配至多个计算节点。通过特征集的矩阵对数据进行访问、处理,减少了各个节点之间的数据搬运,从而提高了对数据的访问及处理能力,提高了计算效率。
进一步地,上述第一实施例的步骤S20中,根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤,包括:
步骤S21,根据特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中第一特征值大于或等于第二特征值;
步骤S22,判断第二特征值是否大于或等于预设特征值;
步骤S23,若第二特征值大于或等于预设特征值时,则特征集满足预设拆分条件;
步骤S24,若第二特征值小于所述预设特征值时,则所述特征集不满足所述预设拆分条件。
在本实施例中,通过构建特征集的矩阵,并基于矩阵的运算,从而计算出特征集的协方差矩阵。
进一步地,基于特征集的协方差矩阵计算出特征集的PCA(principal componentsanalysis)信息,根据PCA信息中的两个最大数值作为特征集的协方差矩阵的第一特征值和第二特征值,其中第一特征值大于或等于第二特征值。在本实施例中,根据特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中第一特征值大于或等于第二特征值,判断第二特征值是否大于或等于预设特征值,若第二特征值大于或等于预设特征值时,则特征集满足预设拆分条件,若第二特征值小于预设特征值时,则特征集满足预设拆分条件,则可将特征集作为聚类结果输出。
可以理解地是,预设特征值是一个经验值,可通过历史数据进行训练而预测得到,可选地,预设特征值的数值是1。
在本实施例中,控制节点根据特征集的协方差矩阵,能够快速地计算出特征集的PCA信息,且基于特征集的协方差矩阵可以方便查询、调用子聚类中的各个特征,从而使得计算过程更加便捷,避免对数据的搬运,从而提高对数据的处理效率。
进一步地,上述第一实施例的步骤S30中,所述若满足,则对所述特征集进行拆分处理以获得子聚类的步骤,包括:
步骤S31,若特征集满足预设拆分条件时,则根据特征集的协方差矩阵选取出数值最大的第一特征值和第二特征值,并根据第一特征值和第二特征值将特征集预拆分为第一子聚类和第二子聚类;
步骤S32,获取与第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据第三特征值和所述第四特征值,将第一子聚类和第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类;
步骤S33,判断所述第三子聚类与所述第一子聚类是否相同,以及所述第四子聚类与所述第二子聚类是否相同;
步骤S34,若不相同,则将所述第一子聚类更新为所述第三子聚类,所述第二子聚类更新为所述第四子聚类,并重新执行调整的步骤;
步骤S35,若相同,则将所述特征集拆分为所述第一子聚类和所述第二子聚类。
在本实施例中,根据与特征集的协方差矩阵,计算出特征集的PCA信息,并选取PCA信息中的两个最大数值作为第一特征值和第二特征值,并基于第一特征值和第二特征值将特征集对应预拆分为第一子聚类和第二子聚类。
获取与第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据第三特征值和第四特征值,将第一子聚类和第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类。由于特征集预拆分为第一子聚类和第二子聚类,所以特征集的协方差矩阵是与第一子聚类的协方差矩阵有着关联关系的,即特征集的协方差矩阵中的部分行列是第一子聚类的协方差矩阵。同理地,特征集的协方差矩阵中的部分行列是第一子聚类的协方差矩阵。例如,特征集的矩阵表中的第一列被独立拆分为第一子聚类,则特征集的协方差矩阵的第一列对应着第一子聚类的协方差矩阵。因此,通过特征集的协方差矩阵可以容易获得子聚类(第一子聚类、第二子聚类)的协方差矩阵。
在本实施例中,由特征集预拆分为第一子聚类和第二子聚类,其中第一子聚类的协方差矩阵和第二子聚类的协方差矩阵可通过特征集的协方差矩阵容易获得,从而减少了数据的运算,不仅节省了运算的硬件资源,同时也大大提高特征聚类处理的速度。
根据第一子聚类的协方差矩阵计算出第一子聚类的PCA信息,并选择最大数值作为第三特征值。同理地,根据第二子聚类的协方差矩阵计算出第二子聚类的PCA信息,并选择最大数值作为第四特征值。根据第三特征值和第四特征值将特征集拆分为第三子聚类和第四子聚类。若第一子聚类和第三子聚类相同,第二子聚类和第四子聚类相同,则将特征集拆分为第一子聚类和第二子聚类,否则,将第一子聚类更新为第三子聚类,第二子聚类更新为第四子聚类,并重新执行步骤B。如此,直至调整后的聚类与调整前的聚类相等。
例如,对特征集包括有a、b、c、d、e、f特征,对特征集进行第一次拆分,得到拆分后的第一子聚类和第二子聚类,其中第一子聚类包括有a、b、c特征,第二子聚类包括有d、e、f特征,则对第一子聚类和第二子聚类进行第一次调整,得到调整后的第三子聚类和第四子聚类,其中第三子聚类包括有a、b、c、d特征,第四子聚类包括有e、f特征,得到第一次调整后的第一子聚类和第三子聚类不相同,且第二子聚类和第四子聚类亦不相同,需要再重新对第三子聚类和第四子聚类进行调整,再重新执行调整的步骤,直至调整后的聚类与调整前的聚类相等,并继续判断调整后的聚类是否满足预设拆分条件,若满足预设拆分条件时,则将调整后的聚类继续进行拆分,再进行调整,直至调整后的聚类与调整前的聚类相等。
例如,特征集包括有a、b、c、d、e、f特征,对特征集进行第一次拆分,得到拆分后的第一子聚类和第二子聚类,其中第一子聚类包括有a、b、c特征,第二子聚类包括有d、e、f特征,则对第一子聚类和第二子聚类进行第一次调整,得到调整后的第三子聚类和第四子聚类,其中第三子聚类包括有a、b、c特征,第四子聚类包括有d、e、f特征,得到第一次调整后的第一子聚类和第三子聚类相同,且第二子聚类和第四子聚类亦相同,则将特征集拆分为第一子聚类和第二子聚类。
可选地,在步骤S31中,所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤,包括:
步骤S311,根据特征集的协方差矩阵,计算与第一特征值相对应的第一特征向量,且计算与第二特征值相对应的第二特征向量;
步骤S312,根据特征集分别计算与第一特征向量相对应的第一投影特征,以及与第二特征向量相对应的第二投影特征;
步骤S313,计算特征集的每一特征分别与第一投影特征和第二投影特征的相关系数;
步骤S314,根据相关系数的大小,将特征集预拆分为第一子聚类和第二子聚类。
在本实施例中,通过矩阵的运算规则,根据特征集的协方差矩阵计算出与第一特征向量相对应的第一投影特征,以及与第二特征向量相对应的第二投影特征。
计算特征集的每一特征分别与第一投影特征和第二投影特征的相关系数,并根据相关系数的大小,将特征集预拆分为第一子聚类和第二子聚类。可选地,将相关系数大的特征划分至第一子聚类,将相关系数小的特征划分至第二子聚类。
例如,特征集的a特征与第一投影特征的相关系数是0.8,特征集的a特征与第二投影特征的相关系数是0.5,则将特征集的a特征划分至第一子聚类。而特征集的b特征与第一投影特征的相关系数是0.3,特征集的b特征与第二投影特征的相关系数是0.6,则将特征集的b特征划分至第二子聚类。
进一步地,步骤S32,获取与所述第一子聚类的协方差矩阵相对应的最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类的步骤,包括:
步骤S321,根据第一子聚类的协方差矩阵,计算与第三特征值相对应的第三特征向量;根据第二子聚类的协方差矩阵,计算与第四特征值相对应的第四特征向量;
步骤S322,根据第一子聚类计算与第三特征向量相对应的第三投影特征;
步骤S323,根据第二子聚类计算与第四特征向量相对应的第四投影特征;
步骤S324,计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数;
步骤S325,根据相关系数的大小,将第一子聚类和第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类。
在本实施例中,通过矩阵的运算规则,根据第一子聚类的协方差矩阵计算出与第三特征向量相对应的第三投影特征。根据第二子聚类的协方差矩阵计算出与第四特征向量相对应的第四投影特征。
计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数,并根据相关系数的大小,将特征集拆分为第三子聚类和第四子聚类。判断第三子聚类和第一子聚类是否相同,第四子聚类和第二子聚类是否相同,若第三子聚类和第一子聚类相同,第四子聚类和第二子聚类相同,则将特征集拆分为第一子聚类和第二子聚类;否则,将第一子聚类更新为第三子聚类,第二子聚类更新为第四子聚类。
进一步地,在上述第一实施例步骤S40中,所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵的步骤,包括:
步骤41,根据子聚类所包含的特征在特征集的矩阵形式中的行列位置,提取出与行列位置相对应的特征集的协方差矩阵的行向量或列向量,确定子聚类的协方差矩阵。
在确定特征集满足拆分条件之后,则对特征集进行拆分处理以获得子聚类,根据子聚类所包含的特征在特征集的矩阵形式中的行列位置,提取出与行列位置相对应的特征集的协方差矩阵的行向量或列向量,确定子聚类的协方差矩阵。例如,子聚类的特征是位于特征集的第一列和第三列,则子聚类的协方差矩阵也对应着特征集的协方差矩阵的第一列和第三列,确定出子聚类的协方差矩阵。
为辅助理解本发明实施例的技术方案,可参照图3,图3是本发明一种特征聚类处理方法的整体算法示意图。
在本实施例中,通过获取特征集,并根据所述特征集构建矩阵表;根据所述矩阵表将所述特征集拆分为多个数据块,并将所述多个数据块分别一一分配至多个计算节点;将所述特征集作为特征集,根据分别位于多个计算节点的多个数据块计算特征集的协方差矩阵,根据特征集的协方差矩阵判断特征集是否满足预设拆分条件;若特征集满足所述预设拆分条件时,则将所述特征集进行拆分,根据特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中第一特征值和第二特征值,其中第一特征值大于或等于第二特征值,判断第二特征值是否大于或等于第二特征值,若第二特征值大于或等于预设特征值时,则特征集满足预设拆分条件,根据特征集的协方差矩阵,计算与第一特征值相对应的第一特征向量,且计算与第二特征值相对应的第二特征向量,根据特征集分别计算与第一特征向量相对应的第一投影特征,以及与第二特征向量相对应的第二投影特征,计算特征集的每一特征分别与第一投影特征和第二投影特征相关系数,根据相关系数的大小,将特征集预拆分为第一子聚类和第二子聚类,根据第一子聚类计算与第三特征向量相对应的第三投影特征,根据第二子聚类计算与第四特征向量相对应的第四投影特征,计算特征集的每一特征分别与第三投影特征和第四投影特征的相关系数,根据相关系数的大小,将第一子聚类和第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类,判断第三子聚类与第一子聚类是否相同,以及第四子聚类与第二子聚类是否相同,若第三子聚类与第一子聚类不相同,且第四子聚类与第一子聚类不相同,则再进行上述调整步骤,若第三子聚类与第一子聚类相同,且第四子聚类与第二子聚类相同,则将特征集拆分为第一子聚类和第二子聚类,将拆分得到的第一子聚类和第二子聚类判断是否满足预设拆分条件,若第一子聚类和第二子聚类满足预设拆分条件,则根据拆分得到的子聚类所包含的特征和特征集的协方差矩阵,确定子聚类的协方差矩阵,若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件,则对所述子聚类进行拆分处理,若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件,则将所述子聚类作为聚类结果输出。因此,在将特征集进行拆分的过程中,不需要重新遍历存储在各个计算节点的数据块计算协方差矩阵,避免了大量数据计算和各个节点与控制节点之间的通信开销,大幅度地提升了计算效率。
此外,本发明实施例还提出一种可读存储介质(即计算机可读存储器),所述可读存储介质上存储有特征聚类处理程序,所述特征聚类处理程序被处理器执行时实现如下操作:
按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵;
根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件;
若满足,则对所述特征集进行拆分处理以获得子聚类;
根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵;
若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件,则对所述子聚类进行拆分处理。
进一步地,获取所述特征集,并将所述特征集按矩阵的形式进行存储;
将所述特征集按预设矩阵规则拆分为所述多个数据块,并将所述多个数据块分别一一分配至多个计算节点;
根据分别位于所述多个计算节点的所述多个数据块计算所述特征集的协方差矩阵。
进一步地,根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置,提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量,确定所述子聚类的协方差矩阵。
进一步地,根据所述特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中所述第一特征值大于或等于所述第二特征值;
判断所述第二特征值是否大于或等于预设特征值;
若所述第二特征值大于或等于所述预设特征值时,则所述特征集满足所述预设拆分条件;
若所述第二特征值小于所述预设特征值时,则所述特征集不满足所述预设拆分条件。
进一步地,若所述特征集满足所述预设拆分条件时,则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值,并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类;
获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类;
判断所述第三子聚类与所述第一子聚类是否相同,以及所述第四子聚类与所述第二子聚类是否相同;
若不相同,则将所述第一子聚类更新为所述第三子聚类,所述第二子聚类更新为所述第四子聚类,并重新执行调整的步骤;
若相同,则将所述特征集拆分为所述第一子聚类和所述第二子聚类。
进一步地,根据所述特征集的协方差矩阵,计算与所述第一特征值相对应的第一特征向量,且计算与所述第二特征值相对应的第二特征向量;
根据所述特征集分别计算与所述第一特征向量相对应的第一投影特征,以及与所述第二特征向量相对应的第二投影特征;
计算所述特征集的每一特征分别与所述第一投影特征和所述第二投影特征的相关系数;
根据所述相关系数的大小,并将所述特征集预拆分为所述第一子聚类和所述第二子聚类。
进一步地,根据所述第一子聚类的协方差矩阵,计算与所述第三特征值相对应的第三特征向量;根据所述第二子聚类的协方差矩阵,计算与所述第四特征值相对应的第四特征向量;
根据所述第一子聚类计算与所述第三特征向量相对应的第三投影特征;
根据所述第二子聚类计算与所述第四特征向量相对应的第四投影特征;
计算所述特征集的每一特征分别与所述第三投影特征和所述第四投影特征的相关系数;
根据所述相关系数的大小,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的所述第三子聚类和所述第四子聚类。
进一步地,若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件,则将所述子聚类作为聚类结果输出。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台单个服务器设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种特征聚类处理方法,其特征在于,所述方法包括:
按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵;
根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件;
若满足,则对所述特征集进行拆分处理以获得子聚类;
根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵;
若根据所述子聚类的协方差矩阵确定所述子聚类满足预设拆分条件,则对所述子聚类进行拆分处理。
2.如权利要求1所述的特征聚类处理方法,其特征在于,所述按照预设矩阵规则将待聚类处理的特征集拆分为多个数据块,并基于所述多个数据块,确定所述特征集的协方差矩阵的步骤,包括:
获取所述特征集,并将所述特征集按矩阵的形式进行存储;
将所述特征集按预设矩阵规则拆分为所述多个数据块,并将所述多个数据块分别一一分配至多个计算节点;
根据分别位于所述多个计算节点的所述多个数据块计算所述特征集的协方差矩阵。
3.如权利要求1所述的特征聚类处理方法,其特征在于,所述根据拆分得到的所述子聚类所包含的特征和所述特征集的协方差矩阵,确定所述子聚类的协方差矩阵的步骤,包括:
根据所述子聚类所包含的特征在所述特征集的矩阵形式中的行列位置,提取出与所述行列位置相对应的所述特征集的协方差矩阵的行向量或列向量,确定所述子聚类的协方差矩阵。
4.如权利要求1所述的特征聚类处理方法,其特征在于,所述根据所述特征集的协方差矩阵判断所述特征集是否满足预设拆分条件的步骤,包括:
根据所述特征集的协方差矩阵,选取数值最大的第一特征值和第二特征值,其中所述第一特征值大于或等于所述第二特征值;
判断所述第二特征值是否大于或等于预设特征值;
若所述第二特征值大于或等于所述预设特征值时,则所述特征集满足所述预设拆分条件;
若所述第二特征值小于所述预设特征值时,则所述特征集不满足所述预设拆分条件。
5.如权利要求1所述的特征聚类处理方法,其特征在于,所述若满足,则对所述特征集进行拆分处理以获得子聚类的步骤,包括:
若所述特征集满足所述预设拆分条件时,则根据所述特征集的协方差矩阵选取出数值最大的所述第一特征值和所述第二特征值,并根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类;
获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类;
判断所述第三子聚类与所述第一子聚类是否相同,以及所述第四子聚类与所述第二子聚类是否相同;
若不相同,则将所述第一子聚类更新为所述第三子聚类,所述第二子聚类更新为所述第四子聚类,并重新执行调整的步骤;
若相同,则将所述特征集拆分为所述第一子聚类和所述第二子聚类。
6.如权利要求5所述的特征聚类处理方法,其特征在于,所述根据所述第一特征值和所述第二特征值将所述特征集预拆分为所述第一子聚类和所述第二子聚类的步骤,包括:
根据所述特征集的协方差矩阵,计算与所述第一特征值相对应的第一特征向量,且计算与所述第二特征值相对应的第二特征向量;
根据所述特征集分别计算与所述第一特征向量相对应的第一投影特征,以及与所述第二特征向量相对应的第二投影特征;
计算所述特征集的每一特征分别与所述第一投影特征和所述第二投影特征的相关系数;
根据所述相关系数的大小,并将所述特征集预拆分为所述第一子聚类和所述第二子聚类。
7.如权利要求5所述的特征聚类处理方法,其特征在于,所述获取与所述第一子聚类的协方差矩阵相对应的数值最大的第三特征值,获取与所述第二子聚类的协方差矩阵相对应的数值最大的第四特征值;根据所述第三特征值和所述第四特征值,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的第三子聚类和第四子聚类的步骤,包括:
根据所述第一子聚类的协方差矩阵,计算与所述第三特征值相对应的第三特征向量;根据所述第二子聚类的协方差矩阵,计算与所述第四特征值相对应的第四特征向量;
根据所述第一子聚类计算与所述第三特征向量相对应的第三投影特征;
根据所述第二子聚类计算与所述第四特征向量相对应的第四投影特征;
计算所述特征集的每一特征分别与所述第三投影特征和所述第四投影特征的相关系数;
根据所述相关系数的大小,将所述第一子聚类和所述第二子聚类进行调整,得到调整后的所述第三子聚类和所述第四子聚类。
8.如权利要求1所述的特征聚类处理方法,其特征在于,所述方法还包括:
若根据所述子聚类的协方差矩阵确定所述子聚类不满足预设拆分条件,则将所述子聚类作为聚类结果输出。
9.一种集群服务器,其特征在于,所述集群服务器包括一个或多个服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述特征聚类处理程序被所述处理器执行时实现如权利要求1至8中任一项所述的特征聚类处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的特征聚类处理方法的步骤。
CN201911124455.3A 2019-11-14 2019-11-14 特征聚类处理方法、集群服务器及可读存储介质 Active CN110874615B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911124455.3A CN110874615B (zh) 2019-11-14 2019-11-14 特征聚类处理方法、集群服务器及可读存储介质
PCT/CN2020/128721 WO2021093857A1 (zh) 2019-11-14 2020-11-13 特征聚类处理方法、集群服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911124455.3A CN110874615B (zh) 2019-11-14 2019-11-14 特征聚类处理方法、集群服务器及可读存储介质

Publications (2)

Publication Number Publication Date
CN110874615A true CN110874615A (zh) 2020-03-10
CN110874615B CN110874615B (zh) 2023-09-26

Family

ID=69717090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911124455.3A Active CN110874615B (zh) 2019-11-14 2019-11-14 特征聚类处理方法、集群服务器及可读存储介质

Country Status (2)

Country Link
CN (1) CN110874615B (zh)
WO (1) WO2021093857A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093857A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120237042A1 (en) * 2009-09-19 2012-09-20 Kabushiki Kaisha Toshiba Signal clustering apparatus
CN104036519A (zh) * 2014-07-03 2014-09-10 中国计量学院 基于图像块聚类和稀疏字典学习的分块压缩感知重构方法
US20150120623A1 (en) * 2012-05-29 2015-04-30 Battelle Memorial Institute Method of Analyzing a Graph With a Covariance-Based Clustering Algorithm Using a Modified Laplacian Pseudo-Inverse Matrix
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN110288025A (zh) * 2019-06-25 2019-09-27 广东工业大学 基于信息几何与谱聚类的频谱感知方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974476B2 (en) * 2007-05-30 2011-07-05 Microsoft Corporation Flexible MQDF classifier model compression
CN105303199A (zh) * 2015-12-08 2016-02-03 南京信息工程大学 一种基于内容特征和K-means的数据碎片类型识别方法
CN106769010A (zh) * 2016-12-13 2017-05-31 南昌航空大学 一种欠定盲分离中的机械振源数估计方法
CN110874615B (zh) * 2019-11-14 2023-09-26 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120237042A1 (en) * 2009-09-19 2012-09-20 Kabushiki Kaisha Toshiba Signal clustering apparatus
US20150120623A1 (en) * 2012-05-29 2015-04-30 Battelle Memorial Institute Method of Analyzing a Graph With a Covariance-Based Clustering Algorithm Using a Modified Laplacian Pseudo-Inverse Matrix
CN104036519A (zh) * 2014-07-03 2014-09-10 中国计量学院 基于图像块聚类和稀疏字典学习的分块压缩感知重构方法
CN106909942A (zh) * 2017-02-28 2017-06-30 北京邮电大学 一种面向高维度大数据的子空间聚类方法及装置
CN110288025A (zh) * 2019-06-25 2019-09-27 广东工业大学 基于信息几何与谱聚类的频谱感知方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓貌 等: "采用核聚类分析的KPCA改进算法", 智能系统学报, no. 03, pages 37 - 42 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021093857A1 (zh) * 2019-11-14 2021-05-20 深圳前海微众银行股份有限公司 特征聚类处理方法、集群服务器及可读存储介质

Also Published As

Publication number Publication date
CN110874615B (zh) 2023-09-26
WO2021093857A1 (zh) 2021-05-20

Similar Documents

Publication Publication Date Title
CN108012156B (zh) 一种视频处理方法及控制平台
CN107292352B (zh) 基于卷积神经网络的图像分类方法和装置
CN107122490B (zh) 一种分组查询中聚合函数的数据处理方法及系统
US10579334B2 (en) Block floating point computations using shared exponents
WO2022028323A1 (zh) 分类模型的训练方法、超参数的搜索方法以及装置
CN108320019B (zh) 用于深度卷积神经网络的卷积计算方法及装置
CN114091688B (zh) 一种计算资源获取方法、装置、电子设备和存储介质
KR20200125031A (ko) 데이터 차원 축소 방법 및 장치
CN110874615B (zh) 特征聚类处理方法、集群服务器及可读存储介质
CN110851987A (zh) 基于加速比预测计算时长的方法、装置和存储介质
US11361003B2 (en) Data clustering and visualization with determined group number
CN111598093B (zh) 图片中文字的结构化信息生成方法、装置、设备及介质
CN113268328A (zh) 批处理方法、装置、计算机设备和存储介质
CN112817560A (zh) 一种基于表函数的计算任务处理方法、系统及计算机可读存储介质
CN114338416A (zh) 一种时空多指标预测方法、装置和存储介质
KR20210143464A (ko) 데이터 분석 장치 및 그것의 데이터 분석 방법
CN111260056A (zh) 一种网络模型蒸馏方法及装置
KR20200010644A (ko) 컴퓨터 수행 가능한 클라우드 기반의 인공지능 연산 서비스 방법
CN114168862A (zh) 基于协同过滤的产品推荐方法、装置、设备及存储介质
CN114821173A (zh) 图像分类方法、装置、设备及存储介质
WO2016178312A1 (ja) 情報処理装置、情報処理方法および記憶媒体
CN110399979B (zh) 一种基于现场可编程门阵列的点击率预估的系统及方法
CN113159297A (zh) 一种神经网络压缩方法、装置、计算机设备及存储介质
CN113962391B (zh) 神经网络架构搜索方法、装置、设备及存储介质
JP7131414B2 (ja) 評価装置、評価方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant