CN109919172A - 一种多源异构数据的聚类方法及装置 - Google Patents
一种多源异构数据的聚类方法及装置 Download PDFInfo
- Publication number
- CN109919172A CN109919172A CN201811593400.2A CN201811593400A CN109919172A CN 109919172 A CN109919172 A CN 109919172A CN 201811593400 A CN201811593400 A CN 201811593400A CN 109919172 A CN109919172 A CN 109919172A
- Authority
- CN
- China
- Prior art keywords
- tensor
- ranking
- vector
- feature
- tensors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明实施例提供的一种多源异构数据的聚类方法,该方法包括:针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,特征空间为一个以上;根据所述对象张量,获得对应的特征转移张量;采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;采用预设的高阶奇异值分解算法对对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;根据特征空间组合向量、核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;根据不同特征空间下的对象相似度矩阵进行聚类,获得多聚类结果。该方法解决了现有技术中聚类结果难以解释的问题。
Description
技术领域
本发明涉及数据处理及物联网技术领域,具体而言,涉及一种多源异构数据的聚类方法及装置。
背景技术
随着云计算、物联网、社交网络和社会新媒体等高新信息技术的飞速发展,现实世界大量的感知设备、智能产品、网络通信,以及人类知识、思维能力、社会关系和文化元素,从多个维度产生了大规模的多源异构数据,这些数据具有特征混杂、模态多样、类型复杂等特点,并在不同的视图下蕴含着不同的知识和价值。在许多实际应用中,数据被收集用于多个分析任务,可根据不同需求对数据聚类从而产生不同的分组。
多聚类作为数据挖掘的一个新兴研究领域,近年来受到各领域学者和业界的极大关注。相对于只关注发现对象单一分组的传统单聚类,多聚类可以从数据的不同观点产生多个不同的聚类结果,多方面揭示隐藏在数据中的不同结构,同时满足当今大数据多分析任务的需求。通过多聚类技术开发可以促使人们更加全面挖掘现实世界对象的复杂关系,为开展高效准确的多分析任务提供技术方法。多聚类是解决网络舆情分析、重大疾病分析、资源推荐和金融风险预测等众多应用问题的关键技术,在我囯社会、工业和经济领域有着迫切的需求,具有广阔的应用前景。
现有的一些聚类方法可达到多聚类效果,但聚类结果难以解释,无法根据灵活的变化聚类对象,难以为不同的应用提供按需服务。
发明内容
有鉴于此,本发明实施例的目的在于提供一种多源异构数据的聚类方法及装置,解决了现有技术中聚类结果难以解释的问题,还可根据上下文情境变化灵活的聚类对象,达到了为不同的应用提供按需服务的效果。
第一方面,本申请通过一实施例提供如下技术方案:
一种多源异构数据的聚类方法,用于对多源异构数据进行聚类,所述方法包括:
针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;
根据所述对象张量,获得对应的特征转移张量;
采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;
采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;
根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;
根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
优选地,所述根据所述对象张量,获得对应的特征转移张量的步骤,包括:
将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量;
对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
优选地,所述采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量的步骤,包括:
根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量;
将所述属性排名向量做外积,获得对应的属性组合排名张量。
优选地,所述获得属性排名向量的步骤,包括:
将所述特征转移张量与所述随机向量交互做模积,获得对应的目标向量及所述目标向量对应的误差,其中,每个所述特征转移张量对应一所述随机向量;
若当前所述目标向量与相邻的两个所述目标向量的误差之和小于阈值参数,则将当前所述目标向量作为所述特征转移张量对应的属性排名向量。
优选地,根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵的步骤,包括:
根据所述特征空间组合向量、所述核心张量与所述因子矩阵做模积,获得近似属性组合排名张量;
根据所述近似属性组合排名张量与近似对象张量进行公式构建,获得排名张量距离公式;
采用所述排名张量距离公式计算对象张量间的相似度,获得所述对象相似度矩阵。
优选地,所述距离公式为:
drtd为排名张量距离,fn为第n个特征空间的属性维度,mst为排名张量距离中度量矩阵的元素,rs为排名张量中第s个位置的元素,ob[x]s为对象张量x在第s个位置的元素,ob[y]s为对象张量y在第s个位置的元素,rt为排名张量中第t个位置的元素,ob[x]t为对象张量x在第t个位置的元素,ob[y]t为对象张量y在第t个位置的元素。
优选地,所述根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果的步骤包括:
将所述对象相似度矩阵作为仿射传播聚类算法的输入,获得多聚类结果。
第二方面,基于同一发明构思,本申请通过一实施例提供如下技术方案:
一种多源异构数据的聚类装置,其特征在于,包括:
针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;
特征转移张量获取模块,用于根据所述对象张量,获得对应的特征转移张量;
排名模块,用于采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;
分解模块,用于采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;
对象相似度矩阵获取模块,用于根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;
聚类模块,用于根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
优选地,所述特征转移张量获取模块,还用于:
将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量;
对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
优选地,所述排名模块,还用于:
根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量;
将所述属性排名向量做外积,获得对应的属性组合排名张量。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供的一种多源异构数据的聚类方法及装置,其中,通过:针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上,其中,特征空间组合向量根据不同需求进行不同的构建,以满足不同的业务需求。利用对象张量结构对多源异构数据对象进行表示,便于在高维空间对对象进行统一度量,对象张量的多线性空间特性能有效融合多视图信息,能提供比单视图聚类更好的聚类性能。根据所述对象张量,获得对应的特征转移张量;采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量,能够快速得到不同特征空间的属性组合排名张量。采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵,该对象相似度矩阵有利于高效精准的进行多聚类分析。最后,根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。综上,本发明通过多关系属性组合排名算法结合高阶奇异值分解算法,并经过上述步骤进行多源异构数据的聚类,可达到多聚类效果,聚类结果更加精确、更加符合需求,可根据上下文情境灵活的变化聚类对象,并为不同的应用提供按需服务。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明第一实施例提供的一种多源异构数据的聚类方法的流程图;
图2为图1中步骤S20的具体流程图;
图3为图1中步骤S30的具体流程图;
图4为图1中步骤S50的具体流程图;
图5为是本发明第二实施例提供的一种多源异构数据的聚类装置的功能模块示意图;
图6为本发明第三实施例提供的一种多源异构数据的聚类装置的结构框图;
图7为本发明第四实施例提供的一种计算机可读存储介质结构框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
第一实施例
请参照图1,在本实施例中提供一种多源异构数据的聚类方法,该方法可用于对多源异构数据进行聚类,包括但不限于网络舆情分析、重大疾病分析、资源推荐和金融风险预测等。具体的,该方法包括以下步骤:
步骤S10:针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上。
步骤S20:根据所述对象张量,获得对应的特征转移张量。
步骤S30:采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量。
步骤S40:采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵。
步骤S50:根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵。
步骤S60:根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
步骤S10:针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上。
在步骤S10中,以具体一实例进行说明,有N个特征空间f1、f2、f3···fn。融合N个特征空间的多源异构数据,构建对象张量有根据不用应用需求构建特征空间组合向量c1,c2,...,cb∈{0,1}N,在步骤S20-步骤S60中同样以此例为基础进行说明。
针对多源异构数据特征混杂、高维、多模态的特点,采用张量多线性空间特性有效融合多视图信息,能提供比单视图聚类更好的聚类性能,并利用张量结构对多源异构数据对象进行表示,便于在高维空间对对象进行统一度量。
步骤S20:根据所述对象张量,获得对应的特征转移张量。
请参照图2,在步骤S20中,具体可包括以下详细步骤:
步骤S21:将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量。
基于步骤S10中,可获得关联张量
步骤S22:对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
基于步骤S10中,可获得特征转移张量
步骤S30:采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量。
请参照图3,在步骤S30中,获取对应的属性组合排名张量可通过以下具体方式进行获取:
步骤S31:根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量。即根据特征转移张量交互迭代计算其在多关系关联条件下的平稳分布,得到各个特征空间属性排名向量。
具体的,将所述特征转移张量与所述随机向量交互做模积,获得对应的目标向量及所述目标向量对应的误差,其中,每个所述特征转移张量对应一所述随机向量。
若当前所述目标向量与相邻的两个所述目标向量的误差之和小于阈值参数,则将当前所述目标向量作为所述特征转移张量对应的属性排名向量。
步骤S32:将所述属性排名向量做外积,获得对应的属性组合排名张量。
基于步骤S20中的实例,本步骤S30的具体实现方式可如下:
输入数据为:特征转移张量
输出数据为:特征空间属性组合排名张量
实现原理及过程如下:
设置阈值参数σ;
For j=1:N;
设置初始向量(rj)0满足和为1;
设置随机向量gj满足和为1;
初始化概率参数λj;
End for;
Repeat;
将N个特征转移张量分别和向量交互做模积;直到所有相邻两个排名向量误差总和小于阈值参数σ;
将N个特征空间的属性排名向量做外积得到属性组合排名张量Tr并返回。
其中,多关系属性组合排名算法的具体实施可根据上述原理进行编程实现;多关系属性组合排名算法的其他实施细节相关领域技术人员可直接实施,不在赘述。
基于不同空间的属性得分存在相互增强的关系的思想,扩展中心-权威-关系算法,设计多关系属性组合排名算法,通过交互迭代计算不同空间属性得分,可快速得到各个特征空间的属性向量的排名。
步骤S40:采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵。
在步骤S40中,基于步骤S30中的实例获得的核心张量为Tcore及对应因子矩阵为M1,M2,...,MN。
步骤S50:根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵。
请参照图4,在步骤S50中,对象相似度矩阵的获取可如下具体步骤实现:
步骤S51:根据所述特征空间组合向量、所述核心张量与所述因子矩阵做模积,获得近似属性组合排名张量。
在步骤S51中,具体为根据特征空间组合向量选择需要的因子矩阵,与核心张量做模积构造近似对象张量Ob1',Ob2',…,Obn'及相应的近似属性组合排名张量Tr’。
步骤S52:根据所述近似属性组合排名张量与近似对象张量进行公式构建,获得排名张量距离公式。即,将近似属性组合排名张量引入高维空间张量距离构建排名张量距离公式。具体的,距离公式可为:
其中,drtd为排名张量距离,fn为第n个特征空间的属性维度,mst为排名张量距离中度量矩阵的元素,rs为排名张量中第s个位置的元素,ob[x]s为对象张量x在第s个位置的元素,ob[y]s为对象张量y在第s个位置的元素,rt为排名张量中第t个位置的元素,ob[x]t为对象张量x在第t个位置的元素,ob[y]t为对象张量y在第t个位置的元素。
在高阶张量空间中采用张量距离度量对象张量的相似度,突破欧式距离正交假定的限制。因张量距离引入了不同坐标的复杂关系对张量元素距离的影响,可以更加有效地度量高阶空间中多源异构数据的距离。并在张量距离中引入属性组合排名系数r,可以增强重要属性对聚类质量的贡献,同时减弱噪音属性的影响,聚类质量优于不加排名系数的情况。
步骤S53:采用所述排名张量距离公式计算对象张量间的相似度,获得所述对象相似度矩阵。
步骤S50可通过编程的方式实施,实施原理如下:
For i=1:b;
根据第i个特征空间组合向量选择相应的因子矩阵与对应核心张量构造近似对象张量;
Ob1',Ob2',…,Obn'和排名张量Tr’;
For j=1:N
For k=j+1:N
计算在第i个特征空间组合下的对象Obj,Obk的排名张量距离;
End for;
End for;
End for。
通过对原始对象张量及属性组合排名张量进行高阶奇异值分解,去除噪声和冗余数据,提取高质量核心特征,并根据不同的应用灵活的选择相应因子矩阵与核心张量构造近似对象张量,该近似对象张量仅包含所需特征空间的主要成分,有利于高效精准的进行多聚类分析。
步骤S60:根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。即将不同特征空间组合下的相似度矩阵作为输入,调用仿射传播聚类算法,并行计算在不同应用或需求下的聚类结果,即多聚类结果cl1,cl2,...,clb。其中,仿射传播聚类算法为已知技术,可直接使用。
综上,本发明提供的一种多源异构数据的聚类方法及装置,其中,通过:针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上,其中,特征空间组合向量根据不同需求进行不同的构建,以满足不同的业务需求。利用对象张量结构对多源异构数据对象进行表示,便于在高维空间对对象进行统一度量,对象张量的多线性空间特性能有效融合多视图信息,能提供比单视图聚类更好的聚类性能。根据所述对象张量,获得对应的特征转移张量;采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量,能够快速得到不同特征空间的属性组合排名张量。采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵,该对象相似度矩阵有利于高效精准的进行多聚类分析。最后,根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。因此,本发明通过多关系属性组合排名算法结合高阶奇异值分解算法,并经过上述步骤进行多源异构数据的聚类,可达到多聚类效果,聚类结果更加精确、更加符合需求,可根据上下文情境灵活的变化聚类对象,并为不同的应用提供按需服务。
第二实施例
请参照图5,基于同一发明构思,在本实施例中还提供一种多源异构数据的聚类装置300,所述装置300包括:
对象张量获取模块301,用于针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;
特征转移张量获取模块302,用于根据所述对象张量,获得对应的特征转移张量;
排名模块303,用于采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;
分解模块304,用于采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;
对象相似度矩阵获取模块305,用于根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;
聚类模块306,用于根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
作为一种可选的实施方式,所述特征转移张量获取模块302,还用于:
将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量;对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
作为一种可选的实施方式,所述排名模块303,还用于:
根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量;将所述属性排名向量做外积,获得对应的属性组合排名张量。
作为一种可选的实施方式,所述排名模块303,还用于:
将所述特征转移张量与所述随机向量交互做模积,获得对应的目标向量及所述目标向量对应的误差,其中,每个所述特征转移张量对应一所述随机向量;若当前所述目标向量与相邻的两个所述目标向量的误差之和小于阈值参数,则将当前所述目标向量作为所述特征转移张量对应的属性排名向量。
作为一种可选的实施方式,所述对象相似度矩阵获取模块305,还用于:
根据所述特征空间组合向量、所述核心张量与所述因子矩阵做模积,获得近似属性组合排名张量;根据所述近似属性组合排名张量与近似对象张量进行公式构建,获得排名张量距离公式;采用所述排名张量距离公式计算对象张量间的相似度,获得所述对象相似度矩阵。
作为一种可选的实施方式,所述距离公式为:
其中drtd为排名张量距离,fn为第n个特征空间的属性维度,mst为排名张量距离中度量矩阵的元素,rs为排名张量中第s个位置的元素,ob[x]s为对象张量x在第s个位置的元素,ob[y]s为对象张量y在第s个位置的元素,rt为排名张量中第t个位置的元素,ob[x]t为对象张量x在第t个位置的元素,ob[y]t为对象张量y在第t个位置的元素。
作为一种可选的实施方式,聚类模块306,具体用于:将所述对象相似度矩阵作为仿射传播聚类算法的输入,获得多聚类结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
第三实施例
基于同一发明构思,如图6所示,本实施例提供了一种多源异构数据的聚类装置400,包括存储器410、处理器420及存储在存储器410上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:
针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;根据所述对象张量,获得对应的特征转移张量;采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
在具体实施过程中,处理器420执行计算机程序411时,可以实现实第一实施例(或第二实施例)中的任一实施方式,在此不再赘述。
第四实施例
基于同一发明构思,如图7所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,计算机程序511被处理器执行时实现以下步骤:
在具体实施过程中,计算机程序511被处理器执行时,可以实现第一实施例(或第二实施例)中的任一实施方式,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
本发明中的所述方法功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种多源异构数据的聚类方法,其特征在于,用于对多源异构数据进行聚类,所述方法包括:
针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;
根据所述对象张量,获得对应的特征转移张量;
采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;
采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;
根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;
根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述对象张量,获得对应的特征转移张量的步骤,包括:
将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量;
对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
3.根据权利要求1所述的方法,其特征在于,所述采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量的步骤,包括:
根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量;
将所述属性排名向量做外积,获得对应的属性组合排名张量。
4.根据权利要求3所述的方法,其特征在于,所述获得属性排名向量的步骤,包括:
将所述特征转移张量与所述随机向量交互做模积,获得对应的目标向量及所述目标向量对应的误差,其中,每个所述特征转移张量对应一所述随机向量;
若当前所述目标向量与相邻的两个所述目标向量的误差之和小于阈值参数,则将当前所述目标向量作为所述特征转移张量对应的属性排名向量。
5.根据权利要求1所述的方法,其特征在于,根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵的步骤,包括:
根据所述特征空间组合向量、所述核心张量与所述因子矩阵做模积,获得近似属性组合排名张量;
根据所述近似属性组合排名张量与近似对象张量进行公式构建,获得排名张量距离公式;
采用所述排名张量距离公式计算对象张量间的相似度,获得所述对象相似度矩阵。
6.根据权利要求5所述的方法,其特征在于,所述距离公式为:
其中drtd为排名张量距离,fn为第n个特征空间的属性维度,mst为排名张量距离中度量矩阵的元素,rs为排名张量中第s个位置的元素,ob[x]s为对象张量x在第s个位置的元素,ob[y]s为对象张量y在第s个位置的元素,rt为排名张量中第t个位置的元素,ob[x]t为对象张量x在第t个位置的元素,ob[y]t为对象张量y在第t个位置的元素。
7.根据权利要求1所述的方法,其特征在于,所述根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果的步骤包括:
将所述对象相似度矩阵作为仿射传播聚类算法的输入,获得多聚类结果。
8.一种多源异构数据的聚类装置,其特征在于,包括:
针对特征空间的多源异构特性,融合特征空间构建对象张量与特征空间组合向量,所述特征空间为一个以上;
特征转移张量获取模块,用于根据所述对象张量,获得对应的特征转移张量;
排名模块,用于采用预设的多关系属性组合排名算法对所述特征转移张量进行处理,获得对应的属性组合排名张量;
分解模块,用于采用预设的高阶奇异值分解算法对所述对象张量及所述属性组合排名张量进行分解,获得对应的核心张量与因子矩阵;
对象相似度矩阵获取模块,用于根据所述特征空间组合向量、所述核心张量与所述因子矩阵进行计算,获得对应的对象相似度矩阵;
聚类模块,用于根据不同特征空间组合下的所述对象相似度矩阵进行聚类,获得多聚类结果。
9.根据权利要求8所述的装置,其特征在于,所述特征转移张量获取模块,还用于:
将所述对象张量中的非零元素转化为1后进行累加,获得对应的关联张量;
对所述关联张量的每一阶进行归一化处理,获得对应的特征转移张量。
10.根据权利要求8所述的装置,其特征在于,所述排名模块,还用于:
根据预设的阈值参数、初始向量、随机向量、初始化概率参数以及所述特征空间对应的所述特征转移张量,获得属性排名向量;
将所述属性排名向量做外积,获得对应的属性组合排名张量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593400.2A CN109919172A (zh) | 2018-12-25 | 2018-12-25 | 一种多源异构数据的聚类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811593400.2A CN109919172A (zh) | 2018-12-25 | 2018-12-25 | 一种多源异构数据的聚类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109919172A true CN109919172A (zh) | 2019-06-21 |
Family
ID=66959905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811593400.2A Pending CN109919172A (zh) | 2018-12-25 | 2018-12-25 | 一种多源异构数据的聚类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919172A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110456985A (zh) * | 2019-07-02 | 2019-11-15 | 华南师范大学 | 面向多模态网络大数据的层次型存储方法及系统 |
CN111144503A (zh) * | 2019-12-30 | 2020-05-12 | 华中科技大学鄂州工业技术研究院 | 一种多分类结果的评分方法及装置 |
CN111310807A (zh) * | 2020-01-27 | 2020-06-19 | 哈尔滨理工大学 | 一种基于异质特征联合自表示的特征子空间与亲和矩阵联合学习方法 |
CN113032553A (zh) * | 2019-12-09 | 2021-06-25 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN113128544A (zh) * | 2020-01-15 | 2021-07-16 | 富士通株式会社 | 训练人工智能模型的方法和装置 |
-
2018
- 2018-12-25 CN CN201811593400.2A patent/CN109919172A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110456985A (zh) * | 2019-07-02 | 2019-11-15 | 华南师范大学 | 面向多模态网络大数据的层次型存储方法及系统 |
CN113032553A (zh) * | 2019-12-09 | 2021-06-25 | 富士通株式会社 | 信息处理装置和信息处理方法 |
CN111144503A (zh) * | 2019-12-30 | 2020-05-12 | 华中科技大学鄂州工业技术研究院 | 一种多分类结果的评分方法及装置 |
CN111144503B (zh) * | 2019-12-30 | 2022-09-27 | 华中科技大学鄂州工业技术研究院 | 一种平衡能力评价方法及装置 |
CN113128544A (zh) * | 2020-01-15 | 2021-07-16 | 富士通株式会社 | 训练人工智能模型的方法和装置 |
CN111310807A (zh) * | 2020-01-27 | 2020-06-19 | 哈尔滨理工大学 | 一种基于异质特征联合自表示的特征子空间与亲和矩阵联合学习方法 |
CN111310807B (zh) * | 2020-01-27 | 2022-08-19 | 哈尔滨理工大学 | 一种基于异质特征联合自表示的特征子空间与亲和矩阵联合学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109919172A (zh) | 一种多源异构数据的聚类方法及装置 | |
US20230267358A1 (en) | Distributed Quantum Computing Simulation Method and Apparatus | |
Li et al. | Modular community detection in networks | |
WO2019001071A1 (zh) | 一种基于邻接矩阵的图特征提取系统、图分类系统和方法 | |
WO2019001070A1 (zh) | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 | |
Zheng et al. | Migo-nas: Towards fast and generalizable neural architecture search | |
Olteanu et al. | On-line relational and multiple relational SOM | |
Balaji et al. | Optimization of unweighted minimum vertex cover | |
CN111737535A (zh) | 一种基于元结构和图神经网络的网络表征学习方法 | |
Xu et al. | Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation | |
Sarswat et al. | A novel two-step approach for overlapping community detection in social networks | |
Zhu et al. | Analysis of stock market based on visibility graph and structure entropy | |
Malhotra | Community detection in complex networks using link strength-based hybrid genetic algorithm | |
Sasi Kumar et al. | DeepQ Based Heterogeneous Clustering Hybrid Cloud Prediction Using K-Means Algorithm | |
Nesmachnow et al. | Scheduling in heterogeneous computing and grid environments using a parallel CHC evolutionary algorithm | |
CN110674183A (zh) | 科研社群划分及核心学者发现方法、系统、介质及终端 | |
Cai et al. | Stereo Attention Cross-Decoupling Fusion-Guided Federated Neural Learning for Hyperspectral Image Classification | |
Thangaraj et al. | Mgephi: Modified gephi for effective social network analysis | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
Qian et al. | Combining topological properties and strong ties for link prediction | |
Zhang et al. | End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks | |
Volke et al. | dPSO‐Vis: Topology‐based Visualization of Discrete Particle Swarm Optimization | |
Shi et al. | Community detection in scientific collaborative network with bayesian matrix learning | |
Chen et al. | Research and application of cluster analysis algorithm | |
Ferdowsi et al. | Generating high-quality synthetic graphs for community detection in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190621 |
|
RJ01 | Rejection of invention patent application after publication |