CN104915371A - 一种面向多实体稀疏关系的联合挖掘方法 - Google Patents
一种面向多实体稀疏关系的联合挖掘方法 Download PDFInfo
- Publication number
- CN104915371A CN104915371A CN201510175590.6A CN201510175590A CN104915371A CN 104915371 A CN104915371 A CN 104915371A CN 201510175590 A CN201510175590 A CN 201510175590A CN 104915371 A CN104915371 A CN 104915371A
- Authority
- CN
- China
- Prior art keywords
- matrix
- entity
- relation
- heterogeneous
- heterogeneous relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于智能信息处理领域,具体涉及一种利用计算机技术辅助网络信息智能分析和处理的面向多实体稀疏关系的联合挖掘方法。本发明包括:从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R;对于每一个异质关系矩阵Ri进行非负矩阵分解;针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵。本发明在真实数据集上与最近的几种方法进行了对比分析,可知本方法在准确率、纯度、NMI和ARI四个度量指标下都整体优于其他算法。本方法只与规模较小一类的实体相关,因此在大规模数据上具有较好的可扩展性。
Description
技术领域
本发明属于智能信息处理领域,具体涉及一种利用计算机技术辅助网络信息智能分析和处理的面向多实体稀疏关系的联合挖掘方法。
背景技术
随着移动互联网的快速发展,社交网络、学术网络等网络应用越来越丰富,产生了大量的信息网络。信息网络中通常包括多类实体,实体间通过交互行为构建起复杂的交互关系网络。例如微博网络中,用户在不同的位置发布、转发、评论消息,消息中可以包括多个标签、图片等。这些交互行为产生的数据中包括用户、消息、图片、标签、位置等多类实体,实体间存在多种交互关系。这些交互关系主要包括两类:同质关系和异质关系。传统的信息网络挖掘主要针对同质关系进行挖掘,例如社区发现等。但是,信息网络中通常包括多类实体,并且不同实体间存在大量的异质关系。通过对信息网络中的异质关系数据分析,更能挖掘出不同类实体间的潜在结构。如何通过异质关系数据挖掘多类实体的潜在结构已经成为当前异质信息网络挖掘领域中研究的热点问题。
在异构信息网络挖掘领域中,传统的聚类方法只能针对一类实体进行处理,但是异质关系数据中包含多类实体。目前处理多类实体的方法主要包括多视图聚类和高阶联合聚类,这些算法都能对多类实体进行同时分析。多视图聚类通常以星型结构进行建模,而真实的异质关系数据并不一定存在星型结构。因此,本发明通过高阶联合聚类算法挖掘异质关系数据中实体的潜在关系。
高阶联合聚类算法在处理小规模数据时具有较好的效果,但是在大规模信息网络挖掘时仍然存在一些问题。首先,从原始数据中可抽取的实体类型较多,但是不同类实体之间的异质关系非常有限,导致构建的异质关系矩阵异常稀疏。其次,在分析大规模微博异质关系数据时,不同实体之间的规模存在不平衡问题。本发明试图同时解决上述两个问题。
发明内容
本发明的目的在于提出一种针对多类实体间存在的稀疏异质关系进行联合挖掘的面向多实体稀疏关系的联合挖掘方法。
本发明的目的是这样实现的:
(1)从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R:
(1.1)实体抽取:从异构数据中抽取待分析的实体,并统计实体在异构数据中的出现频次,剔除频次小于或等于2次的实体,选择剩余的实体作为待分析实体集合;
(1.2)异构关系抽取:从待分析的实体集合中抽取任意两个实体之间存在的异质交互关系;
(1.3)异质关系形式化建模:任意两类实体之间的异质关系通过二部图进行建模,两个实体之间交互的频次作为异质关系的强度,二部图进一步可通过异质关系矩阵进行表示;
(2)对于每一个异质关系矩阵Ri进行非负矩阵分解:
(2.1)关联矩阵构造:从异质关系矩阵中选择规模较小一类实体,依据同类实体之间的关联关系构建关联矩阵;
(2.2)基于稀疏约束的关联矩阵稀疏对称分解:针对关联矩阵,采用鲁棒的稀疏约束的对称分解方法;
(2.3)异质关系矩阵三分解:以关联矩阵分解得到的结果作为输入,采用迭代的三分解方法进行求解;
(3)针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵:
(3.1)聚类指示矩阵二元化:根据关联矩阵对称分解的结果进行二元化;
(3.2)针对每一类实体对应的聚类指示矩阵进行融合,得到最终的聚类指示矩阵,分解得到的指示矩阵中只有一个元素为1,其余为0,指示矩阵中为1的表示实体属于对应的类别。
本发明的有益效果在于:
本发明提出了一种面向多类实体间稀疏异质关系的联合挖掘方法,该方法能够同时解决大规模信息网络异质关系挖掘中的稀疏问题和不平衡问题,特别是针对极端稀疏情况下的异质关系数据。该方法无需将异质关系数据建模成星型结构,能够处理更为复杂的异质关系数据。在稀疏约束下的非负矩阵分解过程中,本发明提出了一种贪婪的块坐标下降优化方法,能够提高稀疏矩阵分解的收敛速度。本发明在真实数据集上与最近的几种方法进行了对比分析,可知本方法在准确率、纯度、NMI和ARI四个度量指标下都整体优于其他算法。本方法只与规模较小一类的实体相关,因此在大规模数据上具有较好的可扩展性。
附图说明
图1方法对应的整体框架图。
图2整体流程图。
图3异质关系矩阵分解流程图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明公开了一种面向多实体稀疏关系的联合挖掘方法。所述方法包括:异质关系抽取及建模,抽取不同实体间的异质关系,并通过异质关系矩阵进行表示;异质关系矩阵分解, 选择较小规模实体对应的关联关系构建关联矩阵,并才用稀疏约束的对称非负矩阵分解方法进行分解,分解结果作为异质关系矩阵三分解的输入,进而快速有效的求解异质关系矩阵对应的分解矩阵;最后,针对实体的多个异质关系矩阵分解得到的结果进行融合,进而得到每一类实体对应的聚类指示矩阵。
从异质数据中抽取的异质关系矩阵异常稀疏,直接进行非负矩阵分解,得到的效果较差。对于高阶数据联合聚类分析中,传统的非负矩阵三分解算法中针对每一个关系矩阵进行分解,但是针对特别稀疏的数据进行联合聚类时,分解得到的划分指示矩阵很难保证数据的稀疏特征,而且在实际的数据中,中心节点的划分矩阵在不同的视图中对应的划分很难在一个尺度中进行度量。传统的高阶联合聚类算法或多视图聚类都将异质关系数据建模成星型结构,但是很多关系数据并不一定存在星型结构关系。因此,本发明提出了一种针对多类实体间存在的稀疏异质关系进行联合挖掘的方法,方法整体框架如图1所示。
(一)异质关系抽取及建模。
首先从异构数据中抽取待分析的实体以及实体之间的关系,在本发明中只考虑任意两类不同实体之间的异质关系。通过对异质关系的联合聚类分析,就能挖掘出不同实体间的潜在关系。
在本发明中,将任意两类实体间的异质关系R(s,t)建模成二部图G(s,t)=(Vs,Vt,E)。二部图G(s,t)可采用关系矩阵R(s,t)表示,可得到异质关系数据集对应的M个关系矩阵集合R={R(1,2),R(1,3),...,R(s,t),...}。将挖掘异质关系数据D中N类实体间的潜在结构转换成通过高阶联合聚类算法同时对M个关系矩阵集合R的划分问题,进而得到N类实体的聚类指示矩阵集合P={P1,...,PN}。
(二)异质关系矩阵分解。
异质关系矩阵分解主要包括三步核心步骤,分别对应关联矩阵构建、基于稀疏约束的关联矩阵分解和异质关系矩阵三分解。下面将给出对应的详细实现过程。
1)关联矩阵构建。互信息是衡量两个随机变量之间的相关性的有效度量之一,为了能够快速的度量同类实体之间的相关关系,本发明在矩阵互信息的基础上构建关联矩阵。
对于任意一个异质关系矩阵R(s,t),选择规模较小一类实体s构建关联矩阵。对于s中任意两个实体i,j,可基于异质关系矩阵R(s,t)计算其之间的共现概率,计算公式如式(1)所示。
关联矩阵的计算公式如下:
进一步可通过Cos计算相似度。对于s类实体的第i个关联矩阵对应的计算公式如下:
2)基于稀疏约束的关联矩阵分解。基于异质关系矩阵R(s,t)构建的实体s对应的第i个关联矩阵关联矩阵为对称矩阵,虽然能够大大降低了矩阵的稀疏度,但是其仍然属于稀疏矩阵,因此,首先给出稀疏约束的定义。
对于任意异质关系矩阵R(s,t)包含m行和n列,其可看成是由n个列向量组合的矩阵。因此,在向量稀疏度量的基础上,矩阵稀疏度量sp(R(s,t))定义为:
本发明采用对称稀疏矩阵分解方法,其对应的目标函数为Q1。
为n×n的对称矩阵,令其分解为K个聚类,则的规模为n×K,的规模为K×K。目标函数Q1的求解方法很多,例如乘法更新、梯度下降、坐标下降等。
Jingu Kim等人将非负矩阵分解方法都归纳到块坐标下降的框架下进行求解,并且具有较快的收敛速度。针对目标函数Q1,对列向量块进行稀疏约束。可以看成是K个列向量,每一个列可以看成是一个块,因此可以采用块坐标下降的方法进行求解。
对于目标函数Q1的K个列向量块,可以采用序列更新的方法进行,针对每一个列向量块Fj的更新可以转换成:
进一步可以写成:
该目标函数可以通过如下进行求解:
为列向量块,因此其求解可以转换成列向量的稀疏优化问题进行求解。
3)异质关系矩阵分解。通过对关联矩阵进行对称分解之后,可得到每一类实体s对应第i个关联矩阵对应的划分指示矩阵针对异质关系矩阵R(s,t),给定划分指示矩阵求解另一类实体的划分指示矩阵P(t)的问题可以转换成NNLS问题。NNLS问题的求解方法很多,为了确保实体s对应的稀疏结构,同样采用稀疏投射的方法实现,既能确保稀疏结构,同时能够快速求解。
(三)聚类指示矩阵融合
由于异质关系数据中很多实体在多个异质关系中,而关联矩阵构造时并没有考虑到这一点。为了提高多类异质关系对实体聚类的约束作用,本文针对多关系实体提出了基于异质关系矩阵分解的融合算法。
对于任意一类实体s,其与Ls类实体存在异质关系,因此,针对这Ls类实体得到的划分指示矩阵进行融合。在融合的过程中,不同异质关系对划分结果产生的影响并不相同,因此,实体s对应的Ls个异质关系对应的权重对应的权重融合计算公式:
实验验证
为了验证本发明的有效性,实验中将选择最新的三个算法作为对比算法SSNMF,TMBP,MultiNMF。
本发明收集四个数据集作为实验数据集,分别是DBLP,Soccer事件数据集,Indignados时间数据集,Weibo数据集。
DBLP:该数据集为算法TMBP中应用的数据集,包括database,data mining,information retrieval,artificial intelligence四类文章。原数据集中考虑了论文标题和摘要信息,为了构造稀疏数据集,本文中只考虑论文标题,共抽取标题、词、会议、作者四类实体。
Soccer_Event和Indignados_Event:该数据集为the 2012Social Event Detection dataset(SED2012)的子集,其为Flick的图片分享数据。Soccer_Event主要描述足球事件,抽取了单类中大于20个元素,共计23个子类数据。Indignados_Event为发生在西班牙首都madrid的indignados事件,抽取了单类中大于20个元素,共计18个子类数据。为了防止过度稀疏, 文中将图片的标题、描述词、标签作为图片的描述信息,因此,抽取了图片,词,用户三类实体。
Weibo:该数据集采用Sina提供的API采用2012年10月的微博消息,共计抽取7个微博主题消息,分别为:闯红灯、丰田汽车回收、美国总统大选、莫言获得诺贝尔奖、“我是特种兵”电视剧、杭州烟花大会、中国好声音。微博消息长度主要为20-30。在该数据集中共抽取微博消息、标签、位置和词四类实体。
1)准确性对比实验
由于算法SSNMF、MultiNMF等针对星型结构中的中心实体进行聚类,为了对比方便,下面将选四个数据集中的论文标题、图片、图片和微博消息四种实体的聚类作为对比分析。四个算法在四个不同的数据集上的对比结果表明本发明方法在四个指标度量下整体优于其他三种方法。
本文方法无需异质关系数据建模成星型结构,因此能够能够针对所有实体进行聚类分析。TMBP算法虽然将异质关系数据建模成星型结构,但是其针对所有实体进行聚类。因此,选择TMBP算法作为对比算法。由于四个数据集中只有DBLP数据集上的会议和作者提供了聚类标签,对比了会议和作者的结果,本发明方法在四个指标上都优于TMBP算法。这主要是针对关联矩阵进行分解,并且采用的是稀疏约束下的非负矩阵分解方法。
为了说明本发明方法HSNMF-CM在真实数据集中的效果,本文以事件检测数据上的聚类为例进行说明。事件数据集为Flick用户发布的骚乱和足球事件的信息,从两个数据聚类结果中分别抽取3个,其中每个聚类结果中的图片和词能够很好的叙述对应的事件。
Claims (1)
1.一种面向多实体稀疏关系的联合挖掘方法,其特征在于,包括以下步骤:
(1)从异构数据中抽取实体、异质关系,两类实体之间的异质关系采用异质关系矩阵表示,进而构建异质关系矩阵集合R:
(1.1)实体抽取:从异构数据中抽取待分析的实体,并统计实体在异构数据中的出现频次,剔除频次小于或等于2次的实体,选择剩余的实体作为待分析实体集合;
(1.2)异构关系抽取:从待分析的实体集合中抽取任意两个实体之间存在的异质交互关系;
(1.3)异质关系形式化建模:任意两类实体之间的异质关系通过二部图进行建模,两个实体之间交互的频次作为异质关系的强度,二部图进一步可通过异质关系矩阵进行表示;
(2)对于每一个异质关系矩阵Ri进行非负矩阵分解:
(2.1)关联矩阵构造:从异质关系矩阵中选择规模较小一类实体,依据同类实体之间的关联关系构建关联矩阵;
(2.2)基于稀疏约束的关联矩阵稀疏对称分解:针对关联矩阵,采用鲁棒的稀疏约束的对称分解方法;
(2.3)异质关系矩阵三分解:以关联矩阵分解得到的结果作为输入,采用迭代的三分解方法进行求解;
(3)针对每一类实体对应的矩阵分解结果进行融合,得到最终的聚类指示矩阵:
(3.1)聚类指示矩阵二元化:根据关联矩阵对称分解的结果进行二元化;
(3.2)针对每一类实体对应的聚类指示矩阵进行融合,得到最终的聚类指示矩阵,分解得到的指示矩阵中只有一个元素为1,其余为0,指示矩阵中为1的表示实体属于对应的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510175590.6A CN104915371A (zh) | 2015-04-14 | 2015-04-14 | 一种面向多实体稀疏关系的联合挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510175590.6A CN104915371A (zh) | 2015-04-14 | 2015-04-14 | 一种面向多实体稀疏关系的联合挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104915371A true CN104915371A (zh) | 2015-09-16 |
Family
ID=54084435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510175590.6A Pending CN104915371A (zh) | 2015-04-14 | 2015-04-14 | 一种面向多实体稀疏关系的联合挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915371A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992217A (zh) * | 2019-11-15 | 2020-04-10 | 广东工业大学 | 一种外观设计专利多视图特征表示、检索的方法及装置 |
CN111459990A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 对象处理方法、系统及计算机可读存储介质和计算机设备 |
-
2015
- 2015-04-14 CN CN201510175590.6A patent/CN104915371A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992217A (zh) * | 2019-11-15 | 2020-04-10 | 广东工业大学 | 一种外观设计专利多视图特征表示、检索的方法及装置 |
CN110992217B (zh) * | 2019-11-15 | 2020-12-08 | 广东工业大学 | 一种外观设计专利多视图特征表示、检索的方法及装置 |
CN111459990A (zh) * | 2020-03-31 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 对象处理方法、系统及计算机可读存储介质和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9785696B1 (en) | Automatic discovery of new entities using graph reconciliation | |
CN109359172B (zh) | 一种基于图划分的实体对齐优化方法 | |
CN107145523B (zh) | 基于迭代匹配的大型异构知识库对齐方法 | |
Qu et al. | Efficient online summarization of large-scale dynamic networks | |
Duke et al. | Visualizing nuclear scission through a multifield extension of topological analysis | |
CN105653518A (zh) | 一种基于微博数据的特定群体发现及扩充方法 | |
CN107679135A (zh) | 面向网络文本大数据的话题检测与跟踪方法、装置 | |
CN104182527A (zh) | 基于偏序项集的中英文本词间关联规则挖掘方法及其系统 | |
Yu et al. | Motifs in big networks: Methods and applications | |
CN104636454B (zh) | 一种面向大规模异构数据的联合聚类方法 | |
Bi et al. | MM-GNN: Mix-moment graph neural network towards modeling neighborhood feature distribution | |
He et al. | Not enough data? joint inferring multiple diffusion networks via network generation priors | |
CN104317794A (zh) | 基于动态项权值的中文特征词关联模式挖掘方法及其系统 | |
Li et al. | Curvature graph generative adversarial networks | |
CN103440308B (zh) | 一种基于形式概念分析的数字论文检索方法 | |
Cai et al. | The mining of urban hotspots based on multi-source location data fusion | |
Park et al. | On the power of gradual network alignment using dual-perception similarities | |
CN104915371A (zh) | 一种面向多实体稀疏关系的联合挖掘方法 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
Zheng et al. | Fairgen: Towards fair graph generation | |
Han et al. | Multi-spatial scale event detection from geo-tagged tweet streams via power-law verification | |
Zhou et al. | Local community detection algorithm based on minimal cluster | |
Müller et al. | Extracting knowledge from life courses: Clustering and visualization | |
CN111460321A (zh) | 基于Node2Vec的重叠社区搜索方法及设备 | |
CN109542936A (zh) | 一种基于因果分割的递归式因果推断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150916 |