CN103106616A - 基于资源整合与信息传播特征的社区发现及演化方法 - Google Patents
基于资源整合与信息传播特征的社区发现及演化方法 Download PDFInfo
- Publication number
- CN103106616A CN103106616A CN201310062057XA CN201310062057A CN103106616A CN 103106616 A CN103106616 A CN 103106616A CN 201310062057X A CN201310062057X A CN 201310062057XA CN 201310062057 A CN201310062057 A CN 201310062057A CN 103106616 A CN103106616 A CN 103106616A
- Authority
- CN
- China
- Prior art keywords
- user
- matrix
- community
- theme
- potential
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000007480 spreading Effects 0.000 title claims abstract description 19
- 238000003892 spreading Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 title abstract description 7
- 230000010354 integration Effects 0.000 title abstract description 5
- 239000011159 matrix material Substances 0.000 claims abstract description 125
- 238000004891 communication Methods 0.000 claims abstract description 32
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 26
- 230000003993 interaction Effects 0.000 claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims abstract description 5
- 238000009826 distribution Methods 0.000 claims description 29
- 238000013459 approach Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000007596 consolidation process Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 3
- 238000010835 comparative analysis Methods 0.000 claims description 2
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000006399 behavior Effects 0.000 abstract description 10
- 238000005065 mining Methods 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及社会信息化传播网络中用户行为的数据挖掘,本发明具体公开了一种基于资源整合与信息传播特征的社区发现及演化方法,从而更加精确地定义用户社区,并发现有意义的社区演化模式。本发明针对现有社区发现与演化方法中网络资源整合度低和信息传播因素考虑较少等特点,提出了基于资源整合的社区发现方法,利用共享潜在特征的协同矩阵分解方法将用户行为和用户交互行为有机地结合到一起;并以信息传播理论为指导,纳入用户的好友影响为信息传播特征,基于一阶马尔科夫假设,采用机器学习方法完成社区演化模式的挖掘。实验表明这一方案能有效地提高用户社区的挖掘与演化质量。
Description
技术领域
本发明涉及社区网络用户行为的数据挖掘领域,具体涉及一种基于资源整合与信息传播特征的社区发现及演化方法。
背景技术
目前,社会化信息传播网络已成为很多人生活中不可或缺的一部分。社会化信息传播网络平台的迅速发展以及该平台上资源的爆炸式增长,催生了大量的应用研究,并带来了广泛的社会影响。为确保网络用户能够高效准确的获取微博资源,业界需要对社会化信息传播网络平台提供有效的技术支持。
发现社会化信息传播网络中的社区结构与演变模式无疑是深入研究社会化信息传播网络至关重要的一步,它不仅帮助我们了解用户在社会化信息传播网络中的实际参与情况,而且能够帮助我们更好地探究社会化信息传播网络的结构,并对其进行有效地利用和开发。社区发现与社区结构演变技术同时也广泛应用在生物学、物理学、计算机图形学和社会学等领域。其不仅在理论研究方面具有很高的学术价值,在实际生活中也有着十分重要的实用价值。
目前,业界对于用户社区结构挖掘工作的研究,主要围绕两方面展开:基于链接的方法与基于内容的方法。基于链接的方法主要利用用户的交互所产生的网络结构进行社区结构探索:White等人将模块化函数Q与谱聚类算法相结合,介绍几种社区检测算法;Flake等人提出了一种基于最大流最小割框架的社区检测算法;Psorakis等人在文献中提出了非负矩阵分解方法解决图的软聚类问题。基于内容的方法围绕用户在网络中的内容信息,开展社区结构挖掘研究:Zhang等人采用LDA(LatentDirichlet Allocation)模型用于用户社区结构检测;Steyvers等人提出了AT(Author-Topic)模型,以挖掘用户、文档、主题及词四者之间的关系。作者将主题看做主题词的多项式分布,而用户空间则用主题的概率分布建模;McCallum等人在此基础上进一步提出了ART(author-recipient-topic)模型来挖掘具有相似行为的用户组。在用户社区结构挖掘相关研究中,传统工作通常有两类不足,一是忽视了用户的内容信息与链接关系之间的关联,即使是对同时考虑链接信息和用户内容的多关系方法,通常做法也是将这两部分分开来独立进行;二是较少考虑用户链接的方向信息,目前对有向网络的研究还主要集中在基于链接的方法。
近年来也有不少研究者结合用户链接与内容关系在社区发现研究方面做了有益探索。Pathak等人提出了一种社区-作者-接受者-主题的社区挖掘模型(CART模型)。该模型是一种贝叶斯产生式模型,充分利用了用户连接与内容关系,实验表明它能从Eron邮件数据集中挖掘出有意义的社区。然而,CART模型却并不适用于拥有快速信息传播特征的社交网络。Sachan等人提出了多种产生式模型,以便基于人们热议的话题与交互关系发现社区结构,作者指出这些模型可以较好地适应社交网络快速信息传播的特性。但是采用产生式模型,在内容分析时会纳入许多无关的关键词,用户往往会对他们所在社区的主题产生困惑。
动态网络中的社区演变模式分析也是当前社区研究的一个重要课题。Toyoda等人通过网络社区制图研究了在线社区的演变,并介绍了一些评价指标来衡量演化程度。Kumar等人研究了博客社区的出现过程,并分析了社区的演化及其相应特征(出度、入度等)的变化过程。Asur等人提出了一种基于事件的方法来捕获个人及社区行为的演化规律。Yang等人将社区检测及其演化分析集成到统一的产生式概率模型框架下,采用贝叶斯方法评估未知参数的后验分布,从而提供了社区成员估计的鲁棒性。Lin等人提出了FacetNet方法将抽取社区并检测其演变过程放在统一的框架内。
上述研究工作主要应用于无向网络,取得了较好性能,然而某些用户交互网络为有向网络,如微博中的用户交互网络,而且互动性较强。针对这类网络中的社区演变模式分析,先前的工作简单的忽略边的方向,并且不同时间片之间的社区结构比较独立,这种处理策略导致网络结构的许多信息没有被充分利用,用户之间信息交流传播的影响在其中难以体现,而这些网络特性有利于对社区演变过程进行更准确的分析。
因此,本发明基于“资源整合与信息传播”的思想,提出了一个统一的协同矩阵分解算法框架解决该问题,用于社交网络的社区发现与社区演变模式挖掘。
发明内容
很多学者提出了基于图模型理论的聚类方法以发现社区结构,并采用产生式概率模型框架进行社区演变模式挖掘,为了解决这些方法网络资源整合度低、信息传播理论引入较少以及算法实现复杂等特点,本发明提出了基于资源整合的社区网络发现方法,利用协同矩阵分解模型将用户特征和用户交互行为有机地结合到一起;并以信息传播理论为指导,纳入其它用户对其的影响为信息传播特征,用机器学习的方法完成社区演化模式的挖掘。
本发明公开了一种基于资源整合与信息传播特征的社区发现及演化方法,其包括:
步骤1、根据社区网络资源生成用户关联关系矩阵和用户主题分布矩阵;
步骤2、根据所述用户关联关系矩阵和用户主题分布矩阵获得潜在社区网络;
步骤3、根据所获得的潜在社区网络,利用信息传播影响因子得到社区网络的演化结果;
步骤4、根据所述社区网络演化结果进行拓展应用。
本发明提出的上述方法,从一定程度上克服了基于图模型理论的聚类方法与产生式概率模型所面临的资源整合度低、信息传播理论影响小和算法效率不高等问题。与传统聚类方法相比,该方法不仅可以检测出更有意义的社区结构与演变模式,而且大大提高了检测的鲁棒性。
附图说明
图1是本发明中用户社区发现与演化方法的步骤流程图;
图2是本发明中社区网络资源生成的步骤流程图;
图3是本发明中协同矩阵分解模型示意图;
图4是本发明中用户社区网络发现的步骤流程图;
图5是本发明中信息传播影响因子计算示意图;
图6是本发明中信息传播社区演变模型示意图;
图7是本发明中利用信息传播机制与协同矩阵分解挖掘社区演变的步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明中用户社区发现与演化方法的步骤流程图,如图1所示,本发明提出了一种基于资源整合与信息传播特征的社区网络发现及演化方法,该方法包括以下步骤:
步骤S1:预处理操作,其用于社区网络资源的生成。为发现有意义的用户社区,首先进行预处理操作,如进行网络资源下载、用户相关信息提取和用户矩阵生成等,其中用户矩阵包括用户关联关系矩阵和用户主题分布矩阵;
步骤S2:根据生成的用户矩阵发现用户社区网络。该步骤包含两部分:即特征信息资源的协同矩阵分解以及潜在社区网络的产生;其中,用户社区网络的构成必需的两个要素:其一是社区中的用户彼此连接紧密,而与社区外的其他用户连接较为松散;其二,社区中的用户有着相近的行为,能够友好地进行信息交流与互动;
步骤S3:在步骤S2中所发现的社区网络的集群中,利用信息传播影响因子进行社区演化模式挖掘,并通过比较分析前后时间段所发现的社区异同,得到最终的社区网络的演化结果;
步骤S4:社区演化结果的实际应用展示。由步骤S3所得到的多种社区演化模式,有效地解决了社会信息化传播网络信息过载的问题,直观清晰的社区主题浏览方式能帮助用户快速定位自己需要的内容,用户可以随时间推移追踪社区的演变动态,把握社区的演化规律;如用户可以通过追踪社区的演变动态,及时了解并快速获得用户关心的领域动态等等。
下面详细叙述上述各个步骤。
步骤S1、预处理操作:
图2是本发明中社区网络资源生成的步骤流程图,如图2所示,该步骤用于用户社区网络资源的生成,其包括:
步骤S11、抓取网页资源;该步骤中可以根据社交网站的网页结构,设计网络爬虫爬取网页资源;
步骤S12、从所抓取的网页资源中提取用户的主题信息等;
步骤S13、从所抓取的网页资源中得到用户间的相互关系,并构建用户交互网络连接图;该步骤可以通过从信息传播网络中获取用户的相互交互信息资源来完成;
步骤S14、根据用户的主题,得到其参与的主题列表,从而进行用户资源特征提取;所述用户资源特征包括用户与其所发表内容的关联特征和用户与相关用户的关系特征;
步骤S15、根据所构建的用户交互网络连接图,生成用户关联关系矩阵,该矩阵用于表示用户之间的相互关系;
步骤S16、根据所提取的用户资源特征,生成用户主题分布矩阵,该矩阵用于表示用户的主题分布情况;
步骤S17、存储用户社区网络资源,包括上述步骤生成的用户关联关系矩阵与用户主题分布矩阵。
网页抓取、网页内容提取和用户交互网络连接图构建已经有成熟的方法,用户资源特征提取部分所提取的用户资源特征包含用户与其所发表内容的关联特征和用户与相关用户的关系特征。用户主题分布矩阵是指网络用户在各个热点主题下的发帖数量所构成的矩阵;用户关联关系矩阵是指网络用户的相互追随关系数字化表征后所构成的矩阵。
步骤S2、用户社区网络发现。图4是本发明中用户社区网络发现的步骤流程图,如图4所示,该步骤具体包括:
步骤S21、在步骤S1生成的用户主题分布矩阵R和用户关联关系矩阵C的基础上,采用协同矩阵分解模型这一机器学习策略,分解得到潜在社区特征矩阵;该矩阵表示潜在社区用户的归属概率以及主题的相关程度;
步骤S22、在所述潜在社区特征矩阵的基础上形成用户社区网络,以更好地理解用户的网络行为。
图3是本发明中协同矩阵分解模型示意图,如图3所示,其中C代表步骤S1中得到的用户关联关系矩阵,其中的每个元素代表两用户间的有向关注关系;R代表步骤S1中得到的用户主题分布矩阵,其中的每个元素代表用户在该主题上的发帖数量;通过概率矩阵分解,协同矩阵分解模型拟找到给定的C、R矩阵在低维空间下的最佳潜在社区特征矩阵U和V。其中,U代表用户社区潜在特征矩阵,其表示用户在分解得到的每个社区里的归属概率;V代表主题社区潜在特征矩阵,其表示主题与分解得到的每个社区的关联程度。这里,引入潜在特征辅助矩阵Z,使得Z矩阵与U矩阵维度分布相同,拟使得:
C≈UZT,R≈UVT (1)
为了求解目标函数(1),用已知的C、R作为先验条件,寻找低维社区潜在特征矩阵U和V,而引入两高斯参数α,β,利用朴素贝叶斯公式求解公式(1)矩阵分解的最大概率,即将该协同矩阵概率分解问题转换为如目标函数(2)所示的最优值求解问题,即当L最大时,表示分解已经收敛,此时的分解结果为最优值:
L=p(C|X)p(R|Y)p(U|α,β)p(V|α,β)p(Z|α,β) (2)
其中,X=UZT,Y=UVT,X为用户关联关系逼近矩阵,Y为用户主题分布逼近矩阵。
在公式(2)中,p(C|X)与p(R|Y)分别表示X与C,Y与R的接近程度,而p(U|α,β),p(V|α,β)和p(Z|α,β)则分别表征了矩阵分解过程中,低维特征矩阵U,V,Z的产生概率。
为求解目标函数(2),采用机器学习策略,更新潜在特征矩阵U、V、Z中的每一元素。假设该模型中所含用户数目为m,主题数目为n,潜在社区数目为d,采用随机梯度下降方法,得到U,V,Z三矩阵的元素更新策略如下:
其中,uik(o)表示矩阵U本次更新前的第i行,第k列元素值;uik(n)表示矩阵U本次更新后的第i行,第k列元素值;rij表示矩阵R的第i行,第j列元素值;vjk表示矩阵V的第j行,第k列元素值;yij表示矩阵Y的第i行,第j列元素值;ci1表示矩阵C的第i行,第l列元素值;z1k表示矩阵Z的第l行,第k列元素值;xi1表示矩阵X的第i行,第l列元素值;α,β代表引入的两个高斯参数。
公式(3)所表达式含义为:采用随机梯度下降方法,得到uik的学习更新因子:
而后,在迭代过程中不断用该因子更新uik的值,直至目标函数(2)收敛。公式(4)、(5)的表达式含义与公式(3)一致。最终更新得到的X、Y的结果即为矩阵C和R。
公式(3),(4),(5)中的元素值,ci1,rij即为已知矩阵C,R对应的元素值;uik,vjk,z1k的初始值采用了符合伽马分布的随机值;xi1的初始值为uik与z1k的乘积,而yij的初始值为uik与vjk的乘积;α与β分贝采用了经验值10,0.02。在计算过程中,每轮迭代同时更新公式(3)、(4)、(5),并将该轮迭代得到的元素值uik(n)、vjk(n)与z1k(n),分别作为下一次迭代的输入值uik(o)、vjk(o)与z1k(o),直至目标函数(2)收敛。
在步骤S22中,利用协同矩阵分解模型得到的用户社区潜在特征矩阵U与主题社区潜在特征矩阵V,对矩阵元素进行归一化处理,得到用户的社区归属概率,即在归一化处理过程中,分别用U,V矩阵中的每一个元素值除以矩阵中该元素所在行的元素之和,即可得到最终的用户社区归属概率,进而根据所述社区归属概率划分出用户社区网络。
在U、V、Z矩阵元素的初始化过程中,本发明引入了伽马分布假设先验知识,保证了社区归属概率的非负性,使得最终的社区发现结果具有极强的解释性。在社交网络中,用户会涉及很多不同的主题。本发明的方法可以利用社区的独特视角,以社区为基本考量单位,社区中的用户和主题为构成要素,将这些涉及不同主题的用户群体归属到不同的社区中,进而分门别类,形成各具特色的用户内容社区群体。
步骤S3、基于传播影响因子的社区演化模式挖掘:
步骤S3在步骤S2的基础上,导入信息传播影响因子,利用协同矩阵分解方法,挖掘用户社区的演变模式。
在步骤S3中,首先计算各个时间段间的信息传播影响因子,而后利用上一时间段社区潜在特征矩阵与传播影响因子,对该时段的协同矩阵分解产生传播影响,得到信息传播模式下的用户社区网络,其中所述传播影响因子仅对用户主题分布逼近矩阵Y产生影响。
步骤S3具体包括如下步骤,如图5所示:
步骤S31、利用由步骤S1得到的在上一时刻t-1和当前时刻t的用户主题分布矩阵R和用户关联关系矩阵C,计算t-1时刻的社交网络情况对t时刻的社交网络情况的传播影响,设此信息传播影响因子为λt,其中,C和t=0时刻的R为步骤S2中得到的;λt的计算方法如下:
其中,Cik用户关联关系矩阵C的第i行,第k列元素值,由于用户的关联关系较为稳定,短期内变化不大,因此可以看做t时刻与t-1时刻共享用户关联矩阵Cik;Rt-1,kj表示t-1时刻用户主题矩阵R的第k行,第j列元素值,Rt,kj表示t时刻用户主题矩阵R的第k行,第j列元素值。除数表示在t-1时刻用户之间可能实现的信息传播,而被除数表示t时刻实际产生的信息传播。
步骤S32、利用步骤S31计算得到的信息传播影响因子λt与t-1时刻的社区潜在特征矩阵Ut-1,Vt-1,得到用户主题分布逼近矩阵的信息传播过渡影响矩阵Yt-1 aff:
Yt-1 aff=λtUt-1Vt-1 T (7)
该步骤中所述信息传播影响因子的引入,使得用户的交互信息有效地融入到社区演变过程中,较好地解决了之前的社区演变方法在不同时间片之间的社区结构比较独立,联系不甚紧密的问题,也使得最终社区演变的结果更具解释性和动态特性。
步骤S33、引入信息传播机制,考虑用户链接关系产生的信息传播对用户行为的影响,并在此基础上建立马尔科夫假设:Rt≈UtVt T的分解与Rt-1有关,与R1,R2,…Rt-2的分解独立。在进行近似逼近时,Rt的值不仅受该时段低维用户特征矩阵Ut,Vt的影响,还受加入传播影响因子之后的矩阵Rt-1 aff的影响,从而得到:
Rt≈UtVt T+θRt-1 aff (8)
在此前提下,可以获得基于信息传播理论的用户社区演变模型,如图6所示。根据之前的马尔科夫假设,设定t时刻的用户主题分布矩阵Rt,受到t-1时刻的信息传播过渡影响矩阵Yt-1 aff与t时刻的社区潜在特征矩阵Ut、Vt的共同影响,从而得到用户社区演变模型的推导公式:
Yt=UtVtT+θYt-1 aff (9)
其中,θ为调节参数,以此来控制信息传播对社区结构演化的影响。
步骤S34、获得受信息传播影响后,每个时段的用户社区潜在特征矩阵,进而得到用户社区分布。受信息传播影响的情况下,使用上述公式(9)获得用户主题分布逼近矩阵Yt,并通过协同矩阵分解模型分解得到用户社区潜在特征矩阵。具体如步骤S22一样,将所述协同矩阵分解模型分解转换为如目标函数(2)所示的最优值求解问题,以根据公式(3)-(5)对U、V、Z三矩阵的元素进行更新,与步骤S22中计算过程不同的是,这三个更新公式中的矩阵Y中的元素由公式(9)得到,最终会得到每个时段加入了信息传播影响因子后的用户社区潜在特征矩阵Ut,Vt(t=1,2,...n),进而得到用户社区分布。
在步骤S35中,通过比较各个时间段用户社区网络的分布特点,能够发现不同时间段用户社区网络的区别与联系,进而挖掘出有意义的用户社区演化模式。通过用户社区演化模式中,用户可以及时了解其所关系领域中当前热点及其动态等。
步骤S4、社区演化结果的实际应用展示:
由步骤S3所得到的多种社区演化模式,有效地解决了社会信息化传播网络信息过载的问题,直观清晰的社区主题浏览方式能帮助用户快速定位自己需要的内容,用户可以随时间推移追踪社区的演变动态,把握社区的演化规律;如用户可以通过追踪社区的演变动态,及时了解并快速获得用户关心的领域动态等等。。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于资源整合与信息传播特征的社区发现及演化方法,其包括:
步骤1、根据社区网络资源生成用户关联关系矩阵和用户主题分布矩阵;
步骤2、根据所述用户关联关系矩阵和用户主题分布矩阵获得潜在社区网络;
步骤3、根据所获得的潜在社区网络,利用信息传播影响因子得到社区网络的演化结果;
步骤4、根据所述社区网络演化结果进行拓展应用。
2.如权利要求1所述的方法,其特征在于,所述用户关联关系矩阵用于表示用户之间的相互关系,所述用户主题分布矩阵用于表示用户的主题分布。
3.如权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤11、抓取网页资源;
步骤12、从所抓取的网页资源中提取用户的主题;
步骤13、从所抓取的网页资源中得到用户间相互关系,并构建用户交互网络连接图;
步骤14、根据用户的主题,得到其参与的主题列表,从而进行用户资源特征提取;
步骤S15、根据所构建的用户交互网络连接图,生成用户关联关系矩阵;
步骤S16、根据所提取的用户资源特征,生成用户主题分布矩阵。
4.如权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤21、根据所述用户主题分布矩阵和用户关联关系矩阵,采用协同矩阵分解模型分解得到潜在社区特征矩阵;
步骤22、根据所述潜在社区特征矩阵获得用户的潜在社区网络。
5.如权利要求4所述的方法,其特征在于,所述潜在社区特征矩阵包括用户社区潜在特征矩阵和主题社区潜在特征矩阵;其中,所述用户社区潜在特征矩阵表示用户在分解得到的每个社区中的归属概率的,所述主题社区潜在特征矩阵表示主题与分解得到的每个社区的关联程度。
6.如权利要求5所述的方法,其特征在于,通过求解所述协同矩阵分解模型的最优值,得到用户社区潜在特征矩阵和主题社区潜在特征矩阵,所述协同矩阵分解模型如下表示:
L=p(C|X)p(R|Y)p(U|α,β)p(V|α,β)p(Z|α,β)
其中,C≈UZT,R≈UVT,C表示用户关联关系矩阵,R表示用户主题分布矩阵,U表示用户社区潜在特征矩阵,V表示主题社区潜在特征矩阵,Z表示潜在特征辅助矩阵,其维度与U的维度分布相同;X=UZT,Y=UVT,X为用户关联关系逼近矩阵,Y为用户主题分布逼近矩阵;p(C|X)与p(R|Y)分别表示矩阵X与C、Y与R的接近程度,而p(U|α,β)、p(V|α,β)和p(Z|α,β)则分别表示矩阵U、V和Z的产生概率。
7.如权利要求6所述的方法,其特征在于,通过机器学习更新策略求解所述协同矩阵分解模型,具体更新过程如下表示:
其中,uik(o)表示矩阵U本次更新前的第i行,第k列元素值;uik(n)表示矩阵U本次更新后的第i行,第k列元素值;rij表示矩阵R的第i行,第j列元素值;Vjk表示矩阵V的第j行,第k列元素值;yij表示矩阵Y的第i行,第j列元素值;ci1表示矩阵C的第i行,第l列元素值;Z1k表示矩阵Z的第l行,第k列元素值;xi1表示矩阵X的第i行,第l列元素值;α,β代表引入的两个高斯参数。
8.如权利要求4所述的方法,其特征在于,所述步骤22中,对所获得的社区潜在特征网络中的矩阵元素进行归一化处理,得到用户的社区归属概率,然后根据所述用户的社区归属概率划分出用户的潜在社区网络。
9.如权利要求1所述的方法,其特征在于,步骤3具体包括:
步骤31、根据上一时刻t-1和当前时刻t分别得到的用户主题分布矩阵和用户关联关系矩阵计算得到信息传播影响因子;
步骤32、根据所述信息传播影响因子和上一时刻的社区潜在特征矩阵获得用户主题分布逼近矩阵的信息传播过渡影响矩阵;
步骤33、根据所述用户主题分布逼近矩阵的信息传播影响矩阵和当前时刻社区潜在特征矩阵得到用户社区演化后的用户主题分布逼近矩阵;
步骤34、通过求解协同矩阵分解模型得到用户社区演化后各个时刻的用户社区潜在特征矩阵,进而得到用户社区网络;
步骤36、根据各个时刻用户社区网络,比较分析不同时段用户社区网络的演变模式。
10.如权利要求9所述的方法,其特征在于,所述信息传播影响因子如下计算:
其中,λt为信息传播影响因子,Cik为用户关联矩阵C的第i行,第k列元素值,Rt-1,kj表示t-1时刻用户主题分布矩阵R的第k行,第j列元素值,Rt,kj表示t时刻用户主题分布矩阵R的第k行,第j列元素值。
11.如权利要求9所述的方法,其特征在于,步骤33中所述用户社区演化后的用户主题分布逼近矩阵如下表示:
Yt=UtVt T+θYt-1aff
Yt-1 aff=λtUt-1Vt-1 T
其中,Ut和Vt分别表示时刻t用户社区潜在特征矩阵和主题社区潜在特征矩阵用户;Ut-1和Vt-1分别表示时刻t-1用户社区潜在特征矩阵和主题社区潜在特征矩阵用户;λt为信息传播影响因子;Yt为t时刻用户社区演化后的用户主题分布逼近矩阵;Yt-1 aff所述用户主题分布逼近矩阵的信息传播影响矩阵;θ为调节参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310062057.XA CN103106616B (zh) | 2013-02-27 | 2013-02-27 | 基于资源整合与信息传播特征的社区发现及演化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310062057.XA CN103106616B (zh) | 2013-02-27 | 2013-02-27 | 基于资源整合与信息传播特征的社区发现及演化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106616A true CN103106616A (zh) | 2013-05-15 |
CN103106616B CN103106616B (zh) | 2016-01-20 |
Family
ID=48314451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310062057.XA Active CN103106616B (zh) | 2013-02-27 | 2013-02-27 | 基于资源整合与信息传播特征的社区发现及演化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106616B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440263A (zh) * | 2013-08-01 | 2013-12-11 | 清华大学 | 一种对匿名图数据进行演化分析的方法 |
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
CN104063516A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
CN104657434A (zh) * | 2015-01-30 | 2015-05-27 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
WO2016000634A1 (en) * | 2014-07-03 | 2016-01-07 | U3D Limited | Matter sharing method |
CN105260849A (zh) * | 2015-10-21 | 2016-01-20 | 内蒙古科技大学 | 一种跨社交网络的科研人员评价方法 |
CN105991397A (zh) * | 2015-02-04 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 信息传播方法和装置 |
CN107093090A (zh) * | 2016-10-25 | 2017-08-25 | 北京小度信息科技有限公司 | 异常用户识别方法及装置 |
CN107609984A (zh) * | 2017-10-31 | 2018-01-19 | 北京科技大学 | 社交网络深层结构的挖掘方法 |
CN105159911B (zh) * | 2015-07-06 | 2018-07-10 | 西北工业大学 | 基于主题交互的社区发现方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916256A (zh) * | 2010-07-13 | 2010-12-15 | 北京大学 | 综合行动者兴趣与网络拓扑的社区发现方法 |
-
2013
- 2013-02-27 CN CN201310062057.XA patent/CN103106616B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101916256A (zh) * | 2010-07-13 | 2010-12-15 | 北京大学 | 综合行动者兴趣与网络拓扑的社区发现方法 |
Non-Patent Citations (1)
Title |
---|
谈亚洲: "在线网络社区结构发现与演化技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, 15 February 2013 (2013-02-15), pages 139 - 211 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440263A (zh) * | 2013-08-01 | 2013-12-11 | 清华大学 | 一种对匿名图数据进行演化分析的方法 |
CN103440263B (zh) * | 2013-08-01 | 2017-04-19 | 清华大学 | 一种对匿名图数据进行演化分析的方法 |
CN103744994B (zh) * | 2014-01-22 | 2016-11-16 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
CN103744994A (zh) * | 2014-01-22 | 2014-04-23 | 中国科学院信息工程研究所 | 一种面向通信网络的用户行为模式挖掘方法及系统 |
WO2016000634A1 (en) * | 2014-07-03 | 2016-01-07 | U3D Limited | Matter sharing method |
CN104063516A (zh) * | 2014-07-14 | 2014-09-24 | 福州大学 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
CN104063516B (zh) * | 2014-07-14 | 2017-06-06 | 福州大学 | 基于分布式矩阵分解特征提取的社交网络垃圾过滤方法 |
CN104657434A (zh) * | 2015-01-30 | 2015-05-27 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
CN104657434B (zh) * | 2015-01-30 | 2017-10-24 | 中国科学院信息工程研究所 | 一种社交网络结构构建方法 |
CN105991397A (zh) * | 2015-02-04 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 信息传播方法和装置 |
CN105991397B (zh) * | 2015-02-04 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 信息传播方法和装置 |
CN105159911B (zh) * | 2015-07-06 | 2018-07-10 | 西北工业大学 | 基于主题交互的社区发现方法 |
CN105260849A (zh) * | 2015-10-21 | 2016-01-20 | 内蒙古科技大学 | 一种跨社交网络的科研人员评价方法 |
CN107093090A (zh) * | 2016-10-25 | 2017-08-25 | 北京小度信息科技有限公司 | 异常用户识别方法及装置 |
CN107609984A (zh) * | 2017-10-31 | 2018-01-19 | 北京科技大学 | 社交网络深层结构的挖掘方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103106616B (zh) | 2016-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106616B (zh) | 基于资源整合与信息传播特征的社区发现及演化方法 | |
CN108509551B (zh) | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 | |
Uzun et al. | A hybrid approach for extracting informative content from web pages | |
Deng | Fast mining top-rank-k frequent patterns by using node-lists | |
CN102207946B (zh) | 一种知识网络的半自动生成方法 | |
CN103136337A (zh) | 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 | |
Luo et al. | Semi-supervised clustering on heterogeneous information networks | |
CN111710428B (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
Rani et al. | A survey of tools for social network analysis | |
Liu | High performance latent dirichlet allocation for text mining | |
Wang et al. | Measuring the veracity of web event via uncertainty | |
Zhang et al. | Proximity-aware heterogeneous information network embedding | |
Yang et al. | Improvement of recommendation algorithm based on collaborative deep learning and its parallelization on spark | |
Huang et al. | Structure clustering for Chinese patent documents | |
Li et al. | Mahe-im: multiple aggregation of heterogeneous relation embedding for influence maximization on heterogeneous information network | |
Li et al. | A computational drug repositioning model based on hybrid similarity side information powered graph neural network | |
CN102708285B (zh) | 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法 | |
CN104199947A (zh) | 一种对重点人员言论监督与关联关系挖掘的方法 | |
Yu et al. | A structured ontology construction by using data clustering and pattern tree mining | |
Mo et al. | Attention‐based network embedding with higher‐order weights and node attributes | |
CN117236624A (zh) | 一种基于动态图的Issue修复者推荐方法与装置 | |
Liu et al. | Community detection based on topic distance in social tagging networks | |
Han et al. | A method for the acquisition of ontology-based user profiles | |
Liu et al. | Service matchmaking for Internet of Things based on probabilistic topic model | |
Sun et al. | Modeling of unsupervised knowledge graph of events based on mutual information among neighbor domains and sparse representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |