CN105159911A - 基于主题交互的社区发现方法 - Google Patents
基于主题交互的社区发现方法 Download PDFInfo
- Publication number
- CN105159911A CN105159911A CN201510390683.0A CN201510390683A CN105159911A CN 105159911 A CN105159911 A CN 105159911A CN 201510390683 A CN201510390683 A CN 201510390683A CN 105159911 A CN105159911 A CN 105159911A
- Authority
- CN
- China
- Prior art keywords
- node
- subgraph
- user
- represent
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000003993 interaction Effects 0.000 title abstract 3
- 239000000284 extract Substances 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题交互的社区发现方法,用于解决现有社区发现方法对社区描述准确度差的技术问题。技术方案是提取某一时间段内网络中文本、照片等的主题信息,根据网络中的每一次交互建立超图模型。对于超图模型按照用户熵以及主题熵计算超边的权值,选取用户中的种子节点,并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度,得到密集子图。以层次聚类方法对密集子图进行不同程度的聚合,得到不同层次下的社区。由于以种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度,然后迭代计算不同节点的贡献度,得到密集子图,对密集子图进行不同程度的聚合,得到不同主题节点对社区的贡献值,准确地描述社区。
Description
技术领域
本发明涉及一种社区发现方法,特别是涉及一种基于主题交互的社区发现方法。
背景技术
社交网络属于复杂网络中的一种,是一种异构网络。在社交网络中不仅包括用户节点,其还包括由文本构成的主题节点,由用户签到信息构成的位置节点,由照片构成的兴趣节点等,暨社交网络不再是大量的性质相同节点的链接,而是许多不同类型的节点的相互链接。把不同性质节点因为在网络中的紧密交互行为而构成的密集子图称为网络中的社区。
针对复杂网络中的社区发现主要有两种方式:一种是将复杂网络简化为一般网络,暨只含有同种性质节点的网络,然后利用用户相似度,从而得到网络中的社区。另一种方式是将同质网络中的社区发现方法修正或提出新方法应用到复杂网络中,从而发现网络中的社区。第一种方法将复杂网络简化为一般网络,会明显的丢失网络中的信息,而且用户之间的关系不紧密,不利于进行社区发现,同时在完成社区的发现后,并不能直观的得知社区的特征,暨用户因为什么原因,对什么感兴趣而形成了一个社区,因为社区中并不直观的包含主题信息。第二种方法中,对一般方法的改变并不能完全适应在复杂网络中的社区发现,同时在完成社区发现后,也不能直观的通过观察社区得知不同主题节点对社区的贡献程度,暨社区特征的精确刻画。
文献“专利公开号是CN10428271A的中国发明专利”公开了首先一种社区发现方法,该方法通过用户在社交网络中发布的内容进行归档,并提取用户的兴趣特征,从而获取用户的兴趣特征集。之后通过构建用户关系图,并以不同用户间的兴趣相似度作为用户关系的权重,采用已有的加权五项网络社区发现算法发现网络中的重叠社区。该专利的一个不足之处是在得到社区的同时,并不知道这个社区是因为什么原因聚集在一起的,不能精准的对社区进行刻画。而且即使为了刻画社区,对社区中的所有用户发布的内容进行主题特征提取,但是这样得到的特征并不能很好的刻画社区,因为形成该社区的主题并不是得自用户的所有信息,而只是用户的部分信息所得。
发明内容
为了克服现有社区发现方法对社区描述准确度差的不足,本发明提供一种基于主题交互的社区发现方法。该方法提取某一时间段内网络中文本、照片等的主题信息,对于社交网络中的用户、主题关系,根据网络中的每一次交互建立超图模型。对于超图模型中的每一条边,按照用户熵以及主题熵计算超边的权值,选取用户中的种子节点,并以这些种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度,使得子图的密度达到最大,得到密集子图。以层次聚类的方法对密集子图进行不同程度的聚合,得到不同层次下的社区。由于以种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度,然后迭代计算不同节点的贡献度,得到密集子图,对密集子图进行不同程度的聚合,得到不同主题节点对社区的贡献值,准确地描述社区。
本发明解决其技术问题所采用的技术方案是:一种基于主题交互的社区发现方法,其特点是采用以下步骤:
步骤一、采用LDA提取微博网络中文本的主题信息,根据微博网络中用户的每一次交互信息建立超图模型。超图模型中包括用户节点以及主题节点;每一次发布行为构成一条发布边u-t,其中u表示用户,t表示主题,每一次转发行为构成一条转发边u1-t1-u2,暨用户u1从用户u2处转发了主题为t1的微博文本。
步骤二、计算用户集合U中不同用户有关不同主题的用户熵,同时计算主题集合T中不同主题有关不同用户的主题熵。采用计算发布边的权重,其中Cut表示u-t边出现的次数,evu表示用户熵,evt表示主题熵;采用 表示发布边的权值大小。
步骤三、在将网络映射为超图模型后,用表示子图V'的密度,其中s表示子图中的所有边,ws表示边的权值,si表示边s的第i个相关节点。表示si节点对整个子图的贡献程度。若子图V'是密集子图,则f(x)达到最大值。在超图中进行社区发现的问题采用以下公式表达:
其中w(v1,…vk)表示包含节点v1,…vk的边的权值,所有节点对社区的最大贡献为1/ε,暨ε用来控制社区的初始大小。
计算网络中的每一个用户节点的邻居节点的数目|Nu|,其中Nu表示用户u的邻居节点集合,表示用户u的邻居节点ui的邻居节点数,表示用户u的所有邻居节点的平均邻居节点数。选取|Nu|>avg(Nu)的用户节点作为种子节点。
从种子节点出发,选取与种子节点相关的节点构成初始子图。在初始子图中,根据节点所在超边的权重计算节点的权重比例p(i)=(∑w(1,…k-1,i))/(∑w(1,…,k)),其中i表示节点,w(1,…,k)表示初始子图中的超边的权值,w(1,…k-1,i)表示初始子图中包含节点i的超边的权值。设暨对avg(Nu)向上取整。根据节点的权重比例,以及xi<ε计算不同节点对密集子图的初始贡献度xi。
步骤四、采用拉格朗日公式 进行问题求解。同时,对节点进行分类Vu(x)={i|xi∈(0,ε]},Vd(x)={i|xi∈[0,ε)},表示f(x)关于xi的偏导数。对公式进行推导,根据组合优化的KKT条件,根据公式 迭代的计算节点xm对密集子图的贡献程度,其中i表示Vu中gi(x)最大的节点,j表示Vd中gi(x)最小的节点,l表示迭代次数。 其中gij(x)表示x的两阶导。迭代终止条件为,节点贡献度不在变化或社区大小小于ε。得到社区的密集子图。
步骤五、对于得到的密集子图,采用Jaccard系数作为相似度进行度量,以层次聚类的方式得到不同程度下的社区。
本发明的有益效果是:该方法提取某一时间段内网络中文本、照片等的主题信息,对于社交网络中的用户、主题关系,根据网络中的每一次交互建立超图模型。对于超图模型中的每一条边,按照用户熵以及主题熵计算超边的权值,选取用户中的种子节点,并以这些种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度。迭代计算不同节点的贡献度,使得子图的密度达到最大,得到密集子图。以层次聚类的方法对密集子图进行不同程度的聚合,得到不同层次下的社区。由于以种子节点出发构建初始子图,并根据超边权值计算不同节点的子图贡献度,然后迭代计算不同节点的贡献度,得到密集子图,对密集子图进行不同程度的聚合,得到不同主题节点对社区的贡献值,准确地描述社区。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于主题交互的社区发现方法的流程图。
具体实施方式
参照图1。本发明基于主题交互的社区发现方法具体步骤如下:
步骤一、采用LDA提取微博网络中文本的主题信息,根据微博网络中用户的每一次交互信息(暨发布微博,转发微博)建立超图模型。超图模型中包括两类主题节点,用户节点以及主题节点;每一次发布行为构成一条发布边u-t,其中u表示用户,t表示主题,每一次转发行为构成一条转发边u1-t1-u2,暨用户u1从用户u2处转发了主题为t1的微博文本。
步骤二、计算U(用户集合)中不同用户有关不同主题的用户熵,同时计算T(主题集合)中不同主题有关不同用户的主题熵。用户熵越小,说明与用户相关的主题的多样性越低,暨与用户相关的主题的重要程度越高;同理主题熵越小,说明与主题相关的用户的重要程度越高。因此采用来计算发布边的权重,其中Cut表示u-t边出现的次数,evu表示用户熵,evt表示主题熵;同理,采用 表示发布边的权值大小。
步骤三、在将网络映射为超图模型后,暨相当于在超图模型中进行密集子图的发现。用表示子图V'的密度,其中s表示子图中的所有边,ws表示边的权值,si表示边s的第i个相关节点。表示si节点对整个子图的贡献程度。因此,若子图V'是密集子图,则f(x)达到最大值。因此,在超图中进行社区发现的问题可以被如下公式表达:
其中w(v1,…vk)表示包含节点v1,…vk的边的权值,所有节点对社区的最大贡献为1/ε,暨ε用来控制社区的初始大小。
计算网络中的每一个用户节点的邻居节点的数目|Nu|,其中Nu表示用户u的邻居节点集合,表示用户u的邻居节点ui的邻居节点数,表示用户u的所有邻居节点的平均邻居节点数。选取|Nu|>avg(Nu)的用户节点作为种子节点,暨选取邻居节点数大于其邻居的平均邻居节点数的用户作为种子节点。
从种子节点出发,选取与种子节点相关的节点构成初始子图。在初始子图中,根据节点所在超边的权重计算节点的权重比例p(i)=(∑w(1,…k-1,i))/(∑w(1,…,k)),其中i表示节点,w(1,…,k)表示初始子图中的超边的权值,w(1,…k-1,i)表示初始子图中包含节点i的超边的权值。设暨对avg(Nu)向上取整。根据节点的权重比例,以及xi<ε计算不同节点对密集子图的初始贡献度xi。
步骤四、公式1是组合优化问题,因此采用拉格朗日公式来进行问题求解暨 同时,对节点进行分类Vu(x)={i|xi∈(0,ε]},Vd(x)={i|xi∈[0,ε)},表示f(x)关于xi的偏导数。对公式进行推导,根据组合优化的KKT条件,可以根据公式 迭代的计算节点xm对密集子图的贡献程度,其中i表示Vu中gi(x)最大的节点,j表示Vd中gi(x)最小的节点,l表示迭代次数。 其中gij(x)表示x的两阶导。迭代终止条件为,节点贡献度不在变化或社区大小小于ε。这样可以使得得到的社区的密度达到最大,暨得到密集子图。
步骤五、对于得到的密集子图,采用Jaccard系数作为相似度进行度量,以层次聚类的方式得到不同程度下的社区。
Claims (1)
1.一种基于主题交互的社区发现方法,其特征在于包括以下步骤:
步骤一、采用LDA提取微博网络中文本的主题信息,根据微博网络中用户的每一次交互信息建立超图模型;超图模型中包括用户节点以及主题节点;每一次发布行为构成一条发布边u-t,其中u表示用户,t表示主题,每一次转发行为构成一条转发边u1-t1-u2,暨用户u1从用户u2处转发了主题为t1的微博文本;
步骤二、计算用户集合U中不同用户有关不同主题的用户熵,同时计算主题集合T中不同主题有关不同用户的主题熵;采用计算发布边的权重,其中Cut表示u-t边出现的次数,evu表示用户熵,evt表示主题熵;采用 表示发布边的权值大小;
步骤三、在将网络映射为超图模型后,用表示子图V'的密度,其中s表示子图中的所有边,ws表示边的权值,si表示边s的第i个相关节点;表示si节点对整个子图的贡献程度;若子图V'是密集子图,则f(x)达到最大值;在超图中进行社区发现的问题采用以下公式表达:
其中w(v1,…vk)表示包含节点v1,…vk的边的权值,所有节点对社区的最大贡献为1/ε,暨ε用来控制社区的初始大小;
计算网络中的每一个用户节点的邻居节点的数目|Nu|,其中Nu表示用户u的邻居节点集合,|Nui|表示用户u的邻居节点ui的邻居节点数,表示用户u的所有邻居节点的平均邻居节点数;选取|Nu|>avg(Nu)的用户节点作为种子节点;
从种子节点出发,选取与种子节点相关的节点构成初始子图;在初始子图中,根据节点所在超边的权重计算节点的权重比例p(i)=(∑w(1,…k-1,i))/(∑w(1,…,k)),其中i表示节点,w(1,…,k)表示初始子图中的超边的权值,w(1,…k-1,i)表示初始子图中包含节点i的超边的权值;设暨对avg(Nu)向上取整;根据节点的权重比例,以及xi<ε计算不同节点对密集子图的初始贡献度xi;
步骤四、采用拉格朗日公式 进行问题求解;同时,对节点进行分类Vu(x)={i|xi∈(0,ε]},Vd(x)={i|xi∈[0,ε)},表示f(x)关于xi的偏导数;对公式进行推导,根据组合优化的KKT条件,根据公式 迭代的计算节点xm对密集子图的贡献程度,其中i表示Vu中gi(x)最大的节点,j表示Vd中gi(x)最小的节点,l表示迭代次数; 其中gij(x)表示x的两阶导;迭代终止条件为,节点贡献度不在变化或社区大小小于ε;得到社区的密集子图;
步骤五、对于得到的密集子图,采用Jaccard系数作为相似度进行度量,以层次聚类的方式得到不同程度下的社区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390683.0A CN105159911B (zh) | 2015-07-06 | 2015-07-06 | 基于主题交互的社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390683.0A CN105159911B (zh) | 2015-07-06 | 2015-07-06 | 基于主题交互的社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105159911A true CN105159911A (zh) | 2015-12-16 |
CN105159911B CN105159911B (zh) | 2018-07-10 |
Family
ID=54800768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510390683.0A Active CN105159911B (zh) | 2015-07-06 | 2015-07-06 | 基于主题交互的社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105159911B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372239A (zh) * | 2016-09-14 | 2017-02-01 | 电子科技大学 | 一种基于异质网络的社交网络事件关联分析方法 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN109582806A (zh) * | 2018-12-06 | 2019-04-05 | 上海合合信息科技发展有限公司 | 一种基于图计算的个人信息处理方法及系统 |
CN112084425A (zh) * | 2020-09-10 | 2020-12-15 | 深圳市万佳安人工智能数据技术有限公司 | 一种基于节点连接和属性相似度的社团发现方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106616B (zh) * | 2013-02-27 | 2016-01-20 | 中国科学院自动化研究所 | 基于资源整合与信息传播特征的社区发现及演化方法 |
CN104680179B (zh) * | 2015-03-09 | 2018-06-26 | 西安电子科技大学 | 基于邻域相似度的数据降维方法 |
CN105740366A (zh) * | 2016-01-26 | 2016-07-06 | 哈尔滨工业大学深圳研究生院 | 微博用户兴趣推理方法及装置 |
-
2015
- 2015-07-06 CN CN201510390683.0A patent/CN105159911B/zh active Active
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372239A (zh) * | 2016-09-14 | 2017-02-01 | 电子科技大学 | 一种基于异质网络的社交网络事件关联分析方法 |
CN106815310A (zh) * | 2016-12-20 | 2017-06-09 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN106815310B (zh) * | 2016-12-20 | 2020-04-21 | 华南师范大学 | 一种对海量文档集的层次聚类方法及系统 |
CN109582806A (zh) * | 2018-12-06 | 2019-04-05 | 上海合合信息科技发展有限公司 | 一种基于图计算的个人信息处理方法及系统 |
CN112084425A (zh) * | 2020-09-10 | 2020-12-15 | 深圳市万佳安人工智能数据技术有限公司 | 一种基于节点连接和属性相似度的社团发现方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105159911B (zh) | 2018-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cherifi et al. | On community structure in complex networks: challenges and opportunities | |
CN104268271B (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
CN104008165B (zh) | 一种基于网络拓扑结构和节点属性的社团检测方法 | |
Fu et al. | Learning sparse causal Gaussian networks with experimental intervention: regularization and coordinate descent | |
CN103106279B (zh) | 一种同时基于节点属性以及结构关系相似度的聚类方法 | |
CN103678671B (zh) | 一种社交网络中的动态社区检测方法 | |
CN105159911A (zh) | 基于主题交互的社区发现方法 | |
CN107705213B (zh) | 一种静态社交网络的重叠社团发现方法 | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及系统 | |
CN106776729B (zh) | 一种大规模知识图谱路径查询预测器构造方法 | |
Lian et al. | Regularized content-aware tensor factorization meets temporal-aware location recommendation | |
CN107609469A (zh) | 社会网络关联用户挖掘方法及系统 | |
CN111738447B (zh) | 基于时空关系学习的移动社交网络用户关系推断方法 | |
Xu et al. | A community detection method based on local optimization in social networks | |
CN106649731A (zh) | 一种基于大规模属性网络的节点相似性搜索方法 | |
CN109960755A (zh) | 一种基于动态迭代快速梯度的用户隐私保护方法 | |
Wang et al. | Hierarchical and overlapping social circle identification in ego networks based on link clustering | |
Zhang et al. | Reconciling multiple social networks effectively and efficiently: An embedding approach | |
Shemshadi et al. | Ecs: A framework for diversified and relevant search in the internet of things | |
CN109361556A (zh) | 一种基于节点熵和结构洞的关键节点感知方法 | |
CN104156462A (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
Zhang et al. | Development of FriendLink similarity metric for link prediction in weighted multiplex networks | |
Liu et al. | UGCC: Social media user geolocation via cyclic coupling | |
Huang | A novel important node discovery algorithm based on local community aggregation and recognition in complex networks | |
Chakradeo et al. | Data mining: Building social network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |