CN110851733A - 基于网络拓扑和文档内容的社团发现和情感解释方法 - Google Patents

基于网络拓扑和文档内容的社团发现和情感解释方法 Download PDF

Info

Publication number
CN110851733A
CN110851733A CN201911050449.8A CN201911050449A CN110851733A CN 110851733 A CN110851733 A CN 110851733A CN 201911050449 A CN201911050449 A CN 201911050449A CN 110851733 A CN110851733 A CN 110851733A
Authority
CN
China
Prior art keywords
community
emotion
distribution
parameter
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911050449.8A
Other languages
English (en)
Inventor
金弟
刘孟荃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911050449.8A priority Critical patent/CN110851733A/zh
Publication of CN110851733A publication Critical patent/CN110851733A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于网络拓扑和文档内容的社团发现和情感解释方法,主要步骤包括:构建对应的生成式概率图模型,对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画;根据概率图模型中各参数服从的概率分布,以概率分布的形式刻画生成过程,得到完全数据似然函数;定义相关参数,得到证据下界(ELBO);提取证据下界中与各个变分参数有关的部分,分别求偏导,并等于0,求得各个变分参数的优化结果;记录所获得的参数结果,利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向,并将训练好的进行可视化表示。

Description

基于网络拓扑和文档内容的社团发现和情感解释方法
技术领域
本发明属于复杂网络分析、自然语言数据处理和数据挖掘领域,涉及社团检测技术和社交网络推荐技术,尤其涉及一种基于网络拓扑和文档内容的社团发现和情感解释方法,其实质基于网络拓扑和结点内容信息的贝叶斯有向概率图模型社团发现方法。
背景技术
近几年来,随着社交媒体平台的快速发展,社交网络产生了大量的数据,为研究人员提供分析和了解互联网上用户和信息的机会。面对海量的数据,社团发现成为了在复杂网络分析领域中的一项重要任务,它可以在理解和分析社交网络时提供一个群体性的视角。复杂网络社团结构检测已吸引了许多来自不同研究领域研究者的关注。目前已提出了许多基于不同理论和技术的方法,它们包括谱聚类,层次聚类,启发式方法,模块度优化,动力学方法和统计模型推断等。传统的社团发现方法仅利用网络拓扑信息,针对网络中结点之间的链接模式来检测网络中的社团结构。最近研究发现网络中的结点内容信息(例如社交网络中用户发布的文档内容信息)对于检测社团结构也是有帮助的。尤其是当拓扑信息有噪声时,可以用内容信息进行辅助弥补,并且结点的内容信息可以为社团提供语义解释,这对于理解社区检测的结果非常有用。
然而,结合网络拓扑和内容信息的社团发现方法集中于使用文档的主题来解释社区,即找出社团中所有用户所共同感兴趣的话题,以此来表示为该社团的主题。然而这些方法大都忽略了同样非常重要的情感信息。在实际生活中,持有相似情感倾向的用户们更有可能形成一个社团,而情感信息因为难以直接识别,所以虽然非常重要,但却往往被忽略。近年来已有一些方法同时利用主题信息和情感倾向信息进行社团检测,但是这些方法都是假设一个社团只有一个主题,或者只有一种特定的情感。但在实际情况中,同一个社团中的用户可能感兴趣的主题有多个,对不同的主题也都报有不同的情感倾向,单一的假设方式有时反而会导致得到的结果准确性低,且缺乏实际意义。此外,大多数方法在对社团进行解释时,利用的是单词来表示主题。而单个的词汇有时会出现一词多义的情况,这样就会导致社团解释的结果出现语义模糊、不易理解的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于网络拓扑和文档内容的社团发现和情感解释方法,能够有效解决传统社团发现方法仅利用单一主体信息或情感信息进行社团解释的局限性,以及使用单个词语对社团主题解释难以理解的问题,从而构建以主题和情感这两个层次对社团进行解释的社团发现方法,提高社团发现的准确性,同时得到更细粒度、更容易理解的社团解释结果。
本发明针对现有技术的存在局限性,提出了一种有效结合网络的拓扑信息和网络中的结点内容信息的生成式模型,同时通过变分推断算法进行模型参数推断,从主题和情感这两个层次对社团进行解释。并且利用社交网络中特有的一种更具有概括性的标签词(hashtag),同时利用用户所发布的文档中的普通词和标签来表示社团的主题,从而得到了更精准的社团检测结果和更细粒度、更容易理解的社团解释结果。
为了达到上述目的,本发明采用的技术方案是基于网络拓扑和文档内容的社团发现和情感解释方法,包括以下步骤:
1)构建对应的生成式概率图模型,对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画。通过引入结点的社团归属变量、结点内容的主题、情感标签,以及相应的转移关系矩阵,同时将结点内容分为标签和普通单词两类进行区分,结合<社团,主题,情感>的词分布,刻画网络中链接和结点内容的生成概率图模型。
2)根据概率图模型中各参数服从的概率分布,以概率分布的形式刻画生成过程,得到完全数据似然函数。
Figure BDA0002255205570000021
其中字符所对应的含义可参照表1。
表1为概率图模型中所对应的标识的解释
Figure BDA0002255205570000031
3)定义相关参数即社团标签,主题标签,情感标签,情感、主题和社团标签的转移概率,以及对应的先验概率的变分参数和分布,再结合步骤2)的完全似然函数,得到证据下界(ELBO)。
4)为了最大化证据下界(ELBO),提取证据下界中与各个变分参数有关的部分,分别求偏导,并等于0,求得各个变分参数的优化结果;
5)固定步骤4)优化所获得的变分参数,利用随机梯度下降的方法获得转移概率和各类词分布参数的更新结果
6)处理收集到的数据集,过滤出所需要的网络拓扑信息和结点的内容信息,作为模型中的观测数据A,W,T。
7)随机初始化参数,利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程,将处理好的数据集放入模型中训练,不断迭代,直至参数更新收敛。
8)记录所获得的参数结果,利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向,并将训练好的进行可视化表示。
有益效果
我们在一个大规模的社交网络中进行实验。与本发明进行对比的有7个方法,包括:1)仅利用网络拓扑信息的BigCLAM。2)仅利用结点内容信息的SMR。3)结合网络拓扑信息和网络结点内容信息的4种方法:Circle,CESNA,SCI和NEMBP.
我们采用著名的模块度函数Q作为社团发现方法性能的度量标准。一个K簇的划分是一个标签集合{c},其中{1,…,K}是结点i所属的簇。一个包含n个结点和m条边的网络划分{c}的模块度函数定义如下:
其中ε是边的集合,度是结点i的邻居结点数目,
Figure BDA0002255205570000042
是Kronecker函数,其仅当ci=cj时取值为1,否则为0。这时,模块度的物理含义即为:网络中同一社团内结点的边数占网络总边数的比例,减去相同结点数相同社团划分时其平均期望的边数的比例。如果社团内的边数与随机值相同,则Q=0;对于最强的社团结构可有Q=1。
图2中的实验结果表明,本发明的方法与7个统计模型类社团发现方法进行比较,在不同社团数量的情况下,本发明的结果均具有更高的精确度。
图3中的实验结果展示出本发明的方法可以同时利用社交媒体中用户发布的普通词汇和标签词共同表示社团的主题,同时利用主题对用的对应的情感倾向。
本发明的有益效果如下:
1、本发明方法有效利用了网络拓扑信息和结点内容信息,通过两种信息的互相补充,提高了社团发现的准确性。
2、本发明通过同时刻画社团的主题和各个主题下的情感倾向,设计的模型与实际真实情况更为一致,得到了更加细粒度、更加容易理解、更具有实际应用价值的社团解释结果。
3、本发明利用了社交媒体中特有的一类更具有概括性的标签词,分别刻画普通词和标签词的生成过程,同时使用这两类词来表示社团的主题,是社团解释的结果更具有可理解性。
附图说明
图1本发明所设计的贝叶斯生成概率图模型
图2在不同社团数k情况下,7个对比算法与本发明方法的模块度评价结果。
图3一个社团的社团解释结果。
这个社团有一个主题,,该主题对应左右两种情感倾向,每一种情感倾向分别用普通单词的词云和标签词的词云来表示。根据词云可以看出这个社团的主题是音乐相关的,其中左边一列的词云表示的是各个主题下的正面情感倾向,右列的词云表示的是负面情感倾向。
具体实施方式
下面通过具体实施例对本发明作进一步的说明。
为了得到更高质量的社团发现结果和更细粒度、可理解性更强的社团解释结果,本发明利用概率图模型建立了一个结合主题和情感双层语义的生成式模型,有效融合网络中的拓扑信息和结点内容信息。为了使该方法运算快,具有强的可扩展性,本发明采用的变分期望最大化算法进行优化。通过本发明的训练模型,用户可获得更精准的社团结构和更有实际意义的社团解释。
本发明基于有效的贝叶斯概率图模型,利用变分推断所得的更新规则,高效迅速的训练模型,获取所需的模型参数。所提的模型可以很快迭代至收敛,具有很强的可扩展性,可应用到大规模文档网络中。对于训练数据的实验结果也表明,所提方法能够获得高质量的社团检测结果和社团解释结果。
本发明方法所建立的概率图模型(即用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布)如图1所示。
本发明采用的技术方案利用网络拓扑链接和网络结点内容的社团检测和社团解释表示方法,包括以下步骤:
步骤1:构建出所对应的概率图模型,包拓扑信息、结点内容信息的观测数据社团标签、社团标签,主题标签,情感标签,情感、主题和社团标签的转移概率等潜在变量和先验概率的变分参数和分布,共三部分,并详细刻画出模型中每个变量的含义;
步骤2:根据概率图模型中各参数服从的概率分布,刻画模型生成过程,得到完全数据似然函数;
步骤3:定义相关参数即主题标签,社团标签,主题和社团标签的转移概率,社团标签的先验概率的变分参数和分布,再结合步骤2的完全似然函数,得到证据下界(ELBO);
步骤4:为了最大化证据下界(ELBO),提取证据下界中与各个变分参数有关的部分,分别求偏导,并等于0,求得各个变分参数的优化结果;
步骤5:固定步骤4)优化所获得的变分参数,利用随机梯度下降的方法获得转移矩阵和各类词概率分布(即M和H)的优化;
(1)提取证据下界中与转移矩阵有关的部分,求偏导;
(2)通过(1)中所得证据下界中有关转移矩阵和词概率分布的导数的等式,代入并通过随机梯度下降的方法获得转移矩阵中概率分布参数的更新规则。
步骤6:采集并处理数据集,从文档网络中抽取所需要的内容和邻接矩阵;
步骤7:随机初始化参数,利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程,将处理好的数据集放入模型中训练,不断迭代,直至参数更新收敛;
步骤8:将所获得的参数结果记录下来,利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向,并将训练好的进行可视化表示。
通过模型求解出来的更新规则进行训练,通过文档的主题分布所获得的文档表示放到分类器中训练,分类结果更加精确,且社团解释利用了主题和情感两个层次的可视化(利用对应的词分布,并取其中概率最大的几个词来表征主题),表现出本发明的方法可以得到更细粒度、更高质量的社团解释结果。

Claims (2)

1.基于网络拓扑和文档内容的社团发现和情感解释方法,其特征在于,包括以下步骤:
1)构建对应的生成式概率图模型,对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画;
2)根据概率图模型中各参数服从的概率分布,以概率分布的形式刻画生成过程,得到完全数据似然函数;
3)定义相关参数即社团标签,主题标签,情感标签,情感、主题和社团标签的转移概率,以及对应的先验概率的变分参数和分布,再结合步骤2)的完全似然函数,得到证据下界(ELBO);
4)提取证据下界中与各个变分参数有关的部分,分别求偏导,并等于0,求得各个变分参数的优化结果;
5)固定步骤4)优化所获得的变分参数,利用随机梯度下降的方法获得转移概率和各类词分布参数的更新结果;
6)处理收集到的数据集,过滤出所需要的网络拓扑信息和结点的内容信息,作为模型中的观测数据A,W,T;
7)随机初始化参数,利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程,将处理好的数据集放入模型中训练,不断迭代,直至参数更新收敛;
8)记录所获得的参数结果,利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向,并将训练好的进行可视化表示。
2.根据权利要求1所述的基于网络拓扑和文档内容的社团发现和情感解释方法,其特征在于,所述步骤1)通过引入结点的社团归属变量、结点内容的主题、情感标签,以及相应的转移关系矩阵,同时将结点内容分为标签和普通单词两类进行区分,结合词分布,刻画网络中链接和结点内容的生成概率图模型。
CN201911050449.8A 2019-10-31 2019-10-31 基于网络拓扑和文档内容的社团发现和情感解释方法 Pending CN110851733A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911050449.8A CN110851733A (zh) 2019-10-31 2019-10-31 基于网络拓扑和文档内容的社团发现和情感解释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911050449.8A CN110851733A (zh) 2019-10-31 2019-10-31 基于网络拓扑和文档内容的社团发现和情感解释方法

Publications (1)

Publication Number Publication Date
CN110851733A true CN110851733A (zh) 2020-02-28

Family

ID=69598391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911050449.8A Pending CN110851733A (zh) 2019-10-31 2019-10-31 基于网络拓扑和文档内容的社团发现和情感解释方法

Country Status (1)

Country Link
CN (1) CN110851733A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445982A (zh) * 2020-11-26 2021-03-05 天津大学 一种基于社交网络的情感交互的社团检测方法
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN113779237A (zh) * 2020-06-09 2021-12-10 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012057563A2 (ko) * 2010-10-28 2012-05-03 (주)엠씨에스로직 감성 기반의 커뮤니티 형성 시스템, 커뮤니티 형성이 가능한 통신 단말기 및 그 커뮤니티 형성방법
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN107608962A (zh) * 2017-09-12 2018-01-19 电子科技大学 基于复杂网络的推特大选数据分析方法
CN109214454A (zh) * 2018-08-31 2019-01-15 东北大学 一种面向微博的情感社区分类方法
CN109299464A (zh) * 2018-10-12 2019-02-01 天津大学 基于网络链接和文档内容的主题嵌入、文档表示方法
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012057563A2 (ko) * 2010-10-28 2012-05-03 (주)엠씨에스로직 감성 기반의 커뮤니티 형성 시스템, 커뮤니티 형성이 가능한 통신 단말기 및 그 커뮤니티 형성방법
CN104991956A (zh) * 2015-07-21 2015-10-21 中国人民解放军信息工程大学 基于主题概率模型的微博传播群体划分与账户活跃度评估方法
CN107608962A (zh) * 2017-09-12 2018-01-19 电子科技大学 基于复杂网络的推特大选数据分析方法
CN109214454A (zh) * 2018-08-31 2019-01-15 东北大学 一种面向微博的情感社区分类方法
CN109299464A (zh) * 2018-10-12 2019-02-01 天津大学 基于网络链接和文档内容的主题嵌入、文档表示方法
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YING XIE.ET.L: "High-performance community detection in social networks using a deep transitive autoencoder", 《INFORMATION SCIENCES》 *
李真等: "基于NMF 的社团及属性标签发现方法", 《小型微型计算机系统》 *
金弟等: "面向带属性复杂网络的鲁棒、强解释性社团发现方法", 《计算机学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779237A (zh) * 2020-06-09 2021-12-10 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质
CN113779237B (zh) * 2020-06-09 2023-12-26 奇安信科技集团股份有限公司 构建社交行为序列图的方法、系统、移动终端及可读存储介质
CN112445982A (zh) * 2020-11-26 2021-03-05 天津大学 一种基于社交网络的情感交互的社团检测方法
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法
CN112784965B (zh) * 2021-01-28 2022-07-29 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Similar Documents

Publication Publication Date Title
CN107153713B (zh) 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
Ranjan et al. LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features
CN108717408A (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN110851733A (zh) 基于网络拓扑和文档内容的社团发现和情感解释方法
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN111626050B (zh) 基于表情词典与情感常识的微博情感分析方法
CN107577665B (zh) 文本情感倾向的判别方法
CN113962293B (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN110472226A (zh) 一种基于知识图谱的网络安全态势预测方法及装置
CN109299464B (zh) 基于网络链接和文档内容的主题嵌入、文档表示方法
CN109214454A (zh) 一种面向微博的情感社区分类方法
Lee et al. Detecting suicidality with a contextual graph neural network
CN112100518B (zh) 一种考虑用户在线关系网络的舆情主题发现方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN105337842B (zh) 一种与内容无关的垃圾邮件过滤方法
Ding et al. The research of text mining based on self-organizing maps
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
CN114064885B (zh) 一种无监督中文多文档抽取式摘要方法
Alvi et al. An effective framework for tweet level sentiment classification using recursive text pre-processing approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200228

WD01 Invention patent application deemed withdrawn after publication