CN110851733A

CN110851733A - 基于网络拓扑和文档内容的社团发现和情感解释方法

Info

Publication number: CN110851733A
Application number: CN201911050449.8A
Authority: CN
Inventors: 金弟; 刘孟荃
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-28

Abstract

本发明公开一种基于网络拓扑和文档内容的社团发现和情感解释方法，主要步骤包括：构建对应的生成式概率图模型，对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画；根据概率图模型中各参数服从的概率分布，以概率分布的形式刻画生成过程，得到完全数据似然函数；定义相关参数，得到证据下界(ELBO)；提取证据下界中与各个变分参数有关的部分，分别求偏导，并等于0，求得各个变分参数的优化结果；记录所获得的参数结果，利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向，并将训练好的进行可视化表示。

Description

基于网络拓扑和文档内容的社团发现和情感解释方法

技术领域

本发明属于复杂网络分析、自然语言数据处理和数据挖掘领域，涉及社团检测技术和社交网络推荐技术，尤其涉及一种基于网络拓扑和文档内容的社团发现和情感解释方法，其实质基于网络拓扑和结点内容信息的贝叶斯有向概率图模型社团发现方法。

背景技术

近几年来，随着社交媒体平台的快速发展，社交网络产生了大量的数据，为研究人员提供分析和了解互联网上用户和信息的机会。面对海量的数据，社团发现成为了在复杂网络分析领域中的一项重要任务，它可以在理解和分析社交网络时提供一个群体性的视角。复杂网络社团结构检测已吸引了许多来自不同研究领域研究者的关注。目前已提出了许多基于不同理论和技术的方法，它们包括谱聚类，层次聚类，启发式方法，模块度优化，动力学方法和统计模型推断等。传统的社团发现方法仅利用网络拓扑信息，针对网络中结点之间的链接模式来检测网络中的社团结构。最近研究发现网络中的结点内容信息(例如社交网络中用户发布的文档内容信息)对于检测社团结构也是有帮助的。尤其是当拓扑信息有噪声时，可以用内容信息进行辅助弥补，并且结点的内容信息可以为社团提供语义解释，这对于理解社区检测的结果非常有用。

然而，结合网络拓扑和内容信息的社团发现方法集中于使用文档的主题来解释社区，即找出社团中所有用户所共同感兴趣的话题，以此来表示为该社团的主题。然而这些方法大都忽略了同样非常重要的情感信息。在实际生活中，持有相似情感倾向的用户们更有可能形成一个社团，而情感信息因为难以直接识别，所以虽然非常重要，但却往往被忽略。近年来已有一些方法同时利用主题信息和情感倾向信息进行社团检测，但是这些方法都是假设一个社团只有一个主题，或者只有一种特定的情感。但在实际情况中，同一个社团中的用户可能感兴趣的主题有多个，对不同的主题也都报有不同的情感倾向，单一的假设方式有时反而会导致得到的结果准确性低，且缺乏实际意义。此外，大多数方法在对社团进行解释时，利用的是单词来表示主题。而单个的词汇有时会出现一词多义的情况，这样就会导致社团解释的结果出现语义模糊、不易理解的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于网络拓扑和文档内容的社团发现和情感解释方法，能够有效解决传统社团发现方法仅利用单一主体信息或情感信息进行社团解释的局限性，以及使用单个词语对社团主题解释难以理解的问题，从而构建以主题和情感这两个层次对社团进行解释的社团发现方法，提高社团发现的准确性，同时得到更细粒度、更容易理解的社团解释结果。

本发明针对现有技术的存在局限性，提出了一种有效结合网络的拓扑信息和网络中的结点内容信息的生成式模型，同时通过变分推断算法进行模型参数推断，从主题和情感这两个层次对社团进行解释。并且利用社交网络中特有的一种更具有概括性的标签词(hashtag)，同时利用用户所发布的文档中的普通词和标签来表示社团的主题，从而得到了更精准的社团检测结果和更细粒度、更容易理解的社团解释结果。

为了达到上述目的，本发明采用的技术方案是基于网络拓扑和文档内容的社团发现和情感解释方法，包括以下步骤：

1)构建对应的生成式概率图模型，对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画。通过引入结点的社团归属变量、结点内容的主题、情感标签，以及相应的转移关系矩阵，同时将结点内容分为标签和普通单词两类进行区分，结合<社团，主题,情感>的词分布，刻画网络中链接和结点内容的生成概率图模型。

2)根据概率图模型中各参数服从的概率分布，以概率分布的形式刻画生成过程，得到完全数据似然函数。

其中字符所对应的含义可参照表1。

表1为概率图模型中所对应的标识的解释

3)定义相关参数即社团标签，主题标签，情感标签，情感、主题和社团标签的转移概率，以及对应的先验概率的变分参数和分布，再结合步骤2)的完全似然函数，得到证据下界(ELBO)。

4)为了最大化证据下界(ELBO)，提取证据下界中与各个变分参数有关的部分，分别求偏导，并等于0，求得各个变分参数的优化结果；

5)固定步骤4)优化所获得的变分参数，利用随机梯度下降的方法获得转移概率和各类词分布参数的更新结果

6)处理收集到的数据集，过滤出所需要的网络拓扑信息和结点的内容信息，作为模型中的观测数据A,W,T。

7)随机初始化参数，利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程，将处理好的数据集放入模型中训练，不断迭代，直至参数更新收敛。

8)记录所获得的参数结果，利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向，并将训练好的进行可视化表示。

有益效果

我们在一个大规模的社交网络中进行实验。与本发明进行对比的有7个方法，包括：1)仅利用网络拓扑信息的BigCLAM。2)仅利用结点内容信息的SMR。3)结合网络拓扑信息和网络结点内容信息的4种方法：Circle，CESNA，SCI和NEMBP.

我们采用著名的模块度函数Q作为社团发现方法性能的度量标准。一个K簇的划分是一个标签集合{c},其中{1,…,K}是结点i所属的簇。一个包含n个结点和m条边的网络划分{c}的模块度函数定义如下：

其中ε是边的集合，度是结点i的邻居结点数目，

是Kronecker函数，其仅当c_i＝c_j时取值为1，否则为0。这时，模块度的物理含义即为：网络中同一社团内结点的边数占网络总边数的比例，减去相同结点数相同社团划分时其平均期望的边数的比例。如果社团内的边数与随机值相同，则Q＝0；对于最强的社团结构可有Q＝1。

图2中的实验结果表明，本发明的方法与7个统计模型类社团发现方法进行比较，在不同社团数量的情况下，本发明的结果均具有更高的精确度。

图3中的实验结果展示出本发明的方法可以同时利用社交媒体中用户发布的普通词汇和标签词共同表示社团的主题，同时利用主题对用的对应的情感倾向。

本发明的有益效果如下：

1、本发明方法有效利用了网络拓扑信息和结点内容信息，通过两种信息的互相补充，提高了社团发现的准确性。

2、本发明通过同时刻画社团的主题和各个主题下的情感倾向，设计的模型与实际真实情况更为一致，得到了更加细粒度、更加容易理解、更具有实际应用价值的社团解释结果。

3、本发明利用了社交媒体中特有的一类更具有概括性的标签词，分别刻画普通词和标签词的生成过程，同时使用这两类词来表示社团的主题，是社团解释的结果更具有可理解性。

附图说明

图1本发明所设计的贝叶斯生成概率图模型

图2在不同社团数k情况下，7个对比算法与本发明方法的模块度评价结果。

图3一个社团的社团解释结果。

这个社团有一个主题，，该主题对应左右两种情感倾向，每一种情感倾向分别用普通单词的词云和标签词的词云来表示。根据词云可以看出这个社团的主题是音乐相关的，其中左边一列的词云表示的是各个主题下的正面情感倾向，右列的词云表示的是负面情感倾向。

具体实施方式

下面通过具体实施例对本发明作进一步的说明。

为了得到更高质量的社团发现结果和更细粒度、可理解性更强的社团解释结果，本发明利用概率图模型建立了一个结合主题和情感双层语义的生成式模型，有效融合网络中的拓扑信息和结点内容信息。为了使该方法运算快，具有强的可扩展性，本发明采用的变分期望最大化算法进行优化。通过本发明的训练模型，用户可获得更精准的社团结构和更有实际意义的社团解释。

本发明基于有效的贝叶斯概率图模型，利用变分推断所得的更新规则，高效迅速的训练模型，获取所需的模型参数。所提的模型可以很快迭代至收敛，具有很强的可扩展性，可应用到大规模文档网络中。对于训练数据的实验结果也表明，所提方法能够获得高质量的社团检测结果和社团解释结果。

本发明方法所建立的概率图模型(即用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布)如图1所示。

本发明采用的技术方案利用网络拓扑链接和网络结点内容的社团检测和社团解释表示方法，包括以下步骤：

步骤1：构建出所对应的概率图模型，包拓扑信息、结点内容信息的观测数据社团标签、社团标签，主题标签，情感标签，情感、主题和社团标签的转移概率等潜在变量和先验概率的变分参数和分布，共三部分，并详细刻画出模型中每个变量的含义；

步骤2：根据概率图模型中各参数服从的概率分布，刻画模型生成过程，得到完全数据似然函数；

步骤3：定义相关参数即主题标签，社团标签，主题和社团标签的转移概率，社团标签的先验概率的变分参数和分布，再结合步骤2的完全似然函数，得到证据下界(ELBO)；

步骤4：为了最大化证据下界(ELBO)，提取证据下界中与各个变分参数有关的部分，分别求偏导，并等于0，求得各个变分参数的优化结果；

步骤5：固定步骤4)优化所获得的变分参数，利用随机梯度下降的方法获得转移矩阵和各类词概率分布(即M和H)的优化；

(1)提取证据下界中与转移矩阵有关的部分，求偏导；

(2)通过(1)中所得证据下界中有关转移矩阵和词概率分布的导数的等式，代入并通过随机梯度下降的方法获得转移矩阵中概率分布参数的更新规则。

步骤6：采集并处理数据集，从文档网络中抽取所需要的内容和邻接矩阵；

步骤7：随机初始化参数，利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程，将处理好的数据集放入模型中训练，不断迭代，直至参数更新收敛；

步骤8：将所获得的参数结果记录下来，利用参数训练出社团的主题情感表示词分布和标签分布最大值来表示社团的主题和情感倾向，并将训练好的进行可视化表示。

通过模型求解出来的更新规则进行训练，通过文档的主题分布所获得的文档表示放到分类器中训练，分类结果更加精确，且社团解释利用了主题和情感两个层次的可视化(利用对应的词分布，并取其中概率最大的几个词来表征主题)，表现出本发明的方法可以得到更细粒度、更高质量的社团解释结果。

Claims

1.基于网络拓扑和文档内容的社团发现和情感解释方法，其特征在于，包括以下步骤：

1)构建对应的生成式概率图模型，对生成网络拓扑链接和生成网络结点内容两部分生成过程进行刻画；

2)根据概率图模型中各参数服从的概率分布，以概率分布的形式刻画生成过程，得到完全数据似然函数；

3)定义相关参数即社团标签，主题标签，情感标签，情感、主题和社团标签的转移概率，以及对应的先验概率的变分参数和分布，再结合步骤2)的完全似然函数，得到证据下界(ELBO)；

4)提取证据下界中与各个变分参数有关的部分，分别求偏导，并等于0，求得各个变分参数的优化结果；

5)固定步骤4)优化所获得的变分参数，利用随机梯度下降的方法获得转移概率和各类词分布参数的更新结果；

6)处理收集到的数据集，过滤出所需要的网络拓扑信息和结点的内容信息，作为模型中的观测数据A,W,T；

7)随机初始化参数，利用步骤4)和步骤5)所得的参数更新规则建立模型训练过程，将处理好的数据集放入模型中训练，不断迭代，直至参数更新收敛；

2.根据权利要求1所述的基于网络拓扑和文档内容的社团发现和情感解释方法，其特征在于，所述步骤1)通过引入结点的社团归属变量、结点内容的主题、情感标签，以及相应的转移关系矩阵，同时将结点内容分为标签和普通单词两类进行区分，结合词分布，刻画网络中链接和结点内容的生成概率图模型。