CN110287485A

CN110287485A - 一种基于主题建模的社会群体间影响力量化方法

Info

Publication number: CN110287485A
Application number: CN201910500180.2A
Authority: CN
Inventors: 马驰; 张怡
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-27
Anticipated expiration: 2039-06-11
Also published as: CN110287485B

Abstract

本发明公开了一种基于主题建模的社会群体间影响力量化方法，步骤1，对每个社交群体的文本语义提取模型；步骤2，获取每条原始数据C1、...、CN的主题分布概率，选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注，对标注后的原始数据数据进行结构化处理，生成社会群体对应N个数据集；步骤3，计算社会群体Group i的主题topic‑k在t+1时段所受到的其他社会群体的影响。与现有技术相比，本发明1)创新性地将统计与语义分析相结合；2)使用户对群体间意见的相互影响的判断更符合实际。

Description

一种基于主题建模的社会群体间影响力量化方法

技术领域

本发明涉及社交媒体舆论分析领域，特别涉及一种社会群体间的影响力量化方法。

背景技术

如今，社交群体用户数量庞大，这些用户在事件发酵过程中产生巨大的流量。探索不同社会群体的观点变化和这些群体间的互相影响对于政府机构、新闻媒体或者大型企业管理者快速了解社会群体间的互相影响并作出舆论控制策略有着重要意义。现有的影响力量化方法大多数直接使用转发量来做影响力的衡量，这种方法忽略了在社交网络中无处不在的‘水军’。因为在真实的传播过程中，受众往往从自己原有的意见、观点和兴趣出发，有选择地接触信息，他们更倾向于接触与自己态度较为一致的信息。因此考虑信息间的语义相似度来量化影响力的方法更具有实际意义。提取文本的内容有聚类和主题建模两种方式，使用聚类算法的提取结果不能反映词汇间以及不同文本间词汇的语义信息，而主题建模方法更适合提取文本的语义信息。对于包含时间信息的时序数据，提取文本的语义内容时多使用引入时间构建的主题建模来实现。

发明内容

本发明旨在提出一种基于主题建模的社会群体间影响力量化方法，将社会群体间的影响力进行量化，使影响力更直观便于分析。

本发明的一种基于主题建模的社会群体间影响力量化方法，该方法包括如下步骤：

步骤1，对每个社交群体的文本语义，使用DTM来提取模型，该模型由预处理后的将社会群体Group1、...、Group N所对应的原始数据C1、...、CN按发布时间排序的文本的值corpus和每个时段的文本数目序列值slice_time组成，经过N次DTM主题提取，得到每个社会群体的主题模型M₁、...、M_N；

步骤2，获取每条原始数据C₁、...、C_N的主题分布概率，选择概率值最大的主题标号作为该原始数据所属主题的编号进行标注，对标注后的原始数据数据进行结构化处理，生成N个社会群体对应N个数据集corpus₁、...、corpus_N；

步骤3，假设对于社会群体Group i的主题topic-k来说，它在t+1时段所受到的其他社会群体的影响如公式(1)所示：

公式中的每个分项如即为Group j对在t+1时刻的Group i的主题topic-k产生的影响力，使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据，来判断社会群体Group j的推特在t时段里与Group i的主题topic-k相符的推特，并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量，最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值；的量化公式如公式(2)所示：

其中，s'表示t时段里Group j的推特总数，s表示t+1时段里Group i的主题topic-k的推特总数，用表示t时段里Group j的某一条推特m的文本内容，用模型M_i分析该文本的主题分布概率来判断该文本是否与topic-k有关，如果m的语义符合topic-k，那么的值为1，反之为0；如果符合，随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量，使用R_t+1 ⁱ(m,k)表示。

与现有技术相比，本发明所能达成的积极技术效果如下：

1)创新性地将统计与语义分析相结合；

2)使用户对群体间意见的相互影响的判断更符合实际。

附图说明

图1为本发明的一种基于主题建模的社会群体间影响力量化方法整体流程图。

具体实施方式

下面结合附图和实施例对本发明技术方案进行详细描述。

本发明的一种基于主题建模的社会群体间影响力量化方法，首先使用主题建模算法DTM对不同社会群体的推特数据分别进行文本内容的语义提取得到对应的主题模型；然后从每个主题模型中获取对应的社会群体的每条推特的主题编号，并整理出结构化数据以待处理；最终，使用每个社会群体对应的训练好的主题模型来判断其他社会群体的推特在前一个时段里与所求群体的某个主题相符的推特，并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量，使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值，按时段依次计算即可得到全时段的影响力变化，该结果对于社会群体间影响力的判断更加贴合实际，使用该结果进行舆论分析有利于真实掌握舆情。

如图1所示，为基于主题建模算法DTM的社会群体间影响力量化方法整体流程示意图，案例中使用了某个事件的全部推特数据，并分为新闻机构、政府机构和普通大众这三个社会群体。具体包括以下步骤：

步骤1，使用DTM模型来提取每个社交群体随时间变化的文本语义，该模型需要提供以按时间排序的文本corpus，和每个时段的文本数目序列slice_time；假设有Group1、...、Group N个社会群体，分别对应的原始数据C1、...、CN：首先将每个社交群体的原始数据按发布时间排序，从中抽取‘text’字段的内容(即每条推特正文内容)按顺序保存到txt文件。使用NLTK工具对这些文本进行文本清理、词干化以及去除停用词的预处理；预处理后的文本即为参数corpus的值。然后以2小时为时间片，分别计算每2小时的数据量并保存为数组，即为参数slice_time的值。经过N次DTM主题提取，得到每个社会群体的主题模型M₁、...、M_N；

步骤2，根据步骤1得到的不同社会群体对应的主题模型结果M₁、...、M_N，和步骤1排序后的原始数据C₁、...、C_N；使用DTM所提供的doc_topic()函数来获取每条数据的主题分布概率，选择概率值最大的主题标号作为该数据所属主题的编号。然后对标注后的数据进行结构化处理，每行数据包括‘时间’、‘推特ID’、‘源推特ID’、‘推特内容’和‘所属主题’这几个字段，N个社会群体对应N个数据集corpus₁、...、corpus_N；

步骤3，根据马尔科夫可能性，当前时刻的状态仅仅取决于前一个时刻的情况。因此假设对于社会群体Group i的主题topic-k来说，它在t+1时段所受到的其他社会群体的影响可以表示为(1)：

公式中的每个分项如即为Group j对在t+1时刻的Group i的主题topic-k产生的影响力。我们使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据，来判断社会群体Group j的推特在t时段里与Group i的主题topic-k相符的推特，并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量，最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值。因此，该值的量化公式为(2)：

其中，s'表示t时段里Group j的推特总数，s表示t+1时段里Group i的主题topic-k的推特总数，用corpus_j ^m表示t时段里Group j的某一条推特m的文本内容，用模型M_i分析该文本的主题分布概率来判断该文本是否与topic-k有关，如果m的语义符合topic-k，那么M_i(corpus_j ^m)的值为1，反之为0。如果符合，随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量，使用R_t+1 ⁱ(m,k)表示。按时间段的顺序对每个群体的每个主题分组依次计算，即可得到社会群体间随时间变化的影响力值的序列。

Claims

1.一种基于主题建模的社会群体间影响力量化方法，其特征在于，该方法包括如下步骤：

步骤1，对每个社交群体的文本语义提取模型，该模型由预处理后的将社会群体Group1、...、Group N所对应的原始数据C1、...、CN按发布时间排序的文本的值corpus和每个时段的文本数目序列值slice_time组成，经过N次DTM主题提取，得到每个社会群体的主题模型M₁、...、M_N；

步骤3，计算社会群体Group i的主题topic-k在t+1时段所受到的其他社会群体的影响，如公式(1)所示：

公式中的每个分项如f_t ^j→i，即为Groupj对在t+1时刻的Groupi的主题topic-k产生的影响力，使用步骤1得到的所求社会群体的主题模型和步骤2得到的结构化数据，来判断社会群体Groupj的推特在t时段里与Groupi的主题topic-k相符的推特，并在后一个时段的所求社会群体的该主题的数据里计数转发这些推特的数量，最终使用该数量值与后一个时段的所求社会群体的符合该主题的所有推特数量之比作为影响力量化值；f_t ^j→i的量化公式如公式(2)所示：

其中，s'表示t时段里Groupj的推特总数，s表示t+1时段里Group i的主题topic-k的推特总数，用corpus_j ^m表示t时段里Groupj的某一条推特m的文本内容，用模型M_i分析该文本的主题分布概率来判断该文本是否与topic-k有关，如果m的语义符合topic-k，那么M_i(corpus_j ^m)的值为1，反之为0；如果符合，随后计算在t+1时段里的Group i的主题topic-k的推特中转发m的数量，使用R_t+1 ⁱ(m,k)表示。