CN109871434A

CN109871434A - 一种基于动态增量式的概率图模型的舆情演化跟踪方法

Info

Publication number: CN109871434A
Application number: CN201910137783.0A
Authority: CN
Inventors: 王慧; 张紫婷; 许志伟; 刘利民; 云静
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-11
Anticipated expiration: 2039-02-25
Also published as: CN109871434B

Abstract

本发明公开了一种基于动态增量式的概率图模型舆情演化跟踪方法，该方法构建增量化随机图模型，对大规模社交网络舆情话题进行高效分析，追踪其演化规律，并预测未来舆情变化。具体来说，基于每条舆情话题相关文档间基于相似度的关联度，动态确定下一时间片的舆情话题数，从而通过复用历史舆情信息的后验概率来预测下一时刻舆情变化情况。该方法通过结合历史舆情信息，形成时间纬度上的舆情演化情况分析方法，发现舆情话题的演化规律，以便预测未来舆情并进行管控。本方法可以更加精准地确定模型的舆情话题数，并能够更为准确、高效地分析舆情演化的过程。

Description

一种基于动态增量式的概率图模型的舆情演化跟踪方法

技术领域

本发明属于大数据分析与应用技术领域，涉及舆情演化分析，特别涉及一种基于动态增量式的概率图模型的舆情演化跟踪方法。

背景技术

舆情是由各种社会群体构成的公众在一定的社会空间内，针对热点事件、特定议题和社会现象所持有的多种情绪、态度和意见交错的总和。舆情是围绕特定话题产生的，舆情的演化往往随着话题的发展而变化。借助数据分析的手段发现其话题的变化来预测未来舆情的发展变化，对其进行追踪分析，便于预防突发性事件的发生。

随着信息的迅猛增长，由于数据时刻都在更新，所以舆情不断发生演化，用机器学习分析文档数据时，不可能一次性获得所有数据。当数据进行每次更新时，如果重新学习，消耗大量时间的同时也会占用大量存储空间。因此，引入增量学习机制，在保留历史数据的基础上，利用了历史数据的演化结果，预测未来舆情的发展变化。在分析后续文本时，节省了运行时间，提高了机器学习效率。

如何快速得知舆情的演变情况是当前的研究热点，现有方法的问题是在利用概率图模型-LDA分析舆情演化过程中，每次都要重新学习，效率和练习性比较差，会消耗大量时间且话题发现有延时，无法及时将话题内容呈现给用户。并且LDA话题数个数的选择对文本数据的释义和话题识别的效果产生极大的影响。LDA模型需人工设置话题数，存在一定盲目性，如果仅靠训练模型不断调整话题数无疑会消耗大量时间，并且会影响话题发现的准确性及内容的可读性。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于动态增量式的概率图模型的舆情演化跟踪方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于动态增量式的概率图模型的舆情演化跟踪方法，包括：

步骤1，确定LDA话题数；

步骤2，基于确定的话题数，根据LDA模型，按照时间片T进行文本划分，文档集合D＝{(d_n1，t₁)，(d_n2，t₂)，…，(d_ni，t_i)，…，(d_nn，t_n)}，d_ni表示t_i时间片的n篇文档，基于历史时间T话题发现的基础上，推断T+1时间片的话题，完成话题演化分析，具体演化步骤如下：

步骤2.1，初始化LDA模型的各类参数，初始化时间片T的词语后验概率分布，即某个话题中包括的词语及对应词语概率值，初始化时间片T+1的文本分词结果；

步骤2.2，通过吉布斯采样方法，将文档中的每个词随机赋予话题编号；统计每个话题下出现词语的数量和文档下出现话题的数量；根据已知变量得到时间片T+1的文本-话题概率分布；

步骤2.3，将历史时间片T的词语的后验概率分布，乘以时间片T+1的文本-话题概率分布，计算时间片T+1的话题-词语概率分布；

步骤2.4，根据时间片T+1的话题-词语概率分布，将该分布中词语的权值(即由分布得到的概率值)与设定阈值ε进行比较，如果大于ε，则保留T+1时间的关键词及权值，如果小于ε，淘汰T+1时刻的结果，保留T时刻的结果，其中阈值ε为微博话题中的词语权值求和取平均。

所述步骤1确定LDA话题数的步骤如下：

步骤1.1，首先对文档进行分词处理，使用TF-IDF计算每个词语的权重，通过寻找突变点，得到最具代表性的主题特征词，即选定主题个数的范围；

步骤1.2，根据吉布斯采样技术，得到文档-话题分布，即给每条文档赋予话题标签；

步骤1.3，将已标记好的文档输入模型中，进行筛选，删除掉那些某话题下文档之间关联性低于设置值的文档，以及只有一个或没有拓扑邻居的话题节点，最后统计筛选后话题的数量，即为确定的话题数。

所述步骤1.1中，因为要选取合适话题数，就需要进一步为文本集中的每个文本选择最合适的词汇集，这些词汇集合要求能充分代表每个文档的特征，所以采用TF-IDF统计每个主题下的所有词汇值，并从小到进行排序，在该序列中，寻找数值大幅度下降的突变点，确定用来描述主题的特征词的数目。

所述步骤1.2中的吉布斯采样技术是一种现有的算法，通过使用该算法实现对文档赋予话题标签。由于文档难以直接选取话题标签，通过使用该算法给文档近似的抽取话题序列，得到文档-话题分布，最后选取概率最大的一个词语作为其文档的话题标签。

所述步骤1.3中，所使用的模型为增量式话题筛选模型，模型介绍如下：

首先，输入新样本x_i，判断是否属于新的话题节点，若是插入成为新的节点，若不是则属于已存在话题节点G中，然后在G中寻找最近的邻居点winner和次近邻居点runner-up；winner和runner-up的计算公式为：

其中w_i表示节点G中的第i个话题。

然后，判断样本与winner的向量距离，若大于阈值或则重新成为一个新的节点，否则更新该节点内文档之间的关系，其中阈值和是自适应的；

最后，按照时间片的长度，对该时间片处理过文档关系进行一次删除操作，删除掉那些某话题下文档之间关联性低于设定值的文档，以及只有一个或没有拓扑邻居的话题节点，最后统计筛选后话题的数量，即为确定的话题数。

所述更新的规则为：节点内的文档之间的权重开始为零，在不断学习的过程中增强，若这个值超过预先设定的值则被移除。

所述步骤2.1，对LDA模型，设置先验参数α、β、话题数目、迭代次数、文档路径及保存的话题热点词数目，LDA模型为增量式的过程，需结合前一时刻的发现结果，即T时间的文本话题发现结果，初始化T+1时间的文本分词结果，结果为d_ni＝{w_n1，w_n2，...，w_nj，...，w_nm|t_i}。

其中d_ni代表n篇文档中的第i篇，w_nj代表第n篇文档中的第j个词，t_i表示第i时间片。

所述步骤2.2，将文档d_ni中的每个词语随机赋予话题编号z_m；统计K个话题的总文档数目和m篇文档中所有被分配了话题k的文档数目根据已知变量得到T+1时间片的文本-话题概率分布，如下公式所示：

其中K是根据增量式话题筛选模型确定的该时间片的话题数，i表示第m篇文档中的第n个词语，表示去除下标为i的当前词语的分布情况，α_T+1为在时间片T+1中LDA模型设置的先验参数。

所述步骤2.3中，历史时间片T的词语的后验概率分布根据上一时间片所得，即某个话题中包括的词语及对应词语概率值。

与现有技术相比，本发明的有益效果是：

本发明针LDA模型需人工设置话题数的盲目性，采用一种有效的话题筛选机制，在大范围话题数的基础上，利用每个话题下文档间相互关系紧密程度，在舆情演化分析过程中动态确定话题个数，解决了现有技术中重新训练模型来确定话题数消耗大量时间的问题。本发明根据舆情不断演化的特点，将LDA模型增量化，结合历史推演结果，对当前时刻进行舆情演化分析，形成了在时间维度上舆情演化情况的分析方法，进行演化反省，并预测未来舆情。

附图说明

图1是本发明整体流程图。

图2是增量式话题筛选模型的过程图。

图3是话题演化结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的基于动态增量式的概率图模型舆情演化跟踪方法进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参考图1，本发明一种基于动态增量式的概率图模型的舆情演化跟踪方法，过程如下：

1.数据预处理

首先，通过网络爬虫技术将获取的数据。采用中科院张华平博士的开源汉语分词工具NLPIR，对其文本数据实现中文分词、去停用词。通过人工设置的正则表达式再次过滤无意义的词及特殊标点符号，使得分词结果达到最优效果。

2.统计不同时间片的话题数

步骤1)首先对文档进行分词处理，因为要选取合适话题数，就需要进一步为文本集中的每个文本选择最合适的词汇集，这些词汇集要求能充分代表每个文档的特征，所以采用TF-IDF统计每个主题下的所有词汇值，并从小到大进行排序，在该序列中，寻找数值大幅度下降的突变点，确定用来描述主题的特征词的数目。

步骤2)根据吉布斯采样技术，得到文档-话题分布，即给每条文档赋予话题标签。

步骤3)将已标记好的文档输入增量式话题筛选模型中，参见图2增量式话题筛选模型的过程图。具体的模型介绍如下所示：

首先，输入新样本x_i，判断是否属于新的话题节点，若是插入成为新的节点，若不是则属于已存在话题节点G中，然后在G中寻找winner和runner-up，winner和runner-up的计算公式为：

然后，判断样本与winner的向量距离，若大于阈值或则重新成为一个新的节点，否则更新该节点内文档之间的关系。更新规则为：节点内的文档之间的权重一开始为零，在不断学习的过程中，会增强，若这个值超过预先设定的值则被移除。其中阈值和是自适应的，计算过程如下所示：

分为两类：原型间距离和原型内距离

指原型i与其他原型集中有相同标签的样本的距离。指原型i与在该原型集中标签不同的原型之间的距离。

与

其阈值为小于或等于原型间距离，如公式：

其中为原型i的邻居点数量。E为一类原型的集合，若原型k与原型i相邻，则k，i同属于E。

最后，按照时间片的长度，对该时间段的处理过文档关系进行一次删除操作，删除掉那些某话题下文档之间关联性不大的文档，以及删除掉只有一个或没有拓扑邻居的话题节点，最后统计筛选后话题的数量，即为确定的话题数。

3.动态增量话题演化过程

初始化T时间的文本话题发现结果，包括文本-话题与话题-词语的概率分布；

统计T时间的词语后验概率分布，即某个话题中包括的词语及对应词语概率值，p(w_m，n，z_i＝k|T)；

初始化T+1时间的文本分词结果，结果为d_ni＝{w_n1，w_n2，…，w_ni，…，w_nn|t_i}，d_ni代表t_i时间片的n篇微博文档；

将d_ni中的每个词随机赋予话题编号z_m；

统计K个话题的总文档数目和m篇文档中所有被分配了话题k的文档数目根据已知变量得到T+1时间片的文本-话题概率分布

将历史时间片T的词语的后验概率分布，p(w_m，n，z_i＝k|T)，乘以T+1时间的文本-话题概率分布，计算T+1时间的话题-词语概率分布，如下公式：

将话题-词语概率分布，p(w_m，n|z_i＝k，T+1)，与设定阈值ε进行比较，如果p(w_m，n)＞ε，保留p(w_m，n)；

将话题-词语概率分布，p(w_m，n|z_i＝k，T+1)，与设定阈值ε进行比较，如果p(w_mn)＜ε，淘汰p(w_m，n)，保留p(w_m，n|T)。

根据以上步骤流程进行动态增量演化。

实施例：

1.数据集以参数设置

数据集:选取时间为2017年6月1日至6月31日微博数据39920条，分为六大类微博数据样本，包括环境污染、交通事故、食品安全、城乡建设、大学生创业、扶贫数据等，对其进行话题检测追踪。在我们的实验中，数据集分为训练数据和测试数据。使用25167个训练数据对微博话题进行统计，14753个测试数据完成动态增量话题演化分析。

参数设置:对于LDA模型，需要设置先验参数α、β、话题数目、迭代次数、文档路径及保存的话题热点词数目。

α取值不同，Dirichlet分布就不同，话题集中的表现程度也就不同。当α＜1时，能说明每篇文档在不同话题下的概率不等，能很好地区分话题；当α＝1时，每篇文档在不同话题下概率相等，呈现均匀分布，无法发现微博热点话题；当α＞1，每篇文档在不同主题下的概率相等且都增大，微博话题表现集中无法识别热点话题。根据上述情况，经过训练，综合考虑α最为适合的值为0.2。

β的取值为小于1的任意值，在本实施例中，取0.1。

经过训练模型，该数据集迭代次数为2000时最为理想，保留概率前10的单词作为主题关键词的概率。

2.统计不同时间片的话题数

本实施例将微博数据集以“天”为单位作为一个时间片来划分数据集。分别统计2017年6月21日至2017年6月30日的23586条数据的每日话题数。

如下表1为最终各时间片确定的话题数量。

表1话题数

时间段	2017.6.21	2017.6.22	2017.6.23	2017.6.24	2017.6.25
						话题数	28	36	42	50	33

3.动态增量话题演化过程

本发明将微博按“天”为单位，将2017年6月21日至2017年6月30日的23586条数据作为增量数据集。本发明将T时间发现的微博话题中的词语概率值求和取平均值作为阈值ε，经计算后的阈值ε为0.015。

根据以具体实施方式步骤流程进行动态增量演化，最终结果如图3所示为部分话题演化的结果，可以通过观察每一时间片中话题中的关键词获取热点话题并进行话题追踪，最后了解话题的演变趋势。

参照图3可以看出话题随时间推移发生演变，首先，讨论与食物有关的问题活动及食品安全部门相关规定。然后，讨论了一些关于儿童住院的问题，因为假鸭，他们的父母很担心，最后食品监管部门对食品安全问题进行监督。可以看到主题词分布随时间的演变，每一个被讨论的子话题中都涉及“食品”二字，通过观察子话题中的关键词获取热点话题并进行话题追踪，最后了解话题的演变趋势。

综上，本发明构建增量化随机图模型，对大规模社交网络舆情话题进行高效分析，追踪其演化规律，并预测未来舆情变化。具体来说，基于每条舆情话题相关文档间基于相似度的关联度，动态确定下一时间片的舆情话题数，从而通过复用历史舆情信息的后验概率来预测下一时刻舆情变化情况。该方法通过结合历史舆情信息，形成时间纬度上的舆情演化情况分析方法，发现舆情话题的演化规律，以便预测未来舆情并进行管控。本方法可以更加精准地确定模型的舆情话题数，并能够更为准确、高效地分析舆情演化的过程。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

Claims

1.一种基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，包括：

步骤1，确定LDA话题数；

步骤2.3，将历史时间T片的词语的后验概率分布，乘以时间片T+1的文本-话题概率分布，计算时间片T+1的话题-词语概率分布；

步骤2.4，根据时间片T+1的话题-词语概率分布，将该分布中词语的权值即由分布得到的概率值与设定阈值ε进行比较，如果大于ε，则保留T+1时间的关键词及权值，如果小于ε，淘汰T+1时刻的结果，保留T时刻的结果，其中阈值ε为微博话题中的词语权值求和取平均。

2.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤1确定LDA话题数的步骤如下：

3.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤1.1中，采用TF-IDF统计每个主题下的所有词汇值，并从小到进行排序，在该序列中，寻找数值大幅度下降的突变点，确定用来描述主题的特征词的数目。

4.根据权利要求2所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤1.2中，通过使用吉布斯采样算法实现对文档赋予话题标签，由于文档难以直接选取话题标签，通过使用该算法给文档近似的抽取话题序列，得到文档-话题分布，最后选取概率最大的一个词语作为其文档的话题标签；

其中w_i表示节点G中的第i个话题；

5.根据权利要求4所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述更新的规则为：节点内的文档之间的权重开始为零，在不断学习的过程中增强，若这个值超过预先设定的值则被移除。

6.根据权利要求4所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，阈值和的计算分为两类：原型间距离和原型内距离指原型i与其他原型集中有相同标签的样本的距离。指原型i与在该原型集中标签不同的原型之间的距离，

其阈值为小于或等于原型间距离，如公式：

其中为原型i的邻居点数量，E为一类原型的集合，若原型k与原型i相邻，则k，i同属于E。

7.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤2.1，对LDA模型，设置先验参数α、β、话题数目、迭代次数、文档路径及保存的话题热点词数目，LDA模型为增量式的过程，结合前一时刻的发现结果，即T时间的文本话题发现结果，初始化T+1时间的文本分词结果，结果为d_ni＝{w_n1，w_n2，...，w_nj，...，w_nm|t_i}，其中d_ni代表n篇文档中的第i篇，w_nj代表第n篇文档中的第j个词，t_i表示第i时间片。

8.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤2.2，将文档d_ni中的每个词语随机赋予话题编号z_m；统计K个话题的总文档数目和m篇文档中所有被分配了话题k的文档数目根据已知变量得到T+1时间片的文本-话题概率分布，如下公式所示：

9.根据权利要求1所述基于动态增量式的概率图模型的舆情演化跟踪方法，其特征在于，所述步骤2.3中，历史时间片T的词语的后验概率分布根据上一时间片所得，即某个话题中包括的词语及对应词语概率值。