CN112115327B

CN112115327B - 一种基于主题模型的舆情新闻事件跟踪方法

Info

Publication number: CN112115327B
Application number: CN202010141439.1A
Authority: CN
Inventors: 马子娟; 岳昆; 段亮; 吴鑫然; 李维华; 赵天资
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2023-10-20
Anticipated expiration: 2040-03-04
Also published as: CN112115327A

Abstract

本发明公开了一种基于主题模型的舆情新闻事件跟踪方法。针对舆情新闻的稀疏性、时序性、易演化性等特点，给出了一种舆情主题模型MBTM（Minority Biterm Topic Model）的构建方法，然后利用MBTM对舆情新闻数据进行建模、推断隐含主题，进一步设置时间节点，在每个时间节点上对主题‑词分布进行采样，获取对应主题中的词项，再利用JS散度和主题强度两个指标挖掘主题演化轨迹，完成对特定舆情新闻事件的在线跟踪。本发明在构建MBTM的过程中，使用了一种基于随机更新思想的近似推断方法来更新参数，从而能够精确、高效的实现舆情新闻事件追踪，也为特定领域新闻事件跟踪技术提供参考。

Description

一种基于主题模型的舆情新闻事件跟踪方法

技术领域

本发明公开了一种基于主题模型的舆情新闻事件跟踪方法，涉及基于主题模型对舆情新闻事件进行隐含主题推断，以及利用JS散度和主题强度进行舆情新闻主题演化轨迹挖掘，实现舆情新闻事件跟踪的方法，属于知识发现领域。

背景技术

新闻主题检测与跟踪技术是信息处理领域中备受关注的研究热点，其任务是在事件发展初期将新闻媒体信息流作为研究对象，通过监控新闻描述的主题，发现新闻潜在信息并跟踪下去，最后将涉及某个主题的新闻组织起来以新闻线索的方式呈现给用户。随着社交媒体的快速发展，在社交媒体文本内容中利用主题模型进行主题演化跟踪，成为近年来研究的热点，该领域的研究有助于跟踪主题的发展趋势，对突发事件应急监测等实际应用都有重要的指导作用。已有许多公知的新闻主题跟踪方法，例如：庄锅冕等（<专利CN106599181B>，2019）将LDA主题模型应用在新闻热点检测中；李心舒等（<北京邮电大学硕士论文>，2019）结合新闻热点主题特点和大数据处理平台优势，设计并实现了基于Spark的多领域网络新闻热点挖掘系统，有效提升了新闻热点挖掘与跟踪的性能；车蕾（<国防科技大学学报>，2017）提出基于多特征融合文本聚类的新闻主题发现模型。这些方法针对一般新闻数据源能完成新闻主题跟踪任务。但针对特定领域的新闻数据，仍需要提供相应的新闻事件跟踪方法。

随着我国文化战略的深入推进和新媒体的不断发展，围绕舆情新闻获取、分析与利用的研究不断增多。例如：赵倩等（<中央民族大学硕士论文>，2016）在藏汉可比语料的基础上构建LDA主题模型，对样本新闻文本的主题进行推断，实现对特定新闻事件相关主题的热度及趋势发展的跟踪；高璐等（<中央民族大学硕士论文>，2017）利用LDA对源语言或者目标语言文档进行独立主体建模，从而进行藏汉跨语言信息检索的查询扩展；孙媛等（<中文信息学报>，2017）利用词向量对文本进行语义扩展，进而构建LDA主题模型抽取出藏语和汉语主题，并提出基于4种相似度算法的投票方法来实现藏汉主题的对齐。这些方法对于部分舆情语言文字新闻的舆情监控研究具有一定的参考价值，但是需要对舆情新闻事件进行实时跟踪，才能观察舆情发酵的经过、跟踪事件焦点的演化、分析舆情的脉络。与一般新闻相比，舆情新闻的稀疏性、时序性、易演化性等特点，使得舆情新闻事件跟踪的难度相对较大。

因此，本发明针对舆情新闻事件的特点，以舆情新闻数据和主题模型为基础，以从舆情新闻在线数据流中跟踪事件为目标，给出了一种舆情主题模型MBTM的构建方法，利用MBTM对舆情新闻数据进行建模，进一步设置时间节点，在每个时间节点上对主题-词分布进行采样，获取对应主题中的词项，再利用JS散度和主题强度两个指标挖掘主题演化轨迹，完成对特定舆情新闻事件的在线跟踪。

综上，本发明给出一种基于主题模型的舆情新闻事件跟踪方法，能够更精确和高效地从舆情新闻数据中跟踪事件演化轨迹，也为特定领域新闻事件跟踪提供参考。

发明内容

一、本发明的目的

为解决公知的新闻主题检测与跟踪技术没有考虑舆情新闻特点，不能有效跟踪舆情新闻事件等不足，本发明针对舆情新闻的稀疏性、时序性、易演化性等特点，给出了一种舆情主题模型MBTM的构造方法，通过该模型对舆情新闻数据的隐含主题进行推断。

为解决公知技术无法有效处理舆情新闻事件在线数据流，只能对历史数据进行分析等问题，本发明给出一种基于主题模型的舆情新闻事件跟踪方法，利用MBTM、JS散度和主题强度等技术，挖掘主题演化轨迹，进行舆情新闻事件的在线跟踪。

二、本发明的步骤

本发明的执行过程分为4个步骤。

(1)舆情新闻数据在线获取与预处理：首先选取需要进行跟踪的舆情新闻事件，然后持续地从社交网络和新闻网页上爬取该事件的新闻数据，将在线获取的数据进行预处理，去除停用词并进行分词。

(2)构建MBTM（Minority Biterm Topic Model）并推断舆情新闻事件隐含主题：定义舆情新闻数据词典，提取二元组，给定参数构建MBTM，利用该模型对预处理后的舆情新闻数据进行建模，并推断舆情新闻事件的隐含主题。

(3)舆情新闻事件主题演化轨迹跟踪：设置时间节点，在每个时间节点处对模型当前的主题-词分布进行采样，获取对应主题中的词项。通过观察不同时间节点对应词项的演变，得到特定舆情新闻事件主题的演化轨迹。

(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析：计算相邻时间节点主题-词分布间的JS散度，衡量特定舆情新闻事件主题在特定时间段内是否发生演化。将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数，计算主题在每个时间节点的强度，从而监控舆情新闻事件的发展情况。

具体步骤如下：

1：舆情新闻数据在线获取与预处理

1.1：数据在线获取

选取一个需要进行跟踪的舆情新闻事件，通过新闻网页和社交媒体持续爬取该事件相关报道的新闻数据，记为I={I ₁, I ₂, ..., I _M}，其中I _j表示第j条舆情新闻数据，M为获取到的新闻数据的总条数，，I _j表示为三元组(R _j, T _j, seg_T _j)，R _j为新闻I _j的发布时间，T _j为I _j的文字内容，seg_T _j为T _j经预处理后的文字内容。

预处理

1.2.1：从https://github.com/goto456/stopwords获取适用于新闻分类的中文停用词集Stop_words，停用词包括一些应用广泛但无法确定主题的词，例如“的，地，得”和语气助词、副词、介词、连词等。

从https://github.com/fxsjy/jieba获取中文分词组件jieba，对舆情新闻数据的文字内容进行分词处理，分词前先将Stop_words添加到分词工具默认停用词集中，存储去除停用词并分词后的文字内容。

构建MBTM且推断舆情新闻事件隐含主题。

定义舆情新闻数据词典

获取步骤1.2.2预处理后得到的文字内容，将其中包含的全部词项存储在舆情新闻数据词典中，记为W={w ₁, w ₂, ..., w _s}中，词典即为新闻数据中出现的所有词项的集合，其中，S为词典中词项的总数，即词典的大小，词典中没有重复的词项，即。

提取舆情新闻数据中的二元组。

将每条舆情新闻数据作为一个单独的上下文单元，其中任何两个不同的词项构成一个二元组，一个包含3个不同词项的上下文单元将生成3个二元组表示为

(w ₁, w ₂, w ₃) → {(w ₁, w ₂), (w ₂, w ₃), (w ₁, w ₃)} (2-1)

按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组，得到二元组集合，其中，|B|为该集合中二元组的个数，b _i为第i个二元组，，,，和为二元组b _i中的两个词项。二元组的提取过程可以通过对I的一次扫描来完成。

构建MTBM。

用舆情新闻数据词典W中的S个词项来表示K个主题，K为设定的主题总数，，z _k为主题的指示变量，k为主题序号，θ为数据集的主题分布，为主题z _k的主题-词分布，和分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数。MBTM按照以下生成过程构建：

2.3.1：从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样，从而推断出概率分布中的隐含变量θ、得到具体的概率分布，即有θ~Dir(α)，表示为

（2-2）

其中，α是K维参数，α _i>0，Γ(x)是Gamma函数，上述过程对应于图2中随机变量间的概率依赖关系。

对每个主题z _k，基于参数为β的狄利克雷分布对每个主题进行随机采样，得到主题-词分布，简称为词项分布，即有~Dir(β)。

对二元组集合中的每个二元组b：基于参数θ的多项式分布，为每个二元组b随机采样一个主题z，即有z~Multinomial(θ)。基于参数的多项式分布对词项w ₁(b)和w ₂(b)进行随机采样，即有w ₁(b), w ₂(b)~Multinomial()。

通过MBTM推断舆情新闻事件的隐含主题。

MBTM模型在步骤2.3模型生成过程的基础上，将主题分布θ和每个主题的词项分布通过求边际积分的收缩变分表示方法，从后验分布中去除。收缩变分表示的MBTM图模型如图3所示，只对隐含主题变量z进行推断，z服从于变分多项分布Multinomial()，为该多项式分布的变分参数。舆情新闻事件隐含主题按如下步骤进行推断：

2.4.1：随机初始化N _k和N _k,w，令时间步长t=1，对每个二元组b，更新变分参数。首先对于变分参数，使用变分推断中经常使用的坐标上升法，对变分后验分布的变分下限（Evidence Lower Bound, ELBO）进行最大化，该过程采用零阶近似方法，即在近似时只保留零阶泰勒展开，最终得到的近似更新公式为，从而克服变分期望项的较高计算代价带来的困难：

（2-3）

其中，N _k和N _k,w为表示执行更新和恢复参数所需要的全部数据的统计量，当一个新的二元组b出现时，随机地更新统计量，从而迭代地更新变分参数直至收敛；\b表示统计量计数时要去掉当前二元组b。

基于得到的变分参数，按照公式2-4和2-5估计N _k和N _k,w：

（2-4）

（2-5）

2.4.3：按照公式2-6定义Robbins-Monro序列，用来描述当时间步长t改变时，模型在新数据和历史数据之间的权衡，随着步长t的增加，对新数据变得不敏感。τ和κ是Robbins-Monro序列的超参数。

（2-6）

2.4.4：和分别是N _k和N _k,w进行了一次平行坐标上升更新后的无偏估计，描述一个二元组是从二元组集合B中通过均匀分布被抽取出来的。平行坐标上升利用前一时刻的参数进行迭代更新，对剩余参数进行最大似然估计，动态计算局部最优解，以此逼近局部最优解。使用这种估计方法，重新按照公式2-7和2-8来更新N _k和N _k,w，从而得到N _k和N _k,w的更新规则：

（2-7）

（2-8）

2.4.5：更新时间步长t。在N _k和N _k,w的每次更新操作后将时间步长t加1。

在对所有的二元组进行了更新操作后，由于全局参数θ _k和仅与充分统计量N _k、N _k,w和模型参数有关，仅需要更新这些充分统计量，就可以进行全局参数的更新，从而推断出舆情新闻事件的隐含主题分布和主题-词分布。全局参数θ _k和的更新公式如下：

（2-9）

（2-10）

其中，符号“”表示成正比例，N _k和N _k,w表示对整个二元组集合B更新后的样本充分统计量。

舆情新闻事件主题演化轨迹跟踪

3.1：设置时间节点跟踪舆情新闻事件主题的演化轨迹

3.1.1：基于步骤2构建的MBTM，设置时间节点A _t(t=1, 2, …, T)，时间间隔根据文本更新速度和需观察主题的粒度来设置，通常是时间单位，日、月或者年等的整倍数。

由于MBTM中的参数是实时更新的，因此在每个时间节点采样当前的主题-词分布，并将该分布保存在主题-词向量中。同理，采样每条数据上所有主题的概率分布θ _j,k，并将该分布保存在主题向量Δ _j=(θ _j,1,θ _j,2,...,θ _j,K)中。

得出各时间节点下的主题-词分布，获取对应主题中的词项，按词项的概率分布降序排列，用主题在词项上的变化来描述事件主题的演化轨迹。

基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析

4.1：利用JS散度来度量两个舆情新闻事件主题间的相似度

4.1.1：设定舆情新闻事件主题演化时同一主题在相邻时间节点的相似度阈值。

为了度量同一主题z _k在两个时间节点之间的相似度，读取3.1.2中得到的主题-词向量Λ _k,w，使用公式4-1中的Jensen-Shannon散度（简称JS散度）来计算概率分布的相似度。

（4-1）

其中，和分别为的前一个时间节点和当前时间节点下舆情新闻事件主题z _k中词项w的概率分布，S为词典中词项的总数。

判定舆情新闻事件主题的演化状态。当两个时间节点的舆情新闻事件主题间的JS散度小于阈值时，则判定为主题发生了演化，否则判定为该主题停止演化。进一步形成舆情新闻事件主题演化状态图，横坐标表示时间节点，纵坐标表示节点间主题的JS散度，展示新闻事件主题的演化轨迹。

度量舆情新闻事件的主题强度

将舆情新闻事件的主题强度看作该事件的主题在上一个时间节点到当前时间节点内被讨论的次数，次数多则认为该主题强度高，反之则低。每一条新闻数据上的主题分布以概率形式给出，首先确定一条舆情新闻最有可能属于的主题，然后按如下步骤度量主题强度：

(1)设定两个阈值和，。

(2)读取3.1.2中得到的主题向量Δ _j，将每条数据I _j上所有主题的分布概率和阈值对比，将大于阈值的主题放入候选主题列表。

(3)从候选主题列表中选出概率值最大的主题，即max{θ _j,k}，将候选主题列表中所有主题的分布概率与相比，大于该值的主题作为新闻数据I _j的主题。

(4)统计前一个时间节点到当前时间节点内所有讨论主题z _k的新闻数据的条数D _k，按公式（4-2）计算主题强度：

(4-2)

其中，为前一个时间节点到当前时间节点内获取的新闻数据的总条数。

(5)在每个时间节点上执行如上操作，即可获得主题在每个节点的强度，进一步形成舆情新闻事件主题强度演化图，横坐标表示时间节点，纵坐标表示主题强度，展示该新闻事件主题强度的演化过程，以监控该舆情新闻事件的发展状况。

具体实施时，可以设定主题总数K为10，狄利克雷先验参数α=1，β=0.01，Robbins-Monro序列的超参数τ=1000和κ=0.8；设定时间节点总数T=5；设定相似度阈值=0.5；设定强度阈值=0.1，=0.5。

三、具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例：“快递机器人进校园”舆情新闻事件跟踪流程分析。

舆情新闻数据在线获取与预处理

1.1：数据在线获取

首先通过新闻网页和社交媒体持续爬取“快递机器人进校园”事件相关报道的新闻数据，获取到的新闻数据的总条数M为50000000条，新闻发布的时间跨度从2019年1月9日到2019年10月23日。

表1 “快递机器人进校园”主题对应的部分数据示例

1.2：预处理

1.2.1：从https://github.com/goto456/stopwords获取适用于新闻分类的中文停用词集Stop_words。

从https://github.com/fxsjy/jieba获取中文分词组件jieba，对舆情新闻数据的文字内容进行分词处理，分词前先将Stop_words添加到分词工具默认停用词集中，将去除停用词并分词后的文字内容存储在seg_T _j中，如表2所示。

表2数据预处理后的结果

2：构建MBTM且推断舆情新闻事件隐含主题

2.1：定义舆情新闻数据词典

获取步骤1.2.2预处理后得到的舆情新闻数据的文字内容，定义舆情新闻数据词典W，词典中词项的总数S=117449。

提取舆情新闻数据中的二元组。

提取每条舆情新闻数据中的二元组，通过对数据一次扫描后得到二元组集合B，集合中二元组的个数|B|=121825490。

构建MTBM。

用舆情新闻数据词典W中的117449个词项来表示K个主题，K为设定的主题总数，在实施例中给定K=10，狄利克雷先验参数α=1，β=0.01。采样主题z~Multinomial(θ)，采样主题的词项w ₁(b)，w ₂(b)~Multinomial，使得词项都能分配到相应主题。

通过MBTM推断舆情新闻事件的隐含主题。

随机初始化N _k和N _k,w。令N _k=0，N _k,w=0，时间步长t=1，在第一个二元组到来时，按照公式2-3更新变分参数：

2.4.2：基于步骤2.4.1得到的变分参数，按照公式2-4和2-5来计算和：

2.4.3：设置Robbins-Monro序列的超参数τ=1000和κ=0.8，按照公式2-6定义Robbins-Monro序列：

2.4.4：重新按照公式2-7和2-8来更新N _k和N _k,w：

2.4.5：更新时间步长t。t每次更新时增加1。

对所有的二元组进行2.4.1至2.4.5步的更新操作后，通过公式2-9和2-10来更新全局参数θ _k和：

3：舆情新闻主题演化轨迹跟踪

3.1：设置时间节点跟踪舆情新闻事件主题的演化轨迹

3.1.1：在步骤2构建的MBTM的基础上设置时间节点A _t(t=1, 2, …, T)，T=5。

在每个时间节点处采样当前的主题-词分布：

将这些概率分布保存在主题-词向量中。

得出各时间节点下的主题-词分布，获取对应主题中的词项，按词项的概率分布降序排列，本实施例选取概率值最大的前10个词项作为该时间节点的主题词项，用主题在词项上的变化来描述事件主题的演化轨迹，结果如表3所示。

表3各时间节点下的主题-词分布的对应词项（前10个）

4：基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析

4.1：利用JS散度来度量两个舆情新闻事件主题间的相似度

4.1.1：设定快递机器人进校园”这一舆情新闻事件同一主题在相邻时间节点的相似度阈值。

读取3.1.2中得到的主题-词向量Λ _k,w，按照式4-1计算相邻时间节点的JS散度，度量两个时间节点同一主题z_k间的相似性，的计算过程如下：

同理可计算出后4个时间节点间的JS散度值，如表4所示。

表4各时间节点间的JS散度

4.1.3：将每个JS散度值与相似度阈值比较，判断该事件主题的演化状态。

由于，则主题z_k发生演化；

由于，则主题z_k停止演化；

由于，则主题z_k发生演化。

进一步形成如图4所示的事件主题演化状态图，可以发现主题在A ₂的主题相似度高于阈值，这与“快递机器人进校园”这一事件主题的出现时间完全一致，其后时间的主题相似度都要低于阈值，与该主题在这段时间内在媒体上传播的趋势相符合，但是在A ₅时间节点，主题相似度又出现了超过阈值的情况，说明在这个时期主题与舆论的内容和中心发生了转移。

度量主题强度。

（1）设定两个阈值=0.1，=0.5。

（2）读取3.1.2中得到的主题向量Δ _j，将每条数据I _j上所有主题的分布概率和阈值相比，将大于阈值的主题放入候选主题列表。第一条数据上所有主题的概率分布为：

（3）从上述概率分布可见，大于阈值的主题只有主题z _k，k=1,该主题的概率值为0.1431、高于阈值，因此将该主题放入候选主题列表。对所有数据进行上述操作后，得到最终的候选主题列表。从候选主题列表中选出概率值最大的主题，其分布概率max{θ _j,k}为0.1739。将候选主题列表中所有主题的分布概率与相比，按照0.1739*0.5计算得到0.08685，将大于该值的主题作为新闻数据的主题。因此，可得到第一条新闻数据的主题为z _k ，k=1,2,3,4,5。

（4）在每两个相邻时间节点内，统计所有讨论主题z _k的新闻数D _k。

统计前一个时间节点到时间节点内讨论主题z _k的新闻数D _k=1000。前一个时间节点到时间节点内获取的新闻数据的总条数。按照式4-2计算时间节点上主题z _k的强度，

同理，可计算出主题在每个时间节点的强度，结果如表5所示。

表5各个时间节点的主题强度

进一步根据表5最终形成如图5所示的舆情新闻事件主题强度演化图，可以得知主题在A ₁时刻出现，随后强度不断增加，在A ₂时刻达到峰值，最后在A ₅时刻逐渐消亡，该主题的演化趋势与实际情形相吻合。

四、与现有技术相比本发明具有的优点及积极效果

（1）本发明考虑了舆情新闻的稀疏性、时序性、易演化性等特点，给出了一种舆情主题模型MBTM的构建方法，利用SCVB0算法对主题模型的参数进行更新，与公知的主题模型跟踪方法相比，该方法在保留传统BTM主题模型优势特性的同时，引入在线学习的思想，只需要动态存储少量的舆情新闻数据进行参数更新，无论是大规模舆情新闻事件在线数据流还是小语料库，该方法都能从中实时有效地学习主题，更适合于舆情新闻事件跟踪。

（2）本发明引入时间节点，给出一种基于主题模型的舆情新闻事件跟踪方法，利用MBTM、JS散度和主题强度等技术，有效地挖掘主题演化轨迹，可以较好地应用在舆情新闻事件舆情监控系统中。

（3）本发明提出的舆情新闻事件主题强度计算方法，将舆情新闻事件的强度看作事件主题在上一个时间节点到当前时间节点内被讨论的次数，通过分析主题强度的演化过程，有效监控舆情新闻事件的发展状况。

附图说明：

图1，本发明执行流程图

图2，MBTM图模型

图3，收缩变分表示的MBTM图模型

图4，“快递机器人进校园”事件主题演化状态图

图5，“快递机器人进校园”事件主题强度演化图。

Claims

1.一种舆情新闻事件跟踪方法，其特征在于执行过程分为以下4个步骤：

(1)舆情新闻数据在线获取与预处理：首先选取需要进行跟踪的舆情新闻事件，然后持续地从社交网络和新闻网页上爬取该事件的新闻数据，将在线获取的数据进行预处理，去除停用词并进行分词；

(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题：定义舆情新闻数据词典，提取二元组；给定参数，对新闻数据的主题分布、主题和二元组进行随机采样，重复采样生成过程以此构建MBTM模型，利用该模型对预处理后的舆情新闻数据进行建模，通过求边际积分的收缩变分表示方法推断舆情新闻事件的隐含主题；

(3)舆情新闻事件主题演化轨迹跟踪：设置时间节点，在每个时间节点处对模型当前的主题-词分布进行采样，获取对应主题中的词项，通过观察不同时间节点对应词项的演变，得到特定舆情新闻事件主题的演化轨迹；

(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析：计算相邻时间节点主题-词分布间的JS散度，衡量特定舆情新闻事件主题在特定时间段内是否发生演化；将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数，计算主题在每个时间节点的强度，从而监控舆情新闻事件的发展情况。

2.根据权利要求1所述的方法，特征在于，所述步骤(2)进一步包括以下具体步骤：

2.1：定义舆情新闻数据词典

获取步骤1.2.2预处理后得到的文字内容，将其中包含的全部词项存储在舆情新闻数据词典中，记为W＝{w₁,w₂,...,w_s}中，词典即为新闻数据中出现的所有词项的集合，其中，S为词典中词项的总数，即词典的大小，词典中没有重复的词项，即w_i≠w_j(1≤i,j≤S,i≠j)；

2.2：提取舆情新闻数据中的二元组

将每条舆情新闻数据作为一个单独的上下文单元，其中任何两个不同的词项构成一个二元组，一个包含3个不同词项的上下文单元将生成3个二元组表示为(w₁, w₂, w₃) →{(w₁, w₂), (w₂, w₃), (w₁, w₃)} (2-1)

按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组，得到二元组集合其中，|B|为该集合中二元组的个数，b_i为第i个二元组，1≤i≤|B|，b_i＝(w₁(b_i),w₂(b_i))，w₁(b_i)和w₂(b_i)为二元组b_i中的两个词项；二元组的提取过程可以通过对I的一次扫描来完成；

2.3：构建MTBM

用舆情新闻数据词典W中的S个词项来表示K个主题，K为设定的主题总数，K≥1，z_k为主题的指示变量，k为主题序号(k∈{1,2,...,K})，θ为数据集的主题分布，φ_k为主题z_k的主题-词分布，α(0≤α≤1)和β(0≤β≤1)分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数，MBTM按照以下生成过程构建：

2.3.1：从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样，从而推断出概率分布中的隐含变量θ、得到具体的概率分布，即有θ～Dir(α)，表示为

其中，α是K维参数，α_i>0，Γ(x)是Gamma函数；

2.3.2：对每个主题z_k，基于参数为β的狄利克雷分布对每个主题进行随机采样，得到主题-词分布φ_k，简称为词项分布，即有φ_k～Dir(β)；

2.3.3：对二元组集合中的每个二元组b：基于参数θ的多项式分布，为每个二元组b随机采样一个主题z，即有z～Multinomial(θ)，基于参数φ_k的多项式分布对词项w₁(b)和w₂(b)进行随机采样，即有w₁(b),w₂(b)～Multinomial(φ_k)；

2.4：通过MBTM推断舆情新闻事件的隐含主题

MBTM模型在步骤2.3模型生成过程的基础上，将主题分布θ和每个主题的词项分布φ_k通过求边际积分的收缩变分表示方法，从后验分布中去除，只对隐含主题变量z进行推断，z服从于变分多项分布Multinomial(γ_bk)，γ_bk为该多项式分布的变分参数，舆情新闻事件隐含主题按如下步骤进行推断：

2.4.1：随机初始化N_k和N_k,w，令时间步长t＝1，对每个二元组b，更新变分参数γ_bk，首先对于变分参数γ_bk，使用变分推断中经常使用的坐标上升法，对变分后验分布的变分下限(Evidence Lower Bound,ELBO)进行最大化，该过程采用零阶近似方法，即在近似时只保留零阶泰勒展开，最终得到γ_b的近似更新公式为，从而克服变分期望项的较高计算代价带来的困难：

其中，N_k和N_k,w为表示执行更新和恢复参数所需要的全部数据的统计量，当一个新的二元组b出现时，随机地更新统计量，从而迭代地更新变分参数γ_bk直至收敛；\b表示统计量计数时要去掉当前二元组b；

2.4.2：基于得到的变分参数γ_bk，按照公式2-4和2-5估计N_k和N_k,w：

2.4.3：按照公式2-6定义Robbins-Monro序列，用来描述当时间步长t改变时，模型在新数据和历史数据之间的权衡，随着步长t的增加，对新数据变得不敏感，τ和κ是Robbins-Monro序列的超参数(τ≥1，0≤κ≤1)；

2.4.4：和分别是N_k和N_k,w进行了一次平行坐标上升更新后的无偏估计，描述一个二元组是从二元组集合B中通过均匀分布被抽取出来的，平行坐标上升利用前一时刻的参数γ_bk进行迭代更新，对剩余参数进行最大似然估计，动态计算局部最优解，以此逼近局部最优解，使用这种估计方法，重新按照公式2-7和2-8来更新N_k和N_k,w，从而得到N_k和N_k,w的更新规则：

2.4.5：更新时间步长t：在N_k和N_k,w的每次更新操作后将时间步长t加1；

2.4.6：在对所有的二元组进行了更新操作后，由于全局参数θ_k和φ_k,w仅与充分统计量N_k、N_k,w和模型参数有关，仅需要更新这些充分统计量，就可以进行全局参数的更新，从而推断出舆情新闻事件的隐含主题分布和主题-词分布，全局参数θ_k和φ_k,w的更新公式如下：

θ_k∝N_k+α (2-9)

φ_k,w∝N_k,w+β (2-10)

其中，符号“∝”表示成正比例，N_k和N_k,w表示对整个二元组集合B更新后的样本充分统计量。

3.根据权利要求1所述的方法，特征在于，所述步骤(3)进一步包括以下具体步骤：

3.1：设置时间节点跟踪舆情新闻事件主题的演化轨迹

3.1.1：基于步骤2构建的MBTM，设置时间节点A_t(t＝1,2,…,T)，时间间隔根据文本更新速度和需观察主题的粒度来设置，通常是时间单位，日、月或者年的整倍数；

3.1.2：由于MBTM中的参数是实时更新的，因此在每个时间节点采样当前的主题-词分布并将该分布保存在主题-词向量中；同理，采样每条数据上所有主题的概率分布θ_j,k，并将该分布保存在主题向量Δ_j＝(θ_j,1,θ_j,2,...,θ_j,K)中；

3.1.3：得出各时间节点下的主题-词分布，获取对应主题中的词项，按词项的概率分布降序排列，用主题在词项上的变化来描述事件主题的演化轨迹。

4.根据权利要求3所述的方法，特征在于，所述步骤(4)进一步包括以下具体步骤：

4.1：利用JS散度来度量两个舆情新闻事件主题间的相似度

4.1.1：设定舆情新闻事件主题演化时同一主题在相邻时间节点的相似度阈值ξ，0≤ξ≤1；

4.1.2：为了度量同一主题z_k在两个时间节点之间的相似度，读取3.1.2中得到的主题-词向量Λ_k,w，使用公式4-1中的Jensen-Shannon散度(简称JS散度)来计算概率分布的相似度；

其中，和分别为A_t的前一个时间节点和当前时间节点下舆情新闻事件主题z_k中词项w的概率分布，S为词典中词项的总数；

4.1.3：判定舆情新闻事件主题的演化状态：当两个时间节点的舆情新闻事件主题间的JS散度小于阈值ξ(0≤ξ≤1)时，则判定为主题发生了演化，否则判定为该主题停止演化；进一步形成舆情新闻事件主题演化状态图，横坐标表示时间节点，纵坐标表示节点间主题的JS散度，展示新闻事件主题的演化轨迹；

4.2：度量舆情新闻事件的主题强度

将舆情新闻事件的主题强度看作该事件的主题在上一个时间节点到当前时间节点内被讨论的次数，次数多则认为该主题强度高，反之则低，每一条新闻数据上的主题分布以概率形式给出，首先确定一条舆情新闻最有可能属于的主题，然后按如下步骤度量主题强度：

(1)设定两个阈值λ和μ，0≤λ≤1，0≤μ≤1；

(2)读取3.1.2中得到的主题向量Δ_j，将每条数据I_j上所有主题的分布概率θ_j,k(k∈{1,2,...,K})和阈值λ对比，将大于阈值λ的主题放入候选主题列表；

(3)从候选主题列表中选出概率值最大的主题，即max{θ_j,k}，将候选主题列表中所有主题的分布概率与μ*max{θ_j,k}相比，大于该值的主题作为新闻数据I_j的主题；

(4)统计前一个时间节点到当前时间节点内所有讨论主题z_k的新闻数据的条数D_k，按公式(4-2)计算主题强度：

其中，为前一个时间节点到当前时间节点A_t内获取的新闻数据的总条数；

5.根据权利要求2，3或4所述的方法，特征在于：

步骤2.4中，设定主题总数K为10，狄利克雷先验参数α＝1，β＝0.01，Robbins-Monro序列的超参数τ＝1000和κ＝0.8；

步骤3.1.1设定时间节点总数T＝5；

步骤4.1.1设定相似度阈值ξ＝0.5；

步骤4.2设定强度阈值λ＝0.1，μ＝0.5。