CN107943816A

CN107943816A - 一种网络热点话题的发现方法和系统

Info

Publication number: CN107943816A
Application number: CN201710933407.3A
Authority: CN
Inventors: 安振宇; 孙亭; 李毅; 陈思; 叶云; 沈自然; 沈昌力
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2018-04-20

Abstract

本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热点话题发现方法和系统。首先对网络文本构建词共现矩阵，对于网络海量文本，在文档规模达到一定程度时，去除低频词项，此后利用这些词构建词共现矩阵；稀疏非负矩阵分解，通过对共现矩阵进行分解，得到词项‑主题矩阵与文档主题矩阵，作为下一步输入；将矩阵分解获取的两个矩阵作为初始条件，输入主题模型，经过期望最大化算法，得到最优的解，再通过对特定主题的文档数量排序等步骤，最终实现网络热点话题的发现。

Description

一种网络热点话题的发现方法和系统

技术领域

本发明涉及一种网络热点话题发现方法和系统，采用一种稀疏矩阵分解和主题模型相结合的方法，属于人工智能领域。

背景技术

网络热点话题不仅极大地影响着虚拟社会中各种事件的形成与发展，同时也影响着现实中人们对事件的看法和判断。为了通过海量的社交网络数据及时的掌握热点话题和舆情的态势变化，需要对话题进行提取、追踪和预测，这也使得从网络中获取热点话题成为近年来研究的热点。传统方法如郭蓝天，李扬，慕德俊等人提出的基于聚类规则对文本主题词进行相似度的计算和聚类，受限于人工对聚类规则的制定，对特定文本主题分类效果较好，但难以具有普遍意义。于此同时，由于网络数据具有长度短、信息量少、高维稀疏等特点，给热点话题发现任务带来极大的困难。本发明根据网络文本数据特点，提出利用稀疏非负矩阵分解的方法来解决这一问题。

发明内容

本发明提出了一种基于稀疏矩阵分解和主题模型相结合的网络热点话题发现方法。首先对网络文本构建词共现矩阵、稀疏非负矩阵分解、主题模型发现、热度排序等步骤，最终实现网络热点话题的发现。主要包括以下几个步骤：

第一步：构建词共现矩阵。对于网络海量文本，在文档规模达到一定程度时，去除低频词项后的词量基本保持在20000左右，首先计算这些常用词的词共现矩阵X。

第二步：对词共现矩阵X进行稀疏非负矩阵分解，得到的分解结果W与其转置即构成了词项-主题矩阵，作为下一步主题建模的输入。

第三步：将上一步得到的词项-主题矩阵，即W作为输入，利用经典的pLSA(Probability Latent Semantic Analysis)算法得到文档-主题分布，这样得到每个文档中的话题簇。统计每个话题涉及的文档数，即可以对话题进行热点排序，得到最热门的若干话题。

本发明的有益结果为，通过引入稀疏非负矩阵分解，满足了海量网络文本中主题稀疏的特点，也可以对词共现矩阵进行有效分解，得到词项-主题分布，作为初始化参数输入pLSA算法中，令得到的分解结果更有效，同时加快计算速度，对网络舆情监测具有重要意义。

附图说明

图1表示本发明所提出的基于稀疏矩阵分解和主题模型相结合的网络热点话题发现方法流程图。

图2为非负稀疏矩阵分解原理示意图。

图3为pLSA原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明，应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

现在将详细参考本发明的实施例，这些实施例的示例在附图中示出。元件的后缀“模块”和“单元”在此用于方便描述，并且因此可以可交换地被使用，而且没有任何可区别的意义或功能。

虽然构成本发明的实施例的所有元件或单元被描述为结合到单个元件中或被操作为单个元件或单元，但是本发明不一定局限于此种实施例。根据实施例，在本发明的目的和范围内所有的元件可以选择性地结合到一个或多个元件并且被操作为一个或多个元件。

下面结合附图对本发明的具体实施方式进行详细阐述。图1为本发明提出的基于稀疏矩阵分解和主题模型相结合的主题发现方法示意图，主要分为词共现矩阵X构建、稀疏矩阵分解、概率潜在语义分析三个步骤。

1)构建词共现矩阵。

对于网络海量文本，在文档规模达到一定程度时，去除低频词项，首先计算这些常用词的词-词共现矩阵X。

在一个实施例中，文档达到的规模优先选择40000篇以上，去除低频词项后的词量基本保持在20000左右。

所谓低频词项，是指出现频率相对较低的词。比如，对于一个含有1000个单词的集合，如果某个词A出现100次，则频率为0.1，如果某个词仅出现1次，则频率为0.001，低频词项就是频率小于一定程度的单词。低频词项的词频值的设置与系统输入的文档量有关，不宜设置为固定值。在本发明实施例中，优选词频低于0.01的词汇为低频词汇。

第一步，得到词项t_i的分布(W_i，1，W_i，2，...，W_i，m)，其中W_i，m表示词t_i与t_m之间的互信息。

其中，用于计算互信息；用于计算词项ti与tm之间联合概率密度函数，函数n(x，x)表示出现次数；ti，tm，tj，tk均为常用词项，其中 tm，tj，tk遍历了整个词库，用于计算；

用于计算t_i的概率密度。

第二步，计算任意两个词分布之间的余弦，填入词共现矩阵X，显然 X是一个对称矩阵。

在一个实施例中，计算余弦方法如下：

对于常用词项t_i与t_j的分布，其分布分别为(W_i，1，W_i，2，...，W_i，m)与 (W_j，1，W_j，2，...，W_j，m)，计算余弦的方式为：

对词共现矩阵X，如果其元素为则每一个组成元素均为上述余弦值，即x₁₁＝cos(t₁，t₁)，x₁₂＝cos(t₁，t₂)，...

2)非负稀疏矩阵分解，对矩阵X进行分解。X＝WW^T，W≥0

因为文本的主题是有限个有意义，所以限定W为稀疏矩阵，得到优化表达式

词共现矩阵的每一个矩阵元素如tij代表对应两词t_i与t_j之间的相似度。因此对词共现矩阵进行分解，会得到两个矩阵W与H。其中W代表词项矩阵，H代表主题矩阵，这里W与H互为转置，即W＝H^T，通过如下步骤求解得到W。

i.随机初始化非负矩阵W；

ii.令W＝W-μ_W(WW^T-X)W，这里μ_W为给定的正值常量，一般较小；优选为0.5或1，对W的每一列进行稀疏约束，让其每一列的l2范数在稀疏前后都不变，通过给定的稀疏度s，计算l1范数；

具体过程如下：

(1)初始化矩阵W≥0和H≥o；

(2)迭代：

W←PG(W-μ_W(WH-V)H^T)，L₂-范数不变，L₁-范数设置到既定稀疏度；H←PG(H-μ_HW^T(WH-V))，归一化L₂-范数，L₁-范数设置到既定稀疏度；

这里，PG表示投影函数。

对矩阵X设定稀疏度的操作方式如下：

①设这里，s表示稀疏度，x表述矩阵X的列

②设Z＝{}

③迭代：1.设

2.设S＝m+α(S-m)，α≥0.

如果S中所有元素都是非负，返回2，结束。

3.设Z＝Z∪{i，s_i＜0}，

4.计算c＝(∑s_i-L₁)/(dim(X)-size(Z))；

5.设返回到1

④直到X所有列都映射到既定稀疏度。

iii.重复第ii步，直至条件满足。η为一个极小的正值常量，W为计算得到的值，W_old为已有值。最终得到的W与其转置即构成了词项-主题矩阵，作为下一步主题建模的输入。

3)将上一步得到的词项-主题矩阵，即W作为输入，利用经典的 pLSA算法得到文档-主题分布，这样得到每个文档中的话题簇。统计每个话题涉及的文档数，即可以对话题进行简单的热点排序，得到最热门的若干话题。

pLSA基本原理见附图3，由于用的是经典的pLSA算法，这里仅将关键步骤说明如下：将文档-主题矩阵P(D，Z)和词-主题矩阵P(W，Z)作为初始值输入pLSA，在最小熵意义下，对如下表达式进行优化

使用最大似然估计来训练隐含变量，通过EM算法具体进行计算，迭代过程如下：

E步：

M步：

代入最优化函数

经过优化计算得到的文档-主题矩阵P(D，Z)，即为所求结果。统计每个话题涉及的文档数，即可以对话题进行简单的热点排序，得到最热门的若干话题。

本发明的通过引入稀疏非负矩阵分解，满足了海量网络文本中主题稀疏的特点，也可以对词共现矩阵进行有效分解，得到词项-主题分布，作为初始化参数输入pLSA算法中，令得到的分解结果更有效，同时加快计算速度，对网络舆情监测具有重要意义。

尽管已经示出并描述了本发明实施例的特殊实施例，然而在不背离本发明实施例的示例性实施例及其更宽广方面的前提下，本领域技术人员显然可以基于此处的教学做出变化和修改。因此，所附的权利要求意在将所有这类不背离本发明实施例的示例性实施例的真实精神和范围的变化和更改包含在其范围之内。

Claims

1.一种网络热点话题发现方法，包括如下步骤：

获取海量网络文本，去除低频词项，计算剩余常用词的词共现矩阵X；

对词共现矩阵X进行稀疏非负矩阵分解，将分解结果W与其转置H构成词项-主题矩阵；

利用pLSA算法对词项-主题矩阵进行计算，得到文档-主题分布；

统计每个话题涉及的文档数并进行热点排序，得到网络热点话题。

2.根据权利要求1所述的网络热点话题发现方法，其特征在于，所述方法中当文本数量大于40000时开始去除低频词项，所述词频低于0.01的词项为低频词项；所述去除低频词项后，剩余常用词量保持在20000左右。

3.根据权利要求1所述的网络热点话题发现方法，其特征在于，所述计算剩余常用词的词共现矩阵X包括：

S101：获得常用词词项t_i的分布(W_i，1，W_i，2，...，W_i，m)，其中W_i，m表示词t_i与t_m之间的互信息。

其中，

其中，函数n(x，x)表示常用词项的出现次数，t_i、t_m、t_j、t_k为常用词项；

S102：计算任意两个词分布之间的余弦，填入词共现矩阵X。

4.根据权利要求1所述的网络热点话题发现方法，其特征在于，所述对词共现矩阵X进行稀疏非负矩阵分解包括：

S201：对词共现矩阵X进行分解，X＝WW^T，W≥0.

S202：随机初始化非负矩阵W；

S203：令W＝W-μ(WW^T-X)W，这里μ为给定的正值常量；对W的每一列进行稀疏约束，让其每一列的12范数在稀疏前后都不变，通过给定的稀疏度s，计算11范数；

S204：重复上一步，直至条件满足；η为一个极小的正值常量，W为计算得到的值，W_old为已有值；最终得到W与其转置H构成了词项-主题矩阵。

5.根据权利要求4所述的网络热点话题发现方法，其特征在于，所述S203步骤具体如下：

(1)初始化矩阵W≥0和H≥0；

(2)迭代：

其中，PG表示投影函数；

对矩阵X设定稀疏度的操作方式如下：

(1)设这里，s表示稀疏度，x表述矩阵X的列

(2)设Z＝{}

(3)迭代：1.设

2.设S＝m+α(S-m)，α≥0.；

如果S中所有元素都是非负，返回2，结束；

3.设Z＝ZU{i，s_i＜0}，s_i＝0，

4.计算c＝(∑s_i-L₁)/(dim(X)-size(Z))；

5.设返回到1；

(4)直到X所有列都映射到既定稀疏度。

6.根据权利要求1所述的网络热点话题发现方法，其特征在于，所述对词共现矩阵X进行稀疏非负矩阵分解包括：

S301：将文档-主题矩阵P(D,Z)和词-主题矩阵P(W,Z)作为初始值输入pLSA，其中，D表示文档，W表示词项与前述W是同一个概念，Z表示隐含的主题；在最小熵意义下，对如下表达式进行优化

其中，p(d,w)代表文档和词项的联合概率密度，n(w,d)代表词项w在文档d中出现的次数，p(w|z)和p(z|d)代表条件概率密度；

迭代过程如下：

E步：

M步：

经过优化计算得到的文档-主题矩阵P(D,Z)，即为文档主题分布。

7.一种网络热点话题发现系统，所述系统包括如下部分：

网络文本获取模块，用于获取海量网络文本；

文本预处理模块，用于去除低频词项，将剩余常用词输入到词共现矩阵模块；

词共现矩阵模块，用于计算得到常用词的词共现矩阵X；

稀疏非负矩阵分解模块，用于对词共现矩阵X进行稀疏非负矩阵分解，获得词项-主题矩阵；

pLSA模块，用于利用pLSA算法对词项-主题矩阵进行计算，得到文档-主题分布；

热度排序模块，用于根据文档-主题分布统计每个话题涉及的文档数并进行热点排序，得到网络热点话题。

8.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述文本预处理模块在当文本数量大于40000时开始去除低频词项，所述词频低于0.01的词项为低频词项；所述去除低频词项后，剩余常用词量保持在20000左右。

9.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述词共现矩阵模块用于执行如下步骤：

S101：获得常用词词项t_i的分布(W_i，1，W_i，2，...，W_i，m)，其中W_i，m表示词t_i与t_m之间的互信息；

其中，函数n(x，x)表示常用词项的出现次数；t_i、t_m、t_j、t_k为常用词项；

S102：计算任意两个词分布之间的余弦，填入词共现矩阵X。

10.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述稀疏非负矩阵分解模块用于执行如下步骤：

S201：对词共现矩阵X进行分解，X＝WW^T，W≥0；

S202：随机初始化非负矩阵W；

S203：令W＝W-μ(WW^T-X)W，这里μ为给定的正值常量，一般较小；对W的每一列进行稀疏约束，让其每一列的12范数在稀疏前后都不变，通过给定的稀疏度s，计算11范数；

11.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述S203步骤具体如下：

(1)初始化矩阵W≥0和H≥0；

(2)迭代：

其中，PG表示投影函数；

对矩阵X设定稀疏度的操作方式如下：

(1)设这里，s表示稀疏度，x表述矩阵X的列

(2)设Z＝{}

(3)迭代：1.设

2.设S＝m+α(S-m)，α≥0.

如果S中所有元素都是非负，返回2，结束；

3.设Z＝Z∪{i，s_i＜0}，s_i＝0，

4.计算c＝(∑s_i-L₁)/(dim(X)-size(Z))；

5.设返回到1

(4)直到X所有列都映射到既定稀疏度。

12.根据权利要求7所述的网络热点话题发现系统，其特征在于，所述pLSA模块用于执行如下步骤：

S301：将文档-主题矩阵P(D,Z)和词-主题矩阵P(W,Z)作为初始值输入pLSA，在最小熵意义下，对如下表达式进行优化

E步：

M步：

经过优化计算得到的文档-主题矩阵P(D,Z)，即为文档-主题分布。