CN102289487B

CN102289487B - 基于主题模型的网络突发热点事件检测方法

Info

Publication number: CN102289487B
Application number: CN 201110226821
Authority: CN
Inventors: 张寅�; 邵健; 刘霄; 吴飞
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2011-08-09
Filing date: 2011-08-09
Publication date: 2013-09-04
Anticipated expiration: 2031-08-09
Also published as: CN102289487A

Abstract

本发明公开了一种基于主题模型的网络突发热点事件检测方法。包括如下步骤：1）首先对文档数据集进行分词处理，得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵；2）根据网络热点事件涌现过程中相关单词和文档的突发特性对数据集进行筛选；3）然后通过主题建模得到突发热点事件的特征单词和特征文本；4）计算出热点事件的关注度日期分布。和现有技术相比，本发明使用主题模型进行主题建模，可以更加准确的对主题事件进行描述，其次，本发明还引入了单词的突发特性计算方法，并据此对数据集进行筛选，从而过滤掉时间无关主题，得到真正的突发热点事件。

Description

基于主题模型的网络突发热点事件检测方法

技术领域

本发明涉及主题模型、事件检测领域，尤其涉及一种基于主题模型的网络热点事件检测方法。

背景技术

随着网络技术的快速发展和广泛应用，互联网逐渐成为人们获知信息的重要渠道，全球范围内每天都会有数以亿计的网络信息涌现，如何在海量网络信息中检测出突发热点事件已经成为了一个新兴的研究课题。

传统的主题模型，如PLSA(Probabilistic Latent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等，都可以用来对一个文档集进行主题挖掘，它们通过迭代计算，近似的描述出文档集中的每个主题。但是这些主题模型都是基于BOW(Bag Of Words)模型，只考虑了单词和文档的从属关系，忽略了单词和文档的时间信息，所以通过它们建模更容易得到时间无关的静态主题(如体育、娱乐、科技等)，但很难得到时间相关的突发事件主题(如日本地震、911袭击等)。

为了克服这一不足，Li等人提出了一种基于突发特征的突发热点事件检测方法，将网络新闻标题聚类成若干个候选主题，然后根据定义的特征规则对候选主题进行筛选，得到最终的突发事件主题。

这种方法虽然能够检测出一定的网络突发事件，但是依然存在一些缺陷：1)聚类并不是最佳的主题建模方法，相比而言，主题模型更适合用于主题挖掘；2)在生成候选主题时，该方法没有根据时序数据的突发特性对原始数据进行优化处理，导致候选主题中存在较多时间无关的静态主题。另一方面，我们所关心的突发事件主题也会由于静态主题的干扰而被弱化。

针对这些方法的不足，我们提出了一种基于主题模型的网络突发热点事件检测方法，并将其运用在了Twitter数据集上。该方法首先针对突发事件的时间特性，对单词和文档进行筛选，然后在数据集上进行主题建模，再对得到的主题进行热点事件筛选、消除重复处理，最终得到k个突发热点事件。同时我们还会分别使用特征单词和特征文档对突发热点事件进行形象化描述，并且计算出每个事件的关注度日期变化。

发明内容

本发明的目的是克服现有推荐技术的不足，提供一种基于主题模型的网络突发热点事件检测方法。

基于主题模型的网络突发热点事件检测方法包括如下步骤：

1)首先对文档数据集进行分词处理，得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵；

2)根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性，并据此对数据集进行筛选；

3)然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本；

4)根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布。

所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于所述的首先对文档数据集进行分词处理，得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵的步骤为：

1)从文档数据集中提取出单词列表W＝{(w_i)：i＝1，2，...，l}，并统计每个单词在每个文档中的出现次数，从而得到文档单词关系矩阵X＝{(x_ij)：i＝1，2，...，l；j＝1，2，...，n}，其中w_i表示第i个单词，x_ij表示单词w_i在文档d_j中出现的次数；

2)根据文档单词关系矩阵X得到单词文档分布矩阵C1＝{(c1_i)：i＝1，2，...，l}，其中c1_i表示出现过单词w_i的文档数量；

3)根据文档单词关系矩阵X和文档日期分布得到单词日期分布矩阵C2＝{(c2_ij)：i＝1，2，...，l；j＝1，2，...，p}，其中c2_ij表示单词w_i在日期j出现的次数，实际中，还在使用分布矩阵C2之前对其进行均值化处理，即c2_ij＝c2_ij/sum_j，sum_j表示日期j当天出现的单词总量，这样消除文档数量日期分布不均匀对突发性检测的干扰。

所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性，并据此对数据集进行筛选的步骤为：

1)根据单词文档分布矩阵C1对单词进行筛选，首先定义文档分布筛选系数β₁、β₂，并且0≤β₁＜β₂≤1，然后使用函数WordFilter1对单词进行筛选，其中n表示集合D中的文档数量，通过小的系数β₁，过滤掉出现频率较低的生僻单词，而大的系数β₂则过滤掉出现频率较高的事件无关单词；

WordFilter 1 (w_{i}) = \{\begin{matrix} true & n * β_{1} \leq {c 1}_{i} \leq n * β_{2} \\ false & otherwise \end{matrix}

2)定义并计算每个单词的突发特征值；

BurstyValue (w_{i}) = \sqrt{\frac{1}{p} Σ_{j = 1}^{p} {({c 2}_{ij} - \overset{&OverBar;}{{c 2}_{i}})}^{2}} / \overset{&OverBar;}{{c 2}_{i}}

其中

表示单词w_i日期分布的平均值，这里的突发指数其实就是单词日期分布的标准差和平均值相除的结果，标准差用来描述单词日期分布的突发性，除以平均值则抵消不同单词整体出现频率差异的影响，这样得到的最终结果才准确的反应出每个单词日期分布的突发性；

3)根据突发特征值对单词进行筛选，单词突发指数反映了单词和突发事件相关的可能性，在此基础上定义单词筛选函数：

WordFilter 2 (w_{i}) = \{\begin{matrix} true & BurstyValue (w_{i}) &GreaterEqual; φ \\ false & otherwise \end{matrix}

这里φ为单词突发指数阈值，用于过滤突发性较低的单词，除了使用固定阈值，还采用固定突发单词数量以及固定突发单词比例方式来筛选突发单词；

4)根据突发单词列表对文档进行筛选，文档过滤函数DocFilter定义如下：

DocFilter (d_{i}) = \{\begin{matrix} true & \underset{w_{j} &Element; W}{Σ} x_{ij} > 0 \\ false & otherwise \end{matrix}

即保留突发单词数量大于0的文档作为突发文档，然后就得到突发文档、突发单词关系矩阵X′＝{(x′_ij)：i＝1，2，...，l′；j＝1，2，...，n′}。

所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于然后对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本的步骤为：

1)首先采用PLSA主题模型在关系矩阵X上进行主题建模，PLSA的输出结果为3个概率矩阵PWZ、PDZ、PZ，当单词数量为l，主题数量为k′时，PWZ＝{(p(w_i|t_j))：i＝1，2，...，l；j＝1，2，...，k′}，其中p(w_i|t_j)表示单词w_i在主题t_j中的后验概率，也理解为单词w_i在主题t_j中的权重，所以

其中PWZ表示主题、单词后验概率分布矩阵，PDZ表示主题、文档后验概率分布矩阵，PZ表示主题概率分布矩阵；

2)定义每个事件的特征单词数量上限为σ＝1，2，3...；

3)筛选突发热点事件，PWZ中的每个主题未必都对应于一个特征明显的网络事件，根据单词的权重分布来对k′个主题进行筛选，先对PWZ的每一列按照单词权重进行降序排列，主题t_j通过筛选需要满足条件：存在1≤σ_j≤σ，使得在排序后的PWZ中

这里σ_j就是主题t_j的特征单词数量，后对热点事件消除重复即可得到最终的网络突发热点事件；

4)计算突发热点事件的特征单词、特征文档，第j个主题在排序后的PWZ矩阵中，选取第j列的前σ_j个单词作为事件特征单词，同时根据函数TopicDocValue计算每个事件在每个文档上的特征值，排序后选取最大的若干个文档作为事件特征文档，

TopicDocValue (t_{i}, d_{j}) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * x_{qj} .

所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为：

1)计算事件的关注度日期分布，根据以下公式，计算每个事件每天的关注度即可得到热点事件关注度日期分布矩阵，

TopicDateValue (t_{i}, j) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * {c 2}_{qj};

其中t_i表示第i个热点事件，j表示日期，w_q表示第q个特征单词，c2_qj表示单词w_q在日期j出现的次数。

和现有技术相比，本发明使用主题模型进行主题建模，可以更加准确的对主题事件进行描述，其次，本发明还引入了单词的突发特性计算方法，并据此对数据集进行筛选，从而过滤掉时间无关主题，得到真正的突发热点事件。

附图说明

图1是基于主题模型的网络突发热点事件检测方法流程图；

图2是三个主要网络突发热点事件的关注度日期分布。

具体实施方式

基于主题模型的网络突发热点事件检测方法包括如下步骤：

所述的首先对文档数据集进行分词处理，得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵的步骤为：

2)根据文档单词关系矩阵X得到单词文档分布矩阵C1＝{(c1_i)：i＝1，2，...，l}，其中c1_i，表示出现过单词w_i的文档数量；

所述的根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性，并据此对数据集进行筛选的步骤为：

WordFilter 1 (w_{i}) = \{\begin{matrix} true & n * β_{1} \leq {c 1}_{i} \leq n * β_{2} \\ false & otherwise \end{matrix}

2)定义并计算每个单词的突发特征值；

BurstyValue (w_{i}) = \sqrt{\frac{1}{p} Σ_{j = 1}^{p} {({c 2}_{ij} - \overset{&OverBar;}{{c 2}_{i}})}^{2}} / \overset{&OverBar;}{{c 2}_{i}}

其中

WordFilter 2 (w_{i}) = \{\begin{matrix} true & BurstyValue (w_{i}) &GreaterEqual; φ \\ false & otherwise \end{matrix}

DocFilter (d_{i}) = \{\begin{matrix} true & \underset{w_{j} &Element; W}{Σ} x_{ij} > 0 \\ false & otherwise \end{matrix}

所述的对筛选后的数据集进行主题建模得到突发热点事件的特征单词和特征文本的步骤为：

2)定义每个事件的特征单词数量上限为σ＝1，2，3...；

TopicDocValue (t_{i}, d_{j}) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * x_{qj} .

所述的根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为：

TopicDateValue (t_{i}, j) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * {c 2}_{qj};

实施例

实验数据采用推特(Twitter)微博数据集，数据集包括从2011年4月13日至2011年5月11日的共281734篇文档、22063个单词，实验参数选取如下表所示：

由于推特(Twitter)文档较短，并且文档数量非常大，所以我们设置的文档分布筛选系数比较低，如果是在长篇新闻报道数据集上进行实验，则应该选取更大的筛选系数。经过筛选后得到290个特征单词、11768篇特征文档。

然后采用基于概率的潜在语义分析模型(PLSA)进行主题建模，初始主题数量设置为50，经过事件筛选、消除重复处理后共得到15个网络突发热点事件，其中3个事件特征单词数量为2，其余均只有一个特征单词，这是因为推特(Twitter)文档较短，本文采用的数据集平均每个文档只有6.789个不同的单词，事件特征单词见下表：

再计算每个事件最具代表性的两个文档，见下表：

然后计算每个事件29天内的关注度日期分布，其中关注度最大值在150以上的特大热点事件共3个，分别是事件2(本拉丹被击毙)、事件7(母亲节)，事件12(NBA卫冕冠军湖人面对小牛三连败)，它们的关注度日期分布见图2。

Claims

1.一种基于主题模型的网络突发热点事件检测方法，其特征在于包括如下步骤：

1）首先对文档数据集进行分词处理，得到单词列表、文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵；

2）根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性，并据此对文档数据集进行筛选；

3）然后对筛选后的文档数据集进行主题建模得到突发热点事件的特征单词和特征文档；

4）根据突发热点事件的特征单词、单词日期分布矩阵计算突发热点事件的关注度日期分布；

1）从文档数据集中提取出单词列表W＝{(w_i):i＝1,2,…,l}，并统计每个单词在每个文档中的出现次数，从而得到文档单词关系矩阵X＝{(x_ij):i＝1,2,…,l;j＝1,2,…,n}，其中w_i表示第i个单词，x_ij表示单词w_i在文档d_j中出现的次数；

2）根据文档单词关系矩阵X得到单词文档分布矩阵C1＝{(c1_i):i＝1,2,…,l}，其中c1_i表示出现过单词w_i的文档数量；

3）根据文档单词关系矩阵X和文档日期分布得到单词日期分布矩阵C2＝{(c2_ij):i＝1,2,…,l;j＝1,2,…,p}，其中c2_ij表示单词w_i在日期j出现的次数除以日期j当天出现的单词总量；

所述的根据文档单词关系矩阵、单词文档分布矩阵、单词日期分布矩阵计算单词和文档的突发特性，并据此对文档数据集进行筛选的步骤为：

1）根据单词文档分布矩阵C1对单词进行筛选，首先定义文档分布筛选系数β₁、β₂，并且0≤β₁＜β₂≤1，然后使用函数WordFilter1对单词进行筛选，其中n表示集合D中的文档数量，通过小的系数β₁，过滤掉出现频率较低的生僻单词，而大的系数β₂则过滤掉出现频率较高的事件无关单词；

WordFilter 1 (w_{i}) = \{\begin{matrix} true & n * β_{1} \leq {c 1}_{i} \leq n * β_{2} \\ false & otherwise \end{matrix}

2）定义并计算每个单词的突发指数；

BurstyValue (w_{i}) = \sqrt{\frac{1}{p} Σ_{j = 1}^{p} {({c 2}_{ij} - \overset{&OverBar;}{{c 2}_{i}})}^{2}} / \overset{&OverBar;}{{c 2}_{i}}

其中

表示单词w_i日期分布的平均值，这里的单词突发指数其实就是单词日期分布的标准差和平均值相除的结果，标准差用来描述单词日期分布的突发性，除以平均值则抵消不同单词整体出现频率差异的影响，这样得到的最终结果才准确的反应出每个单词日期分布的突发性；

3）根据突发特征值对单词进行筛选，单词突发指数反映了单词和突发事件相关的可能性，在此基础上定义单词筛选函数：

WordFilter 2 (w_{i}) = \{\begin{matrix} true & BurstyValue (w_{i}) &GreaterEqual; φ \\ false & otherwise \end{matrix}

4）根据突发单词列表对文档进行筛选，文档过滤函数DocFilter定义如下：

DocFilter (d_{i}) = \{\begin{matrix} true & \underset{w_{j} &Element; W}{Σ} x_{ij} > 0 \\ false & otherwise \end{matrix}

即保留突发单词数量大于0的文档作为突发文档，然后就得到突发文档、突发单词关系矩阵X'＝{(x'_ij):i＝1,2,…,l';j＝1,2,…,n'}。

2.根据权利要求1所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于然后对筛选后的文档数据集进行主题建模得到突发热点事件的特征单词和特征文档的步骤为：

1）首先采用PLSA主题模型在文档单词关系矩阵X上进行主题建模，PLSA的输出结果为3个概率矩阵PWZ、PDZ、PZ，当单词数量为l，主题数量为k'时，PWZ＝{(p(w_i|t_j)):i＝1,2,…,l;j＝1,2,…,k'}，其中p(w_i|t_j)表示单词w_i在主题t_j中的后验概率，所以

2）定义每个事件的特征单词数量上限为σ，其中σ为正整数；

3）筛选突发热点事件，PWZ中的每个主题未必都对应于一个特征明显的网络事件，根据单词的权重分布来对k'个主题进行筛选，先对PWZ的每一列按照单词权重进行降序排列，主题t_j通过筛选需要满足条件：存在1≤σ_j≤σ，使得在排序后的PWZ中

4）计算突发热点事件的特征单词、特征文档，第j个主题在排序后的PWZ矩阵中，选取第j列的前σ_j个单词作为事件特征单词，同时根据函数TopicDocValue计算每个事件在每个文档上的特征值，排序后选取最大的若干个文档作为事件特征文档，

TopicDocValue (t_{i}, d_{j}) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * x_{qj} .

3.根据权利要求1所述的一种基于主题模型的网络突发热点事件检测方法，其特征在于根据热点事件的特征单词、单词日期分布矩阵计算热点事件的关注度日期分布的步骤为：

1）计算事件的关注度日期分布，根据以下公式，计算每个事件每天的关注度即可得到热点事件关注度日期分布矩阵，

TopicDateValue (t_{i}, j) = \underset{w_{q} &Element; {tw}_{i}}{Σ} p (w_{q} | t_{i}) * {c 2}_{qj};

其中t_i表示第i个热点事件，j表示日期，w_q表示第q个特征单词，c2_qj表示单词w_q在日期j出现的次数除以日期j当天出现的单词总量。