CN110795533A

CN110795533A - 面向长文本的主题检测方法

Info

Publication number: CN110795533A
Application number: CN201911008635.5A
Authority: CN
Inventors: 王帅
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-14

Abstract

本发明公开一种面向长文本的主题检测方法，包括以下步骤：1）对长文本进行结构化处理和文本数据抽象，计算Word2vec＆TF‑IDF词向量；进行LDA建模，构成文本‑主题分布，利用Skip‑Gram模型来训练语料库，计算其特征向量，在此基础上计算长文本数据的词向量与特征向量的余弦距离进行加权叠加，得出文本相似度。2）以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块采用Single‑Pass进行聚类分析，再通过HAC进行话题合并，得出最终结果。该方法通过LDA提取文本特征词隐含的主题，Word2vec映射特征词向量，再将二者进行加权融合，引入时间窗口和凝聚式层次聚类，通过Single‑Pass＆HAC对长文本主题进行了完整的提取，输出结果准确度高。

Description

面向长文本的主题检测方法

技术领域

本发明涉及网络长文本的数据挖掘技术领域，特别是涉及一种面向长文本的主题检测方法。

背景技术

随着近年来互联网技术的飞速发展，网络长文本信息呈现爆炸式的增长，而长文本信息中一般存在着大量冗余文本数据，其表示又存在着忽略潜在语义和高维稀疏性的问题。同时，网络事件本身还具有快速传播性和突发性，为了帮助用户快速得出长文本的主题信息，对长文本的主题检测方法研究设计具有重要的现实意义。

本方法对长文本进行结构化处理和文本数据抽象，构成文本-主题分布，利用Skip- Gram模型来训练语料库。计算长文本数据的词向量与特征向量的余弦距离，两者相乘相加，计算文本相似度；以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块进行聚类分析，其后的各数据块在前一数据块分好类的基础上，与各分类质心进行相似度计算，选出相似度最大值，从而实现了对长文本主题的完整提取。

发明内容

为解决上述问题，本发明提供了一种面向长文本的主题检测方法，其通过LDA提取文本特征词隐含的主题，Word2vec映射特征词向量，再将二者进行加权融合，引入时间窗口和凝聚式层次聚类，通过Single-Pass&HAC检测出长文本主题。

为此，本发明的技术方案如下：

建立VSM模型，用Q＝{q₁,q₂,…,q_n,…,q_N}表示长文本数据，用Z＝ {z₁,z₂,…,z_n,…,z_N}表示其特征词，用D_i＝{(w_i1,z₁)，(w_i2，z₂),…,(w_in,z_n),…,(w_iN,z_N)}表示所有长文档,w_iN表示第i篇长文本的特征词的权重。采用词频--反文档频率权重法对权重进行计算，

将文本数据进行抽象建立贝叶斯概率模型，进行LDA建模，使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,δ共有Y个，对长文本q_N随机从Dirichlet先验分布

中选出相应的文档主题分布

选定主题

再根据主题词的Dirichlet先验分布 [θ_β1,θ_β2,θ_β3,…,θ_βz]^T选出相应的主题词语分布[δ_β1,δ_β2,δ_β3,…,δ_βz]^T，从词库中选出词语

构成文本主题分布；

建立Skip-Gram模型，其输入层特征词的N维输入向量为τ₁，O维隐含层

输出层，第k个分布上的第l个单元的净输入

其中，W为复制和转置输入层到隐含层的权重矩阵τ_k,l表示输出层的第k个分布上的第l个特征词，τ_j,k表示输出上下文词中的第k个词，唯一输入词为τ₁，ρ_k,l表示第k个分布上的第l个单元的输出，ψ_τl表示隐含层到输出层的权重向量，k＝1,2,3,…,K；最终计算计算长文本数据的词向量与特征向量的余弦距离，两者相乘相加，计算文本相似度。

在Single-Pass的算法基础上融入凝聚式层次聚类，以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块进行聚类分析，其后的各数据块在前一数据块分好类的基础上，与各分类质心进行相似度计算，选出相似度最大值，从而检测出长文本的主题。

本发明提供的方法主要针对网络长文本的主题聚类分析。随着互联网技术的飞速发展，网络长文本信息呈现爆炸式的增长，而长文本信息中一般存在着大量冗余文本数据，其表示又存在着忽略潜在语义和高维稀疏性的问题。同时，网络事件本身还具有快速传播性和突发性。

针对以上问题设计出了本方法。有益效果有：

1)Word2vec&LDA两种方法相结合，对其得到的特征向量进行加权融合起到降维和较为完整的表示出文本信息。

2)Single-Pass&HAC两种方法相结合，引入时间窗口和凝聚式层次聚类，提高了聚类分析的精度和效率。

附图说明

图1为本发明提供的面向长文本的主题检测算法流程图

图2为基于时间窗口的Single-Pass聚类流程图

具体实施方式

如图1所示，本发明提供了一种面向长文本的主题检测方法。

首先，采集源文档数据，建立VSM模型，用Q＝{q₁,q₂,…,q_n,…,q_N}表示长文本数据，用Z＝{z₁,z₂,…,z_n,…,z_N}表示其特征词，用D_i＝ {(w_i1,z₁),(w_i2,z₂),…,(w_in,z_n),…,(w_iN,z_N)}表示所有文档,用w_iN表示第i篇长文本的特征词的权重，采用词频--反文档频率权重法对权重进行计算。计算Word2vec&TF-IDF词向量，

其次，将文本数据进行抽象建立贝叶斯概率模型，进行LDA建模，使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ,

根据主题词的Dirichlet先验分布[θ_β1，θ_β2，θ_β3,…,θ_βZ]^T选出相应的主题词语分布[δ_β1,δ_β2,δ_β3,…,δ_βZ]^T，从词库中选出词语

构成文本主题分布；在此基础上计算长文本数据的词向量与特征向量的余弦距离进行加权叠加，得出文本相似度。

以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块采用Single-Pass进行聚类分析，再通过HAC进行话题合并，得出最终结果。，其后的各数据块在前一数据块分好类的基础上，与各分类质心进行相似度计算，选出相似度最大值,得出最终结果。

Claims

1.一种面向长文本的主题检测方法，其特征在于包括如下步骤：

1)建立VSM模型，用Q＝{q₁，q₂，...，q_n，...，q_N}表示长文本数据，用Z＝{z₁，z₂，...，z_n，...，z_N}表示其特征词，用D_i＝{(w_i1，z₁)，(w_i2，z₂)，...，(w_in，z_n)，...，(w_iN，z_N)}表示所有文档，用w_iN表示第i篇长文本的特征词的权重，采用词频--反文档频率权重法对权重进行计算，

2)将文本数据进行抽象建立贝叶斯概率模型，进行LDA建模，使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ，δ共有Y个，对长文本q_N随机从Dirichlet先验分布

中选出相应的文档主题分布

选定主题

再根据主题词的Dirichlet先验分布[θ_β1，θ_β2，θ_β3，...，θ_βZ]^T选出相应的主题词语分布[δ_β1，δ_β2，δ_β3，...，δ_βZ]^T，从词库中选出词语

构成文本主题分布；

3)建立Skip-Gram模型，其输入层特征词的N维输入向量为τ₁，O维隐含层

输出层，

第k个分布上的第l个单元的净输入其中，W为复制和转置输入层到隐含层的权重矩阵τ_k，l表示输出层的第k个分布上的第l个特征词，τ_j，k表示输出上下文词中的第k个词，唯一输入词为τ₁，ρ_k，l表示第k个分布上的第l个单元的输出，表示隐含层到输出层的权重向量，k＝1，2，3，…，K；最终计算计算长文本数据的词向量与特征向量的余弦距离，两者相乘相加，计算文本相似度。

4)在Single-Pass的算法基础上融入凝聚式层次聚类，以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块进行聚类分析，其后的各数据块在前一数据块分好类的基础上，与各分类质心进行相似度计算，选出相似度最大值，从而检测出长文本的主题。

2.如权利要求1所述面向长文本的主题检测方法，其特征在于：步骤1)建立VSM模型，用Q＝{q₁，q₂，...，q_n，...，q_N}表示长文本数据，用Z＝{z₁，z₂，...，z_n，...，z_N}表示其特征词，用D_i＝{(w_i1，z₁)，(w_i2，z₂)，...，(w_in，z_n)，...，(w_iN，z_N)}表示所有文档，用w_iN表示第i篇长文本的特征词的权重，采用词频--反文档频率权重法对权重进行计算。

3.如权利要求1所述面向长文本的主题检测方法，其特征在于：步骤2)将文本数据进行抽象建立贝叶斯概率模型，进行LDA建模，使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ。

4.如权利要求1所述面向长文本的主题检测方法，其特征在于：步骤2)使用Gibbs采样的方法来估算每篇长文本的主题分布矩阵γ和主题中的词语分布矩阵δ；

若已知p(y_i|y_-i)为其函数的条件分布，其中y_-i＝(y₁，y₂，...，y_i-1，y_i+1，...，y_n)，建立δ和ε的联合分布，然后计算Gibbs采样的条件概率：

p(ε，δ|α，β)＝∫_θ∫_φp(ε，δ，θ，φ|α，β)dθdφ

在马尔科夫链平稳之后，给定主题δ，对参数α、β进行设置，即可对矩阵θ、φ的值进行估计。

5.如权利要求1所述面向长文本的主题检测方法，其特征在于：步骤3)包括如下步骤：

①将特征词作为输入层，上下文词语作为输出层，输入层特征词的N维输入向量为τ₁，○维隐含层

②输出层，

其中，W为复制和转置输入层到隐含层的权重矩阵τ_k，l表示输出层的第k个分布上的第l个特征词，τ_j，k表示输出上下文词中的第k个词，唯一输入词为τ₁，ρ_k，l表示第k个分布上的第l个单元的输出，表示隐含层到输出层的权重向量，k＝1，2，3，…，K；

③第k个分布上的第l个单元的净输入

6.如权利要求1所述面向长文本的主题检测方法，其特征在于：步骤4)包括如下步骤：

①长文本的输入顺序为舆情发生的时间顺序；

②按照时间窗口进行切分，单位为h/d/周；

③以舆情发生的时间先后顺序对长文本进行排序，划分时间窗口对其进行分块，对最初的数据块进行聚类分析，其后的各数据块在前一数据块分好类的基础上，与各分类质心进行相似度计算，选出相似度最大值，低于阈值则创建一个新的话题簇，与之相反则归到相似度最大值的话簇；

④任一时刻均在其上一时刻的基础上计算相似度，重复执行以上步骤，分类完毕以后结束执行；

⑤通过计算长文档集合中两两文本之间的相似度similar(q_a,q_b)，构建聚类分析矩阵；

⑥在⑤的基础上找出最大相似度Max(similar(q_a,q_b))对应的长文档数据，若其小于预设的阈值则跳到步骤⑨，否则将其归类到新的主题η_k；

⑦计算其他长文档主题与η_k的相似程度，对聚类分析矩阵进行更新；

⑧判断是否满足预设的阈值，不满足则跳到步骤⑥；

⑨主题聚类结束。