CN109885675A

CN109885675A - 基于改进lda的文本子话题发现方法

Info

Publication number: CN109885675A
Application number: CN201910138793.6A
Authority: CN
Inventors: 倪丽萍; 李想; 倪志伟; 朱旭辉; 李应; 夏千姿
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2019-06-14
Anticipated expiration: 2039-02-25
Also published as: CN109885675B

Abstract

本发明公开了一种基于改进LDA的文本子话题发现方法，其步骤包括：1、计算文本集合中单词的TF‑IDF值，挑选TF‑IDF值大于阈值的名词和动词作为下一步加权的特征词；2、基于特征词加权LDA模型发现子话题以及相应的关键词；3、基于TSR方法和KL散度对子话题进行优化；4、利用Word2Vec模型进行子话题关键词扩展，提高子话题关键词语义可理解性；5、构建子话题词向量和标题词向量，利用余弦距离聚类。本发明能在话题区分度和语义可理解性上提高子话题发现效果。

Description

基于改进LDA的文本子话题发现方法

技术领域

本发明属于数据挖掘领域，具体地说是一种基于改进LDA的文本子话题发现方法。

背景技术

随着互联网信息技术的高速发展，网络上产生了大量非结构化数据，人们迫切需要从中提取有价值的信息和知识。话题发现技术是分析这些非结构化数据的常用方法，话题是由一个种子事件以及后续直接相关的事件或活动组成，子话题是针对其中某一事件即种子事件的不同侧面的相关描述。子话题发现技术在新闻分类、掌握事件热点、检测事件发展走向等方面取得了较好的应用效果，迅速成为当前的研究热点。由于隶属于同一事件的相关报道具有很强的相似性，利用现有的方法很难发现具有区分度的子话题且子话题的可理解程度不高。下面主要列举在子话题发现领域使用的两种方法。

2014年魏明川等[1]提出一种基于吸收马尔可夫链的子话题划分算法，该算法对基于网页聚类生成的话题关键词进行组合生成子话题，并以吸收马尔可夫链对子话题进行吸收衍化，进行重排序生成结果子话题。该方法，仅使用二元关键词组来概括子话题，无法诠释子话题内容。此方法仅仅引入关键词组TF-IDF属性，作为衡量是否为子话题关键词的方法忽视了其他实体关键词对子话题划分的正相关作用。划分得到的子话题关键词重复率较高，子话题之间的区分度不大。

2015年Kim[2]提出了一种利用简单的模式和子话题候选的层次结构来挖掘子话题的新方法。使用基于名词短语的简单模式提取相关短语作为子话题候选对象，使用web文档集合中的相关文档集构建子话题候选对象的层次结构，并综合考虑子话题候选对象的多样性和重要性对其排名。此方法耗费大量人力不具有普适性，且提取出来的关键词可理解性不强。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于改进LDA的文本子话题发现方法，以期能在从全局观念出发的主题模型LDA的基础上结合以局部观念训练得到的词向量，从而能在话题区分度和语义可理解性上提高文本的子话题发现质量和效果。

为达到上述目的，本发明采用的技术方案为：

本发明一种基于改进LDA的文本子话题发现方法的特点是按如下步骤进行：

步骤一、将经过预处理后的文档集合记为D＝{D₁,…,D_d,…,D_|D|}，其中，D_d表示第d篇预处理后的文档，1≤d≤|D|，|D|表示文档集合总数；且第d篇文档D_d的单词集合记为W_d,j表示第d篇预处理后的文档D_d中第j个单词，1≤j≤N_d，N_d表示第d篇预处理后的文档D_d中的单词总数；则令所述文档集合中所有单词构成的单词集为W＝{W₁,...,W_t,...,W_V}，W_t表示第t个单词，1≤t≤|V|，|V|表示单词集的总数；

使用TF-IDF特征提取方法计算第d篇预处理后的文档D_d中第j个单词W_d,j的TF-IDF值v_d,j，从而得到第j个单词W_d,j及其TF-IDF值v_d,j的对应关系为<W_d,j,v_d，j>；

若第j个单词W_d,j为名词或动词，且其TF-IDF值v_d,j大于阈值x，则将第j个单词W_d,j记为加权特征词，从而得到文档集合D中所有的加权特征词；

步骤二、利用吉布斯采样方法训练特征词加权LDA模型得到子话题以及相应的关键词：

步骤2.1、设置主题数为K以及超参数向量和

步骤2.2、初始化时，对第d篇文档D_d中第j个单词W_d,j随机地赋予一个主题编号；

步骤2.3、判断第j个单词W_d,j是否为加权特征词，若是，则利用如式(1)所示的改进的吉布斯采样公式更新第j个单词W_d,j的主题编号；否则，利用如式(2)所示的未加权重的吉布斯采样公式更新第j个单词W_d,j的主题编号；

式(1)和式(2)中，z_d,j＝k表示第j个单词W_d,j对应的主题编号为k；表示从文档集合D中去掉第j个单词W_d,j后的主题分布；表示从文档集合D中剔除第j个单词W_d,j后第t个单词W_t分配给第k个主题的个数；表示第d篇预处理后的文档D_d中剔除第j个单词W_d,j后分配给第k个主题的单词个数；表示第t个单词W_t的狄利克雷先验分布，α_k表示第k个主题的狄利克雷先验分布；表示第d篇预处理后的文档D_d中第j个单词W_d,j为对应的主题编号为k的概率，表示第d篇预处理后的文档D_d中第j个单词W_d,j为单词集W中的第t个单词W_t且第j个单词W_d,j对应的主题编号为k的联合概率；

步骤2.4、重复执行步骤2.3的采样过程，直至所有的单词的收敛，使得所有单词的主题编号确定，从而得到子话题；

步骤2.5、利用式(3)计算第d篇预处理后的文档D_d在第k个主题上的概率θ_d,k，并利用式(4)计算第k个主题中第t个单词W_t的概率从而得到d篇预处理后的文档D_d-主题分布以及第k个主题-词分布进而得到文档-主题矩阵以及主题-词矩阵

步骤2.6、在第k个主题-词分布下选定S个重要单词，并在第k个主题-词分布下选取概率排名前S名的单词并作为第k个子话题的关键词，表示第k个主题-词分布下概率排名第s名的单词，1≤s≤S，从而得到K个主题-词分布下概率排名前S名的单词集合并作为K个子话题的关键词；

步骤3、基于TSR主题排序方法和KL散度对子话题进行优化：

步骤3.1：利用式(5)计算词W_t在第k个主题上的均匀分布概率从而得到第k个主题-词的均匀分布进而得到主题-词均匀分布矩阵并将满足主题-词均匀分布的主题为均匀主题；

步骤3.2、利用(6)计算第k个主题上第d篇预处理后的文档D_d的均匀分布概率从而得到第k个主题-文档的均匀分布进而得到主题-文档均匀分布矩阵并将满足主题-文档均匀分布的主题为背景主题；

步骤3.3、将文档-主题矩阵转置归一化后抽取第k行向量，得到第k个主题在文档集合D上的分布其中，表示第k个主题出现在第d篇预处理后的文档D_d中的概率；

步骤3.4、计算第k个主题的主题-词分布与第k个主题-词均匀分布的KL距离以及第k个主题的主题-文档分布与第k个主题-文档的均匀分布的KL距离并分别进行归一化处理后得到归一化后的KL距离和

步骤3.5、利用式(7)得第k个主题与均匀主题和背景主题之间的加权平均和sum_k：

式(7)中，a,b为加权系数，且a+b＝1；

步骤3.6、将sum_k低于阈值Y的主题记为垃圾主题，并从所有子话题中删除垃圾主题，从而得到过滤后的子话题；

步骤3.7、在过滤后的子话题中计算任意两个主题之间的相似度，并将相似度小于阈值Z的主题合并，从而得到优化后的文档集合D的子主题和优化后的每个子话题的关键词；其中，令表示优化后的第p个子主题下的关键词，且表示优化后的第p个子主题下第s个关键词，1≤p≤P；P是优化后的文档集合D中子话题总数；

步骤4、利用Word2Vec模型进行子话题关键词扩展，提高其语义可理解性：

步骤4.1、使用Word2Vec模型进行词向量训练，得到全部单词W的向量表示，记为为第t个单词W_t的词向量表示；

步骤4.2、挑出优化后的第p个子话题下的关键词中的动词和名词，并计算所挑出的动词和名词中每一个词的词向量与其余弦距离最大的前r个词向量，将前r个词向量作为相应词的语义扩展词，从而得到第p个子话题扩展后的关键词集为第p个子话题扩展后的关键词集中第m个关键词，1≤m≤M，M是扩展后的关键词集中包含单词的总数；

步骤五、构建子话题的词向量和标题词向量，并利用余弦距离聚类：

步骤5.1、从向量表示中查找第d篇预处理后的文档D_d的标题所包含词语的词向量，并利用式(8)构建第d篇预处理后的文档D_d的标题向量

式(8)中，n_d为文档D_d标题所含单词总数，为文档D_d标题所含的第j个单词，1≤j≤n_d；

步骤5.2、利用式(9)构建第p个子话题向量

步骤5.3、分别计算文档D_d的标题向量与P个子话题向量的相似度，选取最大相似度的子话题题作为文档D_d的主题。

与已有技术相比，本发明的有益效果体现在：

1、本发明结合了TF-IDF特征提取技术以及子话题优化方法，通过基于改进的LDA和词向量模型进行文本子话题的发现，克服了现有技术中子话题区分度不大，子话题语义理解性不强的问题，从而提高了子话题的发现效果，更好地提取了描述不同方面的子主题，有助于对种子事件进行更细粒度的分析，把握种子事件的热点走向。

2、本发明提出了一种特征加权的LDA模型，从全局的角度提取更有代表性的子主题关键词，有效地改善了基于LDA模型进行文本处理时，获取的主题–词分布会向高频词倾斜，避免了代表文档的多数词被少量高频词淹没的现象，提高了模型对文本信息的描述能力。

3、本发明利用TSR和KL散度，先过滤垃圾子话题再进行相似子话题的合并，去除冗余，进一步改善了子话题发现效果，提高了子话题之间的区分度。

4、本发明借助词向量模型对关键词从局部角度进行语义扩展。词向量不但包含了词语间的潜藏语义关系，同时也避免了维数灾难。此方法使得每一个子话题的关键词更具有代表性和语义关联性。

5、本发明可用于挖掘社交媒体和移动互联网上的新闻、即时信息等文本的子话题信息，帮助公司与用户适用于文本子话题发现进而可进行文本聚类、事件检测、网络热点事件分析、事件追踪、社会媒体意见挖掘等任务，应用范围广泛。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

本实施例中，如图1所示，一种基于改进LDA的文本子话题发现方法是按如下步骤进行：

步骤一、本实施例中，选取的文档集合是网页新闻数据，并围绕三个事件关键词从网页新闻中抓取了两个星期的内容，共12000余篇，一个事件为一个文档集合，并将每篇新闻数据作为一个文档。根据事件所属领域,构建领域词典。本实施例中事件属于金融领域，因此构建金融新闻字典分词和构建金融新闻停用词表供前期文本预处理使用。预处理的步骤包括：去停用词、分词。将经过预处理后的文档集合记为D＝{D₁,…,D_d,…,D_|D|}，其中，D_d表示第d篇预处理后的文档，1≤d≤|D|，|D|表示文档集合总数；且第d篇文档D_d的单词集合记为W_d,j表示第d篇预处理后的文档D_d中第j个单词，1≤j≤N_d，N_d表示第d篇预处理后的文档D_d中的单词总数；则令文档集合中所有单词构成的单词集为W＝{W₁,...,W_t,...,W_V}，W_t表示第t个单词，1≤t≤|V|，|V|表示单词集的总数；

若第j个单词W_d,j为名词或动词，且其TF-IDF值v_d,j大于阈值X，则将第j个单词W_d,j记为加权特征词，从而得到文档集合D中所有的加权特征词；本实施例中，阈值X设定为0.5。

步骤2.1、设置主题数为K以及超参数向量和主题数K的选取可通过计算文本集合D困惑度值，选取使得困惑度值最小的主题数作为主题数，设定

式(1)和式(2)中，z_d,j＝k表示第j个单词W_d,j对应的主题编号为k；表示从文档集合D中去掉第j个单词W_d,j后的主题分布；表示从文档集合D中剔除第j个单词W_d,j后第t个单词W_t分配给第k个主题的个数；表示从文档集合D中剔除第j个单词W_d,j后第d篇预处理后的文档D_d中分配给第k个主题的单词个数；β_Wt表示第t个单词W_t的狄利克雷先验分布，α_k表示第k个主题的狄利克雷先验分布；表示第d篇预处理后的文档D_d中第j个单词W_d,j为对应的主题编号为k的概率，表示第d篇预处理后的文档D_d中第j个单词W_d,j为单词集W中的第t个单词W_t且第j个单词W_d,j对应的主题编号为k的联合概率；

步骤3、基于TSR主题排序方法和KL散度对子话题进行优化：

式(7)中，a,b为加权系数，且a+b＝1；

步骤4.1、使用Word2Vec模型进行词向量训练，得到全部单词W的向量表示，记为为第t个单词W_t的词向量表示；本实施例中Word2Vec模型向量维数选取为150维。

步骤4.2、挑出优化后的第p个子主话下的关键词中的动词和名词，并计算所挑出的动词和名词中每一个词的词向量与其余弦距离最大的前r个词向量，将前r个词向量作为相应词的语义扩展词，从而得到第p个子话题扩展后的关键词集为第p个子话题扩展后的关键词集中第m个关键词，1≤m≤M，M是扩展后的关键词集中包含单词的总数；

步骤5.2、利用式(9)构建第p个子话题向量

Claims

1.一种基于改进LDA的文本子话题发现方法，其特征是按如下步骤进行：

步骤2.1、设置主题数为K以及超参数向量和

步骤3、基于TSR主题排序方法和KL散度对子话题进行优化：

式(7)中，a,b为加权系数，且a+b＝1；

步骤5.2、利用式(9)构建第p个子话题向量