CN108256055B

CN108256055B - 一种基于数据增强的主题建模方法

Info

Publication number: CN108256055B
Application number: CN201810036105.0A
Authority: CN
Inventors: 刘业政; 朱婷婷; 孙见山; 姜元春; 孙春华; 杜非; 熊强
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2020-03-17
Anticipated expiration: 2038-01-15
Also published as: CN108256055A

Abstract

本发明公开了一种基于数据增强的主题建模方法，其特征是按如下步骤进行：步骤一、获取文档集合并表示；步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题，得到K个主题‑词分布和|D|个文档主题分布；步骤三、对单词进行主题影响力赋值；步骤四、对每篇文档进行数据增强；步骤五、建立数据增强的主题模型，并得到最终的主题‑词分布。本发明能在数据稀疏情况下充分利用文档信息进行数据增强，从而提高主题质量。

Description

一种基于数据增强的主题建模方法

技术领域

本发明属于数据挖掘领域，具体地说是一种基于数据增强的主题建模方法。

背景技术

随着社交媒体和移动互联网的发展，微博、即时信息等短文本充斥着互联网，使文本内容成为社交网络中最重要的元素之一。基于短文本内容的分析可以帮助我们分析用户兴趣、检测新兴话题、识别有趣内容、实时网络搜索等。当前对于文本内容的分析主流方法就是使用标准的主题模型如概率潜在语义分析模型和潜在狄利克雷分配方法挖掘正常文本内容，但在稀疏的短文本上依然具有挑战。

针对短文本特征的稀疏性问题，主要有三种处理方法来弥补短文本信息量少的缺陷，一是结合当前数据特点进行处理；二是对数据做出更强的假设；三是引入外部知识对短文本内容进行扩充。三种处理方法虽然能在一定程度上缓解短文本的特征稀疏性问题，但假设性太强，在数据源上或外部知识的选取上也会直接影响短文本特征的拓展与选择效果，并且这些方法还会增加许多额外的时间成本，不利于大规模数据的短文本特征拓展与选择。在数据稀疏情况下如何更好地挖掘现有信息的主题成为数据挖掘问题中的热点。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于数据增强的主题建模方法，以期能在数据稀疏情况下不引用外部知识只利用文档自身信息即可进行数据增强，从而提高短文档的主题质量。

为达到上述目的，本发明采用的技术方案为：

本发明一种基于数据增强的主题建模方法的特点是按如下步骤进行：

步骤一、获取文档集合D＝{D₁,…,D_d,…,D_|D|}，其中，D_d表示第d篇文档，1≤d≤|D|；假设所述第d篇文档D_d是由|S|个句子组成，则令第d篇文档D_d的句子集合为S_d＝{S_d,1,…,S_d,s,…,S_d,|S|}，S_d,s表示第d篇文档D_d中第s个句子，1≤s≤|S|；假设所述第d篇文档D_d是N个单词组成，则令第d篇文档D_d的单词集合为

W_d,j表示第d篇文档D_d中第j个单词，1≤j≤N_d；则令所述文档集合D中所有单词构成单词集合W＝{W₁,...,W_i,...,W_V}，W_i表示第i个单词，1≤i≤V；

步骤二、使用潜在狄利克雷分布模型抽取所述文档集合D的主题，得到K个主题-词分布φ＝{φ₁,...,φ_k,...,φ_K}和|D|个文档-主题分布θ＝{θ₁,...,θ_d,...,θ_|D|}，其中，θ_d表示第d篇文档-主题分布；φ_k表示第k个主题-词分布，并有

表示第v个单词，

表示第k个主题-词分布中第v个单词

对应的概率，且

1≤v≤V，1≤k≤K；

步骤三、主题影响力赋值：

步骤3.1、在第k个主题-词分布φ_k下选定L个重要单词，并在第k个主题-词分布φ_k下选取概率排名前L名的单词

表示第k个主题-词分布φ_k下概率排名第l名的单词，1≤l≤L，从而得到K个主题-词分布下概率排名前L名的单词集合

步骤3.2、判断第d篇文档D_d中第s个句子S_d,s是否包含单词集合

中的单词，若包含，则利用式(1)得到第s个句子S_d,s中第t个单词的主题影响力WTI_t；若不包含，则令第s个句子S_d,_s中每个单词的主题影响力为“1”；

式(1)中，σ是基准值，σ≥0，N₁、N₂和N₃表示基准值的系数，且N₁＞N₂＞N₃，a₁和a₂为正整数，且1＜a₁＜a₂＜L；

步骤3.3、根据步骤3.1和步骤3.2对所有文档中的所有句子进行处理，从而获得所有单词的主题影响力；

步骤四、每篇文档增强：

步骤4.1、将所述第d篇文档D_d的单词集合W_d中第j个单词W_d,j的初始权重设置为第j个单词W_d,j的主题影响力，利用textRank算法对所述第d篇文档D_d进行迭代计算，得到每个单词更新后的权重；对每个单词更新后的权重进行向上取整操作，得到每个单词的最终权重；

步骤4.2、以每个单词的最终权重作为每个单词的重复个数，从而对所述第d篇文档D_d中的所有单词进行数据增强处理，得到增强后的第d篇文档

将所述增强后的第d篇文档

中所有新增的单词记为

表示所述增强后的第d篇文档

中第j^*个单词，

并将所有新增的单词

组成新增文档集的第d篇文档D′_d，新增的文档集合D′＝{D′₁,…,D′_d,…,D′_D}，其中，D′_d表示新增的第d篇文档；则新增的第d篇文档D′_d的单词

与原始的第d篇文档D_d的单词集合W_d共同构成增强后的第d篇文档

从而得到增强后的文档集合

令所述增强后的文档集合D^*中所有增强后的单词构成单词集合

表示增强后的第u个单词，1≤u≤U；

步骤五、建立数据增强的主题模型，并得到最终的主题-词分布：

步骤5.1、采用式(2)建立数据增强的主题模型的联合概率分布P_DE-LDA(W,W^*,φ,Z,θ)：

式(2)中，P_DE-LDA(W,W^*,φ,Z,θ)表示|D|篇文档在主题编号集合Z、原始的单词集合W、新增的单词集合W^*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布；Z_d,j表示原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号，

表示新增文档集合D'的第d篇文档D′_d中第j^*个单词的主题编号，p(θ_d)表示第d篇文档-主题分布θ_d对应的概率密度，p(φ_k)表示第k个主题-词分布φ_k对应的概率密度，p(Z_d,j＝k|θ_d)表示在第d篇文档-主题分布θ_d的条件下原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号Z_d,j为第k个主题的概率，p(W_d,j|Z_d,j＝k,φ_k)表示在原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号Z_d,j为第k个主题的条件下第d篇文档D_d中第j个单词W_d,j的概率；

表示在第d篇文档-主题分布θ_d的条件下增强后的第d篇文档D_d'的单词集合

中第j^*个单词对应的主题编号

为第k个主题的概率，

表示在增强后的第d篇文档D_d的单词集合

中第j^*个单词对应的主题编号

为第k个主题的条件下第d篇文档D_d中第j^*个单词

的概率；

步骤5.2、利用式(3)所示的吉布斯抽样方法对所述原始的第d篇文档D_d的单词集合W_d和增强后的第d篇文档D_d的单词集合

进行主题抽取，得到最终的主题-词分布：

式(3)中，Z_d,q表示所述增强后的第d篇文档

中第q个单词对应的主题编号，W_d,-q表示原始的第d篇文档D_d的单词集合W_d中除去当前第q个单词后的单词集合；

表示新增的第d篇文档D′_d的单词集合

中除去当前第q个单词后的单词集合，1≤q≤N+N^*；

表示原始的第d篇文档D_d的单词集合W_d中属于第k个主题的单词数量，

表示新增的第d篇文档D′_d的单词集合

中属于第k个主题的单词数量，α_k是第k个主题的先验，n_k,-q表示第k个主题中去除当前第q个单词后，剩余的与第q个单词相同的单词数量，n_k表示第k个主题中单词的总数目，β是单词的先验，V′是所述文档集合D^*中所有不同单词的总数；

表示第k个主题最终的主题-词分布。

与已有技术相比，本发明的有益效果体现在：

1、本发明首次通过显示增加句子中重要单词的数目，间接增加单词之间共现的数据增强方法来提高短文本的主题质量。本发明不仅是一种无监督的方法，还能够克服短文本数据稀疏和信息量少的缺点充分挖掘主题信息，从而有效提高了主题质量。

2、本发明提出的一种基于数据增强的主题建模方法对于大数据环境下出现的各种短文本都可以进行数据增强，不需要考虑当前短文本的数据特点，能在数据毫无特点的情况下进行数据增强提高主题质量。

3、本发明在对短文本处理时不同于传统方法对短文本数据做出假设，能够在不依据人为假设的情况下进行数据增强，有效提高了主题质量。

4、本发明在数据稀疏以及信息量少的情况下充分利用自身数据进行数据增强，不需要引入外部知识从而增加了人力成本和时间成本，同时有效的挖掘了主题信息。

5、本发明可用于挖掘社交媒体和移动互联网上的微博、即时信息等短文本的主题信息，帮助公司与用户去分析用户兴趣。检测新兴话题、识别有趣内容和实时网络搜索等，应用范围广泛。

附图说明

图1为本发明的流程示意图；

图2为本发明在新浪微博数据集上平均coherence指标随着主题数目变化的变化图。

具体实施方式

本实施例中，如图1所示，一种基于数据增强的主题建模方法是按如下步骤进行：

步骤一、获取文档集合D＝{D₁,…,D_d,…,D_|D|}，其中，D_d表示第d篇文档，1≤d≤|D|；假设第d篇文档D_d是由|S|个句子组成，则令第d篇文档D_d的句子集合为S_d＝{S_d,1,…,S_d,s,…,S_d,|S|}，S_d,s表示第d篇文档D_d中第s个句子，1≤s≤|S|；假设第d篇文档D_d是N个单词组成，则令第d篇文档D_d的单词集合为

W_d,j表示第d篇文档D_d中第j个单词，1≤j≤N_d；则令文档集合D中所有单词构成单词集合W＝{W₁,...,W_i,...,W_V}，W_i表示第i个单词，1≤i≤V。本发明选取的文档集合是新浪微博数据。新浪微博数据是微博用户发布的原始文件或转发其他用户发布的内容，发布的内容字符限制在140字，满足短文本特征。本发明抓取了热门微博中两个星期的微博内容，并随机抽取其中的8618个微博数据，并将每个微博数据作为一个文档，在去除停用词后，共得到了20442个不同的单词。并将每个微博按照“，”、“。”、“？”、“！”符号分割为句子。

步骤二、使用潜在狄利克雷分布模型抽取文档集合D的主题，得到K个主题-词分布φ＝{φ₁,...,φ_k,...,φ_K}和|D|个文档-主题分布θ＝{θ₁,...,θ_d,...,θ_D}，其中，θ_d表示第d篇文档-主题分布；φ_k表示第k个主题-词分布，并有

表示第v个单词，

表示第k个主题-词分布中第v个单词

对应的概率，且

1≤v≤V，1≤k≤K；在本发明中K的取值为10，20，30，40和50。

步骤三、主题影响力赋值：

步骤3.1、在第k个主题-词分布φ_k下选定L个重要单词，在本发明中L的取值为30，并在第k个主题-词分布φ_k下选取概率排名前L名的单词

步骤3.2、判断第d篇文档D_d中第s个句子S_d,s是否包含单词集合

中的单词，若包含，则利用式(1)得到第s个句子S_d,s中第t个单词的主题影响力WTI_t；若不包含，则令第s个句子S_d,s中每个单词的主题影响力为“1”；

式(1)中，σ是基准值，σ≥0，N₁、N₂和N₃表示基准值的系数，且N₁＞N₂＞N₃，a₁和a₂为正整数，且1＜a₁＜a₂＜L；在本发明中N₁、N₂和N₃取值分别为3，2和1，其中a₁和a₂的取值分别为10和20，σ取值为2.5。

步骤四、每篇文档增强：

步骤4.1、将第d篇文档D_d的单词集合W_d中第j个单词W_d,j的初始权重设置为第j个单词W_d,j的主题影响力，利用textRank算法对第d篇文档D_d进行迭代计算，得到每个单词更新后的权重；对每个单词更新后的权重进行向上取整操作，得到每个单词的最终权重；

步骤4.2、以每个单词的最终权重作为每个单词的重复个数，从而对第d篇文档D_d中的所有单词进行数据增强处理，得到增强后的第d篇文档

将增强后的第d篇文档

中所有新增的单词记为

表示增强后的第d篇文档

中第j^*个单词，

并将所有新增的单词

组成新增文档集的第d篇文档D′_d，新增的文档集合D′＝{D′₁,…,D′_d,…,D′_D}，其中，D′_d表示新增的第d篇文档，1≤d≤|D|；则新增的第d篇文档D′_d的单词

从而得到增强后的文档集合

令增强后的文档集合D^*中所有增强后的单词构成单词集合

表示增强后的第u个单词，1≤u≤U；

式(2)中，P_DE-LDA(W,W^*,φ,Z,θ)表示|D|篇文档在主题编号集合Z，其中，主题编号集合Z为{1,2,…,k,…,K}，原始的单词集合W、新增的单词集合W*、K个主题-单词分布φ和文档-主题分布θ下的联合概率分布；Z_d,j表示原始的第d篇文档D_d的单词集合W_d中第j个单词对应的主题编号，

中第j^*个单词对应的主题编号

为第k个主题的概率，

表示在增强后的第d篇文档D_d的单词集合

中第j^*个单词对应的主题编号

为第k个主题的条件下第d篇文档D_d中第j^*个单词

的概率；

步骤5.2、利用式(3)所示的吉布斯抽样方法对原始的第d篇文档D_d的单词集合W_d和增强后的第d篇文档D_d的单词集合

进行主题抽取，得到最终的主题-词分布，得到每个主题下的词语：

式(3)中，Z_d,q表示增强后的第d篇文档

表示新增的第d篇文档D′_d的单词集合

中除去当前第q个单词后的单词集合，1≤q≤N+N^*；

表示新增的第d篇文档D′_d的单词集合

中属于第k个主题的单词数量，α_k是第k个主题的先验，n_k,-q表示第k个主题中去除当前第q个单词后，剩余的与第q个单词相同的单词数量，n_k表示第k个主题中单词的总数目，β是单词的先验，V′是文档集合D^*中所有不同单词的总数；

表示第k个主题最终的主题-词分布。

为了验证本发明提出的一种基于数据增强的主题建模方法的有效性，本发明在新浪微博数据集上进行实验并与三种方法进行了coherence指标数值的对比。三种方法分别是概率潜在语义分析模型，简称为PLSA；潜在狄利克雷分配方法，简称LDA，以及biterm主题模型，简称为BTM。实验结果如图2所示，其中横坐标表示人为设置的主题数量，纵坐标表示在人为设置的主题数目下平均coherence指标值。从图中可以看出，在新浪微博的数据集下，在任意主题数目的设置下，本发明的平均coherence指标数值都优于其他比较的方法。

本发明采用广泛使用的coherence指标作为本实验的评价指标。Coherence指标值越大，算法的实验效果越好。设主题k下概率排名前30名的单词集合为

其中

表示主题k下排名为l的单词，其中，1≤l≤29，

表示主题k下排名为t的单词，其中，2≤t≤30。

表示所有文档中包含

单词的文档数，

表示在所有文档中即包含

单词又包含单词

的文档数目。

coherence指标定义如下：