CN111813934B

CN111813934B - 一种基于dma模型和特征划分多源文本主题模型聚类方法

Info

Publication number: CN111813934B
Application number: CN202010570956.0A
Authority: CN
Inventors: 秦永彬; 许伟佳; 黄瑞章; 陈艳平
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2024-04-30
Anticipated expiration: 2040-06-22
Also published as: CN111813934A

Abstract

本发明公开了一种基于DMA模型和特征划分多源文本主题模型聚类方法，所述方法包含有如下步骤：一、从多个来源收集文本集；二、将来自多个数据源的文本信息进行文本预处理；三、基于DMA模型和特征划分构建多源主题模型；四、进行Blocked Gibbs采样并更新参数；五、根据采样结果进行文本聚类。本发明通过更新多源文本的主题‑词分布的先验参数，改善了多源文本的聚类效果；本发明能够自动判别每个数据源文本中簇的数目，而不需要人为提前给定；每个数据源拥有各自的主题分布、主题‑特征词分布以及噪音词分布参数，因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

Description

一种基于DMA模型和特征划分多源文本主题模型聚类方法

技术领域

本发明涉及一种模型聚类方法，尤其涉及一种基于DMA模型和特征划分多源文本主题模型聚类方法，属于机器学习和自然语言处理技术领域。

背景技术

随着Internet技术的飞速发展，越来越多的应用可以产生文本信息，本文将多个应用产生的文本数据集称之为多源文本数据集。从多源文本数据集中挖掘其主题信息以及文本结构对于很多应用程序都是非常有必要的。例如，新闻热点分析的应用可以发现来自各种新闻网站、论坛和社交媒体的文本信息，以了解社会关注的热点问题。人们通过分析市民热线、交通公告牌等各种来源的交通信息，发现突发交通事故。主题模型是目前较为流行的文本挖掘方法之一。因此，有必要研究一种多源文档主题模型，挖掘多源文本数据集中的文本信息。

用传统的主题模型挖掘多源文本数据集的信息有很多困难，比如说：1)在多源文本数据集中，每一篇文档都由大量的词来表示，包括特征词和大量的无关噪声词。而且由于书写风格的偏向，来自不同数据源的噪声词不同。不相关的噪声词会干扰模型的构建，影响模型性能。2)每个数据源相同主题的词分布相关但不相同。例如，新闻网站的文章倾向于用标准术语描述一个主题，而社交媒体文档中的词汇则更随意。因此，直接采用传统的主题模型挖掘多源文本的词特征等信息是不可行的，因为不同来源的主题的书写风格差异以及描述角度的不同严重影响了模型的性能。3)在多源文本数据集中估计簇类数N也是困难的。对于大多数传统的主题模型来说，N被认为是用户事先确定的一个参数，但在挖掘前提供正确的N值是困难和不切实际的。此外，对于不同的数据源，N通常是不同的，这大大增加了估计正确N的难度。因此，如果多源文本主题模型能够自动地估计每个数据源的聚类数N，对于模型的推广和应用是非常有用的。

因此，针对上述三个问题，需要研究一种新的针对多源文本数据的主题模型以挖掘准确的信息。

发明内容

本发明要解决的技术问题是：提供一种基于DMA模型和特征划分多源文本主题模型聚类方法，它能挖掘多源文本数据集中每个数据源的结构信息，还能自动推断每个数据源各自的文本簇类数目N，而不需要人为提前给定，有效的解决了上述存在的问题。

本发明的技术方案为：一种基于DMA模型和特征划分多源文本主题模型聚类方法，所述方法包含有如下步骤：一、从多个来源收集文本集；二、将来自多个数据源的文本信息进行文本预处理；三、基于DMA模型和特征划分构建多源主题模型；四、进行Blocked Gibbs采样并更新参数λ；五、根据采样结果进行文本聚类。

所述步骤二中，预处理方法是进行分词，去停用词、低频词及标点数字。

所述步骤三中，构建的多源主题模型的文本生成过程为：

对于每个数据源χ_s∈{χ₁,χ₂,...,χ_S}:

a)选择γ_j ^s|ω^s～B(1,ω^s),j＝1,2,...,W

b)选择η₀ ^s|β～Dirichlet(β₁,...β_W)

c)选择

d)对于每个主题i∈N：

(a)选择

e)选择Θ^s|α～Dirichlet(α/N,...,α/N)

f)对于d^s∈{1,2,...,D^s}：

(b)选择

(c)选择

(d)选择

所述步骤四中，基于步骤三所构建的主题模型，利用Blocked Gibbs采样算法，采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作。

所述步骤四进一步包括下列具体步骤：

首先初始化模型参数，需要初始化的模型参数包括超参数{α,ω,λ,β}和隐藏变量初始化模型参数之后，Blocked Gibbs采样的推断过程如下：

g)更新潜在特征词指示符γ；

h)采样更新主题-特征词分布

i)采样更新噪音词分布

j)采样更新主题分布Θ；

k)采样更新每篇文本的主题

当采样结果趋于稳定后，更新产生主题-特征词分布参数的狄利克雷参数λ，并重复Blocked Gibbs采样过程。

所述步骤五中，基于Blocked Gibbs采样结果，对进行文本聚类。

本发明的有益效果是：与现有技术相比，采用本发明的技术方案，本发明通过更新多源文本的主题-词分布的先验参数，改善了多源文本的聚类效果；本发明能够自动判别每个数据源文本中簇的数目，而不需要人为提前给定；每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数，因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

本发明提出了一种基于狄利克雷多项分配(DMA)模型和特征划分的多源文本主题模型，即MCDMAfp模型。该模型采用特征划分的方法区分特征词和噪音词，并为每个数据源都分配了专有的特征词分布以及噪音词分布参数来学习源级别的用词特征，本发明使用Gibbs采样算法自动估计每个数据源的簇数，不需要提前人为设定。

附图说明

图1为本发明的流程图；

图2为本发明的主题模型。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将参照本说明书附图对本发明作进一步的详细描述。

实施例1：如附图1～2所示，一种基于DMA模型和特征划分多源文本主题模型聚类方法，所述方法包含有如下步骤：一、从多个来源收集文本集；二、将来自多个数据源的文本信息进行文本预处理；三、基于DMA模型和特征划分构建多源主题模型；四、进行BlockedGibbs采样并更新参数λ；五、根据采样结果进行聚类。

执行本发明的方法，首先执行步骤一，获取待聚类的来自多个数据源的文本集。

本实施例的第一个多源文本集是HASet数据。该数据集包含9986篇文本，其中5000个文本是从HuffPost网站(下文表示为NewSet)收集的新闻文章，剩余4986个文档是从Amazon网站(表示为ASet)收集的评论文本。该数据集包含了两个主题，分别是“food”与“sport”。本实施例的第二个文本集为BTset。该数据集包含10000篇文本，共四个主题。其中5000篇文本是来自BBC网站(下文表示为bbcSet)收集的新闻文章，共四个主题，分别为“travel”，“bussiness”，“sport”和“politic”。另外5000篇文本是来自Twitter(下文表示为TSet)收集的文章，共三个主题，分别为“bussiness”，“sport”和“politic”。

其次，执行步骤二，对获取的文本集进行文本预处理工作，对文本集进行分词、去停用词、去低频词等工作。经过预处理之后，去除文本中冗余的信息，使得文本集变得简洁工整非常节省资源且便于计算。

第三，文本集处理好之后，执行步骤三建模，建立基于DMA模型和特征划分的多源文本主题模型。该模型能够自动判别每个数据源的文本集中簇的数目，而不需要人为提前给定；多源文本数据集中每个数据源的文本集具有各自的主题-词分布以及主题分布来学习各自独特的信息。

所述步骤三中，构建的多源主题模型的文本生成过程为：

对于每个数据源χ_s∈{χ₁,χ₂,...,χ_S}:

a)选择γ_j ^s|ω^s～B(1,ω^s),j＝1,2,...,W

b)选择η₀ ^s|β～Dirichlet(β₁,...β_W)

c)选择

d)对于每个主题i∈N：

(a)选择

e)选择Θ^s|α～Dirichlet(α/N,...,α/N)

f)对于d^s∈{1,2,...,D^s}：

(b)选择

(c)选择

(d)选择

其中，N表示文本簇类数；S表示数据源的个数；D^s表示数据源s中的文本个数；α表示狄利克雷分布的参数，是一个向量，维度等于主题的个数；λ_i表示生成主题i的词分布的狄利克雷分布参数，维度等于语料库词汇总数；Θ_s表示多源文本集中数据源s的主题分布；表示多源文本集中数据源s中主题i的特征词分布；/>表示多源文本数据集中数据源s中所有文本共享的噪音词分布；γ^s由伯努利分布B(1,ω)生成，γ＝1表示该词为特征词，γ＝0表示该词为噪音词。/>表示从Θ_s中为文本d采样的文本主题；/>表示源文本集中数据源s的第d篇文本中的特征词集；/>表示源文本集中数据源s的第d篇文本中的噪音词集。

其中表示s_th数据源中d_th文档的单词数量；/>表示数据源s中d_th文档的潜在簇分配。/>表示s_th数据源中主题为z_d的词分布；/>表示s_th数据源中所有文档共享的噪音词分布；/>和/>分别表示/>和/> 表示s_th数据源中d_th文档的特征词的数量；/>表示s_th数据源中d_th文档的噪音词数量。N是簇的数目；N维向量Θ^s是簇的混合比例。本文假设特征词集和噪声词集之间没有相关性。因此，/>的条件概率密度函数由式下给出：

事实上，由于Dirichlet分布是多项式分布参数的共轭先验，如果我们对方程中的η₁,η₂,...,η_N进行积分，则数据集M的条件概率密度函数可以近似表示为如下，其中：

第四，基于上述模型，执行本发明的步骤四，基于步骤三所构建的主题模型，利用Blocked Gibbs采样算法，采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数进行更新操作。

所述步骤四包括下列具体步骤：首先初始化模型参数，需要初始化的模型参数包括超参数{α,ω,λ,β}和隐藏变量初始化模型参数之后，再进行Blocked Gibbs sampling，当采样结果趋于稳定后，更新产生主题-特征词分布参数的狄利克雷参数λ，并重复Blocked Gibbs sampling过程。

所述Blocked Gibbs sampling的推断过程如下：

g)通过重复以下步骤R次更新潜在特征词指示符γ：通过随机选取γ_old中的W个索引之一并改变其值，生成新的候选γ_new，添加或删除特征词。新候选值被接受的概率为：

其中f(γ|χ^s,z^s)∝f(χ^s|γ^s,z^s)p(γ^s)，而且上文已经给出f(χ^s|γ,z^s)的运算公式。

h)在给定其他潜在变量的条件下，对于i＝1,2,...N，如果i不在中，则从以λ_i为参数的Dirichlet分布中得出/>否则，通过以下式作为Dirichlet分布的参数采样更新/>

i)以下式为Dirichlet分布的参数，采样更新

j)以下式为Dirichlet分布的参数，采样更新Θ：

其中I(z_d＝i)为示性函数，当z_d＝i时，I(z_d＝i)＝1，否则等于0。

k)在给定其他潜在变量时，对于d＝1,2,...,D^s，通过从参数为{p_d,1,p_d,2,...,p_d,N}的离散分布中采样更新其中/>且/>

需要注意的是：假设模型估计的类的数目为N^*，其值为向量的大小，小于初始化的N值。

在执行步骤四时，还需要进行参数λ的更新。

当采样结果趋于稳定后，本发明通过优化生成整个数据集的后验概率来更新λ，已知多源文本数据集的概率近似于：

为了方便计算，本发明采用其对数似然函数进行运算，如下式所示：

得到参数λ的梯度函数：

其中Ψ(x)是Γ(x)对数导数函数，由上式本文可以得到更新后的

第五，执行本发明的步骤五，进行文本主题聚类。根据采样得到每篇目标文本的主题分配情况进行聚类。

本实施例中符号说明如表1所示。

表1

本发明通过更新多源文本的主题-词分布的先验参数，改善了多源文本的聚类效果；本发明能够自动判别每个数据源文本中簇的数目，而不需要人为提前给定；每个数据源拥有各自的主题分布、主题-特征词分布以及噪音词分布参数，因此本发明能保留多源文本中每个数据源的主题热点以及用词特点。

本发明未详述之处，均为本技术领域技术人员的公知技术。最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于DMA模型和特征划分多源文本主题模型聚类方法，其特征在于：所述方法包含如下步骤：

一、从多个来源收集文本集；

二、将来自多个数据源的文本信息进行文本预处理；

三、基于DMA模型和特征划分构建多源主题模型；

四、进行Blocked Gibbs采样并更新参数λ，基于步骤三所构建的主题模型，利用Blocked Gibbs采样算法，采样多源数据集中每个数据源的特征词分布、噪音词分布以及主题分布并对参数λ进行更新操作；具体包括有下列步骤：

首先初始化模型参数，需要初始化的模型参数包括超参数

{α,ω,λ,β}和隐藏变量初始化模型参数之后，Blocked Gibbs sampling的推断过程如下：

g)更新潜在特征词指示符γ；

h)采样更新主题-特征词分布

i)采样更新噪音词分布

j)采样更新主题分布Θ；

k)采样更新每篇文本的主题

当采样结果趋于稳定后，更新产生主题-特征词分布参数的狄利克雷参数λ，并重复Blocked Gibbs采样过程；

五、根据采样结果进行文本聚类。

2.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法，其特征在于：所述步骤二中，预处理方法是进行分词，去停用词、低频词及标点数字。

3.根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法，其特征在于：所述步骤三中，多源主题模型的文本生成过程为：

对于每个数据源χ_s∈{χ₁,χ₂,...,χ_S}:

a)选择γ_j ^s|ω^s～B(1,ω^s),j＝1,2,...,W

b)选择η₀ ^s|β～Dirichlet(β₁,...β_W)

c)选择

d)对于每个主题i∈N：

(a)选择

e)选择Θ^s|α～Dirichlet(α/N,...,α/N)

f)对于d^s∈{1,2,...,D^s}：

(b)选择

(c)选择

(d)选择

4.根据根据权利要求1所述的基于DMA模型和特征划分多源文本主题模型聚类方法，其特征在于：所述步骤五中，基于Blocked Gibbs采样结果，对进行文本聚类。