CN115618851B

CN115618851B - 改进的lda文本主题提取方法、系统、设备及存储介质

Info

Publication number: CN115618851B
Application number: CN202211276428.XA
Authority: CN
Inventors: 胡桃成; 张霞; 曹泳强
Original assignee: Guangdong Jma Aluminum Profile Factory Group Co ltd; Jiaying University
Current assignee: Guangdong Jma Aluminum Profile Factory Group Co ltd; Jiaying University
Priority date: 2022-07-12
Filing date: 2022-10-18
Publication date: 2023-08-04
Anticipated expiration: 2042-10-18
Also published as: CN115618851A

Abstract

本发明公开了一种改进的LDA文本主题提取方法、系统、设备及存储介质，涉及文本主题提取技术领域，其中，改进的LDA文本主题提取方法包括：构建针对LDA概率图模型的目标最大似然优化问题，所述目标最大似然优化问题为：求解所述目标最大似然优化问题，并根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数；提取目标文本的词频向量表示；将所述词频向量输入所述LDA概率图模型，并根据所述模型参数计算所述目标文本与各预设主题的词典多项式分布参数之间的相和性；将所述相和性最高的预设主题作为目标文本的文本主题。本发明可实现文本主题的高效提取，准确性高。

Description

改进的LDA文本主题提取方法、系统、设备及存储介质

技术领域

本发明涉及文本主题提取技术领域，尤其涉及一种改进的LDA文本主题提取方法、一种LDA文本主题提取系统、一种计算机设备及一种计算机可读存储介质。

背景技术

LDA(Latent Dirichlet Allocation)模型是经典的主题概率图模型，Google学术引用4万多次，在学术界和工业界都有广泛应用。如图1所示，LDA模型采用以下过程生成文本集合语料库：

(1)对于每一文本d，LDA模型使用Dirichlet分布参数β生成Dirichlet随机变元θ_d；

(2)对于文本中的每个单词，使用Dirichlet随机变元θ_d生成多项式分布随机变元Z_d,w；

(3)选择主题字典多项式分布参数α，并依据多项式分布随机变元Z_d,w生成多项式分布随机变元单词w。

因此，LDA模型参数(主题字典多项式分布参数α和Dirichlet分布参数β)未知，且LDA模型中存在大量隐变元。

针对上述问题，部分技术人员开始在LDA模型的等价描述中使用词频表示文本，并将多项式分布参数的对数与文本词频的内积作为主题与文本的相和程度度量；但是，该方法在实际使用存在如下问题：

(1)高频词对主题选择的影响很大，参数训练时存在去除语料库文本高频词预处理过程；并且，逻辑上低频词更具有区分度、更能代表主题，等价的最大似然优化描述中没有体现这一点。

(2)等价的最大似然优化中，未以主题词典多项式分布参数为优化元，主题词典多项式分布参数信息间接存储在优化元；

因此，针对以上的不足,需要研发一种新的LDA文本主题提取方法。

发明内容

本发明所要解决的技术问题在于，提供一种改进的LDA文本主题提取方法、计算机设备及计算机可读存储介质，可实现文本主题的高效提取，准确性高。

为了解决上述技术问题，本发明提供了一种改进的LDA文本主题提取方法，包括：

构建针对LDA概率图模型的目标最大似然优化问题，所述目标最大似然优化问题为：

其中，V为词典，|V|为V包含的词汇量，K为主题数，为概率向量空间，α为K个概率并使用规格为|V|×K的矩阵存储，d为目标文本，/>为d与第k个主题词典多项式分布参数的相和性；

求解所述目标最大似然优化问题，并根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数；

提取目标文本的词频向量表示；

将所述词频向量输入所述LDA概率图模型，并根据所述模型参数计算所述目标文本与各预设主题的词典多项式分布参数之间的相和性；

将所述相和性最高的预设主题作为目标文本的文本主题。

作为上述方案的改进，所述构建针对LDA概率图模型的目标最大似然优化问题的步骤包括：

构建针对LDA概率图模型的初始最大似然优化问题：

其中，V为词典，|V|为V包含的词汇量，K为主题数，Λ为|V|×K的矩阵，d为目标文本，fitness_d,k为d与第k个主题词典多项式分布参数的契合度，f_d为目标文本的词频向量；

根据共轭函数定义相关优化问题：

求解所述相关优化问题，生成共轭函数：

构建共轭函数的定义式：

所述相关优化问题的解为：

p^*＝exp(u)/Σexp(u)；

基于多项式分布参数α与词频向量对数的内积定义相和性：

根据所述相和性构建目标最大似然优化问题：

作为上述方案的改进，所述根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数的步骤包括：

采用在线对偶聚合法求解基础最大似然优化问题；

根据Fenchel-Young不等式，使得

其中，L_d为第d个似然度量，α^*为最大似然优化问题的解，R为正则函数,R^*为正则函数共轭，λ_d为概率图模型中第d个隐变元，是最优语义下该隐变元的取值；

结合所述目标最大似然优化问题，使得

(-R)^*(.)＝loq(∑exp(.))

其中，(-R)^*为取负的共轭函数，为取负共轭之梯度，f_d为目标文本的词频向量；

采用迭代方式更新模型参数，使得

相应地，本发明还提供了一种LDA文本主题提取系统，其特征在于，包括：

构建模块，用于构建针对LDA概率图模型的目标最大似然优化问题，所述目标最大似然优化问题为：

计算模块，用于求解所述目标最大似然优化问题，并根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数；

提取模块，用于提取目标文本的词频向量表示；

相和性模块，用于将所述词频向量输入所述LDA概率图模型，并根据所述模型参数计算所述目标文本与各预设主题的词典多项式分布参数之间的相和性；

主题模块，用于将所述相和性最高的预设主题作为目标文本的文本主题。

作为上述方案的改进，所述构建模块包括：

初始单元，用于构建针对LDA概率图模型的初始最大似然优化问题：

优化单元，用于根据共轭函数定义相关优化问题：

共轭单元，用于求解所述相关优化问题，生成共轭函数：

共轭定义单元，用于构建共轭函数的定义式：

计算单元，用于计算所述相关优化问题的解：

p^*＝exp(u)/Σexp(u)；

相和性定义单元，用于基于多项式分布参数α与词频向量对数的内积定义相和性：

构建单元，用于根据所述相和性构建目标最大似然优化问题：

作为上述方案的改进，所述计算模块包括：

对偶单元，用于采用在线对偶聚合法求解基础最大似然优化问题；

不等式单元，用于根据Fenchel-Young不等式，使得

赋值单元，用于结合所述目标最大似然优化问题，使得

(-R)^*(.)＝log(∑exp(.))

迭代单元，用于采用迭代方式更新模型参数，使得

相应地，本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现上述改进的LDA文本主题提取方法的步骤。

相应地，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述改进的LDA文本主题提取方法的步骤。

本发明具有以下有益效果：

(1)使用多项式分布参数与文本词频向量对数内积表征主题词典对文本的解析性，因为文本词频取对数，高频词对主题的影响减弱。

(2)主题词典对文本的解析性的度量表达式中，多项式分布参数以原形式存在，表述直接、且简单。

(3)多项式分布参数为K个概率向量，针对该约束，本发明采用在线对偶聚合方法求解最优参数，非常简便，且因为每次只处理语料库中一个文本，算法对存储的要求较低。

附图说明

图1是LDA模型生成文本集合语料库的示意图；

图2是本发明改进的LDA文本主题提取方法的实施例流程图；

图3是本发明中在线对偶聚合法的示意图；

图4是LDA与最大似然优化问题的对应关系示意图；

图5是LDA文本主题提取系统的结构示意图；

图6是LDA文本主题提取系统中构建模块的结构示意图；

图7是LDA文本主题提取系统中计算模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

参见图2，图2显示了本发明改进的LDA文本主题提取方法的第一实施例流程图，其包括：

S101，构建针对LDA概率图模型的目标最大似然优化问题；

相应地，目标最大似然优化问题为：

具体地，构建针对LDA概率图模型的目标最大似然优化问题的步骤包括：

(1)构建针对LDA概率图模型的初始最大似然优化问题：

需要说明的是，LDA模型给定的数据集是由文本构成的语料库,目标文本d的相关变元θ_d是Dirichlet变元，它们是单词w∈V相关变元Z_d.w选择主题用的多项式分布参数。主题词典参数α也由K个多项式分布参数组成α＝[α₁,…,α_n]。多项式分布参数是具有概率语义的向量:各分量值大于等于0,且分量之和等于1。很容易验证定义结构h(.)＝log(∑exp(.))导数能产生概率向量。

研究该结构的共轭定义式h^*(u)＝sup＜u,v＞-log(∑exp(v))发现：在u为概率向量时,差形式＜u,v＞-log(∑exp(v))和内积形式＜u,v-log(∑exp(v))＞相等。由于v-log(∑exp(v))对应着某概率对数,＜logu,v-log(∑exp(v))＞是交叉熵之负数,这个值越大越好,由此可建立起上述内积形式表示两事物契合性度量的语义。而且,使用内积形式＜u,v-log(∑exp(v))＞，即使在u为表示频率的向量，定义在其上的优化问题也是恰当的。

例如，对于LDA的同一文档、不同次生成而值相同的单词，主题选择隐变元Z_d,w的参数θ_d和主题词典多项式分布参数α都相同,所以只需要目标文本d的单词词频信息，记为f_d。这部分的似然概率为取对数为<log(α_k),f_d>。因此确定使用α_k参数对数乘文档词频f_d表征似然度。参数α的概率语义约束以及对数形式不方便求解，因此，可使用同规格的矩阵Λ来存储α的对数信息，也即Λ是词典|V|×K(主题数)的矩阵。将基于Λ表示的、目标文本d与各主题词典多项式分布参数契合程度记为fitness_d，其中，基于d的词频表示f_d与主题词典多项式分布参数对数矩阵乘积定义如下：

其中，fitness_d是长度与主题数相同的向量,将之作为log(∑exp(.))的输入，以用于协调各个主题间的关系，并将之作为数据项；Λ存放K个多项式分布参数对数信息，基于log(∑exp(.))定义正则项，由此，本发明得到的与LDA等价的最大似然优化描述为:

相应地，用于存放LDA模型中主题多项式分布参数α的对数信息为:

(2)根据共轭函数定义相关优化问题：

f_d是语料库中文档d的词频表示，这是一个规格同词典V相同、以单词为索引且取值自然数的向量。各主题多项式分布参数对数与文本d的词频表示的内积，作为该主题多项式与文本d相和度量，并命名为fitness_d。fitness_d中存放K个主题多项式分布参数与文本d的相和性度量，取fitness_d,1:K对文本d解析最好的分量作为主题多项式分布参数整体对文本d解析性度量，因为max(·)求导不方便,我们使用近似、且可导的SoftMax函数log(∑exp(.))作为最大似然优化数据项。因此,多项式分布参数对数与频率的内积项在LDA模型的最大似然优化描述中起着重要的作用。对内积项fitness_d,k＝<Λ.,_k-log(∑_w∈Vexp(Λ_w,k)),f_d>的分析表明，词频向量f_d中值大的分量对损失函数的影响极大，事实上，在参数训练中包含去除语料库高频词这一预处理过程，对此的一种解析是，诸如of/is/are等英语中的高频词通常被认为在主题上不具有分辨性，甚至没有实际语义。

本发明重新定义相和度量以解决高频词对模型参数影响过大问题。注意到fitness_d,k定义式来源于log(∑exp(.))共轭函数定义相关优化问题:

(3)求解所述相关优化问题，生成共轭函数：

共轭函数log(∑exp(.))^*定义在概率向量上才有意义(向量p为概率向量，要求向量各分量大于等于0，且各分量和等于1，记为p∈P)。求解所述相关优化问题，即可得到共轭函数为负熵。

(4)构建共轭函数的定义式：

(5)所述相关优化问题的解为：

p^*＝exp(u)/Σexp(u)；

(6)基于多项式分布参数α与词频向量对数的内积定义相和性：

也即输入元u中显式或隐式存放概率对数信息u∈log(P)+const。这也说明基于概率变元与概率对数的内积定义相和性是恰当的，概率变元熵作正则项用于限定变元的概率语义。因为文本d的词频向量f_d∈N^|V|中包含了概率信息，因此本发明基于多项式分布参α与词频向量对数的内积定义相和性，记为

(7)根据所述相和性构建目标最大似然优化问题：

其中,-α:log(α)是常用的矩阵运算记法，冒号连接两矩阵表示两边矩阵逐元素相乘、再加和。

由于对文档d的词频向量取对数，高频词的影响对数减少；并且注意到上面结构和α^T(log(f_d)-log(∑_w∈Vf_d,w))在优化意义上等价，因log(f_d)-log(∑_w∈Vf_d,w)低频词值的绝对值变大、不同的取值更有区分性，与“相对高频词、低频词更能代表主题”观念相符。由于存放了K个主题多项式分布参数与文本d的相和性，可采用SoftMax函数近似实现用/>中最大值作为模型整体对文本d的解析度量，并将之作为数据项；因为主题多项式参数α由K个概率向量构成,使用熵作为正则项，用于限定主题多项式参数的概率语义。

因此，本发明通过分析主题与文本相和程度度量表达式，建立新的主题字典对文本解析性度量。

S102，求解目标最大似然优化问题，并根据目标最大似然优化问题的解计算LDA概率图模型的模型参数；

由于目标最大似然优化问题中的优化元无约束，因此，使用经典无约束优化数值解法即可求出最优解。

针对LDA概率图模型，其模型参数包括主题词典多项式分布参数、各单词选择主题的多项式分布参数及Dirichlet分布参数。

图4显示了LDA与最大似然优化的对应关系，具体地，根据目标最大似然优化问题的解计算LDA概率图模型的模型参数的步骤包括：

(1)采用在线对偶聚合法求解基础最大似然优化问题。

如图3所示，由于最大似然优化数据项梯度负数是对偶问题的解、正则项共轭梯度在对偶问题优化元之和负数的取值为解，本发明采用在线对偶聚合法求解最大似然优化问题。具体地：

(a)构建基础最大似然优化问题：

其中，n为训练数据集的大小，α为数据实例上工作的机器，L_d(α)为α处理的第k个数据的似然，R(α)为α的正则项；

需要说明的是，机器学习算法以数据驱动的方式、按照某个规则从函数集选择恰当的机器。贝叶斯方法通常使用最大似然衡量机器与数据的契合度。逻辑上，似然度量受数据和机器两方面的影响，但是为了后续演算方便、并聚焦机器参数变化，可将似然视为定义在机器上的函数，即：假定给定训练数据集的大小为n；在数据实例上工作的机器为函数集中的某个实例，用α∈Θ表示，则用L_d(α),d∈[n]表示机器α处理第d个数据的似然。为增加模型的鲁棒性，正则化方法(Regularization Method)还在当下度量结构的基础上添加正则项，以使得训练得到的机器在投入实际使用时效果和训练阶段相差不大。假定用于限定机器的正则项用R(α)进行标记，则添加正则约束的贝叶斯方法使用如下优化问题选择机器：

本发明提出在线对偶聚合方法进行求解。上述优化问题是以正则项加数据项作为目标函数、以最大似然为目标的优化问题。不失一般性，可以将这种“基于给定n个数据组成的训练集、选择最优机器”过程抽象为最大似然优化问题的求解过程。

(b)对基础最大似然优化问题进行约束及数据项替换处理,生成约束优化问题：

s.t.α_d-α＝0,

其中,d∈[n]对以参数α的机器处理第d个数据的效果进行度量，与max优化方向一致，值越大越好；R(α)为数据项，用于限定机器选择的范围,增加被选中机器工作的鲁棒性。

具体地，可通过n个等式约束α_d＝α,d∈[n]引入n个新变元,[n]表示1到n的下标集合；并将数据项L_d(α)中的α替换为α_d,从而得到上述约束优化问题。

(c)根据拉格朗日乘子法，将约束优化问题转换为无约束初始优化问题：

对于上述约束优化问题，可使用拉格朗日乘子法，得到等价的无约束优化问题。

(d)对无约束初始优化问题进行拆分及合并处理，生成第二个无约束优化问题：

通过将内积项<λ_d,α_d-α>拆分,并分别按照α和α_d将相关项进行合并，整理后形成第二个无约束优化问题。

(e)对第二个无约束优化问题的目标函数进行移位处理，生成第三个无约束优化问题：

通过将(n+1)个优化移到对应变元的项上，即可生成第三个无约束优化问题。

(f)对第三个无约束优化问题中与R和L_d的连接由和式变为差式，生成第四个无约束优化问题：

在上确界能取到时,max和sup一致，将max优化替换成sup优化,并变优化项和式为差式，则可生成第四个无约束优化问题。

(g)根据共轭函数定义，对第四个无约束优化问题进行优化处理，生成基础概率图模型：

由于sup相关的优化与Fenchel共轭函数定义一致,因此可生成基于共轭函数构建的简单优化问题，即上述基础概率图模型。

本发明中，主题多项式分布参数直接存在于用于模型参数训练的最大似然优化问题中，由于主题多项式分布参数的概率语义限制，本发明提出在线对偶聚合算法进行数值求解。

(2)根据Fenchel-Young不等式，使得

需要说明的是，基础概率图模型定义在多优化元之上，与基础最大似然优化问题等价,称为基础最大似然优化问题的对偶问题。假定α^*是基础最大似然优化问题的解,是基础概率图模型的解，根据Fenchel-Young不等式，可得：

/>

也即基础最大似然优化数据项梯度取负为对其对偶最小优化问题的解，正则项取负之共轭函数的梯度在多优化元对偶问题解上的取值即为基础最大似然优化的解。因此，我们可以用依次遍历数据集元素、迭代更新优化元的方式求解基础最大似然优化。本发明将这种数值解法称为在线对偶聚合方法。

(3)结合所述目标最大似然优化问题，使得

(-R)^*(.)＝log(∑exp(.))

本发明中LDA所对应的目标最大似然优化问题中正则项R(α)＝-α:log(α)，即可计算出取负的共轭函数(-R)^*及取负共轭之梯度

(4)采用迭代方式更新模型参数，使得

将正则项取负之梯度完成输入到概率之转换。如此，在用Dirichlet分布采样初始化优化元α的K个主题后，在依次遍历语料库的每个文本d时，本发明可采用上述迭代方式更新参数。

S103，提取目标文本的词频向量表示；

S104，将词频向量输入LDA概率图模型，并根据模型参数计算目标文本与各预设主题的词典多项式分布参数之间的相和性；

S105，将相和性最高的预设主题作为目标文本的文本主题。

因此，本发明可根据所述词频向量、LDA概率图模型及模型参数，计算所述目标文本的文本主题。同时，本发明利用优化问题形式化描述在解释性方面的优势，通过建立概率图模型与最大似然优化之间联系的一般性方法，并将之运用到LDA中，采用基于形式化的最大似然优化描述对参数求解和推理，操作非常方便；具体地，本发明具有以下有益效果：

如图5所示，本发明LDA文本主题提取系统100，包括构建模块1、计算模块2、提取模块3、相和性模块4及主题模块5，具体地：

构建模块1，用于构建针对LDA概率图模型的目标最大似然优化问题，所述目标最大似然优化问题为：

计算模块2，用于求解所述目标最大似然优化问题，并根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数；

提取模块3，用于提取目标文本的词频向量表示；

相和性模块4，用于将所述词频向量输入所述LDA概率图模型，并根据所述模型参数计算所述目标文本与各预设主题的词典多项式分布参数之间的相和性；

主题模块5，用于将所述相和性最高的预设主题作为目标文本的文本主题。

如图6所示，所述构建模块1包括初始单元11、优化单元12、共轭单元13、共轭定义单元14、计算单元15、相和性定义单元16及构建单元17，具体地：

初始单元11，用于构建针对LDA概率图模型的初始最大似然优化问题：

优化单元12，用于根据共轭函数定义相关优化问题：

共轭单元13，用于求解所述相关优化问题，生成共轭函数：

共轭定义单元14，用于构建共轭函数的定义式：

计算单元15，用于计算所述相关优化问题的解：

p^*＝exp(u)/Σexp(u)；

相和性定义单元16，用于基于多项式分布参数α与词频向量对数的内积定义相和性：

构建单元17，用于根据所述相和性构建目标最大似然优化问题：

如图7所示，所述计算模块2包括对偶单元21、不等式单元22、赋值单元23及迭代单元24，具体地：

对偶单元21，用于采用在线对偶聚合法求解基础最大似然优化问题；

不等式单元22，用于根据Fenchel-Young不等式，使得

赋值单元23，用于结合所述目标最大似然优化问题，使得

(-R)^*(.)＝log(∑exp(.))

迭代单元24，用于采用迭代方式更新模型参数，使得

相应地，本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现上述改进的LDA文本主题提取方法的步骤。同时，本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现上述改进的LDA文本主题提取方法的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种改进的LDA文本主题提取方法，其特征在于，包括：

提取目标文本的词频向量表示；

将所述相和性最高的预设主题作为目标文本的文本主题；

其中，所述构建针对LDA概率图模型的目标最大似然优化问题的步骤包括：

构建针对LDA概率图模型的初始最大似然优化问题：

根据共轭函数定义相关优化问题：

求解所述相关优化问题，生成共轭函数：

构建共轭函数的定义式：

所述相关优化问题的解为：

p^*＝exp(u)/exp(u)；

基于多项式分布参数α与词频向量对数的内积定义相和性：

根据所述相和性构建目标最大似然优化问题：

2.如权利要求1所述的改进的LDA文本主题提取方法，其特征在于，所述根据所述目标最大似然优化问题的解计算所述LDA概率图模型的模型参数的步骤包括：

采用在线对偶聚合法求解基础最大似然优化问题；

根据Fenchel-Young不等式，使得

结合所述目标最大似然优化问题，使得

(-)^*(.)＝og(∑exp(.))

其中，(-R)^*为取负的共轭函数，▽(-R)^*为取负共轭之梯度，f_d为目标文本的词频向量；

采用迭代方式更新模型参数，使得

3.一种LDA文本主题提取系统，其特征在于，包括：

提取模块，用于提取目标文本的词频向量表示；

主题模块，用于将所述相和性最高的预设主题作为目标文本的文本主题；

其中，所述构建模块包括：

优化单元，用于根据共轭函数定义相关优化问题：

共轭单元，用于求解所述相关优化问题，生成共轭函数：

共轭定义单元，用于构建共轭函数的定义式：

计算单元，用于计算所述相关优化问题的解：

p^*＝exp(u)/exp(u)；

4.如权利要求3所述的LDA文本主题提取系统，其特征在于，所述计算模块包括：

不等式单元，用于根据Fenchel-Young不等式，使得

赋值单元，用于结合所述目标最大似然优化问题，使得

(-)^*(.)＝og(∑exp(.))

迭代单元，用于采用迭代方式更新模型参数，使得

5.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至2中任一项所述的方法的步骤。

6.一种计算机可读存储介质，其上存储有计算机程序，，其特征在于，所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。