CN112836507A

CN112836507A - 一种领域文本主题抽取方法

Info

Publication number: CN112836507A
Application number: CN202110039892.6A
Authority: CN
Inventors: 邹长明; 黄少滨; 申林山; 李熔盛; 何荣博
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-05-25
Anticipated expiration: 2041-01-13
Also published as: CN112836507B

Abstract

本发明属于文本主题抽取技术领域，具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型，并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层，形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成，审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布，然后由狄利克雷分布为主题的多项分布，审计方法的多项分布和词语的多项分布分配参数，利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型，在提取出的主题中加入了审计方法的信息，降低了主题间重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。

Description

一种领域文本主题抽取方法

技术领域

本发明属于文本主题抽取技术领域，具体涉及一种领域文本主题抽取方法。

背景技术

随着技术的进步以及国家的重视程度的提高，以电子政务审计取代传统审计方法的趋势将成为主流。四险一金领域的知识图谱将互联网的信息表达成更接近人类认知的形式，可以提供更好的组织、管理四险一金领域政策法规的能力，将审计部门宝贵的人力从繁重的工作中解脱出来。

文本作为网络信息的重要组成部分自始至终都受到了极大的关注，对网络文本的分析在许多领域包括计算机科学、统计学、经济学等方面获得了极大的成功，早期互联网规模较小，通常通过人工对网络文本进行分析，而随着近些年互联网大规模普及，网络文本数量快速增长，通过人工整理并分析的手段已变得不现实。如何在大量文本当中找到准确有效的信息已经成为自然语言处理、机器学习和人工智能领域的热点研究问题。迄今为止审计人员对四险一金领域政策法规文本进行审计分析都是通过人工的方式，在浪费了大量人力资源的同时效率也并不高。

发明内容

本发明的目的在于提供一种领域文本主题抽取方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：获取待抽取的文本集，对文本集中的文本顺序编号；根据文本集所属的领域，利用图中心性度量方法计算审计方法中各审计词语的中心性，选取中心性最高的前u％审计词语构建候选词表candidate；

步骤2：对待抽取的文本集进行分词处理，将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag；

所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本，链表中的元素为词语；所述的词袋word_bag由文本非去重的词链表word_list去重后得到，词袋word_bag的长度为V；

步骤3：创建链表l和链表z；

步骤3.1：从文本非去重的词链表word_list中选择一个词语，判断当前词语是否属于候选词表candidate；若当前词语属于候选词表candidate，则当前词语的审计主题编号保存为1；若当前词语不属于候选词表candidate，则当前词语的审计主题编号随机保存为0或1；

步骤3.2：对当前词语随机赋予主题编号k，k∈{1,2,...,K}；

步骤3.3：将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素，将当前词语的主题编号和审计主题编号赋予赋予链表z中对应位置的元素；

步骤3.4：重复执行步骤3.1至步骤3.3，直到完成链表l和链表z中所有元素的赋值；

步骤4：根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW；

所述的文本-审计主题编号统计矩阵NDE为二维矩阵，矩阵元素NDE_me表示在编号为m的文本中，审计主题编号为e-1的词语数量；e∈{1,2}；

所述的审计主题编号-主题编号统计矩阵NET为二维矩阵，矩阵元素NET_ek表示审计主题编号为e-1且主题编号为k的词语数量；

所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵，矩阵元素NETW_ekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量；v∈{1,2,...,V}；

步骤5：利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号；

步骤5.1：从链表z中抽取一个词语i，获取当前词语所属文本编号m_i、审计主题编号e_i-1、主题编号k_i和在词袋word_bag中的位置v_i；根据抽取后的链表z，使矩阵NDE、NET、NETW中对应元素值减1；

步骤5.2：计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量；

步骤5.2.1：计算可观测变量进行抽样的条件下词语i分配到主题编号k_j、审计主题编号e_j-1的概率分布值；

其中，α_k,β_v,γ_e为设定的超参数；

步骤5.2.2：重复执行步骤5.2.1，得到词语i分配到各主题编号和审计主题编号的联合分布律，共执行2K次，得到的联合分布律为二维矩阵，根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量；

步骤5.3：根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量，采用轮盘法随机抽取，重新分配给当前词语i新的主题编号和审计主题编号；

步骤5.4：将当前词语i放回链表z；根据放回后的链表z，使矩阵NDE、NET、NETW中对应元素值加1；

步骤5.5：重复执行步骤5.1至步骤5.4，直到链表z不再变化；

步骤6：计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ；

所述的文本-审计主题编号的参数分布矩阵π为二维矩阵，矩阵元素π_me为：

所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵，矩阵元素θ_ek为：

所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵，矩阵元素φ_ekv为：

步骤7：获取文本集中每篇文本的主题；

步骤7.1：将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘，得到文本-主题编号概率分布矩阵；根据审计主题编号-主题编号--词语的参数分布矩阵φ，获取主题编号-词语概率分布矩阵；

步骤7.2：根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序；对每篇文本，取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘，得到每篇文本的词语概率值向量；

步骤7.3：对每篇文本的词语概率值向量中的元素降序排序，取概率值最高的元素，根据该元素记载的词袋word_bag中的位置信息获取对应的词语，若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中，则输出当前词语作为该文本的主题词语；

步骤7.4：重复执行步骤7.1至步骤7.3，直至输出文本集中每篇文本指定数量的主题词语。

本发明的有益效果在于：

本发明应用了统计学习方法中的LDA主题模型，并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层，形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成，审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布，然后由狄利克雷分布为主题的多项分布，审计方法的多项分布和词语的多项分布分配参数，利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型，在提取出的主题中加入了审计方法的信息，降低了主题间重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。

附图说明

图1为本发明的流程图。

图2为主题抽取结果示例图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明提供了一种领域文本主题抽取方法，涉及文本主题抽取技术领域。本发明应用了统计学习方法中的LDA主题模型，并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层，形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成，审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布，然后由狄利克雷分布为主题的多项分布，审计方法的多项分布和词语的多项分布分配参数，利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型，在提取出的主题中加入了审计方法的信息，降低了主题间重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。

一种领域文本主题抽取方法，包括以下步骤：

步骤3：创建链表l和链表z；

步骤3.2：对当前词语随机赋予主题编号k，k∈{1,2,...,K}；

其中，α_k,β_v,γ_e为设定的超参数；

步骤5.5：重复执行步骤5.1至步骤5.4，直到链表z不再变化；

步骤7：获取文本集中每篇文本的主题；

本发明将审计方法加入到主题提取模型当中，在三层LDA主题模型基础上加入审计方法层，从而构成一个四层贝叶斯模型，该模型在提取出的主题中加入了审计方法的信息，模型在困惑度评价指标上优于LDA主题模型，同时也可以提取出文本中包含审计方法的主题。图2为主题抽取结果的部分展示。

实施例1：

本实施例提供了一种四险一金领域政策法规文本主题抽取方法。本实施例通过在LDA主题模型基础上增加聚类技术和词语的语义网来提取四险一金领域政策法规文本的主题词，然后利用聚类技术和词语的语义网来归纳出政策法规文本中具有审计意义的主题词。

LDA主题模型得到的主题是以概率分布方式给出的，但LDA主题模型没有考虑关键词的潜在语义，因此本实施例在LDA主题模型基础上增加了语义网模型来解决该问题。本实施例首先在该模型基础上加入聚类来区分在主题内容方面具有差异性的文本，并增加了评价关键词重要程度的指标以提高关键词对文本主题的代表程度。经实验，改进后的模型相较于原始模型可以更好的适应四险一金领域政策法规文本主题抽取并为四险一金领域知识图谱的审计工具集提供支持。

本实施例提供了一种四险一金领域政策法规文本主题抽取方法，该方法可以有效的解决文本内及文本间主题重叠度过高的问题，同时也可以为四险一金领域知识图谱的审计工具集提供支持。本实施例包括(1)将文本集生成两个集合，一个是文本词链表集合，一个是词袋集合(2)创建一个保存审计方法编号和主题编号的链表z(3)利用Dirichlet分布为文本-审计方法、审计方法-主题和审计方法-主题-词语三个多项分布随机分配初始参数θ、δ和

(4)为z每个位置生成审计方法编号和主题编号(5)利用Gibbs抽样方法对可观测变量进行抽样并更新其主题和审计方法编号(6)最终得到的样品计算文本-审计方法、审计方法-主题和审计方法-主题-词语参数。

一种四险一金领域政策法规文本主题抽取方法，包括以下步骤：

步骤1：将已经分好词的文本集转化为两个集合，一个是文本非去重的词链表word_list，另一个是词袋word_bag；

将已经分好词的文本集转化为两个集合的具体步骤为：

步骤1.1：按顺序遍历每篇文章的所有词语，建立一个链表，链表元素仍然是一个链表，每个链表代表一篇文本，其元素为词语；

步骤1.2：遍历由步骤1.1生成的链表，建立一个去重后的词链表即词袋，链表元素为词语；

步骤2：创建两个链表，一个是l，其元素保存的是word_list当前词所在位置另一个是z，其元素保存的是word_list当前词所在位置的主题编号和审计方法编号；

步骤3：定义超参数α、β和γ；

步骤4：利用Dirichlet分布为文本的审计方法多项分布、审计方法的主题多项分布和词语的多项分布分配参数πd、θs和

步骤5：创建相关统计量NDE为二维文本-审计方法统计矩阵，每行代表一篇文本每列代表一个审计标签编号，NET为二维的审计方法-主题统计矩阵，每行代表审计标签编号每列代表主题编号，NETW为三维的审计方法-主题-词语统计矩阵，每行代表审计标签编号每列代表主题编号每层代表在词袋word_bag对应的位置；

步骤6：为z中每个词语生成主题编号z_ij∽Mult(π)和审计方法编号δ_ij∽Mult(γ)；

为z生成审计方法编号和主题编号的具体步骤为：

步骤6.1：利用图中心性度量方法计算审计方法中中心性最高的前95％的词作为候选词表candidate，将在z中且属于candidate中的词定义为审计词语:；

步骤6.2：为z中每个词语对应位置赋予审计主题编号，审计主题编号只有0和1，分别代表不属于审计词语和属于审计词语，属于审计词语的编号保存为1，不属于的编号随机保存0和1中的一个值；

步骤6.3：为z中每个词语对应位置随机赋予主题编号；

步骤7：按照步骤6中z中保存的审计方法编号和主题编号初始化NDE、NET和NETW；

初始化的具体步骤为：

步骤7.1：遍历z，计算当前词语在词袋中的位置并得到当前词语位置存储的审计方法编号和主题编号；

步骤7.2：通过步骤7.1得到的三个数据，使NDE,NET,NETW矩阵对应位置的元素值加1；

步骤8：利用Gibbs抽样方法对可观测变量即z中的元素进行抽样并更新其主题和审计方法编号；

Gibbs抽样的具体步骤为：

步骤8.1：遍历z，得到当前词语所属文本编号m、审计编号e、主题编号k和在词袋中的位置v，同时使NDE、NET、NETW对应位置的元素值减1；

步骤8.2：利用步骤8.1得到的三个矩阵按照满条件概率公式(1)进行抽样，公式左边p(z_i＝k,l_i＝e|w,z_-i,l_-i,α,β,γ)代表通过对可观测变量进行抽样的条件下第i个词语分配到第k个主题标签和第e个审计标签的概率分布值，zi＝k代表第i个词语分配到第k个主题标签，li代表第i个词分配到第e个审计标签，公式右边表示具体抽样过程，利用步骤8.1得到的当前单词所属的文本m、审计标签e、主题编号k和词袋中的位置v，首先对NDE矩阵m行所有元素值求和再求倒数并乘以m行e列的值，然后对NET矩阵k行求和再求倒数并乘以e行k列的值，最后对NETW三维矩阵中e和k所在的一个V维向量求和再求倒数并乘以e层k列v行的值，V代表词袋长度。三个式子得到的值相乘得到词语i分配到主题标签k和审计标签e的概率值，公式(1)要计算E*K次得到词语i分配到所有主题标签和审计标签的一个联合分布律，E代表审计标签总数，K代表主题标签总数，这个联合分布律是一个E*K的二维矩阵，可以通过该矩阵得到i分配到各主题标签和审计标签的边缘分布律向量，然后用轮盘法随机抽取分配到i新的主题标签和审计标签并重新分配给在z中当前词语对应的值；

步骤8.3：使NDE、NET、NETW对应位置加一，重复这样的操作直到遍历完z中所有元素代表迭代完一次，直到z中的值不再变化则结束迭代；

步骤9：通过NDE、NET和NETW计算得到文本-审计方法、审计方法-主题和审计方法-主题-词语的多项分布参数矩阵；

计算文本-审计方法、审计方法-主题和审计方法-主题-词语参数的具体步骤为：

步骤9.1：按照公式(2)计算文本-审计方法后验参数矩阵，分子是NDE第m行第e列的值，分母是第m行所有值求和的值，得到第m篇文本在第e个审计标签上的概率值，一共求M*E次得到一个M*E的二维概率分布矩阵，M代表文本数量，代表文本和审计标签的联合分布律：

步骤6.2：按照公式(3)计算审计方法-主题参数矩阵，分子是NET第e行第k列元素值，分母是第k行所有值求和的值，得到第e个审计标签在第k个主题标签上的概率值，共计算E*K次得到一个E*K的二维概率分布矩阵，代表审计标签和主题标签的联合分布律：

步骤6.3：按照公式(4)计算审计方法-主题-词语参数矩阵，分子是NETW中第e层第k列第v行的值，分母是NETW_ekv所在的V维向量求和的值，得第v个词语在第e个审计标签和第k个主题标签上的一个概率值，这个公式一个计算E*K*V次，得到一个E*K*V的三维矩阵，每个v所在的E*K平面代表这个词语在所有审计标签和主题标签上的联合分布律：

步骤10：首先对通过步骤9得到的文本-审计方法参数分布矩阵和审计方法-主题参数矩阵进行相关矩阵运算得到文本-主题概率分布矩阵和主题-词语概率分布矩阵，通过这两个矩阵并结合word_list、word_bag两个链表可以得到每篇文本的主题。

步骤10.1：首先对通过步骤9得到的文本-审计方法参数分布矩阵和审计方法-主题参数矩阵进行相关矩阵运算得到文本-主题概率分布矩阵和主题-词语概率分布矩阵，对每个文本的主题按概率值降序排序，取概率值最高的主题与主题-词语概率分布矩阵中该主题所在行相乘并进行降序排序，得到一个词语的概率值向量。

步骤10.2：对词语的概率值向量降序排序并找到在词袋word_bag中的索引，通过索引获得这个词语，然后与词链表word_list该文本所在的子链表中的词语进行比对，成功则输出，直到输出10个词语为止，这样就能得到每篇文本概率最高的的主题，每个主题包含10个词语。图2展示了部分结果的截图。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种领域文本主题抽取方法，其特征在于，包括以下步骤：

步骤3：创建链表l和链表z；

步骤3.2：对当前词语随机赋予主题编号k，k∈{1,2,...,K}；

其中，α_k,β_v,γ_e为设定的超参数；

步骤5.5：重复执行步骤5.1至步骤5.4，直到链表z不再变化；

步骤7：获取文本集中每篇文本的主题；