CN112836507A - 一种领域文本主题抽取方法 - Google Patents

一种领域文本主题抽取方法 Download PDF

Info

Publication number
CN112836507A
CN112836507A CN202110039892.6A CN202110039892A CN112836507A CN 112836507 A CN112836507 A CN 112836507A CN 202110039892 A CN202110039892 A CN 202110039892A CN 112836507 A CN112836507 A CN 112836507A
Authority
CN
China
Prior art keywords
word
text
audit
matrix
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110039892.6A
Other languages
English (en)
Other versions
CN112836507B (zh
Inventor
邹长明
黄少滨
申林山
李熔盛
何荣博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110039892.6A priority Critical patent/CN112836507B/zh
Publication of CN112836507A publication Critical patent/CN112836507A/zh
Application granted granted Critical
Publication of CN112836507B publication Critical patent/CN112836507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。

Description

一种领域文本主题抽取方法
技术领域
本发明属于文本主题抽取技术领域,具体涉及一种领域文本主题抽取方法。
背景技术
随着技术的进步以及国家的重视程度的提高,以电子政务审计取代传统审计方法的趋势将成为主流。四险一金领域的知识图谱将互联网的信息表达成更接近人类认知的形式,可以提供更好的组织、管理四险一金领域政策法规的能力,将审计部门宝贵的人力从繁重的工作中解脱出来。
文本作为网络信息的重要组成部分自始至终都受到了极大的关注,对网络文本的分析在许多领域包括计算机科学、统计学、经济学等方面获得了极大的成功,早期互联网规模较小,通常通过人工对网络文本进行分析,而随着近些年互联网大规模普及,网络文本数量快速增长,通过人工整理并分析的手段已变得不现实。如何在大量文本当中找到准确有效的信息已经成为自然语言处理、机器学习和人工智能领域的热点研究问题。迄今为止审计人员对四险一金领域政策法规文本进行审计分析都是通过人工的方式,在浪费了大量人力资源的同时效率也并不高。
发明内容
本发明的目的在于提供一种领域文本主题抽取方法。
本发明的目的通过如下技术方案来实现:包括以下步骤:
步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;
步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;
所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;
步骤3:创建链表l和链表z;
步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;
步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};
步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予赋予链表z中对应位置的元素;
步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;
步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;
所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};
所述的审计主题编号-主题编号统计矩阵NET为二维矩阵,矩阵元素NETek表示审计主题编号为e-1且主题编号为k的词语数量;
所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵,矩阵元素NETWekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量;v∈{1,2,...,V};
步骤5:利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号;
步骤5.1:从链表z中抽取一个词语i,获取当前词语所属文本编号mi、审计主题编号ei-1、主题编号ki和在词袋word_bag中的位置vi;根据抽取后的链表z,使矩阵NDE、NET、NETW中对应元素值减1;
步骤5.2:计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.2.1:计算可观测变量进行抽样的条件下词语i分配到主题编号kj、审计主题编号ej-1的概率分布值;
Figure BDA0002895351600000021
其中,αkve为设定的超参数;
步骤5.2.2:重复执行步骤5.2.1,得到词语i分配到各主题编号和审计主题编号的联合分布律,共执行2K次,得到的联合分布律为二维矩阵,根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.3:根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量,采用轮盘法随机抽取,重新分配给当前词语i新的主题编号和审计主题编号;
步骤5.4:将当前词语i放回链表z;根据放回后的链表z,使矩阵NDE、NET、NETW中对应元素值加1;
步骤5.5:重复执行步骤5.1至步骤5.4,直到链表z不再变化;
步骤6:计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ;
所述的文本-审计主题编号的参数分布矩阵π为二维矩阵,矩阵元素πme为:
Figure BDA0002895351600000031
所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵,矩阵元素θek为:
Figure BDA0002895351600000032
所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵,矩阵元素φekv为:
Figure BDA0002895351600000033
步骤7:获取文本集中每篇文本的主题;
步骤7.1:将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘,得到文本-主题编号概率分布矩阵;根据审计主题编号-主题编号--词语的参数分布矩阵φ,获取主题编号-词语概率分布矩阵;
步骤7.2:根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序;对每篇文本,取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘,得到每篇文本的词语概率值向量;
步骤7.3:对每篇文本的词语概率值向量中的元素降序排序,取概率值最高的元素,根据该元素记载的词袋word_bag中的位置信息获取对应的词语,若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中,则输出当前词语作为该文本的主题词语;
步骤7.4:重复执行步骤7.1至步骤7.3,直至输出文本集中每篇文本指定数量的主题词语。
本发明的有益效果在于:
本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。
附图说明
图1为本发明的流程图。
图2为主题抽取结果示例图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明提供了一种领域文本主题抽取方法,涉及文本主题抽取技术领域。本发明应用了统计学习方法中的LDA主题模型,并在LDA主题模型三层贝叶斯网络基础上提出增加审计方法层,形成四层贝叶斯网络。该模型认为文本由审计方法的多项分布构成,审计方法由主题的多项分布构成。首先分别生成审计方法、文本主题和词语的多项分布,然后由狄利克雷分布为主题的多项分布,审计方法的多项分布和词语的多项分布分配参数,利用吉布斯抽样计算得到真实的包含审计方法的主题分布参数。该方法相较于LDA主题模型,在提取出的主题中加入了审计方法的信息,降低了主题间重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。
一种领域文本主题抽取方法,包括以下步骤:
步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;
步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;
所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;
步骤3:创建链表l和链表z;
步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;
步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};
步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予赋予链表z中对应位置的元素;
步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;
步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;
所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};
所述的审计主题编号-主题编号统计矩阵NET为二维矩阵,矩阵元素NETek表示审计主题编号为e-1且主题编号为k的词语数量;
所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵,矩阵元素NETWekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量;v∈{1,2,...,V};
步骤5:利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号;
步骤5.1:从链表z中抽取一个词语i,获取当前词语所属文本编号mi、审计主题编号ei-1、主题编号ki和在词袋word_bag中的位置vi;根据抽取后的链表z,使矩阵NDE、NET、NETW中对应元素值减1;
步骤5.2:计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.2.1:计算可观测变量进行抽样的条件下词语i分配到主题编号kj、审计主题编号ej-1的概率分布值;
Figure BDA0002895351600000051
其中,αkve为设定的超参数;
步骤5.2.2:重复执行步骤5.2.1,得到词语i分配到各主题编号和审计主题编号的联合分布律,共执行2K次,得到的联合分布律为二维矩阵,根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.3:根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量,采用轮盘法随机抽取,重新分配给当前词语i新的主题编号和审计主题编号;
步骤5.4:将当前词语i放回链表z;根据放回后的链表z,使矩阵NDE、NET、NETW中对应元素值加1;
步骤5.5:重复执行步骤5.1至步骤5.4,直到链表z不再变化;
步骤6:计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ;
所述的文本-审计主题编号的参数分布矩阵π为二维矩阵,矩阵元素πme为:
Figure BDA0002895351600000061
所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵,矩阵元素θek为:
Figure BDA0002895351600000062
所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵,矩阵元素φekv为:
Figure BDA0002895351600000063
步骤7:获取文本集中每篇文本的主题;
步骤7.1:将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘,得到文本-主题编号概率分布矩阵;根据审计主题编号-主题编号--词语的参数分布矩阵φ,获取主题编号-词语概率分布矩阵;
步骤7.2:根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序;对每篇文本,取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘,得到每篇文本的词语概率值向量;
步骤7.3:对每篇文本的词语概率值向量中的元素降序排序,取概率值最高的元素,根据该元素记载的词袋word_bag中的位置信息获取对应的词语,若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中,则输出当前词语作为该文本的主题词语;
步骤7.4:重复执行步骤7.1至步骤7.3,直至输出文本集中每篇文本指定数量的主题词语。
本发明将审计方法加入到主题提取模型当中,在三层LDA主题模型基础上加入审计方法层,从而构成一个四层贝叶斯模型,该模型在提取出的主题中加入了审计方法的信息,模型在困惑度评价指标上优于LDA主题模型,同时也可以提取出文本中包含审计方法的主题。图2为主题抽取结果的部分展示。
实施例1:
本实施例提供了一种四险一金领域政策法规文本主题抽取方法。本实施例通过在LDA主题模型基础上增加聚类技术和词语的语义网来提取四险一金领域政策法规文本的主题词,然后利用聚类技术和词语的语义网来归纳出政策法规文本中具有审计意义的主题词。
LDA主题模型得到的主题是以概率分布方式给出的,但LDA主题模型没有考虑关键词的潜在语义,因此本实施例在LDA主题模型基础上增加了语义网模型来解决该问题。本实施例首先在该模型基础上加入聚类来区分在主题内容方面具有差异性的文本,并增加了评价关键词重要程度的指标以提高关键词对文本主题的代表程度。经实验,改进后的模型相较于原始模型可以更好的适应四险一金领域政策法规文本主题抽取并为四险一金领域知识图谱的审计工具集提供支持。
本实施例提供了一种四险一金领域政策法规文本主题抽取方法,该方法可以有效的解决文本内及文本间主题重叠度过高的问题,同时也可以为四险一金领域知识图谱的审计工具集提供支持。本实施例包括(1)将文本集生成两个集合,一个是文本词链表集合,一个是词袋集合(2)创建一个保存审计方法编号和主题编号的链表z(3)利用Dirichlet分布为文本-审计方法、审计方法-主题和审计方法-主题-词语三个多项分布随机分配初始参数θ、δ和
Figure BDA0002895351600000071
(4)为z每个位置生成审计方法编号和主题编号(5)利用Gibbs抽样方法对可观测变量进行抽样并更新其主题和审计方法编号(6)最终得到的样品计算文本-审计方法、审计方法-主题和审计方法-主题-词语参数。
一种四险一金领域政策法规文本主题抽取方法,包括以下步骤:
步骤1:将已经分好词的文本集转化为两个集合,一个是文本非去重的词链表word_list,另一个是词袋word_bag;
将已经分好词的文本集转化为两个集合的具体步骤为:
步骤1.1:按顺序遍历每篇文章的所有词语,建立一个链表,链表元素仍然是一个链表,每个链表代表一篇文本,其元素为词语;
步骤1.2:遍历由步骤1.1生成的链表,建立一个去重后的词链表即词袋,链表元素为词语;
步骤2:创建两个链表,一个是l,其元素保存的是word_list当前词所在位置另一个是z,其元素保存的是word_list当前词所在位置的主题编号和审计方法编号;
步骤3:定义超参数α、β和γ;
步骤4:利用Dirichlet分布为文本的审计方法多项分布、审计方法的主题多项分布和词语的多项分布分配参数πd、θs和
Figure BDA0002895351600000081
步骤5:创建相关统计量NDE为二维文本-审计方法统计矩阵,每行代表一篇文本每列代表一个审计标签编号,NET为二维的审计方法-主题统计矩阵,每行代表审计标签编号每列代表主题编号,NETW为三维的审计方法-主题-词语统计矩阵,每行代表审计标签编号每列代表主题编号每层代表在词袋word_bag对应的位置;
步骤6:为z中每个词语生成主题编号zij∽Mult(π)和审计方法编号δij∽Mult(γ);
为z生成审计方法编号和主题编号的具体步骤为:
步骤6.1:利用图中心性度量方法计算审计方法中中心性最高的前95%的词作为候选词表candidate,将在z中且属于candidate中的词定义为审计词语:;
步骤6.2:为z中每个词语对应位置赋予审计主题编号,审计主题编号只有0和1,分别代表不属于审计词语和属于审计词语,属于审计词语的编号保存为1,不属于的编号随机保存0和1中的一个值;
步骤6.3:为z中每个词语对应位置随机赋予主题编号;
步骤7:按照步骤6中z中保存的审计方法编号和主题编号初始化NDE、NET和NETW;
初始化的具体步骤为:
步骤7.1:遍历z,计算当前词语在词袋中的位置并得到当前词语位置存储的审计方法编号和主题编号;
步骤7.2:通过步骤7.1得到的三个数据,使NDE,NET,NETW矩阵对应位置的元素值加1;
步骤8:利用Gibbs抽样方法对可观测变量即z中的元素进行抽样并更新其主题和审计方法编号;
Gibbs抽样的具体步骤为:
步骤8.1:遍历z,得到当前词语所属文本编号m、审计编号e、主题编号k和在词袋中的位置v,同时使NDE、NET、NETW对应位置的元素值减1;
步骤8.2:利用步骤8.1得到的三个矩阵按照满条件概率公式(1)进行抽样,公式左边p(zi=k,li=e|w,z-i,l-i,α,β,γ)代表通过对可观测变量进行抽样的条件下第i个词语分配到第k个主题标签和第e个审计标签的概率分布值,zi=k代表第i个词语分配到第k个主题标签,li代表第i个词分配到第e个审计标签,公式右边表示具体抽样过程,利用步骤8.1得到的当前单词所属的文本m、审计标签e、主题编号k和词袋中的位置v,首先对NDE矩阵m行所有元素值求和再求倒数并乘以m行e列的值,然后对NET矩阵k行求和再求倒数并乘以e行k列的值,最后对NETW三维矩阵中e和k所在的一个V维向量求和再求倒数并乘以e层k列v行的值,V代表词袋长度。三个式子得到的值相乘得到词语i分配到主题标签k和审计标签e的概率值,公式(1)要计算E*K次得到词语i分配到所有主题标签和审计标签的一个联合分布律,E代表审计标签总数,K代表主题标签总数,这个联合分布律是一个E*K的二维矩阵,可以通过该矩阵得到i分配到各主题标签和审计标签的边缘分布律向量,然后用轮盘法随机抽取分配到i新的主题标签和审计标签并重新分配给在z中当前词语对应的值;
Figure BDA0002895351600000091
步骤8.3:使NDE、NET、NETW对应位置加一,重复这样的操作直到遍历完z中所有元素代表迭代完一次,直到z中的值不再变化则结束迭代;
步骤9:通过NDE、NET和NETW计算得到文本-审计方法、审计方法-主题和审计方法-主题-词语的多项分布参数矩阵;
计算文本-审计方法、审计方法-主题和审计方法-主题-词语参数的具体步骤为:
步骤9.1:按照公式(2)计算文本-审计方法后验参数矩阵,分子是NDE第m行第e列的值,分母是第m行所有值求和的值,得到第m篇文本在第e个审计标签上的概率值,一共求M*E次得到一个M*E的二维概率分布矩阵,M代表文本数量,代表文本和审计标签的联合分布律:
Figure BDA0002895351600000092
步骤6.2:按照公式(3)计算审计方法-主题参数矩阵,分子是NET第e行第k列元素值,分母是第k行所有值求和的值,得到第e个审计标签在第k个主题标签上的概率值,共计算E*K次得到一个E*K的二维概率分布矩阵,代表审计标签和主题标签的联合分布律:
Figure BDA0002895351600000101
步骤6.3:按照公式(4)计算审计方法-主题-词语参数矩阵,分子是NETW中第e层第k列第v行的值,分母是NETWekv所在的V维向量求和的值,得第v个词语在第e个审计标签和第k个主题标签上的一个概率值,这个公式一个计算E*K*V次,得到一个E*K*V的三维矩阵,每个v所在的E*K平面代表这个词语在所有审计标签和主题标签上的联合分布律:
Figure BDA0002895351600000102
步骤10:首先对通过步骤9得到的文本-审计方法参数分布矩阵和审计方法-主题参数矩阵进行相关矩阵运算得到文本-主题概率分布矩阵和主题-词语概率分布矩阵,通过这两个矩阵并结合word_list、word_bag两个链表可以得到每篇文本的主题。
步骤10.1:首先对通过步骤9得到的文本-审计方法参数分布矩阵和审计方法-主题参数矩阵进行相关矩阵运算得到文本-主题概率分布矩阵和主题-词语概率分布矩阵,对每个文本的主题按概率值降序排序,取概率值最高的主题与主题-词语概率分布矩阵中该主题所在行相乘并进行降序排序,得到一个词语的概率值向量。
步骤10.2:对词语的概率值向量降序排序并找到在词袋word_bag中的索引,通过索引获得这个词语,然后与词链表word_list该文本所在的子链表中的词语进行比对,成功则输出,直到输出10个词语为止,这样就能得到每篇文本概率最高的的主题,每个主题包含10个词语。图2展示了部分结果的截图。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种领域文本主题抽取方法,其特征在于,包括以下步骤:
步骤1:获取待抽取的文本集,对文本集中的文本顺序编号;根据文本集所属的领域,利用图中心性度量方法计算审计方法中各审计词语的中心性,选取中心性最高的前u%审计词语构建候选词表candidate;
步骤2:对待抽取的文本集进行分词处理,将已经分好词的文本集转化为文本非去重的词链表word_list和词袋word_bag;
所述的文本非去重的词链表word_list中每一个子链表代表文本集中的一篇文本,链表中的元素为词语;所述的词袋word_bag由文本非去重的词链表word_list去重后得到,词袋word_bag的长度为V;
步骤3:创建链表l和链表z;
步骤3.1:从文本非去重的词链表word_list中选择一个词语,判断当前词语是否属于候选词表candidate;若当前词语属于候选词表candidate,则当前词语的审计主题编号保存为1;若当前词语不属于候选词表candidate,则当前词语的审计主题编号随机保存为0或1;
步骤3.2:对当前词语随机赋予主题编号k,k∈{1,2,...,K};
步骤3.3:将当前词语在文本非去重的词链表word_list中的位置信息赋予链表l中对应位置的元素,将当前词语的主题编号和审计主题编号赋予赋予链表z中对应位置的元素;
步骤3.4:重复执行步骤3.1至步骤3.3,直到完成链表l和链表z中所有元素的赋值;
步骤4:根据链表z创建文本-审计主题编号统计矩阵NDE、审计主题编号-主题编号统计矩阵NET和审计主题编号-主题编号--词语统计矩阵NETW;
所述的文本-审计主题编号统计矩阵NDE为二维矩阵,矩阵元素NDEme表示在编号为m的文本中,审计主题编号为e-1的词语数量;e∈{1,2};
所述的审计主题编号-主题编号统计矩阵NET为二维矩阵,矩阵元素NETek表示审计主题编号为e-1且主题编号为k的词语数量;
所述的审计主题编号-主题编号--词语统计矩阵NETW为三维矩阵,矩阵元素NETWekv表示审计主题编号为e-1、主题编号为k且在词袋word_bag中位置为v的词语数量;v∈{1,2,...,V};
步骤5:利用Gibbs抽样方法对可观测变量即链表z中的元素进行抽样并更新其主题编号和审计主题编号;
步骤5.1:从链表z中抽取一个词语i,获取当前词语所属文本编号mi、审计主题编号ei-1、主题编号ki和在词袋word_bag中的位置vi;根据抽取后的链表z,使矩阵NDE、NET、NETW中对应元素值减1;
步骤5.2:计算当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.2.1:计算可观测变量进行抽样的条件下词语i分配到主题编号kj、审计主题编号ej-1的概率分布值;
Figure FDA0002895351590000021
其中,αkve为设定的超参数;
步骤5.2.2:重复执行步骤5.2.1,得到词语i分配到各主题编号和审计主题编号的联合分布律,共执行2K次,得到的联合分布律为二维矩阵,根据二维矩阵得到当前词语i分配到各主题编号和审计主题编号的边缘分布律向量;
步骤5.3:根据当前词语i分配到各主题编号和审计主题编号的边缘分布律向量,采用轮盘法随机抽取,重新分配给当前词语i新的主题编号和审计主题编号;
步骤5.4:将当前词语i放回链表z;根据放回后的链表z,使矩阵NDE、NET、NETW中对应元素值加1;
步骤5.5:重复执行步骤5.1至步骤5.4,直到链表z不再变化;
步骤6:计算文本-审计主题编号的参数分布矩阵π、审计主题编号-主题编号的参数分布矩阵θ和审计主题编号-主题编号--词语的参数分布矩阵φ;
所述的文本-审计主题编号的参数分布矩阵π为二维矩阵,矩阵元素πme为:
Figure FDA0002895351590000022
所述的审计主题编号-主题编号的参数分布矩阵θ为二维矩阵,矩阵元素θek为:
Figure FDA0002895351590000023
所述的审计主题编号-主题编号--词语的参数分布矩阵φ为三维矩阵,矩阵元素φekv为:
Figure FDA0002895351590000031
步骤7:获取文本集中每篇文本的主题;
步骤7.1:将文本-审计主题编号的参数分布矩阵π与审计主题编号-主题编号的参数分布矩阵θ进行矩阵点乘,得到文本-主题编号概率分布矩阵;根据审计主题编号-主题编号--词语的参数分布矩阵φ,获取主题编号-词语概率分布矩阵;
步骤7.2:根据文本-主题编号概率分布矩阵对每个文本的主题编号按概率值降序排序;对每篇文本,取概率值最高的主题编号所在列与该主题编号在主题编号-词语概率分布矩阵中所在行相乘,得到每篇文本的词语概率值向量;
步骤7.3:对每篇文本的词语概率值向量中的元素降序排序,取概率值最高的元素,根据该元素记载的词袋word_bag中的位置信息获取对应的词语,若该词语在文本非去重的词链表集合word_list中该文本所在的子链表中,则输出当前词语作为该文本的主题词语;
步骤7.4:重复执行步骤7.1至步骤7.3,直至输出文本集中每篇文本指定数量的主题词语。
CN202110039892.6A 2021-01-13 2021-01-13 一种领域文本主题抽取方法 Active CN112836507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110039892.6A CN112836507B (zh) 2021-01-13 2021-01-13 一种领域文本主题抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110039892.6A CN112836507B (zh) 2021-01-13 2021-01-13 一种领域文本主题抽取方法

Publications (2)

Publication Number Publication Date
CN112836507A true CN112836507A (zh) 2021-05-25
CN112836507B CN112836507B (zh) 2022-12-09

Family

ID=75927944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110039892.6A Active CN112836507B (zh) 2021-01-13 2021-01-13 一种领域文本主题抽取方法

Country Status (1)

Country Link
CN (1) CN112836507B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626340A (zh) * 2022-03-17 2022-06-14 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US20130159236A1 (en) * 2011-12-16 2013-06-20 Huawei Technologies Co., Ltd. Data processing method and system, and relevant apparartus
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105869058A (zh) * 2016-04-21 2016-08-17 北京工业大学 一种多层潜变量模型用户画像提取的方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN110705304A (zh) * 2019-08-09 2020-01-17 华南师范大学 一种属性词提取方法
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN112069807A (zh) * 2020-11-11 2020-12-11 平安科技(深圳)有限公司 文本数据的主题提取方法、装置、计算机设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
US20130159236A1 (en) * 2011-12-16 2013-06-20 Huawei Technologies Co., Ltd. Data processing method and system, and relevant apparartus
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105869058A (zh) * 2016-04-21 2016-08-17 北京工业大学 一种多层潜变量模型用户画像提取的方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN108763213A (zh) * 2018-05-25 2018-11-06 西南电子技术研究所(中国电子科技集团公司第十研究所) 主题特征文本关键词提取方法
CN108829799A (zh) * 2018-06-05 2018-11-16 中国人民公安大学 基于改进lda主题模型的文本相似度计算方法及系统
CN109063030A (zh) * 2018-07-16 2018-12-21 南京信息工程大学 一种基于流式lda主题模型发现文档隐含主题和主题词的方法
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN110705304A (zh) * 2019-08-09 2020-01-17 华南师范大学 一种属性词提取方法
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111581962A (zh) * 2020-05-14 2020-08-25 福州大学 一种基于主题词向量与混合神经网络的文本表示方法
CN112069807A (zh) * 2020-11-11 2020-12-11 平安科技(深圳)有限公司 文本数据的主题提取方法、装置、计算机设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
QIHUA LIU: "A Novel Chinese Text Topic Extraction Method Based on LDA", 《2015 4TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY》 *
刘自强 等: "基于Chunk-LDAvis的核心技术主题识别方法研究", 《图书情报工作》 *
张涛 等: "一种基于LDA主题模型的政策文本聚类方法研究", 《数据分析与知识发现》 *
蔡永明 等: "共词网络LDA模型的中文短文本主题分析", 《情报学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114626340A (zh) * 2022-03-17 2022-06-14 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置
CN114626340B (zh) * 2022-03-17 2023-02-03 智慧足迹数据科技有限公司 基于手机信令的行为特征提取方法及相关装置

Also Published As

Publication number Publication date
CN112836507B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN112214610B (zh) 一种基于跨度和知识增强的实体关系联合抽取方法
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN111860981B (zh) 一种基于lstm深度学习的企业国民行业类别预测方法及系统
CN112199938B (zh) 一种科技项目相似分析方法、计算机设备、存储介质
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN112800229A (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN116703328B (zh) 一种项目评审方法及系统
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
CN115713085A (zh) 文献主题内容分析方法及装置
CN112836507B (zh) 一种领域文本主题抽取方法
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
Dhamecha et al. Balancing human efforts and performance of student response analyzer in dialog-based tutors
Abdullahi et al. Deep sequence models for text classification tasks
CN107368610A (zh) 基于全文的大文本 crf 和规则分类方法和系统
Malik et al. A novel hybrid clustering approach based on black hole algorithm for document clustering
CN114756617A (zh) 一种工程档案结构化数据提取方法、系统、设备和存介质
CN108763361A (zh) 一种基于主题模型的多标签分类框架方法
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product
Trinh et al. Automatic process resume in talent pool by applying natural language processing
CN109977227B (zh) 基于特征编码的文本特征提取方法、系统、装置
CN113297376A (zh) 基于元学习的法律案件风险点识别方法及系统
Lo et al. Revisit Girvan-Newman Algorithm for Research Topic Analysis: An Application on Library and Information Science Studies.
CN111353291A (zh) 一种基于投诉工单训练文本计算最佳标注集的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant