CN108241610A - 一种文本流的在线主题检测方法和系统 - Google Patents

一种文本流的在线主题检测方法和系统 Download PDF

Info

Publication number
CN108241610A
CN108241610A CN201611219388.XA CN201611219388A CN108241610A CN 108241610 A CN108241610 A CN 108241610A CN 201611219388 A CN201611219388 A CN 201611219388A CN 108241610 A CN108241610 A CN 108241610A
Authority
CN
China
Prior art keywords
tensor
theme
topic
lda
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201611219388.XA
Other languages
English (en)
Inventor
向阳
涂笑
陈千
姚莉萍
吕冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHENJI INFORMATION SYSTEM CO Ltd
Original Assignee
SHANGHAI SHENJI INFORMATION SYSTEM CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHENJI INFORMATION SYSTEM CO Ltd filed Critical SHANGHAI SHENJI INFORMATION SYSTEM CO Ltd
Priority to CN201611219388.XA priority Critical patent/CN108241610A/zh
Publication of CN108241610A publication Critical patent/CN108241610A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本流的在线主题检测方法和系统,使用户能够快速地在繁杂的文本中找到自己感兴趣的话题。其技术方案为:构造ODT‑LTF算法框架;采用LDA贝叶斯网络结构模型抽取主题;采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理;通过主题张量的增量构建方法来构建主题‑主题‑时间的三阶张量,将时间维度融合到主题张量中;对三阶主题张量进行分解;对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。

Description

一种文本流的在线主题检测方法和系统
技术领域
本发明涉及互联网技术领域文本流的处理方法,特别是一种文本流的在线主题检测方法。
背景技术
随着计算机技术和互联网技术的飞速发展,以博客、维基百科、推特为代表的web2.0应用程序大量普及,使得人们随时随地都能上传用户自定义的数据,人们创造数据的能力已经大大超过了获取信息的能力,各种数据呈现爆炸式增长。信息是人们了解、沟通、表达自己观点和客观事物以及对象的重要工具,其载体有文本、图形、图像、动画、音频、视频等,而所有的数据类型当中,文本是最通用的数据类型,知识传播和信息交流仍以文本形式作为主要的信息媒体,且其具有容量小、信息量大、简洁等特点,因此研究文本数据显得格外重要。人们在互联网上会被这样一种文本数据包围,它们一般是大量连续到达、潜在无限的、并随着时间不断变化的文本类型的数据流序列。这种带有时序的文本集如新闻、博客、电子邮件、科技文献等,均带有时间标签,而这些时序特征对理解和分析文本集非常关键。这种类型的数据在很多重要领域都是十分重要的信息资源,包括社会文化研究、政府智能、商业决策等。web2.0时代以及移动互联网时代的大量应用程序其显著特征是以终端用户为中心,这给互联网带来蓬勃生机的同时,也伴随着大量web垃圾的产生,面对庞大的网络信息海洋,人们发现要准确地找到所需信息并非易事,往往耗费大量的时间和精力。在这个信息爆炸的时代,在大规模的文本数据上手动完成主题检测、跟踪将耗费大量的人力,且劳动强度大而持久,人们非常想要这样一种能及时帮助人类自动提取主题,从而进行主题分类、主题分析等工具,以便用户能高效准确地处理文本流数据。
主题检测的主要任务是对主题进行识别,也即需要识别出与某个主题相关的新事件。传统的主题检测方法可以分为三大类,一类是基于向量空间模型的方法,第二类是基于概率主题模型方法,第三类是基于非参的分类方法,其中前两类方法是根据模型自动从语料库中抽取主题词,但仅限于离线环境下的主题识别,第三类是采用如朴素贝叶斯方法、基于BP神经网络方法、k近邻算法、决策树和支持向量机等非参模型,结合主题相似度的计算方法来进行主题的识别,因此主题相似度的计算显得尤为关键,常见的相似度测度有向量夹角余弦相似度、KL散度以及相关改进的相似度计算方法。传统的主题检测问题采用文本聚类算法来解决,但在文本流环境下进行主题检测,则需要执行在线任务,因此要求算法是增量的。通常主题检测可以看成是聚类问题,因此文本流中的主题检测一般采用的是增量聚类方法。早期的在线主题检测研究主要集中在聚类方法的选择和融合上,包括单边聚类算法、凝聚层次聚类算法等,其效果不够明显,时间和空间复杂度较高,且在语义上的解释力度不够。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种文本流的在线主题检测方法和系统,使用户能够快速地在繁杂的文本中找到自己感兴趣的话题。
本发明的技术方案为:本发明揭示了一种文本流的在线主题检测方法,包括:
步骤1:构造ODT-LTF算法框架;
步骤2:采用LDA贝叶斯网络结构模型抽取主题;
步骤3:采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理;
步骤4:通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中;
步骤5:对三阶主题张量进行分解;
步骤6:对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
根据本发明的文本流的在线主题检测方法的一实施例,步骤1进一步包括:
设定全局变量数组;
读取当前时刻进来的预料,并初始化参数,所述参数包括文档个数、主题个数和概念个数。
根据本发明的文本流的在线主题检测方法的一实施例,步骤2进一步包括:
通过给定已经观察值对LDA贝叶斯网络结构模型中存在的两个关键隐藏参数进行参数推理,从而得到主题的内在概率分布和档案的主题分布。
根据本发明的文本流的在线主题检测方法的一实施例,步骤5进一步包括:
采用基于最小二乘法的CP张量分解方法对三阶张量进行分解。
本发明还揭示了一种文本流的在线主题检测系统,系统包括:
框架构造模块,构造ODT-LTF算法框架;
主题抽取模块,采用LDA贝叶斯网络结构模型抽取主题;
参数推理模块,采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理;
张量构建模块,通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中;
张量分解模块,对三阶主题张量进行分解;
聚类模块,对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
根据本发明的文本流的在线主题检测系统的一实施例,框架构造模块中,设定全局变量数组,读取当前时刻进来的预料,并初始化参数,所述参数包括文档个数、主题个数和概念个数。
根据本发明的文本流的在线主题检测系统的一实施例,主题抽取模块通过给定已经观察值对LDA贝叶斯网络结构模型中存在的两个关键隐藏参数进行参数推理,从而得到主题的内在概率分布和档案的主题分布。
根据本发明的文本流的在线主题检测系统的一实施例,张量分解模块采用基于最小二乘法的CP张量分解方法对三阶张量进行分解。
本发明对比现有技术有如下的有益效果:本发明通过采用改进的LDA主题模型和主题张量分解,提出了一种解决主题检测的方法,从而使用户能够快速地在文本的海洋中找到自己感兴趣的话题。
详细而言,本发明的优点在于:
1.由于本发明提出的算法是增量式的,每次更新过程只需要读取以前的历史快照和保存更新后的压缩数据,且实时的要求更高,它不同于回溯retrospective学习方式,因此在线主题检测需要更少的时间和更低的内存存储容量。
2.对于空间复杂度而言,当主题被检测到之后,本发明仅仅是采用压缩的主题来构建主题张量,因此主题的个数以及存储历史快照的数量将比普通算法要少,随着时间的推移,主题检测和存储所用内存空间和硬盘空间将比传统方法小很多。
3.本发明提出的方法是建立在领域本体的概念表的基础上,因此在语义概念匹配上具有一定的优势。
4.本发明提出的方法虽假设某个时间段内的文档是可交换的,但时间段之间的文档之间是不可交换的,因此具有时间先后顺序。
附图说明
图1示出了本发明的文本流的在线主题检测方法的一实施例的流程图。
图2示出了本发明的文本流的在线主题检测系统的一实施例的原理图。
图3示出了改进LDA模型贝叶斯网络图。
图4示出了从矩阵分解的角度看待SVD和LDA的示意图。
图5示出了三阶主题张量的示意图。
具体实施方式
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1示出了本发明的文本流的在线主题检测方法的一实施例的流程。请参见图1,下面对本实施例的在线主题检测方法的实施步骤的详细描述。
步骤S1:构造ODT-LTF算法框架。
整个OTD-LTF算法描述如下:一开始设定全局变量tensor数组,读取当前时刻进来的语料,并初始化所有参数,包括文档个数、主题个数和概念个数。结合了概率主题模型和线性代数张量分解的优点,采用增量构建主题张量的方式来检测主题,其中lda.gibbs()是第一步的核心,采用改进的LDA模型对主题进行抽取,consTensorIncrem()是第二步的核心,对抽取出来的主题进行增量构建主题张量,第三步的关键是threeWayFactorization(),三阶张量分解。最后算法打印所有的向量结果,这些结果方便构建主题本体树。结合以上三个步骤,我们将整个算法采用伪代码的形式描述,具体设计如算法1所示。
在该算法中,采用三维数组tensor[][][]来存储张量信息,另外readCorps(t)是该算法的一个静态方法,用于从当前语料中读取信息。lda是一个public公有类,该类具有getPhi()和getTheta()方法,其核心方法是gibbs(corpus,K,alpha,beta),用于计算模型的参数,从而学习到文档-主题矩阵Φ和主题-概念矩阵Θ。当某个时刻程序检测有文本到来时候,该算法将自动进行更新算法的执行,程序将每次到来的文档看成是张量中的一个切片,只需要增加切片,该算法每次迭代过程执行一次,每次的主题检测由三个步骤组成,其中第一步是基于改进的LDA主题抽取,第二步是在第一步的基础上增量构建三阶主题张量,第三步将采用张量分解的方法对三阶主题张量进行分解,从而检测增量主题,其中,张量分解将在线主题检测转化为优化问题。
由于对主题张量增加了时间维度,在对主题-主题-时间的三阶张量进行分解时,自然考虑了时间维度。另外,该算法还体现了主题检测的在线增量性,通过主题张量作为全局变量,用于存储历史文档的主题信息,从而不需要回溯读取文本流历史文档,真正实现了增量的算法.
步骤2:采用LDA贝叶斯网络结构模型抽取主题。
本发明中是基于概率统计学理论的文本主题模型LDA的主题抽取方法。
贝叶斯统计模型中涉及到的几个关键概念,它们是后续工作的基础,这些基本概念包括条件独立性、无限可交换性、共轭先验、贝叶斯网络,其中贝叶斯网络是一种用来系统描述概率模型的图形语言工具。它们是理解基于主题的文本建模方法(包括LDA)的内在工作机理。事实上,本发明采用的LDA方法就是基于贝叶斯统计的文本主题模型。
条件独立性是概率统计模型中比较关键的概念,也是文本主题模型中最基本的概念。若p(X,Y|Z)=p(X|Z)·p(Y|Z)成立,我们称给定随机变量Z,随机变量X和Y是条件独立的,用符号X⊥Y|Z表示,也即已知Z,关于X的任何信息(包括观察值和参数值)都不会对Y有影响,反之亦然。
贝叶斯网络(Bayesian Network,BNs)是概率图模型的一个特例,图模型还包括无向图(如马尔科夫随机场),它们在机器学习中扮演重要角色,BNs是采用有向图中的随机变量和其条件依赖来表述一个系统或现象的联合概率分布的图语言。在贝叶斯网络中,若只考虑最相关的依赖关系,参数的推理和计算则相当简单,若非如此,当随机变量的个数不断增加时,复杂度将呈指数级增长。BNs本质上是一个有向无环图,其中节点对应着随机变量,而边对应着条件概率分布,该分布中的条件变量,即边的起点,被称为父节点,而依赖变量处于边的终点,被称为子节点。BNs还区分了证据节点和隐藏节点,它们分别对应着被观察变量和潜在变量。另外,为了方便表达多个值或者混合成分,允许用plates包围随机变量从而表示节点的重复,plate的右下角通常用数字来表示复制的数量或直接声明索引变量的范围,由于BNs中不存在有向环,即不存在封闭环路,所以模型中的节点之间存在某种偏序关系。根据图的拓扑结构,BNs有效地表达了随机变量之间的依赖结构关系。
在BNs中,对任一节点的条件独立性,有两条一般规则,一个是Markov blanket:该节点的父节点和子节点,以及子节点的父节点所构成的子图,若给定某个节点Xi的Markovblanket B(Xi),则Xi和所有其他的节点是条件独立的,即另一个是节点的non-descendants集:对BNs所有节点排成序列,保证没有节点出现在该节点的任意父节点之前(该序列又称为拓扑排序topological ordering),则该节点之前所有的节点中不是父节点的节点被称为该节点的non-descendants,规则是给定节点Xi的父节点P(Xi),则Xi总是同它的non-descendantsN(Xi)是条件独立的,记为Xi~N(Xi)|P(Xi)。
为了确定BNs中任意两个节点的条件独立性,我们采用最直接的方法是贝叶斯球(Bayes Ball)。若给定Z,从X到Y没有路径可传播贝叶斯球,则我们称Z将这些节点d分割(d-separated)了。概括的说,子节点会阻断传播当且仅当它们是隐藏的,而父节点和过渡节点会阻断传播当且仅当它们是可观察的。
在贝叶斯统计中,比条件独立性更独立的关系是可交换性。任意有限序列xn被称为是可交换的,当且仅当其联合分布在任何排序下都是不变的。
无限可交换性(Infinite exchangeability)。若对于任意n,无限随机变量序列的联合概率分布对其任意的排列是不变的,即,对于任意排列向量(例如n=10,
需要注意的是,很多统计学分析问题的一个关键假设是,所研究的随机变量是独立同分布的。一个无限可交换随机序列不一定是独立同分布序列,但独立同分布序列一定是可交换序列。
De Finetti定理:一个随机变量序列(x1,x2,...,x1)是无限可交换的,当且仅当,对于任意n,在θ上的某个测度P,有
De Finetti定理表明,对于任意无限可交换的随机序列,存在一个随机变量θ,使得θ一直的条件下,该无限可交换随机序列为条件独立同分布的。定理在有限个随机变量时不为真。若θ上的分布具有概率密度,我们也可以将p(θ)dθ代替P(dθ)。很显然,由于定理等式右边的求积形式对重排顺序是不变的,因此对于任意n,任何能写成等式右边形式的序列一定是(无限)可交换的。
以下讨论本发明中改进的LDA模型。
将语料库中的文档看成是一系列主题的混合分布,同时主题看成是一系列单词的混合分布,基本上这些单词一般采用词汇表的形式组织在一起,每个单词均有唯一的索引标识。这里为了便于获得直观上的分析,模型中加入了潜在变量,即主题索引。在我们的改进LDA模型中,第m篇文档Dm用向量表示,其中wnm为该文档中第n个概念词,其取值范围为概念表中的所有单词的索引标识,即wnm∈{1,2,...,V};文档m一共有Nm个概念词,而概念表中共有V个单词;文档库用集合表示,该文档库一共有M篇文档。另外假设事先给定K个主题,第m篇文档的潜在K维主题混合向量为其中因此每个文档都是K个主题上的离散概率分布。第k个主题可以用V维向量表示,且有因此每个主题都是词汇表索引上的一个离散概率分布。另外,额外添加记号分别表示大小为M×K的文档-主题矩阵和大小为K×V的主题-概念矩阵,我们最终的目的就是要得出Θ和Φ,它们是模型的参数集合。此外我们Dirichlet分布用作参数的先验分布提出的改进LDA贝叶斯模型的生成算法如下算法2所示。
图1给出了改进的LDA模型贝叶斯网络图,带框的plate表示内部随机变量节点重复多次,其中α和β是模型的超参数,是模型的参数,wnm是可观察随机变量,用带阴影的圆圈表示,znm是隐藏变量,标识了单词wnm的主题类别。需要注意的是我们采用的Dirichlet分布的随机变量在K-1的单型上取值,它既是Beta分布的多维扩展,又是多项分布的共轭先验,而Beta分布是二项分布的共轭先验。如下将Beta分布和Dirichlet分布作对比,为了方便标识,这里引进Beta函数和Δ函数(delta function)。
图3示出了用于文本建模的三层贝叶斯概率生成模型,带阴影的随机变量是可观察到的单词变量,带框框的plate表示其内部随机变量节点重复多次。
其中向量的每个元素xkk∈[0,1],且∑kxk=1,Σkαk=1,因此Dirichlet分布是定义在单型上的分布,当向量的维度K=2时,Δ函数就退化为Beta分布,且Dirichlet分布退化为Beta分布。引进该先验分布是为了极大简化后验参数概率的计算。
以下是改进的LDA主题抽取模型的说明。
本发明提出基于改进LDA的参数推理方法,从而实现主题的抽取。为了获得某个事物的内在规律,通过观察事物表现出来观测数据来进行以上推理任务,我们通常会从目标对象随机独立同分布地抽取若干样本,在机器学习领域,样本也被看成是可观察的随机变量,它们是无限可交换的,因此根据Definetti定理,可观察数据序列可看成是关于某个随机变量的独立同分布序列,它们服从某个参数的随机概率分布。
参照图1,LDA是一个混合模型,混合模型用一系列成分分布的线性凸组合对观察值进行建模,各个成分的权重之和为1,且每个成分又被看成是一系列特征的线性凸组合。根据贝叶斯网络的D分割准则,可得到因此利用条件独立性准则,忽略模型中的参数,只带有超参数的联合概率分布为
一篇文档的完全数据似然即可以通过求图1的所有可观察变量、参数变量和隐藏变量的联合概率分布得到如下联合分布,
给定模型参数,对潜在变量z进行求和,则得到每个单词出现的概率为
则M篇文档的似然函数为
其中,
求得t时刻进来的文档语料的似然函数,我们采用极大似然估计方法,试图寻求最大化似然函数的参数组Φ和Θ,即使得随机变量能最大程度地产生数据集的联合事件概率。由于采用对数log似然函数能简化计算量,我们因此得到
对参数估计通过解如下一阶偏微分方程得到,
我们发现,由于Φ和Θ是矩阵,对于求解该方程,是非闭合的形式,因此无法求解参数组Φ和Θ,即使是采用了极大后验估计,为该模型添加了先验,精确求解也无法达到要求。我们尝试采用贝叶斯估计来解决,贝叶斯推理方法不同于极大后验估计的一点是并没有直接作估计,如下式
该方法没有计算限制到寻找极大似然值,但是有必要计算归一化常量,即证据的概率p(D),
由于证据是通过边缘化得出,因此它也常常称为边缘化似然函数。随着新数据被不断观察,后验概率会随之自动调整,最终用于统计。对于预测任务,贝叶斯方法在极大后验估计的基础上保证了等式的精确恒等,如下,
由于边缘似然难以计算,或者由于未知变量的存在,使得贝叶斯模型通常计算起来比较复杂,贝叶斯方法在先验置信上的假设很自由,因此常采用频率学策略中的共轭先验分布来简化模型的推理。若似然函数的先验使得计算出来的后验分布函数具有同先验相同的函数形式,仅仅参数不同,这样的先验分布被称之为共轭先验。由于共轭先验的采用,归一项(贝叶斯法则等式右边的分母)的积分变得很简单。除了简化计算,共轭先验通常使得超参数具有一定意义。一般来说,先验的超参数可以被解释为观察的伪次数(pseudo-count),在先验基础上产生的后验分布可以解释成是在伪次数基础上加上观察次数的先验。另外,先验似然函数的共轭对通常允许对似然参数以闭合的方式边缘化,从而能将观察变量的似然函数直接表达成超参数,也即得到的后验分布函数不需要参数的额外知识,只需要知道先验的观察即可用于预测未来的观察样本。
步骤3:采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理。
在详细讨论精确求解不能满足以上要求后,我们拟采用Gibbs抽样算法进行近似的后验参数估计和推理,它是一种特殊的马尔科夫链蒙特卡洛方法方法。MCMC方法的基本思路是,通过构建一个平稳分布为π(x)的马尔科夫链为基础,并通过遍历性约束实现对目标分布的随机模拟方法。Gibbs抽样是所有MCMC方法中最简单的一种算法。
将每一个点看成是K维空间中的一个K维向量则Gibbs抽样算法的基本思想是:下一个状态的随机概率不是一次性得到的,而是对每个状态下的K维中每一个维度进行单独概率抽取。该概率抽取依赖于其他K-1个维度的取值,其空间上的概率游走过程如算法3所示,在这个过程中,一旦得到新的变量值,该值就直接应用到下一个变量。而LDA的Gibbs算法中,关键是要推导出隐藏变量的满条件分布以及给定和超参数求参数Θ和Φ的分布,根据公式我们首先求分别对参数Θ和Φ进行积分,得到
其次,求和对参数Θ进行积分,得到
其中表示给定第k个主题中出现单词v的次数;同样,表示给定第m篇文档中出现主题k的次数。
隐藏变量z的满条件分布可以通过联合概率分布推导得到,
其中代表向量中所有元素的总和,是两个标量。最终我们采用上述公式来完成隐藏变量的抽样。
当文档库中所有的wmn和对应的zmn获得之后,给定该马尔科夫链和超参数参数Θ和Φ的分布为
我们对参数Θ和Φ的估计则视为分布的期望。根据Dirichlet分布的期望公式,得到如下结果
根据以上结果,基于改进LDA的Gibbs算法如算法4所示。在该算法中,参数K是主题的个数,V表示词汇表的大小,M表示文档的个数,该算法有三个主要的功能函数,其一是采用LDA的变分算法进行主题的抽取,其二是增量张量构建算法,最后是三阶张量分解。算法的核心思想是文档-主题矩阵通过LDA来产生,我们将该矩阵看成是一个二阶张量;然后提出一种利用增量张量构建算法来构造当前时刻的三阶张量,其中张量的第三阶为时间维度;最后通过基于PARAFAC的张量表达方法采用交替最小二乘法迭代方法来逼近张量的最终分解形式。
步骤4:通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中。
为了将时间维度考虑到模型和算法中去,在主题抽取方法的基础上,结合张量的多阶特性,研究主题张量的构造,将时间融合到主题张量的第三阶,从而提出主题张量的增量构建方法。
通过LDA变分贝叶斯推理算法或者Gibbs抽样算法,我们得到两个矩阵,K×V维的主题词汇分布矩阵Φ和M×K维的文档和主题分布矩阵Θ。从某种意义上,本发明认为基于变分贝叶斯推理或者Gibbs抽样算法的LDA模型是一种数据降维方法,由于K<<V<<Nm,将巨大的文档-词汇矩阵M×Nm转化为两个低维度的矩阵,因此从线性代数的角度看待,该LDA可被看成是一种特殊的矩阵分解方法,如图2,因此激发我们从矩阵分解的角度来分析主题的抽取问题。
图4从矩阵分解的角度看待SVD和LDA:左边SVD将一个m×n矩阵M分解为三个矩阵乘积,右边LDA将一个m×n矩阵M分解为m×k和k×n两个矩阵乘积,它们都属于近似分解。
利用向量空间的余弦测度将其中的文档和主题分布矩阵Θ转换为主题-主题邻接矩阵,因此邻接矩阵中的每一个元素的意义即为两个主题在同一篇文档出现的概率,也即任何两个主题之间的相关度,邻接矩阵Adj的每个元素计算公式为
其中adjij是主题邻接矩阵Adj第i×j个元素,将每个主题邻接矩阵作为三阶张量中的切片,因此我们采用该公式来增量构建三阶主题张量。如果说标量是零阶张量,则向量是一阶张量,矩阵是二阶张量,我们主要利用三阶张量,前两阶是主题-主题,第三阶是时间维。
图5示出了三阶主题张量:第一维和第二维构成主题邻接矩阵,第三维由时间片slice构成。
从图5中我们知道第三阶的索引维度中每一个点均可看成是一个时间段,在这个时间段中有若干个文档到达系统,我们将某个时间段的化简为主题-主题矩阵的文本流称之为主题张量中的时间片。
对文本流采用滑窗技术,在每个时间段新的一批文档进来时候,也即每次迭代的过程中,比如t-1时间段的主题张量为Γ(t-1)维度为K(t-1)*K(t-1)*(t-1)。设t时间段的主题个数为K,因此该时间段的主题张量可以表示为Γt,通过对每个正切面(Frontal Slice)进行扩展,增加一层t时间段的邻接矩阵。对于每一个正切面而言,只需要设置
其中,adjij是K×K矩阵Adj的第ij个元素。
主题张量根据以上公式增量地构建起来。当我们在每次迭代和执行算法的时候,都会首先得到一个主题张量,一个矩阵可以看成是两个向量的外积,同理,一个张量可以看成是N个向量的外积,是矩阵在高阶上的扩展,同时在计算机语言上也很好实现,一般用N维数组来表示。
结合张量的多阶特性,研究主题张量的构造,将时间维度融合到主题张量的第三维度,提出了主题张量的增量构建方法,因此适合文本流环境,它的存在使得OTD-LTD方法具备了增量性。
步骤5:对三阶主题张量进行分解。
主要研究如何进行三阶主题张量的分解,从而能将相似的主题放入同一个topicbin中,有效实现主题的空间聚类结构挖掘。标准的矩阵分解及其变体对特征的选择和高维数据降维对于二阶的矩阵表达方式是很实用的,但是在处理高阶数组的时候(比如三阶张量)就会产生一定的限制。
采用PARAFAC方法,其核心是交替最小二乘方法,虽然张量分解在计量心理学中首次出现,我们认为张量分解尤其是三阶张量更适合做时间流数据,因此将张量分解方法应用文本流的主题检测。
假设给定一个三阶主题张量ΓK×K×T,目标是将该张量CP分解为最能近似Γ.的R个成分。张量有两种表达方式,一个是Tucker形式另一个是CP(CANDECOMP和ParaFac的简称),CP形式有时候被称为CANDECOMP,我们选择CANDECOMP作为张量的表达形式,并把张量分解转换为如下的优化问题
其中||.||F表示张量的Frobenius范数。首先我们固定上述公式中的B和C,将它们看成是常量,从而求解A,然后轮换A、B、C角色,分别求解B和C。并反复重复上述过程,直到满足某个收敛准则。
当求解某个矩阵,而固定所有其他矩阵时,该问题就化简为一个线性的最小二乘问题。一般地,假设A和B矩阵是固定的常量矩阵,则如上的优化问题被重写为
其中⊙为两个矩阵的Khatri-Rao积,
为矩阵的伪逆。我们需要计算(C⊙B)矩阵的伪逆,算法5为基于张量分解的主题检测算法,该算法产生的结果为三个低秩向量。
步骤6:对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
最后我们将从算法5中得到一个R数组,其中A的大小为K×R,由于R<<K,至此,我们已经将K维压缩到了R维,同时完成了主题聚类和检测的工作。
此外,本发明还揭示了一种文本流的在线主题检测系统。请参见图2,系统包括:框架构造模块1、主题抽取模块2、参数推理模块3、张量构建模块4、张量分解模块4以及聚类模块。
其中框架构造模块1用于构造ODT-LTF算法框架,包括设定全局变量数组,读取当前时刻进来的预料,并初始化参数,参数包括文档个数、主题个数和概念个数。
主题抽取模块2采用LDA贝叶斯网络结构模型抽取主题,通过给定已经观察值对LDA贝叶斯网络结构模型中存在的两个关键隐藏参数进行参数推理,从而得到主题的内在概率分布和档案的主题分布。
参数推理模块3采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理。
张量构建模块4通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中。
张量分解模块5对三阶主题张量进行分解,在本发明中是采用基于最小二乘法的CP张量分解方法对三阶张量进行分解。
聚类模块6对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
系统中各模块的具体处理方式,已经在前述方法实施例的对各步骤的详细描述中进行阐述,在此不再赘述。
尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (8)

1.一种文本流的在线主题检测方法,其特征在于,包括:
步骤1:构造ODT-LTF算法框架;
步骤2:采用LDA贝叶斯网络结构模型抽取主题;
步骤3:采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理;
步骤4:通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中;
步骤5:对三阶主题张量进行分解;
步骤6:对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
2.根据权利要求1所述的文本流的在线主题检测方法,其特征在于,步骤1进一步包括:
设定全局变量数组;
读取当前时刻进来的预料,并初始化参数,所述参数包括文档个数、主题个数和概念个数。
3.根据权利要求1所述的文本流的在线主题检测方法,其特征在于,步骤2进一步包括:
通过给定已经观察值对LDA贝叶斯网络结构模型中存在的两个关键隐藏参数进行参数推理,从而得到主题的内在概率分布和档案的主题分布。
4.根据权利要求1所述的文本流的在线主题检测方法,其特征在于,步骤5进一步包括:
采用基于最小二乘法的CP张量分解方法对三阶张量进行分解。
5.一种文本流的在线主题检测系统,其特征在于,系统包括:
框架构造模块,构造ODT-LTF算法框架;
主题抽取模块,采用LDA贝叶斯网络结构模型抽取主题;
参数推理模块,采用Gibbs抽烟算法对LDA贝叶斯网络结构模型的隐含参数进行推理;
张量构建模块,通过主题张量的增量构建方法来构建主题-主题-时间的三阶张量,将时间维度融合到主题张量中;
张量分解模块,对三阶主题张量进行分解;
聚类模块,对相似主题进行聚类,得到主题和主题上层次结构以及主题在时间上的变化,完成在线主题检测。
6.根据权利要求5所述的文本流的在线主题检测系统,其特征在于,框架构造模块中,设定全局变量数组,读取当前时刻进来的预料,并初始化参数,所述参数包括文档个数、主题个数和概念个数。
7.根据权利要求5所述的文本流的在线主题检测系统,其特征在于,主题抽取模块通过给定已经观察值对LDA贝叶斯网络结构模型中存在的两个关键隐藏参数进行参数推理,从而得到主题的内在概率分布和档案的主题分布。
8.根据权利要求5所述的文本流的在线主题检测系统,其特征在于,张量分解模块采用基于最小二乘法的CP张量分解方法对三阶张量进行分解。
CN201611219388.XA 2016-12-26 2016-12-26 一种文本流的在线主题检测方法和系统 Withdrawn CN108241610A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611219388.XA CN108241610A (zh) 2016-12-26 2016-12-26 一种文本流的在线主题检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611219388.XA CN108241610A (zh) 2016-12-26 2016-12-26 一种文本流的在线主题检测方法和系统

Publications (1)

Publication Number Publication Date
CN108241610A true CN108241610A (zh) 2018-07-03

Family

ID=62701812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611219388.XA Withdrawn CN108241610A (zh) 2016-12-26 2016-12-26 一种文本流的在线主题检测方法和系统

Country Status (1)

Country Link
CN (1) CN108241610A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110309291A (zh) * 2019-07-09 2019-10-08 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法
CN112836507A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种领域文本主题抽取方法
CN112925904A (zh) * 2021-01-27 2021-06-08 天津大学 一种基于Tucker分解的轻量级文本分类方法
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113626685A (zh) * 2021-07-08 2021-11-09 中国科学院信息工程研究所 一种面向传播不确定性的谣言检测方法及装置
CN113935471A (zh) * 2021-11-01 2022-01-14 湖南工商大学 基于变分lstm的高维特征提取方法、系统、设备及介质
CN114969312A (zh) * 2022-05-30 2022-08-30 特赞(上海)信息科技有限公司 基于变分自编码器的营销案例主题提取方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
CN103793478A (zh) * 2014-01-14 2014-05-14 四川大学 基于主题遗传的在线主题建模方法
US20140180974A1 (en) * 2012-12-21 2014-06-26 Fair Isaac Corporation Transaction Risk Detection
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
US20140180974A1 (en) * 2012-12-21 2014-06-26 Fair Isaac Corporation Transaction Risk Detection
CN103970727A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 基于话题的反作弊方法、装置和服务器
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN103793478A (zh) * 2014-01-14 2014-05-14 四川大学 基于主题遗传的在线主题建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIN GUO ET AL: "LDA-based online topic detection using tensor factorization", 《JOURNAL OF INFORMATION SCIENCE》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110209758B (zh) * 2019-04-18 2021-09-03 同济大学 一种基于张量分解的文本增量降维方法
CN110309291B (zh) * 2019-07-09 2021-04-13 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN110309291A (zh) * 2019-07-09 2019-10-08 国网山东省电力公司 一种面向时序文献数据分析的方法及装置
CN110659420A (zh) * 2019-09-25 2020-01-07 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN110659420B (zh) * 2019-09-25 2022-05-20 广州西思数字科技有限公司 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
CN111597328A (zh) * 2020-05-27 2020-08-28 青岛大学 一种新事件主题提取方法
CN113342970A (zh) * 2020-11-24 2021-09-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN113342970B (zh) * 2020-11-24 2023-01-03 中电万维信息技术有限责任公司 一种多标签复杂文本分类方法
CN112836507B (zh) * 2021-01-13 2022-12-09 哈尔滨工程大学 一种领域文本主题抽取方法
CN112836507A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种领域文本主题抽取方法
CN112925904A (zh) * 2021-01-27 2021-06-08 天津大学 一种基于Tucker分解的轻量级文本分类方法
CN113626685A (zh) * 2021-07-08 2021-11-09 中国科学院信息工程研究所 一种面向传播不确定性的谣言检测方法及装置
CN113626685B (zh) * 2021-07-08 2024-05-03 中国科学院信息工程研究所 一种面向传播不确定性的谣言检测方法及装置
CN113935471A (zh) * 2021-11-01 2022-01-14 湖南工商大学 基于变分lstm的高维特征提取方法、系统、设备及介质
CN114969312A (zh) * 2022-05-30 2022-08-30 特赞(上海)信息科技有限公司 基于变分自编码器的营销案例主题提取方法及系统

Similar Documents

Publication Publication Date Title
CN108241610A (zh) 一种文本流的在线主题检测方法和系统
Divakaran et al. Temporal link prediction: A survey
Mossel et al. Reconstruction and estimation in the planted partition model
Hou et al. Network embedding: Taxonomies, frameworks and applications
Al Mashrgy et al. Robust simultaneous positive data clustering and unsupervised feature selection using generalized inverted dirichlet mixture models
Kaji et al. An adversarial approach to structural estimation
Song et al. Kernel embeddings of latent tree graphical models
Wu et al. Generalized linear models with low rank effects for network data
Gong Deep dynamic Poisson factorization model
Cotta et al. Unsupervised joint k-node graph representations with compositional energy-based models
Jacobs et al. Hypersindy: Deep generative modeling of nonlinear stochastic governing equations
Hajiveiseh et al. Deep asymmetric nonnegative matrix factorization for graph clustering
Zhang et al. Relational intelligence recognition in online social networks—A survey
Gao et al. Space complexity of estimation of distribution algorithms
Mathar et al. Fundamentals of Data Analytics
Alrahhal et al. Data mining, big data, and artificial intelligence: An overview, challenges, and research questions
Shi et al. Advances in Graph Neural Networks
Safayani et al. An EM based probabilistic two-dimensional CCA with application to face recognition
Yang et al. Autoregressive graph Volterra models and applications
Frisch et al. Learning from missing data with the binary latent block model
Zhou et al. Probabilistic Graphical Models
Saint-Jean et al. Online k-mle for mixture modeling with exponential families
Xiong et al. Anomaly detection for astronomical data
Shi et al. Community inference with Bayesian non-negative matrix factorization
Zhang Fundamental research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180703

WW01 Invention patent application withdrawn after publication