CN106372147A - 基于文本网络的异构主题网络构建和可视化方法 - Google Patents

基于文本网络的异构主题网络构建和可视化方法 Download PDF

Info

Publication number
CN106372147A
CN106372147A CN201610757401.0A CN201610757401A CN106372147A CN 106372147 A CN106372147 A CN 106372147A CN 201610757401 A CN201610757401 A CN 201610757401A CN 106372147 A CN106372147 A CN 106372147A
Authority
CN
China
Prior art keywords
theme
article
word
represent
prime
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610757401.0A
Other languages
English (en)
Other versions
CN106372147B (zh
Inventor
何俊贤
黄颖
沈嘉明
刘长风
贾雨葶
肖浩
唐炜杰
孔令坤
胡天桓
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610757401.0A priority Critical patent/CN106372147B/zh
Publication of CN106372147A publication Critical patent/CN106372147A/zh
Application granted granted Critical
Publication of CN106372147B publication Critical patent/CN106372147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于文本网络的异构主题网络构建和可视化方法,包括:步骤1:基于原始数据集构建文本网络;步骤2:针对文本网路,构建基于主题模型的生成模型;步骤3:利用变分期望最大化算法构建生成模型的推断过程;步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系;步骤5:利用可视化工具展示异构主题网络。本发明构建了全新的异构主题网络,从而使得用户可以快速地建立对文本网络的认识。

Description

基于文本网络的异构主题网络构建和可视化方法
技术领域
本发明涉及文本网络探索式搜索领域,具体地,涉及一种基于文本网络的异构主题网络构建和可视化方法。
背景技术
大数据时代的到来,意味着全球数据量呈现爆炸式增长,全球已进入数据泽它时代。根据互联网数据中心的统计,2010年全球数据量达到1.2泽它字节,2011年全球数据量达到1.8泽它字节,上涨50%,预测到2020年全球数据量将达到35泽它字节。文本格式信息仍然是最主要的数据内容,通过文本格式信息间的关联性,形成了海量的文本网络。典型的文本网络包含但不仅限于:超链接的网页、在线社交网络、学术论文网络。
随着文本网络数量和规模的不断扩大,了解文本网络的内容覆盖范围和内容之间的关系成为了迫切的需求。然而,文本网络因其庞大的信息量和复杂的网络关系,使得现有的关键词式搜索引擎难以满足搜索需求。现有的关键词式搜索引擎要求用户在进行搜索之前已经具有对文本网络的认识并且能够确定搜索关键词,这使得对于陌生文本网络的搜索变得十分困难。所以,帮助用户迅速、高效、准确地建立对一个陌生的、浩如烟海的文本网络的认识成为了一项非常重要而且具有挑战性的工作。
为了满足对于文本网络的认识需求,探索式搜索的概念被提出。到目前为止,国内外关注探索式搜索的主要研究方向包括:利用词频表、词频分布图和文本关键词模型,来增强计算机辅助阅读;利用挖掘共现行为的主题模型(如LDA算法)来检测语义主题,构建主题网络。
目前,基于主题模型构建主题网络的方法主要包括:考虑文本网络中的文本信息,对词的生成过程进行主题建模,提取出词主题;考虑文本网络中的网络结构信息,对链接的生成过程进行主题建模,提取出文章主题;考虑单个文本和主题之间的关系,构建单个文本和主题之间的网络。
但是这些研究成果或者只关注文本信息、词主题间的关系,或者只关注网络结构信息、文章主题之间的关系。现有的方法没有统一词主题和文章主题,不能建立词主题和文章主题之间的联系。因此最终在探索式搜索方面的使用价值都十分有限。一个可视化的连接了词主题和文章主题的异构主题网络更能够满足用户的需求,用户可以同时关注文本层面的信息和文章层面的信息。同时可视化的结果更易于理解,可以提高用户的搜索效率。基于以上问题,本发明提出了MHT模型,构建了全新的异构主题网络。异构主题网络中包含两种主题,即词主题和文章主题,以及三种主题间关系,即词主题与词主题之间的关系,文章主题与文章主题之间的关系和词主题与文章主题之间的关系。可视化后的异构主题网络——主题地图系统能够帮助用户快速、准确地了解文本网络。本发明填补了现有探索式搜索方法在统一词主题和文章主题方面的空白,在探索式搜索领域具有很好的应用前景。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于文本网络的异构主题网络构建和可视化方法。
根据本发明提供的基于文本网络的异构主题网络构建和可视化方法,包括如下步骤:
步骤1:基于原始数据集构建文本网络;
步骤2:针对文本网路,构建基于主题模型的生成模型;
步骤3:用变分期望最大化算法构建生成模型的推断过程;
步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤5:利用可视化工具展示异构主题网络。
优选地,所述步骤1包括:
步骤1.1:将顶点集V设为空集,将边集E设为空集;
步骤1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤1.3:顶点集V中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果;
步骤1.4:将原始数据集中文章间的链接关系加入边集E中;
步骤1.5:V、E的集合构成图G,所述图G即为文本网络。
优选地,所述步骤2包括:
步骤2.1:对文本网络中的每篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤2.2:对各篇文章中的每个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数生成词wm,n;其中,β表示词主题到词的分布矩阵,表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤2.3:对各篇文章中的每个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,表示矩阵η对应转词主题tm,n的行向量,z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接。
优选地,所述步骤3包括:
步骤3.1:对生成模型的概率进行分解,对于文章vm,对联合概率p(wm,ym|α,η,β,Ω)取对数后分解如下:
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);
具体地:
KL m ( q | | p ) = - ∫ θ m Σ z m Σ t m Σ z m ′ q ( θ m , z m , t m , z m ′ ) × ln { p ( θ m , z m , t m , z m ′ | w m , y m , α , η , β , Ω ) q ( θ m , z m , t m , z m ′ ) } ;
其中是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;q(θm,zm,tm,z′m)表示对后验概率p(θm,zm,tm,z′m|wm,ym)进行估计的变分概率,zm表示文章vm中词对应的词主题向量,tm表示文章vm中链接对应的转移词主题向量,z′m表示文章vm中链接对应的文章主题向量,p(wm,ymm,zm,tm,z′m|α,η,β,Ω)表示生成文章vm的联合概率,p(θm,zm,tm,z′m|wm,ym,α,η,β,Ω)表示文章vm的词主题分布、词对应的主题、链接对应的主题的后验概率分布,α是狄利克雷超参数,η表示词主题到文章主题的分布矩阵,β表示词主题到词的分布矩阵,Ω表示文章主题到文章的分布矩阵;
步骤3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
q ( θ m , z m , t m , z m ′ ) = q ( θ m , z m , t m , z m ′ | γ m , φ m , λ m , σ m ) = q ( θ m | γ m ) Π n = 1 N m q ( z m n | φ m n ) × Π l = 1 L m q ( t m l | λ m l ) Π l = 1 L m q ( z m l ′ | σ m l )
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;γm表示θm服从的狄利克雷分布的参数,φm表示zm服从的多项式分布的参数矩阵,λm表示tm服从的多项式分布的参数矩阵,σm表示z′m服从的多项式分布的参数矩阵,q(θmm)表示生成词主题分布θm的概率估计,q(zmnmn)表示生成词主题zmn的概率估计,q(tmlml)表示生成转移词主题tml的概率估计,q(z′mlml)表示生成文章主题z′ml的概率估计,zmn表示文章vm中第n个词对应的词主题,φmn表示zmn服从的多项式分布的参数,tml表示文章vm中第l个链接对应的转移词主题,λml表示tml服从的多项式分布的参数,z′ml表示文章vm中第l个链接对应的文章主题,σml表示z′ml服从的多项式分布的参数,Nm表示文章vm中词的个数,Lm表示文章vm中链接的个数;
步骤3.3:对于整个文本网络,总概率p(w,y|α,η,β,Ω)如下:
ln p ( w , y | α , η , β , Ω ) = Σ m = 1 D ln p ( w m , y m | α , η , β , Ω )
其中,D表示文本网络中文章的个数,p(wm,ym|α,η,β,Ω)表示文本网络的生成概率;
步骤3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新后的公式如下:
φ m n k ∝ β kw m n exp ( Ψ ( γ m k ) )
γ m k = α k + Σ n = 1 N m φ m n k + Σ l = 1 L m λ m l k
λ m l k ∝ exp ( Ψ ( γ m k ) + Σ k ′ = 1 K y σ mlk ′ logη kk ′ )
σ mlk ′ ∝ Ω k ′ y m l exp ( Σ k = 1 K w λ m l k logη kk ′ )
其中,φmnk表示变分参数φmn中第k个变量,表示第k个主题对应文章vm中第n个词wmn的分量,Ψ(·)是双伽马函数,γmk表示变分参数γm中第k个分量,αk表示超参数α中第k个分量,λmlk表示表示变分参数λml中第k个分量,σmlk′表示表示变分参数σml中第k′个分量,Ky表示文章主题个数,Kw表示词主题个数,ηkk′表示词主题到文章主题的分布矩阵η中对应从第k个词主题到第k′个文章主题的分量,表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到文章yml的分量,yml是文章vm中第l个链接链接的文章;
步骤3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化更新公式如下:
β k x ∝ Σ i = 1 D Σ n = 1 N m w m n x φ m n k
η kk ′ ∝ Σ m = 1 D Σ l = 1 L m σ mlk ′ λ m l k
Ω k ′ d ∝ Σ m = 1 D Σ l = 1 L m y m l d σ mlk ′
其中,表示文章vm中第n个词对应词主题向量的第x个分量,当且仅当wmn=x,其他情况时为0;表示文章vm中第l个链接对应文章主题向量的第d个分量,当且仅当yml=d,其他情况时为0;βkx表示词主题到词的分布矩阵β中对应第k个主题到第x个词的分量,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量。
优选地,所述步骤4包括:
步骤4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;假设词主题的生成是相互独立的,因此词主题间的关系强度p(z=k1,z=k2|D)能够按如下表达式计算:
p ( z = k 1 , z = k 2 | D ) = Σ z ′ Σ i p ( z ′ | D ) p ( v i | z ′ ; D ) p ( z = k 1 | v i ; D ) p ( z = k 2 | v i ; D )
式中:k1表示第k1个词主题,k2表示第k2个词主题,z表示词主题,p(z′|D)表示生成文章主题z′的概率,p(vi|z′;D)表示生成文章vi的后验概率,vi表示数据集中的第i篇文章,p(z=k1|vi;D)表示生成词主题z为第k1个词主题的条件概率,p(z=k2|vi;D)表示生成词主题z为第k2个词主题的条件概率;
其中,p(z|v;D)和p(v|z′;D)能够分别由训练得到的参数θ和Ω得到;θ的后验期望θik定义如下:
θ i k = # ( v = i , z = k ) + α k Σ k = 1 K w ( # ( v = i , z = k ) + α k )
其中,#(v=i,z=k)表示在文章vi中的被指定为词主题k的词的数目,能够从步骤3中训练出的参数φ得到,Kw是词主题的数目;αk表示超参数α中第k个变量;
文章主题的后验概率分布能够按如下表达式计算:
p ( z ′ = k ′ | D ) = # ( z ′ = k ′ ) Σ k ′ # ( z ′ = k ′ )
其中,#(z′=k′)表示指定为文章主题k′的链接数目,能够从步骤3中训练出的参数σ得到;p(z′=k′|D)表示生成文章主题k′的概率,∑k′#(z′=k′)表示指定为文章主题z′为k′的链接数目的求和;
步骤4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,假设文章主题的生成是相互独立的,因此文章主题之间的关系强度能够按如下表达式计算:
p ( z ′ = k 1 ′ , z ′ = k 2 ′ | D ) = Σ z p ( z | D ) p ( z ′ = k 1 ′ | z ; D ) p ( z ′ = k 2 ′ | z ; D )
式中:p(z′=k′1,z′=k′2|D)表示同时生成两个链接的文章主题为第k′1个文章主题和第k′2个文章主题的概率,p(z|D)表示生成词主题z的概率,p(z′=k′1|z;D)表示生成文章主题k′1的条件概率,p(z′=k′2|z;D)表示生成文章主题z′为第k′2个文章主题的条件概率;
p(z′|z)由步骤3训练出的参数η得到,词主题的后验概率分布p(z=k|D)能够按如下表达式计算:
p ( z = k | D ) = # ( z = k ) Σ k # ( z = k )
其中,#(z=k)表示指定为词主题k的词的数目,能够从步骤3中训练出的参数得到;
步骤4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度p(z=k,z′=k′|D)能够按如下表达式计算:
p(z=k,z′=k′|D)=p(z′=k′|z=k;D)p(z=k)
式中:p(z′=k′|z=k;D)表示生成文章主题z′为第k′个文章主题的条件概率,p(z=k)表示生成词主题z为第k个词主题的概率;
步骤4.4:对于一个给定的文章主题,并从中选取期望最高的10个词来表示这个文章主题,利用如下表达式计算每个词w出现次数的期望:
式中:表示在文章主题为k′的情况下词w出现的期望,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量,#(w,d)表示第d篇文章中词w出现的次数。
优选地,所述步骤5包括:
步骤5.1:对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤5.2:利用可视化工具Gephi得到词主题与文章主题分布的布局;
步骤5.3:利用D3.JS等工具搭建静态的主题地图系统。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于文本网络中的网络结构信息和文本信息,同时提取出了词主题和文章主题,并且量化地建立了词主题和文章主题之间的关系,弥补了现有技术在联合建模上的不足。
2、本发明构建了全新的异构主题网络,可视化后的异构主题网络—主题地图系统清晰明确展示了文本网络的内容结构和内容关系,提高了探索式搜索的效率和准确性,能够帮助用户快速建立对文本网络的认识。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明适用的文本网络的示意图;
图2为本发明构造的异构主题网络示意图;
图3为本发明涉及的生成模型的生成过程;
图4为本发明的方法流程图;
图5为本发明构造的主题地图系统的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的基于文本网络的异构主题网络构建和可视化方法,涉及整理含文本网络的自动化程序、基于主题模型的新型文本网络生成模型、新型模型的推断过程和参数估计、主题间关系提取、异构主题网络的可视化展示;具体地,包括如下步骤:
步骤S1:基于原始数据集构建文本网络;
步骤S2:针对文本网路,构建基于主题模型的生成模型;
步骤S3:用变分期望最大化算法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤S5:利用可视化工具展示异构主题网络。
所述步骤S1包括:从互联网上获得公开的文本数据集,从数据集中抽取出文本信息,例如在论文网络中以论文的标题和摘要作为文本信息,在社交网络中以用户推送的短文内容作为文本信息,在超链接的网页网络中以网页标题和主要文字作为文本信息;从数据集中抽取出链接信息,例如在论文网络中以论文的参考文献作为链接信息,在社交网络中以转发行为作为链接信息,在超链接的网页中以网页的链接作为链接信息;将提取出的信息生成csv格式的文件,具体地:
步骤S1.1:将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤S1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤S1.3:顶点集中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果,整个文本网络中出现的词均以编号表示;
步骤S1.4:顶点集中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果。
所述步骤S2包括:对文本网络结构中的文本和链接的生成过程进行建模,生成模型是指在已知参数的条件下,假设文章生成过程服从的模型,文章的生成模型可参见附图3;本发明生成模型涉及的假设有,每篇文章中每个词的词主题、每个链接的转移词主题服从多项分布,且其先验分布服从狄利克雷分布,每个词主题下不同的词服从多项分布,每个文章主题下不同的文章服从多项分布;具体地:
步骤S2.1:对文本网络中的各篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤S2.2:对各篇文章中的各个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数生成词wm,n;其中,β表示词主题到词的分布矩阵,表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤S2.3:对各篇文章中的各个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,表示矩阵η对应转词主题tm,n的行向量,是z′m,n所服从的多项式分布的参数;z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接;
所述步骤S3包括:构建生成模型的推断过程,估计生成模型中的参数,通过已知的文本信息和链接信息去推断隐含的参数;本发明采用变分最大化期望的算法进行推断,具体地:
步骤S3.1:对上述生成模型的联合概率进行分解。对于文章vm,对联合概率取对数后分解如下:
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);具体地:
KL m ( q | | p ) = - ∫ θ m Σ z m Σ t m Σ z m ′ q ( θ m , z m , t m , z m ′ ) × ln { p ( θ m , z m , t m , z m ′ | w m , y m , α , η , β , Ω ) q ( θ m , z m , t m , z m ′ ) } ;
其中是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;
步骤S3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
q ( θ m , z m , t m , z m ′ ) = q ( θ m , z m , t m , z m ′ | γ m , φ m , λ m , σ m ) = q ( θ m | γ m ) Π n = 1 N m q ( z m n | φ m n ) × Π l = 1 L m q ( t m l | λ m l ) Π l = 1 L m q ( z m l ′ | σ m l )
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;
步骤S3.3:对于整个文本网络,总概率如下:
ln p ( w , y | α , η , β , Ω ) = Σ m = 1 D ln p ( w m , y m | α , η , β , Ω )
步骤S3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新公式如下:
φ m n k ∝ β kw m n exp ( Ψ ( γ m k ) )
γ m k = α k + Σ n = 1 N m φ m n k + Σ l = 1 L m λ m l k
λ m l k ∝ exp ( Ψ ( γ m k ) + Σ k ′ = 1 K y σ mlk ′ logη kk ′ )
σ mlk ′ ∝ Ω k ′ y m l exp ( Σ k = 1 K λ m l k logη kk ′ )
其中,Ψ(·)是双伽马函数;
步骤S3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化更新公式如下:
β k x ∝ Σ i = 1 D Σ n = 1 N m w m n x φ m n k
η kk ′ ∝ Σ m = 1 D Σ l = 1 L m σ mlk ′ λ m l k
Ω k ′ d ∝ Σ m = 1 D Σ l = 1 L m y m l d σ mlk ′
其中,当且仅当wmn=x,其他情况时为0;当且仅当yml=d,其他情况时为0;
所述步骤S4包括:利用训练文本网络的到的参数来计算词主题与词主题之间,文章主题与文章主题之间,词主题与文章主题之间的关系强度,计算得到的关系强度用于步骤S5中的可视化,具体地:
步骤S4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;本发明假设词主题的生成是相互独立的,因此词主题间的关系强度可用按如下表达式计算:
p ( z = k 1 , z = k 2 | D ) = Σ z ′ Σ i p ( z ′ | D ) p ( v i | z ′ ; D ) p ( z = k 1 | v i ; D ) p ( z = k 2 | v i ; D )
其中,p(z|v;D)和p(v|z′;D)可以分别由训练得到的参数θ和Ω得到;θ的后验期望定义如下:
θ i k = # ( v = i , z = k ) + α k Σ k = 1 K w ( # ( v = i , z = k ) + α k )
其中,#(v=i,z=k)代表在文章vi中的被指定为词主题k的词的数目,可以从步骤3中训练出的参数φ得到。Kw是词主题的数目;文章主题的后验概率分布可按如下表达式计算:
p ( z ′ = k ′ | D ) = # ( z ′ = k ′ ) Σ k ′ # ( z ′ = k ′ )
其中,#(z′=k′)代表指定为文章主题k′的链接数目,可以从步骤3中训练出的参数σ得到;
步骤S4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,本发明中假设文章主题的生成是相互独立的,因此文章主题之间的关系强度可按如下表达式计算:
p ( z ′ = k 1 ′ , z ′ = k 2 ′ | D ) = Σ z p ( z | D ) p ( z ′ = k 1 ′ | z ; D ) p ( z ′ = k 2 ′ | z ; D )
p(z′|z)可由步骤S3训练出的参数η得到,词主题的后验概率分布可按如下表达式计算:
p ( z = k | D ) = # ( z = k ) Σ k # ( z = k )
其中,#(z=k)代表指定为词主题k的词的数目,可以从步骤S3中训练出的参数得到;
步骤S4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度可按如下表达式计算:
p(z=k,z′=k′|D)=p(z′=k′|z=k;D)p(z=k)
步骤S4.4:选出有代表性的词来表示文章主题,由于对于文章主题仅得到了主题对文章的分布,为了更加直观地表示文章主题,对于一个给定的文章主题,利用如下表达式计算每个词w出现次数的期望:
从中选取期望最高的10个词来表示这个文章主题。
所述步骤S5包括:根据前述步骤提取出的词主题、文章主题以及主题之间的关系构建异构主题网络并进行可视化,构建主题地图系统;在主题地图中,节点代表主题,词主题和文章主题以颜色和标签的形式区分,节点的大小代表了该主题在文本网络在中的流行程度;边代表超过设定阈值的关系强度,边的粗细代表关系强度的强弱;主题地图系统具有以下功能:(1)当用户鼠标悬停在主题上时,该主题节点和与之相连的节点、边高亮显示,若该主题为词主题,则显示该主题下最重要的十个词以及主题的流行程度;若该主题为文章主题,则显示该主题下最重要的十篇文章的标题、步骤S4.4计算得到的关键词以及该主题的流行程度;(2)当用户鼠标悬停在边上时,边高亮显示,并且显示对应的关系强度;(3)在主题地图上方进行选择,可以选择只显示词主题,只显示文章主题,或者两者都显示;具体地:
步骤S5.1:根据前述步骤对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤S5.2:利用可视化工具Gephi得到词主题与文章主题在主题地图中分布的布局,利用Gephi内置的ForceAtlas2布局方式,布局由主题间的关系强度决定;
步骤S5.3:利用D3.JS等工具搭建静态的主题地图系统,使得用户能够既方便又快速地了解文本网络。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种基于文本网络的异构主题网络构建和可视化方法,其特征在于,包括如下步骤:
步骤1:基于原始数据集构建文本网络;
步骤2:针对文本网路,构建基于主题模型的生成模型;
步骤3:用变分期望最大化算法构建生成模型的推断过程;
步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤5:利用可视化工具展示异构主题网络。
2.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤1包括:
步骤1.1:将顶点集V设为空集,将边集E设为空集;
步骤1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤1.3:顶点集V中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果;
步骤1.4:将原始数据集中文章间的链接关系加入边集E中;
步骤1.5:V、E的集合构成图G,所述图G即为文本网络。
3.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤2包括:
步骤2.1:对文本网络中的每篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤2.2:对各篇文章中的每个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数生成词wm,n;其中,β表示词主题到词的分布矩阵,表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤2.3:对各篇文章中的每个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,表示矩阵η对应转词主题tm,n的行向量,z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接。
4.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤3包括:
步骤3.1:对生成模型的概率进行分解,对于文章vm,对联合概率p(wm,ym|α,η,β,Ω)取对数后分解如下:
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);
具体地:
KL m ( q | | p ) = - ∫ θ m Σ z m Σ t m Σ z m ′ q ( θ m , z m , t m , z m ′ ) × l n { p ( θ m , z m , t m , z m ′ | w m , y m , α , η , β , Ω ) q ( θ m , z m , t m , z m ′ ) } ;
其中是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;q(θm,zm,tm,z′m)表示对后验概率p(θm,zm,tm,z′m|wm,ym)进行估计的变分概率,zm表示文章vm中词对应的词主题向量,tm表示文章vm中链接对应的转移词主题向量,z′m表示文章vm中链接对应的文章主题向量,p(wm,ymm,zm,tm,z′m|α,η,β,Ω)表示生成文章vm的联合概率,p(θm,zm,tm,z′m|wm,ym,α,η,β,Ω)表示文章vm的词主题分布、词对应的主题、链接对应的主题的后验概率分布,α是狄利克雷超参数,η表示词主题到文章主题的分布矩阵,β表示词主题到词的分布矩阵,Ω表示文章主题到文章的分布矩阵;
步骤3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
q ( θ m , z m , t m , z m ′ ) = q ( θ m , z m , t m , z m ′ | γ m , φ m , λ m , σ m ) = q ( θ m | γ m ) Π n = 1 N m q ( z m n | φ m n ) × Π l = 1 L m q ( t m l | λ m l ) Π l = 1 L m q ( z m l ′ | σ m l )
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;γm表示θm服从的狄利克雷分布的参数,φm表示zm服从的多项式分布的参数矩阵,λm表示tm服从的多项式分布的参数矩阵,σm表示z′m服从的多项式分布的参数矩阵,q(θmm)表示生成词主题分布θm的概率估计,q(zmnmn)表示生成词主题zmn的概率估计,q(tmlml)表示生成转移词主题tml的概率估计,q(z′mlml)表示生成文章主题z′ml的概率估计,zmn表示文章vm中第n个词对应的词主题,φmn表示zmn服从的多项式分布的参数,tml表示文章vm中第l个链接对应的转移词主题,λml表示tml服从的多项式分布的参数,z′ml表示文章vm中第l个链接对应的文章主题,σml表示z′ml服从的多项式分布的参数,Nm表示文章vm中词的个数,Lm表示文章vm中链接的个数;
步骤3.3:对于整个文本网络,总概率p(w,y|α,η,β,Ω)如下:
ln p ( w , y | α , η , β , Ω ) = Σ m = 1 D ln p ( w m , y m | α , η , β , Ω )
其中,D表示文本网络中文章的个数,p(wm,ym|α,η,β,Ω)表示文本网络的生成概率;
步骤3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新后的公式如下:
φ m n k ∝ β kw m n exp ( Ψ ( γ m k ) )
γ m k = α k + Σ n = 1 N m φ m n k + Σ l = 1 L m λ m l k
λ m l k ∝ exp ( Ψ ( γ m k ) + Σ k ′ = 1 K y σ mlk ′ logη kk ′ )
σ mlk ′ ∝ Ω k ′ y m l exp ( Σ k = 1 K w λ m l k logη kk ′ )
其中,φmnk表示变分参数φmn中第k个变量,表示第k个主题对应文章vm中第n个词wmn的分量,Ψ(·)是双伽马函数,γmk表示变分参数γm中第k个分量,αk表示超参数α中第k个分量,λmlk表示表示变分参数λml中第k个分量,σmlk′表示表示变分参数σml中第k′个分量,Ky表示文章主题个数,Kw表示词主题个数,ηkk′表示词主题到文章主题的分布矩阵η中对应从第k个词主题到第k′个文章主题的分量,表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到文章yml的分量,yml是文章vm中第l个链接链接的文章;
步骤3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化更新公式如下:
β k x ∝ Σ i = 1 D Σ n = 1 N m w m n x φ m n k
η kk ′ ∝ Σ m = 1 D Σ l = 1 L m σ mlk ′ λ m l k
Ω k ′ d ∝ Σ m = 1 D Σ l = 1 L m y m l d σ mlk ′
其中,表示文章vm中第n个词对应词主题向量的第x个分量,当且仅当wmn=x,其他情况时为0;表示文章vm中第l个链接对应文章主题向量的第d个分量,当且仅当yml=d,其他情况时为0;βkx表示词主题到词的分布矩阵β中对应第k个主题到第x个词的分量,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量。
5.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤4包括:
步骤4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;假设词主题的生成是相互独立的,因此词主题间的关系强度p(z=k1,z=k2|D)能够按如下表达式计算:
p ( z = k 1 , z = k 2 | D ) = Σ z ′ Σ i p ( z ′ | D ) p ( v i | z ′ ; D ) p ( z = k 1 | v i ; D ) p ( z = k 2 | v i ; D )
式中:k1表示第k1个词主题,k2表示第k2个词主题,z表示词主题,p(z′|D)表示生成文章主题z′的概率,p(vi|z′;D)表示生成文章vi的后验概率,vi表示数据集中的第i篇文章,p(z=k1|vi;D)表示生成词主题z为第k1个词主题的条件概率,p(z=k2|vi;D)表示生成词主题z为第k2个词主题的条件概率;
其中,p(z|v;D)和p(v|z′;D)能够分别由训练得到的参数θ和Ω得到;θ的后验期望θik定义如下:
θ i k = # ( v = i , z = k ) + α k Σ k = 1 K w ( # ( v = i , z = k ) + α k )
其中,#(v=i,z=k)表示在文章vi中的被指定为词主题k的词的数目,能够从步骤3中训练出的参数φ得到,Kw是词主题的数目;αk表示超参数α中第k个变量;
文章主题的后验概率分布能够按如下表达式计算:
p ( z ′ = k ′ | D ) = # ( z ′ = k ′ ) Σ k ′ # ( z ′ = k ′ )
其中,#(z′=k′)表示指定为文章主题k′的链接数目,能够从步骤3中训练出的参数σ得到;p(z′=k′|D)表示生成文章主题k′的概率,∑k′#(z′=k′)表示指定为文章主题z′为k′的链接数目的求和;
步骤4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,假设文章主题的生成是相互独立的,因此文章主题之间的关系强度能够按如下表达式计算:
p ( z ′ = k 1 ′ , z ′ = k 2 ′ | D ) = Σ z p ( z | D ) p ( z ′ = k 1 ′ | z ; D ) p ( z ′ = k 2 ′ | z ; D )
式中:p(z′=k′1,z′=k′2|D)表示同时生成两个链接的文章主题为第k′1个文章主题和第k′2个文章主题的概率,p(z|D)表示生成词主题z的概率,p(z′=k′1|z;D)表示生成文章主题k′1的条件概率,p(z′=k′2|z;D)表示生成文章主题z′为第k′2个文章主题的条件概率;
p(z′|z)由步骤3训练出的参数η得到,词主题的后验概率分布p(z=k|D)能够按如下表达式计算:
p ( z = k | D ) = # ( z = k ) Σ k # ( z = k )
其中,#(z=k)表示指定为词主题k的词的数目,能够从步骤3中训练出的参数得到;
步骤4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度p(z=k,z′=k′|D)能够按如下表达式计算:
p(z=k,z′=k′|D)=p(z′=k′|z=k;D)p(z=k)
式中:p(z′=k′|z=k;D)表示生成文章主题z′为第k′个文章主题的条件概率,p(z=k)表示生成词主题z为第k个词主题的概率;
步骤4.4:对于一个给定的文章主题,并从中选取期望最高的10个词来表示这个文章主题,利用如下表达式计算每个词w出现次数的期望:
式中:表示在文章主题为k′的情况下词w出现的期望,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量,#(w,d)表示第d篇文章中词w出现的次数。
6.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤5包括:
步骤5.1:对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤5.2:利用可视化工具Gephi得到词主题与文章主题分布的布局;
步骤5.3:利用D3.JS等工具搭建静态的主题地图系统。
CN201610757401.0A 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法 Active CN106372147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610757401.0A CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610757401.0A CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Publications (2)

Publication Number Publication Date
CN106372147A true CN106372147A (zh) 2017-02-01
CN106372147B CN106372147B (zh) 2020-09-15

Family

ID=57901228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610757401.0A Active CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Country Status (1)

Country Link
CN (1) CN106372147B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN109902302A (zh) * 2019-03-01 2019-06-18 郑敏杰 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266098B2 (en) * 2009-11-18 2012-09-11 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266098B2 (en) * 2009-11-18 2012-09-11 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐晓波 等: "基于隐含狄利克雷分配的微博推荐模型研究", 《情报科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN109902302A (zh) * 2019-03-01 2019-06-18 郑敏杰 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质

Also Published As

Publication number Publication date
CN106372147B (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
Zhang et al. Scientific evolutionary pathways: Identifying and visualizing relationships for scientific topics
Taylor et al. World city network: a global urban analysis
Kumar et al. Research collaboration networks of two OIC nations: Comparative study between Turkey and Malaysia in the field of ‘Energy Fuels’, 2009–2011
CN102262681B (zh) 一种博客信息传播中识别关键博客集的方法
US8874581B2 (en) Employing topic models for semantic class mining
CN107797991A (zh) 一种基于依存句法树的知识图谱扩充方法及系统
CN106295186A (zh) 一种基于智能推理的辅助疾病诊断的方法与系统
CN104216954A (zh) 突发事件话题状态的预测装置及预测方法
CN106156335A (zh) 一种教材知识点的挖掘整理方法和系统
CN101582080A (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN104636425A (zh) 一种网络个体或群体情绪认知能力预测与可视化方法
CN104636426A (zh) 科研机构学术影响力的多因素综合定量分析与排序方法
CN102646095B (zh) 一种基于网页分类信息的对象分类方法和系统
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
Goel et al. Sentiment analysis of multilingual twitter data using natural language processing
CN106682208A (zh) 基于融合特征筛选与随机森林的微博转发行为预测方法
CN102306177B (zh) 一种多策略组合的本体或实例匹配方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN107480213A (zh) 基于时序文本网络的社区检测与用户关系预测方法
Conde-Clemente et al. New types of computational perceptions: Linguistic descriptions in deforestation analysis
CN113051404A (zh) 一种基于张量分解的知识推理方法、装置、设备
Jiang et al. BBS opinion leader mining based on an improved PageRank algorithm using MapReduce
CN106372147A (zh) 基于文本网络的异构主题网络构建和可视化方法
CN106202515A (zh) 一种基于排序学习的移动应用推荐方法及其推荐系统
Stansfield Conclusions from the commodity expert project

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant