CN106372147B - 基于文本网络的异构主题网络构建和可视化方法 - Google Patents

基于文本网络的异构主题网络构建和可视化方法 Download PDF

Info

Publication number
CN106372147B
CN106372147B CN201610757401.0A CN201610757401A CN106372147B CN 106372147 B CN106372147 B CN 106372147B CN 201610757401 A CN201610757401 A CN 201610757401A CN 106372147 B CN106372147 B CN 106372147B
Authority
CN
China
Prior art keywords
article
topic
word
topics
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610757401.0A
Other languages
English (en)
Other versions
CN106372147A (zh
Inventor
何俊贤
黄颖
沈嘉明
刘长风
贾雨葶
肖浩
唐炜杰
孔令坤
胡天桓
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201610757401.0A priority Critical patent/CN106372147B/zh
Publication of CN106372147A publication Critical patent/CN106372147A/zh
Application granted granted Critical
Publication of CN106372147B publication Critical patent/CN106372147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Abstract

本发明提供了一种基于文本网络的异构主题网络构建和可视化方法,包括:步骤1:基于原始数据集构建文本网络;步骤2:针对文本网路,构建基于主题模型的生成模型;步骤3:利用变分期望最大化算法构建生成模型的推断过程;步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系;步骤5:利用可视化工具展示异构主题网络。本发明构建了全新的异构主题网络,从而使得用户可以快速地建立对文本网络的认识。

Description

基于文本网络的异构主题网络构建和可视化方法
技术领域
本发明涉及文本网络探索式搜索领域,具体地,涉及一种基于文本网络的异构主题网络构建和可视化方法。
背景技术
大数据时代的到来,意味着全球数据量呈现爆炸式增长,全球已进入数据泽它时代。根据互联网数据中心的统计,2010年全球数据量达到1.2泽它字节,2011年全球数据量达到1.8泽它字节,上涨50%,预测到2020年全球数据量将达到35泽它字节。文本格式信息仍然是最主要的数据内容,通过文本格式信息间的关联性,形成了海量的文本网络。典型的文本网络包含但不仅限于:超链接的网页、在线社交网络、学术论文网络。
随着文本网络数量和规模的不断扩大,了解文本网络的内容覆盖范围和内容之间的关系成为了迫切的需求。然而,文本网络因其庞大的信息量和复杂的网络关系,使得现有的关键词式搜索引擎难以满足搜索需求。现有的关键词式搜索引擎要求用户在进行搜索之前已经具有对文本网络的认识并且能够确定搜索关键词,这使得对于陌生文本网络的搜索变得十分困难。所以,帮助用户迅速、高效、准确地建立对一个陌生的、浩如烟海的文本网络的认识成为了一项非常重要而且具有挑战性的工作。
为了满足对于文本网络的认识需求,探索式搜索的概念被提出。到目前为止,国内外关注探索式搜索的主要研究方向包括:利用词频表、词频分布图和文本关键词模型,来增强计算机辅助阅读;利用挖掘共现行为的主题模型(如LDA算法)来检测语义主题,构建主题网络。
目前,基于主题模型构建主题网络的方法主要包括:考虑文本网络中的文本信息,对词的生成过程进行主题建模,提取出词主题;考虑文本网络中的网络结构信息,对链接的生成过程进行主题建模,提取出文章主题;考虑单个文本和主题之间的关系,构建单个文本和主题之间的网络。
但是这些研究成果或者只关注文本信息、词主题间的关系,或者只关注网络结构信息、文章主题之间的关系。现有的方法没有统一词主题和文章主题,不能建立词主题和文章主题之间的联系。因此最终在探索式搜索方面的使用价值都十分有限。一个可视化的连接了词主题和文章主题的异构主题网络更能够满足用户的需求,用户可以同时关注文本层面的信息和文章层面的信息。同时可视化的结果更易于理解,可以提高用户的搜索效率。基于以上问题,本发明提出了MHT模型,构建了全新的异构主题网络。异构主题网络中包含两种主题,即词主题和文章主题,以及三种主题间关系,即词主题与词主题之间的关系,文章主题与文章主题之间的关系和词主题与文章主题之间的关系。可视化后的异构主题网络——主题地图系统能够帮助用户快速、准确地了解文本网络。本发明填补了现有探索式搜索方法在统一词主题和文章主题方面的空白,在探索式搜索领域具有很好的应用前景。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于文本网络的异构主题网络构建和可视化方法。
根据本发明提供的基于文本网络的异构主题网络构建和可视化方法,包括如下步骤:
步骤1:基于原始数据集构建文本网络;
步骤2:针对文本网路,构建基于主题模型的生成模型;
步骤3:用变分期望最大化算法构建生成模型的推断过程;
步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤5:利用可视化工具展示异构主题网络。
优选地,所述步骤1包括:
步骤1.1:将顶点集V设为空集,将边集E设为空集;
步骤1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤1.3:顶点集V中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果;
步骤1.4:将原始数据集中文章间的链接关系加入边集E中;
步骤1.5:V、E的集合构成图G,所述图G即为文本网络。
优选地,所述步骤2包括:
步骤2.1:对文本网络中的每篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤2.2:对各篇文章中的每个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数
Figure BDA0001098902080000031
生成词wm,n;其中,β表示词主题到词的分布矩阵,
Figure BDA0001098902080000032
表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤2.3:对各篇文章中的每个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数
Figure BDA0001098902080000033
生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,
Figure BDA0001098902080000034
表示矩阵η对应转词主题tm,n的行向量,z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数
Figure BDA0001098902080000035
生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,
Figure BDA0001098902080000036
表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接。
优选地,所述步骤3包括:
步骤3.1:对生成模型的概率进行分解,对于文章vm,对联合概率p(wm,ym|α,η,β,Ω)取对数后分解如下:
Figure BDA0001098902080000037
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);
具体地:
Figure BDA0001098902080000041
Figure BDA0001098902080000042
其中
Figure BDA0001098902080000043
是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;q(θm,zm,tm,z′m)表示对后验概率p(θm,zm,tm,z′m|wm,ym)进行估计的变分概率,zm表示文章vm中词对应的词主题向量,tm表示文章vm中链接对应的转移词主题向量,z′m表示文章vm中链接对应的文章主题向量,p(wm,ymm,zm,tm,z′m|α,η,β,Ω)表示生成文章vm的联合概率,p(θm,zm,tm,z′m|wm,ym,α,η,β,Ω)表示文章vm的词主题分布、词对应的主题、链接对应的主题的后验概率分布,α是狄利克雷超参数,η表示词主题到文章主题的分布矩阵,β表示词主题到词的分布矩阵,Ω表示文章主题到文章的分布矩阵;
步骤3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
Figure BDA0001098902080000044
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;γm表示θm服从的狄利克雷分布的参数,φm表示zm服从的多项式分布的参数矩阵,λm表示tm服从的多项式分布的参数矩阵,σm表示z′m服从的多项式分布的参数矩阵,q(θmm)表示生成词主题分布θm的概率估计,q(zmnmn)表示生成词主题zmn的概率估计,q(tmlml)表示生成转移词主题tml的概率估计,q(z′mlml)表示生成文章主题z′ml的概率估计,zmn表示文章vm中第n个词对应的词主题,φmn表示zmn服从的多项式分布的参数,tml表示文章vm中第l个链接对应的转移词主题,λml表示tml服从的多项式分布的参数,z′ml表示文章vm中第l个链接对应的文章主题,σml表示z′ml服从的多项式分布的参数,Nm表示文章vm中词的个数,Lm表示文章vm中链接的个数;
步骤3.3:对于整个文本网络,总概率p(w,y|α,η,β,Ω)如下:
Figure BDA0001098902080000051
其中,D表示文本网络中文章的个数,p(wm,ym|α,η,β,Ω)表示文本网络的生成概率;
步骤3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新后的公式如下:
Figure BDA0001098902080000052
Figure BDA0001098902080000053
Figure BDA0001098902080000054
Figure BDA0001098902080000055
其中,φmnk表示变分参数φmn中第k个变量,
Figure BDA0001098902080000056
表示第k个主题对应文章vm中第n个词wmn的分量,Ψ(·)是双伽马函数,γmk表示变分参数γm中第k个分量,αk表示超参数α中第k个分量,λmlk表示表示变分参数λml中第k个分量,σmlk′表示表示变分参数σml中第k′个分量,Ky表示文章主题个数,Kw表示词主题个数,ηkk′表示词主题到文章主题的分布矩阵η中对应从第k个词主题到第k′个文章主题的分量,
Figure BDA0001098902080000057
表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到文章yml的分量,yml是文章vm中第l个链接链接的文章;
步骤3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化
Figure BDA0001098902080000058
更新公式如下:
Figure BDA0001098902080000059
Figure BDA00010989020800000510
Figure BDA00010989020800000511
其中,
Figure BDA0001098902080000061
表示文章vm中第n个词对应词主题向量的第x个分量,
Figure BDA0001098902080000062
当且仅当wmn=x,其他情况时为0;
Figure BDA0001098902080000063
表示文章vm中第l个链接对应文章主题向量的第d个分量,
Figure BDA0001098902080000064
当且仅当yml=d,其他情况时为0;βkx表示词主题到词的分布矩阵β中对应第k个主题到第x个词的分量,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量。
优选地,所述步骤4包括:
步骤4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;假设词主题的生成是相互独立的,因此词主题间的关系强度p(z=k1,z=k2|D)能够按如下表达式计算:
Figure BDA0001098902080000065
式中:k1表示第k1个词主题,k2表示第k2个词主题,z表示词主题,p(z′|D)表示生成文章主题z′的概率,p(vi|z′;D)表示生成文章vi的后验概率,vi表示数据集中的第i篇文章,p(z=k1|vi;D)表示生成词主题z为第k1个词主题的条件概率,p(z=k2|vi;D)表示生成词主题z为第k2个词主题的条件概率;
其中,p(z|v;D)和p(v|z′;D)能够分别由训练得到的参数θ和Ω得到;θ的后验期望θik定义如下:
Figure BDA0001098902080000066
其中,#(v=i,z=k)表示在文章vi中的被指定为词主题k的词的数目,能够从步骤3中训练出的参数φ得到,Kw是词主题的数目;αk表示超参数α中第k个变量;
文章主题的后验概率分布能够按如下表达式计算:
Figure BDA0001098902080000067
其中,#(z′=k′)表示指定为文章主题k′的链接数目,能够从步骤3中训练出的参数σ得到;p(z′=k′|D)表示生成文章主题k′的概率,∑k′#(z′=k′)表示指定为文章主题z′为k′的链接数目的求和;
步骤4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,假设文章主题的生成是相互独立的,因此文章主题之间的关系强度能够按如下表达式计算:
Figure BDA0001098902080000071
式中:p(z′=k′1,z′=k′2|D)表示同时生成两个链接的文章主题为第k′1个文章主题和第k′2个文章主题的概率,p(z|D)表示生成词主题z的概率,p(z′=k′1|z;D)表示生成文章主题k′1的条件概率,p(z′=k′2|z;D)表示生成文章主题z′为第k′2个文章主题的条件概率;
p(z′|z)由步骤3训练出的参数η得到,词主题的后验概率分布p(z=k|D)能够按如下表达式计算:
Figure BDA0001098902080000072
其中,#(z=k)表示指定为词主题k的词的数目,能够从步骤3中训练出的参数
Figure BDA0001098902080000075
得到;
步骤4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度p(z=k,z′=k′|D)能够按如下表达式计算:
p(z=k,z′=k′|D)=p(z′=k′|z=k;D)p(z=k)
式中:p(z′=k′|z=k;D)表示生成文章主题z′为第k′个文章主题的条件概率,p(z=k)表示生成词主题z为第k个词主题的概率;
步骤4.4:对于一个给定的文章主题,并从中选取期望最高的10个词来表示这个文章主题,利用如下表达式计算每个词w出现次数的期望:
Figure BDA0001098902080000073
式中:
Figure BDA0001098902080000074
表示在文章主题为k′的情况下词w出现的期望,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量,#(w,d)表示第d篇文章中词w出现的次数。
优选地,所述步骤5包括:
步骤5.1:对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤5.2:利用可视化工具Gephi得到词主题与文章主题分布的布局;
步骤5.3:利用D3.JS等工具搭建静态的主题地图系统。
与现有技术相比,本发明具有如下的有益效果:
1、本发明基于文本网络中的网络结构信息和文本信息,同时提取出了词主题和文章主题,并且量化地建立了词主题和文章主题之间的关系,弥补了现有技术在联合建模上的不足。
2、本发明构建了全新的异构主题网络,可视化后的异构主题网络—主题地图系统清晰明确展示了文本网络的内容结构和内容关系,提高了探索式搜索的效率和准确性,能够帮助用户快速建立对文本网络的认识。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明适用的文本网络的示意图;
图2为本发明构造的异构主题网络示意图;
图3为本发明涉及的生成模型的生成过程;
图4为本发明的方法流程图;
图5为本发明构造的主题地图系统的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的基于文本网络的异构主题网络构建和可视化方法,涉及整理含文本网络的自动化程序、基于主题模型的新型文本网络生成模型、新型模型的推断过程和参数估计、主题间关系提取、异构主题网络的可视化展示;具体地,包括如下步骤:
步骤S1:基于原始数据集构建文本网络;
步骤S2:针对文本网路,构建基于主题模型的生成模型;
步骤S3:用变分期望最大化算法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤S5:利用可视化工具展示异构主题网络。
所述步骤S1包括:从互联网上获得公开的文本数据集,从数据集中抽取出文本信息,例如在论文网络中以论文的标题和摘要作为文本信息,在社交网络中以用户推送的短文内容作为文本信息,在超链接的网页网络中以网页标题和主要文字作为文本信息;从数据集中抽取出链接信息,例如在论文网络中以论文的参考文献作为链接信息,在社交网络中以转发行为作为链接信息,在超链接的网页中以网页的链接作为链接信息;将提取出的信息生成csv格式的文件,具体地:
步骤S1.1:将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤S1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤S1.3:顶点集中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果,整个文本网络中出现的词均以编号表示;
步骤S1.4:顶点集中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果。
所述步骤S2包括:对文本网络结构中的文本和链接的生成过程进行建模,生成模型是指在已知参数的条件下,假设文章生成过程服从的模型,文章的生成模型可参见附图3;本发明生成模型涉及的假设有,每篇文章中每个词的词主题、每个链接的转移词主题服从多项分布,且其先验分布服从狄利克雷分布,每个词主题下不同的词服从多项分布,每个文章主题下不同的文章服从多项分布;具体地:
步骤S2.1:对文本网络中的各篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤S2.2:对各篇文章中的各个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数
Figure BDA0001098902080000091
生成词wm,n;其中,β表示词主题到词的分布矩阵,
Figure BDA0001098902080000092
表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤S2.3:对各篇文章中的各个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数
Figure BDA0001098902080000101
生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,
Figure BDA0001098902080000102
表示矩阵η对应转词主题tm,n的行向量,是z′m,n所服从的多项式分布的参数;z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数
Figure BDA0001098902080000103
生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,
Figure BDA0001098902080000104
表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接;
所述步骤S3包括:构建生成模型的推断过程,估计生成模型中的参数,通过已知的文本信息和链接信息去推断隐含的参数;本发明采用变分最大化期望的算法进行推断,具体地:
步骤S3.1:对上述生成模型的联合概率进行分解。对于文章vm,对联合概率取对数后分解如下:
Figure BDA0001098902080000105
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);具体地:
Figure BDA0001098902080000106
Figure BDA0001098902080000107
其中
Figure BDA0001098902080000108
是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;
步骤S3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
Figure BDA0001098902080000109
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;
步骤S3.3:对于整个文本网络,总概率如下:
Figure BDA0001098902080000111
步骤S3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新公式如下:
Figure BDA0001098902080000112
Figure BDA0001098902080000113
Figure BDA0001098902080000114
Figure BDA0001098902080000115
其中,Ψ(·)是双伽马函数;
步骤S3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化
Figure BDA0001098902080000116
更新公式如下:
Figure BDA0001098902080000117
Figure BDA0001098902080000118
Figure BDA0001098902080000119
其中,
Figure BDA00010989020800001110
当且仅当wmn=x,其他情况时为0;
Figure BDA00010989020800001111
当且仅当yml=d,其他情况时为0;
所述步骤S4包括:利用训练文本网络的到的参数来计算词主题与词主题之间,文章主题与文章主题之间,词主题与文章主题之间的关系强度,计算得到的关系强度用于步骤S5中的可视化,具体地:
步骤S4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;本发明假设词主题的生成是相互独立的,因此词主题间的关系强度可用按如下表达式计算:
Figure BDA0001098902080000121
其中,p(z|v;D)和p(v|z′;D)可以分别由训练得到的参数θ和Ω得到;θ的后验期望定义如下:
Figure BDA0001098902080000122
其中,#(v=i,z=k)代表在文章vi中的被指定为词主题k的词的数目,可以从步骤3中训练出的参数φ得到。Kw是词主题的数目;文章主题的后验概率分布可按如下表达式计算:
Figure BDA0001098902080000123
其中,#(z′=k′)代表指定为文章主题k′的链接数目,可以从步骤3中训练出的参数σ得到;
步骤S4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,本发明中假设文章主题的生成是相互独立的,因此文章主题之间的关系强度可按如下表达式计算:
Figure BDA0001098902080000124
p(z′|z)可由步骤S3训练出的参数η得到,词主题的后验概率分布可按如下表达式计算:
Figure BDA0001098902080000125
其中,#(z=k)代表指定为词主题k的词的数目,可以从步骤S3中训练出的参数
Figure BDA0001098902080000127
得到;
步骤S4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度可按如下表达式计算:
p(z=k,z′=k′|D)=p(z′=k′|z=k;D)p(z=k)
步骤S4.4:选出有代表性的词来表示文章主题,由于对于文章主题仅得到了主题对文章的分布,为了更加直观地表示文章主题,对于一个给定的文章主题,利用如下表达式计算每个词w出现次数的期望:
Figure BDA0001098902080000126
从中选取期望最高的10个词来表示这个文章主题。
所述步骤S5包括:根据前述步骤提取出的词主题、文章主题以及主题之间的关系构建异构主题网络并进行可视化,构建主题地图系统;在主题地图中,节点代表主题,词主题和文章主题以颜色和标签的形式区分,节点的大小代表了该主题在文本网络在中的流行程度;边代表超过设定阈值的关系强度,边的粗细代表关系强度的强弱;主题地图系统具有以下功能:(1)当用户鼠标悬停在主题上时,该主题节点和与之相连的节点、边高亮显示,若该主题为词主题,则显示该主题下最重要的十个词以及主题的流行程度;若该主题为文章主题,则显示该主题下最重要的十篇文章的标题、步骤S4.4计算得到的关键词以及该主题的流行程度;(2)当用户鼠标悬停在边上时,边高亮显示,并且显示对应的关系强度;(3)在主题地图上方进行选择,可以选择只显示词主题,只显示文章主题,或者两者都显示;具体地:
步骤S5.1:根据前述步骤对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤S5.2:利用可视化工具Gephi得到词主题与文章主题在主题地图中分布的布局,利用Gephi内置的ForceAtlas2布局方式,布局由主题间的关系强度决定;
步骤S5.3:利用D3.JS等工具搭建静态的主题地图系统,使得用户能够既方便又快速地了解文本网络。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (5)

1.一种基于文本网络的异构主题网络构建和可视化方法,其特征在于,包括如下步骤:
步骤1:基于原始数据集构建文本网络;
步骤2:针对文本网路,构建基于主题模型的生成模型;
步骤3:用变分期望最大化算法构建生成模型的推断过程;
步骤4:根据模型的推断过程,对文本网络进行训练,提取出词主题、文章主题以及主题之间的关系,词主题是指表现为词分布的主题,文章主题是指表现为文章分布的主题;
步骤5:利用可视化工具展示异构主题网络;
所述步骤3包括:
步骤3.1:对生成模型的概率进行分解,对于文章vm,对联合概率p(wm,ym|α,η,β,Ω)取对数后分解如下:
Figure FDA0002498505470000011
其中,wm是文章vm的词,ym是文章vm的链接;q是一个变分概率分布,用于估计后验概率p(θm,zm,tm,z′m|wm,ym);
具体地:
Figure FDA0002498505470000012
Figure FDA0002498505470000013
其中
Figure FDA0002498505470000014
是取对数概率的下界,KLm(q||p)是KL散度,用来衡量概率分布q和p之间的差异;q(θm,zm,tm,z′m)表示对后验概率p(θm,zm,tm,z′m|wm,ym)进行估计的变分概率,zm表示文章vm中词对应的词主题向量,tm表示文章vm中链接对应的转移词主题向量,z′m表示文章vm中链接对应的文章主题向量,p(wm,ymm,zm,tm,z′m|α,η,β,Ω)表示生成文章vm的联合概率,p(θm,zm,tm,z′m|wm,ym,α,η,β,Ω)表示文章vm的词主题分布、词对应的主题、链接对应的主题的后验概率分布,α是狄利克雷超参数,η表示词主题到文章主题的分布矩阵,β表示词主题到词的分布矩阵,Ω表示文章主题到文章的分布矩阵;θm表示生成第m篇文章到词主题的分布的多项式参数;
步骤3.2:通过引入自由的变分参数γ,φ,λ,σ,构建q如下:
Figure FDA0002498505470000021
其中,q(θmm)是狄利克雷分布,q(zmnmn),q(tmlml),q(z′mlml)是多项式分布,Nm为第m篇文章词的个数,Lm为第m篇文章链接的个数;γm表示θm服从的狄利克雷分布的参数,φm表示zm服从的多项式分布的参数矩阵,λm表示tm服从的多项式分布的参数矩阵,σm表示z′m服从的多项式分布的参数矩阵,q(θmm)表示生成词主题分布θm的概率估计,q(zmnmn)表示生成词主题zmn的概率估计,q(tmlml)表示生成转移词主题tml的概率估计,q(z′mlml)表示生成文章主题z′ml的概率估计,zmn表示文章vm中第n个词对应的词主题,φmn表示zmn服从的多项式分布的参数,tml表示文章vm中第l个链接对应的转移词主题,λml表示tml服从的多项式分布的参数,z′ml表示文章vm中第l个链接对应的文章主题,σml表示z′ml服从的多项式分布的参数,Nm表示文章vm中词的个数,Lm表示文章vm中链接的个数;
步骤3.3:对于整个文本网络,总概率p(w,y|α,η,β,Ω)如下:
Figure FDA0002498505470000022
其中,D表示文本网络中文章的个数,p(wm,ym|α,η,β,Ω)表示文本网络的生成概率;w表示文章v的词;y表示文章v的链接;
步骤3.4:基于最大化期望算法框架,更新γ,φ,λ,σ,从而估计后验概率;更新后的公式如下:
Figure FDA0002498505470000023
Figure FDA0002498505470000024
Figure FDA0002498505470000031
Figure FDA0002498505470000032
其中,φmnk表示变分参数φmn中第k个变量,
Figure FDA0002498505470000033
表示第k个主题对应文章vm中第n个词wmn的分量,Ψ(·)是双伽马函数,γmk表示变分参数γm中第k个分量,αk表示超参数α中第k个分量,λmlk表示表示变分参数λml中第k个分量,σmlk′表示表示变分参数σml中第k′个分量,Ky表示文章主题个数,Kw表示词主题个数,ηkk′表示词主题到文章主题的分布矩阵η中对应从第k个词主题到第k′个文章主题的分量,
Figure FDA0002498505470000034
表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到文章yml的分量,yml是文章vm中第l个链接链接的文章;
步骤3.5:基于最大化期望算法框架,更新β,η,Ω,从而最大化
Figure FDA00024985054700000312
更新公式如下:
Figure FDA0002498505470000035
Figure FDA0002498505470000036
Figure FDA0002498505470000037
其中,
Figure FDA0002498505470000038
表示文章vm中第n个词对应词主题向量的第x个分量,
Figure FDA0002498505470000039
当且仅当wmn=x,其他情况时为0;
Figure FDA00024985054700000310
表示文章vm中第l个链接对应文章主题向量的第d个分量,
Figure FDA00024985054700000311
当且仅当yml=d,其他情况时为0;βkx表示词主题到词的分布矩阵β中对应第k个主题到第x个词的分量,Ωk′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量。
2.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤1包括:
步骤1.1:将顶点集V设为空集,将边集E设为空集;
步骤1.2:将原始数据集中的每一篇文章加到顶点集V中;
步骤1.3:顶点集V中的每一篇文章对应一个词袋,词袋是指对每一篇文章中出现的词的次数的统计结果;
步骤1.4:将原始数据集中文章间的链接关系加入边集E中;
步骤1.5:V、E的集合构成图G,所述图G即为文本网络。
3.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤2包括:
步骤2.1:对文本网络中的每篇文章,执行如下步骤:
基于狄利克雷超参数α,生成第m篇文章到词主题的分布的多项式参数θm;其中,α是θm所服从的狄利克雷分布的参数;m为正整数;
步骤2.2:对各篇文章中的每个词执行如下步骤:
基于多项式参数θm,生成词主题zm,n;其中,θ表示文章到词主题的分布矩阵,θm表示矩阵θ对应第m篇文章的行向量,是zm,n所服从的多项式分布的参数;n为正整数;zm,n表示第m篇文章中的第n个词的词主题;
基于多项式参数
Figure FDA0002498505470000041
生成词wm,n;其中,β表示词主题到词的分布矩阵,
Figure FDA0002498505470000042
表示矩阵β对应词主题zm,n的行向量,是wm,n所服从的多项式分布的参数;wm,n表示第m篇文章中的第n个词;
步骤2.3:对各篇文章中的每个链接执行如下步骤:
基于多项式参数θm,生成转移词主题tm,n;其中,θm是tm,n所服从的多项式分布的参数;n为正整数;tm,n表示第m篇文章中的第n个链接的转移词主题;
基于多项式参数
Figure FDA0002498505470000043
生成文章主题z′m,n;其中,η表示词主题到文章主题的分布矩阵,
Figure FDA0002498505470000044
表示矩阵η对应转词主题tm,n的行向量,z′m,n表示第m篇文章中的第n个链接的文章主题;
基于多项式参数
Figure FDA0002498505470000045
生成链接ym,n;其中,Ω表示文章主题到文章的分布矩阵,
Figure FDA0002498505470000046
表示矩阵Ω对应文章主题z′m,n的行向量,是ym,n所服从的多项式分布的参数;ym,n表示第m篇文章中的第n个链接。
4.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤4包括:
步骤4.1:计算词主题与词主题之间的关系强度,关系强度以共现概率来衡量;假设词主题的生成是相互独立的,因此词主题间的关系强度p(z=k1,z=k2|D)能够按如下表达式计算:
Figure FDA0002498505470000051
式中:k1表示第k1个词主题,k2表示第k2个词主题,z表示词主题,p(z'|D)表示生成文章主题z'的概率,p(vi|z';D)表示生成文章vi的后验概率,vi表示数据集中的第i篇文章,p(z=k1|vi;D)表示生成词主题z为第k1个词主题的条件概率,p(z=k2|vi;D)表示生成词主题z为第k2个词主题的条件概率;D表示文本网络中文章的个数;
其中,p(z|v;D)和p(v|z';D)能够分别由训练得到的参数θ和Ω得到;θ的后验期望θik定义如下:
Figure FDA0002498505470000052
其中,#(v=i,z=k)表示在文章vi中的被指定为词主题k的词的数目,能够从步骤3中训练出的参数φ得到,Kw是词主题的数目;αk表示超参数α中第k个变量;
文章主题的后验概率分布能够按如下表达式计算:
Figure FDA0002498505470000053
其中,#(z'=k')表示指定为文章主题k'的链接数目,能够从步骤3中训练出的参数σ得到;p(z'=k'|D)表示生成文章主题k'的概率,∑k'#(z'=k')表示指定为文章主题z'为k'的链接数目的求和;
步骤4.2:计算文章主题与文章主题间的关系强度,关系强度以共现概率来衡量,假设文章主题的生成是相互独立的,因此文章主题之间的关系强度能够按如下表达式计算:
Figure FDA0002498505470000054
式中:p(z'=k'1,z'=k'2|D)表示同时生成两个链接的文章主题为第k'1个文章主题和第k'2个文章主题的概率,p(z|D)表示生成词主题z的概率,p(z'=k'1|z;D)表示生成文章主题k'1的条件概率,p(z'=k'2|z;D)表示生成文章主题z'为第k'2个文章主题的条件概率;
p(z'|z)由步骤3训练出的参数η得到,词主题的后验概率分布p(z=k|D)能够按如下表达式计算:
Figure FDA0002498505470000061
其中,#(z=k)表示指定为词主题k的词的数目,能够从步骤3中训练出的参数
Figure FDA0002498505470000064
得到;
步骤4.3:计算词主题与文章主题间的关系强度,关系强度以共现概率来衡量;根据贝叶斯法则,词主题与文章主题间的关系强度p(z=k,z'=k'|D)能够按如下表达式计算:
p(z=k,z'=k'|D)=p(z'=k'|z=k;D)p(z=k)
式中:p(z'=k'|z=k;D)表示生成文章主题z'为第k'个文章主题的条件概率,p(z=k)表示生成词主题z为第k个词主题的概率;
步骤4.4:对于一个给定的文章主题,并从中选取期望最高的10个词来表示这个文章主题,利用如下表达式计算每个词w出现次数的期望:
Figure FDA0002498505470000062
式中:
Figure FDA0002498505470000063
表示在文章主题为k'的情况下词w出现的期望,Ωk'd表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量,#(w,d)表示第d篇文章中词w出现的次数。
5.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法,其特征在于,所述步骤5包括:
步骤5.1:对选定的文本数据集进行训练,提取出词主题、文章主题以及主题之间的关系,生成csv格式的文件;
步骤5.2:利用可视化工具Gephi得到词主题与文章主题分布的布局;
步骤5.3:利用D3.JS工具搭建静态的主题地图系统。
CN201610757401.0A 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法 Active CN106372147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610757401.0A CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610757401.0A CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Publications (2)

Publication Number Publication Date
CN106372147A CN106372147A (zh) 2017-02-01
CN106372147B true CN106372147B (zh) 2020-09-15

Family

ID=57901228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610757401.0A Active CN106372147B (zh) 2016-08-29 2016-08-29 基于文本网络的异构主题网络构建和可视化方法

Country Status (1)

Country Link
CN (1) CN106372147B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515854B (zh) * 2017-07-27 2021-06-04 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN109902302B (zh) * 2019-03-01 2020-03-24 郑敏杰 一种适用于文本分析或数据挖掘的主题图谱生成方法、装置、设备以及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266098B2 (en) * 2009-11-18 2012-09-11 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8266098B2 (en) * 2009-11-18 2012-09-11 International Business Machines Corporation Ranking expert responses and finding experts based on rank
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN105045812A (zh) * 2015-06-18 2015-11-11 上海高欣计算机系统有限公司 文本主题的分类方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于隐含狄利克雷分配的微博推荐模型研究;唐晓波 等;《情报科学》;20150228;第33卷(第2期);3-8 *

Also Published As

Publication number Publication date
CN106372147A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
JP5423030B2 (ja) ワードセットに関係するワードの決定
CN105518661B (zh) 经由挖掘的超链接文本的片段来浏览图像
US8874581B2 (en) Employing topic models for semantic class mining
CN103544242A (zh) 面向微博的情感实体搜索系统
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
Joorabchi et al. Text mining stackoverflow: An insight into challenges and subject-related difficulties faced by computer science learners
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN107544959B (zh) 一种评价对象的提取方法和装置
Velden et al. Mapping the cognitive structure of astrophysics by infomap clustering of the citation network and topic affinity analysis
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
CN112307336B (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112966091A (zh) 一种融合实体信息与热度的知识图谱推荐系统
Gutiérrez et al. Spreading semantic information by word sense disambiguation
CN106126605A (zh) 一种基于用户画像的短文本分类方法
US20180365324A1 (en) Method of data organization and data searching for use in constructing evidence-based beliefs
Kamal Review mining for feature based opinion summarization and visualization
CN106372147B (zh) 基于文本网络的异构主题网络构建和可视化方法
CN107239509A (zh) 面向短文本的单主题挖掘方法及系统
Hoeber et al. Evaluating WordBars in exploratory Web search scenarios
CN108959268B (zh) 一种文本情感分析方法及装置
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和系统
CN105389297A (zh) 文本相似度处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant