CN106372147B

CN106372147B - 基于文本网络的异构主题网络构建和可视化方法

Info

Publication number: CN106372147B
Application number: CN201610757401.0A
Authority: CN
Inventors: 何俊贤; 黄颖; 沈嘉明; 刘长风; 贾雨葶; 肖浩; 唐炜杰; 孔令坤; 胡天桓; 傅洛伊; 王新兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2020-09-15
Anticipated expiration: 2036-08-29
Also published as: CN106372147A

Abstract

本发明提供了一种基于文本网络的异构主题网络构建和可视化方法，包括：步骤1：基于原始数据集构建文本网络；步骤2：针对文本网路，构建基于主题模型的生成模型；步骤3：利用变分期望最大化算法构建生成模型的推断过程；步骤4：根据模型的推断过程，对文本网络进行训练，提取出词主题、文章主题以及主题之间的关系；步骤5：利用可视化工具展示异构主题网络。本发明构建了全新的异构主题网络，从而使得用户可以快速地建立对文本网络的认识。

Description

基于文本网络的异构主题网络构建和可视化方法

技术领域

本发明涉及文本网络探索式搜索领域，具体地，涉及一种基于文本网络的异构主题网络构建和可视化方法。

背景技术

大数据时代的到来，意味着全球数据量呈现爆炸式增长，全球已进入数据泽它时代。根据互联网数据中心的统计，2010年全球数据量达到1.2泽它字节，2011年全球数据量达到1.8泽它字节，上涨50％，预测到2020年全球数据量将达到35泽它字节。文本格式信息仍然是最主要的数据内容，通过文本格式信息间的关联性，形成了海量的文本网络。典型的文本网络包含但不仅限于：超链接的网页、在线社交网络、学术论文网络。

随着文本网络数量和规模的不断扩大，了解文本网络的内容覆盖范围和内容之间的关系成为了迫切的需求。然而，文本网络因其庞大的信息量和复杂的网络关系，使得现有的关键词式搜索引擎难以满足搜索需求。现有的关键词式搜索引擎要求用户在进行搜索之前已经具有对文本网络的认识并且能够确定搜索关键词，这使得对于陌生文本网络的搜索变得十分困难。所以，帮助用户迅速、高效、准确地建立对一个陌生的、浩如烟海的文本网络的认识成为了一项非常重要而且具有挑战性的工作。

为了满足对于文本网络的认识需求，探索式搜索的概念被提出。到目前为止，国内外关注探索式搜索的主要研究方向包括：利用词频表、词频分布图和文本关键词模型，来增强计算机辅助阅读；利用挖掘共现行为的主题模型(如LDA算法)来检测语义主题，构建主题网络。

目前，基于主题模型构建主题网络的方法主要包括：考虑文本网络中的文本信息，对词的生成过程进行主题建模，提取出词主题；考虑文本网络中的网络结构信息，对链接的生成过程进行主题建模，提取出文章主题；考虑单个文本和主题之间的关系，构建单个文本和主题之间的网络。

但是这些研究成果或者只关注文本信息、词主题间的关系，或者只关注网络结构信息、文章主题之间的关系。现有的方法没有统一词主题和文章主题，不能建立词主题和文章主题之间的联系。因此最终在探索式搜索方面的使用价值都十分有限。一个可视化的连接了词主题和文章主题的异构主题网络更能够满足用户的需求，用户可以同时关注文本层面的信息和文章层面的信息。同时可视化的结果更易于理解，可以提高用户的搜索效率。基于以上问题，本发明提出了MHT模型，构建了全新的异构主题网络。异构主题网络中包含两种主题，即词主题和文章主题，以及三种主题间关系，即词主题与词主题之间的关系，文章主题与文章主题之间的关系和词主题与文章主题之间的关系。可视化后的异构主题网络——主题地图系统能够帮助用户快速、准确地了解文本网络。本发明填补了现有探索式搜索方法在统一词主题和文章主题方面的空白，在探索式搜索领域具有很好的应用前景。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于文本网络的异构主题网络构建和可视化方法。

根据本发明提供的基于文本网络的异构主题网络构建和可视化方法，包括如下步骤：

步骤1：基于原始数据集构建文本网络；

步骤2：针对文本网路，构建基于主题模型的生成模型；

步骤3：用变分期望最大化算法构建生成模型的推断过程；

步骤4：根据模型的推断过程，对文本网络进行训练，提取出词主题、文章主题以及主题之间的关系，词主题是指表现为词分布的主题，文章主题是指表现为文章分布的主题；

步骤5：利用可视化工具展示异构主题网络。

优选地，所述步骤1包括：

步骤1.1：将顶点集V设为空集，将边集E设为空集；

步骤1.2：将原始数据集中的每一篇文章加到顶点集V中；

步骤1.3：顶点集V中的每一篇文章对应一个词袋，词袋是指对每一篇文章中出现的词的次数的统计结果；

步骤1.4：将原始数据集中文章间的链接关系加入边集E中；

步骤1.5：V、E的集合构成图G，所述图G即为文本网络。

优选地，所述步骤2包括：

步骤2.1：对文本网络中的每篇文章，执行如下步骤：

基于狄利克雷超参数α，生成第m篇文章到词主题的分布的多项式参数θ_m；其中，α是θ_m所服从的狄利克雷分布的参数；m为正整数；

步骤2.2：对各篇文章中的每个词执行如下步骤：

基于多项式参数θ_m，生成词主题z_m,n；其中，θ表示文章到词主题的分布矩阵，θ_m表示矩阵θ对应第m篇文章的行向量，是z_m,n所服从的多项式分布的参数；n为正整数；z_m,n表示第m篇文章中的第n个词的词主题；

基于多项式参数

生成词w_m,n；其中，β表示词主题到词的分布矩阵，

表示矩阵β对应词主题z_m,n的行向量，是w_m,n所服从的多项式分布的参数；w_m,n表示第m篇文章中的第n个词；

步骤2.3：对各篇文章中的每个链接执行如下步骤：

基于多项式参数θ_m，生成转移词主题t_m,n；其中，θ_m是t_m,n所服从的多项式分布的参数；n为正整数；t_m,n表示第m篇文章中的第n个链接的转移词主题；

基于多项式参数

生成文章主题z′_m,n；其中，η表示词主题到文章主题的分布矩阵，

表示矩阵η对应转词主题t_m,n的行向量，z′_m,n表示第m篇文章中的第n个链接的文章主题；

基于多项式参数

生成链接y_m,n；其中，Ω表示文章主题到文章的分布矩阵，

表示矩阵Ω对应文章主题z′_m,n的行向量，是y_m,n所服从的多项式分布的参数；y_m,n表示第m篇文章中的第n个链接。

优选地，所述步骤3包括：

步骤3.1：对生成模型的概率进行分解，对于文章v_m，对联合概率p(w_m,y_m|α,η,β,Ω)取对数后分解如下：

其中，w_m是文章v_m的词，y_m是文章v_m的链接；q是一个变分概率分布，用于估计后验概率p(θ_m,z_m,t_m,z′_m|w_m,y_m)；

具体地：

其中

是取对数概率的下界，KL_m(q||p)是KL散度，用来衡量概率分布q和p之间的差异；q(θ_m,z_m,t_m,z′_m)表示对后验概率p(θ_m,z_m,t_m,z′_m|w_m,y_m)进行估计的变分概率，z_m表示文章v_m中词对应的词主题向量，t_m表示文章v_m中链接对应的转移词主题向量，z′_m表示文章v_m中链接对应的文章主题向量，p(w_m,y_m,θ_m,z_m,t_m,z′_m|α,η,β,Ω)表示生成文章v_m的联合概率，p(θ_m,z_m,t_m,z′_m|w_m,y_m,α,η,β,Ω)表示文章v_m的词主题分布、词对应的主题、链接对应的主题的后验概率分布，α是狄利克雷超参数，η表示词主题到文章主题的分布矩阵，β表示词主题到词的分布矩阵，Ω表示文章主题到文章的分布矩阵；

步骤3.2：通过引入自由的变分参数γ，φ，λ，σ，构建q如下：

其中，q(θ_m|γ_m)是狄利克雷分布，q(z_mn|φ_mn)，q(t_ml|λ_ml)，q(z′_ml|σ_ml)是多项式分布，N_m为第m篇文章词的个数，L_m为第m篇文章链接的个数；γ_m表示θ_m服从的狄利克雷分布的参数，φ_m表示z_m服从的多项式分布的参数矩阵，λ_m表示t_m服从的多项式分布的参数矩阵，σ_m表示z′_m服从的多项式分布的参数矩阵，q(θ_m|γ_m)表示生成词主题分布θ_m的概率估计，q(z_mn|φ_mn)表示生成词主题z_mn的概率估计，q(t_ml|λ_ml)表示生成转移词主题t_ml的概率估计，q(z′_ml|σ_ml)表示生成文章主题z′_ml的概率估计，z_mn表示文章v_m中第n个词对应的词主题，φ_mn表示z_mn服从的多项式分布的参数，t_ml表示文章v_m中第l个链接对应的转移词主题，λ_ml表示t_ml服从的多项式分布的参数，z′_ml表示文章v_m中第l个链接对应的文章主题，σ_ml表示z′_ml服从的多项式分布的参数，N_m表示文章v_m中词的个数，L_m表示文章v_m中链接的个数；

步骤3.3：对于整个文本网络，总概率p(w,y|α,η,β,Ω)如下：

其中，D表示文本网络中文章的个数，p(w_m,y_m|α,η,β,Ω)表示文本网络的生成概率；

步骤3.4：基于最大化期望算法框架，更新γ，φ，λ，σ，从而估计后验概率；更新后的公式如下：

其中，φ_mnk表示变分参数φ_mn中第k个变量，

表示第k个主题对应文章v_m中第n个词w_mn的分量，Ψ(·)是双伽马函数，γ_mk表示变分参数γ_m中第k个分量，α_k表示超参数α中第k个分量，λ_mlk表示表示变分参数λ_ml中第k个分量，σ_mlk′表示表示变分参数σ_ml中第k′个分量，K_y表示文章主题个数，K_w表示词主题个数，η_kk′表示词主题到文章主题的分布矩阵η中对应从第k个词主题到第k′个文章主题的分量，

表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到文章y_ml的分量，y_ml是文章v_m中第l个链接链接的文章；

步骤3.5：基于最大化期望算法框架，更新β，η，Ω，从而最大化

更新公式如下：

其中，

表示文章v_m中第n个词对应词主题向量的第x个分量，

当且仅当w_mn＝x，其他情况时为0；

表示文章v_m中第l个链接对应文章主题向量的第d个分量，

当且仅当y_ml＝d，其他情况时为0；β_kx表示词主题到词的分布矩阵β中对应第k个主题到第x个词的分量，Ω_k′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量。

优选地，所述步骤4包括：

步骤4.1：计算词主题与词主题之间的关系强度，关系强度以共现概率来衡量；假设词主题的生成是相互独立的，因此词主题间的关系强度p(z＝k₁,z＝k₂|D)能够按如下表达式计算：

式中：k₁表示第k₁个词主题，k₂表示第k₂个词主题，z表示词主题，p(z′|D)表示生成文章主题z′的概率，p(v_i|z′；D)表示生成文章v_i的后验概率，v_i表示数据集中的第i篇文章，p(z＝k₁|v_i；D)表示生成词主题z为第k₁个词主题的条件概率，p(z＝k₂|v_i；D)表示生成词主题z为第k₂个词主题的条件概率；

其中，p(z|v；D)和p(v|z′；D)能够分别由训练得到的参数θ和Ω得到；θ的后验期望θ_ik定义如下：

其中，#(v＝i,z＝k)表示在文章v_i中的被指定为词主题k的词的数目，能够从步骤3中训练出的参数φ得到，K_w是词主题的数目；α_k表示超参数α中第k个变量；

文章主题的后验概率分布能够按如下表达式计算：

其中，#(z′＝k′)表示指定为文章主题k′的链接数目，能够从步骤3中训练出的参数σ得到；p(z′＝k′|D)表示生成文章主题k′的概率，∑_k′#(z′＝k′)表示指定为文章主题z′为k′的链接数目的求和；

步骤4.2：计算文章主题与文章主题间的关系强度，关系强度以共现概率来衡量，假设文章主题的生成是相互独立的，因此文章主题之间的关系强度能够按如下表达式计算：

式中：p(z′＝k′₁,z′＝k′₂|D)表示同时生成两个链接的文章主题为第k′₁个文章主题和第k′₂个文章主题的概率，p(z|D)表示生成词主题z的概率，p(z′＝k′₁|z；D)表示生成文章主题k′₁的条件概率，p(z′＝k′₂|z；D)表示生成文章主题z′为第k′₂个文章主题的条件概率；

p(z′|z)由步骤3训练出的参数η得到，词主题的后验概率分布p(z＝k|D)能够按如下表达式计算：

其中，#(z＝k)表示指定为词主题k的词的数目，能够从步骤3中训练出的参数

得到；

步骤4.3：计算词主题与文章主题间的关系强度，关系强度以共现概率来衡量；根据贝叶斯法则，词主题与文章主题间的关系强度p(z＝k,z′＝k′|D)能够按如下表达式计算：

p(z＝k,z′＝k′|D)＝p(z′＝k′|z＝k；D)p(z＝k)

式中：p(z′＝k′|z＝k；D)表示生成文章主题z′为第k′个文章主题的条件概率，p(z＝k)表示生成词主题z为第k个词主题的概率；

步骤4.4：对于一个给定的文章主题，并从中选取期望最高的10个词来表示这个文章主题，利用如下表达式计算每个词w出现次数的期望：

式中：

表示在文章主题为k′的情况下词w出现的期望，Ω_k′d表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量，#(w,d)表示第d篇文章中词w出现的次数。

优选地，所述步骤5包括：

步骤5.1：对选定的文本数据集进行训练，提取出词主题、文章主题以及主题之间的关系，生成csv格式的文件；

步骤5.2：利用可视化工具Gephi得到词主题与文章主题分布的布局；

步骤5.3：利用D3.JS等工具搭建静态的主题地图系统。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于文本网络中的网络结构信息和文本信息，同时提取出了词主题和文章主题，并且量化地建立了词主题和文章主题之间的关系，弥补了现有技术在联合建模上的不足。

2、本发明构建了全新的异构主题网络，可视化后的异构主题网络—主题地图系统清晰明确展示了文本网络的内容结构和内容关系，提高了探索式搜索的效率和准确性，能够帮助用户快速建立对文本网络的认识。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明适用的文本网络的示意图；

图2为本发明构造的异构主题网络示意图；

图3为本发明涉及的生成模型的生成过程；

图4为本发明的方法流程图；

图5为本发明构造的主题地图系统的示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

根据本发明提供的基于文本网络的异构主题网络构建和可视化方法，涉及整理含文本网络的自动化程序、基于主题模型的新型文本网络生成模型、新型模型的推断过程和参数估计、主题间关系提取、异构主题网络的可视化展示；具体地，包括如下步骤：

步骤S1：基于原始数据集构建文本网络；

步骤S2：针对文本网路，构建基于主题模型的生成模型；

步骤S3：用变分期望最大化算法构建生成模型的推断过程；

步骤S4：根据模型的推断过程，对文本网络进行训练，提取出词主题、文章主题以及主题之间的关系，词主题是指表现为词分布的主题，文章主题是指表现为文章分布的主题；

步骤S5：利用可视化工具展示异构主题网络。

所述步骤S1包括：从互联网上获得公开的文本数据集，从数据集中抽取出文本信息，例如在论文网络中以论文的标题和摘要作为文本信息，在社交网络中以用户推送的短文内容作为文本信息，在超链接的网页网络中以网页标题和主要文字作为文本信息；从数据集中抽取出链接信息，例如在论文网络中以论文的参考文献作为链接信息，在社交网络中以转发行为作为链接信息，在超链接的网页中以网页的链接作为链接信息；将提取出的信息生成csv格式的文件，具体地：

步骤S1.1：将顶点集V设为空集，将边集E设为空集，将图G设为V,E的集合；

步骤S1.2：将原始数据集中的每一篇文章加到顶点集V中；

步骤S1.3：顶点集中的每一篇文章对应一个词袋，词袋是指对每一篇文章中出现的词的次数的统计结果，整个文本网络中出现的词均以编号表示；

步骤S1.4：顶点集中的每一篇文章对应一个词袋，词袋是指对每一篇文章中出现的词的次数的统计结果。

所述步骤S2包括：对文本网络结构中的文本和链接的生成过程进行建模，生成模型是指在已知参数的条件下，假设文章生成过程服从的模型，文章的生成模型可参见附图3；本发明生成模型涉及的假设有，每篇文章中每个词的词主题、每个链接的转移词主题服从多项分布，且其先验分布服从狄利克雷分布，每个词主题下不同的词服从多项分布，每个文章主题下不同的文章服从多项分布；具体地：

步骤S2.1：对文本网络中的各篇文章，执行如下步骤：

步骤S2.2：对各篇文章中的各个词执行如下步骤：

基于多项式参数

生成词w_m,n；其中，β表示词主题到词的分布矩阵，

步骤S2.3：对各篇文章中的各个链接执行如下步骤：

基于多项式参数

表示矩阵η对应转词主题t_m,n的行向量，是z′_m,n所服从的多项式分布的参数；z′_m,n表示第m篇文章中的第n个链接的文章主题；

基于多项式参数

生成链接y_m,n；其中，Ω表示文章主题到文章的分布矩阵，

表示矩阵Ω对应文章主题z′_m,n的行向量，是y_m,n所服从的多项式分布的参数；y_m,n表示第m篇文章中的第n个链接；

所述步骤S3包括：构建生成模型的推断过程，估计生成模型中的参数，通过已知的文本信息和链接信息去推断隐含的参数；本发明采用变分最大化期望的算法进行推断，具体地：

步骤S3.1：对上述生成模型的联合概率进行分解。对于文章v_m，对联合概率取对数后分解如下：

其中，w_m是文章v_m的词，y_m是文章v_m的链接；q是一个变分概率分布，用于估计后验概率p(θ_m,z_m,t_m,z′_m|w_m,y_m)；具体地：

其中

是取对数概率的下界，KL_m(q||p)是KL散度，用来衡量概率分布q和p之间的差异；

步骤S3.2：通过引入自由的变分参数γ，φ，λ，σ，构建q如下：

其中，q(θ_m|γ_m)是狄利克雷分布，q(z_mn|φ_mn)，q(t_ml|λ_ml)，q(z′_ml|σ_ml)是多项式分布，N_m为第m篇文章词的个数，L_m为第m篇文章链接的个数；

步骤S3.3：对于整个文本网络，总概率如下：

步骤S3.4：基于最大化期望算法框架，更新γ，φ，λ，σ，从而估计后验概率；更新公式如下：

其中，Ψ(·)是双伽马函数；

步骤S3.5：基于最大化期望算法框架，更新β，η，Ω，从而最大化

更新公式如下：

其中，

当且仅当w_mn＝x，其他情况时为0；

当且仅当y_ml＝d，其他情况时为0；

所述步骤S4包括：利用训练文本网络的到的参数来计算词主题与词主题之间，文章主题与文章主题之间，词主题与文章主题之间的关系强度，计算得到的关系强度用于步骤S5中的可视化，具体地：

步骤S4.1：计算词主题与词主题之间的关系强度，关系强度以共现概率来衡量；本发明假设词主题的生成是相互独立的，因此词主题间的关系强度可用按如下表达式计算：

其中，p(z|v；D)和p(v|z′；D)可以分别由训练得到的参数θ和Ω得到；θ的后验期望定义如下：

其中，#(v＝i,z＝k)代表在文章v_i中的被指定为词主题k的词的数目，可以从步骤3中训练出的参数φ得到。K_w是词主题的数目；文章主题的后验概率分布可按如下表达式计算：

其中，#(z′＝k′)代表指定为文章主题k′的链接数目，可以从步骤3中训练出的参数σ得到；

步骤S4.2：计算文章主题与文章主题间的关系强度，关系强度以共现概率来衡量，本发明中假设文章主题的生成是相互独立的，因此文章主题之间的关系强度可按如下表达式计算：

p(z′|z)可由步骤S3训练出的参数η得到，词主题的后验概率分布可按如下表达式计算：

其中，#(z＝k)代表指定为词主题k的词的数目，可以从步骤S3中训练出的参数

得到；

步骤S4.3：计算词主题与文章主题间的关系强度，关系强度以共现概率来衡量；根据贝叶斯法则，词主题与文章主题间的关系强度可按如下表达式计算：

p(z＝k,z′＝k′|D)＝p(z′＝k′|z＝k；D)p(z＝k)

步骤S4.4：选出有代表性的词来表示文章主题，由于对于文章主题仅得到了主题对文章的分布，为了更加直观地表示文章主题，对于一个给定的文章主题，利用如下表达式计算每个词w出现次数的期望：

从中选取期望最高的10个词来表示这个文章主题。

所述步骤S5包括：根据前述步骤提取出的词主题、文章主题以及主题之间的关系构建异构主题网络并进行可视化，构建主题地图系统；在主题地图中，节点代表主题，词主题和文章主题以颜色和标签的形式区分，节点的大小代表了该主题在文本网络在中的流行程度；边代表超过设定阈值的关系强度，边的粗细代表关系强度的强弱；主题地图系统具有以下功能：(1)当用户鼠标悬停在主题上时，该主题节点和与之相连的节点、边高亮显示，若该主题为词主题，则显示该主题下最重要的十个词以及主题的流行程度；若该主题为文章主题，则显示该主题下最重要的十篇文章的标题、步骤S4.4计算得到的关键词以及该主题的流行程度；(2)当用户鼠标悬停在边上时，边高亮显示，并且显示对应的关系强度；(3)在主题地图上方进行选择，可以选择只显示词主题，只显示文章主题，或者两者都显示；具体地：

步骤S5.1：根据前述步骤对选定的文本数据集进行训练，提取出词主题、文章主题以及主题之间的关系，生成csv格式的文件；

步骤S5.2：利用可视化工具Gephi得到词主题与文章主题在主题地图中分布的布局，利用Gephi内置的ForceAtlas2布局方式，布局由主题间的关系强度决定；

步骤S5.3：利用D3.JS等工具搭建静态的主题地图系统，使得用户能够既方便又快速地了解文本网络。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于文本网络的异构主题网络构建和可视化方法，其特征在于，包括如下步骤：

步骤1：基于原始数据集构建文本网络；

步骤2：针对文本网路，构建基于主题模型的生成模型；

步骤3：用变分期望最大化算法构建生成模型的推断过程；

步骤5：利用可视化工具展示异构主题网络；

所述步骤3包括：

具体地：

其中

是取对数概率的下界，KL_m(q||p)是KL散度，用来衡量概率分布q和p之间的差异；q(θ_m,z_m,t_m,z′_m)表示对后验概率p(θ_m,z_m,t_m,z′_m|w_m,y_m)进行估计的变分概率，z_m表示文章v_m中词对应的词主题向量，t_m表示文章v_m中链接对应的转移词主题向量，z′_m表示文章v_m中链接对应的文章主题向量，p(w_m,y_m,θ_m,z_m,t_m,z′_m|α,η,β,Ω)表示生成文章v_m的联合概率，p(θ_m,z_m,t_m,z′_m|w_m,y_m,α,η,β,Ω)表示文章v_m的词主题分布、词对应的主题、链接对应的主题的后验概率分布，α是狄利克雷超参数，η表示词主题到文章主题的分布矩阵，β表示词主题到词的分布矩阵，Ω表示文章主题到文章的分布矩阵；θ_m表示生成第m篇文章到词主题的分布的多项式参数；

步骤3.3：对于整个文本网络，总概率p(w,y|α,η,β,Ω)如下：

其中，D表示文本网络中文章的个数，p(w_m,y_m|α,η,β,Ω)表示文本网络的生成概率；w表示文章v的词；y表示文章v的链接；

其中，φ_mnk表示变分参数φ_mn中第k个变量，

更新公式如下：

其中，

表示文章v_m中第n个词对应词主题向量的第x个分量，

当且仅当w_mn＝x，其他情况时为0；

表示文章v_m中第l个链接对应文章主题向量的第d个分量，

2.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法，其特征在于，所述步骤1包括：

步骤1.1：将顶点集V设为空集，将边集E设为空集；

步骤1.2：将原始数据集中的每一篇文章加到顶点集V中；

步骤1.4：将原始数据集中文章间的链接关系加入边集E中；

步骤1.5：V、E的集合构成图G，所述图G即为文本网络。

3.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法，其特征在于，所述步骤2包括：

步骤2.1：对文本网络中的每篇文章，执行如下步骤：

步骤2.2：对各篇文章中的每个词执行如下步骤：

基于多项式参数

生成词w_m,n；其中，β表示词主题到词的分布矩阵，

步骤2.3：对各篇文章中的每个链接执行如下步骤：

基于多项式参数

基于多项式参数

生成链接y_m,n；其中，Ω表示文章主题到文章的分布矩阵，

4.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法，其特征在于，所述步骤4包括：

式中：k₁表示第k₁个词主题，k₂表示第k₂个词主题，z表示词主题，p(z'|D)表示生成文章主题z'的概率，p(v_i|z'；D)表示生成文章v_i的后验概率，v_i表示数据集中的第i篇文章，p(z＝k₁|v_i；D)表示生成词主题z为第k₁个词主题的条件概率，p(z＝k₂|v_i；D)表示生成词主题z为第k₂个词主题的条件概率；D表示文本网络中文章的个数；

其中，p(z|v；D)和p(v|z'；D)能够分别由训练得到的参数θ和Ω得到；θ的后验期望θ_ik定义如下：

文章主题的后验概率分布能够按如下表达式计算：

其中，#(z'＝k')表示指定为文章主题k'的链接数目，能够从步骤3中训练出的参数σ得到；p(z'＝k'|D)表示生成文章主题k'的概率，∑_k'#(z'＝k')表示指定为文章主题z'为k'的链接数目的求和；

式中：p(z'＝k'₁,z'＝k'₂|D)表示同时生成两个链接的文章主题为第k'₁个文章主题和第k'₂个文章主题的概率，p(z|D)表示生成词主题z的概率，p(z'＝k'₁|z；D)表示生成文章主题k'₁的条件概率，p(z'＝k'₂|z；D)表示生成文章主题z'为第k'₂个文章主题的条件概率；

p(z'|z)由步骤3训练出的参数η得到，词主题的后验概率分布p(z＝k|D)能够按如下表达式计算：

得到；

步骤4.3：计算词主题与文章主题间的关系强度，关系强度以共现概率来衡量；根据贝叶斯法则，词主题与文章主题间的关系强度p(z＝k,z'＝k'|D)能够按如下表达式计算：

p(z＝k,z'＝k'|D)＝p(z'＝k'|z＝k；D)p(z＝k)

式中：p(z'＝k'|z＝k；D)表示生成文章主题z'为第k'个文章主题的条件概率，p(z＝k)表示生成词主题z为第k个词主题的概率；

式中：

表示在文章主题为k'的情况下词w出现的期望，Ω_k'd表示文章主题到文章的分布矩阵Ω中对应从第k′个文章主题到第d篇文章的分量，#(w,d)表示第d篇文章中词w出现的次数。

5.根据权利要求1所述的基于文本网络的异构主题网络构建和可视化方法，其特征在于，所述步骤5包括：

步骤5.3：利用D3.JS工具搭建静态的主题地图系统。