CN107515854A - 基于带权时序文本网络的时序社区以及话题的检测方法 - Google Patents
基于带权时序文本网络的时序社区以及话题的检测方法 Download PDFInfo
- Publication number
- CN107515854A CN107515854A CN201710625669.3A CN201710625669A CN107515854A CN 107515854 A CN107515854 A CN 107515854A CN 201710625669 A CN201710625669 A CN 201710625669A CN 107515854 A CN107515854 A CN 107515854A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msup
- msubsup
- community
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000009826 distribution Methods 0.000 claims description 130
- 238000010276 construction Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005315 distribution function Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 abstract description 6
- 230000002123 temporal effect Effects 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000002910 structure generation Methods 0.000 abstract 1
- 239000000243 solution Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于带权时序文本网络的时序社区以及话题的检测方法,包括:基于原始数据构建带权时序文本网络;针对带权时序文本网络,构建基于主题模型的生成模型;利用吉布斯采样方法构建生成模型的推断过程;根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息,主题信息,社区与主题的对应关系,用户在社区内影响力与参与度随时间变化特性;根据提取出的信息,对用户行为进行预测。本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。
Description
技术领域
本发明涉及到文本网络探索式搜索领域,具体地,涉及到基于带权时序文本网络的时序社区以及话题的检测方法。
背景技术
随着大数据时代的来临,意味着全球的数据量成井喷式的增长。而在线社交媒体作为数据量的来源之一,不管是博客,还是视频分享网站以及社交网络,在过去的半个十年里经历了快速的增长。面对从如此大量的数据,要从中提取有意义的信息,而这些数据的内在的网络结构是一种十分重要的提取依据。所以要去尽可能多的了解社交网络结构。其中的一种方法是识别具有相同属性或功能的节点组,这就是所熟悉的“社区发现”。
对于加权动态文本网络,如在线社交媒体推特和学术引文/合著网络。网络结构中的节点在现实中的意义往往代表用户,这些节点与几个推送相联系。用户之间的联系与他们之间的相关性的大小相关。每一个推送都被赋予了一个时间轴用来表示发布时间的先后顺序。用户与用户之间的联系也被赋予了几个时间轴用来说明相互联系的时间。
然而,对于这样的网络很难建立全面的模型,为了简化计算,通常设边的权重相等。对于一些少数的情况要将边的权重考虑进去时,边缘权重也仅用于计算和最大化/最小化图的一些测量,从而可以检测到社区网络。因为边的权重是社区网络的一个重要特征,所以将边的权重加入到本发明的生成模型中。另一个问题是如何利用动态的信息,在时间轴上进行分割,得到一个个用时间分割的子网络,因为网络在时间轴上的分布是连续的,所以如何分配分割的时间是一个棘手的问题。对于这个问题,并没有采用将时间离散化的方式,相反采用连续分布的模型去模拟社区中用户和用户之间的关联以及发布的信息。
发明内容
针对现有技术中的缺陷,本发明的目的是提供基于带权时序文本网络的时序社区以及话题的检测方法。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于带权时序文本网络的时序社区以及话题的检测方法,包括如下步骤:
步骤S1:基于原始数据构建带权时序文本网络;
步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;
步骤S5:根据提取出的信息,对用户行为进行预测。
上述技术方案中,所述步骤S1包括以下步骤:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
上述技术方案中,所述步骤S2包括以下步骤:
所步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
基于多项式参数生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数生成边(i,i’)的权重eii′;
基于贝塔参数生成出边(i,i’)的入时刻sii′m;
基于贝塔参数生成出边(i,i’)的出时刻s′ii′m。
上述技术方案中,所述步骤S3包括:
步骤S301:为文章dij采样社区cij,构建p如下:
P(ci,j=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S302:为文章dij采样主题zij,构建p如下:
P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,指的是文章dij中词的数量,表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,表示用户i在社区c中发表的所有文章和边的数量,表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,表示用户i′在社区c′中发表的所有文章和边的数量,表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′,分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck,
其中,mck表示社区c和主题k的上的时间标签的平均值。表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
其中mic和表示与社区C相关联的用户的出时刻时间标记的均值和方差,
其中m′ic和表示与社区C相关联的用户的入时刻时间标记的均值和方差。
上述技术方案中,所述步骤S4包括:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
η满足泊松分布,用下面的公式来表示:
其中,是第i个用户关于社区c的分布概率,是社区c中关于第k个主题的分布概率,是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;表示用户i与社区c有关联的文章和边的频数,表示用户i与任意社区有联系的文章和边的频数,C是社区的数目;表示同时与社区c和主题k关联的文章的频数,表示与社区c有关联的所有主题的文章的频数,K是主题的数目;表示与主题k相关联的关键词w的频数,表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,表示社区c与c′之间交互的频数。
上述技术方案中,所述步骤S5包括:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
本发明与现有技术相比,具有如下有益效果:
本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,弥补了现有技术在网络中边的时间信息建模上的不足。此外,本发明构建了同时提取了网络中的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的方法流程图。
图2为本发明适用的带权时序网络的示意图;
图3为本发明提取出的信息示意图;
图4为本发明涉及的生成模型的生成过程。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
根据本发明提供的基于带权时序文本网络的时序社区以及话题的检测方法,涉及整理含带权时序网络的自动化程序、基于主题模型的新型带权时序网络生成模型、新型模型的推断过程和参数估计、基于模型的预测功能;具体地,如附图1所示,包括如下步骤:步骤S1:基于原始数据构建带权时序文本网络;步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;步骤S3:利用吉布斯采样方法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;步骤S5:根据提取出的信息,对用户行为进行预测。
所述步骤S1包括:从互联网上获得公开的文本数据集,如社交网络数据集、学术论文数据集;考虑一个现实中的网络G=(u,ε),其中u是U用户的一个集合,ε是一个E带权边的集合。(i,i',eii',s,s')∈ε表示在用户i和用户i'之间存在交互,交互的权重记为eii',其边包括了两种时间标记,分别记为s和s',其代表着用户i和用户i'之间每次独立的交互过程的输出和输入时间;在本发明中,设定权重作为两个用户之间大量交互的指标,其中也包括大量交互过程中产生的时间对标记。与之相对应的,如果在用户i和用户i'之间没有发生任何交互,eii'等于零并且这两个时间标记存储为空;本发明中对于社区的定义是用户的即节点的集合,对于主题的定义是词的集合;具体地:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
图2为本发明适用的带权时序网络的示意图;如图2所示,步骤S2包括:对带权时序中的文本、边、时间标记的生成过程进行建模,生成模型是指在已知参数的条件下,假设网络生成过程服从的模型,网络的生成模型可参见附图4;本发明生成模型涉及的假设有,每个用户关于社区的分布、主题关于词的分布服从多项分布,且其先验分布服从狄利克雷分布;所有时间标记的分布服从贝塔分布,且其先验分布服从伽马分布;具体地:
步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数;c为正整数;
基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数;k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
基于多项式参数生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数生成边(i,i’)的权重eii′;
基于贝塔参数生成出边(i,i’)的入时刻sii′m;
基于贝塔参数生成出边(i,i’)的出时刻s′ii′m。
图4为本发明涉及的生成模型的生成过程,如图4所示,步骤S3包括:构建生成模型的推断过程,通过已知的文本信息、边信息、时间信息进行推断;图3为为本发明提取出的信息示意图。
本发明采用吉布斯采样的算法进行推断,具体地:
步骤S301:为文章dij采样社区cij,构建p如下:
P(cij=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S302:为文章dij采样主题zij,构建p如下:
P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,指的是文章dij中词的数量,表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,表示用户i在社区c中发表的所有文章和边的数量,表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,表示用户i′在社区c′中发表的所有文章和边的数量,表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′,分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck,
其中,mck表示社区c和主题k的上的时间标签的平均值。表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
其中mic和表示与社区C相关联的用户的出时刻时间标记的均值和方差,
其中m′ic和表示与社区C相关联的用户的入时刻时间标记的均值和方差。
步骤S4包括:利用模型对带权时序网络进行训练,通过训练得到的结果对该网络的参数进行估计,具体地:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
η满足泊松分布,用下面的公式来表示:
其中,是第i个用户关于社区c的分布概率,是社区c中关于第k个主题的分布概率,是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;表示用户i与社区c有关联的文章和边的频数,表示用户i与任意社区有联系的文章和边的频数,C是社区的数目;表示同时与社区c和主题k关联的文章的频数,表示与社区c有关联的所有主题的文章的频数,K是主题的数目;表示与主题k相关联的关键词w的频数,表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,表示社区c与c′之间交互的频数。
本发明的步骤S5包括:根据前述步骤提取的的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,可以对用户的行为记性预测;具体地:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
本发明在用户之间编码权重和时间上的信息,这是一种基于权重和时间的方法。由此,基于贝叶斯网络的概率生成模型,提出了时间社区检测的模型(Custom TemporalCommunity Detection)。因为考虑了权重信息和时间信息,CTCD能够为每个用户推荐相应的社区,能够加强社区与社区之间的联系同时为用户推荐一些感兴趣的话题。本发明设计了一种高效的基于吉布斯抽样的推导算法,并针对大规模社交网络提出了相应的并行实现方法。此外,本发明被证明是可以达到高精度的预测效果,从此算法中所提取的信息揭示了网络社区中一些新颖的发展模式。本发明具有创新的视角:在每两个具有时间轴的用户之间的建立了多样的关联模型作为他们之间的权重边,通过这种方式建立的时间模型,能够为每个用户增加与社区之间的关联性,并且避免了由以前的时间离散模型带来的问题。全面的模型:本发明的模型结合了语义,网络和时间上的信息。时间社区连接着每个用户,社区之间关联的强弱以及每个社区感兴趣的话题能够被及时发现。随着信息的提取与增加,能够发现每个用户所属社区的转移以及跟踪社区的发展。可推广的推导:本发明提出了一种基于吉布斯抽样的推导方法,能够达到线性的复杂度,这能够应对大规模的社区数据集,开发了并行实现,并提出了几种方法来处理进程之间的同步问题。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (6)
1.一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,包括如下步骤:
步骤S1:基于原始数据构建带权时序文本网络;
步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;
步骤S5:根据提取出的信息,对用户行为进行预测。
2.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S1包括以下步骤:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
3.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S2包括以下步骤:
所步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
基于多项式参数生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数生成边(i,i’)的权重eii′;
基于贝塔参数生成出边(i,i’)的入时刻sii′m;
基于贝塔参数生成出边(i,i’)的出时刻s′ii′m。
4.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S3包括:
步骤S301:为文章dij采样社区cij,构建p如下:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>c</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>c</mi>
<mo>|</mo>
<msub>
<mi>z</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>k</mi>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>t</mi>
<mo>,</mo>
<msub>
<mi>c</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>g</mi>
<mo>,</mo>
<msub>
<mi>z</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mo>&CenterDot;</mo>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&Proportional;</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&rho;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>C</mi>
<mi>&rho;</mi>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>K</mi>
<mi>&alpha;</mi>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msubsup>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>&CenterDot;</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
<mrow>
<mi>B</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S302:为文章dij采样主题zij,构建p如下:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>k</mi>
<mo>|</mo>
<msub>
<mi>c</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>c</mi>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mi>t</mi>
<mo>,</mo>
<msub>
<mi>c</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>z</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>t</mi>
<mrow>
<mo>-</mo>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>,</mo>
<mi>w</mi>
<mo>,</mo>
<mo>&CenterDot;</mo>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&Proportional;</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>K</mi>
<mi>&alpha;</mi>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msubsup>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>&CenterDot;</mo>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
<mrow>
<mi>B</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msubsup>
<mi>&Pi;</mi>
<mrow>
<mi>v</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>V</mi>
</msubsup>
<msubsup>
<mi>&Pi;</mi>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<msubsup>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</msubsup>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>n</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>q</mi>
<mo>+</mo>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Pi;</mi>
<mrow>
<mi>q</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<msubsup>
<mi>n</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<msubsup>
<mi>n</mi>
<mi>k</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>q</mi>
<mo>+</mo>
<mi>V</mi>
<mi>&beta;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,指的是文章dij中词的数量,表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij;
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>g</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>=</mo>
<mi>c</mi>
<mo>,</mo>
<msubsup>
<mi>g</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mo>|</mo>
<msub>
<mi>e</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>g</mi>
<mrow>
<mo>-</mo>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>,</mo>
<mi>c</mi>
<mo>,</mo>
<mi>e</mi>
<mo>,</mo>
<mo>.</mo>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>&Proportional;</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&sigma;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>C</mi>
<mi>&sigma;</mi>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mo>(</mo>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&rho;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>C</mi>
<mi>&rho;</mi>
</mrow>
</mfrac>
<mfrac>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
</mrow>
</msup>
<msubsup>
<mi>&Pi;</mi>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<msub>
<mi>e</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<mi>m</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<msub>
<mi>e</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</msup>
</mfrac>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<munder>
<mi>&Pi;</mi>
<msub>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
</msub>
</munder>
<mfrac>
<mrow>
<msubsup>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
<mrow>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mi>o</mi>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
<mrow>
<mi>B</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<munder>
<mi>&Pi;</mi>
<msubsup>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
</munder>
<mfrac>
<mrow>
<msubsup>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
<mrow>
<mmultiscripts>
<mi>&gamma;</mi>
<mo>&prime;</mo>
</mmultiscripts>
<msup>
<msub>
<mrow></mrow>
<mi>i</mi>
</msub>
<mo>&prime;</mo>
</msup>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>o</mi>
<mrow>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
</msubsup>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>s</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
<mi>m</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
<msub>
<msup>
<mrow></mrow>
<mo>&prime;</mo>
</msup>
<mi>c</mi>
</msub>
<msub>
<msup>
<mrow></mrow>
<mo>&prime;</mo>
</msup>
<mn>1</mn>
</msub>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msup>
</mrow>
<mrow>
<mi>B</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&gamma;</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&gamma;</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,表示用户i在社区c中发表的所有文章和边的数量,表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,表示用户i′在社区c′中发表的所有文章和边的数量,表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′,分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck,
<mrow>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<msubsup>
<mi>v</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<msubsup>
<mi>v</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中,mck表示社区c和主题k的上的时间标签的平均值。表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic:
<mrow>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>=</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<msubsup>
<mi>v</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<msubsup>
<mi>v</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
其中mic和表示与社区C相关联的用户的出时刻时间标记的均值和方差,
<mrow>
<msub>
<mi>&gamma;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>=</mo>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
</mrow>
<mo>)</mo>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
<mo>;</mo>
<msub>
<mi>&gamma;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
<mn>1</mn>
</mrow>
</msub>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>)</mo>
</mrow>
<mo>(</mo>
<mrow>
<mfrac>
<mrow>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msubsup>
<mi>m</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
<mn>2</mn>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
其中m′ic和表示与社区C相关联的用户的入时刻时间标记的均值和方差。
5.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S4包括:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii';
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
<mrow>
<msub>
<mover>
<mi>&pi;</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mi>c</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&rho;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>i</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<msub>
<mi>C</mi>
<mi>&rho;</mi>
</msub>
</mrow>
</mfrac>
</mrow>
<mrow>
<msub>
<mover>
<mi>&theta;</mi>
<mo>^</mo>
</mover>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mi>k</mi>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>&alpha;</mi>
</mrow>
<mrow>
<msubsup>
<mi>n</mi>
<mi>c</mi>
<mrow>
<mo>(</mo>
<mo>&CenterDot;</mo>
<mo>)</mo>
</mrow>
</msubsup>
<mo>+</mo>
<mi>K</mi>
<mi>&alpha;</mi>
</mrow>
</mfrac>
</mrow>
η满足泊松分布,用下面的公式来表示:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>e</mi>
<mo>|</mo>
<msub>
<mi>g</mi>
<mi>e</mi>
</msub>
<mo>=</mo>
<mi>c</mi>
<mo>,</mo>
<msubsup>
<mi>g</mi>
<mi>e</mi>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<msup>
<mi>c</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<mi>g</mi>
<mo>,</mo>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<mi>&lambda;</mi>
</mrow>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
<msubsup>
<mi>&Pi;</mi>
<mrow>
<mi>m</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
<mrow>
<mi>e</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<mi>m</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</msup>
<msup>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<mi>e</mi>
</mrow>
<mo>)</mo>
</mrow>
</msup>
</mfrac>
</mrow>
其中,是第i个用户关于社区c的分布概率,是社区c中关于第k个主题的分布概率,是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;表示用户i与社区c有关联的文章和边的频数,表示用户i与任意社区有联系的文章和边的频数,C是社区的数目;表示同时与社区c和主题k关联的文章的频数,表示与社区c有关联的所有主题的文章的频数,K是主题的数目;表示与主题k相关联的关键词w的频数,表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,表示社区c与c′之间交互的频数。
6.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S5包括:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<mi>s</mi>
<mo>,</mo>
<msup>
<mi>s</mi>
<mo>&prime;</mo>
</msup>
<mo>|</mo>
<mi>&pi;</mi>
<mo>,</mo>
<mi>&eta;</mi>
<mo>,</mo>
<mi>&delta;</mi>
<mo>,</mo>
<mi>&gamma;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mi>g</mi>
</munder>
<munder>
<mi>&Sigma;</mi>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>g</mi>
<mo>|</mo>
<mi>i</mi>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
<mo>|</mo>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>e</mi>
<mrow>
<msup>
<mi>ii</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>></mo>
<mn>0</mn>
<mo>|</mo>
<mi>g</mi>
<mo>,</mo>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>s</mi>
<mo>|</mo>
<mi>i</mi>
<mo>,</mo>
<mi>g</mi>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>s</mi>
<mo>&prime;</mo>
</msup>
<mo>|</mo>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<mo>,</mo>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mi>g</mi>
</munder>
<munder>
<mi>&Sigma;</mi>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
</munder>
<msub>
<mi>&pi;</mi>
<mrow>
<mi>i</mi>
<mi>g</mi>
</mrow>
</msub>
<msub>
<mi>&pi;</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msup>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
</mrow>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>1</mn>
</msub>
<mo>+</mo>
<msub>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
</msub>
<mo>+</mo>
<mn>1</mn>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>&lambda;</mi>
<mn>0</mn>
</msub>
<mo>+</mo>
<msubsup>
<mi>n</mi>
<mrow>
<msup>
<mi>cc</mi>
<mo>&prime;</mo>
</msup>
</mrow>
<mi>s</mi>
</msubsup>
</mrow>
<mo>)</mo>
</mrow>
</msup>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>s</mi>
<mo>;</mo>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>g</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&delta;</mi>
<mrow>
<mi>i</mi>
<mi>g</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mrow>
<msup>
<mi>s</mi>
<mo>&prime;</mo>
</msup>
<mo>;</mo>
<msub>
<mi>&gamma;</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&gamma;</mi>
<mrow>
<msup>
<mi>i</mi>
<mo>&prime;</mo>
</msup>
<msup>
<mi>g</mi>
<mo>&prime;</mo>
</msup>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mover>
<mi>t</mi>
<mo>^</mo>
</mover>
<mi>d</mi>
</msub>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>max</mi>
<mi>t</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>d</mi>
<mo>|</mo>
<mi>t</mi>
<mo>,</mo>
<mi>i</mi>
<mo>,</mo>
<mi>&pi;</mi>
<mo>,</mo>
<mi>&theta;</mi>
<mo>,</mo>
<mi>&phi;</mi>
<mo>,</mo>
<mi>&psi;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>max</mi>
<mi>t</mi>
</munder>
<munder>
<mi>&Sigma;</mi>
<mi>c</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>c</mi>
<mo>|</mo>
<mi>i</mi>
<mo>,</mo>
<mi>&pi;</mi>
</mrow>
<mo>)</mo>
</mrow>
<munder>
<mi>&Sigma;</mi>
<mi>k</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>k</mi>
<mo>|</mo>
<mi>c</mi>
<mo>,</mo>
<mi>&theta;</mi>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>w</mi>
<mo>|</mo>
<mi>k</mi>
<mo>,</mo>
<mi>&phi;</mi>
</mrow>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>t</mi>
<mo>|</mo>
<mi>c</mi>
<mo>,</mo>
<mi>k</mi>
<mo>,</mo>
<mi>&psi;</mi>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mi>max</mi>
<mi>t</mi>
</munder>
<munder>
<mi>&Sigma;</mi>
<mi>c</mi>
</munder>
<msub>
<mi>&pi;</mi>
<mrow>
<mi>i</mi>
<mi>c</mi>
</mrow>
</msub>
<munder>
<mi>&Sigma;</mi>
<mi>k</mi>
</munder>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
</mrow>
</msub>
<mi>b</mi>
<mrow>
<mo>(</mo>
<mrow>
<mi>t</mi>
<mo>;</mo>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>0</mn>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>&psi;</mi>
<mrow>
<mi>c</mi>
<mi>k</mi>
<mn>1</mn>
</mrow>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<munder>
<mi>&Pi;</mi>
<mi>w</mi>
</munder>
<msub>
<mi>&phi;</mi>
<mrow>
<mi>k</mi>
<mi>w</mi>
</mrow>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710625669.3A CN107515854B (zh) | 2017-07-27 | 2017-07-27 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710625669.3A CN107515854B (zh) | 2017-07-27 | 2017-07-27 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107515854A true CN107515854A (zh) | 2017-12-26 |
CN107515854B CN107515854B (zh) | 2021-06-04 |
Family
ID=60721643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710625669.3A Active CN107515854B (zh) | 2017-07-27 | 2017-07-27 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107515854B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918570A (zh) * | 2019-03-18 | 2019-06-21 | 智者四海(北京)技术有限公司 | 内容推荐方法、装置、存储介质及内容处理方法 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN112905907A (zh) * | 2021-01-29 | 2021-06-04 | 重庆理工大学 | 一种系统进化移植分区时序网络的动态社区发现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466334B2 (ja) * | 2004-11-08 | 2010-05-26 | 日本電信電話株式会社 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN105631018A (zh) * | 2015-12-29 | 2016-06-01 | 上海交通大学 | 基于主题模型的文章特征抽取方法 |
CN106372147A (zh) * | 2016-08-29 | 2017-02-01 | 上海交通大学 | 基于文本网络的异构主题网络构建和可视化方法 |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
-
2017
- 2017-07-27 CN CN201710625669.3A patent/CN107515854B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4466334B2 (ja) * | 2004-11-08 | 2010-05-26 | 日本電信電話株式会社 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
CN102937960A (zh) * | 2012-09-06 | 2013-02-20 | 北京邮电大学 | 突发事件热点话题的识别与评估装置和方法 |
CN105488092A (zh) * | 2015-07-13 | 2016-04-13 | 中国科学院信息工程研究所 | 一种时间敏感和自适应的子话题在线检测方法及系统 |
CN105631018A (zh) * | 2015-12-29 | 2016-06-01 | 上海交通大学 | 基于主题模型的文章特征抽取方法 |
CN106372147A (zh) * | 2016-08-29 | 2017-02-01 | 上海交通大学 | 基于文本网络的异构主题网络构建和可视化方法 |
CN106649726A (zh) * | 2016-12-23 | 2017-05-10 | 中山大学 | 一种社交网络中社团话题演化挖掘方法 |
Non-Patent Citations (4)
Title |
---|
JUNXIAN HE ET.AL: "《 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW)》", 《TEXT NETWORK EXPLORATION VIA HETEROGENEOUS WEB OF TOPICS》 * |
YOUCEF ABDELSADEK ET.AL: "On the Community Identification in Weighted Time-Varying Networks", 《INTERNATIONAL CONFERENCE ON SWARM INTELLIGENCE BASED OPTIMIZATION》 * |
肖海岭: "动态社会网络中的话题跟踪算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 * |
黄颖: "LDA及主题词相关性的新事件检测", 《计算机与现代化》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109918570A (zh) * | 2019-03-18 | 2019-06-21 | 智者四海(北京)技术有限公司 | 内容推荐方法、装置、存储介质及内容处理方法 |
CN112905907A (zh) * | 2021-01-29 | 2021-06-04 | 重庆理工大学 | 一种系统进化移植分区时序网络的动态社区发现方法 |
CN112905907B (zh) * | 2021-01-29 | 2021-09-28 | 重庆理工大学 | 一种系统进化移植分区时序网络的动态社区发现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107515854B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664757B2 (en) | Cognitive operations based on empirically constructed knowledge graphs | |
CN108549647B (zh) | 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法 | |
CN102214241B (zh) | 一种基于图聚类的用户生成文本流中的突发话题检测方法 | |
CN109670039A (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
EP3940582A1 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
CN103198228B (zh) | 基于广义关系隐话题模型的关系网络链接预测方法 | |
Li et al. | Location inference for non-geotagged tweets in user timelines | |
CN107590139B (zh) | 一种基于循环矩阵翻译的知识图谱表示学习方法 | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
JP2011248831A (ja) | 情報処理装置および方法、並びに、プログラム | |
CN109063147A (zh) | 基于文本相似度的在线课程论坛内容推荐方法及系统 | |
CN105760499A (zh) | 一种基于lda主题模型来分析和预测网络舆情的方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
Liu et al. | Effectively predicting whether and when a topic will become prevalent in a social network | |
CN107515854B (zh) | 基于带权时序文本网络的时序社区以及话题的检测方法 | |
Pathan et al. | Unsupervised aspect extraction algorithm for opinion mining using topic modeling | |
Claypo et al. | Opinion mining for Thai restaurant reviews using neural networks and mRMR feature selection | |
CN110110220A (zh) | 融合社交网络和用户评价的推荐模型 | |
Pulikottil et al. | Onet–a temporal meta embedding network for mooc dropout prediction | |
Lin et al. | Dynamical representation learning for Ethereum transaction network via non-negative adaptive latent factorization of tensors | |
Mu et al. | Detecting evolutionary stages of events on social media: A graph-kernel-based approach | |
CN112836491B (zh) | 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 | |
JP2018041300A (ja) | 機械学習用モデル生成装置及びプログラム。 | |
CN106844765B (zh) | 基于卷积神经网络的显著信息检测方法及装置 | |
Bao et al. | HTRM: a hybrid neural network algorithm based on tag-aware |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |