CN107515854B - 基于带权时序文本网络的时序社区以及话题的检测方法 - Google Patents

基于带权时序文本网络的时序社区以及话题的检测方法 Download PDF

Info

Publication number
CN107515854B
CN107515854B CN201710625669.3A CN201710625669A CN107515854B CN 107515854 B CN107515854 B CN 107515854B CN 201710625669 A CN201710625669 A CN 201710625669A CN 107515854 B CN107515854 B CN 107515854B
Authority
CN
China
Prior art keywords
community
time
distribution
representing
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710625669.3A
Other languages
English (en)
Other versions
CN107515854A (zh
Inventor
贾雨葶
黄壵玮
黄颖
汪博
廖一鸣
邱杰霖
林顺达
倪涛
林特
顾健喆
傅洛伊
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201710625669.3A priority Critical patent/CN107515854B/zh
Publication of CN107515854A publication Critical patent/CN107515854A/zh
Application granted granted Critical
Publication of CN107515854B publication Critical patent/CN107515854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种基于带权时序文本网络的时序社区以及话题的检测方法,包括:基于原始数据构建带权时序文本网络;针对带权时序文本网络,构建基于主题模型的生成模型;利用吉布斯采样方法构建生成模型的推断过程;根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息,主题信息,社区与主题的对应关系,用户在社区内影响力与参与度随时间变化特性;根据提取出的信息,对用户行为进行预测。本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。

Description

基于带权时序文本网络的时序社区以及话题的检测方法
技术领域
本发明涉及到文本网络探索式搜索领域,具体地,涉及到基于带权时序文本网络的时序社区以及话题的检测方法。
背景技术
随着大数据时代的来临,意味着全球的数据量成井喷式的增长。而在线社交媒体作为数据量的来源之一,不管是博客,还是视频分享网站以及社交网络,在过去的半个十年里经历了快速的增长。面对从如此大量的数据,要从中提取有意义的信息,而这些数据的内在的网络结构是一种十分重要的提取依据。所以要去尽可能多的了解社交网络结构。其中的一种方法是识别具有相同属性或功能的节点组,这就是所熟悉的“社区发现”。
对于加权动态文本网络,如在线社交媒体推特和学术引文/合著网络。网络结构中的节点在现实中的意义往往代表用户,这些节点与几个推送相联系。用户之间的联系与他们之间的相关性的大小相关。每一个推送都被赋予了一个时间轴用来表示发布时间的先后顺序。用户与用户之间的联系也被赋予了几个时间轴用来说明相互联系的时间。
然而,对于这样的网络很难建立全面的模型,为了简化计算,通常设边的权重相等。对于一些少数的情况要将边的权重考虑进去时,边缘权重也仅用于计算和最大化/最小化图的一些测量,从而可以检测到社区网络。因为边的权重是社区网络的一个重要特征,所以将边的权重加入到本发明的生成模型中。另一个问题是如何利用动态的信息,在时间轴上进行分割,得到一个个用时间分割的子网络,因为网络在时间轴上的分布是连续的,所以如何分配分割的时间是一个棘手的问题。对于这个问题,并没有采用将时间离散化的方式,相反采用连续分布的模型去模拟社区中用户和用户之间的关联以及发布的信息。
发明内容
针对现有技术中的缺陷,本发明的目的是提供基于带权时序文本网络的时序社区以及话题的检测方法。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于带权时序文本网络的时序社区以及话题的检测方法,包括如下步骤:
步骤S1:基于原始数据构建带权时序文本网络;
步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;
步骤S5:根据提取出的信息,对用户行为进行预测。
上述技术方案中,所述步骤S1包括以下步骤:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
上述技术方案中,所述步骤S2包括以下步骤:
所步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数
Figure BDA0001362758150000031
生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数
Figure BDA0001362758150000032
生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
基于多项式参数
Figure BDA0001362758150000033
生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数
Figure BDA0001362758150000034
生成边(i,i’)的权重eii′
基于贝塔参数
Figure BDA0001362758150000041
生成出边(i,i’)的入时刻sii′m
基于贝塔参数
Figure BDA0001362758150000042
生成出边(i,i’)的出时刻s′ii′m
上述技术方案中,所述步骤S3包括:
步骤S301:为文章dij采样社区cij,构建p如下:
P(ci,j=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
Figure BDA0001362758150000043
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;
Figure BDA0001362758150000044
表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,
Figure BDA0001362758150000045
表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,
Figure BDA0001362758150000046
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如
Figure BDA0001362758150000047
表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij
步骤S302:为文章dij采样主题zij,构建p如下:
P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
Figure BDA0001362758150000048
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,
Figure BDA0001362758150000051
表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,
Figure BDA0001362758150000052
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,
Figure BDA0001362758150000053
指的是文章dij中词的数量,
Figure BDA0001362758150000054
表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如
Figure BDA0001362758150000055
表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
Figure BDA0001362758150000056
Figure BDA0001362758150000057
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,
Figure BDA0001362758150000058
表示用户i在社区c中发表的所有文章和边的数量,
Figure BDA0001362758150000059
表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,
Figure BDA00013627581500000510
表示用户i′在社区c′中发表的所有文章和边的数量,
Figure BDA00013627581500000511
表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′
Figure BDA00013627581500000512
分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck
Figure BDA0001362758150000061
其中,mck表示社区c和主题k的上的时间标签的平均值。
Figure BDA0001362758150000062
表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic
Figure BDA0001362758150000063
其中mic
Figure BDA0001362758150000064
表示与社区C相关联的用户的出时刻时间标记的均值和方差,
Figure BDA0001362758150000065
其中m′ic
Figure BDA0001362758150000066
表示与社区C相关联的用户的入时刻时间标记的均值和方差。
上述技术方案中,所述步骤S4包括:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii'
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
Figure BDA0001362758150000071
Figure BDA0001362758150000072
Figure BDA0001362758150000073
η满足泊松分布,用下面的公式来表示:
Figure BDA0001362758150000074
其中,
Figure BDA0001362758150000075
是第i个用户关于社区c的分布概率,
Figure BDA0001362758150000076
是社区c中关于第k个主题的分布概率,
Figure BDA0001362758150000077
是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;
Figure BDA0001362758150000078
表示用户i与社区c有关联的文章和边的频数,
Figure BDA0001362758150000079
表示用户i与任意社区有联系的文章和边的频数,C是社区的数目;
Figure BDA00013627581500000710
表示同时与社区c和主题k关联的文章的频数,
Figure BDA00013627581500000711
表示与社区c有关联的所有主题的文章的频数,K是主题的数目;
Figure BDA00013627581500000712
表示与主题k相关联的关键词w的频数,
Figure BDA00013627581500000713
表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,
Figure BDA00013627581500000714
表示社区c与c′之间交互的频数。
上述技术方案中,所述步骤S5包括:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
Figure BDA0001362758150000081
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
Figure BDA0001362758150000082
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
本发明与现有技术相比,具有如下有益效果:
本发明对时序文本网络中的时间信息和权重信息了进行全新建模,考虑了网络中边的时间信息并对其进行了连续性建模,弥补了现有技术在网络中边的时间信息建模上的不足。此外,本发明构建了同时提取了网络中的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,对带权时序网络进行了全面建模,有利于了解社区在时间尺度上的变化与发展与个人关于社区在时间尺度上的发展。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的方法流程图。
图2为本发明适用的带权时序网络的示意图;
图3为本发明提取出的信息示意图;
图4为本发明涉及的生成模型的生成过程。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
根据本发明提供的基于带权时序文本网络的时序社区以及话题的检测方法,涉及整理含带权时序网络的自动化程序、基于主题模型的新型带权时序网络生成模型、新型模型的推断过程和参数估计、基于模型的预测功能;具体地,如附图1所示,包括如下步骤:步骤S1:基于原始数据构建带权时序文本网络;步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;步骤S3:利用吉布斯采样方法构建生成模型的推断过程;步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;步骤S5:根据提取出的信息,对用户行为进行预测。
所述步骤S1包括:从互联网上获得公开的文本数据集,如社交网络数据集、学术论文数据集;考虑一个现实中的网络G=(u,ε),其中u是U用户的一个集合,ε是一个E带权边的集合。(i,i',eii',s,s')∈ε表示在用户i和用户i'之间存在交互,交互的权重记为eii',其边包括了两种时间标记,分别记为s和s',其代表着用户i和用户i'之间每次独立的交互过程的输出和输入时间;在本发明中,设定权重作为两个用户之间大量交互的指标,其中也包括大量交互过程中产生的时间对标记。与之相对应的,如果在用户i和用户i'之间没有发生任何交互,eii'等于零并且这两个时间标记存储为空;本发明中对于社区的定义是用户的即节点的集合,对于主题的定义是词的集合;具体地:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征。
图2为本发明适用的带权时序网络的示意图;如图2所示,步骤S2包括:对带权时序中的文本、边、时间标记的生成过程进行建模,生成模型是指在已知参数的条件下,假设网络生成过程服从的模型,网络的生成模型可参见附图4;本发明生成模型涉及的假设有,每个用户关于社区的分布、主题关于词的分布服从多项分布,且其先验分布服从狄利克雷分布;所有时间标记的分布服从贝塔分布,且其先验分布服从伽马分布;具体地:
步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数;c为正整数;
基于伽马分布超参数λ生成第c个社区和第c’个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c’为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数;k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数
Figure BDA0001362758150000111
生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数
Figure BDA0001362758150000112
生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij,为正整数;
基于多项式参数
Figure BDA0001362758150000113
生成第i个用户的第j篇文章的第l个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii';其中i,gii'为正整数;
基于多项式参数πi’,生成边的终点的用户i’的社区g'ii';其中i’,g'ii'为正整数;
基于泊松参数
Figure BDA0001362758150000121
生成边(i,i’)的权重eii′
基于贝塔参数
Figure BDA0001362758150000122
生成出边(i,i’)的入时刻sii′m
基于贝塔参数
Figure BDA0001362758150000123
生成出边(i,i’)的出时刻s′ii′m
图4为本发明涉及的生成模型的生成过程,如图4所示,步骤S3包括:构建生成模型的推断过程,通过已知的文本信息、边信息、时间信息进行推断;图3为为本发明提取出的信息示意图。
本发明采用吉布斯采样的算法进行推断,具体地:
步骤S301:为文章dij采样社区cij,构建p如下:
P(cij=c|zij=k,tij=t,c-ij,g,z-ij,t-ij,·)
Figure BDA0001362758150000124
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;
Figure BDA0001362758150000125
表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,
Figure BDA0001362758150000126
表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,
Figure BDA0001362758150000127
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,·表示临界计数,如
Figure BDA0001362758150000128
表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij
步骤S302:为文章dij采样主题zij,构建p如下:
P(zij=k|cij=c,tij=t,c-ij,z-ij,t-ij,w,·)
Figure BDA0001362758150000131
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,
Figure BDA0001362758150000132
表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,
Figure BDA0001362758150000133
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,
Figure BDA0001362758150000134
指的是文章dij中词的数量,
Figure BDA0001362758150000135
表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布。·表示临界计数,如
Figure BDA0001362758150000136
表示表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
P(gii′=c,g′ii′=c′|eii′,g-ii′,c,e,.)
Figure BDA0001362758150000137
Figure BDA0001362758150000138
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,
Figure BDA0001362758150000141
表示用户i在社区c中发表的所有文章和边的数量,
Figure BDA0001362758150000142
表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,
Figure BDA0001362758150000143
表示用户i′在社区c′中发表的所有文章和边的数量,
Figure BDA0001362758150000144
表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′,
Figure BDA00013627581500001410
分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck
Figure BDA0001362758150000145
其中,mck表示社区c和主题k的上的时间标签的平均值。
Figure BDA0001362758150000146
表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic
Figure BDA0001362758150000147
其中mic
Figure BDA0001362758150000148
表示与社区C相关联的用户的出时刻时间标记的均值和方差,
Figure BDA0001362758150000149
其中m′ic
Figure BDA0001362758150000151
表示与社区C相关联的用户的入时刻时间标记的均值和方差。
步骤S4包括:利用模型对带权时序网络进行训练,通过训练得到的结果对该网络的参数进行估计,具体地:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社区指标gii'和g'ii'
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g'匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社区指标cij和主题指标zij,对每一条边(i,i')采样其相对应的社群指标gii'和g'ii',利用得到的c和z对ψ进行更新,利用g和g'对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
Figure BDA0001362758150000152
Figure BDA0001362758150000153
Figure BDA0001362758150000154
η满足泊松分布,用下面的公式来表示:
Figure BDA0001362758150000155
其中,
Figure BDA0001362758150000156
是第i个用户关于社区c的分布概率,
Figure BDA0001362758150000157
是社区c中关于第k个主题的分布概率,
Figure BDA0001362758150000158
是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;
Figure BDA0001362758150000161
表示用户i与社区c有关联的文章和边的频数,
Figure BDA0001362758150000162
表示用户i与任意社区有联系的文章和边的频数,C是社区的数目;
Figure BDA0001362758150000163
表示同时与社区c和主题k关联的文章的频数,
Figure BDA0001362758150000164
表示与社区c有关联的所有主题的文章的频数,K是主题的数目;
Figure BDA0001362758150000165
表示与主题k相关联的关键词w的频数,
Figure BDA0001362758150000166
表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,
Figure BDA0001362758150000167
表示社区c与c′之间交互的频数。
本发明的步骤S5包括:根据前述步骤提取的的主题,社区,用户关于社区的分布,特定用户在特定社区活跃度与影响力随时间变化曲线,社区关于主题的分布,在特定社区中特定主题的热度随时间变化曲线,可以对用户的行为记性预测;具体地:
步骤S501:给定用户i和i',和两个时间标记s、s',可以预测他们之间产生联系的概率:
Figure BDA0001362758150000168
其中,i、i’表示用户,s、s’表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
Figure BDA0001362758150000171
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
本发明在用户之间编码权重和时间上的信息,这是一种基于权重和时间的方法。由此,基于贝叶斯网络的概率生成模型,提出了时间社区检测的模型(Custom TemporalCommunity Detection)。因为考虑了权重信息和时间信息,CTCD能够为每个用户推荐相应的社区,能够加强社区与社区之间的联系同时为用户推荐一些感兴趣的话题。本发明设计了一种高效的基于吉布斯抽样的推导算法,并针对大规模社交网络提出了相应的并行实现方法。此外,本发明被证明是可以达到高精度的预测效果,从此算法中所提取的信息揭示了网络社区中一些新颖的发展模式。本发明具有创新的视角:在每两个具有时间轴的用户之间的建立了多样的关联模型作为他们之间的权重边,通过这种方式建立的时间模型,能够为每个用户增加与社区之间的关联性,并且避免了由以前的时间离散模型带来的问题。全面的模型:本发明的模型结合了语义,网络和时间上的信息。时间社区连接着每个用户,社区之间关联的强弱以及每个社区感兴趣的话题能够被及时发现。随着信息的提取与增加,能够发现每个用户所属社区的转移以及跟踪社区的发展。可推广的推导:本发明提出了一种基于吉布斯抽样的推导方法,能够达到线性的复杂度,这能够应对大规模的社区数据集,开发了并行实现,并提出了几种方法来处理进程之间的同步问题。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (4)

1.一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,包括如下步骤:
步骤S1:基于原始数据构建带权时序文本网络;
步骤S2:针对带权时序文本网络,构建基于主题模型的生成模型;
步骤S3:利用吉布斯采样方法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对带权时序文本网络进行训练,提取出社区信息、主题信息、社区与主题的对应关系、用户在社区内影响力与参与度随时间变化特性;
步骤S5:根据提取出的信息,对用户行为进行预测;
所述步骤S1包括以下步骤:
步骤S101:根据原始数据中的信息构建节点和边;
步骤S102:对文章节点添加语义信息和时间标记,对边添加权重和时间标记;
步骤S103:定义社区和社区特征;
步骤S104:定义主题和主题特征;
所述步骤S2包括以下步骤:
步骤S201:对带权时序文本网络中的各个社区,执行如下步骤:
基于狄利克雷超参数α生成第c个社区的主题分布的多项式参数θc;其中,α是θc所服从的狄利克雷分布的参数,c为正整数;
基于伽马分布超参数λ生成第c个社区和第c′个社区之间产生边的概率的泊松分布参数ηcc′;其中,λ是ηcc′所服从的狄利克雷分布的参数;c和c′为正整数;
步骤S202:对带权时序文本网络中的各个主题,执行如下步骤:
基于狄利克雷超参数β生成第k个主题到词的分布的多项式参数φk;其中,β是φk所服从的狄利克雷分布的参数,k为正整数;
步骤S203:对带权时序文本网络中的各个用户,执行如下步骤:
基于狄利克雷超参数ρ生成第i个用户到社区的分布的多项式参数πi;其中,ρ是πi所服从的狄利克雷分布的参数;i为正整数;
步骤S204:对带权时序文本网络中的各个用户的各个文章,执行如下步骤:
基于多项式参数πi,生成第i个用户的第j篇文章所属的社区cij;其中i,j,cij为正整数;
基于多项式参数
Figure FDA0002998999950000021
生成第i个用户的第j篇文章的主题zij;其中i,j,zij为正整数;
基于贝塔参数
Figure FDA0002998999950000022
生成第i个用户的第j篇文章属于社区cij和主题zij时的时间tij,其中i,j,cij,zij,tij为正整数;
基于多项式参数
Figure FDA0002998999950000023
生成第i个用户的第j篇文章的第1个词wijl;其中i,j,l为正整数;
步骤S205:对带权时序文本网络中的每条边,执行如下步骤:
基于多项式参数πi,生成边的起点的用户i的社区gii′;其中i,gii′为正整数;
基于多项式参数πi′,生成边的终点的用户i′的社区g′ii′;其中i′,g′ii′为正整数;
基于泊松参数
Figure FDA0002998999950000024
生成边(i,i′)的权重eii′
基于贝塔参数
Figure FDA0002998999950000025
生成出边(i,i′)的入时刻sii′m
基于贝塔参数
Figure FDA0002998999950000031
生成出边(i,i′)的出时刻s′ii′m
2.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S3包括:
步骤S301:为文章dij采样社区cij,构建P如下:
Figure FDA0002998999950000032
其中,cij表示文章dij的社区,zij表示文章dij的主题,tij表示文章dij的时间标签,g表示在用户的边中所关联的社区,符号∝表示正比于;
Figure FDA0002998999950000033
表示用户i在社区c中发表的所有文章和边的数量,ρ表示关于社区的狄利克雷分布,C表示社区的总数,
Figure FDA0002998999950000034
表示所有关于社区c和主题z的文章数量,K表示主题的总数,α表示生成关于主题的狄利克雷分布,
Figure FDA0002998999950000035
Figure FDA0002998999950000036
表示贝塔函数,ψck表示关于社区c和主题k在时间上的贝塔分布,.表示临界计数,如
Figure FDA0002998999950000037
表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij,c-ij表示除了第i个用户的第j篇文章以外的其他所有文章所属的社区的集合,z-ij表示除了第i个用户的第j篇文章以外的其他所有文章的主题的集合,t-ij表示除了第i个用户的第j篇文章以外的其他所有文章的时间的集合,g-ii′表示除了第i个用户和第i′个用户之间的边(e-ii′)以外的其他所有边连接的2个用户的社区的集合;
步骤S302:为文章dij采样主题zij,构建P如下:
Figure FDA0002998999950000038
其中,zij表示文章dij的主题,cij表示文章dij的社区,tij表示文章dij的时间标签,w表示文章中的词,
Figure FDA0002998999950000041
表示所有关于社区c和主题z的文章数量,α表示生成关于主题的狄利克雷分布,
Figure FDA0002998999950000042
表示贝塔函数,ψck表示关于社区c和主题k时间上的贝塔分布,
Figure FDA0002998999950000043
指的是文章dij中词的数量,
Figure FDA0002998999950000044
表示关于主题z的词的数量,β指的是关于主题k的词的多项分布的狄利克雷分布,.表示临界计数,如
Figure FDA0002998999950000045
表示用户i在所有的社区的文章和边的数量,所有的计算将会排除文章dij
步骤S303:为边eii′采样社区gii′和g′ii′,构建p如下:
Figure FDA0002998999950000046
其中,gii′g′ii′表示用户i、i′用边eii′联系的社区,eii′表示在用户i、i′之间的边的权重,
Figure FDA0002998999950000047
表示用户i在社区c中发表的所有文章和边的数量,
Figure FDA0002998999950000048
表示用户i在发表的所有文章和边的数量,σ表示dirichlet分布的超参数,
Figure FDA0002998999950000049
表示用户i′在社区c′中发表的所有文章和边的数量,
Figure FDA00029989999500000410
表示用户i′发表的所有文章和边的数量,C表示社区的总数,ρ表示关于社区的狄利克雷分布,ncc′
Figure FDA00029989999500000411
分别表示与社区c和c′相关联的不包括边(i,i′)的边的数量和作用,λ1,λ0表示伽马优先级,sii′m表示在边eii′第m次作用的时间标记,δic0,δic1表示用户i和社区c在特定出时间的贝塔分布,γi′c′0表示用户i′和社区c′在特定入时间的贝塔分布;
步骤S304:更新社区c和主题k的贝塔分布ψck
Figure FDA0002998999950000051
其中,mck表示社区c和主题k的上的时间标签的平均值,
Figure FDA0002998999950000052
表示社区c和主题k的上的时间标签的方差;
步骤S305:更新用户i和社区c的关于出时刻的贝塔分布δic和入时刻的贝塔分布γic
Figure FDA0002998999950000053
其中mic
Figure FDA0002998999950000054
表示与社区c相关联的用户的出时刻时间标记的均值和方差,
Figure FDA0002998999950000055
其中m′ic
Figure FDA0002998999950000056
表示与社区c相关联的用户的入时刻时间标记的均值和方差。
3.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S4包括:
步骤S401:对网络中的每篇文章dij按照所述吉布斯采样公式采样社群指标cij和主题指标zij,对每一条边(i,i′)采样其相对应的社群指标gii′和g′ii′
步骤S402:通过采样的c和z匹配β分布函数ψ,通过g和g′匹配β分布函数δ和γ;
步骤S403:重新对每篇文章dij采样社群指标cij和主题指标zij,对每一条边(i,i′)的采样其相对应的社群指标gii′和g′ii′,利用得到的c和z对ψ进行更新,利用g和g′对δ和γ进行更新;
其中,步骤S403被重复执行,直到迭代足够的次数,进入步骤S404继续执行:
步骤S404:使用下面的公式得到相关的参数:
Figure FDA0002998999950000061
Figure FDA0002998999950000062
Figure FDA0002998999950000063
η满足泊松分布,用下面的公式来表示:
Figure FDA0002998999950000064
其中,
Figure FDA0002998999950000065
是第i个用户关于社区c的分布概率,
Figure FDA0002998999950000066
是社区c中关于第k个主题的分布概率,
Figure FDA0002998999950000067
是主题k关于关键词w的分布概率,η是社区之间权重的分布概率;
Figure FDA0002998999950000068
表示用户i与社区c有关联的文章和边的频数,
Figure FDA0002998999950000069
表示用户c与任意社区有联系的文章和边的频数,C是社区的数目;
Figure FDA00029989999500000610
表示同时与社区c和主题k关联的文章的频数,
Figure FDA00029989999500000611
表示与社区c有关联的所有主题的文章的频数,K是主题的数目;
Figure FDA00029989999500000612
表示与主题k相关联的关键词w的频数,
Figure FDA00029989999500000613
表示与主题k有关联的所有关键词的频数,V是词汇表的大小;ncc′表示社区c与c′之间边的频数,
Figure FDA00029989999500000614
表示社区c与c′之间交互的频数。
4.根据权利要求1所述的一种基于带权时序文本网络的时序社区以及话题的检测方法,其特征在于,所述步骤S5包括:
步骤S501:给定用户i和i′,和两个时间标记s、s′,可以预测他们之间产生联系的概率:
Figure FDA0002998999950000071
其中,i、i′表示用户,s、s′表示时间标记,π表示关于用户的社区的多项分布,η表示从社区c到社区c′的边权值的泊松分布,δ表示用户i和社区g对于出时刻的贝塔分布,γ表示用户i和社区g对于入时刻的贝塔分布,b(s;δig0,δig1)表示贝塔分布的概率密度函数,ncc′表示从社区c到社区c′的边的个数,λ1表示从社区c到社区c′的边权值的泊松分布参数;
步骤S502:给定一些词w和一个作者i的文章d,关于文章发表时间的预测:
Figure FDA0002998999950000072
其中,t表示时间,i表示用户,π表示关于用户的社区的多项分布,θ表示关于主题的对于社区的多项分布,φ表示关于主题的词的多项分布,ψck表示关于社区c和主题k关于时间的贝塔分布,b(t;ψck0;ψck1)表示贝塔分布的概率密度函数。
CN201710625669.3A 2017-07-27 2017-07-27 基于带权时序文本网络的时序社区以及话题的检测方法 Active CN107515854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710625669.3A CN107515854B (zh) 2017-07-27 2017-07-27 基于带权时序文本网络的时序社区以及话题的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710625669.3A CN107515854B (zh) 2017-07-27 2017-07-27 基于带权时序文本网络的时序社区以及话题的检测方法

Publications (2)

Publication Number Publication Date
CN107515854A CN107515854A (zh) 2017-12-26
CN107515854B true CN107515854B (zh) 2021-06-04

Family

ID=60721643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710625669.3A Active CN107515854B (zh) 2017-07-27 2017-07-27 基于带权时序文本网络的时序社区以及话题的检测方法

Country Status (1)

Country Link
CN (1) CN107515854B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912B (zh) * 2019-01-25 2020-06-23 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109918570A (zh) * 2019-03-18 2019-06-21 智者四海(北京)技术有限公司 内容推荐方法、装置、存储介质及内容处理方法
CN112905907B (zh) * 2021-01-29 2021-09-28 重庆理工大学 一种系统进化移植分区时序网络的动态社区发现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4466334B2 (ja) * 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960B (zh) * 2012-09-06 2015-06-17 北京邮电大学 突发事件热点话题的识别与评估装置
CN106372147B (zh) * 2016-08-29 2020-09-15 上海交通大学 基于文本网络的异构主题网络构建和可视化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4466334B2 (ja) * 2004-11-08 2010-05-26 日本電信電話株式会社 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《 2016 IEEE 16th International Conference on Data Mining Workshops (ICDMW)》;Junxian He et.al;《Text Network Exploration via Heterogeneous Web of Topics》;20170202;第99-106页 *
LDA及主题词相关性的新事件检测;黄颖;《计算机与现代化》;20120131(第197期);第7-13页 *
On the Community Identification in Weighted Time-Varying Networks;Youcef Abdelsadek et.al;《International Conference on Swarm Intelligence Based Optimization》;20161125;第111-123页 *
动态社会网络中的话题跟踪算法研究;肖海岭;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20130715(第07期);第I138-1456页 *

Also Published As

Publication number Publication date
CN107515854A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN108399414B (zh) 应用于跨模态数据检索领域的样本选择方法及装置
JP5454357B2 (ja) 情報処理装置および方法、並びに、プログラム
CN109036577B (zh) 糖尿病并发症分析方法及装置
CN108549647B (zh) 基于SinglePass算法实现无标注语料主动预测移动客服领域中突发事件的方法
Li et al. Location inference for non-geotagged tweets in user timelines
Shams et al. A non-parametric LDA-based induction method for sentiment analysis
CN107515854B (zh) 基于带权时序文本网络的时序社区以及话题的检测方法
WO2018112696A1 (zh) 一种内容推荐方法及内容推荐系统
Chew et al. Hybrid deep learning of social media big data for predicting the evolution of COVID-19 transmission
Van Durme Streaming analysis of discourse participants
Durno et al. Expanding the boundaries of local similarity analysis
Bien et al. Non-convex global minimization and false discovery rate control for the TREX
Liao et al. Coronavirus pandemic analysis through tripartite graph clustering in online social networks
CN106777006A (zh) 一种基于Spark下并行超网络的分类算法
El-Arini et al. Transparent user models for personalization
Zhang et al. Modeling the Homophily Effect between Links and Communities for Overlapping Community Detection.
CN110110220A (zh) 融合社交网络和用户评价的推荐模型
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN109086463A (zh) 一种基于区域卷积神经网络的问答社区标签推荐方法
Karras et al. Distributed Gibbs sampling and LDA modelling for large scale big data management on PySpark
US11829442B2 (en) Methods and systems for efficient batch active learning of a deep neural network
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
CN106844765B (zh) 基于卷积神经网络的显著信息检测方法及装置
CN117035059A (zh) 一种通信高效的隐私保护推荐系统及方法
Lin et al. Dynamical representation learning for Ethereum transaction network via non-negative adaptive latent factorization of tensors

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant