CN107480213A - 基于时序文本网络的社区检测与用户关系预测方法 - Google Patents
基于时序文本网络的社区检测与用户关系预测方法 Download PDFInfo
- Publication number
- CN107480213A CN107480213A CN201710624691.6A CN201710624691A CN107480213A CN 107480213 A CN107480213 A CN 107480213A CN 201710624691 A CN201710624691 A CN 201710624691A CN 107480213 A CN107480213 A CN 107480213A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- node
- community
- munder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000011478 gradient descent method Methods 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000002910 structure generation Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 56
- 101100283966 Pectobacterium carotovorum subsp. carotovorum outN gene Proteins 0.000 claims description 18
- 230000017105 transposition Effects 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于时序文本网络的社区检测与用户关系预测方法,包括:基于原始数据构建时序文本网络;针对时序文本网络,构建基于关系图模型的生成模型;利用梯度下降法构建生成模型的推断过程;根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系;根据提取出的社区信息,进行网络节点间的连接预测。本发明构建了全新的社区检测方法,并提出了社区相关度的概念,大幅提升了社区检测的准确性和解释性。
Description
技术领域
本发明涉及到时序文本网络探社区检测领域,具体地,涉及一种基于时序文本网络的社区检测与用户关系预测方法。
背景技术
网络是一个强大的语言,它能够阐释社会、自然以及学术领域中的数据关系。一个理解网络的方法是定义和分析一组有着相同属性的节点。这样的一组节点可以被解释为社交网络中的组织单位,或者引用网络中的相同领域。探测社区问题就是在网络中寻找这样的一组节点的研究任务。传统的方法大都基于一个节点只属于一个社区这个假设,集中寻找离散社区。那么在除去这个假设的情况下,交叉社区检测问题变得越来越普遍并在最近引起了越来越多的关注。
尽管在过去网络中的交叉多等级社区问题已经被讨论过,但在一个大的网络中定义一个有意义的社区网络依旧是个艰难的任务。大多数方法很难应用于大型网络,并且在缺少有信服力的标准情况下,对检测出的社区进行评估极其困难。因此,尽管网络问题已经被广泛的研究,小型网络中的社区的存在和特性已经被熟知,在特大型网络中定义交叉社区的方法依旧不甚清晰。
探测重叠社区一般有两种形式的信息可以利用。第一种是链型结构,例如边的有无。经典方法大都集中于这种形式的信息,并致力于获取一组节点,这些节点之间的连接相比于外部网络而言更为紧密。第二种是节点属性,包括在线的用户档案,预先存在的蛋白质功能和论文的文本内容。由于链接结构中普遍存在的噪音,同时基于这两种方法检测社区信息的方法已经越来越受欢迎。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于时序文本网络的社区检测与用户关系预测方法,研究在时序文本网络中探测交叉社区的问题,在时序文本网络识别有意义的社区为后续应用开发提供了有用的知识。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于时序文本网络的社区检测与用户关系预测方法,包括如下步骤:
步骤S1:基于原始数据构建时序文本网络;
步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;
步骤S3:利用梯度下降法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;
步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。
上述技术方案中,所述步骤S1包括:
步骤S101:将顶点集V设为空集,将边集E设为空集;
步骤S102:将原始数据集中的每一篇文章加到顶点集V中;
步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;
步骤S104:将原始数据集中文章间的链接关系加到边集E中;
步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。
上述技术方案中,所述步骤S2包括:
步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:
p(u,v,i,j)=(1-exp(-FuiηijFvj))δ(u→v),
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S202:定义节点u与节点v之间通过任意两个社区产生连接的概率为:
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S203:针对时序文本网络,根据步骤S202定义的公式,生成时序文本网络GP:
GP=(V∪Vω,E∪Eωd;T∪Tω)
其中,V、E、T分别是时序文本网络中的节点集合、边集合以及时间戳集合;Vω代表一个单词;存在于Eωd的边(ωi,dj)代表单词i存在于文章j中;Tω代表单词的时间戳,被设置成0;对于该网络中任意两点,根据S202所定义的概率,预测两点间是否有边存在。
上述技术方案中,所述步骤S3包括:
步骤S301:利用块坐标梯度下降法,对于对每个节点u,假设对Fv不变且η不变,首先更新Fu,即l(Fu)为针对Fu的对数似然函数,具体地:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,如图3所示,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵,为对应的转置矩阵;
步骤S302:利用梯度下降法,根据如下公式可以进行对F的更新:
其中为利用回溯搜索算法计算所得步长;为Fu向量第k个分量更新后的值;为Fu向量第k个分量更新前的值;为更新Fu时所用的梯度,具体的:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
步骤S303:F更新完成后,假设F不变,根据如下公式可以进行对η的更新:
其中αη为利用回溯搜索算法计算所得步长;为η矩阵中第i行第j列更新后的值;为η矩阵中第i行第j列更新前的值;为更新η时所用的梯度,具体的:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S304:计算和的时间复杂度分别为O(N)和O(N2),为降低时间复杂度、提高可计算性,采取如下近似:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合;N(u)表示inN(u)和outN(u)的并集,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)、t(v)、t(v’)分别表示点u、点v与点v’的时间戳;
计算和的时间复杂度分别为O(|N(u)|)、O(|E|),总时间复杂度为O(|E|),中|N(u)|表示集合N(u)包含的节点的个数;|E|表示网络中边的条数。
上述技术方案中,所述步骤S4包括:
步骤S401:从数据文件中读取数据,并根据步骤S1构建时序文本网络;
步骤S402:初始化用户与社区间的联系强度矩阵F;基于向网络中的导率模型,如果节点u的入邻居inN(u)有比所有点v∈outN(u)的入邻居inN(v)有更小的导率,则该入邻居inN(u)在邻近是最小的;对于属于一个在邻近最小的邻域k内的节点u',初始化节点u'与一个社区k之间的联系强度Fu'k=1,否则令Fu'k=0;为了初始化η,设置主对角线上的项为0.9,其他项为0.1;
步骤S403:每轮次根据公式更新F与η,首先针对每个节点u,根据梯度公式更新节点u与所有社区之间的联系强度向量Fu,梯度公式如下:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
F更新完成后,根据梯度公式更新社区间的联系矩阵η,梯度公式如下:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S404:经过一定轮次后,判定每个节点与社区间的隶属关系,针对每个社区k,设定一个阈值δk,具体设定方法如下:
其中N为节点总数;ηkk为社区间联系矩阵η第k行第k列的分量,对于节点u与社区k,若联系强度Fuk大于社区k的阈值δk,则认为节点u隶属于社区k。
上述技术方案中,所述步骤S5包括:
步骤S501:对选定的文本数据集进行训练,提取出节点与社区间联系强度矩阵F,以及社区间的联系关系矩阵η;
步骤S502:读取矩阵F与矩阵η;
步骤S503:根据步骤S2所定义的公式计算节点u与节点v之间边的存在概率。
本发明与现有技术相比,具有如下有益效果:
本发明基于时序文本网络中的网络结构信息和文本信息,同时提取出了节点与社区间的隶属关系和社区间的联系关系,弥补了现有技术在分析节点连接原因上的不足;本发明构建了全新的社区检测模型,考虑了社区间的联系关系,同时提供了一种新的文本信息在社区检测中的应用方法,提高了社区检测的效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明的预测方法流程图;
图2为本发明构造的适用的时序文本网络的示意图;
图3为本发明的出、入邻居示意图;
图4为本发明构造的词聚类的词云示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
根据本发明提供的基于时序文本网络的社区检测与用户关系预测方法,涉及整理含时序文本网络的自动化程序、基于生成模型的新型社区检测方法、新型方法的推断过程和参数估计、社区成员及社区间关系提取、节点间连接预测;具体地,如图1所示,包括如下步骤:
步骤S1:基于原始数据构建时序文本网络;
步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;
步骤S3:利用梯度下降法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,社区指的是表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;
步骤S5:根据提取出的社区信息,进行网络节点间的连接预测并绘制词云。
如图2所示,所述步骤S1包括:从互联网上获得公开的时序文本数据集,从数据集中抽取出时序文本网络,例如在论文网络中以论文的发表时间作为时序信息、以论文的标题和摘要作为文本信息,在社交网络中以用户推送的短文内容作为文本信息、推送时间座位时序信息,在超链接的网页网络中以网页标题和主要文字作为文本信息、网页更新时间作为时序信息;从数据集中抽取出链接信息,例如在论文网络中以论文的参考文献作为链接信息,在社交网络中以转发行为作为链接信息,在超链接的网页中以网页的链接作为链接信息;将提取出的信息生成csv格式的文件,具体地:
步骤S101:将顶点集V设为空集,将边集E设为空集,将图G设为V,E的集合;
步骤S102:将原始数据集中的每一篇文章加到顶点集V中;
步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;
步骤S104:将原始数据集中文章间的链接关系加到边集E中。
步骤S105:(V,E;T)的集合构成图G,即为时序文本网络
所述步骤S2包括:对时序文本网络结构中的文本和链接的生成过程进行建模,生成模型是指在已知参数的条件下,假设文章生成过程服从的模型;具体地:
步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:
p(u,v,i,j)=(1-exp(-FuiηijFvj))δ(u→v),
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S202:定义节点u与节点v之间通过任意两个社区产生连接的概率:
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S203:针对时序文本网络G,根据步骤S202定义的公式,生成时序文本网络GP:
GP=(V∪Vω,E∪Eωd;T∪Tω)
其中,V,E,T分别是时序文本网络中的节点集合,边集合以及时间戳集合。Vω代表一个单词;存在于Eωd的边(ωi,dj)代表单词i存在于文章j中;Tω代表单词的时间戳,被设置成0;对于该网络中任意两点,根据S202所定义的概率,预测两点间是否有边存在。
所述步骤S3包括:构建生成模型的推断过程,估计生成模型中的参数,通过已知的文本信息、链接信息和时序信息去推断隐含的参数;本发明采用梯度下降法进行推断,具体地:
步骤S301:利用块坐标梯度下降法,对于对每个节点u,假设对Fv不变且η不变,首先更新Fu,即其中l(Fu)为针对Fu的对数似然函数,具体地:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;为对应的转置矩阵;
步骤S302:利用梯度下降法,根据如下公式可以进行对F的更新:
其中为利用回溯搜索算法计算所得步长;为Fu向量第k个分量更新后的值;为Fu向量第k个分量更新前的值;为更新Fu时所用的梯度,具体的:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
步骤S303:F更新完成后,假设F不变,根据如下公式可以进行对η的更新:
其中αη为利用回溯搜索算法计算所得步长;为η矩阵中第i行第j列更新后的值;为η矩阵中第i行第j列更新前的值;为更新η时所用的梯度,具体的:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S304:计算和的时间复杂度分别为O(N)和O(N2),为降低时间复杂度、提高可计算性,采取如下近似:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合;N(u)表示inN(u)和outN(u)的并集,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)、t(v)、t(v’)分别表示点u、点v与点v’的时间戳;
这样,计算和的时间复杂度分别为O(|N(u)|)、O(|E|),总时间复杂度为O(|E|)。其中|N(u)|表示集合N(u)包含的节点的个数;|E|表示网络中边的条数;
所述步骤S4包括:训练时序文本网络,并根据得到的参数来计算节点与社区间的隶属关系以及社区间的联系关系,计算得到的关系强度用于步骤S5中的节点连接预测,具体地:
步骤S401:从数据文件中读取数据,并根据步骤1构建时序文本网络;
步骤S402:初始化用户与社区间的联系强度矩阵F。基于有向网络中的导率模型,如果节点u的入邻居inN(u)有比所有点v∈outN(u)的入邻居inN(v)有更小的导率,则该入邻居inN(u)在邻近是最小的。对于属于这样一个在邻近最小的邻域k内的节点u',初始化节点u'与一个社区k之间的联系强度Fu'k=1,否则令Fu'k=0。为了初始化η,设置主对角线上的项为0.9,其他项为0.1;
步骤S403:每轮次根据公式更新F与η,首先针对每个节点u,根据梯度公式更新节点u与所有社区之间的联系强度向量Fu,梯度公式如下:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵。ηT为对应的转置矩阵。
F更新完成后,根据梯度公式更新社区间的联系矩阵η,梯度公式如下:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S4.4:经过一定轮次后,判定每个节点与社区间的隶属关系。针对每个社区k,设定一个阈值δk,具体设定方法如下:
其中N为节点总数;ηkk为社区间联系矩阵η第k行第k列的分量。对于节点u与社区k,若联系强度Fuk大于社区k的阈值δk,则认为节点u隶属于社区k。
所述步骤S5包括:根据前述步骤提取出的节点与社区间的隶属关系以及社区间的联系关系进行节点连接预测并绘制词云,如图4所示,具体地:
步骤S501:对选定的文本数据集进行训练,提取出节点与社区间联系强度矩阵F,以及社区间的联系关系矩阵η;
步骤S502:读取矩阵F与矩阵η;
步骤S503:根据步骤S2所定义的公式计算节点u与节点v之间边的存在概率。具体公式如下:
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S504:对任意一个社区k,找出隶属于这个社区的所有词以及每个词w与这个社区间的联系强度Fwk,之后将每个词与该社区的联系强度作为这个词的权重,导入词云生成器中,即可绘制词云。
首先,本发明收集32个标准的时序文本网络社区,能深入洞察社会结构并且得到了定量评估社区检测方法。其次,本发明研究了时序文本网络中这些标准社区之间的关系,并发现大部分节点的连接基于社区之间的交互,也分析节点属性是如何有助于提高检测社区的质量并发现在同一个社区的节点有相似的文本内容。第三,基于实证观察,本发明提出了一个可以利用时序文本网络中所有的信息来源并可以囊括数以百万计的网络节点的概率生成模型。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (6)
1.一种基于时序文本网络的社区检测与用户关系预测方法,其特征在于,包括如下步骤:
步骤S1:基于原始数据构建时序文本网络;
步骤S2:针对时序文本网络,构建基于关系图模型的生成模型;
步骤S3:利用梯度下降法构建生成模型的推断过程;
步骤S4:根据模型的推断过程,对时序文本网络进行训练,提取出社区信息以及社区间的关系,其中社区指表现出较高相关性的点的集合,社区间的关系指的是社区之间的相似度;
步骤S5:根据提取出的社区信息,进行网络节点间的连接预测。
2.根据权利要求1所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S1包括:
步骤S101:将顶点集V设为空集,将边集E设为空集;
步骤S102:将原始数据集中的每一篇文章加到顶点集V中;
步骤S103:顶点集V中的每一篇文章对应一个标签T,该标签是指每一篇文章的发表时间;
步骤S104:将原始数据集中文章间的链接关系加到边集E中;
步骤S105:(V,E;T)的集合构成图G,图G为时序文本网络。
3.根据权利要求2所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S2包括:
步骤S201:定义节点u与节点v之间通过社区i、j产生连接的概率:
p(u,v,i,j)=(1-exp(-FuiηijFvj))δ(u→v),
<mrow>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
<mo>.</mo>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S202:定义节点u与节点v之间通过任意两个社区产生连接的概率为:
<mrow>
<mtable>
<mtr>
<mtd>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>,</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>exp</mi>
<mo>(</mo>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>,</mo>
<mi>j</mi>
</mrow>
</munder>
<msub>
<mi>F</mi>
<mrow>
<mi>u</mi>
<mi>i</mi>
</mrow>
</msub>
<msub>
<mi>&eta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<msub>
<mi>F</mi>
<mrow>
<mi>v</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mi>exp</mi>
<mo>(</mo>
<mo>-</mo>
<msubsup>
<mi>F</mi>
<mi>u</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>&eta;F</mi>
<mi>v</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
</mtable>
<mo>,</mo>
</mrow>
<mrow>
<mi>&delta;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>i</mi>
<mi>f</mi>
<mi> </mi>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo>&le;</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>o</mi>
<mi>t</mi>
<mi>h</mi>
<mi>e</mi>
<mi>r</mi>
<mi>w</mi>
<mi>i</mi>
<mi>s</mi>
<mi>e</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>.</mo>
</mrow>
其中Fui表示节点u与社区i的连接强度;Fvj表示节点v与社区j的连接强度;ηij表示社区i与社区j的连接强度;表示节点u与所有社区的连接强度的向量的转置;Fv表示节点v与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;t(u)表示节点u的时间戳;t(v)表示节点v的时间戳;
步骤S203:针对时序文本网络,根据步骤S202定义的公式,生成时序文本网络GP:
GP=(V∪Vω,E∪Eωd;T∪Tω)
其中,V、E、T分别是时序文本网络中的节点集合、边集合以及时间戳集合;Vω代表一个单词;存在于Eωd的边(ωi,dj)代表单词i存在于文章j中;Tω代表单词的时间戳,被设置成0;对于该网络中任意两点,根据S202所定义的概率,预测两点间是否有边存在。
4.根据权利要求3所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S3包括:
步骤S301:利用块坐标梯度下降法,对于对每个节点u,假设对不变且η不变,首先更新Fu,即l(Fu)为针对Fu的对数似然函数,具体地:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵,为对应的转置矩阵;
步骤S302:利用梯度下降法,根据如下公式可以进行对F的更新:
<mrow>
<msubsup>
<mi>F</mi>
<mrow>
<mi>u</mi>
<mi>k</mi>
</mrow>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msubsup>
<mo>&LeftArrow;</mo>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<msubsup>
<mi>F</mi>
<mrow>
<mi>u</mi>
<mi>k</mi>
</mrow>
<mrow>
<mi>o</mi>
<mi>l</mi>
<mi>d</mi>
</mrow>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
</msub>
<msub>
<mrow>
<mo>(</mo>
<mo>&dtri;</mo>
<mi>l</mi>
<mo>(</mo>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mi>k</mi>
</msub>
<mo>}</mo>
</mrow>
其中为利用回溯搜索算法计算所得步长;为Fu向量第k个分量更新后的值;为Fu向量第k个分量更新前的值;为更新Fu时所用的梯度,具体的:
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
步骤S303:F更新完成后,假设F不变,根据如下公式可以进行对η的更新:
<mrow>
<msubsup>
<mi>&eta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>w</mi>
</mrow>
</msubsup>
<mo>&LeftArrow;</mo>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
<mo>{</mo>
<mn>0</mn>
<mo>,</mo>
<msubsup>
<mi>&eta;</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mrow>
<mi>o</mi>
<mi>l</mi>
<mi>d</mi>
</mrow>
</msubsup>
<mo>+</mo>
<msub>
<mi>&alpha;</mi>
<mi>&eta;</mi>
</msub>
<msub>
<mrow>
<mo>(</mo>
<msub>
<mo>&dtri;</mo>
<mi>&eta;</mi>
</msub>
<mi>l</mi>
<mo>(</mo>
<mrow>
<mi>F</mi>
<mo>,</mo>
<mi>&eta;</mi>
</mrow>
<mo>)</mo>
<mo>)</mo>
</mrow>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>}</mo>
</mrow>
其中αη为利用回溯搜索算法计算所得步长;为η矩阵中第i行第j列更新后的值;为η矩阵中第i行第j列更新前的值;为更新η时所用的梯度,具体的:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S304:计算和的时间复杂度分别为O(N)和O(N2),为降低时间复杂度、提高可计算性,采取如下近似:
<mrow>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>v</mi>
<mo>&NotElement;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msup>
<mi>&eta;</mi>
<mi>T</mi>
</msup>
<msub>
<mi>F</mi>
<mi>v</mi>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<msup>
<mi>&eta;</mi>
<mi>T</mi>
</msup>
<msub>
<mi>F</mi>
<mi>v</mi>
</msub>
</mrow>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>i</mi>
<mi>n</mi>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msup>
<mi>&eta;</mi>
<mi>T</mi>
</msup>
<msub>
<mi>F</mi>
<mi>v</mi>
</msub>
<mo>,</mo>
</mrow>
2
<mrow>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>&NotElement;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>=</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
</mrow>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>&Element;</mo>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>,</mo>
</mrow>
<mrow>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
<mo>&NotElement;</mo>
<mi>E</mi>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
<msubsup>
<mi>F</mi>
<mi>v</mi>
<mi>T</mi>
</msubsup>
<mo>=</mo>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
<msubsup>
<mi>F</mi>
<mi>v</mi>
<mi>T</mi>
</msubsup>
<mo>-</mo>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>&RightArrow;</mo>
<mi>v</mi>
<mo>)</mo>
<mo>&Element;</mo>
<mi>E</mi>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
<msubsup>
<mi>F</mi>
<mi>v</mi>
<mi>T</mi>
</msubsup>
<mo>.</mo>
</mrow>
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合;N(u)表示inN(u)和outN(u)的并集,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)、t(v)、t(v’)分别表示点u、点v与点v’的时间戳;
计算和的时间复杂度分别为O(|N(u)|)、O(|E|),总时间复杂度为O(|E|),中|N(u)|表示集合N(u)包含的节点的个数;|E|表示网络中边的条数。
5.根据权利要求4所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S4包括:
步骤S401:从数据文件中读取数据,并根据步骤S1构建时序文本网络;
步骤S402:初始化用户与社区间的联系强度矩阵F;基于向网络中的导率模型,如果节点u的入邻居inN(u)有比所有点v∈outN(u)的入邻居inN(v)有更小的导率,则该入邻居inN(u)在邻近是最小的;对于属于一个在邻近最小的邻域k内的节点u',初始化节点u'与一个社区k之间的联系强度Fu'k=1,否则令Fu'k=0;为了初始化η,设置主对角线上的项为0.9,其他项为0.1;
步骤S403:每轮次根据公式更新F与η,首先针对每个节点u,根据梯度公式更新节点u与所有社区之间的联系强度向量Fu,梯度公式如下:
<mrow>
<mo>&dtri;</mo>
<mi>l</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>F</mi>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>)</mo>
<mo>=</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>v</mi>
<mo>&Element;</mo>
<mi>i</mi>
<mi>n</mi>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msubsup>
<mi>F</mi>
<mi>v</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>&eta;F</mi>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msubsup>
<mi>F</mi>
<mi>v</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>&eta;F</mi>
<mi>u</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msup>
<mi>&eta;</mi>
<mi>T</mi>
</msup>
<msub>
<mi>F</mi>
<mi>v</mi>
</msub>
<mo>-</mo>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<mi>v</mi>
<mo>&NotElement;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>v</mi>
<mo>)</mo>
</mrow>
<mo><</mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msup>
<mi>&eta;</mi>
<mi>T</mi>
</msup>
<msub>
<mi>F</mi>
<mi>v</mi>
</msub>
<mo>+</mo>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>&Element;</mo>
<mi>o</mi>
<mi>u</mi>
<mi>t</mi>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mfrac>
<mrow>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msubsup>
<mi>F</mi>
<mi>u</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>exp</mi>
<mrow>
<mo>(</mo>
<mo>-</mo>
<msubsup>
<mi>F</mi>
<mi>u</mi>
<mi>T</mi>
</msubsup>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
<mo>-</mo>
<munder>
<munder>
<mi>&Sigma;</mi>
<mrow>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>&NotElement;</mo>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mrow>
<mi>t</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
<mo>)</mo>
</mrow>
<mo>></mo>
<mi>t</mi>
<mrow>
<mo>(</mo>
<mi>u</mi>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<msub>
<mi>&eta;F</mi>
<msup>
<mi>v</mi>
<mo>&prime;</mo>
</msup>
</msub>
</mrow>
其中inN(u)和outN(u)表示进入u节点和从u节点发出的节点的集合,Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量,η表示社区间的相似度的矩阵;ηT为对应的转置矩阵;
F更新完成后,根据梯度公式更新社区间的联系矩阵η,梯度公式如下:
其中E表示时序文本网络中所有边的集合;Fu、Fv和Fv′分别表示u节点、v节点和v’节点与所有社区的连接强度的向量;η表示社区间的相似度的矩阵;为对应的转置矩阵;(u→v)表示从点u指向点v的边;t(u)与t(v)分别表示点u与点v的时间戳;
步骤S404:经过一定轮次后,判定每个节点与社区间的隶属关系,针对每个社区k,设定一个阈值δk,具体设定方法如下:
<mrow>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msqrt>
<mrow>
<mo>-</mo>
<mfrac>
<mrow>
<mi>l</mi>
<mi>o</mi>
<mi>g</mi>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>-</mo>
<mn>1</mn>
<mo>/</mo>
<mi>N</mi>
<mo>)</mo>
</mrow>
</mrow>
<msub>
<mi>&eta;</mi>
<mrow>
<mi>k</mi>
<mi>k</mi>
</mrow>
</msub>
</mfrac>
</mrow>
</msqrt>
</mrow>
其中N为节点总数;ηkk为社区间联系矩阵η第k行第k列的分量,对于节点u与社区k,若联系强度Fuk大于社区k的阈值δk,则认为节点u隶属于社区k。
6.根据权利要求5所述的基于时序文本网络的社区检测与用户关系预测方法,其特征在于,所述步骤S5包括:
步骤S501:对选定的文本数据集进行训练,提取出节点与社区间联系强度矩阵F,以及社区间的联系关系矩阵η;
步骤S502:读取矩阵F与矩阵η;
步骤S503:根据步骤S2所定义的公式计算节点u与节点v之间边的存在概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710624691.6A CN107480213B (zh) | 2017-07-27 | 2017-07-27 | 基于时序文本网络的社区检测与用户关系预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710624691.6A CN107480213B (zh) | 2017-07-27 | 2017-07-27 | 基于时序文本网络的社区检测与用户关系预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480213A true CN107480213A (zh) | 2017-12-15 |
CN107480213B CN107480213B (zh) | 2021-12-24 |
Family
ID=60597882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710624691.6A Active CN107480213B (zh) | 2017-07-27 | 2017-07-27 | 基于时序文本网络的社区检测与用户关系预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480213B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537452A (zh) * | 2018-04-13 | 2018-09-14 | 中山大学 | 一种面向大规模复杂网络的密集可重叠社区划分方法 |
CN109033125A (zh) * | 2018-05-31 | 2018-12-18 | 黑龙江大学 | 时序数据支配集信息提取方法 |
CN109194703A (zh) * | 2018-06-29 | 2019-01-11 | 平安科技(深圳)有限公司 | 云平台主机间通信负载的处理方法、电子装置及介质 |
CN110968792A (zh) * | 2019-10-28 | 2020-04-07 | 东北大学 | 基于节点嵌入和个性化时间间隔的复杂网络链路预测方法 |
WO2020113437A1 (zh) * | 2018-12-04 | 2020-06-11 | 区链通网络有限公司 | 图结构处理方法、系统、网络设备及存储介质 |
CN117197725A (zh) * | 2023-11-07 | 2023-12-08 | 江苏源驶科技有限公司 | 一种基于多位置协作的时序动作提名生成方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294768A1 (en) * | 2007-05-22 | 2008-11-27 | Yahoo! Inc. | Hot within my communities |
CN101944045A (zh) * | 2010-10-18 | 2011-01-12 | 中国人民解放军国防科学技术大学 | 基于社区特性的并行离散事件仿真对象分发方法 |
CN102270239A (zh) * | 2011-08-15 | 2011-12-07 | 哈尔滨工业大学 | 论坛中关联网络的演化分析方法 |
CN102722639A (zh) * | 2012-05-21 | 2012-10-10 | 西安电子科技大学 | 基于进化计算对社会系统进行社区检测的方法 |
CN103457800A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于m精英协同进化策略的网络社区检测方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104657442A (zh) * | 2015-02-04 | 2015-05-27 | 上海交通大学 | 基于局部搜索的多目标社区发现方法 |
CN106503723A (zh) * | 2015-09-06 | 2017-03-15 | 华为技术有限公司 | 一种视频分类方法及装置 |
-
2017
- 2017-07-27 CN CN201710624691.6A patent/CN107480213B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294768A1 (en) * | 2007-05-22 | 2008-11-27 | Yahoo! Inc. | Hot within my communities |
CN101944045A (zh) * | 2010-10-18 | 2011-01-12 | 中国人民解放军国防科学技术大学 | 基于社区特性的并行离散事件仿真对象分发方法 |
CN102270239A (zh) * | 2011-08-15 | 2011-12-07 | 哈尔滨工业大学 | 论坛中关联网络的演化分析方法 |
CN102722639A (zh) * | 2012-05-21 | 2012-10-10 | 西安电子科技大学 | 基于进化计算对社会系统进行社区检测的方法 |
CN103853739A (zh) * | 2012-11-29 | 2014-06-11 | 中国移动通信集团公司 | 动态社会关系网络社区演化识别以及稳定社区提取方法 |
CN103457800A (zh) * | 2013-09-08 | 2013-12-18 | 西安电子科技大学 | 基于m精英协同进化策略的网络社区检测方法 |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
CN104268271A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 一种兴趣和网络结构双内聚的社交网络社区发现方法 |
CN104657442A (zh) * | 2015-02-04 | 2015-05-27 | 上海交通大学 | 基于局部搜索的多目标社区发现方法 |
CN106503723A (zh) * | 2015-09-06 | 2017-03-15 | 华为技术有限公司 | 一种视频分类方法及装置 |
Non-Patent Citations (4)
Title |
---|
MOHAMMAD AGHAGOLZADEH 等: "Transitivity based community analysis and detection", 《2013 IEEE GLOBAL CONFERENCE ON SIGNAL AND INFORMATION PROCESSING》 * |
徐建洲: "基于局部特征扩散的复杂网络社区检测研究", 《中国优秀博硕士学位论文全文数据库(硕士) 基础科学辑》 * |
韩文弢: "时序图数据处理技术研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 * |
黄颖: "考虑时序性和动态信任的工程经验知识推荐技术", 《上海交通大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108537452A (zh) * | 2018-04-13 | 2018-09-14 | 中山大学 | 一种面向大规模复杂网络的密集可重叠社区划分方法 |
CN109033125A (zh) * | 2018-05-31 | 2018-12-18 | 黑龙江大学 | 时序数据支配集信息提取方法 |
CN109033125B (zh) * | 2018-05-31 | 2022-05-13 | 黑龙江大学 | 时序数据支配集信息提取方法 |
CN109194703A (zh) * | 2018-06-29 | 2019-01-11 | 平安科技(深圳)有限公司 | 云平台主机间通信负载的处理方法、电子装置及介质 |
WO2020113437A1 (zh) * | 2018-12-04 | 2020-06-11 | 区链通网络有限公司 | 图结构处理方法、系统、网络设备及存储介质 |
CN110968792A (zh) * | 2019-10-28 | 2020-04-07 | 东北大学 | 基于节点嵌入和个性化时间间隔的复杂网络链路预测方法 |
CN117197725A (zh) * | 2023-11-07 | 2023-12-08 | 江苏源驶科技有限公司 | 一种基于多位置协作的时序动作提名生成方法及系统 |
CN117197725B (zh) * | 2023-11-07 | 2024-01-26 | 江苏源驶科技有限公司 | 一种基于多位置协作的时序动作提名生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107480213B (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480213A (zh) | 基于时序文本网络的社区检测与用户关系预测方法 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN111709244B (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN107870957A (zh) | 一种基于信息增益和bp神经网络的热门微博预测方法 | |
CN103631859A (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN106055604A (zh) | 基于词网络进行特征扩展的短文本主题模型挖掘方法 | |
CN107145527A (zh) | 对齐异构社交网络中基于元路径的链路预测方法 | |
CN108183956B (zh) | 一种传播网络的关键路径提取方法 | |
CN105183748B (zh) | 一种基于内容和评分的组合预测方法 | |
CN106503148A (zh) | 一种基于多知识库的表格实体链接方法 | |
CN105389505A (zh) | 基于栈式稀疏自编码器的托攻击检测方法 | |
CN103678703B (zh) | 一种借助图随机游走的开放类别命名实体抽取方法及装置 | |
CN106156257A (zh) | 一种微博舆情事件的态势预测方法 | |
CN103593474A (zh) | 基于深度学习的图像检索排序方法 | |
CN104702465A (zh) | 一种并行网络流量分类方法 | |
CN107463881A (zh) | 一种基于深度增强学习的人物图像搜索方法 | |
CN103324708A (zh) | 一种长文本到短文本的迁移学习方法 | |
CN106875278A (zh) | 基于随机森林的社交网络用户画像方法 | |
CN113705099B (zh) | 基于对比学习的社交平台谣言检测模型构建方法及检测方法 | |
CN104484433A (zh) | 一种基于机器学习的图书本体匹配方法 | |
CN108021682A (zh) | 开放式信息抽取背景下一种基于维基百科的实体语义化方法 | |
Wang et al. | Multi-task multimodal learning for disaster situation assessment | |
Wang et al. | Meta-learning adaptation network for few-shot link prediction in heterogeneous social networks | |
CN104572623B (zh) | 一种在线lda模型的高效数据总结分析方法 | |
CN104008301A (zh) | 一种领域概念层次结构自动构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |