CN105224675A - 一种顾及时空效应的微博主题提取方法 - Google Patents
一种顾及时空效应的微博主题提取方法 Download PDFInfo
- Publication number
- CN105224675A CN105224675A CN201510669860.9A CN201510669860A CN105224675A CN 105224675 A CN105224675 A CN 105224675A CN 201510669860 A CN201510669860 A CN 201510669860A CN 105224675 A CN105224675 A CN 105224675A
- Authority
- CN
- China
- Prior art keywords
- theme
- microblog
- topic
- time
- microblogging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004821 distillation Methods 0.000 title abstract 2
- 238000009826 distribution Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006855 networking Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 6
- 244000097202 Rathbunia alamosensis Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于舆情监控领域,涉及社交网络用户推荐、社交网络服务推荐及微博主题识别技术分析,尤其涉及一种顾及时空效应的微博主题提取方法。所述提取方法是以主题z、区域r,时间t,词汇w对微博建模,通过模型表达式得到这些参数的具体数值,进而实现微博主题的分类。包括以下步骤:(1)区域主题影响力计算,(2)顾及时空的微博主题建模,(3)微博主题模型参数计算。本发明的有益效果是构建考虑了连续时间和区域影响力权重的时空主题模型,能发现连续时间上微博主题的空间分布和强弱变化,与已有地理主题模型相比,能更加准确地提取微博主题。
Description
技术领域
本发明属于舆情监控领域,涉及社交网络用户推荐、社交网络服务推荐及微博主题识别技术分析,尤其涉及一种顾及时空效应的微博主题提取方法。
背景技术
近来,国内社交平台如新浪微博、腾讯微博等允许用户在所发布的信息中携带其地理位置,这些带有位置信息的微博被称为地理标识微博。挖掘带有地理标识的大规模微博数据,能发现人们的社会移动行为模式、消费习惯、事件时空演变和城市区域功能变化规律等知识,为商业推荐、舆情监控、灾害预警管理等提供有力支撑。但是微博数据具有噪音大,篇幅短和数量巨大等特征,一般文本挖掘方法如SVM或SVD(矩阵奇异分解)难以有效提取微博数据主题。
根据地理区域表达方式的不同,地理主题模型可分为两类,一类利用高斯分布来表达具有相同主题的文档分布区域,这些区域会随着数据集的不同而变化;一类是利用如行政区划表达固定的地理区域,不会随和数据集的不同而变化。在第一类中,有在主题模型中用不同的二维高斯分布表达不同主题的微博分布范围,这种方法能自适应发现不同主题的空间分布区域,但没有考虑区域对微博内容的影响程度;或者通过两个高斯分布分别描述主题在不同经纬度位置上的强度,但无法描述那些在经纬度上不遵从高斯分布的主题;或者采用固定的权重来表达区域对文档主题影响程度,而现实中不同区域对文档主题的影响程度是不同的。在第二类中,有以国家划分地理区域,发现不同事件和人物在不同国家的受关注程度;如有的利用概率潜在语义索引,以州为区域单位划分美国,发现不同主题在不同州的关注程度,并采用了固定权重来表达区域对文档主题影响程度。
在引入时间因素的地理主题模型的已有技术中,有利用在线LDA对微博主题进行提取,但其在主题模型之外采用泊松分布来捕捉主题强度在时间上异常情况,无法在主题模型中利用时间因素来辅助推断微博主题;或者集成区域和时间因素对博客主题进行提取,但它的时间是离散表达的,难以得到连续时间上的微博主题强度。
总的来说,已有时空主题模型没有或仅采用固定的区域影响权重无法准确反映不同区域对微博主题影响的差异性,同时他们将时间要素离散化,难以得到连续时间上的微博主题强度。
发明内容
本发明的发明目的在于针对现有技术中存在的无法准确反映不同区域对微博主题影响的差异性,及难以得到连续时间上的微博主题强度等问题,提供一种基于时空LDA模型的社交网络社区发现方法。
为了实现上述目的,本发明采用的技术方案如下:
一种顾及时空效应的微博主题提取方法,所述提取方法是将微博主题z划分为r个区域,t个时间,w个词汇,包括以下步骤:
(1)区域主题影响力建模:用于量化和描述区域POI数量及区域面积大小,从而判别区域对微博主题的影响程度;所述区域主题影响力模型表达式为:
其中,σr为区域r的影响力权重,pr表示区域r的POI数量,sr表示区域r的面积;
(2)顾及时空效应的微博主题建模:用于描述具有时间和区域要素的微博的生成过程;
(3)微博主题模型参数计算:通过计算微博主题模型参数,并对其归一化处理,从而提取微博的主题。
进一步地,所述步骤(2)的模型表达式为:
P(z|θ0,θr)=P(z|(1-σr)θ0+σr×θr)
其中,θ0表示背景主题的分布参数,θr表示区域r主题的分布参数。
进一步地,通过Gibbs采样方法计算时空主题模型的参数。
进一步地,当每个词汇w属于每个主题z的次数开始收敛时,该次Gibbs采样完成。
综上所述,本方案首先将城市划分为多个相互连接的非重叠区域,然后在LDA中引入区域主题分布和区域影响力权重,再利用Beta分布表达主题演变情况,最后进行模型参数估算。本发明相对现有技术的有益效果是:
1.采用Sigmoid函数形式描述区域主题影响力权重,结合稀疏增量式生成模型,可极大提高计算效率,有效判别区域主题对微博的影响程度,并显著提高微博主题获取的准确性。
2.构建考虑了连续时间和区域影响力权重的时空主题模型,能发现连续时间上微博主题的空间分布和强弱变化,与已有地理主题模型相比,能更加准确地提取微博主题。
附图说明
图1为本发明的时空主题模型图。
具体实施方式
以下将结合附图和具体实施例,对本发明提供的技术方案进行说明。
步骤1:区域主题影响力的建模
利用研究城市各社区的地理中心位置,构造了覆盖武汉市区的泰森多边形网,其中每个多边形网格代表一个区域。以θr为参数表示区域r主题的多项式分布,以为θ0参数表示背景主题的多项式分布。
在时间划分上,本文利用Beta分布描述不同主题随时间变化过程,从而在保证了时间连续特征的同时,获取任意时刻主题的强度。
本文认为,一个区域内的被标注出的POI数量越多,区域面积越小,表明该区域的社会功能越显著,该区域内的微博受到的影响就越强烈,反之,区域因素对微博主题的影响就越弱。我们采用Sigmoid函数形式描述区域主题影响力权重:
其中,σr表示为区域r的影响力权重,pr表示区域r的POI数量,sr区域r的面积。
步骤2:顾及时空效应的微博主题建模
稀疏增量式生成模型(SparseAdditiveGenerativemodel,SAGE),是在表达变量受到多个因素(这些因素可用指数家族概率分布表达时)影响时,在一个指数形式分布中对代表不同影响因素的参数进行混合,近似代表多个因素的总体影响,极大提高计算效率。因此,结合SAGE和区域主题影响力权重,微博主题z的生成过程可以表示为如下多项式分布:
P(z|θ0,θr)=P(z|(1-σr)θ0+σr×θr)
时空主题模型描述具有时间和区域要素的微博的生成过程:首先,每个区域r有一个参数为区域主题多项式分布;微博d中的主题z在背景主题分布及其所在区域主题分布的共同作用抽样得到;每个主题z有一个与之对应的“主题—词汇”多项式分布;同时,每个主题z也对应一个时间Beta分布;最终,微博d中各词汇w的生成过程就是依据主题z不停从中抽样得到,而每个词汇生成的时间也是依据主题z从Beta(ψz分布中抽样得到。
整个微博文档生成过程如下:
从Direchlet(α0)中抽样得到θ0;
对于每个区域r=1,…,R:
从均匀分布中抽取一个区域r;
从Direchlet(αr)中得到θr;
对于每个主题z=1,..,K:
从θ0和θr为参数的多项式分布中抽取出主题z;
从Direchlet(β0)中得到
从Direchlet(γ)中得到ψz;
对于微博d中的每个词汇w=1,…,Nd:
从为参数的多项式分布中抽取词汇w;
从ψz为参数的Beta分布中抽取时间t。
步骤3:时空主题模型参数计算
利用吉布斯(Gibbs)采样估计时空主题模型的参数。时空主题模型有两个潜在变量:主题z和区域r。同时为了表达不同区域影响力权重的差异,z和r的条件后验概率可写成:
以上联合概率公式表示基于之前各词汇所属的主题情况,采样得到的当前单词属于各主题的概率。其中,zdi表示当前微博d的第i个单词所属主题,rdi表示当前微博d的第i个单词所属区域(一个微博中所有单词属相同区域),tdi表示当前微博d的第i个单词发表时间(一个微博中所有单词的发表时间都相同);和分别表示该当前微博d所属主题z对应的2个Beta分布参数;-di表示除去当前正在采样的单词,表示文档d中第i个单词被认为属于主题zdi的次数,单词v属于主题zdi的次数;表示文档d属于主题zdi的次数,nd,z表示文档d属于主题z的次数;nr,z表示区域r中的微博属于主题z的次数,表示区域r中的微博属于主题zdi的次数。
在Gibbs采样中,要以矩阵形式记录每一步迭代中估计出来参数,它们分别是主题-词汇矩阵(KW),记录了每个单词属于该每个主题的次数;文档-主题矩阵(DK),记录每个文档属于每个主题的次数;主题-时间矩阵(K2),记录每个主题对应Beta分布的两个参数;区域-主题矩阵(RK),记录每个区域r属于每个主题的次数。当每个单词属于每个主题的次数开始收敛或迭代次数超过某一阈值时,该次Gibbs采样完成。
Gibbs采样完成后,即可利用这些矩阵对参数归一化,以概率形式表达这些参数:
其中,表示单词w属于z的概率,θr,z表示主题z在区域r的概率,θ0,z表示背景主题分布中主题z的概率;nz,w和nz,v分别为单词w和v属于主题z的次数;nr,z为区域r属于主题z的次数;nd,z文档d属于主题z的次数;和分别表示主题z演变的Beta分布的两个参数。td,n表示微博d中第n个单词属于主题z的时间,和分别表示抽样出来属于主题z的微博的时间均值和时间方差。利用以上时空主题模型参数即可进行未知微博的主题提取。
Claims (4)
1.一种顾及时空效应的微博主题提取方法,其特征在于:所述提取方法是以主题z、区域r,时间t,词汇w对微博建模,通过模型表达式得到这些参数的具体数值,进而实现微博主题的分类。包括以下步骤:
(1)区域主题影响力计算:用于量化和描述区域POI数量及区域面积大小,从而判别区域对微博主题的影响程度;所述区域主题影响力模型表达式为:
其中,σr为区域r的影响力权重,pr表示区域r的POI数量,sr表示区域r的面积;
(2)顾及时空效应的微博主题建模:用于描述具有时间和区域要素的微博的生成过程;
(3)微博主题模型参数计算:通过计算微博主题模型参数,并对其归一化处理,从而提取微博的主题。
2.根据权利要求1所述的一种顾及时空效应的微博主题提取方法,其特征在于:所述步骤(2)的模型表达式为:
P(z|θ0,θr)=P(z|(1-σr)θ0+σr×θr)
其中,θ0表示背景主题的分布参数,θr表示区域r主题的分布参数。
3.根据权利要求1所述的一种顾及时空效应的微博主题提取方法,其特征在于:通过吉布斯采样方法计算时空主题模型的参数。
4.根据权利要求3所述的一种顾及时空效应的微博主题提取方法,其特征在于:当每个词汇w属于每个主题z的次数开始收敛时,该次吉布斯采样完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510669860.9A CN105224675B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及时空效应的微博主题提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510669860.9A CN105224675B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及时空效应的微博主题提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105224675A true CN105224675A (zh) | 2016-01-06 |
CN105224675B CN105224675B (zh) | 2018-05-22 |
Family
ID=54993643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510669860.9A Expired - Fee Related CN105224675B (zh) | 2015-10-13 | 2015-10-13 | 一种顾及时空效应的微博主题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105224675B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512347A (zh) * | 2016-01-27 | 2016-04-20 | 北京航空航天大学 | 一种基于地理主题模型的信息处理方法 |
CN110287485A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN113191158A (zh) * | 2021-05-21 | 2021-07-30 | 润联软件系统(深圳)有限公司 | 基于Voronoi图的训练样本遮掩方法、装置及相关设备 |
-
2015
- 2015-10-13 CN CN201510669860.9A patent/CN105224675B/zh not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
段炼等: "基于时空主题模型的微博主题提取", 《武汉大学学报信息科学版》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512347A (zh) * | 2016-01-27 | 2016-04-20 | 北京航空航天大学 | 一种基于地理主题模型的信息处理方法 |
CN110287485A (zh) * | 2019-06-11 | 2019-09-27 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN110287485B (zh) * | 2019-06-11 | 2023-08-18 | 天津大学 | 一种基于主题建模的社会群体间影响力量化方法 |
CN113191158A (zh) * | 2021-05-21 | 2021-07-30 | 润联软件系统(深圳)有限公司 | 基于Voronoi图的训练样本遮掩方法、装置及相关设备 |
CN113191158B (zh) * | 2021-05-21 | 2021-10-26 | 润联软件系统(深圳)有限公司 | 基于Voronoi图的训练样本遮掩方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105224675B (zh) | 2018-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Galelli et al. | Tree‐based iterative input variable selection for hydrological modeling | |
CN103795613B (zh) | 一种在线社交网络中朋友关系预测的方法 | |
CN106600052B (zh) | 一种基于时空轨迹的用户属性与社会网络检测系统 | |
Kim et al. | Graph convolutional network approach applied to predict hourly bike-sharing demands considering spatial, temporal, and global effects | |
CN104008203B (zh) | 一种融入本体情境的用户兴趣挖掘方法 | |
CN103678431A (zh) | 一种基于标准标签和项目评分的推荐方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN104462592A (zh) | 基于不确定语义的社交网用户行为关系推演系统及方法 | |
CN103077247A (zh) | 一种社交网络中的朋友关系传递树的建立方法 | |
CN108932322A (zh) | 一种基于文本大数据的地理语义挖掘方法 | |
CN106296286A (zh) | 广告点击率的预估方法和预估装置 | |
Farahmand et al. | A spatial–temporal graph deep learning model for urban flood nowcasting leveraging heterogeneous community features | |
CN104199818A (zh) | 一种基于分类的社会化推荐方法 | |
CN105354244A (zh) | 一种用于社交网络社区挖掘的时空lda模型 | |
CN105224675B (zh) | 一种顾及时空效应的微博主题提取方法 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
CN107392392A (zh) | 基于深度学习的微博转发预测方法 | |
CN107392311A (zh) | 序列切分的方法和装置 | |
CN103744958B (zh) | 一种基于分布式计算的网页分类方法 | |
CN115965795A (zh) | 一种基于网络表示学习的深暗网群体发现方法 | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 | |
Ahani et al. | A feature weighting and selection method for improving the homogeneity of regions in regionalization of watersheds | |
CN104516873A (zh) | 建立情感模型的方法和装置 | |
CN114078024A (zh) | 广告库存的预估方法、装置、介质以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180522 Termination date: 20191013 |