CN108717421B - 一种基于时空变化的社交媒体文本主题提取方法及系统 - Google Patents

一种基于时空变化的社交媒体文本主题提取方法及系统 Download PDF

Info

Publication number
CN108717421B
CN108717421B CN201810364959.1A CN201810364959A CN108717421B CN 108717421 B CN108717421 B CN 108717421B CN 201810364959 A CN201810364959 A CN 201810364959A CN 108717421 B CN108717421 B CN 108717421B
Authority
CN
China
Prior art keywords
text
social media
theme
topic
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810364959.1A
Other languages
English (en)
Other versions
CN108717421A (zh
Inventor
岳隽
陈小祥
黄卫东
杜雁
徐雅莉
郜昂
张文晖
温洲冰
童岩冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Urban Planning And Design Institute Co ltd
Original Assignee
URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS) filed Critical URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS)
Priority to CN201810364959.1A priority Critical patent/CN108717421B/zh
Publication of CN108717421A publication Critical patent/CN108717421A/zh
Application granted granted Critical
Publication of CN108717421B publication Critical patent/CN108717421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:系统提取社交媒体数据的时间、位置、文本信息;构建基于时间变化信息的社交媒体文本主题;基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。一种基于时空变化的社交媒体文本主题提取系统,其包括:信息获取模块、时间文本获取模块、空间文本获取模块。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路,广泛应用于社交媒体领域。

Description

一种基于时空变化的社交媒体文本主题提取方法及系统
技术领域
本发明涉及社交媒体文本提取领域,具体为基于时空变化的社交媒体文本主题提取方法及系统。
背景技术
“大数据”时代的到来,为人们深入理解居民活动空间和社会经济环境带来了新的机遇。近年来,随着脸谱(Facebook)、推特(Twitter)和微博(Micro Blog)等移动社交平台的兴起,其产生的社交媒体数据已逐渐成为探究居民活动特征和社会经济特征的重要数据来源。这类数据中,80%以上都为文本数据类型,也有很多数据带有其发布时的时间和位置信息。因此,对社交媒体数据进行文本挖掘,并结合位置属性分析,已成为当前研究的热点。
随着主题模型的提出与广泛应用,其已经被证明是文本挖掘和主题提取的一种非常有效的方式。现有技术研究较好的提取了社交媒体数据中的文本主题,但他们都仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。
事实上,社交媒体数据所包含的时间和位置属性,能够很好的反映人们所处的活动空间和社会环境。例如,社交媒体数据中跟饮食相关的主题多集中于居民下班高峰期,具有显著的时间分布规律;科教相关的主题多分布于城市教育功能区,餐饮娱乐类主题多位于商业区,它们具有特定的空间分布特征。
现有社交媒体文本提取方法仅仅应用到了社交媒体数据中的文本信息,忽略了其数据包含的时间和位置属性。因此,有必要进行改进。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于时空变化的社交媒体文本主题提取方法及系统。
本发明所采用的技术方案是:
本发明提供一种基于时空变化的社交媒体文本主题提取方法,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
作为该技术方案的改进,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
作为该技术方案的改进,所述方法还包括:
系统构建各时间间隔内的文本文档;
系统构建顾及时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理。
进一步地,所述步骤提取基于空间位置信息的社交媒体文本主题,其包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率。
进一步地,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
另一方面,本发明还提供一种基于时空变化的社交媒体文本主题提取系统,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
本发明的有益效果是:本发明提供的基于时空变化的社交媒体文本主题提取方法及系统,首先,通过编写网络爬虫,获取社交媒体数据,并提取数据的时间信息、空间信息和文本信息;继而,引入潜在狄利克雷主题模型与归一化方法,构建基于时间变化信息的文本主题;最后,以路网为空间单元,构建文本文档,通过主题模型计算每个空间单元内带有时间变化信息的文本主题的分布概率。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路。
附图说明
下面结合附图对本发明的具体实施方式作进一步说明:
图1是本发明第一实施例的流程示意图;
图2为本发明第二实施例的不同主题数的混淆值;
图3为本发明第二实施例的文本主题的时间变化信息;
图4为本发明第二实施例的基于路网数据的空间单元划分;
图5a为本发明第二实施例的文本主题14的空间分布;
图5b为本发明第二实施例的文本主题23的空间分布。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明提供一种引入时空变化的社交媒体文本主题提取方法,包括如下步骤:
步骤A:社交媒体数据的时间、位置、文本信息提取。
通过编写网络爬虫,获取社交媒体数据。具体地,通过爬取社交媒体数据的发布时间,获取时间信息;通过爬取社交媒体数据发布的经度、纬度信息,获取位置信息;通过爬取社交媒体数据发布的文本,获取文本信息,并利用文本预处理的方法,去除文本信息中的噪音数据,保留有效的文本信息。其中,文本预处理方法包括:去除标点符号,将英文字母变为小写,去除停顿词,去除出现频率小于5的词语。
预处理后的社交媒体数据的部分时间、位置、文本信息,如表1所示:
表1
Figure BDA0001636929760000051
步骤B:基于时间变化信息的社交媒体文本主题构建。
首先,利用步骤A中提取的社交媒体数据的时间信息、文本信息,构建每个时间间隔内的文本文档。继而,引入潜在狄利克雷(Latent Dirichlet Allocation,LDA)主题模型,利用所构建的文本文档,构建顾及时间变化的文本主题,并计算其分布概率。最后,对构建的文本主题的概率进行归一化处理,其归一化后的分布概率即为文本主题的时间变化信息。
步骤B1:利用步骤A提取的时间信息、文本信息,如以1小时作为时间间隔,构建时间间隔t的文本文档dt,其公式如下:
Figure BDA0001636929760000052
其中,D为所有文本文档dt的集合,t∈[1,24]为工作日的时间间隔,t∈[25,48]为非工作日的时间间隔。
步骤B2:利用步骤B1所得文本文档dt,引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,其公式如下:
Figure BDA0001636929760000061
其中,z为模型计算所得主题,
Figure BDA0001636929760000064
为文本文档dt内的社交媒体文本信息,n为文本文档dt内所有文本信息的数量。α,β为模型的超参数,依据经验定义α=50/k,β=0.1,k为社交媒体文本主题的数量,由以下公式计算所得:
Figure BDA0001636929760000062
选取最小的P(D)的值所对应的主题数量。除此以外,Θ为文本主题在在每个文本文档dt内的分布概率。
实施例中,本方案分别计算了文本主题数为k∈[2,20,30,40……100]时,所对应的perplexity的值(混淆值),如图2所示。当k=2时,perplexity的值相对较高,k增长至30时,混淆值骤降,k继续增长到100时,perplexity混淆值下降缓慢,无明显变化。因此,本实施例选择k=30作为文本主题数。
计算所得部分文本主题如表2所示:
表2
Figure BDA0001636929760000063
Figure BDA0001636929760000071
步骤B3:对构建的文本主题的概率进行归一化处理,其归一化后的分布概率即为文本主题的时间变化信息。
由步骤B得文本主题分布概率Θ,其矩阵定义如下:(此公式需补充mathtype格式)
Figure BDA0001636929760000072
其中,矩阵的每一行表示每一个时间间隔内各个文本主题的分布概率,每一列表示每个主题在各个时间间隔内的分布概率。例如,Pt,i表示主题zi在时间间隔t内分布的概率。由此得到主题z的时间变化信息
Figure BDA0001636929760000073
继而,对每个主题在各时间间隔内的变化信息进行归一化处理,其公式如下:
Figure BDA0001636929760000081
其中,max(Θz)、min(Θz)分别表示主题z在各时间间隔内的最大分布概率和最小分布概率。
本实施例中,归一化所得30个文本主题的时间变化信息如图3所示。其中,横坐标表示48个时间间隔,纵坐标表示30个文本主题。图示的中的颜色越浅,表示某文本主题在某个时间间隔内的出现概率越高。由图3可得,不同文本主题的时间变化不尽相同。
步骤C:基于空间位置信息的社交媒体文本主题提取。首先,基于路网数据,划分社交媒体数据位置所在的空间单元,并提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档。继而,将步骤B所得带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率,其分布概率即为社交媒体文本主题的空间变化信息。
其中,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
步骤C1:利用路网数据,将研究区域划分为空间单元,取落入同一个空间单元的社交媒体数据,将同一个空间单元内的文本信息归类为同一个文本文档
Figure BDA0001636929760000082
则所有空间单元内的文本文档为
Figure BDA0001636929760000083
本实施例中,引入Open Street Map的路网数据,提取其主要道路,划分空间单元。如图4所示,共得到305个空间单元,用来计算文本主题的空间分布。
步骤C2:将步骤B所得带有时间变化信息的文本主题引入LDA主题模型,利用公式(2),计算每个空间单元内带有时间变化信息的文本主题的分布概率,其矩阵定义如下:
Figure BDA0001636929760000091
其中,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。Θp即为带有时间信息的文本主题在各空间单元的分布概率。
本实施例中,以文本主题14、23为例,其空间分布分别如图5a、图5b所示。图示中,空间单元的颜色越深,表示文本主题在该空间单元内的分布概率越大。
另一方面,本发明还提供一种基于时空变化的社交媒体文本主题提取系统,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题。
本发明提供的基于时空变化的社交媒体文本主题提取方法及系统,首先,通过编写网络爬虫,获取社交媒体数据,并提取数据的时间信息、空间信息和文本信息;继而,引入潜在狄利克雷主题模型与归一化方法,构建基于时间变化信息的文本主题;最后,以路网为空间单元,构建文本文档,通过主题模型计算每个空间单元内带有时间变化信息的文本主题的分布概率。本方案将社交媒体数据的时间和空间特征与文本信息相结合,为基于社交媒体数据的文本主题提取提供了一种新的思路。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (4)

1.一种基于时空变化的社交媒体文本主题提取方法,其特征在于,其包括以下步骤:
系统提取社交媒体数据的时间、位置、文本信息;
构建基于时间变化信息的社交媒体文本主题;
基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题;
其中,所述方法还包括:
系统构建各时间间隔t内的文本文档dt,其中,t为时间间隔,t为大于0的整数;
系统构建各时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理,将归一化后的分布概率作为文本主题的时间变化信息;
其中,所述提取基于空间位置信息的社交媒体文本主题,包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元;
提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档
Figure FDA0003881858970000011
其中,p指空间单元,pi为第i个空间单元,i为大于0的整数;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率;
其中,所述系统构建各时间变化的文本主题,并计算其分布概率包括:引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,所述LDA主题模型的公式表示为第一公式,所述第一公式为:
Figure FDA0003881858970000021
其中,z为LDA主题模型计算所得主题,
Figure FDA0003881858970000022
为文本文档dt内的社交媒体文本信息,t为时间间隔,n为文本文档dt内所有文本信息的数量;θ为文本主题在每个文本文档dt内的分布概率,α,β为模型的超参数,α=50/k,β=0.1;
k为社交媒体文本主题的数量,由第二公式计算所得,所述第二公式为:
Figure FDA0003881858970000023
选取最小的P(D)的值所对应的社交媒体文本主题的数量k,k为大于0的整数;
其中,所述将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率包括:
将带有时间变化信息的文本主题引入所述LDA主题模型,利用所述第一公式,得到每个空间单元内带有时间变化信息的文本主题的分布概率的矩阵表示为:
Figure FDA0003881858970000031
其中,pi为第i个空间单元;zi为第i个文本主题,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。
2.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述方法还包括文本预处理,其具体为:去除标点符号、将英文字母变为小写、去除停顿词、去除出现频率小于5的词语。
3.根据权利要求1所述的基于时空变化的社交媒体文本主题提取方法,其特征在于,所述社交媒体数据集包括:新浪微博数据集,Twitter数据集,Facebook数据集。
4.一种基于时空变化的社交媒体文本主题提取系统,其特征在于,其包括:
信息获取模块,用于执行步骤系统提取社交媒体数据的时间、位置、文本信息;
时间文本获取模块,用于执行步骤构建基于时间变化信息的社交媒体文本主题;
空间文本获取模块,用于执行步骤基于上述具有时间变化信息的社交媒体文本主题,提取基于空间位置信息的社交媒体文本主题,
所述社交媒体文本主题提取系统还包括处理模块,用于执行步骤:
系统构建各时间间隔t内的文本文档dt,其中,t为时间间隔,t为大于0的整数;
系统构建各时间变化的文本主题,并计算其分布概率;
系统对构建的文本主题的分布概率进行归一化处理,将归一化后的分布概率作为文本主题的时间变化信息;
其中,所述步骤提取基于空间位置信息的社交媒体文本主题,包括:
系统基于路网数据,划分社交媒体数据位置所在的空间单元;
提取落入同一个空间单元的社交媒体数据集,构建每个空间单元的文本文档
Figure FDA0003881858970000041
其中,p指空间单元,pi为第i个空间单元,i为大于0的整数;
将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率;
其中,所述统构建各时间变化的文本主题,并计算其分布概率包括:引入LDA主题模型,计算每个时间间隔t内的主题及主题分布,所述LDA主题模型的公式表示为第一公式,所述第一公式为:
Figure FDA0003881858970000051
其中,z为LDA主题模型计算所得主题,
Figure FDA0003881858970000052
为文本文档dt内的社交媒体文本信息, t为时间间隔,n为文本文档dt内所有文本信息的数量,θ为文本主题在每个文本文档 dt 的分布概率 ;α,β为模型的超参数,α=50/k,β=0.1,k为社交媒体文本主题的数量,由第二公式计算所得,所述第二公式为:
Figure FDA0003881858970000053
选取最小的P(D)的值所对应的社交媒体文本主题的数量k,k为大于0的整数;
其中,所述将带有时间变化信息的文本主题引入LDA主题模型,计算每个空间单元内文本主题的分布概率包括:
将带有时间变化信息的文本主题引入所述LDA主题模型,利用所述第一公式,得到每个空间单元内带有时间变化信息的文本主题的分布概率的矩阵表示为:
Figure FDA0003881858970000054
其中,pi为第i个空间单元;zi为第i个文本主题,矩阵的每一行表示每一个空间单元内各个文本主题的分布概率,每一列表示每个主题在各个空间单元内的分布概率。
CN201810364959.1A 2018-04-23 2018-04-23 一种基于时空变化的社交媒体文本主题提取方法及系统 Active CN108717421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810364959.1A CN108717421B (zh) 2018-04-23 2018-04-23 一种基于时空变化的社交媒体文本主题提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810364959.1A CN108717421B (zh) 2018-04-23 2018-04-23 一种基于时空变化的社交媒体文本主题提取方法及系统

Publications (2)

Publication Number Publication Date
CN108717421A CN108717421A (zh) 2018-10-30
CN108717421B true CN108717421B (zh) 2023-01-24

Family

ID=63899336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810364959.1A Active CN108717421B (zh) 2018-04-23 2018-04-23 一种基于时空变化的社交媒体文本主题提取方法及系统

Country Status (1)

Country Link
CN (1) CN108717421B (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9466071B2 (en) * 2011-11-16 2016-10-11 Yahoo! Inc. Social media user recommendation system and method
CN102662960A (zh) * 2012-03-08 2012-09-12 浙江大学 在线监督式主题建模及其演变分析的方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN103390051B (zh) * 2013-07-25 2016-07-20 南京邮电大学 一种基于微博数据的话题发现与追踪方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN103488769B (zh) * 2013-09-27 2017-06-06 中国科学院自动化研究所 一种基于多媒体数据挖掘的地标信息检索方法
US20160203523A1 (en) * 2014-02-21 2016-07-14 Lithium Technologies, Inc. Domain generic large scale topic expertise and interest mining across multiple online social networks
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN105354244A (zh) * 2015-10-13 2016-02-24 广西师范学院 一种用于社交网络社区挖掘的时空lda模型
CN105740342A (zh) * 2016-01-22 2016-07-06 天津中科智能识别产业技术研究院有限公司 一种基于社会关系主题模型的社交网络朋友推荐方法
US20170235726A1 (en) * 2016-02-12 2017-08-17 Fujitsu Limited Information identification and extraction
CN106909643B (zh) * 2017-02-20 2020-08-14 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106919680B (zh) * 2017-02-28 2019-06-28 山东师范大学 一种利用poi数据进行地表覆盖分类的方法及系统

Also Published As

Publication number Publication date
CN108717421A (zh) 2018-10-30

Similar Documents

Publication Publication Date Title
Dahal et al. Topic modeling and sentiment analysis of global climate change tweets
Jiang et al. Understanding demographic and socioeconomic biases of geotagged Twitter users at the county level
CN103699626B (zh) 一种微博用户个性化情感倾向分析方法及系统
Kovacs-Gyori et al. # London2012: Towards citizen-contributed urban planning through sentiment analysis of twitter data
CN103778200B (zh) 一种报文信息源抽取方法及其系统
Lai et al. Improved targeted outdoor advertising based on geotagged social media data
CN101488927A (zh) 即时通讯装置管理文字信息的方法及一种即时通讯装置
CN103455581B (zh) 基于语义扩展的海量短文本信息过滤方法
CN109508379A (zh) 一种基于加权词向量表示和组合相似度的短文本聚类方法
CN103970873A (zh) 一种音乐推荐方法和系统
CN106021388A (zh) 基于lda主题聚类的微信公众号的分类方法
CN103793489A (zh) 一种在线社交网络中社群话题的发现方法
CN104834695A (zh) 基于用户兴趣度和地理位置的活动推荐方法
CN102646132B (zh) 宽带用户属性识别方法和装置
CN103886067A (zh) 使用标签隐含主题进行图书推荐的方法
Rauchfleisch et al. How COVID-19 displaced climate change: mediated climate change activism and issue attention in the Swiss media and online sphere
CN111242218B (zh) 融合用户多属性信息的跨社交网络用户身份识别方法
Xu et al. Anomalous urban mobility pattern detection based on GPS trajectories and POI data
CN102193951A (zh) 信息抽取的方法及系统
Lei et al. Spatial-temporal analysis of human dynamics on urban land use patterns using social media data by gender
CN102262658B (zh) 一种基于实体的自底向上Web数据抽取方法
CN108733810A (zh) 一种地址数据匹配方法及装置
CN103226550A (zh) 一种基于查询输入的热点事件确定方法和系统
CN108717421B (zh) 一种基于时空变化的社交媒体文本主题提取方法及系统
Ouaret et al. Random Forest location prediction from social networks during disaster events

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518028

Patentee after: Shenzhen Urban Planning and Design Institute Co.,Ltd.

Address before: 10 / F, Jianyi building, 3 Zhenxing Road, Futian District, Shenzhen, Guangdong 518028

Patentee before: URBAN PLANNING & DESIGN INSTITUTE OF SHENZHEN (UPDIS)

CP01 Change in the name or title of a patent holder