CN107633044A

CN107633044A - 一种基于热点事件的舆情知识图谱构建方法

Info

Publication number: CN107633044A
Application number: CN201710827984.4A
Authority: CN
Inventors: 刘春阳; 王卿; 王萌; 赵志云; 张旭; 苗琳; 吴俊杰; 袁石
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-01-26
Anticipated expiration: 2037-09-14
Also published as: CN107633044B

Abstract

本发明公开了一种基于热点事件的舆情知识图谱构建方法，属于自然语言处理领域；首先实时获取微博文本，对每个微博文本进行处理，构建文本簇，计算每个文本簇所属的话题类别，按类别识别每个簇中的热点事件，统计每个热点事件的多维属性；识别参与热点事件讨论的重要人物和机构，并获取重要人物和机构的多维属性；最后构建事件、人物、机构的多维属性体系及关系类型，以事件、人物、机构为实体，事件、人物、机构之间的关系为关联，构建舆情知识图谱。本发明能够从多个维度对热点事件、人物、机构进行刻画，实现对热点事件、人物、机构的全方位解析；并根据实际需求，设置不同话题类别的权重，实现不同话题的舆情知识图谱构建。

Description

一种基于热点事件的舆情知识图谱构建方法

技术领域

本发明属于自然语言处理领域，涉及一种知识图谱构建技术，具体是一种基于热点事件的舆情知识图谱构建方法。

背景技术

近年来，随着互联网技术的飞速发展，社会化媒体已经成为人们生活中必不可少的部分；社会化媒体中被使用范围最广的就是微博平台。一些重要媒体(如人民网、新华网)通过微博平台发布热点新闻和报道，人们可以通过微博平台发表对热点新闻和报道的看法；这些看法对新闻报道的主体有非常重要的研究价值。

例如，一条关于某企业高管集体离职的新闻，人们会对这条新闻进行评论和转发，发表自己对该新闻的意见和看法。分析这些意见和看法对维护企业形象、制定危机公关策略提供重要的参考依据。

但是，由于微博平台每天会产生亿级的文本信息，而且信息之间存在多种关联关系，所以仅仅依靠传统的数据挖掘技术，无法揭示出信息之间的关联关系，因此，需要一种既能从大量文本中挖掘出有价值信息，又能揭示信息之间关联关系的技术，来实现对社会化媒体的舆论分析。

发明内容

本发明为了实现对社交网络热点事件的主体：事件、人物和机构之间关系的快速梳理，提出了一种基于热点事件的舆情知识图谱构建方法。

具体步骤如下：

步骤一、从新浪微博中挑选具有权威性和时效性的微博媒体账号，并利用网络爬虫技术，获取对应的微博文本；

权威性是指：媒体账号发布的微博文本是真实的；时效性是指：媒体账号发布的微博文本所涉及到的热点事件是最近一天发生的。

步骤二、将每条微博文本进行分词，去掉文本中的停用词后，进行n-gram处理，将每条微博转换成若干词语集合；

每个集合中包括从该集合的起始词语开始，连续出现的n个词语。每个集合的起始词语不同，第i个集合的起始词语是原文本中第i个词语。

步骤三、利用Shingling算法计算任意两条微博文本之间的相似度，并将相似度大于阈值E的所有微博文本放入同一个文本簇；

Shingling算法计算微博A和微博B的相似度r(A,B)，公式如下：

S(A)表示微博A的若干词语集合，|S(A)∩S(B)|表示S(A)和S(B)的交集中包含的词语集合数量，|S(A)∪S(B)|表示S(A)和S(B)的并集中包含的词语集合数量。

步骤四、利用话题词典，对每个文本簇进行话题分类，并计算各文本簇属于的话题类别；

话题分类是指：统计每个文本簇所有微博文本中出现在话题词典中的词语数量，将每个文本簇划分到出现的词语数量最多的一类话题中。

对于第Z个文本簇，计算该文本簇的话题类别Label(Z)公式如下：

其中，n表示话题类别的数量；T_i表示第i类话题中特征词的集合，特征词来源于话题词典；count(Z,T_i)表示第i类话题在第Z个文本簇中出现的特征词的数量。

话题的类别包括政治、经济、军事和外交等；经过上述公式，每个文本簇都划分到了一个话题类别中。

步骤五、针对每个文本簇，指定该文本簇的话题类别所对应的权重，统计每条文本的转发数和评论数，并计算该文本簇的影响力；

影响力计算公式如下：

WI(Z)＝w(Label(Z))×(retweet(Z)+comment(Z))

其中，w(Label(Z))表示第Z个文本簇的话题类别所对应的权重，retweet(Z)表示第Z个文本簇里所有微博文本的转发数之和，comment(Z)表示第Z个文本簇里所有微博文本的评论数之和。

话题类别的权重由人工指定，根据不同话题舆情知识图谱的需求，对每种话题类别设置不同的权重。

步骤六、对所有文本簇按照影响力的大小降序排列，针对前K个文本簇，分别选择每个文本簇的微博热点事件；

热点事件是指每个文本簇中转发数和评论数之和最大的微博文本。

步骤七、统计前K个文本簇中每个微博热点事件的多维属性。

多维属性包括：基本属性、时空属性、情绪属性、网络属性和语义属性；

基本属性包括事件名称、发生地点、发生时间、事件类型、微博数量、转发微博数、评论微博数、参与讨论人数和时间跨度。

时空属性从时间和地域上分别对该热点事件的微博文本数量进行统计。

情绪属性是指该热点事件的微博文本所代表的情绪进行统计；首先，对该热点事件的每条微博文本分为积极、消极、中性三种情绪类型；然后，统计每种情绪类别的微博文本数量，计算每种情绪的比例，作为热点事件的情绪属性。

网络属性包括热点事件的转发和评论结构。

语义属性包括热点事件的关键词和事件主题。

步骤八、针对每个热点事件，分别统计参与讨论的重要人物和机构，并获取各人物和机构的多维属性。

基于背景信息和文本信息分别计算人物和机构的多维属性，人物的多维属性包括基本信息、影响力信息、情绪信息、活动信息、社交信息和偏好信息；机构的多维属性包括基本信息、影响力信息、情绪信息、社交信息和偏好信息。

如下表所示：

步骤九、根据每个热点事件的多维属性，对应的人物和机构的多维属性，分别计算该热点事件与人物和机构之间的关系。

关系如下表所示：

关联类型	关系名称
		事件-事件	主题关联
人物-人物	交互、自述关联、ip关联
		机构-机构	交互、业务关联
人物-事件	舆论参与
		机构-事件	舆论参与
人物-机构	交互、业务关联

步骤十、基于每个热点事件，对应的人物和机构，以及三者之间的关系，构建网络图形成舆情知识图谱。

网络图中的节点为：热点事件、人物或机构；边为热点事件、人物和机构之间的关系；节点属性是事件、人物或机构的属性。

本发明的优点在于：

1)、一种基于热点事件的舆情知识图谱构建方法，通过对微博文本快速、有效地处理，能够实时感知微博热点事件及其关联人物、机构，并识别热点事件、人物、机构之间的关联关系，构建热点事件的舆情知识图谱。

2)、一种基于热点事件的舆情知识图谱构建方法，能够从多个维度对热点事件、人物、机构进行刻画，实现对热点事件、人物、机构的全方位解析；并能根据实际需求，设置不同话题类别的权重，实现不同话题的舆情知识图谱构建。

附图说明

图1为本发明基于热点事件的舆情知识图谱构建方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方法进行详细说明。

本发明基于热点事件的舆情知识图谱构建方法，利用知识图谱技术来解决社会化媒体舆论分析问题；适用于社会舆情分析领域，能直观地展示社会媒体舆情信息的内容和关联关系。具体为:

首先，考虑热点事件的时效性，利用爬虫技术实时获取重要媒体账号的微博文本；

然后，利用文本挖掘和自然语言处理技术，识别微博文本中的事件、人物、机构。

具体为：选定重要微博媒体账号，实时获取其微博文本，对每个微博文本进行处理，构建文本簇，计算每个文本簇所属的话题类别，按类别识别每个簇中的热点事件，统计每个热点事件的多维属性。然后，识别参与每个热点事件讨论的重要人物和机构，并获取重要人物和机构的多维属性。

最后，结合微博信息的特点，构建事件、人物、机构的多维属性体系及关系类型，根据属性体系及关系类型，分别计算事件、人物、机构的属性和关系，并基于计算出的属性，以事件、人物、机构为实体，事件、人物、机构之间的关系为关联，构建舆情知识图谱。

具体步骤如下：

从新浪微博中人工挑选重要的微博媒体账号，并利用网络爬虫技术，获取这些媒体发布的微博文本；所挑选的媒体账号要具有权威性和时效性：权威性体现在媒体账号发布的微博文本是真实的，不是虚假的；时效性体现在媒体账号发布的微博文本所涉及到的热点事件是最近一天发生的。

本发明挑选了“央视新闻”、“凤凰卫视”、“中央人民广播电台”、“新华网”等104个微博媒体账号。

停用词是指在句子中只起连接作用，没有实际含义的词语。一般情况下“的”、“但是”等虚词属于停用词范畴。

对已经去掉停用词的分词结果进行n-gram处理，即从起始词语开始，将连续出现的n个词语组成一个集合。

最后，每条微博都被转换成了由若干个词语集合组成，每个词语集合包含连续出现的n个词语。每个集合的起始词语是不同的，第i个集合的起始词语是原文本中第i个词语。本发明中n取2。

步骤三、利用Shingling算法计算任意两条微博文本之间的相似度，并将相似度大于阈值E的所有微博文本放入一个文本簇；

Shingling算法计算微博A和微博B的相似度r(A,B)，公式如下：

本发明中阈值E取0.6。

每个文本簇包含至少一条微博文本，如针对A、B、C、D、E五条微博文本，利用Shingling算法计算每两条微博的相似度得到以下相似度：A-B、A-C、A-D、A-E、B-C、B-D、B-E、C-D、C-E、D-E；若A-B、A-C和B-C的相似度均小于阈值，则将A、B、C聚成一个文本簇。

话题词典是从人工采集的涉及政治、经济等话题的新闻报道中，利用中文分词工具，对新闻报道进行分词和词性标注，保留其中的名词，并计算每个词语的TFIDF值，保留每个话题下TFIDF值较高的1000个词语。最后，经过人工挑选，每个话题保留500个能代表该话题特征的词语。

本实施例中话题的类别选择政治、经济、军事和外交；经过上述公式，每个文本簇都划分到了一个话题类别中。

其中，n表示话题类别的数量，本发明中n≤4；T_i表示第i类话题中特征词的集合，特征词来源于话题词典；count(Z,T_i)表示第i类话题在第Z个文本簇中出现的特征词的数量。

影响力计算公式如下：

WI(Z)＝w(Label(Z))×(retweet(Z)+comment(Z))

话题类别的权重由人工指定，根据不同话题舆情知识图谱的需求，对话题类别设置不同的权重，要满足所有话题类别权重加和等于1。本发明中四种话题类别的权重都是0.25；当构建以外交事件为主要节点的舆情知识图谱时，将外交类别的权重设置大一些，并将其他三类的权重设置小一些。

本发明中K取10，利用文本挖掘技术，取影响力排名前10个文本簇作为微博热点事件的集合。对于每一个文本簇，选出其中转发数和评论数之和最大的微博文本，作为该文本簇的代表文本，以代表该文本簇所表示的热点事件。

步骤七、统计前K个文本簇中每个微博热点事件的多维属性。

具体属性如下表所示：

基本属性中：事件名称是每个文本簇的代表文本；发生地点、发生时间是利用中文命名实体识别工具，对文本簇中转发数和评论数之和最高的新闻微博，进行地点和时间要素的抽取；事件类型是每个热点事件文本簇的话题类型；微博数量、转发微博数、评论微博数、参与讨论的微博用户数和时间跨度是根据对每个热点事件的文本簇进行数量统计实现的。

时空属性从时间和地域两个维度上分别对该热点事件的微博文本数量进行统计。在时间维度，从微博文本最早的发布时间到最晚的发布时间，以天为单位，统计每天发布的微博数量。在地域维度，获取微博用户发布文本的省份信息，并按照省份信息统计微博文本的数量。另外，根据微博文本的转发链和评论链，结合微博文本所在省份的信息，分别统计不同省份间的微博同向转发和评论的次数，形成以省份为节点，以转发或评论关系为边的有向图，例如，有一条转发链“北京->上海->广州->北京”，那么，基于该转发链形成的有向图的边有“北京->上海”、“上海->广州”、“上海->广州”，并且边的权重为1。再将该有向图映射到地图上，形成事件地理迁徙图。

情绪属性是指该热点事件的微博文本所代表的情绪进行统计；首先，利用融合情感词典和表情的多层朴素贝叶斯分类器，对该热点事件的每条微博文本进行情绪分类，分为积极、消极、中性三种情绪类型；然后，统计每种情绪类别的微博文本数量，计算每种情绪的比例。另外，根据微博文本发布的时间，以十五分钟为间隔，统计每十五分钟以内积极、消极、中性三种情绪微博的数量。

融合情感词典和表情的多层朴素贝叶斯分类器的计算过程如下：

1)统计微博文本中出现积极、消极类的情感词典和表情数量。

2)比较两个情感词典和表情数量的大小，若两类数量不相等，将微博文本归入数量较多的一类情绪，中止计算。否则，进入下一步。

3)利用朴素贝叶斯分类原理，构建“极性-非极性”分类器，判别微博文本是否有极性。若判定为“非极性”，将该文本划分为“中性”，中止计算。否则，进入下一步。

4)利用朴素贝叶斯分类原理，构建“积极-消极”分类器，判别微博文本积极情绪还是消极情绪。若判定为“积极”，将该文本划分为“积极”，若判定为“消极”，将该文本划分为“消极”。

网络属性包括热点事件的转发、评论结构。

热点事件的转发、评论结构是根据热点事件的微博文本还原出来的，下面以转发结构的计算为例，说明具体方法：首先，针对每条转发微博，获取“//@”后面的微博用户昵称；其次，按照微博用户昵称出现的先后顺序，构建该微博文本的转发链；然后，根据每条微博构建出的转发链，统计微博用户之间的转发次数；最后，以微博用户昵称为节点，用户之间的转发关系为边，用户之间的转发次数为边的属性，构建转发结构图。评论结构的计算方法和转发结构类似，只是将其中的转发关系换成评论关系。

语义属性包括关键词、热点事件的主题及其演化规律。

事件的关键词的计算方法如下：首先，利用中文分词工具对热点事件的微博文本进行分词及词性标注；再从分词结果中选择其中的名词，并对每个名词进行词频统计；最后，根据词频对名词进行排序，取词频较高的前10个名词作为事件的关键词。

事件主题是通过主题建模工具对热点事件的微博文本进行主题建模。通过建模工具，得到该热点事件包含的主题，每个主题由主题词及其分布组成。

事件演化规律的计算方法如下：首先，根据每个主题的主题词，匹配该热门事件的所有微博文本，实现微博文本的主题分类；然后，以十五分钟为时间间隔，统计每十五分钟以内每个主题下微博文本的数量；最后，将每个主题下微博文本数量随时间变化的趋势，作为该热点事件的演化规律。

对于每一个文本簇，首先，根据参与该文本簇讨论的微博用户的认证类型，将微博用户分为人物和机构。然后，分别统计每个人物、每个机构参与讨论的微博文本数。最后，按照微博文本数分别对人物和机构进行排序，选取参与讨论的微博文本数较多的前100个人物和机构，作为该文本簇中的重要人物和机构。

基于背景信息和文本信息分别计算人物和机构的多维属性，如下表所示：

如上表所示，人物和机构的多维属性的差异体现在人物有活动信息，而机构没有活动信息。表中所示的各维度属性计算方式如下：

基本信息：人物和机构的基本信息主要从微博用户的背景信息库中获取。其中，人物昵称、微博头像、粉丝数、关注数、微博数、个人描述是动态属性，会随着背景信息库的变化而变化。

影响力信息：影响力信息是通过人物和机构每天的发微博行为计算得到的。具体而言，活跃度是人物和机构每天发布的微博数量，影响力是人物和机构发布的微博被转发和评论的数量。由于活跃度和影响力取值是正整数，所以需要按天对人物和机构的活跃度、影响力进行归一化，归一化的公式如下：

其中，act_i表示某一天第i个人物或机构的活跃度，inf_i表示某一天第i个人物或机构的影响力，min_act表示当天所有人物和机构活跃度的最小值，max_act表示当天所有人物和机构活跃度的最大值。

情绪信息：人物和机构的情绪信息与事件的情绪信息类似；具体方法如下：首先，利用融合情感词典和表情的多层朴素贝叶斯分类器，对人物或机构的每条微博文本进行情绪分类，分为积极、消极、中性三种情绪类型；然后，统计每种情绪类别的微博文本数量，计算每种情绪的比例。另外，根据微博文本发布的时间，以十五分钟为间隔，统计每十五分钟以内积极、消极、中性三种情绪微博的数量。

活动信息：活动信息是通过对人物一段时间内的发微博行为计算得到的。具体而言，活跃地理位置、活跃ip地址是对发布微博的省份和ip地址进行统计，获取发布微博最多的省份和ip地址；活跃时间段是人物在一段时间内，发布微博数量最多的时间段。这里的时间段是指一天中的时间段，即0点到24点中的时间段。活动轨迹是将人物最近一周的活跃地址按照时间进行排序，形成的一个地址序列。

社交信息：社交信息是通过还原一段时间内微博文本中@的关系计算得到的。具体而言，首先，利用规则将微博文本分为评论微博和转发微博；然后，利用正则表达式获取微博文本中@后面的微博用户昵称；最后，根据微博用户昵称匹配对应的微博用户，再进行社交信息统计。对于评论微博，被匹配的用户是文本发布用户的被评论用户，文本发布用户是被匹配用户的评论用户；对于转发微博，被匹配的用户是文本发布用户的被转发用户，文本发布用户是被匹配用户的转发用户。

偏好信息：偏好信息是对人物和机构一段时间内发布的微博文本进行计算得到的。具体而言，关键词是利用中文分词工具对文本进行处理之后保留的词频较高的前10个名词；微话题是利用正则表达式匹配到的频数较高的前10个微博hashtag；文本主题是通过主题建模工具对人物或机构的微博文本进行主题建模，每个主题由主题词及其分布组成。

如下表所示：

如上表所示，“主题关联”关系是通过统计两个事件包含的相同关键词的数量得到的，对于数值大于阈值R_topic的两个事件，构成“主题关联”关系；“交互”关系是通过统计人物、机构之间的交互次数得到的，这里的交互次数是转发、被转发、评论、被评论次数总和，对于数值大于阈值R_interaction的人物或机构，构成“交互”关系；“自述关联”和“业务关联”关系是通过判断人物、机构的个人描述是否含有相同词语得到的，具有相同词语即构成“自述关联”或“业务关联”关系；“ip关联”关系是通过判断两个人物的活跃ip地址的前三段数字是否相同，前三段数字相同即构成“ip关联”关系；“舆论参与”关系是通过微博发布情况进行计算的，若微博用户发布了某个热点事件的中的微博文本，则该微博用户和该热点事件构成“舆论参与”关系。

基于上述步骤生成的事件、人物、机构及其关系，以事件、人物、机构作为节点，事件、人物、机构之间的关系作为边，事件、人物、机构的属性作为节点的属性，构建网络图，形成舆情知识图谱。舆情知识图谱中实体类型有三类，包括事件、人物、机构；关系类型有六类，包括“事件-事件”、“人物-事件”、“机构-事件”、“人物-人物”、“机构-机构”、“人物-机构”。

Claims

1.一种基于热点事件的舆情知识图谱构建方法，其特征在于，具体步骤如下：

每个集合中包括从起始词语开始，连续出现的n个词语；起始词语根据集合不同而不同，第i个集合的起始词语是原文本中第i个词语；

其中，n表示话题类别的数量；T_i表示第i类话题中特征词的集合，特征词来源于话题词典；count(Z,T_i)表示第i类话题在第Z个文本簇中出现的特征词的数量；

影响力计算公式如下：

WI(Z)＝w(Label(Z))×(retweet(Z)+comment(Z))

其中，w(Label(Z))表示第Z个文本簇的话题类别所对应的权重，retweet(Z)表示第Z个文本簇里所有微博文本的转发数之和，comment(Z)表示第Z个文本簇里所有微博文本的评论数之和；

热点事件是指每个文本簇中转发数和评论数之和最大的微博文本；

步骤七、统计前K个文本簇中每个微博热点事件的多维属性；

步骤八、针对每个热点事件，分别统计参与讨论的重要人物和机构，并获取各人物和机构的多维属性；

人物的多维属性包括基本信息、影响力信息、情绪信息、活动信息、社交信息和偏好信息；机构的多维属性包括基本信息、影响力信息、情绪信息、社交信息和偏好信息；

步骤九、根据每个热点事件的多维属性，对应的人物和机构的多维属性，分别计算该热点事件与人物和机构之间的关系；

关系如下表所示：

关联类型关系名称事件-事件主题关联人物-人物交互、自述关联、ip关联机构-机构交互、业务关联人物-事件舆论参与机构-事件舆论参与人物-机构交互、业务关联

步骤十、基于每个热点事件，对应的人物和机构，以及三者之间的关系，构建网络图形成舆情知识图谱；

2.如权利要求1所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，步骤三中，所述的Shingling算法具体为：

利用Shingling算法计算微博A和微博B的相似度r(A,B)，公式如下：

3.如权利要求1所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，步骤四中，所述的话题分类是指：统计每个文本簇所有微博文本中出现在话题词典中的词语数量，将每个文本簇划分到出现的词语数量最多的一类话题中。

4.如权利要求1所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，步骤七中，所述的基本属性包括事件名称、发生地点、发生时间、事件类型、微博数量、转发微博数、评论微博数、参与讨论人数和时间跨度；

时空属性从时间和地域上分别对该热点事件的微博文本数量进行统计；

情绪属性是指该热点事件的微博文本所代表的情绪进行统计；首先，对该热点事件的每条微博文本分为积极、消极、中性三种情绪类型；然后，统计每种情绪类别的微博文本数量，计算每种情绪的比例，作为热点事件的情绪属性；

网络属性包括热点事件的转发和评论结构；

语义属性包括热点事件的关键词和事件主题。

5.如权利要求1所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，所述的步骤八，基于背景信息和文本信息分别计算人物和机构的多维属性，如下表所示：

6.如权利要求1或4所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，所述的步骤七中，情绪属性包括的积极、消极、中性三种情绪，是通过融合了情感词典和表情的多层朴素贝叶斯分类器计算得到，具体计算过程如下：

步骤1)统计微博文本中出现积极、消极类的情感词典和表情数量；

步骤2)比较两个情感词典和表情数量的大小，若两类数量不相等，将微博文本归入数量较多的一类情绪，中止计算；否则，进入步骤3)；

步骤3)利用朴素贝叶斯分类原理，构建“极性-非极性”分类器，判别微博文本是否有极性；若判定为“非极性”，将该文本划分为“中性”，中止计算；否则，进入步骤4)；

步骤4)利用朴素贝叶斯分类原理，构建“积极-消极”分类器，判别微博文本积极情绪还是消极情绪；若判定为“积极”，将该文本划分为“积极”，若判定为“消极”，将该文本划分为“消极”。

7.如权利要求1或4所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，所述的步骤七中，网络属性包括的热点事件的转发和评论结构是根据热点事件的微博文本还原得到；

其中，热点事件的转发结构计算如下：首先，针对每条转发微博，获取“//@”后面的微博用户昵称；其次，按照微博用户昵称出现的先后顺序，构建该微博文本的转发链；然后，根据每条微博构建出的转发链，统计微博用户之间的转发次数；最后，以微博用户昵称为节点，用户之间的转发关系为边，用户之间的转发次数为边的属性，构建转发结构图；

评论结构的计算如下：首先，针对每条评论微博，获取“//@”后面的微博用户昵称；其次，按照微博用户昵称出现的先后顺序，构建该微博文本的评论链；然后，根据每条微博构建出的评论链，统计微博用户之间的评论次数；最后，以微博用户昵称为节点，用户之间的评论关系为边，用户之间的评论次数为边的属性，构建评论结构图。

8.如权利要求1或4所述的一种基于热点事件的舆情知识图谱构建方法，其特征在于，所述的步骤七中，时空属性的时间维度是指，从微博文本最早的发布时间到最晚的发布时间，以天为单位，统计每天发布的微博数量；在地域维度，获取微博用户发布文本的省份信息，并按照省份信息统计微博文本的数量；

另外，根据微博文本的转发链和评论链，结合微博文本所在省份的信息，分别统计不同省份间的微博同向转发和评论的次数，形成以省份为节点，以转发或评论关系为边的有向图；再将该有向图映射到地图上，形成事件地理迁徙图。