CN106980692B

CN106980692B - 一种基于微博特定事件的影响力计算方法

Info

Publication number: CN106980692B
Application number: CN201710213302.0A
Authority: CN
Inventors: 赵志云; 张雨; 刘春阳; 李雄; 张华平; 张旭; 庞琳; 王萌; 商建云; 王卿
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-05-30
Filing date: 2017-04-01
Publication date: 2020-12-08
Anticipated expiration: 2037-04-01
Also published as: CN106980692A

Abstract

本发明涉及一种基于微博特定事件的影响力计算方法，属于社交网络分析及数据挖掘技术领域。本发明依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中，主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理，计算传播角度和内容角度兼顾的六项影响力指标，并使用K‑means机器学习算法对子话题进行划分；最终得出特定事件的影响力热度指数EII、事件内的用户影响力排行榜、消息影响力排行榜。对比现有技术，本发明考虑微博文本的内容指标，较全面而准确地反映了事件各方面的信息，具有很强的现实意义和实用价值。此外，本发明方法计算的时空耗费不高，易于模块化，可投入大规模的数据计算，具有较好的稳定性。

Description

一种基于微博特定事件的影响力计算方法

技术领域

本发明涉及一种基于微博特定事件的影响力计算方法，属于社交网络分析及数据挖掘技术领域。

背景技术

在计算机已基本普及、互联网迅猛发展的今天，社交网络媒体正日渐崛起，广大用户对其越发依赖，包括四大微博(新浪、腾讯、搜狐、网易)在内的众多社交网络媒体应用已成为其每日必看多次的主要信息来源。特别是新浪微博，已经成为国内最大的社交媒体平台，其中用户可以自主的发布自己的信息同时也可以看到他人的分享信息，构建了虚拟时代的社会网络。在微博平台中众多用户产生了大量的文本数据，对这些数据进行数据挖掘可以获得很高的信息价值。因此，需要使用高效的数据挖掘方法和机器学习算法来进行有用信息的挖掘，充分把社交网络文本信息中的有价值的信息提取出来。而以特定事件为单位来看待和处理微博上的信息是一种与常识更贴合的方式，将每条微博视为某特定热点事件的参与者，分析它和它的发布者在这个特定事件范围内的价值和影响力等具有更好的合理性与更大的应用价值。

在社交媒体用户影响力计算、热点话题影响力计算领域，已经有很多相关的研究，并且已经有已投入使用的较成熟的应用与服务。大量的研究是关于美国社交网络及微博客服务网站Twitter上的用户影响力与消息影响力的，关于新浪微博的研究相对少了很多。关于Twitter上用户影响力的研究有不少使用了PageRank等方法，通过“关注”关系构建拓扑图，据此计算用户在网上社区中的长期影响力；也有研究突发事件中特定群体的特定消息造成的后续传播风向等的改变；有通过建立转发模型来预测某消息的被转发次数，来判断即将产生的影响力的。对新浪微博的研究中，有通过抓取可信谣言集来训练检测模型以识别社交网络谣言的研究；有基于节点和信息特征的社会网络信息传播模型研究；有通过分析情感分布的微博热点事件发现；有使用MapReduce(映射归约)技术进行微博用户影响力评价的研究和实现；也有通过关注关系发现社交网络中的关键节点，即高影响力的重要用户的研究。但这些研究少有以特定事件为单位的，多研究某个用户、某条Twitter消息的广泛和常态的影响力；目前的研究大多使用关注关系构建社交网络关注关系拓扑图，使用全网的全量关注关系的数据对于特定事件的分析并无太大助益，而是徒增计算复杂度；且其中考虑网络关系、层次关系、统计数据为主要切入点，对微博文本的内容考量则较为少见。

目前网上投入实际使用的社交媒体的热度/影响力分析方法及系统主要有人民网的舆情监测室的政务微信排行榜、网络舆论共识度报告等，以及沈阳教授的新媒体指数。

人民网的相关系统主要对政府微信服务公众号进行影响力及服务评价的计算及排行，以及对某段较长时间内的网络热点事件的影响力、舆论态度等进行计算与排行。该系统主要基于一种网络舆情事件的热度分析方法及系统：CN 104598450 A。该发明公开了一种网络舆情事件的热度分析方法及系统，属于网络事件热度分析领域，首先对所要采集的网站进行数据的采集与保存，并对采集的数据进行聚类分析，将采集的数据分类成不同的话题事件，之后根据事件热点指数计算模型计算每个话题事件的热点指数。该方法及系统将网络舆情和民意数字化，通过建立多维度的模型及网站权重来计算一个话题的热点指数，可以更准确的衡量一个事件的热度情况，实现多维度的网络舆情事件的热度分析。

沈阳新媒体指数包括两项内容：面向微信平台的微指数WCI(WechatCommunication Index)，面向微博平台的BCI(Micro-blog Communication Index)。微博传播指数BCI通过微博的活跃度和传播度来反映账号的传播能力和传播效果，重在评估账号的原发微博传播力，旨在鼓励高质量原创内容。其指标体系采用数据为：发博数X1、原创微博数X2、转发数X3、评论数X4、原创微博转发数X5、原创微博评论数X6、点赞数X7。其计算公式如下：

BCI＝(20％xW₁+80％xW₂)x160

W₁＝30％xln(X₁+1)+70％xln(X₂+1)

W₂＝20％xln(X₃+1)+20％xln(X₄+1)+25％xln(X5+1)+25％xln(X₆+1)+10％xln(X₇+1)

由上可知，当前投入实际使用的对于特定事件影响力计算系统均较为简单直白，主要考虑的指标为各项可由统计得到的传播指标，如原创微博数、评论微博数、转发微博数、点击数量、跟帖数量、网友数量等。人民网的系统所用专利为面向全网平台统计，其实际操作中获取数据的难度较大。前面相关研究所涉及的需要大量甚至全网关注关系的方法实施难度更大。

总之，现有研究及实际使用系统较为依赖关注关系、不以特定事件为基本单位、多考虑传播统计指标而少分析微博文本内容、计算指标体系简单直白，只计算简单的转发关系。

在获取的数据只包含简单的转发关系的时候，我们需要更巧妙的计算模型来进行特定事件的影响力热度的计算。

发明内容

本发明的目的是为解决现有技术多考虑传播统计指标而少分析微博文本内容、计算指标体系简单直白、实施难度较高的问题，提出了一种基于微博特定事件的影响力计算方法。

本发明的思想是依据传播学中事件发展的五个阶段对特定事件进行了相关分析划分并应用于影响力计算中，主要针对微博文本数据及基础的用户数据进行统计处理与自然语言处理，计算传播角度和内容角度兼顾的六项影响力指标，并使用K-means机器学习算法对子话题进行划分；最终得出特定事件的影响力热度指数EII(Event InfluenceIndex)、事件内的用户影响力排行榜、消息影响力排行榜，为微博上特定事件研究及舆情相关工作提供了解决方案。

本发明的目的是通过以下技术方案实现的：

一种基于微博特定事件的影响力计算方法，包括以下步骤：

步骤一、进行特定事件微博及用户信息采集；

基于爬虫技术或微博公开的一些数据资源，获取到需要分析的微博文本信息、微博被转发次数、微博被评论次数、用户基本信息，用户所做的评论的文本信息、用户在微博上所进行的互动信息、用户活动的时间；用户在微博上所进行的互动信息，包括评论操作、转发关系；用户基本信息，包括粉丝数、关注数，关注关系；

步骤二、使用情感值计算工具或方法对获取的特定事件数据逐个计算其情感正负值，并对全体微博文本做关键词及其信息熵与词频提取；

步骤三、对事件阶段进行分析：统计某个时间段内的发帖数和活跃用户，找出起始点、发展点、高潮点、胶着点、消亡点五个事件传播的关键点，以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述；

步骤四、针对每个参与用户进行影响力特征提取并计算其影响力：

从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5，并据粉丝数得到对应粉丝数权重X6；参与度X2为发布、评论、转发微博数之和；用户影响力计算方案为以下两种，具体描述如下：

1)使用所有六个特征指标，计算公式如下：

Influence_USER＝X2*X6+XTime+log₁₀(X1*0.001)+X3*X5

其中，XTime为根据用户发帖时间X4与事件起始点、发展点、高潮点、胶着点、消亡点的距离所得，若存在与X4距离小于n秒的时间节点，则XTime取值为X4与最近的重要节点的秒数差的倒数乘10000；若无符合条件的时间节点，则该微博的发帖时间X4处在发展点至高潮点之间时，XTime的权值为w1，处在高潮点至胶着点之间时，XTime的权值为w2，、处在胶着点至消亡点之间时，XTime的权值为w3；且应满足条件w1>w2；w1>w3。

2)使用X1、X2、X3、X6四个特征指标，根据各指标的数值大小，对X1、X2、X3进行0至3的评分EX1、EX2、EX3，对X6进行0至1.33的评分EX6，最终得出范围在0至9.99的用户影响力评分值，计算公式如下：

Influence_USER＝EX1+EX3+(EX2*EX6)

步骤五、计算子话题及相关传播指标：根据步骤二得到的关键词，通过以下过程对关键词进行筛选以及对子话题进行划分：

1、使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词以及动词去除；

2、将出现词频过高的词汇去除，在剩余词汇中根据其信息熵与词频高低进行遴选，得出各个子话题的标题；

3、依据所得标题对微博文本内容进行划分，得到该事件中的子话题，然后统计其中原创、评论、转发微博的个数，计算各条微博情感值并统计其正向、负面、中立情感的个数，以关键词形式提取其子话题标签；

步骤六、对该特定事件的如下特征进行统计并计算评分，得出其事件热度指数：传播指标：原创微博数、评论微博数、转发微博数、用户地理分布维度；时间指标：总持续时长、敏感时期权值、舆论有无突涨/跌时段；用户指标：大V用户数、人均粉丝数、媒体用户数；内容指标：事件类别权重、集中维度、显著维度；情感指标：正负向情感占比、正负向情感评分均值；讨论指数：子话题个数、日均微博数、单日最高值。

有益效果

对比现有技术，本发明充分考虑微博文本的内容指标，以特定事件为分析微博平台的基本单位、考虑分析微博文本内容影响、采用更加全面的指标体系，并且使用K-means算法辅助进行子话题分析，对特定事件的传播学上的发展阶段进行划分计算，最终获得该特定事件的事件热度。

附图说明

图1表示基于微博特定事件的影响力计算方法的流程示意图；

图2表示针对微博数据进行网络爬虫采集的结构示意图；

图3表示使用K-means聚类结合关键词聚类的方法对子话题进行计算过程示意图；

图4表示对特定事件中用户影响力进行计算的过程；

图5表示分析事件发展阶段的计算过程示意图；

图6表示计算特定事件影响力的指标架构示意图。

具体实施方式

以下结合附图对本发明方法进行详细说明。

如图1所示为本发明基于微博特定事件的影响力计算方法的流程示意图，具体步骤如下：

根据步骤一，进行特定事件微博及用户信息的采集：

针对要研究的特定事件(以关键词和时间区间界定)的微博数据进行采集或是直接获取微博提供的公开数据：数据的采集既可以通过建立缓冲URL队列，采用广度优先搜索算法(BFS)进行网页链接搜索，并对每个节点网页进行扫描下载，并对页面进行解析，去除无关的噪声，保留如下可以描述用户的属性的元数据信息：用户发表的微博文本信息、用户评论的微博文本信息、用户的粉丝数目、用户的关注数目、用户的转发关系，如图2所示；也可以通过直接调用微博官方提供的API接口或是RSS等反馈信息直接提取相关信息。

所采集的特定事件类别可由用户自定义，包括舆情、民生、突发事件、娱乐新闻等，支持千万级的计算规模。

在获取了元数据之后，根据步骤二，对这些元数据进行初步的处理，将这些结果进行储存以便后续步骤的实现，并对部分结果进行进一步处理：

1)微博文本情感值分值计算，对用户的微博文本信息(发表微博、评论微博)使用ICTCLAS分词系统进行正/负/中立情感值计算，此处情感词及其权值可以人工修改，包括添加及修改特定词的权重；

2)在逐条计算情感值的同时将微博文本逐条用ICTCLAS分词系统关键词组件读取，以获得整个事件微博文本的关键词及其信息熵、词频；

3)基于已经处理完成的数据，建立用户-微博文本VSM映射，同时还可以获得用户-转发关系、用户-粉丝关系、用户-关注关系等映射。

根据步骤三，对事件阶段进行分析

如图5所示，对得到的微博数据，以每小时为单位，统计各时间段内的发帖数和活跃用户数目，然后按照发帖数70％，用户数30％的权重计算得到综合的时间顺序的加权和序列。对此时间序列做如下处理：分别找出最高点、各个极值点、最高点前后数值超过最高点数值50％的点等,对这些点进行识别找出对应事件五个阶段的关键节点，即：

起始点：最高点前，与下一点间斜率大于1的点；

发展点：判断高潮点与起始点间有无极点:有则第一个极点为发展点；无则选择起始点与高潮点间第一个超过最高点数值50％的点；

高潮点：即最高点；

胶着点：判断高潮点与消亡点之间有无极值点：有则高潮点后第一个极值点为胶着点；无则选择发展点后第一个超过最高点数值50％的点；

消亡点：序列中最后一个数值大于最高点数值50％的点的下一个点。

依据五个点对各阶段进行识别划分，高潮阶段为高潮点及其前后各一个时间窗，时间窗长度为自定义，一般取一个小时；发展阶段为发展点及其前后各一个时间窗；胶着阶段为胶着点及其前后各一个时间窗；衰退阶段为消亡点及其前后各一个时间窗。

本步骤以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述，并作为计算用户影响力和消息影响力时间指标的重要基准参数。

根据步骤四针对每个参与用户进行影响力特征提取并计算其影响力：

如图4所示，从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度(发布、评论、转发微博数之和)X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5，并据粉丝数得到对应粉丝数权重X6。本发明提供了两种用户影响力计算方案，具体描述如下：

1)使用所有六个特征指标，结合自身常态影响力、传播度、影响用户程度、发帖时机、二次传播能力各方面表现进行用户影响力计算，计算公式如下：

Influence_USER＝X2*X6+XTime+log₁₀(X1*0.001)+X3*X5

其中，XTime为根据用户发帖时间X4与事件几个重要节点的距离所得，距离关键节点越近越可能具有影响事态发展的能力，因此所得权值也越高：若存在与X4距离小于3600秒的时间节点，则XTime取值为X4与最近的重要节点的秒数差的倒数乘10000；若无符合条件的时间节点，该微博分别处在发展阶段、高潮阶段、胶着阶段时XTime依次取值2000，1500，2000。

用户粉丝数权重设置如下：粉丝数大于100万时，取1000；粉丝数在3万至100万之间时，取500；粉丝数小于3万时，取100。

2)仅使用X1、X2、X3、X6四个特征指标，根据各指标的数值大小，对X1、X2、X3进行0至3的评分EX1、EX2、EX3，对X6进行0至1.33的评分EX6，最终得出范围在0至9.99的用户影响力评分值，计算公式如下：

Influence_USER＝EX1+EX3+(EX2*EX6)

各个EX评分值如下表所示：

X1	EX1
		>＝5000000	3
>＝1000000&&<5000000	2.5
		>＝500000&&<1000000	2.0
>＝100000&&<500000	1.5
		>＝50000&&<100000	1
>＝10000&&<50000	0.5
		>＝1000&&<10000	0.2
<1000	0.1

X2	EX2
		>＝10	3
>＝8&&<10	2.5
		>＝6&&<8	2.0
>＝4&&<6	1.5
		>＝2&&<4	1
＝1	0.5
		＝0	0

X3	EX3
		>＝1000000	3
>＝500000&&<1000000	2.5
		>＝100000&&<500000	2.0
>＝50000&&<100000	1.5
		>＝10000&&<50000	1
>＝5000&&<10000	0.5
		>＝100&&<5000	0.2
<100	0.1

根据步骤五、进行子话题划分及相关传播指标计算：

根据提取得到的用户微博文本的关键词，对其进行筛选，首先使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词等以及动词去除；接着将出现词频过高的词汇去除，以免出现子话题所包含微博文本数量过多导致无意义的状况，截取阈值为：词频小于全部微博数目的65％；最后在剩余词汇中依据其信息熵与词频高低进行排序，选出排名靠前的n个关键词作为各个子话题的标题。

依据所得标题对微博文本内容进行划分，得到该事件中的子话题。本发明提供两种子话题微博划分方案以供选择。方案一为仅以上面计算所得关键词作为子话题标题直接匹配微博文本以实现分类；方案二则使用K-means聚类对微博文本进行子话题聚类(可手动限制K-means聚类所得簇的数量)，如图3所示，计算各关键词在各簇中的信息熵，取各簇内信息熵最高的关键词作为各簇的标题，并据各簇的标题之间的相似性，将相似性高的标题所对应的簇进行合并，得出各个子话题所包含的微博。

对各个子话题进行传播指标计算：统计其中原创、评论、转发微博的个数，计算各条微博情感值并统计其正向、负面、中立情感的个数，以关键词形式提取其子话题标签(Tag)。

根据步骤六统计事件各项特征并计算其事件热度指数：

首先，对参与用户进行五个群体的分类:媒体用户(依据自建白名单匹配)，大V用户，境外IP用户，疑似水军用户，草根用户。

然后选取各指标特征并进行相关处理：

传播指标如下处理：首先对所有微博文本数据统计其数据类型，即原创微博数、评论微博数、转发微博数；依据其发博时候的地理位置备注或IP地址统计用户所在位置，依据所涉及的省级区划和国家数目多少得出地理分布维度高低；结合上面计算所得事件发展阶段考察舆论有无突涨或暴跌(根据步骤三所得的时间序列，计算每两点之间斜率，自定义斜率阈值以判定是否有超出阈值的情况，若有则视为存在突涨或暴跌)的状况，并给出相应权值；计算事件持续总时长及是否在敏感时期，得出相应权值；统计用户中大V的人数、媒体用户数目和人均粉丝数，并计算五个用户群体在整体用户中的各自占比。

内容指标如下处理：据关键词等(必要时人工干预)判断事件类别，从涉及国计民生到日常娱乐消遣该权重依重要度递减；对所有微博的正负向情感统计占比与各倾向的均值；统计子话题数目；计算是否某群体用户集中于某子话题；计算是否某子话题下微博数目较其他有显著优势；统计日均微博数与单日最高值。

综上所述，需统计计算的特征指标包括如下内容：

传播指标：原创微博数Q1、评论微博数Q2、转发微博数Q3、用户地理分布维度Q4；

时间指标：总持续时长Q5、敏感时期权值Q6、舆论有无突涨/跌时段Q7；

用户指标：大V用户数Q8、人均粉丝数Q9、媒体用户数Q10；

内容指标：事件类别权重Q11、集中维度Q12、显著维度Q13；

情感指标：正负向情感占比Q14、正负向情感评分均值Q15；

讨论指数：子话题个数Q16、日均微博数Q17、单日最高值Q18。

上述特征指标参数设置如下表所示：

最终的事件热度EII计算公式为将所有指标(Q1至Q18)加和并取对数。得到EII后可根据需要自行归一化、调节数值范围。

上述本发明方法对特定事件研究选取的各个指标数据的理论依据为传播学的“舆论八要素”，结合该理论及实际工作经验，对特定事件进行全面深入的考察和研究。

根据上述本发明方法研制的系统已在国家互联网应急响应中心投入实际使用，百万级数据的事件处理时间压缩到了数十分钟以内，大大节约了人力成本并提高了工作效率和处理及响应速度，且该系统的结果准确率完全满足中心的工作需求，目前该系统已成为该中心必不可少的有效工作工具。

为了说明本发明的内容及实施方法，给出了上述具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围，而是帮助理解本发明所述方法。本领域的技术人员应理解：在不脱离本发明及其所附权利要求的精神和范围内，对最佳实施例步骤的各种修改、变化或替换都是可能的。因此，本发明不应局限于最佳实施例及附图所公开的内容。

Claims

1.一种基于微博特定事件的影响力计算方法，其特征在于：包括以下步骤：

步骤一、进行特定事件微博及用户信息采集：基于爬虫技术或微博公开的一些数据资源，获取到需要分析的微博文本信息、微博被转发次数、微博被评论次数、用户基本信息，用户所做的评论的文本信息、用户在微博上所进行的互动信息、用户活动的时间；用户在微博上所进行的互动信息，包括评论操作、转发关系；用户基本信息，包括粉丝数、关注数，关注关系；

步骤三、对事件阶段进行分析：统计某个时间段内的发帖数和活跃用户，找出起始点、发展点、高潮点、胶着点、消亡点五个事件传播的关键点，以事件阶段的划分和展示对事件发展的趋势和轨迹进行描述，具体为：

对得到的微博数据，以每小时为单位，统计各时间段内的发帖数和活跃用户数目，然后按照发帖数70％，用户数30％的权重计算得到综合的时间顺序的加权和序列,对此时间序列做如下处理：分别找出最高点、各个极值点、最高点前后数值超过最高点数值50％的点,对这些点进行识别找出对应事件五个阶段的关键节点，即：

起始点：最高点前，与下一点间斜率大于1的点；

高潮点：即最高点；

消亡点：序列中最后一个数值大于最高点数值50％的点的下一个点；

依据五个点对各阶段进行识别划分，高潮阶段为高潮点及其前后各一个时间窗，时间窗长度为自定义；发展阶段为发展点及其前后各一个时间窗；胶着阶段为胶着点及其前后各一个时间窗；衰退阶段为消亡点及其前后各一个时间窗；

从当前事件的微博及用户数据中统计每个用户当前粉丝数X1、参与度X2、被转发评论数X3、用户发帖时间X4、转发评论该用户微博的用户的人均粉丝数X5，并据粉丝数得到对应粉丝数权重X6；参与度为发布、评论、转发微博数之和；用户影响力计算方案如下:

使用所有六个特征指标，计算公式如下：

Influence_USER＝X2*X6+XTime+log₁₀(X1*0.001)+X3*X5；

其中，XTime为根据用户发帖时间X4与事件起始点、发展点、高潮点、胶着点、消亡点的距离所得，若存在与X4距离小于n秒的时间节点，则XTime取值为X4与最近的事件传播关键点的秒数差的倒数乘10000；若无符合条件的时间节点，则该微博处在发展点至高潮点之间的XTime的权值为w1，高潮点至胶着点之间XTime的权值为w2，胶着点至消亡点之间XTime的权值为w3；且应满足条件w1>w2；w1>w3；

1)使用常用词表黑名单将常出现且多无意义的量词、连词、介词、否定词以及动词去除；

2)将出现词频过高的词汇去除，在剩余词汇中根据其信息熵与词频高低对关键词进行遴选，得出各个子话题的标题；

3)依据所得标题对微博文本内容进行划分，得到该事件中的各子话题微博集合，然后统计其中原创、评论、转发微博的个数，计算各条微博情感值并统计其正向、负面、中立情感的个数，以关键词形式提取其子话题标签；

步骤六、对该特定事件的如下特征进行统计并计算评分，得出其事件热度指数EII(Event Influence Index)：传播指标：原创微博数、评论微博数、转发微博数、用户地理分布维度；时间指标：总持续时长、敏感时期权值、舆论有无突涨/跌时段；用户指标：大V用户数、人均粉丝数、媒体用户数；内容指标：事件类别权重、集中维度、显著维度；情感指标：正负向情感占比、正负向情感评分均值；讨论指数：子话题个数、日均微博数、单日最高值。

2.根据权利要求1所述一种基于微博特定事件的影响力计算方法，其特征在于：步骤五所述依据所得标题对微博文本内容进行划分，得到该事件中的各子话题微博集合可以通过以下两种划分方案的任意一种实现：

1)以所述标题直接匹配微博文本实现分类；

2)使用K-means聚类对微博文本进行子话题聚类，计算标题在各簇中的信息熵，取各簇内信息熵最高的标题作为各簇的标题，并据各簇的标题之间的相似性，将相似性高的标题所对应的簇进行合并，得出各子话题所包含的微博。