CN104866561B

CN104866561B - 一种挖掘微博话题趋势发起人的方法

Info

Publication number: CN104866561B
Application number: CN201510255994.6A
Authority: CN
Inventors: 程工; 刘春阳; 李雄; 王卿; 张旭; 庞琳; 吴俊杰; 胡晓倩
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-05-19
Filing date: 2015-05-19
Publication date: 2018-09-07
Anticipated expiration: 2035-05-19
Also published as: CN104866561A

Abstract

本发明公开了一种挖掘微博话题趋势发起人的方法，属于数据挖掘领域。首先针对某一话题微博，以天为时间粒度，构造微博量随时间变化的趋势图，获取波峰点和波谷点，确定趋势的时间范围，提取微博高频词代表趋势主要内容，以趋势早期参与微博高频词的数量作为该条微博的内容相关度，降序排序后提取趋势制造者。根据趋势变化，以小时为时间粒度，构造趋势时间范围的微博数量变化图，获取斜率最大的时间范围作为增速最大的时间段，并对微博转发量降序排序，确定趋势推动者。本发明利用微博数据平台，具有高效性、鲁棒性和简洁性等优点，适用于对话题微博趋势发起人方面的分析，在社会舆情监控和信息传播分析等领域具有重要的应用价值。

Description

一种挖掘微博话题趋势发起人的方法

技术领域

本发明属于数据挖掘领域，具体涉及一种挖掘微博话题趋势发起人的方法。

背景技术

随着社交媒体的不断发展，人们对于微博、微信等社交媒体的使用越来越广泛，社交网络结构的作用也越来越重要，基于社交网络结构，信息的传播更迅速，波及范围更广。人们基于某一话题或事件在社交媒体中进行讨论，针对话题或事件的讨论，会产生大量文本数据，通过对该海量数据的分析使人们了解社交网络中该事件的主要内容以及讨论趋势变化。

而某些人物的参与，对话题趋势的变化以及事件的推动起到关键作用，对于这些关键人物的微博昵称和UID信息的提取，能为社交媒体舆情监控提供重要线索；所以，挖掘话题的趋势发起人成为当前的一个研究热点。

发明内容

本发明的目的是为了深入了解对微博中某话题信息传播产生重要影响的人物，构建了一种挖掘微博话题趋势发起人的方法，基于某个话题事件，利用参与微博话题讨论人数的时间变化图提取话题事件趋势，然后结合微博文本内容和传播广度，对其中趋势的制造者和趋势的推动者进行提取。具体包括如下步骤：

步骤一、针对某一话题微博，以天为时间粒度，构建参与该话题讨论的微博数量的时间趋势图；

时间趋势图中以时间为横轴，单位为天；以当天的微博发布量为纵轴。

步骤二、获取时间趋势图中的波峰点；

步骤201、将时间趋势图中所有离散点组成数组tc，将数组tc中的所有极大值点降序排列，前N₁个点构成第一极大值点数组X₁；

时间趋势图中，包括起始点和终止点，同时大于等于前后两点的点为极大值点，将数组tc中的所有极大值点降序排列的前N₁个点加入极大值点数组X₁中，形成

步骤202、在极大值点数组X₁中，筛选连续的波峰点，得到第二极大值点数组X₂。

步骤203、筛选掉数组X₂中小于差值平均值并且在相邻的前后各点中不是值最大的点，将剩下的点组成第三极大值点数组X₃。

步骤a、对数组tc中离散点分组，获取各组中心点c_t与同组最小值差值的平均值mean_vs；

在数组tc中以第t个点c_t为中心，选取相邻的前后各k个点，共2k+1个点为一组进行分组，计算每组数组中心点c_t与该组最小值的差值为vs_t，依次选取t为1～N，构成该组中心点与最小值的差值集合：VS＝{vs₁,vs₂,...,vs_N}，计算该差值集合的平均值mean_vs。

步骤b、将数组X₂中各极大值点与平均值mean_vs比较，依次标记数组X₂中各极大值点的第一属性f_m；

数组X₂中极大值点x_m在数组tc中对应的离散点与平均值mean_vs比较，

如果标记点x_m第一属性f_m＝0，否则第一属性f_m＝1。

步骤c、将点与其在数组tc中相邻前后各点比较，依次标记数组X₂中极大值点第二属性g_m；

将离散点与其在数组tc中相邻的前后各k个点进行比较，判断是否为最大值，如果是，标记点x_m的第二属性g_m＝1，否则第二属性g_m＝0。

步骤d、依次筛选数组X₂中极大值点x_m的属性，当第一属性f_m＝0且第二属性g_m＝0时，则将点x_m从数组X₂中移除；数组X₂经过移除操作后形成第三极大值点数组X₃。

步骤204、删除数组X₃中差距较小的相邻极大值点，组成波峰点数组X₄；

对于数组X₃中的各极大值进行如下处理：设数组中极大值点x_j对应的点与数组tc中相邻的前后各k个点中最小值作差，得到的差值为ts_i，i＝1,2,...；所有差值组成数组TS。对TS中点ts_i降序排列后形成数组点nts_i对应的极大值点为

循环取nts_i为针对每一个nts_i，依次判断nts_i对应的极大值点之后的相邻极大值点是否存在数组X₃中，并且相邻极大值点对应的微博发布量是否小于极大值点x_ji对应的微博发布量，如果是，依次将极大值点筛掉，否则保留剩下的极大值点组成最终的波峰点数组

步骤三、获取时间趋势图中的波谷点；

步骤301、将时间趋势图中所有离散点组成数组tc，将数组tc中的所有极小值点升序排列，前M₁个点构成第一极小值点数组Y₁；

时间趋势图中，包括起始点和终止点，同时小于等于前后两点的点为极小值点，将数组tc中的所有极小值点升序排列的前M₁个点加入极小值点数组Y₁中，形成

步骤302、在极小值点数组Y₁中，筛选连续的波谷点，得到第二极小值点数组Y₂。

对于数组Y₁中相邻的两个元素y_n与y_n-1，判断极小值点数组Y₁中元素y_n对应的微博发布量是否与y_n-1对应的微博发布量相同，如果相同，将y_n从数组Y₁中删除，n依次取1～M₁，，否则，不进行删除操作；将数组Y₁中所有元素判断完毕，得到第二极小值点数组

步骤303、筛选掉数组Y₂中大于等于平均值且在相邻的前后各点中不为最小值的点，数组Y₂中剩下的点组成第三极小值点数组Y₃；

步骤I、对数组tc中离散点分组，获取各组中心点c_t与同组最大值差值的平均值mean_ws；

在数组tc中以第t个点c_t为中心，选取相邻的前后各k个点，共2k+1个点为一组进行分组，计算每组数组中心点c_t与该组最大值的差值为ws_t，依次选取t为1～N，构成该组中心点与最大值的差值集合：WS＝{ws₁,ws₂,...,ws_N}，长度为N；计算该差值集合的平均值mean_ws。

步骤II、将数组Y₂中极小值点与平均值mean_ws比较，依次标记数组Y₂中各极小值点的第一属性f_m；

数组Y₂中极小值点y_m在数组tc中对应的离散点与平均值mean_ws比较，

如果标记点y_m第一属性f_m＝1，否则第一属性f_m＝0。

步骤III、将点与其在数组tc中相邻前后各点比较，依次标记数组Y₂中极小值点第二属性g_m；

进一步将离散点与其在数组tc中相邻的前后各k个点进行比较，判断是否为最小值，如果是，标记点y_m的第二属性g_m＝1，否则第二属性g_m＝0。

步骤IV、依次筛选数组Y₂中的极小值点y_m的属性，当f_m＝0且g_m＝0时，则将点y_m从数组Y₂中移除；数组Y₂经过移除操作后形成第三极小值点数组Y₃。

步骤304、删除数组Y₃中差距较小的相邻极小值点，组成波谷点数组Y₄；

对于数组Y₃中的各极小值进行如下处理：设数组中极小值点y_j对应的点将与数组tc相邻的前后各k个点中最大值作差，得到差值为ks_i，i＝1,2,...；所有差值组成数组KS。将KS中点ks_i升序排列后形成数组

点nks_i对应的极小值点

循环取nks_i为针对每一个nks_i，依次判断对应的极小值点之后的相邻极小值点是否在同一数组Y₃中，并且相邻极小值点对应的微博发布量是否大于极小值点对应的微博发布量，如果是，依次将极小值点筛掉，否则保留剩下的极小值点组成最终的波峰点数组

步骤四、根据波峰点数组X₄和波谷点数组Y₄，选用第一个波谷点到第一个波峰点之间作为趋势的时间范围。

步骤五、在波峰点与波谷点确定的趋势时间范围内，进行微博关键词的提取；

微博关键词的提取是指对高频词进行提取。

步骤501、对波峰点和波谷点确定的趋势时间范围内，对微博数据集进行文本分词；

步骤502、剔除文本分词中的低频词和超高频词；

步骤503、对剩下的文本分词根据词频进行降序排列，获取高频词作为微博关键词。

步骤六、根据关键词，对微博内容相关度排序，提取趋势制造者；

趋势制造者即为波谷波峰确定的时间范围早期参与话题讨论，并且发表内容对趋势后续讨论产生重要影响的用户。

以单条微博关键词对整体关键词的覆盖程度作为内容相关度，进行降序排序，取排名在前的微博发布用户为趋势制造者。

步骤七、根据波峰点与波谷点确定的时间范围获取增速最快的时间段。

将时间趋势图中波谷点与波峰点之间的时间段内，以小时为时间粒度构造数量变化图，所有小时组成时间趋势变化序列t＝{t₁,t₂,...t_N}，从该序列选取m组，计算每组的平均值组成数组，然后依次计算数组中两点间的斜率，获取斜率最大的两点作为增速最快的时间段。

步骤八、对增速最快的时间范围内微博进行转发量排序，提取趋势推动者。

对增速最快的时间段内的微博转发量进行降序排序，取排名在前的微博的发布用户为趋势推动者。

本发明的优点在于：

(1)本发明一种挖掘微博话题趋势发起人的方法，利用微博数据平台，具有高效性、易用性，鲁棒性和简洁性等优点。

(2)本发明一种挖掘微博话题趋势发起人的方法，适用于对话题微博趋势发起人方面的分析，在社会舆情监控和信息传播分析等领域具有重要的应用价值。

(3)本发明一种挖掘微博话题趋势发起人的方法，综合考虑了时间特征、文本关键内容和传播效果对微博话题趋势中起到关键作用的人物进行了提取。

附图说明

图1是本发明一种挖掘微博话题趋势发起人的方法流程图；

图2是本发明获取时间趋势图中的波峰点的方法流程图；

图3是本发明筛选极大值点数组X₃的方法流程图；

图4是本发明获取时间趋势图中的波谷点的方法流程图；

图5是本发明筛选极小值点数组Y₃的方法流程图；

图6是本发明提取微博关键词的方法流程图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

微博话题趋势发起人包括微博话题趋势制造者和微博话题趋势推动者两种，微博话题趋势发起人信息包括：微博MID，微博信息内容，微博创建时间，博主UID，博主注册地址，博主昵称，关注数，粉丝数和微博转发数。

本发明一种挖掘微博话题趋势发起人的方法，首先针对某一话题微博，以天为时间粒度统计每天参与讨论的微博量，构造微博量随时间变化的趋势图，利用微博数量变化序列获取波峰点和波谷点，进一步确定趋势的时间范围。在该趋势时间范围内对微博进行分词，提取高频词代表趋势主要内容。以趋势早期参与微博高频词的数量作为该条微博的内容相关度，根据内容相关度降序排序，提取内容相关度高的微博作为趋势制造者。同时，根据趋势变化，以小时为时间粒度统计每小时参与讨论的微博量，构造趋势时间范围的微博数量变化图，利用该数量变化序列中斜率最大的时间范围，获取参与的微博增速最大的时间段，并对该时间段内的微博转发量进行降序排序，确定转发量较大的用户作为趋势推动者。

具体步骤如图1所示：

由于用户发布微博的时间主要集中于白天，当天内发布微博数量的趋势具有一定的规律性。为规避时间的影响，设定以天为时间粒度，统计每一天当天内参与话题讨论的微博数量，然后以时间为横轴，单位为天；以当天的微博发布量为纵轴，绘制时间趋势图。

步骤二、获取时间趋势图中的波峰点；

在话题微博数量随时间的变化趋势图上进一步筛选波峰点的具体步骤，如图2所示，

时间趋势图中所有离散点组成数组tc＝{c₁,c₂,...c_t,...c_N}，N为该话题持续的天数，为自然数；由于数据的频繁小范围变动会导致离散点中的极值点很多，若极值点对于其他点的变化并不明显，该极值点不能表现出趋势的形成，进一步筛选该类极值点。

时间趋势图中，包括起始点和终止点，同时大于等于前后两点的点为极大值点，将数组tc中的所有极大值点降序排列的前N₁个点加入极大值点数组X₁中，形成本实施例中取N₁＝10。

筛选连续波峰点：极大值点数组中判断元素x_n对应的微博发布量是否与x_n-1对应的微博发布量相同，如果相同，将x_n从数组X₁中删除。n依次取1～N₁，将数组X₁中所有元素判断完毕，得到新的极大值点数组该数组的长度为N₂。

如图3所示，具体步骤如下：

在数组tc中以第t个点c_t为中心，选取相邻的前后各k个点，共2k+1个点为一组进行分组，本实施例中k＝3。如果t-k<1时，从c₁开始，取{c₁,c₂,...c_t,...c_t+k}；当t+k>N时，最大为c_N，取{c_t-k,...c_t,...c_N}，每组数组{c_t-k,...c_t,...c_t+k}中的最小值点设为min_num_t，t为1～N；

计算每组数组中心点c_t与该组最小值点的差值为vs_t＝c_t-min_num_t。依次选取t为1～N，构成该组中心点与最小值的差值集合：VS＝{vs₁,vs₂,...,vs_N}，长度为N；计算该差值集合的平均值mean_vs。

如果标记点x_m第一属性f_m＝0，否则第一属性f_m＝1。

数组X₂中极大值x_m在数组tc中对应的点用表示，即数组X₂中第m个极大值在数组tc中是位于第t_m个。比如极大值x₂在序列tc中对应的点为c₈，则t₂为8。当极大值x_m小于差值集合的平均值时，即时，标记极大值x_m的第一属性f_m＝0，否则f_m＝1。

步骤c、将点与点在数组tc中相邻的前后各点比较，依次标记数组X₂中极大值点第二属性g_m；

针对步骤b中点取其在数组tc中相邻的前后各k个点对应的微博发布量进行比较，以点为中心，相邻的前后各k个点共2k+1个点为一组进行分组，本实施例中k＝6，当t-k<1时，从c₁开始，取{c₁,c₂,...c_t,...c_t+k}；当t+k>N时，最大为c_N取{c_t-k,...c_t,...c_N}。

判断对应的微博发布量是否为该组{c_t-k,...c_t,...c_t+k}中的最大值，如果是，标记点表示的极大值x_m的第二属性g_m＝1，否则g_m＝0。

步骤d、依次筛选数组X₂中极大值点x_m的属性，当f_m＝0且g_m＝0时，则将点x_m从数组X₂中移除；数组X₂经过移除操作后形成第三极大值点数组X₃。

数组长度为N₃。

对于数组X₃中的各极大值进行如下处理：设数组X₃中极大值点x_j在数组tc中对应的点为以为中心，选取相邻的前后各k个点为一组进行分组，本实施例中k＝3，计算每组数组中心点与该组最小值的差值为ts_i，所有差值得到数组其中j分别取1～N₃。对数组TS中的元素ts_i降序排列，得到新的数组点nts_i为数组X₃中的极大值点与前后各k个点中形成的分组中最小值之间的差。

数组X₃中极大值点在数组tc中对应的点用表示，即数组X₃中第j_i个极大值在数组tc中是位于第个。以极大值点为中心，在数组tc中前后各取k个点形成新的数组，本实施例中k＝6，循环取nts_i为针对每一个nts_i，依次判断对应的极大值点之后的相邻极大值点是否存在数组tc形成的新的数组中，并且同时对应的微博发布量是否小于极大值点对应的微博发布量，如果是，将极大值点依次筛掉，否则保留剩下的极大值点组成最终的波峰点数组

步骤三、获取时间趋势图中的波谷点；

在话题微博数量随时间的变化趋势图上进一步筛选波谷点的具体步骤，如图4所示：

时间趋势图中，包括起始点和终止点，同时小于等于前后两点的点为极小值点，将数组tc中的所有极小值点升序排列的前M₁个点加入极小值点数组Y₁中，形成本实施例中取M₁＝10。

筛选连续波谷点：对于数组Y₁中相邻的两个元素y_n与y_n-1，极小值点数组中判断元素y_n对应的微博发布量是否与y_n-1对应的微博发布量相同，如果相同，将y_n从数组Y₁中删除。n依次取1～M₁，将数组Y₁中所有元素判断完毕，得到新的第二极小值点数组该数组的长度为M₂。

如图5所示，具体步骤如下：

在数组tc中以第t个点c_t为中心，选取相邻的前后各k个点，共2k+1个点为一组进行分组，本实施例中k＝3，当t-k<1时，从c₁开始，当t+k>N时，最大为c_N。每组数组{c_t-k,...c_t,...c_t+k}中的最大值设为max_num_t，t为1～N；

计算每组数组中心点c_t与该组最大值的差值为ws_t＝c_t-max_num_t。依次选取t为1～N，构成该组中心点与最大值的差值集合：WS＝{ws₁,ws₂,...,ws_N}，长度为N；计算该差值集合的平均值mean_ws。

数组Y₂中极小值y_m在数组tc中对应的点用表示，即数组Y₂中第n个极大值在数组tc中是位于第t_n个。比如极小值y₂在数组tc中对应的点为c₈，则t₂为8。当极小值y_m在数组tc中对应的点小于差值集合的平均值时，即时，标记极小值y_m的第一属性f_m＝1，否则f_m＝0。

进一步将步骤II中的离散点取其在数组tc中相邻的前后各k个点对应的微博发布量进行比较，以为中心，相邻的前后各k个点共2k+1个点为一组进行分组，本实施例中k＝6。当t-k<1时，从c₁开始；当t+k>N时，最大为c_N；判断对应的微博发布量是否为该组{c_t-k,...c_t,...c_t+k}中的最小值，如果是，标记点表示的极小值y_m的第二属性g_m＝1，否则g_m＝0。

对于数组Y₃中的各极小值进行如下处理：设数组Y₃中极小值点y_j在数组tc中对应的点以为中心，选取相邻的前后各k个点为一组进行分组，本实施例中k＝3，计算每组数组中心点与该组最大值的差值为ks_i，其中j分别取1～M₃，所有差值得到数组

点nks_i为数组Y₃中的极小值点与其前后各k个点中形成的分组中最大值的差。数组Y₃中极小值点在数组tc中对应的点用表示，即数组Y₃中第j_i个极小值数在数组tc中是位于第个。

以极小值点为中心，在数组tc中前后各取k个点形成新的数组，本实施例中k＝6，循环取nks_i为针对每一个nks_i，依次判断对应的极小值点之后的相邻极小值点是否存在数组tc形成的新的数组中，并且同时对应的微博发布量是否大于极小值点对应的微博发布量，如果是，将极小值点依次筛掉，否则保留。剩下的极小值点组成最终的波峰点数组

根据步骤202到步骤210得到了系列波峰点和波谷点，由于波峰波谷相间出现，形成多个波动。在话题发展后期，微博的发布数量会受到很多外部因素影响，如电视媒体的播报等。而话题发展初期的变动，更多是受到早期参与微博的内容影响。所以选用第一个波谷点到第一个波峰点之间为趋势，构成了趋势的时间范围。如果第一个波谷点没有在波峰点之前，以话题开始时间与第一个波峰点构成趋势的时间范围。

微博关键词的是指对高频词进行提取。

高频词在一定程度上反映了用户讨论的主要信息。本发明选用排名前50的高频词代表趋势的主要内容。

具体的提取过程，如图6所示：

话题讨论趋势的主要内容由文本决定，对趋势时间范围内的微博数据集进行文本分词。使用简易中文分词系统SCWS(Simple Chinese Words Segmentation的缩写)，采用自行采集的词频词典，并辅以一定程度上的专有名称、人名、地点、数字年代等规则集。针对每条微博进行分词，得到每条微博的代表性词语集合。

步骤502、剔除文本分词中的低频词和超高频词；

低频词仅在少量微博中出现，不能代表大量用户的观点。超高频词可能是由分词产生的碎片，或者是人们进行表述时必须用的词，超高频词都对表示用户主流观点没有意义，所以也将其剔除。

此处剔除掉词频小于三的低频词和词频比例占0.8以上的超高频词。

经过步骤502处理后，对剩下的文本分词根据词频进行降序排列，获取词频前50的高频词作为趋势的主要内容。

对趋势开始初期的微博，进行分词和词性筛选，将单条微博的关键词集合，对排列前50高频词的命中个数作为其内容相关度。然后依据内容相关度降序排序，从而提取趋势制造者。

在趋势产生初期，虽然一些用户产生了对后续讨论中较为重要的内容。但是是否能够广泛传播并不能够确定。趋势推动者即为在趋势发展过程中，起到推动趋势发展，扩大信息传播范围的关键用户。根据上述确定的趋势时间范围，以小时为时间粒度构造趋势事件范围内的数量变化图，统计参与讨论的微博数量构成时间趋势变化的序列。

考虑到数据的频繁变动，以指数平滑法对序列进行处理。即将波谷点与波峰点之间的时间段内所有小时组成时间趋势变化序列t＝{t₁,t₂,...t_N}，从该序列中以3为单位，选取m组，m取1～N-2，计算每组的平均值由此组成数组k＝{k₁,k₂,...k_N-2}，然后依次计算k₁,k₂两点间的斜率，斜率值即为两点的微博发布量对应的差值；获取斜率最大的两点k_p,k_q。

由k_p,k_q两点确定的时间范围即为趋势推动者所处的时间范围。利用该时间范围内微博的转发量进行降序排序，获取转发量前20的微博发布者作为趋势推动者。

上述计算方法同样可以应用于新闻的趋势发起人计算。其中新闻的趋势推动者计算，可以将评论数替换转发量进行排序，由此可以将该方法应用于话题新闻趋势推动媒体的计算。

Claims

1.一种挖掘微博话题趋势发起人的方法，用于获取微博话题的趋势制造者和趋势推动者，完成趋势发起人的挖掘，其特征在于：包括以下步骤：

步骤二、获取时间趋势图中的波峰点；

N₁为正整数，表示数组X₁中元素个数；

步骤202、在极大值点数组X₁中，筛选连续的波峰点，得到第二极大值点数组X₂；

对于数组X₁中相邻的两个元素x_n与x_n-1，判断元素x_n对应的微博发布量是否与x_n-1中的微博发布量相同，如果相同，将x_n从数组X₁中删除，否则，不进行删除操作；将数组X₁中所有元素判断完毕后，得到第二极大值点数组N₂为正整数，表示数组X₂中元素个数；

步骤203、筛选掉数组X₂中小于差值平均值并且在相邻的前后各点中不是值最大的点，将剩下的点组成第三极大值点数组X₃；

将数组X₂中极大值x_m在数组tc中对应的离散点用表示，如果标记点x_m的第一属性f_m为0，否则，标记第一属性f_m为1；

判断是否为数组tc中相邻前后各k个点中的最大值，如果是，标记点x_m的第二属性g_m为1，否则标记点x_m的第二属性为g_m为0；其中，k为正整数；

步骤d、依次筛选数组X₂中极大值点x_m的属性，当第一属性f_m＝0且第二属性g_m＝0时，则将点x_m从数组X₂中移除；数组X₂经过移除操作后形成第三极大值点数组N₃为正整数，表示数组X₃中元素个数；

对于数组X₃中的各极大值进行如下处理：设数组X₃中极大值点x_j在数组tc中对应的点为将与数组tc中相邻的前后各k个点中的最小值作差，设得到差值ts_i，i＝1,2,...N₃；所有差值组成数组TS，将TS中点降序排列后形成数组针对每一个nts_i，依次判断nts_i在数组tc中对应的极大值点之后的相邻极大值点是否都存在于数组X₃中，并且相邻极大值点对应的微博发布量是否小于对应的微博发布量，如果是，依次将相邻极大值点筛掉，否则保留剩下的极大值点组成最终的波峰点数组N₄为正整数，表示数组X₄中元素个数；

步骤三、获取时间趋势图中的波谷点；

M₁为正整数，表示数组Y₁中元素个数；

步骤302、在极小值点数组Y₁中，筛选连续的波谷点，得到第二极小值点数组Y₂；

对于数组Y₁中相邻的两个元素y_n与y_n-1，判断元素y_n对应的微博发布量是否与y_n-1对应的微博发布量相同，如果相同，将y_n从数组Y₁中删除，否则，不进行删除操作；将数组Y₁中所有元素判断完毕后，得到第二极小值点数组M₂为正整数，表示数组Y₂中元素个数；

步骤II、将数组Y₂中各极小值点与平均值mean_ws比较，依次标记数组Y₂中各极小值点的第一属性f_m'；

将数组Y₂中极小值y_m在数组tc中对应的点用表示，当时，标记极小值点y_m的第一属性f_m'为1，否则，标记第一属性f_m'为0；步骤III、将点与其在数组tc中相邻前后各点比较，依次标记数组Y₂中极小值点第二属性g_m'；

判断对应的微博发布量是否为数组tc中相邻前后各k个点对应的微博发布量最小值，如果是，标记点表示的极小值y_m的第二属性g_m'为1，否则标记点y_m的第二属性g_m'为0；

步骤IV、依次筛选数组Y₂中的极小值点y_m的属性，当第一属性f_m'＝0且第二属性g_m'＝0时，则将点y_m从数组Y₂中移除；数组Y₂经过移除操作后形成第三极小值点数组M₃为正整数，表示数组Y₃中元素个数；

对于数组Y₃中的各极小值进行如下处理：设数组Y₃中极小值点y_j在数组tc中对应的点为将点与数组tc中相邻的前后各k个点中的最大值作差，得到差值i＝1,2,...M₃；所有差值组成数组KS，将KS中点升序排列后形成数组针对每一个nks_i，依次判断nks_i在数组tc中对应的极小值点之后的相邻极小值点是否都存在于数组Y₃中，并且相邻极小值点对应的微博发布量是否大于极小值点对应的微博发布量，如果是，依次将相邻极小值点筛掉，否则保留剩下的极小值点组成最终的波谷点数组M₄为正整数，表示数组Y₄中元素个数；

步骤四、根据波峰点数组X₄和波谷点数组Y₄，选用第一个波谷点到第一个波峰点之间作为趋势的时间范围；

微博关键词的提取是指对高频词进行提取；

以单条微博关键词对整体关键词的覆盖程度作为内容相关度，降序排序后取排名在前的微博发布用户为趋势制造者；

步骤七、根据波峰点与波谷点确定的时间范围获取增速最快的时间段；

将时间趋势图中波谷点与波峰点之间的时间段内，以小时为时间粒度构造数量变化图，所有小时组成时间趋势变化序列t＝{t₁,t₂,...t_N}，从该序列选取m组，计算每组的平均值组成数组，然后依次计算数组中两点间的斜率，获取斜率最大的两点作为增速最快的时间段；

2.根据权利要求1所述的一种挖掘微博话题趋势发起人的方法，其特征在于：步骤a具体为：数组tc中以第t个点c_t为中心，选取c_t相邻的前后各k个点，共2k+1个点为一组进行分组，计算每组数组中心点c_t与该组最小值的差值vs_t，依次选取t为1～N，N为自然数；构成该组中心点与最小值的差值集合：VS＝{vs₁,vs₂,...,vs_N}，计算该差值集合的平均值mean_vs。

3.根据权利要求1所述的一种挖掘微博话题趋势发起人的方法，其特征在于：步骤I具体为：在数组tc中以第t个点c_t为中心，选取相邻的前后各k个点，共2k+1个点为一组进行分组，每组数组中的最大值设为max_num_t；计算每组数组中心点c_t与该组最大值的差值为ws_t＝c_t-max_num_t，构成该组中心点与最大值的差值集合：WS＝{ws₁,ws₂,...,ws_N}，计算该差值集合的平均值mean_ws。

4.根据权利要求1所述的一种挖掘微博话题趋势发起人的方法，其特征在于：步骤五具体为：

步骤502、剔除文本分词中的低频词和超高频词；