CN106294356A - 基于动态聚类的微博时间线生成方法及装置 - Google Patents

基于动态聚类的微博时间线生成方法及装置 Download PDF

Info

Publication number
CN106294356A
CN106294356A CN201510246678.2A CN201510246678A CN106294356A CN 106294356 A CN106294356 A CN 106294356A CN 201510246678 A CN201510246678 A CN 201510246678A CN 106294356 A CN106294356 A CN 106294356A
Authority
CN
China
Prior art keywords
microblogging
node
similarity
graph
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510246678.2A
Other languages
English (en)
Inventor
范非凡
强闰伟
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201510246678.2A priority Critical patent/CN106294356A/zh
Publication of CN106294356A publication Critical patent/CN106294356A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于动态聚类的微博时间线生成方法,包括:获取与给定话题相关的多条微博;获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;根据所述微博关系图,采用聚类算法对所述微博进行分类,并从每类微博中选取代表微博;根据发布时间的先后对所有代表微博进行排序,生成微博时间线。本发明提供了一种基于动态聚类的微博时间线生成装置,包括获取单元、微博关系图构建单元、动态聚类单元及时间线生成单元。能够有效过滤冗余微博及噪音微博,建立一个鲁棒性较强、检索效果较好的微博检索系统。

Description

基于动态聚类的微博时间线生成方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及基于动态聚类的微博时间线生成方法及装置。
背景技术
近些年微博已经成为最著名的社交媒体服务之一,当用户在微博中检索信息时,倾向于获取一系列微博作为社交媒体中关于特定某个话题的历史性回顾信息。例如,一个记者想要调查过去几周发生的体育丑闻新闻,根据刚得到突然爆发的新闻信息,尝试在微博中搜索获取很多的细节信息。然而由于微博的转发和分享特性,传统的搜索引擎会返回很多包含重复信息的微博,但一个用户并不想看到完整的包含冗余信息的微博列表,因此如果检索系统能够提供一个关于该话题的总结时间线微博列表会给用户带来更多便捷。
由于微博的长度限制,面临着严重的词汇不匹配问题,并且微博内容包含很多噪音,使得识别微博间的冗余信息十分困难。而目前尚未提出关于提供一个关于给定话题的总结时间线微博列表的这一类方法和系统。
发明内容
针对现有技术的缺陷,本发明基于动态聚类的微博时间线生成方法及装置,能够有效过滤冗余微博及噪音微博,建立一个鲁棒性较强、检索效果较好的微博检索系统。
第一方面,本发明提供一种基于动态聚类的微博时间线生成方法,所述方法包括:
获取与给定话题相关的多条微博;
获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
优选地,所述获取所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图,包括:
通过预设的词嵌入模型,获得所述多条微博间的文本相似度;
根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度;
将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
优选地,所述通过预设的词嵌入模型,获得所述多条微博间的文本相似度,包括:
根据词向量工具word2vec,获得在微博语料库中训练好的词嵌入模型;
根据所述词嵌入模型,得到所述多个微博的向量形式;
根据所述多个微博的向量形式,利用公式一计算得到所述多条微博间的文本相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | 公式一
其中,ti和tj表示两条不同的微博,vi,vj分别为微博ti和tj的向量表示,i、j均为正整数。
优选地,所述根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度,包括:
在所述文本相似度的基础上,添加指数衰减函数控制微博间的时间特性,采用公式二计算得到所述多条微博间的相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | · e - γ | τ i - τ j | 公式二
其中,γ为控制时间因素影响的参数,τij为微博ti和tj的时间戳信息。
优选地,所述将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图,包括:
判断任意两条微博间的相似度是否大于预设阈值;
若所述两条微博间的相似度大于预设阈值,则在所述两条微博对应的节点间形成一条边,并将所述相似度作为该条边的权值。
优选地,所述根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博,包括:
初始化所述微博关系图中的每个节点为未标记状态;
从未标记的节点中选取连通度最高的节点;
判断所述节点对应的微博是否为噪音微博,若是,则删除所述微博;
若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点,重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记;
其中,所述中心节点对应的微博为代表微博。
优选地,所述判断所述节点对应的微博是否为噪音微博,包括:
根据语义相关性和图结构特性,生成所述节点对应的微博的多个特征;
根据所述多个特征,利用逻辑斯蒂回归分类器判断所述节点对应的微博是否与所述给定话题相关,若不相关,则所述节点对应的微博为噪音微博。
第二方面,本发明提供了一种基于动态聚类的微博时间线生成装置,所述装置包括:
获取单元,用于获取与给定话题相关的多条微博;
微博关系图构建单元,用于获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
动态聚类单元,用于根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
时间线生成单元,用于根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
优选地,所述微博关系图构建单元,具体用于:
通过预设的词嵌入模型,获得所述多条微博间的文本相似度;
根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度;
将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
优选地,所述动态聚类单元,具体用于:
初始化所述微博关系图中的每个节点为未标记状态;
从未标记的节点中选取连通度最高的节点;
判断所述节点对应的微博是否为噪音微博,若是,则删除所述微博;
若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点,重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记;
其中,所述中心节点对应的微博为代表微博。
由上述技术方案可知,本发明一种基于动态聚类的微博时间线生成方法及装置,通过星形聚类的方法来生成给定话题的不同方面的代表微博,从而过滤掉了冗余微博,从而建立一个鲁棒性较强、检索效果较好的微博检索系统。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1是本发明一实施例提供的一种基于动态聚类的微博时间线生成方法的流程示意图;
图2是本发明另一实施例提供的微博关系图构建过程的流程示意图;
图3是本发明另一实施例提供的动态聚类过程的流程示意图;
图4是本发明另一实施例提供的一种基于动态聚类的微博时间线生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明一实施例提供了一种基于动态聚类的微博时间线生成方法的流程示意图,该方法包括如下步骤:
S1:获取与给定话题相关的多条微博;
本步骤中,对于给定的话题,通过检索获取与其相关的多条微博。
S2:获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
本步骤中,获得所有微博中,任意两条微博间的相似度。
S3:根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
具体来说,根据微博关系图,采用星形聚类算法,将微博聚为几类,并从每个聚类中选取代表微博,用于显示在微博时间线中。
S4:根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
进一步地,根据生成的微博时间线,能够得到与给定话题相关的微博时间线中的代表微博,而并不包括冗余微博,如此,给用户的搜索带来更多的便捷。其中,冗余微博指信息重复的微博等。
本实施例中,如图2所示,步骤S2具体包括如下子步骤:
S21:通过预设的词嵌入模型,获得所述多条微博间的文本相似度。
具体来说,词嵌入模型,通过分布式的词向量表示单词的方式,能够将语义相近的关系或者语言规则模式等嵌入空间。则在相似上下文信息中的单词认为是语义相近的,则语音相近的单词对应的词向量则是相似的。
S22:根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度。
具体来说,根据微博的时间特性,发布时间相近的微博更有可能在讨论相同的话题,因此通过结合指数衰减函数,对微博的相似度进行进一步地计算。则在本实施例中,微博间相似度的计算同时考虑了文本相似度和时间相近性,使得相似度计算更为准确。
S23:将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
举例来说,对于一个给定的话题“陈乔恩出演新剧”,搜索得到N条与该给定话题相关的微博,则通过步骤S21至S23得到N条微博中两两之间的相似度,通过该方法能够很好地衡量相对很短的微博文档之间的相似度,如对微博T1:“东方教主参演校园爱情电影”和微博T2:“陈乔恩主演影片《至少还有你》”,如果使用传统的词袋模型来计算两条微博相似度时,相似度为0,因为两条微博分词后没有相同的词语,而通过本实施例中的词嵌入模型,能够很好的衡量这种语义相似性,特别的(东方教主,陈乔恩),(参演,主演)等具有很高的相似度。
具体来说,步骤S21具体包括如下步骤:
A01:根据词向量工具word2vec,获得在微博语料库中训练好的词嵌入模型;
具体来说,根据Skip-Gram模型,能够得到词向量用于表示微博文档中的词语。举例来说,给定一个训练语料的多个词语w1,w2,w3,…,wM,而Skip-Gram模型的训练目标是设置α最大化平均log概率和:
arg max α ( 1 M Σ t = 1 M Σ - k ≤ j ≤ k log p ( w t + j ) | w t ; α ) (1)
其中,α为优化参数,M为词语的个数,t、j、M均为正整数。则
当上述公式(1)达到最大值时,此时的α为最优参数。
A02:根据所述词嵌入模型,得到所述多个微博的向量形式。
则进一步地,通过word2vec工具在处理后的微博语料上的训练式(1)中的模型,进而得到微博中每个词语的向量表示。
A03:根据所述多个微博的向量形式,通过余弦相似度利用公式(2)计算得到所述多条微博间的文本相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | (2)
其中,ti和tj表示两条不同的微博,vi,vj分别为微博ti和tj的向量表示,i、j均为正整数。
进一步地,考虑到微博的时间特性,则步骤S22具体包括:
在所述文本相似度的基础上,添加指数衰减函数控制微博间的时间特性,采用公式(3)计算得到所述多条微博间的相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | · e - γ | τ i - τ j | (3)
其中,γ为控制时间因素影响的参数,τij为微博ti和tj的时间戳信息(发布时间)。
具体来说,步骤S23中构建微博关系图具体包括:
判断任意两条微博间的相似度是否大于预设阈值。若所述两条微博间的相似度大于预设阈值,则在所述两条微博对应的节点间形成一条边,并将所述相似度作为该条边的权值。
可理解的是,若两条微博间的相似度小于预设阈值,则不需连接两条微博对应的节点。
本实施例中,如图3所示,步骤S3中采用星形聚类算法来对多条微博进行聚类,该步骤具体包括如下子步骤:
S31:初始化所述微博关系图中的每个节点为未标记状态;
S32:从未标记的节点中选取连通度最高的节点;
其中,连通度最高包括未标记的邻居节点最多等。
S33:判断所述节点对应的微博是否为噪音微博,若是,则转至步骤S34,否则转至步骤S35;
S34:删除所述节点对应的微博,并转至步骤S36;
S35:若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点;
其中,所述中心节点对应的微博为代表微博。
S36:判断所述微博关系图中的所有节点是否全部被标记,若是,则转至步骤S37,否则转至步骤S32。
重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记。
S37:结束微博关系图的标记过程,并将所有中心节点对应的微博选为代表微博。
其中,步骤S33中判断噪音微博的过程如下:
B01、根据语义相关性和图结构特性,生成所述节点对应的微博的多个特征。
具体来说,微博的多个特征包括语义相关性特征和特定图特征。
其中,一方面,利用余弦相似度、Dice系数、Jaccard系数等方法得到若干个相似度值,作为语义相关性特征,来衡量微博与给定话题间的语义相似度;另一方面,根据微博关系图,获得与结构相关的若干个特征,如邻居节点中中心节点的数目,噪音节点的数目等作为图结构特征。
B02、根据所述多个特征,利用逻辑斯蒂回归分类器判断所述节点对应的微博是否与所述给定话题相关,若不相关,则所述节点对应的微博为噪音微博。
具体来说,根据上述特征值,来训练公式(4)中的逻辑斯蒂回归分类模型,用于检测噪音微博:
p ( y = 1 | x , θ ) σ ( θ T x ) = 1 1 + exp ( - θ T x ) (4)
其中,θ为回归系数,σ为sigmoid函数,x为特征向量,y为待预测节点。
对于噪音微博,举例来说,如对于给定话题“陈乔恩出演新剧”,微博“陈乔恩生日快乐”与该给定话题有一定的相关性,则通过利用词嵌入方法对微博语料库训练的模型,来计算该微博与给定话题的语义相关性特征,并结合聚类中的图结构信息,如该微博邻居节点中相关微博的数量和噪音节点的数量等,利用逻辑斯蒂回归分类训练后的模型可判断该微博与此给定话题无关,尽管都是“陈乔恩”的相关新闻。
本实施例提供了一种基于动态聚类的微博时间线生成方法,通过星形聚类的方法来生成给定话题的不同方面的代表微博,从而过滤掉了冗余微博,生成微博时间线,从而建立一个鲁棒性较强、检索效果较好的微博检索系统。
如图4所示,为本发明另一实施例提供的一种基于动态聚类的微博时间线生成装置,所述装置包括:
获取单元401,用于获取与给定话题相关的多条微博;
微博关系图构建单元402,用于获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
动态聚类单元403,用于根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
时间线生成单元404,用于根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
其中,所述微博关系图构建单元402,具体用于:
通过预设的词嵌入模型,获得所述多条微博间的文本相似度;
根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度;
将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
其中,所述动态聚类单元403,具体用于:
初始化所述微博关系图中的每个节点为未标记状态;
从未标记的节点中选取连通度最高的节点;
判断所述节点对应的微博是否为噪音微博,若是,则删除所述微博;
若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点,重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记;
其中,所述中心节点对应的微博为代表微博。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
应当注意的是,在本公开的系统的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本公开不受限于此,可以根据需要对各个部件进行重新划分或者组合,例如,可以将一些部件组合为单个部件,或者可以将一些部件进一步分解为更多的子部件。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的系统中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上实施方式仅适于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (10)

1.一种基于动态聚类的微博时间线生成方法,其特征在于,所述方法包括:
获取与给定话题相关的多条微博;
获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
2.根据权利要求1所述的方法,其特征在于,所述获取所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图,包括:
通过预设的词嵌入模型,获得所述多条微博间的文本相似度;
根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度;
将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
3.根据权利要求2所述的方法,其特征在于,所述通过预设的词嵌入模型,获得所述多条微博间的文本相似度,包括:
根据词向量工具word2vec,获得在微博语料库中训练好的词嵌入模型;
根据所述词嵌入模型,得到所述多个微博的向量形式;
根据所述多个微博的向量形式,利用公式一计算得到所述多条微博间的文本相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | 公式一
其中,ti和tj表示两条不同的微博,vi,vj分别为微博ti和tj的向量表示,i、j均为正整数。
4.根据权利要求3所述的方法,其特征在于,所述根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度,包括:
在所述文本相似度的基础上,添加指数衰减函数控制微博间的时间特性,采用公式二计算得到所述多条微博间的相似度:
sim ( t i , t j ) = | v i · v j | | v i | · | v j | · e - γ | τ i - τ j | 公式二
其中,γ为控制时间因素影响的参数,τij为微博ti和tj的时间戳信息。
5.根据权利要求2所述的方法,其特征在于,所述将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图,包括:
判断任意两条微博间的相似度是否大于预设阈值;
若所述两条微博间的相似度大于预设阈值,则在所述两条微博对应的节点间形成一条边,并将所述相似度作为该条边的权值。
6.根据权利要求2所述的方法,其特征在于,所述根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博,包括:
初始化所述微博关系图中的每个节点为未标记状态;
从未标记的节点中选取连通度最高的节点;
判断所述节点对应的微博是否为噪音微博,若是,则删除所述微博;
若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点,重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记;
其中,所述中心节点对应的微博为代表微博。
7.根据权利要求6所述的方法,其特征在于,所述判断所述节点对应的微博是否为噪音微博,包括:
根据语义相关性和图结构特性,生成所述节点对应的微博的多个特征;
根据所述多个特征,利用逻辑斯蒂回归分类器判断所述节点对应的微博是否与所述给定话题相关,若不相关,则所述节点对应的微博为噪音微博。
8.一种基于动态聚类的微博时间线生成装置,其特征在于,所述装置包括:
获取单元,用于获取与给定话题相关的多条微博;
微博关系图构建单元,用于获得所述多条微博间的相似度,并根据所述多条微博间的相似度构建微博关系图;
动态聚类单元,用于根据所述微博关系图,采用聚类算法对所述多条微博进行分类,并从每类微博中选取代表微博;
时间线生成单元,用于根据发布时间的先后对所有代表微博进行排序,生成微博时间线。
9.根据权利要求8所述的装置,其特征在于,所述微博关系图构建单元,具体用于:
通过预设的词嵌入模型,获得所述多条微博间的文本相似度;
根据微博间的发布时间差,在所述文本相似度的基础上,利用指数衰减函数获得所述多条微博间的相似度;
将每条微博作为一个节点,将所述微博间的相似度作为边的权值,形成微博关系图。
10.根据权利要求9所述的装置,其特征在于,所述动态聚类单元,具体用于:
初始化所述微博关系图中的每个节点为未标记状态;
从未标记的节点中选取连通度最高的节点;
判断所述节点对应的微博是否为噪音微博,若是,则删除所述微博;
若所述节点对应的微博不是噪音微博,则将所述节点标记为中心节点,将与所述节点相连的节点标记为邻居节点,重复执行从未标记的节点中选取连通度最高的节点的步骤,直至所述微博关系图中的所有节点均被标记;
其中,所述中心节点对应的微博为代表微博。
CN201510246678.2A 2015-05-14 2015-05-14 基于动态聚类的微博时间线生成方法及装置 Pending CN106294356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510246678.2A CN106294356A (zh) 2015-05-14 2015-05-14 基于动态聚类的微博时间线生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510246678.2A CN106294356A (zh) 2015-05-14 2015-05-14 基于动态聚类的微博时间线生成方法及装置

Publications (1)

Publication Number Publication Date
CN106294356A true CN106294356A (zh) 2017-01-04

Family

ID=57631850

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510246678.2A Pending CN106294356A (zh) 2015-05-14 2015-05-14 基于动态聚类的微博时间线生成方法及装置

Country Status (1)

Country Link
CN (1) CN106294356A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008334A (zh) * 2017-08-04 2019-07-12 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN103164428A (zh) * 2011-12-13 2013-06-19 富士通株式会社 确定微博与给定实体的相关性的方法和装置
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN104484343A (zh) * 2014-11-26 2015-04-01 无锡清华信息科学与技术国家实验室物联网技术中心 一种对微博进行主题发现与追踪的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李辉: "《基于时间线的时间组织与摘要技术的研究与应用》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008334A (zh) * 2017-08-04 2019-07-12 腾讯科技(北京)有限公司 一种信息处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN105701216B (zh) 一种信息推送方法及装置
CN104899302B (zh) 向用户推荐音乐的方法和装置
CN103729359B (zh) 一种推荐搜索词的方法及系统
CN104008106B (zh) 一种获取热点话题的方法及装置
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN103916436B (zh) 信息推送方法、装置、终端及服务器
CN111523831B (zh) 风险团伙的识别方法、装置、存储介质和计算机设备
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
US20100235343A1 (en) Predicting Interestingness of Questions in Community Question Answering
CN105874753A (zh) 用于社交数据网络用户行为细分的系统和方法
CN106649849A (zh) 文本信息库建立方法和装置、以及搜索方法、装置和系统
US20210118024A1 (en) Multi-label product categorization
CN102737092A (zh) 内容推荐装置、推荐内容搜索方法和程序
CN106776860A (zh) 一种搜索摘要生成方法及装置
CN111191099B (zh) 一种基于社交媒体的用户活动类型识别方法
CN109241455B (zh) 一种推荐对象的展示方法及装置
CN109255000A (zh) 一种标签数据的维度管理方法及装置
CN107045533A (zh) 基于标签的教育资源推荐方法及系统
CN106557476A (zh) 相关信息的获取方法及装置
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN110245355A (zh) 文本话题检测方法、装置、服务器及存储介质
CN108305181A (zh) 社交影响力确定、信息投放方法及装置、设备及存储介质
CN109992665A (zh) 一种基于问题目标特征扩展的分类方法
CN110020200A (zh) 一种基于历史素材的个性化推荐方法与系统
CN106910135A (zh) 用户推荐方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104

RJ01 Rejection of invention patent application after publication