CN103823890B - 一种针对特定群体的微博热点话题检测方法及装置 - Google Patents

一种针对特定群体的微博热点话题检测方法及装置 Download PDF

Info

Publication number
CN103823890B
CN103823890B CN201410085760.7A CN201410085760A CN103823890B CN 103823890 B CN103823890 B CN 103823890B CN 201410085760 A CN201410085760 A CN 201410085760A CN 103823890 B CN103823890 B CN 103823890B
Authority
CN
China
Prior art keywords
topic
microblogging
user
class
community
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410085760.7A
Other languages
English (en)
Other versions
CN103823890A (zh
Inventor
谭郅聪
张鹏
翟立东
杜跃进
谭建龙
郭莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201410085760.7A priority Critical patent/CN103823890B/zh
Publication of CN103823890A publication Critical patent/CN103823890A/zh
Application granted granted Critical
Publication of CN103823890B publication Critical patent/CN103823890B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种针对特定群体的微博热点话题检测方法及装置,包括以下步骤:根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类;根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类;根据用户社区和概要话题类构建社区话题矩阵;将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类分别进行聚簇分类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。本发明获取热点话题事件的多层次结果,最终通过微博来代表某个社区所感兴趣的热点事件。

Description

一种针对特定群体的微博热点话题检测方法及装置
技术领域
本发明涉及数据挖掘的舆情态势感知领域,特别涉及一种针对特定群体的微博热点话题检测方法及装置。
背景技术
近年来,以微博为代表的社交网络正在人们生活中扮演着越来越重要的角色,社交网络的用户的规模也迅速上升。而大量的用户规模和由此产生的大量微博蕴含着丰富的舆情信息,这些舆情信息对捕捉当前社会热点,跟踪舆情导向和社会态势具有十分重要的意义。因此,针对微博的热点话题检测技术成为了近年来的一个核心舆情研究点。由于微博文本具有长度较短(不超过140个中文字符),并且更新快,新词多,流量巨大等特点,针对微博热点话题的检测仍然是一个研究难点。目前对微博热点话题的检测方法主要使用典型的分类算法进行相似度计算来进行话题的分类,并且是针对全网用户挖掘的普遍意义上的热点话题。虽然这类方法也能够在一定程度上成功地进行微博热点挖掘,但是他们无法解决以下二个问题:第一、挖掘的热点话题不具有针对性,由于微博产生的舆情信息不仅仅具有文本内容,还有明显的用户兴趣分布,因此,特定的热点话题只有指定其感兴趣的特定用户群体才有现实意义。而如何准确进行基于用户兴趣的社区分类并且在该基础上进行用户社区的兴趣挖掘是进行针对特定群体的微博热点话题检测技术的重要基础。第二、当前的热点挖掘方法挖掘出的仅仅一些短语性的概要热点话题,并不能充分反映当前的热点事件。一个完整的热点事件至少包含事件六要素,即时间,地点,人物,事件内容,时间起因和事件发展过程。如果要完整地描述一个事件,至少需要以上六要素中的四个要素。并且当前的热点话题的定义非常模糊,从一条短语到一个微博事件都可以理解成为热点话题,因为,挖掘的结果形式也不统一。综上所述,如何对特定的用户群体挖掘具有明确事件意义的微博热点话题成为最重要的研究内容。
发明内容
本发明所要解决的技术问题是提供一种能够进行多层次热点话题挖掘、并且针对不同用户群体展示不同热点话题的微博热点话题检测方法及装置。
本发明解决上述技术问题的技术方案如下:一种针对特定群体的微博热点话题检测方法,包括以下步骤:
步骤1:获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
步骤2:根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
步骤3:根据用户社区和概要话题类构建社区话题矩阵,社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
步骤4:采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
步骤5:选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
本发明的有益效果是:选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣,并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤3中社区话题矩阵中的元素数值的计算方法具体为:
E i , j = Σ k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i,第j列的矩阵元素,k是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
采用上述进一步方案的有益效果是:通过计算话题的代表词语在用户社区发言内容中加权权重来代表每个用户社区对该话题的感兴趣程度能够非常好的量化捕捉每个社区用户兴趣所在,进而为下一步的基于用户社区兴趣的热点话题发现提供了依据。
进一步,所述步骤5中进行聚簇分类时采用的分类公式为:
V = arg s sin Σ i = 1 k Σ x j ∈ S i | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,...,xn)表示给定的观测点集合,n表示观测点的个数,k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中,S={S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小,假设有k个群组Si,(1=<i<=k),ui表示群组Si所有元素的中心点。
采用上述进一步方案的有益效果是:在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇,每个事件聚簇来描述粒度更细的某一具体事件。
进一步,所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
采用上述进一步方案的有益效果是:从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博,并且使用该微博代表相应对用社区所感兴趣的热点事件,使得挖掘出的结果具备事件级别的意义。
进一步,一种针对特定群体的微博热点话题检测装置,包括获取分类模块,抽取模块,构建模块,余弦相似度分类模块和聚簇提取模块;
获取分类模块,用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
抽取模块,用于根据获取分类模块获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
构建模块,用于根据获取分类模块得到的用户社区和抽取模块概要话题类构建社区话题矩阵,社区话题矩阵中的元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
余弦相似度分类模块,用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
聚簇提取模块,用于选取构建模块构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的由余弦相似度分类模块放入的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
采用上述进一步方案的有益效果是:选取矩阵元素数值最大的前N个概要话题进行事件聚簇并且进行中心热点事件的抽取保证了提供给相应用户社区的热点事件符合社区用户的兴趣,并且通过使用具体的微博代表热点话题赋予热点话题更明确的事件意义。
进一步,所述构建模块中社区话题矩阵中的矩阵元素数值的计算方法具体为:
E i , j = &Sigma; k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i,第j列的矩阵元素,k是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
采用上述进一步方案的有益效果是:在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇,每个事件聚簇来描述粒度更细的某一具体事件。
进一步,所述聚簇提取模块中进行聚簇分类时采用的分类公式为:
V = arg s sin &Sigma; i = 1 k &Sigma; x j &Element; S i | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,...,xn)表示给定的观测点集合,n表示观测点的个数,k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中,S={S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小,假设有k个群组Si,(1=<i<=k),ui表示群组Si所有元素的中心点。
采用上述进一步方案的有益效果是:采用上述进一步方案的有益效果是:在概要话题类的基础上进一步细分将概要话题类细分成事件聚簇,每个事件聚簇来描述粒度更细的某一具体事件。
进一步,所述聚簇提取模块中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
采用上述进一步方案的有益效果是:从每个事件聚簇中抽取最能够代表该事件聚簇的某一具体的微博,并且使用该微博代表相应对用社区所感兴趣的热点事件,使得挖掘出的结果具备事件级别的意义。
附图说明
图1为本发明方法步骤流程图;
图2为本发明装置结构图;
图3为本发明总体话题检测模型示意图;
图4为本发明步骤2中话题模型生成的部分话题的示意图;
图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明方法步骤流程图;图2为本发明装置结构图;图3为本发明总体话题检测模型示意图;图4为本发明步骤2中话题模型生成的部分话题的示意图;图5为本发明步骤5中某个特定用户社区话题检测的排名示意图。
实施例1
一种针对特定群体的微博热点话题检测方法,包括以下步骤:
步骤1:获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
此过程针对获取的微博用户关系数据进行社区分类,采用的一种凝聚聚类的方法,使用该方法能够使不同的用户社区的模块聚簇度达到最优。采用从新浪微博上选取的各领域的若干位大V用户作为种子节点,采用广度优先搜索的策略获取他们所关注的用户并且获取这些用户之间共有相联系的边,每条边代表用户之间的关注关系。通过进行社区分类得到若干用户社区。每个用户社区和对应的所有用户ID存贮在用户文件中;
步骤2:根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
步骤2中对步骤(一)获取的微博用户的微博内容进行话题生成,使用LDA模型对这些非结构化的文本进行话题的抽取。在实验中,对于LDA模型的输入参数,我们设定话题数量为50,用来表示每个话题词语数量为25。其生成结果的前十个话题如图2.该步骤生成的每个话题由一组相关词汇表示,这样一个话题类成为概要话题类,用户能够通过该概要话题类的一系列描述性的词语来确定该概要话题描述的内容。该步骤从数据库中读取原始微博文本,处理生成的微博话题存储于文件中;
步骤3:根据用户社区和概要话题类构建社区话题矩阵,社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
步骤3中用户兴趣特征的抽取最关键的步骤是构造社区话题矩阵。该矩阵的列是代表步骤(一)中获取的用户社区,该矩阵的行是步骤(二)中生成的微博话题。每个矩阵元素可以反映不同的用户社区对不同话题的感兴趣程度,矩阵元素数值越大,表明对应的用户社区对某个话题的兴趣程度越大。对某一特定的用户社区,只需要针对话题兴趣较高的话题进行热点话题检测,从而个性化地开展热点话题检测工作;
步骤4:采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
此过程中采集种子用户及中所有用户在特定时间内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和步骤(二)中得到的概要话题类进行矢量化处理,计算每条微博文本矢量与每个概要话题类矢量的余弦相似度,把微博文本放到获得最大余弦相似度的概要话题类中;
步骤5:选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
步骤五中采用事件聚簇分类的目的就是为了使得每个事件聚簇描述同一个微博事件,进而为下一步的中心事件挖掘做准备。完成了事件聚簇分类后,下一步要对每个事件聚簇提取中心热点事件。中心热点事件是在事件聚簇中占有非常重要地位的热点事件,这样的事件能够代表整个事件聚簇;
所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为:
E i , j = &Sigma; k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i,第j列的矩阵元素,k是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
所述步骤5中进行聚簇分类时采用的分类公式为:
V = arg s sin &Sigma; i = 1 k &Sigma; x j &Element; S i | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,...,xn)表示给定的观测点集合,n表示观测点的个数,k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中,S={S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小,假设有k个群组Si,(1=<i<=k),ui表示群组Si所有元素的中心点。
所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
一种针对特定群体的微博热点话题检测装置,包括获取分类模块1,抽取模块2,构建模块3,余弦相似度分类模块4和聚簇提取模块5;
获取分类模块1,用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
抽取模块2,用于根据获取分类模块1获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
构建模块3,用于根据获取分类模块1得到的用户社区和抽取模块2概要话题类构建社区话题矩阵,社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
余弦相似度分类模块4,用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
聚簇提取模块5,用于选取构建模块3构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的由余弦相似度分类模块4放入的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
所述构建模块3中社区话题矩阵中的矩阵元素数值的计算方法具体为:
E i , j = &Sigma; k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i,第j列的矩阵元素,k是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
所述聚簇提取模块5中进行聚簇分类时采用的分类公式为:
V = arg s sin &Sigma; i = 1 k &Sigma; x j &Element; S i | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,...,xn)表示给定的观测点集合,n表示观测点的个数,k表示分类的集合个数,算法意在将n个观测点分类进入k个集合中,S={S1,S2,...,Sk}表示k个分类集合,从而使得目标函数群组内部均方差总和最小,假设有k个群组Si,(1=<i<=k),ui表示群组Si所有元素的中心点。
我们设置迭代次数为10,每个概要话题类的事件聚簇数量为5,通过对50个概要话题类的事件聚簇分类之后,得到250个事件聚簇类。
所述聚簇提取模块5中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
对完成中文分词,去停用词之后的文本,我们需要进行文本的概要话题分类。对于要进行话题分类的文本获取,我们首先选取300种子微博用户,选择这些用户在2013年4月24号到2013年4月26号的微博,我们从这三天的微博中采用每天的4800条微博作为我们的测试数据集。
对于完成测试集按照本发明提出的模型进行热点话题检测能够很好的发现当前针对特定用户群体兴趣的热点话题。具体的话题检测结果排名(第50个事件聚簇的排名前十名的微博)如图5。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种针对特定群体的微博热点话题检测方法,其特征在于,包括以下步骤:
步骤1:获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
步骤2:根据获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
步骤3:根据用户社区和概要话题类构建社区话题矩阵,社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
步骤4:采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
步骤5:选取社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
2.根据权利要求1所述的微博热点话题检测方法,其特征在于,所述步骤3中社区话题矩阵中的矩阵元素数值的计算方法具体为:
E i , j = &Sigma; k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i行,第j列的矩阵元素,n是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
3.根据权利要求1所述的微博热点话题检测方法,其特征在于,所述步骤5中进行聚簇分类时采用的分类公式为:
V = arg s min &Sigma; i = 1 M &Sigma; x j &Element; S i | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,....,xj,...,xn)表示给定的观测点集合,xj表示集合中的一个观测点,n表示观测点的个数,M表示分类的集合个数,算法意在将n个观测点分类进入M个集合中,S={S1,S2,...,SM}表示M个分类集合,从而使得目标函数群组内部均方差总和最小,假设有M个群组Si,(1≤i≤M),ui表示群组Si所有元素的中心点。
4.根据权利要求1所述的微博热点话题检测方法,其特征在于,所述步骤5中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
5.一种针对特定群体的微博热点话题检测装置,其特征在于:包括获取分类模块(1),抽取模块(2),构建模块(3),余弦相似度分类模块(4)和聚簇提取模块(5):
获取分类模块(1),用于获取微博上各领域中各个认证用户所关注的用户、认证用户与被认证用户关注的用户之间的关注关系、及各个认证用户及其关注的用户发布的微博,根据认证用户与被认证用户关注的用户之间的关注关系对微博中的所有用户进行社区分类,得到多个用户社区;
抽取模块(2),用于根据获取分类模块(1)获取的各个认证用户及其关注的用户发布的微博的内容抽取话题,得到多个概要话题类,每个概要话题类由一组相关词汇组成,将生成的概要话题类存储于话题文件中;
构建模块(3),用于根据获取分类模块(1)得到的用户社区和抽取模块(2)概要话题类构建社区话题矩阵,社区话题矩阵中的矩阵元素为反应不同用户社区对不同概要话题类的感兴趣程度的数值;
余弦相似度分类模块(4),用于采集各个认证用户及其关注的用户在某一时间段内发布的所有微博文本作为测试数据集,对测试数据集中的每条微博文本和概要话题类进行矢量处理,得到微博文本矢量和概要话题类矢量,对微博文本矢量和概要话题类矢量进行余弦相似度处理,将与微博文本矢量对应的微博文本放到与微博文本矢量的余弦相似度最大的概要话题类中;
聚簇提取模块(5),用于选取构建模块(3)构建的社区话题矩阵中若干个矩阵元素数值最大的概要话题类,对该若干概要话题类中的由余弦相似度分类模块(4)放入的所有微博文本分别进行聚簇分类,每个概要话题类中得到多个事件聚簇类,分别提取每个事件聚簇类的中心热点事件,并将得到的中心热点事件展示给对应的用户社区。
6.根据权利要求5所述的微博热点话题检测装置,其特征在于:所述构建模块(3)中社区话题矩阵中的矩阵元素数值的计算方法具体为:
E i , j = &Sigma; k = 1 n C j ( T i , k ) * N ( T i , k )
其中,Ei,j是第i行,第j列的矩阵元素,n是代表每个话题的词语数量,Ti,k是代表话题i的第k个词语,Cj(Ti,k)是词语Ti,k在社区j的出现次数,N(Ti,k)是词语Ti,k的权重。
7.根据权利要求5所述的微博热点话题检测装置,其特征在于:所述聚簇提取模块(5)中进行聚簇分类时采用的分类公式为:
V = arg s m i n &Sigma; i = 1 M &Sigma; x j &Element; S | | x j - u i | | 2
V表示均方差目标函数,(x1,x2,x3,...,xj...,xn)表示给定的观测点集合,xj表示集合中的一个观测点,n表示观测点的个数,M表示分类的集合个数,算法意在将n个观测点分类进入M个集合中,S={S1,S2,...,SM}表示M个分类集合,从而使得目标函数群组内部均方差总和最小,假设有M个群组Si,(1≤i≤M),ui表示群组Si所有元素的中心点。
8.根据权利要求5所述的微博热点话题检测装置,其特征在于:所述聚簇提取模块(5)中提取每个事件聚簇类的中心热点事件时采用的函数为:
Ti=(Ri+2*Ci)*Si,k*100
其中,Ti表示用来筛选中心热点微博的分数,Ri表示微博i的转发数量,Ci表示微博i的评论数量,Si,k表示微博i和话题k的余弦相似度。
CN201410085760.7A 2014-03-10 2014-03-10 一种针对特定群体的微博热点话题检测方法及装置 Expired - Fee Related CN103823890B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410085760.7A CN103823890B (zh) 2014-03-10 2014-03-10 一种针对特定群体的微博热点话题检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410085760.7A CN103823890B (zh) 2014-03-10 2014-03-10 一种针对特定群体的微博热点话题检测方法及装置

Publications (2)

Publication Number Publication Date
CN103823890A CN103823890A (zh) 2014-05-28
CN103823890B true CN103823890B (zh) 2016-11-02

Family

ID=50758954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410085760.7A Expired - Fee Related CN103823890B (zh) 2014-03-10 2014-03-10 一种针对特定群体的微博热点话题检测方法及装置

Country Status (1)

Country Link
CN (1) CN103823890B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361008A (zh) * 2014-10-11 2015-02-18 北京中搜网络技术股份有限公司 一种基于词典或/和阈值的微博分类方法
CN104462286A (zh) * 2014-11-27 2015-03-25 重庆邮电大学 一种基于改进的lda的微博话题发现方法
CN104933475A (zh) * 2015-05-27 2015-09-23 国家计算机网络与信息安全管理中心 网络转发行为预测方法及装置
CN104991973B (zh) * 2015-07-31 2018-11-13 网易传媒科技(北京)有限公司 一种用户兴趣领域的确定方法和设备
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN105608217B (zh) * 2015-12-31 2019-03-26 中国科学院电子学研究所 一种基于遥感数据的热点主题展示方法
CN106055657B (zh) * 2016-06-03 2019-10-01 网智天元科技集团股份有限公司 用于特定人群的观影指数评价系统
CN107704460A (zh) * 2016-06-22 2018-02-16 北大方正集团有限公司 用户关系抽取方法和用户关系抽取系统
CN106202061B (zh) * 2016-06-28 2018-09-14 大连民族大学 面向跨境电子商务平台的汉英蒙藏维多语机器翻译系统及方法
CN106933949B (zh) * 2017-01-20 2020-09-11 浙江大学 一种控制社交网络中影响力爆发的规划方法
CN107644089B (zh) * 2017-09-26 2020-08-04 武大吉奥信息技术有限公司 一种基于网络媒体的热门事件提取方法
CN109447833A (zh) * 2018-09-26 2019-03-08 江苏大学 一种大规模微博用户兴趣群体发现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法
CN103150310A (zh) * 2011-12-07 2013-06-12 腾讯科技(深圳)有限公司 一种提取热点信息的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8312108B2 (en) * 2007-05-22 2012-11-13 Yahoo! Inc. Hot within my communities
US9473584B2 (en) * 2012-12-20 2016-10-18 Daniel Sullivan Contribution filtering for online community advocacy management platform

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103150310A (zh) * 2011-12-07 2013-06-12 腾讯科技(深圳)有限公司 一种提取热点信息的方法及装置
CN103023714A (zh) * 2012-11-21 2013-04-03 上海交通大学 基于网络话题的活跃度与集群结构分析系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Community Detection with Edge Content in SocialMedia Networks;Guo-Jun Qi等;《2012 IEEE 28th International Conference on Data Engineering》;20120405;全文 *
Finding Bursty Topics from Microblogs;QimingDiao等;《Proceedings of the 50th Annual Meeting of the Association for Computational Linguistic》;20120714;全文 *
基于特定领域的中文微博热点话题挖掘系统BTopicMiner;李劲等;《计算机应用》;20120831;全文 *
基于用户角色定位的微博热点话题检测方法;杨武等;《计算机应用》;20131130;全文 *
微博社区谣言传播和舆情挖掘研究;肖银涛;《万方数据知识服务平台》;20110824;全文 *

Also Published As

Publication number Publication date
CN103823890A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823890B (zh) 一种针对特定群体的微博热点话题检测方法及装置
CN103970729B (zh) 一种基于语义类的多主题提取方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103745000B (zh) 一种中文微博客的热点话题检测方法
CN103500175B (zh) 一种基于情感分析在线检测微博热点事件的方法
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN105975984B (zh) 基于证据理论的网络质量评价方法
CN105045875B (zh) 个性化信息检索方法及装置
CN109446331A (zh) 一种文本情绪分类模型建立方法及文本情绪分类方法
CN108228853A (zh) 一种微博谣言识别方法及系统
CN106815297A (zh) 一种学术资源推荐服务系统与方法
CN109492026A (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN109359137B (zh) 基于特征筛选与半监督学习的用户成长性画像构建方法
CN104008090A (zh) 一种基于概念向量模型的多主题提取方法
CN105654144B (zh) 一种基于机器学习的社交网络本体构建方法
CN106815310A (zh) 一种对海量文档集的层次聚类方法及系统
CN104636424A (zh) 一种基于图谱分析构建文献综述框架的方法
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN107273295A (zh) 一种基于文本混乱度的软件问题报告分类方法
CN101556582A (zh) 论坛网民兴趣分析预测系统
CN103886020A (zh) 一种房地产信息快速搜索方法
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
CN101894129A (zh) 基于在线视频分享网站结构及视频描述文本信息的视频主题发现的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161102